CN110991185A - 一种文章中实体的属性抽取方法及装置 - Google Patents

一种文章中实体的属性抽取方法及装置 Download PDF

Info

Publication number
CN110991185A
CN110991185A CN201911072740.5A CN201911072740A CN110991185A CN 110991185 A CN110991185 A CN 110991185A CN 201911072740 A CN201911072740 A CN 201911072740A CN 110991185 A CN110991185 A CN 110991185A
Authority
CN
China
Prior art keywords
word
article
words
sequence
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911072740.5A
Other languages
English (en)
Inventor
高丛
苏少炜
陈孝良
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN201911072740.5A priority Critical patent/CN110991185A/zh
Publication of CN110991185A publication Critical patent/CN110991185A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种文章中实体的属性抽取方法及装置,确定在文章中各词语的绝对位置和相对位置;根据各词语、各词语的绝对位置和相对位置,确定各词语对应的词向量,得到文章对应的词向量序列;将各词语的顺序信息编码到文章对应的词向量序列中,得到编码后的词向量序列;将编码后的词向量序列输入至标注层中,得到文章对应的标签序列,标签序列中的各标签表示对应词语与属性值的映射关系信息。通过使用绝对位置和相对位置记录词语在文章的位置信息,并将位置信息编码到词语的向量表示中,给了序列标注额外的信息提示,同时不至于由位置信息直接决定输出标签,能够提高标注的准确性。

Description

一种文章中实体的属性抽取方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤指一种文章中实体的属性抽取方法及装置。
背景技术
在人工智能技术与应用大规模涌现的背景下,以三元组形式表示的知识是构成知识图谱的基础,也是推动人工智能技术发展的强大驱动力。一条三元组形式表示的知识如(张三,出生日期,1979年1月18日)表达了实体“张三”的“出生日期”属性,三元组的三个部分分别被称作主语、谓语、宾语。介绍性的文章(如在线百科)通常围绕同一个主语实体进行描述,密集的介绍了实体的大量属性。如何从介绍性文章的自然语言叙述中抽取出结构化表示的属性值(即知识三元组)对于知识获取和知识应用都是至关重要的技术。
发明内容
本发明实施例提供一种文章中实体的属性抽取方法及装置,用以提高词语属性标注的准确性。
一方面,本发明实施例提供了一种文章中实体的属性抽取方法,包括:
确定在文章中各词语的绝对位置和相对位置;
根据各所述词语、各所述词语的绝对位置和相对位置,确定各所述词语对应的词向量,得到所述文章对应的词向量序列;
将各所述词语的顺序信息编码到所述文章对应的词向量序列中,得到编码后的词向量序列;
将编码后的词向量序列输入至标注层中,得到所述文章对应的标签序列,所述标签序列中的各标签表示对应词语与属性值的映射关系信息。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述确定在文章中各词语的绝对位置,具体包括:
将所述词语在文章中所处语句的序号作为所述词语的绝对位置。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述确定在文章中各词语的相对位置,具体包括:
将所述词语在文章中所处语句的序号占全部语句数量的比例作为所述词语的相对位置;或,
将所述词语在文章中所处词语的序号在全部词语数量的比例作为所述词语的相对位置。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述根据各所述词语、各所述词语的绝对位置和相对位置,确定各所述词语对应的词向量,具体包括:
确定各所述词语对应的向量;
确定各所述词语的绝对位置和相对位置分别对应的向量;
将所述词语对应的向量、所述词语的绝对位置和相对位置分别对应的向量拼接成一个词向量。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述将各所述词语的顺序信息编码到所述文章对应的词向量序列中,得到编码后的词向量序列,具体包括:
将所述文章对应的词向量序列输入至循环神经网络层、前馈神经网络层或卷积神经网络层中,得到编码后的词向量序列。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,在确定在文章中各词语的绝对位置和相对位置之前,还包括:
对文章进行预处理,所述预处理包括分句、分词、英文大小写转换和去除标点的操作。
另一方面,本发明实施例还提供了一种文章中实体的属性抽取装置,包括:
计算模块,用于确定在文章中各词语的绝对位置和相对位置;
向量化模块,用于根据各所述词语、各所述词语的绝对位置和相对位置,确定各所述词语对应的词向量,得到所述文章对应的词向量序列;
编码模块,用于将各所述词语的顺序信息编码到所述文章对应的词向量序列中,得到编码后的词向量序列;
标注模块,用于将编码后的词向量序列输入至标注层中,得到所述文章对应的标签序列,所述标签序列中的各标签表示对应词语与属性值的映射关系信息。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述计算模块,具体用于将所述词语在文章中所处语句的序号作为所述词语的绝对位置。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述计算模块,具体用于将所述词语在文章中所处语句的序号占全部语句数量的比例作为所述词语的相对位置;或,将所述词语在文章中所处词语的序号在全部词语数量的比例作为所述词语的相对位置。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述向量化模块,具体用于确定各所述词语对应的向量;确定各所述词语的绝对位置和相对位置分别对应的向量;将所述词语对应的向量、所述词语的绝对位置和相对位置分别对应的向量拼接成一个词向量。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述编码模块,具体用于将所述文章对应的词向量序列输入至循环神经网络层、前馈神经网络层或卷积神经网络层中,得到编码后的词向量序列。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,还包括:预处理模块,用于对文章进行预处理,所述预处理包括分句、分词、英文大小写转换和去除标点的操作。
本发明有益效果如下:
本发明实施例提供的一种文章中实体的属性抽取方法及装置,确定在文章中各词语的绝对位置和相对位置;根据各词语、各词语的绝对位置和相对位置,确定各词语对应的词向量,得到文章对应的词向量序列;将各词语的顺序信息编码到文章对应的词向量序列中,得到编码后的词向量序列;将编码后的词向量序列输入至标注层中,得到文章对应的标签序列,标签序列中的各标签表示对应词语与属性值的映射关系信息。通过使用绝对位置和相对位置记录词语在文章的位置信息,并将位置信息编码到词语的向量表示中,给了序列标注额外的信息提示,同时不至于由位置信息直接决定输出标签,能够提高标注的准确性。
附图说明
图1为本发明实施例提供的文章中实体的属性抽取方法的流程图;
图2为本发明实施例提供的文章中实体的属性抽取方法的具体流程图;
图3为采用本发明实施例提供的文章中实体的属性抽取方法的实例流程图;
图4为本发明实施例提供的文章中实体的属性抽取装置的结构示意图。
具体实施方式
规则法是常见的属性抽取方法之一。规则法是通过人工经验或算法从语料中总结出描述属性值常用的自然语言句式,抽象成规则模板,然后从数据集中抽取出与规则模板匹配的属性值。如“<person>出生(于|在)<date>”是一条定义人物出生日期的模板,当发现句子“周杰伦出生于1979年1月18日”与该模板匹配,即可抽取出属性三元组(周杰伦,出生日期,1979年1月18日)。规则法对人工的依赖很高,大部分使用规则法的系统还是依靠人工编写模板,缺少自动化,人工成本高。且规则法泛化能力差,句子只有与规则模板严格匹配才能从中抽取属性值,若模板中没有编辑句末语气词,那么只要句子尾部多一个语气词就无法再与模板匹配。若要覆盖更多的句式就需要大量的规则模板,当模板集合量变得庞大时就会难以理解与维护,模板之间还可能产生冲突与冗余等问题。
关系分类是常见的属性抽取方法之一。关系分类是一类方法的统称,这类方法的流程大致相同。首先通过命名实体识别(Named Entity Recognition,NER) 技术识别出句子中的实体,常见的实体类型有人物、地名、时间、组织名等。对于包含两个及以上实体的句子,将句中的两个实体作为候选实体对,构建特征向量,输入机器学习模型对两个实体间的关系进行分类。如句子“周杰伦出生于1979年1月18日”可以识别出人物实体“周杰伦”和时间实体“1979 年1月18日”,特征向量可以是诸如神经网络(Neural Network)的机器学习模型学到的词向量(Word Embedding)序列,也可以是人工设计的特征构成的向量,如[候选实体间的距离,候选实体中有几个人物实体,候选实体中有几个时间实体,候选实体之间是否存在“出生于”这几个字]对应的特征向量就是[5,1,1,1]。机器学习模型可选传统的分类模型(决策树,支持向量机等) 或深度学习模型(卷积神经网络、循环神经网络等),对关系进行二分类(实体间是出生日期关系,实体间不是出生日期关系)或多分类(实体间不存在任何关系,实体间是出生日期关系,实体间是出生地点关系,实体间是父子关系等)。
在关系分类中宾语必须是命名实体识别模型可以识别到的实体。如果模型识别不到某一类实体,那么和这一类实体相关的关系就都无法检测出来。且命名实体识别过程会有错误累积,如果命名实体识别错了,那么关系分类的结果必然是错的。此外,分类模型包含目标属性信息很少。如果采用传统机器学习模型,需要人工提取特征,特征中能够包含的信息依赖于人工的经验,如果采用神经网络模型,通常直接将句子中每个词的词向量作为特征,并不额外引入目标属性相关的信息。
将文章的词向量序列输入到双向长短期记忆网络-条件随机场模型 (Bi-directional Long Short-Term Memory Conditional random field,BiLSTM-CRF)进行序列标注,BiLSTM-CRF的模型结构是循环神经网络层+ 序列标注层,输入是标签序列,其中每个标签对应输入序列的一个词,标签为“O”表示这个词不是任何属性的值,标签为某个目标属性名称表示这个词是该属性的值。把词语位于文章中的第几个句子作为词语的句子位置,训练句子位置向量。句子位置向量维度与标签种类数相同,每一维表示这个位置的词语被标注为相应标签的概率。在CRF层将句子位置向量作为权重与模型计算出的概率相乘,相当于提示模型不同位置的词更倾向于给出哪些标签,给模型引入额外信息,更够提高标注准确性。
上述方案使用词语位于文章中的第几个句子作为词语的句子位置,并根据这个位置计算给出某种属性值的概率。当语料中文章的长度差异较大时,这个数值不能准确的指示词语的位置信息,会导致模型的标注准确率降低。如介绍人物A的文章共有5个句子,句子位置为5的词位于文章的末尾,很可能在介绍人物的生平,给出“生日”的概率很小,给出“获得荣誉”的概率较大,而介绍人物B的文章共有100个句子,句子位置为5的词位于文章开头,可能在介绍基础属性,给出“生日”的概率很大,给出“获得荣誉”的概率很小。上述方案将句子位置向量作为权重直接与模型计算的概率相乘,对最终判定输出什么标签的影响很大,容易出现极端情况。若句子位置向量某一维的值接近0 或1,则该位置的词被标注为这个属性的概率也接近0或1,相当于句子位置信息具有一票否决/肯定权。
针对现有方式的实体属性标注不准确的问题,本发明实施例提供了一种文章中实体的属性抽取方法及装置。为了使本发明的目的,技术方案和优点更加清楚,下面结合附图,对本发明实施例提供的文章中实体的属性抽取方法及装置的具体实施方式进行详细地说明。应当理解,下面所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明实施例提供的一种文章中实体的属性抽取方法,如图1所示,可以包括:
S1、确定在文章中各词语的绝对位置和相对位置;
S2、根据各词语、各词语的绝对位置和相对位置,确定各词语对应的词向量,得到文章对应的词向量序列;
S3、将各词语的顺序信息编码到文章对应的词向量序列中,得到编码后的词向量序列;
S4、将编码后的词向量序列输入至标注层中,得到文章对应的标签序列,标签序列中的各标签表示对应词语与属性值的映射关系信息。
具体地,同一来源的介绍性文本(如百度百科不同页面的文章,同一本百科全书里的文章等)通常围绕同一个主语实体展开叙述,并且,同一类实体的文章具有相同或类似的编写模板。以介绍人物类的文章为例,百度百科“周杰伦”页面的文章通篇介绍实体“周杰伦”的属性,文章通常在开头部分介绍人物的基础属性,文章的后部介绍人物生平,这就使得人物的姓名、性别、生卒年月等基础属性倾向于在文章前部出现,毕业院校、获得荣誉、任职单位等信息倾向于在文章后部出现,因此记录文章中的每个词语位于文章的什么位置,并对位置信息进行编码可以为属性抽取模型提供额外的信息,提高模型标注的准确率。即使用绝对位置和相对位置记录词语在文章的位置信息,并将位置信息编码到词语的向量表示中,给了模型额外的信息提示,同时不至于由位置信息直接决定输出标签,能够提高模型标注的准确性。
以下结合具体实施例对进行本发明实施例提供的文章中实体的属性抽取方法的各个步骤进行详细说明。
可选地,在本发明实施例提供的上述方法中,在上述步骤S1确定在文章中各词语的绝对位置和相对位置之前,如图2所示,还可以包括:
S0、对文章进行预处理,预处理包括分句、分词、英文大小写转换和去除标点等操作。
之后,执行步骤S1确定在文章中各词语的绝对位置和相对位置。
可选地,在本发明实施例提供的上述方法中,上述步骤S1确定在文章中各词语的绝对位置,如图2所示,具体可以包括:
S11、将词语在文章中所处语句的序号作为词语的绝对位置。
假设一篇文章共有N个句子,对于文章中的第i个词语wi,若wi位于文章的第j个语句中,则可以将j作为词语wi的绝对位置,记作pa i
可选地,在本发明实施例提供的上述方法中,上述步骤S1确定在文章中各词语的相对位置,如图2所示,具体可以包括:
S12、将词语在文章中所处语句的序号占全部语句数量的比例作为词语的相对位置;或,将词语在文章中所处词语的序号在全部词语数量的比例作为词语的相对位置。
假设一篇文章共有N个句子,对于文章中的第i个词语wi,若wi位于文章的第j个语句中,则可以将j/N作为词语wi的相对位置,记作pr i。或者也可以,对于文章中的第i个词语wi,若文章中共有M个词语,则可以将i/M作为词语wi的相对位置,记作pr i
本发明实施例提供的上述方法中使用pa和pr共同表示词语的位置,原因在于语料中每篇文章的长度都不同,只使用绝对位置pa或相对位置pr不足以提示该位置的词语倾向于给出哪些属性的值。比如介绍人物A的文章共有5 个句子,介绍人物B的文章共有100个句子,在文章A中pa=5的词位于文章的结尾,很可能在描述A的生平事迹,倾向于给出“获得荣誉”的值,而文章 B中pa=5的词还处于文章开头,很可能在介绍B的基础属性,倾向于给出“籍贯”的值;而文章越长介绍基础属性的部分也越长,但不是随文章总长度等比增长,因此文章A可能用两个句子描述基础属性,这部分的pr最大值为0.4,而文章B可能用10个句子描述基础属性,这部分pr最大值只有0.1。
可选地,在本发明实施例提供的上述方法中,上述步骤S2根据各词语、各词语的绝对位置和相对位置,确定各词语对应的词向量,如图2所示,具体可以包括:
S21、确定各词语对应的向量;
S22、确定各词语的绝对位置和相对位置分别对应的向量;
S23、将词语对应的向量、词语的绝对位置和相对位置分别对应的向量拼接成一个词向量。
具体地,上述步骤S2可以在序列标注模型的向量化(Embedding)层中实现。Embedding是用一个低维的向量表示一个物体,这个物体可以是一个词语、一个数字、或图中的一个节点等。如对词语进行Embedding,例如“苹果”用 [0.13,0.8,0.3]表示,“梨”用[0.52,0.2,0.3]表示。训练好的Embedding能够存储词语的语义信息,使得语义相近的词语所对应向量的空间距离也相近,即“苹果”向量和“梨”向量在空间上距离相近,和“北京”向量在空间上距离较远。
使用词向量表示文章中的每一个词语w及其绝对位置pa和相对位置pr。其中词语对应的向量记作ew,可以直接使用预训练好的向量,也可以初始化向量的数值后随模型一起训练得到;pa和pr对应的向量分别记作ea和er,初始化后与模型一起训练得到。对于词语w,将ew、ea、er拼接成一个向量x,作为词语w最终的向量表示,此时一篇文章被转换为一个词向量序列,即{x1,x2,…, xN},xi表示文章中第i个词语对应的词向量。
可选地,在本发明实施例提供的上述方法中,上述步骤S3将各词语的顺序信息编码到文章对应的词向量序列中,得到编码后的词向量序列,如图2所示,具体可以包括:
S31、将文章对应的词向量序列输入至循环神经网络层、前馈神经网络层或卷积神经网络层中,得到编码后的词向量序列。
前馈神经网络(Forward Neural Network,FNN),又叫全连接神经网络,是一种神经网络结构。卷积神经网络(Convolutional Neural Network,CNN) 是一种神经网络结构,输入是一个矩阵,输出可以是一个向量。循环神经网络 (Recurrent Neural Network,RNN)是一类神经网络模型结构,向循环神经网络模型输入向量序列,按顺序每一时刻向模型输入当前向量和前一时刻的输出向量,模型在每一时刻都会给出一个输出向量。具体地,将文章的词向量序列 {x1,x2,…,xN}输入到诸如循环神经网络层中,可选的算法包括LSTM、Bi-LSTM、 GRU、Bi-GRU等,使用每个词语对应的输出向量hi表示该词语,得到新的文章向量序列{h1,h2,…,hN}。由于循环神经网络本身的特性,这一步可以将词语的顺序信息编码到向量中。
可选地,在本发明实施例提供的上述方法中,上述步骤S4将编码后的词向量序列输入至标注层中,得到文章对应的标签序列,标签序列中的各标签表示对应词语与属性值的映射关系信息,具体可以采用将步骤S3得到的编码后的词向量序列{h1,h2,…,hN}输入到标注模型中,可选算法包括CRF、HMM 等,为每个词语打上标签。
具体地,上述步骤S2-S3可以分别在序列标注模型的向量化层、神经网络层和标注层中实现,即将文章的词语序列作为输入,输出一个标签序列。输出的标签序列中每一个标签对应输入词语序列中的一个词语,标签为“O”表示对应的词语不是任何属性的值,标签为某个目标属性名表示对应的词语是该属性的值。以图3所示文章为例,一共有10个句子,在经过步骤S1后,可以确定出文章中每个词语及其相对位置和绝对位置,之后经过步骤S2词向量表示,步骤S3(循环)神经网络,以及步骤S4序列标注模型,最后输出一标签序列,其中,标签为“O”表示对应的词语不是任何属性的值,标签为某个目标属性名表示对应的词语是该属性的值。
具体地,由向量化层、神经网络层和标注层构建的序列标注模型,可以将预先标注好的数据集划分为训练集和测试集,使用训练集训练模型,使用测试集测试模型效果并进行模型的参数调整。
本发明针对从介绍性文本中抽取指定属性的值这一问题,设计了一种文章中实体的属性抽取方法。该方法记录文章中每个词语的绝对位置和相对位置,将这两个位置信息编码到词向量表示中,为序列标注模型提供额外的信息以调高模型标注的准确性,通过序列标注模型标注出文章中哪些词是目标属性的值。
本发明实施例提供的上述方法使用序列标注模型不需要提前识别出候选实体,避免了命名实体识别过程造成的错误累积,并且可以抽取非实体类型的属性值,即标签为“O”的词语。本发明实施例提供的上述方法将词语的位置信息编码到词向量序列中,相当于提示了序列标注模型当前位置的词语更倾向于给出哪些属性值,给序列标注模型提供了额外信息,能够提高标注的准确性。使用绝对位置和相对位置一起表示词语在文章中的位置,提高序列标注模型描述词语位置的能力,使得序列标注模型在语料中文章长度差异较大时也能有很好的标注效果。将词语的位置信息编码到词向量表示中,而非直接作为标签权重,隐式的计算词语位置对输出标签概率的影响,相当于取消了位置信息的一票否决/确定权,使得序列标注模型在语料中文章长度差异较大时、以及个别文章与通用的编写思路不符时也能有很好的标注效果。
基于同一发明构思,本发明实施例还提供了一种文章中实体的属性抽取装置,由于该装置解决问题的原理与前述一种文章中实体的属性抽取方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例提供的一种文章中实体的属性抽取装置,如图4所示,可以包括:
计算模块1,用于确定在文章中各词语的绝对位置和相对位置;
向量化模块2,用于根据各词语、各词语的绝对位置和相对位置,确定各词语对应的词向量,得到文章对应的词向量序列;
编码模块3,用于将各词语的顺序信息编码到文章对应的词向量序列中,得到编码后的词向量序列;
标注模块4,用于将编码后的词向量序列输入至标注层中,得到文章对应的标签序列,标签序列中的各标签表示对应词语与属性值的映射关系信息。
可选地,在本发明实施例提供的上述装置中,计算模块1,具体可以用于将词语在文章中所处语句的序号作为词语的绝对位置。
可选地,在本发明实施例提供的上述装置中,计算模块1,具体可以用于将词语在文章中所处语句的序号占全部语句数量的比例作为词语的相对位置;或,将词语在文章中所处词语的序号在全部词语数量的比例作为词语的相对位置。
可选地,在本发明实施例提供的上述装置中,向量化模块2,具体可以用于确定各词语对应的向量;确定各词语的绝对位置和相对位置分别对应的向量;将词语对应的向量、词语的绝对位置和相对位置分别对应的向量拼接成一个词向量。
可选地,在本发明实施例提供的上述装置中,编码模块3,具体可以用于将文章对应的词向量序列输入至循环神经网络层、前馈神经网络层或卷积神经网络层中,得到编码后的词向量序列。
可选地,在本发明实施例提供的上述装置中,如图4所示,还可以包括:预处理模块5,用于对文章进行预处理,预处理包括分句、分词、英文大小写转换和去除标点的操作。
本发明实施例提供的上述文章中实体的属性抽取方法及装置,使用序列标注模型不需要提前识别出候选实体,避免了命名实体识别过程造成的错误累积,并且可以抽取非实体类型的属性值,即标签为“O”的词语。本发明实施例提供的上述方法将词语的位置信息编码到词向量序列中,相当于提示了序列标注模型当前位置的词语更倾向于给出哪些属性值,给序列标注模型提供了额外信息,能够提高标注的准确性。使用绝对位置和相对位置一起表示词语在文章中的位置,提高序列标注模型描述词语位置的能力,使得序列标注模型在语料中文章长度差异较大时也能有很好的标注效果。将词语的位置信息编码到词向量表示中,而非直接作为标签权重,隐式的计算词语位置对输出标签概率的影响,相当于取消了位置信息的一票否决/确定权,使得序列标注模型在语料中文章长度差异较大时、以及个别文章与通用的编写思路不符时也能有很好的标注效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种文章中实体的属性抽取方法,其特征在于,包括:
确定在文章中各词语的绝对位置和相对位置;
根据各所述词语、各所述词语的绝对位置和相对位置,确定各所述词语对应的词向量,得到所述文章对应的词向量序列;
将各所述词语的顺序信息编码到所述文章对应的词向量序列中,得到编码后的词向量序列;
将编码后的词向量序列输入至标注层中,得到所述文章对应的标签序列,所述标签序列中的各标签表示对应词语与属性值的映射关系信息。
2.如权利要求1所述的方法,其特征在于,所述确定在文章中各词语的绝对位置,具体包括:
将所述词语在文章中所处语句的序号作为所述词语的绝对位置。
3.如权利要求1所述的方法,其特征在于,所述确定在文章中各词语的相对位置,具体包括:
将所述词语在文章中所处语句的序号占全部语句数量的比例作为所述词语的相对位置;或,
将所述词语在文章中所处词语的序号在全部词语数量的比例作为所述词语的相对位置。
4.如权利要求1所述的方法,其特征在于,所述根据各所述词语、各所述词语的绝对位置和相对位置,确定各所述词语对应的词向量,具体包括:
确定各所述词语对应的向量;
确定各所述词语的绝对位置和相对位置分别对应的向量;
将所述词语对应的向量、所述词语的绝对位置和相对位置分别对应的向量拼接成一个词向量。
5.如权利要求1所述的方法,其特征在于,所述将各所述词语的顺序信息编码到所述文章对应的词向量序列中,得到编码后的词向量序列,具体包括:
将所述文章对应的词向量序列输入至循环神经网络层、前馈神经网络层或卷积神经网络层中,得到编码后的词向量序列。
6.如权利要求1-5任一项所述的方法,其特征在于,在确定在文章中各词语的绝对位置和相对位置之前,还包括:
对文章进行预处理,所述预处理包括分句、分词、英文大小写转换和去除标点的操作。
7.一种文章中实体的属性抽取装置,其特征在于,包括:
计算模块,用于确定在文章中各词语的绝对位置和相对位置;
向量化模块,用于根据各所述词语、各所述词语的绝对位置和相对位置,确定各所述词语对应的词向量,得到所述文章对应的词向量序列;
编码模块,用于将各所述词语的顺序信息编码到所述文章对应的词向量序列中,得到编码后的词向量序列;
标注模块,用于将编码后的词向量序列输入至标注层中,得到所述文章对应的标签序列,所述标签序列中的各标签表示对应词语与属性值的映射关系信息。
8.如权利要求7所述的装置,其特征在于,所述计算模块,具体用于将所述词语在文章中所处语句的序号作为所述词语的绝对位置。
9.如权利要求7所述的装置,其特征在于,所述计算模块,具体用于将所述词语在文章中所处语句的序号占全部语句数量的比例作为所述词语的相对位置;或,将所述词语在文章中所处词语的序号在全部词语数量的比例作为所述词语的相对位置。
10.如权利要求7所述的装置,其特征在于,所述向量化模块,具体用于确定各所述词语对应的向量;确定各所述词语的绝对位置和相对位置分别对应的向量;将所述词语对应的向量、所述词语的绝对位置和相对位置分别对应的向量拼接成一个词向量。
11.如权利要求7所述的装置,其特征在于,所述编码模块,具体用于将所述文章对应的词向量序列输入至循环神经网络层、前馈神经网络层或卷积神经网络层中,得到编码后的词向量序列。
12.如权利要求7-11任一项所述的装置,其特征在于,还包括:预处理模块,用于对文章进行预处理,所述预处理包括分句、分词、英文大小写转换和去除标点的操作。
CN201911072740.5A 2019-11-05 2019-11-05 一种文章中实体的属性抽取方法及装置 Pending CN110991185A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911072740.5A CN110991185A (zh) 2019-11-05 2019-11-05 一种文章中实体的属性抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911072740.5A CN110991185A (zh) 2019-11-05 2019-11-05 一种文章中实体的属性抽取方法及装置

Publications (1)

Publication Number Publication Date
CN110991185A true CN110991185A (zh) 2020-04-10

Family

ID=70083361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911072740.5A Pending CN110991185A (zh) 2019-11-05 2019-11-05 一种文章中实体的属性抽取方法及装置

Country Status (1)

Country Link
CN (1) CN110991185A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694967A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 属性抽取方法、装置、电子设备及介质
CN112528001A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 一种信息查询方法、装置及电子设备
CN114781471A (zh) * 2021-06-02 2022-07-22 清华大学 一种实体记录匹配方法及系统
CN115130466A (zh) * 2022-09-02 2022-09-30 杭州火石数智科技有限公司 分类和实体识别联合抽取方法、计算机设备及存储介质
US20230140938A1 (en) * 2020-04-10 2023-05-11 Nippon Telegraph And Telephone Corporation Sentence data analysis information generation device using ontology, sentence data analysis information generation method, and sentence data analysis information generation program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置
US20190130281A1 (en) * 2017-10-31 2019-05-02 Microsoft Technology Licensing, Llc Next career move prediction with contextual long short-term memory networks
CN109948159A (zh) * 2019-03-15 2019-06-28 合肥讯飞数码科技有限公司 一种文本数据生成方法、装置、设备及可读存储介质
CN110334339A (zh) * 2019-04-30 2019-10-15 华中科技大学 一种基于位置感知自注意力机制的序列标注模型与标注方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130281A1 (en) * 2017-10-31 2019-05-02 Microsoft Technology Licensing, Llc Next career move prediction with contextual long short-term memory networks
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置
CN109948159A (zh) * 2019-03-15 2019-06-28 合肥讯飞数码科技有限公司 一种文本数据生成方法、装置、设备及可读存储介质
CN110334339A (zh) * 2019-04-30 2019-10-15 华中科技大学 一种基于位置感知自注意力机制的序列标注模型与标注方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230140938A1 (en) * 2020-04-10 2023-05-11 Nippon Telegraph And Telephone Corporation Sentence data analysis information generation device using ontology, sentence data analysis information generation method, and sentence data analysis information generation program
CN111694967A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 属性抽取方法、装置、电子设备及介质
CN111694967B (zh) * 2020-06-11 2023-10-20 腾讯科技(深圳)有限公司 属性抽取方法、装置、电子设备及介质
CN112528001A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 一种信息查询方法、装置及电子设备
CN112528001B (zh) * 2020-12-23 2023-07-25 北京百度网讯科技有限公司 一种信息查询方法、装置及电子设备
CN114781471A (zh) * 2021-06-02 2022-07-22 清华大学 一种实体记录匹配方法及系统
CN115130466A (zh) * 2022-09-02 2022-09-30 杭州火石数智科技有限公司 分类和实体识别联合抽取方法、计算机设备及存储介质
CN115130466B (zh) * 2022-09-02 2022-12-02 杭州火石数智科技有限公司 分类和实体识别联合抽取方法、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US11501182B2 (en) Method and apparatus for generating model
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN109299273B (zh) 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN110991185A (zh) 一种文章中实体的属性抽取方法及装置
CN110008472B (zh) 一种实体抽取的方法、装置、设备和计算机可读存储介质
CN111444726A (zh) 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN110826334B (zh) 一种基于强化学习的中文命名实体识别模型及其训练方法
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN112800239B (zh) 意图识别模型训练方法、意图识别方法及装置
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN111930939A (zh) 一种文本检测的方法及装置
CN114818668B (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN116127952A (zh) 一种多粒度中文文本纠错方法和装置
CN113190602B (zh) 融合字词特征与深度学习的事件联合抽取方法
CN111651994B (zh) 一种信息抽取方法、装置、电子设备和存储介质
CN114818669B (zh) 一种人名纠错模型的构建方法和计算机设备
CN115510864A (zh) 一种融合领域词典的中文农作物病虫害命名实体识别方法
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN112364659B (zh) 一种无监督的语义表示自动识别方法及装置
CN113705207A (zh) 语法错误识别方法及装置
CN112131879A (zh) 一种关系抽取系统、方法和装置
CN110909546B (zh) 一种文本数据的处理方法、装置、设备及介质
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
Xu Research on neural network machine translation model based on entity tagging improvement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination