CN111274394B - 一种实体关系的抽取方法、装置、设备及存储介质 - Google Patents
一种实体关系的抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111274394B CN111274394B CN202010058018.2A CN202010058018A CN111274394B CN 111274394 B CN111274394 B CN 111274394B CN 202010058018 A CN202010058018 A CN 202010058018A CN 111274394 B CN111274394 B CN 111274394B
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- word
- feature vector
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 140
- 238000000605 extraction Methods 0.000 claims abstract description 44
- 238000004458 analytical method Methods 0.000 claims abstract description 32
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 238000013519 translation Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 238000003058 natural language processing Methods 0.000 claims abstract description 7
- 230000015654 memory Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000005284 excitation Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 239000002585 base Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理领域,涉及一种实体关系的抽取方法、装置、设备及存储介质,所述方法包括获取每条语料的句法信息并预处理,将预处理后的句法信息输入到BERT模型中;获取语料的序列特征向量和每个词语的实值特征向量;利用词性标注和句法分析,划分出包含实体对的完整短句,利用词向量模型将完整短句中单词与实体的依存关系映射为实值向量;采用基于依存分析的单词级别的注意力机制,获取局部上下文语义特征向量;获得实体对的平移距离特征向量,将各个特征向量进行融合,从而抽取出的实体关系的多粒度特征;将抽取出的多粒度特征输入到分类器中进行分类。本发明能够减少噪声单词和错误句法分析带来的影响,提高了关系抽取的准确率。
Description
技术领域
本发明属于自然语言处理领域,尤其涉及一种基于多粒度表示和注意力机制的实体关系抽取方法、设备及存储介质。
背景技术
随着信息技术的快速发展和计算机的普及,各种各样的信息在互联网上迅猛增加。在信息爆炸的时代,如何从海量信息中快速准确地获取用户感兴趣的信息已经成为亟待解决的问题。在这种背景下,信息抽取技术应运而生。实体关系抽取是信息抽取的关键技术之一,即给定一个句子和其中出现的实体对,实体关系抽取模型需要根据句子语义信息推测实体间的关系,从无结构的自然语言文本中抽取出格式统一的关系数据,建立多个实体之间广泛的信息关联,有助于建立领域本体,促进知识图谱的构建。
经典的实体关系抽取方法主要分为有监督学习方法、半监督学习方法、无监督学习方法和开放式抽取这四大类。有监督的实体关系抽取主要分为基于特征和基于核函数的方法,Zhou等人利用SVM作为分类器,分别研究词汇、句法和语义特征对实体语义关系抽取的影响。有监督方法需要手工标注大量的训练数据,因此继而提出基于半监督的Bootstrapping方法对实体之间的关系进行抽取。Hasegawa等人在ACL会议上首次提出基于无监督的关系抽取方法,该方法无需依存实体关系标注语料,而是首先根据实体对出现的上下文将相似度高的实体对聚为一类,然后选择具有代表性的词语来标记实体之间的关系。为了解决开放域中大量无标签数据问题,开放式抽取方法被提出,又称为远程监督方法。该方法能避免针对特定关系类型人工构建语料库,可以自动完成关系类型发现和关系抽取任务。它作出基本假设:若已知两个实体存在某种语义关系,所有包含这两个实体的句子都潜在地表达了它们之间的语义关系。远程监督的关系抽取通过借助外部领域无关的实体知识库(DBPedia、YAGO、Wikidata、FreeBase等)将高质量的实体关系实例映射到大规模文本中,根据文本对齐方法从中获得训练数据,然后使用监督学习方法来解决关系抽取问题。
随着近年来深度学习在自然语言处理领域的发展,学者们逐渐将深度学习应用到实体关系抽取任务中。基于数据集标记量级的差异,深度学习的实体关系抽取分为有监督和远程监督两类。基于深度学习的有监督实体关系抽取方法能避免经典方法中人工特征选择等步骤,减少并改善特征抽取过程中的误差积累问题,实现自动学习句子特征。Zeng等人在2014年首次提出使用CNN进行关系分类;随后RNN和LSTM网络也用于实体关系抽取任务中,并且取得了很不错的效果。基于深度学习的远程监督关系抽取方法主要是在CNN、RNN和LSTM三种网络的基础上作出了改进,比如PCNN和多示例学习的融合方法、PCNN和注意力机制的融合方法等。
句法分析是自然语言处理中的关键技术之一,包含句法成分分析和依存分析,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系,如并列、从属、比较等。通过句法成分分析,就能够分析出语句的主干,以及各成分间关系,摒弃句子中的噪声词语。目前大多的基于深度学习的关系抽取方法直接将最短依存路径的句子作为输入,不仅可能造成重要上下文单词语义的缺失,也会带来一定的错误积累问题,最终将导致实体识别的性能差、实体抽取准确率低。
发明内容
针对现有的实体关系抽取技术中存在的不足之处,本发明基于多粒度表示以及注意力机制,提出了一种实体关系的抽取方法、装置、设备及存储介质。
本发明解决上述技术问题所采用的技术方案包括:
在本发明的第一方面,本发明提供了一种实体关系的抽取方法,该方法主要包括:
1)利用外部的自然语言处理工具获取终端或服务器提供的每条语料的句法信息,包括词性标注、句法成分分析以及依存分析;
2)对每条语料进行预处理,将预处理后的语料输入到BERT模型中;获取每条语料的序列特征向量和语料中每个字的实值特征向量;
3)利用步骤1)获取的词性标注和句法成分,获取包含实体对的完整短句,利用词向量模型将所述完整短句中每个字与实体对中两个实体各自的依存关系映射为实值向量;
4)在步骤3)的基础上采用基于依存分析的字级别的注意力机制,获取局部上下文语义特征向量;
5)获得实体对的平移距离特征向量,将各个特征向量进行融合,从而抽取出的实体关系的多粒度特征;
6)将抽取出的实体关系的多粒度特征输入到分类器中进行分类,获取该实体关系特征所属的标签。
在本发明的第二方面,本发明提供了一种实体关系的抽取装置,该装置主要包括:
语料获取模块,用于获取多条语料,所述多条语料中携带有词性标注、句法信息以及依存分析;
预处理模块,用于对所述多条语料进行预处理;
BERT模型模块,用于获取每条语料的序列特征向量和语料中每个字的实值特征向量;
短句获取模块,用于获取包含实体对的完整短句;
词向量模型模块,用于将获取的完整短句中字与实体间的依存关系映射为实值向量;
注意力机制模块,用于基于依存关系所映射的实值向量,采用注意力机制,获取局部上下文语义特征向量;
实体对平移特征模块,用于获取实体对的平移距离特征向量;
多粒度特征融合模块,用于语料序列特征向量、局部上下文语义特征向量和实体对的平移距离特征向量进行融合;
分类器,用于对融合后的多粒度特征进行分类。
在本发明的第三方面,本发明提供了一种实体关系的抽取设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述一种实体关系的抽取方法中的步骤。
在本发明的第四方面,本发明实施例提供了另一种抽取设备,包括处理器、通信接口、显示屏和存储器,所述处理器、通信接口、显示屏和存储器相互连接,其中,所述存储器用于存储支持终端执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
在本发明的第五方面,本发明还提供了一种实体关系的存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述一种实体关系的抽取方法中的步骤。
本发明的有益效果:
本发明与现有技术相比具有的有益的效果:
1、现有技术都只是单一的使用了句法分析来获取句法的结构信息或者使用依存分析获取各成分之间的依存关系。本发明的方法综合考虑了词性、句法成分分析和依存分析来摒弃无关词语带来的噪声的同时,也减少了外部工具带来的影响。
2、现有技术中的注意力机制中单独考虑单词与目标关系的关联来分配概率值已不足以有效地学习不同的上下文信息。本发明的方法还考虑了上下文单词和实体对的依存关系对于目标分类标签的影响权重,更充分地利用实体对上下文局部语义,能够在一定程度上提高实体关系分类的准确性。
3、现有技术一般都是采用统一粒度的特征来进行关系识别,这样会产生由于特征粒度比较“细”,问题粒度相对比较“粗”而不能识别的区域。本发明的方法融合了各粒度的特征作为分类器最后的特征向量,以获取更丰富的语义信息。
附图说明
图1是本发明实施例提供的一种实体关系的抽取方法的流程示意图;
图2是本发明实施例提供的一种实体关系的抽取方法的神经网络结构图;
图3是本发明实施例提供的关于语料的序列特征向量的获取流程图;
图4是本发明实施例中关于字与实体的实值向量的获取流程图;
图5是本发明实施例中采用注意力机制获得的上下文语义特征向量的流程图;
图6是本发明实施例中采用拼接方式获取的多粒度实体关系特征流程图;
图7是本发明实施例提供的一种实体关系的抽取装置示意图;
图8是本发明实施例提供的一种实体关系的抽取设备示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
需要说明的是,本发明实施例的执行主体可以为各种类型的终端,终端例如可以是计算机、服务器、平板电脑、个人数字助理(英文:Personal Digital Assistant,缩写:PDA)、移动互联网设备(英文:Mobile Internet Device,缩写:MID)等可进行文本处理的设备,本发明对此不作任何限制。
为了缓解实体识别的性能差问题,提高实体抽取的准确性,本申请提出了一种基于专利要素的关键词提取方法、终端、计算机可存储介质。
在一些可行的实施方式中,请参阅图1,为本申请提供的一种基于专利要素的关键词提取方法流程图,主要包括:
1)利用外部的自然语言处理工具获取终端或服务器提供的每条语料的句法信息,包括词性标注、句法成分分析以及依存分析;
2)对每条语料进行预处理,将预处理后的语料输入到BERT模型中;获取每条语料的序列特征向量和语料中每个字的实值特征向量;
3)利用步骤1)获取的词性标注和句法分析,获取包含实体对的完整短句,利用词向量模型将所述完整短句中每个字与实体对中两个实体各自的依存关系映射为实值向量;
4)在步骤3)的基础上采用基于依存分析的字级别的注意力机制,不仅考虑字本身对于关系分类标签的重要程度,同时考虑字与实体对的依赖关系对于关系分类标签的重要程度,以获取局部上下文语义特征向量;
5)获得实体对的平移距离特征向量,将各个特征向量进行融合,从而抽取出的实体关系的多粒度特征;
6)替代现有技术采用的单一基于字级别的特征或者基于序列的特征,本发明采用抽取出三种特征形成实体关系的多粒度特征输入到分类器中进行分类,获取该实体关系特征所属的标签。
在一个实施例中,如图2所示,为了获取终端或者服务器提供的语料信息,本实施例采用Stanford CoreNLP的Python接口调用pos_tag模块获取语料的词性,调用parse模块获取语料的句法分析,调用dependency_parse模块获取语料的依存分析结果。
在一个实施例中,如图3所示,关于语料的序列特征向量的获取方式主要包括:
步骤201)在实体对中第一实体的前后分别添加第一字符;
步骤202)在实体对中第二实体的前后分别添加第二字符;
例如,在第一实体的前后添加字符#,变为#实体1#格式,在第二实体前后添加字符$,变为$实体2$格式。
步骤203)将预处理后的语料输入到BERT模型中,得到CLS位置输出每条语料的序列特征向量H0,以及每条语料中m个字的实值特征向量H1,H2,...,Hm;
其中,m个实值特征向量H1,H2,...,Hm为语料中每个字的隐藏向量。
另外,对于语料的预处理,还可以是提取文本的标题和首句,同时还可以利用段落结束标志(如回车符、换行符等)对长文本进行分段,使用标点符号(如句末标点、右侧标点等)对段落文本进行分句处理等。另外,基于中文的行文特点,文本各词之间大部分没有明确的分界,对语料的预处理阶段还可以包括对中文/英文文本进行分词、词性标注、新词发现停用词过滤等处理。
在一个实施例中,如图4所示,
步骤301)根据步骤1)的句法分析结果,去除句子中与关系标签语义无关的成分结构短语,得到包含实体对的完整句子;
步骤302)在所述包含实体对的完整句子上,利用步骤1)获取的词性标注去除句子中与关系标签语义无关的词语,得到最短的完整短句;
步骤303)利用词向量模型将所述完整短句中每个字与实体对中两个实体各自的依存关系映射为第一实值向量wie1和第二实值向量wie2。
其中,第一实值向量wie1为第i个字和第一实体之间的依存关系所映射的实值向量;第二实值向量wie2为第i个字和第二实体之间的依存关系所映射的实值向量。
在一个优选实施例中,所述词向量模型采用word2vec预训练模型,综合考虑词性特征,优化特征提取方式,得到更多具有代表性特征的有效词语。
为了获取局部上下文语义特征向量,本实施例在步骤3)的基础上采用基于依存分析的字级别的注意力机制,如图5所示,包括:
步骤401)将完整短句中n个字分别对应的隐藏向量w1,w2,...wn输入到注意力机制模型中;使用前馈神经网络,基于每个字与实体对的依存关系,计算每个字与实体对之间的语义关联度,语义关联度的计算公式如下:gi=tanh(W[wi;wie1;wie2]+b);
其中,gi表示第i个字与实体对的语义关联度;wi为第i个字的隐藏向量。
在一个实施例中,如图6所示,所述步骤5)包括以下步骤:
步骤501)通过计算BERT输出的实体中各个字向量的平均值得到实体对向量,即第一实体向量e1和第二实体向量e2;
步骤502)计算实体对的平移距离特征向量H1=(e1-e2);
步骤503)将语料序列特征向量H0、局部上下文语义特征向量H和实体对的平移距离特征向量H1进行拼接,并将拼接向量的多粒度特征作为抽取出的实体关系特征;
其中,获得第一实体和第二实体的向量分别表示如下:
Hi表示BERT输出的第一实体的开始向量,Hj表示BERT输出的第一实体的终止向量,Hk表示BERT输出的第二实体的开始向量,Hm表示BERT输出的第二实体的终止向量。
在一个优选实施例中,所述步骤503中,将各个特征向量进行拼接前,还将各个特征向量包括语料序列特征向量H0、局部上下文语义特征向量H和实体对的平移距离特征向量;采用非线性转换,从而获取更多的潜在特征;所述非线性转换包括经过tanh激活和线性变换。
具体的,
H0'=W0(tanh(H0))+b;
H'=W(tanh(H))+b;
H1'=W(tanh(e1-e2))+b;
H0'表示经过tanh激活和线性变换后的语料序列特征向量;H'表示经过tanh激活和线性变换后的局部上下文语义特征向量;H1'表示经过tanh激活和线性变换后的实体对的平移距离特征向量。
优选的,所述步骤6)包括将融合的多粒度特征送进全连接层,再将全连接层的输出送入Softmax分类层进行关系分类。
在本发明的第二方面,本发明提供了一种实体关系的抽取装置,如图7所示,该装置主要包括:
语料获取模块,用于获取多条语料,所述多条语料中携带有词性标注、句法信息以及依存分析;
预处理模块,用于对所述多条语料进行预处理;
BERT模型模块,用于获取每条语料的序列特征向量和语料中每个字的实值特征向量;
短句获取模块,用于获取包含实体对的完整短句;
词向量模型模块,用于将获取的完整短句中字与实体间的依存关系映射为实值向量;
注意力机制模块,用于基于依存关系所映射的实值向量,采用注意力机制,获取局部上下文语义特征向量;
实体对平移特征模块,用于获取实体对的平移距离特征向量;
多粒度特征融合模块,用于语料序列特征向量、局部上下文语义特征向量和实体对的平移距离特征向量进行融合;
分类器,用于对融合后的多粒度特征进行分类。
在本发明的第三方面,本发明提供了一种实体关系的抽取设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述一种实体关系的抽取方法中的步骤。
如图8所示,本发明实施例中的抽取设备包括:至少一个输入设备;至少一个处理器,例如CPU;至少一个存储器;至少一个输出设备,上述输入设备、处理器、存储器和输出设备通过CAN总线连接。其中,总线用于实现这些组件之间的连接通信。其中,本发明实施例中装置的输入设备和输出设备可以是有线发送端口,也可以为无线设备,例如包括天线装置,用于与其他节点设备进行信令或数据的通信。
该处理器可以是中央处理器(central processing unit,CPU),网络处理器(network processor,NP)或者CPU和NP的组合。
该处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmablelogic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gatearray,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。
该存储器可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器也可以包括非易失性存储器3000(non-volatilememory),例如快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器还可以包括上述种类的存储器的组合。
可选地,该存储器还用于存储程序指令。该处理器可以调用该存储器存储的程序指令,实现如本发明第一实施例、第二实施例所示的方法。
该总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线,也即是可以不限于CAN总线。
具体的,处理器,用于输入语料的句法信息;将所述语料进行预处理,将预处理后的语料输入到BERT模型中;获取每条语料的序列特征向量和语料中每个字的实值特征向量;根据获取的词性标注和句法成分分析,获取包含实体对的完整短句,利用词向量模型将所述完整短句中每个字与实体对中两个实体各自的依存关系映射为实值向量。采用基于依存分析的字级别的注意力机制,获取局部上下文语义特征向量;获得实体对的平移距离特征向量,将各个特征向量进行融合,从而抽取出的实体关系的多粒度特征;将抽取出的实体关系的多粒度特征输入到分类器中进行分类,获取该实体关系特征所属的标签。前述图1~图6所示的实施例中,各步骤方法流程可以基于该终端的结构实现。
在本发明的第四方面,本发明实施例提供了另一种抽取设备,包括处理器、通信接口、显示屏和存储器,所述处理器、通信接口、显示屏和存储器相互连接,其中,所述存储器用于存储支持终端执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
在本发明的第五方面,本发明还提供了一种实体关系的存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述一种实体关系的抽取方法中的步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种实体关系的抽取方法,其特征在于,所述方法包括以下步骤:
1)利用外部的自然语言处理工具获取终端或服务器提供的每条语料的句法信息,包括词性标注、句法成分分析以及依存分析;
2)对每条语料进行预处理,将预处理后的语料输入到BERT模型中;获取每条语料的序列特征向量和语料中每个字的实值特征向量;
3)利用步骤1)获取的词性标注和句法成分,获取包含实体对的完整短句,利用词向量模型将所述完整短句中每个字与实体对中两个实体各自的依存关系映射为实值向量;
步骤301)根据步骤1)的句法成分分析结果,去除句子中与关系标签语义无关的成分结构短语,得到包含实体对的完整句子;
步骤302)在所述包含实体对的完整句子上,利用步骤1)获取的词性标注去除句子中与关系标签语义无关的词语,得到最短的完整短句;
步骤303)利用词向量模型将所述完整短句中每个字与实体对中两个实体各自的依存关系映射为第一实值向量wie1和第二实值向量wie2;
4)在步骤3)的基础上采用基于依存分析的字级别的注意力机制,获取局部上下文语义特征向量;
步骤401)将完整短句中n个字分别对应的隐藏向量w1,w2,...wn输入到注意力机制模型中;使用前馈神经网络,基于每个字与实体对的依存关系,计算每个字与实体对之间的语义关联度,语义关联度的计算公式如下:gi=tanh(W[wi;wie1;wie2]+b);
其中,gi表示第i个字与实体对的语义关联度;wi为第i个字的隐藏向量,wie1为第i个字和第一实体之间的依存关系所映射的实值向量,wie2为第i个字和第二实体之间的依存关系所映射的实值向量;
5)获得实体对的平移距离特征向量,将各个特征向量进行融合,从而抽取出的实体关系的多粒度特征;
步骤501)实体由一个或者多个字组成,通过计算BERT输出的实体中各个字向量的平均值得到实体对向量,即第一实体向量e1和第二实体向量e2;
步骤502)计算实体对的平移距离特征向量H1=(e1-e2);
步骤503)将语料序列特征向量H0、局部上下文语义特征向量H和实体对的平移距离特征向量H1进行拼接,并将拼接向量的多粒度特征作为抽取出的实体关系特征;
其中,获得第一实体向量和第二实体向量表示如下:
6)将抽取出的实体关系的多粒度特征输入到分类器中进行分类,获取该实体关系特征所属的标签。
2.根据权利要求1所述的一种实体关系的抽取方法,其特征在于,所述步骤2)包括:
步骤201)在实体对中第一实体的前后分别添加第一字符;
步骤202)在实体对中第二实体的前后分别添加第二字符;
步骤203)将预处理后的语料输入到BERT模型中,输出每条语料的序列特征向量H0,以及每条语料中m个字的实值特征向量H1,H2,...,Hm;
其中,m个实值特征向量H1,H2,...,Hm为语料中每个字的隐藏向量。
3.根据权利要求1所述的一种实体关系的抽取方法,其特征在于,所述步骤503中,将各个特征向量进行拼接前,还将各个特征向量包括语料序列特征向量H0、局部上下文语义特征向量H和实体对的平移距离特征向量H1;采用非线性转换,从而获取更多的潜在特征;所述非线性转换包括经过tanh激活和线性变换。
4.根据权利要求1所述的一种实体关系的抽取方法,其特征在于,所述步骤6)包括将融合的多粒度特征送进全连接层,再将全连接层的输出送入Softmax分类层进行关系分类。
5.一种实体关系的抽取装置,用于实现如权利要求1至4中任意一项所述方法中的步骤,其特征在于,包括:
语料获取模块,用于获取多条语料,所述多条语料中携带有词性标注、句法信息以及依存分析;
预处理模块,用于对所述多条语料进行预处理;
BERT模型模块,用于获取每条语料的序列特征向量和语料中每个字的实值特征向量;
短句获取模块,用于获取包含实体对的完整短句;
词向量模型模块,用于将获取的完整短句中字与实体间的依存关系映射为实值向量;
注意力机制模块,用于基于依存关系所映射的实值向量,采用注意力机制,获取局部上下文语义特征向量;
实体对平移特征模块,用于获取实体对的平移距离特征向量;
多粒度特征融合模块,用于语料序列特征向量、局部上下文语义特征向量和实体对的平移距离特征向量进行融合;
分类器,用于对融合后的多粒度特征进行分类。
6.一种实体关系的抽取设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任意一项所述方法中的步骤。
7.一种实体关系的存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任意一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010058018.2A CN111274394B (zh) | 2020-01-16 | 2020-01-16 | 一种实体关系的抽取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010058018.2A CN111274394B (zh) | 2020-01-16 | 2020-01-16 | 一种实体关系的抽取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274394A CN111274394A (zh) | 2020-06-12 |
CN111274394B true CN111274394B (zh) | 2022-10-25 |
Family
ID=71001741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010058018.2A Active CN111274394B (zh) | 2020-01-16 | 2020-01-16 | 一种实体关系的抽取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274394B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737497B (zh) * | 2020-06-30 | 2021-07-20 | 大连理工大学 | 基于多源语义表示融合的弱监督关系抽取方法 |
CN111949802B (zh) * | 2020-08-06 | 2022-11-01 | 平安科技(深圳)有限公司 | 医学领域知识图谱的构建方法、装置、设备及存储介质 |
CN118313367A (zh) * | 2020-08-17 | 2024-07-09 | 支付宝(杭州)信息技术有限公司 | 一种文本信息的抽取方法、装置及设备 |
CN112069799A (zh) * | 2020-09-14 | 2020-12-11 | 深圳前海微众银行股份有限公司 | 基于依存句法的数据增强方法、设备和可读存储介质 |
CN112463960B (zh) * | 2020-10-30 | 2021-07-27 | 完美世界控股集团有限公司 | 一种实体关系的确定方法、装置、计算设备及存储介质 |
CN112883153B (zh) * | 2021-01-28 | 2023-06-23 | 北京联合大学 | 基于信息增强bert的关系分类方法及装置 |
CN112883736A (zh) * | 2021-02-22 | 2021-06-01 | 零氪科技(北京)有限公司 | 医疗实体关系抽取方法和装置 |
CN113051500B (zh) * | 2021-03-25 | 2022-08-16 | 武汉大学 | 一种融合多源数据的钓鱼网站识别方法及系统 |
CN113094473A (zh) * | 2021-04-30 | 2021-07-09 | 平安国际智慧城市科技股份有限公司 | 关键词的权重计算方法、装置、计算机设备及存储介质 |
CN113392648B (zh) * | 2021-06-02 | 2022-10-18 | 北京三快在线科技有限公司 | 实体关系获取方法及装置 |
CN113360582B (zh) * | 2021-06-04 | 2023-04-25 | 中国人民解放军战略支援部队信息工程大学 | 基于bert模型融合多元实体信息的关系分类方法及系统 |
CN113535973B (zh) * | 2021-06-07 | 2023-06-23 | 中国科学院软件研究所 | 基于知识映射的事件关系抽取、语篇关系分析方法及装置 |
CN113392217B (zh) * | 2021-06-24 | 2022-06-10 | 广东电网有限责任公司 | 一种电力设备故障缺陷实体关系的抽取方法及装置 |
CN113505229B (zh) * | 2021-09-09 | 2021-12-24 | 北京道达天际科技有限公司 | 实体关系抽取模型训练方法及装置 |
CN113849610A (zh) * | 2021-10-15 | 2021-12-28 | 上海大参林医疗健康科技有限公司 | 一种情感分析的装置和方法 |
CN115169326B (zh) * | 2022-04-15 | 2024-07-19 | 长河信息股份有限公司 | 一种中文关系抽取方法、装置、终端及存储介质 |
WO2024021343A1 (zh) * | 2022-07-29 | 2024-02-01 | 苏州思萃人工智能研究所有限公司 | 自然语言处理方法、计算机设备、可读存储介质和程序产品 |
CN116108206B (zh) * | 2023-04-13 | 2023-06-27 | 中南大学 | 一种金融数据实体关系的联合抽取方法及相关设备 |
CN117609518B (zh) * | 2024-01-17 | 2024-04-26 | 江西科技师范大学 | 一种面向定中结构的分层级中文实体关系抽取方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9730100B2 (en) * | 2002-10-28 | 2017-08-08 | MeshDynamics | Terse message networks |
CN106844413B (zh) * | 2016-11-11 | 2020-12-08 | 南京柯基数据科技有限公司 | 实体关系抽取的方法及装置 |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN109871451B (zh) * | 2019-01-25 | 2021-03-19 | 中译语通科技股份有限公司 | 一种融入动态词向量的关系抽取方法和系统 |
CN110196978A (zh) * | 2019-06-04 | 2019-09-03 | 重庆大学 | 一种关注关联词的实体关系抽取方法 |
CN110334354B (zh) * | 2019-07-11 | 2022-12-09 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
-
2020
- 2020-01-16 CN CN202010058018.2A patent/CN111274394B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111274394A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274394B (zh) | 一种实体关系的抽取方法、装置、设备及存储介质 | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
Yang et al. | Exploring deep multimodal fusion of text and photo for hate speech classification | |
WO2021121198A1 (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN110377714A (zh) | 基于迁移学习的文本匹配方法、装置、介质及设备 | |
CN111611807B (zh) | 一种基于神经网络的关键词提取方法、装置及电子设备 | |
WO2020215456A1 (zh) | 一种基于教师监督的文本标注方法和设备 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN109446333A (zh) | 一种实现中文文本分类的方法及相关设备 | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN111666758A (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN113377897A (zh) | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 | |
CN114818891A (zh) | 小样本多标签文本分类模型训练方法及文本分类方法 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN112163089A (zh) | 一种融合命名实体识别的军事高技术文本分类方法及系统 | |
CN115952794A (zh) | 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法 | |
CN112528653A (zh) | 短文本实体识别方法和系统 | |
CN112417155B (zh) | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 | |
CN111950281B (zh) | 一种基于深度学习和上下文语义的需求实体共指检测方法和装置 | |
Bokaei et al. | Improved deep persian named entity recognition | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |