CN112163425B - 基于多特征信息增强的文本实体关系抽取方法 - Google Patents

基于多特征信息增强的文本实体关系抽取方法 Download PDF

Info

Publication number
CN112163425B
CN112163425B CN202011026497.6A CN202011026497A CN112163425B CN 112163425 B CN112163425 B CN 112163425B CN 202011026497 A CN202011026497 A CN 202011026497A CN 112163425 B CN112163425 B CN 112163425B
Authority
CN
China
Prior art keywords
features
feature
word
entity
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011026497.6A
Other languages
English (en)
Other versions
CN112163425A (zh
Inventor
孟佳娜
董宇
赵丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Minzu University filed Critical Dalian Minzu University
Priority to CN202011026497.6A priority Critical patent/CN112163425B/zh
Publication of CN112163425A publication Critical patent/CN112163425A/zh
Application granted granted Critical
Publication of CN112163425B publication Critical patent/CN112163425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

基于多特征信息增强的文本实体关系抽取方法,属于信息抽取领域,为了解决深度学习的模型虽然能够自动提取文本的语义特征,但提取的特征可解释性不强,句子级特征向量未能表示实体自身的语义信息的问题,将文本映射为词特征,并与外部特征结合作为特征信息嵌入模型,通过卷积神经网络获得更高层的局部特征,通过Bi‑LSTM获得特征之间的依赖关系和上下文特征信息,通过注意力机制关注重要的语义关系特征,效果是提取的特征可解释性强,句子级特征向量能表示实体自身的语义信息。

Description

基于多特征信息增强的文本实体关系抽取方法
技术领域
本发明属于信息抽取领域,涉及一种基于多特征信息增强的文本实体关系抽取方法。
背景技术
实体关系抽取是信息抽取任务中重要的一部分,被广泛用在信息检索、问答系统中。国内在这方面的研究起步比较晚,但近年来,中国科学院、北京大学、清华大学等科研院所在推动其研究发展上做出了重要的贡献。实体关系抽取在实现方法上,根据不同的模型,传统的方法主要可以分为基于特征的方法和基于核函数的方法,而随着深度学习的发展,实体关系抽取也慢慢从传统的方法过度到了深度学习的方法,也取得了相较于传统方法更加好的效果。在深度学习的方法中,主要采用基于CNN、RNN、LSTM及其改进的模型网络结构等方法,因其高精度获得了学术界的广泛关注。
基于特征的方法,通过重点关注并提取文本中的重要特征来刻画实体间的关系,如实体类型、依存树和词块特征等,将其转化成向量的形式,利用机器学习相关算法(如支持向量机、最大熵、条件随机等)对关系特征进行抽取。该方法依赖特征的设计和自然语言处理各个工具(如命名实体识别、词性标注、短语提取等)的准确率,因此,这样的设计存在耗时和容易造成错误累积的问题,进而影响最终的抽取性能,且这些特征已经覆盖了大多数可利用的语言现象,在性能方面也很难进一步得到提升。
基于核函数的方法,充分利用句子的特定组织形式,可以表示为字符串序列或树结构,不需要显式定义复杂地语义特征,通过设计核函数来计算对象在高维空间中的相似度,以获取对象的结构化特征,并以此构建分类模型。Zelenko等人通过浅层句法分析进行树核函数的设计;Culotta等人通过依存句法捕获对象间的相似性来构造树核函数;Bunescu等人将句法最短路径与树核函数进行了融合;Zhang等人利用卷积树核句法特征的效果进行了探究。这类方法依赖核函数的设计,同样受到自然语言处理工具的计算损失的影响,因此通用性不强。
基于深度学习的方法中,CNN的基本结构包含两层,分别为特征提取层和特征映射层,特征提取层的每个神经元的输入与前一层的局部接受域相连,进行局部特征的提取。特征映射层网络的每个计算层由多个特征映射组成,每个特征映射表示为一个平面,平面上的所有神经元权值相等,减少了网络模型中自由参数的数量。RNN进行实体关系抽取的方法由Socher等人在2012年首次提出的,论文中提出为分析树中每个节点分配一个向量和一个矩阵,其中向量是为了捕获特征组成部分的固有含义,而矩阵是为了捕捉当前特征如何改变相邻单词或短语的含义。由于梯度消失和梯度爆炸的问题,传统的RNN在实际中很难处理长期依赖的长序列特征,随着时间步的增长,后面的时间节点对前面的时间节点感知力也随之下降,而利用LSTM网络进行实体关系的抽取,通过三个门控操作减缓了这些问题,能够从语料中学习到实体特征与语义信息的长期依赖关系。
深度学习的模型虽然能够自动提取文本的语义特征,但提取的特征可解释性不强,句子级特征向量未能表示实体自身的语义信息。深度学习中单个模型只能表示某一层面的特征,对于更多层面的特征表示不足。
发明内容
为了解决深度学习的模型虽然能够自动提取文本的语义特征,但提取的特征可解释性不强,句子级特征向量未能表示实体自身的语义信息的问题,本发明提出一种基于多特征信息增强的文本实体关系抽取方法,包括:
S1.将文本映射为词特征,并与外部特征结合作为特征信息嵌入模型:通过one-hot对每个单词形成V*1的向量,整个词汇表则是V*V的矩阵,根据索引映射,将每个单词映射到d维空间,每个单词被映射成一个向量,所有单词的矩阵是V*d,每个单词与矩阵中的某列一一对应,
初始化一个d维空间的矩阵作为权重矩阵W′,权重矩阵的形状为V*d,作为中心词的向量vc和背景词的向量
Figure BDA0002702266720000021
通过公式(1)进行softmax层进行映射
Figure BDA0002702266720000022
再通过神经网络的方式学习更新,最终以Embedding形成句子级特征表示,
标记实体的上下文词,选取每个实体上文的一部分词L1={l1,l2,l3,...,ln}和下文的一部分词L2={l1,l2,l3,...,ln}进行特征表示,
将所有的特征都连接到词级特征向量中形成特征矩阵V*n,
计算每个word与两个entity的相对距离作为实体位置特征的表示,将特征通过Lookup-Table做Embedding操作,将其投影成低维向量,则每个相对距离都对应到一个低维实数向量,
将实体的位置特征、词特征和句子级特征进行特征融合,作为特征信息嵌入网络模型,S2.通过卷积神经网络获得更高层的局部特征:
卷积神经网络由卷积层和最大池化层组成,通过h×k的卷积核
Figure BDA0002702266720000023
在输入层自上而下移动,通过卷积核的特征提取,获得特征图,特征图列的维度为1,行的维度为n-h+1,再通过最大池化进行降维,获得特征中的最大值作为最终的特征,具体公式如下所示:
Figure BDA0002702266720000031
Figure BDA0002702266720000032
其中
Figure BDA0002702266720000033
S3.通过Bi-LSTM获得特征之间的依赖关系和上下文特征信息:
Figure BDA0002702266720000034
表示p时刻前向LSTM的输出结果,/>
Figure BDA0002702266720000035
表示p时刻后向LSTM的输出结果,xp表示p时刻的输入,hp表示p时刻Bi-LSTM的输出结果,公式如下:
Figure BDA0002702266720000036
Figure BDA0002702266720000037
Figure BDA0002702266720000038
其中,wp表示p时刻前向LSTM输出的权重的大小,vp表示p时刻后向LSTM输出的权重的大小,bp表示p时刻的偏置的大小,
S4.通过注意力机制关注重要的语义关系特征:
将Bi-LSTM捕获的长期依赖关系的序列特征,利用Attention机制对具有重要含义的特征进行加权,公式如下:
A=tanh(wahp+ba) (8)
ss=softmax(Apva) (9)
αs=∑sshp (10)
Figure BDA0002702266720000039
Figure BDA00027022667200000310
其中,ss表示Bi-LSTM在p时刻,隐藏状态hp在各特征中的注意力权重系数的分值,对获得的ss进行加权求和,得到的αs表示经过注意力权值分配后的特征表示,最后将分配好权重的αs进行线性变换,并将结果作为softmax分类器的输入,从而分配各个类的概率,选择其中最大的概率的那一个类别判定为最终的类别。
有益效果:
①利用位置特征、词汇特征和句子级特征提取实体信息和文本语义信息;
②利用CNN提取局部特征,Bi-LSTM提取序列特征,注意力机制关注重要特征信息;
③提出多特征融合的信息增强方式促进实体关系特征的提取。
附图说明
图1特征信息嵌入图。
图2混合神经网络图。
图3注意力权重分配机制图。
具体实施方式
1发明概述
实体关系抽取的难点在于不仅需要很好地表达文本的语义去理解文本中实体之间的关系,还需要获得更多的实体对的信息以及实体自身的语义信息,针对这些难点,本发明提出了一种基于多特征信息增强(Multi-feature information enhancement)的方法完成实体关系抽取任务。首先,本发明引入实体的位置特征、词特征和句子级特征,获得实体的位置和语义信息;然后利用卷积神经网络(CNN)进行文本的局部特征提取,提取文本的深度特征;接着,使用长短期记忆神经网络(Bi-LSTM)捕获特征之间的长期依赖关系,并获得上下文语义信息;最后使用注意力机制(Attention)有针对性地关注有利于表达实体之间关系的特征,并进行实体关系抽取。通过Sem2010 task8数据集进行实验,并与Hybrid_BiLSTM-Siamese,RNN_PI等方法进行比较,实验结果表明,本发明的方法MFIE取得了较好的效果。
实体关系抽取的文本中包含了实体位置(PF)、词汇(Vocabulary),以及句子(WV)等重要特征信息,将深度学习提取的特征和词汇、实体位置等特征结合是更好地表达文本和实体关系语义信息的关键。混合神经网络通过融合各自模型的特征优势,增强了特征的表达能力,是一个很好的提升深度学习模型表征的方法。再者,注意力机制能协助模型捕捉重要信息,将其引入,能提取到更全面的特征。基于上述方法,本发明设计了一个基于多特征信息增强的实体关系抽取方法,主要贡献如下:
①利用位置特征、词汇特征和句子级特征提取实体信息和文本语义信息;
②利用CNN提取局部特征,Bi-LSTM提取序列特征,注意力机制关注重要特征信息;
③提出多特征融合的信息增强方式促进实体关系特征的提取。
2相关工作
随着深度学习的发展,将深度学习的方法引入到实体关系抽取任务中,已成为了研究的热点,并取得了很多成果,具体方法可细分为基于CNN、RNN、LSTM和混合神经网络等四种方法。
2.1基于CNN的实体关系抽取方法
Zeng等人在2014年首次提出将CNN运用于实体关系抽取的任务中,其利用卷积深度神经网络(CDNN)进行词和句子等特征的提取,将所有的单词标记作为输入,而无需复杂的预处理,解决了从预处理工具中提取到的特征可能会存在错误传播并阻碍性能的问题。Xu等人于2015年在Zeng等人的工作基础上提出了一种基于依存分析树的卷积神经网络的实体关系抽取模型,该模型与Zeng等人的CNN模型相比,其输入文本首先经过了依存分析树的特征处理,同时提出了一种负采样的策略,以解决因实体对距离较远,导致依存分析树引入了无关信息的问题,因此显著提高了实体关系抽取任务的性能。Santos等人在2015年提出了CR-CNN模型,与Zeng等人的模型相比,CR-CNN模型将最后的Softmax输出层替换为利用排名进行类别的判定,与Xu等人的模型相比,CR-CNN模型仅将词向量作为了特征输入而不需要先通过依存分析树等附加特征的处理,因此可以降低NLP工具中提取到错误特征传播的影响并提升了模型的性能。Vu等人在2016年提出了一种新的基于CNN网络的上下文表示实体关系抽取方法,与Zeng等人的标准CNN网络不同的是,Vu提出的CNN模型没有额外的全连接隐藏层,其次,Vu也使用了双向RNN进行实体关系抽取,并引入Santos提出的排名损失函数获得进一步优化,改善了实体关系抽取结果。Zhang等人提出了一种新的深度融合的卷积神经网络,与Xu等人的方法相比,其使用两种不同的表示(最短依赖路径和字向量)作为卷积神经网络的不同输入,因此能够自动学习更多的不同维度的文本特征,并在高维特征空间中对其进行了深度融合,从而提高了关系提取的准确性。Wang等人提出了一种基于结构块驱动的卷积神经学习的轻量级关系提取方法,与Vu等人不同的是,该方法独立于长句上下文,只在块边界内编码顺序标记,通过依赖分析来检测与实体相关的基本顺序令牌,并将其命名为一个结构块,且只使用块和块间的表示方式对块进行编码,此方法既消除句子中不相关部分的噪声,也增强相关块的表示。
2.2基于RNN的实体关系抽取方法
Hashimoto等人在2013年提出了一个基于句法树的递归神经网络(RNN)方法,与Socher等人提出的方法相比,Hashimoto不需要使用具有高昂计算成本的词依存矩阵,而是使用了短语类别、词性(POS)标签和句法头等附加特征,并向RNN模型中引入了平均参数,可以给目标任务的重要短语赋予大的权重,Hashimoto的模型证明了增加特征及引入平均参数的有效性。RNN相比于前馈网络更适合处理序列化的输入,但RNN也存在以下两个缺点:(1)在网络训练时RNN容易出现梯度消失和梯度爆炸的问题,因此传统的RNN在实际中很难处理长期依赖的特征,而这一点在LSTM网络中有所改进;(2)由于RNN的内部结构复杂,所以网络的训练周期也相对较长。
2.3基于LSTM的实体关系抽取方法
Yan等人在2015年提出了一个基于LSTM的融合句法依存分析树的最短路径,以及词向量特征、词性特征、WordNet特征、句法类型特征来进行实体关系抽取,其网络中的LSTM单元用于有效信息的传播,而最大池化层会从每个路径中的LSTM节点进行信息的收集,不同通道的池化层会连接在一起,然后输入到隐藏层。Shen等人提出了一种新的语义关系提取神经网络,称为实体依赖的长短期记忆网络(ED-LSTM),与Yan等人的方法不同的是,该方法在没有使用附加的人工特征的前提下,通过提取的实体信息与上下文信息的关联性,选择上下文相关的部分来进行实体语义关系的判断,以在最小特征工程的情况下获得更好的效果。
2.4基于混合神经网络的实体关系抽取方法
Nguyen等人利用传统特征工程并结合CNN、RNN网络的优点,在2015年提出一种融合传统特征工程和神经网络的方法,首次系统地对RNN架构以及RNN与CNN和传统的基于特征的实体关系抽取方法相结合的工作进行了检测。Li等人于2016年提出一种基于低成本的序列特征的Bi-LSTM-RNN模型,利用实体对信息,对其周围的上下文进行分段表示来获取更丰富的语义信息,无需词性标注和依存句法树等额外特征,避免Yan等人提出的模型因需要从NLP的预处理工具中提取附加特征而带来的错误传播问题。Qin等人提出了将实体对信息集成到深度学习中进行关系抽取的策略,为神经网络了提供明确的学习方向,包括两个级联操作和基于实体对的注意机制,利用实体对中涉及的隐含语义信息为实体关系抽取提供确定的目标指向。
3实体关系抽取算法
3.1基本定义
实体关系抽取:主要是从文本中抽取出第一个实体和第二个实体两者之间的关系类型,最终表示为结构化的形式。
结构化形式:实体与关系可描述为三元组<e1,r,e2>,其中e1和e2是实体,r属于目标关系集R{r1,r2,...,r3}。
3.2特征嵌入
3.2.1基于外部资源的特征信息嵌入
1.词向量信息
本发明采Word2Vec的Skip-gram的词嵌入方式,首先通过one-hot对每个单词形成V*1的向量,整个词汇表则是V*V的矩阵,根据索引映射,将每个单词映射到d维空间,通过这样的方式每个单词被映射成一个向量(初始随机化),所有单词的矩阵便是V*d,每个单词与矩阵中的某列一一对应,然后,初始化一个d维空间的矩阵作为权重矩阵W′,该矩阵的形状为V*d,作为中心词的向量vc和背景词的向量
Figure BDA0002702266720000061
根据窗口的变动,每个词都有机会成为中心词,同时也会成为其他中心词的背景词,经过softmax层进行映射,如公式(1)所示,最后通过神经网络的方式来学习更新,从而达到很好的表征能力,最终以Embedding形成句子级特征(WV)表示。
Figure BDA0002702266720000071
2.词级特征信息
本发明标记实体的上下文词,选取每个实体上文的一部分词L1={l1,l2,l3,...,ln}和下文的一部分词L2={l1,l2,l3,...,ln}进行特征表示,将这些所有的特征都连接到词级特征(Vocabulary)向量中形成特征矩阵V*n,将特征引入模型,协助分类器完成实体关系的判定,从而更加突出文本中的实体潜在特征和更好地表示实体自身的语义。
3.位置特征信息
相对位置特征(PF)是指当前单词与实体之间的距离。由于一个句子中存在两个实体,位置特征通过考虑两个实体和其他词之间的距离信息,可以很好地把句子中实体的信息考虑到关系抽取中。一般认为,在句子中,单词与实体越近,其与对应关系的关联越重要。本发明计算每个word与两个entity的相对距离作为实体位置特征的表示,例如某个单词距离entity1为d1,距离entity2为d2,这样每个word就有了两个位置特征[d1,d2],形成V*2的矩阵,将特征通过Lookup-Table做Embedding操作,将其投影成低维向量,则每个相对距离都对应到一个低维实数向量,这样Position Feature的特征嵌入有效地突出了两个entity在文本语义中的作用
4.特征信息融合
本发明将实体的位置特征、词特征和句子级特征进行特征融合,作为特征信息嵌入网络模型,具体流程如图1所示。
3.2.2基于混合神经网络的深度特征提取
针对网络模型的关系抽取,本发明使用混合神经网络进行深度特征提取,工作重点在于结合不同的语言学知识,使用CNN,Bi-LSTM等不同的神经网络模型的结构特点来共同设计网络模型以达到理想的效果。
(1)卷积神经网络提取文本的局部特征,局部特征内参数共享,使每一部分的特征具有针对性,而卷积神经网络通过卷积核提取高层的局部特征[c1,c2,...ct],更好地构建序列的整体特征。CNN由卷积层和最大池化层组成,主要通过h×k的卷积核
Figure BDA0002702266720000081
在输入层自上而下移动,通过卷积核的特征提取,获得特征图,特征图列的维度为1,行的维度为n-h+1,再通过最大池化进行降维,获得特征中的最大值作为最终的特征,具体公式如下所示:
Figure BDA0002702266720000082
Figure BDA0002702266720000083
其中
Figure BDA0002702266720000084
(2)使用Bi-LSTM提取序列式特征,解决卷积神经网络未能有效提取不定长文本特征的问题,同时获得上下文的语义特征,提高模型对文本语义的表达和理解。
Figure BDA0002702266720000085
表示p时刻前向LSTM的输出结果;/>
Figure BDA0002702266720000086
表示p时刻后向LSTM的输出结果;xp表示p时刻的输入;hp表示p时刻Bi-LSTM的输出结果,如图2所示,具体如公式如下:
Figure BDA0002702266720000087
Figure BDA0002702266720000088
Figure BDA0002702266720000089
其中,wp表示p时刻前向LSTM输出的权重的大小;vp表示p时刻后向LSTM输出的权重的大小;bp表示p时刻的偏置的大小。
3.2.3基于注意力的权重分配机制
在注意力机制引入之前,长距离的信息会被弱化,就如记忆中的事物随着时间的流逝而消逝。Attention机制能够捕获序列中的关键点,是一种权重参数的分配机制,即使文本较长,也能从中获取到更能表达语义特征的信息,减小重要特征的丢失。本发明将Bi-LSTM捕获的长期依赖关系的序列特征,利用Attention机制对具有重要含义的特征进行加权,使本发明获取到的特征更加富有侧重点,具体公式如下:
A=tanh(wahp+ba) (8)
ss=softmax(Apva) (9)
αs=∑sshp (10)
Figure BDA00027022667200000810
Figure BDA0002702266720000091
其中,ss表示Bi-LSTM在p时刻,隐藏状态hp在各特征中的注意力权重系数的分值,对获得的ss进行加权求和,得到的αs表示经过注意力权值分配后的特征表示,最后将分配好权重的αs进行线性变换,并将结果作为softmax分类器的输入,从而分配各个类的概率,选择其中最大的概率的那一个类别判定为最终的类别,如图3所示。
3.3基于多特征信息增强的实体关系抽取
本发明通过多特征信息增强(MFIE)的方法进行实体关系抽取,首先将文本映射为词特征,并与外部特征结合作为特征信息嵌入模型,接着,通过卷积神经网络获得更高层的局部特征,再通过Bi-LSTM获得特征之间的依赖关系和上下文特征信息,并利用注意力机制关注重要的语义关系特征,最终通过融合的多种编码的特征信息进行实体关系的抽取。MFIE算法描述如下:
Figure BDA0002702266720000092
Figure BDA0002702266720000101
4实验结果与分析
4.1数据集
本发明的实验采用ACL SigLex组织提供的SemEval-2010task 8公共语料库进行实验,该语料库共包括8000个训练样本和2717个测试样本,包含了10大类关系,除Other类别之外,其他的类别均考虑实体的方向性,训练集和测试集样本关系如表1,2所示,样本示例如表3所示。
表1训练集样本关系表
Figure BDA0002702266720000102
表2测试集样本关系表
Figure BDA0002702266720000103
表3样本示例
Figure BDA0002702266720000111
4.2实验参数
本发明的模型采用了CNN、Bi-LSTM、Attention的结构。具体参数如下:卷积核大小为256,滤波器的词长度为3,Bi-LSTM的单元状态维度是256,句子最大长度为98,激活函数为Relu,批处理(batch size)大小为128,学习率为0.001,Dropout参数为0.5,迭代次数(epoch)为100。表4列出了实验中模型的参数设置。
表4实验参数设置表
Figure BDA0002702266720000112
Figure BDA0002702266720000121
4.3实验评价指标
本发明使用官方宏观平均F1-score作为模型的评价指标(不包括其他模型)。
(1)各类别的精度(P)、召回率(R)和F1的计算公式如下:
Figure BDA0002702266720000122
Figure BDA0002702266720000123
Figure BDA0002702266720000124
其中,TP表示样本实际为正,被预测为正的数量;TN表示样本实际为负,被预测为负的数量;FP表示样本实际为负,被预测为正的数量;FN表示样本实际为正,被预测为负的数量。
(2)P、R、F1的宏观平均公式如下:
Figure BDA0002702266720000125
/>
Figure BDA0002702266720000126
Figure BDA0002702266720000127
4.4实验结果及分析
通过MFIE方法对SemEval-2010 task 8公共语料进行实体关系抽取,最终结果如表5所示:
表5实体关系抽取各关系类型性能评价结果
Figure BDA0002702266720000128
Figure BDA0002702266720000131
由表5可看出,除Other外,Instrument-Agency关系类型在抽取中的F1值相比其他关系类型最低,Cause-Effect关系类型在抽取中的F1值相比其他关系类型最高,而由表1和2可知,Instrument-Agency关系类型对应的训练数据和测试数据在语料中的比例最低,分别为6.30%和5.74%,而Cause-Effect关系类型对应的训练数据和测试数据在语料中比例最高,分别为12.54%和12.07%。少量的语料导致精度偏低,大量的语料导致精度偏高,说明了深度学习模型非常依赖数据的一大特性。
本发明忽略Other类型的影响,使用MFIE方法对实体关系抽取进行Micro-averaged和Macro-averaged两个指标进行计算,如表6所示。
表6不同实体关系抽取性能评价指标结果
Figure BDA0002702266720000132
Macro-averaging是先对每一个类统计指标值,然后在对所有类求算术平均值。Micro-averaging是对数据集中的每一个实例不分类别进行统计建立全局混淆矩阵,然后计算相应指标。本发明最终采用通用指标Macro-averaged作为最终的性能评价指标。
为了进一步证明模型的有效性,本发明分别对方法(MFIE)中的不同结构进行测试,如表7所示。
表7不同模型对实体关系抽取的影响
Figure BDA0002702266720000133
由表7可以看出,当只使用CNN时,精准率为78.6%,召回率为82.9%,F1值为80.7%,由于没有Bi-LSTM进行序列特征的提取和注意力机制对重要特征的关注,所以提取的特征不够全面。Bi-LSTM与MaxPool结合进行实体关系抽取时,F1值为77.5%,最大池化能对Bi-LSTM提取的特征进行降维,并选取最大的参数值,使得特征具有针对性,但缺少与关系类别判定的关联。当使用CNN、Bi-LSTM以及MaxPool进行实体关系抽取时,精准率、召回率、F1值都比前两种方法的效果更好,说明了局部特征以及序列特征的提取使实体语义关系表达更全面,而将MaxPool更换为注意力机制时,精准率、召回率和F1值又获得了更大的提升,分别为81.8%,84.8%,83.3%,证明了注意力机制对于关注重要的实体关系特征的有效性,从而也证明了本发明最终模型的有效性。
为了验证MFIE方法中实体位置特征(PF)和词汇特征(Vocabulary)的有效性,在模型不变的前提下,分别对不同的外部资源特征:WV、PF+WV、PF+Vocabulary+WV做了实验,由表8所示。
表8不同特征对实体关系抽取的影响
Figure BDA0002702266720000141
由表8可以看出,当MFIE方法不引入PF和Vocabulary时,精准率为70%,召回率为74.1%,F1值为71.9%,可以看出缺少对实体信息的特征表达,只是对文本意义的表示,模型对于实体关系抽取的任务很难达到好的效果。当MFIE方法引入位置特征时,精准率为78.9%,召回率为84.7%,F1值为81.7%,效果提升了近10%,说明了关注实体位置信息的重要性。当本发明的模型同时引入位置特征和词特征的时候,精准率为81.8%,召回率为84.8%,F1值为83.3%,关系抽取任务达到了更好的效果,说明了实体自身语义的重要性,同时也说明了获得更多的实体的特征信息是实体关系抽取的重点。
为了验证所提方法的有效性,本发明将本发明实体关系抽取的方法与以下方法进行了比较:SVM,RNN,CNN_PF,RNN_PI,Hybrid_BiLSTM-Siamese,Structural_block_CNN,如表9所示。
表9实体关系抽取实验结果对比
Figure BDA0002702266720000142
Figure BDA0002702266720000151
[1]Rink B,Harabagiu S.Utd:Classifying semantic re-lations by combinglexcal and semantic resources[C]//Proceedings of the 5th InternationalWorkshop on Semantic Evaluation.2010.Association for Com-putationalLinguistics,2010:256-259.
[2]Hashimoto K,Miwa,M.,Tsuruoka,Y.,Chikayama,T.Simple CustomizationofRecursive Neural Networks for Semantic Relation Classification.Proceedingsof the 2013Conference on Empirical Methods inNatural LanguageProcessing.2013:18-21.
[3]Socher R,Huval B,Manning CD,Ng AY.Semantic compositionalitythrough recursive matrix-vector spaces.Joint Conference on Empirical Methodsin Natural Language Processing and ComputationalNatural LanguageLearning2012.p.1201-11.
[4]D.Zhang,D.Wang,Relation classification:Cnn or rnn?in:NaturalLanguage Understanding and IntelligentApplications,Springer,2016,pp.665–675.
[5]Cui Z,Pan L,Liu S,et al.HybridBiLSTM-Siamese Network for RelationExtraction[C].adaptive agents andmulti-agents systems,2019:1907-1909.
[6]Wang D,Tiwari P,Garg S,et al.Structural block driven enhancedconvolutional neural representation for relation extraction[J].Applied SoftComputing,2020,86:105913.
SVM的方法是Rink和Harabagiu于2010年提出的,其使用了外部特征,F1值达到72.5%。与上述的其他方法相比,深度学习方法被应用于实体关系抽取能获得显著的成效。
RNN的方法是Socher等人于2012年提出的实体关系抽取方法,其利用了很多外部资源(POS,NER,Word_Net),比只使用词向量的句子级特征(WV)有了很大的提升,从74.8%提升至77.6%,有效地考虑到了句子的句法结构,而本发明的方法利用Bi-LSTM缓解RNN的梯度爆炸和梯度消失的问题,利用注意力机制关注重要特征,所以比Socher等人的方法获得了更好的效果。
CNN_PF的方法是Zeng等人在2014年提出的,是第一个使用CNN对词和句子进行特征提取,并完成实体关系抽取任务,其还引入了位置特征,不需要复杂的预处理,使模型关注更多的实体信息,在只使用PF的情况下,取得了78.3%的效果。由于文本是不定长的,且语义是有序的,MFIE方法额外使用了Bi-LSTM和注意力机制获得文本的序列特征,获得更多的语义特征,比此方法提升了5%的F1值,同时也验证了本发明方法的有效性。
RNN_PI的方法是Zhang和Wang在2016年提出的,其引入了位置指引的特征,利用RNN的特性,增加对实体信息的关注,从而提升对实体关系抽取的效果,F1值达到79.6%,与MFIE方法相比,其提取的特征没有针对性,所以MFIE方法加入注意力机制后取得了更好的效果。
Hybrid_BiLSTM-Siamese的方法是Cui等人于2019年提出的,将两个级别的Bi-LSTM合在一起,学习句子中的相似度,通过K近邻算法进行实体关系的抽取,F1值达到81.8%。MFIE方法通过关注句子中重要的特征,也改进了实体关系的抽取。
Structural_block_CNN的方法是Wang等人在2020年提出的一种轻量级的实体关系抽取模型,其利用不同卷积核的CNN分块提取不同的结构快特征进行实体关系抽取,F1值达到81.1%。本发明的方法使用了多种模型之间的特性进行实体关系抽取任务,获得的语义信息和实体信息更充分一些,从而效果相对更好一些。
由表9可以看出,本发明的模型在Sem2010 task8的实体关系抽取数据集中相较于其他五种方法,取得了较好的效果,按照宏平均F1作为评价指标,MFIE方法达到83.3%。
MFIE方法首先使用了位置特征和词汇特征,突出了句子中实体自身的语义信息和实体对之间的关联信息,然后,本发明利用CNN提取句子的局部特征,而由于文本是不定长的,且语义是根据句子有序表达的,所以本发明接着使用Bi-LSTM获取句子的序列特征,其中,双向的LSTM可以获得句子的上下文语义,使得获取的语义更丰富,接着,为了突出序列特征中对于实体关系抽取更重要的一部分特征,本发明使用注意力机制对重要的特征赋予大的权重,再进行实体关系的抽取,最后,MFIE方法达到了相较于以上其他方法更好的结果,F1值为83.3%,证明了本发明模型的有效性。
本发明提出的多特征信息增强的实体关系抽取方法,引入了多个附加特征,包括实体的位置特征、词特征和句子级特征,增加对实体信息的关注以及实体自身语义的表达,然后,使用CNN对样本进行深度特征提取,接着使用Bi-LSTM提取文本的序列特征,并学习文本的上下文语义表示,最后使用注意力机制根据各特征对于关系抽取任务的重要性进行权重的分配,并进行实体关系抽取,实验表明,该方法能有效地完成实体关系抽取任务。
接下来,本发明会对实验继续进行改进,通过针对更多实体的特征表示,获得更多的实体信息以及实体对关系的关联信息,从而更好地解决实体关系抽取问题。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (1)

1.一种基于多特征信息增强的文本实体关系抽取方法,其特征在于,包括:
S1.将文本映射为词特征,并与外部特征结合作为特征信息嵌入模型:通过one-hot对每个单词形成V*1的向量,整个词汇表则是V*V的矩阵,根据索引映射,将每个单词映射到d维空间,每个单词被映射成一个向量,所有单词的矩阵是V*d,每个单词与矩阵中的某列一一对应,
初始化一个d维空间的矩阵作为权重矩阵W',权重矩阵的形状为V*d,作为中心词的向量vc和背景词的向量
Figure FDA0002702266710000011
通过公式(1)进行softmax层进行映射
Figure FDA0002702266710000012
再通过神经网络的方式学习更新,最终以Embedding形成句子级特征表示,
标记实体的上下文词,选取每个实体上文的一部分词L1={l1,l2,l3,...,ln}和下文的一部分词L2={l1,l2,l3,...,ln}进行特征表示,
将所有的特征都连接到词级特征向量中形成特征矩阵V*n,
计算每个word与两个entity的相对距离作为实体位置特征的表示,将特征通过Lookup-Table做Embedding操作,将其投影成低维向量,则每个相对距离都对应到一个低维实数向量,
将实体的位置特征、词特征和句子级特征进行特征融合,作为特征信息嵌入网络模型,
S2.通过卷积神经网络获得更高层的局部特征:
卷积神经网络由卷积层和最大池化层组成,通过h×k的卷积核
Figure FDA0002702266710000013
在输入层自上而下移动,通过卷积核的特征提取,获得特征图,特征图列的维度为1,行的维度为n-h+1,再通过最大池化进行降维,获得特征中的最大值作为最终的特征,具体公式如下所示:
Figure FDA0002702266710000014
Figure FDA0002702266710000015
其中
Figure FDA0002702266710000016
S3.通过Bi-LSTM获得特征之间的依赖关系和上下文特征信息:
Figure FDA0002702266710000017
表示p时刻前向LSTM的输出结果,/>
Figure FDA0002702266710000018
表示p时刻后向LSTM的输出结果,xp表示p时刻的输入,hp表示p时刻Bi-LSTM的输出结果,公式如下:
Figure FDA0002702266710000021
Figure FDA0002702266710000022
Figure FDA0002702266710000023
其中,wp表示p时刻前向LSTM输出的权重的大小,vp表示p时刻后向LSTM输出的权重的大小,bp表示p时刻的偏置的大小,
S4.通过注意力机制关注重要的语义关系特征:
将Bi-LSTM捕获的长期依赖关系的序列特征,利用Attention机制对具有重要含义的特征进行加权,公式如下:
A=tanh(wahp+ba) (8)
ss=softmax(Apva) (9)
αs=∑sshp (10)
Figure FDA0002702266710000024
Figure FDA0002702266710000025
其中,ss表示Bi-LSTM在p时刻,隐藏状态hp在各特征中的注意力权重系数的分值,对获得的ss进行加权求和,得到的αs表示经过注意力权值分配后的特征表示,最后将分配好权重的αs进行线性变换,并将结果作为softmax分类器的输入,从而分配各个类的概率,选择其中最大的概率的那一个类别判定为最终的类别。
CN202011026497.6A 2020-09-25 2020-09-25 基于多特征信息增强的文本实体关系抽取方法 Active CN112163425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011026497.6A CN112163425B (zh) 2020-09-25 2020-09-25 基于多特征信息增强的文本实体关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011026497.6A CN112163425B (zh) 2020-09-25 2020-09-25 基于多特征信息增强的文本实体关系抽取方法

Publications (2)

Publication Number Publication Date
CN112163425A CN112163425A (zh) 2021-01-01
CN112163425B true CN112163425B (zh) 2023-06-20

Family

ID=73864229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011026497.6A Active CN112163425B (zh) 2020-09-25 2020-09-25 基于多特征信息增强的文本实体关系抽取方法

Country Status (1)

Country Link
CN (1) CN112163425B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033203A (zh) * 2021-02-05 2021-06-25 浙江大学 一种面向医药说明书文本的结构化信息抽取方法
CN113095070B (zh) * 2021-04-06 2022-03-04 山东省人工智能研究院 基于改进词级别注意力机制的关系抽取方法
CN113032571A (zh) * 2021-04-19 2021-06-25 广东工业大学 一种实体和关系抽取方法
CN113342929A (zh) * 2021-05-07 2021-09-03 上海大学 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法
CN113505240B (zh) * 2021-07-09 2023-04-18 吉林大学 一种基于注意力引导图lstm关系提取方法及装置
CN114357156B (zh) * 2021-12-02 2023-02-28 北京邮电大学 一种多特征多通道图卷积网络模型训练方法及属性情感三元组抽取方法
CN114332872B (zh) * 2022-03-14 2022-05-24 四川国路安数据技术有限公司 一种基于图注意力网络的合同文档容错信息提取方法
CN117610562B (zh) * 2024-01-23 2024-07-05 中国科学技术大学 一种结合组合范畴语法和多任务学习的关系抽取方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于注意力与神经图灵机的语义关系抽取模型;张润岩;孟凡荣;周勇;刘兵;;计算机应用(第07期);全文 *

Also Published As

Publication number Publication date
CN112163425A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN112163425B (zh) 基于多特征信息增强的文本实体关系抽取方法
CN110826336B (zh) 一种情感分类方法、系统、存储介质及设备
Perez-Martin et al. Improving video captioning with temporal composition of a visual-syntactic embedding
US5794050A (en) Natural language understanding system
CN108829801A (zh) 一种基于文档级别注意力机制的事件触发词抽取方法
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN109325231A (zh) 一种多任务模型生成词向量的方法
CN108628935A (zh) 一种基于端到端记忆网络的问答方法
CN112818118B (zh) 基于反向翻译的中文幽默分类模型的构建方法
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN109597995A (zh) 一种基于bm25加权结合词向量的文本表示方法
Zhang et al. Hierarchical scene parsing by weakly supervised learning with image descriptions
CN114428850B (zh) 一种文本检索匹配方法和系统
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN111639165A (zh) 基于自然语言处理和深度学习的智能问答优化方法
CN107665356A (zh) 一种图像标注方法
Guo et al. Implicit discourse relation recognition via a BiLSTM-CNN architecture with dynamic chunk-based max pooling
Dai et al. Relation classification via LSTMs based on sequence and tree structure
CN109460477A (zh) 信息收集分类系统和方法及其检索和集成方法
CN114417823A (zh) 一种基于句法和图卷积网络的方面级情感分析方法及装置
CN112417170B (zh) 面向不完备知识图谱的关系链接方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant