CN111125434A - 一种基于集成学习的关系抽取方法及系统 - Google Patents

一种基于集成学习的关系抽取方法及系统 Download PDF

Info

Publication number
CN111125434A
CN111125434A CN201911171322.1A CN201911171322A CN111125434A CN 111125434 A CN111125434 A CN 111125434A CN 201911171322 A CN201911171322 A CN 201911171322A CN 111125434 A CN111125434 A CN 111125434A
Authority
CN
China
Prior art keywords
sentence
vector
packet
entity pair
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911171322.1A
Other languages
English (en)
Other versions
CN111125434B (zh
Inventor
孙新
姜景虎
蔡琪
侯超旭
盖晨
尚煜茗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201911171322.1A priority Critical patent/CN111125434B/zh
Publication of CN111125434A publication Critical patent/CN111125434A/zh
Application granted granted Critical
Publication of CN111125434B publication Critical patent/CN111125434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理和深度学习技术领域,特别涉及一种处理远程监督关系抽取中重复实体方法及系统。本发明的主要技术方案包括:将语料根据实体对组成句包,确定含重复实体语句中的目标实体位置;构建包含语义和位置信息的词向量;通过多角度卷积神经网络,构建句向量;通过动态路由机制,构建句包级别的向量以及对句包分类。本发明提供的关系抽取方法及系统定位到并能够有效处理现有远程监督关系抽取方法及系统没有提及的重复实体导致的注意力偏差问题。

Description

一种基于集成学习的关系抽取方法及系统
技术领域
本发明涉及自然语言处理和深度学习技术领域,特别涉及一种关系抽取中的方法及系统。
背景技术
一般意义上,信息抽取被定义为从自然语言文本中抽取出特定的实时信息,其三个重要子任务是实体抽取、关系抽取和事件抽取,被广泛应用在知识图谱构建、问答系统等领域。关系抽取是信息抽取的关键环节,主要任务是确定实体之间的语义关系。在现有的技术中,主要采用神经网络中的监督学习算法或者远程监督学习算法,将关系抽取任务当作分类任务。
当前主流的关系抽取模型几乎都引入了多示例学习方法。多示例学习是弱监督学习的一个方法,用于训练分类器的示例是没有类别标注的,但是示例构成的包是有类别标注的,最终的目的是给出对新的包的类别预测。这种方式的好处是很大程度上遏制数据噪声对模型参数的影响。
卷积神经网络作为特征提取器在各个领域中都非常常用,能够很好地捕获到语料的局部信息。另外,通常会对卷积神经网络结构进行改造,引进多种卷积核和池化方法,得到包含多粒度局部隐含信息的特征表达。
胶囊网络(CapsNet)是由Hinton等人于2017年提出的网络,胶囊的设计基于人造神经元的设计,但将其扩展到了向量形式,使其具有更强大的表示能力。胶囊网络使用囊间动态路由算法训练,与其他深度学习神经网络相比,训练起来较慢。
值得注意的是,在远程监督方法得到的结构化数据集中,具有重复实体现象,即一个语句可能含有多个同一实体。大多现有关系抽取模型的前提是一个语句只含有一对实体,提取含有重复实体语句的特征时,很可能会丢失关键的语义信息,导致注意力偏差问题,从而影响模型效果。
发明内容
本发明的目的是克服现有技术在远程监督关系抽取中重复实体导致的注意力偏差问题。一方面,通过确定真正包含语义关系的实体对,修正位置信息,另一方面,使用多角度卷积神经网络提取多粒度的文本特征表达,以及使用多示例学习方法和动态路由机制获取句包的特征表达,减弱注意力偏差影响。最后使用全连接层和softmax层组成的分类器对句包分类,得到句包的关系。
为实现上述目的,第一方面,本发明提供一种基于集成学习的关系抽取方法,所述方法包括:
S1、接收文本数据和实体对,分句,确定语句的目标实体对,构建由包含该实体对的语句组成的句包;
S2、对语句中单词构建词向量,为语句构建词向量序列;
S3、通过不包含最后一层softmax层的多角度卷积神经网络,从词向量序列中提取语句特征,构建句向量;
S4、通过动态路由机制,使用句向量“投票”方法构建句包向量;
S5、通过由全连接层和softmax层构成的分类器,确定句包所属的关系。
进一步的,所述步骤S1中,确定语句的目标实体对的步骤包括:
S11、把语句中出现的实体对中的两类实体和其相应的位置信息分别放入集合E1,E2中;
S12、将距离最近的实体对(ei,ej)放入集合C中,其中,ei∈E1,ej∈E2
S13、如果集合C中只有一个实体对,那么该实体对为目标实体对;否则,将距离句子中间位置最近的实体对ci放入集合D中;
S14、如果集合D中只有一个实体对,那么该实体对为目标实体对;否则集合中第一个实体对为目标实体对。
进一步的,所述步骤S2中构建词向量的步骤包括:
S21、将语句s={w1,w2,...,wn}中的单词与目标实体对的相对距离映射为de维位置向量
Figure BDA0002288792420000021
其中,wi为语句中第i个单词,n为语句中单词数量,e1,e2分别表示目标实体对的两个目标实体;
S22、使用Skip-gram模型,对每个单词wi构建其词向量vi
S23、构建最终的词向量xi及语句的词向量序列X:
Figure BDA0002288792420000022
X=x1,x2,...,xn
进一步的,所述步骤S3中多角度卷积神经网络包括卷积层、池化层和全连接层,其中卷积层包含两个一维卷积核,大小分别为3和7,池化层采取top-4池化方法,经过全连接层获取句向量q。
进一步的,所述步骤S4中,通过动态路由机制计算得到句包向量,该机制的迭代计算公式为:
Figure BDA0002288792420000031
Figure BDA0002288792420000032
Figure BDA0002288792420000033
其中,j为迭代次数,qi为句包中第i个句向量,
Figure BDA0002288792420000034
为耦合系数,表示qi所占权重,加和为1,bj为句包向量,d为存耦合系数的临时变量,squash是激活函数;
进一步的,所述步骤S5中,将由句包向量构成的矩阵B作为分类器中全连接层的输入,其输出为:
o=WrB+D
其中,Wr为参数矩阵,D为偏置向量,B为包级别的表示矩阵,B由多个句包向量构成。
进一步的,所述步骤S5中,分类器中softmax层将全连接层的输出归一化,计算句包分到每一类关系的关系概率p(r|B,θ):
Figure BDA0002288792420000035
其中,θ为多角度卷积神经网络和分类器的参数,n为句包数目,r为关系。
进一步的,所述步骤S5中,以交叉熵J(θ)为目标函数训练多角度卷积神经网络和分类器。
Figure BDA0002288792420000036
其中,n为句包数目,r为关系,Bi为第i个句包向量,
Figure BDA0002288792420000037
为第i个句包的关系,
Figure BDA0002288792420000038
表示当参数为θ时,第i个句包向量分到关系
Figure BDA0002288792420000039
的概率。
训练好后,对于新的句包,分类器中关系概率最大的为句包所属关系。
本发明还提供一种用于关系抽取的系统,其特征在于,所述系统包括:
数据预处理模块,用于组成句包,对含重复实体语句,确定目标实体对;
词向量构建模块,用于对语句s={w1,w2,...,wn},获得包含语义和位置信息的词向量以及词向量序列;
句向量构建模块,用于对词向量序列,通过去掉最后一层softmax层的多角度卷积神经网络,获得句向量;
句包向量构建模块,用于对句包中的句向量,通过动态路由机制,获取句包级别的向量;
分类器模块,用于对多个句包向量构成的矩阵,通过由全连接层和softmax层构成的分类器,对句包进行分类,得到句包所属关系。
进一步的,所述系统还包括Skip-gram模型训练模块,以获取包含语义信息的词向量。
本发明提供的一种关系抽取的方法及系统,与现有远程监督关系抽取方法及系统相比,具有如下有益效果:
1、本发明提供的关系抽取方法及系统,定位到并能有效处理现有远程监督关系抽取方法及系统没有提及的重复实体导致的注意力偏差问题。
2、本发明提供的关系抽取方法及系统,提出了基于经验的确定含重复实体语句中真正包含语义关系的实体对位置的算法,使得获取的位置特征更准确。
3、本发明提供的关系抽取方法及系统,在语句级别使用多角度卷积神经网络,使得实体周围的关键词更能被注意到,更好地提取语句特征。
4、本发明提供的关系抽取方法及系统,在句包级别使用动态路由方法,利用不含重复实体的语句增强句包级别的特征表示。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明的处理远程监督关系抽取中重复实体的方法的流程图;
图2为本发明的处理远程监督关系抽取中重复实体的方法的基本结构图;
图3为多角度卷积神经网络的基本结构图;
图4为动态路由机制的基本结构图;
图5为分类器的基本结构图;
图6为卷积过程的基本结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和具体实施方式对本发明作进一步说明。
为了使本申请实例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实例可以相互结合。
本发明提供一种基于集成学习的关系抽取方法,如图1所示,该方法包括如下步骤:
S1、接收文本数据和实体对,分句,确定语句的目标实体对,构建由包含该实体对的语句组成的句包;
S2、对语句中单词构建词向量,为语句构建词向量序列;
S3、通过不包含softmax层的多角度卷积神经网络,从词向量序列中提取语句特征,构建句向量;
S4、通过动态路由机制,使用句向量“投票”方法构建句包向量;
S5、通过由全连接层和softmax层构成的分类器,确定句包所属的关系。
在步骤S1中,分句后,将含需要确定语义关系的实体对(e1,e2)的语句组成句包S={s1,s2,...,sn}。对含重复实体的语句,确定其目标实体对,目标实体对为真正包含语义关系的实体。
确定含重复实体语句中目标实体对位置的基本原理为:如果实体间包含语义关系,那么它们间的距离应该较小;如果实体间包含语义关系,那么它们应该更靠近语句的中间位置。这样可以减弱重复实体导致的注意力偏差问题。
确定目标实体对的具体过程如下:
(1)把语句中出现的两类实体e1,e2和相应的位置信息分别放入集合E1,E2中。
(2)将距离最近的实体对(ei,ej)放入集合C中。其中,ei∈E1,ej∈E2
(3)如果集合C中只有一个实体对,那么此为目标实体对;否则进入(4)。
(4)将距离语句中间位置最近的实体对ci放入集合D中。
(5)如果集合D中只有一个实体对,那么此为目标实体对;否则集合中第一个实体对为目标实体对。
例如,图2中的语句S1:“It was Ohio university in Athens,Ohio,not Ohiostate,in Columbus.”,需要确定关系的实体e1为“Ohio”,e2为“Columbus”。那么集合E1包含三个“Ohio”,位置为语句中第3、7、9个单词。同理,集合E2包含一个“Columbus”,位置为语句中第12个单词。显然,有且只有一对距离最近的实体,分别是语句中的第9个和第12个单词,此为目标实体对。
用语句的语义来看,第一次和第二次出现的“Ohio”表示雅典市的俄亥俄大学,与“Columbus”没有确定的关系,而第三次出现的“Ohio”表示俄亥俄州,与“Columbus”有“/location/US state/capital”的关系,即哥布伦市位于俄亥俄州。与前面方法得到的结果相同。
在步骤2中,对语句中单词构建包含语义及位置信息的词向量xi,具体为
Figure BDA0002288792420000061
将语句构建为词向量序列X={x1,x2,...,xn};其中vi表示语句中第i个词的向量表示,
Figure BDA0002288792420000062
表示语句中第i个单词相对两个重复实体e1,e2的位置向量,xi表示语句中第i单词最终的词向量表示。构建词向量过程如下:
(1)对于语句s={w1,w2,...,wn},首先分词,将单词与目标实体对的相对距离映射为一个de维的位置向量
Figure BDA0002288792420000063
其中,s表示语句,wi为语句中第i个单词,n为语句中单词数量,e1,e2分别表示两个目标实体,
Figure BDA0002288792420000064
分别表示wi与e1,e2距离所映射的位置向量,de为位置向量的维度且随机初始化。
(2)使用Skip-gram模型,对每个单词wi构建其词向量vi。Skip-gram模型基于“具有相同上下文的词语包含相似的语义”思想构建出的词向量包含语义特征,但不具有词间的位置特征。skip-gram这种通用的word2vec模型的原理是通过上下文出现的单词预测,所以训练出的词向量具有语义信息。
(3)引入(1)所得到的位置向量,构建最终的词向量及语句的词向量序列,此时词向量不仅包含语义信息还包含词间位置信息:
Figure BDA0002288792420000071
X=x1,x2,...,xn
其中,xi表示语句中第i单词的词向量,X表示语句中所有词向量构成的序列。
步骤S1中确定含重复实体语句中最可能存在语义关系的目标实体对的方法是基于经验的,不能保证完全正确,因此需要减弱步骤S2中得到词向量的噪声影响,利用多角度卷积神经网络提取关键词特征,获取语句层级的特征表示。
在步骤S3中,多角度卷积神经网络包括卷积层、池化层和全连接层,相对于传统的多角度卷积神经网络(如图3所示),减少了最后一层softmax层。卷积层包含两个一维卷积核,大小分别为3和7,池化层采取top-4池化方法。
具体过程如下:
(1)输入为词向量序列,分别由两个卷积核进行卷积,卷积核大小分别为3和7,如图2中CNN-3和CNN-7所示:
mj=WTXj-w+1:j
Figure BDA0002288792420000072
Figure BDA0002288792420000073
其中,WT为卷积层参数,随机初始化后通过训练得到,Xi:j表示词向量xi到xj构成的矩阵,mj表示第j步卷积获得的向量,M1,M2为分别通过两个卷积核卷积的输出,Mi∈Rn×d,Rn×d表示n行d列实数矩阵。W是卷积核中的数值,通过常规技术即可计算求得。
(2)在得到两个特征映射矩阵后,进行对位相乘以融合特征,并且使用tanh函数避免梯度爆炸,图2中符号
Figure BDA0002288792420000074
表示对位相乘:
F=tanh(multiply(M1,M2)
(3)池化层采取top-4池化方法。由于最大池化在降低隐藏层规模时过于快速和粗糙,其并不适合关系抽取。在关系抽取中,对关系类型贡献最大的关键词通常位于实体周围。经统计,在极大多数含有重复实体的语句中,只有一个实体出现两次,换句话说,这些语句平均有三个实体。因此,采取top-4最大池化后经过全连接层获取句向量:
q=Max4(F)
其中,数字4是固定的,并不是超参数,不会在训练过程中改变。
经过多角度卷积神经网络得到的句向量是较高层次的特征表示,具有丰富的实体语义信息和位置信息。一方面是因为融合了两种卷积核得到的特征表示,另一方面是因为采取top-4最大池化,比top最大池化方法,保留了更多的关键信息。
多示例学习方法中,句包中示例不一定全是同一类别,也就是说是有噪声的。利用动态路由机制降噪,获取句包层级的特征表示。
在步骤S4中,动态路由机制迭代计算公式:
Figure BDA0002288792420000081
Figure BDA0002288792420000082
Figure BDA0002288792420000083
其中,j为迭代次数,qi为句包中第i个句向量,
Figure BDA0002288792420000084
为耦合系数,表示qi所占权重,加和为1,bj为句包级别的向量,d为存耦合系数的临时变量,squash是一种激活函数。d的初始值为0。
如图5所示,步骤S5的分类器由全连接层和softmax构成。传统的分类器的输入是一个向量,预测一个样本的分类。本发明中的分类器输入是向量序列,预测多个样本的分类,也就是多个句包的分类。这样做的目的是改善动态路由机制带来的性能问题。
在步骤S5中,并行地执行步骤S1至S4可以处理多个句包,得到的多个句包向量构成的矩阵B,作为分类器的全连接层的输入,其输出为:
o=WrB+D
其中,Wr为参数矩阵,D为偏置向量,B为包级别的表示矩阵,B由多个句包向量b构成。
将o输入到softmax层,获得每个句包属于不同关系的关系概率值p(r|B,θ):
Figure BDA0002288792420000085
其中,θ为多角度卷积神经网络和分类器的参数,n为句包数目,r为关系。
分类器以交叉熵J(θ)作为目标函数:
Figure BDA0002288792420000091
其中,Bi为第i个句包向量,
Figure BDA0002288792420000092
为第i个句包的关系(在训练时,每个句包所属的关系是已知的),
Figure BDA0002288792420000093
表示当参数为θ时,第i个句包向量分到关系
Figure BDA0002288792420000094
的关系概率。
训练时,训练数据集的句包和关系已知,比如由实体“上海”和“中国”构成的句包对应的关系为“位于”。根据分类器的输出,计算目标函数值,此目标函数衡量的是模型将句包分类正确的能力。使用梯度下降方法,更新网络中的参数,迭代数次后,训练完成。
经过上述步骤,训练完成的模型对于新的句包,就可以得到其被分到每一类中的概率,取概率最大的为其对应的关系。并且句包是由含同一实体对语句组成的,句包对应的关系,就是实体对应的关系,从而得到实体对所具有的语义关系。
本发明还提供一种关系抽取系统,包括:
数据预处理模块,用于组成句包,对含重复实体语句,确定最可能存在语义关系的目标实体对;目标实体对的生成方法如上所述;
词向量构建模块,用于对语句s={w1,w2,...,wn},获得包含语义和位置信息的词向量;具体的构建方法如上文所述;
句向量构建模块,用于对词向量序列,通过去掉最后一层softmax层的多角度卷积神经网络,获得句向量;具体的构建方法如上文所述;
句包量构建模块,用于对句包中句向量,通过动态路由机制,获取句包级别的向量,具体的构建方法如上文所述;
分类器模块,用于对多个句包向量构成的矩阵,通过分类器,计算句包所属的关系,从而抽取出实体对和其对应的关系。具体的训练方法和计算方法如上文所述。
进一步的,所述系统还包括Skip-gram模型训练模块,以获取包含语义信息的词向量。
下面以数据集NYT为例,说明具体的处理远程监督关系抽取中重复实体方法。
数据集NYT是Freebase与纽约时报语料库通过对齐关系事实而构建的,即远程监督方法得到的。2005-2006年的语句作为训练数据,2007年语句作为测试数据。训练过程中的部分参数如表1所示,数据集统计信息如表2所示。
表1训练参数设置
Figure BDA0002288792420000101
表2数据集通缉信息
Figure BDA0002288792420000102
步骤S1,对数据预处理。
将包含相同实体对的全部语句组成一个句包。例如“Ohio”与“Columbus”,构成的句包里的语句都含有这对实体,图2左侧显示出部分内容。
对含有重复实体的语句,确定其目标实体对,目标实体对即最可能存在语义关系的实体对。上述部分已存在具体例子,不再重复说明。
步骤S2,构建词向量。
以“It was Ohio university in Athens,Ohio,not Ohio state,in Columbus”为例给出词向量构建过程,其中由步骤S1知,第三次出现的“Ohio”与“Columbus”是目标实体对。
根据每个单词与两个实体的相对位置距离,映射出位置向量。部分值如表3所示。
表3位置向量(部分)
Figure BDA0002288792420000111
训练Skip-gram模型,利用隐藏层参数嵌入词向量,大小为50。部分值如表4所示。
表4词向量(部分)
将词向量和位置向量组合起来,构成大小为60的词级别的表示,这里的组合表示直接将位置向量连在词向量后面。
步骤S3,构建句向量。
步骤S2得到的词向量构成词向量序列,即12*60的矩阵,作为多角度卷积神经网络的输入,通过两个大小分别为3和7的卷积核卷积。以大小为3的卷积核为例,对步骤S2得到的词向量序列进行卷积。过程如图6所示,每次卷积连续3个词向量组成的序列,能得到一个12*60的特征矩阵。对于大小为7的卷积核同理,也得到一个12*60的特征矩阵。
接着,融合两个特征矩阵。具体操作为矩阵对位相乘后tanh处理,结果是一个12*60的特征矩阵。经过池化层和全连接层后,输出为一个语句级别的向量表示。
“It was Ohio university in Athens,Ohio,not Ohio state,in Columbus”所构建的句向量部分值如表5所示。
表5句向量(部分)
Figure BDA0002288792420000121
步骤S4,构建句包向量。
通过步骤S1至S3,对于“Ohio”与“Columbus”实体所组成的句包,可以构建出包中所有语句的句向量。在此基础上,通过动态路由机制构建句包层级的向量,过程如图4所示。
假设该句包中只有图2中的三个语句,那么迭代过程如下:
第一次迭代,由于耦合系数初始为0,根据公式
Figure BDA0002288792420000122
可知,耦合系数c都为1/3,意味着每个语句的权值相同。由公式
Figure BDA0002288792420000123
计算第一次迭代的句包向量。然后根据公式
Figure BDA0002288792420000124
更新变量d,其中squash是一个将向量挤压到0至1之间的激活函数。
然后按照同样步骤再次迭代,得到最终的句包向量。
步骤S5,分类。
并行执行步骤S1至S4,处理150个句包,可以得到一个句包向量矩阵,输入到由全连接层和softmax层构成的分类器中,输出一个概率矩阵。比如,某次训练中,部分值如表6所示,第一行表示第一句包在与各关系对应的概率,第二行表示第二句包与各关系对应的概率,依次类推。具体来说,0.2201表示第一个句包被分到第一个关系的概率,0.3686表示第一句包被分到第二关系的概率;0.0360表示第二句包被分到第一关系的概率。0.1302表示第二句包被分到第二关系的概率。每一行的概率最大值为相应句包对应的关系。
表6概率矩阵(部分)
Figure BDA0002288792420000125
分类器使用交叉熵作为目标函数训练,采用梯度下降算法,得到各项参数,即通过这150个句包的训练,可以得到分类器的参数、关系,其中关系有:/location/fr_region/capital、/location/cn_province/capital、/location/in_state/administrative_capital、/base/locations/countries/states_provinces_within、/business/company/founders、/people/person/place_of_birth、/people/deceased_person/place_of_death、/location/it_region/capital、/people/family/members、/people/profession/people_with_this_profession、/location/neighborhood/neighborhood_of、NA、/location/in_state/legislative_capital、/sports/sports_team/location、/people/person/religion、/location/in_state/judicial_capital、/business/company_advisor/companies_advised、/people/family/country、/time/event/locations、/business/company/place_founded、/location/administrative_division/country、/people/ethnicity/included_in_group、/location/br_state/capital、/location/mx_state/capital、/location/province/capital、/people/person/nationality、/business/person/company、/business/shopping_center_owner/shopping_centers_owned、/business/company/advisors、/business/shopping_center/owner、/location/country/languages_spoken、/people/deceased_person/place_of_burial、/location/us_county/county_seat、/people/ethnicity/geographic_distribution、/people/person/place_lived、/business/company/major_shareholders、/broadcast/producer/location、/location/us_state/capital、/broadcast/content/location、/business/business_location/parent_company、/location/jp_prefecture/capital、/film/film/featured_film_locations、/people/place_of_interment/interred_here、/location/de_state/capital、/people/person/profession、/business/company/locations、/location/country/capital、/location/location/contains、/people/person/ethnicity、/location/country/administrative_divisions、/people/person/children、/film/film_location/featured_in_films、/film/film_festival/location。
对于新的句包,分类器可以计算句包被分类到不同关系的关系概率,取最大者作为句包对应的关系,从而从文本中抽取出实体对与关系。比如,上例中,对于“Ohio”与“Columbus”实体所组成的句包,被分到某些关系类别的概率值如表7所示。
表7概率(部分)
Figure BDA0002288792420000141
对应的概率最大值为0.36,因此实体对应关系为:location/US state/capital。
本领域普通技术人员可以理解:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (10)

1.一种基于集成学习的关系抽取方法,其特征在于,所述方法包括:
S1、接收文本数据和实体对,分句,确定语句的目标实体对,构建由包含所述实体对的语句组成的句包;
S2、对语句中单词构建词向量,为语句构建词向量序列;
S3、通过不含有softmax层的多角度卷积神经网络,从词向量序列中提取语句特征,构建句向量;
S4、通过动态路由机制,使用句向量“投票”方法构建句包向量;
S5、通过由全连接层和softmax层构成的分类器,确定句包对应的关系。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,确定语句的目标实体对的步骤包括:
S11、把语句中所述实体对的两类实体和位置信息分别放入集合E1,E2中;
S12、将距离最近的所述实体对放入集合C中;
S13、如果集合C中只有一个实体对,那么该实体对为目标实体对;否则,将距离句子中间位置最近的实体对放入集合D中;
S14、如果集合D中只有一个实体对,那么该实体对为目标实体对;否则集合中第一个实体对为目标实体对。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2中构建词向量的步骤包括:
S21、将语句s={w1,w2,...,wn}中的单词与目标实体对的相对距离映射为de维位置向量
Figure FDA0002288792410000011
其中,wi为语句中第i个单词,n为语句中单词数量,e1,e2分别表示目标实体对的两个目标实体;
S22、使用Skip-gram模型,对每个单词wi构建其词向量vi
S23、构建包含位置信息的词向量xi及语句的词向量序列X:
Figure FDA0002288792410000012
X=x1,x2,...,xn
4.根据权利要求1所述的方法,其特征在于,所述步骤S3中多角度卷积神经网络包括卷积层、池化层和全连接层,其中卷积层包含两个一维卷积核,大小分别为3和7,池化层采取top-4池化方法,经过全连接层获取句向量q。
5.根据权利要求1所述的方法,其特征在于,所述步骤S4中,通过动态路由机制计算得到句包向量,该机制的迭代计算公式为:
Figure FDA0002288792410000013
Figure FDA0002288792410000021
Figure FDA0002288792410000022
其中,j为迭代次数,qi为句包中第i个句向量,
Figure FDA0002288792410000023
为耦合系数,表示qi所占权重,加和为1,bj为句包向量,d为存耦合系数的临时变量,squash是激活函数。
6.根据权利要求1所述的方法,其特征在于,所述步骤S5中,将由句包向量构成的矩阵B作为分类器中全连接层的输入,其输出为:
o=WrB+D
其中,Wr为参数矩阵,D为偏置向量,B为包级别的表示矩阵,B由多个句包向量构成。
7.根据权利要求6所述的方法,其特征在于,所述步骤S5中,分类器中softmax层将全连接层的输出归一化,计算句包分到每一类关系的关系概率p(r|B,θ):
Figure FDA0002288792410000024
其中,θ为多角度卷积神经网络和分类器的参数,n为句包数目,r为关系。
8.根据权利要求7所述的方法,其特征在于,所述步骤S5中,以交叉熵J(θ)为目标函数训练所述多角度卷积神经网络和所述分类器;
Figure FDA0002288792410000025
其中,n为句包数目,r为关系,Bi为第i个句包向量,
Figure FDA0002288792410000026
为第i个句包的关系,
Figure FDA0002288792410000027
表示当参数为θ时,第i个句包向量分到关系
Figure FDA0002288792410000028
的关系概率;
训练完成后,对于输入到分离器的句包,关系概率最大的关系为句包所属关系。
9.一种基于集成学习的关系抽取系统,其特征在于,所述系统包括:
数据预处理模块,用于组成句包,对含重复实体语句,确定目标实体对;
词向量构建模块,用于对语句s={w1,w2,...,wn},获得包含语义和位置信息的词向量以及词向量序列;
句向量构建模块,用于对词向量序列,通过去掉最后一层softmax层的多角度卷积神经网络,获得句向量;
句包向量构建模块,用于对句包中的句向量,通过动态路由机制,获取句包级别的向量;
分类器模块,用于对多个句包向量构成的矩阵,通过由全连接层和softmax层构成的分类器,对句包进行分类,得到句包所属关系。
10.根据权利要求9所述的系统,其特征在于,所述系统还包括Skip-gram模型训练模块,以获取包含语义信息的词向量。
CN201911171322.1A 2019-11-26 2019-11-26 一种基于集成学习的关系抽取方法及系统 Active CN111125434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911171322.1A CN111125434B (zh) 2019-11-26 2019-11-26 一种基于集成学习的关系抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911171322.1A CN111125434B (zh) 2019-11-26 2019-11-26 一种基于集成学习的关系抽取方法及系统

Publications (2)

Publication Number Publication Date
CN111125434A true CN111125434A (zh) 2020-05-08
CN111125434B CN111125434B (zh) 2023-06-27

Family

ID=70496678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911171322.1A Active CN111125434B (zh) 2019-11-26 2019-11-26 一种基于集成学习的关系抽取方法及系统

Country Status (1)

Country Link
CN (1) CN111125434B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339321A (zh) * 2020-05-18 2020-06-26 中国人民解放军国防科技大学 知识图谱中三元组真实性检测方法和装置
CN111898362A (zh) * 2020-05-15 2020-11-06 联想(北京)有限公司 一种数据处理方法及装置
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN111949792A (zh) * 2020-08-13 2020-11-17 电子科技大学 一种基于深度学习的药物关系抽取方法
CN112329463A (zh) * 2020-11-27 2021-02-05 上海汽车集团股份有限公司 遥监督关系抽取模型的训练方法及相关装置
CN112580352A (zh) * 2021-03-01 2021-03-30 腾讯科技(深圳)有限公司 关键词提取方法、装置和设备及计算机存储介质
CN113076391A (zh) * 2021-01-27 2021-07-06 北京理工大学 一种基于多层注意力机制的远程监督关系抽取方法
CN113657095A (zh) * 2021-08-23 2021-11-16 北京理工大学 一种具备关系模式识别能力的关系抽取系统
CN113761876A (zh) * 2021-08-23 2021-12-07 北京理工大学 一种基于力引导图的关系抽取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275073A1 (en) * 2015-03-20 2016-09-22 Microsoft Technology Licensing, Llc Semantic parsing for complex knowledge extraction
CN108898177A (zh) * 2018-06-26 2018-11-27 广东电网有限责任公司 一种输电线路走廊地表分类方法、系统、介质及设备
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN109635124A (zh) * 2018-11-30 2019-04-16 北京大学 一种结合背景知识的远程监督关系抽取方法
CN110263019A (zh) * 2019-06-18 2019-09-20 中南民族大学 实体关系抽取模型的构建方法、装置和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275073A1 (en) * 2015-03-20 2016-09-22 Microsoft Technology Licensing, Llc Semantic parsing for complex knowledge extraction
CN108898177A (zh) * 2018-06-26 2018-11-27 广东电网有限责任公司 一种输电线路走廊地表分类方法、系统、介质及设备
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN109635124A (zh) * 2018-11-30 2019-04-16 北京大学 一种结合背景知识的远程监督关系抽取方法
CN110263019A (zh) * 2019-06-18 2019-09-20 中南民族大学 实体关系抽取模型的构建方法、装置和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHIMIN DI等: "Relation Extraction via Domain-aware Transfer Learning", PROCEEDINGS OF THE 25TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY & DATA MINING *
余小康 等: "结合从句级远程监督与半监督集成学习的关系抽取方法", 模式识别与人工智能 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898362A (zh) * 2020-05-15 2020-11-06 联想(北京)有限公司 一种数据处理方法及装置
CN111898362B (zh) * 2020-05-15 2024-05-28 联想(北京)有限公司 一种数据处理方法及装置
CN111339321B (zh) * 2020-05-18 2020-08-21 中国人民解放军国防科技大学 知识图谱中三元组真实性检测方法和装置
CN111339321A (zh) * 2020-05-18 2020-06-26 中国人民解放军国防科技大学 知识图谱中三元组真实性检测方法和装置
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN111914558B (zh) * 2020-07-31 2024-04-16 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN111949792B (zh) * 2020-08-13 2022-05-31 电子科技大学 一种基于深度学习的药物关系抽取方法
CN111949792A (zh) * 2020-08-13 2020-11-17 电子科技大学 一种基于深度学习的药物关系抽取方法
CN112329463A (zh) * 2020-11-27 2021-02-05 上海汽车集团股份有限公司 遥监督关系抽取模型的训练方法及相关装置
CN113076391A (zh) * 2021-01-27 2021-07-06 北京理工大学 一种基于多层注意力机制的远程监督关系抽取方法
CN113076391B (zh) * 2021-01-27 2022-09-20 北京理工大学 一种基于多层注意力机制的远程监督关系抽取方法
CN112580352B (zh) * 2021-03-01 2021-06-04 腾讯科技(深圳)有限公司 关键词提取方法、装置和设备及计算机存储介质
CN112580352A (zh) * 2021-03-01 2021-03-30 腾讯科技(深圳)有限公司 关键词提取方法、装置和设备及计算机存储介质
CN113761876A (zh) * 2021-08-23 2021-12-07 北京理工大学 一种基于力引导图的关系抽取方法
CN113657095A (zh) * 2021-08-23 2021-11-16 北京理工大学 一种具备关系模式识别能力的关系抽取系统
CN113761876B (zh) * 2021-08-23 2024-07-19 北京理工大学 一种基于力引导图的关系抽取方法
CN113657095B (zh) * 2021-08-23 2024-08-23 北京理工大学 一种具备关系模式识别能力的关系抽取系统

Also Published As

Publication number Publication date
CN111125434B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN111125434A (zh) 一种基于集成学习的关系抽取方法及系统
CN109271522B (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN109948149B (zh) 一种文本分类方法及装置
CN111460818B (zh) 一种基于增强胶囊网络的网页文本分类方法及存储介质
WO2023134084A1 (zh) 多标签识别方法、装置、电子设备及存储介质
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN110889282B (zh) 一种基于深度学习的文本情感分析方法
CN110046249A (zh) 胶囊网络的训练方法、分类方法、系统、设备及存储介质
CN109816438B (zh) 信息推送方法及装置
CN109271516B (zh) 一种知识图谱中实体类型分类方法及系统
Moriya et al. Transfer learning method for very deep CNN for text classification and methods for its evaluation
CN111104513B (zh) 一种游戏平台用户问答业务的短文本分类方法
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN111159485A (zh) 尾实体链接方法、装置、服务器及存储介质
CN109492217A (zh) 一种基于机器学习的分词方法及终端设备
US20140047089A1 (en) System and method for supervised network clustering
WO2023226309A1 (zh) 一种模型训练方法及相关设备
Chen et al. An improved SOM algorithm and its application to color feature extraction
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN113988002B (zh) 一种基于神经聚类方法的近似注意力系统及方法
Kasri et al. Word2Sent: A new learning sentiment‐embedding model with low dimension for sentence level sentiment classification
Zhao et al. Knowledge-enhanced self-supervised prototypical network for few-shot event detection
Biadgligne et al. Offline corpus augmentation for english-amharic machine translation
CN113297387A (zh) 一种基于nkd-gnn的图文不匹配新闻检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant