CN111125434A

CN111125434A - 一种基于集成学习的关系抽取方法及系统

Info

Publication number: CN111125434A
Application number: CN201911171322.1A
Authority: CN
Inventors: 孙新; 姜景虎; 蔡琪; 侯超旭; 盖晨; 尚煜茗
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-05-08
Anticipated expiration: 2039-11-26
Also published as: CN111125434B

Abstract

本发明涉及自然语言处理和深度学习技术领域，特别涉及一种处理远程监督关系抽取中重复实体方法及系统。本发明的主要技术方案包括：将语料根据实体对组成句包，确定含重复实体语句中的目标实体位置；构建包含语义和位置信息的词向量；通过多角度卷积神经网络，构建句向量；通过动态路由机制，构建句包级别的向量以及对句包分类。本发明提供的关系抽取方法及系统定位到并能够有效处理现有远程监督关系抽取方法及系统没有提及的重复实体导致的注意力偏差问题。

Description

一种基于集成学习的关系抽取方法及系统

技术领域

本发明涉及自然语言处理和深度学习技术领域，特别涉及一种关系抽取中的方法及系统。

背景技术

一般意义上，信息抽取被定义为从自然语言文本中抽取出特定的实时信息，其三个重要子任务是实体抽取、关系抽取和事件抽取，被广泛应用在知识图谱构建、问答系统等领域。关系抽取是信息抽取的关键环节，主要任务是确定实体之间的语义关系。在现有的技术中，主要采用神经网络中的监督学习算法或者远程监督学习算法，将关系抽取任务当作分类任务。

当前主流的关系抽取模型几乎都引入了多示例学习方法。多示例学习是弱监督学习的一个方法，用于训练分类器的示例是没有类别标注的，但是示例构成的包是有类别标注的，最终的目的是给出对新的包的类别预测。这种方式的好处是很大程度上遏制数据噪声对模型参数的影响。

卷积神经网络作为特征提取器在各个领域中都非常常用，能够很好地捕获到语料的局部信息。另外，通常会对卷积神经网络结构进行改造，引进多种卷积核和池化方法，得到包含多粒度局部隐含信息的特征表达。

胶囊网络(CapsNet)是由Hinton等人于2017年提出的网络，胶囊的设计基于人造神经元的设计，但将其扩展到了向量形式，使其具有更强大的表示能力。胶囊网络使用囊间动态路由算法训练，与其他深度学习神经网络相比，训练起来较慢。

值得注意的是，在远程监督方法得到的结构化数据集中，具有重复实体现象，即一个语句可能含有多个同一实体。大多现有关系抽取模型的前提是一个语句只含有一对实体，提取含有重复实体语句的特征时，很可能会丢失关键的语义信息，导致注意力偏差问题，从而影响模型效果。

发明内容

本发明的目的是克服现有技术在远程监督关系抽取中重复实体导致的注意力偏差问题。一方面，通过确定真正包含语义关系的实体对，修正位置信息，另一方面，使用多角度卷积神经网络提取多粒度的文本特征表达，以及使用多示例学习方法和动态路由机制获取句包的特征表达，减弱注意力偏差影响。最后使用全连接层和softmax层组成的分类器对句包分类，得到句包的关系。

为实现上述目的，第一方面，本发明提供一种基于集成学习的关系抽取方法，所述方法包括：

S1、接收文本数据和实体对，分句，确定语句的目标实体对，构建由包含该实体对的语句组成的句包；

S2、对语句中单词构建词向量，为语句构建词向量序列；

S3、通过不包含最后一层softmax层的多角度卷积神经网络，从词向量序列中提取语句特征，构建句向量；

S4、通过动态路由机制，使用句向量“投票”方法构建句包向量；

S5、通过由全连接层和softmax层构成的分类器，确定句包所属的关系。

进一步的，所述步骤S1中，确定语句的目标实体对的步骤包括：

S11、把语句中出现的实体对中的两类实体和其相应的位置信息分别放入集合E₁,E₂中；

S12、将距离最近的实体对(e_i,e_j)放入集合C中，其中，e_i∈E₁，e_j∈E₂；

S13、如果集合C中只有一个实体对，那么该实体对为目标实体对；否则，将距离句子中间位置最近的实体对c_i放入集合D中；

S14、如果集合D中只有一个实体对，那么该实体对为目标实体对；否则集合中第一个实体对为目标实体对。

进一步的，所述步骤S2中构建词向量的步骤包括：

S21、将语句s＝{w₁,w₂,...,w_n}中的单词与目标实体对的相对距离映射为d_e维位置向量

其中，w_i为语句中第i个单词，n为语句中单词数量，e₁,e₂分别表示目标实体对的两个目标实体；

S22、使用Skip-gram模型，对每个单词w_i构建其词向量v_i；

S23、构建最终的词向量x_i及语句的词向量序列X：

X＝x₁,x₂,...,x_n

进一步的，所述步骤S3中多角度卷积神经网络包括卷积层、池化层和全连接层，其中卷积层包含两个一维卷积核，大小分别为3和7，池化层采取top-4池化方法，经过全连接层获取句向量q。

进一步的，所述步骤S4中，通过动态路由机制计算得到句包向量，该机制的迭代计算公式为：

其中，j为迭代次数，q_i为句包中第i个句向量，

为耦合系数，表示q_i所占权重，加和为1，b^j为句包向量，d为存耦合系数的临时变量，squash是激活函数；

进一步的，所述步骤S5中，将由句包向量构成的矩阵B作为分类器中全连接层的输入，其输出为：

o＝W^rB+D

其中，W^r为参数矩阵，D为偏置向量，B为包级别的表示矩阵，B由多个句包向量构成。

进一步的，所述步骤S5中，分类器中softmax层将全连接层的输出归一化，计算句包分到每一类关系的关系概率p(r|B,θ)：

其中，θ为多角度卷积神经网络和分类器的参数，n为句包数目，r为关系。

进一步的，所述步骤S5中，以交叉熵J(θ)为目标函数训练多角度卷积神经网络和分类器。

其中，n为句包数目，r为关系，B_i为第i个句包向量，

为第i个句包的关系，

表示当参数为θ时，第i个句包向量分到关系

的概率。

训练好后，对于新的句包，分类器中关系概率最大的为句包所属关系。

本发明还提供一种用于关系抽取的系统，其特征在于，所述系统包括：

数据预处理模块，用于组成句包，对含重复实体语句，确定目标实体对；

词向量构建模块，用于对语句s＝{w₁,w₂,...,w_n}，获得包含语义和位置信息的词向量以及词向量序列；

句向量构建模块，用于对词向量序列，通过去掉最后一层softmax层的多角度卷积神经网络，获得句向量；

句包向量构建模块，用于对句包中的句向量，通过动态路由机制，获取句包级别的向量；

分类器模块，用于对多个句包向量构成的矩阵，通过由全连接层和softmax层构成的分类器，对句包进行分类，得到句包所属关系。

进一步的，所述系统还包括Skip-gram模型训练模块，以获取包含语义信息的词向量。

本发明提供的一种关系抽取的方法及系统，与现有远程监督关系抽取方法及系统相比，具有如下有益效果：

1、本发明提供的关系抽取方法及系统，定位到并能有效处理现有远程监督关系抽取方法及系统没有提及的重复实体导致的注意力偏差问题。

2、本发明提供的关系抽取方法及系统，提出了基于经验的确定含重复实体语句中真正包含语义关系的实体对位置的算法，使得获取的位置特征更准确。

3、本发明提供的关系抽取方法及系统，在语句级别使用多角度卷积神经网络，使得实体周围的关键词更能被注意到，更好地提取语句特征。

4、本发明提供的关系抽取方法及系统，在句包级别使用动态路由方法，利用不含重复实体的语句增强句包级别的特征表示。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明的处理远程监督关系抽取中重复实体的方法的流程图；

图2为本发明的处理远程监督关系抽取中重复实体的方法的基本结构图；

图3为多角度卷积神经网络的基本结构图；

图4为动态路由机制的基本结构图；

图5为分类器的基本结构图；

图6为卷积过程的基本结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和具体实施方式对本发明作进一步说明。

为了使本申请实例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实例可以相互结合。

本发明提供一种基于集成学习的关系抽取方法，如图1所示，该方法包括如下步骤：

S2、对语句中单词构建词向量，为语句构建词向量序列；

S3、通过不包含softmax层的多角度卷积神经网络，从词向量序列中提取语句特征，构建句向量；

在步骤S1中，分句后，将含需要确定语义关系的实体对(e₁,e₂)的语句组成句包S＝{s₁,s₂,...,s_n}。对含重复实体的语句，确定其目标实体对，目标实体对为真正包含语义关系的实体。

确定含重复实体语句中目标实体对位置的基本原理为：如果实体间包含语义关系，那么它们间的距离应该较小；如果实体间包含语义关系，那么它们应该更靠近语句的中间位置。这样可以减弱重复实体导致的注意力偏差问题。

确定目标实体对的具体过程如下：

(1)把语句中出现的两类实体e₁,e₂和相应的位置信息分别放入集合E₁,E₂中。

(2)将距离最近的实体对(e_i,e_j)放入集合C中。其中，e_i∈E₁，e_j∈E₂。

(3)如果集合C中只有一个实体对，那么此为目标实体对；否则进入(4)。

(4)将距离语句中间位置最近的实体对c_i放入集合D中。

(5)如果集合D中只有一个实体对，那么此为目标实体对；否则集合中第一个实体对为目标实体对。

例如，图2中的语句S1：“It was Ohio university in Athens,Ohio,not Ohiostate,in Columbus.”，需要确定关系的实体e1为“Ohio”，e2为“Columbus”。那么集合E₁包含三个“Ohio”，位置为语句中第3、7、9个单词。同理，集合E₂包含一个“Columbus”，位置为语句中第12个单词。显然，有且只有一对距离最近的实体，分别是语句中的第9个和第12个单词，此为目标实体对。

用语句的语义来看，第一次和第二次出现的“Ohio”表示雅典市的俄亥俄大学，与“Columbus”没有确定的关系，而第三次出现的“Ohio”表示俄亥俄州，与“Columbus”有“/location/US state/capital”的关系，即哥布伦市位于俄亥俄州。与前面方法得到的结果相同。

在步骤2中，对语句中单词构建包含语义及位置信息的词向量xi，具体为

将语句构建为词向量序列X＝{x₁,x₂,...,x_n}；其中v_i表示语句中第i个词的向量表示，

表示语句中第i个单词相对两个重复实体e₁,e₂的位置向量，x_i表示语句中第i单词最终的词向量表示。构建词向量过程如下：

(1)对于语句s＝{w₁,w₂,...,w_n}，首先分词，将单词与目标实体对的相对距离映射为一个d_e维的位置向量

其中，s表示语句，w_i为语句中第i个单词，n为语句中单词数量，e₁,e₂分别表示两个目标实体，

分别表示w_i与e₁,e₂距离所映射的位置向量，d_e为位置向量的维度且随机初始化。

(2)使用Skip-gram模型，对每个单词w_i构建其词向量v_i。Skip-gram模型基于“具有相同上下文的词语包含相似的语义”思想构建出的词向量包含语义特征，但不具有词间的位置特征。skip-gram这种通用的word2vec模型的原理是通过上下文出现的单词预测，所以训练出的词向量具有语义信息。

(3)引入(1)所得到的位置向量，构建最终的词向量及语句的词向量序列，此时词向量不仅包含语义信息还包含词间位置信息：

X＝x₁,x₂,...,x_n

其中，x_i表示语句中第i单词的词向量，X表示语句中所有词向量构成的序列。

步骤S1中确定含重复实体语句中最可能存在语义关系的目标实体对的方法是基于经验的，不能保证完全正确，因此需要减弱步骤S2中得到词向量的噪声影响，利用多角度卷积神经网络提取关键词特征，获取语句层级的特征表示。

在步骤S3中，多角度卷积神经网络包括卷积层、池化层和全连接层，相对于传统的多角度卷积神经网络(如图3所示)，减少了最后一层softmax层。卷积层包含两个一维卷积核，大小分别为3和7，池化层采取top-4池化方法。

具体过程如下：

(1)输入为词向量序列，分别由两个卷积核进行卷积，卷积核大小分别为3和7，如图2中CNN-3和CNN-7所示：

m_j＝W^TX_j-w+1:j

其中，W^T为卷积层参数，随机初始化后通过训练得到，X_i:j表示词向量x_i到x_j构成的矩阵，m_j表示第j步卷积获得的向量，M₁,M₂为分别通过两个卷积核卷积的输出，M_i∈R^n×d，R^n×d表示n行d列实数矩阵。W是卷积核中的数值，通过常规技术即可计算求得。

(2)在得到两个特征映射矩阵后，进行对位相乘以融合特征，并且使用tanh函数避免梯度爆炸，图2中符号

表示对位相乘：

F＝tanh(multiply(M₁,M₂)

(3)池化层采取top-4池化方法。由于最大池化在降低隐藏层规模时过于快速和粗糙，其并不适合关系抽取。在关系抽取中，对关系类型贡献最大的关键词通常位于实体周围。经统计，在极大多数含有重复实体的语句中，只有一个实体出现两次，换句话说，这些语句平均有三个实体。因此，采取top-4最大池化后经过全连接层获取句向量：

q＝Max₄(F)

其中，数字4是固定的，并不是超参数，不会在训练过程中改变。

经过多角度卷积神经网络得到的句向量是较高层次的特征表示，具有丰富的实体语义信息和位置信息。一方面是因为融合了两种卷积核得到的特征表示，另一方面是因为采取top-4最大池化，比top最大池化方法，保留了更多的关键信息。

多示例学习方法中，句包中示例不一定全是同一类别，也就是说是有噪声的。利用动态路由机制降噪，获取句包层级的特征表示。

在步骤S4中，动态路由机制迭代计算公式：

其中，j为迭代次数，q_i为句包中第i个句向量，

为耦合系数，表示q_i所占权重，加和为1，b^j为句包级别的向量，d为存耦合系数的临时变量，squash是一种激活函数。d的初始值为0。

如图5所示，步骤S5的分类器由全连接层和softmax构成。传统的分类器的输入是一个向量，预测一个样本的分类。本发明中的分类器输入是向量序列，预测多个样本的分类，也就是多个句包的分类。这样做的目的是改善动态路由机制带来的性能问题。

在步骤S5中，并行地执行步骤S1至S4可以处理多个句包，得到的多个句包向量构成的矩阵B，作为分类器的全连接层的输入，其输出为：

o＝W^rB+D

其中，W^r为参数矩阵，D为偏置向量，B为包级别的表示矩阵，B由多个句包向量b构成。

将o输入到softmax层，获得每个句包属于不同关系的关系概率值p(r|B,θ)：

分类器以交叉熵J(θ)作为目标函数：

其中，B_i为第i个句包向量，

为第i个句包的关系(在训练时，每个句包所属的关系是已知的)，

表示当参数为θ时，第i个句包向量分到关系

的关系概率。

训练时，训练数据集的句包和关系已知，比如由实体“上海”和“中国”构成的句包对应的关系为“位于”。根据分类器的输出，计算目标函数值，此目标函数衡量的是模型将句包分类正确的能力。使用梯度下降方法，更新网络中的参数，迭代数次后，训练完成。

经过上述步骤，训练完成的模型对于新的句包，就可以得到其被分到每一类中的概率，取概率最大的为其对应的关系。并且句包是由含同一实体对语句组成的，句包对应的关系，就是实体对应的关系，从而得到实体对所具有的语义关系。

本发明还提供一种关系抽取系统，包括：

数据预处理模块，用于组成句包，对含重复实体语句，确定最可能存在语义关系的目标实体对；目标实体对的生成方法如上所述；

词向量构建模块，用于对语句s＝{w₁,w₂,...,w_n}，获得包含语义和位置信息的词向量；具体的构建方法如上文所述；

句向量构建模块，用于对词向量序列，通过去掉最后一层softmax层的多角度卷积神经网络，获得句向量；具体的构建方法如上文所述；

句包量构建模块，用于对句包中句向量，通过动态路由机制，获取句包级别的向量，具体的构建方法如上文所述；

分类器模块，用于对多个句包向量构成的矩阵，通过分类器，计算句包所属的关系，从而抽取出实体对和其对应的关系。具体的训练方法和计算方法如上文所述。

下面以数据集NYT为例，说明具体的处理远程监督关系抽取中重复实体方法。

数据集NYT是Freebase与纽约时报语料库通过对齐关系事实而构建的，即远程监督方法得到的。2005-2006年的语句作为训练数据，2007年语句作为测试数据。训练过程中的部分参数如表1所示，数据集统计信息如表2所示。

表1训练参数设置

表2数据集通缉信息

步骤S1，对数据预处理。

将包含相同实体对的全部语句组成一个句包。例如“Ohio”与“Columbus”，构成的句包里的语句都含有这对实体，图2左侧显示出部分内容。

对含有重复实体的语句，确定其目标实体对，目标实体对即最可能存在语义关系的实体对。上述部分已存在具体例子，不再重复说明。

步骤S2，构建词向量。

以“It was Ohio university in Athens,Ohio,not Ohio state,in Columbus”为例给出词向量构建过程，其中由步骤S1知，第三次出现的“Ohio”与“Columbus”是目标实体对。

根据每个单词与两个实体的相对位置距离，映射出位置向量。部分值如表3所示。

表3位置向量(部分)

训练Skip-gram模型，利用隐藏层参数嵌入词向量，大小为50。部分值如表4所示。

表4词向量(部分)

将词向量和位置向量组合起来，构成大小为60的词级别的表示，这里的组合表示直接将位置向量连在词向量后面。

步骤S3，构建句向量。

步骤S2得到的词向量构成词向量序列，即12*60的矩阵，作为多角度卷积神经网络的输入，通过两个大小分别为3和7的卷积核卷积。以大小为3的卷积核为例，对步骤S2得到的词向量序列进行卷积。过程如图6所示，每次卷积连续3个词向量组成的序列，能得到一个12*60的特征矩阵。对于大小为7的卷积核同理，也得到一个12*60的特征矩阵。

接着，融合两个特征矩阵。具体操作为矩阵对位相乘后tanh处理，结果是一个12*60的特征矩阵。经过池化层和全连接层后，输出为一个语句级别的向量表示。

“It was Ohio university in Athens,Ohio,not Ohio state,in Columbus”所构建的句向量部分值如表5所示。

表5句向量(部分)

步骤S4，构建句包向量。

通过步骤S1至S3，对于“Ohio”与“Columbus”实体所组成的句包，可以构建出包中所有语句的句向量。在此基础上，通过动态路由机制构建句包层级的向量，过程如图4所示。

假设该句包中只有图2中的三个语句，那么迭代过程如下：

第一次迭代，由于耦合系数初始为0，根据公式

可知，耦合系数c都为1/3，意味着每个语句的权值相同。由公式

计算第一次迭代的句包向量。然后根据公式

更新变量d，其中squash是一个将向量挤压到0至1之间的激活函数。

然后按照同样步骤再次迭代，得到最终的句包向量。

步骤S5，分类。

并行执行步骤S1至S4，处理150个句包，可以得到一个句包向量矩阵，输入到由全连接层和softmax层构成的分类器中，输出一个概率矩阵。比如，某次训练中，部分值如表6所示，第一行表示第一句包在与各关系对应的概率，第二行表示第二句包与各关系对应的概率，依次类推。具体来说，0.2201表示第一个句包被分到第一个关系的概率，0.3686表示第一句包被分到第二关系的概率；0.0360表示第二句包被分到第一关系的概率。0.1302表示第二句包被分到第二关系的概率。每一行的概率最大值为相应句包对应的关系。

表6概率矩阵(部分)

分类器使用交叉熵作为目标函数训练，采用梯度下降算法，得到各项参数，即通过这150个句包的训练，可以得到分类器的参数、关系，其中关系有：/location/fr_region/capital、/location/cn_province/capital、/location/in_state/administrative_capital、/base/locations/countries/states_provinces_within、/business/company/founders、/people/person/place_of_birth、/people/deceased_person/place_of_death、/location/it_region/capital、/people/family/members、/people/profession/people_with_this_profession、/location/neighborhood/neighborhood_of、NA、/location/in_state/legislative_capital、/sports/sports_team/location、/people/person/religion、/location/in_state/judicial_capital、/business/company_advisor/companies_advised、/people/family/country、/time/event/locations、/business/company/place_founded、/location/administrative_division/country、/people/ethnicity/included_in_group、/location/br_state/capital、/location/mx_state/capital、/location/province/capital、/people/person/nationality、/business/person/company、/business/shopping_center_owner/shopping_centers_owned、/business/company/advisors、/business/shopping_center/owner、/location/country/languages_spoken、/people/deceased_person/place_of_burial、/location/us_county/county_seat、/people/ethnicity/geographic_distribution、/people/person/place_lived、/business/company/major_shareholders、/broadcast/producer/location、/location/us_state/capital、/broadcast/content/location、/business/business_location/parent_company、/location/jp_prefecture/capital、/film/film/featured_film_locations、/people/place_of_interment/interred_here、/location/de_state/capital、/people/person/profession、/business/company/locations、/location/country/capital、/location/location/contains、/people/person/ethnicity、/location/country/administrative_divisions、/people/person/children、/film/film_location/featured_in_films、/film/film_festival/location。

对于新的句包，分类器可以计算句包被分类到不同关系的关系概率，取最大者作为句包对应的关系，从而从文本中抽取出实体对与关系。比如，上例中，对于“Ohio”与“Columbus”实体所组成的句包，被分到某些关系类别的概率值如表7所示。

表7概率(部分)

对应的概率最大值为0.36，因此实体对应关系为：location/US state/capital。

本领域普通技术人员可以理解：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。