CN109992629B

CN109992629B - 一种融合实体类型约束的神经网络关系抽取方法及系统

Info

Publication number: CN109992629B
Application number: CN201910149696.7A
Authority: CN
Inventors: 靳小龙; 程学旗; 席鹏弼; 郭嘉丰; 白龙
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2021-08-06
Anticipated expiration: 2039-02-28
Also published as: CN109992629A

Abstract

本发明涉及一种融合实体类型约束的神经网络关系抽取方法及系统，包括对实体类型施加注意力机制，该机制对实体的多种类型分配了不同权重，从而凸显了影响最大的类型标签；在损失函数中添加实体类型约束函数，该约束函数在更新过程中使实体词向量学习到实体类型信息，从而实现实体类型对关系的约束。该技术增强了模型对通用方法无法区别关系的识别能力。

Description

一种融合实体类型约束的神经网络关系抽取方法及系统

技术领域

本发明属于大数据分析中关系抽取领域，并特别涉及一种融合实体类型约束的神经网络关系抽取方法及系统。

背景技术

信息抽取是自然语言处理领域的一个子领域，它的目标是从非结构化数据中挖掘结构化信息。关系抽取是信息抽取的一项关键技术，其目的是挖掘实体之间存在的语义关系。关系抽取对于知识库自动构建、问答系统等领域有着极为重要的意义。

现有的关系抽取方法可以分为四类，分别是有监督关系抽取、半监督关系抽取、远程监督关系抽取和无监督关系抽取。由于远程监督关系抽取方法能够极大地减少标注成本，因而近来受到了人们的关注。

远程监督关系抽取采用如下方法标注数据：假如两个实体之间存在某种关系，那么所有这两个实体共现的句子都有可能表达了这种关系。根据这一方法，可以通过外部知识库代替人对语料进行标注，从而低成本地获取大量有标注数据，通过分类方法进行关系抽取。当前远程监督关系抽取的基本方法是多实例多标签学习方法，具体地说，该方法将一个实体对共现的所有句子聚合成句袋，并对句袋进行关系预测。结合神经网络技术，当前远程监督关系抽取方法利用句子编码器将句子编码为向量，然后通过注意力机制将句子向量聚合成句袋向量，在句袋向量上进行。

现有方法并未考虑到实体的类型信息对关系的约束作用，导致句式相似而类型不同的实体可能被判断为表达了相同的关系。发明人在进行远程监督关系抽取研究时，发现现有技术中该项缺陷是由缺乏实体类型信息导致的，现有方法过于依赖相似句式和词向量信息，并未考虑实体词的类型等语义信息，例如句子“…inrural Bihar state innorthernIndia…”中，实体Bihar和India之间应当具有/location/administrative_division/country关系，而现有方法预测为/location/location/contains关系，这就是未能识别Bihar是一个行政区。发明人经过研究发现，解决该项缺陷可通过在损失函数中加入对实体类型的约束来实现。

发明内容

本发明的目的是解决基于神经网络的关系抽取模型缺乏实体类型信息而导致部分实体间的关系预测错误的问题，使用本发明提出的方法可以将实体信息融入神经网络模型中，从而提升神经网络模型对于实体间关系的预测准确率。

为了实现上述目的，本发明提出了一种融合实体类型信息的神经网络关系抽取方法。通过在训练过程中对模型施加实体类型约束，从而将实体类型信息融入实体的词向量表示中，并增强神经网络模型对于实体类型的识别能力。

具体来说，本发明公开了一种融合实体类型约束的神经网络关系抽取方法，其中包括：

预测步骤，获取训练句袋，该训练句袋包括实体对共现的多个句子，每个训练句袋对应一个表示实体间关系的三元组，将该训练句袋中句子编码为句子向量，并通过注意力机制将该句子向量聚合为句袋向量，将该句袋向量输入至预测模型得到训练句袋对应各关系类型的概率；

约束步骤，为该训练句袋中涉及的实体标记实体类型，并将该实体类型向量化，得到类型向量，根据实体间关系的注意力向量得到每个该类型向量的权重，根据该权重使用注意力机制将该类型向量聚合，以曼哈顿距离表示该实体类型对词向量的约束；

更新步骤，根据该曼哈顿距离和该关系类型计算损失函数，并对该预测模型进行更新，直到该损失函数收敛，将当前预测模型作为最终模型；

抽取步骤，依次将具有不同关系注意力的待抽取句袋输入该最终模型，得到多个该待抽取句袋的预测结果，将每个关系注意力下的预测结果聚合为最终预测结果。

所述的融合实体类型约束的神经网络关系抽取方法，其中该约束步骤具体包括：

为该训练句袋中涉及的实体e标记实体类型v_e,1,v_e,2,…，并将该实体类型转换为实体类型向量t_e,1,t_e,2,…；

根据该三元组中关系的向量r_j，得到关系的注意力向量

T为矩阵转置，代表将关系向量r_j投影到实体类型向量空间R_t；

根据该关系的注意力向量，得到每种类型的分数

t_e,i代表实体e的第i种实体类型对应的实体类型向量；

根据每种类型的分数，得到每个该类型向量的权重

k为实体类型种类总数，β_i代表第i个该类型向量的权重，exp代表指数函数；

通过注意力机制将该类型向量聚合t_e＝∑_iβ_it_e,i；

得到以该曼哈顿距离表示的距离损失L_t(e)＝|w_e-t_e|₁，其中w_e为实体e的词向量。

所述的融合实体类型约束的神经网络关系抽取方法，其中该更新步骤包括：

构建关系概率预测损失函数L_B＝-logP(r_j|B)，其中P(r_j|B)为句袋B对应关系r_j类型的概率；

构建实体距离损失函数L_C＝L_t(e₁)+L_t(e₂)；

根据该实体距离损失函数和关系概率预测损失函数，构建整体损失函数L＝L_B+λL_C，使用该整体损失函数对该预测模型进行更新，直到该损失函数收敛。

所述的融合实体类型约束的神经网络关系抽取方法，其中该约束步骤包括：通过实体类型识别，得到该实体类型。

所述的融合实体类型约束的神经网络关系抽取方法，其中该约束步骤包括：通过查找知识库，得到该实体类型。

本发明还公开了一种融合实体类型约束的神经网络关系抽取系统，其中包括：

预测模块，获取训练句袋，该训练句袋包括实体对共现的多个句子，每个训练句袋对应一个表示实体间关系的三元组，将该训练句袋中句子编码为句子向量，并通过注意力机制将该句子向量聚合为句袋向量，将该句袋向量输入至预测模型得到训练句袋对应各关系类型的概率；

约束模块，为该训练句袋中涉及的实体标记实体类型，并将该实体类型向量化，得到类型向量，根据实体间关系的注意力向量得到每个该类型向量的权重，根据该权重使用注意力机制将该类型向量聚合，以曼哈顿距离表示该实体类型对词向量的约束；

更新模块，根据该曼哈顿距离和该关系类型计算损失函数，并对该预测模型进行更新，直到该损失函数收敛，将当前预测模型作为最终模型；

抽取模块，依次将具有不同关系注意力的待抽取句袋输入该最终模型，得到多个该待抽取句袋的预测结果，将每个关系注意力下的预测结果聚合为最终预测结果。

所述的融合实体类型约束的神经网络关系抽取系统，其中该约束模块具体包括：

根据该三元组中关系的向量r_j，得到关系的注意力向量

根据该关系的注意力向量，得到每种类型的分数

t_e,i代表实体e的第i种实体类型对应的实体类型向量；

根据每种类型的分数，得到每个该类型向量的权重

通过注意力机制将该类型向量聚合t_e＝∑_iβ_it_e,i；

所述的融合实体类型约束的神经网络关系抽取系统，其中该更新模块包括：

构建实体距离损失函数L_C＝L_t(e₁)+L_t(e₂)；

所述的融合实体类型约束的神经网络关系抽取系统，其中该约束模块包括：通过实体类型识别，得到该实体类型。

所述的融合实体类型约束的神经网络关系抽取系统，其中该约束模块包括：通过查找知识库，得到该实体类型。

本发明通过融合实体信息的方法提升了句式相似但语义不同的情况下，关系抽取模型在实体类型信息方面的识别能力，从而提升关系抽取结果的准确性。本发明使用了公开数据集NYT对模型进行评估。该数据集是将纽约时报语料对齐到Freebase数据库上产生的标注数据。该数据集一共有522611条训练样本，172448条测试样本。相比现有方法，本发明的方法在关系抽取的表现上有显著提升。本发明的方法在不同召回率等级下，准确率均高于现有方法。

附图说明

图1为模型结构图；

图2为模型训练部分流程图；

图3为模型推断部分流程图；

图4为添加实体约束流程图；

图5为准确率-召回率曲线图。

具体实施细节

本发明的关键点在于：对实体类型施加注意力机制，该机制对实体的多种类型(实体类型)分配了不同权重，从而凸显了影响最大的类型标签；在损失函数中添加实体类型约束函数，该约束函数在更新过程中使实体词向量学习到实体类型信息，从而实现实体类型对关系的约束。该技术增强了模型对通用方法无法区别关系的识别能力。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明提出了一种融合实体类型约束的神经网络关系抽取方法，所涉及方法基于将词和类型向量化，并进行一定的矩阵运算，从而得到在每个关系上的预测概率，其中矩阵运算部分采用了神经网络模型，图1中包含本发明所用神经网络结构图。本发明分为模型训练阶段和模型推断阶段。模型训练阶段分为两部分，第一部分是关系概率预测，第二部分是实体类型约束。在关系概率预测部分，首先将句子编码为向量，然后通过注意力机制将句子向量聚合为句袋向量，再根据句袋向量对每种关系进行打分，其中每种关系为预设数据。在实体类型约束部分，首先将实体类型嵌入为类型向量，再通过注意力机制对类型向量进行聚合，然后计算该类型向量与对应实体的距离，将距离作为损失，其中该实体类型可根据现有知识库得到，亦可通过实体类型识别方法得到。计算完两部分之后，将关系概率预测的负对数似然与类型约束的和作为损失函数，采用随机梯度下降法对模型参数进行优化。测试阶段只需要输出训练阶段的关系概率。方法分为模型训练阶段和模型推断阶段。在模型训练阶段，不断地重复以下步骤S：

步骤S1、随机从多个训练句袋中挑选一个句袋(训练句袋)，该句袋包含某一个实体对共现的所有句子；

步骤S2、将句袋中的所有句子编码为向量表示，得到句子向量；

步骤S3、通过注意力机制将句子向量聚合为句袋向量；

步骤S4、通过句袋向量预测句袋(即实体对)的关系类型；

步骤S5、对预测结果施加实体类型约束，进行如下处理：

步骤S501、通过查询知识库或通过实体类型识别，找出对应实体所有的实体类型标签；

步骤S502、将实体类型标签转换为向量表示，得到实体类型向量；

步骤S503、根据关系注意力，得到每个实体类型向量的分数和权重；

步骤S504、将实体类型向量聚合；

步骤S505、实体类型对词向量的约束，可以表示为两者的曼哈顿距离。

步骤S6、根据预测结果和实体类型约束计算损失函数，并对模型参数进行更新；

直到参数收敛，即损失函数在一个较小的预设范围内波动。

在模型推断阶段，对于每一个待预测的句袋，模型执行如下步骤S(如图3)：

步骤S7、为句袋选定关系注意力。推断阶段，对于每个句袋，依次将每种关系作为句袋的关系注意力，分别预测；

步骤S8、执行步骤S1到S4，预测该句袋的关系类型；

步骤S9、回到步骤S7，选择新的关系注意力；

步骤S10、将在每个关系注意力下的预测结果聚合为最终预测结果。

模型训练阶段，重复以下步骤S直到参数收敛(如图2)：

步骤S1、挑选一个句袋B，该句袋包含句子{S₁,S₂,…}，且该句袋对应三元组<e₁,r_j,e₂>，e_i为第i个实体，r_j为实体之间具有的第j种关系；

步骤S2、句子编码：

S201.对每个句子S_i，将其中每个词{w₁,w₂,…,w_n}转换为向量表达{we₁,we₂,…,we_n}

S202.对句子中的每个词w_k(k＝1,2,…,n)，计算其到该句中头实体和尾实体的距离wp_1,k和wp_2,k

S203.将距离根据最大长度maxdistance进行截断，即当长度大于maxdistance或小于-maxdistance时，使其等于maxdistance和-maxdistance。

S204.将距离转换为向量表达{wp_1,1,wp_1,2,…,wp_1,n}和{wp_2,1,wp_2,2,…,wp_2,n}

S205.将词的向量表达和距离的向量表达拼接成为输入序列{w₁,w₂,…,w_n}

S206.采用n_c个窗口为w的卷积核，对输入序列进行卷积操作，得到特征张量

S207.对特征张量采用分块池化的操作：若句子中的头实体下标和尾实体下标分别为pos1和pos2，则

S208.将池化后的特征张量拉成一个向量c。

S209.使用双曲正切激活函数得到句子的向量表达s_i＝tanh(c)。

步骤S3、通过注意力机制将句子表示聚合为句袋表示

S301.根据所选关系的向量r_j得到其句子注意力向量

式中T代表转置，代表将向量r_j投影到句子向量空间R_s。

S302.得到每个句子的分数

S303.得到每个句子的权重

S304.将句子向量聚合为句袋向量b＝∑_iα_is_i。

步骤S4、通过句袋表示预测句袋在每种关系上的概率

S401.得到句袋在每个句子上的分值

S402.计算关系r_j作为注意力的情况下r_j的预测概率

步骤S5、实体类型约束(如图4)：

S501.对实体e，得到其实体类型v_e,1,v_e,2,…转换为实体类型向量t_e,1,t_e,2,…；

S502.根据所选关系的向量r_j得到所选关系的类型注意力向量

含义与上文R_s类似，是将向量r_j投影到实体类型向量空间R_t。

S503.得到每种类型的分数

t_e,i代表实体e的第i种实体类型对应的实体类型向量；

S504.得到每种类型的权重

S505.通过注意力机制将类型向量聚合t_e＝∑_iβ_it_e,i；

S506.计算距离损失L_t(e)＝|w_e-t_e|₁，其中w_e为实体e的词向量。

步骤S6、参数更新：

S601.关系概率预测损失函数L_B＝-logP(r_j|B)；

S602.实体距离损失函数L_C＝L_t(e₁)+L_t(e₂)；e1、e2为步骤S1中的e1、e2，均代表相应实体。

S603.整体损失函数L＝L_B+λL_C；式中λ代表超参数。

S604.使用随机梯度下降法进行参数更新，参数指的是神经网络中所有待训练参数，包含：词向量、位置向量、类型向量、关系向量、卷积核等。

模型推断阶段(如图3)，对每个待预测句袋B：

步骤S7、选取一个关系注意力r。

步骤S8、执行步骤S1到步骤S4，在关系注意力为r的情况下预测句袋的关系为R的概率P(R|B,r)。

步骤S9、重复S7到S8，更换一个用于注意力的关系r，直到所有的关系都被用于作为注意力。

步骤S10、将一个句袋在不同关系注意力下的预测结果聚合。

与已有技术相比，本发明方法充分利用了实体类型信息，辅助关系抽取模型达到了更好的抽取效果。实验结果以准确率-召回率曲线的形式呈现，如图5。其中，PCNN+ATT+T是本发明的方法，PCNN+ATT+TrD是将本发明中实体类型约束替换了PCNN+ATT+D中的实体描述信息，其他方法均为现有方法。由图可见，本发明所提出的方法在不同召回率水平下的准确率均高于现有方法。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

根据该三元组中关系的向量r_j，得到关系的注意力向量

根据该关系的注意力向量，得到每种类型的分数

t_e,i代表实体e的第i种实体类型对应的实体类型向量；

根据每种类型的分数，得到每个该类型向量的权重

通过注意力机制将该类型向量聚合t_e＝∑_iβ_it_e,i；

构建实体距离损失函数L_C＝L_t(e₁)+L_t(e₂)；