CN109902145B

CN109902145B - 一种基于注意力机制的实体关系联合抽取方法和系统

Info

Publication number: CN109902145B
Application number: CN201910048837.6A
Authority: CN
Inventors: 虎嵩林; 周艳; 黄龙涛; 韩冀中
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2021-04-20
Anticipated expiration: 2039-01-18
Also published as: CN109902145A

Abstract

本发明涉及一种基于注意力机制的实体关系联合抽取方法和系统。该方法的步骤包括：将训练数据中标注的实体和关系的三元组，转化为每个词对应一个预定义类型的标签的形式；将训练数据的句子中的每个词映射成对应的词向量，输入基于注意力机制的神经网络模型，并通过反向传播算法进行训练，得到标签预测模型；将需进行实体关系抽取的句子输入训练完成的标签预测模型，预测出每个词对应的标签，根据标签和三元组中每个词的对应关系，得到句子中存在的实体关系三元组。该系统包括预处理模块、模型训练模块和结果处理模块。本发明通过更有效的利用句子中的关键信息，提升了关系实体联合抽取的性能，具有良好的实用性。

Description

一种基于注意力机制的实体关系联合抽取方法和系统

技术领域

本发明涉及深度学习与自然语言处理技术，具体涉及一种基于注意力机制的实体关系联合抽取方法和系统。

背景技术

近年来，互联网信息技术高速发展，新闻、社交等网站每天有海量的新数据产生出来。这些数据中包含着各种各样的内容，其中有很多十分有价值的信息，这些信息对人们的生活起着至关重要的作用。为了抽取并有效使用这些有价值的信息，提出了知识图谱的概念。在知识图谱中把海量数据中的人名、地名等专用名词表示为实体，并且将任意两个实体之间的联系表示为关系。这样海量的数据即被表示为实体和关系的三元组(实体1，关系，实体2)。虽然现有的知识图谱已经包含数亿计的数据，但是网络上的信息每天不断增加，知识图谱中的信息也需要随之进行完善。

为了自动化的对知识图谱进行完善，人们进行了多方面的技术研究，实体关系抽取技术就是其中一种。实体关系抽取主要任务是识别出文本中的实体并确定实体之间存在的语义关系。利用实体关系抽取可以把非结构化的文本转化为结构化的文本，帮助人们更快速便捷的找到所需信息。

目前，实体关系抽取根据抽取方式分为两种类型：流水线式和联合抽取方式。流水线式的实体关系抽取需要先进行实体识别任务，然后根据识别出来的实体，对任意两个实体之间的关系进行分类。这种方式可能没有考虑实体和关系之间的联系，并且实体识别结果的正确与否会直接影响到关系分类的结果。联合抽取方式可以充分利用实体和关系之间的联系，能够取得更好的抽取效果。近期提出的基于序列标注的方式进行实体关系联合抽取可以更好的利用实体和关系的相互关联。虽然这类方法采用了神经网络进行标签序列的预测，但是并未对句子的词，对当前被预测词的重要程度进行区分，这样也就无法更好的利用有关联词的信息同时忽略无关词的信息。

发明内容

针对上述技术问题，本发明提出一种基于注意力机制的神经网络结构，来充分利用整个输入句子中的关键信息，提高实体关系抽取的性能。

为了解决上述技术问题，本发明的技术方案如下：

一种基于注意力机制的实体关系联合抽取方法，包括如下步骤：

将训练数据中标注的实体和关系的三元组，转化为每个词对应一个预定义类型的标签的形式；

将训练数据的句子中的每个词映射成对应的词向量，输入基于注意力机制的神经网络模型，并通过反向传播算法进行训练，得到标签预测模型；

将需进行实体关系抽取的句子输入训练完成的标签预测模型，预测出每个词对应的标签，根据标签和三元组中每个词的对应关系，得到句子中存在的实体关系三元组。

进一步地，每个所述标签包含三类信息：词在实体中的位置，实体所在的三元组对应的关系类型，实体在三元组中的位置，即属于第一个还是第二个实体。

进一步地，所述词在实体中的位置按照BIES的模式进行表示；所述关系类型为预定义的关系类型中的一种；所述实体在三元组中的位置用1或者2来表示，其中1表示三元组中第一个实体，2表示三元组中第二个实体；用标签O表示词不属于任何三元组。

进一步地，通过爬取大量的非标注语料，训练得到具有语义信息的词向量表示，用于将输入所述基于注意力机制的神经网络模型的句子中的每个词映射成对应的词向量。

进一步地，所述基于注意力机制的神经网络模型的训练过程包括：

1)将输入句子中的每个词映射成对应的词向量；

2)在编码层，把句子中每个词对应的词向量作为输入，采用双向长短记忆神经网络Bi-LSTM学习句子中每个词的上下文信息；

3)在注意力层，利用注意力机制学习对每个词的标签起关键作用的词表示，并将其和编码层学习到的上下文信息表示进行合并，得到每个词对应的有效向量表示d_t；

4)在解码层，对于输入的第t个词，将有效向量表示d_t作为输入，利用长短记忆网络的链式网络，计算每个标签的向量表示T_t；所述长短记忆网络把第t个词的标签的表示向量作为下一个词预测的输入之一，学习到序列标签之间的依赖关系；

5)根据得到的标签的向量表示进行计算，得到每个词的对应到各类标签的概率；

6)选取所有样本的最大似然函数作为模型的目标函数；

7)通过反向传播算法训练模型，更新模型中所有的参数，最终得到标签的预测模型。

一种基于注意力机制的实体关系联合抽取系统，其包括：

预处理模块，负责将训练数据中标注的实体和关系的三元组，转化为每个词对应一个预定义类型的标签的形式；

模型训练模块，负责将训练数据的句子中的每个词映射成对应的词向量，输入基于注意力机制的神经网络模型，并通过反向传播算法进行训练，得到标签预测模型；

结果处理模块，负责将需进行实体关系抽取的句子输入训练完成的标签预测模型，预测出每个词对应的标签，根据标签和三元组中每个词的对应关系，得到句子中存在的实体关系三元组。

本发明的有益效果在于：针对基于标签的实体关系联合抽取中，不能合理利用输入句子中关键信息的问题，提出了利用注意力机制来更好的学习这些特征，具体为：对于利用循环神经网络学习到的上下文信息，采用基于标签的注意力机制计算关键信息的向量表示，同时模型可学习这些关键信息向量和词上下文向量的权重，进行自动融合。这样，本发明通过更有效的利用句子中的关键信息，提升了关系实体联合抽取的性能，具有良好的实用性。

附图说明

图1为本发明实施例提供的基于注意力机制的实体关系联合抽取方法流程图；

图2为本发明实施例的神经网络模型结构图；

图3为本实施注意力机制学习词的有效向量表示的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施案例并结合附图,对本发明做进一步详细说明。

图1为本实施例中基于注意力机制的实体关系联合抽取方法的流程图，如图所示，该方法主要包括三个阶段，分别是：数据预处理阶段，基于注意力机制网络模型训练阶段，对预测得到的标签序列进行匹配获取到关系实体三元组阶段。

(一)数据预处理阶段

步骤1根据标注语料中给出的三元组信息，转化为标签序列。每个标签包含三类信息：词在实体中的位置，实体所在的三元组对应的关系类型，实体在三元组中属于第一个还是第二个实体。词在实体中的位置按照”BIES”(Begin,Inside,End,Single)的模式进行表示。实体关系的类型即为预定义好的关系类型中的一种，实体在三元组中的位置用1或者2来表示，其中1表示三元组中第一个实体，2表示三元组中第二个实体。另外用标签O表示词不属于任何三元组。比如句子“北京是中国的首都。”，这个句子中存在实体关系三元组(北京，国家首都，中国)，其对应的标注语料结果为”北(B-NA-1)京(E-NA-1)是(O)中(B-NA-2)国(E-NA-2)的(O)首(O)都(O)”，其中NA表示国家首都(national capital)的缩写。

步骤2，用无标注的语料，通过word2vec训练得到具有语义信息的词向量表示，提供给模型使用。

(二)模型训练阶段

结合图2，基于注意力机制的实体关系联合抽取模型包括以下具体步骤：

步骤1，利用通过word2vec训练得到的词向量表示，将输入句子中的每个词映射成对应的词向量，输入句子长度统一为max_len，对于长度小于max_len的句子用填充字符进行补充，大于max_len的句子则进行截断；

步骤2，在编码层，把句子中每个词对应的词向量作为输入，采用双向长短记忆神经网络(Bi-LSTM)学习输入句子中每个词的上下文信息，其中第j个词的上下文表示为h_j；

步骤3，在注意力层，利用注意力机制，学习对每个词的标签起关键作用的词表示，并把这类信息的表示和编码层学习到的上下文信息表示进行合并，得到对标签预测更有效的向量表示方式。结合图3所示，其具体过程描述如下：

步骤3-1，计算句子中的词和当前被预测词相关性的权重，计算公式为:

其中h_j表示从编码层得到的第j个词的向量表示，T_t-1表示第t-1个词的标签的向量表示，n表示句子的长度；

步骤3-2，上式计算出来的α_j,t代表句子中第j个词和被预测的第t个词的相关程度，把这些权重和这些词对应的向量表示相乘并进行加权，即可得到与预测标签相关的词的向量表示，简称“标签相关词表示”：

步骤3-3利用门控机制对上面获取到的词的上下文信息表示和标签相关词表示进行融合，首先计算这两类表示各自占有的权重，计算公式为：

其中σ表示逻辑函数，

表示权重矩阵。

然后，把上式计算出来的权重和这两类表示进行加权，得到包含词的上下文信息和关键词信息的表示向量：

d_t＝g_tha_t+(1-g_t)h_t

这样通过上面3步，得到每个词对应有效向量表示d_t。

步骤4，在解码层，对于输入的第t个词，把上面步骤中得到的词的信息表示向量d_t作为输入，利用长短记忆网络的链式网络，计算每个标签的向量表示T_t，这个网络把第t个词的标签的表示向量作为下一个词预测的输入之一，可以学习到序列标签之间的依赖关系。

步骤5，根据上面得到的被预测词对应标签的向量表示T_t进行计算，得到每个词的对应到各类标签的概率：

y_t＝W_yT_t+b_y

其中，y_t为第t个词对应到各类标签的向量表示，W_y为为权重矩阵，b_y为偏移向量，

为第t个词对应到第i类标签的概率分布，

为第t个词对应的第i类标签的向量表示，

为第t个词对应的第k类标签的向量表示，N_t表示标签的种类数目。

步骤6，对所有训练样本，通过最大化样本的最大似然函数来训练模型，更新模型中的参数，训练的目标函数L定义如下：

其中I(O)是一个切换函数，用来区分关系类型标签和其他类型标签，α则是用来区分这两类标签在计算目标函数的时候的权重，|D|表示训练语料总的数目，L_m表示第m条语料句子的长度，

表示第m个句子中第t个词对应到真实标签的概率值，x_m表示第m条训练语料，θ表示模型中的所有参数。

步骤7，通过反向传播算法训练模型，更新模型中所有的参数，并最终得到标签的预测模型。

(三)结果处理阶段

步骤1，把需要进行关系实体抽取的句子，输入到上面得到的标签预测模型中，预测出每个词对应的标签；

步骤2，根据标签和三元组中每个词的对应关系，得到句子中存在的实体关系三元组，图2中所示实例如果作为测试数据输入到模型中，模型给出预测标签后，抽取出句中的实体关系三元组为(北京，国家首都，中国)，这样就完成了标签到三元组的转化，实现了实体关系联合抽取。

由上述方案可以看出，本方案针对实体关系联合抽取模型中，对整个句子中关键信息利用不足的问题，引入注意力机制进行信息融合和改进，可以提高模型预测的性能，具有良好的实用性。

本发明另一实施例提供一种基于注意力机制的实体关系联合抽取系统，其包括：

本发明中，编码层和解码层的Bi-LSTM网络可以替换为其他的循环网络结构，如RNN，GRU等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种基于注意力机制的实体关系联合抽取方法，其特征在于，包括以下步骤：

将需进行实体关系抽取的句子输入训练完成的标签预测模型，预测出每个词对应的标签，根据标签和三元组中每个词的对应关系，得到句子中存在的实体关系三元组；

所述基于注意力机制的神经网络模型的训练过程包括：

1)将输入句子中的每个词映射成对应的词向量；

6)选取所有样本的最大似然函数作为模型的目标函数；

2.根据权利要求1所述的方法，其特征在于，每个所述标签包含三类信息：词在实体中的位置，实体所在的三元组对应的关系类型，实体在三元组中的位置，即属于第一个还是第二个实体。

3.根据权利要求2所述的方法，其特征在于，所述词在实体中的位置按照BIES的模式进行表示；所述关系类型为预定义的关系类型中的一种；所述实体在三元组中的位置用1或者2来表示，其中1表示三元组中第一个实体，2表示三元组中第二个实体；用标签O表示词不属于任何三元组。

4.根据权利要求1所述的方法，其特征在于，通过爬取大量的非标注语料，训练得到具有语义信息的词向量表示，用于将输入所述基于注意力机制的神经网络模型的句子中的每个词映射成对应的词向量。

5.根据权利要求1所述的方法，其特征在于，步骤3)包括：

3-1)计算句子中的词和当前被预测词相关性的权重，计算公式为：

其中h_j表示从编码层得到的第j个词的向量表示，h_k表示从编码层得到的第k个词的向量表示，T_t-1表示第t-1个词的标签的向量表示，n表示句子的长度；α_j，t代表句子中第j个词和被预测的第t个词的相关程度；

3-2)将α_j，t和词对应的向量表示相乘并进行加权，得到标签相关词表示：

3-3)利用门控机制把词的上下文信息表示和标签相关词表示进行融合，得到每个词对应的有效向量表示d_t。

6.根据权利要求5所述的方法，其特征在于，步骤3-3包括：

3-3-1)计算上下文信息表示和标签相关词表示各自占有的权重，计算公式为：

其中σ表示逻辑函数，

表示权重矩阵，其中h_t表示从编码层得到的第t个词的向量表示；

3-3-2)把计算出来的权重和这两类表示进行加权，得到包含词的上下文信息和关键词信息的表示向量，即每个词对应的有效向量表示：d_t＝g_tha_t+(1-g_t)h_t。

7.根据权利要求1所述的方法，其特征在于，步骤5)所述每个词的对应到各类标签的概率为：

y_t＝W_yT_t+b_y

其中，y_t为第t个词对应到各类标签的向量表示，W_y为为权重矩阵，T_t表示第t个词的标签的向量表示，b_y为偏移向量，

为第t个词对应到第i类标签的概率分布，

为第t个词对应的第i类标签的向量表示，

8.根据权利要求1所述的方法，其特征在于，步骤6)对模型进行训练的目标函数L定义如下：

其中，I(O)是一个切换函数，用来区分关系类型标签和其他类型标签，α则是用来区分这两类标签在计算目标函数的时候的权重，D表示训练语料总的数目，L_m表示第m条语料句子的长度，

9.一种采用权利要求1～8中任一权利要求所述方法的基于注意力机制的实体关系联合抽取系统，其特征在于，包括：