CN111160008B

CN111160008B - 一种实体关系联合抽取方法及系统

Info

Publication number: CN111160008B
Application number: CN201911308937.4A
Authority: CN
Inventors: 蔡毅; 陈�峰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2022-03-25
Anticipated expiration: 2039-12-18
Also published as: CN111160008A

Abstract

本发明公开了一种实体关系联合抽取方法，包括步骤：对输入句子进行数据预处理；将输入句子中的每个词映射成对应的词向量；将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练；采用训练后的LSTM‑GCN模型进行实体抽取和关系抽取。本发明通过LSTM和GCN可以同时捕捉到输入句子的顺序信息和区域信息，更好地表示每个词，提升了实体抽取和关系抽取的性能，具有一定的实用性。

Description

一种实体关系联合抽取方法及系统

技术领域

本发明涉及深度学习算法应用技术领域，尤其涉及一种实体关系联合抽取方法及系统。

背景技术

随着数字时代的兴起，社交媒体、文章、新闻等形式的信息爆炸式增长。这些数据大部分都是非结构化形式的，人工管理和有效利用这些信息是很繁琐、乏味和费时费力的。因此，信息爆炸以及对更复杂有效信息的处理工具的需求，使得人们对自动信息抽取的技术越来越关注。信息抽取系统以自然语言文本作为输入，从文本中识别出相关的知识要素(通常是预先定义好的类型)，并生成由特定标准指定的结构化信息，这些信息与特定的应用程序相关。最近几年，信息抽取领域快速发展，研究学者提出许多方法使信息抽取过程自动化。然而，由于Web数据具有异构性、非结构化等特点，自动信息抽取仍然存在许多具有挑战性的研究问题。

信息抽取一般包括两个普遍存在并且紧密相关的子任务：命名实体识别和关系抽取。现有技术通常使用基于流水线的方法来处理这两个子任务，然而这种分离的框架会导致错误传播的问题，并且忽略了两个子任务之间的相关性。最近的研究提出使用联合方法来同时进行命名实体识别和关系抽取，以解决上述问题。

现有技术提出了一种抽取方法，该方法将每个词转化为一个预定义类型的标签的形式，在预测阶段中，预测出每个词对应的标签，根据标签和三元组中每个词的对应关系，得到句子中存在的实体关系三元组。但是所述方法无法解决关系重叠的问题，而关系重叠的现象在数据集中普遍存在。因此，急需一种实体关系联合抽取方法来解决关系重叠的问题。

发明内容

本发明的目的在于解决现有技术中的关系重叠问题，提供一种实体关系联合抽取方法。

本发明的目的通过以下技术方案实现：

一种实体关系联合抽取方法，包括步骤：

对输入句子进行数据预处理；

将输入句子中的每个词映射成对应的词向量；

将得到的词向量输入到基于长短期记忆网络和图卷积神经网络(LSTM-GCN)的实体关系联合抽取模型中进行训练；

采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。

具体地，所述预处理包括实体标注、单词映射、图的构造。

更进一步地，所述实体标注采用BIO标注机制进行标注，每个实体包含有一个或多个单词，为每个单词打上标签，这样就知道每个实体的开始结束位置以及实体类型。

更进一步地，所述单词映射表示将输入句子中的每个单词映射成对应的ID。

更进一步地，所述图的构造通过依存解析器为输入句子构造一棵依存树，再采用邻接矩阵表示该依存树。

具体地，所述LSTM-GCN实体关系联合抽取模型训练的步骤中，包括：

将得到的词向量矩阵输入到Bi-LSTM中，捕捉每个单词的上下文信息，得到每个词对应的隐藏层状态；

将得到的每个词的隐藏层状态向量输入到Bi-GCN中，捕捉每个单词的区域信息，得到每个词对应的向量表示；

通过特征融合机制融合每个词的上下文特征和区域特征，利用可学习的门向量，选择上下文特征和区域特征来形成每个词最终的向量表示；

将得到的每个词最终的向量表示经过全连接层将向量维度映射为实体标签大小，然后经过条件随机场(Conditional Random Field)得到每个词的各类实体标签概率；

将关系抽取建模为多头选择问题，对于每个单词，同时预测该单词的头实体及该单词与头实体之间的关系类型；

将命名实体识别的交叉熵损失与关系抽取的交叉熵损失相加作为整个模型的最终损失函数，最小化最终损失函数；

通过反向传播算法训练模型，更新模型中的所有参数。

一种LSTM-GCN的实体关系联合抽取系统，包括：

预处理模块，用于对实体采用BIO标注机制进行标注，将输入句子的每个单词转换为对应的ID，为输入句子通过依存解析器构造依存树；

嵌入模块，用于将输入句子中的每个词对应的ID映射成对应的词向量；

结果处理模块，用于使用训练后的LSTM-GCN模型同时预测输入句子的实体及其关系；

模型训练模块，用于对LSTM-GCN模型进行训练，包括：

特征构建模块，用于将词向量输入到Bi-LSTM网络中提取每个词的上下文特征，再将LSTM的输出输入到Bi-GCN网络中提取每个词的区域特征，最后通过特征融合机制融合每个词的上下文特征和区域特征；

实体识别模块，用于通过条件随机场得到每个词的各类实体标签概率；

关系抽取模块，用于将关系抽取建模为多头选择问题，对于每个单词，同时预测该单词的头实体及该单词与头实体之间的关系类型。

本发明相较于现有技术，具有以下的有益效果：

本发明通过长短期记忆网络(Long Short Term Memory，LSTM)和图卷积神经网络(Graph Convolutional Network，GCN)同时捕捉句子的上下文特征和区域特征，能够更好地表示每个词，并且解决了关系重叠的问题，提升了实体抽取和关系抽取的性能。

附图说明

图1为本发明中一种实体关系联合抽取方法的流程示意图；

图2是本实施例中的实体关系联合抽取模型的结构示意图；

图3是本实施例中依存句法分析的示例图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示为一种实体关系联合抽取方法的流程图，所述方法包括步骤：

(1)对输入句子进行数据预处理，所述预处理包括：

根据BIO(Begin，Inside，Outside)标注机制对实体和关系进行标注，每个实体包含有一个或多个单词，为每个单词打上标签，获取每个实体的开始结束位置以及实体类型。

在本实施例中，对于句子“Smith lives in California.”对应的实体标签序列为“B-PER O O B-LOC”。其中“PER”表示人名，标签“O”表示非实体，“LOC”表示地点。该句子对应的关系标签为[[‘N’，‘N’，‘N’，‘live in’]，[‘N’，‘N’，‘N’，‘N’]，[‘N’，‘N’，‘N’，‘N’]，[‘live in’，‘N’，‘N’，‘N’]]。其中标注了每两个单词之间的关系，‘N’表示不存在关系，‘live in’表示对应的两个单词之间存在‘live in’关系。

将输入句子中的每个单词映射成对应的ID。

上述句子“Smith lives in California.”对应的索引序列为“105 546 254821564 52”。

通过依存解析器对输入句子进行依存分析，得到词汇之间的依存关系，为输入句子构造一颗依存树，如图3所示，然后使用邻接矩阵表示该依存树。本实施例中使用的依存解析器是spacy，一个高级的自然语言处理库，拥有很多强大的功能。

(2)将输入句子中的每个词映射成对应的词向量；

模型的输入是单词序列w＝w₁，w₂，...w_n，根据每个单词的ID映射成相应的词向量w_word2vec，形成词向量矩阵。本实施例中使用Skip-Gram word2vec预训练的词向量模型。

(3)将得到的词向量输入到基于长短期记忆网络和图卷积神经网络(LSTM-GCN)的实体关系联合抽取模型中进行训练，包括：

(3-1)将得到的词向量矩阵输入到Bi-LSTM中，捕捉每个单词的上下文信息，得到每个词对应的隐藏层状态；

将得到的词向量矩阵输入到Bi-LSTM中，可以从左到右或从右到左进行编码来输入句子的信息，进而捕捉到单词的上下文表示信息。因此本发明可以通过在时间步t时拼接前向

和后向

的隐藏层状态得到每个单词的双向信息，双向LSTM在时间步t的输出可以用如下的公式表示：

(3-2)将得到的每个词的隐藏层状态向量输入到Bi-GCN中，捕捉每个单词的区域信息，得到每个词对应的向量表示；

每个词对应的向量表示为

具体计算公式如下：

其中，(g)表示GCN的参数，

表示第t时刻的隐藏层状态，σ表示非线性函数包括但不限于tanh函数和relu函数，

和

分别表示出入方向的邻接矩阵，

表示向量拼接。

(3-3)通过特征融合机制融合每个词的上下文特征和区域特征，利用可学习的门向量，选择上下文特征和区域特征来形成每个词最终的向量表示，包括：

(3-3-1)通过全连接层结合上下文特征和区域特征：

(3-3-2)新建可学习的门向量g_t，用来选择上下文特征和区域特征：

(3-3-3)通过门向量来控制上下文特征和区域特征的流动，即控制选择输入到下一层的特征向量，得到每个词最终的向量表示：

(3-4)将得到的每个词的向量表示经过全连接层将向量维度映射为实体标签大小，然后经过条件随机场(Conditional Random Field)得到每个词的各类实体标签概率，包括：

(3-4-1)计算每个单词w_i对步骤(1)中每个实体标签的得分，计算公式如下：

其中，(e)表示命名实体识别任务，f(·)表示激活函数，包括但不限于relu函数和tanh函数；V^(e)、U^(e)表示权重矩阵，b^(e)表示偏置。如果预定义的标签类别有5个，那么每个单词对应一个5维的向量，其中每个元素代表该单词对应标签的得分。

(3-4-2)为了考虑到标签之间的依赖性，本实施例中使用线性链CRF。单词序列为w，得分向量序列为

标签预测向量为

线性链CRF的分数计算如下：

其中，

是单词w_i的预测标签为

时的分数。T是转移矩阵，其中每一项表示从一个标签到另一个标签的转移分数，

p表示预定义好的实体标签类别的数目；

和

是两个辅助标签，表示句子的开始和结束。

(3-4-3)输入句子w的所有可能标签序列中每个标签序列的概率的计算方法为：

使用Viterbi算法来得到最高分数的标签序列

(3-5)将关系抽取建模为多头选择问题，实现对于每个单词，同时预测该单词的头实体及该单词与头实体之间的关系类型，包括：

(3-5-1)输入单词w_i的最终表示u_i与标签嵌入g_i的拼接结果：

z_i＝[u_i；gi]，i＝0，...，n

(3-5-2)计算单词w_i和单词w_j之间的关系标签为r_k的分数：

s^(r)(z_j，z_i，r_k)＝V^(r)f(U^(r)z_j+W^(r)z_i+b^(r))

其中(r)表示关系抽取任务，f(·)表示激活函数，包括但不限于relu函数和tanh函数；V^(r)、U^(r)、W^(r)、b^(r)为权重参数。

(3-5-3)识别两个单词之间的关系：定义单词w_i的头为w_j，并且单词w_i和单词w_j之间的关系为r_k，所述关系的概率的计算公式为：

Pr(head＝w_j，label＝r_k|w_i)＝σ(s^(r)(z_j，z_i，r_k))

其中，σ表示sigmoid函数。

(3-6)将命名实体识别的交叉熵损失

与关系抽取的交叉熵损失

相加作为整个模型的最终损失函数

最小化最终损失函数

包括：

(3-6-1)计算命名实体识别的交叉熵损失

其中N表示训练集大小，s_i表示第i个句子，y_i表示该句子对应真实标签的：

(3-6-2)计算关系抽取的交叉熵损失

其中y_i，j表示单词w_i的真实头向量，r_i，j为该单词对应的真实关系标签向量，n表示句子长度，m表示关系标签数：

(3-6-3)对于实体关系联合抽取模型最终的损失函数为：

(3-7)通过反向传播算法训练模型，更新模型中的所有参数，包括但不限于Bi-LSTM的参数、Bi-GCN的参数、特征融合的权重参数以及全连接层的参数。模型训练过程中在验证集上使用了早停法，最多更新迭代50词，当模型在验证集上的性能开始降低时，模型就停止训练，这样就可以避免继续训练导致过拟合的问题。

(4)采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。

本发明提供一种基于LSTM-GCN的实体关系联合抽取方法的系统，包括：

模型训练模块，用于对LSTM-GCN模型进行训练，包括：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种实体关系联合抽取方法，其特征在于，包括步骤：

对输入句子进行数据预处理；

将输入句子中的每个词映射成对应的词向量；

将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练，包括：

通过特征融合机制融合每个词的上下文特征和区域特征，利用可学习的门向量，选择上下文特征和区域特征来形成每个词最终的向量表示，包括：

通过全连接层结合上下文特征和区域特征：

新建可学习的门向量g_t，用来选择上下文特征和区域特征：

表示第t个词的隐藏层状态，每个词对应的向量表示为

通过门向量来控制上下文特征和区域特征的流动，得到每个词最终的向量表示：

将得到的每个词最终的向量表示经过全连接层将向量维度映射为实体标签大小，然后经过条件随机场得到每个词的各类实体标签概率；

通过反向传播算法训练模型，更新模型中的所有参数；

采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。

2.根据权利要求1所述的方法，其特征在于，所述预处理包括实体标注、单词映射、图的构造；

所述实体标注采用BIO标注机制进行标注，每个实体包含有一个或多个单词，为每个单词打上标签；

所述单词映射表示将输入句子中的每个单词映射成对应的ID；

所述图的构造通过依存解析器为输入句子构造一棵依存树，再采用邻接矩阵表示该依存树。

3.根据权利要求1所述的方法，其特征在于，所述将得到的词向量矩阵输入到Bi-LSTM中，捕捉每个单词的上下文信息，得到每个词对应的隐藏层状态的步骤中，通过在时间步t时拼接前向

和后向

4.根据权利要求1所述的方法，其特征在于，所述将得到的每个词的隐藏层状态向量输入到Bi-GCN中，捕捉每个单词的区域信息，得到每个词对应的向量表示的步骤中，每个词对应的向量表示为

具体计算公式如下：

其中，(g)表示GCN的参数，

表示第t个词的隐藏层状态，σ表示非线性函数包括但不限于tanh函数和relu函数，

和

分别表示出入方向的邻接矩阵，

表示向量拼接。

5.根据权利要求1所述的方法，其特征在于，所述将得到的每个词的向量表示经过全连接层将向量维度映射为实体标签大小，然后经过条件随机场得到每个词的各类实体标签概率的步骤中，包括：

计算每个单词w_i对每个实体标签的得分，计算公式如下：

s^(e)(w_i)＝V^(e)f(U^(e)u_i+b^(e))

其中，(e)表示命名实体识别任务，f(·)表示激活函数，包括但不限于relu函数和tanh函数；V^(e)、U^(e)表示权重矩阵，b^(e)表示偏置；

为了考虑到标签之间的依赖性，使用线性链CRF；单词序列为w，得分向量序列为

标签预测向量为

线性链CRF的分数计算如下：

其中，

是单词w_i的预测标签为

时的分数；T是转移矩阵，其中每一项表示从一个标签到另一个标签的转移分数，

p表示预定义好的实体标签类别的数目；

和

是两个辅助标签，表示句子的开始和结束；

输入句子w的所有可能标签序列中每个标签序列的概率的计算方法为：

使用Viterbi算法来得到最高分数的标签序列

6.根据权利要求1所述的方法，其特征在于，所述将关系抽取建模为多头选择问题，对于每个单词，同时预测该单词的头实体及该单词与头实体之间的关系类型的步骤中，包括：

输入单词w_i的最终表示u_i与标签嵌入g_i的拼接结果：

z_i＝[u_i；g_i]，i＝0，...，n

计算单词w_i和单词w_j之间的关系标签为r_k的分数：

s^(r)(z_j，z_i，r_k)＝V^(r)f(U^(r)z_j+W^(r)z_i+b^(r))

其中，(r)表示关系抽取任务，f(·)表示激活函数，包括但不限于relu函数和tanh函数；V^(r)、U^(r)、W^(r)、b^(r)为权重参数；

定义单词w_i的头为w_j，并且单词w_i和单词w_j之间的关系为r_k的概率为：

Pr(head＝w_j，label＝r_k|w_i)＝σ(s^(r)(z_j，z_i，r_k))

其中，σ表示sigmoid函数。

7.一种实体关系联合抽取系统，其基于权利要求1-6任意一项所述的实体关系联合抽取方法，其特征在于，所述系统具体包括：

模型训练模块，用于对LSTM-GCN模型进行训练，包括：

特征构建模块，用于将词向量输入到Bi-LSTM网络中提取每个词的上下文特征，再将LSTM的输出输入到Bi-GCN网络中提取每个词的区域特征，最后通过特征融合机制融合每个词的上下文特征和区域特征，利用可学习的门向量，选择上下文特征和区域特征来形成每个词最终的向量表示；