CN115034221A

CN115034221A - 基于BiLSTM结合全局指针的重叠关系抽取系统

Info

Publication number: CN115034221A
Application number: CN202210593426.7A
Authority: CN
Inventors: 甘玲; 刘晓彬; 刘菊; 胡柳慧
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-09
Anticipated expiration: 2042-05-27
Also published as: CN115034221B

Abstract

本发明涉及一种基于BiLSTM结合全局指针的重叠关系抽取系统，属于计算机技术领域。该系统包括依次连接的共享的Bert编码器、关系类型提取器、头实体提取器和尾实体提取器；所述Bert编码器通过所有层中联合调节左右上下文来预训练来自未标记文本的深层双向表示；设置的输出层，对预训练的BERT模型进行调整；采用预训练模型bert编码文本信息，具有丰富的文本信息；在实体提取模块，本发明提出了利用关系类型和多头注意力结合来引导实体提取，可以充分利用关系类型外部知识，避免隔离关系和实体之间的联系，并且通过多头注意力来给重要信息分配更高的注意力得分。

Description

基于BiLSTM结合全局指针的重叠关系抽取系统

技术领域

本发明属于计算机技术领域，涉及基于BiLSTM结合全局指针的重叠关系抽取系统。

背景技术

随着大数据的发展，海量的信息以半结构或纯原始文本的形式展现给信息使用者，信息抽取技术因此得到了很大的发展，关系抽取是信息抽取中重要的子任务之一，目的是在命名实体识别的基础上从文本中抽取实体之间存在的各类关系类别，构成〈实体1，关系类型，实体2〉的结构化形式，实现语义关系的自动抽取和查询匹配。

然而关系抽取领域中的数据集中的句子包含了更为复杂的事实关系，不同的关系三元组在一个句子中可能有重叠。

对于重叠实体关系抽取研究中，采用的是联合抽取模型方法。Wei等人设计了级联二进制标记框架CaseRel，使模型学习给定关系下HE到TE之间的映射函数，从而达到对三元组整体建模的效果；Zeng等人提出了一种基于复制机制的端到端模型CopyRe，该模型先提取关系再提取实体，通过复制实体让实体参与到不同的三元组；Bai等人通过多层神经网络进行编码并结合自注意力机制，设计了双指针网络结构分别识别实体的开始位置和实体的结束位置，从而让完整的实体参与到复制过程中；Wang等人为了解决重叠实体关系抽取任务，提出了基于图结构的联合抽取模型等。

现有技术存在以下不足：

(1)重叠实体抽取常包括隐含关系数据，联合抽取虽然能避免误差传播问题，但是仍然存在对于模块之间信息利用不足，并且无法准确提取隐含关系等缺点。

(2)对于重叠实体预测，通常使用指针网络模块分别识别实体的开始位置和结束位置，这会带来训练和预测时的不一致，可能影响预测的准确性。

本发明主要解决重叠实体关系抽取中，无法准确提取重叠实体和关系中的隐含关系的缺点，以及重叠实体预测开始位置和结束位置信息割裂和预测不一致性，即问题(1)和问题(2).

发明内容

有鉴于此，本发明的目的在于提供一种基于BiLSTM结合全局指针的重叠关系抽取系统。

针对问题(1)中模块信息利用不足和无法准确提取隐含关系的问题，本发明采用关系提取模块提前将句子存在的关系类型先预测出来，将关系向量和多头注意力结合，通过关系作为外部知识来引导实体抽取。

针对问题(2)中开始位置和结束位置信息割裂，容易存在训练和预测不一致的问题，本发明根据常规的指针网络进行改进，提出采用类似多头计算矩阵得分方式获取全局得分，通过全局指针网络运用在该实体抽取模块。

为达到上述目的，本发明提供如下技术方案：

基于BiLSTM结合全局指针的重叠关系抽取系统，该系统包括依次连接的共享的Bert编码器、关系类型提取器、头实体提取器和尾实体提取器；

所述Bert编码器通过所有层中联合调节左右上下文来预训练来自未标记文本的深层双向表示；设置的输出层，对预训练的BERT模型进行调整；采用预训练模型bert编码文本信息，具有丰富的文本信息；

所述关系类型提取器基于Bert编码后，采用输出最后一层的CLS表示作为句子的表示，经过池化操作，在全连接层操作后，通过sigmoid函数来作多标签分类，通过设置阈值来确定句子中所存在的关系类型；

关系类型提取器通过优化如下概率来检测关系r：

其中

是第i个关系的真实标签，P_i ^r是指第i个关系存在的概率，K表示总的关系类型数，X表示文本输入；

所述头实体提取器将Bert输出的token向量表示作为实体提取器的输入，通过BiLSTM提取长距离的特征，再通过结合关系类型向量，进行多头注意力得分计算，得到不同词语中的不同重要程度得分，最后通过计算得到一个全局矩阵得分，通过全局矩阵得分来整体获得头实体所在位置；

所述尾实体提取器在获取头实体位置之后，将头实体向量表示和位置信息嵌入到BiLSTM之后，经过和头实体提取器类似的操作，得到尾实体所在的位置。

可选的，所述Bert编码器中，使用预先训练好的Bert模型对文本表示进行编码，以捕获文本的语义；输入文本中让c代表Bert中的特殊标记CLS，s是Bert中的分隔符SEP，输入一个包含n个标记的文本X，如公式(1)所示：

X＝[c,x1,x2,...,xn,s] (1)

通过Bert模型后输出为公式(2)所示：

H＝[h₀,h₁,h₂,...,h_m,h_m+1] (2)。

可选的，所述关系类型提取器中，给定一组预定义的关系集合R＝{r1,r2,r3,r4…,rk}，k是R的大小，通过对于Bert的池化操作得到的向量表示作为关系类型提取器的输入，经过线性层和sigmoid激活函数，得到关系的概率分布，如公式(3)所示：

其中h'₀是Bert层池化操作后的向量表示，设置阈值δ，当P_i ^r>δ时，表示该句子文本存在第i种关系。

可选的，所述头实体提取器中，将Bert的token输出，作为实体提取器的输入，通过BiLSTM编码器提取长距离依赖特征，如公式(4)所示：

获得BiLSTM输出后，将与关系向量表示V_i ^r进行拼接，再经过多头注意力机制得到更细粒度的词语的重点信息得分，如公式(5)所示：

接着通过两个全连接层和计算全局得分机制获得矩阵得分，将得分最高的所在位置的m，n取出即是实体在句子中所在位置；计算如公式(6)～(8)所示：

可选的，所述尾实体提取器中，在获得头实体向量表示后，与头实体提取器的输入进行拼接，类似的操作经过公式(9)～(13)所示：

最后将关系提取模块采用BCEWithLogitsLoss方法进行损失计算，实体提取模块采用BCELoss进行损失计算，经过模型训练和预测后，获得<subject，relation，object>三元组形式；

采用部分匹配和精确匹配两个评价指标，其中部分匹配指预测的实体复制最后一个单词去测试，则为部分匹配；精确匹配是指完整实体名都正确时，为精确匹配；其中采用精确率、召回率、F1值来评价结果，计算如公式(14)～(16)所示：

其中，TP表示将正类预测为正类的数量，FN表示将正类预测为负类的数目，FP表示将负类预测为正类数的数目。

本发明的有益效果在于：

1)在实体提取模块，本发明提出了利用关系类型和多头注意力结合来引导实体提取，可以充分利用关系类型外部知识，避免隔离关系和实体之间的联系，并且通过多头注意力来给重要信息分配更高的注意力得分。

2)考虑到以往常规指针网络通过分别预测实体的开始和结束位置，会导致训练和预测不一致的问题，因此本发明采用全局指针得分的方法，通过将实体首尾作为一个整体进行提取，可以提高效率和降低模块间的误差传播。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明原理图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明设计一种基于改进的级联的重叠关系实体抽取模型，主要分四个子模型，包括一个共享的Bert编码器，一个关系类型提取器、一个头实体提取器、一个尾实体提取器。其结构如图1所示。

1)Bert编码器

BERT通过所有层中联合调节左右上下文来预训练来自未标记文本的深层双向表示。因此，只需一个额外的输出层，就可以对预训练的BERT模型进行微调，从而为各种任务创建最先进的模型，而无需对特定任务的体系结构进行大量修改。因此采用预训练模型bert编码文本信息，具有丰富的文本信息。

2)关系类型提取器

基于Bert编码后，采用输出最后一层的CLS表示作为句子的表示，经过池化操作，在全连接层操作后，通过sigmoid函数来作多标签分类，通过设置阈值来确定句子中所存在的关系类型。

关系类型提取器通过优化如下概率来检测关系r：

其中

是第i个关系的真实标签，P_i ^r是指第i个关系存在的概率，K表示总的关系类型数，X表示文本输入。

3)头实体提取器

Bert输出的token向量表示作为实体提取器的输入，通过BiLSTM提取长距离的特征，再通过结合关系类型向量，进行多头注意力得分计算，得到不同词语中的不同重要程度得分，最后通过计算得到一个全局矩阵得分，通过全局矩阵得分来整体获得头实体所在位置。

4)尾实体提取器

在获取头实体位置之后，将头实体向量表示和位置信息嵌入到BiLSTM之后，经过和头实体提取器类似的操作，同样可以得到尾实体所在的位置。

本发明的具体实施步骤如下：

步骤一：Bert编码器。本发明首先使用预先训练好的Bert模型对文本表示进行编码，以捕获文本的语义。输入文本中让c代表Bert中的特殊标记CLS，s是Bert中的分隔符SEP，输入一个包含n个标记的文本X，如公式(1)所示：

X＝[c,x1,x2,...,xn,s] (1)

通过Bert模型后输出为公式(2)所示：

H＝[h₀,h₁,h₂,...,h_m,h_m+1] (2)

步骤二：关系类型提取器。本发明首先给定一组预定义的关系集合R＝{r1,r2,r3,r4…,rk}(k是R的大小)，通过对于Bert的池化操作得到的向量表示作为关系类型提取器的输入，经过线性层和sigmoid激活函数，得到关系的概率分布，如公式(3)所示：

步骤三：头实体提取器。将Bert的token输出，作为实体提取器的输入，通过BiLSTM编码器提取长距离依赖特征，如公式(4)所示：

接着通过两个全连接层和计算全局得分机制获得矩阵得分，将得分最高的所在位置的m，n取出即是实体在句子中所在位置。计算如公式(6)～(8)所示：

步骤四：尾实体提取器。在获得头实体向量表示后，与头实体提取器的输入进行拼接，类似的操作经过公式(9)～(13)所示：

最后将关系提取模块采用BCEWithLogitsLoss方法进行损失计算，实体提取模块采用BCELoss进行损失计算，经过模型训练和预测后，获得<subject，relation，object>三元组形式。

本发明的数据集是在NYT数据集和WebNLG数据集上进行的，其中NYT数据集中文本来自于纽约时报New York Times所标注的预料，命名实体是通过Standford NER工具并结合Freebase知识库进行标注的，命名实体对之间的关系是链接和参考外部的Freebase知识库中的关系，结合远程监督方法所得到的。WebNLG数据集最初为了自然语言生成任务而构建，使用了DBPedia中的三元组，包括六个类别(宇航员、建筑、纪念碑、大学、运动队、著作)，两个数据集详细数据量和关系类型数量如表1所示：

表1重叠关系提取常见数据集

本发明采用部分匹配和精确匹配两个评价指标，其中部分匹配指预测的实体复制最后一个单词去测试，则为部分匹配，精确匹配是指完整实体名都正确时，才认为是精确匹配。其中采用精确率、召回率、F1值来评价结果，计算如公式(14)～(16)所示：

本发明的实验环境是基于Pytorch框架，采用NVIDIA TESLA P100 GPU训练模型，使用英文Bert-Base-Cased预训练模型作为文本编码器，运用Adam优化器来训练模型。各种方法中的超参数如表2所示：

表2超参数设置

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于BiLSTM结合全局指针的重叠关系抽取系统，其特征在于：该系统包括依次连接的共享的Bert编码器、关系类型提取器、头实体提取器和尾实体提取器；

关系类型提取器通过优化如下概率来检测关系r：

其中

是第i个关系的真实标签，

是指第i个关系存在的概率，K表示总的关系类型数，X表示文本输入；

2.根据权利要求1所述的基于BiLSTM结合全局指针的重叠关系抽取系统，其特征在于：所述Bert编码器中，使用预先训练好的Bert模型对文本表示进行编码，以捕获文本的语义；输入文本中让c代表Bert中的特殊标记CLS，s是Bert中的分隔符SEP，输入一个包含n个标记的文本X，如公式(1)所示：

X＝[c,x1,x2,...,xn,s] (1)

通过Bert模型后输出为公式(2)所示：

H＝[h₀,h₁,h₂,...,h_m,h_m+1] (2)。

3.根据权利要求2所述的基于BiLSTM结合全局指针的重叠关系抽取系统，其特征在于：所述关系类型提取器中，给定一组预定义的关系集合R＝{r1,r2,r3,r4…,rk}，k是R的大小，通过对于Bert的池化操作得到的向量表示作为关系类型提取器的输入，经过线性层和sigmoid激活函数，得到关系的概率分布，如公式(3)所示：

4.根据权利要求3所述的基于BiLSTM结合全局指针的重叠关系抽取系统，其特征在于：所述头实体提取器中，将Bert的token输出，作为实体提取器的输入，通过BiLSTM编码器提取长距离依赖特征，如公式(4)所示：

5.根据权利要求4所述的基于BiLSTM结合全局指针的重叠关系抽取系统，其特征在于：所述尾实体提取器中，在获得头实体向量表示后，与头实体提取器的输入进行拼接，类似的操作经过公式(9)～(13)所示：