CN116090468A

CN116090468A - 一种基于层叠式指针网络的实体关系联合抽取方法及系统

Info

Publication number: CN116090468A
Application number: CN202310024204.8A
Authority: CN
Inventors: 张志勇; 宋斌; 乔丹阳; 于雅洁; 张中亚; 邵敬平; 李玉祥; 张丽丽; 靳正芬; 赵长伟
Original assignee: Henan University of Science and Technology
Current assignee: Henan University of Science and Technology
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-05-09

Abstract

本发明公开了一种基于层叠式指针网络的实体关系联合抽取方法及系统，包括以下步骤：S1、构建Duie_Bert预训练模型对输入的文本进行编码；S2、利用特定关系‑实体向量引导的多头注意力机制来增强编码层输出向量的特征表达，在此基础上，针对头实体及每一种关系利用改进的层叠式指针标注框架抽取出对应的尾实体，完成关系三元组的抽取。本发明采用上述基于层叠式指针网络的实体关系联合抽取方法及系统，通过在实体关系联合抽取模型中引入由特定关系‑实体向量引导的多头注意力机制，用于获取实体与句子之间的语义联系，有效地解决关系抽取过程中的误差积累和数据冗余的问题。

Description

一种基于层叠式指针网络的实体关系联合抽取方法及系统

技术领域

本发明涉及一种计算机应用技术，尤其涉及一种基于层叠式指针网络的实体关系联合抽取方法及系统。

背景技术

关系抽取作为构建知识图谱的关键环节，成为国内外研究人员的焦点问题。然而，由于非结构化文本信息表达的多样性，使得从自然语言文本中提取关系面临困难和挑战。

传统特征工程实体关系抽取模型离不开人工和自然语言处理工具的使用，降低了关系抽取的效率。

为解决这个问题，一些基于深度神经网络的模型逐渐成为研究的主流方向。其中由于联合抽取模型将命名实体识别和关系分类两个子任务紧密结合降低了流水线方法中误差传播造成的影响，近些年研究人员大都致力于联合抽取模型的研究。

如：文献Zheng SC,Wang F,Bao HY,et al.Joint extraction of entities andrelations based on a novel tagging scheme[C]//Proc of the55th Annual Meetingof the ACL.Stroudsburg,PA:ACL,2017:1227–1236提出了：为避免以命名实体识别-关系抽取流水线方式进行抽取，将关系抽取视为命名实体识别，通常命名实体识别以序列标注方式处理。

文献Zeng XG,Zeng DJ,He SZ,et al.Extracting relational facts by anend-to-end neural model with copy mechanism[C]//Proc of the 56th AnnualMeeting of the ACL.Stroudsburg,PA:ACL,2018:506–514提出了：基于复制机制的序列对序列学习的end2end模型进行实体关系联合抽取，引入了3种重叠三元组的模式，除了可以联合提取实体和关系之外，通过带有复制机制的序列到序列模型可以解决多个实体关系重叠问题。

文献Fu TJ,Li P,Ma WY.GraphRel:Modeling text as relational graphs forjoint entity and relation extraction[C]//Proc of the 57th Annual Meeting ofthe ACL.Stroudsburg,PA:ACL,2019:1409–1418提出了：提出将原序列语句视为1个图，将句中的每个词视为1个节点，通过两个阶段的图卷积网络进行每个词之间的特征融合，继而推断节点之间的关系，该模型能够避免解码过程中因先后顺序导致的实体关系三元组前后依赖的问题，然而不能较好的解决EPO类型的关系重叠问题。

文献Wei ZP,Su JL,Wang Y,et al.A Novel Cascade Binary TaggingFramework for Relational Triple Extraction.In Proceedings of the 58th AnnualMeeting of the Association for Computational Linguistics,Stroudsburg,PA:Association for Computational Linguistics,2020:1476-1488提出了一种新的级联二元标注框架，将三元组的抽取任务转换为头实体、关系和尾实体三个级别的问题，有效解决了EOP类型的关系重叠问题。但是此方法在文本编码过程中未能充分利用实体与句子中各个词之间的细粒度语义联系，导致语义信息错误传递的问题。

发明内容

针对近些年来关系抽取研究中存在的重叠关系三元组问题和多实体错误传递的问题，本发明提供一种基于层叠式指针网络的实体关系联合抽取方法及系统，通过在实体关系联合抽取模型中引入由特定关系-实体向量引导的多头注意力机制，用于获取实体与句子之间的语义联系，有效地解决关系抽取过程中的误差积累和数据冗余的问题。

为实现上述目的，本发明提供了一种基于层叠式指针网络的实体关系联合抽取方法，包括以下步骤：

S1、构建Duie_Bert预训练模型对输入的文本进行编码；

S2、利用特定关系-实体向量引导的多头注意力机制来增强编码层输出向量的特征表达，在此基础上，针对头实体及每一种关系利用改进的层叠式指针标注框架抽取出对应的尾实体，完成关系三元组的抽取；

S21、计算头实体的开始位置和结束位置；

S22、在编码层，引入基于特定关系-实体引导的注意力机制，获取实体与句子之间的语义联系；

S23、计算尾实体的开始位置和结束位置。

优选的，步骤S1具体包括以下步骤：

使用Duie数据集中的文本对Bert模型训练，得到了适用于Duie数据集文本的Duie_Bert模型。

优选的，步骤S1得到的Duie_Bert模型包括嵌入、片段嵌入和位置编码嵌入三个部分，且Duie_Bert模型删除嵌入信息，同时用字嵌入代替词嵌入，将字嵌入信息W_s和位置嵌入信息W_p相加得到输入的向量，随后将输入向量经过第一层及后续层的Transformer网络得到文本的向量表示：

h₀＝SW_S+W_p (1)

h_n＝Transformer(h_n-1)，n∈[1,N] (2)

其中，S为输入句中子词3个索引的单热向量矩阵；P表示输入序列中的位置索引；h_n为隐状态向量，其表示句子经过N层Transformer网络编码后的输出，该向量作为解码层的输入。

优选的，步骤S21具体包括以下步骤：

S211、对于输入的每个字嵌入token，使用一个线性层和sigmoid激活函数来判断是否是头实体的开始部分或结束部分；

S212、采用两个相同的二分类器，通过给每个token分配一个标记：0/1，判断当前token是否对应于subject的起始位置或结束位置；

S213、结合标注框架去识别所有可能的头实体。

优选的，其特征在于：步骤S211中所述sigmoid激活函数为：

f_i ^start_s＝σ(W_startt_i+b_start) (3)

f_i ^end_s＝σ(W_endt_i+b_end) (4)

其中，f_i ^start_s和f_i ^end_s分别表示将输入序列中的第i个标记识别为主题的起始位置和结束位置的概率，如果概率超过设定的阈值，则为相应的token分配标记1，否则为标记0；t_i为输入序列中第i个令牌的编码表示形式，即t_i＝h_n[i]，W_(.)为可训练权值，b_(.)为偏差，σ为sigmoid激活函数。

优选的，在步骤S213中，对于包含多个头实体的句子，采用邻近匹配的原则，保证了实体跨度的完整性。

优选的，步骤S22具体包括以下步骤：

S221、采用缩放点积来计算特定关系-实体向量之间的相关性分数e_object ^r：

其中，e_object ^r表示特定关系-实体向量之间的相关性分数，v_object ^r表示特定关系-实体的特征向量，W_object ^r表示可训练的权重矩阵，d_k表示输入向量的维度；

S222、归一化处理，得到注意力权重α_i：

其中，α_i表示注意力权重；

S223、采用注意力权重α_i与编码层的输出向量进行加权求和，得到全局向量；

S224、将得到的全局向量通过激活函数sigmoid，获得注意力权重输出；

S225、通过多个线性变换对进行投影，进而得到能够准确表达实体含义的语义向量。

优选的，步骤S23计算方式如下：

f_i ^start_o＝σ(W_start ^r(t_i+sum(v_head ^k))+b_start ^r) (5)

f_i ^end_o＝σ(W_end ^r(t_i+sum(v_head ^k))+b_end ^r) (6)

其中，f_i ^start_o和f_i ^end_o分别表示在第r种关系下，将输入序列中的第i个token识别为尾实体的起始位置和结束位置的概率，v_head ^k表示在低级模块中检测到的第k个头实体的编码表示向量，头实体由多个标记组成，Sum(v_head ^k)为第k个头实体的开始和结束标记之间所有向量的平均向量。

一种基于层叠式指针网络的实体关系联合抽取方法的系统，包括：

Bert的预训练模型，用于使用Duie数据集中的文本对Bert模型再次训练，得到了适用于Duie数据集文本的Duie_Bert模型；

头实体标记层，用于对编码层的结果进行解码；

以及关系-尾实体标记层，用于在识别所有可能的头实体，并在给定类别的关系下，去识别与头实体相关的尾实体。

因此，本发明具有以下有益效果：

1、利用Duie_Bert预训练模型对输入的文本进行编码，并在编码阶段引入由特定关系-实体向量引导的多头注意力机制来增强编码层输出向量的特征表达，有效地解决了中文实体关系抽取过程中的误差积累和数据冗余的问题；

2、在Duie中文关系数据集上，与目前的三种实体关系联合抽取模型CopyMTL、WDec、Seq2UMTree进行了性能比较，实验结果表明本文提出的模型在召回率及F1分值上分别取得了大于9.0％和大于5.2％的性能提升。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的实体关系联合抽取模型图；

图2为本发明的Bert的预训练模型图；

图3为实验例的实验结果图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

图1为本发明的实体关系联合抽取模型图；图2为本发明的Bert的预训练模型图；图3为实验例的实验结果图，如图1-图3所示，一种基于层叠式指针网络的实体关系联合抽取方法，包括以下步骤：

S1、构建Duie_Bert预训练模型对输入的文本进行编码；

优选的，步骤S1具体包括以下步骤：

h₀＝SW_S+W_p (1)

h_n＝Transformer(h_n-1)，n∈[1,N] (2)

S21、计算头实体的开始位置和结束位置；

优选的，步骤S21具体包括以下步骤：

S213、结合标注框架去识别所有可能的头实体。

优选的，其特征在于：步骤S211中所述sigmoid激活函数为：

f_i ^start_s＝σ(W_startt_i+b_start) (3)

f_i ^end_s＝σ(W_endt_i+b_end) (4)

注意力机制最早由Vaswani等人提出，其能够从大量的文本信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上，忽略大部分不重要的信息。聚焦的过程体现在权重系数地计算上，通过计算输入句子中每个Value的权重来获得句子中字符之间的关联度，然后调整权重系数矩阵来获得单个Value的向量表示。

优选的，步骤S22具体包括以下步骤：

S222、归一化处理，得到注意力权重α_i：

其中，α_i表示注意力权重；

S23、计算尾实体的开始位置和结束位置。

优选的，步骤S23计算方式如下：

f_i ^start_o＝σ(W_start ^r(t_i+sum(v_head ^k))+b_start ^r) (5)

f_i ^end_o＝σ(W_end ^r(t_i+sum(v_head ^k))+b_end ^r) (6)

其中，f_i ^start_o和f_i ^end_o分别表示在第r种关系下，将输入序列中的第i个token识别为尾实体的起始位置和结束位置的概率，v_head ^k表示在低级模块中检测到的第k个头实体的编码表示向量，头实体由多个标记组成，Sum(v_head ^k)为第k个头实体的开始和结束标记之间所有向量的平均向量(为了保持t_i和v_head ^k两个向量的维度一致)。

头实体标记层，用于对编码层的结果进行解码；

以及关系-尾实体标记层，用于在识别所有可能的头实体，并在给定类别的关系下，去识别与头实体相关的尾实体，每一层尾实体识别层的结构其实与头实体识别层是一样的，不同主要在于输入。

本实施例的实体关系联合抽取方案算法训练过程如下：

input:Training sentence set W＝{w₁,w₂,...,w_n},relation set R＝{r₁,r₂,...,r_n},the pretrained Duie_Bert parameters.

output:Header entity embeddings,relation embeddings,tail entityembeddings.

(1)Initialize position embeddings and learnable parameters

(2)h_i ^r←r_i

(3)for epoch n＝1to N do

(4)sample a training batch W_batch

(5)initialize the training loss function L_{start_s},L_{end_s},L_{start_o},L_{end_o}.

(6)foreach w_i∈W_batch do

(7)Obtain word embeddings t_i

(8)

//Get start positions of the head entity

(9)

//Get end positions of the head entity

(10)

//Get subject set in t_i

(11)Update object extraction loss L_{start_s},L_{end_s}.

(12)foreach h_j ^sub∈Q_s do

(13)foreach h_i ^r∈R do

(14)Obtain new sentence representation t_i with Eq.(1-8)via theidentified subject and existing relation embeddings.

(15)

(16)

(17)

(18)Update object extraction loss L_{start_o},L_{end_o}.

(19)end

(20)end

(21)Update extraction loss L.

(22)end

(23)end

实验例

本实验以本实施例和目前的三种实体关系联合抽取模型CopyMTL、WDec、Seq2UMTree进行了性能比较，得到实验结果如下：

表1为实验结果表

模型	Precision/％	Recall/％	F1/％
				CopyMTL	49.9	39.4	43.9
WDec	64.1	54.2	58.7
				Seq2UMTree	75.6	73.0	74.3
本实施例模型	77.2	82.0	79.5

由表1可知，本实施例与目前的三种实体关系联合抽取模型CopyMTL、WDec、Seq2UMTree进行了性能比较，在召回率及F1分值上分别取得了大于9.0％和大于5.2％的性能提升。

因此，本发明的目的如下：

1、提出了Duie_Bert预训练模型，并将该模型用于文本编码；

2、为了增强编码层输出向量的特征表达，在编码层引入由特定关系-实体向量引导的多头注意力机制；

3、在预训练模型的基础上运用层叠式指针网络，进行实体关系的联合解码，能够有效地抽取句子中的实体关系三元组，解决了三元组重叠造成的误差损失问题。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于层叠式指针网络的实体关系联合抽取方法，其特征在于：包括以下步骤：

S1、构建Duie_Bert预训练模型对输入的文本进行编码；

S21、计算头实体的开始位置和结束位置；

S23、计算尾实体的开始位置和结束位置。

2.根据权利要求1所述的一种基于层叠式指针网络的实体关系联合抽取方法，其特征在于：步骤S1具体包括以下步骤：

3.根据权利要求2所述的一种基于层叠式指针网络的实体关系联合抽取方法，其特征在于：步骤S1得到的Duie_Bert模型包括嵌入、片段嵌入和位置编码嵌入三个部分，且Duie_Bert模型删除嵌入信息，同时用字嵌入代替词嵌入，将字嵌入信息W_s和位置嵌入信息W_p相加得到输入的向量，随后将输入向量经过第一层及后续层的Transformer网络得到文本的向量表示：

h₀＝SW_S+W_p (1)

h_n＝Transformer(h_n-1)，n∈[1,N] (2)

4.根据权利要求3所述的一种基于层叠式指针网络的实体关系联合抽取方法，其特征在于：步骤S21具体包括以下步骤：

S213、结合标注框架去识别所有可能的头实体。

5.根据权利要求4所述的一种基于层叠式指针网络的实体关系联合抽取方法，其特征在于：步骤S211中所述sigmoid激活函数为：

f_i ^start_s＝σ(W_startt_i+b_start) (3)

f_i ^end_s＝σ(W_endt_i+b_end) (4)

其中，f_istart_s和f_i ^end_s分别表示将输入序列中的第i个标记识别为主题的起始位置和结束位置的概率，如果概率超过设定的阈值，则为相应的token分配标记1，否则为标记0；t_i为输入序列中第i个令牌的编码表示形式，即t_i＝h_n[i]，W_(.)为可训练权值，b_(.)为偏差，σ为sigmoid激活函数。

6.根据权利要求5所述的一种基于层叠式指针网络的实体关系联合抽取方法，其特征在于：在步骤S213中，对于包含多个头实体的句子，采用邻近匹配的原则，保证了实体跨度的完整性。

7.根据权利要求6所述的一种基于层叠式指针网络的实体关系联合抽取方法，其特征在于：步骤S22具体包括以下步骤：

S222、归一化处理，得到注意力权重α_i：

其中，α_i表示注意力权重；

8.根据权利要求7所述的一种基于层叠式指针网络的实体关系联合抽取方法，其特征在于：步骤S23计算方式如下：

9.一种基于层叠式指针网络的实体关系联合抽取方法的系统，其特征在于：包括：

头实体标记层，用于对编码层的结果进行解码；