CN115062109A

CN115062109A - 一种基于实体对注意力机制的实体关系联合抽取方法

Info

Publication number: CN115062109A
Application number: CN202210677466.XA
Authority: CN
Inventors: 朱继召; 赵一霖; 潘新龙; 范纯龙; 王海鹏; 刘颢; 丁国辉; 刘瑜; 滕一平; 黄友澎; 张思邈
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-16

Abstract

本发明公开一种基于实体对注意力机制的实体关系联合抽取方法，涉及自然语言处理技术领域；具体为：对数据集进行处理，得到实体及实体间关系；构建基于实体对注意力机制的实体关系联合抽取模型，编码层采用嵌入式表示表征句子中字符级、词级和词性共三种不同粒度的特征，获得句子的初始编码，实体识别层使用Bi‑LSTM神经网络结合CRF层进行实体抽取，关系抽取层将抽取的实体配对，使用基于实体对注意力机制的句子编码模块进行实体间关系抽取；通过训练实体关系联合抽取模型，并对模型进行测试，再依据测试结果更新模型。本发明可从非结构化文本中提取实体关系三元组，实现非结构化文本的知识化，适用于大规模知识图谱的自动构建。

Description

一种基于实体对注意力机制的实体关系联合抽取方法

技术领域

本发明涉及计算机自然语言处理技术领域，尤其涉及一种基于实体对注意力机制的实体关系联合抽取方法。

背景技术

随着互联网、云计算和通讯技术等的不断发展，目前各领域产生了海量的数据，同时这些数据表现出多源、异构、高维、低质、碎片化等特征。大数据时代下，对海量数据的高效组织，是实现多元异构数据融合的有效技术之一，那么如何快速准确地从计算机产生的数据中提取出高质量的、结构化的、可被计算机直接使用的有价值的信息，使其能够自动构建知识图谱，是目前研究的热点问题。

为了能够高效利用非结构化文本中有价值的信息，研究人员提出了实体关系抽取这项技术，它是命名实体识别任务和关系抽取任务的结合，目的就是从非结构化文本中抽取出实体和实体之间的关系。为了解决实体关系抽取任务，研究者提出了多种解决方法，目前来说主要分为流水线抽取模型和联合抽取模型两大类。

流水线抽取模型可以描述为：该方法将实体关系抽取划分为命名实体识别和关系抽取两个子任务，两个子任务按照顺序依次进行，且不存在任何交互作用。流水线模型具有易于实现、操作简单、灵活性高的特点，但是也存在着实体冗余、误差传播和交互缺失的问题。

为此研究者们提出了联合抽取模型，它能够有效利用实体和关系之间的紧密联系，缓解误差传播，加强两个子任务之间的交互，有效提高模型的性能。该模型可以描述为：通过实体识别和关系抽取两个任务联合进行学习，直接得到三元组。一般联合模型可以分为参数共享、序列标注等方法。联合模型能够进一步利用两个子任务之间的潜在信息，增强任务之间的交互，但是存在以下问题：

(1)参数共享方法虽然能够让两个子任务进行底层的信息交互，但是会导致模型的参数过于庞大，训练的时候过于耗费时间；

(2)序列标注方法的优点是引入了统一的标签进行联合解码，解决了参数共享方法存在信息冗余的问题，但是只能给每个词打上唯一的标签，不能解决三元组重叠的问题。

因此，如何更好地从海量的非结构化文本中抽取出有价值的信息，引起了众多研究者的关注，并且随着深度学习的发展，更加促进了这一领域的快速发展。

发明内容

针对现有技术中存在的问题，本发明提供一种基于实体对注意力机制的实体关系联合抽取方法，通过对数据集进行处理，得到实体和实体间关系，构建基于实体对注意力机制的实体关系联合抽取模型，完成从非结构化文本中抽取实体关系三元组的任务，实现对实体关系的联合抽取。

为实现上述目的，采用的技术方案为：

一种基于实体对注意力机制的实体关系联合抽取方法，包括以下步骤：

S1：对数据集分句、去重、分词、构建字典，获得实体以及实体间关系；

S2：构建基于实体对注意力机制的实体关系联合抽取模型，所述实体关系联合抽取模型包括：用于获得句子初始编码的编码层、用于从句子中抽取实体的实体识别层、用于抽取实体间关系的关系抽取层；

S3：设定实体识别和关系抽取的损失函数，将实体识别的损失函数和关系抽取的损失函数联合，完成对实体关系联合抽取模型的训练和测试，并根据测试结果对实体关系联合抽取模型进行更新。

所述S1具体包括以下步骤：

S1.1：对数据集进行分句，删除重复的句子，使用NLTK(Natural LanguageToolkit，自然语言处理工具包)中的分词工具对句子进行处理，得到目标分词，构建词映射ID的字典；

S1.2：对数据集中分词处理后的句子，使用NLTK中的词性标注工具完成句子词性的标注，构建词性映射ID的字典；

S1.3：对句子中的每个词，构建字符映射ID的字典；

S1.4：统计数据集中出现的实体类别，结合“BIESO”标注方法，构建实体类别标签映射ID的字典；

S1.5：统计数据集中出现的实体间关系类别，构建实体间关系类别映射ID的字典；

S1.6：按照设定长度对句子进行填充或截断，并将处理后的数据集划分为训练集、验证集、测试集。

所述S2具体包括以下步骤：

S2.1：编码层采用嵌入式表示表征句子中各词的字符级、词级和词性共三种不同粒度的特征，通过拼接形成复合特征表示，获得句子的初始化编码X；

S2.2：实体识别层将句子的初始编码X输入到Bi-LSTM神经网络中，利用Bi-LSTM神经网络实现对句子特征的深度提取，输出各词对应的隐状态h，结合CRF层完成对实体标签序列的预测，通过解析实体标签序列获得从句子中抽取的实体；

S2.3：关系抽取层对抽取的实体进行配对，使用基于实体对注意力机制的句子编码模块，分别生成实体对注意力机制下的句子表示S，后融合实体对的信息，得到增强的句子表示S^*，输入前馈神经网络，抽取实体间关系。

所述S2.1具体包括以下步骤：

S2.1.1：采用嵌入式表示将每条句子中的词和词性分别表征成为向量x^w和x^pos；

S2.1.2：对每条句子中的词，使用卷积神经网络获得词所对应的字符级的向量表示x^c；

S2.1.3：将得到的x^w、x^pos和x^c拼接得到每个词的复合特征表示

表示向量拼接，获得句子的初始编码X＝[x₁,x₂,…,x_n]。

所述S2.2具体包括以下步骤：

S2.2.1：对每条句子，将句子的初始编码X＝[x₁,x₂,…,x_n]输入到Bi-LSTM神经网络中，输出各词对应的隐状态

表示向量拼接，完整隐状态序列记为H＝[h₁,h₂,…,h_n]；

S2.2.2：将完整的隐状态序列H输入到全连接层，输出一组与实体类别长度相同的向量表示h_s；

S2.2.3：将S2.2.2输出的向量表示接入CRF层，利用CRF层进行实体标签的结构化预测，得到一组全局最优的标签序列y_s；

S2.2.4：通过全局最优的标签序列y_s解析出句子中存在的实体，完成实体识别。

所述S2.3具体包括以下步骤：

S2.3.1：将抽取出的实体配对，分别将配对实体对应的隐状态h_i进行拼接和填充，得到实体e₁和实体e₂的初始表示

和

其中，a、b分别表示构成实体e₁和实体e₂的单词对应隐状态的开始位置，p、q分别表示构成实体e₁和实体e₂的单词数，m表示实体填充后的词长度，

表示向量拼接；

S2.3.2：将e₁和e₂分别引入全连接层输出配对实体的嵌入式表示

和

拼接

和

得到实体对嵌入式表示u_ep；

S2.3.3：将S2.2.1得到的各词对应的隐状态h_i与实体对嵌入式表示u_ep，作为实体对注意力机制计算的依据，根据公式α_i＝Attention(h_i,u_ep),i∈[1,n]计算实体对注意力权重α＝[α₁,α₂,…,α_n]；

S2.3.4：根据S2.2.1得到的各词对应的隐状态h_i和实体对注意力权重α_i,i∈[1,n]，按照公式

计算得到句子的嵌入式表示S，再将S与实体对嵌入式表示u_ep融合得到增强的句子嵌入式表示S^*；

S2.3.5：将得到的增强的句子嵌入式表示S^*输入前馈神经网络，实现对配对实体间关系的预测，从而完成关系的抽取。

所述实体对注意力机制公式α_i＝Attention(h_i,u_ep),i∈[1,n]具体如下：

计算实体对注意力下句子中第i个词的重要度w_i，如式(1)所示：

w_i＝V^T tanh(W_hh_i+W_uu_ep) (1)

其中，W_h、W_u和V表示权重矩阵参数，V^T表示V的转置。

通过softmax对句子中各词的重要度w＝[w₁,w₂,…,w_n]进行归一化操作，得到句子对应的实体对注意力权重α＝[α₁,α₂,…,α_n]，其中，第i个词的注意力权重α_i计算如式(2)所示：

所述S3具体包括以下步骤：

S3.1：根据S2.2中抽取的实体，结合实体的真实标签，设定实体识别的损失函数为负对数似然函数形式L_ner＝-Σ_s∈Slog(P(y_s|h_s；θ))，其中，h_s表示从S2.2.2中获得的与实体类别长度相同的向量表示，y_s表示从S2.2.3中通过CRF层获得的全局最优的标签序列，θ表示CRF层中涉及的参数；

S3.2：根据S2.3中抽取的实体间关系y_j，结合实体间关系的真实标签，采用负对数似然损失函数计算关系抽取的损失值，记为

其中，P表示y_j与

相等的概率；

S3.3：采用联合损失函数的方式计算总损失值L＝L_ner+L_rel；

S3.4：利用测试集对基于实体对注意力机制的实体关系联合抽取模型进行测试，记录模型的准确率、召回率和F1值，作为检测模型效果的评价指标，并加以保存；

S3.5：通过修改超参数对基于实体对注意力机制的实体关系联合抽取模型重复测试，保存测试结果F1值最高的超参数作为模型最终超参数；所述超参数包括学习率、迭代次数；

S3.6：对基于实体对注意力机制的实体关系联合抽取模型结果进行分析，通过设定的F1值验证模型的有效性。

有益技术效果

1、本发明提出的一种基于实体对注意力机制的实体关系联合抽取方法，通过有效利用文本中有价值的信息，实现在非结构化文本中进行实体和实体间关系的抽取。

2、本发明采用基于实体对注意力机制的实体关系联合抽取模型，能够有效解决实体冗余的问题，加快模型训练速度，提高模型训练效率，并且通过联合实体损失函数和实体间关系损失函数的方式，能够增强两个任务之间的交互作用。

3.、本发明采用的基于实体对注意力机制的句子编码模块，能够为不同的实体对生成不同的句子表示，因此能够有效解决三元组重叠问题。

附图说明

图1为本发明实施例提供的一种基于实体对注意力机制的实体关系联合抽取方法流程图。

图2为本发明实施例提供的基于实体对注意力机制的实体关系联合抽取方法的具体实例图。

图3为本发明实施例提供的基于实体对注意力机制的实体关系联合抽取模型的框架图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。本实施例提供了一种基于实体对注意力机制的实体关系联合抽取方法，通过构建基于实体对注意力机制的实体关系联合抽取模型，实现从非结构化的文本中有效地进行实体和实体间关系抽取，如图1所示，包括以下步骤：

本实施例中，通过对数据集进行分句、去重，获得NYT数据集和WebNLG数据集；NYT数据集包含56195条训练数据，5000验证数据，5000测试数据；WebNLG数据集包含5019条训练数据，500条验证数据，703条测试数据；对数据集进行进一步的处理，构建词映射ID的字典、词性映射ID的字典、字符映射ID的字典；获得实体类别信息及实体间关系类别信息，包括以下步骤：

S1.3：对句子中的每个词，构建字符映射ID的字典；

所述实体类别标签由“BIESO”标注方法结合实体类别的方法表示，还可以表示词在实体中的位置，例如B-PER、I-PER、E-PER、S-PER等；对于多词实体来说：“B”：begin，表示实体的开始位置，“I”：inside，表示实体的中间位置，“E”：end，表示实体的结束位置；对于单词实体来说：“S”：single，表示该实体只由一个词构成；“O”：other，表示该词不是实体：“X”：未知，表示对句子长度不足句子最大长度的部分进行填充的词。

在本实施例中，采用的数据集是NYT数据集和WebNLG数据集，这两个是经典的实体关系联合抽取的公共数据集；NYT数据集由远程监督的方式产生，具有一定噪声；WebNLG数据集最初就是为自然语言处理任务创建的。两者的统计数据如表1所示：

表1数据集的信息统计

数据集	关系种类	训练集句子数量	验证集句子数量	测试集句子数量
					NYT	24	56195	5000	5000
WebNLG	246	5019	500	703

S2：构建基于实体对注意力机制的实体关系联合抽取模型，如图2所示，所述实体关系联合抽取模型包括：用于获得句子初始编码的编码层、用于从句子中抽取实体的实体识别层、用于抽取实体间关系的关系抽取层，包括以下步骤：

S2.1：编码层采用嵌入式表示表征句子中各词的字符级、词级和词性共三种不同粒度的特征，通过拼接形成复合特征表示，获得句子的初始编码；

本实施例中，编码层结合各词的字符级、词级和词性共三种不同粒度的特征，对每条句子进行特征融合，得到句子的初始编码X，包括以下步骤：

表示向量拼接，获得句子的初始编码X＝[x₁,x₂,…,x_n]。

S2.2：实体识别层使用Bi-LSTM神经网络对句子特征进行深度提取，结合CRF层完成实体的抽取；

本实施例中，将句子的初始编码X输入到Bi-LSTM神经网络中，利用Bi-LSTM神经网络实现对句子特征的深度提取，输出各词对应的隐状态h，结合CRF层完成对实体标签序列的预测，通过解析实体标签序列获得从句子中抽取的实体，包括以下步骤：

S2.2.1：对每条句子，将得到的初始编码X＝[x₁,x₂,…,x_n]输入到Bi-LSTM神经网络中，输出各词对应的隐状态

表示向量拼接，完整隐状态序列记为H＝[h₁,h₂,…,h_n]；

S2.2.4：通过全局最优的标签序列y_s解析出句子中的实体，完成实体识别，如图3所示。

S2.3：关系抽取层对抽取的实体进行配对，使用基于实体对注意力机制的句子编码模块，分别生成实体对注意力机制下的句子表示S，后融合实体对的信息，得到增强的句子表示S^*，输入前馈神经网络，抽取实体间关系；

本实施例中，将抽取出来的实体进行配对，作为基于实体对注意力机制的句子编码模块的计算依据，分别生成实体对注意力机制下的句子表示S，后融合实体对的信息，得到增强的句子表示S^*，输入到前馈神经网络，抽取实体间关系，包括以下步骤：

和

表示向量拼接；

S2.3.2：将e₁和e₂分别引入全连接层输入配对实体的嵌入式表示

和

拼接

和

得到实体对嵌入式表示u_ep；

S2.3.5：将得到的增强的句子嵌入表示S^*输入前馈神经网络，实现对配对实体对间关系的预测，从而完成关系的抽取，如图3所示。

计算实体对注意力下句子中第i个词的重要度w_i，如式(1)所示：：

w_i＝V^T tanh(W_hh_i+W_uu_ep) (1)

其中，W_h、W_u和V表示权重矩阵参数，V^T表示V的转置。

S3：根据S2.2中抽取的实体和S2.3中抽取的实体间关系，分别结合实体的真实标签和实体间关系的真实标签，设定实体识别和关系抽取的损失函数；将实体识别的损失函数和关系抽取的损失函数联合，完成对基于实体对注意力机制的实体关系联合抽取模型的训练和测试，并根据测试结果对模型进行更新；

本实施例中，根据S2.2中抽取的实体，结合NYT数据集和WebNLG数据集中实体的真实标签，设定实体识别的损失函数；根据S2.3中抽取的实体间关系，结合NYT数据集和WebNLG数据集中实体间关系的真实标签，设定关系抽取的损失函数；将实体识别的损失函数和关系抽取的损失函数联合，完成对基于实体对注意力机制的实体关系联合抽取模型的训练和测试，并根据测试结果对模型进行更新，包括以下步骤：

S3.1：根据S2.2中抽取的实体，结合实体的真实标签，设定实体识别的损失函数为负对数似然函数形式L_ner＝-∑_s∈Slog(P(y_s|h_s；θ))，其中，h_s表示S2.2.2中获得的与实体类别长度相同的向量表示，y_s表示S2.2.3中通过CRF层获得的全局最优的标签序列，θ表示CRF层中涉及的参数；

其中，P表示y_j与

相等的概率；

S3.3：采用联合损失函数的方式计算总损失值L＝L_ner+L_rel；

S3.4：利用测试集对基于实体对注意力机制的实体关系联合抽取模型进行测试，记录模型的准确率、召回率和F1值，作为检测模型效果的评价指标，并加以保存，结果如表2所示；

表2实体关系联合抽取结果

S3.6：对基于实体对注意力机制的实体关系联合抽取模型结果进行分析，通过设定的F1值验证该模型的有效性。