CN116167379A

CN116167379A - 一种基于bert和实体位置信息的实体关系抽取方法

Info

Publication number: CN116167379A
Application number: CN202310168595.0A
Authority: CN
Inventors: 胡智文; 黄章秋
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-05-26

Abstract

本发明公开了属于自然语言处理领域的一种基于BERT和实体位置信息的实体关系抽取方法，该方法包括以下步骤：步骤1：获取包含实体位置标记信息的实体关系抽取文本数据集，划分为训练集、验证集和测试集；步骤2：考虑实体位置对句子文本特征的影响，构建一个结合BERT，BiLSTM和注意力机制的实体关系抽取复合模型；步骤3：利用步骤1中确定的数据集中的训练集对模型进行训练，验证集确定训练的停止轮次，其结果供测试集评估使用；步骤4：利用测试集对模型进行评估，分析模型的合理性。本发明实现了更精准，更高效的挖掘效果，提供了一种新颖的挖掘实体间潜在关系的方式，带来了良好的通用性和实用价值。

Description

一种基于BERT和实体位置信息的实体关系抽取方法

技术领域

本发明属于自然语言处理关系抽取领域，具体涉及一种基于BERT和实体位置信息的实体关系抽取方法。

背景技术

关系抽取(Relation Extraction,RE)就是从给定的文本中抽取出(subject，relation，object)这样的三元组。例如，给出如下的例句：玛丽·居里，女，出生于波兰，我们抽取出(玛丽·居里，出生地，波兰)。利用关系抽取可以为知识图谱，问答系统及搜索引擎等下游任务提供支持。从其定义来看，我们不难发现关系抽取主要做两件事情。第一是识别文本的subject和object对象，这种任务通常被称为序列标注问题(Named EntityRecognition,NER)。第二是判断这两个实体属于哪种关系，这种任务通常被称为关系分类问题(Relation Classification,RC)。根据不同的分类标准，关系抽取可以有以下几种不同的表现形式。根据训练方式，可以分类有监督实体关系抽取和远程监督实体关系抽取；根据是否包含NER子任务，可以分为pipeline关系抽取和joint关系抽取；根据方法不同，可以分为基于规则的关系抽取，基于深度学习的关系抽取和混合模型关系抽取。

当前对于关系抽取的研究中，将卷积神经网络，循环神经网络和注意力机制相结合一直是主流的方案。但实体的位置信息对句子的语义表达也具有一定程度的影响，例如“小明从学校毕业后，一直在为小红工作”。可以得知，小明和小红是一种雇佣关系，而“工作”出现在“小红”附件，提供了主要线索。由此，我们可以发现文本中不同位置的实体，对每一个单词的关注程度是不一样的，模型性能还有待提升。

发明内容

针对未考虑实体位置信息、传统文本表示方法存在局限性的问题，本发明提出了一种基于BERT和实体位置信息的实体关系抽取方法。

一种基于BERT和实体位置信息的实体关系抽取方法，包括如下步骤：

步骤1：获取包含实体位置标记信息的实体关系抽取文本数据集，划分为训练集、验证集和测试集；

步骤2：考虑实体位置对句子文本特征的影响，构建一个结合BERT,BiLSTM和注意力机制的实体关系抽取复合模型；

步骤3：利用步骤1中确定的数据集中的训练集对模型进行训练，验证集确定训练的停止轮次，其结果供测试集评估使用；

步骤4：利用测试集对模型进行评估，分析模型的合理性。

进一步地，所述步骤1包括如下具体步骤：

步骤1-1：通过网络资源，了解当前开源的实体关系抽取文本数据集，选择其中包含实体位置标记信息的数据集作为实验对象；

步骤1-2：通过预处理，将数据转换为{编号，头实体位置，尾实体位置，句子，关系类别}的形式，并将数据集按照8：1：1划分为训练集、验证集和测试集。

进一步地，所述步骤2中，关系抽取复合模型包括BERT层，句子特征提取层，实体特征提取层，实体对句子不同位置单词的注意力层，特征组合层和Softmax分类层。

进一步地，所述BERT层利用Google开源预训练BERT网络对文本进行词嵌入，获得其文本句子特征向量X；

所述句子特征提取层通过BiLSTM网络进一步提取文本的上下文特征向量H；

所述实体特征提取层通过预先标注的实体位置获取实体特征向量，并计算实体的平均值特征向量；

所述实体对句子不同位置单词的注意力层通过构造注意力机制获取两个实体对句子中不同位置单词的权重e；

所述特征组合层根据权重e和上下文特征向量H，获取加权后的向量O；

所述Softmax分类层将加权后的向量O输入到分类器，进行关系抽取分类任务，并通过交叉熵损失训练最优解模型。

进一步地，所述步骤2包括如下具体步骤：

步骤2-1：将训练集中的文本，经过BERT层进行词嵌入，BERT预训练模型采用Huggingface提供的BERT-base-uncased版本，向量X＝[batch_size,src_len,input_dim]，其中batch_size是批次大小，src_len是句子的长度,input_dim是设定的词向量的维度；

步骤2-2：将经过BERT编码的向量输入BiLSTM中，得到输入向量H＝[batch_size,src_len,enc_hid_dim*2]，其中enc_hid_dim是LSTM的隐藏层向量；其中，输入BiLSTM后，经过前向传播和后向传播的特征学习过程，得到前向的隐藏状态和后向的隐藏状态H^fw＝*H₁ ^fw,H₂ ^fw,…,H_n ^fw,+和H^bw＝*H₁ ^bw,H₂ ^bw,…,H_n ^bw,+，随后将二者合并起来作为BiLSTM网络层的最终输出的特征向量H＝Concat(H^fw,H^bw)；

步骤2-3，利用实体的<el>标记获取实体的位置，并通过位置索引，获取到实体对应的实体的向量信息，并分别对两个实体信息求平均，如下所示：

其中i～j是头实体所对应的句子位置索引，m～n是尾实体对应的句子位置索引，H_ent1表示实体1对应BERT向量的平均值，H_ent2表示实体2对应BERT向量的平均值；

步骤2-4，利用上述求出的两个实体位置的平均值向量求得注意力e，具体的公式为

其中V和W都是带训练的参数矩阵，其中三个向量进行叠加的时候，对H_ent1，H_ent2进行广播运算，使得每一个时刻的输出向量都和H_ent1，H_ent2进行叠加，最终生成注意力向量e＝[batch_size,src_len,1]，为了使e能够和上下文特征向量H能够进行对应位置的相乘运算，将e最后一个维度去掉，由此e＝[batch_size,src_len]；

步骤2-5，根据公式生成融合实体信息注意力权重的向量O，具体的公式为：

O＝e·H Softmax函数将O进行归一化处理，得到输出结果P＝,P₁,P₂,P₃,…,P_N-，其中P_i∈,0,1-。进一步地，所述步骤2采用交叉熵函数作为模型的损失函数，具体的公式为：

其中

是模型预测概率分布，y_i是样例的真实分布，是真实标签的one-hot形式，其中i表示第i类关系，在训练过程中引入dropout策略，其值为0.5，采用梯度下降的方法进行模型的参数训练。

进一步地，所述步骤3将文本处理成模型需要的格式，并参与模型的训练，不断调整实验的参数，从而得到最优的参数。

进一步地，所述步骤4选择精确率precision、召回率recall、F1值作为评估指标。

进一步地，所述步骤4公式如下：

本发明通过构建关系抽取模型包括BERT层，句子特征提取层，实体特征提取层，实体对句子不同位置单词的注意力层，特征组合层，Softmax分类层。提供了一种高效的、突出泛化性的实体关系挖掘与建模的方法。相较于传统关系挖掘与抽取方法，本方法实现了更精准，更高效的挖掘效果，提供了一种新颖的挖掘实体间潜在关系的方式，不仅带来了良好的通用性和实用价值，而且具有很好的借鉴意义。具体技术效果和创新性主要表现在以下二个方面：

1.本发明充分利用预训练模型的优势，有效解决了一词多义所带来的准确性较低的问题。同时，预训练模型中，我们只需要对下游任务进行微调便可以取得较好的效果，有效解决了小样本数据存在的问题。

2.本发明充分考虑到关系抽取领域，实体位置对于句子中其他词语的作用程度，由此提出了一种结合实体位置信息的注意力计算方法，该方法可以有效地反映实体位置信息对句子不同单词的侧重程度。

附图说明

图1为基于BERT和实体位置信息的实体关系抽取网络示意图。

图2为注意力机制的计算示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明一种基于BERT和实体位置信息的实体关系抽取方法，包括如下步骤：

步骤1-1：通过网络资源，了解当前开源的实体关系抽取文本数据集。选择其中包含实体位置标记信息的数据集作为实验对象。

在一个实施例中，上述步骤1中，选定所述的公开数据集为SemEval-2010-Task8，其中共有Cause-Effect,Component-Whole,Content-Container,Entity-Destination,Entity-Origin,Instrument-Agency,Member-Collection,Message-Topic,Product-Producer,Other。如果不考虑实体的主次关系，则可以分为10类，如果考虑主次关系，则可以分类19类。

上述步骤1中，所述的公开数据集中的文本格式为："[CLS]The$kitchen$is thelast renovated part of the#house#."在开头添加了CLS符号，并给第一个实体前后添加$符号，给第二个实体前后添加#符号。

步骤2：充分考虑实体位置对句子文本特征的影响，构建一个结合BERT(Bidirectional Encoder Representations from Transformers),BiLSTM和注意力机制的实体关系抽取复合模型；

在一个实施例中，上述步骤2中，关系抽取复合模型包括BERT层，句子特征提取层，实体特征提取层，实体对句子不同位置单词的注意力层，特征组合层，Softmax分类层。

其中，BERT层利用Google开源预训练BERT网络对文本进行词嵌入，获得其文本句子特征向量X；BERT使用了Transformer作为算法的主要框架，Transformer能更彻底的捕捉语句中的双向关系；BERT使用了Mask Language Model(MLM)和Next Sentence Prediction的多任务训练目标；BERT使用更强大的机器训练更大规模的数据，使BERT的结果达到了全新的高度。

其中，句子特征提取层通过BiLSTM网络进一步提取文本的上下文特征向量H；BiLSTM通过设置记忆细胞可以将间隔很长的过去的或未来的信息储存起来，从而获取句子上下文的联系。通过设置遗忘门、记忆门与输出门，多次迭代以后可以更准确的描述模型。

其中，实体特征提取层通过预先标注的实体位置获取实体特征向量，并计算实体的平均值特征向量；

其中，实体对句子不同位置单词的注意力层通过构造注意力机制获取两个实体对句子中不同位置单词的权重e；

其中，特征组合层根据权重e和上下文特征向量H，获取加权后的向量O；

其中，Softmax分类层将加权后的向量O输入到分类器，进行关系抽取分类任务，并通过交叉熵损失训练最优解模型。如图1所示，具体包括：

步骤2-1，将训练集中的文本，例如"[CLS]The$kitchen$is the last renovatedpart of the#house#."经过BERT层进行词嵌入。BERT预训练模型采用Huggingface提供的BERT-base-uncased版本。向量X＝[batch_size,src_len,input_dim]，其中batch_size是批次大小，src_len是句子的长度,input_dim是设定的词向量的维度。

步骤2-2，将经过BERT编码的向量输入BiLSTM中，得到输入向量H＝[batch_size,src_len,enc_hid_dim*2]，其中enc_hid_dim是LSTM的隐藏层向量。

其中，输入BiLSTM后，经过前向传播和后向传播的特征学习过程，得到了前向的隐藏状态和后向的隐藏状态H^fw＝*H₁ ^fw,H₂ ^fw,…,H_n ^fw,+和H^bw＝*H₁ ^bw,H₂ ^bw,…,H_n ^bw,+，随后将二者合并起来作为BiLSTM网络层的最终输出的特征向量H＝Concat(H^fw,H^bw)。

步骤2-3，利用实体的<el>标记获取实体的位置，并通过位置索引，获取到实体对应的实体的向量信息，并分别对两个实体信息求平均，具体如下所示：

其中i～j是头实体所对应的句子位置索引，m～n是尾实体对应的句子位置索引。H_ent1表示实体1对应BERT向量的平均值，H_ent2表示实体2对应BERT向量的平均值。

其中V和W都是带训练的参数矩阵。其中三个向量进行叠加的时候，需要对H_ent1，H_ent2进行广播运算，使得每一个时刻的输出向量都和H_ent1，H_ent2进行叠加。最终生成注意力向量e＝[batch_size,src_len,1]，如图2所示。

为了使e能够和上下文特征向量H能够进行对应位置的相乘运算，需要将e最后一个维度去掉，由此e＝[batch_size,src_len]

O＝e·H

Softmax函数将O进行归一化处理，得到输出结果P＝,P₁,P₂,P₃,…,P_N-，其中P_i∈,0,1-。本发明采用交叉熵函数作为模型的损失函数，交叉熵能够衡量同一个随机分布中两个不同概率分布的差异程度，具体的公式为：

其中

是模型预测概率分布，y_i是样例的真实分布，是真实标签的one-hot形式。其中i表示第i类关系。为了防止模型过拟合，在训练过程中引入dropout策略，其值为0.5。此外，采用梯度下降的方法进行模型的参数训练。

步骤3：利用步骤1中确定的数据集中的训练集对模型进行训练，验证集确定训练的停止轮次，其结果供测试集评估使用。将文本处理成模型需要的格式，并参与模型的训练，不断调整实验的参数，从而得到最优的参数。

步骤4：利用测试集对模型进行评估，分析模型的合理性。其中，评估指标为精确率(precision)、召回率(recall)和F1值。

在一个实施例中，上述步骤3，利用测试集对模型进行验证，得到最终的实验结果。选择精确率、召回率、F1值作为评估指标，公式如下：

例如输入句子为："[CLS]The$kitchen$is the last renovated part of the#house#."识别的结果是：Component-Whole。

本发明的一种基于BERT和实体位置信息的实体关系抽取方法，能够通过BERT网络得到文本的向量表示，通过BiLSTM进一步获得文本的上下文信息，同时根据实体位置计算不同位置所需要的注意力权重，加权获得特征向量，最后根据分类器动态分类出文本所述的关系类别。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于BERT和实体位置信息的实体关系抽取方法，其特征在于，包括如下步骤：

步骤4：利用测试集对模型进行评估，分析模型的合理性。

2.根据权利要求1所述的基于BERT和实体位置信息的实体关系抽取方法，其特征在于，所述步骤1包括如下具体步骤：

3.根据权利要求1所述的基于BERT和实体位置信息的实体关系抽取方法，其特征在于，所述步骤2中，关系抽取复合模型包括BERT层，句子特征提取层，实体特征提取层，实体对句子不同位置单词的注意力层，特征组合层和Softmax分类层。

4.根据权利要求3所述的基于BERT和实体位置信息的实体关系抽取方法，其特征在于，所述BERT层利用Google开源预训练BERT网络对文本进行词嵌入，获得其文本句子特征向量X；

5.根据权利要求1所述的基于BERT和实体位置信息的实体关系抽取方法，其特征在于，所述步骤2包括如下具体步骤：

O＝e·H

Softmax函数将O进行归一化处理，得到输出结果P＝,P₁,P₂,P₃,…,P_N-，其中P_i∈,0,1-。

6.根据权利要求5所述的基于BERT和实体位置信息的实体关系抽取方法，其特征在于，所述步骤2采用交叉熵函数作为模型的损失函数，具体的公式为：

其中

7.根据权利要求1所述的基于BERT和实体位置信息的实体关系抽取方法，其特征在于，所述步骤3将文本处理成模型需要的格式，并参与模型的训练，不断调整实验的参数，从而得到最优的参数。

8.根据权利要求1所述的基于BERT和实体位置信息的实体关系抽取方法，其特征在于，所述步骤4选择精确率precision、召回率recall、F1值作为评估指标。

9.根据权利要求8所述的基于BERT和实体位置信息的实体关系抽取方法，其特征在于，所述步骤4公式如下：

/>