CN114510576A

CN114510576A - 一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法

Info

Publication number: CN114510576A
Application number: CN202111551310.9A
Authority: CN
Inventors: 周焕来; 李嘉豪; 乔磊崖; 曾靓; 李金润; 刘桐; 贾海涛; 王俊
Original assignee: Yituo Communications Group Co ltd
Current assignee: Yituo Communications Group Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-05-17

Abstract

本发明提出采用BERT模型和BiGRU网络并融入注意力机制的实体关系抽取方法。该方法使用BERT作为神经网络模型嵌入层，使用动态词向量对中文进行编码，弥补了word2vec在解决多义词问题上的不足；基于GRU更好地处理序列化任务的能力和CNN提取局部特征的突出性能，改善了单个神经网络模型特征提取不足的问题；结合了注意力机制，输出特征通过注意力机制加权，使得对关系分类影响较大的词通过注意力机制加权，从而提高分类精度。

Description

一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法

技术领域

本发明属于自然语言处理领域。

背景技术

关系抽取是信息抽取的重要子任务之一，主要目的是从文本中识别实体并抽取实体之间的语义关系。实体关系抽取解决了原始文本中目标实体之间的关系分类问题，它也是构建复杂知识库系统的重要步骤，比如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。随着近年来对信息抽取的兴起，实体关系抽取研究问题进一步得到广泛的关注和深入研究。

实体关系抽取解决了原始文本中目标实体之间的关系分类问题，它也被广泛应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。中文实体关系抽取由于中文句式和语法结构复杂，汉语有更多歧义，会影响关系分类的效果。实体关系抽取是指从一个句子中抽取出关系三元组(entity1,relation,entity2), 例如，“任正非在深圳创办了华为公司。”，其中任正非是实体1，华为是实体2，它们之间的关系是创办，那么抽取的三元组为(任正非，创办，华为)。

近年来，研究人员提出了几种基于深度学习的关系抽取模型。在这些模型中，Zeng等人，次提出在关系分类任务中使用深度卷积神经网络。该模型以句子的词向量表示作为输入，通过卷积神经网络(CNN)自动提取特征，减少了大量的特征标记工作，节省了大量的人力资源。Socher等人，提出了递归神经网络(RNN) 模型在实体关系抽取中的应用。语义信息的丢失是由于CNN网络无法细化池化特征造成的。RNN网络存在梯度消失和梯度爆炸的问题，并且容易丢失长距离关系，难以处理长距离依赖问题。Xu等人，采用改进的基于RNN的模型，长短期记忆(LSTM)，来改善长序列的问题。还有人提出了一种基于CNN和双向LSTM的联合情感分析模型。在该模型中，CNN首先提取连续词之间的相关特征，然后双向LSTM提取句子的正负语义信息。实验表明，双向LSTM网络结合CNN可以很好地学习隐藏在句子中的长距离依赖，从而在情感分析任务中取得更好的效果。

然而，RNN提取局部特征的能力不足。融合注意力机制后很难得到入句子丰富的特征表示，模型学习特征的能力将直接影响关系抽取的准确性。

发明内容

为了解决上述问题，本发明提出采用BERT模型和BiGRU网络并融入注意力机制的实体关系抽取方法。实验结果达到以下效果：

(1)该方法使用BERT作为神经网络模型嵌入层，使用动态词向量对中文进行编码，弥补了word2vec在解决多义词问题上的不足。

(2)该方法基于GRU更好地处理序列化任务的能力和CNN提取局部特征的突出性能，改善了单个神经网络模型特征提取不足的问题。

(3)该方法结合了注意力机制，输出特征通过注意力机制加权，使得对关系分类影响较大的词通过注意力机制加权，从而提高分类精度。

附图说明

图1为本发明的算法整体框图。

图2为本发明中应用到的BERT模型部分结构图。

图3为本发明中应用到的GRU内部结构图。

图4为本发明中应用到的BiGRU网络结构图。

图5为本发明在实验数据验证集上的损失率图。

图6为本发明在实验数据验证集上的准确率图。

图7为本发明中实验环境说明。

图8为本发明在数据集上模型的对比结果。

具体实施方式

下面结合附图对本发明进一步说明。

本发明主要包括五个部分，整体框架如图1所示。

(1)BERT嵌入层：本发明使用BERT对输入句子进行向量化，得到词向量矩阵Y作为卷积神经网络层的输入。

(2)卷积神经网络层：词向量矩阵的局部特征提取Y通过卷积层进行特征降维，然后通过池化层进行特征降维，以获得更好的特征信息p_i。最后，序列化矩阵P通过拼接获得p_i作为双向门控循环单元层的输入。

(3)双向门控循环单元层：通过BiGRU学习特征矩阵的上下信P获得新的特征表示H包含上下文信息。

(4)注意力机制层：对输入向量进行加权H得到一个新的向量表示Y。

(5)分类器层：输入注意力机制层的输出Y到softmax分类器得到关系分类的结果。

步骤一：BERT嵌入层

嵌入层作为模型的输入部分，主要实现对给定输入句子的向量化，将面向人的文本信息转化为计算机能够理解的数字语言。2013年，Google发布了word2vec 工具，它使用典型的分布式词向量表示，将one-hot形式的高维词向量转换为低维向量，从而实现文本处理。2014年，斯坦福NLP研究组提出了词表示工具 Glove基于全球词频统计。该工具首先基于语料构建词频共现矩阵，然后基于共现矩阵和手套模型学习词向量。Glove本身使用全局信息，这会导致高内存消耗。相比之下，研究人员更喜欢word2vec，它可以节省资源。然而，word2vec生成的词向量是静态的，只有单向词到向量的映射，没有考虑到一个词在其上下文中的不同语义。

在关系抽取任务中，同一个词在不同的关系表达语句中通常具有不同的含义，考虑到汉语多义词的特点，本发明采用基于词向量动态表示的BERT模型。与 word2vec相比，该模型在框架、预训练损失函数和训练方法上都有很大的改进。 BERT预训练模型使用双向转换器编码器，使模型能够学习每个词前后的信息，不仅可以解决一个词的多义问题，还可以得到基于该词的文本的向量化表示。模型结构如图2所示。

E₁，E₂，E₃，...，E_n表示模型的输入，Y₁，Y₂，Y₃，...，Y_n表示模型的输出，中间两层是可以获取上下文信息的双向transformer特征提取器。

对于输入文本T＝{X₁，X₂，X₃，...，X_n}，X_n表示第n个句子中的词。屏蔽后，文本中的实体表示为f_ii＝{E₁，E₂，E₃，...，E_n}，E_n表示第n个实体，经过双向变换器后，词向量表示Y＝{Y₁，Y₂，Y₃，...，Y_n}。

步骤二：卷积神经网络层

本发明使用CNN来提取输入句子的局部特征。CNN主要包括卷积层、池化层和输入输出层。

(1)卷积层

得到词向量表示后Y对应通过embedding层的文本，设置一个维度为j*k， j是窗口中包含的单词数，k是词向量的长度。卷积层进行的卷积操作是利用窗口在输入矩阵上不断滑动，每滑动一次都会进行乘积求和。卷积计算过程如下：

c_i＝f(W*x_i：i+j-1+b) (1)

x_i：i+j-1是句子中词i到i+j的词向量矩阵的组成，b表示偏置矩阵，f是线性激活函数。通过计算，最终结果为：

c＝c₁，c₂，c₃，…，c_n-j+1 (2)

(2)池化层

卷积操作与很多冗余信息相关联，池化层是将冗余信息池化。即对卷积层获取的特征进行降维，以获得更好的局部特征。本发明采用最大池化策略选择特征，如下：

p_i＝max(c＝c₁，c₂，c₃，…，c_n-j+1) (3)

步骤三：双向门控制循环单元层

本发明在CNN神经网络层之后加入BiGRU层，序列P通过拼接局部特征矩阵得到p_i在池化层之后作为BiGRU层的输入，其中P＝{p₁，p₂，p₃，...，p_n}。GRU 是RNN的一种变体，2014年首次被提出，用于解决长期记忆和反向传播中的梯度问题。与LSTM相比，GRU将LSTM中的遗忘门和输入门替换为更新门。它具有更简单的网络结构和更少的参数。计算效果和LSTM差不多，一定程度上提高了模型训练的效率。GRU的内部结构如图3所示。

其中r_t是复位门，z_t是更新门，x_t是当时的输入数据，h_t和h_t-1是对应时间x_t的GRU的输出，更新门分别控制输入数据x_t和输出信息h_t-1在之前的时间，z_t和r_t从隐藏状态控制计算h_t-1到隐藏状态h_t节点输出和门的具体计算过程如下：

h_t＝(1-z_t)*h_t-1+z_t*h_t (7)

其W_z，W_r和W分别是重置门、更新门、候选隐藏状态的权重矩阵，σ是一个 sigmoid函数。输出h_t可以从重置门、更新门和隐藏状态的结果中获得当前时刻的信息。考虑到在关系抽取任务中，网络模型需要学习中文句子的上下文信息，本发明采用能够学习上下文词序列信息的双向GRU神经网络。BiGRU网络结构如图4所示。

在图4中，输入x_t为当前时刻，前向隐藏层状态输出

在t-1时刻，以及反向隐藏层状态输出

共同确定BiGRU的当前隐藏层状态。具体计算过程如下：

其中函数GRU()表示输入的非线性变换，将输入编码为对应的GRU隐藏层状态。w_t和v_t分别对应前向和反向隐藏层状态对应的权重h_t的BiGRU在时间t，和b_t表示对应于时间t的隐藏层状态的偏差。

步骤四：注意力机制层

本发明引入注意力机制来区分对关系分类影响较大的常用词和特征词的权重，使神经网络能够更加关注句子中的重要词。注意力机制的权重是通过乘以输出向量来计算H＝(h₁，h₂，h₃，...，h_n)的BiGRU层和不同初始化概率的权重矩阵，然后相加。通过激活函数softmax获得注意力分布特征。最后，对分布特征进行加权得到注意力层的输出。具体计算过程如下：

a＝softmax(w^T*tanh(H)) (11)

Y＝Ha^T (12)

步骤五：分类器层

在本发明提出的模型的最后，输出Y是注意机制层的输入到softmax分类器计算关系分类概率。具体计算如下：

p(r|Y)＝softmax(W_s*Y+b_s) (13)

其中w_s是分类器的权重矩阵，b_s是分类器的偏置参数，r是关系类别。r表示分类器计算输入关系的概率分布，选取最大值作为关系抽取结果。

实验过程及结果分析：

(1)数据集

本发明使用了MUC会议种ACE关系抽取任务数据集，MUC会议停开后， ACE将关系抽取任务作为一个子任务从2002至2007年共持续六年。关系抽取任务也被定义的更加规范和系统。其中，获得认可的一届关系抽取任务主要是 ACE-2004，其数据来源于语言数据联盟(LDC)，分成广播新闻和新闻专线两部分，总共包括451和文档和5702个关系实例。ACE2014提供了丰富的标注信息，从而为信息抽取中的实体识别、指代消解和关系抽取等子任务提供基准的训练和测试语料库。

(2)实验评估标准

在本发明中，我们使用Precision、Recall和F1值来评估我们的模型。具体公式为：

(3)实验结果

为了验证本发明提出的模型的性能，设计了以下关系抽取实验进行对比，损失率和准确率分别为图5、图6，实验环境如图7。

①CNN、RNN、CNN-BiGRU对比实验：联合模型与经典单神经网络模型提取效果对比。

②CNN-BiGRU和CNN-BiGRU-ATT对比实验：带ATT的神经网络模型与普通神经网络模型提取效果对比。

③CNN-BiGRU-ATT和Bert-CNN-BiGRU-ATT对比实验：相同神经网络模型在不同词向量表示下的提取效果对比。

上述对比实验设置中，5个模型在相同数据集下的Precision、Recall和F1值如图8示。

(4)结果分析

如图8所示，RNN网络的精度要优于CNN网络，而BiGRU网络是RNN的一个变种，说明具有处理序列学习任务能力的网络在关系抽取任务中具有优势。联合神经网络模型比单一神经网络CNN和RNN更有效。Precision、Recall和F1 值都取得了较好的成绩，说明结合了CNN对文本局部特征的学习能力和BiGRU 对序列特征的学习能力的联合神经网络模型在关系抽取任务中表现更好。常见的 CNN-BiGRU神经网络的Precision、Recall和F1值分别为75.32％、74.89％和 72.47％。使用注意力机制ATT的CNN-BiGRU神经网络模型的Precision、Recall 和F1值分别为79.33％、76.92％和74.81％。可以看出，通过加入ATT，模型可以通过选择性地为句子中的特征词分配不同的权重来更好地理解分类任务并提高关系抽取的精度。使用BERT作为词向量模型的CNN-BiGRU神经网络模型比使用word2vec作为词向量模型的CNN-BiGRU神经网络在Precision、Recall和 F1值等方面略有提升。可以看出BERT生成的中文动态词向量比word2vec的语义表示更丰富。进一步提高关系抽取任务的准确性。Recall和F1值比使用 word2vec作为词向量模型的CNN-BiGRU神经网络高。可以看出BERT生成的中文动态词向量比word2vec的语义表示更丰富。进一步提高关系抽取任务的准确性。Recall和F1值比使用word2vec作为词向量模型的CNN-BiGRU神经网络高。可以看出BERT生成的中文动态词向量比word2vec的语义表示更丰富。进一步提高关系抽取任务的准确性。

在本发明中，提出了一种基于BERT、CNN和BiGRU的字符关系提取方法，针对单一神经网络模型和以word2vec为嵌入层的神经网络模型在关系抽取任务中提取效果不能得到进一步改进。CNN擅长提取最重要的局部特征，但不适合处理序列输入。尽管RNN在任意长度的序列化任务中具有很大优势，但不足以提取局部重要特征。BiGRU作为RNN的一个变体，仍然保留了它的特性。

该模型利用了BERT生成动态词向量的能力，并将CNN提取局部特征的能力与BiGRU解决序列相关问题的能力相结合。同时，模型中加入了ATT，赋予句子中关键词更多的权重，进一步提升了神经网络模型在RE任务中的性能。在数据集上的实验表明，本发明提出的基于BERT和CNN-BiGRU-ATT的模型比单一神经网络模型CNN、RNN和CNN-BiGRU具有更高的准确率以word2vec 作为词向量嵌入层的模型。

Claims

1.一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法其特征在于，包括以下步骤：

步骤1：采用基于词向量动态表示的BERT模型，与word2vec相比，该模型在框架、预训练损失函数和训练方法上都有很大的改进，BERT预训练模型使用双向转换器编码器，使模型能够学习每个词前后的信息，不仅可以解决一个词的多义问题，还可以得到基于该词的文本的向量化表示；

步骤2：使用CNN来提取输入句子的局部特征，CNN主要包括卷积层、池化层和输入输出层；

步骤3：在CNN神经网络层之后加入BiGRU层，序列P通过拼接局部特征矩阵得到p_i在池化层之后作为BiGRU层的输入，其中P＝{p₁,p₂,p₃,…,p_n}，GRU是RNN的一种变体，2014年首次被提出，用于解决长期记忆和反向传播中的梯度问题，与LSTM相比，GRU将LSTM中的遗忘门和输入门替换为更新门，它具有更简单的网络结构和更少的参数，计算效果和LSTM差不多，一定程度上提高了模型训练的效率；

步骤4：引入注意力机制来区分对关系分类影响较大的常用词和特征词的权重，使神经网络能够更加关注句子中的重要词，注意力机制的权重是通过乘以输出向量来计算H＝(h₁,h₂,h₃,…,h_n)的BiGRU层和不同初始化概率的权重矩阵，然后相加，通过激活函数softmax获得注意力分布特征，最后，对分布特征进行加权得到注意力层的输出；

步骤5：模型的最后，输出Y是注意机制层的输入到softmax分类器计算关系分类概率。

2.如权利要求1所示方法，其特征在于，步骤3中采用的是BiGRU网络架构。

3.如权利要求1所示方法，其特征在于，步骤4中引入了注意力机制。

4.如权利要求1所示方法，其特征在于，步骤5采用softmax，并选取最大值作为关系抽取结果。