CN112163426B

CN112163426B - 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法

Info

Publication number: CN112163426B
Application number: CN202011059653.9A
Authority: CN
Inventors: 张勇; 高大林; 巩敦卫; 郭一楠; 孙晓燕
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-05-27
Anticipated expiration: 2040-09-30
Also published as: CN112163426A

Abstract

本发明公开了一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法。包括如下步骤：通过BiLSTM提取句子中的上下文信息，并引入实体位置信息和实体标签信息来扩充词向量特征；通过Stanford Parser工具进行句子依存结构树的提取生成初始句子结构矩阵，引入注意力机制对初始句子结构矩阵进行注意力计算，得到句子中结构矩阵的权重信息；将提取出的句子上下文信息和句子结构的权重信息作为输入，使用基于注意力机制与图长短时记忆神经网络结合的关系抽取模型对输入进行关系抽取，最终得到实体的三元组信息。本发明方法分别在TACRED数据结和Semeval2010 task‑8数据集上进行了测评，该模型的表现优于目前主流的深度学习抽取的模型。

Description

一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法

技术领域

本发明涉及自然语言处理中关系抽取技术领域，尤其涉及一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法。

背景技术

随着人工智能和大数据时代的到来，互联网上信息增长速度越来越快，如何高效快速地从非结构化文本中提取有效的信息是学者们研究的重点。文本信息抽取包含实体抽取，关系抽取，事件抽取，因果抽取等。关系抽取作为文本信息抽取的一个重要的子任务，关系抽取是指从非结构化的文本中抽取出实体对之间的三元组信息，即<实体1，实体2，关系>。关系抽取作为自然语言处理中一项常见切重要的子任务，目前已被成功用于生物医学知识发现、知识图谱领域和问答领域等诸多自然语言处理领域。

现有关系提取模型或方法可大体分为两类：序列模型和依赖关系模型。序列模型主要针对单词序列进行建模，而依赖关系模型则是以句法依存关系树为基础，构建依赖关系模型。相对于序列模型而言，依赖关系模型可以利用句法依存树提取出句子中隐藏的非局部语法关系,进而建立句内长距离的依赖关系，更好建模出句子的结构信息。

依赖关系模型主要是通过将卷积神经网络或长短时记忆神经网络演变成图结构或树结构神经网络来构建关系抽取模型，其中应用最多的是图卷积神经网络，图卷积神经网络可以很好地学习图结构数据的信息，却难以有效处理时序数据。这就意味着，面向具备时序特性的文本数据,只依赖图卷积神经网络并不能很好地抽取文本中时序信息。另外传统依赖关系模型是完全依赖句法依存关系树，如果句法依存关系树解析错误或在解析过程中删除了有用信息，会导致错误累加和信息丢失的情况。因此，目前急需建立一种更为有效的能够同时建模句子结构信息和句子时序上下文信息的依赖关系模型。

发明内容

本发明的目的在于提出一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法，提取句中结构信息和时序上下文信息，从而更全面地建模句子语义信息，实现关系抽取。

本发明所采用的技术方案是：一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法，包括以下步骤：

步骤1，获取关系抽取数据集，对数据集中文本数据进行预处理，生成用于句子时序上下文信息特征提取的词向量矩阵和用于句子结构信息特征提取的邻接矩阵；

步骤2，构建注意力图长短时记忆神经网络的关系抽取模型；采用生成的词向量矩阵和邻接矩阵作为模型的输入，关系类别标签作为输出，训练该关系抽取模型；

步骤3，获取关系抽取测试集，利用训练好的关系抽取模型对测试集进行关系抽取。

进一步的，所述步骤1中，生成词向量矩阵和邻接矩阵的方法如下：

通过引入实体标签信息和实体位置信息来扩充词向量；所述的实体标签信息是通过自然语言处理工具为句子文本进行命名实体识别，打上相应标签；

所述的实体位置信息是根据不同单词到两个实体的距离来生成；最后生成用于提取句子时序上下文特征的词向量矩阵，即词嵌入矩阵；

利用自然语言处理工具对句子进行依存结构分析，生成原始句子依存结构树，将句子依存结构树进行补全，转化成句子结构图，进而将句子结构图转化成邻接矩阵。

进一步的，所述步骤2中，注意力图LSTM关系抽取模型结构具体为：

模型网络第一层为双向LSTM层：该层用于提取句子时序上下文特征，以步骤1中生成的词向量矩阵作为输入，输出句子时序上下文特征矩阵；

模型网络第二层为AGLSTM层：该层由图长短时记忆神经网络和注意力机制共同组成，将双向LSTM网络提取的序列特征和步骤1中生成的邻接矩阵作为该层的输入，模型中的注意力机制采用多头注意力机制，因此该层的输出为K个不同的特征提取结果，K为多头注意力的head数；

模型网络第三层为线性连接层：利用线性连接层将AGLSTM层输出的K个不同的结果整合成最终的输出特征；

模型网络最后一层为输出层：将AGLSTM层输出的特征通过最大池化层，然后通过softmax函数计算每一个类别的条件概率，输出模型预测特征的标签类别。

进一步的，双向LSTM提取特征过程如下：

LSTM单元通过输入门i_t、遗忘门f_t和输出门o_t进行信息流的控制，提取词特征信息；

当步骤1输出的词向量矩阵输入时，双向LSTM网络表示为：

i_t＝σ(W_ie_t+U_ih_t-1+b_i)

f_t＝σ(W_fe_t+U_fh_t-1+b_f)

u_t＝tanh(W_ue_t+U_uh_t-1+b_u)

o_t＝σ(W_oe_t+U_oh_t-1+b_o)

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

其中t为当前时刻，e_t为当前时刻神经元的状态，h_t,h_t-1分别为当前时刻和前一时刻隐藏层状态向量，c_t,c_t-1分别为当前时刻和前一时刻细胞单元状态向量，σ和tanh为激活函数，i_t、o_t和f_t分别是输入门、输出门和遗忘门，u_t为神经元的更新状态单元，通过更新状态单元u_t与上一时刻的神经元状态单元共同计算得到当前时刻神经元状态信息c_t，W_x、U_x和b_x为模型参数，x∈(i,o,f,u)；

h_t由前向传播和后向传播两个方向的向量组成，前向传播中t时刻隐藏层向量记为h_t1，后向传播中t时刻隐藏层状态向量记为h_t2；最终双向LSTM在t时刻的输出为h_t＝h_t1+h_t2。

进一步的，所述的图长短时记忆神经网络层中每一个单词节点w_i的表达包括单词节点本身特征的向量表示h_i、邻接矩阵A内所有与该单词相连的边的表示

和

每两个单词节点之间的边权重即为注意力层所得多头注意力矩阵中相应元素的权重值；单词节点w_i的隐藏状态表示为：

其中α_ij为从节点i到节点j的初始句子结构权重即邻接矩阵中每一项对应的权值，

表示节点j的所有边的输入，

表示节点j的所有边的输出；

图长短时记忆神经网络定义如下：

其中

和

分别是当前时刻t在神经元j下的输入门、输出门和遗忘门的状态，

为当前神经元的状态，σ,tanh为激活函数，

为当前时刻t在神经元j下更新状态单元，通过更新状态单元

与上一时刻的神经元状态单元共同计算得到当前时刻神经元状态信息

W_x和b_x为模型参数，U_x1和U_x2分别表示输入的权重和输出的权重，x∈(i,o,f,u)；

将双向LSTM层的输出h_lstm作为注意力机制的输入，设h_lstm长度为n，设单层LSTM隐藏层神经元个数为d，则h_lstm的维度为2d*n，利用self-attention计算机制得到多个注意力权重矩阵；self-attention计算公式如下：

u_k＝tanh(W_wh_lstm+b_w)

A_k＝SoftMax(u_k ^T*u_k)

其中W_w,b_w为感知机的权重参数，是维度为a*2d的二维矩阵，a是感知机的参数，则u_k为将h_lstm经过感知机输出的隐藏特征，维度为a*n，对u_k进行自注意力的计算，u_k ^T*u_k为一个n*n的二维矩阵，将其经过归一化处理得到第k个注意力权重矩阵4_k；

K头注意力机制得到K个注意力权重矩阵4_k，公式如下：

其中α_ij为单词i对应单词j的注意力权重，i,j∈(1,n)；

将得到的注意力权重矩阵4_k，与特征向量h_lstm作为AGLSTM的输入，得到该层AGLSTM的输出向量h_out，输出为：

其中

是第K个注意力矩阵所对应的输出。

进一步的，线性连接层定义的数学形式如下：

h_comb＝W_combh_out+b_comb

其中，h_out是经过AGLSTM层输出的结果，

表示第K个注意力矩阵所对应的输出，将一共K个输出经过线性变换整合成一个输出即为h_comb；W_comb是线性连接层的权重矩阵，b_comb是线性连接层的偏置矩阵，h_comb为最终输出的特征。

进一步的，每一个预测特征对应标签类别的概率计算公式如下：

其中p(i)为对应i标签的概率，

为经过池化后标签i对应的特征分数，N为标签的个数。

进一步的，所述步骤2中，关系抽取模型选用Sigmoid函数作为激活函数，采用Adam优化算法进行模型训练，采用精确率P，召回率R和F1值作为评价指标，公式如下：

其中，TP表示将正样本预测为正的样本数，FP表示将负样本预测为正的样本数，FN表示将正样本预测为负的样本数，正样本、负样本对应某类标签，该标签对应的样本即为正样本，其他标签对应的样本相对该类标签为负样本。

有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：

传统关系抽取方法中对句子结构信息的提取完全依赖于第三方工具提取出的句子结构树，如stanford parse，这种情况存在句子结构信息提取错误，或不足导致的错误累加，信息丢失的情况。本发明提出一种结合注意力机制和图长短时记忆神经网络的新型关系抽取网络结构，实现模型自主学习句子中的结构信息的能力，不仅降低了句子结构树解析错误对模型性能的影响而且能更好地提取句子中的结构信息。不同于常用的图卷积神经网络，本发明所提模型能够更好的将句子的时序信息和句子中的结构信息结合起来，更加适用于文本中的信息提取工作。

附图说明

图1是本发明方法的流程示意图；

图2是本发明实施例的关系抽取模型；

图3是本发明实施例的句法分析示意图；

图4是本发明实施例在不同K值下结果直方图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明所述的一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法，如图1所示，关系抽取具体步骤如下：

步骤1，获取关系抽取数据集，对数据集中文本数据进行预处理，生成用于句子时序上下文信息特征提取的词向量矩阵和用于句子结构信息特征提取的邻接矩阵。

本实施例采用TACRED数据集和Semeval-2010-task8数据集，其中TACRED数据集包含训练集68124条，验证集22631条，测试集15509条，共41种关系类型和一种特殊关系类型(no relation)。Semeval-2010-task8数据集包含8000条训练数据，2717条测试数据，共9种关系类型和一种特殊关系类型(Other)。

生成词向量矩阵和邻接矩阵的方法如下：

通过引入实体标签信息和实体位置信息来扩充词向量；所述的实体标签信息是通过自然语言处理工具stanford corenlp为句子文本进行命名实体识别(NER)，打上相应标签；

所述的实体位置信息是根据不同单词到两个实体的距离来生成；最后生成用于提取句子时序上下文特征的词向量矩阵，记为Embs；

利用自然语言处理工具stanford parser对句子进行依存结构分析，生成原始句子依存结构树，将句子依存结构树进行补全，转化成句子结构图，进而将句子结构图转化成邻接矩阵。句法分析示意图如图3所示。

步骤2，构建注意力图长短时记忆神经网络的关系抽取模型；采用生成的词向量矩阵和邻接矩阵作为模型的输入，关系类别标签作为输出，训练该关系抽取模型。

注意力图LSTM关系抽取模型结构如图2所示，具体包括：

(1)模型网络第一层为双向LSTM层：该层用于提取句子时序上下文特征，以步骤1中生成的词向量矩阵作为输入，输出句子时序上下文特征矩阵。

其中，双向LSTM提取特征过程如下：

当步骤1输出的词向量矩阵输入时，双向LSTM网络表示为：

i_t＝σ(W_ie_t+U_ih_t-1+b_i)

f_t＝σ(W_fe_t+U_fh_t-1+b_f)

u_t＝tanh(W_ue_t+U_uh_t-1+b_u)

o_t＝σ(W_oe_t+U_oh_t-1+b_o)

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

(2)模型网络第二层为注意力图长短时记忆神经网络层(AGLSTM层)：该层由图长短时记忆神经网络和注意力机制共同组成，将双向LSTM网络提取的序列特征和步骤1中生成的邻接矩阵作为该层的输入，模型中的注意力机制采用多头注意力机制，因此该层的输出为K个不同的特征提取结果，K为多头注意力的head数。

所述的图长短时记忆神经网络层中每一个单词节点w_i的表达包括单词节点本身特征的向量表示h_i、邻接矩阵A内所有与该单词相连的边的表示

和

表示节点j的所有边的输入，

表示节点j的所有边的输出；

图长短时记忆神经网络定义如下：

其中

和

为当前神经元的状态，σ,tanh为激活函数，

为当前时刻t在神经元j下更新状态单元，通过更新状态单元

采用多头注意力机制使得模型从不同表征子空间中获得多层面的信息。将双向LSTM层的输出h_lstm作为注意力机制的输入，设h_lstm长度为n，设单层LSTM隐藏层神经元个数为d，则h_lstm的维度为2d*n，利用self-attention计算机制得到多个注意力权重矩阵，因为想要求得每个单词在一句话中的权重所以需要采用全局注意力机制，也就是采用自注意力的方法，self-attention计算公式如下：

u_k＝tanh(W_wh_lstm+b_w)

A_k＝SoftMax(u_k ^T*u_k)

其中W_w,b_w为感知机的权重参数，是维度为a*2d的二维矩阵，a是感知机的参数，则u_k为将h_lstm经过感知机输出的隐藏特征，维度为a*n，对u_k进行自注意力的计算，u_k ^T*u_k为一个n*n的二维矩阵，将其经过归一化处理得到第k个注意力权重矩阵A_k；

K头注意力机制得到K个注意力权重矩阵A_k，公式如下：

其中α_ij为单词i对应单词j的注意力权重，i,j∈(1,n)；

将得到的注意力权重矩阵A_k，与特征向量h_lstm作为AGLSTM的输入，得到该层AGLSTM的输出向量h_out，输出为：

其中

是第K个注意力矩阵所对应的输出。

(3)模型网络第三层为线性连接层：根据多头注意力机制，可以得到K个不同的注意力权重矩阵A_(k)，AGLSTM层输出便得到K个不同的结果；利用线性连接层将AGLSTM层输出的K个不同的结果整合成最终的输出特征。线性连接层定义的数学形式如下：

h_comb＝W_combh_out+b_comb

其中，h_out是经过AGLSTM层输出的结果，

(4)模型网络最后一层为输出层：由于关系抽取本质是一个多分类问题，因此将AGLSTM层输出的特征h_comb通过最大池化层，保留句子中最重要的特征，然后通过softmax函数计算每一个类别的条件概率，输出模型预测特征的标签类别。

每一个预测特征对应标签类别的概率计算公式如下：

其中p(i)为对应i标签的概率，

为经过池化后标签i对应的特征分数，N为标签的个数。

所述步骤2中，关系抽取模型选用Sigmoid函数作为激活函数，采用Adam优化算法进行模型训练，采用精确率P，召回率R和F1值作为评价指标。

设置模型参数与性能指标：本实施例采用Adam算法，网络隐藏层节点数设置为300。为防止过拟合，在输入层和AGLSTM层同时引入损失率(dropout)，并且在目标函数中引入L2正则化项，正则化因子取值为0.001。对于TACRED数据集，模型参数设置学习率为0.7，在输入层和AGLSTM层的损失率都设为0.5。对于SemEval-2010 Task 8数据集，模型设置学习率为0.5，在输入层和AGLSTM层的损失率分别设为0.5和0.3。

所述评价指标计算公式如下：

其中，TP(true positives)表示将正样本预测为正的样本数，FP(falsepositives)表示将负样本预测为正的样本数，FN(false nagatives)表示将正样本预测为负的样本数，在本发明方法中正样本、负样本只对应某类标签而言，该标签对应的样本即为正样本，其他标签对应的样本相对该类标签来说为负样本。

在注意力层，多头注意力机制的参数K会对模型性能产生较大的影响。图4展示了在SemEval-2010 Task 8数据集下不同K值下所提模型的准确率。可以看出，当K为4时，模型得到了最佳的F1指标值。

步骤3，获取关系抽取测试集，利用训练好的关系抽取模型对测试集进行关系抽取，最终得到实体关系三元组。

实验验证对比如下：

本发明方法和各种主流方法在TACRED数据集和SemEval-2010 Task 8数据集上的实验对比结果如下表所示，表1展示在TACRED数据集上和主流模型的实验对比结果，表2展示了在SemEval-2010 Task 8数据集上的实验对比结果。可以看出：AGLSTM模型在精确率P和综合指标F1值上都要显著高于其他模型，召回率R也只是低于某些模型。说明AGLSTM模型在关系抽取任务上达到了当前最好的水平。

表1

表2

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法，其特征在于：该方法包括以下步骤：

生成词向量矩阵和邻接矩阵的方法如下：

利用自然语言处理工具对句子进行依存结构分析，生成原始句子依存结构树，将句子依存结构树进行补全，转化成句子结构图，进而将句子结构图转化成邻接矩阵；

注意力图LSTM关系抽取模型结构具体为：

模型网络第二层为AGLSTM层：该层由图长短时记忆神经网络和注意力机制共同组成，将双向LSTM网络提取的序列特征和步骤1中生成的邻接矩阵作为该层的输入，模型中的注意力机制采用多头注意力机制，该层的输出为K个不同的特征提取结果，K为多头注意力的head数；

模型网络最后一层为输出层：将AGLSTM层输出的特征通过最大池化层，然后通过softmax函数计算每一个类别的条件概率，输出模型预测特征的标签类别；

所述的图长短时记忆神经网络层中每一个单词节点w_i的表达包括单词节点本身特征的向量表示h_i、邻接矩阵内所有与该单词相连的边的表示

和

表示节点j的所有边的输入，

表示节点j的所有边的输出；

图长短时记忆神经网络定义如下：

其中

和

为当前神经元的状态，σ，tanh为激活函数，

为当前时刻t在神经元j下更新状态单元，通过更新状态单元

W_x和b_x为模型参数，U_x1和U_x2分别表示输入的权重和输出的权重，x∈(i，o，f，u)；

将双向LSTM层的输出h_lstm作为注意力机制的输入，设h_lstm长度为n，设单层LSTM隐藏层神经元个数为d，则h_lstmm的维度为2d*n，利用self-attention计算机制得到多个注意力权重矩阵；self-attention计算公式如下：

u_k＝tanh(W_wh_lstmm+b_w)

A_k＝SoftMax(u_k ^T*u_k)

其中W_w，b_w为感知机的权重参数，是维度为a*2d的二维矩阵，a是感知机的参数，则u_k为将h_lstmm经过感知机输出的隐藏特征，维度为a*n，对u_k进行自注意力的计算，u_k ^T*u_k为一个n*n的二维矩阵，将其经过归一化处理得到第k个注意力权重矩阵A_k；

K头注意力机制得到K个注意力权重矩阵A_k，公式如下：

其中α_ij为单词i对应单词j的注意力权重，i，j∈(1，n)；

将得到的注意力权重矩阵A_k，与特征向量b_lstm作为AGLSTM的输入，得到该层AGLSTM的输出向量h_out，输出为：

其中

是第K个注意力矩阵所对应的输出；

2.根据权利要求1所述的基于注意力机制与图长短时记忆神经网络结合的关系抽取方法，其特征在于：双向LSTM提取特征过程如下：

当步骤1输出的词向量矩阵输入时，双向LSTM网络表示为：

i_t＝σ(W_ie_t+U_ih_t-1+b_i)

f_t＝σ(W_fe_t+U_fh_t-1+b_f)

u_t＝tanh(W_ue_t+U_uh_t-1+b_u)

o_t＝σ(W_oe_t+U_oh_t-1+b_o)

c_t＝i_t⊙u_t+f_tQC_t-1

h_t＝o_t⊙tanh(c_t)

其中t为当前时刻，e_t为当前时刻神经元的状态，h_t，h_t-1分别为当前时刻和前一时刻隐藏层状态向量，c_t，c_t-1分别为当前时刻和前一时刻细胞单元状态向量，σ和tanh为激活函数，i_t、o_t和f_t分别是输入门、输出门和遗忘门，u_t为神经元的更新状态单元，通过更新状态单元u_t与上一时刻的神经元状态单元共同计算得到当前时刻神经元状态信息c_t，W_x、U_x和b_x为模型参数，x∈(i，o，f，u)；

3.根据权利要求1所述的基于注意力机制与图长短时记忆神经网络结合的关系抽取方法，其特征在于：线性连接层定义的数学形式如下：

h_comb＝W_combh_out+b_comb

其中，h_out是经过AGLSTM层输出的结果，

4.根据权利要求1所述的基于注意力机制与图长短时记忆神经网络结合的关系抽取方法，其特征在于：每一个预测特征对应标签类别的概率计算公式如下：

其中p(i)为对应i标签的概率，

为经过池化后标签i对应的特征分数，N为标签的个数。

5.根据权利要求1-4任一所述的基于注意力机制与图长短时记忆神经网络结合的关系抽取方法，其特征在于：所述步骤2中，关系抽取模型选用Sigmoid函数作为激活函数，采用Adam优化算法进行模型训练，采用精确率P，召回率R和F1值作为评价指标，公式如下：