CN112800776A

CN112800776A - 双向gru关系抽取数据处理方法、系统、终端、介质

Info

Publication number: CN112800776A
Application number: CN202110261757.6A
Authority: CN
Inventors: 陈建峡; 陈煜�; 张�杰; 刘畅; 刘琦
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-05-14
Anticipated expiration: 2041-03-10
Also published as: CN112800776B

Abstract

本发明属于关系抽取技术领域，公开了一种双向GRU关系抽取数据处理方法、系统、终端、介质，对基准数据集SemEval‑2010Task 8进行预处理；通过EMLo预训练模型对语料进行词向量化；通过多头注意力机制对词向量进行初步去噪处理；使用Bi‑GRU网络对词向量进行编码，得到包含句子中上下文信息的隐藏层向量；将隐藏层向量作为输入，传递至关键词注意力层中，通过将隐藏层输出结合实体对相对位置特征以及实体隐藏相似度特征，计算出注意力权重；将经过注意力机制处理过的隐藏层向量输入至分类层，得到最终的关系抽取结果。实验结果表明，本发明提出的模型在没有任何其他NLP工具的情况下达到最先进的性能。

Description

双向GRU关系抽取数据处理方法、系统、终端、介质

技术领域

本发明属于关系抽取技术领域，尤其涉及一种双向GRU关系抽取数据处理方法、系统、终端、介质。

背景技术

目前，关系抽取在自然语言处理领域占有重要的地位，它是问答系统、信息抽取、知识图谱等自然语言处理的核心任务和不可缺少的环节，同时关系抽取也是近年来的一个研究热点。关系抽取的任务是预测文本中两个标记实体之间的关系类型和方向。

基于深度学习的关系抽取方法主要是基于CNN，RNN网络来获取句子中的上下文信息，Zeng等人提出了一种使用深度卷积神经网络的模型来提取句子中的特征，Zhang等人提出了使用RNN来学习实体与实体间的长距离依赖性。CNN的目的是捕捉目标的局部和连续的上下文内容，而RNN则通过存储单元积累输入句子中的上下文信息。最近的研究中通常使用注意力机制来提升模型的性能，例如用于关系分类的基于注意力的双向长期短期记忆网络、通过基于注意力机制的分层递归神经网络进行语义关系分类等。

目前，基于注意力的神经网络模型致力于分辨句子的关键语义部分，并在许多NLP任务中取得了最新成果。SDP-LSTM使用长期短期记忆(LSTM)沿最短依赖路径(SDP)捕获特征，该模型是用于通过排名进行分类的卷积神经网络，并使用具有成对排名的损失函数进行训练。Xu等人提出的深度循环神经网络(DRNNs)模型将不相关的词从最短依赖路径中剔除，以此达到提升模型性能的目的，并且在模型中还使用了其它例如单词词性标签(pos)、上位词、同义词替换等额外特征。但与此同时，在关系分类的任务中，这种具有注意力机制的模型并没有充分利用数据集中的有关系表达的信息，而这些信息对实体分类任务具有提示作用，另外，最短依赖路径(SDP)、词性标签(pos)、上位词、同义词等特征都是依靠相关的NLP工具生成的语言特征，它们大多是有效的，有助于模型找到关键特征，但同时会导致模型受到工具产生的错误影响，并大大增加模型的计算工作量。

通过上述分析，现有技术存在的问题及缺陷为：在关系分类的任务中，现有具有注意力机制的模型并没有充分利用数据集中的有关系表达的信息；同时，现有模型使用其他处理工具会导致模型受到工具产生的错误影响，并大大增加模型的计算工作量，提高了模型的计算时间；并且传统的词向量模型并不能准确的表现出句中出现的大量的一词多义；在提取文本信息的网络层中，现有的模型使用的LSTM网络参数量过多，在一定程度上加大了模型过拟合的风险，并且增加了模型的计算量，致使计算时间变长。

解决以上问题及缺陷的难度为：需要对模型的注意力机制进行优化及调整从而在不使用任何工具的情况下达到充分利用文本中有关系表达单词以及实体词的效果，以提高模型的性能，并且避免使用工具从而对模型带来错误累积；需要使用具有一词多义能力的词向量模型；在文本提取的网络层中，需要使用参数量更少的、更快速的、同性能的网络，以提高模型的运行效率。

解决以上问题及缺陷的意义为：关系抽取任务是知识图谱构建的不可或缺的重要步骤，关系抽取模型的研究以及优化具有十分重要的应用前景以及理论意义，可以为自然语言处理领域的多种应用提供更先进的支持。

发明内容

针对现有技术存在的问题，本发明提供了一种双向GRU关系抽取数据处理方法、系统、终端、介质，具体涉及一种基于关键词注意力的双向GRU关系抽取数据处理方法。

本发明是这样实现的，一种基于关键词注意力的双向GRU关系抽取数据处理方法，包括以下步骤：

步骤一，对基准数据集进行预处理；

步骤二，对步骤一预处理后的语料进行词向量化；

步骤三，通过多头注意力机制对步骤二的词向量进行初步去噪处理；

步骤四，使用Bi-GRU网络层对步骤三处理过的词向量进行编码，得到包含句子中的上下文信息的隐藏层向量；

步骤五，将步骤四的隐藏层向量作为输入，传递至关键词注意力层中，通过将隐藏层输出结合实体对相对位置特征以及实体隐藏相似度特征，计算出关键词注意力权重；

步骤六，将经过步骤五关键词注意力机制处理过的隐藏层向量输入至分类层，得到最终的关系抽取结果。

进一步，所述步骤一预处理包括：

将原始文件中的原始句子以及关系标签进行处理生成完整的句子字典和标签字典，并将编码修改为UTF-8编码；去除句子中的标点符号以及重复句子和符号；使用NLTK对数据集中的文本进行分词处理；

所述步骤二进行词向量化包括：将分好词的语料使用预训练的EMLo模型进行词向量的转化；

EMLo模型的输入层旨在将输入句子的语义信息和位置信息转换为向量，其中输入句子用{w₁,w₂,...,w_n}表示，

表示每个词与实体对的相对位置的向量；

采用维度嵌入d_w从语言模型ELMo词嵌入预训练模型，ELMo模型根据上下文推断出每个词对应的词向量；对于多义词在前后词的上下文中理解；

所述预训练模型的训练方法采用随机梯度下降法训练，关键词注意力机制使用交叉损失熵进行计算，所述损失函数的定义如以下公式所示：

其中，|D|是训练数据集的大小，(S⁽ⁱ⁾,y⁽ⁱ⁾)是数据集中的第i个样本，采用AdaDelta优化器来最小化loss函数计算参数；

在损失函数中加入L2正则化以防止过拟合，λ₁,λ₂是正则化的超参数；第二个正则化器试图强制模型处理真正重要的单词，并返回稀疏的权重分布；最终目标函数

如以下等式所示：

进一步，所述步骤三多头注意机制通过输入层输出的词向量序列构建序列的对称相似性矩阵；

所述多头注意力机制包括：给定密钥K、查询Q和值V作为输入，相当于词嵌入向量{x₁,x₂,...,x_n}，输出结果是一个具有输入句子上下文信息的特征序列；其中，关注模块将执行关注h次，计算过程如以下公式所示：

MultiHead(Q,K,V)＝W^MConcat[head₁；...；head_r]；

其中

是线性变换的可学习参数，W^M是按比例计算和串联时按比例放缩点积注意力的输出，W_i ^Q,W_i ^K,W_i ^V分别表示第i个头的查询、键和值。

进一步，所述步骤四Bi-GRU网络层用于获取多头自注意层输出序列的上下文内信息；在信息提取的任务中，RNN是使用最多的模型；LSTM相对于RNN引入了长期记忆和门结构，缓解RNN长期去依赖性的问题，但同时也增加模型的计算量；而GRU则进一步优化LSTM，只保留new gate和reset gate两个门操作；

将GRU单元对m_i的处理记为GRU(m_i)，获得用于计算上下文化单词表示的等式如以下公式所示：

Bi-GRU的输入M是多头自注意层的输出，逐级输入到网络中；将每一时间步中的前向GRU网络隐藏状态

与后向GRU网络隐藏状态

进行并联，其中d_h为GRU网络单元隐藏状态的维度，用{h₁,h₂,...,h_n}表示每一个词的隐藏状态向量，并用箭头表示方向。

进一步，所述步骤五关键词注意力机制用于对隐藏层向量进行软选择，为一组标量的线性组合，权值用来表示模型对句子中某个词的关注程度，取值在0到1之间；

为每个词引入一个状态变量z，当z为0时，表示对应的词与关系分类无关，如果z为1，则表示对应的词是句子中关系表达所需的词；每个句子都有对应的二元状态变量序列z；隐藏状态的期望值N为对应词被选中的概率，关键词注意力权重计算方法如以下公式所示：

引入CRF来计算隐藏序列的权重序列H＝{h₁,h₂,...,h_n}，推导出p(z_i＝1|H)，H代表输入序列，h_i代表第i个词的GRU的隐藏输出；CRF为一个概率框架，用于计算序列与序列之间的条件概率；

CRF定义在给定H的情况下一系列条件概率p(z_i＝1|H)，如以下公式所示：

其中，

表示状态序列z的集合，Z(H)是规范化常数，z_c表示单个集合c给出的z的子集，ψ(z_c,H)是该集合的潜在函数，用以下等式表示：

使用两种特征函数进行计算，顶点特征函数ψ₁(z_i,H)和边缘特征函数ψ₂(z_i,z_i+1)；ψ₁表示GRU的输出h到状态变量z的映射，而ψ₂是用于模拟两个状态变量在相邻时间步长的转换函数，分别如以下公式所示：

ψ₁(z_i,H)＝exp(W^HF₁+W^EF₂+b)；

其中，W^H和W^E为线性变换的可学习参数，b为偏置项；将句子中的上下文信息映射成每个状态变量的特征分数，所述特征分数利用句子中的相对实体位置特征

以及关键词特征，实体对特征

和实体对隐藏的相似性特征t₁和t₂；

(1)实体位置特征

相对位置特征

用于通过与隐藏层的输出量h_i的连接来共同重新表示上下文信息以及实体位置关系；其中

e_j∈{1,2}；位置嵌入与词嵌入类似，通过嵌入矩阵

将相对位置标量转化为向量；其中L为最大句长，d_p为位置向量的维度；

(2)实体隐藏相似特征

根据实体与其隐藏向量的相似性对实体进行分类；实体隐藏相似特征计算过程如以下公式所示：

其中，

是在势向量空间中构造的一个势向量，用来表示相似实体的类；K是实体按其隐藏相似性分类的类数；第j个实体的隐藏相似度特征t_j是根据第j个实体与隐藏层的输出h_ej的相似度加权计算出来的；实体特征是通过对实体位置和实体对的潜在类型表示对应的隐藏状态进行级联构建。

进一步，所述步骤六分类层，包括：

计算状态变量的输出分布的概率p，在注意力层之后添加softmax层，计算过程如以下公式所示：

p(y|N)＝softmax(W_yN+b_y)；

其中，

是偏差项，|R|是关系类别的数量，W_y将隐藏状态N的期望值映射到关系标签的特征分数。

本发明的另一目的在于提供一种基于关键词注意力的双向GRU关系抽取数据处理系统，包括：

数据集预处理模块，用于对基准数据集SemEval-2010 Task 8进行预处理；

语料词向量化模块，用于通过EMLo预训练模型对预处理后的语料进行词向量化；

去噪处理模块，用于通过多头注意力机制对词向量进行初步去噪处理；

词向量编码模块，用于使用Bi-GRU网络对初步去噪处理过的词向量进行编码，得到包含句子中的上下文信息的隐藏层向量；

注意力权重计算模块，用于将隐藏层向量作为输入，传递至关键词注意力层中，通过将隐藏层输出结合实体对相对位置特征以及实体隐藏相似度特征，计算出注意力权重；

关系抽取结果获取模块，用于将经过注意力机制处理过的隐藏层向量输入至分类层，得到最终的关系抽取结果。

进一步，所述基于关键词注意力的双向GRU关系抽取数据处理系统还包括：

输入层、多头注意力层、Bi-GRU网络层、关键词注意力机制和分类层；

所述输入层，用于将原始文件中的原始句子以及关系标签进行处理生成完整的句子字典和标签字典，并将编码修改为UTF-8编码；去除句子中的标点符号以及重复句子和符号；使用NLTK对数据集中的文本进行分词处理；将分好词的语料使用预训练的EMLo模型进行词向量的转化；

所述多头注意力层用于在输入层使用非固定的词向量，并在输入层后增加多头关注机制，多头注意机制属于一种特殊的自注意机制，通过输入层输出的词向量序列构建序列的对称相似性矩阵；

所述Bi-GRU网络层用于获取多头自注意层输出序列的上下文内信息；

所述关键词注意力机制用于对隐藏层向量进行软选择，为一组标量的线性组合，权值用来表示模型对句子中某个词的关注程度，取值在0到1之间；

所述分类层，用于计算状态变量的输出分布的概率p。

本发明的另一目的在于提供一种信息数据处理终端，其特征在于，所述信息数据处理终端包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的基于关键词注意力的双向GRU关系抽取数据处理方法。

本发明的另一目的在于提供一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行所述的基于关键词注意力的双向GRU关系抽取数据处理方法

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的基于关键词注意力的双向GRU关系抽取数据处理方法，能够得到基于关键词注意力机制的Bi-GRU(bidirectional gate recurrent unit)关系抽取模型，这是一种基于关系表达相关关键词的新型注意力机制模型。具体来说，本发明提出的注意力机制利用线性链条件随机场CRF(conditional random field)，结合实体对特征和实体对与其隐藏向量之间的相似性特征来计算每个词的边际分布，并被选为注意力权重。使用计算出的注意力权重对隐藏层的输出进行降噪后，再进行分类处理。本发明还具有以下优点：

(1)在模型的计算过程中，没有使用NLP工具来提取额外的特征从而避免了由于工具结果错误而造成的错误累计以及错误传播，并节省了计算开销。

(2)提出了一种基于关键词注意力机制的Bi-GRU模型来处理关系抽取的任务，重点是在模型中利用CRF计算边际分布来表示权重的关键词关注度，同时还加入了实体对相似度特征。

(3)在SemEval-2010任务8数据集上进行的实验，结果表明本发明提出的模型在没有任何其他NLP工具的情况下达到了最先进的性能。

本发明针对SemEval-2010任务数据集上的关系分类任务，提出了一种基于关键词注意力机制的端到端Bi-GRU网络模型。该模型利用关键词注意力机制充分提取数据集中的可用特征，在关键词注意力机制中，该模型可利用实体对的相对位置向量和实体对之间的相似度及其隐藏向量来计算每个词的边际分布，选取其作为关注权重。在不使用其他自然语言处理工具的情况下，该模型的F1值达到了84.6，优于其它使用大量额外工具特征的模型。

对比的技术效果或者实验效果。包括：

对于本发明所提出的模型，为了了解其中各个成分对其性能的贡献，本发明在SemEval-2010任务数据集上进行消融实验研究。从消融实验的结果来看，关键词注意力机制结合实体隐藏相似度特征，提供了大约1.4的F1得分；去掉了相对位置特征时，性能也略微下降，F1得分下降了0.2；多头注意力机制则提供了大约0.5的F1得分；预训练的EMLo词向量模型提供大约1.2的F1得分；其消融实验结果如表12所示。

表12 SemEval-2010任务数据集上本发明的模型每个特征的消融实验

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于关键词注意力的双向GRU关系抽取数据处理方法流程图。

图2是本发明实施例提供的基于关键词注意力的双向GRU关系抽取数据处理系统结构框图；

图中：1、数据集预处理模块；2、语料词向量化模块；3、去噪处理模块；4、词向量编码模块；5、注意力权重计算模块；6、关系抽取结果获取模块。

图3是本发明实施例提供的基于关键词注意力的双向GRU关系抽取模型的完整系统架构示意图。

图4是本发明实施例提供的自注意力机制的多头注意力机制原理图。

图5是本发明实施例提供的Bi-GRU模型的最小单元图以及门控计算方式图。

图6是本发明实施例提供的SemEval-2010 Task 8官方数据集样本图。

图7是本发明实施例提供的EMLo词向量所生成的单词“I”512维词向量样本图。

图8是本发明实施例提供的多头注意力的可视化样例示意图。

图9是本发明的注意力机制的关键代码示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于关键词注意力的双向GRU关系抽取数据处理方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于关键词注意力的双向GRU关系抽取数据处理方法包括以下步骤：

S101，对基准数据集SemEval-2010 Task 8进行预处理；

S102，通过EMLo预训练模型对S101预处理后的语料进行词向量化；

S103，多头注意力机制对S102的词向量进行初步去噪处理；

S104，使用Bi-GRU网络对S103处理过的词向量进行编码，得到包含句子中的上下文信息的隐藏层向量；

S105，将S104的隐藏层向量作为输入，传递至关键词注意力层中，通过将隐藏层输出结合实体对相对位置特征以及实体隐藏相似度特征，计算出注意力权重；

S106，将经过S105注意力机制处理过的隐藏层向量输入至分类层，得到最终的关系抽取结果。

如图2所示，本发明实施例提供的基于关键词注意力的双向GRU关系抽取数据处理系统包括：

数据集预处理模块1，用于对基准数据集SemEval-2010 Task 8进行预处理；

语料词向量化模块2，用于通过EMLo预训练模型对预处理后的语料进行词向量化；

去噪处理模块3，用于通过多头注意力机制对词向量进行初步去噪处理；

词向量编码模块4，用于使用Bi-GRU网络对初步去噪处理过的词向量进行编码，得到包含句子中的上下文信息的隐藏层向量；

注意力权重计算模块5，用于将隐藏层向量作为输入，传递至关键词注意力层中，通过将隐藏层输出结合实体对相对位置特征以及实体隐藏相似度特征，计算出注意力权重；

关系抽取结果获取模块6，用于将经过注意力机制处理过的隐藏层向量输入至分类层，得到最终的关系抽取结果。

所述分类层，用于计算状态变量的输出分布的概率p。

下面结合实施例对本发明作进一步描述。

实施例1

本发明的目的在于提供一种高效的、准确的基于关键词注意力的深度学习关系抽取方法，使用关系抽取领域基准数据集SemEval-2010 Task 8数据集进行测试。首先，本发明方法对数据集进行处理，得到句子字典和实体关系字典，并计算出每个词与两个实体词的相对位置标量，再通过位置嵌入矩阵转化为位置特征矢量。接着，通过ELMo(embeddingfrom language model)预训练模型将NLTK数据包处理过的语料转化为512维的词向量，并输入多头注意力机制中，对句子中具有关系表达的词语进行加权，并对无关词语进行去噪。然后，将结果输入到Bi-GRU网络层，在其中对输入进行上下文编码，捕获句中信息，获得隐藏层向量，将其作为输入再传递至关键词注意力层中。在关键词注意力层中，隐藏层输出与位置特征进行拼接，实体词隐藏层输出与实体隐藏相似度进行拼接，将两者的拼接结果作为融合特征向量，计算出特征向量的注意力权重，最后将其输入至分类层得到抽取结果。

本发明的技术方案实施步骤如下所示：

步骤1，对基准数据集SemEval-2010 Task 8进行预处理；

步骤2，通过EMLo预训练模型对步骤1预处理后的语料进行词向量化；

步骤3，多头注意力机制对步骤2的词向量进行初步去噪处理；

步骤4，使用Bi-GRU网络对步骤3处理过的词向量进行编码，得到包含句子中的上下文信息的隐藏层向量；

步骤5，将步骤4的隐藏层向量作为输入，传递至关键词注意力层中，通过将隐藏层输出结合实体对相对位置特征以及实体隐藏相似度特征，计算出注意力权重；

步骤6，将经过步骤5注意力机制处理过的隐藏层向量输入至分类层，得到最终的关系抽取结果。

本发明提出的模型架构如图3所示，以下将根据模型架构中的各个部分进行详细阐述。

1、输入层

将原始文件中的原始句子以及关系标签进行处理生成完整的句子字典和标签字典，便于后续程序处理，并将编码修改为UTF-8编码；去除句子中的标点符号以及重复句子和符号；使用NLTK对数据集中的文本进行分词处理；将分好词的语料使用预训练的EMLo模型进行词向量的转化。

模型的输入层旨在将输入句子的语义信息和位置信息转换为向量，其中输入句子用{w₁,w₂,...,w_n}表示，

表示每个词与实体对的相对位置的向量。

为了使模型能够捕捉到更准确的语义信息，本发明采用了维度嵌入d_w从语言模型ELMo词嵌入预训练模型，ELMo模型对单词的多义性提出了较好的解决方案，不同于之前Mikolov等人的word2vec和Pennington等人的GloVe工作，每个词对应一个向量，对单词的多义性没有很好的解决效果。

传统方法的词向量是静止不变的，一个词对应一个向量。然而，在ELMo词向量中，向量不再只是一个向量对应一个词，而是一个真正的训练模型，可以将一个句子或一段话输入该模型，模型根据上下文推断出每个词对应的词向量。这样做的一个明显优点在于，对于多义词来说，模型可以在前后词的上下文中理解。如图3所示，{x₁,x₂,...,x_n}是词嵌入过程后的d_w维向量，它将会在结合位置特征向量后输入到下一层进行处理。

2、多头注意力层

尽管本发明在输入层使用了非固定的词向量，但为了更好地让模型理解上下文的含义，解决长期依赖性的问题，本发明在输入层后增加了多头关注机制(Self-Attention)，多头关注机制流程图如图4所示。多头注意机制属于一种特殊的自注意机制，在本发明中，可以通过输入层输出的词向量序列构建序列的对称相似性矩阵。

在多头注意力机制中，给定密钥K、查询Q和值V作为输入，相当于词嵌入向量{x₁,x₂,...,x_n}，输出结果是一个具有输入句子上下文信息的特征序列。其中，关注模块将执行关注h次，计算过程如公式(1-3)所示。

MultiHead(Q,K,V)＝W^MConcat[head₁；...；head_r] (1)

head_i＝Attention(W_i ^QQ,W_i ^KK,W_i ^VV) (2)

其中，

3、Bi-GRU网络层

Bi-GRU网络层用于获取多头自注意层输出序列的上下文内信息。在信息提取的任务中，RNN(Recurrent Neural Network)是使用最多的模型。LSTM(Long-Short TermMemory)相对于RNN引入了长期记忆和门结构，缓解了RNN长期去依赖性的问题，但同时也增加了模型的计算量。而GRU(gate recurrent unit)则进一步优化了LSTM，只保留了newgate和reset gate两个门操作，因此GRU单元的参数更少，收敛速度比LSTM单元更快，GRU单元原理图如图5所示。

为简单起见，本发明将GRU单元对m_i的处理记为GRU(m_i)，因此获得用于计算上下文化单词表示的等式如公式(4-6)所示。

Bi-GRU的输入M是多头自注意层的输出，逐级输入到网络中。为了有效地利用过去和未来在某一时间的特征，本发明将每一时间步中的前向GRU网络隐藏状态

与后向GRU网络隐藏状态

进行并联，其中d_h为GRU网络单元隐藏状态的维度，在本发明中用{h₁,h₂,...,h_n}表示每一个词的隐藏状态向量，并用箭头表示方向。

4、关键词注意力机制

注意力机制一直是自然语言处理领域的研究热点，也在各种任务中取得了最先进的成果。虽然这些注意力机制都有很好的性能，但大多数机制并没有充分挖掘句子中的关键词信息。这些关键词指的是解决关系抽取任务的重要词汇，如果能够利用这些关键词的信息，那么模型的性能将会得到进一步提高。

本发明提出的关键词注意力机制旨在对隐藏层向量进行软选择，与传统的关注机制一样，本发明的关注机制也是一组标量的线性组合，权值用来表示模型对句子中某个词的关注程度，它的取值在0到1之间。

但与传统的注意力机制不同的是，本发明提出的模型采用了不同的方法来计算权重。具体而言，本发明为每个词引入一个状态变量z，当z为0时，表示对应的词与关系分类无关，如果z为1，则表示对应的词是句子中关系表达所需的词。所以，每个句子都有其对应的二元状态变量序列z。在此定义下，隐藏状态的期望值N也就是其对应词被选中的概率，其计算方法如公式(7)所示。

为了推导出p(z_i＝1|H)，在这里引入CRF来计算隐藏序列的权重序列H＝{h₁,h₂,...,h_n}，H代表输入序列，h_i代表第i个词的GRU的隐藏输出。具体来说，CRF提供了一个概率框架，用于计算序列与序列之间的条件概率。

CRF定义了在给定H的情况下一系列条件概率p(z_i＝1|H)，如公式(8-9)所示：

其中，

表示状态序列z的集合，Z(H)是规范化常数，z_c表示单个集合c给出的z的子集，ψ(z_c,H)是该集合的潜在函数，在本发明中用等式(10)表示：

在本发明中，使用两种特征函数进行计算，顶点特征函数ψ₁(z_i,H)和边缘特征函数ψ₂(z_i,z_i+1)。ψ₁表示GRU的输出h到状态变量z的映射，而ψ₂是用于模拟两个状态变量在相邻时间步长的转换函数。它们的定义分别如公式(11-13)所示。

ψ₁(z_i,H)＝exp(W^HF₁+W^EF₂+b) (11)

其中，W^H和W^E为线性变换的可学习参数，b为偏置项。它们将句子中的上下文信息映射成每个状态变量的特征分数，这些特征分数利用了句子中的相对实体位置特征

以及关键词特征(实体对特征

和实体对隐藏的相似性特征t₁和t₂)。

4.1实体位置特征

在最近的研究中，实体对的相对位置特征被广泛使用，并取得了良好的效果。本发明提出的关键词注意力机制不仅使用了词嵌入特征，还加入了位置嵌入特征。

相对位置特征

用于通过与隐藏层的输出量h_i的连接来共同重新表示上下文信息以及实体位置关系，如公式(12)中F1所示。其中

e_j∈{1,2}。位置嵌入与词嵌入类似，它通过嵌入矩阵

将相对位置标量转化为向量，其中L为最大句长，d_p为位置向量的维度。

4.2实体隐藏相似特征

由于句子中的实体词本身就是解决关系分类任务的强有力提示，因此，在很多的研究中采用自然语言处理工具来获取实体词的语言特征。然而这种方法已经不是一种端到端的解决方法了。因此，本发明提出了一种避免使用传统自然语言处理工具提取实体特征的方法，这种特征在本发明中被命名为实体隐藏相似度特征，在本发明中，根据实体与其隐藏向量的相似性对实体进行分类。实体隐藏相似特征计算过程如公式(14-15)所示。

其中，

是在势向量空间中构造的一个势向量，用来表示相似实体的类，其中K是实体按其隐藏相似性分类的类数。第j个实体的隐藏相似度特征t_j是根据第j个实体与隐藏层的输出he_j的相似度加权计算出来的。实体特征是通过对实体位置和实体对的潜在类型表示对应的隐藏状态进行级联构建的，如公式(12)中F2所示。

5、分类层

为计算状态变量的输出分布的概率p(在本发明中为所有关系的条件概率)，已在注意力层之后添加了softmax层，计算过程如公式(16)所示。

p(y|N)＝softmax(W_yN+b_y) (16)

其中，

实施例2

本发明的相关实验基于Python 3.7的TensorFlow环境，PyCharm 2020.2.2(Professional Edition)，主要的数据包为TensorFlow 2.5.0-dev20201127版本，cudav11.1，cudnn v8.0.4，pytorch v1.7。

1、数据来源与评估标准

本发明的实验是在SemEval-2010 Task 8数据集上进行评估的，该数据集是在关系抽取领域中广泛使用的基准数据集(见图6)。该数据集具有19种关系类型，包括9种方向性关系和其他类型：Cause-Effect，Instrument-Agency，Product-Producer，Con-tent-Container，Entity-Origin，Entity-Destination，Component-Whole，ember-Collection，Message-Topic和Other。数据集由10717个句子组成，其中包括8000个训练样本和2717个测试样本，每个标签所占训练集以及测试集的比例如表1以及表2所示。

表1训练集各类数据标签的占比

表2测试集各类数据标签的占比

在实验中使用的评估指标基于宏观平均F1分数(macro-averaged F1-score)，F1值是数据集的官方评估指标，用来判断模型的优劣。

官方数据样本如表3所示。

表3样本示例

在数据集的句子中，每一条句子都用<e1><e2>标记出了实体1与实体2，且每个样本都有对应的关系标签和实体1与实体2间关系的方向。

2、数据预处理

本发明将对SemEval-2010 Task 8标准数据集进行预处理以适配代码后续运行，首先使用NLTK对数据集中的句子进行分词处理并去除句子中的无关符号、空格以及句子中实体词的标记，对于分词后的数据，使用TensorFlow中的tf.contrib.learn.preprocessing.VocabularyProcessor()函数，此函数可以根据所有已分词好的文本建立好一个词典，然后找出每个词在词典中对应的索引，不足长度或者不存在的单词值补为0，实验中的最大数据长度设置为90。处理结果如表4所示。

表4预处理数据示例

3、实体相对位置特征

本发明中引入了每个词与实体1以及实体2的相对位置特征，分别用train_pos1，train_pos2，test_pos1，test_pos2，来存储训练集中每个单词相对实体1和相对于实体2的距离以及测试集中每个单词相对实体1和相对于实体2的距离，如表5所示。

表5位置特征示例

4、实验过程

4.1 ELMo词向量

在实验过程中，embedding Size的值要和ELMo的词向量的维度大小一致，通过hub.Module()函数使用预训练ELMo词向量，参数设置为“https://tfhub.dev/google/elmo/2”，trainable＝True。得到512维的向量矩阵，如图7所示。

ELMo词向量相关的参数如表6所示。

表6词向量实验相关参数设置

4.2多头注意力机制

由于基于RNN网络的结构需要依次序进行序列计算，对于部分远距离依赖的特征，训练网络要经过很长的时间步计算的信息积累才能将两者的相关信息联系起来，从而导致距离越远，网络有效捕获这种信息的可能性越小。而多头注意力机制正起到将这种距离较远的时间步之间的计算步骤直接联系起来的作用，将这种远距离的依赖特征之间的距离极大的缩短，从而能让模型更好的利用这些信息。

多个注意力头在一起表现出的关注方式与句子的结构有关系，在模型中，这些不同的注意力头可以学会执行不同的任务。图8为多头注意力的关注方式的可视化样例。

多头注意力的参数如表7所示。

表7多头注意力的参数设置

4.3 Bi-GRU网络

本发明使用了Bi-GRU网络对多头注意力的输出进行了顺序编码，GRU是一种RNN的变体网络，它在RNN的基础之上增加了门控开关，有效的抑制了梯度消失而导致的不能长期依赖的问题，LSTM也具有相同的效果，但相较于GRU，LSTM的计算量较大，参数较多，提升了模型过拟合的风险，GRU使用了较LSTM四分之三的参数，达到了与其相同的性能，并且运行时间也相应减少。在实验中，Bi-GRU网络的参数设置如表8所示。

表8 Bi-GRU参数

4.4关键词注意力机制

本发明所使用的特征都没有使用NLP工具以及手工标注和手工清洗，节省了大量的时间同时提升了模型的性能，在本层所使用的特征包括了实体对隐藏特征、实体相对位置特征以及实体隐藏相似度特征，实体对隐藏特征即为Bi-GRU的实体词隐藏层输出

实体隐藏相似度特征通过使用tf.nn.softmax()函数计算。关键词注意力机制的相关参数以及特征参数如表9所示。

表9关键词注意力机制的相关参数以及特征参数设置

4.5实验细节

模型的训练方法采用随机梯度下降法训练，关键词注意力机制使用交叉损失熵进行计算。

该损失函数的定义如公式(17)所示。

其中，|D|是训练数据集的大小，(S⁽ⁱ⁾,y⁽ⁱ⁾)是数据集中的第i个样本。本发明采用AdaDelta优化器来最小化loss函数计算参数。

在损失函数中加入L2正则化以防止过拟合，λ₁,λ₂是正则化的超参数。第二个正则化器试图强制模型处理真正重要的单词，并返回稀疏的权重分布。最终目标函数

如等式18所示。

实验的训练参数如表10所示。

表10训练参数设置

4.6实验对比

本发明在实验过程中将以下基准模型与本模型进行比较。

(1)SVM

SVM是一个非神经模型，在SemEval-2010任务中取得了顶尖的成绩，但它使用了大量的手工制作和语法型特征，如WordNet、ProBank和FrameNet等。

(2)MV-RNN

MV-RNN是一个基于SDP的模型，SDP是句子中的语义结构特征。具有SDP的模型可以沿着实体之间最短的依赖路径进行迭代计算。

(3)CNN

CNN是SemEval-2010任务上的一个端到端模型，即从输入端直接获取输出端的数据。该模型建立了一个卷积神经网络来学习句子级的特征向量。

(4)BLSTM

BLSTM是为了在SemEval-2010任务上获得双向长短期记忆网络的句子级表征而提出的。它是经典的基于RNN网络的关系抽取模型。

(5)DepNN

DepNN模型采用RNN网络对子树进行建模，使用CNN网络捕捉句子中最短路径的特征。

(6)FCM

FCM模型将每个句子分解成子结构，然后分别提取其特征，最后将其合并到分类层。

(7)SDP-LSTM

SDP-LSTM采用长短期记忆(LSTM)来捕捉沿最短依赖路径(SDP)的特征。该模型是一个卷积神经网络，通过排序进行分类，并使用具有对等排序的损失函数。

本发明所提出的基于关键词注意力机制的双向GRU模型与其他模型的对比结果如表11所示。

表11对比结果以及各模型使用特征

其中，WN、DEP、SDP、PE分别表示WoedNet、依赖特征、最短依赖路径、位置嵌入。

5、实验结果分析

下面结合具体实验结果对本发明技术方案作进一步描述。

实验实施是基于Python 3.7的TensorFlow环境，PyCharm 2020.2.2(Professional Edition)，主要的数据包为TensorFlow 2.5.0-dev20201127版本，cudav11.1，cudnn v8.0.4，pytorch v1.7。

本发明的核心在于注意力机制的改进，该注意力机制旨在对隐藏层向量进行选择，其中关注权重也是一组标量的线性组合。利用权重来表示模型对句子中某个词的关注程度，在此注意力机制中，它的取值在0到1之间。然而，传统的注意力机制和所提出的模型在权重的计算上有不同的方法。具体来说，本发明所提出的模型为每个词定义了一个状态变量z，其中，当z等于0时，意味着对应的词与关系分类无关，如果z等于1，则该词就是句子中具有关系表达所需的词.因此，每个句子都有其对应的二元状态变量z序列。最后使用CRF对状态序列z和隐藏状态序列H求条件概率作为每个词的注意力权重，其实现的关键代码如图9所示。

对于本发明所提出的模型，其消融实验结果如表12所示。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于关键词注意力的双向GRU关系抽取数据处理方法，其特征在于，所述基于关键词注意力的双向GRU关系抽取数据处理方法包括以下步骤：

步骤一，对基准数据集进行预处理；

步骤二，对步骤一预处理后的语料进行词向量化；

2.如权利要求1所述的基于关键词注意力的双向GRU关系抽取数据处理方法，其特征在于，所述步骤一预处理包括：

表示每个词与实体对的相对位置的向量；

采用d_w维的从ELMo词嵌入预训练模型得到的词向量，ELMo模型根据上下文推断出每个词对应的词向量；对于多义词加入了前后词的上下文理解；

如以下等式所示：

3.如权利要求1所述的基于关键词注意力的双向GRU关系抽取数据处理方法，其特征在于，所述步骤三多头注意机制通过输入层输出的词向量序列构建序列的对称相似性矩阵；

MultiHead(Q,K,V)＝W^MConcat[head₁；...；head_r]；

head_i＝Attention(W_i ^QQ,W_i ^KK,W_i ^VV)；

其中，

是线性变换的可学习参数，WM是按比例计算和串联时按比例放缩点积注意力的输出，W_i ^Q,W_i ^K,W_i ^V分别表示第i个头的查询、键和值。

4.如权利要求1所述的基于关键词注意力的双向GRU关系抽取数据处理方法，其特征在于，所述步骤四Bi-GRU网络层用于获取多头自注意层输出序列的上下文内信息；在信息提取的任务中，RNN是使用最多的模型；LSTM相对于RNN引入了长期记忆和门结构，缓解RNN长期去依赖性的问题，但同时也增加模型的计算量；而GRU则进一步优化LSTM，只保留newgate和reset gate两个门操作；