CN113255320A

CN113255320A - 基于句法树和图注意力机制的实体关系抽取方法及装置

Info

Publication number: CN113255320A
Application number: CN202110521529.8A
Authority: CN
Inventors: 张红岩; 张伟; 张宇; 王垚; 高雁平
Original assignee: Beijing Xizi Zhishu Technology Co ltd
Current assignee: Beijing Xizi Zhishu Technology Co ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-08-13

Abstract

本发明涉及一种计算机技术领域，是一种基于句法树和图注意力机制的实体关系抽取方法及装置，前者包括对文本进行文本分析，其中文本分析包括分词及词性分析和依存分析；对分词及词性分析后的文本进行实体识别，标记其中的实体所在位置和实体类型；获得待抽取文本，并输入至关系抽取模型中抽取关系，获得关系与句子里实体组合的三元组输出，其中关系抽取模型为包括Bi‑GRU网络层、改进GAT层和双粒度注意力层的关系抽取模型。本发明能够同时利用句子中的语义和语法的信息，提高了算法的性能；采用改进GAT充分利用依存树，学习句子语法信息的同时，考虑了有效句法信息的范围，控制了网络参数的规模，提高了运行的效率。

Description

基于句法树和图注意力机制的实体关系抽取方法及装置

技术领域

本发明涉及一种计算机技术领域，是一种基于句法树和图注意力机制的实体关系抽取方法及装置。

背景技术

关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节，能够从文本中识别实体并抽取实体之间的语义关系。关系抽取以实体识别的结果为输入，旨在判断处于同一个文本中的实体之间是否存在关系，存在什么样的关系。

现有的关系抽取技术大多数没有使用到图卷积神经网络和图注意力机制来提取句子的句法结构，对于依存树所包含的结构信息并不能完整地表示和利用，仅仅使用了句法信息使得降低了对传统语义信息的重视。同时在获得依存树节点信息时可能只着眼于与它直接关联的节点，但依存分析的结果中一些密切相关的词语是通过一个中心词连接起来的(如主谓关系和动宾关系中，主语和宾语用谓语间接关联)，只使用一级邻居会使得这些关联被忽视，但若过多的考虑其他所有节点与本节点的联系，又会造成模型提取了过多无效信息。并且现有的技术普遍认为每个待抽取的句子的权重是相同的，强行从中提取关系可能导致结果中错误三元组的增多，实际上有一些句子并不是表达关系的，从这些句子中很难提取到关系，甚至会误导模型使之识别出错误的关系，故而它们应该被赋予更低的权重。

发明内容

本发明提供了一种基于句法树和图注意力机制的实体关系抽取方法及装置，克服了上述现有技术之不足，其能有效解决现有实体关系抽取方法存在的语义或语法信息的缺失及对依存树的利用效率不足的问题。

本发明的技术方案是通过以下措施来实现的：一种基于句法树和图注意力机制的实体关系抽取方法，包括：

对文本进行文本分析，其中文本分析包括分词及词性分析和依存分析；

对分词及词性分析后的文本进行实体识别，标记其中的实体所在位置和实体类型；

获得待抽取文本，并输入至关系抽取模型中抽取关系，获得关系与句子里实体组合的三元组输出，其中关系抽取模型为包括Bi-GRU网络层、改进GAT层和双粒度注意力层的关系抽取模型，待抽取文本包括实体识别后的文本和依存分析后的文本。

下面是对上述发明技术方案的进一步优化或/和改进：

上述获得待抽取文本，并输入至关系抽取模型中抽取关系，获得关系与句子里实体组合的三元组输出，其中关系抽取模型为包括Bi-GRU网络层、改进GAT层和双粒度注意力层的关系抽取模型，待抽取文本包括实体识别后的文本和依存分析后的文本，包括：

对待抽取文本进行预处理，将待抽取文本中同一篇文章中的句子作为一个包，且使得每个包中的每个句子里有且仅有2个实体；

利用词向量嵌入获得句子中词语的词向量和位置向量，并将二者连接起来生成词语的初始词向量；

Bi-GRU网络通过从前向后和从后向前两个方式学习句子的特征，获得词语的基础词向量，得到句子的基础表达形式；

改进GAT对句子的依存树结构编码，为依存树上的每一个连边赋予权重，将基础词向量作为树上节点的初始向量，通过句法依存关系学习节点的表示，获取句子中包含的语法信息；

双粒度注意力层包括词语注意层和句子注意力层，将Bi-GRU网络层和改进GAT层输出的句子的嵌入表示连接起来，通过词语注意力层提高关键词语的权重，再通过句子注意力层提高每个包中高质量句子的权重；

将把每个包中的句子输入至分类器中，对其中表达的实体间关系类型进行分类，并获得关系与句子里实体组合的三元组输出。

上述对分词及词性分析后的文本进行实体识别，标记其中的实体所在位置和实体类型，包括：

获得分词及词性分析后的文本中，每个句子中每个词的n维浮点数向量和m维向量，将两个向量拼接组合成词的初始词向量；

CNN网络层提取句子中的隐含信息；

Bi-LSTM神经网络层通过从前向后和从后向前两个方式学习句子的特征，获得句子的最终向量表示形式；

CRF层根据Bi-LSTM神经网络层的输出计算各个词是否是实体的概率，以此获得及标注实体在句子中的位置。

上述对初始文本进行文本分析，其中文本分析包括分词及词性分析和依存分析，包括：

对初始文本进行分词及词性分析，将分词及词性分析后的句子以词语列表的形式输出进行实体识别；

对初始文本中的句子进行依存分析，判断句子中的各个词语所在的句法结构，建立依存树。

本发明的技术方案是通过以下措施来实现的：一种基于句法树和图注意力机制的实体关系抽取装置，包括：

基础特征提取单元，对初始文本进行文本分析，其中文本分析包括分词及词性分析和依存分析；

实体识别单元，对分词及词性分析后的文本进行实体识别，标记其中的实体所在位置和实体类型；

关系抽取单元，获得待抽取文本，并输入至关系抽取模型中抽取关系，获得关系与句子里实体组合的三元组输出，其中关系抽取模型为包括Bi-GRU网络层、改进GAT层和双粒度注意力层的关系抽取模型，待抽取文本包括实体识别后的文本和依存分析后的文本。

本发明能够同时利用句子中的语义和语法的信息，提高了算法的性能；采用改进GAT充分学习句子语法信息的同时，考虑了有效句法信息的范围，控制了网络参数的规模，提高了运行的效率；在词语和句子两个粒度上使用了注意力机制，突出重点句子和重点词语的影响，提高了结果的准确率。

附图说明

附图1为本发明实施例1的方法流程图。

附图2为本发明实施例2中抽取文本的方法流程图。

附图3为本发明实施例3中实体识别的方法流程图。

附图4为本发明实施例4的结构框图。

具体实施方式

本发明不受下述实施例的限制，可根据本发明的技术方案与实际情况来确定具体的实施方式。

下面结合实施例及附图对本发明作进一步描述：

实施例1：如附图1所示，本实例公开了一种基于句法树和图注意力机制的实体关系抽取方法，包括：

步骤S101，对文本进行文本分析，其中文本分析包括分词及词性分析和依存分析；

步骤S102，对分词及词性分析后的文本进行实体识别，标记其中的实体所在位置和实体类型；

步骤S103，获得待抽取文本，并输入至关系抽取模型中抽取关系，获得关系与句子里实体组合的三元组输出，其中关系抽取模型为包括Bi-GRU网络层、改进GAT层和双粒度注意力层的关系抽取模型，待抽取文本包括实体识别后的文本和依存分析后的文本。

上述步骤S101中，对文本进行文本分析，其中文本分析包括分词及词性分析和依存分析，包括：

步骤S1011，对初始文本进行分词及词性分析，将分词及词性分析后的句子以词语列表的形式输出进行实体识别。由于中文里能够表达一个语义的最小单位(语素)一般为一个词语，但中文本身是由单个的汉字组成的，因此这里通过分词将句子中的一个个词语切分出来，以方便计算机的理解；与此同时，对每个词语进行词性分析，即通过上下文判断出每个词语的词性(例如名词、动词等)，便于后续实体识别使用。

步骤S1012，对初始文本中的句子进行依存分析，判断句子中的各个词语所在的句法结构，建立依存树(即依存分析的结果以若干个(中心词,指向词,句法结构类型)元组构成的连边输出)。依存分析的目的是通过分析句子中各个成分之间的依赖关系，从而揭示句子的句法结构，依存分析认为句子中的支配者是核心动词，而其他任何成分支配核心动词，所有被支配者都以某种形式依赖于支配者，即依存分析识别句子中的“主谓宾”、“定状补”这些语法成分与这些成分的位置无关，分析各成分之间的语义修饰关系，获得远距离的搭配信息。故而依存分析可包括在整个句子进行词性标注后生成短语句法树，将短语句法树转成依存树(依存关系可以用树形图表示，表示依存关系的树形图称为依存树)。

上述步骤S101可通过现有Stanford CoreNLP自然语言处理工具包、哈工大语言技术平平台LTP、HanNLP汉语言处理工具包等方式实现。

上述步骤S103中通过包括Bi-GRU网络层、改进GAT层和双粒度注意力层的关系抽取模型对待抽取文本进关系抽取，并获得关系与句子里实体组合的三元组输出，这里本实施例使用Bi-GRU网络层提取实体识别后的文本的语义信息，通过改进GAT层提取依存分析后的文本的语法信息，结合二者进行关系抽取，还通过双粒度注意力层融合了词语级和句子级两个粒度的注意力机制，提高了抽取结果的正确率和效率。这里改进GAT层对句子的依存树结构编码，为依存树上的每一个连边赋予权重，在对依存分析形成依存树进行表示时，不但考虑了与节点(词)直接相连的一级邻居，还考虑了与它相隔一个节点间接相连的二级邻居，同时舍弃了意义不大的三级及以上邻居信息，从而即能从一级和二级邻居关系中提取足够的句法信息，又能防止网络参数过多，在保证模型具有良好的正确率和召回率的同时，控制了网络的复杂度，提高了模型运行效率。

本实施例公开了一种基于句法树和图注意力机制的实体关系抽取方法，能够同时利用句子中的语义和语法的信息，提高了算法的性能；采用改进GAT充分学习句子语法信息的同时，考虑了有效句法信息的范围，控制了网络参数的规模，提高了运行的效率；在词语和句子两个粒度上使用了注意力机制，突出重点句子和重点词语的影响，提高了结果的准确率。

实施例2：如附图2所示，本实例公开了一种基于句法树和图注意力机制的实体关系抽取方法，其中获得待抽取文本，并输入至关系抽取模型中抽取关系，获得关系与句子里实体组合的三元组输出，其中关系抽取模型为包括Bi-GRU网络层、改进GAT层和双粒度注意力层的关系抽取模型，待抽取文本包括实体识别后的文本和依存分析后的文本，进一步包括：

步骤S1031，对待抽取文本进行预处理，将待抽取文本中同一篇文章中的句子作为一个包，且使得每个包中的每个句子里有且仅有2个实体被标注。

具体的，将待抽取文本中同一篇文章中的句子当作一个包(bag)，舍弃包中含有2个实体以下的句子，而将含有2个实体以上的句子两两实体进行组合，最终保证包中的每个句子里有且仅有2个实体被标注出来。

步骤S1032，利用词向量嵌入获得句子中词语的词向量和位置向量，并将二者连接起来生成词语的初始词向量。

具体的，每个包的句子中每个词将被映射到一个词向量中，即使用预训练的word2vec模型，将句子中的每个词映射为一个n维的浮点数向量，同时从一个随机初始化的词性映射向量表中，提取出属于该词词性的m维向量，两个向量拼接起来组合成一个词的词向量；同时每个词将被计算其与两个实体之间的距离，若一个词语在实体1左侧，相隔2个词语，则其距离为-3，在右侧则为+3，到实体2的距离同理，将这些距离也映射到一个随机初始化的向量中，作为词语的位置嵌入向量；接着将词语的词向量和位置向量连接起来，作为词语的初始词向量输入到Bi-GRU网络层。

上述步骤S1032的词向量可通过现有的BERT预训练自然语言模型训练得到。也可以通过Word2Vec模型、Fasttext模型、Glove模型、Elmo模型等训练得到。

步骤S1033，Bi-GRU网络通过从前向后和从后向前两个方式学习句子的特征，获得词语的基础词向量，得到句子的基础表达形式。

上述Bi-GRU网络为双向门控循环单元网络(Bidirectional Gate RecurrentUnit,)GRU(Gate Recurrent Unit)是循环神经网络的一种。模型中设置的更新门和重置门可以使得GRU模型的后续节点拥有记忆更早先节点状态的能力，在使用GRU处理一条句子时，模型对最后几个词语的理解仍然能受到句子开头的几个词语的影响。

Bi-GRU网络是GRU网络的进一步改进，原本的GRU只能从前向后对句子进行理解，而双向的GRU是正向和反向的两个GRU组成的，最终每个时序得到输出也结合了两个方向的信息，相比于单向的GRU更能把握句子全局的特征。

具体的，GRU网络有多个GRU单元组成，每个单元接收本时序的输入x^t和上一个时序输入的隐状态h^t-1，处理后得到本时序的输出y^t和隐状态h^t，每个GRU单元中各个变量的计算公式如下所示。其中的W均为神经网络中的参数，在训练过程中进行调整。最终得到的y^t即为词语的向量表示。

双向GRU网络采用正向和反向两个GRU序列组成，分别从前向后和从后向前学习句子的特征，可以充分地学习整个句子中包含的语义信息，由此得到句子的基础表示形式。

步骤S1034，改进GAT对句子的依存树结构编码，为依存树上的每一个连边赋予权重，将基础词向量作为树上节点的初始向量，通过句法依存关系学习节点的表示，获取句子中包含的语法信息。

图注意力网络(Graph Attention Network)是图神经网络的一种，它使用注意力机制为图结构中的边赋予不同的权重，以此来学习节点的表示。本实施例针对依存分析的特点提出的改进的GAT网络模型，在GAT的基础上同时考虑了一级和二级邻居的信息，并舍弃了意义不大的三级及以上邻居信息，具体如下：

图注意力层中，一个节点i和另一个节点之间的连边的权重如式1、2所示。其中为边＜i,j＞非标准化注意力系数，h_i和h_j分别为节点i和j的嵌入表示，a^T和W为学习过程中优化的向量和参数矩阵，leaky Relu是一个常用的激活函数。边＜i,j＞的注意力系数除以节点i所有一级和二级邻居的连边的注意力系数之和即为边＜i,j＞的权重。最终节点i的表示如式3表示。

步骤S1035，双粒度注意力层包括词语注意层和句子注意力层，将Bi-GRU网络层和改进GAT层输出的句子的嵌入表示连接起来，通过词语注意力层提高关键词语的权重，再通过句子注意力层提高每个包中高质量句子的权重。

将Bi-GRU网络和改进GAT网络得到的两部分句子的嵌入表示连接起来，再通过词语注意力层提高关键词语的权重，词语的权重计算如式4到6所示。其中，是单词查询向量r，

是单词i的拼接向量。

再在整个包中使用句子注意力层提高其中高质量句子的权重，句子的权重如式7到9所示。

步骤S1036，将把每个包中的句子输入至分类器中，对其中表达的实体间关系类型进行分类，并获得关系与句子里实体组合的三元组输出。

具体的，分类器可为softmax分类器，将包中的句子输入到softmax分类器中，对其中表达的实体间关系类型进行分类，与实体组合成为三元组输出(实体1，关系，实体2)。

实施例3：如附图3所示，本实例公开了一种基于句法树和图注意力机制的实体关系抽取方法，其中对分词及词性分析后的文本进行实体识别，标记其中的实体所在位置和实体类型，进一步包括：

步骤S1021，获得分词及词性分析后的文本中，每个句子中每个词的n维浮点数向量和m维向量，将两个向量拼接组合成词的初始词向量。

具体的步骤S1021即为嵌入层的工作过程，该过程以分词及词性分析的结果为输入，可使用预训练的word2vec模型，将句子中的每个词映射为一个n维的浮点数向量，同时从一个随机初始化的词性映射向量表中，提取出属于该词词性的m维向量表示，两个向量拼接起来组合成一个词的初始词向量。该词向量包含着一定的语义信息，能够被计算机所读取和处理。

步骤S1022，CNN网络层提取句子中的隐含信息。

上述CNN层可使用若干个规模为3×3的卷积核在由词向量组成的句子矩阵上扫描并进行卷积计算，进一步提炼句子中的隐含信息，隐含信息包括词的局部特征(例如局部上下文信息等)。

步骤S1023，Bi-LSTM神经网络层通过从前向后和从后向前两个方式学习句子的特征，获得句子的最终向量表示形式。

上述Bi-LSTM神经网络为现有公知技术，故学习过程不再赘述。

步骤S1024，CRF层根据Bi-LSTM神经网络层的输出计算各个词是否是实体的概率，以此获得及标注实体在句子中的位置。

具体的CRF层将一个句子当作一条线性的马尔可夫链，利用其马尔可夫性计算句子的每一种标签序列的概率，最终将概率最高的序列作为结果输出，经过解析之后，获得并标注实体在句中的位置。

上述方法将实体识别当作一个序列标注问题，为句子中的每个词语进行标记，可将实体的开始词语标记为“B-<type>”，实体的后续词语标记为“I-<type>”，其他不属于实体的词语标记为“O”，以此实现对句子中实体的标注。

实施例4：如附图3所示，一种基于句法树和图注意力机制的实体关系抽取装置，包括：

基础特征提取单元，对初始文本进行文本分析，其中文本分析包括分词及词性分析和依存分析。

实体识别单元，对分词及词性分析后的文本进行实体识别，标记其中的实体所在位置和实体类型。

具体包括：

CNN网络层提取句子中的隐含信息；

具体包括：

实施例5：该存储介质，所述存储介质上存储有能被计算机读取的计算机程序，所述计算机程序被设置为运行时执行基于句法树和图注意力机制的实体关系抽取方法。

上述存储介质可以包括但不限于：U盘、只读存储器、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例6，该电子设备，包括处理器和存储器，所述存储器中存储有计算机程序，计算机程序由处理器加载并执行以实现基于句法树和图注意力机制的实体关系抽取方法。

上述电子设备还包括传输设备、输入输出设备，其中，传输设备和输入输出设备均与处理器连接。

以上技术特征构成了本发明的最佳实施例，其具有较强的适应性和最佳实施效果，可根据实际需要增减非必要的技术特征，来满足不同情况的需求。

Claims

1.一种基于句法树和图注意力机制的实体关系抽取方法，其特征在于,包括：

2.根据权利要求1所述的基于句法树和图注意力机制的实体关系抽取方法，其特征在于，所述获得待抽取文本，并输入至关系抽取模型中抽取关系，获得关系与句子里实体组合的三元组输出，包括：

对待抽取文本进行预处理，将待抽取文本中同一篇文章中的句子作为一个包，且使得每个包中的每个句子里有且仅有2个实体被标记；

3.根据权利要求1或2所述的基于句法树和图注意力机制的实体关系抽取方法，其特征在于，所述对分词及词性分析后的文本进行实体识别，标记其中的实体所在位置和实体类型，包括：

获得分词及词性分析后的文本中每个句子中每个词的n维浮点数向量和m维向量，将两个向量拼接组合成词的初始词向量，输出由初始词向量组成的句子矩阵；

CNN网络层提取句子矩阵中的隐含信息；

4.根据权利要求1或2所述的基于句法树和图注意力机制的实体关系抽取方法，其特征在于，所述对初始文本进行文本分析，其中文本分析包括分词及词性分析和依存分析，包括：

5.根据权利要求3所述的基于句法树和图注意力机制的实体关系抽取方法，其特征在于，所述对初始文本进行文本分析，其中文本分析包括分词及词性分析和依存分析，包括：

6.一种基于句法树和图注意力机制的实体关系抽取装置，其特征在于，包括：

7.一种存储介质，其特征在于，所述存储介质上存储有能被计算机读取的计算机程序，所述计算机程序被设置为运行时执行如权利要求1至5任一项所述的基于句法树和图注意力机制的实体关系抽取方法。

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，计算机程序由处理器加载并执行以实现如权利要求1至5任一项所述的基于句法树和图注意力机制的实体关系抽取方法。