CN114168754A

CN114168754A - 一种基于句法依赖和融合信息的关系抽取方法

Info

Publication number: CN114168754A
Application number: CN202111546088.3A
Authority: CN
Inventors: 姜明; 孟佳营; 张旻
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-11

Abstract

本发明公开了一种基于句法依赖和融合信息的关系抽取方法。首先是利用BERT预训练模型构建词向量。其次是长短期记忆网络存在不考虑词汇位置信息的问题，本发明在LSTM网络之前予词向量添加位置向量。为了结合句法信息，利用Spacy工具包对于句子进行依存句法分析，然后对于分析结果进行预处理，得到句法信息。在结合句法信息时利用键值记忆网络将词向量与句法信息融合，得到包含句法信息的词向量。之后利用LSTM网络提取特征。最后利用LSTM网络进行解码，预测关系、预测实体。本发明在中文和英语数据集上进行实验，本发明能更好的解决词向量和句法信息融合的问题，并且能提取到更深层的、信息更充分的词向量，具有很好的鲁棒性。

Description

一种基于句法依赖和融合信息的关系抽取方法

技术领域

本发明涉及关系抽取技术领域，具体来讲是一种基于句法依赖和融合信息的关系抽取方法。

背景技术

关系抽取，是在不需要人工干预的情况下，从非结构化文本中抽取三元组(关系类别，头实体，尾实体)的任务。

关系抽取任务的解决方法分为两种：1管道形式抽取，2联合学习抽取。一种管道形式抽取方法是首先抽取两个实体，然后进行实体对的关系分类。例如利用BIO(Begin、Inside、Outside)序列标注方法进行实体预测，然后将实体向量两两输入到分类器中进行关系分类。虽然管道模型取得了比较好的结果，但是整体的准确率会下降。联合学习可以隐式建立任务之间的相关性，因此提出了许多相应的方法。例如在2019年提出了基于复制机制的联合模型CopyRE，将联合抽取任务转化为三元组生成任务，此方法不仅可以进行三元组抽取，而且可以解决实体覆盖的问题。但是在运行过程中，由于将向量输入到循环神经网络(RNN)中，而RNN模型对于句式复杂或者长句的编码效果不好，在下文进行编码时上文信息会丢失掉，使得在下文关系或者实体预测时预测不准确，产生严重的影响。

后续，专家提出的长短期记忆网络(LSTM)可以准确的解决长距离依赖的问题，长短期记忆网络在长句的表现明显优于普通的神经网络和循环神经网络。由于注意力机制在深度学习的广泛应用，有的研究人员提出将注意力机制结合关系抽取，在神经网络提取之后加入注意力机制，通过对句子进行分析，得到每个词对于结果的影响程度，构建对应权重向量，即关键词汇权重较大，无关词汇权重较小。注意力机制的引入提高了关系抽取任务的准确率，但是随之而来的问题是：在句中实体较多时，所有的实体的权重都会较大，导致在关系确定的条件下，预测对应实体时，模型难以分辨关系对应的实体。部分研究人员利用图卷积神经网络(GCN)进行关系提抽取，首先利用依存句法分析工具分析句子，获得句法分析树，然后将句子向量以及句法分析树输入到图卷积神经网络中，使得提取的特征向量信息更加充分(包括词汇信息、位置信息、句法信息)。但是由于图结构的复杂性，导致计算量不断增加，而且图卷积神经网络只能使用与特定领域，因此图卷积神经网络应用并不宽泛。还有其他研究人员引入了多种策略，比如多任务学习，例如在进行实体预测的时候同时运行BIO序列标注任务，以增加实体预测的准确率。

发明内容

本发明的目的是针对现有技术存在的问题，提出一种基于句法依赖和融合信息的关系抽取方法。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤(1)对句子S进行分词，构建输入序列；将输入序列作为BERT预训练模型的输入，经过BERT模型预处理获得每个词的基本词向量；

步骤(2)对数据集中的句子S利用Spacy依存句法分析工具进行处理，得到句子中词与词之间的依赖关系、边的信息，利用转换函数将依赖关系转换成关系向量；

步骤(3)对于句子中的每个词，利用transformer模型计算位置向量的方法，计算位置向量；之后给每个词添加位置向量，进行基本词向量和位置向量信息融合，得到融合向量；

步骤(4)将融合向量、关系向量以及边的信息输入到键值记忆神经网络网络中，生成每个词的句法信息向量，然后与步骤(3)中融合向量进行拼接；

步骤(5)将拼接后的向量输入到LSTM网络中进行编码，输出编码后的特征向量；

步骤(6)利用LSTM网络解码；在解码的过程中首先对关系类别进行预测，然后对关系类别的两个实体进行预测。

进一步的，所述步骤(1)具体实现过程如下：

1-1首先利用Spacy工具包进行分词构建输入序列S＝{w1,w2,…,wn}，其中n表示序列长度，然后就构建句子向量X，公式表示如下：

X＝(w1,w2,…,wn) (1)

其中，w1,w2,…,wn构成句子向量作为输入向量；

1-2句子向量在构建完成后，将会被输入到BERT预训练模型中，得到信息更为丰富的基本词向量，记为H∈R^d×n,其中d为输出的基本词向量的维度,n为序列长度，过程表示为下式：

H＝BERT(X)＝{h1,h2,…,hn} (2)

其中，h1,h2,…,hn为BERT预训练模型编码之后的向量，X为步骤1-1中公式(1)输出的句子向量，h1,h2,…,hn合并为基本词向量H。

进一步的，所述步骤(2)具体实现过程如下：

2-1将句子输入到Spacy句法分析工具中：

I＝nlp(sentence) (3)

公式(3)中sentence为输入的句子，nlp为加载Spacy依存句法分析工具包，I为输出；对输出I进行预处理，包括词下标和依存树的处理，从而获得依存树上的节点的依赖关系Rela和边的信息EdgeInfo，利用pytorch的Embedding函数将依赖关系Rela转换为关系向量relation。

进一步的，所述步骤(3)具体实现过程如下：

3-1对基本词向量H进行位置编码，然后将基本词向量和位置向量进行融合，得到融合后的位置向量Pos：

Pos＝PositionEncoding(H) (4)

其中，H为步骤1-2中式(2)输出的基本词向量，PositionEncoding为编码函数；

然后将位置向量Pos和基本词向量H进行拼接，构成融合向量XP如式(5)；

XP＝Cat(H，Pos) (5)

其中，Cat为拼接函数，XP为拼接后输出的融合向量。

进一步的，所述步骤(4)具体实现过程如下：

4-1将拼接后输出的融合向量XP、关系向量relation以及边的信息EdgeInfo输入到键值记忆网络中，获得每个词对应的句法向量，公式表示如下：

syntax＝KVMN(XP，relation，EdgeInfo) (6)

其中，XP为步骤3-1中式(5)的融合向量，relation为步骤2-1中的关系向量，EdgeInfo为步骤2-1中边的信息，KVMN为键值记忆网络，syntax为句法向量；

4-2将句法向量syntax与融合向量XP进行拼接获得最终的输入向量InputV。

进一步的，所述步骤(5)具体实现过程如下：

5-1将输入向量InputV输入到LSTM网络中进行编码，输出编码后的特征向量：

output，h idden＝LSTM(InputV) (7)

其中，InputV为步骤4-1中拼接后的输入向量，LSTM为长短期记忆网络，output为LSTM网络最后一层的输出向量，h idden为隐藏层输出向量。

进一步的，所述步骤(6)具体实现过程如下：

6-1将输出向量output通过一个LSTM门控单元映射到另一个向量V；

6-2.V向量通过全连接层网络映射到所有的关系类别，获得各个关系类别的概率分布，选取概率分布中概率最大的关系类别进行预测；在当前关系类别预测完成后，利用序列标注算法预测当前关系类别对应概率最大的实体下标，从而获得两个实体；

6-3.将这一步的V向量作为下一步的output向量，重复步骤6-1、6-2，直到所有关系预测完成，实现公式如下：

V＝lstm_cell(output) (8)

其中，output为步骤5-1中(7)式的输出向量，lstm_cell为LSTM门控单元，V为映射得到的另一个向量；

关系类别预测公式如下：

relationType＝do_predict(V) (9)

其中，do_predict为关系预测函数，relationType为预测得到的关系；

实体预测公式如下：

entity＝NER(V) (10)

其中，NER为命名实体识别模型，entity为得到的实体输出；重复预测实体一次，获得当前关系类别的两个实体。

6-4在训练时，采用标准的梯度下降算法来更新网络参数，使用交叉熵损失函数和L2正则化，计算式如下：

整体损失由两部分组成，如式(11)所示，首先是加权的实体损失，然后是关系损失；

为整体损失，

为实体损失，

为关系损失，λ为标签的损失权重；对于实体损失

计算公式为式(13)，p(tag^*|S)为句子S中每个词的每个标签类别tag^*的概率分布；将上述概率取负对数即为实体损失；对于关系损失

计算公式为式(12)，

代表句中S预测的每个关系

的概率分布，然后取负对数求和，其中

为预测值，y为真实值，t为预测到第t步。

本发明的有益效果如下：

本发明使用BERT模型构建基本词向量，相比于其他词向量，提取的特征更加充足，对于后续计算也更有效。其次，在输入到神经网络之前，予词向量添加位置信息，可以解决神经网络不考虑位置信息的问题。最后，在模型中将句法信息和语义信息结合，提高了特征向量的信息丰富程度。本模型在中文数据集和英语数据集上运行，结果表明，本发明能很好解决特征提取的问题，并且能结合句法依赖，从而更好的提取特征，具有很好的鲁棒性，能有效的提高关系抽取的准确率。

附图说明

图1本发明的整体实施方案流程图

图2本发明模型整体架构图

图3本发明词向量构建图

图4本发明依存句法分析结果图

图5本发明融合位置信息图

图6本发明键值记忆网络模型图

具体实施方式

下面结合附图对本发明做进一步描述。

本发明利用BERT模型生成词向量，同时结合位置信息，增强词向量所带的信息，同时利用依存句法分析，获得句法信息。根据获得的句法信息，融入到神经网络中，使得词向量不仅能获得上下文信息，而且能获得句法信息。使得神经网络在编码时能获得信息更加充分的词向量，词向量中不仅有语义信息，还包括位置信息和句法信息，能有效的提高关系抽取的准确率。

参照图1是本发明的整体流程图，一种基于句法依赖和融合信息的关系抽取方法，参照图2为整体模型图，包括以下步骤：

进一步的，所述步骤(1)具体实现过程如下：

1-1首先利用Spacy工具包进行分词构建输入序列S＝{w1，w2，…，wn}，其中n表示序列长度，然后就构建句子向量X，公式表示如下：

X＝(w1，w2，…，wn) (1)

其中，w1，w2，…，wn构成句子向量作为输入向量；

H＝BERT(X)＝{h1，h2，…，hn} (2)

其中，h1，h2,…，hn为BERT预训练模型编码之后的向量，X为步骤1-1中公式(1)输出的句子向量，h1,h2,…,hn合并为基本词向量H。参照图为图3。

进一步的，如图4所示，所述步骤(2)具体实现过程如下：

2-1将句子输入到Spacy句法分析工具中：

I＝nlp(sentence) (3)

进一步的，所述步骤(3)具体实现过程如下：

Pos＝PositionEncoding(H) (4)

XP＝Cat(H，Pos) (5)

其中，Cat为拼接函数，XP为拼接后输出的融合向量。参照图为图5。

进一步的，所述步骤(4)具体实现过程如下：

syntax＝KVMN(XP，relation，EdgeInfo) (6)

4-2将句法向量syntax与融合向量XP进行拼接获得最终的输入向量InputV。参照图为图6。

进一步的，所述步骤(5)具体实现过程如下：

5-1将输入向量InputV输入到LSTM网络中进行编码，输出编码后的特征向量：output,h idden＝LSTM(InputV) (7)

进一步的，所述步骤(6)具体实现过程如下：

V＝lstm_cell(output) (8)

关系类别预测公式如下：

relationType＝do_predict(V) (9)

实体预测公式如下：

entity＝NER(V) (10)

为整体损失，

为实体损失，

为关系损失，λ为标签的损失权重；对于实体损失

计算公式为式(12)，

代表句中S预测的每个关系

的概率分布，然后取负对数求和，其中

为预测值，y为真实值，t为预测到第t步。

Claims

1.一种基于句法依赖和融合信息的关系抽取方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于句法依赖和融合信息的关系抽取方法，其特征在于所述步骤(1)具体实现过程如下：

1-1首先利用Spacy工具包进行分词构建输入序列S＝{w1，w2，...，wn}，其中n表示序列长度，然后就构建句子向量X，公式表示如下：

X＝(w1，w2，...，wn) (1)

其中，w1，w2，...，wn构成句子向量作为输入向量；

1-2句子向量在构建完成后，将会被输入到BERT预训练模型中，得到信息更为丰富的基本词向量，记为H∈R^d×n，其中d为输出的基本词向量的维度，n为序列长度，过程表示为下式：

H＝BERT(X)＝{h1，h2，...，hn} (2)

其中，h1，h2，...，hn为BERT预训练模型编码之后的向量，X为步骤1-1中公式(1)输出的句子向量，h1，h2，...，hn合并为基本词向量H。

3.根据权利要求1所述的一种基于句法依赖和融合信息的关系抽取方法，其特征在于所述步骤(2)具体实现过程如下：

2-1将句子输入到Spacy句法分析工具中：

I＝nlp(sentence) (3)

4.根据权利要求3所述的一种基于句法依赖和融合信息的关系抽取方法，其特征在于所述步骤(3)具体实现过程如下：

Pos＝PositionEncoding(H) (4)

XP＝Cat(H，Pos) (5)

其中，Cat为拼接函数，XP为拼接后输出的融合向量。

5.根据权利要求4所述的一种基于句法依赖和融合信息的关系抽取方法，其特征在于所述步骤(4)具体实现过程如下：

syntax＝KVMN(XP，relation，EdgeInfo) (6)

6.根据权利要求5所述的一种基于句法依赖和融合信息的关系抽取方法，其特征在于所述步骤(5)具体实现过程如下：

5-1将输入向量InputV输入到LSTM网络中进行编码，输出编码后的特征向量：output，hidden＝LSTM(InputV) (7)

其中，InputV为步骤4-1中拼接后的输入向量，LSTM为长短期记忆网络，output为LSTM网络最后一层的输出向量，hidden为隐藏层输出向量。

7.根据权利要求6所述的一种基于句法依赖和融合信息的关系抽取方法，其特征在于所述步骤(6)具体实现过程如下：

V＝lstm_cell(output) (8)

关系类别预测公式如下：

relationType＝do_predict(V) (9)

实体预测公式如下：

entity＝NER(V) (10)

其中，NER为命名实体识别模型，entity为得到的实体输出；重复预测实体一次，获得当前关系类别的两个实体；

为整体损失，

为实体损失，

为关系损失，λ为标签的损失权重；对于实体损失

计算公式为式(12)，

代表句中S预测的每个关系

的概率分布，然后取负对数求和，其中

为预测值，y为真实值，t为预测到第t步。