CN111241294A

CN111241294A - 基于依赖解析和关键词的图卷积网络的关系抽取方法

Info

Publication number: CN111241294A
Application number: CN201911424470.XA
Authority: CN
Inventors: 镇诗奇; 康晓军; 贾浩森; 龚启航; 黎尚雄
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-05
Anticipated expiration: 2039-12-31
Also published as: CN111241294B

Abstract

本发明提供一种基于依赖解析和关键词的图卷积网络的关系抽取方法，首先对结构化文本进行句子依赖解析生成依赖解析图，并通过关键词对句子进行修剪；利用word2vec获取句子的词嵌入向量和位置嵌入向量，拼接后得到词向量序列；对所述词向量序列进行双向GRU神经网络，得到输出向量矩阵；采用图卷积网络处理所述输出向量矩阵，得到句子的依赖表示；将所述输出向量矩阵以及句子的依赖表示通过多头注意力机制进行结合得到句子的表示向量；采用softmax函数建立关系以及实体类型的预测模型，并将所述句子的表示向量作为预测模型的输入，由此训练得到预测概率最大的关系作为抽取结果。

Description

基于依赖解析和关键词的图卷积网络的关系抽取方法

技术领域

本发明涉及文本关系抽取领域，尤其涉及一种基于依赖解析和关键词的图卷积网络的关系抽取方法。

背景技术

关系抽取的输出一般是一个三元组(实体1，关系，实体2)，表示实体1和实体2之间存在特定类别的语义关系，例如，句子“中国的首都是北京”可以抽取出关系(中国，首都，北京)这个三元组。关系抽取最常用的方法是监督学习和深度学习，这两种方法都取得了很好的效果。

其中，深度学习方法是基于神经网络的方法，虽然在准确率和回归率方面都有着相当不错的表现，但对于监督数据集(比如ACE-05和SemEval-2010task 8)十分依赖，而这些监督数据都是依靠人工标注的，十分耗时耗力，因此深度学习方法难以扩展到更大的领域中。另外，神经关系抽取现有的特征不够分辨出更准确的关系，尚有大量与知识有关的其他信息没有得到有效利用，比如句子依赖关系、关键词和实体类型信息。现有的方法并未充分利用这些信息，如何结合这些信息获取更准确的特征，从而提高关系抽取的精确度具有重要意义。

远程监督(Distant Supervision)可以通过将语料库与外部知识图谱对齐来自动构建大量的训练标注数据，因此成为目前关系抽取任务最主流的方法。这类数据构造方法的具体实现步骤是：首先，从知识图谱中抽取存在关系的实体对，然后从非结构化文本中抽取含有实体对的句子作为训练样例。它将现有知识图谱中的三元组<e1，r，e2>作为种子，匹配同时含有e1和e2的文本，得到的文本用作关系r的标注数据。通过远程监督构建的大量标注数据可以训练出一个效果不错的关系抽取器，减少模型对人工标注数据的依赖，从而增强模型跨领域适应能力。

但是，远程监督传统模型严重依赖特定知识领域的专家手工设计特征，过于费时费力，或者利用词性标注、句法解析等自然语言处理(NLP)标注来提供分类特征，而NLP工具比如命名实体识别(NER)、依赖解析等，往往误差较大，越多的特征工程会带来越多的误差，在整个任务的pipeline上造成误差的传播和积累，最终影响后续关系抽取的精度。

发明内容

有鉴于此，本发明提供了一种基于依赖解析和关键词的图卷积网络的关系抽取方法，将经过依赖解析的文本句子作为一个图，采用GCN(图卷积神经网络)捕捉依赖特征，丰富句子的语义信息。

本发明提供一种基于依赖解析和关键词的图卷积网络的关系抽取方法，包括以下步骤：

S1、利用Stanford NLP工具对非结构化文本进行句子依赖解析，生成句子的依赖解析图；将所述依赖解析图中连接最多依赖边的词作为句子中的关键词，并通过所述关键词对句子进行修剪；

S2、利用word2vec对非结构化文本中的句子进行处理，得到句子的词嵌入向量和位置嵌入向量，并将所述词嵌入向量和位置嵌入向量进行拼接，得到词向量序列s＝{x₁，x₂，…，x_m}，m表示句子中词的数量；

S3、采用双向GRU神经网络处理词向量序列s＝{x₁，x₂，…，x_m}，得到输出向量矩阵H＝{h₁，h₂，…，h_m}，其中，h_i＝[GRU^f(h_i-1，x_i)；GRU^b(h_i+1，x_i)]，i＝1，2，…，m，f、b分别表示词向量序列的正向遍历和反向遍历；

S4、采用图卷积网络处理所述输出向量矩阵H＝{h₁，h₂，…，h_m}，得到句子的依赖表示H′＝{h₁′，h₂′，…，h_m′}；

S5、将双向GRU的输出向量矩阵H与句子的依赖表示H′通过多头注意力机制进行结合得到句子的表示向量B；

S6、采用softmax函数建立关系以及实体类型的预测模型，将所述句子的表示向量B作为预测模型的输入，由此训练得到预测概率最大的关系作为抽取结果。

进一步地，所述步骤S1中，采用Stanford NLP工具对非结构化文本进行句子依赖解析时，还利用FIGER定义句子中的实体类型，解析完成后每个实体都具有确定的唯一类型。

进一步地，所述步骤S1中，进行依赖解析后的每个句子构成一个有向依赖解析图G＝(V，E)，其中，V、E分别表示节点和依赖边的集合，一条从节点u到节点v的依赖边表示成L_uv，所述依赖边L_uv包括正向、反向、自环三种类型。

进一步地，所述步骤S1中，将生成的依赖解析图通过PageRank算法得到句子中每个词的PageRank值，将PageRank值超过设定阈值的所有词作为关键词，仅保留与所述关键词有依赖边的词和边，完成对句子的修剪。

进一步地，所述步骤S2中，所述词嵌入向量是指采用word2vec将输入词转化为一个低维的稠密实数向量，每一个字符对应一个词嵌入向量；

所述位置嵌入向量是指将一个词对于头实体和尾实体的两个相对位置信息放在同一个向量中，作为这个词的位置嵌入，所述相对位置表示字符与目标实体的距离。

进一步地，所述步骤S4中，所述图卷积网络的隐藏层的计算公式为：

式中，

表示第k+1层图卷积后的输出向量，ReLu表示激活函数，N(i)表示节点i的所有邻接节点，L_iu表示节点i与节点u的依赖边的标识符号；

表示图中依赖边的权重，D表示图中节点的度，

表示

的对称归一化，

表示图卷积神经网络学习到的权重矩阵。

进一步地，所述步骤S5中，将句子的依赖表示H′作为所述多头注意力机制的quiries输入，将双向GRU的输出向量矩阵H作为所述多头注意力机制的keys和values输入，即：

B＝Multi_Head_Attention(quries＝H′，keys＝H，values＝H)。

进一步地，所述步骤S6的具体过程为：

将句子的向量表示B和步骤S1中定义的实体类型进行拼接，得到B′＝[B；type]，其中，type表示实体类型，建立实体类型的损失函数：

loss_type＝||B-type||；

然后通过sofftmax函数得到关系预测概率P：

P((B_n；r_n)|θ)＝softmax(WB′+b)，

式中，W和b表示待学习的参数，B_n为数据集中第n个句子，n＝1，…，N，N表示数据集中所有句子的个数；r_n表示句子对应的关系标签，θ表示模型中的所有参数；利用交叉熵定义关系预测概率户的损失函数：

由此，得到预测模型的目标函数为：

式中，λ表示超参数，训练所述预测模型，取概率最大的关系作为抽取结果。

本发明提供的技术方案带来的有益效果是：本发明利用图卷积网络来提取经过修剪后的句子依赖特征，帮助神经网络模型更好地提取特征；另一方面，将连接最多依赖边的词作为关键词来预测关系，同时还引入实体类型作为额外信息添加到模型中，提高了关系抽取模型的关系预测的准确率和召回率。

附图说明

图1是本发明实施例提供的基于依赖解析和关键词的图卷积网络的关系抽取方法的过程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，本发明的实施例提供了一种基于依赖解析和关键词的图卷积网络的关系抽取方法，包括以下步骤：

S1、利用Stanford NLP工具对非结构化文本进行句子依赖解析，生成句子的依赖解析图，所述依赖解析图用于进行图神经网络；将依赖解析图中连接最多依赖边的词作为句子中的关键词，并通过所述关键词对句子进行修剪以便更好地预测关系。

具体地，采用Stanford NLP工具对非结构化文本进行句子依赖解析时，利用FIGER定义句子中的实体类型，优选地，本实施例共定义88种实体类型，因此解析完成后每个实体都有确定的唯一类型，作为额外信息补充，比如图1中的“/person”、“/company”；解析后的每个句子构成一个有向依赖解析图G＝(V，E)，其中，V、E分别表示节点和依赖边的集合，一条从节点u到节点v的依赖边可以表示成L_uv，本实施例为了简化图卷积神经网络的训练过程，定义三种类型的依赖边L_uv：正向、反向、自环；

将生成的依赖解析图通过PageRank算法得到句子中每个词的PageRank值，将PageRank值超过0.02的所有词作为关键词，仅保留与所述关键词有依赖边的词和边，完成对句子的修剪，图1中句子“Zuckerberg is the founder of Facebook”中的关键词为“founder”。

S2、利用word2vec对非结构化文本中的句子进行处理，得到句子的词嵌入向量和位置嵌入向量，并将所述词嵌入向量和位置嵌入向量拼接起来作为词向量序列s＝{x₁，x₂，…，x_m}，m表示节点个数，即句子中词的数量。

其中，所述词嵌入向量是指用word2vec将输入词转化为一个低维的稠密实数向量，每一个字符对应一个词嵌入向量；

所述位置嵌入向量是指字符位置的嵌入低维向量，即将一个词对于头实体和尾实体的两个相对位置信息放在同一个向量中，作为这个词的位置嵌入；所述相对位置表示字符与目标实体的距离，比如，对于句子“Zuckerberg is the founder of Facebook”，词“founder”与实体“Zuckerberg”和“Facebook”的相对位置分别为3和2。

S3、采用双向GRU神经网络处理词向量序列s＝{x₁，x₂，…，x_m}，得到输出向量矩阵H＝{h₁，h₂，…，h_m}，其中，h_i＝[GRU^f(h_i-1，x_i)；GRU^b(h_i+1，x_i)]，i＝1，2，…，m，f、b分别表示词向量序列的正向遍历和反向遍历。

S4、采用图卷积网络(GCN)处理所述输出向量矩阵H＝{h₁，h₂，…，h_m}，得到句子的依赖表示，其中，所述GCN的隐藏层计算公式如下：

式中，

表示第k+1层图卷积后的输出向量，ReLu表示激活函数，

表示图中依赖边的权重(edge-wise gating)，D表示图中节点的度，

表示

的对称归一化，

表示图卷积神经网络学习到的权重矩阵；由此，得到句子的依赖表示为H′＝{h₁′，h₂′，…，h_m′}。

S5、将双向GRU的输出向量矩阵H与句子的依赖表示H′通过多头注意力机制进行结合得到句子的表示向量B，其中，句子的依赖表示H′作为多头注意力机制的quiries输入，双向GRU的输出向量矩阵H则作为多头注意力机制的keys和values输入，即：

B＝Multi_Head_Attention(quries＝H′，keys＝H，values＝H)。

具体地，步骤S6的过程为：

将句子的向量表示B和实体类型type进行拼接，得到B′＝[B；type]，请参考图1，实体类型包括主语type_sub(“/person”)和宾语type_obj(“/company”)，为了让句子的预测关系与关系类型“/person/company”逼近，添加一个L2约束：

loss_type＝||B-type||，其中type＝(type_sub+type_obj)/2；

然后通过softmax函数得到关系预测概率P：

P((B_n；r_n)|θ)＝softmax(WB′+b)，

式中，W和b表示待学习的参数，B_n为数据集中第n个句子，n＝1，…，N，N表示数据集中所有句子的个数；r_n表示句子对应的关系标签，θ表示模型中的所有参数；利用交叉熵定义关系预测概率P的损失函数：

由此，得到预测模型最终的目标函数为：

本实施还提供传统有监督学习的关系抽取方法以及增加图卷积神经网络后的关系抽取方法的对比实验，常用的关系抽取方法包括SDP-LSTM、Tree-LSTM和PA-LSTM，在所述PA-LSTM上加入图卷积神经网络的关系抽取方法，即GCN+PA-LSTM。在公共数据集TACRED上对比上述关系抽取方法的抽取结果，评价指标包括准确率P、召回率R以及F1值，对比结果如下：

表1 SDP-LSTM、Tree-LSTM、PA-LSTM以及GCN+PA-LSTM的抽取结果对比

从上表可知，所述GCN+PA-LSTM关系抽取模型在准确率P和F1值上均有较大提升，而召回率R也接近最好结果，说明加入图卷积神经网络能提升现有的非远程监督的关系抽取模型。

在本文中，所涉及的前、后、上、下等方位词是以附图中零部件位于图中以及零部件相互之间的位置来定义的，只是为了表达技术方案的清楚及方便。应当理解，所述方位词的使用不应限制本申请请求保护的范围。

在不冲突的情况下，本文中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于依赖解析和关键词的图卷积网络的关系抽取方法，其特征在于，包括以下步骤：

S4、采用图卷积网络处理所述输出向量矩阵H＝{h₁，h₂，…，h_m}，得到句子的依赖表示H′＝{h′₁，h′₂，…，h′_m}；

2.根据权利要求1所述的基于依赖解析和关键词的图卷积网络的关系抽取方法，其特征在于，所述步骤S1中，采用Stanford NLP工具对非结构化文本进行句子依赖解析时，还利用FIGER定义句子中的实体类型，解析完成后每个实体都具有确定的唯一类型。

3.根据权利要求1所述的基于依赖解析和关键词的图卷积网络的关系抽取方法，其特征在于，所述步骤S1中，进行依赖解析后的每个句子构成一个有向依赖解析图G＝(V，E)，其中，V、E分别表示节点和依赖边的集合，一条从节点u到节点v的依赖边表示成L_uv，所述依赖边L_uv包括正向、反向、自环三种类型。

4.根据权利要求1所述的基于依赖解析和关键词的图卷积网络的关系抽取方法，其特征在于，所述步骤S1中，将生成的依赖解析图通过PageRank算法得到句子中每个词的PageRank值，将PageRank值超过设定阈值的所有词作为关键词，仅保留与所述关键词有依赖边的词和边，完成对句子的修剪。

5.根据权利要求1所述的基于依赖解析和关键词的图卷积网络的关系抽取方法，其特征在于，所述步骤S2中，所述词嵌入向量是指采用word2vec将输入词转化为一个低维的稠密实数向量，每一个字符对应一个词嵌入向量；

6.根据权利要求1所述的基于依赖解析和关键词的图卷积网络的关系抽取方法，其特征在于，所述步骤S4中，所述图卷积网络的隐藏层的计算公式为：

式中，

表示图中依赖边的权重，D表示图中节点的度，

表示

的对称归一化，

表示图卷积神经网络学习到的权重矩阵。

7.根据权利要求1所述的基于依赖解析和关键词的图卷积网络的关系抽取方法，其特征在于，所述步骤S5中，将句子的依赖表示H′作为所述多头注意力机制的quiries输入，将双向GRU的输出向量矩阵H作为所述多头注意力机制的keys和values输入，即：

B＝Multi_Head_Attention(quries＝H′，keys＝H，values＝H)。

8.根据权利要求1或2所述的基于依赖解析和关键词的图卷积网络的关系抽取方法，其特征在于，所述步骤S6的具体过程为：

loss_type＝||B-type||；

然后通过softmax函数得到关系预测概率P：

P((B_n；r_n)|θ)＝softmax(WB′+b)，

由此，得到预测模型的目标函数为：