CN112579792B

CN112579792B - 一种基于pgat和ftatt的远程监督关系抽取方法

Info

Publication number: CN112579792B
Application number: CN202011528527.3A
Authority: CN
Inventors: 于亚新; 包健; 王亚龙; 吴晓露; 乔勇鹏; 刘树越
Original assignee: 东北大学
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2023-08-04
Anticipated expiration: 2040-12-22
Also published as: CN112579792A

Abstract

本发明公开一种基于PGAT和FTATT的远程监督关系抽取方法，涉及远程监督关系抽取技术领域。该方法包括：获取NYT数据集，将数据集中包含相同实体对的句子划分在一个包中；获取每个包中句子的词语向量表示；基于Bi‑LSTM抽取句子的序列特征；基于PGAT抽取句子的句法结构特征；利用FTATT对包中不同句子分配权重；将包中各句子的特征向量与句子的权重系数加权求和，获得包的特征向量；根据包的特征向量，对包中实体对进行关系分类。利用PGAT能够捕获句子的句法结构信息，使得抽取的句子特征包含语义和语法方面的丰富信息，同时采用FTATT对注意力机制进行微调，动态地丢弃尽可能多的噪音数据，提高关系抽取准确性。

Description

一种基于PGAT和FTATT的远程监督关系抽取方法

技术领域

本发明涉及远程监督关系抽取技术领域，具体涉及一种基于PGAT(PiecewiseGraph Attention Network，分段图注意力网络)和FTATT(Fine-tuning AttentionMechanism，微调注意力机制)的远程监督关系抽取方法。

背景技术

知识图谱近些年在医疗领域应用广泛，根据患者症状从医疗知识图谱中匹配症状的实体，实体之间以关系作为边相连接，例如药物治疗、注意事项、相关症状等关系，可以深层次地挖掘患者症状所对应的疾病以及相应的治疗措施。例如，一名患者存在运动迟缓、动作变慢、痉挛、乏力、痴呆、抑郁症等症状及体征，在医疗知识图谱中，这些症状实体对应的疾病实体正是帕金森病。图谱中由(实体，关系，实体)构成实体关系三元组，例如(帕金森病，药物治疗，恩他卡朋)和(恩他卡朋，注意事项，不可突然停用本品)。根据三元组及患者症状，可以挖掘出该患者可能身患帕金森病，需要使用恩他卡朋进行药物治疗，并叮嘱该患者不能随意停用药物，需要缓慢减量停药。

关系抽取是知识图谱构建过程的核心任务。关系抽取是指在实体识别的基础之上从非结构化文本句子中抽取预先定义的实体对之间的关系,也称为实体关系抽取。对一个句子进行关系抽取的结果可以形式化为一个关系三元组(e₁,r,e₂)，e₁、e₂表示实体，r表示两个实体之间的关系。关系抽取的大量研究工作都集中在有监督学习方法中。有监督的关系抽取需要大量具有特定标注关系的训练数据进行训练，训练数据的标注非常耗时同时人力耗费巨大。在这种情况下，采用远程监督方法进行关系抽取应运而生，其中关系特征设计对远程监督关系抽取的后续错误句子标签的筛选具有重要的作用。现有的研究工作通常使用卷积神经网络对文本句子进行编码，仅是在文本序列上进行特征抽取、关系抽取的效果并不理想，在关系抽取中没有将在依存句法树上体现的语法信息与文本序列中的语义信息有效地融合。

远程监督方法通过自动对齐远程知识库代替人工标注生成训练数据。但是存在一个强假设条件，即如果两个实体在某一个知识库中存在某种关系，那么所有包含这两个实体的文本句子都视为这个关系的正实例。这样会导致大量的标签标注错误，产生噪声数据。为了解决错误标注问题，现有的研究工作采用多实例学习、注意力机制解决噪声问题。尽管如此，噪声数据对关系抽取性能影响仍然较大。当同一实体对包含的噪声数据越多，性能影响就越明显。

发明内容

在现有的远程监督关系抽取方法中，考虑抽取句子的序列特征信息作为句子的特征表示，这样无法充分地表示句子的语义和语法信息，同时现有的方法在面对句子标签错误标注问题上采用多实例学习和注意力机制处理，但是噪声句子的影响依旧很大，需要进一步优化解决。针对现有技术的不足，本发明提出一种基于分段图注意力网络和微调注意力机制的远程监督关系抽取方法，旨在抽取丰富的句子特征的同时尽可能多地丢弃噪声句子，从而提高关系抽取的准确性。

为解决上述技术问题，本发明的基于PGAT和FTATT的远程监督关系抽取方法，包括以下步骤：

步骤1：获取NYT数据集，根据远程监督关系抽取条件假设，将NYT数据集中包含相同实体对的句子划分在一个包中；

步骤2：获取每个包中句子的词语向量表示；

步骤3：根据词语向量表示，抽取包中每个句子的特征向量表示；

步骤3-1：基于Bi-LSTM抽取句子的序列特征，将句子的词语向量表示w送入Bi-LSTM网络，获取句子的序列特征；

步骤3-2：融合句子的序列特征，基于分段图注意力网络PGAT抽取句子的句法结构特征；

步骤4：采用微调注意力机制FTATT对同一包中的不同句子分配权重；

步骤4-1：利用注意力机制ATT求出各包中不同句子的初始的权重系数；

步骤4-2：对初始的权重系数进行微调，得到新的权重系数；

步骤5：将包中各句子的特征向量与句子的权重系数加权求和，获得该包的特征向量；

步骤6：根据包的特征向量，对包中实体对进行关系分类。

进一步地，根据所述的基于PGAT和FTATT的远程监督关系抽取方法，所述步骤2中所述词语向量表示的获取方法为：

通过Word2vec模型获取句子中词语的词嵌入；

将从当前单词到实体对中两个实体的相对距离的组合作为当前单词的位置嵌入；

将词嵌入和位置嵌入结合，作为当前词的词语向量表示。

进一步地，根据所述的基于PGAT和FTATT的远程监督关系抽取方法，所述步骤3-2包括以下步骤：

步骤3-2-1：对输入的句子进行句法依存分析，得到该句子中词与词之间具有依存关系的依存句法树；

步骤3-2-2：根据句子中标注的实体，将依存句法树截为三段：实体之间的最短依存路径树及两个实体各自的子树；

步骤3-2-3：将步骤3-2-2得到的三段依存句法树分别用依存矩阵表示，其中依存矩阵主对角线上的值均为1，除此之外，句子中的词与该词以外的其他词在树结构上有依存关系的，在依存矩阵上对应的值记为1，否则记为0；

步骤3-2-4：将三段依存句法树的依存矩阵分别送入图注意力网络，抽取句子的句法结构特征，分别得到实体最短依存路径特征向量和两个实体子树特征向量；

步骤3-2-5：将三个子树特征向量结合送入前馈神经网络FFNN，得到句子的最终特征向量。

进一步地，根据所述的基于PGAT和FTATT的远程监督关系抽取方法，所述步骤3-2-4中图注意力网络对送入其中的依存矩阵执行如下步骤：

首先，计算词与词之间相互影响的重要程度；

然后，根据词与词之间相互影响的重要程度，计算词与词之间的注意力权重系数；

最后，将词在依存矩阵中所有相邻词的序列特征向量与对应的相邻词的权重系数进行加权求和，得到该词的最终特征向量；所述相邻词为矩阵中值为1对应的词。

进一步地，根据所述的基于PGAT和FTATT的远程监督关系抽取方法，所述步骤4-1包括以下步骤：

计算输入的句子和关系之间匹配的分数；

根据句子和关系的匹配分数，求得注意力机制下用于加权求和的句子权重系数。

进一步地，根据所述的基于PGAT和FTATT的远程监督关系抽取方法，所述步骤4-2中通过阈值θ对初始的权重系数α_i进行微调得到新的权重系数α_{i_new}，微调公式如下：

其中n为包中句子总个数，k代表包中第k个句子。

进一步地，根据所述的基于PGAT和FTATT的远程监督关系抽取方法，所述阈值θ为超参数，设置为0.100。

进一步地，根据所述的基于PGAT和FTATT的远程监督关系抽取方法，所述步骤6包括如下步骤：

步骤6-1：将包的特征向量h_bag扩维到数据集中预定义的关系个数维度；

步骤6-2：将扩维后包的特征向量转换为概率值p；

步骤6-3：利用概率值p对包中的实体对进行关系分类，将概率值p中最大值对应的关系确定为包的最终关系，从而得到包的最终的实体关系三元组。

进一步地，根据所述的基于PGAT和FTATT的远程监督关系抽取方法，所述步骤6-1中利用全连接神经网络将包的特征向量h_bag扩维到数据集中预定义的关系个数维度。

进一步地，根据所述的基于PGAT和FTATT的远程监督关系抽取方法，所述步骤6-2中通过softmax函数将扩维后包的特征向量转换为概率值p。

本发明提出的基于PGAT和FTATT的远程监督关系抽取方具有如下有益效果：

首先，由于依存句法树能够帮助远程监督关系抽取捕获长范围实体对之间的关系，实体对之间的语义关系不仅可以从文本序列中抽取，也可以在文本句子的依存句法树中判断，基于此，在句子序列上通过Bi-LSTM抽取句子的序列特征，在依存句法树上提出基于PGAT(Piecewise Graph Attention Network，分段图注意力网络)的句子特征表示，即在序列信息的语义特征基础上，融合依存结构信息的语法特征，作为文本句子的编码结果，丰富句子的语义和语法信息，更加全面地表达句子的语义和语法信息。

其次，远程监督不可避免地伴随着错误标签问题，产生的噪声数据损害了关系抽取的性能。为了缓解此问题，对包含同一实体对的包中的句子实例采用FTATT(Fine-tuningAttention Mechanism，微调注意力机制)对注意力机制进行微调，动态地丢弃尽可能多的噪音数据，充分利用正实例句子，提高关系抽取准确性。

采用本发明的基于分段图注意力网络和微调注意力机制的远程监督关系抽取方法，可以抽取到的关系三元组数量更多，构建的知识图谱实体间的关系更密切，应用在医疗系统上可以更准确地挖掘和诊断患者病症，从而更精准地进行诊疗。

附图说明

图1为本发明基于PGAT和FTATT的远程监督关系抽取方法的流程图；

图2为本发明基于PGAT和FTATT的远程监督关系抽取方法中词语向量表示和特征抽取过程示意图；

图3为本发明方法中基于分段图注意力网络PGAT抽取句子的句法结构特征的流程图；

图4为发明方法中步骤6对包中实体对进行关系分类的流程图；

图5为本发明方法中从最终句子特征向量到对包中实体对进行关系分类的过程示意图；

图6为本发明基于PGAT和FTATT的远程监督关系抽取方法与现有关系抽取方法进行实验对比的P曲线图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。

本实施方式的基于PGAT和FTATT的远程监督关系抽取方法，如图1所示，包括以下步骤：

步骤1：获取NYT数据集并对NYT数据集进行预处理。

将NYT数据集中包含相同实体对的句子划分在一个包中，并从NYT数据集中获取该实体对的关系并将其作为包标签对包进行标注，按照该方法将NYT数据集中的全部句子划分为z个包，得到包集合其中B_l＝{S₁,S₂,…,S_m}，表示第l个包中包含m个句子S₁,S₂,…,S_m。

例如，给定实体对(New Orleans,Dillard University)，根据远程监督关系抽取条件假设，对NYT数据集中的所有句子进行查找，将包含该实体对的句子都划分到包B₁中，包B₁中含有的句子及包标签如表1所示。

表1包B₁中含有的句子及包标签

步骤2：获取每个包中句子的词语向量表示。

词语向量表示由两部分组成：词嵌入和位置嵌入。词嵌入中每一维的值代表一个具有一定的语义和语法上解释的特征，每一维称为一个词语特征；位置嵌入中每一维的值代表词到实体对的相对距离，用位置嵌入描述实体与词的位置信息。

本实施方式中通过Word2vec模型获取句子中词语的词嵌入，可以捕获单词的句法和语义信息。位置嵌入描述位置关系，靠近实体的词通常可以为确定实体之间的关系提供信息，将从当前单词到实体对中两个实体的相对距离的组合作为位置嵌入。如图2所示，将词嵌入和位置嵌入结合，作为词语向量表示w＝{w₁,w₂,…,w_n}，w_x为句子中第x个词语的向量表示，其中x代表1,2,…,n。

以表1中的句子1为例，通过Word2vec模型获取的词嵌入向量为：

获取的位置嵌入向量为：

最终获得句子1的词语向量表示为：

步骤3：如图2所示，根据词语向量表示，抽取包中每个句子的特征向量表示。

步骤3-1：基于Bi-LSTM抽取句子的序列特征，将句子的词语向量表示w送入Bi-LSTM网络，获取句子的序列特征。

Bi-LSTM(Bi-directional Long and short term memory，双向长短时记忆神经网络)由前向的LSTM与后向的LSTM组合而成，相较于其他类型的神经网络，它可以更好地提取出序列化输入过程中前面输入的内容传递下来的信息，前向的LSTM与后向的LSTM一同构成的Bi-LSTM就可以提取出序列化输入信息的前向内容与后向内容传递过来的信息，可以更好地把握住句子中各部分的上下文信息，所以它在自然语言处理中有着广泛的应用。

LSTM由t时刻的输入词向量表示w_t、细胞状态C_t、临时细胞状态隐层状态h_t、遗忘门f_t、输入门i_t、输出门o_t组成。

LSTM第一步构建用于细胞状态选择丢弃信息的遗忘门f_t。

f_t＝σ(W_f·[h_t-1，w_t]+b_f) (1)

其中，W_f代表构建遗忘门时的权重矩阵，h_t-1代表t-1时刻的隐层状态，b_f代表构建遗忘门时的偏置值，σ代表sigmoid激活函数。

LSTM第二步构建用于选择更新信息的输入门i_t。

i_t＝σ(W_i·[h_t-1，w_t]+b_i) (2)

其中，W_i代表构建输入门时的权重矩阵，b_i代表构建输入门时的偏置值。

LSTM第三步生成临时细胞状态用于捕获需要添加到细胞状态C_t的新的信息。

其中，W_C代表生成临时细胞状态时的权重矩阵，b_C代表生成临时细胞状态时的偏置值，tanh为激活函数，取值为[-1，1]。

LSTM第四步通过遗忘门f_t忘记旧细胞信息C_t-1的一部分结合通过输入门i_t选择添加临时细胞信息的一部分得到新的细胞状态信息C_t。

LSTM第五步构建用于细胞状态C_t选择输出状态特征的输出门o_t。

o_t＝σ(W_o·[h_t-1，w_t]+b_o) (5)

其中，W_o代表构建输出门时的权重矩阵，b_o代表构建输出门时的偏置值。

LSTM第六步通过输出门o_t选择细胞状态C_t输出t时刻的隐层状态h_t。

h_t＝o_t*tanh(C_t) (6)

通过Bi-LSTM网络得到句子的序列特征向量h为：

h_x＝[h_xL，h_xR] (8)

其中h_xL和h_xR分别表示前向LSTM和后向LSTM得到的隐层状态向量。

本实施例中将句子1的词语向量表示w送入Bi-LSTM网络，根据公式(1)-(8)获取该句子1的序列特征向量h为：

步骤3-2：基于分段图注意力网络PGAT抽取句子的句法结构特征。

句子的句法结构特征包括实体间的依存关系路径和实体依存句法树结构。步骤3-2如图3所示，包括以下步骤：

步骤3-2-1：对输入的句子进行句法依存分析，得到该句子中词与词之间具有依存关系的依存句法树。

本实施方式中利用自然语言处理技术工具Stanfordnlp对输入的句子进行句法依存分析，得到该句子中词与词之间具有依存关系的依存句法树。

步骤3-2-2：根据句子中标注的实体，将依存句法树截为三段：实体之间的最短依存路径树及两个实体各自的子树。

步骤3-2-3：将步骤3-2-2得到的三段依存句法树分别用依存矩阵表示，其中依存矩阵主对角线上的值均为1，除此之外，句子中的词与该词以外的其他词在树结构上有依存关系的，在依存矩阵上对应的值记为1，否则记为0。

步骤3-2-4：将三段依存句法树的依存矩阵分别送入图注意力网络，抽取句子的句法结构特征，分别得到实体最短依存路径特征向量实体子树特征向量

图注意力网络对送入的依存矩阵执行如下步骤：

首先，计算词与词之间相互影响的重要程度。

b_xyr＝LeakyRelu(W₂(W₁[h_x，h_y，g_r])) (9)

其中g_r表示关系r的向量表示，h_x、h_y表示词x、y的序列特征向量，W₁、W₂表示计算b_xyr过程的权重矩阵，LeakyRelu函数为激活函数，b_xyr表示在关系r下的词y对词x的重要程度。

然后，根据b_xyr计算词与词之间的注意力权重系数α_xyr。

其中softmax函数将数值转化为相对概率，N_x表示与词x相邻的词集合，R_xc表示词x与相邻词c间的关系集合，exp函数是以自然常数e为底的指数函数，α_xyr是用于图注意力网络中的图卷积过程进行加权求和的注意力权重系数。

接下来，将词x在依存矩阵中所有相邻词y的序列特征向量h_y与对应的权重系数α_xyr进行加权求和，得到词x的最终特征向量所述相邻词为矩阵中值为1对应的词。

其中W₃表示计算过程的权重矩阵。

步骤3-2-5：将三个子树特征向量结合送入前馈神经网络FFNN，得到句子的最终特征向量h_s。

此时得到的句子特征向量融合了词特征、句子序列特征、句法结构特征等丰富信息。

在本实施例中对输入的文本句子1执行步骤3-2-1至3-2-5得出句子1的最终的特征向量h_s为：

步骤4：采用微调注意力机制FTATT对同一包中的不同句子分配权重。

步骤4-1：利用注意力机制ATT求出各包中不同句子的权重系数α_i。

对一个包中不同的句子赋予不同的权重，权重值高的句子对该包的关系分类的正面影响较大，应该加以利用，同时权重低的句子负面影响较大，应予以摒弃。

首先，计算输入的句子s_i和关系r之间匹配的分数score_i。

其中W₄为注意力机制中的权重矩阵；为句子s_i的特征向量表示。

其次，根据score_i，求得注意力机制下用于加权求和的句子权重系数α_i。

其中n表示包中包含的句子个数。

表2包B₁中各句子的初始权重α_i

步骤4-2：对上述的初始权重α_i进行微调。通过阈值θ微调句子的权重，得到新的权重系数α_{i_new}。

在上述初始化权重后，再次对权重值进行调整，充分利用正实例句子的同时尽可能多地丢弃噪声句子。

微调公式如下：

本实例中阈值θ为超参数，设置为0.100。由表2可以看出，包B₁中句子4的初始权重α₄＝0.086＜θ，包B₁中句子1、2、3、5的初始权重α₁、α₂、α₃、α₅值均大于θ，故而由公式(15)可以求得包B₁中五个句子的新的权重系数：

α_{4_new}＝0

微调后包B₁中各句子新的权重系数α_{i_new}如表3所示。

表3包B₁中各句子新的权重α_{i_new}

步骤5：将包中各句子的特征向量与对应的调整后的句子的权重系数加权求和，获得该包的特征向量h_bag。

在同一个包下，充分利用包中权重值调整后的句子，结合所有句子的特征表示，作为整个实体对的包级特征表示。

本实施例中将包B₁中各句子的特征向量与相对应的调整后的权重系数α_inew加权求和，根据公式(16)获得包的特征向量h_bag为：

步骤6：对包中实体对进行关系分类。

如图4所示，步骤6包括如下步骤：

步骤6-1：利用全连接神经网络将包的特征向量h_bag扩维到数据集中预定义的关系个数维度。

h_final＝W_Bh_bag+b_B (17)

其中h_final表示扩维后包的特征向量表示，W_B表示全连接神经网络中的权重矩阵，b_B表示全连接神经网络中的偏置值。

步骤6-2：如图5所示，通过softmax函数将扩维后包的特征向量转换为概率值p。

p(r|B，ω)＝softmax(h_final) (18)

其中ω集合包括参数W₁、W₂、W₃、W₄、W₅、W_B、b_B，p(r_i|B，ω)表示关系r对应的概率值。

本实施例中，由于数据集中预定义了53个关系，因此通过全连接神经网络将包的特征向量h_bag扩维到53个维度，再通过softmax函数计算出实体对(New Orleans，DillardUniversity)对应的53维的概率，再利用这53个概率值对包B₁中的实体对进行关系分类。由公式(17)-(18)可以得出实体对(New Orleans，Dillard University)对应的53维的概率如下：

由得到的概率值可以推断出，53个概率值中最大值0.983所对应的关系/location/location/contains是包B₁最终关系分类的结果，从而包B₁最终的实体关系三元组为(New Orleans，/location/location/contains，Dillard University)。

本实例中，通过实验对比验证了本发明的基于PGAT和FTATT的远程监督关系抽取方法的有效性和可行性，对比实验的PR(Precision/Recall，精确率/召回率)曲线图如图6所示，从图中曲线可以看出，本发明基于PGAT和FTATT的远程监督关系抽取方法明显优于使用序列特征信息和多实例学习、注意力机制方法解决噪声问题的Mintz、MultiR、MIMLRE方法，主要原因是本发明中PGAT能够捕获句子的句法结构信息，使得抽取的句子特征包含语义和语法方面的丰富信息，同时使用FTATT过滤影响较大的噪声句子，缓解了噪声问题对关系抽取造成的严重影响。

应当理解的是，本领域技术人员在本发明技术构思的启发下，在不脱离本发明内容的基础上，还可以根据上述内容作出各种改进或变换，这仍落在本发明的保护范围之内。

Claims

1.一种基于PGAT和FTATT的远程监督关系抽取方法，其特征在于，所述PGAT为Piecewise Graph Attention Network，分段图注意力网络；所述FTATT为Fine-tuningAttention Mechanism，微调注意力机制；该方法包括以下步骤：

步骤2：获取每个包中句子的词语向量表示；

步骤4-2：对初始的权重系数进行微调，得到新的权重系数；

步骤6：根据包的特征向量，对包中实体对进行关系分类；

所述步骤3-2包括以下步骤：

2.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法，其特征在于，所述步骤2中所述词语向量表示的获取方法为：

通过Word2vec模型获取句子中词语的词嵌入；

将词嵌入和位置嵌入结合，作为当前词的词语向量表示。

3.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法，其特征在于，所述步骤3-2-4中图注意力网络对送入其中的依存矩阵执行如下步骤：

首先，计算词与词之间相互影响的重要程度；

4.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法，其特征在于，所述步骤4-1包括以下步骤：

计算输入的句子和关系之间匹配的分数；

5.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法，其特征在于，所述步骤4-2中通过阈值θ对初始的权重系数α_i进行微调得到新的权重系数α_{i_new}，微调公式如下：

其中n为包中句子总个数，k代表包中第k个句子。

6.根据权利要求5所述的基于PGAT和FTATT的远程监督关系抽取方法，其特征在于，所述阈值θ为超参数，设置为0.100。

7.根据权利要求1所述的基于PGAT和FTATT的远程监督关系抽取方法，其特征在于，所述步骤6包括如下步骤：

步骤6-1：将包的特征向量扩维到数据集中预定义的关系个数维度；

步骤6-2：将扩维后的包的特征向量转换为概率值；

步骤6-3：利用概率值对包中的实体对进行关系分类，将概率值中最大值对应的关系确定为包的最终关系，从而得到包的最终的实体关系三元组。

8.根据权利要求7所述的基于PGAT和FTATT的远程监督关系抽取方法，其特征在于，所述步骤6-1中利用全连接神经网络将包的特征向量扩维到数据集中预定义的关系个数维度。

9.根据权利要求7所述的基于PGAT和FTATT的远程监督关系抽取方法，其特征在于，所述步骤6-2中通过softmax函数将扩维后包的特征向量转换为概率值。