CN113723074A

CN113723074A - 一种基于证据检验增强的文档级关系抽取方法

Info

Publication number: CN113723074A
Application number: CN202110993094.7A
Authority: CN
Inventors: 黄振; 宋一帆; 徐浩; 韩圣亚; 李素建
Original assignee: Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-30
Anticipated expiration: 2041-08-27
Also published as: CN113723074B

Abstract

本发明提供了一种基于证据检验增强的文档级关系抽取方法，该方法构建基于证据检验增强的文档级关系抽取模型，模型包括关系抽取模块和证据验证模块；通过联合训练的方式，使证据验证模块引导关系抽取模块关注对于关系判断更为重要的信息；由于采用了证据验证的方式利用证据信息，避免了直接使用证据进行关系抽取可能产生的错误传播问题，从而提高了文档级关系抽取的准确率。

Description

一种基于证据检验增强的文档级关系抽取方法

技术领域

本发明提供一种文档级关系抽取技术，具体涉及一种基于证据检验增强的文档级关系抽取方法，属于自然语言处理中的信息抽取技术领域。

背景技术

关系抽取是自然语言处理领域最基本的问题之一，得益于近年来深度学习技术的发展，基于神经网络的模型在传统句子级关系抽取数据集上取得了较好的成绩，其中包括基于CNN(Convolution Neural Network，卷积神经网络)的模型，以及基于LSTM(LongShort-Term Memory，长短期记忆网络)的模型，Cai等人(2016)、Guo等人(2019)、Mandya等人(2020)尝试在神经网络模型中加入依存关系(Dependency Parsing)等结构信息。由于在应用场景中，实体与实体之间的关系往往是由多句话表达，即有可能存在需要跨句推理得出的关系，基于句子级别的模型在此场景下性能会受到较大的局限。因此，近年来研究者开始探索长文档场景下的关系抽取。

现有的文档级关系抽取模型中，Xie等人提出了证据增强的文档级关系抽取模型EIDER，该模型对文档中的关系和证据进行联合抽取，再以证据为中心进行关系抽取，以证据为中心的抽取结果与原始文档的抽取结果进行融合得到最终抽取出的关系信息。然而，这种做法中的证据抽取模块会产生额外的噪声，若在第一步中抽取出的证据存在错误，则会将错误传递到后续的模型训练及预测中。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于证据检验增强的文档级关系抽取方法，针对自然语言处理中信息抽取现有技术存在的句法信息中的噪声问题，通过在文档级关系抽取模块后引入证据检验模块，通过梯度回传的方式自动更新关系抽取模块的模型参数，使之更加关注关系抽取所需的关键信息，避免直接使用证据预测结果导致的错误传递问题。

为方便起见，以下列出本发明相关术语名称及含义：

文档级关系抽取：关系抽取(Relation Extraction)旨在判断非结构化文本中实体之间的关系，作为信息抽取最重要的子任务之一，其结果能够应用于问答系统、对话系统、阅读理解等下游任务，是许多更为复杂的自然语言处理技术的基石。另一方面，由于实体关系也是知识图谱的重要组成部分，因此关系抽取在大规模知识图谱的自动构建过程中也扮演着重要的角色。文档级关系抽取可以形式化描述为：对于给定的包含N个句子的文档

和实体集合

其中

代表第i个句子包含M_i个单词，

表示文档总长度，

和m_j表示第i个实体的第j次提及(mention)，文档级关系抽取旨在抽取E中不同实体之间的关系，即得到集合{(e_i,r_ij,e_j)|e_i,e_j∈E,r_ij∈R}，其中R是预先定义的关系集合。

证据：文档级关系抽取面临着以下难点：如何判断文档中的哪些语句有助于判断两个实体之间的关系，如果引入冗余的信息进行实体关系的判断并不一定起到正面作用，实体之间的关系可能仅通过一两句话即可判断，例如可以仅通过第2、4、7句话判断“ZestAirways,Inc.”与“Philippines”之间存在“国家”的关系，我们称这些句子为“证据”(evidence)。对于文档中的两个实体，其关系往往可以通过一两句关键的“证据”(Evidence)得出，而文档中的其他信息往往是不必要的噪声。从这一点出发，我们设计了证据检验的辅助任务来帮助模型找到并更加关注于判断两实体之间关系的关键信息。证据检验任务可以形式化描述为：给定文档

和两个实体e_s,e_o，证据预测旨在判断句子s_i是否为支撑e_s,e_o之间关系r的证据，即二分类任务。

预训练语言模型：近年来，以GPT-2和BERT为代表的预训练语言模型(PretrainedLanguage Models)在自然语言处理领域得到了大规模的应用。目前大多数预训练语言模型基于Transformer架构，通过设置预训练任务，使用大规模无标注语料进行预训练(Pretrain)，在应用于下游任务时，仅需要在预训练语言模型上叠加特定任务所需的层，进行微调(fine-tune)后即可取得较好效果。BERT基于Transformer架构，通过掩码语言模型(Masked Language Model)和下一句话预测(Next Sentence Prediction)两个预训练任务，在海量无标注数据上进行预训练，最终在GLUE自然语言处理任务中取得了当时最好的成绩。

本发明通过证据检验的方式，增强现有文档级关系抽取模型寻找关键信息的能力，从而提高文档级关系抽取的效果。

本发明的核心是：对于一篇文档，首先使用基于预训练语言模型的关系抽取模块抽取其中存在的关系信息，然后将关系信息输入证据验证模块，得到该关系在文中对应的证据，将预测出的证据与标准答案计算损失函数，通过神经网络梯度回传的方式，证据检验模块引导关系抽取模块关注对于关系判断更为重要的信息。

本发明提供的技术方案是：

一种基于证据检验增强的文档级关系抽取方法，构建基于句法指导的文本命名实体信息识别模型，模型包括基于预训练语言模型的关系抽取模块(由下述的A、B、C、D步骤组成)、证据验证模块(由下述的E、F、G、H步骤组成)，最终采用联合训练的方式共同训练两个模块。其中，基于预训练语言模型的关系抽取模块首先对输入的文档进行编码，得到每一个词的结合了上下文信息的向量表示，然后经过一系列运算得到对实体之间关系的预测；证据验证模块根据关系抽取模块得到的关系，在原文档中寻找对应的证据信息；最终采用联合训练的方式，证据验证模块通过梯度回传的方式提高关系抽取模块关系判断的准确性。上述方法通过对关系抽取模块结果进行证据验证的方式，使得证据结果反过来指导关系抽取模块关注对于关系判断更为重要的信息，并且巧妙地弥补了前人工作中证据预测结果错误传播问题；包括如下步骤：

1)构建关系抽取模块，得到文档中所有实体对之间的关系概率；包括步骤A～D：

A.获取文档中每一个单词结合了上下文的嵌入表示；

给定一篇文档

s_i为文档D中的句子，N为文档中的句子数，w_ij为句子s_i中的单词，M_i为s_i包含的单词个数，我们将其输入预训练语言模型BERT得到结合了上下文的嵌入：H＝[h₁,h₂,…,h_l]＝BERT([w₁,w₂,…,w_l])，

表示文档总长度；

B.根据单词结合了上下文的嵌入表示，通过logsumexp池化，得到第i个实体e_i的第j次提及(mention)m_ij，

m_ij，T为提及m_ij所含单词个数；

C.对于第i个实体，对其所有的提及表示做logsumexp池化得到实体表示

Q为第i个实体的提及数量；

D.通过上述过程得到了两个实体e_s和e_o以及对应的嵌入表示

和

为了得到关系的概率，首先使用线性层和非线性激活函数tanh得到其隐藏状态，然后再通过双线性函数以及sigmoid函数得到最终关系分类的概率：

其中

都是可训练的模型参数。P(r|e_s,e_o)为e_s和e_o之间存在关系r的概率，r∈R；

2)构建证据检验模块，根据关系抽取模块得到的实体之间的关系预测结果，得到文档中能够支撑该关系判断的证据；包括步骤E～H：

E.获取文档中每一个单词新的结合了上下文的嵌入表示；

类似于关系抽取模块，给定一篇文档

s_i为文档D中的句子，N为文档中的句子数，w_ij为句子s_i中的单词，M_i为s_i包含的单词个数，我们将其输入预训练语言模型BERT得到结合了上下文的嵌入：H′＝[h′₁,h′₂,…,h′_l]＝

表示文档总长度。

F.根据文档的嵌入表示[h′₁,h′₂,…,h′_l]，通过logsumexp池化得到每一句的表示：

其中M为句子s_i所含的单词数

G.根据关系抽取模块得到的两实体e_s和e_o之间存在关系r_j的概率P(r_j|e_s,e_o)，对关系嵌入表示做加权平均，得到最终的关系表示向量

其中关系嵌入表示r_j可以通过梯度回传的方式进行更新；

H.通过双线性函数以及sigmoid函数得到第i句话是支撑两实体e_s和e_o之间存在关系r′的证据的概率：

其中

都是可训练的模型参数；

3)关系抽取模块和证据验证模块同时训练，包括步骤：

I.根据模型预测结果计算损失函数，再通过最大似然估计的方式来求解模型参数，损失函数如下：

Loss＝Loss_RE+λ*Loss_Evi

其中λ＞0为权重超参数，用于对两个任务的损失函数进行权衡。最终通过梯度下降优化算法迭代地找到损失函数的最小值完成神经网络的参数训练过程。其中证据验证模块将梯度回传给关系抽取模块，辅助关系抽取模块更新参数，使之更加关注关系判断所需的重要信息。

4)训练完成后，舍弃证据验证模块，关系抽取模块即可用来做预测，由于两个实体之间可能存在多种关系，因此我们人工设置阈值θ，如果P(r|e_s,e_o)＞θ，即输出关系(e_s,r,e_o)。

通过上述步骤，实现基于证据验证的文档级关系抽取。

与现有技术相比，本发明的有益技术效果：

通过本发明所提供的基于证据验证的文档级关系抽取技术，在利用证据信息对关系抽取结果进行验证，从而增强关系抽取模块关注重要信息能力的同时，避免了自然语言处理中信息抽取中抽取出的证据的错误传递问题，降低了直接使用证据引入噪声对关系抽取影响，提高了关系抽取模型的表现，提高关系抽取的准确性。

附图说明

图1是本发明提供的基于证据检验增强的文档级关系抽取模型的总体结构示意图。其中，从左至右分别为模型的关系抽取模块和证据验证模块；

图2是本发明提供文本命名实体信息方法的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供了基于证据检验增强的文档级关系抽取方法，构建基于证据检验增强的文档级关系抽取模型，模型包括关系抽取模块和证据验证模块；通过联合训练的方式，使证据验证模块引导关系抽取模块关注对于关系判断更为重要的信息；由于采用了证据验证的方式利用证据信息，避免了直接使用证据进行关系抽取可能产生的错误传播问题，从而提高了文档级关系抽取的准确率。

具体实施时，我们模型的实现基于PyTorch和Huggingface Transformers库，我们使用BERT-base作为预训练语言模型。二分类层中实体隐藏状态为768维，损失函数证据预测权重为1e-3。模型使用AdamW优化器，BERT学习率为5e-5，微调层学习率为1e-4，优化器在前6％的步数中进行预热，模型的梯度以1.0的比率进行截断。所有超参数均在验证集上进行测试。在推断时，对于关系分类和证据预测的阈值均设置为0.5。

本发明的具体实施方式，其模型总框架如图1所示，包括关系抽取模块和证据验证模块。

训练样本包括文档级关系抽取数据样本，具体来说是DocRed文档级关系抽取数据集。

此数据集包括了6个实体类别：人物(PER)、组织(ORG)、地点(LOC)、时间(TIME)、数字(NUM)、杂项(MISC)，以及96个关系类别，包括政府首脑、出生地、首都、包含等关系。数据集一共包括了101873条训练数据(在train.json文件中)、1000条验证数据(在dev.json文件中)和1000条测试数据(在test.json文件中)。

以train.json为例，数据分为四个字段：title、sents、vertexSet和labels，其中title字段代表文档的标题，sents字段代表文档中的句子，vertexSet字段代表文档中出现的实体，labels字段代表实体之间存在的关系。

例如：

其中，vertexSet表示文档中所有的实体，同一个实体可能会在文档中出现多次；{"name":"Lark Force","pos":[0,2],"sent_id":0,"type":"ORG"}，表示实体名是“LarkForce”，所在位置是文档中第0个句子的0～2个单词(注：下标从0开始计数，下同)，实体类型是组织(ORG)；labels表示文档中实体之间的关系；{"r":"P607","h":1,"t":3,"evidence":[0]}，表示头实体是vertexSet中的第一个实体，尾实体是vertexSet中的第3个实体，头尾实体之间存在“发生冲突”(P607，conflict)的关系，能够支撑该关系判断的句子是文档中的第0句话。

基于证据检验增强的文档级关系抽取模型的训练和预测包括以下步骤：

A.获取文档中每一个单词结合了上下文的嵌入表示；

给定一篇文档

表示文档总长度；

D.通过上述过程得到了两个实体e_s和e_o以及对应的嵌入表示

和

为了得到关系的概率，首先使用线性层和非线性激活函数tanh得到其隐藏状态，然后再通过双线性

函数以及sigmoid函数得到最终关系分类的概率：

其中

E.获取文档中每一个单词新的结合了上下文的嵌入表示；

类似于关系抽取模块，给定一篇文档

s_i为文档D中的句子，N为文档中的句子数，w_ij为句子s_i中的单词，M_i为s_i包含的单词个数，我们将其输入预训练语言模型BERT得到结合了上下文的嵌入：H′＝[h′₁,h′₂,…,h′_l]＝BERT([w₁,w₂,…,w_l])，

表示文档总长度。

其中关系嵌入表示r_j可以通过梯度回传的方式进行更新；

其中

都是可训练的模型参数；

Loss＝Loss_RE+λ*Loss_Evi

训练完成后，舍弃证据验证模块，关系抽取模块即可用来做预测，由于两个实体之间可能存在多种关系，因此我们人工设置阈值θ，如果P(r|e_s，e_o)＞θ，即输出关系(e_s,r,e_o)。

通过上述步骤，实现基于证据验证增强的文档级关系抽取。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。