CN113435190B

CN113435190B - 一种融合多层次信息抽取和降噪的篇章关系抽取方法

Info

Publication number: CN113435190B
Application number: CN202110538855.XA
Authority: CN
Inventors: 黄河燕; 袁长森; 冯冲; 李正君
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2022-08-05
Anticipated expiration: 2041-05-18
Also published as: CN113435190A

Abstract

本发明涉及一种融合多层次信息抽取和降噪的篇章关系抽取方法，属于计算机自然语言处理技术领域。包括：1、使用BERT作为编码器，将篇章信息进行向量化表示，并抽取其中的提及、实体、句子和篇章的隐含层向量信息；2、提出融合多层次的信息的方法解决多实例多标签的问题，多层次信息包括：提及层次的信息。实体层次的信息、句子层次的信息和篇章层次的信息；3、提出使用提及的位置信息粗略的抽取证明句子，然后使用降噪的方法来捕获重要的证明句子的关系特征。所述方法在针对篇章中实体对进行关系抽取时，能够考虑并解决篇章中多实例多标签以及证明句子难以识别等问题。实验表明所述方法在F1的测评指标上有显著的提升。

Description

一种融合多层次信息抽取和降噪的篇章关系抽取方法

技术领域

本发明涉及一种融合多层次信息抽取和降噪的篇章关系抽取方法，属于计算机人工智能自然语言处理技术领域。

背景技术

随着互联网技术飞速发展，大量的非结构化数据充斥着计算机网络，其中含有丰富的经济，人文，军事，政治等信息，其特点是增长速度快，信息繁杂，噪声大。传统的人工方法很难短时间内对大量的互联网数据进行信息提取。这一矛盾激励并推动了关系抽取技术的发展。关系抽取的目的是从海量的非结构化文本中抽取实体间的关系并存储成结构化的形式。这项任务有益于众多应用，例如问答系统、搜索引擎系统和推荐系统等。

现有的关系抽取方法大致可以分为四类：基于有监督学习的关系抽取、基于半监督学习的关系抽取、基于无监督学习的关系抽取和基于远程监督学习的关系抽取。基于有监督学习的关系抽取需要大量高质量的带有标签的数据作为训练集，使模型能够学习到准确的知识。该方法通常以单一的句子作为标注样本，首先确定样本中的实体，然后确定两个实体之间的关系，并且每个样本仅存在一种关系。如果实体对之间不存在预先定义好的关系，则标注成“NA”。有监督学习的关系抽取方法性能优异，但是需要耗费大量的人力物力来进行数据标注。基于半监督学习的关系抽的目的是为了解决有监督关系抽取依赖大规模标注数据的问题。半监督学习的方法需要大量未标注的数据和一些感兴趣关系类别的种子样例就可以训练模型，但是效果没有有监督学习方法的性能好。基于无监督学习的关系抽取方法一般聚类的方法，利用实体对之间的上下文信息，构建实体向量，计算他们之间的相似度，最后根据相似度进行聚类，并赋予每个类别关系标签。基于远程监督的关系抽取方法目的是解决数据标注问题，使用机器自动构造大规模的带有标签的训练数据和测试数据，但是远程监督方法构造的数据中存在着大量的噪声数据。以上四种方法的应用场景是抽取单一句子中实体对的关系，忽略了篇章中关系抽取的应用。

篇章关系抽取任务是从篇章中抽取多个实体对的多种关系。相比较于传统的单一句子的关系抽取，篇章关系抽取会面临以下三个困难：1、实体对的位置可能在单一句子之中，也可能是跨句子存在的，跨句子实体对会导致实体对之间的距离过长，难以捕捉实体对之间的关系；2、多个关系对应同一个实体对，存在实体重叠现象；3、实体对的关系更准确的来说是两个实体对内部提及之间的关系，因此，当实体存在多个提及时，很难捕捉有效的提及信息。由此可见，针对篇章关系抽取的特点，需要重新构建新的关系抽取方法。本发明拟采用抽取不同层次的有效信息并且降低噪声特征的影响，进而提高篇章关系抽取性能。

发明内容

本发明的目的是为了解决篇章关系抽取中多实体对多标签导致的F1值低的问题，提出了一种融合多层次信息抽取和降噪的篇章关系抽取方法。

为了达到上述目的，本发明采取如下技术方案：

所述篇章关系抽取方法，依托于如下定义：

定义1：篇章关系抽取，即从篇章中抽取出多个实体对的关系；

定义2：提及，即篇章中重复出现的同一个事物的标识；

定义3：实体，即能够代表篇章中某个提及类的标识；

定义4：关系向量，即能够表示某种关系的向量表示；

定义5：证明句子，即篇章中某些句子能够证明实体对属于某一种关系的句子，通常提及所在的句子称为证明句子；

定义6：BERT编码器，即一种预训练的语言表征模型，其功能是将篇章文字转化为隐藏层向量；

定义7：启发式匹配，即一种寻求答案的函数。在本发明中启发式匹配包括：若干向量的拼接，若干向量的相减和若干向量的点积；

定义8：图注意力网络，即一种处理图结构数据的网络模型，其功能是计算图结构中各个节点之间的联系；

定义9：注意力机制，即一种关注特殊信息的神经网络模型，其功能是使得神经网络具备关注其重要输入信息，而忽略次要输入信息；

定义10：BCEWithLogitsLoss，即一种二元的交叉熵损失函数，用来计算模型的损失值；

定义11：门函数，即一种控制信息流动程度的函数，其功能是模型自动筛选出重要的信息并加以融合；

定义12：前馈神经网络，即人工智能领域中最早发明的简单人工神经网络类型，参数从输入层经过隐藏层向输出层单向传播。

所述融合分层信息和降噪的篇章关系抽取方法，其具体操作步骤为：

其中，篇章关系抽取如定义1所述；

步骤一、使用BERT编码器，将篇章信息向量化表示，得到整个篇章的隐藏层向量、提及的向量信息、实体的向量信息以及句子的向量信息，具体为：

步骤1.1：利用BERT编码器对篇章内容进行编码，计算得到整个篇章的隐藏层向量；

其中，隐藏层向量包括篇章向量信息和每个词的信息；

其中，BERT编码器如定义6所述；

步骤1.2：抽取提及的向量信息，具体为：根据提及在篇章中的起始位置和终止位置，提取相应区间的提及隐藏层矩阵，将区间内的向量相加求平均计算出相应的提及向量信息；

其中，提及如定义2所述；

步骤1.3：抽取实体的向量信息，具体为：将提及关系向量相加求平均计算出实体的向量信息。

其中，实体如定义3所述；

步骤1.4：抽取句子的向量信息，具体为：根据证明句子在篇章中的起始位置和终止位置信息，抽取出相应区间的隐藏层矩阵，使用max-pooling计算出句子的向量信息；

其中，证明句子如定义5所述；

步骤二、融合多层次的信息，具体包括：捕获实体内部提及之间的相互联系、抽取提及层次的关系向量、实体层次的关系向量、句子层次的关系向量以及篇章层次的关系向量；

其中，多层次信息包括提及信息、实体信息、句子信息和篇章信息；

具体包括如下子步骤：

步骤2.1：对每个实体的提及进行图注意力机制，捕获实体内部提及之间的相互联系；

其中，图注意力机制如定义8所述；

步骤2.2：抽取提及层次的关系向量，具体为：对实体对的提及进行组合，得到三种组合使用启发式匹配，再使用注意力机制计算出三种提及层次的关系向量；

其中，对实体对的提及进行组合共分为3种组合方式：一个提及对应一个提及，一个提及对应多个提及和多个提及对应多个提及；

其中，启发式匹配如定义7所述；关系向量如定义4所述；注意力机制如定义9所述；

步骤2.3：抽取实体层次的关系向量，具体为：使用启发式匹配抽取实体对的关系向量；

步骤2.4：抽取句子层次的关系向量，具体为：使用提及的位置信息粗略的抽取出可能的证明句子信息；

其中，证明句子如定义5所述；步骤2.4操作的原因为：提及所在的句子，在很大程度上包含了证明句子，但其中包含噪声信息；

步骤2.5：抽取篇章层次的关系向量，具体为：将篇章信息作为篇章的关系向量。

步骤三、抽取证明句子中的重要关系信息，降低噪声信息对实体对关系预测的影响，具体包括如下子步骤：

步骤3.1：将步骤2.2得到的三种提及关系层次的关系向量以及步骤2.3得到的实体层次的关系向量作为查询，使用注意力机制提取四种证明句子的重要句子层次的关系向量；

其中，注意力机制如定义9所述；

步骤3.2：使用门函数融合篇章信息和四种证明句子的句子层次的信息得到四个关系向量；

其中，门函数如定义11所述；

步骤3.3：获得实体对的关系向量，具体为：融合提及层次的关系向量，实体层次的关系向量，句子层次的关系向量和篇章层次的关系向量；

步骤3.3具体为：直接使用加法将四种关系向量分别和经过门控函数得到的四种关系向量相加得到实体对的关系向量，然后使用前馈神经网络抽取关系向量特征；

其中，四种关系向量包括三个提及层次的关系向量以及实体层次关系向量；

其中，前馈神经网络如定义12所述；

步骤3.4：使用分类器预测多标签；

步骤3.5：使用BCEWithLogitsLoss来计算损失函数。使用梯度下降算法来优化模型，直至损失函数收敛，即得到网络模型的最优化参数；

其中，BCEWithLogitsLoss如定义10所述。

有益效果

本发明一种融合多层次信息抽取和降噪的篇章关系抽取方法，与现有的篇章关系抽取方法相比，具有如下有益效果：

1、在针对篇章关系抽取的多实例多标签导致的F1值低的问题时，考虑到利用多层次信息(提及信息，实体信息，句子信息和篇章信息)来增强和学习关系特征，有效地解决了多实例多标签的识别困难的问题；

2、在针对篇章关系抽取的证明句子复杂难以抽取时，考虑使用提及的位置粗略的定位到证明句子的位置，在使用注意力机制抽取重要的关系特征，降低噪声信息对关系抽取模型的影响；

3、我们对方法进行了详细的实验，实验结果表明，在相同数据集下，本发明所使用的方法与传统篇章抽取方法相比，本发明提出的融合分层信息和降噪的关系抽取方法在采用F1的评测指标上有显著提升。

附图说明

图1为本发明实施例一种融合分层信息和降噪的篇章关系抽取方法的整体设计流程图。

图2为本发明实施例一种融合分层信息和降噪的篇章关系抽取方法的整体框架图。

具体实施方式

下面结合附图对本发明实施例中所述的一种融合分层信息和降噪的篇章关系抽取方法进行详细、完整地叙述。

实施例1

一种融合多层次信息抽取和降噪的篇章关系抽取方法的具体流程如图1所示。本实施例叙述了本发明所述方法的流程及总体框架，分别如图1和图2所示。具体实施时，本发明所述方法可应用于抽取篇章数据中的三元组信息，更新知识图谱的知识。之所以篇章关系抽取很重要是因为现有的结构化知识占现有知识的比例还很小，而现实世界的知识通常以篇章的形式存在，并且还在不断地快速增长。人工构建结构化的知识需要很多的时间和金钱，并且人工的方法难以追赶上知识增长的速度。

本实施例中使用的数据来自DocRED数据集，其中包含5053篇文章，132375个实体和56354个关系。以其中的一个篇章为例：

表1篇章实例

如表1中所示，以实体对(Bulacan，Malolos)为例，共包含8个句子，证明句子存在于第2、4和5句子中，能够表现四种关系，分别是：Contain、Capital、Capital of和Located。

所述融合分层信息和降噪的篇章关系抽取方法，具体实施时，步骤如下：

步骤A、抽取提及、实体、句子和篇章的向量表示：

步骤A1：将篇章输入到BERT编码器中，得到整个篇章的隐藏层向量，包括篇章向量信息，D和词的特征向量，h；

其中，篇章为表1中整个篇章；

步骤A2：抽取提及的向量信息。根据提及在篇章中的位置，得到提及的特征向量，m_k。其中，k表示实体中的第k个提及。假设该提及从篇章中的第s个词到第t个词，则

其中，h_i表示篇章中第i个单词隐藏层向量；

其中，以表1中第2个句子的Bulacan为例，位置位于从第43个词到第44个词，即第43个词的隐藏层向量是提及(Bulacan)的向量信息；

步骤A3：抽取实体的向量信息。假设一个实体存在l个提及，首先使用图注意力机制计算提及之间的依存程度，然后在使用加权平均求实体的关系向量，

其中，以表1中实体Bulacan为例，存在两个提及信息，分别位于第2个句子和第4个句子中，将两个提及的隐藏层向量相加求平均，得到实体Bulacan的隐藏层向量；

步骤A4：抽取句子的向量信息。根据句子的起始位置和终止位置，得到句子向量。假设实体中的第i个提及所在的句子的起始位置是a，终止位置是b，则s_i＝Max([h_a,…,h_b])。其中，Max表示max-pooling,“[,]”表示向量的拼接；

其中，以第0个句子的信息为例，抽取从第0个单词开始到第22个单词的隐藏层向量，然后拼接成矩阵，使用max-pooling抽取句子的向量信息；

步骤B、融合多层次的信息，具体包括：实体内部提及之间的信息、提及层次的关系向量、实体层次的关系向量、句子层次的关系向量以及篇章层次的关系向量：

步骤B1:对每个实体的提及进行图注意力机制，捕获实体内部提及之间的相互联系；

其中，以Bulacan为例使用图注意力机制，捕获Bulacan的两个提及之间的联系；

步骤B2：抽取提及层次的关系向量。实体对中每个实体可能存在多个提及，因此，根据步骤A2得到的提及向量，将提及层次的关系表示分为三个组合，经过启发式匹配和注意力机制得到关系向量：M₁,M₂,M₃；

其中，以表1中的实体对(Bulacan，Malolos)为例，M₁表示一个提及对应一个提及的关系向量，共存在四种表示：第2个句子的Bulacan对应第5个句子中的第一个Malolos、第4个句子的Bulacan对应第5个句子中的第一个Malolos、第2个句子的Bulacan对应第5个句子中的第二个Malolos和第4个句子的Bulacan对应第5个句子中的第二个Malolos，然后使用启发式匹配和注意力机制计算得到关系向量；

其中，M₂表示一个提及对应多个提及的关系向量，一对多共存在4种表示：第2个句子的Bulacan对应Malolos的整体信息、第4个句子的Bulacan对应Malolos的整体信息、Bulacan的整体信息对应第5个句子中的第一个Malolos和Bulacan的整体信息对应第5个句子中的第二个Malolos，然后使用启发式匹配和注意力机制计算得到关系向量；

其中，M₃表示多个提及对应多个提及的关系向量，多对多存在1种表示：Bulacan的整体信息对应Malolos的整体信息，然后使用启发式匹配计算得到关系向量；

步骤B3：抽取实体层次的关系向量。根据步骤A3计算得到的实体向量，使用启发式匹配得到实体对的关系向量，E；

步骤B4：抽取句子(证明关系的句子)层次的关系向量。假设实体对的提及存在于k个句子中，则将k个句子抽取出来，作为句子级别的关系向量，S＝[s₁,…,s_k]。其中,“[,]”表示向量的拼接，s_k表示第k个句子的向量表示；

其中，以表1中的实体对(Bulacan，Malolos)为例，实体对的提及存在于第2、4和5个句子中，将这三个句子向量抽取出来进行拼接[s₂,s₄,s₅]。

步骤B5：抽取篇章层次的关系向量。在此处使用D作为篇章的向量表示。

步骤C：降低句子层次噪声数据对关系的影响，具体包括如下子步骤：

步骤C1：降低句子层次的噪声信息。使用提及层次的关系向量和实体层次的关系向量作为查询向量，计算句子层次的权值，将较大的权值分配给重要的句子的关系向量，降低噪声句子对模型的影响，具体为：使用注意力机制提取证明句子的重要关系特征，S₁,S₂,S₃,S₄；

其中，以表1中的实体对(Bulacan，Malolos)为例，S₁表示使用提及层次的关系向量M₁作为查询向量，计算证明句子([s₂,s₄,s₅])的权重，降低噪声句子的影响；S₂表示使用提及层次的关系向量M₂作为查询向量，计算证明句子([s₂,s₄,s₅])的权重，降低噪声句子的影响；S₃表示使用提及层次的关系向量M₃作为查询向量，计算证明句子([s₂,s₄,s₅])的权重，降低噪声句子的影响；S₄表示使用实体层次的关系向量E作为查询向量，计算证明句子([s₂,s₄,s₅])的权重，降低噪声句子的影响；

步骤C2：使用门函数融合句子层次和篇章层次的关系向量，具体计算公式如下：

其中，i∈[1,2,3,4]；

表示点积；

其中，Sigmoid为激活函数，W_g和b_g为可训练的参数，融合S₁,S₂,S₃,S₄和篇章信息D，得到四种重要的关系向量G₁,G₂,G₃,G₄；

步骤C3：将多层次信息进行融合得到关系向量，I＝[M₁+G₁,M₂+G₂,M₃+G₃,E+G₄]。然后经过前馈神经网络和分类器得到篇章中实体对的关系。

实施例2

本实施例叙述了本发明所述方法与未采用本发明所述参数选择的篇章关系抽取方法相比的技术优势。

参数选择：我们采用基于BERT-base预训练模型作为编码器，隐藏层维度为768,共有12层网络层数。通过手动调整选择所有超参数。预训练的学习率设置为1e-5，微调的学习率设置为1e-4。训练微调的隐藏层维度为256，训练数据的batch size大小选择的是2。dropout设置为0.2。我们使用TITAN XP显卡训练模型。

在训练集合、开发集合以及测试集合相同的情况下，采用相同的特征函数进行对比实验，并以F1为评测指标。其中，Ign F1为不存在于训练数集和开发集的关系事实。

表2的结果表明：当去掉提及层次关系向量信息时，Ing F1下降了2.1％，F1下降了2.8％；当去掉实体层次关系向量信息时，Ing F1下降了0.8％，F1下降了1.2％；当去掉提及句子关系向量信息时，Ing F1下降了1.5％，F1下降了2.3％；当去掉篇章层次关系向量信息时，Ing F1下降了0.3％，F1下降了0.8％；当包含句子层次噪声信息时，Ing F1下降了1.4％，F1下降了1.5％。因此，利用多层次信息模块(提及信息、实体信息、句子信息和篇章信息)和降噪模块可以增强和学习篇章中实体对的关系特征，有效地提升了多实例多标签的识别问题。

表2本发明各个组件的性能对比

我们选择国际顶级会议ACL上发表的篇章关系抽取论文作为基线系统。可以得到如下实验结果。表3的实验结果表明：在Dev上，本发明的Ign F1和F1值比基线系统分别高了11.4％和2.6％；在Test上，本发明的Ign F1和F1值比基线系统分别高了0.7％和1.2％。因此，在Dev和Test数据相同的情况下，采用本发明所述方法与不使用本发明的方法相比，关系抽取结果具有明显的提升。

表3使用本发明提出的方法与其他篇章关系抽取方法性能对比

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种融合多层次信息抽取和降噪的篇章关系抽取方法，其特征在于：依托于如下定义：

定义2：提及，即篇章中重复出现的同一个事物的标识；

定义3：实体，即能够代表篇章中某个提及类的标识；

定义4：关系向量，即能够表示某种关系的向量表示；

定义7：启发式匹配，即一种寻求答案的函数；所述启发式匹配包括：若干向量的拼接，若干向量的相减和若干向量的点积；

定义12：前馈神经网络，即人工智能领域中最早发明的简单人工神经网络类型，参数从输入层经过隐藏层向输出层单向传播；

所述篇章关系抽取方法，包括如下步骤：

其中，篇章关系抽取如定义1所述；

其中，BERT编码器如定义6所述；

其中，提及如定义2所述；

步骤1.3：抽取实体的向量信息，具体为：将提及关系向量相加求平均计算出实体的向量信息；

其中，实体如定义3所述；

其中，证明句子如定义5所述；

步骤二、融合多层次信息，具体包括：捕获实体内部提及之间的相互联系、抽取提及层次的关系向量、实体层次的关系向量、句子层次的关系向量以及篇章层次的关系向量；

步骤二、具体包括如下子步骤：

其中，图注意力机制如定义8所述；

其中，证明句子如定义5所述；

步骤2.5：抽取篇章层次的关系向量，具体为：将篇章信息作为篇章的关系向量；

步骤3.1：将步骤2.2得到的三种提及层次的关系向量以及步骤2.3得到的实体层次的关系向量作为查询，使用注意力机制提取四种证明句子的重要句子层次的关系向量；

其中，注意力机制如定义9所述；

其中，门函数如定义11所述；

步骤3.3：获得实体对的关系向量，具体为：融合提及层次的关系向量、实体层次的关系向量、句子层次的关系向量和篇章层次的关系向量；

步骤3.3具体为：直接使用加法将四种关系向量分别和经过门函数得到的四种关系向量相加得到实体对的关系向量，然后使用前馈神经网络抽取关系向量特征；

其中，四种关系向量包括三种提及层次的关系向量以及实体层次关系向量；

其中，前馈神经网络如定义12所述；

步骤3.4：使用分类器预测多标签；

步骤3.5：使用BCEWithLogitsLoss来计算损失函数，使用梯度下降算法来优化模型，直至损失函数收敛，即得到网络模型的最优化参数；

其中，BCEWithLogitsLoss如定义10所述。

2.根据权利要求1所述的一种融合多层次信息抽取和降噪的篇章关系抽取方法，其特征在于：步骤1.1中，隐藏层向量包括篇章向量信息和每个词的信息。

3.根据权利要求2所述的一种融合多层次信息抽取和降噪的篇章关系抽取方法，其特征在于：步骤二中，多层次信息包括提及信息、实体信息、句子信息和篇章信息。

4.根据权利要求1所述的一种融合多层次信息抽取和降噪的篇章关系抽取方法，其特征在于：步骤2.4操作的原因为：提及所在的句子，在很大程度上包含了证明句子，但其中包含噪声信息。