CN112686040A

CN112686040A - 一种基于图循环神经网络的事件事实性检测方法

Info

Publication number: CN112686040A
Application number: CN202011626720.0A
Authority: CN
Inventors: 黄河燕; 刘啸
Original assignee: Southeast Institute Of Information Technology Beijing University Of Technology; Beijing Institute of Technology BIT
Current assignee: Southeast Institute Of Information Technology Beijing University Of Technology; Beijing Institute of Technology BIT
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-20
Anticipated expiration: 2040-12-31
Also published as: CN112686040B

Abstract

本发明公开了一种基于图循环神经网络的事件事实性检测方法，属于信息抽取技术和计算机自然语言处理技术领域。本发明通过训练一个图循环神经网络事件事实性检测器，有效利用依存树中的信息，将其中包含丰富信息的边类别标签和方向信息与神经网络进行结合，同时，利用参数共享的性质缓解过拟合的风险。本方法，克服了传统方法没有将依存树中包含丰富信息的边类别标签和方向信息结合进神经网络中的缺陷，提高信息利用率。通过利用参数共享机制，规避了堆叠图网络层数来建模依存树中的多跳路径时因参数线性增长而导致的容易过拟合的风险。

Description

一种基于图循环神经网络的事件事实性检测方法

技术领域

本发明涉及一种面向文本的基于图循环神经网络的事件事实性检测方法，属于信息抽取技术和计算机自然语言处理技术领域。

背景技术

事件事实性检测，是指根据事件指示词和其所在的文本语境信息进行事实性分值估计的过程，用于识别文本中出现的事件是作为一种真实状态发生过、还未发生过，或者处于无法确定的状态。通常，利用事实性分值来表达这类状态，事实性分值为区间[-3,+3]中的有理数分值，越靠近+3表示事实性越高，越靠近-3表示事实性越低。比如，在句子“Expertsays the ground is too saturated.”中，“says”指示的事件应该为真实发生过的事件，因此事实性分值应为+3。通常，正确地判断一个事件的事实性，有助于支撑利用这些事实信息的下游任务的准确性。

目前，事件事实性检测技术面临诸多挑战。

首先，由于在事件指示词所出现的文本语境信息中可能存在多个词或词组共同作用于所指示事件的事实性，并且这些词或词组的分布位置不规则，导致很难建立统一的模板。

其次，将句法信息简化为词间的无向联通信息并利用Child-sum LSTM或者图卷积网络都不能完全地进行问题建模，没有利用到依存树中包含丰富信息的边类别标签和方向信息(参见文献[1]Rachel Rudinger,Aaron Steven White,Benjamin Van Durme.Neuralmodels of factuality[C]//Proceedings of the2018Conference of the NorthAmerican Chapter of the Association for Computational Linguistics,NAACL2018.，文献[2]Amir Pouran Ben Veyseh,Thien Huu Nguyen,Dejing Dou.Graph basedNeural Networks for Event Factuality Prediction using Syntactic and SemanticStructures[C]//Proceedings of the 57th Conference of the Association forComputational Linguistics,ACL2019.)，而且利用Child-sum LSTM进行自底向上或者自顶向下地信息传递时，不仅会忽略上下信息间交互的关系，也没有区分不同子节点之间的贡献程度。

此外，通过堆叠图卷积网络来建模依存树中的多跳路径，会有因参数线性增长而导致容易过拟合的风险。

综上所述，现有方法尚没有能够将依存树中包含丰富信息的边类别标签和方向信息结合进神经网络的技术方案公开，信息利用率低。

发明内容

本发明的目的是为了克服目前的事件事实性检测方法信息利用率低，没有将依存树中包含丰富信息的边类别标签和方向信息结合进神经网络等技术缺陷，提出一种基于图循环神经网络的事件事实性检测方法。

本发明的创新点在于：有效利用依存树中的信息，将其中包含丰富信息的边类别标签和方向信息与神经网络进行结合，同时，利用参数共享的性质缓解过拟合的风险。

本发明采用的技术方案如下：

一种基于图循环神经网络的事件事实性检测方法，包括以下步骤：

训练一个图循环神经网络事件事实性检测器，包括一个文本编码器、一个有向图编码器和一个真实性分值回归器。

其中，所述文本编码器是参数会随着训练而微调的BERT编码器，所述有向图编码器是扩展建模了边的方向和类别标签的图循环神经网络模型，所述真实性分值回归器是一个多层堆叠的全连接神经网络模型。所述有向图为根据文本依存树构建的包含边类别标签的有向图；

步骤1：建立带有事实性分值标注的“事件指示词-句子对”训练样本，对样本中的文本建立有向图，记录事件指示词在其中的位置，作为图循环神经网络事件事实性检测器的输入，由此训练出图循环神经网络事件事实性检测器。

步骤1.1：从文本中找出事件指示词，形成“事件指示词-句子对”语料。

步骤1.2：对每一个“事件指示词-句子对”，标注一个事件事实性分值，形成训练样本。

步骤1.3：对“事件指示词-句子对”语料中的句子进行依存解析，得到依存解析树，加上自环和序列边，形成以词为节点的有向图。

依存解析，可以利用SpaCy工具包(https://spacy.io/)实现。

步骤1.4：利用文本编码器，获得词嵌入。

具体地，步骤1.4可以采用以下方法实现：

步骤1.4.1：使用BERT tokenizer，将句子切分为subword序列，并记录每一个词对应的subword序列范围。

步骤1.4.2：将subword序列输入BERT编码器，得到模型最后一层对每一个subword的输出向量。

步骤1.4.3：根据每一个词所对应的subword序列范围，将范围中第一个subword的输出向量作为这个词的词嵌入。

步骤1.5：将词嵌入和有向图输入图循环神经网络编码器，获得节点表示和图表示。

具体地，步骤1.5可以采用以下方法实现：

步骤1.5.1：初始化节点表示和图表示为零值向量。

步骤1.5.2：根据步骤1.3中的有向图和当前节点表示，利用缩放点积注意力机制算法，为每一个节点分别计算出边和入边的贡献度，并利用softmax进行归一化。

步骤1.5.3：根据贡献度作为权重，以及步骤1.3中的有向图和当前节点表示，为每一个节点i，对每一条出边<i,j>或入边<j,i>，从边类别表中以类别标签为键查询边表示。

步骤1.5.4：为每一个节点i，对每一条出边<i,j>或入边<j,i>，将端点j的节点表示与边表示进行拼接，以步骤1.5.2中计算的贡献度为权重，分别为出边和入边计算加权和，作为该点的出边和入边的语境表示。

步骤1.5.5：为每个节点，将词嵌入、语境表示和图表示进行拼接，作为输入向量，将节点表示作为隐状态向量，利用单步GRU单元更新算法，计算新的节点表示。

步骤1.5.6：将新的节点表示计算平均值作为输入向量，将图表示作为隐状态向量，利用单步GRU单元更新算法计算新的图表示。根据图循环神经网络编码器的层数T，重复T次步骤1.5.2至步骤1.5.6。

步骤1.6：利用缩放点积注意力机制算法和节点表示，计算出以事件指示词为中心的词嵌入。

具体地，步骤1.6可以采用以下方法实现：

步骤1.6.1：将事件指示词对应的词嵌入与所有词的词嵌入分别计算点积，并利用根号下维度值缩放。

步骤1.6.2：使用softmax将缩放之后的值序列进行归一化，使得整个序列中值的和为1。

步骤1.6.3：使用归一化之后的值作为权重，计算词嵌入的加权和，作为以事件指示词为中心的词嵌入。

步骤1.7：将以事件指示词为中心的词嵌入和图表示进行向量拼接，利用真实性分值回归器计算事实性分值。

具体地，步骤1.7可以采用以下方法实现：

步骤1.7.1：将以事件指示词为中心的词嵌入和图表示进行向量拼接。

步骤1.7.2：利用双层的以tanh为激活函数的全连接网络，作为回归器计算事实性分值。

步骤1.8：利用计算得到的事实性分值和标注的事实性分值，计算smooth L1损失函数。利用Adam优化算法进行训练，优化文本编码器、有向图编码器和真实性分值回归器中的参数。

优化结束后，得到包含最优参数的图循环神经网络事件事实性检测器。

步骤2：找到待计算的事件指示词在文本中出现的位置，对文本建立有向图。使用文本编码器获得词嵌入，使用有向图编码器获得节点表示、边表示和图表示，使用真实性分值回归器获得事件指示词的事实性分值。

其中，所述词嵌入、节点表示、边表示和图表示，均为多维实值向量。

其中，所述事实性分值为区间[-3,+3]中的有理数分值，越靠近+3表示事实性越高，越靠近-3表示事实性越低。

具体地，步骤2包括以下步骤：

步骤2.1：从文本中找出待计算的事件指示词的位置。

步骤2.2：对文本进行依存解析，得到依存解析树，加上自环和序列边，形成以词为节点的有向图。

依存解析，可以利用SpaCy工具包(https://spacy.io/)实现。

步骤2.3：利用步骤1训练得到的文本编码器，获得词嵌入。

步骤2.4：将词嵌入和有向图输入步骤1中训练得到的图循环神经网络编码器，获得节点表示和图表示.

步骤2.5：利用缩放点积注意力机制算法和节点表示，计算出以事件指示词为中心的词嵌入；

步骤2.6：将以事件指示词为中心的词嵌入和图表示进行向量拼接，利用步骤1训练得到的真实性分值回归器，计算事实性分值，并将小于-3或大于+3的分值截断，使输出区间为[-3,+3]。

有益效果

本发明方法，对比现有技术，具有以下优点：

1.克服了传统方法没有将依存树中包含丰富信息的边类别标签和方向信息结合进神经网络中的缺陷，提高信息利用率；

2.利用参数共享机制，规避了堆叠图网络层数来建模依存树中的多跳路径时因参数线性增长而导致的容易过拟合的风险；

3.通过FactBank、Meantime、UW和UDS-IH2英文事件事实性检测数据集进行事件事实性分值计算任务，实验结果表明，在相同的数据集下，本发明所采用的方法与传统堆叠图卷积网络或Child-sum LSTM的方法相比，本发明所提出的基于图循环神经网络的事件事实性检测方法在平均绝对误差Mean Absolute Error(MAE)和皮尔逊相关系数Pearsoncorrelation coefficient(r)评测指标上都有显著提升。

附图说明

图1为本发明方法的整体框架流程图。

图2为本发明方法基于依存解析的有向图构建的示意图。

具体实施方式

下面结合附图和具体实施例对本发明方法做进一步详细描述。

实施例1

一种基于图循环神经网络的事件事实性检测方法，如图1所示，所述图循环神经网络事件事实性检测器，包括一个文本编码器、一个有向图编码器和一个真实性分值回归器，所述文本编码器是参数会随着训练而微调的BERT编码器，所述有向图编码器是扩展建模了边的方向和类别标签的图循环神经网络模型，所述真实性分值回归器是一个多层堆叠的全连接神经网络模型，所述有向图为根据文本依存树构建的包含边类别标签的有向图。

本实施例给出了本发明所述方法的流程及其具体实施例。

本实施例中使用的数据来自FactBank、Meantime、UW及UDS-IH2英文事件事实性检测数据集。

所述方法包括：

步骤1：建立带有事实性分值标注的“事件指示词-句子对”训练样本，对样本中的文本建立有向图，记录事件指示词在其中的位置，作为图循环神经网络事件事实性检测器的输入，由此训练出图循环神经网络事件事实性检测器；

上述技术方案中，所述词嵌入、节点表示、边表示和图表示均为多维实值向量。

上述技术方案中，所述事实性分值为区间[-3,+3]中的有理数分值，越靠近+3表示事实性越高，越靠近-3表示事实性越低。

所述步骤1具体包括：

步骤1.1：从文本中找出事件指示词，形成“事件指示词-句子对”语料，比如给定句子“Expert says the ground is too saturated”(专家说土地太饱和了)，其中的词“says”(说)是一个事件指示词；

步骤1.2：对每一个“事件指示词-句子对”，人工标注一个事件事实性分值，形成训练样本，比如根据语境判断，在上述例句中，词“says”(说)指示的事件应该是真实发生过的，所以应该标为+3；

步骤1.3：利用SpaCy工具包(https://spacy.io/)对“事件指示词-句子对”语料中的句子进行依存解析，得到依存解析树，加上自环和序列边，形成以词为节点的有向图，比如上述例句会形成如图2所示的有向图；

步骤1.4：利用文本编码器获得词嵌入；

所述步骤1.4的具体实现过程为：

步骤1.4.1：使用BERT tokenizer将句子切分为subword序列，并记录每一个词对应的subword序列范围，比如上述例句会被切分为这样的subword序列：“Expert”，“says”，“the”，“ground”，“is”，“too”，“saturated”，其中每个词对应的subword序列范围为表1所示内容；

表1例句中词对应subword序列范围

词	subword序列起始位置	subword序列终止位置
			Expert	1	1
says	2	2
			the	3	3
ground	4	4
			is	5	5
too	6	6
			saturated	7	7

步骤1.4.2：将subword序列输入BERT编码器，得到模型最后一层对每一个subword的输出向量；

步骤1.5：将词嵌入和有向图输入图循环神经网络编码器，获得节点表示和图表示；

所述步骤1.5的具体实现过程为：

步骤1.5.1：初始化节点表示和图表示为零值向量；

步骤1.5.2：根据步骤1.3中的有向图和当前节点表示，利用缩放点积注意力机制算法为每一个节点分别计算出边和入边的贡献度，并利用softmax进行归一化；

步骤1.5.3：根据贡献度作为权重、步骤1.3中的有向图和当前节点表示，为每一个节点i，对每一条出边<i,j>或入边<j,i>，从边类别表中以类别标签为键查询边表示；

步骤1.5.4：为每一个节点i，对每一条出边<i,j>或入边<j,i>，将端点j的节点表示与边表示进行拼接，以步骤1.5.2中计算的贡献度为权重，分别为出边和入边计算加权和，作为该点的出边和入边的语境表示；

步骤1.5.5：为每个节点，将词嵌入、语境表示和图表示进行拼接作为输入向量，将节点表示作为隐状态向量，利用单步GRU单元更新算法计算新的节点表示；

步骤1.5.6：将新的节点表示计算平均值作为输入向量，将图表示作为隐状态向量，利用单步GRU单元更新算法计算新的图表示；

根据图循环神经网络编码器的层数T，重复T次步骤1.5.2到步骤1.5.6。

步骤1.6：利用缩放点积注意力机制算法和节点表示，计算出以事件指示词为中心的词嵌入；

所述步骤1.6的具体实现过程为：

步骤1.6.1：将事件指示词对应的词嵌入与所有词的词嵌入分别计算点积，并利用根号下维度值缩放；

步骤1.6.2：使用softmax将缩放之后的值序列进行归一化，使得整个序列中值的和为1；

步骤1.7：将以事件指示词为中心的词嵌入和图表示进行向量拼接，利用真实性分值回归器计算事实性分值；

所述步骤1.7的具体实现过程为：

步骤1.7.1：将以事件指示词为中心的词嵌入和图表示进行向量拼接；

步骤1.7.2：利用双层的以tanh为激活函数的全连接网络作为回归器计算事实性分值。

步骤1.7.3：利用计算得到的事实性分值和标注的事实性分值计算smooth L1损失函数，利用Adam优化算法进行训练，优化文本编码器、有向图编码器和真实性分值回归器中的参数，优化结束后得到包含最优参数的图循环神经网络事件事实性检测器。

步骤2：找到待计算的事件指示词在文本中出现的位置，对文本建立有向图，使用文本编码器获得词嵌入，使用有向图编码器获得节点表示、边表示和图表示，使用真实性分值回归器获得事件指示词的事实性分值。

所述步骤2具体包括：

步骤2.1：从文本中找出待计算的事件指示词的位置；

步骤2.2：利用SpaCy工具包(https://spacy.io/)对文本进行依存解析，得到依存解析树，加上自环和序列边，形成以词为节点的有向图；

步骤2.3：利用步骤1中训练得到的文本编码器获得词嵌入；

步骤2.4：将词嵌入和有向图输入步骤1中训练得到的图循环神经网络编码器，获得节点表示和图表示；

步骤2.6：将以事件指示词为中心的词嵌入和图表示进行向量拼接，利用步骤1中训练得到的真实性分值回归器计算事实性分值，并将小于-3或大于+3的分值截断，使输出区间为[-3,+3]。

实施例2

通过FactBank、Meantime、UW和UDS-IH2英文事件事实性检测数据集进行事件事实性分值计算任务，实验结果表明，在相同的数据集下，本发明所采用的基于图循环神经网络的事件事实性检测方法与传统堆叠图卷积网络或Child-sum LSTM的方法相比，采用平均绝对误差Mean Absolute Error(MAE)和皮尔逊相关系数Pearson correlation coefficient(r)作为评测指标，可以得到如表2所示实验结果：

表2使用本发明方法与传统方法性能对比

表2的实验结果证明：在数据相同的情况下，采用本发明所述方法与不使用本发明的方法相比，平均绝对误差Mean Absolute Error(MAE)和皮尔逊相关系数Pearsoncorrelation coefficient(r)评测指标有明显提升。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实例和附图所公开的内容。凡是不脱离本发明所公开的精神下所完成的等效或修改，都落入本发明的保护范围。

Claims

1.一种基于图循环神经网络的事件事实性检测方法，其特征在于，包括以下步骤：

训练一个图循环神经网络事件事实性检测器，包括一个文本编码器、一个有向图编码器和一个真实性分值回归器；

其中，所述文本编码器是参数会随着训练而微调的BERT编码器；

所述有向图编码器是扩展建模了边的方向和类别标签的图循环神经网络模型；

所述真实性分值回归器是一个多层堆叠的全连接神经网络模型；所述有向图为根据文本依存树构建的包含边类别标签的有向图；

步骤1.1：从文本中找出事件指示词，形成“事件指示词-句子对”语料；

步骤1.2：对每一个“事件指示词-句子对”，标注一个事件事实性分值，形成训练样本；

步骤1.3：对“事件指示词-句子对”语料中的句子进行依存解析，得到依存解析树，加上自环和序列边，形成以词为节点的有向图；

步骤1.4：利用文本编码器，获得词嵌入；

步骤1.8：利用计算得到的事实性分值和标注的事实性分值，计算smooth L1损失函数；利用Adam优化算法进行训练，优化文本编码器、有向图编码器和真实性分值回归器中的参数；

步骤2：找到待计算的事件指示词在文本中出现的位置，对文本建立有向图；使用文本编码器获得词嵌入，使用有向图编码器获得节点表示、边表示和图表示，使用真实性分值回归器获得事件指示词的事实性分值；

其中，所述词嵌入、节点表示、边表示和图表示，均为多维实值向量；

2.如权利要求1所述的一种基于图循环神经网络的事件事实性检测方法，其特征在于，步骤1.4包括以下步骤：

步骤1.4.1：使用BERT tokenizer，将句子切分为subword序列，并记录每一个词对应的subword序列范围；

3.如权利要求1所述的一种基于图循环神经网络的事件事实性检测方法，其特征在于，步骤1.5包括以下步骤：

步骤1.5.1：初始化节点表示和图表示为零值向量；

步骤1.5.2：根据步骤1.3中的有向图和当前节点表示，利用缩放点积注意力机制算法，为每一个节点分别计算出边和入边的贡献度，并利用softmax进行归一化；

步骤1.5.3：根据贡献度作为权重，以及步骤1.3中的有向图和当前节点表示，为每一个节点i，对每一条出边<i,j>或入边<j,i>，从边类别表中以类别标签为键查询边表示；

步骤1.5.5：为每个节点，将词嵌入、语境表示和图表示进行拼接，作为输入向量，将节点表示作为隐状态向量，利用单步GRU单元更新算法，计算新的节点表示；

步骤1.5.6：将新的节点表示计算平均值作为输入向量，将图表示作为隐状态向量，利用单步GRU单元更新算法计算新的图表示；根据图循环神经网络编码器的层数T，重复T次步骤1.5.2至步骤1.5.6。

4.如权利要求1所述的一种基于图循环神经网络的事件事实性检测方法，其特征在于，步骤1.6包括以下步骤：

5.如权利要求1所述的一种基于图循环神经网络的事件事实性检测方法，其特征在于，步骤1.7包括以下步骤：

6.如权利要求1所述的一种基于图循环神经网络的事件事实性检测方法，其特征在于，步骤2包括以下步骤：

步骤2.1：从文本中找出待计算的事件指示词的位置；

步骤2.2：对文本进行依存解析，得到依存解析树，加上自环和序列边，形成以词为节点的有向图；

步骤2.3：利用步骤1训练得到的文本编码器，获得词嵌入；