CN116719900A

CN116719900A - 基于超图建模文档级因果结构的事件因果关系识别方法

Info

Publication number: CN116719900A
Application number: CN202310595004.8A
Authority: CN
Inventors: 徐明华; 项威; 刘程; 杨松; 仝春艳; 黄涛
Original assignee: People Co Ltd
Current assignee: Konami Sports Club Co Ltd
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-09-08

Abstract

本发明公开了一种基于超图建模文档级因果结构的事件因果关系识别方法，基于该方法提出了因果超图神经网络模型，模型中设计了成对事件语义学习模块与文档级因果结构学习模块。本发明首先对文本按照成对事件和事件两种方式进行预处理；采用基于提示学习的预训练语言模型对成对事件句子建模，经过成对事件语义学习得到事件提及表示，同时预测事件对因果关系；采用预训练语言模型对句子建模，得到超图节点初始表示；结合预测的事件对因果关系，建模文档级因果超图；结合超图卷积学习，得到文档级事件表示；最后经过多层感知器处理，得到事件对的因果关系识别结果。本发明融合了提示学习和超图神经网络的优点，能有效提高事件因果关系识别的准确度。

Description

基于超图建模文档级因果结构的事件因果关系识别方法

技术领域

本发明属于基于提示学习和神经网络的文档级事件因果关系识别方法，具体涉及一种基于超图建模文档级因果结构的事件因果关系识别方法，用于事件关系识别技术领域。

背景技术

事件因果关系识别(记作ECI)旨在检测文档中两个事件之间是否存在因果关系。ECI任务对于许多自然语言处理(记作NLP)应用至关重要，例如问题回答，信息提取等。针对因果关系识别，现在已经开发出了多种技术，最新的方法可大致分为基于知识库的方法，基于提示学习范式的方法和基于图神经网络的方法。

基于知识库的方法思想是利用外部知识库获取外部因果知识，以增强因果关系识别。基于提示学习范式的方法思想是在预训练语言模型中建模文本的概率，将识别任务转化为文本的预测任务，从而达到因果关系识别的目的，目前在许多NLP任务中取得了很好的结果并且已经成功地运用在了ECI任务中。基于图神经网络的方法思想通常是将ECI任务建模为节点分类问题，并应用图神经网络从文档级上下文语义中学习事件节点表示向量，然后利用机器学习中常见的分类器进行分类。除了节点分类之外，一些研究还对事件图中的潜在因果边进行了研究，以进行因果关系识别。

基于知识库的方法可以有效地增强因果关系检测，对于句子级的事件因果关系识别有较好的效果，但不足在于不能充分利用文档级上下文语义，对于跨句子的因果关系识别率较低。基于提示学习范式的方法能深度挖掘文本的上下文语义信息，学习特征向量，对于句子级的事件因果关系识别率较高，但可解释性较差，且受限于预训练语言模型的输入长度限制不能充分学习文档级上下文语义信息，对于跨句子的因果关系识别率较低。基于图神经网络的方法能够充分利用文档级上下文语义信息，对于跨句子的因果关系识别率较高，但对于句内的语义信息利用不够充分。并且，现有的研究也

忽略了文档中事件因果关系相互依赖性的事实。

发明内容

针对现有技术的缺陷或改进需求，本发明提供了一种基于超图建模文档级因果结构的事件因果关系识别方法，其目的在于，解决现有的事件因关系识别方法中所存在的忽略了文档中事件因果关系相互依赖的事实的问题，同时利用成对事件语义辅助事件对因果关系识别，以进一步提高文档级事件因果关系识别的准确率。

为实现上述目的，本发明提供了一种基于超图建模文档级因果结构的事件因果关系识别方法，其特征在于，包括文本预处理步骤、成对事件语义学习步骤、预训练成对事件语义学习模块、文档级因果结构学习步骤、文档级因果关系识别步骤、训练和测试网络步骤；其中：

(1)文本预处理步骤：输入原始文档，按照成对事件和事件两种方式进行预处理，得到成对事件所在句子对与事件所在句子两类数据；

(2)成对事件语义学习步骤：采用基于提示学习的PLM，结合自定义模板对步骤(1)里的成对事件所在句子对建模，得到成对事件的上下文语义表示以及成对事件因果关系的预测结果；

(3)预训练成对事件语义学习模块步骤：基于预测的虚拟答案词与真实答案词构建交叉熵损失函数，通过最小化损失函数实现对成对事件语义学习模块的预训练，并在验证集中选择总体F1最高的模型作为成对语义学习模型；

(4)文档级因果结构学习步骤：将步骤(1)里的事件所在句子输入另一个PLM，得到句子级事件表示，结合步骤(2)里的成对事件因果关系的预测结果构建文档级因果超图，经过超图卷积神经网络，得到文档级事件表示；

(5)文档级因果关系识别步骤：拼接步骤(2)里的成对事件的上下文语义表示和步骤(4)里的文档级事件表示，通过多层感知网络预测文档中每个事件对存在因果关系的概率；

(6)训练和测试网络步骤：基于预测的因果概率分布和真实的因果标签y构建损失函数，然后训练网络以最小化损失函数，训练完成后输入验证集和测试集文档，选取验证集文档上F1值最高的模型，从而得到所对应的测试样本的因果关系预测结果。

进一步地，所述步骤(2)包括以下子步骤：

(2-1)首先将文档x_k＝(Evt_i；Evt_j)中的每个事件对构造为能够描述两个事件提及潜在因果关系的提示模板T_p(x)：

T_p(x_k)＝In this sentence，Evt_i[MASK]Evt_j.

其中，Evt_i和Evt_j是两个事件提及，在他们之间插入PLM的特定标记[MASK]进行关系预测，再将事件提及的原始句子T_s与构造的提示模板T_p连接起来，作为PLM的输入句子T，使用PLM特定标记[CLS]和[SEP]表示输入句子T的开头和结尾，另一个[SEP]用于T_s和T_p的分隔标记；

(2-2)使用PLM编码输入句子T，从输出中获取两个事件提及与特定标记[MASK]的隐藏向量：

其中和/>是两个事件提及的隐藏向量，/>是[MASK]的隐藏向量，d是隐藏向量的维度；

如果事件提及由多单词组成，则用它们的隐藏向量平均值作为事件提及表示，组合两个事件提及的隐藏向量得到成对事件的上下文语义表示：

在一个文档中的成对事件的上下文语义表示：

其中，k是文档中所有成对事件的对数。

进一步地，所述步骤(2)中，通过在PLM词汇表中加入的两个虚拟答案词，即Casual和None，基于PLM的MLM分类器根据来估计[MASK]为两个虚拟答案词的概率，采用概率较高的预测虚拟答案词作为成对事件因果关系的预测结果。

进一步地，所述步骤(4)中使用超图建模每个文档的因果结构，其中每个节点代表一个事件，超边是多个事件之间相互依赖的因果关系，具体包括：

将步骤(1)里的事件所在句子逐句输入另一个PLM，通过PLM编码得到句子级事件表示，多个单词构成的事件提及，则用组成单词隐藏向量的平均值作为句子级事件表示，然后将其编码为超图节点初始表示：

整个文档的超图结节点初始表示：

连接步骤(2)中成对事件因果关联的两个节点，对于每个事件节点，将其所有成对的因果关系聚合创建一条超边，用事件节点和超边构造超图，记作：

其中，ε是事件节点集，是超边集。

进一步地，所述步骤(4)中使用超图神经网络，基于超图节点初始表示与因果结构，通过超图卷积学习得到文档中每个事件的文档级事件表示：

进一步地，所述步骤(5)中根据步骤(2)中得到的成对事件向量H^PES和步骤(4)中得到的文档级事件向量E^(l)，将每个事件对的两种事件表示向量串联起来，作为因果关系分类的最终表示：

v_k＝[(e_i-e_j)||(e_i+e_j)||h_j||h_i]

其中||表示串联操作，

进一步地，所述步骤(5)中通过多层感知网络将每个事件对的表示v_k转化为因果概率分布，并将概率分布softmax归一化，得到每个事件对存在因果关系的概率，用公式表示如下：

其中W_c，b_c是可学习参数，是预测出的事件对存在因果关系的概率值。

进一步地，所述步骤(2)中，预训练语言模型使用基于RoBERTa的掩码语言模型，利用提示学习中掩码模型特定标记[MASK]预测文档中成对事件的因果关系。

进一步地，所述步骤(4)中，预训练语言模型使用RoBERTa模型；超图神经网络由两层超图卷积层构成，该超图卷积层的转化函数为：

其中σ是ReLU激活函数，代表超图/>的关联矩阵，如果事件e_n是超图上超边r_m的一个节点，Α(e_n,r_m)＝1，否则Α(e_n,r_m)＝0，D_e和D_r分别表示节点度和边度的对角矩阵，W是单位矩阵，/>是可学习参数，l层卷积后的输出为/>并且E⁽⁰⁾＝H^DCS。

进一步地，所述步骤(6)中，损失函数采用交叉熵损失函数，用公式表示如下：

其中，y^(k)和分别是文档中第k个事件对的真实标签和预测标签，λ和θ是正则化超参数。

总而言之，通过本发明所构思的以上技术方案与现有技术相比，能够取得更好的事件因果关系识别效果：由于采用了提示学习范式，基于文档的事件表示向量中融合了成对事件语义信息，有利于特定的语义信息的挖掘；由于采用了超图神经网络，捕获潜在文档级事件的相互依赖关系，最终的事件表示向量包含更多的因果结构信息。成对事件语义信息和文档级事件因果结构信息的结合，促进了事件因果关系识别效果的提升。

附图说明

图1是本发明提出的NCHM模型结构图；

图2是本发明提出的模型在ECS 0.9数据集中不同的超边度上的表现；

图3是本发明提出的模型在ECS 0.9数据集中不同的事件对距离上的表现；

图4是本发明提出的模型在具体文档中句内和句间ECI结果的可视化展示。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明基于超图建模文档级因果结构的事件因果关系识别方法的整体思路在于，该方法首先对文本按照成对事件和事件两种方式进行预处理，再采用基于提示学习的预训练语言模型对成对事件句子建模，经过成对事件语义学习得到事件提及的隐藏向量，同时预测事件对因果关系。然后采用预训练语言模型对句子建模，得到事件提及的隐藏向量，结合预测的事件对因果关系，基于超图建模文档级因果关系结构，结合超图卷积学习，得到文档级事件表示。最后将两种表示连接后输入多层感知器，得到文档中事件对之间存在因果关系的概率。

如图1所示，本发明基于超图建模文档级因果结构的事件因果关系识别方法，包括以下步骤：

具体地，包括以下子步骤：

T_p(x_k)＝In this sentence，Evt_i[MASK]Evt_j.

其中，Evt_i和Evt_j是两个事件提及，在他们之间插入PLM的特定标记[MASK]进行关系预测。

为包括句子的完整上下文语义，再将事件提及的原始句子T_s与构造的提示模板T_p连接起来，作为PLM的输入句子T。使用PLM特定标记[CLS]和[SEP]表示输入句子T的开头和结尾，另一个[SEP]用于T_s和T_p的分隔标记。

(2-2)使用PLM编码输入句子T，从输出中可以获取两个事件提及与特定标记[MASK]的隐藏向量：

其中和/>是两个事件提及的隐藏向量，/>是[MASK]的隐藏向量，d是隐藏向量的维度。

如果事件提及由多单词组成，则用它们的隐藏向量平均值作为事件提及表示。组合两个事件提及的隐藏向量可以得到成对事件的上下文语义表示：

在一个文档中的成对事件的上下文语义表示：

其中，k是文档中所有成对事件的对数。

(2-3)结合本发明在PLM词汇表中加入的两个虚拟答案词，即Casual和None，通过PLM的MLM分类器使用来估计[MASK]为两个虚拟答案词的概率，采用概率较高的预测虚拟答案词来作为成对事件因果关系的预测结果。

在步骤(2)中，预训练语言模型使用基于RoBERTa的掩码语言模型，利用提示学习中掩码模型特定标记[MASK]预测文档中成对事件的因果关系。

根据步骤(2-3)中预测的成对因果关系构建文档因果超图，结合超图卷积神经网络，得到文档级事件表示。包括以下子步骤：

(4-1)使用超图建模每个文档的因果结构，其中每个节点代表一个事件，超边是多个事件之间相互依赖的因果关系。

整个文档的超图结节点初始表示：

其中，ε是事件节点集，是超边集。

(4-2)使用超图神经网络，基于超图节点初始表示与因果结构，通过超图卷积学习得到文档中每个事件的文档级事件表示：

在步骤(4)中，预训练语言模型使用RoBERTa模型；超图神经网络由两层超图卷积层构成，该超图卷积层的转化函数为：

连接步骤(2-2)和步骤(4-2)中获得的两种表示，通过多层感知网络预测文档中每个事件对存在因果关系的概率。包括以下子步骤：

(5-1)根据步骤(2-2)中得到的成对事件向量H^PES和步骤(4-2)中得到的文档级事件向量E^(l)，将每个事件对的两种事件表示向量串联起来，作为因果关系分类的最终表示：

其中||表示串联操作，

(5-2)通过多层感知网络将每个事件对的表示v_k转化为因果概率分布，并将概率分布softmax归一化，得到每个事件对存在因果关系的概率。用公式表示如下：

在步骤(6)中，损失函数采用交叉熵损失函数，用公式表示如下：

以广泛应用于ECI任务的EventStoryLine 0.9Corpus(记作：ESCv0.9)数据集为例，展示本发明中提出的基于超图建模文档级因果结构的事件因果关系识别方法的性能效果。ESC数据集由来自不同新闻网站的新闻文档组成，包含22个主题，258篇文档，总计5334个事件提及。总共5625对事件对被标记为存在因果关系，其中1770对是句内因果关系，3855对是句间因果关系。与标准数据划分相同，使用最后两个主题作为验证集，剩下的20个主题进行5折交叉验证。采用平均结果的准确率(P)，召回率(R)以及F1值作为性能指标。

使用HuggingFace transformers提供的768维预训练语言模型RoBERTa，并在NVIDIA GTX 3090 GPUs上运行带有CUDA的PyTorch框架。RoBERTa是由Facebook提出的一种通过对大量未标记文本进行完形填空任务并以无监督的方式进行预训练的语言模型。实验的学习率设置为1e-5，超图层数设置为2，所有可训练参数均从正态分布随机初始化。我们使用L2正则化的Adam优化器并结合dropout进行模型训练。

为进一步探讨多个因果关系相互作用的影响，图2以柱状折线图的形式示出本发明提出的NCHM模型与在最终因果分类步骤仅使用文档级事件向量E^(l)的NCHM模型(记作：NCHM w/o PES)在不同超边度上的表现。其中，超边度是指这条超边连接了多少个节点。从图中可以看出，即使实例数目减少，两个模型仍受益于超边度的增加。说明通过学习文档因果结构来挖掘多个跨句事件之间的相互作用，有助于提高文档级因果关系识别性能。

为探究本发明提出的NCHM模型在文档级因果识别上的有效性，图3以柱状折线图的形式示出模型在不同事件距离上的表现。其中，使用两个事件提及之间包含的事件提及数量作为事件距离，NCHM w/o DCS是指在最终因果分类步骤仅使用成对事件向量H^PES的NCHM模型。从图中可以看出，相距较远的事件对因果关系的识别受益于文档级事件向量的引入。再次说明了超图建模文档级因果结构有助于挖掘多个事件之间的相互依赖关系，有利于文档级NCHM模型因果关系识别效果的提升。

图4示出NCHM模型和NCHM w/o DCS模型在ESC v0.9数据集中某一篇文档上的句内、句间事件对因果识别情况。从图中可以看出，对于句内事件对，两个模型的识别效果都较好；对于句间事件对，NCHM w/o DCS模型远差于NCHM模型，且差距集中在一个相同的事件“charged”。进一步说明了文档中的事件因果关系通常是相互依赖的，应该利用这一点来增强文档级的因果关系识别。

表1

表1示出本发明提出的NCHM模型与现有竞争模型在句内、句间和整体三个方面的性能比较。从表中可以看出，本发明提出的模型性能明显优于现有竞争模型，且对于句间因果关系识别的提升尤为明显，说明基于超图建模文档级因果结构所学习的多事件间的相互关系与成对事件语义的编码都有助于文档级事件对的因果关系识别。

为了比较本发明提出的基于超图建模文档级因果结构、基于提示学习的性能，本发明共测试了3种方案的因果关系识别效果，分别是：

(1)NCHM(layer＝x)：使用x层超图卷积层，即将步骤(4)中的超图卷积层数设置为x层，其余步骤不变。

(2)NCHM w/o DCS：不采用超图建模文档级因果结构，在最终因果分类步骤仅使用成对事件向量H^PES，即跳过步骤(4)及后续步骤，直接使用步骤(2)中预测的成对事件因果关系作为最终模型的预测结果；

(3)NCHM w/o PES：本发明提出的最终因果分类步骤仅使用文档级事件向量E^(l)，即步骤(5-1)中仅输入步骤(4-2)中得到的文档级事件向量E^(l)，然后进入步骤(5-2)及后续步骤；

表2

表2示出方案(1)-(3)的因果关系识别性能，从表中可以看出，超图卷积层数x设置为2相比其他层数具有较高的因果关系识别性能。结果证明超图卷积层数过少时聚合的信息不够，超图卷积层数过多则会出现过度平滑效应。方案(2)、(3)与完整模型相比，因果关系识别性能都有所不如。所以说明基于超图建模文档级因果结构所学习的多事件之间的相互关系与基于提示学习所挖掘的成对事件语义信息都利于提升因果关系识别的效果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于超图建模文档级因果结构的事件因果关系识别方法，其特征在于，包括文本预处理步骤、成对事件语义学习步骤、预训练成对事件语义学习模块、文档级因果结构学习步骤、文档级因果关系识别步骤、训练和测试网络步骤；其中：

2.如权利要求1所述的事件因果关系识别方法，其特征在于，所述步骤(2)包括以下子步骤：

(2-1)首先将文档x_k＝Evt_i；vt_j)中的每个事件对构造为能够描述两个事件提及潜在因果关系的提示模板T_p(x)：

T_p(x_k)＝In this sentence，Evt_i[MASK]t_j.

在一个文档中的成对事件的上下文语义表示：

其中，k是文档中所有成对事件的对数。

3.如权利要求1或2所述的事件因果关系识别方法，其特征在于，所述步骤(2)中，通过在PLM词汇表中加入的两个虚拟答案词，即Casual和None，基于PLM的MLM分类器根据来估计[MASK]为两个虚拟答案词的概率，采用概率较高的预测虚拟答案词作为成对事件因果关系的预测结果。

4.如权利要求1或2所述的事件因果关系识别方法，其特征在于，所述步骤(4)中使用超图建模每个文档的因果结构，其中每个节点代表一个事件，超边是多个事件之间相互依赖的因果关系，具体包括：

整个文档的超图结节点初始表示：

其中，ε是事件节点集，是超边集。

5.如权利要求1或2所述的事件因果关系识别方法，其特征在于，所述步骤(4)中使用超图神经网络，基于超图节点初始表示与因果结构，通过超图卷积学习得到文档中每个事件的文档级事件表示：

6.如权利要求2所述的事件因果关系识别方法，其特征在于，所述步骤(5)中根据步骤(2)中得到的成对事件向量H^PES和步骤(4)中得到的文档级事件向量E^(l)，将每个事件对的两种事件表示向量串联起来，作为因果关系分类的最终表示：

v_k＝[(e_i-e_j)||(e_i+e_j)||h_j||h_i]

其中||表示串联操作，

7.如权利要求1或2所述的事件因果关系识别方法，其特征在于，所述步骤(5)中通过多层感知网络将每个事件对的表示v_k转化为因果概率分布，并将概率分布softmax归一化，得到每个事件对存在因果关系的概率，用公式表示如下：

8.如权利要求1或2所述的事件因果关系识别方法，其特征在于，所述步骤(2)中，预训练语言模型使用基于RoBERTa的掩码语言模型，利用提示学习中掩码模型特定标记[MASK]预测文档中成对事件的因果关系。

9.如权利要求1或2所述的事件因果关系识别方法，其特征在于，所述步骤(4)中，预训练语言模型使用RoBERTa模型；超图神经网络由两层超图卷积层构成，该超图卷积层的转化函数为：

其中σ是ReLU激活函数，代表超图/>的关联矩阵，如果事件e_n是超图/>上超边r_m的一个节点，Α(e_n,r_m)＝1，否则Α(e_n,r_m)＝0，D_e和D_r分别表示节点度和边度的对角矩阵，W是单位矩阵，/>是可学习参数，l层卷积后的输出为/>并且E⁽⁰⁾＝H^DCS。

10.如权利要求1或2所述的事件因果关系识别方法，其特征在于，所述步骤(6)中，损失函数采用交叉熵损失函数，用公式表示如下：