CN112507124A

CN112507124A - 一种基于图模型的篇章级别事件因果关系抽取方法

Info

Publication number: CN112507124A
Application number: CN202011408734.5A
Authority: CN
Inventors: 何发智; 赵坤; 罗锦坤
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-03-16
Anticipated expiration: 2040-12-04
Also published as: CN112507124B

Abstract

本发明提出了一种基于图模型的篇章级别事件因果关系抽取方法。本发明进行数据收集并进行训练集合、测试集合的划分；对训练集合进行事件与事件因果关系人工标注；对数据进行预处理操作得到规范化后的输入数据；将规范化后的输入数据通过BERT语言模型获得事件与句子的语义向量；将事件与句子的语义向量利用层次注意力机制获取包含篇章信息的事件语义向量；基于包含篇章信息的事件语义向量利用图模型计算事件因果关系；利用梯度下降算法进行训练得到可用于预测事件因果关系的模型。本发明的事件因果关系抽取性能更加优良，且也能推广至其他类型实体关系、事件关系抽取任务之中。

Description

一种基于图模型的篇章级别事件因果关系抽取方法

技术领域

本发明涉及自然语言处理领域，尤其涉及其中的要素抽取任务，是一种面向自然文本的事件因果关系抽取方法及其计算系统。

背景技术

事件关系抽取是指从自然文本当中自动判断事件之间存在的语义逻辑关系，包括事件关系的类型与方向。作为重要的要素抽取手段之一，事件关系抽取能服务于多种自然语言处理任务与应用，如自动问答、阅读理解、事件预测等。鉴于其重要性，越来越多的研究者开始关注事件关系抽取。

因果关系作为一类重要的事件关系，能反应事件之间的内在逻辑。在自然文本当中，因果关系有显式与隐式两类，其中显式因果关系是指文本当中存在明显的反映因果关系的文字线索，如“由于”、“导致”等；隐式因果关系是指文本当中不存在明显的反应因果关系的文字线索，但是在语义、情景层面蕴涵因果逻辑。其中，后者在实际场景中更为常见，但识别与抽取的难度也更大。目前已有事件关系、实体关系抽取算法主要以句子为粒度已进行要素抽取，且依赖于明显的文本线索，在实际应用中具有局限性。本发明综合利用多种深度学习算法，提出一种基于图模型的篇章级别事件因果关系抽取方法及其计算系统。

发明内容

本发明提出一种基于图模型的篇章级别事件因果关系自动抽取方法及其计算系统，旨在于从非结构化自然文本当中自动捕获事件因果关系的类型与方向，进而服务于智能问答、文本摘要、阅读理解等下游自然语言处理应用。相对于以往方法，本发明不需要人工构造复杂的文本特征，主要基于语言模型、层次注意力模型来建模事件与文本语义信息，并训练图模型来自动捕获事件之间隐含的推理关系。所述技术方案如下：

本发明提出一种基于图模型的篇章级别事件因果关系抽取方法，包括以下步骤：

步骤1：收集篇章文本数据，通过随机抽取算法分别得到多篇文本组成未标注训练数据集合，剩余文本组成预测数据集合；将未标注训练数据集合利用CAT方法进行人工标注，得到包含事件位置下标索引与事件之间对应因果关系的训练数据集合。

步骤2：将训练数据集合中每个文本数据进行数据预处理得到符合BERT语言模型输入规范的规范化后的输入数据；

步骤3：将规范化后的输入数据通过BERT语言模型获得事件与句子的语义向量。

步骤4：将事件与句子的语义向量利用层次注意力机制获取包含篇章信息的事件语义向量。

步骤5：基于包含篇章信息的事件语义向量利用图模型计算事件因果关系。

步骤6：将步骤3、4、5所述模型利用梯度下降算法进行训练得到可用于预测事件因果关系的模型。

作为优选，步骤1训练数据集合为：

{{Content₁，Event_index₁，Event_relation₁}，

{Content₂，Event_index₂，Event_relation₂}，…，

{Content_N，Event_index_N，Event_relation_N}}

其中，Content_n表示训练数据集合中第n个文本数据，n∈[1，N]，N＝100为训练数据集合中文本数据的数量

Evet_index_n表示第n个文本数据对应的事件下标索引列表，其定义如下：

其中，Event_index_start_n，m表示第n个文本数据对应的事件下标索引列表中第m个事件对应的文本起始下标，Event_index_end_n，m表示第n个文本数据对应的事件下标索引列表中第m个事件对应的文本终止下标，m∈[1，M_n]，M_n表示第n个文本数据中事件数量。

Event_relation_n表示第n个文本数据对应的事件因果关系列表，定义如下：

其中，r_n，k表示第n个文本数据对应的事件因果关系列表中第k个事件关系，

k∈[1，M_n*(M_n-1)/2]，M_n*(M_n-1)/2表示第n个文本数据中共可以组成M_n*(M_n-1)/2个事件关系。

作为优选，步骤2所述将训练数据集合中每个文本数据进行数据预处理得到符合BERT语言模型输入规范的数据包括以下步骤：

步骤2.1、将数据集合中每个文本数据即(Content₁、Content₂、…、Content_N)，分别利用正则表达式匹配算法对文本进行无意义内容清洗以及文本分句处理，得到文本句子列表；

步骤2.2、将文本句子列表中的每个句子基于下述步骤转换为BERT语言模型输入需要的索引列表；

利用BERT模型的分词算法得到词片列表；

利用列表插入算法在词片列表收尾项增加“[CLS]”与“[SEP]”标记；

利用BERT模型的字典映射算法得到词片列表对应的索引列表；

第n个文本数据中第ns个句子对应的索引列表定义如下：

[index_n，ns，1，index_n，ns，2，index_n，ns，3，…，index_n，ns，Q-1，index_n，ns，Q]

其中，index_n，ns1表示第n个文本数据中第ns个句子对应的“[CLS]”标记字典映射后得到的索引值，index_n，ns，Q表示第n个文本数据中第ns个句子对应的“[SEP]”标记字典映射后得到的索引值，index_n，ns，Q-1表示第n个文本数据中第ns个句子对应的列表中第Q个词片字典映射后得到的索引值。

作为优选，步骤3所述规范化后的输入数据利用BERT语言模型获得事件与句子的语义向量包括以下步骤：

步骤3.1、将规范化后的输入数据逐句利用BERT语言模型中词嵌入算法、多头自注意力算法，得到各句子的词向量列表。

第n个文本数据中第ns个句子的词向量列表可定义为：

[w_n，ns，1，w_n，ns，2，w_n，ns，3，…，w_n，ns，Q-1，w_n，ns，Q]。

其中，w_n，ns，1表示第n个文本数据中第ns个句子对应的“[CLS]”对应索引计算得到的向量值，w_n，ns，Q表示第n个文本数据中第ns个句子对应的“[SEP]”对应索引计算得到的向量值，w_n，ns，Q-1表示第n个文本数据中第ns个句子对应的索引列表中第Q个对应索引计算得到的向量值。

步骤3.2、将各句子的词向量列表，利用列表切片操作取出各列表首项向量，作为各句子语义向量。

第n个文本数据中第ns个句子的语义向量可定义为：s_n，ns＝w_n，ns，1。

第n个文本数据中所有句子语义向量组成的句子语义列表定义为：

其中，NS_n表示第n个文本数据中句子数量。

步骤3.3、将各句子的词向量列表，按照步骤1.2所述事件位置下标索引逐句取出各事件向量序列，并对事件向量序列求取向量平均值，作为各事件语义向量。

第n个文本数据中第m个事件语义向量可定义为：

其中，Evet_index_start_n，m表示步骤1所述第n个文本数据中第m个事件对应的文本起始下标，Evet_index_end_n，m表示步骤1所述第n个文本数据中第m个事件对应的文本终止下标。

第n个文本数据中所有事件语义向量组成的事件语义向量列表定义为：

其中M_n表示第n个文本数据中事件数量。

作为优选，步骤4所述将事件与句子的语义向量利用层次注意力机制获取包含篇章信息的事件语义向量，包括以下步骤：

步骤4.1、通过前述步骤3.2得到的句子语义向量，利用注意力机制计算得到包含篇章信息的句子语义向量。公式如下：

其中，NS_n表示第n个文本数据中句子的数量；s_n，i表示第n个文本数据中第i个句子语义向量；s_n，u表示第n个文本数据中第u个句子语义向量；sd_n，i表示s_n，i在融合了其他句子信息后的语义向量，即第n个文本数据中第i个包含篇章信息的句子语义向量；W_s是待训练矩阵参数；b_s是待训练偏置项参数。

步骤4.2、通过前述步骤3.3得到的事件语义向量与步骤4.1得到的包含篇章信息的句子语义向量，利用注意力机制计算得到包含篇章信息的事件语义向量。公式如下：

其中，NS_n表示第n个文本数据中句子的数量；e_n，i表示第n个文本数据中第i个事件语义向量；ed_n，u是指步骤4.1中获得的第n个文本数据中第u个包含了篇章信息的句子语义向量；ed_n，i指e_n，i在融合了各sd_n，u之后的语义向量，即第n个文本数据中第i个包含篇章信息的事件语义向量，W_es是待训练矩阵参数；b_es是待训练偏置项参数。

作为优选，步骤5所述包含篇章信息的事件语义向量利用图模型计算事件因果关系包括以下步骤：

步骤5.1：将包含篇章信息的各事件语义向量利用列表插入操作形成事件语义向量列表；

步骤5.2：将事件语义向量列表利用Biaffine算法得到事件因果关系矩阵：

其中，H是事件语义向量列表，U⁽¹⁾、U⁽²⁾分别为第一待训练矩阵参数、第二待训练矩阵参数，b为待训练偏置项参数；

步骤5.3、基于事件因果关系矩阵，利用图模型进行计算得到包含因果推理信息的事件语义向量列表：

其中，

表示事件语义向量列表中第i个事件语义向量在第L+1次迭代后得到的新的事件语义向量，

表示事件语义向量列表中第i个事件语义向量在第L次迭代时的事件语义向量。G_i表示与事件语义向量列表中第i个事件构成邻接关系的事件集合,c_ij为该集合所包含事件数量，c表示图中存在的连接关系类型数量，所述连接关系类型包括：无关系、正向因果关系、反向因果关系，W_n是连接关系为n时待训练矩阵参数，b_n是连接关系为n时待训练偏置项参数，α_n是连接关系为n时信息更新权重。

步骤5.4、基于包含因果推理信息的事件语义向量列表，利用Biaffine算法得到最终事件因果关系预测结果：

其中，H′是包含因果推理信息的事件语义向量列表，U⁽¹⁾、U⁽²⁾、b与步骤5.2中所述参数保持一致。

将Biaffine(H)计算得到的结果经过降维算法得到最终预测结果，定义为：

其中NR_n表示第n个文本数据中篇章中预测出的事件数量，NR_n＝M_n*(M_n-1)/2，M_n为步骤1所述第n个文本数据中事件数量。

作为优选，步骤6.1、将步骤5.4所述最终事件因果关系预测结果与步骤1.2所述事件之间对应因果关系标注结果利用交叉熵算法计算预测损失梯度；

步骤6.2、将预测损失梯度利用梯度下降算法对步骤3-步骤5所述模型进行训练更新；

步骤6.3、执行上述两步骤直到训练终止得到可用于预测事件因果关系的模型；

所述训练终止条件：每轮次训练后，基于训练数据集合，以F1-score为评价指标，进行五折交叉验证，连续多轮次评价指标分数不上升即终止训练。

另一方面，本发明提供一种计算机系统，所述计算机系统至少包括处理器、存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述基于图模型的篇章级别事件因果关系抽取方法。

本发明的有益效果

本发明提出一种基于图模型的篇章级别事件因果关系抽取方法及其计算系统，旨在于从非结构化自然文本当中自动捕获蕴涵的事件因果关系，进而服务于智能问答、文本摘要、阅读理解等下游自然语言处理应用。

本发明解决了以往方法中需要人工构造大量文本特征、依赖语言线索、篇章信息融合能力差、隐含关系捕获能力差等问题，利用预训练语言模型自动捕获事件与文本语义信息，并利用层次注意力机制模型融合篇章信息，以及使用一种新颖的图模型来完成事件关系的推理与预测。实验实例表明，相对于以往方法，本发明的事件因果关系抽取性能更加优良。同时，该方法也能推广至其他类型实体关系、事件关系抽取任务之中。

附图说明

图1：本发明方法流程示意图。

图2：本发明与以往方法的实验结果对比图。

图3：计算系统结构示意图。

具体实施方法

该部分结合实例对本发明所涉及的方法以及计算系统作进一步详细描述。

下面结合图1至图3介绍本发明的具体实施方式。

本发明实施实例按照图1所示的流程示意图进行，包括以下步骤：

一种基于图模型的篇章级别事件因果关系抽取方法，包括以下步骤：

步骤1：收集篇章文本数据，通过随机抽取算法分别得到多篇文本组成未标注训练数据集合，剩余文本组成预测数据集合；将未标注训练数据集合利用CAT方法进行人工标注，得到包含事件位置下标索引与事件之间对应因果关系的训练数据集合。本实例使用EventStoryLine这一开源且已经进行上述标注的数据集进行实施方法介绍。

步骤1训练数据集合为：

{{Content₁，Event_index₁，Event_relation₁}，

{Content₂，Event_index₂，Event_relation₂}，…，

{Content_N，Event_index_N，Event_relation_N}}

其中，Content_n表示训练数据集合中第n个文本数据，n∈[1，N]，N＝254为训练数据集合中文本数据的数量；

步骤2所述将训练数据集合中每个文本数据进行数据预处理得到符合BERT语言模型输入规范的数据包括以下步骤：

利用BERT模型的分词算法得到词片列表；

利用BERT模型的字典映射算法得到词片列表对应的索引列表；

第n个文本数据中第ns个句子对应的索引列表定义如下：

步骤3所述规范化后的输入数据利用BERT语言模型获得事件与句子的语义向量包括以下步骤：

第n个文本数据中第ns个句子的词向量列表可定义为：

其中，NS_n表示第n个文本数据中句子数量。

第n个文本数据中第m个事件语义向量可定义为：

其中M_n表示第n个文本数据中事件数量。

步骤4所述将事件与句子的语义向量利用层次注意力机制获取包含篇章信息的事件语义向量，包括以下步骤：

其中,NS_n表示第n个文本数据中句子的数量；s_n，i表示第n个文本数据中第i个句子语义向量；s_n，u表示第n个文本数据中第u个句子语义向量；sd_n，i表示s_n，i在融合了其他句子信息后的语义向量，即第n个文本数据中第i个包含篇章信息的句子语义向量；W_s是待训练矩阵参数；b_s是待训练偏置项参数。

其中，NS_n表示第n个文本数据中句子的数量；e_n，i表示第n个文本数据中第i个事件语义向量；sd_n,u是指步骤4.1中获得的第n个文本数据中第u个包含了篇章信息的句子语义向量；ed_n,i指e_n,i在融合了各sd_n，u之后的语义向量，即第n个文本数据中第i个包含篇章信息的事件语义向量，W_es是待训练矩阵参数；b_es是待训练偏置项参数。

步骤5所述包含篇章信息的事件语义向量利用图模型计算事件因果关系包括以下步骤：

其中,L＝2为迭代总次数；

表示事件语义向量列表中第i个事件语义向量在第L次迭代时的事件语义向量。G_i表示与事件语义向量列表中第i个事件构成邻接关系的事件集合,c_ij为该集合所包含事件数量，c＝3表示图中存在的连接关系类型数量，所述连接关系类型包括：无关系、正向因果关系、反向因果关系，W_n是连接关系为n时待训练矩阵参数，b_n是连接关系为n时待训练偏置项参数，α_n是连接关系为n时信息更新权重。

将Biaffine(H′)计算得到的结果经过降维算法得到最终预测结果，定义为：

步骤6：将步骤3-步骤5所述模型利用梯度下降算法进行训练得到可用于预测事件因果关系的模型包括以下步骤：

步骤6.1、将步骤5.4所述最终事件因果关系预测结果与步骤1.2所述事件之间对应因果关系标注结果利用交叉熵算法计算预测损失梯度；

图2展示了本专利提出的技术方案(表格中最下方的DCGIM模型)与其它算法模型在Event Storyline数据集上的结果对比，可以看出，本专利提出的方案具有更好的事件因果关系抽取性能。

在计算系统方面，本发明提供的方法，各步骤的执行依托于计算系统。该计算系统至少包括处理器以及存储器，存储器用于存储计算程序指令，处理器用于运行程序指令并执行上述基于图模型的篇章级别事件因果关系抽取方法。一般来说，具备数据计算、处理和存储能力的电子设备都可以用作本发明的计算系统，如个人计算机、服务器或移动终端等。

图3展示了本实例所使用的一种计算系统结构示意图。其中设备包括中央处理单元(CPU)、图形处理单元(GPU)、系统存储器，系统存储器又包括随机存取存储器(RAM)和只读存储器(ROM)。上述组件由系统总线相连，帮助实现各单元之间的通信。此外，该计算系统还可以包括操作系统、应用程序、输入/输出系统等其他组成部分。

所述系统存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行。在上述实例中处理器个数为四(四核处理器)。

所述图形处理单元(GPU)可用于加速本专利所述方法的训练、执行效率，其使用方法是在程序运行时指定计算系统的某一图形处理单元为程序执行单元，需要注意该图形处理单元的存储空间大小不能小于程序所需存储空间大小，本专利所述实例在11G存储空间的图形处理单元中运行。

所述输入/输出系统包括用于显示信息的显示器等输出设备和用于用户输入信息的鼠标、键盘等输入设备。其中所述输入/输出设备都连接至输入输出控制器，进而接入系统总线。输入输出控制器可用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器还提供输出到显示屏、打印机或其他类型的输出设备。

所述应用程序用于启动某个特定的待执行程序，可以看作是一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述实例提供的基于图模型的篇章级别事件因果关系抽取方法。

本发明未尽事宜为公知技术。上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于图模型的篇章级别事件因果关系抽取方法，其特征在于，包括以下步骤：

步骤1：收集篇章文本数据，通过随机抽取算法分别得到多篇文本组成未标注训练数据集合，剩余文本组成预测数据集合；将未标注训练数据集合利用CAT方法进行人工标注，得到包含事件位置下标索引与事件之间对应因果关系的训练数据集合；

步骤3：将规范化后的输入数据通过BERT语言模型获得事件与句子的语义向量；

步骤4：将事件与句子的语义向量利用层次注意力机制获取包含篇章信息的事件语义向量；

步骤5：基于包含篇章信息的事件语义向量利用图模型计算事件因果关系；

2.根据权利要求1所述的基于图模型的篇章级别事件因果关系抽取方法，其特征在于：

步骤1训练数据集合为：

{{Content₁,Event_index₁，Event_relation₁},{Content₂,Event_index₂，Event_relation₂},…,{Content_N,Event_index_N，Event_relation_N}}

其中，Content_n表示训练数据集合中第n个文本数据,n∈[1,N]，N＝100为训练数据集合中文本数据的数量

Evet_index_n表示第n个文本数据对应的事件下标索引列表,其定义如下：

其中，Event_index_start_n，m表示第n个文本数据对应的事件下标索引列表中第m个事件对应的文本起始下标，Event_index_end_n，m表示第n个文本数据对应的事件下标索引列表中第m个事件对应的文本终止下标,m∈[1,M_n]，M_n表示第n个文本数据中事件数量；

k∈[1,M_n*(M_n-1)/2]，M_n*(M_n-1)/2表示第n个文本数据中共可以组成M_n*(M_n-1)/2个事件关系。

3.根据权利要求1所述的基于图模型的篇章级别事件因果关系抽取方法，其特征在于：

步骤2所述将训练数据集合中每个文本数据进行数据预处理得到符合BERT语言模型输入规范的数据包括以下步骤:

利用BERT模型的分词算法得到词片列表；

利用BERT模型的字典映射算法得到词片列表对应的索引列表；

第n个文本数据中第ns个句子对应的索引列表定义如下：

[index_n，ns，1,index_n，ns，2,index_n，ns，3,…,index_n，ns，Q-1,index_n，ns，Q]

4.根据权利要求1所述的基于图模型的篇章级别事件因果关系抽取方法，其特征在于：

步骤3.1、将规范化后的输入数据逐句利用BERT语言模型中词嵌入算法、多头自注意力算法，得到各句子的词向量列表；

第n个文本数据中第ns个句子的词向量列表可定义为：

[w_n，ns，1,w_n，ns，2,w_n，ns，3,…,w_n，ns，Q-1,w_n，ns，Q]；

其中，w_n，ns，1表示第n个文本数据中第ns个句子对应的“[CLS]”对应索引计算得到的向量值，w_n，ns，Q表示第n个文本数据中第ns个句子对应的“[SEP]”对应索引计算得到的向量值，w_n，ns，Q-1表示第n个文本数据中第ns个句子对应的索引列表中第Q个对应索引计算得到的向量值；

步骤3.2、将各句子的词向量列表，利用列表切片操作取出各列表首项向量，作为各句子语义向量；

第n个文本数据中第ns个句子的语义向量可定义为：s_n，ns＝w_n，ns,1；

其中，NS_n表示第n个文本数据中句子数量；

步骤3.3、将各句子的词向量列表，按照步骤1.2所述事件位置下标索引逐句取出各事件向量序列，并对事件向量序列求取向量平均值，作为各事件语义向量；

第n个文本数据中第m个事件语义向量可定义为:

其中，Evet_index_start_n，m表示步骤1所述第n个文本数据中第m个事件对应的文本起始下标，Evet_index_end_n，m表示步骤1所述第n个文本数据中第m个事件对应的文本终止下标；

其中M_n表示第n个文本数据中事件数量。

5.根据权利要求1所述的基于图模型的篇章级别事件因果关系抽取方法，其特征在于：

步骤4.1、通过前述步骤3.2得到的句子语义向量，利用注意力机制计算得到包含篇章信息的句子语义向量；公式如下：

其中,NS_n表示第n个文本数据中句子的数量；s_n，i表示第n个文本数据中第i个句子语义向量；s_n，u表示第n个文本数据中第u个句子语义向量；sd_n，i表示s_n，i在融合了其他句子信息后的语义向量，即第n个文本数据中第i个包含篇章信息的句子语义向量；W_s是待训练矩阵参数；b_s是待训练偏置项参数；

步骤4.2、通过前述步骤3.3得到的事件语义向量与步骤4.1得到的包含篇章信息的句子语义向量，利用注意力机制计算得到包含篇章信息的事件语义向量；公式如下：

其中，NS_n表示第n个文本数据中句子的数量；e_n，i表示第n个文本数据中第i个事件语义向量；sd_n，u是指步骤4.1中获得的第n个文本数据中第u个包含了篇章信息的句子语义向量；ed_n，i指e_n，i在融合了各sd_n，u之后的语义向量，即第n个文本数据中第i个包含篇章信息的事件语义向量，W_es是待训练矩阵参数；b_es是待训练偏置项参数。

6.根据权利要求1所述的基于图模型的篇章级别事件因果关系抽取方法，其特征在于：

其中，

表示事件语义向量列表中第i个事件语义向量在第L次迭代时的事件语义向量；G_i表示与事件语义向量列表中第i个事件构成邻接关系的事件集合,c_ij为该集合所包含事件数量，c表示图中存在的连接关系类型数量，所述连接关系类型包括：无关系、正向因果关系、反向因果关系，W_n是连接关系为n时待训练矩阵参数，b_n是连接关系为n时待训练偏置项参数，α_n是连接关系为n时信息更新权重；

其中，H′是包含因果推理信息的事件语义向量列表，U⁽¹⁾、U⁽²⁾、b与步骤5.2中所述参数保持一致；

7.根据权利要求1所述的基于图模型的篇章级别事件因果关系抽取方法，其特征在于：