CN114444484A

CN114444484A - 一种基于双层图的文档级事件抽取方法及系统

Info

Publication number: CN114444484A
Application number: CN202210036599.9A
Authority: CN
Inventors: 张璞; 张�雄; 陈小阳
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-05-06

Abstract

本发明属于自然语言处理领域，具体涉及一种基于双层图的文档级事件抽取方法及系统；该方法包括：获取文档数据，对文档数据进行预处理，得到预处理后的文档数据；将预处理后的文档数据输入到训练好的基于双层图的文档级事件抽取模型中，得到文档级事件抽取结果；本发明通过构建结构图和依赖图这两个图结构使用图卷积神经网络使得实体提及能够捕捉文档全局的特征以及实体之间的依赖特征；通过使用扩展分类器预测事件论元的扩展路径，使用深度优先搜索算法解码出完整的事件记录，最终完成事件的抽取，抽取结果F1值更高，具有广阔的应用前景。

Description

一种基于双层图的文档级事件抽取方法及系统

技术领域

本发明属于自然语言处理领域，具体涉及一种基于双层图的文档级事件抽取方法及系统。

背景技术

事件作为一种信息表示的重要形式之一，其中包含了大量的内部组成结构 (如参与者、时间、地点等)和外部关联(如因果、共指、时序等语义关系)。通过对海量文本进行事件的抽取有助于对文本进行更加深层次的理解。事件抽取作为信息抽取领域中最具挑战性的一个课题，一直吸引着许多研究机构和研究者的关注，事件抽取的主要的目标是将事件信息从非结构化的纯文本中提取成结构化的形式，主要描述真实事件的“谁、何时、何地、什么、为什么”和“如何”发生。在应用方面，事件抽取有助于人们检索事件信息和个人行为分析。

在2005年，自动内容抽取国际评测会议(automatic content extraction,ACE)将事件抽取分为2个子任务：一是事件类型的识别，该任务关注触发词的识别，通过触发词判断事件类型；二是事件论元的抽取，该任务关注命名实体和实体在事件中的角色信息。事件抽取相关术语如下：实体：具有特定语义的基本单元，如时间、人物、地点、数量、组织机构等；实体提及：实体提及是指实体对象的文本片段；事件触发词：标志了某种类型事件发生的词汇；事件类型：所发生的事件的类别；事件论元：事件的参与者及属性，如事件发生的时间、地点和人物等等，通常都是命名实体。

事件抽取在网络舆情监控、突发事件告警、情报收集领域有着重要应用。网络舆情变化通常是由某些热点社会事件引发的，事件抽取技术可以在第一时间发现这些热点事件,从而为预测网络舆情变化提供帮助。在情报收集领域,事件抽取技术可以帮助情报分析人员从大量的低价值情报数据中自动获取事件信息, 大大减小情报人员的工作量，在数据量急剧膨胀的今天，自动化的事件抽取技术显得尤为重要。

大多数已有的事件抽取技术都是基于句子层面,然而对于文档层面的事件抽取来说主要面临着以下挑战：一个事件的各个论元可能出现在文档中的不同的句子中，即论元分散性；

一个文档中可能同时包含多个事件，即多事件；在一个无结构化文档中，有时候描述事件的文本中并不一定会出现触发词，从而造成事件抽取时F1值(查全率和查准率的调和平均数)较低。使用句子层面的事件抽取方法很难以在文档级层面的事件抽取任务中取得很好的效果。因此，文档级事件抽取的研究变得至关重要，提高文档级事件抽取的效果也逐渐成为研究者们的研究热点。

发明内容

针对现有技术存在的不足，本发明提出了一种基于双层图的文档级事件抽取方法及系统，该方法包括：获取文档数据，对文档数据进行预处理，得到预处理后的文档数据；将预处理后的文档数据输入到训练好的基于双层图的文档级事件抽取模型中，得到文档级事件抽取结果；

对基于双层图的文档级事件抽取模型进行训练的过程包括：

S1：获取原始文档数据，对原始文档数据进行预处理，得到预处理后的文档数据；

S2：对预处理后的文档数据进行实体识别，得到识别出的实体，计算实体识别损失；

S3：根据识别出的实体和预处理后的文档数据分别得到实体提及向量和句子向量；

S4：根据实体提及向量和句子向量构建结构图；根据结构图，采用图卷积神经网络进行第一次特征聚合，得到包含文档上下文特征的实体提及向量；

S5：根据包含文档上下文特征的实体提及向量构建依赖图；对实体提及向量进行最大池化操作，得到实体向量；根据实体向量更新依赖图，根据更新后的依赖图，采用图卷积神经网路进行第二次特征聚合，得到包含实体提及之间依赖关系信息的实体向量；

S6：将包含实体提及之间依赖关系信息的实体向量输入到事件类型和事件论元联合分类器中进行事件类型和事件论元的联合抽取，得到对应事件类型和事件论元的实体，计算联合抽取损失；

S7：定义事件论元；将联合抽取得到的实体按照事件论元顺序进行路径扩展，得到扩展边向量；将扩展边向量输入到扩展分类器中，得到预测扩展边；根据预测扩展边和联合抽取得到的实体构建有向无环图；

S8：采用深度优先搜索算法对有向无环图进行解码，得到事件记录结果，计算扩展损失；

S9：根据实体识别损失、联合抽取损失和扩展损失计算文档级事件抽取总损失，当文档级事件抽取总损失最小时，得到训练好的基于双层图的文档级事件抽取模型。

优选的，对文档数据进行预处理包括：将文档数据转化为文档数据的嵌入表示；根据BIO模式，采用上下文编码器对文档数据的嵌入表示进行编码，得到编码后的文档数据。

优选的，计算实体识别损失的公式为：

其中，L_ner表示实体识别损失，s表示句子，y_s表示s的黄金标准标签序列。

优选的，根据识别出的实体得到实体提及向量包括：对识别出的实体进行最大池化操作，得到实体提及向量；最大池化操作的公式为：

e_ner＝Maxpooling([g_i,r,g_i,r+1,...,g_i,e-1,g_i,e])

其中，e_ner表示实体提及向量，Maxpooling表示最大池化操作，r表示实体提及的开始字标记，e表示实体提及的结束字标记，g_i,r表示识别出的实体的第一个字的编码，g_i,e表示识别出的实体的最后一个字的编码。

优选的，根据预处理后的文档数据得到句子向量包括：对预处理后的文档数据进行最大池化操作，得到句子向量；将句子的位置信息融入句子向量中，得到融入句子位置信息的句子向量；最大池化操作的公式为：

其中，

表示第i个句子的句子向量，Maxpooling表示最大池化操作，m表示句子总数，g_i,n表示第i个句子的第n个字的编码。

优选的，对实体提及向量进行最大池化操作的公式为：

e_i＝Maxpooling({m_j}j∈M(i))

其中，e_i表示包含实体提及之间依赖关系信息的第i个实体向量，Maxpooling 表示最大池化操作，m_j表示第j个实体提及向量，M(i)表示第i个实体向量的实体提及集合向量集合。

优选的，计算联合抽取损失的公式为：

其中，E表示事件类型的集合，A表示事件类型e的事件论元的集合，

表示实体向量在事件类型e中事件论元a的联合分类器中的触发概率。

优选的，得到扩展边向量的公式为：

其中，e_edge表示扩展边向量，

表示触发了第i个事件论元的实体向量，

表示触发了第i+1个事件论元的实体向量，

表示按位相加运算。

优选的，计算扩展损失的公式为：

其中，L_path表示扩展损失，y_t表示第t个扩展边向量输入的扩展分类器的触发概率，T表示所有预测扩展边向量集合。

一种基于双层图的文档级事件抽取系统，包括：实体识别模块、构造图模块、依赖图模块、联合抽取模块、预测扩展模块以及事件记录解码模块；

所述实体识别模块用于对文档数据中的实体进行识别并根据文档数据生成实体提及向量和句子向量；

所述构造图模块用于根据实体提及向量和句子向量生成包含文档上下文特征的实体提及向量；

所述依赖图模块用于根据包含文档上下文特征的实体提及向量生成包含实体提及之间依赖关系信息的实体向量；

所述联合抽取模块用于根据包含实体提及之间依赖关系信息的实体向量对事件进行事件类型和事件论元的联合抽取；

所述预测扩展模块用于根据联合抽取得到的实体构建有向无环图；

所述事件记录解码模块用于根据预测扩展模块得到的有向无环图进行解码并输出解码结果。

本发明的有益效果为：本发明通过对整个文档的每个句子进行编码，并通过条件随机场算法CRF进行文档中实体的识别使得事件抽取任务不再需要单独依赖于实体识别任务来预先进行实体标注，从而进一步实现了端到端的事件抽取；通过构建结构图和依赖图这两个图结构使用图卷积神经网络使得实体提及能够捕捉文档全局的特征以及实体之间的依赖特征；通过使用事件类型和事件论元联合分类器，将文档级事件抽取看作无触发词的多标签分类任务，抽取出符合事件类型和事件论元的实体，避免了管道式方法引发的误差传递；本发明通过使用扩展分类器预测事件论元的扩展路径，使用深度优先搜索算法解码出完整的事件记录，最终完成事件的抽取，抽取结果F1值更高，具有广阔的应用前景。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制，在附图中：

图1为本发明中一种基于双层图的文档级事件抽取方法的流程示意图；

图2为本发明中结构图的构建示意图；

图3为本发明中依赖图的构建示意图；

图4为本发明中事件类型和事件论元联合分类器示意图；

图5为本发明中事件论元路径扩展示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于双层图的文档级事件抽取方法及系统，如图1所示，所述方法包括：获取文档数据，对文档数据进行预处理，得到预处理后的文档数据；将预处理后的文档数据输入到训练好的基于双层图的文档级事件抽取模型中，得到文档级事件抽取结果；

对基于双层图的文档级事件抽取模型进行训练的过程包括：

S7：定义事件论元顺序；将联合抽取得到的实体按照事件论元顺序进行路径扩展，得到扩展边向量；将扩展边向量输入到扩展分类器中，得到预测扩展边；根据预测扩展边和联合抽取得到的实体构建有向无环图；

一种对基于双层图的文档级事件抽取模型进行训练的优选实施例如下：

对文档数据进行预处理包括：将文档数据转化为嵌入表示的文档数据，具体的，将文档D表示为由句子组成的序列：D＝[S₁,S₂,...,S_m]，m表示文档中句子总数量；将句子表示为由字组成的序列：S_i＝[W_i,1,W_i，2,...,W_i,n]，n表示组成句子的总字数；采用BIO模式标注待识别实体，采用上下文编码器对标注后的文档数据进行编码，优选的，上下文编码器为Transformer编码器；编码后的文档数据表示为：

[g_i，j]＝Transformer([x_i，j])(0≤i≤m,0≤j≤n)

其中，x_i,j表示文档中第i个句子中的第j个字；g_i,j为x_i,j编码，表示经过Transformer编码器编码后的数据。

使用条件随机场算法CRF对编码后的数据进行实体识别，具体的，使用动态规划Viterbi算法以最大概率对标签序列(经过Transformer编码器编码后的数据)进行解码，最终完成实体识别任务；计算实体识别任务中的实体识别损失，计算实体识别损失的公式为：

其中，L_ner表示实体识别损失，s表示句子，y_s表示由训练数据集提供的s的黄金标准标签序列。

根据识别出的实体得到实体提及向量包括：对识别出的实体进行最大池化操作，得到实体提及向量；最大池化操作的公式为：

e_ner＝Maxpooling([g_i,r,g_i,r+1,...,g_i,e-1,g_i,e])

根据预处理后的文档数据得到句子向量包括：对预处理后的文档数据进行最大池化操作，得到句子向量；将句子的位置信息融入句子向量中，得到融入句子位置信息的句子向量；最大池化操作的公式为：

其中，

得到融入句子位置信息的句子向量的公式为：

其中，E_pos(.)表示位置嵌入矩阵，可将句子的位置信息编码为与句子向量的维度相同的位置向量，s_id表示句子的位置序号。

根据实体提及向量和句子向量构建结构图，本发明构建的结构图具有两种类型的节点，分别是实体提及节点和句子节点。每一个实体提及节点代表文档中候选的实体，句子节点则是对整个文档的句子序列信息进行建模的句子向量。

本发明构建的结构图的边有2种：第一种是实体提及边：对于同一个实体在文档中具有多个实体提及时，对其进行全连接。第二种是句子-实体边：所有的实体提及节点均通过句子-实体边连接到每个句子节点。如图2所示，空心节点代表句子节点，其它具有图案的节点分别代表不同的实体提及节点。具有横线图案的两个节点表示一个实体的具体两个实体提及，通过加粗的线进行全连接。所有的实体提及均通过普通细线连接到每个句子节点。

根据结构图，采用图卷积神经网络进行第一次特征聚合，得到包含文档上下文特征的实体提及向量。

如图3所示，根据包含文档上下文特征的实体提及向量构建依赖图，依赖图中只有一种节点类型即由包含文档上下文特征的实体提及向量建模而成的实体节点；由于在一个文档中可能出现多个实体提及属于同一个实体的情况，对多个属于同一实体的实体提及进行最大池化操作，得到实体向量；根据实体向量更新依赖图，根据更新后的依赖图，采用图卷积神经网路进行第二次特征聚合，得到包含实体提及之间依赖关系信息的实体向量，对多个属于同一实体的实体提及进行最大池化操作的公式为：

e_i＝Maxpooling({m_j}j∈M(i))

采用图卷积神经网路进行特征聚合的过程可表示为：

其中，K代表不同类型的边，

和

是可训练的参数，

表示节点n第j次卷积操作后的状态即经过图卷积层h后的节点n，N_k(n)表示与节点n相连的第k个相邻的边，f表示激活函数。

一个文档中可以包含多种类型的事件以及一个事件类型中具有多种类型的事件论元，将文档级事件抽取任务看作一个无触发词的多标签分类任务。如图4 所示，分别为每个事件的每个论元都给定一个触发分类器即事件类型和事件论元联合分类器。

将包含实体提及之间依赖关系信息的实体向量输入到事件类型和事件论元联合分类器中进行事件类型和事件论元的联合抽取，得到对应事件类型和事件论元的实体；计算联合抽取损失的公式为：

如图5所示，预先定义事件论元顺序；将联合抽取得到的实体按照预定义的事件论元顺序进行路径扩展，将相邻的两个事件论元触发的实体进行组合，得到扩展边向量；得到扩展边向量的公式为：

其中，e_edge表示扩展边向量，

表示触发了第i个事件论元的实体向量，

表示触发了第i+1个事件论元的实体向量，

表示按位相加运算。

将扩展边向量输入到扩展分类器中对扩展边进行预测，得到预测扩展边，根据预测扩展边和联合抽取得到的实体构建有向无环图；采用深度优先搜索算法对该有向无环图进行解码，得到事件记录结果即文档级事件的抽取结果；计算上述过程中的扩展损失，计算扩展损失的公式为：

其中，L_path表示扩展损失，y_t表示第t个扩展边向量输入的扩展分类器的触发概率，T表示预测扩展边集合。

根据实体识别损失、联合抽取损失和扩展损失计算文档级事件抽取总损失，当文档级事件抽取总损失最小时，得到训练好的基于双层图的文档级事件抽取模型；文档级事件抽取总损失为：

L_all＝λ₁L_ner+λ₂L_ea+λ₃L_path

其中，L_all表示文档级事件抽取总损失，λ₁表示第一超参数，λ₂表示第二超参数，λ₃表示第三超参数。

本发明通过对整个文档的每个句子进行编码，并通过条件随机场算法CRF 进行文档中实体的识别使得事件抽取任务不再需要单独依赖于实体识别任务来预先进行实体标注，从而进一步实现了端到端的事件抽取；通过构建结构图和依赖图这两个图结构使用图卷积神经网络使得实体提及能够捕捉文档全局的特征以及实体之间的依赖特征；通过使用事件类型和事件论元联合分类器，将文档级事件抽取看作无触发词的多标签分类任务，抽取出符合事件类型和事件论元的实体，避免了管道式方法引发的误差传递；本发明通过使用扩展分类器预测事件论元的扩展路径，使用深度优先搜索算法解码出完整的事件记录，最终完成事件的抽取，抽取结果F1值更高，具有广阔的应用前景。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双层图的文档级事件抽取方法，其特征在于，包括：获取文档数据，对文档数据进行预处理，得到预处理后的文档数据；将预处理后的文档数据输入到训练好的基于双层图的文档级事件抽取模型中，得到文档级事件抽取结果；

对基于双层图的文档级事件抽取模型进行训练的过程包括：

S7：定义事件论元顺序；将联合抽取得到的实体按照事件论元进行路径扩展，得到扩展边向量；将扩展边向量输入到扩展分类器中，得到预测扩展边；根据预测扩展边和联合抽取得到的实体构建有向无环图；

2.根据权利要求1所述的一种基于双层图的文档级事件抽取方法，其特征在于，对文档数据进行预处理包括：将文档数据转化为文档数据的嵌入表示；根据BIO模式，采用上下文编码器对文档数据的嵌入表示进行编码，得到编码后的文档数据。

3.根据权利要求1所述的一种基于双层图的文档级事件抽取方法，其特征在于，计算实体识别损失的公式为：

4.根据权利要求1所述的一种基于双层图的文档级事件抽取方法，其特征在于，根据识别出的实体得到实体提及向量包括：对识别出的实体进行最大池化操作，得到实体提及向量；最大池化操作的公式为：

e_ner＝Maxpooling([g_i,r,g_i,r+1,...,g_i,e-1,g_i,e])

5.根据权利要求1所述的一种基于双层图的文档级事件抽取方法，其特征在于，根据预处理后的文档数据得到句子向量包括：对预处理后的文档数据进行最大池化操作，得到句子向量；将句子的位置信息融入句子向量中，得到融入句子位置信息的句子向量；最大池化操作的公式为：

其中，

6.根据权利要求1所述的一种基于双层图的文档级事件抽取方法，其特征在于，对实体提及向量进行最大池化操作的公式为：

e_i＝Maxpooling({m_j}j∈M(i))

其中，e_i表示包含实体提及之间依赖关系信息的第i个实体向量，Maxpooling表示最大池化操作，m_j表示第j个实体提及向量，M(i)表示第i个实体向量的实体提及集合向量集合。

7.根据权利要求1所述的一种基于双层图的文档级事件抽取方法，其特征在于，计算联合抽取损失的公式为：

8.根据权利要求1所述的一种基于双层图的文档级事件抽取方法，其特征在于，得到扩展边向量的公式为：

其中，e_edge表示扩展边向量，

表示触发了第i个事件论元的实体向量，

表示触发了第i+1个事件论元的实体向量，

表示按位相加运算。

9.根据权利要求1所述的一种基于双层图的文档级事件抽取方法，其特征在于，计算扩展损失的公式为：

10.一种基于双层图的文档级事件抽取系统，其特征在于，包括：实体识别模块、构造图模块、依赖图模块、联合抽取模块、预测扩展模块以及事件记录解码模块；