CN116108127A

CN116108127A - 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法

Info

Publication number: CN116108127A
Application number: CN202211490817.2A
Authority: CN
Inventors: 尚家兴; 付晨阳; 郑林江; 陈逢文; 周尚波; 黄为希
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-05-12

Abstract

本发明涉及一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法，该方法包括以下步骤：S1：对文本进行预处理，获取目标文本的分词组；S2：使用Bert对目标文本进行编码得到目标文本的词向量；S3：将词向量输入到条件随机场进行命名实体识别；S4：构建文档异构图，初始化句子节点向量和实体提及节点向量，获取不同边对应的邻接矩阵；S5：将不同邻接矩阵作为掩码矩阵，利用多头注意力机制学习异构图表示的节点特征；S6：基于多头注意力机制进行事件检测；S7：根据预先定义的事件角色队列，依次填充角色对应的论元。该方法通过改变Transformer的多头注意力的掩码机制，使得多头注意力以更高效的方式关注异构图的结构信息，提高了事件抽取的精确度。

Description

一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法

技术领域

本发明属于信息处理技术领域，特别是文档级事件抽取方法领域，涉及一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法。

背景技术

随着互联网上的数据源种类不断丰富和数据量爆炸式增长，合理地利用海量数据中蕴含的有价值信息进行决策愈发重要。然而，大量的互联网数据为结构复杂或非结构化数据，其中最具代表性的数据类型之一便是文本数据。对于这些海量文本数据，完全依靠人工对其进行分析整理会消耗大量的人力物力资源，因此，如何利用计算机从非结构化的数据中快速、自动地抽取结构化信息，变得尤为重要并已成为一项重要挑战。近年来，随着自然语言处理、人工智能等技术的快速发展，利用计算机从非结构化文本中抽取结构化信息的可能性不断增加。因此，针对文本数据的信息抽取，已成为自然语言处理中的重要的研究方向，对知识图谱构建、内容推荐等下游应用产生深远的影响。

事件抽取研究的是从非结构化的文本中抽取结构化的事件信息，在信息检索、智能问答等场景有着巨大的应用前景，广泛用于处理量大且增长迅速的金融、法律、医疗和政务等领域文档。相比于一般的信息抽取任务，事件抽取往往面临着更复杂的文本结构、更长的文本长度等挑战，且文档通常包含多个事件，其元素分散并混合在文档中，导致其比一般的结构化信息抽取更加困难，是当前自然语言处理领域的研究热点问题和难点问题。

事件抽取根据抽取方法的不同，可以分为基于模板的方法，基于特征工程的方法和基于神经网络的方法。基于模板的方法主要利用人工编写的规则进行抽取，如语法树或者正则表达式等，在特定的领域内有较好的性能，但是由于针对不同的领域需要构造不用的模板，需要消耗大量的人力。并且从一个领域移植到另一个领域时，需要重新构建新的模板，可移植性较差。根据所使用特征的范围，事件抽取方法还可以分为句子级的事件抽取方法和文档级的事件抽取方法。总体来说，句子级的事件抽取方法只使用句子内部获取的特征，而文档级的事件抽取方法则包含了跨句、跨文档抽取的特征信息。一般情况下，句子级特征是所有事件抽取方法通用的特征，而文档级特征则属于面向实际任务挖掘的特殊特征。由于文档级事件抽取的应用价值通常远大于句子级事件抽取，近些年来，文档级事件抽取成为自然语言处理的热点研究问题。许多工作依靠基于特征的分类器来区分候选事件论元和普通文本，并取得了更好的性能。

近几年，随着深度学习技术的快速发展，越来越多研究人员开始利用多种基于神经网络的方法来解决这项任务。文档级事件抽取任务存在两个难题，一是事件论元可能分散在不同的句子中，二是文档可能包含多个事件。针对上述问题，Doc2EDAG模型尝试通过三个Transformer编码器，对实体进行文档级编码，然而其不仅忽略了事件间的交互，而且模型过大，训练较慢。鉴于此，本发明采用异构图的形式表示文档的信息，相比于传统的序列相关的文本特征，异构图能够反映更多的文档之间的空间特征、句子间特征、词语间特征等，从而在实际应用中拥有更好的表现。然而传统的神经网络，如卷积神经网络和递归神经网络，难以处理图数据结构。图神经网络GNN因为局部传播的特点，存在训练时间较长，过平滑问题。因此，相较于使用传统的RNN、GNN等神经网络，可以通过Transformer抽取文档异构图信息，利用Transformer的全局传播的特点，加快训练速度，并且保证事件抽取的精确度。虽然一般的Transformer将异构图视为全连接，能够进行全局交互，但是Transformer仍然是对序列建模，无法区分图的边信息，会导致事件抽取精确度较低。

发明内容

有鉴于此，本发明的目的在于提供一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法，该方法通过改变Transformer的多头注意力的掩码机制，使得多头注意力以更高效的方式关注异构图的结构信息，提高了事件抽取的精确度。

为达到上述目的，本发明提供如下技术方案：

一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法，该方法包括以下步骤：S1：对文本进行预处理，获取目标文本的分词组；S2：使用Bert对目标文本进行编码得到目标文本的词向量；S3：将词向量输入到条件随机场进行命名实体识别；S4：构建文档异构图，初始化句子节点向量和实体提及节点向量，获取不同边对应的邻接矩阵；S5：将不同邻接矩阵作为掩码矩阵，利用多头注意力机制学习异构图表示的节点特征；S6：基于多头注意力机制进行事件检测；S7：根据预先定义的事件角色队列，依次填充角色对应的论元。

进一步，在本方法中，事件抽取需从文本中抽取事件类型及事件角色对应的论元，非结构化文本是指包含多组句子的文档

其中|D|表示文档中的句子数，句子s_i由一系列词语组成

其中w_j表示句子s_i中的第j个词语；事件抽取任务分解为实体提取、事件类型检测、事件角色填充三个子任务，其中实体提取旨在抽取作为论元候选词的实体

事件类型检测旨在识别文档所包含的事件类型T，而一个文档可能包含多个事件类型；事件角色填充旨在将提取的实体填充到对应事件角色中。

进一步，在本方法中，所述事件抽取需要进行命名实体识别任务，该任务一是为了抽取待填充的论元实体，二是为了进行初始的词向量上下文表示；本方法将实体识别任务视为BIO(Begin，Inside，Other)序列标注任务，将每个字标注为“B-X”、“I-X”或O，“B-X”表示该字所在实体属于角色X并且该字在该实体的开头，“I-X”表示该字所在实体属于角色X并且该字在该实体的中间位置或者结束位置，O表示该字不属于任何实体；

通过对文本句子进行预处理，获取文本句子分词序列

使用Bert模型将s_i编码为向量序列

使用条件随机场进行命名实体识别，获取命名实体识别损失为：

其中，s表示目标文本句子的分词序列，y_s为该分词序列s对应的标记序列，P(y_s|s)表示单词序列最有可能的标记序列的概率。为了获取最有可能的标签序列，本发明采用维特比算法以最大概率解码标签序列。

进一步，在本方法中，将文档映射成文档异构图，通过学习异构图的表示，将融合文档信息的多组句子作为事件检测的特征矩阵；采用的文档异构图包含两种类型节点和五种类型的边，其中，节点包含实体提及节点和句子节点，边包括同实体边、实体提及边、句子-实体提及边、句子-句子边、全连接边；其中，同实体边表示同一个实体的实体提及之间的连接，实体提及边表示同一个句子的多个实体提及之间的连接，句子-实体提及边表示句子节点与实体提及之间的连接，句子-句子边表示句子节点按照先后顺序进行相连，句子节点之间的连接；全连接边表示任意节点两两相连，包含节点的自我连接；

初始化句子节点特征向量h_s＝max(H_i)，其中，max(·)表示最大池化，H_i表示单词序列的隐藏层表示；对于一个实体提及的所有隐藏层表示，使用最大池化获取实体提及表示

其中，max(·)表示最大池化，N_m表示同实体提及的词向量集合；将离散的实体提及类型转化为类型嵌入l_j，进而获得最终的实体表示

其中，

将文档的句子节点表示与所有实体表示重组成节点特征矩阵

Transformer原有的掩码机制是一种填充掩码，当输入的句子长不一样时，计算注意力分数会出现偏差。为了保证句子长度的一致性进行了零填充，而填充的0是无意义的，经过Softmax之后也会有对应的概率输出，影响全局概率。为了避免这种影响，Transformer设计了掩码机制将0值部分掩盖，经过Softmax之后，这些值的输出概率为0，不影响全局概率的预测。

受Transformer的掩码机制的启发，本方法中为了让模型关注异构图的边的信息，根据定义的文档异构图节点间边的类型，将文档异构图拆分成5个边不同的子图，获得5个表示不同边的邻接矩阵：

A＝<A₁,A₂,A₃,A₄,A₅>

采用一种特殊的掩码注意机制，将不同邻接矩阵作为掩码矩阵，使得模型关注异构图的边信息；为了抽取多个不同的子图，使用多头注意力机制，让不同的注意力头负责关注不同的子图：

Y＝MultiHead(Q,K,V,A)＝Concat(head₁,…,head₅)W^O

其中

其中，

均为可学习参数矩阵；MASK(·)表示掩码操作；如果子图中两节点间不存在边，为了使Softmax后子图中不含边的输出概率为0，将掩码后所得矩阵中对应值赋为负无穷；

该步骤让不同的注意力头关注异构图的不同边；

由于一个文本文档可能包含多个事件，并且事件类型可能不同，因此本方法将事件类型检测任务视为多标签分类任务，基于多头注意力机制进行多标签分类：

A＝MultiHead(Q,S,S)

R＝σ(A^TW_t)

其中，Q和W_t为可训练参数，σ(·)表示sigmoid激活函数；MultiHead()表示标准的多头注意力机制；采用交叉熵损失作为事件类型检测任务的损失函数：

其中，T表示事件类型数量，y_t表示事件类型标签，当事件类型为t时，y_t＝1，否则，y_t＝0。

进一步，在本方法中，对于每种事件类型，定义一个事件角色序列；然后，按照此序列将每个事件记录转换为论元的顺序连接，其中每个论元节点要么是实体，要么是特殊的空节点；因此，将事件记录填充任务视为从事件类型节点开始的路径拓展任务；依照预先定义的事件角色队列，依次填充角色对应的论元；

将每一个路径拓展子任务视为多个二分类任务，预测每个实体是否能够作为事件角色的填充；为了便于训练，采用交叉熵损失函数作为事件记录填充任务的损失函数：

其中，N_D表示事件记录路径的节点集，

表示论元填充分类任务标签，如果第t个实体能被填充为节点n的下一个论元，则

否则

将三个子任务损失函数加权求和，得到总体损失函数L_all：

L_all＝λ₁L_ner+λ₂L_det+λ₃L_rec

其中，λ₁、λ₂、λ₃为超参数。

本发明的有益效果在于：

目前在现有技术中，基于RNN、LSTM等序列模型的文档级事件抽取模型，仅能建模序列相关文本特征，无法抽取异构图特征，忽略了句子间的交互，性能较差；虽然图神经网络GNN可以抽取异构图信息，但因其局部传播的特点，在面对只有少量事件的文档时，极易产生过平滑的现象。所以，针对上述问题，本发明提供了一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法，该方法通过改变Transformer的多头注意力的掩码机制，使得多头注意力以更高效的方式关注异构图的结构信息，提高了事件抽取的精确度。本发明利用了掩码多头注意力机制，充分学习异构图结点的特征表示，提升了模型对文档级信息的理解，进而提高了事件抽取的精确度。并且相比于使用了多个Transformer的模型如Doc2EDAG，本发明所采取的方案在训练时收敛更快，训练时间较短。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述方法的流程示意图；

图2为本发明模型框架图。

具体实施方式

下面结合附图对本发明技术方案进行详细说明。

图1为本发明所述方法的流程示意图，如图所示，本发明所述方法包括以下步骤：S1：对文本进行预处理，获取目标文本的分词组；S2：使用Bert对目标文本进行编码得到目标文本的词向量；S3：将词向量输入到条件随机场进行命名实体识别；S4：构建文档异构图，初始化句子节点向量和实体提及节点向量，获取不同边对应的邻接矩阵；S5：将不同邻接矩阵作为掩码矩阵，利用多头注意力机制学习异构图表示的节点特征；S6：基于多头注意力机制进行事件检测；S7：根据预先定义的事件角色队列，依次填充角色对应的论元。下面结合具体实施例对本发明技术方案进行详细说明。

事件抽取研究的是从非结构化的文本中抽取结构化的事件信息。如表1所示，文档中包含三个事件。其中，事件类型均为股权增持，事件角色为“持有者”、“交易量”、“持有股份”等，事件论元为事件角色所对应的实体，如“倪张根”、“1084584股”等。

表1一个事件抽取文档及结果示例

事件抽取需从文本中抽取事件类型及事件角色对应的论元。一般来说，非结构化文本是指包含多组句子的文档

其中|D|表示文档中的句子数，句子s_i由一系列词语组成

其中w_j表示句子s_i中的第j个词语。一般地，事件抽取任务可分解为实体提取、事件类型检测、事件角色填充三个子任务。其中，实体提取旨在抽取作为论元候选词的实体

事件类型检测旨在识别文档所包含的事件类型T，而一个文档可能包含多个事件类型。事件角色填充旨在将提取的实体填充到对应事件角色中。

实体识别：

事件抽取首先需要进行命名实体识别任务，该任务一是为了抽取待填充的论元实体，二是为了进行初始的词向量上下文表示。本发明将实体识别任务视为BIO(Begin，Inside，Other)序列标注任务。将每个字标注为“B-X”、“I-X”或O，“B-X”表示该字所在实体属于角色X并且该字在该实体的开头；“I-X”表示该字所在实体属于角色X并且该字在该实体的中间位置或者结束位置；O表示该字不属于任何实体。

本发明通过对文本句子进行预处理，获取文本句子分词序列

使用Bert模型将s_i编码为向量序列

事件类型检测：

事件类型检测用来识别事件所属的事件类型。由于文档中往往包含多个事件，并且存在同一个事件跨越多个句子的情况。因此，仅仅利用句子信息进行事件类型检测准确率较低。本发明将文档映射成文档异构图，通过学习异构图的表示，将融合文档信息的多组句子作为事件检测的特征矩阵。本发明所采用的文档异构图包含两种类型节点和五种类型的边。其中，节点包含实体提及节点和句子节点。边包括同实体边、实体提及边、句子-实体提及边、句子-句子边、全连接边。其中，同实体边表示同一个实体的实体提及之间的连接，以表1示例为例，实体提及“倪张根”出现在文档的多个句子中，所构建异构图中包含多个该实体提及节点，并且两两相连为同实体边；实体提及边表示同一个句子的多个实体提及之间的连接，示例中第1句包含实体提及“倪张根”和实体提及“2017年7月17日”，使用实体提及边连接；句子-实体提及边表示句子节点与实体提及之间的连接；句子-句子边表示句子节点按照先后顺序进行相连，句子节点之间的连接；全连接边表示任意节点两两相连，包含节点的自我连接。

本发明初始化句子节点特征向量h_s＝max(H_i)，其中，max(·)表示最大池化，H_i表示单词序列的隐藏层表示。对于一个实体提及的所有隐藏层表示，使用最大池化获取实体提及表示

其中，max(·)表示最大池化，N_m表示同实体提及的词向量集合。将离散的实体提及类型转化为类型嵌入l_j，进而获得最终的实体表示

其中，

将文档的句子节点表示与所有实体表示重组成节点特征矩阵

受Transformer的掩码机制的启发，本发明为了让模型关注异构图的边的信息，根据定义的文档异构图节点间边的类型，将文档异构图拆分成5个边不同的子图，获得5个表示不同边的邻接矩阵。

A＝<A₁,A₂,A₃,A₄,A₅>

本发明采用了一种特殊的掩码注意机制，将不同邻接矩阵作为掩码矩阵，使得模型关注异构图的边信息。为了抽取多个不同的子图，本发明使用多头注意力机制，让不同的注意力头负责关注不同的子图。

Y＝MultiHead(Q,K,V,A)＝Concat(head₁,…,head₅)W^O

其中

其中，

均为可学习参数矩阵。MASK(·)表示掩码操作。如果子图中两节点间不存在边，为了使Softmax后子图中不含边的输出概率为0，将掩码后所得矩阵中对应值赋为负无穷。

该步骤让不同的注意力头关注异构图的不同边。

由于一个文本文档可能包含多个事件，并且事件类型可能不同，因此本发明将事件类型检测任务视为多标签分类任务，基于多头注意力机制进行多标签分类。

A＝MultiHead(Q,S,S)

R＝σ(A^TW_t)

其中，Q和W_t为可训练参数。σ(·)表示sigmoid激活函数。MultiHead()表示标准的多头注意力机制。采用交叉熵损失作为事件类型检测任务的损失函数。

事件记录填充：

对于每种事件类型，定义一个事件角色序列。然后，按照此序列将每个事件记录转换为论元的顺序连接，其中每个论元节点要么是实体，要么是特殊的空节点。因此，将事件记录填充任务视为从事件类型节点开始的路径拓展任务。依照预先定义的事件角色队列，依次填充角色对应的论元。

将每一个路径拓展子任务视为多个二分类任务。预测每个实体是否能够作为事件角色的填充。

为了便于训练，采用交叉熵损失函数作为事件记录填充任务的损失函数。

其中，N_D表示事件记录路径的节点集，

否则

将三个子任务损失函数加权求和，得到总体损失函数L_all。

L_all＝λ₁L_ner+λ₂L_det+λ₃L_rec

其中，λ₁、λ₂、λ₃为超参数。

本实施例所使用的数据集为中文金融数据集ChFinAnn。该数据集为目前最大规模的事件抽取数据集，包含32040个金融财务公告文档，具有5种不同的事件类型，包括股权质押、股权增持、股权减持、股权回购和股权冻结，共有35种事件角色，其中29％的文档包含多个事件。

使用两张NvidiaRTX Titan GPU显卡对模型进行训练，采用的Bert模型为ALBERT-ZN，词嵌入向量维度为768，采用Adam优化器，学习率设为5e^-4，设置100个Epoch，损失函数L_all中超参数λ₁＝λ₂＝λ₃＝1.0。

表2为模型的训练时间对比表。由于Doc2EDAG使用了3个Transformer，模型较大并且设备的限制，可设置的最大Batch Size为2。在同样显存的限制下，本发明Batch Size可设置最大值为8。本发明的训练耗时相比于Doc2EDAG的耗时，单Epoch耗时仅有27.4％，到达最佳F1总耗时仅有22.4％。

表2模型训练时间对比表

模型	最佳Epoch	单Epoch耗时(分钟)	总耗时(小时)
				Doc2EDAG	82	201.4	275.2
本发明	67	55.2	61.6

表3模型宏F1分数与微F1分数评估结果对比

表3为模型宏F1分数与微F1分数评估结果对比。其中单记录表示仅有文档中仅包含一条事件记录的数据对比，多记录表示文档中包含两条及以上事件记录的数据对比，全部表示整体的对比。本发明分别采用宏F1分数与微F1分数对模型的精确度进行评估，从实验结果可以看出，相比于Doc2EDAG模型，本发明在单记录和多记录均有不同程度的领先。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法，其特征在于：该方法包括以下步骤：

S1：对文本进行预处理，获取目标文本的分词组；

S2：使用Bert对目标文本进行编码得到目标文本的词向量；

S3：将词向量输入到条件随机场进行命名实体识别；

S4：构建文档异构图，初始化句子节点向量和实体提及节点向量，获取不同边对应的邻接矩阵；

S5：将不同邻接矩阵作为掩码矩阵，利用多头注意力机制学习异构图表示的节点特征；

S6：基于多头注意力机制进行事件检测；

S7：根据预先定义的事件角色队列，依次填充角色对应的论元。

2.根据权利要求1所述的一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法，其特征在于：在本方法中，事件抽取需从文本中抽取事件类型及事件角色对应的论元，非结构化文本是指包含多组句子的文档

其中|D|表示文档中的句子数，句子s_i由一系列词语组成

3.根据权利要求2所述的一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法，其特征在于：在本方法中，所述事件抽取需要进行命名实体识别任务，该任务一是为了抽取待填充的论元实体，二是为了进行初始的词向量上下文表示；本方法将实体识别任务视为BIO(Begin，Inside，Other)序列标注任务，将每个字标注为“B-X”、“I-X”或O，“B-X”表示该字所在实体属于角色X并且该字在该实体的开头，“I-X”表示该字所在实体属于角色X并且该字在该实体的中间位置或者结束位置，O表示该字不属于任何实体；

通过对文本句子进行预处理，获取文本句子分词序列

使用Bert模型将s_i编码为向量序列

其中，s表示目标文本句子的分词序列，y_s为该分词序列s对应的标记序列，P(y_s|s)表示单词序列最有可能的标记序列的概率。

4.根据权利要求3所述的一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法，其特征在于：在本方法中，将文档映射成文档异构图，通过学习异构图的表示，将融合文档信息的多组句子作为事件检测的特征矩阵；采用的文档异构图包含两种类型节点和五种类型的边，其中，节点包含实体提及节点和句子节点，边包括同实体边、实体提及边、句子-实体提及边、句子-句子边、全连接边；其中，同实体边表示同一个实体的实体提及之间的连接，实体提及边表示同一个句子的多个实体提及之间的连接，句子-实体提及边表示句子节点与实体提及之间的连接，句子-句子边表示句子节点按照先后顺序进行相连，句子节点之间的连接；全连接边表示任意节点两两相连，包含节点的自我连接；

其中，

将文档的句子节点表示与所有实体表示重组成节点特征矩阵

本方法中，根据定义的文档异构图节点间边的类型，将文档异构图拆分成5个边不同的子图，获得5个表示不同边的邻接矩阵：

A＝<A₁,A₂,A₃,A₄,A₅>

Y＝MultiHead(Q,K,V,A)＝Concat(head₁,…,head₅)W^O

其中

其中，

该步骤让不同的注意力头关注异构图的不同边；

A＝MultiHead(Q,S,S)

R＝σ(A^TW_t)

5.根据权利要求4所述的一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法，其特征在于：在本方法中，对于每种事件类型，定义一个事件角色序列；然后，按照此序列将每个事件记录转换为论元的顺序连接，其中每个论元节点要么是实体，要么是特殊的空节点；因此，将事件记录填充任务视为从事件类型节点开始的路径拓展任务；依照预先定义的事件角色队列，依次填充角色对应的论元；

其中，N_D表示事件记录路径的节点集，

否则

将三个子任务损失函数加权求和，得到总体损失函数L_all：

L_all＝λ₁L_ner+λ₂L_det+λ₃L_rec

其中，λ₁、λ₂、λ₃为超参数。