CN114490954B

CN114490954B - 一种基于任务调节的文档级生成式事件抽取方法

Info

Publication number: CN114490954B
Application number: CN202210403218.6A
Authority: CN
Inventors: 吴桐桐; 康婧淇; 漆桂林
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-07-15
Anticipated expiration: 2042-04-18
Also published as: CN114490954A

Abstract

本发明公开了一种基于任务调节的文档级生成式事件抽取方法，包括以下步骤：构建基于任务调节的文档级生成式事件抽取框架；根据事件抽取任务的事件类型来创建编码器前缀，然后注入编码器；根据事件抽取任务的事件类型和输入文档的词元表示来创建解码器前缀，然后注入解码器；利用最小负对数似然损失函数来训练事件抽取神经网络模型，并且在测试过程中使用约束解码算法；该方案构建了一个生成式事件抽取模型，它将事件类型作为前缀注入基于Transformer模型的每一层，有效提升了模型的F1值，在文档级和零样本事件抽取任务中表现出优越的性能，实现了有效的零样本学习和监督学习，在三个主流数据集上均取得了最先进的效果。

Description

一种基于任务调节的文档级生成式事件抽取方法

技术领域

本发明属于计算机自然语言处理领域，具体涉及一种基于任务调节的文档级生成式事件抽取方法。

背景技术

事件抽取任务主要研究从自然语言文本中抽取出用户感兴趣的事件并以结构化的形式呈现出来，如图1所示，事件抽取技术可以从文本中自动挖掘什么人或者组织，在什么时间，在什么地方，做了什么事情。事件抽取将非结构化文本中的事件信息展现为结构化形式，在舆情监测、文本摘要、自动问答、事理图谱自动构建等领域有着重要应用。由于文本中可能存在句式复杂，主被动转换，多事件主客体共享等难点，因此事件抽取是一项极具挑战的抽取任务。特别地，文档中包含的文本更长，事件种类更加丰富，这增加了事件抽取任务的难度。零样本学习是检测模型在训练中从未见过的类的能力。它类似于我们人类在没有明确监督的情况下归纳和识别新事物的能力，对于模型来说显然具有一定难度。

现有的事件抽取方法大致可以分为三类，分别是基于模板和规则的方法，基于机器学习的方法和基于深度学习的方法。基于模板和规则的方法通过定义语义框架和短语模式来表示特定领域事件的抽取模式。基于模式匹配的抽取方法基本都是通过句法和语义约束来进行识别，因此模板准确性是影响整个方法性能的重要因素。基于机器学习的方法把事件抽取看作传统的分类任务，依赖依存分析、句法分析、词性标注等自然语言处理工具。传统机器学习方法建立在统计模型的基础上，通常通过将复杂结构预测任务分解为多个子任务来抽取事件记录。复杂事件结构的预测可以分解为多个子任务，然后结合不同组件来预测整个事件结构。相关研究的实验结果表明，基于深度学习的事件抽取方法可以自主学习特征，在触发器分类和事件角色分类的性能都优于传统方法。但是，大多数事件抽取方法采用基于分解的方法，将复杂事件的结构化预测问题分解为子结构上的分类。其中许多方法分别进行触发词检测、实体识别和论元分类，每个阶段都需要外部注释。

基于生成的抽取技术降低了问题表述的复杂性，并且能够利用大型预训练语言模型的推理能力。但是，它们仍然存在零样本学习任务上泛化能力差的问题，并且在处理篇章级事件抽取任务时效率低下。因此，传统基于生成的事件抽取方法在处理长文本和零样本学习任务这两方面仍有局限性。

发明内容

为了克服现有技术中存在的不足，提供一种基于任务调节的文档级生成式事件抽取方法，该方法以Transformer模型为基础，创造性地加入了任务调节前缀方法，能够较好地解决“长文本”和“零样本学习”的问题。

为实现上述目的，本发明的技术方案如下：一种基于任务调节的文档级生成式事件抽取方法，包括以下步骤：

S1：构建基于任务调节的文档级生成式事件抽取框架，将事件名称信息作为前缀注入基于编码器-解码器语言模型的每一层，从而实现有效的零样本学习和改进的监督学习；

S2：根据事件抽取任务的事件类型来创建编码器前缀，然后注入编码器；

S3：根据事件抽取任务的事件类型和输入文档的词元表示来创建解码器前缀，然后注入解码器；

S4：利用最小负对数似然损失函数来训练事件抽取神经网络模型，并且在测试过程中采用约束解码算法，利用事件模式来指导生成过程，通过这种方式在动态推理过程中注入和利用事件知识；

S5：重复步骤S2-S4，直至没有新的任务需要进行处理。

其中，编码器前缀，其具体特征为：由事件类型的编码表示经过映射函数处理得到，可以理解为影响生成编码器调节过程的伪前缀标记。

其中，编码器前缀，其生成方法为：将事件类型的编码表示经过多层感知机网络处理成键-值对表示结构。

其中，所述步骤S2中编码器前缀的计算过程为：

S21：记给定任务事件类型为

,使用编码器得到事件抽取任务的编码表示为

，然后通过平均汇聚函数

来组合这些事件表示，以创建事件调节上下文，其数学描述为：

，其中，

表示向量空间，

表示事件集合，

表示事件类型，

表示事件类型的数量，

表示向量空间的维度，

表示事件类型的编码表示，

代表任务的编码表示，

表示平均汇聚函数，其实现结构为向量的按行求平均运算；

S22：通过映射函数

来生成前缀，并将其注入编码器，其中

表示编码器前缀，

表示映射函数，其实现结构为一个三层全联接神经网络,

表示事件类型的编码表示；

是Transformer架构中维护的第

个注入前缀的参数数量，该方法有助于提高模型对于事件抽取任务的泛化能力。

其中，所述解码器前缀，其具体特征为：由事件类型的编码表示和事件文档的编码表示经过映射函数处理得到，可以理解为影响生成解码器调节过程的伪前缀标记。

其中，所述的解码器前缀，其生成方法为：将事件类型的编码表示和事件文档的编码表示经过多层感知机网络处理成键-值对表示结构。

其中，所述步骤S3中为解码器创建前缀的方法具体为：

S31：使用基于向量点积的交叉注意力函数

来组合文档的编码表示

和任务的编码表示

，其数学描述为：

，

其中，

是交叉注意力函数，其实现结构为向量的点积运算,

是用于解码器调节的固定维度拼接向量，

表示事件文档的解码器表示，

表示事件类型的解码器表示,

表示向量空间的维度；

S32：通过映射函数

来生成前缀，并将其注入解码器，其中

表示解码器前缀，

表示映射函数，其实现结构为一个三层全联接神经网络，

表示注入前缀的长度，

是Transformer架构中维护的第

个注入前缀的参数数量，

是用于解码器调节的固定维度拼接向量，

表示事件文档的解码器表示，

表示事件类型的解码器表示，

表示向量空间的维度。该方法通过融合实例表示与任务表示，提高模型处理当前实例中所包含事件的抽取性能。

其中，所述步骤S4中损失函数公式包括最小负对数似然损失函数公式和条件概率计算公式。

其中，所述步骤S4中最小负对数似然损失函数的计算公式如下：

，

其中，

表示最优参数，

为训练集，

表示事件类型，

表示事件文档描述，

表示生成式事件抽取的最终生成序列结果，

表示神经网络的参数，

表示最小负对数似然损失函数。

其中，最小负对数似然损失函数，其中条件概率计算公式如下：

，

其中，

表示最小负对数似然损失函数，

表示事件类型，

表示事件文档描述，

表示文本生成过程中的第

个位置，

表示生成序列中位置

之前的生成序列，

表示生成序列中位置

处的生成词，

表示最终生成序列的长度，

表示生成式事件抽取的最终生成序列结果。

对于事件抽取方法，有三个指标可以衡量其性能，分别是精确率、召回率和F1值，其中精确率是针对预测结果而言的，它表示预测为正的样本中有多少是真正的正样本；召回率是针对原来的样本而言的，它表示样本中的正例有多少被预测正确了。单独使用精确率和召回率不能全面衡量模型的性能，F ₁是精准率和召回率的调和平均值，其计算公式为：

；

其中，

表示精准率，

表示召回率。

有益效果：本发明与现有技术相比，将事件类型信息作为前缀注入到事件抽取模型中，以实现零样本学习能力，前缀生成器中的交叉注意力机制也有助于的文档处理，显著提高了模型的F1值，在完全监督和零样本设置下实现了文档级事件抽取的最优性能，在主流的数据集上都验证了该模型的有效性，Text2Event是事件抽取任务的最优方法，基于监督学习场景下的RAMS数据集，本发明方法比Text2Event 在Arg-C和Trig-C分别高出1.0和1.3个F1分数；基于监督学习场景下的WIKIEVENTS数据集，本发明方法比Text2Event 在Arg-C和Trig-C分别高出11.5和10.6个F1分数。基于零样本学习场景下的ACE05-EN数据集，本发明方法比Text2Event 在Arg-C和Trig-C分别高出25.8和30.1个F1分数；基于零样本学习场景下的WIKIEVENTS数据集，本发明方法比Text2Event 在Arg-C和Trig-C分别高出9.4和25.6个F1分数。

附图说明

图1是事件抽取中的触发词识别、事件分类及论元抽取示例图；

图2是本发明实施例的基于任务调节的文档级生成式事件抽取框架的流程图；

图3是本发明实施例中的事件抽取神经网络模型的结构。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

实施例1：参见图2-图3，一种基于任务调节的文档级生成式事件抽取方法，包括以下步骤：

S5：重复步骤S2-S4，直至没有新的任务需要进行处理。

其中，所述步骤S2中编码器前缀的计算过程为：

S21：记给定任务事件类型为

,使用编码器得到事件抽取任务的编码表示为

，然后通过平均汇聚函数

，其中，

表示向量空间，

表示事件集合，

表示事件类型，

表示事件类型的数量，

表示向量空间的维度，

表示事件类型的编码表示，

代表任务的编码表示，

表示平均汇聚函数，其实现结构为向量的按行求平均运算；

S22：通过映射函数

来生成前缀，并将其注入编码器，其中

表示编码器前缀，

表示映射函数，其实现结构为一个三层全联接神经网络,

表示事件类型的编码表示,

是Transformer架构中维护的第

其中，所述步骤S3中为解码器创建前缀的方法具体为：

S31：使用基于向量点积的交叉注意力函数

来组合文档的编码表示

和任务的编码表示

，其数学描述为：

，

其中，

是交叉注意力函数，其实现结构为向量的点积运算,

是用于解码器调节的固定维度拼接向量，

表示事件文档的解码器表示，

表示事件类型的解码器表示,

表示向量空间的维度；

S32：通过映射函数

来生成前缀，并将其注入解码器，其中

表示解码器前缀，

表示映射函数，其实现结构为一个三层全联接神经网络，

表示注入前缀的长度，

是Transformer架构中维护的第

个注入前缀的参数数量，

是用于解码器调节的固定维度拼接向量，

表示事件文档的解码器表示，

表示事件类型的解码器表示，

表示向量空间的维度。

该方法通过融合实例表示与任务表示，提高模型处理当前实例中所包含事件的抽取性能。

其中，所述步骤S4中损失函数公式包括最小负对数似然损失函数公式和条件概率计算公式；

，

其中，

表示最优参数，

为训练集，

表示事件类型，

表示事件文档描述，

表示生成式事件抽取的最终生成序列结果，

表示神经网络的参数，

表示最小负对数似然损失函数。

，

其中，

表示最小负对数似然损失函数，

表示事件类型，

表示事件文档描述，

表示文本生成过程中的第

个位置，

表示生成序列中位置

之前的生成序列，

表示生成序列中位置

处的生成词，

表示最终生成序列的长度，

表示生成式事件抽取的最终生成序列结果。

实施例2：本实施例中采用基于Transformer的编码器-解码器架构作为事件抽取神经网络模型，其结构如图3所示。

本实施例中应用本发明提供的一种基于任务调节的文档级生成式事件抽取方法，如图2所示，其具体包括如下步骤：

步骤1）根据事件类型构建编码器的任务调节，然后使用多层感知器MLP神经网络注入编码器的任务调节。

首先利用Transformer的编码器模块对所有事件类型进行编码，得到事件类型的嵌入表示Type 1、Type 2、…、Type n，然后通过汇聚操作得到

，其中n表示事件类型的种类数量，e表示事件类型，enc表示编码器。然后通过函数

生成编码器的前缀，该函数的变量是经过汇聚后的事件类型嵌入表示

，具体来说，通过一个三层MLP神经网络，编码器的每一层生成一组

个键和值，其中

表示注入前缀的长度。最后将前缀和文档编码的嵌入进行组合，然后作为编码器的输入。

步骤2）根据事件类型和文档词元表示构造解码器的任务调节，然后使用多层感知器MLP神经网络注入解码器的任务调节。

通过一个双元函数

生成解码器的前缀，该函数的一个变量是输入文档的编码表示

，另一个变量是步骤1得到的任务的编码表示

，然后计算这两个矩阵的交叉注意力，得到对事件类型比较重要的词元，然后对词元进行加权求和，分别得到新的事件文档的解码器表示

和新的事件类型的解码器表示

；将上述两个向量进行拼接，再输入一个三层MLP神经网络，该网络和步骤1中的结构类似，唯一的区别是输入维度变长，步骤1中MLP结构的输入只有事件类型向量，而步骤2中MLP结构的输入中同时包含事件类型向量和文档词元向量。解码器按顺序生成每个词元以生成事件序列。

步骤3）利用最小负对数似然损失函数来训练事件抽取神经网络模型，并且在测试过程中采用约束解码算法；为了验证本发明方法的效果，本实施例将本发明方法与Text2Event方法进行性能对比，分别基于句子级事件抽取数据集ACE05-EN、文档级事件抽取数据集RAMS和WIKIEVENTS展开实验，其中WIKIEVENTS具有更长的上下文、更多的事件实例和更少的训练数据，同时满足长文本和低资源条件。监督学习场景下的对比结果如表1所示，零样本学习场景下的对比结果如表2所示，实验中的前缀长度设置为20。Arg-C衡量论元是否正确识别和分类，Trig-C衡量触发词是否正确识别和分类。基于监督学习场景下的RAMS数据集，本发明方法比Text2Event 在Arg-C和Trig-C分别高出1.0和1.3个F1分数；基于监督学习场景下的WIKIEVENTS数据集，本发明方法比Text2Event 在Arg-C和Trig-C分别高出11.5和10.6个F1分数。基于零样本学习场景下的ACE05-EN数据集，本发明方法比Text2Event 在Arg-C和Trig-C分别高出25.8和30.1个F1分数；基于零样本学习场景下的WIKIEVENTS数据集，本发明方法比Text2Event 在Arg-C和Trig-C分别高出9.4和25.6个F1分数。由此可知，无论是监督学习设置还是零样本学习设置，本发明方法在三个数据集上的表现都比Text2Event更具竞争力。这表明本发明所提出的方法能够有效解决文档级和零样本学习事件抽取任务。

表1：本发明方法与目前存在方法在监督学习场景下的性能对比表；

表2：本发明方法与目前存在方法在零样本学习场景下的性能对比表；

综上所述，本发明方法基于句子级事件抽取数据集ACE05-EN、文档级事件抽取数据集RAMS和WIKIEVENTS，以Transformer模型为事件抽取神经网络，结合Prompt思想，提出了一种具有的文档级事件抽取方法。通过使用该方法可以在零样本学习的场景中训练出效果更好的事件抽取神经网络模型，并构建出事件抽取系统。

需要说明的是上述实施例仅仅是本发明的较佳实施例，并没有用来限定本发明的保护范围，在上述技术方案的基础上做出的等同替换或者替代，均属于本发明的保护范围。