CN116757159B

CN116757159B - 一种端到端的多任务联合篇章级事件抽取方法及系统

Info

Publication number: CN116757159B
Application number: CN202311021717.XA
Authority: CN
Inventors: 线岩团; 秦海涛; 黄于欣; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-10-13
Anticipated expiration: 2043-08-15
Also published as: CN116757159A

Abstract

本发明涉及端到端的多任务联合篇章级事件抽取方法及系统，属自然语言处理领域；方法包括：筛选出对某种事件类型来说贡献最大的词作为伪触发词，来完成无触发词的事件检测；通过回归的方式对每种类型的事件数量做出预测；对于多个事件来说，针对每个事件及每种事件类型选出得分最高的词作为伪触发词，作为论元识别的最终的伪触发词特征；利用片段打分方式识别文档中的实体作为候选论元；将候选论元特征与最终的伪触发词特征融合，采用多标签分类方法，预测事件论元及论元角色的关系；通过多任务联合学习方式，实现端到端的篇章级事件抽取；根据上述功能模块化制成系统，对事件进行抽取，本发明预测了事件论元及论元角色的关系，缓解论元重叠问题。

Description

一种端到端的多任务联合篇章级事件抽取方法及系统

技术领域

本发明涉及一种端到端的多任务联合篇章级事件抽取方法及系统，属于自然语言处理技术领域。

背景技术

篇章事件抽取（Document Event Extraction,DEE）是信息抽取的一个重要研究方向，旨在从非结构文本中抽取结构化事件类型和事件要素。

DEE包含事件检测和论元识别两个子任务，在事件检测阶段，之前的工作将此任务建模为触发词分类任务，预测给定句子中的每个单词是否是事件触发器以及所触发的事件类型。基于触发词的事件检测依赖于对触发词的识别，然而，触发词的识别并不是事件检测的目的，另外，相较于句子级的事件检测来说，文档的篇幅大，对于触发词的标注是耗时耗力的，于是出现了无触发词的事件检测。

在论元识别阶段，一个篇章存在多种事件类型的多个事件，可能是同一种事件类型下有多个事件，或者是不同的事件类型还存在多个事件；另外，还会存在同一个论元会充当多个事件的论元角色，这就是论元重叠问题。那么，对于论元属于哪个事件什么事件类型的哪种论元角色来说，论元的分配就变得尤其困难。已有的大多数篇章级事件抽取方法使用深度学习和联合学习进行特征交互，通过图构建的方式捕获事件类型和论元之间的关系，但是针对篇章事件中的论元重叠问题还是不能很好的解决。

另外，事件检测和论元识别并不是两个孤立的过程，对于在事件检测阶段获取到的具有上下文语义信息的伪触发词和在实体识别阶段得到的候选论元来说，如果它们属于同一事件的事件要素来说，它们的关系是紧密的，如果它们不属于同一事件要素来说，它们的关系是相对疏远的。基于此，我们将候选论元特征与伪触发词特征融合，采用多标签分类方法，预测事件论元及论元角色的关系，缓解论元重叠问题。

发明内容

针对上述问题，本发明提供了一种端到端的多任务联合篇章级事件抽取方法及系统，本发明在没有标注触发词的情况下，通过对文档的编码获取具有上下文语义信息的词，从而完成事件类型的检测、事件数量的预测和伪触发词的识别；将候选论元特征与伪触发词特征融合，采用多标签分类方法，预测事件论元及论元角色的关系，缓解论元重叠问题。

本发明的技术方案是：第一方面，本发明提供一种端到端的多任务联合篇章级事件抽取方法，所述方法的具体步骤如下：

步骤1：使用预训练语言模型对文本进行编码，得到每个句子的特征表示，然后经过线性变换获取事件检测特征、实体识别特征、事件论元识别特征三组特征分别作为事件检测，实体识别和事件论元识别三个模块的输入；

步骤2：在事件检测模块中，将事件检测看作多分类任务，使用从预训练语言模型获取具有上下文语义信息的词，并筛选出对某种事件类型来说贡献最大的词作为伪触发词，来完成无触发词的事件检测；同时，通过回归的方式对每种类型的事件数量做出预测；另外，对于多个事件来说，针对每个事件及每种事件类型选出得分最高的词作为伪触发词，作为论元识别的最终的伪触发词特征；

步骤3：在实体识别模块中，利用片段打分方式识别文档中的实体作为候选论元；

步骤4：在事件论元识别模块中，将候选论元特征与最终的伪触发词特征融合，采用多标签分类方法，预测事件论元及论元角色的关系；

步骤5：将事件检测、实体识别、事件论元识别三个模块通过现有的多任务联合学习方式进行联合优化训练，用训练好的模型实现端到端的篇章级事件抽取。

作为本发明的进一步方案，所述步骤1中包含以下步骤：

步骤1.1：对输入的文档d进行分句预处理操作，得到n个句子的文档：

；

使用预训练语言模型PLM分词器对句子进行分词处理，每个句子表示为：

；

其中，n代表文档的句子数，l代表句子切分项token的数量，代表token的特征维度；

步骤1.2：将文档的n个句子经过预训练语言模型PLM编码后,得到每个句子的向量序列：

；

于是文档表示为：,其中，；

然后，针对事件检测模块、实体识别模块、事件论元识别模块，对句子向量进行三组线性变换，分别得到事件检测特征、实体识别特征、事件论元识别特征：

事件检测特征：；

实体识别特征：；

论元识别特征：；

其中，代表进行线性变换后的新的token特征维度。

作为本发明的进一步方案，所述步骤2中包含以下步骤：

步骤2.1：在事件检测模块中，将得到的事件检测特征再次进行两个线性变换得到两组特征：和：

；

其中，代表进行两个线性变换后的新的token特征维度；用作事件类型和事件数量的预测，用作伪触发词的识别；token代表句子切分项；

步骤2.2：将中所有句子的隐状态拼成一个长序列，，其中，N代表文档中的token数；

步骤2.3：将通过层归一化和线性层后得到文档中所有token对于每种事件类型的分数:

；

其中，N代表文档中的token数，m代表事件类型数;

步骤2.4：对于事件类型的预测，将事件类型的预测看作多分类任务，对于每一种事件类型取文档中所有token对于每种事件类型的分数最大的值作为对应事件类型的得分：

；

对文档的事件类型标签]和所得事件类型得分，采用交叉熵损失计算事件类型损失：

；

均分别表示事件类型标签中的其中一个事件类型；

步骤2.5：对于事件数量的预测，将其看作回归任务，对每一种事件类型，将文档中所有token对于每种事件类型的分数经过sigmoid激活函数后取和作为每类事件的事件数量：

；

对文档的每种事件类型对应的事件数量标签和所得每类事件的事件数量，采用均方误差损失计算事件数量损失：

；均分别表示事件类型分别对应的事件数量；

步骤2.6：对于伪触发词的识别，认为对于每种事件类型来说贡献最大的token就是触发词；所以，首先针对文档中不定的k个事件和m种事件类型，从步骤2.3所得的文档中所有token对于每种事件类型的分数中，选出k组得分最高的token及其索引：

；

然后通过索引，从找到伪触发词的特征，其中；

步骤2.7：为了后续计算，将伪触发词的特征进行维度变换得到最终的伪触发词的特征：

；

其中，代表事件数量。

作为本发明的进一步方案，所述步骤3中包含以下步骤：

步骤3.1：在实体识别模块中，首先对步骤1所得实体识别特征进行线性变换得到和：

；

Q作为实体片段头部特征，K作为实体片段尾部特征，表示Q中的元素，表示K中的元素，n代表文档的句子数，l代表句子切分项token的数量，代表进行线性变换后的新的token特征维度；

步骤3.2：接着，采用内积的方式，为文档中每一种可能的实体片段进行打分：;

得到文档中所有片段的得分，表示文档中所有片段；然后选择片段得分大于0的片段作为候选论元，表示为；i代表实体片段头部，j代表实体片段尾部；

训练过程中，命名实体识别采用多标签分类交叉熵损失：。

作为本发明的进一步方案，所述步骤4中包含以下步骤：

步骤4.1：在事件论元识别模块中，为了简化计算，只使用实体头部特征进行计算，将步骤1得到的事件论元识别特征进行线性变换得到所有实体头部特征：；

n代表文档的句子数，l代表句子切分项token的数量，代表进行两个线性变换后的新的token特征维度；

步骤4.2：通过实体标签索引，在实体头部特征中找到候选论元的实体头部特征，其中，代表候选论元的个数；

步骤4.4：为了识别候选论元的角色类型，对候选论元的实体头部特征进行线性变换和维度变换得到：；

其中，代表论元角色的类型数；

步骤4.3：使用爱因斯坦求和约定，对步骤2所得的最终的伪触发词特征与候选论元实体头部特征进行计算：；

其中，；

目的是综合候选论元特征和事件伪触发词特征，对所有候选论元进行多标签分类，预测候选论元与论元角色的关系；

对候选论元的识别使用多标签分类交叉熵损失：；

其中，是单个候选论元，i代表实体片段头部，j代表实体片段尾部，m代表事件类型数。

作为本发明的进一步方案，所述步骤5中包含以下步骤：

将事件检测、实体识别、事件论元识别三个模块通过现有的多任务联合学习方式进行联合优化训练，用训练好的模型实现端到端的篇章级事件抽取，其中事件检测模块包括事件类型的预测和事件数量的预测，联合学习的损失为：；

为事件类型损失，为事件数量损失，为命名实体识别采用的多标签分类交叉熵损失，为对候选论元的识别使用的多标签分类交叉熵损失。

第二方面，本发明还提供一种端到端的多任务联合篇章级事件抽取系统，该系统包括用于执行上述第一方面的方法的模块。

本发明的有益效果是：

（1）本发明利用采用多任务联合的方式实现端到端的篇章级事件抽取；

（2）本发明在事件检测模块中，在没有标注触发词的情况下，通过对文档的编码获取具有上下文语义信息的词，从而完成事件类型的检测、事件数量的预测和伪触发词的识别；

（3）在事件论元识别模块，将候选论元特征与伪触发词特征融合，采用多标签分类方法，预测事件论元及论元角色的关系；其中，计算时仅使用实体头部特征，以简化计算过程；

（4）将候选论元特征与伪触发词特征融合，采用多标签分类方法，预测事件论元及论元角色的关系，缓解论元重叠问题。

附图说明

图1为本发明方法整体框架图；

图2为本发明使用的数据样例；

图3为本发明的事件检测模块结构图；

图4为本发明的实体识别模块结构图；

图5为本发明的事件论元识别模块图。

具体实施方式

下面结合附图，对本发明的实施例进行描述。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例的执行主体可以为各种类型的终端，终端例如可以是计算机、智能手机、平板电脑、可穿戴设备、个人数字助理（英文：Personal DigitalAssistant，缩写：PDA）、移动互联网设备（英文：Mobile Internet Device，缩写：MID）等可进行文本处理的终端，本发明对此不作任何限制。

图1为本发明实例提供的一种端到端的多任务联合篇章级事件抽取方法整体框架图，第一方面，本实施例提供的一种端到端的多任务联合篇章级事件抽取方法包括以下步骤：

所述步骤1中包含以下步骤：

；

于是文档表示为：,其中，；

事件检测特征：；

实体识别特征：；

论元识别特征：；

其中，代表进行线性变换后的新的token特征维度。

步骤2：在事件检测模块中，将事件检测看作多分类任务，使用从预训练语言模型获取具有上下文语义信息的词，并筛选出对某种事件类型来说贡献最大的词作为伪触发词，来完成无触发词的事件检测；同时，通过回归的方式对每种类型的事件数量做出预测；另外，对于多个事件来说，针对每个事件及每种事件类型选出得分最高的词作为伪触发词，作为论元识别的最终的伪触发词特征；事件检测模块结构图如图3所示。

所述步骤2中包含以下步骤：

；

其中，N代表文档中的token数，m代表事件类型数;

；

均分别表示事件类型标签中的其中一个事件类型；

；

；均分别表示事件类型分别对应的事件数量；

；

然后通过索引，从找到伪触发词的特征，其中；

；

其中，代表事件数量。

步骤3：在实体识别模块中，利用片段打分方式识别文档中的实体作为候选论元；实体识别结构图如图4所示。

所述步骤3中包含以下步骤：

；

训练过程中，命名实体识别采用多标签分类交叉熵损失：。

步骤4：在事件论元识别模块中，将候选论元特征与最终的伪触发词特征融合，采用多标签分类方法，预测事件论元及论元角色的关系；事件论元识别模块结构图如图5所示。

所述步骤4中包含以下步骤：

其中，代表论元角色的类型数；

其中，；

对候选论元的识别使用多标签分类交叉熵损失：；

步骤5：将事件检测、实体识别、事件论元识别三个模块通过现有的多任务联合学习方式进行联合优化训练，用训练好的模型实现端到端的篇章级事件抽取，其中事件检测模块包括事件类型的预测和事件数量的预测，联合学习的损失为：；

下面为本发明系统的实施例，本发明系统实施例用于执行本发明方法第一实施例实现的方法，为了便于说明，仅示出了本发明实施例相关的部分，具体未揭示的部分，请参照本发明第一实施例。

本发明实施例提供一种端到端的多任务联合篇章级事件抽取系统，该系统包括：

编码模块：用于使用预训练语言模型对文本进行编码，得到每个句子的特征表示，然后经过线性变换获取事件检测特征、实体识别特征、事件论元识别特征三组特征分别作为事件检测，实体识别和事件论元识别三个模块的输入；

事件检测模块：用于将事件检测看作多分类任务，使用从预训练语言模型获取具有上下文语义信息的词，并筛选出对某种事件类型来说贡献最大的词作为伪触发词，来完成无触发词的事件检测；同时，通过回归的方式对每种类型的事件数量做出预测；另外，对于多个事件来说，针对每个事件及每种事件类型选出得分最高的词作为伪触发词，作为论元识别的最终的伪触发词特征；

实体识别模块：用于利用片段打分方式识别文档中的实体作为候选论元；

事件论元识别模块：用于将候选论元特征与最终的伪触发词特征融合，采用多标签分类方法，预测事件论元及论元角色的关系；

优化抽取模块：用于将事件检测、实体识别、事件论元识别三个模块通过现有的多任务联合学习方式进行联合优化训练，用训练好的模型实现端到端的篇章级事件抽取。

图2为金融领域篇章级事件抽取数据集（ChFinAnn）的示例，数据集共包含五种事件类型：股票冻结(EF)、股票回购(ER)、股票减持(EU)、股票增持(EO)和股票质押(EP),共32040篇文档。将数据集划分为训练集、验证集和测试集,比例为8:1:1。篇章级事件抽取的输入：包含事件信息的一个完整的连续篇章；输出：预定义的事件类型和论元角色的事件论元。

本发明在所介绍的金融领域篇章级事件抽取数据集（ChFinAnn）上进行了实验，对五种事件类型：股票冻结(EF)、股票回购(ER)、股票减持(EU)、股票增持(EO)和股票质押(EP)，采用精确率(P)、召回率(R)和F1-Score(F1)值衡量实验结果，并且与现有DCFEE-S、DCFEE-M、Greedy-Dec、Doc2EDAG、ReDEE文档级事件抽取模型进行了对比。最终的结果如表1所示：

表1为实验结果

从表1中可以看出，与其他现有方法对比，本发明方法在不同事件类型的抽取上均达到了好的抽取效果，R值，P值，F1值均得到提升。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种端到端的多任务联合篇章级事件抽取方法，其特征在于：所述方法的具体步骤如下：

步骤1：使用预训练语言模型对文本进行编码，得到每个句子的特征表示，然后经过线性变换获取事件检测特征、实体识别特征、事件论元识别特征三组特征分别作为事件检测、实体识别和事件论元识别三个模块的输入；

步骤5：将事件检测、实体识别、事件论元识别三个模块通过现有的多任务联合学习方式进行联合优化训练，用训练好的模型实现端到端的篇章级事件抽取；

所述步骤1中包含以下步骤：

；

于是文档表示为：,其中，/>；

然后，针对事件检测模块、实体识别模块、事件论元识别模块，对句子向量进行三组线性变换，分别得到事件检测特征、实体识别特征/>、事件论元识别特征/>：

事件检测特征：；

实体识别特征：；

论元识别特征：；

其中，代表进行线性变换后的新的token特征维度；

所述步骤2中包含以下步骤：

步骤2.1：在事件检测模块中，将得到的事件检测特征再次进行两个线性变换得到两组特征：/>和/>：

；

其中，代表进行两个线性变换后的新的token特征维度；/>用作事件类型和事件数量的预测，/>用作伪触发词的识别；token代表句子切分项；

步骤2.2：将中所有句子的隐状态拼成一个长序列/>，/>，其中，N代表文档中的token数；

；

其中，N代表文档中的token数，m代表事件类型数;

；

对文档的事件类型标签]和所得事件类型得分/>，采用交叉熵损失计算事件类型损失/>：

；

均分别表示事件类型标签中的其中一个事件类型；

；

对文档的每种事件类型对应的事件数量标签和所得每类事件的事件数量/>，采用均方误差损失计算事件数量损失/>：

；/>均分别表示事件类型分别对应的事件数量；

；

然后通过索引，从找到伪触发词的特征/>，其中/>；

步骤2.7：为了后续计算，将伪触发词的特征进行维度变换得到最终的伪触发词的特征/>：

；

其中，代表事件数量；

所述步骤3中包含以下步骤：

步骤3.1：在实体识别模块中，首先对步骤1所得实体识别特征进行线性变换得到/>和/>：

；

Q作为实体片段头部特征，K作为实体片段尾部特征，表示Q中的元素，表示K中的元素，n代表文档的句子数，l代表句子切分项token的数量，/>代表进行线性变换后的新的token特征维度；

步骤3.2：接着，采用内积的方式，为文档中每一种可能的实体片段进行打分：/>;

得到文档中所有片段的得分，其中/>表示文档中所有片段；然后选择片段得分大于0的片段作为候选论元，表示为/>；i代表实体片段头部，j代表实体片段尾部；

训练过程中，命名实体识别采用多标签分类交叉熵损失：；

所述步骤4中包含以下步骤：

步骤4.1：在事件论元识别模块中，为了简化计算，只使用实体头部特征进行计算，将步骤1得到的事件论元识别特征进行线性变换得到所有实体头部特征/>：；

步骤4.2：通过实体标签索引，在实体头部特征中找到候选论元的实体头部特征，其中，/>代表候选论元的个数；

步骤4.3：为了识别候选论元的角色类型，对候选论元的实体头部特征进行线性变换和维度变换得到/>：/>；

其中，代表论元角色的类型数；

步骤4.4：使用爱因斯坦求和约定，对步骤2所得的最终的伪触发词特征与候选论元实体头部特征/>进行计算：/>；

其中，；

对候选论元的识别使用多标签分类交叉熵损失：；

2.根据权利要求1所述的端到端的多任务联合篇章级事件抽取方法，其特征在于：所述步骤5中包含以下步骤：

为事件类型损失，/>为事件数量损失，/>为命名实体识别采用的多标签分类交叉熵损失，/>为对候选论元的识别使用的多标签分类交叉熵损失。

3.一种端到端的多任务联合篇章级事件抽取系统，其特征在于，包括用于执行如权利要求1-2任一权利要求所述的方法的模块。