CN112307761A

CN112307761A - 基于注意力机制的事件抽取方法及系统

Info

Publication number: CN112307761A
Application number: CN202011301062.8A
Authority: CN
Inventors: 李明玉; 刘方然; 徐常亮; 贺大为
Original assignee: New Media Center Of Xinhua News Agency; Xinhua Zhiyun Technology Co ltd
Current assignee: New Media Center Of Xinhua News Agency; Xinhua Zhiyun Technology Co ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-02-02

Abstract

本发明公开一种基于注意力机制的事件抽取方法及系统，其中抽取方法包括以下步骤：获取待处理文本及其事件类型，提取所述待处理文本中各字的向量，获得文本向量数据，提取所述事件类型中各字的向量，生成事件类型向量数据；将所述文本向量数据和所述事件类型向量数据输入预先构建的抽取词预测模型，获得所述待处理文本中每个字所对应的标签所形成的标签序列；基于所述标签序列对所述待处理文本进行事件抽取，获得相应的事件触发词和事件论元。本发明中通过引入事件类型，结合事件类型对应的特征数据对事件触发词和事件论元进行联合抽取，有效提升事件抽取的准召率。

Description

基于注意力机制的事件抽取方法及系统

技术领域

本发明涉及信息抽取领域，尤其涉及一种基于注意力机制的事件抽取方法及系统。

背景技术

事件作为信息的一种表现形式，其定义为特定的人及物在特定的时间特定的地点相互作用的事实，其组成元素包含触发词、事件类型、论元以及论元角色；事件抽取的目标即自动化地从非结构化的信息中完成上述信息的获取，并结构化后进行展示。事件抽取是信息抽取领域中一项重要且具有挑战性的任务，其可以为知识库构建，问答以及语言理解任务提供有效的结构化信息。

现有的事件抽取方法大多采用事件触发词和事件论元分开抽取的pipeline方式，导致两个子任务错误率传播，同时事件触发词特征不能作用到下游任务，进而导致准召率较低。

发明内容

本发明针对现有技术中的缺点，提供了一种基于注意力机制的事件抽取方法及系统，通过引入事件类型，联合抽取待处理文本在该事件类型下的事件触发词和事件论元，从而有效提高准召性。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种基于注意力机制的事件抽取方法，包括以下步骤：

将事件触发词和事件论元作为抽取词，收集样本文本及其事件类型，还为所述样本文本中各抽取词所对应的每个字标注样本标签；

提取所述样本文本中每个字的向量，获得样本文本向量，提取所述事件类型中每个字的向量，获得样本类型向量；

基于所述样本文本向量、所述样本类型向量和所述样本标签训练获得抽取词预测模型；

获取待处理文本及其事件类型，提取所述待处理文本中各字的向量，获得文本向量数据，提取所述事件类型中各字的向量，生成事件类型向量数据；

将所述文本向量数据和所述事件类型向量数据输入所述抽取词预测模型，获得所述待处理文本中每个字所对应的标签所形成的标签序列；

基于所述标签序列对所述待处理文本进行事件抽取，获得相应的事件触发词和事件论元。

作为一种可实施方式：

所述标签用于指示所对应的字是否属于抽取词，以及当其属于抽取词时，所述字在抽取词中的中的位置和所述抽取词的类别。

作为一种可实施方式，所述抽取词预测模型包括：

第一表征层，用于对所述文本向量数据进行计算，生成文本序列表征；

第二表征层，用于对所述事件类型向量数据进行计算，生成事件类型表征；

注意力层，用于基于注意力机制，根据所述事件类型表征和所述文本序列表征生成注意力文本序列表征；

特征拼接层，用于将所述文本序列表征和所述注意力文本序列表征进行逐字拼接，生成融合文本序列表征；

全连接层，用于对所述融合文本序列表征进行全连接处理，获得对应字属于各类别的标签的概率，生成标签矩阵；

CRF层，基于条件随机场对所述标签矩阵进行解码，获得各字的标签，生成相应的识别结果序列。

作为一种可实施方式：

所述注意力层，用于基于所述事件类型表征计算所述文本序列表征中各表征所对应的注意力权重，并基于所述注意力权重对所述文本序列表征进行加权计算，生成注意力文本序列表征。

作为一种可实施方式，所述注意力权重的计算公式为：

其中，h_e为事件类型表征，

为文本序列表征中第j个表征，0＜j≤n，n为待处理文本中字的数量；f(·)函数表示点乘计算，σ(·)函数为sigmoid激活函数，exp(·)为指数函数。

作为一种可实施方式：

第一表征层和第二表征层均为Bi-LSTM层。

作为一种可实施方式：

文本向量数据和事件类型向量数据均为BERT向量。

本发明还提出一种基于注意力机制的事件抽取系统，包括模型构建模块和抽取模块；

所述模型构建模块，用于将事件触发词和事件论元作为抽取词，收集样本文本及其事件类型，还为所述样本文本中各抽取词所对应的每个字标注样本标签；还用于提取所述样本文本中每个字的向量，获得样本文本向量，提取所述事件类型中每个字的向量，获得样本类型向量；还用于基于所述样本文本向量、所述样本类型向量和所述样本标签训练获得抽取词预测模型；

所述抽取模块包括预处理单元、预测单元和抽取单元；

所述预处理单元，用于获取待处理文本及其事件类型，提取所述待处理文本中各字的向量，获得文本向量数据，提取所述事件类型中各字的向量，生成事件类型向量数据；

所述预测单元，用于将所述文本向量数据和所述事件类型向量数据输入所述抽取词预测模型，获得所述待处理文本中每个字所对应的标签所形成的标签序列；

所述抽取单元，用于基于所述标签序列对所述待处理文本进行事件抽取，获得相应的事件触发词和事件论元。

作为一种可实施方式，所述抽取词预测模型包括：

全连接层，用于对所述融合文本序列表征进行全连接处理，获得对应字属于各类别的标签的概率，生成标签矩阵，所述标签用于指示字位于抽取词中的位置和所述抽取词的类型信息；

本发明还提出一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现权利要求上述任意一项所述方法的步骤。

本发明由于采用了以上技术方案，具有显著的技术效果：

本发明中通过引入事件类型，结合事件类型对应的特征数据对事件触发词和事件论元进行联合抽取，有效提升事件抽取的准召率。

本发明能够实现单文本多事件抽取，适用范围广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种基于注意力机制的事件抽取方法的工作流程示意图；

图2是抽取词预测模型的计算流程示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

实施例1、一种基于注意力机制的事件抽取方法，如图1所示，包括以下步骤：

S100、构建抽取词预测模型：

S200、数据预处理：

S300、抽取词预测：

标签用于指示所对应的字是否属于抽取词，以及当其属于抽取词时，所述字在抽取词中的位置和所述抽取词的类别。

本实施例中，位置包括不属于抽取词、属于抽取词的首字、属于抽取词的非首字；

类别包括对应事件下的触发词、对应事件下的论元角色；

S400、事件触发词和事件论元联合抽取：

事件类型对应的特征数据对事件抽取具有显著的正面效果，本实施例中通过引入事件类型，并将事件触发词和事件论元进行联合抽取，有效提升事件抽取的准召率。

上述步骤S100中构建抽取词预测模型的具体步骤为：

S110、将事件触发词和事件论元作为抽取词，收集样本文本及其事件类型，还为所述样本文本中各抽取词所对应的每个字标注样本标签；

收集样本文本，人工或采用现有已公开的分类模型对所述样本文本进行事件分类，获得其对应的至少一个事件类型；

基于所述事件类型，确定对应事件类型下样本文本中的抽取词，为所述抽取词所对应的每个字标注样本标签，该样本标签亦包括对应字在所属抽取词中的位置以及所述抽取词在对应事件下的类型，同一样本文本，具有与其事件类型一一对应的标注数据。

本领域技术人员可根据实际需要自行建立标签库，基于所述标签库为样本文本标注样本标签，本实施例中样本标签的格式为位置-类别，如，标签为B-裁员方、I-裁员方，其中B表示属于抽取词中的首字，I表示属于抽取词中的非首字，裁员方表示抽取词对应的论元角色。

同一样本文本在不同事件类型下具有与所述事件类型相对应的标注数据。

S120、提取所述样本文本中每个字的向量，获得样本文本向量，提取所述事件类型中每个字的向量，获得样本类型向量；

本实施例中样本文本向量和样本类型向量均为BERT向量。

S130、基于所述样本文本向量、所述样本类型向量和所述样本标签训练获得抽取词预测模型；

本实施例中抽取词预测模型包括第一表征层、第二表征层、注意力层、特征拼接层、全连接层和CRF层，由CRF层输出相应的预测标签；

上述注意力层、特征拼接层、全连接层和CRF层依次连接，所述注意力层的输入为第一表征层和第二表征层的输出，第一表征层的输入为样本文本向量，第二表征层的输入为样本类型向量；

本实施例采用标准CRF损失函数，计算对应事件类型下CRF层输出的预测标签和在先标注的样本标签进行损失值计算，基于所得损失值进行反向更新，直至抽取词预测模型收敛。

由于模型的训练方法为本领域常规技术手段，在已知模型架构、输入数据、输出数据和损失函数的前提下，本领域技术人员可轻易训练获得相对应的抽取词预测模型，故不对详细的训练步骤进行阐述。

上述步骤S200中数据预处理的具体步骤为：

获取待处理文本；

基于人工或现有已公开的分类模型，对所述待处理文本进行事件分类，获取至少一个事件类型；

分别将所述待处理文本和各事件类型输入现有已公开的BERT模型，获得相对应的向量；

待处理文本包含n个字，其对应的文本向量数据为：

一事件类型包含m个字，其对应的事件类型向量数据为：

其中w对应字的BERT向量。

注，上述字指中文中的一个汉字、外文中的一个单词、一个字符(如阿拉伯数字)。

参照图2，上述步骤S300中抽取词预测具体步骤为：

将所述文本向量数据(如图2中word_1至word_n所示)输入至抽取词预测模型的第一表征层，将事件类型向量数据(如图2中事件类型所示)输入至抽取词预测模型的第二表征层；

第一表征层，用于对所述文本向量数据进行计算，生成文本序列表征，本实施例中所述文本序列表征为

即，表征按照待处理文本中各字的顺序构成序列；

第二表征层，用于对所述事件类型向量数据进行计算，生成事件类型表征h_e，即，图2中h_e；

注意力层，用于基于注意力机制，根据所述事件类型表征和所述文本序列表征生成注意力文本序列表征，所得注意力文本序列表征为

即，图2中h_att1至h_attn；

特征拼接层，用于将所述文本序列表征和所述注意力文本序列表征进行逐字拼接，如图2所示，本实施例中采用concat进行拼接操作，生成融合文本序列表征，所述融合文本序列表征为

全连接层，用于对所述融合文本序列表征进行全连接处理，获得对应字属于各类别的标签的概率，生成标签矩阵，所述标签矩阵为logits矩阵L^n*t，其中n为序列的长度，t为标签类别的个数；

参照图2，CRF层输出的标签包括B-Trigger、I-Trigger、B-Role1、I-Role1，其中B和I用于指示对应字在抽取词中的位置，Trigger表示触发词类型，Role1表示论元角色，如待处理文本片段：雀巢裁员4000人，其中雀对应的标签为B-裁员方，巢对应的标签为I-裁员方。

参照图2，第一表征层和第二表征层为Bi-LSTM层，LSTM算法全称为Long short-term memory，最早由Sepp Hochreiter和Jürgen Schmidhuber于1997年提出，是一种特定形式的RNN(Recurrent Neural Network，循环神经网络)。主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。相比普通的RNN，LSTM能够在更长的序列中有更好的表现。本实施例中通过Bi-LSTM算法步骤待处理文本的文本序列表征和对应的事件类型表征。

上述注意力层，用于基于所述事件类型表征计算所述文本序列表征中各表征所对应的注意力权重，并基于所述注意力权重对所述文本序列表征进行加权计算，生成注意力文本序列表征，具体步骤为：

①、计算注意力权重，计算公式为：

其中，h_e为事件类型表征，

基于上述公式计算文本序列表征中每一个表征对应的注意力权重后，进行归一化处理，获得相应的权重序列[α¹，α²，…，αⁿ]；

将所得权重序列与文本序列表征相乘，获得相应的注意力文本序列表征为

本实施例通过设计基于事件类型的注意力机制，进一步提高模型的召回率，在百度《2020语言与智能技术竞赛:事件抽取任务》进行测试，本实施例所构建的注意力预测模型的F1可到0.81。

现今事件抽取的方法往往仅针对一个场景进行抽取，如在医疗领域，对患者就诊信息进行抽取，如在金融领域，对金融各项活动进行抽取，即，其事件类型单一。

但针对新闻领域，由于其具有综合性，故在事件抽取过程中将基于多种角度提取同一新闻文本涉及的多个事件，现今所公开的事件抽取方法往往不能满足该需求；

本实施例中通过引入事件类型，基于注意力机制抽取对应事件类型下的事件触发词和事件论元，从而满足足现今对单文本多事件抽取的需求。

在实际事件抽取过程中，可依次将待处理文本所对应的文本向量数据和一事件类型所对应的事件类型向量数据输入至抽取词预测模型，完成该事件抽取后，提取下一个事件类型重复上述步骤，直至抽取获得各事件类型对应的事件触发词和事件论元，完成多事件的抽取。

实施例2、一种事件抽取方系统，包括模型构建模块和抽取模块：

所述抽取模块包括预处理单元、预测单元和抽取单元；

所述抽取词预测模型包括：

本实施例为实施例1所对应的装置实施例，由于其与实施例1基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

实施例3、一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现实施例1所述方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是：

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于注意力机制的事件抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于注意力机制的事件抽取方法，其特征在于：

3.根据权利要求2所述的基于注意力机制的事件抽取方法，其特征在于，所述抽取词预测模型包括：

4.根据权利要求3所述的基于注意力机制的事件抽取方法，其特征在于：

5.根据权利要求4所述的基于注意力机制的事件抽取方法，其特征在于，所述注意力权重的计算公式为：

其中，h_e为事件类型表征，

6.根据权利要求5所述的基于注意力机制的事件抽取方法，其特征在于：

第一表征层和第二表征层均为Bi-LSTM层。

7.根据权利要求1至6任一所述的基于注意力机制的事件抽取方法，其特征在于：

文本向量数据和事件类型向量数据均为BERT向量。

8.一种基于注意力机制的事件抽取系统，其特征在于，包括模型构建模块和抽取模块；

所述抽取模块包括预处理单元、预测单元和抽取单元；

9.根据权利要求8所述的基于注意力机制的事件抽取系统，其特征在于，所述抽取词预测模型包括：

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7任意一项所述方法的步骤。