CN114610866A

CN114610866A - 基于全局事件类型的序列到序列联合事件抽取方法和系统

Info

Publication number: CN114610866A
Application number: CN202210512407.7A
Authority: CN
Inventors: 赵薇; 周昱晨; 刘小萌
Original assignee: Hunan Police Academy
Current assignee: Hunan Police Academy
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-06-10
Anticipated expiration: 2042-05-12
Also published as: CN114610866B

Abstract

本申请涉及基于全局事件类型的序列到序列联合事件抽取方法和系统，该方法包括：将输入的待抽取语句进行预处理并向量化；利用BERT模型获取表示向量化后的待抽取语句中每个词的语义特征；根据语义特征通过长短期记忆网络得到编码输出向量和编码隐藏层状态输出向量；利用编码输出向量中的第一个向量进行候选事件类型嵌入；根据编码输出向量中的其余向量进行候选事件元素识别；利用编码隐藏层状态输出向量初始化解码层的隐藏层后，根据类型嵌入结果进行解码生成完整事件，根据生成的完整事件中事件元素最后一个单词的位置从候选的事件元素中拷贝完整的目标候选事件元素。提高了事件抽取性能。

Description

基于全局事件类型的序列到序列联合事件抽取方法和系统

技术领域

本发明属于信息抽取技术领域，涉及一种基于全局事件类型的序列到序列联合事件抽取方法和系统。

背景技术

事件抽取是信息抽取中极具挑战且重要的任务之一。在工作应用中，针对以案事件侦查为中心的案件串并分析，更加关注案件中的角色信息，例如犯罪嫌疑人、受害人、作案工具、作案地点和作案时间等，以便于进行同类特征案件的串并案分析，需要对业务文本进行案事件的抽取。同时，业务文本存在大量单个句子描述多个事件的情况。

事件是指发生在某个特定时间或者时间范围内、某个特定的地点或者地域范围内，由一个或者多个参与者、一个或者多个行为动作组成的一件事情或者是一个状态的改变。根据ACE(Automatic Content Extraction, 自动内容抽取)评测会议对事件的定义，事件抽取任务则主要分为以下两个步骤：（1）触发词识别与事件分类，（2）事件元素识别与角色分类。通过事件抽取后获得的信息包括触发词、事件类型、事件元素以及元素角色分类。

目前大多数事件抽取的研究集中在单句单事件抽取和篇章级事件抽取，学者和研究人员提出了各类解决事件抽取问题的方法，例如管道（Pip-Line）式的方法、联合抽取方法和引入句法依存树的方法等，然而，在实现本发明的过程中，发明人发现上述传统的事件抽取方法，仍存在着事件抽取性能较差的技术问题。

发明内容

针对上述传统方法中存在的问题，本发明提出了一种能够大幅提高整体事件抽取性能的基于全局事件类型的序列到序列联合事件抽取方法，以及提供一种基于全局事件类型的序列到序列联合事件抽取系统。

为了实现上述目的，本发明实施例采用以下技术方案：

一方面，提供一种基于全局事件类型的序列到序列联合事件抽取方法，包括步骤：

将输入的待抽取语句进行预处理并向量化；

利用BERT模型获取表示向量化后的待抽取语句中每个词的语义特征；

根据语义特征通过长短期记忆网络得到编码输出向量和编码隐藏层状态输出向量；

利用编码输出向量中的第一个向量进行候选事件类型嵌入，得到词嵌入后的类型嵌入结果；

根据编码输出向量中的其余向量进行候选事件元素识别，得到候选的事件元素；其余向量为编码输出向量中从第二个向量开始的其余全部向量；

利用编码隐藏层状态输出向量初始化解码层的隐藏层后，根据类型嵌入结果进行解码生成完整事件，根据生成的完整事件中事件元素最后一个单词的位置从候选的事件元素中拷贝完整的目标候选事件元素。

另一方面，还提供一种基于全局事件类型的序列到序列联合事件抽取系统，包括：

数据预处理模块，用于将输入的待抽取语句进行预处理并向量化；

BERT预处理模块，用于利用BERT模型获取表示向量化后的待抽取语句中每个词的语义特征；

编码模块，用于根据语义特征通过长短期记忆网络得到编码输出向量和编码隐藏层状态输出向量；

全局事件类型层模块，用于利用编码输出向量中的第一个向量进行候选事件类型嵌入，得到词嵌入后的类型嵌入结果；

候选事件元素模块，用于根据编码输出向量中的其余向量进行候选事件元素识别，得到候选的事件元素；其余向量为编码输出向量中从第二个向量开始的其余全部向量；

解码模块，用于利用编码隐藏层状态输出向量初始化解码层的隐藏层后，根据类型嵌入结果进行解码生成完整事件，根据生成的完整事件中事件元素最后一个单词的位置从候选的事件元素中拷贝完整的目标候选事件元素。

又一方面，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述的基于全局事件类型的序列到序列联合事件抽取方法的步骤。

再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的基于全局事件类型的序列到序列联合事件抽取方法的步骤。

上述技术方案中的一个技术方案具有如下优点和有益效果：

上述基于全局事件类型的序列到序列联合事件抽取方法和系统，通过对输入的待抽取语句进行预处理与向量化后，用BERT模型获取每个词的语义特征，然后经过编码处理捕获上下文的语义特征，同时得到编码输出向量和编码隐藏层状态输出向量，进而利用编码输出向量中的第一个向量进行候选事件类型嵌入，利用编码输出向量中的其余向量进行候选事件元素识别，最后，利用编码隐藏层状态输出向量初始化解码层的隐藏层后，通过解码生成最终完整的事件抽取结果。

相比于传统方法，引入了全局事件类型层进行候选事件类型嵌入以实现事件类型预测。相较于基于触发词的事件分类方法，全局事件类型层充分利用了整个语句序列的信息并预测出句子中所包含的全部候选事件类型，同时充分考虑了同一句子中多事件之间丰富的语义关联，使得事件的识别和分类更加准确。

上述方案将事件元素抽取构建成了序列到序列（Seq2Seq）模型，通过序列生成的端到端的方式得到事件元素及角色分类，不依赖自然语言处理工具的预处理结果，避免了外部噪声的引入，同时网络结构简单高效；而且在不进行触发词识别的情况下达到了事件抽取的总体目标（事件类型识别、时间元素识别和角色分类），提高了事件抽取的效率，从而达到了大幅提高整体事件抽取性能的效果。

附图说明

为了更清楚地说明本申请实施例或传统技术中的技术方案，下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个输入句子示例的示意图；

图2为一个实施例中基于全局事件类型的序列到序列联合事件抽取方法的流程示意图；

图3为一个实施例中的BIO标注示例的示意图；

图4为一个实施例中的解码输出示例的示意图；

图5为一个实施例中的解码“死亡”事件的实验结果示意图；

图6为一个实施例中的解码“攻击”事件的实验结果示意图；

图7为一个实施例中基于全局事件类型的序列到序列联合事件抽取系统的模块架构示意图；

图8为一个实施例中基于全局事件类型的序列到序列联合事件抽取系统的模型架构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“和／或”包括一个或多个相关的所列项目的任意的和所有的组合。

事件是一个复杂的概念，源于人类的认知，在语言学、哲学和计算机科学研究中频繁的出现。目前，针对不同的研究和应用领域，人们对事件有着不同的描述。在自动文摘领域，事件被定义为由一个动词及其相关的部分（参与者、时间和地点）组成，能通过一句话进行表述；在话题发现与跟踪（Topic Detection Tracking，TDT）研究领域，事件被定义为是关于同一主题的一簇相关描述，这个主题由某些原因、条件引起，发生某些可能出现的结果。

在公共安全领域中，根据案件五要素（即作案时间、作案空间、相关人、相关物和相关行为）特点，结合信息抽取领域中关于ACE评测会议对事件的描述，将事件定义为：是指发生在某个特定时间或者时间范围内、某个特定的地点或者地域范围内，由一个或者多个参与者、一个或者多个行为动作组成的一件事情或者是一个状态的改变。根据ACE评测会议对事件的定义，事件抽取任务则主要分为以下两个步骤：

（1）触发词识别与事件分类。触发词识别与事件分类是指从非结构化自然文本中识别出事件并确定事件的类型和子类型。传统的实现方法是通过识别文本中的触发词，并根据触发词进行事件分类，再确定事件类型和子类型。

（2）事件元素识别与角色分类。事件元素识别与角色分类是指在确定事件类型的文本中识别事件元素及其扮演的角色，其主要方法是首先识别事件文本中的事件元素，然后根据不同的事件类型，将其划分为不同的角色。

综上所述，通过事件抽取后获得的信息包括触发词、事件类型、事件元素以及元素角色分类。以下面这句话为示例1，文本分别描述了两种不同类型的事件。

示例1：“在B地区，一辆某国坦克向BT酒店开火时造成一名摄影师死亡。”

在上述所示的例句中，事件触发词分别为“开火”和“死亡”，分别触发了攻击和死亡两个事件。在攻击事件中，事件元素及元素角色包括某国坦克（元素角色：工具）、BT酒店（目标）、摄影师（目标）、B地区（地点）；在死亡事件中事件元素角色包括摄影师（受害者）、某国坦克（工具）、B地区（地点）。

为了便于对文本的理解和描述，以下将事件抽取研究中相关专业术语定义结合例句来进行介绍：

（1）事件描述（Event Mention）：是指自然语言中对一个客观发生的事件的完整描述，通常是一个句子或者段落中的句子群。同一事件中可能包含不同的事件描述，可能存在自然文本的不同位置或不同的自然文本中。（2）事件触发词（Event Trigger））是指一个客观发生的事件的完整描述中最能代表事件发生的词，是决定事件类别的重要线索，通常是动词或者动名词。如上述例句中的“开火”和“死亡”都是触发词。

（3）事件元素（Event Argument）：是指客观发生事件中的参与者，是事件中最重要的组成部分，通常由实体（Entity）、时间（Time）和属性值（Value）组成，但并不代表它们都是事件元素。如上述例句中的事件元素有：某国坦克、BT酒店、摄影师、B地区等。

（4）元素角色（Event Argument Role）：是指参与某个事件的事件元素在该事件中的作用（即扮演什么角色），和事件有语义上的关联，如例句中“摄影师”扮演“死亡”的“受害者”角色。在本章中，事件元素的角色类型通过事件元素和触发词之间的关系来表示。

（5）事件类别（Event Type）:事件元素与事件触发词决定了事件的类型。根据ACE的定义，例句中事件类型和子类分别是“袭击”与“死亡”。

ACE评测会议提供了英语、汉语、阿拉伯语和西班牙语等多种语言的标注文档，以及几种不同版本的评测数据集（如ACE2001、ACE2002、ACE2005和ACE2007等数据集），目前ACE2005数据集使用最为广泛，其包括事件抽取的599篇英文标注文档，数据统计情况如表1所示。

表 1

ACE数据集中的事件类型是预定义的，包括8大类和33小类，如表2所示。通常情况，不同的事件类型对应着不同的触发词，并由不同的事件元素角色组成，表3给出了ACE数据集中部分事件元素角色。ACE评测会议要求参与评测的事件抽取系统能够正确识别事件的触发词、事件类型、事件元素以及事件元素角色。

表2

表3

近年来，在研究工作中，发明人发现学者和研究人员提出了各类解决事件抽取问题的方法，其中由于管道（Pip-Line）式的方法忽略了子任务间相互关联性并且存在级联错误导致误差传导的问题。因此，研究人员更倾向于联合抽取方法，将事件检测和事件元素抽取通过多任务学习框架一同完成，在一定程度上解决了管道式方法的不足。然而，目前各种方法仍然存在一个共同的问题，即未考虑同一个句子包含多个事件的情况，同时，忽略了输入句子中事件与事件之间相互依赖关系。

在对已有的事件抽取研究中发现，单个句子包含多个事件的情况普遍存在，并且由于事件与事件之间存在相互影响，准确的从句子中抽取多个事件比单事件抽取更为复杂。据统计，在ACE2005数据集中与事件相关的句子有3978条，其句子中包含多个事件的有1042条，占整个事件数据集的26.6%。当一个句子存在多个事件时，意味着句子中包含多于一个的触发词、多于一组的事件元素，如何确保每个事件（触发词）都被正确识别的同时，确保每组元素被正确的归属于对应事件（触发词）中，是极具挑战性的。

同时研究发现，同一个句子中所包含的多个事件之间存在语义上的关联，如果能对其加以有效利用，对整体的事件抽取性能提升能起到正向促进作用。例如通过对ACE2005数据集分析发现，发生“攻击”事件的同时很可能会伴随“死亡”事件的产生，“结婚”事件和“出生”事件是不可能同时发生的。在示例1的例句中，如果单独考虑触发词“开火”，则既可以触发“解雇”事件又可以触发“攻击”事件，具体触发哪个事件是无法确定的，但是如果把触发词“死亡”触发的“死亡”事件考虑进来，那么就可以考虑“开火”触发“攻击”事件的可能性要比触发“解雇”事件的可能性大。基于此原理，Liu等人对多事件的事件抽取进行了深入的研究，其提出的方法引入了句法依存树，利用图卷积神经学习输入句子中各成分的依存句法关系，并试图通过该方法来捕获事件与事件之间的相互关联。但是由于依存句法树本身较为复杂且需要依赖自然语言处理工具进行预处理，存在误差传导的问题，因此也未能充分利用事件与事件之间的依赖关系。

综上所述，为了对同句子中多事件之间的语义关联加以充分利用并提高整体抽取性能，本申请提出了基于全局事件类型的序列到序列联合事件抽取方法。该方法采用BERT（Bidirectional Encoder Representation from Transformers。一个预训练的语言表征模型）进行向量初始化，其主干网络属于序列到序列的结构。区别以往事件抽取方法的是，本方法不进行触发词识别，而是直接进行事件类型分类。该方法的提出主要基于Liu等人研究认为触发词对于事件类型分类是无关紧要的。此外，该方法中引入了一个全局事件类型层实现对输入序列进行候选事件的预测，即预先得出输入序列中可能存在的所有事件类型。以如图1所示的例句为例，如果预先知道输入序列中存在“攻击”和“死亡”的事件，第一个事件分类预测出“攻击”事件，那么第二个事件很可能是“死亡”或“受伤”的事件，然而如果事先知道“死亡”事件的产生，那么分类成“死亡”事件的可能性会进一步加大。

综上，为了解决上述传统的事件抽取方法中存在的事件抽取性能较差的技术问题，本文中提出了一种基于全局事件类型的序列到序列的联合事件抽取方法，首先通过全局事件类型层预先获取输入序列中存在的事件类型，然后引入注意力机制的序列到序列的方法进行事件类型分类与事件论元抽取，实现单句中多事件的抽取的同时解决了传统方法忽略多事件间的关联关系的问题。该方法在ACE2005数据集上进行了验证，其结果证明了方法的有效性。最后通过涉毒类案事件抽取为实例，验证了该方法在实际场景中应用的有效性。

下面将结合本发明实施例图中的附图，对本发明实施方式进行详细说明。

请参阅图2，本申请实施例提供了一种基于全局事件类型的序列到序列联合事件抽取方法，包括如下处理步骤S12至S22：

S12，将输入的待抽取语句进行预处理并向量化。

可以理解，由于采用了BERT模型进行预处理，因此需要将输入的待抽取语句按照BERT模型的输入要求进行数据预处理并将其向量化表示。为便于理解，可以但不限于用

代表输入的待抽取语句，

表示输入句子中的一个词，其中n是语句的长度。

S14，利用BERT模型获取表示向量化后的待抽取语句中每个词的语义特征。

可以理解，BERT是目前性能和效果最好的通用语言表示模型，其在NER、RE和文本分类等11种NLP领域均有最好的表现，其网络主要采用了Transformers编码端结构，模型的输入端主要由token嵌入、分句（段）嵌入和位置嵌入三部分组成，通常的，首先通过WordPiece算法将输入句子预处理成token序列，其次在序列的第一个位置加上特殊字符“[CLS]”，当输入多个序列时，在每个序列之间用特殊字符“[SEP]”来进行隔断，其中分句嵌入用来表示不同的输入序列，位置嵌入记录了每个token在输入序列中的位置，然后将token嵌入、分句嵌入和位置嵌入相加输入BERT模型。假设输入为X，X输入BERT首先生成查询向量Q、键向量K和值向量V三个向量：

（1）

（2）

（3）

接下来根据Q和K向量计算每个输入向量之间的权值：

（4）

（5）

为了稳定梯度，对

进行了归一化处理即除以矩阵维度

，

与

相乘获取每个输入向量的评分即计算自注意力：

（6）

然后将每一个输入向量对应的

相加的得到输出

：

（7）

最后将输出

通过一个两层的全连接网络得到一层的输出向量

：

（8）

其中，max是取大值函数。为了更好的捕获句子的上下语义信息，对输入向量进行多个自注意力处理即称多头自注意力Multi-Head Attention：

（9）

其中，n代表头的个数，然后将

个

拼接成一个特征矩阵，通过一个全连接网络得到输出

：

（10）

（11）

其中，

和

分别表示各权重，

和

分别表示各偏差，

是

向量维度的平方根，

函数是拼接函数。接下来将

经过层级归一化和残差网络的输出作为前馈神经网络的输入，最后将前馈神经网络的输出通过层级归一化和残差网络得到输入序列每个token的语义表示，将这一过程称为编码器。理论上可以通过无限堆叠编码器加深网络层次来获取输入序列深层次的语义信息。

在一些实施方式中，BERT模型包括BERT_base模型或BERT_large模型。可以理解，BERT提供了两种预训练模型：BERT_base和BERT_large。其中，BERT_base使用了12层编码器，每一层使用了12个多头注意力，最终生成维度为768的词向量。

在一个实施例中，上述步骤S12可以包括如下处理步骤：

使用WordPiece算法将待抽取语句预处理为输入的词序列；

在词序列的首位加入特殊字符[CLS]；

添加代表词序列的位置序列；

通过Word2Vec算法将加入特殊字符后的词序列和位置序列进行向量化处理，得到词序列的词向量和位置向量。

可以理解，根据BERT的预置词表使用本领域已有的WordPiece算法将输入的待抽取语句处理成一个一个的token（令牌）词，可以但不限于用

表示，其中，

表示预处理数据中的token，其中

是预处理数据的长度，

。

在一个实施例中，关于上述的步骤S14，具体可以包括处理：

将词序列的词向量和位置向量输入BERT模型，得到词序列中每个词的语义特征。

可以理解，从上述BERT的介绍可知，BERT的输入由词嵌入、段嵌入和位置嵌入相加组成。对于分类任务，BERT在输入序列的首位增加了一个特殊字符“[CLS]”来获取序列的上下文的语义信息。对于有多个序列的输入，BERT则使用一个特殊字符“[SEP]”来区分不同序列。在本实施例的任务中，由于存在一个分类任务，因此在输入序列的首位增加了一个特殊字符“[CLS]”，但没有多个序列的输入，因此BERT的输入不需要加段嵌入和特殊字符“[SEP]”。由此可知，对于给定的输入序列

，在W首位加入特殊字符“[CLS]”，以及代表输入序列位置的位置序列

，通过Word2Vec进行向量化后生成词向量

和位置向量

，然后通过BERT得到输入序列每个token的初始化序列

，即得到词序列中每个词的语义特征。

S16，根据语义特征通过长短期记忆网络得到编码输出向量和编码隐藏层状态输出向量。

可以理解，长短期记忆网络可以采用本领域已有的Bi-LSTM网络。具体的，将

输入Bi-LSTM网络中，每个时刻的输出为

和

，假设t时刻输入为

，遗忘门

决定丢弃或保留的信息，其数学计算公式如下：

（12）

输入门

用于更新神经元状态，其数学计算公式如下：

(13)

当前神经元状态

的数学计算公式如下：

(14)

输出门

用来确定下一个隐藏状态的值，其数学计算公式如下：

(15)

最终得到当前神经元输出

，其数学计算公式如下：

(16)

其中

和

分别表示各权重，

和

分别表示各偏差，

表示上个时刻的输出，

表示上个时刻的神经元状态，

为激活函数，

为sigmod函数，Bi-LSTM的反向推理与正向推理相同，最终生成固定维度向量

。

S18，利用编码输出向量中的第一个向量进行候选事件类型嵌入，得到词嵌入后的类型嵌入结果。

可以理解，本实施例中采用预先构建的全局事件类型层作为事件类型分类的一个辅助任务，用于事先预测输入语句中可能存在的事件类型，采用多任务学习中常使用的硬参数共享的方法。

在一个实施例中，关于上述步骤S18，具体可以包括如下处理：

采用第一个向量作为全局事件类型层的输入；

使用具有非线性激活的稠密层预测得到输入序列的事件类型；输入序列为向量化后的待抽取语句；

将预测出的所有事件类型转换为相应事件嵌入；

将所有的事件嵌入相加取平均作为全局事件类型层的输出，得到类型嵌入结果。

具体的，采用输入token（[CLS]）对应的Bi-LSTM的输出

作为全局事件类型层的输入，然后使用一个具有非线性激活的稠密层来得到输入序列的事件类型，其计算公式如下所示：

(17)

其中，

是转换矩阵，

是偏置向量，

是预定义事件类型的个数，h是

的维度。由于输入序列中可能存在多个事件，所以

使用sigmoid函数。全局事件类型层的损失函数计算公式如下所示：

（18）

其中，Τ代表训练集，

表示预定义事件类型集合，

表示预定义事件类型集合中的第i个事件类型。

在整个事件类型集合中通过sigmoid函数计算得出。然后将预测出的所有事件类型转换为事件嵌入

，再将事件嵌入相加取平均作为该层的输出，计算公式如下所示：

(19)

全局事件类型层有以下两个优点：

（1）全局事件类型层是一个简单的辅助任务，能够协助进行事件类型分类。因为全局事件类型层可以预先预测输入序列中存在的事件，因此在事件类型分类时辅助解码模块进行事件分类，从而可以提高解码模块预测事件类型的准确率；

（2）全局事件类型层能够利用多事件之间的关联性提高多事件预测的性能。例如，假设全局事件类型层预先预测到了输入序列中存在了“攻击”和“死亡”事件，而“攻击”事件往往伴随“受伤”和“死亡”事件的产生，在解码模块解码事件类型时，第一个预测到了“攻击”事件，那么预测第二个事件时，往往是“受伤”和“死亡”事件，而全局事件类型层已经预先预测到了“攻击”和“死亡”事件，从而第二个事件类型预测成“死亡”事件的概率会进一步增大。

S20，根据编码输出向量中的其余向量进行候选事件元素识别，得到候选的事件元素；其余向量为编码输出向量中从第二个向量开始的其余全部向量。

可以理解，本申请中将候选事件元素识别任务转化为序列标注任务来进行。

在一个实施例中，关于上述步骤S20，具体可以包括如下处理：

采用BIO的编码策略，通过线性链条件随机场计算其余向量中的事件元素标签，得到候选的事件元素。

具体的，使用标签BIO（当事件元素由多个token组成时，B表示事件元素的第一个token，I表示事件元素的其他token，O表示与事件元素无关）的编码策略。以图3所示的BIO标注示例为例，句中的“BT酒店”作为“组织”类事件元素，短语中的三个token分别被标注为“B, I”，由于事件抽取任务只需得出事件元素的角色类型，并不需要知道元素的类型，故此处的标注不需要元素类型后缀。

由于由多个token组成的事件元素标签之间有很强的依赖性，因此使用线性链条件随机场（linear-chain Conditional Random Fields）计算token中具有可能分类的标签。具体而言，linear-chain CRF简单来说是由发射矩阵（emission matrixes）和转移矩阵构成，而发射矩阵是由编码模块的输出推导得到，转移矩阵是需要模型训练得到。因此，对于每个token的候选事件元素标签的分向量计算公式如下所示：

（20）

其中，f是激活函数（如relu函数或tanh函数），

，d是标签数目，

和

是转移矩阵，l是隐藏层大小，m是Z的维度，

和

是偏置向量。假设给出输入向量

和标签预测序列

，其中k≤n，线性链条件随机场得分计算公式如下所示：

（21）

是token的标签y _i的得分，通过公式（20）计算得到，

是标签

到

的转移得分。通过公式（21）可以得到标签序列Y的得分，通过函数softmax进一步转换为概率如公式（22）所示：

（22）

其中，

表示W序列可能的标签集合，标签序列的损失函数如下所示：

（23）

其中，Τ代表训练集，Y ^*代表序列W的标准标签。当训练时，计算标准标签的最小负对数似然估计L ^NER。

S22，利用编码隐藏层状态输出向量初始化解码层的隐藏层后，根据类型嵌入结果进行解码生成完整事件，根据生成的完整事件中事件元素最后一个单词的位置从候选的事件元素中拷贝完整的目标候选事件元素。

可以理解，利用编码隐藏层状态输出向量初始化解码层的隐藏层后，根据类型嵌入结果依次解码出事件的各个组成部分，如首先进行事件分类生成事件类型，接下来生成特殊分隔符“;”、事件元素角色、特殊分隔符“:”和事件元素，依次类推解码输出整个事件。如果存在多个事件，则解码分类下一个事件之前，先解码分类特殊字符“|”。

在一个实施例中，根据类型嵌入结果进行解码生成完整事件，根据生成的完整事件中事件元素最后一个单词的位置从候选的事件元素中拷贝完整的目标候选事件元素的过程，包括：

采用单向LSTM网络，根据类型嵌入结果从左到右依次解码出事件的各组成部分，生成完整事件；

根据完整事件中事件元素最后一个单词的位置，从候选的事件元素中拷贝位置对应的目标候选事件元素。

具体的，采用单向的LSTM网络解码，从左到右依次解码出事件的各个组成部分，以图4所示的解码输出示例为例，其中，Loc(w)表示词w在句中的位置，此时的解码输出不能满足最终的要求。可进一步根据Loc(w)从候选事件元素模块得到完整的事件元素。如图3所示，候选事件元素“BT酒店”对应的标签是“B”和“I”，如果完整事件中预测得到事件元素位置是Loc(酒店)，“酒店”对应的标签是“I”，则往前拷贝“目标”，直到遇到标签“B”或“O”结束。最后得到符合抽取要求的输出，如图4中的输出部分所示。

解码过程中各个环节的具体原理如下：

编码模块最后生成的隐藏层状态

向量来初始化解码模块的隐藏层状态，即设

，而解码模块某一时刻的输入c _t由注意力向量e _t与解码上一时刻的输出y _t-1串联而成，可形式化计算公式如下所示：

（24）

其中，注意力向量的可形式化公式如下：

（25）

（26）

（27）

（28）

其中

是t时刻解码输出与编码每一个隐藏层输出的注意力系数，

是注意力向量，

和

表示权重，

表示偏置向量。

解码模块每一个时刻的隐藏层输入和输出为

和

，可形式化公式如下：

（29）

（30）

其中，

表示权重，

表示偏置向量。

采用

表示全局事件类型层的输出，作为解码器的第一个输入，即y ₀=

，表示解码开始。

首先，预测事件类型是将解码器的输出

详见式（30）通过一个全连接层得到每种事件类型的得分，再通过softmax函数的计算得到每种事件类型的概率，其数学表达式如下：

（31）

（32）

其中，

是参数矩阵，E代表事件类型的数量，

表示偏置向量，

表示激活函数。

当时刻t=1时，以预测事件类型的输出和注意力向量串联即

详见式（24）作为输入，预测分类特殊字符，通过一个全连接层得到每种特殊字符的得分，再通过softmax得到每种特殊字符的概率，其数学表达式如下：

（33）

（34）

其中，

是参数矩阵，s代表特殊字符的数量，

表示偏置向量，

表示激活函数。

当时刻t>1时，以注意力向量和上一时刻的输出串联即

详见式（24）作为输入，预测事件元素角色，通过一个全连接层得到每种事件元素角色的得分，再通过softmax得到事件元素角色的概率，其数学表达式如下：

（35）

（36）

其中，

是参数矩阵，R代表事件元素角色的数量，

表示偏置向量，

表示激活函数。

然后预测事件元素，预测事件元素时会遇到两种情况：第一，当事件元素由多个token组成时，只预测事件元素最后一个token的位置；第二，当事件元素只有一个token时，则预测当前token的位置。接下来，将该时刻的输出向量和编码模块每一个时刻的输出向量串联起来，再计算输入序列中每一个token的位置得分，最后通过softmax得到token的概率，其数学表达式如下：

（37）

（38）

其中，

和

是参数矩阵，

表示激活函数。

当所有事件预测完成后，将预测输出结束标志NA，其数学表达式如下：

（39）

其中，

表示参数矩阵，

表示激活函数。

以上通过softmax函数表达式可以进一步转换为概率，数学表达式如下：

（40）

最后通过最小化公式的负对数似然函数来训练模型，该函数用来衡量模型预测结果

和

正确结果之间的差异：

（41）

本申请所提出的事件抽取模型架构包含候选事件元素识别和序列解码模块两个主要任务，以及一个全局事件类型指导层的辅助任务，因此，联合事件抽取的总损失函数为

，然后通过反向传播算法更新任务中的每个参数。

上述基于全局事件类型的序列到序列联合事件抽取方法，通过对输入的待抽取语句进行预处理与向量化后，用BERT模型获取每个词的语义特征，然后经过编码处理捕获上下文的语义特征，同时得到编码输出向量和编码隐藏层状态输出向量，进而利用编码输出向量中的第一个向量进行候选事件类型嵌入，利用编码输出向量中的其余向量进行候选事件元素识别，最后，利用编码隐藏层状态输出向量初始化解码层的隐藏层后，通过解码生成最终完整的事件抽取结果。

在一些实施方式中，为了更直观且全面地说明上述基于全局事件类型的序列到序列联合事件抽取方法，下面是以ACE2005数据集上的实验与分析为例，对本发明提出的基于全局事件类型的序列到序列联合事件抽取方法进行实验说明的示例。

需要说明的是，本说明书中给出的实施案例仅为示意性的，并非为本发明具体实施案例的唯一限定，本领域技术人员可以在本发明提供的实施案例的示意下，可采用上述提供的基于全局事件类型的序列到序列联合事件抽取方法，实现对不同应用场景的事件抽取应用。

ACE2005提供了带标注的8种事件类型以及33种子类型，36种论元角色类别。为了便于和已有的若干种方法进行对比，在ACE2005数据集处理上使用了相同的已有处理方法，即将数据集分为测试集、开发集和训练集，其中训练集由40篇新闻稿（881个句子）组成，在剩下的文档中30篇文档（1078个句子）用于开发集，529篇文档（21090个句子）用于训练集。同时也使用和传统评估模型一样的评估策略。

参数设置：输入序列最长长度为130，句子长度不足130，用0填充，如果大于最长序列长度，直接过滤，数据预处理部分使用BERT_base预训练模型即12层、12个多头选择，输出768的维度向量。采用BIO的序列标注策略，特殊字符采用“:”“;”和“|”三种。编码部分采用双向的循环神经网络，隐藏层维度为768，输出维度为512，固定向量维度为512，全局事件类型层的输出维度为128，解码部分采用单向的循环神经网络，隐藏层维度为512，解码部分每一步解码输入维度为256。BatchSize大小为64，采用dropout防止过拟合，dropout率设置为0.4，学习率设置为0.002，非线性激活函数使用Selu，使用Adam优化方法优化神经网络。使用NVIDIA RTX2070super GPU进行训练。在训练阶段，为了使BERT能更好的优化初始化数据，在优化参数矩阵的同时对BERT_base预训练模型的最后一层进行微调，其它层参数则固定不变。

评估指标：采用准确率（P）、召回率（R）和F1值对模型的事件类型分类、事件元素识别、元素角色分类三个方面分别进行评测。

具体的评估策略如下所示：

（1）准确率（Precision），是指在抽取的结果中，判定为正例样本的个数占抽取样本总数的百分比，计算公式如下所示：

（42）

其中，TP代表方法抽取结果中被正确判定为正例样本的个数，FP代表方法抽取结果中负例样本的个数。

（2）召回率（Recall），是指在抽取的结果中，判定为正例样本个数占总样本的百分比，计算公式如下：

（43）

其中，TP代表方法抽取结果中被正确判定为正例样本的个数，FN代表方法抽取结果中没有被正确抽取的实例样本的个数。

（3）F 1值（F1-Measure），是指对准确率和查全率进行调和的平衡数，综合考虑Precision和Recall之后对系统总体性能的评价，计算公式如下：

（44）

Baseline模型

本示例采用的Baseline模型是目前基于ACE2005数据集效果比较突出的模型，且涵盖了串联、联合两种事件抽取模式。其实验采用的ACE2005数据集分为测试集、开发集和训练集，其中训练集由40篇新闻稿（881个句子）组成，30篇文档（1078个句子）用于开发集，529篇文档（21090个句子）用于训练集。Baseline模型的具体情况如下所示：

（1）Chen等人提出的DMCNN（Dynamic Multi-pooling Convolutional NeuralNetwork，动态多池化卷积神经网络）。该方法采用串联的方式，在触发词识别与分类和事件元素识别与元素角色分类两个阶段使用CNN自动提取特征进行事件抽取，取得了较好的效果，是第一次使用CNN进行完整事件抽取的方法。

（2）Nguyen等人提出的JRNN（Joint Event Extraction via Recurrent NerualNetwork，联合事件抽取模型）。该模型使用双向循环神经网络自动提取特征，引入记忆向量和矩阵捕获事件与事件、事件与事件元素、事件元素与事件元素之间的关联信息进行联合事件抽取。

（3）Sha等人提出的dbRNN（dependency bridge Recurrent Neural Network，桥依赖RNN模型）。该方法在JRNN的基础上使用基于双向循环神经网络的依存桥来学习输入句子中各成分之间的句法依存关系，同时引入张量来学习事件元素与事件元素之间的相互依赖，使得事件抽取的效果得到了进一步的提高。

（4）Liu等人提出的JMEE（Jointly Multiple Events Extraction，联合多事件抽取模型）。该方法通过引入句法依存树，利用图卷积神经学习输入句子中各成分的句法依存关系捕获事件与事件之间的相互关联进行事件抽取，得到了一定的效果。

实验结果与分析

通过实验得到本章所提出的方法与Baseline模型的对比结果如表4所示，由此可知，本申请的上述方法在触发词标注、触发词分类和触发词识别上的F1得分良好，其结果提高了1%~3%。其次，虽然在最终的角色分类任务中本申请上述方法的F1值与JMEE模型相差0.1%，但在各项辅助任务中的R值表现良好。经初步分析，该实验结果表明模型中引入的全局事件类型层事件预分类辅助任务使得单句多事件场景下，其角色识别召回率达到最高分，效果表现较好。为进一步证明全局事件类型层的积极作用，将在下一小节中的实验中进行分析。

表4

全局事件类型层对多事件的影响

本节将通过实验进一步验证全局事件类型层对于多事件抽取效果的影响。测试数据分为两部分（1/1和1/N），其中“1/1”代表一个句子中只有一个事件类型（即一个触发词）和一组事件元素角色，“1/N”表示一个句子中包含多个事件类型（即多个触发词）和多组事件元素角色，all表示不区分单事件和多事件的情况。实验结果如表5所示，在事件类型分类阶段，对比不引入全局事件类型层（ours）和引入全局事件类型层（ours+ERP）的结果，ours的结果在单一事件和多事件部分的F1值都有明显下降，其中多事件类型分类下降了2.9%，整体下降了2.5%，因此，该实验结果可表明全局事件类型层对事件类型分类具有正向的促进作用。

表5

序列到序列对于事件元素抽取的影响

表6

本节主要通过实验分别从单事件和多事件两个方面分析序列到序列方法对于事件元素抽取的作用。实验结果如表6所示，与DMCNN和JRNN两个模型进行比较，在单事件和多事件两种情况下，本申请的方法的实验结果都表现更佳，平均高出了2%~6%。与JMEE模型进行比较，在全事件类型（all）的情况下其F1值相差0.1%，效果十分接近，但通过表4中的实验结果可知本申请的方法的R值比JMEE模型高出0.7%，因此，在本申请的方法在追求高召回率的应用场景中，本申请的方法具有更好适用性。此外，本申请的方法不依赖自然语言处理工具的预处理结果，可避免了外部噪声的引入，且网络结构更加简单高效

注意力机制的作用

为了进一步说明注意力机制在解码模块的积极作用，本节继续以“在B地区，一辆某国坦克向BT酒店开火时造成一名摄影师死亡”为例来进行说明，在该例句中存在“死亡”和“攻击”两个事件，存在 “B地区”“摄影师”“坦克”和“BT酒店”四个事件元素，以上事件元素在“死亡”事件中扮演“地点”“受害者”“工具”和“地点”的角色，在“攻击”事件中扮演“地点”“目标”“工具”和“目标”的角色。

实验结果如图5和图6所示，其中颜色越深，表示其关注度更高。由此可知，解码“死亡”事件时，模型更加关注“B地区”“摄影师”“坦克”和“BT酒店”这四个元素，如图5所示；如图6所示，“攻击”事件的解码情况与“死亡”事件相同。经分析发现，图中的“死亡”和“开火”的关注度仅次于“B地区”“摄影师”“坦克”和“BT酒店”。

应该理解的是，虽然图2流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且图2的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图7，在一个实施例中，提供一种基于全局事件类型的序列到序列联合事件抽取系统100，包括数据预处理模块11、BERT预处理模块13、编码模块15、全局事件类型层模块17、候选事件元素模块19和解码模块21。其中，数据预处理模块11用于将输入的待抽取语句进行预处理并向量化。BERT预处理模块13用于利用BERT模型获取表示向量化后的待抽取语句中每个词的语义特征。编码模块15用于根据语义特征通过长短期记忆网络得到编码输出向量和编码隐藏层状态输出向量。全局事件类型层模块17用于利用编码输出向量中的第一个向量进行候选事件类型嵌入，得到词嵌入后的类型嵌入结果。候选事件元素模块19用于根据编码输出向量中的其余向量进行候选事件元素识别，得到候选的事件元素；其余向量为编码输出向量中从第二个向量开始的其余全部向量。解码模块21用于利用编码隐藏层状态输出向量初始化解码层的隐藏层后，根据类型嵌入结果进行解码生成完整事件，根据生成的完整事件中事件元素最后一个单词的位置从候选的事件元素中拷贝完整的目标候选事件元素。

可以理解，基于全局事件类型的序列到序列联合事件抽取系统100的架构也可以表示为如图8所示。全局事件类型层模块17提供全局事件分类层，其中，DE、TR和AT分别表示各预定义的事件类型。

上述基于全局事件类型的序列到序列联合事件抽取系统100，通过各模块的协作，首先对输入的待抽取语句进行预处理与向量化后，用BERT模型获取每个词的语义特征，然后经过编码处理捕获上下文的语义特征，同时得到编码输出向量和编码隐藏层状态输出向量，进而利用编码输出向量中的第一个向量进行候选事件类型嵌入，利用编码输出向量中的其余向量进行候选事件元素识别，最后，利用编码隐藏层状态输出向量初始化解码层的隐藏层后，通过解码生成最终完整的事件抽取结果。

关于基于全局事件类型的序列到序列联合事件抽取系统100的具体限定，可以参见上文中基于全局事件类型的序列到序列联合事件抽取方法的相应限定，在此不再赘述。上述基于全局事件类型的序列到序列联合事件抽取系统100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中，也可以软件形式存储于前述设备的存储器中，以便于处理器调用执行以上各个模块对应的操作，前述设备可以是但不限于本领域已有的各型网络设备。

又一方面，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如下处理步骤：将输入的待抽取语句进行预处理并向量化；利用BERT模型获取表示向量化后的待抽取语句中每个词的语义特征；根据语义特征通过长短期记忆网络得到编码输出向量和编码隐藏层状态输出向量；利用编码输出向量中的第一个向量进行候选事件类型嵌入，得到词嵌入后的类型嵌入结果；根据编码输出向量中的其余向量进行候选事件元素识别，得到候选的事件元素；其余向量为编码输出向量中从第二个向量开始的其余全部向量；利用编码隐藏层状态输出向量初始化解码层的隐藏层后，根据类型嵌入结果进行解码生成完整事件，根据生成的完整事件中事件元素最后一个单词的位置从候选的事件元素中拷贝完整的目标候选事件元素。

在一个实施例中，处理器执行计算机程序时还可以实现上述基于全局事件类型的序列到序列联合事件抽取方法各实施例中增加的步骤或者子步骤。

再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如下处理步骤：将输入的待抽取语句进行预处理并向量化；利用BERT模型获取表示向量化后的待抽取语句中每个词的语义特征；根据语义特征通过长短期记忆网络得到编码输出向量和编码隐藏层状态输出向量；利用编码输出向量中的第一个向量进行候选事件类型嵌入，得到词嵌入后的类型嵌入结果；根据编码输出向量中的其余向量进行候选事件元素识别，得到候选的事件元素；其余向量为编码输出向量中从第二个向量开始的其余全部向量；利用编码隐藏层状态输出向量初始化解码层的隐藏层后，根据类型嵌入结果进行解码生成完整事件，根据生成的完整事件中事件元素最后一个单词的位置从候选的事件元素中拷贝完整的目标候选事件元素。

在一个实施例中，计算机程序被处理器执行时，还可以实现上述基于全局事件类型的序列到序列联合事件抽取方法各实施例中增加的步骤或者子步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线式动态随机存储器（Rambus DRAM，简称RDRAM）以及接口动态随机存储器（DRDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可做出若干变形和改进，都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于全局事件类型的序列到序列联合事件抽取方法，其特征在于，包括步骤：

将输入的待抽取语句进行预处理并向量化；

利用BERT模型获取表示向量化后的所述待抽取语句中每个词的语义特征；

根据所述语义特征通过长短期记忆网络得到编码输出向量和编码隐藏层状态输出向量；

利用所述编码输出向量中的第一个向量进行候选事件类型嵌入，得到词嵌入后的类型嵌入结果；

根据所述编码输出向量中的其余向量进行候选事件元素识别，得到候选的事件元素；所述其余向量为所述编码输出向量中从第二个向量开始的其余全部向量；

利用所述编码隐藏层状态输出向量初始化解码层的隐藏层后，根据所述类型嵌入结果进行解码生成完整事件，根据生成的所述完整事件中事件元素最后一个单词的位置从所述候选的事件元素中拷贝完整的目标候选事件元素。

2.根据权利要求1所述的基于全局事件类型的序列到序列联合事件抽取方法，其特征在于，利用所述编码输出向量中的第一个向量进行候选事件类型嵌入，得到词嵌入后的类型嵌入结果的步骤，包括：

采用所述第一个向量作为全局事件类型层的输入；

使用具有非线性激活的稠密层预测得到输入序列的事件类型；所述输入序列为向量化后的所述待抽取语句；

将预测出的所有事件类型转换为相应事件嵌入；

将所有的所述事件嵌入相加取平均作为所述全局事件类型层的输出，得到所述类型嵌入结果。

3.根据权利要求1或2所述的基于全局事件类型的序列到序列联合事件抽取方法，其特征在于，根据所述编码输出向量中的其余向量进行候选事件元素识别，得到候选的事件元素的步骤，包括：

采用BIO的编码策略，通过线性链条件随机场计算所述其余向量中的事件元素标签，得到所述候选的事件元素。

4.根据权利要求3所述的基于全局事件类型的序列到序列联合事件抽取方法，其特征在于，所述BERT模型包括BERT_base模型或BERT_large模型。

5.根据权利要求4所述的基于全局事件类型的序列到序列联合事件抽取方法，其特征在于，将输入的待抽取语句进行预处理并向量化的步骤，包括：

使用WordPiece算法将所述待抽取语句预处理为输入的词序列；

在所述词序列的首位加入特殊字符[CLS]；

添加代表所述词序列的位置序列；

通过Word2Vec算法将加入特殊字符后的所述词序列和所述位置序列进行向量化处理，得到所述词序列的词向量和位置向量。

6.根据权利要求5所述的基于全局事件类型的序列到序列联合事件抽取方法，其特征在于，利用BERT模型获取表示向量化后的所述待抽取语句中每个词的语义特征的步骤，包括：

将所述词序列的词向量和位置向量输入所述BERT模型，得到所述词序列中每个词的所述语义特征。

7.根据权利要求3所述的基于全局事件类型的序列到序列联合事件抽取方法，其特征在于，根据所述类型嵌入结果进行解码生成完整事件，根据生成的所述完整事件中事件元素最后一个单词的位置从所述候选的事件元素中拷贝完整的目标候选事件元素的过程，包括：

采用单向LSTM网络，根据所述类型嵌入结果从左到右依次解码出事件的各组成部分，生成所述完整事件；

根据所述完整事件中事件元素最后一个单词的位置，从所述候选的事件元素中拷贝所述位置对应的目标候选事件元素。

8.一种基于全局事件类型的序列到序列联合事件抽取系统，其特征在于，包括：

BERT预处理模块，用于利用BERT模型获取表示向量化后的所述待抽取语句中每个词的语义特征；

编码模块，用于根据所述语义特征通过长短期记忆网络得到编码输出向量和编码隐藏层状态输出向量；

全局事件类型层模块，用于利用所述编码输出向量中的第一个向量进行候选事件类型嵌入，得到词嵌入后的类型嵌入结果；

候选事件元素模块，用于根据所述编码输出向量中的其余向量进行候选事件元素识别，得到候选的事件元素；所述其余向量为所述编码输出向量中从第二个向量开始的其余全部向量；

解码模块，用于利用所述编码隐藏层状态输出向量初始化解码层的隐藏层后，根据所述类型嵌入结果进行解码生成完整事件，根据生成的所述完整事件中事件元素最后一个单词的位置从所述候选的事件元素中拷贝完整的目标候选事件元素。