CN116795979A

CN116795979A - 一种基于触发词增强的标签信号指导事件检测方法

Info

Publication number: CN116795979A
Application number: CN202310399435.7A
Authority: CN
Inventors: 贺瑞芳; 肖梦南
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-09-22

Abstract

本发明公开一种基于触发词增强的标签信号指导事件检测方法，包括以下步骤：(1)触发词增强，在不改变上下文的前提下利用预训练掩码语言模型知识通过掩码触发词来生成候选触发词；(2)标签信号指导的事件检测，为了控制触发词增强的噪声，提出标签信号指导的事件分类，先进行事件类型分类，再进行事件子类型分类，事件类型分类结果作为信号指导事件子类型分类，可以多次搜索计算，最终依据事件类型和子类型分类结果乘积的最大值进行最终的分类；(3)句子语义一致性，为了进一步保证生成触发词的质量，提出句子语义一致性进行联合训练。

Description

一种基于触发词增强的标签信号指导事件检测方法

技术领域

本发明涉及自然语言处理中信息抽取技术，主要涉及事件抽取，具体为一种基于触发词增强的标签信号指导事件检测方法。

背景技术

近年来，随着信息技术的不断发展，互联网的信息量日益膨胀。自动化地从海量信息中准确地抽取用户感兴趣的信息成为一个亟待解决的问题。在这种背景下，面向大数据的信息抽取技术成为一个尤为重要的研究方向。事件抽取作为信息抽取的重要子任务，旨在从大量非结构化文本中抽取用户感兴趣的事件，包括触发事件的词(称为触发词)，事件中包含的论元(什么人、什么地方、什么时候，什么事)，以及这些论元所扮演的角色(参与者、地点、时间等等)。事件抽取对其他研究有极大的促进作用。例如在信息检索领域中，事件抽取技术能够帮助用户快速得到需要的事件信息，进而提高用户接收信息的效率；在自动文摘领域中，结合事件抽取技术能够更全面地涵盖文章中所发生的事件，以得到比较完整的摘要内容。此外，事件抽取技术在实际应用场景中也具有很重要的研究意义，例如从新闻报道中抽取出地震事件的基本情况：时间、地点、震级、遇害情况等，能够帮助人们方便快速地了解到所关注事件的重要信息。

事件抽取可以进一步分为两个子任务，事件检测和事件论元抽取。前者旨在从候选文本中识别出触发事件的关键词(通常动词和名词居多)，并判断其事件类型；后者则是从已识别的事件中标注事件的论元及其扮演的角色(包括事件发生的时间，地点和人物等信息)。由于事件检测依然面临着严峻挑战，本发明主要专注于事件检测。比如：在句子“Helost an election to a dead man.”中，模型需要识别单词“election”触发了“Personnel.Elect”事件，其中“Personnel”是事件类型，“Elect”是事件子类型。

到目前为止，针对事件检测研究已经提出了很多方法，从基于特征到基于表示。尽管之前的方法在很多方面也取得了很大成功，数据稀缺随着主流监督模型越来越大变得越来越严重。这里以事件检测常用的ACE2005语料库举例：

ACE2005一共定义了8个事件类型，共包括33个事件子类型。然而，70％的事件子类型的样本数目小于100，甚至有3个事件子类型的样例数小于10。训练数据的缺乏严重阻碍了现存监督方法的性能，它们需要大量的训练数据来完成模型训练。为了缓解这一问题，Liu等人^[4]提出一个多语料方法，通过机器翻译来增强源数据。然而，确保多语言之间单词和标签的对应关系是复杂的，而且可能存在偏差。也有一些工作^[3][5][9]通过远程监督机制来扩大训练数据。此外，Veyseh等人^[12]利用预训练语言模型GPT-2来自动生成训练数据。这些方法的共同点是生成包含事件的句子。然而主要存在两个缺点：1)生成的句子里面有噪声，需要额外的机制(知识蒸馏)去控制；2)事件检测是一个单词级别的分类任务，确定生成句子中触发词的位置以及事件类型是困难的，而且可能存在偏差(位置或标签偏差)。

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种基于触发词增强的标签信号指导事件检测。

本发明提供一种新的触发词增强方法，在不改变上下文的情况下直接掩码触发词，通过预训练掩码语言模型知识直接生成合适的候选触发词，从源头上控制噪声。为了保证生成触发词的质量，每次只掩码一个单词，同时加入句子的上下文作为提示以丰富当前句子的语义。为了控制生成数据的噪声，本发明提出了标签信号指导的分类机制并设计了事件类型-子类型指导分类网络，先进行事件类型分类，再进行事件子类型分类，事件类型分类结果作为信号指导事件子类型分类。通过事件类型分类作为媒介，多次搜索计算事件子类型分类并依据事件类型分类和事件子类型分类乘积结果的最大值进行最终的分类。此外，为了进一步控制生成触发词的质量，提出句子语义一致性来进行联合训练。

本发明的目的是通过以下技术方案实现的：

一种基于触发词增强的标签信号指导事件检测方法，包括以下步骤：

(1)触发词增强，在不改变触发词上下文的前提下，对触发词进行掩码并通过预训练掩码语言模型生成候选触发词；

(2)标签信号指导的事件检测，包括事件类型和子类型分类，采用(1)中候选触发词进行事件类型分类，分类结果作为信号指导事件子类型分类，进行多次事件子类型分类，依据事件类型和子类型分类结果乘积的最大值进行最终的分类；

(3)句子语义一致性，原句子和生成候选句子语义尽可能相似，以进一步保证生成触发词的质量。

进一步的，步骤(1)具体包括：

本发明采用触发词增强获取合适的候选触发词，其实现策略为掩码触发词并通过预训练掩码语言模型生成候选词；具体地，给定输入x＝[x₁，…，x_i，…，x_n]，其中x表示句子，n是输入单词的个数，x_i是第i个单词；假定x_i是句子x的唯一触发词，则掩码后句子的形式如下：

x′＝[x₁，…，[MASK]，…，x_n] (1)

其中x′表示掩码后的句子，[MASK]是用来代表触发词的特殊符号；x′接下来作为预训练掩码语言模型的输入来获取[MASK]的表示：

h_mask＝PMLM(x′)∈R^d (2)

其中h_mask指[MASK]的表示，PMLM表示预训练掩码语言模型，在实施过程中，可根据具体情况进行选择，如RoBERTa，d表示预训练掩码语言模型隐层的输出维度；然后利用预训练掩码语言模型头，即PMLM head来获取得分最高的k个候选触发词集合T＝[t₁，…，t_i，…，t_k]以及对应的得分集合s＝[s₁，…，s_i，…，s_k]：

(T，s)＝PMLM head(h_mask)(3)

其中T代表候选触发词集合，k表示集合内元素的个数，ti表示第i个候选触发词；s表示候选触发词得分集合，s_i表示第i个候选触发词t_i的得分，触发词的得分在集合s降序排列；PMLM head是一个预训练的带有Dropout和Layer Normalization的两层非线性分类器，其输出维度对应预训练掩码语言模型词库；候选触发词的得分为PMLM head在对应词库单词上的概率；值得注意的是s中元素的和小于1，然后通过下面的方式进行归一化：

然后将T中的候选触发词填入[MASK]，可以得到k个候选句子；不同的候选句子除了触发词不同，其他的单词都相同；在填入之前，本发明通过x_i∈T是否成立来初步判断生成触发词集合T的质量，这里x_i表示被掩码之前的触发词；如果不成立，本发明认为T的质量不可靠，进而放弃进行触发词增强；

考虑到触发词通常是句子中的核心词，并且在预训练语言模型巨大的词库范围下将有很多可选的单词；为了帮助预训练掩码语言模型正确理解掩码后的句子，生成合适的候选触发词，本发明将当前句子x的前一和后一句子作为提示加入到x′中以丰富当前句子的语义，增强后的x′形式如下：

x′＝[Sent1，[SEP]，x₁，…，[MASK]，…，x_n，[SEP]，Sent2] (5)

这里Sent1和Sent2分别表示当前句子x的前一和后一句子，[SEP]是用来区分不同句子的特殊符号；如果当前句子是文档的第一个句子，则添加后面两句，如果是最后一句，则添加前面两句；

为了进一步帮助预训练掩码语言模型理解掩码后的句子，x′只包含一个[MASK]单词，尽管x可能包含多个触发词；为了解决这个问题，本发明每次只掩码一个触发词并且获得候选的触发词集合和得分，最终通过笛卡尔积获取多个触发词的候选序列和其对应的得分，序列的得分是序列里每个触发词得分的乘积；因此，如果一个句子包含q个触发词，理论上最多可以获得k^q个候选句子。

进一步的，步骤(2)具体包括：

(201)标签信号指导的分类机制

考虑到一个事件类型包含一个或多个事件子类型，本发明设计一种标签信号指导的分类机制，首先进行事件类型分类，然后进行事件子类型分类；具体地，根据预定义的事件模式，有一个事件类型集合C和事件子类型集合Y；总体的目标是预测句子x中定义的所有事件集合ε_x，旨在最大化下面的似然函数：

其中D表示所有的训练语料，x表示训练语料中的句子，ε_x表示句子x中定义的所有事件，T_x表示句子x中的触发词集合，t表示触发词集合T_x中的触发词，c表示触发词t的事件类型，y表示触发词t的事件子类型；事件类型分类结果作为信号来指导事件子类型分类；分类机制是一个高度为3的树，根节点为触发词，第二层和第三层分别代表事件类型和子类型，第二层节点的孩子节点即为其包含的事件子类型，边上的权重为触发词在对应事件类型和子类型上的分类概率；在分类过程中，基于边的权重以深度优先搜索(Depth SearchFirst,DFS)选择一条从根到叶子节点的路径，确定触发词对应的事件类型和子类型；

为了控制触发词增强中的噪声，本发明在选择路径进行DFS时，不是仅选择一条路径，而是选择多条路径，从每个节点出发时，根据边的权重选择m条路径，考虑树高为3，因此总的路径数为m²，最终通过路径上边的权重乘积的最大值确定事件类型和子类型；相较于仅根据一条路径进行贪心搜索，选择多条路径进行搜索可以避免局部最优的情况，即使事件类型的分类结果错误，最终仍有可能通过多次搜索获取正确结果；具体到事件类型和子类型分类过程中，即为在信号传递过程中不是仅将事件类型分类概率分布的最大值对应的事件类型作为信号，而是选择前m大结果，依次进行多次搜索，以控制触发词增强过程中的噪声，从而使得分类结果最优；

(202)事件类型-子类型指导分类网络

根据上面的分类机制，本发明设计一个事件类型-子类型指导分类网络，包括事件类型和子类型分类；事件类型和子类型分类的思想类似，不同的是事件类型分类在候选句子上进行训练，进而通过预测得到事件类型结果，事件子类型分类根据事件类型分类结果在原句子上进行训练，进而得到事件子类型分类结果；假定原句子x经过触发词增强后获得z个候选句子其中z≤k^q，q是句子x中的触发词数量；然后将x和/>送入预训练掩码语言模型获取句子中单词的表示：

H＝PMLM(x) (7)

其中PMLM表示预训练掩码语言模型，和公式2中的PMLM相同，二者共享权重，H表示原句子x中单词的词嵌入，表示候选句子/>中单词的词嵌入；接下来/>作为事件类型分类的输入获得事件类型结果/>

其中ETC表示事件类型分类，是一个两层的带有Dropout和LayerNormalization的非线性分类器，分类器的输出维度大小为事件类型的个数；此外，通过公式(3)和(4)可以得到候选句子的得分s；接下来通过加权求和得到加权的事件类型分类结果：

其中表示加权后的事件类型分类结果，Softmax表示归一化函数；然后由/>的前m大概率v和对应标签l组成信号来指导事件子类型分类：

其中ESC表示事件子类型分类，共包含|C|个分类器，每个都是带有Dropout和Layer Normalization的两层非线性分类器；|C|表示事件类型集合元素的个数，表示根据l_i的值选择第l_i个分类器，v_i表示第i个信号对应的概率值，l_i表示第i个信号对应的事件类型标签，Softmax表示归一化函数，/>表示事件类型和子类型分类概率的乘积，max表示取集合中的最大值，y表示x中单词的最终事件子类型标签。

进一步的，步骤(3)具体包括：

本发明提出句子语义一致性机制，以进一步保证生成触发词的质量；考虑到候选句子和原句子只有触发词不同，因此本发明尝试让原句子和生成候选句子的语义尽可能相似；在本发明中，使用H_cls和的均方误差损失作为监督目标加入到最终优化的损失函数中：

其中L_s表示原句子和候选句子的均方误差损失，H_cls和分别表示原句子和候选句子中第一个单词[CLS]经过预训练掩码语言模型编码后的表示，本发明将其作为各自句子的语义表示，|H_cls|表示H_cls的维度大小，H_cls,i和/>分别表示H_cls和/>中的第i个元素；

为了优化模型，联合训练采用如下的损失函数：

L＝L_ETC+αL_ESc+βL_s (13)

其中L表示最终的损失，L_ETC和L_ESC分别表示事件类型和子类型分类的损失，其中L_ETC表示真实事件类型标签和预测之间的交叉熵损失，L_ESC表示真实事件子类型标签和预测之间的交叉熵损失，α和β表示权衡参数；值得注意的是，在ESC分类阶段，H会根据l计算m次前向传播，但L_ESC只会在l_i等于H中触发词的真实事件类型时才计算损失，如果真实的事件类型不在信号中，此时ESC将会被剪枝。

与现有技术相比，本发明的技术方案所带来的有益效果是：

(1)提出使用预训练语言模型知识直接生成候选触发词，进而增强事件检测任务中的触发词；

(2)设计一个标签信号指导的事件类型-子类型分类机制用来控制触发词增强的噪声；

(3)采用句子语义一致性来保证生成触发词的质量；

(4)在多个数据集上的实验结果证明本发明的有效性。

附图说明

图1为本发明提供的一种基于触发词增强的标签信号指导事件检测方法架构图。包含两个子模块，分别是：1)触发词增强，2)标签信号指导的事件检测。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于触发词增强的标签信号指导事件检测方法，该方法整体框架如图1所示。整个系统包括数据预处理、触发词增强、标签信号指导的事件检测和句子语义一致性这几个步骤。

具体步骤如下：

(1)为了验证本发明的有效性，在多个数据集上进行实验，包括ACE2005^[1]和FewEvent^[2]数据集。

ACE2005定义了8个事件类型，33个事件子类型，共标注了599篇英文文档。此外，ACE2005采用和前人工作相同的划分方式。

FewEvent是另一个事件检测数据集，定义了19个事件类型，100个事件子类型，包括70852个句子。但是FewEvent中不同事件的分布差距十分悬殊。出现次数最多的事件出现了26135次，大部分的事件仅出现了30次。为了验证模型的性能，本发明每次实验中每个事件子类型选取30个训练样本，训练集、验证集、测试集的比例分别是70％、10％，20％，5次实验结果的平均值作为最终的结果。

(2)触发词增强

x′＝[x₁，…，[MASK]，…，x_n] (1)

h_mask＝PMLM(x′)∈R^d (2)

(T，s)＝PMLM head(h_mask) (3)

其中T代表候选触发词集合，k表示集合内元素的个数，t_i表示第i个候选触发词；s表示候选触发词得分集合，s_i表示第i个候选触发词t_i的得分，触发词的得分在集合s降序排列；PMLM head是一个预训练的带有Dropout和Layer Normalization的两层非线性分类器，其输出维度对应预训练掩码语言模型词库；候选触发词的得分为PMLM head在对应词库单词上的概率；值得注意的是s中元素的和小于1，然后通过下面的方式进行归一化：

x′＝[Sent1，[SEP]，x₁，…，[MASK]，…，x_n，[SEP]，Sent2] (5)

(3)标签信号指导的事件检测

(301)标签信号指导的分类机制

其中D表示所有的训练语料，x表示训练语料中的句子，ε_x表示句子x中定义的所有事件，T_x表示句子x中的触发词集合，t表示触发词集合T_x中的触发词，c表示触发词t的事件类型，y表示触发词t的事件子类型；事件类型分类结果作为信号来指导事件子类型分类；分类机制是一个高度为3的树，根节点为触发词，第二层和第三层分别代表事件类型和子类型，第二层节点的孩子节点即为其包含的事件子类型，边上的权重为触发词在对应事件类型和子类型上的分类概率；在分类过程中，基于边的权重以深度优先搜索(Depth SearchFirst，DFS)选择一条从根到叶子节点的路径，确定触发词对应的事件类型和子类型；

(302)事件类型-子类型指导分类网络

H＝PMLM(x)(7)

其中ESC表示事件子类型分类，共包含|C|个分类器，每个都是带有Dropout和Layer Normalization的两层非线性分类器；|C|表示事件类型集合元素的个数，表示根据li的值选择第l_i个分类器，v_i表示第i个信号对应的概率值，l_i表示第i个信号对应的事件类型标签，Softmax表示归一化函数，/>表示事件类型和子类型分类概率的乘积，max表示取集合中的最大值，y表示x中单词的最终事件子类型标签。

(4)句子语义一致性

为了优化模型，联合训练采用如下的损失函数：

L＝L_ETC+αL_ESc+βL_s (13)

在具体实施过程中，本发明采用RoBERTa作为预训练掩码语言模型进行实验。通过提前设定各种超参数，事件类型分类和事件子类型分类的隐层和Dropout分别设置为768和0.1，权衡参数α和β分别设置为0.6和0.4，学习率设置为1e-5，优化器采用Adam，batch size设置为4。k设置为4表明触发词增强会生成4个候选句子，z设置为4表明一个包含触发词的句子会获得4个候选句子，对于包含多个触发词的句子，本发明选取得分最高的前4个候选句子。m设置为2表明事件子类型分类会根据事件类型分类结果计算2次。epoch设置为50，early stop设置为8。

为了验证本发明方法的有效性，对于ACE2005数据集，将本发明方法(LSEDTA)与当前先进并具有代表性的模型(DMCNN、GMLATT、DMBERT、EEQA、RCEE_ER、DRMM、EKD、MLBiNet、ED3C、GPTEDOT)进行比较；对于FewEvent数据集，由于数据划分方式不一致，本节选择手动实现或论文代码公开的工作作为对比模型，包括PLMEE、DMBERT和EEQA。大致可以分为三类：

基于多标签分类的方法：

1)PLMEE：Yang等人^[13]借助预训练语言模型直接对句子中的单词进行分类，完成事件检测任务。

2)MLBiNet：Lou等人^[10]提出了一种多层双向网络，以同时捕获事件和语义信息的关联。

3)ED3C：Veyseh等人^[11]提出了一种建模文档级上下文的新方法，该方法动态地选择文档中的相关句子以对目标句子进行事件预测。

基于问答的方法：

4)EEQA：Du等人^[6]引入了一种新的事件抽取范式，将其转化为问答任务，以端到端的方式解决。

5)RCEE_ER：Liu等人^[7]将事件抽取转化为机器阅读理解问题，其中包括一个无监督的问题生成过程，然后是基于BERT的问答以检索答案作为结果。

基于数据增强的方法：

6)DMCNN：Chen等人^[3]利用世界知识和语言知识来检测每种事件类型的论元和触发词，进而自动标记文本中的事件，进行数据增强。

7)GMLATT：Liu等人^[4]提出了一个多语料方法，通过机器翻译方法来增强源数据。

8)DMBERT：Wang等人^[5]构建了一个覆盖率良好的大型事件相关候选集，并通过对抗训练机制从候选集中迭代的识别事件并过滤掉有噪声的事件。

9)DRMM：Tong等人^[8]提出了一种新颖的双循环多模态模型，用于图像和句子之间进行深度交互，进而完成事件检测。

10)EKD：Tong等人^[9]通过WordNet进行知识收集，然后借助teacher-student模型来从有标注和无标注的数据中蒸馏开放域触发词知识，进而完成事件检测。

11)GPTEDOT：Veyseh等人^[12]利用GPT-2来生成包含事件的句子，实现数据增强。

具体评价指标采用精准率(Precision，P)、召回率(Recall，R)、F₁值进行实验性能的评价。

表1和2分别展示了模型和所有比较方法在ACE2005和FewEvent上的实验结果，F₁分数值越高表示该模型性能越好。“*”表示该模型利用了预训练语言模型。表3展示了模型以及退化模型在FewEvent上的实验结果。其中ED表示直接进行多分类，完成事件检测，LSED表示基于ED，添加额外的标签信号指导，EDTA表示进行触发词增强，但不采用标签信号指导的事件分类。表4展示了模型在ACE2005数据集上的退化实验结果。其中ED、LSED、EDTA、LSEDTA和前面介绍的一致，“-cp”表示移除上下文提示，“-ssc”表示移除句子语义一致性，“-all”表示移除上下文提示和句子语义一致性。

表1：本发明方法与其他方法在ACE2005同一测试集上的性能比较

表2：本发明方法与其他方法在FewEvent同一测试集上的性能比较

模型	P	R	F₁
				PLMEE	60.1	58.2	59.1
DMBERT	60.3	58.4	59.3
				EEQA	61.2	59.3	60.2
LSEDTA	62.0	60.3	61.1

表3：本发明方法在FewEvent数据集上的退化实验结果

模型	P	R	F₁
				ED	60.2	53.3	56.5
LSED	60.7	54.1	57.2
				EDTA	57.4	59.6	58.5
LSEDTA	62.0	60.3	61.1

表4：本发明在方法在ACE2005数据集上的退化实验结果

/>

表5：超参数k对模型结果的影响

k	P	R	F₁
				1	74.6	75	74.8
2	75.5	78.4	76.9
				3	76.9	79.5	78.2
4	76.6	82.8	79.6
				5	74.9	80.9	77.8
6	75.6	74.5	75.0

表6：超参数m对模型结果的影响

m	P	R	F₁
				1	75.8	81.6	78.6
2	76.6	82.8	79.6
				3	76.8	82.9	79.7

从表1和2的评估结果可以看出，通过直接生成触发词，并引入标签信号指导的事件分类，本发明提供的方法得到较大的性能提升。为了进一步观察不同模块对于模型结果的影响，表5展示了掩码触发词生成候选触发词数量k的改变对模型结果的影响。表6展示了超参数m的改变对模型结果的影响。由实验可知，本发明的有效性。

以上内容旨在示意性地说明本发明的技术方案，本发明并不限于上文描述的实施方式。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

参考文献：

[1]Doddington G R,Mitchell A,Przybocki M A,et al.The automaticcontent extraction(ace)program-tasks,data,and evaluation[C]//Lrec.2004,2(1):837-840.

[2]Deng S,Zhang N,Kang J,et al.Meta-learning with dynamic-memory-based prototypical network for few-shot event detection[C]//Proceedings ofthe 13th International Conference on Web Search and Data Mining.2020:151-159.

[3]Chen Y,Liu S,Zhang X,et al.Automatically labeled data generationfor large scale event extraction[C]//Proceedings of the 55th Annual Meetingof the Association for Computational Linguistics(Volume 1:Long Papers).2017:409-419.

[4]Liu J,Chen Y,Liu K,et al.Event detection via gated multilingualattention mechanism[C]//Proceedings of the AAAI conference on artificialintelligence.2018,32(1).

[5]Wang X,Han X,Liu Z,et al.Adversarial training for weaklysupervised eventdetection[C]//Proceedings of the 2019 Conference of the NorthAmerican Chapter of theAssociation for Computational Linguistics:HumanLanguage Technologies,Volume 1(Long andShort Papers).2019:998-1008.

[6]Du X,Cardie C.Event Extraction by Answering(Almost)NaturalQuestions[C]//Proceedings of the 2020 Conference on Empirical Methodsin Natural LanguageProcessing(EMNLP).2020:671-683.

[7]Liu J,Chen Y,Liu K,et al.Event extraction as machinereadingcomprehension[C]//Proceedings of the 2020 Conference on EmpiricalMethods in NaturalLanguage Processing(EMNLP).2020:1641-1651.

[8]Tong M,Wang S,Cao Y,et al.Image enhanced event detection innewsarticles[C]//Proceedings of the AAAI Conference on ArtificialIntelligence.2020,34(05):9040-9047.

[9]Tong M,Xu B,Wang S,et al.Improving event detection via open-domaintriggerknowledge[C]//Proceedings of the 58th annual meeting of theassociation for computationallinguistics.2020:5887-5897.

[10]Lou D,Liao Z,Deng S,et al.MLBiNet:A Cross-Sentence CollectiveEvent DetectionNetwork[C]//Proceedings of the 59th Annual Meeting of theAssociation for ComputationalLinguistics and the 11th International JointConference on Natural Language Processing(Volume 1:Long Papers).2021:4829-4839.

[11]Veyseh A P B,Van Nguyen M,Trung N N,et al.Modeling document-levelcontext forevent detection via important context selection[C]//Proceedings ofthe 2021 Conference onEmpirical Methods in Natural Language Processing.2021:5403-5413.

[12]Veyseh A P B,Lai V,Dernoncourt F,et al.Unleash GPT-2 power foreventdetection[C]//Proceedings of the 59th Annual Meeting of the Associationfor ComputationalLinguistics and the 11th International Joint Conference onNatural Language Processing(Volume 1:Long Papers).2021:6271-6282.

[13]Yang S,Feng D,Qiao L,et al.Exploring pre-trained language modelsfor event extractionand generation[C]//Proceedings of the 57th annual meetingof the association for computationallinguistics.2019:5284-5294.

Claims

1.一种基于触发词增强的标签信号指导事件检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于触发词增强的标签信号指导事件检测方法，其特征在于，步骤(1)具体包括：

x′＝[x₁，…，[MASK]，…，x_n] (1)

h_mask＝PMLM(x′)∈R^d (2)

(T，s)＝PMLM head(h_mask) (3)

x′＝[Sent1，[SEP]，x₁，…，[MASK]，…，x_n，[SEP]，Sent2] (5)

3.根据权利要求1所述一种基于触发词增强的标签信号指导事件检测方法，其特征在于，步骤(2)具体包括：

(201)标签信号指导的分类机制

其中D表示所有的训练语料，x表示训练语料中的句子，ε_x表示句子x中定义的所有事件，T_x表示句子x中的触发词集合，t表示触发词集合T_x中的触发词，c表示触发词t的事件类型，y表示触发词t的事件子类型；事件类型分类结果作为信号来指导事件子类型分类；分类机制是一个高度为3的树，根节点为触发词，第二层和第三层分别代表事件类型和子类型，第二层节点的孩子节点即为其包含的事件子类型，边上的权重为触发词在对应事件类型和子类型上的分类概率；在分类过程中，基于边的权重以深度优先搜索，Depth Search First，DFS，选择一条从根到叶子节点的路径，确定触发词对应的事件类型和子类型；

(202)事件类型-子类型指导分类网络

H＝PMLM(x) (7)

其中ETC表示事件类型分类，是一个两层的带有Dropout和Layer Normalization的非线性分类器，分类器的输出维度大小为事件类型的个数；此外，通过公式(3)和(4)可以得到候选句子的得分s；接下来通过加权求和得到加权的事件类型分类结果：

其中ESC表示事件子类型分类，共包含|C|个分类器，每个都是带有Dropout和LayerNormalization的两层非线性分类器；|C|表示事件类型集合元素的个数，表示根据l_i的值选择第l_i个分类器，v_i表示第i个信号对应的概率值，l_i表示第i个信号对应的事件类型标签，Softmax表示归一化函数，/>表示事件类型和子类型分类概率的乘积，max表示取集合中的最大值，y表示x中单词的最终事件子类型标签。

4.根据权利要求1所述一种基于触发词增强的标签信号指导事件检测方法，其特征在于，步骤(3)具体包括：

为了优化模型，联合训练采用如下的损失函数：

L＝L_ETC+αL_ESc+βL_s (13)

其中L表示最终的损失，L_ErC和L_ESC分别表示事件类型和子类型分类的损失，其中L_ETC表示真实事件类型标签和预测之间的交叉熵损失，L_ESC表示真实事件子类型标签和预测之间的交叉熵损失，α和β表示权衡参数；值得注意的是，在ESC分类阶段，H会根据l计算m次前向传播，但L_ESC只会在l_i等于H中触发词的真实事件类型时才计算损失，如果真实的事件类型不在信号中，此时ESC将会被剪枝。