CN115470772A

CN115470772A - 一种用于事件检测的语义感知方法

Info

Publication number: CN115470772A
Application number: CN202211027619.2A
Authority: CN
Inventors: 余正涛; 严海宁; 黄于欣; 张亚飞
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-12-13

Abstract

本发明涉及用于事件检测的语义感知方法。由于高频事件触发词往往主导ED模型的预测，且ED模型不能很好地理解上下文信息，导致在某些情况下无法识别事件类型，本发明能更加关注上下文来改变事件触发器的主导地位。提出的新颖的语义表征，以深入挖掘事件触发器和上下文之间的潜在联系，使ED模型更好地理解上下文信息。只需要在验证集上进行轻量级的训练，就能搭载在在任何训练好的模型上，无需昂贵的再训练和微调。在公共ACE2005数据集上的大量实验结果表明了该方法的有效性和可移植性。本发明优于之前12个最先进的(SOTA)事件检测模型，对于F₁值和F_0.5值分别提升了5.1％和2.2％。

Description

一种用于事件检测的语义感知方法

技术领域

本发明涉及一种用于事件检测的语义感知方法，属于自然语言处理领域。

背景技术

事件检测(ED)是事件抽取(EE)的关键步骤之一，是自然语言处理(NLP)领域的一项关键任务。它旨在识别事件触发词并且分类到预定义的事件类型中。ED任务有助于计算机理解人类语言和许多应用程序，例如自动内容提取、问答和知识库人口。

以前的工作通常将ED视为基于触发词的分类问题。他们首先使用事件触发词识别器在给定句子中找到事件触发词，然后使用事件触发词分类器来确定触发词的事件类型。然而上述ED模型会陷入触发词偏差，仅仅学习到词汇模式(即单词-触发的映射)，因此不能很好地理解给定句子的语义。所以其他工作引入了不同的上下文语义信息来理解给定文本的内容，以提高ED的性能。一些研究引入了结构化信息来理解文本内容，例如利用事件参数来表示上下文信息。另一些研究通过图卷积神经网络、注意力机制或语言模型引入非结构化信息来作为上下文语义信息。

事实上，以前的ED模型存在以下缺点。首先，ACE2005数据集中数据分布不平衡，每种事件类型的事件触发词数量比例失衡。对于已经训练好的模型，高频率事件触发词往往会主导事件类型的识别，例如战争、攻击、战斗、射击和炸弹几个触发词覆盖了大约78％攻击事件类型。一旦给定句子包含这样的主导事件触发词，它就会被分类到对应的事件类型。这种现象本质上是由于以前的ED模型过度依赖事件触发词并受到词汇模式问题的影响。其次，当事件触发词模棱两可时，ED模型只能从上下文中获取有用的信息。但是在以往的方法中，ED模型经常无法通过其上下文信息，正确识别具有模棱两可事件触发词的句子的事件类型。本质上，当前的ED模型并没有真正学习到上下文信息。为了解决这些问题，通常有两种解决方案。第一是标注大量数据构建新的平衡数据集；第二是提高学习上下文信息的能力。但是标注数据成本过高，并且现有研究都需要设计复杂的模型级策略来学习上下文信息，过程比较冗长。

为此，提出一种用于事件检测的语义感知方法，它不需要标注数据，也不需要复杂的模型级策略，只需要在验证集上进行轻量级训练就可以更加关注上下文来改变事件触发词的主导地位并且可以深入挖掘事件触发词和上下文之间的潜在联系，更好理解上下文信息。此外，提出的插件具有很好的便携性，无需更新大量模型参数和微调就能搭载在任何已经训练好的事件检测模型上。

发明内容

本发明提供了一种用于事件检测的语义感知方法，本发明通过轻量级训练，不需要复杂的模型级策略就可以缓解以往事件检测中主导触发词的影响和不能很好理解上下文信息的缺点，提高了事件检测的性能。

本发明的技术方案是：一种用于事件检测的语义感知方法，所述方法包括对公共数据集的处理；处理好的数据输入基线模型中，获得触发词和预测概率分布；将处理好的数据和已获得的触发词以及预测概率输入插件，来干预基线模型的预测，使结果更加符合语义；最后使用相似性度量，决定最终结果使用基线模型的结果还是插件的预测结果。

作为本发明的进一步方案，所述方法的具体步骤如下：

Step1：准备数据集，对公共数据集ACE2005数据进行预处理，将处理好的数据准备输入到模型中；

Step2：将处理好的数据输入基线模型(DMBERT)中，获得触发词和预测的概率分布；

Step3：将处理好的数据和已获得的触发词以及概率，输入到语义感知插件(SAP)。插件包括：语义表征模块和语义感知交互层。

Step4：利用相似性度量，决定最终的预测结果。

作为本发明的进一步方案，所述Step1的具体步骤为：

Step1.1：通过下载网上公开数据集ACE2005。该数据集包含599个文档，其中训练集、验证集和测试集的文档数量分别为529、30和40，并定义了34种事件类型。随后插入分隔符记号(即[CLS]、[SEP])到文本中，用符号S_w表示。最后将处理好的数据准备输入到模型中。

作为本发明的进一步方案，所述Step2的具体步骤为：

Step2.1：将处理好的数据输入到基线模型(DMBERT)中，先经过BERT编码，表示如下：

{h₁，...，h_t，...，h_m}＝BERT{S_w}

其中{h₁，...，h_t，...，h_m}是BERT编码的隐状态，h_t表示触发词t的隐状态。

Step2.2：当给定序列中有n个触发词，上下文被划分为n+1个部分，利用最大池化层对每个部分进行操作得到上下文特征，表示如下：

c＝[c₁；...；c_n+1]

其中c是上下文特征，[；]表示拼接操作，max(·)表示最大池化层操作，j_n，(n＝1，2，...，n)表示触发词t所在的位置。

Step2.3：对上下文特征c经过线性变换和层归一化得到概率分布，以及定义损失函数，表示如下：

其中f(·)表示线性变换和层归一化操作，

表示预测的概率分布，p_i，y真实标签的分布，

是定义的损失函数。

作为本发明的进一步方案，所述Step4的具体步骤为：

Step3.1：给定序列S_w中，将触发词t对应位置替换为占位符[MASK]，可以得到：

S_mark＝([CLS]，w₁，...，[MASK]，...，w_m，[SEP])

其中S_mark表示掩码后的文本；

Step3.2：掩码文本S_mark经过掩码语言模型，来预测可能会出现在掩码位置的单词，表示如下：

H_mask＝BERT(S_mask)

p_mask＝softmax(f(H_mask))

其中H_mask是掩码文本S_mark的隐状态，f(·)表示线性变换和层归一化操作，p_mask表示预测单词的概率；

Step3.3：根据预测单词的概率选取得到Top-K₁候选触发词

并对Top-K₁候选触发词和经过基线模型(DMBERT)得到的触发词t进行编码得到语义特征和触发词特征，表示如下：

K_i＝LargestK(p_mask，K₁)

其中LargestK(p_mask，K₁)返回对应于预测单词概率p_mask中最大的K₁个元素的候选词，g(·)表示glove embedding将每个候选触发词转变成50维向量，

表示语义特征，

表示触发词特征；

Step3.4：将语义特征

和触发词特征

拼接后，得到语义表征，表示如下：

其中

表示语义表征，[；]表示拼接操作；

Step3.5：对基线模型对每个事件类型的预测概率进行排序，最后选取Top-K₂事件类型

及其预测概率

然后通过语义感知交互层(SAInt)，语义信息融入基线模型(DMBERT)中，来干预基线模型的预测结果，最终可以得到插件的预测结果，表示如下：

其中

是可学习参数，语义感知交互层(SAInt)是由5层多层感知机组成。

作为本发明的进一步方案，所述Step4的具体步骤为：

Step4.1：考虑到基线模型(DMBERT)的预测并非都错误，所以使用相似性度量来决定最终的结果，是采用基线模型的结果还是插件的结果，表示如下：

其中E_old是基线模型的预测结果，E_SAInt是语义感知插件的预测结果，δ∈(0，1)表示决定采用哪个结果的相似度阈值。

本发明的有益效果是：

1.提出了一个用于事件检测的语义感知方法，他可以更加关注上下文来改变事件触发词的主导地位，而无需更新大量模型参数或重新训练模型。同时，本发明具有良好的便携性，只需要在验证集上进行简单的训练，就可用于任何事件检测范式。

2.提出了一种新颖的上下文语义表征，使得ED模型的预测更加符合语义。本发明可以挖掘事件触发词和上下文之间的潜在联系，并学习事件在文本中是如何描述的。此外，本发明为不需要再训练ED范式提供了更合适的语义表示，从而提高ED的性能。

3.提出的一种用于事件检测的语义感知方法在动态多池BERT(DMBERT)中的应用有效地超过了ACE2005数据集上的12个强基线，在F₁值上提高了5.1％，在F_0.5值上提高了2.2％，并实现了SOTA。

附图说明

图1是本发明提出的一种用于事件检测的语义感知方法流程示意图；

图2是不同的语义表示在本发明SAP上的性能；

图3是ACE2005测试集中的案例研究。

具体实施方式

实施例1，一种用于事件检测的语义感知方法，以ACE2005数据集为例训练模型，方法结构如图1所示，具体步骤如下：

Step1：通过下载网上公开数据集ACE2005。该数据集包含599个文档，其中训练集、验证集和测试集的文档数量分别为529、30和40，并定义了34种事件类型。随后插入分隔符记号(即[CLS]、[SEP])到文本中，用符号S_w表示。最后将处理好的数据准备输入到模型中；

作为本发明的进一步方案，所述Step2的具体步骤为：

{h₁，...，h_t，...，h_m}＝BERT{S_w}

c＝[c₁；...；c_n+1]

其中f(·)表示线性变换和层归一化操作，

表示预测的概率分布，p_i，y真实标签的分布，

是定义的损失函数。

Step3：将处理好的数据和已获得的触发词以及概率，输入到语义感知插件(SAP)；插件包括：语义表征模块和语义感知交互层；

作为本发明的进一步方案，所述Step3的具体步骤为：

S_mark＝([CLS]，w₁，...，[MASK]，...，w_m，[SEP])

其中S_mark表示掩码后的文本。

H_mask＝BERT(S_mask)

p_mask＝softmax(f(H_mask))

其中H_mask是掩码文本S_mark的隐状态，f(·)表示线性变换和层归一化操作，p_mask表示预测单词的概率。

Step3.3：根据预测单词的概率选取得到Top-K₁候选触发词

K_i＝LargestK(p_mask，K₁)

表示语义特征，

表示触发词特征。

Step3.4：将语义特征

和触发词特征

拼接后，得到语义表征，表示如下：

其中

表示语义表征，[；]表示拼接操作。

及其预测概率

其中

Step4：利用相似性度量，决定最终的预测结果。

作为本发明的进一步方案，所述Step4的具体步骤为：

为了说明本发明的效果，设置了6组对比实验，第1组是主试验，和以前的工作尽心比较；第2组实验，是以前的ED模型搭载插件前后的对比；第3组实验是不同的语义特征的对比；第4组实验，对比所使用的语义特征在本发明和需要重新训练的ED模型中的表现；第5组实验是消融实验，验证插件中各个部件的重要性；第6组实验是实例分析，用实例分型本发明的性能。

(1)主试验结果

选取12个以前最先进的事件检测模型，在ACE2005数据集上进行对比。

表1：模型在AC2005数据集上的表现

如表1所示，SAP的性能优于所有基线模型并达到了SOTA F1分数。由于提出的SAP使用训练好的模型预测的事件类型概率来干预最终的预测结果，因此使用SAP后模型的Recall指数会更高。为了公平起见，除了选择三个权威的评估指标Precision(P)、Recall(R)和F₁外，增加了一个F_0.5指标来全面评估我们的方法。F_0.5分数认为R和P一样重要，这样可以增加对P的重视程度，相对降低R的比例。这样F_0.5更符合评估SAP的性能。本发明在P、R、F₁和F_0.5方面分别超过SOTA模型EDGP/SSJDN 0.4％/3.9％、10.3％/10.5％、5.1％/7％、2.2％/5.1％在ACE2005数据集上。这可以归因于本发明的语义表示和后处理方式的引入。在训练过程中很难增加上下文语义信息的权重，因此本发明使用后处理的方法来有效地实现它。本发明的语义表示关注的是整个句子的上下文信息，而不是事件触发词附近单词的上下文信息，它学习了事件触发词和上下文之间的潜在联系，这提高了理解上下文信息的能力。

(2)语义感知插件对不同模型的影响

选择具有四种不同策略的基线模型，并在验证集上进行轻度训练并在测试集上测试。从而验证本发明可以很容易地搭载在任何经过训练的不同策略的事件检测模型上，并且验证它能对训练过的模型的预测产生影响，使训练过的ED模型的预测更有语义，缓解了以前的ED模型的缺点。

表2使用语义感知插件前后基线模型的性能

如表2所示，对于总体性能来说，本发明在四个基线模型上的所有四个评估指标上都取得了显着改进。这表明本发明对之前的基线模型的预测结果产生了积极的影响，并提高了它们的识别准确率。F_0.5值分别增加了2.6％、3.5％、1.9％和4.2％，它将P和R以合理的比例结合起来，全面衡量了四个基线模型在搭载了本发明之前和之后的性能。对于参数量来说，根据计算，FSED和MOGANED的数量分别为109.48M和2.76M。由于BERT作为基础编码器，SSJDN和DMBERT的数量参数分别为341.48M和335.17M。这意味着如果需要重新训练模型，将会消耗大量的时间和空间资源。相比之下，本发明只需要学习0.028M的参数，大大降低了时间成本，还可以提高性能。

整体来说，实验结果直接证实了本发明的有效性和便携性。

(3)不同语义特征对SAP的影响

为了验证使用Top-K词作为语义特征的必要性，选择了三种语义特征V1-V3来比较它们之间的性能差距。V0代表Top-K词；V1表示上下文所有单词表征的拼接；V2是事件参数；V3代表没有任何语义特征。

如图2所示，V1/V2/V3在F_0.5上分别比V0低2.0％/1.2％/2.8％，这表明ED模型通过使用Top-K词作为本发明的语义特征才能达到最佳结果。

(4)语义表征在再训练模型和训练好模型上的性能

为了证明本发明的语义表征更适用于插件策略，将其合并到DMBERT中进行重新训练。C1表示本发明的语义表征用于SAP中；C2表示本发明的语义表征融入DMBERT中再训练。

表3语义表征再SAP和DMBERT中的性能

如表3所示，C1在P、R、F₁和F_0.5上分别比C2高1.4％、7.4％、4.2％和2.4％。证明了本发明的语义表征更适用于插件策略。

(5)消融实验

特征消融：为了探索触发词特征和语义特征的必要性，对其进行消融。

决策消融：为了探索相似性度量的必要性，对其进行消融。

表4消融实验

如表4所示，去除触发词特征或上下文特征，都会使本发明性能降低，表明两个特征对于本发明来说都是必要的。去除相似性决策也会使本发明性能降低，这是因为训练好的模型的预测结果也不是全错的，本发明只是干预了主导事件触发词的情况和对上下文理解不好的情况。因此，有必要加入相似性决策。

(6)实例分析

选择了四个案例来更好地说明本发明的有效性。

如图3所示，事件触发器在句子中用红色标记。打勾和交叉表示检测到的事件是正确还是错误。对于(a)和(b)，模棱两可的事件触发词“release”和“offer”具有多重含义，可能对应于几种不同的事件类型。然而，基线模型通常将模棱两可的事件触发词分类为它们常常属于的事件类型。在(a)中，根据本发明的语义特征可以看出，很多线索表明该句子属于“Transaction:Transfer-Money”类型。在(b)中，语义特征中没有足够的线索来解释该句子是“Transaction：Transaction-Ownership”类型。在本发明对训练好的模型进行干预后，句子被归类为“None”类型。对于(c)，本发明的语义特征包含一些不相关的词，不能表明句子是“Justice:Sue”类型，因此虽然事件触发词“Bankrupt”是“Declare-Bankrupt”类型的主导触发词，但是更符合上下文，所以本发明选择“Declare-Bankrupt”类型。对于(d)，“detonated”是“Conflict:Attack”类型的高频事件触发词。在本发明的语义特征中，任何词放在句子中都是流利的，这证明了这句话的上下文信息不足以支持基线模型的预测。因此，放弃了对基线模型的预测，并相信本发明的结果。这四种情况说明本发明在这些条件下表现不错，可以减少主导事件触发词和无法很好理解上下文导致的错误

总之，为了缓解主导触发词和不能很好理解上下文信息的缺点，提出了一种用于事件检测的语义感知方法。更加关注上下文来改变触发词的主导地位，并深入挖掘触发词和上下文之间的潜在联系，更好理解上下文信息，并使预测结果更加语义化。并且具有良好的便携性，不需要重新训练和微调，只需要在验证集上进行轻量级训练就能搭载在任何训练好的事件检测模型上。大量的实验验证了提出模型的有效性和合理性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。