CN112307740A

CN112307740A - 一种基于混合注意力网络的事件检测方法及装置

Info

Publication number: CN112307740A
Application number: CN202011600231.8A
Authority: CN
Inventors: 谭真; 黄培馨; 赵翔; 方阳; 徐浩; 唐九阳; 肖卫东; 张鑫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-02-02
Anticipated expiration: 2040-12-30
Also published as: CN112307740B

Abstract

本发明一种基于混合注意力网络的事件检测方法及装置，所述方法包括：构建混合注意力网络模型，包括多语言表示层、混合注意力层和分类层；在所述的多语言表示层进行源文本的翻译以及多种语言的目标文本的获取，并且进行了文本的对齐，将多种语言的目标文本转化为句子序列的向量表示；混合注意力层，同时对多种语言的文本并行进行上下文注意力的学习，通过多语言注意力机制进行跨源语言和多种目标语言的信息融合；在分类层进行事件类型的预测分类。

Description

一种基于混合注意力网络的事件检测方法及装置

技术领域

本发明涉及自然语言处理中的事件检测技术领域，尤其涉及一种基于混合注意力网络的事件检测方法及装置。

背景技术

事件检测任务就是从纯文本中识别出具有特定类型的事件实例。具体而言，给定一个输入文本，事件检测任务需要确定这个文本中包含的触发词以及触发词所描述的事件类型，它包含事件触发词识别和事件触发词分类两个子任务。举例来说，给定一个纯文本：Three elephants were shot dead。事件检测可以自动从文本中识别出触发词 “shot” 以及其触发的事件子类型 Attack （类型 Conﬂict）和触发词 “dead” 以及其触发的事件子类型 Die（类型 Life）。

尽管当前事件检测问题的研究已经取得了比较大的进展，但是仍然存在两个问题会严重限制当前方法的性能。一是由于数据稀疏而导致的低召回率问题。在训练数据有限的情况下，有些事件类型的训练样例会尤其少，从这些极少的训练样例中学习出来的模型，要从某一事件类型的不同表达形式中识别出正确的事件类型是十分具有挑战性的。二是由于自然语言的歧义性而导致的低精确率。自然语言中存在着多义现象，很多事件触发词也是多义词。

模型 GMLATT 引入了一种门控双语言的框架，这个模型综合运用原本语言（源语言，source language）文本的信息和翻译过后的一种译文（目标语言， target language）文本的信息，捕获它们之间的一致性部分来缓解数据稀疏，并且利用两种语言的互补信息消除自然语言的歧义性。

然而，在目前已有的事件检测工作中，还没有模型能够充分利用来自更多种语言的补充信息。并且，由于模型设计的限制，GMLATT模型只能够融合源语言和一种翻译过后的目标语言信息。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了一种基于混合注意力网络的事件检测方法及装置。所述方法提出了一种混合注意力网络（hybrid attention network，HAN），同时处理源语言和多种目标语言的文本。其中，注意力模块首先分别关注每一种语言文本之中的重要分词（如触发词或者对识别触发词有益的分词），并且给予它们较高的注意力；然后注意力模块进行跨语言的注意力计算，分别给予不同语言的文本不同的注意力，使得不同目标语言中的无歧义的信息能够以监督的方式传递到源语言文本，缓解源语言文本中的歧义。

一种基于混合注意力网络的事件检测方法，所述方法包括：

步骤1，构建混合注意力网络模型，包括多语言表示层、混合注意力层和分类层；

步骤2，在所述的多语言表示层进行源文本的翻译以及多种语言的目标文本的获取，并且进行了文本的对齐，将多种语言的文本转化为句子序列的向量表示；

步骤3，在所述的混合注意力层，同时对多种语言的文本并行进行上下文注意力的学习，通过多语言注意力机制进行跨源语言和多种目标语言的信息融合；步骤4，将事件检测任务形式化为一个多类型分类问题，在分类层进行事件类型的预测分类。

具体地，所述的多语言表示层输入的文本是单词序列文本，处理过程包括以下步骤：

使用Google Translate来处理每一条输入的源语言文本，获得多种语言的并行目标语言文本；

利用对齐工具 Giza++ 2来进行多种语言文本的对齐；

在进行句子表示时，将每个输入分词

转化为一个实值向量

，这个向量包括以下三种特征表示的联结：1）词向量：词向量能够捕获文本中单词的语义信息，通常被用作各种任务的基本向量；2）实体类型向量：使用标注好的实体信息作为额外特征，随机初始化每个实体类型的向量并且在训练过程中不断更新，不同的语言共享实体向量表；3）位置向量：位置向量表示了上下文分词

和当前分词

之间的相对距离

，它通过查找一个随机初始化的位置向量表获得；由此，输入的文本被转化为一个向量序列

，其中，每一个向量都是上述三种特征向量的联结；

采用双向门控循环单元分别用两个GRU层在前向和后向处理向量序列，前向GRU层的隐层向量

编码从

到

的序列；相似地，反向GRU层的隐层向量

编码从

到

的序列；然后前向隐层向量

和反向隐层向量

被联结以组成

的向量表示，即

；

最后，输入序列的双向门控循环单元表示将作为整个句子的表示向量，源语言文本的向量表示为

，第

个目标语言文本的向量表示为

，其中，

和

分别是文本的句长。

具体地，所述的混合注意力层，顺序进行上下文注意力机制和多语言注意力机制来捕获多语言线索。

具体地，所述的上下文注意力机制的目的是生成上下文向量，挖掘不同种语言的上下文提供的一致性信息，所述的上下文注意力机制会在每种语言上分别进行；给定源语言文本的表示

，上下文注意力机制会计算一个上下文表示向量

，用于表示源语言文本上下文的综合信息，即：

（1）

（2）

, （3）

其中，

是权重矩阵，

是偏置项，

是源语言候选触发词表示

和第

个分词的表示

之间的相关性分数，

是第

个分词关于候选触发词的注意力权重；

对于并行的目标语言文本，找出源语言候选触发词在其中的对应分词，并且进行和源语言相似的步骤获得上下文表示

，这个表示表达了第

个目标语言文本的综合信息；

所述的多语言注意力机制用于捕获源语言和多种目标语言之间，以及目标语言与目标语言之间的互补线索，并且控制互补线索向源语言文本的信息传递以辅助源语言中事件的识别，给定源语言文本的上下文表示

和一个多种翻译过后的目标语言的表示集合

，其中

是目标语言的数量，多语言注意力将会通过卷积和池化操作来计算一个多语言的表示

。

更进一步地，在所述的多语言注意力机制中设计了一个带有卷积滤波器和最大池化层的CNN框架以集成来自于源语言和一系列目标语言文本的互补信息，使用不同宽度的多个卷积滤波器来捕获语义流，具体来说，采用宽度为2和3的多个卷积滤波器对源句和目标句序列中的二元和三元语法语义进行编码，将卷积滤波器的输出输入到一个最大池化层，最终获得了两个固定长度的输出

和

。

在分类层进行事件类型的预测分类时，采用一个softmax分类器来识别候选触发词，并且使用

，

，

和

的联结作为分类器的输入：

（4）

其中，

是权重矩阵，

是偏置项，

给定表示各种事件类型预测概率的实值向量

，候选触发词

属于事件类型

的概率为：

（5）

其中，

表示参数集合，

是向量

的第

个元素。

优选地，所述的混合注意力网络模型训练时，将训练数据中的分词集合表示为

，对应的真实的事件类型集合为

，其中

表示所有分词的数量，最小化多类型交叉熵损失来训练混合注意力网络模型：

（6）

其中，

是正则化参数。

优选地，在训练时，使用随机梯度下降进行训练，并且添加了dropout 层用于正则化，采用负采样来准备训练数据，将无类型事件与有类型事件的比例设置为200：1，通过从训练集中随机选择小批次来迭代训练过程直至收敛。

一种基于混合注意力网络的事件抽取装置，包括：

处理器；

以及，存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行可执行指令来执行上述的事件检测方法。

与现有方法相比，本发明方法的优点在于：设计实现了一个混合注意力网络 HAN来提高事件检测任务的效果。HAN 是事件检测的神经网络模型中第一个充分利用多种语言的额外信息的模型。设计了一个混合注意力模块，包含一个上下文注意力模块用于捕获多种语言文本中的上下文信息，以及一个多语言注意力模块能够集成多种语言之间的互补信息，以此利用多种语言的线索来缓解数据稀疏和自然语言歧义等问题。

附图说明

图1示出了本发明实施例的流程示意图；

图2示出了本发明实施例中混合注意力网络的框架示意图；

图3示出了宽度为3的卷积滤波器的CNN。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

如图1所示，一种基于混合注意力网络的事件检测方法，所述方法包括：

步骤1，构建混合注意力网络模型，包括多语言表示层、混合注意力层和分类层；如图2所示；

步骤2，在所述的多语言表示层进行源文本的翻译以及多种语言的目标文本的获取，并且进行了文本的对齐，将多种语言的目标文本转化为句子序列的向量表示；

步骤3，在所述的混合注意力层，同时对多种语言的文本并行进行上下文注意力的学习，通过多语言注意力机制进行跨源语言和多种目标语言的信息融合；

步骤4，在分类层进行事件类型的预测分类。

下面将详细地对整个模型进行介绍

多语言表示层：

由于输入本文是单语序列文本，本实施例首先使用Google Translate来处理每一条输入的源语言文本，获得多种语言的并行目标语言文本。

然后，利用对齐工具Giza++来进行多种语言文本的对齐。由于文本的对齐是单向的（从源语言对齐到目标语言或者从目标语言对齐至源语言），因此使用“grow-diag-final-and”算法来组合对齐结果。

接着，在进行句子表示时，将每个输入分词

转化为一个实值向量

，这个向量是以下三种特征表示的联结：1）词向量：词向量能够捕获文本中单词的语义信息，通常被用作各种任务的基本向量。使用典型的Skip-Gram模型来预训练词向量；2）实体类型向量：使用标注好的实体信息作为额外特征，随机初始化每个实体类型的向量并且在训练过程中不断更新。不同的语言共享实体向量表；3）位置向量：位置向量表示了上下文分词

和当前分词

之间的相对距离

，它通过查找一个随机初始化的位置向量表获得。由此，输入文本被转化为一个向量序列

，其中，每一个向量都是上述三种特征向量的联结。

然后，采用双向门控循环单元（Bidirectional Gated Recurrent Units ，BIGRU）分别用两个GRU层在前向和后向处理向量序列。前向GRU层的隐层向量

编码从

到

的序列；相似地，反向GRU层的隐层向量

编码从

到

的序列。然后前向隐层向量

和反向隐层向量

被联结以组成

的向量表示，即

。最后，输入序列的BiGRU表示将作为整个句子的表示向量。源语言文本的向量表示为

，第

个目标语言文本的向量表示为

，其中，

和

分别是文本的句长。

混合注意力层

然后，HAN 顺序进行上下文和多语言注意力机制来捕获多语言线索。本实施例将介绍这两种注意力机制。

上下文注意力机制：上下文注意力的目的是生成上下文向量，挖掘不同种语言的上下文提供的一致性信息，以缓解数据稀疏问题。上下文注意力机制会在每种语言上分别进行。

给定源语言文本的表示

，上下文注意力机制会计算一个上下文表示向量

，用于表示源语言文本上下文的综合信息，即：

（1）

（2）

, （3）

其中，

是权重矩阵，

是偏置项，

是源语言候选触发词表示

和第

个分词的表示

之间的相关性分数，

是第

个分词关于候选触发词的注意力权重。

，这个表示表达了第

个目标语言文本的综合信息。

多语言注意力机制：多语言注意力用于捕获多种目标语言之间的互补线索并且控制从多种目标语言文本到源语言文本的信息传递。给定源语言文本的上下文表示

和一个多种翻译过后的目标语言的表示集合

，其中

。

多语言注意力的计算假设源语言和目标语言的表示之间有多语言的互补关系。由于CNN擅长于从一系列对象中捕捉显著特征，故设计了一个带有卷积滤波器和最大池化层的CNN框架以集成来自于源语言和一系列目标语言文本的互补信息。

使用不同宽度的多个卷积滤波器来捕获语义流。具体来说，采用宽度为2和3的多个卷积滤波器对源句和目标句序列中的二元和三元语法语义进行编码。图3展示了有宽度为3的卷积滤波器的CNN，其中一个卷积滤波器是一系列参数共享的线性层。将卷积滤波器的输出输入到一个最大池化层，最终获得了两个固定长度的输出

和

。需要注意的是，这种卷积操作可以看作是为不同种语言的句子分配权重的注意力机制，其操作简单，可以直接集成到现有的框架中，在不会引入过多参数的情况下有效提升多语言的信息集成。

预测

在进行事件类型预测时，把事件检测任务形式化为一个多类型分类问题。我们采用一个softmax分类器来识别候选触发词，并且使用

，

，

和

的联结作为分类器的输入：

（4）

其中，

是权重矩阵，

是偏置项。

给定表示各种事件类型预测概率的实值向量

，候选触发词

属于事件类型

的概率为：

（5）

其中，

表示参数集合，

是向量

的第

个元素。

训练

将训练数据中的分词集合表示为

，对应的真实的事件类型集合为

，其中

表示所有分词的数量。通过最小化多类型交叉熵损失来训练HAN：

（6）

其中，

是正则化参数。

在训练时，使用随机梯度下降进行训练，并且添加了dropout 层用于正则化。为了解决数据不平衡问题，采用负采样来准备训练数据，将无类型事件与有类型事件的比例设置为200：1。通过从训练集中随机选择小批次来迭代训练过程直至收敛。

实施例二

本发明还公开了一种电子设备，包括：

处理器；

以及，存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述的事件抽取方法。

为了评估HAN 利用多语言线索提升事件检测的效果上的有效性，实施例中使用英语作为源语言，并且在两个基准数据集，ACE2005和 TAC KBP 2015事件块检测评估数据集(KBPEval2015)上进行实验。对于ACE2005 数据集，使用和之前实验相同的实验设置，即其中的529/30/40个文档被用作训练集/开发集/测试集。对于 KBPEval2015数据集，我们在提供的评估数据集(LDC2015R26)上测试模型，使用先前的RichERE标注数据集(LDC2015E73)作为训练集，除了保留为开发集的30个随机采样的30个文档之外。

评估使用任务的官方评估标准，即1）如果触发词的偏移量与参照触发词的偏移量匹配，则触发词识别正确（触发词识别）；2）如果一个触发词的事件类型和偏移量与参考触发词的事件类型和偏移量匹配，则触发词被正确的分类（触发词分类）。模型用微观平均的准确率（Precision，P），召回率（Recall，R）和F1值（F1）来进行评估。我们用一对双尾t检验来检测统计上的显著性提升，并且，在实验结果部分使用加粗字体来标记HAN 模型相对其他基准模型的显著提升（

）。

对于HAN模型的参数，所有训练数据的迭代数设置为15，神经网络的dropout率设置为0.6，随机梯度下降的学习率初始化为0.001，mini-batch的大小设置为160，词向量、实体类型向量和位置向量的维度分别设置为200、50和5。

在两个基准数据集ACE2005 和KBPEval2015 上进行的综合性的实验证实了使用多语言线索的有效性。效果最好的HAN 结合中文和日语作为目标语言，综合了三种语言的文本的信息，效果优于目前最优的模型，在事件触发词识别任务上在两个基准数据集上分别获得1.9%和1.7%的指标提升，在事件触发词分类上在两个基准数据集上获得2.2%和1.8%的指标提升。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种基于混合注意力网络的事件检测方法，其特征在于，所述方法包括：

步骤4，将事件检测任务形式化为一个多类型分类问题，在分类层进行事件类型的预测分类；

所述步骤2中多语言表示层输入的文本是单词序列文本，处理过程包括以下步骤：

利用对齐工具 Giza++ 2来进行多种语言文本的对齐；

在进行句子表示时，将每个输入分词

转化为一个实值向量

和当前分词

之间的相对距离

，其中，每一个向量都是上述三种特征向量的联结；

编码从

到

的序列；相似地，反向GRU层的隐层向量

编码从

到

的序列；然后前向隐层向量

和反向隐层向量

被联结以组成

的向量表示，即

；

，第

个目标语言文本的向量表示为

，其中，

和

分别是文本的句长；

所述步骤3中混合注意力层，顺序进行上下文注意力机制和多语言注意力机制来捕获多语言线索；

所述的上下文注意力机制的目的是生成上下文向量，挖掘不同种语言的上下文提供的一致性信息，所述的上下文注意力机制会在每种语言上分别进行；给定源语言文本的表示

，上下文注意力机制会计算一个上下文表示向量

，用于表示源语言文本上下文的综合信息，即：

（1）

（2）

, （3）

其中，

是权重矩阵，

是偏置项，

是源语言候选触发词表示

和第

个分词的表示

之间的相关性分数，

是第

个分词关于候选触发词的注意力权重；

，这个表示表达了第

个目标语言文本的综合信息；

和一个多种翻译过后的目标语言的表示集合

，其中

。

2.根据权利要求1所述的事件检测方法，其特征在于，在所述的多语言注意力机制中设计了一个带有卷积滤波器和最大池化层的CNN框架以集成来自于源语言和一系列目标语言文本的互补信息，使用不同宽度的多个卷积滤波器来捕获语义流，具体来说，采用宽度为2和3的多个卷积滤波器对源句和目标句序列中的二元和三元语法语义进行编码，将卷积滤波器的输出输入到一个最大池化层，最终获得了两个固定长度的输出