CN108345583A

CN108345583A - 基于多语注意力机制的事件识别及分类方法及装置

Info

Publication number: CN108345583A
Application number: CN201711463578.0A
Authority: CN
Inventors: 陈玉博; 刘康; 赵军; 刘健
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-07-31
Anticipated expiration: 2037-12-28
Also published as: CN108345583B

Abstract

本发明涉及自然语言处理技术领域，具体涉及一种基于多语注意力机制的事件识别及分类方法及装置，旨在为了解决单语特征识别效果不能满足需求的问题，本发明的方法包括：将仅标注单语事件信息的数据映射为多语平行数据；将所述多语平行数据进行词汇级别对齐，通过多语对齐关系得到同一事件在多种不同语言中的一致性表示；基于单语注意力模型获取多语一致性信息；基于多语注意力模型获取多语互补性信息；基于所述多语一致性信息和所述多语互补性信息进行联合推理，通过非线性神经网络判别模型输出最终的识别结果。本发明可以提高事件的识别效果。

Description

基于多语注意力机制的事件识别及分类方法及装置

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于多语注意力机制的事件识别及分类方法及装置。

背景技术

随着互联网的大规模发展，信息的获取变得越来越容易，人们几乎无时无刻都会接触涉及各个领域的海量信息，比如体育、娱乐、军事等等领域的新闻。然而这些信息一般都是无序、杂乱、非结构的，并且存在一定程度的信息冗余。如何在计算机的辅助下，从海量信息中发现感兴趣的事件是亟需解决的问题。事件识别(Event Identification)技术正是解决这一问题的有力手段。事件识别是事件抽取(Event Extraction)的一个独立的子任务，主要研究如何从含有事件信息的非结构化文本中识别出用户感兴趣的事件及其类型。

一个事件由一个触发词(trigger)、一种事件类型(event type)和若干事件的参与者及其角色(arguments and roles)组成，其中事件的触发词是文本中最能指示事件发生的词。事件抽取的目标是如何从描述事件的自然语言文本中抽取事件的上述各个成分，并以结构化的形式展现出来。例如，对于文本“He died in hospital.”，一个理想的事件抽取结果如表1所示。

表1：事件抽取示例

事件识别和事件抽取的不同之处在于，其只关注事件触发词和事件类型的识别，并不关注事件参与者及其角色。例如，对于上面的例子，事件识别的任务是识别出该句子描述了一个事件，该事件的触发词是“died”，事件类型是Die。

ACE(Automatic Context Extraction)评测比赛推动了这个领域的发展。该评测预定义了8大类、33小类的事件，每个类型的事件都有若干标注的实例。目前的主流技术是将事件识别转化为词分类的问题，然后利用句法分析器等工具抽取候选词附近的信息构建特征向量，最后利用基于特征的分类器进行分类。图1展示了现有方法的基本流程，分为训练和测试两个阶段。训练阶段，对标注数据中的每个事件触发词，利用自然语言处理工具提取潜在有用的信息(词形，词性等)，为该实例构建特征向量；将该特征向量和其事件类别对应起来，作为一个标注数据实例。最后利用所有的标注数据实例训练分类模型，得到可用的分类器。测试阶段，该方法将测试文本中的每个词视为一个候选事件触发词，针对每个触发词提取特征构建特征向量，最后用训练好的分类器进行分类，分类器给出的类标就是识别结果。但是，目前传统技术几乎只考虑了单语特征，忽略了多语数据中蕴含的潜在信息，而多语信息对事件识别和类型消歧来说至关重要。

发明内容

为了解决现有技术中的上述问题，即为了解决单语特征识别效果不能满足需求的问题，本发明一方面提出了一种基于多语注意力机制的事件识别及分类方法，包括：

步骤1，将仅标注单语事件信息的数据映射为多语平行数据；

步骤2，将所述多语平行数据进行词汇级别对齐，通过多语对齐关系得到同一事件在多种不同语言中的一致性表示；

步骤3，利用步骤2得到同一事件在多种不同语言中的一致性表示，基于单语注意力模型获取多语一致性信息；

步骤4，利用步骤2得到同一事件在多种不同语言中的一致性表示，基于多语注意力模型获取多语互补性信息；

步骤5，基于所述多语一致性信息和所述多语互补性信息进行联合推理，通过非线性神经网络判别模型输出最终的识别结果；

其中，

所述单语注意力模型为用于学习同一事件在不同语言中的一致性表示的带注意力机制的神经网络模型；

所述多语注意力模型为用于学习事件在不同语言中的不同表示的带注意力机制的神经网络模型。

进一步地，所述单语注意力模型，该模型的建模公式为

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

其中，z_t、r_t、分别为输入门、输出门和记忆单元；W，U，b是对应项的权值矩阵，σ(x)＝1/(1+exp(-x))，x_t为第t时刻的输入表示向量。

进一步地，所述单语注意力模型中，其单语注意力权重为词汇重要性，句子不同部分的权重a_i的计算方法为

其中，为候选触发词的转置向量，W_{Att_src}为权重矩阵，w为缩放系数，s_i为第i个词语的表示向量，b_{Att_src}为偏置项，L为句子长度。

进一步地，通过所述单语注意力模型输出的句子表示为不同部分的带权重加和R_src，

进一步地，所述多语注意力模型中多语注意力权重为不同语言的置信度，目标语言的置信度G_cl计算方法为

G_cl＝σ(W_cl[R_src；R_tgt]+b_cl)

其中，W_cl为权重矩阵，R_tgt为目标语的句子表示向量，b_cl为偏置项。

进一步地，所述多语注意力模型输出的多语的信息融合表示为R_integrated，

R_integrated＝(G_i·R_tgt)+(1+G_i)·R_src

其中，G_i为多语置信度表示向量。

进一步地，步骤5中所述“进行联合推理”，其方法为

O＝softmax(tanh(W_cls[c_src；c_tgt；R_integrated]+b_cls))

其中，O为输入向量，W_cls为权重矩阵，c_src为源语触发词表示向量，c_tgt为目标语触发词表示向量，b_cls为偏置项。

进一步地，步骤1中，采用自然语言处理中的机器翻译技术将仅标注单语事件信息的数据映射为多语平行数据。

进一步地，步骤2中，利用自然语言处理工具GIZA++学习多语的词对齐信息，将所述多语平行数据进行词汇级别对齐。

进一步地，所述“利用自然语言处理工具GIZA++学习多语的词对齐信息，将所述多语平行数据进行词汇级别对齐”，其方法为：

利用自然语言处理工具GIZA++同时学习源语到目标语、目标语到源语的单向对齐关系；

采用grow-diag-final-and启发式算法获得多语的双向多对多对齐关系。

本发明的另一方面，提出了一种基于多语注意力机制的事件识别及分类装置，包括：

多语映射模块，用于将仅标注单语事件信息的数据映射为多语平行数据；

多语对齐模块，用于将所述多语平行数据进行词汇级别对齐，通过多语对齐关系得到同一事件在多种不同语言中的一致性表示；

单语注意力机制模块，用于利用同一事件在多种不同语言中的一致性表示，基于单语注意力模型获取多语一致性信息；

多语注意力机制模块，用于利用同一事件在多种不同语言中的一致性表示，基于多语注意力模型获取多语互补性信息；

非线性联合推理模块，用于对所述多语一致性信息和所述多语互补性信息进行联合推理，通过非线性神经网络判别模型输出最终的识别结果；

其中，

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现上述的基于多语注意力机制的事件识别及分类方法。

本发明的第四方面，提出了一种处理装置，包括

处理器，适于执行各条程序；以及

存储设备，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

上述的基于多语注意力机制的事件识别及分类方法。

本发明基于多语注意力机制的统一学习模型，该模型不仅可以利用传统的特征，还可以引入多语一致性信息和多语互补性信息作为特征，可以提高事件的识别效果。实验表示，本发明可以提高事件识别的准确率和召回率，对比传统的事件识别方法，获得了非常显著的F1值3％的提升，对比基于表示的事件识别方法，获得了显著的F1值1.1％个点的提升。

附图说明

图1是是传统事件识别及分类方法的流程示意图；

图2是本发明的系统架构图；

图3是本发明实施例的多语词汇级别的双向对齐结果示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的一种基于多语注意力机制的事件识别及分类方法，如图2所示，包括：

步骤1，将仅标注单语事件信息的数据映射为多语平行数据；

步骤2，将所述多语平行数据进行词汇级别对齐，通过多语对齐关系得到同一事件在多种不同语言中的一致性表示，即多语对齐数据；

其中，

下面结合各步骤的详细描述来对本发明的技术方案进行进一步阐述。

步骤1，将仅标注单语事件信息的数据映射为多语平行数据。

利用自然语言处理中的机器翻译技术，把仅标注了单语事件信息的数据映射为平行多语数据，进而在所得到的多语数据中挖掘有价值的信息。后续的特征提取步骤将使用这些多语特征，用于分类器的训练和测试。本方法主要挖掘两类多语信息：多语一致性信息和多语互补性信息。

多语一致性信息是指：当多种语言描述同一个事件发生时，那么在每一种语言中都有相同或者相似的语义组成部分。比如对于中文事件来说“坦克向旅店开火”，对应的英文描述是“A tank fired to a hotel”。其中的“坦克”和“tank”相互对应，都是指攻击事件的发起者，这些多语一致性信息可以用来进行事件识别及分类。

多语互补性信息是指：多种语言有各自不同的基本单元，这些单元往往具有语言差异性，而这些差异性可以提供互补信息。比如，在英文中，“fire”可以表示开火，也可以表示解雇。但是在中文中，“开火”和“解雇”并没有相同的语义关联。所以可以利用中文提供的信息作为英文语义消歧的互补信息。这些多语互补性信息可以用来进行事件识别及分类。

步骤2，将所述多语平行数据进行词汇级别对齐，通过多语对齐关系得到同一事件在多种不同语言中的一致性表示。

本发明实施例借助自然语言处理常用的工具GIZA++来学习多语的词对齐信息。本发明同时学习源语到目标语、目标语到源语的单向对齐关系，之后采用grow-diag-final-and算法获得多语的双向多对多对齐关系。

GIZA++是一个无监督学习平行语料词语对齐的工具，但是它只能学习单向一对多的词语对齐。为了得到双向的多对多词汇级别的对齐信息，同时从两个方向学习词语对齐，然后使用上述算法对双向词对齐进行合并归一化，得到多对多的双向对齐关系。

最终得到的多语词汇级别的双向对齐结果如图3所示。

步骤3，利用步骤2得到同一事件在多种不同语言中的一致性表示，基于单语注意力模型获取多语一致性信息。

该步骤面向每一种语言，使用带注意力机制的神经网络模型来学习单语句子表示。该步骤中的单语注意力权重可表示为词汇重要性。该步骤主要学习同一事件在不同语言中的一致性表示，以此单语注意力模型多语一致性信息。

所述单语注意力模型，该模型的建模公式如公式(1)、(2)、(3)、(4)所示：

z_t＝σ(W_zx_t+U_zh_t-1+b_z) (1)

r_t＝σ(W_rx_t+U_rh_t-1+b_r) (2)

单语注意力模型中，其单语注意力权重为词汇重要性，句子不同部分的权重a_i的计算方法如公式(5)所示

单语注意力模型输出的句子表示为不同部分的带权重加和R_src，如公式(6)所示，

通过步骤3获取多语一致性信息时，首先需要对句子进行表示，采用GRU对句子进行表示，其算法可以表示为公式(1)、(2)、(3)、(4)；然后采用单语注意力机制对句子的不同部分的重要性进行计算，句子中的不同部分的权重计算如公式(5)所示；输出的句子表示如公式(6)所示。

步骤4，利用步骤2得到同一事件在多种不同语言中的一致性表示，基于多语注意力模型获取多语互补性信息。

该步骤面向多种语言，使用带注意力机制的神经网络模型来学习事件在不同语言中的不同表示。该步骤中的多语注意力权重可表示为不同语言的置信度。该步骤主要学习不同语言的可信度权重，以多语注意力模型计算多语互补性信息。

目标语言的置信度G_cl计算如公式(7)所示：

G_cl＝σ(W_cl[R_src；R_tgt]+b_cl) (7)

多语注意力模型输出的多语的信息融合表示为R_integrated，如公式(8)所示：

R_integrated＝(G_i·R_tgt)+(1+G_i)·R_src (8)

其中，G_i为多语置信度表示向量。

步骤5，基于所述多语一致性信息和所述多语互补性信息进行联合推理，通过非线性神经网络判别模型输出最终的识别结果。

进行联合推理的公式如公式(9)所示：

O＝soft max(tanh(W_cls[c_src；c_tgt；R_integrated]+b_cls)) (9)

为了得到整个模型的最优参数，采用了随机梯度下降的方法，整体模型的优化目标函数J(Θ)如公式(10)所示：

其中，P(y_i|t_i,Θ)为输出条件概率，y_i为输出标签，t_i为候选词表示，Θ为模型参数，λ(Θ)为正则项，K为词汇总量。

下面通过一组测试效果来展示本发明实施例的效果。

测试语料

使用ACE2005数据集作为训练和测试语料。该语料共包含599篇标注文档，选择530篇作为训练数据集，39篇作为测试数据集，另外的30篇作为开发数据集。

测试结果

通过对比已有方法和本方法的效果来说明其有效性。对比结果如表2所示：

表2测试结果对比表

表中P、R、F1分别表示准确率、召回率和F1得分。

表中第一部分(第一到三行)是基于特征的传统方法在事件识别及分类上的效果，第二部分(第四到六行)是基于深度学习的方法在事件识别及分类上的表现效果。第三部(第七到九行)是利用外部资源的方法在事件识别及分类上的表现效果。最后一行是本方法的完整实现，在事件识别及分类上的表现效果。从实验结果可以看到，基于多语注意力机制的事件识别及分类方法在该任务上的表现超过了已有方法，这个方法被证明是有效的。

本发明实施例的一种基于多语注意力机制的事件识别及分类装置，包括：多语映射模块、多语对齐模块、单语注意力机制模块、多语注意力机制模块、非线性联合推理模块。

多语映射模块，用于将仅标注单语事件信息的数据映射为多语平行数据。

多语对齐模块，用于将所述多语平行数据进行词汇级别对齐，通过多语对齐关系得到同一事件在多种不同语言中的一致性表示。

单语注意力机制模块，用于利用同一事件在多种不同语言中的一致性表示，基于单语注意力模型获取多语一致性信息。

多语注意力机制模块，用于利用同一事件在多种不同语言中的一致性表示，基于多语注意力模型获取多语互补性信息。

非线性联合推理模块，用于对所述多语一致性信息和所述多语互补性信息进行联合推理，通过非线性神经网络判别模型输出最终的识别结果。

本发明实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于多语注意力机制的事件识别及分类方法。

本发明实施例的一种处理装置，包括处理器、存储设备；处理器，适于执行各条程序；存储设备，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于多语注意力机制的事件识别及分类方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的基于多语注意力机制的事件识别及分类装置、存储装置、处理装置有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

需要说明的是，本实施例的处理对象为英文事件描述，图3中的英文、拼音词句为本实施例相应步骤得处理对象或处理结果。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多语注意力机制的事件识别及分类方法，其特征在于，包括：

步骤1，将仅标注单语事件信息的数据映射为多语平行数据；

其中，

2.根据权利要求1所述的基于多语注意力机制的事件识别及分类方法，其特征在于，所述单语注意力模型，该模型的建模公式为

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

3.根据权利要求2所述的基于多语注意力机制的事件识别及分类方法，其特征在于，所述单语注意力模型中，其单语注意力权重为词汇重要性，句子不同部分的权重a_i的计算方法为

4.根据权利要求3所述的基于多语注意力机制的事件识别及分类方法，其特征在于，通过所述单语注意力模型输出的句子表示为不同部分的带权重加和R_src，

5.根据权利要求4所述的基于多语注意力机制的事件识别及分类方法，其特征在于，所述多语注意力模型中多语注意力权重为不同语言的置信度，目标语言的置信度G_cl计算方法为

G_cl＝σ(W_cl[R_src；R_tgt]+b_cl)

其中，W_cl为权重矩阵，R_tgt为为目标语的句子表示向量，b_cl为偏置项。

6.根据权利要求5所述的基于多语注意力机制的事件识别及分类方法，其特征在于，所述多语注意力模型输出的多语的信息融合表示为R_integrated，

R_integrated＝(G_i·R_tgt)+(1+G_i)·R_src

其中，G_i为多语置信度表示向量。

7.根据权利要求5所述的基于多语注意力机制的事件识别及分类方法，其特征在于，步骤5中所述“进行联合推理”，其方法为

O＝softmax(tanh(W_cls[c_src；c_tgt；R_integrated]+b_cls))

8.根据权利要求1-7任一项所述的基于多语注意力机制的事件识别及分类方法，其特征在于，步骤1中，采用自然语言处理中的机器翻译技术将仅标注单语事件信息的数据映射为多语平行数据。

9.据权利要求1-7任一项所述的基于多语注意力机制的事件识别及分类方法，其特征在于，步骤2中，利用自然语言处理工具GIZA++学习多语的词对齐信息，将所述多语平行数据进行词汇级别对齐。

10.据权利要求9所述的基于多语注意力机制的事件识别及分类方法，其特征在于，所述“利用自然语言处理工具GIZA++学习多语的词对齐信息，将所述多语平行数据进行词汇级别对齐”，其方法为：

11.一种基于多语注意力机制的事件识别及分类装置，其特征在于，包括：

其中，

12.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-10任一项所述的基于多语注意力机制的事件识别及分类方法。

13.一种处理装置，包括

处理器，适于执行各条程序；以及

存储设备，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-10任一项所述的基于多语注意力机制的事件识别及分类方法。