CN112307740A - 一种基于混合注意力网络的事件检测方法及装置 - Google Patents

一种基于混合注意力网络的事件检测方法及装置 Download PDF

Info

Publication number
CN112307740A
CN112307740A CN202011600231.8A CN202011600231A CN112307740A CN 112307740 A CN112307740 A CN 112307740A CN 202011600231 A CN202011600231 A CN 202011600231A CN 112307740 A CN112307740 A CN 112307740A
Authority
CN
China
Prior art keywords
vector
language
text
attention
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011600231.8A
Other languages
English (en)
Other versions
CN112307740B (zh
Inventor
谭真
黄培馨
赵翔
方阳
徐浩
唐九阳
肖卫东
张鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202011600231.8A priority Critical patent/CN112307740B/zh
Publication of CN112307740A publication Critical patent/CN112307740A/zh
Application granted granted Critical
Publication of CN112307740B publication Critical patent/CN112307740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明一种基于混合注意力网络的事件检测方法及装置,所述方法包括:构建混合注意力网络模型,包括多语言表示层、混合注意力层和分类层;在所述的多语言表示层进行源文本的翻译以及多种语言的目标文本的获取,并且进行了文本的对齐,将多种语言的目标文本转化为句子序列的向量表示;混合注意力层,同时对多种语言的文本并行进行上下文注意力的学习,通过多语言注意力机制进行跨源语言和多种目标语言的信息融合;在分类层进行事件类型的预测分类。

Description

一种基于混合注意力网络的事件检测方法及装置
技术领域
本发明涉及自然语言处理中的事件检测技术领域,尤其涉及一种基于混合注意力网络的事件检测方法及装置。
背景技术
事件检测任务就是从纯文本中识别出具有特定类型的事件实例。具体而言,给定一个输入文本,事件检测任务需要确定这个文本中包含的触发词以及触发词所描述的事件类型,它包含事件触发词识别和事件触发词分类两个子任务。举例来说,给定一个纯文本:Three elephants were shot dead。事件检测可以自动从文本中识别出触发词 “shot” 以及其触发的事件子类型 Attack (类型 Conflict)和触发词 “dead” 以及其触发的事件子类型 Die(类型 Life)。
尽管当前事件检测问题的研究已经取得了比较大的进展,但是仍然存在两个问题会严重限制当前方法的性能。一是由于数据稀疏而导致的低召回率问题。在训练数据有限的情况下,有些事件类型的训练样例会尤其少,从这些极少的训练样例中学习出来的模型,要从某一事件类型的不同表达形式中识别出正确的事件类型是十分具有挑战性的。二是由于自然语言的歧义性而导致的低精确率。自然语言中存在着多义现象,很多事件触发词也是多义词。
模型 GMLATT 引入了一种门控双语言的框架,这个模型综合运用原本语言(源语言,source language)文本的信息和翻译过后的一种译文(目标语言, target language)文本的信息,捕获它们之间的一致性部分来缓解数据稀疏,并且利用两种语言的互补信息消除自然语言的歧义性。
然而,在目前已有的事件检测工作中,还没有模型能够充分利用来自更多种语言的补充信息。并且,由于模型设计的限制,GMLATT模型只能够融合源语言和一种翻译过后的目标语言信息。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了一种基于混合注意力网络的事件检测方法及装置。所述方法提出了一种混合注意力网络(hybrid attention network,HAN),同时处理源语言和多种目标语言的文本。其中,注意力模块首先分别关注每一种语言文本之中的重要分词(如触发词或者对识别触发词有益的分词),并且给予它们较高的注意力;然后注意力模块进行跨语言的注意力计算,分别给予不同语言的文本不同的注意力,使得不同目标语言中的无歧义的信息能够以监督的方式传递到源语言文本,缓解源语言文本中的歧义。
一种基于混合注意力网络的事件检测方法,所述方法包括:
步骤1,构建混合注意力网络模型,包括多语言表示层、混合注意力层和分类层;
步骤2,在所述的多语言表示层进行源文本的翻译以及多种语言的目标文本的获取,并且进行了文本的对齐,将多种语言的文本转化为句子序列的向量表示;
步骤3,在所述的混合注意力层,同时对多种语言的文本并行进行上下文注意力的学习,通过多语言注意力机制进行跨源语言和多种目标语言的信息融合;步骤4,将事件检测任务形式化为一个多类型分类问题,在分类层进行事件类型的预测分类。
具体地,所述的多语言表示层输入的文本是单词序列文本,处理过程包括以下步骤:
使用Google Translate来处理每一条输入的源语言文本,获得多种语言的并行目标语言文本;
利用对齐工具 Giza++ 2来进行多种语言文本的对齐;
在进行句子表示时,将每个输入分词
Figure 481061DEST_PATH_IMAGE001
转化为一个实值向量
Figure 798910DEST_PATH_IMAGE002
,这个向量包括以下三种特征表示的联结:1)词向量:词向量能够捕获文本中单词的语义信息,通常被用作各种任务的基本向量;2)实体类型向量:使用标注好的实体信息作为额外特征,随机初始化每个实体类型的向量并且在训练过程中不断更新,不同的语言共享实体向量表;3)位置向量:位置向量表示了上下文分词
Figure 642101DEST_PATH_IMAGE001
和当前分词
Figure 96216DEST_PATH_IMAGE003
之间的相对距离
Figure 999450DEST_PATH_IMAGE004
,它通过查找一个随机初始化的位置向量表获得;由此,输入的文本被转化为一个向量序列
Figure 539016DEST_PATH_IMAGE005
,其中,每一个向量都是上述三种特征向量的联结;
采用双向门控循环单元分别用两个GRU层在前向和后向处理向量序列,前向GRU层的隐层向量
Figure 920318DEST_PATH_IMAGE006
编码从
Figure 228940DEST_PATH_IMAGE007
Figure 303075DEST_PATH_IMAGE008
的序列;相似地,反向GRU层的隐层向量
Figure 64358DEST_PATH_IMAGE009
编码从
Figure 514931DEST_PATH_IMAGE008
Figure 678059DEST_PATH_IMAGE010
的序列;然后前向隐层向量
Figure 595199DEST_PATH_IMAGE011
和反向隐层向量
Figure 233991DEST_PATH_IMAGE012
被联结以组成
Figure 98042DEST_PATH_IMAGE013
的向量表示,即
Figure 237380DEST_PATH_IMAGE014
最后,输入序列的双向门控循环单元表示将作为整个句子的表示向量,源语言文本的向量表示为
Figure 794264DEST_PATH_IMAGE015
,第
Figure 654772DEST_PATH_IMAGE016
个目标语言文本的向量表示为
Figure 56935DEST_PATH_IMAGE017
,其中,
Figure 319289DEST_PATH_IMAGE018
Figure 47073DEST_PATH_IMAGE019
分别是文本的句长。
具体地,所述的混合注意力层,顺序进行上下文注意力机制和多语言注意力机制来捕获多语言线索。
具体地,所述的上下文注意力机制的目的是生成上下文向量,挖掘不同种语言的上下文提供的一致性信息,所述的上下文注意力机制会在每种语言上分别进行;给定源语言文本的表示
Figure 129299DEST_PATH_IMAGE015
,上下文注意力机制会计算一个上下文表示向量
Figure 600732DEST_PATH_IMAGE020
,用于表示源语言文本上下文的综合信息,即:
Figure 717592DEST_PATH_IMAGE021
(1)
Figure 350699DEST_PATH_IMAGE022
(2)
Figure 920220DEST_PATH_IMAGE023
, (3)
其中,
Figure 195344DEST_PATH_IMAGE024
是权重矩阵,
Figure 901132DEST_PATH_IMAGE025
是偏置项,
Figure 970719DEST_PATH_IMAGE026
是源语言候选触发词表示
Figure 27537DEST_PATH_IMAGE027
和第
Figure 840772DEST_PATH_IMAGE028
个分词的表示
Figure 935154DEST_PATH_IMAGE029
之间的相关性分数,
Figure 910064DEST_PATH_IMAGE030
是第
Figure 719757DEST_PATH_IMAGE028
个分词关于候选触发词的注意力权重;
对于并行的目标语言文本,找出源语言候选触发词在其中的对应分词,并且进行和源语言相似的步骤获得上下文表示
Figure 867841DEST_PATH_IMAGE031
,这个表示表达了第
Figure 689167DEST_PATH_IMAGE016
个目标语言文本的综合信息;
所述的多语言注意力机制用于捕获源语言和多种目标语言之间,以及目标语言与目标语言之间的互补线索,并且控制互补线索向源语言文本的信息传递以辅助源语言中事件的识别,给定源语言文本的上下文表示
Figure 959611DEST_PATH_IMAGE020
和一个多种翻译过后的目标语言的表示集合
Figure 866387DEST_PATH_IMAGE032
,其中
Figure 146059DEST_PATH_IMAGE033
是目标语言的数量,多语言注意力将会通过卷积和池化操作来计算一个多语言的表示
Figure 821891DEST_PATH_IMAGE034
更进一步地,在所述的多语言注意力机制中设计了一个带有卷积滤波器和最大池化层的CNN框架以集成来自于源语言和一系列目标语言文本的互补信息,使用不同宽度的多个卷积滤波器来捕获语义流,具体来说,采用宽度为2和3的多个卷积滤波器对源句和目标句序列中的二元和三元语法语义进行编码,将卷积滤波器的输出输入到一个最大池化层,最终获得了两个固定长度的输出
Figure 528816DEST_PATH_IMAGE035
Figure 657309DEST_PATH_IMAGE036
在分类层进行事件类型的预测分类时,采用一个softmax分类器来识别候选触发词,并且使用
Figure 475092DEST_PATH_IMAGE020
Figure 271010DEST_PATH_IMAGE037
Figure 148836DEST_PATH_IMAGE035
Figure 764625DEST_PATH_IMAGE036
的联结作为分类器的输入:
Figure 386099DEST_PATH_IMAGE038
(4)
其中,
Figure 36523DEST_PATH_IMAGE039
是权重矩阵,
Figure 82321DEST_PATH_IMAGE040
是偏置项,
给定表示各种事件类型预测概率的实值向量
Figure 450985DEST_PATH_IMAGE041
,候选触发词
Figure 610571DEST_PATH_IMAGE042
属于事件类型
Figure 912240DEST_PATH_IMAGE043
的概率为:
Figure 7235DEST_PATH_IMAGE044
(5)
其中,
Figure 722250DEST_PATH_IMAGE045
表示参数集合,
Figure 295314DEST_PATH_IMAGE046
是向量
Figure 44964DEST_PATH_IMAGE041
的第
Figure 576439DEST_PATH_IMAGE047
个元素。
优选地,所述的混合注意力网络模型训练时,将训练数据中的分词集合表示为
Figure 513171DEST_PATH_IMAGE048
,对应的真实的事件类型集合为
Figure 889926DEST_PATH_IMAGE049
,其中
Figure 759662DEST_PATH_IMAGE050
表示所有分词的数量,最小化多类型交叉熵损失来训练混合注意力网络模型 :
Figure 524356DEST_PATH_IMAGE051
(6)
其中,
Figure 886067DEST_PATH_IMAGE052
是正则化参数。
优选地,在训练时,使用随机梯度下降进行训练,并且添加了dropout 层用于正则化,采用负采样来准备训练数据,将无类型事件与有类型事件的比例设置为200:1,通过从训练集中随机选择小批次来迭代训练过程直至收敛。
一种基于混合注意力网络的事件抽取装置,包括:
处理器;
以及,存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行可执行指令来执行上述的事件检测方法。
与现有方法相比,本发明方法的优点在于:设计实现了一个混合注意力网络 HAN来提高事件检测任务的效果。HAN 是事件检测的神经网络模型中第一个充分利用多种语言的额外信息的模型。设计了一个混合注意力模块,包含一个上下文注意力模块用于捕获多种语言文本中的上下文信息,以及一个多语言注意力模块能够集成多种语言之间的互补信息,以此利用多种语言的线索来缓解数据稀疏和自然语言歧义等问题。
附图说明
图1示出了本发明实施例的流程示意图;
图2示出了本发明实施例中混合注意力网络的框架示意图;
图3示出了宽度为3的卷积滤波器的CNN。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
如图1所示,一种基于混合注意力网络的事件检测方法,所述方法包括:
步骤1,构建混合注意力网络模型,包括多语言表示层、混合注意力层和分类层;如图2所示;
步骤2,在所述的多语言表示层进行源文本的翻译以及多种语言的目标文本的获取,并且进行了文本的对齐,将多种语言的目标文本转化为句子序列的向量表示;
步骤3,在所述的混合注意力层,同时对多种语言的文本并行进行上下文注意力的学习,通过多语言注意力机制进行跨源语言和多种目标语言的信息融合;
步骤4,在分类层进行事件类型的预测分类。
下面将详细地对整个模型进行介绍
多语言表示层:
由于输入本文是单语序列文本,本实施例首先使用Google Translate来处理每一条输入的源语言文本,获得多种语言的并行目标语言文本。
然后,利用对齐工具Giza++来进行多种语言文本的对齐。由于文本的对齐是单向的(从源语言对齐到目标语言或者从目标语言对齐至源语言),因此使用“grow-diag-final-and”算法来组合对齐结果。
接着,在进行句子表示时,将每个输入分词
Figure 66512DEST_PATH_IMAGE001
转化为一个实值向量
Figure 790755DEST_PATH_IMAGE053
,这个向量是以下三种特征表示的联结:1)词向量:词向量能够捕获文本中单词的语义信息,通常被用作各种任务的基本向量。使用典型的Skip-Gram模型来预训练词向量;2)实体类型向量:使用标注好的实体信息作为额外特征,随机初始化每个实体类型的向量并且在训练过程中不断更新。不同的语言共享实体向量表;3)位置向量:位置向量表示了上下文分词
Figure 398454DEST_PATH_IMAGE001
和当前分词
Figure 312707DEST_PATH_IMAGE054
之间的相对距离
Figure 296844DEST_PATH_IMAGE055
,它通过查找一个随机初始化的位置向量表获得。由此,输入文本被转化为一个向量序列
Figure 610014DEST_PATH_IMAGE056
,其中,每一个向量都是上述三种特征向量的联结。
然后,采用双向门控循环单元 (Bidirectional Gated Recurrent Units ,BIGRU)分别用两个GRU层在前向和后向处理向量序列。前向GRU层的隐层向量
Figure 982089DEST_PATH_IMAGE057
编码从
Figure 256076DEST_PATH_IMAGE010
Figure 902958DEST_PATH_IMAGE008
的序列;相似地,反向GRU层的隐层向量
Figure 211579DEST_PATH_IMAGE058
编码从
Figure 957818DEST_PATH_IMAGE008
Figure 109314DEST_PATH_IMAGE059
的序列。然后前向隐层向量
Figure 169674DEST_PATH_IMAGE060
和反向隐层向量
Figure 723015DEST_PATH_IMAGE061
被联结以组成
Figure 843418DEST_PATH_IMAGE053
的向量表示,即
Figure 216630DEST_PATH_IMAGE062
。最后,输入序列的BiGRU表示将作为整个句子的表示向量。源语言文本的向量表示为
Figure 80681DEST_PATH_IMAGE015
,第
Figure 222949DEST_PATH_IMAGE016
个目标语言文本的向量表示为
Figure 514253DEST_PATH_IMAGE017
,其中,
Figure 395270DEST_PATH_IMAGE018
Figure 63012DEST_PATH_IMAGE019
分别是文本的句长。
混合注意力层
然后,HAN 顺序进行上下文和多语言注意力机制来捕获多语言线索。本实施例将介绍这两种注意力机制。
上下文注意力机制:上下文注意力的目的是生成上下文向量,挖掘不同种语言的上下文提供的一致性信息,以缓解数据稀疏问题。上下文注意力机制会在每种语言上分别进行。
给定源语言文本的表示
Figure 325366DEST_PATH_IMAGE015
,上下文注意力机制会计算一个上下文表示向量
Figure 787571DEST_PATH_IMAGE020
,用于表示源语言文本上下文的综合信息,即:
Figure 135376DEST_PATH_IMAGE021
(1)
Figure 403546DEST_PATH_IMAGE022
(2)
Figure 395773DEST_PATH_IMAGE023
, (3)
其中,
Figure 153513DEST_PATH_IMAGE024
是权重矩阵,
Figure 863980DEST_PATH_IMAGE025
是偏置项,
Figure 998158DEST_PATH_IMAGE026
是源语言候选触发词表示
Figure 844892DEST_PATH_IMAGE027
和第
Figure 39113DEST_PATH_IMAGE028
个分词的表示
Figure 971297DEST_PATH_IMAGE029
之间的相关性分数,
Figure 643586DEST_PATH_IMAGE030
是第
Figure 344826DEST_PATH_IMAGE028
个分词关于候选触发词的注意力权重。
对于并行的目标语言文本,找出源语言候选触发词在其中的对应分词,并且进行和源语言相似的步骤获得上下文表示
Figure 709948DEST_PATH_IMAGE063
,这个表示表达了第
Figure 129428DEST_PATH_IMAGE016
个目标语言文本的综合信息。
多语言注意力机制:多语言注意力用于捕获多种目标语言之间的互补线索并且控制从多种目标语言文本到源语言文本的信息传递。给定源语言文本的上下文表示
Figure 608339DEST_PATH_IMAGE020
和一个多种翻译过后的目标语言的表示集合
Figure 429664DEST_PATH_IMAGE032
,其中
Figure 965688DEST_PATH_IMAGE064
是目标语言的数量,多语言注意力将会通过卷积和池化操作来计算一个多语言的表示
Figure 872464DEST_PATH_IMAGE034
多语言注意力的计算假设源语言和目标语言的表示之间有多语言的互补关系。由于CNN擅长于从一系列对象中捕捉显著特征,故设计了一个带有卷积滤波器和最大池化层的CNN框架以集成来自于源语言和一系列目标语言文本的互补信息。
使用不同宽度的多个卷积滤波器来捕获语义流。具体来说,采用宽度为2和3的多个卷积滤波器对源句和目标句序列中的二元和三元语法语义进行编码。图3展示了有宽度为3的卷积滤波器的CNN,其中一个卷积滤波器是一系列参数共享的线性层。将卷积滤波器的输出输入到一个最大池化层,最终获得了两个固定长度的输出
Figure 152136DEST_PATH_IMAGE035
Figure 827968DEST_PATH_IMAGE036
。需要注意的是,这种卷积操作可以看作是为不同种语言的句子分配权重的注意力机制,其操作简单,可以直接集成到现有的框架中,在不会引入过多参数的情况下有效提升多语言的信息集成。
预测
在进行事件类型预测时,把事件检测任务形式化为一个多类型分类问题。我们采用一个softmax分类器来识别候选触发词,并且使用
Figure 534892DEST_PATH_IMAGE020
Figure 928965DEST_PATH_IMAGE037
Figure 746748DEST_PATH_IMAGE035
Figure 542666DEST_PATH_IMAGE036
的联结作为分类器的输入:
Figure 154913DEST_PATH_IMAGE038
(4)
其中,
Figure 36281DEST_PATH_IMAGE039
是权重矩阵,
Figure 657755DEST_PATH_IMAGE040
是偏置项。
给定表示各种事件类型预测概率的实值向量
Figure 104917DEST_PATH_IMAGE041
,候选触发词
Figure 29011DEST_PATH_IMAGE042
属于事件类型
Figure 256730DEST_PATH_IMAGE043
的概率为:
Figure 26103DEST_PATH_IMAGE044
(5)
其中,
Figure 183896DEST_PATH_IMAGE045
表示参数集合,
Figure 13312DEST_PATH_IMAGE046
是向量
Figure 728327DEST_PATH_IMAGE041
的第
Figure 566970DEST_PATH_IMAGE047
个元素。
训练
将训练数据中的分词集合表示为
Figure 316620DEST_PATH_IMAGE048
,对应的真实的事件类型集合为
Figure 582516DEST_PATH_IMAGE065
,其中
Figure 784827DEST_PATH_IMAGE066
表示所有分词的数量。通过最小化多类型交叉熵损失来训练HAN:
Figure 161582DEST_PATH_IMAGE051
(6)
其中,
Figure 765739DEST_PATH_IMAGE052
是正则化参数。
在训练时,使用随机梯度下降进行训练,并且添加了dropout 层用于正则化。为了解决数据不平衡问题,采用负采样来准备训练数据,将无类型事件与有类型事件的比例设置为200:1。通过从训练集中随机选择小批次来迭代训练过程直至收敛。
实施例二
本发明还公开了一种电子设备,包括:
处理器;
以及,存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述的事件抽取方法。
为了评估HAN 利用多语言线索提升事件检测的效果上的有效性,实施例中使用英语作为源语言,并且在两个基准数据集,ACE2005和 TAC KBP 2015事件块检测评估数据集(KBPEval2015)上进行实验。对于ACE2005 数据集,使用和之前实验相同的实验设置,即其中的529/30/40个文档被用作训练集/开发集/测试集。对于 KBPEval2015数据集,我们在提供的评估数据集(LDC2015R26)上测试模型,使用先前的RichERE标注数据集(LDC2015E73)作为训练集,除了保留为开发集的30个随机采样的30个文档之外。
评估使用任务的官方评估标准,即1)如果触发词的偏移量与参照触发词的偏移量匹配,则触发词识别正确(触发词识别);2)如果一个触发词的事件类型和偏移量与参考触发词的事件类型和偏移量匹配,则触发词被正确的分类(触发词分类)。模型用微观平均的准确率(Precision,P),召回率(Recall,R)和F1值(F1)来进行评估。我们用一对双尾t检验来检测统计上的显著性提升,并且,在实验结果部分使用加粗字体来标记HAN 模型相对其他基准模型的显著提升(
Figure 202536DEST_PATH_IMAGE067
)。
对于HAN模型的参数,所有训练数据的迭代数设置为15,神经网络的dropout率设置为0.6,随机梯度下降的学习率初始化为0.001,mini-batch的大小设置为160,词向量、实体类型向量和位置向量的维度分别设置为200、50和5。
在两个基准数据集ACE2005 和KBPEval2015 上进行的综合性的实验证实了使用多语言线索的有效性。效果最好的HAN 结合中文和日语作为目标语言,综合了三种语言的文本的信息,效果优于目前最优的模型,在事件触发词识别任务上在两个基准数据集上分别获得1.9%和1.7%的指标提升,在事件触发词分类上在两个基准数据集上获得2.2%和1.8%的指标提升。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (6)

1.一种基于混合注意力网络的事件检测方法,其特征在于,所述方法包括:
步骤1,构建混合注意力网络模型,包括多语言表示层、混合注意力层和分类层;
步骤2,在所述的多语言表示层进行源文本的翻译以及多种语言的目标文本的获取,并且进行了文本的对齐,将多种语言的文本转化为句子序列的向量表示;
步骤3,在所述的混合注意力层,同时对多种语言的文本并行进行上下文注意力的学习,通过多语言注意力机制进行跨源语言和多种目标语言的信息融合;
步骤4,将事件检测任务形式化为一个多类型分类问题,在分类层进行事件类型的预测分类;
所述步骤2中多语言表示层输入的文本是单词序列文本,处理过程包括以下步骤:
使用Google Translate来处理每一条输入的源语言文本,获得多种语言的并行目标语言文本;
利用对齐工具 Giza++ 2来进行多种语言文本的对齐;
在进行句子表示时,将每个输入分词
Figure 527672DEST_PATH_IMAGE001
转化为一个实值向量
Figure 181507DEST_PATH_IMAGE002
,这个向量包括以下三种特征表示的联结:1)词向量:词向量能够捕获文本中单词的语义信息,通常被用作各种任务的基本向量;2)实体类型向量:使用标注好的实体信息作为额外特征,随机初始化每个实体类型的向量并且在训练过程中不断更新,不同的语言共享实体向量表;3)位置向量:位置向量表示了上下文分词
Figure 610214DEST_PATH_IMAGE001
和当前分词
Figure 809246DEST_PATH_IMAGE003
之间的相对距离
Figure 448037DEST_PATH_IMAGE004
,它通过查找一个随机初始化的位置向量表获得;由此,输入的文本被转化为一个向量序列
Figure 577667DEST_PATH_IMAGE005
,其中,每一个向量都是上述三种特征向量的联结;
采用双向门控循环单元分别用两个GRU层在前向和后向处理向量序列,前向GRU层的隐层向量
Figure 671001DEST_PATH_IMAGE006
编码从
Figure 352518DEST_PATH_IMAGE007
Figure 353972DEST_PATH_IMAGE008
的序列;相似地,反向GRU层的隐层向量
Figure 100342DEST_PATH_IMAGE009
编码从
Figure 362696DEST_PATH_IMAGE008
Figure 169109DEST_PATH_IMAGE010
的序列;然后前向隐层向量
Figure 657860DEST_PATH_IMAGE011
和反向隐层向量
Figure 191609DEST_PATH_IMAGE012
被联结以组成
Figure 59202DEST_PATH_IMAGE013
的向量表示,即
Figure 223467DEST_PATH_IMAGE014
最后,输入序列的双向门控循环单元表示将作为整个句子的表示向量,源语言文本的向量表示为
Figure 996251DEST_PATH_IMAGE015
,第
Figure 167249DEST_PATH_IMAGE016
个目标语言文本的向量表示为
Figure 279561DEST_PATH_IMAGE017
,其中,
Figure 411465DEST_PATH_IMAGE018
Figure 484595DEST_PATH_IMAGE019
分别是文本的句长;
所述步骤3中混合注意力层,顺序进行上下文注意力机制和多语言注意力机制来捕获多语言线索;
所述的上下文注意力机制的目的是生成上下文向量,挖掘不同种语言的上下文提供的一致性信息,所述的上下文注意力机制会在每种语言上分别进行;给定源语言文本的表示
Figure 297830DEST_PATH_IMAGE015
,上下文注意力机制会计算一个上下文表示向量
Figure 389283DEST_PATH_IMAGE020
,用于表示源语言文本上下文的综合信息,即:
Figure 442820DEST_PATH_IMAGE021
(1)
Figure 127880DEST_PATH_IMAGE022
(2)
Figure 869440DEST_PATH_IMAGE023
, (3)
其中,
Figure 769394DEST_PATH_IMAGE024
是权重矩阵,
Figure 180783DEST_PATH_IMAGE025
是偏置项,
Figure 477773DEST_PATH_IMAGE026
是源语言候选触发词表示
Figure 367231DEST_PATH_IMAGE027
和第
Figure 384341DEST_PATH_IMAGE028
个分词的表示
Figure 91266DEST_PATH_IMAGE029
之间的相关性分数,
Figure 485338DEST_PATH_IMAGE030
是第
Figure 257116DEST_PATH_IMAGE028
个分词关于候选触发词的注意力权重;
对于并行的目标语言文本,找出源语言候选触发词在其中的对应分词,并且进行和源语言相似的步骤获得上下文表示
Figure 177668DEST_PATH_IMAGE031
,这个表示表达了第
Figure 196439DEST_PATH_IMAGE016
个目标语言文本的综合信息;
所述的多语言注意力机制用于捕获源语言和多种目标语言之间,以及目标语言与目标语言之间的互补线索,并且控制互补线索向源语言文本的信息传递以辅助源语言中事件的识别,给定源语言文本的上下文表示
Figure 953174DEST_PATH_IMAGE020
和一个多种翻译过后的目标语言的表示集合
Figure 512331DEST_PATH_IMAGE032
,其中
Figure 162755DEST_PATH_IMAGE033
是目标语言的数量,多语言注意力将会通过卷积和池化操作来计算一个多语言的表示
Figure 227795DEST_PATH_IMAGE034
2.根据权利要求1所述的事件检测方法,其特征在于,在所述的多语言注意力机制中设计了一个带有卷积滤波器和最大池化层的CNN框架以集成来自于源语言和一系列目标语言文本的互补信息,使用不同宽度的多个卷积滤波器来捕获语义流,具体来说,采用宽度为2和3的多个卷积滤波器对源句和目标句序列中的二元和三元语法语义进行编码,将卷积滤波器的输出输入到一个最大池化层,最终获得了两个固定长度的输出
Figure 924355DEST_PATH_IMAGE035
Figure 959307DEST_PATH_IMAGE036
3.根据权利要求2所述的事件检测方法,其特征在于,在分类层进行事件类型的预测分类时,采用一个softmax分类器来识别候选触发词,并且使用
Figure 602254DEST_PATH_IMAGE020
Figure 697249DEST_PATH_IMAGE037
Figure 881105DEST_PATH_IMAGE035
Figure 595114DEST_PATH_IMAGE036
的联结作为分类器的输入:
Figure 548027DEST_PATH_IMAGE038
(4)
其中,
Figure 813923DEST_PATH_IMAGE039
是权重矩阵,
Figure 32546DEST_PATH_IMAGE040
是偏置项,
给定表示各种事件类型预测概率的实值向量
Figure 2776DEST_PATH_IMAGE041
,候选触发词
Figure 482299DEST_PATH_IMAGE042
属于事件类型
Figure 60042DEST_PATH_IMAGE043
的概率为:
Figure 952912DEST_PATH_IMAGE044
(5)
其中,
Figure 867778DEST_PATH_IMAGE045
表示参数集合,
Figure 605402DEST_PATH_IMAGE046
是向量
Figure 213101DEST_PATH_IMAGE041
的第
Figure 593267DEST_PATH_IMAGE047
个元素。
4.根据权利要求3所述的事件检测方法,其特征在于,所述的混合注意力网络模型训练时,将训练数据中的分词集合表示为
Figure 452770DEST_PATH_IMAGE048
,对应的真实的事件类型集合为
Figure 234781DEST_PATH_IMAGE049
,其中
Figure 13381DEST_PATH_IMAGE050
表示所有分词的数量,最小化多类型交叉熵损失来训练混合注意力网络模型 :
Figure 428313DEST_PATH_IMAGE051
(6)
其中,
Figure 216141DEST_PATH_IMAGE052
是正则化参数。
5.根据权利要求4所述的事件检测方法,其特征在于,在训练时,使用随机梯度下降进行训练,并且添加了dropout层用于正则化,采用负采样来准备训练数据,将无类型事件与有类型事件的比例设置为200:1,通过从训练集中随机选择小批次来迭代训练过程直至收敛。
6.一种基于混合注意力网络的事件抽取装置,其特征在于,包括:
处理器;
以及,存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行权利要求1至5任一所述可执行指令来执行基于混合注意力网络的事件检测方法。
CN202011600231.8A 2020-12-30 2020-12-30 一种基于混合注意力网络的事件检测方法及装置 Active CN112307740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011600231.8A CN112307740B (zh) 2020-12-30 2020-12-30 一种基于混合注意力网络的事件检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011600231.8A CN112307740B (zh) 2020-12-30 2020-12-30 一种基于混合注意力网络的事件检测方法及装置

Publications (2)

Publication Number Publication Date
CN112307740A true CN112307740A (zh) 2021-02-02
CN112307740B CN112307740B (zh) 2021-03-26

Family

ID=74487675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011600231.8A Active CN112307740B (zh) 2020-12-30 2020-12-30 一种基于混合注意力网络的事件检测方法及装置

Country Status (1)

Country Link
CN (1) CN112307740B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312500A (zh) * 2021-06-24 2021-08-27 河海大学 一种面向大坝安全运行的事件图谱构建方法
CN113343799A (zh) * 2021-05-25 2021-09-03 山东师范大学 基于混合注意力残差网络实现白细胞自动分类方法及系统
CN113420117A (zh) * 2021-06-23 2021-09-21 北京交通大学 一种基于多元特征融合的突发事件分类方法
CN114239566A (zh) * 2021-12-14 2022-03-25 公安部第三研究所 基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质
CN116701576A (zh) * 2023-08-04 2023-09-05 华东交通大学 无触发词的事件检测方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354858A1 (en) * 2018-05-18 2019-11-21 Mike Chrzanowski Neural Networks with Relational Memory
CN111814036A (zh) * 2019-12-10 2020-10-23 北京嘀嘀无限科技发展有限公司 基于搜索引擎的无线热点与兴趣点匹配方法、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354858A1 (en) * 2018-05-18 2019-11-21 Mike Chrzanowski Neural Networks with Relational Memory
CN111814036A (zh) * 2019-12-10 2020-10-23 北京嘀嘀无限科技发展有限公司 基于搜索引擎的无线热点与兴趣点匹配方法、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAN LIU等: "Event Detection via Gated Multilingual Attention Mechanism", 《THE THIRTY-SECOND AAAI CONGERENCE ON ARTIFICIAL INTELLIGENCE》 *
RUIGANG NIU: "Hybrid Multiple Attention Network for Semantic Segmentation in Aerial Images", 《ARXIV.ORG》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343799A (zh) * 2021-05-25 2021-09-03 山东师范大学 基于混合注意力残差网络实现白细胞自动分类方法及系统
CN113420117A (zh) * 2021-06-23 2021-09-21 北京交通大学 一种基于多元特征融合的突发事件分类方法
CN113420117B (zh) * 2021-06-23 2023-10-20 北京交通大学 一种基于多元特征融合的突发事件分类方法
CN113312500A (zh) * 2021-06-24 2021-08-27 河海大学 一种面向大坝安全运行的事件图谱构建方法
CN114239566A (zh) * 2021-12-14 2022-03-25 公安部第三研究所 基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质
CN114239566B (zh) * 2021-12-14 2024-04-23 公安部第三研究所 基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质
CN116701576A (zh) * 2023-08-04 2023-09-05 华东交通大学 无触发词的事件检测方法和系统
CN116701576B (zh) * 2023-08-04 2023-10-10 华东交通大学 无触发词的事件检测方法和系统

Also Published As

Publication number Publication date
CN112307740B (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112307740B (zh) 一种基于混合注意力网络的事件检测方法及装置
Mathur et al. Detecting offensive tweets in hindi-english code-switched language
JP7193252B2 (ja) 画像の領域のキャプション付加
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
Shen et al. Attention-based convolutional neural network for semantic relation extraction
Nguyen et al. Relation extraction: Perspective from convolutional neural networks
WO2019136993A1 (zh) 文本相似度计算方法、装置、计算机设备和存储介质
US20190188257A1 (en) Context analysis apparatus and computer program therefor
CN108804423B (zh) 医疗文本特征提取与自动匹配方法和系统
CN111914097A (zh) 基于注意力机制和多层级特征融合的实体抽取方法与装置
CN111709243A (zh) 一种基于深度学习的知识抽取方法与装置
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
CN110427619B (zh) 一种基于多通道融合与重排序的中文文本自动校对方法
Peng et al. Pagenet: Towards end-to-end weakly supervised page-level handwritten chinese text recognition
CN113901802A (zh) Crnn网络融合注意力机制的短文本相似度匹配方法
Peng et al. Image to LaTeX with graph neural network for mathematical formula recognition
Wu et al. TDv2: a novel tree-structured decoder for offline mathematical expression recognition
Ambili et al. Siamese Neural Network Model for Recognizing Optically Processed Devanagari Hindi Script
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
Aladhadh et al. Recurrent Convolutional Neural Network MSER-Based Approach for Payable Document Processing.
Bhargava et al. Deep paraphrase detection in indian languages
Li et al. LiGCN: label-interpretable graph convolutional networks for multi-label text classification
Yasin et al. Transformer-Based Neural Machine Translation for Post-OCR Error Correction in Cursive Text
Benkov Neural Machine Translation as a Novel Approach to Machine Translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant