CN108345583A - 基于多语注意力机制的事件识别及分类方法及装置 - Google Patents
基于多语注意力机制的事件识别及分类方法及装置 Download PDFInfo
- Publication number
- CN108345583A CN108345583A CN201711463578.0A CN201711463578A CN108345583A CN 108345583 A CN108345583 A CN 108345583A CN 201711463578 A CN201711463578 A CN 201711463578A CN 108345583 A CN108345583 A CN 108345583A
- Authority
- CN
- China
- Prior art keywords
- lingual
- event
- language
- attention
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000000295 complement effect Effects 0.000 claims abstract description 22
- 238000003058 natural language processing Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 10
- 239000013604 expression vector Substances 0.000 claims description 6
- 238000000205 computational method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 11
- 238000012360 testing method Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理技术领域,具体涉及一种基于多语注意力机制的事件识别及分类方法及装置,旨在为了解决单语特征识别效果不能满足需求的问题,本发明的方法包括:将仅标注单语事件信息的数据映射为多语平行数据;将所述多语平行数据进行词汇级别对齐,通过多语对齐关系得到同一事件在多种不同语言中的一致性表示;基于单语注意力模型获取多语一致性信息;基于多语注意力模型获取多语互补性信息;基于所述多语一致性信息和所述多语互补性信息进行联合推理,通过非线性神经网络判别模型输出最终的识别结果。本发明可以提高事件的识别效果。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于多语注意力机制的事件识别及分类方法及装置。
背景技术
随着互联网的大规模发展,信息的获取变得越来越容易,人们几乎无时无刻都会接触涉及各个领域的海量信息,比如体育、娱乐、军事等等领域的新闻。然而这些信息一般都是无序、杂乱、非结构的,并且存在一定程度的信息冗余。如何在计算机的辅助下,从海量信息中发现感兴趣的事件是亟需解决的问题。事件识别(Event Identification)技术正是解决这一问题的有力手段。事件识别是事件抽取(Event Extraction)的一个独立的子任务,主要研究如何从含有事件信息的非结构化文本中识别出用户感兴趣的事件及其类型。
一个事件由一个触发词(trigger)、一种事件类型(event type)和若干事件的参与者及其角色(arguments and roles)组成,其中事件的触发词是文本中最能指示事件发生的词。事件抽取的目标是如何从描述事件的自然语言文本中抽取事件的上述各个成分,并以结构化的形式展现出来。例如,对于文本“He died in hospital.”,一个理想的事件抽取结果如表1所示。
表1:事件抽取示例
事件识别和事件抽取的不同之处在于,其只关注事件触发词和事件类型的识别,并不关注事件参与者及其角色。例如,对于上面的例子,事件识别的任务是识别出该句子描述了一个事件,该事件的触发词是“died”,事件类型是Die。
ACE(Automatic Context Extraction)评测比赛推动了这个领域的发展。该评测预定义了8大类、33小类的事件,每个类型的事件都有若干标注的实例。目前的主流技术是将事件识别转化为词分类的问题,然后利用句法分析器等工具抽取候选词附近的信息构建特征向量,最后利用基于特征的分类器进行分类。图1展示了现有方法的基本流程,分为训练和测试两个阶段。训练阶段,对标注数据中的每个事件触发词,利用自然语言处理工具提取潜在有用的信息(词形,词性等),为该实例构建特征向量;将该特征向量和其事件类别对应起来,作为一个标注数据实例。最后利用所有的标注数据实例训练分类模型,得到可用的分类器。测试阶段,该方法将测试文本中的每个词视为一个候选事件触发词,针对每个触发词提取特征构建特征向量,最后用训练好的分类器进行分类,分类器给出的类标就是识别结果。但是,目前传统技术几乎只考虑了单语特征,忽略了多语数据中蕴含的潜在信息,而多语信息对事件识别和类型消歧来说至关重要。
发明内容
为了解决现有技术中的上述问题,即为了解决单语特征识别效果不能满足需求的问题,本发明一方面提出了一种基于多语注意力机制的事件识别及分类方法,包括:
步骤1,将仅标注单语事件信息的数据映射为多语平行数据;
步骤2,将所述多语平行数据进行词汇级别对齐,通过多语对齐关系得到同一事件在多种不同语言中的一致性表示;
步骤3,利用步骤2得到同一事件在多种不同语言中的一致性表示,基于单语注意力模型获取多语一致性信息;
步骤4,利用步骤2得到同一事件在多种不同语言中的一致性表示,基于多语注意力模型获取多语互补性信息;
步骤5,基于所述多语一致性信息和所述多语互补性信息进行联合推理,通过非线性神经网络判别模型输出最终的识别结果;
其中,
所述单语注意力模型为用于学习同一事件在不同语言中的一致性表示的带注意力机制的神经网络模型;
所述多语注意力模型为用于学习事件在不同语言中的不同表示的带注意力机制的神经网络模型。
进一步地,所述单语注意力模型,该模型的建模公式为
zt=σ(Wzxt+Uzht-1+bz)
rt=σ(Wrxt+Urht-1+br)
其中,zt、rt、分别为输入门、输出门和记忆单元;W,U,b是对应项的权值矩阵,σ(x)=1/(1+exp(-x)),xt为第t时刻的输入表示向量。
进一步地,所述单语注意力模型中,其单语注意力权重为词汇重要性,句子不同部分的权重ai的计算方法为
其中, 为候选触发词的转置向量,WAtt_src为权重矩阵,w为缩放系数,si为第i个词语的表示向量,bAtt_src为偏置项,L为句子长度。
进一步地,通过所述单语注意力模型输出的句子表示为不同部分的带权重加和Rsrc,
进一步地,所述多语注意力模型中多语注意力权重为不同语言的置信度,目标语言的置信度Gcl计算方法为
Gcl=σ(Wcl[Rsrc;Rtgt]+bcl)
其中,Wcl为权重矩阵,Rtgt为目标语的句子表示向量,bcl为偏置项。
进一步地,所述多语注意力模型输出的多语的信息融合表示为Rintegrated,
Rintegrated=(Gi·Rtgt)+(1+Gi)·Rsrc
其中,Gi为多语置信度表示向量。
进一步地,步骤5中所述“进行联合推理”,其方法为
O=softmax(tanh(Wcls[csrc;ctgt;Rintegrated]+bcls))
其中,O为输入向量,Wcls为权重矩阵,csrc为源语触发词表示向量,ctgt为目标语触发词表示向量,bcls为偏置项。
进一步地,步骤1中,采用自然语言处理中的机器翻译技术将仅标注单语事件信息的数据映射为多语平行数据。
进一步地,步骤2中,利用自然语言处理工具GIZA++学习多语的词对齐信息,将所述多语平行数据进行词汇级别对齐。
进一步地,所述“利用自然语言处理工具GIZA++学习多语的词对齐信息,将所述多语平行数据进行词汇级别对齐”,其方法为:
利用自然语言处理工具GIZA++同时学习源语到目标语、目标语到源语的单向对齐关系;
采用grow-diag-final-and启发式算法获得多语的双向多对多对齐关系。
本发明的另一方面,提出了一种基于多语注意力机制的事件识别及分类装置,包括:
多语映射模块,用于将仅标注单语事件信息的数据映射为多语平行数据;
多语对齐模块,用于将所述多语平行数据进行词汇级别对齐,通过多语对齐关系得到同一事件在多种不同语言中的一致性表示;
单语注意力机制模块,用于利用同一事件在多种不同语言中的一致性表示,基于单语注意力模型获取多语一致性信息;
多语注意力机制模块,用于利用同一事件在多种不同语言中的一致性表示,基于多语注意力模型获取多语互补性信息;
非线性联合推理模块,用于对所述多语一致性信息和所述多语互补性信息进行联合推理,通过非线性神经网络判别模型输出最终的识别结果;
其中,
所述单语注意力模型为用于学习同一事件在不同语言中的一致性表示的带注意力机制的神经网络模型;
所述多语注意力模型为用于学习事件在不同语言中的不同表示的带注意力机制的神经网络模型。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现上述的基于多语注意力机制的事件识别及分类方法。
本发明的第四方面,提出了一种处理装置,包括
处理器,适于执行各条程序;以及
存储设备,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
上述的基于多语注意力机制的事件识别及分类方法。
本发明基于多语注意力机制的统一学习模型,该模型不仅可以利用传统的特征,还可以引入多语一致性信息和多语互补性信息作为特征,可以提高事件的识别效果。实验表示,本发明可以提高事件识别的准确率和召回率,对比传统的事件识别方法,获得了非常显著的F1值3%的提升,对比基于表示的事件识别方法,获得了显著的F1值1.1%个点的提升。
附图说明
图1是是传统事件识别及分类方法的流程示意图;
图2是本发明的系统架构图;
图3是本发明实施例的多语词汇级别的双向对齐结果示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的一种基于多语注意力机制的事件识别及分类方法,如图2所示,包括:
步骤1,将仅标注单语事件信息的数据映射为多语平行数据;
步骤2,将所述多语平行数据进行词汇级别对齐,通过多语对齐关系得到同一事件在多种不同语言中的一致性表示,即多语对齐数据;
步骤3,利用步骤2得到同一事件在多种不同语言中的一致性表示,基于单语注意力模型获取多语一致性信息;
步骤4,利用步骤2得到同一事件在多种不同语言中的一致性表示,基于多语注意力模型获取多语互补性信息;
步骤5,基于所述多语一致性信息和所述多语互补性信息进行联合推理,通过非线性神经网络判别模型输出最终的识别结果;
其中,
所述单语注意力模型为用于学习同一事件在不同语言中的一致性表示的带注意力机制的神经网络模型;
所述多语注意力模型为用于学习事件在不同语言中的不同表示的带注意力机制的神经网络模型。
下面结合各步骤的详细描述来对本发明的技术方案进行进一步阐述。
步骤1,将仅标注单语事件信息的数据映射为多语平行数据。
利用自然语言处理中的机器翻译技术,把仅标注了单语事件信息的数据映射为平行多语数据,进而在所得到的多语数据中挖掘有价值的信息。后续的特征提取步骤将使用这些多语特征,用于分类器的训练和测试。本方法主要挖掘两类多语信息:多语一致性信息和多语互补性信息。
多语一致性信息是指:当多种语言描述同一个事件发生时,那么在每一种语言中都有相同或者相似的语义组成部分。比如对于中文事件来说“坦克向旅店开火”,对应的英文描述是“A tank fired to a hotel”。其中的“坦克”和“tank”相互对应,都是指攻击事件的发起者,这些多语一致性信息可以用来进行事件识别及分类。
多语互补性信息是指:多种语言有各自不同的基本单元,这些单元往往具有语言差异性,而这些差异性可以提供互补信息。比如,在英文中,“fire”可以表示开火,也可以表示解雇。但是在中文中,“开火”和“解雇”并没有相同的语义关联。所以可以利用中文提供的信息作为英文语义消歧的互补信息。这些多语互补性信息可以用来进行事件识别及分类。
步骤2,将所述多语平行数据进行词汇级别对齐,通过多语对齐关系得到同一事件在多种不同语言中的一致性表示。
本发明实施例借助自然语言处理常用的工具GIZA++来学习多语的词对齐信息。本发明同时学习源语到目标语、目标语到源语的单向对齐关系,之后采用grow-diag-final-and算法获得多语的双向多对多对齐关系。
GIZA++是一个无监督学习平行语料词语对齐的工具,但是它只能学习单向一对多的词语对齐。为了得到双向的多对多词汇级别的对齐信息,同时从两个方向学习词语对齐,然后使用上述算法对双向词对齐进行合并归一化,得到多对多的双向对齐关系。
最终得到的多语词汇级别的双向对齐结果如图3所示。
步骤3,利用步骤2得到同一事件在多种不同语言中的一致性表示,基于单语注意力模型获取多语一致性信息。
该步骤面向每一种语言,使用带注意力机制的神经网络模型来学习单语句子表示。该步骤中的单语注意力权重可表示为词汇重要性。该步骤主要学习同一事件在不同语言中的一致性表示,以此单语注意力模型多语一致性信息。
所述单语注意力模型,该模型的建模公式如公式(1)、(2)、(3)、(4)所示:
zt=σ(Wzxt+Uzht-1+bz) (1)
rt=σ(Wrxt+Urht-1+br) (2)
其中,zt、rt、分别为输入门、输出门和记忆单元;W,U,b是对应项的权值矩阵,σ(x)=1/(1+exp(-x)),xt为第t时刻的输入表示向量。
单语注意力模型中,其单语注意力权重为词汇重要性,句子不同部分的权重ai的计算方法如公式(5)所示
其中, 为候选触发词的转置向量,WAtt_src为权重矩阵,w为缩放系数,si为第i个词语的表示向量,bAtt_src为偏置项,L为句子长度。
单语注意力模型输出的句子表示为不同部分的带权重加和Rsrc,如公式(6)所示,
通过步骤3获取多语一致性信息时,首先需要对句子进行表示,采用GRU对句子进行表示,其算法可以表示为公式(1)、(2)、(3)、(4);然后采用单语注意力机制对句子的不同部分的重要性进行计算,句子中的不同部分的权重计算如公式(5)所示;输出的句子表示如公式(6)所示。
步骤4,利用步骤2得到同一事件在多种不同语言中的一致性表示,基于多语注意力模型获取多语互补性信息。
该步骤面向多种语言,使用带注意力机制的神经网络模型来学习事件在不同语言中的不同表示。该步骤中的多语注意力权重可表示为不同语言的置信度。该步骤主要学习不同语言的可信度权重,以多语注意力模型计算多语互补性信息。
目标语言的置信度Gcl计算如公式(7)所示:
Gcl=σ(Wcl[Rsrc;Rtgt]+bcl) (7)
其中,Wcl为权重矩阵,Rtgt为目标语的句子表示向量,bcl为偏置项。
多语注意力模型输出的多语的信息融合表示为Rintegrated,如公式(8)所示:
Rintegrated=(Gi·Rtgt)+(1+Gi)·Rsrc (8)
其中,Gi为多语置信度表示向量。
步骤5,基于所述多语一致性信息和所述多语互补性信息进行联合推理,通过非线性神经网络判别模型输出最终的识别结果。
进行联合推理的公式如公式(9)所示:
O=soft max(tanh(Wcls[csrc;ctgt;Rintegrated]+bcls)) (9)
其中,O为输入向量,Wcls为权重矩阵,csrc为源语触发词表示向量,ctgt为目标语触发词表示向量,bcls为偏置项。
为了得到整个模型的最优参数,采用了随机梯度下降的方法,整体模型的优化目标函数J(Θ)如公式(10)所示:
其中,P(yi|ti,Θ)为输出条件概率,yi为输出标签,ti为候选词表示,Θ为模型参数,λ(Θ)为正则项,K为词汇总量。
下面通过一组测试效果来展示本发明实施例的效果。
测试语料
使用ACE2005数据集作为训练和测试语料。该语料共包含599篇标注文档,选择530篇作为训练数据集,39篇作为测试数据集,另外的30篇作为开发数据集。
测试结果
通过对比已有方法和本方法的效果来说明其有效性。对比结果如表2所示:
表2测试结果对比表
表中P、R、F1分别表示准确率、召回率和F1得分。
表中第一部分(第一到三行)是基于特征的传统方法在事件识别及分类上的效果,第二部分(第四到六行)是基于深度学习的方法在事件识别及分类上的表现效果。第三部(第七到九行)是利用外部资源的方法在事件识别及分类上的表现效果。最后一行是本方法的完整实现,在事件识别及分类上的表现效果。从实验结果可以看到,基于多语注意力机制的事件识别及分类方法在该任务上的表现超过了已有方法,这个方法被证明是有效的。
本发明实施例的一种基于多语注意力机制的事件识别及分类装置,包括:多语映射模块、多语对齐模块、单语注意力机制模块、多语注意力机制模块、非线性联合推理模块。
多语映射模块,用于将仅标注单语事件信息的数据映射为多语平行数据。
多语对齐模块,用于将所述多语平行数据进行词汇级别对齐,通过多语对齐关系得到同一事件在多种不同语言中的一致性表示。
单语注意力机制模块,用于利用同一事件在多种不同语言中的一致性表示,基于单语注意力模型获取多语一致性信息。
多语注意力机制模块,用于利用同一事件在多种不同语言中的一致性表示,基于多语注意力模型获取多语互补性信息。
非线性联合推理模块,用于对所述多语一致性信息和所述多语互补性信息进行联合推理,通过非线性神经网络判别模型输出最终的识别结果。
本发明实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于多语注意力机制的事件识别及分类方法。
本发明实施例的一种处理装置,包括处理器、存储设备;处理器,适于执行各条程序;存储设备,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于多语注意力机制的事件识别及分类方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的基于多语注意力机制的事件识别及分类装置、存储装置、处理装置有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
需要说明的是,本实施例的处理对象为英文事件描述,图3中的英文、拼音词句为本实施例相应步骤得处理对象或处理结果。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (13)
1.一种基于多语注意力机制的事件识别及分类方法,其特征在于,包括:
步骤1,将仅标注单语事件信息的数据映射为多语平行数据;
步骤2,将所述多语平行数据进行词汇级别对齐,通过多语对齐关系得到同一事件在多种不同语言中的一致性表示;
步骤3,利用步骤2得到同一事件在多种不同语言中的一致性表示,基于单语注意力模型获取多语一致性信息;
步骤4,利用步骤2得到同一事件在多种不同语言中的一致性表示,基于多语注意力模型获取多语互补性信息;
步骤5,基于所述多语一致性信息和所述多语互补性信息进行联合推理,通过非线性神经网络判别模型输出最终的识别结果;
其中,
所述单语注意力模型为用于学习同一事件在不同语言中的一致性表示的带注意力机制的神经网络模型;
所述多语注意力模型为用于学习事件在不同语言中的不同表示的带注意力机制的神经网络模型。
2.根据权利要求1所述的基于多语注意力机制的事件识别及分类方法,其特征在于,所述单语注意力模型,该模型的建模公式为
zt=σ(Wzxt+Uzht-1+bz)
rt=σ(Wrxt+Urht-1+br)
其中,zt、rt、分别为输入门、输出门和记忆单元;W,U,b是对应项的权值矩阵,σ(x)=1/(1+exp(-x)),xt为第t时刻的输入表示向量。
3.根据权利要求2所述的基于多语注意力机制的事件识别及分类方法,其特征在于,所述单语注意力模型中,其单语注意力权重为词汇重要性,句子不同部分的权重ai的计算方法为
其中, 为候选触发词的转置向量,WAtt_src为权重矩阵,w为缩放系数,si为第i个词语的表示向量,bAtt_src为偏置项,L为句子长度。
4.根据权利要求3所述的基于多语注意力机制的事件识别及分类方法,其特征在于,通过所述单语注意力模型输出的句子表示为不同部分的带权重加和Rsrc,
5.根据权利要求4所述的基于多语注意力机制的事件识别及分类方法,其特征在于,所述多语注意力模型中多语注意力权重为不同语言的置信度,目标语言的置信度Gcl计算方法为
Gcl=σ(Wcl[Rsrc;Rtgt]+bcl)
其中,Wcl为权重矩阵,Rtgt为为目标语的句子表示向量,bcl为偏置项。
6.根据权利要求5所述的基于多语注意力机制的事件识别及分类方法,其特征在于,所述多语注意力模型输出的多语的信息融合表示为Rintegrated,
Rintegrated=(Gi·Rtgt)+(1+Gi)·Rsrc
其中,Gi为多语置信度表示向量。
7.根据权利要求5所述的基于多语注意力机制的事件识别及分类方法,其特征在于,步骤5中所述“进行联合推理”,其方法为
O=softmax(tanh(Wcls[csrc;ctgt;Rintegrated]+bcls))
其中,O为输入向量,Wcls为权重矩阵,csrc为源语触发词表示向量,ctgt为目标语触发词表示向量,bcls为偏置项。
8.根据权利要求1-7任一项所述的基于多语注意力机制的事件识别及分类方法,其特征在于,步骤1中,采用自然语言处理中的机器翻译技术将仅标注单语事件信息的数据映射为多语平行数据。
9.据权利要求1-7任一项所述的基于多语注意力机制的事件识别及分类方法,其特征在于,步骤2中,利用自然语言处理工具GIZA++学习多语的词对齐信息,将所述多语平行数据进行词汇级别对齐。
10.据权利要求9所述的基于多语注意力机制的事件识别及分类方法,其特征在于,所述“利用自然语言处理工具GIZA++学习多语的词对齐信息,将所述多语平行数据进行词汇级别对齐”,其方法为:
利用自然语言处理工具GIZA++同时学习源语到目标语、目标语到源语的单向对齐关系;
采用grow-diag-final-and启发式算法获得多语的双向多对多对齐关系。
11.一种基于多语注意力机制的事件识别及分类装置,其特征在于,包括:
多语映射模块,用于将仅标注单语事件信息的数据映射为多语平行数据;
多语对齐模块,用于将所述多语平行数据进行词汇级别对齐,通过多语对齐关系得到同一事件在多种不同语言中的一致性表示;
单语注意力机制模块,用于利用同一事件在多种不同语言中的一致性表示,基于单语注意力模型获取多语一致性信息;
多语注意力机制模块,用于利用同一事件在多种不同语言中的一致性表示,基于多语注意力模型获取多语互补性信息;
非线性联合推理模块,用于对所述多语一致性信息和所述多语互补性信息进行联合推理,通过非线性神经网络判别模型输出最终的识别结果;
其中,
所述单语注意力模型为用于学习同一事件在不同语言中的一致性表示的带注意力机制的神经网络模型;
所述多语注意力模型为用于学习事件在不同语言中的不同表示的带注意力机制的神经网络模型。
12.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-10任一项所述的基于多语注意力机制的事件识别及分类方法。
13.一种处理装置,包括
处理器,适于执行各条程序;以及
存储设备,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-10任一项所述的基于多语注意力机制的事件识别及分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711463578.0A CN108345583B (zh) | 2017-12-28 | 2017-12-28 | 基于多语注意力机制的事件识别及分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711463578.0A CN108345583B (zh) | 2017-12-28 | 2017-12-28 | 基于多语注意力机制的事件识别及分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108345583A true CN108345583A (zh) | 2018-07-31 |
CN108345583B CN108345583B (zh) | 2020-07-28 |
Family
ID=62962292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711463578.0A Active CN108345583B (zh) | 2017-12-28 | 2017-12-28 | 基于多语注意力机制的事件识别及分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108345583B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299470A (zh) * | 2018-11-01 | 2019-02-01 | 成都数联铭品科技有限公司 | 文本公告中触发词的抽取方法及系统 |
CN110941955A (zh) * | 2019-11-25 | 2020-03-31 | 中国科学院自动化研究所 | 跨语言事件分类方法及装置 |
CN111267097A (zh) * | 2020-01-20 | 2020-06-12 | 杭州电子科技大学 | 基于自然语言的工业机器人辅助编程方法 |
CN111814066A (zh) * | 2020-07-01 | 2020-10-23 | 重庆邮电大学 | 基于启发式算法的动态社交用户对齐方法及系统 |
CN112101578A (zh) * | 2020-11-17 | 2020-12-18 | 中国科学院自动化研究所 | 基于联邦学习的分布式语言关系识别方法、系统和装置 |
CN112417897A (zh) * | 2020-11-30 | 2021-02-26 | 上海携旅信息技术有限公司 | 词对齐模型训练、文本处理的方法、系统、设备和介质 |
CN113761874A (zh) * | 2021-07-19 | 2021-12-07 | 中国科学院自动化研究所 | 事件事实性预测方法、装置、电子设备与存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050021324A1 (en) * | 2003-07-25 | 2005-01-27 | Brants Thorsten H. | Systems and methods for new event detection |
WO2015013554A1 (en) * | 2013-07-26 | 2015-01-29 | Genesys Telecommunications Laboratories, Inc. | System and method for discovering and exploring concepts |
CN104881399A (zh) * | 2015-05-15 | 2015-09-02 | 中国科学院自动化研究所 | 基于概率软逻辑psl的事件识别方法和系统 |
CN105138520A (zh) * | 2015-08-26 | 2015-12-09 | 苏州大学张家港工业技术研究院 | 一种事件触发词识别方法及装置 |
CN106021371A (zh) * | 2016-05-11 | 2016-10-12 | 苏州大学 | 一种事件识别方法及系统 |
CN106095928A (zh) * | 2016-06-12 | 2016-11-09 | 国家计算机网络与信息安全管理中心 | 一种事件类型识别方法及装置 |
-
2017
- 2017-12-28 CN CN201711463578.0A patent/CN108345583B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050021324A1 (en) * | 2003-07-25 | 2005-01-27 | Brants Thorsten H. | Systems and methods for new event detection |
WO2015013554A1 (en) * | 2013-07-26 | 2015-01-29 | Genesys Telecommunications Laboratories, Inc. | System and method for discovering and exploring concepts |
CN104881399A (zh) * | 2015-05-15 | 2015-09-02 | 中国科学院自动化研究所 | 基于概率软逻辑psl的事件识别方法和系统 |
CN105138520A (zh) * | 2015-08-26 | 2015-12-09 | 苏州大学张家港工业技术研究院 | 一种事件触发词识别方法及装置 |
CN106021371A (zh) * | 2016-05-11 | 2016-10-12 | 苏州大学 | 一种事件识别方法及系统 |
CN106095928A (zh) * | 2016-06-12 | 2016-11-09 | 国家计算机网络与信息安全管理中心 | 一种事件类型识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
HENG JI 等: "Cross-lingual predicate cluster acquisition to improve bilingual event extraction by inductive learning", 《UMSLLS "09 PROCEEDINGS OF THE WORKSHOP ON UNSUPERVISED AND MINIMALLY SUPERVISED LEARNING OF LEXICAL SEMANTICS》 * |
王喜梅: "基于多语言话题发现的聚类算法改进", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299470A (zh) * | 2018-11-01 | 2019-02-01 | 成都数联铭品科技有限公司 | 文本公告中触发词的抽取方法及系统 |
CN109299470B (zh) * | 2018-11-01 | 2024-02-09 | 成都数联铭品科技有限公司 | 文本公告中触发词的抽取方法及系统 |
CN110941955A (zh) * | 2019-11-25 | 2020-03-31 | 中国科学院自动化研究所 | 跨语言事件分类方法及装置 |
CN111267097A (zh) * | 2020-01-20 | 2020-06-12 | 杭州电子科技大学 | 基于自然语言的工业机器人辅助编程方法 |
CN111267097B (zh) * | 2020-01-20 | 2021-03-02 | 杭州电子科技大学 | 基于自然语言的工业机器人辅助编程方法 |
CN111814066A (zh) * | 2020-07-01 | 2020-10-23 | 重庆邮电大学 | 基于启发式算法的动态社交用户对齐方法及系统 |
CN111814066B (zh) * | 2020-07-01 | 2022-06-03 | 重庆邮电大学 | 基于启发式算法的动态社交用户对齐方法及系统 |
CN112101578A (zh) * | 2020-11-17 | 2020-12-18 | 中国科学院自动化研究所 | 基于联邦学习的分布式语言关系识别方法、系统和装置 |
CN112417897A (zh) * | 2020-11-30 | 2021-02-26 | 上海携旅信息技术有限公司 | 词对齐模型训练、文本处理的方法、系统、设备和介质 |
CN112417897B (zh) * | 2020-11-30 | 2023-04-07 | 上海携旅信息技术有限公司 | 词对齐模型训练、文本处理的方法、系统、设备和介质 |
CN113761874A (zh) * | 2021-07-19 | 2021-12-07 | 中国科学院自动化研究所 | 事件事实性预测方法、装置、电子设备与存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108345583B (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
CN108345583A (zh) | 基于多语注意力机制的事件识别及分类方法及装置 | |
Chang et al. | Chinese named entity recognition method based on BERT | |
Mukhtar et al. | Urdu sentiment analysis using supervised machine learning approach | |
CN109697285B (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
Zheng et al. | A neural network framework for relation extraction: Learning entity semantic and relation pattern | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN110134954B (zh) | 一种基于Attention机制的命名实体识别方法 | |
CN108664589A (zh) | 基于领域自适应的文本信息提取方法、装置、系统及介质 | |
CN111797241B (zh) | 基于强化学习的事件论元抽取方法及装置 | |
Hamza et al. | An arabic question classification method based on new taxonomy and continuous distributed representation of words | |
Zalmout et al. | Adversarial multitask learning for joint multi-feature and multi-dialect morphological modeling | |
Qian et al. | Syntax aware LSTM model for semantic role labeling | |
Zhang et al. | n-BiLSTM: BiLSTM with n-gram Features for Text Classification | |
Ren et al. | Detecting the scope of negation and speculation in biomedical texts by using recursive neural network | |
CN114254645A (zh) | 一种人工智能辅助写作系统 | |
Chen et al. | Research on automatic essay scoring of composition based on CNN and OR | |
Han et al. | Chinese spelling check based on sequence labeling | |
Advaith et al. | Parts of Speech Tagging for Kannada and Hindi Languages using ML and DL models | |
pal Singh et al. | Naive Bayes classifier for word sense disambiguation of Punjabi language | |
Khorjuvenkar et al. | Parts of speech tagging for Konkani language | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
Srinivasagan et al. | An automated system for tamil named entity recognition using hybrid approach | |
Luo et al. | Unsupervised sumerian personal name recognition | |
Francis | A comprehensive survey on parts of speech tagging approaches in dravidian languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |