CN115510236A - 基于信息融合和数据增强的篇章级事件检测方法 - Google Patents

基于信息融合和数据增强的篇章级事件检测方法 Download PDF

Info

Publication number
CN115510236A
CN115510236A CN202211472983.XA CN202211472983A CN115510236A CN 115510236 A CN115510236 A CN 115510236A CN 202211472983 A CN202211472983 A CN 202211472983A CN 115510236 A CN115510236 A CN 115510236A
Authority
CN
China
Prior art keywords
information
sentence
event
vector
token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211472983.XA
Other languages
English (en)
Inventor
谭立君
胡艳丽
周庄易
朱煜琛
张馨予
李宏阳
蔡琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202211472983.XA priority Critical patent/CN115510236A/zh
Publication of CN115510236A publication Critical patent/CN115510236A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于信息融合和数据增强的篇章级事件检测方法,步骤包括:预训练得到句子的词嵌入向量;将向量输入编码层提取句子的序列特征,并通过自注意力机制获得语句上下文信息;将词向量、语句序列信息和上下文信息解码得到每个token对应的事件标签向量;将事件标签向量进行句子级的信息聚合,将聚合后的前后相邻句语义信息作为当前语句的输入再次解码;将解码层每次迭代得到的语句信息加权求和后,通过Softmax层得到序列标注结果。本发明基于信息融合和数据增强的事件检测方法,应用神经网络模型充分地提取了文档级的上下文信息及事件相关性,实现语义信息的跨句传播,有效提升了模型的稳定性和准确性。

Description

基于信息融合和数据增强的篇章级事件检测方法
技术领域
本发明属于自然语言处理技术领域,尤其涉及基于信息融合和数据增强的篇章级事件检测方法。
背景技术
从无结构的文本数据中检测事件信息是自然语言处理(Natural LanguageProcessing, NLP)领域的关键基础技术,广泛应用于机器翻译、智能问答、文摘生成等众多NLP的下游任务。事件检测(Event Detection, ED)也可称为事件识别,是指通过识别文本中的事件触发词,正确判断其事件类型。触发词通常为动词或名词,与预定义的事件类型相对应,针对不同的触发词都有特定的表示。例如,在语句“He has given an assurancethat they would not run away and there will not be a huge crowd at thehouse.”中run away是动词触发词,表达“逃跑”语义,所属的事件类型为Start-Position
当前大多数方法都关注于从单个句子中提取事件,但通常文档由多个句子表示,包含多个事件,事件之间相互联系,句内事件并存、句间事件共现以及一词多义等问题普遍存在。例如,表1所示的文档包含6个句子
Figure 331539DEST_PATH_IMAGE001
,事件检测系统需要从中识别出5类事件:由“wedding”和“marry”分别触发的两个Marry事件,由“hearing”触发的Trial- Hearing事件,由“taken”触发的Transport事件,以及由“run away”触发的Start-Position事件。在此文档中,一词多义现象如
Figure 48959DEST_PATH_IMAGE002
中的“run”既可以表示奔跑,触发Start-Position事件,又可以表示经营管理而触发Nominate事件;事件共现问题如
Figure 381851DEST_PATH_IMAGE003
Figure 104213DEST_PATH_IMAGE004
都触发了Marry事件;事件并存如
Figure 864359DEST_PATH_IMAGE003
中既包含由“wedding”触发的Marry事件,又包含由“hearing”触发的Trial-Hearing事件等,这些问题都直接影响事件检测的结果。因此在事件检测的过程中,必须充分利用文档级的上下文信息及事件间的相互关联性。
表1 ACE2005数据集示例文档
s<sub>1</sub>: The prison department has agreed to allow a jailed man to attend his daughter's wedding[<i>Marry</i>]ceremony Friday after his bail hearing[<i>Trial-Hearing</i>].
s<sub>2</sub>: He will be taken to the appeal[<i>Appeal</i>] court early Friday for a bail application.
s<sub>3</sub>: Prison authorities have given the nod for he to be taken[<i>Transport</i>] home to marry[<i>Marry</i>] hiseldest daughter to an engineer.
s<sub>4</sub>: But this is also conditional on police approval.
s<sub>5</sub>: They have to get the green light from police.
s<sub>6</sub>: He has given an assurance that they would not run away[<i>Start-Position</i>] and there will not be ahuge crowd at the house.
采用神经网络模型进行事件检测是近年来的热门研究方向。神经网络模型的训练通常需要大量的数据作为支撑,但事件检测所需的文本数据面临着人工标注困难、语料不足、数据不平衡等众多问题,极大地影响模型的泛化性和训练的稳定性。
例如,在ACE2005数据集数据不平衡现象明显(如图1所示,其虚线阈值为100):33类事件样本数据具有长尾特性,仅少量事件样本数较大,如Attack事件样本众多,而Marry、Fine等事件类型样本数都低于100远少于Attack事件,Acquit事件包含的三种类型实例甚至少于10个。
数据匮乏可通过寻找新数据进行标注和基于原有数据进行扩充这两种方法有效解决,但由于事件信息结构复杂,人工标注事件对标注者的专业要求高,导致新数据标注往往成本高、代价大。基于原数据进行数据增强、扩充数据样本规模是当前的主流方法。
事件检测是近年来NLP领域研究的热点之一,目前针对事件检测任务的研究主要难点在于:
(1)触发词检测方面,同一词语在不同语句中会表达出不同的语意,并且一个单独的事件的论元可能被分散在不同的语句中;
(2)事件分类方面,对于未出现的新事件的检测分类困难,句内事件并存和句间事件共现现象明显,但事件间的相互关联性影响难以建模解决。
现有的方法中提出了许多事件检测模型,大致可以分为基于特征工程的方法和基于神经网络的方法这两类。
基于特征的方法取决于不同的事件特征。这类研究关注于事件信息的某些特征,通常使用支持向量机等传统的机器学习方法。但机器学习的方法在相对低维的空间中表示信息,并依赖于对特征进行高质量的人工标注,所以未能充分开发非结构化句子中的隐含信息。此外,数据不平衡等问题对于特征抽取也有较大的影响。
神经网络始终是近年来人工智能领域的热点研究方向,利用大数据来自主学习、自动化构造特征,更能够挖掘出数据的丰富内在信息,使分类或预测任务更加容易。神经网络在处理图像、文本、音视频等非结构化数据上表现突出,取得的效果远超于通过人工规则构造特征的传统的机器学习方法。
事件检测模型的训练往往需要大量的语料作为支撑,但在文本数据方面,数据不平衡、数据匮乏等问题仍是一个较大的挑战,且极大地影响着神经网络模型训练过程中稳定性和泛化能力。
发明内容
数据增强相比于基于新数据进行人工标注的方法,代价小,速度快、成本低,且构造的产生的伪数据能够在模型训练中注入噪声,使模型的稳定性得以提升。针对上述问题,本发明提出基于信息融合和数据增强的篇章级事件检测方法。信息融合从跨句子的角度聚合文档级上下文信息,联合抽取出一段文本中的多个事件触发词和事件类型。融合文档信息、进行联合检测对于提升事件检测准确率具有重要作用,能够有效解决篇章级事件检测的两大难题:一是语句级上下文表示及文档级信息聚合;二是句内及句间事件相互关联性建模。
数据增强是采用同义词替换方法,该策略可以视为对原数据的微小扰动,并不改变语句结构和语义信息,仍然符合文本特性。而替换产生的相似语句,往往具有相似的特征,在模型训练的过程中,能够充分调动模型挖掘相似特征间的差别,提升模型的稳定性和准确率。此外,替换产生的新数据对模型的泛化能力有一定增强作用。
本发明公开的基于信息融合和数据增强的篇章级事件检测方法,包括以下步骤:
使用词嵌入层,通过语句预训练得到词嵌入向量;
将所述词嵌入向量输入编码层提取句子的序列特征,并通过自注意力机制获得语句上下文信息;
将所述序列特征和所述语句上下文信息输入解码层以综合前两层信息处理的结果,解码得到每个token对应的事件标签向量;
将所述事件标签向量输入信息融合模块进行句子级的信息聚合,并将聚合后的前一句和后一句的事件信息作为当前语句的输入再次解码,实现跨句信息的传播;
将每次迭代得到的语句信息加权求和,并通过Softmax层得到最后的序列标注结果。
将数据集通过同义词替换增强后,加入模型进行训练。
进一步的,将事件检测任务视为一个序列到序列的标注问题,并使用BIO标注模式进行建模,其中“B”为begin,“B-X”表示此元素在片段的开始位置且所在的片段属于X类型;“I”为inside,“I-Y”表示此元素在片段的中间位置且所在的片段属于Y类型,“O”为outside,表示所在的片段不属于任何类型。
进一步的,通过串联每个token的词嵌入和NER类型嵌入得到其综合的词向量表示,其中,词嵌入矩阵由Skip-gram模型预训练,NER类型嵌入矩阵在训练过程中随机初始化和更新;对于给定的token
Figure 803496DEST_PATH_IMAGE005
,其综合嵌入向量表示为
Figure 438614DEST_PATH_IMAGE006
进一步的,将BiLSTM模型应用于句子级语义编码,获取每个token的序列信息和上下文信息,表示为
Figure 514018DEST_PATH_IMAGE007
进一步的,对于每个token
Figure 710644DEST_PATH_IMAGE005
,通过自注意力机制将句子中所有token的语义信息加权平均后,作为其上下文表示。注意力权值计算如下:
Figure 638542DEST_PATH_IMAGE008
Figure 313237DEST_PATH_IMAGE009
其中
Figure 774305DEST_PATH_IMAGE010
是当前时刻t第j个token的注意力权重,
Figure 876253DEST_PATH_IMAGE011
是第j个token的得分值,
Figure 288518DEST_PATH_IMAGE012
是任一token的得分值,
Figure 501325DEST_PATH_IMAGE013
是当前时刻t的目标状态,
Figure 816899DEST_PATH_IMAGE014
是所有的源状态,
Figure 884274DEST_PATH_IMAGE015
是参数矩阵,
Figure 550879DEST_PATH_IMAGE016
是偏置项;
由此,
Figure 567376DEST_PATH_IMAGE017
的上下文表示为
Figure 737458DEST_PATH_IMAGE018
,连接
Figure 414164DEST_PATH_IMAGE019
的词嵌入和上下文表示得到
Figure 302486DEST_PATH_IMAGE019
的最终语义表示为:
Figure 122674DEST_PATH_IMAGE020
,其中
Figure 648727DEST_PATH_IMAGE021
是第j个token的经过BiLSTM编码的语义向量,
Figure 528958DEST_PATH_IMAGE022
Figure 638997DEST_PATH_IMAGE019
经过注意力机制加权的语义向量,
Figure 731718DEST_PATH_IMAGE023
Figure 640506DEST_PATH_IMAGE019
的词嵌入表示;
将上下文向量c直接转化为
Figure 160480DEST_PATH_IMAGE024
,这等价于用退化的注意力权值表示,即:
Figure 757814DEST_PATH_IMAGE025
Figure 421270DEST_PATH_IMAGE026
是t时刻第
Figure 420450DEST_PATH_IMAGE027
个token的注意力权重,
Figure 642484DEST_PATH_IMAGE028
是t时刻
Figure 727115DEST_PATH_IMAGE019
的注意力权重;
先前涉及的事件信息辅助确定由第t个token触发的事件类型,这种关联由前向解码获取:
Figure 660174DEST_PATH_IMAGE029
Figure 248281DEST_PATH_IMAGE030
其中,
Figure 611523DEST_PATH_IMAGE031
是前向RNN,
Figure 183449DEST_PATH_IMAGE032
是前向RNN的状态值序列,
Figure 421664DEST_PATH_IMAGE033
是前向事件标签向量序列,t为对应时刻,
Figure 129857DEST_PATH_IMAGE034
是参数矩阵,
Figure 926649DEST_PATH_IMAGE035
是偏置项,
Figure 985872DEST_PATH_IMAGE036
是操作函数;
如果当前句子的后续语句提到关联事件,通过后向解码来捕获这种依赖关系:
Figure 762198DEST_PATH_IMAGE037
Figure 80223DEST_PATH_IMAGE038
其中
Figure 814961DEST_PATH_IMAGE039
是后向RNN,
Figure 95901DEST_PATH_IMAGE040
是后向RNN的状态值序列,
Figure 440032DEST_PATH_IMAGE041
是后向事件标签向量序列,t为对应时刻;
通过将
Figure 122817DEST_PATH_IMAGE033
Figure 762877DEST_PATH_IMAGE041
连接起来,利用双向解码来对句子中的事件相互关联性进行建模,得到事件标签向量
Figure 32578DEST_PATH_IMAGE042
,从而获取了双向事件的关联关系;由于
Figure 416286DEST_PATH_IMAGE043
为间接输入,因此
Figure 219157DEST_PATH_IMAGE044
还携带了语义信息和事件相关的实体信息。
进一步的,将所述事件标签向量输入信息融合模块进行句子级的信息聚合,包括:
对当前句子
Figure 30118DEST_PATH_IMAGE045
,采用另一个以事件标记向量
Figure 784185DEST_PATH_IMAGE044
作为输入的LSTM层,则第t个token处的信息为:
Figure 971584DEST_PATH_IMAGE046
Figure 628961DEST_PATH_IMAGE047
为第t-1个token处的信息,将最后一个状态
Figure 112289DEST_PATH_IMAGE048
作为一个句子的综合表示,即
Figure 120696DEST_PATH_IMAGE049
进一步的,通过用
Figure 846206DEST_PATH_IMAGE050
Figure 623670DEST_PATH_IMAGE051
扩展输入来整合跨句信息,
Figure 540548DEST_PATH_IMAGE050
是第
Figure 505093DEST_PATH_IMAGE052
个句子的综合表示,
Figure 34294DEST_PATH_IMAGE051
是第
Figure 167729DEST_PATH_IMAGE053
个句子的综合表示,并通过循环将相邻句子的信息迭代地聚合到当前句子,实现语句信息的跨句传播:
一个迭代结构由解码层和信息融合模块组成;对于给定的句子
Figure 491394DEST_PATH_IMAGE045
,第k次迭代的输出用下式计算:
Figure 474393DEST_PATH_IMAGE054
Figure 541706DEST_PATH_IMAGE055
Figure 261138DEST_PATH_IMAGE056
Figure 427809DEST_PATH_IMAGE057
Figure 880129DEST_PATH_IMAGE058
其中,
Figure 751133DEST_PATH_IMAGE059
是在第
Figure 92116DEST_PATH_IMAGE060
轮迭代中聚集的
Figure 787277DEST_PATH_IMAGE061
的语句信息,
Figure 948131DEST_PATH_IMAGE062
是在第
Figure 888406DEST_PATH_IMAGE060
轮迭代中聚集的
Figure 83895DEST_PATH_IMAGE063
的语句信息,
Figure 687308DEST_PATH_IMAGE064
是在第k轮迭代中t时刻获得的事件标签向量序列,故
Figure 601037DEST_PATH_IMAGE065
是t-1时刻的前向事件标签向量,
Figure 813844DEST_PATH_IMAGE066
是t-1时刻的后向事件标签向量;对于源序列语句
Figure 627954DEST_PATH_IMAGE045
的每个token,跨句信息的输入一致为
Figure 166382DEST_PATH_IMAGE067
进一步的,在第一轮迭代中,解码层和信息融合模块对当前句子的信息进行建模;在第二轮中,通过将
Figure 301829DEST_PATH_IMAGE068
Figure 318326DEST_PATH_IMAGE069
输入到双向解码,把相邻句子的信息传播到当前语句;在第
Figure 255452DEST_PATH_IMAGE070
轮,由于
Figure 433623DEST_PATH_IMAGE071
捕获了在第
Figure 321945DEST_PATH_IMAGE072
轮中的句子
Figure 375089DEST_PATH_IMAGE073
的信息,则
Figure 665256DEST_PATH_IMAGE074
可以通过获取
Figure 14329DEST_PATH_IMAGE071
中的信息来获取
Figure 389947DEST_PATH_IMAGE073
中的信息;对于
Figure 249712DEST_PATH_IMAGE075
轮迭代的模型,可以获取距离最长为
Figure 128806DEST_PATH_IMAGE076
层的句子信息。
进一步的,对于拥有不同迭代轮数的模型,最终将
Figure 179939DEST_PATH_IMAGE005
的事件标签向量定义为各轮中
Figure 541388DEST_PATH_IMAGE077
的加权和,即:
Figure 437799DEST_PATH_IMAGE078
其中
Figure 436979DEST_PATH_IMAGE079
是权重衰减参数,当
Figure 393434DEST_PATH_IMAGE080
时,各层信息的贡献度随着距离的增加而逐渐减小。
进一步的,使用同义词替换的方法在保留语义的情况下生成尽量多符合语法结构的伪数据,再将替换产生的新数据输入模型进行训练,提升模型泛化能力,具体包括以下步骤:
使用同义词替换的方式进行数据增强,以概率p随机替换句子中的非停用词,并将生成的新文档
Figure 967811DEST_PATH_IMAGE081
作为真实的标注数据,直接加入到原始的训练数据中,通过最小化损失函数进行模型的训练与更新;使用负对数似然函数
Figure 667914DEST_PATH_IMAGE082
作为损失函数:
Figure 521600DEST_PATH_IMAGE083
其中
Figure 413071DEST_PATH_IMAGE084
是训练文档集和增强文档集的合集,D为训练文档集,
Figure 984997DEST_PATH_IMAGE081
表示增强文档集,s是语句集,
Figure 223212DEST_PATH_IMAGE085
是将
Figure 196984DEST_PATH_IMAGE086
分类为事件
Figure 996706DEST_PATH_IMAGE087
的对应值;
Figure 55929DEST_PATH_IMAGE086
的对应的事件标签概率通过Softmax层计算为:
Figure 97834DEST_PATH_IMAGE088
Figure 424648DEST_PATH_IMAGE089
其中M是事件类型的数量,
Figure 159386DEST_PATH_IMAGE090
是当参数为
Figure 440326DEST_PATH_IMAGE091
时将事件类型j分配给文档d中的token
Figure 285922DEST_PATH_IMAGE086
的概率,
Figure 470172DEST_PATH_IMAGE092
是将
Figure 375811DEST_PATH_IMAGE086
分类为事件m的对应值,
Figure 144047DEST_PATH_IMAGE093
是参数矩阵,
Figure 26290DEST_PATH_IMAGE094
是偏置项,
Figure 829161DEST_PATH_IMAGE095
Figure 905702DEST_PATH_IMAGE086
与所有事件类型的对应值。
本发明的有益效果如下:
本发明为解决句子级事件检测的信息有限,事件跨句关联以及语料标注困难、数据不平衡等问题,提出了基于信息融合和数据增强的篇章级事件检测方法,跨句传播语义信息,有效提升了模型的稳定性和准确性。本发明将事件检测任务转换为一个序列到序列的问题,应用基于双向LSTM机制和编码器-解码器框架的神经网络模型充分地提取了文档级的上下文信息及事件相关性等特征,并通过基于Wordnet同义词替换的数据增强方式解决了小样本数据集的扩充和平衡问题。通过实验,模型在ACE2005和TAC-KBP2017两个数据集上都取得较好的结果,与其他模型相比更优。
附图说明
图1 ACE2005数据集类型分布图;
图2本发明的篇章级事件检测模型结构。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
本发明采用基于神经网络的事件检测模型,基于编码器-解码器框架,使用双向LSTM(BiLSTM)模型融合文档级的跨句信息,进行联合事件检测。并通过数据增强的方法解决数据稀缺的问题,提升模型的稳定性和泛化性。
本发明提出的篇章级事件检测模型共有五个核心模块,能够有效利用句内和句间事件相关性,跨句传播文档内上下文语句信息,进行篇章级信息融合及联合事件检测。
本发明采用编码器-解码器框架,使用双向LSTM(BiLSTM)模型进行联合事件检测模型,主要由五个核心模块组成:嵌入层、编码层、解码层、信息融合模块以及数据增强模块。
模型首先包含一个词嵌入层,通过语句预训练得到词嵌入向量;然后输入编码层提取句子的序列特征,并通过自注意力机制获得语句上下文信息;再把得到的结果输入解码层以综合前两层信息处理的结果,解码得到每个token对应的事件标签向量,将其输入信息融合模块进行句子级的信息聚合,并将聚合后的前一句和后一句的事件信息作为当前语句的输入再次解码,实现跨句信息的传播;最后将每次迭代得到的语句信息加权求和,并通过Softmax层得到最后的序列标注结果。模型的整体框架如图2所示。
为解决跨句事件检测中一词多义、论元分散、句内事件并存,句间事件共现等众多挑战,本发明将事件检测任务视为一个序列到序列的标注问题,并使用BIO标注模式进行建模,其中“B”为begin,“B-X”表示此元素在该片段的开始位置且所在的片段属于X类型;“I”为inside,“I-Y”表示此元素在该片段的中间位置且所在的片段属于Y类型,“O”为outside,表示此片段不属于任何类型。
使用在这个模块中,通过串联每个token的词嵌入和NER类型嵌入得到其综合的词向量表示,其中,词嵌入矩阵由Skip-gram模型预训练,NER类型嵌入矩阵在训练过程中随机初始化和更新。
对于给定的token
Figure 397119DEST_PATH_IMAGE005
,其综合嵌入向量表示为
Figure 584518DEST_PATH_IMAGE006
编码层是使用双向LSTM和自注意力机制(Self-attention机制)对每个token的句子级上下文信息进行编码。
将BiLSTM模型应用于句子级语义编码,该模型能够有效地获取每个token的序列信息和上下文信息。BiLSTM结构包含前向编码和后向编码的两个LSTM模块,即:
Figure 241895DEST_PATH_IMAGE096
(1)
编码后token的上下文表示为
Figure 489337DEST_PATH_IMAGE097
在句子内使用自注意力机制能进一步整合远范围的上下文语义信息。对于每个token
Figure 730700DEST_PATH_IMAGE098
,将句子中所有token的语义信息加权平均后,作为其上下文表示。Luong等人提出的注意机制应用如下:
Figure 456211DEST_PATH_IMAGE099
(2)
Figure 968095DEST_PATH_IMAGE100
(3)
由此,
Figure 899621DEST_PATH_IMAGE098
的上下文表示为
Figure 129746DEST_PATH_IMAGE018
,连接
Figure 658947DEST_PATH_IMAGE098
的词嵌入和上下文表示得到
Figure 290917DEST_PATH_IMAGE098
的最终语义表示为:
Figure 378696DEST_PATH_IMAGE020
ED任务中的解码目的是生成与token对应的事件标签序列。由于标签序列(目标序列)元素和token序列(源序列)是一一对应的。因此,常规编解码框架中的上下文向量c可以直接转化为
Figure 830537DEST_PATH_IMAGE024
,这等价于用退化的注意力权值表示。也就是说,
Figure 897850DEST_PATH_IMAGE025
除了上下文语义向量
Figure 885791DEST_PATH_IMAGE024
之外,先前涉及的事件信息可以辅助确定由第t个token触发的事件类型。这种关联可以由前向解码获取:
Figure 380358DEST_PATH_IMAGE101
(4)
Figure 585074DEST_PATH_IMAGE102
(5)
其中,
Figure 456078DEST_PATH_IMAGE031
是前向RNN,
Figure 561175DEST_PATH_IMAGE032
是前向RNN的状态值序列,
Figure 226643DEST_PATH_IMAGE033
是前向事件标签向量序列,t为对应时刻,
Figure 653076DEST_PATH_IMAGE034
是参数矩阵,
Figure 94815DEST_PATH_IMAGE035
是偏置项,
Figure 290304DEST_PATH_IMAGE036
是操作函数。
在传统的序列到序列任务中,目标序列长度在推导过程中是未知的,只可进行前向解码。但对于ED任务,当给定源序列时,目标序列的长度是已知的,因此可以从目标序列到源序列进行反向生成。由于当前句子的后续语句可能会提到关联事件,因此通过后向解码来捕获这种依赖关系:
Figure 392252DEST_PATH_IMAGE103
(6)
Figure 305982DEST_PATH_IMAGE104
(7)
其中
Figure 282903DEST_PATH_IMAGE039
是后向RNN,
Figure 332898DEST_PATH_IMAGE040
是后向RNN的状态值序列,
Figure 871327DEST_PATH_IMAGE041
是后向事件标签向量序列,t为对应时刻。
通过将
Figure 508238DEST_PATH_IMAGE033
Figure 524736DEST_PATH_IMAGE041
连接起来,利用双向解码来对句子中的事件相互关联性进行建模,得到事件标签向量
Figure 429238DEST_PATH_IMAGE042
,从而获取了双向事件的关联关系;由于
Figure 371524DEST_PATH_IMAGE043
为间接输入,因此
Figure 259845DEST_PATH_IMAGE044
还携带了语义信息和事件相关的实体信息。
双向LSTM解码模块可得到对应于每个token的事件标签向量,并捕获句子内的双向事件相互关联关系,为后续跨句信息传播的基础。
就单个句子而言,主要关注的信息为哪些实体触发了哪些事件。但前序及后序相邻语句的信息都与当前句子的事件信息紧密相关。因此,既要总结当前句子的语义信息,更需捕获跨语句的交互信息。
对当前句子
Figure 814455DEST_PATH_IMAGE045
,采用另一个以事件标记向量
Figure 104622DEST_PATH_IMAGE044
作为输入的LSTM层(如图2所示的信息融合模块)。则第t个token处的信息为:
Figure 209020DEST_PATH_IMAGE105
(8)
将最后一个状态
Figure 319058DEST_PATH_IMAGE048
作为一个句子的综合表示,即
Figure 942938DEST_PATH_IMAGE049
。由于结构良好的信息能够方便地整合到其他句子的解码过程中,所以语句级信息融合模块能连接语句间的信息,增强了事件相关性。
双向解码层和信息融合模块获取的信息
Figure 320567DEST_PATH_IMAGE106
捕获了句子内部的事件关联信息。然而,跨句信息尚未产生交互作用。对于一个给定的句子,如表1所示,它的相关信息主要存储在几个相邻句子中,而远距离句子相关性较弱。因此,主要在相邻句子之间传递综合后的句子信息
Figure 371700DEST_PATH_IMAGE107
对于式(4)、(5)和式(6)、(7)所示的解码框架,可以通过用
Figure 969034DEST_PATH_IMAGE050
Figure 131025DEST_PATH_IMAGE051
扩展输入来整合跨句信息,并通过循环将相邻句子的信息迭代地聚合到当前句子,实现语句信息的跨句传播。
如图2所示,一个循环结构由解码层和信息融合模块组成。对于给定的句子
Figure 631670DEST_PATH_IMAGE045
,第k次迭代的输出可以用下式计算:
Figure 322546DEST_PATH_IMAGE108
(9)
Figure 407176DEST_PATH_IMAGE109
(10)
Figure 871393DEST_PATH_IMAGE110
(11)
Figure 990659DEST_PATH_IMAGE111
(12)
Figure 118015DEST_PATH_IMAGE112
(13)
其中,
Figure 424363DEST_PATH_IMAGE059
是在第
Figure 164042DEST_PATH_IMAGE060
轮迭代中聚集的
Figure 403393DEST_PATH_IMAGE061
的语句信息,
Figure 701651DEST_PATH_IMAGE062
是在第
Figure 993830DEST_PATH_IMAGE060
轮迭代中聚集的
Figure 301314DEST_PATH_IMAGE063
的语句信息,
Figure 129593DEST_PATH_IMAGE064
是在第k轮迭代中t时刻获得的事件标签向量序列,故
Figure 864331DEST_PATH_IMAGE065
是t-1时刻的前向事件标签向量,
Figure 646735DEST_PATH_IMAGE066
是t-1时刻的后向事件标签向量;对于源序列语句
Figure 492332DEST_PATH_IMAGE045
的每个token,跨句信息的输入一致为
Figure 175117DEST_PATH_IMAGE067
公式(9)~(13)所示的迭代过程即为跨句语义和事件信息在文档中的扩散过程。也就是说,在第一轮迭代中,解码层和信息融合模块有效地对当前句子的信息进行建模,并未产生跨句交互;在第二轮中,通过将
Figure 579291DEST_PATH_IMAGE113
Figure 347527DEST_PATH_IMAGE114
输入到双向解码,把相邻句子的信息传播到当前语句;在第
Figure 996814DEST_PATH_IMAGE070
轮,由于
Figure 534106DEST_PATH_IMAGE071
捕获了在第
Figure 858250DEST_PATH_IMAGE072
轮中的句子
Figure 113782DEST_PATH_IMAGE073
的信息,则
Figure 301181DEST_PATH_IMAGE074
可以通过获取
Figure 457094DEST_PATH_IMAGE071
中的信息来获取
Figure 438956DEST_PATH_IMAGE073
中的信息;对于
Figure 447364DEST_PATH_IMAGE075
轮迭代的模型,可以获取距离最长为
Figure 172874DEST_PATH_IMAGE076
层的句子信息。因此,随着迭代轮数的增加,该模型可以获取相邻较远句子的信息,由此实现句子级语义信息和事件相互关联性的跨句传播。
对于拥有不同迭代轮数的模型,最终将
Figure 451802DEST_PATH_IMAGE098
的事件标签向量定义为各轮中
Figure 604566DEST_PATH_IMAGE115
的加权和,即:
Figure 100269DEST_PATH_IMAGE116
(14)
其中
Figure 862427DEST_PATH_IMAGE079
是权重衰减参数,当
Figure 228817DEST_PATH_IMAGE080
时,各层信息的贡献度随着距离的增加而逐渐减小。
数据增强起初应用于图像处理领域并取得众多成果,近年来逐渐迁移到NLP领域。相比于图像,自然语言的数据增强面临着不小的挑战:
(1)自然语言表达是离散的、多样化的,简单使用图像数据增强的方法如翻转、平移会导致文本语法结构错乱,实体信息漂移。
(2)语句表达具有语言顺序,随意替换文本片段会使语义缺失或语义改变,导致特征信息错误。
因此,在保留语义的情况下生成尽量多符合语法结构的伪数据是文本数据增强关键所在。本发明使用同义词替换的方法能够针对性解决这些问题。首先,同义词替换使用的是与原文单词意思相近的词语,基本不会改变语义信息;其次,替换过程中没有词语的增加或减少则不会造成语义缺失。此外,同义词替换能够生成特征相近的语句词向量表示,使得模型充分挖掘语句信息,增强了对相近语句的辨别能力,有助于提升事件检测准确率及模型的稳定性。而将替换产生的“新”数据输入模型进行训练,能够有效提升模型泛化能力。具体操作流程如算法1所示。
Figure 83641DEST_PATH_IMAGE117
本发明使用同义词替换的方式进行数据增强,以概率p随机替换句子中的非停用词,并将生成的新文档
Figure 535482DEST_PATH_IMAGE081
作为真实的标注数据,直接加入到原始的训练数据中,通过最小化损失函数进行模型的训练与更新。在本发明中,使用负对数似然函数
Figure 369839DEST_PATH_IMAGE082
作为损失函数:
Figure 856315DEST_PATH_IMAGE118
(15)
其中D为训练文档集,
Figure 350881DEST_PATH_IMAGE081
表示增强文档集。
Figure 788554DEST_PATH_IMAGE086
的对应的事件标签概率通过Softmax层计算为:
Figure 659558DEST_PATH_IMAGE119
(16)
Figure 266120DEST_PATH_IMAGE120
(17)
其中M是事件类型的数量,
Figure 433052DEST_PATH_IMAGE090
是当参数为
Figure 125065DEST_PATH_IMAGE091
时将事件类型j分配给文档d中的token
Figure 799760DEST_PATH_IMAGE086
的概率,
Figure 995249DEST_PATH_IMAGE092
是将
Figure 595732DEST_PATH_IMAGE086
分类为事件m的对应值,
Figure 775041DEST_PATH_IMAGE093
是参数矩阵,
Figure 722268DEST_PATH_IMAGE094
是偏置项,
Figure 303422DEST_PATH_IMAGE095
Figure 800439DEST_PATH_IMAGE086
与所有事件类型的对应值。
本发明的有益效果如下:
本发明为解决句子级事件检测的信息有限、事件跨句关联以及语料标注困难、数据不平衡等问题,提出了基于信息融合和数据增强的事件检测方法,跨句传播语义信息,有效提升了模型的稳定性和准确性。本发明将事件检测任务转换为一个序列到序列的问题,应用基于双向LSTM机制和编码器-解码器框架的神经网络模型充分地提取了文档级的上下文信息及事件相关性等特征,并通过基于Wordnet同义词替换的数据增强方式解决了小样本数据集的扩充和平衡问题。通过实验,模型在ACE2005和TAC-KBP2017两个数据集上都取得较好的结果,与其他模型相比更优。
本发明所使用的词语“优选的”意指用作实例、示例或例证。本发明描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本发明所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的存储方法。
综上所述,上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于信息融合和数据增强的篇章级事件检测方法,其特征在于,包括以下步骤:
使用词嵌入层,通过语句预训练得到词嵌入向量;
将所述词嵌入向量输入编码层提取句子的序列特征,并通过自注意力机制获得语句上下文信息;
将所述序列特征和上下文信息输入解码层以综合解码层信息处理的结果,解码得到每个token对应的事件标签向量;
将所述事件标签向量输入信息融合模块进行句子级的信息聚合,并将聚合后的前一句和后一句的事件信息作为当前语句的输入再次解码,通过迭代,实现跨句信息的不断传播;
将每次迭代得到的语句信息加权求和,并通过Softmax层得到最后的序列标注结果;
将数据集通过同义词替换增强后,加入模型进行训练。
2.根据权利要求1所述的基于信息融合和数据增强的篇章级事件检测方法,其特征在于,将事件检测任务视为一个序列到序列的标注问题,并使用BIO标注模式进行建模,其中“B”为begin,“B-X”表示此元素在片段的开始位置且所在的片段属于X类型;“I”为inside,“I-Y”表示此元素在片段的中间位置且所在的片段属于Y类型,“O”为outside,表示所在的片段不属于任何类型。
3.根据权利要求1所述的基于信息融合和数据增强的篇章级事件检测方法,其特征在于,通过串联每个token的词嵌入和NER类型嵌入得到其综合的词向量表示,其中,词嵌入矩阵由Skip-gram模型预训练,NER类型嵌入矩阵在训练过程中随机初始化和更新;对于给定的token
Figure 498913DEST_PATH_IMAGE001
,其综合嵌入向量表示为
Figure 524376DEST_PATH_IMAGE002
4.根据权利要求1所述的基于信息融合和数据增强的篇章级事件检测方法,其特征在于,将BiLSTM模型应用于句子级语义编码,获取每个token的序列信息和上下文信息,编码后的向量表示为
Figure 976217DEST_PATH_IMAGE003
5.根据权利要求1所述的基于信息融合和数据增强的篇章级事件检测方法,其特征在于,对于每个token
Figure 105847DEST_PATH_IMAGE001
,使用自注意力机制将句子中所有token的语义信息加权平均后,作为其远距离的上下文表示;
注意力权值为:
Figure 359367DEST_PATH_IMAGE004
Figure 119512DEST_PATH_IMAGE005
其中
Figure 58650DEST_PATH_IMAGE006
是当前时刻t第j个token的注意力权重,
Figure 195233DEST_PATH_IMAGE007
是第j个token的得分值,
Figure 300330DEST_PATH_IMAGE008
是任一token的得分值,
Figure 903481DEST_PATH_IMAGE009
是当前时刻t的目标状态,
Figure 595493DEST_PATH_IMAGE010
是所有的源状态,
Figure 517792DEST_PATH_IMAGE011
是参数矩阵,
Figure 978861DEST_PATH_IMAGE012
是偏置项;
由此,
Figure 346388DEST_PATH_IMAGE013
的上下文表示为
Figure 322434DEST_PATH_IMAGE014
,连接
Figure 33776DEST_PATH_IMAGE015
的词嵌入和上下文表示得到
Figure 349351DEST_PATH_IMAGE015
的最终语义表示为:
Figure 622201DEST_PATH_IMAGE016
,其中
Figure 462374DEST_PATH_IMAGE017
是第j个token的经过BiLSTM编码的语义向量,
Figure 478872DEST_PATH_IMAGE018
Figure 914532DEST_PATH_IMAGE015
经过注意力机制加权的语义向量,
Figure 358283DEST_PATH_IMAGE019
Figure 745140DEST_PATH_IMAGE015
的词嵌入表示;
将上下文向量c直接转化为
Figure 362066DEST_PATH_IMAGE020
,这等价于用退化的注意力权值表示,即:
Figure 652233DEST_PATH_IMAGE021
Figure 266885DEST_PATH_IMAGE022
是t时刻第
Figure 143967DEST_PATH_IMAGE023
个token的注意力权重,
Figure 502268DEST_PATH_IMAGE024
是t时刻
Figure 584624DEST_PATH_IMAGE015
的注意力权重;
先前涉及的事件信息辅助确定由第t个token触发的事件类型,这种关联由前向解码获取:
Figure 134292DEST_PATH_IMAGE025
Figure 997206DEST_PATH_IMAGE026
其中,
Figure 159197DEST_PATH_IMAGE027
是前向RNN,
Figure 892798DEST_PATH_IMAGE028
是前向RNN的状态值序列,
Figure 413034DEST_PATH_IMAGE029
是前向事件标签向量序列,t为对应时刻,
Figure 497665DEST_PATH_IMAGE030
是参数矩阵,
Figure 135451DEST_PATH_IMAGE031
是偏置项,
Figure 753251DEST_PATH_IMAGE032
是操作函数;
如果当前句子的后续语句提到关联事件,通过后向解码来捕获这种依赖关系:
Figure 880607DEST_PATH_IMAGE033
Figure 718113DEST_PATH_IMAGE034
其中
Figure 956328DEST_PATH_IMAGE035
是后向RNN,
Figure 482163DEST_PATH_IMAGE036
是后向RNN的状态值序列,
Figure 780420DEST_PATH_IMAGE037
是后向事件标签向量序列,t为对应时刻;
通过将
Figure 105223DEST_PATH_IMAGE029
Figure 412707DEST_PATH_IMAGE037
连接起来,利用双向解码来对句子中的事件相互关联性进行建模,得到事件标签向量
Figure 473942DEST_PATH_IMAGE038
,从而获取了双向事件的关联关系;由于
Figure 208680DEST_PATH_IMAGE039
为间接输入,因此
Figure 427302DEST_PATH_IMAGE040
还携带了语义信息和事件相关的实体信息。
6.根据权利要求5所述的基于信息融合和数据增强的篇章级事件检测方法,其特征在于,将所述事件标签向量输入信息融合模块进行句子级的信息聚合,包括:
对当前句子
Figure 39943DEST_PATH_IMAGE041
,采用另一个以事件标记向量
Figure 988307DEST_PATH_IMAGE040
作为输入的LSTM层,则第t个token处的信息为:
Figure 628367DEST_PATH_IMAGE042
Figure 458920DEST_PATH_IMAGE043
为第t-1个token处的信息,将最后一个状态
Figure 606742DEST_PATH_IMAGE044
作为一个句子的综合表示,即
Figure 144034DEST_PATH_IMAGE045
7.根据权利要求1所述的基于信息融合和数据增强的篇章级事件检测方法,其特征在于,通过用
Figure 892678DEST_PATH_IMAGE046
Figure 915254DEST_PATH_IMAGE047
扩展输入来整合跨句信息,
Figure 102653DEST_PATH_IMAGE046
是第
Figure 760030DEST_PATH_IMAGE048
个句子的综合表示,
Figure 804210DEST_PATH_IMAGE047
是第
Figure 311152DEST_PATH_IMAGE049
个句子的综合表示,并通过循环将相邻句子的信息迭代地聚合到当前句子,实现语句信息的跨句传播:
一个迭代结构由解码层和信息融合模块组成;对于给定的句子
Figure 302242DEST_PATH_IMAGE041
,第k次迭代的输出用下式计算:
Figure 814126DEST_PATH_IMAGE050
Figure 232469DEST_PATH_IMAGE051
Figure 964058DEST_PATH_IMAGE052
Figure 430943DEST_PATH_IMAGE053
Figure 62912DEST_PATH_IMAGE054
其中,
Figure 150692DEST_PATH_IMAGE055
是在第
Figure 71374DEST_PATH_IMAGE056
轮迭代中聚集的
Figure 386292DEST_PATH_IMAGE057
的语句信息,
Figure 607189DEST_PATH_IMAGE058
是在第
Figure 305017DEST_PATH_IMAGE056
轮迭代中聚集的
Figure 8269DEST_PATH_IMAGE059
的语句信息,
Figure 879273DEST_PATH_IMAGE060
是在第k轮迭代中t时刻获得的事件标签向量序列,故
Figure 220256DEST_PATH_IMAGE061
是t-1时刻的前向事件标签向量,
Figure 213619DEST_PATH_IMAGE062
是t-1时刻的后向事件标签向量;对于源序列语句
Figure 141517DEST_PATH_IMAGE041
的每个token,跨句信息的输入一致为
Figure 816212DEST_PATH_IMAGE063
8.根据权利要求7所述的基于信息融合和数据增强的篇章级事件检测方法,其特征在于,在第一轮迭代中,解码层和信息融合模块对当前句子的信息进行建模;在第二轮中,通过将
Figure 949385DEST_PATH_IMAGE064
Figure 815447DEST_PATH_IMAGE065
输入到双向解码,把相邻句子的信息传播到当前语句;在第
Figure 463597DEST_PATH_IMAGE066
轮,由于
Figure 738721DEST_PATH_IMAGE067
捕获了在第
Figure 319875DEST_PATH_IMAGE068
轮中的句子
Figure 828610DEST_PATH_IMAGE069
的信息,则
Figure 167319DEST_PATH_IMAGE070
可以通过获取
Figure 183816DEST_PATH_IMAGE067
中的信息来获取
Figure 852433DEST_PATH_IMAGE069
中的信息;对于
Figure 92921DEST_PATH_IMAGE071
轮迭代的模型,可以获取距离最长为
Figure 246822DEST_PATH_IMAGE072
层的句子信息。
9.根据权利要求1所述的基于信息融合和数据增强的篇章级事件检测方法,其特征在于,对于拥有不同迭代轮数的模型,最终将
Figure 801431DEST_PATH_IMAGE001
的事件标签向量定义为各轮中
Figure 265167DEST_PATH_IMAGE073
的加权和,即:
Figure 879819DEST_PATH_IMAGE074
其中
Figure 52174DEST_PATH_IMAGE075
是权重衰减参数,当
Figure 909010DEST_PATH_IMAGE076
时,各层信息的贡献度随着距离的增加而逐渐减小。
10.根据权利要求1所述的基于信息融合和数据增强的篇章级事件检测方法,其特征在于,使用同义词替换的方法在保留语义的情况下生成尽量多符合语法结构的伪数据,再将替换产生的新数据输入模型进行训练,提升模型泛化能力,具体包括以下步骤:
使用同义词替换的方式进行数据增强,以概率p随机替换句子中的非停用词,并将生成的新文档
Figure 53683DEST_PATH_IMAGE077
作为真实的标注数据,直接加入到原始的训练数据中,通过最小化损失函数进行模型的训练与更新;使用负对数似然函数
Figure 511340DEST_PATH_IMAGE078
作为损失函数:
Figure 598421DEST_PATH_IMAGE079
其中
Figure 760412DEST_PATH_IMAGE080
是训练文档集和增强文档集的合集,D为训练文档集,
Figure 821909DEST_PATH_IMAGE077
表示增强文档集,s是语句集,
Figure 778364DEST_PATH_IMAGE081
是将
Figure 627109DEST_PATH_IMAGE082
分类为事件
Figure 999316DEST_PATH_IMAGE083
的对应值;
Figure 853002DEST_PATH_IMAGE082
的对应的事件标签概率通过Softmax层计算为:
Figure 544140DEST_PATH_IMAGE084
Figure 116067DEST_PATH_IMAGE085
其中M是事件类型的数量,
Figure 619860DEST_PATH_IMAGE086
是当参数为
Figure 764271DEST_PATH_IMAGE087
时将事件类型j分配给文档d中的token
Figure 328108DEST_PATH_IMAGE082
的概率,
Figure 652910DEST_PATH_IMAGE088
是将
Figure 429236DEST_PATH_IMAGE082
分类为事件m的对应值,
Figure 821297DEST_PATH_IMAGE089
是参数矩阵,
Figure 556034DEST_PATH_IMAGE090
是偏置项,
Figure 836974DEST_PATH_IMAGE091
Figure 948150DEST_PATH_IMAGE082
与所有事件类型的对应值。
CN202211472983.XA 2022-11-23 2022-11-23 基于信息融合和数据增强的篇章级事件检测方法 Pending CN115510236A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211472983.XA CN115510236A (zh) 2022-11-23 2022-11-23 基于信息融合和数据增强的篇章级事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211472983.XA CN115510236A (zh) 2022-11-23 2022-11-23 基于信息融合和数据增强的篇章级事件检测方法

Publications (1)

Publication Number Publication Date
CN115510236A true CN115510236A (zh) 2022-12-23

Family

ID=84513711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211472983.XA Pending CN115510236A (zh) 2022-11-23 2022-11-23 基于信息融合和数据增强的篇章级事件检测方法

Country Status (1)

Country Link
CN (1) CN115510236A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701576A (zh) * 2023-08-04 2023-09-05 华东交通大学 无触发词的事件检测方法和系统
CN117236436A (zh) * 2023-11-16 2023-12-15 江西师范大学 基于外部知识的跨句多层双向网络事件检测方法
CN117670571A (zh) * 2024-01-30 2024-03-08 昆明理工大学 基于异构消息图关系嵌入的增量式社交媒体事件检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177417A (zh) * 2021-05-20 2021-07-27 辽宁师范大学 一种基于混合神经网络和多级注意力机制的触发词识别方法
CN113761936A (zh) * 2021-08-19 2021-12-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN114580428A (zh) * 2022-01-24 2022-06-03 中国电子科技集团公司第十五研究所 融合多任务和多标签学习的司法领域深度事件抽取方法
CN114706975A (zh) * 2022-01-19 2022-07-05 天津大学 引入数据增强的sa-lstm对停电新闻的文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177417A (zh) * 2021-05-20 2021-07-27 辽宁师范大学 一种基于混合神经网络和多级注意力机制的触发词识别方法
CN113761936A (zh) * 2021-08-19 2021-12-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN114706975A (zh) * 2022-01-19 2022-07-05 天津大学 引入数据增强的sa-lstm对停电新闻的文本分类方法
CN114580428A (zh) * 2022-01-24 2022-06-03 中国电子科技集团公司第十五研究所 融合多任务和多标签学习的司法领域深度事件抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DONGFANG LOU ET AL.: "MLBiNet: A Cross-Sentence Collective Event Detection Network", 《PROCEEDINGS OF THE 59TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS AND THE 11TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701576A (zh) * 2023-08-04 2023-09-05 华东交通大学 无触发词的事件检测方法和系统
CN116701576B (zh) * 2023-08-04 2023-10-10 华东交通大学 无触发词的事件检测方法和系统
CN117236436A (zh) * 2023-11-16 2023-12-15 江西师范大学 基于外部知识的跨句多层双向网络事件检测方法
CN117670571A (zh) * 2024-01-30 2024-03-08 昆明理工大学 基于异构消息图关系嵌入的增量式社交媒体事件检测方法
CN117670571B (zh) * 2024-01-30 2024-04-19 昆明理工大学 基于异构消息图关系嵌入的增量式社交媒体事件检测方法

Similar Documents

Publication Publication Date Title
Zhou et al. A comprehensive survey on pretrained foundation models: A history from bert to chatgpt
CN110390397B (zh) 一种文本蕴含识别方法及装置
CN115510236A (zh) 基于信息融合和数据增强的篇章级事件检测方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
Yang et al. Rits: Real-time interactive text steganography based on automatic dialogue model
CN109189862A (zh) 一种面向科技情报分析的知识库构建方法
CN111985205A (zh) 一种方面级情感分类模型
CN111666756B (zh) 一种基于主题融合的序列模型文本摘要生成方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115329088B (zh) 图神经网络事件检测模型的鲁棒性分析方法
Gao et al. Generating natural adversarial examples with universal perturbations for text classification
CN116204674A (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
Zhao et al. Video captioning based on vision transformer and reinforcement learning
CN113268985B (zh) 基于关系路径的远程监督关系抽取方法、装置及介质
Wu et al. Context-aware style learning and content recovery networks for neural style transfer
Gao et al. Chinese causal event extraction using causality‐associated graph neural network
CN114881038B (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN113822018B (zh) 实体关系联合抽取方法
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与系统
CN115422945A (zh) 一种融合情感挖掘的谣言检测方法及系统
CN115659172A (zh) 基于关键信息掩码与拷贝的生成式文本摘要方法
CN113220825B (zh) 面向个人推文的话题情感倾向性预测模型的建模方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221223