CN114490954B - 一种基于任务调节的文档级生成式事件抽取方法 - Google Patents

一种基于任务调节的文档级生成式事件抽取方法 Download PDF

Info

Publication number
CN114490954B
CN114490954B CN202210403218.6A CN202210403218A CN114490954B CN 114490954 B CN114490954 B CN 114490954B CN 202210403218 A CN202210403218 A CN 202210403218A CN 114490954 B CN114490954 B CN 114490954B
Authority
CN
China
Prior art keywords
event
prefix
decoder
type
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210403218.6A
Other languages
English (en)
Other versions
CN114490954A (zh
Inventor
吴桐桐
康婧淇
漆桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210403218.6A priority Critical patent/CN114490954B/zh
Publication of CN114490954A publication Critical patent/CN114490954A/zh
Application granted granted Critical
Publication of CN114490954B publication Critical patent/CN114490954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于任务调节的文档级生成式事件抽取方法,包括以下步骤:构建基于任务调节的文档级生成式事件抽取框架;根据事件抽取任务的事件类型来创建编码器前缀,然后注入编码器;根据事件抽取任务的事件类型和输入文档的词元表示来创建解码器前缀,然后注入解码器;利用最小负对数似然损失函数来训练事件抽取神经网络模型,并且在测试过程中使用约束解码算法;该方案构建了一个生成式事件抽取模型,它将事件类型作为前缀注入基于Transformer模型的每一层,有效提升了模型的F1值,在文档级和零样本事件抽取任务中表现出优越的性能,实现了有效的零样本学习和监督学习,在三个主流数据集上均取得了最先进的效果。

Description

一种基于任务调节的文档级生成式事件抽取方法
技术领域
本发明属于计算机自然语言处理领域,具体涉及一种基于任务调节的文档级生成式事件抽取方法。
背景技术
事件抽取任务主要研究从自然语言文本中抽取出用户感兴趣的事件并以结构化的形式呈现出来,如图1所示,事件抽取技术可以从文本中自动挖掘什么人或者组织,在什么时间,在什么地方,做了什么事情。事件抽取将非结构化文本中的事件信息展现为结构化形式,在舆情监测、文本摘要、自动问答、事理图谱自动构建等领域有着重要应用。由于文本中可能存在句式复杂,主被动转换,多事件主客体共享等难点,因此事件抽取是一项极具挑战的抽取任务。特别地,文档中包含的文本更长,事件种类更加丰富,这增加了事件抽取任务的难度。零样本学习是检测模型在训练中从未见过的类的能力。它类似于我们人类在没有明确监督的情况下归纳和识别新事物的能力,对于模型来说显然具有一定难度。
现有的事件抽取方法大致可以分为三类,分别是基于模板和规则的方法,基于机器学习的方法和基于深度学习的方法。基于模板和规则的方法通过定义语义框架和短语模式来表示特定领域事件的抽取模式。基于模式匹配的抽取方法基本都是通过句法和语义约束来进行识别,因此模板准确性是影响整个方法性能的重要因素。基于机器学习的方法把事件抽取看作传统的分类任务,依赖依存分析、句法分析、词性标注等自然语言处理工具。传统机器学习方法建立在统计模型的基础上,通常通过将复杂结构预测任务分解为多个子任务来抽取事件记录。复杂事件结构的预测可以分解为多个子任务,然后结合不同组件来预测整个事件结构。相关研究的实验结果表明,基于深度学习的事件抽取方法可以自主学习特征,在触发器分类和事件角色分类的性能都优于传统方法。但是,大多数事件抽取方法采用基于分解的方法,将复杂事件的结构化预测问题分解为子结构上的分类。其中许多方法分别进行触发词检测、实体识别和论元分类,每个阶段都需要外部注释。
基于生成的抽取技术降低了问题表述的复杂性,并且能够利用大型预训练语言模型的推理能力。但是,它们仍然存在零样本学习任务上泛化能力差的问题,并且在处理篇章级事件抽取任务时效率低下。因此,传统基于生成的事件抽取方法在处理长文本和零样本学习任务这两方面仍有局限性。
发明内容
为了克服现有技术中存在的不足,提供一种基于任务调节的文档级生成式事件抽取方法,该方法以Transformer模型为基础,创造性地加入了任务调节前缀方法,能够较好地解决“长文本”和“零样本学习”的问题。
为实现上述目的,本发明的技术方案如下:一种基于任务调节的文档级生成式事件抽取方法,包括以下步骤:
S1:构建基于任务调节的文档级生成式事件抽取框架,将事件名称信息作为前缀注入基于编码器-解码器语言模型的每一层,从而实现有效的零样本学习和改进的监督学习;
S2:根据事件抽取任务的事件类型来创建编码器前缀,然后注入编码器;
S3:根据事件抽取任务的事件类型和输入文档的词元表示来创建解码器前缀,然后注入解码器;
S4:利用最小负对数似然损失函数来训练事件抽取神经网络模型,并且在测试过程中采用约束解码算法,利用事件模式来指导生成过程,通过这种方式在动态推理过程中注入和利用事件知识;
S5:重复步骤S2-S4,直至没有新的任务需要进行处理。
其中,编码器前缀,其具体特征为:由事件类型的编码表示经过映射函数处理得到,可以理解为影响生成编码器调节过程的伪前缀标记。
其中,编码器前缀,其生成方法为:将事件类型的编码表示经过多层感知机网络处理成键-值对表示结构。
其中,所述步骤S2中编码器前缀的计算过程为:
S21:记给定任务事件类型为
Figure 193997DEST_PATH_IMAGE001
,使用编码器得到事件抽取任务的编码表示为
Figure 314399DEST_PATH_IMAGE002
,然后通过平均汇聚函数
Figure 297399DEST_PATH_IMAGE003
来组合这些事件表示,以创建事件调节上下文,其数学描述为:
Figure 145138DEST_PATH_IMAGE004
,其中,
Figure 428352DEST_PATH_IMAGE005
表示向量空间,
Figure 454077DEST_PATH_IMAGE006
表示事件集合,
Figure 689753DEST_PATH_IMAGE007
表示事件类型,
Figure 91916DEST_PATH_IMAGE008
表示事件类型的数量,
Figure 964057DEST_PATH_IMAGE009
表示向量空间的维度,
Figure 675530DEST_PATH_IMAGE010
表示事件类型的编码表示,
Figure 633121DEST_PATH_IMAGE011
代表任务的编码表示,
Figure 573395DEST_PATH_IMAGE012
表示平均汇聚函数,其实现结构为向量的按行求平均运算;
S22:通过映射函数
Figure 50775DEST_PATH_IMAGE013
来生成前缀,并将其注入编码器,其中
Figure 683882DEST_PATH_IMAGE014
表示编码器前缀,
Figure 394349DEST_PATH_IMAGE015
表示映射函数,其实现结构为一个三层全联接神经网络,
Figure 122003DEST_PATH_IMAGE016
表示事件类型的编码表示;
Figure 968736DEST_PATH_IMAGE017
是Transformer架构中维护的第
Figure 254967DEST_PATH_IMAGE018
个注入前缀的参数数量,该方法有助于提高模型对于事件抽取任务的泛化能力。
其中,所述解码器前缀,其具体特征为:由事件类型的编码表示和事件文档的编码表示经过映射函数处理得到,可以理解为影响生成解码器调节过程的伪前缀标记。
其中,所述的解码器前缀,其生成方法为:将事件类型的编码表示和事件文档的编码表示经过多层感知机网络处理成键-值对表示结构。
其中,所述步骤S3中为解码器创建前缀的方法具体为:
S31:使用基于向量点积的交叉注意力函数
Figure 187151DEST_PATH_IMAGE019
来组合文档的编码表示
Figure 734807DEST_PATH_IMAGE020
和任务的编码表示
Figure 685315DEST_PATH_IMAGE021
,其数学描述为:
Figure 925803DEST_PATH_IMAGE022
其中,
Figure 79704DEST_PATH_IMAGE023
是交叉注意力函数,其实现结构为向量的点积运算,
Figure 916204DEST_PATH_IMAGE024
是用于解码器调节的固定维度拼接向量,
Figure 471950DEST_PATH_IMAGE025
表示事件文档的解码器表示,
Figure 883340DEST_PATH_IMAGE026
表示事件类型的解码器表示,
Figure 773804DEST_PATH_IMAGE027
表示向量空间的维度;
S32:通过映射函数
Figure 397684DEST_PATH_IMAGE028
来生成前缀,并将其注入解码器,其中
Figure 73516DEST_PATH_IMAGE029
表示解码器前缀,
Figure 409469DEST_PATH_IMAGE030
表示映射函数,其实现结构为一个三层全联接神经网络,
Figure 537962DEST_PATH_IMAGE031
表示注入前缀的长度,
Figure 965532DEST_PATH_IMAGE032
是Transformer架构中维护的第
Figure 745138DEST_PATH_IMAGE018
个注入前缀的参数数量,
Figure 232751DEST_PATH_IMAGE024
是用于解码器调节的固定维度拼接向量,
Figure 114120DEST_PATH_IMAGE025
表示事件文档的解码器表示,
Figure 96113DEST_PATH_IMAGE026
表示事件类型的解码器表示,
Figure 746538DEST_PATH_IMAGE033
表示向量空间的维度。该方法通过融合实例表示与任务表示,提高模型处理当前实例中所包含事件的抽取性能。
其中,所述步骤S4中损失函数公式包括最小负对数似然损失函数公式和条件概率计算公式。
其中,所述步骤S4中最小负对数似然损失函数的计算公式如下:
Figure 873894DEST_PATH_IMAGE034
其中,
Figure 491826DEST_PATH_IMAGE035
表示最优参数,
Figure 261199DEST_PATH_IMAGE036
为训练集,
Figure 31708DEST_PATH_IMAGE037
表示事件类型,
Figure 343348DEST_PATH_IMAGE038
表示事件文档描述,
Figure 933729DEST_PATH_IMAGE039
表示生成式事件抽取的最终生成序列结果,
Figure 772372DEST_PATH_IMAGE040
表示神经网络的参数,
Figure 115498DEST_PATH_IMAGE041
表示最小负对数似然损失函数。
其中,最小负对数似然损失函数,其中条件概率计算公式如下:
Figure 115815DEST_PATH_IMAGE042
其中,
Figure 193492DEST_PATH_IMAGE043
表示最小负对数似然损失函数,
Figure 320979DEST_PATH_IMAGE037
表示事件类型,
Figure 534923DEST_PATH_IMAGE038
表示事件文档描述,
Figure 706141DEST_PATH_IMAGE044
表示文本生成过程中的第
Figure 520382DEST_PATH_IMAGE044
个位置,
Figure 435249DEST_PATH_IMAGE045
表示生成序列中位置
Figure 769278DEST_PATH_IMAGE044
之前的生成序列,
Figure 853341DEST_PATH_IMAGE046
表示生成序列中位置
Figure 640031DEST_PATH_IMAGE044
处的生成词,
Figure 358589DEST_PATH_IMAGE047
表示最终生成序列的长度,
Figure 796392DEST_PATH_IMAGE039
表示生成式事件抽取的最终生成序列结果。
对于事件抽取方法,有三个指标可以衡量其性能,分别是精确率、召回率和F1值,其中精确率是针对预测结果而言的,它表示预测为正的样本中有多少是真正的正样本;召回率是针对原来的样本而言的,它表示样本中的正例有多少被预测正确了。单独使用精确率和召回率不能全面衡量模型的性能,F 1是精准率和召回率的调和平均值,其计算公式为:
Figure 574992DEST_PATH_IMAGE048
其中,
Figure 848979DEST_PATH_IMAGE049
表示精准率,
Figure 856380DEST_PATH_IMAGE050
表示召回率。
有益效果:本发明与现有技术相比,将事件类型信息作为前缀注入到事件抽取模型中,以实现零样本学习能力,前缀生成器中的交叉注意力机制也有助于的文档处理,显著提高了模型的F1值,在完全监督和零样本设置下实现了文档级事件抽取的最优性能,在主流的数据集上都验证了该模型的有效性,Text2Event是事件抽取任务的最优方法,基于监督学习场景下的RAMS数据集,本发明方法比Text2Event 在Arg-C和Trig-C分别高出1.0和1.3个F1分数;基于监督学习场景下的WIKIEVENTS数据集,本发明方法比Text2Event 在Arg-C和Trig-C分别高出11.5和10.6个F1分数。基于零样本学习场景下的ACE05-EN数据集,本发明方法比Text2Event 在Arg-C和Trig-C分别高出25.8和30.1个F1分数;基于零样本学习场景下的WIKIEVENTS数据集,本发明方法比Text2Event 在Arg-C和Trig-C分别高出9.4和25.6个F1分数。
附图说明
图1是事件抽取中的触发词识别、事件分类及论元抽取示例图;
图2是本发明实施例的基于任务调节的文档级生成式事件抽取框架的流程图;
图3是本发明实施例中的事件抽取神经网络模型的结构。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
实施例1:参见图2-图3,一种基于任务调节的文档级生成式事件抽取方法,包括以下步骤:
S1:构建基于任务调节的文档级生成式事件抽取框架,将事件名称信息作为前缀注入基于编码器-解码器语言模型的每一层,从而实现有效的零样本学习和改进的监督学习;
S2:根据事件抽取任务的事件类型来创建编码器前缀,然后注入编码器;
S3:根据事件抽取任务的事件类型和输入文档的词元表示来创建解码器前缀,然后注入解码器;
S4:利用最小负对数似然损失函数来训练事件抽取神经网络模型,并且在测试过程中采用约束解码算法,利用事件模式来指导生成过程,通过这种方式在动态推理过程中注入和利用事件知识;
S5:重复步骤S2-S4,直至没有新的任务需要进行处理。
其中,编码器前缀,其具体特征为:由事件类型的编码表示经过映射函数处理得到,可以理解为影响生成编码器调节过程的伪前缀标记。
其中,编码器前缀,其生成方法为:将事件类型的编码表示经过多层感知机网络处理成键-值对表示结构。
其中,所述步骤S2中编码器前缀的计算过程为:
S21:记给定任务事件类型为
Figure 165002DEST_PATH_IMAGE051
,使用编码器得到事件抽取任务的编码表示为
Figure 848924DEST_PATH_IMAGE052
,然后通过平均汇聚函数
Figure 593895DEST_PATH_IMAGE053
来组合这些事件表示,以创建事件调节上下文,其数学描述为:
Figure 919834DEST_PATH_IMAGE054
,其中,
Figure 817383DEST_PATH_IMAGE005
表示向量空间,
Figure 937786DEST_PATH_IMAGE006
表示事件集合,
Figure 934167DEST_PATH_IMAGE007
表示事件类型,
Figure 532639DEST_PATH_IMAGE008
表示事件类型的数量,
Figure 550273DEST_PATH_IMAGE055
表示向量空间的维度,
Figure 90845DEST_PATH_IMAGE010
表示事件类型的编码表示,
Figure 561141DEST_PATH_IMAGE056
代表任务的编码表示,
Figure 228882DEST_PATH_IMAGE057
表示平均汇聚函数,其实现结构为向量的按行求平均运算;
S22:通过映射函数
Figure 586177DEST_PATH_IMAGE013
来生成前缀,并将其注入编码器,其中
Figure 48382DEST_PATH_IMAGE014
表示编码器前缀,
Figure 255241DEST_PATH_IMAGE015
表示映射函数,其实现结构为一个三层全联接神经网络,
Figure 461095DEST_PATH_IMAGE016
表示事件类型的编码表示,
Figure 187742DEST_PATH_IMAGE017
是Transformer架构中维护的第
Figure 86428DEST_PATH_IMAGE018
个注入前缀的参数数量,该方法有助于提高模型对于事件抽取任务的泛化能力。
其中,所述解码器前缀,其具体特征为:由事件类型的编码表示和事件文档的编码表示经过映射函数处理得到,可以理解为影响生成解码器调节过程的伪前缀标记。
其中,所述的解码器前缀,其生成方法为:将事件类型的编码表示和事件文档的编码表示经过多层感知机网络处理成键-值对表示结构。
其中,所述步骤S3中为解码器创建前缀的方法具体为:
S31:使用基于向量点积的交叉注意力函数
Figure 753820DEST_PATH_IMAGE058
来组合文档的编码表示
Figure 497785DEST_PATH_IMAGE020
和任务的编码表示
Figure 593785DEST_PATH_IMAGE021
,其数学描述为:
Figure 397793DEST_PATH_IMAGE059
其中,
Figure 329977DEST_PATH_IMAGE060
是交叉注意力函数,其实现结构为向量的点积运算,
Figure 362787DEST_PATH_IMAGE024
是用于解码器调节的固定维度拼接向量,
Figure 64026DEST_PATH_IMAGE025
表示事件文档的解码器表示,
Figure 773356DEST_PATH_IMAGE026
表示事件类型的解码器表示,
Figure 127590DEST_PATH_IMAGE027
表示向量空间的维度;
S32:通过映射函数
Figure 636194DEST_PATH_IMAGE028
来生成前缀,并将其注入解码器,其中
Figure 441208DEST_PATH_IMAGE029
表示解码器前缀,
Figure 587018DEST_PATH_IMAGE061
表示映射函数,其实现结构为一个三层全联接神经网络,
Figure 228215DEST_PATH_IMAGE031
表示注入前缀的长度,
Figure 351896DEST_PATH_IMAGE032
是Transformer架构中维护的第
Figure 293307DEST_PATH_IMAGE018
个注入前缀的参数数量,
Figure 593707DEST_PATH_IMAGE024
是用于解码器调节的固定维度拼接向量,
Figure 987780DEST_PATH_IMAGE025
表示事件文档的解码器表示,
Figure 415350DEST_PATH_IMAGE026
表示事件类型的解码器表示,
Figure 696421DEST_PATH_IMAGE033
表示向量空间的维度。
该方法通过融合实例表示与任务表示,提高模型处理当前实例中所包含事件的抽取性能。
其中,所述步骤S4中损失函数公式包括最小负对数似然损失函数公式和条件概率计算公式;
其中,所述步骤S4中最小负对数似然损失函数的计算公式如下:
Figure 449613DEST_PATH_IMAGE062
其中,
Figure 65402DEST_PATH_IMAGE035
表示最优参数,
Figure 280352DEST_PATH_IMAGE036
为训练集,
Figure 930776DEST_PATH_IMAGE037
表示事件类型,
Figure 589290DEST_PATH_IMAGE038
表示事件文档描述,
Figure 957955DEST_PATH_IMAGE039
表示生成式事件抽取的最终生成序列结果,
Figure 943972DEST_PATH_IMAGE040
表示神经网络的参数,
Figure 901433DEST_PATH_IMAGE041
表示最小负对数似然损失函数。
其中,最小负对数似然损失函数,其中条件概率计算公式如下:
Figure 199690DEST_PATH_IMAGE063
其中,
Figure 45198DEST_PATH_IMAGE043
表示最小负对数似然损失函数,
Figure 821524DEST_PATH_IMAGE037
表示事件类型,
Figure 899071DEST_PATH_IMAGE038
表示事件文档描述,
Figure 116032DEST_PATH_IMAGE044
表示文本生成过程中的第
Figure 396972DEST_PATH_IMAGE044
个位置,
Figure 491836DEST_PATH_IMAGE045
表示生成序列中位置
Figure 705779DEST_PATH_IMAGE044
之前的生成序列,
Figure 627730DEST_PATH_IMAGE046
表示生成序列中位置
Figure 927124DEST_PATH_IMAGE044
处的生成词,
Figure 576411DEST_PATH_IMAGE047
表示最终生成序列的长度,
Figure 159708DEST_PATH_IMAGE039
表示生成式事件抽取的最终生成序列结果。
实施例2:本实施例中采用基于Transformer的编码器-解码器架构作为事件抽取神经网络模型,其结构如图3所示。
本实施例中应用本发明提供的一种基于任务调节的文档级生成式事件抽取方法,如图2所示,其具体包括如下步骤:
步骤1)根据事件类型构建编码器的任务调节,然后使用多层感知器MLP神经网络注入编码器的任务调节。
首先利用Transformer的编码器模块对所有事件类型进行编码,得到事件类型的嵌入表示Type 1、Type 2、…、Type n,然后通过汇聚操作得到
Figure 501828DEST_PATH_IMAGE064
,其中n表示事件类型的种类数量,e表示事件类型,enc表示编码器。然后通过函数
Figure 554098DEST_PATH_IMAGE065
生成编码器的前缀,该函数的变量是经过汇聚后的事件类型嵌入表示
Figure 483440DEST_PATH_IMAGE066
,具体来说,通过一个三层MLP神经网络,编码器的每一层生成一组
Figure 937555DEST_PATH_IMAGE067
个键和值,其中
Figure 450576DEST_PATH_IMAGE067
表示注入前缀的长度。最后将前缀和文档编码的嵌入进行组合,然后作为编码器的输入。
步骤2)根据事件类型和文档词元表示构造解码器的任务调节,然后使用多层感知器MLP神经网络注入解码器的任务调节。
通过一个双元函数
Figure 973830DEST_PATH_IMAGE068
生成解码器的前缀,该函数的一个变量是输入文档的编码表示
Figure 230499DEST_PATH_IMAGE069
,另一个变量是步骤1得到的任务的编码表示
Figure 24274DEST_PATH_IMAGE070
,然后计算这两个矩阵的交叉注意力,得到对事件类型比较重要的词元,然后对词元进行加权求和, 分别得到新的事件文档的解码器表示
Figure 973775DEST_PATH_IMAGE071
和新的事件类型的解码器表示
Figure 469479DEST_PATH_IMAGE072
;将上述两个向量进行拼接,再输入一个三层MLP神经网络,该网络和步骤1中的结构类似,唯一的区别是输入维度变长,步骤1中MLP结构的输入只有事件类型向量,而步骤2中MLP结构的输入中同时包含事件类型向量和文档词元向量。解码器按顺序生成每个词元以生成事件序列。
步骤3)利用最小负对数似然损失函数来训练事件抽取神经网络模型,并且在测试过程中采用约束解码算法;为了验证本发明方法的效果,本实施例将本发明方法与Text2Event方法进行性能对比,分别基于句子级事件抽取数据集ACE05-EN、文档级事件抽取数据集RAMS和WIKIEVENTS展开实验,其中WIKIEVENTS具有更长的上下文、更多的事件实例和更少的训练数据,同时满足长文本和低资源条件。监督学习场景下的对比结果如表1所示,零样本学习场景下的对比结果如表2所示,实验中的前缀长度设置为20。Arg-C衡量论元是否正确识别和分类,Trig-C衡量触发词是否正确识别和分类。基于监督学习场景下的RAMS数据集,本发明方法比Text2Event 在Arg-C和Trig-C分别高出1.0和1.3个F1分数;基于监督学习场景下的WIKIEVENTS数据集,本发明方法比Text2Event 在Arg-C和Trig-C分别高出11.5和10.6个F1分数。基于零样本学习场景下的ACE05-EN数据集,本发明方法比Text2Event 在Arg-C和Trig-C分别高出25.8和30.1个F1分数;基于零样本学习场景下的WIKIEVENTS数据集,本发明方法比Text2Event 在Arg-C和Trig-C分别高出9.4和25.6个F1分数。 由此可知,无论是监督学习设置还是零样本学习设置,本发明方法在三个数据集上的表现都比Text2Event更具竞争力。这表明本发明所提出的方法能够有效解决文档级和零样本学习事件抽取任务。
表1:本发明方法与目前存在方法在监督学习场景下的性能对比表;
Figure 795418DEST_PATH_IMAGE073
表2:本发明方法与目前存在方法在零样本学习场景下的性能对比表;
Figure 942234DEST_PATH_IMAGE074
综上所述,本发明方法基于句子级事件抽取数据集ACE05-EN、文档级事件抽取数据集RAMS和WIKIEVENTS,以Transformer模型为事件抽取神经网络,结合Prompt思想,提出了一种具有的文档级事件抽取方法。通过使用该方法可以在零样本学习的场景中训练出效果更好的事件抽取神经网络模型,并构建出事件抽取系统。
需要说明的是上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的基础上做出的等同替换或者替代,均属于本发明的保护范围。

Claims (4)

1.一种基于任务调节的文档级生成式事件抽取方法,其特征在于,包括以下步骤:
S1:构建基于任务调节的文档级生成式事件抽取框架,将事件名称信息作为前缀注入基于编码器-解码器语言模型的每一层;
S2:根据事件抽取任务的事件类型来创建编码器前缀,然后注入编码器;
S3:由事件类型的编码表示和事件文档的编码表示来创建解码器前缀,然后注入解码器;
S4:利用最小负对数似然损失函数来训练事件抽取神经网络模型,并且在测试过程中采用约束解码算法,利用事件模式来指导生成过程,通过这种方式在动态推理过程中注入和利用事件知识;
S5:重复步骤S2-S4,直至没有新的任务需要进行处理,最终加载所训练的事件抽取神经网络模型至事件抽取系统中,并利用该系统进行事件抽取;
编码器前缀,其具体特征为:由事件类型的编码表示经过映射函数处理得到,为影响生成编码器调节过程的伪前缀标记;
编码器前缀,其生成方法为:将事件类型的编码表示经过多层感知机网络处理成键-值对表示结构;
所述步骤S2中编码器前缀的计算过程为:
S21:记给定任务事件类型集合为
Figure 657833DEST_PATH_IMAGE001
,使用编码器得到事件抽取任务的编码表示为
Figure 49631DEST_PATH_IMAGE002
,然后通过平均汇聚函数
Figure 156127DEST_PATH_IMAGE003
来组合这些事件表示,以创建事件调节上下文,其数学描述为:
Figure 633376DEST_PATH_IMAGE004
,其中,
Figure 421203DEST_PATH_IMAGE005
表示向量空间,
Figure 57721DEST_PATH_IMAGE006
表示事件集合,
Figure 944906DEST_PATH_IMAGE007
表示任务事件类型集合,
Figure 768505DEST_PATH_IMAGE008
表示事件类型的数量,
Figure 360023DEST_PATH_IMAGE009
表示向量空间的维度,
Figure 959370DEST_PATH_IMAGE010
表示事件类型的编码表示,
Figure 407669DEST_PATH_IMAGE011
代表任务的编码表示,
Figure 187406DEST_PATH_IMAGE012
表示平均汇聚函数,其实现结构为向量的按行求平均运算;
S22:通过映射函数来生成前缀
Figure 989140DEST_PATH_IMAGE013
,并将其注入编码器,其中
Figure 334670DEST_PATH_IMAGE014
表示编码器前缀,映射函数的表达式为:
Figure 829237DEST_PATH_IMAGE015
,其实现结构为一个三层全联接神经网络,
Figure 830691DEST_PATH_IMAGE016
表示事件类型的编码表示,
Figure 295170DEST_PATH_IMAGE017
是Transformer架构中维护的第
Figure 636153DEST_PATH_IMAGE018
个注入前缀的参数数量,
Figure 426254DEST_PATH_IMAGE008
表示事件类型的数量;
所述解码器前缀,其具体特征为:由事件类型的编码表示和事件文档的编码表示经过映射函数处理得到,为影响生成解码器调节过程的伪前缀标记;
所述解码器前缀,其生成方法为:将事件类型的编码表示和事件文档的编码表示经过多层感知机网络处理成键-值对表示结构;
所述步骤S3中为解码器创建前缀的方法具体为:
S31:使用基于向量点积的交叉注意力函数
Figure 649425DEST_PATH_IMAGE019
来组合文档的编码表示
Figure 557076DEST_PATH_IMAGE020
和任务的编码表示
Figure 877199DEST_PATH_IMAGE021
,其数学描述为:
Figure 447989DEST_PATH_IMAGE022
,其中,
Figure 424035DEST_PATH_IMAGE023
是交叉注意力函数,其实现结构为向量的点积运算,
Figure 495896DEST_PATH_IMAGE024
是用于解码器调节的固定维度拼接向量,
Figure 545892DEST_PATH_IMAGE025
表示事件文档的解码器表示,
Figure 677796DEST_PATH_IMAGE026
表示事件类型的解码器表示,
Figure 875559DEST_PATH_IMAGE027
表示向量空间的维度;
Figure 892057DEST_PATH_IMAGE008
表示事件类型的数量,
S32:通过映射函数来生成前缀
Figure 921193DEST_PATH_IMAGE028
,并将其注入解码器,其中
Figure 161681DEST_PATH_IMAGE029
表示解码器前缀,映射函数的表达式为:
Figure 282959DEST_PATH_IMAGE030
,其实现结构为一个三层全联接神经网络,
Figure 962202DEST_PATH_IMAGE031
表示注入前缀的长度,
Figure 721210DEST_PATH_IMAGE032
是Transformer架构中维护的第
Figure 132600DEST_PATH_IMAGE018
个注入前缀的参数数量。
2.根据权利要求1所述的基于任务调节的文档级生成式事件抽取方法,其特征在于,所述步骤S4中损失函数公式包括最小负对数似然损失函数公式和条件概率计算公式。
3.根据权利要求1所述的基于任务调节的文档级生成式事件抽取方法,其特征在于,所述步骤S4中最小负对数似然损失函数的计算公式如下:
Figure 101693DEST_PATH_IMAGE033
其中,
Figure 459993DEST_PATH_IMAGE034
表示最优参数,
Figure 198142DEST_PATH_IMAGE035
为训练集,
Figure 46012DEST_PATH_IMAGE036
表示事件类型,
Figure 377768DEST_PATH_IMAGE037
表示事件文档描述,
Figure 398813DEST_PATH_IMAGE038
表示生成式事件抽取的最终生成序列结果,
Figure 460310DEST_PATH_IMAGE039
表示神经网络的参数,
Figure 649721DEST_PATH_IMAGE040
表示最小负对数似然损失函数。
4.根据权利要求3所述的基于任务调节的文档级生成式事件抽取方法,其特征在于,最小负对数似然损失函数,其中条件概率计算公式如下:
Figure 593406DEST_PATH_IMAGE041
其中,
Figure 27930DEST_PATH_IMAGE042
表示最小负对数似然损失函数,
Figure 943933DEST_PATH_IMAGE036
表示事件类型,
Figure 930344DEST_PATH_IMAGE037
表示事件文档描述,
Figure 502270DEST_PATH_IMAGE043
表示文本生成过程中的第
Figure 599539DEST_PATH_IMAGE043
个位置,
Figure 42153DEST_PATH_IMAGE044
表示生成序列中位置
Figure 402727DEST_PATH_IMAGE043
之前的生成序列,
Figure 55425DEST_PATH_IMAGE045
表示生成序列中位置
Figure 595866DEST_PATH_IMAGE043
处的生成词,
Figure 283199DEST_PATH_IMAGE046
表示最终生成序列的长度,
Figure 814675DEST_PATH_IMAGE038
表示生成式事件抽取的最终生成序列结果。
CN202210403218.6A 2022-04-18 2022-04-18 一种基于任务调节的文档级生成式事件抽取方法 Active CN114490954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210403218.6A CN114490954B (zh) 2022-04-18 2022-04-18 一种基于任务调节的文档级生成式事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210403218.6A CN114490954B (zh) 2022-04-18 2022-04-18 一种基于任务调节的文档级生成式事件抽取方法

Publications (2)

Publication Number Publication Date
CN114490954A CN114490954A (zh) 2022-05-13
CN114490954B true CN114490954B (zh) 2022-07-15

Family

ID=81489653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210403218.6A Active CN114490954B (zh) 2022-04-18 2022-04-18 一种基于任务调节的文档级生成式事件抽取方法

Country Status (1)

Country Link
CN (1) CN114490954B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115600582B (zh) * 2022-12-15 2023-04-07 电子科技大学 一种基于预训练语言模型的可控文本生成方法
CN117493486B (zh) * 2023-11-10 2024-06-14 华泰证券股份有限公司 基于数据重放的可持续金融事件抽取系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989835A (zh) * 2021-04-21 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种复杂医疗实体抽取方法
CN113761936A (zh) * 2021-08-19 2021-12-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989835A (zh) * 2021-04-21 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种复杂医疗实体抽取方法
CN113761936A (zh) * 2021-08-19 2021-12-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
主题关键词信息融合的中文生成式自动摘要研究;候丽微等;《自动化学报》;20190331;第45卷(第3期);第530-540页 *
基于神经网络的社交媒体关系抽取方法与研究;吴林芳;《中国优秀硕士学位论文全文数据库 (基础科学辑)》;20210615(第6期);全文 *
基于联合标注和全局推理的篇章级事件抽取;仲伟峰等;《中文信息学报》;20190930;第33卷(第9期);第89-106页 *

Also Published As

Publication number Publication date
CN114490954A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN111428044B (zh) 多模态获取监管识别结果的方法、装置、设备及存储介质
CN111738004B (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
Gallant et al. Representing objects, relations, and sequences
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN114490954B (zh) 一种基于任务调节的文档级生成式事件抽取方法
Xue et al. A better way to attend: Attention with trees for video question answering
CN113268586A (zh) 文本摘要生成方法、装置、设备及存储介质
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN112580328A (zh) 事件信息的抽取方法及装置、存储介质、电子设备
US20230169271A1 (en) System and methods for neural topic modeling using topic attention networks
Xiang et al. Incorporating label dependency for answer quality tagging in community question answering via cnn-lstm-crf
Teng et al. Two local models for neural constituent parsing
Logeswaran et al. Sentence ordering using recurrent neural networks
Chaturvedi et al. Bayesian deep convolution belief networks for subjectivity detection
CN114491018A (zh) 敏感信息检测模型的构建方法、敏感信息检测方法及装置
CN113688207B (zh) 基于网络的结构阅读理解的建模处理方法和装置
Zhao et al. Aligned visual semantic scene graph for image captioning
Manzoni et al. Towards an evolutionary-based approach for natural language processing
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
Li et al. Convolutional transformer with sentiment-aware attention for sentiment analysis
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN113392929A (zh) 一种基于词嵌入与自编码器融合的生物序列特征提取方法
Shen et al. Knowledge-based reasoning network for relation detection
CN113919338A (zh) 处理文本数据的方法及设备
Tho N/A Modern Approaches in Natural Language Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant