CN116629244A - 融合理解与生成的文档级事件抽取方法 - Google Patents

融合理解与生成的文档级事件抽取方法 Download PDF

Info

Publication number
CN116629244A
CN116629244A CN202310542599.0A CN202310542599A CN116629244A CN 116629244 A CN116629244 A CN 116629244A CN 202310542599 A CN202310542599 A CN 202310542599A CN 116629244 A CN116629244 A CN 116629244A
Authority
CN
China
Prior art keywords
event
extraction
understanding
fusion
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310542599.0A
Other languages
English (en)
Inventor
曹开臣
葛萌萌
魏恒东
刘欣
曾兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 10 Research Institute
Original Assignee
CETC 10 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 10 Research Institute filed Critical CETC 10 Research Institute
Priority to CN202310542599.0A priority Critical patent/CN116629244A/zh
Publication of CN116629244A publication Critical patent/CN116629244A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了融合理解与生成的文档级事件抽取方法,涉及自然语言处理技术领域,利用双向的编码器实现文档的理解和事件要素抽取;利用单向的解码器在特定输入提示框架的辅助下实现事件要素的生成;利用对比损失学习,使得基于编码器的抽取部分和基于解码器的生成部分相互学习;综合编码器抽取和解码器生成的结果,通过融合处理,将融合概率最大的事件要素作为最终输出。本发明同时应用双向和单向语言模型进行事件抽取,并对比损失学习可以让编码器和解码器能够相互学习,从而综合抽取式和生成式两种方法的优点,实现更加准确全面的事件要素抽取。

Description

融合理解与生成的文档级事件抽取方法
技术领域
本发明涉及自然语言处理技术领域,特别是融合理解与生成的文档级事件抽取方法。
背景技术
事件抽取作为一项重要的信息抽取任务,旨在提取文本中的事件信息,包括事件类型,参与者,以及其他一些描述事件属性的信息。传统的事件抽取方法将事件抽取建模为一个分类或标注问题,通常会受到数据稀缺问题的影响,并且泛化性差,在篇章级事件抽取任务中缺点尤为明显。
预训练语言模型作为一种提升自然语言处理模型泛化性的重要手段,通过在海量文本上的自监督预训练,可以使得模型具备大量的一般性通用知识,从而提升模型的泛化能力。文献[Caselli T.,Mutlu O.,Basile A.,et al.PROTEST-ER:Retraining BERT forProtest Event Extraction[C].Proceedings of the 4th Workshop on Challenges andApplications of Automated Extraction of Socio-political Events from Text,2021.]中的SOTA模型采用基于类似BERT的双向语言模型作为主干网络进行构建,利用预训练中获取的知识提升其泛化性。GPT作为单向语言模型,相较于双向语言模型,拥有更大的参数量,但由于其建模的复杂性和解码的可控性方面的不足,使得其在事件抽取任务中的应用相对较少。
因此,本发明提出融合理解与生成的文档级事件抽取方法。
发明内容
本发明的目的在于:提出融合理解与生成的文档级事件抽取方法,同时应用双向和单向语言模型进行事件抽取,相较于传统方法,准确率有着较大的提升。
本发明采用的技术方案如下:
本发明是融合理解与生成的文档级事件抽取方法,包括以下步骤:
步骤1,利用双向的编码器实现文档的理解和事件要素抽取;
步骤2,利用单向的解码器在特定输入提示框架的辅助下实现事件要素的生成;
步骤3,利用对比损失学习,使得基于编码器的抽取部分和基于解码器的生成部分相互学习;
步骤4,综合编码器抽取和解码器生成的结果,通过融合处理,将融合概率最大的事件要素作为最终输出。
进一步的,在步骤1中,所述事件要素抽取具体为:
步骤11:待抽取事件要素的文档表示为D,将其进行标记化处理后,转换为一个标记序列{t0,t1,…,tn};
步骤12:将标记序列{t0,t1,…,tn}输入到编码器中,编码器首先将第i个标记ti通过查表转换为一个嵌入向量ei,并利用自注意力机制迭代更新第i个标记的嵌入向量在上下文中的表示为vi
步骤13:利用段预测判定事件要素的开始或结束位置;
步骤14:将符合规则并且联合概率最大的某一类事件要素的开始、结束位置对确定的标记段作为该类事件要素抽取的输出。
进一步的,在步骤13中,利用段预测判定事件要素的开始或结束位置,具体为:
将嵌入向量分别送入多个线性层接SoftMax层中,每个线性层对应一类事件要素的开始或结束位置的判定,具体而言,第i个要素开始位置的概率计算如下:
其中,posi=<start>表示第i个要素位置为开始位置, 是该线性层的可学习参数。
进一步的,所述步骤14中的规则为:0<posend-posstart<lmax,其中,posend为结束位置,posstart为开始位置,lmax为人为设定的事件要素最大长度。
进一步的,在步骤2中,人工预先定义好的提示文本作为解码器的初始输入,在提示框架的指引下以自回归的方式逐字生成事件要素,直到生成分隔符<p>,之后带入下一段提示文本,并继续生成后续的事件要素,直到该提示框架所定义的全部事件要素生成完毕。
进一步的,在步骤2中,对于某一个事件要素的位置输出yt,其概率修正如下:
其中,pθ(v∣x,y<t)为正常的编码器-解码器模型输出概率,而pθ(v∣y<t)为单独的解码器模型输出概率,超级参数α规定了这两个组成部分的重要性,即对抗幻觉错误的程度,当α=0时,对比解码退化为普通的解码算法,而当α=1时,则会完全基于幻觉错误生成事件要素,而非输入文本生成事件要素。
进一步的,在步骤3中,采用对比损失学习的方式,将抽取得到的事件要素和生成得到的事件要素进行相似度计算,构建对比损失来进行互监督学习:
其中,为事件要素的嵌入向量,/>为编码器的输出,为解码器的输出,||、||2为欧几里得距离。
进一步的,在步骤4中,针对输入的文本,编码器将会输出事件的每个要素以及对应的概率pext,同时解码器也会输出事件的每个要素以及对应的概率pgen,计算对应要素的相似度,如果大于阈值则将其合并,并计算其融合平均值作为融合输出概率,具体公式为:
pfuse=2*pext*pgen/(pext+pgen)
最终,取其中融合概率最大的事件要素作为模型的最终输出。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明是融合理解与生成的文档级事件抽取方法,同时应用双向和单向语言模型进行事件抽取,对于单向的解码器,提出对比解码策略,降低了幻觉错误,通过对比损失学习可以让编码器和解码器能够相互学习,从而综合抽取式和生成式两种方法的优点,实现更加准确全面的事件要素抽取,相比于传统方法,有着较大的提升。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图,其中:
图1为融合理解与生成的文档级事件抽取模型整体结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。
实施例一
本发明是融合理解与生成的文档级事件抽取方法,其方法模型整体结构如图1所示。
步骤1:事件要素抽取
步骤11:待抽取事件要素的文档表示为D,将其进行标记化处理后,转换为一个标记序列{t0,t1,…,tn};
步骤12:将{t0,t1,…,tn}输入到编码器中,编码器首先将第i个标记ti通过查表转换为一个嵌入向量ei,并利用自注意力机制迭代更新第i个标记的嵌入向量在上下文中的表示为vi
步骤13:利用段预测判定事件要素的开始或结束位置,即将嵌入向量分别送入多个线性层接SoftMax层中,每个线性层对应一类事件要素的开始或结束位置的判定,具体而言,第i个要素开始位置的概率计算如下:
其中,posi=<start>表示第i个要素位置为开始位置,是该线性层的可学习参数。
步骤14:将符合规则并且联合概率最大的某一类事件要素的开始、结束位置对确定的标记段作为该类事件要素抽取的输出。
具体的,规则为:0<posend-posstart<lmax,其中,posend为结束位置,posstart为开始位置,lmax为人为设定的事件要素最大长度。
步骤2:人工预先定义好的提示文本作为解码器的初始输入,在提示框架的指引下以自回归的方式逐字生成事件要素,直到生成分隔符<p>,之后带入下一段提示文本,并继续生成后续的事件要素,直到该提示框架所定义的全部事件要素生成完毕。
相比起抽取式的方法,生成式的事件要素抽取具有泛化能力强的显著优势,能够很容易地应用到不同类型的事件抽取任务中。但是生成式方法也存在一个显著的缺点——容易产生幻觉错误,因此极大地限制了其在实际应用场景下的表现水平。针对这一问题,本发明设计了一种对比解码的新方法,具体的,对于某一个位置的输出yt,其概率修正如下:
其中,pθ(v∣x,y<t)为正常的编码器-解码器模型输出概率,而pθ(v∣y<t)为单独的解码器模型输出概率,超级参数α规定了这两个组成部分的重要性,即对抗幻觉错误的程度,当α=0时,对比解码退化为普通的解码算法,而当α=1时,则会完全基于幻觉错误生成事件要素,而非输入文本生成事件要素。
步骤3:采用对比损失学习的方式,将抽取得到的事件要素和生成得到的事件要素进行相似度计算,构建对比损失(Contrastive Loss)来进行互监督学习:
其中,为事件要素的嵌入向量,/>为编码器的输出,为解码器的输出,||、||2为欧几里得距离。通过这样的对比损失学习可以让编码器和解码器能够相互学习,从而综合抽取式和生成式两种方法的优点,实现更加准确全面的事件要素抽取。
步骤4:针对输入的文本,编码器将会输出事件的每个要素以及对应的概率pext,同时解码器也会输出事件的每个要素以及对应的概率pgen,首先计算对应要素的相似度,如果大于阈值则将其合并,并计算其融合平均值作为融合输出概率,
pfuse=2*pext*pgen/(pext+pgen)
最终,取其中融合概率最大的事件要素作为模型的最终输出。
实验验证及分析
本发明分别针对中文和英文两个数据集开展验证实验。其中英文数据集采用的是RAMS(Roles Across Multiple Sentences),这是一个被研究者们广泛使用的标准测试数据集。RAMS数据集包括3194个文档,标注了139种类型共计7329个事件,以及65种超过1.7万个语义角色。中文数据集采用文献[YANG H,CHEN Y,LIU K,et al.DCFEE:A Document-level Chinese Financial Event Extraction System based on AutomaticallyLabeled Training Data[C].Proceedings of ACL 2018,System Demonstrations,2018]公开的中文文档级金融事件数据集DCFEE dataset进行实验。该数据集包含五种金融事件共计2976篇文档。
分别采用BART-large和BART-large-Chinese初始化实验模型,模型的编码器和解码器的层数均为12层,每层16个注意力头,宽度为1024。模型的总参数量约为4亿。先使用步骤1中的抽取式方法对模型进行了10个epoch的训练,然后固定编码器参数,使用步骤2中所描述的生成式方法对模型的解码器部分又进行了10个epoch训练。最后,加入对比损失,又对模型的全部参数进行了10个epoch的训练。
采用准确率P、召回率R和F1值作为模型的评估指标。结果如表1所示。可以很明显地看出,本发明方法相比起传统方法在两个数据集上的表现都有明显提升。特别是在准确率指标上的提升尤为明显。在RAMS数据集上相比起目前最好的方法准确率提升了5.2个百分点,在中文金融数据集上也提升了2.4个百分点。在召回率指标上提升虽然不如准确率指标那么显著,但是也仍然超过了目前的最佳模型。这是由于本发明方法采用了理解和生成融合的方法,同时综合考虑理解模型和生成模型的输出,从而避免了理解模型容易产生事件混淆,以及生成模型容易产生幻觉错误等问题,最终实现了准确率的大幅提升。
表1事件抽取实验结果对比
为了进一步分析不同的模型细节对整体效果的影响,还进行了消融实验,结果如表2所示。表2中展示了在本发明模型的基础上,移除融合输出、对比损失、生成模块(解码器)或理解模块(编码器)之后,模型在两个数据集上的效果变化。通过实验结果可以很明显地看到,移除优化策略(融合输出、对比损失)会导致一定程度的效果下降,移除编解码器(生成模块、理解模块)会产生更大的下降。这说明联合模型比单一的理解模型(移除生成模块)或生成模型(移除理解模块)效果要好,而本发明提出的对比损失学习和融合输出这两个优化策略相比简单的模型联合又有进一步的性能提升。最终在RAMS数据集上实现了接近50的F1值,在中文金融数据集上实现了超过80的F1值,这都是目前公开文献中能够查到的最佳结果。
表2事件抽取消融实验结果对比
有一点需要特别指出的是,表2中单一模型的表现水平仍然要优于部分传统的单一模型,例如传统的BART-Gen在RAMS上的F1值为42.2,而本发明的单一生成模型则为42.6。这两个模型最主要的区别就在于本发明所提出的对比解码策略。仔细观察发现,F1值上的改进主要来自于P值的提升,这无疑是对比解码策略降低了幻觉错误所带来的好处。
以上所述,仅为本发明的优选实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims (8)

1.融合理解与生成的文档级事件抽取方法,其特征在于,包括以下步骤:
步骤1,利用双向的编码器实现文档的理解和事件要素抽取;
步骤2,利用单向的解码器在特定输入提示框架的辅助下实现事件要素的生成;
步骤3,利用对比损失学习,使得基于编码器的抽取部分和基于解码器的生成部分相互学习;
步骤4,综合编码器抽取和解码器生成的结果,通过融合处理,将融合概率最大的事件要素作为最终输出。
2.根据权利要求1所述的融合理解与生成的文档级事件抽取方法,其特征在于:在步骤1中,所述事件要素抽取具体为:
步骤11:待抽取事件要素的文档表示为D,将其进行标记化处理后,转换为一个标记序列{t0,t1,…,tn};
步骤12:将标记序列{t0,t1,…,tn}输入到编码器中,编码器首先将第i个标记ti通过查表转换为一个嵌入向量ei,并利用自注意力机制迭代更新第i个标记的嵌入向量在上下文中的表示为vi
步骤13:利用段预测判定事件要素的开始或结束位置;
步骤14:将符合规则并且联合概率最大的某一类事件要素的开始、结束位置对确定的标记段作为该类事件要素抽取的输出。
3.根据权利要求2所述的融合理解与生成的文档级事件抽取方法,其特征在于:在步骤13中,利用段预测判定事件要素的开始或结束位置,具体为:
将嵌入向量分别送入多个线性层接SoftMax层中,每个线性层对应一类事件要素的开始或结束位置的判定,具体而言,第i个要素开始位置的概率计算如下:
其中,posi=<start>表示第i个要素位置为开始位置, 是该线性层的可学习参数。
4.根据权利要求3所述的融合理解与生成的文档级事件抽取方法,其特征在于:
所述步骤14中的规则为:0<posend-posstart<lmax,其中,posend为结束位置,posstart为开始位置,lmax为人为设定的事件要素最大长度。
5.根据权利要求1所述的融合理解与生成的文档级事件抽取方法,其特征在于:在步骤2中,人工预先定义好的提示文本作为解码器的初始输入,在提示框架的指引下以自回归的方式逐字生成事件要素,直到生成分隔符<p>,之后带入下一段提示文本,并继续生成后续的事件要素,直到该提示框架所定义的全部事件要素生成完毕。
6.根据权利要求5所述的融合理解与生成的文档级事件抽取方法,其特征在于:在步骤2中,对于某一个事件要素的位置输出yt,其概率修正如下:
其中,pθ(v∣x,y<t)为编码器-解码器模型输出概率,而pθ(v∣y<t)为单独的解码器模型输出概率,超级参数α规定了这两个组成部分的重要性,即对抗幻觉错误的程度,当α=0时,对比解码退化为普通的解码算法,而当α=1时,则会完全基于幻觉错误生成事件要素,而非输入文本生成事件要素。
7.根据权利要求1所述的融合理解与生成的文档级事件抽取方法,其特征在于,在步骤3中,采用对比损失学习的方式,将抽取得到的事件要素和生成得到的事件要素进行相似度计算,构建对比损失来进行互监督学习:
其中,为事件要素的嵌入向量,/>为编码器的输出,/>为解码器的输出,||、||2为欧几里得距离。
8.根据权利要求1所述的融合理解与生成的文档级事件抽取方法,其特征在于,在步骤4中,针对输入的文本,编码器将会输出事件的每个要素以及对应的概率pext,同时解码器也会输出事件的每个要素以及对应的概率pgen,计算对应要素的相似度,如果大于阈值则将其合并,并计算其融合平均值作为融合输出概率,具体公式为:
pfuse=2*pext*pgen/(pext+pgen)
最终,取其中融合概率最大的事件要素作为模型的最终输出。
CN202310542599.0A 2023-05-15 2023-05-15 融合理解与生成的文档级事件抽取方法 Pending CN116629244A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310542599.0A CN116629244A (zh) 2023-05-15 2023-05-15 融合理解与生成的文档级事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310542599.0A CN116629244A (zh) 2023-05-15 2023-05-15 融合理解与生成的文档级事件抽取方法

Publications (1)

Publication Number Publication Date
CN116629244A true CN116629244A (zh) 2023-08-22

Family

ID=87609173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310542599.0A Pending CN116629244A (zh) 2023-05-15 2023-05-15 融合理解与生成的文档级事件抽取方法

Country Status (1)

Country Link
CN (1) CN116629244A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118520038A (zh) * 2024-07-22 2024-08-20 中国人民解放军国防科技大学 事件抽取鲁棒性模型训练方法、装置及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118520038A (zh) * 2024-07-22 2024-08-20 中国人民解放军国防科技大学 事件抽取鲁棒性模型训练方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN107133220B (zh) 一种地理学科领域命名实体识别方法
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN110489555A (zh) 一种结合类词信息的语言模型预训练方法
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN112612871B (zh) 一种基于序列生成模型的多事件检测方法
CN113221571B (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN116956929B (zh) 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置
CN114386417A (zh) 一种融入词边界信息的中文嵌套命名实体识别方法
CN110472248A (zh) 一种中文文本命名实体的识别方法
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN116629244A (zh) 融合理解与生成的文档级事件抽取方法
CN113836891A (zh) 基于多元标注策略的结构化信息抽取方法和装置
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN115455194A (zh) 铁路故障的知识抽取分析方法及装置
CN114841151A (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN116109978A (zh) 基于自约束动态文本特征的无监督视频描述方法
CN114036908A (zh) 一种融入词表知识的中文篇章级事件抽取方法及装置
CN114048314A (zh) 一种自然语言隐写分析方法
CN113743122A (zh) 一种基于新词发现和Flat-lattice的粮情命名实体识别方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN111507103B (zh) 一种利用部分标注集的自训练神经网络分词模型
CN117390189A (zh) 基于前置分类器的中立文本生成方法
CN115809666B (zh) 一种融合词典信息和注意力机制的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination