CN114492460A - 基于衍生提示学习的事件因果关系抽取方法 - Google Patents

基于衍生提示学习的事件因果关系抽取方法 Download PDF

Info

Publication number
CN114492460A
CN114492460A CN202210365659.1A CN202210365659A CN114492460A CN 114492460 A CN114492460 A CN 114492460A CN 202210365659 A CN202210365659 A CN 202210365659A CN 114492460 A CN114492460 A CN 114492460A
Authority
CN
China
Prior art keywords
task
causal relationship
derivative
prompt
causal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210365659.1A
Other languages
English (en)
Other versions
CN114492460B (zh
Inventor
申时荣
周恒�
漆桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210365659.1A priority Critical patent/CN114492460B/zh
Publication of CN114492460A publication Critical patent/CN114492460A/zh
Application granted granted Critical
Publication of CN114492460B publication Critical patent/CN114492460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于衍生提示学习的事件因果抽取方法,该方案利用于因果关系抽取相关的衍生任务增强因果关系抽取模型的训练效果。首先,通过自然语言中因果关系的表达特征,在因果关系抽取任务上衍生出两个新的任务,分别是因果提示词预测和因果事件预测。因果提示词预测旨在识别文本中表达因果关系的显示提示词,因果事件预测旨在结合上下文语义预测与目标事件有因果关系的其他事件。随后,将因果关系抽取和两个衍生任务建模为提示学习形式,并设置了门控单元将衍生任务的信息提供给因果关系抽取模型。最后,通过基于教师机制的监督学习激发预训练自然语言模型中与这些任务相关的潜力获得最终的因果关系抽取模型。

Description

基于衍生提示学习的事件因果关系抽取方法
技术领域
本发明涉及一种基于提示学习的因果关系抽取方法,属于信息抽取技术领域。
背景技术
随着计算机和互联网的快速发展和普及,人类创造的数据呈现高速增长趋势。在这个信息爆炸的时代,如何快速地分析和处理信息,从文本中抽取出有价值的信息成为了研究的热点和急需解决的问题。为了应对这样的挑战,迫切需要开发出一批自动化的信息处理工具,自动、快速地从海量的信息中提取出有价值的知识。在这样的背景下,信息抽取(Information Extraction,IE)技术成为了学术界和工业界研究的热点内容,信息抽取的目的是从半结构化和非结构化的文本,以及结构化的数据中抽取出特定、有价值的信息,并处理成计算机易于存储与计算的结构化数据,基本的信息抽取包括实体识别(EntityRecognition)、关系抽取(Relation Extraction)和事件抽取(Event Extraction)。在实际需求中,抽取事件之间的因果关系有助于构建事理图谱,分析事件之间的相互关联以及进行未来事件的预测等。于是事件因果关系抽取(Event Causality Identification)成为一个新兴的重要信息抽取任务。
事件是指发生在特定的时间、地点,涉及一个或多个参与者的特定行为和状态变化。事件因果关系抽取则旨在判断两个给定的事件之间是否存在因果关系。具体的,作为信息抽取的重要任务之一,事件因果关系抽取对给定的自然文本和事件对,基于文本中的语义信息判断给定的事件对是否存在因果关系。事件对是有序的,包含source事件和target事件,如果两个事件之间存在因果关系,则需要判断是何事件导致了另一事件。为了便于说明和预测,通常采用Cause、Causedby和NA三个标签描述事件对的因果关系。Cause表示source事件是target事件的起因,Causedby表示source事件是target事件的结果,NA表示两个事件之间不存在因果关系。事件因果关系抽取需要分析文本的语义信息,获取支撑事件对之间因果关系的特征,利用语义分析的结果判断事件对支架你的因果关系,并输出上述三种标签中的一个。事件因果关系抽取在海量数据处理、事理图谱的自动构建、事件溯源和预测等领域上有着广泛的应用价值。
事件因果关系抽取的一个关键问题在于正样本的稀疏性,虽然我们可以获取到大量的事件标注样本,但是这些样本中往往缺乏对事件因果关系的描述。这也就造成了标注成本高昂且难以进行标注成本的估计。但是基于监督学习和深度学习的方法需要大量的标注数据支撑,这造成了目前的方法难以高效的训练事件因果关系抽取模型。经过分析发现,包含事件因果关系的表达模式可以分为两类,一类为显示因果模式,一类为隐式因果模式。显示因果模式包含一个明显的“因果信号”指示事件对之间的因果关系,例如“导致”,“所以”等。隐式因果模式中因果关系则由事件对和上下文的具体语义决定。综合上述分析,本发明提出了一个基于衍生提示学习的因果关系抽取方法。其中提示学习可以挖掘大规模预训练语言模型中分析因果关系的潜力,有效地弥补标注稀疏带来的训练数据不足的问题,同时设置衍生任务对显示因果关系和隐式因果关系模式进行加强学习,有效地提高了学习的效率可以更全面的从预训练语言模型中捕获因果关系抽取的关键能力。最终,基于衍生提示学习的因果关系抽取方法可以在标注稀疏的情况下有效地训练得到高质量事件因果关系抽取模型。
发明内容
本发明针对现有事件因果关系抽取技术的不足,提供一种基于衍生提示学习的事件因果关系抽取方法,通过设置因果关系抽取的衍生任务,将因果关系抽取能力具体化。利用因果提示词预测对应显示因果关系识别的核心需求,利用因果事件预测对应隐式因果关系抽取中对语义的分析综合分析能力。通过两种衍生任务扩展了因果概念学习的全面性,有效地提升了学习的效率。
本发明公开了一种综合衍生任务的提示学习方法,该方法将因果关系抽取任务和衍生任务抽象为语言模型任务,同时利用大规模预训练语言模型进行预测。这种方法可以全面地挖掘预训练语言模型解决事件因果关系抽取任务的潜力。并通过在衍生任务和因果关系抽取任务之间设置门控单元,使因果关系抽取可以有效地利用衍生任务的学习成果,有效地提升了稀疏标注下的学习效率和模型表现。
为了实现上述目的,本发明的技术方案如下:基于衍生提示学习的事件因果关系抽取方法,具体步骤如下:
步骤1)构建两个因果关系抽取的衍生任务;
步骤2)构建因果关系抽取任务的提示模板;
步骤3)构建衍生任务的提示模板;
步骤4)构建带有门控单元的衍生提示因果关系抽取模型;
步骤5)通过基于教师机制的监督学习训练因果关系抽取模型;
步骤6)基于提示的因果关系抽取。
其中,步骤1) 中需要构建因果关系抽取的衍生任务。
首先基于显示因果关系需要预测句子中与事件对相关的因果提示词,我们构建了因果提示词预测的衍生任务,因果提示词预测的输入为一个句子和句子中的两个事件,其目标为预测句子中决定这个两个事件之间因果关系的提示词。如果这两个事件没有因果关系或者句子中不存在明显的提示词,则输出空。
随后根据隐式因果关系抽取需要综合分析事件和上下文语义的需求提出了因果事件预测的衍生任务,因果事件预测的输入为一个句子和句子中的一个事件,其目标为预测句子中与输入事件有因果关系的其他事件,如果句子中不包含与输入事件有因果关系的事件,则输出为空。
步骤2)构建因果关系抽取任务的提示模板,为了将因果关系抽取任务转换为了MaskLanguageModel任务,此步骤为因果关系抽取设置带有Mask符号和可学习符号的自然语言提示模板,通过模板可以将衍生任务转换为预测提示模板中的Mask位置上的词的形式(即MaskLanguageModel任务),同时新增三个标签词到语言模型字典,分别是Cause、Causedby和NA。这三个标签词将作为基于提示的因果关系抽取的目标词。
步骤3)构建衍生任务的提示模板,为了将衍生任务转换为了MaskLanguageModel任务,此步骤为两个衍生任务设置带有Mask符号、SEP符号和可学习符号的自然语言提示模板,通过模板可以将衍生任务转换为预测提示模板中的Mask位置上的词的形式(即MaskLanguageModel任务),目标词是输入句子中的词的集合和nothing,其中nothing表示Mask位置没有答案。构建衍生任务提示模板过程中,将有机的适用步骤2)中的因果标签词表达因果语义。步骤3)构建衍生任务的提示模板将衍生任务转换为了MaskLanguageModel任务中,使用步骤2)构建的标签词作为衍生任务提示的组成部分,具体如下:在构建衍生任务提示模板过程中,需要构建自然语言提示模板进行任务形式转换,提示模板中将涉及到因果关系的表达。本发明在此处提出直接使用标签词中的Cause、Causedby替换自然语言字符表示因果关系中的“导致”和“由…导致”的语义。通过将标签词插入衍生任务的提示模板,可以在语言模型推理过程中潜在的训练标签词的特征表达。
步骤4) 构建带有门控单元的衍生提示因果关系抽取模型,具体如下3个步骤:
4-1)文本和提示编码,将衍生任务和事件因果关系抽取任务的提示拼接到输入文本后获得语言模型的输入序列,并通过预训练MaskLanguageModelRoBERTa对整个序列进行编码,获取序列中每个符号的编码向量;
4-2)门控单元,利用两个衍生任务中的SEP 符号的编码向量作为衍生任务提示的句向量。结合衍生任务句向量和因果关系抽取提示中的Mask位置的编码向量构建门控单元,通过神经网络计算两个0到1之间的实数值作为加权系数对两个衍生任务句向量进行加权,并与Mask位置的编码向量求和,得到综合衍生任务信息的因果关系预测向量。
4-3)任务预测,利用步骤3)中扩展后的RoBERTaMaskLanguageLayer对提示中Mask位置的词进行预测,利用Mask的预测结果作为每个任务的预测结果,其中因果关系任务提示中Mask位置上三个插入标签词的概率作为因果关系抽取的的标签概率分布。
步骤5)通过基于教师机制的监督学习训练因果关系抽取模型,将衍生任务和因果关系抽取任务的提示拼接到一起,构成RoBERTa的输入序列,利用提示学习同时执行三个任务的预测,并且通过mini-batch的监督学习的方式训练三个模型。在训练过程中采用教师机制,衍生任务中原有的Mask将有15%的几率被标准答案替代,以加速因果关系抽取模型的训练速度。
步骤6)基于提示的因果关系抽取,训练得到因果关系抽取模型和两个衍生任务模型后,执行因果关系抽取的过程将同时用到所有训练好的模型。首先按照步骤4-1)中的方式构建输入序列和进行文本编码,衍生任务中将不会采用标准答案替换Mask,输入序列经过RoBERTa编码后,使用步骤4-2)中的门控单元对因果模型中的Mask编码向量进行调整,利用调整后的[Mask]编码向量作为扩展MaskLanguageLayer的输入,最终利用步骤4-3)计算因果标签的概率,此步不再计算衍生任务的概率以节省预测的计算成本。
相对于现有技术,本发明的优点如下:
1)本发明首次提出来一个基于衍生提示学习的事件因果关系抽取方法;
2)本发明综合考虑了因果关系的表达特征,为显示因果关系设计了因果提示词预测的衍生任务,该任务将显示因果关系抽取需要探测因果提示词这一能力转换为了一个可学习的任务;
3)本发明综合考虑了因果关系的表达特征,为隐式因果关系设计了因果事件预测的衍生任务,这一任务侧重于体现隐式因果关系抽取需要综合分析上下文和事件对语义的能力,在因果事件预测中可以使模型更好的把握事件语义和提升对事件对上下文分析的能力;
4)本发明采用了提示学习的方式,通过衍生任务和因果关系抽取任务的提示模板全面的挖掘大规模预训练语言模型中因果关系分析的潜力,有效地弥补了因果关系标注稀疏带来的正样本数量不足的问题;
5)本发明提出了将因果标签词插入衍生任务提示模板的方法,合理有效地利用自然语言模型的编码过程对标签词的特征表示进行学习,增加了因果关系抽取模型的学习效率和鲁棒性;
6)本发明提出了面向衍生任务提示的门控单元,可以在不改变语言模型整体结构的同时显示的利用衍生任务的学习成果辅助因果关系抽取,使因果关系抽取可以充分利用衍生任务对应的显示因果和隐式因果的抽取能力;
7)本发明提出了将衍生提示学习和教师监督学习机制结合的办法,将衍生任务提示中的[Mask]符号基于一定概率替换为标准答案,有效地加速了事件因果关系抽取模型的训练速度,利用语言模型的特性提高了因果关系抽取模型对衍生提示中语义信息的利用效率。
附图说明
图1是本发明的整体框架示意图。
具体实施方式
以下结合实施例和说明书附图,详细说明本发明的实施过程。
实施例1:参见图1,基于衍生提示学习的事件因果关系抽取方法,具体步骤如下:
步骤1)构建两个因果关系抽取的衍生任务;
步骤2)构建因果关系抽取任务的提示模板;
步骤3)构建衍生任务的提示模板;
步骤4)构建带有门控单元的衍生提示因果关系抽取模型;
步骤5)通过基于教师机制的监督学习训练因果关系抽取模型;
步骤6)基于提示的因果关系抽取。
其中,步骤1) 中需要构建因果关系抽取的衍生任务。
首先基于显示因果关系需要预测句子中与事件对相关的因果提示词,我们构建了因果提示词预测的衍生任务,因果提示词预测的输入为一个句子和句子中的两个事件,其目标为预测句子中决定这个两个事件之间因果关系的提示词。如果这两个事件没有因果关系或者句子中不存在明显的提示词,则输出空。
随后根据隐式因果关系抽取需要综合分析事件和上下文语义的需求提出了因果事件预测的衍生任务,因果事件预测的输入为一个句子和句子中的一个事件,其目标为预测句子中与输入事件有因果关系的其他事件,如果句子中不包含与输入事件有因果关系的事件,则输出为空。
步骤2)构建因果关系抽取任务的提示模板,为了将因果关系抽取任务转换为了MaskLanguageModel任务,此步骤为因果关系抽取设置带有Mask符号和可学习符号的自然语言提示模板,通过模板可以将衍生任务转换为预测提示模板中的Mask位置上的词的形式(即MaskLanguageModel任务),同时新增三个标签词到语言模型字典,分别是Cause、Causedby和NA。这三个标签词将作为基于提示的因果关系抽取的目标词。
步骤3)构建衍生任务的提示模板,为了将衍生任务转换为了MaskLanguageModel任务,此步骤为两个衍生任务设置带有Mask符号、SEP符号和可学习符号的自然语言提示模板,通过模板可以将衍生任务转换为预测提示模板中的Mask位置上的词的形式(即MaskLanguageModel任务),目标词是输入句子中的词的集合和nothing,其中nothing表示Mask位置没有答案。构建衍生任务提示模板过程中,将有机的适用步骤2)中的因果标签词表达因果语义。步骤3)构建衍生任务的提示模板将衍生任务转换为了MaskLanguageModel任务中,使用步骤2)构建的标签词作为衍生任务提示的组成部分,具体如下:在构建衍生任务提示模板过程中,需要构建自然语言提示模板进行任务形式转换,提示模板中将涉及到因果关系的表达。本发明在此处提出直接使用标签词中的Cause、Causedby替换自然语言字符表示因果关系中的“导致”和“由…导致”的语义。通过将标签词插入衍生任务的提示模板,可以在语言模型推理过程中潜在的训练标签词的特征表达。
步骤4) 构建带有门控单元的衍生提示因果关系抽取模型,具体如下3个步骤:
4-1)文本和提示编码,将衍生任务和事件因果关系抽取任务的提示拼接到输入文本后获得语言模型的输入序列,并通过预训练MaskLanguageModelRoBERTa对整个序列进行编码,获取序列中每个符号的编码向量;
4-2)门控单元,利用两个衍生任务中的SEP符号的编码向量作为衍生任务提示的句向量。结合衍生任务句向量和因果关系抽取提示中的Mask位置的编码向量构建门控单元,通过神经网络计算两个0到1之间的实数值作为加权系数对两个衍生任务句向量进行加权,并与Mask位置的编码向量求和,得到综合衍生任务信息的因果关系预测向量。
4-3)任务预测,利用步骤3)中扩展后的RoBERTaMaskLanguageLayer对提示中Mask位置的词进行预测,利用Mask的预测结果作为每个任务的预测结果,其中因果关系任务提示中Mask位置上三个插入标签词的概率作为因果关系抽取的的标签概率分布。
步骤5)通过基于教师机制的监督学习训练因果关系抽取模型,将衍生任务和因果关系抽取任务的提示拼接到一起,构成RoBERTa的输入序列,利用提示学习同时执行三个任务的预测,并且通过mini-batch的监督学习的方式训练三个模型。在训练过程中采用教师机制,衍生任务中原有的Mask将有15%的几率被标准答案替代,以加速因果关系抽取模型的训练速度。
步骤6)基于提示的因果关系抽取,训练得到因果关系抽取模型和两个衍生任务模型后,执行因果关系抽取的过程将同时用到所有训练好的模型。首先按照步骤4-1)中的方式构建输入序列和进行文本编码,衍生任务中将不会采用标准答案替换Mask,输入序列经过RoBERTa编码后,使用步骤4-2)中的门控单元对因果模型中的Mask编码向量进行调整,利用调整后的[Mask]编码向量作为扩展MaskLanguageLayer的输入,最终利用步骤4-3)计算因果标签的概率,此步骤不再计算衍生任务的概率以节省预测的计算成本。
实施例2:参见图1,定义事件因果关系抽取的输入文本为
Figure DEST_PATH_IMAGE001
,事件对为
Figure 172131DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
表示source事件,
Figure 766577DEST_PATH_IMAGE004
表示target事件,
Figure DEST_PATH_IMAGE005
均为
Figure 291100DEST_PATH_IMAGE001
中的一个具体触发词(即序列
Figure 655216DEST_PATH_IMAGE001
中的符号),一种基于衍生提示学习的事件因果关系抽取包括如下步骤:步骤1)构建因果关系抽取的衍生任务;
首先基于显示因果关系需要预测句子中与事件对相关的因果提示词,我们构建了因果提示词预测的衍生任务,因果提示词预测由事件因果关系抽取任务衍生而来,其输入为句子
Figure 188966DEST_PATH_IMAGE001
和句子中的事件对
Figure 181192DEST_PATH_IMAGE002
,其目标为预测句子中决定这个两个事件之间因果关系的提示词。如果这两个事件没有因果关系或者句子中不存在明显的提示词,则输出空。
随后根据隐式因果关系抽取需要综合分析事件和上下文语义的需求提出了因果事件预测的衍生任务,因果事件预测有事件因果关系抽取任务衍生而来,其输入为句子
Figure 719359DEST_PATH_IMAGE001
和句子中的一个事件
Figure 757722DEST_PATH_IMAGE006
其目标为预测句子中与输入事件有因果关系的其他事件(如果
Figure 767266DEST_PATH_IMAGE005
有因果关系,则
Figure 958207DEST_PATH_IMAGE004
为目标词),如果句子中不包含与输入事件有因果关系的事件,则输出为空。
步骤2)构建因果关系抽取任务的提示模板;
为了将因果关系抽取任务转换为了MaskLanguageModel任务,此步骤为因果关系抽取设置带有Mask符号和可学习符号的自然语言提示模板,通过模板可以将衍生任务转换为预测提示模板中的Mask位置上的词的形式(即MaskLanguageModel任务),同时新增三个标签词到语言模型字典,分别是Cause、Causedby和NA。这三个标签词将作为基于提示的因果关系抽取的目标词,Cause表示source事件是target事件的起因,Causedby表示source事件是target事件的结果,NA表示两个事件之间不存在因果关系。具体的提示模板如表1所示。其中<c>和</c>是可学习的符号。
表1:涉及的事件因果关系抽取和两个衍生任务对应的提示模板;
Figure DEST_PATH_IMAGE007
步骤3)构建衍生任务的提示模板;
为了将衍生任务转换为了MaskLanguageModel任务,此步骤为两个衍生任务设置带有Mask符号、SEP符号和可学习符号的自然语言提示模板,通过模板可以将衍生任务转换为预测提示模板中的Mask位置上的词的形式(即MaskLanguageModel任务),目标词是输入句子中的词的集合和nothing,其中nothing表示Mask位置没有答案。具体的提示模板如表1所示。其中CauseCausedby是步骤2)中增加的因果关系抽取任务的标签词,通过将可学习的因果标签词加入衍生任务提示模板可以利用语言模型编码过程潜在学习因果标签的特征表示。
步骤4)构建带有门控单元的衍生提示因果关系抽取模型;
4-1)文本和提示编码。
将衍生任务和事件因果关系抽取任务的提示拼接到输入文本后获得语言模型的输入序列,输入序列拼接后的结果如表1所示。表1中CLS、SEP和Mask都是RoBERTa中的特殊字符,CLS表示整体上下文的语义,SEP表示句子的语义,Mask表示待预测的符号。通过预训练MaskLanguageModelRoBERTa对整个序列进行编码,获取序列中每个符号的编码向量。其中,事件因果关系抽取提示中的Mask的编码结果
Figure 621270DEST_PATH_IMAGE008
为:
Figure DEST_PATH_IMAGE009
Figure 992602DEST_PATH_IMAGE010
表示预训练语言模型的编码器,
Figure DEST_PATH_IMAGE011
表示因果关系抽取提示中的Mask。因果事件预测中的Mask的编码结果
Figure 353307DEST_PATH_IMAGE012
和[SEP]的编码结果
Figure 710339DEST_PATH_IMAGE013
为:
Figure DEST_PATH_IMAGE014
Figure 996833DEST_PATH_IMAGE015
表示因果事件预测中的[Mask],
Figure DEST_PATH_IMAGE016
表示因果事件预测中的[SEP]。因果提示词预测中的[Mask]的编码结果
Figure 353996DEST_PATH_IMAGE017
和[SEP]的编码结果
Figure DEST_PATH_IMAGE018
为:
Figure 564397DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
因果提示词预测中的[Mask],
Figure 22274DEST_PATH_IMAGE021
表示因果提示词预测中的SEP。
4-2)门控单元。
利用两个衍生任务中的SEP]符号的编码向量作为衍生任务提示的句向量。结合衍生任务句向量和因果关系抽取提示中的Mask位置的编码向量构建门控单元。通过神经网络计算两个0到1之间的实数值作为加权系数对两个衍生任务句向量进行加权,并与Mask位置的编码向量求和,得到综合衍生任务信息的因果关系预测向量。具体的做法为:
Figure DEST_PATH_IMAGE022
其中
Figure 43450DEST_PATH_IMAGE023
是两个神经网络,将输入的向量转换为一个实数值,
Figure DEST_PATH_IMAGE024
是S形激活函数将输入的实数转换到0到1之间。
Figure 589707DEST_PATH_IMAGE025
是最终的输出向量,用来进行事件因果关系预测。
4-3)任务预测
利用步骤3)中扩展后的RoBERTaMaskLanguageLayer对提示中Mask位置的词进行预测,利用Mask的预测结果作为每个任务的预测结果,其中因果关系任务提示中Mask位置上三个插入标签词的概率作为因果关系抽取的的标签概率分布。具体的,因果事件预测结果
Figure DEST_PATH_IMAGE026
因果提示词预测结果
Figure 338220DEST_PATH_IMAGE027
以及事件因果关系标签概率
Figure DEST_PATH_IMAGE028
如下:
Figure 92681DEST_PATH_IMAGE029
其中
Figure DEST_PATH_IMAGE030
指扩展的MaskLanguageLayer,输入为一个符号的编码向量,输出为这个符号在语言模型词典上每个词的概率。
Figure 114120DEST_PATH_IMAGE031
都是对应
Figure DEST_PATH_IMAGE032
位置上概率最大的词。
Figure 304930DEST_PATH_IMAGE033
指因果标签,
Figure DEST_PATH_IMAGE034
输出
Figure 201342DEST_PATH_IMAGE035
位置每个标签的概率。
步骤5)通过基于教师机制的监督学习训练因果关系抽取模型。
将衍生任务和因果关系抽取任务的提示拼接到一起,构成RoBERTa的输入序列,利用提示学习同时执行三个任务的预测,并且通过mini-batch的监督学习的方式训练三个模型。在训练过程中采用教师机制,衍生任务中原有的Mask将有15%的几率被标准答案替代,以加速因果关系抽取模型的训练速度。训练过程中,由于三个任务均转换为了MaskLanguageModel任务,于是使用与语言模型一直交叉熵损失作为目标函数,并通过随机梯度下降的方式更新可学习参数。
步骤6)基于提示的因果关系抽取。
训练得到因果关系抽取模型和两个衍生任务模型后,执行因果关系抽取的过程将同时用到所有训练好的模型。首先按照步骤4-1)中的方式构建输入序列和进行文本编码,衍生任务中将不会采用标准答案替换Mask,输入序列经过RoBERTa编码后,使用步骤4-2)中的门控单元对因果模型中的Mask编码向量进行调整,利用调整后的Mask编码向量作为扩展MaskLanguageLayer的输入,最终利用步骤4-3)计算因果标签的概率,此步骤不再计算衍生任务的概率以节省预测的计算成本。
本实施例使用了如下指标进行评估:
F1: 在事件因果关系抽取数据集上,针对事件因果关系通过使用 precision 和recall 以及 f1 来测试分类器的性能。precision 是指分类器判断为正例的数据中真正属于正例的数据的比例,反应了分类器在判断正例时是否准确。recall 是指真实的全部正例数据中分类器判断为正例数据的比例,反应了分类器能够将全部正例数据检索到的能力。f1 得分同时兼顾了 precision 和 recall,其计算公式是
Figure DEST_PATH_IMAGE036
,其中p为上述提到的precision指标,r为上述提到的recall指标。在测试数据上判断事件对之间的因果关系,并进行相关指标的验证。模型训练完成后可以保存到本地,模型包含所有的参数等。之后再测试数据上进行指标的评测,和其它方法进行比较。或者在真实场景中,使用模型对自然语言文本进行事件因果关系的抽取。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims (10)

1.基于衍生提示学习的事件因果关系抽取方法,其特征在于,该方法包括以下步骤:
步骤1)构建两个因果关系抽取的衍生任务;
步骤2)构建因果关系抽取任务的提示模板;
步骤3)构建衍生任务的提示模板;
步骤4)构建带有门控单元的衍生提示因果关系抽取模型;
步骤5)通过基于教师机制的监督学习训练因果关系抽取模型;
步骤6)基于提示的因果关系抽取。
2.根据权利要求1所述的基于衍生提示学习的事件因果关系抽取方法,其特征在于,步骤1)构建两个因果关系抽取的衍生任务中的因果提示词预测衍生任务,具体如下:
衍生任务中的因果提示词预测任务,其输入为一个句子和句子中的两个事件,其目标为预测句子中决定这个两个事件之间因果关系的提示词,如果这两个事件没有因果关系或者句子中不存在明显的提示词,则输出空。
3.根据权利要求1所述的基于衍生提示学习的事件因果关系抽取方法,其特征在于,步骤1)构建两个因果关系抽取的衍生任务中的因果事件预测衍生任务,具体如下:
衍生任务中的因果事件预测任务,其输入为一个句子和句子中的一个事件,其目标为预测句子中与输入事件有因果关系的其他事件,如果句子中不包含与输入事件有因果关系的事件,则输出为空。
4.根据权利要求2或3所述的基于衍生提示学习的事件因果关系抽取方法,其特征在于,步骤2)构建因果关系抽取任务的提示模板将因果关系抽取任务转换为了MaskLanguageModel任务,具体如下:
此步骤为因果关系抽取设置带有Mask符号和可学习符号的自然语言提示模板,通过模板将衍生任务转换为预测提示模板中的Mask位置上的词的形式即MaskLanguageModel任务,同时新增三个标签词到语言模型字典,分别是Cause、Causedby和NA,这三个标签词将作为基于提示的因果关系抽取的目标词。
5.根据权利要求4所述的基于衍生提示学习的事件因果关系抽取方法,其特征在于,步骤3)构建衍生任务的提示模板将衍生任务转换为了MaskLanguageModel任务,具体如下:
此步骤为两个衍生任务设置带有Mask符号、SEP符号和可学习符号的自然语言提示模板,通过模板将衍生任务转换为预测提示模板中的Mask位置上的词的形式即MaskLanguageModel任务,目标词是输入句子中的词的集合和nothing,其中nothing表示Mask位置没有答案。
6.根据权利要求5所述的基于衍生提示学习的事件因果关系抽取方法,其特征在于,步骤3)构建衍生任务的提示模板将衍生任务转换为了MaskLanguageModel任务中,使用步骤2)构建的标签词作为衍生任务提示的组成部分,具体如下:在构建衍生任务提示模板过程中,构建自然语言提示模板进行任务形式转换,提示模板中将涉及到因果关系的表达。
7.根据权利要求6所述的基于衍生提示学习的事件因果关系抽取方法,其特征在于,步骤4)构建带有门控单元的衍生提示因果关系抽取模型,具体如下3个步骤:
4-1)文本和提示编码,将衍生任务和事件因果关系抽取任务的提示拼接到输入文本后获得语言模型的输入序列,并通过预训练MaskLanguageModelRoBERTa对整个序列进行编码,获取序列中每个符号的编码向量;
4-2)门控单元,利用两个衍生任务中的SEP符号的编码向量作为衍生任务提示的句向量,结合衍生任务句向量和因果关系抽取提示中的Mask位置的编码向量构建门控单元,通过神经网络计算两个0到1之间的实数值作为加权系数对两个衍生任务句向量进行加权,并与Mask位置的编码向量求和,得到综合衍生任务信息的因果关系预测向量;
4-3)任务预测,利用步骤3)中扩展后的RoBERTaMaskLanguageLayer对提示中Mask位置的词进行预测,利用Mask的预测结果作为每个任务的预测结果,其中因果关系任务提示中Mask位置上三个插入标签词的概率作为因果关系抽取的的标签概率分布。
8.根据权利要求1所述的基于衍生提示学习的事件因果关系抽取方法,其特征在于,步骤4)构建带有门控单元的衍生提示因果关系抽取模型中的门控单元,具体如下:
门控单元通过设置神经网络计算两个衍生任务提示的语义对事件因果关系预测任务的重要性,对衍生任务的语义信息进行加权,实现将衍生任务语义与事件因果关系预测任务的编码进行有机融合的目的,整个过程利用了两个门控单元,第一个门控单元计算0到1中的数值,并用此数值对两个衍生任务的提示句向量进行加权求和,实现衍生任务的语义融合,第二个门控单元同样计算0到1之间的数值,对衍生任务融合后的向量与因果关系抽取中的Mask符号向量进行加权求和,实现因果关系抽取任务结合衍生任务语义的目的。
9.根据权利要求8所述的基于衍生提示学习的事件因果关系抽取方法,其特征在于,步骤5)通过基于教师机制的监督学习训练因果关系抽取模型,具体如下:
将衍生任务和因果关系抽取任务的提示拼接到一起,构成RoBERTa的输入序列,利用提示学习同时执行三个任务的预测,并且通过mini-batch的监督学习的方式训练三个模型,在训练过程中采用教师机制,衍生任务中原有的Mask将有15%的几率被标准答案替代,以加速因果关系抽取模型的训练速度。
10.根据权利要求9所述的基于衍生提示学习的事件因果关系抽取方法,其特征在于,步骤6)基于提示的因果关系抽取,具体为:训练得到因果关系抽取模型和两个衍生任务模型后,执行因果关系抽取的过程将同时用到所有训练好的模型,首先按照步骤4-1)中的方式构建输入序列和进行文本编码,衍生任务中将不会采用标准答案替换Mask,输入序列经过RoBERTa编码后,使用步骤4-2)中的门控单元对因果模型中的Mask编码向量进行调整,利用调整后的Mask编码向量作为扩展MaskLanguageLayer的输入,最终利用步骤4-3)计算因果标签的概率。
CN202210365659.1A 2022-04-08 2022-04-08 基于衍生提示学习的事件因果关系抽取方法 Active CN114492460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210365659.1A CN114492460B (zh) 2022-04-08 2022-04-08 基于衍生提示学习的事件因果关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210365659.1A CN114492460B (zh) 2022-04-08 2022-04-08 基于衍生提示学习的事件因果关系抽取方法

Publications (2)

Publication Number Publication Date
CN114492460A true CN114492460A (zh) 2022-05-13
CN114492460B CN114492460B (zh) 2022-07-12

Family

ID=81488094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210365659.1A Active CN114492460B (zh) 2022-04-08 2022-04-08 基于衍生提示学习的事件因果关系抽取方法

Country Status (1)

Country Link
CN (1) CN114492460B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146618A (zh) * 2022-07-08 2022-10-04 西北工业大学 一种基于对比表示学习的复杂因果关系抽取方法
CN116628174A (zh) * 2023-02-17 2023-08-22 广东技术师范大学 一种融合实体和关系信息的端到端关系抽取方法以及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137853A1 (en) * 2009-10-06 2011-06-09 Johnson Controls Technology Company Systems and methods for reporting a cause of an event or equipment state using causal relationship models in a building management system
CN109871955A (zh) * 2019-01-22 2019-06-11 中国民航大学 一种航空安全事故因果关系抽取方法
CN112507691A (zh) * 2020-12-07 2021-03-16 数地科技(北京)有限公司 一种融合情感、产业链和事理逻辑的可解释性金融标的物生成方法和装置
CN112507124A (zh) * 2020-12-04 2021-03-16 武汉大学 一种基于图模型的篇章级别事件因果关系抽取方法
CN112836502A (zh) * 2021-03-01 2021-05-25 中央财经大学 一种金融领域事件隐式因果关系抽取方法
CN113901229A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于句法图卷积的汉越双语新闻事件因果关系抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137853A1 (en) * 2009-10-06 2011-06-09 Johnson Controls Technology Company Systems and methods for reporting a cause of an event or equipment state using causal relationship models in a building management system
CN109871955A (zh) * 2019-01-22 2019-06-11 中国民航大学 一种航空安全事故因果关系抽取方法
CN112507124A (zh) * 2020-12-04 2021-03-16 武汉大学 一种基于图模型的篇章级别事件因果关系抽取方法
CN112507691A (zh) * 2020-12-07 2021-03-16 数地科技(北京)有限公司 一种融合情感、产业链和事理逻辑的可解释性金融标的物生成方法和装置
CN112836502A (zh) * 2021-03-01 2021-05-25 中央财经大学 一种金融领域事件隐式因果关系抽取方法
CN113901229A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于句法图卷积的汉越双语新闻事件因果关系抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SENDONG ZHAO 等: "Eventcausalityextractionbasedonconnectivesanalysis", 《NEUROCOMPUTING》 *
SHIRONG SHEN 等: "Improved distant supervision relation extraction based on edge-reasoning hybrid graph model", 《JOURNAL OF WEB SEMANTICS》 *
王红 等: "航空安全事故因果关系抽取方法的研究", 《计算机工程与应用》 *
郑巧夺 等: "基于双层CNN-BiGRU-CRF的事件因果关系抽取", 《计算机工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146618A (zh) * 2022-07-08 2022-10-04 西北工业大学 一种基于对比表示学习的复杂因果关系抽取方法
CN115146618B (zh) * 2022-07-08 2024-03-05 西北工业大学 一种基于对比表示学习的复杂因果关系抽取方法
CN116628174A (zh) * 2023-02-17 2023-08-22 广东技术师范大学 一种融合实体和关系信息的端到端关系抽取方法以及系统

Also Published As

Publication number Publication date
CN114492460B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN110222188B (zh) 一种多任务学习的公司公告处理方法及服务端
CN112149421A (zh) 一种基于bert嵌入的软件编程领域实体识别方法
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN114492460B (zh) 基于衍生提示学习的事件因果关系抽取方法
CN113312914B (zh) 一种基于预训练模型的安全事件实体识别方法
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN109918647A (zh) 一种安全领域命名实体识别方法及神经网络模型
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
Shen et al. Event causality identification via derivative prompt joint learning
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN118332138B (zh) 一种航行通告文本处理方法、计算机程序产品及终端
CN114742016B (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN115238045A (zh) 一种生成式事件论元抽取方法、系统及存储介质
CN117113937A (zh) 一种基于大规模语言模型的电力领域阅读理解方法和系统
CN113869054B (zh) 一种基于深度学习的电力领域项目特征识别方法
CN113836934B (zh) 基于标签信息增强的文本分类方法和系统
CN113051904B (zh) 一种面向小规模知识图谱的链接预测方法
CN112148879B (zh) 一种自动给代码打数据结构标签的计算机可读存储介质
CN116975161A (zh) 电力设备局放文本的实体关系联合抽取方法、设备、介质
CN113361615B (zh) 基于语义相关性的文本分类方法
CN115906818A (zh) 语法知识预测方法、装置、电子设备和存储介质
CN113342982B (zh) 融合RoBERTa和外部知识库的企业行业分类方法
CN115221284A (zh) 文本相似度的计算方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant