CN112966115B - 基于记忆损失预测和延迟训练的主动学习事件抽取方法 - Google Patents

基于记忆损失预测和延迟训练的主动学习事件抽取方法 Download PDF

Info

Publication number
CN112966115B
CN112966115B CN202110541764.1A CN202110541764A CN112966115B CN 112966115 B CN112966115 B CN 112966115B CN 202110541764 A CN202110541764 A CN 202110541764A CN 112966115 B CN112966115 B CN 112966115B
Authority
CN
China
Prior art keywords
loss
sample
training
model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110541764.1A
Other languages
English (en)
Other versions
CN112966115A (zh
Inventor
申时荣
漆桂林
李震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110541764.1A priority Critical patent/CN112966115B/zh
Publication of CN112966115A publication Critical patent/CN112966115A/zh
Application granted granted Critical
Publication of CN112966115B publication Critical patent/CN112966115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于记忆损失预测和延迟训练的主动学习事件抽取方法,该方案通过预测无标注样本的损失对其进行筛选,获取高质量的无标注样本进行标注。首先构建两个记忆模块,分别是已学习记忆模块和已选择记忆模块,已学习记忆模块在监督学习模型训练的过程中,存储已经学过的信息到已学习记忆模块,在样本选择的过程中,已选择记忆模块随着样本的选择存储已经选择的样本信息,综合两个记忆模块的信息对新样本的损失进行预测,得到样本损失后,利用内‑外损失排序策略启发式地选择有价值的样本进行标注,同时,提出了一种延迟训练策略,模拟样本选择场景对样本损失模型进行监督,最后得到一种低标注成本的高质量事件抽取模型。

Description

基于记忆损失预测和延迟训练的主动学习事件抽取方法
技术领域
本发明涉及一种基于主动学习的事件抽取方法,属于信息抽取技术领域。
背景技术
随着计算机和互联网的快速发展和普及,人类创造的数据呈现高速增长趋势。在这个信息爆炸的时代,如何快速地分析和处理信息,从文本中抽取出有价值的信息成为了研究的热点和急需解决的问题。为了应对这样的挑战,迫切需要开发出一批自动化的信息处理工具,自动、快速地从海量的信息中提取出有价值的知识。在这样的背景下,信息抽取(Information Extraction,IE)技术成为了学术界和工业界研究的热点内容,信息抽取的目的是从半结构化和非结构化的文本,以及结构化的数据中抽取出特定、有价值的信息,并处理成计算机易于存储与计算的结构化数据,信息抽取包括实体识别(EntityRecognition)、关系抽取(Relation Extraction)和事件抽取(Event Extraction)。
事件是指发生在特定的时间、地点,涉及一个或多个参与者,通常被描述为人或事物的状态及行为的变化。作为信息抽取的重要任务之一,事件抽取是对给定的自然文本,检测是否存在感兴趣的事件描述,如果文本中包含事件描述,则识别并抽取所有与该事件相关的元素。通常来说,封闭领域事件抽取会预先定义好事件结构,如事件类型和事件论元角色。事件抽取需要从文本中检测事件,抽取字或词以填充预定义的事件结构,并以结构化的事件形式进行输出。在海量数据处理、知识库的自动构建、自动问答等领域上有着广泛的应用价值。
事件抽取本身是一个复杂的任务,由多个子任务组成,不仅需要识别用于标识事件的触发词,而且还必须识别与事件相关的论元以及论元在事件中的角色,这导致事件抽取很难标注训练数据,尤其是针对特定领域进行事件抽取,例如生物医学,金融,法律,军事和其他需要具有专业知识的人员进行标记的领域,导致较高的标记成本。然而,当前基于深度学习的事件抽取方法需要大量的标注数据作为支持,事件抽取方法在其他领域的应用需要大量的监督数据。主动学习使用样本选择策略来选择样本,这些样本可以有效地促进针对标签的监管模型的训练,从而减少模型对监督数据量的需求,这启发了我们将主动学习技术应用于事件抽取,以解决样本标注成本过高的问题。
发明内容
本发明正是针对现有事件抽取技术中存在的技术问题,提供一种基于损失延迟预测的事件抽取方法,通过已经学习到的信息和已经标注过的样本信息对样本损失进行预测。采用内外样本损失排序方法,根据预测损失选择样本进行标注,降低监督数据的标注代价。
本方案公开了一种基于损失延迟训练的领域事件抽取主动学习训练策略,主要用于领域事件抽取。本方案提供了一种主动学习的方法,能够根据已经标注的样本信息以及模型学习到的样本信息从无标记样本中选择模型最不确定的样本来进行标注,以降低标注样本的冗余。由于事件抽取是一个包含多子任务的复杂任务,因此本方案采用内外损失排序的方法来衡量样本的不确定性。
为了实现上述目的,本发明的技术方案如下:一种基于记忆损失预测和延迟训练的主动学习事件抽取方法,具体步骤如下:
步骤1)主动学习事件抽取任务初始化;
步骤2)构建事件抽取模型;
步骤3)构建基于记忆的损失预测模型;
步骤4)基于内外排序的样本选择;
步骤5)基于延迟训练策略的监督学习;
步骤6)基于记忆的损失预测主动学习过程。
其中,步骤1) 中需要初始化主动学习。
首先定义目标事件类型和对应的论元。针对目标事件收集相关的无标注文本构建无标注样本集U。对无标注样本通过词性标注,选取名词,动词和形容词作为候选触发词。
并在无标注样本集合中随机选取少量样本进行人工标注,标注文本中的候选触发词对应的事件类型(候选触发词不对应事件标注为NA类),以及每个触发词对应的论元和每个论元对应的角色。论元和论元角色标注符合序列标注的BIO(即Begin-Inside-Outside)形式。将标注过后的样本从无标注样本集U中删除,形成标注样本集L。
步骤2)本申请采用的事件抽取模型为基于预训练文本编码器的深度学习模型。分为以下三个部分:
2-1)文本编码,文本首先经过预训练的语言模型BERT进行编码,得到文本中每个token的编码向量;
2-2)候选触发词分类。本申请将候选触发词分类构建为词级别的分类任务,将候选触发词对应的token的特征向量的均值作为神经分类器的输入特征向量预测其对应的事件类型;2-3)候选论元分类。候选论元的抽取抽象为序列标注任务,对每个候选触发词进行论元抽取。将文本中每个token的隐藏层向量,当前候选触发词向量以及上下文向量进行拼接作为序列标注分类器的输入特征向量,预测当前token对当前触发词的BIO类型,最终得到当前候选触发词对应论元位置和角色。事件抽取模型通过mini-batch 梯度下降的方式,以最小化函数的方式,更新所有的参数。
步骤3)本申请发明了一种基于记忆的损失预测模型对无标注样本进行损失预测,并依据预测的损失选择对当前模型有价值的样本进行标注。基于记忆的损失预测模型包含两个记忆模块:已学习记忆模块和已选择记忆模块,通过对这两部分独特的记忆进行构建来预测新的无标注样本的损失。首先设置两种记忆模块,已学习记忆模块和已选择记忆模块。两个记忆模块都为每个事件类型和论元角色标签存储一个记忆向量。具体工作过程包括:
3-1)更新已学习记忆模块。在进行事件抽取监督训练的同时,对所有标注样本数据中的触发词类型信息和论元角色信息进行存储。利用标注信息,将已知事件类型的触发词的特征向量通过门控单元更新基于模块中对应事件类型的信息,同样的利用已标注的论元对应的特征向量对记忆模块中对应的论元标签信息进行更新,
3-2)更新已选择记忆模块。在样本选择阶段,通过已经选择的无标注的样本依据注意机制和门控单元对不同标签的信息进行更新。首先利用注意机制确定单次预测中的信息对不同标签的贡献,随后利用们控单元控制当前预测中信息的重要性,结合注意机制和门控单元更新记忆模块的信息,
3-3)损失预测。在进行损失预测时,本申请首先依据两个记忆模块的信息作为分类依据,分别对样本中的每个任务进行预测,结合当前模型的预测结果对新的无标注样本的损失进行预测,具体做法是以三个预测结果的期望损失的均值作为损失预测的结果,
步骤4) 基于内外排序的样本选择,事件抽取中每个样本对应了多个预测任务,包括若干触发词分类和论元角色预测。于是本专提出了内外排序的样本选择方法,
4-1)首先对单个样本中的所有任务进行损失计算,
4-2)在样本内部对所有预测的损失进行排序,选取损失最大的M个预测作为当前样本的代表,因为这些预测可以代表当前样本对模型的价值;
4-3)利用最大的M个预测的损失的均值作为当前样本的价值,与其他样本进行比较,选取价值最大的样本进行标注,
步骤5)基于延迟训练策略的监督学习。本申请提出一种延迟训练策略来对损失预测模型进行监督学习。损失预测的监督学习与事件抽取模型的监督训练同步进行。事件抽取模型的训练采取批(batch)训练策略。将训练集分为等大的batch依次进行进行训练。每个训练步(step)利用一个batch的标注数据对事件抽取模型进行监督。而在损失预测模型的训练中需要模拟“已选择样本”来构建已选择记忆模块的信息。所以本申请利用一种延迟训练的策略,在一个训练步使用两个batch的数据进行训练。具体的第j个step的训练过程如下:
5-1)利用
Figure DEST_PATH_IMAGE001
数据将在当前事件抽取模型上计算损失,更新已学习记忆模块,计算得到的损失进行记录,
5-2)第一个
Figure 331675DEST_PATH_IMAGE001
的数据同时模拟已选择数据对已选择记忆模块信息进行更新,
5-3)基于当前模型和两个记忆模块的信息预测
Figure 958966DEST_PATH_IMAGE002
中样本的损失,
5-4)利用
Figure 326362DEST_PATH_IMAGE001
损失对第
Figure DEST_PATH_IMAGE003
个step中预测得到的
Figure 988287DEST_PATH_IMAGE001
的损失进行监督,
5-5)利用
Figure 533669DEST_PATH_IMAGE001
的损失更新事件抽取模型。而
Figure 648256DEST_PATH_IMAGE002
的预测损失将在下一个step进行监督,在事件抽取的监督学习中,本申请利用交叉熵损失和梯度下降法对事件抽取模型的参数进行更新,在损失预测模型的监督中本申请对内部损失排序和外部价值排序构建排序损失并结合梯度下降法对损失预测模型的参数进行更新。
步骤6)基于记忆的损失预测主动学习过程,
在初始化主动学习任务后,得到标注数据集L和无标注数据集U。本申请的主动学习过程如下:
6-1)利用当前的标注数据,通过步骤5)进行一轮训练直到模型收敛,
6-2)利用当前的事件抽取模型和损失预测模型在U中选择样本,
6-2-1)初始化已选择记忆模块,
6-2-2)对U中的样本预测损失,进行内-外损失排序选择价值最大的样本加入已选择样本集,
6-2-3)利用已选择的样本更新已选择记忆模块。转到6-2-2)直到选择了足够多的样本加入到已选择样本集中,
6-3)对已选择的样本进行标注并入L,并从U中删除它们,得到新的L,U后转到6-1)直到达到约定步数或者约定的模型表现后终止主动学习过程。
相对于现有技术,本发明的优点如下:
1)本申请首次提出来一个端到端的主动学习事件抽取框架。
2)本申请综合考虑了事件抽取任务各个子任务的表现,选择的样本能够最大化模型的学习,以减少样本的标注数量。
3)本申请一方面采用端到端损失预测的方法,降低了使用期望损失预测方法的计算复杂度,另一方面,在预测损失的过程中考虑了样本的多样性,避免了样本选择的冗余与偏差,进一步减少冗余标注。
4)本申请提出了一种全新的延迟学习策略,可以在训练中更加真实的模拟主动学习场景,将无标注的样本中的信息和未来选择样本的信息加入到监督训练当中,突破了监督学习不同batch之间数据无法互相支撑的局限性。
5)本申请提出了面向主动学习的记忆模块,包括已学习记忆模块和已学习记忆模块。通过这两个记忆模块,可以合理的利用已经参与训练的样本和已经选择的样本的信息来辅助样本选择的过程,可以更准确的选择对模型最有价值的无标注样本。
6)本申请提出了一个模型与主动学习损失预测模型联合训练的方法,并且模型学习和主动学习预测支持同时mini-batch训练,在更少的训练成本和标注成本下获取高质量的模型。
附图说明
图1是本发明的整体框架示意图;
图2是本发明记忆模块和选择模块结构图。
具体实施方式:
以下结合实施例和说明书附图,详细说明本发明的实施过程。
实施例1:参见图1、图2,一种基于记忆损失预测和延迟训练的主动学习事件抽取方法,包括以下几个步骤:
步骤1)主动学习事件抽取任务初始化,
首先定义目标事件类型和对应的论元。针对目标事件收集相关的无标注文本构建无标注样本集U。对无标注样本通过词性标注,选取名词,动词和形容词作为候选触发词。
并在无标注样本集合中随机选取少量样本进行人工标注,标注文本中的候选触发词对应的事件类型(候选触发词不对应事件标注为NA类),以及每个触发词对应的论元和每个论元对应的角色。论元和论元角色标注符合序列标注的BIO形式。将标注过后的样本从无标注样本集U中删除,形成标注样本集L,
步骤2)构建事件抽取模型
文本首先经过预训练的语言模型BERT进行编码,得到文本中每个token的编码向量。将候选触发词分类构建为词级别的分类任务,将候选触发词对应的token的特征向量的均值作为神经分类器的输入特征向量预测其对应的事件类型。对于序列
Figure 786720DEST_PATH_IMAGE004
中的每一个候选触发词
Figure DEST_PATH_IMAGE005
,其触发词分类结果为:
Figure 709676DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE007
为候选论元
Figure 206386DEST_PATH_IMAGE005
进过Bert编码后的特征向量,其中对于一个触发词包含了多个token的情况,
Figure 542689DEST_PATH_IMAGE007
为所有token的均值;
Figure 127254DEST_PATH_IMAGE008
为神经分类器,对输入候选触发词的特征进行分类,输出当前触发词属于每个事件类型的概率分布。
本申请将论元抽取抽象为序列标注问题,因为不像触发词一样,我们可以通过词性标注自动的给出候选触发词的集合,候选论元的情况更加复杂,无法自动给出。于是我们利用序列标注的方法对每个候选触发词进行论元抽取。将文本中每个token的隐藏层向量,当前候选触发词向量以及上下文向量进行拼接作为序列标注分类器的输入特征向量,预测当前token对当前触发词的BIO类型,最终得到当前候选触发词对应论元位置和角色。使用多头注意力机制来生成触发词
Figure 373559DEST_PATH_IMAGE005
Figure 385377DEST_PATH_IMAGE010
的上下文特征。其中注意力机制中的query向量为
Figure DEST_PATH_IMAGE011
,key和value向量使用句子
Figure 100655DEST_PATH_IMAGE004
的编码向量。
Figure 364277DEST_PATH_IMAGE012
其中
Figure DEST_PATH_IMAGE013
表示
Figure 855301DEST_PATH_IMAGE014
经过编码后的特征向量,
Figure DEST_PATH_IMAGE015
为序列经过Bert编码后的特征矩阵,其中每个行向量表示一个token的特征向量。进而,我们通过下述方式给出对于触发词
Figure 693813DEST_PATH_IMAGE016
的BIO概率分布:
Figure DEST_PATH_IMAGE017
步骤3)构建基于记忆的损失预测模型;
本申请在进行事件抽取监督训练的同时,我们设置了已学习记忆模块,对参与训练的标注样本数据中的触发词类型信息和论元角色信息进行存储,利用标注信息,将已知事件类型的触发词的特征向量通过门控单元更新基于模块中对应事件类型的信息。同样的利用已标注的论元对应的特征向量对记忆模块中对应的论元标签信息进行更新。
具体的,我们对于每个任务维护一个已学习记忆矩阵
Figure 411233DEST_PATH_IMAGE018
,这个矩阵的大小为当前任务的标签数乘以
Figure DEST_PATH_IMAGE019
,其中
Figure 515366DEST_PATH_IMAGE019
为超参数,表示记忆特征的维度。由于样本中包含两种不同的任务,即触发词分类和论元分类,两个任务的标注类型不同,为了叙述的简洁,这里使用抽象的标注来进行解释,对于样本中标注为
Figure 329738DEST_PATH_IMAGE020
的信息(如果是候选触发词,则对应标注为事件类型,如果是论元抽取,则对应标注为BIO类别)我们通过一个门控单元来选择其对记忆的贡献:
Figure DEST_PATH_IMAGE021
其中
Figure 355463DEST_PATH_IMAGE022
表示记忆矩阵
Figure DEST_PATH_IMAGE023
中存储的标签
Figure 543868DEST_PATH_IMAGE020
的信息,
Figure 149292DEST_PATH_IMAGE024
表示当前样本中标签为
Figure 83750DEST_PATH_IMAGE020
的信息所对应的特征向量的均值。每个样本如果包含标签为
Figure 608273DEST_PATH_IMAGE020
的信息,就会利用隐藏特征更新已学习记忆矩阵。
Figure DEST_PATH_IMAGE025
为门函数,通过全连接层和sigmoid激活函数构成,生成一个0到1的实数,表示
Figure 51018DEST_PATH_IMAGE026
有多少信息要进行存储。
在样本选择阶段,本申请设置了已选择记忆模块通过已经选择的无标注的样本依据注意机制和门控单元对不同标签的信息进行更新。首先利用注意机制确定单次预测中的信息对不同标签的贡献,随后利用们控单元控制当前预测中信息的重要性,结合注意机制和门控单元更新记忆模块的信息。
具体的,在样本选择时,本申请会构建一个已选择记忆矩阵
Figure DEST_PATH_IMAGE027
,这个矩阵的大小为当前任务的标签数乘以
Figure 725713DEST_PATH_IMAGE028
,其中
Figure 904890DEST_PATH_IMAGE028
为超参数,表示记忆特征的维度,在每次样本选择时,这个矩阵都会重新的初始化,初始化方法为全0。在一次样本选择中,每选择一个样本,就会更新记忆矩阵。更新过程与已学习记忆样本不同,由于没有标签,所以我们并不能准确的找到每个类别对应的信息,于是,我们构建了一个基于注意机制和门控单元的记忆方法。对于一个标签
Figure DEST_PATH_IMAGE029
Figure 6838DEST_PATH_IMAGE027
更新方法如下:
Figure 514043DEST_PATH_IMAGE030
其中
Figure DEST_PATH_IMAGE031
表示记忆矩阵
Figure 474652DEST_PATH_IMAGE032
中存储的标签
Figure 649282DEST_PATH_IMAGE029
的信息,
Figure DEST_PATH_IMAGE033
为门函数,通过全连接层和sigmoid激活函数构成,生成一个0到1的实数,表示
Figure 656552DEST_PATH_IMAGE034
有多少信息要进行存储。
Figure 41266DEST_PATH_IMAGE034
表示当前样本中可以提供的标签
Figure 651239DEST_PATH_IMAGE020
的信息,由于没有具体的标签可以锁定到特定的向量,所以我们构建了注意机制来构建样本中标签
Figure 555741DEST_PATH_IMAGE020
的特征。对于一个样本序列
Figure DEST_PATH_IMAGE035
和一个标签
Figure 858546DEST_PATH_IMAGE029
,
注意机制的query为
Figure 232021DEST_PATH_IMAGE036
,key和value为
Figure DEST_PATH_IMAGE037
。则,
Figure 786630DEST_PATH_IMAGE038
在进行损失预测时,本申请首先依据两个记忆模块的信息作为分类依据,分别对样本中的每个任务进行预测,结合当前模型的预测结果对新的无标注样本的损失进行预测。具体做法是以三个预测结果的期望损失的均值作为损失预测的结果。
Figure DEST_PATH_IMAGE039
其中
Figure 326065DEST_PATH_IMAGE040
是目标模型的预测,对应触发词为
Figure DEST_PATH_IMAGE041
,对应论元为
Figure 65351DEST_PATH_IMAGE042
表示期望损失函数,本申请采用交叉熵损失作为损失函数。
Figure DEST_PATH_IMAGE043
分别是利用已学习记忆矩阵和已选择记忆矩阵进行预测,计算过程如下:
Figure 440968DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE045
其中
Figure 547071DEST_PATH_IMAGE046
表示样本中第i个子任务被预测为第p个标签,
Figure DEST_PATH_IMAGE047
表示第i个子任务对应的隐藏层向量的转置。
步骤4)基于内外排序的样本选择;
4-1)首先对单个样本中的所有任务进行损失计算。
4-2)在样本内部对所有预测的损失进行排序,选取损失最大的m个预测作为当前样本的代表,因为这些预测可以代表当前样本对模型的价值。
4-3)利用最大的m个预测的损失的均值作为当前样本的价值,与其他样本进行比较,选取价值最大的样本进行标注。
步骤5)基于延迟训练策略的监督学习;
损失预测的监督学习与事件抽取模型的监督训练同步进行。事件抽取模型的训练采取批(batch)训练策略。将训练集分为等大的batch依次进行进行训练。每个训练步(step)利用一个batch的标注数据对事件抽取模型进行监督。而在损失预测模型的训练中需要模拟“已选择样本”来构建已选择记忆模块的信息。所以本申请利用一种延迟训练的策略,在一个训练步使用两个batch的数据进行训练。具体的第j个step的训练过程如下:
5-1)利用
Figure 691745DEST_PATH_IMAGE048
数据将在当前事件抽取模型上计算损失,更新已学习记忆模块,计算得到的损失进行记录。
5-2)第一个
Figure 195407DEST_PATH_IMAGE048
的数据同时模拟已选择数据对已选择记忆模块信息进行更新;
5-3)基于当前模型和两个记忆模块的信息预测
Figure DEST_PATH_IMAGE049
中样本的损失;
5-3)利用
Figure 58321DEST_PATH_IMAGE048
损失对第
Figure 813787DEST_PATH_IMAGE050
个step中预测得到的
Figure 406443DEST_PATH_IMAGE048
损失进行监督;
5-4)利用
Figure 848051DEST_PATH_IMAGE048
的损失更新事件抽取模型,而
Figure 791736DEST_PATH_IMAGE049
的预测损失将在下一个step进行监督;
利用交叉熵损失和梯度下降法对事件抽取模型的参数进行更新。在损失预测模型的监督中本申请对内部损失排序和外部价值排序构建排序损失并结合梯度下降法对损失预测模型的参数进行更新。
步骤6)基于记忆的损失预测主动学习过程;
6-1)利用当前的标注数据,通过步骤5)进行一轮训练直到模型收敛;
6-2)利用当前的事件抽取模型和损失预测模型在U中选择样本;
6-2-1)初始化已选择记忆模块;
6-2-2)对U中的样本预测损失,进行内-外损失排序选择价值最大的样本加入已选择样本集;
6-2-3)利用已选择的样本更新已选择记忆模块。转到6-2-2)直到选择了足够多的样本加入到已选择样本集中;
6-3)对已选择的样本进行标注并入L,并从U中删除它们。得到新的L,U后转到6-1)直到达到约定步数或者约定的模型表现后终止主动学习过程。
本实施例使用了如下指标进行评估:
F1: 在事件抽取数据集上,针对触发词和论元通过使用 precision 和 recall以及 f1 来测试分类器的性能。precision 是指分类器判断为正例的数据中真正属于正例的数据的比例,反应了分类器在判断正例时是否准确。recall 是指真实的全部正例数据中分类器判断为正例数据的比例,反应了分类器能够将全部正例数据检索到的能力。f1 得分同时兼顾了 precision 和 recall,其计算公式是
Figure DEST_PATH_IMAGE051
。在测试数据上抽取事件,并进行相关指标的验证。模型训练完成后可以保存到本地,模型包含所有的参数等。之后再测试数据上进行指标的评测,和其它方法进行比较。或者在真实场景中,使用模型对自然语言文本进行事件抽取。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims (4)

1.一种基于记忆损失预测和延迟训练的主动学习事件抽取方法,其特征在于,该方法包括以下步骤:
步骤1)主动学习事件抽取任务初始化;
步骤2)构建事件抽取模型;
步骤3)构建基于记忆的损失预测模型;
步骤4)基于内外排序的样本选择;
步骤5)基于延迟训练策略的监督学习;
步骤6)基于记忆的损失预测主动学习过程;
其中,步骤3)构建基于记忆的损失预测模型,通过构建已学习记忆模块和已选择记忆模块来预测新的无标注样本的损失,首先设置两种记忆模块,已学习记忆模块和已选择记忆模块,两个记忆模块都为每个事件类型和论元角色标签存储一个记忆向量,具体工作过程包括如下:
3-1)更新已学习记忆模块,在进行事件抽取监督训练的同时,对所有标注样本数据中的触发词类型信息和论元角色信息进行存储,利用标注信息,将已知事件类型的触发词的特征向量通过门控单元更新基于模块中对应事件类型的信息,同样的利用已标注的论元对应的特征向量对记忆模块中对应的论元标签信息进行更新;
3-2)更新已选择记忆模块,在样本选择阶段,通过已经选择的无标注的样本依据注意机制和门控单元对不同标签的信息进行更新,首先利用注意机制确定单次预测中的信息对不同标签的贡献,随后利用门控单元控制当前预测中信息的重要性,结合注意机制和门控单元更新记忆模块的信息;
3-3)损失预测,在进行损失预测时,首先依据两个记忆模块的信息作为分类依据,分别对样本中的每个任务进行预测,结合当前模型的预测结果对新的无标注样本的损失进行预测,具体做法是以三个预测结果的期望损失的均值作为损失预测的结果;
其中,步骤4)基于内外排序的样本选择,事件抽取中每个样本对应多个预测任务,包括若干触发词分类和论元角色预测,具体如下:
4-1)首先对单个样本中的所有任务进行损失计算;
4-2)在样本内部对所有预测的损失进行排序,选取损失最大的M个预测作为当前样本的代表,因为这些预测代表当前样本对模型的价值;
4-3)利用最大的M个预测的损失的均值作为当前样本的价值,与其他样本进行比较,选取价值最大的样本进行标注;
其中,步骤5)基于延迟训练策略的监督学习,具体如下:损失预测的监督学习与事件抽取模型的监督训练同步进行,事件抽取模型的训练采取批batch训练策略,将训练集分为等大的batch依次进行进行训练,每个训练步step利用一个batch的标注数据对事件抽取模型进行监督,而在损失预测模型的训练中需要模拟“已选择样本”来构建已选择记忆模块的信息,利用一种延迟训练的策略,在一个训练步使用两个batch的数据进行训练,具体的第j个step的训练过程如下:
5-1)利用第j个批
Figure DEST_PATH_IMAGE002
数据将在当前事件抽取模型上计算损失,更新已学习记忆模块,计算得到的损失进行记录;
5-2)第j个
Figure 554937DEST_PATH_IMAGE002
的数据同时模拟已选择数据对已选择记忆模块信息进行更新;
5-3)基于当前模型和两个记忆模块的信息预测第j+1批
Figure DEST_PATH_IMAGE004
中样本的损失;
5-4)利用
Figure 992610DEST_PATH_IMAGE002
损失对第
Figure DEST_PATH_IMAGE006
个step中预测得到的
Figure 129193DEST_PATH_IMAGE002
损失进行监督;
5-5)利用
Figure 266913DEST_PATH_IMAGE002
的损失更新事件抽取模型,而
Figure 729118DEST_PATH_IMAGE004
的预测损失将在下一个step进行监督。
2.根据权利要求1所述的基于记忆损失预测和延迟训练的主动学习事件抽取方法,其特征在于,步骤1)主动学习事件抽取任务初始化,具体如下:
首先定义目标事件类型和对应的论元,针对目标事件收集相关的无标注文本构建无标注样本集U,对无标注样本通过词性标注,选取名词,动词和形容词作为候选触发词,
并在无标注样本集合中随机选取少量样本进行人工标注,标注文本中的候选触发词对应的事件类型,候选触发词不对应事件标注为NA类,以及每个触发词对应的论元和每个论元对应的角色,论元和论元角色标注符合序列标注的BIO形式,将标注过后的样本从无标注样本集U中删除,形成标注样本集L。
3.根据权利要求1所述的基于记忆损失预测和延迟训练的主动学习事件抽取方法,其特征在于,步骤2)构建事件抽取模型,具体如下:事件抽取模型为基于预训练文本编码器的深度学习模型,分为以下三个部分:
2-1)文本编码,文本首先经过预训练的语言模型BERT进行编码,得到文本中每个token的编码向量;
2-2)候选触发词分类,将候选触发词分类构建为词级别的分类任务,将候选触发词对应的token的特征向量的均值作为神经分类器的输入特征向量预测其对应的事件类型;
2-3)候选论元分类,候选论元的抽取抽象为序列标注任务,对每个候选触发词进行论元抽取,将文本中每个token的隐藏层向量,当前候选触发词向量以及上下文向量进行拼接作为序列标注分类器的输入特征向量,预测当前token对当前触发词的BIO类型,最终得到当前候选触发词对应论元位置和角色。
4.根据权利要求1所述的基于记忆损失预测和延迟训练的主动学习事件抽取方法,其特征在于,步骤6)基于记忆的损失预测主动学习过程,在初始化主动学习任务后,得到标注数据集L和无标注数据集U,
主动学习过程如下:
6-1)利用当前的标注数据,通过步骤5)进行一轮训练直到模型收敛;
6-2)利用当前的事件抽取模型和损失预测模型在U中选择样本;
6-2-1)初始化已选择记忆模块;
6-2-2)对U中的样本预测损失,进行内-外损失排序选择价值最大的样本加入已选择样本集;
6-2-3)利用已选择的样本更新已选择记忆模块,转到6-2-2)直到选择了足够多的样本加入到已选择样本集中;
6-3)对已选择的样本进行标注并入L,并从U中删除它们,得到新的L,U后转到6-1)直到达到约定步数或者约定的模型表现后终止主动学习过程。
CN202110541764.1A 2021-05-18 2021-05-18 基于记忆损失预测和延迟训练的主动学习事件抽取方法 Active CN112966115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110541764.1A CN112966115B (zh) 2021-05-18 2021-05-18 基于记忆损失预测和延迟训练的主动学习事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110541764.1A CN112966115B (zh) 2021-05-18 2021-05-18 基于记忆损失预测和延迟训练的主动学习事件抽取方法

Publications (2)

Publication Number Publication Date
CN112966115A CN112966115A (zh) 2021-06-15
CN112966115B true CN112966115B (zh) 2021-08-06

Family

ID=76275610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110541764.1A Active CN112966115B (zh) 2021-05-18 2021-05-18 基于记忆损失预测和延迟训练的主动学习事件抽取方法

Country Status (1)

Country Link
CN (1) CN112966115B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761132B (zh) * 2021-09-09 2024-03-19 上海明略人工智能(集团)有限公司 一种事件检测方法、系统、电子设备及存储介质
CN115829036B (zh) * 2023-02-14 2023-05-05 山东山大鸥玛软件股份有限公司 面向文本知识推理模型持续学习的样本选择方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11263480B2 (en) * 2018-10-25 2022-03-01 The Boeing Company Machine learning model development with interactive model evaluation
CN110415702A (zh) * 2019-07-04 2019-11-05 北京搜狗科技发展有限公司 训练方法和装置、转换方法和装置
CN111694924B (zh) * 2020-06-17 2023-05-26 合肥中科类脑智能技术有限公司 一种事件抽取方法和系统
CN111966917B (zh) * 2020-07-10 2022-05-03 电子科技大学 一种基于预训练语言模型的事件检测与摘要方法

Also Published As

Publication number Publication date
CN112966115A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
Yu et al. Beyond bilinear: Generalized multimodal factorized high-order pooling for visual question answering
US20200104688A1 (en) Methods and systems for neural architecture search
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN112966115B (zh) 基于记忆损失预测和延迟训练的主动学习事件抽取方法
Zhang et al. One-shot learning for question-answering in gaokao history challenge
CN111460157A (zh) 用于多领域文本分类的循环卷积多任务学习方法
CN116258056A (zh) 多模态知识水平评估与学习表现预测方法、系统及介质
CN116432184A (zh) 基于语义分析和双向编码表征的恶意软件检测方法
Fadhil et al. A framework for predicting airfare prices using machine learning
Najar et al. Exact fisher information of generalized dirichlet multinomial distribution for count data modeling
Khan et al. Towards achieving machine comprehension using deep learning on non-GPU machines
CN113779249A (zh) 跨领域文本情感分类方法、装置、存储介质以及电子设备
KR102546328B1 (ko) 온라인 마케팅을 위한 콘텐츠 정보 모니터링 및 콘텐츠 기획 자동화 솔루션 제공 방법, 장치 및 시스템
Rahul et al. Deep auto encoder based on a transient search capsule network for student performance prediction
CN113283605B (zh) 基于预训练模型的交叉聚焦损失的溯因推理方法
CN113298233A (zh) 一种基于代理模型的渐进式深度集成架构搜索方法
Smelyakov et al. Analysis of the effectiveness of using machine learning algorithms to make hiring decisions
Ye et al. NOAA-LSTM: A new method of dialect identification
Yuan et al. Early Detecting the At-risk Students in Online Courses Based on Their Behavior Sequences
Subhani Shaik et al. Admission Prediction for Higher Studies in Foreign Universities
Sonia A Review on Classification of Machine Learning
CN116881738B (zh) 一种应用于电网行业的项目申报文档的相似度检测方法
CN110580261B (zh) 针对高科技公司的深度技术追踪方法
Kumar et al. Storage Matched Systems for Single-Click Photo Recognition Using CNN
Shaik et al. Admission Prediction for Higher Studies in Foreign Universities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant