CN112966115B

CN112966115B - 基于记忆损失预测和延迟训练的主动学习事件抽取方法

Info

Publication number: CN112966115B
Application number: CN202110541764.1A
Authority: CN
Inventors: 申时荣; 漆桂林; 李震
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-08-06
Anticipated expiration: 2041-05-18
Also published as: CN112966115A

Abstract

本申请公开了一种基于记忆损失预测和延迟训练的主动学习事件抽取方法，该方案通过预测无标注样本的损失对其进行筛选，获取高质量的无标注样本进行标注。首先构建两个记忆模块，分别是已学习记忆模块和已选择记忆模块，已学习记忆模块在监督学习模型训练的过程中，存储已经学过的信息到已学习记忆模块，在样本选择的过程中，已选择记忆模块随着样本的选择存储已经选择的样本信息，综合两个记忆模块的信息对新样本的损失进行预测，得到样本损失后，利用内‑外损失排序策略启发式地选择有价值的样本进行标注，同时，提出了一种延迟训练策略，模拟样本选择场景对样本损失模型进行监督，最后得到一种低标注成本的高质量事件抽取模型。

Description

基于记忆损失预测和延迟训练的主动学习事件抽取方法

技术领域

本发明涉及一种基于主动学习的事件抽取方法，属于信息抽取技术领域。

背景技术

随着计算机和互联网的快速发展和普及，人类创造的数据呈现高速增长趋势。在这个信息爆炸的时代，如何快速地分析和处理信息，从文本中抽取出有价值的信息成为了研究的热点和急需解决的问题。为了应对这样的挑战，迫切需要开发出一批自动化的信息处理工具，自动、快速地从海量的信息中提取出有价值的知识。在这样的背景下，信息抽取（Information Extraction，IE）技术成为了学术界和工业界研究的热点内容，信息抽取的目的是从半结构化和非结构化的文本，以及结构化的数据中抽取出特定、有价值的信息，并处理成计算机易于存储与计算的结构化数据，信息抽取包括实体识别（EntityRecognition）、关系抽取（Relation Extraction）和事件抽取（Event Extraction）。

事件是指发生在特定的时间、地点，涉及一个或多个参与者，通常被描述为人或事物的状态及行为的变化。作为信息抽取的重要任务之一，事件抽取是对给定的自然文本，检测是否存在感兴趣的事件描述，如果文本中包含事件描述，则识别并抽取所有与该事件相关的元素。通常来说，封闭领域事件抽取会预先定义好事件结构，如事件类型和事件论元角色。事件抽取需要从文本中检测事件，抽取字或词以填充预定义的事件结构，并以结构化的事件形式进行输出。在海量数据处理、知识库的自动构建、自动问答等领域上有着广泛的应用价值。

事件抽取本身是一个复杂的任务，由多个子任务组成，不仅需要识别用于标识事件的触发词，而且还必须识别与事件相关的论元以及论元在事件中的角色，这导致事件抽取很难标注训练数据，尤其是针对特定领域进行事件抽取，例如生物医学，金融，法律，军事和其他需要具有专业知识的人员进行标记的领域，导致较高的标记成本。然而，当前基于深度学习的事件抽取方法需要大量的标注数据作为支持，事件抽取方法在其他领域的应用需要大量的监督数据。主动学习使用样本选择策略来选择样本，这些样本可以有效地促进针对标签的监管模型的训练，从而减少模型对监督数据量的需求，这启发了我们将主动学习技术应用于事件抽取，以解决样本标注成本过高的问题。

发明内容

本发明正是针对现有事件抽取技术中存在的技术问题，提供一种基于损失延迟预测的事件抽取方法，通过已经学习到的信息和已经标注过的样本信息对样本损失进行预测。采用内外样本损失排序方法，根据预测损失选择样本进行标注，降低监督数据的标注代价。

本方案公开了一种基于损失延迟训练的领域事件抽取主动学习训练策略，主要用于领域事件抽取。本方案提供了一种主动学习的方法，能够根据已经标注的样本信息以及模型学习到的样本信息从无标记样本中选择模型最不确定的样本来进行标注，以降低标注样本的冗余。由于事件抽取是一个包含多子任务的复杂任务，因此本方案采用内外损失排序的方法来衡量样本的不确定性。

为了实现上述目的，本发明的技术方案如下：一种基于记忆损失预测和延迟训练的主动学习事件抽取方法，具体步骤如下：

步骤1）主动学习事件抽取任务初始化；

步骤2）构建事件抽取模型；

步骤3）构建基于记忆的损失预测模型；

步骤4）基于内外排序的样本选择；

步骤5）基于延迟训练策略的监督学习；

步骤6）基于记忆的损失预测主动学习过程。

其中，步骤1) 中需要初始化主动学习。

首先定义目标事件类型和对应的论元。针对目标事件收集相关的无标注文本构建无标注样本集U。对无标注样本通过词性标注，选取名词，动词和形容词作为候选触发词。

并在无标注样本集合中随机选取少量样本进行人工标注，标注文本中的候选触发词对应的事件类型（候选触发词不对应事件标注为NA类），以及每个触发词对应的论元和每个论元对应的角色。论元和论元角色标注符合序列标注的BIO（即Begin-Inside-Outside）形式。将标注过后的样本从无标注样本集U中删除，形成标注样本集L。

步骤2）本申请采用的事件抽取模型为基于预训练文本编码器的深度学习模型。分为以下三个部分：

2-1）文本编码,文本首先经过预训练的语言模型BERT进行编码，得到文本中每个token的编码向量；

2-2）候选触发词分类。本申请将候选触发词分类构建为词级别的分类任务，将候选触发词对应的token的特征向量的均值作为神经分类器的输入特征向量预测其对应的事件类型；2-3）候选论元分类。候选论元的抽取抽象为序列标注任务，对每个候选触发词进行论元抽取。将文本中每个token的隐藏层向量，当前候选触发词向量以及上下文向量进行拼接作为序列标注分类器的输入特征向量，预测当前token对当前触发词的BIO类型，最终得到当前候选触发词对应论元位置和角色。事件抽取模型通过mini-batch 梯度下降的方式，以最小化函数的方式，更新所有的参数。

步骤3）本申请发明了一种基于记忆的损失预测模型对无标注样本进行损失预测，并依据预测的损失选择对当前模型有价值的样本进行标注。基于记忆的损失预测模型包含两个记忆模块：已学习记忆模块和已选择记忆模块，通过对这两部分独特的记忆进行构建来预测新的无标注样本的损失。首先设置两种记忆模块，已学习记忆模块和已选择记忆模块。两个记忆模块都为每个事件类型和论元角色标签存储一个记忆向量。具体工作过程包括：

3-1）更新已学习记忆模块。在进行事件抽取监督训练的同时，对所有标注样本数据中的触发词类型信息和论元角色信息进行存储。利用标注信息，将已知事件类型的触发词的特征向量通过门控单元更新基于模块中对应事件类型的信息，同样的利用已标注的论元对应的特征向量对记忆模块中对应的论元标签信息进行更新，

3-2）更新已选择记忆模块。在样本选择阶段，通过已经选择的无标注的样本依据注意机制和门控单元对不同标签的信息进行更新。首先利用注意机制确定单次预测中的信息对不同标签的贡献，随后利用们控单元控制当前预测中信息的重要性，结合注意机制和门控单元更新记忆模块的信息，

3-3）损失预测。在进行损失预测时，本申请首先依据两个记忆模块的信息作为分类依据，分别对样本中的每个任务进行预测，结合当前模型的预测结果对新的无标注样本的损失进行预测，具体做法是以三个预测结果的期望损失的均值作为损失预测的结果，

步骤4) 基于内外排序的样本选择,事件抽取中每个样本对应了多个预测任务，包括若干触发词分类和论元角色预测。于是本专提出了内外排序的样本选择方法，

4-1）首先对单个样本中的所有任务进行损失计算，

4-2）在样本内部对所有预测的损失进行排序，选取损失最大的M个预测作为当前样本的代表，因为这些预测可以代表当前样本对模型的价值；

4-3）利用最大的M个预测的损失的均值作为当前样本的价值，与其他样本进行比较，选取价值最大的样本进行标注，

步骤5）基于延迟训练策略的监督学习。本申请提出一种延迟训练策略来对损失预测模型进行监督学习。损失预测的监督学习与事件抽取模型的监督训练同步进行。事件抽取模型的训练采取批（batch）训练策略。将训练集分为等大的batch依次进行进行训练。每个训练步（step）利用一个batch的标注数据对事件抽取模型进行监督。而在损失预测模型的训练中需要模拟“已选择样本”来构建已选择记忆模块的信息。所以本申请利用一种延迟训练的策略，在一个训练步使用两个batch的数据进行训练。具体的第j个step的训练过程如下：

5-1）利用

数据将在当前事件抽取模型上计算损失，更新已学习记忆模块，计算得到的损失进行记录，

5-2）第一个

的数据同时模拟已选择数据对已选择记忆模块信息进行更新，

5-3）基于当前模型和两个记忆模块的信息预测

中样本的损失，

5-4）利用

损失对第

个step中预测得到的

的损失进行监督，

5-5）利用

的损失更新事件抽取模型。而

的预测损失将在下一个step进行监督，在事件抽取的监督学习中，本申请利用交叉熵损失和梯度下降法对事件抽取模型的参数进行更新，在损失预测模型的监督中本申请对内部损失排序和外部价值排序构建排序损失并结合梯度下降法对损失预测模型的参数进行更新。

步骤6）基于记忆的损失预测主动学习过程，

在初始化主动学习任务后，得到标注数据集L和无标注数据集U。本申请的主动学习过程如下：

6-1）利用当前的标注数据，通过步骤5）进行一轮训练直到模型收敛，

6-2）利用当前的事件抽取模型和损失预测模型在U中选择样本，

6-2-1）初始化已选择记忆模块，

6-2-2）对U中的样本预测损失，进行内-外损失排序选择价值最大的样本加入已选择样本集，

6-2-3）利用已选择的样本更新已选择记忆模块。转到6-2-2）直到选择了足够多的样本加入到已选择样本集中，

6-3）对已选择的样本进行标注并入L，并从U中删除它们，得到新的L，U后转到6-1）直到达到约定步数或者约定的模型表现后终止主动学习过程。

相对于现有技术，本发明的优点如下：

1）本申请首次提出来一个端到端的主动学习事件抽取框架。

2）本申请综合考虑了事件抽取任务各个子任务的表现，选择的样本能够最大化模型的学习，以减少样本的标注数量。

3）本申请一方面采用端到端损失预测的方法，降低了使用期望损失预测方法的计算复杂度，另一方面，在预测损失的过程中考虑了样本的多样性，避免了样本选择的冗余与偏差，进一步减少冗余标注。

4）本申请提出了一种全新的延迟学习策略，可以在训练中更加真实的模拟主动学习场景，将无标注的样本中的信息和未来选择样本的信息加入到监督训练当中，突破了监督学习不同batch之间数据无法互相支撑的局限性。

5）本申请提出了面向主动学习的记忆模块，包括已学习记忆模块和已学习记忆模块。通过这两个记忆模块，可以合理的利用已经参与训练的样本和已经选择的样本的信息来辅助样本选择的过程，可以更准确的选择对模型最有价值的无标注样本。

6）本申请提出了一个模型与主动学习损失预测模型联合训练的方法，并且模型学习和主动学习预测支持同时mini-batch训练，在更少的训练成本和标注成本下获取高质量的模型。

附图说明

图1是本发明的整体框架示意图；

图2是本发明记忆模块和选择模块结构图。

具体实施方式：

以下结合实施例和说明书附图，详细说明本发明的实施过程。

实施例1：参见图1、图2，一种基于记忆损失预测和延迟训练的主动学习事件抽取方法，包括以下几个步骤：

步骤1）主动学习事件抽取任务初始化，

并在无标注样本集合中随机选取少量样本进行人工标注，标注文本中的候选触发词对应的事件类型（候选触发词不对应事件标注为NA类），以及每个触发词对应的论元和每个论元对应的角色。论元和论元角色标注符合序列标注的BIO形式。将标注过后的样本从无标注样本集U中删除，形成标注样本集L，

步骤2）构建事件抽取模型

文本首先经过预训练的语言模型BERT进行编码，得到文本中每个token的编码向量。将候选触发词分类构建为词级别的分类任务，将候选触发词对应的token的特征向量的均值作为神经分类器的输入特征向量预测其对应的事件类型。对于序列

中的每一个候选触发词

，其触发词分类结果为：

，

其中，

为候选论元

进过Bert编码后的特征向量，其中对于一个触发词包含了多个token的情况，

为所有token的均值；

为神经分类器，对输入候选触发词的特征进行分类，输出当前触发词属于每个事件类型的概率分布。

本申请将论元抽取抽象为序列标注问题，因为不像触发词一样，我们可以通过词性标注自动的给出候选触发词的集合，候选论元的情况更加复杂，无法自动给出。于是我们利用序列标注的方法对每个候选触发词进行论元抽取。将文本中每个token的隐藏层向量，当前候选触发词向量以及上下文向量进行拼接作为序列标注分类器的输入特征向量，预测当前token对当前触发词的BIO类型，最终得到当前候选触发词对应论元位置和角色。使用多头注意力机制来生成触发词

和

的上下文特征。其中注意力机制中的query向量为

，key和value向量使用句子

的编码向量。

；

其中

表示

经过编码后的特征向量，

为序列经过Bert编码后的特征矩阵，其中每个行向量表示一个token的特征向量。进而，我们通过下述方式给出对于触发词

的BIO概率分布：

；

步骤3）构建基于记忆的损失预测模型；

本申请在进行事件抽取监督训练的同时，我们设置了已学习记忆模块，对参与训练的标注样本数据中的触发词类型信息和论元角色信息进行存储,利用标注信息，将已知事件类型的触发词的特征向量通过门控单元更新基于模块中对应事件类型的信息。同样的利用已标注的论元对应的特征向量对记忆模块中对应的论元标签信息进行更新。

具体的，我们对于每个任务维护一个已学习记忆矩阵

，这个矩阵的大小为当前任务的标签数乘以

，其中

为超参数，表示记忆特征的维度。由于样本中包含两种不同的任务，即触发词分类和论元分类，两个任务的标注类型不同，为了叙述的简洁，这里使用抽象的标注来进行解释，对于样本中标注为

的信息（如果是候选触发词，则对应标注为事件类型，如果是论元抽取，则对应标注为BIO类别）我们通过一个门控单元来选择其对记忆的贡献：

；

其中

表示记忆矩阵

中存储的标签

的信息，

表示当前样本中标签为

的信息所对应的特征向量的均值。每个样本如果包含标签为

的信息，就会利用隐藏特征更新已学习记忆矩阵。

为门函数，通过全连接层和sigmoid激活函数构成，生成一个0到1的实数，表示

有多少信息要进行存储。

在样本选择阶段，本申请设置了已选择记忆模块通过已经选择的无标注的样本依据注意机制和门控单元对不同标签的信息进行更新。首先利用注意机制确定单次预测中的信息对不同标签的贡献，随后利用们控单元控制当前预测中信息的重要性，结合注意机制和门控单元更新记忆模块的信息。

具体的，在样本选择时，本申请会构建一个已选择记忆矩阵

，这个矩阵的大小为当前任务的标签数乘以

，其中

为超参数，表示记忆特征的维度，在每次样本选择时，这个矩阵都会重新的初始化，初始化方法为全0。在一次样本选择中，每选择一个样本，就会更新记忆矩阵。更新过程与已学习记忆样本不同，由于没有标签，所以我们并不能准确的找到每个类别对应的信息，于是，我们构建了一个基于注意机制和门控单元的记忆方法。对于一个标签

，

更新方法如下：

；

其中

表示记忆矩阵

中存储的标签

的信息，

有多少信息要进行存储。

表示当前样本中可以提供的标签

的信息，由于没有具体的标签可以锁定到特定的向量，所以我们构建了注意机制来构建样本中标签

的特征。对于一个样本序列

和一个标签

,

注意机制的query为

，key和value为

。则，

；

在进行损失预测时，本申请首先依据两个记忆模块的信息作为分类依据，分别对样本中的每个任务进行预测，结合当前模型的预测结果对新的无标注样本的损失进行预测。具体做法是以三个预测结果的期望损失的均值作为损失预测的结果。

；

其中

是目标模型的预测，对应触发词为

，对应论元为

表示期望损失函数，本申请采用交叉熵损失作为损失函数。

分别是利用已学习记忆矩阵和已选择记忆矩阵进行预测，计算过程如下：

；

；

其中

表示样本中第i个子任务被预测为第p个标签，

表示第i个子任务对应的隐藏层向量的转置。

步骤4）基于内外排序的样本选择；

4-1）首先对单个样本中的所有任务进行损失计算。

4-2）在样本内部对所有预测的损失进行排序，选取损失最大的m个预测作为当前样本的代表，因为这些预测可以代表当前样本对模型的价值。

4-3）利用最大的m个预测的损失的均值作为当前样本的价值，与其他样本进行比较，选取价值最大的样本进行标注。

步骤5）基于延迟训练策略的监督学习；

损失预测的监督学习与事件抽取模型的监督训练同步进行。事件抽取模型的训练采取批（batch）训练策略。将训练集分为等大的batch依次进行进行训练。每个训练步（step）利用一个batch的标注数据对事件抽取模型进行监督。而在损失预测模型的训练中需要模拟“已选择样本”来构建已选择记忆模块的信息。所以本申请利用一种延迟训练的策略，在一个训练步使用两个batch的数据进行训练。具体的第j个step的训练过程如下：

5-1）利用

数据将在当前事件抽取模型上计算损失，更新已学习记忆模块，计算得到的损失进行记录。

5-2）第一个

的数据同时模拟已选择数据对已选择记忆模块信息进行更新；

5-3）基于当前模型和两个记忆模块的信息预测

中样本的损失；

5-3）利用

损失对第

个step中预测得到的

损失进行监督；

5-4）利用

的损失更新事件抽取模型，而

的预测损失将在下一个step进行监督；

利用交叉熵损失和梯度下降法对事件抽取模型的参数进行更新。在损失预测模型的监督中本申请对内部损失排序和外部价值排序构建排序损失并结合梯度下降法对损失预测模型的参数进行更新。

步骤6）基于记忆的损失预测主动学习过程；

6-1）利用当前的标注数据，通过步骤5）进行一轮训练直到模型收敛；

6-2）利用当前的事件抽取模型和损失预测模型在U中选择样本；

6-2-1）初始化已选择记忆模块；

6-2-2）对U中的样本预测损失，进行内-外损失排序选择价值最大的样本加入已选择样本集；

6-2-3）利用已选择的样本更新已选择记忆模块。转到6-2-2）直到选择了足够多的样本加入到已选择样本集中；

6-3）对已选择的样本进行标注并入L，并从U中删除它们。得到新的L，U后转到6-1）直到达到约定步数或者约定的模型表现后终止主动学习过程。

本实施例使用了如下指标进行评估：

F1: 在事件抽取数据集上，针对触发词和论元通过使用 precision 和 recall以及 f1 来测试分类器的性能。precision 是指分类器判断为正例的数据中真正属于正例的数据的比例，反应了分类器在判断正例时是否准确。recall 是指真实的全部正例数据中分类器判断为正例数据的比例，反应了分类器能够将全部正例数据检索到的能力。f1 得分同时兼顾了 precision 和 recall，其计算公式是

。在测试数据上抽取事件，并进行相关指标的验证。模型训练完成后可以保存到本地，模型包含所有的参数等。之后再测试数据上进行指标的评测，和其它方法进行比较。或者在真实场景中，使用模型对自然语言文本进行事件抽取。

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims

1.一种基于记忆损失预测和延迟训练的主动学习事件抽取方法，其特征在于，该方法包括以下步骤：

步骤1）主动学习事件抽取任务初始化；

步骤2）构建事件抽取模型；

步骤3）构建基于记忆的损失预测模型；

步骤4）基于内外排序的样本选择；

步骤5）基于延迟训练策略的监督学习；

步骤6）基于记忆的损失预测主动学习过程；

其中，步骤3）构建基于记忆的损失预测模型，通过构建已学习记忆模块和已选择记忆模块来预测新的无标注样本的损失，首先设置两种记忆模块，已学习记忆模块和已选择记忆模块，两个记忆模块都为每个事件类型和论元角色标签存储一个记忆向量，具体工作过程包括如下：

3-1）更新已学习记忆模块，在进行事件抽取监督训练的同时，对所有标注样本数据中的触发词类型信息和论元角色信息进行存储，利用标注信息，将已知事件类型的触发词的特征向量通过门控单元更新基于模块中对应事件类型的信息，同样的利用已标注的论元对应的特征向量对记忆模块中对应的论元标签信息进行更新；

3-2）更新已选择记忆模块，在样本选择阶段，通过已经选择的无标注的样本依据注意机制和门控单元对不同标签的信息进行更新，首先利用注意机制确定单次预测中的信息对不同标签的贡献，随后利用门控单元控制当前预测中信息的重要性，结合注意机制和门控单元更新记忆模块的信息；

3-3）损失预测，在进行损失预测时，首先依据两个记忆模块的信息作为分类依据，分别对样本中的每个任务进行预测，结合当前模型的预测结果对新的无标注样本的损失进行预测，具体做法是以三个预测结果的期望损失的均值作为损失预测的结果；

其中，步骤4）基于内外排序的样本选择，事件抽取中每个样本对应多个预测任务，包括若干触发词分类和论元角色预测，具体如下：

4-1）首先对单个样本中的所有任务进行损失计算；

4-2）在样本内部对所有预测的损失进行排序，选取损失最大的M个预测作为当前样本的代表，因为这些预测代表当前样本对模型的价值；

4-3）利用最大的M个预测的损失的均值作为当前样本的价值，与其他样本进行比较，选取价值最大的样本进行标注；

其中，步骤5）基于延迟训练策略的监督学习，具体如下：损失预测的监督学习与事件抽取模型的监督训练同步进行，事件抽取模型的训练采取批batch训练策略，将训练集分为等大的batch依次进行进行训练，每个训练步step利用一个batch的标注数据对事件抽取模型进行监督，而在损失预测模型的训练中需要模拟“已选择样本”来构建已选择记忆模块的信息，利用一种延迟训练的策略，在一个训练步使用两个batch的数据进行训练，具体的第j个step的训练过程如下：

5-1）利用第j个批