CN112069811A

CN112069811A - 多任务交互增强的电子文本事件抽取方法

Info

Publication number: CN112069811A
Application number: CN202010856264.2A
Authority: CN
Inventors: 钱铁云; 唐小雅; 陈壮
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-12-11
Anticipated expiration: 2040-08-24
Also published as: CN112069811B

Abstract

本发明提供了一种多任务交互增强的电子文本事件抽取方法，该方法是一种从电子文本中进行事件抽取的方法，其联合了实体识别任务、触发词识别任务、论元角色预测三个任务，并额外引入辅助的事件句识别任务，使得抽取器的注意力更加集中在事件句上。该方法为实体识别任务与触发词识别任务采用了两套参数分别建模，并在子任务间增加信息交互，使得多个子任务可以协同训练实现优良性能。该联合事件抽取的方法采用神经网络的技术，形成了一个更加直接、完整、端到端的事件抽取模型，大幅度地提高了事件抽取任务的效果。

Description

多任务交互增强的电子文本事件抽取方法

技术领域

本发明涉及事件抽取与多任务学习技术领域，具体涉及一种多任务交互增强的电子文本事件抽取方法。

背景技术

互联网的快速发展和广泛普及，使得大量信息以电子文本的形式呈现在人们眼前。对这些信息进行快速且准确的挖掘，从中提取出人们感兴趣的事件相关信息，并转换为半结构或者结构化的形式，即为事件抽取任务(event extraction,EE)。事件抽取是自然语言处理领域中一项具有重要意义的任务，在信息检索、问答系统、摘要系统等领域都有广泛的应用。事件抽取任务可以划分为三个子任务，包括实体识别任务(entity mentionsdetection,EMD)、触发词识别(event detection,ED)任务与论元角色预测(argument roleprediction,ARP)任务。

初期的事件抽取任务通常采用基于特征工程技术的流水线模型。这种模型的复杂度较低，实现简单，但是存在显著缺陷。首先，特征工程技术需要由领域相关的专家人工设计关键的特征和规则，并且会依赖外部的自然语言处理工具；其次，流水线模型会存在级联误差，即上游子任务的错误会传递到下游子任务。

随着深度学习及神经网络在学术界与工业界的大力应用，采用深度学习技术的联合事件抽取模型被广泛使用，一定程度上缓解了流水线模型的缺陷。联合事件抽取模型一方面可以实现“端到端”的系统架构，即一端输入原始数据，另一端输出分析结果，可以形成更加自动、完整的事件抽取系统。另一方面深度学习技术具有更加强大的特征表示与建模能力，多任务学习技术实现的联合抽取可以使得多个子任务之间进行有益的信息交流与相互辅助。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

在目前已有的联合事件抽取模型中，大部分只联合了触发词识别任务与论元角色预测任务，忽略了实体识别任务与其他两个子任务之间的联系。因此，多个子任务之间的信息交互不够充分，导致事件抽取效果不佳。

发明内容

本发明提出一种多任务交互增强的电子文本事件抽取方法，用于解决或者至少部分解决现有技术的方法存在的事件抽取效果不佳的技术问题。

为了解决上述技术问题，本发明提供了多任务交互增强的电子文本事件抽取方法，包括：

S1：对原始数据集中的新闻文本及标注信息，进行预处理获得符号化表示，并且按照需求比例划分训练集、验证集和测试集，其中，原始数据集具有预先定义好的事件抽取框架体系，预先定义好的事件抽取框架体系包括事件类型的种类、角色类型，原始数据集的标注信息至少包含对文本中句子出现的实体、触发词以及实体与触发词之间关系的标签；

S2：将划分好的训练集和验证集批量随机地送入构建好的基于交互增强的多任务联合电子文本事件抽取网络中，开始迭代模型训练过程，得到训练集与验证集上的评价指标，当验证集上的指标不再上升或者迭代达到一定次数后停止，保存验证集上的最优模型，其中，基于交互增强的多任务联合电子文本事件抽取网络包括共享特征表示模块、私有序列信息特征表示模块、实体识别模块、触发词识别模块、论元角色预测模块、二分类事件句识别模块以及增强交互模块，共享特征表示模块用于将文本中的每个字转化为对应的向量表示，作为多个子任务的上游共享词向量，私有序列信息特征表示模块用于对每条句子的序列信息进行建模，实体识别模块用于识别出句子中的每一个实体包括它的实体边界与实体类型，触发词识别模块用于识别出句子中的每一个触发词以及其触发词代表的事件类型，论元角色预测模块用于对识别出的实体与触发词之间的关系进行预测，二分类事件句识别模块用于判断每个句子中是否包含事件，增强交互模块用于使得多个子任务之间进行交互；

S3：将保存的最优模型作为基于交互增强的多任务联合电子文本事件抽取目标网络，将测试样本批量送入目标网络中，输出与保存抽取的结果。

在一种实施方式中，S1中对原始数据集中的新闻文本及标注信息，进行预处理包括：

对文本分句、分词，将标注偏移量与文本词对应等，最终处理成一系列有序、固定格式、句子级别的模型所需的输入形式。

在一种实施方式中，S2中的共享特征表示模块利用经Word2Vec方法预训练的词向量模型，将每个词用一个连续的稠密向量来表示，并且使得词与词之间产生语义上的联系，并采用自然语言处理工具Stanford CoreNLP对文本进行处理，得到每个词词性并向量化。

在一种实施方式中，S2中的私有序列信息特征表示模块采用两套双向门控单元分别对实体识别与触发词识别任务中的每条句子进行特则提取，并采用每个词的前后c个词的词向量拼接作为语境向量，最终，将双向门控单元学习到的特征表示与语境向量在列方向上进行拼接，其中，c为正整数。

在一种实施方式中，S2中的实体识别模块采用BIO标注方式来联合解决实体边界与实体类型的识别问题，将私有序列信息特征的表示送入前馈神经网络中，前馈神经网络的输出通过softmax层后，获得每个词被分为某种标签类型的概率，选择概率最大的作为每个词的实体类型。

在一种实施方式中，S2中的触发词识别模块将私有序列信息特征的表示通过前馈神经网络及softmax层，转换为每个词的触发词类型。

在一种实施方式中，S2中的论元角色预测模块采用矩阵的形式，对每句话中的每两个词进行预测，得到它们之间潜在的配对关系。

在一种实施方式中，S2中的二分类事件句识别模块采用attention注意力机制自动地学习到一个更加合理的句子向量表示，接着使用softmax层进行二分类，得到事件句分类的概率分布P₁。

在一种实施方式中，S2中的增强交互模块首先为实体识别任务与触发词识别任务之间加上交互，将实体识别的结果转换为one-hot向量拼接在触发词识别任务的输入上，并且给关系更加密切的二分类句子识别任务与触发词识别任务之间加上交互，对触发词识别任务中的序列表示也利用attention机制得到一个句子级别的向量表示，同样进行二分类，得到事件句分类的概率分布P₂，对P₁和P₂两个概率分布计算交叉熵损失，通过最小化该损失，使得二者的分布在一定程度上趋向于一致，从而学习到句子级别信息，用以辅助词级别的分类任务。

在一种实施方式中，S3具体包括：

先加载步骤2中保存的最优模型，再将测试集中的样本批量输入到网络中，此时网络参数固定不变，经过网络计算后，得到每个词的实体类型、触发词类型以及每两个词之间的论元角色预测关系。

与现有技术相比，本发明具有以下优点和积极效果：

本发明提供的多任务交互增强的电子文本事件抽取方法，联合了实体识别任务、触发词识别任务、论元角色预测三个任务，并额外引入辅助的事件句识别任务，使得抽取器的注意力更加集中在事件句上，从而可以改善事件抽取的效果。

进一步地，本发明引入了更容易学习的句子级信息，让句子级信息去辅助词级别的分类任务。

进一步地，本发明考虑到了触发词识别任务与实体识别任务训练时的本质差异，采用了两套序列建模网络来进行表示学习。

进一步地，本发明完善了子任务之间的信息交互，大幅提高了事件抽取任务的整体性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多任务交互增强的电子文本事件抽取方法具体流程图；

图2为本发明实施例提供的基于交互增强的多任务联合电子文本事件抽取网络的框架图。

具体实施方式

本申请发明人通过大量的研究与实践发现：目前已有的联合事件抽取模型，大部分只联合了触发词识别任务与论元角色预测任务，忽略了实体识别任务与其他两个子任务之间的联系。而在现有的联合了三个子任务的事件抽取模型中仍存在着一些缺陷：1.没有考虑到触发词识别任务与实体识别任务本质上的差异，采用了同一套共享的参数进行特征表示；2.没有充分利用到更容易学习的句子级信息；3.多个子任务之间的信息交互不够充分，没有根据子任务特性建立交流方式。

针对以上缺陷，本发明提出了一种交互增强的多任务联合电子文本事件抽取模型，以形成一种端到端、完整和高效的事件抽取方法。

为了实现上述目的，本发明的主要构思如下：提供一种从电子文本中进行事件抽取的方法，其联合了实体识别任务、触发词识别任务、论元角色预测三个任务，并额外引入辅助的事件句识别任务，使得抽取器的注意力更加集中在事件句上。该方法为实体识别任务与触发词识别任务采用了两套参数分别建模，并在子任务间增加信息交互，使得多个子任务可以协同训练实现优良性能。该联合事件抽取的方法采用神经网络的技术，形成了一个更加直接、完整、端到端的事件抽取模型，大幅度地提高了事件抽取任务的效果。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种多任务交互增强的电子文本事件抽取方法，包括：

其中，S1是对原始数据集进行预处理，转化为模型可以处理的形式，并划分数据集。S1中将包含触发词的句子认定是包含事件的句子。当得到符号化表示后，按照需求，将原始数据集划分训练集、验证集和测试集。

S2是构建基于交互增强的多任务联合电子文本事件抽取网络，并利用训练集和验证集进行训练和验证。当构建基于交互增强的多任务联合电子文本事件抽取网络后，将训练与验证样本随机批量的输入到网络中，并且利用随机梯度下降(Stochastic GradientDescent)方法使网络逐渐学习最优的参数值，同时计算在验证集上的评价指标，当验证集上的指标不再上升或者网络训练迭代到一定次数后停止训练，保存验证集上表现最优的交互增强的联合事件抽取模型。

S3是对模型效果的测试。

具体来说，基于交互增强的多任务联合电子文本事件抽取网络的子模块具体用于实现下述功能：共享特征表示、私有序列信息特征表示、实体识别、触发词识别、论元角色预测、二分类事件句识别以及融合在多个子任务之间的交互。

其中，共享特征表示的目标是将文本中的每个字转化为对应的向量表示，作为多个子任务的上游共享词向量层。具体地，本发明利用经Word2Vec方法预训练的词向量模型，将每个词用一个连续的稠密向量来表示，并且使得词与词之间产生语义上的联系。同时，本发明使用了自然语言处理工具Stanford CoreNLP对文本处理，得到每个词词性并向量化。词性信息可以有效地辅助事件抽取任务，比如一个动词更可能是一个触发词。

具体来说，私有序列信息特征表示的目标是对每条句子的序列信息进行建模。由于触发词识别任务与实体识别任务本质上具有差异，本发明采用了两套双向门控单元分别对实体识别与触发词识别任务中的每条句子进行特则提取。除此之外，为了得到每个词的语境周边信息，本发明还增加了语境向量。具体地，采用了每个词的前后c个词的词向量拼接作为语境向量。最终，将双向门控单元学习到的特征表示与语境向量在列方向上进行拼接。

具体来说，实体识别的目的是识别出句子中的每一个实体包括它的实体边界与实体类型。本发明采用BIO标注方式来联合解决实体边界与实体类型的识别问题，将实体标签的第一个词定义为“B”+“实体类型”，将实体标签的非第一个词定义为“I”+“实体类型”，而非实体的标签为“O”。具体地，将私有序列信息特征的表示送入前馈神经网络中，一方面进行维度的压缩，另一方面通过线性变化得到更深层次的语义表示。前馈神经网络的输出通过softmax层后，获得每个词被分为某种标签类型的概率，选择概率最大的作为每个词的实体类型。

具体来说，触发词识别的目的是识别出句子中的每一个触发词以及其触发词代表的事件类型。与实体识别类似，将私有序列信息特征的表示通过前馈神经网络及softmax层，可转换为每个词的触发词类型。

具体来说，论元角色预测的目的是对识别出的实体与触发词之间的关系进行预测。具体地，采用矩阵的形式，对每句话中的每两个词进行预测，得到它们之间潜在的配对关系。

具体来说，二分类事件句识别的目的是判断每个句子中是否包含事件，从而使句子级别的信息去辅助词级别的触发词识别任务。具体地，采用attention注意力机制去自动地学习到一个更加合理的句子向量表示，让触发词的权重更大，接着使用softmax层进行二分类，得到事件句分类的概率分布P₁。

具体来说，增强交互的目的是使得多个子任务之间共享更多有用的信息，相互辅助、相互交流。具体地，首先为实体识别任务与触发词识别任务之间加上交互，将实体识别的结果转换为one-hot向量拼接在触发词识别任务的输入上。其次，给关系更加密切的二分类句子识别任务与触发词识别任务之间加上交互，对触发词识别任务中的序列表示也利用attention机制得到一个句子级别的向量表示，同样进行二分类，得到事件句分类的概率分布P₂。对P₁和P₂两个概率分布计算交叉熵损失，通过最小化该损失，可使得二者的分布在一定程度上趋向于一致，从而使更易学习的句子级别信息辅助词级别的分类任务。

在一种实施方式中，S3具体包括：

下面结合附图和实施例详细说明本发明技术方案。

步骤1：对原始数据集中的新闻文本及标注信息，进行预处理获得符号化表示，并且按照需求比例划分训练集、验证集和测试集。

实施例中，本发明选择了领域内通用的ACE2005数据集中的英文语料作为原始数据集，其中包含了预定义的事件体系结构。在ACE2005体系中，事件抽取任务包含实体识别任务、触发词识别任务与论元角色预测任务三个子任务，其中实体为句中的具体事物，触发词为最能体现当前事件发生的动词或者名词，论元角色关系则是实体与触发词之间的关系。对于原始的新闻文本，首先需要对其进行分句与分词，接着将其与标注一一对应起来，处理成模型需要的符号化表示。具体地，对于一句原始新闻句子，采用Stanford CoreNLP自然语言处理工具对其进行分词、得到每个词的词性。接着，得到句中每个词的初始实体标签、触发词标签与实体和触发词的论元角色关系标签。在进行预处理后，将按照通用的训练、验证、测试划分方式，对于总计包含六种新闻文本{bc，bn，cts，nw，un，wl}}的ACE2005英文数据集，从nw中随机选择40篇新闻作为测试集D^test，随机选择30篇新闻作为验证集D^dev，剩下的新闻文本全部作为训练集D^train。具体地，一篇具有m条句子的新闻文本可以表示为：

D＝{W₁，W₂，W₃，......W_m}

其中W＝w₁，w₂...，w_n代表每条句子包含n个词。

步骤2：参考附图1，将训练样本与验证样本批量随机地送入基于交互增强的多任务联合电子文本事件抽取网络中，开始迭代模型训练过程，得到训练集与验证集上的评价指标，当验证集上的指标不再上升或者迭代达到一定次数后停止，保存验证集上的最优模型。

实施例中，按照固定的批大小，每次随机选定部分样本句作为输入。参考附图2，此处以步骤1中的金融新闻D中的一条句子W为例，说明整个网络的实现过程。

1)共享特征表示：本发明采用Google公司使用Word2Vec算法对谷歌新闻进行预训练得到的词向量模型GoogleNews-vectors-negative300.bin作为词向量矩阵。首先，将W映射成(ID)序列，接着从词向量矩阵中得到当前词的300维度向量表示：

X_w＝x_w1，x_w2，x_w3...，x_wn

获得词向量表示后，本发明还利用了当前词的词性特征。假定有M种词性标注结果，将随机初始化一个维度为M*d_pos的向量矩阵，对于第i种词性标注结果(1≤i≤M)，将选择矩阵的第i行得到一个维度为1*d_pos的向量来表示，最终可以得到词性标注向量表示矩阵：

X_p＝x_p1，x_p2…，x_pn

其大小为N*d_pos，其中d_pos为设定的词性标注向量的维度。

最后，本发明将二者得到的向量表示矩阵在列方向进行拼接，得到句子序列初步的矩阵向量表示

其维度为N*(d_w+d_pos)。该矩阵X为整个模型的共享特征层，它可以被任意一个子任务使用与更新。

2)私有序列信息特征表示：本发明选择使用双向门控循环单元(Bi-GRU)来捕获每个句子的特定序列信息。具体地，将词向量矩阵X送入双向GRU网络中，得到前向的表示：

以及后向的表示：

接着将前向表示与后向表示拼接得到序列信息的特征表示:

其维度为N*(2d_gru)，其中d_gru为设定的双向GRU的隐藏单元个数。

本发明考虑了子任务之间训练趋势的差异，为实体识别任务和触发词识别任务分别训练了一套双向GRU，即对于同样的输入向量矩阵

最终可以分别得到h_emd与h_ed(h_emd表示实体识别任务专有的GRU特征向量，h_ed是触发词识别任务专有的GRU特征向量)。为了加入周边词的语境信息，本发明还选择将当前词的前后c个词的词向量作为语境信息。当前词的周边语境向量可以表示为：

[x_i-c...x_i...，x_i+c]

其大小为1*(2c*d_w)。

最后可以得到语境向量序列：

X_c＝x_c1，x_c2...x_cn

其大小为N*(2c*d_w)。

得到语境向量序列后，将双向GRU网络得到的序列向量表示矩阵h与语境向量表示矩阵X_c在列方向进行拼接，得到

与

作为后续子任务的输入。

3)实体识别：对于实体识别任务，本发明采用序列标注中的“BIO”标注方式来联合标注实体的边界与类型。具体地，“B”即“Begin”代表一种实体类型标签的开头，“I”即“Inside”代表一种实体类型标签的非开头部分，而“O”即“Outside”代表非实体标签。具体地，如果整个训练集中存在p种实体类型，那么采用BIO标注方式的标签集合将为：

L_EMD＝{B-l₁，I-l₁，B-l₂，I-l₂...B-l_p，I-l_p，O}

其大小为2*p+1，其中“O”标签代表当前词不属于任何一种实体类型。

在实体识别任务中，采用输入向量矩阵X_EMD，将其通过一个前馈神经网络(Feedforward Neural Network)，在实体识别任务中为FF^EMD，得到标注的结果：

E＝e₁，e₂，e₃...，e_n

其中e_i(1≤i≤n)为标签集合L_EMD中的元素。

4)触发词识别：对于触发词识别任务，本发明仍采用序列标注的方法。如果存在s种事件类型，那么触发词识别任务的标签集合为：

L_ED＝{l₁，l₂...，l_s，O}

其大小为s+1，其中“O”标签代表当前词不是任何一种事件类型的触发词。

具体地，本发明将输入序列向量矩阵：

X_ED＝x_ed1，x_ed2...x_edn

送入前馈神经网络FF^ED中，隐藏层的大小设定为d_ff，输出层为softmax层，其维度为标签集合L_ED的大小，得到标注结果：

T＝t₁，t₂，t₃......，t_n

通过softmax层，可以得到每个词属于每一种事件类型标签的概率，最终选择概率最大的作为其标签。

5)论元角色预测：对于论元角色预测任务，在联合三个子任务的事件抽取模型中，由于假定了实体抽取结果是未知的，因此需要对句中每两个词进行一次关系预测。在本发明中，为了得到更加直观的展现，选择将实体向量表示x_EMD与触发词向量表示构建成一个矩阵R，其大小为n*n，并且默认每一行代表的是触发词，每一列代表的是实体。于是矩阵中的每一个元素r_ij(1≤i≤n，1≤j≤n)的含义为对应行i代表的触发词与对应列j代表的实体之间的角色关系标签。为了降低论元角色预测任务的复杂度，本发明设定对于句中的每一个实体，只采用实体的第一个词，即标签为B-X类型的词。这样做是可行的，因为在第一个子任务实体识别任务中，对于预测出的实体，是可以得到其边界的。特殊地，在训练过程中，为了得到更好的识别效果，使用了真实的实体标签。

在论元角色预测任务中，如果有o种论元角色类型，那么标签集合为：

L_RP＝{l₁，l₂...，l_o，O}

其大小为o+1,标签“O”代表当前实体与当前触发词之间不存在角色关系。

具体地，对于输入序列X_EMD与X_ED，首先分别将它们输入一层隐藏层做线性变化，将其列方向的向量维度压缩至d_ff。接着为了利用上前两个任务的信息，对于矩阵元素r_ij再拼接上预测出的实体类型标签e_i与预测出的触发词标签t_j。因此矩阵元素r_ij的向量可以表示为：

r_ij＝[x_emdi，x_edj，onehot(e_i)，onehot(t_j)]

其中,onehot()函数代表着将一个实数转化为one-hot向量。

接着，再将矩阵元素r_ij通过一个前馈神经网络FF^ARP中，隐藏层的大小设定为d_ff，输出层为softmax层，其维度为标签集合L_ARP的大小，得到标注结果A_ij。通过softmax层，可以得到每一对实体与触发词属于每一种论元角色类型标签的概率，最终利用argmax函数来选择概率最大的作为其标签。

6)二分类事件句识别：为了捕获更容易学习的句子级别的信息，并且让训练器更加专注于事件句，本发明提出新增一个二分类的事件句识别任务，其标签集合为L_two＝{有事件，无事件}。在本发明中，设定若一个句子包含触发词，则它的二分类标签为“有事件”。

为了得到句子级别的向量表示，本发明采用了注意力attention机制来获取一个更符合新增事件句识别任务目的的向量表示。具体地，首先将触发词向量X_ED通过一层隐藏层，压缩向量维度至d_ff，然后模型对其进行仿射变换以获得更深层的语义信息：

u_t＝W_wX_ED+b_w

其中X_ED是大小为N*d_ff的矩阵，W_w是大小为d_ff*d_attention的随机初始化的矩阵，最终得到大小为N*d_attention的矩阵u_t，b_w为仿射变换层的偏置参数，

接着通过一层softmax获得归一化的权重表示：

按权重将每个词的向量相加，获得句子级别的向量表示：

其大小为1*2*d_gru。

得到句子级别的向量表示后，将其送入一个softmax层中，判断其是否包含事件，得到分类结果T_sentence，

表示u_t的转置向量，u_t表示对触发词向量X_ED做仿射变换后的输向量，u_w表示随机初始化的权重矩阵，h_t表示h_ed中的第t个向量，h_ed是前文中触发词识别任务专有的GRU特征向量。

7)增强交互：首先，本发明在实体识别任务中得到了实体识别的结果序列E＝e₁，e₂，e₃...，e_n，大小为n*1，代表着每个词的分类标签。将其转化为one-hot向量形式，得到大小为n*L_EMD的实体标签矩阵，将实体标签矩阵与触发词识别的输入X_ED拼接后作为新的输入矩阵。通过这样的交互方式，一方面可以让实体识别的结果去辅助触发词识别任务，另一方面可以让触发词识别任务的结果通过反向传播更新实体识别任务的结果。而论元角色预测任务的目的是对识别出的触发词与实体进行其关系的预测，本发明直接利用前两个任务中学习到的实体与触发词的表示，一方面这样做可以使得三个子任务可以形成一个更加相关的事件抽取任务系统，另一方面通过共享前两个子任务的信息，论元角色预测任务的结果可以得到有效的提高，前两个子任务的误差也可以通过反向传播得到纠正。

其次，类似将实体标签送入触发词识别任务中的思想，本发明将触发词识别任务中得到的结果序列T＝t₁，t₂，t₃......，t_n也转化为one-hot向量形式，得到大小为n*L_ED的触发词标签矩阵，将其和实体标签的one-hot向量矩阵一起拼接到论元角色预测任务中r_ij上。

最后，由于联合事件抽取模型中子任务的数目较多，而每个子任务虽然相关但本质还是存在区别的，并且每个子任务的损失规模不同，因此很难保证两个更相关的子任务事件句识别任务与触发词识别任务之间可以取得更多的“交流”。为了让两个子任务的结果联系的更加紧密，也就是说在一定程度上达到，让拥有“有事件”标签的句子中权重大的词便是应识别出的触发词，本发明给这两个任务加上了一个分布差异损失P(T_sentence|W)log(T'_sentence|W)。通过最小化这个分布差异损失，可以让更容易学习的句子级别信息去辅助比较难分类的词级别分类任务。

具体地，对于在触发词识别任务中通过前馈网络中隐藏层后得到的表示，也就是一个大小为n*d_ff的一个向量矩阵，本发明再利用attention机制得到其句子级别的向量：

其大小为1*d_ff。

得到句子级别的向量表示后，将其送入一个softmax层中，判断其是否包含事件，得到分类结果T'_sentence。最后，为了让二个子任务在一定程度上接近，本发明将T_sentence与T'_sentence二者分布的交叉熵作为辅助损失，通过最小化该损失，使得二者在一定程度上保持相似，将句子级别的信息与词级别的信息进行了交融。

本发明使用Adam算法将梯度回传并计算更新后的参数值。在每一轮训练后，考察模型在验证集D^dev上的性能指标：精确度Precision、召回率Recall和宏平均F1值。最后，保存在验证集上表现最好的模型，作为最终的交互增强的多任务联合事件抽取模型。

步骤3：加载步骤2中训练好的联合事件抽取模型，再将测试集中的样本批量输入到网络中，此时网络参数固定不变。经过网络计算后，得到每个词的实体类型、触发词类型以及每两个词之间的论元角色关系。

实施例中，加载在验证集上表现最好的模型，输入测试集D^test，得到测试集的事件抽取结果。例如，对于输入句“撞击摧毁了三个附近的房子并且造成至少两个人死亡。”，模型输出的事件类型为包括“摧毁”和“死亡”。在摧毁事件中，摧毁与房子、人都形成受害者的关系，在死亡事件中，只有人承担受害者的角色。

本发明中所描述的具体实施的例子仅仅是对本发明的方法和步骤的举例说明。本发明所述技术领域的技术人员可以对所描述的具体实施步骤做相应的修改或补充或变形(即采用类似的替代方式)，但是不会背离本发明的原理和实质或者超越所附权利要求书所定义的范围。本发明的范围仅由所附权利要求书限定。

Claims

1.多任务交互增强的电子文本事件抽取方法，其特征在于，包括：

2.如权利要求1所述的多任务交互增强的电子文本事件抽取方法，其特征在于，S1中对原始数据集中的新闻文本及标注信息，进行预处理包括：

3.如权利要求1所述的多任务交互增强的电子文本事件抽取方法，其特征在于，S2中的共享特征表示模块利用经Word2Vec方法预训练的词向量模型，将每个词用一个连续的稠密向量来表示，并且使得词与词之间产生语义上的联系，并采用自然语言处理工具StanfordCoreNLP对文本进行处理，得到每个词词性并向量化。

4.如权利要求1所述的多任务交互增强的电子文本事件抽取方法，其特征在于，S2中的私有序列信息特征表示模块采用两套双向门控单元分别对实体识别与触发词识别任务中的每条句子进行特则提取，并采用每个词的前后c个词的词向量拼接作为语境向量，最终，将双向门控单元学习到的特征表示与语境向量在列方向上进行拼接，其中，c为正整数。

5.如权利要求1所述的多任务交互增强的电子文本事件抽取方法，其特征在于，S2中的实体识别模块采用BIO标注方式来联合解决实体边界与实体类型的识别问题，将私有序列信息特征的表示送入前馈神经网络中，前馈神经网络的输出通过softmax层后，获得每个词被分为某种标签类型的概率，选择概率最大的作为每个词的实体类型。

6.如权利要求1所述的多任务交互增强的电子文本事件抽取方法，其特征在于，S2中的触发词识别模块将私有序列信息特征的表示通过前馈神经网络及softmax层，转换为每个词的触发词类型。

7.如权利要求1所述的多任务交互增强的电子文本事件抽取方法，其特征在于，S2中的论元角色预测模块采用矩阵的形式，对每句话中的每两个词进行预测，得到它们之间潜在的配对关系。

8.如权利要求1所述的多任务交互增强的电子文本事件抽取方法，其特征在于，S2中的二分类事件句识别模块采用attention注意力机制自动地学习到一个更加合理的句子向量表示，接着使用softmax层进行二分类，得到事件句分类的概率分布P₁。

9.如权利要求8所述的多任务交互增强的电子文本事件抽取方法，其特征在于，S2中的增强交互模块首先为实体识别任务与触发词识别任务之间加上交互，将实体识别的结果转换为one-hot向量拼接在触发词识别任务的输入上，并且给关系更加密切的二分类句子识别任务与触发词识别任务之间加上交互，对触发词识别任务中的序列表示也利用attention机制得到一个句子级别的向量表示，同样进行二分类，得到事件句分类的概率分布P₂，对P₁和P₂两个概率分布计算交叉熵损失，通过最小化该损失，使得二者的分布在一定程度上趋向于一致，从而学习到句子级别信息，用以辅助词级别的分类任务。

10.如权利要求1所述的多任务交互增强的电子文本事件抽取方法，其特征在于，S3具体包括：