CN111767402B

CN111767402B - 一种基于对抗学习的限定域事件检测方法

Info

Publication number: CN111767402B
Application number: CN202010635994.XA
Authority: CN
Inventors: 陆树栋; 李思; 徐雅静; 王凯; 王明轩; 张锐; 宋磊
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2022-04-05
Anticipated expiration: 2040-07-03
Also published as: CN111767402A

Abstract

本发明提供了一种基于对抗学习的限定域事件检测方法，该方法在动态池化卷积神经网络模型的基础上，通过对抗学习的方式，引入约束相同事件类型的数据的特征分布的正则项，使得模型能够学到更多跨触发词的事件分类特征，以此解决基础模型在学习稀疏触发词相关特征时，所学判别性特征不可靠的问题，有利于提高模型在稀疏触发词上的检测性能以及跨领域的泛化性。

Description

一种基于对抗学习的限定域事件检测方法

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于对抗学习的限定域事件检测方法。

背景技术

随着互联网技术的发展，互联网上每日都会产生海量的文本数据，其中包含大量有价值的信息，对其进行自动挖掘与分析具有重要的意思，这推动着自然语言技术，尤其是信息抽取技术的快速发展。事件检测，作为信息抽取技术的一种，是文本语义理解及知识图谱构建的重要基础技术，这些年引起了学术界和工业界的普遍关注。

限定域事件检测是指，对于给定的一个或者几个领域的文本，在检测过程中将检测到的事件分类为预定义的事件类型。另外，限定域事件检测任务通常需要对每一种事件类型给出少量的标注数据。

本发明中关于限定域事件检测的定义采用ACE评测会议关于限定域事件检测任务的定义。限定域事件检测任务是指，对于给定一个句子，定位事件触发词(句中最能表示一个事件发生的词)并正确分类其对应的事件类型。另外，限定域事件检测任务涉及包括新闻、博客在内的多个领域的文本数据，对于检测方法的泛化能力有着不小的挑战。当前，用于限定域事件检测的方法包括三种，即基于模式匹配的方法、基于特征工程的机器学习方法以及近年来发展的基于深度学习的方法。

基于模式匹配的方法通过人为定义的模式或者系统依据少量的标注数据自动学习的模式完成限定域事件检测任务，其中的代表性系统包括AutoSlog、PALKA、AotoSlog-TS等。总体来说，基于模式匹配的方法在特定领域中性能较好。然而，该类方法依赖于文本的具体形式(语言、领域和文档格式等)，获取模板的过程费时费力，具有很强的专业性，召回率低。而且，制定的模式很难覆盖所有的事件类型，当语料发生变化时，需要重新获取模式。

基于特征工程的机器学习方法将限定域事件检测任务建模成一个多分类的问题，特征到分类的映射关系使用有监督的分类器建模，其中典型的分类器包括支持向量机模型、朴素贝叶斯模型、隐马尔可夫模型、最大熵模型、最大熵隐马尔可夫模型等，最具代表性的方法是Ahn在2006年提出的模型。基于特征工程的方法在一定程度上克服了基于模式匹配的方法的模板获取费时费力、召回率低的问题，但特征工程依然依赖于人工，同时特征提取的过程中过分依赖于词性标注器、句法分析器等传统的自然语言处理工具，会造成误差积累的问题。

随着词向量技术的发展，基于深度学习的方法凭借其自动学习特征的能力，成为近年事件检测相关研究的重点及主流。

如图1所示，现有技术的“Event Extraction via Dynamic Multi-PoolingConvolutional Neural Networks”文章中，提到基于动态池化的卷积神经网络(Convolutional Neural Network)的限定域事件检测方案。

首先，根据词到预训练词向量的映射关系，将表示句子的词序列[w₁,w₂,…,w_t,…,w_N]转化为对应的词向量矩阵E＝[e₁,e₂,…,e_t,…,e_N]，其中，t表示选定的待检测词的位置下标,

d^E为词向量的维度，N表示词序列长度；将目标词及其两边的词对应的词向量进行拼接得到词汇级特征:

L＝e_t-1:e_t:e_t+1 式(2-1)

其中:表示向量的拼接，

然后，对词向量序列中每个向量拼接对应的位置向量得到卷积神经网络的输入矩阵

其中

d^P为位置向量的维度，序列中不同位置的词的位置向量由该词到待检测词的相对位置决定，所有位置向量均为参数；利用卷积神经网络以及动态池化提取待检测词的句子级特征C，其计算过程如下：

c_ij＝f(W_j·V_i:i+H-1+b_j) 式(2-2)

C＝c^left:c^right 式(2-5)

其中·表示矩阵的点积，V_i:i+h-1表示矩阵V的第i行至第i+H-1行构成的子矩阵，

和b_j表示第j个卷积核的参数，j∈{1,2,...,S}，S表示卷积核的个数，H表示卷积核的窗口大小，c^left∈R^S，c^right∈R^S，C∈R^2S，f表示激活函数tanh，其计算公式如下：

最后，拼接词汇级特征及句子级特征得到分类特征，并输入到由一层全连接网络构成的分类器中进行事件类型的打分，其计算过程如下：

F＝L:C 式(2-7)

O＝W_oF+b_o 式(2-8)

其中

及b_o∈R^M为分类器的参数，T表示事件类型的数目，O∈R^T表示所有事件类型的打分，打分最高的事件类型为分类器的输出；

模型的训练使用Adadelta算法，采用交叉熵定义损失函数：

其中，o_y表示第y种事件类型的打分，M表示训练数据的数目，θ表示可训练的参数，y^(m)表示第m条训练数据的正确事件类别。

发明人在研究过程中发现，对于“Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks”现有技术中：

1、限定域事件检测依赖于以潜在触发词为核心的判别性特征；

由于上述问题导致现有技术存在以下缺点：

1、对于训练数据稀疏的触发词，现有技术的准确率和召回率较低；

2、跨领域的泛化性较差；

发明内容

为了解决上述问题，对于应用于限定域事件检测任务的深度模型，本发明提出一种约束相同事件类型数据的特征分布的正则项，该正则项采用对抗学习的方式实现，使得模型学习更多的跨触发词的特征信息，以此提高在稀疏触发词上模型的泛化能力。

本发明提出一种基于对抗学习的正则项，该方法包括：

步骤一、将待检测文本进行分词，并设定待检测词位置；

步骤二、根据预训练词向量表，词序列转化为对应的词向量序列，并拼接位置向量，得到卷积神经网络的输入V，同时根据式(2-1)得到待检测词的词汇级特征L；

步骤三、根据式(2-2)至式(2-5)，将步骤二得到的V输入到基于动态池化的卷积神经网络中得到待检测词的句子级特征C；

步骤四、将步骤二得到的词汇级特征L与步骤三得到的句子级特征C进行拼接，送入到由一层全连接网络构成的事件分类器中，输出事件类别预测概率分布p如式(2-7)至式(2-9)所示，其中概率最高的事件类别作为模型预测的事件类别输出；

步骤五、随机采样一个插值系数σ～Beta(α,β)，其中α和β为超参数，对于当前迭代步中所使用的训练数据，采样其中事件类型(除去默认事件类型)相同的数据对

M表示训练数据的数量，

表示采样的数据对数量，根据如下式所示的向量内插公式，融合数据对对应的两个句子级特征

和

得到新的句子级特征

步骤六、将真实数据的句子级特征及步骤四中得到的句子级特征输入到判别器中，判别器将句子级特征映射成概率，该概率表示输入句子级特征源于真实数据的可能性大小，映射用D表示，以此计算正则项J_G(θ,θ_d)及判别器损失函数J_D(θ,θ_d)如下式所示：

步骤七、输入训练数据的正确事件分类标签，根据式(2-1)至式(2-10)计算事件检测的损失函数J_B(θ)；

步骤八、采用对抗学习的策略，先根据J_D(θ,θ_d)优化判别器的参数θ_d，再根据如下式所示的总损失函数J(θ,θ_d)优化事件检测模型的参数θ，其中ε为正则项的超参数：

J(θ,θ_d)＝J_B(θ)+εJ_G(θ,θ_d) 式(3-4)

步骤九、在训练集上训练，重复步骤一至七直到模型参数收敛，保存在开发集上性能最高的参数，并将保存的模型在测试集上测试以及在未标注数据上做限定域事件检测。

附图说明

图1为基于动态池化的卷积神经网络(Convolutional Neural Network)的事件检测模型示意图；

图2为本发明的事件检测模型训练框架示意图；

图3为本发明的事件检测方法的流程图；

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。其中，本实施例中出现的缩略语和关键术语定义如下：

BP:Back Propagation反向传播；

CNN:Convolutional Neural Network卷积神经网络；

Dynamic Multi-pooling：动态池化；

DMCNN：Dynamic Multi-pooling CNN基于动态池化的卷积神经网络；

ReLU:Rectified Linear Unit线性整流函数，是一种激活函数。

CWF：context-word feature，表示词对应的词向量；

PF：position embedding位置向量；

实施例一

参照图1、2、3所示，图1、2、3示出了本发明所采用的事件检测模型的结构以及训练过程中所使用的基于对抗学习的正则项技术，该方法包括：

步骤一、将待检测文本进行分词，得到对应的词序列，并设定待检测词位置；

其中，数据集选用ACE 2005中文事件检测数据集，其中包含33种事件类型，涉及Broadcast News、Newswire及Weblog三个领域的599篇文章的标注数据，其中以Newswire中随机采样40篇文章作为测试集，其余文章中随机30篇为开发集，剩下数据为训练集；

将待检测文本进行分词后，以待检测词为中心，左右各15个词，通过滑窗的方式在原词序列上进行采样，缺失的词用表示填充的“[PAD]”符号代替，得到一系列总长度为31的词序列。

预训练的词向量表，收集《人民日报》的新闻文章作为训练词向量的语料，对新闻文章进行分词。设语料中共有M个不同的词，词向量的维度d^E为300维，利用skip-gram算法训练每个词对应的词向量，在此基础上，随机设置一个对应所有未出现词的词向量，设置一个对应于“[PAD]”符号的零向量，从而得到包含M+2个向量的预训练词向量表，该表在事件检测模型训练过程中保持不变；

设置模型输入的词序列的最大长度N_s为31，位置向量采用随机初始化的31个向量表示，对应31个相对位置，维度d^P设为50，从待检测词左侧距离为15到右侧距离为15的位置id依次设为[1,2,...,31]，位置向量对应参数在模型训练阶段更新；

步骤三、根据式(2-2)至式(2-5)，将步骤二得到的V输入基于动态池化的卷积神经网络得到待检测词的句子级特征C；

其中，卷积核的窗口大小H设置为3，卷积核的数量S设置为200；

步骤四、对于当前迭代步中所使用的训练数据，采样其中事件类型(除去默认事件类型)相同的数据对

M表示训练数据的数量，

和

得到新的句子级特征

步骤五、将真实数据的句子级特征及步骤四中得到的句子级特征输入到判别器中，判别器将句子级特征映射成概率，该概率表示输入句子级特征源于真实数据的可能性大小，映射用D表示，以此计算正则项J_G(θ,θ_d)及判别器损失函数J_D(θ,θ_d)如下式所示：

进一步的，判别器采用两层全连接结构，D(C)的计算过程如下式所示：

其中，

为判别器的参数，K表示判别器隐层大小，设为100，

表示步骤四中得到的数据对个数，f₁为Relu激活函数，f₂为Sigmoid激活函数，计算公式如下：

Relu(x)＝max(0,x)

步骤六、输入训练数据的正确事件分类标签，根据式(2-1)至式(2-10)计算事件检测的损失函数J_B(θ)；

其中，分类器输入设置dropout层，drop rate设置为0.5；

步骤七、采用对抗学习的策略，先根据J_D(θ,θ_d)优化判别器的参数θ_d，再根据如下式所示的总损失函数J(θ,θ_d)优化事件检测模型的参数θ，其中ε为正则项的超参数：

J(θ,θ_d)＝J_B(θ)+εJ_G(θ,θ_d)

其中，ε设置为1.0；

步骤八、在训练集上训练，重复步骤一至七直到模型参数收敛，保存在开发集上性能最高的参数，并将保存的模型在测试集上测试以及在未标注数据上做限定域事件检测。

本发明实施例一在原有应用于限定域事件检测任务的深度模型上，引入了约束相同事件类型数据的特征分布的正则项，该正则项采用对抗学习的方式实现，使得模型学习更多的跨触发词的特征信息，以此提高在稀疏触发词上模型的泛化能力。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于对抗学习的限定域事件检测方法，其特征在于，包括：

将待检测文本转化为词向量序列，并设定待检测词；

将词向量序列及待检测词位置输入到预先建立的事件检测模型中，得到待检测词的事件类型；

所述事件检测模型在训练时，基于对抗学习，通过样本对特征向量内插的方式生成融合数据的特征向量，将其作为对抗样本，引入了约束相同事件类型数据的特征分布的正则项，所述约束相同事件类型数据的特征分布的正则项，包括：

随机采样一个插值系数σ～Beta(α,β)，其中α和β为超参数；

对于当前迭代步中所使用的训练数据，采样其中事件类型相同且不为默认事件类型的数据对；

将数据对对应的两个特征向量根据插值系数进行向量内插计算，得到融合数据的特征向量；

将融合数据的特征向量输入到基于二分类器的判别器中，判别器将特征向量映射成表示该特征源于真实数据的概率，进而计算正则项，计算公式如下：

其中，J_G表示正则项，θ表示事件检测模型的参数，θ_d表示判别器参数，

表示融合数据的数量，D表示判别器的映射，

表示第z条融合数据的特征向量。

2.如权利要求1所述的方法，其特征在于，所述将待检测文本转化为词向量序列，包括：

将待检测文本进行分词，转化为词序列；

基于预训练的词向量表，将词序列转化为对应的词向量序列。

3.如权利要求1所述的方法，其特征在于，所述事件检测模型的建立，包括：

构建标注了事件触发词及其对应事件类型的数据集，并将其划分为训练集、开发集以及测试集；

构建事件检测模型，在事件检测损失函数的基础上引入了约束相同事件类型数据的特征分布的正则项，利用训练集对模型进行训练，保存在开发集上性能最高的参数，并在测试集上测试以及在未标注数据上做事件检测。

4.如权利要求3所述的方法，其特征在于，所述事件检测损失函数，包括：

结合事件检测模型预测的事件类型概率分布与输入待检测词的真实事件类型，计算交叉熵作为事件检测损失函数J_B(θ)，其中θ表示事件检测模型的参数。

5.如权利要求4所述的方法，其特征在于，所述模型训练，包括：

将真实数据的特征向量和融合数据特征向量输入到判别器中，计算判别器损失函数，计算公式如下，其中所涉及的符号含义与权利要求1相同：

在一次训练迭代中，采用对抗学习策略，先根据J_D(θ,θ_d)优化判别器参数θ_d，再根据总损失函数优化事件检测模型的参数θ，总损失函数计算公式如下：

J(θ,θ_d)＝J_B(θ)+εJ_G(θ,θ_d)

其中ε为超参数。