CN111985152A

CN111985152A - 一种基于二分超球面原型网络的事件分类方法

Info

Publication number: CN111985152A
Application number: CN202010738919.6A
Authority: CN
Inventors: 陈华钧; 邓淑敏; 张宁豫
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-11-24
Anticipated expiration: 2040-07-28
Also published as: CN111985152B

Abstract

本发明公开了一种基于二分超球面原型网络的事件分类方法，包括：获取实例，利用实例表示模型编码得到实例表示；构建事件的原型表示；根据实例的超球面表示和实例所属事件的原型表示之间的距离差异构建分类损失，根据两个事件的原型表示到介质层的距离构建表示因果关系的推理损失，根据分类损失和推理损失构建得到总损失；根据总损失优化模型参数，得到参数确定的实例表示模型和优化后的原型表示；根据实例表示模型获得新实例的实例表示后，计算实例表示对应的超球面表示与所有优化后的原型表示的相似度，选择最高相似度对应的原型表示的事件类别为新实例的事件类别。通过事件之间的先验知识进行融合推理来事件分类，提升了事件分类的准确性。

Description

一种基于二分超球面原型网络的事件分类方法

技术领域

本发明属于信息抽取及推理技术领域，具体涉及一种基于二分超球面原型网络的事件分类方法。

背景技术

传统的事件抽取模型总是基于监督学习的，因而需要充足的训练样本，但在真实世界中大量的标记样本往往是难以获取的。而且，事件抽取的效果随着样本数的减少而减弱。但是，目前的大部分模型都假设充足的训练样本是学习事件表示必不可少的条件，这使得事件抽取任务难以取得理想的效果。因此，让模型可以在低资源的情况下抽取事件就格外重要。传统的低资源事件抽取模型主要是基于监督学习，迁移学习/预训练，或者元学习，虽然它们也可以取得不错的效果，但都是数据驱动的模型，对数据的依赖太强，而且忽略了事件本身的隐含先验信息，比如，事件之间的因果关系。

从直觉上来看，建模事件之间的隐含关系有利于增强低资源事件抽取的效果，比如袭击事件包含461个实例，受伤事件包含53个实例，而袭击事件将会导致受伤事件，如果模型可以捕获这两类事件之间的因果关系，将知识从袭击因事件迁移到受伤果事件，那么将促进低资源事件的抽取效果，而且这种促进效果在事件实例极其小的时候表现尤为明显。

申请公布号为CN104598535A的专利申请公开了一种基于最大熵的事件抽取方法，申请公布号为CN106951530A的专利申请公开了一种事件类型抽取方法和装置。这两个技术方案的事情抽取方法对于低资源事件抽取效果均不好。

发明内容

本发明的目的是提供一种基于二分超球面原型网络的事件分类方法，特别适用于低资源事件的分类，通过事件之间的先验知识进行融合推理来事件分类，提升了事件分类的准确性。

为实现上述发明目的，本发明提供以下技术方案：

一种基于二分超球面原型网络的事件抽取方法，所述事件抽取方法包括以下步骤：

获取实例，编码实例中字段的词向量和位置向量后，利用实例表示模型根据实例对应的词向量和位置向量编码得到实例表示，并通过超球面映射函数得到实例在超球面上的表示；

根据每个事件包含的所有实例的实例表示构建事件的原型表示；

根据实例的超球面表示和实例所属事件的原型表示之间的距离差异构建分类损失，根据两个事件的原型表示到介质层的距离构建表示因果关系的推理损失，根据分类损失和推理损失构建得到总损失；

根据总损失优化实例表示模型参数和损失函数超参数，优化结束后，得到参数确定的实例表示模型和优化后的原型表示；

应用时，根据参数确定的实例表示模型获得新实例的实例表示后，计算实例表示对应的超球面表示与所有优化后的原型表示的相似度，选择最高相似度对应的原型表示的事件类别为新实例的事件类别。

与现有技术相比，本发明具有的有益效果至少包括：

上述事件分类方法是目前率先融合推理去解决事件抽取任务的方法，不同于以往的方法采用的模型多是数据驱动的，本发明中，采用将超球面一分为二的二分超球面原型网络，利用二分超球面原型网络进行融合推理，通过该二分超球面原型网络对事件对之间隐含的先验知识的建模，在优化过程中，可以将实例较多的事件类型的知识迁移到实例较少的事件类型上，可以降低模型对数据的依赖，在一定程度上缓解了低资源条件下事件分类效果不佳的问题，因而特别适合用于低资源场景的事件分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的基于二分超球面原型网络的事件分类方法的流程图；

图2是本发明实施例提供的二分超球面示意图；

图3是本发明实施例提供的事件分类方法中因果事件检测效果图；

图4(a)～图4(c)是本发明实施例提供的事件原型在普通原型网络PN、超球面原型网络HPN以及二分超球面原型网络Di-HPN下的可视化表示。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1是本发明实施例提供的基于二分超球面原型网络的事件分类方法的流程图，如图1所示，实施例提供的基于二分超球面原型网络的事件分类方法包括以下步骤：

S1，获取实例，编码实例中字段的词向量和位置向量后，利用实例表示模型根据实例对应的词向量和位置向量编码得到实例表示。

事件提取领域，将每个句子作为一个实例，通过预训练的词向量和随机初始化的位置向量来编码实例。针对表示为X＝{x_i,i∈[1,L]}的实例，x_i表示实例中的第i个字段(每个字段可以理解为单个词)，L为实例包含的最大字段数目，也就是每个实例包含的字段的总个数。

每个字段的嵌入表示x＝[w,v]，w表示预训练的词向量，v＝[v_b,v_e,v_l,]表示位置向量，d_w维，v_b,v_e,v_l分别表示字段到句首、句尾的距离和字段所属实例的字段长度，由3个d_p维向量组成。

在获得每个字段的嵌入表示后，根据该嵌入表示可以获得整个实例的实例表示，具体地，将字段的嵌入表示的输入至实例表示模型中，经过编码得到实例表示，即

x_i表示第i个字段的嵌入表示。该实例表示模型作为整个算法中整体模型的一部分，在优化的过程中模型参数需要被优化。实例表示模型为CNN、RNN、BERT等一些文本编码模型。这些实例表示模型均能够获得比较准确编码得到实例表示。

S2，根据每个事件包含的所有实例的实例表示构建事件的原型表示。

不同于传统的原型网络只将极少量实例表示的均值作为原型表示，这里的超球面原型网络是将一个类别的所有实例表示的均值表示成原型，当然，兼顾模型的简洁性和有效性，这里设了一个最大实例数目的阈值σ，即一个原型最多由σ个实例的均值来表示。此外，不同于传统的原型网络中原型分布于平面，超球面原型网络中原型分布于超球面。因此，根据每个事件包含的所有实例的实例表示构建事件的原型表示为：

其中，p_k表示第k类事件的原型表示，F_s(·)表示原型点分布到球面的函数，avg(·)表示平均函数，X_j表示第j个实例的实例表示，J_k为属于第k类事件的实例的总个数。

S3，根据实例的超球面表示和实例所属事件的原型表示之间的距离差异构建分类损失，根据两个事件的原型表示到介质层的距离构建表示因果关系的推理损失，根据分类损失和推理损失构建得到总损失。

实施例中，训练的目标之一就是减少实例的超球面表示(也即是实际类别)和实例所属事件的原型表示之间的距离差异，利用超球面原型网络，有利于在构建原型的时候嵌入先验知识，这些事件之间隐含的关系是推理的基础，因此，根据实例的超球面表示和实例所属事件的原型表示之间的距离差异构建分类损失为：

其中，L_c表示分类损失，

表示第j个实例的超球面表示

与第k类事件的原型表示p_k之间的夹角，

F_s(·)表示原型点分布到球面的函数，J_k表示属于第k类事件的实例的总个数，|·|表示向量的模，‖·‖表示向量的二范数。

原型推理是基于原型对的隐含信息注入先验知识来进行的，比如事件之间的因果关系。如图2所示，本发明将超球面原型网络一分为二，分为源半球和目标半球，中间由介质层隔开，命名为二分超球面原型网络。给定一个事件因果对，因事件位于源半球，果事件位于目标半球，而且因果对事件到介质层的距离相等，即

和

分别表示分布在源半球和目标半球的第i层第j个原型，如果他们对应的事件类别刚好可以构成因果事件，则

和

到介质层的距离应该趋近于相等，即

本发明中，将超球面一分为二建模的方式，可以在原型对之间进行推理，更利于推理出事件之间的因果关系。给定一对原型，它们之间构成因果对的可能性为：

其中，k和t表示事件的索引，p_k表示第k类事件的原型表示，p_t表示第t类事件的原型表示，D(·)表示原型表示到介质层距离的函数，λ是超参数，K表示总事件类型数，s(p_k,p_t)表示p_k与p_t形成因果对的可能性。

基于原型对的推理，可以实现原型对之间的知识迁移，这对于低资源场景来说，可以很大程度上减少模型对数据的依赖。根据两个事件的原型表示到介质层的距离构建表示因果关系的推理损失为：

其中，K表示总事件类型数。

这样，根据分类损失和推理损失构建得到总损失为：

L＝αL_c+(1-α)L_r

其中，L表示总损失，L_c表示分类损失，L_r表示推理损失，α为权重参数，取值为0～1。

S4，根据总损失优化实例表示模型参数和损失函数超参数，优化结束后，得到参数确定的实例表示模型和优化后的原型表示。

实施例中，实例表示模型和二分超球面原型网络共同组成了本发明事件分类方法采用的模型，在获得总损失后可以根据总损失对实例表示模型参数和损失函数超参数进行优化。在优化的过程中，不仅实例表示模型参数和损失函数超参数得到优化，事件的原型表示也得到优化，优化结束后，优化后的事件的原型表示分布表示在二分超球面原型网络上，该优化后的原型表示作为评判新实例的事件类型的基础。

S5，应用时，根据参数确定的实例表示模型获得新实例的实例表示后，计算实例表示对应的超球面表示与所有优化后的原型表示的相似度，选择最高相似度对应的原型表示的事件类别为新实例的事件类别。

本发明中模型优化旨在使输出的类别编码(也即是超球面表示)和事件类原型之间的距离尽可能接近。对于新实例，应用S1中的方法先获得新实例包含字段的嵌入表示，也就是词向量和位置向量，然后根据该嵌入表示利用实例表示模型得到新实例的实例表示，接下来，计算实例表示与所有优化后的原型表示的相似度为：

其中，

表示新实例

的超球面表示，

表示新实例

的实例表示，F_s(·)表示原型点分布到超球面的映射函数，p_k表示第k类事件的原型表示，argmax(·)表示对函数求参数(集合)的函数。

最后，选择最高相似度对应的原型表示的事件类别为新实例的事件类别。这样就实现了实例的事件分类。

实验例

在训练过程中，使用SGD优化器进行优化，进行了30000次的训练迭代和2000次的测试迭代。词向量的维度设为50，单个位置向量的维度设为10，所以整个位置向量是30维。超参数σ设为500，λ设为1，α设为0.5。为了避免过拟合，设置了0.2的dropout比例。模型训练的学习率设为0.001。模型的性能用事件抽取的准确率、召回率和F1值来度量。

在因果事件抽取数据集上的事件抽取效果如下表所示：

模型	准确率	召回率	F1值
				DMCNN	0.7033	0.7156	0.7156
JRNN	0.7156	0.6831	0.7088
				JMEE	0.7491	0.7034	0.7418
Ours	0.7889	0.7438	0.7732
				Ours(+25％)	0.7421	0.7132	0.7399
Ours(+50％)	0.7605	0.7204	0.7539
				Ours(+75％)	0.7713	0.7378	0.7694

其中，DMCNN模型出自《Event Extraction via Dynamic Multi-PoolingConvolutional Neural Networks》，JRNN模型出自《Joint Event Extraction viaRecurrent Neural Networks》，JMEE模型出自《Jointly Multiple Events Extractionvia Attention-based Graph Information Aggregation》，Ours就是本发明提出二分超球面原型网络模型。

为了验证融合推理的二分超球面原型网络在低资源条件下的性能，分别在25％、50％、75％的数据上做测试，可以发现模型即使在低资源条件下也可以取得比传统模型更好的效果。

下面给出一些具体的实例，如图3所示。

图3中横轴表示的是因事件，纵轴是果事件，颜色越深表示构成因果事件对的可能性越高。可以发现，模型判断出的因果事件对基本还是符合实际情况的。比如，袭击作为因事件，比较可能的果事件是受伤，死亡和逮捕入狱；协商作为因事件，比较可能的果事件是合作；经济衰退作为果事件，比较可能的因事件是制裁和企业关闭。

此外，为论证融合推理的二分超球面原型网络解决因果事件抽取任务的优势，将二分超球面原型网络Di-HPN与传统的原型网络PN和超球面原型网络HPN做比较，可视化它们的原型结果，如图4(a)～图4(c)所示。可以发现，融合推理的二分超球面原型网络对因果事件的检测效果明显优于其他两个原型网络模型。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。