CN112989792A

CN112989792A - 事例检测方法和电子设备

Info

Publication number: CN112989792A
Application number: CN202110449932.4A
Authority: CN
Inventors: 陈洪辉; 郑建明; 蔡飞; 陈皖玉; 陈翀昊; 潘志强; 张鑫; 宋城宇
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-06-18
Anticipated expiration: 2041-04-25
Also published as: CN112989792B

Abstract

本说明书一个或多个实施例提供了一种事例检测方法和电子设备，包括：获取非结构化文本；利用预先构建的分类敏感学习模型，从所述非结构化文本中检测激发词，并识别所述激发词所属的事例类型；其中，所述分类敏感学习模型属于少样本学习模型；所述分类敏感学习模型是由分类敏感自监督学习框架和分类敏感原型网络通过序列化训练得到的；解决了原型网络在少样本的事例检测中无法迁移学习未知任务和过拟合的问题。

Description

事例检测方法和电子设备

技术领域

本说明书一个或多个实施例涉及自然语言处理技术领域，尤其涉及一种事例检测方法和电子设备。

背景技术

少样本的事例检测通常使用原型网络，通过类质中心点的匹配来对查询集中未标签的实例进行分类，以解决数据样本稀少的问题。然而，原型网络无法在有限的标签实例中迁移学习未知的任务，同时原型网络中的实例编码器在低资源场景中易出现过拟合。

发明内容

有鉴于此，本说明书一个或多个实施例的目的在于提出一种事例检测方法和电子设备，以解决原型网络在少样本的事例检测中无法迁移学习未知任务和过拟合的问题。

基于上述目的，本说明书一个或多个实施例提供了一种事例检测方法，包括：

获取非结构化文本；

利用预先构建的分类敏感学习模型，从所述非结构化文本中检测激发词，并识别所述激发词所属的事例类型；

其中，所述分类敏感学习模型属于少样本学习模型；所述分类敏感学习模型是由分类敏感自监督学习框架和分类敏感原型网络通过序列化训练得到的。

在一些实施方式中，所述分类敏感自监督学习框架包括至少三个孪生距离网络；

所述孪生距离网络包括至少两个第一GCN编码器和至少一个孪生距离函数；

所述孪生距离函数表示如下：

其中，a和b为两个不同的事例实例，σ(·，·)为sigmoid函数，W_d和b_d为训练的变量。

在一些实施方式中，所述分类敏感自监督学习框架的损失函数为：

其中，α、β和γ为超参数，I_a为锚实例，I_sub为同构子事例实例，I_eve为同构事例实例，I_hete为异构事例实例。

在一些实施方式中，所述非结构化文本包括支撑集和查询集；所述激发词位于所述查询集；

所述分类敏感原型网络，被配置为：

使用第二GCN编码器和原型网络根据所述支撑集得到类质中心点嵌入；

将标签分类体系输入到庞加莱嵌入，得到标签层次嵌入；其中所述标签分类体系由所述支撑集推断得到；

将所述标签分类体系输入到BERT编码器，得到标签语义嵌入；

根据所述类质中心点嵌入，所述标签层次嵌入，所述标签语义嵌入和所述标签引用嵌入，使用线性误差零值化方法获得映射矩阵和标签嵌入；

在所述查询集上根据所述映射矩阵和所述标签嵌入获得网络损失，并得到所述激发词所属的事例类型。

在一些实施方式中，所述将标签分类体系输入到庞加莱嵌入，得到标签层次嵌入，包括：

将所述标签分类体系映射到黎曼流形；

根据所述标签分类体系中的标签对在所述黎曼流形中的距离，对所述标签对进行分类，得到正标签对集和负标签对集；

根据所述正标签对集和所述负标签对集得到所述标签层次嵌入。

在一些实施方式中，所述根据所述正标签对集和所述负标签对集得到所述标签层次嵌入，计算公式为：

其中，dist(u，v)^R为在黎曼流形

中的两个标签点v和u的黎曼距离，dist(u′,v′)^R为在黎曼流形

中的两个标签点u′和v′的黎曼距离，

为所述正标签对集，

为所述负标签对集，

Θ为所述标签层次嵌入，

为子事例标签，

为父母事例标签，root为根节点。

在一些实施方式中，所述根据所述类质中心点嵌入，所述标签层次嵌入，所述标签语义嵌入和所述标签引用嵌入，使用线性误差零值化方法获得映射矩阵和标签嵌入，包括：

将所述标签层次嵌入，所述标签语义嵌入和所述标签引用嵌入分别加权后结合，得到强化引用嵌入：

使用所述线性误差零值化方法对齐所述强化引用嵌入和所述类质中心点嵌入，得到映射矩阵；

结合所述类质中心点嵌入和所述强化引用嵌入，得到标签嵌入。

在一些实施方式中，所述分类敏感原型网络的网络损失计算公式为：

其中，N_Q是所述查询集中实例的数目，所述查询集为由句子

激发词

和事例标签

组成的三元组

l^k为所述事例标签

对应的标签嵌入，

为负嵌入集。

在一些实施方式中，所述分类敏感学习模型是由分类敏感自监督学习框架和分类敏感原型网络通过序列化训练得到的，包括：

使用所述支撑集训练所述分类敏感自监督学习框架，通过反向传播算法获得更新后的所述第一GCN编码器的参数；

根据所述更新后的所述第一GCN编码器的参数初始化所述第二GCN编码器的参数，在所述查询集上通过反向传播算法训练所述分类敏感原型网络，更新所述第二GCN编码器的参数。

基于同一发明构思，本说明书一个或多个实施例还提供了一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述实施例任意一项所述的方法。

从上面所述可以看出，本说明书一个或多个实施例提供的一种事例检测方法和电子设备，通过设计一种应用于事例检测的分类敏感自监督学习框架和一种整合了庞加莱(Poincaré)模型和任务自适应映射网络的分类敏感原型网络，并通过序列化训练将二者相结合，不仅可以帮助类质中心点更好地分散开来，还可以反映标签分类集，实现了在样本稀少、没有额外训练输入的情况下依然可以提升事例编码器的泛化能力，解决了原型网络在少样本的事例检测中无法在有限的标签实例中迁移学习未知任务和过拟合的问题；通过实验评估，本说明书一个或多个实施例提出的事例检测方法和电子设备在多个事例数据基准模型上实现事例检测效率的显著提升，在未知任务迁移学习实验表现出分类敏感自监督学习框架良好的鲁棒性，在消融实验中本申请的分类敏感原型网络在事例检测中体现出优越的标签分类集模型化作用。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例的事例检测问题模型示意图，(a)为类质中心点分布问题示意图，(b)为分类敏感的嵌入分布问题示意图；

图2为本说明书一个或多个实施例的事例检测方法流程图；

图3为本说明书一个或多个实施例的分类敏感自监督学习框架示意图；

图4为本说明书一个或多个实施例的分类敏感原型网络训练过程示意图；

图5为本说明书一个或多个实施例的电子设备示意图；

图6为本说明书一个或多个实施例的实验数据示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

事例检测即将未进行事例分类的句子进行事例分类，在信息检索，问答系统和脚本学习等领域都有广泛的应用。一个事例是发生在特点场合特定时间包含一个或者多个参与者的具体事务场景。事例检测的主要目的是为了从无结构化文本中检测激发词和识别它们所属的事例类型。例如，给定事例实例“在一则声明中，她说她为了公司的最大利益，她将要卸任，但是她仍然会待在董事会”描绘了由“卸任”激发的“结束位置”的事例。事例检测可以支撑多样的应用，例如：信息检索，自动问答和脚本学习。

现有事例检测模型通常求助于大量参数来丰富事例表示，例如：加深网络，增加更多复杂的注意力结构或者对抗学习。在训练期间，模型参数的增长在另一方面会要求更多人工标注的训练样本来避免过拟合风险。而当前事例检测的一大障碍是样本数据不充足，即用于进行事例检测的数据集数据不充足。例如，ACE-2005语料库中将近70％的事例类型仅有少于100的实例。而在RAMS语料库中，这个比例甚至迫近了90％。为了应对这样的数据资源稀少的情况，少样本学习产生了，它从数据丰富领域中学习到知识，并用少量样本泛化到新的领域。

先前在事例检测的少样本工作通常依赖于原型网络来解决低资源情况。它们简单地根据与类质中心点的匹配分数对在查询集中未标签实例进行分类，而类质中心点是在查询集中对应标签样本的平均嵌入。然而，这些方法并不能解决少样本学习中的固定问题，也就是如何在有限标签实例中迁移实例编码器到未看到过的任务上，即未知任务的学习；而且实例编码器的泛化能力总是伴随着参数的增加，但是这增加了在低资源场景中的过拟合问题。另外，这些模型的支柱网络，也就是原型网络，在事例检测中也存在一些缺陷。如图1为本说明书一个或多个实施例的事例检测问题模型示意图的图(a)类质中心点分布问题示意图所示，点A、B和C四事例类别标签a，b和c的类质中心点，三角形、菱形和圆形表示它们的真实标签是事例a、b和c的查询实例。在原型网络中各类类质中心点(也就是，点A、B和C)经常在嵌入空间分布紧密，这很容易导致错误分类，特别是对于分布在重叠区域的查询实例。此外，原型网络无法解释在标签分类集中隐藏分类结构。如图1的图(b)分类敏感的嵌入分布问题示意图所示，带有相同形状的实例拥有相同的父母事例标签，其中不同的颜色表示在相同父母标签下的不同子事例标签，每个子事例分布是由具有相同子事例标签的事例实例组成的(也就是：具有相同形状和相同颜色的实例)。而每个父母事例分布是由那些具有相同父母事例标签的子事例分布组成(也就是，具有相同形状的实例)。因此，结合了标签分类集的嵌入空间可以反映事例实例间的差异和联系，这会帮助检测事例类型。

现有的事例检测模型可以大致划分为三类，即：基于特征的，基于表征的和基于外部知识的事例检测模型。基于特征的事例检测模型主要依赖于人工设计的特征(例如：跨文档的激发词，依赖图结构，跨实体间的推断等等)。基于表征的事例检测模型是在神经网络的发展下繁荣起来的。这类模型通常将无结构化的文本转化为一系列低维度的分布式表征，借助于不同类型的神经网络，例如：卷积神经网络，递归神经网络，图神经网络，和基于注意力机制的神经网络。通过从外部知识中联合训练和检索信息，基于外部知识的事例检测模型倾向于利用外部知识来改善检测性能。Liu等人探索了在FramNet中的事例关系。Araki和Mitamura利用WordNet生成高质量的训练数据。然而，这些模型通常要求大量人工标注数据来实现模型的拟合，这其中的人工成本是巨大，在现实生活中并不适用。

少样本学习从先前学习到的类别中利用少量的数据就可以快速泛化到新的概念，这可以将其划分两种类型，即：基于类别的和基于优化的少样本学习。基于类别的少样本学习主要训练一个距离函数，它计算了在嵌入空间中两个实例的远近。这个过程中的关键是如果距离函数在可见的概念中训练好的话，它也可以在新的概念泛化好的。例如，匹配网络采用了一个带权重的近邻分类器来实现单样本分类。原型网络在少样本分类器中用类别表征而不是事例表征。关系网络探索一种神经网络来实现匹配分数而不是欧式距离。而基于优化的少样本学习关注一种梯度下降和数据点的最少步数的快速参数初始化方法，当迁移到一个新任务时候。MAML提出了基于优化元学习的基本框架，它不用特别地强调模型的架构和任务的配置。FOMAML和Reptile只是考虑了MAML的一阶导数形式，当处理反向传播算法。在下游任务中，少样本学习也已经被广泛讨论，例如：文本分类，关系分类和对话生成。然而，用于事例检测的少样本学习很少被提及。Lai等人结合两种新颖的损失函数探索了原型网络，即：簇内匹配和簇间信息。

如背景技术部分所述，现有的少样本事例检测模型尤其是原型网络无法解决未知任务学习和由于样本数量稀少造成的过拟合的问题。申请人在实现本公开的过程中发现，结合了标签分类集的嵌入空间可以反映事例实例间的差异和联系，可以提高事例检测的效率，可以设计一种分类敏感自监督学习框架(TaSeLF)来挖掘分类敏感的距离关系来增加训练样本，以缓解数据的不充足所带来的泛化瓶颈，同时通过引入了Poincaré嵌入的分类敏感原型网络(TaPN)来标记标签分类集，并且将它们整合进入任务自适应映射网络，可以解决在普通原型网络中存在的类质中心点分布问题和分类敏感嵌入分布问题。

有鉴于此，本说明一个或多个的实施例提出了一种基于分类敏感学习模型(TaLeM)的事例检测方法和电子设备，分类敏感学习模型(TaLeM)由两个主要模块组成，分别是分类敏感自监督学习框架(TaSeLF)和分类敏感原型网络(TaPN)。具体来说，分类敏感自监督学习框架(TaSeLF)致力于在有限标签样本中提升事例编码器的泛化能力，本申请设计了三个参数共享的距离孪生网络来抓住事例实例间的分类敏感的距离关系，而不用额外的训练输入，这可以进一步帮助事例编码器迁移到未看到的任务上。分类敏感原型网络(TaPN)目的是纠正在少样本事例检测中原型网络的缺陷。具体而言，分类敏感原型网络(TaPN)首先引入了任务自适应映射网络(TaPNet)来学习嵌入映射，这可以帮助类质中心点在映射空间更好地分散。之后，标签分类集被嵌入Poincaré模型中，通过在构建映射过程中引入一个自适应的结构偏置来捕捉在嵌入空间中的分类敏感的分层结构。在ACE-2005数据集上进行事例检测的少样本实验结果表明：本说明书一个或多个实施例所提出来的模型在强大少样本学习基准模型上的取得了显著的提升。

以下，结合图1为本说明书一个或多个实施例的事例检测问题模型示意图，(a)为类质中心点分布问题示意图，(b)为分类敏感的嵌入分布问题示意图、图2为本说明书一个或多个实施例的事例检测方法流程图、图3为本说明书一个或多个实施例的分类敏感自监督学习框架示意图、图4为本说明书一个或多个实施例的分类敏感原型网络训练过程示意图、图5为本说明书一个或多个实施例的电子设备示意图和图6为本说明书一个或多个实施例的实验数据示意图，通过具体的实施例进一步详细说明本公开的技术方案。

本公开提供了一种基于分类敏感学习模型(TaLeM)的事例检测方法和电子设备，可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。

本说明书一个或多个实施例提供了一种事例检测方法，包括：

S1：获取非结构化文本；

从数据集库中获取非结构化文本，对于给定的非结构化文本即句子x＝{x₁，x₂，…，x_n}和激发词a＝{a_s，a_e}，事例检测被定义成一个预测事例标签y的任务，即(x，a)→y。在少样本事例检测中，非结构化文本即元任务

通常由支撑集

和查询集

两个部分组成，即

支撑集

是一组N_S个(x,a,y)三元组组成的；查询集

也是由一组N_Q个(x，a,y)三元组组成的，其中事例标签y需要被预测。通常地，一个“N类K样本”的元任务指的是对于N种事例标签(N类)中的每一个标签，支撑集都包含K个对应的样本。

对于少样本的事例检测模型，它们通常是在一组元任务

上训练，然后直接在另一组未见到的元任务即未知任务

上测试，未见到的意味着在训练和测试阶段中，标签集合是相互无交集的关系。少样本事例检测模型的能力是通过在未见到任务上的泛化能力来衡量的，也就是在测试阶段的元任务的整体性能。

S2：利用预先构建的分类敏感学习模型，从所述非结构化文本中检测激发词，并识别所述激发词所属的事例类型；

所述孪生距离函数表示如下：

其中，a和b为两个不同的事例实例，σ(·,·)为sigmoid函数，W_d和b_d为训练的变量。

具体的，当一个模型迁移到一个未见到的N类K样本的元任务时，训练样本的数量仅仅只有N*K，这远远无法满足事例编码器的泛化要求。而自监督学习表示利用了输入数据本身作为监督信号，有利于几乎所有类型的下游任务，在过去十几年里还取得了在表征学习中的突出性能。因此，挖掘训练事例实例间的潜在关系作为监督信号可以帮助减轻由训练数据不足带来的泛化瓶颈。

给定一个事例实例作为锚实例I_a，基于与锚实例间的不同关系有三种类型的事例实例，即：同构子事例实例I_sub：一个事例实例拥有与锚实例相同的子事例标签；同构事例实例I_eve：与锚实例相比，一个事例实例拥有相同的父母事例标签和不同的子事例标签；异构事例实例I_hete：与锚实例相比，一个事例实例拥有不同的父母标签。

根据标签分类体系的分层框架，本申请能够在嵌入空间中推断出分类敏感的距离关系，在相同的父母事例标签下，拥有相同子事例标签的实例会比拥有不同子事例标签的实例靠的更近，也即：

dist(I_a,I_sub)<dist(I_a,I_eve)

其中，dist(a,b)是一个距离函数，它衡量的是在嵌入空间中实例a和b之间的距离。此外，拥有相同父母标签的实例会比拥有不同父母事例标签的实例靠的更近，即：

为了计算dist(·,·)，本说明书一个或多个实施例遵循孪生网络来设计了一种距离孪生网络，如图3为本说明书一个或多个实施例的分类敏感自监督学习框架示意图所示，它把两个事例作为输入，并输出一个值来表明在嵌入空间中两个实例之间的距离，每个距离孪生网络包含了两个参数共享的图卷积神经网络编码器f_e和一个距离分数。因此，给定两个实例a和b，本说明书一个或多个实施例可以通过如下方法计算它们的距离分数，即：

其中，σ(·,·)表示sigmoid函数，W_d和b_d都是可以训练的变量。

从上述公式可以推断出如下不等式，即：

dist(I_a，I_sub)<dist(I_a,I_eve)<dist(I_a,I_hete)

基于该组不等式，选取两个实例对，其中一个实例对的距离是大于另一个实例对，例如(I_a,I_sub)和(I_a,I_eve)，视更短的实例对作为正例，而更长的实例对作为负样本，本说明书一个或多个实施例可以设计如图3所示的三种三元排序损失函数，即：

其中，β＞α是从前述不等式中推断出来的，即：dist(I_a，I_hete)-dist(I_a，I_sub)＞dist(I_a,I_hete)-dist(I_a,I_eve)。

因此，分类敏感的自监督学习框架的损失函数可以定义如下：

此外，通过分类敏感的自监督学习框架，在N类K个样本中用于编码器泛化的训练样本数目最多可以从N*K提升到(N*K)²。

所述分类敏感原型网络，被配置为：

将所述标签分类体系输入到BERT编码器，得到标签语义嵌入；

将所述标签分类体系映射到黎曼流形；

其中，dist(u,v)^R为在黎曼流形

中的两个标签点v和u的黎曼距离，dist(u′,v′)^R为在黎曼流形

中的两个标签点u′和v′的黎曼距离，

为所述正标签对集，

为所述负标签对集，

Θ为所述标签层次嵌入，

为子事例标签，

为父母事例标签，root为根节点。

其中，N_Q是所述查询集中实例的数目，所述查询集为由句子

激发词

和事例标签

组成的三元组

l^k为所述事例标签

对应的标签嵌入，

为负嵌入集。

具体的，由于原型网络直接应用在少样本的事例检测上将会导致两个事情的发生：类质中心点分布紧密；嵌入空间不能够反映分类敏感的分布。对于前者，TaPNet是一个解决方法，它计算了一个映射矩阵使得类质中心点在映射后的嵌入空间更好地分割开来。然而，TaPNet无法解决第二个问题，即它们并没有考虑到在模型构建过程中的标签分类体系。因此，本说明书一个或多个实施例所提出的分类敏感的原型网络(TaPN)整合了Poincaré模型和TaPNet。Poincaré模型是一个已经被证明能够有效表征分层数据。通过这样做，本说明书一个或多个实施例不仅可以避免类质中心的分布问题，而且采用了标签分类知识来提升了性能。

如图4为本说明书一个或多个实施例的分类敏感原型网络训练过程示意图所示，TaPN首先通过GCN编码器和原型网络计算在支撑集中的各类类质中心点

此外，由支撑集推断出来的标签分类体系

输入到Poincaré嵌入和BERT编码器来获得层次嵌入

和标签语义嵌入

然后，TaPN采用线性误差零值化在每类类质中心点，标签层次嵌入，标签语义嵌入和标签引用嵌入来获得映射矩阵M和标签嵌入

这些进一步在查询集中测试用于获得网络的损失

给定一个N类K样本的元任务

假定它有一个父母事例标签集

(l是父母事例标签的数量)。对于每个父母事例标签pⁱ，它都有一组子事例标签集

(|pⁱ|是pⁱ子事例标签集的数量，因此

)。因此，本说明书一个或多个实施例可以构建标签分类体系

的一阶关系为

其中root是所有父母事例标签

的一个虚构父母节点。类似地，标签分类体系

的二阶关系为

其中pⁱ是真实的父母节点(也称之为父母事例标签)为它的附属子事例标签

本说明书一个或多个实施例首先在支撑集上采用了GCN编码器f_e(·)来获得所有事例实例的表征，它输入了原型网络来为每个子事例标签

(i和j的范围在下列内容中为了简写而忽略)得到类质嵌入

即：

然后，本说明书一个或多个实施例采用了Poincaré模型在标签分类体系上来建模隐含的标签层次。具体而言，把标签分类体系

到双曲空间，也就是黎曼流行

其中

是一个开放的d维单元球，||·||表示的是欧式标定，g_x是黎曼度量张量。给定一个在

中u和v，它们的距离可以规范如下：

其中arcosh是一个反向双曲余弦函数。

在Poincaré模型的训练过程，假定

是正标签对集，其中每个标签对(u,v)有相同的父母节点，而

是负标签对集，其中每个标签对没有相同的父母节点。因此，本说明书一个或多个实施例初始化了标签分类体系

的标签层次嵌入

包括子事例标签，父母标签和根节点。训练Poincaré模型的损失函数

定义如下：

本说明书一个或多个实施例还用BERT编码器对每个标签名字进行编码来获得标签语义嵌入

然后，本说明书一个或多个实施例联合标签层次嵌入

标签语义嵌入

和标签引用嵌入

来获得层次和语义强化的引用嵌入：

其中λ₁λ₂λ₃是调和参数。此外，本说明书一个或多个实施例采用了线性误差零值化来对齐强化嵌入

和类质中心点嵌入

从中本说明书一个或多个实施例可以获得映射矩阵M。

不同于前人的工作，本说明书一个或多个实施例结合类质中心点嵌入

和强化引用嵌入

来得到最终的标签嵌入

其中，η₁η₂是调和参数。

最终，本说明书一个或多个实施例可以在查询集上计算分类敏感的原型网络损失为：

其中dist(·，·)是在公式(3)中所给定的，N_Q是查询集中实例的数目。对于每个三元组

假定l^k是真实标签

的对应标签嵌入，而

是负嵌入集，其中由

的所有负标签的嵌入组成。

具体的，多任务学习可以提供一个合理的方式整合分类敏感的自监督学习框架和分类敏感的原型网络。通常地，多任务学习追求的是多任务的共同最优点，这并不适用于少样本的事例检测。少样本的事例检测致力于提升测试模型的(也就是TaPN)的泛化能力，并不包括辅助模块(即：TaSeLF)。训练模型参数的过程满足几步梯度步数，甚至单步梯度步数可以在未看到的任务上产生好的结果，这个过程可以被视为一个特征学习的着陆点。当迁移到一个未知任务时，相比于在多任务训练上的共同进步，辅助模块TaSeLF应该为TaPN提供一个好的学习着陆点。基于这些推断，本申请提出了分类敏感的学习模型(TaLeM)，它应用了一个序列化训练的策略来整合TaSeLF和TaPN，如表1所示，对于每个元训练任务，本申请首先在支撑集上训练TaSeLF，通过反向传播获得更新后的编码参数θ_e(在第3-4行)。然后，利用更新后的编码参数θ_e来初始化在TaPN的编码参数p_e，利用反向传播算法训练TaPN来更新所有的参数。

需要说明的是，本说明书一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

本说明书一个或多个实施例在ACE-2005数据集对本申请进行了评估，该数据集被广泛应用于事例检测。本申请应用先前相同的预处理方法在ACE-2005数据集上，一共抽取了16,255标注好的事例实例。在这些事例实例中，5,231个实例是有特定的事例标签，包括了8个父母事例标签和33子事例标签。余下的11,024个实例没有任何标签。对于这些空标签事例实例，本说明书一个或多个实施例用空类别标签来标注他们，并且将它们添加到父母事例标签和子事例标签中，用于保证标签分类体系的完整性。这样的话，用于ACE-2005的标签分类体系将会有9个父母事例标签和34个子事例标签。

对于少样本数据的构建，如图6为本说明书一个或多个实施例的实验数据示意图所示，展示了N类K样本元任务在训练和测试阶段的构造过程，实心箭头表示不放回随机采样的操作，双向虚线箭头指的是两个集合互相没有关系。全体父母事例标签首先分割成两个不相连的集合：父母事例训练标签和父母事例测试标签。例如：本说明书一个或多个实施例选取了“空，移动，交流，冲突和正义”作为父母事例训练标签，而余下的“生活，商业，人事和交易”作为父母事例测试标签。对于训练数据，根据父母事例训练标签抽取出N类训练子事例标签。从这些子事例标签，本说明书一个或多个实施例为每个类抽取K个事例实例作为支撑集和N_Q个事例实例作为查询集。此外，本说明书一个或多个实施例还从未采样的训练子事例抽取出N_A*N_Q作为训练NOTA查询集，并且打上了之前从未有过(none-of-the-above,NOTA)的标签。其中，N_A是查询集的从未有过的比率。训练查询和训练NOTA查询共同组成了训练查询集。相似的采样过程也可以应用到生成测试数据。本说明书一个或多个实施例将测试数据分割成两个不相交的集合作为验证集和测试集。NOTA事例实例仅仅存在于查询集中，而不在支撑集中。这个设定完全不同于N+1类K样本，但是更具有挑战性，因为少样本模型在检测事例类别的时候，需要提前找到异常值(也就是NOTA事例实例)。

本说明书一个或多个实施例主要讨论四种类型元任务，包括“5类1样本”，“5类5样本”，“10类1样本”和“10类5样本”的元任务。本申请使用无大小区分的BERT基础版来表征句子中的每个词。此外，本说明书一个或多个实施例还采用了斯坦福的CoreNLP工具来抽取依赖解析结构，该结构进一步被编码如GCN事例编码器。

在训练期间，设置批大小为4，并采用一个带稳步下降学习率的ADAM优化器来优化本说明书一个或多个实施例的本说明书一个或多个实施例新。本说明书一个或多个实施例对每个模型都训练30,000次，并在训练过程中采用早停止的方法，也就是当一定步数损失没有下降就停止训练。在训练集上用一种网格搜索的方法微调所有模型的超参数，当α＝0.2，β＝0.3，γ＝0.2；λ₁＝0.2，λ₂＝0.2,λ₃＝0.6；η₁＝0.5,η₂＝0.5。

对于所有讨论的模型，本申请采用相同的词编码器(BERT编码器)和相同的事例编码器(GCN编码器)，词编码器和事例编码器保持一致地目的是确保不同少样本方法的性能可以得到公平的比较，本申请采用有挑战性的基准模型。GNN是一种基于图神经网络的模型，它考虑了所有的事例实例，不管是在支撑集还是在查询集中，都将其视为图中的节点。基于在图中不同节点的信息传递，每个查询实例实例预期从支撑集中接收到标签信息来实现分类。SNAIL是一种基于元学习的模型，它采用了时序卷积神经网络和注意力模块来实现对过往知识的快速学习。对于少样本事例检测，SNAIL将带有相同标签的事例实例和查询实例排列成一个序列，并将其视为学习过程的时间顺序。Proto是一种基于少样本学习的模型，它假定每个标签都存在一个类质中心点。对于每个标签而言，Proto将在支撑集中所属标签的事例实例的嵌入进行平均，以此作为该标签的类质中心。Proto-Loss是一种基于原型网络的模型，它在少样本事例检测中引入了簇内匹配和簇间信息两种损失函数。

因为分类敏感的自监督学习框架是一个对于上述基准模型都灵活的模块，本说明书一个或多个实施例罗列了本说明书一个或多个实施例在基准模型上结合了TaSeLF的模型和一些新提出的模型。GNN_[TaSeLF]:结合了TaSeLF的基于GNN的模型；SNAIL_[TaSeLF]:结合了TaSeLF的基于SNAIL的模型；Proto_[TaSeLF]:结合了TaSeLF的基于Proto的模型；Proto-Loss_[TaSeLF]:结合了TaSeLF的基于Proto-Loss的模型；TaPN：结合了TaPN的基于Proto的模型；TaLeM：结合了TaSeLF和TaPN的整体模型。

本说明书一个或多个实施例在四类元任务上检验本说明书一个或多个实施例提出的模型和基准模型的事例检测性能，在表格1中呈现了所有讨论模型的事例检测性能。

表1：事例检测在4种类型的元任务上的精度性能

如表1所示，每列中最好的基准模型和最好的表现者分别用下划线和粗体表示。TaLeM和最好的基准模型的显著性差异由t-test来决定(▲表示α＝.01)。在这四类元任务中，所有讨论的模型都在5类5样本任务上表现出最优的性能，紧跟着的是5类1样本任务。这表明了增加了训练样本的数量可以减少过拟合的风险来提升性能，这也可以在10类1样本和10类5样本间的比较得到证明。此外，通过比价5类1样本和10类1样本的结果(或者5类5样本和10类5样本的结果比较)，本说明书一个或多个实施例可以发现这些模型都在更少种类标签的任务上表现的更好。这也许是因为减少标签种类的数量可以简化计算复杂度。

在放大这些模型在5类1样本的性能后，首先比较四种基准模型，Proto-Loss分别取得了对于基准模型GNN，SNAIL，Proto的4.1％，4.7％和3.1％的精度提升。这种统治性的性能表现可能是由于探究簇内和簇间标签信息(也就是两类损失)可以帮助模型更好地分辨标签之间的差别。没有这类新颖的损失函数，Proto仍然优于GNN和SNAIL，表现出了1.0％和1.5％精度提升。这表明了与其它少样本方法相比，为每个标签探究类质中心点是更加适合少样本事例检测。

然后，将本申请提出的模型和四种基准模型的比较，对于分类敏感的自监督学习框架，任何一个基准模型结合了TaSeLF都可以取得比原模型更好地性能表现。例如，GNN_[TaSeLF]，SNAIL_[TaSeLF]，Proto_[TaSeLF]，Proto-Loss_[TaSeLF]分别取得了对GNN，SNAIL，Proto，Proto-Loss模型的6.0％，7.4％，6.7％，5.1％精度提升。此外，原始的分类敏感的原型网络(TaPN)还可以呈现出优于最优的基于TaSeLF的模型(也就是：Proto-Loss_[TaSeLF])。这些发现说明了分类敏感的原型网络可以有效解决在原始原型网络中出现的问题，并且可以很好地区分未标注的实例通过映射矩阵和标签分类体系。此外，本说明书一个或多个实施例的整体模型，也就是TaLeM，是所有模型中表现最好的，表明序列化训练的策略确实可以帮助整合TaSeLF和TaPN.

类似的发现也可以在其它类型的元任务上发现，即：5类5样本，10类1样本和10类5样本，这都展示在了表格1中。

同时，本说明书一个或多个实施例设定了四种NOTA比率，即：0％，10％，30％和50％来检验本申请提出的模型和基准模型在不同NOTA比率下的事例检测性能。结果表明，随着NOTA比率的上升，所有讨论的模型都呈现出一个稳定下降的趋势。这一现象揭示了增长的无关查询会加重事例检测的难度；在放大在5类1样本的元任务上原始模型和它们对应的TaSeLF版本的性能比较，发现TaSeLF带来的优势并不会随着NOTA比例的上升而消失。例如：当NOTA比率为零时，GNN_[TaSeLF]相比于它原始GNN表现出9.5％的精度提升，而表现出20.1％的性能提升当NOTA比率为50％。在不同的NOTA比例下，类似的提升可以在其它有无TaSeLF模型对的比较中发现。

此外，当NOTA比例上升时，TaSeLF带来的优点可以进一步得到强化。例如，但NOTA比例从0上升到50％时，TaSeLF在GNN上带来的优势可以从12.1％增长到20.2％。这表明了分类敏感的自监督学习框架可以强化模型的鲁棒性里解决无关数据带来的干扰。

本说明书一个或多个实施例考虑了基于原型网络的模型下个，包括Proto，Proto_[TaSeLF]，TaPN和TaLeM，来比较受到TaSeLF和TaPN影响下的模型收敛情况。结果表明，每个特定的模型当结合了TaSeLF后都可以以相对较少的步数达到一个稳定的状态。例如，降低40％的损失从1到0.6，Proto_[TaSeLF]仅仅只需要大约2000步左右，而原始的Proto模型需要8000步左右。类似的结果也可以在Proto-Loss_[TaSeLF]和Proto-Loss以及TaLeM和TaPN的比较中得到发现。因此，当TaSeLF结合了初始模型Proto，Proto-Loss和TaPN之后，本说明书一个或多个实施例可以认为TaSeLF可以加速模型的收敛速度。

此外，虽然TaPN的收敛速度慢于其它模型，例如Proto-Loss_[TaSeLF]和Proto_[TaSeLF]，TaPN仍然可以达到这六种基于原型网络模型的第二低的训练损失。一个越低的训练损失通常意味着一个更好的实例表征。虽然TaPN的损失并不能以一个较快的速度收敛，TaPN仍然可以返回一个相对地的训练损失，这意味着TaPN可以精确表征实例，因此返回一个更好的结果。相反地，TaLeM在训练速度和训练损失都取得了较好的优势，因为它可以表现出最小的损失和收敛更快，这支持了在表格1中TaLeM的最优性能。类似的训练损失的发现可以在5类5样本，10类1样本和10类5样本的任务上观察到。

此外，本申请还根据句子长度I_s将本申请提出的模型和基准模型的测试分类结果进行分组。具体而言，为了平衡不同句子长度中实例分布的影响，本说明书一个或多个实施例将实例根据句子长度分组为(0，10),[10,20),[20,30),[30,+∞)，这样在每组中都有将近5000条结果。结果表明，当句子长度增长时，这些模型总体会保持着相同的趋势，也就是，精度会首先明显上升，然后在长度为I_s∈[20,30)达到峰值，然后开始下降。这可以归咎于句子长度的增长可以带来更多的事例信息，以此降低了预测事例标签的不确定性。然而，随着句子长度的继续增长，句子的内容和结构变得复杂。此外，更多的噪音和不相关的信息也将会包含其中。这些因素使得模型更难抽取出有用的信息来辅助事例检测，因此导致了精度的下降。

为了更好地理解TaLeM中不同模块对于事例检测性能的贡献，本说明书一个或多个实施例在四类任务上做了消融实验。在该消融实验中去除一些特定的层或者模块，用符号“-”表示，并且探究它们对于TaLeM的影响。例如：“—同构子事例实例”表明本说明书一个或多个实施例忽视了TaLeM中TaSeLF的同构子事例实例。“—标签层次嵌入”表明本说明书一个或多个实施例去除了TaLeM中TaPN的标签层次嵌入。本说明书一个或多个实施例在表2中呈现了本说明书一个或多个实施例的消融实验结果。

如表2TaLeM的消融实验的精度结果所示，“—标签层次嵌入”表现出来在六个模块中最大的降幅，这意味着模拟标签分类体系是最有效提升少样本事例检测性能的方法。此外，“—标签语义嵌入”的相对明显降低和“—标签引用嵌入”的轻微下降表明了对于少样本事例检测，TaPN中标签语义嵌入似乎比标签引用嵌入更加重要。此外，“—同构子事例实例”，“—同构事例实例”和“—异构事例实例”贡献了轻微下降。另外，“—异构事例实例”表现出了比“—同构子事例实例”和“—同构事例实例”具有一个相对更大的下降，这意味着在TaSeLF中，异构事例实例比同构子事例实例和同构事例实例具有更大的贡献。

表2：TaLeM的消融实验的精度结果

本说明书一个或多个实施例提出的事例检测方法和电子设备基于由一个分类敏感的自监督学习框架(TaSeLF)和一个分类敏感的原型网络(TaPN)组成的分类敏感学习模型(TaLeM)。其中，TaSeLF探究分类敏感的距离关系来大幅地增长训练例子，这减轻了由于不足训练样例带来的泛化瓶颈；TaPN引入了Poincaré嵌入来表征标签分类体系，并且将其整合进一个任务自适应的映射网络(TaPNet)，这解决了传统原型网络中存在的类质中心点分布的问题和分类敏感的嵌入问题。在四类元任务上的实验结果表明了本说明书一个或多个实施例提出的模型具有提升少样本事例检测精度性能的优势。

需要说明的是，上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。