CN112015902B

CN112015902B - 基于度量的元学习框架下的少次文本分类方法

Info

Publication number: CN112015902B
Application number: CN202010959729.7A
Authority: CN
Inventors: 赵翔; 庞宁; 谭跃进; 姜江; 谭真; 肖卫东; 葛斌
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2022-03-01
Anticipated expiration: 2040-09-14
Also published as: CN112015902A

Abstract

本发明公开了基于度量的元学习框架下的少次文本分类方法，在输入层，输入支持实例和查询实例；在词嵌入层，通过查找预先训练的词嵌入表，将离散词映射到向量空间中；在上下文编码器层，通过考虑上下文来优化支持实例和查询实例的句子中每个单词的局部表示；在双向注意力层，首先将查询实例与每个支持实例耦合，然后在它们之间生成匹配信息；在模型层，为查询实例和支持实例生成特征向量，给定查询的实例级注意力模块计算支持实例的权重以动态生成原型；在输出层，通过测量查询和原型之间的相似性得分来为查询实例提供预测。本发明方法提出了一种使用双向注意力机制和跨类知识的少次文本分类框架，使得少次文本分类方法更加有效。

Description

基于度量的元学习框架下的少次文本分类方法

技术领域

本发明属于人工智能中的自然语言处理技术领域，涉及基于度量的元学习框架下的少次文本分类方法。

背景技术

文本分类是自然语言处理中的一项关键任务，它服务于一系列下游应用程序，例如信息检索和意见挖掘。该任务定义为从候选类集中为给定的未标记文本选择适当的标签。深度学习的最新发展引起了人们对通过神经网络进行监督的文本分类模型的兴趣。实际上，这些方法需要大量带标签的训练数据。然而，获取这样的高质量数据是劳动密集型的，并且手工标记过程是耗时的。

为了缓解这一问题，提出了“少次学习”(FSL)来训练新类别的分类器，这些分类器仅需要几个标记示例。在计算机视觉中，对少次学习FSL进行了广泛的研究，元学习已成为一种有前途的方法，可以在资源匮乏的情况下快速推广到新概念。特别地，基于度量的方法通过学习类之间的距离分布来执行分类。作为一个代表性模型，原型网络为每个候选类生成一个原型向量，并根据查询和每个原型的向量表示之间的距离对查询进行分类。

在少次文本分类中，仅给定几条带有已知类标签的文本(即支持实例)，需要一个模型来对新传入的一段文本(即查询实例)进行分类，由此，需要提出基于度量的元学习框架下的少次文本分类方法来解决该应用问题。

先前的研究表明，基于度量的学习为自然语言处理中的某些少次学习任务提供了优雅的解决方案。但是，在少次分类中，我们观察到了需要进一步改进的余量。首先，没有很好地探讨查询和支持实例之间的相互依赖性。在大多数基于度量的模型中，查询和支持实例是单独编码的，然后根据它们之间的相似性得出度量。但是，同一类别中的文本倾向于包含具有相似含义的单词。查询和支持实例中的相似部分是识别类别的有效线索，应通过对其交互进行建模来相互强调。

此外，以前的模型分别考虑不同的类别，因此很可能会忽略跨类别的信息。基于度量的模型的性能很大程度上取决于嵌入空间中句子的空间分布。如果同一类中所有支持实例的嵌入彼此相距较远，则很难捕获它们的共同特征并生成具有代表性的原型。并且如果不同类的支持实例在嵌入空间中彼此接近，则生成的原型是无法区分的。尽管如此，有关少次文本分类的现有研究很大程度上忽略了这种跨类别的知识。

发明内容

有鉴于此，本发明的目的在于提出基于度量的元学习框架下的少次文本分类方法，所述方法提出了一种使用双向注意力机制和跨类知识的少次文本分类框架，首先，与之前的工作将查询和支持实例独立地汇总到单个特征向量中的工作不同，所述方法计算每个单词的双向注意力(即从支持到查询注意力以及从查询到支持注意力)以了解查询和支持实例之间的交互作用，这样可以获得查询的支持感知向量表示和支持实例的查询感知向量表示；其次，通过添加Large Margin损失来监督距离分布，从而利用类之间的隐含知识，同一类内的实例应在嵌入空间中相邻放置，而不同类的实例最好彼此远离，因此采用LargeMargin损失来缩短属于同一类别的支持实例之间的距离，并增大不同类别之间的支持距离。

基于上述目的，基于度量的元学习框架下的少次文本分类方法，包括以下步骤：

步骤1，在输入层，输入支持实例和查询实例；

步骤2，在词嵌入层，通过查找预先训练的词嵌入表，将支持实例和查询实例的离散单词映射到向量空间中；

步骤3，在上下文编码器层，通过考虑上下文来优化支持实例和查询实例的句子中每个单词的局部表示；

步骤4，在双向注意力层，首先将查询实例与每个支持实例耦合，然后在它们之间生成匹配信息；

步骤5，在模型层，为查询实例和支持实例生成特征向量，给定查询的实例级注意力模块计算支持实例的权重以动态生成原型；

步骤6，在输出层，通过测量查询实例和原型之间的相似性得分来为查询实例提供分类预测。

具体地，步骤2中，词嵌入层将每个离散单词w_t映射到向量空间中，表示为：

w_t＝f_emb(w_t)

其中，f_emb()是映射函数；

步骤3中，在上下文编码器层，为了优化每个单词的表示形式，在单词嵌入之后，应用长短期记忆网络，对于输入句子{w₁，w₂，...，w_T}，按以下方式计算前向和后向长短期记忆网络表示形式：

和

分别为前向和后向长短期记忆网络，为了捕获两个方向的信息，将两个方向的隐藏层状态拼接：

[:]是拼接操作，所述上下文编码器层的输出是一个维度为T×2d_h的矩阵，d_h为隐藏层单元数量，

表示查询实例，

表示第k个支持实例。

具体地，在步骤4中，双向注意力层负责融合查询实例和支持实例中的信息，首先计算查询实例和第k个支持实例之间的相似度矩阵，然后计算其融合表示，所述双向注意力层的输入是查询实例Q和第k个支持实例…的上下文向量表示，输出是查询实例的支持感知矢量表示以及支持实例的查询感知矢量表示。

更进一步地，所述的查询实例和第k个支持实例之间的相似度矩阵：

是训练参数，Q_i：是Q的第i行，

是S^k的第j行，⊙是元素按位相乘符号，这样得到的C^k包含了Q和S^k的全部注意力信息；

所述的双向注意力层包括支持到查询注意力层和查询到支持注意力层，所述支持到查询注意力层注意力用来寻找查询实例中的哪些词与支持实例中的词相关，给定第t个支持实例中的词，查询词的注意力值分布为：

是C^k第t列，Softmax函数定义为

因此，支持实例中第t个单词的查询感知矢量表示：

可以得到支持实例的查询感知向量表示

所述查询到支持注意力层注意力用来寻找支持实例中的哪些词与查询中的词相关，给定第t个查询中的词，支持词的注意力值分布为：

是C^k第t行，Softmax函数定义为

因此，查询中第t个单词的支持感知矢量表示：

可以得到查询的支持感知向量表示

在特征融合中，对每个查询和支持实例的原始表示与注意力表示之间的交互进行建模，对于查询实例，将两种表示法融合如下：

是参数矩阵，g()是一个ReLU激活函数，

同样的方法，可以得到第k个支持实例的融合表示

具体地，在步骤5中，模型层将所有实例汇总为单个特征向量，并为每个类生成原型向量；

首先将

和

输入一个维度为d_h的长短期记忆网络中，得到新的表示

和

目的是获得在已知查询的支持实例词之间的交互以及在已知支持实例的查询词之间的交互，将它们融为单个向量的方法为：

Max()和Ave()分别为最大池化和平均池化操作；

由于每个支持实例的重要性在给定查询的情况下会有所不同，由此通过注意力方式汇总支持实例，定义为：

e^k反映每个支持实例与查询的相关性，

和

为训练参数，然后，可以得到原型向量：

所有类别的原型向量集合表示为

具体地，在步骤6中，所述输出层根据查询特征向量和各类别的原型向量预测查询实例所属的类；通过测量查询实例与每个原型的相似性来确定查询实例的类：

和

为训练参数。

更进一步地，在模型层中，损失函数为：

其中，第一部分为交叉熵损失函数：

其中，Q表示查询实例的集合，|Q|表示集合Q的基数；

第二部分添加了一个large margin损失函数，以缩短同一类别之间的距离，并扩大不同类别之间的距离，损失定义为：

表示类别y_i的第k个支持实例，

为不属于类别y_i的任意支持实例，γ为超参数，根据具体任务进行调整设置，||·||₂计算向量的2范数；

最后模型利用随机梯度下降法最小化损失。

附图说明

图1为本发明实施例的流程示意图；

图2为本发明实施例的整体模型结构示意图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

如图1所示，基于度量的元学习框架下的少次文本分类方法，包括以下步骤：

步骤1，在输入层，输入支持实例和查询实例；

w_t＝f_emb(w_t)

其中，f_enb()是映射函数；

和

表示查询实例，

表示第k个支持实例。

具体地，在步骤4中，双向注意力层负责融合查询实例和支持实例中的信息，首先计算查询实例和第k个支持实例之间的相似度矩阵，然后计算其融合表示，所述双向注意力层的输入是查询实例Q和第k个支持实例S^k的上下文向量表示，输出是查询实例的支持感知矢量表示以及支持实例的查询感知矢量表示。

是训练参数，Q_i：是Q的第i行，

是C^k第t列，Softmax函数定义为

因此，支持实例中第t个单词的查询感知矢量表示：

可以得到支持实例的查询感知向量表示

是C^k第t行，Softmax函数定义为

因此，查询中第t个单词的支持感知矢量表示：

可以得到查询的支持感知向量表示

是参数矩阵，g()是一个ReLU激活函数，

同样的方法，可以得到第k个支持实例的融合表示

首先将

和

输入一个维度为d_h的长短期记忆网络中，得到新的表示

和

Max()和Ave()分别为最大池化和平均池化操作；

e^k反映每个支持实例与查询的相关性，

和

为训练参数，然后，可以得到原型向量：

所有类别的原型向量集合表示为

和

为训练参数。

更进一步地，在模型层中，损失函数为：

其中，第一部分为交叉熵损失函数：

其中，Q表示查询实例的集合，|Q|表示集合Q的基数；

表示类别y_i的第k个支持实例，

最后模型利用随机梯度下降法最小化损失。

上述实施例为本发明方法的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于度量的元学习框架下的少次文本分类方法，其特征在于，包括以下步骤：

步骤1，在输入层，输入支持实例和查询实例；

步骤6，在输出层，通过测量查询实例和原型之间的相似性得分来为查询实例提供分类预测；

步骤2中，嵌入层将句子中的每个单词w_t映射到向量空间中，表示为：

w_t＝f_emb(w_t)

其中，f_emb()是映射函数；

步骤3中，在上下文编码器层，为了优化每个单词的表示形式，在单词嵌入之后，应用了长短期记忆网络，对于输入句子{w₁，w₂，...，w_T}，按以下方式计算前向和后向长短期记忆网络表示形式：

和

表示查询实例，

表示第k个支持实例；

在步骤4中，双向注意力层负责融合查询实例和支持实例中的信息，首先计算查询实例和第k个支持实例之间的相似度矩阵，然后计算其融合表示，所述双向注意力层的输入是查询实例Q和第k个支持实例S^k的上下文向量表示，输出是查询实例的支持感知矢量表示以及支持实例的查询感知矢量表示；

所述的查询实例和第k个支持实例之间的相似度矩阵：

是训练参数，Q_i：是Q的第i行，

是C^k第t列，Softmax函数定义为

因此，支持实例中第t个单词的查询感知矢量表示：

可以得到查询感知的支持向量表示

是C^k第t行，Softmax函数定义为

因此，查询中第t个单词的支持感知矢量表示：

可以得到查询感知的支持向量表示

是参数矩阵，g()是一个ReLU激活函数，

同样的方法，可以得到第k个支持实例的融合表示

2.根据权利要求1所述的少次文本分类方法，其特征在于，在步骤5中，模型层将所有实例汇总为单个特征向量，并为每个类生成原型向量；

首先将

和

输入一个维度为d_h的长短期记忆网络中，得到新的表示

和

目的是获得在已知查询的支持实例词之间的交互以及在已知支持实例的查询词之间的交互，将他们融为单个向量的方法为：

Max()和Ave()分别为最大池化和平均池化操作；

e^k反映每个支持实例与查询的相关性，

和

为训练参数，然后，可以得到原型向量：

所有类别的原型向量集合表示为

3.根据权利要求2所述的少次文本分类方法，其特征在于，在步骤6中，所述输出层根据查询特征向量和各类别的原型向量预测查询实例所属的类；通过测量查询实例与每个原型的相似性来确定查询实例的类：

和

为训练参数。

4.根据权利要求3所述的少次文本分类方法，其特征在于，在模型层中，损失函数为：

其中，第一部分为交叉熵损失函数：

其中，Q表示查询实例的集合，|Q|表示集合Q的基数；

表示类别y_i的第k个支持实例，

为不属于类别y_i的任意支持实例，γ为超参数，根据具体任务进行调整设置，||.||₂计算向量的2范数；

最后模型利用随机梯度下降法最小化损失。