CN111460097A

CN111460097A - 一种基于tpn的小样本文本分类方法

Info

Publication number: CN111460097A
Application number: CN202010226429.8A
Authority: CN
Inventors: 刘园; 朱德伟; 张弛
Original assignee: Huatai Securities Co ltd
Current assignee: Huatai Securities Co ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-28
Anticipated expiration: 2040-03-26
Also published as: CN111460097B

Abstract

一种基于TPN的小样本文本分类方法，包括如下步骤，步骤S1、整理数据集，抽取任意C个类别的文本，每个类别里抽取K个样本，同时在每个类别的剩余样本里抽取query样本；步骤S2、对文本进行编码处理；步骤S3、将编码处理后的每一个样本看为一个结点，各节点之间的边为权重；步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系；步骤S5、使用交叉熵优化模型。本方法采用基于TPN的Few‑Shot模型，实现对话系统中的意图语料积累少、意图多的意图识别问题。

Description

一种基于TPN的小样本文本分类方法

技术领域

本发明属于文本分类技术领域，具体涉及一种基于TPN的小样本文本分类方法。

背景技术

据申请人了解，关于小样本标注问题的研究，主要分为三个方向，一是：ModelBased，旨在通过模型结构的设计快速在少量样本上更新参数，直接建立输入x和预测值P的映射函数；二是Optimization Based，该方法认为普通的梯度下降方法难以在few-shot场景下拟合，因此通过调整优化方法来完成小样本分类的任务；三是Metric Based，该方法通过度量batch集中的样本和support集中样本的距离，借助最近邻的思想完成分类。

尤其是第三种方法，是当前比较热门的研究思路，而且在这个方向上，研究成果层出不穷。包括

1、孪生网络(Siamese Networ)，有监督的方式训练孪生网络来学习，然后重用网络所提取的特征进行one/few-shot学习。

2、匹配网络(Match Network)，为支撑集和Batch集构建不同的编码器，最终分类器的输出是支撑集样本和query之间预测值的加权求和。

3、原型网络(Prototype Network)，每个类别都存在一个原型表达，该类的原型是support set在embedding空间中的均值。然后，分类问题变成在embedding空间中的最近邻。c1、c2、c3分别是三个类别的均值中心(称Prototype)，将测试样本x进行embedding后，与这3个中心进行距离计算，从而获得x的类别。

4、Induction Networks，该框架也是基于Metric Based方法，结构式Encoder-Induction-Relation的三级框架，Encoder模块用于获取每个样本的语义表示，可以使用典型的CNN、LSTM、Transformer等结构，Induction模块用于从支撑集的样本语义中归纳出类别特征，Relation模块用于度量query和类别之间的语义关系，进而完成分类。

然而这些网络分别具有一定的缺陷，具体如下,

1、孪生网络(Siamese Network)要求输入数据集的正样本和负样本比例为1:1；

2、匹配网络(Match Network)，该网络结构清晰，运行速度快，但在不同分布的数据集上的表现相差巨大，这个在实际应用时是无法接受的；

3、原型网络(Prototype Network)，该网络结构单一，训练方便，对于测试集的数据分布不敏感，但也存在预测准确率较低等问题；

4、Induction Networks，该网络融合了胶囊网络与Relation Network，但在不同数据集上的表现差异较大

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于TPN的小样本文本分类方法，采用基于TPN的Few-Shot模型，实现对话系统中的意图语料积累少、意图多的意图识别问题。

本发明提供一种基于TPN的小样本文本分类方法，包括如下步骤，

步骤S1、整理数据集，抽取任意C个类别的文本，每个类别里抽取K个样本，同时在每个类别的剩余样本里抽取query样本；

步骤S2、对文本进行编码处理；

步骤S3、将编码处理后的每一个样本看为一个结点，各节点之间的边为权重；

步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系；

输入input：u个未标记数据和C*K个标记的数据及其标签；输出output：u个未标记数据的标签；

第一步：初始化，利用权重公式来计算每条边的权重w_ij

，

得到数据间的相似度；

第二步：根据得到的权重w_ij，计算标签j传递到i的概率：

第三步：定义一个(l+u)*C的矩阵：Y_i,C＝δ(y_i,C)；

第四步：每个节点按传播概率把它周围节点传播的标注值按权重相加，并更新到自己的概率分布；

第五步：限定已标注的数据，把已标注的数据的概率分布重新赋值为初始值，然后重复第四步，直至收敛；

步骤S5、使用交叉熵优化模型

作为本发明的进一步技术方案，步骤S2中，可以采用CNN、LSTM、Transformer、Bert和LASER方法对文本进行编码处理。

进一步的，采用LASER方法无需进行Fine Tune调整，直接使用接口调用就能获取比较符合语义的Embbeding转换结果。

进一步的，步骤S3中，边的权重为

其中，d_ij为两个节点之间的距离，σ是超参。

本发明采用基于TPN的Few-Shot模型，实现对话系统中的意图语料积累少、意图多的意图识别问题，在系统自动抽取相关知识并自学习为新意图的基础上，实时快速更新模型并集成意图识别的功能。该模型的思路还可以泛华到序列标注等具有相似思路的问题上。

附图说明

图1为本发明的样本转换图；

图2为对话系统的使用流程图。

具体实施方式

请参阅图1，本实施例提供一种基于TPN的小样本文本分类方法，包括如下步骤，

步骤S2、对文本进行编码处理；

第一步：初始化，利用权重公式来计算每条边的权重w_ij

，

得到数据间的相似度；

第二步：根据得到的权重w_ij，计算标签j传递到i的概率：

第三步：定义一个(l+u)*C的矩阵：Y_i,C＝δ(y_i,C)；

步骤S5、使用交叉熵优化模型

步骤S2中，可以采用CNN、LSTM、Transformer、Bert和LASER方法对文本进行编码处理。

采用LASER方法无需进行Fine Tune调整，直接使用接口调用就能获取比较符合语义的Embbeding转换结果。

边的权重为

其中，d_ij为两个节点之间的距离，σ是超参。

如图2所示，将本模型上线至自研的对话系统中，对系统的产品使用效果方面有了显著的提升，对于基于sigmoid的多意图识别，准确率达到87.63％

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解，本发明不受上述具体实施例的限制，上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理，在不脱离本发明精神范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。