CN111460097B - 一种基于tpn的小样本文本分类方法 - Google Patents

一种基于tpn的小样本文本分类方法 Download PDF

Info

Publication number
CN111460097B
CN111460097B CN202010226429.8A CN202010226429A CN111460097B CN 111460097 B CN111460097 B CN 111460097B CN 202010226429 A CN202010226429 A CN 202010226429A CN 111460097 B CN111460097 B CN 111460097B
Authority
CN
China
Prior art keywords
tpn
data
samples
text
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010226429.8A
Other languages
English (en)
Other versions
CN111460097A (zh
Inventor
刘园
朱德伟
张弛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huatai Securities Co ltd
Original Assignee
Huatai Securities Co ltd
Filing date
Publication date
Application filed by Huatai Securities Co ltd filed Critical Huatai Securities Co ltd
Priority to CN202010226429.8A priority Critical patent/CN111460097B/zh
Publication of CN111460097A publication Critical patent/CN111460097A/zh
Application granted granted Critical
Publication of CN111460097B publication Critical patent/CN111460097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种基于TPN的小样本文本分类方法,包括如下步骤,步骤S1、整理数据集,抽取任意C个类别的文本,每个类别里抽取K个样本,同时在每个类别的剩余样本里抽取query样本;步骤S2、对文本进行编码处理;步骤S3、将编码处理后的每一个样本看为一个结点,各节点之间的边为权重;步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系;步骤S5、使用交叉熵优化模型。本方法采用基于TPN的Few‑Shot模型,实现对话系统中的意图语料积累少、意图多的意图识别问题。

Description

一种基于TPN的小样本文本分类方法
技术领域
本发明属于文本分类技术领域,具体涉及一种基于TPN的小样本文本分类方法。
背景技术
据申请人了解,关于小样本标注问题的研究,主要分为三个方向,一是:ModelBased,旨在通过模型结构的设计快速在少量样本上更新参数,直接建立输入x和预测值P的映射函数;二是OptimizationBased,该方法认为普通的梯度下降方法难以在few-shot场景下拟合,因此通过调整优化方法来完成小样本分类的任务;三是MetricBased,该方法通过度量batch集中的样本和support集中样本的距离,借助最近邻的思想完成分类。
尤其是第三种方法,是当前比较热门的研究思路,而且在这个方向上,研究成果层出不穷。包括
1、孪生网络(SiameseNetwor),有监督的方式训练孪生网络来学习,然后重用网络所提取的特征进行one/few-shot学习。
2、匹配网络(MatchNetwork),为支撑集和Batch集构建不同的编码器,最终分类器的输出是支撑集样本和query之间预测值的加权求和。
3、原型网络(PrototypeNetwork),每个类别都存在一个原型表达,该类的原型是supportset在embedding空间中的均值。然后,分类问题变成在embedding空间中的最近邻。c1、c2、c3分别是三个类别的均值中心(称Prototype),将测试样本x进行embedding后,与这3个中心进行距离计算,从而获得x的类别。
4、InductionNetworks,该框架也是基于MetricBased方法,结构式Encoder-Induction-Relation的三级框架,Encoder模块用于获取每个样本的语义表示,可以使用典型的CNN、LSTM、Transformer等结构,Induction模块用于从支撑集的样本语义中归纳出类别特征,Relation模块用于度量query和类别之间的语义关系,进而完成分类。
然而这些网络分别具有一定的缺陷,具体如下,
1、孪生网络(SiameseNetwork)要求输入数据集的正样本和负样本比例为1:1;
2、匹配网络(MatchNetwork),该网络结构清晰,运行速度快,但在不同分布的数据集上的表现相差巨大,这个在实际应用时是无法接受的;
3、原型网络(PrototypeNetwork),该网络结构单一,训练方便,对于测试集的数据分布不敏感,但也存在预测准确率较低等问题;
4、InductionNetworks,该网络融合了胶囊网络与RelationNetwork,但在不同数据集上的表现差异较大
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于TPN的小样本文本分类方法,采用基于TPN的Few-Shot模型,实现对话系统中的意图语料积累少、意图多的意图识别问题。
本发明提供一种基于TPN的小样本文本分类方法,包括如下步骤,
步骤S1、整理数据集,抽取任意C个类别的文本,每个类别里抽取K个样本,同时在每个类别的剩余样本里抽取query样本;
步骤S2、对文本进行编码处理;
步骤S3、将编码处理后的每一个样本看为一个结点,各节点之间的边为权重;
步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系;
输入input:u个未标记数据和C*K个标记的数据及其标签;输出output:u个未标记数据的标签;
第一步:初始化,利用权重公式来计算每条边的权重wij
得到数据间的相似度;
第二步:根据得到的权重wij,计算标签j传递到i的概率:
第三步:定义一个(l+u)*C的矩阵:Yi,C=δ(yi,C);
第四步:每个节点按传播概率把它周围节点传播的标注值按权重相加,并更新到自己的概率分布;
第五步:限定已标注的数据,把已标注的数据的概率分布重新赋值为初始值,然后重复第四步,直至收敛;
步骤S5、使用交叉熵优化模型
作为本发明的进一步技术方案,步骤S2中,可以采用CNN、LSTM、Transformer、Bert和LASER方法对文本进行编码处理。
进一步的,采用LASER方法无需进行FineTune调整,直接使用接口调用就能获取比较符合语义的Embbeding转换结果。
进一步的,步骤S3中,边的权重为其中,dij为两个节点之间的距离,σ是超参。
本发明采用基于TPN的Few-Shot模型,实现对话系统中的意图语料积累少、意图多的意图识别问题,在系统自动抽取相关知识并自学习为新意图的基础上,实时快速更新模型并集成意图识别的功能。该模型的思路还可以泛化到序列标注等具有相似思路的问题上。
附图说明
图1为本发明的样本转换图;
图2为对话系统的使用流程图。
具体实施方式
请参阅图1,本实施例提供一种基于TPN的小样本文本分类方法,包括如下步骤,
步骤S1、整理数据集,抽取任意C个类别的文本,每个类别里抽取K个样本,同时在每个类别的剩余样本里抽取query样本;
步骤S2、对文本进行编码处理;
步骤S3、将编码处理后的每一个样本看为一个结点,各节点之间的边为权重;
步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系;
输入input:u个未标记数据和C*K个标记的数据及其标签;输出output:u个未标记数据的标签;
第一步:初始化,利用权重公式来计算每条边的权重wij
得到数据间的相似度;
第二步:根据得到的权重wij,计算标签j传递到i的概率:
第三步:定义一个(l+u)*C的矩阵:Yi,C=δ(yi,C);
第四步:每个节点按传播概率把它周围节点传播的标注值按权重相加,并更新到自己的概率分布;
第五步:限定已标注的数据,把已标注的数据的概率分布重新赋值为初始值,然后重复第四步,直至收敛;
步骤S5、使用交叉熵优化模型
步骤S2中,可以采用CNN、LSTM、Transformer、Bert和LASER方法对文本进行编码处理。
采用LASER方法无需进行FineTune调整,直接使用接口调用就能获取比较符合语义的Embbeding转换结果。
边的权重为其中,dij为两个节点之间的距离,σ是超参。
如图2所示,将本模型上线至自研的对话系统中,对系统的产品使用效果方面有了显著的提升,对于基于sigmoid的多意图识别,准确率达到87.63%
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

Claims (3)

1.一种基于TPN的小样本文本分类方法,其特征在于,包括如下步骤,
步骤S1、整理数据集,抽取任意C个类别的文本,每个类别里抽取K个样本,同时在每个类别的剩余样本里抽取query样本;
步骤S2、对文本进行编码处理;
步骤S3、将编码处理后的每一个样本看为一个结点,各节点之间的边为权重;
步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系;输入input:u个未标记数据和C*K个标记的数据及其标签;输出output:u个未标记数据的标签;
第一步:初始化,利用权重公式来计算每条边的权重wij
得到数据间的相似度;
第二步:根据得到的权重wij,计算标签j传递到i的概率:
第三步:定义一个(l+u)*C的矩阵:Yi,C=δ(yi,C);
第四步:每个节点按传播概率把它周围节点传播的标注值按权重相加,并更新到自己的概率分布;
第五步:限定已标注的数据,把已标注的数据的概率分布重新赋值为初始值,然
后重复第四步,直至收敛;
步骤S5、使用交叉熵优化模型所述步骤S3中,边的权重为/>其中,dij为两个节点之间的距离,σ是超参。
2.根据权利要求1所述的一种基于TPN的小样本文本分类方法,其特征在于,所述步骤S2中,可以采用CNN、LSTM、Transformer、Bert和LASER方法对文本进行编码处理。
3.根据权利要求2所述的一种基于TPN的小样本文本分类方法,其特征在于,
采用LASER方法无需进行Fine Tune调整,直接使用接口调用就能获取比较符合语义的Embbeding转换结果。
CN202010226429.8A 2020-03-26 一种基于tpn的小样本文本分类方法 Active CN111460097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010226429.8A CN111460097B (zh) 2020-03-26 一种基于tpn的小样本文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010226429.8A CN111460097B (zh) 2020-03-26 一种基于tpn的小样本文本分类方法

Publications (2)

Publication Number Publication Date
CN111460097A CN111460097A (zh) 2020-07-28
CN111460097B true CN111460097B (zh) 2024-06-07

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298391A (zh) * 2019-06-12 2019-10-01 同济大学 一种基于小样本的迭代式增量对话意图类别识别方法
CN110347839A (zh) * 2019-07-18 2019-10-18 湖南数定智能科技有限公司 一种基于生成式多任务学习模型的文本分类方法
CN110704624A (zh) * 2019-09-30 2020-01-17 武汉大学 一种地理信息服务元数据文本多层级多标签分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298391A (zh) * 2019-06-12 2019-10-01 同济大学 一种基于小样本的迭代式增量对话意图类别识别方法
CN110347839A (zh) * 2019-07-18 2019-10-18 湖南数定智能科技有限公司 一种基于生成式多任务学习模型的文本分类方法
CN110704624A (zh) * 2019-09-30 2020-01-17 武汉大学 一种地理信息服务元数据文本多层级多标签分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yanbin Liu 等.《Learning to propagate labels: Transductive propagation network for few-shot learning》.《conference paper at ICLR 2019》.2019,1-14. *

Similar Documents

Publication Publication Date Title
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN112269868B (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN111506732B (zh) 一种文本多层次标签分类方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN111461025B (zh) 一种自主进化的零样本学习的信号识别方法
CN112560432A (zh) 基于图注意力网络的文本情感分析方法
CN110532395B (zh) 一种基于语义嵌入的词向量改进模型的建立方法
CN112860904B (zh) 一种融入外部知识的生物医疗关系抽取方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN111368087B (zh) 基于多输入注意力网络的中文文本分类方法
CN116662500A (zh) 一种基于bert模型与外部知识图谱的问答系统构建方法
CN113705242B (zh) 面向教育咨询服务的智能语义匹配方法和装置
CN113920379A (zh) 一种基于知识辅助的零样本图像分类方法
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN113469338A (zh) 模型训练方法、模型训练装置、终端设备及存储介质
CN116050419B (zh) 一种面向科学文献知识实体的无监督识别方法及系统
CN117390198A (zh) 构建电力领域科技知识图谱的方法、装置、设备及介质
CN110580289B (zh) 一种基于堆叠自动编码器和引文网络的科技论文分类方法
CN117251562A (zh) 一种基于事实一致性增强的文本摘要生成方法
CN111460097B (zh) 一种基于tpn的小样本文本分类方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN116204643A (zh) 一种基于多任务学习知识增强的级联标签分类方法
CN108762523A (zh) 基于capsule网络的输入法输出字符预测方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant