CN111460097A - 一种基于tpn的小样本文本分类方法 - Google Patents
一种基于tpn的小样本文本分类方法 Download PDFInfo
- Publication number
- CN111460097A CN111460097A CN202010226429.8A CN202010226429A CN111460097A CN 111460097 A CN111460097 A CN 111460097A CN 202010226429 A CN202010226429 A CN 202010226429A CN 111460097 A CN111460097 A CN 111460097A
- Authority
- CN
- China
- Prior art keywords
- tpn
- samples
- sample
- data
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract description 3
- 238000011160 research Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000002775 capsule Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于TPN的小样本文本分类方法,包括如下步骤,步骤S1、整理数据集,抽取任意C个类别的文本,每个类别里抽取K个样本,同时在每个类别的剩余样本里抽取query样本;步骤S2、对文本进行编码处理;步骤S3、将编码处理后的每一个样本看为一个结点,各节点之间的边为权重;步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系;步骤S5、使用交叉熵优化模型。本方法采用基于TPN的Few‑Shot模型,实现对话系统中的意图语料积累少、意图多的意图识别问题。
Description
技术领域
本发明属于文本分类技术领域,具体涉及一种基于TPN的小样本文本分类方法。
背景技术
据申请人了解,关于小样本标注问题的研究,主要分为三个方向,一是:ModelBased,旨在通过模型结构的设计快速在少量样本上更新参数,直接建立输入x和预测值P的映射函数;二是Optimization Based,该方法认为普通的梯度下降方法难以在few-shot场景下拟合,因此通过调整优化方法来完成小样本分类的任务;三是Metric Based,该方法通过度量batch集中的样本和support集中样本的距离,借助最近邻的思想完成分类。
尤其是第三种方法,是当前比较热门的研究思路,而且在这个方向上,研究成果层出不穷。包括
1、孪生网络(Siamese Networ),有监督的方式训练孪生网络来学习,然后重用网络所提取的特征进行one/few-shot学习。
2、匹配网络(Match Network),为支撑集和Batch集构建不同的编码器,最终分类器的输出是支撑集样本和query之间预测值的加权求和。
3、原型网络(Prototype Network),每个类别都存在一个原型表达,该类的原型是support set在embedding空间中的均值。然后,分类问题变成在embedding空间中的最近邻。c1、c2、c3分别是三个类别的均值中心(称Prototype),将测试样本x进行embedding后,与这3个中心进行距离计算,从而获得x的类别。
4、Induction Networks,该框架也是基于Metric Based方法,结构式Encoder-Induction-Relation的三级框架,Encoder模块用于获取每个样本的语义表示,可以使用典型的CNN、LSTM、Transformer等结构,Induction模块用于从支撑集的样本语义中归纳出类别特征,Relation模块用于度量query和类别之间的语义关系,进而完成分类。
然而这些网络分别具有一定的缺陷,具体如下,
1、孪生网络(Siamese Network)要求输入数据集的正样本和负样本比例为1:1;
2、匹配网络(Match Network),该网络结构清晰,运行速度快,但在不同分布的数据集上的表现相差巨大,这个在实际应用时是无法接受的;
3、原型网络(Prototype Network),该网络结构单一,训练方便,对于测试集的数据分布不敏感,但也存在预测准确率较低等问题;
4、Induction Networks,该网络融合了胶囊网络与Relation Network,但在不同数据集上的表现差异较大
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于TPN的小样本文本分类方法,采用基于TPN的Few-Shot模型,实现对话系统中的意图语料积累少、意图多的意图识别问题。
本发明提供一种基于TPN的小样本文本分类方法,包括如下步骤,
步骤S1、整理数据集,抽取任意C个类别的文本,每个类别里抽取K个样本,同时在每个类别的剩余样本里抽取query样本;
步骤S2、对文本进行编码处理;
步骤S3、将编码处理后的每一个样本看为一个结点,各节点之间的边为权重;
步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系;
输入input:u个未标记数据和C*K个标记的数据及其标签;输出output:u个未标记数据的标签;
第一步:初始化,利用权重公式来计算每条边的权重wij
得到数据间的相似度;
第二步:根据得到的权重wij,计算标签j传递到i的概率:
第三步:定义一个(l+u)*C的矩阵:Yi,C=δ(yi,C);
第四步:每个节点按传播概率把它周围节点传播的标注值按权重相加,并更新到自己的概率分布;
第五步:限定已标注的数据,把已标注的数据的概率分布重新赋值为初始值,然后重复第四步,直至收敛;
作为本发明的进一步技术方案,步骤S2中,可以采用CNN、LSTM、Transformer、Bert和LASER方法对文本进行编码处理。
进一步的,采用LASER方法无需进行Fine Tune调整,直接使用接口调用就能获取比较符合语义的Embbeding转换结果。
本发明采用基于TPN的Few-Shot模型,实现对话系统中的意图语料积累少、意图多的意图识别问题,在系统自动抽取相关知识并自学习为新意图的基础上,实时快速更新模型并集成意图识别的功能。该模型的思路还可以泛华到序列标注等具有相似思路的问题上。
附图说明
图1为本发明的样本转换图;
图2为对话系统的使用流程图。
具体实施方式
请参阅图1,本实施例提供一种基于TPN的小样本文本分类方法,包括如下步骤,
步骤S1、整理数据集,抽取任意C个类别的文本,每个类别里抽取K个样本,同时在每个类别的剩余样本里抽取query样本;
步骤S2、对文本进行编码处理;
步骤S3、将编码处理后的每一个样本看为一个结点,各节点之间的边为权重;
步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系;
输入input:u个未标记数据和C*K个标记的数据及其标签;输出output:u个未标记数据的标签;
第一步:初始化,利用权重公式来计算每条边的权重wij
得到数据间的相似度;
第二步:根据得到的权重wij,计算标签j传递到i的概率:
第三步:定义一个(l+u)*C的矩阵:Yi,C=δ(yi,C);
第四步:每个节点按传播概率把它周围节点传播的标注值按权重相加,并更新到自己的概率分布;
第五步:限定已标注的数据,把已标注的数据的概率分布重新赋值为初始值,然后重复第四步,直至收敛;
步骤S2中,可以采用CNN、LSTM、Transformer、Bert和LASER方法对文本进行编码处理。
采用LASER方法无需进行Fine Tune调整,直接使用接口调用就能获取比较符合语义的Embbeding转换结果。
如图2所示,将本模型上线至自研的对话系统中,对系统的产品使用效果方面有了显著的提升,对于基于sigmoid的多意图识别,准确率达到87.63%
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。
Claims (4)
1.一种基于TPN的小样本文本分类方法,其特征在于,包括如下步骤,
步骤S1、整理数据集,抽取任意C个类别的文本,每个类别里抽取K个样本,同时在每个类别的剩余样本里抽取query样本;
步骤S2、对文本进行编码处理;
步骤S3、将编码处理后的每一个样本看为一个结点,各节点之间的边为权重;
步骤S4、根据标签传播算法分析Support集和Query集内各个样本之间的关系;输入input:u个未标记数据和C*K个标记的数据及其标签;输出output:u个未标记数据的标签;
第一步:初始化,利用权重公式来计算每条边的权重wij
得到数据间的相似度;
第二步:根据得到的权重wij,计算标签j传递到i的概率:
第三步:定义一个(l+u)*C的矩阵:Yi,C=δ(yi,C);
第四步:每个节点按传播概率把它周围节点传播的标注值按权重相加,并更新到自己的概率分布;
后重复第四步,直至收敛;
2.根据权利要求1所述的一种基于TPN的小样本文本分类方法,其特征在于,所述步骤S2中,可以采用CNN、LSTM、Transformer、Bert和LASER方法对文本进行编码处理。
3.根据权利要求2所述的一种基于TPN的小样本文本分类方法,其特征在于,采用LASER方法无需进行Fine Tune调整,直接使用接口调用就能获取比较符合语义的Embbeding转换结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010226429.8A CN111460097B (zh) | 2020-03-26 | 一种基于tpn的小样本文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010226429.8A CN111460097B (zh) | 2020-03-26 | 一种基于tpn的小样本文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460097A true CN111460097A (zh) | 2020-07-28 |
CN111460097B CN111460097B (zh) | 2024-06-07 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221977A (zh) * | 2021-04-26 | 2021-08-06 | 中国科学院大学 | 一种基于抗混叠语义重构的小样本语义分割方法 |
CN113378938A (zh) * | 2021-06-11 | 2021-09-10 | 西安电子科技大学 | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 |
CN113535950A (zh) * | 2021-06-15 | 2021-10-22 | 杭州电子科技大学 | 一种基于知识图谱和胶囊网络的小样本意图识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298391A (zh) * | 2019-06-12 | 2019-10-01 | 同济大学 | 一种基于小样本的迭代式增量对话意图类别识别方法 |
CN110347839A (zh) * | 2019-07-18 | 2019-10-18 | 湖南数定智能科技有限公司 | 一种基于生成式多任务学习模型的文本分类方法 |
CN110704624A (zh) * | 2019-09-30 | 2020-01-17 | 武汉大学 | 一种地理信息服务元数据文本多层级多标签分类方法 |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298391A (zh) * | 2019-06-12 | 2019-10-01 | 同济大学 | 一种基于小样本的迭代式增量对话意图类别识别方法 |
CN110347839A (zh) * | 2019-07-18 | 2019-10-18 | 湖南数定智能科技有限公司 | 一种基于生成式多任务学习模型的文本分类方法 |
CN110704624A (zh) * | 2019-09-30 | 2020-01-17 | 武汉大学 | 一种地理信息服务元数据文本多层级多标签分类方法 |
Non-Patent Citations (1)
Title |
---|
YANBIN LIU 等: "《Learning to propagate labels: Transductive propagation network for few-shot learning》", pages 1 - 14 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221977A (zh) * | 2021-04-26 | 2021-08-06 | 中国科学院大学 | 一种基于抗混叠语义重构的小样本语义分割方法 |
CN113221977B (zh) * | 2021-04-26 | 2022-04-29 | 中国科学院大学 | 一种基于抗混叠语义重构的小样本语义分割方法 |
CN113378938A (zh) * | 2021-06-11 | 2021-09-10 | 西安电子科技大学 | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 |
CN113378938B (zh) * | 2021-06-11 | 2022-12-13 | 西安电子科技大学 | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 |
CN113535950A (zh) * | 2021-06-15 | 2021-10-22 | 杭州电子科技大学 | 一种基于知识图谱和胶囊网络的小样本意图识别方法 |
CN113535950B (zh) * | 2021-06-15 | 2022-09-27 | 杭州电子科技大学 | 一种基于知识图谱和胶囊网络的小样本意图识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284506B (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN110442684B (zh) | 一种基于文本内容的类案推荐方法 | |
CN108710651B (zh) | 一种大规模客户投诉数据自动分类方法 | |
CN112765358B (zh) | 一种基于噪声标签学习的纳税人行业分类方法 | |
CN111708882B (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
CN114298158A (zh) | 一种基于图文线性组合的多模态预训练方法 | |
CN112269868B (zh) | 一种基于多任务联合训练的机器阅读理解模型的使用方法 | |
CN109766410A (zh) | 一种基于fastText算法的新闻文本自动分类系统 | |
CN112560432A (zh) | 基于图注意力网络的文本情感分析方法 | |
CN109214001A (zh) | 一种中文语义匹配系统及方法 | |
CN112685504B (zh) | 一种面向生产过程的分布式迁移图学习方法 | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN113378913A (zh) | 一种基于自监督学习的半监督节点分类方法 | |
CN113516379B (zh) | 一种智能质检的工单评分方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN112256904A (zh) | 一种基于视觉描述语句的图像检索方法 | |
CN114722835A (zh) | 基于lda和bert融合改进模型的文本情感识别方法 | |
CN115114409A (zh) | 一种基于软参数共享的民航不安全事件联合抽取方法 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN112905793B (zh) | 一种基于Bilstm+Attention文本分类的案例推荐方法及系统 | |
CN114818719A (zh) | 一种基于复合网络与图注意力机制的社区话题分类方法 | |
CN116050419B (zh) | 一种面向科学文献知识实体的无监督识别方法及系统 | |
CN112163069A (zh) | 一种基于图神经网络节点特征传播优化的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |