CN117520551B - 一种小样本文本自动分类方法及系统 - Google Patents
一种小样本文本自动分类方法及系统 Download PDFInfo
- Publication number
- CN117520551B CN117520551B CN202410022331.9A CN202410022331A CN117520551B CN 117520551 B CN117520551 B CN 117520551B CN 202410022331 A CN202410022331 A CN 202410022331A CN 117520551 B CN117520551 B CN 117520551B
- Authority
- CN
- China
- Prior art keywords
- vector
- category
- sample
- samples
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 239000013598 vector Substances 0.000 claims abstract description 158
- 239000011159 matrix material Substances 0.000 claims abstract description 59
- 239000002775 capsule Substances 0.000 claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000002372 labelling Methods 0.000 claims abstract description 8
- 238000011478 gradient descent method Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000011176 pooling Methods 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 7
- 238000003058 natural language processing Methods 0.000 abstract description 7
- 230000002411 adverse Effects 0.000 abstract description 3
- 238000005070 sampling Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012544 monitoring process Methods 0.000 abstract 1
- 238000012549 training Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 101100455978 Arabidopsis thaliana MAM1 gene Proteins 0.000 description 1
- SHGAZHPCJJPHSC-YCNIQYBTSA-N all-trans-retinoic acid Chemical compound OC(=O)\C=C(/C)\C=C\C=C(/C)\C=C\C1=C(C)CCCC1(C)C SHGAZHPCJJPHSC-YCNIQYBTSA-N 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 229960001727 tretinoin Drugs 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言处理与人工智能领域,公开了一种小样本文本自动分类方法及系统,方法包括将待分类的文本数据等进行元任务构建,以获取支撑集、查询集以及标签描述信息,并得到元任务样本集合,分词处理后进行嵌入,以获取样本对应的词向量矩阵;计算监督对比损失;将支撑集和标签描述信息通过胶囊网络计算得到每个类别的类别向量;将监督对比损失和交叉熵损失加权计算得出总损失,使用随机梯度下降法对模型参数进行更新;计算每个查询集样本和每个类别向量之间的相似度得到相似度矩阵,相似度矩阵每行值最大维度取1,其余为0,得到预测标签矩阵。缓解了随机采样支撑集带来的不利影响,在低资源语言和标注数据少的场景下有良好实用性。
Description
技术领域
本发明涉及自然语言处理与人工智能技术领域,尤其涉及一种小样本文本自动分类方法及系统。
背景技术
自然语言处理领域中(Natural Language Processing, NLP)的文本分类任务是该领域中的经典任务,可应用于垃圾邮件分类、文本情感分类等任务中。但目前在文本分类领域仍存在一些不足之处。1)在现实场景中,不同类别的数据样本数量往往存在差异,导致模型忽略数量较少的类别;2)鲁棒性不足问题:在实际应用中,会遇到噪声、干扰等情况,对模型的性能产生负面影响;3)对于低资源语言的支持不足:当前NLP技术需要大量的标注数据支持,而低资源语言的标注数据往往较少,人工标注训练数据耗费昂贵,因此NLP技术在这些语言上的应用效果有限。
因此,针对上述问题,出现了基于小样本学习(Few-Shot Learning,FSL)的文本分类方法,小样本学习的任务目标在于通过少量标注的数据,学习到能够应用于新任务或分类问题的能力。同时,元学习的方法已被证明在小样本领域中是有效的,它通过构造众多个包含支撑集和查询集的元任务,使用支撑集作为训练集,而查询集作为验证集对模型进行梯度下降,这种构造方法模拟了人类在众多元任务中不断切换,总结归纳出学习的能力。但目前现有技术中仍存在小样本文本分类方法准确率不够、泛化能力不强的问题,以基于度量的元学习为代表的小样本文本分类技术虽然在近几年取得了好的效果,但是仍然由于无法有效利用标签描述信息、无法分类相似样本、类别原型质量无法保证等问题无法解决导致无法继续提升小样本文本分类的性能。
发明内容
鉴于上述现有存在的问题,提出了本发明。因此,本发明提供了一种小样本文本自动分类方法及系统,解决在目前技术中仍存在小样本文本分类方法准确率不够、泛化能力不强的问题。
为解决上述技术问题,本发明提供如下技术方案:
第一方面,本发明提供了一种小样本文本自动分类方法,包括:
将待分类的文本数据、标注数据及其标签进行元任务构建,以获取支撑集、查询集/>以及标签描述信息,并排列得到元任务的样本集合/>;
将所述样本集合经过分词处理后进行训练,以获取每个样本对应的词向量矩阵/>;
将所述词向量矩阵进行平均池化得到所有样本的句向量集合/>;
通过所有样本的句向量集合计算监督对比损失/>;
将所述支撑集和标签描述信息对应的句向量输入胶囊网络进行动态路由迭代计算,得到每个类别的类别向量/>;
计算每个查询集样本和每个类别向量之间的相似度得到一个相似度矩阵,并计算交叉熵损失/>;
将所述监督对比损失和交叉熵损失/>加权计算得出总损失/>,使用随机梯度下降法对整个模型的参数/>进行更新;
将所述相似度矩阵每行值最大的维度取为1,其余为0,得到预测标签矩阵/>。
作为本发明所述的小样本文本自动分类方法的一种优选方案,其中:所述元任务构建包括,
构建N-Way K-Shot元任务,代表元任务需要分类的类别数目,/>代表每个类别提供的有标注数据的数目;
支撑集随机从每个类中有标注的数据中抽取条,查询集从每个类中待分类的文本数据中抽取/>条;
通过表示支撑集中第/>个类别的第/>个样本,其中;
通过表示查询集/>中第/>个类别的第/>个样本,其中;
通过表示第/>个类别的标签信息,其中/>。
作为本发明所述的小样本文本自动分类方法的一种优选方案,其中:所述排列得到元任务的样本集合,包括,
依据支撑集类别1-的顺序排列,在每个类别支撑集最后一个样本/>之后插入对应的类描述信息/>;
将查询集样本按通用的顺序排列,并设置在支撑集和类描述信息之后,得到元任务的所有样本集合/>。
作为本发明所述的小样本文本自动分类方法的一种优选方案,其中:所述词向量矩阵,由/>个/>维的词向量/>组成,/>经过平均池化操作计算转化为对应句向量的具体运算过程表示为:
;
其中,表示序列中非/>的标签掩码,所计算的为每个样本除/>之外的真实长度,其中/>为填充标记,负责将输入样本填充为统一长度。
作为本发明所述的小样本文本自动分类方法的一种优选方案,其中:所述计算监督对比损失,表示为:
;
其中,为温度因子参数,/>为除本身外参与对比的同类样本数量,向量间相似度计算/>函数使用了两个向量的点积来计算向量相似度,点积后值越大,两个向量越相似。
作为本发明所述的小样本文本自动分类方法的一种优选方案,其中:将所述支撑集和标签描述信息对应的句向量输入胶囊网络进行动态路由迭代计算,其中为迭代次数,得到每个类别的类别向量/>,包括,
输入支撑集句向量与类标签信息句向量;
初始化将变量;
对于中的每个句子向量/>通过/>函数计算得到/>;
在次迭代中,执行以下操作,
使用函数计算得到/>,/>表示每个类别的权重;
将类别向量始化为0,将每个类别的句子向量加权求和得到/>;
通过函数对/>进行非线性转换得到/>;
对于每个类别向量中的元素,分别计算/>;
在退出迭代过程后,将类别向量重新计算一次,得到;
返回类别向量作为输出结果。
作为本发明所述的小样本文本自动分类方法的一种优选方案,其中:计算每个查询集样本和每个类别向量之间的相似度得到一个相似度矩阵,并计算交叉熵损失/>,表示为:
;
其中,为相似度矩阵/>中/>行/>列的元素,/>为查询集的真实标签,/>为查询集样本,/>为类别向量。
第二方面,本发明提供了一种小样本文本自动分类的系统,包括,
元任务构建模块,用于将待分类的文本数据、标注数据及其标签进行元任务构建,以获取支撑集、查询集/>以及标签描述信息,并排列得到元任务的样本集合/>;
嵌入模块,用于将所述样本集合经过分词处理后进行嵌入,以获取每个样本对应的词向量矩阵/>;
池化模块,用于将所述词向量矩阵进行平均池化得到所有样本的句向量集合/>;
第一计算模块, 用于通过所有样本的句向量集合计算监督对比损失/>;
第二计算模块,用于将所述支撑集和标签描述信息对应的句向量输入胶囊网络进行动态路由迭代计算,得到每个类别的类别向量/>;
第三计算模块,用于计算每个查询集样本和每个类别向量之间的相似度得到一个相似度矩阵,并计算交叉熵损失/>;
更新模块,用于将所述监督对比损失和交叉熵损失/>加权计算得出总损失/>,使用随机梯度下降法对整个模型的参数/>进行更新;
预测模块,用于将所述相似度矩阵每行值最大的维度取为1,其余为0,得到预测标签矩阵/>。
第三方面,本发明提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现所述小样本文本自动分类方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现所述小样本文本自动分类方法的步骤。
与现有技术相比,本发明的有益效果:本发明利用标签描述信息作为外部知识,弥补了小样本场景下标注数据稀少带来的不足;利用胶囊网络的动态路由算法来迭代生成一个稳定且高质量的类别向量,缓解了随机采样支撑集带来的不利影响;采用加入了标签描述信息的监督对比学习策略来训练模型,在元学习过程中引导不同类别的聚类,即学习不同类别的标签描述信息和样本之间的差异,在向量映射空间最大化分离不同类别样本(标签信息)的句向量且聚集同类样本(标签信息)的句向量;最后充分提取了小样本下稀少的标注数据中的信息,以此完成待标注文本的自动分类,在一些低资源语言领域和一些标注数据稀少的场景下有良好的实用性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一个实施例所述的小样本文本自动分类方法的整体流程示意图;
图2为本发明一个实施例所述的小样本文本自动分类方法的整体模型示意图;
图3为本发明一个实施例所述的小样本文本自动分类方法中加入标签信息的元任务示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
实施例1
参照图1,为本发明的一个实施例,提供了一种小样本文本自动分类方法,包括:
S1:将待分类的文本数据、标注数据及其标签进行元任务构建,以获取支撑集、查询集/>以及标签描述信息,并排列得到元任务的样本集合/>;
更进一步的,元任务构建包括,
构建N-Way K-Shot元任务,代表元任务需要分类的类别数目,/>代表每个类别提供的有标注数据的数目;
支撑集随机从每个类中有标注的数据中抽取条,查询集从每个类中待分类的文本数据中抽取/>条;
通过表示支撑集中第/>个类别的第/>个样本,其中;
通过表示查询集/>中第/>个类别的第/>个样本,其中;
通过表示第/>个类别的标签信息,其中/>。
应说明的是,元任务的构建是元学习的核心步骤,该过程取代了传统机器学习中的批次,在训练模型过程中以元任务为单位进行参数更新,其目的是模拟小样本的实际场景,因为在元任务中,每个类别只提供了个带标签的样本。本步骤中利用标签描述信息作为外部知识,弥补了小样本场景下标注数据稀少带来的不足。在本发明中,引入标签描述信息不仅能促进对比学习过程中样本的聚类效果,也能在原型生成时提高类别向量质量的稳定性。
S2:将样本集合经过分词处理后进行训练,以获取每个样本对应的词向量矩阵/>;
具体的,样本集合经过分词处理后可以输入至BERT预训练语言模型中进行嵌入。
更进一步的,排列得到元任务的样本集合,包括,
依据支撑集类别1-的顺序排列,在每个类别支撑集最后一个样本/>之后插入对应的类描述信息/>;
将查询集样本按通用的顺序排列,并设置在支撑集和类描述信息之后,得到元任务的所有样本集合/>。
应说明的是,生成的句向量的质量是影响小样本文本分类任务的关键,采取平均池化方法生成的句向量质量要比最大池化或直接使用BERT预训练语言模型提供的句向量的质量更高。
S3:将词向量矩阵进行平均池化得到所有样本的句向量集合/>;
更进一步的,词向量矩阵,由/>个/>维的词向量/>组成,/>经过平均池化操作计算转化为对应句向量的具体运算过程表示为:
;
其中,表示序列中非/>的标签掩码,所计算的为每个样本除/>之外的真实长度,其中/>为填充标记,负责将输入样本填充为统一长度。
S4:通过所有样本的句向量集合计算监督对比损失/>;
更进一步的,计算监督对比损失,表示为:
;
其中,为温度因子参数,/>为除本身外参与对比的同类样本数量,向量间相似度计算/>函数使用了两个向量的点积来计算向量相似度,点积后值越大,说明两个向量越相似。应说明的是,向量间相似度使用了两个向量的点积来计算向量相似度,点积后值越大,说明两个向量越相似。
同时,本发明加入标签描述信息的监督对比学习策略来训练模型,在元学习过程中引导不同类别的聚类,即学习不同类别的标签描述信息和样本之间的差异,在向量映射空间最大化分离不同类别样本(标签信息)的句向量且聚集同类样本(标签信息)的句向量。
S5:将支撑集和标签描述信息对应的句向量输入胶囊网络进行动态路由迭代计算,得到每个类别的类别向量/>;
更进一步的,将支撑集和标签描述信息对应的句向量输入胶囊网络进行动态路由迭代计算,其中/>为迭代次数,得到每个类别的类别向量/>,包括,
输入支撑集句向量与类标签信息句向量;
初始化将变量;
对于中的每个句子向量/>通过/>函数计算得到/>;
在次迭代中,执行以下操作,
使用函数计算得到/>,/>表示每个类别的权重;
将类别向量始化为0,将每个类别的句子向量加权求和得到/>;
通过函数对/>进行非线性转换得到/>;
对于每个类别向量中的元素,分别计算/>;
在退出迭代过程后,将类别向量重新计算一次,得到;
返回类别向量作为输出结果。
应说明的是,算法中操作如下式所示,该操作将向量挤压到矢量长度不超过1,同时保证了非线性转化
;
还应说明的是,利用胶囊网络的动态路由算法来迭代生成一个稳定且高质量的类别向量,缓解了随机采样支撑集带来的不利影响。
S6:计算每个查询集样本和每个类别向量之间的相似度得到一个相似度矩阵,并计算交叉熵损失/>;
更进一步的,计算每个查询集样本和每个类别向量之间的相似度得到一个相似度矩阵,并计算交叉熵损失/>,表示为:
;
其中,为相似度矩阵/>中i行j列的元素,/>为查询集的真实标签,/>为查询集样本,/>为类别向量。
S7:将监督对比损失和交叉熵损失/>加权计算得出总损失/>,使用随机梯度下降法对整个模型的参数/>进行更新。
具体的,总损失计算方法如下所示:
;
其中,为控制权重的超参数。
应说明的是,当模型训练得到最优参数θ时,停止训练,即:当模型更新参数无法获得更高的分类准确率时,此时模型获得最优参数,停止更新参数。
S8:将相似度矩阵每行值最大的维度取为1,其余为0,得到预测标签矩阵/>;
具体的,预测标签矩阵代表了查询集中的每一个样本对应的预测标签,以独热编码的形式给出,预测的类别值为1,其余为0。
应说明的是,矩阵每一行仅有一个1,其余为0,1所在列的下标即为模型预测的标签,即:预测标签矩阵给出了所有参与分类的样本的预测标签。
综上,本发明首先将有标注的样本、类别标签的描述信息、待预测的样本进行元任务的构建,模拟了小样本场景下的文本分类任务,然后使用预训练语言模型BERT将样本中的每个单词转化为词向量,并通过平均池化操作计算出每个样本的句向量。在模型训练过程中,使用监督对比学习方法学习不同类别的标签描述信息和样本之间的差异,提高句向量表示的质量,随后,本发明使用动态路由算法迭代计算出类别向量,并与查询集中的每个样本的句向量逐个计算相似度,得出概率矩阵,最终通过概率矩阵计算出查询集中样本的分类结果。
上述为本实施例的一种小样本文本自动分类方法的示意性方案。需要说明的是,该小样本文本自动分类的系统的技术方案与上述的小样本文本自动分类方法的技术方案属于同一构思,本实施例中小样本文本自动分类推系统的技术方案未详细描述的细节内容,均可以参见上述小样本文本自动分类方法的技术方案的描述。
本实施例中小样本文本自动分类系统,包括:
元任务构建模块,用于将待分类的文本数据、标注数据及其标签进行元任务构建,以获取支撑集、查询集/>以及标签描述信息,并排列得到元任务的样本集合/>;
嵌入模块,用于将样本集合经过分词处理后进行嵌入,以获取每个样本对应的词向量矩阵/>;
池化模块,用于将词向量矩阵进行平均池化得到所有样本的句向量集合;/>
第一计算模块, 用于通过所有样本的句向量集合计算监督对比损失/>;
第二计算模块,用于将支撑集和标签描述信息对应的句向量输入胶囊网络进行动态路由迭代计算,得到每个类别的类别向量/>;
第三计算模块,用于计算每个查询集样本和每个类别向量之间的相似度得到一个相似度矩阵,并计算交叉熵损失/>;
更新模块,用于将监督对比损失和交叉熵损失/>加权计算得出总损失,使用随机梯度下降法对整个模型的参数/>进行更新;
预测模块,用于将相似度矩阵每行值最大的维度取为1,其余为0,得到预测标签矩阵/>。
本实施例还提供一种计算设备,适用于小样本文本自动分类的情况,包括:
存储器和处理器;存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,实现如上述实施例提出的实现小样本文本自动分类方法。
本实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例提出的实现小样本文本自动分类方法。
本实施例提出的存储介质与上述实施例提出的实现小样本文本自动分类方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(ReadOnly ,Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
参照图1-图3,为本发明的一个实施例,提供一种示例性的应用场景进行科学论证。
如图2所示, S1:将待分类的文本数据和少数标注数据及其标签一起进行N-WayK-Shot元任务构建,得到支撑集、查询集/>以及标签描述信息。其中/>代表这个元任务需要分类的类别数目,/>代表每个类别提供的有标注数据的数目。加入标签信息的元任务示意图如图3所示。具体的,支撑集随机从每个类中有标注的数据中抽取/>条,查询集从每个类中待分类的文本数据中抽取/>条,使用/>表示支撑集中第/>个类别的第/>个样本,其中/>,同样的,使用来表示查询集/>中第/>个类别的第/>个样本,。特别的,在本文中,在每个元任务构建过程中引入了标签描述信息,使用/>来表示第/>个类别的标签信息,其中/>。按照支撑集类别1到类别N的顺序排列,在每个类别支撑集最后一个样本/>后,插入对应的类描述信息。最后将查询集样本按通用的顺序排列,放在支撑集和类描述信息之后,得到元任务的所有样本集合/>。以3-Way 2-Shot元任务为例,所有样本集合/>排列如下:
;
S2:将S1获得样本集合中的每个样本进行分词操作,处理后的样本被分割成单词序列并经过填充/>标签或裁剪多余单词来获得一个长度为/>的序列,每个单词由一个不重复编码标签来表示,并在句子头部和尾部分别插入两个特殊标签/>和/>。将经过分词处理的/>送入预训练语言模型BERT,获得每个样本对应的词向量矩阵/>,由/>个/>维的词向量/>组成,以一个句子为例,得到的词向量矩阵/>如下(句尾填充/>标签的词向量为0向量):
[[ 0.00537844 -0.10050582 -0.00396395 ... 0.00390727 -0.29724540.02910246]
[-0.00645264 -0.06177334 -0.01922229 ... 0.00397358 -0.125632930.02203918]
[-0.02826563 -0.01720362 -0.00455968 ... -0.00808981 -0.102991790.04709033]
...
[ 0. 0. 0. ... 0. 0. 0.]
[ 0. 0. 0. ... 0. 0. 0.]
[ 0. 0. 0. ... 0. 0. 0.]]
S3:将S2得到的每个词向量矩阵对这个词向量矩阵进行平均池化操作,其中/>表示序列中非/>的标签掩码,/>为每个样本除之外的真实长度。经过平均池化操作,将每个样本的词向量矩阵/>转化为对应的一个句向量/>。句向量计算方法如下:
;
将每个样本的句向量按的顺序排列,最终得到样本句向量的集合/>,共计个/>维句向量。同样以3-Way 2-Shot元任务为例,所有样本的句向量集合/>排列如下:
;
S4:通过S3中的得到的句向量集合中的句向量计算出监督对比损失/>,对比学习策略能使模型学习不同类别的标签描述信息和样本之间的差异,在向量映射空间最大化分离不同类别样本(标签信息)的句向量且聚集同类样本(标签信息)的句向量,使得模型生成更高质量的句向量。
;
S5:将S3中的得到的句向量集合中的支撑集和标签信息句向量送入胶囊网络,通过动态路由过程迭代计算出每个类别对应的类别向量/>。/>
S6:将S5得到的个类别向量分别与查询集中的句向量做点积运算,得到一个相似度矩阵也就是的概率矩阵/>。相似度矩阵/>和交叉熵损失/>的计算过程如下所示,其中/>为相似度矩阵/>中i行j列的元素,为查询集的真实标签。
;
以3-Way 2-Shot元任务为例,计算得到的为:
[[0.2997, 0.3139, 0.3865],
[0.3875, 0.1751, 0.4374],
[0.3495, 0.3009, 0.3496],
[0.2417, 0.2699, 0.4885],
[0.3211, 0.4020, 0.2769],
[0.3989, 0.2880, 0.3132]]
S8:将S3、S5中的对比监督损失和交叉熵损失/>加权计算出总损失/>,并使用总损失/>对整个模型进行随机梯度下降,训练模型。
。
S7:将S6中的矩阵每行值最大的维度取为1,其余为0,那么就得到了模型的预测标签/>,每行是一个独热编码表示属于1到/>哪个类别。根据上例中的/>计算得出的/>为:
[[0, 0, 1],
[0, 0, 1],
[0, 0, 1],
[0, 0, 1],
[0, 1, 0],
[1, 0, 0]]
实施例3
参照表1,提供了将本发明的方法与近期小样本文本分类的突出工作相比较,从而证明我方有益效果,包括,
PROTO:该方法使用支撑集的平均值作为原型,与查询集样本逐一计算相似度,并进行分类,该模型是基于度量的元学习解决小样本文本分类的经典方法。
MAML:该方法提出了基于优化的元学习,与传统的文本分类方法相比,这种方法更在意模型的泛化性能,也因此在小样本任务上表现更好。
Indu-Net:该方法使用了胶囊网络和关系网络对样本进行归纳和比较,实现了不错的性能。
HATT:该方法在PROTO的基础上引入了混合注意力机制,提高了句向量的质量。
DS-FSL:该方法使用统计的信息的分布特征,将其映射至注意力得分来获得可转移的特征,提高泛化能力。
MLADA:该方法使用对抗性网络来提取领域变异特征,以提高模型对于新任务的适应能力。
ContrastNet:该方法使用对比学习来提高句向量的质量,并加入两项正则损失,减少模型的过拟合问题。
Meta-SN:该方法引入标签信息来作为类别原型,并使用孪生网络使同类句向量更相似,帮助分类。
对比结果如表1所示。
表 1为本发明和其他小样本文本分类方法在5-Way 5-Shot 和 5-Way 1-Shot任务于四个数据集五种不同划分方法下的平均准确率(%),将最好的结果加粗表示。
表1 不同划分方法对比数据
可以发现,在5-Way 5-Shot和5-Way 1-Shot任务中,本发明在四个数据集上的平均分类准确率都达到了最高,尤其是在1-Shot任务中,发现本发明的性能与在5-Shot任务中相比,四个数据集上的平均准确率差距仅仅只有百分之三,而其余对比方法则会因支撑集样本减少而使得准确率下降百分之十左右。从单个数据集来看,除了5-Shot任务中,本发明在Reuters和Amazon数据集上的准确率稍低于Meta-SN以外,本发明的性能都强于大部分对比方法。综上所述,本发明使用监督对比学习来区分不同类别的样本并引入标签信息引导聚类过程可以达到更好的聚类效果,并且使用胶囊网络生成的更高质量的原型可以显著地提高小样本文本分类的准确率。
应说明的是,以上实施例仅用于说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种小样本文本自动分类方法,其特征在于,包括:
将待分类的文本数据、标注数据及其标签进行元任务构建,以获取支撑集、查询集以及标签描述信息,并排列得到元任务的样本集合/>;
所述元任务构建包括,
构建N-Way K-Shot元任务,代表元任务需要分类的类别数目,/>代表每个类别提供的有标注数据的数目;
支撑集随机从每个类中有标注的数据中抽取条,查询集从每个类中待分类的文本数据中抽取/>条;
通过表示支撑集中第/>个类别的第/>个样本,其中;
通过表示查询集/>中第/>个类别的第/>个样本,其中;
通过表示第/>个类别的标签信息,其中/>;
将所述样本集合经过分词处理后进行嵌入,以获取每个样本对应的词向量矩阵;
将所述词向量矩阵进行平均池化得到所有样本的句向量集合/>;其中,所述词向量矩阵/>,由/>个/>维的词向量/>组成;
通过所有样本的句向量集合计算监督对比损失/>;
将所述支撑集和标签描述信息对应的句向量输入胶囊网络进行动态路由迭代计算,得到每个类别的类别向量/>;
计算每个查询集样本和每个类别向量之间的相似度得到一个相似度矩阵,并计算交叉熵损失/>;
将所述监督对比损失和交叉熵损失/>加权计算得出总损失/>,使用随机梯度下降法对整个模型的参数/>进行更新;
将所述相似度矩阵每行值最大的维度取为1,其余为0,得到预测标签矩阵。
2.如权利要求1所述的小样本文本自动分类方法,其特征在于,所述排列得到元任务的样本集合,包括,
依据支撑集类别1-的顺序排列,在每个类别支撑集最后一个样本/>之后插入对应的类描述信息/>;
将查询集样本按通用的顺序排列,并设置在支撑集和类描述信息之后,得到元任务的所有样本集合/>。
3.如权利要求2所述的小样本文本自动分类方法,其特征在于,
所述词向量矩阵,由/>个/>维的词向量/>组成,经过平均池化操作计算转化为对应句向量的具体运算过程表示为:
;
其中,表示序列中非/>的标签掩码,/>为每个样本除/>之外的真实长度,其中/>为填充标记,负责将输入样本填充为统一长度。
4.如权利要求3所述的小样本文本自动分类方法,其特征在于,所述计算监督对比损失,表示为:
;
其中,为温度因子参数,/>为除本身外参与对比的同类样本数量,向量间相似度计算/>函数使用了两个向量的点积来计算向量相似度,点积后值越大,两个向量越相似。
5.如权利要求4所述的小样本文本自动分类方法,其特征在于,将所述支撑集和标签描述信息对应的句向量输入胶囊网络进行动态路由迭代计算,其中/>为迭代次数,得到每个类别的类别向量/>,包括:
输入支撑集句向量与类标签信息句向量;
初始化将变量;
对于中的每个句子向量/>通过/>函数计算得到/>;
在次迭代中,执行以下操作:
使用函数计算得到/>,表示每个类别的权重;
将类别向量始化为0,将每个类别的句子向量加权求和得到/>;
通过函数对/>进行非线性转换得到/>;
对于每个类别向量中的元素,分别计算/>;
在退出迭代过程后,将类别向量重新计算一次,得到/>;
返回类别向量作为输出结果。
6.如权利要求5所述的小样本文本自动分类方法,其特征在于,
计算每个查询集样本和每个类别向量之间的相似度得到一个相似度矩阵,并计算交叉熵损失/>,表示为:
;
其中,为相似度矩阵/>中/>行/>列的元素,/>为查询集的真实标签,/>为查询集样本,/>为类别向量。
7.一种应用如权利要求1所述的小样本文本自动分类方法的系统,其特征在于,包括,
元任务构建模块,用于将待分类的文本数据、标注数据及其标签进行元任务构建,以获取支撑集、查询集/>以及标签描述信息,并排列得到元任务的样本集合/>;
嵌入模块,用于将所述样本集合经过分词处理后进行嵌入,以获取每个样本对应的词向量矩阵/>;
池化模块,用于将所述词向量矩阵进行平均池化得到所有样本的句向量集合;
第一计算模块,用于通过所有样本的句向量集合计算监督对比损失/>;
第二计算模块,用于将所述支撑集和标签描述信息对应的句向量输入胶囊网络进行动态路由迭代计算,得到每个类别的类别向量/>;
第三计算模块,用于计算每个查询集样本和每个类别向量之间的相似度得到一个相似度矩阵,并计算交叉熵损失/>;
更新模块,用于将所述监督对比损失和交叉熵损失/>加权计算得出总损失,使用随机梯度下降法对整个模型的参数/>进行更新;
预测模块,用于将所述相似度矩阵每行值最大的维度取为1,其余为0,得到预测标签矩阵/>。
8.一种电子设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至6任意一项所述小样本文本自动分类方法的步骤。
9.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至6任意一项所述小样本文本自动分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410022331.9A CN117520551B (zh) | 2024-01-08 | 2024-01-08 | 一种小样本文本自动分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410022331.9A CN117520551B (zh) | 2024-01-08 | 2024-01-08 | 一种小样本文本自动分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117520551A CN117520551A (zh) | 2024-02-06 |
CN117520551B true CN117520551B (zh) | 2024-05-10 |
Family
ID=89746147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410022331.9A Active CN117520551B (zh) | 2024-01-08 | 2024-01-08 | 一种小样本文本自动分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520551B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524242A (zh) * | 2023-04-07 | 2023-08-01 | 华东师范大学 | 基于监督对比学习和多任务设置的小样本图像分类优化方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB202114806D0 (en) * | 2021-10-15 | 2021-12-01 | Samsung Electronics Co Ltd | Method and apparatus for meta few-shot leanrer |
-
2024
- 2024-01-08 CN CN202410022331.9A patent/CN117520551B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524242A (zh) * | 2023-04-07 | 2023-08-01 | 华东师范大学 | 基于监督对比学习和多任务设置的小样本图像分类优化方法 |
Non-Patent Citations (3)
Title |
---|
Graph-Based Domain Adaptation Few-Shot Learning for Hyperspectral Image Classification;Yanbing Xu 等;remote sensing;20230218;1-24 * |
Meta-Information Guided Meta-Learning for Few-Shot Relation Classification;Bowen Dong 等;Proceedings of the 28th International Conference on Computational Linguistics;20201213;1594-1605 * |
基于迁移学习的小样本织物图像自动分类与检索系统;游小荣 等;毛纺科技;20230831;第51卷(第8期);83-88 * |
Also Published As
Publication number | Publication date |
---|---|
CN117520551A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528676B (zh) | 文档级别的事件论元抽取方法 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN107871158A (zh) | 一种结合序列文本信息的知识图谱表示学习方法及装置 | |
CN107944410B (zh) | 一种基于卷积神经网络的跨领域面部特征解析方法 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN112308115B (zh) | 一种多标签图像深度学习分类方法及设备 | |
CN111931061B (zh) | 标签映射方法、装置、计算机设备及存储介质 | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN111159485A (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN112800225B (zh) | 一种微博评论情绪分类方法和系统 | |
CN113554100B (zh) | 异构图注意力网络增强的Web服务分类方法 | |
CN111738169A (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN109446423A (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN110852089A (zh) | 基于智能分词与深度学习的运维项目管理方法 | |
CN115130538A (zh) | 文本分类模型的训练方法、文本处理的方法、设备及介质 | |
CN113849653A (zh) | 一种文本分类方法及装置 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN117150026B (zh) | 文本内容多标签分类方法与装置 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN113392868A (zh) | 一种模型训练的方法、相关装置、设备及存储介质 | |
CN112163069A (zh) | 一种基于图神经网络节点特征传播优化的文本分类方法 | |
CN117520551B (zh) | 一种小样本文本自动分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |