CN116467451A - 一种文本分类方法、装置、存储介质以及电子设备 - Google Patents
一种文本分类方法、装置、存储介质以及电子设备 Download PDFInfo
- Publication number
- CN116467451A CN116467451A CN202310459815.5A CN202310459815A CN116467451A CN 116467451 A CN116467451 A CN 116467451A CN 202310459815 A CN202310459815 A CN 202310459815A CN 116467451 A CN116467451 A CN 116467451A
- Authority
- CN
- China
- Prior art keywords
- text classification
- preset
- classification model
- sample data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000003860 storage Methods 0.000 title claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 209
- 238000013145 classification model Methods 0.000 claims abstract description 170
- 230000006870 function Effects 0.000 claims description 83
- 238000012545 processing Methods 0.000 claims description 31
- 239000006185 dispersion Substances 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 31
- 238000005516 engineering process Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及智慧医疗、人工智能以及金融技术领域,公开了一种文本分类方法、装置、存储介质以及电子设备。其中,方法包括:获取若干训练样本数据;基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;基于所述目标文本分类模型对待分类文本进行分类处理,得到与所述待分类文本对应的目标文本类别。本申请的文本分类方法可以提高文本分类效率,提高文本分类准确度。
Description
技术领域
本发明涉及金融技术、人工智能以及金融技术领域,特别涉及一种文本分类方法、装置、存储介质以及电子设备。
背景技术
在实际的生产工作中,遇到的很多任务在数据集标签分布方面并不平衡,即某一类标签在数据集中占据了较高的比例。会造成训练效率低下,因为大多数样本都是简单的目标,这些样本在训练中提供给模型不太有用的信息;也会因为简单的样本数量上的极大优势会搞垮训练,使模型性能退化。目前,常见的解决这些问题的方法有执行某种形式的困难样本挖掘,实现方式就是在训练时选取困难样本或使用更复杂的采样,以及重新对样本加权等方案。针对具体的文本分类问题,可以在数据增强时针对样本不足的数据生成更多内容以补充原有数据的不足。传统的focal loss则是根据数据比例,在训练过程中针对不同类别的标签,在计算loss时给予不同的权重,让比例低的数据获取更高的loss权重从而让模型着重学习这一部分。但在实际使用中,单纯的增广数据并不能带来模型性能的提升,因为生成数据都是基于原始小量种子数据,不会发生太大的变动;而单纯根据数据分布比例基于不同权重并不能保证模型将注意力集中到正确的标签上,使得文本分类不够精准。
发明内容
有鉴于此,本发明提供了一种文本分类方法、装置、存储介质以及电子设备,主要目的在于解决目前存在文本分类不精准的问题。
为解决上述问题,本申请提供一种文本分类方法,包括:
获取若干训练样本数据;
基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;
基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;
基于所述目标文本分类模型对待分类文本进行分类处理,得到与所述待分类文本对应的目标文本类别。
可选的,所述基于各所述测试样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型,具体包括:
基于各所述训练样本数据采用所述预设模型进行数据处理,获得与各所述训练样本数据对应的第一预测标签数据;
基于各所述训练样本数据携带的初始标签数据、各所述第一预测标签数据以及第一预设损失函数对所述预设模型进行训练,生成所述初始文本分类模型。
可选的,所述基于各所述测试样本数据携带的初始标签数据、各所述预测标签数据以及第一预设损失函数对所述预设模型进行训练,生成所述初始文本分类模型,具体包括:
基于所述初始标签数据以及与各所述初始标签数据对应的预测标签数据进行计算处理,得到当前模型的第一准确率以及第一损失值;
当所述第一准确率超过第一预设阈值和/或第一损失值小于第二预设阈值时,得到所述初始文本分类模型。
可选的,所述基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型,具体包括:
基于各所述训练样本数据以及所述初始文本分类模型,获得与各所述预设类别分别对应的第二准确率;
基于目标预设类别对应的平均离散程度以及第二准确率计算获得与目标预设类别对应的初始权重值;
基于各所述第二准确率以及各所述初始权重值,采用预设第二损失函数进行损失值计算处理,获得初始文本分类模型对应的第二损失值;
基于所述第二损失值进行判断;
基于所述判断结果获得所述目标文本分类模型。
可选的,在所基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型之前,所述方法还包括:
对各所述训练样本数据进行文本语义聚类处理,获得各所述训练样本对应的离散度;
基于各所述离散度计算获得同一标签类别的训练样本的平均离散程度,得到各预设类别分别对应的平均离散度。
可选的,所述基于各所述训练样本数据以及所述初始文本分类模型,获得与各所述预设类别分别对应的第二准确率,具体包括:
在各所述训练样本数据中随机获取若干第一目标训练样本;
基于各所述第一目标训练样本数据采用所述初始文本分类模型进行数据处理,生成与各所述目标训练样本数据对应的第二预测标签数据;
基于各所述目标训练样本数据以及各所述第二预测标签数据进行计算处理,获得各预设类别分别对应的第二准确率。
可选的,所述基于所述判断结果获得所述目标文本分类模型,具体包括:
当判断结果为第二损失值大于第二预设损失值阈值时,基于所述第二损失值采用预设模型反向传播算法,对所述初始文本分类模型进行参数调整,获得当前文本分类模型;
随机获取各所述训练样本数据中的若干第二目标训练样本数据;
基于各所述第二目标训练样本数据采用第二预设损失函数循环迭代更新所述当前文本分类模型,直至当前损失值小于或者等于第二预设损失值阈值,得到所述目标文本分类模型;
当判断结果为第二损失值小于或者等于第二预设损失值阈值时,基于所述初始文本分类模型获得所述目标文本分类模型。
为解决上述问题,本申请提供一种文本分类装置,包括:
获取模块:用于获取若干训练样本数据;
初始文本分类模型训练模块:基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;
目标文本分类模型训练模块:用于基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;
数据处理模块:用于将待分类文本采用所述目标文本分类模型进行数据处理,得到与所述待分类文本对应的目标文本类别。
为解决上述问题,本申请提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述所述文本分类方法的步骤。
为解决上述问题,本申请提供一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述所述文本分类方法的步骤。
本申请通过获取若干训练样本数据;基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;将待分类文本采用所述目标文本分类模型进行数据处理,得到与所述待分类文本对应的目标文本类别。通过采用传统的交叉熵损失函数对预设模型进行初步训练,生成初始文本分类模型;采用改进的第二损失函数对初始文本分类模型进行训练,生成目标文本分类模型,以基于所述目标文本分类模型对待分类的文本进行分类,得到待分类文本对应的目标文本类别。本申请的文本分类方法可以提高文本分类的准确率以及文本分类的效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的一种文本分类方法的流程图;
图2为本申请又一实施例提供的一种文本分类方法的流程图;
图3为本申请又一实施例提供的一种文本分类装置的结构框图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
本申请实施例提供一种文本分类方法,如图1所示,包括:
步骤S101:获取若干训练样本数据;
本步骤在具体实施过程中,保险公司的保险坐席应用场景中,存在着报价意愿、增值服务、报价返现等文本类别,用户在通话过程中,往往是一长段话术,人工通过对各话术的分析为各话术标注上标签类别。本申请的文本分类方法可以应用于任意需要对文本分类的场景,本申请对应用场景不做限制。
步骤S102:基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;
本步骤在具体实施过程中,基于各所述训练样本数据采用所述预设模型进行数据处理,获得与各所述训练样本数据对应的第一预测标签数据;基于各所述训练样本数据携带的初始标签数据、各所述第一预测标签数据以及第一预设损失函数对所述预设模型进行训练,生成所述初始文本分类模型。第一预设损失函数可以采用传统的交叉熵损失函数来进行第一损失值的计算。基于所述初始标签数据以及与各所述初始标签数据对应的预测标签数据进行计算处理,得到当前模型的第一准确率以及第一损失值,当所述第一准确率超过第一预设值和/或者第一损失值小于第二预设值时,得到所述初始文本分类模型。当第一准确率小于或者等于第一预设阈值和/或者第一损失值大于或者等于第二预设阈值时,需要基于第一损失值,采用反向传播算法更新预设模型的参数,直至更新后的预设模型的损失值满足第一预设值为止,得到所述初始文本分类模型。
步骤S103:基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;
本步骤在具体实施过程中,首先:对各所述训练样本数据进行文本语义聚类处理,获得各所述训练样本在各预设类别分布的离散度;基于各所述离散度计算获得与各所述预设类别对应的平均离散度。平均离散度用于后续计算第二损失函数的权重值,然后:基于所述各所述训练样本数据以及所述初始文本分类模型,获得与各所述预设类别分别对应的第二准确率,所述第二准确率用于计算第二损失函数的权重值。基于第二损失值利用反向传播算法更新初始文本分类模型的参数数据,循环迭代的进行模型更新,直至得到的第二损失值小于活着等于第二损失值阈值时得到的模型为目标文本分类模型。
步骤S104:基于所述目标文本分类模型对待分类文本进行分类处理,得到与所述待分类文本对应的目标文本类别。
本步骤在具体实施过程中,将待分类文本输入到训练好的目标文本分类模型即可以得到与所述待分类文本对应的目标文本类别。本申请的文本分类方法有效的改善的模型在数据分布不均时只学习某些特定种类的标签的问题,通过在学习的过程中不断动态调整模型在不同类别上损失函数的权重,可以有效改善数据分类不均的问题,强制让模型学习某些数量较少的标签。
本申请通过获取若干训练样本数据;基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;将待分类文本采用所述目标文本分类模型进行数据处理,得到与所述待分类文本对应的目标文本类别。通过采用传统的交叉熵损失函数对预设模型进行初步训练,生成初始文本分类模型;采用改进的第二损失函数对初始文本分类模型进行训练,生成目标文本分类模型,以基于所述目标文本分类模型对待分类的文本进行分类,得到待分类文本对应的目标文本类别。本申请的文本分类方法可以提高文本分类的准确率以及文本分类的效率。
本申请又一实施例提供另一种文本分类方法,如图2所示,包括:
步骤S201:获取若干训练样本数据;
本步骤在具体实施过程中,可以采用人工标注的方式将若干文本进行标注处理,得到各训练样本数据,所述训练样本数据携带有类别标签。例如:预设类别包括类别A、类别B、类别C三种时,类别A的训练样本可以标注为[1,0,0],表明该样本是类别A的概率为100%,是类别B的概率为0%,是类别C的概率为0%;类别B的训练样本可以标注为[0,1,0],表明该样本是类别B的概率为100%,是类别A的概率为0%、是类别C的概率为0%;类别C的训练样本可以标注为[0,0,1],表明该样本是类别C的概率为100%,是类别B的概率为0%、是类别A的概率为0%;在保险公司的保险坐席应用场景中,存在着报价意愿、增值服务、报价返现等文本类别,用户在通话过程中,往往是一长段话术,通过本申请的文本分类方法,可以将各种话术进行分类从而判断用户需求的类别,从而可以有针对性的为用户服务,提高服务效率以及服务质量。在辅助诊疗应用场景中,在前期问诊过程中可以根据问询人的一长段话术对患者的病症以及患者目前的用药进行分析,整理用户信息,通过本申请的文本分类方法判断患者的文本类别,所述文本类别可以为咨询症状、咨询药物反应、咨询科室等文本类别,可以更好的为用户提供服务引导,提高服务效率。本申请的文本分类方法可以应用于任意需要对文本分类的场景,本申请对应用场景不做限制。
步骤S202:基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;
本申请在具体实施过程中,基于各所述训练样本数据采用所述预设模型进行数据处理,获得与各所述训练样本数据对应的第一预测标签数据;例如:将如上携带有类别标签[1,0,0]的样本输入到预设模型中,输出的标签可能是[0.6,0.3,0.1],此时说明经过预设模型数据处理后生成的第一预测标签数据的类别为类别A的概率为0.6,第一预测标签数据的类别为类别B的概率为0.3,第一预测标签数据的类别为类别C的概率为0.1。基于各所述训练样本数据携带的初始标签数据、各所述第一预测标签数据以及第一预设损失函数对所述预设模型进行训练,生成所述初始文本分类模型。第一预设损失函数可以采用传统的交叉熵损失函数来进行第一损失值的计算。最起初的在训练过程中初始的1至2个训练集中的所有样本可以正常使用交叉熵损失函数计算,让模型先进行初步学习。基于所述初始标签数据以及与各所述初始标签数据对应的预测标签数据进行计算处理,得到当前模型的第一准确率以及第一损失值。具体的,将各初始标签数据以及与各所述初始标签数据对应的预测标签数据代入交叉熵损失函数中进行计算,计算得到第一损失值,所述基于所述初始标签数据以及与各所述初始标签数据对应的预测标签数据进行计算处理,得到当前模型的第一准确率,具体计算过程为,选择预测标签数据中概率值较大的作为当前预测标签数据的预测类别,然后判断预测类别与当前测试标签数据对应的初始标签数据的类别是否相同,来统计获得第一准确率。当所述第一准确率超过第一预设值和/或者第一损失值小于第二预设值时,得到所述初始文本分类模型。当第一准确率小于或者等于第一预设阈值和/或者第一损失值大于或者等于第二预设阈值时,需要基于第一损失值,采用反向传播算法更新预设模型的参数,直至更新后的预设模型的损失值满足第一预设值为止,得到所述初始文本分类模型。
步骤S203:对各所述训练样本数据进行文本语义聚类处理,获得各所述训练样本对应的离散度;
本步骤在具体实施过程中,采用无监督的方式将训练样本数据都进行聚类,可以获取每条训练样本在对应的类别上的离散程度。可以认为第一区域的数据对模型来说是属于简单内容,所述第一区域为最中心的10%数据,模型不在上面花费过多精力也能得到较好的效果,第二区域为模型聚类结果的核心区域,第二区域可以为10%-80%范围内的数据所构成的区域,这部分数据的标注大概率是正确,且不属于特殊值,泛化性也较好,是模型需要着重学习的内容。第三区域可能是标注错误、数据极值等特殊情况,第三区域可以使最外围的10%训练数据。例如:当前iter内某一类标签的训练数据中多数都是集中在10%-80%范围之间,则赋予较高的loss权重让模型着重学习,中间10%或最外围10%数据居多则分配较低的权重从而让模型避免过拟合或削弱极值点对模型的影响。对各所述训练样本数据进行文本语义聚类处理后,可以得到各所述训练样本数据在预设类别的离散度。
步骤S204:基于各所述离散度计算获得同一标签类别的训练样本的平均离散程度,得到各预设类别分别对应的平均离散度;
本步骤在具体实施过程中,基于各所述离散度计算获得各所述预设类别分别对应的平均离散度,具体的,计算平均离散度具体数值可以采用训练样本数据的离散度之和与各训练样本数据中的同类别标签数据的离散度之和的反比,分别计算出各预设类别分别对应的平均离散度,本申请在计算损失权重的时候考虑了样本数据的离散度,在数据质量不是特别高的情况下有效改善标注错误、数据极值等问题,有效提升了模型的泛化性,提升了模型的整体性能。
步骤S205:基于各所述训练样本数据以及所述初始文本分类模型,获得与各所述预设类别分别对应的第二准确率;
本步骤在具体实施过程中,在各所述训练样本数据中随机获取若干目标训练样本;基于各所述目标训练样本数据采用所述初始文本分类模型进行数据处理,生成与各所述目标训练样本数据对应的第二预测标签数据;基于各所述目标训练样本数据以及各所述第二预测标签数据进行计算处理,获得各预设类别分别对应的第二准确率。
步骤S206:基于目标预设类别对应的平均离散程度以及第二准确率计算获得与目标预设类别对应的初始权重值;
本步骤在具体实施过程中,基于目标预设类别对应的平均离散程度以及第二准确率计算获得与目标预设类别对应的初始权重值,可以用公式:1-目标预设类别平均离散程度*目标预设类别第二准确率来表示目标预设类别对应的初始权重值,从而得到各预设类别分别对应的初始权重值。通过这一改进的损失函数权重的计算方法,有效的改善模型在数据分布不均时只学习某些特定种类的标签的问题,通过在学习的过程中不断动态调整模型在不同类别上损失函数的权重,可以有效改善数据分类不均的问题。
步骤S207:基于各所述初始权重值、各目标训练样本数据以及各第二预测标签数据,采用预设第二损失函数进行损失值计算处理,获得初始文本分类模型对应的第二损失值;
本申请在具体实施过程中,所述第二损失函数可以采用Focalloss损失函数,本申请对Focalloss损失函数的权重值的计算方法进行了改进,使得分类过程中有效的改善模型在数据分布不均时只学习某些特定种类的标签的问题,通过在学习的过程中不断动态调整模型在不同类别上损失函数的权重,可以有效改善数据分类不均的问题,强制让模型学习某些数量较少的标签。参考模型的动态学习率,通过动态的损失函数,也能避免模型陷入局部最优的问题。同时在分配权重时也考虑到了数据的离散程度,在数据质量不是特别高的情况下有效改善标注错误、数据极值等问题,有效提升了模型的泛化性,提升了模型的整体性能。具体的,将各所述初始权重值、各目标训练样本数据以及各第二预测标签数据代入到第二损失函数中进行计算处理,得到所述第二损失值。
步骤S208:基于所述第二损失值进行判断;基于所述判断结果获得所述目标文本分类模型;
本步骤在具体实施过程中,当判断结果为第二损失值大于第二预设损失值阈值时,基于所述第二损失值采用预设模型反向传播算法,对所述初始文本分类模型进行参数调整,获得当前文本分类模型;随机获取各所述训练样本数据中的若干第二目标训练样本数据;基于各所述第二目标训练样本数据采用第二预设损失函数循环迭代更新所述当前文本分类模型,直至当前损失值小于或者等于第二预设损失值阈值,得到所述目标文本分类模型;当判断结果为第二损失值小于或者等于第二预设损失值阈值时,基于所述初始文本分类模型获得所述目标文本分类模型。
步骤S209:基于所述目标文本分类模型对待分类文本进行分类处理,得到与所述待分类文本对应的目标文本类别。
本步骤在具体实施过程中,将待分类文本输入到训练好的目标文本分类模型即可以得到与所述待分类文本对应的目标文本类别。
本申请通过获取若干训练样本数据;基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;采用传统的交叉熵损失函数计算损失值,让模型进行初步学习。对各所述训练样本数据进行文本语义聚类处理,获得各所述预设类别分别对应的平均离散度;基于各所述训练样本数据以及所述初始文本分类模型,获得与各所述预设类别分别对应的第二准确率;基于目标预设类别对应的平均离散程度以及第二准确率计算获得与目标预设类别对应的初始权重值;基于各所述初始权重值、各目标训练样本数据以及各第二预测标签数据,采用预设第二损失函数进行损失值计算处理,获得初始文本分类模型对应的第二损失值;基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;本申请中的第二损失函数是在传统的Focalloss损失函数的基础上,对权重的计算进行了改进。通过这一改进的focalloss,有效的改善的模型在数据分布不均时只学习某些特定种类的标签的问题,通过在学习的过程中不断动态调整模型在不同类别上损失函数的权重,可以有效改善数据分类不均的问题。基于所述第二损失值进行判断;基于所述判断结果获得所述目标文本分类模型;将待分类文本采用所述目标文本分类模型进行数据处理,得到与所述待分类文本对应的目标文本类别。本申请的文本分类方法可以提高文本分类的准确率以及文本分类的效率。
本申请另一实施例提供一种文本分类装置,如图3所示,包括:
获取模块1:用于获取若干训练样本数据;
初始文本分类模型训练模块2:基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;
目标文本分类模型训练模块3:用于基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;
分类模块4:用于基于所述目标文本分类模型对待分类文本进行分类处理,得到与所述待分类文本对应的目标文本类别。
在具体实施过程中,所述初始文本分类模型训练模块2具体用于:基于各所述训练样本数据采用所述预设模型进行数据处理,获得与各所述训练样本数据对应的第一预测标签数据;基于各所述训练样本数据携带的初始标签数据、各所述第一预测标签数据以及第一预设损失函数对所述预设模型进行训练,生成所述初始文本分类模型。
在具体实施过程中,所述初始文本分类模型训练模块2还用于:基于所述初始标签数据以及与各所述初始标签数据对应的预测标签数据进行计算处理,得到当前模型的第一准确率以及第一损失值;当所述第一准确率超过第一预设阈值和/或第一损失值小于第二预设阈值时,得到所述初始文本分类模型。
在具体实施过程中,所述目标文本分类模型训练模块3具体用于:基于各所述训练样本数据以及所述初始文本分类模型,获得与各所述预设类别分别对应的第二准确率;基于目标预设类别对应的平均离散程度以及第二准确率计算获得与目标预设类别对应的初始权重值;基于各所述第二准确率以及各所述初始权重值,采用预设第二损失函数进行损失值计算处理,获得初始文本分类模型对应的第二损失值;基于所述第二损失值进行判断;基于所述判断结果获得所述目标文本分类模型。
在具体实施过程中,所述文本分类装置还包括:语义聚类模块,所述予以聚类模块具体用于:对各所述训练样本数据进行文本语义聚类处理,获得各所述训练样本对应的离散度;基于各所述离散度计算获得同一标签类别的训练样本的平均离散程度,得到各预设类别分别对应的平均离散度。
在具体实施过程中,所述目标文本分类模型训练模块3还用于:在各所述训练样本数据中随机获取若干第一目标训练样本;基于各所述第一目标训练样本数据采用所述初始文本分类模型进行数据处理,生成与各所述目标训练样本数据对应的第二预测标签数据;基于各所述目标训练样本数据以及各所述第二预测标签数据进行计算处理,获得各预设类别分别对应的第二准确率。
在具体实施过程中,所述目标文本分类模型训练模块3还用于:当判断结果为第二损失值大于第二预设损失值阈值时,基于所述第二损失值采用预设模型反向传播算法,对所述初始文本分类模型进行参数调整,获得当前文本分类模型;随机获取各所述训练样本数据中的若干第二目标训练样本数据;基于各所述第二目标训练样本数据采用第二预设损失函数循环迭代更新所述当前文本分类模型,直至当前损失值小于或者等于第二预设损失值阈值,得到所述目标文本分类模型;当判断结果为第二损失值小于或者等于第二预设损失值阈值时,基于所述初始文本分类模型获得所述目标文本分类模型。
本申请通过获取若干训练样本数据;基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;将待分类文本采用所述目标文本分类模型进行数据处理,得到与所述待分类文本对应的目标文本类别。通过采用传统的交叉熵损失函数对预设模型进行初步训练,生成初始文本分类模型;采用改进的第二损失函数对初始文本分类模型进行训练,生成目标文本分类模型,以基于所述目标文本分类模型对待分类的文本进行分类,得到待分类文本对应的目标文本类别。本申请的文本分类方法可以提高文本分类的准确率以及文本分类的效率。
本申请另一实施例提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
步骤一、获取若干训练样本数据;
步骤二、基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;
步骤三、基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;
步骤四、基于所述目标文本分类模型对待分类文本进行分类处理,得到与所述待分类文本对应的目标文本类别。
上述方法步骤的具体实施过程可参见上述任意文本分类方法的实施例,本实施例在此不再重复赘述。
本申请通过获取若干训练样本数据;基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;将待分类文本采用所述目标文本分类模型进行数据处理,得到与所述待分类文本对应的目标文本类别。通过采用传统的交叉熵损失函数对预设模型进行初步训练,生成初始文本分类模型;采用改进的第二损失函数对初始文本分类模型进行训练,生成目标文本分类模型,以基于所述目标文本分类模型对待分类的文本进行分类,得到待分类文本对应的目标文本类别。本申请的文本分类方法可以提高文本分类的准确率以及文本分类的效率。
本申请另一实施例提供一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现如下方法步骤:
步骤一、获取若干训练样本数据;
步骤二、基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;
步骤三、基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;
步骤四、基于所述目标文本分类模型对待分类文本进行分类处理,得到与所述待分类文本对应的目标文本类别。
上述方法步骤的具体实施过程可参见上述任意文本分类方法的实施例,本实施例在此不再重复赘述。
本申请通过获取若干训练样本数据;基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;将待分类文本采用所述目标文本分类模型进行数据处理,得到与所述待分类文本对应的目标文本类别。通过采用传统的交叉熵损失函数对预设模型进行初步训练,生成初始文本分类模型;采用改进的第二损失函数对初始文本分类模型进行训练,生成目标文本分类模型,以基于所述目标文本分类模型对待分类的文本进行分类,得到待分类文本对应的目标文本类别。本申请的文本分类方法可以提高文本分类的准确率以及文本分类的效率。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。
Claims (10)
1.一种文本分类方法,其特征在于,包括:
获取若干训练样本数据;
基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;
基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;
基于所述目标文本分类模型对待分类文本进行分类处理,得到与所述待分类文本对应的目标文本类别。
2.如权利要求1所述的方法,其特征在于,所述基于各所述测试样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型,具体包括:
基于各所述训练样本数据采用所述预设模型进行数据处理,获得与各所述训练样本数据对应的第一预测标签数据;
基于各所述训练样本数据携带的初始标签数据、各所述第一预测标签数据以及第一预设损失函数对所述预设模型进行训练,生成所述初始文本分类模型。
3.如权利要求2所述的方法,其特征在于,所述基于各所述测试样本数据携带的初始标签数据、各所述预测标签数据以及第一预设损失函数对所述预设模型进行训练,生成所述初始文本分类模型,具体包括:
基于所述初始标签数据以及与各所述初始标签数据对应的预测标签数据进行计算处理,得到当前模型的第一准确率以及第一损失值;
当所述第一准确率超过第一预设阈值和/或第一损失值小于第二预设阈值时,得到所述初始文本分类模型。
4.如权利要求1所述的方法,其特征在于,所述基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型,具体包括:
基于各所述训练样本数据以及所述初始文本分类模型,获得与各所述预设类别分别对应的第二准确率;
基于目标预设类别对应的平均离散程度以及第二准确率计算获得与目标预设类别对应的初始权重值;
基于各所述第二准确率以及各所述初始权重值,采用预设第二损失函数进行损失值计算处理,获得初始文本分类模型对应的第二损失值;
基于所述第二损失值进行判断;
基于所述判断结果获得所述目标文本分类模型。
5.如权利要求4所述的方法,其特征在于,在所基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型之前,所述方法还包括:
对各所述训练样本数据进行文本语义聚类处理,获得各所述训练样本对应的离散度;
基于各所述离散度计算获得同一标签类别的训练样本的平均离散程度,得到各预设类别分别对应的平均离散度。
6.如权利要求4所述的方法,其特征在于,所述基于各所述训练样本数据以及所述初始文本分类模型,获得与各所述预设类别分别对应的第二准确率,具体包括:
在各所述训练样本数据中随机获取若干第一目标训练样本;
基于各所述第一目标训练样本数据采用所述初始文本分类模型进行数据处理,生成与各所述目标训练样本数据对应的第二预测标签数据;
基于各所述目标训练样本数据以及各所述第二预测标签数据进行计算处理,获得各预设类别分别对应的第二准确率。
7.如权利要求5所述的方法,其特征在于,所述基于所述判断结果获得所述目标文本分类模型,具体包括:
当判断结果为第二损失值大于第二预设损失值阈值时,基于所述第二损失值采用预设模型反向传播算法,对所述初始文本分类模型进行参数调整,获得当前文本分类模型;
随机获取各所述训练样本数据中的若干第二目标训练样本数据;
基于各所述第二目标训练样本数据采用第二预设损失函数循环迭代更新所述当前文本分类模型,直至当前损失值小于或者等于第二预设损失值阈值,得到所述目标文本分类模型;
当判断结果为第二损失值小于或者等于第二预设损失值阈值时,基于所述初始文本分类模型获得所述目标文本分类模型。
8.一种文本分类装置,其特征在于,包括:
获取模块:用于获取若干训练样本数据;
初始文本分类模型训练模块:基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练,生成初始文本分类模型;
目标文本分类模型训练模块:用于基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练,生成目标文本分类模型;
分类模块:用于基于所述目标文本分类模型对待分类文本进行分类处理,得到与所述待分类文本对应的目标文本类别。
9.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-7任一项所述文本分类方法的步骤。
10.一种电子设备,其特征在于,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述权利要求1-7任一项所述文本分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310459815.5A CN116467451A (zh) | 2023-04-18 | 2023-04-18 | 一种文本分类方法、装置、存储介质以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310459815.5A CN116467451A (zh) | 2023-04-18 | 2023-04-18 | 一种文本分类方法、装置、存储介质以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116467451A true CN116467451A (zh) | 2023-07-21 |
Family
ID=87182285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310459815.5A Pending CN116467451A (zh) | 2023-04-18 | 2023-04-18 | 一种文本分类方法、装置、存储介质以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116467451A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173493A (zh) * | 2023-11-02 | 2023-12-05 | 腾讯科技(深圳)有限公司 | 分类模型的训练方法、装置、设备、程序产品及存储介质 |
-
2023
- 2023-04-18 CN CN202310459815.5A patent/CN116467451A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173493A (zh) * | 2023-11-02 | 2023-12-05 | 腾讯科技(深圳)有限公司 | 分类模型的训练方法、装置、设备、程序产品及存储介质 |
CN117173493B (zh) * | 2023-11-02 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 分类模型的训练方法、装置、设备、程序产品及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8498950B2 (en) | System for training classifiers in multiple categories through active learning | |
US11704500B2 (en) | Techniques to add smart device information to machine learning for increased context | |
CN114492363B (zh) | 一种小样本微调方法、系统及相关装置 | |
CN112395487B (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
Yang et al. | Margin optimization based pruning for random forest | |
CN115687610A (zh) | 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 | |
US20230368003A1 (en) | Adaptive sparse attention pattern | |
US11983202B2 (en) | Computer-implemented method for improving classification of labels and categories of a database | |
CN116467451A (zh) | 一种文本分类方法、装置、存储介质以及电子设备 | |
CN112270334A (zh) | 一种基于异常点暴露的少样本图像分类方法及系统 | |
CN109902174B (zh) | 一种基于方面依赖的记忆网络的情感极性检测方法 | |
CN116245139B (zh) | 图神经网络模型训练方法和装置、事件检测方法和装置 | |
CN116630714A (zh) | 多标签识别的类别自适应标签发现与噪声拒绝方法及设备 | |
CN109284376A (zh) | 基于领域自适应的跨领域新闻数据情感分析方法 | |
CN112507137B (zh) | 开放环境下基于粒度感知的少样本关系抽取方法及应用 | |
CN116361449A (zh) | 多标签分类方法、装置、设备及计算机可读存储介质 | |
CN112364662A (zh) | 一种基于神经网络的意图识别方法及电子装置 | |
CN114529191B (zh) | 用于风险识别的方法和装置 | |
CN116304058B (zh) | 企业负面信息的识别方法、装置、电子设备及存储介质 | |
CN118506113B (zh) | 一种基于深度学习的图像识别模型训练方法及系统 | |
CN110738243B (zh) | 一种自适应无监督特征选择方法 | |
CN115329983A (zh) | 基于置信度分析的黑盒模型分类方法 | |
CN111651608A (zh) | 一种工单分类方法、装置、及计算机存储介质 | |
Singh et al. | Enhancing clustering performance: an analysis of the clustering based on arithmetic optimization algorithm | |
CN118606449A (zh) | 自然语言处理模型优化方法、装置、设备、存储介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |