CN117076672A - 文本分类模型的训练方法、文本分类方法及装置 - Google Patents
文本分类模型的训练方法、文本分类方法及装置 Download PDFInfo
- Publication number
- CN117076672A CN117076672A CN202311016423.8A CN202311016423A CN117076672A CN 117076672 A CN117076672 A CN 117076672A CN 202311016423 A CN202311016423 A CN 202311016423A CN 117076672 A CN117076672 A CN 117076672A
- Authority
- CN
- China
- Prior art keywords
- text
- classification model
- trained
- text classification
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 155
- 238000012549 training Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 72
- 239000013598 vector Substances 0.000 claims abstract description 48
- 238000003860 storage Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000007635 classification algorithm Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004062 sedimentation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供体一种文本分类模型的训练方法、文本分类方法及装置,包括:利用带标签的第一文本样本对第一文本分类模型进行训练,以获得训练好的第一文本分类模型;将无标签的第二文本样本输入训练好的第一文本分类模型,预测得到与第二文本样本对应的伪标签;利用第二文本样本对第二文本分类模型中的编码器进行对比学习,获得训练好的编码器;将第二文本样本输入至训练好的编码器,获得文本特征向量;利用文本特征向量以及伪标签对第二文本分类模型中的分类器进行训练,获得训练好的分类器。本申请能够降低长尾数据这种因为数据质量差所带来的模型性能影响,为提升分类性能,并且充分利用了大量的无标签数据,降低人工标注成本。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本分类模型的训练方法、文本分类方法及装置。
背景技术
随着“互联网+政务服务”的发展,多省市推出政民互动平台,整合了政府、市场等各级各类民意反馈。如何高效对这些海量的留言文本数据进行正确分类,是后续精准推送相关部门和处理的前提。
然而,由于政府留言文本具有语境性强、规范性弱等特性,因而存在数据质量较差、分类类别多、类别不平衡的长尾等问题,最后导致很多分类模型对政府留言文本分类不佳。除此之外,近年来,由于数据网民留言量的增长速度暴增,远远超过人工处理速度,存在海量的无标签数据,这些无标签数据没有被充分利用起来。
发明内容
为克服相关技术中存在的问题,本说明书提供了一种文本分类模型的训练方法、文本分类方法及装置。
第一方面,本申请提供一种文本分类模型的训练方法,包括:
利用带标签的第一文本样本对第一文本分类模型进行训练,以获得训练好的第一文本分类模型;
将无标签的第二文本样本输入所述训练好的第一文本分类模型,预测得到与所述第二文本样本对应的伪标签;
利用所述第二文本样本对第二文本分类模型中的编码器进行对比学习,获得训练好的编码器;
将所述第二文本样本输入至所述训练好的编码器,获得文本特征向量;
利用所述文本特征向量以及伪标签对所述第二文本分类模型中的分类器进行训练,获得训练好的分类器。
可选的,所述利用所述第二文本样本对第二文本分类模型中的编码器进行对比学习,获得训练好的编码器,包括:
将同一第二文本样本以不同的掩码输入第二文本分类模型中的编码器,获得正样本,并将所述第二文本样本中除去所述正样本之外的样本作为负样本;
基于对比学习损失函数,利用所述正样本以及所述负样本对所述编码器进行训练,获得训练好的编码器。
可选的,所述编码器至少为Word2Vec、GloVe、BERT或Sentence-BERT中的一种,所述分类器至少为RNN、LSTM、TextCNN或FastText中的一种。
可选的,在所述利用带标签的第一文本样本对第一文本分类模型进行训练,以获得训练好的第一文本分类模型之前,方法还包括:
对第一文本样本以及第二文本样本进行数据清洗以及数据增强,获得预处理后的第一文本样本以及预处理后的第二文本样本。
可选的,所述第一文本样本与所述第二文本样本为历史政务留言文本数据。
第二方面,本申请还提供一种文本分类方法,包括:
获取待处理文本;
将所述待处理文本输入预先训练好的第二文本分类模型,通过所述预先训练好的第二文本分类模型中的编码器对所述待处理文本进行编码,获得文本特征向量;基于所述文本特征向量,通过所述预先训练好的第二文本分类模型中的分类器进行分类预测,获得文本类别;
其中,所述预先训练好的第二文本分类模型通过如上述的文本分类模型的训练方法训练得到。
可选的,所述基于所述文本特征向量,通过所述预先训练好的第二文本分类模型中的分类器进行分类预测,获得文本类别包括:
基于所述文本特征向量,通过所述预先训练好的第二文本分类模型中的分类器进行分类预测,获得多个候选类别;
利用专家经验从所述多个候选类别中确定最终的文本类别。
可选的,在获得文本类别之后,方法还包括:
利用所述待处理文本以及对应的文本类别对所述预先训练好的第二文本分类模型进行微调,获得新的第二文本分类模型。
第三方面,本申请还提供一种文本分类模型的训练装置,包括:
第一模型训练模块,用于利用带标签的第一文本样本对第一文本分类模型进行训练,以获得训练好的第一文本分类模型;
伪标签获取模块,用于将无标签的第二文本样本输入所述训练好的第一文本分类模型,预测得到与所述第二文本样本对应的伪标签;
对比学习模块,用于利用所述第二文本样本对第二文本分类模型中的编码器进行对比学习,获得训练好的编码器;
编码模块,用于将所述第二文本样本输入至所述训练好的编码器,获得文本特征向量;
分类器训练模块,用于利用所述文本特征向量以及伪标签对所述第二文本分类模型中的分类器进行训练,获得训练好的分类器。
第四方面,本申请还提供一种文本分类装置,包括:
文本获取模块,用于获取待处理文本;
文本分类模块,用于将所述待处理文本输入预先训练好的第二文本分类模型,通过所述预先训练好的第二文本分类模型中的编码器对所述待处理文本进行编码,获得文本特征向量;基于所述文本特征向量,通过所述预先训练好的第二文本分类模型中的分类器进行分类预测,获得文本类别;
其中,所述预先训练好的第二文本分类模型通过如上述的文本分类模型的训练装置训练得到。
第五方面,本申请还提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的文本分类模型的训练方法或上述的文本分类方法。
第六方面,本申请还提供一种电子设备,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现上述的文本分类模型的训练方法或上述的文本分类方法。
本申请提供的文本分类模型的训练方法、文本分类方法及装置,其中,文本分类模型的训练方法通过带标签的第一文本样本训练得到第一文本分类模型,进而利用训练好的第一文本分类模型对无标签的第二文本样本进行预测获得伪标签,并利用无标签的第二文本样本对编码器进行对比学习,基于训练好的编码器获取第二文本样本的文本特征向量,利用之前预测得到的伪标签以及文本特征向量对分类器进行训练,从而获得训练好的第二文本分类模型,该训练好的第二文本分类模型包括训练好的编码器以及训练好的分类器。在半监督训练的基础上又通过对比学习这种无监督的学习方式获得训练好的第二文本分类模型,从而降低了长尾数据这种因为数据质量差所带来的模型性能影响,为提升分类性能,并且充分利用了大量的无标签数据,降低人工标注成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请示出的文本分类模型的训练方法的流程示意图;
图2为本申请示出的数据处理的流程示意图;
图3为本申请示出的文本分类的流程示意图之一;
图4为本申请示出的文本分类的流程示意图之二;
图5为本申请示出的文本分类模型的训练装置的结构框图;
图6为本申请示出的文本分类装置的结构框图之一;
图7为本申请示出的文本分类装置的结构框图之二;
图8为本申请示出的电子设备的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。除非另作定义,本申请使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请说明书以及权利要求书中使用的“第一”“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。“多个”或者“若干”表示两个及两个以上。“包括”或者“包含”等类似词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同,并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而且可以包括电性的连接,不管是直接的还是间接的。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
本申请提供一种文本分类模型的训练方法、文本分类方法及装置。下面结合附图,对本申请进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
图1为本申请示出的文本分类模型的训练方法的流程示意图,如图1所示,一种文本分类模型的训练方法,包括:
步骤S101,利用带标签的第一文本样本对第一文本分类模型进行训练,以获得训练好的第一文本分类模型。
在本步骤中,利用少量的带有标签的第一文本样本以及对应的标签信息对预先构建的第一文本分类模型进行训练,从而获得训练好的第一文本分类模型。
其中,预先构建的第一文本分类模型可以是FastText、TextCNN、RCNN、HAN、BERT系列等等常用的文本分类算法,对此不做限定。
优选地,第一文本分类模型为基于BERT的语言表征模型。
第一文本样本与第二文本样本为同一领域的数据,可以是医疗数据、政务留言、电商评论等等,对此不做限定。
步骤S102,将无标签的第二文本样本输入所述训练好的第一文本分类模型,预测得到与所述第二文本样本对应的伪标签。
在本步骤中,将大量的没有标签的第二文本样本输入训练好的第一文本分类模型中,利用训练好的第一文本分类模型预测得到第二文本样本对应的类别,将预测得到的类别作为伪标签。
需要说明的是,训练好的第一文本分类模型为模型性能符合一定要求(根据专家经验判定是否满足要求)的模型,从而保证第二文本样本的预测具有一定的准确性。
步骤S103,利用所述第二文本样本对第二文本分类模型中的编码器进行对比学习,获得训练好的编码器。
为了充分利用大量无标签的第二文本样本,且针对长尾数据这种数据分布不均衡特性,在本步骤中,通过对比学习来最大化相关样本之间的相似性并最小化不相关样本之间的相似性来学习数据表示,从而充分利用了大量无标签数据,并且降低了长尾数据对分类模型性能的影响。通过对比学习这种无监督方式对第二文本分类模型中的编码器进行训练,从而服务于后续的分类器。
需要说明的是,第二文本分类模型包括编码器与分类器,其中,编码器可以是以BERT为基础的各种常用的改进模型,也可以是Word2vec、Glove等其他常用的文本编码器,本申请对此不做限定。
优选地,第二文本分类模型为基于Sentence-BERT的语言表征模型。
步骤S104,将所述第二文本样本输入至所述训练好的编码器,获得文本特征向量。
在本步骤中,利用训练好的编码器对第二文本样本进行编码,获得文本特征向量。
步骤S105,利用所述文本特征向量以及伪标签对所述第二文本分类模型中的分类器进行训练,获得训练好的分类器。
在本步骤中,将文本特征向量输入分类器,从而预测得到与文本特征向量对应的预测类别,进而基于预测类别与对应的伪标签以及分类器相关的损失函数对分类器中的网络参数进行训练更新,在达到预设的模型训练停止条件(分类器收敛、预设的训练次数等等)时,获得训练好的分类器。
大部分城市留言的分类工作主要由政府办公室承接,依赖人工分析,去进行手动分类,再转递到相应的责任部门,非常耗时耗力,同时也存在分类错误的情况,需要智能化的工具和系统来助力,让问题及时解决,维护社会稳定。
其中,分类器可以是FastText、TextCNN、RNN、LSTM等常用的文本分类模型,优选地,分类器为TextCNN。
本申请实施例提供的文本分类模型的训练方法,先通过带标签的第一文本样本训练得到第一文本分类模型,进而利用训练好的第一文本分类模型对无标签的第二文本样本进行预测获得伪标签,并利用无标签的第二文本样本对编码器进行对比学习,基于训练好的编码器获取第二文本样本的文本特征向量,利用之前预测得到的伪标签以及文本特征向量对分类器进行训练,从而获得训练好的第二文本分类模型,该训练好的第二文本分类模型包括训练好的编码器以及训练好的分类器。在半监督训练的基础上又通过对比学习这种无监督的学习方式获得训练好的第二文本分类模型,从而降低了长尾数据这种因为数据质量差所带来的模型性能影响,为提升分类性能,并且充分利用了大量的无标签数据,降低人工标注成本。
进一步地,所述利用所述第二文本样本对第二文本分类模型中的编码器进行对比学习,获得训练好的编码器,包括:
将同一第二文本样本以不同的掩码输入第二文本分类模型中的编码器,获得正样本,并将所述第二文本样本中除去所述正样本之外的样本作为负样本。
基于对比学习损失函数,利用所述正样本以及所述负样本对所述编码器进行训练,获得训练好的编码器。
具体地,将同一第二文本样本以不同的dropout mask(丢弃掩码)输入到编码器中两次,由于两次的dropout mask不同,每次编码器输出的向量均不相同,两种在语义上有细微的差别,同一第二文本样本的两个向量为正样本,而其他第二文本样本的向量均被划分为负样本。
在代码实现训练过程中,同一个batch(批处理)内,将相同的句子复制2遍组成训练数据,举例来说,初始输入一个句子sents=[a,b],对每一个样本复制一份,得到sents’=[a,a,b,b],sents’输入到训练好的编码器中,同一batch内的数据dropout都会生成一个不同的dropout masks,根据不同的dropout masks得到向量(embedding),即batch_emb=[a1,a2,b1,b2],这样的向量构成了同一个样本之间的正样本对。Batch标签生成如表1所示。标签为1的地方是相同句子不同embedding对应的位置,对角线上的0表示的是数据本身,不参与相似度计算,也不参与模型的更新,需要mask,非对角线表示的正负样本的组合。
表1对比学习过程中样本示意表
a1 | a2 | b1 | b2 | |
a1 | 0 | 1 | 0 | 0 |
a2 | 1 | 0 | 0 | 0 |
b1 | 0 | 0 | 0 | 1 |
b2 | 0 | 0 | 1 | 0 |
其中,对比学习的损失函数L如下:
式中,与/>分别为同一第二文本样本以不同的掩码输入编码器两次后所得到的两个向量,即为正样本,/>为负样本,i、j为不同样本,N为batch的大小,τ为温度系数,该温度系数相当于在指数函数上做了一个线性变换,用来最小化损失函数。
本申请实施例提供的文本分类模型的训练方法,通过对比学习对编码器进行训练,从而能够从大量的无标签数据中学习得到数据本身的通用知识,在后续的应用中,训练好的编码器能够让语义相近的句子所对应的embedding向量距离更近,从而有利于分类器的分类,提升分类准确性。
进一步地,在所述利用带标签的第一文本样本对第一文本分类模型进行训练,以获得训练好的第一文本分类模型之前,方法还包括:
对第一文本样本以及第二文本样本进行数据清洗以及数据增强,获得预处理后的第一文本样本以及预处理后的第二文本样本。其中,所述第一文本样本与所述第二文本样本为历史政务留言文本数据。
如图2所示,对第一文本样本以及第二文本样本进行数据处理,其中,数据清洗是根据第一文本样本和第二文本样本的数据特性(即历史政务留言文本的数据特性),进行正则过滤部分特定词汇,从如下方面进行:特殊字符的过滤,此处的特殊字符是指留言文本存在大量的空格、换行、\t等特殊字符,这些字符对于分类并没有帮助,需要滤除;滤除留言文本中日期、网址、邮箱、手机号、脱敏地名等噪声数据;滤除重复的留言数据。
数据增强则是主要针对样本类别分布不均衡的问题进行数据扩充,具体是对于类别较少的数据采用上采样处理,并对上采样部分数据进行同义词替换,从而实现数据增强。
如图3所示,本申请还提供一种文本分类方法,该文本分类方法包括如下步骤:
步骤S301,获取待处理文本。
在本步骤中,可以是通过预设的API接口、WEB网页等获取用户提供的待处理文本,可以是政务留言、用户的商品评论、专业课问题等等,对此不做限定。
步骤S302,将所述待处理文本输入预先训练好的第二文本分类模型,通过所述预先训练好的第二文本分类模型中的编码器对所述待处理文本进行编码,获得文本特征向量;基于所述文本特征向量,通过所述预先训练好的第二文本分类模型中的分类器进行分类预测,获得文本类别。
其中,所述预先训练好的第二文本分类模型通过如上述的文本分类模型的训练方法训练得到。
虽然,现有文本分类算法中有些会采用机器学习,如随机森林、支持向量机、基于LDA(Latent Dirichlet Allocation隐狄利克雷分配)主题模型的文本分类模型,上述基于机器学习的文本分类算法比较依赖特征工程的算法搭建流程,在搭建过程还需要考虑特征选择。还有些基于深度学习的文本分类算法,该类文本分类算法需要有监督学习,人员标注成本也较高。
近几年主流文本分类算法是在经过Pre-train(预训练)的大模型(如BERT)基础上使用一个线性分类器进行分类,但是线性分类器的鲁棒性较差,容易被TextFooler或BertAttack对抗方式所愚弄。
为了克服上述现有的文本分类算法存在的鲁棒性差的缺陷,同时也为了进一步提升分类准确性,本申请中的编码器选用Sentence-BERT,分类器选用TextCNN。具体是将待处理文本输入编码器Sentence-BERT中,并将Sentence-BERT最后一层平均池化,从而获得文本特征向量,并将文本特征向量输入至分类器中,预测得到文本分类。
更进一步地,假若待处理文本为政务留言文本,则在获取政务留言文本对应的文本类别之后,将政务留言文本发送至相关的部门进行专业回复;也可以将政务留言文本输入至相关问题的文本答复模型中,从而获得自动回复的答案,其中,文本答复模型基于历史政务留言文本以及历史答复训练得到;还可以利用常用的问答系统完成政务留言文本的答复。
进一步地,所述基于所述文本特征向量,通过所述预先训练好的第二文本分类模型中的分类器进行分类预测,获得文本类别包括:
基于所述文本特征向量,通过所述预先训练好的第二文本分类模型中的分类器进行分类预测,获得多个候选类别。
利用专家经验从所述多个候选类别中确定最终的文本类别。
为了进一步提升分类准确性以及模型性能,本申请还充分利用专家经验。具体实现方式为:利用第二文本分类模型输出不同概率的类别,并为专家展示预设数量(根据需求设定,比如3个、5个等等)的候选类别(按照概率大小确定的候选类别,展示概率最大的3个、5个等),专家根据待处理文本以及专家经验从候选类别中确定最准确的类别作为最终的文本类别。
进一步地,在获得文本类别之后,方法还包括:
利用所述待处理文本以及对应的文本类别对所述预先训练好的第二文本分类模型进行微调,获得新的第二文本分类模型。
为了不断提升第二文本分类模型的性能,还将待处理文本以及基于专家经验确定的文本类别对训练好的第二文本分类模型进行微调。除此之外,也可以利用待处理文本以及文本类别对第一文本分类模型进行微调,以提升第一文本分类模型的性能。
如图4所示,本申请还提供一种文本分类模型的训练方法,该方法包括如下步骤:
步骤S401,利用带标签的第一文本样本训练第一文本分类模型f0;
步骤S402,评估并记录第一文本分类模型f0效果;
步骤S403,将无标签的第二文本样本输入训练好的第一文本分类模型f0得到伪标签样本,并将伪标签样本存储至候选数据集库中;
步骤S404,从候选数据集库中获取一批伪标签样本,并利用伪标签样本和对应的第二文本样本训练第二文本分类模型f1;
步骤S405,评估第二文本分类模型f1的性能是否有提升,若性能有提升则进入步骤S406,若性能有性能未有提升则进入步骤S407;
步骤S406,将步骤S404选取的伪标签样本存储至有效伪标签数据集库中;
步骤S407,将步骤S404选取的伪标签样本丢弃;
步骤S408,判断候选数据集库中是否还有数据,若还有数据则进入步骤S404,若没有数据则结束,从而获得训练好的第二文本分类模型f1。
本申请还提供一种文本分类模型的训练装置,其与文本分类模型的训练方法相对应,如图5所示,图5是本申请示出的一种文本分类模型的训练装置的框图,所述装置包括:
第一模型训练模块501,用于利用带标签的第一文本样本对第一文本分类模型进行训练,以获得训练好的第一文本分类模型。
伪标签获取模块502,用于将无标签的第二文本样本输入所述训练好的第一文本分类模型,预测得到与所述第二文本样本对应的伪标签。
对比学习模块503,用于利用所述第二文本样本对第二文本分类模型中的编码器进行对比学习,获得训练好的编码器。
编码模块504,用于将所述第二文本样本输入至所述训练好的编码器,获得文本特征向量。
分类器训练模块505,用于利用所述文本特征向量以及伪标签对所述第二文本分类模型中的分类器进行训练,获得训练好的分类器。
上述文本分类模型的训练装置中各个模块的功能和作用的实现过程具体详见上述文本分类模型的训练方法中对应步骤的实现过程,在此不再赘述。
本申请还提供一种文本分类装置,其与文本分类训练方法相对应,如图6所示,图6是本申请示出的一种文本分类装置的框图,所述装置包括:
文本获取模块601,用于获取待处理文本。
文本分类模块602,用于将所述待处理文本输入预先训练好的第二文本分类模型,通过所述预先训练好的第二文本分类模型中的编码器对所述待处理文本进行编码,获得文本特征向量;基于所述文本特征向量,通过所述预先训练好的第二文本分类模型中的分类器进行分类预测,获得文本类别。
其中,所述预先训练好的第二文本分类模型通过如上述的文本分类模型的训练装置训练得到。
上述文本分类装置中各个模块的功能和作用的实现过程具体详见上述文本分类方法中对应步骤的实现过程,在此不再赘述。
本申请还提供一种文本分类装置,如图7所示,图7是本申请示出的一种文本分类装置的结构框图,所述装置包括用户评估模块、决策模块、数据模块、算法模块以及人在回路校验模块。
其中,用户评估模块包括WEB网页、API接口,用于获取用户输入的待处理文本。
决策模块用于对用户输入的待处理文本进行监听并进行数据接入,对获取的待处理文本进行数据清洗等预处理,进而将预处理之后的文本输入至第二文本分类模型,并利用预测得到的文本分类辅助决策(即确定是哪个类别的文本,进而有针对性地给出回复)。
数据模块用于对历史数据进行数据清洗、数据增强等处理。
算法模块则是对数据模块输入的数据进行诸如特征选取、特征工程、特征编码等特征预处理,还可以进行模型创建(包括模型选型、模型参数的配置等)、模型训练(训练与参数调优)、模型部署(模型的构建、发布以及版本控制等)。
人在回路校验模块则是利用算法模块中的模型进行前向推理,从而预测得到文本分类结果,并对文本分类结果进行展示,再通过专家经验进行文本分类结果确认。
需要说明的是,人在回路校验模块所展示的多个文本分类结果会与待处理文本对应存储,作为新的训练数据进行模型微调,或者用于模型的迭代更新。
本申请实施例提供的文本分类装置,利用历史离线数据进行模型离线的创建、训练以及调优,同时在实际上线后不断的进行迭代优化。并结合人在回路校验模块来赋能、改造和优化文本分类模型。另外,本申请中的文本分类模型应用了无监督学习以及半监督框架,最后,利用人在回路模块,利用线上实时数据,不仅充分利用了大量的无标签数据,还提升了模型的准确率,降低了政务留言文本直接人工处理过程中人为因素和个人经验所带来的干扰,最大程度实现了政务留言文本处理的自动化和智能化,提升了问题清单处理的效率,促进了处理经验的沉淀和推广,本申请实施例提供的文本分类装置是一种低成本、性价比高、通用性强、融合了人工智能技术的政府留言文本解决方案。
本申请实施例还提供了一种电子设备,如图8所示,电子设备800可以包括计算机可读存储介质890,计算机可读存储介质890可以存储有可被处理器810调用的程序,可以包括非易失性存储介质。在一些实施例中,电子设备800可以包括内存880和接口870。在一些实施例中,电子设备800还可以根据实际应用包括其他硬件。
本申请实施例的计算机可读存储介质890,其上存储有程序,该程序被处理器810执行时,用于实现如上描述的文本分类模型的训练方法或文本分类方法。
本申请可采用在一个或多个其中包含有程序代码的计算机可读存储介质890(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读存储介质890包括永久性和非永久性、可移动和非可移动媒体,可以任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质890的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本申请任一实施例所述的文本分类模型的训练方法或文本分类方法。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (12)
1.一种文本分类模型的训练方法,其特征在于,包括:
利用带标签的第一文本样本对第一文本分类模型进行训练,以获得训练好的第一文本分类模型;
将无标签的第二文本样本输入所述训练好的第一文本分类模型,预测得到与所述第二文本样本对应的伪标签;
利用所述第二文本样本对第二文本分类模型中的编码器进行对比学习,获得训练好的编码器;
将所述第二文本样本输入至所述训练好的编码器,获得文本特征向量;
利用所述文本特征向量以及伪标签对所述第二文本分类模型中的分类器进行训练,获得训练好的分类器。
2.如权利要求1所述的方法,其特征在于,所述利用所述第二文本样本对第二文本分类模型中的编码器进行对比学习,获得训练好的编码器,包括:
将同一第二文本样本以不同的掩码输入第二文本分类模型中的编码器,获得正样本,并将所述第二文本样本中除去所述正样本之外的样本作为负样本;
基于对比学习损失函数,利用所述正样本以及所述负样本对所述编码器进行训练,获得训练好的编码器。
3.如权利要求1所述的方法,其特征在于,所述编码器至少为Word2Vec、GloVe、BERT或Sentence-BERT中的一种,所述分类器至少为RNN、LSTM、TextCNN或FastText中的一种。
4.如权利要求1所述的方法,其特征在于,在所述利用带标签的第一文本样本对第一文本分类模型进行训练,以获得训练好的第一文本分类模型之前,方法还包括:
对第一文本样本以及第二文本样本进行数据清洗以及数据增强,获得预处理后的第一文本样本以及预处理后的第二文本样本。
5.如权利要求1-4任一所述的方法,其特征在于,所述第一文本样本与所述第二文本样本为历史政务留言文本数据。
6.一种文本分类方法,其特征在于,包括:
获取待处理文本;
将所述待处理文本输入预先训练好的第二文本分类模型,通过所述预先训练好的第二文本分类模型中的编码器对所述待处理文本进行编码,获得文本特征向量;基于所述文本特征向量,通过所述预先训练好的第二文本分类模型中的分类器进行分类预测,获得文本类别;
其中,所述预先训练好的第二文本分类模型通过如权利要求1-5任一所述的文本分类模型的训练方法训练得到。
7.如权利要求6所述的方法,其特征在于,所述基于所述文本特征向量,通过所述预先训练好的第二文本分类模型中的分类器进行分类预测,获得文本类别包括:
基于所述文本特征向量,通过所述预先训练好的第二文本分类模型中的分类器进行分类预测,获得多个候选类别;
利用专家经验从所述多个候选类别中确定最终的文本类别。
8.如权利要求7所述的方法,其特征在于,在获得文本类别之后,方法还包括:
利用所述待处理文本以及对应的文本类别对所述预先训练好的第二文本分类模型进行微调,获得新的第二文本分类模型。
9.一种文本分类模型的训练装置,其特征在于,包括:
第一模型训练模块,用于利用带标签的第一文本样本对第一文本分类模型进行训练,以获得训练好的第一文本分类模型;
伪标签获取模块,用于将无标签的第二文本样本输入所述训练好的第一文本分类模型,预测得到与所述第二文本样本对应的伪标签;
对比学习模块,用于利用所述第二文本样本对第二文本分类模型中的编码器进行对比学习,获得训练好的编码器;
编码模块,用于将所述第二文本样本输入至所述训练好的编码器,获得文本特征向量;
分类器训练模块,用于利用所述文本特征向量以及伪标签对所述第二文本分类模型中的分类器进行训练,获得训练好的分类器。
10.一种文本分类装置,其特征在于,包括:
文本获取模块,用于获取待处理文本;
文本分类模块,用于将所述待处理文本输入预先训练好的第二文本分类模型,通过所述预先训练好的第二文本分类模型中的编码器对所述待处理文本进行编码,获得文本特征向量;基于所述文本特征向量,通过所述预先训练好的第二文本分类模型中的分类器进行分类预测,获得文本类别;
其中,所述预先训练好的第二文本分类模型通过如权利要求9所述的文本分类模型的训练装置训练得到。
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~5任一项所述的文本分类模型的训练方法或如权利要求6~8任一项所述的文本分类方法。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~5任一项所述的文本分类模型的训练方法或如权利要求6~8任一项所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311016423.8A CN117076672A (zh) | 2023-08-11 | 2023-08-11 | 文本分类模型的训练方法、文本分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311016423.8A CN117076672A (zh) | 2023-08-11 | 2023-08-11 | 文本分类模型的训练方法、文本分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117076672A true CN117076672A (zh) | 2023-11-17 |
Family
ID=88716386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311016423.8A Pending CN117076672A (zh) | 2023-08-11 | 2023-08-11 | 文本分类模型的训练方法、文本分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076672A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117932073A (zh) * | 2024-03-21 | 2024-04-26 | 智慧眼科技股份有限公司 | 一种基于提示工程的弱监督文本分类方法及系统 |
-
2023
- 2023-08-11 CN CN202311016423.8A patent/CN117076672A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117932073A (zh) * | 2024-03-21 | 2024-04-26 | 智慧眼科技股份有限公司 | 一种基于提示工程的弱监督文本分类方法及系统 |
CN117932073B (zh) * | 2024-03-21 | 2024-05-28 | 智慧眼科技股份有限公司 | 一种基于提示工程的弱监督文本分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992668B (zh) | 一种基于自注意力的企业舆情分析方法和装置 | |
CN107066446B (zh) | 一种嵌入逻辑规则的循环神经网络文本情感分析方法 | |
CN110175227B (zh) | 一种基于组队学习和层级推理的对话辅助系统 | |
CN108363690A (zh) | 基于神经网络的对话语义意图预测方法及学习训练方法 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN111274491B (zh) | 一种基于图注意力网络的社交机器人识别方法 | |
CN111177325B (zh) | 一种自动生成答案的方法和系统 | |
CN106445988A (zh) | 一种大数据的智能处理方法和系统 | |
CN109598387A (zh) | 基于双向跨模态注意力网络模型的股价预测方法及系统 | |
CN112862569B (zh) | 基于图像和文本多模态数据的产品外观风格评价方法和系统 | |
CN115952291B (zh) | 基于多头自注意力及lstm的金融舆情分类方法及系统 | |
CN112528031A (zh) | 一种工单智能派发方法和系统 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN117076672A (zh) | 文本分类模型的训练方法、文本分类方法及装置 | |
CN115269833A (zh) | 基于深度语义和多任务学习的事件信息抽取方法及系统 | |
CN111709225A (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
Rana et al. | Aspect-Based Sentiment Analysis for Social Multimedia: A Hybrid Computational Framework. | |
CN112200674B (zh) | 一种证券市场情绪指数智能计算信息系统 | |
US20230289533A1 (en) | Neural Topic Modeling with Continuous Learning | |
CN114781485A (zh) | 文本分类方法、装置、计算机设备和计算机可读存储介质 | |
CN111400413B (zh) | 一种确定知识库中知识点类目的方法及系统 | |
Buche et al. | Stock market forecasting techniques: A survey | |
Sai et al. | Extraction of Emojis and Texts to Intensify Opinion Mining using Machine Learning and Deep Learning Models | |
Vaca et al. | Board of Directors' Profile: A Case for Deep Learning as a Valid Methodology to Finance Research | |
CN116304058B (zh) | 企业负面信息的识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |