CN117493555A - 文本分类模型的训练方法、文本分类方法及相关设备 - Google Patents
文本分类模型的训练方法、文本分类方法及相关设备 Download PDFInfo
- Publication number
- CN117493555A CN117493555A CN202310637467.6A CN202310637467A CN117493555A CN 117493555 A CN117493555 A CN 117493555A CN 202310637467 A CN202310637467 A CN 202310637467A CN 117493555 A CN117493555 A CN 117493555A
- Authority
- CN
- China
- Prior art keywords
- training data
- data set
- training
- text classification
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 552
- 238000013145 classification model Methods 0.000 title claims abstract description 237
- 238000000034 method Methods 0.000 title claims abstract description 112
- 230000006978 adaptation Effects 0.000 claims abstract description 245
- 238000007499 fusion processing Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 14
- 230000008451 emotion Effects 0.000 description 26
- 230000006870 function Effects 0.000 description 21
- 239000013598 vector Substances 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 206010027175 memory impairment Diseases 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本分类模型的训练方法、文本分类方法及相关设备,用于提高文本分类模型的训练效率,减少模型灾难性遗忘以提升文本分类模型的训练效果。所述训练方法包括:获取多个训练数据集;通过各个训练数据集对应的文本分类模型对各个训练数据集进行分类,得到各个训练数据集中的样本文本的预测类别;基于各个训练数据集中的样本文本的预测类别及类别标签,优化各个训练数据集对应的文本分类模型中的适配模块,以得到各个训练数据集对应的第一目标适配模块;对多个训练数据集各自对应的第一目标适配模块携带的模型参进行融合处理,以得到第二目标适配模块,并在初始的预训练语言模型中添加第二目标适配模块,得到目标文本分类模型。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本分类模型的训练方法、文本分类方法及相关设备。
背景技术
文本分类任务是在自然语言处理(Natural Language Processing,NLP)领域内比较常见但特别重要的一类任务,其已广泛应用于意图识别、情感分类等领域。目前,结合预训练模型,文本分类任务已经取得较好的效果,但其缺陷是训练一个新的文本分类模型需要的时间较长。特别是在类别较多的场景下,以及在真实业务中类别需要不断扩充的场景下,需要不断添加新类别的数据,并结合就类别的数据重新训练模型,来保证模型的效果。
相关技术中的文本分类方案,是在第一批标注的旧文本数据上进行模型训练,在业务场景发现新类别的情况下,对新类别数据进行标注,然后将旧类别数据和新类别数据合并在一起,重新训练模型。然而,每次需要新增类别,就需要结合新旧分类数据对模型进行重新训练,这样是极其耗费时间的,效率较低;而且,直接在模型上对模型进行微调,会导致模型对旧知识的遗忘加快,出现灾难性遗忘。
发明内容
本申请实施例的目的是提供一种文本分类模型的训练方法、文本分类方法及相关设备,用于提高文本分类模型的训练效率,减少模型灾难性遗忘以提升文本分类模型的训练效果。
为了实现上述目的,本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种文本分类模型的训练方法,包括:
获取多个分类任务下的样本文本及所述样本文本的类别标签;
通过各个分类任务对应的文本分类模型,对各个分类任务下的样本文本执行相应的分类任务,得到各个分类任务下的样本文本的预测类别,各个文本分类模型是在预训练语言模型中添加适用于该分类任务的适配模块得到;
基于各个分类任务下的样本文本的预测类别及类别标签,优化各个文本分类模型中的适配模块,以得到适用于各个分类任务的第一目标适配模块及所述第一目标适配模块对应的权重;
基于预训练语言模型、适用于各个分类任务的第一目标适配模块及所述第一目标适配模块对应的权重,生成适用于所述多个分类任务的目标文本分类模型。
本申请实施例提供的文本分类模型的训练方法,结合了增量学习和adapter技术,将分别针对历史训练数据集和每个新增训练数据集的训练任务看作是预训练语言模型下游的一个分类任务;在此基础上,针对每个训练数据集,通过在初始的预训练语言模型中添加适配模块(adapter)的方式引入少量参数,这些参数是初始的预训练语言模型进行文本分类所需的模型参数,进而在下游进行微调时,采用增量学习技术,基于该训练数据集中的样本文本及样本文本的类别标签优化添加的适配模块,相当于只使用训练数据集本身调整针对该训练数据集引入的少量参数,以得到最终能够适用于该训练数据集的适配模块,而保持初始的预训练语言模型的已有参数不变,进而不仅可以保证原来的知识不被遗忘,还可以极大减少针对该训练数据的训练时间,提高针对该训练数据的训练效率;另外,针对每个训练数据集的训练任务都是在初始的预训练语言模型的基础上通过添加和优化适配模块进行的,不同训练数据集的训练过程是独立的,相互之间不受影响,有利于进一步提高文本分类模型的训练效果,使得各个训练数据集对应的文本分类模型都能够充分学习该训练数据集的相关知识而具有较高的分类准确性;进一步,通过融合所有训练数据集各自对应的适配模块携带的模型参数以得到第二目标适配模块,并在初始的预训练语言模型中添加第二目标适配模块,得到适用于所有训练数据的目标文本分类模型,不仅使得目标文本分类模型能够在不遗忘已有分类知识的基础上掌握新分类知识,从而可以保证目标文本分类模型的分类性能,还使得最终生成的目标文本分类模型复用了所有训练数据集的相关适配模块,而每个训练数据集对应的相关适配模块仅在每个训练数据集独立训练时被优化,在后续生成目标文本分类模型的过程中不需要再被优化,从而可以提高文本分类模型的整体训练效率。
第二方面,本申请实施例提供一种文本分类方法,包括:
获取待处理的目标文本;
将所述目标文本输入目标文本分类模型,得到所述目标文本的预测类别,其中,所述目标文本分类模型为基于第一方面所述的文本分类模型的训练方法训练得到。
本申请实施例提供的文本分类方法,利用上述优化方法得到的目标文本分类模型可以准确对待处理文本进行文本分类,从而有利于提高文本分类准确性。
第三方面,本申请实施例提供一种文本分类模型的训练装置,包括:
第一获取单元,用于获取多个训练数据集,所述多个训练数据集包括历史训练数据集和至少一个新增训练数据集,每个训练数据集包括本文本及所述样本文本的类别标签;
第一分类单元,用于通过各个训练数据集对应的文本分类模型,对各个训练数据集中的样本文本进行分类,得到各个训练数据集中的样本文本的预测类别,各个文本分类模型是在初始的预训练语言模型中添加适配模块得到,携带有所述初始的预训练语言模型进行文本分类所需的模型参数;
优化单元,用于基于所述各个训练数据集中的样本文本的预测类别及类别标签,优化所述各个训练数据集对应的文本分类模型中的适配模块,以得到各个训练数据集对应的第一目标适配模块;
融合单元,用于对所述多个训练数据集各自对应的第一目标适配模块携带的模型参数进行融合处理,以得到第二目标适配模块,并于在所述初始的预训练语言模型中添加所述第二目标适配模块,得到目标文本分类模型。
第四方面,本申请实施例提供一种文本分类装置,包括:
第二获取单元,用于获取待处理的目标文本;
第二分类单元,用于将所述目标文本输入目标文本分类模型,得到所述目标文本的预测类别,其中,所述目标文本分类模型为基于第一方面所述的文本分类模型的训练方法训练得到。
第五方面,本申请实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的文本分类模型的训练方法;或者,所述处理器被配置为执行所述指令,以实现如第二方面所述的文本分类方法。
第六方面,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的文本分类模型的训练方法;或者,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第二方面所述的文本分类方法。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请的一个实施例提供的一种文本分类模型的训练方法的流程示意图;
图2为本申请的另一个实施例提供的一种文本分类模型的训练方法的流程示意图;
图3为本申请的一个实施例提供的一种适配模块的插入位置及结构的示意图;
图4为本申请的一个实施例提供的一种第一目标适配模块及其权重的确定方法的示意图;
图5为本申请的一个实施例提供的一种第二目标适配模块的生成方法的示意图;
图6为本申请的一个实施例提供的一种文本分类方法的流程示意图;
图7为本申请的另一个实施例提供的一种文本分类方法的流程示意图;
图8为本申请的一个实施例提供的一种文本分类模型的训练装置的结构示意图;
图9为本申请的一个实施例提供的一种文本分类装置的结构示意图;
图10为本申请的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书和权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
部分概念说明:
增量学习:人类有终身不断获取、调整和转移知识的能力,虽然在我们的一生中,我们确实倾向于逐渐忘记之前学习过的知识,但只有在极少的情况下,对新知识的学习会灾难性地影响已经学到的知识,这样的学习能力被称为增量学习的能力。具体来讲,增量学习的能力就是能够不断地处理现实世界中连续的信息流,在吸收新知识的同时保留甚至整合、优化旧知识的能力。在机器学习领域,一般的机器学习模型在经过新任务训练后,在旧任务的上表现通常会显著下降,增量学习便致力于解决模型训练中的一个普遍缺陷:灾难性遗忘(Catastrophic Forgetting,CF)。
adapter技术:在现代自然语言处理的应用中,使用预训练的表征进行迁移学习是很重要的一个方法。在深度学习开始被应用之后,迁移学习最早出现在使用预训练的特征向量,以及对预训练语言模型(Pre-trained Language Model,PLM)进行微调(fine-tuning)。基于预训练模型,adapter给出了一个新的思路,即能否在模型中插入一些少量的参数,在下游某个任务微调时只对这些参数进行训练,而保持预训练模型原有的参数不变。如果使用adapter可以让我们达到和微调整个模型一样的效果(或者更好),那就可以带来很多好处:
参数效率更高:一个任务只需要少量参数,训练更快,占用的内存更少,对数据集较小的任务更难过拟合,也更有利于模型的存储和分发;
连续学习的遗忘问题:adapter冻结了原有模型的参数,保证了原来的知识不被遗忘;
多任务学习:使用adapter也可以用比较少量的参数学习多个任务,和传统的多任务学习相比,好处是不同任务之间影响较少,坏处是不同任务带来的相互的监督可能会变少。
如背景技术中所述,相关技术中的文本分类方案,是在第一批标注的旧文本数据上进行模型训练,在业务场景发现新类别的情况下,对新类别数据进行标注,然后将旧类别数据和新类别数据合并在一起,重新训练模型。然而,每次需要新增类别,就需要结合新旧分类数据对模型进行重新训练,这样是极其耗费时间的,效率较低;而且,直接在模型上对模型进行微调,会导致模型对旧知识的遗忘加快,出现灾难性遗忘。
有鉴于此,本申请提出一种结合增量学习和adapter技术的文本分类模型的训练方法,将分别针对历史训练数据集和每个新增训练数据集的训练任务看作是预训练语言模型下游的一个分类任务;在此基础上,针对每个训练数据集,通过在初始的预训练语言模型中添加适配模块(adapter)的方式引入少量参数,这些参数是初始的预训练语言模型进行文本分类所需的模型参数,进而在下游进行微调时,采用增量学习技术,基于该训练数据集中的样本文本及样本文本的类别标签优化添加的适配模块,相当于只使用训练数据集本身调整针对该训练数据集引入的少量参数,以得到最终能够适用于该训练数据集的适配模块,而保持初始的预训练语言模型的已有参数不变,进而不仅可以保证原来的知识不被遗忘,还可以极大减少针对该训练数据的训练时间,提高针对该训练数据的训练效率;另外,针对每个训练数据集的训练任务都是在预训练语言模型的基础上通过添加和优化适配模块进行的,不同训练数据集的训练过程是独立的,相互之间不受影响,有利于进一步提高文本分类模型的训练效果,使得各个训练数据集对应的文本分类模型都能够充分学习该训练数据集的相关知识而具有较高的分类准确性;进一步,融合所有训练数据集各自对应的适配模块携带的模型参数以得到第二目标适配模块,并在初始的预训练语言模型中添加第二目标适配模块,得到适用于所有训练数据的目标文本分类模型,不仅使得目标文本分类模型能够在不遗忘已有分类知识的基础上掌握新分类知识,从而可以保证目标文本分类模型的分类性能,还使得最终生成的目标文本分类模型复用了所有训练数据集的相关适配模块,而每个训练数据集的相关适配模块仅在每个分类任务独立训练时被优化,在后续生成目标文本分类模型的过程中不需要再被优化,从而可以提高文本分类模型的整体训练效率。
此外,本申请实施例还提出一种文本分类方法,利用上述优化方法得到的目标文本分类模型可以准确对待处理文本进行文本分类,从而有利于提高文本分类准确性。
应理解,本申请实施例提供的文本分类模型的训练方法和文本分类方法均可以由电子设备或安装在电子设备中的软件执行。此处所谓的电子设备可以包括终端设备,比如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能手表、车载终端、飞行器等;或者,电子设备还可以包括服务器,比如独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
以下结合附图,详细说明本申请各实施例提供的技术方案。
请参见图1,为本申请的一个实施例提供的一种文本分类模型的训练方法的流程示意图,该方法可以包括如下步骤:
S102,获取多个训练数据集。
其中,上述多个训练数据集包括历史训练数据集和至少一个新增训练数据集。每个训练数据集包括样本文本及样本文本的类别标签,其中,样本文本的类别标签用于表示样本文本所属的真实类别。针对每个训练数据集的训练可以看做是一个分类任务。
实际应用中,上述多个训练数据集可根据实际需要进行选择,本申请实施例对此不作限定。示例地,已有的历史训练数据集包括多个样本文本及各个样本文本的意图标签,意图标签用于表示对应的样本文本的真实意图。若要使训练得到的文本分类模型同时具有意图识别功能和情感分类功能,那么,上述至少一个新增训练数据集可以包括用于训练情感分类任务的训练数据集,该训练数据集具体可以包括多个样本文本及各个样本文本的情感标签,情感标签用于表示对应的样本文本的真实情感倾向。
在此情况下,上述多个训练数据集可以具有相同的样本文本,但同一样本文本在不同训练数据集中的类别标签不同。比如,历史训练数据集和新增训练数据集中均可以包括样本文本1,但样本文本1在历史训练数据集中的类别标签用于表示样本文本1的真实意图,而在新增训练数据集中的类别标签用于表示样本文本1的情感倾向。
又如,历史数据集包括多个已有类别的样本文本。若要在已有类别的基础上扩充类别,以使训练得到的文本分类模型能够用于识别更多类别的文本,新增训练数据集可以包括多个新增类别的样本文本。比如,若要在已有类别1基础上新增类别2,使得文本分类模型还能够识别文本是否属于类别2,那么,历史训练数据集包括属于类别1的多个样本文本,新增训练数据集包括属于类别2的多个样本文本。
S104,通过各个训练数据集对应的文本分类模型,对各个训练数据集中的样本文本进行分类,得到各个训练数据集中的样本文本的预测类别。
其中,各个文本分类模型是在初始的预训练语言模型中添加适配模块得到。本申请实施例中,初始的预训练语言模型是指预先训练好的、具有文本编码功能的语言模型,其能够将输入的文本编码为用于表示文本语义特征的文本表示向量,以供下游基于文本表示向量执行相应的分类任务。实际应用中,预训练语言模型可采用本领域常用的各种语言模型,比如BERT模型、Roberta模型等,本申请实施例对此不作限定。
适配模块携带有初始的预训练语言模型进行文本分类所需的模型参数。通过在预训练语言模型中引入该适配模块,相当于在初始的预训练语言模型中插入了执行进行文本分类所需的参数,使得初始的预训练语言模型具有了进行文本分类的能力。针对每个训练数据集而言,在初始的预训练语言模型中添加适配模块之后所得的模型,称为该训练数据集对应的文本分类模型。在此基础上,将该训练数据集中的样本文本输入该训练数据集对应的文本分类模型中,文本分类模型即可对输入的样本文本进行分类,得到样本文本的预测类别。
示例地,如图2所示,假设有N个训练数据集。对于训练数据集1而言,可预先在初始的预训练语言模型中添加适配模块,以在初始的预训练语言模型中插入进行文本分类所需的参数,得到训练数据集1对应的文本分类模型;在此基础上,对训练数据集1中的样本文本进行初步编码后得到样本文本的编码向量,然后,将样本文本的编码向量输入该文本分类模型,即可得到样本文本的预测类别。
类似地,对于训练数据集务2~训练数据集N中的每一者,均通过上述方式得到各分类任务下的样本文本在所属分类任务下的预测类别。
本申请实施例中,适配模块在初始的预训练语言模型中的添加位置可根据该预训练语言模型的结构确定,本申请实施例对此不作限定。
可选地,初始的预训练语言模型可以包括注意力模块,通过注意力模块引入的注意力机制,可结合文本中词语之间的关联关系对文本进行编码,从而所得的文本表示向量能够更准确地表示文本的语义特征。其中,注意力模块的数量可以根据实际需要进行设置,本申请实施例对此不作限定。为了提高分类准确性,对于每个训练数据集而言,该训练数据集对应的文本分类模型可以是在初始的预训练语言模型的每个注意力模块中添加适配模块得到。
示例地,如图3所示,以注意力模块为Transformer模块为例,Transformer模块包括依次连接的多头注意力机制层、前馈神经网络层以及归一化层,在此情况下,适配模块可添加至前馈神经网络与归一化层之间。添加适配模块后的Transformer模块如图3左侧所示。值的说明的是,Transformer模块中各网络层的功能属于本领域技术人员已知的技术,不再赘述。
实际应用中,添加至注意力模块中的适配模块可以具有任意适当的结构,具体可根据所添加到的注意力模块的结构进行设置。示例地,如图3所示,在注意力模块为Transformer模块的情况下,适配模块可以包括两层前馈神经网络层和一层非线性层,其中,第一个前馈神经网络层将Transformer模块中的前馈神经网络层的输出作为输入(维度为d),将该输入从维度d投影到适用于相应分类任务的维度m,通过控制m的大小来限制适配模块引入的参数量,通常情况下m<d;非线性层用于对第一个前馈神经网络层的输出进行非线性处理;第二个前馈神经网络层用于将非线性层的输出还原至维度d,作为Transformer模块中的归一化层的输入。
S106,基于各个训练数据集中的样本文本的预测类别及类别标签,优化各个训练数据集中对应的文本分类模型中的适配模块,以得到各个训练数据集对应的第一目标适配模块。
具体而言,可针对每个训练数据集,基于预设损失函数、该训练数据集中的样本文本的类别标签及预测类别,确定该训练数据集对应的分类损失值;进一步,基于该训练数据集对应的分类损失值,调整该训练数据集对应的文本分类模型中的适配模块携带的模型参数,以得到该训练数据集对应的第一目标适配模块。
其中,预设损失函数可以根据实际需要进行设置,比如交叉熵损失函数等,本申请实施例对预设损失函数的类型不作限定。适配模块携带的模型参数是指适配模块所引入的、进行文本分类所需的参数,具体可以例如包括但不限于适配模块中各网络层的结构参数、各网络层之间的连接关系参数等。
对于每个训练数据集而言,该训练数据集对应的分类损失值用于表示该训练数据集中的样本文本的预测类别与类别标签之间的差异,在得到该训练数据集对应的分类损失值之后,可采用本领域常用的各种优化算法,比如反向传播算法、梯度下降算法等,对该训练数据集对应的文本分类模型中的适配模块携带的模型参数进行调整,以得到该训练数据集对应的第一目标适配模块。
示例地,继续参见图2,对于分类任务1,可基于分类任务1对应的训练数据集中的样本文本的预测类别及类别标签,计算分类任务1下的分类损失值1(也即该训练数据集对应的分类损失),进而基于分类损失值1调整分类任务1对应的文本分类模型中的适配模块携带的模型参数,以得到分类任务1对应的第一目标适配模块。类似地,对于分类任务2~分类任务N中的每一者,均通过上述方式得到分类任务2对应的第一目标适配模块2~分类任务N对应的第一目标适配模块N。
可以理解的是,针对每个训练数据集,通过在初始的预训练语言模型中添加适配模块(adapter)的方式引入少量参数,在下游进行微调时,采用增量学习技术,基于该训练数据集中的样本文本及样本文本的类别标签优化添加的适配模块,相当于只使用该训练数据集本身调整引入的少量参数,以得到最终能够适用于该训练数据集的适配模块,而保持初始的预训练语言模型的已有参数不变,进而不仅可以保证原来的知识不被遗忘,还可以极大减少针对该训练数据集的训练时间,提高针对该训练数据集的训练效率。另外,针对每个训练数据集的训练都是在初始的预训练语言模型的基础上通过添加和优化适配模块进行的,针对不同训练数据集的训练过程是独立的,相互之间不受影响,有利于进一步提高文本分类模型的训练效果,使得各个训练数据集对应的文本分类模型都能够充分学习该训练数据集的相关知识而具有较高的分类准确性。
实际应用中,对于每个训练数据集而言,对该训练数据集对应的文本分类模型中的适配模块可能需要执行多轮优化才能达到较优的效果,也即针对该训练数据集需要执行多轮训练,每轮训练过程中都会执行一次上述S104~S106;经过多轮训练后,若该训练数据集对应的文本分类模型满足预设训练条件,则可将经最后一轮训练后该文本分类模型中的适配模块,作为该训练数据集对应的第一目标适配模块。
在初始的预训练语言模型包括多个注意力模块且每个注意力模块中均添加有适配模块的情况下,考虑到被添加适配模块的不同注意力模块在不同训练数据集中所起的作用大小不同,对于某些训练数据集而言,部分注意力模块中的适配模块所起的作用微乎其微。在此情况下,为了简化文本分类模型的结构,提高文本分类模型在训练过程中的计算开销,以及提高针对各个训练数据集的训练效果,可针对每个训练数据集确定适配模块的最优插入数量(即需要插入多少个适配模块)和最优插入位置(即需要添加适配模块的注意力模块),相应地,确定出的第一目标适配模块即为对该训练数据集所起作用较大的适配模块。
可选地,为了确保各个训练数据集对应的第一目标适配模块能够对相应训练数据集发挥重要作用,在上述S104中,针对每个训练数据集,在每轮训练过程中,随机激活该训练数据集对应的文本分类模型中的部分适配模块,以及通过激活后的文本分类模型对该训练数据集中的样本文本进行分类,得到该训练数据集中的样本文本在本轮训练的预测类别。相应地,在上述S106中,针对每个训练数据集,在每轮训练过程中,基于该训练数据集中的样本文本在本轮训练的预测类别及类别标签,优化该训练数据集对应的文本分类模型中被激活的适配模块;在该训练数据集对应的文本分类模型满足预设训练停止条件的情况下,将该训练数据集对应的文本分类模型在最后一轮训练过程中被激活的适配模块,确定为该训练数据集对应的第一目标适配模块。
其中,预设训练停止条件可根据实际需要进行设置,比如训练轮数达到预设数值,或者训练数据集对应的分类损失值小于预设损失值等,本申请实施例对此不作限定。
示例地,如图4所示,以训练数据集1为例,假设预训练语言模型包括M(M为大于1的整数)个注意力模块,每个注意力模块具有对应的权重,通过在每个注意力模块中添加一个适配模块,可得到训练数据集1对应的文本分类模型。对于第1轮训练,在上述S104中,随机激活其中的n(n为小于M的正整数)个适配模块,然后,对训练数据集1中的样本文本进行预编码,得到样本文本的编码向量,并将编码向量输入经过激活后的文本分类模型中,由文本分类模型中的预训练语言模型对样本文本的编码向量进行再次编码,得到文本特征向量,再由文本分类模型中被激活的适配模块基于文本特征向量执行训练数据集1,得到样本文本的预测类别;进一步,在上述S106中,基于样本文本的预测类别和类别标签,计算得到第1轮训练的分类损失值1,以及基于该分类损失值1,调整被激活的n个适配模块携带的模型参数,得到第1轮训练的文本分类模型。
类似地,对于第2轮训练,在第1轮文本分类模型的基础上,随机激活其中的部分适配模块,重复第1轮的训练过程,调整本轮被激活的各个适配模块携带的模型参数,得到第2轮训练的文本分类模型。
依次类推,经过多轮训练,训练数据集1对应的文本分类模型满足预设训练停止条件,此时,将最后一轮训练的文本分类模型中被激活的适配模块,确定为训练数据集1对应的第一目标适配模块。
值的说明的是,每轮训练过程中激活的适配模块的数量可以不同,具体可根据实际需要进行设置,本申请实施例对此不作限定。
S108,对多个训练数据集各自对应的第一目标适配模块携带的模型参数进行融合处理,以得到第二目标适配模块,并在初始的预训练语言模型中添加第二目标适配模块,得到目标文本分类模型。
为了充分发挥每个适配模块携带的模型参数在第二目标适配模块中的作用,以确保目标文本分类模型能够通过第二目标适配模块执行多个分类任务,上述S108中,对多个训练数据集各自对应的第一目标适配模块携带的模型参数进行融合处理,可以包括如下步骤:
步骤A1,针对每个训练数据集,基于该训练数据集对应的第一目标适配模块在该训练数据集对应的文本分类模型中所属的注意力模块,确定该训练数据集对应的第一目标适配模块的权重。
第一目标适配模块对应的权重用于调整所携带的模型参数在最终训练所得的目标文本分类模型中的比重。每个适配模块具有对应的权重,该权重可以基于该适配模块在所属文本分类模型中所处的位置确定。
具体地,对于每个训练数据集而言,若该训练数据集对应一个第一目标适配模块,那么,该第一目标适配模块的权重是指该第一目标适配模块在所属文本分类模型中的注意力模块对应的权重。示例地,某个训练数据集对应的文本分类模型包括3个注意力模块,这些注意力模块对应的权重依次为1、2、2,若该训练数据集对应的第一目标适配模块包括位于第1个注意力模块中的适配模块,那么,该训练数据集对应的各个第一目标适配模块对应的权重分别为1。
若该训练数据集对应多个第一目标适配模块,那么,对于各个第一目标适配模块而言,该第一目标适配模块的权重为该第一目标适配模块在所属文本分类模型中的注意力模块对应的权重。示例地,某个训练数据集对应的文本分类模型包括3个注意力模块,这些注意力模块对应的权重依次为1、2、2,若该训练数据集对应的第一目标适配模块包括位于第1个注意力模块中的适配模块和位于第3个注意力模块中的适配模块,那么,该训练数据集对应的各个第一目标适配模块对应的权重分别为1、2。
当然,在其他一些可选的方式中,若该训练数据集对应多个第一目标适配模块,那么,对于各个第一目标适配模块而言,该第一目标适配模块的权重为该第一目标适配模块在所有第一目标适配模块所属文本分类模型中的注意力模块对应的权重的均值等。示例地,某个训练数据集对应的文本分类模型包括3个注意力模块,这些注意力模块对应的权重依次为1、2、2,若该训练数据集对应的第一目标适配模块包括位于第1个注意力模块中的适配模块和位于第3个注意力模块中的适配模块,那么,该训练数据集对应的各个第一目标适配模块对应的权重分别为1.5。
步骤A2,基于各个训练数据集对应的第一目标适配模块对应的权重,对各个训练数据集对应的第一目标适配模块携带的模型参数进行加权求和后平均处理,得到目标模型参数。
示例地,如图5所示,假设上述多个训练数据集包括训练数据集1~训练数据集N,这些训练数据集对应的第一目标适配模块对应的权重分别为W1~WN,那么,通过对这些第一目标适配模块携带的模型参数进行加权求和后取平均,即可得到目标模型参数。即,其中,Adapter'表示目标模型参数,Adapteri表示适用于训练数据集i的第一目标适配模块,Wi表示训练数据集i的第一目标适配模块对应的权重,N表示训练数据集总数。在此基础上,基于目标模型参数即可生成适用于分类任务1~分类任务N的第二目标适配模块。
步骤A3,基于目标模型参数,生成第二目标适配模块。
通过融合多个训练数据集各自对应的第一目标适配模块携带的模型参数,使得所得到的第二目标适配模块携带了适用于对多个训练数据进行分类的模型参数;基于此,在初始的预训练语言模型中添加第二目标适配模块,使得目标文本分类模型能够在不遗忘已有知识的基础上掌握多个训练数据集的相关知识,从而可以保证目标文本分类模型的分类性能。
在得到目标文本分类模型之后,通过在初始的预训练语言模型中添加第二目标适配模块,相当于在初始的预训练语言模型中引入用于对多个训练数据集进行文本分类所需的参数,从而可以确保所得的预训练语言模型集成了执行多个分类任务的能力,此时的预训练语言模型称为目标文本分类模型。
可选地,为了简化最终得到的目标文本分类模型的结构,以便提高后续进行文本分类的计算开销及提高文本分类效率,在上述S108中,在预训练语言模型包括多个注意力模块的情况下,可针对每个训练数据集,根据该训练数据集对应的第一目标适配模块在该训练数据集对应的文本分类模型中所属的注意力模块,确定初始的预训练语言模型的目标注意力模块;在初始的预训练语言模型的目标注意力模块中添加第二目标适配模块,得到目标文本分类模型。
示例地,假设上述多个训练数据集包括训练数据集1和训练数据集2,初始的预训练语言模型包括4个注意力模块,即注意力模块1~注意力模块4,其中,训练数据集1对应的第一目标适配模块在训练数据集1对应的文本分类模型中所属的注意力模块包括注意力模块1,训练数据集2的第一目标适配模块在训练数据集2对应的文本分类模型中所属的注意力模块包括注意力模块3,那么,可将注意力模块1和注意力模块3作为目标注意力模块,进而可在注意力模块1和注意力模块3中分别插入一个第二目标适配模块,得到适用于训练数据集1和训练数据集2的目标文本分类模型。
又如,若假设上述多个训练数据集包括训练数据集1和训练数据集2,初始的预训练语言模型包括4个注意力模块,即注意力模块1~注意力模块4,其中,训练数据集1对应的第一目标适配模块在训练数据集1对应的文本分类模型中所属的注意力模块包括注意力模块1和注意力模块2,训练数据集2的第一目标适配模块在训练数据集2对应的文本分类模型中所属的注意力模块包括注意力模块2和注意力模块3,那么,可将作为交集的注意力模块2作为目标注意力模块,进而可在注意力模块2中插入一个第二目标适配模块,得到适用于训练数据集1和训练数据集2的目标文本分类模型。
可选地,考虑到在上述多个训练数据集的数量较大的情况下,这些训练数据集各自对应的第一目标适配模块几乎占据预训练语言模型的所有注意力模块,且在训练数据集数量较大的情况下,越多的注意力模块中添加适配模块,将有利于所得的目标文本分类模型覆盖更多的训练数据集,基于此,在上述S182中,可在初始的预训练语言模型包括多个注意力模块的情况下,在初始的预训练语言模型的每个注意力模块中添加第二目标适配模块,得到目标文本分类模型。
示例地,假设上述多个训练数据集包括训练数据集1~训练数据集5,预训练语言模型包括4个注意力模块,即注意力模块1~注意力模块4,那么,可在注意力模块1~注意力模块4中均插入一个第二目标适配模块,得到适用于训练数据集1~训练数据集5的目标文本分类模型。
本申请实施例在此示出了上述S108的部分具体实现方式。当然,应理解,上述S108还可通过其他方式实现,本申请实施例对此不作限定。
本申请的一个或多个实施例提供的文本分类模型的训练方法,将分别针对历史训练数据集和每个新增训练数据集的训练任务看作是预训练语言模型下游的一个分类任务;在此基础上,针对每个训练数据集,通过在初始的预训练语言模型中添加适配模块(adapter)的方式引入少量参数,这些参数是初始的预训练语言模型进行文本分类所需的模型参数,进而在下游进行微调时,采用增量学习技术,基于该训练数据集中的样本文本及样本文本的类别标签优化添加的适配模块,相当于只使用训练数据集本身调整针对该训练数据集引入的少量参数,以得到最终能够适用于该训练数据集的适配模块,而保持初始的预训练语言模型的已有参数不变,进而不仅可以保证原来的知识不被遗忘,还可以极大减少针对该训练数据的训练时间,提高针对该训练数据的训练效率;另外,针对每个训练数据集的训练任务都是在预训练语言模型的基础上通过添加和优化适配模块进行的,不同训练数据集的训练过程是独立的,相互之间不受影响,有利于进一步提高文本分类模型的训练效果,使得各个训练数据集对应的文本分类模型都能够充分学习该训练数据集的相关知识而具有较高的分类准确性;进一步,融合所有训练数据集各自对应的适配模块携带的模型参数以得到第二目标适配模块,并在初始的预训练语言模型中添加第二目标适配模块,得到适用于所有训练数据的目标文本分类模型,不仅使得目标文本分类模型能够在不遗忘已有分类知识的基础上掌握新分类知识,从而可以保证目标文本分类模型的分类性能,还使得最终生成的目标文本分类模型复用了所有训练数据集的相关适配模块,而每个训练数据集的相关适配模块仅在每个分类任务独立训练时被优化,在后续生成目标文本分类模型的过程中不需要再被优化,从而可以提高文本分类模型的整体训练效率。另外,本申请实施例提供的文本分类模型的训练方法,具有通用性强、泛化性强的特点,适用于大部分文本分类场景。
本申请实施例提供的文本分类模型的训练方法可适用于多种文本分类场景,下面以两个具体的文本分类场景举例说明。
场景一:训练能够同时对文本进行意图识别和情感分类的目标文本分类模型。
在此场景下,假设历史训练数据集包括多个样本文本及各样本对应的意图标签,新增训练数据集包括多个样本文本及样本文本对应的情感标签。可针对历史训练数据集,在初始的预训练语言模型中添加适配模块,得到历史训练数据集对应的文本分类模型,并通过该文本分类模型对历史训练数据集中的各样本文本进行分类,得到历史数据集中各样本文本对应的预测意图;进一步,基于历史训练数据集中各样本文本的预测意图及意图标签,优化该文本分类模型中的适配模块,得到适用于意图分类的第一目标适配模块。
同样地,针对新增训练数据集,在初始的预训练语言模型中添加适配模块,得到新增训练数据集对应的文本分类模型,并通过该文本分类模型对新增训练数据集中的各样本文本进行分类,得到新增数据集中各样本文本对应的预测情感倾向;进一步,基于新增训练数据集中各样本文本的预测情感倾向及情感标签,优化该文本分类模型中的适配模块,得到适用于情感分类的第一目标适配模块。
然后,通过对各个第一目标适配模块携带的模型参数进行融合,以得到第二目标适配模块,并在初始的预训练语言模型中添加第二目标适配模块,得到的目标文本分类模型能够同时对文本进行意图识别和情感分类。
场景二:训练能够同时对多种情感倾向的文本进行分类的目标文本分类模型。
在此场景下,假设历史训练数据集包括表示开心的样本文本和表示生气的样本文本,若要训练一个能够识别“开心”、“生气”、“难过”、“惊恐”这多种情感。可针对历史训练数据集,在初始的预训练语言模型中添加适配模块,得到历史训练数据集对应的文本分类模型,并通过该文本分类模型对历史训练数据集中的各样本文本进行分类,得到历史数据集中各样本文本对应的预测情感(即是否开心、生气);进一步,基于历史训练数据集中各样本文本的预测情感及情感标签,优化该文本分类模型中的适配模块,得到适用于识别开心和生气两类情感的第一目标适配模块。
同样地,针对新增训练数据集,在初始的预训练语言模型中添加适配模块,得到新增训练数据集对应的文本分类模型,并通过该文本分类模型对新增训练数据集中的各样本文本进行分类,得到新增数据集中各样本文本对应的预测情感(即是否难过、惊恐);进一步,基于新增训练数据集中各样本文本的预测情感及情感标签,优化该文本分类模型中的适配模块,得到适用于识别难过和惊恐两类情感的第一目标适配模块。
然后,通过对各个第一目标适配模块携带的模型参数进行融合,以得到第二目标适配模块,并在初始的预训练语言模型中添加第二目标适配模块,得到的目标文本分类模型能够识别“开心”、“生气”、“难过”、“惊恐”多种情感。
本申请实施例还提供一种文本分类方法,能够基于上述文本分类模型的训练方法训练得到的目标文本分类模型,对待处理文本进行文本分类。请参见图6,为本申请的一个实施例提供的一种文本分类方法的流程示意图,该方法可以包括如下步骤:
S602,获取待处理的目标文本。
S604,将所目标文本输入目标文本分类模型,得到目标文本的预测类别。
其中,目标文本分类模型为基于本申请的一个或多个实施例提供的文本分类模型的训练方法训练得到。目标文本的预测类别可以包括目标文本分别在上述多个分类任务下的预测类别。
示例地,如图7所示,在本申请实施例提供的文本分类模型的训练方法中,通过在初始的预训练语言模型中添加适用于多个分类任务的第二目标适配模块,即可得到目标文本分类模型,该目标文本分类模型可用于对任一文本执行上述多个分类任务。基于该目标文本分类模型,在获取到待处理的目标文本之后,可对目标文本进行初步的文本编码,得到目标文本的编码向量;进一步,将目标文本的编码向量输入目标文本分类模型中,经目标文本分类模型中的预训练语言模型对该编码向量再次编码后,得到用于表示目标文本的语义特征的文本特征向量,该文本特征向量经第二目标适配模块执行多个分类任务后,可得到目标文本分别在上述多个分类任务下的预测类别。
本申请实施例提供的文本分类方法,利用上述优化方法得到的目标文本分类模型可以准确对待处理文本进行文本分类,从而有利于提高文本分类准确性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
与上述图1所示的文本分类模型的训练方法相对应地,本申请实施例还提出一种文本分类模型的训练装置。请参见图8,为本申请的一个实施例提供的一种文本分类模型的训练装置800的结构示意图,该装置800包括:
第一获取单元810,用于获取多个训练数据集,所述多个训练数据集包括历史训练数据集和至少一个新增训练数据集,每个训练数据集包括本文本及所述样本文本的类别标签;
第一分类单元820,用于通过各个训练数据集对应的文本分类模型,对各个训练数据集中的样本文本进行分类,得到各个训练数据集中的样本文本的预测类别,各个文本分类模型是在初始的预训练语言模型中添加适配模块得到,携带有所述初始的预训练语言模型进行文本分类所需的模型参数;
优化单元830,用于基于所述各个训练数据集中的样本文本的预测类别及类别标签,优化所述各个训练数据集对应的文本分类模型中的适配模块,以得到各个训练数据集对应的第一目标适配模块;
融合单元840,用于对所述多个训练数据集各自对应的第一目标适配模块携带的模型参数进行融合处理,以得到第二目标适配模块,并于在所述初始的预训练语言模型中添加所述第二目标适配模块,得到目标文本分类模型。
可选地,所述初始的预训练语言模型包括多个注意力模块,所述各个文本分类模型是在所述初始的预训练语言模型的每个注意力模块中添加所述适配模块得到。
可选地,所述第一分类单元820具体用于:
针对每个训练数据集,在每轮训练过程中,随机激活所述训练数据集对应的文本分类模型中的部分适配模块,以及通过激活后的文本分类模型对所述训练数据集中的样本文本进行分类,得到所述训练数据集中的样本文本在本轮训练的预测类别;
所述优化单元830具体用于:
针对每个训练数据集,在每轮训练过程中,基于所述训练数据集中的样本文本在本轮训练的预测类别及类别标签,优化所述训练数据集对应的文本分类模型中被激活的适配模块;
在所述训练数据集对应的文本分类模型满足预设训练停止条件的情况下,将该文本分类模型在最后一轮训练过程中被激活的适配模块,确定为所述训练数据集对应的第一目标适配模块。
可选地,所述融合单元840在对所述多个训练数据集各自对应的第一目标适配模块携带的模型参数进行融合处理,以得到第二目标适配模块时,执行如下步骤:
针对每个训练数据集,基于所述训练数据集对应的第一目标适配模块在所述训练数据集对应的文本分类模型中所属的注意力模块,确定所述训练数据集对应的第一目标适配模块的权重;
基于各个训练数据集对应的第一目标适配模块的权重,对于各个训练数据集对应的第一目标适配模块携带的模型参数进行加权求和后平均处理,得到目标模型参数;
基于所述目标模型参数,生成所述第二目标适配模块。
可选地,所述融合单元840在在初始的预训练语言模型中添加所述第二目标适配模块,得到目标文本分类模型时,执行如下步骤:
在初始的预训练语言模型包括多个注意力模块的情况下,在初始的预训练语言模型的每个注意力模块中添加所述第二目标适配模块,得到所述目标文本分类模型。
可选地,所述融合单元840在在初始的预训练语言模型中添加所述第二目标适配模块,得到目标文本分类模型时,执行如下步骤:
在初始的预训练语言模型包括多个注意力模块的情况下,针对每个训练数据集,根据所述训练数据集对应的第一目标适配模块在所述训练数据集对应的文本分类模型中所属的注意力模块,确定初始的预训练语言模型的目标注意力模块;
在初始的预训练语言模型的目标注意力模块中添加所述第二目标适配模块,得到所述目标文本分类模型。
显然,本申请实施例提供的文本分类模型的训练装置能够作为图1所示的文本分类模型的训练方法的执行主体,例如图1所示的文本分类模型的训练方法中,步骤S102可由图8所示的文本分类模型的训练装置中的第一获取单元810执行,步骤S104可由图8所示的文本分类模型的训练装置中的第一分类单元820执行,步骤S106可由图8所示的文本分类模型的训练装置中的优化单元830执行,步骤S108可由图8所示的文本分类模型的训练装置中的融合单元840执行。
根据本申请的另一个实施例,图8所示的文本分类模型的训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,文本分类模型的训练装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CentralProcessing Unit,CPU)、随机存取存储介质(Random Access Memory,RAM)、只读存储介质(Read-Only Memory,ROM)等处理元件和存储元件的例如计算机的通用计算设备上,运行能够执行如图1所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图8中所示的文本分类模型的训练装置,以及来实现本申请实施例的文本分类模型的训练方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质转载于电子设备中,并在其中运行。
与上述图6所示的文本分类方法相对应地,本申请实施例还提出一种文本分类装置。请参见图9,为本申请的一个实施例提供的一种文本分类装置900的结构示意图,该装置900包括:
第二获取单元910,用于获取待处理的目标文本;
第二分类单元920,用于将所述目标文本输入目标文本分类模型,得到所述目标文本的预测类别,其中,所述目标文本分类模型为基于本申请的一个或多个实施例提供的文本分类模型的训练方法训练得到。
显然,本申请实施例提供的文本分类装置能够作为图6所示的文本分类方法的执行主体,例如图6所示的文本分类方法中,步骤S602可由图9所示的文本分类装置中的第二获取单元910执行,步骤S604可由图9所示的文本分类装置中的第二分类单元920执行。
根据本申请的另一个实施例,图9所示的文本分类装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,文本分类装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CentralProcessing Unit,CPU)、随机存取存储介质(Random Access Memory,RAM)、只读存储介质(Read-Only Memory,ROM)等处理元件和存储元件的例如计算机的通用计算设备上,运行能够执行如图6所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图9中所示的文本分类装置,以及来实现本申请实施例的文本分类方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质转载于电子设备中,并在其中运行。
图10是本申请的一个实施例电子设备的结构示意图。请参考图10,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本分类模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:获取多个分类任务下的样本文本及所述样本文本的类别标签;通过各个分类任务对应的文本分类模型,对各个分类任务下的样本文本执行相应的分类任务,得到各个分类任务下的样本文本的预测类别,各个文本分类模型是在预训练语言模型中添加适用于该分类任务的适配模块得到;基于各个分类任务下的样本文本的预测类别及类别标签,优化各个文本分类模型中的适配模块,以得到适用于各个分类任务的第一目标适配模块及所述第一目标适配模块对应的权重;基于预训练语言模型、适用于各个分类任务的第一目标适配模块及所述第一目标适配模块对应的权重,生成适用于所述多个分类任务的目标文本分类模型。
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本分类装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:获取待处理的目标文本;将所述目标文本输入目标文本分类模型,得到所述目标文本的预测类别,其中,所述目标文本分类模型为基于本申请的一个或多个实施例所述的文本分类模型的训练方法训练得到。
上述如本申请图1所示实施例揭示的文本分类模型的训练装置执行的方法或者上述如本申请图6所示实施例揭示的文本分类装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的方法,并实现文本分类模型的训练装置在图1至图5所示实施例的功能,或者,该电子设备还可执行图6的方法,并实现文本分类装置在图6、图7所示实施例的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:获取多个分类任务下的样本文本及所述样本文本的类别标签;通过各个分类任务对应的文本分类模型,对各个分类任务下的样本文本执行相应的分类任务,得到各个分类任务下的样本文本的预测类别,各个文本分类模型是在预训练语言模型中添加适用于该分类任务的适配模块得到;基于各个分类任务下的样本文本的预测类别及类别标签,优化各个文本分类模型中的适配模块,以得到适用于各个分类任务的第一目标适配模块及所述第一目标适配模块对应的权重;基于预训练语言模型、适用于各个分类任务的第一目标适配模块及所述第一目标适配模块对应的权重,生成适用于所述多个分类任务的目标文本分类模型。
或者,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图6所示实施例的方法,并具体用于执行以下操作:获取待处理的目标文本;将所述目标文本输入目标文本分类模型,得到所述目标文本的预测类别,其中,所述目标文本分类模型为基于本申请的一个或多个实施例所述的文本分类模型的训练方法训练得到。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种文本分类模型的训练方法,其特征在于,包括:
获取多个训练数据集,所述多个训练数据集包括历史训练数据集和至少一个新增训练数据集,每个训练数据集包括样本文本及所述样本文本的类别标签;
通过各个训练数据集对应的文本分类模型,对各个训练数据集中的样本文本进行分类,得到各个训练数据集中的样本文本的预测类别,各个文本分类模型是在初始的预训练语言模型中添加适配模块得到,所述适配模块携带有所述初始的预训练语言模型进行文本分类所需的模型参数;
基于所述各个训练数据集中的样本文本的预测类别及类别标签,优化所述各个训练数据集对应的文本分类模型中的适配模块,以得到所述各个训练数据集对应的第一目标适配模块;
对所述多个训练数据集各自对应的第一目标适配模块携带的模型参数进行融合处理,以得到第二目标适配模块,并在所述初始的预训练语言模型中添加所述第二目标适配模块,得到目标文本分类模型。
2.根据权利要求1所述的方法,其特征在于,所述初始的预训练语言模型包括多个注意力模块,所述各个文本分类模型是在所述初始的预训练语言模型的每个注意力模块中添加所述适配模块得到。
3.根据权利要求2所述的方法,其特征在于,所述通过各个训练数据集对应的文本分类模型,对各个训练数据集中的样本文本进行分类,得到各个训练数据集中的样本文本的预测类别,包括:
针对每个训练数据集,在每轮训练过程中,随机激活所述训练数据集对应的文本分类模型中的部分适配模块,以及通过激活后的文本分类模型对所述训练数据集中的样本文本进行分类,得到所述训练数据集中的样本文本在本轮训练的预测类别;
所述基于所述各个训练数据集中的样本文本的预测类别及类别标签,优化所述各个训练数据集对应的文本分类模型中的适配模块,以得到所述各个训练数据集对应的第一目标适配模块,包括:
针对每个训练数据集,在每轮训练过程中,基于所述训练数据集中的样本文本在本轮训练的预测类别及类别标签,优化所述训练数据集对应的文本分类模型中被激活的适配模块;
在所述训练数据集对应的文本分类模型满足预设训练停止条件的情况下,将该文本分类模型在最后一轮训练过程中被激活的适配模块,确定为所述训练数据集对应的第一目标适配模块。
4.根据权利要求3所述的方法,其特征在于,所述对所述多个训练数据集各自对应的第一目标适配模块携带的模型参数进行融合处理,以得到第二目标适配模块,包括:
针对每个训练数据集,基于所述训练数据集对应的第一目标适配模块在所述训练数据集对应的文本分类模型中所属的注意力模块,确定所述训练数据集对应的第一目标适配模块的权重;
基于各个训练数据集对应的第一目标适配模块的权重,对于各个训练数据集对应的第一目标适配模块携带的模型参数进行加权求和后平均处理,得到目标模型参数;
基于所述目标模型参数,生成所述第二目标适配模块。
5.根据权利要求3所述的方法,其特征在于,所述在初始的预训练语言模型中添加所述第二目标适配模块,得到目标文本分类模型,包括:
在初始的预训练语言模型包括多个注意力模块的情况下,在初始的预训练语言模型的每个注意力模块中添加所述第二目标适配模块,得到所述目标文本分类模型。
6.根据权利要求3所述的方法,其特征在于,所述在初始的预训练语言模型中添加所述第二目标适配模块,得到目标文本分类模型,包括:
在初始的预训练语言模型包括多个注意力模块的情况下,针对每个训练数据集,根据所述训练数据集对应的第一目标适配模块在所述训练数据集对应的文本分类模型中所属的注意力模块,确定初始的预训练语言模型的目标注意力模块;
在初始的预训练语言模型的目标注意力模块中添加所述第二目标适配模块,得到所述目标文本分类模型。
7.一种文本分类方法,其特征在于,包括:
获取待处理的目标文本;
将所述目标文本输入目标文本分类模型,得到所述目标文本的预测类别,其中,所述目标文本分类模型为基于权利要求1至6中任一项所述的文本分类模型的训练方法训练得到。
8.一种文本分类模型的训练装置,其特征在于,包括:
第一获取单元,用于获取多个训练数据集,所述多个训练数据集包括历史训练数据集和至少一个新增训练数据集,每个训练数据集包括本文本及所述样本文本的类别标签;
第一分类单元,用于通过各个训练数据集对应的文本分类模型,对各个训练数据集中的样本文本进行分类,得到各个训练数据集中的样本文本的预测类别,各个文本分类模型是在初始的预训练语言模型中添加适配模块得到,携带有所述初始的预训练语言模型进行文本分类所需的模型参数;
优化单元,用于基于所述各个训练数据集中的样本文本的预测类别及类别标签,优化所述各个训练数据集对应的文本分类模型中的适配模块,以得到各个训练数据集对应的第一目标适配模块;
融合单元,用于对所述多个训练数据集各自对应的第一目标适配模块携带的模型参数进行融合处理,以得到第二目标适配模块,并于在所述初始的预训练语言模型中添加所述第二目标适配模块,得到目标文本分类模型。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的文本分类模型的训练方法;或者,所述处理器被配置为执行所述指令,以实现如权利要求7所述的文本分类方法。
10.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至6中任一项所述的文本分类模型的训练方法;或者,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求7所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310637467.6A CN117493555A (zh) | 2023-05-31 | 2023-05-31 | 文本分类模型的训练方法、文本分类方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310637467.6A CN117493555A (zh) | 2023-05-31 | 2023-05-31 | 文本分类模型的训练方法、文本分类方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117493555A true CN117493555A (zh) | 2024-02-02 |
Family
ID=89669604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310637467.6A Pending CN117493555A (zh) | 2023-05-31 | 2023-05-31 | 文本分类模型的训练方法、文本分类方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117493555A (zh) |
-
2023
- 2023-05-31 CN CN202310637467.6A patent/CN117493555A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920654B (zh) | 一种问答文本语义匹配的方法和装置 | |
CN110263152A (zh) | 基于神经网络的文本分类方法、系统及计算机设备 | |
CN111881973A (zh) | 一种样本选择方法、装置、存储介质及电子设备 | |
CN111325444B (zh) | 一种风险防控决策方法、装置、系统及设备 | |
CN110008991B (zh) | 风险事件的识别、风险识别模型的生成方法、装置、设备及介质 | |
CN116756577B (zh) | 模型训练方法、装置、设备及存储介质 | |
CN111753878A (zh) | 一种网络模型部署方法、设备及介质 | |
CN111507726B (zh) | 一种报文生成方法、装置及设备 | |
CN116227467A (zh) | 模型的训练方法、文本处理方法及装置 | |
CN115712866A (zh) | 数据处理方法、装置及设备 | |
CN116630480B (zh) | 一种交互式文本驱动图像编辑的方法、装置和电子设备 | |
CN112527959B (zh) | 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法 | |
CN116308738B (zh) | 一种模型训练的方法、业务风控的方法及装置 | |
CN105740916B (zh) | 图像特征编码方法及装置 | |
CN117493555A (zh) | 文本分类模型的训练方法、文本分类方法及相关设备 | |
CN111783453B (zh) | 文本的情感信息处理方法及装置 | |
CN111242195B (zh) | 模型、保险风控模型训练方法、装置及电子设备 | |
CN111400484B (zh) | 一种关键词提取方法和系统 | |
CN111368071A (zh) | 基于视频相关文本的视频检测方法、装置及电子设备 | |
CN116862676A (zh) | 一种交易方的风险检测方法、装置及设备 | |
CN113033212B (zh) | 文本数据处理方法及装置 | |
CN110990522B (zh) | 一种法律文书的确定方法和系统 | |
CN114579813A (zh) | 一种数据的处理方法、装置及设备 | |
CN116306650A (zh) | 模型的训练方法、多标签定性词识别方法及相关设备 | |
CN117034926A (zh) | 一种针对多领域文本分类模型的模型训练的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |