CN116127065A

CN116127065A - 一种简单易用的增量学习文本分类方法及系统

Info

Publication number: CN116127065A
Application number: CN202211618549.8A
Authority: CN
Inventors: 杨兰; 周兴发; 饶璐; 孙锐; 展华益
Original assignee: Sichuan Cric Technology Co ltd
Current assignee: Sichuan Cric Technology Co ltd
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-05-16

Abstract

本发明公开了一种简单易用的增量学习文本分类方法及系统，该方法通过将文本分类任务转化为基于预训练模型的掩码语言任务，结合提示模板和标签词映射函数，设计了一种增量学习文本分类模型，该模型在增量学习中可以不改变模型原有的网络结构，减少人工介入，同时学习新、旧类别数据，降低了模型增量学习难度。

Description

一种简单易用的增量学习文本分类方法及系统

技术领域

本发明涉及自然语言处理领域，更具体地，本发明涉及一种简单易用的增量学习文本分类方法及系统。

背景技术

深度神经网络在意图检测、关系识别等大量文本分类任务上具有较好应用前景。但在神经网络模型监督学习中，模型经常会遇到以前没有见过的新类别数据，神经网络模型会将这些数据错误地分类到已知的类别中，从而导致分类准确率下降。为了解决上述问题，增量学习方法应运而生。

增量学习的目标是让计算机模拟人类学习模式，能够不断地从新样本中学习新的知识，并能保存以前学习到的旧知识。增量学习面临的最大问题是“灾难性遗忘”，即学习新任务忘记旧任务的现象。目前，解决灾难性遗忘主要采用三类技术：基于回放、基于正则化及基于参数隔离。但上述方法依旧存在需要人工介入较多，模型增量学习难度较高的问题。

发明内容

本发明克服了现有技术的不足，提供一种简单易用的增量学习文本分类方法及系统，以期望可以解决现有技术中增量学习需要人工介入较多，模型增量学习难度较高的问题。

本发明一方面提供了一种简单易用的增量学习文本分类方法，包括以下步骤：

S1、获取已标注的原始分类数据集D_ori，类别集合为Y_n，并将原始分类数据集D_ori转化为带提示模板的MLM训练样本集；

S11、制定提示模板prompt；

S12、构建标签词映射函数f，通过标签词映射函数f将类别集合Y_n中的类别映射为类别标签，形成类别标签集合L_n；

S13、基于所述提示模板prompt和标签词映射函数f，将原分类文本转换为包含掩码填写位置[MASK]的带提示模板数据，所述掩码填写位置[MASK]用于填写与待分类文本匹配的类别标签；

S2、将文本分类任务转化掩码语言(即完型填空)任务，搭建MLM(Mask LanguageModel)模型，模型后续以M表示，作为分类模型，并基于上述原始MLM训练样本集T_n进行模型初始训练，将训练完成的分类模型标记为M_n；

S3、从原始分类数据集D_ori中筛选信息内容丰富的历史数据集D_old；

S31、对原始分类数据D_ori做特征提取，将原始MLM训练样本T_n输入至已训练完成的模型M中，将模型输出的[CLS]向量表示作为输入样本的特征；

S32、基于提取的样本特征表示，对样本进行聚类；

S33、挑选典型样本D_old，对聚类后的每一个簇进行处理，计算样本与簇心的欧式距离，将靠近簇心的Top-K个样本作为代表性样本挑选出来进行存储。

S4、搜集新增类别数据集D_new，并和历史数据集D_old汇总，形成新的训练数据集D_t，并将D_t转换为带提示模板的MLM训练样本集T_n+1；

S5、基于所述新的MLM训练样本T_n+1对分类模型M_n进行增量训练，得到可以预测新、旧类别数据的新模型M_n+1。

所述预测的概率分布的维度大小等于预训练词典大小，与新、旧类别合并后的集合大小无关。这使得增量训练中神经网络模型结构不用发生任何改变，减少了模型构造的负担。

本发明将文本分类任务转化为基于预训练模型的掩码语言任务，结合提示模板和标签词映射函数，设计了一种增量学习文本分类模型，该模型在增量学习中可以不改变模型原有的网络结构，减少人工介入，同时学习新、旧类别数据，降低了模型增量学习难度。

进一步的技术方案为，所述S2中将文本分类任务转化掩码语言任务，搭建MLM模型作为分类模型，并基于上述原始MLM训练样本集T_n进行模型初始训练，将训练完成的分类模型标记为M_n，具体包括以下步骤：

S21、文本分类模型采用基于transformer结构的MLM预训练模型，预训练模型的词典大小为υ；

S22、基于所述MLM模型，文本分类任务转化为完型填空任务，输入文本x属于某个类y的概率正比于x_prompt中[MASK]预测为映射的标签词f(y)的概率，见公式1：

p(y/x)∝M(([MASK]＝f(y))/x_prompt) (1)

其中，x为输入文本；

p(y/x)为x属于类别y的概率；

M为MLM(Mask Language Model)模型；

[MASK]为掩码填写位置；

f(y)为类别y经标签词映射函数f产生的类别标签；

x_prompt为x基于提示模板prompt和标签词映射函数f产生的结果。

利用所述预训练模型预测[MASK]位置在填入不同类别标签时的概率，将产生最大概率的类别标签所对应的类别作为待分类文本的预测类别。

S23、模型预测[MASK]位置的概率分布为：

其中，q([MASK]/x_prompt)为模型训练的损失函数与[MASK]位置处真实值间的交叉熵；

υ为所述MLM模型输出的概率分布维度；

由于υ与类别集合Y_n的大小无关，这使得增量训练中神经网络模型结构不用发生任何改变，减少了模型构造的负担。

更进一步的技术方案为，所述S4中搜集新增类别数据集D_new，并和历史数据集D_old汇总，形成新的训练数据集D_t，并将D_t转换为带提示模板的MLM训练样本集T_n+1，具体包括以下步骤：

S41、获取到新类别数据，并进行标注，得到标注好的新类别数据D_new，其中新类别集合为Y_new，Y_n∩Y_new＝Φ，其中，Φ表示空集；

S42、通过标签词映射函数f，将新类别集合Y_new中的类别映射为类别标签，形成类别标签集合L_new，L_n∩L_new＝Φ；

S43、合并新、旧类别标签集合，形成新标签集合L_n∪L_new→L_n+1，合并新、旧类别集合，形成新类别集合Y_n∪Y_new→Y_n+1；

S44、基于提示模板prompt和标签词映射函数f，将新类别数据转换为新MLM训练样本；

S45、将所述新MLM训练样本和旧的典型训练样本合并，形成T_n+1。

更进一步的技术方案为，所述分类模型具体为，基于transformer结构的MLM预训练模型。

更进一步的技术方案为，所述特征提取采用语义特征提取模型的方式。

更进一步的技术方案为，所述聚类采用kmeans或变种kmeans的一种。

更进一步的技术方案为，所述挑选典型样本采用挑选Top-K个样本或设置阈值的方式。

更进一步的技术方案为，所述增量训练中，模型的初始网络参数可以是上一轮已训练完成的模型，也可以是未经微调的预训练模型参数。

本发明在另一方面还提供了一种简单易用的增量学习文本分类系统，包括：

原始分类数据集获取模块，用于采集原始分类数据集；

文本分类模型搭建及训练模块，用于搭建分类模型并训练，将训练完成的模型表示为M_n；

典型旧样本获取模块，用于从原始分类数据集中获取典型样本；

新增类别样本获取模块，用于采集新增类别数据并标注，将标注好的数据和典型旧样本数据混合后，转换为新MLM训练样本；

增量学习模块，基于新MLM训练样本，对上轮训练完成的模型M_n继续增量学习，获得可以同时预测新、旧类别数据的新模型M_n+1。

与现有技术相比，本发明至少具有以下有益效果：本发明提供了一种简单、新颖、有效地缓解灾难性遗忘并提升模型文本分类准确率的增量学习方法。通过将文本分类任务转化为基于预训练模型的掩码语言任务，结合提示模板和标签词映射函数，设计了一种增量学习文本分类模型，该模型在增量学习中可以不改变模型原有的网络结构，减少人工介入，同时学习新、旧类别数据，降低了模型增量学习难度。

附图说明

图1为本发明实施例一的流程示意图；

图2为本发明实施例二的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

参见图1，一种简单易用的增量学习文本分类方法，包括以下步骤：

S11、制定提示模板prompt；

经该步骤，原始分类数据集D_ori转换为MLM训练样本集T_n。

S2、将文本分类任务转化掩码语言(即完型填空)任务，搭建MLM模型(用M表示)作为分类模型，并基于上述原始MLM训练样本集T_n进行模型初始训练，将训练完成的分类模型标记为M_n；

S21、文本分类模型采用基于transformer结构的MLM(Mask Language Model)预训练模型，预训练模型的词典大小为υ；

S22、基于所述MLM模型，文本分类任务转化为完型填空任务，输入文本x属于某个类y的概率正比于x_prompt中[MASK]预测为映射的标签词f(y)的概率，见公式1；

p(y/x)∝M(([MASK]＝f(y))/x_prompt) (1)

其中，x为输入文本；

p(y/x)为x属于类别y的概率；

M为MLM(Mask Language Model)模型；

[MASK]为掩码填写位置；

f(y)为类别y经标签词映射函数f产生的类别标签；

x_prompt为x基于提示模板prompt和标签词映射函数f产生的结果。

S23、模型预测[MASK]位置的概率分布为：

υ为所述MLM模型输出的概率分布维度；

值得说明的是，所述特征提取采用语义特征提取模型的方式，具体可以为，已微调或者未经微调的预训练模型、卷积神经网络、长短期记忆网络等模型，在本实施例中，采用未经微调的预训练模型。

S32、基于提取的样本特征表示，采用kmeans或变种kmeans对样本进行聚类；

所述聚类采用kmeans或变种kmeans的一种，在本实施例中采用kmeans。

所述挑选典型样本采用挑选Top-K个样本或设置阈值的方式，在本实施例中采用设置阈值的方式。

S41、获取到新类别数据，并进行标注，得到标注好的新类别数据D_new，其中新类别集合为Y_new，Y_n∩Y_new＝Φ；

实施例二

参见图2，一种简单易用的增量学习文本分类系统，包括：

原始分类数据集获取模块，用于采集原始分类数据集；

尽管这里参照本发明的解释性实施例对本发明进行了描述，但是，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说，在本申请公开的范围内，可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变型和改进外，对于本领域技术人员来说，其他的用途也将是明显的。

Claims

1.一种简单易用的增量学习文本分类方法，其特征在于，包括以下步骤：

S11、制定提示模板prompt；

S2、将文本分类任务转化掩码语言任务，搭建MLM模型，模型后续以M表示，作为分类模型，并基于上述原始MLM训练样本集T_n进行模型初始训练，将训练完成的分类模型标记为M_n；

S32、基于提取的样本特征表示，对样本进行聚类；

S33、挑选典型样本D_old，对聚类后的每一个簇进行处理，计算样本与簇心的欧式距离，将靠近簇心的Top-K个样本作为代表性样本挑选出来进行存储；

2.如权利要求1所述的一种简单易用的增量学习文本分类方法，其特征在于，所述S2中将文本分类任务转化掩码语言任务，搭建MLM模型作为分类模型，并基于上述原始MLM训练样本集T_n进行模型初始训练，将训练完成的分类模型标记为M_n，具体包括以下步骤：

p(y/x)∝M(([MASK]＝f(y))/x_prompt) (1)

其中，x为输入文本；

p(y/x)为x属于类别y的概率；

M为MLM(Mask Language Model)模型；

[MASK]为掩码填写位置；

f(y)为类别y经标签词映射函数f产生的类别标签；

x_prompt为x基于提示模板prompt和标签词映射函数f产生的结果；

S23、模型预测[MASK]位置的概率分布为：

υ为所述MLM模型输出的概率分布维度。

3.如权利要求1所述的一种简单易用的增量学习文本分类方法，其特征在于，所述S4中搜集新增类别数据集D_new，并和历史数据集D_old汇总，形成新的训练数据集D_t，并将D_t转换为带提示模板的MLM训练样本集T_n+1，具体包括以下步骤：

4.如权利要求1所述的一种简单易用的增量学习文本分类方法，其特征在于，所述分类模型具体为，基于transformer结构的MLM预训练模型。

5.如权利要求1所述的一种简单易用的增量学习文本分类方法，其特征在于，所述特征提取采用语义特征提取模型的方式。

6.如权利要求1所述的一种简单易用的增量学习文本分类方法，其特征在于，所述聚类采用kmeans或变种kmeans的一种。

7.如权利要求1所述的一种简单易用的增量学习文本分类方法，其特征在于，所述挑选典型样本采用挑选Top-K个样本或设置阈值的方式。

8.如权利要求1所述的一种简单易用的增量学习文本分类方法，其特征在于，所述增量训练中，模型的初始网络参数可以是上一轮已训练完成的模型，也可以是未经微调的预训练模型参数。

9.一种简单易用的增量学习文本分类系统，其特征在于，包括：

原始分类数据集获取模块，用于采集原始分类数据集；