CN114491036A

CN114491036A - 一种基于自监督和有监督联合训练的半监督文本分类方法及系统

Info

Publication number: CN114491036A
Application number: CN202210087416.6A
Authority: CN
Inventors: 杨兰; 周兴发; 孙锐; 展华益
Original assignee: Sichuan Cric Technology Co ltd
Current assignee: Sichuan Cric Technology Co ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-05-13

Abstract

本发明公开了一种基于自监督和有监督联合训练的半监督文本分类方法及系统，包括以下步骤：采集任务相关数据集，所述数据集包括标注数据集T和未标注数据集U；对所述数据集进行数据增强处理，将处理后得到的增强视图用于扩充原始数据集，得到新样本数据集，所述新样本数据集包括标注数据集T'和未标注数据集U'；构建文本语义特征提取网络模型，基于文本语义特征提取网络模型获取文本语义特征向量；在所述文本语义特征提取网络模型上构建分类层，得到分类模型；从所述新样本数据集中重复采样得到batch数据组，每个batch数据组内均包含标注数据和未标注数据；采用所述batch数据组在分类模型上进行分类和对比学习的联合训练,更新模型参数。

Description

一种基于自监督和有监督联合训练的半监督文本分类方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于自监督和有监督联合训练的半监督文本分类方法及系统。

背景技术

近年来，随着互联网技术的快速发展，电子文本数据的数量呈爆炸式增长，如何有效地组织和管理这些文本数据就显得越来越重要。文本分类作为自然语言处理领域的核心技术，可以自动、高效、准确地处理海量数据，在搜索引擎、舆情分析、信息过滤、人机对话等多个领域被广泛应用并取得了满意的工程效果。

然而，传统的文本分类方法通常基于有监督式学习，这种学习方式十分依赖大量高质量标注数据，而数据标注往往需要昂贵的成本。因此，半监督学习，一种结合有监督和无监督的学习方式，成为文本分类的一个关键突破点，它能够同时利用少量标注数据和大量无标注数据，降低标注成本，同时还能获得良好性能。

现有的半监督分类方法大多是将标注数据和非标注数据完全分离来进行训练，虽然可以利用未标注数据中的语义信息，但是模型仍然容易过拟合于有限的标注数据中，不能有效表征数据特征，特别是在样本差异性不是特别明显的场景中，很难达到用户使用要求。此外，对比学习，一种自监督学习方法，不需要人工标注信息，直接利用数据本身作为监督信息来学习样本数据特征，已在计算机视觉领域取得了显著效果，却鲜有在自然语言处理领域的半监督学习中得到应用。

发明内容

本发明的目的在于提供一种基于自监督和有监督联合训练的半监督文本分类方法及系统，以期解决背景技术中存在的技术问题。

为了实现上述目的，本发明采用以下技术方案：

一种基于自监督和有监督联合训练的半监督文本分类方法，包括以下步骤：

采集任务相关数据集，所述数据集包括标注数据集T和未标注数据集U；

对所述数据集进行数据增强处理，将处理后得到的增强视图用于扩充原始数据集，得到新样本数据集，所述新样本数据集包括标注数据集T'和未标注数据集U'；

构建文本语义特征提取网络模型，基于文本语义特征提取网络模型获取文本语义特征向量；

在所述文本语义特征提取网络模型上构建分类层，得到分类模型；

从所述新样本数据集中重复采样得到batch数据组，每个batch数据组内均包含标注数据和未标注数据；

采用所述batch数据组在分类模型上进行分类和对比学习的联合训练,更新模型参数。

在一些实施例中，所述步骤采集任务相关数据集，所述数据集包括标注数据集T和未标注数据集U，包括：利用数据采集工具采集任务相关数据集；标注数据集T采用人工标注的方法、采用辅助工具进行半自动标注的方法、采用基于规则和词典进行全自动标注的方法进行标注。

在一些实施例中，所述数据增强处理采用基于字/词的数据增强方法，所述基于字/词的数据增强方法包含但不限于：回译、同义词替换、随机插入、随机删除、随机打乱句子顺序。

在一些实施例中，所述数据增强处理采用基于Embedding的数据增强方法，基于Embedding的数据增强方法包含但不限于：生成对抗样本、Dropout、SpatialDropout1D。

在一些实施例中，所述文本语义特征提取网络模型包含两大部分：特征提取基础模型和池化层；特征提取基础模型的输出为向量序列；

特征提取基础模型由以下神经网络实现：卷积神经网络、循环神经网络、Attention神经网络以及基于Transformer的各类预训练模型；

将特征提取基础模型的输出进行池化操作，获得样本语义特征向量；

池化操作包含但不限于：最大池化，平均池化。

在一些实施例中，所述分类层包含多个全连接层和一个softmax层；所述分类模型与所述文本语义特征提取网络模型实现参数共享。

在一些实施例中，每个batch数据组内标注数据和未标注数据的占比为0.6:0.4；每个未标注数据在batch数据组内存在其增强视图。

在一些实施例中，所述采用所述batch数据组在分类模型上进行分类和对比学习的联合训练,更新模型参数，包括：

构造自监督任务，采用未标注数据U'在所述特征提取模型上进行对比学习；

构造分类任务，采用标注数据T’在所述分类模型上进行文本分类任务；

采用所述batch数据组在分类模型上实现上述两个任务联合训练,更新模型参数。

在一些实施例中，所述构造自监督任务，采用未标注数据U'在所述特征提取模型上进行对比学习，包括：

通过所述特征提取模型获取未标注样本的语义特征向量；

将未标注数据与其增强视图视作正例，将未标注数据与batch数据组内其余数据视作负例；

通过式(1)、式(2)计算对比损失，通过最小化损失，实现正样例靠近，负样例远离的效果：

其中，L_i是batch内任一未标注样本的对比损失，L_U'是batch所有未标注样本对比损失之和；N是一个batch中数据总量，r_i指的是batch中第i个文本的语义特征向量，r_j指的是r_i在batch内的增强视图所对应的语义特征向量，sim是余弦距离函数，τ是温度系数，I是指示函数；

所述构造分类任务，采用标注数据T’在所述分类模型上进行文本分类任务，包括：通过所述分类模型获取标注样本预测类别的概率分布；

采用式(3)所示交叉熵函数作为分类训练的损失函数；

其中，p_i指的是batch中第i个文本的真实类别，q_i指的是batch中第i个文本的预测值的概率分布；

所述采用所述batch数据组在分类模型上实现上述两个任务联合训练,更新模型参数，包括：

计算整个模型的总损失函数如式(4)所示，通过最小化总损失，实现分类和对比学习的联合训练，共同更新模型参数：

L＝αL_U'+(1-α)L_T' (4)

其中，α是超参数。

本实施例还提供了一种基于自监督和有监督联合训练的半监督文本分类的系统，应用于上述的方法，包括：

数据采集模块，用于采集任务相关的数据；

数据增强模块，用于对已采集数据进行数据增强，并扩充数据集；

语义特征提取模型构造模块，用于构造特征提取网络模型；

训练数据采样模块，用于采样batch数据组，为后续模型训练做准备；

分类层构造模块，用于在所述特征提取网络模型上继续搭建分类层，获得分类模型；

分类模型训练模块，用于分类任务和对比学习的联合训练，共同更新模型参数。

本申请所披露的一种基于自监督和有监督联合训练的半监督文本分类方法及系统可能带来的有益效果包括但不限于：使用分类(有监督)和对比学习(自监督)联合训练模型的方法，可以有效避免模型易在标注数据集上过拟合的问题。采用对比学习，将未标注数据分别与正样本和负样本在特征空间进行对比，可以使得模型更好地学习文本语义特征，显著提高模型分类性能。

附图说明

图1为本发明中的一种基于自监督和有监督联合训练的半监督文本分类系统结构框图；

图2为实施例中的一种基于自监督和有监督联合训练的半监督文本分类方法流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

相反，本申请涵盖任何由权利要求定义的在本申请的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本申请有更好的了解，在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。

以下将结合图1-2对本申请实施例所涉及的一种基于自监督和有监督联合训练的半监督文本分类方法及系统进行详细说明。值得注意的是，以下实施例仅仅用于解释本申请，并不构成对本申请的限定。

实施例1：

在本申请的实施例中，图1示出了本发明一种基于自监督和有监督联合训练的半监督文本分类方法的实施例一的流程图。

A、采集任务相关数据集，所述数据集包括标注数据集T和未标注数据集U；

利用数据采集工具采集任务相关数据集。

从上述数据集中选取部分未标注数据，利用多种标注策略(人工标注，采用辅助工具进行半自动标注，基于规则和词典进行全自动标注)获取其对应的类别标签。

B、对所述数据集进行数据增强处理，将处理后得到的增强视图用于扩充原始数据集，得到新样本数据集，所述新样本数据集包括标注数据集T'和未标注数据集U'；

具体的，原标注数据经过数据增强后得到的增强视图，和原数据拥有相同的类别标签。原未标注数据经过数据增强后得到增强视图，该增强视图依然无类别标签。

数据增强的方法可采用基于字/词的数据增强方法，具体有：回译、同义词替换、随机插入、随机删除、随机打乱句子顺序等；

数据增强的方法还可采用基于Embedding的数据增强方法，具体有：生成对抗样本、Dropout、SpatialDropout1D等。

C、构建文本语义特征提取网络模型，基于文本语义特征提取网络模型获取文本语义特征向量；

文本语义特征提取网络模型包括两大部分:特征提取基础模型和池化层。

具体地，特征提取基础模型采用的是Bert-base,池化层采用的是Max_Pooling。

D、在所述文本语义特征提取网络模型上构建分类层，得到分类模型；

具体地，将特征提取模型的池化层后接两个全连接层以及一个softmax层，实现基于文本语义特征进行分类。两个全连接层的输出空间维度分别为384，192，softmax层的输出空间维度和类别标签个数一致。构造完成的分类模型与所述特征提取模型实现参数共享。

E、从所述新样本数据集中重复采样得到batch数据组，每个batch数据组内均包含标注数据和未标注数据；

具体地，每个batch数据组内标注数据和未标注数据的占比为0.6:0.4；

每个未标注数据在batch数据组内一定存在其增强视图。

F、采用所述batch数据组在分类模型上进行分类(有监督)和对比学习(自监督)的联合训练,更新模型参数；

具体地，首先构建两个训练任务：采用未标注数据U'在所述特征提取模型上进行对比学习；采用标注数据T’在所述分类模型上进行文本分类任务，接着，采用所述batch数据组在分类模型上实现上述两个任务联合训练,更新模型参数。

采用未标注数据U'在所述特征提取模型上进行对比学习，具体地：

通过所述特征提取模型获取未标注样本的语义特征向量；

其中，L_i是batch数据组内任一未标注样本的对比损失，L_U'是batch数据组所有未标注样本对比损失之和。N是一个batch中数据总量，r_i指的是batch数据组中第i个文本的语义特征向量，r_j指的是r_i在batch数据组内的增强视图所对应的语义特征向量，sim是余弦距离函数，τ是温度系数，I是指示函数。在本实施例中，N设置为20，τ设置为0.1。

采用标注数据T’在所述分类模型上进行文本分类任务，具体地：

通过所述分类模型获取标注样本预测类别的概率分布；

采用式(3)所示交叉熵函数作为分类训练的损失函数。

其中，p_i指的是batch数据组中第i个文本的真实类别，q_i指的是batch数据组中第i个文本的预测值的概率分布。

采用所述batch数据组在分类模型上实现上述两个任务联合训练,更新模型参数，具体地：

L＝αL_U'+(1-α)L_T' (4)

其中，α是超参数，本实施例中设置为0.6，训练轮数epoch为15。

实施例2：

图2示本发明一种基于自监督和有监督联合训练的半监督文本分类系统的结构示意图，包括：

数据采集模块，用于采集任务相关的数据；

语义特征提取模型构造模块，用于构造特征提取网络模型；

通过本发明实施例2提供的一种基于自监督和有监督联合训练的半监督文本分类系统，使用分类(有监督)和对比学习(自监督)联合训练模型的方法，可以有效避免模型易在标注数据集上过拟合的问题。采用对比学习，将未标注数据分别与正样本和负样本在特征空间进行对比，可以使得模型更好地学习文本语义特征，显著提高模型分类性能。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，所述步骤采集任务相关数据集，所述数据集包括标注数据集T和未标注数据集U，包括：利用数据采集工具采集任务相关数据集；标注数据集T采用人工标注的方法、采用辅助工具进行半自动标注的方法、采用基于规则和词典进行全自动标注的方法进行标注。

3.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，所述数据增强处理采用基于字/词的数据增强方法，所述基于字/词的数据增强方法包含但不限于：回译、同义词替换、随机插入、随机删除、随机打乱句子顺序。

4.根据权利要求3所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，所述数据增强处理采用基于Embedding的数据增强方法，基于Embedding的数据增强方法包含但不限于：生成对抗样本、Dropout、SpatialDropout1D。

5.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，所述文本语义特征提取网络模型包含两大部分：特征提取基础模型和池化层；特征提取基础模型的输出为向量序列；

池化操作包含但不限于：最大池化，平均池化。

6.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，所述分类层包含多个全连接层和一个softmax层；所述分类模型与所述文本语义特征提取网络模型实现参数共享。

7.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，每个batch数据组内标注数据和未标注数据的占比为0.6:0.4；每个未标注数据在batch数据组内存在其增强视图。

8.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，所述采用所述batch数据组在分类模型上进行分类和对比学习的联合训练,更新模型参数，包括：

构造分类任务，采用标注数据T'在所述分类模型上进行文本分类任务；

9.根据权利要求8所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，所述构造自监督任务，采用未标注数据U'在所述特征提取模型上进行对比学习，包括：

通过所述特征提取模型获取未标注样本的语义特征向量；

所述构造分类任务，采用标注数据T′在所述分类模型上进行文本分类任务，包括：通过所述分类模型获取标注样本预测类别的概率分布；

采用式(3)所示交叉熵函数作为分类训练的损失函数；

L＝αL_U'+(1-α)L_T' (4)

其中，α是超参数。

10.一种基于自监督和有监督联合训练的半监督文本分类的系统，其特征在于，应用于权利要求1-9所述的方法，包括：

数据采集模块，用于采集任务相关的数据；

语义特征提取模型构造模块，用于构造特征提取网络模型；