CN116521863A

CN116521863A - 一种基于半监督学习的标签抗噪文本分类方法

Info

Publication number: CN116521863A
Application number: CN202211714103.5A
Authority: CN
Inventors: 曹斌; 姜钦凯; 蒋凯; 范菁
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-08-01

Abstract

本发明公开一种基于半监督学习的标签抗噪文本分类方法，该方法首先通过任务自适应预训练预测出每个样本在每个类别上的概率，再使用置信学习方法来评估每个样本的标签质量，将所有训练数据划分为噪声样本和干净样本；对噪声样本进行处理，借助数据增强、集成学习等策略来预测噪声样本的伪标签，使用MixMatch方法来集成一致性正则化、熵最小化和传统正则化方法，结合半监督学习的主流范式思想和组件，将原始标签和伪标签结合起来重新标记噪声样本；最后结合噪声样本和干净样本，使用MixUp方法以线性插值的方式重新构建新的训练样本和标签并重新训练最终的文本分类模型。该方法极大地利用了噪声标签数据，将噪声样本的利用率最大化，提升了神经网络的鲁棒性。

Description

一种基于半监督学习的标签抗噪文本分类方法

技术领域

本发明属于自然语言处理和噪声标签学习的交叉领域，尤其涉及一种基于半监督学习的标签抗噪文本分类方法。

背景技术

近年来，随着深度学习研究的深入，相关研究发现深度神经网络在众多场景中取得的成果离不开大量的真实标签信息，高质量的数据是其分类模型训练的基础。然而，在现实复杂的生活场景中，噪声标签(Noisy labels)是一种正常现象，从存在噪声的标签中学习(Learning with noisy labels)也是一项巨大的挑战。其产生的原因有很多，专家在标注数据集时存在很多因素导致其标注错误，比如数据质量较差，辨识度较低，不同标注人会根据自己主观想法从不同角度对标签进行标记等等；还有可能是因为在数据编码或通信过程中出现问题而导致数据标签出现错误，使得样本数据中存在大量无法避免的错误标签。通常情况下，带有噪声标签的数据集在现实生活中无处不在。在自然语言处理的文本分类领域，同样存在噪声标签干扰的问题，这会严重影响深度学习模型泛化性能，导致文本分类预测不准确。例如在对电信客服投诉工单分类任务中，在用户提交故障、投诉以及办理业务等任务后，员工需要根据提交的信息处理投诉工单，并对这些投诉工单进行业务分类，而分类的准确性对业务处理效率而言非常关键。在自然语言处理领域，有关噪声标签的处理方法相对较少，目前大多数的噪声标签处理方式主要被应用于视觉领域，并不能直接适用于自然语言处理领域，因此，探究一种高效可行的文本分类噪声标签处理方法具有较好的研究和应用价值。

因此，理应提出更好的技术来应对关于数据集中存在大量噪声标签的问题。

发明内容

本发明的目的在于针对现实世界中数据集存在大量噪声导致深度学习模型训练效果较差的情况，提出了一种基于半监督学习的标签抗噪文本分类方法。

本发明的目的是通过以下技术方案来实现的：一种基于半监督学习的标签抗噪文本分类方法，包括以下步骤：

S1：预训练：将文本分类任务本身的训练数据当作无标签数据进行预训练并预测出每个样本在每个类别上的概率所述训练样本，即文本分类任务中每一条需要分类的文本样本；

S2：噪声数据划分：将步骤S1预测得到的概率和原带噪标签作为置信学习的输入，通过置信学习方法划分出噪声数据U和干净数据C；所述原带噪标签为原训练样本已经人为标记的标签；

S3：数据增强：将步骤S2得到的噪声数据U进行多种数据增强处理，得到扩充后的文本；

S4：集成学习：将步骤S3得到扩充后的文本，分别进行多种模型预测，预测出每个样本属于每个类别的概率；

S5：噪声样本重新标记：使用混合匹配方法，计算步骤S4得到的概率均值，并猜测其伪标签，即对每一条样本赋予一个新的预测标签，使用锐化方法进行熵最小化处理；

S6：重新训练并得到最终模型：使用混合方法将S2中划分出的噪声数据U和干净数据C进行混合，构建新的训练样本和标签并进行模型重新训练，当损失函数最小时训练结束，得到最终的文本分类模型。

进一步地，所述步骤S1中，预训练使用任务自适应预训练方法TAPT；

(1)利用BERT作为预训练模型；

(2)所述任务自适应预训练方法TAPT即将该任务本身训练数据当作无标签数据进行第二阶段的预训练，得到任务自适应的预训练语言模型。

进一步地，所述步骤S2中，使用置信学习方法的计数和过滤两个步骤进行划分，所述置信学习不需要任何超参数，只需要两个输入，即预测概率和带噪标签/>主要使用以下步骤实现：

(1)计数Count：估计噪声标签和真实标签的联合分布；计算公式如下

其中，X表示样本；所述真实标签y^*为估计值，第i个样本在第j个类别下的概率为置信度阈值t_j表示每个人工标注类别j下的平均概率，计数矩阵/>即人工标记为k但实际为j标签的样本个数，筛选出人工标记为k的样本集合，计算样本集合中实际标签为j的样本个数，即判断/>的样本个数；

(2)过滤Clean：找出并过滤掉错误样本，在得到计数矩阵后，选取进入非对角单元的样本作为含有噪声标签的样本，即

进一步地，所述步骤S3中，使用三种数据增强方法对噪声样本进行数据增强；所述三种数据增强方法分别为使用回译法、条件双向变换器编码器(方法和使用随机失活方法。

进一步地，所述步骤S4中，集成了三种预训练模型进行概率预测；所述三种预训练模型分别为：双向变换器编码器预训练模型BERT、大规模双向变换器编码器预训练模型RoBERT和语言理解的广义自回归预训练模型XLNet。

进一步地，所述步骤S5中，使用混合匹配方法并结合步骤S4的集成学习方法对噪声样本进行了重新标记，主要存在以下步骤：

(1)标签猜测：对于单个没有标注的样例，计算经过数据增强和集成学习模型预测后的概率均值，猜测其“伪”标签，这个得到的标签会加入到无监督损失项中，其数学表达式为：

其中，K表示数据增强方法个数；M表示预测模型个数；m表示；p_model表示模型预测为y的概率；y表示模型预测的标签结果；表示第k个数据增强方法第b个未标记样本；

(2)锐化Sharpen：根据标签置信度w_i，将噪声标签与模型预测出的标签/>进行线性组合，得到新的噪声标签/>是对M个模型的平均预测，使用锐化的方法进行熵最小化处理：

其中是对M个模型的平均预测，T是温度参数，可以调节分类熵，调节T趋向0，则趋向于独热分布，即one-hot分布，即对某一类别输出概率为1，其他所有类别输出概率为0，此时分类熵最低，L是分类的类别。

具体地，所述步骤6中，使用混合方法以线性插值的方式来构建新的训练样本和标签，对于样本(x1,y1)和样本(x2,y2)，通过以下方式获得混合后的样本(x′,y′)：

B(α,α)＝∫₀ ¹x^α-1(1-x)^α-1dx

λ～Beta(α,α)

λ′＝max(λ,1-λ)

x′＝λ′x₁+(1-λ′)x₂

y′＝λ′y₁+(1-λ′)y₂

其中B(α,α)表示贝塔分布；λ′表示超参数；x′表示线性插值处理后的样本；α是超参数，λ是随机变量且服从Beta分布；

对于含有干净标签的数据C＝((c_i,p_i)；i∈(1,…,N))和重新预测标签的噪声数据将其串联(Concat)起来并洗牌(Shuffle)形成MixUp所需要的数据源W：

对于第i个样例，计算MixUp(C_i,W_i)加入到集合C′中，计算加入到集合U′中，使得C转变为C′，U转变为U′。

具体地，在U′上使用L₂损失，而在C′上使用交叉熵损失，二者的数学表达式如下：

其中|C′|等于批大小batchsize，|U′|等于k倍的批大小batchsize，p_model(y|c；θ)表示；p_model(y|u；θ)表示；L是分类类别个数；

则得到最终的损失函数为：

L＝L_c+λ_UL_U

其中，λ_U是无监督损失权重。

本发明的有益效果是：本发明基于半监督学习思想，综合使用了数据增强、集成学习、BERT预训练、置信学习等一系列方法，使得其在不同数据集中都具有较好的表现效果，能够有效减少噪声标签数据的干扰。相较于其他噪声标签处理方法丢弃了噪声数据或者对噪声数据赋予一个比较小的权重，这样导致样本浪费并且降低了神经网络的鲁棒性，本发明提出的方法极大地利用了噪声数据，提高了对噪声标签地容忍度，能够进行容错学习，在一定程度上解决了存在噪声标签影响最终文本分类结果准确性的问题。

附图说明

图1是本发明设计的流程图；

图2是本发明使用置信学习方法的流程图；

图3是本发明实验结果图。

具体实施方式

下面结合附图以及具体实例对本发明提出的方法进行进一步的详细说明。

本发明提出一种基于半监督学习的标签抗噪文本分类方法。基于BERT预训练语言模型，使用任务自适应预训练和置信学习等方法划分噪声数据和干净数据。然后对噪声数据进行一系列处理，增强文本的多样性，提升神经网络的鲁棒性，主要使用了三种数据增强方法，集成了三种方法进行类别概率预测。最后基于半监督思想，使用MixMatch方法对噪声标签进行重新标记，使用MixUp方法重新构建训练样本并进行重新训练。总共分为四个模块，各模块有机结合，具体流程图如图1所示，包括以下步骤：

S5：噪声样本重新标记：使用混合匹配方法，计算步骤S4得到的概率均值，并猜测其伪标签，即对每一条样本赋予一个新的预测标签，使用锐化方法进行熵最小化处理。

1、噪声数据划分

对于现实世界中带有噪声标签的原始数据集，将其当作无标注语料，作为预训练模型的训练数据。对于每一条文本，首先使用BERT进行编码操作，将每个字转换成向量表示，即进行字词嵌入，然后使用句子嵌入和位置嵌入操作，将三种嵌入映射到维度相同的高维空间，最后把他们加起来作为BERT预训练的输入，使用两个无监督的任务进行预训练，分别是掩码语言模型Masked LM和下一句预测Next Sentence Prediction。经过预训练任务后得到预训练后的模型，将每一条样本数据作为模型输入，预测出其在每个类别上的概率，作为置信学习方法的其中一个输入

经过预训练模型的预测后，需要使用置信学习方法来划分噪声数据和干净数据，置信学习基于分类噪声过程假设，认为噪声标签是以类别为条件的，仅仅依赖于潜在的正确类别，而不依赖于数据。通过估计给定带噪标签与潜在正确标签之间的条件概率分别类识别错误标签。对于置信学习，其学习框架只需要两个输入：一是使用预训练模型预测概率维矩阵，m表示标签数量，n表示训练样本数目，/>表示第i个训练样本属于第k个标签的预测概率)；二是带噪标签/>(对m个原始标签进行独热编码，即one-hot编码，使得/>是一个m维向量)。如图2所示，共需要两个步骤。

(1)计数Count：估计噪声标签和真实标签的联合分布。计算公式如下

其中，X表示样本；真实标签y^*(但事实上并不知道真实值，需要进行估计)，第i个样本在第j个类别下的概率为置信度阈值t_j表示每个人工标注类别j下的平均概率，计数矩阵/>即人工标记为k但实际为j标签的样本个数，筛选出人工标记为k的样本集合，计算样本集合中实际标签为j的样本个数，即判断/>的样本个数。

(2)找出并过滤掉错误样本。在得到计数矩阵后，选取进入非对角单元的样本作为含有噪声标签的样本，即

通过上述两个步骤，可以将所有的训练数据X划分为含有噪声标签的数据C和干净标签U，对于每一个样本x_i其标签置信度是指属于其原始标签的概率

2、数据增强模块

在深度学习中，一般要求样本的数量充足且质量高，训练出来的模型效果会更好，泛化能力更强。但实际上，这样的数据集非常少，因此需要对样本做数据增强，来提高样本的质量。而根据半监督学习的一致性正则化，数据增强后的样本标签与原始标签相同，所以可以对现有分离出的噪声样本进行数据增强。

为了提升最终训练模型的鲁棒性，本发明不只用一种数据增强方法，而是从不同角度分别选择了比较有代表性的文本数据方法，一共集成了三种数据增强方法，分别是回译法、条件双向变换器编码器CBert方法以及使用随机失活(Dropout)方法。其中回译法是目前文本数据增强方面效果较好的增强方法且操作简单；CBert方法是一种基于语言模型的情景增强方法且该方法明显优于现有的文本数据增强方法，是上下文数据增强的代表之一，由于本发明基于语言模型BERT，即双向变换器编码器预训练模型BERT，因此使用该方法不仅能够获得较好效果还能够减少代码量、减轻框架；使用随机失活(Dropout)方法的主要目的是对神经网络进行正则化，是通过修改神经网络本身实现的一种数据增强技巧，也是基于噪声方法的代表之一且操作方法简单。这三种方法分别从语义、语境和神经网络本身三个方面进行数据增强，具有一定的代表性。通过这三种数据增强方法后，原样本可以扩展为三份不同的语料样本，有利于提高训练语料的鲁棒性。

3、数据重新标记

在获得含有噪声的标记数据U及其增强数据后，需要对噪声数据重新标记，使其划分为相对正确的标记，本发明采用了与混合匹配(MixMatch)方法相似的思想来重新标记噪声数据，并进行了改进。使用MixMatch方法主要有两个步骤，分别是标签猜测(LabelGuessing)和锐化(Sharpening)。

在使用Labeling Guessing之前，为了减少单个模型的预测偏差，本发明使用集成学习来平均模型的预测结果，总共使用了三个模型，分别是双向变换器编码器预训练模型BERT、大规模双向变换器编码器预训练模型RoBERT和语言理解的广义自回归预训练模型XLNet。双向变换器编码器预训练模型BERT是一个大规模的语言模型；RoBERTa是BERT的改进版，使用了更多的数据，训练序列更长等方法；XLNet是一种通用的自回归预训练方法，解决了BERT不能用于生成、以及训练数据和测试数据的不一致等问题。通过使用三种模型来平均预测结果，可以进一步减少偏差，然后进行MixMatch方法操作。

(1)标签猜测(Label Guessing)：对于单个没有标注的样例，计算经过数据增强和集成学习模型预测后的概率均值，猜测其“伪”标签，这个得到的标签会加入到无监督损失项中。

(2)锐化(Sharpening)：根据标签置信度w_i，将噪声标签与模型预测出的标签/>进行线性组合，得到新的噪声标签/>是对M个模型的平均预测，使用锐化的方法进行熵最小化处理：

其中，是对M个模型的平均预测，T是温度参数，可以调节分类熵，调节T趋向0，则趋向于one-hot分布，即对某一类别输出概率为1，其他所有类别输出概率为0，此时分类熵最低，L是分类的类别。

4、重新训练

在对噪声样本进行重新标记后，使用混合(MixUp)方法以线性插值的方式来构建新的训练样本和标签，对于样本(x1,y1)和样本(x2,y2)，通过以下方式获得混合后的样本(x′,y′)：

B(α,α)＝∫₀ ¹x^α-1(1-x)^α-1dx

λ～Beta(α,α)

λ′＝max(λ,1-λ)

x′＝λ′x₁+(1-λ′)x₂

y′＝λ′y₁+(1-λ′)y₂

其中，α是超参数。

对于含有干净标签的数据C＝((c_i,p_i)；i∈(1,…,N))和重新预测标签的噪声数据将其串联起来并shuffle形成MixUp所需要的数据源W：

模型训练时，在U′上使用L₂损失，而在C′上使用交叉熵损失。

其中，|C′|等于batchsize，|U′|等于k倍的batchsize，L是分类类别个数。

得到最终的损失函数为：

L＝L_c+λ_UL_U

其中，λ_U是无监督损失权重。

经过最终的训练，可以获得最终的训练模型。此时，对于输入的分类样本可以通过训练好的模型进行预测，得到预测标签。

为了验证发明的有效性，将该方法应用到现实数据集中，以电信投诉工单数据为例，选取了十万条数据作为原始数据，选取基线Baseline为传统BERT模型、置信学习和划分混合(DivideMix)方法，采用准确率和F1值作为评价指标，最终得到的实验结果如图3所示，可以看出本发明的得到了最好的效果。

Claims

1.一种基于半监督学习的标签抗噪文本分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于半监督学习的标签抗噪文本分类方法，其特征在于，所述步骤S1中，预训练使用任务自适应预训练方法TAPT；

(1)利用BERT作为预训练模型；

3.根据权利要求1所述的一种基于半监督学习的标签抗噪文本分类方法，其特征在于，所述步骤S2中，使用置信学习方法的计数和过滤两个步骤进行划分，所述置信学习不需要任何超参数，只需要两个输入，即预测概率和带噪标签/>主要使用以下步骤实现：

4.根据权利要求1所述的一种基于半监督学习的标签抗噪文本分类方法，其特征在于，所述步骤S3中，使用三种数据增强方法对噪声样本进行数据增强；所述三种数据增强方法分别为使用回译法、条件双向变换器编码器(方法和使用随机失活方法。

5.根据权利要求1所述的基于半监督学习的标签抗噪文本分类方法，其特征在于，所述步骤S4中，集成了三种预训练模型进行概率预测；所述三种预训练模型分别为：双向变换器编码器预训练模型BERT、大规模双向变换器编码器预训练模型RoBERT和语言理解的广义自回归预训练模型XLNet。

6.根据权利要求1所述的基于半监督学习的标签抗噪文本分类方法，其特征在于，所述步骤S5中，使用混合匹配方法并结合步骤S4的集成学习方法对噪声样本进行了重新标记，主要存在以下步骤：

(2)锐化Sharpen：根据标签置信度w_i，将噪声标签与模型预测出的标签/>进行线性组合，得到新的噪声标签/> 是对M个模型的平均预测，使用锐化的方法进行熵最小化处理：

7.根据权利要求1所述的基于半监督学习的标签抗噪文本分类方法，其特征在于，所述步骤6中，使用混合方法以线性插值的方式来构建新的训练样本和标签，对于样本(x1,y1)和样本(x2,y2)，通过以下方式获得混合后的样本(x′,y′)：

λ～Beta(α,α)

λ′＝max(λ,1-λ)

x′＝λ′x₁+(1-λ′)x₂

y′＝λ′y₁+(1-λ′)y₂

8.根据权利要求7所述的一种基于半监督学习的标签抗噪文本分类方法，其特征在于，在U′上使用L₂损失，而在C′上使用交叉熵损失，二者的数学表达式如下：

则得到最终的损失函数为：

L＝L_c+λ_UL_U

其中，λ_U是无监督损失权重。