CN117574258B

CN117574258B - 一种基于文本噪声标签和协同训练策略的文本分类方法

Info

Publication number: CN117574258B
Application number: CN202410055683.4A
Authority: CN
Inventors: 赵卓尔; 徐阳阳; 孙晓; 汪萌
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-04-26
Anticipated expiration: 2044-01-15
Also published as: CN117574258A

Abstract

本发明涉及带噪学习技术领域，公开了一种基于文本噪声标签和协同训练策略的文本分类方法，将文本输入到完成训练的语言模型中，预测得到文本对应的标签；语言模型的训练方法包括：划分子集；对原始标签进行翻新；隐空间的文本插值；构建损失函数并训练；本发明采用协同语言模型的训练策略，同时将一个语言模型的子集划分结果线性组合作为同伴语言模型的训练样本。这种策略可以防止模型过度拟合到有噪声的样本，并确保模型从不同范围的数据中学习到全面的信息。

Description

一种基于文本噪声标签和协同训练策略的文本分类方法

技术领域

本发明涉及带噪学习技术领域，具体涉及一种基于文本噪声标签和协同训练策略的文本分类方法。

背景技术

在自然语言处理领域，句子结构和语法规则的复杂性及多样性是显而易见的。首先，自然语言中的句子结构有许多不同的形式，包括简单句、复合句、并列句等等，而且每种句子类型都有其独特的语法规则和表达方式。此外，自然语言还具有模糊性和多义性，这使得对语言的理解和注释变得更加困难。不同的注释者可能会对相同的句子产生不同的理解，甚至可能会产生完全相反的解释。

另外，注释者对上下文的误解以及个体解释的差异也可能导致对注释的分歧。例如，一个词或短语在一个上下文中的含义可能与另一个上下文中的含义完全不同。因此，注释者必须仔细考虑上下文，以确定每个词或短语的最佳含义。然而，由于语言的灵活性、上下文的影响以及人们对于同一句话可能产生的不同理解和解释，使得即使是最仔细的注释者也可能会对某些词或短语产生误解，或者在注释过程中出现分歧。

除此之外，模型的训练过程中还可能遇到过拟合问题。过拟合是指模型在训练数据上表现良好，但在测试数据上表现不佳的现象。这是因为在训练数据中，模型可能会学习到一些噪音或者无关紧要的信息，而在测试数据中，这些信息可能并不存在，导致模型的表现不佳。因此，在训练模型时，必须采取一些措施来避免过拟合问题。

发明内容

为解决上述技术问题，本发明提供一种基于文本噪声标签和协同训练策略的文本分类方法。

为解决上述技术问题，本发明采用如下技术方案：

一种基于文本噪声标签和协同训练策略的文本分类方法，将文本输入到完成训练的文本分类模型中，预测得到文本对应的标签；通过协同训练策略对文本分类模型进行训练，文本分类模型的训练方法具体包括：

步骤一，划分子集：

将样本集的文本样本/>输入到两个文本分类模型中，如果文本分类模型预测的标签与文本样本/>的原始标签/>一致，则将文本样本/>和对应的原始标签/>划为标记子集/>；如果文本分类模型预测的标签与文本样本/>的原始标签/>不一致，则将文本样本/>和对应的原始标签/>划为未标记子集/>；两个文本分类模型分别记为模型一和模型二，通过模型一划分出的标记子集和未标记子集作为模型二的训练数据集，记为训练数据集二；通过模型二划分出的标记子集和未标记子集作为模型一的训练数据集，记为训练数据集一；其中，两个文本分类模型均由类型相同但参数不同的预训练语言模型和线性全连接层组成；

步骤二，对原始标签进行翻新：

通过回译在训练数据集一和训练数据集二中的未标记子集的文本样本基础上得到增强文本，将训练数据集一的文本样本和对应的增强文本输入到模型一和模型二中，将训练数据集二的文本样本和对应的增强文本输入到模型一和模型二中，对模型一和模型二的输出进行平均和锐化，得到翻新标签；未标记子集的文本样本和翻新标签，组成未标记子集；

步骤三，隐空间的文本插值：

通过Tmix方法在预训练语言模型的隐藏空间内对标记子集和未标记子集/>中的文本样本进行文本插值操作，来创建增强后的文本样本/>，得到标记子集/>和未标记子集/>；

步骤四，构建损失函数并训练：

模型一和模型二的训练损失包括标记子集上的损失/>、未标记子集上的损失和正则化参数/>：/>；

其中，表示权重参数；

标记子集上的损失；/>表示标记子集/>中文本样本/>的概率标签，/>表示概率标签的类别序号，/>表示第c类概率标签；为文本样本/>输入文本分类模型后，文本分类模型线性全连接层的softmax层关于第c类概率标签的输出，/>是预训练模型的总参数表示，/>表示全连接层的参数；

未标记子集上的损失；/>表示未标记子集/>中文本样本/>的概率标签；/>为文本样本/>输入文本分类模型后，文本分类模型线性全连接层的softmax层的输出；

正则化参数；/>是一个常数；

通过训练损失以及经过步骤二和步骤三处理过的训练数据集一对模型一进行训练，通过反向传播更新模型一的参数，直至模型一收敛；通过训练损失/>以及经过步骤二和步骤三处理过的训练数据集二对模型二进行训练，通过反向传播更新模型二的参数，直至模型二收敛。

进一步地，步骤二对原始标签进行翻新时，将未标记子集的文本样本称为未标记样本；步骤二具体包括：

；

表示文本分类模型的总数，/>，k表示第k个文本分类模型的序号；表示未标记样本/>输入文本分类模型后，文本分类模型线性全连接层的softmax层的输出；/>表示所述增强文本/>输入文本分类模型后，文本分类模型线性全连接层的softmax层的输出；/>是第k个文本分类模型的预训练模型的总参数表示，/>表示第k个文本分类模型的全连接层的参数；/>为对文本分类模型的输出进行平均后得到的输出概率；/>经过以温度/>为参数的锐化操作/>得到所述翻新标签/>。

进一步地，所述通过Tmix方法在预训练语言模型的隐藏空间内对标记子集和未标记子集/>中的文本样本进行文本插值操作来创建增强后的文本样本，具体包括：

在预训练语言模型的层中前向执行编码操作/>，得到预训练语言模型第/>层的隐层特征：

；

分别为第/>个文本样本和第/>个文本样本，/>为与/>对应的预训练语言模型第/>层的隐层特征，/>与/>对应的预训练语言模型第/>层的隐层特征；

在预训练语言模型的第层中执行隐空间插值操作，得到线性组合的插值向量：

；

为服从Beta分布的参数；

在预训练语言模型剩余的/>层中继续执行预训练语言模型的编码操作，最终得到线性组合的增强后的文本样本/>：

；

为预训练语言模型的总层数。

本发明训练得到两个文本分类模型，在推理阶段，将文本输入到完成训练的任意一个文本分类模型中，可以预测得到文本对应的标签，实现文本分类。

与现有技术相比，本发明的有益技术效果是：

本发明采用协同训练策略，利用半监督学习的方法赋予未标记子集文本的分类标签，将一个文本分类模型的子集划分结果进行线性组合作为同伴语言模型的训练样本。这种策略可以防止模型过度拟合到有噪声的样本，并确保模型从不同范围的数据中学习到全面的信息。

附图说明

图1为本发明对文本分类模型进行协同训练的流程示意图；

图2为本发明实施例中进行标签翻新的流程示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

如图1所示，本发明提出的文本分类方法的训练过程主要由两个步骤组成：使用协同训练方式划分子集和半监督学习。其中半监督学习的部分主要包括标签翻新和隐空间的文本插值。

1.划分子集

在划分子集阶段，原始的文本样本被输入到文本分类模型中，根据文本分类模型预测的标签与原始标签的一致性将输入的文本样本划分为两个子集。具体来说，本发明设定一个具体的规则作为划分的依据，该规则如下：如果文本分类模型预测的标签与原始标签一致，则认为该文本样本归属于标记子集。相反，如果预测的标签与原始标签不一致，本发明将文本样本归为未标记子集。规则设定的依据为：假定原始文本样本以一定概率被错误标记。

由于依赖单一语言模型可能导致文本分类模型的预测结果积累确认偏差，本发明采用协同训练策略，将一个文本分类模型的子集划分结果线性组合为同伴文本分类模型的训练样本。这种协同训练策略可以防止模型过度拟合到有噪声的样本，并确保文本分类模型从不同范围的数据中学习到全面的信息。

2.半监督学习

（1）标签翻新

标签翻新，指的是在未标记子集上对文本样本的原始标签进行翻新。通过回译在原始的文本样本的基础上得到增强文本，分别输入到两个文本分类模型中，对文本分类模型的预测概率进行平均和锐化，即可得到翻新标签：

；

表示文本分类模型的总数，/>，k表示第k个文本分类模型的序号；表示未标记样本/>输入文本分类模型后，文本分类模型线性全连接层的softmax层的输出；/>表示增强文本/>输入文本分类模型后，文本分类模型线性全连接层的softmax层的输出；/>是第k个文本分类模型的预训练模型的总参数表示，表示第k个文本分类模型的全连接层的参数；/>为对文本分类模型的输出进行平均后得到的输出概率；/>经过以温度/>为参数的锐化操作/>得到翻新标签/>。

标签翻新流程的实施例如图2所示，在该实施例中，通过回译设置俄语为中间语言来增强所有未标记样本。将未标记样本/>和增强文本/>，分别输入到模型一和模型二中，对文本分类模型的预测结果概率进行平均和锐化，即可得到翻新标签。

图2中，表示未标记样本/>输入到模型一后得到的输出，/>表示增强文本输入到模型一后得到的输出，/>表示未标记样本/>输入到模型二后得到的输出，表示增强文本/>输入到模型二后得到的输出。

（2）隐空间的文本插值

通过Tmix方法在预训练语言模型的隐藏空间内对标记子集和未标记子集/>中的文本样本进行文本插值操作，来创建增强后的文本样本/>，具体包括：

；

为服从Beta分布的参数；

在预训练语言模型剩余的/>层中继续执行Encoder的编码操作，最终得到线性组合的增强后的文本样本/>：

；

为预训练语言模型的总层数。

3.模型训练

文本分类模型的训练损失包括标记子集上的损失/> _、未标记子集上的损失/>和正则化参数/>：

；

其中，标记子集上的损失为：/>。

表示标记子集/>中文本样本/>的概率标签，/>表示概率标签的类别序号，/>表示第c类概率标签；/>为文本样本/>输入文本分类模型后，文本分类模型线性全连接层的softmax层关于第c类概率标签的输出，/>是预训练模型的总参数表示，/>表示全连接层的参数。

未标记子集上的损失为：/>；/>表示未标记子集/>中文本样本/>的概率标签；/>为文本样本/>输入文本分类模型后，文本分类模型线性全连接层的softmax层的输出。

正则化参数；/>是一个常数。

在本发明的测试数据集中，人为地将10%、20%、30%噪声比的对称噪声注入到原始训练数据集的标签中，选择测试数据集上的准确度作为评价指标。

表1 对称噪声在IMDB集上的实验结果

表2 对称噪声在Trec集上的实验结果

表3 对称噪声在AG_News集上的实验结果

对称噪声：表1、表2、表3给出了在IMDB、Trec、AG_News三个数据集上的对称噪声上的实验结果。在每个数据集中，随着训练过程中标签噪声比的增加，预测准确度明显降低。然而，本发明提出的方法在大多数情况下仍然优于其他基准方法（Bert、SelfMix），证明了本发明抗噪声策略的有效性。值得注意的是，在高噪声比的情况下，越来越多来自噪声标签的干扰信息被带入训练阶段，这对本发明中的文本分类方法提出了很大的挑战。但实验结果表明，随着噪声率的增加，本发明的文本分类方法与基准方法之间的差异也会增加，这表明即使在更高的噪声水平下，本发明抵抗对称噪声的能力也更强。

表4 非对称噪声实验结果

非对称噪声：表4给出了在三个数据集上的非对称噪声实验结果。根据不对称过渡矩阵翻转标签使数据集具有不同程度的不对称噪声，具体来说，本发明评估了三种数据集在20%和40%噪声比下的预测精度。本发明的文本分类方法即使在所有三个数据集的40%不对称噪声下也能达到最佳效果。实验表明，本发明的训练策略对提高模型对非对称噪声的鲁棒性也有积极的作用，尤其是在高噪声比下。

实施例

将AG_News数据集中的数据输入到两个文本分类模型中，在子集划分阶段，根据文本分类模型的预测标签与原始标签的一致性将AG_News数据集划分为两个子集：标记子集和未标记子集。在未标记子集上对文本样本进行回译操作来实施标签翻新。回译的例子如下表5所示。

表5

对划分好的标记子集和带有翻新标签的未标记子集，通过在预训练语言模型的隐藏空间内随机采样并进行文本插值操作来创建大量的训练样本，计算得到训练数据集上的损失值，通过反向传播更新文本分类模型的参数。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于文本噪声标签和协同训练策略的文本分类方法，将文本输入到完成训练的文本分类模型中，预测得到文本对应的标签；通过协同训练策略对文本分类模型进行训练，文本分类模型的训练方法具体包括：

步骤一，划分子集：

步骤二，对原始标签进行翻新：

步骤三，隐空间的文本插值：

步骤四，构建损失函数并训练：

模型一和模型二的训练损失包括标记子集上的损失/>、未标记子集上的损失/>和正则化参数/>：/>；

其中，表示权重参数；

标记子集上的损失；/>表示标记子集中文本样本/>的概率标签，/>表示概率标签的类别序号，/>表示第c类概率标签；为文本样本/>输入文本分类模型后，文本分类模型线性全连接层的softmax层关于第c类概率标签的输出，/>是预训练模型的总参数表示，/>表示全连接层的参数；

未标记子集上的损失；/>表示未标记子集中文本样本/>的概率标签；/>为文本样本/>输入文本分类模型后，文本分类模型线性全连接层的softmax层的输出；

正则化参数；/>是一个常数；

通过训练损失以及经过步骤二和步骤三处理过的训练数据集一对模型一进行训练，通过反向传播更新模型一的参数，直至模型一收敛；通过训练损失/>以及经过步骤二和步骤三处理过的训练数据集二对模型二进行训练，通过反向传播更新模型二的参数，直至模型二收敛；

步骤二对原始标签进行翻新时，将未标记子集的文本样本称为未标记样本；步骤二具体包括：

；

表示文本分类模型的总数，/>，k表示第k个文本分类模型的序号；/>表示未标记样本/>输入文本分类模型后，文本分类模型线性全连接层的softmax层的输出；表示所述增强文本/>输入文本分类模型后，文本分类模型线性全连接层的softmax层的输出；/>是第k个文本分类模型的预训练模型的总参数表示，/>表示第k个文本分类模型的全连接层的参数；/>为对文本分类模型的输出进行平均后得到的输出概率；经过以温度/>为参数的锐化操作/>得到所述翻新标签/>；

所述通过Tmix方法在预训练语言模型的隐藏空间内对标记子集和未标记子集/>中的文本样本进行文本插值操作来创建增强后的文本样本，具体包括：

；

在预训练语言模型的第层中执行隐空间插值操作，得到线性组合的插值向量/>：

；

为服从Beta分布的参数；

；

为预训练语言模型的总层数。