CN115080749A

CN115080749A - 一种基于自监督训练的弱监督文本分类方法、系统和装置

Info

Publication number: CN115080749A
Application number: CN202210980845.6A
Authority: CN
Inventors: 陈岱渊; 杨非; 钟昊文; 杨羿
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-09-20
Anticipated expiration: 2042-08-16
Also published as: CN115080749B

Abstract

本发明公开了一种基于自监督训练的弱监督文本分类方法、系统和装置，包括如下步骤：S1：获取待标注文本数据和对应的类别标签集合；S2：获取预训练模型；S3：将预训练模型部分权重迁移至文本分类模型；S4：通过自监督伪标策略获得文本分类伪标签；本发明提供了一种基于自监督训练的弱监督文本分类方法，更贴近于文本分类实际应用场景，用户只需提供待标注数据和类别标签集合即可，极大地减少了文本数据标注成本。目前已有较多科技巨头公司开源了各种预训练自然语言模型，这些模型已提前学习到了海量信息中的通识知识，保证了分类精度。通过采用迁移学习方法和自监督训练策略，进一步提高了分类效率和精度。

Description

一种基于自监督训练的弱监督文本分类方法、系统和装置

技术领域

本发明涉及深度学习和文本分类技术领域，特别涉及一种基于自监督训练的弱监督文本分类方法、系统和装置。

背景技术

传统文本分类需要获取大量已标注数据进行深度模型训练，但人工标注过程会花费大量的人力、财力和时间成本。弱监督文本分类方法区别于传统方法，仅需要待标注文本数据和对应的类别标签集合，就可实现对每个样本进行分类。得益于资源算力的极大提升，已学习到海量信息的大规模预训练自然语言模型逐渐成为弱监督文本分类场景方法的技术基础。并且，基于待标注文本数据对预训练模型进行迁移学习，使得预训练模型能够适应于待标注数据集完成文本分类任务。

发明内容

本发明的目的在于提供一种基于自监督训练的弱监督文本分类方法、系统和装置，以克服现有技术中的不足。

为实现上述目的，本发明提供如下技术方案：

本发明公开了一种基于自监督训练的弱监督文本分类方法，包括如下步骤：

S1：获取待标注文本数据和对应的类别标签集合；

S2：获取预训练模型；

S3：将预训练模型部分权重迁移至文本分类模型；

S4：通过自监督伪标策略获得文本分类伪标签；

S5：通过自监督方法训练文本分类模型；

S6：判断文本分类模型是否收敛，若否，则重复步骤四至步骤六；

S7：获取文本分类模型，对待标注数据集进行分类。

作为优选的，所述预训练模型包括任意输入自然语言语料经掩码语言模型任务训练的已收敛的自然语言模型。

作为优选的，所述步骤S2根据实际场景选择若干个预训练模型，对分类结果求平均或求最大值或加权和方式，确定最终标注结果，所述实际场景包括可支持的算力大小，可接受的标注速度。

作为优选的，所述文本分类模型包括特征提取器和分类器，其中文本分类模型的特征提取器和预训练模型的特征提取器相同；通过迁移预训练模型的分类器中类别标签集合对应的权重至文本分类模型，进行文本分类模型的分类器初始化。

作为优选的，所述步骤S2获取的预训练模型的分类器的维度取决于初始训练模型所对应的字典包含的单词数量，所述文本分类模型的分类器的维度为实际文本分类场景类别数，所述字典包含的单词数量至少为实际文本分类场景类别数的100倍。

作为优选的，所述步骤S4的具体子步骤如下：

S41：基于文本分类模型的分类器的输出概率对输出特征做加权聚类，获得初始聚类中心；

S42：计算所有输出特征和每个聚类中心的余弦相似度，最小距离所对应的聚类中心为初始伪标注结果；

S43：基于所述初始伪标注结果通过减小类内差异，更新聚类中心和伪标注结果；

S44：获得自监督的伪标注结果后，利用交叉熵损失函数进行有监督训练。

作为优选的，所述步骤S5采用信息最大化损失函数，通过批次文本数据的分类输出概率的平均值，以近似逼近整体概率分布，使训练文本分类模型输出具体类别确定，且整体分布离散。

作为优选的，所述步骤S6的判断内容包括如下一项或多项结合：

P1：设置最大训练时间，达到最大训练时间则训练结束；

P2：设置最大训练迭代数，达到最大训练迭代数则训练结束；

P3：设置损失函数变化阈值，若损失函数变化小于阈值则训练结束。

本发明公开了一种基于自监督训练的弱监督文本分类系统，包括如下模块：

获取模块：用于获取用户输入的待标注文本数据和类别标签集合；

训练模块：首先用于通过获取模块输入信息确定预训练模型，然后通过权重迁移方法将预训练模型部分权重迁移至文本分类模型，接着根据自监督伪标策略获得文本分类伪标签，基于生成的伪标签，通过自监督方法训练初始化后的文本分类模型，通过迭代优化来更新文本分类模型参数，直至模型收敛，训练过程结束；

输出模块：用于获取已收敛的文本分类模型，并通过模型推理过程对待标注数据集进行标注。

本发明公开了一种基于自监督训练的弱监督文本分类装置，所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述基于自监督训练的弱监督文本分类方法。

本发明的有益效果：

1、本发明提供了一种基于自监督训练的弱监督文本分类方法，更贴近于文本分类实际应用场景，用户只需提供待标注数据和类别标签集合即可，极大地减少了文本数据标注成本。

2、目前已有较多科技巨头公司开源了各种预训练自然语言模型，这些模型已提前学习到了海量信息中的通识知识，保证了分类精度。通过采用迁移学习方法和自监督训练策略，进一步提高了分类效率和精度。

附图说明

图1是本发明实施例提供的一种基于自监督训练的弱监督文本分类方法的流程图；

图2是本发明实施例提供的一种基于自监督训练的弱监督文本分类系统的结构图；

图3是本发明实施例提供的一种基于自监督训练的弱监督文本分类装置的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明实施例提供的一种基于自监督训练的弱监督文本分类方法，包括如下步骤：

S1：获取待标注文本数据和对应的类别标签集合；

具体地，为了后文能具体详细阐述方法步骤，在此分别用N 和K 分别代表待标注文本大小和类别标签个数，用

和

分别表示待标注文本和类别标签集合。

S2：获取预训练模型；

可选地，所述预训练模型可以是任意输入大量自然语言语料经掩码语言模型（Masked Language Model）任务训练的已收敛的自然语言模型。常用的模型有：BERT，transformer-XL，XLNet，RoBERTa，ALBERT，ERNIE等。但这些模型均可抽象为由特征提取器E和分类器

两部分组成。

可选地，为了保证文本分类精度，可根据实际场景（可支持的算力大小，可接受的标注速度等）选择多个预训练模型，对分类结果求平均或求最大值或加权和方式，确定最终标注结果。

S3：将预训练模型部分权重迁移至文本分类模型；

具体地，文本分类模型由E和

组成，所述S2获取的模型由E和

组成。E代表特征提取器，

和

都代表分类器，前者的维度主要取决于初始训练模型所对应的字典大小，后者的维度为实际文本分类场景类别数

，通常而言所述字典大小远远大于

。文本分类模型的特征提取器和预训练模型的特征提取器相同，通过将每个

对应

权重迁移至分类模型，初始化

。

S4：通过自监督伪标策略获得文本分类伪标签；

具体地，特征提取器E的输出特征表示为：

，用

代表某个位置

对应的特征，分类器

的输出概率表示为：

。

S41：基于

对输出特征

做加权聚类，获得初始聚类中心：

；

S42：计算所有输出特征和每个聚类中心的余弦相似度，最小距离所对应的聚类中心为初始伪标注结果：

；

S43：基于所述初始伪标注结果通过减小类内差异，更新聚类中心和伪标注结果：

；

；

S44：获得自监督的伪标注结果

后，利用交叉熵损失函数进行有监督训练：

。

S5：通过自监督方法训练文本分类模型；

具体地，理想的分类输出概率应该是具有强确定性的，类似于独热编码；同时分类输出概率分布应该不仅集中于某些突出类别，应该较为均匀地分布于整个类别标签空间中。为了达到上述要求，采用信息最大化损失函数：

；

其中

代表一个批次（batch）文本数据的

的平均值，以近似逼近整体概率分布。利用上述损失函数，使得训练文本分类模型输出具体类别确定，而整体分布离散。

进一步地，判断内容包括如下一项或多项结合：

1）设置最大训练时间，达到最大训练时间则训练结束；

2）设置最大训练迭代数，达到最大训练迭代数则训练结束；

3）设置损失函数变化阈值，若损失函数变化小于阈值则训练结束。

S7：获取文本分类模型，对待标注数据集进行分类。

如图2所示，本发明实施例提供的一种基于自监督训练的弱监督文本分类系统，包括如下模块：

1、获取模块S100，用于获取用户输入的待标注文本数据和类别标签集合。为了更加直观说明，图2中展示了部分待标注文本和类别标签集合。

具体地，S100应对获取到的所述数据进行合法性判定：1）待标注文本合法性。主要以文本数据中是否含有乱码，是否存在多余空格，是否拼写错误为主。2）类别标签合法性。需判断用户提供的类别标签集合的拼写正确性，以及类别标签集合大小应大于等于2。

以上判定过程中，若发现错误，则及时提示相应错误。直到获取过程结束为止。

2、训练模块S101，首先用于通过S100输入信息确定预训练模型。然后通过权重迁移方法将预训练模型部分权重迁移至文本分类模型。接着根据自监督伪标策略获得文本分类伪标签，基于生成的伪标签，通过自监督方法训练初始化后的文本分类模型，通过迭代优化来更新文本分类模型参数，直至模型收敛，训练过程结束。

3、输出模块S102，用于获取训练完后的已收敛的文本分类模型，以及通过模型推理过程对待标注数据集进行分类获得已标注数据集。

参见图3，本发明实施例还提供了一种基于自监督训练的弱监督文本分类装置，还包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的基于自监督训练的弱监督文本分类方法。

本发明一种基于自监督训练的弱监督文本分类装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本发明一种基于自监督训练的弱监督文本分类装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于自监督训练的弱监督文本分类方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自监督训练的弱监督文本分类方法，其特征在于：包括如下步骤：

S1：获取待标注文本数据和对应的类别标签集合；

S2：获取预训练模型；

S3：将预训练模型部分权重迁移至文本分类模型；

S4：通过自监督伪标策略获得文本分类伪标签；

S5：通过自监督方法训练文本分类模型；

S7：获取文本分类模型，对待标注数据集进行分类。

2.如权利要求1所述的一种基于自监督训练的弱监督文本分类方法，其特征在于：所述预训练模型包括任意输入自然语言语料经掩码语言模型任务训练的已收敛的自然语言模型。

3.如权利要求1所述的一种基于自监督训练的弱监督文本分类方法，其特征在于：所述步骤S2根据实际场景选择若干个预训练模型，对分类结果求平均或求最大值或加权和方式，确定最终标注结果，所述实际场景包括可支持的算力大小，可接受的标注速度。

4.如权利要求1所述的一种基于自监督训练的弱监督文本分类方法，其特征在于：所述文本分类模型包括特征提取器和分类器，其中文本分类模型的特征提取器和预训练模型的特征提取器相同；通过迁移预训练模型的分类器中类别标签集合对应的权重至文本分类模型，进行文本分类模型的分类器初始化。

5.如权利要求1所述的一种基于自监督训练的弱监督文本分类方法，其特征在于：所述步骤S2获取的预训练模型的分类器的维度取决于初始训练模型所对应的字典包含的单词数量，所述文本分类模型的分类器的维度为实际文本分类场景类别数，所述字典包含的单词数量至少为实际文本分类场景类别数的100倍。

6.如权利要求1所述的一种基于自监督训练的弱监督文本分类方法，其特征在于：所述步骤S4的具体子步骤如下：

7.如权利要求1所述的一种基于自监督训练的弱监督文本分类方法，其特征在于：所述步骤S5采用信息最大化损失函数，通过批次文本数据的分类输出概率的平均值，以近似逼近整体概率分布，使训练文本分类模型输出具体类别确定，且整体分布离散。

8.如权利要求1所述的一种基于自监督训练的弱监督文本分类方法，其特征在于：所述步骤S6的判断内容包括如下一项或多项结合：

P1：设置最大训练时间，达到最大训练时间则训练结束；

9.一种基于自监督训练的弱监督文本分类系统，其特征在于，包括如下模块：

10.一种基于自监督训练的弱监督文本分类装置，其特征在于：所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8任一项所述基于自监督训练的弱监督文本分类方法。