CN115080748B

CN115080748B - 一种基于带噪标签学习的弱监督文本分类方法和装置

Info

Publication number: CN115080748B
Application number: CN202210980591.8A
Authority: CN
Inventors: 陈岱渊; 杨非; 钟昊文; 杨羿; 张奕鹏
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-11
Anticipated expiration: 2042-08-16
Also published as: CN115080748A

Abstract

本发明公开了一种基于带噪标签学习的弱监督文本分类方法和装置，包括如下步骤：S1：获取待标注文本和类别标签集合；S2：确定预训练自然语言模型；S3：获得待标注文本伪标签；S4：初始化文本分类模型，基于伪标签计算分类损失函数；S5：通过带噪标签损失筛选方法得到高置信度数据：将所有待标注文本的分类损失函数按升序排列，筛选前top‑N数据作为高置信度数据；本发明提供了一种基于带噪标签学习的弱监督文本分类方法和装置，解决在仅获取待标注文本和类别标签集合情况下，实现高准确率分类结果，减少文本标注成本。

Description

一种基于带噪标签学习的弱监督文本分类方法和装置

技术领域

本发明涉及人工智能、深度学习、自然语言处理技术领域，特别涉及一种基于带噪标签学习的弱监督文本分类方法和装置。

背景技术

弱监督文本分类场景区别于传统文本分类场景，仅要求用户提供待标注数据和类别标签集合，就可以在类别标签集合范围内对待标注数据进行逐一分类。因此该方法要求预训练深度模型具有丰富的先验知识，可以基于有限信息实现分类效果，进一步利用迁移学习方法，使得预训练深度模型可以很好地泛化到具体的待标注文本数据上，实现高精确度分类。提高迁移学习方法有效性的关键在于设计一种高效简易的算法，以达到在带噪标签（伪标签）中筛选出高置信度数据用于模型训练。

发明内容

本发明的目的在于提供一种基于带噪标签学习的弱监督文本分类方法和装置，以克服现有技术中的不足。

为实现上述目的，本发明提供如下技术方案：

本发明公开了一种基于带噪标签学习的弱监督文本分类方法，包括如下步骤：

S1：获取待标注文本和类别标签集合；

S2：确定预训练自然语言模型；

S3：获得待标注文本伪标签；

S4：初始化文本分类模型，基于伪标签计算分类损失函数；

S5：通过带噪标签损失筛选方法得到高置信度数据：将所有待标注文本的分类损失函数按升序排列，筛选前top-N数据作为高置信度数据；

S6：基于高置信度数据对文本分类模型进行迁移学习直至收敛；

S7：利用所述收敛的文本分类模型对全部待标注文本进行标注。

可选的，所述预训练自然语言模型为任意输入大量自然语言语料经掩码语言模型任务训练的已收敛的深度学习模型，所述深度学习模型的模型结构均包含特征提取模块和分类模块。

可选的，所述步骤S3选择下述一种或多种方案相结合：

方案一：利用所述预训练自然语言模型直接对全部待标注文本进行推理，取最大输出概率对应类别标签为单个预训练自然语言模型标注结果；

方案二，逐一对待标注文本进行预处理，增加符合待标注文本语义的引导序列，再利用所述预训练自然语言模型对全部待标注文本进行推理，利用引导序列对应词嵌套，或结合引导序列对应词嵌套和类别词嵌套，取词嵌套输出概率最大对应类别标签为单个预训练自然语言模型标注结果；

方案三，根据实际业务场景，考虑标注速度、可支持算力因素，确定所述预训练自然语言模型，通过方案一或二得到若干个标注结果，通过取结果频次最大或置信度最大的方式确定最终标注结果。

可选的，所述步骤S4文本分类模块的初始化通过如下任一方案：

方案一：根据实际分类场景，确定类别总数，随机初始化模型分类模块；

方案二：通过权重迁移方法，利用所述确定的预训练自然语言模型的模型分类模块中所述类别标签集合对应的可学习权重初始化模型分类模块。

可选的，所述步骤S4中基于伪标签计算分类损失函数，具体为：选择若干种损失函数通过普通加和、加权加和/或求平均方式，得到最终待筛选损失样本。

可选的，所述步骤S5中前top-N数据中的N，既表示绝对文本数量，也表示相对文本数量比例，是根据实际分类场景，考虑标注速度要求、准确度要求、标注算力条件因素，灵活确定。

可选的，所述步骤S6中收敛判断条件包括如下一项或多项的结合：

条件一：设置最长训练时间，达到最长训练时间则判断为收敛；

条件二：设置最大训练迭代数，达到最大训练迭代数则判断为收敛；

条件三：设置损失函数变化阈值，当损失函数变化小于阈值则判断为收敛。

本发明还公开了一种基于带噪标签学习的弱监督文本分类装置，所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于所述基于带噪标签学习的弱监督文本分类方法。

本发明的有益效果：本发明提供了一种基于带噪标签学习的弱监督文本分类方法和装置，解决在仅获取待标注文本和类别标签集合情况下，实现高准确率分类结果，减少文本标注成本。本发明考虑到通过一般文本分类方法得到的伪标签含有不可避免的噪声，这会极大影响文本分类模型迁移学习的精度，因此利用带噪标签损失筛选方法选择高置信度数据作为迁移学习的训练样本，减小了训练成本，提高了数据有效性和模型鲁棒性，保证了文本分类准确率。

附图说明

图1是本发明实施例的整体流程图；

图2是本发明实施例高置信度已标注文本选择策略示意图；

图3是本发明实施例装置示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明公开了一种基于带噪标签学习的弱监督文本分类方法，包括如下步骤：

S1. 获取待标注文本和类别标签集合；

详细地，为了后文能准确地说明方法步骤，在此分别用N和K分别代表待标注文本大小和类别标签个数，用

和

分别表示待标注文本和类别标签集合。

S2. 确定预训练自然语言模型；

详细地，所述预训练模型可以是任意输入大量自然语言语料经掩码语言模型（Masked Language Model）任务训练的已收敛的深度学习模型。常用的模型有：BERT，transformer-XL，XLNet，RoBERTa，ALBERT，ERNIE等。但这些模型都可以大致将模型结构拆分为特征提取模块E和分类模块

。

S3. 获得待标注文本伪标签；

特征提取器E的输出特征表示为：

，分类器

的输出概率表示为：

。最终取最大输出概率对应类别标签为单个预训练模型标注结果

。因预训练模型没有适应性地泛化到所述待标注文本数据，因此此时的

是带有较大噪声的。

所述步骤S3选择下述一种或多种方案相结合：

方案一：利用所述确定预训练自然语言模型直接对全部待标注文本进行推理，取最大输出概率对应类别标签为单个预训练自然语言模型标注结果。

方案二，逐一对待标注文本进行预处理，增加符合待标注文本语义的引导序列，再利用所述确定预训练自然语言模型对全部待标注文本进行推理，可选地，利用引导序列对应词嵌套，或结合引导序列对应词嵌套和类别词嵌套，取词嵌套输出概率最大对应类别标签为单个预训练自然语言模型标注结果。

方案三，根据实际业务场景，考虑标注速度，可支持算力因素，确定多个预训练自然语言模型，通过方案一或二得到多个标注结果，通过取结果频次最大或置信度最大的方式确定最终标注结果。

S4. 初始化文本分类模型，基于伪标签计算分类损失函数；

具体地，文本分类模型由特征提取模块E和

组成，

代表文本分类模型的分类模块。值得注意的是，

的维度取决于预训练模型训练过程中的字典大小，而

的维度为实际文本分类场景类别数

。因此从结构上来讲，预训练模型和文本分类模型的特征提取模块E结构相同，可以共享参数，但分类模块

和

结构不相同，不能直接共享参数。因此可参考如下任一方案对

进行初始化：

方案1. 根据

，随机初始化模型分类模块；

方案2. 通过权重迁移方法，利用

中所述类别标签集合对应的权重来初始化

（通常而言，所述字典大小远远大于

）。

计算分类损失函数，选择多种损失函数通过普通加和、加权加和或求平均等方式，得到最终待筛选损失样本，过程如下：

。

S5. 通过带噪标签损失筛选方法得到高置信度数据；

带噪标签损失筛选方法基于学习能力强大的预训练模型对于带噪标签带有识别性，即损失函数越小代表分类置信度越高。因此所述带噪标签损失筛选方法是基于所述分类损失函数，将其按升序排列，筛选前top-N数据作为高置信度数据，如图2所示。

可选地，所述N既可以表示绝对文本数量，也可以表示相对文本数量比例。可根据实际分类场景，考虑标注速度要求，准确度要求，标注算力条件等多种因素，灵活确定。

S6. 基于高置信度数据对文本分类模型进行迁移学习直至收敛；

收敛判断条件包括如下一项或多项的结合：

设置最长训练时间，达到最长训练时间则判断为收敛；

设置最大训练迭代数，达到最大训练迭代数则判断为收敛；

设置损失函数变化阈值，当损失函数变化小于阈值则判断为收敛。

S7. 利用所述收敛的文本分类模型对全部待标注文本进行标注。

值得注意的，为了保证本发明提供的一种基于带噪标签学习的弱监督文本分类方法的有效性，针对所有标注结果，应进行规则合法性判断，包括标注结果拼写正确性，标注结果在步骤一所述类别标签集合内。

参见图3，本发明实施例还提供了一种基于带噪标签学习的弱监督文本分类装置，还包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的基于带噪标签学习的弱监督文本分类方法。

本发明一种基于带噪标签学习的弱监督文本分类装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本发明一种基于带噪标签学习的弱监督文本分类装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于带噪标签学习的弱监督文本分类方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于带噪标签学习的弱监督文本分类方法，其特征在于：包括如下步骤：

S1：获取待标注文本和类别标签集合；

S2：确定预训练自然语言模型；

S3：获得待标注文本伪标签；

S4：初始化文本分类模型，基于伪标签计算分类损失函数；

2.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法，其特征在于：所述预训练自然语言模型为任意输入大量自然语言语料经掩码语言模型任务训练的已收敛的深度学习模型，所述深度学习模型的模型结构均包含特征提取模块和分类模块。

3.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法，其特征在于：所述S3选择下述一种或多种方案相结合：

方案三，根据实际业务场景，根据标注速度、可支持算力因素，确定所述预训练自然语言模型，通过方案一或二得到若干个标注结果，通过取结果频次最大或置信度最大的方式确定最终标注结果。

4.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法，其特征在于：所述S4中的文本分类模块的初始化通过如下任一方案：

5.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法，其特征在于：所述S4中基于伪标签计算分类损失函数，具体为：选择若干种损失函数通过普通加和、加权加和/或求平均方式，得到最终待筛选损失样本。

6.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法，其特征在于：所述S5中前top-N数据中的N，表示绝对文本数量或相对文本数量比例。

7.如权利要求1所述的一种基于带噪标签学习的弱监督文本分类方法，其特征在于：所述S6中收敛判断条件包括如下一项或多项的结合：

8.一种基于带噪标签学习的弱监督文本分类装置，其特征在于：所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-7任一项所述一种基于带噪标签学习的弱监督文本分类方法。