CN117932073A

CN117932073A - 一种基于提示工程的弱监督文本分类方法及系统

Info

Publication number: CN117932073A
Application number: CN202410323393.3A
Authority: CN
Inventors: 周武彬; 王晓龙
Original assignee: Athena Eyes Co Ltd
Current assignee: Athena Eyes Co Ltd
Priority date: 2024-03-21
Filing date: 2024-03-21
Publication date: 2024-04-26
Anticipated expiration: 2044-03-21
Also published as: CN117932073B

Abstract

本申请公开了一种基于提示工程的弱监督文本分类方法及系统，该方法包括获取无标签文本集合；获取所述无标签文本集合的初始伪标签；根据所述包含初始伪标签的文本集合对预训练模型进行分类微调，以生成目标伪标签文本集合；对所述目标伪标签文本集合进行噪声样本过滤；根据过滤后的所述目标伪标签文本集合获取目标分类器，并通过所述目标分类器对待分类文本进行分类；本方法通过根据无标签文本集合的初始伪标签对预训练模型进行有监督分类微调生成目标伪标签文本集合并进行噪声样本过滤，从而提高了分类器的性能，同时减少了人工标注文本数据的需求；该系统具有相同的有益效果。

Description

一种基于提示工程的弱监督文本分类方法及系统

技术领域

本申请涉及人工智能和自然语言处理技术领域，特别是涉及一种基于提示工程的弱监督文本分类方法及系统。

背景技术

文本分类是自然语言处理领域中的一类基础任务，并广泛应用于下游应用场景中，比如：问答系统、情感分析、事件检测以及领域内文本分类等。随着互联网的兴起，网络上在线文本数量增长迅速，对文本数据进行分类分析的需求也在飞速增长，而机器学习的发展则为大规模文本分类问题提供了诸多方法。

在现有方法中，关于文本分类需要大量带有标注信息的训练数据，通常获取过程非常费时费力，同时大多使用类别标签名称或类别关键词训练文本分类器，这会导致基于关键词匹配得到的伪标签信息存在噪声且无法被发现，从而导致分类器效果不佳。

鉴于此，提供一种减少人工标注文本数据的需求，同时提高分类器性能的基于提示工程的弱监督文本分类方法及系统是本领域技术人员亟待解决的技术问题。

发明内容

为解决上述技术问题，本发明的目的为提供一种基于提示工程的弱监督文本分类方法及系统，可以有效减少人工标注文本数据的需求，同时提高分类器性能。

本发明的第一个目的为提供一种基于提示工程的弱监督文本分类方法；

本发明提供的技术方案如下：

一种基于提示工程的弱监督文本分类方法，包括如下步骤：

获取无标签文本集合；

获取所述无标签文本集合的初始伪标签；

根据所述初始伪标签对预训练模型进行分类微调，以生成目标伪标签文本集合；

对所述目标伪标签文本集合进行噪声样本过滤；

根据过滤后的所述目标伪标签文本集合获取目标分类器，并通过所述目标分类器对待分类文本进行分类。

优选地，所述获取所述无标签文本集合的初始伪标签，具体包括：

通过预设的提示方法在所述无标签文本集合中获取文本分类任务的伪标签信息，其中，所述伪标签信息包括：置信度；

根据所述置信度筛选高质量伪标签，将所述高质量伪标签作为初始伪标签。

优选地，所述获取所述无标签文本集合的初始伪标签之后，还包括步骤：

通过预设方法将所述初始伪标签分为训练集和测试集。

优选地，所述根据所述初始伪标签对预训练模型进行分类微调，以生成目标伪标签文本集合，具体包括：

将所述训练集输入所述预训练模型中使用第一微调范式以获取候选伪标签集；

采用第二微调范式对所述候选伪标签集进行训练，以生成目标伪标签文本集合。

优选地，所述对所述目标伪标签文本集合进行噪声样本过滤，具体包括：

获取每个目标伪标签样本在每个类别下的概率分数；

根据所述概率分数计算出每个类别下的平均概率分数，并将所述平均概率分数作为该类别的置信度阈值；

根据所述置信度阈值和所述目标伪标签样本的真实标签获取噪声标签；

统计噪声标签与真实标签的数量，以得到噪声标签和真实标签的联合分布；

基于所述联合分布，利用不同过滤策略对噪声样本进行过滤。

优选地，所述过滤策略，具体包括：

筛除所述目标伪标签样本中与噪声标签和真实标签均不一致的样本；

将每个类别下的目标伪标签样本的概率分数进行升序排列，选取top-i个样本进行筛除；

选择联合分布中非对角单元的噪声样本进行过滤。

优选地，所述根据过滤后的所述目标伪标签文本集合获取目标分类器，具体包括：

将过滤后的所述目标伪标签文本集合输入分类器中，当所述分类器性能指标达到预设指标阈值，将输出最佳分类效果的分类器作为目标分类器。

本发明的第二个目的为提供一种基于提示工程的弱监督文本分类系统；

本发明提供的技术方案如下：

一种基于提示工程的弱监督文本分类系统，包括：第一获取模块、第二获取模块、生成模块、过滤模块和分类模块；

所述第一获取模块，用于获取无标签文本集合；

所述第二获取模块，用于获取所述无标签文本集合的初始伪标签；

所述生成模块，用于根据所述初始伪标签对预训练模型进行分类微调，以生成目标伪标签文本集合；

所述过滤模块，用于对所述目标伪标签文本集合进行噪声样本过滤；

所述分类模块，用于根据过滤后的所述目标伪标签文本集合获取目标分类器，并通过所述目标分类器对待分类文本进行分类。

本发明的第三个目的为提供一种电子设备；

本发明提供的技术方案如下：

一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行基于提示工程的弱监督文本分类方法任意一项所述的方法步骤。

本发明的第四个目的为提供一种计算机可读存储介质；

本发明提供的技术方案如下：

一种计算机可读存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于使计算机执行基于提示工程的弱监督文本分类方法任意一项所述的方法步骤。

本发明提供的一种基于提示工程的弱监督文本分类方法，包括获取无标签文本集合；获取所述无标签文本集合的初始伪标签；根据所述初始伪标签对预训练模型进行分类微调，以生成目标伪标签文本集合；对所述目标伪标签文本集合进行噪声样本过滤；根据过滤后的所述目标伪标签文本集合获取目标分类器，并通过所述目标分类器对待分类文本进行分类；本方法通过根据初始伪标签对预训练模型进行分类微调生成目标伪标签文本集合并进行噪声样本过滤，从而提高了分类器的性能，同时减少了人工标注文本数据的需求。

本发明还提供了一种基于提示工程的弱监督文本分类系统，由于该系统与该基于提示工程的弱监督文本分类方法解决相同的技术问题，属于相同的技术构思，理应具有相同的有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种基于提示工程的弱监督文本分类方法的流程图；

图2为本发明实施例中一种基于提示工程的弱监督文本分类系统的结构示意图；

图3为本发明实施例中一种电子设备的结构示意图。

具体实施方式

为了使本领域的技术人员更好地理解本申请中的技术方案，下面将对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本发明实施例提供一种基于提示工程的弱监督文本分类方法，包括如下步骤：

S1.获取无标签文本集合；

S2.获取所述无标签文本集合的初始伪标签；

S3.根据所述初始伪标签对预训练模型进行分类微调，以生成目标伪标签文本集合；

S4.对所述目标伪标签文本集合进行噪声样本过滤；

S5.根据过滤后的所述目标伪标签文本集合获取目标分类器，并通过所述目标分类器对待分类文本进行分类。

步骤S1至步骤S2中，广泛收集网络上可见的某一领域内的无标签信息文本，清洗过滤掉异常值后形成语料集合；然后基于提示工程获取无标签文本集合即语料集合的初始伪标签；本实施例中的采用的提示工程（Prompt Engineering），是一种针对预训练语言模型（以transformer为基础结构的深度学习模型，如bert、gpt、electra、ChatGPT），通过设计、实验和优化输入提示来引导模型生成高质量，准确和有针对性的输出的技术。

步骤S3至步骤S5中，根据初始伪标签对预训练模型进行分类微调，以生成目标伪标签文本集合；然后对目标伪标签文本集合进行噪声样本过滤；根据过滤后的目标伪标签文本集合获取目标分类器，并通过目标分类器对待分类文本进行分类；通过根据初始伪标签对预训练模型进行分类微调生成目标伪标签文本集合并进行噪声样本过滤，从而提高了分类器的性能，同时减少了人工标注文本数据的需求。

A1.通过预设的提示方法在所述无标签文本集合中获取文本分类任务的伪标签信息，其中，所述伪标签信息包括：置信度；

步骤A1中，大部分弱监督文本分类方法使用一系列静态的类关键词，通过对文本进行关键词匹配得到该文本的伪标签信息。基于提示的方法旨在缩小(pre-trainedlanguage model, PLM)预训练模型的预训练任务与其下游应用场景之间的差距，因此直接具有文本语义理解能力的预训练模型来获得文本分类任务的高质量伪标签。同时，通过构建少样本提示文本，可以引导预训练模型理解整个上下文，从而使其预测结果符合上下文；

具体的，以情感分析任务为例，需要判断一条关于餐厅的评论文本是表现积极或是消极的情绪，而对应类别的标签名称分别为“好”和“坏”，然后可以为此构建“PLM(评论，好) = 评论，这是条好评论”和“PLM(评论，坏) = 评论，这是条坏评论”两条带提示模板的文本，输入到预训练模型中。

A2.根据所述置信度筛选高质量伪标签，将所述高质量伪标签作为初始伪标签。

步骤A2中，根据置信度筛选高质量伪标签，将高质量伪标签作为初始伪标签，如第i个模板文本的模型预测输出p(label_i|t)为文本t在第i个标签类别上的概率得分，表示该文本t属于类别a的置信度，利用以下公式得到:文本t属于类别a归一化概率：

其中，表示整个标签集；

预测完语料集合中的所有文本后，选择置信度在前t%的文本作为初始伪标签，其伪标签为文本在所有标签集中归一化概率最高的那个类别(即)。

通过预设方法将所述初始伪标签分为训练集和测试集。

在实际运用过程中，在上述获取的初始伪标签中带有大量噪声，为了提升弱标签学习分类器的性能，需要在后续过程不断迭代更新集合伪标签的质量；并利用5-折交叉验证法将初始伪标签分为训练集与测试集，测试集部分为分类器不可见数据(out-of-sample)；本实施例中采用的5-折交叉验证法是将所有数据集均分成5份；不重复地每次取其中一份做测试集，用其他四份做训练集训练模型，之后计算该模型在测试集上的性能指标；重复训练过程，并进行5次实验；将5次的性能指标取平均得到最后的性能指标。

B1.将所述训练集输入所述预训练模型中使用第一微调范式以获取候选伪标签集；

步骤B1中，在预训练模型中对训练集使用head token微调范式得到分类器，通过该分类器得到测试集的采样置信度，将采样置信度大于阈值的前t%样本作为候选伪标签集；本实施例中采用的阈值是针对head token微调范式的采样阈值，是实验中的一个超参数，并命名为t_s，用于区分不同阈值；采用的head token微调范式是通过在输入文本的起始位置添加特殊字符（如：[CLS]），使用该文本输入预训练模型之后的输出中head token处的值应用于下游任务(如：文本分类、文本相似度)。

B2.采用第二微调范式对所述候选伪标签集进行训练，以生成目标伪标签文本集合。

步骤B2中，对步骤B1中得到的候选伪标签集进行随机采样，并通过基于提示的微调范式输入分类器进行训练并预测，直至整个候选伪标签集都有其标签结果，最终为测试集生成目标伪标签文本集合；本实施例中采用的基于提示的微调范式的目的是将微调的下游任务目标转换为预训练的任务。即：通过构建模板（Template Construction）将输入文本转换为与预训练任务中相似结构的文本，之后利用标签词映射（Label Word Verbalizer）构建微调的下游任务目标。

C1.获取每个目标伪标签样本在每个类别下的概率分数；

步骤C1中，将得到的每个目标伪标签样本在每个类别下的概率分数用表示，表明样本i在类别j下的概率分数。

C2.根据所述概率分数计算出每个类别下的平均概率分数，并将所述平均概率分数作为该类别的置信度阈值；

步骤C2中，将根据步骤C1中得到的概率分数通过公式计算出每个类别下的平均概率分数，其中，具体的计算公式为：

其中，表示平均概率分数，同时也表示在类别j上的置信度阈值；M表示所有样本。

C3.根据所述置信度阈值和所述目标伪标签样本的真实标签获取噪声标签；

步骤C3中，首先设置样本i的真实标签y为所有类别中的最大概率max()，并且通过判断最大概率max(/>)是否大于步骤C2中得到的置信度阈值，若最大概率max(/>)小于置信度阈值/>，则样本i的标签为噪声标签/>。

C4.统计噪声标签与真实标签的数量，以得到噪声标签和真实标签的联合分布；

步骤C4中，首先通过计数矩阵来统计噪声标签与真实标签的数量，其中，具体的计数矩阵公式如下所示：

其中，表示真实标签为i的样本数量；

然后再根据噪声标签与真实标签的计数矩阵，计算得到噪声标签和真实标签的联合分布/>，其中，具体的计算公式如下所示：

；

其中，本实施例中的联合分布为为，即随机变量真实标签y与噪声标签/>的联合分布函数/>；联合分布函数定义为：联合分布函数(joint distributionfunction)亦称多维分布函数；以二维情形为例，设（X，Y）是二维随机变量，x，y是任意实数，二元函数：F(x,y)=P({X≤x∩Y≤y})=P(X≤x,Y≤y)，被称二维随机变量(X，Y)的分布函数，或称为X和Y的联合分布函数。

C5.基于所述联合分布，利用不同过滤策略对噪声样本进行过滤。

步骤C5中，首先通过筛除目标伪标签样本中与噪声标签和真实标签均不一致的样本；然后将每个类别下的目标伪标签样本的概率分数进行升序排列，选取top-i个样本进行筛除；最后选择步骤C4中得到的联合分布中处于非对角单元的噪声样本进行过滤。

在实际运用过程中，会从初始伪标签分为训练集和测试集的步骤到对目标伪标签文本集合进行噪声样本过滤的步骤进行多次迭代，以更新伪标签文本集合的伪标签质量，同时过滤掉噪声文本，从而提高分类器的性能，并在分类器性能指标达到模型性能要求阈值或迭代次数时终止上述的迭代过程，输出最佳分类效果的分类器作为最终分类器。

如图2所示，本发明还提供了一种基于提示工程的弱监督文本分类系统，包括：第一获取模块、第二获取模块、生成模块、过滤模块和分类模块；

所述第一获取模块，用于获取无标签文本集合；

在实际运用过程中，设置了第一获取模块、第二获取模块、生成模块、过滤模块和分类模块；第一获取模块与第二获取模块连接；第二获取模块与生成模块连接；生成模块与过滤模块连接；过滤模块与分类模块连接；第一获取模块将获取的无标签文本集合发送至第二获取模块中；第二获取模块获取无标签文本集合的初始伪标签，并将初始伪标签发送至生成模块中；生成模块将根据初始伪标签对预训练模型进行分类微调，以生成目标伪标签文本集合后，将目标伪标签文本集合发送至过滤模块中；过滤模块将对目标伪标签文本集合进行噪声样本过滤后，将过滤后的目标伪标签文本集合发送至分类模块中；分类模块将根据过滤后的目标伪标签文本集合获取目标分类器，并通过目标分类器对待分类文本进行分类；通过设置生成模块、过滤模块和分类模块来对分类器进行优化，从而提高了分类器的性能，同时减少了人工标注文本数据的需求。

进一步的，本申请实施例还公开了一种电子设备，图3是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图3为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的基于提示工程的弱监督文本分类方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的基于提示工程的弱监督文本分类方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括基于提示工程的弱监督文本分类设备接收到的由外部设备传输进来的数据，也可以包括由自身输入输出接口25采集到的数据等。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM或技术领域内所公知的任意其他形式的存储介质中。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的基于提示工程的弱监督文本分类方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请中如若使用了流程图，则该流程图是用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于提示工程的弱监督文本分类方法，其特征在于，包括如下步骤：

获取无标签文本集合；

获取所述无标签文本集合的初始伪标签；

对所述目标伪标签文本集合进行噪声样本过滤；

根据过滤后的所述目标伪标签文本集合获取目标分类器，并通过所述目标分类器对待分类文本进行分类；

所述获取所述无标签文本集合的初始伪标签之后，还包括步骤：

通过预设方法将包含初始伪标签的文本集合分为训练集和测试集；

所述根据所述初始伪标签对预训练模型进行分类微调，以生成目标伪标签文本集合，具体包括：

在预训练模型中对训练集使用head token微调范式得到分类器，通过该分类器得到测试集的采样置信度，将采样置信度大于阈值的前t%样本作为候选伪标签集；阈值是针对head token微调范式的采样阈值，是实验中的一个超参数，并命名为t_s，用于区分不同阈值；采用的head token微调范式是通过在输入文本的起始位置添加特殊字符，使用该文本输入预训练模型之后的输出中head token处的值应用于下游任务；

采用第二微调范式对所述候选伪标签集进行训练，以生成目标伪标签文本集合；

对得到的候选伪标签集进行随机采样，并通过基于提示的微调范式输入分类器进行训练并预测，直至整个候选伪标签集都有其标签结果，最终为测试集生成目标伪标签文本集合；采用的基于提示的微调范式的目的是将微调的下游任务目标转换为预训练的任务，即：通过构建模板将输入文本转换为与预训练任务中相似结构的文本，之后利用标签词映射构建微调的下游任务目标。

2.根据权利要求1所述的基于提示工程的弱监督文本分类方法，其特征在于，所述获取所述无标签文本集合的初始伪标签，具体包括：

3.根据权利要求1所述的基于提示工程的弱监督文本分类方法，其特征在于，所述对所述目标伪标签文本集合进行噪声样本过滤，具体包括：

获取每个目标伪标签样本在每个类别下的概率分数；

基于所述联合分布，利用过滤策略对噪声样本进行过滤。

4.根据权利要求3所述的基于提示工程的弱监督文本分类方法，其特征在于，所述过滤策略，具体包括：

选择联合分布中非对角单元的噪声样本进行过滤。

5.根据权利要求1所述的基于提示工程的弱监督文本分类方法，其特征在于，所述根据过滤后的所述目标伪标签文本集合获取目标分类器，具体包括：

6.一种基于提示工程的弱监督文本分类系统，其特征在于，包括：第一获取模块、第二获取模块、生成模块、过滤模块和分类模块；

所述第一获取模块，用于获取无标签文本集合；

所述分类模块，用于根据过滤后的所述目标伪标签文本集合获取目标分类器，并通过所述目标分类器对待分类文本进行分类；

其中，所述生成模块，还用于：

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5任意一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质用于存储计算机程序，所述计算机程序用于使计算机执行权利要求1-5任意一项所述的方法。