CN116596058A

CN116596058A - 一种面向小样本文本分析的统一提示调优方法

Info

Publication number: CN116596058A
Application number: CN202310607594.1A
Authority: CN
Inventors: 练智超; 王书娟; 王盼盼
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-08-15

Abstract

本发明公开一种面向小样本文本分析的统一提示调优方法，属于自然语言处理领域。包括通过一种新的统一范式POV，对训练样本进行数据增强；利用知识增强的选择性KSMLM进行自监督任务学习；最终对特定的下游任务，在小目标训练集上进行微调，来完成预训练语言模型面向小样本的各类文本分类任务。本发明提出了基于提示的统一调优框架，利用新的范式POV以及自监督的KSMLM，显式地从无目标数据集中捕获提示语义，既提高了预训练语言模型在小样本文本分析任务中的性能，又增强了泛化能力。

Description

一种面向小样本文本分析的统一提示调优方法

技术领域

本发明属于自然语言处理领域，具体涉及一种面向小样本文本分析的统一提示调优方法。

背景技术

随着人工智能的发展，预训练语言模型的出现提高了各种NLP任务的性能。然而，在微调过程中，由于模型过拟合，其在较少训练样本的情况下表现不佳。

最近，有一些工作关注超大型预训练语言模型上的多任务prompt-tuning。具体来说，他们根据来自不同任务的全部训练样本来微调预训练语言模型，迫使预训练语言模型学习到更多的提示知识，并通过零样本学习直接对目标任务进行预测。然而，对于基于BERT-style预训练语言模型，性能并不令人满意，主要是以下两个原因：(1)预训练语言模型对不同的prompt模板和verbalizers(语言生成器)的设计很敏感，这些模板和verbalizer不能适应于新的prompts和verbalizers的目标任务；(2)语料库中的prompt-style文本和句子的词汇分布存在差异。

因此，使得基于BERT-style的训练语言模型在具有更多提示知识的情况下准确地适应目标NLP任务非常重要。

发明内容

本发明解决的技术问题：提供一种新的统一范式POV的同时，用知识增强的选择性KSMLM进行自监督任务学习，使得预训练语言模型在文本任务中的性能提升的小样本文本分析的统一提示调优方法。

技术方案：为了解决上述技术问题，本发明采用的技术方案如下：

一种面向小样本文本分析的统一提示调优方法，包括：首先，通过一种新的统一范式POV，对训练样本进行数据增强；利用知识增强的选择性KSMLM进行自监督任务学习；最终对特定的下游任务，在小目标训练集上进行微调，来完成PLM面向小样本的各类文本分类任务。

作为优选，通过一种新的统一范式POV，对训练样本进行数据增强的方法，具体如下：

步骤1.1：假设存在M个与目标任务T^*不同的NLP任务：T⁽¹⁾,…,T^(M)；其训练集分别定义为D⁽¹⁾,…,D^(M)；对训练集进行分层抽样形成一个批次，其中从D⁽¹⁾,…,D^(M)中抽取一个训练样本i，其概率记为w_i：

其中，γ>0是平滑因子，k和k′均∈[1,M]，D^(k)和D^(k′)分别表示训练集中的第k个和第k′个数据集，i∈D^(k)；

步骤1.2：一个统一的prompt范式，它通过POV三元组来增强每个训练样本i；其中P_i是用于提供任务指导的提示，O_i是一个固定的表达，为模型提供所有候选标签词，V_i是语言生成器，它将掩盖掉的token的输出映射到整个单词表V中；关于训练样本i，候选标签词token v∈V的输出概率q(v|i,P_i,O_i,Θ)计算如下：

其中，候选标签词token v′∈V；Θ表示底层PLM的参数；s(v|i,P_i,O_i,Θ)是KSMLM头的未归一化的分数，用于以i,P_i,O_i作为输入，在[MASK]位置上生成token v；将整个预测向量定义为

多任务prompting损失的定义如下：

其中总数据集为独热编码的真实标签预测向量；

步骤1.3：结合上述的权重因子，将重新定义为加权多任务提示WMP损失

作为优选，利用知识增强的选择性KSMLM进行自监督任务学习的方法如下：

步骤2.1：首先对数据进行预处理，抽取一个训练样本i；

步骤2.2：对于自监督学习任务的POV构造过程为：

提示生成器：这个过程旨在为每句话生成一个带有[MASK]token的模板，在多任务训练阶段固定为“It is[MASK].”；

选项生成器：通过词性标注模型检测语料库中的所有形容词，并过滤掉低频的形容词；然后用K-Means对形容词进行聚类，并将它们的token表征从底层PLM中生成作为特征；并构造一个名为选项知识库的知识库，其形式为三元组其中v是一个候选标签词，/>和c_v分别定义为表征向量和隶属的簇；

语言生成器：对于语言生成器，将选项中的真实标签词和生成的标签词映射到两类，即Class:Correct和Class:Incorrect；

步骤2.3：训练PLM来预测句子中正确的[MASK]单词，损失函数为：

步骤2.4：最终的总损失函数为：

其中，λ≥0为平衡超参数。

作为优选，对特定的下游任务，在小目标训练集上进行微调，具体方式如下：

对于特定的下游任务T^*，目标小样本训练集D^*中的样本可以在统一提示调优中使用与那些有监督任务相同的方式进行处理和计算；两个阶段的学习一致性确保了底层预训练语言模型已经获得了T^*的提示知识；可以在各种任务上基于提示微调一个单一的预训练语言模型，并使用它对任何目标任务进行微调，从而在计算上高效地为这些应用生成相应的模型。

有益效果：与现有技术相比，本发明具有以下优点：

1)本发明引入了新的统一提示调优框架，该框架从多个不同类型的源任务重捕获统一的提示语义，用于新目标任务的小样本文本分类。

2)在统一提示调优框架中，提出了一种新的范式POV，用于跨不同自然语言处理任务的联合prompt tuning；进一步设计了自监督的KSMLM任务，以提高统一提示调优框架的泛化能力，实现精确的任务适应。

附图说明

图1是一种面向小样本文本分析的统一提示调优方法结构示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，实施例在以本发明技术方案为前提下进行实施，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

如图1所示，本发明的一种面向小样本文本分析的统一提示调优方法，首先，通过一种新的统一范式——提示选项语言生成器(Prompt-Options-Verbalizer，简称POV)，对训练样本进行数据增强；利用知识增强的选择性遮蔽语言模型(Knowledge-enhancedSelective Masked Language Model，简称KSMLM)进行自监督任务学习；最终对特定的下游任务，在小目标训练集上进行微调，来完成预训练语言模型(Pretrained LanguageModels，简称PLM)面向小样本的各类文本分类任务。具体包括如下步骤1-步骤3共三大步骤：

步骤1：通过一种新的统一范式POV，对训练样本进行数据增强的具体方式如下：

步骤1.1：假设存在M个与目标任务T^*不同的NLP任务：T⁽¹⁾,…,T^(M)，其训练集分别定义为D⁽¹⁾,…,D^(M)，它们通常是非小样本的；对训练集进行分层抽样形成一个批次，其中从D⁽¹⁾,…,D^(M)中抽取一个训练样本i，其概率与它自己的数据集大小成正比，记为w_i，即

步骤1.2：一个统一的prompt范式，它通过POV三元组(P_i,O_i,V_i)来增强每个训练样本i；其中P_i是用于提供任务指导的提示，O_i是一个固定的表达，为模型提供所有候选标签词，V_i是语言生成器，它将掩盖掉的token的输出映射到整个单词表V中；这些选项是至关重要的，因为它们对PLM可能的输出，即候选词，给出了强有力的指示；关于训练样本i，tokenv∈V的输出概率q(v|i,P_i,O_i,Θ)计算如下：

其中，候选标签词token v′∈V；Θ表示底层预训练语言模型PLM的参数；s(v|i,P_i,O_i,Θ)是KSMLM头的未归一化的分数，用于以i,P_i,O_i作为输入，在[MASK]位置上生成token v，将整个预测向量(长度为)定义为/>多任务prompting损失/>的定义如下：

其中总数据集为独热编码的真实标签预测向量；

步骤1.3：结合上述的权重因子，将重新定义为加权多任务提示WMP损失/>

步骤2：利用知识增强的选择性KSMLM进行自监督任务学习的具体方式如下：

步骤2.1：首先对数据进行预处理，抽取一个训练样本i，其方法与1中相同；

步骤2.2：对于自监督学习任务的POV构造过程为：

选项生成器：通过词性标注模型检测语料库中的所有形容词，并过滤掉低频的形容词；然后用K-Means对形容词进行聚类，并将它们的token表征从底层PLM中生成作为特征；并构造了一个名为选项知识库(Options Knowledge Repository，简称OKR)的知识库，其形式为三元组其中v是一个候选标签词，/>和c_v分别定义为的表征向量和隶属的簇；给定一个以v为[MASK]单词的句子，本申请针对R查询关于最不相似的聚类，定义为/>采用向量表征/>与聚类中心的余弦相似度作为相似度的评价指标；最后，从/>随机选择一个形容词作为可替代的标签词，来生成知识引导选项；选项的文本表达式是固定的，即“Is it[x1]or[x2]？”；

步骤2.4：最终的总损失函数为：

其中λ≥0为平衡超参数。

步骤3：对特定的下游任务，在小目标训练集上进行微调，具体方式如下：

对于特定的下游任务T^*，目标小样本训练集D^*中的样本可以在统一提示调优中使用与那些有监督任务相同的方式进行处理和计算；两个阶段的学习一致性确保了底层预训练语言模型已经获得了T^*的提示知识；此外，可以在各种任务上基于提示微调一个单一的预训练语言模型，并使用它对任何目标任务进行微调，从而在计算上高效地为这些应用生成相应的模型。

实施例一

通过以下实验验证本发明的方法有效性：

评估指标为平均准确率和标准差，平均准确率——为模型对多个不同文本分析任务的正确预测结果占总样本的比例，标准差——为在各个不同的训练集上模型预测的差异变化。

首先选择数据集，本发明选择了9个公开的文本分类数据集，这些数据集按照文本分析任务被分为3组：(1)用于情感分析任务的数据集：SST-2，MR，CR；(2)用于自然语言推理(NLI)任务的数据集：MNLI，SNLI，QNLI，RTE；(3)用于复述(Paraphrase)任务的数据集：MRPC，QQP。默认情况下，把每类的训练实例K设置为16。

接着本发明的底层PLM模型一般选择的是RoBERTa-large模型，对比方法为标准的微调方法(fine-tuning)，以及四种小样本学习算法：掩码语言模型(PET)，小样本微调预训练模型(LM-BFF)，大模型提示微调模型(P-tuning)，预训练提示微调算法(PPT)。

为了与这些单任务的基线进行公平比较，本发明的方法的一个变体(称为本法-Single)也是通过仅对基于POV的小样本任务进行微调而实现，而不使用不同的有监督源任务。另外，在多任务方法中，当使用其它不同的数据集来训练模型时，本发明还使用不同数据集作为强基线进行多元微调(meta-tune)作为一种多任务方法，即MT，作为本发明的对比方法。

实验结果如下表所示，其中范式：“FT”和“PT”分别指微调(fine-tuning)和基于提示的微调(prompt-based fine-tuning)。

表1本发明和其他基线方法的平均准确率(％)的比较

表2本发明和其他基线方法标准差的比较

表1和表2的结果表示，基于提示的方法(即PET、LM-BFF、P-tuning、PPT)比标准的微调方法有很大改进。本发明的方法变体-Single的平均性能优于以往的小样本学习模型，这表明本发明使用的新的统一范式POV优于普通的基于提示的方法，同时与多任务方法MT比较，可以看到，本发明提出的POV范式和自监督KSMLM任务更适合用于小样本学习，且本发明方法在所有任务上的表现都优于其他方法，这表明本发明方法从不同任务组中学习而具有更好的泛化性能。

本发明提出了一种面向小样本文本分析的统一提示调优方法，通过一种新的统一范式POV，对训练样本进行数据增强；利用知识增强的选择性KSMLM进行自监督任务学习；最终对特定的下游任务，在小目标训练集上进行微调，来完成面向小样本的各类文本分类任务，本发明方法既提高了预训练语言模型在小样本文本分析任务中的性能，又提高统一提示调优框架的泛化能力，实现精确的任务适应。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向小样本文本分析的统一提示调优方法，其特征在于，包括：首先，通过一种新的统一范式POV，对训练样本进行数据增强；利用知识增强的选择性KSMLM进行自监督任务学习；最终对特定的下游任务，在小目标训练集上进行微调，来完成PLM面向小样本的各类文本分类任务。

2.根据权利要求1所述的一种面向小样本文本分析的统一提示调优方法，其特征在于，通过一种新的统一范式POV，对训练样本进行数据增强的方法，具体如下：

步骤1.2：一个统一的prompt范式，它通过POV三元组来增强每个训练样本i；其中P_i是用于提供任务指导的提示，O_i是一个固定的表达，为模型提供所有候选标签词，V_i是语言生成器，它将掩盖掉的token的输出映射到整个单词表V中；关于训练样本i，候选标签词tokenv∈V的输出概率q(v|i,P_i,O_i,Θ)计算如下：

其中，候选标签词tokenv′∈V；Θ表示底层PLM的参数；s(v|i,P_i,O_i,Θ)是KSMLM头的未归一化的分数，用于以i,P_i,O_i作为输入，在[MASK]位置上生成tokenv；将整个预测向量定义为

多任务prompting损失的定义如下：

其中总数据集为独热编码的真实标签预测向量；

3.根据权利要求1所述的一种面向小样本文本分析的统一提示调优方法，其特征在于：利用知识增强的选择性KSMLM进行自监督任务学习的方法如下：

步骤2.1：首先对数据进行预处理，抽取一个训练样本i；

步骤2.2：对于自监督学习任务的POV构造过程为：

步骤2.4：最终的总损失函数为：

其中，λ≥0为平衡超参数。

4.根据权利要求1所述的一种面向小样本文本分析的统一提示调优方法，其特征在于：对特定的下游任务，在小目标训练集上进行微调，具体方式如下：