CN114492363B

CN114492363B - 一种小样本微调方法、系统及相关装置

Info

Publication number: CN114492363B
Application number: CN202210392419.0A
Authority: CN
Inventors: 刘红丽; 李峰; 于彤; 申冲
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-07-15
Anticipated expiration: 2042-04-15
Also published as: CN114492363A; WO2023197613A1

Abstract

本申请提供一种小样本微调方法，涉及计算机技术领域，包括：输入数据集，按固定模板组成输入样例；构建候选标签词集合和候选prompt模板集合；通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词，和所述输入样例对应的所述候选prompt模板集合中的提示模板；输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式。本申请通过构建候选标签词集合，通过选择近义词集合和条件概率集合的交集，缩减候选标签词搜索空间，同时减少不同prompt模板之间的差异性，提高下游任务准确率。本申请还提供一种小样本微调系统、计算机可读存储介质和电子设备，具有上述有益效果。

Description

一种小样本微调方法、系统及相关装置

技术领域

本申请涉及计算机技术领域，特别涉及一种小样本微调方法、系统及相关装置。

背景技术

当前，在下游任务中微调预训练语言模型（LM）已成为 NLP 领域的通用做法。在标准的“预训练（pre-training）和微调（fine-tuning）”范式中，预训练阶段和下游任务之间的差距可能很大：它们训练目标不同。对于下游任务，通常需要引入新的参数。然而，随着语言模型的日益增大，很难有效地全参数微调预训练模型和新任务相关的参数，但是基于prompt的微调可以使得下游任务采用与预训练目标相同的格式，并且不需要新的参数。

当prompt模板包含一些训练示例时，预训练的语言模型可以执行许多任务。但是这种类型的小样本学习可能是非常不稳定的：prompt模板格式的选择、训练样本、甚至训练样本顺序都可能导致准确性在接近偶然到接近最先进水平之间漂移，这种不稳定性源于语言模型对预测某些答案的偏差，例如，那些被放在提示语末尾附近的答案，或在预训练数据中常见的答案，这些偏差往往会导致模型的输出分布发生变化。因此不同的prompt模板对最终准确性影响很大。

为了更好的完成相关下游任务，当前大多数prompt模板是根据人工直觉设计的。但是，找到一个合适的、正确的提示模板，既需要专业知识、又需要对语言模型内部的运作方式有着充分的理解。其实，针对不同任务，就人工手动设计提示模板或者标签词，是一件费力不讨好的事情。因此，应该采用自动化构建prompt方法。但是prompt模板的搜索空间很大，而且当只有少量标注数据进行模板搜索时，很容易导致过度拟合。这使得当前自动化构建prompt非常困难。

发明内容

本申请的目的是提供一种小样本微调方法、系统、计算机可读存储介质和电子设备，能够减少不同prompt模板之间的差异性，提高下游任务准确率。

为解决上述技术问题，本申请提供一种小样本微调方法，具体技术方案如下：

输入数据集，按固定模板组成输入样例；

构建候选标签词集合和候选prompt模板集合；

通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词，和所述输入样例对应的所述候选prompt模板集合中的提示模板；

输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式。

可选的，所述输入数据集，按固定模板组成输入样例包括：

获取输入内容；

将所述输入内容以所述固定模板表示；

计算所述输入内容与训练集中所有样本之间的余弦相似度；

从前预设百分比的训练集样本中进行随机采样，得到输入样例。

可选的，构建候选标签词集合和候选prompt模板集合包括：

自动化选择最佳候选标签词；

自动化选择候选prompt模板。

可选的，所述自动化选择候选标签词包括：

初始化词表；

采用word2vec方法将所述词表中所有的词向量化，通过余弦相似度确定每个标签对应的近义词集合；

通过未经微调的预训练模型L，对于训练集中的每一个类别，在所述词表中选择使得条件概率最大的单词，以及包含所述单词的条件概率集合：

确定各类别下的候选标签词为所述近义词集合和所述条件概率几何交集的最大值；

综合各类别下的候选标签词，确定令所述训练集正确率最大的分配方式作为最佳候选标签词。

可选的，所述自动化选择候选prompt模板包括：

确定所述最佳候选标签词；

通过填充占位符生成初始提示模板；所述初始提示模板用于令所述训练集中的输出概率最大；

采用集束搜索算法对所述初始提示模板解码得到候选prompt模板。

可选的，通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词，和所述输入样例对应的所述候选prompt模板集合中的提示模板包括：

确定每个类别的前预设数量个候选标签词集合；

将所述候选标签词集合与所述候选prompt模板对应的模板集合组合得到搜索空间列表；

通过所述搜索空间列表确定所述输入样例对应的候选标签词集合中的最佳标签词，和所述输入样例对应的所述候选prompt模板集合中的提示模板。

本申请还提供一种小样本微调系统，包括：

样例组成模块，用于输入数据集，按固定模板组成输入样例；

候选集合构建模块，用于构建候选标签词集合和候选prompt模板集合；

最佳选择模块，用于通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词，和所述输入样例对应的所述候选prompt模板集合中的提示模板；

输出模块，用于输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式。

可选的，所述样例组成模块包括：

输入单元，用于获取输入内容；

转换单元，用于将所述输入内容以所述固定模板表示；

相似度计算单元，用于计算所述输入内容与训练集中所有样本之间的余弦相似度；

采样单元，用于从前预设百分比的训练集样本中进行随机采样，得到输入样例。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请还提供一种电子设备，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

本申请提供一种小样本微调方法，具体技术方案如下：输入数据集，按固定模板组成输入样例；构建候选标签词集合和候选prompt模板集合；通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词，和所述输入样例对应的所述候选prompt模板集合中的提示模板；输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式。

本申请通过构建候选标签词集合，通过选择近义词集合和条件概率集合的交集，缩减候选标签词搜索空间，同时减少不同prompt模板之间的差异性，提高下游任务准确率。采用prompt微调预训练模型方法降低了内存需求和系统复杂性，尤其防止小样本过拟合。同时本申请采用强化学习过程搜索最佳标签词和模板，解决通用算法容易陷入局部最优问题。

本申请还提供一种小样本微调系统、计算机可读存储介质和电子设备，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的小样本微调方法的流程图；

图2为本申请实施例所提供的小样本微调系统结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下文先对本申请的相关概念进行说明：

一般而言NLP高效预训练框架围绕三个部分进行：模型预训练、模型微调和模型推理。

当前对prompt的研究有两种不同的方向：一、对于像 175B GPT-3 和 11B T5 这样的超大型模型，微调它们比较困难而且成本很高，因此希望固定它们的参数，然后将不同的prompt应用到不同任务上，但是通常该方法精度无法和微调相比。二、采用基于prompt的微调方法，能够保持精度的同时大大缩减优化参数量。

在标准的微调方案中，通常输入句子为 [CLS]语句1[SEP]或者成对的句子 [CLS]语句1[SEP]语句2[SEP]，然后在[CLS]部分添加一个额外的分类器（全连接层+softmax）。这种方法会引入新的参数，且在训练过程中会导致局部最优。

采用基于提示的微调方法能有效缓解，即将下游任务视为一种掩码语言模型（masked language modeling，MLM）的“自动补全”任务。例如输入的句子是：

其中

表示输入的句子，

则表示一个prompt模板，其中[MASK]部分则为一个标签词，其作为当前句子所属类的标签的代替词，例如对于电影评论二分类任务，其包含positive和negative，则可以分别使用great和terrible两个词作为两个类的标签词。

值得注意的是：上述方法重新使用了预先训练的参数权重，并且没有引入任何新参数来进行微调。同时还减少了微调和预训练之间的差距，这可以更有效地用于小样本场景。

当作为分类任务时：

原始是给定一个输入句子

，其属于对应某个类 y的概率。经过转化后，给定一个输入句子

时，其prompt模板中[MASK]预测为映射的标签词

的概率。

由上述分析，可以得知prompt由两部分构成：

模板T：例如

标签词映射M ( y )：即[MASK]位置预测输出的词汇集合，与真实标签y构成映射关系。

在基于提示的微调方法中，不同的模板和标签词选择其实对最终结果影响很大：使用相同“标签词”，即使对“模板”进行较小改动（如换标点符号）也会呈现不同结果；使用相同“模板”，不同的“标签词”效果也不一样。

因此，如何缓解这种不稳定性并自动化构建有效提示模板是当前研究热点。

在做自然语言处理的过程中，经常会遇到需要找出相似语句或词语的场景，涉及到句子或词语相似度计算的问题。具体计算流程：首先对句子进行分词，然后对分好的每一个词获取其对应的 Vector，然后将所有 Vector 相加并求平均，得到句子 Vector，最后再利用如下公式计算其夹角余弦值即可，余弦值越接近1（即夹角越小）表示语句或词语之间的相似度越高：

其中利用word2vec模型计算 Vector是目前常用方法之一。word2vec是google在2013年推出的一个NLP工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。

强化学习中关键因素包括模型载体（Agent）、环境（Environment）、状态（ State）、动作（Action）和奖励（Reward）。强化学习的目标是学习一个策略，使得智能体在合适的时候做出合适的动作，以获得最大的奖励。

强化学习中两种重要的方法是基于Q值的强化学习和基于策略梯度的强化学习。策略梯度算法的实质是建立一个策略网络（policy network），通过观察环境状态预测出目前应该执行的策略，执行这个策略，并获取可以获得的最大奖励。

Prompt微调会从预训练语料库带来偏置。例如，在零样本情感分类设置中，给定“N/A”作为输入，GPT-3 倾向于预测为“positive”而不是“negative”，而本应该分配50/50的概率给这两个相反的标签。另一个问题是同一对象的不同表示（例如，“computer”和“PC”）可能会竞争概率质量，导致任务标签上的分布不理想。因此在实际应用中校正很有必要。

本申请的核心思想是对带偏置的标签词进行补偿，把它们校准为无偏状态。具体流程首先输入无文本样例，即将无文本["N/A", " ", "[MASK]"]分别和标签词组合，如"N/A"与标签词“好”组成Prompt：“N/A。这个评价很好”；然后将Prompts输入语言模型，输出标签词位置对应的所有类别概率（logits），并取平均值后归一化得到 p_cf；根据公式

计算校正矩阵；校正后类别概率

，本申请中b为零。

请参考图1，图1为本申请实施例所提供的小样本微调方法的流程图，该方法包括：

S101：输入数据集，按固定模板组成输入样例；

S102：构建候选标签词集合和候选prompt模板集合；

S103：通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词，和所述输入样例对应的所述候选prompt模板集合中的提示模板；

S104：输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式。

首先输入数据集并进行数据处理：

初始化提示模板格式 T： sentence，表示这个评价很__。

输入下游任务数据，分训练集、验证集、测试集；

可以采用 SBERT（sentence-BERT）方法对句子进行编码，对于验证集的每个输入，分别计算与训练集中所有样本之间的余弦相似度，然后仅从前预设百分比的训练集样本中进行随机采样，例如从前 50% 的训练集样本中进行随机采样，组成输入；

转换成prompts输入

。

而对于步骤S102，可以分为两部分执行：

第一部分，先确定候选标签词集合，可以包括如下步骤；

第一步、初始化词表

；

第二步、采用word2vec方法将词表中所有的词向量化，通过余弦相似度确定每个标签对应的近义词集合

；

第三步、通过未经微调的预训练模型

，对于训练集中的每一个类别c，在词表中选择使得条件概率最大的Topk单词，集合为

：

其中

表示基于模型

的输出概率分布。

第四步、每个类别下的候选标签词为近义词集合和条件概率集合交集的最大Topn ，即

，其中

；

第五步、综合每个类别下的候选标签词，然后找出使得训练集正确率最大的分配方式作为临时最佳标签词；

第二部分，确定候选prompt模板集合，可以先确定所述最佳候选标签词；通过填充占位符生成初始提示模板，提示模板用于令所述训练集中的输出概率最大，最后采用集束搜索算法对所述初始提示模板解码得到候选prompt模板。由于面向生成式的自然语言模型基于多种无监督目标进行预训练，适合通过填充占位符<X>和<Y>方式生成提示模板。

上文获取每一个类别的前 n 个候选标签词集合，表示为

，其中

表示类别为c时映射的候选标签词集合，N表示类别数目。结合上文得到的候选模板集合T。将两者组合为搜索空间如表1的搜索空间列表，目标是在微调过程中找到最佳的标签词与模板分配方式。通过(1* N+1)的列表L表示，L[0: N-1]中编码数字表示对应集合内候选标签词的下标， L[N]中编码数字表示对应集合内候选模板的下标。

表1 搜索空间列表

候选集合
						编码	0/1/…/n-1	0/1/…/n-1	0/1/…/n-1	0/1/…/n-1	0/1/…/p-1

而强化学习中关键因素在本申请中的含义可以参考表2，表2为强化学习及其含义对照表，包含了本实施例所应用的强化学习对象及其含义：

表2 强化学习及其含义对照表

强化学习	含义
		智能体	策略网络（RNN控制器）
环境	语言模型环境
		动作	标签词和模板选择（编码）
状态	当前标签词和提示模板
		奖励	准确度

在将文本输入至模型，该模型包含语言模型环境，得到输出结果。将输出结果与标签相比，计算二者损失，将损失结果作为奖励，反馈给智能体，智能体根据奖励确定模板和标签词的选择方向，直至确定最佳标签词和提示模板。

本申请实施例通过构建候选标签词集合，通过选择近义词集合和条件概率集合的交集，缩减候选标签词搜索空间，同时减少不同prompt模板之间的差异性，提高下游任务准确率。此外，采用prompt微调预训练模型方法降低了内存需求和系统复杂性，尤其防止小样本过拟合。将每个类别下的候选标签词作为近义词集合和条件概率集合的交集，缩小了标签词的搜索空间。同时本申请采用强化学习过程搜索最佳标签词和模板，解决通用算法容易陷入局部最优问题。

下文中，本申请实施例以预训练好的GPT-3模型为例，对本申请的一种具体应用过程进行说明：

本申请实施例采用来自CLUE Benchmark的中文自然语言理解数据集，包含多个不同类型的任务，包括情感分析任务、自然语言推理、多种文本分类、文本匹配任务和成语阅读理解等。下面以电商产品评论情感分析数据集（ EPRSTMT）为实施例进行讲解。

数据量：训练集（32），验证集（32），测试集（753）

例子：{"id": 23, "sentence": "外包装上有点磨损，试听后感觉不错", "label": "Positive"}

每一条数据有三个属性，从前往后分别是 id, sentence, label。其中label是标签，Negative表示负向，对应0。而Positive表示正向，对应1。

第一步：将原始训练和验证数据转换为prompts输入和true_labels列表，比如sentence ："外包装上有点磨损，试听后感觉不错"是验证集的一个示例，采用 SBERT方法在训练集中找到相似样本s1：“已收货，试听了一下，音质可以”和 s2：“话筒声小插上耳机手机还能外放破耳机别买。”。采用初始化模板格式和标签词，最后prompts的样例如下：

s1。这个评价很好。s2。这个评价很差。 sentence。这个评价很[MASK]

需要注意， GPT-3在预训练输入时没有考虑[CLS][SEP]等分隔符，所以对应下游任务输入也不添加。

第二步：自动化选择候选标签词

假设结果为negative候选集合

: {差，难用，消极}，positive候选集合

:{好，不错，积极}。

第三步：自动化选择候选模板

假设候选模板T：{ sentence。这个评价很[MASK]。

sentence。消费者态度是[MASK]。

sentence。一个[MASK]的评价。}

第四步：通过强化学习搜索最佳标签词和提示模板

候选集合
				编码	0/1/2	0/1/2	0/1/2

注意，任务类别数目和候选数目越多，强化学习优势越明显。

假设搜索到标签词：{难用，不错}，搜索到模板：这个评价很[MASK]，则对应的无文本输入为：

N/A。这个评价很难用。

N/A。这个评价很不错。

这个评价很难用。

这个评价很不错。

[MASK]。这个评价很难用。

[MASK]。这个评价很不错。

假设无文本输入预训练模型，输出标签词对应概率取平均值后归一化得到p_cf ：[0.03201457 0.96798543]，可以看出当前模型对正面（positive）的标签词偏好非常明显；根据公式

计算校正矩阵 W ：

[[31.23577589 0. ]

[ 0. 1.0330734 ]]

假设输入样例：“居然有个耳机是坏的，也懒得换嘞。”组成模板格式输入LM模型输出标签词{差，好}对应概率[0.000906262, 0.01283005]，归一化[0.065975690.93402431]，根据最大值位置预测为“好”，预测错误。在实际应用中根据

计算较正后为[2.06080189，0.96491567]，根据最大值位置预测为“差”，预测正确。

本申请实施例以校正后准确率为奖励反馈更新策略网络，以此输出更好的标签词和模板选择。

需要注意的是，本实施例以情感分类为基础进行说明，但在实际应用中不仅局限于分类，其它诸如完形填空、自然语言推理等下游任务均可以此方式进行改进。

下面对本申请实施例提供的一种小样本微调系统进行介绍，下文描述的小样本微调系统与上文描述的小样本微调方法可相互对应参照。

图2为本申请实施例所提供的小样本微调系统结构示意图，本申请还提供一种小样本微调系统，包括：

基于上述实施例，作为优选的实施例，所述样例组成模块包括：

输入单元，用于获取输入内容；

转换单元，用于将所述输入内容以所述固定模板表示；

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器（Read-Only Memory ，ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种小样本微调方法，其特征在于，包括：

输入数据集，按固定模板组成输入样例；

构建候选标签词集合和候选prompt模板集合；

输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式；

其中，构建候选标签词集合和候选prompt模板集合包括：

自动化选择最佳候选标签词；

自动化选择候选prompt模板；

其中，所述自动化选择最佳候选标签词包括：

初始化词表；

通过未经微调的预训练模型，对于训练集中的每一个类别，在所述词表中选择使得条件概率最大的单词，以及包含所述单词的条件概率集合：

确定各类别下的候选标签词为所述近义词集合和所述条件概率的几何交集的最大值；

2.根据权利要求1所述的小样本微调方法，其特征在于，所述输入数据集，按固定模板组成输入样例包括：

获取输入内容；

将所述输入内容以固定模板表示；

计算所述输入内容与训练集中所有样本之间的余弦相似度；

3.根据权利要求1所述的小样本微调方法，其特征在于，所述自动化选择候选prompt模板包括：

确定所述最佳候选标签词；

4.根据权利要求3所述的小样本微调方法，其特征在于，通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词，和所述输入样例对应的所述候选prompt模板集合中的提示模板包括：

确定每个类别的前预设数量个候选标签词集合；

5.一种小样本微调系统，其特征在于，包括：

输出模块，用于输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式；

其中，候选集合构建模块为用于自动化选择最佳候选标签词，以及自动化选择候选prompt模板的模块；

其中，所述候选集合构建模块为用于执行如下步骤的模块：

初始化词表；

6.根据权利要求5所述的小样本微调系统，其特征在于，所述样例组成模块包括：

输入单元，用于获取输入内容；

转换单元，用于将所述输入内容以固定模板表示；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的方法的步骤。

8.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-4任一项所述的方法的步骤。