CN114492363B - 一种小样本微调方法、系统及相关装置 - Google Patents
一种小样本微调方法、系统及相关装置 Download PDFInfo
- Publication number
- CN114492363B CN114492363B CN202210392419.0A CN202210392419A CN114492363B CN 114492363 B CN114492363 B CN 114492363B CN 202210392419 A CN202210392419 A CN 202210392419A CN 114492363 B CN114492363 B CN 114492363B
- Authority
- CN
- China
- Prior art keywords
- candidate
- word
- template
- prompt
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000002787 reinforcement Effects 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 46
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000010845 search algorithm Methods 0.000 claims description 3
- 238000009966 trimming Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 230000009471 action Effects 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种小样本微调方法,涉及计算机技术领域,包括:输入数据集,按固定模板组成输入样例;构建候选标签词集合和候选prompt模板集合;通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词,和所述输入样例对应的所述候选prompt模板集合中的提示模板;输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式。本申请通过构建候选标签词集合,通过选择近义词集合和条件概率集合的交集,缩减候选标签词搜索空间,同时减少不同prompt模板之间的差异性,提高下游任务准确率。本申请还提供一种小样本微调系统、计算机可读存储介质和电子设备,具有上述有益效果。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种小样本微调方法、系统及相关装置。
背景技术
当前,在下游任务中微调预训练语言模型 (LM)已成为 NLP 领域的通用做法。在标准的“预训练(pre-training)和微调(fine-tuning)”范式中,预训练阶段和下游任务之间的差距可能很大:它们训练目标不同。对于下游任务,通常需要引入新的参数。然而,随着语言模型的日益增大,很难有效地全参数微调预训练模型和新任务相关的参数,但是基于prompt的微调可以使得下游任务采用与预训练目标相同的格式,并且不需要新的参数。
当prompt模板包含一些训练示例时,预训练的语言模型可以执行许多任务。但是这种类型的小样本学习可能是非常不稳定的:prompt模板格式的选择、训练样本、甚至训练样本顺序都可能导致准确性在接近偶然到接近最先进水平之间漂移,这种不稳定性源于语言模型对预测某些答案的偏差,例如,那些被放在提示语末尾附近的答案,或在预训练数据中常见的答案,这些偏差往往会导致模型的输出分布发生变化。因此不同的prompt模板对最终准确性影响很大。
为了更好的完成相关下游任务,当前大多数prompt模板是根据人工直觉设计的。但是,找到一个合适的、正确的提示模板,既需要专业知识、又需要对语言模型内部的运作方式有着充分的理解。其实,针对不同任务,就人工手动设计提示模板或者标签词,是一件费力不讨好的事情。因此,应该采用自动化构建prompt方法。但是prompt模板的搜索空间很大,而且当只有少量标注数据进行模板搜索时,很容易导致过度拟合。这使得当前自动化构建prompt非常困难。
发明内容
本申请的目的是提供一种小样本微调方法、系统、计算机可读存储介质和电子设备,能够减少不同prompt模板之间的差异性,提高下游任务准确率。
为解决上述技术问题,本申请提供一种小样本微调方法,具体技术方案如下:
输入数据集,按固定模板组成输入样例;
构建候选标签词集合和候选prompt模板集合;
通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词,和所述输入样例对应的所述候选prompt模板集合中的提示模板;
输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式。
可选的,所述输入数据集,按固定模板组成输入样例包括:
获取输入内容;
将所述输入内容以所述固定模板表示;
计算所述输入内容与训练集中所有样本之间的余弦相似度;
从前预设百分比的训练集样本中进行随机采样,得到输入样例。
可选的,构建候选标签词集合和候选prompt模板集合包括:
自动化选择最佳候选标签词;
自动化选择候选prompt模板。
可选的,所述自动化选择候选标签词包括:
初始化词表;
采用word2vec方法将所述词表中所有的词向量化,通过余弦相似度确定每个标签对应的近义词集合;
通过未经微调的预训练模型L,对于训练集中的每一个类别,在所述词表中选择使得条件概率最大的单词,以及包含所述单词的条件概率集合:
确定各类别下的候选标签词为所述近义词集合和所述条件概率几何交集的最大值;
综合各类别下的候选标签词,确定令所述训练集正确率最大的分配方式作为最佳候选标签词。
可选的,所述自动化选择候选prompt模板包括:
确定所述最佳候选标签词;
通过填充占位符生成初始提示模板;所述初始提示模板用于令所述训练集中的输出概率最大;
采用集束搜索算法对所述初始提示模板解码得到候选prompt模板。
可选的,通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词,和所述输入样例对应的所述候选prompt模板集合中的提示模板包括:
确定每个类别的前预设数量个候选标签词集合;
将所述候选标签词集合与所述候选prompt模板对应的模板集合组合得到搜索空间列表;
通过所述搜索空间列表确定所述输入样例对应的候选标签词集合中的最佳标签词,和所述输入样例对应的所述候选prompt模板集合中的提示模板。
本申请还提供一种小样本微调系统,包括:
样例组成模块,用于输入数据集,按固定模板组成输入样例;
候选集合构建模块,用于构建候选标签词集合和候选prompt模板集合;
最佳选择模块,用于通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词,和所述输入样例对应的所述候选prompt模板集合中的提示模板;
输出模块,用于输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式。
可选的,所述样例组成模块包括:
输入单元,用于获取输入内容;
转换单元,用于将所述输入内容以所述固定模板表示;
相似度计算单元,用于计算所述输入内容与训练集中所有样本之间的余弦相似度;
采样单元,用于从前预设百分比的训练集样本中进行随机采样,得到输入样例。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
本申请还提供一种电子设备,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。
本申请提供一种小样本微调方法,具体技术方案如下:输入数据集,按固定模板组成输入样例;构建候选标签词集合和候选prompt模板集合;通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词,和所述输入样例对应的所述候选prompt模板集合中的提示模板;输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式。
本申请通过构建候选标签词集合,通过选择近义词集合和条件概率集合的交集,缩减候选标签词搜索空间,同时减少不同prompt模板之间的差异性,提高下游任务准确率。采用prompt微调预训练模型方法降低了内存需求和系统复杂性,尤其防止小样本过拟合。同时本申请采用强化学习过程搜索最佳标签词和模板,解决通用算法容易陷入局部最优问题。
本申请还提供一种小样本微调系统、计算机可读存储介质和电子设备,具有上述有益效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的小样本微调方法的流程图;
图2为本申请实施例所提供的小样本微调系统结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下文先对本申请的相关概念进行说明:
一般而言NLP高效预训练框架围绕三个部分进行:模型预训练、模型微调和模型推理。
当前对prompt的研究有两种不同的方向:一、对于像 175B GPT-3 和 11B T5 这样的超大型模型,微调它们比较困难而且成本很高,因此希望固定它们的参数,然后将不同的prompt应用到不同任务上,但是通常该方法精度无法和微调相比。二、采用基于prompt的微调方法,能够保持精度的同时大大缩减优化参数量。
在标准的微调方案中,通常输入句子为 [CLS]语句1[SEP]或者成对的句子 [CLS]语句1[SEP]语句2[SEP],然后在[CLS]部分添加一个额外的分类器(全连接层+softmax)。这种方法会引入新的参数,且在训练过程中会导致局部最优。
采用基于提示的微调方法能有效缓解,即将下游任务视为一种掩码语言模型(masked language modeling,MLM)的“自动补全”任务。例如输入的句子是:
其中表示输入的句子,则表示一个prompt模板,其中[MASK]部分则为一个标签词,其作为当前句子所属类的标签的代替词,例如对于电影评论二分类任务,其包含positive和negative,则可以分别使用great和terrible两个词作为两个类的标签词。
值得注意的是:上述方法重新使用了预先训练的参数权重,并且没有引入任何新参数来进行微调。同时还减少了微调和预训练之间的差距,这可以更有效地用于小样本场景。
当作为分类任务时:
由上述分析,可以得知prompt由两部分构成:
标签词映射M ( y ):即[MASK]位置预测输出的词汇集合,与真实标签y构成映射关系。
在基于提示的微调方法中,不同的模板和标签词选择其实对最终结果影响很大:使用相同“标签词”,即使对“模板”进行较小改动(如换标点符号)也会呈现不同结果;使用相同“模板”,不同的“标签词”效果也不一样。
因此,如何缓解这种不稳定性并自动化构建有效提示模板是当前研究热点。
在做自然语言处理的过程中,经常会遇到需要找出相似语句或词语的场景,涉及到句子或词语相似度计算的问题。具体计算流程:首先对句子进行分词,然后对分好的每一个词获取其对应的 Vector,然后将所有 Vector 相加并求平均,得到句子 Vector,最后再利用如下公式计算其夹角余弦值即可,余弦值越接近1(即夹角越小)表示语句或词语之间的相似度越高:
其中利用word2vec模型计算 Vector是目前常用方法之一。word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。
强化学习中关键因素包括模型载体(Agent)、环境(Environment)、状态( State)、动作(Action)和奖励(Reward)。强化学习的目标是学习一个策略,使得智能体在合适的时候做出合适的动作,以获得最大的奖励。
强化学习中两种重要的方法是基于Q值的强化学习和基于策略梯度的强化学习。策略梯度算法的实质是建立一个策略网络(policy network),通过观察环境状态预测出目前应该执行的策略,执行这个策略,并获取可以获得的最大奖励。
Prompt微调会从预训练语料库带来偏置。例如,在零样本情感分类设置中,给定“N/A”作为输入,GPT-3 倾向于预测为“positive”而不是“negative”,而本应该分配50/50的概率给这两个相反的标签。另一个问题是同一对象的不同表示(例如,“computer”和“PC”)可能会竞争概率质量,导致任务标签上的分布不理想。因此在实际应用中校正很有必要。
本申请的核心思想是对带偏置的标签词进行补偿,把它们校准为无偏状态。具体流程首先输入无文本样例,即将无文本["N/A", " ", "[MASK]"]分别和标签词组合,如"N/A"与标签词“好”组成Prompt:“N/A。这个评价很好”;然后将Prompts输入语言模型,输出标签词位置对应的所有类别概率(logits),并取平均值后归一化得到 p_cf;根据公式计算校正矩阵;校正后类别概率,本申请中b为零。
请参考图1,图1为本申请实施例所提供的小样本微调方法的流程图,该方法包括:
S101:输入数据集,按固定模板组成输入样例;
S102:构建候选标签词集合和候选prompt模板集合;
S103:通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词,和所述输入样例对应的所述候选prompt模板集合中的提示模板;
S104:输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式。
首先 输入数据集并进行数据处理:
初始化提示模板格式 T: sentence,表示这个评价很__。
输入下游任务数据,分训练集、验证集、测试集;
可以采用 SBERT(sentence-BERT) 方法对句子进行编码,对于验证集的每个输入,分别计算与训练集中所有样本之间的余弦相似度,然后仅从前预设百分比的训练集样本中进行随机采样,例如从前 50% 的训练集样本中进行随机采样,组成输入;
而对于步骤S102,可以分为两部分执行:
第一部分,先确定候选标签词集合,可以包括如下步骤;
第五步、综合每个类别下的候选标签词,然后找出使得训练集正确率最大的分配方式作为临时最佳标签词;
第二部分,确定候选prompt模板集合,可以先确定所述最佳候选标签词;通过填充占位符生成初始提示模板,提示模板用于令所述训练集中的输出概率最大,最后采用集束搜索算法对所述初始提示模板解码得到候选prompt模板。由于面向生成式的自然语言模型基于多种无监督目标进行预训练,适合通过填充占位符<X>和<Y>方式生成提示模板。
上文获取每一个类别的前 n 个候选标签词集合,表示为,其中表示类别为c时映射的候选标签词集合,N表示类别数目。结合上文得到的候选模板集合T。将两者组合为搜索空间如表1的搜索空间列表,目标是在微调过程中找到最佳的标签词与模板分配方式。通过(1* N+1)的列表L表示,L[0: N-1]中编码数字表示对应集合内候选标签词的下标, L[N]中编码数字表示对应集合内候选模板的下标。
表1 搜索空间列表
而强化学习中关键因素在本申请中的含义可以参考表2,表2为强化学习及其含义对照表,包含了本实施例所应用的强化学习对象及其含义:
表2 强化学习及其含义对照表
强化学习 | 含义 |
智能体 | 策略网络(RNN控制器) |
环境 | 语言模型环境 |
动作 | 标签词和模板选择(编码) |
状态 | 当前标签词和提示模板 |
奖励 | 准确度 |
在将文本输入至模型,该模型包含语言模型环境,得到输出结果。将输出结果与标签相比,计算二者损失,将损失结果作为奖励,反馈给智能体,智能体根据奖励确定模板和标签词的选择方向,直至确定最佳标签词和提示模板。
本申请实施例通过构建候选标签词集合,通过选择近义词集合和条件概率集合的交集,缩减候选标签词搜索空间,同时减少不同prompt模板之间的差异性,提高下游任务准确率。此外,采用prompt微调预训练模型方法降低了内存需求和系统复杂性,尤其防止小样本过拟合。将每个类别下的候选标签词作为近义词集合和条件概率集合的交集,缩小了标签词的搜索空间。同时本申请采用强化学习过程搜索最佳标签词和模板,解决通用算法容易陷入局部最优问题。
下文中,本申请实施例以预训练好的GPT-3模型为例,对本申请的一种具体应用过程进行说明:
本申请实施例采用来自CLUE Benchmark的中文自然语言理解数据集,包含多个不同类型的任务,包括情感分析任务、自然语言推理、多种文本分类、文本匹配任务和成语阅读理解等。下面以电商产品评论情感分析数据集( EPRSTMT)为实施例进行讲解。
数据量:训练集(32),验证集(32),测试集(753)
例子:{"id": 23, "sentence": "外包装上有点磨损,试听后感觉不错", "label": "Positive"}
每一条数据有三个属性,从前往后分别是 id, sentence, label。其中label是标签,Negative表示负向,对应0。而Positive表示正向,对应1。
第一步:将原始训练和验证数据转换为prompts输入和true_labels列表,比如sentence :"外包装上有点磨损,试听后感觉不错"是验证集的一个示例,采用 SBERT方法在训练集中找到相似样本s1:“已收货,试听了一下,音质可以”和 s2:“话筒声小 插上耳机手机还能外放破耳机别买。”。采用初始化模板格式和标签词,最后prompts的样例如下:
s1。这个评价很好。s2。这个评价很差。 sentence。这个评价很[MASK]
需要注意, GPT-3在预训练输入时没有考虑[CLS][SEP]等分隔符,所以对应下游任务输入也不添加。
第二步:自动化选择候选标签词
第三步:自动化选择候选模板
假设候选模板T:{ sentence。这个评价很[MASK]。
sentence。消费者态度是[MASK]。
sentence。一个[MASK]的评价。}
第四步:通过强化学习搜索最佳标签词和提示模板
注意,任务类别数目和候选数目越多,强化学习优势越明显。
假设搜索到标签词:{难用,不错},搜索到模板:这个评价很[MASK],则对应的无文本输入为:
N/A。这个评价很难用。
N/A。这个评价很不错。
这个评价很难用。
这个评价很不错。
[MASK]。这个评价很难用。
[MASK]。这个评价很不错。
假设无文本输入预训练模型,输出标签词对应概率取平均值后归一化得到p_cf :[0.03201457 0.96798543],可以看出当前模型对正面(positive)的标签词偏好非常明显;根据公式计算校正矩阵 W :
[[31.23577589 0. ]
[ 0. 1.0330734 ]]
假设输入样例:“居然有个耳机是坏的,也懒得换嘞。”组成模板格式输入LM模型输出标签词{差,好}对应概率[0.000906262, 0.01283005],归一化[0.065975690.93402431],根据最大值位置预测为“好”,预测错误。在实际应用中根据计算较正后为[2.06080189,0.96491567],根据最大值位置预测为“差”,预测正确。
本申请实施例以校正后准确率为奖励反馈更新策略网络,以此输出更好的标签词和模板选择。
需要注意的是,本实施例以情感分类为基础进行说明,但在实际应用中不仅局限于分类,其它诸如完形填空、自然语言推理等下游任务均可以此方式进行改进。
下面对本申请实施例提供的一种小样本微调系统进行介绍,下文描述的小样本微调系统与上文描述的小样本微调方法可相互对应参照。
图2为本申请实施例所提供的小样本微调系统结构示意图,本申请还提供一种小样本微调系统,包括:
样例组成模块,用于输入数据集,按固定模板组成输入样例;
候选集合构建模块,用于构建候选标签词集合和候选prompt模板集合;
最佳选择模块,用于通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词,和所述输入样例对应的所述候选prompt模板集合中的提示模板;
输出模块,用于输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式。
基于上述实施例,作为优选的实施例,所述样例组成模块包括:
输入单元,用于获取输入内容;
转换单元,用于将所述输入内容以所述固定模板表示;
相似度计算单元,用于计算所述输入内容与训练集中所有样本之间的余弦相似度;
采样单元,用于从前预设百分比的训练集样本中进行随机采样,得到输入样例。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory ,ROM)、随机存取存储器(Random Access Memory ,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (8)
1.一种小样本微调方法,其特征在于,包括:
输入数据集,按固定模板组成输入样例;
构建候选标签词集合和候选prompt模板集合;
通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词,和所述输入样例对应的所述候选prompt模板集合中的提示模板;
输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式;
其中,构建候选标签词集合和候选prompt模板集合包括:
自动化选择最佳候选标签词;
自动化选择候选prompt模板;
其中,所述自动化选择最佳候选标签词包括:
初始化词表;
采用word2vec方法将所述词表中所有的词向量化,通过余弦相似度确定每个标签对应的近义词集合;
通过未经微调的预训练模型,对于训练集中的每一个类别,在所述词表中选择使得条件概率最大的单词,以及包含所述单词的条件概率集合:
确定各类别下的候选标签词为所述近义词集合和所述条件概率的几何交集的最大值;
综合各类别下的候选标签词,确定令所述训练集正确率最大的分配方式作为最佳候选标签词。
2.根据权利要求1所述的小样本微调方法,其特征在于,所述输入数据集,按固定模板组成输入样例包括:
获取输入内容;
将所述输入内容以固定模板表示;
计算所述输入内容与训练集中所有样本之间的余弦相似度;
从前预设百分比的训练集样本中进行随机采样,得到输入样例。
3.根据权利要求1所述的小样本微调方法,其特征在于,所述自动化选择候选prompt模板包括:
确定所述最佳候选标签词;
通过填充占位符生成初始提示模板;所述初始提示模板用于令所述训练集中的输出概率最大;
采用集束搜索算法对所述初始提示模板解码得到候选prompt模板。
4.根据权利要求3所述的小样本微调方法,其特征在于,通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词,和所述输入样例对应的所述候选prompt模板集合中的提示模板包括:
确定每个类别的前预设数量个候选标签词集合;
将所述候选标签词集合与所述候选prompt模板对应的模板集合组合得到搜索空间列表;
通过所述搜索空间列表确定所述输入样例对应的候选标签词集合中的最佳标签词,和所述输入样例对应的所述候选prompt模板集合中的提示模板。
5.一种小样本微调系统,其特征在于,包括:
样例组成模块,用于输入数据集,按固定模板组成输入样例;
候选集合构建模块,用于构建候选标签词集合和候选prompt模板集合;
最佳选择模块,用于通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词,和所述输入样例对应的所述候选prompt模板集合中的提示模板;
输出模块,用于输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式;
其中,候选集合构建模块为用于自动化选择最佳候选标签词,以及自动化选择候选prompt模板的模块;
其中,所述候选集合构建模块为用于执行如下步骤的模块:
初始化词表;
采用word2vec方法将所述词表中所有的词向量化,通过余弦相似度确定每个标签对应的近义词集合;
通过未经微调的预训练模型,对于训练集中的每一个类别,在所述词表中选择使得条件概率最大的单词,以及包含所述单词的条件概率集合:
确定各类别下的候选标签词为所述近义词集合和所述条件概率的几何交集的最大值;
综合各类别下的候选标签词,确定令所述训练集正确率最大的分配方式作为最佳候选标签词。
6.根据权利要求5所述的小样本微调系统,其特征在于,所述样例组成模块包括:
输入单元,用于获取输入内容;
转换单元,用于将所述输入内容以固定模板表示;
相似度计算单元,用于计算所述输入内容与训练集中所有样本之间的余弦相似度;
采样单元,用于从前预设百分比的训练集样本中进行随机采样,得到输入样例。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的方法的步骤。
8.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1-4任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210392419.0A CN114492363B (zh) | 2022-04-15 | 2022-04-15 | 一种小样本微调方法、系统及相关装置 |
PCT/CN2022/134801 WO2023197613A1 (zh) | 2022-04-15 | 2022-11-28 | 一种小样本微调方法、系统及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210392419.0A CN114492363B (zh) | 2022-04-15 | 2022-04-15 | 一种小样本微调方法、系统及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114492363A CN114492363A (zh) | 2022-05-13 |
CN114492363B true CN114492363B (zh) | 2022-07-15 |
Family
ID=81489169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210392419.0A Active CN114492363B (zh) | 2022-04-15 | 2022-04-15 | 一种小样本微调方法、系统及相关装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114492363B (zh) |
WO (1) | WO2023197613A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492363B (zh) * | 2022-04-15 | 2022-07-15 | 苏州浪潮智能科技有限公司 | 一种小样本微调方法、系统及相关装置 |
CN114896395A (zh) * | 2022-04-26 | 2022-08-12 | 阿里巴巴(中国)有限公司 | 语言模型微调方法、文本分类方法、装置及设备 |
CN115248846B (zh) * | 2022-07-26 | 2023-05-23 | 贝壳找房(北京)科技有限公司 | 文本识别方法、设备、介质 |
CN117609444B (zh) * | 2023-11-08 | 2024-06-25 | 天讯瑞达通信技术有限公司 | 一种基于大模型的搜索问答方法 |
CN117272988B (zh) * | 2023-11-13 | 2024-04-19 | 荣耀终端有限公司 | 优化提示词的方法、电子设备 |
CN117725223B (zh) * | 2023-11-20 | 2024-07-02 | 中国科学院成都文献情报中心 | 面向知识发现的科学实验知识图谱构建方法及系统 |
CN117493587B (zh) * | 2023-12-28 | 2024-04-09 | 苏州元脑智能科技有限公司 | 一种文章生成的方法、装置、设备及介质 |
CN117540012B (zh) * | 2024-01-04 | 2024-04-30 | 阿里云计算有限公司 | 文本生成方法以及系统 |
CN117854066B (zh) * | 2024-01-10 | 2024-09-10 | 深圳市大数据研究院 | 基于提示学习的通用多类细胞检测方法以及装置 |
CN117992612A (zh) * | 2024-02-06 | 2024-05-07 | 延边大学 | 基于提示学习和更新关系标签词表示的关系抽取方法和装置 |
CN118656473A (zh) * | 2024-08-16 | 2024-09-17 | 济南浪潮数据技术有限公司 | 大模型数据生成方法、装置、设备、介质及产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522850A (zh) * | 2018-11-22 | 2019-03-26 | 中山大学 | 一种基于小样本学习的动作相似度评估方法 |
CN112784879A (zh) * | 2020-12-31 | 2021-05-11 | 前线智能科技(南京)有限公司 | 一种基于小样本域自适应的医学影像分割或分类方法 |
CN113468877A (zh) * | 2021-07-09 | 2021-10-01 | 浙江大学 | 语言模型的微调方法、装置、计算设备和存储介质 |
CN114254642A (zh) * | 2021-12-16 | 2022-03-29 | 北京百度网讯科技有限公司 | 实体信息处理方法、装置、电子设备和介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020247868A1 (en) * | 2019-06-05 | 2020-12-10 | dMASS, Inc. | Machine learning systems and methods for automated prediction of innovative solutions to targeted problems |
CN113868380A (zh) * | 2021-06-21 | 2021-12-31 | 四川启睿克科技有限公司 | 一种少样本意图识别方法及装置 |
CN113961705B (zh) * | 2021-10-29 | 2024-08-27 | 聚好看科技股份有限公司 | 一种文本分类方法及服务器 |
CN113901799B (zh) * | 2021-12-07 | 2022-03-08 | 苏州浪潮智能科技有限公司 | 模型训练、文本预测方法、装置、电子设备及介质 |
CN114492363B (zh) * | 2022-04-15 | 2022-07-15 | 苏州浪潮智能科技有限公司 | 一种小样本微调方法、系统及相关装置 |
-
2022
- 2022-04-15 CN CN202210392419.0A patent/CN114492363B/zh active Active
- 2022-11-28 WO PCT/CN2022/134801 patent/WO2023197613A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522850A (zh) * | 2018-11-22 | 2019-03-26 | 中山大学 | 一种基于小样本学习的动作相似度评估方法 |
CN112784879A (zh) * | 2020-12-31 | 2021-05-11 | 前线智能科技(南京)有限公司 | 一种基于小样本域自适应的医学影像分割或分类方法 |
CN113468877A (zh) * | 2021-07-09 | 2021-10-01 | 浙江大学 | 语言模型的微调方法、装置、计算设备和存储介质 |
CN114254642A (zh) * | 2021-12-16 | 2022-03-29 | 北京百度网讯科技有限公司 | 实体信息处理方法、装置、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114492363A (zh) | 2022-05-13 |
WO2023197613A1 (zh) | 2023-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114492363B (zh) | 一种小样本微调方法、系统及相关装置 | |
CN110717039B (zh) | 文本分类方法和装置、电子设备、计算机可读存储介质 | |
Luan et al. | Scientific information extraction with semi-supervised neural tagging | |
US20210382937A1 (en) | Image processing method and apparatus, and storage medium | |
CN113204952B (zh) | 一种基于聚类预分析的多意图与语义槽联合识别方法 | |
CN111931490B (zh) | 文本纠错方法、装置及存储介质 | |
CN113065331B (zh) | 基于实体上下文判别的实体情感识别方法和系统 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN114528383A (zh) | 基于对比学习的预训练语言模型处理方法和智能问答系统 | |
US20230368003A1 (en) | Adaptive sparse attention pattern | |
CN111538846A (zh) | 基于混合协同过滤的第三方库推荐方法 | |
CN110309281A (zh) | 基于知识图谱的问答方法、装置、计算机设备及存储介质 | |
CN115146021A (zh) | 文本检索匹配模型的训练方法、装置、电子设备及介质 | |
CN114781651A (zh) | 基于对比学习的小样本学习鲁棒性提升方法 | |
CN116166773A (zh) | 一种变体文本识别方法、装置和可读存储介质 | |
CN114995903A (zh) | 一种基于预训练语言模型的类别标签识别方法及装置 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN116720498A (zh) | 一种文本相似度检测模型的训练方法、装置及其相关介质 | |
CN111813941A (zh) | 结合rpa和ai的文本分类方法、装置、设备及介质 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
US20240338524A1 (en) | Natural language processing method and apparatus, device, and readable storage medium | |
CN115310449A (zh) | 一种基于小样本的命名实体识别方法、装置及相关介质 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
CN111859124A (zh) | 一种目标对象智能推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |