CN113468877A

CN113468877A - 语言模型的微调方法、装置、计算设备和存储介质

Info

Publication number: CN113468877A
Application number: CN202110777350.9A
Authority: CN
Inventors: 张宁豫; 陈想; 陈华钧; 邓淑敏; 毕祯; 叶宏彬
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-10-01

Abstract

本发明公开了一种语言模型的微调方法、装置、计算设备和存储介质，包括：获取预训练好的语言模型、词组，所述词组包括离散的模板提示词和离散的标签词；设计微调语言模型的输入数据，所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌；根据输入数据和标签词对语言模型进行遮蔽令牌预测任务的有监督学习，以优化语言模型的模型参数。通过弥合预训练的语言模型和微调的语言模型之间的差距，从而使微调的语言模型在下游的遮蔽令牌预测任务上表现更好；全量样本情况下，本方法相对传统微调方法效果较好，在少样本情况下，本方法效果提升更加显著，能够减少大量参数的计算成本，降低计算设备的计算开销。

Description

语言模型的微调方法、装置、计算设备和存储介质

技术领域

本发明属于自然语言处理技术领域，具体涉及一种语言模型的微调方法、装置、计算设备和存储介质。

背景技术

预训练语言模型是在大型语料数据集上训练得到的模型，其利用在大量语料进行预训练得到。因为预训练语言模型已经利用大量的语料进行无监督学习，已将语料中的知识迁移进了预训练语言模型的嵌入层中。微调是将预训练模型知识转移到下游任务的主要方法，如公布号为CN112100383A的专利申请公开的一种面向多任务语言模型的元-知识微调方法及平台，再如公布号为CN113032559A的专利申请公开的一种用于低资源黏着性语言文本分类的语言模型微调方法。

目前常用的微调方法均需在针对特定任务增加网络结构来进行微调，以此适应某种特定任务。但这类微调方法有如下缺陷：(1)其参数效率低下：每个下游任务都有自己的微调参数；(2)预训练的训练目标和微调目标不同，导致预训练模型泛化能力差；(3)其相对预训练阶段增加网络参数，需要大量数据才能学好新增的参数。

目前深度学习技术需要大量的数据来训练一个好模型，即需要标记大量的数据来训练模型，而这就存在费时费力的问题，因此少样本学习是一个不错的选择。少样本自然语言处理指的是自然语言处理任务只附带少量的标记样本，这是一个人工只能系统必须学会应对的现实挑战。而预训练模型在大规模的数据上训练过后，其本身已蕴含丰富的知识，因此在少样本场景下，通常依赖于基于预训练模型的微调。而传统的微调方法新增了参数且训练目标与微调目标不同，这导致现在少样本的很多任务上，基于预训练模型的传统微调方法由于训练的数据样本太少易过拟合，训练出的模型可能在训练集上作用效果尚可，但是在测试集上仍然跟使用大样本的情况有很大差距，差距大就会导致少样本不能用。

综上所述，需要研究与开发一种适用于真实应用场景的科学有实际效果的预训练模型微调方法，具有很强的现实意义。

发明内容

鉴于上述，本发明的目的是提供一种语言模型的微调方法、装置、计算设备和存储介质，提升语言模型的微调的鲁棒性，且能够减少参数的计算成本。

第一方面，实施例提供了一种语言模型的微调方法，包括以下步骤：

获取预训练好的语言模型、词组，所述词组包括离散的模板提示词和离散的标签词；

设计微调语言模型的输入数据，所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌；

根据输入数据和标签词对语言模型进行遮蔽令牌预测任务的有监督学习，以优化语言模型的模型参数。

第二方面，实施例提供了一种语言模型的微调方法，包括以下步骤：

获取预训练好的语言模型、词组，所述词组包括模板提示词和标签词，且词组中至少一种词为连续的；

将输入数据和标签词输入语言模型进行遮蔽令牌预测任务，并固定语言模型的模型参数不变，利用语言模型来优化连续的模板提示词和/或连续的标签词的嵌入向量；

根据输入数据、输出数据包含模板提示词对应的标签词的嵌入向量，或根据输入数据、输出数据包含模板提示词的嵌入向量对应的标签词或标签词的嵌入向量，对语言模型进行遮蔽令牌预测任务的有监督学习，以优化语言模型的模型参数。

其中，所述离散的模板提示词与离散的标签词均为自然语言的词汇；所述连续的模板提示词与连续的标签词均为连续向量。

一个实施例中，所述离散的模板提示词和离散的标签词通过人工设计、梯度搜索或生成模型生成三种方式获得。

一个实施例中，所述设计微调语言模型的输入数据包括：设计模板提示词的个数和在输入数据中的位置，设计遮蔽令牌在输入数据中的位置。

一个实施例中，所述语言模型包括经语料预训练的BERT、XLNet、RoBERTa或GPT系列模型。

第三方面，实施例提供了一种语言模型的微调装置，包括：

获取模块，用于获取预训练好的语言模型、词组，所述词组包括离散的模板提示词和离散的标签词；

设计模块，用于设计微调语言模型的输入数据，所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌；

微调模块，用于根据输入数据和标签词对语言模型进行遮蔽令牌预测任务的有监督学习，以优化语言模型的模型参数。

第四方面，实施例提供了一种语言模型的微调装置，包括：

获取模块，用于获取预训练好的语言模型、词组，所述词组包括模板提示词和标签词，且词组中至少一种词为连续的；

优化模块，用于将输入数据和标签词输入语言模型进行遮蔽令牌预测任务，并固定语言模型的模型参数不变，利用语言模型来优化连续的模板提示词和/或连续的标签词的嵌入向量；

微调模块，用于根据输入数据、输出数据包含模板提示词对应的标签词的嵌入向量，或根据输入数据、输出数据包含模板提示词的嵌入向量对应的标签词或标签词的嵌入向量，对语言模型进行遮蔽令牌预测任务的有监督学习，以优化语言模型的模型参数。

第五方面，实施例提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时上述语言模型的微调方法。

第六方面，实施例提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理执行时实现上述语言模型的微调方法。

上述实施例提供的技术方案，具有的有益效果至少包括：

通过设计的模板提示词和遮蔽令牌添加到输入数据中，并将设计的标签词作为监督目，对语言模型进行遮蔽令牌预测任务的有监督学习，来弥合预训练的语言模型和微调的语言模型之间的差距，从而使微调的语言模型在下游的遮蔽令牌预测任务上表现更好；同时，采用少量样本进行语言模型的微调能够减少大量参数的计算成本，降低计算设备的计算开销。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是一实施例提供的语言模型的微调方法的流程图；

图2是另一实施例提供的语言模型的微调方法的流程图；

图3是另一实施例提供的语言模型的微调方法的流程图；

图4是一实施例提供的语言模型的微调装置的流程图；

图5是另一实施例提供的语言模型的微调装置的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1是一实施例提供的语言模型的微调方法的流程图。如图1所示，实施例提供的语言模型的微调方法，包括以下步骤：

S101，获取预训练好的语言模型、词组，所述词组包括离散的模板提示词和离散的标签词。

S102设计微调语言模型的输入数据，所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌；

S103，根据输入数据和标签词对语言模型进行遮蔽令牌预测任务的有监督学习，以优化语言模型的模型参数。

图2是另一实施例提供的语言模型的微调方法的流程图。如图2所示，实施例提供的语言模型的微调方法，包括以下步骤：

S201，获取预训练好的语言模型、词组，所述词组包括模板提示词和标签词，且词组中至少一种词为连续的；

S202，设计微调语言模型的输入数据，所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌；

S203，将输入数据和标签词输入语言模型进行遮蔽令牌预测任务，并固定语言模型的模型参数不变，利用语言模型来优化连续的模板提示词和/或连续的标签词的嵌入向量；

S204，根据输入数据、输出数据包含模板提示词对应的标签词的嵌入向量，或根据输入数据、输出数据包含模板提示词的嵌入向量对应的标签词或标签词的嵌入向量，对语言模型进行遮蔽令牌预测任务的有监督学习，以优化语言模型的模型参数。

实施例中，预训练的语言模型是专门为从大规模无标注语料中以无监督的方式学习语料中的语义信息的神经网络模型，它是由多层神经网络组成的复杂的学习模型，预训练模型能够更为准确的捕获文本中的语义信息，提高模型进行下游任务的准确性。其中，语言模型包括但不限于经语料预训练的BERT、GPT、XLNet、RoBERTa或GPT系列等模型。这些模型经过语料预训练之后，将语料的知识迁移到了模型的嵌入层，使得获得的预训练的语言模型嵌入有知识空间。

实施例中，模板提示词用于根据遮蔽令牌预测任务以及需求引导并挖掘预训练的语言模型嵌入知识来更好地解决遮蔽令牌预测任务。标签词作为下游遮蔽令牌预测任务的预测目标，也就是预测任务的学习标签。模板提示词与标签词均可以是可微分的连续形式，或者不可微分的离散形式。

其中，离散的模板提示词与离散的标签词均为自然语言的词汇，连续的模板提示词与连续的标签词均为连续向量。离散的模板提示词和离散的标签词通过人工设计、梯度搜索或生成模型生成三种方式获得。即可以手工设计或梯度搜索算法搜索或者生成模型生成适用于遮蔽令牌任务的自然语言的模板提示词，例如当遮蔽令牌预测任务是情感预测任务，即预测语句表达的情感信息，则可以采用人工设计设计模板提示词为：这句话表达的情感是什么，对应的标签词为积极、消极或者平淡。再例如当遮蔽令牌预测任务是关系抽取任务，即从语句中抽取实体关系，则可以采用度搜索算法搜索出显著性最高的前n个词作为模板提示词，两个实体之间的关系是什么，对应的标签词为夫妻、同事、朋友等。

实施例中，遮蔽令牌是与标签词对应的，在训练的过程中引导遮蔽令牌位置预测输出对应的标签词。实施例中，设计微调语言模型的输入数据包括：设计模板提示词的个数和在输入数据中的位置，设计遮蔽令牌在输入数据中的位置。在设计语言模型的输入数据时，需要设计模板提示词的个数，一条输入数据中需要至少包含一个模板提示词，还需要设计模板提示词在输入数据中的位置，可以根据任务需求，将模板提示词插在文本语句的头部、中间或尾部，当然还需要设计遮蔽令牌在输入数据中的位置，具体可以设计遮蔽令牌在文本的头部、中间或尾部，设计好模板提示词和遮蔽令牌的个数和位置之后，相对位置的固定至少1个模板提示词、遮蔽令牌以及文本语句构成输入数据。

当模板提示词和标签词均为离散的自然语言时，采用S102的步骤，将设计的输入数据作为语言模型的输入，将设计的标签词作为语言模型的输出，作为监督目标，对语言模型进行遮蔽令牌预测任务的有监督学习，进行参数的微调，以优化语言模型的模型参数。

当模板提示词和标签词中至少1者为连续的非自然语言时，也就是为初始化的空间连续向量时，例如可以有1或0组成的连续向量。针对模板提示词，直接初始化为空间嵌入向量；针对标签词，还可以是通过随机初始化、或者利用类别文本对应的词汇表空间的令牌的向量初始化。

当当模板提示词和标签词中至少1者为连续向量时，需要进行模板提示词和/或标签词的向量优化，利用优化的嵌入向量进行语言模型关于遮蔽令牌预测任务的模型参数微调。需要注意的是，模板提示词和/或标签词的向量优化与语言模型的参数微调可以交替同时进行，也可以先进行模板提示词和/或标签词的向量优化，向量优化好后再进行语言模型的模型参数的统一微调。

实施例中，针对模板提示词和/或标签词进行向量优化，采用预训练的语言模型来实现，即固定语言模型的模型参数不变，利用语言模型嵌入的词汇表空间中连续的嵌入向量来优化模板提示词和/或标签词的嵌入向量。

针对词组中的模板提示词和标签词均为连续时，设计的微调语言模型的输入数据包括文本语句、模板提示词的嵌入向量以及遮蔽令牌；此种情况下，根据输入数据、模板词组的嵌入向量对应的标签词的嵌入向量，对语言模型进行遮蔽令牌预测任务的有监督学习，以优化语言模型的模型参数。

针对词组中的模板提示词为连续，标签词为离散时，设计的微调语言模型的输入数据包括文本语句、模板提示词的嵌入向量以及遮蔽令牌；此种情况下，根据输入数据、模板词组的嵌入向量对应的标签词，对语言模型进行遮蔽令牌预测任务的有监督学习，以优化语言模型的模型参数。

针对词组中的模板提示词为离散，标签词为连续时，设计的微调语言模型的输入数据包括文本语句、模板提示词以及遮蔽令牌；此种情况下，根据输入数据、模板词组对应的标签词的嵌入向量，对语言模型进行遮蔽令牌预测任务的有监督学习，以优化语言模型的模型参数。

为了更好的理解本发明，下面以遮蔽令牌预测任务为情感分析任务为例，对上述语言模型的微调方法进行详细说明。

如图3所示，文本语句为电池一天都不够就用完了，对这句进行情感分析，具体过程为：

(1)在待处理的文本语句的尾部添加模板提示词T₁、T₂、T₃，和遮蔽令牌，形成输入数据；

(2)在语言模型内嵌的词汇表空间初始化标签词Y的嵌入向量；对在预训练的语言模型词嵌入层添加连续可微分的模板提示词的嵌入向量即h(T₁)h(T₂)h(T₃)，并且将语言模型的原分类任务转换为遮蔽令牌的情感分析任务，即预测图中MASK位置处词汇；

(3)模板提示词的嵌入向量和标签词输入送入语言模型，冻结语言模型参数，只微调模板提示词和标签词对应的参数，以此在有限的样本下获得最优的模板提示词和标签词；

(4)基于优化的模板提示词和标签词，在标注数据上微调预训练的语言模型参数，即可获得较好的模型性能。

上述实施例提供的语言模型的微调方法，通过设计的模板提示词和遮蔽令牌添加到输入数据中，并将设计的标签词作为监督目，对语言模型进行遮蔽令牌预测任务的有监督学习，来弥合预训练的语言模型和微调的语言模型之间的差距，从而使微调的语言模型在下游的遮蔽令牌预测任务上表现更好；同时，全量样本情况下，本方法相对传统微调方法效果较好，在少样本情况下，本方法效果提升更加显著，能够减少大量参数的计算成本，降低计算设备的计算开销。

总之，上述语言模型的微调方法采用基于模板提示词技术的微调技术，可以显著提高下游任务的准确性和效率，能够满足不同应用的需求，不局限于自然语言处理中的分类任务，同样适用于文本生成任务。是挖掘分布在预训练的语言模型中的语言和世界知识的一种很有前途的方法，是新一代预训练模型微调方法。

如图4所示，实施例还提供了一种语言模型的微调装置400，包括：

获取模块401，用于获取预训练好的语言模型、词组，所述词组包括离散的模板提示词和离散的标签词；

设计模块402，用于设计微调语言模型的输入数据，所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌；

微调模块403，用于根据输入数据和标签词对语言模型进行遮蔽令牌预测任务的有监督学习，以优化语言模型的模型参数。

如图5所示，一种语言模型的微调装置500，包括：

获取模块501，用于获取预训练好的语言模型、词组，所述词组包括模板提示词和标签词，且词组中至少一种词为连续的；

设计模块502，用于设计微调语言模型的输入数据，所述微调输入数据包括文本语句、模板提示词以及遮蔽令牌；

优化模块503，用于将输入数据和标签词输入语言模型进行遮蔽令牌预测任务，并固定语言模型的模型参数不变，利用语言模型来优化连续的模板提示词和/或连续的标签词的嵌入向量；

微调模块504，用于根据输入数据、输出数据包含模板提示词对应的标签词的嵌入向量，或根据输入数据、输出数据包含模板提示词的嵌入向量对应的标签词或标签词的嵌入向量，对语言模型进行遮蔽令牌预测任务的有监督学习，以优化语言模型的模型参数。

需要说明的是，实施例提供的语言模型的微调装置在进行自动生成时，应以上述各功能模块的划分进行举例说明，可以根据需要将上述功能分配由不同的功能模块完成，即在终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，实施例提供的语言模型的微调装置与语言模型的微调方法实施例属于同一构思，其具体实现过程详见语言模型的微调方法实施例，这里不再赘述。

实施例还提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述语言模型的微调方法。

实施例提供的一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理执行时实现上述语言模型的微调方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种语言模型的微调方法，其特征在于，包括以下步骤：

2.一种语言模型的微调方法，其特征在于，包括以下步骤：

3.权利要求1或2所述的语言模型的微调方法，其特征在于，所述离散的模板提示词与离散的标签词均为自然语言的词汇；所述连续的模板提示词与连续的标签词均为连续向量。

4.权利要求3所述的语言模型的微调方法，其特征在于，所述离散的模板提示词和离散的标签词通过人工设计、梯度搜索或生成模型生成三种方式获得。

5.权利要求1或2所述的语言模型的微调方法，其特征在于，所述设计微调语言模型的输入数据包括：设计模板提示词的个数和在输入数据中的位置，设计遮蔽令牌在输入数据中的位置。

6.权利要求1或2所述的语言模型的微调方法，其特征在于，所述语言模型包括经语料预训练的BERT、GPT、XLNet、RoBERTa或GPT系列模型。

7.一种语言模型的微调装置，其特征在于，包括：

8.一种语言模型的微调装置，其特征在于，包括：

9.一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～6任一项所述的语言模型的微调方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理执行时实现权利要求1～6任一项所述的语言模型的微调方法。