CN117574961B

CN117574961B - 一种将适配器注入预训练模型的参数高效化方法和装置

Info

Publication number: CN117574961B
Application number: CN202410051188.6A
Authority: CN
Inventors: 栗荣成; 冯翱; 高正杰; 吴锡; 雷超; 李林襁
Original assignee: Chengdu University of Information Technology
Current assignee: Shenzhen Tiancheng Xinneng Cloud Technology Co.,Ltd.
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-03-22
Anticipated expiration: 2044-01-15
Also published as: CN117574961A

Abstract

本发明涉及一种将适配器注入预训练模型的参数高效化方法和装置，通过将一个可以用于适配各种下游任务的适配器模块注入预训练模型，所述适配器模块设置在靠近输出端，由于在训练过程中，除适配器层外的所有参数会被冻结，而适配器模块的参数靠近输出端，这样使得反向传播的距离大大减小，不仅使得计算梯度的时间大大减小，而且用于存储梯度信息所消耗的显存也会大大减小。从而使得本发明方法能够以极低的成本去适配下游任务，解决以往参数高效化方法虽然可以极大地减少参数，但其训练的时间和硬件成本并没有大幅度减小的问题。

Description

一种将适配器注入预训练模型的参数高效化方法和装置

技术领域

本发明涉及自然语言处理领域，尤其涉及一种将适配器注入预训练模型的参数高效化方法和装置。

背景技术

在自然语言处理领域，解决各种任务主要依赖于预训练模型。在同种类型的预训练模型中，预训练模型参数规模越大，其解决任务能力便会越强，所以研究人员在训练模型的时候总是尽可能在一定成本以内选择参数规模最大的预训练模型。然而随着参数量越来越大，原有训练大型预训练模型方法的成本对于一般企业或者个人是负担不起的。大型预训练模型的能力是小型的模型所不能相比的，于是找到一种低成本地使用大型预训练模型的方法是必要的。

低成本使用大型预训练模型的主要思路是将模型进行各个维度的压缩，针对不同维度压缩又细分为以下几种方法：剪枝、知识蒸馏、量化、低秩分解和参数高效化。

剪枝方法是删除模型内部不必要或者冗余的组件来减小模型的大小，其根据剪枝目标不同又分为结构化剪枝和非结构化剪枝。前者为对网络架构进行剪枝，后者则是对网络中的参数进行剪枝；蒸馏是将大模型作为老师去教一个后续使用的小模型，旨在将大模型的性能和泛化能力迁移到一个小模型上面；量化则是将原有浮点数类型的参数用更低精度的数据类型进行代替。根据量化时间不同又分为量化感知训练（QAT）、量化感知微调（QAF）以及训练后量化（PTQ）；低秩分解则是原有的权重矩阵分解为两个更低维度矩阵的乘积，其往往与其他集中低成本使用预训练模型的方法搭配使用。参数高效化是目前主流的低成本微调预训练模型的方法。其主要思路是将原有预训练模型所有参数的梯度关闭，在下游任务训练时打开一些参数用于更新，其他与原有模型微调方式保持不变。其中按照指定参数类型不同，可以将参数高效化方法分为三种类型：添加一部分参数、指定一部分参数、将部分参数重新定义。具体如下：

1、传统参数高效化方法中，新添加一部分参数方法主要是将原有模型的所有参数的梯度关闭，然后在隐藏向量中或者原有架构之间新增加参数：比如在输入端的词向量前拼接一部分可用于训练的参数、在预训练模型的注意力机制模块后面增加一个自适应模块用于训练等。

2、传统参数高效化中，指定一部分参数方法则是指定部分预训练模型的参数用于训练，未指定的参数则将其梯度关闭。比如：BitFit将预训练模型所有网络的权重冻结住，在训练时候只更新所有网络的偏差；也可以只微调预训练模型中最后两层的参数。

3、传统参数高效化中，将部分参数重新定义方法则是将原有一个矩阵参数的更新变为两个低维度矩阵的更新。比如：LoRA将预训练模型注意力机制中的Q、K矩阵的更新变为两个更低维度矩阵的乘积的更新。

上述三种传统方法全部忽略了反向传播距离对于训练成本的影响，将研究重点放在如何使用更少的参数上。该方法通过限制选择参数的范围以减少反向传播距离，从而相较于以上方法极大地减小了训练成本。该方法通过实验验证，添加部分反向传播距离很短的参数不会对训练速度造成影响，反而会有助于模型更快地收敛和更好的性能。

发明内容

针对现有技术之不足，本发明提出一种将适配器注入预训练模型的参数高效化方法，所述参数高效化方法通过将一个用于适配各种下游任务的适配器模块注入预训练模型，所述适配器模块设置在靠近输出端，以减小反向传播的距离，解决了现有技术由于反向传播距离过长导致网络参数量即使缩减很小，但其训练的时间和硬件成本并没有大幅度减小的问题，所述参数高效化方法具体包括：

步骤1：准备训练任务所需的训练数据集，训练任务包括不同类型的分类任务，训练数据集通过自行采集获取或者使用公共数据集；

步骤2：将训练数据集中的原始句子S与带掩码的提示模板P结合组成适用于提示学习的输入数据Input，并根据下游任务不同设置不同的答案空间映射V，并且将下游任务训练集和测试集的答案替换为所述答案空间映射V中的真实标签L，便将传统的分类任务变为预测某个单词的概率大小的任务；

步骤3：设置大型语言预训练模型的模型参数，初始化大型语言预训练模型参数，大型语言模型参数至少包括学习率、随机失活和训练轮数以及适配器插入模型的层数；

步骤4：首先将预训练模型的模型参数的梯度取消，自定义一个适配器模块并打开该模块的梯度，同时对适配器模块的输入和输出维度进行限制，具体设置为预训练模型的隐藏层维度；

步骤5：将步骤2所得的输入数据Input、位置信息Pos以及句子信息Type送入词嵌入层获得词嵌入向量h_in；

步骤6：将由步骤5获取的所述词嵌入向量h_in送入步骤3初始化好后的预训练模型中，所述预训练模型为包括24层的Transformer模型，将输入数据Input通过预训练模型前16层的Transformer模型得到的隐藏向量h，在原来隐藏向量h的基础上加入自定义设置的所述适配器模块得到新的隐藏向量h_new，将新的隐藏向量h_new代替原有的隐藏向量h继续输入剩余的8层Transformer模型，得到最后一层隐藏向量h_last；

步骤7：将步骤5得到的最后一层隐藏向量h_last以及根据步骤2中的所述提示模板P中的[MASK]的位置计算出h_mask，将两者结合得到最终隐藏向量H；

步骤8：将最终隐藏向量H送入掩码语言模型头中，得到最后的预测结果L_p；

步骤9：通过交叉熵损失计算所述预测结果L_p和步骤2中的真实标签L的差值；

步骤10：不断迭代步骤5到步骤9，当所述交叉熵损失值收敛时停止训练，保存训练好的适配器模块；

步骤11：训练好的适配器模块即为当前预训练模型在该训练数据集子任务下的适配器，后续使用预训练模型用于该任务时，只需要将训练好的适配器载入预训练模型中即可。

一种将适配器注入预训练模型的参数高效化装置，所述参数高效化装置改变以往适配器向下投影的瓶颈层架构，设置在靠近输出的位置，减少了反向梯度的距离，所述参数高效化装置包括：

预训练模型和注入预训练模型的适配器，所述适配器设置在所述预训练模型第n层和第n+1层之间，包括向上投影模块、高斯误差线性单元激活模块、向下投影模块和层归一化模块，所述上投影模块用于将隐藏向量向高维度做线性变换，所述高斯误差线性单元激活模块用于在高维度做更新，所述向下投影模块用于将隐藏向量从高维度恢复为原维度，所述层归一化模块用于将参数进行归一化。

与现有技术相比，本发明的有益效果在于：

通过用一个适配器层去对预训练模型靠近输出的隐藏向量做下游任务的适配。由于在训练过程中，除适配器层外的所有参数会被冻结，而适配器层的参数靠近输出端。这样使得反向传播的距离大大减小，不仅使得计算梯度的时间大大减小，而且用于存储梯度信息所消耗的显存也会大大减小。从而使得该方法以极低地成本去适配下游任务。同时解决了以往参数高效化方法虽然可以极大地减少参数，但训练成本缩减达不到预期的问题。

附图说明

图1是本发明后适配器调优模型的结构示意图；

图2是本发明参数高效化方法的训练流程图；

图3是本发明适配器模块和信息模块的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

下面结合附图进行详细说明。

针对现有参数高效化方法存在的由于反向传播距离过长的问题导致参数量即使缩减很小，但其训练的时间和硬件成本并没有大幅度减小的问题，以及降低参数量来减少训练成本的不足。本发明提出一种将适配器注入预训练模型的参数高效化方法，参数高效化方法通过将一个用于适配各种下游任务的适配器模块注入预训练模型，下游任务包括：情感分析、语义理解、文本分类等。适配器模块设置在靠近输出端，以减小反向传播的距离，解决了现有技术由于反向传播距离过长导致网络参数量即使缩减很小，但其训练的时间和硬件成本并没有大幅度减小的问题。如图1所示，为本发明所提出的后适配器调优模型的结构示意图，也称之为低成本运算模型图。图2是本发明参数高效化方法的训练流程图；现结合图1和图2对本发明的参数高效化方法进行详细描述。

步骤1：准备训练任务所需的训练数据集，训练任务包括不同类型的分类任务。训练数据集通过自行采集获取或者使用公共数据集，如GLUE数据集、TREC数据集、SUBJ数据集等。

步骤2：将训练数据集中的原始句子S与带掩码的提示模板P结合组成适用于提示学习的输入数据Input，并根据下游任务不同设置不同的答案空间映射V，并且将下游任务训练集和测试集的答案替换为答案空间映射V中的真实标签L，便将传统的分类任务变为预测某个单词的概率大小的任务。

具体的，训练数据集中的原始句子S是由n个单词[w1,…,wi,…wn]组成，提示模板P则是根据训练任务类型的不同自行设定，预训练模型的输入由原始句子S和提示模板P组成，答案空间映射V是真实标签L的集合；

例如：在单句子分类任务中，最终预训练模型的输入数据Input、提示模板P及答案空间映射V，分别如下所示：

；

步骤3：设置大型语言预训练模型的模型参数，初始化大型语言预训练模型参数，大型语言模型参数至少包括学习率、随机失活和训练轮数以及适配器模块插入预训练模型的层数。适配器模块插入的层即为图1中的适配器层。

适配器插入模型的层数不能超过原有预训练模型的层数。根据实际应用需要，还可设置最大序列长度、批处理数据量大小等模型参数。在本发明技术方案中优选学习率1*10^-3，随机失活0.1，训练轮数10，模块插入层数16层，本发明采用的预训练模型为RoBERTa-LARGE。

步骤4：首先将预训练模型的模型参数的梯度取消，自定义一个适配器模块并打开该模块的梯度，同时对适配器的输入和输出维度进行限制，设置为预训练模型的隐藏层维度。

步骤5：将步骤2所得的输入数据Input，以及位置信息Pos，以及句子信息Type送入词嵌入层获得词嵌入向量h_in。

其中，位置信息Pos代表每个单词的位置，其是一个从0自增长的和Input同纬度的数组；句子信息Type代表了每个单词所在的句子，其初始化为当前单词位于Input中第几句话，例如当该单词位于第一句话的时候，该单词位置的Type值为1。该词嵌入向量使得每个词携带了上下文信息，具体计算公式为：

其中，Word_Embedding是预训练模型自带的词嵌入层，将位置信息、句子信息以及单词信息送入词嵌入层，获得带有上下文表征的词嵌入向量。

步骤6：将由步骤5获取的词嵌入向量h_in送入步骤3初始化好后的预训练模型中，预训练模型为包括24层的Transformer模型，将输入数据Input通过预训练模型前16层的Transformer模型得到的隐藏向量h，在原来隐藏向量h的基础上加入自定义设置的适配器模块得到新的隐藏向量h_new，将新的隐藏向量h_new代替原有的隐藏向量h继续输入剩余的8层Transformer模型，得到最后一层隐藏向量h_last。

本发明采用RoBERTa-LARGE作为预训练模型，在RoBERTa-LARGE模型中，步骤6的整个流程如下所示：

；

其中，RoBERTa_1-16和RoBERTa_17-24分别代表RoBERTa-LARGE模型1到16层和17到24层的Transformer模型，Adapter为自定义的适配器模块。

这样就可以把下游任务的适配工作流程从原有的训练全部参数转化为仅需要训练适配器模块的参数。由于本发明所提出参数高效化方法的适配器参数调节位于预训练模型靠近输出的位置，其反向梯度的距离相较于以往减少了一大半。这种优势使得该方法不仅计算速度相较以往有所提升，而且计算梯度的大幅度缩短也会使得训练所需要的显存大幅度降低。实验数据表明，训练速度比以往会快2.4倍，训练所需要的显存更是会降低至原来的23%。

步骤7：将步骤5得到的最后一层隐藏向量h_last以及根据步骤2中的提示模板P中的[MASK]的位置计算出h_mask，将两者结合得到最终隐藏向量H，数学表达式如下：

步骤8：将最终隐藏向量H送入掩码语言模型头（MLM_head）中，得到最后的预测结果L_p；数学表达式如下：

其中，w₁∈R^1024×1024，表示线性映射的权重为1024×1024的实矩阵；w₂∈R^1024*50264，表示向字典维度投影的权重为1024×1024的实矩阵，R代表向量中的数值只能为实数，b₂表示偏差，Layer_Norm表示进行归一化操作，GELU表示高斯误差线性单元激活函数，L_p表示词表中每个词在[MASK]位置的概率。

步骤9：通过交叉熵损失计算预测结果L_p和步骤2中的真实标签L的差值；

步骤10：不断迭代步骤5到步骤9，当交叉熵损失值收敛时停止训练，保存训练好的适配器模块；

步骤11：训练好的适配器模块即为当前预训练模型在该训练数据集子任务下的适配器，后续使用预训练模型用于该任务时，只需要将训练好的适配器载入预训练模型中即可。本发明大概需要训练10个轮次。

本发明的后适配器优化方法通过将用于更新的参数置入模型靠近输出端，解决了以往参数高效化方法由于反向传播距离过长导致的成本始终降不下来的问题。该模型主要是利用适配器层来适配下游任务并激发预训练模型在预训练阶段学习到的能力，并加入提示模块来提升性能。首先是构建一个带掩码的硬模板，该模板与原始句子结合从而将原有的分类任务变为直接预测掩码位置单词的完型填空任务，从而缩减了下游任务和预训练任务时候的差异性，充分利用预训练模型在预训练阶段学习到的能力。随后，将原有预训练模型的所有参数的梯度取消，仅打开自定义的适配器层的梯度。

图3是本发明适配器模块和信息模块的结构示意图。本发明还提出一种将适配器注入预训练模型的参数高效化装置，参数高效化装置改变以往适配器向下投影的瓶颈层架构，设置在靠近输出的位置，减少了反向梯度的距离，参数高效化装置包括：

预训练模型和注入预训练模型的适配器，预训练模型为RoBERTa-LARGE，GPT-2-LARGE。适配器模块设置在预训练模型第n层和第n+1层之间，包括向上投影模块、高斯误差线性单元激活模块GLUE、向下投影模块和层归一化模块，上投影模块用于将隐藏向量向高维度做线性变换，高斯误差线性单元激活模块用于在高维度做更新，向下投影模块用于将隐藏向量从高维度恢复为原维度，层归一化模块用于将模型参数进行归一化。

适配器是一个自定义设计网络结构。例如：在RoBERTa-LARGE模型中，其输入和输出维度为1024。适配器模块的数学表达式如下所示：

w₁∈R^1024×2048，w₂∈R^2048*1024，w₁和w₂表示将隐藏向量向上投影和向下投影的权重，R表示这两个权重中的数据只能为实数，h表示隐藏向量，Layer_Norm表示进行归一化操作，GELU表示高斯误差线性单元激活函数，如图3中适配器架构所示。

对于适配器模块，也可以采用不同于适配器的神经网络架构作为自定义信息模块，比如将适配器模块改为一个小型的Transformer模型，自定义的信息模块仅需要设置输入和输出维度为预训练模型的隐藏层向量的维度大小，如图3中信息模块架构所示。

需要注意的是，适配器层为适配下游任务的神经网络模型，本发明已验证了图中模块的有效性，还可以自行验证其他各种易于挖掘预训练模型能力的模块。最后，训练方式和原有运行方式相同，在最后一层隐藏层使用一个LLM_head模块并结合输入端掩码的位置进行预测结果。

原始的适配器方法将适配器串行接入预训练模型每一编码层的两个前反馈神经网络之后。根据充分的实验表明，该方法与原始的适配器方法相比，训练显存占用仅占原始的33.06%；训练速度加快了1.79倍；在Trec、Subj、Mpqa、Mr四个分类数据集上的表现平均增加了4.68%。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种将适配器注入预训练模型的参数高效化方法，其特征在于，所述参数高效化方法通过将一个用于适配下游任务的适配器模块注入预训练模型，所述适配器模块设置在靠近输出端，以减小反向传播的距离，所述参数高效化方法具体包括：

步骤3：设置大型语言预训练模型的模型参数，初始化大型语言预训练模型参数，大型语言预训练模型参数至少包括学习率、随机失活和训练轮数以及适配器插入模型的层数；

2.一种将适配器注入预训练模型的参数高效化装置，其特征在于，所述参数高效化装置用于实现权利要求1所述的参数高效化方法，所述参数高效化装置改变以往适配器向下投影的瓶颈层架构，设置在靠近输出的位置，减少了反向梯度的距离，所述参数高效化装置包括：