CN117033641A

CN117033641A - 一种大型预训练语言模型的网络结构优化微调方法

Info

Publication number: CN117033641A
Application number: CN202311280706.3A
Authority: CN
Inventors: 朱宇光
Original assignee: Jiangsu Weihao Intelligent Technology Co ltd
Current assignee: Jiangsu Weihao Intelligent Technology Co ltd
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2023-11-10

Abstract

本发明提供了一种大型预训练语言模型的网络结构优化微调方法，收集电话电销的语音营销的对话数据和文字营销的对话数据，进行数据清洗及预处理；对收集的对话数据进行标注，指定部分对话数据为营销失败，并对营销失败原因进行分类和标注；对大型预训练语言模型进行优化，包括使用词典缩减和网络层数缩减方法；使用LoRA低秩适应方法对优化后的大型预训练语言模型进行微调；对微调后的大型预训练语言模型进行验证并迭代训练。有效地在资源有限的环境中进行大型预训练语言模型的失败原因分析，通过将大模型分解为低秩矩阵和基模型，减少计算复杂度和内存消耗，保持高性能的同时减少了微调大模型的成本。帮助提升电销和文字营销的效率和成功率。

Description

一种大型预训练语言模型的网络结构优化微调方法

技术领域

本发明属于语言模型处理技术领域，具体涉及一种大型预训练语言模型的网络结构优化微调方法。

背景技术

在电销和文字营销等应用中，理解和预测营销失败的原因至关重要。然而，大型预训练语言模型的微调和部署需要大量计算和存储资源，在微调期间的计算复杂度较高，并且消耗大量内存，使得大模型微调的成本较高。并且微调的过程中容易导致大模型退化，使得理解和预测营销失败的原因的大模型发生灾难遗忘。

发明内容

本发明所要解决的技术问题是提供一种大型预训练语言模型的网络结构优化微调方法，包括以下步骤：

S1：收集电话电销的语音营销的对话数据和文字营销的对话数据，进行数据清洗及预处理；

S2：对S1中收集的对话数据进行标注，指定部分对话数据为营销失败，并对营销失败原因进行分类和标注；

S3：对大型预训练语言模型进行优化，包括使用词典缩减和网络层数缩减方法；

S4：使用LoRA低秩适应方法对S3中优化后的大型预训练语言模型进行微调；

S5：对S4中微调后的大型预训练语言模型进行验证并进行迭代训练，持续优化。

进一步地，S1中收集电话电销的语音营销的对话数据还需要通过语音识别技术进行文本转换。

进一步地，S1中数据清洗及预处理包括移除噪音，具体为移除停用词、标点符号、非相关的背景对话。

进一步地，S2中对营销失败原因进行分类和标注，分类及标注具体为：产品问题、价格问题、交流技巧问题。

进一步地，S3中对大型预训练语言模型进行优化，包括使用词典缩减和网络层数缩减方法具体步骤为：

S31：进行词典缩减，只保留频率最高和信息增益最大的词；

S32：根据资源和性能需求，选择适当的大型预训练语言模型的层数；

进一步地，S3中对大型预训练语言模型进行优化的具体方法还包括参数共享：在大型预训练语言模型的不同部分共享参数，以减少模型的总参数数量；量化：将大型预训练语言模型的浮点数参数转换为更小范围或更低精度的数；剪枝：去除模型中不重要的参数或神经元。

进一步地，S4中使用LoRA低秩适应方法进行微调的具体为：

将大型预训练语言模型分解为低秩矩阵ΔW和基模型，LoRA低秩适应方法的约束公式为：/>，/> ∈Rd×k，B∈Rd×r ，A∈Rr×k ，r≪min(d,k) ；其中，r为秩，x 代表原模型的输入，是电话电销的对话数据，ΔW代表模型权重的改变，/>代表原始模型的权重，大小为d×k，其中d代表模型的输入维度，k代表模型的输出维度，B和A代表低秩矩阵，其中B∈Rd×r的B代表模型输入到中间层的权重，Rr×k 的A代表中间层到模型输出的权重，而r<<min(d,k)则表示中间层的维度远小于输入和输出层。

进一步地，S4中使用LoRA低秩适应方法进行微调的具体步骤为：

S41：初始化B和A；

S42：固定A，更新B以最小化重构误差；

S43：固定B，更新A以最小化重构误差；

S44：重复步骤S42和S43直到收敛；

S45：使用B和A替换模型中的ΔW，结合实际的电话电销对话数据进行实验和优化，以达到最佳的模型性能。

进一步地，S5中对微调后的大型预训练语言模型进行验证并进行迭代训练具体包括以下步骤：

S51：使用新收集的电话电销的语音营销的对话数据和文字营销的对话数据，通过大型预训练语言模型进行预测；

S52：对S51中的预测结果通过优化后的大型预训练语言模型进行验证；

S53：根据S52中的验证结果对S51中的预测结果进行纠正，将同样的对话数据，在原始的大型预训练语言模型以及经过优化后的大型预训练语言模型、人为判定三种环境因素下共同验证，并将纠正后的数据返回优化后的大型预训练语言模型中继续训练优化，进行迭代训练，最终达到优化后的大型预训练语言模型的效果超越原始的大型预训练语言模型。

本发明的有益效果在于：

本发明提供的方法可以有效地在资源有限的环境中进行大型预训练语言模型的失败原因分析，通过将大模型分解为低秩矩阵和基模型,在微调期间减少计算复杂度和内存消耗。在使用低秩约束的同时保留高模型性能。低秩性反映神经网络中信息的紧凑性和结构性。低秩矩阵可以由较少的特征向量或奇异值表示,并且用于数据压缩、降维和分析。总之,LoRA 中的低秩矩阵在保持高性能的同时减少了微调大模型的成本。帮助提升电销和文字营销的效率和成功率。同时，也保护了用户的隐私和数据安全。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为一种大型预训练语言模型的网络结构优化微调方法的流程图。

实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清除、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种大型预训练语言模型的网络结构优化微调方法，具体的：

首先进行数据收集和处理：首先，收集电话电销的语音数据和直接的文字营销对话数据。对于语音数据，需要通过语音识别技术将其转换为文本。数据清洗和预处理也在这个阶段进行，以移除噪音，如停用词、标点符号、非相关的背景对话等。保护用户隐私和数据：在处理用户数据时，必须遵守所有适用的隐私和数据保护法规。这可能包括获取用户的明确同意、匿名化数据，以及确保数据的安全存储和传输。

然后进行数据标注：对收集的数据进行标注，指定哪些对话或交谈结果为营销失败，并对失败原因进行分类和标注。这些标签可以包括产品问题、价格问题、交流技巧问题等。标注的数据用于后续的模型训练。

然后进行Transformer模型结构优化：使用词典缩减和网络层数缩减等方法对Transformer模型进行优化，以减小模型的存储和计算需求，同时尽可能保持模型的性能。

首先，进行词典缩减（Transformer模型通常使用一个大型词典进行文本编码。我们可以减小词典的大小，以减少模型的存储需求和运行时间。这可以通过词频统计、信息增益等方法，选出对模型性能最重要的词，只保留这些词在词典中。注意，这可能需要重新训练模型，因为词典的改变会影响输入的编码），只保留频率最高和信息增益最大的词。然后，根据资源和性能需求，选择适当的Transformer层数。参数共享：我们可以在模型的不同部分共享参数，以减少模型的总参数数量。例如，我们可以在所有的Transformer层中共享相同的参数，或者在所有的头（head）中共享参数。量化和剪枝：量化是将模型的浮点数参数转换为更小范围或更低精度的数（如16位浮点数、8位整数等），以减少模型的存储和计算需求。剪枝是去除模型中不重要的参数或神经元，以减少模型的复杂度。这两种方法可以与上述方法结合使用，进一步压缩模型。

具体的，进行词典缩减，只保留频率最高和信息增益最大的词。在电话销售场景中，我们可以将词典缩减到涵盖产品名称、竞争对手的名称、专业术语、行业术语和常见的抱怨或赞扬短语。这可能包括营销的关键词，如"优惠"、"特价"、"促销"等，以及能反映用户需求和反馈的词，如"需要"、"感兴趣"、"考虑"等。这种词典缩减能保证模型更加关注与其任务相关的信息，同时降低模型的复杂度和计算需求。

减少网络层次：原始的预训练模型包含数百个网络层，对于特定的电话销售场景，我们可以通过实验找出最优的网络层数量。

网络层次的优化包括以下方法:

1. 网络剪枝: 这通常涉及到移除一些神经网络层或者神经元，尤其是那些对模型预测影响最小的层或神经元。通过网络剪枝，可以降低模型的复杂性和计算需求，同时保持或提高模型的性能。

2. 知识蒸馏: 这种方法涉及训练一个较小的学生网络去模仿一个较大的教师网络的行为。在这种情况下，较大的预训练模型将作为教师网络，而较小的模型将作为学生网络。这种方法能够帮助我们减少网络层次，而不会丧失太多的性能。

进行模型微调：使用低秩适应方法（LoRA）对优化后的大型预训练语言模型进行微调。在LoRA中，原始模型的权重更新被表示为两个小矩阵的乘积，这两个小矩阵是在微调过程中要学习的新参数。微调的目标是让模型能更好地理解和预测营销失败的原因。预训练的模型可以共享以为不同任务建立许多小的 LoRA 模块。LoRA 使训练更高效。使用自适应优化器,硬件阈值降低 3 倍,因为我们只需要优化注入的低秩矩阵,而不是计算梯度或维护大多数参数的优化器状态。例如,检查点大小降低了 10000x(从 350GB 到 35MB),允许用更少的 GPU 进行训练,避免 I/O 瓶颈。可以在部署时以更低的成本切换任务,只交换LoRA 的权重,而不是所有的参数。与完全微调相比,速度提高了 25%。简单的线性设计允许我们在部署时将可训练矩阵与冻结权重合并,与完全微调的模型相比,在结构上没有引入推理延迟。LoRA 与许多先前的方法是不相关的,并且可以与许多方法相结合,例如前缀微调。还会防止大模型退化,即灾难遗忘,因为不用微调大模型。使用低秩矩阵的原因是为了降低微调时的计算复杂度和内存消耗,同时保持模型性能。

关键思想是将大型预训练语言模型分解为任务独立的基模型和任务特定的适配器模块ΔW。基模型预训练,而适配器在目标任务上受低秩约束训练,以实现高效适配。

假设权重的更新在适应过程中也具有低“内在秩”。对于预先训练的重量矩阵 ∈Rd×k ，通过使用低秩分解/>来限制其更新，其中 B∈Rd×r ， A∈Rr ×k ，秩 r≪min(d,k) 。在训练期间，/> 被冻结并且不接收渐变更新，而A和B包含可训练参数。请注意，和/>和ΔW=BA 与相同的输入相乘，并且它们各自的输出向量在坐标方面相加。对于/>，我们修改后的前向传递如下：/>+ΔWx =/> +BAx，/> ∈Rd×k，B∈ Rd×r ，A∈Rr×k ，r≪min(d,k) ；其中，x 代表原模型的输入，是电话电销的对话数据，由历史录音通过语音转文字外呼一些基础数据处理而来，ΔW代表模型权重的改变，/>代表原始模型的权重，大小为d×k，其中d代表模型的输入维度，k代表模型的输出维度，B和A代表低秩矩阵，其中B∈Rd×r的B代表模型输入到中间层的权重，Rr×k 的A代表中间层到模型输出的权重，而r<<min(d,k)则表示中间层的维度远小于输入和输出层，这样就大大减小了模型的复杂度。

对A使用随机高斯初始化，对B使用零初始化，因此 ΔW=BA 在训练开始时为零。然后，我们通过 αr 缩放 ΔWx ，其中α为r中的常数。当使用Adam优化时，如果我们适当地缩放初始化，则调整α大致相当于调整学习率。因此，我们只需将α设置为我们尝试的第一个r，而不进行调整。这种缩放有助于减少在我们变化r时重新调整超参数的需要。参数在低秩分解约束下更新以满足公式。

具体的，使用LoRA低秩适应方法进行微调的具体步骤为：

S41：初始化B和A；

S42：固定A，更新B以最小化重构误差；

S43：固定B，更新A以最小化重构误差；

S44：重复步骤S42和S43直到收敛；

训练LoRA大致收敛到训练原始模型,而基于适配器的方法收敛到MLP。在实验中应用LoRA,目前只更新Wq和Wv。

将LoRA应用于神经网络中的任何权重矩阵的子集，以减少可训练参数的数量。在Transformer架构中，自我注意模块中有四个权重矩阵（，，，Wq，Wk，Wv，Wo ）和两个MLP模块中有两个权重矩阵。我们将 Wq （或，Wk，Wv ）视为具有 dmodel×dmodel 的单个矩阵，即使输出维度通常被切片到注意力头。出于简单性和参数效率的考虑，我们仅针对下游任务调整注意力权重，并冻结MLP模块（因此不会在下游任务中进行训练）。我们将适应MLP层，LayerNorm层和偏差的经验调查留给未来的工作。最显着的好处来自于内存和存储使用量的减少。对于使用Adam训练的大型的Transformer，如果r ≪ dmodel，VRAM使用量减少了最多2/3，因为无需为冻结参数存储优化器状态。在GPT-3 175B上，我们将训练期间的VRAM消耗从1.2TB降低到350GB。通过仅调整查询和值投影矩阵，并且r= 4，我们将检查点大小减小了大约10,000倍（从350GB到35MB）4。这使我们能够使用较少的GPU进行训练并避免I / O瓶颈。另一个好处是，我们可以通过仅交换LoRA权重而不是所有参数以较低的成本在部署时在许多自定义模型之间切换。这允许在存储预先训练的权重的机器上即时创建许多自定义模型。与全微调相比，我们还观察到在GPT-3 175B上进行训练时的25％加速，因为我们不需要为大多数参数计算梯度。

最后进行模型验证和迭代训练：使用新收集的数据对模型进行验证。这包括通过大型语言模型进行预测，然后使用小模型进行验证。人工进行复核，对错误的预测进行纠正，并将这些纠正后的数据送回模型进行迭代训练。对预测结果通过优化后的大型预训练语言模型进行验证；

使用新收集的电话电销的语音营销的对话数据和文字营销的对话数据，通过大型预训练语言模型进行预测，根据验证结果对预测结果进行纠正，将同样的对话数据，在原始的大型预训练语言模型以及经过优化后的大型预训练语言模型、人为判定三种环境因素下共同验证，并将纠正后的数据返回优化后的大型预训练语言模型中继续训练优化，进行迭代训练，最终达到优化后的大型预训练语言模型的效果超越原始的大型预训练语言模型。

本技术方案通过将大模型分解为低秩矩阵和基模型,在微调期间减少计算复杂度和内存消耗。在使用低秩约束的同时保留高模型性能。低秩性反映神经网络中信息的紧凑性和结构性。低秩矩阵可以由较少的特征向量或奇异值表示,并且用于数据压缩、降维和分析，总之,LoRA 中的低秩矩阵在保持高性能的同时减少了微调大模型的成本。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在没有背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同腰间的含义和范围内的所有变化囊括在本发明内。

Claims

1.一种大型预训练语言模型的网络结构优化微调方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法，其特征在于，S1中收集电话电销的语音营销的对话数据还需要通过语音识别技术进行文本转换。

3.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法，其特征在于，S1中数据清洗及预处理包括移除噪音，具体为移除停用词、标点符号、非相关的背景对话。

4.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法，其特征在于，S2中对营销失败原因进行分类和标注，分类及标注具体为：产品问题、价格问题、交流技巧问题。

5.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法，其特征在于，S3中对大型预训练语言模型进行优化，包括使用词典缩减和网络层数缩减方法具体步骤为：

S31：进行词典缩减，只保留频率最高和信息增益最大的词；

S32 ：根据资源和性能需求，选择适当的大型预训练语言模型的层数。

6.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法，其特征在于，S3中对大型预训练语言模型进行优化的具体方法还包括参数共享：在大型预训练语言模型的不同部分共享参数，以减少模型的总参数数量；量化：将大型预训练语言模型的浮点数参数转换为更小范围或更低精度的数；剪枝：去除模型中不重要的参数或神经元。

7.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法，其特征在于，S4中使用LoRA低秩适应方法进行微调的具体为：

将大型预训练语言模型分解为低秩矩阵ΔW和基模型，LoRA低秩适应方法的约束公式为：/>+ΔWx =/> +BAx，/> ∈Rd×k，B∈Rd×r ，A∈Rr×，r≪min(d,k) ；

其中，r为秩，x 代表原模型的输入，是电话电销的对话数据，ΔW代表模型权重的改变，代表原始模型的权重，大小为d×k，其中d代表模型的输入维度，k代表模型的输出维度，B和A代表低秩矩阵，其中B∈Rd×r的B代表模型输入到中间层的权重，Rr×k 的A代表中间层到模型输出的权重，而r<<min(d,k)则表示中间层的维度远小于输入和输出层。

8.根据权利要求7所述的一种大型预训练语言模型的网络结构优化微调方法，其特征在于，S4中使用LoRA低秩适应方法进行微调的具体步骤为：

S41：初始化B和A；

S42：固定A，更新B以最小化重构误差；

S43：固定B，更新A以最小化重构误差；

S44：重复步骤S42和S43直到收敛；

9.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法，其特征在于，S5中对微调后的大型预训练语言模型进行验证并进行迭代训练具体包括以下步骤：