CN117632381B

CN117632381B - 结合微调技术和分布式调度的大模型训练部署方法及系统

Info

Publication number: CN117632381B
Application number: CN202410110035.4A
Authority: CN
Inventors: 汪东瑶; 欧阳小刚; 孙林君
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-05-24
Anticipated expiration: 2044-01-26
Also published as: CN117632381A

Abstract

本发明属于计算机应用技术领域，具体涉及结合微调技术和分布式调度的大模型训练部署方法及系统。方法包括：S1，选择一个大型神经网络模型作为基座模型；S2，使用微调技术对基座模型进行微调，并对比不同方式微调的结果，选取效果最好的参数进行存储；所述微调技术包含指令微调、LoRA微调和部分网络层冻结微调；S3，使用微调后的基座模型，通过分布式调度技术对新的任务请求进行任务处理。本发明具有能够在保持高性能的同时，显著降低计算和存储开销，并实现模型的快速适应性的特点。

Description

结合微调技术和分布式调度的大模型训练部署方法及系统

技术领域

本发明属于计算机应用技术领域，具体涉及结合微调技术和分布式调度的大模型训练部署方法及系统。

背景技术

深度学习技术已经在计算机视觉、自然语言处理、语音识别等领域取得了显著的突破，尤其是通过大型神经网络模型的应用。这些大型神经网络模型通常拥有数以亿计的参数，因此能够在各种任务中实现出色的性能。

当前，虽然使用大语言模型在各种应用领域中取得了显著的成功，但也伴随着一系列技术问题。主要技术问题包括：

1.高昂的计算资源和存储开销：现有大型模型需要大规模的计算资源和存储空间，这对于许多应用来说是不切实际的，导致高昂的硬件成本和能源消耗。

2.复杂的训练和微调过程：微调大型模型以适应特定任务或领域是一个复杂而耗时的过程，需要大量的数据和计算资源。这降低了模型的可用性，尤其是对于中小型企业和独立研究者。

3.缺乏快速适应性：现有技术通常难以迅速适应新任务或领域。重新训练大型模型需要大量时间，这对于需要及时响应的应用来说是一个限制因素。

4.通用性受限：某些现有技术，如领域特定模型，通常只能用于特定领域，缺乏通用性。这导致了多个领域之间的重复努力和资源浪费。

5.性能和效率折中：模型压缩技术通常需要在性能和效率之间进行权衡，难以在降低规模的同时保持高性能。

因此，设计一种能够在保持高性能的同时，显著降低计算和存储开销，并实现模型的快速适应性的结合微调技术和分布式调度的大模型训练部署方法及系统，就显得十分重要。

发明内容

本发明是为了克服现有技术中，现有的大模型训练及部署方法，存在需要大量的计算资源和存储空间、微调过程复杂、对新任务或领域的适应性差以及模型通用性限制的问题，提供了一种能够在保持高性能的同时，显著降低计算和存储开销，并实现模型的快速适应性的结合微调技术和分布式调度的大模型训练部署方法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

结合微调技术和分布式调度的大模型训练部署方法，包括如下步骤；

S1，选择一个大型神经网络模型作为基座模型；

S2，使用微调技术对基座模型进行微调，并对比不同方式微调的结果，选取效果最好的参数进行存储；所述微调技术包含指令微调、LoRA微调和部分网络层冻结微调；

S3，使用微调后的基座模型，通过分布式调度技术对新的任务请求进行任务处理。

作为优选，步骤S2中，所述指令微调包括如下步骤：

用户提供特定的指令或提示，引导基座模型生成对应领域或任务的内容。

作为优选，步骤S2中，所述LoRA微调采用低秩矩阵适应技术，用于减小基座模型的参数空间，具体包括如下步骤：

S21，根据特定任务或领域，使用相应的训练数据对基座模型进行微调，随机生成一组低秩矩阵；所述微调采用梯度下降训练方法；

S22，将生成的一组低秩矩阵进行存储；

S23，当需要在特定任务或领域中使用适应性模型时，将存储的低秩矩阵加载回内存，并结合基座模型的参数构建适应性模型。

作为优选，步骤S22中，所述低秩矩阵存储在Docker容器中，且每个Docker容器内仅存储针对特定任务或领域微调的低秩矩阵。

作为优选，步骤S2中，所述部分网络层冻结微调指在特定任务或领域中，对基座模型的部分层进行参数调整，未被参数调整的层保持不变；所述部分层包括底层或中间层。

作为优选，步骤S3包括如下步骤：

S31，通过模型调度中心，对任务请求进行分类，识别当前要解决的任务属于的领域与类型；

S32，根据任务的分类，判断对应分类的任务模型是否已经启动，若未启动或者当前任务模型的负载大于等于负载阈值，则从存储的参数库中选择特定的参数，并与基座模型结合以启动相应分类的任务模型；若对应分类的任务模型已经启动，则直接调用对应的任务模型接口，获取相应结果。

作为优选，步骤S1中，所述大型神经网络模型采用具有70亿参数的llama-7B大型语言模型。

本发明还提供了结合微调技术和分布式调度的大模型训练部署系统包括；

基座模型选择模块，用于选择一个大型神经网络模型作为基座模型；

微调技术应用模块，用于使用微调技术对基座模型进行微调，并对比不同方式微调的结果，选取效果最好的参数进行存储；所述微调技术包含指令微调、LoRA微调和部分网络层冻结微调；

任务识别和模型启动，用于使用微调后的基座模型，通过分布式调度技术对新的任务请求进行任务处理。

本发明与现有技术相比，有益效果是：（1）降低计算和存储成本：本发明允许使用相对较小的大型神经网络模型作为基座模型，而不需要大规模的计算资源和存储空间；通过生成和存储适应性模型的低维参数，大大降低了计算和存储开销；（2）提高模型灵活性和快速适应性：微调技术方案使模型能够在不同领域或任务之间迅速适应，而无需重新训练整个模型；通过选择适应性模型的低秩矩阵，可以在短时间内启动适当的模型，从而提高了模型的灵活性和快速适应性；（3）减小存储需求：通过将适应性模型存储为低维矩阵，该技术方案显著减小了模型的存储需求；这样用户可以根据自己的需求保存多个不同领域不同任务的优化参数；（4）提高性能：本发明通过允许模型在多个领域中采用不同数据进行微调，这使得模型可以在多个特定领域表现出色，同时降低成本，提高了性能；（5）降低能源消耗：由于本发明使用一个中等或中等以下的参数模型，在保证所需性能的同时降低了计算和存储开销，从而降低了能源消耗。

附图说明

图1为本发明中指令微调过程的一种示意图；

图2为本发明中LoRA微调过程的一种示意图；

图3为本发明中使用模型进行任务处理的一种流程示意图；

图4为本发明中微调过程存储的产生的参数的一种示意图；

图5为本发明中实施例所提供的模型微调及参数存储过程的一种示意图；

图6为本发明中实施例所提供的模型智能调度过程的一种示意图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

本发明提供了结合微调技术和分布式调度的大模型训练部署方法，包括如下步骤；

1.选择一个大型神经网络模型作为基座模型；这个模型将充当通用模型，用于各种任务的初始基座。基座模型具有足够的参数，可以保证基本性能，但不会太大，以降低存储和计算开销;

2.使用微调技术对基座模型进行微调，并对比不同方式微调的结果，选取效果最好的参数进行存储；所述微调技术包含指令微调、LoRA微调和部分网络层冻结微调；

3.使用微调后的基座模型，通过分布式调度技术对新的任务请求进行任务处理。

步骤2中描述的指令微调，如图1所示，是一种允许用户提供特定的指令或提示（prompt），以定制模型的行为。这些提示可以用于引导模型生成特定领域或任务的内容。例如，用户可以提供一个问题的提示，模型将根据提示生成答案。这种方式可以让用户以自然的方式与模型交互，而不需要深入了解模型的内部结构，也不需要改变模型内部结构。如图1所示，假如任务的描述为“求以下组合数，.....”, 用户希望模型用python实现该类任务或者用数学公式进行展示，那么用户可以在这类任务的输入前加上特定的提示词（prompt层），以便模型能够更好的理解该类任务，并选择合适方法给出答案。

步骤2中描述的LoRA微调，是一种低秩矩阵适应技术，用于减小适应性模型的参数空间，从而降低存储和计算开销。该技术包括以下步骤：

微调（Fine-Tuning）：根据特定任务或领域，使用相应的训练数据对一个模型进行微调。随机生成一组低秩矩阵，低秩矩阵相乘后与基座模型参数结合。具体来说，假设原模型为一个n×n的高维度矩阵，用户可以根据自己的算力生成两个低秩矩阵，矩阵A维度为n×2，矩阵B维度为2×n，A×B会得到一个N×N的高位矩阵。这样用户就只需要在A、B这两个矩阵上微调，然后与原模型进行结合便可，具体流程如图2所示，这样便可极大规模的减少微调所需的算力。这可以是针对不同领域、不同要求的自然语言处理或其他领域的任务。微调过程可以使用梯度下降等训练方法。

存储适应性模型：生成的低秩矩阵将被存储起来，以备后续使用。这可以是在磁盘上、容器、云存储中或其他合适的地方，这可以极大的减小存储需求。

应用适应性模型：当需要在特定任务或领域中使用适应性模型时，可以将存储的低秩矩阵加载回内存，并结合基座模型的参数以重构适应性模型。这个重构过程是相对快速的，因为低秩矩阵的规模较小，从而降低了计算开销。

步骤2中描述的部分网络层冻结微调，是另一种降低计算资源消耗的技术。这意味着在特定任务中，只有模型的一部分层（例如，底层或中间层）会被微调，而其他层将被保持不变。这可以有效减少微调的参数数量，从而提高效率。

对于步骤3，在使用模型进行任务处理时，如图3所示按以下步骤进行：

任务识别：在模型调度中心，通过对任务进行分类，识别当前要解决的任务属于哪个领域与类型。例如新任务被分为a、b、c、d……，对应的特定任务模型则分别为a、b、c、d……

模型启动：根据任务的分类，判断该类任务模型是否已经启动，若未启动或者当前模型的负载大于等于负载阈值，则从存储的适应性偏移参数库中选择适当的参数，与基座模型结合以启动相应的领域模型。若模型已经启动，则直接调用该模型接口获取结果即可（即特定任务模型直接输出对应的结果a、b、c、d……）。

其中，如图4所示，偏移参数数据库存储着步骤2微调过程产生的参数，具体可以是指令微调中提示层参数、低秩矩阵微调中的低秩矩阵以及部分网络层冻结微调中未被冻结的网络层。

本发明技术方案使系统具有多用途性和扩展性。基座模型可用于各种任务，当在某个领域有特殊需求的时候，可以针对性的优化。同时微调技术的高效和灵活性可确保高性能和快速适应性。这样既可以使用到大模型的特定的能力，又不会浪费掉太多的计算资源与存储资源。

本发明通过将微调技术与分布式调度系统技术应用于大型语言模型，可以在降低计算和存储成本的同时，实现高性能和快速适应性。这使得模型能够在各种应用和领域中发挥出色的表现。

另外，本发明还提供了结合微调技术和分布式调度的大模型训练部署系统包括；

基于本发明的技术方案，以开发一个利用微调技术的多领域大语言模型管理系统为例，该系统通过高效的调度和优化存储方案，确保模型在不同领域的高性能和适应性，其系统流程如图5和图6所示，该示例不应局限本发明方案的使用场景，具体实施步骤如下：

1.基座模型和共享存储设置

选择一个70亿参数的llama-7B大型语言模型作为基座模型，存储于高效能的共享文件系统或云存储服务中。

2.微调及参数存储

如图5所示，对基座模型在不同领域（如金融、医疗、教育、技术）以及不同任务选择LoRA微调、指令微调以及冻结部分层数的微调，对比不同方式微调的结果，选取效果最好的参数进行存储。

模型微调完成后，在每个Docker容器内仅存储针对特定领域微调的低秩矩阵或部分层参数以及其他优化参数，确保快速读取和最小的存储空间占用。

3.智能调度系统

如图6所示，当新的任务请求进来时，首先经过模型调度中心判断最适合的是哪一个领域的哪类任务型，然后，调度中心会查看该类模型的是否处于激活状态。若该类模型已经启用并且负载量在阈值以下，则直接访问模型进行该类任务的解答与返回；否则根据任务需求自动选择合适的微调模型容器，容器在被请求时动态地从公共存储加载基座模型与其内部存储的微调参数结合，并启动模型，然后进行任务的解答与返回。另外，当一类模型到达负载阈值时，会启动多个同类模型。此外，智能调度系统会根据资源使用情况和任务优先级，动态决定模型的激活与休眠。

假设当前已有金融问答模型与教育问答模型已经部署完成，那么当金融咨询与教育咨询类的任务进来时就会直接调用相应的接口。当有一个新的任务需要对论文或者文章内容进行归纳总结，那么调动中心会选择带有归纳总结模型的容器，结合公共存储的基座模型，并启动模型，然后进行问题的回复。

4.性能监控与持续优化

实施监控系统，跟踪每个容器及其微调模型的性能和资源使用情况，比如在金融类任务咨询量非常大的时候，会通过负载均衡控制增加模型的部署。当教育问答模型的在一段时间没有被使用的情况下，负载均衡模块会选择让该模型休眠。这种方法不仅保证了模型的高效运行，还大大降低了存储空间的需求。该系统将能够在保持高性能和适应性的同时，最大化地减少存储与计算需求。同时，由于模型的参数一直都是动态加载与释放，这样就允许实时参数更新，以适应模型行为的变化。

本发明结合微调技术与分布式智能调度系统在保证模型性能的同时尽可能降低计算资源的消耗，同时用户可以根据自己的实际情况来确认所需模型的规模，再满足任务要求的同时，不至于浪费太多的算力。简而言之，用户能够享受到大模型带来的便利，但又不会浪费过多不必要的算力与资源。

本发明的创新点如下：

1.大模型微调之后高效的参数存储与启用：为了达到模型启用的便捷性与灵活性，本发明中，在模型微调过后，将适应性偏移参数存储至容器，并在容器中配备与基座模型结合对应的启动代码。极大的提升了该系统的启用效率与灵活性。

2.模型的可扩展性：由于模型参数都是通过智能调度中心动态加载，当我们需要某项特定任务的模型时，可以采用对应数据对模型进行微调。然后通过调度中心启用该类模型即可。

3.按需启动的大模型：在智能调度中心的配合下，模型会按照实际需求启用或休眠。这样可以避免单一模型在性能上的折扣，同时又不会浪费过多算力资源

4.模型的定制化能力：用户可以根据自己的需求和任务要求来定制所需的模型规模，这种灵活性可以为用户提供满足要求的大模型。

5.多种微调技术的结合：该系统中结合目前比较有效的微调技术，通过多个微调结果的对比，确保尽可能获得性能良好的模型。避免了单一技术无法在所有领域表现良好的缺点。

6.将大模型技术与分布式系统结合：由于大模型庞大的参数量以及算力需求，通常大模型的部署都很难与分布式技术结合。本发明通过将基座模型作为公共存储，只将低维度的微调参数至于容器中，从而达到分布式弹性部署大模型的目的。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.结合微调技术和分布式调度的大模型训练部署方法，其特征在于，包括如下步骤；

S1，选择一个大型神经网络模型作为基座模型；

S3，使用微调后的基座模型，通过分布式调度技术对新的任务请求进行任务处理；

步骤S2中，所述指令微调包括如下步骤：

用户提供特定的指令或提示，引导基座模型生成对应领域或任务的内容；

步骤S2中，所述LoRA微调采用低秩矩阵适应技术，用于减小基座模型的参数空间，具体包括如下步骤：

S22，将生成的一组低秩矩阵进行存储；

S23，当需要在特定任务或领域中使用适应性模型时，将存储的低秩矩阵加载回内存，并结合基座模型的参数构建适应性模型；

步骤S22中，所述低秩矩阵存储在Docker容器中，且每个Docker容器内仅存储针对特定任务或领域微调的低秩矩阵；

步骤S3包括如下步骤：

2.根据权利要求1所述的结合微调技术和分布式调度的大模型训练部署方法，其特征在于，步骤S2中，所述部分网络层冻结微调指在特定任务或领域中，对基座模型的部分层进行参数调整，未被参数调整的层保持不变；所述部分层包括底层或中间层。

3.根据权利要求1所述的结合微调技术和分布式调度的大模型训练部署方法，其特征在于，步骤S1中，所述大型神经网络模型采用具有70亿参数的llama-7B大型语言模型。

4.结合微调技术和分布式调度的大模型训练部署系统，用于实现权利要求1-3任一项所述的结合微调技术和分布式调度的大模型训练部署方法，其特征在于，所述结合微调技术和分布式调度的大模型训练部署系统包括；