CN114816801A

CN114816801A - 基于多种通信模式的深度学习大模型推理部署方法

Info

Publication number: CN114816801A
Application number: CN202210502345.1A
Authority: CN
Inventors: 杜江溯; 方佳瑞; 卞正达; 李永彬
Original assignee: Beijing Luchen Technology Co ltd
Current assignee: Beijing Luchen Technology Co ltd
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-07-29

Abstract

本发明公开了基于多种通信模式的深度学习大模型推理部署方法，具体涉及程序模型领域，包括以下步骤：S1、对大模型进行模型并行与流水线并行分割；S2、进程运行，其中一个为主进程，除了主进程外的其他进程中，仅有通信初始化逻辑；S3、初始化所有通信；S4、主进程通过远程过程调用在所有进程上对相应模型分块进行实例化；S5、当一个推断请求到来时，主进程通过远程过程调用通知所有进程相应的信息，被调用的进程将执行信息压入自己的消息队列，后启动推理过程，本发明能够统一程序入口，实现非阻塞的流水线推理，在行为上，可将分布式推理封装成单设备推理具有相同行为，易于对分布式推理进行管理。

Description

基于多种通信模式的深度学习大模型推理部署方法

技术领域

本发明涉及程序模型领域，尤其涉及基于多种通信模式的深度学习大模型推理部署方法。

背景技术

深度学习模型逐渐变得越来越大以达到更佳的精度要求，深度学习模型的参数量已经达到百亿级别，甚至千亿级别，智源悟道2.0模型甚至有1.75万亿的参数规模；

百亿级别大模型以FP16精度进行存储需要20GB的内存，已经逼近甚至超过了大多数加速器片上存储的极限，同时由于庞大的计算量，单设备推理大模型也难以满足推理任务的延迟要求。因此，如何协调节点内及节点间多设备对大模型进行分布式推理是重要的研究内容；

当前具有大模型分布式推理能力的框架有Deepspeed-Inference和FasterTransformer针对GPT的分布式实现，但在实现上均采用分布式深度学习训练的去中心化模式，无法对分布式推理中的多个进程进行管理，无法实现统一的输入/输出接口，无法对分布式推理任务的扩展和多模型参数进行管理，进而无法包装成服务对外提供推理业务。同时，由于当前已有的推理服务部署系统均针对单进程推理实例进行管理，现有分布式推理方案无法封装成单个实例直接复用现有的管理逻辑，例如：例：现有任务的启动方式是如MPI的启动方式(mpirun-n 4evaluate.py)，每一个任务进程之间相互独立，不易管理，对于训练任务是合适的，但是对于推理任务则不合适。如流水线推理时，任务的入口在进程0，而任务的出口则在最后一个进程，因此本发明提出基于多种通信模式的深度学习大模型推理部署方法。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的基于多种通信模式的深度学习大模型推理部署方法。

为了实现上述目的，本发明采用了如下技术方案：

基于多种通信模式的深度学习大模型推理部署方法，包括以下步骤：

S1、对大模型进行模型并行与流水线并行分割；

S2、进程运行，其中一个为主进程，除了主进程外的其他进程中，仅有通信初始化逻辑；

S3、初始化所有通信；

S4、主进程通过远程过程调用在所有进程上对相应模型分块进行实例化；

S5、当一个推断请求到来时，主进程通过远程过程调用通知所有进程相应的信息，被调用的进程将执行信息压入自己的消息队列，后启动推理过程。

优选的，所述步骤S1具体为：将待推理模型按模型并行与流水线并行进行层间与层内的切割，需要满足模型并行维度与流水线并行维度的乘积等于总的进程数量。

优选的，所述步骤S3具体为：远程过程调用通信，所有的进程都在一个通信组中，模型并行通信，由于模型并行维度为2，因此该通信模式中每两个进程作为一组，流水线并行通信，由于流水线并行维度为3。

优选的，所述流水线预热阶段描述：由于流水线后序进程依赖于前序进程，前序进程启动推理后，后序进程则进入通信等待时间，前须进程中同一个模型并行组内的进程通过集合通信完成推理，输出结果通过点对点通信传递到流水线后序进程，流水线后序进程启动推理，往复该过程直至流水线末尾将结果返回主进程。

优选的，所述流水线稳定运行阶段描述：有足够多的推理请求时，请求都将被压入各自进程的消息队列中，当后序进程开始推理时，前序进程将启动下一个请求的推理，当该后序节点完成推理后即可得到前序进程关于下一个请求的输出，无需等待。

优选的，所述远程过程调用的具体步骤为：负责调用远程进程上的实例化方法，当有新的推理请求进来时，发起具体控制逻辑，管理运行过程中多个远程进程之间协同工作，控制逻辑包括，模型计算与进程间通信，点对点通信，在流水线并行中，前序进程完成推理后需要将结果传输给下一个设备，下一个进程接收上一个进程的结果作为输出，得到输出，该数据传输过程由点对点通信完成。

优选的，所述集合通信具体为：在模型并行中，每一个进程的输出是同一模型并行组中所有进程的输入，该数据传输在系统中由集合通信负责。

本发明的有益效果为：

本发明能够统一程序入口，使用中心化主进程远程过程调用的方式，多个进程的输入与输出都需要通过主进程，可以实现了程序入口的统一，同时由于执行逻辑都通过主进程进行统一的管理调度，使得对分布式推理实例的封装在形式上与单进程实例相同，非阻塞的流水线推理的优化点来自于分布式消息队列对异步执行的支持，在主进程给每一个工作进程发布任务后，任务进入分布式消息队列中，因此主进程不需要等待当前任务的返回，工作进程可以异步的执行每一个请求，即可实现非阻塞的流水线推理，提高吞吐量。

附图说明

图1为本发明中的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

如图1所示，基于多种通信模式的深度学习大模型推理部署方法，包括以下步骤：

S1、对大模型按照模型并行维度与流水线并行维度的需求进行分割，以便相应进程加载模型参数；

S3、初始化所有通信；

S4、主进程通过远程过程调用在所有进程上对相应模型分块进行实例化，模型实例化是初始化准备阶段，初始化完成后，当有推断请求到来时，可快速响应；

S5、当一个推断请求到来时，主进程通过远程过程调用通知所有进程相应的信息，被调用的进程将执行信息压入自己的消息队列，后启动推理过程，通过中心化的主进程实现，可实现中心化的统一管理，协调多个进程的工作；通过分布式消息队列，可实现进程间的异步处理，提高系统的吞吐量。

其中，所述步骤S1具体为：将待推理模型按模型并行与流水线并行进行层间与层内的切割，需要满足模型并行维度与流水线并行维度的乘积等于总的进程数量。

其中，所述步骤S3具体为：远程过程调用通信，所有的进程都在一个通信组中，模型并行通信，由于模型并行维度为2，因此该通信模式中每两个进程作为一组，流水线并行通信，由于流水线并行维度为3，六个进程划分成2*3，也可以划分成3*2。

其中，所述流水线预热阶段描述：由于流水线后序进程依赖于前序进程，前序进程启动推理后，后序进程则进入通信等待时间，前须进程中同一个模型并行组内的进程通过集合通信完成推理，输出结果通过点对点通信传递到流水线后序进程，流水线后序进程启动推理，往复该过程直至流水线末尾将结果返回主进程。

其中，所述流水线稳定运行阶段描述：有足够多的推理请求时，请求都将被压入各自进程的消息队列中，当后序进程开始推理时，前序进程将启动下一个请求的推理，当该后序节点完成推理后即可得到前序进程关于下一个请求的输出，无需等待。

其中，所述远程过程调用的具体步骤为：负责调用远程进程上的实例化方法，当有新的推理请求进来时，发起具体控制逻辑，管理运行过程中多个远程进程之间协同工作，控制逻辑包括，模型计算与进程间通信，点对点通信，在流水线并行中，前序进程完成推理后需要将结果传输给下一个设备，下一个进程接收上一个进程的结果作为输出，得到输出，该数据传输过程由点对点通信完成。

其中，所述集合通信具体为：在模型并行中，每一个进程的输出是同一模型并行组中所有进程的输入，该数据传输在系统中由集合通信负责。

实施例2

在与实施例1中的步骤完全相同的前提下，基于分布式消息队列的部署方法，其中，远程过程调用步骤更换为：远程过程调用的控制逻辑发送到本地进程，由于大模型计算量很大，被本地进程处理需要较长的时间，为了保证流水线并行的异步特性以获得更大的系统吞吐量，本发明设计了分布式的消息队列，即在每一个本地进程中维护一个消息队列，在本地进程接收到管理进程的控制逻辑后，会将事务加入到消息队列中等待处理，具有消息队列后，流水线并行中的每一个进程不必等待最后一个进程处理完毕返回当前推断的结果，即可继续处理下一个推断。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于多种通信模式的深度学习大模型推理部署方法，其特征在于，包括以下步骤：

S1、对大模型进行模型并行与流水线并行分割；

S3、初始化所有通信；

2.根据权利要求1所述的基于多种通信模式的深度学习大模型推理部署方法，其特征在于，所述步骤S1具体为：将待推理模型按模型并行与流水线并行进行层间与层内的切割，需要满足模型并行维度与流水线并行维度的乘积等于总的进程数量。

3.根据权利要求1所述的基于多种通信模式的深度学习大模型推理部署方法，其特征在于，所述步骤S3具体为：远程过程调用通信，所有的进程都在一个通信组中，模型并行通信。

4.根据权利要求1所述的基于多种通信模式的深度学习大模型推理部署方法，其特征在于，所述流水线预热阶段描述：由于流水线后序进程依赖于前序进程，前序进程启动推理后，后序进程则进入通信等待时间，前须进程中同一个模型并行组内的进程通过集合通信完成推理，输出结果通过点对点通信传递到流水线后序进程，流水线后序进程启动推理，往复该过程直至流水线末尾将结果返回主进程。

5.根据权利要求1所述的基于多种通信模式的深度学习大模型推理部署方法，其特征在于，所述流水线稳定运行阶段描述：有足够多的推理请求时，请求都将被压入各自进程的消息队列中，当后序进程开始推理时，前序进程将启动下一个请求的推理，当该后序节点完成推理后即可得到前序进程关于下一个请求的输出，无需等待。

6.根据权利要求3所述的基于多种通信模式的深度学习大模型推理部署方法，其特征在于，所述远程过程调用的具体步骤为：负责调用远程进程上的实例化方法，当有新的推理请求进来时，发起具体控制逻辑，管理运行过程中多个远程进程之间协同工作，控制逻辑包括，模型计算与进程间通信，点对点通信，在流水线并行中，前序进程完成推理后需要将结果传输给下一个设备，下一个进程接收上一个进程的结果作为输出，得到输出，该数据传输过程由点对点通信完成。

7.根据权利要求4所述的基于多种通信模式的深度学习大模型推理部署方法，其特征在于，所述集合通信具体为：在模型并行中，每一个进程的输出是同一模型并行组中所有进程的输入，该数据传输在系统中由集合通信负责。