CN110533183A

CN110533183A - 一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法

Info

Publication number: CN110533183A
Application number: CN201910815750.7A
Authority: CN
Inventors: 张竞慧; 詹隽; 金嘉晖; 罗军舟
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-03
Anticipated expiration: 2039-08-30
Also published as: CN110533183B

Abstract

本发明提供一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法，主要包含三个部分，分别是深度学习模型刻画、模型划分与任务放置、流水线分布式训练。本发明首先针对深度学习应用在GPU训练过程中的资源需求，刻画出其训练执行过程中计算时间、中间结果通信数量、参数同步量等相应指标，并将其作为模型划分与任务放置的输入。然后根据模型刻画得出指标以及GPU集群的异构网络连接拓扑，设计基于min‑max的动态规划算法执行模型划分与任务放置，目的是最小化划分之后各阶段任务执行时间的最大值，以确保负载均衡。最后根据划分放置结果，在模型并行的基础上使用流水线分时注入数据进行分布式训练，实现训练速度与精度的有效保障。

Description

一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法

技术领域

本发明涉及一种流水线分布式深度学习中异构网络感知的模型划分与任务放置技术，属于分布式计算技术领域。

背景技术

深度学习(deep learning)是一类机器学习技术，是利用多层非线性信息进行有监督或无监督的特征提取和转换，以及用于模式分析和分类的技术。深度学习一般包含两个过程，训练过程和推断过程：训练过程是利用设计好的神经网络从大量训练集中(已知标签)提取特征执行预测，然后根据预测值与实际标签值之间的误差计算梯度，利用梯度下降的方法执行参数更新，重复迭代，直至收敛。推断过程是利用训练过程训练好的神经网络模型，对未知标签的数据执行相应预测或识别推断。由于在实际环境中，训练时间一个神经网络通常需要上百小时甚至几周，而推断时间通常只需要几毫秒，训练时间与推断时间相差十几个数量级，因此如何减少训练时间，即快速高效的执行深度学习的训练过程成为人们关注的重点问题。

深度学习的训练过程是一个迭代收敛的过程，以深度学习图像识别为例，通常包含以下三个阶段：(1)前向传播。前向传播是从训练数据中执行输入到结果输出的过程。利用设计好的神经网络从一批带有标签的图像、视频中抽取出特征，将特征进行组合，计算出图像的分类。为了加快训练速度以及减少图片噪声影响，通常一次迭代会同时处理一批数据，称为一个mini-batch。(2)反向传播。反向传播是与前向传播执行方向相反的过程。为了使前向传播预测值与实际标签值的误差尽可能小，将预测值与实际标签值进行对比，根据对比误差(通常称为损失函数)，按照前向传播相反的方向，依次反向计算神经网络各层参数的梯度，计算每一层参数梯度时会用到相应层前向传播的中间结果值，最后利用梯度下降的方式对各个参数执行梯度更新。(3)下一轮迭代。根据反向传播更新后的参数，继续执行下一轮前向反向传播参数更新。通常深度学习的训练过程需要迭代很多轮次才能达到收敛状态。

由于深度学习的训练过程是一个多次迭代直至收敛的过程，加之设计的模型往往越来越大，导致所需计算量急剧上升，通过分布式训练神经网络以提升训练速度成为必然趋势。传统的分布式训练主要包含两种方式：数据并行和模型并行。数据并行的方式是每次迭代过程中，每个GPU计算节点会拥有模型的一个副本，每块GPU使用部分数据计算梯度，一次迭代结束向全局的参数服务器发送计算好的梯度并在参数服务器端执行参数同步更新。由于神经网络设计越来越大，数据并行由于大量参数同步存在性能瓶颈而大大降低了分布式训练性能，同时也难以扩展。另一种方式是模型并行，模型并行则将模型划分到不同的GPU计算节点上(通常按层划分)，然后根据神经网络的执行拓扑顺序按层执行计算，每个节点计算结束产生的结果会向下游计算节点传输。由于每个GPU负责模型一部分参数计算更新，减少了参数同步，通信数量大大降低，因此更能胜任更大模型计算。然而，由于模型计算过程中存在计算依赖导致GPU利用率不高，同时由于神经网络结构复杂，如何设计模型划分对于用户而言又是一大难题。

为了提升模型并行中GPU利用效率，近期研究者们提出一种流水线分时注入数据的方式提高GPU利用率。首先将模型按层执行划分成不同阶段，每个阶段包含连续的层，每个阶段包含神经网络部分连续的层，每个阶段映射到GPU上执行相应层前向和反向传播计算，计算中间结果沿着网络向下游阶段传输。在流水线模式下，每个时间片不同的阶段并行地在执行模型不同部分相应前向和反向传播计算。因此，为了使流水线更好的并行化，减少GPU空闲时间，模型划分需保证各阶段的吞吐率几乎一致，即需保证模型划分后各阶段负载均衡。然而，在现有的流水线分布式深度学习中，其模型划分与任务放置方法未考虑GPU集群中GPU间网络连接的异构性(GPU间的网络带宽差异巨大，可达80％)，导致现有的模型划分与任务放置方法不能保证划分的负载均衡性，难以高效执行训练。更为重要的是，GPU计算能力的提升，将分布式训练的性能瓶颈从计算转移到网络，因此，在流水线模式下如何根据GPU间的异构网络，设计有效的模型划分与任务放置策略以提升训练速度成为关键问题。

发明内容

本发明主要针对目前流水线训练模式下分布式深度学习的模型划分与任务放置无法适应GPU集群的网络异构性，提出一种网络感知的模型划分与任务放置方法。在流水线模式下，同一时间片，不同的阶段中GPU在执行模型不同部分的相应计算，为了使得模型训练并行化程度高，提升分布式训练速度，需要在模型划分时不仅考虑训练速度还应考虑各阶段之间负载均衡。为此，该方法根据深度神经网络的层级特性，定义按GPU间带宽从大到小排序，从而固定GPU ID顺序的启发式规则，使用动态规划和回溯法，求解出负载均衡的模型划分与任务放置。

为达到上述目的，本发明采用的方法是：一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法，主要包含三大部分，每个部分具体包括以下步骤。

步骤一：建立深度神经网络的层次累积分布函数(CDF)模型，分析深度学习应用在流水线模式下执行模型划分与任务放置算法所需相应输入条件，为了使得后续模型划分更加准确，通过实际运行的方式测量得出神经网络按层计算时间、中间结果通信量以及同步参数量。

由于神经网络训练分为前向传播预测结果和反向传播更新参数过程，数据经过神经网络逐层计算，因此在流水线模式下，对于神经网络的层次结构建立累积分布函数模型。根据累积分布函数模型，使用GPU硬件环境执行预训练过程，刻画出神经网络在训练过程中各层的计算总时间激活值大小参数数量大小|w^l|。为后续模型划分与任务放置提供基础。

步骤二：针对网络异构的GPU集群，对流水线模式下分布式深度学习训练过程进行建模，基于步骤一得到的训练过程相应指标，定义按GPU之间带宽从大到小排序，从而固定GPU ID顺序的启发式规则，采用基于min-max的动态规划回溯法，执行模型划分与任务放置，目的是最小化划分之后各阶段任务执行时间之间的最大值，求解出使得流水线分布式在异构网络模式下GPU负载尽可能均衡、GPU利用率得以提升从而加速分布式训练的划分放置策略。

模型划分与任务放置方法是以步骤一中刻画得到的相应指标，以及GPU集群中GPU间的网络拓扑连接作为算法输入，根据神经网络的不同层级间特性(前期卷积层通信量大，后期全连接层通信量小)，定义按GPU之间带宽从大到小排序，从而固定GPU ID顺序的启发式规则，然后使用动态规划和回溯法，得到最小化划分之后各个阶段计算和通信时间的最大值。

以步骤一中刻画得到的结果为基础，令A_s表示第s个阶段的计算时间，C_s表示第s和第s+1个阶段的通信量。整体目标为最小化一次迭代计算与通信时间，在流水线模式下，该问题转换成最小化划分之后某个阶段的计算和通信的最大值：

步骤三：使用流水线分时注入数据执行训练，根据步骤二中算法，将模型划分成不同阶段，每个阶段包含神经网络部分连续的层，同时，每个阶段映射到k块GPU上执行数据并行，阶段间模型并行产生数据通过网络传输，阶段内部数据并行参数通过网络进行同步，采用流水线分时注入数据的方式确保在同一时刻各阶段并行执行不同批次数据的相应计算。

流水线提升模型并行的方法是在步骤二的模型划分与任务放置基础上，各阶段之间执行模型并行，阶段内部执行数据并行，对于阶段间任务调度采用的是前向传播与反向传播任务依次执行，对于阶段内部的任务调度采用的是任务ID与(GPU内部ID(0,1,2…m)+1)执行哈希取余的轮询方式。

有益效果：

本发明提供的一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法能解决传统模型划分与任务放置不能适应GPU集群网络异构，导致分布式深度学习过程负载不均及GPU利用不充分的问题，从而提升GPU集群环境中流水线分布式深度学习的训练速度。

附图说明

图1为本发明整体架构图；

图2为本发明整体流程图；

图3为本发明理想环境下流水线执行方式示意图；

图4为本发明实际环境下流水线执行方式示意图。

具体实施方式

下面结合附图及具体实施方式对本发明再作进一步详细的说明。

本发明主要在具有异构网络拓扑的GPU集群环境下进行。

图1表示的是整体架构图，主要包含异构网络连接的GPU服务器节点，异构体现在两个方面：节点间与节点内部GPU连接方式异构以及节点与节点间连接带宽异构。通常GPU的连接情况为：节点内部通过PCIe连接，节点间通过以太网/Infiniband等连接。在各块GPU上安装CUDA库和cuDNN库，使用PyTorch框架执行计算。

图2表示的是整体的流程图，首先对于神经网络应用而言，按层执行刻画，建立累积分布函数模型。再根据GPU的物理网络拓扑以及神经网络的拓扑结构进行建模，设计划分以及任务放置算法，目标是最小化划分之后的各个阶段计算和通信时间的最大值。最后根据上述划分与放置算法，执行任务放置后进行流水线分布式训练。

一.在模型刻画阶段，对于计算量而言，使用给定的mini-batch大小，利用profile刻画出神经网络在GPU上依次执行前向传播反向传播的矩阵计算(mkldnn_convolution、max_pool2d_with_indices、batch_norm、addmm等)所需计算时间，然后按照层次顺序按层统计计算时间。对于通信量而言，利用PyTorch模型可视化工具可打印出神经网络各层输出的矩阵形状以及神经网络各层参数的数量，然后按照浮点数所需字节计算得到各层中间结果以及参数大小。通过预训练之后得到：各层刻画神经网络各层前向反向计算总时间神经网络各层中间结果通信量神经网络各层参数量|w^l|。

二.在模型划分与任务放置阶段，模型划分与任务放置的目标是最小化一次迭代计算与通信时间，在流水线模式下，该问题转换成最小化划分之后某个阶段的计算和通信的最大值。以步骤一中刻画得到的结果为基础，令A_s表示第s个阶段的计算时间，C_s表示第s和第s+1个阶段的通信量。首先对于流水线模式下的模型划分与任务放置问题，建立数学模型，建模过程主要分为如下三个步骤：

1)GPU集群中物理资源建模：

变量	含义
		G<sub>s</sub>	第s个阶段的使用的GPU集合
\|G<sub>s</sub>\|	第s个阶段GPU的数量
		D	GPU之间的物理连接拓扑图
B(j,k)	第j块GPU与第k块GPU之间的带宽

表1物理资源建模表示结果

2)神经网络应用执行过程中需求建模：

表2神经网络计算需求建模表示结果

a.第s个阶段的计算时间，假定第s个阶段包含p到q层，拥有的GPU集合为G_s

b.第s个阶段与第s+1阶段之间的通信量为：

c.整体目标为最小化一次迭代计算与通信时间，在流水线模式下，该问题转换成最小化划分之后某个阶段的计算和通信的最大值：

根据上述所建立模型，求解模型划分与任务放置的伪代码如下：

对于算法1而言，输入为神经网络每一层的计算时间，参数大小，中间结果大小，并且神经网络总层数，以及异构GPU之间的带宽矩阵。算法输出为求解出最优的划分阶段，以及对于每个阶段(stage)，求解出对应的神经网络层和GPU ID。算法1中，第8到10行dpStage,dpLayer,dpGpu分别代表当神经网络包含层(0～j)、GPU ID(1～m)时的最优解决方案。当对GPU数组执行排序过后，整个解决方案分成两种情况：第一种情况，当整个系统只有一个阶段时，此时转换成传统数据并行，函数getStageTime(0,j,1,m)表示0～j层使用1～m执行数据并行。第二种情况：第19到41行表示如果整个系统划分超过一个阶段时，我们将问题划分成三个部分，第一部分代表子问题(0～i层，GPU ID为0～m-m₁)的最大时间，第二部分代表剩下部分作为一个阶段(i～j层，GPU ID为m-m₁+1～m)的时间，第三部分代表第一部分与第二部分之间传输数据量与最小带宽的比值，即数据通信最大时间。由于GPU是按照带宽从大到小排序，第一部分与第二部分之间的最小带宽可使用第二部分中的最小带宽代替。算法最后返回值为dpStage,dpLayer,dpGpu，分别代表在给定神经网络的0～j层，GPUID为1～m的前提下对应划分后的阶段，以及每个阶段包含的层和GPU ID，然后使用回溯即可得到划分结果。

三.在流水线执行阶段：根据第二阶段流水线划分结果，将模型划分映射到对应GPU ID上去。阶段内部包含k块GPU执行数据并行，k块GPU包含相同的模型片段(神经网络部分连续的层)，在阶段内部数据并行的参数通过PyTorch的Distributed Data Parallel(DDP)执行同步；各个阶段之间执行模型并行，相邻阶段之间由模型并行产生的中间结果通过PyTorch的torch.distributed进行传输，通信后端采用gloo(或者nccl)。图3表示出流水线模式下的分布式训练的理想情况，图4表示的是实际执行情况(为了便于画图，每个阶段仅采用一块GPU)。

从纵坐标看，每个阶段只有等到上一阶段计算结束传递结果到该阶段才会开始本阶段的计算。从横坐标看，训练过程分为初始状态和稳定状态，刚开始分时注入适量数据使得GPU都处于计算状态，此时停止注入，当第一批数据反向传播计算结束才开始注入新的数据执行计算，此时流水线进入稳定状态。其具体包括如下步骤：

1.初始状态下，向流水线中注入第一个mini-batch到第一个阶段。

2.当第一个mini-batch在第一个阶段执行前向结束，数据会传输到第二阶段，同时第一个阶段接收第二批数据执行前向传播。

3.当第一个mini-batch到达第三个阶段时，此时所有阶段中GPU已经被占满，停止注入数据，第一个mini-batch立马沿着相反路径执行反向传播计算。

4.当第一个mini-batch反向传播计算结束时，可注入新的数据执行计算，此时流水线进入稳定状态。

5.稳定状态下，在每块GPU上，调度的方式采用一个前向传播和一个反向传播轮流执行的方式。

6.稳定状态下，在一批数据(mini-batch)在各个阶段执行训练的前向传播过程中使用的是改阶段最新更新的参数，数据的反向传播使用的是前向传播相同版本的参数执行更新。

7.由于阶段内部数据并行的存在，前向传播过程中，上一阶段中间结果到达本阶段时，数据映射到GPU ID的方式为：根据数据ID(即任务ID)％GPU内部ID(0,1,2…m)+1的方式执行映射。

8.反向传播过程中，由于需要保证前向传播与反向传播在同一块GPU上执行计算(反向传播计算需使用前向传播中间结果)，反向传播的梯度差(任务ID)映射到阶段内部GPU的方式跟前向传播中(第7步)哈希取余的方式一致。

本发明还可有其他多种实施方式，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明做出各种相应的改变和变形，这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法，其特征在于：该方法包括以下步骤：

步骤一：建立深度神经网络的层次累积分布函数模型，分析深度学习应用在流水线模式下执行模型划分与任务放置算法所需相应输入条件，通过实际运行的方式测量得出神经网络按层计算时间、中间结果通信量以及同步参数量,刻画神经网络层级结构相应指标；

步骤二：针对网络异构的GPU集群，对流水线模式下分布式深度学习训练过程进行建模，基于步骤一得到的训练过程相应指标，定义按GPU之间带宽从大到小排序，从而固定GPUID顺序的启发式规则，采用基于min-max的动态规划回溯法，执行模型划分与任务放置，目的是最小化划分之后各阶段任务执行时间之间的最大值，求解出使得流水线分布式在异构网络模式下GPU负载尽可能均衡、GPU利用率得以提升从而加速分布式训练的划分放置策略；

2.根据权利要求1所述的一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法，其特征在于，步骤一中神经网络层级结构相应指标包括：神经网络在训练过程中各层的计算总时间激活值大小参数数量大小|w^l|。

3.根据权利要求1所述的一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法，其特征在于：所述步骤二中模型划分与任务放置方法是以步骤一中刻画得到的相应指标，以及GPU集群中GPU间的网络拓扑连接作为算法输入，根据神经网络的不同层级间特性，定义按GPU之间带宽从大到小排序，从而固定GPU ID顺序的启发式规则，然后使用动态规划和回溯法，得到最小化划分之后各个阶段计算和通信时间的最大值。

4.根据权利要求1所述的一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法，其特征在于：所述步骤三中流水线提升模型并行的方法是在步骤二的模型划分与任务放置基础上，各阶段之间执行模型并行，阶段内部执行数据并行，对于阶段间任务调度采用的是前向传播与反向传播任务依次执行，对于阶段内部的任务调度采用的是任务ID与(GPU内部ID(0,1,2…m)+1)执行哈希取余的轮询方式。