CN113824650B

CN113824650B - 一种分布式深度学习系统中的参数传输调度算法及系统

Info

Publication number: CN113824650B
Application number: CN202110932298.XA
Authority: CN
Inventors: 倪伟; 杨坤; 张冠华; 胡兴; 宋梁
Original assignee: Shanghai Guanghua Zhichuang Network Technology Co ltd
Current assignee: Shanghai Guanghua Zhichuang Network Technology Co ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2023-10-20
Anticipated expiration: 2041-08-13
Also published as: CN113824650A

Abstract

本发明提出了一种分布式深度学习系统中的参数传输调度算法及系统，属于通信技术领域。包括将输入数据切分到多个worker节点中，worker节点从参数服务器接收汇聚的梯度值，并根据DAG关系依次使用；根据DAG关系可以得出不同的参数调度策略，寻找到参数传输的最优策略，定义并更新每一个op的属性，从而计算每一个recv op的优先级，优先选择优先级较高的op执行，最后实现传输调度。可以根据DAG关系中的依赖关系对参数传输过程赋予优先级，在发送端根据优先级实现对参数传输的调度，提高通信与计算时间的重叠效果，缩短迭代训练时间。

Description

一种分布式深度学习系统中的参数传输调度算法及系统

技术领域

本发明涉及通信技术领域，具体涉及一种分布式深度学习系统中的参数传输调度算法、一种基于参数传输调度算法的分布式深度学习系统。

背景技术

在过去几年中，由于机器学习框架能够提供较高的开发灵活性以及丰富的数据可用性，深度学习取得了蓬勃的发展。随着深度学习模型的不断扩大，其训练复杂度已经远远超过了单台机器所能承受的计算成本，分布式训练框架应运而生，成为解决复杂模型训练问题的主要途径。在常用的数据并行训练模式中，将输入数据切分到多个worker节点中，每个节点使用相同的计算图对数据进行处理。每次训练迭代结束后，节点之间交换参数数据以汇总迭代结果，随后用于模型更新。这一过程会产生较高的通信开销，所以对于通信开销的微小改进也能显著缩短系统的训练时间。

现有的分布式机器学习系统中的通信优化技术主要有以下几种：

一是使用诸如千兆以太网或InfiniBand之类的高带宽网络处理庞大的流量；二是使用模型压缩技术，如梯度量化、稀疏参数同步等，对模型规模进行压缩，减少需要传输的数据量；三是设计新的参数同步方法，针对性地解决集群中的“落后者”问题，提高系统的总体通信效率。

上述第一种技术路线的部署成本较高，并没有被广泛采用，并且随着更快的硬件加速器和规模更大的模型的出现，对数据传输速率要求将会进一步提高，以太网和InfiniBand将无法满足如此高的带宽需求。

第二种技术路线基于模型压缩技术，难点之一是难以获得比较合理的压缩比；同时，在参数量化、稀疏化的过程中会降低参数精度，引起信息丢失，最终可能会影响模型的收敛精度。

第三种技术路线基于对传统参数同步方法的改进，例如采用异步通信代替原有通信方法，以解决“落后者”问题。但该方法的具体设计与模型相关，需要针对模型特点对方法的实现细节进行调整。

综上所述，现有技术存在以下缺点：①部署成本高；②无法满足未来的高带宽需求；③影响模型收敛精度；④方法设计与模型相关；⑤编程工作量大，涉及较大规模改进等。

发明内容

针对背景技术中指出的问题，本发明提出一种分布式深度学习系统中的参数传输调度算法及系统。

本发明的技术方案是这样实现的：

一种分布式深度学习系统中的参数传输调度算法，包括以下步骤：

S1.将输入数据切分到多个worker节点中，其中worker节点为工作节点；

S2.worker节点从参数服务器接收汇聚的梯度值，并根据DAG关系依次使用，其中DAG关系为参数函数recv和运行单元op之间的关系；

S3.根据DAG关系可以得出不同的参数调度策略，寻找到参数传输的最优策略；

S4.定义每一个op的属性

S5.更新每一个op的属性，用于对DAG关系中的所有op的属性值进行赋值；

S6.利用步骤S5中的属性值计算每一个recv op的优先级，其中recv op表示处于传输过程中的参数；

S7.优先选择优先级较高的op执行。

根据本发明的一个实施例，在步骤S4中，定义每一个op的属性：

G表示为Worker节点的DAG关系；

Time(op)表示为op的执行时间；

C表示为设备上的可用通信频道；

R表示为DAG关系中recvs ops的集合；

op.dep表示为一个op能够执行的依赖项；

op.M表示为若该op为recv操作，则op.M为Time(op)；对于其它op，op.M为该op所有依赖项的完成时间总和；

recvop.P表示为完成该recv op所能激活的所有op的执行时间之和；

recvop.M+表示为对于一个存在多个依赖项的op，recvop.M+指激活该op所花费的最小通信代价；

根据本发明的一个实施例，在步骤S5中，每一个op的属性的更新方法包括以下步骤：

S51.首先对每一个op的属性值M进行赋值，根据定义可得，op的M值等于所依赖的所有recv op的花费时间总和；

S52.判断op是否为recv op，若是，对于每一个recv op，初始化op的P值与M+值，且P值为0、M+值为+∞；若否，则将该op所依赖的所有recv op作为集合D，判断集合D内的数量是否为1；

S53.若步骤S52中的集合D内的数量为1，对D内的recv op的属性值P进行更新，新的P值为原有P值加上op的执行时间；若步骤S52中的集合D内的数量不为1，将D内的所有recv op的属性值M+赋值为min{r.M+，oP.M}，即原有M+值与op的M值中的较小值。

根据本发明的一个实施例，在不考虑每个运行单元op的执行时间时，定义recv op的执行时间为1、非recv op的时间为0后，将recvop.M+作为该recv op的优先级数字，优先级数字越小，对应的参数传输优先级越高，按照优先级高低的顺序依次执行每一个recvop。

根据本发明的一个实施例，在考虑每个运行单元op的执行时间时，

首先将DAG关系中的所有recv op作为集合R，将变量count赋值为0，判断集合R的op数量是否为0，若为0，则说明所有recv op均已分配了优先级，调度算法结束；若不为0，按照步骤S5的属性值更新方法对DAG关系中op的属性值进行赋值；

遍历集合R，每次选出两个op进行比较，分别表示为op A与op B，将变量A赋值为opA.P与opB.M中的较小值，将变量B赋值为opB.P与opA.M中的较小值；

对变量A与变量B的大小关系进行判断：若变量A等于变量B，则使用recv op的属性值M+对两者的优先级顺序进行判断，M+值较小的op优先级较高；

若变量A不等于变量B，则比较变量A与变量B的大小关系：若A大于B，则op A的优先级较高；若A小于B，则op B的优先级较高；

经过对集合R的遍历后，可以找出集合R中优先级最高的op，将变量count值作为该op的优先级数字，数字越小，op的优先级越高；

分配好优先级后将该recv op从集合R中移除，然后将count值加1，继续判断集合R中recv op的数量，若数量为0，则结束算法；若不为0，则继续进行优先级分配。

本发明还提出了一种分布式深度学习系统，基于上述的参数传输调度算法，包括：

基础模型数据库：存放几类基础模型，供用户选择；

模型：从基础模型数据库中选择模型，从而提交给模型运行模块运行；

模型运行模块：将模型编译后进行运行处理；

优先级列表：从排序模块接收优先级，并存储起来，然后提交给优先级使能模块；

时间统计数据库：存储每一个op运行时间的历史数据；

计时器：存储时间预估模块估计的每一个op的运行时间；

追踪模块：收集每个op的运行状态，提交给时间预估模块用于估计op的执行时间；

时间预估模块：基于op的运行状态估计执行时间；

排序模块：基于调度算法1、2计算每一个recv op的优先级，将结果发送给优先级使能模块；

优先级使能模块：将计算得到的优先级作为输入，在参数传输时使用优先级顺序进行调度。

综上所述，本发明的有益效果为：

1.本发明的优化思路是提升模型训练过程中计算时间与通信时间的重叠效果，可以更加有效地利用可用网络带宽，在较为有限的带宽条件下也可以对训练性能进行改进；

2.本发明中调度算法的实现仅需要较少的编程工作，而且已经在TensorFlow的分布式框架内进行了本地修改，可以适配多种模型，更换要训练的模型后无需额外的编程工作；

3.本发明在参数传输过程中始终传输完整的梯度数据，相比于模型压缩、剪枝等优化方法，本发明不会影响模型收敛与模型准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的中的简单DAG关系示意图

图2为本发明实施例的定义调度问题示意图；

图3为本发明实施例的更新方法流程图；

图4为本发明实施例中的调度算法二情况一的示意图；

图5为本发明实施例中的调度算法二情况二的示意图；

图6为本发明实施例中的调度算法二的流程图

图7为本发明实施例中的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如下参考图1-7对本发明进行说明：

在worker节点上进行单次迭代训练包括以下三个步骤：1.前向传播，用于计算本地数据子集上的损失函数值；2.反向传播，根据损失函数值计算模型中每个参数的梯度；3.参数同步，汇总所有worker节点上的局部梯度值，worker节点接收后用于模型参数更新。

S2.worker节点从参数服务器接收汇聚的梯度值，并根据DAG关系(有向无环关系)依次使用，其中DAG关系为参数函数recv和运行单元op之间的关系；基于该信息可以在前向传播和反向传播阶段均实现计算与通信的重叠。

S3.根据DAG关系可以得出不同的参数调度策略，寻找到参数传输的最优策略；如图1所示，为本发明实施例中的简单DAG关系示意图，从图1中可以看出，有两种可能的参数调度策略。如果recv1(将参数1从参数服务器传输到worker节点)发生在recv2之前，可以增加通信与计算的重叠时间，提高计算资源使用效率；若recv2发生在recv1之前，由图1可知，op1代表的计算操作将会被阻塞，处于等待状态，增大了迭代时间。

由上述特征可知，需要根据每层参数的具体情况，包括参数量大小、DAG关系中的依赖关系，设计更细粒度的参数调度策略，从而降低计算阻塞发生的概率，改善重叠效果并缩短训练迭代时间。

S4.定义每一个op的属性

在本发明的一个实施例中，op的属性包括：

G表示为Worker节点的DAG关系；

Time(op)表示为op的执行时间；

C表示为设备上的可用通信频道；

R表示为DAG关系中recvs ops的集合；

op.dep表示为一个op能够执行的依赖项；

recvop.M+表示为对于一个存在多个依赖项的op，recvop.M+指激活该op所花费的最小通信代价。

在本发明的一个实施例中，如图3所示，为本发明实施例的更新方法流程图，每一个op的属性的更新方法包括以下步骤：

S7.优先选择优先级较高的op执行。

如图2所示，为本发明实施例的定义调度问题示意图，调度问题的目标是寻找到参数传输的最优策略，通过改善通信与计算的重叠效果来最大程度地降低迭代训练时间。

可以使用以下公式对该问题进行描述：

Pm∣Mi，prec∣Cmax

其中，Pm表示具有相同性能的多个并行资源，Mi表示将op分配给特定资源，prec描述了DAG图中各op之间的依赖关系，Cmax代表该调度问题的最终目标，即最小化最后一个节点的完成时间。

综上，可以根据DAG关系中的依赖关系对参数传输过程赋予优先级，在发送端根据优先级实现对参数传输的调度，提高通信与计算时间的重叠效果，缩短迭代训练时间。

根据考虑每个运行单元op的执行时间或不考虑每个运行单元op的执行时间，可以分为2种调度算法来描述：

调度算法一：在不考虑每个运行单元op的执行时间时，定义recv op的执行时间为1、非recv op的时间为0后，将recvop.M+作为该recv op的优先级数字，优先级数字越小，对应的参数传输优先级越高，按照优先级高低的顺序依次执行每一个recv op。

调度算法二：在考虑每个运行单元op的执行时间时，如图6所示，为本发明实施例中的调度算法二的流程图。首先将DAG关系中的所有recv op作为集合R，将变量count赋值为0，判断集合R的op数量是否为0，若为0，则说明所有recv op均已分配了优先级，调度算法结束；若不为0，按照步骤S5的属性值更新方法对DAG关系中op的属性值进行赋值；遍历集合R，即对集合R中的所有元素全部做一次处理，每次选出两个op进行比较，分别表示为op A与op B，将变量A赋值为opA.P与opB.M中的较小值，将变量B赋值为opB.P与opA.M中的较小值；对变量A与变量B的大小关系进行判断：若变量A等于变量B，则使用recv op的属性值M+对两者的优先级顺序进行判断，M+值较小的op优先级较高；若变量A不等于变量B，则比较变量A与变量B的大小关系：若A大于B，则op A的优先级较高；若A小于B，则op B的优先级较高；经过对集合R的遍历后，可以找出集合R中优先级最高的op，将变量count值作为该op的优先级数字，数字越小，op的优先级越高；分配好优先级后将该recv op从集合R中移除，然后将count值加1，继续判断集合R中recv op的数量，若数量为0，则结束算法；若不为0，则继续进行优先级分配。

但调度算法二考虑到两种情况：一是将通信与计算时间进行重叠；二是在重叠效果相同的情况下，优先考虑能够消除计算阻塞的参数传输。

情况一：如图4所示，为本发明实施例中的调度算法二情况一的示意图。

若recv A在recv B之前完成，可得：

M_B+P_B+M_A-min{P_B，M_A}+P_A

由上式可得，

情况二：如图5所示，为本发明实施例中的调度算法二情况二的示意图。

若所有的recv op均未完成，因为单独完成任何一个recv op均不能激活任何一个计算op，所以它们的op.P的属性值均为0，通过情况1中的式子无法判断op的先后顺序。

但从图中可以看出，recv A和recv B应该优先执行，所以我们使用op.M+属性进行判断：

recv_A·M⁺＝recv_B·M⁺＝Time(recv_A)+Time(recv_B)＜recv_C·M⁺＜recv_D·M⁺

所以应该优先执行recv A和recv B这两个操作。

一种分布式深度学习系统，基于上述的参数传输调度算法，如图7所示，为本发明实施例中的系统结构示意图，包括：

基础模型数据库：存放几类基础模型，供用户选择；

模型运行模块：将模型编译后进行运行处理；

时间统计数据库：存储每一个op运行时间的历史数据；

计时器：存储时间预估模块估计的每一个op的运行时间；

时间预估模块：基于op的运行状态估计执行时间；

以上所述的仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式深度学习系统中的参数传输调度算法，其特征在于，包括以下步骤：

S4.定义每一个op的属性

S7.选择优先级较高的op执行。

2.根据权利要求1所述的一种分布式深度学习系统中的参数传输调度算法，其特征在于，

在步骤S4中，定义每一个op的属性：

G表示为Worker节点的DAG关系；

Time(op)表示为op的执行时间；

C表示为设备上的可用通信频道；

R表示为DAG关系中recvsops的集合；

op.dep表示为一个op能够执行的依赖项；

3.根据权利要求2所述的一种分布式深度学习系统中的参数传输调度算法，其特征在于，

在步骤S5中，每一个op的属性的更新方法包括以下步骤：

4.根据权利要求2所述的一种分布式深度学习系统中的参数传输调度算法，其特征在于，在不考虑每个运行单元op的执行时间时，定义recv op的执行时间为1、非recv op的时间为0后，将recvop.M+作为该recv op的优先级数字，优先级数字越小，对应的参数传输优先级越高，按照优先级高低的顺序依次执行每一个recv op。

5.根据权利要求3所述的一种分布式深度学习系统中的参数传输调度算法，其特征在于，在考虑每个运行单元op的执行时间时，

遍历集合R，每次选出两个op进行比较，分别表示为opA与opB，将变量A赋值为opA.P与opB.M中的较小值，将变量B赋值为opB.P与opA.M中的较小值；

若变量A不等于变量B，则比较变量A与变量B的大小关系：若A大于B，则opA的优先级较高；若A小于B，则opB的优先级较高；

6.一种分布式深度学习系统，基于权利要求1-5任一项所述的参数传输调度算法，其特征在于，包括：

基础模型数据库：存放几类基础模型，供用户选择；

模型运行模块：将模型编译后进行运行处理；

时间统计数据库：存储每一个op运行时间的历史数据；

计时器：存储时间预估模块估计的每一个op的运行时间；

时间预估模块：基于op的运行状态估计执行时间；

排序模块：计算每一个recv op的优先级，将结果发送给优先级使能模块；