CN112862088A

CN112862088A - 一种基于流水线环形参数通信的分布式深度学习方法

Info

Publication number: CN112862088A
Application number: CN202110063425.7A
Authority: CN
Inventors: 谢俊豪; 杜云飞; 卢宇彤; 钟康游; 郭贵鑫
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-05-28
Anticipated expiration: 2041-01-18
Also published as: CN112862088B

Abstract

本发明为克服集群训练速度低、训练时间开销大的缺陷，提出一种基于流水线环形参数通信的分布式深度学习方法，包括以下步骤：获取训练模型，采用所述训练模型对集群中的计算节点进行初始化；采用流水线随机梯度下降法对集群中的计算节点进行分布式训练，执行训练模型更新、梯度计算，且期间并行执行梯度通信；当节点在本地上完成第i轮梯度计算后，对梯度数据进行压缩，然后启动通信线程执行环形AllReduce操作，同时启动第i+1轮迭代训练，至完成迭代训练。本发明采用环形AllReduce算法，通过环形通信来避免像参数服务器框架服务器节点的通信拥堵问题，通过本地流水线并行重叠计算与通信，减少时间消耗。

Description

一种基于流水线环形参数通信的分布式深度学习方法

技术领域

本发明涉及深度学习技术领域，更具体地，涉及一种基于流水线环形参数通信的分布式深度学习方法。

背景技术

在多台机器上进行集群并行化计算的分布式深度学习逐步成为技术创新和发展的焦点。分布式深度学习需要频繁的通信和大量数据的交换，而网络接口的带宽有限，导致神经网络训练的大部分时间用于数据传递，如果使用GPU进行加速，由于计算时间减少而通信量不变，通信消耗所占的时间比例将进一步增加，这成为制约并行化发展的瓶颈。

对于模型训练加速问题，目前主要有2种解决方式：一种是通过等价数学变换、稀疏量化、低精度训练方法降低计算的复杂度；另一种是组合若干个计算节点的资源，实现可扩展的模型存储与训练加速，最大化计算硬件的利用率，代表性的工作有参数服务器理论与All-Reduce算法。All-Reduce是一种将所有process 中的目标数组(即表示All)，减少为单个数组(即表示Reduce)并将结果数组返回给所有process的操作。一般的分布式AllReduce算法是利用一个机器去收集各节点的梯度数据，然后将更新后的梯度发回各节点，然而这种方法存在梯度收集节点的通信时间随着集群节点数的增长而线性增长的缺陷，存在计算时间长、集群训练速度低的问题。

发明内容

本发明为克服上述现有技术所述的集群训练速度低、训练时间开销大的缺陷，提供一种基于流水线环形参数通信的分布式深度学习方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于流水线环形参数通信的分布式深度学习方法，包括以下步骤：

获取训练模型，采用所述训练模型对集群中的计算节点进行初始化；

采用流水线随机梯度下降法对集群中的计算节点进行分布式训练，执行训练模型更新、梯度计算，且期间并行执行梯度通信；

当节点在本地上完成第i轮梯度计算后，对梯度数据进行压缩，然后启动通信线程执行环形AllReduce操作，同时启动第i+1轮迭代训练，至完成迭代训练。

作为优选方案，所述集群中的每个计算节点定义有两个标记数组

和

以及一个模型状态存储数组m；其中标记数组

标记对应迭代轮的本地梯度计算是否完成，标记数组

标记对应迭代轮的集群梯度更新是否完成。

作为优选方案，还包括以下步骤：设置流水线依赖值P，根据流水线依赖值 P采用流水线随机梯度下降法对集群中的计算节点进行分布式训练；在进行训练模型更新过程中，第i轮迭代的模型更新仅依赖于第i-P轮迭代的计算结果。

作为优选方案，对集群中的计算节点执行训练模型更新、梯度计算的步骤包括：

对集群中的计算节点执行第i轮迭代训练时：

当i＝1或2时，则直接对模型进行更新；

当i>2时，检测标记数组

若标志为真，则用第i-P轮迭代的参数更新结果对模型进行更新，将更新后的模型存储在本地为m[i]，且完成梯度计算后，对更新后的梯度数据进行压缩，并将标记数组

的值置为真；若标志为假，则等待所依赖迭代轮参数更新的完成。

作为优选方案，完成梯度计算后，对更新后的梯度数据进行截断式有损压缩。

作为优选方案，所述截断式有损压缩的具体步骤包括将通信数据由32bit截断至16bit。

作为优选方案，并行执行梯度通信的步骤包括：

对集群中的计算节点执行第i轮迭代训练时：

检测标记数组

若标志为真，则启动梯度通信线程，执行环形 AllReduce操作，对各节点的梯度数据相加取平均值，解压缩更新后的梯度数据，将其保存在本地，并将标记数组

的值置为真；同时启动i+1轮迭代训练，形成流水线并行，至完成迭代训练；若标志为假，则等待对应迭代轮的本地梯度完成计算。

作为优选方案，执行环形AllReduce操作的具体步骤包括：

(1)数据分散：将集群作为一个有向环形拓扑结构，将通信数据分为n块，并从0开始进行编号；执行第i轮数据分散时，节点j沿着环形拓扑结构将本地的(j-i+n)％n号数据块发送到下一节点，接收来自上一节点的(j-i-1+n)％n号数据块，节点将接收到的数据块与本地对应的数据块相加；执行n-1次数据分散后，每个节点都拥有其中一块的完整数据；

(2)数据集中：在第i轮数据集中时，节点j沿着环形拓扑结构将本地的 (j-i-1+n)％n号完整数据块发送到下一个节点，同时接收来自上一个节点的 (j-i+n)％n号完整数据块，节点用接收到的数据块替换本地对应的数据块；完成n-1次集中后，每个节点将拥有所有块的完整数据。

作为优选方案，采用顺序梯度通信方式执行环形AllReduce操作。

作为优选方案，所述集群中的每个计算节点定义有迭代次数K。

与现有技术相比，本发明技术方案的有益效果是：本发明采用环形AllReduce 算法，通过环形通信来避免像参数服务器框架服务器节点的通信拥堵问题，通过本地流水线并行重叠计算与通信，减少时间消耗；通过采用流水线随机梯度下降法控制参数的过时程度，避免参数过时影响模型的训练和收敛，此外还通过截断式有损压缩减少通信量，进一步缩短通信时间。

附图说明

图1为基于流水线环形参数通信的分布式深度学习方法的流程图。

图2为基于流水线环形参数通信的分布式深度学习方法的伪代码示意图。

图3为流水线随机梯度下降训练方法的原理图。

图4为环形AllReduce算法的原理图。

图5为环形AllReduce算法通信方式的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提出一种基于流水线环形参数通信的分布式深度学习方法，如图 1～2所示，为本实施例的基于流水线环形参数通信的分布式深度学习方法的流程图。

本实施例提出的基于流水线环形参数通信的分布式深度学习方法中，包括以下步骤：

S1：获取训练模型，采用所述训练模型对集群中的计算节点进行初始化。

在模型开始训练前，采用存储在本地的训练模型对集群中的计算节点进行初始化，同时为每个节点定义相同的损失函数l、优化器A、迭代次数K和流水线依赖值P等模型训练相关参数；对集群中的每个计算节点定义有两个标记数组

和

以及一个模型状态存储数组m；其中标记数组

标记对应迭代轮的本地梯度计算是否完成，标记数组

标记对应迭代轮的集群梯度更新是否完成。

S2：采用流水线随机梯度下降法对集群中的计算节点进行分布式训练，执行训练模型更新、梯度计算，且期间并行执行梯度通信；当节点在本地上完成第i 轮梯度计算后，对梯度数据进行压缩，然后启动通信线程执行环形AllReduce操作，同时启动第i+1轮迭代训练，至完成迭代训练。

其中，根据流水线依赖值P对集群中的计算节点执行训练模型更新、梯度计算，其具体步骤如下：

对集群中的计算节点执行第i轮迭代训练时：

当i＝1或2时，则直接对模型进行更新；

当i>2时，检测标记数组

完成梯度计算后，对更新后的梯度数据进行截断式有损压缩。在本实施例中，截断式有损压缩的具体步骤包括将通信数据由32bit截断至16bit。

本实施例中，在执行训练模型更新、梯度计算的期间并行执行梯度通信，其具体步骤如下：

对集群中的计算节点执行第i轮迭代训练时：

检测标记数组

本实施例中，采用顺序梯度通信方式执行环形AllReduce操作，其具体步骤如下：

本实施例中采用流水线随机梯度下降(SGD)训练方法用于集群节点的本地训练，是一种模型训练和集群通信并行的训练方法，在分布式训练中，模型的每次迭代可以分为三步，分别是模型更新，梯度计算和梯度通信。传统顺序SGD 的训练时间等于每次迭代所有步骤消耗时间的总和，这样的训练时间显然不理想。而流水线SGD方法通过模型更新和梯度计算与梯度通信的适当并行，以适度的梯度过时为代价来加速模型的训练。流水线SGD法提出流水线依赖值P，流水线依赖值P表示第i轮迭代的模型更新仅仅依赖于第i-P轮迭代的计算结果，以此来重叠计算和通信的时间，即第i轮的参数通信与第i+1轮的计算并行，其原理图如图3所示。本实施例通过设置流水线依赖值控制参数的过时程度，避免参数过时影响模型的训练和收敛,此外还通过截断式有损压缩减少通信量，进一步缩短通信时间。

采用流水线依赖值为p的流水线SGD的训练时间为：

而采用传统的顺序SGD的训练时间为：

T_同步SGD＝K·(t_更新+t_计算+t_通信)

其中，K表示迭代次数，t_更新、t_计算、t_通信分别表示模型更新、梯度计算和梯度通信的时间。显然，采用本实施例提出的流水线SGD法能够有效减分布式深度学习的少总训练时间，且在集群范围内仍保持同步更新。

本实施例提出的环形AllReduce在整个集群上进行梯度收集，然后每个节点在本地上进行reduce更新操作。与一般的分布式AllReduce方法相比，环形 AllReduce的核心在于取消了Reducer数据节点，让数据在集群中环向流动，可以充分利用每个节点的带宽，平衡通信，避免猝发式网络拥堵问题。其原理图如图4所示。其中，环形AllReduce中的数据分散操作如(a)～(c)所示，数据集中操作如(c)～(e)所示。

此外，考虑到环形AllReduce算法的通信次数较多，采用传统的梯度通信方法，即每完成一部分参数的梯度计算就立刻进行通信，存在通信开销大的问题。本实施例采用顺序梯度通信方式，如图5所示，依次经过前向传播和反向传播完成梯度计算后再按顺序进行参数通信。

构建时间模型对通信开销进行分析其中需要考虑：每次迭代训练的时间取决于本地更新计算和通信时间的大小关系；每次通信都存在网络延迟；数据分散步骤中节点对梯度的reduce操作的时间；网络传输速度和每次迭代集群的同步时间。结合时间模型分析，采用传统的梯度通信方法的时间开销为：

采用顺序梯度通信方式的时间开销为：

其中，K为迭代次数，2(n-1)·p为集群通信次数，n为集群节点数，p为反向传播过程中切分的参数块数，l₁为通信的网络延迟，s为模型大小(即梯度参数的数据量)，l₂为网络传输速率，l₃为数据分散阶段的reduce速度，t_同步为每次迭代集群的同步时间。显然，在通信资源首先和通信主导训练时间的情况下，采用顺序梯度通信方式的时间开销小于传统的梯度通信方法。

在环形AllReduce算法中，每次的梯度更新，都需要进行2(n-1)次通信，其中n为集群大小。而在数据分散阶段，节点在进行数据通信的同时要进行reduce 操作。

一般情况下，通信的时间花费大于reduce操作，因而通信时间可以隐藏reduce时间。当采用简单压缩(通常为有损压缩)时，通信时间将变短而reduce 时间变长(加入压缩和解压缩步骤)，在确保reduce时间不会过长的情况下，通信和reduce所花费的总时间将减少，有利于加速模型的训练，因此本实施例提出采用截断式有损压缩方法，将通信数据由32bit截断至16bit，其中虽然存在精度损失，但在大部分训练场景下，后16bit的数据几乎都是0，这种损失对模型收敛的影响较小，且其带来的训练加速效果大于精度损失的代价，模型的收敛速度更快。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。