CN109902818A

CN109902818A - 一种面向深度学习训练任务的分布式加速方法及系统

Info

Publication number: CN109902818A
Application number: CN201910035752.4A
Authority: CN
Inventors: 刘万涛; 郭锦荣; 虎嵩林; 韩冀中
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2019-06-18
Anticipated expiration: 2039-01-15
Also published as: CN109902818B

Abstract

本发明涉及一种面向深度学习训练任务的分布式加速方法及系统。该方法的步骤包括：(1)搭建分布式GPU训练集群；(2)采用换入换出策略，调节分布式GPU训练集群中单个GPU工作节点上的minibatch size；(3)根据步骤2)确定的minibatch size调整学习率；(4)采用步骤(2)和(3)确定的超参数minibatch size和学习率进行深度学习训练。本发明在不影响训练准确率的前提下，简单高效地通过减少集群间参数更新通信的次数大幅度地压缩通信时间，相较于单GPU模式，在多GPU模式下能够充分提高集群扩展效率，对超深神经网络模型的训练过程实现加速。

Description

一种面向深度学习训练任务的分布式加速方法及系统

技术领域

本发明属于深度学习领域，具体地说是针对分布式GPU集群训练超深神经网络模型过程中存在的集群扩展效率低、训练慢的问题，提出了一种加速方法，减少训练所需时间。

背景技术

近几年来，大数据驱动的深度学习技术在人工智能的多个领域均取得了可观的性能提升，神经网络模型越来越深，数据规模越来越大已成为目前的基本趋势。复杂的网络模型往往需要更多的训练数据才可获得优秀的泛化能力，然而，训练深模型大数据这样的组合却有着极大的挑战。深度学习训练任务属于典型的计算密集型任务，因此常采用分布式GPU(Graphics Processing Unit-图形处理器)集群进行训练。集群中分别运行两种任务：1)所有服务器的CPU(Central Processing Unit，中央处理器)端构成分布式参数服务器，参数在各个服务器上分片存储，参数服务器负责保存以及更新网络模型参数；2)每个GPU作为独立的工作节点，输入训练数据计算求取参数的更新梯度值。一次迭代的基本流程是：1)所有工作节点从参数服务器端拉取最新模型参数；2)所有工作节点对分发到自己节点的数据进行前向反向计算求的参数梯度值；3)所有工作节点将自己求得的参数梯度值发送给参数服务器，参数服务器汇总所有工作节点的结果，然后更新参数值。

分布式训练的理想扩展效率应正比于GPU工作节点的个数，然而，在实际训练过程中却常达不到理想效率，甚至比单个GPU训练更慢，这主要是由于集群间的通信造成的。上述迭代过程中的步骤1)和3)由于参数更新均发生集群间通信，对于超深神经网络结构，模型参数更多，通信量更大，此外，如果集群越大，则通信结构越复杂，两者都会造成通信时间变长甚至抵消多GPU并行节省的计算时间。因此，有效解决分布式训练过程中的通信问题对于提高集群扩展效率最终实现加速有重要意义。

深度学习的训练过程是一个不断重复迭代的过程，每次迭代都会重复上述的3个步骤，因此减轻通信负载有两种途径，分别是减少每次迭代的通信量和减少迭代的次数(即通信次数)。已有的技术大多集中于第一种途径，通过量化、稀疏化梯度的方式对发送的梯度进行压缩处理，达到减少单次通信量的目的，但该方法在大多数情况下会降低最终训练准确率。因此，本发明致力于第二种途径，深度学习任务训练的样本数是通常固定的，若每次迭代每个工作节点可处理的minibatch size增大，则整体迭代次数会降低，即达到减少通信次数的目标。

发明内容

鉴于以上所述现有技术存在的问题和不足，本发明要解决的技术问题是提供一种面向深度学习训练任务的分布式加速方法及系统，该方法通过减少通信次数来降低分布式通信时间开销，对整个训练任务实现加速并保证最终训练准确率。

为解决上述问题，本发明采用下述技术方案：

一种面向深度学习训练任务的分布式加速方法，其具体步骤如下：

(1)、搭建分布式GPU训练集群，包括：划分参数服务器和工作节点、确定通信架构；

(2)、采用换入换出策略，调节单个GPU工作节点上的minibatch size；

(3)、根据minibatch size调整学习率；

(4)、采用步骤(2)和(3)确定的超参数minibatch size和学习率开始训练直至结束。

其中，minibatch size是小批量尺寸，是指每次训练一起处理的样本数；学习率是运用梯度下降算法进行优化时，权重的更新规则中，在梯度项前相乘的一个系数。

上述步骤(1)中所述的搭建分布式GPU训练集群，其具体步骤如下：

(1-1)、构建参数服务器保存和更新模型参数，集群中所有服务器的CPU端集体构成参数服务器，所有模型参数均匀地分片存储在各个CPU端内存中，参数更新由CPU完成，对外暴露推送和拉取两种操作以供工作节点调用，推送操作指的是参数服务器接收工作节点发送来的梯度，拉取操作指的是参数服务器向工作节点发送更新后的参数；

(1-2)、构建工作节点执行运算操作，多节点间采用数据并行模式，每个GPU节点上均保留完整的模型，不同节点同一时间处理不同的训练数据，一个iteration(迭代)计算结束后，所有节点同时向参数服务器调用推送接口发送参数，待参数服务器更新参数后，再调用拉取接口将最新的参数拉取到本地替换旧参数；

(1-3)、确定通信框架，总体结构为同一服务器上挂载的多个GPU卡与本机CPU端构成星型拓扑进行局部通信，多服务器之间采用点对点socket全局通信，发送梯度时，各服务器上的多GPU工作节点将各自的梯度通过PCIe总线传输汇总至CPU端，CPU端随后将本机汇总的梯度值通过查找对应参数分片位置发送至对应的服务器，相应地，GPU工作节点接收新参数时数据按照与发送相反的方向传输。

上述步骤(2)中所述的采用换入换出策略调整minibatch size，其具体步骤如下：

(2-1)、换入换出策略使用的是由作者Minsoo Rhu发表的题为《vDNN:VirtualizedDeep Neural Networks for Scalable memory efficient neural network design》中的方法，将训练过程中的所有不参与当前GPU计算的数据全部换出到CPU内存中存储，当再次需要被GPU计算访问时，再换回到GPU内存，换入换出操作由PCIe总线通信完成；

(2-2)、确定minibatch size，采用换入换出策略后，训练过程所需的GPU内存从网络级减小为层级，可通过遍历求出当前训练网络所有层中需内存空间最大的层，然后用GPU内存大小除以该最大层相关数据大小便可得出可训练的最大minibatch size。

上述步骤(3)中所述的调整学习率，其具体步骤如下：

为了不影响最后训练准确率，学习率应随着minibatch size自适应地按比例调整，一个iteration的整体minibatch size等于单个GPU工作节点的minibatch size乘以集群中所有GPU的个数，相应地，分布式集群训练的最佳学习率设定为单机模式的学习率乘以集群中的GPU个数，整体minibatch size增加多少倍，学习率同样增加相同的倍数。

与上面方法对应地，本发明还提供一种面向深度学习训练任务的分布式加速系统，其包括：

分布式GPU训练集群，包括用于保存和更新模型参数的参数服务器，以及用于执行运算操作的工作节点；

minibatch size调节模块，负责采用换入换出策略，调节分布式GPU训练集群中单个GPU工作节点上的minibatch size；

学习率调整模块，负责根据所述minibatch size调节模块确定的minibatch size调整学习率；

训练模块，负责采用所述minibatch size调节模块和所述学习率调整模块确定的超参数minibatch size和学习率进行深度学习训练。

本发明的面向深度学习训练任务的分布式加速方法与现有的技术相比较，具有以下有益效果：该方法在不影响训练准确率的前提下，简单高效地通过减少集群间参数更新通信的次数大幅度地压缩通信时间，相较于单GPU模式，在多GPU模式下充分提高集群扩展效率，对超深神经网络模型的训练过程实现加速。

附图说明

图1为本发明的一种面向深度学习训练任务的分布式加速方法的流程；

图2为步骤(1)中搭建的分布式GPU训练集群；

具体实施方式

下面将结合附图和具体实施例对本发明做进一步的说明。

参照图1，本实施例提供一种面向深度学习训练任务的分布式加速方法，该方法包括如下步骤：

(1)、搭建分布式GPU训练集群，包括：划分参数服务器和工作节点、确定通信架构，参照图2，其具体步骤如下：

(1-1)、构建参数服务器保存和更新模型参数，集群中所有服务器的CPU端集体构成参数服务器，所有模型参数均匀地分片存储在各个CPU端内存中，参数更新有CPU完成，对外暴露推送和拉取两种操作以供工作节点调用，推送操作指的是参数服务器接收工作节点发送来的梯度，拉取操作指的是参数服务器向工作节点发送更新后的参数；

(1-2)、构建工作节点执行运算操作，多节点间采用数据并行模式，每个GPU节点上均保留完整的模型，不同节点同一时间处理不同的训练数据，一个iteration计算结束后，所有节点同时向参数服务器调用推送接口发送参数，待参数服务器更新参数后，再调用拉取接口将最新的参数拉取到本地替换旧参数；

(2)、采用换入换出策略，调节单个GPU工作节点上的minibatch size，其具体步骤如下：

(3)、根据minibatch size调整学习率，其具体步骤如下：

为了不影响最后训练准确率，学习率应随着minibatch size自适应地调整，一个iteration的整体minibatch size等于单个GPU工作节点的minibatch size乘以集群中所有GPU的个数，相应地，分布式集群训练的最佳学习率设定为单机模式的学习率乘以集群中的GPU个数，学习率与整体minibatch size成线性缩放关系。

实验数据：实验环境采用8块NVIDIA Tesla M40GPU卡，分别在8台服务器上。采用ImageNet数据集，训练Resnet-101网络，实验结果如表1所示，本发明的方法可实现7.2倍的加速，超过Caffe的4.6的加速效果。

表1.实验结果

本发明另一实施例提供一种面向深度学习训练任务的分布式加速系统，其包括：

上述各模块的具体实现方式参见前文对本发明方法的说明。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种面向深度学习训练任务的分布式加速方法，其特征在于，包括以下步骤：

(1)搭建分布式GPU训练集群；

(2)采用换入换出策略，调节分布式GPU训练集群中单个GPU工作节点上的minibatchsize；

(3)根据步骤2)确定的minibatch size调整学习率；

(4)采用步骤(2)和(3)确定的超参数minibatch size和学习率进行深度学习训练。

2.根据权利要求1所述的方法，其特征在于，步骤(1)包括：

(1-1)构建参数服务器，用于保存和更新模型参数；

(1-2)构建工作节点，用于执行运算操作；

(1-3)确定参数服务器和工作节点的通信框架。

3.根据权利要求2所述的方法，其特征在于，步骤(1-1)中所有服务器的CPU端集体构成参数服务器，所有模型参数均匀地分片存储在各个CPU端内存中，参数更新由CPU完成，对外暴露推送和拉取两种操作以供工作节点调用。

4.根据权利要求2所述的方法，其特征在于，步骤(1-2)中多节点间采用数据并行模式，每个GPU节点上均保留完整的模型，不同节点同一时间处理不同的训练数据，一个迭代计算结束后，所有节点同时向参数服务器调用推送接口发送参数，待参数服务器更新参数后，再调用拉取接口将最新的参数拉取到本地替换旧参数。

5.根据权利要求2所述的方法，其特征在于，步骤(1-3)所述通信框架为：同一服务器上挂载的多个GPU卡与本机CPU端构成星型拓扑进行局部通信，多服务器之间采用点对点socket全局通信；发送梯度时，各服务器上的多GPU工作节点将各自的梯度通过PCIe总线传输汇总至CPU端，CPU端随后将本机汇总的梯度值通过查找对应参数分片位置发送至对应的服务器，GPU工作节点接收新参数时数据按照与发送相反的方向传输。

6.根据权利要求1所述的方法，其特征在于，步骤(2)所述换入换出策略将训练过程中的所有不参与当前GPU计算的数据全部换出到CPU内存中存储，当再次需要被GPU计算访问时，再换回到GPU内存，换入换出操作由PCIe总线通信完成。

7.根据权利要求6所述的方法，其特征在于，步骤(2)采用换入换出策略后，训练过程所需的GPU内存从网络级减小为层级，通过遍历求出当前训练网络所有层中需内存空间最大的层，然后用GPU内存大小除以该最大层相关数据大小，得出可训练的最大minibatchsize。

8.根据权利要求1所述的方法，其特征在于，步骤(3)中，学习率随着minibatch size自适应地按比例调整，一个迭代的整体minibatch size等于单个GPU工作节点的minibatchsize乘以集群中所有GPU的个数，分布式集群训练的最佳学习率设定为单机模式的学习率乘以集群中的GPU个数，整体minibatch size增加多少倍，学习率同样增加相同的倍数。

9.一种面向深度学习训练任务的分布式加速系统，其特征在于，包括：

10.根据权利要求9所述的系统，其特征在于，所述分布式GPU训练集群中，所有服务器的CPU端集体构成参数服务器，所有模型参数均匀地分片存储在各个CPU端内存中，参数更新由CPU完成，对外暴露推送和拉取两种操作以供工作节点调用；多节点间采用数据并行模式，每个GPU节点上均保留完整的模型，不同节点同一时间处理不同的训练数据，一个迭代计算结束后，所有节点同时向参数服务器调用推送接口发送参数，待参数服务器更新参数后，再调用拉取接口将最新的参数拉取到本地替换旧参数。