CN111507474A

CN111507474A - 一种动态调整Batch-size的神经网络分布式训练方法

Info

Publication number: CN111507474A
Application number: CN202010561810.XA
Authority: CN
Inventors: 吕建成; 叶庆; 周宇浩; 刘权辉; 孙亚楠; 彭德中; 桑永胜; 彭玺
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-08-07
Anticipated expiration: 2040-06-18
Also published as: CN111507474B

Abstract

本发明公开了一种动态调整Batch‑size的神经网络分布式训练方法，涉及计算机神经网络分布式训练技术领域，该方法从处理训练数据集的角度出发，对于分布式集群中的每一计算节点，根据其计算力，动态调整Batch‑size和子数据集的划分。从而实现分布式训练集群的负载均衡处理。动态调整Batch‑size的分布式神经网络训练方法不仅可以充分利用各个计算节点的计算能力，还能保证各个计算节点完成本地数据集训练的时间大致相同，从而减少集群的同步开销，提高神经网络分布式训练效率，减少神经网络训练时间。

Description

一种动态调整Batch-size的神经网络分布式训练方法

技术领域

本发明涉及计算机神经网络分布式训练技术领域，具体而言，涉及一种动态调整Batch-size的神经网络分布式训练方法。

背景技术

在神经网络分布式训练中，各个计算节点如何共享和传递本地参数是整个分布式训练的关键环节。目前，同步机制因为实现简单且保证收敛，广泛用于神经网络的分布式训练的参数同步，具体的实现包括：梯度同步、权重同步、稀疏化梯度同步、量化梯度同步等一系列方法。以经典同步梯度(Synchronous Stochastic Gradient Descent,SSGD) 算法为例，对同步类方法进行简要介绍，不同计算节点拥有完整的模型副本和目标数据集的部分子集，在大部分算法中数据集划分采用均匀划分的方式，为了保证模型的一致性，每个节点上神经网络的训练超参数相同，例如：学习率(learning rate),数据集训练周期(Epoch-size)，一个批次的训练数据样本数(Batch-size)等。

同步方法的基本框架如图1所示，t表示参数版本，i代表节点序号。每个计算节点基于分配的子数据集对神经网络进行训练，各个节点计算得到的梯度表示为

每个节点计算完成后，

会被参数服务器(Parameter Server)同步收集，并被用于计算新的参数w^t+1。最后新参数w^t+1会分发给每个计算节点。以最为简单的梯度平均方法为例，具体实现流程如图2所示：每次迭代后，在第4步进行参数同步，第5步完成新参数的计算和分发。每次训练都同步的分布式训练方法和在单个节点进行梯度下降训练方法相当，可以保证神经网络训练的收敛性，但会带来巨大的同步，整个集群的效率受到最慢节点的限制，如图3所示。图中展示了固定Batch-size的分布式训练中，一个训练周期 (epoch)中两次同步操作示意图。集群中有三个节点，节点1计算速度最快，节点3计算速度最慢，在每次需要进行参数同步时，节点1需要等待最慢节点3训练结束后才能进行，所以集群的计算能力不均会带来每次同步的等待开销，导致大量计算力被浪费。如图3所示，每次迭代，节点1和节点2都有一段时间空闲等待。一个复杂的神经网络一般需要进行重复多次epoch训练，才能达到效果，训练周期越长，计算力耗费就越严重。

发明内容

本发明在于提供一种动态调整Batch-size的神经网络分布式训练方法，其能够缓解上述问题。

为了缓解上述的问题，本发明采取的技术方案如下：

一种动态调整Batch-size的神经网络分布式训练方法，包括以下步骤：

S1、各计算节点获取参数初始化后的神经网络；

S2、对于每一计算节点，根据其计算力，动态调整Batch-size，根据集群训练集样本和调整后的Batch-size，划分得到子数据样本集；

S3、对于每一计算节点，将其本地的子数据样本集划分为若干个训练批次样本集；

S4、对于每一计算节点，获取其一未使用过的训练批次样本集对本地神经网络进行训练，得到本地神经网络训练好的梯度；

S5、收集所有计算节点本地神经网络训练好的梯度；

S6、根据所有训练好的梯度和当前的神经网络参数，计算出新神经网络参数；

S7、将新神经网络参数分发至各计算节点，若所有计算节点的训练批次样本集均使用过，则当前epoch的神经网络分布式训练结束，跳转至步骤S8，否则跳转至步骤S4；

S8、若当前的epoch次数等于epoch size，则神经网络分布式训练结束，否则跳转至骤S2。

进一步地，所述步骤S2中，所述计算力指的是单位时间内完成训练任务的速度，计算力越强的计算节点，其得到的子数据样本集越大，计算力越弱的计算节点，其得到的子数据样本集越小。

更进一步地，所述步骤S2中，若当前epoch是第一个训练周期，则设定各计算节点的计算力相同，各计算节点的Batch-size和子数据样本集均采用均分的方式得到，若当前epoch不是第一个训练周期，则按照如下方法划分得到子数据样本集，具体为：

S21、评估计算节点的计算力；

S22、根据计算力的强弱，动态调整计算节点的Batch-size；

S23、对调整后的Batch-size取整；

S24、根据集群训练集样本以及取整后的Batch-size，动态划分得到子数据样本集。

更进一步地，所述步骤S21具体包括：

设计算节点i上一个epoch的训练时间为

子数据样本集的样本数量为

根据公式

得到计算节点i当前的计算力；

其中，i表示计算节点的编号，j表示epoch次数，1＜j≤epoch size，

表示计算节点i当前的计算力。

更进一步地，所述步骤S22具体包括：

设整个分布式训练中集群保持不变的Batch-size为B；

对于计算节点i，设其Batch-size为

占B的比例为

其下一次迭代的训练时间为T，则有

将公式2代入公式1中，得到

将T代入公式2中，则有：

根据公式

计算得到计算节点i的Batch-size。

更进一步地，所述步骤S23具体包括：

设取整后的Batch size为

则有

为满足公式4，对

向下取整，则有

实际计算出来的Batch-size和B差距表达为：

为了满足公式5，对Batch-size的集合B^j+1取小数位数值进行降序排序：

表示B^j+1的小数部分；从中选出前m个数的序号：(id₁,id₂…id_m),m≤k，将小数位的值大于0.5的

向上取整，得到取整后的 Batch-size集合：

更进一步地，所述步骤S24具体包括：

对所有计算节点的Batch-size进行归一化后，根据公式

计算各计算节点的数据样本划分比例

设集群训练集样本数量为D，则各计算节点的子数据样本数量为：

根据该数量从集群训练集样本中划分得到各计算节点的子数据样本集。

进一步地，各计算节点从集群中的调度节点获取神经网络，且通过调度节点为各计算节点划分子数据样本集，以及通过调度节点向各计算节点分发新神经网络参数。

与现有技术相比，本发明的有益效果是：从处理训练数据集的角度出发，基于计算节点的计算力，动态调节Batch-size，在在此基础上为各计算节点动态划分子数据样本集，实现集群训练集样本的负载均衡处理，不仅可以充分利用各个计算节点的计算能力，还能保证各个计算节点完成本地数据集训练的时间大致相同，从而减少同步开销，提高神经网络分布式训练效率。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举本发明实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是现有技术中的同步方法框架图；

图2是现有技术中平均梯度算法的基本流程图；

图3是现有技术中固定Batch-size的同步方法效果图；

图4是本发明实施例动态调整Batch-size的神经网络分布式训练方法流程图；

图5是本发明实施例动态调整Batch-size并划分子数据样本集的方法流程图；

图6是本发明实施例动态调整Batch-size的同步方法效果图；

图7是本发明实施例不同神经网络分布式训练方法随着训练周期的增加准确率的变化图；

图8是本发明实施例不同神经网络分布式训练方法每个epoch时间消耗对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参照图4，本实施例动态调整Batch-size的神经网络分布式训练方法，包括以下步骤：

S1、各计算节点获取参数初始化后的神经网络；

S5、收集所有计算节点本地神经网络训练好的梯度；

在本实施例的步骤S2中，所述计算力指的是单位时间内完成训练任务的速度，计算力越强的计算节点，其得到的子数据样本集越大，计算力越弱的计算节点，其得到的子数据样本集越小。

上述步骤S2中，若当前epoch是第一个训练周期，则设定各计算节点的计算力相同，各计算节点的Batch-size和子数据样本集均采用均分的方式得到，若当前epoch不是第一个训练周期，则按照如下方法划分得到子数据样本集，请参照图5，具体为：

S21、评估计算节点的计算力。

在本实施例中，采用计算节点上一个epoch的训练时间和子数据样本集的样本数量，对该计算节点当前的计算能力进行评估。

设计算节点i上一个epoch的训练时间为

子数据样本集的样本数量为

根据公式

得到计算节点i当前的计算力；

表示计算节点i当前的计算力。

S22、根据计算力的强弱，动态调整计算节点的Batch-size。

在进入下一个epoch训练前，为了保证不同计算能力的计算节点尽可能同时完成训练任务，根据节点计算能力动态调整Batch-size，即求出下一个epoch，每个计算节点的Batch-size占集群总和的比例，可以表示为:

设整个分布式训练中集群保持不变的Batch-size为B；

对于计算节点i，设其Batch-size为

占B的比例为

其下一次迭代的训练时间为T，

应满足如下条件：

将公式2代入公式1中，得到

将T代入公式2中，可以求出新的各个节点Batch-size的划分比例：

根据公式

计算得到计算节点i的Batch-size。

S23、对调整后的Batch-size取整。

很大概率为浮点数，而Batch-size表示样本数量应该为整数，所以需要对

重新进行取整，取整后的Batchsize定义

且每个计算节点的

需要满足如下条件:

为满足公式4，对

向下取整，则有

实际计算出来的Batch-size和B差距表达为：

表示B^j+1的小数部分；从中选出前m个数的序号： (id₁,id₂…id_m),m≤k，将小数位的值大于0.5的

向上取整，得到取整后的 Batch-size集合：

对Batch-size动态调整后，每个Batch的训练时间基本相同，为了保证每个epoch的训练时间也尽量相同，需要对整个数据集进行动态划分。对所有节点的Batch-size进行归一化，即可求得每个节点数据划分比例：

设集群训练集样本数量为 D，则各计算节点的子数据样本数量为：

根据该子数据样本数量从集群训练集样本中划分得到各计算节点的子数据样本集。

在本实施例中，各计算节点从集群中的调度节点获取神经网络，且通过调度节点为各计算节点划分子数据样本集，以及通过调度节点向各计算节点分发新神经网络参数。

本发明实施例在动态调整Batch-size后，神经网络分布训练的效果如图6所示，各个子节点训练时间大致相当，减少了了等待开销，提高了集群的利用率。

为了进一步验证本发明的技术效果，我们进行了对比实验。选择网络ResNet101和CIFAR10作为验证网络和数据集，本发明是一种分布式训练方法，可以用于训练任何复杂神经网络和数据集分布式训练，选择ResNet101和CIFAR10是因为他们具有代表性。在实验室环境中，我们用多线程来模拟多个计算节点。选择标准的同步算法作为基准方法作为参考，比较本专利在神经网络训练分布式训练中的准确率和时间耗费情况。整个网络的训练周期为50个epoch，即epoch-size＝50，所有节点的Batch-size总和为512。实验分别模拟了集群规模为4和8，节点计算力不等，准确率和耗时比变化和训练耗时情况分别在图7和图8进行展示。

从图7可以看出，动态的Batch-size方法不会影响神经网络训练的准确率。图8展示了两种算法在不同训练周期下的时间对比，可以看出，动态Batch-size的训练方法在完成1epoch可以节约18％的时间。根据动态Batch-size GPU训练耗时可以看出，分布式训练开始的几个epoch，不同节点因为计算能力差距较大，耗时差距较大，随着 Batch-size的动态调整，每个epoch的GPU训练耗时基本相当，意味着各个节点同时完成训练任务，不需要等待就完成了参数的同步，进一步说明本专利提出的动态Batch-size 的方法是有效的。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种动态调整Batch-size的神经网络分布式训练方法，其特征在于，包括以下步骤：

S1、各计算节点获取参数初始化后的神经网络；

S5、收集所有计算节点本地神经网络训练好的梯度；

2.根据权利要求1所述动态调整Batch-size的神经网络分布式训练方法，其特征在于，所述步骤S2中，所述计算力指的是单位时间内完成训练任务的速度，计算力越强的计算节点，其得到的子数据样本集越大，计算力越弱的计算节点，其得到的子数据样本集越小。

3.根据权利要求2所述动态调整Batch-size的神经网络分布式训练方法，其特征在于，所述步骤S2中，若当前epoch是第一个训练周期，则设定各计算节点的计算力相同，各计算节点的Batch-size和子数据样本集均采用均分的方式得到，若当前epoch不是第一个训练周期，则按照如下方法划分得到子数据样本集，具体为：

S21、评估计算节点的计算力；

S22、根据计算力的强弱，动态调整计算节点的Batch-size；

S23、对调整后的Batch-size取整；

4.根据权利要求3所述动态调整Batch-size的神经网络分布式训练方法，其特征在于，所述步骤S21具体包括：

设计算节点i上一个epoch的训练时间为