CN107018184A

CN107018184A - 分布式深度神经网络集群分组同步优化方法及系统

Info

Publication number: CN107018184A
Application number: CN201710191685.6A
Authority: CN
Inventors: 蒋文斌; 金海�; 叶阁焰; 张杨松; 马阳; 祝简; 彭晶
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-03-28
Filing date: 2017-03-28
Publication date: 2017-08-04
Anticipated expiration: 2037-03-28
Also published as: CN107018184B

Abstract

本发明公开了一种分布式深度神经网络集群分组同步优化方法及系统，其中，方法的实现包括：对集群中的节点按性能分组、训练数据按节点性能分配、同组内使用同步并行机制、不同组间使用异步并行机制和不同组间使用不同的学习率。将性能相近的节点分为一组，可以减小同步开销；性能好的节点分配更多的训练数据，可以提高其资源利用率；在同步开销小的组内使用同步并行机制，可以发挥同步并行机制收敛效果好的优点；在同步开销大的组间使用异步并行机制，可以避免同步开销；对不同分组使用不同的学习率，有利于模型收敛。本发明针对异构集群中分布式深度神经网络的参数同步过程，使用了分组同步方法，大大提高了模型的收敛速度。

Description

分布式深度神经网络集群分组同步优化方法及系统

技术领域

本发明属于深度神经网络的分布式优化技术领域，更具体地，涉及一种分布式深度神经网络集群分组同步优化方法及系统。

背景技术

目前，深度神经网络(Deep Neural Network，DNN)已经应用于图像、语音、自然语言处理等诸多领域，并取得许多突破性进展。深度神经网络由于其训练数据和训练的模型参数规模大两大原因，需要充足的计算资源和存储资源。因此，传统的单机器节点训练模式已经无法满足要求，必须采用集群等分布式计算模式。

分布式深度学习(Distributed Deep Learning)通常采用数据并行模式进行模型训练。如图1所示，数据并行是指对训练数据进行切分，每台机器节点上存储其中一份或多份切分的训练数据，并且各使用一份完整的深度神经网络模型参数同时进行训练的并行方式。为了汇总每台机器节点在每轮迭代的训练结果，通常需要部署一台或多台参数服务器，在训练过程中收集每台机器节点提交的梯度ΔW，根据公式W'＝W-η×ΔW将本地存储的模型参数更新为最新的模型参数，其中η为学习率，然后再将W'分发给机器节点进行下一轮迭代。

其中，节点提交的梯度需要根据一定的并行机制同步到参数服务器，常见的并行机制主要有同步并行和异步并行两种。在一个有n台节点的集群中，如果采用同步并行机制，节点node_i(i为节点的标号，i：1～n)完成本轮迭代并向参数服务器提交梯度后，需要等待其他节点node_m(m为节点的标号，m：1～n，m≠i)也完成本轮迭代并向参数服务器提交梯度(这个过程称为同步)，参数服务器根据每台节点的梯度ΔW_i得到平均梯度之后根据公式W'＝W-η×ΔW_avg更新本地的模型参数W，将得到的新模型参数W'分发到各台节点上，此时每台节点都使用相同的新模型W'进行下一轮迭代，如图2。如果采用异步并行机制，节点node_i向参数服务器提交梯度ΔW_i后，参数服务器马上利用该梯度更新本地模型W'＝W-η×ΔW_i，并将新模型参数W'分发给node_i，而不用等待其他节点(这个过程称为异步)，如图3。

同步并行机制由于节点在每轮迭代结束都进行参数更新的同步操作，因此下一轮迭代开始都使用相同的新模型，在模型参数的超维空间中，参数的更新方向比较一致，模型的收敛效果好，即模型的训练准确率和测试准确率高。但是节点间的同步开销比较大，一台节点在等待其他节点完成本轮迭代过程中，自身的计算资源、网络资源等都处于闲置状态，在异构集群和大规模同构集群中，这种现象尤为严重。在异构集群中，由于节点的硬件配置有较大区别，节点间存在明显的性能差异，有一部分节点运行速度快，而另一部分节点运行速度慢，因此在每轮迭代过程中，速度快的节点都需要等待速度慢的节点，造成速度快的节点资源闲置，训练的瓶颈在于速度最慢的节点；在大规模的同构集群中，虽然节点的性能相同，但由于节点数量多，集群整体的稳定性会有所降低，难免会出现一些节点性能波动的情况，同时参数服务器需要处理的请求数也大大增加，造成每轮迭代的同步开销比较大。异步并行机制由于节点在每轮迭代过程中都不用考虑其他节点的状态，消除了节点间相互等待的时间开销，因此节点的资源利用率高，其训练速度快，但是，由于没有参数更新同步操作，会有陈旧梯度问题，在模型参数的超维空间中，参数的更新方向比较波折，因此在相同的迭代次数下，其模型的收敛效果会比同步并行机制差。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种分布式深度神经网络集群分组同步优化方法及系统，通过将性能相近的节点分为一组，可以减小同步开销；性能好的节点分配更多的数据，可以提高其资源利用率；在同步开销小的组内使用同步并行机制，可以发挥同步并行机制收敛效果好的优点；在同步开销大的组间使用异步并行机制，可以避免同步开销；对不同分组使用不同的学习率，有利于模型收敛。

为实现上述目的，按照本发明的一个方面，提供了一种分布式深度神经网络集群分组同步优化方法，包括：

(1)基于集群中各机器节点的性能将集群中的n台机器节点分为N组，其中，属于同一分组的各机器节点性能相近；

(2)为各分组分配训练数据，其中，每个分组中所有机器节点的总体性能与该分组对应的训练数据量正相关，且同一分组内的各机器节点分配的训练数据量相同；

(3)为各分组分配不同的学习率，其中，各分组中的机器节点数目及各分组中所有机器节点的总体性能与分组对应的学习率正相关；

(4)在每个分组内部使用同步并行机制对分组中的训练数据进行训练；

(5)各分组之间使用异步并行机制对分组中的训练数据进行训练。

优选地，步骤(1)具体包括：

(1.1)对集群中的每台机器节点node_i，使用该机器节点node_i训练一个世代，其中，i为机器节点标号，i＝1～n，每台机器节点训练所使用的训练数据、神经网络结构和训练超参数相同；

(1.2)获取每台机器节点的训练时间t_i，根据每台机器节点的训练时间t_i将所有机器节点分为N组，其中，属于同一分组的各机器节点的训练时间相近。

优选地，步骤(2)具体包括：

对于每个分组group_j，由计算出group_j中每台机器节点分配的训练数据量百分比，其中，T_j表示group_j中训练时间最长的机器节点对应的训练时间，M_j表示group_j中机器节点的数量，j＝1～N，T_g表示group_g中训练时间最长的机器节点对应的训练时间，M_g表示group_g中机器节点的数量，j、g为分组标号。

优选地，步骤(3)具体包括：

(3.1)为每个分组初始化相同的学习率；

(3.2)在分组group_j，j＝1～N对训练数据的训练过程中调整group_j对应的学习率η_j，调整后的学习率为η_j'＝factor_j×η_j，其中，factor_j表示分组group_j对应的学习率动态调整因子，且各分组中的机器节点数目及各分组中所有机器节点的总体性能与分组对应的学习率动态调整因子正相关，η_j'是group_j的学习率η_j经过调整因子factor_j调整后的新学习率，factor_j取值范围为：0～1。

优选地，步骤(4)具体包括：

(4.1)在每个分组内部使用同步并行机制：对于每个分组group_j，j＝1～N，group_j内的机器节点在一轮迭代结束后，将该机器节点计算出的梯度提交参数服务器，同时等待group_j内其它机器节点完成本轮迭代并向参数服务器提交梯度；

(4.2)参数服务器将分组group_j内所有机器节点的梯度累加并求平均：其中，ΔW_k表示group_j中每台机器节点计算出的梯度；

(4.3)由W'＝W-η_j'×ΔW_j更新本地模型参数W，并将更新后的模型参数W'分发到group_j中的各台机器节点上，其中η_j'为group_j使用的学习率。

优选地，步骤(5)具体包括：

在不同组间使用异步并行机制：参数服务器为每个分组分配一个处理进程，每个进程只负责与该进程对应分组的模型参数更新，各进程间共享参数服务器的本地模型参数，在一轮迭代中，一个进程计算出该进程对应分组内所有机器节点的平均梯度ΔW_j后，使用ΔW_j来更新本地模型参数W，而不用等待其它分组中的机器节点提交的梯度。

按照本发明的另一方面，提供了一种分布式深度神经网络集群分组同步优化系统，包括：

分组模块，用于基于集群中各机器节点的性能将集群中的n台机器节点分为N组，其中，属于同一分组的各机器节点性能相近；

第一分配模块，用于为各分组分配训练数据，其中，每个分组中所有机器节点的总体性能与该分组对应的训练数据量正相关，且同一分组内的各机器节点分配的训练数据量相同；

第二分配模块，用于为各分组分配不同的学习率，其中，各分组中的机器节点数目及各分组中所有机器节点的总体性能与分组对应的学习率正相关；

同步训练模块，用于在每个分组内部使用同步并行机制对分组中的训练数据进行训练；

异步训练模块，用于在各分组之间使用异步并行机制对分组中的训练数据进行训练。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，主要有以下的技术优点：

(1)节点的资源利用率高：采用本发明的分组机制，同组内的节点性能相近并且节点数量比整个集群少，因此同步开销小，可以提高节点资源利用率；不同组间使用异步机制，不同性能分组的节点间不用相互等待，消除了等待开销，也提高节点的资源利用率；性能好的节点在相同时间内可以训练更多的训练数据，因此为其分配更多的训练数据可以提高其资源利用率。

(2)模型的收敛效果好：采用本发明的同组内同步并行策略，参数服务器汇总了一个分组的梯度结果，相对于异步并行机制中参数服务器收集了一台节点的梯度就更新本地模型的方式，本发明有更好的收敛效果；同时，针对不同分组使用不同学习率的策略，加大了提交梯度更有代表性的分组对模型的影响权重，减小了其他分组对模型的影响权重，降低了陈旧梯度的影响，更有利于整体模型的收敛。

附图说明

图1是分布式深度神经网络集群中数据并行模式示意图；

图2是同步并行机制示意图；

图3是异步并行机制示意图；

图4是本发明实施例中的整体流程示意图；

图5是本发明实施例中的分组策略示意图；

图6是本发明实施例中的分组同步并行机制示意图；

图7是本发明实施例中的数据分配策略示意图；

图8是本发明实施例中参数同步的整体架构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明所涉及的技术术语进行解释和说明：

训练数据：亦称输入数据，即训练神经网络时输入网络模型的处理对象，如图像、音频、文字等；

模型参数：神经网络模型中神经元相互连接的权值weight和神经元上的偏置bias；

机器节点：node，即分布式系统中用作计算的服务器节点；

数据并行：对训练数据进行切分，每台节点上存储其中一份或多份切分的训练数据，并且各使用一份完整的深度神经网络模型参数，同时进行训练的并行方式；

每轮迭代：训练神经网络模型的一轮前后向Forward-Backward计算过程；

训练结果：亦称更新信息或梯度，即模型参数经过一轮迭代后产生的更新方向的信息；

参数服务器：Parameter Server，一种负责收集模型参数的梯度，并负责更新模型参数的服务器；

学习率：调整模型参数更新步长的变量；

超维空间：数学中描述模型参数的几何空间；

训练准确率：Train Accuracy，对于给定的训练数据集，模型正确分类的样本数与总样本数之比；

测试准确率：Test Accuracy，对于给定的测试数据集，模型正确分类的样本数与总样本数之比；

异构集群：其中各台节点硬件配置不同；

同构集群：其中各台节点硬件配置相同；

训练速度：节点单位时间内可以处理的训练数据量；

世代：epoch，一次训练一个世代表示一次训练完全部的训练数据。

如图4所示是本发明实施例中的整体流程示意图，在图4所示的方法中包括：

其中，各机器节点的性能可以由节点的训练速度判定，一般情况下节点的训练速度快慢与节点的性能好坏成正比，可以将性能相同或相近的节点分为一组，共N组，如图5所示。

其中，对集群中的节点按节点性能分组具体包括：

(1.1)在使用一个节点数为n的集群进行分布式训练前，对集群中的每台机器节点node_i，使用该机器节点node_i训练一个世代，其中，i为机器节点标号，i＝1～n，每台机器节点训练所使用的训练数据、神经网络结构和训练超参数相同；

其中，训练超参数可以包括学习率、数据集批量大小等。

(1.2)获取每台机器节点的训练时间t_i，根据每台机器节点的训练时间t_i将t_i相近的机器节点分为一组，共N组。

其中，训练速度越快的分组(一个分组的训练速度等于其组内每台节点训练速度的和)分配越多的训练数据，但同一分组内的节点都分配等量训练数据，这样可以提高性能好的节点的资源利用率。数据分配策略如图7，系统架构如图8。

其中，步骤(2)中的训练数据按节点性能分配具体包括：

对于每个分组group_j，挑出每个分组group_j内节点训练时间t_i最长的节点，该节点也是该分组内性能最差的节点，使用每台性能最差节点训练一个世代所使用的时间T_j和其对应分组中节点的数量M_j，由计算出group_j内每台节点分配的训练数据量百分比D_j(D_j：0％～100％)，其中，表示group_j中性能最差节点单位时间内可训练的世代数，表示group_g所有节点按计算得出的单位时间内可训练的总世代数，表示集群中所有节点单位时间内可训练的总世代数，j、g为分组标号。

其中，参数服务器收到不同分组提交的梯度后，不再使用相同学习率来更新本地模型参数，而是针对不同的分组使用不同的学习率，即每个分组都有各自对应的学习率。对于组内节点数量多和组内节点训练速度快的两种分组赋予更大的学习率，因为组内节点数量多的分组计算出的梯度数量多，其平均结果更具有代表性；组内节点训练速度快的分组每轮迭代花的时间最少，其计算出梯度的速度最快，计算梯度所使用模型的时间戳和参数服务器最新模型的时间戳相差最小，因此模型受陈旧梯度干扰小。不同组间使用不同的学习率可以提高模型的收敛速度。

其中，不同组间使用不同的学习率，具体包括：开始训练前，每个分组都使用相同的学习率，训练过程中，每个分组的学习率会在该分组训练完一定数量训练数据后进行下降调整，这样有助于模型收敛。每个分组采用不同的学习率动态调整因子factor_j(factor_j取值范围为：0～1)，由公式η_j'＝factor_j×η_j对学习率进行调整，其中η_j'是group_j的学习率η_j经过调整因子factor_j调整后的新学习率。这样训练过程每个分组将拥有不同的学习率，组内节点数量多和组内节点训练速度快的两种分组计算出的梯度更有利于模型收敛，因此这两种分组使用更大的学习率动态调整因子值来降低这两种分组学习率的下降速度，提高模型收敛速度。

其中，在同组内使用同步并行机制，不同组间使用异步并行机制，如图6。对于同组内，由于节点的性能相近并且组内的节点数量相对整个集群少，节点间的同步开销会大大降低，在一轮迭代中，参数服务器汇总一个分组内所有节点的梯度后再更新模型参数，在相同的迭代次数下，比异步并行机制的收敛效果好；对于不同组间，由于不同组间节点的性能差异大，如果使用同步并行机制，不同组间同步开销就比较大，因此使用异步并行机制，提高不同组间节点的资源利用率，提高集群整体的训练速度。

其中，同组内使用同步并行机制具体包括：在每个分组内，使用同步并行机制，每台节点在一轮迭代结束后，将计算出的梯度提交参数服务器，此时需要等待组内的其他节点也完成本轮迭代并向参数服务器提交梯度，参数服务器将一个分组内所有节点的梯度累加并求平均得到其中ΔW_k(k:1～M_j)表示group_j中每台机器节点计算出的梯度，之后使用ΔW_j由公式：W'＝W-η_j'×ΔW_j来更新本地模型参数W，其中η_j'为group_j使用的学习率，更新完后就把新模型参数W'分发到group_j的各台节点上，该组内的节点使用相同的新模型参数W'进行下一轮迭代。

其中，不同组间使用异步并行机制具体包括：一个分组内的节点不用考虑其他分组节点的状态，即不同分组的节点不用相互等待。参数服务器为每个分组分配一个处理进程，每个进程只负责对应分组的模型参数更新，进程间共享参数服务器本地的模型参数，即不同分组共享一份模型参数。在一轮迭代中，一个进程计算出其负责的分组内所有节点的平均梯度后，使用该平均梯度来更新本地模型参数，而不用等待其他分组节点提交的梯度。

本发明的整体思路在于，对于异构集群，先将训练速度相近(即性能相近)的节点分为一组，因为节点的训练速度相近，参数同步开销小，因此同组内使用同步并行机制，同时能发挥同步并行机制收敛效果好的优点；不同的分组间训练速度差异比较大，参数的同步开销大，因此不同组间使用异步并行机制，根据不同分组的训练速度的差异，将训练数据不等量划分给每个分组，训练速度越快的分组分配的训练数据越多，在同一组内，再将训练数据等量划分给每台节点，训练过程中，不同的分组采用不同的学习率，组内节点数量多和组内节点训练速度快的两种分组计算出的梯度更具有代表性，因此相应的学习率值更大。

在本发明的另一个实施例中，公开了一种分布式深度神经网络集群分组同步优化系统，该系统包括：

其中，各模块的具体实施方式可以参照方法实施例的描述，本发明实施例将不做复述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式深度神经网络集群分组同步优化方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤(1)具体包括：

3.根据权利要求2所述的方法，其特征在于，步骤(2)具体包括：

4.根据权利要求3所述的方法，其特征在于，步骤(3)具体包括：

(3.1)为每个分组初始化相同的学习率；

5.根据权利要求4所述的方法，其特征在于，步骤(4)具体包括：

6.根据权利要求4所述的方法，其特征在于，步骤(5)具体包括：

7.一种分布式深度神经网络集群分组同步优化系统，其特征在于，包括：