CN111582494A

CN111582494A - 一种基于延迟处理的混合分布式机器学习更新方法

Info

Publication number: CN111582494A
Application number: CN202010304796.5A
Authority: CN
Inventors: 孙勇; 胡冰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-25
Anticipated expiration: 2040-04-17
Also published as: CN111582494B

Abstract

本发明公开了一种基于延迟处理的混合分布式机器学习更新方法。根据分布式集群中节点负载不均衡的情况构建分层通信拓扑结构；根据分层通信拓扑结构采用同步更新方法与异步更新方法相结合的混合分布式机器学习更新方法，组内相近的工作节点采用同步更新方法进行训练，各组间不相近的工作节点采用异步更新方法进行训练；所述的异步更新方法采用基于延迟处理的异步更新方法。本发明能够结合同步更新方法和异步更新方法，取长补短，能更好地达到收敛速度和收敛精度的平衡，具有较大的应用价值。

Description

一种基于延迟处理的混合分布式机器学习更新方法

技术领域

本发明设计分布式机器学习系统及更新方法，尤其是设计异步更新方法的一种基于延迟处理的混合分布式机器学习更新方法；

背景技术

分布式机器学习更新方法大致可以分为同步更新方法和异步更新方法两类：同步更新方法要求在每次迭代过程中执行同步等待至集群中所有的训练节点都完成训练任务后再进行下一次迭代，同步更新方法可以有效地保证各个训练节点的参数一致性并提供较好的收敛性能，但整个集群的训练速度受制于计算性能最慢的训练节点，训练节点出现宕机可能会导致这个训练任务的失败，集群的训练效率往往不高。异步更新方法取消强制同步等待过程，训练节点并行执行计算任务并通过服务器节点实现全局参数的维护和更新，大大提升训练速度和容灾能力，但存在使用过去某时刻的计算结果更新全局参数的梯度延迟问题，往往需要更多次迭代才能收敛，甚至无法收敛。

发明内容

为了解决背景技术中存在的问题，本发明提出了一种基于延迟处理的混合分布式机器学习更新方法。本发明能够结合同步更新方法和异步更新方法，取长补短，能更好地达到收敛速度和收敛精度的平衡，具有较大的应用价值。

本发明采用的技术方案包括以下步骤：

1)根据分布式集群中节点负载不均衡的情况构建分层通信拓扑结构；

所述的分布式集群是指由众多服务器拓扑连接构成的分布式集群，其中的节点包括服务器节点和工作节点，服务器节点和工作节点相互连接通信，机器学习模型均存储在服务器节点和工作节点中并分布式计算运行，且机器学习模型在分布式集群的各个节点中采用随机梯度下降更新方法优化训练学习；

2)根据分层通信拓扑结构采用同步更新方法与异步更新方法相结合的混合分布式机器学习更新方法，组内相近的工作节点采用同步更新方法进行训练，各组间不相近的工作节点采用异步更新方法进行训练；

所述的异步更新方法采用基于延迟处理的异步更新方法，为改进的异步更新方法。

所述的服务器节点用于保存有机器学习模型结构和参数以及计算机器学习模型的权重参数，工作节点用于保存有机器学习模型结构和参数以及计算机器学习模型的中间梯度参数。

所述的步骤1)中，如图1所示，根据分布式集群中节点负载不均衡的情况，对所有工作节点按照与服务器节点的通信代价进行聚类分组，从而将与服务器节点的通信代价相近的工作节点聚类为一组，每一组内随机选择任意一节点作为中间节点，每组内所有工作节点产生的计算结果聚集存储到中间节点，并且不同组间的各个中间节点的计算结果同时聚集存储到服务器节点。

中间节点作为服务器节点和工作节点以外的其他节点，存储机器学习模型的中间梯度参数。

所述的聚集存储是进行求和后取平均值并存储平均值的操作。

机器学习模型在分布式集群的各个节点中采用随机梯度下降更新方法优化训练学习

所述的步骤2)中，具体为：

针对聚类分组后的每一组，组内所有工作节点在随机梯度下降更新方法的当前次迭代过程计算出的梯度聚集存储到同一服务器节点，同时也存储到中间节点，服务器节点根据梯度更新权重参数，在随机梯度下降更新方法的下次迭代过程时从服务器节点将更新后的权重参数发送到组内各个工作节点，再由组内各个工作节点利用随机梯度下降更新方法更新计算下次迭代的梯度；

针对聚类分组后的不同组，每个组内所有工作节点在随机梯度下降更新方法的当前次迭代过程计算出的梯度聚集存储到各自组的中间节点，各个中间节点将存储的梯度发送到同一服务器节点根据梯度更新权重参数，在随机梯度下降更新方法的下次迭代过程时从服务器节点将更新后的权重参数发送到各个中间节点，再由中间节点分发到自身组内的其余各个工作节点再利用随机梯度下降更新方法更新计算下次迭代的梯度。

这样，组内相近的工作节点采用同步更新方法进行训练，各组间不相近的工作节点采用异步更新方法进行训练。

在采用同步更新方法训练处理时，每次迭代过程必须等待所有工作节点全部完成计算，将计算结果聚集存储到中间节点才进行下一次迭代；在采用同步更新方法训练处理时，由中间节点异步并行地将计算结果聚集存储到服务器节点。

所述的步骤2)中，基于延迟处理的异步更新方法具体为：

1)中间节点中采用随机梯度下降更新方法根据上次迭代获得的更新后的机器学习模型的权重参数，计算获得未延迟处理的梯度更新值g(w_t)为：

w_t+1＝w_t-ηg(w_t)

其中，w_t为第t次迭代时中间节点处的机器学习模型的权重参数，η为学习速率，g(w_t)为第t次迭代时权重参数w_t计算得到的梯度更新值；

2)将未延迟处理的梯度更新值g(w_t)在w_t处做泰勒展开获得基于延迟处理的梯度更新值g(w_t+τ)：

其中，

为机器学习模型的损失函数关于参数w_t的黑塞矩阵；o()表示佩亚诺余项，I_n表示元素为1的n维向量；W_t+τ为第t+τ次迭代时服务器节点处比中间节点多更新τ次的机器学习模型的权重参数；服务器节点比工作节点、中间节点之间不是同步计算的，存在迭代次数差，τ表示服务器节点比中间节点之间的迭代次数之差；

所述的黑塞矩阵

采用以下公式计算获得，以黑塞矩阵的对角元素近似表示黑塞矩阵，降低运算和存储复杂度的同时保持算法精度：

其中，λ为调节方差和偏差的参数，λ＝(0,1]，以降低近似方差；⊙表示哈达玛乘积(element-wise product)；

3)服务器节点中，采用异步随机梯度下降更新方法根据中间节点发送过来的基于延迟处理的梯度更新值g(w_t+τ)计算更新后的机器学习模型的权重参数为：

W_t+τ+1＝W_t+τ-ηg(w_t+τ)

其中，W_t+τ为第t+τ次迭代时服务器节点处比中间节点多更新τ次的机器学习模型的权重参数；服务器节点比工作节点、中间节点之间不是同步计算的，存在迭代次数差，τ表示服务器节点比中间节点之间的迭代次数之差；

最终根据基于延迟处理的异步更新方法计算最终更新后的机器学习模型的权重参数为：

W_t+τ+1＝W_t+τ-η(g(w_t)+λg(w_t)⊙g(w_t)⊙(w_t-W_t+τ))

具体实施中的机器学习模型采用卷积神经网络。

本发明根据与服务器节点的通信代价将分布式集群中的工作节点聚类分组，同组工作节点采用同步更新方法将计算结果聚合到中间节点，组间采用异步更新方法，构建了分层通信拓扑结构。同时对异步更新方法进行改进，添加延迟处理削弱梯度延迟对收敛精度的影响。

本发明的有益效果是：

本发明将同步更新方法和异步更新方法融合起来使用，优势互补，考虑到集群计算能力与通信性能的不均衡场景，采用分层训练结构，性能相近的训练节点归为一组进行同步训练，组间则进行基于延迟处理的异步训练，以有效减少梯度延迟带来的异步训练收敛性能损失，可以更好地实现训练速度和收敛性能间的平衡。

附图说明

图1是本发明系统结构示意图。

图2是实施例中分布式机器学习物理实验环境示意图。

图3是实施例中分布式机器学习实验环境对应的系统结构示意图。

表1是实施例中使用Mxnet深度学习框架在数据集Imagenet数据集上训练Resnet50模型的实验结果。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明的实施例及其实施过程如下：

为了证实本发明方法在分布式机器学习应用的有效性，使用实验进行验证：

如图2所示分布式集群由两台服务器组成，服务器间通过ssh进行相互通信，每台服务器有2块Tesla P40 GPU，整个分布式集群中有4个工作节点和1个服务器节点，其中服务器节点和工作节点1、工作节点2位于服务器1，工作节点3和工作节点4位于服务器2，分布式集群使用Mxnet深度学习框架在数据集Imagenet数据集上训练Resnet50模型。

根据分布式集群中节点负载不均衡的情况，对所有工作节点按照与服务器节点的通信代价进行聚类分组，工作节点3、工作节点4与服务器节点需进行跨服务器通信，通信代价更大，故如图3所示，将工作节点1与工作节点2分为一组其中选择工作节点1作为中间节点，工作节点3与工作节点4分为一组其中选择工作节点3作为中间节点，每个组内所有工作节点在随机梯度下降更新方法的当前次迭代过程等待所有工作节点全部完成计算后将计算出的梯度聚集存储到到中间节点。各个中间节点异步并行地将存储的梯度发送到同一服务器节点并采用基于延迟处理的异步更新方法根据梯度更新权重参数，在随机梯度下降更新方法的下次迭代过程时从服务器节点将更新后的权重参数发送到各个中间节点，再由中间节点分发到自身组内的其余各个工作节点再利用随机梯度下降更新方法更新计算下次迭代的梯度。

本实施例的实验结果如下表：

表1

表1表示了使用Mxnet深度学习框架在数据集Imagenet数据集上训练Resnet50模型的实验结果。分布式机器学习训练集群使用同步更新方法，需要花费145000s经过40个epoch后收敛，准确率达到80.45％；使用异步更新方法，需要花费113875s经过75个epoch后收敛，准确率达到79.65％；使用本发明所述的一种基于延迟处理的混合分布式机器学习更新方法需要花费112650s经过75个epoch后收敛，准确率达到80.57％。

由此可见，本发明方法可以在最短的时间112650s内收敛并获得最好的准确率80.57％。本发明根据分布式集群中节点负载不均衡的情况，对所有工作节点按照与服务器节点的通信代价进行聚类分组，将同步更新方法和异步更新方法融合起来使用，优势互补，组内相近的工作节点采用同步更新方法进行训练，各组间不相近的工作节点采用基于延迟的异步更新方法进行训练，有效地减少梯度延迟带来的收敛性能损失，可以更好地实现训练速度和收敛性能间的平衡。

由此，一种基于延迟处理的混合分布式机器学习更新方法能够较好得实现训练速度与收敛性能间的平衡，具有较大的应用价值。上述具体实施方式用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于延迟处理的混合分布式机器学习更新方法，其特征在于：

所述的分布式集群是指由众多服务器拓扑连接构成的分布式集群，其中的节点包括服务器节点和工作节点，机器学习模型均存储在服务器节点和工作节点中并分布式计算运行，且机器学习模型在分布式集群的各个节点中采用随机梯度下降更新方法优化训练学习；

2.根据权利要求1所述的一种基于延迟处理的混合分布式机器学习更新方法，其特征在于：所述的服务器节点用于保存有机器学习模型结构和参数以及计算机器学习模型的权重参数，工作节点用于保存有机器学习模型结构和参数以及计算机器学习模型的中间梯度参数。

3.根据权利要求1所述的一种基于延迟处理的混合分布式机器学习更新方法，其特征在于：所述的步骤1)中，根据分布式集群中节点负载不均衡的情况，对所有工作节点按照与服务器节点的通信代价进行聚类分组，从而将与服务器节点的通信代价相近的工作节点聚类为一组，每一组内随机选择任意一节点作为中间节点，每组内所有工作节点产生的计算结果聚集存储到中间节点，并且不同组间的各个中间节点的计算结果同时聚集存储到服务器节点。

4.根据权利要求3所述的一种基于延迟处理的混合分布式机器学习更新方法，其特征在于：所述的聚集存储是进行求和后取平均值并存储平均值的操作。

5.根据权利要求1所述的一种基于延迟处理的混合分布式机器学习更新方法，其特征在于：所述的步骤2)中，具体为：

针对聚类分组后的每一组，组内所有工作节点在随机梯度下降更新方法的当前次迭代过程计算出的梯度聚集存储到服务器节点，服务器节点根据梯度更新权重参数，在随机梯度下降更新方法的下次迭代过程时从服务器节点将更新后的权重参数发送到组内各个工作节点，再由组内各个工作节点利用随机梯度下降更新方法更新计算下次迭代的梯度；

针对聚类分组后的不同组，每个组内所有工作节点在随机梯度下降更新方法的当前次迭代过程计算出的梯度聚集存储到各自组的中间节点，各个中间节点将存储的梯度发送到服务器节点根据梯度更新权重参数，在随机梯度下降更新方法的下次迭代过程时从服务器节点将更新后的权重参数发送到各个中间节点，再由中间节点分发到自身组内的其余各个工作节点再利用随机梯度下降更新方法更新计算下次迭代的梯度。

6.根据权利要求1所述的一种基于延迟处理的混合分布式机器学习更新方法，其特征在于：在采用同步更新方法训练处理时，每次迭代过程必须等待所有工作节点全部完成计算，将计算结果聚集存储到中间节点才进行下一次迭代；在采用同步更新方法训练处理时，由中间节点异步并行地将计算结果聚集存储到服务器节点。

7.根据权利要求1所述的一种基于延迟处理的分布式机器学习更新方法，其特征在于：所述的步骤2)中，基于延迟处理的异步更新方法具体为：

w_t+1＝w_t-ηg(w_t)

其中，

为机器学习模型的损失函数关于参数w_t的黑塞矩阵；o()表示佩亚诺余项，I_n表示元素为1的n维向量；W_t+τ为第t+τ次迭代时服务器节点处比中间节点多更新τ次的机器学习模型的权重参数；τ表示服务器节点比中间节点之间的迭代次数之差；

所述的黑塞矩阵

采用以下公式计算获得：

其中，λ为调节方差和偏差的参数，λ＝(0,1]，⊙表示哈达玛乘积；

3)服务器节点中，采用异步随机梯度下降更新方法根据基于延迟处理的梯度更新值g(w_t+τ)计算更新后的机器学习模型的权重参数为：

W_t+τ+1＝W_t+τ-ηg(w_t+τ)

其中，W_t+τ为第t+τ次迭代时服务器节点处比中间节点多更新τ次的机器学习模型的权重参数；τ表示服务器节点比中间节点之间的迭代次数之差。

8.根据权利要求1所述的一种基于延迟处理的分布式机器学习更新方法，其特征在于：所述的机器学习模型采用卷积神经网络。