CN110929878A

CN110929878A - 一种分布式随机梯度下降方法

Info

Publication number: CN110929878A
Application number: CN201911041774.8A
Authority: CN
Inventors: 杨恺; 张春炯; 王钰皓
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-03-27
Anticipated expiration: 2039-10-30
Also published as: CN110929878B

Abstract

本发明涉及一种分布式随机梯度下降方法，包括以下步骤：步骤S1：参数服务器得到初始全局梯度；步骤S2：基于初始全局梯度和工作节点的初始任务分配策略，工作节点计算得到工作节点梯度；步骤S3：参数服务器得到工作节点梯度，并进行计算得到更新全局梯度；步骤S4：参数服务器基于更新全局梯度和区块链技术，得到最优梯度和工作节点的更新任务分配策略；步骤S5：最优梯度保存于工作节点的参数缓存中；步骤S6：更新任务分配策略替代初始任务分配策略，最优梯度替代初始全局梯度，重复步骤S2‑S6直至权重收敛。与现有技术相比，避免收集到较差的模型参数，加速了模型的收敛速度，缩短了全程训练时间。

Description

一种分布式随机梯度下降方法

技术领域

本发明涉及机器学习领域，尤其是涉及一种分布式随机梯度下降方法。

背景技术

现今，人们已经领略到人工智能技术在多个领域的巨大优势。机器学习是人工智能中不可或缺的工作，通过对海量数据进行抽象表示和建模，来帮助人们做出判断和决策。与此同时，区块链3.0也作为应用落地，其理念已超越了数字货币、智能合约领域，可作为海量数据信息交互的重要支撑技术。

急速增长的海量数据也伴随着对更加复杂模型(可能拥有数十亿参数)的急剧需求，以支持在数量级数据中获取更高的准确度及解决其他的一些智能任务(如无人驾驶、图像情景理解等)。在数量级的海量数据上训练如此大规模的模型是远远超出单机的存储及计算能力的，为了提升训练效率以及合理的调用计算设备，分布式机器学习的相关方法应运而生，其主要是除了要把计算任务分布到多个处理器上，更重要的是把计算数据(包括训练数据以及中间结果)分布开来。其模型求解方法被定义为一个优化问题，往往使用梯度下降方法进行求解。其优化目标函数可以表示为：

其中，f(ω)通常被称为损失函数，f_i(ω)表示第i(1＜i＜n)个样本数据的损失函数。ω表示为模型参数，也就是，用以更新每次迭代的参数。n表示训练数据的大小。R(ω)为避免过拟合的正则项。而损失函数f(ω)可以通过更新参数迭代收敛。此迭代过程通常是使用梯度下降方法计算全局梯度参数Δf(ω_t-1)，其中，t表示是第t次迭代。但是梯度下降方法每一步模型更新，需要计算所有样本点的梯度，代价较大。可以使用更加高效的算法是随机梯度下降(Stochastic Gradient Descent，SGD)，每次随机从数据集中选择一个样本点i_t进行梯度更新，即：

ω_t＝ω_t-1-η_tΔf_i(ω_t-1)

其中，η_t为学习率，指导算法该如何通过损失函数的梯度调整网络权重的超参数。随后，针对大规模分布式机器学习问题，出现了分布式SGD。在每个节点上随机选取m个样本进行分布式计算，例如同步方式，对所有节点上训练的模型参数进行线性加权求和后更新为全局参数，假设总共P个工作节点，可以获得模型参数更新公式：

理论分析和实践经验表明，SGD是大规模机器学习问题比较好的求解方法，具有广泛应用。

然而，传统的分布式模式都是铺设在异构网络中，参数服务器会收集一些较差的模型参数；以及分布式框架花费大量等待时间回收、发布参数。

发明内容

本发明的目的就是为了克服上述现有技术存在的异构网络会收集一些较差的模型参数、花费大量等待时间回收和发布参数缺陷而提供一种分布式随机梯度下降方法。

本发明的目的可以通过以下技术方案来实现：

一种分布式随机梯度下降方法，该方法包括以下步骤：

步骤S1：参数服务器得到初始全局梯度；

步骤S2：基于初始全局梯度和工作节点的初始任务分配策略，工作节点计算得到工作节点梯度；

步骤S3：参数服务器得到工作节点梯度，并进行计算得到更新全局梯度；

步骤S4：参数服务器基于更新全局梯度和区块链技术，得到最优梯度和工作节点的更新任务分配策略；

步骤S5：最优梯度保存于工作节点的参数缓存中；

步骤S6：更新任务分配策略替代初始任务分配策略，最优梯度替代初始全局梯度，重复步骤S2-S6直至权重收敛。

该方法基于分布式TF框架。

所述的分布式TF框架基于gRPC通信框架。

所述更新全局梯度的计算公式为：

更新全局梯度＝所有所述的工作节点梯度的和/工作节点的总数。

所述的步骤S4中参数服务器利用区块链技术的互联共识算法，基于更新全局梯度，得到最优梯度和工作节点的更新任务分配策略。

所述的步骤S4包括：

步骤S41：参数服务器基于更新全局梯度对每个所述工作节点梯度进行评价；

步骤S42：基于评价的结果得到工作节点的更新任务分配策略。

所述评价的方法为：

计算每个所述工作节点梯度与更新全局梯度的绝对误差值，得到最优梯度和绝对误差值不超过5％的优势工作节点；

所述得到工作节点的更新任务分配策略过程为：

参数服务器对优势工作节点分配更多的训练数据。

所述的参数缓存以表为组织形式。

与现有技术相比，本发明具有以下优点：

(1)使用分布式TF框架，设置参数服务器和工作节点，并在参数服务器上求更新全局梯度，使训练过程更加高效。

(2)根据区块链技术，通过参数服务器对工作节点梯度进行评价，并进行奖励，合理调用高性能工作节点，避免收集到较差的模型参数，加速了模型的收敛速度。

(3)根据更新全局梯度保存于工作节点的参数缓存技术，解决分布式架构中工作节点等待时间问题，将更新全局梯度维护在一个本地缓存，工作节点可以直接使用本地缓存数据，缩短了全程训练时间。

附图说明

图1为本发明的流程图；

图2为本发明的分布式TF工作原理图；

图3为本发明的参数服务器对工作节点梯度进行评价的信息传输示意图；

图4为本发明的参数缓存示意图；

图5为本发明的结构框图；

图6为本发明实施例的端口映射方式；

图7为本发明实施例的MNIST数据集同一局域网的准确率结果图；

图8为本发明实施例的MNIST数据集同一局域网的损失函数结果图；

图9为本发明实施例的VPN架构；

图10为本发明实施例的VPN架构MNIST数据集的准确率结果图；

图11为本发明实施例的VPN架构MNIST数据集的损失函数结果图；

图12为本发明实施例的VPN架构cifar10数据集的准确率结果图；

图13为本发明实施例的VPN架构cifar10数据集的损失函数结果图；

图14为本发明实施例的VPN架构HWDB数据集的准确率结果图；

图15为本发明实施例的VPN架构HWDB数据集的损失函数结果图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

本实施例提供一种分布式随机梯度下降方法，如图1所示，包括以下步骤：

步骤S1：参数服务器得到初始全局梯度；

步骤S5：最优梯度保存于工作节点的参数缓存中；

步骤S6：更新任务分配策略替代初始任务分配策略，最优梯度替代初始全局梯度，重复步骤S2-26直至权重收敛。

该方法可以将数量级的数据合理的分配到多个工作节点上进行模型训练，建立工作节点激励机制用以收集最优梯度并将最优梯度本地缓存，保证数据平稳训练，提升SGD的收敛速度，缩减总体训练时间。

本方法的目的在于三点，其一是使用分布式TensorFlow(TF)框架，其集群由多个参数服务器和工作节点组成，参数服务器和工作节点的代码可以在不同的机器上也可以在同一个机器上；其二是采用区块链共享参数分布式存储技术，在参数服务器设定梯度标准，使用区块链评价方法对工作节点梯度进行评价，使用最优梯度，并对产生该最优梯度的工作节点进行奖励，使得分布式结构合理调用高性能工作节点；其三是提出一种针对工作节点调用最优梯度的本地共享参数缓存技术，解决同步模式下训练中工作节点等待时间问题，将区块链评价的最优梯度维护在一个本地缓存，每个工作节点可以直接使用本地缓存数据。

具体而言：

1)使用分布式TF框架，设置参数服务器和工作节点，并在参数服务器上求更新全局模型参数。

分布式TF框架分为参数服务器与工作节点，多个参数服务器之间可以参数共享。其工作原理是首先工作节点从参数服务器上获取初始全局梯度；其次获取的初始全局梯度在工作节点上进行迭代更新，以及计算出工作节点梯度并将之发送给参数服务器，而后在参数服务器上进行计算获取更新全局梯度，得到最优梯度后，最优梯度再分发给工作节点进行迭代更新。其工作原理图如图2所示，其中，数据被划分为P份分配给P个不同的工作节点。

TF框架基于gRPC(google Remote Procedure Call)通信框架，包括参数服务器与多个工作节点创建会话，参数服务器负责模型参数更新以及存储全局参数，多个工作节点负责执行计算任务。因此，工作节点通过参数服务器进行信息传递，很好地解决SGD的分布式训练问题。为了获得更好的模型收敛性能，其梯度更新可以采用的分布式TF框架自带的AdamOptimizer优化器。然而，分布式TF框架在参数服务器中只是对收集到的稀少随机梯度取均值，当工作节点数量多以及其节点上的训练样本具有高维参数时，原TF参数服务器的随机均值的梯度会造成模型训练时出现振荡影响收敛性，因此，本专利设计了分布式更新全局梯度算法，其思路是：

1、每个工作节点计算其所有数据的梯度，并将梯度求和取平均值得到工作节点梯度；

2、每个工作节点将计算出的工作节点梯度上传给参数服务器，参数服务器同步等待所有工作节点上传的数值，并取均值(即除以节点总数p)得到本轮的更新全局梯度。

其伪代码如表1所示，其中，分布式集群共有p个工作节点，p_i表示第p个工作节点的数据量i，w_p表示该轮迭代下第p个节点获得的工作节点梯度。

表1计算更新全局梯度伪代码

由上述参数服务器计算思路可知本方法采用是同步更新，每次梯度更新，要等所有分发出去的数据计算完成后，返回回来所有工作节点梯度结果之后，把梯度累加算了均值之后，得到更新全局梯度，这样的好处是损失函数可以平稳下降。

2)可以根据区块链技术，通过参数服务器标准，对工作节点的工作节点梯度进行评价，使用最优梯度，并进行奖励，合理调用高性能工作节点。

利用区块链技术中互联共识算法，由上层可以在参数服务器得到更新全局梯度，区块链以此梯度为标准，对每个工作节点计算出的工作节点梯度进行评价，具体方案是对工作节点梯度与更新全局梯的绝对误差值不超过5％的工作节点进行奖励，绝对误差值最小的工作节点梯度为最优梯度，进行计算分配任务重新调整。

参照互联共识算法：本方法包含有参数账户(参数服务器)和合约账户(工作节点)两个部分。分布式系统的任何参数更新都由参数账户的评价触发，图3为评价过程中参数账户与合约账户的信息传输，其中参数账户之间传输的“交易信息”只是实现了简单的评价，过程可为满足参数账户的判断价值时，对该工作节点进行积分加1，分布式系统对积分高的工作节点(优势工作节点)分配更多的训练数据。参数账户与合约账户传输的“交易信息”可调动合约账户中的程序代码执行，合约账户与参数账户传输的“状态信息”触发参数账户的状态改变，从而完成分布式更新过程中的工作节点参数上传与获取等通信操作。

3)可以根据本地参数缓存技术，解决分布式架构中工作节点等待时间问题。将最优梯度维护在一个本地缓存，工作节点可以直接使用本地缓存数据。

本方法中分布式SGD采用同步更新，由于异构网络中的工作节点的模型训练速度不同，使得整体系统浪费大量等待时间为了获取慢速工作节点的本地更新后梯度。为了解决此问题，本实施例构建基于表接口实现参数更新工作节点的本地参数缓存，将区块链评价出的最优梯度进行本地储存，同时储存线程慢的参数。参数缓存本身以分布式方式运行，从而使得工作节点提高训练性能，避免参数维度太大而无法在一台机器上运行。而且设定计算任务尽可能通过从工作节点上的参数缓存中读取参数，并且仅在模型需要时从参数服务器读取参数。因此，工作节点之间可以花费更少的时间等待彼此，并且花费更少的时间进行参数共享。此外，所构建的本地参数缓存可以帮助工作节点赶上同步迭代，像为Hadoop这样的系统上的“最后减速器”问题提供基于系统的解决方案。

理论分析表明：参数缓存保证了批量同步并行模型，带有参数缓存的随机梯度算法(例如矩阵分解或主题模型)不仅训练速度快，而且快速收敛。参数缓存技术遵循分布式客户端(工作节点)-服务器(参数服务器)体系结构。客户端使用客户端库来访问共享参数，该客户端库保留了多个全局进程缓存和备份线程的线程缓存，如图4所示；当客户端程序执行多个操作时，通过减少内部线程同步以及在客户端工作节点的多个内核中实现共享参数。服务器参数状态在多个参数服务器上进行划分(分片)，正常配置将包括每个工作节点上的参数服务器进程。将参数缓存编程遵循一个简单的基于表的API，用于读取/写入共享参数表组织：参数缓存支持无限数量的表，这些表分为行，进一步细分为元素，这些表用于存储更新参数，用户可以查询各个元素，在下次迭代之前，这些缓存的参数不会被上传到参数服务器。

此缓存协议有利结果是，最短的迭代时间内每次运行参数服务器都会读取更新参数。更快的线程可以更频繁地执行服务器读取，并且尽可能频繁地执行服务器读取，并且一直等待最快的线程更新。在同步并行模式中不会出现每个线程的独立工作，其中每个线程必须在每次迭代从服务器读取。因此，参数缓存不但减少整个系统的拥堵，而且减少参数服务器等待时间；但也允许缓慢，落后的线程在某些迭代中避免服务器读取。因此，慢线程自然会赶上-反过来允许快速线程继续自己的模型训练而不是等待它们。通过这种方式，参数缓存可以最大化每个工作节点在有用计算上花费的时间，而无需等待。

分布式随机梯度下降方法的结构框图如图5所示。

以下为具体例子：

实现场景布置：参数服务器硬件配置型号为Inter(R)Core(TM)i5-8400 CPU@2.80GHz，工作节点的硬件配置型号为NVIDIA GeForce GTX950M。由于在TensorFlow的分布式设计中，各个参数服务器和工作节点的IP地址需要在同一网段，不能通过路由器作网络地址转换映射，否则无法进行分布式节点间的通信，因此可以采用端口映射的方式来进行分布式机器学习，图6是分布式网络的环境说明，其中，在进行二级路由器的端口映射后，在局域网A内发送给指定的192.168.50.102两个端口的报文，都会被直接转发给工作节点0和工作节点1对应IP的机器。

对MNIST数据集训练情况，同一局域网其准确率和损失函数实验结果如图7和图8所示(通过端口转发)。

由图7和图8实验结果可以知道本实施例的分布式随机梯度下降方法经过100万步的迭代后使得SGD准确率达到99.5％，其损失函数误差值达到0.12，整个训练过程共用时10分钟。而经典的分布式TensorFlow其训练准确率只能最大达到95％，其损失函数误差值最小达到0.4，按照本实施例实验设备配置整个训练过程共用时80分钟。因此，本分布式随机梯度下降方法在大幅度缩短了训练时间的同时，提升了模型的准确率，并快速收敛。

针对跨局域网的情况，采用连接VPN服务器来建立虚拟局域网的方法，示意图如图9所示。

跨局域网其准确率和损失函数实验结果如图10和图11所示(通过VPN服务器的方式).

通过图10和图11可以发现，跨局域网在采用VPN服务的方式后，也能进行机器学习训练，且能够得到完整的训练损失函数收敛曲线和预测准确度曲线。

跨局域网由于通信时延加长其可能受到路由器的带宽限制，整个10000步训练的完成时间会大大加长，在同一个局域网内，即上述提到的分布式网络的环境(使用服务器显卡加速)下，本实施例的分布式随机梯度下降方法的完成时间大约在1分钟左右，而跨局域网(端口转发方式)的完成时间大约在3分钟左右。

使用VPN方式(实验的环境无服务器显卡加速，使用三台单独的主机进行试验，2000步运行了15分钟)，由于VPN会多一层对数据报文的包装和处理，增加传输延迟，又因为TensorFlow对带宽和时延要求比较高，从而可能导致部分数据传输过慢而未被使用，加上VPN服务性能和较为复杂的网络环境问题的影响，导致该方法的训练结果不稳定，网络通畅时模型能够正常收敛，而如果网络较为阻塞则可能会影响模型的收敛速度。

本实施例为验证所提出的方案的有效性，还对其他数据集进行训练。cifar10数据集训练情况参数说明：全局训练步数为50000步，图片尺寸为32x32RGB(剪裁后为24x24像素(灰度值))，每轮迭代批处理设置为100，初始学习率为0.1。其训练结果如图12和图13所示，训练经过全局50000步迭代，训练时长为40分钟，最后模型准确率为92.46％。而经典的TensorFlow训练50000步迭代需要70分钟，模型准确率为89.13％。

HWDB数据集训练情况参数说明：图片尺寸为64*64像素(灰度值)，每轮迭代批处理为128，初始学习率为2×10^-4(指数递减方式，每2000次训练后乘以0.96)。其训练结果如图14和图15所示，训练经过全局12万步迭代，训练时长为80分钟，最后模型准确率为95.32％。而经典的分布式训练需要130分钟，模型准确率为90.15％。

本实施例提供了一种基于区块链的分布式随机梯度下降法，用于对大规模的机器学习任务进行模型求解。可以在互联网公司推荐业务和数据分析业务中得到了实际的应用，使用范围包括视频推荐，兴趣构建和广告推荐等。使用区块链评价机制加速了分布式SGD的收敛速度，提出了参数缓存技术缩短了全程训练时间，由不同的训练集训练结果可知本方法可以在大部分机器学习模型上获得良好的模型求解性能。

Claims

1.一种分布式随机梯度下降方法，其特征在于，该方法包括以下步骤：

步骤S1：参数服务器得到初始全局梯度；

步骤S5：最优梯度保存于工作节点的参数缓存中；

2.根据权利要求1所述的一种分布式随机梯度下降方法，其特征在于，该方法基于分布式TF框架。

3.根据权利要求2所述的一种分布式随机梯度下降方法，其特征在于，所述的分布式TF框架基于gRPC通信框架。

4.根据权利要求1所述的一种分布式随机梯度下降方法，其特征在于，所述更新全局梯度的计算公式为：

更新全局梯度＝所有工作节点梯度的和/工作节点的总数。

5.根据权利要求1所述的一种分布式随机梯度下降方法，其特征在于，所述的步骤S4中参数服务器利用区块链技术的互联共识算法，基于更新全局梯度，得到最优梯度和工作节点的更新任务分配策略。

6.根据权利要求1所述的一种分布式随机梯度下降方法，其特征在于，所述的步骤S4包括：

7.根据权利要求6所述的一种分布式随机梯度下降方法，其特征在于，所述评价的方法为：

所述得到工作节点的更新任务分配策略过程为：

参数服务器对优势工作节点分配更多的训练数据。

8.根据权利要求1所述的一种分布式随机梯度下降方法，其特征在于，所述的参数缓存以表为组织形式。