CN111027708A

CN111027708A - 一种面向分布式机器学习的参数通信优化方法

Info

Publication number: CN111027708A
Application number: CN201911197591.5A
Authority: CN
Inventors: 张纪林; 屠杭镝; 沈静; 李明伟; 万健; 孙海
Original assignee: Zhejiang Shuguang Information Technology Co ltd; Hangzhou University Of Electronic Science And Technology Zhoushan Tongbo Marine Electronic Information Research Institute Co Ltd; Hangzhou Dianzi University
Current assignee: Zhejiang Shuguang Information Technology Co ltd; Hangzhou University Of Electronic Science And Technology Zhoushan Tongbo Marine Electronic Information Research Institute Co Ltd; Hangzhou Dianzi University
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-17

Abstract

本发明公布一种面向分布式机器学习的参数通信优化方法。本发明将机器学习迭代‑收敛算法的容错特性进行扩展，提出了动态有限容错特性，并基于动态有限容错性实现了一种分布式机器学习参数通信优化策略，通过动态调节各计算节点与参数服务器的同步策略结合性能检测模型，充分利用各计算节点的性能，保证机器学习模型准确率；保证计算资源充足，模型的训练过程不受分布式计算资源动态变化的影响；将训练算法和系统硬件资源进行解耦，解放了开发人员凭经验手工进行计算资源的分配以及数据通信调优的过程，有效的提高了程序在各种集群环境下的扩展性和较高的执行效率。本发明可应用于分布式机器学习参数通信的优化、集群计算性能的优化等领域中。

Description

一种面向分布式机器学习的参数通信优化方法

技术领域

本发明属于机器学习和高性能并行计算领域，特别涉及一种面向分布式机器学习的参数通信优化方法。

背景技术

随着大数据时代到来，分布式机器学习因其能适应大数据的复杂性、获得更高的预测精度、支持更智能的任务，日渐成为研究的热门。

将机器学习分布式化的主要目的就是：（1）解决单个计算节点内存不足，以保证能够处理TB级及以上的数据量；（2）利用并行加速模型训练，将原有数月的训练时间大幅缩短。其中最主要的问题便是如何对训练过程实现并行化加速。基于参数服务器的数据并行化是一种分布式机器学习中常见的并行化方案，其中数据样本切分成小数据集后分发到各个节点，这些节点都能够共享访问模型参数。在每次迭代训练中，各计算节点在其数据子集上同时计算局部更新，随后将局部更新提交到参数服务器聚集并更新全局模型参数，然后参数服务器将新的全局模型参数分发给各个机器。通常情况下，数据并行算法都是以整体同步并行方式执行，即各计算节点训练完本次迭代并提交局部参数到参数服务器后便开始等待，直到所有计算节点都提交了局部参数并得到更新的全局模型参数后才开始下次迭代。整体同步并行方式会因计算节点性能的差异性而导致迭代计算负载不均衡。

目前已存在一些解决上述问题的方法，例如分布式机器学习异步迭代方案，其中计算节点可以在接收全局模型参数之前使用局部模型参数执行下一迭代，该方案将容错性无限放大，导致机器学习模型可能陷入局部最优，不能保证机器学习模型最终收敛于最优解，也不能保证其准确率；延迟同步并行策略，该策略允许各计算节点迭代训练时使用非最新全局模型参数，减少了提交局部更新到参数服务器所造成的同步开销，并且严格控制使用非最新全局模型参数进行迭代的次数，来确保模型收敛。虽然使用局部模型参数提高了训练速度，但由于丢失了部分局部更新，会累积并行错误，降低了收敛速度。

因而针对各计算节点性能存在差异的集群，结合已有的延迟同步策略，本发明改进了延迟同步并行策略，有必要提供一种基于动态有限容错特性的参数通信优化策略。

发明内容

本发明的目的在于针对现有方法存在的上述问题，提出一种能够在计算性能存在差异的集群中有优秀表现的采用动态延迟同步策略的分布式机器学习参数通信优化方法，该方法将训练算法和系统硬件资源进行解耦，解放了开发人员凭经验手工进行计算资源的分配以及数据通信调优的过程，有效的提高了程序在各种计算节点性能存在差异的集群环境下的扩展性和较高的执行效率。

本发明解决其技术问题采用的技术方案是：一种面向分布式机器学习的参数通信优化方法，将训练算法和系统硬件资源进行解耦，有效的提高程序在各种异构环境下的扩展性和较高的执行效率。该方法采用以下步骤实现：

步骤1：采用参数服务器系统，将异构集群一个节点设置为参数服务器，其它节点设置为计算节点。

步骤2：采用数据并行策略，每个计算节点拥有完整的模型，参数服务器用来接收、更新、发送模型参数。

步骤3：将完整训练集发送给各个计算节点，根据计算节点的序号进行划分训练集，确保每个计算节点训练集不同，并进行参数梯度的计算。

步骤4：采用动态延迟同步策略避免因集群计算节点性能不同影响计算效率，每个节点首先采用异步训练，即完成一次迭代任务后并不直接上传参数梯度给参数服务器，而是将参数梯度累计，当训练数最多的计算节点与训练数最少的计算节点之间相差s次迭代或者训练数最少的计算节点完成w次迭代的时候，使用同步栅栏将所有计算节点的参数梯度发送给参数服务器。

步骤5：参数服务器接收到参数梯度后，将这些梯度累加，进行模型参数更新，得到新的模型参数。

步骤6：参数服务器将模型参数广播给各个计算节点，各个计算节点继续进行训练。直到模型训练终止。

本发明具有的有益效果是：

1、本发明通过采用参数服务器系统，设置参数服务器专用于模型参数的接收、更新、发送，解决了分布式机器学习的训练速度慢的问题。

2、本发明通过采用动态延迟同步策略，解决了集群不同计算节点计算性能不同导致性能浪费的问题。

3、本发明通过设置迭代差s以及最低值w，保证了分布式机器学习模型训练有较高的正确率与速度。

4、本发明可应用于分布式机器学习模型训练速度的优化、异构集群计算性能的优化等领域中。

附图说明

图1总设计图。

图2 参数服务器详细设计图。

图3 计算节点详细设计图。

图4 动态延时同步并行策略图。

具体实施方式

下面结合附图和具体实施应用过程对本发明进一步说明：

步骤1—采用主从方式设置节点：

如图1，本发明将异构集群的一个节点作为参数服务器，其余节点作为计算节点，实现参数服务器系统。如图2，参数服务器采用多线程方式实现，每个线程对应一个计算节点，用来专门接收发送该计算节点所计算的梯度；并另设一个线程用来专门处理上述线程的梯度的求和，以及模型参数的更新与广播。如图3，计算节点主要用于进行模型梯度的计算与更新。

步骤2—采用数据并行策略：

本发明在初始时将要训练的网络模型构建出多个副本，每个副本的模型参数均相同，副本的个数与计算节点数相同，每个节点上分布一个模型副本，并采用Lightning Memory-Mapped Database（LMDB）存储引擎，仅需在初始阶段将数据集发送给计算节点，无需多次发送数据集，支持多个模型同时读取一个数据集，每个计算节点可根据需要读取数据。

步骤3—计算节点进行梯度计算：

本发明通过前向传播的计算，将计算的结果与训练标签相对比，其误差进行反向传播，根据随机梯度下降算法计算偏导求出每个层次中每个模型参数的梯度大小，并将其累计。重复上述前向后向的过程，不断累加模型参数梯度，当每个计算节点上迭代计算次数累计到一定的阈值时，进行与参数服务器的通信。

步骤4—动态延迟同步策略：

如图4为本发明动态延迟同步策略的示意图。本发明采用动态延迟同步策略避免异构集群节点性能的不同，每个节点首先采用异步训练，即完成一次迭代任务后并不直接上传参数梯度给参数服务器，而是将参数梯度累计，并使该节点的迭代计数器加1后发送给参数服务器，在参数服务器上设置一个节点空闲队列，用来判断计算节点是否处于上传完计数器或梯度后的空闲时间，从而快速分派新的迭代任务，当训练数最多的计算节点与训练数最少的计算节点之间相差s次迭代或者训练数最少的计算节点完成w次迭代的时候，使用同步栅栏将所有计算节点的参数梯度发送给参数服务器。

步骤5—模型参数更新：

在参数服务器上计算出节点计算器最大差值达到s时，参数服务器上对应各个计算节点的线程向计算节点发送信号，要求上传参数梯度。各计算节点上传参数到各对应线程后，这些线程将这些参数梯度存储到一个数组中，并在完成上传后通知专门处理梯度求和的线程，该线程处理所有上传的梯度，并将得出的值用于模型参数更新。模型参数更新后，该线程发送通知给计算节点对应线程，各个计算节点线程将更新后的模型参数发送给各个计算节点，从而完成此次更新。如此循环，直到训练完成。

Claims

1.一种面向分布式机器学习的参数通信优化方法，其特征在于该方法包括以下步骤：

步骤1：采用参数服务器系统，将集群中的一个节点设置为参数服务器，其它节点设置为计算节点；

步骤2：采用数据并行策略，每个计算节点拥有完整的模型，参数服务器用来接收、更新、发送模型参数；

步骤3：将完整训练集发送给各个计算节点，根据计算节点的序号划分训练集，确保每个计算节点训练集不同，并计算模型的参数梯度；

步骤4：采用动态延迟同步并行策略，具体是：每个节点采用异步训练，即完成一次迭代任务后并不直接上传参数梯度给参数服务器，而是将参数梯度累计，当训练数最多的计算节点与训练数最少的计算节点之间相差s次迭代或者训练数最少的计算节点完成w次迭代的时候，使用同步栅栏将所有计算节点的参数梯度发送给参数服务器；

步骤5：参数服务器接收到参数梯度后，将这些梯度累加，进行模型参数更新，得到新的模型参数；

步骤6：参数服务器将模型参数广播给各个计算节点，各个计算节点继续进行训练，直到模型训练终止。

2.根据权利要求1所述的一种面向分布式机器学习的参数通信优化方法，其特征在于：在步骤1中，采用多线程方式实现参数服务器，每个线程对应一个计算节点，用来专门处理该计算节点所计算梯度的收发；并另设一个线程用来专门处理上述线程的梯度的求和，以及模型参数的更新与广播。

3.根据权利要求1所述的一种面向分布式机器学习的参数通信优化方法，其特征在于：在步骤1中，参数服务器上设置一个节点空闲队列，用来判断计算节点是否处于上传完梯度后的空闲时间，从而快速分派新的迭代任务。

4.根据权利要求1所述的一种面向分布式机器学习的参数通信优化方法，其特征在于：在步骤3中，采用Lightning Memory-Mapped Database存储引擎，无需多次发送数据集，支持多个模型同时读取一个数据集，每个计算节点可根据需要读取数据。

5.根据权利要求1所述的一种面向分布式机器学习的参数通信优化方法，其特征在于：在步骤4中，各个计算节点采用异步的方式进行训练，并且设置计数器，每完成一次迭代任务便将计数器上传到参数服务器，在参数服务器中进行差值s和最低值w的计算，从而控制延迟同步跨度。