CN110084378B

CN110084378B - 一种基于本地学习策略的分布式机器学习方法

Info

Publication number: CN110084378B
Application number: CN201910375050.0A
Authority: CN
Inventors: 李武军; 高昊; 赵申宜
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2023-04-21
Anticipated expiration: 2039-05-07
Also published as: CN110084378A

Abstract

本发明公开了一种基于本地学习策略的分布式机器学习方法，基于参数服务器架构，既适用于数据中心的多机集群分布式机器学习，也适用于服务器作为云端、手机或嵌入式设备作为终端的端云协同分布式机器学习。包括以下步骤：首先服务器节点累计所有工作节点计算的本地梯度和得到全梯度，并将全梯度广播给所有工作节点；随后每个工作节点各自进行若干次参数更新后将本地的参数发送给服务器节点；最后服务器节点将从工作节点收集到的参数求均值作为最新参数广播给所有工作节点；上述过程迭代多轮直到达到收敛条件。本发明的方法基于本地学习策略，不需要在工作节点每次参数更新后都进行通信，从而减少了分布式机器学习中的通信开销。

Description

一种基于本地学习策略的分布式机器学习方法

技术领域

本发明提供了一种基于本地学习策略的分布式机器学习方法，涉及机器学习领域的分布式算法，可以有效地减少分布式机器学习中的通信开销。

背景技术

大部分机器学习模型可以被形式化为以下优化问题：

其中w代表了模型的参数，n代表了训练样本的总数，f_i(·)则表示第i个样本所对应的损失函数。为了求解上述优化问题，随机梯度下降法(SGD)以及它的变体是目前应用最为广泛的方法。随着训练数据量的增大，很多机器学习问题的训练过程需要花费大量的时间，分布式算法将训练数据分散到多个节点上并行地进行训练，以此来加速机器学习的训练过程。

参数服务器架构(Parameter Server)是分布式机器学习中常用的一种架构，该架构具有良好的可扩展性和容错性，同时也支持灵活的一致性模型。参数服务器架构中包含两种类型的节点：模型参数存储在一个或是多个服务器节点(Server)上，训练样本数据存储在多个工作节点(Worker)上。

在基于参数服务器架构的分布式随机梯度下降法中，每一次参数更新可以描述为以下过程：首先服务器节点将当前的模型参数广播给所有工作节点；随后每个工作节点在本地的样本集合中随机选取一个样本(假设其样本编号为i)，并计算出该样本所对应的损失函数的梯度

最后所有工作节点将梯度

发送给服务器节点，在服务器节点收集到所有工作节点上的梯度后，使用随机梯度下降法更新模型参数。一次机器学习问题的训练过程，往往要经历很多次参数更新才能接近全局最优解或是局部最优解。

随着机器学习模型的增大和参与分布式计算的节点数增多，每次参数更新时节点之间的通信往往会成为性能瓶颈。

发明内容

发明目的：目前的分布式随机梯度下降法在每次参数更新时节点之间都需要进行通信以同步参数，随着机器学习模型的增大和参与分布式计算的节点数增多，这样的方法中所消耗的通信时间也会越来越长，通信开销往往会成为性能瓶颈。针对上述问题与不足，提供一种基于本地学习策略的分布式机器学习方法，基于本地学习策略，每个工作节点在接收到服务器节点所发送的当前模型参数后，会在本地使用类似于随机方差缩减梯度下降法(SVRG)的方式进行若干次参数更新并得到一个本地参数。在这之后服务器节点才会与所有工作节点进行通信，并将所有工作节点上本地参数的均值作为新的模型参数。由此可见，本发明的方法中通信频率明显降低，所以能有效地减少分布式机器学习中的通信开销，从而达到加速分布式机器学习训练过程的目的。

技术方案：一种基于本地学习策略的分布式机器学习方法，其在服务器节点上训练流程的具体步骤为：

步骤100，输入机器学习模型w以及总共的迭代轮数T、工作节点数目p、样本总数n；

步骤101，随机初始化模型参数w＝w₀；

步骤102，将当前的模型参数w_t广播给所有的工作节点；

步骤103，收集所有工作节点计算的本地梯度和z_k；

步骤104，计算出全梯度

步骤105，将全梯度z广播给所有的工作节点；

步骤106，收集所有工作节点计算的本地参数u_k；

步骤107，更新模型参数

步骤108，判断当前已完成的迭代轮数t是否达到总共的迭代轮数T，如果是则输出并保存模型w；否则返回步骤102继续进行训练。

本发明的方法在第k个工作节点上训练流程的具体步骤为：

步骤200，输入训练样本集合的子集

(完整的训练样本集合

以及总共的迭代轮数T、学习率η、本地更新次数M；

步骤201，接受服务器节点发送的模型参数w_t；

步骤202，根据本地的样本数据

计算出本地梯度和

其中

则表示第i个样本所对应的损失函数在当前模型参数下的梯度；

步骤203，将本地梯度和z_k发送给服务器节点；

步骤204，接受服务器节点发送的全梯度z；

步骤205，根据当前的模型参数w_t、全梯度z与本地的样本数据

进行M次本地参数更新；

步骤206，将本地参数u_k发送给服务器节点；

步骤207，判断当前已完成的迭代轮数t是否达到总共的迭代轮数T，如果是则结束训练流程；否则返回步骤201继续进行训练。

在第k个工作节点上进行步骤205的本地参数更新的具体流程为：首先输入当前模型参数w_t、全梯度z、本地的样本数据

以及学习率η、本地更新次数M；随后初始化本地参数u_k,0＝w_t；最后从本地的样本数据

中随机选取一个样本(假设其样本编号为i_k,m)，并按照以下公式更新本地参数u_k:

其中u_k,m代表第m次更新时的本地参数，c为人工设置的超参数，c(u_k,m-w_t)这一项用于减小本地学习策略所带来的偏差，从而保证本发明方法的收敛性。此外，如果每个工作节点的本地样本数据分布和全局样本数据分布相差不大，c可以设置为0。重复以上的步骤M次后即完成了本地参数更新的流程。

有益效果：本发明提供的基于本地学习策略的分布式机器学习方法，既适用于数据中心的多机集群分布式机器学习，也适用于服务器作为云端、手机或嵌入式设备作为终端的端云协同分布式机器学习。本发明的方法基于本地学习策略，节点之间每经历若干次本地的参数更新之后才会进行一次通信，与现有技术相比，本发明的方法不需要在每次参数更新后都进行通信以同步参数，从而减少了分布式机器学习中的通信开销。

附图说明

图1为本发明实施的基于本地学习策略的分布式机器学习方法在服务器节点上的工作流程图；

图2为本发明实施的基于本地学习策略的分布式机器学习方法在工作节点上的工作流程图；

图3为本发明实施的在工作节点上进行本地参数更新的工作流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提供的基于本地学习策略的分布式机器学习方法，可应用于图像分类、文本分类等领域，适合于待分类的数据集样本数多、所使用的机器学习模型参数量大的场景。以图像分类应用为例，在本发明的方法中，训练图像数据将分布式的存储在若干个工作节点上，而机器学习模型参数将由若干个服务器节点共同维护，在图像分类应用中的具体工作流程如下所述：

基于本地学习策略的分布式机器学习方法，在服务器节点上的工作流程如图1所示。首先输入机器学习模型w以及总共的迭代轮数T、工作节点数目p、样本总数n(步骤100)，并随机初始化模型参数w＝w₀(步骤101)。接下来初始化迭代轮数计数器t＝0(步骤102)，随后进入到模型训练的迭代阶段：先将当前模型参数w_t广播给所有的工作节点(步骤103)，并收集所有工作节点计算的本地梯度和z_k(步骤104)；根据收集的本地梯度和计算出全梯度

(步骤105)，并将全梯度z广播给所有工作节点(步骤106)；最后收集所有工作节点计算的本地参数u_k(步骤107)并更新模型参数

(步骤108)。每次迭代结束时将迭代轮数计数器增加1(步骤109)并进行判断是否达到停止条件t＝T(步骤110)，若未达到停止条件则继续迭代，否则输出训练结果并保存模型(步骤111)。

基于本地学习策略的分布式机器学习方法，在第k个工作节点上的工作流程如图2所示。首先输入本地训练图像数据

以及总共的迭代轮数T、学习率η、本地更新次数M(步骤200)，本地训练图像数据为完整训练图像数据集合的一个子集(完整训练图像数据集合

)。接下来初始化迭代轮数计数器t＝0(步骤201)，随后进入到模型训练的迭代阶段：先接受服务器节点发送的模型参数w_t(步骤202)，并根据本地训练图像数据

计算出本地梯度和

(步骤203)；随后将本地梯度和z_k发送给服务器节点(步骤204)，并接受服务器节点发送的全梯度z(步骤205)；最后根据全梯度z、本地训练图像数据

以及当前模型参数w_t进行M次本地参数更新(步骤206)，并在更新结束后将本地参数u_k发送给服务器节点(步骤207)。每次迭代结束时将迭代轮数计数器增加1(步骤208)并进行判断是否达到停止条件t＝T(步骤209)，若未达到停止条件则继续迭代，否则结束训练流程(步骤210)。

在第k个工作节点上进行本地参数更新的工作流程图如图3所示。首先读取当前的模型参数w_t、全梯度z、本地训练图像数据

以及学习率η、本地更新次数M(步骤2060)，并初始化本地参数u_k,0＝w_t(步骤2061)和更新次数计数器m＝0(步骤2062)。随后进入迭代更新的过程：先从本地训练图像数据

中随机选取一张编号为i_k,m的图像样本(步骤2063)，随后按照以下公式更新本地参数u_k(步骤2064)：

最后将更新次数计数器m增加1(步骤2065)；重复上述步骤，直到满足停止条件m＝M(步骤2066)，输出本地参数模型u_k(步骤2067)。

本发明的方法在多个图像分类、文本分类数据集上进行了实验。实验结果表明，本发明提出的方法相比于其他分布式机器学习方法具有更高的效率。