CN111353582B

CN111353582B - 一种基于粒子群算法的分布式深度学习参数更新方法

Info

Publication number: CN111353582B
Application number: CN202010100999.2A
Authority: CN
Inventors: 吕建成; 叶庆; 郎九霖; 彭德中; 桑永胜; 彭玺; 贺喆南; 孙亚楠
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2022-11-29
Anticipated expiration: 2040-02-19
Also published as: CN111353582A

Abstract

本发明提供了一种基于粒子群算法的分布式深度学习参数更新方法，初始化分布式集群和神经网络参数；利用编码策略对粒子群进行初始化，每个计算节点编码为一颗粒子；计算神经网络最大的训练迭代次数；对神经网络进行训练；收集所有计算节点的神经网络参数和每个粒子的适应度值；获取粒子群当前迭代的全局最优值和粒子的局部最优值；计算新的神经网络参数；将新的参数分发至所有计算节点；若当前迭代次数达到最大迭代次数，结束对分布式深度学习参数的更新。本发明利用所有计算节点训练的神经网络参数，并对其进行优化，该方法可以很好的兼顾通信开销和收敛性，解决了数据并行分布式训练平台中参数同步周期和通信开销难以权衡的问题。

Description

一种基于粒子群算法的分布式深度学习参数更新方法

技术领域

本发明属于深度学习技术领域，尤其涉及一种基于粒子群算法的分布式深度学习参数更新方法。

背景技术

随着数据量和神经网络复杂性不断增加，复杂神经网络(Deep Neural Networks，DNS)的高效训练已成为一项具有挑战性的任务，神经网络的分布式训练被认为是一种有效的解决方法，引来众多学者的关注和研究。目前，分布式深度学习平台主要分两种架构：一是模型并行：分布式系统中的不同节点负责单个网络不同部分的训练，该方法的优势在于神经网络模型可以分布式存储，减小存储压力，缺点在实现困难，模型一致性难以保证。二是数据并行：不同计算节点具有完整的模型副本和目标数据集的部分子集。每个计算节点基于分配的子数据集对神经网络进行训练，参数服务器收集各个计算节点的神经网络参数w_i或者梯度

然后计算新的参数w_i+1，最后分发新参数w_i+1给每个计算节点，继续训练。该架构的特点是，在训练过程中所有节点的参数需要进行同步，如果每次训练结束后同步，则等同于单个计算节点的训练，神经网络的准确率可以得到保证，但此时通信和同步开销较大，集群训练效率降低。如果同步周期过高，则会导致收敛效率降低甚至不收敛。数据并行实现简单，是目前实现分布式训练的主流模式。

参数的同步和更新是神经网络分布式训练的关键环节，在数据并行的分布式深度学习中，同步梯度的是主流的方法之一，该算法的架构图如图1：

表示梯度，w_i当前的神经网络参数，w_i+1更新后的神经网络参数，step表示同步周期。当step＝1时，每次迭代后进行参数同步，集群的分布式训练准确率和在单个节点进行梯度下降训练没有任何区别，但会带来巨大的同步和通信的开销，甚至会导致集群的训练效率低于单个节点的效率。为了解决这样的问题，目前主要的方法包括：1.增加同步周期step方法，即设置step>1，可以降低通信开销，但step具体设置为多少难以确定。2.异步的方法，每次同步时只需要收集部分节点的参数或者梯度就可以进行新参数的计算，虽然可以提高训练效率，但带来梯度过期问题。3.梯度压缩的方法，对梯度进行压缩，降低通信的开销。4.提高集群网络带宽和降低延时的方法，从硬件设施解决问题。尽管这些方法通过实验证明具有良好的性能，但在分布式训练中，如何平衡通信开销和收敛性依然是一个有待解决的问题。

本专利首次提出利用粒子群优化算法来完成神经网络分布式训练过程中的参数计算，区别于现有的同步梯度的方法，该方法可以兼顾通信开销和收敛性。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于粒子群算法的分布式深度学习参数更新方法解决了数据在并行分布式训练平台中参数同步周期和通信开销难以权衡的问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种基于粒子群算法的分布式深度学习参数更新方法，包括以下步骤：

S1、根据集群中计算节点的数量对数据集进行切分，并初始化分布式集群和神经网络参数，每个计算节点获取待训练神经网络的副本和子数据集；

S2、利用编码策略对粒子群进行初始化操作，并将每个计算节点编码为一颗粒子；

S3、根据所述训练任务的数据集，计算得到神经网络分布式训练的最大迭代次数；

S4、利用分配到计算节点的子数据集对神经网络进行训练；

S5、根据同步周期，收集所有计算节点的神经网络参数和每个粒子的适应度值；

S6、根据粒子群的适应度值获取粒子群当前迭代的全局最优值；

S7、根据一个粒子的适应度值集获取粒子的局部最优值；

S8、根据所述全局最优值和局部最优值，利用粒子群更新算法计算得到神经网络新的参数；

S9、将神经网络新的参数分发至所有计算节点，并对计算节点进行训练；

S10、判断步S9中计算节点的当前迭代次数是否小于分布式训练的最大迭代次数，若是，则返回步骤S4，否则，结束对分布式深度学习参数的更新，返回并保存当前的神经网络参数。

进一步地，所述步骤S2中的编码策略为：

将神经网络分布式训练集群中每个计算节点定义为一颗粒子；

将神经网络分布式训练集群中每个计算节点上的神经网络的参数

定义为一颗粒子的信息

其中，i表示计算节点的编码，t表示参数的版本号；

将评价神经网络性能的值对应粒子群算法中每个粒子的适应度值fitness；

将神经网络分布式训练集群的全局最优值对应的计算节点的神经网络参数定义为：g_best；

将神经网络分布式训练集群中一个计算节点的历史最优值对应的神经网络参数定义为：p_best。

再进一步地，所述步骤S3中神经网络分布式训练的最大迭代次数t_max的表达式如下：

t_max＝iteration_size×epoch_size

其中，iteration_size表示训练集训练一次需要的迭代次数，epoch_size数据集最大的训练次数，training_size表示数据子集样本数量，batche_size表示一次训练所选取的样本数。

再进一步地，所述步骤S7中神经网络新的参数

的表达式如下：

其中，m表示粒子惯性权重，m_min、m_max均表示超参数用于限定权重的范围，t表示当前的计算迭代次数，i表示计算节点的编号，

表示第i个节点在当前迭代t训练后的神经网络参数，t_max表示分布式训练的最大迭代次数，c₁,c₂均表示超参数常量表示学习因子，r₁,r₂表示[0,1]范围内的随机数，λ表示附加因子，取值范围为[1,epoch_size]，epoch_size表示数据集最大的训练次数,

表示粒子的速度，w表示神经网络的参数，d表示数据的维度。

本发明的有益效果：

本发明提供了一种基于粒子群算法的分布式深度学习参数更新方法，初始化分布式集群和神经网络参数；利用编码策略对粒子群进行初始化，每个计算节点编码为一颗粒子；基于训练任务的数据集，计算神经网络最大的训练迭代次数；基于分配到计算节点的子数据集对神经网络进行训练，神经网络的准确率即为粒子的适应度值；收集所有计算节点的神经网络参数和每个粒子的适应度值；获取粒子群当前迭代的全局最优值；获取粒子的局部最优值；根据粒子群更新算法计算神经网络新的参数；将新的参数分发至所有计算节点；若当前迭代次数达到了数据集的最大迭代次数，结束对分布式深度学习参数的更新，并返回并保存当前的神经网络参数即为全局最优值。本发明利用所有计算节点训练的神经网络参数，并对其进行优化，该方法可以很好的兼顾通信开销和收敛性，解决了数据并行分布式训练平台中参数同步周期和通信开销难以权衡的问题。

附图说明

图1为背景技术中基于数据并行的同步梯度方法架构图。

图2为本发明的方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例

粒子群算法(Particle Swarm Optimization，PSO)模拟鸟群随机搜索食物的行为。粒子群算法中，每个优化问题的潜在解都是搜索空间中的一个“粒子”,所有的粒子都有一个由被优化的函数决定的适应值(fitness)，每个粒子还有一个速度决定它们移动的方向和距离。粒子群算法初始化为一群随机的粒子(随机初始化每个粒子的值)，然后根据迭代找到最优解,每一次迭代中，粒子通过跟踪两个极值来更新自己：第1个是粒子本身所找到的最优解pbest，这个称为局部最优；第2个是整个种群目前找到的最优解gbest，称为全局最优。

假设在一个d维搜索空间中，有n个粒子组成一个群落p，其中,第i个粒子的信息表示为一个d维的向量：

P_i＝(p_i1,p_i2,p_i3,...,p_id)

i＝1,2,3,...,n

第i个粒子的速度为：

V_i＝(v_i1,v_i2,v_i3,...,v_id)

i＝1,2,3,...,n

粒子i根据下面的公式更新自己的速度和位置：

其中，i表示粒子序号,d表示粒子的维度，p_best是种群已知最优解，m为惯性权重，c₁,c₂均表示超参数常量表示学习因子，r₁,r₂表示[0,1]范围内的随机数。

粒子群优化具有较快的全局搜索能力，可以有效的对系统的参数进行优化。尤其在一个问题有多个最优解且定义了一个评价指标时，粒子群算法可以作为一种优化工具。神经网络训练与PSO算法相似之处在于，不知道全局最优解，但每一次计算的目标是向最优点靠近，这激励我们使用粒子群算法来加速神经网络的分布式训练。在神经网络分布式训练中，汇总所有计算节点参数的目的是想利用所有计算节点的训练结果，以达到加速训练的效果。如果每次迭代后都进行同步，那么分布式训练等同于单机训练，且同步和通信开销最大。随着同步周期的增加，虽然通信开销减少，但是平均参数可能会导致模型的不一致。为此，用粒子群算法代替平均值更新参数，不仅可以在保留最优参数，同时可以优化其他节点的参数，这有利于所有计算节点以较低的通信成本接近最优解。

为了把粒子群算法应用到分布式深度学习中，首先提出一种编码策略实现PSO算法和神经网络分布式训练的建模，如表1所示，集群中的每个计算节点定义为一颗粒子，集群的规模大小代表粒子群的规模。例如：分布式集群有16个计算节点，则建模的粒子群规模为16；每个计算节点上的神经网络的参数

定义为一颗粒子的信息

其中，i表示计算节点的编码，t表示参数的版本号。神经网络训练过程中，用于评价网络性能的loss值对应粒子群算法中每个粒子的适应度值fitness,fitness_i越低代表当前粒子的信息p_i ^t最优。整个集群的全局最优loss对应计算节点的神经网络参数信息：g_best，一个计算节点的历史最优loss对应的神经网络参数信息：p_best。

表1

为了加速神经网络分布式训练问题，提出一种改进的粒子群算法。在标准的粒子群算法中，c₁,c₂和m等许多超参数都是常量,这意味着全局和局部搜索能力在整个计算过程中保持不变。在初始阶段，固定参数有利于收敛，但随着训练的推进，神经网络最优的参数会徘徊在最优值附近，很难达到全局最优值。为了加速粒子群算法对分布式训练的优化效果，同时避免算法随机性造成神经网络无法达到最优，本专利提出两点改进：

(1)权重衰减，权重m计算公式为：

其中，m_min,m_max表示超参数用于限定权重的范围，t表示当前的计算迭代次数，随着训练的推进，权重值逐渐减小。

(2)引入了一个附加变量λ(1<λ<epoch_size)调整参数的搜索能力，epoch_size表示数据集最大的训练次数，随着数据集训练次数增加，随机变量因子衰减，局部和全局搜索随机搜索能力减弱。结合编码策略，本方法的分布式神经网络参数计算公式可以更新为：

如图2所示，基于提出的编码策略和改进后的粒子群PSO算法，本专利提出的基于粒子群算法的分布式深度学习参数更新方法，具体实现步骤如下：

其编码策略为：

定义为一颗粒子的信息

其中，i表示计算节点的编码，t表示参数的版本号；

将神经网络分布式训练集群中一个计算节点的历史最优值对应的神经网络参数定义为：p_best；

S3、根据训练任务的数据集，计算得到神经网络分布式训练的最大迭代次数；

神经网络分布式训练的最大迭代次数t_max的表达式如下：

t_max＝iteration_size×epoch_size

其中，iteration_size表示训练集训练一次需要的迭代次数，epoch_size数据集最大的训练次数，training_size表示数据子集样本数量，batche_size表示一次训练所选取的样本数；

S4、利用分配到计算节点的子数据集对神经网络进行训练；

S7、根据一个粒子的适应度值集获取粒子的局部最优值；

S8、根据全局最优值和局部最优值，利用粒子群更新算法计算得到神经网络新的参数；

神经网络新的参数

的表达式如下：

表示第i个节点在当前迭代t训练后的神经网络参数，t_max表示分布式训练的最大迭代次数，c₁,c₂均表示超参数常量表示学习因子，r₁,r₂表示[0,1]范围内的随机数，λ表示附加因子，取值范围为[1,epoch_size],

表示粒子的速度，w表示神经网络的参数，d表示数据的维度；

S9、将新的参数分发至所有计算节点，并对计算节点进行训练；

S10、判断步骤S9中计算节点的当前迭代次数是否小于分布式训练的最大迭代次数，若是，则返回步骤S4，否则，结束对分布式深度学习参数的更新，返回并保存当前的神经网络参数。

本实施例中，为了验证本专利提出的算法是否有效，进行了实验对比，所有实验都在一台有4个GPU的Tesla V100上进行，用多进程模拟分布训练式环境中的多个计算节点，即每个进程对应一个节点。在MNIST数据集上对神经网络LetNet进行分布式训练，分别用基于粒子群算法的参数更新方法和同步梯度两种算法实现分布式训练中的参数更新，并对比两中算法的训练准确率。MNIST数据集是对0到9之间的手写体数字识别的数据集，包括60000个示例的训练集和10000个示例的测试集。神经网络LetNet被认为是第一个成功识别MNIST手写体数字的卷积神经网络模型，它有66.5万个参数。分布式神经网络训练参数设置为：step＝10，为了降低通信开销，每过10个训练batch进行参数同步、bach_size＝256、epoche_size＝25，实验结果如表2所示。

表2

从表2可以看出，集群规模n＝4和n＝16时，基于粒子群优化算法的参数更新方法的准确率优于同步梯度方法，n＝8时，两种算法的训练准确率相当。总体上随着集群规模的增大(n变大)，基于粒子群优化算法的参数更新方法效果更为明显。

综上，本申请相比目前的梯度平均，具有相同的收敛效果，可以作为一种新的参数更新方法，当神经网络的参数量较少的时候，基于粒子群的参数更新算法的性能略优于同步梯度的参数更新算法，且随着集群规模的增大，加速效果更加明显，但受到神经网络规模和数据集划分的影响，加速能力并不是线性增加。