CN112861991A

CN112861991A - 一种面向神经网络异步训练的学习率调整方法

Info

Publication number: CN112861991A
Application number: CN202110254554.4A
Authority: CN
Inventors: 李尹健; 卢宇彤
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-05-28
Anticipated expiration: 2041-03-09
Also published as: CN112861991B

Abstract

本发明公开了一种面向神经网络异步训练的学习率调整方法，所述方法包括以下步骤：初始化参数；将神经网络的参数发送给所有空闲的计算节点；直到已经接收了c个计算结果；对于c个接收的计算梯度，分别调整它们的学习率；使用步骤S4中得到的学习率和接收的c个梯度，对网络进行一步梯度下降的更新；判断网络精度是否满足要求。若已达到要求，则完成训练，将回应2发送给所有计算节点，退出；否则回到步骤B，并将回应1发送给所有本轮计算完成的节点，进行下一轮循环的训练。本发明的有益效果在于，延迟梯度的学习率不再会随着数目的增多而线性上升，同时在计算时考虑到了当前接收的其它梯度的延迟情况和样本批量大小，将整体的学习率调整得更加平衡、更加科学。

Description

一种面向神经网络异步训练的学习率调整方法

技术领域

本发明属于人工智能-神经网络优化技术研究技术领域，特别涉及一种面向神经网络异步训练的学习率调整方法。

技术背景

随着当前的数据集日趋膨胀，训练的模型(如深度神经网络)的参数也越来越多，随机梯度下降优化(SGD)成为了当前有监督学习算法的核心。

这种训练方法是由若干次的循环优化构成的。在每一轮循环中，在训练集中随机抽取若干个样本，让它们通过神经网络，根据神经网络对它们的计算结果和实际结果的差距计算损失(LOSS)；然后根据这个损失对网络进行反向传播，计算神经网络中每个参数对于损失的梯度，最终根据该梯度对参数进行优化。

在若干次这样的循环优化后，神经网络的损失会越来越小，每次的计算结果与真实结果越来越接近，即完成了训练。

本发明注重的是在多设备、多异构节点的分布式环境下对神经网络的训练过程进行加速。目前广泛采用的分布式优化方法是参数服务器法。具体而言，是将神经网络的参数存放在一个服务器中。在每轮计算循环中数服务器将网络参数发送给所有的计算节点；然后每个计算节点随机抽取样本，计算损失和梯度，并将计算的梯度发回给参数服务器；参数服务器在接收了若干计算节点的结果后进行综合，计算得到一个平均的梯度，并根据这个梯度对网络进行优化，完成一轮循环。

根据服务器更新参数的频率，参数服务器法可以分为异步和同步两种。同步训练法中，参数服务器需要接收完所有的计算节点的结果后才进行参数更新，将最新的网络参数发回给所有计算节点，完成该轮训练。而在异步训练法中，参数服务器每轮训练仅需要等待一部分节点计算完成，就可以进行参数更新、发回最新参数。

对于异步训练法，由于节点间不再需要相互等待，因此每个计算节点在计算的过程中，服务器的参数往往已经被其它计算节点更新了，导致节点的计算结果与当前服务器的全局网络应当得到的结果不同。这期间服务器被更新的次数被称为梯度延时，同时参与计算的节点越多，平均梯度延时就会越大，误差也会越大。梯度延时的存在，不仅会降低模型最终的精确率，更会降低模型的收敛速度，在严重的时候甚至会直接导致模型无法收敛。

现有的方法，对延迟梯度的处理的方法过于简单，仅仅除以它的延迟就作为最终的学习率进行更新了。这样做存在以下几个问题：

1、数值设定没有确切的理论依据，而仅仅是启发式地进行设定。并且其中的超参数也难以界定，只能通过实验来选择。

2、这类方法忽略了其它影响因素，如minibatch大小、当前minibatch中其余梯度的延迟带来的影响。

3、这类方法仅仅线性地将旧梯度的效果等同于新梯度的若干分之一，实际上隐含着若干个旧梯度的更新效果就可以等同于一个新梯度的假设。该假设同样也是没有得到证明，而只是启发式地确立的。

因为这些问题的存在，导致了这些简单的学习率调整方式仅仅只能在工人数量较少，或者每个工人每轮计算的minibatch的大小极小时才能有好的效果。一旦这两个条件无法全部满足，训练产生的网络的准确率就会大幅降低。在实验上对该现象做了详细阐述，并指出(工人数量N*每个工人的batchsize)的值越大，异步更新的效果也就越差。

发明内容

鉴于现有技术的缺陷，本发明旨在于提供一种面向神经网络异步训练的学习率调整方法，在使用了本发明的学习率调整方式后，对延迟梯度的学习率设置更加科学。在使用第一部分的技术时，随着延迟梯度的数量增大，其学习率会线性上升，在实践中就反映为网络收敛速度变慢、网络收敛后的精度下降。

为了实现上述目的，本发明采用的技术方案如下：

一种面向神经网络异步训练的学习率调整方法，所述方法包括以下步骤：

S1初始化参数；

S2将神经网络的参数发送给所有空闲的计算节点：对在上一次循环中计算完成并已经提交了计算结果的所有节点，参数服务器将更新后的参数分别发给它们，让它们开始下一轮的计算；在此步骤后整体进入下一轮计算，当前轮次t_glob＝t_glob+1,将所有接收了最新网络的节点的轮次更新等于总体轮次t_i＝t_glob；

S3等待任一节点计算完毕；接收其计算结果，反复执行此操作，直到已经接收了c个计算结果；

S4对于c个接收的计算梯度，分别调整它们的学习率；

S5使用步骤S4中得到的学习率和接收的c个梯度，对网络进行一步梯度下降的更新；

S6判断网络精度是否满足要求。若已达到要求，则完成训练，将回应2发送给所有计算节点，退出；否则回到步骤B，并将回应1发送给所有本轮计算完成的节点，进行下一轮循环的训练。

需要说明的是，所述需要初始化的参数至少包括：神经网络的相关超参数，如学习率、批次大小；将当前总体轮次t_glob设置为0以及随机初始化神经网络中的所有参数。

需要说明的是，所述随机初始化神经网络中的所有参数的初始方法是将所有卷积层和全链接层的所有参数按标准正态分布N(0,1)初始化，对所有BN层的γ初始化为1，β初始化为0。

需要说明的是，所述步骤S4还包括：

S4.1输入：

(1)服务器接收的c个梯度；

(2)每个梯度对应的延迟l_i,i＝1,2,...c；计算方式为l_i＝t_glob-t_i；

(3)每个梯度计算时使用的样本数量b_i，i＝1,2,...,c；

(4)超参数：θ、b₀、r₀；其中θ用于衡量异步误差，越大则认为延迟对梯度的准确率影响越大；b₀是正常单机训练时的样本批量大小，r₀是正常单机训练时的学习率；

S4.2将所有梯度按照延迟从小到大排序，计算每个延迟下所有梯度的批量大小的和；

如有3个延迟为2的梯度，他们的批量大小均为128，那么在这一步中将它们合并成一个批量大小为384，延迟为2的梯度。

在这一步后，可以得到一个合并后的延迟-批量大小数列：

l₁,b'₁；l₂,b'₂；...；l_c1,b'_c1；

其中c1是不同的延迟数，是第i小的梯度的合并后的批量大小。因为相同延迟的梯度会被合并，所以c1≤c；

S4.3由步骤S4.2中的数列，得以下矩阵方程：b'_i

AX＝D

其中:

A＝A₁+A₂

是本次训练所有梯度的延迟的均值；

求解X。得到解x₁,x₂,...,x_c1+1

令

A′＝A_{1..c1，1..c1}(即令A′等于A的前c1行和前c1列)

S4.4由以下公式，计算出c个梯度分别最终的学习率：

其中i＝1,2,...c；i'＝1,2,...,c₁，i'是原来第i个梯度被合并、排序后的编号；

S4.5输出r₁,r₂,...,r_c；

*在c＝1的时候，参数服务器仅接收一个梯度，步骤E1-E4可以简化为以下公式：

其中：

l是接收的梯度的延迟，b是接收的梯度的批量大小，r′是修改后的学习率。

本发明的有益效果在于，延迟梯度的学习率不再会随着数目的增多而线性上升，同时在计算时考虑到了当前接收的其它梯度的延迟情况和样本批量大小，将整体的学习率调整得更加平衡、更加科学。在实践中，计算节点数量较多、且每个计算节点的小批量大小较大时，该创新算法可以显著提高网络收敛速度和网络收敛后的精度。

附图说明

图1为本发明方法的流程示意图；

图2为本发明步骤4的流程示意图。

具体实施例

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

如图1所示，本发明为一种面向神经网络异步训练的学习率调整方法，所述方法包括以下步骤：

S1初始化参数；

S4对于c个接收的计算梯度，分别调整它们的学习率；

进一步的，所述需要初始化的参数至少包括：神经网络的相关超参数，如学习率、批次大小；将当前总体轮次t_glob设置为0以及随机初始化神经网络中的所有参数。

更进一步的，所述随机初始化神经网络中的所有参数的初始方法是将所有卷积层和全链接层的所有参数按标准正态分布N(0,1)初始化，对所有BN层的γ初始化为1，β初始化为0。

进一步的，如图2所示，所述步骤S4还包括：