CN111369008A

CN111369008A - 一种阶段性增大批量的机器学习方法

Info

Publication number: CN111369008A
Application number: CN202010143183.8A
Authority: CN
Inventors: 李武军; 赵申宜; 解银朋
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2020-07-03

Abstract

本发明公开了一种阶段性增大批量的机器学习方法：首先将训练过程分成数个阶段，每个阶段增大批量大小到上一阶段批量大小的一定倍数。每个阶段运行的算法如下：初始化参数，计算参数更新次数，然后进行循环；每次循环从所有数据中随机选取该阶段对应的批量大小的数据，计算这些数据对应的梯度，然后解优化问题更新参数；最后从该阶段中所有循环的更新后的参数中选取一个作为下一个阶段的初始化参数。本发明基于阶段性训练框架，每个阶段增大批量大小，大的批量可以减少参数更新次数，并且可以更充分地利用GPU等计算资源，提升单机机器学习效率。也可以用来减少多机分布式机器学习中的通信次数和参数更新次数，提升分布式机器学习的效率。

Description

一种阶段性增大批量的机器学习方法

技术领域

本发明涉及一种阶段性增大批量的机器学习方法，应用于机器学习领域的梯度下降法及其变种，可以有效地提高GPU利用效率，提高单机训练速度，提高分布式机器学习的效率。

背景技术

大部分机器学习模型可以被形式化为以下优化问题：

其中w代表了模型的参数，n代表了训练样本的总数，ξ_i代表了第i个样本，f(w；ξ_i)则表示第i个样本所对应的损失函数，d表示模型大小。为了求解上述优化问题，随机梯度下降法(SGD)以及它的变体是目前应用最为广泛的方法。随机梯度下降法的变种中一个非常经典并且广泛使用的是阶段性随机梯度下降法。阶段性随机梯度下降法基于多阶段学习框架，在其第s个阶段，进行如下迭代：

其中

是模型初始化参数，m＝1,2,…,M_s，

是从

中随机采样出来的一个批量大小为

的数据，η_s是第s个阶段的学习率，η_s在每个阶段迭代时保持不变，并随着阶段增加逐步减小。在第s个阶段迭代结束后，随机从{w_m}中选取一个或直接选择

作为下一阶段初始参数。

动态设置批量大小是指在训练过程中，批量数据的大小不是固定的，而是可以根据训练情况动态设置。可以根据随机梯度的方差大小来设置批量数据的大小，但是每一次迭代都需要计算随机梯度的噪声，会带来额外开销。也可以使用阶段性策略，从一个较小的批量大小开始，随着阶段增加逐步增大批量大小，但是增大的倍数很难太大，否则难以保证收敛，并且很容易增大泛化误差。

在单机环境下，增大批量大小可以减少参数更新次数，只要批量大小不超过内存限制，增大批量大小可以充分利用多核系统如GPU的计算力，因此可以加快训练速度，提高机器学习训练效率。另外在分布式环境下，增大批量大小既可以减少参数更新次数，也可以减少通信次数。但是不合理地增大批量大小会导致随机梯度下降法的收敛效果变差，相比于较小的批量大小容易增大泛化误差。因此需要有一种合理增大批量大小的方法。

发明内容

发明目的：目前的随机梯度下降法一般使用很小且固定的批量大小，一般不会占满GPU显存，而且难以充分利用GPU的计算力。在分布式环境下，小批量的随机梯度下降法参数更新次数多，通信次数频繁，通信开销大。现有的大批量数据训练的方法或者动态设置批量大小的方法，要么需要额外开销，要么容易增加泛化误差。针对以上问题和不足，提供一种阶段性增大批量的机器学习方法，基于多阶段训练框架，每个阶段迭代时保持学习率不变，随着阶段增加逐步增大批量大小，随机选取批量数据，算出对应的梯度，求解带二次惩罚的优化问题来更新参数，选取该阶段中的一个参数作为下一阶段的初始参数进行训练。可以看出，本发明的方法，阶段性的增大批量大小，无额外开销，可以应用于减少参数更新次数，更充分地利用GPU等计算资源，提升单机机器学习效率，也可以应用于减少多机分布式机器学习中的通信次数和参数更新次数，提升分布式机器学习的效率。实验和理论表明，本发明的方法具有收敛保证，不会增大泛化误差。

技术方案：一种阶段性增大批量的机器学习方法，具体步骤为：

步骤100，输入初始化机器学习模型参数

训练样本集合

训练样本集合大小n，训练阶段数S，学习率η，初始化批量大小b₁，初始化计算复杂度C₁，二次惩罚项系数γ>0，批量大小增大倍数ρ>1。

步骤101，随机初始化第一阶段模型参数

步骤102，初始化阶段s的初始模型参数

步骤103，计算阶段s的参数更新次数M_s＝C_s/b_s。

步骤104，从训练样本集合

中随机挑选该阶段对应的批量大小的数据

步骤105，计算批量数据

对应的梯度

步骤106，更新参数

其中r(w)为二次惩罚函数，

步骤107，判断当前已完成的迭代次数m是否达到该阶段参数更新次数M_s，如果未达到，返回步骤104继续训练。否则，b_s+1＝ρb_s，C_s+1＝ρC_s，

其中w_τ是从

中选出来的一个参数。

步骤108，判断当前阶段数s是否达到训练阶段数S，如果达到则返回参数

否则，s＝s+1，返回步骤102进入下一阶段的训练。

有益效果：本发明提供的阶段性增大批量的机器学习方法，适用于梯度下降法，也适用于梯度下降法的变种包括动量随机梯度下降法和自适应随机梯度下降法。本发明的方法基于多阶段训练框架，随着阶段数增加动态增大批量大小，与现有技术相比，本发明的方法无需在每次迭代中额外计算随机梯度的噪声，每个阶段可以把批量大小增大数倍或十几倍，将参数更新次数减小数倍或十几倍，可以更充分地利用GPU等计算资源，提升单机机器学习效率，而且保证泛化误差不会增大。本发明也可以用来减少多机分布式机器学习中的通信次数和参数更新次数，提升分布式机器学习的效率。

附图说明

图1是本发明实施例的方法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

阶段性增大批量的机器学习方法，可应用于图像分类、自然语言处理、语音识别等领域，适合于待分类的数据集样本数多、计算资源比较充分的场景。以图像分类应用为例，本发明的方法在图像分类应用中的具体工作流程如下所述：

如图1所示，首先输入初始化机器学习模型参数

训练阶段数S，学习率η，初始化批量图像数据大小b₁，初始化计算复杂度C₁，二次惩罚项系数γ>0，批量图像数据大小增大倍数ρ>1(步骤100)；随机初始化第一阶段模型参数

(步骤101)；初始化阶段数计数器s＝1(步骤102)；初始化迭代轮数计数器m＝1(步骤103)；初始化阶段s的初始模型参数

(步骤104)；随后进入到模型训练的迭代阶段：从训练图像数据集合

中随机挑选一个小批量图像数据

(步骤105)；根据小批量图像数据的类别标签，计算其对应的梯度

(步骤106)，更新参数

其中r(w)为二次惩罚函数，

(步骤107)。每次迭代结束时将迭代轮数计数器增加1(步骤108)并判断是否达到停止条件m＝M+1(步骤109)，若未达到停止条件则继续迭代，否则获取下一阶段初始参数

其中w_τ是从

中随机选出来的一个，并且增大批量和计算复杂度b_s+1＝ρb_s，C_s+1＝ρC_s(步骤110)，然后结束这一阶段迭代。每次一个阶段结束时，将训练阶段数计数器增加1(步骤111)并判断是否达到停止条件s＝S+1(步骤112)，若未达到停止条件，s＝s+1，进入下一个阶段，否则，返回参数

结束训练流程并使用

对非训练图像数据进行分类(步骤113)。

本发明的方法在多个图像分类数据集上进行了实验。实验过程中，初始设置较小的批量大小，每个阶段可以将批量大小增大4倍、8倍或12倍，跟采用小批量训练的方法比较总的训练时间和最终在测试集上的精度。实验结果表明，本发明提出的方法在不增大泛化误差的前提下，通过逐步增大批量大小可以更充分地利用GPU等计算资源，减少参数更新次数，提高机器学习效率。