CN110659745A

CN110659745A - 一种具有动态学习速率边界的分布式自适应矩估计方法

Info

Publication number: CN110659745A
Application number: CN201910941984.6A
Authority: CN
Inventors: 申修宇; 李德权; 方润月
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-07

Abstract

基于自适应梯度的优化方法如ADAGRAD、RMSPROP、ADAM等被广泛应用于解决包括深度学习在内的大规模机器学习问题。在现有的工作中，已经针对外围节点与中心节点的通信并行化问题提出了许多解决方案，但通信成本往往较高。并且现有的方法普遍存在泛化能力较差，甚至由于不稳定和极端的学习率而无法收敛。为了解决目前存在的问题，开发了一种新的具有动态学习速率边界的分布式自适应矩估计方法(DADBOUND)，用于在分散网络上进行在线优化，从而实现数据并行化和分散计算。并且该方法利用学习率的动态范围来实现从自适应方法到DSGD的渐进平稳过渡，以消除自适应方法和DSGD之间的泛化差距，同时在训练初期保持较高的学习速度。最后，对各种任务进行了实验验证，结果表明DADBOUND方法在实际应用中效果良好，与其他在线优化方法相比具有一定的优势。

Description

一种具有动态学习速率边界的分布式自适应矩估计方法

技术领域

本发明涉及一种具有动态学习速率边界的分布式自适应矩估计方法，属于机器学习领域。

背景技术

在线优化是解决各种机器学习问题的基本过程。它可以表示为学习者(算法)和对手之间的重复博弈。分散式在线凸优化在科学和工程领域得到了广泛的关注。例如分布式跟踪，估计和检测等经典问题本质上也是优化问题。分布式优化问题主要是执行分配给网络中每个节点的全局优化任务。相比集中式优化，分布式优化对节点施加较低的计算负担，并且即使节点经历本地故障，网络系统仍然保持稳健，因此它可以有效地克服集中式场景中单个信息处理单元中的缺陷。

目前，在分散优化中，梯度下降算法是一种常用算法，SGD是常用的梯度下降算法，然而，SGD的缺点是在各个方向上梯度均匀。在训练数据稀疏的情况下，这可能会导致较差的性能和有限的训练速度。为了解决这一问题，最近的工作提出了各种自适应方法，将梯度按过去梯度的平方值的平均值的某种形式的平方根来缩放梯度。尽管这些自适应方法很受欢迎，但它们的泛化能力和样本外行为可能比非自适应方法差。同样在对自适应方法ADAM的研究中发现在训练结束时存在着极高和极低的学习率，致使自适应方法缺乏泛化性能可能是由于学习速度不稳定和极端。

总结目前存在的问题是①现有的分布式随机和自适应梯度深度学习方法大多是针对中心网络拓扑结构设计的。这种拓扑结构的主要瓶颈在于中心节点上的通信过载，因为所有节点都需要与它并发通信。因此，当网络带宽有限时，性能会显著降低。②现有的自适应方法中，存在训练结束时学习率不稳定即过大过小问题，导致最终方法的泛化性能差，解决实际问题效果不理想。

发明内容

本发明所要解决的技术问题是：提供一种具有动态学习速率边界的分布式自适应矩估计方法，旨在解决集中式场景中的中心节点通信过载以及训练时的极端学习率问题。

为解决以上技术问题，本发明采用如下的技术方案：

考虑研究网络拓扑的自适应方法，其中所有节点只能与其邻居通信，没有一个节点被指定为“中心”。并且受梯度裁剪的启发，在分布式ADAM中使用了学习速率的裁剪，用于裁剪大于阈值的学习率，以避免极端学习率的发生。该方法既能并行化数据，又能分散计算，适用于大规模机器学习问题。

附图说明

图1是本发明的方法在L1正则化逻辑回归模型的收敛图。

图2是本发明的方法在线性支持向量机模型的收敛图。

图3是本发明的方法在softmax分类回归模型的收敛图。

具体实施方式

本发明解决在连通无向网络上的分布式优化问题，避免集中式场景中单个信息处理单元中的缺陷，造成中心节点通信成本过高，以及自适应方法存在训练结束时的极端学习率问题。

具体步骤为：

Step1：揭示损失函数f_t(t)＝f_i,t(t)

Step3：计算个体产生信息的次梯度，g_it∈f_i,t(x_i,t)

对于每个个体：

在分布式网络中，通过加权平均进行个体的信息传递(Step4中的第五行)，以确保充分利用重要个体的信息。此外，该方法引入了学习率裁剪技术，避免了在学习过程中学习率过大或者过小的问题，实现从自适应方法到DSGD的渐进平稳过渡，以消除自适应方法和DSGD之间的泛化差距，同时在训练初期保持较高的学习速度。α_t是学习率。

以下结合附图对本发明作进一步的说明。

图1是本发明的方法在L1正则化逻辑回归模型的收敛图。考虑在线分布式学习环境：我们的目标是解决L1正则化逻辑回归问题，对于合成数据集，数值结果如图1所示。可以看出，本发明提出的方法优于其他已存在的方法。图1还显示了该方法的收敛速度在开始时明显快于其他方法。

图2是本发明的方法在线性支持向量机模型的收敛图。在实际数据集上进行了实验，结果令人满意。从图2可以看出，本文提出的方法达到了预期效果。从图2中可以看出，该方法的损耗很快达到较小水平，性能优于其他方法，可能更适合实际应用。

图3是本发明的方法在softmax分类回归模型的收敛图。测试采用了著名的minist数据集，结果令人满意。从图3中可以看出，该方法的损失很快达到较小水平，性能优于其他方法，可能更适合实际应用。

Claims

1.一种具有动态学习速率边界的分布式自适应矩估计方法，其特征在于:网络拓扑的自适应性，分布式网络中所有节点只能与其邻居通信，没有一个节点被指定为“中心”。并且受梯度裁剪的启发，在分布式ADAM中使用了学习速率的裁剪，用于裁剪大于阈值的学习率，以避免极端学习率的发生。

2.根据权利要求1所述的分布式网络中所有节点只能与其邻居通信，没有一个节点被指定为“中心”。其特征在于：在分布式在线凸优化设置中，每个节点代表一个个体，在每轮迭代中，个体产生决策信息，个体独立得提交决策信息并获得相应的成本函数。

3.根据权利要求1阐述的受梯度裁剪的启发，在分布式ADAM中使用了学习速率的裁剪，用于裁剪大于阈值的学习率，以避免极端学习率的发生。其特征在于：在训练过程中实施学习率裁剪，使得学习率始终处于一个合理的范围，避免极端学习率的出现。