CN110659745A - 一种具有动态学习速率边界的分布式自适应矩估计方法 - Google Patents
一种具有动态学习速率边界的分布式自适应矩估计方法 Download PDFInfo
- Publication number
- CN110659745A CN110659745A CN201910941984.6A CN201910941984A CN110659745A CN 110659745 A CN110659745 A CN 110659745A CN 201910941984 A CN201910941984 A CN 201910941984A CN 110659745 A CN110659745 A CN 110659745A
- Authority
- CN
- China
- Prior art keywords
- learning rate
- distributed
- adaptive
- learning
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 19
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 4
- 238000010801 machine learning Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000007704 transition Effects 0.000 abstract description 2
- 230000002093 peripheral effect Effects 0.000 abstract 1
- 238000012795 verification Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 238000007477 logistic regression Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Complex Calculations (AREA)
Abstract
基于自适应梯度的优化方法如ADAGRAD、RMSPROP、ADAM等被广泛应用于解决包括深度学习在内的大规模机器学习问题。在现有的工作中,已经针对外围节点与中心节点的通信并行化问题提出了许多解决方案,但通信成本往往较高。并且现有的方法普遍存在泛化能力较差,甚至由于不稳定和极端的学习率而无法收敛。为了解决目前存在的问题,开发了一种新的具有动态学习速率边界的分布式自适应矩估计方法(DADBOUND),用于在分散网络上进行在线优化,从而实现数据并行化和分散计算。并且该方法利用学习率的动态范围来实现从自适应方法到DSGD的渐进平稳过渡,以消除自适应方法和DSGD之间的泛化差距,同时在训练初期保持较高的学习速度。最后,对各种任务进行了实验验证,结果表明DADBOUND方法在实际应用中效果良好,与其他在线优化方法相比具有一定的优势。
Description
技术领域
本发明涉及一种具有动态学习速率边界的分布式自适应矩估计方法,属于机器学习领域。
背景技术
在线优化是解决各种机器学习问题的基本过程。它可以表示为学习者(算法)和对手之间的重复博弈。分散式在线凸优化在科学和工程领域得到了广泛的关注。例如分布式跟踪,估计和检测等经典问题本质上也是优化问题。分布式优化问题主要是执行分配给网络中每个节点的全局优化任务。相比集中式优化,分布式优化对节点施加较低的计算负担,并且即使节点经历本地故障,网络系统仍然保持稳健,因此它可以有效地克服集中式场景中单个信息处理单元中的缺陷。
目前,在分散优化中,梯度下降算法是一种常用算法,SGD是常用的梯度下降算法,然而,SGD的缺点是在各个方向上梯度均匀。在训练数据稀疏的情况下,这可能会导致较差的性能和有限的训练速度。为了解决这一问题,最近的工作提出了各种自适应方法,将梯度按过去梯度的平方值的平均值的某种形式的平方根来缩放梯度。尽管这些自适应方法很受欢迎,但它们的泛化能力和样本外行为可能比非自适应方法差。同样在对自适应方法ADAM的研究中发现在训练结束时存在着极高和极低的学习率,致使自适应方法缺乏泛化性能可能是由于学习速度不稳定和极端。
总结目前存在的问题是①现有的分布式随机和自适应梯度深度学习方法大多是针对中心网络拓扑结构设计的。这种拓扑结构的主要瓶颈在于中心节点上的通信过载,因为所有节点都需要与它并发通信。因此,当网络带宽有限时,性能会显著降低。②现有的自适应方法中,存在训练结束时学习率不稳定即过大过小问题,导致最终方法的泛化性能差,解决实际问题效果不理想。
发明内容
本发明所要解决的技术问题是:提供一种具有动态学习速率边界的分布式自适应矩估计方法,旨在解决集中式场景中的中心节点通信过载以及训练时的极端学习率问题。
为解决以上技术问题,本发明采用如下的技术方案:
考虑研究网络拓扑的自适应方法,其中所有节点只能与其邻居通信,没有一个节点被指定为“中心”。并且受梯度裁剪的启发,在分布式ADAM中使用了学习速率的裁剪,用于裁剪大于阈值的学习率,以避免极端学习率的发生。该方法既能并行化数据,又能分散计算,适用于大规模机器学习问题。
附图说明
图1是本发明的方法在L1正则化逻辑回归模型的收敛图。
图2是本发明的方法在线性支持向量机模型的收敛图。
图3是本发明的方法在softmax分类回归模型的收敛图。
具体实施方式
本发明解决在连通无向网络上的分布式优化问题,避免集中式场景中单个信息处理单元中的缺陷,造成中心节点通信成本过高,以及自适应方法存在训练结束时的极端学习率问题。
具体步骤为:
Step1:揭示损失函数ft(t)=fi,t(t)
Step3:计算个体产生信息的次梯度,git∈fi,t(xi,t)
对于每个个体:
在分布式网络中,通过加权平均进行个体的信息传递(Step4中的第五行),以确保充分利用重要个体的信息。此外,该方法引入了学习率裁剪技术,避免了在学习过程中学习率过大或者过小的问题,实现从自适应方法到DSGD的渐进平稳过渡,以消除自适应方法和DSGD之间的泛化差距,同时在训练初期保持较高的学习速度。αt是学习率。
以下结合附图对本发明作进一步的说明。
图1是本发明的方法在L1正则化逻辑回归模型的收敛图。考虑在线分布式学习环境:我们的目标是解决L1正则化逻辑回归问题,对于合成数据集,数值结果如图1所示。可以看出,本发明提出的方法优于其他已存在的方法。图1还显示了该方法的收敛速度在开始时明显快于其他方法。
图2是本发明的方法在线性支持向量机模型的收敛图。在实际数据集上进行了实验,结果令人满意。从图2可以看出,本文提出的方法达到了预期效果。从图2中可以看出,该方法的损耗很快达到较小水平,性能优于其他方法,可能更适合实际应用。
图3是本发明的方法在softmax分类回归模型的收敛图。测试采用了著名的minist数据集,结果令人满意。从图3中可以看出,该方法的损失很快达到较小水平,性能优于其他方法,可能更适合实际应用。
Claims (3)
1.一种具有动态学习速率边界的分布式自适应矩估计方法,其特征在于:网络拓扑的自适应性,分布式网络中所有节点只能与其邻居通信,没有一个节点被指定为“中心”。并且受梯度裁剪的启发,在分布式ADAM中使用了学习速率的裁剪,用于裁剪大于阈值的学习率,以避免极端学习率的发生。
2.根据权利要求1所述的分布式网络中所有节点只能与其邻居通信,没有一个节点被指定为“中心”。其特征在于:在分布式在线凸优化设置中,每个节点代表一个个体,在每轮迭代中,个体产生决策信息,个体独立得提交决策信息并获得相应的成本函数。
3.根据权利要求1阐述的受梯度裁剪的启发,在分布式ADAM中使用了学习速率的裁剪,用于裁剪大于阈值的学习率,以避免极端学习率的发生。其特征在于:在训练过程中实施学习率裁剪,使得学习率始终处于一个合理的范围,避免极端学习率的出现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910941984.6A CN110659745A (zh) | 2019-09-30 | 2019-09-30 | 一种具有动态学习速率边界的分布式自适应矩估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910941984.6A CN110659745A (zh) | 2019-09-30 | 2019-09-30 | 一种具有动态学习速率边界的分布式自适应矩估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110659745A true CN110659745A (zh) | 2020-01-07 |
Family
ID=69038706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910941984.6A Pending CN110659745A (zh) | 2019-09-30 | 2019-09-30 | 一种具有动态学习速率边界的分布式自适应矩估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110659745A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111580962A (zh) * | 2020-04-29 | 2020-08-25 | 安徽理工大学 | 一种具有权值衰减的分布式自适应在线学习方法 |
CN114047691A (zh) * | 2022-01-10 | 2022-02-15 | 杭州海康威视数字技术股份有限公司 | 自适应学习率协同优化的目标识别方法、装置及电子设备 |
US11875256B2 (en) | 2020-07-09 | 2024-01-16 | International Business Machines Corporation | Dynamic computation in decentralized distributed deep learning training |
US11886969B2 (en) | 2020-07-09 | 2024-01-30 | International Business Machines Corporation | Dynamic network bandwidth in distributed deep learning training |
US11977986B2 (en) | 2020-07-09 | 2024-05-07 | International Business Machines Corporation | Dynamic computation rates for distributed deep learning |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104954972A (zh) * | 2015-06-01 | 2015-09-30 | 北京工业大学 | 基于并行投影方法的l1正则化核学习机的分布式训练方法 |
-
2019
- 2019-09-30 CN CN201910941984.6A patent/CN110659745A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104954972A (zh) * | 2015-06-01 | 2015-09-30 | 北京工业大学 | 基于并行投影方法的l1正则化核学习机的分布式训练方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111580962A (zh) * | 2020-04-29 | 2020-08-25 | 安徽理工大学 | 一种具有权值衰减的分布式自适应在线学习方法 |
US11875256B2 (en) | 2020-07-09 | 2024-01-16 | International Business Machines Corporation | Dynamic computation in decentralized distributed deep learning training |
US11886969B2 (en) | 2020-07-09 | 2024-01-30 | International Business Machines Corporation | Dynamic network bandwidth in distributed deep learning training |
US11977986B2 (en) | 2020-07-09 | 2024-05-07 | International Business Machines Corporation | Dynamic computation rates for distributed deep learning |
CN114047691A (zh) * | 2022-01-10 | 2022-02-15 | 杭州海康威视数字技术股份有限公司 | 自适应学习率协同优化的目标识别方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110659745A (zh) | 一种具有动态学习速率边界的分布式自适应矩估计方法 | |
CN112181971B (zh) | 一种基于边缘的联邦学习模型清洗和设备聚类方法、系统 | |
Tang et al. | Computational intelligence and deep learning for next-generation edge-enabled industrial IoT | |
CN110851429B (zh) | 一种基于影响力自适应聚合的边缘计算可信协同服务方法 | |
CN113011599A (zh) | 基于异构数据的联邦学习系统 | |
CN111988225B (zh) | 基于强化学习和迁移学习的多路径路由方法 | |
CN113110039B (zh) | 一种多智能体系统的有限时间分布式聚合优化方法 | |
CN114584581B (zh) | 面向智慧城市物联网信物融合的联邦学习系统及联邦学习训练方法 | |
CN110968426A (zh) | 一种基于在线学习的边云协同k均值聚类的模型优化方法 | |
CN107169557A (zh) | 一种对布谷鸟优化算法进行改进的方法 | |
CN113378474B (zh) | 一种基于贡献量的联邦学习客户机选择方法、系统及介质 | |
CN109818792B (zh) | 一种基于二阶线性系统时变耦合复杂动态网络模型的控制器 | |
CN106095921B (zh) | 面向海量数据流的实时并行分类方法 | |
CN104467999B (zh) | 一种基于量子蛙跳的频谱感知算法 | |
CN114254761A (zh) | 一种适用于异构网络的通用联邦学习实现方法 | |
CN109391511B (zh) | 一种基于可拓展训练网络的智能通信资源分配策略 | |
CN112287990A (zh) | 一种基于在线学习的边云协同支持向量机的模型优化方法 | |
CN107094112A (zh) | 基于果蝇优化算法的带宽约束组播路由优化方法 | |
CN111221646A (zh) | 分布式机器学习的参数同步方法及装置 | |
CN117392483B (zh) | 基于增强学习的相册分类模型训练加速方法、系统及介质 | |
CN105373804B (zh) | 一种基于多维空间快速聚类的人体部位定位方法与系统 | |
CN115695429A (zh) | 面向Non-IID场景的联邦学习客户端选择方法 | |
CN114298319B (zh) | 联合学习贡献值的确定方法、装置、电子设备及存储介质 | |
CN111860630B (zh) | 基于特征重要性的模型建立方法及系统 | |
CN114401192A (zh) | 一种多sdn控制器协同训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200107 |