CN110276455B - 基于全局率权重的分布式深度学习系统 - Google Patents

基于全局率权重的分布式深度学习系统 Download PDF

Info

Publication number
CN110276455B
CN110276455B CN201910530003.9A CN201910530003A CN110276455B CN 110276455 B CN110276455 B CN 110276455B CN 201910530003 A CN201910530003 A CN 201910530003A CN 110276455 B CN110276455 B CN 110276455B
Authority
CN
China
Prior art keywords
server
working
working node
global
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910530003.9A
Other languages
English (en)
Other versions
CN110276455A (zh
Inventor
王堃
沈楠
张焌峰
孙雁飞
亓晋
岳东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910530003.9A priority Critical patent/CN110276455B/zh
Publication of CN110276455A publication Critical patent/CN110276455A/zh
Application granted granted Critical
Publication of CN110276455B publication Critical patent/CN110276455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种基于全局率权重的分布式深度学习系统,所述系统包括多个工作节点和服务器;所述多个工作节点与所述服务器耦接;所述工作节点,适于按照预设的周期向服务器发送对应的网络分析参数;所述服务器,适于基于所述工作节点发送的网络分析参数,为工作节点分配对应的全局率学习权重。上述的方案,可以提高神经网络模型参数训练的效率。

Description

基于全局率权重的分布式深度学习系统
技术领域
本发明属于神经网络模型技术领域,特别是涉及一种基于全局率权重的分布式深度学习系统。
背景技术
随着深度学习的发展,数据增多计算规模增大,分布式深度学习变得愈发重要。面对大规模的分布式深度学习,如何才能够实现对分布式深度学习的高效处理,准确地为用户提供用户需求的服务,成为当今工业界和学术界一致关注的重要研究方向之一。为了提升分布式学习的效率和健壮性,只有正确处理工作节点掉队的问题,
但是,采用现有的分布式深度学习方法训练得到的神经网络模型参数,存在效率低下的问题。
发明内容
本发明解决的技术问题是如何提高神经网络模型参数训练的效率。
为了达到上述目的,本发明提供了一种基于全局率权重的分布式深度学习系统,所述系统包括多个工作节点和服务器;所述多个工作节点与所述服务器耦接;
所述工作节点,适于按照预设的周期向服务器发送对应的网络分析参数;
所述服务器,适于基于所述工作节点发送的网络分析参数,为工作节点分配对应的全局率学习权重。
可选地,所述工作节点,适于在参数训练阶段将对应的网络分析参数发送至所述服务器。
可选地,所述工作节点,适于将对应周期更新的局部训练参数与全局训练参数之间的差值与全局训练参数之间的差值作为所述网络分析参数。
可选地,所述服务器,适于基于所述差值,计算得到为所述工作节点分配的全局率学习权重。
可选地,所述服务器,适于采用如下的公式计算得到为所述工作节点分配的全局率学习权重:
Figure BDA0002099437590000021
其中,η表示工作节点的权重值,t表示预设的阈值,d表示所述工作节点更新的神经网络模型参数中局部训练参数与全局训练参数之间的差值,C表示预设的常数。
可选地,所述服务器,还适于基于所述工作节点发送的网络分析参数,对所述工作节点更新的局部训练参数进行过滤。
可选地,所述服务器,适于当确定所述差值大于或等于预设的阈值时,对所述工作节点更新的局部训练参数进行丢弃;当确定所述差值小于预设的阈值时,对所述工作节点更新的局部训练参数进行接收并保存。
与现有技术相比,本发明的有益效果为:
上述的方案,通过所述服务器基于所述工作节点发送的网络分析参数,为工作节点分配对应的全局率学习权重,为工作节点分配向适配的全局率学习权重,可以降低工作节点的掉队情形对神经网络模型训练的影响,故可以提高神经网络学习的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于全局率权重的分布式深度学习系统的结构示意图;
图2是本发明实施例的一种基于全局率权重的分布式深度学习方法的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅为本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
如背景技术所述,现有技术分布式中的深度学习方法存在着效率低下的问题。
本发明的技术方案通过上述的方案,通过所述服务器基于所述工作节点发送的网络分析参数,为工作节点分配对应的全局率学习权重,为工作节点分配向适配的全局率学习权重,可以降低工作节点的掉队情形对神经网络模型训练的影响,故可以提高神经网络学习的效率。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
为了便于理解,下面将首先对本发明实施例中的基于全局率权重的分布式深度学习系统的结构进行简要的介绍。
图1是本发明实施例的一种基于全局率权重的分布式深度学习系统的结构示意图。参见图1,一种基于全局率权重的分布式深度学习系统,具体可以包括服务器1和多个工作节点21~2n(n为大于1的整数)。其中,每个所述工作节点21~2n均与所述服务器1相耦接。
图2是本发明实施例的一种基于全局率权重的分布式深度学习方法的流程示意图。参见图2,一种基于全局率权重的分布式深度学习方法,具体可以包括如下的步骤:
步骤S201:工作节点按照预设的周期向服务器发送对应的网络分析参数。
在具体实施中,所述工作节点发送所述网络分析参数的周期,并非工作节点的局部训练参数的训练周期,而是服务器对工作节点的全局率学习权重进行更新的周期,其可以根据实际的需要进行设置,如设置为工作节点的局部训练参数的周期的3至5倍长度等。在本发明一实施例中,所述工作节点发送的网络分析参数为工作节点在对应周期训练得到的神经网络模型的局部训练参数与全局训练参数之间的差值。
在本发明另一实施例中,为了提高分布式深度学习的资源利用率和效率,通过进程管理器将一个工作节点分为深度学习训练版块和网络分析版块。由于分布式深度学习通过参数迭代完成,每一次迭代分成参数上传阶段和参数接收阶段。在参数上传阶段,工作节点处于计算资源空歇期,进程管理器此时将计算资源分配给网络分析版块进行局部训练参数与全局训练参数之间的差值的计算;在参数接收阶段,进程管理器重新将计算资源分配给深度学习训练版块进行局部训练参数的迭代训练,此时传输信道处于空闲期,可以进行计算得到的差值参数的上传。
步骤S202:所述服务器基于所述工作节点发送的网络分析参数,为工作节点分配对应的全局率学习权重。
在本发明一实施例中,所述服务器基于工作节点发送的神经网络模型的局部训练参数与全局训练参数之间的差值,采用如下的公式计算得到为所述工作节点分配的全局率学习权重:
Figure BDA0002099437590000041
其中,η表示工作节点的权重值,t表示预设的阈值,d表示所述工作节点更新的神经网络模型参数中局部训练参数与全局训练参数之间的差值,C表示预设的常数。
通过公式(1)可知,当所述工作节点更新的神经网络模型参数中局部训练参数与全局训练参数之间的差值越大时,表明工作节点的梯度延迟越大,即掉队情形越严重,分配给工作节点的全局率学习权重越小,从而可以有效降低掉队严重的工作节点训练的局部训练参数对训练结果的影响,加速神经网络模型的训练速度,提高学习的效率。
本发明一实施例中,所述基于全局率权重的分布式深度学习方法还包括:
步骤S203:所述服务器基于所述工作节点发送的网络分析参数,对所述工作节点更新的局部训练参数进行过滤。
在具体实施中,为了保证所获取的参数信息的有效性,减少对无效数据的存储和计算所带来的系统开销,所述服务器可以基于所述工作节点发送的网络分析参数,对严重掉队的工作节点更新的局部训练参数进行过滤。具体而言,所述服务器可以将所接收的所述工作节点发送的局部训练参数与全局训练参数之间的差值与预设的阈值进行比较;当确定所述差值大于或等于预设的阈值时,对所述工作节点更新的局部训练参数进行丢弃;否则,对所述工作节点更新的局部训练参数进行接收并保存。经过过滤,一些无效的或者过失的局部训练参数将不再占用系统资源。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一项所述的基于全局率权重的分布式深度学习方法的步骤。
本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一项所述的基于全局率权重的分布式深度学习方法的步骤。
采用本发明实施例中的上述方案,通过所述服务器基于所述工作节点发送的网络分析参数,为工作节点分配对应的全局率学习权重,为工作节点分配向适配的全局率学习权重,可以降低工作节点的掉队情形对神经网络模型训练的影响,故可以提高神经网络学习的效率。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。

Claims (4)

1.一种基于全局率权重的分布式深度学习系统,其特征在于,包括多个工作节点和服务器;所述多个工作节点与所述服务器耦接;
所述工作节点,适于按照预设的周期向服务器发送对应的网络分析参数,具体地,将对应周期更新的局部训练参数与全局训练参数之间的差值与全局训练参数之间的差值作为所述网络分析参数;
所述服务器,适于基于所述工作节点发送的网络分析参数,为工作节点分配对应的全局率学习权重,具体地,采用如下的公式基于所述差值,计算得到为所述工作节点分配的全局率学习权重:
Figure FDA0003709480590000011
其中,η表示工作节点的权重值,t表示预设的阈值,d表示所述工作节点更新的神经网络模型参数中局部训练参数与全局训练参数之间的差值,C表示预设的常数。
2.根据权利要求1所述的基于全局率权重的分布式深度学习系统,其特征在于,所述工作节点,适于在参数训练阶段将对应的网络分析参数发送至所述服务器。
3.根据权利要求1所述的基于全局率权重的分布式深度学习系统,其特征在于,所述服务器,还适于基于所述工作节点发送的网络分析参数,对所述工作节点更新的局部训练参数进行过滤。
4.根据权利要求1所述的基于全局率权重的分布式深度学习系统,其特征在于,所述服务器,适于当确定所述差值大于或等于预设的阈值时,对所述工作节点更新的局部训练参数进行丢弃;当确定所述差值小于预设的阈值时,对所述工作节点更新的局部训练参数进行接收并保存。
CN201910530003.9A 2019-06-19 2019-06-19 基于全局率权重的分布式深度学习系统 Active CN110276455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910530003.9A CN110276455B (zh) 2019-06-19 2019-06-19 基于全局率权重的分布式深度学习系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910530003.9A CN110276455B (zh) 2019-06-19 2019-06-19 基于全局率权重的分布式深度学习系统

Publications (2)

Publication Number Publication Date
CN110276455A CN110276455A (zh) 2019-09-24
CN110276455B true CN110276455B (zh) 2022-08-30

Family

ID=67961317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910530003.9A Active CN110276455B (zh) 2019-06-19 2019-06-19 基于全局率权重的分布式深度学习系统

Country Status (1)

Country Link
CN (1) CN110276455B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997337B (zh) * 2022-07-18 2023-01-13 浪潮电子信息产业股份有限公司 信息融合、数据通信方法、装置及电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170134520A1 (en) * 2015-11-09 2017-05-11 Telefonaktiebolaget L M Ericsson (Publ) Systems and methods for distributed network-aware service placement
CN109032671A (zh) * 2018-06-25 2018-12-18 电子科技大学 一种基于数据并行策略的分布式深度学习方法及系统
CN109754060A (zh) * 2017-11-06 2019-05-14 阿里巴巴集团控股有限公司 一种神经网络机器学习模型的训练方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170134520A1 (en) * 2015-11-09 2017-05-11 Telefonaktiebolaget L M Ericsson (Publ) Systems and methods for distributed network-aware service placement
CN109754060A (zh) * 2017-11-06 2019-05-14 阿里巴巴集团控股有限公司 一种神经网络机器学习模型的训练方法及装置
CN109032671A (zh) * 2018-06-25 2018-12-18 电子科技大学 一种基于数据并行策略的分布式深度学习方法及系统

Also Published As

Publication number Publication date
CN110276455A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN112181971B (zh) 一种基于边缘的联邦学习模型清洗和设备聚类方法、系统
CN109902818B (zh) 一种面向深度学习训练任务的分布式加速方法及系统
CN111708640A (zh) 一种面向边缘计算的联邦学习方法和系统
CN110084378B (zh) 一种基于本地学习策略的分布式机器学习方法
CN107229966B (zh) 一种模型数据更新方法、装置及系统
CN110889509A (zh) 一种基于梯度动量加速的联合学习方法及装置
CN111142942B (zh) 窗口数据的处理方法、装置、服务器及存储介质
CN104734985A (zh) 数据接收流量控制方法及其系统
CN112463326A (zh) 连续离散混合系统仿真推进方法及装置、设备及介质
CN106406830B (zh) 一种准周期信号的处理方法、装置和计算机可读存储介质
CN113033800A (zh) 分布式深度学习方法、装置、参数服务器及主工作节点
CN112686383B (zh) 一种通信并行的分布式随机梯度下降的方法、系统及装置
CN110276455B (zh) 基于全局率权重的分布式深度学习系统
CN109032630B (zh) 一种参数服务器中全局参数的更新方法
CN109976873B (zh) 容器化分布式计算框架的调度方案获取方法及调度方法
CN111511028A (zh) 一种多用户资源分配方法、装置、系统及存储介质
CN110414569A (zh) 聚类实现方法及装置
CN110347477B (zh) 一种云环境下服务自适应部署方法和装置
CN110837395B (zh) 多gpu并行训练的归一化处理方法、装置和系统
CN117151208A (zh) 基于自适应学习率的异步联邦学习参数更新方法、电子设备及存储介质
CN111898763A (zh) 一种鲁棒的拜占庭容错分布式梯度下降算法
Wang et al. Gradient scheduling with global momentum for asynchronous federated learning in edge environment
CN114841341B (zh) 图像处理模型训练及图像处理方法、装置、设备和介质
CN111538560B (zh) 一种虚拟机部署方法、装置、电子设备及其存储介质
CN112732960B (zh) 一种基于在线联邦学习的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant