CN110059829A - 一种异步参数服务器高效并行架构与方法 - Google Patents

一种异步参数服务器高效并行架构与方法 Download PDF

Info

Publication number
CN110059829A
CN110059829A CN201910362049.4A CN201910362049A CN110059829A CN 110059829 A CN110059829 A CN 110059829A CN 201910362049 A CN201910362049 A CN 201910362049A CN 110059829 A CN110059829 A CN 110059829A
Authority
CN
China
Prior art keywords
server
parameter
calculate node
parallel
asynchronous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910362049.4A
Other languages
English (en)
Inventor
姜凯
于治楼
高岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Hi Tech Investment and Development Co Ltd
Original Assignee
Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Hi Tech Investment and Development Co Ltd filed Critical Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority to CN201910362049.4A priority Critical patent/CN110059829A/zh
Publication of CN110059829A publication Critical patent/CN110059829A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明特别涉及一种异步参数服务器高效并行架构与方法。该异步参数服务器高效并行架构,逻辑架构包括作业管理系统,数据服务器,参数服务器和计算节点四个部分;物理架构则采用统一的硬件平台。该异步参数服务器高效并行架构与方法,通过异步处理的方式极大的降低了通信开销,同时采用参数服务器的并行方案,充分发挥了模块化设计的优势,对于梯度下降方法具有极好的通用性;而且由于计算节点可以不参与控制流,进行了较好的容错性和动态调度设计,实现了对网络、计算和存储的高效融合,进而提升了云应用效率。

Description

一种异步参数服务器高效并行架构与方法
技术领域
本发明涉及人工智能模型训练技术领域,特别涉及一种异步参数服务器高效并行架构与方法。
背景技术
应用传统的大数据处理框架训练大型的机器学习模型时,由于数据量比较大,并且训练方法多样,存在着一致性、扩展性和稳定性的问题。较大的机器学习模型也意味着参数较多,因而需要实现分布式并行训练,参数服务器是分布式并行训练框架之一,存放着模型的参数和状态。参数服务器具有以下特点:
1、能够实现高效通信;
2、具有宽松一致性;
3、灵活、可扩展性强;
4、容错能力强;
5、调用方便。
异步参数服务器当前是并行梯度下降(神经网络和一些传统模型训练的主要方法)最高效的解决方案之一。但是,传统的基于消息传递的解决方案,由于计算节点间同步开销较大,很难达到令人满意的加速效果。
基于此,本发明提出了一种异步参数服务器高效并行架构与方法,将网络、计算、存储实现高效融合,以提升云应用效率。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的异步参数服务器高效并行架构与方法。
本发明是通过如下技术方案实现的:
一种异步参数服务器高效并行架构与方法,其特征在于:逻辑架构包括作业管理系统,数据服务器,参数服务器和计算节点四个部分;物理架构则采用统一的硬件平台。
所述异步参数服务器高效并行架构,包括作业管理系统,数据管理器,计算节点和参数服务器,采用CS架构进行计算节点和参数服务器的耦合,将计算节点间的通信抽象到参数服务器中;所述计算节点通过数据消息队列连接到数据服务器,通过参数消息队列连接到参数服务器,所述数据服务器还连接有文件系统,所述文件系统用于存储异步参数服务器并行训练集。
由于所述参数服务器和计算节点采用统一的硬件平台,可以使用同一套硬件,任何一个计算节点都可以作为参数服务器或者计算节点来使用。
基于该异步参数服务器高效并行架构的并行方法,采用计算节点计算梯度,参数服务器完成梯度下降(Gradient Descent)的方式实现参数服务器并行方案,采用异步处理的方式降低通信开销。
同时由于计算节点不参与控制流,所述参数服务器能够实现对计算节点的动态调度;同时当其中一个计算节点宕机时不影响参数服务器对其他计算节点的调用,具有较好的容错性。
所述计算节点通过访问数据服务器读取文件系统中的异步参数服务器并行训练集,通过访问参数服务器获取当前参数值,并利用当前参数值计算梯度。
基于该异步参数服务器高效并行架构的并行方法,具体包括以下步骤:
(1)数据服务器读取文件系统的异步参数服务器并行训练集,并将其中一个子集通过数据消息队列发送到计算节点;
(2)计算节点利用参数消息队列从参数服务器获取当前的参数值,并在异步参数服务器并行训练集子集和当前参数值的基础上计算出局部的梯度;
(3)计算节点将计算出的局部梯度推送到参数服务器,参数服务器完成参数的更新,从而完成一次迭代;
(4)在此基础上,参数服务器为多个计算节点提供服务,从而实现训练任务的并行化。
基于该异步参数服务器高效并行架构的并行方法,进行训练的步骤如下:
(1)先通过作业管理系统启动参数服务器和数据服务器,通过作业管理系统将计算节点加入到子集训练作业中;
(2)计算节点从参数服务器获得一版当前模型状态的快照,提取出参数服务器获取当前模型状态的参数值,并以该参数值为基础计算局部梯度。
所述步骤(1)中,当有新的计算节点空闲时,作业管理系统将新的计算节点加入到正在训练的作业中,从而实现计算资源的高效利用。
本发明的有益效果是:该异步参数服务器高效并行架构与方法,通过异步处理的方式极大的降低了通信开销,同时采用参数服务器的并行方案,充分发挥了模块化设计的优势,对于梯度下降方法具有极好的通用性;而且由于计算节点可以不参与控制流,进行了较好的容错性和动态调度设计,实现了对网络、计算和存储的高效融合,进而提升了云应用效率。
附图说明
附图1为本发明异步参数服务器高效并行架构示意图。
附图2为本发明异步参数服务器高效并行方法迭代流程示意图。
附图3为本发明异步参数服务器高效并行方法动态任务调度示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该异步参数服务器高效并行架构,逻辑架构包括作业管理系统,数据服务器,参数服务器和计算节点四个部分;物理架构则采用统一的硬件平台。
所述异步参数服务器高效并行架构,包括作业管理系统,数据管理器,计算节点和参数服务器,采用CS架构进行计算节点和参数服务器的耦合,将计算节点间的通信抽象到参数服务器中;所述计算节点通过数据消息队列连接到数据服务器,通过参数消息队列连接到参数服务器,所述数据服务器还连接有文件系统,所述文件系统用于存储异步参数服务器并行训练集。
由于所述参数服务器和计算节点采用统一的硬件平台,可以使用同一套硬件,任何一个计算节点都可以作为参数服务器或者计算节点来使用。
基于该异步参数服务器高效并行架构的并行方法,采用计算节点计算梯度,参数服务器完成梯度下降(Gradient Descent)的方式实现参数服务器并行方案,采用异步处理的方式降低通信开销。
参数服务器采用异步通信的方式,模型训练集和参数各自独立存储,是各迭代之间并行训练,大大减少了延时。
数据并行是指个机器上的模型相同,对训练数据进行分割,并分配到各机器上,最后将计算结果按照某种方式合并。数据并行方法主要应用在海量训练数据的情况,数据以并行化方式训练,训练过程中组合各计算节点的结果,实现模型参数的更新。参数并行常用的方法有参数平均和异步梯度下降两种方法。
异步梯度下降是一种基于更新的数据并行化,它传递的是模型训练过程中的梯度、动量等信息,而没有直接传递参数值。这样一方面可以减少传输数据量,提高网络传输效率。另一方面,不同计算节点通过共享梯度,可以提高模型收敛速度。
同时由于计算节点不参与控制流,所述参数服务器能够实现对计算节点的动态调度;同时当其中一个计算节点宕机时不影响参数服务器对其他计算节点的调用,具有较好的容错性。
所述计算节点通过访问数据服务器读取文件系统中的异步参数服务器并行训练集,通过访问参数服务器获取当前参数值,并利用当前参数值计算梯度。
基于该异步参数服务器高效并行架构的并行方法,具体包括以下步骤:
(1)数据服务器读取文件系统的异步参数服务器并行训练集,并将其中一个子集通过数据消息队列发送到计算节点;
(2)计算节点利用参数消息队列从参数服务器获取当前的参数值,并在异步参数服务器并行训练集子集和当前参数值的基础上计算出局部的梯度;
(3)计算节点将计算出的局部梯度推送到参数服务器,参数服务器完成参数的更新,从而完成一次迭代;
(4)在此基础上,参数服务器为多个计算节点提供服务,从而实现训练任务的并行化。
基于该异步参数服务器高效并行架构的并行方法,进行训练的步骤如下:
(1)先通过作业管理系统启动参数服务器和数据服务器,通过作业管理系统将计算节点加入到子集训练作业中;
(2)计算节点从参数服务器获得一版当前模型状态的快照,提取出参数服务器获取当前模型状态的参数值,并以该参数值为基础计算局部梯度。
所述步骤(1)中,当有新的计算节点空闲时,作业管理系统将新的计算节点加入到正在训练的作业中,从而实现计算资源的高效利用。

Claims (9)

1.一种异步参数服务器高效并行架构,其特征在于:逻辑架构包括作业管理系统,数据服务器,参数服务器和计算节点四个部分;物理架构则采用统一的硬件平台。
2.根据权利要求1所述的异步参数服务器高效并行架构,其特征在于:包括作业管理系统,数据管理器,计算节点和参数服务器,采用CS架构进行计算节点和参数服务器的耦合,将计算节点间的通信抽象到参数服务器中;所述计算节点通过数据消息队列连接到数据服务器,通过参数消息队列连接到参数服务器,所述数据服务器还连接有文件系统,所述文件系统用于存储异步参数服务器并行训练集。
3.根据权利要求1所述的异步参数服务器高效并行架构,其特征在于:由于所述参数服务器和计算节点采用统一的硬件平台,可以使用同一套硬件,任何一个计算节点都可以作为参数服务器或者计算节点来使用。
4.根据权利要求1~3所述的异步参数服务器高效并行架构的并行方法,其特征在于:采用计算节点计算梯度,参数服务器完成梯度下降的方式实现参数服务器并行方案,采用异步处理的方式降低通信开销。
5.根据权利要求4所述的异步参数服务器高效并行架构的并行方法,其特征在于:由于计算节点不参与控制流,所述参数服务器能够实现对计算节点的动态调度;同时当其中一个计算节点宕机时不影响参数服务器对其他计算节点的调用,具有较好的容错性。
6.根据权利要求4所述的异步参数服务器高效并行架构的并行方法,其特征在于:所述计算节点通过访问数据服务器读取文件系统中的异步参数服务器并行训练集,通过访问参数服务器获取当前参数值,并利用当前参数值计算梯度。
7.根据权利要求6所述的异步参数服务器高效并行架构的并行方法,其特征在于,具体包括以下步骤:
(1)数据服务器读取文件系统的异步参数服务器并行训练集,并将其中一个子集通过数据消息队列发送到计算节点;
(2)计算节点利用参数消息队列从参数服务器获取当前的参数值,并在异步参数服务器并行训练集子集和当前参数值的基础上计算出局部的梯度;
(3)计算节点将计算出的局部梯度推送到参数服务器,参数服务器完成参数的更新,从而完成一次迭代;
(4)在此基础上,参数服务器为多个计算节点提供服务,从而实现训练任务的并行化。
8.根据权利要求7所述的异步参数服务器高效并行架构的并行方法,其特征在于,进行训练的步骤如下:
(1)先通过作业管理系统启动参数服务器和数据服务器,通过作业管理系统将计算节点加入到子集训练作业中;
(2)计算节点从参数服务器获得一版当前模型状态的快照,提取出参数服务器获取当前模型状态的参数值,并以该参数值为基础计算局部梯度。
9.根据权利要求8所述的异步参数服务器高效并行架构的并行方法,其特征在于:所述步骤(1)中,当有新的计算节点空闲时,作业管理系统将新的计算节点加入到正在训练的作业中,从而实现计算资源的高效利用。
CN201910362049.4A 2019-04-30 2019-04-30 一种异步参数服务器高效并行架构与方法 Pending CN110059829A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910362049.4A CN110059829A (zh) 2019-04-30 2019-04-30 一种异步参数服务器高效并行架构与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910362049.4A CN110059829A (zh) 2019-04-30 2019-04-30 一种异步参数服务器高效并行架构与方法

Publications (1)

Publication Number Publication Date
CN110059829A true CN110059829A (zh) 2019-07-26

Family

ID=67321878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910362049.4A Pending CN110059829A (zh) 2019-04-30 2019-04-30 一种异步参数服务器高效并行架构与方法

Country Status (1)

Country Link
CN (1) CN110059829A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490316A (zh) * 2019-08-21 2019-11-22 腾讯科技(深圳)有限公司 基于神经网络模型训练系统的训练处理方法、训练系统
CN111461343A (zh) * 2020-03-13 2020-07-28 北京百度网讯科技有限公司 模型参数更新方法及其相关设备
CN111612155A (zh) * 2020-05-15 2020-09-01 湖南大学 一种分布式机器学习系统及适用于其的通信调度方法
CN112561078A (zh) * 2020-12-18 2021-03-26 北京百度网讯科技有限公司 分布式的模型训练方法、相关装置及计算机程序产品
CN113177645A (zh) * 2021-06-29 2021-07-27 腾讯科技(深圳)有限公司 联邦学习方法、装置、计算设备及存储介质
CN113792848A (zh) * 2021-08-26 2021-12-14 河海大学 一种基于特征图编码的流水线模型并行训练内存优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106681820A (zh) * 2016-12-30 2017-05-17 西北工业大学 基于消息组合的可扩展大数据计算方法
CN107578094A (zh) * 2017-10-25 2018-01-12 济南浪潮高新科技投资发展有限公司 基于参数服务器和fpga实现神经网络分布式训练的方法
CN109032671A (zh) * 2018-06-25 2018-12-18 电子科技大学 一种基于数据并行策略的分布式深度学习方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106681820A (zh) * 2016-12-30 2017-05-17 西北工业大学 基于消息组合的可扩展大数据计算方法
CN107578094A (zh) * 2017-10-25 2018-01-12 济南浪潮高新科技投资发展有限公司 基于参数服务器和fpga实现神经网络分布式训练的方法
CN109032671A (zh) * 2018-06-25 2018-12-18 电子科技大学 一种基于数据并行策略的分布式深度学习方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490316A (zh) * 2019-08-21 2019-11-22 腾讯科技(深圳)有限公司 基于神经网络模型训练系统的训练处理方法、训练系统
CN110490316B (zh) * 2019-08-21 2023-01-06 腾讯科技(深圳)有限公司 基于神经网络模型训练系统的训练处理方法、训练系统
CN111461343A (zh) * 2020-03-13 2020-07-28 北京百度网讯科技有限公司 模型参数更新方法及其相关设备
CN111461343B (zh) * 2020-03-13 2023-08-04 北京百度网讯科技有限公司 模型参数更新方法及其相关设备
CN111612155A (zh) * 2020-05-15 2020-09-01 湖南大学 一种分布式机器学习系统及适用于其的通信调度方法
CN111612155B (zh) * 2020-05-15 2023-05-05 湖南大学 一种分布式机器学习系统及适用于其的通信调度方法
CN112561078A (zh) * 2020-12-18 2021-03-26 北京百度网讯科技有限公司 分布式的模型训练方法、相关装置及计算机程序产品
CN112561078B (zh) * 2020-12-18 2021-12-28 北京百度网讯科技有限公司 分布式的模型训练方法及相关装置
CN113177645A (zh) * 2021-06-29 2021-07-27 腾讯科技(深圳)有限公司 联邦学习方法、装置、计算设备及存储介质
CN113177645B (zh) * 2021-06-29 2021-09-28 腾讯科技(深圳)有限公司 联邦学习方法、装置、计算设备及存储介质
CN113792848A (zh) * 2021-08-26 2021-12-14 河海大学 一种基于特征图编码的流水线模型并行训练内存优化方法

Similar Documents

Publication Publication Date Title
CN110059829A (zh) 一种异步参数服务器高效并行架构与方法
Liu et al. Adaptive asynchronous federated learning in resource-constrained edge computing
CN103092698B (zh) 云计算应用自动部署系统及方法
CN109491790B (zh) 基于容器的工业物联网边缘计算资源分配方法及系统
CN109327509A (zh) 一种主/从架构的低耦合的分布式流式计算框架
CN103516807B (zh) 一种云计算平台服务器负载均衡系统及方法
CN107463582A (zh) 分布式部署Hadoop集群的方法及装置
CN106033476B (zh) 一种云计算环境中分布式计算模式下的增量式图计算方法
CN109189589A (zh) 一种分布式大数据计算引擎及架构方法
CN107193643B (zh) 一种高可靠分布式数据流实时统计方法及系统
CN104503832B (zh) 一种公平和效率均衡的虚拟机调度系统及方法
CN107566153A (zh) 一种自管理的微服务实现方法
CN107633125B (zh) 一种基于带权有向图的仿真系统并行性识别方法
EP3172682B1 (en) Distributing and processing streams over one or more networks for on-the-fly schema evolution
Zhan et al. Pipe-torch: Pipeline-based distributed deep learning in a gpu cluster with heterogeneous networking
CN107733696A (zh) 一种机器学习和人工智能应用一体机部署方法
CN110177146A (zh) 一种基于异步事件驱动的非阻塞Restful通信方法、装置和设备
CN111984505B (zh) 一种运维数据采集装置及采集方法
CN112347636A (zh) 一种基于Multi-Agent技术的装备保障仿真建模方法
CN107870763A (zh) 用于创建海量数据实时分拣系统的方法及其装置
CN107454009B (zh) 面向数据中心的离线场景低带宽开销流量调度方案
CN109298976A (zh) 一种异构数据库集群备份系统及方法
CN110442446A (zh) 实时处理高速数字信号数据流的方法
Theeten et al. Towards the optimization of a parallel streaming engine for telco applications
CN103885856A (zh) 一种基于消息再生机制的图计算容错方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190726

RJ01 Rejection of invention patent application after publication