CN107463448A - 一种深度学习权值更新方法和系统 - Google Patents

一种深度学习权值更新方法和系统 Download PDF

Info

Publication number
CN107463448A
CN107463448A CN201710900508.0A CN201710900508A CN107463448A CN 107463448 A CN107463448 A CN 107463448A CN 201710900508 A CN201710900508 A CN 201710900508A CN 107463448 A CN107463448 A CN 107463448A
Authority
CN
China
Prior art keywords
calculate node
deep learning
calculate
value update
right value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710900508.0A
Other languages
English (en)
Inventor
宋书涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710900508.0A priority Critical patent/CN107463448A/zh
Publication of CN107463448A publication Critical patent/CN107463448A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种深度学习权值更新方法和系统。涉及计算机互联网技术;解决了现有深度学习框架不适应系统应用需求的问题。该系统包括:计算集群系统和存储系统,所述计算集群系统包括多个计算节点,所述多个计算节点之间、各计算节点与所述存储系统之间通过高速网络连接;所述计算集群系统中的计算节点,用于分别进行前后向计算,收集自身与其他各个计算节点的前后向计算结果,进行一次迭代的权值更新。本发明提供的技术方案适用于计算集群系统中,实现了具有高时效性的集群系统的计算节点间、计算节点内的计算权值更新。

Description

一种深度学习权值更新方法和系统
技术领域
本发明涉及计算机互联网技术,尤指一种适用于计算机集群的深度学习权值更新方法和系统。
背景技术
当前社会人类的数据大爆炸,人工智能技术不断发展,相继出现了Caffe、Tensorflow、Cntk、Caffe-MPI等深度学习框架,但是在扩展性方面,有的不支持多机、有的扩展性很差,但是越来越大的数据量与越来越复杂的深度学习网络对深度学习框架的扩展性提出越来越高的要求。
发明内容
为了解决上述技术问题,本发明提供了一种深度学习权值更新方法和系统。
为了达到本发明目的,本发明提供了一种深度学习权值更新方法,各个计算节点通过高速网络连接,该方法包括:
各个计算节点分别进行前后向计算;
各计算节点收集自身与其他各个计算节点的前后向计算结果,进行一次迭代的权值更新。
优选的,各个计算节点分别进行前后向计算的步骤包括:
创建求解器;
网络层初始化;
权值偏移量计算;
前后向计算。
优选的,所述各个计算节点还连接有共享存储系统,该方法还包括:
各个计算节点向所述共享存储系统读写大规模计算数据。
优选的,在进行权值更新时,使用远程直接内存访问RDMA技术进访问其他计算节点。
优选的,所述计算节点包含至少一个CPU和至少一个GPU。
优选的,对于同一计算节点,不同CPU或不同GPU之间的前后向计算是相互独立的。
优选的,计算节点为每个参与计算的CPU或GPU开启独立线程。
本发明还提供了一种深度学习权值更新系统,该系统包含计算集群系统和存储系统,所述计算集群系统包含多个计算节点,所述多个计算节点之间、各计算节点与所述存储系统之间通过高速网络连接;
所述计算集群系统中的计算节点,用于分别进行前后向计算,收集自身与其他各个计算节点的前后向计算结果,进行一次迭代的权值更新。
优选的,所述计算节点包含至少一个CPU和至少一个GPU。
本发明提供了一种深度学习权值更新的方法和系统,集群中的各个计算节点通过高速网络连接,各个计算节点分别进行前后向计算,然后各计算节点收集自身与其他各个计算节点的前后向计算结果,进行一次迭代的权值更新。实现了具有高时效性的集群系统的计算节点间、计算节点内的计算权值更新,从而减少了通信在深度学习训练中的比重,最大限度的利用CPU+GPU的计算性能,提高系统的整体运行的效率,大大缩短程序的运行时间,解决了现有深度学习框架不适应系统应用需求的问题。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明的实施例一提供的一种深度学习权值更新系统的架构示意图;
图2为本发明的实施例二提供的一种深度学习权值更新方法的流程示意图;
图3为本发明的实施例二中各计算节点进程协同完成权值更新的原理示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
当前社会人类的数据大爆炸,人工智能技术不断发展,相继出现了Caffe、Tensorflow、Cntk、Caffe-MPI等深度学习框架,但是在扩展性方面,有的不支持多机、有的扩展性很差,但是越来越大的数据量与越来越复杂的深度学习网络对深度学习框架的扩展性提出越来越高的要求。
为了解决上述问题,本发明的实施例提供了一种基于集合通信的加速Caffe-MPI的深度学习权值更新的方法,充分利用GPU计算能力和高速通信网络性能,以实现Caffe-MPI训练数据的加速效果,并解决当前服务器计算系统计算网络带宽不足、内存带宽和容量小等情况,而无法对较大规模数据进行处理的问题。
首先结合附图,对本发明的实施例一进行说明。
本发明实施例提供了一种深度学习权值更新的系统,该系统包括:
计算集群系统和存储系统,所述计算集群系统包括多个计算节点,所述多个计算节点之间、各计算节点与所述存储系统之间通过高速网络连接;
所述计算集群系统中的计算节点,用于分别进行前后向计算,收集自身与其他各个计算节点的前后向计算结果,进行一次迭代的权值更新。
所述计算节点包含至少一个CPU和至少一个GPU。
所述计算集群系统,为CPU+GPU集群系统,计算节点间通过IB高速网络以及RDMA技术进行通信,在充分利用CPU+GPU的硬件的基础上,实现了Caffe-MPI框架的多节点集群平台通信的加速。
存储系统,包括共享存储子系统和本地存储子系统,计算集群共享一个共享存储子系统,控制系统中的各个计算节点拥有自己的本地存储子系统。共享存储子系统存储大规模计算数据,控制系统存储参数数据及计算结果数据。
高速网络,用于连接集群中计算节点,计算节点可以互相实现高速通信。计算节点间通信采用RDMA技术,GPU直连技术,以实现高速通信。
下面结合附图,对本发明的实施例二进行说明。
本发明实施例提供了一种深度学习权值更新方法,使用该方法,在如图1所示的深度学习权值更新系统的基础上完成权值更新的流程如图2所示,包括:
步骤201、各个计算节点分别进行前后向计算;
首先MPI程序启动,在每个计算节点上开启一个进程来控制当前计算节点CPU+GPU设备,每个计算节点内部通过开启多线程控制至少一个CPU或GPU卡来参与计算(即为每个CPU/GPU开启一个独立的线程),在计算过程中,不同CPU或不同GPU之间前后向计算是独立的。
对于各个计算节点来说,本步骤具体包括:
1、创建求解器;
2、网络层初始化;
3、权值偏移量计算;
4、前后向计算。
步骤202、各计算节点收集自身与其他各个计算节点的前后向计算结果,进行一次迭代的权值更新;
本步骤中,在后向计算完成后,各计算节点进行一次权值更新,获取其他计算节点的前后向计算结果,具体的,可通过节点间直接通信获得,也可将计算结果统一写入共享存储子系统,再由共享存储子系统读取全部计算节点的计算结果,然后才进行一次更新。减少了权值更新次数,加快了训练速度。
其实现原理如图3所示,各计算节点分别通过不同进程进行本计算节点内的计算控制,计算节点间再通过集合通信完成计算结果交换,最后统一进行权值更新。
本发明的实施例提供了一种深度学习权值更新方法和系统,集群中的各个计算节点间、计算节点与存储系统间通过高速网络连接,组成集中式的集群系统,各个计算节点分别进行前后向计算,然后各计算节点收集自身与其他各个计算节点的前后向计算结果,进行一次迭代的权值更新。可由控制节点控制各计算节点,并对计算节点进行统一调度,实现数据的统一分配,同时在此系统上通信传输与并行计算的异步执行,提高了系统的整体的运行效率,满足了高性能应用的要求,改变算法,充分利用CPU+GPU平台的硬件技术。提高了多节点多GPU卡平台的扩展性,在Caffe-MPI的基础上引入了集合通信技术,每个迭代步进行一次归约通信,减少了通信时间,增强了程序的扩展性。通过优化MPI通信技术,增加了GPU计算的比重,减少了GPU空闲时间,提高了GPU利用率,实现了加速训练的目的。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种深度学习权值更新方法,其特征在于,各个计算节点通过高速网络连接,该方法包括:
各个计算节点分别进行前后向计算;
各计算节点收集自身与其他各个计算节点的前后向计算结果,进行一次迭代的权值更新。
2.根据权利要求1所述的深度学习权值更新方法,其特征在于,各个计算节点分别进行前后向计算的步骤包括:
创建求解器;
网络层初始化;
权值偏移量计算;
前后向计算。
3.根据权利要求1所述的深度学习权值更新方法,其特征在于,所述各个计算节点还连接有共享存储系统,该方法还包括:
各个计算节点向所述共享存储系统读写大规模计算数据、控制系统存储参数数据及计算结果数据。
4.根据权利要求1所述的深度学习权值更新方法,其特征在于,在进行权值更新时,使用远程直接内存访问RDMA技术进访问其他计算节点。
5.根据权利要求1所述的深度学习权值更新方法,其特征在于,所述计算节点包含至少一个CPU和至少一个GPU。
6.根据权利要求2所述的深度学习权值更新方法,其特征在于,对于同一计算节点,不同CPU或不同GPU之间的前后向计算是相互独立的。
7.根据权利要求6所述的深度学习权值更新方法,基特征在于,计算节点为每个参与计算的CPU或GPU开启独立线程。
8.一种深度学习权值更新系统,其特征在于,该系统包括计算集群系统和存储系统,所述计算集群系统包括多个计算节点,所述多个计算节点之间、各计算节点与所述存储系统之间通过高速网络连接;
所述计算集群系统中的计算节点,用于分别进行前后向计算,收集自身与其他各个计算节点的前后向计算结果,进行一次迭代的权值更新。
9.根据权利要求8所述的深度学习权值更新系统,其特征在于,所述计算节点包含至少一个CPU和至少一个GPU。
10.根据权利要求8所述的深度学习权值更新系统,其特征在于,
所述存储系统,包含共享存储子系统和分散于各个所述计算节点的本地存储子系统,所述共享存储子系统用于存储大规模计算数据,控制系统存储参数数据及计算结果数据。
CN201710900508.0A 2017-09-28 2017-09-28 一种深度学习权值更新方法和系统 Pending CN107463448A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710900508.0A CN107463448A (zh) 2017-09-28 2017-09-28 一种深度学习权值更新方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710900508.0A CN107463448A (zh) 2017-09-28 2017-09-28 一种深度学习权值更新方法和系统

Publications (1)

Publication Number Publication Date
CN107463448A true CN107463448A (zh) 2017-12-12

Family

ID=60553484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710900508.0A Pending CN107463448A (zh) 2017-09-28 2017-09-28 一种深度学习权值更新方法和系统

Country Status (1)

Country Link
CN (1) CN107463448A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214512A (zh) * 2018-08-01 2019-01-15 中兴飞流信息科技有限公司 一种深度学习的参数交换方法、装置、服务器及存储介质
WO2020095155A1 (en) * 2018-11-05 2020-05-14 International Business Machines Corporation Large model support in deep learning
CN113452541A (zh) * 2020-03-27 2021-09-28 上海商汤智能科技有限公司 网络带宽调整方法和相关产品
CN113705835A (zh) * 2021-08-20 2021-11-26 普泰克电力有限公司 一种基于深度学习的配电运维系统
CN116069511A (zh) * 2023-03-10 2023-05-05 苏州浪潮智能科技有限公司 用于深度学习的系统、处理数据的方法及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104301434A (zh) * 2014-10-31 2015-01-21 浪潮(北京)电子信息产业有限公司 一种基于集群的高速通信架构及方法
CN105227669A (zh) * 2015-10-15 2016-01-06 浪潮(北京)电子信息产业有限公司 一种面向深度学习的cpu与gpu混合的集群架构系统
CN105302526A (zh) * 2015-10-19 2016-02-03 浪潮(北京)电子信息产业有限公司 一种数据处理系统及方法
CN106529673A (zh) * 2016-11-17 2017-03-22 北京百度网讯科技有限公司 基于人工智能的深度学习网络训练方法及装置
CN106570565A (zh) * 2016-11-21 2017-04-19 中国科学院计算机网络信息中心 一种面向大数据的深度学习方法及系统
CN106650925A (zh) * 2016-11-29 2017-05-10 郑州云海信息技术有限公司 一种基于MIC集群的深度学习框架Caffe系统及算法
CN107085743A (zh) * 2017-05-18 2017-08-22 郑州云海信息技术有限公司 一种基于国产众核处理器的深度学习算法实现方法与平台

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104301434A (zh) * 2014-10-31 2015-01-21 浪潮(北京)电子信息产业有限公司 一种基于集群的高速通信架构及方法
CN105227669A (zh) * 2015-10-15 2016-01-06 浪潮(北京)电子信息产业有限公司 一种面向深度学习的cpu与gpu混合的集群架构系统
CN105302526A (zh) * 2015-10-19 2016-02-03 浪潮(北京)电子信息产业有限公司 一种数据处理系统及方法
CN106529673A (zh) * 2016-11-17 2017-03-22 北京百度网讯科技有限公司 基于人工智能的深度学习网络训练方法及装置
CN106570565A (zh) * 2016-11-21 2017-04-19 中国科学院计算机网络信息中心 一种面向大数据的深度学习方法及系统
CN106650925A (zh) * 2016-11-29 2017-05-10 郑州云海信息技术有限公司 一种基于MIC集群的深度学习框架Caffe系统及算法
CN107085743A (zh) * 2017-05-18 2017-08-22 郑州云海信息技术有限公司 一种基于国产众核处理器的深度学习算法实现方法与平台

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214512A (zh) * 2018-08-01 2019-01-15 中兴飞流信息科技有限公司 一种深度学习的参数交换方法、装置、服务器及存储介质
CN109214512B (zh) * 2018-08-01 2021-01-22 中兴飞流信息科技有限公司 一种深度学习的参数交换方法、装置、服务器及存储介质
WO2020095155A1 (en) * 2018-11-05 2020-05-14 International Business Machines Corporation Large model support in deep learning
GB2591028A (en) * 2018-11-05 2021-07-14 Ibm Large model support in deep learning
GB2591028B (en) * 2018-11-05 2022-09-14 Ibm Large model support in deep learning
US11526759B2 (en) 2018-11-05 2022-12-13 International Business Machines Corporation Large model support in deep learning
US11915147B2 (en) 2018-11-05 2024-02-27 International Business Machines Corporation Large model support in deep learning
CN113452541A (zh) * 2020-03-27 2021-09-28 上海商汤智能科技有限公司 网络带宽调整方法和相关产品
CN113452541B (zh) * 2020-03-27 2023-02-03 上海商汤智能科技有限公司 网络带宽调整方法和相关产品
CN113705835A (zh) * 2021-08-20 2021-11-26 普泰克电力有限公司 一种基于深度学习的配电运维系统
CN116069511A (zh) * 2023-03-10 2023-05-05 苏州浪潮智能科技有限公司 用于深度学习的系统、处理数据的方法及电子设备

Similar Documents

Publication Publication Date Title
CN107463448A (zh) 一种深度学习权值更新方法和系统
CN109902818B (zh) 一种面向深度学习训练任务的分布式加速方法及系统
CN106951926A (zh) 一种混合架构的深度学习系统方法及装置
CN107122244A (zh) 一种基于多gpu的图数据处理系统及方法
CN110362380A (zh) 一种面向网络靶场的多目标优化虚拟机部署方法
CN109840154A (zh) 一种移动云环境下基于任务依赖的计算迁移方法
CN110502213A (zh) 一种人工智能能力开发平台
CN110362586B (zh) 一种无患者数据共享的多中心生物医学数据协同处理系统及方法
CN107085743A (zh) 一种基于国产众核处理器的深度学习算法实现方法与平台
CN103617067A (zh) 一种基于云计算的电力软件仿真系统
CN107733696A (zh) 一种机器学习和人工智能应用一体机部署方法
Wang et al. A multi-species artificial bee colony algorithm and its application for crowd simulation
CN108694441A (zh) 一种网络处理器和网络运算方法
CN111191728A (zh) 基于异步或同步的深度强化学习分布式训练方法及系统
CN112732436A (zh) 一种多核处理器-单图形处理器的深度强化学习加速方法
CN107360031A (zh) 一种基于优化开销收益比的虚拟网络映射方法
CN103678888B (zh) 一种基于欧拉流体模拟算法的心脏血液流动示意显示方法
CN108540407A (zh) 一种大数据平台中Spark Streaming接收器动态配置方法及装置
Vigueras et al. A scalable multiagent system architecture for interactive applications
CN107257356A (zh) 一种基于超图分割的社交用户数据优化放置方法
CN105183692B (zh) 一种集群系统设备间数据通信方法与系统
CN106990913A (zh) 一种大规模流式集合数据的分布式处理方法
CN106846236A (zh) 一种可扩展的分布式gpu加速方法及装置
CN106856509A (zh) 一种基于knl集群的大规模数据的处理方法及系统
Yuan et al. A DRL-Based Container Placement Scheme with Auxiliary Tasks.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171212

RJ01 Rejection of invention patent application after publication