CN107463448A

CN107463448A - 一种深度学习权值更新方法和系统

Info

Publication number: CN107463448A
Application number: CN201710900508.0A
Authority: CN
Inventors: 宋书涛
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-09-28
Filing date: 2017-09-28
Publication date: 2017-12-12

Abstract

本发明公开了一种深度学习权值更新方法和系统。涉及计算机互联网技术；解决了现有深度学习框架不适应系统应用需求的问题。该系统包括：计算集群系统和存储系统，所述计算集群系统包括多个计算节点，所述多个计算节点之间、各计算节点与所述存储系统之间通过高速网络连接；所述计算集群系统中的计算节点，用于分别进行前后向计算，收集自身与其他各个计算节点的前后向计算结果，进行一次迭代的权值更新。本发明提供的技术方案适用于计算集群系统中，实现了具有高时效性的集群系统的计算节点间、计算节点内的计算权值更新。

Description

一种深度学习权值更新方法和系统

技术领域

本发明涉及计算机互联网技术，尤指一种适用于计算机集群的深度学习权值更新方法和系统。

背景技术

当前社会人类的数据大爆炸，人工智能技术不断发展，相继出现了Caffe、Tensorflow、Cntk、Caffe-MPI等深度学习框架，但是在扩展性方面，有的不支持多机、有的扩展性很差，但是越来越大的数据量与越来越复杂的深度学习网络对深度学习框架的扩展性提出越来越高的要求。

发明内容

为了解决上述技术问题，本发明提供了一种深度学习权值更新方法和系统。

为了达到本发明目的，本发明提供了一种深度学习权值更新方法，各个计算节点通过高速网络连接，该方法包括：

各个计算节点分别进行前后向计算；

各计算节点收集自身与其他各个计算节点的前后向计算结果，进行一次迭代的权值更新。

优选的，各个计算节点分别进行前后向计算的步骤包括：

创建求解器；

网络层初始化；

权值偏移量计算；

前后向计算。

优选的，所述各个计算节点还连接有共享存储系统，该方法还包括：

各个计算节点向所述共享存储系统读写大规模计算数据。

优选的，在进行权值更新时，使用远程直接内存访问RDMA技术进访问其他计算节点。

优选的，所述计算节点包含至少一个CPU和至少一个GPU。

优选的，对于同一计算节点，不同CPU或不同GPU之间的前后向计算是相互独立的。

优选的，计算节点为每个参与计算的CPU或GPU开启独立线程。

本发明还提供了一种深度学习权值更新系统，该系统包含计算集群系统和存储系统，所述计算集群系统包含多个计算节点，所述多个计算节点之间、各计算节点与所述存储系统之间通过高速网络连接；

所述计算集群系统中的计算节点，用于分别进行前后向计算，收集自身与其他各个计算节点的前后向计算结果，进行一次迭代的权值更新。

优选的，所述计算节点包含至少一个CPU和至少一个GPU。

本发明提供了一种深度学习权值更新的方法和系统，集群中的各个计算节点通过高速网络连接，各个计算节点分别进行前后向计算，然后各计算节点收集自身与其他各个计算节点的前后向计算结果，进行一次迭代的权值更新。实现了具有高时效性的集群系统的计算节点间、计算节点内的计算权值更新，从而减少了通信在深度学习训练中的比重，最大限度的利用CPU+GPU的计算性能，提高系统的整体运行的效率，大大缩短程序的运行时间，解决了现有深度学习框架不适应系统应用需求的问题。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明的实施例一提供的一种深度学习权值更新系统的架构示意图；

图2为本发明的实施例二提供的一种深度学习权值更新方法的流程示意图；

图3为本发明的实施例二中各计算节点进程协同完成权值更新的原理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为了解决上述问题，本发明的实施例提供了一种基于集合通信的加速Caffe-MPI的深度学习权值更新的方法，充分利用GPU计算能力和高速通信网络性能，以实现Caffe-MPI训练数据的加速效果，并解决当前服务器计算系统计算网络带宽不足、内存带宽和容量小等情况，而无法对较大规模数据进行处理的问题。

首先结合附图，对本发明的实施例一进行说明。

本发明实施例提供了一种深度学习权值更新的系统，该系统包括：

计算集群系统和存储系统，所述计算集群系统包括多个计算节点，所述多个计算节点之间、各计算节点与所述存储系统之间通过高速网络连接；

所述计算节点包含至少一个CPU和至少一个GPU。

所述计算集群系统，为CPU+GPU集群系统，计算节点间通过IB高速网络以及RDMA技术进行通信，在充分利用CPU+GPU的硬件的基础上，实现了Caffe-MPI框架的多节点集群平台通信的加速。

存储系统，包括共享存储子系统和本地存储子系统，计算集群共享一个共享存储子系统，控制系统中的各个计算节点拥有自己的本地存储子系统。共享存储子系统存储大规模计算数据，控制系统存储参数数据及计算结果数据。

高速网络，用于连接集群中计算节点，计算节点可以互相实现高速通信。计算节点间通信采用RDMA技术，GPU直连技术，以实现高速通信。

下面结合附图，对本发明的实施例二进行说明。

本发明实施例提供了一种深度学习权值更新方法，使用该方法，在如图1所示的深度学习权值更新系统的基础上完成权值更新的流程如图2所示，包括：

步骤201、各个计算节点分别进行前后向计算；

首先MPI程序启动，在每个计算节点上开启一个进程来控制当前计算节点CPU+GPU设备，每个计算节点内部通过开启多线程控制至少一个CPU或GPU卡来参与计算(即为每个CPU/GPU开启一个独立的线程)，在计算过程中，不同CPU或不同GPU之间前后向计算是独立的。

对于各个计算节点来说，本步骤具体包括：

1、创建求解器；

2、网络层初始化；

3、权值偏移量计算；

4、前后向计算。

步骤202、各计算节点收集自身与其他各个计算节点的前后向计算结果，进行一次迭代的权值更新；

本步骤中，在后向计算完成后，各计算节点进行一次权值更新，获取其他计算节点的前后向计算结果，具体的，可通过节点间直接通信获得，也可将计算结果统一写入共享存储子系统，再由共享存储子系统读取全部计算节点的计算结果，然后才进行一次更新。减少了权值更新次数，加快了训练速度。

其实现原理如图3所示，各计算节点分别通过不同进程进行本计算节点内的计算控制，计算节点间再通过集合通信完成计算结果交换，最后统一进行权值更新。

本发明的实施例提供了一种深度学习权值更新方法和系统，集群中的各个计算节点间、计算节点与存储系统间通过高速网络连接，组成集中式的集群系统，各个计算节点分别进行前后向计算，然后各计算节点收集自身与其他各个计算节点的前后向计算结果，进行一次迭代的权值更新。可由控制节点控制各计算节点，并对计算节点进行统一调度，实现数据的统一分配，同时在此系统上通信传输与并行计算的异步执行，提高了系统的整体的运行效率，满足了高性能应用的要求，改变算法，充分利用CPU+GPU平台的硬件技术。提高了多节点多GPU卡平台的扩展性，在Caffe-MPI的基础上引入了集合通信技术，每个迭代步进行一次归约通信，减少了通信时间，增强了程序的扩展性。通过优化MPI通信技术，增加了GPU计算的比重，减少了GPU空闲时间，提高了GPU利用率，实现了加速训练的目的。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种深度学习权值更新方法，其特征在于，各个计算节点通过高速网络连接，该方法包括：

各个计算节点分别进行前后向计算；

2.根据权利要求1所述的深度学习权值更新方法，其特征在于，各个计算节点分别进行前后向计算的步骤包括：

创建求解器；

网络层初始化；

权值偏移量计算；

前后向计算。

3.根据权利要求1所述的深度学习权值更新方法，其特征在于，所述各个计算节点还连接有共享存储系统，该方法还包括：

各个计算节点向所述共享存储系统读写大规模计算数据、控制系统存储参数数据及计算结果数据。

4.根据权利要求1所述的深度学习权值更新方法，其特征在于，在进行权值更新时，使用远程直接内存访问RDMA技术进访问其他计算节点。

5.根据权利要求1所述的深度学习权值更新方法，其特征在于，所述计算节点包含至少一个CPU和至少一个GPU。

6.根据权利要求2所述的深度学习权值更新方法，其特征在于，对于同一计算节点，不同CPU或不同GPU之间的前后向计算是相互独立的。

7.根据权利要求6所述的深度学习权值更新方法，基特征在于，计算节点为每个参与计算的CPU或GPU开启独立线程。

8.一种深度学习权值更新系统，其特征在于，该系统包括计算集群系统和存储系统，所述计算集群系统包括多个计算节点，所述多个计算节点之间、各计算节点与所述存储系统之间通过高速网络连接；

9.根据权利要求8所述的深度学习权值更新系统，其特征在于，所述计算节点包含至少一个CPU和至少一个GPU。

10.根据权利要求8所述的深度学习权值更新系统，其特征在于，

所述存储系统，包含共享存储子系统和分散于各个所述计算节点的本地存储子系统，所述共享存储子系统用于存储大规模计算数据，控制系统存储参数数据及计算结果数据。