CN110414687A

CN110414687A - 一种用于深度学习框架分布式训练的方法和装置

Info

Publication number: CN110414687A
Application number: CN201910631463.0A
Authority: CN
Inventors: 王文潇
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-11-05

Abstract

本发明公开了一种用于深度学习框架分布式训练的方法。该方法包括：根据IP地址文件中存储的各个容器的IP地址，将在分布式训练中使用的各种类型的节点分别分配到各个容器中，并且配置每个容器的中的训练参数；采用在各个容器中的节点来运行分布式训练的相应的进程。通过上述方式，可以使用容器的方式来部署运行分布式训练的节点，然后通过设置容器的端口地址，可以在一台服务器中部署多个容器，从而在总体上减少了进行深度学习框架分布式训练所使用的服务器的总数，节约分布式训练所使用的服务器硬件资源，并且节约运行服务器所需的电力资源。还公开了对应的用于深度学习框架分布式训练的装置。

Description

一种用于深度学习框架分布式训练的方法和装置

技术领域

本发明涉及深度学习技术领域，尤指一种用于深度学习框架分布式训练的方法和装置。

背景技术

在使用深度学习框架进行分布式训练时，通常至少需要使用Parameter Server节点(PS节点)和Worker节点。在使用一些种类的深度学习框架的时候，还会使用Scheduler节点或者Client节点。为了避免环境版本差异、不同应用相互影响、使用资源相互竞争等问题所造成的影像分布式训练正常运行的问题，常规的深度学习框架分布式训练需要将这些节点分配到多台服务器，各台服务器提供相应的服务。例如，将Worker0节点分配到第一服务器，将Worker1节点分配到第二服务器，并且将Worker2节点分配到第三服务器。由此可见，常规的分布式训练至少需要使用多台服务器。然而，以上述方式将训练任务部署到多台服务器会造成服务器硬件资源浪费以及运行服务器所需的电力资源的浪费。

发明内容

为了解决上述技术问题，本发明提供了用于深度学习框架分布式训练的方法和装置，其能够节约分布式训练所使用的服务器硬件资源，并且节约运行服务器所需的电力资源。

为了达到本发明目的，本发明实施例提供了一种用于深度学习框架分布式训练的方法，包括：

根据IP地址文件中存储的各个容器的IP地址，将在分布式训练中使用的各种类型的节点分别分配到各个容器中，并且配置每个容器的中的训练参数；

采用在各个容器中的节点来运行分布式训练的相应的进程。

在一个可选的实施例中，在将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤之前，该方法还包括：

将各个容器的IP地址写入到IP地址文件中，以供根据IP地址文件中的IP地址，将在分布式训练中使用的各种类型的节点分别分配到各个容器中。

在一个可选的实施例中，在将各个容器的IP地址写入到IP地址文件的步骤之前，该方法还包括：

生成各个容器的公钥以及配对的私钥，并且将每个容器的公钥发送给在分布式训练中使用的其他容器；

其中，采用在各个容器中的各个节点来运行分布式训练的相应的进程的步骤包括：

当在各个容器之中的第一容器中运行的第一节点请求在各个容器之中的第二容器中运行的第二节点的服务时，第二节点采用第一节点的公钥加密由第二节点计算出的服务数据并且将其发送给第一节点，由第一节点采用其私钥来解密由第二节点发送的服务数据。

在一个可选的实施例中，在将每个容器的公钥发送给在分布式训练中使用的容器的步骤之后，并且在将各个容器的IP地址写入到IP地址文件的步骤之前，该方法还包括：

分别采用各个容器向将会在分布式训练中使用到的其他容器发送测试数据，并且接收其他容器的响应数据；

如果发送测试数据的第一容器采用为其生成的私钥解密得到在其他容器之中的第二容器的响应数据，则确定第二容器向第一容器发送数据是安全的。

在一个可选的实施例中，当深度学习框架是Mxnet框架的时候，将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤包括：

为执行运行命令的容器分配一个用于负责调度的Scheduler节点、一个用于负责参数更新的PS节点和一个用于负责计算的Worker节点；并且为其他容器中分配一个Worker节点和一个PS节点。

在一个可选的实施例中，当深度学习框架是Tensorflow框架的时候，将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤包括：

分别在每个容器中部署一个用于负责参数更新的PS节点以及一个用于负责计算的Worker节点。

为了达到本发明目的，本发明实施例提供了一种用于深度学习框架分布式训练的装置，该装置包括存储器和处理器，

存储器用于存储计算机可读指令；

处理器用于执行计算机可读指令，以执行如下操作：

采用在各个容器中的节点来运行分布式训练的相应的进程。

在一个可选的实施例中，在将在分布式训练中使用的各种类型的节点分别分配到各个容器中的操作之前，处理器还执行如下操作：

在一个可选的实施例中，在将各个容器的IP地址写入到IP地址文件的操作之前，处理器还执行如下操作：

其中，采用在各个容器中的各个节点来运行分布式训练的相应的进程的操作包括：

在一个可选的实施例中，在将每个容器的公钥发送给在分布式训练中使用的容器的操作之后，并且在将各个容器的IP地址写入到IP地址文件的操作之前，处理器还执行如下操作：

本发明实施例的有益效果在于，通过上述方式，可以使用容器的方式来部署运行分布式训练的节点，然后通过设置容器的端口地址，可以在一台服务器中部署多个容器，从而在总体上减少了进行深度学习框架分布式训练所使用的服务器的总数，节约分布式训练所使用的服务器硬件资源，并且节约运行服务器所需的电力资源。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的用于深度学习框架分布式训练的方法的流程图；

图2为本发明实施例提供的用于深度学习框架分布式训练的装置的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为了解决上述技术问题，一方面，本发明实施例提供了一种用于深度学习框架分布式训练的方法。如图1所示，该方法包括步骤S101-步骤S103。

步骤S101，根据IP地址文件中存储的各个容器的IP地址，将在分布式训练中使用的各种类型的节点分别分配到各个容器中，并且配置每个容器的中的训练参数。

为了克服将不同的进程部署在多台服务器造成服务器硬件资源浪费以及运行服务器所需的电力资源的浪费，在步骤S101中，将在深度学习框架的分布式训练中担负某种的功能的节点分配到容器中。每次训练都需要分配节点，需要拿到容器的IP地址来创建host文件，定义IP地址和主机名的映射关系，以便于将训练进程分配到其他容器。容器屏蔽了服务器平台的复杂性，为分布式训练的程序提供了运行环境。因此，在一个容器中可以部署多个节点，每个节点执行相应的进程，以用于处理该节点所担负的功能。设置容器的端口地址，可以在一台服务器中部署多个容器，因此，这种方法可以减少为了实现深度学习框架分布式训练所使用的服务器的数量。

在每次执行分布式训练的时候，均需要执行步骤S101中，根据每个容器的IP地址，将节点分配到容器中，在各个容器中的节点分别执行为该节点分配的训练进程。

在一个可选的实施例中，在步骤S101之前，该方法还包括：将各个容器的IP地址写入到IP地址文件中，以供根据IP地址文件中的IP地址，将在分布式训练中使用的各种类型的节点分别分配到各个容器中。

步骤S103，采用在各个容器中的节点来运行分布式训练的相应的进程。

本发明实施例提供的分布式训练的方法适合应用于多种深度学习框架。但在具体应用的时候，会存在一些不同。

在一个可选的实施例中，在将本发明实施例提供的分布式训练的方法应用于Tensorflow框架的时候，步骤S101包括：分别在每个容器中部署一个PS节点以及一个Worker节点。其中，PS节点负责参数更新，Worker节点负责计算。当需要开始进行分布式训练的时候，需要在每个容器中执行运行命令，然后由每个容器之中的PS节点以及Worker节点执行分布式训练中为该节点分配的训练进程。通过上述方式，可以使本发明提供的用于分布式训练的方法应用于Tensorflow框架，达到在应用Tensorflow框架进行分布式学习时节约服务器硬件资源以及节约运行服务器所需的电力资源的目的。

在一个可选的实施例中，在将本发明实施例提供的分布式训练的方法应用于Mxnet框架的时候，步骤S101包括：

为执行运行命令的容器分配一个用于负责调度的Scheduler节点、一个用于负责参数更新的PS节点和一个用于负责计算的Worker节点；并且为其他容器中分配一个Worker节点和一个PS节点。在为各个容器分配节点之后，只需要在一个容器中执行运行命令，Scheduler节点会把进程分配到每个执行分布式训练的容器中。然后由各个容器中的节点执行相应的训练进程。通过上述方式，可以使本发明提供的用于分布式训练的方法应用于Mxnet框架，达到在应用Mxnet框架进行分布式学习时节约服务器硬件资源以及节约运行服务器所需的电力资源的目的。

由于本发明实施例提供的用于分布式训练的方法中使用了多个容器，并且在执行分布式训练时，需要各个容器之中的节点进行通信，因此，可以在将各个容器的IP地址写入到IP地址文件中之前，生成各个容器的公钥以及配对的私钥，并且将每个容器的公钥发送给在分布式训练中使用的其他容器，例如，在分布式训练中将要使用的第一容器生成该容器的公钥以及与这个公钥配对的私钥，然后第一容器将第一容器的公钥发送给同样在此次分布式训练中将要使用的第二容器；第二容器具有第一容器的公钥，可以用第一容器的公钥解密从第一容器发送来的信息。基于上述生成公钥和私钥以及分配公钥的步骤，在步骤S103中，当在各个容器之中的第一容器中运行的第一节点请求在各个容器之中的第二容器中运行的第二节点的服务时，第二节点采用第一节点的公钥加密由第二节点计算出的服务数据并且将其发送给第一节点，由第一节点采用其私钥来解密由第二节点发送的服务数据。通过上述方式，可以确保在使用多容器运行分布式训练的时候，传输的数据是安全加密的，不易被解密或者遭受外界干扰。

基于上述生成公钥和私钥的步骤，可以利用公钥以及私钥建立在本次分布式训练中使用的一个节点对于在本次分布式训练中使用的另一个节点的信任。例如，当想要建立第一容器对于第二容器的信任的时候，可以在将每个容器的公钥发送给在分布式训练中使用的容器的步骤之后，并且在将各个容器的IP地址写入到IP地址文件的步骤之前，分别采用各个容器向将会在分布式训练中使用到的其他容器发送测试数据，并且接收其他容器的响应数据；如果发送测试数据的第一容器采用为其生成的私钥解密得到在其他容器之中的第二容器的响应数据，则确定第二容器向第一容器发送数据是安全的，建立了第一容器对于第二容器的单方面的信任。如果发送测试数据的第二容器采用为其生成的私钥解密得到在其他容器之中的第一容器的响应数据，则确定第一容器向第二容器发送数据是安全的。通过上述过程，建立了第一容器与第二容器的互信，消除了在使用多容器进行分布式训练的时候的信息传输的安全隐患。

为了解决上述技术问题，另一方面，本发明实施例提供了一种用于深度学习框架分布式训练的装置，如图2所示，该装置包括存储器10和处理器20。

存储器10用于存储计算机可读指令；

处理器20用于执行计算机可读指令，以执行如下操作：

采用在各个容器中的节点来运行分布式训练的相应的进程。

在一个可选的实施例中，在将在分布式训练中使用的各种类型的节点分别分配到各个容器中的操作之前，处理器20还执行如下操作：

在一个可选的实施例中，在将各个容器的IP地址写入到IP地址文件的操作之前，处理器20还执行如下操作：

在一个可选的实施例中，在将每个容器的公钥发送给在分布式训练中使用的容器的操作之后，并且在将各个容器的IP地址写入到IP地址文件的操作之前，处理器20还执行如下操作：

虽然本发明所揭露的实施方式如上，但上述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种用于深度学习框架分布式训练的方法，其特征在于，包括：

采用在所述各个容器中的节点来运行分布式训练的相应的进程。

2.根据权利要求1所述的方法，其特征在于，在所述将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤之前，所述方法还包括：

将各个容器的IP地址写入到所述IP地址文件中，以供根据所述IP地址文件中的IP地址，将在分布式训练中使用的各种类型的节点分别分配到各个容器中。

3.根据权利要求2所述的方法，其特征在于，在所述将各个容器的IP地址写入到IP地址文件的步骤之前，所述方法还包括：

其中，所述采用在所述各个容器中的各个节点来运行分布式训练的相应的进程的步骤包括：

当在所述各个容器之中的第一容器中运行的第一节点请求在所述各个容器之中的第二容器中运行的第二节点的服务时，所述第二节点采用所述第一节点的公钥加密由所述第二节点计算出的服务数据并且将其发送给所述第一节点，由所述第一节点采用其私钥来解密由所述第二节点发送的服务数据。

4.根据权利要求3所述的方法，其特征在于，在所述将每个容器的公钥发送给在分布式训练中使用的容器的步骤之后，并且在所述将各个容器的IP地址写入到IP地址文件的步骤之前，所述方法还包括：

分别采用各个容器向将会在分布式训练中使用到的其他容器发送测试数据，并且接收所述其他容器的响应数据；

如果发送所述测试数据的第一容器采用为其生成的私钥解密得到在所述其他容器之中的第二容器的响应数据，则确定所述第二容器向所述第一容器发送数据是安全的。

5.根据权利要求1所述的方法，其中，当所述深度学习框架是Mxnet框架的时候，所述将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤包括：

6.根据权利要求1所述的方法，其中，当所述深度学习框架是Tensorflow框架的时候，所述将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤包括：

7.一种用于深度学习框架分布式训练的装置，其特征在于，包括存储器和处理器，

所述存储器用于存储计算机可读指令；

所述处理器用于执行所述计算机可读指令，以执行如下操作：

8.根据权利要求7所述的装置，其特征在于，在所述将在分布式训练中使用的各种类型的节点分别分配到各个容器中的操作之前，所述处理器还执行如下操作：

9.根据权利要求8所述的装置，其特征在于，在所述将各个容器的IP地址写入到IP地址文件的操作之前，所述处理器还执行如下操作：

其中，所述采用在所述各个容器中的各个节点来运行分布式训练的相应的进程的操作包括：

10.根据权利要求9所述的装置，其特征在于，在所述将每个容器的公钥发送给在分布式训练中使用的容器的操作之后，并且在所述将各个容器的IP地址写入到IP地址文件的操作之前，所述处理器还执行如下操作：