CN110414687A - 一种用于深度学习框架分布式训练的方法和装置 - Google Patents

一种用于深度学习框架分布式训练的方法和装置 Download PDF

Info

Publication number
CN110414687A
CN110414687A CN201910631463.0A CN201910631463A CN110414687A CN 110414687 A CN110414687 A CN 110414687A CN 201910631463 A CN201910631463 A CN 201910631463A CN 110414687 A CN110414687 A CN 110414687A
Authority
CN
China
Prior art keywords
container
node
training
address
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910631463.0A
Other languages
English (en)
Inventor
王文潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201910631463.0A priority Critical patent/CN110414687A/zh
Publication of CN110414687A publication Critical patent/CN110414687A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Small-Scale Networks (AREA)

Abstract

本发明公开了一种用于深度学习框架分布式训练的方法。该方法包括:根据IP地址文件中存储的各个容器的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中,并且配置每个容器的中的训练参数;采用在各个容器中的节点来运行分布式训练的相应的进程。通过上述方式,可以使用容器的方式来部署运行分布式训练的节点,然后通过设置容器的端口地址,可以在一台服务器中部署多个容器,从而在总体上减少了进行深度学习框架分布式训练所使用的服务器的总数,节约分布式训练所使用的服务器硬件资源,并且节约运行服务器所需的电力资源。还公开了对应的用于深度学习框架分布式训练的装置。

Description

一种用于深度学习框架分布式训练的方法和装置
技术领域
本发明涉及深度学习技术领域,尤指一种用于深度学习框架分布式训练的方法和装置。
背景技术
在使用深度学习框架进行分布式训练时,通常至少需要使用Parameter Server节点(PS节点)和Worker节点。在使用一些种类的深度学习框架的时候,还会使用Scheduler节点或者Client节点。为了避免环境版本差异、不同应用相互影响、使用资源相互竞争等问题所造成的影像分布式训练正常运行的问题,常规的深度学习框架分布式训练需要将这些节点分配到多台服务器,各台服务器提供相应的服务。例如,将Worker0节点分配到第一服务器,将Worker1节点分配到第二服务器,并且将Worker2节点分配到第三服务器。由此可见,常规的分布式训练至少需要使用多台服务器。然而,以上述方式将训练任务部署到多台服务器会造成服务器硬件资源浪费以及运行服务器所需的电力资源的浪费。
发明内容
为了解决上述技术问题,本发明提供了用于深度学习框架分布式训练的方法和装置,其能够节约分布式训练所使用的服务器硬件资源,并且节约运行服务器所需的电力资源。
为了达到本发明目的,本发明实施例提供了一种用于深度学习框架分布式训练的方法,包括:
根据IP地址文件中存储的各个容器的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中,并且配置每个容器的中的训练参数;
采用在各个容器中的节点来运行分布式训练的相应的进程。
在一个可选的实施例中,在将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤之前,该方法还包括:
将各个容器的IP地址写入到IP地址文件中,以供根据IP地址文件中的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中。
在一个可选的实施例中,在将各个容器的IP地址写入到IP地址文件的步骤之前,该方法还包括:
生成各个容器的公钥以及配对的私钥,并且将每个容器的公钥发送给在分布式训练中使用的其他容器;
其中,采用在各个容器中的各个节点来运行分布式训练的相应的进程的步骤包括:
当在各个容器之中的第一容器中运行的第一节点请求在各个容器之中的第二容器中运行的第二节点的服务时,第二节点采用第一节点的公钥加密由第二节点计算出的服务数据并且将其发送给第一节点,由第一节点采用其私钥来解密由第二节点发送的服务数据。
在一个可选的实施例中,在将每个容器的公钥发送给在分布式训练中使用的容器的步骤之后,并且在将各个容器的IP地址写入到IP地址文件的步骤之前,该方法还包括:
分别采用各个容器向将会在分布式训练中使用到的其他容器发送测试数据,并且接收其他容器的响应数据;
如果发送测试数据的第一容器采用为其生成的私钥解密得到在其他容器之中的第二容器的响应数据,则确定第二容器向第一容器发送数据是安全的。
在一个可选的实施例中,当深度学习框架是Mxnet框架的时候,将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤包括:
为执行运行命令的容器分配一个用于负责调度的Scheduler节点、一个用于负责参数更新的PS节点和一个用于负责计算的Worker节点;并且为其他容器中分配一个Worker节点和一个PS节点。
在一个可选的实施例中,当深度学习框架是Tensorflow框架的时候,将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤包括:
分别在每个容器中部署一个用于负责参数更新的PS节点以及一个用于负责计算的Worker节点。
为了达到本发明目的,本发明实施例提供了一种用于深度学习框架分布式训练的装置,该装置包括存储器和处理器,
存储器用于存储计算机可读指令;
处理器用于执行计算机可读指令,以执行如下操作:
根据IP地址文件中存储的各个容器的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中,并且配置每个容器的中的训练参数;
采用在各个容器中的节点来运行分布式训练的相应的进程。
在一个可选的实施例中,在将在分布式训练中使用的各种类型的节点分别分配到各个容器中的操作之前,处理器还执行如下操作:
将各个容器的IP地址写入到IP地址文件中,以供根据IP地址文件中的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中。
在一个可选的实施例中,在将各个容器的IP地址写入到IP地址文件的操作之前,处理器还执行如下操作:
生成各个容器的公钥以及配对的私钥,并且将每个容器的公钥发送给在分布式训练中使用的其他容器;
其中,采用在各个容器中的各个节点来运行分布式训练的相应的进程的操作包括:
当在各个容器之中的第一容器中运行的第一节点请求在各个容器之中的第二容器中运行的第二节点的服务时,第二节点采用第一节点的公钥加密由第二节点计算出的服务数据并且将其发送给第一节点,由第一节点采用其私钥来解密由第二节点发送的服务数据。
在一个可选的实施例中,在将每个容器的公钥发送给在分布式训练中使用的容器的操作之后,并且在将各个容器的IP地址写入到IP地址文件的操作之前,处理器还执行如下操作:
分别采用各个容器向将会在分布式训练中使用到的其他容器发送测试数据,并且接收其他容器的响应数据;
如果发送测试数据的第一容器采用为其生成的私钥解密得到在其他容器之中的第二容器的响应数据,则确定第二容器向第一容器发送数据是安全的。
本发明实施例的有益效果在于,通过上述方式,可以使用容器的方式来部署运行分布式训练的节点,然后通过设置容器的端口地址,可以在一台服务器中部署多个容器,从而在总体上减少了进行深度学习框架分布式训练所使用的服务器的总数,节约分布式训练所使用的服务器硬件资源,并且节约运行服务器所需的电力资源。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例提供的用于深度学习框架分布式训练的方法的流程图;
图2为本发明实施例提供的用于深度学习框架分布式训练的装置的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在使用深度学习框架进行分布式训练时,通常至少需要使用Parameter Server节点(PS节点)和Worker节点。在使用一些种类的深度学习框架的时候,还会使用Scheduler节点或者Client节点。为了避免环境版本差异、不同应用相互影响、使用资源相互竞争等问题所造成的影像分布式训练正常运行的问题,常规的深度学习框架分布式训练需要将这些节点分配到多台服务器,各台服务器提供相应的服务。例如,将Worker0节点分配到第一服务器,将Worker1节点分配到第二服务器,并且将Worker2节点分配到第三服务器。由此可见,常规的分布式训练至少需要使用多台服务器。然而,以上述方式将训练任务部署到多台服务器会造成服务器硬件资源浪费以及运行服务器所需的电力资源的浪费。
为了解决上述技术问题,一方面,本发明实施例提供了一种用于深度学习框架分布式训练的方法。如图1所示,该方法包括步骤S101-步骤S103。
步骤S101,根据IP地址文件中存储的各个容器的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中,并且配置每个容器的中的训练参数。
为了克服将不同的进程部署在多台服务器造成服务器硬件资源浪费以及运行服务器所需的电力资源的浪费,在步骤S101中,将在深度学习框架的分布式训练中担负某种的功能的节点分配到容器中。每次训练都需要分配节点,需要拿到容器的IP地址来创建host文件,定义IP地址和主机名的映射关系,以便于将训练进程分配到其他容器。容器屏蔽了服务器平台的复杂性,为分布式训练的程序提供了运行环境。因此,在一个容器中可以部署多个节点,每个节点执行相应的进程,以用于处理该节点所担负的功能。设置容器的端口地址,可以在一台服务器中部署多个容器,因此,这种方法可以减少为了实现深度学习框架分布式训练所使用的服务器的数量。
在每次执行分布式训练的时候,均需要执行步骤S101中,根据每个容器的IP地址,将节点分配到容器中,在各个容器中的节点分别执行为该节点分配的训练进程。
在一个可选的实施例中,在步骤S101之前,该方法还包括:将各个容器的IP地址写入到IP地址文件中,以供根据IP地址文件中的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中。
步骤S103,采用在各个容器中的节点来运行分布式训练的相应的进程。
本发明实施例提供的分布式训练的方法适合应用于多种深度学习框架。但在具体应用的时候,会存在一些不同。
在一个可选的实施例中,在将本发明实施例提供的分布式训练的方法应用于Tensorflow框架的时候,步骤S101包括:分别在每个容器中部署一个PS节点以及一个Worker节点。其中,PS节点负责参数更新,Worker节点负责计算。当需要开始进行分布式训练的时候,需要在每个容器中执行运行命令,然后由每个容器之中的PS节点以及Worker节点执行分布式训练中为该节点分配的训练进程。通过上述方式,可以使本发明提供的用于分布式训练的方法应用于Tensorflow框架,达到在应用Tensorflow框架进行分布式学习时节约服务器硬件资源以及节约运行服务器所需的电力资源的目的。
在一个可选的实施例中,在将本发明实施例提供的分布式训练的方法应用于Mxnet框架的时候,步骤S101包括:
为执行运行命令的容器分配一个用于负责调度的Scheduler节点、一个用于负责参数更新的PS节点和一个用于负责计算的Worker节点;并且为其他容器中分配一个Worker节点和一个PS节点。在为各个容器分配节点之后,只需要在一个容器中执行运行命令,Scheduler节点会把进程分配到每个执行分布式训练的容器中。然后由各个容器中的节点执行相应的训练进程。通过上述方式,可以使本发明提供的用于分布式训练的方法应用于Mxnet框架,达到在应用Mxnet框架进行分布式学习时节约服务器硬件资源以及节约运行服务器所需的电力资源的目的。
由于本发明实施例提供的用于分布式训练的方法中使用了多个容器,并且在执行分布式训练时,需要各个容器之中的节点进行通信,因此,可以在将各个容器的IP地址写入到IP地址文件中之前,生成各个容器的公钥以及配对的私钥,并且将每个容器的公钥发送给在分布式训练中使用的其他容器,例如,在分布式训练中将要使用的第一容器生成该容器的公钥以及与这个公钥配对的私钥,然后第一容器将第一容器的公钥发送给同样在此次分布式训练中将要使用的第二容器;第二容器具有第一容器的公钥,可以用第一容器的公钥解密从第一容器发送来的信息。基于上述生成公钥和私钥以及分配公钥的步骤,在步骤S103中,当在各个容器之中的第一容器中运行的第一节点请求在各个容器之中的第二容器中运行的第二节点的服务时,第二节点采用第一节点的公钥加密由第二节点计算出的服务数据并且将其发送给第一节点,由第一节点采用其私钥来解密由第二节点发送的服务数据。通过上述方式,可以确保在使用多容器运行分布式训练的时候,传输的数据是安全加密的,不易被解密或者遭受外界干扰。
基于上述生成公钥和私钥的步骤,可以利用公钥以及私钥建立在本次分布式训练中使用的一个节点对于在本次分布式训练中使用的另一个节点的信任。例如,当想要建立第一容器对于第二容器的信任的时候,可以在将每个容器的公钥发送给在分布式训练中使用的容器的步骤之后,并且在将各个容器的IP地址写入到IP地址文件的步骤之前,分别采用各个容器向将会在分布式训练中使用到的其他容器发送测试数据,并且接收其他容器的响应数据;如果发送测试数据的第一容器采用为其生成的私钥解密得到在其他容器之中的第二容器的响应数据,则确定第二容器向第一容器发送数据是安全的,建立了第一容器对于第二容器的单方面的信任。如果发送测试数据的第二容器采用为其生成的私钥解密得到在其他容器之中的第一容器的响应数据,则确定第一容器向第二容器发送数据是安全的。通过上述过程,建立了第一容器与第二容器的互信,消除了在使用多容器进行分布式训练的时候的信息传输的安全隐患。
为了解决上述技术问题,另一方面,本发明实施例提供了一种用于深度学习框架分布式训练的装置,如图2所示,该装置包括存储器10和处理器20。
存储器10用于存储计算机可读指令;
处理器20用于执行计算机可读指令,以执行如下操作:
根据IP地址文件中存储的各个容器的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中,并且配置每个容器的中的训练参数;
采用在各个容器中的节点来运行分布式训练的相应的进程。
在一个可选的实施例中,在将在分布式训练中使用的各种类型的节点分别分配到各个容器中的操作之前,处理器20还执行如下操作:
将各个容器的IP地址写入到IP地址文件中,以供根据IP地址文件中的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中。
在一个可选的实施例中,在将各个容器的IP地址写入到IP地址文件的操作之前,处理器20还执行如下操作:
生成各个容器的公钥以及配对的私钥,并且将每个容器的公钥发送给在分布式训练中使用的其他容器;
其中,采用在各个容器中的各个节点来运行分布式训练的相应的进程的操作包括:
当在各个容器之中的第一容器中运行的第一节点请求在各个容器之中的第二容器中运行的第二节点的服务时,第二节点采用第一节点的公钥加密由第二节点计算出的服务数据并且将其发送给第一节点,由第一节点采用其私钥来解密由第二节点发送的服务数据。
在一个可选的实施例中,在将每个容器的公钥发送给在分布式训练中使用的容器的操作之后,并且在将各个容器的IP地址写入到IP地址文件的操作之前,处理器20还执行如下操作:
分别采用各个容器向将会在分布式训练中使用到的其他容器发送测试数据,并且接收其他容器的响应数据;
如果发送测试数据的第一容器采用为其生成的私钥解密得到在其他容器之中的第二容器的响应数据,则确定第二容器向第一容器发送数据是安全的。
虽然本发明所揭露的实施方式如上,但上述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种用于深度学习框架分布式训练的方法,其特征在于,包括:
根据IP地址文件中存储的各个容器的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中,并且配置每个容器的中的训练参数;
采用在所述各个容器中的节点来运行分布式训练的相应的进程。
2.根据权利要求1所述的方法,其特征在于,在所述将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤之前,所述方法还包括:
将各个容器的IP地址写入到所述IP地址文件中,以供根据所述IP地址文件中的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中。
3.根据权利要求2所述的方法,其特征在于,在所述将各个容器的IP地址写入到IP地址文件的步骤之前,所述方法还包括:
生成各个容器的公钥以及配对的私钥,并且将每个容器的公钥发送给在分布式训练中使用的其他容器;
其中,所述采用在所述各个容器中的各个节点来运行分布式训练的相应的进程的步骤包括:
当在所述各个容器之中的第一容器中运行的第一节点请求在所述各个容器之中的第二容器中运行的第二节点的服务时,所述第二节点采用所述第一节点的公钥加密由所述第二节点计算出的服务数据并且将其发送给所述第一节点,由所述第一节点采用其私钥来解密由所述第二节点发送的服务数据。
4.根据权利要求3所述的方法,其特征在于,在所述将每个容器的公钥发送给在分布式训练中使用的容器的步骤之后,并且在所述将各个容器的IP地址写入到IP地址文件的步骤之前,所述方法还包括:
分别采用各个容器向将会在分布式训练中使用到的其他容器发送测试数据,并且接收所述其他容器的响应数据;
如果发送所述测试数据的第一容器采用为其生成的私钥解密得到在所述其他容器之中的第二容器的响应数据,则确定所述第二容器向所述第一容器发送数据是安全的。
5.根据权利要求1所述的方法,其中,当所述深度学习框架是Mxnet框架的时候,所述将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤包括:
为执行运行命令的容器分配一个用于负责调度的Scheduler节点、一个用于负责参数更新的PS节点和一个用于负责计算的Worker节点;并且为其他容器中分配一个Worker节点和一个PS节点。
6.根据权利要求1所述的方法,其中,当所述深度学习框架是Tensorflow框架的时候,所述将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤包括:
分别在每个容器中部署一个用于负责参数更新的PS节点以及一个用于负责计算的Worker节点。
7.一种用于深度学习框架分布式训练的装置,其特征在于,包括存储器和处理器,
所述存储器用于存储计算机可读指令;
所述处理器用于执行所述计算机可读指令,以执行如下操作:
根据IP地址文件中存储的各个容器的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中,并且配置每个容器的中的训练参数;
采用在所述各个容器中的节点来运行分布式训练的相应的进程。
8.根据权利要求7所述的装置,其特征在于,在所述将在分布式训练中使用的各种类型的节点分别分配到各个容器中的操作之前,所述处理器还执行如下操作:
将各个容器的IP地址写入到所述IP地址文件中,以供根据所述IP地址文件中的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中。
9.根据权利要求8所述的装置,其特征在于,在所述将各个容器的IP地址写入到IP地址文件的操作之前,所述处理器还执行如下操作:
生成各个容器的公钥以及配对的私钥,并且将每个容器的公钥发送给在分布式训练中使用的其他容器;
其中,所述采用在所述各个容器中的各个节点来运行分布式训练的相应的进程的操作包括:
当在所述各个容器之中的第一容器中运行的第一节点请求在所述各个容器之中的第二容器中运行的第二节点的服务时,所述第二节点采用所述第一节点的公钥加密由所述第二节点计算出的服务数据并且将其发送给所述第一节点,由所述第一节点采用其私钥来解密由所述第二节点发送的服务数据。
10.根据权利要求9所述的装置,其特征在于,在所述将每个容器的公钥发送给在分布式训练中使用的容器的操作之后,并且在所述将各个容器的IP地址写入到IP地址文件的操作之前,所述处理器还执行如下操作:
分别采用各个容器向将会在分布式训练中使用到的其他容器发送测试数据,并且接收所述其他容器的响应数据;
如果发送所述测试数据的第一容器采用为其生成的私钥解密得到在所述其他容器之中的第二容器的响应数据,则确定所述第二容器向所述第一容器发送数据是安全的。
CN201910631463.0A 2019-07-12 2019-07-12 一种用于深度学习框架分布式训练的方法和装置 Pending CN110414687A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910631463.0A CN110414687A (zh) 2019-07-12 2019-07-12 一种用于深度学习框架分布式训练的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910631463.0A CN110414687A (zh) 2019-07-12 2019-07-12 一种用于深度学习框架分布式训练的方法和装置

Publications (1)

Publication Number Publication Date
CN110414687A true CN110414687A (zh) 2019-11-05

Family

ID=68361302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910631463.0A Pending CN110414687A (zh) 2019-07-12 2019-07-12 一种用于深度学习框架分布式训练的方法和装置

Country Status (1)

Country Link
CN (1) CN110414687A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364897A (zh) * 2020-10-27 2021-02-12 曙光信息产业(北京)有限公司 分布式训练方法及装置、存储介质及电子设备
CN112561079A (zh) * 2020-12-18 2021-03-26 北京百度网讯科技有限公司 分布式的模型训练装置、方法及计算机程序产品
CN112860424A (zh) * 2019-11-28 2021-05-28 上海商汤智能科技有限公司 任务处理方法及系统
CN113222174A (zh) * 2021-04-23 2021-08-06 万翼科技有限公司 模型管理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920259A (zh) * 2018-03-30 2018-11-30 华为技术有限公司 深度学习作业调度方法、系统和相关设备
CN109146084A (zh) * 2018-09-06 2019-01-04 郑州云海信息技术有限公司 一种基于云计算的机器学习的方法及装置
CN109272116A (zh) * 2018-09-05 2019-01-25 郑州云海信息技术有限公司 一种深度学习的方法及装置
CN109358944A (zh) * 2018-09-17 2019-02-19 深算科技(重庆)有限公司 深度学习分布式运算方法、装置、计算机设备及存储介质
CN109885389A (zh) * 2019-02-19 2019-06-14 山东浪潮云信息技术有限公司 一种基于容器的并行深度学习调度训练方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920259A (zh) * 2018-03-30 2018-11-30 华为技术有限公司 深度学习作业调度方法、系统和相关设备
CN109272116A (zh) * 2018-09-05 2019-01-25 郑州云海信息技术有限公司 一种深度学习的方法及装置
CN109146084A (zh) * 2018-09-06 2019-01-04 郑州云海信息技术有限公司 一种基于云计算的机器学习的方法及装置
CN109358944A (zh) * 2018-09-17 2019-02-19 深算科技(重庆)有限公司 深度学习分布式运算方法、装置、计算机设备及存储介质
CN109885389A (zh) * 2019-02-19 2019-06-14 山东浪潮云信息技术有限公司 一种基于容器的并行深度学习调度训练方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
URMSONE: "Docker容器中实现Tensorflow分布式训练", 《URL:HTTPS://BLOG.CSDN.NET/URMS_HANDSOMEYU/ARTICLE/DETAILS/86940028》 *
百鸣: "宿主机与docker容器之间免密码ssh链接,容器与容器之间ssh免密", 《URL:HTTPS://BLOG.CSDN.NET/HUAPENG_GUO/ARTICLE/DETAILS/83420286》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860424A (zh) * 2019-11-28 2021-05-28 上海商汤智能科技有限公司 任务处理方法及系统
CN112364897A (zh) * 2020-10-27 2021-02-12 曙光信息产业(北京)有限公司 分布式训练方法及装置、存储介质及电子设备
CN112364897B (zh) * 2020-10-27 2024-05-28 曙光信息产业(北京)有限公司 分布式训练方法及装置、存储介质及电子设备
CN112561079A (zh) * 2020-12-18 2021-03-26 北京百度网讯科技有限公司 分布式的模型训练装置、方法及计算机程序产品
CN113222174A (zh) * 2021-04-23 2021-08-06 万翼科技有限公司 模型管理方法及装置
CN113222174B (zh) * 2021-04-23 2024-04-26 万翼科技有限公司 模型管理方法及装置

Similar Documents

Publication Publication Date Title
CN110414687A (zh) 一种用于深度学习框架分布式训练的方法和装置
EP2849064B1 (en) Method and apparatus for network virtualization
US10241835B2 (en) Scheduling storage and computing resources based on task types and service levels
US10601666B2 (en) Network functions virtualization management and orchestration policy descriptor management method and apparatus
US11489722B2 (en) Network node policy generation and implementation
DE112017002070T5 (de) Technologien für die Vorrichtungsinbetriebnahme
US20100299366A1 (en) Systems and Methods for Generating Cloud Computing Landscapes
EP3788755B1 (en) Accessing cloud resources using private network addresses
CN110650037B (zh) 异构网络设备配置方法及装置
US10063429B2 (en) Systems and methods for optimizing computer network operations
US11693687B1 (en) Lifecycle management of VNFC software modules
US20200412824A1 (en) Provider network connectivity management for provider network substrate extensions
KR20100058810A (ko) 홈 네트워크 환경에서의 서비스 재구성 방법 및 장치
US20220121458A1 (en) Dynamic remediation actions in response to configuration checks in an information processing system
US20220159062A1 (en) Setting apparatus, communication system, setting method, and program
US20210326162A1 (en) Lifecycle management of a vnfc included in a multi-vnfc vdu
CN105743997A (zh) 一种用于实现Web Console带外管理系统的方法
CN109327470A (zh) 一种用于实现ssl加密传输的方法和装置
US8769058B1 (en) Provisioning interfacing virtual machines to separate virtual datacenters
CN108351798A (zh) 用于虚拟机的可扩展寻址机制
CN112804367A (zh) 双栈环境下的地址分配方法和装置
CN112270000B (zh) 密码服务提供方法、装置和计算机可读存储介质
CN107943441A (zh) 一种多窗口数据同步方法和装置
Dina et al. Cloud Native Intent Automation
CN106909505A (zh) 基于java的服务器操作系统的远程测试方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191105

RJ01 Rejection of invention patent application after publication