CN109885389A - 一种基于容器的并行深度学习调度训练方法及系统 - Google Patents

一种基于容器的并行深度学习调度训练方法及系统 Download PDF

Info

Publication number
CN109885389A
CN109885389A CN201910122127.3A CN201910122127A CN109885389A CN 109885389 A CN109885389 A CN 109885389A CN 201910122127 A CN201910122127 A CN 201910122127A CN 109885389 A CN109885389 A CN 109885389A
Authority
CN
China
Prior art keywords
node
training
task
container
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910122127.3A
Other languages
English (en)
Other versions
CN109885389B (zh
Inventor
窦洋
杨继伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Cloud Information Technology Co Ltd
Original Assignee
Shandong Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Cloud Information Technology Co Ltd filed Critical Shandong Inspur Cloud Information Technology Co Ltd
Priority to CN201910122127.3A priority Critical patent/CN109885389B/zh
Publication of CN109885389A publication Critical patent/CN109885389A/zh
Application granted granted Critical
Publication of CN109885389B publication Critical patent/CN109885389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于容器的并行深度学习调度训练方法及系统,属于云计算和深度学习技术领域,本发明要解决的技术问题为如何避免训练时TensorFlow的各个Task资源无法隔离,因资源抢占而互相影响、缺乏调度能力、上层开发量大以及查看每个Task训练任务及日志不便,采用的技术方案为:该方法是利用Kubernetes容器实现对任务的计算资源的配置和调度,提供ResourceQuota、LimitRanger多种资源管理机制,在容器集群中通过pod节点之间的通信,实现任务之间的资源隔离;同一训练节点同时启动训练pod和生命周期管理pod,并由LCM统一进行资源作业调度,微服务架构本身作为POD部署,依赖Kubernetes最新版本特性,有效地调动GPU的使用。本发明还公开了一种基于容器的并行深度学习调度训练系统。

Description

一种基于容器的并行深度学习调度训练方法及系统
技术领域
本发明涉及云计算和深度学习技术领域,具体地说是一种基于容器的并行深度学习调度训练方法及系统。
背景技术
随着机器学习和深度学习技术的迅速发展,越来越多的个人和企业青睐使用Google发布的TensorFlow框架进行深度学习训练。该框架是一个使用数据流图进行数值计算的开源软件库,有时深度学习模型需要的计算量太大,这就需要使用分布式计算,通过Client提交Session,定义一个worker,指定特定的CPU/GPU去运行训练任务。然而,运行该框架的并行计算模式时,不论是同步模式还是异步模式都存在一定的缺陷。
训练时TensorFlow的各个Task资源无法隔离,很可能导致任务之间因资源抢占而相互影响;缺乏调度能力,需要用户手动配置和管理计算任务的计算资源;集群规模大时,想要跟踪和管理每个任务的状态,需要在上层做大量的开发;用户在查看每个Task训练任务及其日志时都非常不方便。
故如何避免训练时TensorFlow的各个Task资源无法隔离,因资源抢占而互相影响、缺乏调度能力、上层开发量大以及查看每个Task训练任务及日志不便是目前现有技术中急需解决的技术问题。
专利号为CN107783818A的专利文献公开了深度学习任务处理方法、装置、设备及存储介质,其中方法包括:当获取到深度学习任务时,向KVM发起创建虚拟机的请求,并指定创建虚拟机所需的资源,以便KVM根据请求创建虚拟机;将深度学习任务以及Docker镜像传入虚拟机;根据Docker镜像在虚拟机内启动Docker,并在Docker中运行深度学习任务。该技术方案需要向KVM发请求启动虚拟机、需要把GPU/CPU资源传入Docker且无法将实现了事件和日志的监控输出,不能有效避免训练时TensorFlow的各个Task资源无法隔离,因资源抢占而互相影响、缺乏调度能力、上层开发量大以及查看每个Task训练任务及日志不便的问题。
发明内容
本发明的技术任务是提供一种基于容器的并行深度学习调度训练方法及系统,来解决如何避免训练时TensorFlow的各个Task资源无法隔离,因资源抢占而互相影响、缺乏调度能力、上层开发量大以及查看每个Task训练任务及日志不便的问题。
本发明的技术任务是按以下方式实现的,一种基于容器的并行深度学习调度训练方法,该方法是利用Kubernetes容器实现对任务的计算资源的配置和调度,提供ResourceQuota、LimitRanger多种资源管理机制,在容器集群中通过pod节点之间的通信,实现任务之间的资源隔离;同一训练节点同时启动训练pod和生命周期管理pod,并由LCM统一进行资源作业调度,微服务架构本身作为POD部署,依赖Kubernetes最新版本特性,有效地调动GPU的使用,当K8S作业因OS、docker或机器故障中的任何故障原因崩溃时,重新启动微服务架构,并报告微服务架构的健康;训练工作默认是按FIFO顺序安排,LCM支持作业优先级,对于每个训练任务,LCM使用按需来请求所需资源集(例如,GPU、存储器),提高了训练的可靠性和计算资源的利用率。
作为优选,该方法的具体步骤如下:
S1、在宿主机上预装Kubernetes容器(1.3以上),指定一个pod为调度节点,一个pod为监控节点,n个pod为task节点;
S2、调度节点负责提交作业任务,通过调度算法指定某个task节点进行一轮迭代;
S3、Task节点接到调度任务之后,运行TensorFlow的一轮迭代运算,完成一次反向传播过程;
S4、Task节点把运算结果和迭代次数发送给监控节点,并汇总到调度节点;
S5、Task节点训练过程中,在程序里预先开启一条线程,定时保存临时结果和进度到HDFS(分布式文件存储系统)中;
S6、监控节点负责感知GPU资源伸缩,监控task节点的健康状态;
S7、所有task节点的job完成,调度节点感知完成收敛,释放所有的GPU和cpu资源,销毁所有计算容器,把结果写入持久化卷或者输出为数据流。
更优地,所述步骤S6中监控task节点的健康状态时,若发现某task节点宕机或资源不足或计算超过阈值时间,立即通知调度节点启动新的task节点继续剩余训练任务,新分配的pod节点所占GPU资源更大。
更优地,所述步骤S6中监控节点负责感知GPU资源伸缩,感知GPU资源伸缩的具体步骤如下:
(1)、每隔一段时间(如30s),pod中控制器(controller manager)根据每个Pod定义中指定的指标(GPU使用率或其他自定义的指标)进行查询;
(2)、通过查询到的指标与设定的指标进行比较,获得需要容器资源缩放的比例(我们定义使用率超99%为阈值,不能进行超频运行),并发送给调度节点。
更优地,所述阀值时间的计算方法如下:
(1)、通过api查询TensorFlow计算节点每一次运行时所消耗的时间;
(2)、该节点此前n-1轮计算消耗的时间分别记为t1、t2、…、tn,下一次计算的时间最大的阈值为2n×(t1+t2+…+tn)(即之前的时间求和再乘以2n);
(3)、若task节点超过阈值,由监控节点通知调度节点,开启资源更大的task节点(设置为2倍原来的GPU资源)进行训练。
更优地,所述步骤S2中的调度算法具体如下:
(1)、超阈值时,新分配计算节点将会转移计算任务,此时便出现了空余的task节点(Pod);
(2)、基于空余的task节点所占有的资源(GPU)大小,设置权重(weight),
(3)、所占资源越大,权重越大;
(4)、当再出现超阈值需要新分配节点时,优先从空余节点(Pod)中选择(当然要满足2倍原来GPU资源的条件);
(5)、在开启新节点的过程中,训练进度完成度越高的,越优先分配;训练进度完成度越低的,需要排在队列后面,等待资源分配。
作为优选,所述训练过程中,若训练节点失败,守护进程检测到故障,并指示LCM终止自身和学习节点,用户检查日志以诊断失败的原因:
①、若为训练监控节点失败,则将被从Kubernetes中重新启动,从etcd中获取状态,并且恢复正常运作;其中,故障信息可从MongoDB或者ELK中查看;
②、若为LCM崩溃并重新启动,则正在运行的作业将具有由重新启动的LCM重新部署,但现有作业不受影响;其中,该情况的前提是该系统有多个LCM的副本以及etcd本身也被复制,并且对etcd节点的所有更新都是可序列化的。
一种基于容器的并行深度学习调度训练系统,该系统包括微服务架构、学习训练(DL)、容器集群管理和生命周期管理(LCM);
其中,微服务架构用于减少组件之间的耦合,保持每个组件的单一性和尽可能无状态,相互隔离,并允许每个组件独立开发、测试、部署、伸缩和升级;并通过动态注册RESTAPI服务实例来实现负载平衡;
学习训练(DL)是由使用GPU的kubernetes容器中的单个学习节点(Learning Pod)组成,用户代码实例化框架kubernetes服务;通常,学习训练作业使用几个GPU/CPU或者由几个学习节点同步在MPI上使用集中式参数服务;用户提交训练任务,并使用REST API管理;其中,学习训练作业的参数包括训练数据的来源、访问训练数据的凭据、框架(TensorFlow)、学习节点的数量、结果和日志被存储的位置以及学习速率,学习训练作业的参数均使用配置文件来指定;
容器集群管理用于使用Kubernetes(K8S)进行容器编排和群集管理;Kubernetes节点是一个或多个容器的集合、共享存储和网络以及管理生命周期;Kubernetes节点的内容总是位于同一位置并协同调度,并在上下文中共享运行状态;所有容器化的核心服务都是作为K8S执行的,通过K8S将服务抽象化,部署DL作业和状态;
生命周期管理(LCM)用于部署DL作业,LCM只需使用DL作业的所有元数据实例化一个守护进程(创建守护进程是一个非常快的过程),守护进程通过与K8S进一步交互来执行实际部署DL作业的多步骤过程,需要实例化K8S容器(启动节点使用的DL框架,TensorFlow),通过用户代码和训练参数,设置共享NFS卷来监控训练进度,K8S策略限制多租户环境中学习者的网络访问;若监护进程在作业部署的中间崩溃,由K8S保证重新启动,重新启动的守护进程回滚之前部署的DL作业,并启动新的部署过程;在持续失败的情况下,在守护进程放弃之前,该过程将重复(可配置)多次,并且在MongoDB中标记的DL作业失败;一旦DL作业成功部署,守护进程就始终负责监控进度。
作为优选,该系统还包括分布式文件存储系统(HDFS)、持久化卷(SSD/VOLUME)、时序数据库(InflunceDB)、文档数据库(MongoDB)、共享配置和服务发现(ETCD)以及日志处理一体化(ELK栈);
分布式文件存储系统(HDFS)用于存储训练过成功中的临时数据,当节点宕机时,新节点可以快速读取上一次临时数据;
持久化卷(SSD/VOLUME)用于保存训练模型和原始数据;
时序数据库(InflunceDB)用于记录每一轮训练实时结果;
文档数据库(MongoDB)用于存储训练过成功中的临时数据,当节点宕机时,新节点可以快速读取上一次临时数据,用于代替分布式文件存储系统(HDFS);
共享配置和服务发现(ETCD)用于节点之间的RPC通信;
日志处理一体化(ELK栈)用于存储和展示系统运行日志。
本发明的基于容器的并行深度学习调度训练方法及系统具有以下优点:
(一)、本发明针对TensorFlow深度学习框架在本地分布式运行时计算资源缺乏调度能力、资源无法隔离、GPU并行异步运算参数更新不同步等问题,利用容器对GPU资源的调度和管理,通过调度编排来管理反向传播算法节点,加速算法迭代速度,提高数据中心资源利用率;
(二)、本发明中的kubernetes容器支持对任务的计算资源的配置和调度,提供ResourceQuota,LimitRanger等多种资源管理机制,在集群中通过pod节点之间的通信,能做到任务之间很好的资源隔离,最新的kubernetes支持GPU调度,如果K8S作业因任何原因崩溃(如OS、docker、或机器故障),K8S将自动重新启动它并再次执行,大大的提高了训练的可靠性和计算资源的利用率;
(三)、本发明采用自然语言分类模型程序,对标裸金属主机与本系统运行相同的程序,同倍增加调度任务,比较所消耗的资源和达到收敛效果的时间;通过本发明(10个K8s节点)与在裸金属主机(系统Ubantu 18.04.1 LTS,2张Nvidia Tesla K80s显卡,共8Gpu)上DL训练结果对比,每项训练都是基于神经网络的自然语言分类模型,结果显示,并发作业从5增加到25个并发作业时,工作完成时间从30.12增加到62.22秒;数量增加了5倍并行工作,平均工作完成时间仅增加51.6%;裸金属主机运行相同TensorFlow程序并行模式,如达到相同的收敛结果,GPU使用率与作业数同倍增加,且没有过程日志输出和持久化过程;测试结果表明,本系统有效的提高了深度学习训练的可靠性和计算资源的利用率。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于容器的并行深度学习调度训练系统的结构示意图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种基于容器的并行深度学习调度训练方法及系统作以下详细地说明。
实施例1:
本发明的基于容器的并行深度学习调度训练方法,该方法是利用Kubernetes容器实现对任务的计算资源的配置和调度,提供ResourceQuota、LimitRanger多种资源管理机制,在容器集群中通过pod节点之间的通信,实现任务之间的资源隔离;同一训练节点同时启动训练pod和生命周期管理pod,并由LCM统一进行资源作业调度,微服务架构本身作为POD部署,依赖Kubernetes最新版本特性,有效地调动GPU的使用,当K8S作业因OS、docker或机器故障中的任何故障原因崩溃时,重新启动微服务架构,并报告微服务架构的健康;训练工作默认是按FIFO顺序安排,LCM支持作业优先级,对于每个训练任务,LCM使用按需来请求所需资源集(例如,GPU、存储器),提高了训练的可靠性和计算资源的利用率;其中,训练过程中,若训练节点失败,守护进程检测到故障,并指示LCM终止自身和学习节点,用户检查日志以诊断失败的原因:
①、若为训练监控节点失败,则将被从Kubernetes中重新启动,从etcd中获取状态,并且恢复正常运作;其中,故障信息可从MongoDB或者ELK中查看;
②、若为LCM崩溃并重新启动,则正在运行的作业将具有由重新启动的LCM重新部署,但现有作业不受影响;其中,该情况的前提是该系统有多个LCM的副本以及etcd本身也被复制,并且对etcd节点的所有更新都是可序列化的。
实施例2:
本发明的基于容器的并行深度学习调度训练方法,该方法的具体步骤如下:
S1、在宿主机上预装Kubernetes容器(1.3以上),指定一个pod为调度节点,一个pod为监控节点,n个pod为task节点;
S2、调度节点负责提交作业任务,通过调度算法指定某个task节点进行一轮迭代;其中,调度算法具体如下:
(1)、超阈值时,新分配计算节点将会转移计算任务,此时便出现了空余的task节点(Pod);
(2)、基于空余的task节点所占有的资源(GPU)大小,设置权重(weight),
(3)、所占资源越大,权重越大;
(4)、当再出现超阈值需要新分配节点时,优先从空余节点(Pod)中选择(当然要满足2倍原来GPU资源的条件);
(5)、在开启新节点的过程中,训练进度完成度越高的,越优先分配;训练进度完成度越低的,需要排在队列后面,等待资源分配。
S3、Task节点接到调度任务之后,运行TensorFlow的一轮迭代运算,完成一次反向传播过程;
S4、Task节点把运算结果和迭代次数发送给监控节点,并汇总到调度节点;
S5、Task节点训练过程中,在程序里预先开启一条线程,定时保存临时结果和进度到HDFS(分布式文件存储系统)中;
S6、监控节点负责感知GPU资源伸缩,监控task节点的健康状态;其中,监控task节点的健康状态时,若发现某task节点宕机或资源不足或计算超过阈值时间,立即通知调度节点启动新的task节点继续剩余训练任务,新分配的pod节点所占GPU资源更大;阀值时间的计算方法如下:
(1)、通过api查询TensorFlow计算节点每一次运行时所消耗的时间;
(2)、该节点此前n-1轮计算消耗的时间分别记为t1、t2、…、tn,下一次计算的时间最大的阈值为2n×(t1+t2+…+tn)(即之前的时间求和再乘以2n);
(3)、若task节点超过阈值,由监控节点通知调度节点,开启资源更大的task节点(设置为2倍原来的GPU资源)进行训练。
监控节点负责感知GPU资源伸缩,感知GPU资源伸缩的具体步骤如下:
(1)、每隔一段时间(如30s),pod中控制器(controller manager)根据每个Pod定义中指定的指标(GPU使用率或其他自定义的指标)进行查询;
(2)、通过查询到的指标与设定的指标进行比较,获得需要容器资源缩放的比例(我们定义使用率超99%为阈值,不能进行超频运行),并发送给调度节点。
S7、所有task节点的job完成,调度节点感知完成收敛,释放所有的GPU和cpu资源,销毁所有计算容器,把结果写入持久化卷或者输出为数据流。
实施例3:
如附图1所示,本发明的基于容器的并行深度学习调度训练系统,该系统包括微服务架构、学习训练(DL)、容器集群管理和生命周期管理(LCM);
其中,微服务架构用于减少组件之间的耦合,保持每个组件的单一性和尽可能无状态,相互隔离,并允许每个组件独立开发、测试、部署、伸缩和升级;并通过动态注册RESTAPI服务实例来实现负载平衡;
学习训练(DL)是由使用GPU的kubernetes容器中的单个学习节点(Learning Pod)组成,用户代码实例化框架kubernetes服务;通常,学习训练作业使用几个GPU/CPU或者由几个学习节点同步在MPI上使用集中式参数服务;用户提交训练任务,并使用REST API管理;其中,学习训练作业的参数包括训练数据的来源、访问训练数据的凭据、框架(TensorFlow)、学习节点的数量、结果和日志被存储的位置以及学习速率,学习训练作业的参数均使用配置文件来指定;
容器集群管理用于使用Kubernetes(K8S)进行容器编排和群集管理;Kubernetes节点是一个或多个容器的集合、共享存储和网络以及管理生命周期;Kubernetes节点的内容总是位于同一位置并协同调度,并在上下文中共享运行状态;所有容器化的核心服务都是作为K8S执行的,通过K8S将服务抽象化,部署DL作业和状态;
生命周期管理(LCM)用于部署DL作业,LCM只需使用DL作业的所有元数据实例化一个守护进程(创建守护进程是一个非常快的过程),守护进程通过与K8S进一步交互来执行实际部署DL作业的多步骤过程,需要实例化K8S容器(启动节点使用的DL框架,TensorFlow),通过用户代码和训练参数,设置共享NFS卷来监控训练进度,K8S策略限制多租户环境中学习者的网络访问;若监护进程在作业部署的中间崩溃,由K8S保证重新启动,重新启动的守护进程回滚之前部署的DL作业,并启动新的部署过程;在持续失败的情况下,在守护进程放弃之前,该过程将重复(可配置)多次,并且在MongoDB中标记的DL作业失败;一旦DL作业成功部署,守护进程就始终负责监控进度。
该系统还包括分布式文件存储系统(HDFS)、持久化卷(SSD/VOLUME)、时序数据库(InflunceDB)、文档数据库(MongoDB)、共享配置和服务发现(ETCD)以及日志处理一体化(ELK栈);
分布式文件存储系统(HDFS)用于存储训练过成功中的临时数据,当节点宕机时,新节点可以快速读取上一次临时数据;
持久化卷(SSD/VOLUME)用于保存训练模型和原始数据;
时序数据库(InflunceDB)用于记录每一轮训练实时结果;
文档数据库(MongoDB)用于存储训练过成功中的临时数据,当节点宕机时,新节点可以快速读取上一次临时数据,用于代替分布式文件存储系统(HDFS);
共享配置和服务发现(ETCD)用于节点之间的RPC通信;
日志处理一体化(ELK栈)用于存储和展示系统运行日志。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种基于容器的并行深度学习调度训练方法,其特征在于,该方法是利用Kubernetes容器实现对任务的计算资源的配置和调度,提供ResourceQuota、LimitRanger多种资源管理机制,在容器集群中通过pod节点之间的通信,实现任务之间的资源隔离;同一训练节点同时启动训练pod和生命周期管理pod,并由LCM统一进行资源作业调度,微服务架构本身作为POD部署,依赖Kubernetes最新版本特性,有效地调动GPU的使用,当K8S作业因OS、docker或机器故障中的任何故障原因崩溃时,重新启动微服务架构,并报告微服务架构的健康;训练工作默认是按FIFO顺序安排,LCM支持作业优先级,对于每个训练任务,LCM使用按需来请求所需资源集,提高了训练的可靠性和计算资源的利用率。
2.根据权利要求1所述的基于容器的并行深度学习调度训练方法,其特征在于,该方法的具体步骤如下:
S1、在宿主机上预装Kubernetes容器,指定一个pod为调度节点,一个pod为监控节点,n个pod为task节点;
S2、调度节点负责提交作业任务,通过调度算法指定某个task节点进行一轮迭代;
S3、Task节点接到调度任务之后,运行TensorFlow的一轮迭代运算,完成一次反向传播过程;
S4、Task节点把运算结果和迭代次数发送给监控节点,并汇总到调度节点;
S5、Task节点训练过程中,在程序里预先开启一条线程,定时保存临时结果和进度到HDFS中;
S6、监控节点负责感知GPU资源伸缩,监控task节点的健康状态;
S7、所有task节点的job完成,调度节点感知完成收敛,释放所有的GPU和cpu资源,销毁所有计算容器,把结果写入持久化卷或者输出为数据流。
3.根据权利要求2所述的基于容器的并行深度学习调度训练方法,其特征在于,所述步骤S6中监控task节点的健康状态时,若发现某task节点宕机或资源不足或计算超过阈值时间,立即通知调度节点启动新的task节点继续剩余训练任务,新分配的pod节点所占GPU资源更大。
4.根据权利要求3所述的基于容器的并行深度学习调度训练方法,其特征在于,所述步骤S6中监控节点负责感知GPU资源伸缩,感知GPU资源伸缩的具体步骤如下:
(1)、每隔一段时间,pod中控制器根据每个Pod定义中指定的指标进行查询;
(2)、通过查询到的指标与设定的指标进行比较,获得需要容器资源缩放的比例,并发送给调度节点。
5.根据权利要求4所述的基于容器的并行深度学习调度训练方法,其特征在于,所述步阀值时间的计算方法如下:
(1)、通过api查询TensorFlow计算节点每一次运行时所消耗的时间;
(2)、该节点此前n-1轮计算消耗的时间分别记为t1、t2、…、tn,下一次计算的时间最大的阈值为2n×(t1+t2+…+tn)(即之前的时间求和再乘以2n);
(3)、若task节点超过阈值,由监控节点通知调度节点,开启资源更大的task节点进行训练。
6.根据权利要求2或3或4或5所述的基于容器的并行深度学习调度训练方法,其特征在于,所述步骤S2中的调度算法具体如下:
(1)、超阈值时,新分配计算节点将会转移计算任务,此时便出现了空余的task节点;
(2)、基于空余的task节点所占有的资源大小,设置权重,
(3)、所占资源越大,权重越大;
(4)、当再出现超阈值需要新分配节点时,优先从空余节点中选择;
(5)、在开启新节点的过程中,训练进度完成度越高的,越优先分配;训练进度完成度越低的,需要排在队列后面,等待资源分配。
7.根据权利要求1所述的基于容器的并行深度学习调度训练方法,其特征在于,所述训练过程中,若训练节点失败,守护进程检测到故障,并指示LCM终止自身和学习节点,用户检查日志以诊断失败的原因:
①、若为训练监控节点失败,则将被从Kubernetes中重新启动,从etcd中获取状态,并且恢复正常运作;其中,故障信息可从MongoDB或者ELK中查看;
②、若为LCM崩溃并重新启动,则正在运行的作业将具有由重新启动的LCM重新部署,但现有作业不受影响;其中,该情况的前提是该系统有多个LCM的副本以及etcd本身也被复制,并且对etcd节点的所有更新都是可序列化的。
8.一种基于容器的并行深度学习调度训练系统,其特征在于,该系统包括微服务架构、学习训练、容器集群管理和生命周期管理;
其中,微服务架构用于减少组件之间的耦合,保持每个组件的单一性和尽可能无状态,相互隔离,并允许每个组件独立开发、测试、部署、伸缩和升级;并通过动态注册REST API服务实例来实现负载平衡;
学习训练是由使用GPU的kubernetes容器中的单个学习节点组成,用户代码实例化框架kubernetes服务;通常,学习训练作业使用几个GPU/CPU或者由几个学习节点同步在MPI上使用集中式参数服务;用户提交训练任务,并使用REST API管理;其中,学习训练作业的参数包括训练数据的来源、访问训练数据的凭据、框架、学习节点的数量、结果和日志被存储的位置以及学习速率,学习训练作业的参数均使用配置文件来指定;
容器集群管理用于使用Kubernetes进行容器编排和群集管理;Kubernetes节点是一个或多个容器的集合、共享存储和网络以及管理生命周期;Kubernetes节点的内容总是位于同一位置并协同调度,并在上下文中共享运行状态;所有容器化的核心服务都是作为K8S执行的,通过K8S将服务抽象化,部署DL作业和状态;
生命周期管理用于部署DL作业,LCM只需使用DL作业的所有元数据实例化一个守护进程,守护进程通过与K8S进一步交互来执行实际部署DL作业的多步骤过程,需要实例化K8S容器,通过用户代码和训练参数,设置共享NFS卷来监控训练进度,K8S策略限制多租户环境中学习者的网络访问;若监护进程在作业部署的中间崩溃,由K8S保证重新启动,重新启动的守护进程回滚之前部署的DL作业,并启动新的部署过程;在持续失败的情况下,在守护进程放弃之前,该过程将重复多次,并且在MongoDB中标记的DL作业失败;一旦DL作业成功部署,守护进程就始终负责监控进度。
9.根据权利要求8所述的基于容器的并行深度学习调度训练系统,其特征在于,该系统还包括分布式文件存储系统、持久化卷、时序数据库、文档数据库、共享配置和服务发现以及日志处理一体化;
分布式文件存储系统用于存储训练过成功中的临时数据,当节点宕机时,新节点可以快速读取上一次临时数据;
持久化卷用于保存训练模型和原始数据;
时序数据库用于记录每一轮训练实时结果;
文档数据库用于存储训练过成功中的临时数据,当节点宕机时,新节点可以快速读取上一次临时数据,用于代替分布式文件存储系统;
共享配置和服务发现用于节点之间的RPC通信;
日志处理一体化用于存储和展示系统运行日志。
CN201910122127.3A 2019-02-19 2019-02-19 一种基于容器的并行深度学习调度训练方法及系统 Active CN109885389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910122127.3A CN109885389B (zh) 2019-02-19 2019-02-19 一种基于容器的并行深度学习调度训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910122127.3A CN109885389B (zh) 2019-02-19 2019-02-19 一种基于容器的并行深度学习调度训练方法及系统

Publications (2)

Publication Number Publication Date
CN109885389A true CN109885389A (zh) 2019-06-14
CN109885389B CN109885389B (zh) 2021-07-16

Family

ID=66928341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910122127.3A Active CN109885389B (zh) 2019-02-19 2019-02-19 一种基于容器的并行深度学习调度训练方法及系统

Country Status (1)

Country Link
CN (1) CN109885389B (zh)

Cited By (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413391A (zh) * 2019-07-24 2019-11-05 上海交通大学 基于容器集群的深度学习任务服务质量保证方法和系统
CN110414687A (zh) * 2019-07-12 2019-11-05 苏州浪潮智能科技有限公司 一种用于深度学习框架分布式训练的方法和装置
CN110502340A (zh) * 2019-08-09 2019-11-26 广东浪潮大数据研究有限公司 一种资源动态调整方法、装置、设备及存储介质
CN110515704A (zh) * 2019-08-30 2019-11-29 广东浪潮大数据研究有限公司 基于Kubernetes系统的资源调度方法及装置
CN110688230A (zh) * 2019-10-17 2020-01-14 广州文远知行科技有限公司 一种同步训练方法、装置、计算机设备和存储介质
CN110704135A (zh) * 2019-09-26 2020-01-17 北京智能工场科技有限公司 一种基于虚拟环境的竞赛数据处理系统和方法
CN110737504A (zh) * 2019-08-31 2020-01-31 苏州浪潮智能科技有限公司 一种深度学习模型训练容错方法、系统、终端及存储介质
CN110780991A (zh) * 2019-09-12 2020-02-11 苏州浪潮智能科技有限公司 一种基于优先级的深度学习任务调度方法及装置
CN110912972A (zh) * 2019-11-07 2020-03-24 北京浪潮数据技术有限公司 一种业务处理方法、系统、电子设备及可读存储介质
CN110928553A (zh) * 2019-10-16 2020-03-27 中国平安人寿保险股份有限公司 深度学习模型的部署方法、装置和系统
CN111045791A (zh) * 2019-12-16 2020-04-21 武汉智领云科技有限公司 一种大数据容器化中心调度系统和方法
CN111104212A (zh) * 2019-12-18 2020-05-05 秒针信息技术有限公司 一种调度任务执行方法、装置、电子设备及存储介质
CN111143060A (zh) * 2019-12-18 2020-05-12 重庆紫光华山智安科技有限公司 Gpu资源调度方法、装置及gpu
CN111191771A (zh) * 2019-12-29 2020-05-22 浪潮(北京)电子信息产业有限公司 一种数据处理方法、装置、设备及存储介质
CN111274018A (zh) * 2020-01-21 2020-06-12 行星算力(深圳)科技有限公司 一种基于dl框架下的分布式训练方法
CN111400000A (zh) * 2020-03-09 2020-07-10 百度在线网络技术(北京)有限公司 网络请求处理方法、装置、设备和存储介质
CN111444019A (zh) * 2020-03-31 2020-07-24 中国科学院自动化研究所 云端协同的深度学习模型分布式训练方法及系统
CN111459576A (zh) * 2020-03-31 2020-07-28 北京九章云极科技有限公司 一种数据分析处理系统和模型运行方法
CN111562985A (zh) * 2020-05-09 2020-08-21 上海商汤智能科技有限公司 资源管理方法及装置、电子设备和存储介质
CN111625420A (zh) * 2020-05-21 2020-09-04 浪潮电子信息产业股份有限公司 一种分布式训练任务处理方法、装置、设备及存储介质
CN111679891A (zh) * 2020-08-14 2020-09-18 支付宝(杭州)信息技术有限公司 容器复用方法、装置、设备以及存储介质
CN111767146A (zh) * 2020-06-24 2020-10-13 杭州电子科技大学 一种基于网络重配置的分布式机器学习系统加速方法
CN111984679A (zh) * 2020-07-02 2020-11-24 中科驭数(北京)科技有限公司 硬件加速数据库的访问方法、装置、主机、系统及介质
CN112101536A (zh) * 2020-08-30 2020-12-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 轻量级分布式多任务协同框架
CN112114931A (zh) * 2019-06-21 2020-12-22 鸿富锦精密电子(天津)有限公司 深度学习程序配置方法、装置、电子设备及存储介质
CN112148438A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 异常任务处理、任务调度方法、装置及计算机存储介质
CN112199178A (zh) * 2020-10-21 2021-01-08 中国电子科技集团公司第十五研究所 一种基于轻量化容器的云服务动态调度方法及系统
CN112286151A (zh) * 2020-10-21 2021-01-29 山东华锐智能技术有限公司 基于微服务的多种类集群agv导航调度系统及方法
CN112286644A (zh) * 2020-12-25 2021-01-29 同盾控股有限公司 Gpu虚拟化算力的弹性调度方法、系统、设备和存储介质
CN112311605A (zh) * 2020-11-06 2021-02-02 北京格灵深瞳信息技术有限公司 提供机器学习服务的云平台及方法
CN112328372A (zh) * 2020-11-27 2021-02-05 新华智云科技有限公司 一种kubernetes节点自愈方法和系统
CN112348195A (zh) * 2019-08-08 2021-02-09 深圳致星科技有限公司 一种基于rdma网络的分布式训练系统及高效训练方法
CN112348196A (zh) * 2019-08-08 2021-02-09 深圳致星科技有限公司 一种自适应rdma网络的分布式机器学习系统及方法
CN112394944A (zh) * 2019-08-13 2021-02-23 阿里巴巴集团控股有限公司 分布式开发方法、装置、存储介质及计算机设备
CN112398915A (zh) * 2020-10-28 2021-02-23 武汉大势智慧科技有限公司 一种云渲染平台的app应用审核方法及系统
CN112416368A (zh) * 2020-11-25 2021-02-26 中国科学技术大学先进技术研究院 缓存部署与任务调度方法、终端和计算机可读存储介质
CN112418438A (zh) * 2020-11-24 2021-02-26 国电南瑞科技股份有限公司 基于容器的机器学习流程化训练任务执行方法及系统
TWI721464B (zh) * 2019-06-21 2021-03-11 鴻齡科技股份有限公司 深度學習程式配置方法、裝置、電子設備及存儲介質
CN112685153A (zh) * 2020-12-25 2021-04-20 广州奇盾信息技术有限公司 微服务调度方法、装置以及电子设备
CN112700004A (zh) * 2020-12-25 2021-04-23 南方电网深圳数字电网研究院有限公司 基于容器技术的深度学习模型训练方法、设备及存储介质
CN112799742A (zh) * 2021-02-09 2021-05-14 上海海事大学 一种基于微服务的机器学习实训系统及方法
CN112817711A (zh) * 2021-01-22 2021-05-18 海南大学 基于微服务的数据融合系统
CN112817581A (zh) * 2021-02-20 2021-05-18 中国电子科技集团公司第二十八研究所 一种轻量级智能服务构建和运行支撑方法
CN112835695A (zh) * 2021-01-28 2021-05-25 北京市商汤科技开发有限公司 Pod间通信的方法和分布式计算系统
CN112860373A (zh) * 2021-01-29 2021-05-28 西藏宁算科技集团有限公司 人工智能分布式训练平台的搭建方法及平台
CN113033814A (zh) * 2019-12-09 2021-06-25 北京中关村科金技术有限公司 训练机器学习模型的方法、装置以及存储介质
CN113032092A (zh) * 2021-03-05 2021-06-25 北京百度网讯科技有限公司 分布式计算方法、装置及平台
CN113094116A (zh) * 2021-04-01 2021-07-09 中国科学院软件研究所 一种基于负载特征分析的深度学习应用云配置推荐方法及系统
CN113296874A (zh) * 2020-05-29 2021-08-24 阿里巴巴集团控股有限公司 一种任务的调度方法、计算设备及存储介质
CN113296988A (zh) * 2020-06-08 2021-08-24 阿里巴巴集团控股有限公司 基于多容器共享异构计算设备实现故障隔离的方法及装置
WO2021203805A1 (zh) * 2020-04-08 2021-10-14 苏州浪潮智能科技有限公司 一种gpu共享调度、单机多卡方法、系统及装置
CN113672391A (zh) * 2021-08-23 2021-11-19 烽火通信科技股份有限公司 一种基于Kubernetes的并行计算任务调度方法与系统
CN113743425A (zh) * 2020-05-27 2021-12-03 北京沃东天骏信息技术有限公司 一种生成分类模型的方法和装置
CN114020413A (zh) * 2021-11-05 2022-02-08 沈阳飞机设计研究所扬州协同创新研究院有限公司 一种基于Kubernetes容器集群的分布式强化学习系统设计方法
CN114138434A (zh) * 2021-11-19 2022-03-04 苏州浪潮智能科技有限公司 一种大数据任务调度系统
CN114138421A (zh) * 2021-12-08 2022-03-04 兴业银行股份有限公司 kubernetes的智能资源控制系统及方法
CN114281311A (zh) * 2021-12-24 2022-04-05 重庆农村商业银行股份有限公司 一种模型开发系统
CN114327886A (zh) * 2021-12-24 2022-04-12 国家石油天然气管网集团有限公司 一种基于大数据深度学习的动态资源调度方法
CN114418127A (zh) * 2022-03-23 2022-04-29 阿里云计算有限公司 机器学习计算优化方法和平台
JP2022084869A (ja) * 2021-04-02 2022-06-07 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 深層フレームワーク用のスケジューリング方法、スケジューリング装置、電子機器、記憶媒体及びプログラム
CN114968495A (zh) * 2022-06-27 2022-08-30 集美大学 一种基于kubernetes平台实现地学数据共享的方法和系统
CN114968601A (zh) * 2022-07-28 2022-08-30 合肥中科类脑智能技术有限公司 一种按比例预留资源的ai训练作业的调度方法和调度系统
WO2022206197A1 (en) * 2021-03-30 2022-10-06 International Business Machines Corporation Training and scoring for large number of performance models
CN115601221A (zh) * 2022-11-28 2023-01-13 苏州浪潮智能科技有限公司(Cn) 一种资源的分配方法、装置和一种人工智能训练系统
US11556332B2 (en) 2021-02-23 2023-01-17 International Business Machines Corporation Application updating in a computing environment using a function deployment component
CN116155750A (zh) * 2023-04-19 2023-05-23 之江实验室 深度学习作业资源放置方法、系统、设备和存储介质
CN116755893A (zh) * 2023-08-22 2023-09-15 之江实验室 面向深度学习的分布式计算系统的作业调度方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783818A (zh) * 2017-10-13 2018-03-09 北京百度网讯科技有限公司 深度学习任务处理方法、装置、设备及存储介质
US20180107917A1 (en) * 2016-10-19 2018-04-19 Ebay Inc. Applying a quantitative range for qualitative terms
CN108062246A (zh) * 2018-01-25 2018-05-22 北京百度网讯科技有限公司 用于深度学习框架的资源调度方法和装置
CN108809722A (zh) * 2018-06-13 2018-11-13 郑州云海信息技术有限公司 一种部署Kubernetes集群的方法、装置和存储介质
CN108874542A (zh) * 2018-06-07 2018-11-23 桂林电子科技大学 基于神经网络的Kubernetes调度优化方法
CN108881446A (zh) * 2018-06-22 2018-11-23 深源恒际科技有限公司 一种基于深度学习的人工智能平台系统
CN108920259A (zh) * 2018-03-30 2018-11-30 华为技术有限公司 深度学习作业调度方法、系统和相关设备
CN109117248A (zh) * 2018-07-19 2019-01-01 郑州云海信息技术有限公司 一种基于kubernetes平台的深度学习任务弹性伸缩系统及方法
CN109272116A (zh) * 2018-09-05 2019-01-25 郑州云海信息技术有限公司 一种深度学习的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180107917A1 (en) * 2016-10-19 2018-04-19 Ebay Inc. Applying a quantitative range for qualitative terms
CN107783818A (zh) * 2017-10-13 2018-03-09 北京百度网讯科技有限公司 深度学习任务处理方法、装置、设备及存储介质
CN108062246A (zh) * 2018-01-25 2018-05-22 北京百度网讯科技有限公司 用于深度学习框架的资源调度方法和装置
CN108920259A (zh) * 2018-03-30 2018-11-30 华为技术有限公司 深度学习作业调度方法、系统和相关设备
CN108874542A (zh) * 2018-06-07 2018-11-23 桂林电子科技大学 基于神经网络的Kubernetes调度优化方法
CN108809722A (zh) * 2018-06-13 2018-11-13 郑州云海信息技术有限公司 一种部署Kubernetes集群的方法、装置和存储介质
CN108881446A (zh) * 2018-06-22 2018-11-23 深源恒际科技有限公司 一种基于深度学习的人工智能平台系统
CN109117248A (zh) * 2018-07-19 2019-01-01 郑州云海信息技术有限公司 一种基于kubernetes平台的深度学习任务弹性伸缩系统及方法
CN109272116A (zh) * 2018-09-05 2019-01-25 郑州云海信息技术有限公司 一种深度学习的方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WALTONWANG: "TensorFlow on Kubernetes的架构与实践", 《HTTPS://MY.OSCHINA.NET/JXCDWANGTAO/BLOG/1612667》 *
余昌发等: "基于Kubernetes的分布式TensorFlow平台的设计与实现", 《计算机科学》 *
杜威科: "基于Kubernetes的大数据流式计算Spark平台设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
网易云: "猛犸机器学习开发平台—开发实践", 《HTTPS://SQ.163YUN.COM/BLOG/ARTICLE/160842719918120960》 *

Cited By (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112114931B (zh) * 2019-06-21 2023-12-26 富联精密电子(天津)有限公司 深度学习程序配置方法、装置、电子设备及存储介质
TWI721464B (zh) * 2019-06-21 2021-03-11 鴻齡科技股份有限公司 深度學習程式配置方法、裝置、電子設備及存儲介質
CN112114931A (zh) * 2019-06-21 2020-12-22 鸿富锦精密电子(天津)有限公司 深度学习程序配置方法、装置、电子设备及存储介质
CN112148438A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 异常任务处理、任务调度方法、装置及计算机存储介质
CN110414687A (zh) * 2019-07-12 2019-11-05 苏州浪潮智能科技有限公司 一种用于深度学习框架分布式训练的方法和装置
CN110413391A (zh) * 2019-07-24 2019-11-05 上海交通大学 基于容器集群的深度学习任务服务质量保证方法和系统
CN112348196A (zh) * 2019-08-08 2021-02-09 深圳致星科技有限公司 一种自适应rdma网络的分布式机器学习系统及方法
CN112348195A (zh) * 2019-08-08 2021-02-09 深圳致星科技有限公司 一种基于rdma网络的分布式训练系统及高效训练方法
CN110502340A (zh) * 2019-08-09 2019-11-26 广东浪潮大数据研究有限公司 一种资源动态调整方法、装置、设备及存储介质
CN112394944A (zh) * 2019-08-13 2021-02-23 阿里巴巴集团控股有限公司 分布式开发方法、装置、存储介质及计算机设备
CN110515704B (zh) * 2019-08-30 2023-08-04 广东浪潮大数据研究有限公司 基于Kubernetes系统的资源调度方法及装置
CN110515704A (zh) * 2019-08-30 2019-11-29 广东浪潮大数据研究有限公司 基于Kubernetes系统的资源调度方法及装置
CN110737504B (zh) * 2019-08-31 2022-10-18 苏州浪潮智能科技有限公司 一种深度学习模型训练容错方法、系统、终端及存储介质
CN110737504A (zh) * 2019-08-31 2020-01-31 苏州浪潮智能科技有限公司 一种深度学习模型训练容错方法、系统、终端及存储介质
CN110780991A (zh) * 2019-09-12 2020-02-11 苏州浪潮智能科技有限公司 一种基于优先级的深度学习任务调度方法及装置
CN110780991B (zh) * 2019-09-12 2023-01-06 苏州浪潮智能科技有限公司 一种基于优先级的深度学习任务调度方法及装置
CN110704135A (zh) * 2019-09-26 2020-01-17 北京智能工场科技有限公司 一种基于虚拟环境的竞赛数据处理系统和方法
CN110928553A (zh) * 2019-10-16 2020-03-27 中国平安人寿保险股份有限公司 深度学习模型的部署方法、装置和系统
CN110688230A (zh) * 2019-10-17 2020-01-14 广州文远知行科技有限公司 一种同步训练方法、装置、计算机设备和存储介质
CN110912972B (zh) * 2019-11-07 2022-08-19 北京浪潮数据技术有限公司 一种业务处理方法、系统、电子设备及可读存储介质
CN110912972A (zh) * 2019-11-07 2020-03-24 北京浪潮数据技术有限公司 一种业务处理方法、系统、电子设备及可读存储介质
CN113033814A (zh) * 2019-12-09 2021-06-25 北京中关村科金技术有限公司 训练机器学习模型的方法、装置以及存储介质
CN111045791A (zh) * 2019-12-16 2020-04-21 武汉智领云科技有限公司 一种大数据容器化中心调度系统和方法
CN111143060A (zh) * 2019-12-18 2020-05-12 重庆紫光华山智安科技有限公司 Gpu资源调度方法、装置及gpu
CN111104212A (zh) * 2019-12-18 2020-05-05 秒针信息技术有限公司 一种调度任务执行方法、装置、电子设备及存储介质
CN111143060B (zh) * 2019-12-18 2021-01-26 重庆紫光华山智安科技有限公司 Gpu资源调度方法、装置及gpu
CN111191771A (zh) * 2019-12-29 2020-05-22 浪潮(北京)电子信息产业有限公司 一种数据处理方法、装置、设备及存储介质
CN111274018A (zh) * 2020-01-21 2020-06-12 行星算力(深圳)科技有限公司 一种基于dl框架下的分布式训练方法
CN111400000A (zh) * 2020-03-09 2020-07-10 百度在线网络技术(北京)有限公司 网络请求处理方法、装置、设备和存储介质
CN111444019B (zh) * 2020-03-31 2024-01-26 中国科学院自动化研究所 云端协同的深度学习模型分布式训练方法及系统
CN111444019A (zh) * 2020-03-31 2020-07-24 中国科学院自动化研究所 云端协同的深度学习模型分布式训练方法及系统
CN111459576A (zh) * 2020-03-31 2020-07-28 北京九章云极科技有限公司 一种数据分析处理系统和模型运行方法
CN111459576B (zh) * 2020-03-31 2021-03-12 北京九章云极科技有限公司 一种数据分析处理系统和模型运行方法
US11768703B2 (en) 2020-04-08 2023-09-26 Inspur Suzhou Intelligent Technology Co., Ltd. GPU-shared dispatching and single-machine multi-card methods, systems, and devices
WO2021203805A1 (zh) * 2020-04-08 2021-10-14 苏州浪潮智能科技有限公司 一种gpu共享调度、单机多卡方法、系统及装置
CN111562985A (zh) * 2020-05-09 2020-08-21 上海商汤智能科技有限公司 资源管理方法及装置、电子设备和存储介质
CN111562985B (zh) * 2020-05-09 2024-03-22 上海商汤智能科技有限公司 资源管理方法及装置、电子设备和存储介质
CN111625420A (zh) * 2020-05-21 2020-09-04 浪潮电子信息产业股份有限公司 一种分布式训练任务处理方法、装置、设备及存储介质
CN113743425A (zh) * 2020-05-27 2021-12-03 北京沃东天骏信息技术有限公司 一种生成分类模型的方法和装置
CN113296874A (zh) * 2020-05-29 2021-08-24 阿里巴巴集团控股有限公司 一种任务的调度方法、计算设备及存储介质
WO2021249368A1 (zh) * 2020-06-08 2021-12-16 阿里巴巴集团控股有限公司 基于多容器共享异构计算设备实现故障隔离的方法及装置
CN113296988A (zh) * 2020-06-08 2021-08-24 阿里巴巴集团控股有限公司 基于多容器共享异构计算设备实现故障隔离的方法及装置
CN111767146A (zh) * 2020-06-24 2020-10-13 杭州电子科技大学 一种基于网络重配置的分布式机器学习系统加速方法
CN111984679A (zh) * 2020-07-02 2020-11-24 中科驭数(北京)科技有限公司 硬件加速数据库的访问方法、装置、主机、系统及介质
CN111679891A (zh) * 2020-08-14 2020-09-18 支付宝(杭州)信息技术有限公司 容器复用方法、装置、设备以及存储介质
CN112101536A (zh) * 2020-08-30 2020-12-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 轻量级分布式多任务协同框架
CN112286151B (zh) * 2020-10-21 2022-04-15 济南蓝图士智能技术有限公司 基于微服务的多种类集群agv导航调度系统及方法
CN112286151A (zh) * 2020-10-21 2021-01-29 山东华锐智能技术有限公司 基于微服务的多种类集群agv导航调度系统及方法
CN112199178A (zh) * 2020-10-21 2021-01-08 中国电子科技集团公司第十五研究所 一种基于轻量化容器的云服务动态调度方法及系统
CN112398915A (zh) * 2020-10-28 2021-02-23 武汉大势智慧科技有限公司 一种云渲染平台的app应用审核方法及系统
CN112398915B (zh) * 2020-10-28 2022-07-01 武汉大势智慧科技有限公司 一种云渲染平台的app应用审核方法及系统
CN112311605B (zh) * 2020-11-06 2023-12-22 北京格灵深瞳信息技术股份有限公司 提供机器学习服务的云平台及方法
CN112311605A (zh) * 2020-11-06 2021-02-02 北京格灵深瞳信息技术有限公司 提供机器学习服务的云平台及方法
CN112418438A (zh) * 2020-11-24 2021-02-26 国电南瑞科技股份有限公司 基于容器的机器学习流程化训练任务执行方法及系统
CN112416368A (zh) * 2020-11-25 2021-02-26 中国科学技术大学先进技术研究院 缓存部署与任务调度方法、终端和计算机可读存储介质
CN112416368B (zh) * 2020-11-25 2024-01-16 中国科学技术大学先进技术研究院 缓存部署与任务调度方法、终端和计算机可读存储介质
CN112328372A (zh) * 2020-11-27 2021-02-05 新华智云科技有限公司 一种kubernetes节点自愈方法和系统
CN112685153A (zh) * 2020-12-25 2021-04-20 广州奇盾信息技术有限公司 微服务调度方法、装置以及电子设备
CN112700004A (zh) * 2020-12-25 2021-04-23 南方电网深圳数字电网研究院有限公司 基于容器技术的深度学习模型训练方法、设备及存储介质
CN112286644A (zh) * 2020-12-25 2021-01-29 同盾控股有限公司 Gpu虚拟化算力的弹性调度方法、系统、设备和存储介质
CN112286644B (zh) * 2020-12-25 2021-05-28 同盾控股有限公司 Gpu虚拟化算力的弹性调度方法、系统、设备和存储介质
CN112817711A (zh) * 2021-01-22 2021-05-18 海南大学 基于微服务的数据融合系统
CN112835695A (zh) * 2021-01-28 2021-05-25 北京市商汤科技开发有限公司 Pod间通信的方法和分布式计算系统
CN112860373A (zh) * 2021-01-29 2021-05-28 西藏宁算科技集团有限公司 人工智能分布式训练平台的搭建方法及平台
CN112799742A (zh) * 2021-02-09 2021-05-14 上海海事大学 一种基于微服务的机器学习实训系统及方法
CN112799742B (zh) * 2021-02-09 2024-02-13 上海海事大学 一种基于微服务的机器学习实训系统及方法
CN112817581A (zh) * 2021-02-20 2021-05-18 中国电子科技集团公司第二十八研究所 一种轻量级智能服务构建和运行支撑方法
US11556332B2 (en) 2021-02-23 2023-01-17 International Business Machines Corporation Application updating in a computing environment using a function deployment component
CN113032092A (zh) * 2021-03-05 2021-06-25 北京百度网讯科技有限公司 分布式计算方法、装置及平台
CN113032092B (zh) * 2021-03-05 2023-08-08 北京百度网讯科技有限公司 分布式计算方法、装置及平台
GB2619664A (en) * 2021-03-30 2023-12-13 Ibm Training and scoring for large number of performance models
WO2022206197A1 (en) * 2021-03-30 2022-10-06 International Business Machines Corporation Training and scoring for large number of performance models
CN113094116A (zh) * 2021-04-01 2021-07-09 中国科学院软件研究所 一种基于负载特征分析的深度学习应用云配置推荐方法及系统
CN113094116B (zh) * 2021-04-01 2022-10-11 中国科学院软件研究所 一种基于负载特征分析的深度学习应用云配置推荐方法及系统
JP2022084869A (ja) * 2021-04-02 2022-06-07 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 深層フレームワーク用のスケジューリング方法、スケジューリング装置、電子機器、記憶媒体及びプログラム
JP7336562B2 (ja) 2021-04-02 2023-08-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 深層フレームワーク用のスケジューリング方法、スケジューリング装置、電子機器、記憶媒体及びプログラム
CN113672391A (zh) * 2021-08-23 2021-11-19 烽火通信科技股份有限公司 一种基于Kubernetes的并行计算任务调度方法与系统
CN113672391B (zh) * 2021-08-23 2023-11-28 烽火通信科技股份有限公司 一种基于Kubernetes的并行计算任务调度方法与系统
CN114020413B (zh) * 2021-11-05 2024-07-23 沈阳飞机设计研究所扬州协同创新研究院有限公司 一种基于Kubernetes容器集群的分布式强化学习系统设计方法
CN114020413A (zh) * 2021-11-05 2022-02-08 沈阳飞机设计研究所扬州协同创新研究院有限公司 一种基于Kubernetes容器集群的分布式强化学习系统设计方法
CN114138434A (zh) * 2021-11-19 2022-03-04 苏州浪潮智能科技有限公司 一种大数据任务调度系统
CN114138434B (zh) * 2021-11-19 2024-01-12 苏州浪潮智能科技有限公司 一种大数据任务调度系统
CN114138421A (zh) * 2021-12-08 2022-03-04 兴业银行股份有限公司 kubernetes的智能资源控制系统及方法
CN114281311A (zh) * 2021-12-24 2022-04-05 重庆农村商业银行股份有限公司 一种模型开发系统
CN114327886A (zh) * 2021-12-24 2022-04-12 国家石油天然气管网集团有限公司 一种基于大数据深度学习的动态资源调度方法
CN114418127B (zh) * 2022-03-23 2022-07-12 阿里云计算有限公司 机器学习计算优化方法和平台
CN114418127A (zh) * 2022-03-23 2022-04-29 阿里云计算有限公司 机器学习计算优化方法和平台
CN114968495A (zh) * 2022-06-27 2022-08-30 集美大学 一种基于kubernetes平台实现地学数据共享的方法和系统
CN114968601B (zh) * 2022-07-28 2022-11-08 合肥中科类脑智能技术有限公司 一种按比例预留资源的ai训练作业的调度方法和调度系统
CN114968601A (zh) * 2022-07-28 2022-08-30 合肥中科类脑智能技术有限公司 一种按比例预留资源的ai训练作业的调度方法和调度系统
CN115601221B (zh) * 2022-11-28 2023-05-23 苏州浪潮智能科技有限公司 一种资源的分配方法、装置和一种人工智能训练系统
CN115601221A (zh) * 2022-11-28 2023-01-13 苏州浪潮智能科技有限公司(Cn) 一种资源的分配方法、装置和一种人工智能训练系统
CN116155750A (zh) * 2023-04-19 2023-05-23 之江实验室 深度学习作业资源放置方法、系统、设备和存储介质
CN116755893B (zh) * 2023-08-22 2023-11-17 之江实验室 面向深度学习的分布式计算系统的作业调度方法和装置
CN116755893A (zh) * 2023-08-22 2023-09-15 之江实验室 面向深度学习的分布式计算系统的作业调度方法和装置

Also Published As

Publication number Publication date
CN109885389B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN109885389A (zh) 一种基于容器的并行深度学习调度训练方法及系统
CN109034396B (zh) 用于处理分布式集群中的深度学习作业的方法和装置
CN110888743B (zh) 一种gpu资源使用方法、装置及存储介质
CN107025139A (zh) 一种基于云计算的高性能计算调度框架
CN109347974B (zh) 提高在线服务质量和集群资源利用率的混合调度系统
US10505791B2 (en) System and method to handle events using historical data in serverless systems
CN107943555A (zh) 一种云计算环境下的大数据存储和处理平台及处理方法
CN107220100A (zh) 一种开发运维方法、装置及云计算PaaS平台
CN106385329B (zh) 资源池的处理方法、装置和设备
CN103780655A (zh) 一种消息传递接口任务和资源调度系统及方法
CN103092698A (zh) 云计算应用自动部署系统及方法
CN106919445A (zh) 一种在集群中并行调度容器的方法和装置
US11252149B1 (en) Resource management techniques for dialog-driven applications
CN109684074A (zh) 物理机资源分配方法及终端设备
CN109412874A (zh) 设备资源的配置方法、装置、服务器及存储介质
CN109240825A (zh) 弹性任务调度方法、装置、设备及计算机可读存储介质
US20090260012A1 (en) Workload Scheduling
CN103761146A (zh) 一种MapReduce动态设定slots数量的方法
CN109739640A (zh) 一种基于申威架构的容器资源管理系统
CN113301590B (zh) 一种面向5g接入网的虚拟资源管控系统
CN114138434B (zh) 一种大数据任务调度系统
CN111160873A (zh) 基于分布式架构的跑批处理装置及方法
US11831410B2 (en) Intelligent serverless function scaling
CN109614227A (zh) 任务资源调配方法、装置、电子设备及计算机可读介质
CN113064744A (zh) 任务处理方法、装置、计算机可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Dou Yang

Inventor after: Yang Jiwei

Inventor after: Fang Yadong

Inventor before: Dou Yang

Inventor before: Yang Jiwei

CB03 Change of inventor or designer information
CB02 Change of applicant information

Address after: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Applicant after: Inspur cloud Information Technology Co.,Ltd.

Address before: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Applicant before: Tidal Cloud Information Technology Co.,Ltd.

Address after: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Applicant after: Tidal Cloud Information Technology Co.,Ltd.

Address before: 250100 S06 tower, 1036, Chao Lu Road, hi tech Zone, Ji'nan, Shandong.

Applicant before: SHANDONG INSPUR CLOUD INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant