CN109885389A

CN109885389A - 一种基于容器的并行深度学习调度训练方法及系统

Info

Publication number: CN109885389A
Application number: CN201910122127.3A
Authority: CN
Inventors: 窦洋; 杨继伟
Original assignee: Shandong Inspur Cloud Information Technology Co Ltd
Current assignee: Shandong Inspur Cloud Information Technology Co Ltd
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2019-06-14
Anticipated expiration: 2039-02-19
Also published as: CN109885389B

Abstract

本发明公开了一种基于容器的并行深度学习调度训练方法及系统，属于云计算和深度学习技术领域，本发明要解决的技术问题为如何避免训练时TensorFlow的各个Task资源无法隔离，因资源抢占而互相影响、缺乏调度能力、上层开发量大以及查看每个Task训练任务及日志不便，采用的技术方案为：该方法是利用Kubernetes容器实现对任务的计算资源的配置和调度，提供ResourceQuota、LimitRanger多种资源管理机制，在容器集群中通过pod节点之间的通信，实现任务之间的资源隔离；同一训练节点同时启动训练pod和生命周期管理pod，并由LCM统一进行资源作业调度，微服务架构本身作为POD部署，依赖Kubernetes最新版本特性，有效地调动GPU的使用。本发明还公开了一种基于容器的并行深度学习调度训练系统。

Description

一种基于容器的并行深度学习调度训练方法及系统

技术领域

本发明涉及云计算和深度学习技术领域，具体地说是一种基于容器的并行深度学习调度训练方法及系统。

背景技术

随着机器学习和深度学习技术的迅速发展，越来越多的个人和企业青睐使用Google发布的TensorFlow框架进行深度学习训练。该框架是一个使用数据流图进行数值计算的开源软件库，有时深度学习模型需要的计算量太大，这就需要使用分布式计算，通过Client提交Session，定义一个worker，指定特定的CPU/GPU去运行训练任务。然而，运行该框架的并行计算模式时，不论是同步模式还是异步模式都存在一定的缺陷。

训练时TensorFlow的各个Task资源无法隔离，很可能导致任务之间因资源抢占而相互影响；缺乏调度能力，需要用户手动配置和管理计算任务的计算资源；集群规模大时，想要跟踪和管理每个任务的状态，需要在上层做大量的开发；用户在查看每个Task训练任务及其日志时都非常不方便。

故如何避免训练时TensorFlow的各个Task资源无法隔离，因资源抢占而互相影响、缺乏调度能力、上层开发量大以及查看每个Task训练任务及日志不便是目前现有技术中急需解决的技术问题。

专利号为CN107783818A的专利文献公开了深度学习任务处理方法、装置、设备及存储介质，其中方法包括：当获取到深度学习任务时，向KVM发起创建虚拟机的请求，并指定创建虚拟机所需的资源，以便KVM根据请求创建虚拟机；将深度学习任务以及Docker镜像传入虚拟机；根据Docker镜像在虚拟机内启动Docker，并在Docker中运行深度学习任务。该技术方案需要向KVM发请求启动虚拟机、需要把GPU/CPU资源传入Docker且无法将实现了事件和日志的监控输出，不能有效避免训练时TensorFlow的各个Task资源无法隔离，因资源抢占而互相影响、缺乏调度能力、上层开发量大以及查看每个Task训练任务及日志不便的问题。

发明内容

本发明的技术任务是提供一种基于容器的并行深度学习调度训练方法及系统，来解决如何避免训练时TensorFlow的各个Task资源无法隔离，因资源抢占而互相影响、缺乏调度能力、上层开发量大以及查看每个Task训练任务及日志不便的问题。

本发明的技术任务是按以下方式实现的，一种基于容器的并行深度学习调度训练方法，该方法是利用Kubernetes容器实现对任务的计算资源的配置和调度，提供ResourceQuota、LimitRanger多种资源管理机制，在容器集群中通过pod节点之间的通信，实现任务之间的资源隔离；同一训练节点同时启动训练pod和生命周期管理pod，并由LCM统一进行资源作业调度，微服务架构本身作为POD部署，依赖Kubernetes最新版本特性，有效地调动GPU的使用，当K8S作业因OS、docker或机器故障中的任何故障原因崩溃时，重新启动微服务架构，并报告微服务架构的健康；训练工作默认是按FIFO顺序安排，LCM支持作业优先级，对于每个训练任务，LCM使用按需来请求所需资源集(例如，GPU、存储器)，提高了训练的可靠性和计算资源的利用率。

作为优选，该方法的具体步骤如下：

S1、在宿主机上预装Kubernetes容器(1.3以上)，指定一个pod为调度节点，一个pod为监控节点，n个pod为task节点；

S2、调度节点负责提交作业任务，通过调度算法指定某个task节点进行一轮迭代；

S3、Task节点接到调度任务之后，运行TensorFlow的一轮迭代运算，完成一次反向传播过程；

S4、Task节点把运算结果和迭代次数发送给监控节点，并汇总到调度节点；

S5、Task节点训练过程中，在程序里预先开启一条线程，定时保存临时结果和进度到HDFS(分布式文件存储系统)中；

S6、监控节点负责感知GPU资源伸缩，监控task节点的健康状态；

S7、所有task节点的job完成，调度节点感知完成收敛，释放所有的GPU和cpu资源，销毁所有计算容器，把结果写入持久化卷或者输出为数据流。

更优地，所述步骤S6中监控task节点的健康状态时，若发现某task节点宕机或资源不足或计算超过阈值时间，立即通知调度节点启动新的task节点继续剩余训练任务，新分配的pod节点所占GPU资源更大。

更优地，所述步骤S6中监控节点负责感知GPU资源伸缩，感知GPU资源伸缩的具体步骤如下：

(1)、每隔一段时间(如30s)，pod中控制器(controller manager)根据每个Pod定义中指定的指标(GPU使用率或其他自定义的指标)进行查询；

(2)、通过查询到的指标与设定的指标进行比较，获得需要容器资源缩放的比例(我们定义使用率超99％为阈值，不能进行超频运行)，并发送给调度节点。

更优地，所述阀值时间的计算方法如下：

(1)、通过api查询TensorFlow计算节点每一次运行时所消耗的时间；

(2)、该节点此前n-1轮计算消耗的时间分别记为t1、t2、…、tn，下一次计算的时间最大的阈值为2n×(t1+t2+…+tn)(即之前的时间求和再乘以2n)；

(3)、若task节点超过阈值，由监控节点通知调度节点，开启资源更大的task节点(设置为2倍原来的GPU资源)进行训练。

更优地，所述步骤S2中的调度算法具体如下：

(1)、超阈值时，新分配计算节点将会转移计算任务，此时便出现了空余的task节点(Pod)；

(2)、基于空余的task节点所占有的资源(GPU)大小，设置权重(weight)，

(3)、所占资源越大，权重越大；

(4)、当再出现超阈值需要新分配节点时，优先从空余节点(Pod)中选择(当然要满足2倍原来GPU资源的条件)；

(5)、在开启新节点的过程中，训练进度完成度越高的，越优先分配；训练进度完成度越低的，需要排在队列后面，等待资源分配。

作为优选，所述训练过程中，若训练节点失败，守护进程检测到故障，并指示LCM终止自身和学习节点，用户检查日志以诊断失败的原因：

①、若为训练监控节点失败，则将被从Kubernetes中重新启动，从etcd中获取状态,并且恢复正常运作；其中，故障信息可从MongoDB或者ELK中查看；

②、若为LCM崩溃并重新启动，则正在运行的作业将具有由重新启动的LCM重新部署，但现有作业不受影响；其中，该情况的前提是该系统有多个LCM的副本以及etcd本身也被复制，并且对etcd节点的所有更新都是可序列化的。

一种基于容器的并行深度学习调度训练系统，该系统包括微服务架构、学习训练(DL)、容器集群管理和生命周期管理(LCM)；

其中，微服务架构用于减少组件之间的耦合，保持每个组件的单一性和尽可能无状态，相互隔离，并允许每个组件独立开发、测试、部署、伸缩和升级；并通过动态注册RESTAPI服务实例来实现负载平衡；

学习训练(DL)是由使用GPU的kubernetes容器中的单个学习节点(Learning Pod)组成，用户代码实例化框架kubernetes服务；通常，学习训练作业使用几个GPU/CPU或者由几个学习节点同步在MPI上使用集中式参数服务；用户提交训练任务，并使用REST API管理；其中，学习训练作业的参数包括训练数据的来源、访问训练数据的凭据、框架(TensorFlow)、学习节点的数量、结果和日志被存储的位置以及学习速率，学习训练作业的参数均使用配置文件来指定；

容器集群管理用于使用Kubernetes(K8S)进行容器编排和群集管理；Kubernetes节点是一个或多个容器的集合、共享存储和网络以及管理生命周期；Kubernetes节点的内容总是位于同一位置并协同调度，并在上下文中共享运行状态；所有容器化的核心服务都是作为K8S执行的，通过K8S将服务抽象化，部署DL作业和状态；

生命周期管理(LCM)用于部署DL作业，LCM只需使用DL作业的所有元数据实例化一个守护进程(创建守护进程是一个非常快的过程)，守护进程通过与K8S进一步交互来执行实际部署DL作业的多步骤过程,需要实例化K8S容器(启动节点使用的DL框架，TensorFlow),通过用户代码和训练参数，设置共享NFS卷来监控训练进度，K8S策略限制多租户环境中学习者的网络访问；若监护进程在作业部署的中间崩溃，由K8S保证重新启动，重新启动的守护进程回滚之前部署的DL作业，并启动新的部署过程；在持续失败的情况下，在守护进程放弃之前，该过程将重复(可配置)多次，并且在MongoDB中标记的DL作业失败；一旦DL作业成功部署，守护进程就始终负责监控进度。

作为优选，该系统还包括分布式文件存储系统(HDFS)、持久化卷(SSD/VOLUME)、时序数据库(InflunceDB)、文档数据库(MongoDB)、共享配置和服务发现(ETCD)以及日志处理一体化(ELK栈)；

分布式文件存储系统(HDFS)用于存储训练过成功中的临时数据，当节点宕机时，新节点可以快速读取上一次临时数据；

持久化卷(SSD/VOLUME)用于保存训练模型和原始数据；

时序数据库(InflunceDB)用于记录每一轮训练实时结果；

文档数据库(MongoDB)用于存储训练过成功中的临时数据，当节点宕机时，新节点可以快速读取上一次临时数据，用于代替分布式文件存储系统(HDFS)；

共享配置和服务发现(ETCD)用于节点之间的RPC通信；

日志处理一体化(ELK栈)用于存储和展示系统运行日志。

本发明的基于容器的并行深度学习调度训练方法及系统具有以下优点：

(一)、本发明针对TensorFlow深度学习框架在本地分布式运行时计算资源缺乏调度能力、资源无法隔离、GPU并行异步运算参数更新不同步等问题，利用容器对GPU资源的调度和管理，通过调度编排来管理反向传播算法节点，加速算法迭代速度，提高数据中心资源利用率；

(二)、本发明中的kubernetes容器支持对任务的计算资源的配置和调度，提供ResourceQuota,LimitRanger等多种资源管理机制，在集群中通过pod节点之间的通信，能做到任务之间很好的资源隔离，最新的kubernetes支持GPU调度，如果K8S作业因任何原因崩溃(如OS、docker、或机器故障)，K8S将自动重新启动它并再次执行，大大的提高了训练的可靠性和计算资源的利用率；

(三)、本发明采用自然语言分类模型程序，对标裸金属主机与本系统运行相同的程序，同倍增加调度任务，比较所消耗的资源和达到收敛效果的时间；通过本发明(10个K8s节点)与在裸金属主机(系统Ubantu 18.04.1 LTS，2张Nvidia Tesla K80s显卡,共8Gpu)上DL训练结果对比,每项训练都是基于神经网络的自然语言分类模型，结果显示，并发作业从5增加到25个并发作业时，工作完成时间从30.12增加到62.22秒；数量增加了5倍并行工作，平均工作完成时间仅增加51.6％；裸金属主机运行相同TensorFlow程序并行模式，如达到相同的收敛结果，GPU使用率与作业数同倍增加，且没有过程日志输出和持久化过程；测试结果表明，本系统有效的提高了深度学习训练的可靠性和计算资源的利用率。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于容器的并行深度学习调度训练系统的结构示意图。

具体实施方式

参照说明书附图和具体实施例对本发明的一种基于容器的并行深度学习调度训练方法及系统作以下详细地说明。

实施例1：

本发明的基于容器的并行深度学习调度训练方法,该方法是利用Kubernetes容器实现对任务的计算资源的配置和调度，提供ResourceQuota、LimitRanger多种资源管理机制，在容器集群中通过pod节点之间的通信，实现任务之间的资源隔离；同一训练节点同时启动训练pod和生命周期管理pod，并由LCM统一进行资源作业调度，微服务架构本身作为POD部署，依赖Kubernetes最新版本特性，有效地调动GPU的使用，当K8S作业因OS、docker或机器故障中的任何故障原因崩溃时，重新启动微服务架构，并报告微服务架构的健康；训练工作默认是按FIFO顺序安排，LCM支持作业优先级，对于每个训练任务，LCM使用按需来请求所需资源集(例如，GPU、存储器)，提高了训练的可靠性和计算资源的利用率；其中，训练过程中，若训练节点失败，守护进程检测到故障，并指示LCM终止自身和学习节点，用户检查日志以诊断失败的原因：

实施例2：

本发明的基于容器的并行深度学习调度训练方法，该方法的具体步骤如下：

S2、调度节点负责提交作业任务，通过调度算法指定某个task节点进行一轮迭代；其中，调度算法具体如下：

(3)、所占资源越大，权重越大；

S6、监控节点负责感知GPU资源伸缩，监控task节点的健康状态；其中，监控task节点的健康状态时，若发现某task节点宕机或资源不足或计算超过阈值时间，立即通知调度节点启动新的task节点继续剩余训练任务，新分配的pod节点所占GPU资源更大；阀值时间的计算方法如下：

监控节点负责感知GPU资源伸缩，感知GPU资源伸缩的具体步骤如下：

实施例3：

如附图1所示，本发明的基于容器的并行深度学习调度训练系统，该系统包括微服务架构、学习训练(DL)、容器集群管理和生命周期管理(LCM)；

该系统还包括分布式文件存储系统(HDFS)、持久化卷(SSD/VOLUME)、时序数据库(InflunceDB)、文档数据库(MongoDB)、共享配置和服务发现(ETCD)以及日志处理一体化(ELK栈)；

持久化卷(SSD/VOLUME)用于保存训练模型和原始数据；

时序数据库(InflunceDB)用于记录每一轮训练实时结果；

共享配置和服务发现(ETCD)用于节点之间的RPC通信；

日志处理一体化(ELK栈)用于存储和展示系统运行日志。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于容器的并行深度学习调度训练方法，其特征在于，该方法是利用Kubernetes容器实现对任务的计算资源的配置和调度，提供ResourceQuota、LimitRanger多种资源管理机制，在容器集群中通过pod节点之间的通信，实现任务之间的资源隔离；同一训练节点同时启动训练pod和生命周期管理pod，并由LCM统一进行资源作业调度，微服务架构本身作为POD部署，依赖Kubernetes最新版本特性，有效地调动GPU的使用，当K8S作业因OS、docker或机器故障中的任何故障原因崩溃时，重新启动微服务架构，并报告微服务架构的健康；训练工作默认是按FIFO顺序安排，LCM支持作业优先级，对于每个训练任务，LCM使用按需来请求所需资源集，提高了训练的可靠性和计算资源的利用率。

2.根据权利要求1所述的基于容器的并行深度学习调度训练方法，其特征在于，该方法的具体步骤如下：

S1、在宿主机上预装Kubernetes容器，指定一个pod为调度节点，一个pod为监控节点，n个pod为task节点；

S5、Task节点训练过程中，在程序里预先开启一条线程，定时保存临时结果和进度到HDFS中；

3.根据权利要求2所述的基于容器的并行深度学习调度训练方法，其特征在于,所述步骤S6中监控task节点的健康状态时，若发现某task节点宕机或资源不足或计算超过阈值时间，立即通知调度节点启动新的task节点继续剩余训练任务，新分配的pod节点所占GPU资源更大。

4.根据权利要求3所述的基于容器的并行深度学习调度训练方法，其特征在于,所述步骤S6中监控节点负责感知GPU资源伸缩，感知GPU资源伸缩的具体步骤如下：

(1)、每隔一段时间，pod中控制器根据每个Pod定义中指定的指标进行查询；

(2)、通过查询到的指标与设定的指标进行比较，获得需要容器资源缩放的比例，并发送给调度节点。

5.根据权利要求4所述的基于容器的并行深度学习调度训练方法，其特征在于，所述步阀值时间的计算方法如下：

(2)、该节点此前n-1轮计算消耗的时间分别记为t₁、t₂、…、t_n，下一次计算的时间最大的阈值为2n×(t₁+t₂+…+t_n)(即之前的时间求和再乘以2n)；

(3)、若task节点超过阈值，由监控节点通知调度节点，开启资源更大的task节点进行训练。

6.根据权利要求2或3或4或5所述的基于容器的并行深度学习调度训练方法，其特征在于，所述步骤S2中的调度算法具体如下：

(1)、超阈值时，新分配计算节点将会转移计算任务，此时便出现了空余的task节点；

(2)、基于空余的task节点所占有的资源大小，设置权重，

(3)、所占资源越大，权重越大；

(4)、当再出现超阈值需要新分配节点时，优先从空余节点中选择；

7.根据权利要求1所述的基于容器的并行深度学习调度训练方法，其特征在于，所述训练过程中，若训练节点失败，守护进程检测到故障，并指示LCM终止自身和学习节点，用户检查日志以诊断失败的原因：

8.一种基于容器的并行深度学习调度训练系统，其特征在于，该系统包括微服务架构、学习训练、容器集群管理和生命周期管理；

其中，微服务架构用于减少组件之间的耦合，保持每个组件的单一性和尽可能无状态，相互隔离，并允许每个组件独立开发、测试、部署、伸缩和升级；并通过动态注册REST API服务实例来实现负载平衡；

学习训练是由使用GPU的kubernetes容器中的单个学习节点组成，用户代码实例化框架kubernetes服务；通常，学习训练作业使用几个GPU/CPU或者由几个学习节点同步在MPI上使用集中式参数服务；用户提交训练任务，并使用REST API管理；其中，学习训练作业的参数包括训练数据的来源、访问训练数据的凭据、框架、学习节点的数量、结果和日志被存储的位置以及学习速率，学习训练作业的参数均使用配置文件来指定；

容器集群管理用于使用Kubernetes进行容器编排和群集管理；Kubernetes节点是一个或多个容器的集合、共享存储和网络以及管理生命周期；Kubernetes节点的内容总是位于同一位置并协同调度，并在上下文中共享运行状态；所有容器化的核心服务都是作为K8S执行的，通过K8S将服务抽象化，部署DL作业和状态；

生命周期管理用于部署DL作业，LCM只需使用DL作业的所有元数据实例化一个守护进程，守护进程通过与K8S进一步交互来执行实际部署DL作业的多步骤过程,需要实例化K8S容器,通过用户代码和训练参数，设置共享NFS卷来监控训练进度，K8S策略限制多租户环境中学习者的网络访问；若监护进程在作业部署的中间崩溃，由K8S保证重新启动，重新启动的守护进程回滚之前部署的DL作业，并启动新的部署过程；在持续失败的情况下，在守护进程放弃之前，该过程将重复多次，并且在MongoDB中标记的DL作业失败；一旦DL作业成功部署，守护进程就始终负责监控进度。

9.根据权利要求8所述的基于容器的并行深度学习调度训练系统，其特征在于，该系统还包括分布式文件存储系统、持久化卷、时序数据库、文档数据库、共享配置和服务发现以及日志处理一体化；

分布式文件存储系统用于存储训练过成功中的临时数据，当节点宕机时，新节点可以快速读取上一次临时数据；

持久化卷用于保存训练模型和原始数据；

时序数据库用于记录每一轮训练实时结果；

文档数据库用于存储训练过成功中的临时数据，当节点宕机时，新节点可以快速读取上一次临时数据，用于代替分布式文件存储系统；

共享配置和服务发现用于节点之间的RPC通信；

日志处理一体化用于存储和展示系统运行日志。