CN110413391B

CN110413391B - 基于容器集群的深度学习任务服务质量保证方法和系统

Info

Publication number: CN110413391B
Application number: CN201910672078.0A
Authority: CN
Inventors: 钱诗友; 邢思凯; 曹健; 薛广涛; 李明禄
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Shengtong Information Technology Co ltd
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2022-02-25
Anticipated expiration: 2039-07-24
Also published as: CN110413391A

Abstract

本发明提供了一种基于容器集群的深度学习任务服务质量保证方法和系统。基于容器的运行平台接收任务，形成任务队列，预测各个任务的所需资源需求，根据所需资源需求对队列中的任务形成优先等级，依据优先等级对任务进行调度；解析任务的运行日志，监控集群资源利用率，基于运行日志和集群资源利用率，判定任务的资源扩展需求，根据资源扩展需求对任务的调度进行修正。本发明易用性高且资源利用率高，用户在提交深度学习任务时只需指定服务质量，无需指定复杂的资源配置，会通过任务调度和任务扩展的方式保证其服务质量；并且充分利用了深度学习任务的特点，用更少的资源保证任务的服务质量。

Description

基于容器集群的深度学习任务服务质量保证方法和系统

技术领域

本发明涉及神经网络模型训练，提出一种基于容器集群的深度学习任务服务质量保证方法和系统。

背景技术

深度学习对计算资源严重依赖的特点使得深度学习模型训练一般不能在本地完成，需要交付给集群来完成。深度学习任务的另一个特点是反馈驱动的探索性任务。由于深度学习任务固有的试错机制，用户通常会尝试提交一个深度学习任务的多种参数配置版本，根据反馈结果杀死或提交更多的深度学习任务，一个典型的过程是超参数搜索。

用户在提交深度学习任务时，需要配置资源请求，比如GPU的个数、内存的大小、磁盘大小等。当需要考虑分布式深度学习、GPU亲和性、不同任务间的干扰、资源利用率等因素时，深度学习任务的资源配置变得更加复杂。除此之外，用户不能基于给定的资源配置方案来确定深度学习任务的完成时间。因此，用户会在未知的等待中浪费时间，而用户关心的只是低层次的资源度量(如GPU，内存等)到高层次的服务质量之间的映射关系。因此，如果允许用户在提交深度学习任务时只指定高层次的服务质量(QoS)，集群调度器负责高层次服务质量到低层次资源度量的映射，即满足任务的服务质量，那么会提高用户提交深度学习任务的便捷性，同时资源配置可以得到优化，从而提高集群资源利用率。

现有的集群调度器把一个深度学习任务看作为一个大数据处理任务，在深度学习任务启动时分配固定数量的资源，然后等待深度学习任务完成后释放资源。这类调度器的缺点主要有两方面。第一，用户易用性低，这是因为调度器只能满足低层次的资源度量的要求，不能提供高层次的服务质量的保证。第二，集群资源利用率低，这是因为用户难以准确地配置任务的资源需求，并且大多数用户在提交任务时都会请求过量的资源，这造成了资源的浪费。

与本申请相关的现有技术是专利文献CN 106529682 A，公开了一种在大数据集群中处理深度学习任务的方法和装置，其中方法包括：接收深度学习任务；从大数据集群的节点中分配可执行该深度学习任务的至少一个节点；调用深度学习库接口，在分配的每个节点上启动与该深度学习任务对应的子任务；从所述大数据集群的文件系统中获取用于该深度学习任务的数据；将获取的用于该深度学习任务的数据推送到相应的子任务上进行执行，并将子任务返回的执行结果数据保存到大数据集群的文件系统中的指定位置。该技术方案可以有效地在大数据集群中处理深度学习任务，利用了大数据集群任务并行执行、数据存储量大的优点，可将深度学习与大数据计算进行有机结合，大大提高深度学习任务的执行效率。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种提出一种基于容器集群的深度学习任务服务质量保证方法和系统。

根据本发明提供的一种基于容器集群的深度学习任务服务质量保证方法，包括：

调度步骤：基于容器的运行平台接收任务，形成任务队列，预测任务的所需资源需求，根据所需资源需求对任务队列中的任务形成优先等级，依据优先等级对任务进行调度；

扩展步骤：解析任务的运行日志，监控集群资源利用率，基于运行日志和集群资源利用率，判定任务的资源扩展需求，根据资源扩展需求对任务的调度进行修正。

优选地，所述调度步骤包括：

形成队列步骤：接收深度学习训练任务，所述训练任务中包括期望完成时间、优先等级，将训练任务加入到任务队列中；

修正策略步骤：基于容器的运行平台的调度器从任务队列中根据优先等级选择训练任务，当集群资源能够满足所选训练任务时，对所选训练任务触发部署指令，否则，调度器持续等待其它任务释放资源；

任务部署步骤：接收部署指令，根据部署指令对所选训练任务部署在集群中。

优选地，所述扩展步骤包括：

获取日志步骤：通过调用API获取运行日志，解析日志中的迭代次数、训练时间；

自动扩展步骤：根据运行日志判定是否需要扩展，并预测相应的资源配置，修改训练任务，发出任务扩展需求。

根据本发明提供的一种基于容器集群的深度学习任务服务质量保证系统，包括：

调度模块：基于容器的运行平台接收任务，形成任务队列，预测任务的所需资源需求，根据所需资源需求对任务队列中的任务形成优先等级，依据优先等级对任务进行调度；

扩展模块：解析任务的运行日志，监控集群资源利用率，基于运行日志和集群资源利用率，判定任务的资源扩展需求，根据资源扩展需求对任务的调度进行修正。

优选地，所述调度模块包括：

形成队列模块：接收深度学习训练任务，所述训练任务中包括期望完成时间、优先等级，将训练任务加入到任务队列中；

修正策略模块：基于容器的运行平台的调度器从任务队列中根据优先等级选择训练任务，当集群资源能够满足所选训练任务时，对所选训练任务触发部署指令，否则，调度器持续等待其它任务释放资源；

任务部署模块：接收部署指令，根据部署指令对所选训练任务部署在集群中。

优选地，所述扩展模块包括：

获取日志模块：通过调用API获取运行日志，解析日志中的迭代次数、训练时间；

自动扩展模块：根据运行日志判定是否需要扩展，并预测相应的资源配置，修改训练任务，发出任务扩展需求。

优选地，所述训练任务由YAML文件描述。

优选地，所述对训练任务进行调度是将基本调度单位由Pod修改为任务。

优选地，所述调度采用QoS-oriented调度算法。

优选地，所述集群资源利用率通过设置集群剩余资源阈值计算，若集群可用资源不低于集群剩余资源阈值，则判定为集群可用资源充足，能够对优先等级高的任务进行调度，若集群可用资源低于集群剩余资源阈值，则能够对优先等级低的任务进行调度。

与现有技术相比，本发明具有如下的有益效果：

1、易用性高，用户在提交深度学习任务时只需指定服务质量，无需指定复杂的资源配置，会通过任务调度和任务扩展的方式保证其服务质量。

2、资源利用率高，充分利用了深度学习任务的特点，用更少的资源保证任务的服务质量。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的基于容器集群的深度学习任务服务质量保证框架架构图；

图2为本发明的调度器流程图；

图3为本发明的自动扩展器流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

当前深度学习集群资源调度器的缺点主要表现在两个方面。第一，用户易用性低，这是因为调度器只能满足低层次的资源度量的要求，不能提供高层次的服务质量的保证。第二，集群资源利用率低，这是因为用户难以准确地配置任务的资源需求，并且大多数用户在提交任务时都会请求过量的资源，这造成了资源的浪费。

而本发明利用了深度学习训练任务的可预测性来扩展任务的资源配置以保证其服务质量，同时提高资源利用率。深度学习训练任务的可预测性包括训练时间的可预测性和资源消耗的可预测性。训练时间的可预测性分为两方面。第一，训练时间与迭代次数呈线性关系。第二，在参数服务器框架中，当server节点不是性能瓶颈时，训练时间与worker节点的个数几乎呈线性关系。训练时间的可预测性可用于预测任务的服务质量是否可以被保证以及任务的资源配置。资源消耗的可预测性是指在模型训练过程中，模型对资源的消耗几乎保持不变。资源消耗的可预测性可用于优化资源配置，提高资源利用率。

在多任务环境中，为了保证尽可能多的任务的服务质量，本发明提出了一种面向QoS的调度算法，称为QoS-oriented。QoS-oriented调度算法综合考虑了任务截止时间和集群剩余资源状态，当集群资源不充足时，选择对资源需求低的任务，当集群资源充足时，选择截止时间最早的任务。

由于深度学习模型的训练通常需要在大规模数据集上进行多次迭代，所以深度学习模型的训练会消耗大量的时间。不合理地配置深度学习任务的资源不仅会增加模型的训练时间还会降低资源利用率。然而，合理地配置深度学习任务的资源是非常困难的，尤其是涉及到分布式深度学习。因此，如果用户在提交深度学习任务时只需要指定服务质量(QoS)，任务的资源会自动配置以保证其服务质量，那么用户提交深度学习任务会更加方便，同时资源利用率也会得到提高。本发明提出了一个基于容器集群的深度学习任务服务质量保证方法和系统，允许用户在提交深度学习训练任务时只指定服务质量，即任务完成时间，无需配置资源，通过任务调度和任务扩展的方式来保证任务的服务质量。

如图1所示，本发明基于Kubernetes的深度学习任务服务质量保证框架，包括调度器模块和自动扩展器模块两个模块。当用户使用该框架时，会有以下流程发生：

(1)用户提交一个深度学习训练任务。这个任务是由YAML文件描述的，这个YAML文件中包含了用户指定的期望完成时间。所有的任务都会被加入到任务队列中，当任务队列不为空时，会有以下流程。

(2)调度器从任务队列中选择优先级最高的任务。Kubernetes默认调度器没有这个过程，后面介绍的调度策略就是指这一过程。

(3)调度器部署被选择的任务，与Kubernetes默认调度器不同的是，只有当集群资源可以满足该任务的资源需求时，本发明提出的调度器才会部署该任务，否则，调度器会一直等待其他任务释放资源。当该任务被调度器部署在Kubernetes集群中后，调度器会通知自动扩展器这个任务可能需要被扩展。

(4)自动扩展器通过解析任务的日志来判断任务是否需要被扩展。任务的日志是通过调用Kubernetes API获取的，日志中包含了迭代次数和训练时间。后面介绍的自动扩展策略可以根据日志来判断任务是否需要被扩展，如果任务需要被扩展，自动扩展策略还会预测合适的资源配置，然后修改任务的YAML文件。然后，自动扩展器会通知调度器这个任务是否需要扩展。

(5)如果该任务需要被扩展，删除原任务，并前往步骤3使用修改过的YAML文件重新创建任务，如果该任务不需要被扩展，前往步骤2从任务队列中选择下一个任务。

Kubernetes默认的调度器不适合深度学习任务的调度，Kubernetes默认调度器会造成训练减慢、无法训练和死锁的情况。本发明提出的调度器将调度的基本单位由Pod修改为任务，调度器的流程图如图2所示。调度器的功能分为两个过程。第一，当任务队列不为空时从任务队列中选择优先级最高的任务。这个过程使用后面介绍的面向QoS的调度算法，该过程是Kubernetes默认调度器没有的。第二，将优先级最高的任务部署在Kubernetes集群中。调度器只有当集群剩余资源能满足任务的资源需求时才部署任务，这是把基本调度单位由Pod修改为任务的关键。当任务被部署后，调度器会通知自动扩展器该任务可能需要被扩展，自动扩展器会扩展该任务直到预测其服务质量能得到保证。

图3展示了自动扩展器的流程图，自动扩展器通过解析任务的日志来预测任务的服务质量能否得到保证，并利用深度学习任务的可预测性来预测资源配置和优化资源配置。预测任务的服务质量能否得到保证利用了深度学习任务训练时间的可预测性，扩展任务利用了自动扩展策略。同时，在扩展任务时还会利用深度学习任务资源消耗的可预测性来优化资源配置，提高集群资源利用率。

对于本发明基于预测的自动扩展策略，深度学习训练任务是由许多个相似的迭代组成，每一次迭代都包括一次前向传播和一次后向传播，前向传播用来计算模型误差，后向传播用来更新模型权重。由于每一次迭代处理的数据大小相同，运算过程类似，因此训练时间和资源消耗都具有可预测性。具体如下：

(1)深度学习模型训练时间与worker资源配置的关系

深度学习模型的训练时间随worker节点数量的增加而降低。随着worker节点数量逐渐增加，训练时间降低速度减慢，这是由于模型的训练时间不仅与worker节点的计算速度有关，还与网络带宽等其他因素有关。但是，训练时间与worker节点数量几乎是线性关系。当server节点不是性能瓶颈时，当worker节点数量为w_i时，预测的模型训练时间为T_i，则当worker节点数量为w_j时，预测的模型完成时间T_j为：

若T_j是期望的完成时间，可以根据现有的worker节点数量w_i和训练时间T_i来预测目标worker节点数量w_j，

其中向上取整是为了尽可能保证深度学习任务的服务质量。自动扩展策略需要对worker资源进行扩展时，采用性能更好的水平扩展。

(2)深度学习模型训练时间与server资源配置的关系

server节点成为性能瓶颈后，继续扩展worker资源对降低模型的训练时间没有任何收益。因此，需要监控server节点是否是性能瓶颈，本发明采取的方法是监控server节点的资源利用率，当server节点的任何一种资源的利用率到达100％后，就认为server节点已经成为性能瓶颈。

自动扩展策略需要对server资源进行扩展时，采用性能更好的垂直扩展。在本发明中，当server节点成为性能瓶颈时，就将导致server节点成为性能瓶颈的资源垂直扩展为原来的两倍。

(3)自动扩展策略

自动扩展策略能自动扩展深度学习任务server节点和worker节点(server节点和worker节点都是运行在kubernetes集群工作节点上的，每个worker节点基于部分数据进行模型训练，得到部分模型参数。server节点负责保存所有worker节点发来的模型参数)的资源配置以保证任务的服务质量。这种自动扩展策略基于任务监控，通过监控模型前几次迭代的训练时间来预测模型训练时间，从而判断是否能满足深度学习任务的服务质量，通过监控资源利用率，从而判断模型训练的瓶颈所在，还可以优化资源配置从而提高集群资源的利用率。自动扩展策略流程为：

·计算深度神经网络模型的最大迭代次数；

·根据当前server节点和worker节点的资源配置，利用模型前500次迭代的训练时间来预测模型的总训练时间；

·根据预测完成时间判断当前任务配置能否满足任务服务质量的变量；

·如果预测任务的服务质量不能得到保障，通过解析日志获取当前迭代次数的方法，删除当前任务，调用资源扩展方法；

·资源扩展方法首先判断server节点是否是性能瓶颈，如果server节点是性能瓶颈，则垂直扩展server节点的资源，如果worker节点是性能瓶颈，则水平扩展worker节点的资源。

·扩展完server节点或者worker节点，利用修改过的任务配置文件重新提交任务。

本发明提出的调度算法把任务作为调度的基本单位，并通过监控集群的剩余资源和预测任务的资源需求来完成调度，若集群的剩余资源能满足deadline最近的任务，则调度任务，否则，从等待队列中选取一个对资源需求最小的任务进行调度。但是，对每个任务都进行资源需求预测会带来额外时间开销和资源开销，因此进行了以下近似处理。

第一，设置集群剩余资源阈值δ，当集群可用资源不低于δ时，认为集群可用资源充足，直接调度deadline最近的任务。做这样的近似处理是因为通常为了保证deadline最近的任务的服务质量需要较多资源，阈值δ可以用来判断是否可以调度deadline最近的任务。第二，当集群可用资源低于δ时，直接从等待队列中选择deadline最远的任务进行调度。做这样的近似处理是因为通常deadline远的任务需求的资源少，这样可以降低被调度的任务等待其他任务释放资源的概率。这就是QoS-oriented调度算法的主要思想，其调度流程为：

·把队列中的任务按照deadline递增排序

·获取集群可用资源百分比，

·根据集群可用资源和δ的关系选择调度deadline最近的任务还是deadline最远的任务。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于容器集群的深度学习任务服务质量保证方法，其特征在于，包括：

扩展步骤：解析任务的运行日志，监控集群资源利用率，基于运行日志和集群资源利用率，判定任务的资源扩展需求，根据资源扩展需求对任务的调度进行修正；

所述调度步骤包括：

任务部署步骤：接收部署指令，根据部署指令对所选训练任务部署在集群中；

所述扩展步骤包括：

2.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证方法其特征在于，所述训练任务由YAML文件描述。

3.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证方法其特征在于，对训练任务进行调度是将基本调度单位由Pod修改为任务。

4.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证方法其特征在于，所述调度采用QoS-oriented调度算法。

5.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证方法，其特征在于，所述集群资源利用率通过设置集群剩余资源阈值计算，若集群可用资源不低于集群剩余资源阈值，则判定为集群可用资源充足，能够对优先等级高的任务进行调度，若集群可用资源低于集群剩余资源阈值，则能够对优先等级低的任务进行调度。

6.一种基于容器集群的深度学习任务服务质量保证系统，其特征在于，包括：

扩展模块：解析任务的运行日志，监控集群资源利用率，基于运行日志和集群资源利用率，判定任务的资源扩展需求，根据资源扩展需求对任务的调度进行修正；

所述调度模块包括：

任务部署模块：接收部署指令，根据部署指令对所选训练任务部署在集群中；

所述扩展模块包括：

7.根据权利要求6所述的基于容器集群的深度学习任务服务质量保证系统，其特征在于，所述训练任务由YAML文件描述。

8.根据权利要求6所述的基于容器集群的深度学习任务服务质量保证系统，其特征在于，对训练任务进行调度是将基本调度单位由Pod修改为任务。

9.根据权利要求6所述的基于容器集群的深度学习任务服务质量保证系统，其特征在于，所述调度采用QoS-oriented调度算法。

10.根据权利要求6所述的基于容器集群的深度学习任务服务质量保证系统，其特征在于，所述集群资源利用率通过设置集群剩余资源阈值计算，若集群可用资源不低于集群剩余资源阈值，则判定为集群可用资源充足，能够对优先等级高的任务进行调度，若集群可用资源低于集群剩余资源阈值，则能够对优先等级低的任务进行调度。