CN110413391B - 基于容器集群的深度学习任务服务质量保证方法和系统 - Google Patents

基于容器集群的深度学习任务服务质量保证方法和系统 Download PDF

Info

Publication number
CN110413391B
CN110413391B CN201910672078.0A CN201910672078A CN110413391B CN 110413391 B CN110413391 B CN 110413391B CN 201910672078 A CN201910672078 A CN 201910672078A CN 110413391 B CN110413391 B CN 110413391B
Authority
CN
China
Prior art keywords
task
tasks
cluster
resource
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910672078.0A
Other languages
English (en)
Other versions
CN110413391A (zh
Inventor
钱诗友
邢思凯
曹健
薛广涛
李明禄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shengtong Information Technology Co ltd
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910672078.0A priority Critical patent/CN110413391B/zh
Publication of CN110413391A publication Critical patent/CN110413391A/zh
Application granted granted Critical
Publication of CN110413391B publication Critical patent/CN110413391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种基于容器集群的深度学习任务服务质量保证方法和系统。基于容器的运行平台接收任务,形成任务队列,预测各个任务的所需资源需求,根据所需资源需求对队列中的任务形成优先等级,依据优先等级对任务进行调度;解析任务的运行日志,监控集群资源利用率,基于运行日志和集群资源利用率,判定任务的资源扩展需求,根据资源扩展需求对任务的调度进行修正。本发明易用性高且资源利用率高,用户在提交深度学习任务时只需指定服务质量,无需指定复杂的资源配置,会通过任务调度和任务扩展的方式保证其服务质量;并且充分利用了深度学习任务的特点,用更少的资源保证任务的服务质量。

Description

基于容器集群的深度学习任务服务质量保证方法和系统
技术领域
本发明涉及神经网络模型训练,提出一种基于容器集群的深度学习任务服务质量保证方法和系统。
背景技术
深度学习对计算资源严重依赖的特点使得深度学习模型训练一般不能在本地完成,需要交付给集群来完成。深度学习任务的另一个特点是反馈驱动的探索性任务。由于深度学习任务固有的试错机制,用户通常会尝试提交一个深度学习任务的多种参数配置版本,根据反馈结果杀死或提交更多的深度学习任务,一个典型的过程是超参数搜索。
用户在提交深度学习任务时,需要配置资源请求,比如GPU的个数、内存的大小、磁盘大小等。当需要考虑分布式深度学习、GPU亲和性、不同任务间的干扰、资源利用率等因素时,深度学习任务的资源配置变得更加复杂。除此之外,用户不能基于给定的资源配置方案来确定深度学习任务的完成时间。因此,用户会在未知的等待中浪费时间,而用户关心的只是低层次的资源度量(如GPU,内存等)到高层次的服务质量之间的映射关系。因此,如果允许用户在提交深度学习任务时只指定高层次的服务质量(QoS),集群调度器负责高层次服务质量到低层次资源度量的映射,即满足任务的服务质量,那么会提高用户提交深度学习任务的便捷性,同时资源配置可以得到优化,从而提高集群资源利用率。
现有的集群调度器把一个深度学习任务看作为一个大数据处理任务,在深度学习任务启动时分配固定数量的资源,然后等待深度学习任务完成后释放资源。这类调度器的缺点主要有两方面。第一,用户易用性低,这是因为调度器只能满足低层次的资源度量的要求,不能提供高层次的服务质量的保证。第二,集群资源利用率低,这是因为用户难以准确地配置任务的资源需求,并且大多数用户在提交任务时都会请求过量的资源,这造成了资源的浪费。
与本申请相关的现有技术是专利文献CN 106529682 A,公开了一种在大数据集群中处理深度学习任务的方法和装置,其中方法包括:接收深度学习任务;从大数据集群的节点中分配可执行该深度学习任务的至少一个节点;调用深度学习库接口,在分配的每个节点上启动与该深度学习任务对应的子任务;从所述大数据集群的文件系统中获取用于该深度学习任务的数据;将获取的用于该深度学习任务的数据推送到相应的子任务上进行执行,并将子任务返回的执行结果数据保存到大数据集群的文件系统中的指定位置。该技术方案可以有效地在大数据集群中处理深度学习任务,利用了大数据集群任务并行执行、数据存储量大的优点,可将深度学习与大数据计算进行有机结合,大大提高深度学习任务的执行效率。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种提出一种基于容器集群的深度学习任务服务质量保证方法和系统。
根据本发明提供的一种基于容器集群的深度学习任务服务质量保证方法,包括:
调度步骤:基于容器的运行平台接收任务,形成任务队列,预测任务的所需资源需求,根据所需资源需求对任务队列中的任务形成优先等级,依据优先等级对任务进行调度;
扩展步骤:解析任务的运行日志,监控集群资源利用率,基于运行日志和集群资源利用率,判定任务的资源扩展需求,根据资源扩展需求对任务的调度进行修正。
优选地,所述调度步骤包括:
形成队列步骤:接收深度学习训练任务,所述训练任务中包括期望完成时间、优先等级,将训练任务加入到任务队列中;
修正策略步骤:基于容器的运行平台的调度器从任务队列中根据优先等级选择训练任务,当集群资源能够满足所选训练任务时,对所选训练任务触发部署指令,否则,调度器持续等待其它任务释放资源;
任务部署步骤:接收部署指令,根据部署指令对所选训练任务部署在集群中。
优选地,所述扩展步骤包括:
获取日志步骤:通过调用API获取运行日志,解析日志中的迭代次数、训练时间;
自动扩展步骤:根据运行日志判定是否需要扩展,并预测相应的资源配置,修改训练任务,发出任务扩展需求。
根据本发明提供的一种基于容器集群的深度学习任务服务质量保证系统,包括:
调度模块:基于容器的运行平台接收任务,形成任务队列,预测任务的所需资源需求,根据所需资源需求对任务队列中的任务形成优先等级,依据优先等级对任务进行调度;
扩展模块:解析任务的运行日志,监控集群资源利用率,基于运行日志和集群资源利用率,判定任务的资源扩展需求,根据资源扩展需求对任务的调度进行修正。
优选地,所述调度模块包括:
形成队列模块:接收深度学习训练任务,所述训练任务中包括期望完成时间、优先等级,将训练任务加入到任务队列中;
修正策略模块:基于容器的运行平台的调度器从任务队列中根据优先等级选择训练任务,当集群资源能够满足所选训练任务时,对所选训练任务触发部署指令,否则,调度器持续等待其它任务释放资源;
任务部署模块:接收部署指令,根据部署指令对所选训练任务部署在集群中。
优选地,所述扩展模块包括:
获取日志模块:通过调用API获取运行日志,解析日志中的迭代次数、训练时间;
自动扩展模块:根据运行日志判定是否需要扩展,并预测相应的资源配置,修改训练任务,发出任务扩展需求。
优选地,所述训练任务由YAML文件描述。
优选地,所述对训练任务进行调度是将基本调度单位由Pod修改为任务。
优选地,所述调度采用QoS-oriented调度算法。
优选地,所述集群资源利用率通过设置集群剩余资源阈值计算,若集群可用资源不低于集群剩余资源阈值,则判定为集群可用资源充足,能够对优先等级高的任务进行调度,若集群可用资源低于集群剩余资源阈值,则能够对优先等级低的任务进行调度。
与现有技术相比,本发明具有如下的有益效果:
1、易用性高,用户在提交深度学习任务时只需指定服务质量,无需指定复杂的资源配置,会通过任务调度和任务扩展的方式保证其服务质量。
2、资源利用率高,充分利用了深度学习任务的特点,用更少的资源保证任务的服务质量。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的基于容器集群的深度学习任务服务质量保证框架架构图;
图2为本发明的调度器流程图;
图3为本发明的自动扩展器流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
当前深度学习集群资源调度器的缺点主要表现在两个方面。第一,用户易用性低,这是因为调度器只能满足低层次的资源度量的要求,不能提供高层次的服务质量的保证。第二,集群资源利用率低,这是因为用户难以准确地配置任务的资源需求,并且大多数用户在提交任务时都会请求过量的资源,这造成了资源的浪费。
而本发明利用了深度学习训练任务的可预测性来扩展任务的资源配置以保证其服务质量,同时提高资源利用率。深度学习训练任务的可预测性包括训练时间的可预测性和资源消耗的可预测性。训练时间的可预测性分为两方面。第一,训练时间与迭代次数呈线性关系。第二,在参数服务器框架中,当server节点不是性能瓶颈时,训练时间与worker节点的个数几乎呈线性关系。训练时间的可预测性可用于预测任务的服务质量是否可以被保证以及任务的资源配置。资源消耗的可预测性是指在模型训练过程中,模型对资源的消耗几乎保持不变。资源消耗的可预测性可用于优化资源配置,提高资源利用率。
在多任务环境中,为了保证尽可能多的任务的服务质量,本发明提出了一种面向QoS的调度算法,称为QoS-oriented。QoS-oriented调度算法综合考虑了任务截止时间和集群剩余资源状态,当集群资源不充足时,选择对资源需求低的任务,当集群资源充足时,选择截止时间最早的任务。
由于深度学习模型的训练通常需要在大规模数据集上进行多次迭代,所以深度学习模型的训练会消耗大量的时间。不合理地配置深度学习任务的资源不仅会增加模型的训练时间还会降低资源利用率。然而,合理地配置深度学习任务的资源是非常困难的,尤其是涉及到分布式深度学习。因此,如果用户在提交深度学习任务时只需要指定服务质量(QoS),任务的资源会自动配置以保证其服务质量,那么用户提交深度学习任务会更加方便,同时资源利用率也会得到提高。本发明提出了一个基于容器集群的深度学习任务服务质量保证方法和系统,允许用户在提交深度学习训练任务时只指定服务质量,即任务完成时间,无需配置资源,通过任务调度和任务扩展的方式来保证任务的服务质量。
如图1所示,本发明基于Kubernetes的深度学习任务服务质量保证框架,包括调度器模块和自动扩展器模块两个模块。当用户使用该框架时,会有以下流程发生:
(1)用户提交一个深度学习训练任务。这个任务是由YAML文件描述的,这个YAML文件中包含了用户指定的期望完成时间。所有的任务都会被加入到任务队列中,当任务队列不为空时,会有以下流程。
(2)调度器从任务队列中选择优先级最高的任务。Kubernetes默认调度器没有这个过程,后面介绍的调度策略就是指这一过程。
(3)调度器部署被选择的任务,与Kubernetes默认调度器不同的是,只有当集群资源可以满足该任务的资源需求时,本发明提出的调度器才会部署该任务,否则,调度器会一直等待其他任务释放资源。当该任务被调度器部署在Kubernetes集群中后,调度器会通知自动扩展器这个任务可能需要被扩展。
(4)自动扩展器通过解析任务的日志来判断任务是否需要被扩展。任务的日志是通过调用Kubernetes API获取的,日志中包含了迭代次数和训练时间。后面介绍的自动扩展策略可以根据日志来判断任务是否需要被扩展,如果任务需要被扩展,自动扩展策略还会预测合适的资源配置,然后修改任务的YAML文件。然后,自动扩展器会通知调度器这个任务是否需要扩展。
(5)如果该任务需要被扩展,删除原任务,并前往步骤3使用修改过的YAML文件重新创建任务,如果该任务不需要被扩展,前往步骤2从任务队列中选择下一个任务。
Kubernetes默认的调度器不适合深度学习任务的调度,Kubernetes默认调度器会造成训练减慢、无法训练和死锁的情况。本发明提出的调度器将调度的基本单位由Pod修改为任务,调度器的流程图如图2所示。调度器的功能分为两个过程。第一,当任务队列不为空时从任务队列中选择优先级最高的任务。这个过程使用后面介绍的面向QoS的调度算法,该过程是Kubernetes默认调度器没有的。第二,将优先级最高的任务部署在Kubernetes集群中。调度器只有当集群剩余资源能满足任务的资源需求时才部署任务,这是把基本调度单位由Pod修改为任务的关键。当任务被部署后,调度器会通知自动扩展器该任务可能需要被扩展,自动扩展器会扩展该任务直到预测其服务质量能得到保证。
图3展示了自动扩展器的流程图,自动扩展器通过解析任务的日志来预测任务的服务质量能否得到保证,并利用深度学习任务的可预测性来预测资源配置和优化资源配置。预测任务的服务质量能否得到保证利用了深度学习任务训练时间的可预测性,扩展任务利用了自动扩展策略。同时,在扩展任务时还会利用深度学习任务资源消耗的可预测性来优化资源配置,提高集群资源利用率。
对于本发明基于预测的自动扩展策略,深度学习训练任务是由许多个相似的迭代组成,每一次迭代都包括一次前向传播和一次后向传播,前向传播用来计算模型误差,后向传播用来更新模型权重。由于每一次迭代处理的数据大小相同,运算过程类似,因此训练时间和资源消耗都具有可预测性。具体如下:
(1)深度学习模型训练时间与worker资源配置的关系
深度学习模型的训练时间随worker节点数量的增加而降低。随着worker节点数量逐渐增加,训练时间降低速度减慢,这是由于模型的训练时间不仅与worker节点的计算速度有关,还与网络带宽等其他因素有关。但是,训练时间与worker节点数量几乎是线性关系。当server节点不是性能瓶颈时,当worker节点数量为wi时,预测的模型训练时间为Ti,则当worker节点数量为wj时,预测的模型完成时间Tj为:
Figure BDA0002142053570000061
若Tj是期望的完成时间,可以根据现有的worker节点数量wi和训练时间Ti来预测目标worker节点数量wj
Figure BDA0002142053570000062
其中向上取整是为了尽可能保证深度学习任务的服务质量。自动扩展策略需要对worker资源进行扩展时,采用性能更好的水平扩展。
(2)深度学习模型训练时间与server资源配置的关系
server节点成为性能瓶颈后,继续扩展worker资源对降低模型的训练时间没有任何收益。因此,需要监控server节点是否是性能瓶颈,本发明采取的方法是监控server节点的资源利用率,当server节点的任何一种资源的利用率到达100%后,就认为server节点已经成为性能瓶颈。
自动扩展策略需要对server资源进行扩展时,采用性能更好的垂直扩展。在本发明中,当server节点成为性能瓶颈时,就将导致server节点成为性能瓶颈的资源垂直扩展为原来的两倍。
(3)自动扩展策略
自动扩展策略能自动扩展深度学习任务server节点和worker节点(server节点和worker节点都是运行在kubernetes集群工作节点上的,每个worker节点基于部分数据进行模型训练,得到部分模型参数。server节点负责保存所有worker节点发来的模型参数)的资源配置以保证任务的服务质量。这种自动扩展策略基于任务监控,通过监控模型前几次迭代的训练时间来预测模型训练时间,从而判断是否能满足深度学习任务的服务质量,通过监控资源利用率,从而判断模型训练的瓶颈所在,还可以优化资源配置从而提高集群资源的利用率。自动扩展策略流程为:
·计算深度神经网络模型的最大迭代次数;
·根据当前server节点和worker节点的资源配置,利用模型前500次迭代的训练时间来预测模型的总训练时间;
·根据预测完成时间判断当前任务配置能否满足任务服务质量的变量;
·如果预测任务的服务质量不能得到保障,通过解析日志获取当前迭代次数的方法,删除当前任务,调用资源扩展方法;
·资源扩展方法首先判断server节点是否是性能瓶颈,如果server节点是性能瓶颈,则垂直扩展server节点的资源,如果worker节点是性能瓶颈,则水平扩展worker节点的资源。
·扩展完server节点或者worker节点,利用修改过的任务配置文件重新提交任务。
本发明提出的调度算法把任务作为调度的基本单位,并通过监控集群的剩余资源和预测任务的资源需求来完成调度,若集群的剩余资源能满足deadline最近的任务,则调度任务,否则,从等待队列中选取一个对资源需求最小的任务进行调度。但是,对每个任务都进行资源需求预测会带来额外时间开销和资源开销,因此进行了以下近似处理。
第一,设置集群剩余资源阈值δ,当集群可用资源不低于δ时,认为集群可用资源充足,直接调度deadline最近的任务。做这样的近似处理是因为通常为了保证deadline最近的任务的服务质量需要较多资源,阈值δ可以用来判断是否可以调度deadline最近的任务。第二,当集群可用资源低于δ时,直接从等待队列中选择deadline最远的任务进行调度。做这样的近似处理是因为通常deadline远的任务需求的资源少,这样可以降低被调度的任务等待其他任务释放资源的概率。这就是QoS-oriented调度算法的主要思想,其调度流程为:
·把队列中的任务按照deadline递增排序
·获取集群可用资源百分比,
·根据集群可用资源和δ的关系选择调度deadline最近的任务还是deadline最远的任务。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于容器集群的深度学习任务服务质量保证方法,其特征在于,包括:
调度步骤:基于容器的运行平台接收任务,形成任务队列,预测任务的所需资源需求,根据所需资源需求对任务队列中的任务形成优先等级,依据优先等级对任务进行调度;
扩展步骤:解析任务的运行日志,监控集群资源利用率,基于运行日志和集群资源利用率,判定任务的资源扩展需求,根据资源扩展需求对任务的调度进行修正;
所述调度步骤包括:
形成队列步骤:接收深度学习训练任务,所述训练任务中包括期望完成时间、优先等级,将训练任务加入到任务队列中;
修正策略步骤:基于容器的运行平台的调度器从任务队列中根据优先等级选择训练任务,当集群资源能够满足所选训练任务时,对所选训练任务触发部署指令,否则,调度器持续等待其它任务释放资源;
任务部署步骤:接收部署指令,根据部署指令对所选训练任务部署在集群中;
所述扩展步骤包括:
获取日志步骤:通过调用API获取运行日志,解析日志中的迭代次数、训练时间;
自动扩展步骤:根据运行日志判定是否需要扩展,并预测相应的资源配置,修改训练任务,发出任务扩展需求。
2.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证方法其特征在于,所述训练任务由YAML文件描述。
3.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证方法其特征在于,对训练任务进行调度是将基本调度单位由Pod修改为任务。
4.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证方法其特征在于,所述调度采用QoS-oriented调度算法。
5.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证方法,其特征在于,所述集群资源利用率通过设置集群剩余资源阈值计算,若集群可用资源不低于集群剩余资源阈值,则判定为集群可用资源充足,能够对优先等级高的任务进行调度,若集群可用资源低于集群剩余资源阈值,则能够对优先等级低的任务进行调度。
6.一种基于容器集群的深度学习任务服务质量保证系统,其特征在于,包括:
调度模块:基于容器的运行平台接收任务,形成任务队列,预测任务的所需资源需求,根据所需资源需求对任务队列中的任务形成优先等级,依据优先等级对任务进行调度;
扩展模块:解析任务的运行日志,监控集群资源利用率,基于运行日志和集群资源利用率,判定任务的资源扩展需求,根据资源扩展需求对任务的调度进行修正;
所述调度模块包括:
形成队列模块:接收深度学习训练任务,所述训练任务中包括期望完成时间、优先等级,将训练任务加入到任务队列中;
修正策略模块:基于容器的运行平台的调度器从任务队列中根据优先等级选择训练任务,当集群资源能够满足所选训练任务时,对所选训练任务触发部署指令,否则,调度器持续等待其它任务释放资源;
任务部署模块:接收部署指令,根据部署指令对所选训练任务部署在集群中;
所述扩展模块包括:
获取日志模块:通过调用API获取运行日志,解析日志中的迭代次数、训练时间;
自动扩展模块:根据运行日志判定是否需要扩展,并预测相应的资源配置,修改训练任务,发出任务扩展需求。
7.根据权利要求6所述的基于容器集群的深度学习任务服务质量保证系统,其特征在于,所述训练任务由YAML文件描述。
8.根据权利要求6所述的基于容器集群的深度学习任务服务质量保证系统,其特征在于,对训练任务进行调度是将基本调度单位由Pod修改为任务。
9.根据权利要求6所述的基于容器集群的深度学习任务服务质量保证系统,其特征在于,所述调度采用QoS-oriented调度算法。
10.根据权利要求6所述的基于容器集群的深度学习任务服务质量保证系统,其特征在于,所述集群资源利用率通过设置集群剩余资源阈值计算,若集群可用资源不低于集群剩余资源阈值,则判定为集群可用资源充足,能够对优先等级高的任务进行调度,若集群可用资源低于集群剩余资源阈值,则能够对优先等级低的任务进行调度。
CN201910672078.0A 2019-07-24 2019-07-24 基于容器集群的深度学习任务服务质量保证方法和系统 Active CN110413391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910672078.0A CN110413391B (zh) 2019-07-24 2019-07-24 基于容器集群的深度学习任务服务质量保证方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910672078.0A CN110413391B (zh) 2019-07-24 2019-07-24 基于容器集群的深度学习任务服务质量保证方法和系统

Publications (2)

Publication Number Publication Date
CN110413391A CN110413391A (zh) 2019-11-05
CN110413391B true CN110413391B (zh) 2022-02-25

Family

ID=68362913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910672078.0A Active CN110413391B (zh) 2019-07-24 2019-07-24 基于容器集群的深度学习任务服务质量保证方法和系统

Country Status (1)

Country Link
CN (1) CN110413391B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033814A (zh) * 2019-12-09 2021-06-25 北京中关村科金技术有限公司 训练机器学习模型的方法、装置以及存储介质
CN113032112A (zh) * 2019-12-25 2021-06-25 上海商汤智能科技有限公司 资源调度方法及装置、电子设备和存储介质
CN111131080B (zh) * 2019-12-26 2021-09-07 电子科技大学 分布式深度学习流调度方法、系统、设备
CN111258734B (zh) * 2020-01-16 2022-09-23 中国人民解放军国防科技大学 一种基于强化学习的深度学习任务调度方法
CN111258735A (zh) * 2020-01-16 2020-06-09 中国人民解放军国防科技大学 一种支持用户QoS感知的深度学习任务调度方法
CN111274036B (zh) * 2020-01-21 2023-11-07 南京大学 一种基于速度预测的深度学习任务的调度方法
CN111401566B (zh) * 2020-03-19 2024-05-03 中国建设银行股份有限公司 机器学习训练方法及系统
CN112035251B (zh) * 2020-07-14 2023-09-26 中科院计算所西部高等技术研究院 基于强化学习作业布局的深度学习训练系统及方法
CN112052087B (zh) * 2020-07-14 2023-06-13 中科院计算所西部高等技术研究院 动态资源调整与迁移的深度学习训练系统及方法
CN112241321A (zh) * 2020-09-24 2021-01-19 北京影谱科技股份有限公司 基于Kubernetes的算力调度方法和装置
CN112099958B (zh) * 2020-11-17 2021-03-02 深圳壹账通智能科技有限公司 分布式多任务管理方法、装置、计算机设备及存储介质
CN112395052B (zh) * 2020-12-03 2024-02-06 华中科技大学 一种面向混合负载基于容器的集群资源管理方法及系统
CN114327886B (zh) * 2021-12-24 2022-12-16 国家石油天然气管网集团有限公司 一种基于大数据深度学习的动态资源调度方法
CN114489942B (zh) * 2022-01-19 2024-02-23 西安交通大学 一种面向应用集群的队列任务调度方法及系统
CN116167463B (zh) * 2023-04-26 2023-07-07 之江实验室 一种面向智能计算的分布式模型训练容器调度方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8230428B2 (en) * 2008-02-20 2012-07-24 International Business Machines Corporation Data management job planning and scheduling with finish time guarantee
CN107659609B (zh) * 2017-07-26 2021-01-12 北京天云融创软件技术有限公司 一种基于云计算的深度学习支撑平台及深度学习训练方法
CN108920259B (zh) * 2018-03-30 2022-06-24 华为云计算技术有限公司 深度学习作业调度方法、系统和相关设备
CN108733490A (zh) * 2018-05-14 2018-11-02 上海交通大学 一种基于资源共享自适应配置的GPU虚拟化QoS控制系统及方法
CN109117265A (zh) * 2018-07-12 2019-01-01 北京百度网讯科技有限公司 在集群中调度作业的方法、装置、设备及存储介质
CN109144734A (zh) * 2018-09-12 2019-01-04 郑州云海信息技术有限公司 一种容器资源配额分配方法和装置
CN109495907B (zh) * 2018-11-29 2020-05-12 北京邮电大学 一种意图驱动的无线接入组网方法和系统
CN109634748A (zh) * 2018-12-12 2019-04-16 深圳前海微众银行股份有限公司 集群资源调度方法、装置、设备及计算机可读存储介质
CN109885389B (zh) * 2019-02-19 2021-07-16 浪潮云信息技术股份公司 一种基于容器的并行深度学习调度训练方法及系统

Also Published As

Publication number Publication date
CN110413391A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110413391B (zh) 基于容器集群的深度学习任务服务质量保证方法和系统
US8020161B2 (en) Method and system for the dynamic scheduling of a stream of computing jobs based on priority and trigger threshold
CN108958916B (zh) 一种移动边缘环境下工作流卸载优化方法
US8943353B2 (en) Assigning nodes to jobs based on reliability factors
US8996811B2 (en) Scheduler, multi-core processor system, and scheduling method
CN104636204B (zh) 一种任务调度方法与装置
EP3296867B1 (en) Method and apparatus for executing real-time tasks
CN111274036A (zh) 一种基于速度预测的深度学习任务的调度方法
US9652027B2 (en) Thread scheduling based on performance state and idle state of processing units
CN114217966A (zh) 基于资源调整的深度学习模型动态批处理调度方法和系统
CN111176637B (zh) 基于缓存抢占延迟约束下aadl模型的可调度性分析方法
CN113448714B (zh) 基于云平台的计算资源控制系统
CN112540854B (zh) 在限定硬件资源条件下的深度学习模型调度部署方法及系统
Feljan et al. Task allocation optimization for multicore embedded systems
US20130117757A1 (en) Method and apparatus for scheduling application programs
EP4189542A1 (en) Sharing of compute resources between the virtualized radio access network (vran) and other workloads
US20050182747A1 (en) Method and system for executing multiple tasks at adaptively controlled resource utilization rates to achieve equal QoS levels
Sudarsan et al. Scheduling resizable parallel applications
CN110928666A (zh) 一种Spark环境中基于内存优化任务并行度的方法和系统
CN114995971A (zh) 实现kubernetes中pod批量调度方法及系统
CN110928659A (zh) 一种具有自适应功能的数值水池系统远程多平台接入方法
US20120131586A1 (en) Apparatus and method for controlling response time of application program
US9152451B2 (en) Method of distributing processor loading between real-time processor threads
CN111930520B (zh) 面向云计算任务资源的预测关联迭代调配方法与系统
CN116483546B (zh) 分布式训练任务调度方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230615

Address after: 201102, 7DEF, Building G, Weijing Center, No. 2337 Gudai Road, Minhang District, Shanghai

Patentee after: Shanghai Shengtong Information Technology Co.,Ltd.

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Patentee before: SHANGHAI JIAO TONG University