CN110413391A - 基于容器集群的深度学习任务服务质量保证方法和系统 - Google Patents

基于容器集群的深度学习任务服务质量保证方法和系统 Download PDF

Info

Publication number
CN110413391A
CN110413391A CN201910672078.0A CN201910672078A CN110413391A CN 110413391 A CN110413391 A CN 110413391A CN 201910672078 A CN201910672078 A CN 201910672078A CN 110413391 A CN110413391 A CN 110413391A
Authority
CN
China
Prior art keywords
task
cluster
deep learning
resource
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910672078.0A
Other languages
English (en)
Other versions
CN110413391B (zh
Inventor
钱诗友
邢思凯
曹健
薛广涛
李明禄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shengtong Information Technology Co ltd
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910672078.0A priority Critical patent/CN110413391B/zh
Publication of CN110413391A publication Critical patent/CN110413391A/zh
Application granted granted Critical
Publication of CN110413391B publication Critical patent/CN110413391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于容器集群的深度学习任务服务质量保证方法和系统。基于容器的运行平台接收任务,形成任务队列,预测各个任务的所需资源需求,根据所需资源需求对队列中的任务形成优先等级,依据优先等级对任务进行调度;解析任务的运行日志,监控集群资源利用率,基于运行日志和集群资源利用率,判定任务的资源扩展需求,根据资源扩展需求对任务的调度进行修正。本发明易用性高且资源利用率高,用户在提交深度学习任务时只需指定服务质量,无需指定复杂的资源配置,会通过任务调度和任务扩展的方式保证其服务质量;并且充分利用了深度学习任务的特点,用更少的资源保证任务的服务质量。

Description

基于容器集群的深度学习任务服务质量保证方法和系统
技术领域
本发明涉及神经网络模型训练,提出一种基于容器集群的深度学习任务服务质量保证方法和系统。
背景技术
深度学习对计算资源严重依赖的特点使得深度学习模型训练一般不能在本地完成,需要交付给集群来完成。深度学习任务的另一个特点是反馈驱动的探索性任务。由于深度学习任务固有的试错机制,用户通常会尝试提交一个深度学习任务的多种参数配置版本,根据反馈结果杀死或提交更多的深度学习任务,一个典型的过程是超参数搜索。
用户在提交深度学习任务时,需要配置资源请求,比如GPU的个数、内存的大小、磁盘大小等。当需要考虑分布式深度学习、GPU亲和性、不同任务间的干扰、资源利用率等因素时,深度学习任务的资源配置变得更加复杂。除此之外,用户不能基于给定的资源配置方案来确定深度学习任务的完成时间。因此,用户会在未知的等待中浪费时间,而用户关心的只是低层次的资源度量(如GPU,内存等)到高层次的服务质量之间的映射关系。因此,如果允许用户在提交深度学习任务时只指定高层次的服务质量(QoS),集群调度器负责高层次服务质量到低层次资源度量的映射,即满足任务的服务质量,那么会提高用户提交深度学习任务的便捷性,同时资源配置可以得到优化,从而提高集群资源利用率。
现有的集群调度器把一个深度学习任务看作为一个大数据处理任务,在深度学习任务启动时分配固定数量的资源,然后等待深度学习任务完成后释放资源。这类调度器的缺点主要有两方面。第一,用户易用性低,这是因为调度器只能满足低层次的资源度量的要求,不能提供高层次的服务质量的保证。第二,集群资源利用率低,这是因为用户难以准确地配置任务的资源需求,并且大多数用户在提交任务时都会请求过量的资源,这造成了资源的浪费。
与本申请相关的现有技术是专利文献CN 106529682 A,公开了一种在大数据集群中处理深度学习任务的方法和装置,其中方法包括:接收深度学习任务;从大数据集群的节点中分配可执行该深度学习任务的至少一个节点;调用深度学习库接口,在分配的每个节点上启动与该深度学习任务对应的子任务;从所述大数据集群的文件系统中获取用于该深度学习任务的数据;将获取的用于该深度学习任务的数据推送到相应的子任务上进行执行,并将子任务返回的执行结果数据保存到大数据集群的文件系统中的指定位置。该技术方案可以有效地在大数据集群中处理深度学习任务,利用了大数据集群任务并行执行、数据存储量大的优点,可将深度学习与大数据计算进行有机结合,大大提高深度学习任务的执行效率。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种提出一种基于容器集群的深度学习任务服务质量保证方法和系统。
根据本发明提供的一种基于容器集群的深度学习任务服务质量保证方法,包括:
调度步骤:基于容器的运行平台接收任务,形成任务队列,预测任务的所需资源需求,根据所需资源需求对任务队列中的任务形成优先等级,依据优先等级对任务进行调度;
扩展步骤:解析任务的运行日志,监控集群资源利用率,基于运行日志和集群资源利用率,判定任务的资源扩展需求,根据资源扩展需求对任务的调度进行修正。
优选地,所述调度步骤包括:
形成队列步骤:接收深度学习训练任务,所述训练任务中包括期望完成时间、优先等级,将训练任务加入到任务队列中;
修正策略步骤:基于容器的运行平台的调度器从任务队列中根据优先等级选择训练任务,当集群资源能够满足所选训练任务时,对所选训练任务触发部署指令,否则,调度器持续等待其它任务释放资源;
任务部署步骤:接收部署指令,根据部署指令对所选训练任务部署在集群中。
优选地,所述扩展步骤包括:
获取日志步骤:通过调用API获取运行日志,解析日志中的迭代次数、训练时间;
自动扩展步骤:根据运行日志判定是否需要扩展,并预测相应的资源配置,修改训练任务,发出任务扩展需求。
根据本发明提供的一种基于容器集群的深度学习任务服务质量保证系统,包括:
调度模块:基于容器的运行平台接收任务,形成任务队列,预测任务的所需资源需求,根据所需资源需求对任务队列中的任务形成优先等级,依据优先等级对任务进行调度;
扩展模块:解析任务的运行日志,监控集群资源利用率,基于运行日志和集群资源利用率,判定任务的资源扩展需求,根据资源扩展需求对任务的调度进行修正。
优选地,所述调度模块包括:
形成队列模块:接收深度学习训练任务,所述训练任务中包括期望完成时间、优先等级,将训练任务加入到任务队列中;
修正策略模块:基于容器的运行平台的调度器从任务队列中根据优先等级选择训练任务,当集群资源能够满足所选训练任务时,对所选训练任务触发部署指令,否则,调度器持续等待其它任务释放资源;
任务部署模块:接收部署指令,根据部署指令对所选训练任务部署在集群中。
优选地,所述扩展模块包括:
获取日志模块:通过调用API获取运行日志,解析日志中的迭代次数、训练时间;
自动扩展模块:根据运行日志判定是否需要扩展,并预测相应的资源配置,修改训练任务,发出任务扩展需求。
优选地,所述训练任务由YAML文件描述。
优选地,所述对训练任务进行调度是将基本调度单位由Pod修改为任务。
优选地,所述调度采用QoS-oriented调度算法。
优选地,所述集群资源利用率通过设置集群剩余资源阈值计算,若集群可用资源不低于集群剩余资源阈值,则判定为集群可用资源充足,能够对优先等级高的任务进行调度,若集群可用资源低于集群剩余资源阈值,则能够对优先等级低的任务进行调度。
与现有技术相比,本发明具有如下的有益效果:
1、易用性高,用户在提交深度学习任务时只需指定服务质量,无需指定复杂的资源配置,会通过任务调度和任务扩展的方式保证其服务质量。
2、资源利用率高,充分利用了深度学习任务的特点,用更少的资源保证任务的服务质量。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的基于容器集群的深度学习任务服务质量保证框架架构图;
图2为本发明的调度器流程图;
图3为本发明的自动扩展器流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
当前深度学习集群资源调度器的缺点主要表现在两个方面。第一,用户易用性低,这是因为调度器只能满足低层次的资源度量的要求,不能提供高层次的服务质量的保证。第二,集群资源利用率低,这是因为用户难以准确地配置任务的资源需求,并且大多数用户在提交任务时都会请求过量的资源,这造成了资源的浪费。
而本发明利用了深度学习训练任务的可预测性来扩展任务的资源配置以保证其服务质量,同时提高资源利用率。深度学习训练任务的可预测性包括训练时间的可预测性和资源消耗的可预测性。训练时间的可预测性分为两方面。第一,训练时间与迭代次数呈线性关系。第二,在参数服务器框架中,当server节点不是性能瓶颈时,训练时间与worker节点的个数几乎呈线性关系。训练时间的可预测性可用于预测任务的服务质量是否可以被保证以及任务的资源配置。资源消耗的可预测性是指在模型训练过程中,模型对资源的消耗几乎保持不变。资源消耗的可预测性可用于优化资源配置,提高资源利用率。
在多任务环境中,为了保证尽可能多的任务的服务质量,本发明提出了一种面向QoS的调度算法,称为QoS-oriented。QoS-oriented调度算法综合考虑了任务截止时间和集群剩余资源状态,当集群资源不充足时,选择对资源需求低的任务,当集群资源充足时,选择截止时间最早的任务。
由于深度学习模型的训练通常需要在大规模数据集上进行多次迭代,所以深度学习模型的训练会消耗大量的时间。不合理地配置深度学习任务的资源不仅会增加模型的训练时间还会降低资源利用率。然而,合理地配置深度学习任务的资源是非常困难的,尤其是涉及到分布式深度学习。因此,如果用户在提交深度学习任务时只需要指定服务质量(QoS),任务的资源会自动配置以保证其服务质量,那么用户提交深度学习任务会更加方便,同时资源利用率也会得到提高。本发明提出了一个基于容器集群的深度学习任务服务质量保证方法和系统,允许用户在提交深度学习训练任务时只指定服务质量,即任务完成时间,无需配置资源,通过任务调度和任务扩展的方式来保证任务的服务质量。
如图1所示,本发明基于Kubernetes的深度学习任务服务质量保证框架,包括调度器模块和自动扩展器模块两个模块。当用户使用该框架时,会有以下流程发生:
(1)用户提交一个深度学习训练任务。这个任务是由YAML文件描述的,这个YAML文件中包含了用户指定的期望完成时间。所有的任务都会被加入到任务队列中,当任务队列不为空时,会有以下流程。
(2)调度器从任务队列中选择优先级最高的任务。Kubernetes默认调度器没有这个过程,后面介绍的调度策略就是指这一过程。
(3)调度器部署被选择的任务,与Kubernetes默认调度器不同的是,只有当集群资源可以满足该任务的资源需求时,本发明提出的调度器才会部署该任务,否则,调度器会一直等待其他任务释放资源。当该任务被调度器部署在Kubernetes集群中后,调度器会通知自动扩展器这个任务可能需要被扩展。
(4)自动扩展器通过解析任务的日志来判断任务是否需要被扩展。任务的日志是通过调用Kubernetes API获取的,日志中包含了迭代次数和训练时间。后面介绍的自动扩展策略可以根据日志来判断任务是否需要被扩展,如果任务需要被扩展,自动扩展策略还会预测合适的资源配置,然后修改任务的YAML文件。然后,自动扩展器会通知调度器这个任务是否需要扩展。
(5)如果该任务需要被扩展,删除原任务,并前往步骤3使用修改过的YAML文件重新创建任务,如果该任务不需要被扩展,前往步骤2从任务队列中选择下一个任务。
Kubernetes默认的调度器不适合深度学习任务的调度,Kubernetes默认调度器会造成训练减慢、无法训练和死锁的情况。本发明提出的调度器将调度的基本单位由Pod修改为任务,调度器的流程图如图2所示。调度器的功能分为两个过程。第一,当任务队列不为空时从任务队列中选择优先级最高的任务。这个过程使用后面介绍的面向QoS的调度算法,该过程是Kubernetes默认调度器没有的。第二,将优先级最高的任务部署在Kubernetes集群中。调度器只有当集群剩余资源能满足任务的资源需求时才部署任务,这是把基本调度单位由Pod修改为任务的关键。当任务被部署后,调度器会通知自动扩展器该任务可能需要被扩展,自动扩展器会扩展该任务直到预测其服务质量能得到保证。
图3展示了自动扩展器的流程图,自动扩展器通过解析任务的日志来预测任务的服务质量能否得到保证,并利用深度学习任务的可预测性来预测资源配置和优化资源配置。预测任务的服务质量能否得到保证利用了深度学习任务训练时间的可预测性,扩展任务利用了自动扩展策略。同时,在扩展任务时还会利用深度学习任务资源消耗的可预测性来优化资源配置,提高集群资源利用率。
对于本发明基于预测的自动扩展策略,深度学习训练任务是由许多个相似的迭代组成,每一次迭代都包括一次前向传播和一次后向传播,前向传播用来计算模型误差,后向传播用来更新模型权重。由于每一次迭代处理的数据大小相同,运算过程类似,因此训练时间和资源消耗都具有可预测性。具体如下:
(1)深度学习模型训练时间与worker资源配置的关系
深度学习模型的训练时间随worker节点数量的增加而降低。随着worker节点数量逐渐增加,训练时间降低速度减慢,这是由于模型的训练时间不仅与worker节点的计算速度有关,还与网络带宽等其他因素有关。但是,训练时间与worker节点数量几乎是线性关系。当server节点不是性能瓶颈时,当worker节点数量为wi时,预测的模型训练时间为Ti,则当worker节点数量为wj时,预测的模型完成时间Tj为:
若Tj是期望的完成时间,可以根据现有的worker节点数量wi和训练时间Ti来预测目标worker节点数量wj
其中向上取整是为了尽可能保证深度学习任务的服务质量。自动扩展策略需要对worker资源进行扩展时,采用性能更好的水平扩展。
(2)深度学习模型训练时间与server资源配置的关系
server节点成为性能瓶颈后,继续扩展worker资源对降低模型的训练时间没有任何收益。因此,需要监控server节点是否是性能瓶颈,本发明采取的方法是监控server节点的资源利用率,当server节点的任何一种资源的利用率到达100%后,就认为server节点已经成为性能瓶颈。
自动扩展策略需要对server资源进行扩展时,采用性能更好的垂直扩展。在本发明中,当server节点成为性能瓶颈时,就将导致server节点成为性能瓶颈的资源垂直扩展为原来的两倍。
(3)自动扩展策略
自动扩展策略能自动扩展深度学习任务server节点和worker节点(server节点和worker节点都是运行在kubernetes集群工作节点上的,每个worker节点基于部分数据进行模型训练,得到部分模型参数。server节点负责保存所有worker节点发来的模型参数)的资源配置以保证任务的服务质量。这种自动扩展策略基于任务监控,通过监控模型前几次迭代的训练时间来预测模型训练时间,从而判断是否能满足深度学习任务的服务质量,通过监控资源利用率,从而判断模型训练的瓶颈所在,还可以优化资源配置从而提高集群资源的利用率。自动扩展策略流程为:
·计算深度神经网络模型的最大迭代次数;
·根据当前server节点和worker节点的资源配置,利用模型前500次迭代的训练时间来预测模型的总训练时间;
·根据预测完成时间判断当前任务配置能否满足任务服务质量的变量;
·如果预测任务的服务质量不能得到保障,通过解析日志获取当前迭代次数的方法,删除当前任务,调用资源扩展方法;
·资源扩展方法首先判断server节点是否是性能瓶颈,如果server节点是性能瓶颈,则垂直扩展server节点的资源,如果worker节点是性能瓶颈,则水平扩展worker节点的资源。
·扩展完server节点或者worker节点,利用修改过的任务配置文件重新提交任务。
本发明提出的调度算法把任务作为调度的基本单位,并通过监控集群的剩余资源和预测任务的资源需求来完成调度,若集群的剩余资源能满足deadline最近的任务,则调度任务,否则,从等待队列中选取一个对资源需求最小的任务进行调度。但是,对每个任务都进行资源需求预测会带来额外时间开销和资源开销,因此进行了以下近似处理。
第一,设置集群剩余资源阈值δ,当集群可用资源不低于δ时,认为集群可用资源充足,直接调度deadline最近的任务。做这样的近似处理是因为通常为了保证deadline最近的任务的服务质量需要较多资源,阈值δ可以用来判断是否可以调度deadline最近的任务。第二,当集群可用资源低于δ时,直接从等待队列中选择deadline最远的任务进行调度。做这样的近似处理是因为通常deadline远的任务需求的资源少,这样可以降低被调度的任务等待其他任务释放资源的概率。这就是QoS-oriented调度算法的主要思想,其调度流程为:
·把队列中的任务按照deadline递增排序
·获取集群可用资源百分比,
·根据集群可用资源和δ的关系选择调度deadline最近的任务还是deadline最远的任务。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于容器集群的深度学习任务服务质量保证方法,其特征在于,包括:
调度步骤:基于容器的运行平台接收任务,形成任务队列,预测任务的所需资源需求,根据所需资源需求对任务队列中的任务形成优先等级,依据优先等级对任务进行调度;
扩展步骤:解析任务的运行日志,监控集群资源利用率,基于运行日志和集群资源利用率,判定任务的资源扩展需求,根据资源扩展需求对任务的调度进行修正。
2.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证方法,其特征在于,所述调度步骤包括:
形成队列步骤:接收深度学习训练任务,所述训练任务中包括期望完成时间、优先等级,将训练任务加入到任务队列中;
修正策略步骤:基于容器的运行平台的调度器从任务队列中根据优先等级选择训练任务,当集群资源能够满足所选训练任务时,对所选训练任务触发部署指令,否则,调度器持续等待其它任务释放资源;
任务部署步骤:接收部署指令,根据部署指令对所选训练任务部署在集群中。
3.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证方法,其特征在于,所述扩展步骤包括:
获取日志步骤:通过调用API获取运行日志,解析日志中的迭代次数、训练时间;
自动扩展步骤:根据运行日志判定是否需要扩展,并预测相应的资源配置,修改训练任务,发出任务扩展需求。
4.一种基于容器集群的深度学习任务服务质量保证系统,其特征在于,包括:
调度模块:基于容器的运行平台接收任务,形成任务队列,预测任务的所需资源需求,根据所需资源需求对任务队列中的任务形成优先等级,依据优先等级对任务进行调度;
扩展模块:解析任务的运行日志,监控集群资源利用率,基于运行日志和集群资源利用率,判定任务的资源扩展需求,根据资源扩展需求对任务的调度进行修正。
5.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证系统,其特征在于,所述调度模块包括:
形成队列模块:接收深度学习训练任务,所述训练任务中包括期望完成时间、优先等级,将训练任务加入到任务队列中;
修正策略模块:基于容器的运行平台的调度器从任务队列中根据优先等级选择训练任务,当集群资源能够满足所选训练任务时,对所选训练任务触发部署指令,否则,调度器持续等待其它任务释放资源;
任务部署模块:接收部署指令,根据部署指令对所选训练任务部署在集群中。
6.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证系统,其特征在于,所述扩展模块包括:
获取日志模块:通过调用API获取运行日志,解析日志中的迭代次数、训练时间;
自动扩展模块:根据运行日志判定是否需要扩展,并预测相应的资源配置,修改训练任务,发出任务扩展需求。
7.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证方法或者根据权利要求4所述的基于容器集群的深度学习任务服务质量保证系统,其特征在于,所述训练任务由YAML文件描述。
8.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证方法或者根据权利要求4所述的基于容器集群的深度学习任务服务质量保证系统,其特征在于,所述对训练任务进行调度是将基本调度单位由Pod修改为任务。
9.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证方法或者根据权利要求4所述的基于容器集群的深度学习任务服务质量保证系统,其特征在于,所述调度采用QoS-oriented调度算法。
10.根据权利要求1所述的基于容器集群的深度学习任务服务质量保证方法或者根据权利要求4所述的基于容器集群的深度学习任务服务质量保证系统,其特征在于,所述集群资源利用率通过设置集群剩余资源阈值计算,若集群可用资源不低于集群剩余资源阈值,则判定为集群可用资源充足,能够对优先等级高的任务进行调度,若集群可用资源低于集群剩余资源阈值,则能够对优先等级低的任务进行调度。
CN201910672078.0A 2019-07-24 2019-07-24 基于容器集群的深度学习任务服务质量保证方法和系统 Active CN110413391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910672078.0A CN110413391B (zh) 2019-07-24 2019-07-24 基于容器集群的深度学习任务服务质量保证方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910672078.0A CN110413391B (zh) 2019-07-24 2019-07-24 基于容器集群的深度学习任务服务质量保证方法和系统

Publications (2)

Publication Number Publication Date
CN110413391A true CN110413391A (zh) 2019-11-05
CN110413391B CN110413391B (zh) 2022-02-25

Family

ID=68362913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910672078.0A Active CN110413391B (zh) 2019-07-24 2019-07-24 基于容器集群的深度学习任务服务质量保证方法和系统

Country Status (1)

Country Link
CN (1) CN110413391B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111131080A (zh) * 2019-12-26 2020-05-08 电子科技大学 分布式深度学习流调度方法、系统、设备
CN111258734A (zh) * 2020-01-16 2020-06-09 中国人民解放军国防科技大学 一种基于强化学习的深度学习任务调度方法
CN111258735A (zh) * 2020-01-16 2020-06-09 中国人民解放军国防科技大学 一种支持用户QoS感知的深度学习任务调度方法
CN111274036A (zh) * 2020-01-21 2020-06-12 南京大学 一种基于速度预测的深度学习任务的调度方法
CN111401566A (zh) * 2020-03-19 2020-07-10 中国建设银行股份有限公司 机器学习训练方法及系统
CN112035251A (zh) * 2020-07-14 2020-12-04 中科院计算所西部高等技术研究院 基于强化学习作业布局的深度学习训练系统及方法
CN112052087A (zh) * 2020-07-14 2020-12-08 中科院计算所西部高等技术研究院 动态资源调整与迁移的深度学习训练系统及方法
CN112099958A (zh) * 2020-11-17 2020-12-18 深圳壹账通智能科技有限公司 分布式多任务管理方法、装置、计算机设备及存储介质
CN112241321A (zh) * 2020-09-24 2021-01-19 北京影谱科技股份有限公司 基于Kubernetes的算力调度方法和装置
CN112395052A (zh) * 2020-12-03 2021-02-23 华中科技大学 一种面向混合负载基于容器的集群资源管理方法及系统
CN113033814A (zh) * 2019-12-09 2021-06-25 北京中关村科金技术有限公司 训练机器学习模型的方法、装置以及存储介质
WO2021128737A1 (zh) * 2019-12-25 2021-07-01 上海商汤智能科技有限公司 资源调度方法及装置、电子设备和存储介质
CN113112025A (zh) * 2020-01-13 2021-07-13 顺丰科技有限公司 模型建立系统、方法、装置及存储介质
CN114327886A (zh) * 2021-12-24 2022-04-12 国家石油天然气管网集团有限公司 一种基于大数据深度学习的动态资源调度方法
CN114489942A (zh) * 2022-01-19 2022-05-13 西安交通大学 一种面向应用集群的队列任务调度方法及系统
CN116167463A (zh) * 2023-04-26 2023-05-26 之江实验室 一种模型训练的方法、装置、存储介质及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210878A1 (en) * 2008-02-20 2009-08-20 Lan Huang System and method for data management job planning and scheduling with finish time guarantee
CN107659609A (zh) * 2017-07-26 2018-02-02 北京天云融创软件技术有限公司 一种基于云计算的深度学习支撑平台及深度学习训练方法
CN108733490A (zh) * 2018-05-14 2018-11-02 上海交通大学 一种基于资源共享自适应配置的GPU虚拟化QoS控制系统及方法
CN108920259A (zh) * 2018-03-30 2018-11-30 华为技术有限公司 深度学习作业调度方法、系统和相关设备
CN109117265A (zh) * 2018-07-12 2019-01-01 北京百度网讯科技有限公司 在集群中调度作业的方法、装置、设备及存储介质
CN109144734A (zh) * 2018-09-12 2019-01-04 郑州云海信息技术有限公司 一种容器资源配额分配方法和装置
CN109495907A (zh) * 2018-11-29 2019-03-19 北京邮电大学 一种意图驱动的无线接入组网方法和系统
CN109634748A (zh) * 2018-12-12 2019-04-16 深圳前海微众银行股份有限公司 集群资源调度方法、装置、设备及计算机可读存储介质
CN109885389A (zh) * 2019-02-19 2019-06-14 山东浪潮云信息技术有限公司 一种基于容器的并行深度学习调度训练方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210878A1 (en) * 2008-02-20 2009-08-20 Lan Huang System and method for data management job planning and scheduling with finish time guarantee
CN107659609A (zh) * 2017-07-26 2018-02-02 北京天云融创软件技术有限公司 一种基于云计算的深度学习支撑平台及深度学习训练方法
CN108920259A (zh) * 2018-03-30 2018-11-30 华为技术有限公司 深度学习作业调度方法、系统和相关设备
CN108733490A (zh) * 2018-05-14 2018-11-02 上海交通大学 一种基于资源共享自适应配置的GPU虚拟化QoS控制系统及方法
CN109117265A (zh) * 2018-07-12 2019-01-01 北京百度网讯科技有限公司 在集群中调度作业的方法、装置、设备及存储介质
CN109144734A (zh) * 2018-09-12 2019-01-04 郑州云海信息技术有限公司 一种容器资源配额分配方法和装置
CN109495907A (zh) * 2018-11-29 2019-03-19 北京邮电大学 一种意图驱动的无线接入组网方法和系统
CN109634748A (zh) * 2018-12-12 2019-04-16 深圳前海微众银行股份有限公司 集群资源调度方法、装置、设备及计算机可读存储介质
CN109885389A (zh) * 2019-02-19 2019-06-14 山东浪潮云信息技术有限公司 一种基于容器的并行深度学习调度训练方法及系统

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033814A (zh) * 2019-12-09 2021-06-25 北京中关村科金技术有限公司 训练机器学习模型的方法、装置以及存储介质
WO2021128737A1 (zh) * 2019-12-25 2021-07-01 上海商汤智能科技有限公司 资源调度方法及装置、电子设备和存储介质
CN111131080A (zh) * 2019-12-26 2020-05-08 电子科技大学 分布式深度学习流调度方法、系统、设备
CN113112025A (zh) * 2020-01-13 2021-07-13 顺丰科技有限公司 模型建立系统、方法、装置及存储介质
CN111258734B (zh) * 2020-01-16 2022-09-23 中国人民解放军国防科技大学 一种基于强化学习的深度学习任务调度方法
CN111258735A (zh) * 2020-01-16 2020-06-09 中国人民解放军国防科技大学 一种支持用户QoS感知的深度学习任务调度方法
CN111258734A (zh) * 2020-01-16 2020-06-09 中国人民解放军国防科技大学 一种基于强化学习的深度学习任务调度方法
CN111274036A (zh) * 2020-01-21 2020-06-12 南京大学 一种基于速度预测的深度学习任务的调度方法
CN111274036B (zh) * 2020-01-21 2023-11-07 南京大学 一种基于速度预测的深度学习任务的调度方法
CN111401566A (zh) * 2020-03-19 2020-07-10 中国建设银行股份有限公司 机器学习训练方法及系统
CN111401566B (zh) * 2020-03-19 2024-05-03 中国建设银行股份有限公司 机器学习训练方法及系统
CN112052087B (zh) * 2020-07-14 2023-06-13 中科院计算所西部高等技术研究院 动态资源调整与迁移的深度学习训练系统及方法
CN112052087A (zh) * 2020-07-14 2020-12-08 中科院计算所西部高等技术研究院 动态资源调整与迁移的深度学习训练系统及方法
CN112035251A (zh) * 2020-07-14 2020-12-04 中科院计算所西部高等技术研究院 基于强化学习作业布局的深度学习训练系统及方法
CN112035251B (zh) * 2020-07-14 2023-09-26 中科院计算所西部高等技术研究院 基于强化学习作业布局的深度学习训练系统及方法
CN112241321A (zh) * 2020-09-24 2021-01-19 北京影谱科技股份有限公司 基于Kubernetes的算力调度方法和装置
CN112099958A (zh) * 2020-11-17 2020-12-18 深圳壹账通智能科技有限公司 分布式多任务管理方法、装置、计算机设备及存储介质
CN112395052A (zh) * 2020-12-03 2021-02-23 华中科技大学 一种面向混合负载基于容器的集群资源管理方法及系统
CN112395052B (zh) * 2020-12-03 2024-02-06 华中科技大学 一种面向混合负载基于容器的集群资源管理方法及系统
CN114327886A (zh) * 2021-12-24 2022-04-12 国家石油天然气管网集团有限公司 一种基于大数据深度学习的动态资源调度方法
CN114489942A (zh) * 2022-01-19 2022-05-13 西安交通大学 一种面向应用集群的队列任务调度方法及系统
CN114489942B (zh) * 2022-01-19 2024-02-23 西安交通大学 一种面向应用集群的队列任务调度方法及系统
CN116167463A (zh) * 2023-04-26 2023-05-26 之江实验室 一种模型训练的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN110413391B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN110413391A (zh) 基于容器集群的深度学习任务服务质量保证方法和系统
CN107888669B (zh) 一种基于深度学习神经网络的大规模资源调度系统及方法
US9442760B2 (en) Job scheduling using expected server performance information
US9218213B2 (en) Dynamic placement of heterogeneous workloads
CN111274036B (zh) 一种基于速度预测的深度学习任务的调度方法
CN102932422B (zh) 基于改进蚁群算法的云环境任务调度方法
CN111861412B (zh) 面向完成时间优化的科学工作流调度方法及系统
CN103927225B (zh) 一种多核心架构的互联网信息处理优化方法
CN108154317B (zh) 多云环境下基于实例自适应分配整合的工作流组调度方法
CN111782355B (zh) 一种基于混合负载的云计算任务调度方法及系统
CN103970580A (zh) 一种面向多核集群的数据流编译优化方法
KR20170116439A (ko) 태스크 스케줄링 방법 및 장치
CN104050042A (zh) Etl作业的资源分配方法及装置
CN108509280B (zh) 一种基于推送模型的分布式计算集群本地性调度方法
CN101582043A (zh) 一种异构计算系统动态任务分配方法
CN109815009B (zh) 一种csp下的资源调度与优化方法
CN103257900B (zh) 减少cpu占用的多处理器上实时任务集资源预留方法
CN106648831A (zh) 基于萤火虫算法和动态优先级的云工作流调度方法
CN116401055A (zh) 面向资源效率优化的服务器无感知计算工作流编排方法
CN116010064A (zh) Dag作业调度和集群管理的方法、系统及装置
Wang et al. A Smart Semipartitioned Real‐Time Scheduling Strategy for Mixed‐Criticality Systems in 6G‐Based Edge Computing
CN110928666A (zh) 一种Spark环境中基于内存优化任务并行度的方法和系统
CN106802822A (zh) 一种基于飞蛾算法的云数据中心认知资源调度方法
CN114217930A (zh) 一种基于混合任务调度的加速器系统资源优化管理方法
CN109976873A (zh) 容器化分布式计算框架的调度方案获取方法及调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230615

Address after: 201102, 7DEF, Building G, Weijing Center, No. 2337 Gudai Road, Minhang District, Shanghai

Patentee after: Shanghai Shengtong Information Technology Co.,Ltd.

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Patentee before: SHANGHAI JIAO TONG University