CN110362403A - 一种作业调度方法及装置 - Google Patents

一种作业调度方法及装置 Download PDF

Info

Publication number
CN110362403A
CN110362403A CN201910564130.0A CN201910564130A CN110362403A CN 110362403 A CN110362403 A CN 110362403A CN 201910564130 A CN201910564130 A CN 201910564130A CN 110362403 A CN110362403 A CN 110362403A
Authority
CN
China
Prior art keywords
suspended state
state operation
enabled node
satisfy
resource needed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910564130.0A
Other languages
English (en)
Inventor
何翔龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201910564130.0A priority Critical patent/CN110362403A/zh
Publication of CN110362403A publication Critical patent/CN110362403A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority

Abstract

本申请提供一种作业调度方法及装置,所述方法包括:当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点;如果存在能够满足所述挂起状态作业所需资源的可用节点,则在能够满足所述挂起状态作业所需资源的可用节点上运行所述挂起状态作业。本申请在作业进入挂起状态后,可以调整到其它可用节点上运行,从而实现了资源调度的优化,提高了资源利用率。

Description

一种作业调度方法及装置
技术领域
本发明涉及计算机领域,尤其涉及作业调度方法及装置。
背景技术
Slurm(一种开源作业调度框架)工作调度工具是面向Linux(一套免费使用和自由传播的类Unix操作系统)和Unix(一种操作系统)类似内核的免费和开源工作调度程序,由世界上许多超级计算机和计算机集群使用。Slurm 提供了以下几个关键功能。1、Slurm在一段时间内为用户分配对资源(例如计算机节点)的独占和/或非独占访问权限,以便他们可以执行工作。2、Slurm 提供了一个框架,用于在一组分配的节点上启动,执行和监视工作。3、Slurm 通过管理待处理作业队列来仲裁资源争用。
Slurm对作业调度的基本策略包括:1、对集群中存在的物理节点设置分区,一个节点可以属于多个分区,可以设置作业执行的默认分区。2、对每个分区可以设置不同的优先级。3、根据对作业设置的运行分区,对作业实行调度,包括抢占与等待。
例如:
[user@n16~]$sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
active*up infinite 5idle n[12-16]
hipri up infinite 5idle n[12-16]
[user@n16~]$grep PartitionName/shared/slurm/slurm.conf
PartitionName=DEFAULT OverSubscribe=FORCE:1Nodes=n[12-16]
PartitionName=active PriorityTier=1Default=YES
PartitionName=hipri PriorityTier=2
上面代码为两个分区的配置,其中hipri分区的优先级为2,active分区的优先级为1,hipri分区和active分区都建立在12-16号节点之上。
现有的Slurm调度策略中,对于作业所运行的节点在第一次分配后就固定了,后续不能动态修改。如果低优先级分区作业的资源被高优先级分区作业抢占后进入挂起状态,进入挂起状态的作业需要等待高优先级分区作业运行完毕后,才可以继续在第一次分配的节点上运行,即使该挂起状态的作业对应分区中有其它可用节点也不能使用,使得作业调度不够优化,资源利用率低。
发明内容
本申请所要解决的技术是提供一种作业调度方法及装置,可以更合理的进行资源调度,提高资源利用率。
为了解决上述技术问题,本申请提供了一种作业调度方法,包括:
当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点;
如果存在能够满足所述挂起状态作业所需资源的可用节点,则在能够满足所述挂起状态作业所需资源的可用节点上运行所述挂起状态作业。
可选地,所述当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点包括:
当作业进入挂起状态后,将所述进入挂起状态的作业放入挂起作业队列;
按照挂起状态作业进入挂起作业队列的前后顺序,依次判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点。
可选地,所述方法还包括:
如果存在能够满足所述挂起状态作业所需资源的可用节点,则从所述挂起作业队列中删除所述挂起状态作业。
可选地,所述当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在所述挂起状态作业对应的可用节点还包括:
如果挂起作业队列不为空,则循环判断所述挂起作业队列中的挂起状态作业是否存在能够满足所述挂起状态作业所需资源的可用节点。
可选地,所述方法还包括:
如果存在能够满足所述挂起状态作业所需资源的可用节点,则将所述挂起状态作业挂起前配置的运行节点修改为所述可用节点。
本申请还提供一种作业调度装置,包括:存储器和处理器;所述存储器,用于保存用于作业调度的程序;
所述处理器,用于读取执行所述用于作业调度的程序,执行如下操作:
当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点;
如果存在能够满足所述挂起状态作业所需资源的可用节点,则在能够满足所述挂起状态作业所需资源的可用节点上运行所述挂起状态作业。
可选地,所述当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点包括:
当作业进入挂起状态后,将所述进入挂起状态的作业放入挂起作业队列;
按照挂起状态作业进入挂起作业队列的前后顺序,依次判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点。
可选地,所述处理器,用于读取执行所述用于作业调度的程序,还执行如下操作:
如果存在能够满足所述挂起状态作业所需资源的可用节点,则从所述挂起作业队列中删除所述挂起状态作业。
可选地,所述当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在所述挂起状态作业对应的可用节点还包括:
如果挂起作业队列不为空,则循环判断所述挂起作业队列中的挂起状态作业是否存在能够满足所述挂起状态作业所需资源的可用节点。
可选地,所述处理器,用于读取执行所述用于作业调度的程序,还执行如下操作:
如果存在能够满足所述挂起状态作业所需资源的可用节点,则将所述挂起状态作业挂起前配置的运行节点修改为所述可用节点。
与现有技术相比,本申请包括:当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点;如果存在能够满足所述挂起状态作业所需资源的可用节点,则在能够满足所述挂起状态作业所需资源的可用节点上运行所述挂起状态作业。本申请在作业进入挂起状态后,可以调整到其它可用节点上运行,从而实现了资源调度的优化,提高了资源利用率。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本发明实施例一的作业调度方法的流程示意图;
图2是本发明实施例一的作业调度方法的另一流程示意图;
图3是本发明实施例一的作业调度装置的结构示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
实施例一
如图1所示,本实施例提供一种作业调度方法,包括:
步骤S101、当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点;
步骤S102、如果存在能够满足所述挂起状态作业所需资源的可用节点,则在能够满足所述挂起状态作业所需资源的可用节点上运行所述挂起状态作业。
可选地,所述当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点可以包括:
当作业进入挂起状态后,将所述进入挂起状态的作业放入挂起作业队列;
按照挂起状态作业进入挂起作业队列的前后顺序,依次判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点。
可选地,如图2所示,所述方法还可以包括:
步骤S103、如果存在能够满足所述挂起状态作业所需资源的可用节点,则从所述挂起作业队列中删除所述挂起状态作业。
可选地,所述当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在所述挂起状态作业对应的可用节点还可以包括:
如果挂起作业队列不为空,则循环判断所述挂起作业队列中的挂起状态作业是否存在能够满足所述挂起状态作业所需资源的可用节点。
可选地,所述方法还可以包括:
步骤S104、如果存在能够满足所述挂起状态作业所需资源的可用节点,则将所述挂起状态作业挂起前配置的运行节点修改为所述可用节点。
通过上述技术方案,在作业进入挂起状态后,可以调整到其它可用节点上运行,无需等待高优先级分区作业运行完毕,从而实现了资源调度的优化,提高了资源利用率。
如图3所示,一种作业调度装置,包括:存储器和处理器;其特征在于:
所述存储器10,用于保存用于作业调度的程序;
所述处理器11,用于读取执行所述用于作业调度的程序,执行如下操作:
当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点;
如果存在能够满足所述挂起状态作业所需资源的可用节点,则在能够满足所述挂起状态作业所需资源的可用节点上运行所述挂起状态作业。
可选地,所述当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点可以包括:
当作业进入挂起状态后,将所述进入挂起状态的作业放入挂起作业队列;
按照挂起状态作业进入挂起作业队列的前后顺序,依次判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点。
可选地,所述处理器11,用于读取执行所述用于作业调度的程序,还可以执行如下操作:
如果存在能够满足所述挂起状态作业所需资源的可用节点,则从所述挂起作业队列中删除所述挂起状态作业。
可选地,所述当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在所述挂起状态作业对应的可用节点还可以包括:
如果挂起作业队列不为空,则循环判断所述挂起作业队列中的挂起状态作业是否存在能够满足所述挂起状态作业所需资源的可用节点。
可选地,所述处理器11,用于读取执行所述用于作业调度的程序,还可以执行如下操作:
如果存在能够满足所述挂起状态作业所需资源的可用节点,则将所述挂起状态作业挂起前配置的运行节点修改为所述可用节点。
通过上述技术方案,在作业进入挂起状态后,可以调整到其它可用节点上运行,无需等待高优先级分区作业运行完毕,从而实现了资源调度的优化,提高了资源利用率。
下面通过具体示例进一步说明本申请的作业调度方法。
该示例中,假设按照如下方式进行分区:
分区配置如下:
假设通过上述代码设置两个分区:hipri分区和active分区,hipri分区的优先级为2,active分区的优先级为1,hipri分区和active分区都建立在1-5 号节点之上。
job17,job 18,job 19首先运行在默认分区上即active分区上,假设job17 占用1号节点,job18占用2号节点,job19占用3号节点,active分区剩余4 号和5号两个节点。通常情况下,hipri分区并不关心自身的节点在低优先级分区中是否有任务运行,如果节点在hipri分区和比hipri优先级更高的分区中没有被占用,则直接参与调度,在进行调度的时候可以从n1,n2…顺序选择。
假设此时需要在hipri分区的1号至3号节点上运行job20,由于job20运行在hipri分区上,因此job20运行优先级高于job17,job18,job19,job20抢占低优先级分区作业的资源。
按照现有Slurm作业调度,job20抢占资源运行之后,job17,job18,job19 全部挂起,需要等待job20执行完毕后才能继续运行。job20执行完毕后,job17 仍然运行在1号节点,job18仍然运行在2号节点,job19仍然运行在3号节点。现有的作业调度中,低优先级分区作业被挂起后,需要等待高优先级分区作业运行完毕后可以继续运行,也就是说,对于任务所运行的节点在初始分配后就固定了,不能动态修改,即使当前分区有可用节点也无法被其它挂起状态作业使用,从而导致了资源的浪费。
而采用本申请的作业调度方法后,当job17,job18,job19全部挂起,无需等待job20执行完毕就可以继续运行。
下面通过几种场景,进一步说明本申请的作业调度方法:
场景一
假设设置两个分区:hipri分区和active分区,hipri分区的优先级为2,active 分区的优先级为1,hipri分区和active分区都建立在1-5号节点之上。
job17,job 18,job 19首先运行在默认分区上即active分区上,假设job17 占用1号节点,job18占用2号节点,job19占用3号节点,active分区剩余4 号和5号两个节点。假设此时需要在1号至3号节点上运行job20,由于job20 运行在hipri分区上,job20运行优先级高于job17,job18,job19,因此job20 抢占低优先级分区作业的资源。
当job20抢占job17,job18,job19的资源运行后,job17,job18,job19 全部挂起,job17,job18,job19全部进入挂起作业队列。假设job17,job18,job19进入挂起作业队列的先后顺序依次为job17,job18,job19。
当前挂起作业队列中的挂起状态作业包括job17,job18,job19,由于job17 最先进入挂起状态队列,因此先判断是否有能够满足job17所需资源的可用节点。
假设当前active分区剩余4号和5号两个节点,运行job17需要1个节点,因此,当前active分区中存在可以满足job17所需资源的可用节点,将job17 配置的运行节点修改为4号节点(或5号节点),job17在4号节点上运行, job17从挂起作业队列中删除。
接下来判断是否有能够满足job18所需资源的可用节点,具体方法同前述 job17,这样可以将job18配置的运行节点修改为5号节点,job18在5号节点上运行。job18从挂起作业队列中删除。需要说明的是,如果前述job17更新到4号节点运行,则此时,job18可以更新到5号节点运行;如果前述job17 更新到5号节点运行,则此时,job18可以更新到4号节点运行。
接下来继续判断是否有能够满足job19所需资源的可用节点。如果job17、 job18、job20都没有运行完毕,此时active分区中没有可用节点,这是active 分区中没有能够满足job19所需资源的可用节点,job19无法更新到其它节点上运行,对挂起作业队列中下一个挂起状态作业判断可用节点,job19继续留在挂起作业队列中等待循环判断。
场景二
假设设置两个分区:hipri分区和active分区,hipri分区的优先级为2,active 分区的优先级为1,hipri分区和active分区都建立在1-5号节点之上。
job17,job18,job19首先运行在默认分区上即active分区上,假设job17占用1和2号节点,job18占用3号节点,job19占用4号节点,active分区剩余 5号1个节点。假设此时需要在hipri分区的1号至3号节点上运行job20,由于job20运行在hipri分区上,job20运行优先级高于job17,job18,因此抢占低优先级分区作业的资源。
当job20抢占job17,job18的资源运行后,job17,job18全部挂起,job17, job18全部进入挂起作业队列。假设job17,job18进入挂起作业队列的先后顺序依次为job17,job18。
假设当前挂起作业队列中的挂起状态作业包括job17,job18,由于job17 最先进入挂起状态队列,因此先判断是否有能够满足job17所需资源的可用节点。
当前active分区剩余5号1个节点,运行job17需要2个节点,因此,当前active分区中不存在可以满足job17所需资源的可用节点,job17仍然无法运行,因此继续留在挂起作业队列中。接下来判断是否有能够满足job18所需资源的可用节点,当前active分区剩余5号1个节点,运行job18需要1个节点,因此,当前active分区中存在可以满足job18所需资源的可用节点,这样可以将job18配置的运行节点修改为5号节点,job18在5号节点上运行。job18 从挂起作业队列中删除。
通过上述示例可以看出,本申请作业的运行节点可以动态更新,当作业进入挂起状态后,可以在作业对应的分区中查找其它的可以满足挂起状态作业所需资源的可用节点,并将作业重新在查找到的可用节点上运行,从而提高了作业的运行效率以及资源利用率。
需要说明的是,在判断作业是否有可用节点时,是在该作业对应分区中判断是否有可用节点,例如,对于job17,其对应的分区是active分区,因此,只在active分区中查找是有满足job17所需资源的可用节点,而不是在hipri 分区中查找。
此外,挂起状态作业进入挂起作业队列后,如果挂起作业队列中已经有其它挂起状态作业排队等待可用节点,则按照进入挂起作业队列的先后顺序,先判断排队在前的挂起状态作业。
如果查询到有挂起状态作业对应的可用节点,则在该可用节点上运行对应的挂起状态作业,该挂起状态作业更新为运行状态,并从挂起作业队列中删除该挂起状态作业。如果不存在该挂起状态作业对应的可用节点,则对下一个挂起状态作业进行查询。挂起作业队列全部查询完毕后,则从挂起作业队列的队首重新开始以此查询。当被挂起作业队列不为空时,循环查找挂起状态作业对应的可用节点,当被挂起作业队列为空时,终止查询。
需要说明的是,上述示例是按照进入挂起作业队列的先后顺序,判断挂起状态作业是否有对应的可用节点,在其它示例中可以按照其它顺序或者规则进行判断。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质) 和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且包括任何信息递送介质。

Claims (10)

1.一种作业调度方法,其特征在于,所述方法包括:
当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点;
如果存在能够满足所述挂起状态作业所需资源的可用节点,则在能够满足所述挂起状态作业所需资源的可用节点上运行所述挂起状态作业。
2.根据权利要求1所述的作业调度方法,其特征在于,所述当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点包括:
当作业进入挂起状态后,将所述进入挂起状态的作业放入挂起作业队列;
按照挂起状态作业进入挂起作业队列的前后顺序,依次判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点。
3.根据权利要求2所述的作业调度方法,其特征在于,所述方法还包括:
如果存在能够满足所述挂起状态作业所需资源的可用节点,则从所述挂起作业队列中删除所述挂起状态作业。
4.根据权利要求3所述的作业调度方法,其特征在于,所述当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在所述挂起状态作业对应的可用节点还包括:
如果挂起作业队列不为空,则循环判断所述挂起作业队列中的挂起状态作业是否存在能够满足所述挂起状态作业所需资源的可用节点。
5.根据权利要求1至4任一所述的作业调度方法,其特征在于,所述方法还包括:
如果存在能够满足所述挂起状态作业所需资源的可用节点,则将所述挂起状态作业挂起前配置的运行节点修改为所述可用节点。
6.一种作业调度装置,所述装置包括:存储器和处理器;其特征在于:
所述存储器,用于保存用于作业调度的程序;
所述处理器,用于读取执行所述用于作业调度的程序,执行如下操作:
当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点;
如果存在能够满足所述挂起状态作业所需资源的可用节点,则在能够满足所述挂起状态作业所需资源的可用节点上运行所述挂起状态作业。
7.如权利要求6所述的作业调度装置,其特征在于,所述当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点包括:
当作业进入挂起状态后,将所述进入挂起状态的作业放入挂起作业队列;
按照挂起状态作业进入挂起作业队列的前后顺序,依次判断挂起状态作业所在分区中是否存在能够满足所述挂起状态作业所需资源的可用节点。
8.如权利要求7所述的作业调度装置,其特征在于,所述处理器,用于读取执行所述用于作业调度的程序,还执行如下操作:
如果存在能够满足所述挂起状态作业所需资源的可用节点,则从所述挂起作业队列中删除所述挂起状态作业。
9.如权利要求8所述的作业调度装置,其特征在于,所述当作业进入挂起状态后,判断挂起状态作业所在分区中是否存在所述挂起状态作业对应的可用节点还包括:
如果挂起作业队列不为空,则循环判断所述挂起作业队列中的挂起状态作业是否存在能够满足所述挂起状态作业所需资源的可用节点。
10.如权利要求7至9任一所述的作业调度装置,其特征在于,所述处理器,用于读取执行所述用于作业调度的程序,还执行如下操作:
如果存在能够满足所述挂起状态作业所需资源的可用节点,则将所述挂起状态作业挂起前配置的运行节点修改为所述可用节点。
CN201910564130.0A 2019-06-25 2019-06-25 一种作业调度方法及装置 Pending CN110362403A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910564130.0A CN110362403A (zh) 2019-06-25 2019-06-25 一种作业调度方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910564130.0A CN110362403A (zh) 2019-06-25 2019-06-25 一种作业调度方法及装置

Publications (1)

Publication Number Publication Date
CN110362403A true CN110362403A (zh) 2019-10-22

Family

ID=68217158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910564130.0A Pending CN110362403A (zh) 2019-06-25 2019-06-25 一种作业调度方法及装置

Country Status (1)

Country Link
CN (1) CN110362403A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102027452A (zh) * 2008-05-16 2011-04-20 微软公司 调度器中的调度集合
CN102902592A (zh) * 2012-09-10 2013-01-30 曙光信息产业(北京)有限公司 一种集群计算资源的分区调度管理方法
US20160103708A1 (en) * 2014-10-09 2016-04-14 Profoundis Labs Pvt Ltd System and method for task execution in data processing
CN105718312A (zh) * 2016-01-20 2016-06-29 华南理工大学 面向生物基因测序计算任务的多队列回填作业调度方法
CN109656716A (zh) * 2018-12-13 2019-04-19 郑州云海信息技术有限公司 一种Slurm作业调度方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102027452A (zh) * 2008-05-16 2011-04-20 微软公司 调度器中的调度集合
CN102902592A (zh) * 2012-09-10 2013-01-30 曙光信息产业(北京)有限公司 一种集群计算资源的分区调度管理方法
US20160103708A1 (en) * 2014-10-09 2016-04-14 Profoundis Labs Pvt Ltd System and method for task execution in data processing
CN105718312A (zh) * 2016-01-20 2016-06-29 华南理工大学 面向生物基因测序计算任务的多队列回填作业调度方法
CN109656716A (zh) * 2018-12-13 2019-04-19 郑州云海信息技术有限公司 一种Slurm作业调度方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
夏靖波,等主编;: "《嵌入式系统原理与开发 (第3版)2017年8月第1版》", 31 August 2017, 西安电子科技大学出版社 *

Similar Documents

Publication Publication Date Title
US10003500B2 (en) Systems and methods for resource sharing between two resource allocation systems
US7370326B2 (en) Prerequisite-based scheduler
US7546406B2 (en) Virtualization of a global interrupt queue
EP2300910B1 (en) Scheduler instances in a process
CN106933669B (zh) 用于数据处理的装置和方法
EP0969382A2 (en) Method for efficient non-virtual main memory management
EP1536335A2 (en) Intelligent scheduler for multi-level exhaustive scheduling of tasks
US20090083746A1 (en) Method for job management of computer system
US11347546B2 (en) Task scheduling method and device, and computer storage medium
CN102081557A (zh) 云计算操作系统中资源管理方法及系统
Jiang et al. Symbiosis: Network-aware task scheduling in data-parallel frameworks
CN114168271B (zh) 一种任务调度方法、电子设备及存储介质
JP2023532358A (ja) リソーススケジューリング方法、リソーススケジューリングシステム、及び機器
US10761904B2 (en) Method and system for synchronizing and joining multiple calls to the same asynchronous code segment
JP2004213628A (ja) リソース・コンテンションを管理するための方法および装置
CN112925616A (zh) 任务分配方法、装置、存储介质及电子设备
JPH0628323A (ja) プロセス実行制御方法
CN110362403A (zh) 一种作业调度方法及装置
CN109032674B (zh) 一种多进程管理方法、系统及网络设备
US9437299B2 (en) Systems and methods for order scope transitions using cam
CN110308914A (zh) 升级处理方法、装置、设备、系统及计算机可读存储介质
CN113254143B (zh) 虚拟化网络功能网元编排调度方法、装置和系统
US20230418667A1 (en) Computing device for handling tasks in a multi-core processor, and method for operating computing device
JPH11249917A (ja) 並列型計算機及びそのバッチ処理方法及び記録媒体
CN115904673B (zh) 云计算资源并发调度方法、装置、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191022

RJ01 Rejection of invention patent application after publication