CN115080199A - 任务调度方法、系统、设备、存储介质及程序产品 - Google Patents

任务调度方法、系统、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN115080199A
CN115080199A CN202110280277.4A CN202110280277A CN115080199A CN 115080199 A CN115080199 A CN 115080199A CN 202110280277 A CN202110280277 A CN 202110280277A CN 115080199 A CN115080199 A CN 115080199A
Authority
CN
China
Prior art keywords
task
shared storage
storage device
service cluster
task flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110280277.4A
Other languages
English (en)
Inventor
陈亮
耿绪博
刘海清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110280277.4A priority Critical patent/CN115080199A/zh
Publication of CN115080199A publication Critical patent/CN115080199A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/544Buffers; Shared memory; Pipes

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了任务调度方法、系统、设备、存储介质及程序产品,涉及分布式系统领域。该方法应用于任务调度系统,任务调度系统包括服务集群和共享存储设备,该方法包括:服务集群中的第一设备从共享存储设备中确定与第一设备对应的第一任务流的标识;第一设备根据标识从共享存储设备中获取第一任务流的任务的运行状态,并根据第一任务流的任务的运行状态处理第一任务流的任务调度。该方法提高了任务调度系统的可扩展性。

Description

任务调度方法、系统、设备、存储介质及程序产品
技术领域
本申请实施例涉及计算机技术,尤其涉及一种任务调度方法、系统、设备、存储介质及程序产品,可用于分布式系统领域。
背景技术
在计算机系统中,一项工作通常通过很多独立的进程完成,每个进程有特定的处理逻辑,这里的进程可称为任务。多个任务之间通常存在着依赖关系,例如,要执行数据加工任务需要等待数据准备任务完成,因此,需要利用调度系统对任务进行合理调度来保证所有任务能够有序、正确、高效地完成。
相关技术中通常采用中心式调度架构进行任务调度,即在系统中只存在一个调度实例,系统中所有任务的执行以及任务的运行状态等均由该调度实例处理,可扩展性较差。
发明内容
本申请提供了一种用于提高任务调度可扩展性的任务调度方法、系统、设备、存储介质及程序产品。
根据本申请的一方面,提供了一种任务调度方法,应用于任务调度系统,所述任务调度系统包括服务集群和共享存储设备,所述方法包括:
所述服务集群中的第一设备从所述共享存储设备中确定与所述第一设备对应的第一任务流的标识;
所述第一设备根据所述标识从所述共享存储设备中获取所述第一任务流的任务的运行状态,并根据所述第一任务流的任务的运行状态处理所述第一任务流的任务调度。
根据本申请的另一方面,提供了一种任务调度系统,包括:服务集群和共享存储设备;
所述共享存储设备用于存储任务的运行状态;
所述服务集群中的多个设备分别用于根据所述共享存储设备中的任务的运行状态处理任务调度。
根据本申请的再一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的方法。
根据本申请的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述第一方面所述的方法。
根据本申请的又一方面,提供了一种计算机程序产品,所述程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
根据本申请的技术方案,提高了任务调度系统的可扩展性。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例提供的任务流的示意图;
图2是根据本申请实施例提供的中心式调度架构的示意图;
图3是根据本申请实施例提供的双层调度架构的示意图;
图4是根据本申请实施例提供的任务调度系统的结构示意图;
图5是根据本申请实施例提供的任务调度系统的部署示意图;
图6是根据本申请实施例提供的共享存储设备的存储目录示意图;
图7是根据本申请实施例提供的任务调度方法的流程示意图;
图8是用来实现本申请实施例的任务调度方法的电子设备的示意性框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在任务调度系统中,任务及任务之间的依赖关系可以抽象为有向无环图(Directed Acyclic Graph,DAG),示例的,如图1所示,通常将一组相关的任务抽象为一个DAG,DAG中的每个节点是需要执行的任务,有向边代表任务和任务之间的依赖关系。采用DAG描述一个需要调度的任务流。任务调度系统的功能就是让任务在合适的时间,以合适的方式,在适合的机器上执行,并能够维护任务执行中间状态和结果。
中心式调度架构指的是使用中心化的方式进行任务调度,在系统中只存在单个调度实例,所有的请求和任务调度都需要通过这一个实例进行。如图2中所示即为中心式调度架构的一种应用场景示意图。这种中心式调度架构方案中,所有任务的编制、触发、调度算法、任务的运行状态等都由中心调度器管理,可扩展性较差,中心调度器容易成为分布式系统吞吐量的瓶颈。
为了减少中心调度器的性能压力,可以考虑采用分区的方式来解决这一问题,借助分区的思想产生了一种双层调度架构,如图3所示即为双层调度架构的一种应用场景示意图。在这种双层调度方案中,上层的中心调度器只负责管理分区调度器,而具体的任务调度和状态管理由各个分区调度器进行处理。
在双层调度架构中,由于中心调度器只负责分区调度器的管理,分区调度器负责一部分任务的调度管理,并且可以通过增加分区的方式一定程度上解决可扩展性的问题。但是,这种方案额外增加了状态信息一致性的难度,并且当分区规模进一步增大时,中心调度器的不可扩展的问题仍然存在,仍然会成为系统的性能瓶颈。
通过上述的介绍可以看出,在采用中心调度器的任务调度系统中,中心调度器可扩展性差的问题不能从根本上解决。为此,本申请实施例中考虑采用去中心化的方式来构建任务调度系统,在保证任务调度过程中需要的状态信息的一致性的基础上,利用服务集群来解决任务调度系统的可扩展性问题。在本申请实施例中,将任务调度过程中的状态信息和任务调度所需要的各项服务功能分离开,通过统一的共享存储设备来存储状态信息,另外,将任务调度所需的各个服务功能独立为服务集群,这些服务集群是无状态的,通过从共享存储设备中获取状态信息来进行任务调度。由于状态信息统一存储在共享存储设备中,所以自然保证了状态一致性问题,而服务集群所实现的任务调度的服务功能由于是无状态的,因此集群可以随时进行扩缩容,保证了可扩展性。
下面,将通过具体的实施例对本申请提供的任务调度方法和任务调度系统进行详细地说明。可以理解的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图4是根据本申请实施例提供的任务调度系统的结构示意图。如图4中所示,任务调度系统包括:服务集群和共享存储设备。
其中,共享存储设备用于存储任务的运行状态;服务集群中的多个设备分别用于根据共享存储设备中的任务的运行状态处理任务调度。
服务集群中的多个设备上部署的服务用于实现任务调度系统需要实现的各种能力。示例的,任务调度系统在执行任务调度过程需要的能力主要包括:
任务编排能力:用户可以自行设定要执行的任务流,并配置各个任务的具体信息。
各类任务执行能力:服务集群需要启动各个任务,支持多种类型的任务。
任务依赖文件管理能力:每个任务的执行过程可能需要不同的资源文件,例如java任务启动需要jvm环境,服务集群需要对任务依赖的文件进行管理。
多种任务流触发能力:通常调度通过定时触发,也有人工和事件的触发方式,服务集群需要指出多种触发方式。
任务流推进能力:按照任务流推进任务启动,并根据任务运行状态执行相应调度策略,例如对于执行出错任务的处理、并行任务处理、任务冲突处理等。
任务流控制能力:例如重启、停止、暂停、恢复任务流的能力。
历史任务流的查看和分析能力以及正在运行的任务流的监控和日志能力。
告警信息的处理和通知发送能力。
故障转移能力。
集群各节点状态监控和控制,自动和手动的扩缩容能力。
上述所实例的各种能力可以分别以独立的无状态服务部署在服务集群上。由于任务执行所需要的状态是统一存储在共享存储设备中的,所以自然的保证了状态一致性。而由于服务集群中实现任务调度功能的各项服务是无状态的,各服务通过共享存储设备获取状态信息,进行执行任务调度,因此集群中的各个节点可以随时扩缩容,增加或减少服务集群中的节点不会对当前的任务调度和任务执行产生影响,保证了可扩展性。
在上述实施例的基础上,结合服务集群中各设备的具体服务能力对本申请实施例的任务调度系统进行说明。
可选的,服务集群包括第一设备;共享存储设备还用于存储服务集群中的多个设备与对应的任务流之间的对应关系;第一设备用于从共享存储设备中确定与第一设备对应的第一任务流以及第一任务流的任务的运行状态,并根据第一任务流的任务的运行状态处理第一任务流的任务调度。
可选的,服务集群还包括第二设备和第三设备;共享存储设备还用于存储服务集群中每个设备的状态;第三设备用于从共享存储设备中获取第一设备的状态,并在第一设备处于异常状态时,将共享存储设备中与第一设备对应的第一任务流修改至与第二设备对应。
可选的,服务集群包括第四设备;第四设备用于确定服务集群中的多个设备与对应的任务流之间的对应关系,并将对应关系存储至共享存储设备。
可选的,共享存储设备用于接收任务执行器上报的任务的运行状态,并分别存储每个任务流的任务的运行状态。
可选的,服务集群包括第五设备;第五设备用于接收用户输入的第一任务流的每个任务的配置信息,并将配置信息存储至共享存储设备中;第一设备用于在启动第一任务流中的第一任务时,从共享存储设备中获取第一任务的配置信息并将第一任务的配置信息存储至缓存中。
为便于说明,结合图5所示意的任务调度系统的部署示意图,对上述服务集群中各设备实现的功能进行说明。按照前述实施例中对任务调度系统在执行任务调度过程需要的能力的介绍,可以将这些能力划分为不同的服务模块并分别进行部署,图5仅为其中一种示例。如图5所示,将服务集群的服务能力分为8个部分,其中,控制台(console)和管理(admin)是具有可视化能力的web服务,触发器(trigger)、监控器(monitor)、事件处理器(event-handler)、调度服务器(server)、数据仓库(repository)、代理(agent)是后台服务,各服务可以分别部署在一个或多个节点上,由于服务自身是无状态的,服务节点可以支持无损扩缩容。
其中,console用于编制和配置任务、设定任务调度、查看日志、分析历史等,可以通过console服务提供的web页面建立和管理自己的任务和调度;admin用于查看集群中各节点的状态以及管理节点,admin主要服务于调度系统管理员;trigger用于管理在console中编制的定时调度或由接口产生的触发事件,将一次任务流的执行启动起来;server负责任务流的管理,基于任务状态推动任务执行,并按照策略处理冲突、错误、超时等事件,并响应对任务流的控制信号;monitor用于在服务节点出现问题的时候,将任务状态从故障节点转移到其他活动节点,保证服务集群的自动故障恢复能力;event-handler用于处理集群系统或任务流执行过程中的事件(例如任务执行失败、执行超时等),并插入事件消费模块,从而通过事件驱动告警、通知、分析等能力;repository是任务执行依赖的文件管理仓库,用于完成资源文件的下发;agent和任务执行器部署在一起,监控任务的执行进程,并和其他服务集群中的节点通信。
共享存储设备中所存储的信息可以包括3类信息。具体如下:
1、任务的元数据:是对任务和调度策略的配置信息,可以由用户在console服务提供的web页面上创建和更新,用于在任务运行中指引任务按照配置的方式触发运行。任务的元数据存储在数据库中,由console服务负责管理。
需要说明的是,为了保证任务正常运行,在任务运行过程中,任务的元数据是不变的,因此在处理运行中的任务时不能直接从存储元数据的数据库中获取元数据,而是在任务调度启动时,从数据库中拷贝一份元数据副本,并将其存储在缓存中。处理任务调度的服务节点都从缓存中获取元数据,保证静态配置和运行中的配置相互隔离,避免任务执行过程中元数据被修改,而导致任务执行错误或失败等。
2、分布式系统中各节点的状态:是对分布式系统中各节点的描述(例如存活状态、资源使用情况等),包括服务集群中的节点以及任务执行器节点(工作节点)。通过各节点的状态,可以完成服务节点及工作节点的管理,例如控制节点启停或分发等,示例的,在对server节点进行升级时,可以控制部分server节点停止运行,已对其进行升级,该部分server节点管理的任务流可以切换至其他server节点,或者等待这些任务流执行完成后,trigger节点不再向这部分server节点分配任务流,从而实现分批次升级而不影响任务调度。还可以根据节点的资源使用状况,基于负载更加合理的分发调度或任务,例如trigger节点根据server节点的资源使用情况,确定哪个任务流分配至哪个server节点,server节点根据任务执行器的资源使用情况,确定哪个任务由哪个任务执行器执行。
3、任务的运行状态:部署在任务执行器上的agent可以根据任务执行情况向共享存储设备上报任务运行状态,server节点可以根据任务的运行状态进行调度管理。
需要说明的是,共享存储设备除了可以采用数据库这种共享存储外,还可以是一个具备快速响应能力(支持缓存能力)、有一定存储空间(运行中状态,无需过大存储空间),且能够对状态变化发出信号(支持状态变化的通信)的共享存储中,例如zookeeper,etcd等,本申请实施例对其不做具体限定。
示例的,如图6所示,在共享存储中,每个运行中任务流的状态独立存储,可以由agent进行修改,如图6中所示在executions目录下存储了任务流e1、任务流e2、任务流e3、任务流e4的状态;servers目录下注册了所有的server节点,并在每个server下维护了其管理的所有运行中的任务流的标识(或索引),如图6中所示的,servers目录下维护了servers1以及对应的任务流e1、任务流e2,server s2以及对应的任务流e3和任务流e4。agent修改任务状态时无需通过server节点处理,而是直接将任务流中的任务状态进行修改,server关注到状态变化就可以按照调度逻辑处理调度流程。在heartbeat目录下存储了所有节点的状态,例如server s1、server s2、agent a1、agent a2,以及其他节点node n1、node n2。server故障转移时,只需要转移任务流的标识(或索引)即可,对agent和运行状态没有影响,从而保证在故障时可以随意调整任务管理节点而对任务执行没有任何影响,达到共享状态,无状态服务支撑的分布式调度系统。
参照图5对服务能力的划分,上述第一设备可以为图5中所示意的一个server节点,第一设备用于管理与其对应的一部分任务流。第一设备与任务流的对应关系存储在共享存储设备中,具体的,共享存储设备中可以存储设备与任务流的标识之间的对应关系。第一设备通过共享存储设备获取与其对应的第一任务流,并且根据第一任务流的任务的运行状态对第一任务流进行调度管理。
第二设备也可以为图5中所示意的一个server节点,第二设备用于管理与其对应的一部分任务流,共享存储设备中存储了第二设备及其对应的任务流的对应关系。第三设备可以为图5中所示意的monitor节点,用于进行节点监控和故障转移。示例的,第一设备和第二设备均管理各自对应的任务流的调度管理。第一设备和第二设备向共享存储设备上报自身的状态,例如,存活状态、资源使用情况等。假设第一设备出现故障,第三设备通过共享存储设备监控到第一设备异常,则第三设备将共享存储设备中第一设备对应的第一任务流修改至与第二设备对应,即在共享存储设备中,第一任务流与第二设备对应,从而,第二设备能够从共享存储设备中获取到自身对应的第一任务流,并获取第一任务流的任务的运行状态,以对第一任务流进行调度管理,从而实现了故障转移,且对任务的执行没有任何影响。
第四设备可以为图5所示意的一个trigger节点。第四节点可以根据每个设备(每个server节点)的状态,确定各设备对应的任务流,例如根据资源使用情况对任务流进行分配,确定各任务流由哪个设备进行调度管理,并将设备与任务流的对应关系存储至共享存储设备,实现了任务流的独立管理,便于进行故障转移和节点扩缩容。
第五设备可以为图5所示意的一个console节点。console节点提供web页面,用户可以在web页面上配置任务流以及任务,用户输入的配置信息即为任务的元数据,可以存储至共享存储设备中。Server节点启动任务时,从共享存储设备中获取任务的元数据并防止在缓冲中,从而后续任务运行过程中从缓冲中获取元数据,避免任务运行过程中元数据被修改而导致运行错误或失败。
基于上述实施例中的任务调度系统,本申请实施例还提供一种任务调度方法。图7是根据本申请实施例提供的任务调度方法的流程示意图。如图7所示,该任务调度方法包括:
S701、服务集群中的第一设备从共享存储设备中确定与第一设备对应的第一任务流的标识。
S702、第一设备根据标识从共享存储设备中获取第一任务流的任务的运行状态,并根据第一任务流的任务的运行状态处理第一任务流的任务调度。
示例的,本申请实施例中的第一设备为上述图5所示的一个server节点,该第一设备与第一任务流的标识的对应关系存储在共享存储设备中,第一设备通过共享存储设备获取与其对应的第一任务流,再根据第一任务流的标识确定第一任务流的任务的运行状态,从而对第一任务流进行调度管理,其实现原理和技术效果与上述任务调度系统实施例中的陈述类似。由于状态信息由共享存储设备管理,设备与任务流的关系也由共享存储设备管理,因此,服务集群中的第一设备的数量可以根据需要设置,例如在任务调度任务较多时,可以扩展第一设备的数量,从而提高任务调度系统的性能。
可选的,该方法还包括:
服务集群中的第三设备从共享存储设备中获取服务集群中每个设备的状态,每个设备的状态由每个设备上报至共享存储设备;若第三设备确定第一设备处于异常状态,则第三设备将共享存储设备中与第一设备对应的第一任务流的标识修改至与第二设备对应。
可选的,该方法还包括:
服务集群中的第四设备确定与第一设备对应的任务流的标识,并将第一设备与任务流的标识之间的对应关系存储至共享存储设备。
可选的,该方法还包括:
共享存储设备接收任务执行器上报的任务的运行状态,并分别存储每个任务流的任务的运行状态。
可选的,该方法还包括:
服务集群中的第五设备接收用户输入的第一任务流的每个任务的配置信息,并将配置信息存储至共享存储设备中;第一设备在启动第一任务流中的第一任务时,从共享存储设备中获取第一任务的配置信息并将第一任务的配置信息存储至缓存中。
本申请方法实施例中的上述服务集群中的各设备所实现的上述方法与前述任务调度系统实施例中的陈述类似,此处不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和存储有计算机指令的非瞬时计算机可读存储介质。
根据本申请的实施例,本申请还提供了一种计算机程序产品,程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图8是用来实现本申请实施例的任务调度方法的电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如任务调度方法。例如,在一些实施例中,任务调度方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的任务调度方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行任务调度方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (14)

1.一种任务调度方法,应用于任务调度系统,所述任务调度系统包括服务集群和共享存储设备,所述方法包括:
所述服务集群中的第一设备从所述共享存储设备中确定与所述第一设备对应的第一任务流的标识;
所述第一设备根据所述标识从所述共享存储设备中获取所述第一任务流的任务的运行状态,并根据所述第一任务流的任务的运行状态处理所述第一任务流的任务调度。
2.根据权利要求1所述的方法,还包括:
所述服务集群中的第三设备从所述共享存储设备中获取所述服务集群中每个设备的状态,所述每个设备的状态由所述每个设备上报至所述共享存储设备;
若所述第三设备确定所述第一设备处于异常状态,则所述第三设备将所述共享存储设备中与所述第一设备对应的第一任务流的标识修改至与第二设备对应。
3.根据权利要求1所述的方法,还包括:
所述服务集群中的第四设备确定与所述第一设备对应的任务流的标识,并将所述第一设备与任务流的标识之间的对应关系存储至所述共享存储设备。
4.根据权利要求1所述的方法,还包括:
所述共享存储设备接收任务执行器上报的任务的运行状态,并分别存储每个任务流的任务的运行状态。
5.根据权利要求1所述的方法,还包括:
所述服务集群中的第五设备接收用户输入的所述第一任务流的每个任务的配置信息,并将所述配置信息存储至所述共享存储设备中;
所述第一设备在启动所述第一任务流中的第一任务时,从所述共享存储设备中获取所述第一任务的配置信息并将第一任务的配置信息存储至缓存中。
6.一种任务调度系统,包括:服务集群和共享存储设备;
所述共享存储设备用于存储任务的运行状态;
所述服务集群中的多个设备分别用于根据所述共享存储设备中的任务的运行状态处理任务调度。
7.根据权利要求6所述的系统,所述服务集群包括第一设备;所述共享存储设备还用于存储所述服务集群中的多个设备与对应的任务流之间的对应关系;
所述第一设备用于从所述共享存储设备中确定与所述第一设备对应的第一任务流以及所述第一任务流的任务的运行状态,并根据所述第一任务流的任务的运行状态处理所述第一任务流的任务调度。
8.根据权利要求7所述的系统,所述服务集群还包括第二设备和第三设备;所述共享存储设备还用于存储所述服务集群中每个设备的状态;
所述第三设备用于从所述共享存储设备中获取所述第一设备的状态,并在所述第一设备处于异常状态时,将所述共享存储设备中与所述第一设备对应的第一任务流修改至与所述第二设备对应。
9.根据权利要求7所述的系统,所述服务集群包括第四设备;
所述第四设备用于确定所述服务集群中的多个设备与对应的任务流之间的对应关系,并将所述对应关系存储至所述共享存储设备。
10.根据权利要求7所述的系统,所述共享存储设备用于接收任务执行器上报的任务的运行状态,并分别存储每个任务流的任务的运行状态。
11.根据权利要求7所述的系统,所述服务集群包括第五设备;
所述第五设备用于接收用户输入的所述第一任务流的每个任务的配置信息,并将所述配置信息存储至所述共享存储设备中;
所述第一设备用于在启动所述第一任务流中的第一任务时,从所述共享存储设备中获取所述第一任务的配置信息并将第一任务的配置信息存储至缓存中。
12.一种电子设备,包括:
至少一个处理器;以及与至少一个处理器通信连接的存储器;
其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行权利要求1-5中任一项的方法。
13.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
14.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的方法。
CN202110280277.4A 2021-03-16 2021-03-16 任务调度方法、系统、设备、存储介质及程序产品 Pending CN115080199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110280277.4A CN115080199A (zh) 2021-03-16 2021-03-16 任务调度方法、系统、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110280277.4A CN115080199A (zh) 2021-03-16 2021-03-16 任务调度方法、系统、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN115080199A true CN115080199A (zh) 2022-09-20

Family

ID=83246008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110280277.4A Pending CN115080199A (zh) 2021-03-16 2021-03-16 任务调度方法、系统、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN115080199A (zh)

Similar Documents

Publication Publication Date Title
US11108859B2 (en) Intelligent backup and recovery of cloud computing environment
US10509680B2 (en) Methods, systems and apparatus to perform a workflow in a software defined data center
CA3168286A1 (en) Data flow processing method and system
EP3567829B1 (en) Resource management method and apparatus
US7779298B2 (en) Distributed job manager recovery
US9483314B2 (en) Systems and methods for fault tolerant batch processing in a virtual environment
US20170318091A1 (en) System, device and process for dynamic tenant structure adjustment in a distributed resource management system
CN107016480B (zh) 任务调度方法、装置及系统
US9189381B2 (en) Managing CPU resources for high availability micro-partitions
US20210117219A1 (en) Service Provision System, Resource Allocation Method, and Resource Allocation Program
CN113569987A (zh) 模型训练方法和装置
US9244825B2 (en) Managing CPU resources for high availability micro-partitions
US9158470B2 (en) Managing CPU resources for high availability micro-partitions
CN113886089A (zh) 一种任务处理方法、装置、系统、设备及介质
CN111857951A (zh) 容器化部署平台及部署方法
EP3591530B1 (en) Intelligent backup and recovery of cloud computing environment
US8788601B2 (en) Rapid notification system
CN111767126A (zh) 分布式批量处理的系统和方法
US8806500B2 (en) Dynamically setting the automation behavior of resources
CN111767122A (zh) 分布式任务调度管理方法和装置
CN114416276A (zh) 设备管理服务的调度方法、装置、电子设备及存储介质
CN115080199A (zh) 任务调度方法、系统、设备、存储介质及程序产品
CN115599507A (zh) 数据处理方法、执行工作站、电子设备和存储介质
Bekas et al. Cross-layer management of a containerized NoSQL data store
US11687269B2 (en) Determining data copy resources

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination