CN115237566A - 批量任务执行方法、装置、设备、介质及产品 - Google Patents

批量任务执行方法、装置、设备、介质及产品 Download PDF

Info

Publication number
CN115237566A
CN115237566A CN202210891932.4A CN202210891932A CN115237566A CN 115237566 A CN115237566 A CN 115237566A CN 202210891932 A CN202210891932 A CN 202210891932A CN 115237566 A CN115237566 A CN 115237566A
Authority
CN
China
Prior art keywords
target
task
batch
execution
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210891932.4A
Other languages
English (en)
Inventor
周杰
李斌
张文哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210891932.4A priority Critical patent/CN115237566A/zh
Publication of CN115237566A publication Critical patent/CN115237566A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供了批量任务执行方法、装置、设备、介质及产品,涉及数据处理领域,尤其涉及自动驾驶技术领域。具体实现方案为:接收用户提交的批量任务;根据预先登记的集群资源信息,为批量任务分配目标集群和附加集群;其中,批量任务在附加集群中的执行优先级低于附加集群中的原始批量任务,原始批量任务为将附加集群作为目标集群分配的批量任务;获取目标集群对所述批量任务中目标任务执行时生成的执行数据信息,或,获取目标集群和附加集群对批量任务中目标任务执行时生成的执行数据信息,根据执行数据信息对批量任务的执行进行监控管理。本公开的方案提高批量任务的执行效率,实现了对集群全局资源的充分调度和利用。

Description

批量任务执行方法、装置、设备、介质及产品
技术领域
本公开涉及数据处理领域,尤其涉及自动驾驶技术领域,具体涉及一种批量任务执行方法、装置、设备、介质及产品。
背景技术
随着自动驾驶业务规模的不断扩大,在不同类型的应用场景中均会用到大量的计算需求,不同类型的应用场景包括预测规划算法验证、感知推理、数据处理,场景分析,数据挖掘以及地图构建等。在各应用场景中存在的大量批量计算工作,给集群调度任务带来了很大的压力。
发明内容
本公开提供了一种用于批量任务执行方法、装置、设备、介质及产品。
根据本公开的一方面,提供了批量任务执行方法,包括:
接收用户提交的批量任务;其中,所述批量任务中包括至少两个目标任务;
根据预先登记的集群资源信息,为所述批量任务分配目标集群和附加集群;其中,所述批量任务在所述附加集群中的执行优先级低于所述附加集群中的原始批量任务,所述原始批量任务为将所述附加集群作为目标集群分配的批量任务;
获取所述目标集群对所述批量任务中目标任务执行时生成的执行数据信息,或,获取所述目标集群和所述附加集群对所述批量任务中目标任务执行时生成的执行数据信息,根据所述执行数据信息对所述批量任务的执行进行监控管理。
根据本公开的另一方面,提供了一种批量任务执行装置,包括:
任务接收模块,用于接收用户提交的批量任务;其中,所述批量任务中包括至少两个目标任务;
集群分配模块,用于根据预先登记的集群资源信息,为所述批量任务分配目标集群和附加集群;其中,所述批量任务在所述附加集群中的执行优先级低于所述附加集群中的原始批量任务,所述原始批量任务为将所述附加集群作为目标集群分配的批量任务;
任务执行管理模块,用于获取所述目标集群对所述批量任务中目标任务执行时生成的执行数据信息,或,获取所述目标集群和所述附加集群对所述批量任务中目标任务执行时生成的执行数据信息,根据所述执行数据信息对所述批量任务的执行进行监控管理。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开中任一实施例所述的批量任务执行方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开中任一实施例所述的批量任务执行方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开中任一实施例所述的批量任务执行方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的一种批量任务执行方法的示意图;
图2是根据本公开实施例的目标集群和附加集群的分配示意图;
图3是根据本公开实施例的另一种批量任务执行方法的示意图;
图4是根据本公开实施例的又一种批量任务执行方法的示意图;
图5是根据本公开实施例的又一种批量任务执行方法的示意图;
图6是根据本公开实施例的又一种批量任务执行方法的示意图;
图7是根据本公开实施例的一种批量任务执行系统的结构示意图;
图8是批量任务调度示意图;
图9是目标任务的运行周期示意图;
图10是在单个容器内对目标任务的执行流程图;
图11是监控与回收模块对运行完成的目标任务的处理流程示意图;
图12是目标任务的超时或长尾处理流程;
图13是报告与统计模块执行示意图;
图14是根据本公开实施例的一种批量任务执行装置的结构示意图;
图15是用来实现本公开实施例的批量任务执行方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例的一种批量任务执行方法的示意图,本实施例可适用于对批量任务执行方式进行优化的情况,该方法可以通过批量任务执行装置执行,该装置可以通过软件和/或硬件的方式实现,并集成在电子设备中;本实施例中涉及到的电子设备可以为等本地服务器等具有通信和计算能力的设备。具体的,参考图1,该方法具体包括如下:
S110、接收用户提交的批量任务;其中,批量任务中包括至少两个目标任务。
其中,批量任务是指针对不同应用场景将具有相同计算任务进行汇总的综合性计算任务,目标任务是指在各应用场景下的计算任务。在本实施例的另一个可选实现方式中,在对自动驾驶算法进行仿真验证时,用户提交的批量任务为算法验证任务,目标任务为在不同地图下的算法验证任务。示例性的,自动驾驶算法可以是预测算法、定位算法或PNC算法(Planning and Control,规划与控制)等。当然除了对自动驾驶中的算法验证进批量计算,本实施例中的批量任务也适用于其他批量计算任务。
具体的,用户在自动驾驶模拟仿真云平台上,在需要为自动驾驶定位算法进行验证时,基于定位算法创建一个批量任务,该批量任务中包括在不同道路上的定位算法验证,每个道路上的定位算法验证为一个目标任务,为了保证算法验证结果的正确性,需要在多条道路上进行仿真验证。示例性的,用户可以通过多种方式提交批量任务,例如,通过HTTPAPI、或者UI界面(User Interface,用户界面)或者通过linux系统进行提交,对提交方式并不限制。
由于在自动驾驶算法验证下具有大量的批量计算工作量,因此基于本实施例方法对算法验证任务进行批量计算有利于提高批量计算的效率,并且能够支持各种批量任务的稳定运行。
S120、根据预先登记的集群资源信息,为批量任务分配目标集群和附加集群;其中,批量任务在附加集群中的执行优先级低于附加集群中的原始批量任务,原始批量任务为将附加集群作为目标集群分配的批量任务。
其中,预先登记的集群可以分布在不同的地域,集群资源信息用于对该集群的计算能力进行表征,例如集群资源信息包括了该集群中所包括的物理机器的数量,以及配置信息,如CPU和内存信息等。目标集群是指不具有执行条件直接对分配的批量任务进行执行的集群;附加集群是指当满足一定的执行条件后对分配的批量任务进行执行的集群。执行优先级用于对一个集群中的任务执行的先后顺序进行表征。
具体的,预先确定每个物理集群的详细参数配置信息,根据该参数配置信息为目标任务确定至少一个目标集群和至少一个附加集群,目标集群和附加集群的数量可以根据该批量任务的任务数量以及集群的配置信息进行确定,在此不作限定。当为批量任务确定目标集群后,目标集群为该批量任务分配队列资源信息,即确定在集群队列中为该批量任务分配的资源组织单位,当该集群对该批量任务进行执行时,对应分配的资源组织单位会去获取该批量任务中相应的目标任务进行执行。另外,同一个批量任务被分配多个集群队列中时,在各队列中的执行优先级可以根据队列资源情况自定义分配的资源组织单位大小以及执行优先级。
由于集群中资源信息的不对等以及各批量任务的任务数量不一致,导致不同集群队列上所需执行的目标任务数量不一致,容易出现包含目标任务少的批量任务所在资源队列资源闲置,而包含目标任务多的批量任务所在资源队列排队严重的情况,为了避免部分集群资源闲置的情况,本实施例在为批量任务分配集群资源时,除了分配目标集群,还需要分配附加集群,附加集群即是在对本集群内原始分配的批量任务执行完成时,使用空闲集群资源对批量任务进行执行,以提高批量任务的执行效率,且避免集群空闲资源的浪费。
示例性的,每个批量任务可以由多个集群队列进行运行,多个集群队列中包括至少一个目标集群队列和至少一个附加集群队列,当各集群队列在接收到批量任务后,为该批量任务分配资源组织单位,目标集群队列上的资源组织单位直接根据批量任务对应的执行优先级为该批量任务分配容器,由容器对批量任务中的目标任务进行执行,容器为在集群中负责执行每个目标任务的虚拟化环境。附加集群上的资源组织单位在执行完将该集群作为目标集群的批量任务后,若此时该批量任务中的目标任务尚未执行完毕,则附加集群中的附加资源组织单位会为该批量任务分配容器,对该批量任务进行执行,以加速该批量任务的运行完成。如图2所示为目标集群和附加集群的分配示意图,预先登记的共有三个集群队列,在每个集群队列中执行一个批量任务Job的为一个资源组织单位(APP),在集群队列对该批量任务进行执行时,由该批量任务对应的APP获取资源,为批量任务创建执行容器,对于Job01来说,集群队列1为其目标集群,集群队列2和集群队列3为附加集群,在附加集群中,为Job01创建附加资源组织单位,对于集群队列1来说,Job01和Job03为原始批量任务,Job02、Job04和Job06为附加批量任务,当集群队列1执行完Job01和Job03后,才会对附加批量任务Job02、Job04和Job06进行执行,同理,集群队列2和集群队列3也是如此。
S130、获取目标集群对批量任务中目标任务执行时生成的执行数据信息,或,获取目标集群和附加集群对批量任务中目标任务执行时生成的执行数据信息,根据执行数据信息对批量任务的执行进行监控管理。
其中,执行数据信息是指目标任务在执行过程中所产生的相关任务数据,例如包括开始执行时间,执行状态,以及其他任务数据等。
当批量任务的附加集群在执行完其原始批量任务之前,该批量任务的目标集群已经执行完所有的目标任务,则获取目标集群对批量任务中目标任务执行时生成的执行数据信息;当批量任务的附加集群在执行完其原始批量任务之后,该批量任务的目标集群未执行完所有的目标任务,则获取目标集群和附加对批量任务的执行数据信息。根据各目标任务的执行数据信息对批量任务的整体执行情况进行监控和管理。
示例性的,如图2所示,若集群队列2在执行完Job02和Job06后,Job01尚未执行完成,则集群队列2中的Job01附加开始对Job01中的目标任务进行执行;若集群队列1中Job01对应的资源组织单位和集群队列2中的Job01附加对应的资源组织单位对Job01执行完成后,集群队列3尚未执行完成Job04和Job05,则集群队列3不用对Job01进行执行。在集群队列1和集群队列2在对批量任务进行执行时,实时获取所产生的各种执行数据信息。
在本实施例的另一个可选实现方式中,在获取目标集群和附加集群对批量任务中目标任务执行时生成的执行数据信息之前,该方法还包括:
接收目标集群对批量任务的执行请求,为目标集群分配目标任务;
接收附加集群对批量任务的执行请求,为附加集群分配目标任务;其中,附加集群在对原始批量任务执行完成后发起对批量任务的执行请求。
目标集群按照其中批量任务的执行优先级发起任务执行请求,附加集群在对原始批量任务执行完成后,按照附加批量任务的执行优先级发起任务执行请求,在接收到任务执行请求后,为对应集群分配批量任务中尚未被执行的目标任务。
示例性的,在上述示例的基础上,集群队列2在执行完Job02和Job06后,Job01尚未执行完成,集群队列2中的附加Job01发起对Job01的执行请求,则为集群队列2分配Job01中尚未被执行的目标任务,由集群队列2中对应的附加资源组织单位对该目标任务进行执行;同理,集群队列1按照Job01和Job03的执行优先级为Job01发起执行请求,则为集群队列1分配Job01中尚未被执行的目标任务。在每个集群队列中的资源组织单位中自定义设置发起的容器数量,以决定可以对该批量任务中同时执行的目标任务的数量。
为批量任务设置目标集群和附加集群,实现了对集群全局资源的充分调度和充分利用,避免出现部分集群资源闲置的情况。
本实施例的方案,通过为批量任务设置目标集群和附加集群,并且附加集群在对其中的原始批量任务执行完成后才会对其他的附加批量任务进行执行,既保证了原始批量任务的顺利执行,同时在集群资源闲置时减轻任务繁重的集群资源压力,提高批量任务的执行效率,实现了对集群全局资源的充分调度和充分利用,避免出现部分集群资源闲置的情况。
图3是根据本公开实施例的另一种批量任务执行方法的示意图,本实施例是对上述技术方案的进一步细化,在接收到用户提交的批量任务之后,该方法还包括:为批量任务建立关联批量管理文件,并为批量任务中包括的每个目标任务建立关联目标管理文件。本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图3所示,批量任务执行方法包括如下:
S310、接收用户提交的批量任务;为批量任务建立关联批量管理文件,并为批量任务中包括的每个目标任务建立关联目标管理文件。
其中,批量管理文件用于保存与批量任务相关的整体任务数据,例如执行数据,目标管理文件用于保存与目标任务相关的任务数据,如各目标任务的执行数据。
具体的,在接收到用户提交的批量任务后,为该批量任务创建一个关联批量管理文件,并将批量任务进行拆分为各个目标任务,为每个目标任务也创建一个关联目标关联文件。
S320、根据预先登记的集群资源信息,为批量任务分配目标集群和附加集群。
S330、获取目标集群对批量任务中目标任务执行时生成的执行数据信息,或,获取目标集群和附加集群对批量任务中目标任务执行时生成的执行数据信息。
在本实施例的另一个可选实现方式中,管理文件中还包括任务的元数据信息;
相应的,在为批量任务建立关联批量管理文件,并为批量任务中包括的每个目标任务建立关联目标管理文件之后,该方法还包括:
将目标任务的关联目标管理文件保存在待执行任务集合中,以使目标集群或附加集群在对批量任务进行执行时从待执行任务集合中获取批量任务中各目标任务的元数据信息,并对执行的目标任务的关联目标管理文件进行锁定。
其中,任务的元数据信息是指该任务执行所需的基础数据信息,例如任务配置信息、任务类型以及任务提交者信息等。在接收到批量任务时,其中就包含了批量任务的元数据信息,将批量任务的元数据信息保存在关联批量管理文件中;在对批量任务中的目标任务进行拆分时,确定各目标任务的元数据信息,并保存在相应的关联目标管理文件中。待执行任务集合用于保存用户所提交的所有批量任务中未执行完成的目标任务的关联目标管理文件。
具体的,在对管理文件建立完成后,将相应任务执行时所需的数据信息保存在管理文件中,并将各个目标任务的关联目标管理文件保存在待执行任务集合中。示例性的,目标集群或附加集群在对该批量任务进行执行时,从待执行任务集合中查询到属于该批量任务的目标任务的关联目标关联文件,并从目标管理文件中获取该目标任务运行所需的参数信息,当任一集群中的任一容器拿到该目标管理文件后,该目标管理文件就被锁定,即被锁定的目标管理文件表示对应的目标任务处于正在执行过程中,只能被锁定的目标容器执行,以避免该目标任务被其他集群或集群中的其他容器获取,造成同一目标任务的重复执行。
通过待执行任务集合的设置实现了对所有未执行完成的目标任务的管理,便于各集群中的容器获取相应的执行任务,并且可以避免同一目标任务被多个容器重复执行。
S340、将目标任务的执行数据信息写入关联目标管理文件中。
目标集群或附加集群在对目标任务进行执行时,将产生的执行数据实时写入待执行任务集合中的关联管理文件中,以对该目标任务的执行情况进行监控。其中,执行数据信息包括执行时间、执行状态以及执行产生的其他任务结果数据等。
S350、根据目标任务的执行数据信息确定批量任务执行数据信息,并将批量任务执行数据信息写入关联批量管理文件中。
其中,批量任务执行数据信息是指从批量任务整体角度确定的相关数据信息,例如批量任务中处于各种执行状态的目标任务数量,以及任务执行结果汇总结果等。
具体的,获取到批量任务中各目标任务的执行数据信息后,根据各目标任务的执行数据信息确定批量任务的总体任务执行情况,并将相关执行数据信息写入关联批量管理文件中,以通过批量管理文件对批量任务的整体执行情况进行确定。
S360、根据目标管理文件对目标任务的执行进度进行监控管理,以及根据批量管理文件对批量任务的执行总进度进行监控管理。
目标管理文件中保存了单个目标任务的执行数据信息,通过目标管理文件可以对单个目标任务的执行进度进行监控以及通过执行数据信息对该目标任务进行管理;批量管理文件中保存了整个批量任务的执行数据信息,从整体角度出发对批量任务的执行总进度进行监控,以及根据整体执行数据信息对批量任务进行管理。
示例性的,根据单个任务的目标管理文件监控发现目标任务的执行时间超过预设阈值,则需要对超时目标任务进行相应的处理;根据批量任务的批量管理文件监控发现批量任务的整体执行时间超过第二预设阈值,则对批量任务中未执行完成的目标任务进行相应的处理。
在本实施例的另一个可选实现方式中,执行数据信息至少包括执行状态;
相应的,S360,包括:
若获取到目标任务的执行状态为执行结束状态,则将目标任务的关联目标管理文件从待执行任务集合中移至执行完成任务集合中。
其中,执行状态用于表征目标任务当前的执行进度,执行状态可以包括未执行状态,执行中状态以及执行结束状态。执行完成任务集合用于保存执行完成的目标任务的关联目标管理文件,以对执行完成的目标任务进行统一管理。
在目标集群或附加集群对目标任务进行执行的过程中,会实时将执行数据信息写入关联目标管理文件中,通过对目标管理文件的监控即可实现对目标任务执行进度的监控,若监控到目标任务的执行状态为执行结束状态,则将目标任务的关联管理文件从待执行任务集合中删除,并在执行完成任务集合中为执行结束的目标任务添加新的目标管理文件。
通过设置执行完成任务集合对执行状态为执行结束的目标任务进行统一管理,提高了对目标任务的管理效率,并且有利于快速定位到执行失败的目标任务。
在本实施例的另一个可选实现方式中,S360,包括:
在获取到目标任务的执行状态为执行结束状态后,保持在目标集群或附加集群中对当前执行目标任务的执行环境不变;
从待执行任务集合中筛选与当前执行的目标任务同属于一个批量任务的其他目标任务;
基于当前执行环境,对其他目标任务进行执行。
由于对于同一批量任务下的目标任务执行环境都相同,只是某些任务参数不同,在集群中对目标任务进行执行是在一个容器中,容器为负责执行一个目标任务的虚拟化环境,一个容器在创建后执行一个目标任务时,首先需要根据该目标任务的相关依赖文件创建任务执行所需的环境,再基于创建好的环境对目标任务进行执行,当目标任务执行完成后,该容器会被删除,再创建下一个容器,对下一个目标任务进行执行。在本实施例中,为了减少容器创建和环境准备的耗时,对已经创建的容器进行复用。
具体的,通过对目标管理文件进行监控判断该目标任务是否执行结束,若执行状态为执行结束,则进入容器退出或容器复用流程,在此过程中,先保持集群中执行该目标任务的容器环境不变,从待执行任务集合中判断是否存在与该目标任务同属于一个批量任务的其他目标任务,若不存在,则进入容器退出流程;若存在,则由该容器在当前执行环境下对其他目标任务进行执行。
通过对集群中执行环境的复用,减少了对相同执行环境的批量任务下不同目标任务环境创建过程,进而提高了批量任务的整体运行效率。
在本实施例的另一个可选实现方式中,执行数据信息至少包括目标任务失败原因;其中,预先建立候选任务失败原因和执行失败错误码之间的映射关系;
相应的,S360,包括:
根据目标任务失败原因确定映射的执行失败错误码,并将执行失败错误码写入失败目标任务的关联目标管理文件以及批量任务的关联批量管理文件中。
其中,目标任务失败原因根据执行结束的具体步骤以及执行反馈数据进行确定。用户预先根据可能出现的异常情况定义对应的执行失败错误码,当根据目标任务执行情况确定目标任务失败原因后,再找到对应的执行失败错误码写入相应的管理文件中。具体的,将执行失败错误码写入具体的目标管理文件中,以便对该目标任务失败的原因进行分析确定;将执行失败错误码写入批量管理文件中,以对批量任务中目标任务执行失败的原因进行汇总,以便用于能迅速定位导致任务失败的原因,进行针对性的解决。
通过执行失败错误码的设置有利于用户在高度并行化的运行场景下,从大量执行容器总快速定位执行失败的原因,并对目标任务失败原因进行整体统计和分析。
本实施例的方案,通过对目标任务建立关联目标管理文件,实现从目标任务粒度对单个任务执行情况进行监控和管理,同时通过对批量任务建立关联批量管理文件,实现从批量任务粒度对整体任务执行情况进行监控和管理,有利于提高用户对批量任务执行的管控力度,提高批量任务的执行准确性。
图4是根据本公开实施例的又一种批量任务执行方法的示意图,本实施例是对上述技术方案的进一步细化,执行结束状态包括执行成功和执行失败;相应的,根据目标管理文件对目标任务的执行进度进行监控管理,包括:根据执行完成任务集合中目标管理文件中的执行结束状态,确定执行失败的失败目标任务;为失败目标任务在待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对失败目标任务重新进行执行。本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图4所示,批量任务执行方法包括如下:
S410、接收用户提交的批量任务;为批量任务建立关联批量管理文件,并为批量任务中包括的每个目标任务建立关联目标管理文件,将目标任务的关联目标管理文件保存在待执行任务集合中。
S420、根据预先登记的集群资源信息,为批量任务分配目标集群和附加集群。
S430、获取目标集群对批量任务中目标任务执行时生成的执行数据信息,或,获取目标集群和附加集群对批量任务中目标任务执行时生成的执行数据信息。
S440、将目标任务的执行数据信息写入关联目标管理文件中;根据目标任务的执行数据信息确定批量任务执行数据信息,并将批量任务执行数据信息写入关联批量管理文件中。
S450、若获取到目标任务的执行状态为执行结束状态,则将目标任务的关联目标管理文件从待执行任务集合中移至执行完成任务集合中;其中,执行结束状态包括执行成功和执行失败。
示例性的,若目标任务的执行代码段执行完成后,获取到相应的任务结果数据,则确定该目标任务执行成功,若未获取到,则确定该目标任务执行失败。或者若目标任务的执行代码段未执行完就退出执行,则确定该目标任务执行失败。
对于处于执行结束状态的目标任务进行进一步细分,包括执行成功的目标任务和执行失败的目标任务,执行结束状态的进一步细分根据执行反馈数据进行确定。
S460、根据执行完成任务集合中目标管理文件中的执行结束状态,确定执行失败的失败目标任务。
由于不管目标任务执行成功还是执行失败均属于执行完成,该目标任务的关联目标管理文件均会出现执行完成任务集合中,因此从执行完成任务集合中根据对目标管理文件的执行状态进行判断,即可找到执行失败的失败目标任务。
S470、为失败目标任务在待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对失败目标任务重新进行执行。
由于失败目标任务的失败可能具有偶然性,为了保证批量任务的运行成功率,需要对失败任务进行重新执行。
具体的,确定执行失败的失败目标任务后,根据执行完成任务集合中该失败目标任务的关联管理文件,为该失败目标任务在待执行任务集合中重新添加一个备份目标管理文件,该备份目标管理文件中包括该失败目标任务执行所需的数据信息,以及前述执行情况等。备份目标管理文件在待执行任务集合中与原目标管理文件相同,同属于一个批量任务,由相应的目标集群或附加集群对该备份目标管理文件进行锁定并执行,示例性的,为批量任务分配的目标集群或附加集群从待执行任务集合中获取到该备份目标管理文件后,对该备份目标管理文件进行锁定,并对该备份目标管理文件对应的失败目标任务进行重新执行,直至该失败目标任务的失败次数超过预设次数或该失败目标任务执行成功为止。
本实施例的方案,通过目标管理文件从执行完成任务集合中快速定位到失败目标任务,并为失败目标任务建立备份目标管理文件,通过对备份目标管理文件进行执行实现对失败目标任务的重新执行,提高了对失败目标任务重新执行的效率和准确性,进而提高对批量任务整体的执行准确性。
图5是根据本公开实施例的又一种批量任务执行方法的示意图,本实施例是对上述技术方案的进一步细化,执行数据信息至少包括执行时间;相应的,根据目标管理文件对目标任务的执行进度进行监控管理附加集群,包括:根据待执行任务集合中的各目标管理文件中的执行时间,确定执行时间超过预设时间阈值的超时目标任务;为超时目标任务在待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对超时目标任务重新进行执行。本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图5所示,批量任务执行方法包括如下:
S510、接收用户提交的批量任务;为批量任务建立关联批量管理文件,并为批量任务中包括的每个目标任务建立关联目标管理文件,将目标任务的关联目标管理文件保存在待执行任务集合中。
S520、根据预先登记的集群资源信息,为批量任务分配目标集群和附加集群。
S530、获取目标集群对批量任务中目标任务执行时生成的执行数据信息,或,获取目标集群和附加集群对批量任务中目标任务执行时生成的执行数据信息;其中,执行数据信息至少包括执行时间。
执行时间是指该目标任务从开始执行的时间到当前时间的时间差。示例性的,确定目标任务的开始执行时间,并实时更新计算开始执行时间到当前时间的时间差作为该目标任务的执行时间。
S540、将目标任务的执行数据信息写入关联目标管理文件中;根据目标任务的执行数据信息确定批量任务执行数据信息,并将批量任务执行数据信息写入关联批量管理文件中。
S550、根据待执行任务集合中的各目标管理文件中的执行时间,确定执行时间超过预设时间阈值的超时目标任务。
其中,预设时间阈值是预先根据目标任务的执行情况进行预估出的执行时长。
由于待执行任务集合中为未执行完成的任务,因此通过对待执行任务集合中各目标管理文件的执行时间进行确定,即可找到未执行完成且执行超过预估执行时长的任务,将该任务确定为超时目标任务,此时超时目标任务仍在目标集群或附加集群中某容器内保持运行状态。
S560、为超时目标任务在待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对超时目标任务重新进行执行。
由于超时目标任务的超时可能具有偶然性,为了保证批量任务的运行效率,需要对超时任务进行另外执行,以保证超时目标任务的快速完成。
具体的,确定超时目标任务后,根据待完成任务集合中该超时目标任务的关联管理文件,为该超时目标任务在待执行任务集合中重新添加一个备份目标管理文件,该备份目标管理文件中包括该超时目标任务执行所需的数据信息,以及前述执行情况等。备份目标管理文件在待执行任务集合中与原目标管理文件相同,同属于一个批量任务,由相应的目标集群或附加集群对该备份目标管理文件进行锁定并执行,直至该超时目标任务的超时次数超过预设次数或该超时目标任务执行成功为止。在目标集群对超时目标任务的备份目标管理文件进行执行时,该超时目标任务的原目标管理文件也在同时执行,当获取到该目标任务的任一目标管理文件上报的执行结果,写入在批量管理文件中,则该目标任务的其他未执行管理文件停止运行。
本实施例的方案,通过目标管理文件从待完成任务集合中快速定位到超时目标任务,并为超时目标任务建立备份目标管理文件,通过对备份目标管理文件进行执行实现对超时目标任务的重新执行,提高了对超时目标任务重新执行的效率和准确性,进而提高对批量任务整体的执行准确性。
图6是根据本公开实施例的又一种批量任务执行方法的示意图,本实施例是对上述技术方案的进一步细化,批量任务执行数据信息至少包括批量任务中各目标任务的执行状态;相应的,根据批量管理文件对批量任务的执行总进度进行监控管理,包括:若根据批量任务的关联批量管理文件中各目标任务的执行状态确定批量任务中小于预设比例的目标任务未执行完成,则确定批量任务中执行状态为未完成的目标任务为长尾目标任务;为批量任务中的长尾目标任务在待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对长尾目标任务重新进行执行。本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图6所示,批量任务执行方法包括如下:
S610、接收用户提交的批量任务;为批量任务建立关联批量管理文件,并为批量任务中包括的每个目标任务建立关联目标管理文件,将目标任务的关联目标管理文件保存在待执行任务集合中。
S620、根据预先登记的集群资源信息,为批量任务分配目标集群和附加集群。
S630、获取目标集群对批量任务中目标任务执行时生成的执行数据信息,或,获取目标集群和附加集群对批量任务中目标任务执行时生成的执行数据信息。
S640、将目标任务的执行数据信息写入关联目标管理文件中;根据目标任务的执行数据信息确定批量任务执行数据信息,并将批量任务执行数据信息写入关联批量管理文件中;其中,批量任务执行数据信息至少包括批量任务中各目标任务的执行状态。
各目标任务将执行状态写入关联管理文件后,根据各目标任务的执行状态将批量任务的整体执行情况进行汇总,得到批量任务中各目标任务的执行状态。例如批量任务执行数据信息中包括该批量任务中处于执行完成状态的目标任务比例,以及处于未执行完成状态的目标任务比例。
S650、若根据批量任务的关联批量管理文件中各目标任务的执行状态确定批量任务中小于预设比例的目标任务未执行完成,则确定批量任务中执行状态为未完成的目标任务为长尾目标任务。
批量任务执行时会出现大部分目标任务均执行完成,只有小部分目标任务仍处于执行过程中或未执行状态,则该批量任务属于长尾批量任务,长尾批量任务中未执行完成的目标任务均为长尾目标任务。
具体的,对批量任务中处于未执行完成的目标任务的比例进行确定,若该比例小于预设比例,则该批量任务为长尾批量任务,并确定长尾批量任务中影响整体运行效率的目标任务为长尾目标任务。对于未完成的目标任务包括未执行的目标任务和处于执行过程中的目标任务。
S660、为批量任务中的长尾目标任务在待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对长尾目标任务重新进行执行。
由于长尾目标任务的存在影响了批量任务的整体运行,为了保证批量任务的运行效率,需要对长尾目标任务进行另外执行,以保证长尾目标任务的快速完成。
具体的,确定长尾目标任务后,根据待完成任务集合中该长尾目标任务的关联管理文件,为该长尾目标任务在待执行任务集合中重新添加一个备份目标管理文件,该备份目标管理文件中包括该长尾目标任务执行所需的数据信息,以及前述执行情况等。备份目标管理文件在待执行任务集合中与原目标管理文件相同,同属于一个批量任务,由相应的目标集群或附加集群对该备份目标管理文件进行锁定并执行,直至该长尾目标任务的执行次数超过预设次数或该长尾目标任务执行成功为止。在目标集群对长尾目标任务的备份目标管理文件进行执行时,该长尾目标任务的原目标管理文件也在同时执行,当获取到该长尾目标任务的任一目标管理文件上报的执行结果,写入在批量管理文件中,则该长尾目标任务的其他未执行管理文件停止运行。
本实施例的方案,通过批量管理文件确定超时未完成的长尾批量任务,并为长尾批量任务中未完成的目标任务建立备份目标管理文件,通过对备份目标管理文件进行执行实现对长尾目标任务的重新执行,提高了对长尾目标任务重新执行的效率和准确性,进而提高对批量任务整体的执行准确性。
图7是根据本公开实施例的一种批量任务执行系统的结构示意图,该系统可以执行本公开任一实施例中涉及到的批量任务执行方法;参考图7,在批量任务执行系统中包括用户提交模块(Submitter),多集群调度模块(Launcher)、监控和回收模块(Tracker)、报告与统计模块(Reporter)以及任务管理模块(Task Manager)。
在用户提交模块支持用户通过三种方式提交批量任务,任务管理模块在接收到用户提交的批量任务后为该批量任务创建关联批量管理文件,用于存储元数据信息,并再任务管理模块中支持对任务的事务性添加、更新和删除。
多集群调度模块负责集群资源的管理和调度,同时将每个批量任务拆分为对应的目标任务,并为每个目标任务创建关联目标关联文件,将关联目标管理文件保存在任务管理模块中的待执行任务集合(input group)中,同时在任务管理模块中设置执行完成任务集合(output group)。在多集群调度模块中集成了登记的每个物理集群的详细参数信息,负责将批量任务根据集群资源信息调度到执行的一个或多个集群,通过多集群调度模块实现了用户无需针对不同的集群进行底层适配,可以通过自定义指定集群资源队列或者根据集群资源信息进行默认配置的方式,将批量任务调度到执行的集群队列中,集群队列为每个批量任务创建预设数量个容器以对该批量任务的目标任务进行执行,如图8所示为批量任务调度示意图。同一个批量任务(Job)在不同的队列上可以根据队列资源情况自定义容器数量和优先级,高优先级会优先分配到容器资源。多集群调度模块统一负责管理不同地域的集群资源的接入和管理,最终将不同集群的配置存储在云端,在云端更新集群配置后即时生效,无需进行其他操作,极大的扩展了可用计算资源。
在多集群角度模块中包括容器执行引擎,容器执行引擎负责目标任务在容器内运行周期的管理,目标任务的运行周期示意图如图9所示,集群中任一容器在对目标任务进行执行时,首先从input group中获取目标任务的关联目标管理文件(TM task),并且容器执行引擎会将该TM task进行锁定(own),容器根据TM task中的元数据信息运行任务业务代码,任务执行完成后容器执行引擎删除input group中的目标管理文件,并将该目标管理文件写入output group中。
在单个容器内对目标任务的执行流程图如图10所示,首先由集群为目标任务创建容器,并为该容器设置环境,容器执行引擎根据该目标任务的元数据信息进行初始化设置,通过业务程序入口可执行文件对该目标任务的业务代码段进行执行,并实时将运行状态写入目标管理文件中,直至运行结束,收集该目标任务的错误码,容器执行引擎通过检测目标管理文件中的执行状态来判断业务代码是否运行完成,进而进入容器退出或容器复用流程。在业务代码执行的同时,可以通过执行引擎将运行时的采集数据(如各阶段耗时等)写入数据库,方便后续报告统计模块生成多维度的分析报表。
容器执行引擎托管了任务执行代码,用户只需专注于自身业务逻辑,并在准备阶段通过替换包的形式传入到容器环境当中,做到了业务算子和容器的完全解耦。
任务管理模块自身具有高可靠性,在目标管理文件处理失败的时候能够保证数据不丢失,并且将批量任务以批量管理文件的形式存储起来,实时更新任务完成进度,一旦遇到故障,能够及时的从任务管理模块中的管理文件中获取到故障前任务的执行状态,使得用户任务在故障恢复后能够继续执行,保证数据不丢失,这是从批量任务粒度来保障系统的容错性。
监控与回收模块负责批量任务运行进度的监控,收集目标任务的运行结果。具体的,监控与回收模块实时回收output group中的目标管理文件,并获取到该目标任务最近一次执行是否成功。监控与回收模块对运行完成的目标任务的处理流程示意图如图11所示,通过错误码判断该目标任务是否运行成功,若运行失败则进入失败重试机制,即向input group中新增一个该失败目标任务的备份目标管理文件(backup TM task),并让容器获取到此备份目标管理文件来重新运行,达到重试次数上限或者运行成功后为止。监控与回收模块还会通过计算某个目标任务开始运行到当前的时间差来判断是否运行超时,如果超时,则判断此次容器内运行遇到超时失败,同样通过新增备份目标管理文件的方式来让容器重新运行,直到所有该目标任务的目标管理文件都运行超时,或者某个目标管理文件运行成功为止。在一个批量任务运行过程中偶尔会遇到部分目标任务执行时间特别长,导致整个批量任务进入长尾运行阶段,监控和回收模块判断批量任务进入长尾阶段,同样会发起备份目标管理文件,来让空闲的容器运行长尾目标任务的备份目标管理文件,以加速长尾阶段的执行效率,目标任务的超时或长尾处理流程如图12所示。
报告与统计模块负责对运行完成的目标任务数据进行汇聚计算,生成任务失败错误码汇聚结果与其他报告数据,同时运行结果也用来生成分析报表。报告与统计模块对回收到的运行结果进行汇聚计算,计算不同错误类型的失败频次,产生的汇聚结果可以通过前端页面或者查询接口反馈给用户,用户根据具体的错误码信息即可知道某个目标任务运行异常的原因。报告与统计模块除了统计目标任务失败信息,也可以统计业务代码模块各阶段执行效率等信息,将汇聚结果存储到数据库,方便通过前端页面展示或者接口查询。用户根据汇聚得到的错误码统计,能够迅速指定导致任务失败的头部问题,进而针对性的解决。报告与统计模块能够配置多维分析报表,协助分析影响任务效率和稳定性的主要因素。报告与统计模块执行示意图如图13所示,将运行的原始数据存储在相应的报表数据库,基于不同数据库的特点建立所需的多维数据模型,通过BI平台或查询接口向用户提供数据分析服务,进而帮助用户快速定位故障。
本公开设计了一种通用的、高可用性、高稳定性的批量任务执行系统,支持多种集群的灵活拓展,并对全局集群资源进行统一管理和调度,极大提高了自动驾驶批量计算任务的运行规模,日均任务量达到百万量级以上。底层集群物理资源对用户透明,容器和业务算子完全解耦,让用户更高效的专注于业务开发。同时,本公开对任务运行因为环境异常或其他情况导致的异常失败、长尾现象以及超时失败给出了优化方案,大大提高了系统的稳定性和健壮性。另外,错误码采集机制和报表分析机制,能够快速提高用户定位问题和修复异常的效率。
图14是根据本公开实施例的一种批量任务执行装置的结构示意图,该装置可以执行本公开任一实施例中涉及到的批量任务执行方法;参考图14,批量任务执行装置400,包括:任务接收模块410、集群分配模块420以及任务执行管理模块430。
任务接收模块,用于接收用户提交的批量任务;其中,所述批量任务中包括至少两个目标任务;
集群分配模块,用于根据预先登记的集群资源信息,为所述批量任务分配目标集群和附加集群;其中,所述批量任务在所述附加集群中的执行优先级低于所述附加集群中的原始批量任务,所述原始批量任务为将所述附加集群作为目标集群分配的批量任务;
任务执行管理模块,用于获取所述目标集群对所述批量任务中目标任务执行时生成的执行数据信息,或,获取所述目标集群和所述附加集群对所述批量任务中目标任务执行时生成的执行数据信息,根据所述执行数据信息对所述批量任务的执行进行监控管理。
本实施例的方案,通过为批量任务设置目标集群和附加集群,并且附加集群在对其中的原始批量任务执行完成后才会对其他的附加批量任务进行执行,既保证了原始批量任务的顺利执行,同时在集群资源闲置时减轻任务繁重的集群资源压力,提高批量任务的执行效率,实现了对集群全局资源的充分调度和充分利用,避免出现部分集群资源闲置的情况。
在本实施例的一个可选实现方式中,所述装置还包括任务分配模块,用于在获取所述目标集群和所述附加集群对所述批量任务中目标任务执行时生成的执行数据信息之前,
接收所述目标集群对所述批量任务的执行请求,为所述目标集群分配目标任务;
接收所述附加集群对所述批量任务的执行请求,为所述附加集群分配目标任务;其中,所述附加集群在对所述原始批量任务执行完成后发起对所述批量任务的执行请求。
在本实施例的一个可选实现方式中,所述装置还包括管理文件建立模块,用于在所述接收到用户提交的批量任务之后,
为所述批量任务建立关联批量管理文件,并为所述批量任务中包括的每个目标任务建立关联目标管理文件;
相应的,任务执行管理模块,包括:
目标管理文件写单元,用于将所述目标任务的执行数据信息写入所述关联目标管理文件中;
批量管理文件写单元,用于根据所述目标任务的执行数据信息确定批量任务执行数据信息,并将所述批量任务执行数据信息写入所述关联批量管理文件中,
文件监控管理单元,用于根据目标管理文件对目标任务的执行进度进行监控管理,以及根据批量管理文件对批量任务的执行总进度进行监控管理。
在本实施例的一个可选实现方式中,管理文件中还包括任务的元数据信息;
相应的,所述装置还包括待执行任务集合确定模块,用于在为所述批量任务建立关联批量管理文件,并为所述批量任务中包括的每个目标任务建立关联目标管理文件之后,
将所述目标任务的关联目标管理文件保存在待执行任务集合中,以使所述目标集群或附加集群在对所述批量任务进行执行时从所述待执行任务集合中获取所述批量任务中各目标任务的元数据信息,并对执行的目标任务的关联目标管理文件进行锁定。
在本实施例的一个可选实现方式中,所述执行数据信息至少包括执行状态;
相应的,文件监控管理单元,具体用于:
若获取到所述目标任务的执行状态为执行结束状态,则将所述目标任务的关联目标管理文件从待执行任务集合中移至执行完成任务集合中。
在本实施例的一个可选实现方式中,文件监控管理单元,具体用于:
在获取到所述目标任务的执行状态为执行结束状态后,保持在目标集群或附加集群中对当前执行目标任务的执行环境不变;
从所述待执行任务集合中筛选与所述当前执行的目标任务同属于一个批量任务的其他目标任务;
基于当前执行环境,对所述其他目标任务进行执行。
在本实施例的一个可选实现方式中,所述执行结束状态包括执行成功和执行失败;
相应的,文件监控管理单元,具体用于:
根据所述执行完成任务集合中目标管理文件中的执行结束状态,确定执行失败的失败目标任务;
为所述失败目标任务在所述待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对所述失败目标任务重新进行执行。
在本实施例的一个可选实现方式中,所述执行数据信息至少包括执行时间;
相应的,文件监控管理单元,具体用于:
根据所述待执行任务集合中的各目标管理文件中的执行时间,确定执行时间超过预设时间阈值的超时目标任务;
为所述超时目标任务在所述待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对所述超时目标任务重新进行执行。
在本实施例的一个可选实现方式中,所述批量任务执行数据信息至少包括批量任务中各目标任务的执行状态;
相应的,文件监控管理单元,具体用于:
若根据所述批量任务的关联批量管理文件中各目标任务的执行状态确定所述批量任务中小于预设比例的目标任务未执行完成,则确定所述批量任务中执行状态为未完成的目标任务为长尾目标任务;
为所述批量任务中的长尾目标任务在所述待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对所述长尾目标任务重新进行执行。
在本实施例的一个可选实现方式中,所述执行数据信息至少包括目标任务失败原因;其中,预先建立候选任务失败原因和执行失败错误码之间的映射关系;
相应的,文件监控管理单元,具体用于:
根据所述目标任务失败原因确定映射的执行失败错误码,并将所述执行失败错误码写入失败目标任务的关联目标管理文件以及批量任务的关联批量管理文件中。
在本实施例的一个可选实现方式中,在对自动驾驶算法进行仿真验证时,用户提交的所述批量任务为算法验证任务,所述目标任务为在不同地图下的算法验证任务。
上述批量任务执行装置可执行本公开任意实施例所提供的批量任务执行方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本公开任意实施例提供的批量任务执行方法。
图7中的批量任务执行系统可以作为图14中的批量任务执行装置的一个可行的具体实施架构,上述批量任务执行装置中的任务接收模块对应于批量任务执行系统中的用户提交模块;批量任务执行装置中的集群分配模块和任务分配模块对应于批量任务执行系统中的多集群调度模块;批量任务执行装置中的管理文件建立模块和待执行任务集合确定模块对应于批量任务执行系统中的任务管理模块;批量任务执行装置中的任务执行管理模块对应于批量任务执行系统中的监控和回收模块和报告与统计模块。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图15示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图15所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如批量任务执行方法。例如,在一些实施例中,批量任务执行方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的批量任务执行方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法批量任务执行。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (25)

1.一种批量任务执行方法,包括:
接收用户提交的批量任务;其中,所述批量任务中包括至少两个目标任务;
根据预先登记的集群资源信息,为所述批量任务分配目标集群和附加集群;其中,所述批量任务在所述附加集群中的执行优先级低于所述附加集群中的原始批量任务,所述原始批量任务为将所述附加集群作为目标集群分配的批量任务;
获取所述目标集群对所述批量任务中目标任务执行时生成的执行数据信息,或,获取所述目标集群和所述附加集群对所述批量任务中目标任务执行时生成的执行数据信息,根据所述执行数据信息对所述批量任务的执行进行监控管理。
2.根据权利要求1所述的方法,其中,在获取所述目标集群和所述附加集群对所述批量任务中目标任务执行时生成的执行数据信息之前,所述方法还包括:
接收所述目标集群对所述批量任务的执行请求,为所述目标集群分配目标任务;
接收所述附加集群对所述批量任务的执行请求,为所述附加集群分配目标任务;其中,所述附加集群在对所述原始批量任务执行完成后发起对所述批量任务的执行请求。
3.根据权利要求1所述的方法,其中,在所述接收到用户提交的批量任务之后,所述方法还包括:
为所述批量任务建立关联批量管理文件,并为所述批量任务中包括的每个目标任务建立关联目标管理文件;
相应的,根据所述执行数据信息对所述批量任务的执行进行监控管理,包括:
将所述目标任务的执行数据信息写入所述关联目标管理文件中;
根据所述目标任务的执行数据信息确定批量任务执行数据信息,并将所述批量任务执行数据信息写入所述关联批量管理文件中,
根据目标管理文件对目标任务的执行进度进行监控管理,以及根据批量管理文件对批量任务的执行总进度进行监控管理。
4.根据权利要求3所述的方法,其中,管理文件中还包括任务的元数据信息;
相应的,在为所述批量任务建立关联批量管理文件,并为所述批量任务中包括的每个目标任务建立关联目标管理文件之后,所述方法还包括:
将所述目标任务的关联目标管理文件保存在待执行任务集合中,以使所述目标集群或附加集群在对所述批量任务进行执行时从所述待执行任务集合中获取所述批量任务中各目标任务的元数据信息,并对执行的目标任务的关联目标管理文件进行锁定。
5.根据权利要求4所述的方法,其中,所述执行数据信息至少包括执行状态;
相应的,根据目标管理文件对目标任务的执行进度进行监控管理,包括:
若获取到所述目标任务的执行状态为执行结束状态,则将所述目标任务的关联目标管理文件从待执行任务集合中移至执行完成任务集合中。
6.根据权利要求5所述的方法,其中,根据目标管理文件对目标任务的执行进度进行监控管理,包括:
在获取到所述目标任务的执行状态为执行结束状态后,保持在目标集群或附加集群中对当前执行目标任务的执行环境不变;
从所述待执行任务集合中筛选与所述当前执行的目标任务同属于一个批量任务的其他目标任务;
基于当前执行环境,对所述其他目标任务进行执行。
7.根据权利要求5所述的方法,其中,所述执行结束状态包括执行成功和执行失败;
相应的,根据目标管理文件对目标任务的执行进度进行监控管理,包括:
根据所述执行完成任务集合中目标管理文件中的执行结束状态,确定执行失败的失败目标任务;
为所述失败目标任务在所述待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对所述失败目标任务重新进行执行。
8.根据权利要求4所述的方法,其中,所述执行数据信息至少包括执行时间;
相应的,根据目标管理文件对目标任务的执行进度进行监控管理附加集群,包括:
根据所述待执行任务集合中的各目标管理文件中的执行时间,确定执行时间超过预设时间阈值的超时目标任务;
为所述超时目标任务在所述待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对所述超时目标任务重新进行执行。
9.根据权利要求8所述的方法,其中,所述批量任务执行数据信息至少包括批量任务中各目标任务的执行状态;
相应的,根据批量管理文件对批量任务的执行总进度进行监控管理,包括:
若根据所述批量任务的关联批量管理文件中各目标任务的执行状态确定所述批量任务中小于预设比例的目标任务未执行完成,则确定所述批量任务中执行状态为未完成的目标任务为长尾目标任务;
为所述批量任务中的长尾目标任务在所述待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对所述长尾目标任务重新进行执行。
10.根据权利要求3所述的方法,其中,所述执行数据信息至少包括目标任务失败原因;其中,预先建立候选任务失败原因和执行失败错误码之间的映射关系;
相应的,根据目标管理文件对目标任务的执行进度进行监控管理,以及根据批量管理文件对批量任务的执行总进度进行监控管理,包括:
根据所述目标任务失败原因确定映射的执行失败错误码,并将所述执行失败错误码写入失败目标任务的关联目标管理文件以及批量任务的关联批量管理文件中。
11.根据权利要求1所述的方法,其中,在对自动驾驶算法进行仿真验证时,用户提交的所述批量任务为算法验证任务,所述目标任务为在不同地图下的算法验证任务。
12.一种批量任务执行装置,包括:
任务接收模块,用于接收用户提交的批量任务;其中,所述批量任务中包括至少两个目标任务;
集群分配模块,用于根据预先登记的集群资源信息,为所述批量任务分配目标集群和附加集群;其中,所述批量任务在所述附加集群中的执行优先级低于所述附加集群中的原始批量任务,所述原始批量任务为将所述附加集群作为目标集群分配的批量任务;
任务执行管理模块,用于获取所述目标集群对所述批量任务中目标任务执行时生成的执行数据信息,或,获取所述目标集群和所述附加集群对所述批量任务中目标任务执行时生成的执行数据信息,根据所述执行数据信息对所述批量任务的执行进行监控管理。
13.根据权利要求12所述的装置,其中,所述装置还包括任务分配模块,用于在获取所述目标集群和所述附加集群对所述批量任务中目标任务执行时生成的执行数据信息之前,
接收所述目标集群对所述批量任务的执行请求,为所述目标集群分配目标任务;
接收所述附加集群对所述批量任务的执行请求,为所述附加集群分配目标任务;其中,所述附加集群在对所述原始批量任务执行完成后发起对所述批量任务的执行请求。
14.根据权利要求12所述的装置,其中,所述装置还包括管理文件建立模块,用于在所述接收到用户提交的批量任务之后,
为所述批量任务建立关联批量管理文件,并为所述批量任务中包括的每个目标任务建立关联目标管理文件;
相应的,任务执行管理模块,包括:
目标管理文件写单元,用于将所述目标任务的执行数据信息写入所述关联目标管理文件中;
批量管理文件写单元,用于根据所述目标任务的执行数据信息确定批量任务执行数据信息,并将所述批量任务执行数据信息写入所述关联批量管理文件中,
文件监控管理单元,用于根据目标管理文件对目标任务的执行进度进行监控管理,以及根据批量管理文件对批量任务的执行总进度进行监控管理。
15.根据权利要求14所述的装置,其中,管理文件中还包括任务的元数据信息;
相应的,所述装置还包括待执行任务集合确定模块,用于在为所述批量任务建立关联批量管理文件,并为所述批量任务中包括的每个目标任务建立关联目标管理文件之后,
将所述目标任务的关联目标管理文件保存在待执行任务集合中,以使所述目标集群或附加集群在对所述批量任务进行执行时从所述待执行任务集合中获取所述批量任务中各目标任务的元数据信息,并对执行的目标任务的关联目标管理文件进行锁定。
16.根据权利要求15所述的装置,其中,所述执行数据信息至少包括执行状态;
相应的,文件监控管理单元,具体用于:
若获取到所述目标任务的执行状态为执行结束状态,则将所述目标任务的关联目标管理文件从待执行任务集合中移至执行完成任务集合中。
17.根据权利要求16所述的装置,其中,文件监控管理单元,具体用于:
在获取到所述目标任务的执行状态为执行结束状态后,保持在目标集群或附加集群中对当前执行目标任务的执行环境不变;
从所述待执行任务集合中筛选与所述当前执行的目标任务同属于一个批量任务的其他目标任务;
基于当前执行环境,对所述其他目标任务进行执行。
18.根据权利要求16所述的装置,其中,所述执行结束状态包括执行成功和执行失败;
相应的,文件监控管理单元,具体用于:
根据所述执行完成任务集合中目标管理文件中的执行结束状态,确定执行失败的失败目标任务;
为所述失败目标任务在所述待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对所述失败目标任务重新进行执行。
19.根据权利要求15所述的装置,其中,所述执行数据信息至少包括执行时间;
相应的,文件监控管理单元,具体用于:
根据所述待执行任务集合中的各目标管理文件中的执行时间,确定执行时间超过预设时间阈值的超时目标任务;
为所述超时目标任务在所述待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对所述超时目标任务重新进行执行。
20.根据权利要求19所述的装置,其中,所述批量任务执行数据信息至少包括批量任务中各目标任务的执行状态;
相应的,文件监控管理单元,具体用于:
若根据所述批量任务的关联批量管理文件中各目标任务的执行状态确定所述批量任务中小于预设比例的目标任务未执行完成,则确定所述批量任务中执行状态为未完成的目标任务为长尾目标任务;
为所述批量任务中的长尾目标任务在所述待执行任务集合中添加备份目标管理文件,以使目标集群或附加集群对所述长尾目标任务重新进行执行。
21.根据权利要求14所述的装置,其中,所述执行数据信息至少包括目标任务失败原因;其中,预先建立候选任务失败原因和执行失败错误码之间的映射关系;
相应的,文件监控管理单元,具体用于:
根据所述目标任务失败原因确定映射的执行失败错误码,并将所述执行失败错误码写入失败目标任务的关联目标管理文件以及批量任务的关联批量管理文件中。
22.根据权利要求12所述的装置,其中,在对自动驾驶算法进行仿真验证时,用户提交的所述批量任务为算法验证任务,所述目标任务为在不同地图下的算法验证任务。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。
25.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现根据权利要求1-11中任一项所述方法的步骤。
CN202210891932.4A 2022-07-27 2022-07-27 批量任务执行方法、装置、设备、介质及产品 Pending CN115237566A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210891932.4A CN115237566A (zh) 2022-07-27 2022-07-27 批量任务执行方法、装置、设备、介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210891932.4A CN115237566A (zh) 2022-07-27 2022-07-27 批量任务执行方法、装置、设备、介质及产品

Publications (1)

Publication Number Publication Date
CN115237566A true CN115237566A (zh) 2022-10-25

Family

ID=83676886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210891932.4A Pending CN115237566A (zh) 2022-07-27 2022-07-27 批量任务执行方法、装置、设备、介质及产品

Country Status (1)

Country Link
CN (1) CN115237566A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11973637B1 (en) 2022-11-22 2024-04-30 Walmart Apollo, Llc System and method for fallback communications using composite and concurrent state machines

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11973637B1 (en) 2022-11-22 2024-04-30 Walmart Apollo, Llc System and method for fallback communications using composite and concurrent state machines

Similar Documents

Publication Publication Date Title
US20220058104A1 (en) System and method for database replication benchmark testing using a pipeline-based microservices model
US11334538B2 (en) System and method for cardinality estimation feedback loops in query processing
CN111506401B (zh) 自动驾驶仿真任务调度方法、装置、电子设备及存储介质
CN108696571B (zh) 云存储服务系统、方法、云服务智能设备及电子装置
CN112579273B (zh) 任务调度方法及装置、计算机可读存储介质
CN107645410A (zh) 一种基于OpenStack云平台的虚拟机管理系统及方法
CN115373835A (zh) Flink集群的任务资源调整方法、装置及电子设备
US20220179711A1 (en) Method For Platform-Based Scheduling Of Job Flow
CN112052082B (zh) 任务属性优化方法、装置、服务器及存储介质
CN114090580A (zh) 数据处理方法、装置、设备、存储介质及产品
CN114861039B (zh) 一种搜索引擎的参数配置方法、装置、设备及存储介质
CN115237566A (zh) 批量任务执行方法、装置、设备、介质及产品
CN111782341A (zh) 用于管理集群的方法和装置
CN113157411B (zh) 一种基于Celery的可靠可配置任务系统及装置
CN112149975B (zh) 一种基于人工智能的apm监控系统及监控方法
CN110750362A (zh) 生物信息的分析方法、装置和存储介质
CN115858499A (zh) 一种数据库分区处理方法、装置、计算机设备和存储介质
CN113434278A (zh) 数据聚合系统、方法、电子设备及存储介质
CN115168042A (zh) 监控集群的管理方法及装置、计算机存储介质、电子设备
CN114691781A (zh) 一种数据同步方法、系统、装置、设备及介质
CN113656239A (zh) 针对中间件的监控方法、装置及计算机程序产品
US11816621B2 (en) Multi-computer tool for tracking and analysis of bot performance
US11755609B2 (en) Automatically detecting data offloading methods using data bucketing and machine learning techniques
CN116069764A (zh) 数据校验方法、装置、电子设备和存储介质
CN117251284A (zh) 一种资源管理系统、方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination