CN110287018B - 批量任务编排方法及装置 - Google Patents

批量任务编排方法及装置 Download PDF

Info

Publication number
CN110287018B
CN110287018B CN201910598614.7A CN201910598614A CN110287018B CN 110287018 B CN110287018 B CN 110287018B CN 201910598614 A CN201910598614 A CN 201910598614A CN 110287018 B CN110287018 B CN 110287018B
Authority
CN
China
Prior art keywords
batch
concurrency
tasks
memory
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910598614.7A
Other languages
English (en)
Other versions
CN110287018A (zh
Inventor
张宏
吕杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201910598614.7A priority Critical patent/CN110287018B/zh
Publication of CN110287018A publication Critical patent/CN110287018A/zh
Application granted granted Critical
Publication of CN110287018B publication Critical patent/CN110287018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供了一种批量任务编排方法及装置,批量任务编排方法包括:获取处理所述批量任务的资源使用信息;根据所述资源使用信息及预设的并发度评估模型生成所述批量任务的最优并发度;根据所述最优并发度、所述批量任务的历史处理信息及预设的编排评估模型对所述批量任务进行编排。本发明提供的方法可以实时采集资源信息,动态地进行批量任务编排,极大地提高了批量任务执行效率,有效地缩减了整体批量任务处理的时间窗。

Description

批量任务编排方法及装置
技术领域
本发明涉及批量任务调度技术领域,特别是涉及一种批量任务编排方法及装置。
背景技术
随着银行、金融等领域的应用系统在业务品种和业务量方面的不断发展,应用系统承载的交易量与日俱增,各应用系统从数据挖掘角度对交易进行分析的要求也越来越高。在此背景下,如何快速有效的提升数据挖掘等批量作业时效,对各应用系统批量作业调度提出了严峻的挑战。
目前主要采用三种方式提升批量作业处理性能:一是通过单独部署批量服务器引入独立的批量库等方式通过专用硬件设备达到提升批量处理性能;二是通过编制并发任务调度机制尽量打散批量处理压力的方式提升批量处理性能;三是通过研发分布式批量调度框架进一步拓展系统并发处理能力。然而通过实践证实,通过上述方式执行批量作业任务往往有如下缺陷:
1、每个批量处理节点在依赖既定编排的作业任务进行批量作业执行时,常常发生同一类批量作业执行时大部分子任务已经执行完成,而独剩1个子任务尚在执行,进而影响到后续依赖批量作业任务的执行及整体批量的执行时间。
2、批量作业任务编排往往是按照经验进行简单固化,没有随着业务发展的变化趋势进行自动调整,导致通过历史经验编排的作业任务执行顺序没法满足当前业务发展需要。
3、批量处理节点按照定时调度机制在现有指定的并发处理模型下进行作业调度,没有结合节点所在设备当前资源情况进行并发控制,导致由于并发设置不合理反而加重了批量时段设备性能隐患,降低了整体批量处理能力。
发明内容
针对现有技术中的问题,本发明提供的批量任务编排方法可以实时采集资源信息,动态地进行批量任务编排,极大地提高了批量任务执行效率,有效地缩减了整体批量任务处理的时间窗。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种批量任务编排方法,包括:
获取处理批量任务的资源使用信息;
根据资源使用信息及预设的并发度评估模型生成批量任务的最优并发度;
根据最优并发度、批量任务的历史处理信息及预设的编排评估模型对批量任务进行编排。
优选地,批量任务编排方法还包括:根据资源使用信息建立并发度评估模型。
优选地,资源使用信息包括:逻辑CPU个数、逻辑CPU权重、内存使用率、内存权重、磁盘繁忙度及磁盘繁忙度权重。
优选地,历史处理信息包括:批量任务的上次处理耗时及历史平均耗时。
优选地,根据最优并发度、批量任务的历史处理信息及预设的编排评估模型对批量任务进行编排,包括:
根据最优并发度及批量任务的历史处理信息及预设的编排评估模型计算批量任务的耗时序列;
根据各任务的耗时对耗时序列进行排序,并根据排序结果计算处理批量任务的目标耗时;
根据排序结果及目标耗时对批量任务进行编排。
优选地,批量任务编排方法还包括:获取批量任务的历史处理信息。
第二方面,本发明提供一种批量任务编排装置,该装置包括:
使用信息获取单元,用于获取处理批量任务的资源使用信息;
并发度生成单元,根据资源使用信息及预设的并发度评估模型生成批量任务的最优并发度;
批量任务编排单元,用于根据最优并发度、批量任务的历史处理信息及预设的编排评估模型对批量任务进行编排。
优选地,批量任务编排装置还包括:评估模型建立单元,用于根据资源使用信息建立并发度评估模型。
优选地,批量任务编排装置还包括:评估模型,用于根据批量任务的每个历史处理信息及对应的历史处理信息的权重生成编排评估模型。
优选地,批量任务编排单元包括:
序列计算模块,用于根据最优并发度及批量任务的历史处理信息及预设的编排评估模型计算批量任务的耗时序列;
序列排序模块,用于根据各任务的耗时对耗时序列进行排序,并根据排序结果计算处理批量任务的目标耗时;
批量任务编排模型,用于根据排序结果及目标耗时对批量任务进行编排。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现批量任务编排方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现批量任务编排方法的步骤。
从上述描述可知,本发明提供的批量任务编排方法及装置,根据现有的处理批量任务的资源使用信息及并发度模型计算执行该批量任务的最优并发度,接着,根据该最优并发度及该批量任务的历史处理信息及编排评估模型对该批量任务进行编排,在建立并发度模型时,充分考虑到现有的资源使用信息,从而避免了由于并发设置不合理加重设备性能隐患的问题。另外,在建立编排评估模型的过程中,将批量任务的历史平均耗时及其权重考虑进来,从而迎合了目前的业务发展趋势。具体地,本发明有着如下优点:①自适应调整批量作业各个任务的执行顺序。②可以推算下一个批量日该批量作业的时间窗。③有效缩短批量时间窗,各个并发进程利用率趋于均匀。
综上,本发明提供了一种在批量调度及作业任务编排时通过场景分析,进而实现科学作业任务编排,得到在目前资源使用情况下,批量作业总体的最短耗时。可解决随着应用系统业务量增长、批量作业越来越复杂与计算时效性要求之间的矛盾。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例中批量任务编排方法的流程示意图一;
图2为本发明的实施例中任务编排前的作业调度示意图;
图3为本发明的实施例中任务编排后的作业调度示意图;
图4为本发明的实施例中批量任务编排方法的流程示意图二;
图5为本发明的实施例中历史处理信息组成示意图;
图6为本发明的实施例中批量任务编排方法的步骤300的流程示意图;
图7为本发明的实施例中批量任务编排方法的流程示意图三;
图8为本发明的具体应用实例中批量任务编排方法的流程示意图;
图9为本发明的具体应用实例中批量任务编排装置的结构示意图;
图10为本发明的实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于现有技术中缺乏一种可以满足现有业务发展趋势的批量任务的编排方法。本发明的实施例提供一种批量任务编排方法的具体实施方式,参见图1该方法10具体包括如下内容:
步骤100:获取处理批量任务的资源使用信息。
步骤100在具体实施时,实现方式为:采集当前磁盘IO资源使用信息(比如:磁盘活动百分比、磁盘每秒传输字节数、磁盘每秒磁盘IO请求数)、当前CPU资源使用信息(比如:用户使用率、系统使用率、空闲率)、当前内存资源使用信息(比如:当前使用内存、空闲内存、虚拟内存使用率)等对批量作业执行影响较大的系统或支撑软件资源。资源使用信息可以为硬件资源使用信息或软件资源使用信息,本发明不以此为限。
步骤200:根据资源使用信息及预设的并发度评估模型生成批量任务的最优并发度。
可以理解的是,并发性可理解为在同一时间间隔内两个或多个事件同时发生、并行处理。系统内许多事件(中断等)往往是随机地同时发生的,故称为并发事件;当一个程序内部的不同程序段(或语句)所代表的操作满足一定条件时,可以同时执行;系统内进程亦可同时创建、并行活动。操作系统内部存在着许许多多的并发活动;相对独立的多个用户作业可以并发执行,操作系统本身许多不同功能的程序可以并发执行;一个程序(并发程序)内部的程序段(或语句)之间也可以并发执行。
操作系统是通过进程实现并发活动的,并发进程在其活动过程中存在着各种制约关系,典型表现为进程之间的同步和互斥。为了正确控制并发活动,操作系统必须提供相应的工具协调这些制约关系。同时为了提高效率,还应解决进程间的通信问题。
高并发度计算要求同时处理多个用户的需求,一般是内核数量越多,线程数量越多,所能同时处理的用户数量规模也就越大,如Web类,Java类应用。
具体地,并发度是指操作系统同时可以支持多少个进程运行,也就是操作系统在设计时为PCB(进程控制块)链表设计了多少个节点。
步骤300:根据最优并发度、批量任务的历史处理信息及预设的编排评估模型对批量任务进行编排。
针对目前行业业务发展趋势来说,对于批量任务进行编排,进行优化是必须的,举个简单的例子:假设某批量作业并发度为3,且共有4个任务需执行。假设任务1完成需要2分钟,任务2需要4分钟,任务3需要3分钟,任务4需要5分钟。假设当前任务执行顺序是按照任务1、任务2、任务3、任务4编排顺序执行,因为并发数为3,所以先启动的是任务1、任务2、任务3,而任务4只能等上述三个任务中某个任务执行结束后才能启动,在本示例中需要待任务1结束后才能启动,则该批量任务总耗时为7分钟。但若对任务1、任务2、任务3及任务4进行编排,如根据任务执行所需时间长短来执行,最先启动的是任务4、任务2、任务3。当任务3执行完后,启动任务1,则该批了任务总耗时为5分钟,比优化前耗时缩减了2分钟,如图2及图3所示。
从上述描述可知,本发明提供的批量任务编排方法,根据现有的处理批量任务的资源使用信息及并发度模型计算执行该批量任务的最优并发度,接着,根据该最优并发度及该批量任务的历史处理信息及编排评估模型对该批量任务进行编排,在建立并发度模型时,充分考虑到现有的资源使用信息,从而避免了由于并发设置不合理加重设备性能隐患的问题。另外,在建立编排评估模型的过程中,将批量任务的历史平均耗时及其权重考虑进来,从而迎合了目前的业务发展趋势。具体地,本发明有着如下优点:①自适应调整批量作业各个任务的执行顺序。②可以推算下一个批量日该批量作业的时间窗。③有效缩短批量时间窗,各个并发进程利用率趋于均匀。
综上,本发明提供了一种在批量调度及作业任务编排时通过场景分析,进而实现科学作业任务编排,得到在目前资源使用情况下,批量作业总体的最短耗时。可解决随着应用系统业务量增长、批量作业越来越复杂与计算时效性要求之间的矛盾。
一实施例中,参见图4,批量任务编排方法还包括:
步骤400:根据资源使用信息建立并发度评估模型。
具体地,可以根据逻辑CPU个数、逻辑CPU权重、内存使用率、内存权重、磁盘繁忙度及磁盘繁忙度权重监理并发度评估模型,更进一步地,并根据上述参数监理并发度评估模型的限制条件。
一实施例中,参见图5,历史处理信息包括:批量任务的上次处理耗时及历史平均耗时。
可以理解的是,如果当天批量作业的任务编排度完全依赖于上一日的执行结果,某一日批量作业的某个机构因为一些异常情况而导致执行时间发生突变(比如,仅仅当日处理数据量发生较大的变化),则会导致下一次执行时顺序不准确,即需要将批量任务的历史平均耗时引入,从而将该种情况所导致的编排影响降到最低。
一实施例中,参见图6,步骤300具体包括:
步骤301:根据最优并发度及批量任务的历史处理信息及预设的编排评估模型计算批量任务的耗时序列。
具体地,将步骤200中所得到的最优并发度、批量任务的上次处理耗时及历史平均耗时输入到编排评估模型中,从而得到批量任务中各个任务的耗时,即批量任务的耗时序列。
步骤302:根据各任务的耗时对耗时序列进行排序,并根据排序结果计算处理批量任务的目标耗时。
具体地,将耗时序列进按照耗时进行倒序排列,
步骤303:根据排序结果及目标耗时对批量任务进行编排。
具体地,基于步骤302所得到的序列可以得到优化后的任务编排顺序,同时可以计算得出基于新任务编排下总体耗时。
一实施例中,参见图7,批量任务编排方法还包括:
步骤500:获取批量任务的历史处理信息。
可以理解的是,步骤500中的历史处理信息同样包括:批量任务的上次处理耗时及历史平均耗时。
为进一步地说明本方案,本发明提供批量任务编排方法的具体应用实例,该具体应用实例具体包括如下内容20,参见图8。
S0:获取处理批量任务的资源使用信息。
具体地,读取逻辑CPU个数A、CPU权重Wc、内存使用率M、内存权重Wm、磁盘IO繁忙度N及磁盘繁忙度权重Wo。
S1:建立并发度评估模型。
根据S0中获取的参数建立并发度评估模型,并发度评估模型具体为:
Figure BDA0002118492600000071
其中,P为计算后的并发数(取整数),A为逻辑CPU个数,M为内存使用百分比,N为磁盘IO繁忙度百分比,Wc、Wm、Wo分别是CPU、内存、磁盘IO影响占比权重,权重根据批量作业是CPU计算型、大对象操作型、磁盘IO操作型等取经验值(0<=权重<=1),X可取经验值2,表示并发数不超过逻辑CPU个数的1/2,K取经验值0.8,表示资源使用率基准值不超过80%,比如当K-M<0时,表示此时内存不足,对于并发度P需要降低。
S2:将S0中参数输入至并发度模型中,计算批量任务的最优并发度。
S3:建立编排评估模型。
首先以初始模型为例(没有加入批量任务的历史平均耗时及其权重),假设某个批量作业按机构并发执行,且满足如下条件:①机构数量为m;②并发度为n;③设批量执行的总体时间为T;④每个并发处理进程总消耗时间队列为Pj(j=1..n);⑤该批量作业上日各个机构的执行时间序列Ci;⑥该批量作业各个机构历史执行时间序列Bi。
将Ci由大到小进行排序,得到时间序列Qi(i=1..m),从排序好的Qi(i=1..m)中取n个任务到对应进程执行。任意进程执行完后,统计每个进程总体消耗时间Pj(j=1..n),并再次从队列Qi(i<=m)中选取一个任务执行,并添加到Pj=MIN(P1,..,Pn)的进程中,如果MIN(P1,..,Pn)的值相同,则任意选取一个Pn执行,如此反复循环直到Qi队列最后一个任务对象执行完成。
用公式表示即得到各个进程的时间为(初始模型):
Figure BDA0002118492600000081
批量的总体时间为:T=MAX(Pj)(j=1..n) (3)
其中,T等于所有最终n个Pj的最大值。由公式2及公式3,可以根据上一日某批量作业各个机构的执行时间来推算出调度优化后该批量的总体时间。
以上编排模型中,当天批量作业的任务编排度完全依赖于上一日的执行结果,如果某一日该批量作业的某个机构因为一些异常情况而导致执行时间发生突变(比如,仅仅当日处理数据量发生较大的变化),会导致下一次执行时顺序不准确,故进一步提出如下优化模型。
引入“权重因子”来调节“历史平均执行时间”和“上日执行时间”对执行顺序的影响程度。“权重因子”可以根据实际执行情况进行调节,根据历史经验一般可采用2/8法则分割,“历史执行时间”占比80%权重,“上日执行时间”占比20%权重。此时当日的执行顺序将不再由公式2中的Qi排序获得,而需要按“权重因子”计算后的值来代替。假设该批量作业各机构“历史执行时间”取权重后时间序列记为Xi,批量各机构“历史平均执行时间”序列为Bi,“上日执行时间”序列记为Ci,则
Xi=Bi×0.8+Ci×0.2(i=1..m) (4)
将Xi按照时间倒序排列后得到新的队列Yi,则各个进程的时间为:
Figure BDA0002118492600000082
批量的总体时间为:
T=MAX(Pj)(j=1..n) (6)
可以理解的是,编排评估模型的建立过程中,同样可以引入业务量及业务类型作为另外的权重因子影响各并发任务的调度优先级编排。
S4:根据排序结果及目标耗时对批量任务进行编排。
具体地,参照S3中的公式5及计算的总体时间T对批量任务进行编排。
从上述描述可知,本发明提供的批量任务编排方法,根据现有的处理批量任务的资源使用信息及并发度模型计算执行该批量任务的最优并发度,接着,根据该最优并发度及该批量任务的历史处理信息及编排评估模型对该批量任务进行编排,在建立并发度模型时,充分考虑到现有的资源使用信息,从而避免了由于并发设置不合理加重设备性能隐患的问题。另外,在建立编排评估模型的过程中,将批量任务的历史平均耗时及其权重考虑进来,从而迎合了目前的业务发展趋势。具体地,本发明有着如下优点:①自适应调整批量作业各个任务的执行顺序。②可以推算下一个批量日该批量作业的时间窗。③有效缩短批量时间窗,各个并发进程利用率趋于均匀。
综上,本发明提供了一种在批量调度及作业任务编排时通过场景分析,进而实现科学作业任务编排,得到在目前资源使用情况下,批量作业总体的最短耗时。可解决随着应用系统业务量增长、批量作业越来越复杂与计算时效性要求之间的矛盾。
基于同一发明构思,本申请实施例还提供了批量任务编排装置,可以用于实现上述实施例所描述的方法,如下面的实施例。由于批量任务编排装置解决问题的原理与批量任务编排方法相似,因此批量任务编排装置的实施可以参见批量任务编排方法实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本发明的实施例提供一种能够实现批量任务编排方法的批量任务编排装置的具体实施方式,参见图9,批量任务编排装置具体包括如下内容:
使用信息获取单元10,用于获取处理批量任务的资源使用信息。
并发度生成单元20,根据资源使用信息及预设的并发度评估模型生成批量任务的最优并发度。
批量任务编排单元30,用于根据最优并发度、批量任务的历史处理信息及预设的编排评估模型对批量任务进行编排。
优选地,批量任务编排装置还包括:评估模型建立单元,用于根据资源使用信息建立并发度评估模型。
优选地,批量任务编排装置还包括:评估模型,用于根据批量任务的每个历史处理信息及对应的历史处理信息的权重生成编排评估模型。
优选地,批量任务编排单元包括:
序列计算模块,用于根据最优并发度及批量任务的历史处理信息及预设的编排评估模型计算批量任务的耗时序列;
序列排序模块,用于根据各任务的耗时对耗时序列进行排序,并根据排序结果计算处理批量任务的目标耗时;
批量任务编排模型,用于根据排序结果及目标耗时对批量任务进行编排。
从上述描述可知,本发明提供的批量任务编排装置,根据现有的处理批量任务的资源使用信息及并发度模型计算执行该批量任务的最优并发度,接着,根据该最优并发度及该批量任务的历史处理信息及编排评估模型对该批量任务进行编排,在建立并发度模型时,充分考虑到现有的资源使用信息,从而避免了由于并发设置不合理加重设备性能隐患的问题。另外,在建立编排评估模型的过程中,将批量任务的历史平均耗时及其权重考虑进来,从而迎合了目前的业务发展趋势。具体地,本发明有着如下优点:①自适应调整批量作业各个任务的执行顺序。②可以推算下一个批量日该批量作业的时间窗。③有效缩短批量时间窗,各个并发进程利用率趋于均匀。
综上,本发明提供了一种在批量调度及作业任务编排时通过场景分析,进而实现科学作业任务编排,得到在目前资源使用情况下,批量作业总体的最短耗时。可解决随着应用系统业务量增长、批量作业越来越复杂与计算时效性要求之间的矛盾。
本申请的实施例还提供能够实现上述实施例中的批量任务编排方法中全部步骤的一种电子设备的具体实施方式,参见图10,电子设备具体包括如下内容:
处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204;
其中,处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信;通信接口1203用于实现服务器端设备、数据读取设备以及用户端设备等相关设备之间的信息传输。
处理器1201用于调用存储器1202中的计算机程序,处理器执行计算机程序时实现上述实施例中的批量任务编排方法中的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:获取处理批量任务的资源使用信息。
步骤200:根据资源使用信息及预设的并发度评估模型生成批量任务的最优并发度。
步骤300:根据最优并发度、批量任务的历史处理信息及预设的编排评估模型对批量任务进行编排。
从上述描述可知,本申请实施例中的电子设备,根据现有的处理批量任务的资源使用信息及并发度模型计算执行该批量任务的最优并发度,接着,根据该最优并发度及该批量任务的历史处理信息及编排评估模型对该批量任务进行编排,在建立并发度模型时,充分考虑到现有的资源使用信息,从而避免了由于并发设置不合理加重设备性能隐患的问题。另外,在建立编排评估模型的过程中,将批量任务的历史平均耗时及其权重考虑进来,从而迎合了目前的业务发展趋势。具体地,本发明有着如下优点:①自适应调整批量作业各个任务的执行顺序。②可以推算下一个批量日该批量作业的时间窗。③有效缩短批量时间窗,各个并发进程利用率趋于均匀。
综上,本发明提供了一种在批量调度及作业任务编排时通过场景分析,进而实现科学作业任务编排,得到在目前资源使用情况下,批量作业总体的最短耗时。可解决随着应用系统业务量增长、批量作业越来越复杂与计算时效性要求之间的矛盾。
本申请的实施例还提供能够实现上述实施例中的批量任务编排方法中全部步骤的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的批量任务编排方法的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:获取处理批量任务的资源使用信息。
步骤200:根据资源使用信息及预设的并发度评估模型生成批量任务的最优并发度。
步骤300:根据最优并发度、批量任务的历史处理信息及预设的编排评估模型对批量任务进行编排。
从上述描述可知,本申请实施例中的计算机可读存储介质,根据现有的处理批量任务的资源使用信息及并发度模型计算执行该批量任务的最优并发度,接着,根据该最优并发度及该批量任务的历史处理信息及编排评估模型对该批量任务进行编排,在建立并发度模型时,充分考虑到现有的资源使用信息,从而避免了由于并发设置不合理加重设备性能隐患的问题。另外,在建立编排评估模型的过程中,将批量任务的历史平均耗时及其权重考虑进来,从而迎合了目前的业务发展趋势。具体地,本发明有着如下优点:①自适应调整批量作业各个任务的执行顺序。②可以推算下一个批量日该批量作业的时间窗。③有效缩短批量时间窗,各个并发进程利用率趋于均匀。
综上,本发明提供了一种在批量调度及作业任务编排时通过场景分析,进而实现科学作业任务编排,得到在目前资源使用情况下,批量作业总体的最短耗时。可解决随着应用系统业务量增长、批量作业越来越复杂与计算时效性要求之间的矛盾。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
虽然本说明书实施例提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种批量任务编排方法,其特征在于,包括:
获取处理所述批量任务的资源使用信息;
根据所述资源使用信息及预设的并发度评估模型生成所述批量任务的最优并发度;
根据所述最优并发度、所述批量任务的历史处理信息及预设的编排评估模型对所述批量任务进行编排;
所述获取处理所述批量任务的资源使用信息包括:
读取逻辑CPU个数A、逻辑CPU权重Wc、内存使用率M、内存权重Wm、磁盘IO繁忙度N及磁盘繁忙度权重Wo;
所述批量任务编排方法还包括:根据所述资源使用信息建立所述并发度评估模型;
所述根据所述资源使用信息建立所述并发度评估模型,包括:
P=(A/X)×Wc+(A/X)×(K-M)×Wm+(A/X)×(K-N)×Wo
同时满足,Wc+Wm+Wo=1,0<K<1,X>=1
其中,P为计算后的并发数,且取整数,A为逻辑CPU个数,M为内存使用百分比,N为磁盘IO繁忙度百分比,Wc、Wm、Wo分别是CPU、内存、磁盘IO影响占比权重,CPU影响占比权重、内存影响占比权重以及磁盘IO影响占比权重均根据批量作业是CPU计算型、大对象操作型、磁盘IO操作型取经验值,0<=CPU影响占比权重、内存影响占比权重、磁盘IO影响占比权重<=1,X取经验值2,表示并发数不超过逻辑CPU个数的1/2,K取经验值0.8,表示资源使用率基准值不超过80%,当K-M<0时,表示此时内存不足,对于并发度P需要降低。
2.根据权利要求1所述的批量任务编排方法,其特征在于,所述资源使用信息包括:逻辑CPU个数、逻辑CPU权重、内存使用率、内存权重、磁盘繁忙度及磁盘繁忙度权重。
3.根据权利要求1所述的批量任务编排方法,其特征在于,还包括:根据所述批量任务的每个历史处理信息及对应的历史处理信息的权重生成所述编排评估模型。
4.根据权利要求1所述的批量任务编排方法,其特征在于,所述历史处理信息包括:所述批量任务的上次处理耗时及历史平均耗时。
5.根据权利要求1所述的批量任务编排方法,其特征在于,所述根据所述最优并发度、所述批量任务的历史处理信息及预设的编排评估模型对所述批量任务进行编排,包括:
根据所述最优并发度及所述批量任务的历史处理信息及预设的编排评估模型计算所述批量任务的耗时序列;
根据各任务的耗时对所述耗时序列进行排序,并根据排序结果计算处理所述批量任务的目标耗时;
根据所述排序结果及所述目标耗时对所述批量任务进行编排。
6.根据权利要求1所述的批量任务编排方法,其特征在于,还包括:获取所述批量任务的历史处理信息。
7.一种批量任务编排装置,其特征在于,包括:
使用信息获取单元,用于获取处理所述批量任务的资源使用信息;
并发度生成单元,根据所述资源使用信息及预设的并发度评估模型生成所述批量任务的最优并发度;
批量任务编排单元,用于根据所述最优并发度、所述批量任务的历史处理信息及预设的编排评估模型对所述批量任务进行编排;
所述获取处理所述批量任务的资源使用信息包括:
读取逻辑CPU个数A、逻辑CPU权重Wc、内存使用率M、内存权重Wm、磁盘IO繁忙度N及磁盘繁忙度权重Wo;
所述批量任务编排方法还包括:根据所述资源使用信息建立所述并发度评估模型;
所述根据所述资源使用信息建立所述并发度评估模型,包括:
P=(A/X)×Wc+(A/X)×(K-M)×Wm+(A/X)×(K-N)×Wo
同时满足,Wc+Wm+Wo=1,0<K<1,X>=1
其中,P为计算后的并发数,且取整数,A为逻辑CPU个数,M为内存使用百分比,N为磁盘IO繁忙度百分比,Wc、Wm、Wo分别是CPU、内存、磁盘IO影响占比权重,CPU影响占比权重、内存影响占比权重以及磁盘IO影响占比权重均根据批量作业是CPU计算型、大对象操作型、磁盘IO操作型取经验值,0<=CPU影响占比权重、内存影响占比权重、磁盘IO影响占比权重<=1,X取经验值2,表示并发数不超过逻辑CPU个数的1/2,K取经验值0.8,表示资源使用率基准值不超过80%,当K-M<0时,表示此时内存不足,对于并发度P需要降低。
8.如权利要求7所述的批量任务编排装置,其特征在于,还包括:评估模型,用于根据所述批量任务的每个历史处理信息及对应的历史处理信息的权重生成所述编排评估模型。
9.如权利要求7所述的批量任务编排装置,其特征在于,批量任务编排单元包括:
序列计算模块,用于根据所述最优并发度及所述批量任务的历史处理信息及预设的编排评估模型计算所述批量任务的耗时序列;
序列排序模块,用于根据各任务的耗时对所述耗时序列进行排序,并根据排序结果计算处理所述批量任务的目标耗时;
批量任务编排模型,用于根据所述排序结果及所述目标耗时对所述批量任务进行编排。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述批量任务编排方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6任一项所述批量任务编排方法的步骤。
CN201910598614.7A 2019-07-04 2019-07-04 批量任务编排方法及装置 Active CN110287018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910598614.7A CN110287018B (zh) 2019-07-04 2019-07-04 批量任务编排方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910598614.7A CN110287018B (zh) 2019-07-04 2019-07-04 批量任务编排方法及装置

Publications (2)

Publication Number Publication Date
CN110287018A CN110287018A (zh) 2019-09-27
CN110287018B true CN110287018B (zh) 2021-08-13

Family

ID=68020602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910598614.7A Active CN110287018B (zh) 2019-07-04 2019-07-04 批量任务编排方法及装置

Country Status (1)

Country Link
CN (1) CN110287018B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750348A (zh) * 2019-10-23 2020-02-04 神州数码融信软件有限公司 批量作业调度方法及装置
CN110780976B (zh) * 2019-10-24 2022-03-15 上海华讯网络系统有限公司 自动化操作编排与执行方法及系统
CN111353696A (zh) * 2020-02-26 2020-06-30 中国工商银行股份有限公司 一种资源池的调度方法及装置
CN111461867A (zh) * 2020-04-01 2020-07-28 中国银行股份有限公司 批量作业模拟运行模型建立方法及装置
CN112417748B (zh) * 2020-11-19 2022-06-21 苏州浪潮智能科技有限公司 一种调度自动驾驶仿真任务的方法、系统、设备及介质
CN113806184A (zh) * 2021-10-12 2021-12-17 中国银行股份有限公司 一种批量作业的分布异常检查方法及系统
CN114048011B (zh) * 2021-11-04 2022-08-19 安徽博微广成信息科技有限公司 多任务处理方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102393839A (zh) * 2011-11-30 2012-03-28 中国工商银行股份有限公司 并行数据处理系统及方法
CN107315627A (zh) * 2017-05-31 2017-11-03 北京京东尚科信息技术有限公司 一种自动化配置数据仓库并行任务队列的方法和装置
CN107832126A (zh) * 2017-10-20 2018-03-23 平安科技(深圳)有限公司 一种线程的调整方法及其终端
CN108897876A (zh) * 2018-06-29 2018-11-27 中科鼎富(北京)科技发展有限公司 一种数据接入方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100444121C (zh) * 2006-09-11 2008-12-17 中国工商银行股份有限公司 批量任务调度引擎及调度方法
US10146592B2 (en) * 2015-09-18 2018-12-04 Salesforce.Com, Inc. Managing resource allocation in a stream processing framework
CN107291547B (zh) * 2016-03-31 2021-02-05 创新先进技术有限公司 一种任务调度处理方法、装置及系统
CN107748696B (zh) * 2017-09-20 2020-05-01 深圳壹账通智能科技有限公司 一种任务调度的方法及终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102393839A (zh) * 2011-11-30 2012-03-28 中国工商银行股份有限公司 并行数据处理系统及方法
CN107315627A (zh) * 2017-05-31 2017-11-03 北京京东尚科信息技术有限公司 一种自动化配置数据仓库并行任务队列的方法和装置
CN107832126A (zh) * 2017-10-20 2018-03-23 平安科技(深圳)有限公司 一种线程的调整方法及其终端
CN108897876A (zh) * 2018-06-29 2018-11-27 中科鼎富(北京)科技发展有限公司 一种数据接入方法及装置

Also Published As

Publication number Publication date
CN110287018A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110287018B (zh) 批量任务编排方法及装置
Samadi et al. E-HEFT: enhancement heterogeneous earliest finish time algorithm for task scheduling based on load balancing in cloud computing
Agullo et al. Are static schedules so bad? a case study on cholesky factorization
Muthuvelu et al. A dynamic job grouping-based scheduling for deploying applications with fine-grained tasks on global grids
US8015564B1 (en) Method of dispatching tasks in multi-processor computing environment with dispatching rules and monitoring of system status
CN108881495A (zh) 资源分配方法、装置、计算机设备及存储介质
Menon et al. Automated load balancing invocation based on application characteristics
WO2011009652A2 (en) A method and system for job scheduling in distributed data processing system with identification of optimal network topology
US9104491B2 (en) Batch scheduler management of speculative and non-speculative tasks based on conditions of tasks and compute resources
CN114237835A (zh) 一种任务求解方法及其装置
CN114911613A (zh) 一种云际计算环境中跨集群资源高可用调度方法及系统
Arabnejad et al. Budget constrained scheduling strategies for on-line workflow applications
Sun et al. Multi-dimensional resource integrated scheduling in a shared data center
CN114579284A (zh) 任务调度方法及装置
JP2012181578A (ja) 更新制御装置及びプログラム
Ravi et al. Valuepack: value-based scheduling framework for CPU-GPU clusters
US20230004440A1 (en) Allocating of computing resources for applications
Rekik et al. A context based scheduling approach for adaptive business process in the cloud
CN115033374A (zh) 一种多核可编程控制器的任务到线程匹配方法
Ilyushkin et al. Performance-feedback autoscaling with budget constraints for cloud-based workloads of workflows
CN113641476A (zh) 一种任务调度方法、游戏引擎、设备及存储介质
CN110297693B (zh) 一种分布式软件任务分配的方法及其系统
CN115269131A (zh) 一种任务调度方法及装置
Kim et al. An allocation and provisioning model of science cloud for high throughput computing applications
CN115145591B (zh) 一种基于多中心的医疗etl任务调度方法、系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant