CN109684088B - 云平台资源约束的遥感大数据快速处理任务调度方法 - Google Patents

云平台资源约束的遥感大数据快速处理任务调度方法 Download PDF

Info

Publication number
CN109684088B
CN109684088B CN201811545502.7A CN201811545502A CN109684088B CN 109684088 B CN109684088 B CN 109684088B CN 201811545502 A CN201811545502 A CN 201811545502A CN 109684088 B CN109684088 B CN 109684088B
Authority
CN
China
Prior art keywords
task
remote sensing
big data
resource
sensing big
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811545502.7A
Other languages
English (en)
Other versions
CN109684088A (zh
Inventor
吴泽彬
臧其涛
羊星月
殷宪亮
韦志辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201811545502.7A priority Critical patent/CN109684088B/zh
Publication of CN109684088A publication Critical patent/CN109684088A/zh
Application granted granted Critical
Publication of CN109684088B publication Critical patent/CN109684088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种云平台资源约束的遥感大数据快速处理任务调度方法。基于DAG建模的遥感大数据处理任务形式化描述,基于偏序关系约束的多任务序列混合量子进化调度和云平台资源自适应分配,本发明考虑了可并行计算任务的并行度,调度的目标是不同并行度下的小任务,可以实现资源约束条件下更加细粒度的遥感大数据处理任务调度。

Description

云平台资源约束的遥感大数据快速处理任务调度方法
技术领域
本发明属于遥感大数据处理领域,具体地说,是一种云平台资源约束的遥感大数据快速处理任务调度方法。
背景技术
遥感技术通过地面物体对电磁波的反射和辐射来获取地面的信息,通过对信息进行定量和定性的分析来达到探测和检测的目的,为人类认识和改变生态环境提供了强有力的技术支持。随着光学技术、无线电电子技术和计算机科学技术的发展,遥感图像的空间分辨率和光谱分辨率越来越高,遥感数据量已呈现爆炸式增长趋势,遥感数据已明显具有大数据特征。为了进一步挖掘遥感图像的潜在信息,针对遥感大数据的应用日益复杂,计算流程和模型愈发复杂,时空复杂度较高,传统的单机计算会出现计算和存储的瓶颈。
云计算是分布式计算的最新发展,具有并行计算、高扩展性、高容错性的特点,将计算和存储分布在大量的廉价的计算机,可以随时获取,按需使用,方便扩展,还具有良好的容错性。云计算不仅具有强大的计算和存储能力,可以很好的解决传统计算模式的不足,给遥感大数据处理带来新的解决方案。以Hadoop和Spark云计算平台为例,MapReduce编程模型通过并行计算方式解决大规模数据计算问题,HDFS分布式存储解决了遥感大数据存储问题。将针对遥感大数据的算法部署在云平台,可以显著的缩短任务完成时间,具有很好的处理效果,但仍存在一定的提升空间。
云计算下通过任务调度能有效提高执行效率,目前的任务调度研究主要集中于任务级别的调度,调度的粒度大,另外,尚未有学者提出一种遥感大数据的快速自动化运行方法。用户在实际使用云平台时,出于成本限制,云计算资源有限。遥感图像处理算法在云计算环境下并行执行时,可以根据算法处理逻辑分成多个任务,包括可并行计算任务与不可并行计算任务。对于可并行计算的任务节点,由于资源约束限制,并行度有限。云计算会将所有的计算资源分配给可并行计算的任务,同时任务按照编码顺序依次有序执行,并没有考虑多个任务之间可以同时执行,这样就会导致计算资源不能得到充分利用,特别是对于不可并行计算的任务节点而言,在该任务执行过程中只用到一个计算资源,别的计算资源处于空闲等待状态,延长了任务运行的总时间。
发明内容
本发明的目的在于提供一种适用于遥感大数据处理算法在云平台中的任务调度方法。
实现本发明目的的技术解决方案为:一种云平台资源约束的遥感大数据快速处理任务调度方法,基于DAG建模的遥感大数据处理任务形式化描述,基于偏序关系约束的多任务序列混合量子进化调度和云平台资源自适应分配,具体步骤如下:
步骤1,通过DAG建模对遥感大数据处理任务进行形式化描述,并建立资源-时间映射表;
步骤2,以最快任务完成时间为优化目标,根据资源-时间映射表和DAG图中多任务序列的偏序关系约束实现混合量子进化算法进行任务调度;
步骤3,根据任务调度结果,为遥感大数据处理的各个任务自适应分配云计算资源,实现遥感大数据处理任务的快速自动化运行。
本发明考虑了可并行计算任务的并行度,调度的目标是不同并行度下的小任务,可以实现资源约束条件下更加细粒度的遥感大数据处理任务调度。
本发明与现有技术相比,其显著优点:1)本发明将遥感大数据处理算法划分成多个任务,并根据任务之间的偏序关系建立DAG模型,通过DAG模型对算法进行形式化描述。通过定量的数据统计,可以获得每个任务在不同并行度下的执行时间,并建立资源-时间映射表,该表可以描述不同任务在不同并行度下的计算复杂度。2)本发明提出了在资源限制下基于偏序关系约束的多任务序列混合量子进化调度算法。以最快任务完成时间为目标,对于不可并行计算的任务,由量子进化算法分配计算资源;而对于能并行计算的任务,由自定义决策方式分配计算资源。不但降低了编码的复杂度,同时能动态的为并行计算的任务分配计算资源,缩短了任务运行时间。并根据任务之间偏序关系,改变任务执行顺序,增加任务序列的多样性,扩大最优解的搜索范围,防止陷入局部最优解,具有种群规模小、收敛速度较快、全局寻优能力强的特点。3)本发明可以根据混合量子进化算法的调度结果,为各个任务自适应分配和调度资源,实现云平台资源的充分利用和遥感大数据处理任务的自动快速运行。
附图说明
图1是云平台资源约束的遥感大数据快速处理任务调度方法。
图2是量子进化调度算法的详细流程。
具体实施方式
本发明的方法通过DAG建模对遥感大数据处理任务进行形式化描述,然后根据基于偏序关系约束的多任务序列混合量子进化算法实现任务调度,根据任务调度结果,自适应分配云计算资源,实现遥感大数据处理算法的快速自动化执行。
下面结合附图详细说明本发明提出的云平台资源约束的遥感大数据快速处理任务调度方法。
结合图1,云平台资源约束的遥感大数据快速处理任务调度方法的具体过程为:
步骤1,遥感大数据处理算法由一系列具有约束关系的任务构成,通过DAG图来描述任务偏序关系,对处理任务进行形式化描述。通常使用G=(V,E)这样一个二元组来表示一个DAG工作流,其中V=(v1,v2,...,vn),代表一组包含n个任务的待执行任务集,vn是任务集中的子任务;E={(i,j)}表示任务之间的边的集合,其中任务i和任务j之间的边:(i,j)∈E,表示两个任务之间的依赖关系,任务j必须等待任务i完成后才能开始执行。除此之外,每条边附有一个权值wi,表示任务i的实际运行时间。定量的统计不同并行度下任务的执行时间,建立长度为n*m的资源-时间映射表(RDMT),m表示计算资源数量,描述各个任务在不同并行度下的计算复杂度,即计算时间。
步骤2,以最快任务完成时间为优化目标,根据基于偏序关系约束的多任务序列实现混合量子进化算法进行任务调度,获得调度结果。本发明将所考虑的调度问题作为一个优化问题来描述,以最快任务完成时间为优化目标,并给出相应的优化模型如下,
minimize cw=max{Si+Di}=max{argmin{t|xit=1}+Di}
subject to argmin{t|xit=1}≥max{argmin{t|xpt=1}+Dpj}
xit∈{0,1},ri∈{1,2,…m}
Figure BDA0001909233190000041
variables xit,ri,i=1,2,...,n
其中,cw表示云计算应用最大完成时间,t表示某一计算资源,Si和Di分别代表任务i的开始执行时间和运行时间,Dpj表示任务p在资源数量为j的运行时间,xit表示任务i在计算资源t的执行情况:xit=1表示任务i在资源t上执行,xit=0表示任务i不在资源t上执行,ri必须是一个整数以便从RDMT表格中选取数据,R表示云计算资源数量。
以所有任务的单机执行时间为标准,升序排序,得到初始任务序列ts。针对该序列中不可并行计算的任务,通过量子进化算法实现任务调度;对于可并行计算的任务,按照任务单机运行时间的比例将剩余的空闲虚拟机进行动态分配,调度完成之后,获得当前最快运行时间tmpT。
使用二进制编码方式,使用连续的m位Q-bit表示使用资源数量。最优解的求解步骤包括:(1)个体由一系列的资源构成,与ts中的任务一一对应,表示ts中任务得到的计算资源,第t代的种群可以表示为
Figure BDA0001909233190000042
n为个体的数量;(2)观察Q(t)的状态,根据量子概率幅的值,坍塌成
Figure BDA0001909233190000043
(3)适应度评估;(4)根据适应度评估结果使用旋转门Q-gate更新Q(t)和最优解。迭代执行步骤(1)-(4),满足迭代次数后,得到最终的最优解。
上述步骤(3)适应度评估的步骤为:(a)从ts中选取满足运行条件的任务mt:初始化mt为空,遍历ts中的任务task,若task的父任务没有在mt中出现,则将其加入mt,否则结束此次选取;(b)为mt中任务分配计算资源,其中不可并行任务通过量子算法分配计算资源;可并行任务根据任务单机运行时间的比例分配计算资源;(c)根据步骤a和步骤b的结果,为mt中的任务分配具体的计算资源,并且更新计算资源的状态和运行时间;(d)重复a、b、c步骤,直至ts中任务数量为0,返回适应度值。
为了进一步提高最优解的质量,对于待调度的任务执行序列ts,以任务之间的偏序关系为约束,采用移除-插入策略调整任务执行的先后顺序,得到新的任务执行序列并进行调度。重复执行量子进化调度算法,直到任务序列的调整次数达到某一预设阈值K,得到最终的最快运行时间。
步骤3,根据步骤2得到的最优调度结果,为遥感大数据处理的各个任务自适应分配云计算资源,实现云平台资源的充分利用和遥感大数据处理任务的自动快速运行。
本发明中对于同一功能实现了多种不同的算法,则对于实现一个特定功能的任务来说,可以将不同的算法封装成任务进行替换。由于遥感大数据处理算法一般由多个功能模块组合而成,将已有功能模块进行封装并向外提供接口,根据需求调用相应算法接口,以模块化的方式实现相关算法,本发明根据该特点扩展了遥感大数据处理算法的实现方式。然后根据任务调度算法得到调度结果,为每个任务所需的资源进行自适应分配,实现遥感大数据处理算法的快速自动化运行。

Claims (2)

1.一种云平台资源约束的遥感大数据快速处理任务调度方法,其特征在于:基于DAG建模的遥感大数据处理任务形式化描述,基于偏序关系约束的多任务序列混合量子进化调度和云平台资源自适应分配,具体步骤如下:
步骤1,通过DAG建模对遥感大数据处理任务进行形式化描述,并建立资源-时间映射表;根据遥感大数据处理算法中任务之间的偏序关系,将遥感大数据处理算法以DAG图的形式描述成多个小任务;通过Spark运行遥感大数据处理算法,定量的统计运行数据,获取各个任务在不同并行度下的执行时间,建立资源-时间映射表RDMT;
步骤2,以最快任务完成时间为优化目标,根据资源-时间映射表和DAG图中多任务序列的偏序关系约束实现混合量子进化算法进行任务调度;步骤2的具体实现过程为:
2.1由步骤1得到的DAG图中的任务依赖关系获取任务执行序列ts,根据资源-时间映射表,对于不可并行计算的任务,以最快任务完成时间为目标,根据如下优化模型,由量子进化算法分配计算资源;对于并行计算的任务,首先根据并行任务单机运行时间确定所需的计算资源数量,然后根据计算资源的运行状态,为并行任务分配计算资源;然后得到当前任务序列下的调度结果;
minimize cw=max{Si+Di}=max{argmin{t|xit=1}+Di}
subject to argmin{t|xit=1}≥max{argmin{t|xpt=1}+Dpj}
xit∈{0,1},ri∈{1,2,…m}
其中,cw表示云计算应用最大完成时间,t表示某一计算资源,Si和Di分别代表任务i的开始执行时间和运行时间,Dpj表示任务p在资源数量为j的运行时间,xit表示任务i在计算资源t的执行情况:xit=1表示任务i在资源t上执行,xit=0表示任务i不在资源t上执行,ri必须是一个整数以便从RDMT表格中选取数据,R表示云计算资源数量,n表示任务数量,m表示计算资源数量;
2.2对于待调度的任务执行序列ts,以任务之间的偏序关系为约束,采用移除-插入策略调整任务序列中的先后执行顺序,得到新的任务执行序列并进行任务调度;按以上方式调整任务序列顺序K次,K表示任务序列的长度,获得最终的最优调度结果;
步骤3,根据任务调度结果,为遥感大数据处理的各个任务自适应分配云计算资源,实现遥感大数据处理任务的快速自动化运行。
2.根据权利要求1所述的云平台资源约束的遥感大数据快速处理任务调度方法,其特征在于,所述步骤3中:
实现遥感大数据处理时,根据步骤2混合量子进化算法的调度结果,各个任务在启动时间点调用完成任务功能所需的算法处理接口,并分配该算法运行需要的云计算资源,然后启动任务。
CN201811545502.7A 2018-12-17 2018-12-17 云平台资源约束的遥感大数据快速处理任务调度方法 Active CN109684088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811545502.7A CN109684088B (zh) 2018-12-17 2018-12-17 云平台资源约束的遥感大数据快速处理任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811545502.7A CN109684088B (zh) 2018-12-17 2018-12-17 云平台资源约束的遥感大数据快速处理任务调度方法

Publications (2)

Publication Number Publication Date
CN109684088A CN109684088A (zh) 2019-04-26
CN109684088B true CN109684088B (zh) 2023-04-07

Family

ID=66186213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811545502.7A Active CN109684088B (zh) 2018-12-17 2018-12-17 云平台资源约束的遥感大数据快速处理任务调度方法

Country Status (1)

Country Link
CN (1) CN109684088B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111314776B (zh) * 2019-11-27 2022-01-21 重庆紫光华山智安科技有限公司 一种针对存储录像不连续的分片加速方法
CN111444007B (zh) * 2020-06-16 2020-11-17 南京理工大学 基于云计算的遥感大数据自动化处理方法
CN112181623B (zh) * 2020-09-30 2022-10-25 清华大学 跨云遥感应用程序调度方法及应用
CN112199196B (zh) * 2020-10-21 2022-03-18 上海交通大学 一种资源配置方法、介质及服务端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699446A (zh) * 2013-12-31 2014-04-02 南京信息工程大学 基于量子粒子群优化算法的多目标工作流动态调度方法
US9135581B1 (en) * 2011-08-31 2015-09-15 Amazon Technologies, Inc. Resource constrained task scheduling

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135581B1 (en) * 2011-08-31 2015-09-15 Amazon Technologies, Inc. Resource constrained task scheduling
CN103699446A (zh) * 2013-12-31 2014-04-02 南京信息工程大学 基于量子粒子群优化算法的多目标工作流动态调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于资源分组的多约束云工作流调度算法;陈爱国等;《电子科技大学学报》;20170530(第03期);全文 *

Also Published As

Publication number Publication date
CN109684088A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
US11989647B2 (en) Self-learning scheduler for application orchestration on shared compute cluster
CN109684088B (zh) 云平台资源约束的遥感大数据快速处理任务调度方法
Wang et al. Distributed machine learning with a serverless architecture
US11120368B2 (en) Scalable and efficient distributed auto-tuning of machine learning and deep learning models
CN110489223B (zh) 一种异构集群中任务调度方法、装置及电子设备
US11429895B2 (en) Predicting machine learning or deep learning model training time
US20220300812A1 (en) Workflow optimization
US20230035451A1 (en) Resource usage prediction for deep learning model
Xiao et al. A cooperative coevolution hyper-heuristic framework for workflow scheduling problem
CN108427602B (zh) 一种分布式计算任务的协同调度方法及装置
Iserte et al. Efficient scalable computing through flexible applications and adaptive workloads
CN115330189A (zh) 一种基于改进飞蛾火焰算法的工作流优化调度方法
CN106648831B (zh) 基于萤火虫算法和动态优先级的云工作流调度方法
WO2022087415A1 (en) Runtime task scheduling using imitation learning for heterogeneous many-core systems
Tuli et al. Splitplace: Ai augmented splitting and placement of large-scale neural networks in mobile edge environments
Nascimento et al. A reinforcement learning scheduling strategy for parallel cloud-based workflows
Tchernykh et al. Mitigating uncertainty in developing and applying scientific applications in an integrated computing environment
Mirsoleimani et al. A parallel memetic algorithm on GPU to solve the task scheduling problem in heterogeneous environments
Feljan et al. Task allocation optimization for multicore embedded systems
Kumar et al. EAEFA: An Efficient Energy-Aware Task Scheduling in Cloud Environment
Herrmann et al. Memory-aware list scheduling for hybrid platforms
Asghari et al. Bi-objective cloud resource management for dependent tasks using Q-learning and NSGA-3
Bazoobandi et al. Solving task scheduling problem in multi-processors with genetic algorithm and task duplication
Kaur et al. Genetic algorithm solution for scheduling jobs in multiprocessor environment
Bensaleh et al. Optimal task scheduling for distributed cluster with active storage devices and accelerated nodes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant