CN109684088B

CN109684088B - 云平台资源约束的遥感大数据快速处理任务调度方法

Info

Publication number: CN109684088B
Application number: CN201811545502.7A
Authority: CN
Inventors: 吴泽彬; 臧其涛; 羊星月; 殷宪亮; 韦志辉
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2023-04-07
Anticipated expiration: 2038-12-17
Also published as: CN109684088A

Abstract

本发明公开了一种云平台资源约束的遥感大数据快速处理任务调度方法。基于DAG建模的遥感大数据处理任务形式化描述，基于偏序关系约束的多任务序列混合量子进化调度和云平台资源自适应分配，本发明考虑了可并行计算任务的并行度，调度的目标是不同并行度下的小任务，可以实现资源约束条件下更加细粒度的遥感大数据处理任务调度。

Description

云平台资源约束的遥感大数据快速处理任务调度方法

技术领域

本发明属于遥感大数据处理领域，具体地说，是一种云平台资源约束的遥感大数据快速处理任务调度方法。

背景技术

遥感技术通过地面物体对电磁波的反射和辐射来获取地面的信息，通过对信息进行定量和定性的分析来达到探测和检测的目的，为人类认识和改变生态环境提供了强有力的技术支持。随着光学技术、无线电电子技术和计算机科学技术的发展，遥感图像的空间分辨率和光谱分辨率越来越高，遥感数据量已呈现爆炸式增长趋势，遥感数据已明显具有大数据特征。为了进一步挖掘遥感图像的潜在信息，针对遥感大数据的应用日益复杂，计算流程和模型愈发复杂，时空复杂度较高，传统的单机计算会出现计算和存储的瓶颈。

云计算是分布式计算的最新发展，具有并行计算、高扩展性、高容错性的特点，将计算和存储分布在大量的廉价的计算机，可以随时获取，按需使用，方便扩展，还具有良好的容错性。云计算不仅具有强大的计算和存储能力，可以很好的解决传统计算模式的不足，给遥感大数据处理带来新的解决方案。以Hadoop和Spark云计算平台为例，MapReduce编程模型通过并行计算方式解决大规模数据计算问题，HDFS分布式存储解决了遥感大数据存储问题。将针对遥感大数据的算法部署在云平台，可以显著的缩短任务完成时间，具有很好的处理效果，但仍存在一定的提升空间。

云计算下通过任务调度能有效提高执行效率，目前的任务调度研究主要集中于任务级别的调度，调度的粒度大，另外，尚未有学者提出一种遥感大数据的快速自动化运行方法。用户在实际使用云平台时，出于成本限制，云计算资源有限。遥感图像处理算法在云计算环境下并行执行时，可以根据算法处理逻辑分成多个任务，包括可并行计算任务与不可并行计算任务。对于可并行计算的任务节点，由于资源约束限制，并行度有限。云计算会将所有的计算资源分配给可并行计算的任务，同时任务按照编码顺序依次有序执行，并没有考虑多个任务之间可以同时执行，这样就会导致计算资源不能得到充分利用，特别是对于不可并行计算的任务节点而言，在该任务执行过程中只用到一个计算资源，别的计算资源处于空闲等待状态，延长了任务运行的总时间。

发明内容

本发明的目的在于提供一种适用于遥感大数据处理算法在云平台中的任务调度方法。

实现本发明目的的技术解决方案为：一种云平台资源约束的遥感大数据快速处理任务调度方法，基于DAG建模的遥感大数据处理任务形式化描述，基于偏序关系约束的多任务序列混合量子进化调度和云平台资源自适应分配，具体步骤如下：

步骤1，通过DAG建模对遥感大数据处理任务进行形式化描述，并建立资源-时间映射表；

步骤2，以最快任务完成时间为优化目标，根据资源-时间映射表和DAG图中多任务序列的偏序关系约束实现混合量子进化算法进行任务调度；

步骤3，根据任务调度结果，为遥感大数据处理的各个任务自适应分配云计算资源，实现遥感大数据处理任务的快速自动化运行。

本发明考虑了可并行计算任务的并行度，调度的目标是不同并行度下的小任务，可以实现资源约束条件下更加细粒度的遥感大数据处理任务调度。

本发明与现有技术相比，其显著优点：1)本发明将遥感大数据处理算法划分成多个任务，并根据任务之间的偏序关系建立DAG模型，通过DAG模型对算法进行形式化描述。通过定量的数据统计，可以获得每个任务在不同并行度下的执行时间，并建立资源-时间映射表，该表可以描述不同任务在不同并行度下的计算复杂度。2)本发明提出了在资源限制下基于偏序关系约束的多任务序列混合量子进化调度算法。以最快任务完成时间为目标，对于不可并行计算的任务，由量子进化算法分配计算资源；而对于能并行计算的任务，由自定义决策方式分配计算资源。不但降低了编码的复杂度，同时能动态的为并行计算的任务分配计算资源，缩短了任务运行时间。并根据任务之间偏序关系，改变任务执行顺序，增加任务序列的多样性，扩大最优解的搜索范围，防止陷入局部最优解，具有种群规模小、收敛速度较快、全局寻优能力强的特点。3)本发明可以根据混合量子进化算法的调度结果，为各个任务自适应分配和调度资源，实现云平台资源的充分利用和遥感大数据处理任务的自动快速运行。

附图说明

图1是云平台资源约束的遥感大数据快速处理任务调度方法。

图2是量子进化调度算法的详细流程。

具体实施方式

本发明的方法通过DAG建模对遥感大数据处理任务进行形式化描述，然后根据基于偏序关系约束的多任务序列混合量子进化算法实现任务调度，根据任务调度结果，自适应分配云计算资源，实现遥感大数据处理算法的快速自动化执行。

下面结合附图详细说明本发明提出的云平台资源约束的遥感大数据快速处理任务调度方法。

结合图1，云平台资源约束的遥感大数据快速处理任务调度方法的具体过程为：

步骤1，遥感大数据处理算法由一系列具有约束关系的任务构成，通过DAG图来描述任务偏序关系，对处理任务进行形式化描述。通常使用G＝(V,E)这样一个二元组来表示一个DAG工作流，其中V＝(v₁,v₂,...,v_n)，代表一组包含n个任务的待执行任务集，v_n是任务集中的子任务；E＝{(i,j)}表示任务之间的边的集合，其中任务i和任务j之间的边：(i,j)∈E，表示两个任务之间的依赖关系，任务j必须等待任务i完成后才能开始执行。除此之外，每条边附有一个权值w_i，表示任务i的实际运行时间。定量的统计不同并行度下任务的执行时间，建立长度为n*m的资源-时间映射表(RDMT)，m表示计算资源数量，描述各个任务在不同并行度下的计算复杂度，即计算时间。

步骤2，以最快任务完成时间为优化目标，根据基于偏序关系约束的多任务序列实现混合量子进化算法进行任务调度，获得调度结果。本发明将所考虑的调度问题作为一个优化问题来描述，以最快任务完成时间为优化目标，并给出相应的优化模型如下，

minimize c_w＝max{S_i+D_i}＝max{argmin{t|x_it＝1}+D_i}

subject to argmin{t|x_it＝1}≥max{argmin{t|x_pt＝1}+D_pj}

x_it∈{0,1},r_i∈{1,2,…m}

variables x_it,r_i,i＝1,2,...,n

其中，c_w表示云计算应用最大完成时间，t表示某一计算资源，S_i和D_i分别代表任务i的开始执行时间和运行时间，D_pj表示任务p在资源数量为j的运行时间，x_it表示任务i在计算资源t的执行情况：x_it＝1表示任务i在资源t上执行，x_it＝0表示任务i不在资源t上执行，r_i必须是一个整数以便从RDMT表格中选取数据，R表示云计算资源数量。

以所有任务的单机执行时间为标准，升序排序，得到初始任务序列ts。针对该序列中不可并行计算的任务，通过量子进化算法实现任务调度；对于可并行计算的任务，按照任务单机运行时间的比例将剩余的空闲虚拟机进行动态分配，调度完成之后，获得当前最快运行时间tmpT。

使用二进制编码方式，使用连续的m位Q-bit表示使用资源数量。最优解的求解步骤包括：(1)个体由一系列的资源构成，与ts中的任务一一对应，表示ts中任务得到的计算资源，第t代的种群可以表示为

n为个体的数量；(2)观察Q(t)的状态，根据量子概率幅的值，坍塌成

(3)适应度评估；(4)根据适应度评估结果使用旋转门Q-gate更新Q(t)和最优解。迭代执行步骤(1)-(4)，满足迭代次数后，得到最终的最优解。

上述步骤(3)适应度评估的步骤为：(a)从ts中选取满足运行条件的任务mt：初始化mt为空，遍历ts中的任务task，若task的父任务没有在mt中出现，则将其加入mt，否则结束此次选取；(b)为mt中任务分配计算资源，其中不可并行任务通过量子算法分配计算资源；可并行任务根据任务单机运行时间的比例分配计算资源；(c)根据步骤a和步骤b的结果，为mt中的任务分配具体的计算资源，并且更新计算资源的状态和运行时间；(d)重复a、b、c步骤，直至ts中任务数量为0，返回适应度值。

为了进一步提高最优解的质量，对于待调度的任务执行序列ts，以任务之间的偏序关系为约束，采用移除-插入策略调整任务执行的先后顺序，得到新的任务执行序列并进行调度。重复执行量子进化调度算法，直到任务序列的调整次数达到某一预设阈值K，得到最终的最快运行时间。

步骤3，根据步骤2得到的最优调度结果，为遥感大数据处理的各个任务自适应分配云计算资源，实现云平台资源的充分利用和遥感大数据处理任务的自动快速运行。

本发明中对于同一功能实现了多种不同的算法，则对于实现一个特定功能的任务来说，可以将不同的算法封装成任务进行替换。由于遥感大数据处理算法一般由多个功能模块组合而成，将已有功能模块进行封装并向外提供接口，根据需求调用相应算法接口，以模块化的方式实现相关算法，本发明根据该特点扩展了遥感大数据处理算法的实现方式。然后根据任务调度算法得到调度结果，为每个任务所需的资源进行自适应分配，实现遥感大数据处理算法的快速自动化运行。

Claims

1.一种云平台资源约束的遥感大数据快速处理任务调度方法，其特征在于：基于DAG建模的遥感大数据处理任务形式化描述，基于偏序关系约束的多任务序列混合量子进化调度和云平台资源自适应分配，具体步骤如下：

步骤1，通过DAG建模对遥感大数据处理任务进行形式化描述，并建立资源-时间映射表；根据遥感大数据处理算法中任务之间的偏序关系，将遥感大数据处理算法以DAG图的形式描述成多个小任务；通过Spark运行遥感大数据处理算法，定量的统计运行数据，获取各个任务在不同并行度下的执行时间，建立资源-时间映射表RDMT；

步骤2，以最快任务完成时间为优化目标，根据资源-时间映射表和DAG图中多任务序列的偏序关系约束实现混合量子进化算法进行任务调度；步骤2的具体实现过程为：

2.1由步骤1得到的DAG图中的任务依赖关系获取任务执行序列ts，根据资源-时间映射表，对于不可并行计算的任务，以最快任务完成时间为目标，根据如下优化模型，由量子进化算法分配计算资源；对于并行计算的任务，首先根据并行任务单机运行时间确定所需的计算资源数量，然后根据计算资源的运行状态，为并行任务分配计算资源；然后得到当前任务序列下的调度结果；

minimize c_w＝max{S_i+D_i}＝max{argmin{t|x_it＝1}+D_i}

subject to argmin{t|x_it＝1}≥max{argmin{t|x_pt＝1}+D_pj}

x_it∈{0,1},r_i∈{1,2,…m}

其中，c_w表示云计算应用最大完成时间，t表示某一计算资源，S_i和D_i分别代表任务i的开始执行时间和运行时间，D_pj表示任务p在资源数量为j的运行时间，x_it表示任务i在计算资源t的执行情况：x_it＝1表示任务i在资源t上执行，x_it＝0表示任务i不在资源t上执行，r_i必须是一个整数以便从RDMT表格中选取数据，R表示云计算资源数量，n表示任务数量，m表示计算资源数量；

2.2对于待调度的任务执行序列ts，以任务之间的偏序关系为约束，采用移除-插入策略调整任务序列中的先后执行顺序，得到新的任务执行序列并进行任务调度；按以上方式调整任务序列顺序K次，K表示任务序列的长度，获得最终的最优调度结果；

2.根据权利要求1所述的云平台资源约束的遥感大数据快速处理任务调度方法，其特征在于，所述步骤3中：

实现遥感大数据处理时，根据步骤2混合量子进化算法的调度结果，各个任务在启动时间点调用完成任务功能所需的算法处理接口，并分配该算法运行需要的云计算资源，然后启动任务。