CN108628665A

CN108628665A - 基于数据密集型科学工作流的任务调度与虚拟机整合方法

Info

Publication number: CN108628665A
Application number: CN201810465028.0A
Authority: CN
Inventors: 熊聪聪; 冯阔; 赵青
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2018-10-09

Abstract

本发明涉及一种基于数据密集型科学工作流的任务调度与虚拟机整合方法，包括以下步骤：读取数据密集型科学工作流，构造以任务为节点、任务间的数据依赖关系为边的有向无环图；确定工作流虚拟机：通过获取每个任务执行的确切处理时间选择出该工作流相对最适合的虚拟机，并用CPLEX方法进行虚拟机类型的求解；工作流截止期划分：首先将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包，然后采用基于浮动区间的方法求得工作流截止期；初始化任务调度：在工作流截止期划分的基础上，采用基于深度的任务调度顺序方法；虚拟机租赁成本优化：采用加权融合新租赁时间片预期利用率的PHD方法进行任务调度。

Description

基于数据密集型科学工作流的任务调度与虚拟机整合方法

技术领域

本发明属于数据密集型科学工作流技术领域，尤其是一种基于数据密集型科学工作流的任务调度与虚拟机整合方法。

背景技术

随着计算机网络技术的发展，云计算技术给大数据处理提供了新的技术支持和发展契机。数据密集型数据密集型模式是一种以数据为核心的模式，其特性是执行过程中需要不断获取、共享、更新、存储大规模数据，对于某个数据密集型任务，它所要访问的数据甚至可以遍布大型数据中心的任何地方，所以它的执行效率要很大一部分受制于物理主机和存储结点之间的带宽。因为带宽瓶颈、数据访问延迟以及未加优化的数据迁移机制而使得现有的云系统在满足数据密集型应用方面不尽如人意。

迄今为止，人们已经提出许多数据密集型科学工作流，2009年，Ghafarian等提出将数据密集型工作流先进行子工作流的划分，然后最小化工作流的数据依赖性。然后根据资源的亲密度进行子工作流的分配。2015年，Zhao等提出了一种用于面向数据密集型应用的能量和最后期限的任务调度方法。在该方法中，首先，数据关联聚类方法将数据集和任务建模为一个二叉树。因此，可以大大减少全球数据传输量，有利于降低SLA违背率。其次，“树”基于任务需求程度的计算任务调度方法(TRD)提出，通过减少主动机的数量，降低全局数据传输的时间消耗，优化计算资源和网络带宽的利用率，提高整个云系统的能源利用率。2016年，Zhao等提出了一种改进的基于数据相关聚类的数据布局方法。在初始化阶段，提出了一种基于数据相关聚类和递归划分的数据聚类方法，并与已有的方法相比较，引入了数据大小因子，提出了一种新的矩阵划分方法。以上方法只是通过对任务进行聚类，从而减少deadline，进而提高虚拟机的利用率。但是总体效果不是很理想。

可见，以上经典的方法都存在许多局限性，划分结果并不理想，而且复杂度较高，难以满足大型数据密集型工作流调度和虚拟机成本减低的要求。2015年，Cai等提出了在基于非共享服务的工作流调度与优化。该方法从Pareto解集中挑选成本最低的解作为原关键路径优化问题的解。通过迭代优化多条全关键路径，最小化工作流应用的非共享服务租赁总成本为了增强云环境的各项性能，增加云资源的利用率。2017年，Cai等提出了结合云计算中服务按区间计费的特点，通过对已租赁时间片进行重用，提高资源利用率提出一个任务右移策略和URH方法。实验结果证明这两张策略和规则都能够降低特点类型工作流的资源租赁成本。

然而，由于许多工作流应用存在时效性，也就是具有截止期。长期租赁充足的资源虽然能够满足应用需求，但是容易造成大量的资源浪费。综上所述，现有的数据密集型工作流调度方法在准确度和时间复杂度上都存在很大的提升空间。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于数据密集型科学工作流的任务调度与虚拟机整合方法，该方法有利于提高deadline的精确度和降低数据密集型科学工作流的资源租赁成本。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于数据密集型科学工作流的任务调度与虚拟机整合方法，包括以下步骤：

步骤1、读取数据密集型科学工作流，构造以任务为节点、任务间的数据依赖关系为边的有向无环图DAG；

步骤2、确定工作流虚拟机：通过获取每个任务执行的确切处理时间选择出该工作流相对最适合的虚拟机，并用CPLEX方法进行虚拟机类型的求解；

步骤3、工作流截止期划分：首先将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包，然后采用基于浮动区间的方法求得工作流截止期；

步骤4：初始化任务调度：在工作流截止期划分的基础上，采用基于深度的任务调度顺序方法；

步骤5、虚拟机租赁成本优化：采用加权融合新租赁时间片预期利用率的PHD方法进行任务调度。

进一步，所述步骤2的具体实现方法为：

设α_k(k＝1,2,...,N)和分别表示任务选取了第K种虚拟机以及该虚拟机的价格在截止期划分阶段，虚拟机采用的计费方式为精确计费而非按区间进行计费，E表示的是采用区间计费模式时虚拟机服务的计费区间的长度，执行任务v_i在虚拟机类型α上所需要的总处理时间为T_i,α，此时任务v_i在虚拟机类型α上的成本计算方式为P_i,α，Ω_i,α＝1代表任务v_i选择的虚拟机类型α，反之Ω_i,α＝0，E_i表示的是执行任务v_i完毕的结束时间，上述的整数规划模型表示如下：

该式表示最小化虚拟机总租赁成本；

∑_α∈NΩ_i,α＝1,1≤i≤N，该式表示每个任务只选择一种类型的虚拟机；

该式表示任务间的偏序约束关系；

E₀≥∑_α∈NT_0,αΩ_0,α，该式表示任务间的偏序约束关系；

Ω_i,α∈{0,1},α∈M，该式表示任务是否选择某个类型的虚拟机；

E_N≤D，该式表示保证工作流总执行时间满足截止期约束；

用CPLEX方法进行虚拟机类型的求解法为：设定特定比例avigap＝0.25％，如果某一时刻该任务的最优解和分支限界法的下界之间的差值小于avigap，CPLEX则立刻停止执行，那么此时的最好解将被取为CPLEX的近似解并用符号θ表示，θ_vi表示的是任务v_i在解θ中选择虚拟机的类型。

进一步，所述步骤3的具体实现方法为：

首先，将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包：

T_j，a-T_i，a≤120，1≤j≤N，该式表示任务处理时间相差120s以下的进行聚类

∑_α∈NΩ_i，α＝1，1≤i≤N，该式表示每个任务只选择一种类型的虚拟机

Ω_i，α∈{0，1}，α∈M，该式表示任务是否选择某个类型的虚拟机

然后，设当前的关键路径HP＝{HP_[1]，HP_[2]，...HP_[l]}，l是HP的长度关键路径，关键路径HP的时间间隙为最晚截止时间减去最早开始时间，如果则任务包V_k属于固定任务，V^fix是固定任务包的集合，HP路径上所有任务包的总的时间间隙公式为：

上式中，表示HP的时间间隙，其中HP′＝HP/Vfix/{HP_[l]}方法中的HP_[l]的最晚截止时间为截止期，接下来的路径时间间隙按照运行时间的长度比例为非固定的任务包进行分配，分配给任务任务包v_i∈HP的时间间隙公式为：

在这里，还要进行一次时间间隙是否满足判断，如果也就是说最早开始时间加上分配的时间间隙大于最晚截止时间，则将v_i分配的时间间隙改为最晚截止时间减去最早开始时间，然后重新更新任务v_i的浮动区间并重新计算v_i后面的所有后继任务的最早和最晚时间，直到所有的浮动区间不再更新为止，最后形成的最早结束时间就设为工作流的任务的截止期，用D_vii表示v_i的截止期。

进一步，所述步骤4的具体实现方法为：

定义l为所有的可调度任务包的集合，可调动任务代表所有的前驱已进行调度的任务包，将l初始化为{v0}，将任务包v_i的深度μ_vi设定为由v₀到v_i所经过的最少的任务数量，若l不为空，那么根据任务包的深度把l划分成多个子集，在得到的所有子集中，选择具有最小深度的子集，然后在其中选取有最大最早结束时间的任务，将其作为下一个需要调度的任务，在每次对一个任务包进行调度之后，更新l，使其放入到所有的前驱已调度的任务包的集合中。

进一步，所述步骤5的具体实现方法为：

(1)计算增加的成本租赁最小时间片方法LMTA：将和分别定义为把v_i调度到时需要租赁的租赁区间个数和最大可能要租赁的时间区间的数量：

其中，为ω中所有虚拟机集合上EFT_vi到D_vi时间区间内的所有时间槽的集合，时间槽t对应的虚拟机类型是λ_t，代表任务包v_i在选择λ_t的虚拟机所需要的任务处理时间，T_vi，t表示的是任务v_i分配到时间槽s时所需要的数据传输时间，T_t代表虚拟机的安装时间，表示对应软件的安装时间，T_b表示任务包内部所需要传输时间，将其进行规范化后，本规则的优先级值为

(2)计算实际占用的成本租赁最便宜虚拟机规则LCMA：每一个任务所需要的处理成本包括：虚拟机加载所需成本、软件安装所需成本、数据传输需要成本和任务包的执行成本以及每个任务包内部传输所需成本，具体的计算公式如下：

(3)计算新租赁时间片预期的利用率NLEA：将v_i调度到t时新生成的时间碎片的长度定义为首先，通过公式计算每个时隙上的加权优先值然后选取最高的优先级，其后再一次对虚拟机进行分配，最终我们采用添加前驱任务的方式来进行对下一个任务的更新准备，将该过程迭代直至当前所有的任务均被调度，具体的计算公式如下：

(4)按照一定的权重整合方式把上述三个启发式规则的启发式值进行整合，得到一个混合启发式值PHD，这个混合启发式值即为将v_i调度到每一个时的混合启发式值：

按上述方法直至当前所有的任务均被调度，最后达到满足在规定的工作流截止期内完成相应的任务调度。

本发明的优点和积极效果是：

本发明设计合理，其在保留传统数据密集型科学工作流调度方法优点的前提下，将数据密集型科学工作流调度分为读取数据密集型科学工作流、进行工作流虚拟机的确定、工作流deadline(截止期)划分、初始化任务调度和虚拟机租赁成本优化五个步骤，达到既满足在规定的deadline时间内完成相应的任务调度，又最小化所有任务的总服务租赁成本的效果，在稳定性能和精确度上得到大大提高，能够高效的最小化所有任务的总服务租赁成本。

附图说明

图1为本发明方法的实现流程图；

图2为采用本发明，测试参数a对实验结果的影响，在b和c同时取1的基础上，参数a分别取集合{0，0.1，0.5，1，10，100，1000，10000}中的值的测试结果图；

图3为采用本发明，测试参数b对实验结果的影响，在a和c同时取1的基础上，参数b分别取集合{0，0.1，0.5，1，10，100，1000，10000}中的值的测试结果图；

图4为采用本发明，测试参数c对实验结果的影响，在a和b同时取1的基础上，参数c分别取集合{0，0.1，0.5，1，10，100，1000，10000}中的值的测试结果图；

图5为在任务个数相同时，采用本发明与Cai的MRH方法所产生的deadline的对比图；

图6为在任务个数相同时，采用本发明与Cai的MRH方法所产生的总服务租赁成本对比图。

具体实施方式

以下结合附图对本发明实施例做进一步详述：

一种基于数据密集型科学工作流的任务调度与虚拟机整合方法，如图1所示，包括以下步骤：

步骤A、读取数据密集型科学工作流，构造以任务为节点，任务间的数据依赖关系为边的有向无环图DAG。

具体的，工作流被建模为DAG的具体过程为：E＝{V，X}，其中V＝{v₁，v₂，....，v_n}表示所有任务的集合，X＝{(v_i，v_j)|i＜j}用于表示任务之间的偏序依赖关系，也就是说任务v_i结束后才可以执行任务v_i，β_i表示为任务v_i的直接前驱集合，§_i表示为任务v_i的直接后继集合，v_i可以到达v_i即二者有数据传输则设Path₁(i，j)＝1表示，相反则为0。

步骤B、确定工作流虚拟机：通过获取每个任务执行的确切处理时间选择出该工作流相对最适合的虚拟机，具体方法将该问题建模成整数规划问题，并用CPLEX方法进行最终解(即虚拟机类型)的求解。

具体的，进行工作流虚拟机的确定过程为：设α_k(k＝1，2，...，N)和分别表示任务选取了第K种虚拟机以及该虚拟机的价格在截止期的划分阶段，虚拟机采用的计费方式为精确计费而非按区间进行计费，在这里E表示的是采用区间计费模式时虚拟机服务的计费区间的长度，执行任务v_i在虚拟机类型α上所需要的总处理时间为T_i，α，此时任务v_i在虚拟机类型α上的成本计算方式为P_i，α，Ω_i，α＝1代表任务v_i选择的虚拟机类型α，反之Ω_i，α＝0，E_i表示的是执行任务v_i完毕的结束时间，上述的整数规划模型的详细描述如下：

(最小化虚拟机总租赁成本)

∑_α∈NΩ_i，α＝1，1≤i≤N(每个任务只选择一种类型的虚拟机)

(任务间的偏序约束关系)

E₀≥∑_α∈NT_0，αΩ_0，α(任务间的偏序约束关系)

Ω_i，α∈{0，1}，α∈M(表示任务是否选择某个类型的虚拟机)

E_N≤D(保证工作流总执行时间满足截止期约束)

使CPLEX(avigap＝0.25％)，如果某一时刻该任务的最优解和分支限界法的下界之间的差值小于某特定比例avigap，CPLEX则立刻停止执行，那么此时的最好解将被取为CPLEX的近似解并用符号θ表示，θ_vi表示的是任务v_i在解θ中选择虚拟机的类型。

步骤C、工作流deadline(截止期)划分：首先将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包，然后采用基于浮动区间的方法求得工作流截止期。

具体的，首先将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包：

T_i，a-T_i，a≤120，1≤j≤N(相差到120以下的进行聚类)

Ω_i，α∈{0，1}，α∈M(表示任务是否选择某个类型的虚拟机)

然后，设当前的关键路径，是HP的长度关键路径，关键路径HP的时间间隙为最晚截止时间减去最早开始时间，如果则任务包V_k属于固定任务，V^fix是固定任务包的集合，HP路径上所有任务包的总的时间间隙公式为：

其中，表示HP的时间间隙，其中HP′＝HP/V^fix/{HP_[l]}方法中的HP_[l]的最晚截止时间为截止期D，接下来的路径时间间隙按照运行时间的长度比例为非固定的任务包进行分配，分配给任务任务包v_i∈HP的时间间隙公式为：

在这里还要进行一次时间间隙是否满足判断，如果也就是说最早开始时间加上分配的时间间隙大于最晚截止时间，则将v_i分配的时间间隙改为最晚截止时间减去最早开始时间，然后重新更新任务v_i的浮动区间并重新计算v_i后面的所有后继任务的最早和最晚时间，直到所有的浮动区间不再更新为止，最后形成的最早结束时间就设为工作流的任务的截止期，用D_vi表示v_i的截止期。

步骤D、初始化任务调度：在deadline划分的基础上，采用基于深度的任务调度顺序方法。

具体的，初始化任务调度过程为：定义l为所有的可调度任务包的集合，可调动任务代表所有的前驱已进行调度的任务包，将l初始化为{v₀}，将任务包vi的深度μ_vi设定为由v₀到v_i所经过的最少的任务数量，若l不为空，那么根据任务包的深度把l划分成多个子集，在得到的所有子集中，选择具有最小深度的子集，然后在其中选取有最大最早结束时间的任务，将其作为下一个需要调度的任务，因为任务包若是具有相同深度，那么其也通常总是具有一样的的软件的需求，在每次对一个任务包进行调度之后，要更新l，使其放入到所有的前驱已调度的任务包的集合中。

步骤E、虚拟机租赁成本优化：提出加权融合新租赁时间片预期利用率的PHD方法进行任务调度。

具体的，虚拟机租赁成本优化为：设表示ω中所有虚拟机集合上EFT_vi到D_vi时间区间内的所有时间槽的集合，t为时间槽，然后在改进两种已有工作流虚拟机分配方法的基础上，提出考虑新租赁时间片预期利用率的新方法NLEA，并将三种方法加权融合形成最终的PHD方法。

计算增加的成本租赁最小时间片方法LMTA：因为在绝大多数的情况下，已经租赁的资源时间区间并没有能完全被利用，这样就造了成很多的剩余时间碎片，所以在进行新任务的调度时，尽量重复利用已租赁时间区间剩余时间片，这样能够高效提高已租赁时间区间的利用率，降低最终租赁的总时间区间的数量，将和分别定义为把v_i调度到时需要租赁的租赁区间个数和最大可能要租赁的时间区间的数量，具体方法如下：

其中时间槽t对应的虚拟机类型是λ_t，则代表任务包v_i在选择λ_t的虚拟机所需要的任务处理时间，T_vi，t表示的是任务v_i分配到时间槽s时所需要的数据传输时间，T_t代表虚拟机的安装时间，表示对应软件的安装时间，T_b表示任务包内部所需要传输时间，将其进行规范化后，本规则的优先级值为

计算实际占用的成本租赁最便宜虚拟机规则LCMA：在某些情况下，优先将任务调度到时间碎片规则之中，将会使执行效率降低(也就是付出较高的执行成本，但却具有较长的执行时间)，譬如，对CPU配置较高的资源的剩余时间片，分配给其内存复杂型的任务，这样，就必须在时间片重新利用与高任务执行效率之间进行取舍，任务在不同的虚拟机实例上的处理效率是不一样的，若是任务的执行效率越高，那么对应的成本便会越低，所以，要首先优选择有较低的成本的虚拟机实例，。每一个任务所需要的处理成本包括：虚拟机加载所需成本、软件安装所需成本、数据传输需要成本和任务包的执行成本以及每个任务包内部传输所需成本，具体的计算公式如下：

新租赁时间片预期的利用率NLEA：前面已经进行了剩余时间碎片的重新利用，在此还需要考虑到的是，在无法再继续使用剩余时间碎片的情况下，需要租赁全新的时间片的预期利用率，具体为，设将v_i调度到t时新生成的时间碎片的长度定义为首先通过公式计算每个时隙上的加权优先值然后选取最高的优先级，其后再一次对虚拟机进行分配，最终我们采用添加前驱任务的方式来进行对下一个任务的更新准备，将该过程迭代直至当前所有的任务均被调度，具体的计算公式如下：

最后按照一定的权重整合方式把上述提出的三个启发式规则的启发式值进行整合，得到一个混合启发式值PHD，这个混合启发式值即为将v_i调度到每一个时的混合启发式值：

通过以上步骤最终形成基于数据密集型科学工作流加权融合新租赁时间片预期利用率的PHD任务调度方法。

为了说明本发明的效果，进行如下对比实验：

选取工作流包含的任务的数量(Task Number)属于集合{50，100，200，400，800，1000)。带宽B＝10(MBps)。软件安装时间＝10(秒)，虚拟机的加载时间是30秒。进行进行模拟实验。通过图2可以看出，a＝100时，方法效果最好。通过图3可以看出，b＝1时，方法效果最好；通过图4可以看出，c＝10时，方法效果最好。通过图5可以看出，本发明的deadline的值性优于Cai的MRH；通过图6可以看出本发明的租赁成本的值性优于Cai的MRH。

结论证明：本发明方法的稳定性能在MRH方法基础上有了很大改进。综上，该方法使数据密集型工作流调度方法的得到的deadline值和租赁成本都有了一定的提高。可应用于多种不同数量数据密集型工作流调度领域。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于数据密集型科学工作流的任务调度与虚拟机整合方法，其特征在于包括以下步骤：

2.根据权利要求1所述的基于数据密集型科学工作流的任务调度与虚拟机整合方法，其特征在于：所述步骤2的具体实现方法为：

该式表示最小化虚拟机总租赁成本；

E_i≤E_j-∑_α∈NtT_i,αΩ_j,α,该式表示任务间的偏序约束关系；

E₀≥∑_α∈NT_0,αΩ_0,α，该式表示任务间的偏序约束关系；

E_N≤D，该式表示保证工作流总执行时间满足截止期约束；

3.根据权利要求1所述的基于数据密集型科学工作流的任务调度与虚拟机整合方法，其特征在于：所述步骤3的具体实现方法为：

T_j,a-T_i,a≤120,1≤j≤N，该式表示任务处理时间相差120s以下的进行聚类

∑_α∈NΩ_i,α＝1,1≤i≤N，该式表示每个任务只选择一种类型的虚拟机

Ω_i,α∈{0,1},α∈M，该式表示任务是否选择某个类型的虚拟机

然后，设当前的关键路径HP＝{HP_[1],HP_[2],...HP_[l]}，l是HP的长度关键路径，关键路径HP的时间间隙为最晚截止时间减去最早开始时间，如果则任务包V_k属于固定任务，V^fix是固定任务包的集合，HP路径上所有任务包的总的时间间隙公式为：

上式中，表示HP的时间间隙，其中HP'＝HP/V^fix/{HP_[l]}方法中的HP_[l]的最晚截止时间为截止期，接下来的路径时间间隙按照运行时间的长度比例为非固定的任务包进行分配，分配给任务任务包v_i∈HP的时间间隙公式为：

4.根据权利要求1所述的基于数据密集型科学工作流的任务调度与虚拟机整合方法，其特征在于：所述步骤4的具体实现方法为：

定义为所有的可调度任务包的集合，可调动任务代表所有的前驱已进行调度的任务包，将初始化为{v₀}，将任务包v_i的深度μ_vi设定为由v₀到v_i所经过的最少的任务数量，若不为空，那么根据任务包的深度把划分成多个子集，在得到的所有子集中，选择具有最小深度的子集，然后在其中选取有最大最早结束时间的任务，将其作为下一个需要调度的任务，在每次对一个任务包进行调度之后，更新使其放入到所有的前驱已调度的任务包的集合中。

5.根据权利要求1所述的基于数据密集型科学工作流的任务调度与虚拟机整合方法，其特征在于：所述步骤5的具体实现方法为：

⑴计算增加的成本租赁最小时间片方法LMTA：将和分别定义为把v_i调度到时需要租赁的租赁区间个数和最大可能要租赁的时间区间的数量：

其中，为ω中所有虚拟机集合上EFT_vi到D_vi时间区间内的所有时间槽的集合，时间槽t对应的虚拟机类型是λ_t，代表任务包v_i在选择λ_t的虚拟机所需要的任务处理时间，T_vi,t表示的是任务v_i分配到时间槽s时所需要的数据传输时间，T_t代表虚拟机的安装时间，表示对应软件的安装时间，T_b表示任务包内部所需要传输时间，将其进行规范化后，本规则的优先级值为

⑵计算实际占用的成本租赁最便宜虚拟机规则LCMA：每一个任务所需要的处理成本包括：虚拟机加载所需成本、软件安装所需成本、数据传输需要成本和任务包的执行成本以及每个任务包内部传输所需成本，具体的计算公式如下：

⑶计算新租赁时间片预期的利用率NLEA：将v_i调度到t时新生成的时间碎片的长度定义为首先，通过公式计算每个时隙上的加权优先值然后选取最高的优先级，其后再一次对虚拟机进行分配，最终我们采用添加前驱任务的方式来进行对下一个任务的更新准备，将该过程迭代直至当前所有的任务均被调度，具体的计算公式如下：

⑷按照一定的权重整合方式把上述三个启发式规则的启发式值进行整合，得到一个混合启发式值PHD，这个混合启发式值即为将v_i调度到每一个时的混合启发式值：