CN111078361A

CN111078361A - 基于分布式估计算法的云工作流调度优化方法

Info

Publication number: CN111078361A
Application number: CN201911259937.XA
Authority: CN
Inventors: 谢毅; 桂奉献
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-28

Abstract

本发明公开了一种基于分布式估计算法的云工作流调度优化方法，包括以下步骤：获取调度优化所需信息；计算任务的排序值和层次值；初始化当代种群、进行最优个体保存；进行进化：构建精英种群、更新概率模型，采样概率模型生成新的当代种群，当代种群改进与最优个体保存，直到满足终止条件；输出调度优化方案。本发明采用拓扑排序的整数编码方法，可以实现全域搜索，在初始种群中播入了一个基于HEFT_lbt的个体，使用采样方式来生成新个体，采用了最优个体保存策略、向前向后解码和负载均衡的个体改进方法，提高了算法寻优能力和搜索效率。

Description

基于分布式估计算法的云工作流调度优化方法

技术领域

本发明涉及计算机技术、信息技术和系统工程领域，具体涉及一种云工作流调度优化方法，更具体的说，尤其涉及一种基于分布式估计算法的云工作流调度优化方法。

背景技术

云计算环境下的工作流，简称“云工作流”，是云计算与工作流相关技术的整合，在需要高效计算性能和大规模存储支撑的跨组织业务协作、科学计算等领域具有广泛的应用前景。在云工作流中，任务与任务之间存在着时序约束，执行时通常以虚拟机作为计算资源的最小分配单位负责接收并处理这些任务。云工作流调度是指在满足任务时序和用户需要约束下如何把云工作流中的任务分配到合适的虚拟机上，以及如何安排被分配到虚拟机上的任务的执行顺序，即要解决两个方面的问题：任务分配和任务执行顺序。云工作流调度直接决定了整个云工作流系统的性能，已成为云工作流系统的一个重要研究内容。

当前云工作流调度优化方法可以分为三类：

1)启发式方法，是指工作流任务分配和执行顺序都用启发式方法生成，如：Heterogeneous Earliest Finish Time即HEFT、Critical Path On a Processors即CPOP、Levelized Min Time即LMT、Dynamic Level Scheduling即DLS、Dynamic Critical Path即DCP、Longest Dynamic Critical Path即LDCP等方法；

2)智能计算方法，是指工作流任务分配和执行顺序都通过智能计算方法来搜索生成；如：遗传算法GA、粒子群优化算法PSO、模拟退火算法SA等方法；

3)结合启发式的半智能计算方法，是指工作流任务分配通过智能计算方法来搜索生成而任务执行顺序则根据智能计算方法搜索生成的任务分配方案采用基于优先级的启发式方法生成，或工作流任务执行顺序通过智能计算方法来搜索生成而任务分配则根据智能计算方法搜索生成的任务执行顺序通过基于任务最早完成时间的启发式方法来生成。

然而，现有的这些云工作流调度优化方法有着如下缺点：

1)启发式方法能在较短的时间获得一个调度优化方案，但其质量通常不是很高而且依赖于工作流的类型；

2)智能计算方法的算法效率依赖于编码与解码、进化迭代策略的设计及控制参数的选择等，其中，结合启发式的半智能计算方法搜索的解空间即调度方案是不完整的，因此其理论上存在搜索不到最优调度方案的可能性，同时在算法中需要不断调用启发式方法，其时间效率也不是很高；智能计算方法其理论上可以实现全域搜索，但采用全域搜索会导致搜索效率降低；

因此，随着云工作流复杂性及其应用需求的增加，亟需设计一种更高效方法来解决云工作流调度优化问题。

发明内容

为了克服启发式方法解的质量通常不是很高而且依赖于工作流的类型，结合启发式的半智能计算方法、基于分层编码的智能计算方法编码搜索空间的不完备性，基于全域的智能计算方法搜索效率不高等不足，本发明提供了一种基于分布式估计算法的云工作流调度优化方法，有效提高了求解的效率与质量。

本发明解决其技术问题所采用的技术方案如下：一种基于分布式估计算法的云工作流调度优化方法，包括以下步骤：

步骤1：形式化调度问题，获取调度优化所需的信息；

获取任务集T＝{t₁,t₂,...,t_I}，其中I是任务的数量，t_i表示任务i，即编号为i的任务；

获取任务间的时序关系：任务i的父任务集PR_i，任务i的子任务集SC_i，其中i＝1,2…,I；

获取任务相关参数：任务i的长度t_i.length，即任务i被虚拟机处理时需要耗费的指令数量，处理任务i时需要的输入文件列表t_i.IFL，任务i被处理后产生的输出文件列表t_i.OFL，及文件列表中文件file的大小file.size，其中i＝1,2…,I；任务i是任务i⁺的父任务的充要条件为：存在一个文件file，file是任务i的输出文件同时又是任务i⁺的输入文件，即：

获取云计算环境下的虚拟机集VM＝{vm₁,vm₂,…,vm_J}，其中J是虚拟机的数量，vm_j表示虚拟机j，即编号为j的虚拟机；

获取虚拟机相关参数：虚拟机j的计算能力vm_j.ps，虚拟机j的带宽vm_j.bw，其中j＝1,2…,J；

获取任务与虚拟机之间的支持关系：虚拟机j可以处理的任务集T_j，其中j＝1,2…,J；可以处理任务i的虚拟机集VM_i，其中i＝1,2…,I；

步骤2：计算任务的排序值rank；

先计算t_i执行时的平均处理时间

需要从共享数据库获得输入文件的平均传输时间

需要从其它虚拟机获得输入文件的平均传输时间

t_i执行时的平均处理时间计算如下：

t_i执行时需要从共享数据库获得输入文件的平均传输时间为：

t_i执行时需要从其它虚拟机获得输入文件的平均传输时间为：

其中

为t_i-和t_i间的文件平均传输时间，其计算如下：

然后，计算任务i的自下而上排序值

其计算过程如下：

对于没有子任务的结束任务i：

其它任务的自下而上排序值

采用如下递归公式进行计算：

接着，计算任务i的自上而下排序值

其计算过程如下：

对于没有父任务的开始任务i：

其它任务的自上而下排序值

采用如下递归公式进行计算：

最后，计算任务i的排序值rank_i：

其中，i＝1,2…,I；

步骤3：计算任务的层次值；

对于没有父任务的开始任务i，其层次值为：

level_i＝1 (10)

其它任务的层次值采用如下递归公式进行计算：

步骤4：初始化当代种群，进行最优个体保存；

基于HEFT_lbt生成1个个体、对初始概率模型进行N-1次采样生成N-1个个体，形成初始当代种群，同时把初始当代种群中的最优个体保存于BestChrom中，即令BestChrom为初始当代种群中的最优个体；其中N是种群规模；

所述个体采用2I位整数编码，I为任务数量，其方法如下：ch＝{g₁,…,g_I,g_I+1,…,g_2I}，基因g_i是一个非负整数；其中，{g₁,…,g_I}是虚拟机分配列表，g_i表示给任务i分配的虚拟机编号，即把任务i分配给虚拟机g_i，g_i∈VM_i，例如：g₁＝2表示1号任务是分配给2号虚拟机的；{g_I+1,…,g_2I}是任务调度顺序列表，是1,…,I的一个排列，且满足任务的时序约束，即任何任务都不能排在其父任务的前面，g_I+i表示第i个被调度的任务的编号，即任务g_I+i是第i个被调度的，例如g_I+1＝3，表示第1个调度的任务是3号任务；

所述基于HEFT_lbt生成1个个体包括如下步骤：

步骤A1：令所有虚拟机可得时间段列表vatl_j＝{[0,M]}，j＝1,…,J，M为一个接近无穷大的数；令所有任务的就绪时间rt_i＝0，i＝1,…,I；令变量q＝1；令任务集UT＝T；

步骤A2：从UT中找出层次值最小的任务，然后从中取出一个rank最大的任务，不妨设为t_i，g_I+q＝i；

步骤A3：令t_i的可得虚拟机集AVM_i＝VM_i，计算把t_i分别分配给AVM_i中的每个虚拟机后t_i的完成时间：

步骤A3.1：从AVM_i中取出一个虚拟机，不妨设为vm_j；

步骤A3.2：计算t_i分配给vm_j处理后的执行时间

步骤A3.3：在vatl_j中从早到晚找出一个空闲时段[ν_j,υ_j]，满足υ_j-ν_j≥et_i,j和υ_j-et_i,j≥rt_i；

步骤A3.4：计算t_i分配给vm_j处理后的开始时间s_i,j＝max{ν_j,rt_i}，完成时间f_i,j＝s_i,j+et_i,j；

步骤A3.5：若AVM_i不为空则转到步骤A3.1，否则转到步骤A4；

步骤A4：按虚拟机顺序找出能最早完成t_i的虚拟机，不妨设为vm_j，g_i＝j，把t_i分配给vm_j：

步骤A4.1：令t_i的开始时间s_i＝s_i,j，t_i的完成时间f_i＝f_i,j；

步骤A4.2：更新t_i的子任务的就绪时间

步骤A4.3：在虚拟机可得时间段列表vatl_j中删除[ν_j,υ_j]，插入区间长度大于0的[ν_j,s_i]和[f_i,υ_j]；

步骤A5：令q＝q+1，若UT不为空则转到步骤A2，否则转到步骤A6；

步骤A6：获得一个基于HEFT_lbt的个体ch＝{g₁,…,g_I；g_I+1,…,g_2I}，计算其适应度值，操作结束；

其中：

ω_i,j：是vm_j处理t_i的时间，

是把t_i分配给vm_j处理时需要从其它的虚拟机获得输入文件的文件传输时间，

是处理

的虚拟机；

τ_i,j：是把t_i分配给vm_j处理时需要从共享数据库获得输入文件的文件传输时间，

所述概率模型包括虚拟机分配概率模型PMVM(k)和任务调度顺序概率模型PMS(k)；

其中α_i,j(k)表示在第k代任务t_i分配给虚拟机vm_j的概率，

其中β_i,i′(k)表示在第k代第i′个调度的任务是t_i的概率，

初始虚拟机分配概率模型为：

其中：标记值

初始任务调度顺序概率模型为：

其中：STS_ρ＝{t_i|ξ_i<ρ≤I-ζ_i}是可以安排在第ρ个调度的任务集，ζ_i是任务i的子孙任务的数量，ξ_i是任务i的祖先任务的数量；

标记值

所述子孙任务和祖先任务的定义描述如下：如果存在一个任务序列

满足

是

的父任务，其中1≤k<n，那么

是

的祖先任务，

是

的子孙任务；

对概率模型PMVM(k)和PMS(k)进行1次采样生成1个个体包括如下步骤：

步骤B1：系统状态初始化：

步骤B1.1：令所有虚拟机可得时间段列表vatl_j＝{[0,M]}；M为一个接近无穷大的数；

步骤B1.2：令任务就绪时间rt_i＝0、任务集P(t_i)＝PR_i，i＝1,…,I；令任务集

UT＝T；令变量q＝0；

步骤B1.3：把UT中

的t_i移到RT中；

步骤B2：令q＝q+1；根据[β_1,q(k) … β_I,q(k)]^T采用轮盘赌法从RT中随机选择一个任务，不妨设为t_i，令g_I+q＝i；

步骤B3：根据[α_i,1(k) … α_i,J(k)]采用轮盘赌法随机选择一个虚拟机，不妨设为vm_j，令g_i＝j；

步骤B4：把t_i分配给vm_j：

步骤B4.1：计算t_i的执行时间

步骤B4.2：在vatl_j中从早到晚找出一个空闲时段[ν_j,υ_j]，满足υ_j-ν_j≥et_i和υ_j-et_i≥rt_i；

步骤B4.3：t_i的开始时间s_i＝max{ν_j,rt_i}，t_i的结束时间f_i＝s_i+et_i；

步骤B4.4：更新t_i的子任务的就绪时间

步骤B4.5：在虚拟机可得时间段列表vatl_j中删除[ν_j,υ_j]，插入区间长度大于0的[ν_j,s_i]和[f_i,υ_j]；

步骤B4.6：在所有

中删除t_i，在RT中删除t_i；

步骤B4.7：把UT中

的t_i移到RT中；

步骤B5：如果RT不为空，则转到步骤B2，否则转到步骤B6；

步骤B6：获得一个个体ch＝{g₁,…,g_2I}及其所有任务的执行时间和完成时间：et_i，f_i，i＝1,2…,I，计算其适应度值，操作结束；

步骤5：构建精英种群，更新概率模型；

根据适应度值从优到劣选取当代种群中的前

个个体作为当代精英种群POP_e，N_e为精英种群规模，r_e∈(0,1)为精英率，由当代精英种群根据公式(16)和(17)更新虚拟机分配概率模型和任务调度顺序概率模型；

虚拟机分配概率模型的更新：

其中：标记值

θ₁∈(0,1)是虚拟机分配概率模型的更新速率；

任务调度顺序概率模型的更新：

其中：标记值

θ₂∈(0,1)是任务调度顺序概率模型的更新速率；

步骤6：采样概率模型生成新种群，令新种群为当代种群；

对当前概率模型PMVM(k)和PMS(k)进行N次采样生成N个个体，形成的新种群，令新种群当代种群；

步骤7：当代种群改进与最优个体保存；

采用FBI&D和LDI对当代种群进行改进，如果改进后的当代种群中的最优个体优于BestChrom中保存的个体，则用最优个体替换保存在BestChrom中的个体；

所述FBI&D方法包括如下步骤：

步骤C1：把个体ch中的任务调度顺序列表根据任务完成时间f_i从大到小重新排列，即把ch中的基因g_I+i设置为倒数第i个完成的任务，i＝1,…,I，形成反向个体

步骤C2：对

采用基于插入模式的串行反向个体解码方法进行解码获得所有任务反向完成时间

及其反向工作流响应时间

若

小于rs，则转到步骤C3，否则，转到步骤C5；

步骤C3：把反向个体

中的任务调度顺序列表根据任务反向完成时间

从大到小重新排列，即把

中的基因g_I+i设置为倒数第i个完成的任务，i＝1,…,I，形成个体ch；

步骤C4：采用基于插入模式的串行个体解码方法对个体ch进行解码，获得所有任务的完成时间f₁,…,f_I及其工作流响应时间rs；如果rs小于

则转到步骤C1，否则，转到步骤C5；

步骤C5：输出个体ch及其适应度值即工作流响应时间rs，操作结束；

所述LDI方法包括如下步骤：

步骤D1：计算各虚拟机负载

步骤D2：找出负载最小的虚拟机j′；如果ld_j′>0，转到步骤D3，否则转到步骤D4；

步骤D3：令任务集

转到步骤D5；

步骤D4：令任务集ST_j′＝T_j′，转到步骤D5；

步骤D5：如果ST_j′不为空，则从ST_j′中按顺序取出一个其所在虚拟机的负载是最高的任务i′，转到步骤D6；否则转到步骤D7；

步骤D6：令g_i′＝j′，形成新的个体

采用FBI&D方法对

进行解码与改进，如果相对于原个体有改进，则用此改进的个体替换原个体，转到步骤D7；否则转到步骤D5；

步骤D7：LDI操作结束；

步骤8：判断是否满足终止条件，如果不满足，转到步骤5；否则输出BestChrom中保存的个体，其对应的调度方案作为优化方案；

所述终止条件为迭代到指定的代数TG或连续迭代GG代最优个体没有改进。

进一步的，所述适应度值为工作流响应时间rs，其计算方法如下：

其中：rf_i是任务i的响应时间，

SFL_i是任务i输出给共享数据库的输出文件集，即

适应度值越小，个体越优。

进一步的，所述步骤B2中根据[β_1,q(k) … β_I,q(k)]^T采用轮盘赌法从RT中随机选择一个任务的具体步骤如下：

步骤B2.1：计算RT中每个t_i被选中的概率

步骤B2.2：计算累计概率：

步骤B2.3：产生一个随机数λ∈[0,1)，如果

那么选择t_i，操作结束。

进一步的，所述步骤B3中根据[α_i,1(k) … α_i,J(k)]采用轮盘赌法随机选择一个虚拟机的具体步骤如下：

步骤B3.1：计算vm_j被选中的概率A_j＝α_i,j(k)，j＝1,…,J；

步骤B3.2：计算累计概率：

步骤B3.3：产生一个随机数λ∈[0,1)，如果

那么选择vm_j，操作结束。

进一步的，所述步骤C2中对

采用基于插入模式的串行反向个体解码方法进行解码的具体步骤如下：

步骤E1：令所有任务的反向就绪时间

令变量ε＝1；令所有虚拟机可得时间段列表vatl_j＝{[0,M]}，j＝1,…,J，其中M为一个接近无穷大的数；

步骤E2：选取编号为i＝g_I+ε的任务；

步骤E3：基于插入模式把任务i分配给虚拟机g_i，不妨设j＝g_i；

步骤E3.1：在vatl_j中从早到晚找出一个空闲时段[ν_j,υ_j]，满足υ_j-ν_j≥et_i和

步骤E3.2：计算任务i的反向开始时间

反向完成时间

更新任务i的父任务的就绪时间

步骤E3.3：在虚拟机可得时间段列表vatl_j中删除[ν_j,υ_j]，插入区间长度大于0的

和

步骤E4：令ε＝ε+1，如果ε≤I，则转到步骤E2，否则步骤E5；

步骤E5：获得所有任务的反向完成时间

i＝1,…,I；计算反向工作流响应时间

操作结束。

进一步的，所述步骤C4中基于插入模式的串行个体解码方法对个体ch进行解码的具体步骤如下：

步骤F1：令所有任务的就绪时间rt_i＝0，i＝1,…,I；令所有虚拟机可得时间段列表vatl_j＝{[0,M]}，j＝1,…,J，M为一个接近无穷大的数；令变量ε＝1；

步骤F2：选取编号为i＝g_I+ε的任务；

步骤F3：基于插入模式把任务i分配给虚拟机g_i，不妨设j＝g_i；

步骤F3.1：在vatl_j中从早到晚找出一个空闲时段[ν_j,υ_j]，满足υ_j-ν_j≥et_i和υ_j-et_i≥rt_i；

步骤F3.2：计算任务i的开始时间和完成时间：s_i＝max{ν_j,rt_i}，f_i＝s_i+et_i；更新任务i的子任务的就绪时间

步骤F3.3：在虚拟机可得时间段列表vatl_j中删除[ν_j,υ_j]，插入区间长度大于0的[ν_j,s_i]和[f_i,υ_j]；

步骤F4：令ε＝ε+1，如果ε≤I则转到步骤F2，否则步骤F5；

步骤F5：获得所有任务的完成时间f_i，计算其适应度值即工作流响应时间rs，操作结束。

本发明的有益效果在于：

(1)相对于启发式方法、结合启发式的半智能计算方法及现有的基于分层编码的智能计算方法，本发明设计采用整数编码方法，任何一个调度方案都可以有一个个体与之对应，因此其搜索空间是完备的，可以实现全域搜索。

(2)相对于一般的基于优先级的编码方式，本发明的任务调度顺序采用基于拓扑排序的整数编码方法，考虑了任务之间的时序关系，有效减少了编码的空间，进而提高了算法的效率。

(3)相对于普通智能计算方法，本发明设计增加了基于向前向后个体解码的启发式改进方法FBI&D和基于负载均衡的启发式改进方法LDI，从而提高整个算法寻优能力和搜索效率。

(4)本发明采用最优个体保存策略，可以保证最优个体不被破坏，使算法单调收敛。

(5)相对于传统智能计算方法如GA等，本发明设计的算法使用采样替换了遗传操作来生成新的个体，算法更简洁。

(6)本发明在初始种群中播入了一个基于HEFT_lbt的个体，可以使算法在一个比较高的起点上开始搜索，从而缩短搜索时间。

附图说明

图1是本发明一种基于分布式估计算法的云工作流调度优化方法的流程示意图。

图2是本发明实施例中Montage工作流任务间的时序关系图。

具体实施方式

下面结合图1、图2及实施例对本发明做进一步详细说明，但本发明并不仅限于以下的实施例。

假设一个云计算中心有编号为1至6的6台虚拟机可供使用，vm₁、vm₂、…、vm₆的处理能力和带宽如表1所示；一个Montage工作流任务间的时序关系如图2所示，由编号为1至15的15个任务组成，t₁、t₂、…、t₁₅的执行长度，处理所需要的输入文件和处理后的输出文件的名称、长度以及可以被处理的虚拟机如表2所示。

虚拟机	处理能力(MI/s)	带宽(Mbit/s)	虚拟机	处理能力(MI/s)	带宽(Mbit/s)
						vm<sub>1</sub>	1000	200	vm<sub>4</sub>	2000	300
vm<sub>2</sub>	1000	200	vm<sub>5</sub>	3000	400
						vm<sub>3</sub>	2000	300	vm<sub>6</sub>	3000	400

表1

表2

针对上述案例，如图1所示，一种基于分布式估计算法的云工作流调度优化方法，包括以下实施步骤：

执行步骤1：形式化调度问题，获取调度优化所需的信息；

获取任务集T＝{t₁,t₂,t₃,t₄,t₅,t₆,t₇,t₈,t₉,t₁₀,t₁₁,t₁₂,t₁₃,t₁₄,t₁₅}；

获取任务间的时序关系，即任务i的父任务集PR_i和子任务集SC_i：

PR₄＝{t₁}，PR₅＝{t₁,t₂}，PR₆＝{t₁,t₃}，PR₇＝{t₄,t₅,t₆}，PR₈＝{t₇}，PR₉＝{t₁,t₈}，PR₁₀＝{t₂,t₈}，PR₁₁＝{t₃,t₈}，PR₁₂＝{t₉,t₁₀,t₁₁}，PR₁₃＝{t₁₂}，PR₁₄＝{t₁₃}，PR₁₅＝{t₁₄}；SC₁＝{t₄,t₅,t₆,t₉}，SC₂＝{t₅,t₁₀}，SC₃＝{t₆,t₁₁}，SC₄＝{t₇}，SC₅＝{t₇}，SC₆＝{t₇}，SC₇＝{t₈}，SC₈＝{t₉,t₁₀,t₁₁}，SC₉＝{t₁₂}，SC₁₀＝{t₁₂}，SC₁₁＝{t₁₂}，SC₁₂＝{t₁₃}，SC₁₃＝{t₁₄}，SC₁₄＝{t₁₅}，

获取任务的相关参数：t₁.length＝126000MI，t₁.IFL＝{f_d1,f_d2}，t₁.OFL＝{f_1-1,f_1-2}；t₂.length＝138000MI，t₂.IFL＝{f_d1,f_d3}，t₂.OFL＝{f_2-1,f_2-2}；t₃.length＝132000MI，t₃.IFL＝{f_d1,f_d4}，t₃.OFL＝{f_3-1,f_3-2}；t₄.length＝102000MI，t₄.IFL＝{f_d1,f_1-1,f_1-2}，t₄.OFL＝{f_4-1,f_4-2}；……；t₁₅.length＝7800MI，t₁₅.IFL＝{f_14-1}，t₁₅.OFL＝{f_15-1}；f_d1.size＝36MB，f_d2.size＝4320MB，f_1-1.size＝3960MB，f_1-2.size＝3960MB，……，f_14-1.size＝1560MB，f_15-1.size＝420MB；

获取云计算环境下的虚拟机集：VM＝{vm₁,vm₂,vm₃,vm₄,vm₅,vm₆}；

获取虚拟机相关参数：vm₁.ps＝1000MI/s，vm₁.bw＝200Mbit/s；vm₂.ps＝1000MI/s，vm₂.bw＝200Mbit/s；vm₃.ps＝2000MI/s，vm₃.bw＝300Mbit/s；vm₄.ps＝2000MI/s，vm₄.bw＝300Mbit/s；vm₅.ps＝3000MI/s，vm₅.bw＝400Mbit/s；vm₆.ps＝3000MI/s，vm₆.bw＝400Mbit/s；

获取任务与虚拟机之间的支持关系：T₁＝{t₁,t₂,t₃,t₄,t₅,t₆,t₉,t₁₃,t₁₅}，T₂＝{t₃,t₅,t₇,t₉,t₁₀,t₁₁,t₁₄}，T₃＝{t₂,t₃,t₄,t₆,t₉,t₁₁,t₁₂}，T₄＝{t₁,t₂,t₄,t₆,t₇,t₈,t₉,t₁₀,t₁₁,t₁₂,t₁₄}，T₅＝{t₁,t₂,t₃,t₄,t₆,t₇,t₈,t₉,t₁₂,t₁₄}，T₆＝{t₁,t₄,t₅,t₈,t₁₁,t₁₃,t₁₄,t₁₅}；VM₁＝{vm₁,vm₄,vm₅,vm₆}，VM₂＝{vm₁,vm₃,vm₄,vm₅}，VM₃＝{vm₁,vm₂,vm₃,vm₅}，VM₄＝{vm₁,vm₃,vm₄,vm₅,vm₆}，VM₅＝{vm₁,vm₂,vm₆}，VM₆＝{vm₁,vm₃,vm₄,vm₅}，VM₇＝{vm₂,vm₄,vm₅}，VM₈＝{vm₄,vm₅,vm₆}，VM₉＝{vm₁,vm₂,vm₃,vm₄,vm₅}，VM₁₀＝{vm₂,vm₄}，VM₁₁＝{vm₂,vm₃,vm₄,vm₆}，VM₁₂＝{vm₃,vm₄,vm₅}，VM₁₃＝{vm₁,vm₆}，VM₁₄＝{vm₂,vm₄,vm₅,vm₆}，VM₁₅＝{vm₁,vm₆}。

执行步骤2：计算任务的排序值rank；

首先，计算t_i执行时的平均处理时间

同理可得

结果如表3所示：

表3

计算t_i执行时需要从共享数据库获得输入文件的平均传输时间

同理可得

结果如表4所示：

表4

计算

和t_i间的文件平均传输时间：

同理可得其它任务间的文件平均传输时间，结果如表5所示：

表5

计算t_i执行时需要从其它虚拟机获得输入文件的平均传输时间

同理可得

结果如表6所示：

表6

然后，计算任务i的

同理可得其它任务的

结果如表7所示；

接着，计算任务i的

同理可得其它任务的

结果如表7所示；

最后，计算任务i的rank_i：

同理可得其它任务的rank_i，结果如表7所示：

表7

执行步骤3：计算任务的层次值；

任务1、任务2和任务3均没有父任务，则level₁＝level₂＝level₃＝1；

任务4只有一个父任务1，则

同理，可以获得其它任务的层次值：level₅＝level₆＝2；level₇＝3；level₈＝4；level₉＝level₁₀＝level₁₁＝5；level₁₂＝6；level₁₃＝7；level₁₄＝8；level₁₅＝9。

执行步骤4：初始化种群，进行最优个体保存；

取种群规模N＝10；基于HEFT_lbt生成1个个体、对初始概率模型进行9次采样生成9个个体，形成初始当代种群。

基于HEFT_lbt生成一个个体的具体实施过程如下：

执行步骤A1：初始化所有虚拟机的可得时间段列表vatl₁＝{[0,M]}，vatl₂＝{[0,M]}，…，vatl₆＝{[0,M]}，M为一个接近无穷大的数；初始化所有任务的就绪时间：rt₁＝0，rt₂＝0，…，rt₁₅＝0；q＝1；UT＝T＝T＝{t₁,t₂,t₃,t₄,t₅,t₆,t₇,t₈,t₉,t₁₀,t₁₁,t₁₂,t₁₃,t₁₄,t₁₅}；

执行步骤A2：任务集UT中层次最小的任务为t₁，t₂，t₃，由于rank₁＝4095.28，rank₂＝4114.79，rank₃＝4047.06，从中取出一个rank最大的任务，其为t₂，则g_I+q＝g₁₅₊₁＝g₁₆＝2，UT＝{t₁,t₃,…,t₁₅}；

执行步骤A3：令AVM₂＝VM₂＝{vm₁,vm₃,vm₄,vm₅}，计算把t₂分配给AVM₂中的每个虚拟机后t₂的完成时间；即执行步骤A3.1：从AVM₂中取出vm₁；执行步骤A3.2：计算t₂分配给vm₁处理后的执行时间：ω_2,1＝138000/1000＝138，

则

执行步骤A3.3：在vatl₁中从早到晚找出一个空闲时间段[0,M]，满足M-0≥et_2,1＝312.24和M-312.24≥rt₂＝0；执行步骤A3.4：计算t₂分配给vm₁处理后的开始时间s_2,1＝max{v₁,rt₂}＝max{0,0}＝0，完成时间f_2,1＝s_2,1+et_2,1＝0+312.24＝312.24；执行步骤A3.5：由于AVM₂＝{vm₃,vm₄,vm₅}不为空，转到步骤A3.1；……；这样不断重复执行步骤A3.1至步骤A3.5，直至AVM₂为空，得到s_2,3＝0，s_2,4＝0，s_2,5＝0，f_2,3＝185.16，f_2,4＝185.16，f_2,5＝133.12，转至步骤A4；

执行步骤A4：按虚拟机顺序找出能最早完成t₂的虚拟机，其为vm₅，g₂＝5，把t₂分配给vm₅；即执行步骤A4.1：令t₂的开始时间s₂＝s_2,5＝0，完成时间f₂＝f_2,5＝133.12；执行步骤A4.2：更新t₂的子任务的就绪时间rt₅＝max{rt₅,f₂}＝max{0,133.12}＝133.12，rt₁₀＝133.12；执行步骤A4.3：在虚拟机可得时间段列表vatl₅中删除[0,M]，插入区间长度大于0的[133.12,M]，即vatl₅＝{[133.12,M]}；

执行步骤A5：q＝q+1＝1+1＝2，任务集UT＝{t₁,t₃,…,t₁₅}不为空，转到步骤A2；

执行步骤A2：任务集UT＝{t₁,t₃,…,t₁₅}中层次最小的任务为t₁，t₃，由于rank₁＝4095.28，rank₃＝4047.06，从中取出一个rank最大的任务，其为t₁，则g₁₇＝1；

执行步骤A3：令AVM₁＝VM₁＝{vm₁,vm₄,vm₅,vm₆}，计算把t₁分配给AVM₁中的每个虚拟机后t₁的完成时间；即执行步骤A3.1：从AVM₁中取出vm₁；执行步骤A3.2：计算t₁分配给vm₁处理后的执行时间：ω_1,1＝126，

τ_1,1＝174.24，则et_1,1＝300.24；执行步骤A3.3：在vatl₁中从早到晚找出一个空闲时间段[0,M]，满足M-0≥300.24和M-300.24≥0；执行步骤A3.4：计算t₁分配给vm₁处理后的开始时间s_1,1＝max{0,0}＝0，完成时间f_1,1＝300.24；执行步骤A3.5：AVM₁＝{vm₄,vm₅,vm₆}不为空，转到步骤A3.1；……；这样不断重复执行步骤A3.1至步骤A3.5，直至AVM₁为空，得到s_1,4＝0，s_1,5＝133.12，s_1,6＝0，f_1,4＝179.16，f_1,5＝262.24，f_1,6＝129.12，转至步骤A4；

执行步骤A4：按虚拟机顺序找出能最早完成t₁的虚拟机，其为vm₆，g₁＝6，把t₁分配给vm₆；即执行步骤A4.1：令t₁的开始时间s₁＝s_1,6＝0，完成时间f₁＝f_1,6＝129.12；执行步骤A4.2：更新t₁的子任务的就绪时间rt₄＝max{rt₄,f₁}＝max{0,129.12}＝129.12，rt₅＝max{rt₅,f₁}＝max{133.12,129.12}＝133.12，rt₆＝129.12，rt₉＝129.12；执行步骤A4.3：在虚拟机可得时间段列表vatl₆中删除[0,M]，插入区间长度大于0的[129.12,M]，即vatl₆＝{[129.12,M]}；

执行步骤A5：q＝2+1＝3，任务集UT＝{t₃,…,t₁₅}不为空，转到步骤A2；

……

这样不断重复执行步骤A2至步骤A5，直至UT为空集，确定所有的基因值，转至步骤A6；

执行步骤A6：获得一个基于HEFT_lbt生成的个体

ch₁＝{6,5,3,5,6,3,5,5,5,4,3,4,6,6,6；2,1,3,5,6,4,7,8,10,9,11,12,13,14,15}，计算其适应度值即工作流响应时间rs₁：由于

而SFL₁₅＝{f_15-1}，故

操作结束。

初始化虚拟机分配概率模型PMVM(1)的过程如下：

由于VM₁＝{vm₁,vm₄,vm₅,vm₆}，则α_1,1(1)＝δ_1,1/|VM₁|＝1/4＝0.25，α_1,2(1)＝δ_1,2/|VM₁|＝0/4＝0.00，α_1,3(1)＝0.00，α_1,4(1)＝0.25，α_1,5(1)＝0.25，α_1,6(1)＝0.25，同理，可得其它α_i,j(1)，最终可以得到：

初始化任务调度顺序概率模型PMS(1)如下：

根据任务间的时序关系可知：t₁没有祖先任务，其子孙任务为t₄,t₅,t₆,t₇,t₈,t₉,t₁₀,t₁₁,t₁₂,t₁₃,t₁₄,t₁₅，故有ξ₁＝0，ζ₁＝12，同理可得：ξ₂＝0，ζ₂＝10，ξ₃＝0，ζ₃＝10，ξ₄＝1，ζ₄＝9，ξ₅＝2，ζ₅＝9，ξ₆＝2，ζ₆＝9，ξ₇＝6，ζ₇＝8，ξ₈＝7，ζ₈＝7，ξ₉＝8，ζ₉＝4，ξ₁₀＝8，ζ₁₀＝4，ξ₁₁＝8，ζ₁₁＝4，ξ₁₂＝11，ζ₁₂＝3，ξ₁₃＝12，ζ₁₃＝2，ξ₁₄＝13，ζ₁₄＝1，ξ₁₅＝14，ζ₁₅＝0；

由ξ_i，ζ_i可得STS₁＝{t₁,t₂,t₃}，则β_1,1(1)＝γ_1,1/|STS₁|＝1/3＝0.33，β_2,1(1)＝γ_2,1/|STS₁|＝1/3＝0.33，β_3,1(1)＝1/3＝0.33，β_4,1(1)＝γ_4,1/|STS₁|＝0/3＝0.00，β_5,1(1)＝0/3，……；

由ξ_i，ζ_i可得STS₂＝{t₁,t₂,t₃,t₄}，则β_1,2(1)＝γ_1,2/|STS₂|＝1/4＝0.25，β_2,2(1)＝γ_2,2/|STS₂|＝1/4＝0.25，β_3,2(1)＝0.25，β_4,2(1)＝0.25，β_5,2(1)＝0.00，β_6,2(1)＝0.00，……；

由ξ_i，ζ_i可得STS₃＝{t₁,t₂,t₃,t₄,t₅,t₆}，则β_1,3(1)＝γ_1,3/|STS₃|＝1/6＝0.17，β_2,3(1)＝1/6＝0.17，β_3,3(1)＝1/6＝0.17，β_4,3(1)＝0.17，β_5,3(1)＝0.17，β_6,3(1)＝0.17，β_7,3(1)＝0.00，β_8,3(1)＝0.00，……；

同理，可得剩余的β_i,i′(1)，i＝1,…,15，i′＝4,…,15，最终可以得到：

对初始虚拟机分配概率模型PMVM(1)和初始任务调度顺序概率模型PMS(1)进行1次采样生成一个个体的具体实施过程如下：

执行步骤B1：系统状态初始化；即执行步骤B1.1：令所有虚拟机的可得时间段列表：vatl₁＝{[0,M]}，vatl₂＝{[0,M]}，…，vatl₆＝{[0,M]}，M为一个接近无穷大的数；执行步骤B1.2：令所有任务的就绪时间：rt₁＝0，rt₂＝0，…，rt₁₅＝0；

P(t₄)＝{t₁}，P(t₅)＝{t₁,t₂}，P(t₆)＝{t₁,t₃}，P(t₇)＝{t₄,t₅,t₆}，P(t₈)＝{t₇}，P(t₉)＝{t₁,t₈}，P(t₁₀)＝{t₂,t₈}，P(t₁₁)＝{t₃,t₈}，P(t₁₂)＝{t₉,t₁₀,t₁₁}，P(t₁₃)＝{t₁₂}，P(t₁₄)＝{t₁₃}，P(t₁₅)＝{t₁₄}；

UT＝T＝{t₁,t₂,t₃,t₄,t₅,t₆,t₇,t₈,t₉,t₁₀,t₁₁,t₁₂,t₁₃,t₁₄,t₁₅}；q＝0；执行步骤B1.3：把UT中

的任务，即t₁，t₂，t₃移到RT中，则RT＝{t₁,t₂,t₃}，UT＝{t₄,t₅,t₆,t₇,t₈,t₉,t₁₀,t₁₁,t₁₂,t₁₃,t₁₄,t₁₅}；

执行步骤B2：q＝q+1＝0+1＝1；根据[β_1,1(1) … β_15,1(1)]^T采用轮盘赌法从RT＝{t₁,t₂,t₃}中随机选择一个任务，即：执行步骤B2.1：计算RT＝{t₁,t₂,t₃}中每个任务被选中的概率：

A₂＝0.33，A₃＝0.33；执行步骤B2.2：计算累计概率：

执行步骤B2.3：产生一个[0,1)之间的随机数，其为0.97，由于

因此选择t₃；g_I+q＝g₁₅₊₁＝g₁₆＝3；

执行步骤B3：根据[α_3,1(1) … α_3,6(1)]采用轮盘赌法随机选择一个虚拟机，执行步骤B3.1：计算每个虚拟机被选中的概率：A₁＝α_3,1(1)＝0.25，A₂＝0.25，A₃＝0.25，A₄＝0.00，A₅＝0.25，A₆＝0.00；执行步骤B3.2：计算累计概率

执行步骤B3.3：产生一个[0,1)之间的随机数，其为0.56，由于

因此选择vm₃；g₃＝3；

执行步骤B4：把t₃分配给vm₃；即执行步骤B4.1：计算t₃的执行时间，ω_3,3＝132000/2000＝66，

τ_3,3＝8×(36+4320)/300＝116.16，则

执行步骤B4.2：在vatl₃中从早到晚找出一个空闲时间段[0,M]，满足M-0≥et₃＝182.16和M-182.16≥rt₃＝0；执行步骤B4.3：计算t₃的开始时间s₃＝max{v₃,rt₃}＝max{0,0}＝0，完成时间f₃＝s₃+et₃＝0+182.16＝182.16；执行步骤B4.4：更新t₃的子任务的就绪时间rt₆＝max{rt₆,f₃}＝max{0,182.16}＝182.16，rt₁₁＝max{0,182.16}＝182.16；执行步骤B4.5：在虚拟机可得时间段列表vatl₃中删除[0,M]，插入区间长度大于0的[182.16,M]，则vatl₃＝{[182.16,M]}；执行步骤B4.6：在P(t₆)、P(t₁₁)中删除t₃，则P(t₆)＝{t₁}、P(t₁₁)＝{t₈}，在RT中删除t₃，则RT＝{t₁,t₂}；执行步骤B4.7：由于UT中不存在

则RT，UT均不变；

执行步骤B5：由于RT＝{t₁,t₂}不为空，转到步骤B2；

执行步骤B2：q＝1+1＝2；根据[β_1,2(1) … β_15,2(1)]^T采用轮盘赌法从RT＝{t₁,t₂}中随机选择一个任务，其为t₂，g₁₇＝2；

执行步骤B3：根据[α_2,1(1) … α_2,6(1)]采用轮盘赌法随机选择一个虚拟机，其为vm₁，g₂＝1；

执行步骤B4：把t₂分配给vm₁；即执行步骤B4.1：计算t₂的执行时间：ω_2,1＝138，

τ_2,1＝174.24，则et₂＝312.24；执行步骤B4.2：在vatl₁中从早到晚找出一个空闲时间段[0,M]，满足M-0≥312.24和M-312.24≥0；执行步骤B4.3：计算t₂的开始时间s₂＝0，完成时间f₂＝312.24；执行步骤B4.4：更新t₂的子任务的就绪时间rt₅＝max{rt₅,f₂}＝max{0,312.24}＝312.24，rt₁₀＝312.24；执行步骤B4.5：在虚拟机可得时间段列表vatl₁中删除[0,M]，插入区间长度大于0的[312.24,M]，则vatl₁＝{[312.24,M]}；执行步骤B4.6：在P(t₅)、P(t₁₀)中删除t₂，则P(t₅)＝{t₁}、P(t₁₀)＝{t₈}，在RT中删除t₂，则RT＝{t₁}；执行步骤B4.7：由于UT中不存在

的任务，则RT，UT均不变；

执行步骤B5：由于RT＝{t₁}不为空，转到步骤B2；

……

这样不断重复执行步骤B2至步骤B5，直至RT为空，确定所有的基因值，转至步骤B6；

执行步骤B6：获得个体

ch₂＝{4,1,3,4,6,5,4,6,5,2,4,4,6,4,6；3,2,1,4,6,5,7,8,11,10,9,12,13,14,15}，及其所有任务执行时间为：et₁＝179.16，et₂＝312.24，et₃＝182.16，et₄＝51.96，et₅＝574.32，et₆＝454.72，et₇＝14.00，et₈＝4.56，et₉＝249.68，et₁₀＝447.36，et₁₁＝259.44，et₁₂＝537.68，et₁₃＝9.28，et₁₄＝1935.00，et₁₅＝44.20；所有任务完成时间：f₁＝179.16，f₂＝312.24，f₃＝182.16，f₄＝231.12，f₅＝886.56，f₆＝636.88，f₇＝900.56，f₈＝905.12，f₉＝1154.80，f₁₀＝1352.48，f₁₁＝1164.56，f₁₂＝1890.16，f₁₃＝1899.44，f₁₄＝3834.44，f₁₅＝3878.64，计算其适应度值即工作流响应时间rs₂：由于

而SFL₁₅＝{f_15-1}，故

操作结束。

同理，通过对初始概率模型进行采样生成种群中的其它个体如下：

ch₃＝{1,1,3,5,2,5,5,4,3,4,3,3,1,6,1；3,1,4,2,5,6,7,8,9,10,11,12,13,14,15}；

ch₄＝{4,1,2,1,2,4,5,5,4,2,2,5,1,6,1；3,2,1,6,5,4,7,8,9,10,11,12,13,14,15}；

ch₅＝{5,1,3,5,2,1,5,4,4,2,3,5,1,2,6；3,1,6,2,5,4,7,8,10,9,11,12,13,14,15}；

ch₆＝{5,5,2,1,6,4,4,6,4,4,4,5,1,2,1；3,1,6,2,5,4,7,8,9,10,11,12,13,14,15}；

ch₇＝{1,3,3,5,2,4,5,6,2,2,6,5,6,4,1；2,1,3,5,4,6,7,8,10,9,11,12,13,14,15}；

ch₈＝{1,1,1,3,2,5,2,4,1,2,6,3,6,2,6；2,3,1,5,4,6,7,8,10,9,11,12,13,14,15}；

ch₉＝{4,4,2,6,6,4,4,5,2,4,6,5,6,6,1；1,3,2,4,5,6,7,8,9,10,11,12,13,14,15}；

ch₁₀＝{5,5,3,4,2,4,4,5,3,2,4,5,6,2,1；3,2,1,5,4,6,7,8,11,9,10,12,13,14,15}；

其适应度值即工作流响应时间分别为：rs₃＝5045.64，rs₄＝5489.00，rs₅＝6199.12，rs₆＝5461.24，rs₇＝4763.20，rs₈＝5976.56，rs₉＝2118.72，rs₁₀＝5217.48；

这样最终生成的初始种群为{ch₁,ch₂,ch₃,ch₄,ch₅,ch₆,ch₇,ch₈,ch₉,ch₁₀}，并令其为当代种群CP；

当代种群CP＝{ch₁,ch₂,ch₃,ch₄,ch₅,ch₆,ch₇,ch₈,ch₉,ch₁₀}中最好的个体为ch₁，把其保存到BestChrom中，则BestChrom＝{6,5,3,5,6,3,5,5,5,4,3,4,6,6,6；2,1,3,5,6,4,7,8,10,9,11,12,13,14,15}，rs_BestChrom＝1174.64。

执行步骤5：构建精英种群，更新概率模型；

取精英率r_e＝0.2，

根据适应度值从优到劣选取2个个体：

ch₁＝{6,5,3,5,6,3,5,5,5,4,3,4,6,6,6；2,1,3,5,6,4,7,8,10,9,11,12,13,14,15}和

ch₉＝{4,4,2,6,6,4,4,5,2,4,6,5,6,6,1；1,3,2,4,5,6,7,8,9,10,11,12,13,14,15}作为当代精英种群，即

POP_e＝{ch₁,ch₉}；

取虚拟机分配概率模型的更新速率θ₁＝0.2；

虚拟机分配概率模型更新的具体实施过程如下：

在当代精英种群POP_e中，t₁一次也没有被分配给vm₁、vm₂、vm₃、vm₅，而分配给vm₄、vm₆的则各有一次，即

则根据公式(16)有：

α_1,5(2)＝0.20，α_1,6(2)＝0.30；

同理，可以得到其它t_i的α_i,j(2)，i＝2,…,15，j＝1,…,6，最终得到更新后的虚拟机分配概率模型为：

取任务调度顺序概率模型的更新速率θ₂＝0.2；

任务调度顺序概率模型更新的具体实施过程如下：

在当代精英种群POP_e中，第一个调度的任务是t₂和t₁的各有1次，因此有

则根据公式(17)有：

……

β_15,1(2)＝0.00；

同理，可以得到其它第i′个调度位置的β_i,i′(2)，i′＝2,…,15，i＝1,…,15，最终得到更新后的任务调度顺序概率模型为：

执行步骤6：采样概率模型生成新种群，令新种群为当代种群；

对当前概率模型PMVM(2)和PMS(2)进行10次采样生成10个个体如下：

ch′₁＝{6,1,2,1,6,1,4,5,1,4,2,5,6,6,1；1,2,3,4,5,6,7,8,10,11,9,12,13,14,15}；

ch′₂＝{4,1,5,6,6,3,5,6,2,4,4,4,1,5,1；3,1,2,6,5,4,7,8,9,10,11,12,13,14,15}；

ch′₃＝{5,4,2,4,1,1,4,5,2,4,6,4,6,6,6；3,1,4,2,5,6,7,8,10,11,9,12,13,14,15}；

ch′₄＝{5,5,1,3,2,4,2,6,1,2,3,4,6,6,1；1,2,5,4,3,6,7,8,10,11,9,12,13,14,15}；

ch′₅＝{1,1,2,4,2,3,5,5,2,2,3,4,6,6,1；1,2,5,4,3,6,7,8,9,11,10,12,13,14,15}；

ch′₆＝{4,5,5,3,6,1,5,6,2,2,3,5,6,6,1；1,2,3,6,4,5,7,8,10,9,11,12,13,14,15}；

ch′₇＝{1,3,3,4,6,5,4,4,1,2,3,5,6,4,6；1,4,3,2,6,5,7,8,9,11,10,12,13,14,15}；

ch′₈＝{5,5,1,6,6,4,5,5,5,2,6,5,6,4,6；3,2,1,4,5,6,7,8,11,10,9,12,13,14,15}；

ch′₉＝{4,1,3,3,6,4,2,5,5,2,6,5,6,2,1；3,1,2,5,4,6,7,8,9,10,11,12,13,14,15}；

ch′₁₀＝{4,1,3,5,1,4,5,5,3,4,2,3,6,5,1；2,3,1,4,5,6,7,8,10,9,11,12,13,14,15}；

形成了新种群NP＝{ch′₁,ch′₂,ch′₃,ch′₄,ch′₅,ch′₆,ch′₇,ch′₈,ch′₉,ch′₁₀}；令新种群为当代种群，即CP＝NP。

执行步骤7：当代种群改进与最优个体保存；

首先，采用FBI&D对当代种群中的所有个体进行改进；

通过采样概率模型已获得了个体的所有任务执行时间、任务完成时间，及其适应度值即工作流响应时间，例如对于通过采样概率模型获得的当代种群中的个体

ch₃＝{5,4,2,4,1,1,4,5,2,4,6,4,6,6,6；3,1,4,2,5,6,7,8,10,11,9,12,13,14,15}，其所有任务执行时间为：et₁＝129.12，et₂＝185.16，et₃＝306.24，et₄＝263.16，et₅＝752.64，et₆＝739.44，et₇＝20.24，et₈＝4.56，et₉＝431.76，et₁₀＝60.64，et₁₁＝343.68，et₁₂＝496.08，et₁₃＝9.28，et₁₄＝10.00，et₁₅＝2.60；所有任务完成时间：f₁＝129.12，f₂＝577.44，f₃＝306.24，f₄＝392.28，f₅＝1330.08，f₆＝2069.52，f₇＝2089.76，f₈＝2094.32，f₉＝2526.08，f₁₀＝2154.96，f₁₁＝2438.00，f₁₂＝3022.16，f₁₃＝3031.44，f₁₄＝3041.44，f₁₅＝3044.04，及其工作流响应时间rs₃＝3052.44，因此对ch₃＝{5,4,2,4,1,1,4,5,2,4,6,4,6,6,6；3,1,4,2,5,6,7,8,10,11,9,12,13,14,15}采用FBI&D改进的具体实施过程如下：

执行步骤C1：把个体ch₃中的任务调度顺序列表根据任务完成时间f_i从大到小重新排列，即把ch₃中的基因g_I+i设置为倒数第i个完成的任务，i＝1,…,15，形成反向个体

执行步骤C2：对

采用基于插入模式的串行反向个体解码方法进行解码获得所有任务反向完成时间：

及其反向工作流响应时间

由于

小于rs₃＝3052.44，则转到步骤C3；

执行步骤C3：把反向个体

中的任务调度顺序列表根据任务反向完成时间

从大到小重新排列，即把

中的基因g_I+i设置为倒数第i个完成的任务，i＝1,…,15，形成个体ch₃＝{5,4,2,4,1,1,4,5,2,4,6,4,6,6,6；2,1,5,3,6,4,7,8,9,11,10,12,13,14,15}；

执行步骤C4：采用基于插入模式的串行个体解码方法对个体ch₃进行解码，获得所有任务的完成时间：f₁＝129.12，f₂＝185.16，f₃＝306.24，f₄＝448.32，f₅＝937.80，f₆＝1677.24，f₇＝1697.48，f₈＝1702.04，f₉＝2133.80，f₁₀＝1762.68，f₁₁＝2045.72，f₁₂＝2629.88，f₁₃＝2639.16，f₁₄＝2649.16，f₁₅＝2651.76，及其工作流响应时间rs₃＝2660.16；由于rs₃＝2660.16等于

则转到步骤C5；

执行步骤C5：输出个体

ch₃＝{5,4,2,4,1,1,4,5,2,4,6,4,6,6,6；2,1,5,3,6,4,7,8,9,11,10,12,13,14,15}，及其适应度值即工作流响应时间rs₃＝2660.16，操作结束；

以上述个体

为例，基于插入模式的串行反向个体解码方法的具体实施过程如下：

执行步骤E1：由于

而SFL₁₅＝{f_15-1}，故令任务的反向就绪时间：

令ε＝1；令虚拟机可得时间段列表：vatl₁＝{[0,M]}，vatl₂＝{[0,M]}，……，vatl₆＝{[0,M]}，其中M为一个接近无穷大的数；

执行步骤E2：选取编号为i＝g_I+1＝g₁₆的任务，其为任务15；

执行步骤E3：基于插入模式把任务15分配给虚拟机j＝g₁₅＝6；即执行步骤E3.1：在vatl₆中从早到晚找出一个空闲时段[0,M]，满足M-0≥et₁₅＝2.60和

执行步骤E3.2：计算任务15的反向开始时间

反向完成时间

更新任务15的父任务的就绪时间

执行步骤E3.3：在虚拟机可得时间段列表vatl₆中删除[0,M]，插入区间长度大于0的[0,8.40]和[11.00,M]，则vatl₆＝{[0,8.40]，[11.00,M]}；

执行步骤E4：ε＝1+1＝2，由于ε＝2≤I＝15，则转到步骤E2；

执行步骤E2：选取编号为i＝g_I+2＝g₁₇的任务，其为任务14；

执行步骤E3：基于插入模式把任务14分配给虚拟机j＝g₁₄＝6；即执行步骤E3.1：在vatl₆中从早到晚找出一个空闲时段[11.00,M]，满足M-11.00≥et₁₄＝10.00和

执行步骤E3.2：计算任务14的反向开始时间

反向完成时间

更新任务14的父任务的就绪时间

执行步骤E3.3：在虚拟机可得时间段列表vatl₆中删除[11.00,M]，插入区间长度大于0的[21.00,M]，则vatl₆＝{[0,8.40]，[21.00,M]}；

执行步骤E4：ε＝2+1＝3，由于ε＝3≤I＝15，则转到步骤E2；

……

这样不断重复执行步骤E2至步骤E4，直到ε＝16>I＝15为空，转到步骤E5；

执行步骤E5：获得所有任务的反向完成时间：

计算反向工作流响应时间

操作结束。

以上述对个体ch₃＝{5,4,2,4,1,1,4,5,2,4,6,4,6,6,6；3,1,4,2,5,6,7,8,10,11,9,12,13,14,15}进行解码为例，其中基于插入模式的串行个体解码的具体实施过程如下：

执行步骤F1：令所有任务的就绪时间：rt₁＝0，rt₂＝0，…，rt₁₅＝0，令虚拟机可得时间段列表：vatl₁＝{[0,M]}，vatl₂＝{[0,M]}，…，vatl₆＝{[0,M]}，M为一个接近无穷大的数；令ε＝1；

执行步骤F2：选取编号为g₁₅₊₁＝g₁₆的任务，其为任务3；

执行步骤F3：基于插入模式把任务3分配给虚拟机g₃＝2；即执行步骤F3.1：在vatl₂中从早到晚找出一个空闲时间段[0,M]，满足M-0≥et₃＝306.24和M-306.24≥rt₃＝0；执行步骤F3.2：计算任务3的开始时间s₃＝max{v₂,rt₃}＝max{0,0}＝0，完成时间f₃＝s₃+et₃＝0+306.24＝306.24，更新任务3的子任务的就绪时间：

rt₆＝max{rt₆,f₃}＝max{0,306.24}＝306.24，rt₁₁＝max{rt₁₁,f₃}＝max{0,306.24}＝306.24；执行步骤F3.3：在虚拟机可得时间段列表vatl₂中删除[0,M]，插入区间长度大于0的[306.24,M]，则vatl₂＝{[306.24,M]}；

执行步骤F4：ε＝1+1＝2，由于ε＝2≤I＝15，故转至步骤F2；

执行步骤F2：选取编号为g₁₇的任务，其为任务1；

执行步骤F3：基于插入模式把任务1分配给虚拟机g₁＝5；即执行步骤F3.1：在vatl₅中从早到晚找出一个空闲时间段[0,M]，满足M-0≥129.12和M-129.12≥0；执行步骤F3.2：计算任务1的开始时间s₁＝max{0,0}＝0，完成时间f₁＝0+129.12＝129.12，更新任务1的子任务的就绪时间：rt₄＝max{rt₄,f₁}＝max{0,129.12}＝129.12，rt₅＝129.12，rt₆＝max{306.24,129.12}＝306.24，rt₉＝129.12；执行步骤F3.3：在虚拟机可得时间段列表vatl₅中删除[0,M]，插入区间长度大于0的[129.12,M]，vatl₅＝{[129.12,M]}；

执行步骤F4：ε＝2+1＝3，由于ε＝3≤I＝15，故转至步骤F2；

执行步骤F2：选取编号为g₁₈的任务，其为任务4；

执行步骤F3：基于插入模式把任务4分配给虚拟机g₄＝4；即执行步骤F3.1：在vatl₄中从早到晚找出一个空闲时间段[0,M]，满足M-0≥263.16和M-263.16≥129.12；执行步骤F3.2：计算任务4的开始时间s₄＝max{0,129.12}＝129.12，完成时间f₄＝129.12+263.16＝392.28，更新任务4的子任务的就绪时间rt₇＝max{0,392.28}＝392.28；执行步骤F3.3：在虚拟机可得时间段列表vatl₄中删除[0,M]，插入区间长度大于0的[0,129.12]和[392.28,M]，vatl₄＝{[0,129.12],[392.28,M]}；

执行步骤F4：ε＝3+1＝4，由于ε＝4≤I＝15，故转至步骤F2；

……

这样不断重复执行步骤F2至步骤F4，直到ε＝16>I＝15，获得所有任务的开始时间s_i和完成时间f_i，转至步骤F5；

执行步骤F5：获得所有任务的完成时间：f₁＝129.12，f₂＝577.44，f₃＝306.24，f₄＝392.28，f₅＝1330.08，f₆＝2069.52，f₇＝2089.76，f₈＝2094.32，f₉＝2526.08，f₁₀＝2154.96，f₁₁＝2438.00，f₁₂＝3022.16，f₁₃＝3031.44，f₁₄＝3041.44，f₁₅＝3044.04；计算其适应度值即工作流响应时间rs₃：由于

而SFL₁₅＝{f_15-1}，故

操作结束。

同理，种群中的其它个体经FBI&D改进后变为：

ch₁＝{6,1,2,1,6,1,4,5,1,4,2,5,6,6,1；1,2,3,4,5,6,7,8,10,11,9,12,13,14,15}；

ch₂＝{4,1,5,6,6,3,5,6,2,4,4,4,1,5,1；3,1,2,6,5,4,7,8,9,10,11,12,13,14,15}；

ch₄＝{5,5,1,3,2,4,2,6,1,2,3,4,6,6,1；1,2,5,4,3,6,7,8,10,11,9,12,13,14,15}；

ch₅＝{1,1,2,4,2,3,5,5,2,2,3,4,6,6,1；1,2,5,4,3,6,7,8,9,11,10,12,13,14,15}；

ch₆＝{4,5,5,3,6,1,5,6,2,2,3,5,6,6,1；1,3,6,2,5,4,7,8,10,9,11,12,13,14,15}；

ch₇＝{1,3,3,4,6,5,4,4,1,2,3,5,6,4,6；1,4,3,2,6,5,7,8,9,11,10,12,13,14,15}；

ch₈＝{5,5,1,6,6,4,5,5,5,2,6,5,6,4,6；3,2,1,4,5,6,7,8,11,10,9,12,13,14,15}；

ch₉＝{4,1,3,3,6,4,2,5,5,2,6,5,6,2,1；3,1,2,5,4,6,7,8,9,10,11,12,13,14,15}；

ch₁₀＝{4,1,3,5,1,4,5,5,3,4,2,3,6,5,1；2,3,1,4,5,6,7,8,10,9,11,12,13,14,15}；

其适应度值即工作流响应时间分别为：rs₁＝2862.12，rs₂＝5100.52，rs₄＝2432.36，rs₄＝5024.20，rs₅＝3212.84，rs₆＝2761.20，rs₇＝4229.28，rs₈＝3839.96，rs₉＝4873.24,rs₁₀＝3252.20；

然后，采用LDI方法对当代种群中的所有个体进行改进；例如对种群中的第10个个体ch₁₀＝{4,1,3,5,1,4,5,5,3,4,2,3,6,5,1；2,3,1,4,5,6,7,8,10,9,11,12,13,14,15}采用LDI改进的具体实施过程如下：

执行步骤D1：计算各虚拟机的负载，

同理可求得其它虚拟机的负载ld₂＝108，ld₃＝131.4，ld₄＝180，ld₅＝46.8，ld₆＝6；

执行步骤D2：找出负载最小的虚拟机，其为vm₆，j′＝6，由于ld₆＝6>0，故转到步骤D3；

执行步骤D3：令

转到步骤D5；

执行步骤D5：ST₆＝{t₁₄}不为空，则按顺序从ST₆中找出一个其所在虚拟机负载是最高的任务，其为t₁₄，i′＝14，转到步骤D6；

执行步骤D6：g₁₄＝6，形成新个体

用FBI&D方法对新个体

进行改进，新个体变为

其工作流响应时间

相对于原方案3252.20有改进，则用此改进的个体替换原个体，转到步骤D7；

执行步骤D7：LDI操作结束；

同理，种群中的其它个体经LDI改进后变为：

ch₁＝{6,3,2,1,6,1,4,5,1,4,2,5,6,6,1；1,2,3,4,5,6,7,8,10,11,9,12,13,14,15}；

ch₂＝{4,1,5,5,6,3,5,6,2,4,4,4,1,5,1；3,1,2,6,5,4,7,8,9,10,11,12,13,14,15}；

ch₃＝{5,4,2,4,1,1,4,5,3,4,6,4,6,6,6；2,1,5,3,6,4,7,8,9,11,10,12,13,14,15}；

ch₄＝{5,5,1,3,2,4,2,6,1,2,3,4,6,6,6；1,2,5,4,3,6,7,8,10,11,9,12,13,14,15}；

ch₅＝{1,1,2,4,2,3,5,5,5,2,3,4,6,6,1；1,2,5,4,3,6,7,8,9,11,10,12,13,14,15}；

ch₆＝{4,5,5,3,6,1,5,6,2,2,3,5,6,6,6；1,3,6,2,5,4,7,8,10,9,11,12,13,14,15}；

ch₇＝{5,3,3,4,6,5,4,4,1,2,3,5,6,4,6；1,4,3,2,6,5,7,8,9,11,10,12,13,14,15}；

ch₈＝{5,5,3,6,6,4,5,5,5,2,6,5,6,4,6；1,3,4,2,6,5,7,8,10,11,9,12,13,14,15}；

ch₉＝{4,1,3,3,6,4,5,5,5,2,6,5,6,2,1；3,1,2,5,4,6,7,8,9,10,11,12,13,14,15}；

其适应度值即工作流响应时间分别为：rs₁＝2679.00，rs₂＝4846.92，rs₃＝2476.08，rs₄＝2356.36，rs₅＝2685.08，rs₆＝2685.20，rs₇＝4070.88，rs₈＝3637.92，rs₉＝4855.88；

由于改进后的种群中的最优个体并不优于BestChrom中保存的个体，因此无需更新保存在BestChrom中的个体。

执行步骤8：判断是否满足终止条件，如果不满足，转到步骤5；否则输出BestChrom中保存的个体，其对应的调度方案作为优化方案；

终止条件设为连续迭代20代最优个体没有改进；

由于当前迭代进化了两代，不满足终止条件，因此转到步骤5。

……

这样不断重复执行步骤5至步骤8，直至BestChrom连续迭代20代都没有改进，当代种群变为：

ch₁＝{6,4,5,5,6,5,4,6,3,4,4,4,6,6,6；2,3,1,5,4,6,7,8,10,9,11,12,13,14,15}；

ch₂＝{6,4,3,6,6,3,4,6,3,4,4,4,6,6,1；2,3,1,5,6,4,7,8,9,11,10,12,13,14,15}；

ch₃＝{6,4,2,5,6,3,4,4,3,4,4,4,6,6,6；2,3,1,4,6,5,7,8,10,9,11,12,13,14,15}；

ch₄＝{6,4,3,6,6,5,4,4,3,4,4,4,6,6,1；2,3,1,5,6,4,7,8,10,9,11,12,13,14,15}；

ch₅＝{6,4,3,6,6,3,4,6,3,4,4,4,6,6,1；2,3,1,4,6,5,7,8,10,9,11,12,13,14,15}；

ch₆＝{6,4,3,6,6,3,4,6,3,4,4,4,6,6,6；2,3,1,5,6,4,7,8,10,11,9,12,13,14,15}；

ch₇＝{6,4,5,6,6,3,4,4,3,4,4,4,6,6,6；2,3,1,5,6,4,7,8,10,9,11,12,13,14,15}；

ch₈＝{6,4,3,6,6,5,4,6,3,4,4,4,6,6,6；2,3,1,5,4,6,7,8,10,11,9,12,13,14,15}；

ch₉＝{6,4,5,5,6,5,4,6,3,4,4,4,6,6,6；2,3,1,5,6,4,7,8,10,11,9,12,13,14,15}；

ch₁₀＝{6,4,5,6,6,5,4,6,3,4,4,4,6,6,1；2,3,1,5,4,6,7,8,10,9,11,12,13,14,15}；

其适应度值即工作流响应时间分别为：rs₁＝1102.20，rs₂＝1108.16，rs₃＝1564.28，rs₄＝1239.36，rs₅＝1108.16，rs₆＝1032.16，rs₇＝1184.36，rs₈＝1164.92，rs₉＝1102.20，rs₁₀＝1096.32；

BestChrom＝{6,4,3,6,6,3,4,6,3,4,4,4,6,6,6；2,3,1,5,6,4,7,8,10,11,9,12,13,14,15}，rs_BestChrom＝1032.16，其对应的调度方案如表8所示。

表8

上述实施例只是本发明的较佳实施例，并不是对本发明技术方案的限制，只要是不经过创造性劳动即可在上述实施例的基础上实现的技术方案，均应视为落入本发明专利的权利保护范围内。

Claims

1.一种基于分布式估计算法的云工作流调度优化方法，其特征在于：包括以下步骤：

步骤1：形式化调度问题，获取调度优化所需的信息；

获取任务集T＝{t₁,t₂,…,t_I}，其中I是任务的数量，t_i表示任务i，即编号为i的任务；

步骤2：计算任务的rank；

先计算t_i执行时的平均处理时间

需要从共享数据库获得输入文件的平均传输时间

需要从其它虚拟机获得输入文件的平均传输时间

t_i执行时的平均处理时间计算如下：

其中

为

和t_i间的文件平均传输时间，其计算如下：

然后，计算任务i的

其计算过程如下：

对于没有子任务的结束任务i：

其它任务的自下而上排序值

采用如下递归公式进行计算：

接着，计算任务i的

其计算过程如下：

对于没有父任务的开始任务i：

其它任务的自上而下排序值

采用如下递归公式进行计算：

最后，计算任务i的排序值rank_i：

其中，i＝1,2…,I；

步骤3：计算任务的层次值；

对于没有父任务的开始任务i，其层次值为：

level_i＝1 (10)

其它任务的层次值采用如下递归公式进行计算：

步骤4：初始化当代种群，进行最优个体保存；

所述个体采用2I位整数编码，I为任务数量，其方法如下：ch＝{g₁,…,g_I,g_I+1,…,g_2I}，基因g_i是一个非负整数；其中，{g₁,…,g_I}是虚拟机分配列表，g_i表示给任务i分配的虚拟机编号，即把任务i分配给虚拟机g_i，g_i∈VM_i；{g_I+1,…,g_2I}是任务调度顺序列表，是1,…,I的一个排列，且满足任务的时序约束，即任何任务都不能排在其父任务的前面，g_I+i表示第i个被调度的任务的编号，即任务g_I+i是第i个被调度的；

所述基于HEFT_lbt生成1个个体包括如下步骤：