CN103235640B

CN103235640B - 一种基于dvfs技术的大规模并行任务节能调度方法

Info

Publication number: CN103235640B
Application number: CN201310006427.8A
Authority: CN
Inventors: 王玉龙; 苏森; 黄庆佳; 双锴; 徐鹏
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2013-01-08
Filing date: 2013-01-08
Publication date: 2016-01-13
Anticipated expiration: 2033-01-08
Also published as: CN103235640A

Abstract

本发明提供了一种基于DVFS技术的大规模并行任务节能调度方法，属于分布式计算领域。所述方法包括以下步骤：(1)任务映射阶段：将所有处理器的初始状态均设为运行在其最高电压和最高频率状态，然后通过计算获得任务映射阶段的有向无环图调度结果的整体执行时间M_HEFT；(2)任务拉伸阶段：将任务的执行电压和频率进行拉伸优化，在不影响整体性能的情况下降低能耗开销。本发明方法在不影响大规模并行任务整体执行时间的条件下，显著降低了并行任务带来的能耗开销。

Description

一种基于DVFS技术的大规模并行任务节能调度方法

技术领域

本发明属于分布式计算领域，具体涉及一种基于DVFS技术的大规模并行任务节能调度方法，用于解决大规模并行任务在数据中心等环境中的能耗问题。

背景技术

随着云计算技术的兴起，作为其基础设施的大规模分布式处理系统(比如数据中心和集群等)，开始了不断建设并已经在工业界得到广泛而深入的应用，逐渐成为了高性能计算的主流平台。然而，云计算平台在提供强大的计算能力的同时也带来了能耗开销巨大的问题。根据EPA(EnvironmentProtectionAgency)报告，2006年美国数据中心的总能耗已达到614亿KWh，相比2000年翻了一番(请参考U.S.E.P.Agency，“Reporttocongressonserveranddatacenterenergyefficiencypubliclaw，”2007。)。高速增长的能耗开销已经成为云计算平台发展的瓶颈，急需得到有效的解决。

动态电压频率调节(DynamicVoltageandFrequencyScaling，DVFS)技术是目前计算机系统低功耗设计中常用的节能技术。DVFS技术利用了CMOS电路特性：CMOS电路的功耗正比于时钟频率和电压的平方，即每个时钟周期的能量消耗正比于电压的平方。对于一个任务来说，完成它所需要的时钟周期是固定的，所消耗的能量与电压的平方成正比，只有降低电压才能减少能量开销。但是由于时钟频率与电压的线性关系，降低电压会减少时钟频率，增加任务完成时间，导致性能下降(请参考MudgeT.Power：Afirstclassdesignconstraintforfuturearchitecture[C].Proceedingsofthe7thInternationalConferenceonHighPerformanceComputing，2000。)。可见，DVFS技术是以延长执行时间为代价来达到减少能量消耗的目的，是功耗和性能之间一种权衡。分布式处理系统中服务器的负载经常是不均衡且动态变化的，利用DVFS技术的特点进行任务调度可使得服务器系统在不影响服务能力的情况下最大限度降低整个系统的能量开销。

并行任务是分布式处理系统中最重要的应用类型。目前利用DVFS技术的并行任务节能调度一般包含如下两个步骤：1)任务映射；2)电压调节。文献1(请参考V.ShekarandB.Izadi，“Energyawareschedulingfordagstructuredapplicationsonheterogeneousanddvsenabledprocessors，”inGreenComputingConference，2010International.IEEE，2010，pp.495-502)首先在服务器处理器最优性能/最高电压下进行任务映射，然后利用贪婪式的方法降低任务的执行电压以减少任务功耗；文献2(请参考H.Kimura，M.Sato，Y.Hotta，T.Boku，andD.Takahashi，“EmpricalstudyonreducingenergyofparallelprogramsusingslackreclamationbyDVFSinapower-scalablehighperformancecluster，”inClusterComputing，2006IEEEInternationalConferenceon.IEEE，2006，pp.1-10)同样先是在处理器最优性能下进行任务分配，然后通过局部考虑任务间依赖关系寻求任务电压调节策略的局部最优值；以上方法在进行电压调节时都缺乏考虑全局信息，仅从局部信息进行电压调整，因此其节能效果仍不是最优效果。与上述两种方法不同，文献3(Y.LeeandA.Zomaya，“Energyconsciousschedulingfordistributedcomputingsystemsunderdifferentoperatingconditions，”ParallelandDistributedSystems，IEEETransactionson，no.99，pp.1-1，2011)并不将任务映射与电压调节进行严格阶段区分，其提出了一个任务性能和能耗开销的综合目标函数，通过帕累托最优的方法同时决定任务的执行位置及执行电压，该方法在能耗开销上取得了很好的效果，但仍存在执行性能无法动态调节，不能满足用户动态需求的问题。

发明内容

本发明的目的在于解决上述现有技术中存在的难题，提供一种基于DVFS技术的大规模并行任务节能调度方法，降低云计算平台的运行能耗开销，在保证并行任务执行性能的情况下，建立并行任务调度的数学模型，通过分析并行任务的内联关系设计了全局优化的调节策略，提出一个高效的启发式的并行任务节能调度方法。

本发明是通过以下技术方案实现的：

一种基于DVFS技术的大规模并行任务节能调度方法，所述方法包括以下步骤：

(1)任务映射阶段：将所有处理器的初始状态均设为运行在其最高电压和最高频率状态，然后通过计算获得任务映射阶段的有向无环图(DAG)调度结果的整体执行时间M_HEFT；

(2)任务拉伸阶段：将任务的执行电压和频率进行拉伸优化，在不影响整体性能的情况下降低能耗开销。

所述步骤(1)包括以下步骤：

(A1)：计算所有任务的平均执行开销；

设任务n_i在处理器p_k上的执行开销记为w_i，k，则该任务在q个处理器上的平均执行开销是该任务在所有处理器上的执行时间的均值，如下式所示：

\overset{&OverBar;}{w_{i}} = Σ_{j = 1}^{q} w_{i, j} / q;

(A2)：计算所有任务的b-level值，然后按b-level值的降序顺序将任务压入队列Q；

b-level值是指：通过广度优先算法逆序计算从有向无环图退出节点到当前节点所有路径中最大的路径开销值；

(A3)：选择所述队列Q中的第一个任务，设该任务为n_i，即未被调度的b-level值最高的任务；

(A4)：循环查找所有的处理器获得该任务在各个处理器上最早结束时间EFT(n_i，p_k)，选择最早结束时间最小的处理器p_k，将任务n_i调度到该处理器上执行；

所述最早结束时间EFT(n_i，p_k)是通过下式得到的：任务n_i在处理器p_k的最早结束时间EFT(n_i，p_k)＝EST(n_i，p_k)+w_i，k，其中，EST(n_i，p_k)是任务n_i在处理器p_k的最早开始时间，

EST (n_{i}, p_{k}) = \max_{n_{j} &Element; pred (n_{i})} (AFT (n_{j}) + c_{j, i}),

其中，AFT(n_i)为任务n_i的实际结束时间，n_j为另外一个任务，c_i，j为两个任务的通信开销，即每两个存在依赖关系的可执行任务之间的传输时间；pred(n_i)为该任务的直接前驱任务集合，n_j为该任务的直接前驱任务集合中的一个任务，

pred (n_{i}) = {&ForAll; n_{j} | &Exists; (n_{j} &RightArrow; n_{i}), n_{i} &Element; DAG, n_{j} &Element; DAG};

(A5)：将已调度的任务n_i移出队列Q，然后判断队列Q是否为空，如果是，则转入步骤(A6)，如果否，则返回步骤(A3)；

(A6)：计算出任务映射阶段的有向无环图调度结果的整体执行时间M_HEFT：

M_{HEFT} = \max {AFT (n_{i}) | &ForAll; n_{i} &Element; DAG} .

所述步骤(2)包括以下步骤：

(B1)：如果M_HEFT≤T_deadline，转入步骤(B2)，T_deadline为用户设定的并行任务最长执行时间；如果M_HEFT＞T_deadline则调度无法满足用户设定，转入步骤(B14)；

(B2)：计算任务拉伸系数μ＝T_deadline/M_HEFT；

(B3)：令S为所有任务的集合，当S不为空时，从S中取出AFT(n_i)值最大的任务n_i；

(B4)：对任务映射阶段的原调度进行拉伸，在处理器p_k不变的情况下重新计算任务n_i的实际结束时间AFT′(n_i)和实际开始时间AST′(n_i)，计算方式如下：

将实际开始时间更新为：AST′(n_i)＝μ·AST(n_i)，其中AST(n_i)为任务n_i的实际开始时间；

将实际结束时间更新为：AFT′(n_i)＝AST′(n_i)+w_i，k，其中，w_i，k为任务n_i在处理器p_k上的执行开销；

更新后的实际开始时间和更新后的实际结束时间构成新调度结果；

(B5)将已经拉伸的任务n_i从任务集合S中删除，如果S不为空，返回步骤(B4)，如果S为空，则转入步骤(B6)；

(B6)：计算所述新调度结果下的所有计算任务的最早开始时间EST(n_i)和最晚结束时间LFT(n_i)：

EST (n_{i}) = \max_{n_{j} &Element; pred (n_{i})} (AFT (n_{j}) + c_{j, i});

AFT(n_i)＝AFT′(n_i)＝AST′(n_i)+w_i，k；

LFT (n_{i}) = \min_{n_{j} &Element; succ (n_{i})} (AST (n_{j}) - c_{i, j}),

其中，c_i，j为两个任务的通信开销；

(B7)：令N为所有任务的集合；

(B8)如果N不为空，则取出LFT(n_i)值最大的任务n_i，放入临时调度队列Q_temp；

(B9)：任务n_i在处理器p_k上的执行序号表示为l，则任务n_i也可表示为并设置变量x＝l；

(B10)：如果则将放入Q_temp，继续执行步骤(B11)；否则跳到步骤(B12)；

(B11)：设置变量x′＝x-1，如果x′＞0，则返回步骤(B10)，否则跳到步骤(B12)；

(B12)：计算任务n_i的全局最优执行频率值f_global：

计算队列Q_temp(这个临时队列中存储的是一台服务器上拉伸空间有重叠的任务集合)中所有任务的执行时间：

T_{exec} (Q_{temp}) = {Σ w_{i, p_{k}} | &ForAll; n_{i} &Element; Q_{temp}}

计算队列Q_temp中任务集的整体可用时间：

T_{total} (Q_{temp}) = LFT (n_{p_{k}, biggest}) - EST (n_{p_{k}, smallest})

计算任务n_i的全局最优执行频率值f_global：

f_{global} (n_{i}, p_{k}) = f_{\max} (p_{k}) \cdot \max (\frac{w_{i}}{w_{i} + Slack (n_{i})}, \frac{T_{exec} (Q_{temp})}{T_{total} (Q_{temp})})

也就是让临时队列中的所有任务在可用的时间进行均匀拉伸(降低cpu执行频率，延长执行时间。

(B13)：将任务n_i的执行电压从f_max(p_k)到f_global(n_i，p_k)，其实际执行开销调整为

T_{exec}^{'} (n_{i}) = \frac{n_{i}}{f_{global} (n_{i}, p_{k})},

实际结束时间调整为AFT(n_i)＝LFT(n_i)，

实际开始时间调整为

AST (n_{i}) = AFT (n_{i}) - T_{exec}^{'} (n_{i});

(B14)：将任务n_i移出任务集合N，更新任务n_i的前驱任务集合的最晚结束时间LFT，清空临时队列Q_temp；

(B15)：如果任务集合N不为空，则返回步骤(B7)；否则调度结束，转入步骤(B16)；

(B16)：退出程序。

与现有技术相比，本发明的有益效果是：本发明利用动态电压频率调节(DynamicVoltageandFrequencyScaling，DVFS)技术，本发明在不影响大规模并行任务整体执行时间的条件下，显著降低了并行任务带来的能耗开销。。

附图说明

图1-1是使用Gaussworkload测试集，在最高性能(M_HEFT)条件下EES与Greedy-based、Path-based进行节能比例比较。

图1-2是使用RandomDAGworkload测试集，在最高性能M_HEFT)条件下EES与Greedy-based、Path-based进行节能比例比较。

图2-1是使用Gaussworkload测试集，在用户设定性能约束低于并行任务最高性能(M_HEFT)时EES与Greedy-based、Path-based进行节能比例比较。

图2-2是使用RandomDAGworkload测试集，在用户设定性能约束低于并行任务最高性能(M_HEFT)时EES与Greedy-based、Path-based进行节能比例比较。

图3-1是使用Gaussworkload测试集，并以ECS算法作为用户执行时间约束标准条件下比较EES与ECS的节能效果。

图3-2是使用RandomDAGworkload测试集，并以ECS算法作为用户执行时间约束标准条件下比较EES与ECS的节能效果。

图4-1是简单的并行任务的DAG图例。

图4-2是针对图4-1利用本发明方法得到的调度结果示例。

图5是本发明基于DVFS技术的大规模并行任务节能调度方法的步骤框图。

具体实施方式

下面结合附图对本发明作进一步详细描述：

本发明要求底层云计算平台的服务器支持DVFS技术。在DVFS技术的支持下，建立了并行任务的任务调度模型和能耗模型，根据该模型提出了一种新的启发式节能调度方法(EnhancedEnergy-efficientScheduling，简称EES)(是本发明方法的英文名称，以方便后面与对比方法的描述)。

并行任务调度问题的形式化描述如下：

●分布式处理系统：系统中异构服务器处理器集合记为P＝{p₁，p₂，…，p_n}，对于处理器p_i均有相应的电压和频率集合：V_i＝{v_i，1，v_i，2，…，v_i，m}，F_i＝{f_i，1，f_i，2，…，f_i，m}，处理器p_i当处于电压v_i，j时，其运行频率为f_i，j。其中V_i和F_i中的最小值满足：v_i，min＞0，f_i，min＞0。

●并行任务请求：并行任务可以标记为带权无环图G＝(N，E)，其中N表示n个可执行任务的集合，E是任务节点之间有向边的集合，表示任务间的数据依赖关系。所有的任务均是不可被抢占的，其执行时间标记为T_exec(n_i)。任意有向边edge(n_i，n_j)∈E均带有一个权值，表示从任务n_i到n_j的通信开销，标记为c_i，j。如果任务n_i和n_j被分配到同一台服务器p_i上执行的话，则这两个任务之间的通信开销为0，即c_i，j＝0。只有存在依赖关系的两个执行任务n_i和n_j被分配到不同的服务器上执行时，通信开销才存在。整个并行任务的执行时间标记为M，同时用户设定的并行任务最长执行时间标记为T_deadline，则必须满足M≤T_deadline。

●服务器能耗开销：服务器CMOS的能耗开销主要包含两个部分：静态能量消耗E_static和动态能量消耗E_dynamic，其中静态能量消耗E_static伴随着服务器启动就一直固定存在，动态能量消耗E_dynamic随着执行电压的变化而动态变化，其能量开销在整体能量开销中占支配地位。DVFS技术通过调整CPU的电压值和频率值来动态调整服务器处理器的动态能量部分，因此本发明只考虑服务器处理器的动态能量部分。处理器功率P_dynamic与执行电压v和频率f存在如下函数关系：P_dynamic＝k·v²·f，其中k是一个与具体硬件相关的定值。那么动态能量开销E_dynamic＝P_dynamic·Δt，其中Δt为执行时间。为了节省能耗，设定处理器在空闲时间能自动将电压和频率值调整是其最低值，即v_lowest和f_lowest。将处理器空闲时间的能量开销标记为E_idle，执行任务期间的能量开销标记为E_tasks。

●并行任务调度：并行任务调度问题即是为每个执行任务分配到某一服务器并选择其执行电压和频率{v_i，f_i}。调度过程分为两个阶段，任务映射阶段按最高执行性能要求将任务分配到服务器，拉伸阶段将每个任务根据全局优化策略进行电压和频率调整的。任务n_i调度实际开始和结束时间标记为AST(n_i)、AFT(n_i)。

●主要评价指标：

并行任务执行时间：M＝max{AFT(n_i)|n_i∈DAG}，

服务器能耗总开销：E_total＝E_tasks+E_idle。

如图5所示，本发明基于DVFS技术的大规模并行任务节能调度方法具体如下：

为了满足并行任务的性能需求，本发明设计了一个两步调度的方法框架：

1)任务映射阶段：所有处理器的初始状态均为运行在其最高电压和最高频率状态，该阶段本发明使用经典的高性能的异构最早完成时间算法(HEFT)(请参考H.Topcuoglu，S.Hariri，andM.Wu，“Performance-effectiveandlowcomplexitytaskschedulingforheterogeneouscomputing，”ParallelandDistributedSystems，IEEETransactionson，vol.13，no.3，pp.260-274，2002)作为调度的基础算法，本阶段可获得该并行任务的最短完成时间M_HEFT；

2)任务拉伸阶段：将任务的执行电压和频率进行拉伸优化(实际的拉伸是在B11步骤，之前的步骤是在计算拉伸到哪个电压/频率状态是最优的。)，充分利用服务器的空闲时间，调低非关键路径任务的电压和频率，在不影响整体性能的情况下降低能耗开销。

下面将两个阶段进行分开详细描述：

1，任务映射阶段

定义1执行开销：任务n_i在处理器p_k上的执行开销记为w_i，k。由于每个可执行任务在处理器上的执行时间也是不同的，将每个任务在所有处理器上的执行时间的均值定义为该任务的平均执行开销，

定义2通信开销：每两个存在依赖关系的可执行任务之间的传输时间定义为该两个任务的通信开销，记为c_i，j(当两个任务在同一处理器上执行时c_i，j＝0)。

定义3前驱任务集合：任务的直接前驱计算任务集合，记为pred(n_i)，

pred (n_{i}) = {&ForAll; n_{j} | &Exists; (n_{j} &RightArrow; n_{i}), n_{i} &Element; DAG, n_{j} &Element; DAG} .

定义4后续任务集合：计算任务的直接后继计算任务集合，记为Succ(n_i)，

succ (n_{i}) = {&ForAll; n_{j} | &Exists; (n_{i} &RightArrow; n_{j}), n_{i} &Element; DAG, n_{j} &Element; DAG} .

定义5路径开销：路径上所有计算任务的平均执行开销及通信开销的总和。

定义6t-level：通过广度优先算法顺序计算从DAG((DirectedAcyclicGraph)有向无环图，表示的是并行任务的任务结构)开始节点到当前节点的所有路径中最大的路径开销值。

定义7b-level：通过广度优先算法逆序计算从DAG退出节点到当前节点所有路径中最大的路径开销值。

定义8实际开始时间AST：任务n_i的实际开始时间标记为AST(n_i)。

定义9实际结束时间AFT：任务n_i的实际结束时间标记为AFT(n_i)。

定义10最早开始时间EST：任务n_i在处理器p_k的最早开始时间，EST(n_i，p_k)，

EST (n_{i}, p_{k}) = \max_{n_{j} &Element; pred (n_{i})} (AFT (n_{j}) + c_{j, i}) .

定义11最早结束时间EFT：任务n_i在处理器p_k的最早结束时间，EFT(n_i，p_k)，

EFT(n_i，p_k)＝EST(n_i，p_k)+w_i，k。

具体执行步骤如下：

步骤1：计算所有任务的平均执行开销；

步骤2：计算所有任务的b-level值并按降序顺序进入队列Q，也就是说每个任务对应一个b-level值，然后将所有任务的该值降序排序形成队列Q；

步骤3：选择队列Q中的第一个任务，即未被调度的b-level值最高的任务n_i；

步骤4：循环查找所有的处理器计算任务在各个处理器上最早结束时间EFT(n_i，p_k)，选择最早结束时间最小的处理器p_k，将任务n_i调度到该处理器上执行；

步骤5：将任务n_i移出队列Q，然后判断队列Q是否为空，如果是，则转入步骤6，如果否，则返回步骤3；

步骤6：计算出任务映射阶段DAG调度结果的整体执行时间M_HEFT：

M_{HEFT} = \max {AFT (n_{i}) | &ForAll; n_{i} &Element; DAG}

2，任务拉伸阶段

定义12最晚结束时间LFT：不影响其他任务执行时间的情况下任务n_i在处理器p_k上的最晚结束时间，LFT(n_i，p_k)，

LFT (n_{i}, p_{k}) = \min_{n_{j} &Element; succ (n_{i})} (AST (n_{j}) - c_{i, j}) .

定义13可拉伸时间Slack：不影响其他任务执行时间的情况下任务n_i在处理器p_k上的可伸缩时间，Slack(n_i)，

Slack(n_i)＝LFT(n_i，p_k)-EST(n_i，p_k)-w_i，k。

具体执行步骤如下：

步骤1：如果M_HEFT≤T_deadline，继续执行步骤2；如果M_HEFT＞T_deadline则调度无法满足用户设定，退出；

步骤2：计算拉伸比值μ＝T_deadline/M_HEFT；

步骤3：令S为所有任务的集合，当S不为空时，从S中取出AFT(n_i)值最大的任务n_i；

步骤4：拉伸任务映射阶段的原调度，所有任务的执行位置(即处理器p_k)不变，

实际开始时间更新为AST′(n_i)＝μ·AST(n_i)，

实际结束时间更新为AFT′(n_i)＝AST′(n_i)+w_i，k；

步骤5：将已经拉伸的任务n_i从任务集合S中删除，如果S不为空，返回步骤4，如果S为空，则转入步骤6；

步骤6：计算新调度结果下的所有任务的最早开始时间EST(n_i)和最晚结束时间LFT(n_i)；

步骤7：令N为所有任务的集合；

步骤8：如果N不为空，则取出LFT(n_i)值最大的任务n_i，放入临时调度队列Q_temp；(后面B9-B11由于篇幅关系没有画进图5中，这几步骤是计算f(global)的准备阶段，图5中的计算最优频率f(global)步骤在含义上包括了这几步)；

步骤9：任务n_i在处理器p_k上的执行序号表示为l，将n_i根据在p_k的执行序号表示为设置变量x＝l；

步骤10：如果则将放入Q_temp，继续执行步骤11；否则跳到步骤12；

步骤11：设置变量x′＝x-1，如果x′＞0，则返回步骤10，否则跳到步骤12；

步骤12：计算任务n_i的全局最优执行频率值f_global，

T_{exec} (Q_{temp}) = {Σ w_{i, p_{k}} | &ForAll; n_{i} &Element; Q_{temp}}

T_{total} (Q_{temp}) = LFT (n_{p_{k}, biggest}) - EST (n_{p_{k}, smallest})

f_{global} (n_{i}, p_{k}) = f_{\max} (p_{k}) \cdot \max (\frac{w_{i}}{w_{i} + Slack (n_{i})}, \frac{T_{exec} (Q_{temp})}{T_{total} (Q_{temp})})

步骤13：将任务n_i的执行电压从f_max(p_k)到f_global(n_i，p_k)，其实际执行开销调整为

实际结束时间调整为AFT(n_i)＝LFT(n_i)，

实际开始时间调整为AST(n_i)＝AFT(n_i)-w_i′；

步骤14：将任务n_i移出任务集合N，更新任务n_i的前驱任务集合的最晚结束时间LFT，清空临时队列Q_temp；

步骤15：如果任务集合N不为空，则返回步骤7；否则调度结束，转入步骤16；

步骤16：退出程序。

与文献1(V.ShekarandB.Izadi，“Energyawareschedulingfordagstructuredapplicationsonheterogeneousanddvsenabledprocessors，”inGreenComputingConference，2010International.IEEE，2010，pp.495-502)提出的基于贪婪式(Greedy-based)的并行任务节能调度算法及文献2(H.Kimura，M.Sato，Y.Hotta，T.Boku，andD.Takahashi，“EmpricalstudyonreducingenergyofparallelprogramsusingslackreclamationbyDVFSinapower-scalablehighperformancecluster，”inClusterComputing，2006IEEEInternationalConferenceon.IEEE，2006，pp.1-10)提出的基于路径(Path-based)的并行任务节能调度算法相比，本发明在保障并行任务性能的情况下，显著的提高了能耗的节省比例；与文献2(H.Kimura，M.Sato，Y.Hotta，T.Boku，andD.Takahashi，“EmpricalstudyonreducingenergyofparallelprogramsusingslackreclamationbyDVFSinapower-scalablehighperformancecluster，”inClusterComputing，2006IEEEInternationalConferenceon.IEEE，2006，pp.1-10)ECS调度算法相比，本发明不仅在性能上允许用户动态调整，并且在与ECS算法固定相同性能的条件下能耗节省比例也更加理想。

实验设置如下：底层分布式系统选择三类异构的处理器，分别是AMDTurionMT-34处理器，PentiumM处理器和AMDAthlon-64处理器，其执行电压-频率对如表1所示。每类处理器使用8个，总共24个处理器。并行任务工作流使用两类工作流：随机工作流(Random)和高斯工作流(Gauss)。随机工作流选择的节点数集合为{20，40，60，80，100，200}，Gauss工作流节点数有如下规律(m²+m-2)/2，m为工作流的层数，故Gauss工作流节点范围选择在[20，209]。

表1

下面通过分析实验数据来说明EES的节能性能。

(1)在并行任务最高性能(M_HEFT)条件下EES与Greedy-based、Path-based进行节能比例比较：

图1-1和图1-2表明，在最高性能(M_HEFT)条件下EES比Greedy-based、Path-based两种方法的节能效果都更优，其中图1-1中，EES的节能比例随着工作流的任务数的增加呈现递增趋势，而相比较下Greedy-based、Path-based的节能比例则出现了较大的浮动，不够稳定。在Gauss工作流209计算任务节点时，EES的节能比例高达33％。图1-2的节能比例相比较没有Gauss的高，原因是Gauss是规则图状结构，其非关键路径节点会随着图结构的增大而增多，而随机工作流则不一定，因此随机工作流的节能比例相对较低。但同等情况下EES的节能比例仍然较Greedy-based、Path-based两种方法有优势。在200计算任务节点时，EES的节能比例为17％。

(2)当用户设定性能约束低于并行任务最高性能(M_HEFT)时EES与Greedy-based、Path-based进行节能比例比较

图2-1和图2-2表明，当用户指定的执行时间约束大于最高性能执行时间(M_HEFT)，其节能效果会有不同的提高或下降。图2-1的执行时间拉伸比例η＝(T_deadline-M_HEFT)/M_HEFT值从0％到100％，即最大为2倍M_HEFT。在0％～100％的拉伸比例下，EES的节能比例出现先增后减的趋势，如图2-1当Gauss工作流的拉伸比例值为50％时候，其节能比例达到最高值，此后执行时间越长能耗开销越大。其原因在当执行时间增长的过程中，刚开始非关键路径节点会随之增多，但当拉伸到达一定比例后，非关键路径节点节省的能耗慢慢赶不上服务器过多的空闲时间带来的能耗，于是节能比例反而开始下降。图2-2出现同样的规律，在随机工作流下，节能比例最高点出现在拉伸比例值为150％。可见不同工作流的节能至高点也不同。总的来说，EES的节能效果一直都优于Greedy-based、Path-based两种调度算法。

(3)以ECS调度算法执行性能为用户标准比较EES与ECS的节能效果。

图3-1和图3-2是在使用ECS作为用户执行时间约束标准条件下节能比较。

ECS算法不似EES具有性能伸缩效果，因此以ECS的调度长度作为用户标准比较EES与ECS的节能效果。从实验测试可以发现ECS的调度结果约为最高性能(M_HEFT)拉伸9％左右。从图3可以看出EES在同等性能条件下的节能比例仍优于ECS算法。其中在图3-1中，Gauss工作流EES的平均节能比例为30.35％，而ECS为28.25％。图3-2中，随机工作流EES的平均节能比例为29.3％，而ECS为26.8％。

本发明可以应用到支持DVFS技术的云计算平台基础设施(数据中心、集群等)中，不仅保障计算平台上并行任务的执行性能，还最大限度的降低了并行任务的能耗开销，从而降低数据中心等的运营成本，达到节能减排的效果。图4-1和图4-2描绘了一个节能调度实例。

EES以工作流图状结构(包含计算任务的执行开销和任务间的通信开销)作为输入，以近似最优的任务调度方案为输出结果。图4-1和图4-2给出了一个近似最优的节能调度方案。

其中，对于并行任务请求，节点中的数字表示该计算任务节点的执行开销，有向边上的数字表示两个任务节点间的通信开销，底层有两台服务器PE1和PE2，其执行电压频率集合分别为{1.2v，1.1v，1.0v，0.9v，0.8v，0.7v}、{1G，0.8G，0.6G，0.5G，0.4G，0.333G}。如图调度则其节能比例能为10.3％。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

Claims

1.一种基于DVFS技术的大规模并行任务节能调度方法，其特征在于：所述方法包括以下步骤：

(1)任务映射阶段：将所有处理器的初始状态均设为运行在其最高电压和最高频率状态，然后通过计算获得任务映射阶段的有向无环图调度结果的整体执行时间M_HEFT；

(2)任务拉伸阶段：将任务的执行电压和频率进行拉伸优化，在不影响整体性能的情况下降低能耗开销，

其中，所述步骤(1)包括以下步骤：

(A1)：计算所有任务的平均执行开销；

设任务n_i在处理器p_k上的执行开销记为w_i,pk，则该任务在q个处理器上的平均执行开销是该任务在所有处理器上的执行时间的均值，如下式所示：

\overset{&OverBar;}{w_{i}} = Σ_{j = 1}^{q} w_{i, j} / q;

(A4)：循环查找所有的处理器获得该任务在各个处理器上最早结束时间EFT(n_i,p_k)，选择最早结束时间最小的处理器p_k，将任务n_i调度到该处理器上执行；

所述最早结束时间EFT(n_i,p_k)是通过下式得到的：任务n_i在处理器p_k的最早结束时间EFT(n_i,p_k)＝EST(n_i,p_k)+w_i,pk，其中，EST(n_i,p_k)是任务n_i在处理器p_k的最早开始时间，

EST (n_{i}, p_{k}) = \max_{n_{j} &Element; pred (n_{i})} (AFT (n_{j}) + c_{j, i}),

其中，AFT(n_i)为任务n_i的实际结束时间，n_j为另外一个任务，c_j,i为两个任务的通信开销，即每两个存在依赖关系的可执行任务之间的传输时间；pred(n_i)为该任务的直接前驱任务集合，n_j为该任务的直接前驱任务集合中的一个任务，

pred (n_{i}) = {{&ForAll;}_{n_{j}} | &Exists; (n_{j} &RightArrow; n_{i}), n_{i} &Element; DAG, n_{j} &Element; DAG};

M_{HEFT} = \max {AFT (n_{i}) | {&ForAll;}_{n_{i}} &Element; DAG} .

2.根据权利要求1所述的基于DVFS技术的大规模并行任务节能调度方法，其特征在于：所述步骤(2)包括以下步骤：

(B2)：计算任务拉伸系数μ＝T_deadline/M_HEFT；

(B4)：对任务映射阶段的原调度进行拉伸，在处理器p_k不变的情况下重新计算任务n_i的实际结束时间AFT'(n_i)和实际开始时间AST'(n_i)，计算方式如下：

将实际开始时间更新为：AST'(n_i)＝μ·AST(n_i)，其中AST(n_i)为任务n_i的实际开始时间；

将实际结束时间更新为：AFT'(n_i)＝AST'(n_i)+w_i,pk，其中，w_i,pk为任务n_i在处理器p_k上的执行开销；

(B5)将已经拉伸的任务n_i从任务集合S中删除，如果S不为空，返回步骤(B4)，如果S为空,则转入步骤(B6)；

EST (n_{i}) = \max_{n_{j} &Element; pred (n_{i})} (AFT (n_{j}) + c_{j, i});

LFT (n_{i}) = \min_{n_{j} &Element; succ (n_{i})} (AST (n_{j}) - c_{j, i}),

其中，c_j,i为两个任务的通信开销；

(B7)：令N为所有任务的集合；

(B9)：任务n_i在处理器p_k上的执行序号表示为l，则任务n_i也可表示为并设置变量x＝l_；

(B10)：如果

LFT (n_{p_{k}, x - 1}) > EST (n_{p_{k .} x}),

则将放入Q_temp，继续执行步骤(B11)；否则跳到步骤(B12)；

(B11)：设置变量x'＝x-1，如果x'＞0，则返回步骤(B10)，否则跳到步骤(B12)；

(B12)：计算任务n_i的全局最优执行频率值f_global：

计算队列Q_temp中所有任务的执行时间：

计算队列Q_temp中任务集的整体可用时间：

T_{total} (Q_{temp}) = LFT (n_{p_{k}, biggest}) - EST (n_{p_{k}, smallest})

计算任务n_i的全局最优执行频率值f_global：

f_{global} (n_{i}, p_{k}) = f_{\max} (p_{k}) \cdot \max (\frac{w_{i}}{w_{i} + Slack (n_{i})}, \frac{T_{exec} (Q_{temp})}{T_{total} (Q_{temp})}),

其中

Slack(n_i)表示不影响其他任务执行时间的情况下任务n_i在处理器p_k上的可伸缩时间；

(B13)：将任务n_i的执行电压从f_max(p_k)到f_global(n_i,p_k)，其

实际执行开销调整为

T_{exec}^{'} (n_{i}) = \frac{n_{i}}{f_{global} (n_{i}, p_{k})},

实际结束时间调整为AFT(n_i)＝LFT(n_i)，

实际开始时间调整为AST(n_i)＝AFT(n_i)-T′_exec(n_i)；

(B16)：退出程序。