CN102819460A

CN102819460A - 一种基于预算功率指导的高能效gpu集群系统调度算法

Info

Publication number: CN102819460A
Application number: CN2012102796967A
Authority: CN
Inventors: 都志辉; 刘文杰; 刘渊; 杨全
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-08-07
Filing date: 2012-08-07
Publication date: 2012-12-12
Anticipated expiration: 2032-08-07
Also published as: CN102819460B

Abstract

一种基于预算功率指导的高能效GPU集群系统调度算法，首先把所有待调度的任务分解为基本任务，把所有的基本任务划分为多个独立的任务簇；然后根据所述任务簇生成虚拟结点，形成所述任务簇和虚拟结点之间一对一的映射关系；最后将所述虚拟结点向物理结点进行多对多的映射，满足为任务簇中任务动态的分配合适的处理器以供其执行，本发明可以有效的提高GPU集群系统的能量效率，从而实现在长期来看可以显著节能的效果。

Description

一种基于预算功率指导的高能效GPU集群系统调度算法

技术领域

本发明涉及GPU集群系统调度算法，特别涉及一种基于预算功率指导的高能效GPU集群系统调度算法。

背景技术

所谓GPU集群，就是采用GPU（Graphics Processing Unit，图形处理单元）作为加速器的高性能计算集群。GPU的计算能力很强，同时具有易于部署，成本低、通用性强等优点。较为典型的GPU集群比如我国研制的“天河一号A”以及“星云”超级计算机。GPU集群一般包括成千上万的同构的计算结点，每个结点中又会配置多个CPU处理器和多个GPU处理器。由于GPU集群一旦正式投入使用，至少要连续运行几年甚至更长的时间，而任务调度是伴随超级计算机整个生命周期必不可少的系统功能，因此调度算法的优劣对于超级计算机长期与整体能耗的影响至关重要，因此高能效调度算法的研究对于实现GPU集群的长期有效节能至关重要。

GPU集群的计算能力在以指数形式快速增长，但随之而来的问题，是GPU集群的能耗开销也越来越大。例如2010年11月世界超级计算机排行榜TOP500上性能位居榜首的我国“天河一号A”超级计算机满负荷运行的总功耗达到了4.04兆瓦，24小时满负荷工作耗电就接近10万千瓦时，这带来了电力供应、经费负担、配套设施保障、环境保护等诸多问题。为了有效降低系统能耗，除了在硬件上提供必需的节能手段外，还必须重新研制新的调度算法，它可以对GPU集群的任务做出合理的安排，并充分利用底层的硬件节能措施来实现大幅度的能量节省。

发明内容

为了克服上述现有技术的不足，本发明的目的在于提供一种基于预算功率指导的高能效GPU集群系统调度算法，可以有效的提高GPU集群系统的能量效率，从而实现在长期来看可以显著节能的效果。

为了实现上述目的，本发明采用的技术方案是：

一种基于预算功率指导的高能效GPU集群系统调度算法，包括如下步骤：

步骤一，把所有待调度的任务根据其组成分解为基本任务，然后把所有的基本任务划分为多个独立的任务簇，一个任务簇用一个有向无环图（DAG）来表示；

步骤二，根据所述任务簇生成虚拟结点，形成所述任务簇和虚拟结点之间一对一的映射关系，为任务选取合适的处理器做准备，所述虚拟结点是由多个虚拟CPU和多个虚拟GPU构成，它表述了执行该任务簇的理想配置环境，其具体的配置和处理器个数由任务簇DAG图的并行度和计算量来决定；首先，计算出DAG图的关键路径，将关键路径上的任务从DAG中去除，然后从剩下的任务中再生成一条最长的路径，去除该路径之后，接着从剩下的任务中再生成路径，如此反复直至无任务剩余，记录总共生成路径的条数，这就是该DAG的最大可能并行度，即所需的处理器的个数；

步骤三，将所述虚拟结点向物理结点进行多对多的映射，满足为任务簇中任务动态的分配合适的处理器以供其执行，在映射的过程中，物理结点要能够满足虚拟结点的要求，所述物理结点包括物理GPU与物理CPU。

所述虚拟CPU向物理CPU的映射是一对一的映射；所述虚拟GPU向物理GPU的映射是一对一的映射。

对于一个给定的独立任务簇，首先为它生成一个虚拟结点，然后把该任务簇中的基本任务调度到虚拟结点的虚拟CPU与虚拟GPU上，调度方案是以执行时间最小化为目标而得到的。

所述虚拟结点向物理结点的映射过程是：首先根据虚拟结点上任务簇的截止时间对虚拟结点进行排序，然后根据截止时间从早到晚的顺序逐次把虚拟结点对应的任务调度到物理结点上。

当完成一次虚拟结点组向不同物理结点的映射后，根据当前的调度方案估算GPU集群系统的实际功率要求，如果该功率与设定的预算功率在误差允许的范围内近似相等，则不需要进行节能调整，而是直接转去执行具有下一个较晚截止时间的虚拟结点组向物理结点的映射；如果计算出来的实际功率高于设定的预算功率，就运用相应的节能措施，包括DRS能耗控制策略、DAG图调度策略、DVFS节能策略以及GPU子任务的β-migration节能策略等，把GPU集群系统需要的功率调整到与预算功率在误差允许的范围内近似相等的水平或者直到不能再进一步降低功率为止；如果所述各种节能措施全部应用后最终系统的功率需求还是高于预算功率甚至是安全功率的要求，则说明当时系统严重超载，通过推迟部分任务的执行与拒绝掉部分任务来降低当前系统的负载。

综上所述，本发明在分析和抽象GPU集群的系统模型、能耗模型、任务模型和调度机制的基础上，提出GPU集群的调度模型；基于该调度模型，本发明设计了可以在满足给定任务QoS(Quality of Service)要求和系统约束的前提下，以预算功率为指导，可以有效提高GPU集群能量效率的调度算法。其中：

本发明中的GPU集群系统的调度模型可表示为如下的三元组：

SchedulingModel=<TaskSet，GPUCluster,Sch>

TaskSet表示在较长的一段时间内所有GPU集群用户提交的任务的集合。GPUCluster表示用于执行该任务集合的GPU集群；用给定的调度算法，以在线方式（即在调度时刻不知道后续任务的情况）依次对已经到达的任务进行调度，直到TaskSet中所有任务被调度完成，所有这些在线调度得到的调度方案的集合，记为TaskSet在GPUCluster上的调度方案Sch。

本发明重点考虑计算密集型的任务，因为这种类型的任务消耗处理器的能量最多。

本发明中的GPU集群一般由很多计算结点构成，每个计算结点多采用同构的硬件配置。对于一个由k个结点组成的GPU集群可以形式化的表示为如下集合形式：

GPUCluster{N₁,N₂,N₃，...,N_k}

其中：k为计算结点的个数，N_i表示第i个具体的计算结点。对于GPU集群的每一个计算结点N_h(1≤h≤k)，假设它由n个CPU和m个GPU组成。这样在一个结点N_h内部，可以把其CPU计算单元抽象为一个集合{C_h，1,C_h，2,C_h,3...,C_h,n}，把其GPU计算单元抽象为一个集合{G_h,1,G_h,2,G_h,3…,G_h,m}。

与现有技术相比，本发明关注的是从长期看，完成给定任务所消耗的总能量要尽量少，而不是把系统一次调度所消耗的能量多少作为评价指标。所谓能量效率是指GPU集群系统在运行一段的时间内，单位能耗下完成的任务工作量。

由于计算密集型任务是GPU集群的一种典型负载，运行这类任务时GPU集群本身大部分的能量是被处理器消耗的（内存、通信与磁盘部分能耗的比重相对较小），因此本发明针对计算密集型任务在GPU集群上的调度，重点研究可以有效提高GPU集群系统的能量效率的方法。

本发明分析并抽象典型GPU集群的系统模型、任务模型和能耗模型，据此研究并设计开发基于预算功率指导的可以有效提高系统能量效率的任务调度模型与算法，与已有的以最小化一次调度的执行时间或者一次调度的能耗为目标的调度算法相比，能够更有效地利用GPU集群系统的特点，达到可以长期显著提高GPU集群能量使用效率的目标，大幅度降低其能量开销。

本发明的持续高能效调度算法可以达到既能够满足任务截止时间与完成率的要求，又能够达到长期最大限度降低系统整体能量开销的效果。在具体的实现上，本发明首先提出并设计预算功率，其特点是它充分考虑了较长一段时间内全部任务而不是部分任务的要求，因此以它为指导可以取得持续、较高的节能效果。能量效率的高低是用系统的实际运行功率和预算功率的接近程度来表示的。二者越接近则表示能量效率越高。在设定了系统的预算功率后，本发明的基于预算功率指导的高能效调度算法，可以尽可能让系统的运行功率去接近预算功率。而已有的以最小化能耗为目标的调度算法只是考虑本次调度涉及到的任务的需求，因此只能给出局部优化的调度方案，长期、全局的优化效果并不好。而本发明的以预算功率指导的调度算法因为综合考虑了较长一段时间内所有任务的需求，是在全局信息指导下的优化，因此长期的总的节能效果比较理想。

本发明可以为GPU集群系统的发展和大规模部署应用提供基础性的支持。同时该成果具有很强的应用前景，可应用在国内天河、曙光、浪潮等基于GPU集群的超级计算机上，为中国节能型GPU集群的推广普及做出贡献。

附图说明

图1为从不同的维度对不同节能策略进行分类。

图2为层次化的任务调度过程。

图3为层次化的任务映射过程。

图4为对就绪任务队列中的基本任务分簇后的结果示意图。

图5为用户任务生成独立任务簇以及独立任务簇向虚拟结点映射示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

本发明提出的基于预算功率指导的高能效调度算法综合运用了不同层次、不同粒度的四种节能策略，采用层次化的调度方法并且通过对基于预算功率指导的系统功率进行调整，从而实现最终的高能效的长期节能效果。

为了实现高能效的调度，本发明采用了四种有助于减少系统能量开销的节能策略，分别是DRS节能调度策略、DVFS节能调度策略、基于关键路径的DAG任务节能调度策略和β-migration节能调度策略。本发明中根据预算功率的要求，对这些不同层次、不同粒度的节能策略进行优化组合，达到了尽可能接近预算功率的方式执行任务的目标。

根据这些节能策略的特点，本发明进一步将他们分成两个不同的维度，分别是细粒度和粗粒度维度以及硬件层面和软件层面，如图1所示。从这个分类可以更加清楚的知道每一种节能策略的特点（比如DAG图调度节能策略是属于粗粒度模型的而且是软件层面的节能策略）。这四种节能策略具体解释如下:

DRS(Dynamic Resource Scaling）节能调度策略的主要思想是通过尽量把运行的任务集中调度到少量的结点上从而可以让其它的结点空闲下来进入睡眠状态以节省系统的能量开销。

DVFS(Dynamic Voltage&Frequency Scaling）节能调度策略的基本想法是通过让处理器运行在不同的速度和相应的最佳电压下从而在完成任务所需要的时间和消耗的能量二者之间进行平衡。以更高的速度和电压运行任务可以较快地完成任务，但是需要消耗更多的能量；以较低的速度和电压运行任务可以以较少的能量开销完成任务，但是需要更长的时间。

基于关键路径的DAG节能调度策略是指：在本研究将所有的任务都统一表示为一个有向无环图（Directed Acyclic Graph，DAG），因此可以通过计算DAG图的关键路径（通常按照最快的执行速度计算），对于那些在非关键路径上的任务，可以利用DVFS等手段来降低其能量开销。这种方法一方面不会延长任务的最早完成时间（即关键路径的长度），同时可以降低任务执行过程中的能量效率，这是最典型的一种DAG图调度任务节能手段。

β-migration节能调度策略的基本想法在一个任务的GPU子任务部分比较繁重而CPU子任务部分很轻的情况下，可以选择一定比例（β部分）的GPU子任务，把它转移到CPU上执行。通过计算合理的β值，就可以使得CPU与GPU同时完成各自的任务。这样一方面可以避免因CPU空闲而浪费能量，另一方面因CPU分担了部分GPU的工作而加快了整个任务的进度。

在GPU集群上运行的任务规模一般都较大；GPU集群系统计算单元多，组成异构系统；为了实现有效节能，调度算法必须与各种不同粒度与层次的节能策略有机结合，才可能取得预期的成果。为此，本发明中的调度算法采用层次化的思想，即根据任务与调度系统的特点把调度算法的设计问题分成多个不同层次的相对独立的子问题，通过分别给出解决这些子问题的方法与策略，最后再把这些策略综合起来形成一个完整的层次化调度算法。

如图2所示，本发明中高能效GPU集群的调度算法划分为三个层次，最上面的是任务层，主要目的是把所有待调度的任务划分为多个相对独立的任务簇，一个任务簇用一个有向无环图（DirectedAcyclic Graph，DAG）来表示。中间一层是任务簇向虚拟结点的映射，这是一个一对一的映射，它包括根据任务簇的并行度来决定虚拟结点的配置以及按照虚拟结点的最大可能执行速度完成该DAG任务在虚拟结点上的调度两大步。虚拟结点表述了执行该任务簇的一个理想的配置环境，是一个为简化问题而生成的虚拟模型，其具体的配置和处理器个数由任务簇DAG图的并行度和计算量来决定。最下面的一层是虚拟结点向物理结点的映射。这是一个多对多的映射。即一个虚拟结点上的任务可以映射到多个不同的物理结点上，同时，一个物理结点也可以接受来自多个不同虚拟结点的任务。在映射的过程中，除了物理结点要能够满足虚拟结点的要求之外，要充分运用DRS节能策略来尽量把虚拟结点上的任务映射到少量的物理结点上，这样在轻载的时候其它物理结点就有机会进入睡眠（sleep）状态来节能。本发明中的调度算法三个层次之间的映射关系如图3所示。

对于GPU集群就绪队列中的任务，为了快速、有效地完成这些任务的调度，本发明的调度方法是首先是把这些任务根据其组成分解为基本任务，然后把所有的基本任务划分为多个独立的任务簇，接下来再完成对所有独立任务簇的调度。

同一个簇中的基本任务之间具有一定的内在联系，因此把它们作为一个整体进行调度可以进行有效的优化。而不同簇之间的基本任务是相对独立的。本发明提出三条通过对独立任务聚类形成簇的原则：（1）具有内在依赖关系的基本任务应该划分到同一个簇中；（2）小的但是截止时间相近的基本任务可以合并到同一个簇中；（3）不同簇的负载要尽量接近。

本发明用一个DAG来表示一个独立任务簇的内部结构。如果一个独立任务簇中含有独立任务或者多个DAG任务，本发明引入一个虚拟任务结点（Dummy task）作为所有独立任务与DAG任务的根结点，当然，这个结点是没有计算量的。经过这样的处理后，就可以认为一个独立任务簇就是一颗树。从整体上来看，一段时间内的所有的就绪任务形成一个森林，其中每一棵树就是一个独立任务簇。如图4所示，这样可以统一处理，简化整个调度算法的实现。

对于一个给定的独立任务簇，本发明首先为它生成一个虚拟结点，然后把该簇中的基本任务映射到虚拟结点的虚拟CPU与虚拟GPU上并完成相应的调度。具体地说，本发明通过分析簇内部结构的特点，得到其最大并行度，这个并行度可以决定相应虚拟结点中CPU-GPU对的个数（没有GPU任务的簇可以只考虑CPU的个数）。对于给定的任务簇，本发明首先以执行时间最小化为目标来得到该簇在其对应的虚拟结点上的调度方案。这个调度方案的目的是首先可以尽量在最短的时间内完成给定的任务，以便于系统可以完成更多的工作，从而满足调度的基本约束条件。图5给出了将基本任务形成独立任务簇以及独立任务簇在虚拟结点上映射与调度的流程示意图。

虚拟结点向物理结点的映射是一个多对多的映射。即一个虚拟结点可以映射到多个物理结点上，同时多个虚拟结点也可以映射到一个物理结点上，但是虚拟结点内的虚拟CPU与虚拟GPU向物理CPU和物理GPU的映射是一对一的映射。本发明不是一次把所有的虚拟结点都映射到物理结点上，而是首先根据虚拟结点上任务簇的截止时间对虚拟结点进行排序，首先将截止时间相近而且靠前的那些虚拟结点映射到物理结点上，具体的映射方法与指导原则如下：（1）尽量把虚拟结点映射到少量的物理结点上，这样便于没有任务的物理结点进入休眠状态进行节能；（2）尽量把一个虚拟结点上的任务映射到相同的物理结点上，这样可以尽量避免跨结点的通信；（3）物理结点的计算能力必须满足虚拟结点上分配的任务的要求，物理结点可用的时间也必须满足虚拟结点上对任务执行时间的要求。

当完成一次虚拟结点组向不同物理结点的映射后，本发明根据当前的调度方案计算GPU集群系统的实际功率要求。如果该功率非常接近设定的预算功率，就不需要进行节能调整，而是直接转去执行具有较晚截止时间的虚拟结点组向物理结点的映射。如果计算出来的实际功率高于设定的预算功率，就综合运用各种节能措施，把GPU集群系统需要的功率调整到与预算功率相近的水平或者直到不能再进一步降低功率为止。如果各种节能措施全部应用后最终系统的功率需求还是高于预算功率甚至是安全功率的要求，这说明当时系统严重超载，必须对任务进行调整。可以通过推迟部分任务的执行与拒绝掉部分任务来降低当前系统的负载。

本发明用预算功率来作为GPU集群系统在一定任务负载下的理想运行功率的近似，为了评价系统运行时其实际功率与预算功率所消耗能量的匹配程度，本发明引入一个指标，即最优能量近似度（OEAD，Optimal EnergyApproximate Degree），它是理想功率消耗的能量与给定对比调度算法在实际功率下所消耗能量的比值，该值总是小于1，该值越接近1说明对比的调度算法越接近理想的能量消耗，该调度算法的能量效率就越高。OEAD除了可以用来比较不同算法在相同系统上的优劣，还可以比较不同算法在不同系统上的优劣。

基于预算功率指导的系统功率调整的主要目标是，采用合适的能量调整策略，以实现系统实际动态功率和预算功率尽可能匹配。

本发明把具体的功率调整分为两大步：首先是结点内的功率调整，在结点内功率调整后实际功率仍远远超出预算功率的情况下，就需要通过调整一些任务来满足功率调整的要求。这样就可以实现系统的运行任务所需要功率和预算功率尽可能匹配，系统的能量效率最高。

Claims

1.一种基于预算功率指导的高能效GPU集群系统调度算法，其特征在于，包括如下步骤：

步骤二，根据所述任务簇生成虚拟结点，形成所述任务簇和虚拟结点之间一对一的映射关系，为任务选取合适的处理器做准备，所述虚拟结点是由多个虚拟CPU和多个虚拟GPU构成，它表述了执行该任务簇的理想配置环境，其具体的配置和处理器个数由任务簇DAG图的并行度和计算量来决定；

2.根据权利要求1所述的调度算法，其特征在于，所述虚拟CPU向物理CPU的映射是一对一的映射；所述虚拟GPU向物理GPU的映射是一对一的映射。

3.根据权利要求1所述的调度算法，其特征在于，对于一个给定的独立任务簇，首先为它生成一个虚拟结点，然后把该任务簇中的基本任务调度到虚拟结点的虚拟CPU与虚拟GPU上，调度方案是以执行时间最小化为目标而得到的。

4.根据权利要求1所述的调度算法，其特征在于，所述虚拟结点向物理结点的映射过程是：首先根据虚拟结点上任务簇的截止时间对虚拟结点进行排序，然后根据截止时间从早到晚的顺序逐次把虚拟结点对应的任务调度到物理结点上。

5.根据权利要求4所述的调度算法，其特征在于，当完成一次虚拟结点组向不同物理结点的映射后，根据当前的调度方案估算GPU集群系统的实际功率要求，如果该功率与设定的预算功率在误差允许的范围内近似相等，则不需要进行节能调整，而是直接转去执行具有下一个较晚截止时间的虚拟结点组向物理结点的映射；如果计算出来的实际功率高于设定的预算功率，就运用相应的节能措施，把GPU集群系统需要的功率设置到与预算功率在误差允许的范围内近似相等的水平或者直到不能再进一步降低功率为止；如果所述各种节能措施全部应用后最终系统的功率需求还是高于预算功率甚至是安全功率的要求，则说明当时系统严重超载，通过推迟部分任务的执行与拒绝掉部分任务来降低当前系统的负载。

6.根据权利要求5所述的调度算法，其特征在于，所述各种节能措施包括：

DRS(Dynamic Resource Scaling）节能调度策略，通过尽量把运行的任务集中调度到少量的结点上从而可以让其它的结点空闲下来进入睡眠状态以节省系统的能量开销；

DVFS(Dynamic Voltage&Frequency Scaling）节能调度策略，通过让处理器运行在不同的速度和相应的最佳电压下从而在完成任务所需要的时间和消耗的能量二者之间进行平衡；

DAG（Directed Acyclic Graph）节能调度策略，将所有的任务都统一表示为一个有向无环图，通过计算DAG图的关键路径，该关键路径按照最快的执行速度来计算获取，对于那些在非关键路径上的任务，利用节能调度策略来降低其能量开销；

β-migration节能调度策略的基本想法在一个任务的GPU子任务部分比较繁重而CPU子任务部分很轻的情况下，选择一定比例（β部分）的GPU子任务，把它转移到CPU上执行，通过计算合理的β值，就可使得CPU与GPU同时完成各自的任务。

7.根据权利要求1所述的调度算法，其特征在于，所述步骤一中将待调度的任务根据其组成分解为基本任务方法是指不考虑该调度任务的内部数据依赖关系，而将待调度任务的一个个子任务看成基本任务；基本任务划分为独立任务簇的方法是指按照数据依赖的原则以及任务截止时间相近的原则将基本任务再重新组合起来构成一个独立任务簇。

8.根据权利要求1所述的调度算法，其特征在于，所述步骤二中根据任务簇生成虚拟结点的方法是指根据该任务簇的内部结构和并行度来配置相应的处理器从而构成虚拟结点，首先，计算出DAG图的关键路径，将关键路径上的任务从DAG中去除，然后从剩下的任务中再生成一条最长的路径，去除该路径之后，接着从剩下的任务中再生成路径，如此反复直至无任务剩余，记录总共生成路径的条数，这就是该DAG的最大可能并行度，即所需的处理器的个数。