CN109582119B

CN109582119B - 基于动态电压频率调整的双层Spark节能调度方法

Info

Publication number: CN109582119B
Application number: CN201811430691.3A
Authority: CN
Inventors: 李鸿健; 马恩杰; 熊安萍; 蒋溢
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Guangzhou Dayu Chuangfu Technology Co ltd
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2022-07-12
Anticipated expiration: 2038-11-28
Also published as: CN109582119A

Abstract

本发明涉及大数据处理领域和能效领域，特别涉及一种基于动态电压频率调整的双层Spark节能调度方法，包括针对不同应用程序对CPU以及I/O需求的不同，通过观察不同应用的资源使用特性，可以对应用类别数预先进行大致的判断，对应用程序进行一个整体的降频处理；考虑Spark固有特性，在应用程序运行过程中同一个阶段不同任务的完成时间不同，对具体节点进行降频处理，减少节点空运行时间，保证各个Task的完成时间均衡；本发明保证Spark运行过程中任务完成时间均衡，减少了节点CPU空运转时间，有效的降低了应用程序在Spark运行过程中所产生的能耗。

Description

基于动态电压频率调整的双层Spark节能调度方法

技术领域

本发明涉及大数据处理领域和能效领域，特别涉及一种基于动态电压频率调整(Dynamic voltage and frequency scaling，DVFS)的双层Spark节能调度方法。

背景技术

高性能计算集群的日益増加和大规模部署带来了巨大的能源消耗。文献的统计结果表明，全球互联网数据中心的用电功率可能达300亿瓦特，相当于30个核电站的供电功率。而数据中心的耗电量仅有6％～12％是被用于网站计算的，其余均在维持服务器工作状态时被无谓消耗.此外，绿色和平组织预测，到2020年，全球主要IT运营商的能耗将达到2万亿千瓦时，超过德、法、加和巴西等四国的能耗总和。从环境角度，数据中心在消耗大量电力的同时会产生惊人的碳排放。在美国。100MW发电站会花费6000万到1亿美元并排放5000万吨CO₂，目前全球数据中心的CO₂排放量相当于阿根廷整个国家的CO₂排放量，全球IT产业的碳排放占温室气体总排放的2％。在此背景下，如何在数据中心里采用高能效的方式运行云计算作业，进而降低能耗实现绿色计算，成为当今研究的热点问题。

云计算的出现降低了大型数据中心的运行成本，云计算通过采用虚拟化的技术促进了更好的资源管理，它旨在合理利用调度策略，在降低成本的同时,及时为具体问题提供有效的解决方案。然而，由于对计算资源的需求的快速增长，总体能耗不断增加。虽然大规模基础架构已有各种节能机制的成熟案例，但并非所有这些机制都适用于云环境。

由于云计算具有规模庞大的特点，并且是一种商业计算模型，因此，成本是一个重要的考虑因素。以“Energy-Efficiency Virtual Machines Scheduling in Multi-TenantData Centers.IEEE Transactions on Cloud Computing,2015:1-1.”等的文章为代表，他们所建立的服务器能耗模型仅仅是考虑了CPU，完全忽视了其它的能耗因素，并且同CPU的利用率呈现单纯的线性关系。

当前，Spark计算框架被广泛应用于大数据计算，Spark计算框架的执行流程如图4所示，其数据和计算在同一节点上完成，计算中的数据拉取都是本地读取，网络通信量较小，大大提高了计算的性能。但是，一个阶段(Stage)所耗费的时间，主要由最慢的那个任务(task)决定。且CPU在空闲时，也会存在有资源消耗问题，正由于这种运行时间的分布不均匀，使得空运行的CPU消耗掉大量的资源。

近些年来DVFS的出现，使得CPU可以根据计算能力的不同需要，使得处理器以不同的电压/频率等级运行成为了可能，动态改变电压与运行频率以达到节约能耗的目的。能耗与CPU频率是正相关的，实际上能耗与频率成线性相关。能耗关系公式如下：

P＝CV²f；

其中，P代表能耗；C可以简单看作一个常数，它由制程等因素决定；V代表电压；而f就是频率了；理想情况下，提高一倍频率，则能耗提高一倍。由此可见，通过对DVFS技术的利用，能够得到更灵活的调度算法用于解决能耗问题。而如何在在保证应用程序运行效率的前提下，降低CPU能耗，从而达到节能降频的目的，已成为一个亟待解决的问题。

发明内容

为了达到节能降频的目的，本发明提出一种基于DVFS的Spark双层节能调度方法，包括：第一层，针对不同应用程序对CPU以及I/O需求的不同，通过观察不同应用的资源使用特性，对应用类别数预先进行大致的判断，并对应用程序进行一个整体的降频处理；第二层，考虑Spark固有特性，在应用程序运行过程中同一个Stage不同任务的完成时间不同，对具体节点进行降频处理，具体步骤如下：

S1、首先在Spark环境下对应用程序进行初始化运行，通过资源监控模块，对Spark中大数据应用运行时的状态信息进行监控，获取CPU运行频率，CPU使用率，应用程序运行时间等关键信息；

S2、根据不同应用程序的资源使用特性，对应用程序进行聚类，通过能耗模型计算出应用程序在单位之间内的能耗，并选取最优的频率作为最终目标；

S3、通过应用程序初始化运行时得到的状态信息，考虑不同应用程序的异构性，构建应用程度在不同节点上运行时的状态矩阵；

S4、通过状态矩阵，根据完成时间对同一个Stage中的任务进行排序，对完成时间较快的节点，利用CPU频率控制模块对CPU频率进行调整。

优选的，能耗模型表示为：

其中，F为CPU默认最大运行频率，f为CPU当前运行频率，U_f0表示CPU当前运行频率f下无负载时的使用率，U_f表示CPU当前运行频率f下有负载时的使用率，P₀表示CPU当前运行频率f下无负载时的功率。

优选的，步骤S1具体包括以下步骤：

S11、通过linux下的shell脚本，对应用程序在Spark的运行过程构建一个实时监控模块，Spark应用程序通常分为计算密集型、I/O密集型或混合性；

S12、在默认CPU频率的环境下，对目标应用程序进行初始化运行，在运行过程中的CPU利用率、CPU频率、每个任务所分布的节点和完成时间进行监控。

优选的，步骤S2具体包括以下步骤：

S21、选圆周率计算函数PI、排序计算Sort、正则表达式搜索Grep作为初始聚类中心；

S22、选取CPU利用率和I/O利用率作为特征值，则将默认频率f下在二维坐标系某个应用程序APP描述为：APP＝(U_f,IO_f)；

S23、应用程序之间的差异度可以抽象为两点之间的欧式距离D，表示为：

S24、对目标应用程序进行初始化测试，获取其在默认频率下的CPU利用率和I/O利用率。

S25、为目标应用程序寻找最相似特征应用程序，根据其能效最优频率对目标应用程序进行频率调整；

S26、对范围内频率进行测试，通过能耗模型对范围内频率进行运算，以范围内频率的最优解作为最优频率，即耗能最低的解为最优解；

其中，U_f表示频率f下的CPU利用率，U_n表示频率f下的CPU利用率，IO_f表示频率n下的I/O利用率，IO_n表示频率n下的I/O利用率。

优选的，步骤S3具体包括：

S31、设置参与计算的executor输入待分配的Stage集合；

S32、收集应用程序任务分部的各个节点的运行状态；

S33、对各个节点的运行状态进行处理，创建主机状态矩阵。

优选的，主机的状态矩阵表示为：

其中，stage表示一个主机的状态矩阵，

表示第n个任务状态向量，U_n表示任务n的CPU利用率，f_n表示第n个任务的频率，t_n表示第n个任务的完成时间。

优选的，应用程度在不同节点上运行时的状态矩阵表示为：

S32、将监控模块获取到的信息，通过信息处理模块进行处理，分析得到任意Stage中不同任务的完成时间，并通过频率预估模块，对完成时间较快的任务的节点的CPU频率进行降频处理。具体处理过程如下：

优选的，利用CPU频率控制模块对CPU频率进行调整包括以下步骤：

S41、读取应用程度在不同节点上运行时的状态矩阵中每个节点的预设频率；

S42、调整各个节点的动态变频CpuFreq工作模式为用户定义模式。

S43、根据频率策略表设置具体节点的频率。

S44、通过监控模块获取节点的CPU利用率、内存利用率和CPU频率等信息，用于更新状态矩阵；

S45、利用能耗评估模型，计算当前Stage的总能耗。

本发明解决了原有Spark运行过程由于应用程序对CPU以及I/O需求不同所导致的CPU计算频率溢出问题，保证Spark运行过程中任务完成时间均衡，减少了节点CPU空运转时间，有效的降低了应用程序在Spark运行过程中所产生的能耗。

附图说明

图1本发明的分级节能调度系统架构图；

图2本发明基于DVFS感知的Spark双层节能调度调度流程图；

图3本发明使用DVFS技术后能耗变化图；

图4为现有技术中Spark执行流程示意图；

图5本发明Spark RDD过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了减少了节点CPU空运转时间、降低应用程序在Spark运行过程中所产生的能耗，本发明提出一种基于动态电压频率调整的双层Spark节能调度方法，如图1，包括：第一层，针对不同应用程序对CPU以及I/O需求的不同，通过观察不同应用的资源使用特性，对应用类别数预先进行大致的判断，并对应用程序进行一个整体的降频处理；第二层，考虑Spark固有特性，在应用程序运行过程中同一个Stage不同任务的完成时间不同，对具体节点进行降频处理，如图2，具体步骤如下：

S3、通过应用程序初始化运行时得到的状态信息，考虑不同应用程序的异构性，构建应用程度在不同节点上运行时的状态矩阵，即主机的状态矩阵；

S4、通过状态矩阵，根据完成时间对同一个Stage中的任务task进行排序，对完成时间较快的节点，利用CPU频率控制模块对CPU频率进行调整。

在具体的实施过程中，如图1，本发明的的硬件设备包括应用分类模块和节点频率调整模块，应用分类模块为本发明的第一层频率调节，应用分类模块包括初始化运行、性能检测器和频率调整器，步骤S1～S2主要在此模块完成；

频率调整器模块为本发明的第二层频率调节，在节点频率调整模块中，频率调整器根据节点的状态调整节点的频率，步骤S3～S4主要在此模块完成。

本发明规定CPU默认最大运行频率为F，CPU当前运行频率为f，在频率f下CPU无负载时CPU使用率为U_f0，在f频率下CPU有负载时CPU使用率为U_f，则在f频率下CPU无负载时的功率P₀表示为：

CPU有负载时功率为P_f表示为：

规定运行时间为T，则应用程序能耗为(P_f-P₀)×T，可以将能耗模型表示为：

在本实施例中，通过linux下的shell脚本，对应用程序在Spark的运行过程构建一个实时监控模块，Spark应用程序通常分为计算密集型、I/O密集型或混合性；本实施例选取三个常用的Spark基准测试应用程序进行试验，如圆周率计算函数PI、排序计算Sort、正则表达式搜索Grep，对不同类型的应用程序我们将CPU频率调整为以下每个可用值：2793000，2660000，2527000，2394000，2261000，2128000，1995000，1862000，1729000，1596000。进行多次实验，并收集不同节点的CPU利用率、I/O利用率、CPU频率以及完成时间作为特征数据，并通过能耗模型计算出每种应用程序在不同频率下的能耗，为每种应用程序选取能效最优的频率。

在默认CPU频率的环境下，首先对目标应用程序进行初始化运行，在运行过程中的CPU利用、CPU频率以及每个task所分布的节点和完成时间进行监控。

运行在集群上的应用程序在资源使用方面会表现出不同的特性，如PI、Sort、Grep，一般来说，按照资源使用的效能可以对其大致进行区分，PI、Grep属于计算密集型(CPU-bound)，Sort属于I/O密集型(I/O-bound)。CPU-bound指应用程序在运行时，计算和逻辑判断较多导致CPU利用率十分高，而硬盘、内存的读写操作比较少；I/O-bound则相反，硬盘、内存的读写操作占用了较多的程序运行时间，表现为I/O利用率高、CPU平均利用率低的情况。

圆周率计算函数PI、排序计算Sort、正则表达式搜索Grep在不同频率下的能耗情况以及反应时间，可以清楚的看到对于PI，Grep这类计算密集型应用，在较高的频率下可以保证响应时间快且能耗最低，但是对于Sort等I/O密集型应用，较高的频率只会带来能耗的增加，但是对于响应时间的提高缺微乎其微，所以对于不同的应用类型，应对其选取最适合的CPU频率，已达到保持其较优的响应时间的前提下能效最优的目的。

对计算密集型的应用程序，在采用较高的CPU频率时，计算所消耗的能量要低于CPU频率较低时的状态。原因可以解释为：CPU在处理计算密集型应用时超过98％的时间CPU处理接近满负荷状态，而较高的CPU频率可以提高CPU计算效率，从而缩短程序运行时间，降低能耗。

对于I/O密集型的应用程序，在采用较低的CPU频率时，节能效果会比较明显；原因可以解释为：对于I/O密集型应用CPU的负载压力不再是计算效率的瓶颈，在绝大部分计算时间内CPU并未处于满负荷状态，所以对CPU频率进行降频处理，可以有效的降低能耗；具体降频处理包括以下：

S21、选取圆周率计算函数PI、排序计算Sort、正则表达式搜索Grep作为初始聚类中心；

S22、选取CPU利用率和I/O利用率作为特征值，则在默认频率f下在二维坐标系某个应用程序可以描述为：APP＝(U_f,IO_f)；

S23、应用程序之间的差异度可以抽象为两点之间的欧式距离，表示为：

S24、对目标应用程序进行初始化测试，获取其在默认频率下的CPU利用率和I/O利用率；

图5为SparkRDD过程图，每条黑线为一个Task，由上图示例可知，不同task的长度及完成时间不同，且同一个Stage必须保证所有task完成才能结束，则根据Spark应用程序运行特征，应用程序在Spark运行过程中，同一个Stage的不同Partition可以并行处理，而具有依赖关系的不同Stage之间是串行处理的。假设某个Spark Job分为Stage 0和Stage 1两个Stage，且Stage 1依赖于Stage 0，那Stage 0完全处理结束之前不会处理Stage 1。而Stage 0可能包含N个Task，这N个Task可以并行进行。如果其中N-1个Task都在10秒内完成，而另外一个Task却耗时1分钟，那该Stage的总时间至少为1分钟。换句话说，一个Stage所耗费的时间，主要由最慢的那个Task决定。

使用DVFS技术后能耗变化图如图3，节点在空运转时也会存在能耗损失，且节点在高频率运转时的能耗很大，截止到降频后的完成时间，使用DVFS技术使得总能效有明显的提升；一个Stage所耗费的时间，主要由最慢的Task决定。且CPU在空闲时已久有很大量的资源消耗问题，正由于这种运行时间的分布不均匀，使得空运行的CPU消耗掉大量的资源。

本发明选取CPU利用率、CPU频率、Task在某节点上的完成时间作为描述节点状态的基本元素，则在t时刻，主机状态可以表示为如下矩阵：

其中，

表示任务在节点n上的状态向量，U_n表示节点n上的CPU的平均利用率，f_n表示节点n上的CPU频率，t_n表示任务在节点n上的任务完成时间。

该矩阵反应某个节点在某个时间段内的状态矩阵信息。本发明通过初始数据构建的状态矩阵作为基础输入数据进行处理，从而指导对给个节点动态的进行频率调整。

将监控模块获取到的信息，通过信息处理模块进行处理，分析得到任意Stage中不同Task的完成时间，并通过频率预估模块，对完成时间较快的Task的节点的CPU频率进行降频处理。

根据主机状态矩阵作为指导，通过CPU频率控制模块，可对CPU频率进行动态的调整；DVFS是一种通用的实时电压和频率调整的技术，它可根据应用程序对计算能力的不同需要动态调节芯片的运行频率和电压，从而达到节能的目的。从2.6.0Linux内核开始，用户可以通过动态变频CPUFreq子系统动态调整处理器的频率，利用调控器和守护程序来为系统设置静态或动态电源策略。

本发明采用userspace作为CPUfreq默认工作模式，该模式将变频策略的决策权交给了用户态应用程序，并提供了相应的接口供用户态应用程序调节CPU运行频率使用，使用cpufreq-set调整CPU运行时功率，具体调整流程如下：

S42、调整各个节点的CpuFreq工作模式为用户定义模式；

S43、根据频率策略表设置具体节点的频率；

S45、利用能耗评估模型，计算当前Stage的总能耗。

在上述流程中，步骤S41～S43为设置节点频率过程，设置完节点的频率后应用程序的CPU利用率、内存利用率和CPU频率发生变化，需要更新主机的状态矩阵，并重新进行能耗评估。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于动态电压频率调整的双层Spark节能调度方法，其特征在于，包括：第一层，针对不同应用程序对CPU以及I/O需求的不同，通过观察不同应用的资源使用特性，对应用类别数预先进行整体的判断，并对应用程序进行一个整体的降频处理；第二层，根据Spark在应用程序运行过程中同一个阶段不同任务的完成时间不同的固有特性，对具体节点进行降频处理，具体步骤如下：

S1、在Spark环境下对应用程序进行初始化运行，通过资源监控器获取CPU运行频率、CPU使用率、应用程序运行时间关键信息；

S2、根据不同应用程序的资源使用特性，对应用程序进行聚类，并通过能耗模型计算出应用程序在单位之间内的能耗，并选取最优的频率作为最终目标，具体包括：

S23、应用程序之间的差异度定义为两点之间的欧式距离D，表示为：