CN105681052B

CN105681052B - 一种用于数据中心分布式文件存储的节能方法

Info

Publication number: CN105681052B
Application number: CN201610016441.XA
Authority: CN
Inventors: 杨挺; 徐明玉; 赵睿; 盆海波; 尚昆; 武金成
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-01-11
Filing date: 2016-01-11
Publication date: 2018-11-27
Anticipated expiration: 2036-01-11
Also published as: CN105681052A

Abstract

本发明公开了一种用于数据中心分布式文件存储的节能方法，包括以下步骤：基于分布式文件存储的机架感知存储策略，将文件数据块及其副本、与存储数据的节点之间的关系用超图表示出来；利用超图的关联矩阵清晰地表示超边和节点之间的关系；提出根据分布式集群文件的访问特点，在满足低时延的应用访问要求前提下，不同文件应该具有的活跃副本数目；在满足数据块可用的前提下，依据文件被访问的频度，获取可变覆盖的横贯模型；根据可变覆盖的横贯模型确定最大关闭数据节点DataNode的数目，建立服务器能耗评价。

Description

一种用于数据中心分布式文件存储的节能方法

技术领域

本发明涉及云数据中心领域，尤其涉及一种用于数据中心分布式文件存储的节能方法。

背景技术

当今，信息技术带动了各种现代服务业，以及新兴产业的快速发展，这些业务产生的数据正在以几何级数的形式增长。其中，这些业务包括：互联网、物联网和智能电网等。据统计，纽约证券交易所每天的交易数据会有1TB(万亿字节)；Twitter(推特)每天会产生7TB的数据；Facebook(脸谱网)每天产生的数据超过10TB。据IDC(Internet Data Center，互联网数据中心)的调查与统计，2007年全球的数据信息量约为165EB(百亿亿字节)，即使在全球遭遇金融危机的2009年，仍约800EB的数据量，相比上一年增长了62％。2012年全球信息总量已经达到2.7ZB(十万亿亿字节)，2020年将会达到35ZB，约为2007年的230倍。大数据每年都在激增庞大的数据量，这给整个数据的存储以及数据的处理带来了挑战。

数据中心的能耗也一直居高不下，2007年，IT设备能耗占全球总能耗的5.3％，消耗电力达8700亿千瓦时。随着IT技术的广泛应用，该能耗以每年20％～25％的速度继续增长。根据麦肯锡公司2008年研究表明，2007年全球的数据中心所消耗能源的总费用为86亿美元。预计2025年，整个IT行业的整体平均能耗将会是2006年的5倍。并且存储系统占IT耗能的比重呈不断增长之势。

分布式文件存储系统是云计算底层的核心基础设施，并且是上层数据服务的提供者。由于分布式文件存储系统规模的不断扩大使其运营成本不断提高，不仅包括硬件、机房、冷却设备等固定成本，还包括IT设备和冷却设备的电能消耗。这将会导致能耗的浪费以及温室效应，给环境带来的危害毋庸置疑。另外，分布式文件存储系统在设计时，没有考虑对环境的危害问题。因此，无论是要减少本身消耗的成本，还是达到保护环境的目的，提高分布式文件存储系统的能耗利用率是云计算领域中需要研究的一个热点问题。

发明内容

本发明提供了一种用于数据中心分布式文件存储的节能方法，本发明在HDFS(HadoopDistributed File System，Hadoop分布式文件存储)集群中，通过建立超图模型，清晰地表述文件的数据块和服务器之间的多对多的关系，根据超图里的横贯理论，提出了一种可变覆盖的横贯模型，详见下文描述：

一种用于数据中心分布式文件存储的节能方法，所述节能方法包括以下步骤：

基于分布式文件存储的机架感知存储策略，将文件数据块及其副本、与存储的数据节点之间的关系用超图表示出来；

利用超图的关联矩阵清晰地表示超边和节点之间的关系；

提出根据分布式集群文件的访问特点，在满足低时延的应用访问要求前提下，不同文件应该具有的活跃副本数目

在满足数据块可用的前提下，依据文件被访问的频率，获取可变覆盖横贯模型；

根据可变覆盖的横贯模型确定最大关闭数据节点DataNode数目，实现数据中心分布式文件存储节能。

所述将文件数据块及其副本、与存储数据的节点之间的关系用超图表示出来具体为：

数据节点DataNode作为超图的顶点，以每种数据块作为超边，数据块和数据节点间复杂的多对多关系通过超图表示出来。

所述活跃副本数目具体为：

处于活跃状态服务器上的数据块副本个数，该参数也是所求的数据节点的子集与每条超边的交点个数。

所述可变覆盖的横贯模型具体为：

j＝1,2,…,m,l＝1,2,…,w

或1 i＝1，2，...，n

其中，表示第si个机架上的第i个服务器的状态；0表示服务器处于休眠状态，1表示服务器处于活跃状态；a_ij表示节点关联矩阵里的元素；k_l为文件的活动系数；N_l为文件l所包含的数据块的个数；为服务器节点的顶点度之和；n表示服务器的个数；m表示超边的个数，即数据块的种类；w表示文件的个数。

所述根据可变覆盖的横贯模型确定最大关闭数据节点DataNode数目具体为：

在满足文件的活跃副本数目k_l的情况下，使开启服务器的个数最少，即值最小；

当存在开启服务器的个数相同、但不同状态向量解集时，从中选取顶点度之和最小的，即值最小的；

当存在横贯集等秩、且存储的总数据块个数相同的解集时，考虑选择活跃状态服务器分布的机架数量多的解集，即值最大的。

所述节能方法还包括：

1)负载均衡度的评价：负载均衡度表示的是服务器集群中所有服务器负载的总偏差和总负载的比值，根据服务器实际负载与负载平均值差的绝对值表示负载偏差，计算负载均衡度，即其中B_L表示HDFS集群的负载均衡度，s_i表示第i个服务器的负载率，表示平均负载率；

2)对分布式文件集群进行节能评价；

一个DataNode节点的功耗为：

P_server＝s_e+μ_es^a

式中，s_e为空闲功耗或者静态功耗，s为服务器的负载率，与服务器的时钟频率成正比，μ_e和a为常数；

整个HDFS集群节约的功耗为：

其中，s₁为进行节能处理前的服务器的负载率，s₂为进行节能处理后处于活跃状态的服务器的负载率，一般情况下有s₁<s₂；n为HDFS集群中DataNode的个数；q为休眠的DataNode的个数。

本发明提供的技术方案的有益效果是：本发明提供的基于超图的完全覆盖的HDFS节能方法，能够清晰地表述文件的数据块和服务器之间的多对多的关系。在保证数据块可用性的前提下，本发明基于k-横贯理论设计了实现数据中心分布式文件节能存储的可变覆盖的横贯模型，可依据文件的不同访问频率设定不同数据块的活跃副本可变数目通过可变覆盖的横贯模型确定最大关闭DataNode服务器数目，实现系统存储单元的节能。

附图说明

图1为HDFS数据存储的示意图；

图2为基于机架感知的存储策略示意图；

图3为数据块与DataNode节点的关系示意图；

图4为数据块存储的二部图；

图5为文件存储情况示意图；

图6为超图H的示意图；

图7为数据块存储量最小化求解的流程图；

图8为集群关闭比率和数据块不可用性之间的关系图；

图9为处于活跃状态的服务器个数的比较示意图；

图10为活跃状态服务器的顶点度之和的比较示意图；

图11为低负载时节能算法执行前的示意图；

图12为低负载时对称数据块存储节能算法执行后的示意图；

图13为低负载时横贯节能算法执行后的示意图；

图14为高负载时节能算法执行前的示意图；

图15为高负载率时对称数据块存储节能算法执行后的示意图；

图16为高负载率时横贯节能算法执行后的示意图；

图17为低负载状态下节点功耗对比图。

图18为高负载状态下节点功耗对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

Hadoop^[1]是一个分布式处理的软件框架，能在由大量计算机组成的集群中运行海量数据并进行分布式计算。由于其具有可扩展、低成本、高效性与可靠性等优点，Hadoop在分布式计算领域得到了广泛运用。Hadoop通过副本策略与节点的失效处理等方法，在保证数据块可用性的同时并没有考虑集群负载率与系统能耗之间的关系，即使在Hadoop集群利用率很低的情况下，集群中所有的DataNode节点都保持活跃状态以保证数据块的可用性，其高能耗低效率的情况与Google服务器集群类似，并由此造成了大量电能的浪费。因此，在保证数据块可用性的前提下，不改变数据的存储，控制服务器的状态，从而达到存储与节能的目的具有重大意义。

在保证数据块可用性的前提下，考虑集群负载率与系统能耗之间的关系对HDFS的节能进行研究。在不改变存储策略的节能上，一些学者研究完全覆盖(full coverage)问题，即要求活跃节点上必须存有所有数据对象中的至少一个副本，因此需要在所有的存储节点集合中找到一个覆盖所有数据的子集，即在保证数据块可用性的前提下，将文件的数据块及副本中的至少一个放入该子集中，通过关闭该子集以外的DataNode节能来达到节能的目的。本发明的实施例所求取的DataNode节点的子集中的数据块的活跃副本数目是可变的，实现不同的文件具有不同的活跃副本数目

实施例1

101：基于HDFS中的机架感知存储策略，将文件数据块及其副本、与存储节点之间的关系用超图表示出来；

其中，超图的定义为：

令X＝{x₁,x₂,…,x_n}是一个有限集，若E_i≠Φ(i＝1,2,…,m)和则称二元关系H＝(X,E)为超图。在超图H中，X的元素x₁,x₂,…,x_n称为超图的顶点，E＝{E₁,E₂,…,E_m}为超图的边集合，也称为超边。

102：利用超图的关联矩阵A(a_ij)清晰地表示超边和节点之间的关系；

其中，关联矩阵A(a_ij)定义为：

A中的m列分别对应H的m条超边E₁,E₂,…,E_m，n行分别对应H的n个顶点x₁,x₂,…,x_n。当时，a_ij＝0；当x_i∈E_j时，a_ij＝1。

103：根据HDFS集群文件的访问特点，在满足低时延的应用访问要求前提下，确定不同文件应该具有的活跃副本数目

104：在满足数据块可用的前提下，依据文件被访问的频率，确定各数据块副本活跃个数，建立可变覆盖的横贯模型；

105：根据可变覆盖横贯模型确定最大关闭数据节点DataNode数目，建立服务器能耗评价。

综上所述，本发明实施例通过上述步骤101-步骤105，可依据文件的不同访问频率设定不同数据块的活跃副本数目通过可变覆盖的横贯模型确定最大关闭数据节点DataNode数目，实现系统存储单元的节能。

实施例2

下面结合具体的附图、计算公式对实施例1中的方案进行详细的介绍，详见下文描述：

201：基于机架感知的存储策略，文件可以分成多种数据块；

在HDFS集群中，在对文件进行存储时，为了提高数据块的可用性，HDFS集群采取多副本的措施，首先将文件分成一系列的数据块，并将数据块存储在DataNode数据节点上，如图1所示。

文件中的数据块放置时，遵循机架感知的存储策略如图2所示。即文件第一个数据块的第一个副本b₁₁被随机地存放于某一个DataNode节点中，第二个副本b₁₂存放在与数据块b₁₁不同的机架上的任意一个DataNode节点中，第三个副本b₁₃存放在与b₁₂相同的机架但是不同的DataNode节点中。如果该文件的副本系数w_l>3，那么剩下的数据块就被随机地存放在除b₁₁、b₁₂、b₁₃存储节点以外的任意的DataNode节点中。这里b_ij表示第i个数据块的第j个副本。

如图1、2所示，每种数据块的多个副本被放置在不同的DataNode节点中，故形成了数据块和DataNode节点间的多对多关联，如图3所示，将其表示成二部图的形式，如图4所示。简单图只能表示事物之间的二元关系，在表示数据块与DataNode节点间的这种复杂的多对多的关系时较为繁琐。因此，本发明实施例运用超图理论表述数据块与DataNode节点之间多元关系。

202：根据超图的定义，以DataNode节点X＝{x₁₁,x₁₂,…,x_s*n}为超图的顶点，以每种数据块为超边E，数据块和DataNode节点间复杂的多对多关系就通过超图表示出来；

如图5、图6所示，在超图H中，包含顶点x_i的超边E的个数称为顶点x_i的度，记为d_H(x_i)。在本发明实施例中顶点的度表示DataNode节点上存储的数据块的个数，存储的数据块的个数越多，所占用的存储空间越多。

203：通过超图H的关联矩阵A(a_ij)，清晰地表示超边和节点之间的关系，即数据块与DataNode节点的存储关系；

关联矩阵A中的m列分别对应超图H的m条边E₁,E₂,…,E_m；n行分别对应超图H的n个顶点x₁,x₂,…,x_m。当时，a_ij＝0；当x_i∈E_j时，a_ij＝1。这样，顶点的度d_H(x_i)等于即

其中，顶点度的定义为：对x∈X，以x为心的星H(x)为H中所有含x的边所导出的部分。包含顶点x的超边的个数称为顶点x的度，记为d_H(x)，即d_H(x)＝m(H(x))。

204：寻找一个DataNode节点的子集，该子集与每个超边E都有交集，即求超图H的一个横贯；

为了保证每一个文件均能随时被访问到，即每一种数据块均至少有一个副本存储于处于活跃状态的服务器上，这样，需要处于活跃状态的服务器上面有所有种类的数据块。即寻找一个DataNode节点的子集，该子集与每个超边E都有交集，即求超图H的一个横贯集合。

根据HDFS集群文件的访问特点可知，不同的文件具有不同的访问频率，因此为满足应用访问(性能)要求，不同的文件(数据)不应是唯一的保留一个副本，而应该具有不同的活跃副本数目活跃副本数目是处于活跃状态的服务器上的数据块副本个数，即所求的DataNode节点的子集与每条超边E交点的个数。例如，假设通过对HDFS集群系统数据块访问的实际观测得出结论：在周期T内，当文件访问次数小于N₁时，活动系数为1能够满足访问性能要求；当访问次数介于N₁～N₂之间时，活动系数为2能够满足访问性能要求；当访问次数介于N₂～N₃时活动系数为3，能够满足访问性能要求；当访问次数大于N₃时，活动系数为w(副本系数)能够满足访问性能要求。可以得出文件F_l的活动系数k_l为：

205：获取可变覆盖的横贯模型；

本方法在满足数据访问性能要求的前提下，依据文件被访问的频率，确定各数据块副本活跃个数，建立可变覆盖横贯模型，该模型可灵活设定数据块的保留活跃副本数目确定最大关闭DataNode服务器数目，实现系统存储单元节能，该模型为：

约束条件为

j＝1,2,…,m,

l＝1,2,…,w

或1，i＝1，2，...，n

式中，表示第s_i个机架上的第i个服务器的状态；a_ij表示节点关联矩阵A(a_ij)里的元素；n表示DataNode服务器的个数；m表示超边的个数，即数据块的种类；w表示文件的个数；k_l表示文件l的活跃副本系数。

根据处于活跃状态的DataNode节点的顶点度之和(处于活跃状态的服务器上的数据块的个数)不小于可将k-横贯模型的公式变为：

j＝1,2,…,m,l＝1,2,…,w

206：根据可变覆盖的横贯模型确定最大关闭DataNode服务器数目，建立服务器能耗评价。

即在满足访问性能要求下，开启服务器的个数越少，则节能效果越好。根据可变覆盖的横贯模型，将采取下面的措施：

(1)在满足文件F_l的活跃副本数目k_l的情况下，使开启服务器的个数最少，即值最小；

(2)当存在开启服务器的个数相同、但状态向量解集不同时，将从中选取顶点度之和最小的，即值最小的；

(3)当存在横贯集等秩、且存储的总数据块个数相同的解集时，将考虑选择其中活跃状态服务器分布的机架数量多的解集，即为：

式中表示的机架的标号，整个公式表示的就是对所有处于活跃状态的服务器所在的机架的个数。

对负载迁移后进行负载均衡度的评价。负载均衡度，即反应负载率均衡程度的一个数据，表示的是服务器集群中所有服务器负载的总偏差和总负载的比值，本发明实施例中采用服务器实际负载与负载平均值差的绝对值表示负载偏差，负载均衡度的计算公式为：

式中，B_L表示负载均衡度，s_i表示第i台服务器的实际负载率，表示n台服务器的平均负载率。可知，负载均衡度B_L的值越小该服务器集群的负载均衡性越好。

一个DataNode节点的功耗为：

P_server＝s_e+μ_es^a

式中，s_e为空闲功耗或者静态功耗，s为服务器的负载率，与服务器的时钟频率成正比，μ_e和a为常数。

对整个HDFS集群进行了节能评价，设HDFS集群中DtaNode的个数为n，休眠的DataNode节点的个数为q。则整个HDFS集群的节约的功耗为：

其中，s₁为休眠服务器前的服务器的负载率，s₂为休眠服务器后的服务器的负载率。一般情况下有s₁<s₂。

综上所述，本发明实施例通过上述步骤201-步骤206，可依据文件的不同访问频率设定不同数据块的活跃副本数目通过可变覆盖的横贯模型确定最大关闭DataNode服务器数目，实现系统存储单元的节能。

本发明实施例在进行模型求解时，将采用改进的隐枚举法进行求解，将分为如下两个过程，具体的执行为：

一、考虑到实际情况中，每个服务器上存储的数据块的个数差异性，为快速的找到开启服务器的个数，以及服务器的状态向量本发明实施例将按服务器顶点度从大到小的顺序对服务器排列的顺序进行重新调整，这样就可以快速的找到结果。开启服务器个数的判断过程为：

Step 1.将X按顶点度从大到小排序，顶点记为X'，对应的顶点度记为D'(d_H(x_sii))，st'_sii为对应的状态向量；

Step 2.从顶点度大的开始进行求和，直到顶点度的和Sum不小于记录此时所累加的服务器的个数r；

Step 3.令服务器状态向量对应的前r个元素的值为1，后n-r个元素的值为0；

Step 4.将服务器状态向量分别与关联矩阵A'的每一列进行乘积，逐个判断是否满足约束条件若都满足，输出和对应的顶点度之和D，即否则，判断服务器状态向量是否为终态，若是终态，r++，返回Step 3，若不是，改变服务器状态向量返回Step 4。

注：在进行状态变化时，将在相同个数的活跃状态DataNode的不同相量之间进行变换，若共有5个服务器，在进行判断开启3个服务器时是否满足要求，状态向量的变化过程为：

[1,1,1,0,0]→[1,1,0,1,0]→[1,1,0,0,1]→[1,0,1,1,0]→[1,0,1,0,1]→[1,0,0,1,1]→[0,1,1,1,0]→[0,1,1,0,1]→[0,1,0,1,1]→[0,0,1,1,1](终态)。

二、经过上面开启服务器个数的判断过程之后，所得到的开启服务器的个数r是最小的，但对应的顶点度之和D不是最小的。顶点度之和D代表着处于活跃状态的服务器上存储的数据块数量，该值越小，表示所占用的存储空间越小。因此，需要进行数据块存储量最小化算法来进行求解。根据图8在进行约束条件判断之前，首先进行顶点度之和的判断，若顶点之和大于已知值，便不进行约束条件的判断直接舍去，这样便可得到顶点度之和最小的一个或多个服务器状态向量若存在多个时，将根据上面的公式选取服务器状态向量。综上所述，本发明实施例给出了上述可变覆盖的横贯模型的求解过程，本方法可依据文件的不同访问频率设定不同数据块的活跃副本数目通过可变覆盖的横贯模型确定最大关闭DataNode服务器数目，实现系统存储单元的节能。

实施例3

下面结合具体的附图8-18，对实施例1和2中的方案进行可行性验证，详见下文描述：

本实验中产生6个机架(RACK)，且每个RACK中有6个Datanode节点，即k＝36的HDFS集群。数据块的副本随机产生m＝random[2,6]，文件的大小随机产生[500,6000]。集群中放置着20个文件，低负载时，集群中有5个作业，每个作业访问的文件数目是在1-20之间的随机数；高负载时，集群中有25个作业，每个作业访问的文件数目依然是1-20之间的随机数。

图8-18为本发明的仿真结果图。图8为不改变原始数据块存储结构前提下，DataNode服务器集群关闭比率和数据块不可用性之间的关系图。图9为HDFS集群中的文件均保留一个副本，采用贪心算法、可变覆盖横贯算法和未优化时处于活跃状态服务器的个数对比。图10为处于活跃状态服务器的顶点度之和的对比。表1为向该集群中施加低负载与高负载两种情况下节点的负载率的汇总表。图11-16为负载率对比图，图17-18描述了节点的功耗，将其汇总形成了表2。

表1节能算法执行前后负载比较

表2节能算法执行前后功耗对比

表1为节能算法执行前、横贯节能算法执行后和对称数据块存储节能算法执行后的节点负载率值，表中也给出了节点的平均负载率以及负载的均衡度。可知，当节能算法执行后节点的平均负载均会升高，并且采用横贯节能算法后，集群的负载均衡性要比采用对称数据块存储节能算法的效果要好。表2为节能算法执行前后的节点功耗对比图，从中可以看出，无论是低负载还是高负载，横贯节能算法比对称数据块存储节能算法的节能效果要好，且在节能算法执行后，节点的平均功耗增加了，但是集群的总功耗降低了。

综上所述，本发明可使得在活跃状态的服务器上，不同访问频率的文件具有不同的活跃副本数目

参考文献

[1]White T.Hadoop:The definitive guide[M]."O'Reilly Media,Inc.",2012.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于数据中心分布式文件存储的节能方法，其特征在于，所述节能方法包括以下步骤：

利用超图的关联矩阵清晰地表示超边和节点之间的关系；

提出根据分布式集群文件的访问特点，在满足低时延的应用访问要求前提下，不同文件具有的活跃副本数目

在满足数据块可用的前提下，依据文件被访问的频度，获取可变覆盖横贯模型；

根据可变覆盖的横贯模型确定最大关闭数据节点DataNode数目，实现数据中心分布式文件存储节能；

所述可变覆盖的横贯模型具体为：

或1i＝1,2,…,n

其中，表示第s_i个机架上的第i个服务器的状态；0表示服务器处于休眠状态，1表示服务器处于活跃状态；a_ij表示节点关联矩阵里的元素；k_l为文件的活动系数；N_l为文件l所包含的数据块的个数；为服务器节点的顶点度之和；n表示服务器的个数；m表示超边的个数，即数据块的种类；w表示文件的个数。

2.根据权利要求1所述的一种用于数据中心分布式文件存储的节能方法，其特征在于，所述将文件数据块及其副本、与存储数据的节点之间的关系用超图表示出来具体为：

3.根据权利要求1所述的一种用于数据中心分布式文件存储的节能方法，其特征在于，所述活跃副本数目具体为：

4.根据权利要求1所述的一种用于数据中心分布式文件存储的节能方法，其特征在于，所述根据可变覆盖的横贯模型确定最大关闭数据节点DataNode数目具体为：

5.根据权利要求1所述的一种用于数据中心分布式文件存储的节能方法，其特征在于，所述节能方法还包括：

1)负载均衡度的评价：负载均衡度表示的是服务器集群中所有服务器负载的总偏差和总负载的比值，根据服务器实际负载与负载平均值差的绝对值表示负载偏差，计算负载均衡度，即其中B_L表示HDFS集群的负载均衡度，s_i表示第i个服务器的负载率，表示平均负载率；2)对分布式文件集群进行节能评价；

一个DataNode节点的功耗为：

P_server＝σ_e+μ_es^a

式中，σ_e为空闲功耗或者静态功耗，s为服务器的负载率，与服务器的时钟频率成正比，μ_e和a为常数；

整个HDFS集群节约的功耗为：

其中，s₁为进行节能处理前的服务器的负载率，s₂为进行节能处理后处于活跃状态的服务器的负载率，一般情况下有s₁＜s₂；n为HDFS集群中DataNode的个数；q为休眠的DataNode的个数。