CN106547854A

CN106547854A - 基于贪心萤火虫算法的分布式文件系统存储优化节能方法

Info

Publication number: CN106547854A
Application number: CN201610912588.7A
Authority: CN
Inventors: 杨挺; 赵睿; 盆海波; 张亚健; 牛宇卿
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-10-20
Filing date: 2016-10-20
Publication date: 2017-03-29
Anticipated expiration: 2036-10-20
Also published as: CN106547854B

Abstract

一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法：建立HDFS集群存储数据块与DataNode节点的超图存储模型；依据存储数据块访问次数N_v确定各存储数据块的活跃副本所述活跃副本是处于活跃状态的DataNode节点上的存储数据块副本个数；建立HDFS活跃副本覆盖的超图横贯模型；求解超图存储模型的活跃副本覆盖极小集。本发明准确表述了存储数据块和DataNode节点间的多对多的关系，突破现有方法数据块的副本个数恒定的局限。在保证数据块可用性的前提下，使用贪心萤火虫算法求解超图模型的活跃副本覆盖极小集，依据极小覆盖集确定最优的DataNode节点开启集合，实现HDFS集群节能。

Description

基于贪心萤火虫算法的分布式文件系统存储优化节能方法

技术领域

本发明涉及一种分布式文件系统存储优化节能方法。特别是涉及一种用于Hadoop架构分布式存储的基于贪心萤火虫算法的分布式文件系统存储优化节能方法。

背景技术

随着信息技术和新兴产业的快速发展，互联网、物联网和智能电网等业务的数据正以几何级数的形式快速增长，服务业、能源业、制造业、医疗卫生、科教文化等领域都积累了TB级、PB级甚至EB级的大数据。据统计，纽约证券交易所每天由于交易能产生1TB的数据，全球连锁超市沃尔玛每小时需处理100余万条用户请求，存储了超过2.5PB的数据，知名社交网络Facebook中现已存储超过了500亿张照片。IDC(Internet Data Center，互联网数据中心)对于2007-2012年全球的数据量进行过统计，07年全球数据量总数约为165EB，12年时增长至2.7ZB，预计到2020年时数据总量会突破35ZB。

斯坦福大学的研究表明，2010年全球数据中心的耗电量为2355亿kW·h，占据了全球电力消耗的1.3％左右，其中，美国国内的数据中心的耗电量，更是占到了全美电能消耗的2％，而且数据中心的能耗还在以每五年翻一番的速度增加。和美国的情况类似，中国的数据中心也被能耗严重制约，据统计，2009年我国数据中心耗电量为364亿kW·h，占当年全国耗电量的1％，截止2011年底，我国各类数据中心总量已达到43万个，耗电总量高达700亿kW·h，占当年全社会用电量的1.5％，2012年时，数据中心的能耗就已经高达664.5亿kW·h，占当年全国工业用电总量的1.8％，截止2015年底，该数值将上升到1000亿kW·h，相当于三峡水电站的全年发电总量。

Hadoop基础架构可用于实时计算和构造核心的后台批处理，具有良好的可扩展性、可靠性、高效性和高容错性等特性，众多商业公司和科研机构选择通过构建Hadoop集群来管理海量数据。2008年2月，Yahoo公司构建的Hadoop集群拥有超过10000个微处理器核心，用于运行应用程式。2012年，Facebook公司构建的Hadoop集群已经存储了超过100PB的数据，并且其存储的数据量以每天500TB的速度增长。Hadoop集群为工作和生活带来便利的同时，几千甚至上万台服务器带来的巨大的能耗问题也是人们无法忽视的。因此，研究人员除了进一步拓宽Hadoop集群的功能，使其更为简单、高效和易于管理，同时也将更多的精力放在Hadoop集群的节能优化方案上，无论从技术进步还是社会经济的长远发展，这些节能举措是非常符合如今“绿色IT”理念的。

Hadoop集群的节能可以分为采用虚拟化技术节能和非虚拟化技术节能。虚拟化技术通过虚拟化分区和合并共享硬件资源的虚拟服务器，有效提高能源利用率。非虚拟化节能技术包括三个方面，其一，研究冷却系统、新能源、不间断电源(UPS)、供电单元以及其他的附属设备实现节能。其二，研究数据块的放置策略对于集群能耗的影响。其三，寻找集群中数据块的覆盖子集实现节能，覆盖集技术利用HDFS集群副本冗余机制，在集群中指定部分节点作为特殊节点(称为Covering set节点)，在覆盖集节点上为文件的每一个数据块保留至少一个副本，开启的覆盖集节点能够保证所有数据块的可访问性，通过关闭与覆盖集无交集的服务器节点达到集群节能的目的。

Hadoop存储架构为超大数据集的应用处理带来了很多便利，但HDFS中遵循机架感知的存储策略没有考虑数据间的差异性和使用频度，所有数据被以相同副本数和分散配置在不同的DataNode节点中，以获得较高的数据块可用性，然而这也会因为过多的DataNode开启而导致数据中心能耗过高。

发明内容

本发明所要解决的技术问题是，提供一种能够准确表述数据块和DataNode节点间的多对多关系的基于贪心萤火虫算法的分布式文件系统存储优化节能方法。

本发明所采用的技术方案是：一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法，包括如下步骤：

1)建立HDFS集群存储数据块与DataNode节点的超图存储模型；

2)依据存储数据块访问次数N_v确定各存储数据块的活跃副本所述活跃副本是处于活跃状态的DataNode节点上的存储数据块副本个数；

3)建立HDFS活跃副本覆盖的超图横贯模型；

4)求解超图存储模型的活跃副本覆盖极小集，包括：

(1)将目标函数转化为：其中，n为HDFS集群中DataNode节点的总数目，则萤火虫i的绝对亮度是一个n维的潜在解向量；

(2)算法参数初始化，包括：萤火虫数目M，步长因子α，最大吸引度β₀，最小吸引度β_min，介质吸收因子γ，最大迭代次数maxGeneration；

(3)随机生成M×n的0/1矩阵作为M只萤火虫的初始位置，依据目标函数计算M只萤火虫的绝对亮度I₀，I₀＝Max f，选出目标函数值最大位置记为最佳位置最大函数值记为最优解gbest；

(4)计算萤火虫i与萤火虫j之间的距离r_ij，计算萤火虫i对萤火虫j的吸引度β_ij(r_ij)，依据更新萤火虫位置，由于采用二进制编码时仅有0/1两种状态，故以0.5为界，若解向量的第a个元素其中，a＝1，2，…，n，则令反之，若则令

(5)依据贪心策略搜索解向量，通过增开DataNode节点使不可行解变成可行解，同时在保证解向量为可行解前提下，增加集群的节能效果；

(6)对于二进制编码方式下的可行解，让所述的可行解在一定概率下发生变异，形成新一代种群；

(7)判断是否达到最大迭代次数maxGeneration，若是则跳转至第(8)步，否则跳转回第(4)步，进行下一轮搜索；

(8)输出最佳位置和最优解gbest。

步骤1)包括：

(1)映射DataNode节点为超图H的顶点X，映射数据块种类为超边E，第k种数据块和第k种数据块的多个副本被存储在不同机架的不同DataNode节点上，即表示为其中，x_i，x_j，x_k，x_d分别代表存储的DataNode节点，超边所包含的节点个数称为超边的秩，r(E_k)，即为第k种数据块所占据的不同DataNode数目；

(2)用关联矩阵A(a_ij)数学表述超图H，其中A中的m列分别代表超图H中的m条边E₁，E₂，…，E_m，即集群中存储的m种数据块，n行分别代表H的n个顶点x₁，x₂，…，x_n，即HDFS集群中的n个DataNode节点，当x_i∈E_j时，a_ij＝1，反之，当时，a_ij＝0；

(3)计算超图H中与顶点x_i连接的超边E的个数，记为该顶点x_i的度d_H(x_i)。

步骤2)包括：

(1)查阅HDFS集群存储数据块的访问日志，统计所述HDFS集群存储数据块的访问次数N_v；

(2)在满足HDFS集群存储数据块访问需求的前提下，计算HDFS集群存储数据块的活跃副本在访问周期T内，当HDFS集群存储数据块访问次数N_v≤50时，保留1个活跃副本数能够满足访问性能需求，当数据块访问次数满足50＜N_v≤100时，保留2个活跃副本数能够满足访问性能需求，当数据块访问次数满足100＜N_v≤200时，保留3个活跃副本数能够满足访问性能需求，当数据块访问次数满足N_v＞200时，保留m(副本系数)个活跃副本数能够满足访问性能需求，即HDFS集群存储数据块的活跃副本为：

步骤3)包括：

(1)令超图H＝(E,X)，若集合与超图H中每条边的交集满足：||Γ∩E_j||≥k_j，其中，k₁,k₂,...,k_j,...,k_m表示m种存储数据块各自的活跃副本，则称Г是超图H的一个活跃副本-横贯；

(2)令集合Г是超图H的一个活跃副本-横贯，Г致使||(Γ-x)∩E_j||≥k_j不再成立，则集合Г是超图H的一个极小活跃副本-横贯；

(3)HDFS活跃副本覆盖问题的目标函数为：约束条件为：

其中，x_i表示集群中第i个DataNode节点的状态，包括关闭/开启，即0/1，a_ij表示由DataNode节点和存储数据块构成的节点关联矩阵A(a_ij)里的元素，n表示HDFS集群中DataNode节点的个数，m表示超图H中超边E的个数，即存储数据块的种类，表示每种存储数据块需要的活跃副本。

步骤4)第(5)步包括：

(a)对于任一解向量如果活跃DataNode节点中存储数据块总数满足则说明所述的解向量不是可行解，将所述解向量中每个DataNode节点存储数据块总量按照降序排列，由大到小的方向将y_ia＝0→y_ia＝1，其中，a＝1，2，…，n，直至所述的解向量满足

(b)如果任一解向量中活跃DataNode节点中存储数据块总数满足则所述解向量可能为可行解，进一步验证所述解向量是否满足所有存储数据块的活跃副本若满足则将所述解向量中每个DataNode节点存储数据块总量按照升序排列，由小到大的方向将y_ia＝0→y_ia＝1，其中，a＝1，2，…，n，直至不满足所有存储数据块的活跃副本采用此措施可以让开启的DataNode节点总数更少，同时也可以保证可行解中存储的数据块总量更少，这将有利于HDFS集群的节能和读写操作。反之，若验证所述解向量并非可行解，则结束本轮操作。

本发明的基于贪心萤火虫算法的分布式文件系统存储优化节能方法，建立了数据中心存储超图模型，准确表述了存储数据块和DataNode节点间的多对多的关系，突破现有方法数据块的副本个数恒定的局限。本发明在保证数据块可用性的前提下，建立HDFS集群活跃副本覆盖的超图模型，使用贪心萤火虫算法求解超图模型的活跃副本覆盖极小集，依据极小覆盖集确定最优的DataNode节点开启集合，实现HDFS集群节能。

附图说明

图1是本发明的基于贪心萤火虫算法的分布式文件系统存储优化节能方法的流程图；

图2是HDFS集群Fat-tree拓扑结构；

图3是HDFS集群BCube₂拓扑结构；

图4是HDFS集群DCell₂拓扑结构；

图5是执行不同规模的任务时，采用不同节能算法后3种集群关闭的节点数；

图6是执行不同规模的任务时，Fat-tree拓扑结构的HDFS集群的任务执行时间；

图7是执行不同规模的任务时，BCube₂拓扑结构的HDFS集群的任务执行时间；

图8是执行不同规模的任务时，DCell₂拓扑结构的HDFS集群的任务执行时间；

图9是执行不同规模的任务时，Fat-tree拓扑结构的HDFS集群的平均功耗；

图10是执行不同规模的任务时，BCube₂拓扑结构的HDFS集群的平均功耗；

图11是执行不同规模的任务时，DCell₂拓扑结构的HDFS集群的平均功耗；

图12是执行不同规模的任务时，Fat-tree拓扑结构的HDFS集群的总能耗；

图13是执行不同规模的任务时，BCube₂拓扑结构的HDFS集群的总能耗；

图14是执行不同规模的任务时，DCell₂拓扑结构的HDFS集群的总能耗；

图15是执行不同规模的任务时，采用不同节能算法后3种拓扑结构集群的能耗节约率。

具体实施方式

下面结合实施例和附图对本发明的基于贪心萤火虫算法的分布式文件系统存储优化节能方法做出详细说明。

本发明的基于贪心萤火虫算法的分布式文件系统存储优化节能方法，是对于HDFS存储模型，建立存储数据块与DataNode节点的超图模型，依据数据块访问次数确定其活跃副本建立HDFS活跃副本覆盖的超图模型，使用贪心萤火虫算法求解该模型的活跃副本覆盖极小集。

如图1所示，本发明的基于贪心萤火虫算法的分布式文件系统存储优化节能方法，具体包括如下步骤：

1)建立HDFS集群存储数据块与DataNode节点的超图存储模型；包括：

(1)映射DataNode节点为超图H的顶点X，映射数据块种类为超边E，第k种数据块和第k种数据块的多个副本被存储在不同机架的不同DataNode节点上，即表示为其中，x_i，x_j，x_k，x_d分别代表存储数据块的DataNode节点，超边所包含的节点个数称为超边的秩，r(E_k)，即为第k种数据块所占据的不同DataNode数目；

2)依据存储数据块访问次数N_v确定各存储数据块的活跃副本所述活跃副本是处于活跃状态的DataNode节点上的存储数据块副本个数，即所求的DataNode节点的覆盖集与每条超边E交点的个数；包括：

3)建立HDFS活跃副本覆盖的超图横贯模型；包括：

(2)令集合Г是超图H的一个活跃副本-横贯，Г致使||(Γ-x)∩E_j||≥k_j不再成立，则集合Г是超图H的一个极小活跃副本-横贯，即：集合Г中少去任何一个节点，必然有某个数据块的活跃副本数无法满足访问性能要求，将求解满足数据块可用性的极小DataNode服务器覆盖集转化为求解超图H的一个极小活跃副本-横贯，即求解超图H的一个活跃副本覆盖极小集；

(3)HDFS活跃副本覆盖问题的目标函数为：约束条件为：

4)求解超图存储模型的活跃副本覆盖极小集，包括：

(1)为了贴合萤火虫算法的思想：绝对亮度大的萤火虫吸引绝对亮度小的萤火虫向其靠近，将目标函数转化为：其中，n为HDFS集群中DataNode节点的总数目，则萤火虫i的绝对亮度是一个n维的潜在解向量；

(5)依据贪心策略搜索解向量，通过增开DataNode节点使不可行解变成可行解，同时在保证解向量为可行解前提下，增加集群的节能效果；包括：

(6)对于二进制编码方式下的可行解，让所述的可行解在一定概率下发生变异，形成新一代种群，本发明中对于采用二进制编码的所有可行解，让其每一位编码都以5％的概率发生变异，即将0变成1，将1变成0；

(8)输出最佳位置和最优解gbest。

为验证本发明的基于贪心萤火虫算法的分布式文件系统存储优化节能方法的有效性，对HDFS集群应用本发明的方法进行集群能耗分析如下：

本实验包括三种HDFS集群：Fat-tree拓扑结构构成的HDFS集群，集群由6个机架组成，每个机架包含9个DataNode节点，BCube₂拓扑结构构成的HDFS集群，集群由4个机架组成，每个机架包含16个DataNode节点，和DCell₂拓扑结构构成的HDFS集群，集群由5个机架组成，每个机架包含20个DataNode节点，图2～4为三种HDFS集群的拓扑结构，在每个集群中运行8组不同规模WordCount任务，搜索计词规模从8～1024个数据块以2的阶乘递增。实验仍然设定不同种类存储数据块的可用性：需保留1个活跃副本、2个活跃副本与3个活跃副本的数据块数量之比为4：3：1。保证存储数据块满足可用性要求的基础上，针对依次递增的任务负荷分别采用CS-3重覆盖算法和本发明的活跃副本覆盖极小集算法进行存储优化，执行WordCount任务。

图5～15为本发明的仿真结果，图5所示为3个集群分别执行不同规模的wordcount任务时，采用CS-3重覆盖算法和本发明的活跃副本覆盖极小集算法最多能关闭的DataNode节点数目，图6～11为CPU执行map任务的平均时间和集群执行map任务的平均功耗，图12～15为集群执行map任务的总能耗和能耗节约率，本发明节能效果明显。

Claims

1.一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法，其特征在于，包括如下步骤：

1)建立HDFS集群存储数据块与DataNode节点的超图存储模型；

3)建立HDFS活跃副本覆盖的超图横贯模型；

4)求解超图存储模型的活跃副本覆盖极小集，包括：

(8)输出最佳位置和最优解gbest。

2.根据权利要求1所述的一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法，其特征在于，步骤1)包括：

3.根据权利要求1所述的一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法，其特征在于，步骤2)包括：

\tilde{κ} = \{\begin{matrix} 1, & N_{v} \leq 50; \\ 2, & 50 < N_{v} \leq 100; \\ 3, & 100 < N_{v} \leq 200; \\ o r N_{v} > 200, & w_{l} = 3; \\ m, & N_{v} > 200, m > 3. \end{matrix}

4.根据权利要求1所述的一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法，其特征在于，步骤3)包括：

(2)令集合Г是超图H的一个活跃副本-横贯，不再成立，则集合Г是超图H的一个极小活跃副本-横贯；

(3)HDFS活跃副本覆盖问题的目标函数为：约束条件为：

\begin{matrix} Σ_{i = 1}^{n} a_{i j} x_{i} &GreaterEqual; k_{l} & i = 1, 2, ..., n \\ j = 1, 2, ..., m \\ x_{i} = 0 / 1 & l = 1, 2, ..., \tilde{κ} \end{matrix}

5.根据权利要求1所述的一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法，其特征在于，步骤4)第(5)步包括：