CN106547854A - 基于贪心萤火虫算法的分布式文件系统存储优化节能方法 - Google Patents

基于贪心萤火虫算法的分布式文件系统存储优化节能方法 Download PDF

Info

Publication number
CN106547854A
CN106547854A CN201610912588.7A CN201610912588A CN106547854A CN 106547854 A CN106547854 A CN 106547854A CN 201610912588 A CN201610912588 A CN 201610912588A CN 106547854 A CN106547854 A CN 106547854A
Authority
CN
China
Prior art keywords
copy
hypergraph
datanode
hdfs
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610912588.7A
Other languages
English (en)
Other versions
CN106547854B (zh
Inventor
杨挺
赵睿
盆海波
张亚健
牛宇卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610912588.7A priority Critical patent/CN106547854B/zh
Publication of CN106547854A publication Critical patent/CN106547854A/zh
Application granted granted Critical
Publication of CN106547854B publication Critical patent/CN106547854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/1827Management specifically adapted to NAS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Power Sources (AREA)

Abstract

一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法:建立HDFS集群存储数据块与DataNode节点的超图存储模型;依据存储数据块访问次数Nv确定各存储数据块的活跃副本所述活跃副本是处于活跃状态的DataNode节点上的存储数据块副本个数;建立HDFS活跃副本覆盖的超图横贯模型;求解超图存储模型的活跃副本覆盖极小集。本发明准确表述了存储数据块和DataNode节点间的多对多的关系,突破现有方法数据块的副本个数恒定的局限。在保证数据块可用性的前提下,使用贪心萤火虫算法求解超图模型的活跃副本覆盖极小集,依据极小覆盖集确定最优的DataNode节点开启集合,实现HDFS集群节能。

Description

基于贪心萤火虫算法的分布式文件系统存储优化节能方法
技术领域
本发明涉及一种分布式文件系统存储优化节能方法。特别是涉及一种用于Hadoop架构分布式存储的基于贪心萤火虫算法的分布式文件系统存储优化节能方法。
背景技术
随着信息技术和新兴产业的快速发展,互联网、物联网和智能电网等业务的数据正以几何级数的形式快速增长,服务业、能源业、制造业、医疗卫生、科教文化等领域都积累了TB级、PB级甚至EB级的大数据。据统计,纽约证券交易所每天由于交易能产生1TB的数据,全球连锁超市沃尔玛每小时需处理100余万条用户请求,存储了超过2.5PB的数据,知名社交网络Facebook中现已存储超过了500亿张照片。IDC(Internet Data Center,互联网数据中心)对于2007-2012年全球的数据量进行过统计,07年全球数据量总数约为165EB,12年时增长至2.7ZB,预计到2020年时数据总量会突破35ZB。
斯坦福大学的研究表明,2010年全球数据中心的耗电量为2355亿kW·h,占据了全球电力消耗的1.3%左右,其中,美国国内的数据中心的耗电量,更是占到了全美电能消耗的2%,而且数据中心的能耗还在以每五年翻一番的速度增加。和美国的情况类似,中国的数据中心也被能耗严重制约,据统计,2009年我国数据中心耗电量为364亿kW·h,占当年全国耗电量的1%,截止2011年底,我国各类数据中心总量已达到43万个,耗电总量高达700亿kW·h,占当年全社会用电量的1.5%,2012年时,数据中心的能耗就已经高达664.5亿kW·h,占当年全国工业用电总量的1.8%,截止2015年底,该数值将上升到1000亿kW·h,相当于三峡水电站的全年发电总量。
Hadoop基础架构可用于实时计算和构造核心的后台批处理,具有良好的可扩展性、可靠性、高效性和高容错性等特性,众多商业公司和科研机构选择通过构建Hadoop集群来管理海量数据。2008年2月,Yahoo公司构建的Hadoop集群拥有超过10000个微处理器核心,用于运行应用程式。2012年,Facebook公司构建的Hadoop集群已经存储了超过100PB的数据,并且其存储的数据量以每天500TB的速度增长。Hadoop集群为工作和生活带来便利的同时,几千甚至上万台服务器带来的巨大的能耗问题也是人们无法忽视的。因此,研究人员除了进一步拓宽Hadoop集群的功能,使其更为简单、高效和易于管理,同时也将更多的精力放在Hadoop集群的节能优化方案上,无论从技术进步还是社会经济的长远发展,这些节能举措是非常符合如今“绿色IT”理念的。
Hadoop集群的节能可以分为采用虚拟化技术节能和非虚拟化技术节能。虚拟化技术通过虚拟化分区和合并共享硬件资源的虚拟服务器,有效提高能源利用率。非虚拟化节能技术包括三个方面,其一,研究冷却系统、新能源、不间断电源(UPS)、供电单元以及其他的附属设备实现节能。其二,研究数据块的放置策略对于集群能耗的影响。其三,寻找集群中数据块的覆盖子集实现节能,覆盖集技术利用HDFS集群副本冗余机制,在集群中指定部分节点作为特殊节点(称为Covering set节点),在覆盖集节点上为文件的每一个数据块保留至少一个副本,开启的覆盖集节点能够保证所有数据块的可访问性,通过关闭与覆盖集无交集的服务器节点达到集群节能的目的。
Hadoop存储架构为超大数据集的应用处理带来了很多便利,但HDFS中遵循机架感知的存储策略没有考虑数据间的差异性和使用频度,所有数据被以相同副本数和分散配置在不同的DataNode节点中,以获得较高的数据块可用性,然而这也会因为过多的DataNode开启而导致数据中心能耗过高。
发明内容
本发明所要解决的技术问题是,提供一种能够准确表述数据块和DataNode节点间的多对多关系的基于贪心萤火虫算法的分布式文件系统存储优化节能方法。
本发明所采用的技术方案是:一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法,包括如下步骤:
1)建立HDFS集群存储数据块与DataNode节点的超图存储模型;
2)依据存储数据块访问次数Nv确定各存储数据块的活跃副本所述活跃副本是处于活跃状态的DataNode节点上的存储数据块副本个数;
3)建立HDFS活跃副本覆盖的超图横贯模型;
4)求解超图存储模型的活跃副本覆盖极小集,包括:
(1)将目标函数转化为:其中,n为HDFS集群中DataNode节点的总数目,则萤火虫i的绝对亮度是一个n维的潜在解向量;
(2)算法参数初始化,包括:萤火虫数目M,步长因子α,最大吸引度β0,最小吸引度βmin,介质吸收因子γ,最大迭代次数maxGeneration;
(3)随机生成M×n的0/1矩阵作为M只萤火虫的初始位置,依据目标函数计算M只萤火虫的绝对亮度I0,I0=Max f,选出目标函数值最大位置记为最佳位置最大函数值记为最优解gbest;
(4)计算萤火虫i与萤火虫j之间的距离rij计算萤火虫i对萤火虫j的吸引度βij(rij),依据更新萤火虫位置,由于采用二进制编码时仅有0/1两种状态,故以0.5为界,若解向量的第a个元素其中,a=1,2,…,n,则令反之,若则令
(5)依据贪心策略搜索解向量,通过增开DataNode节点使不可行解变成可行解,同时在保证解向量为可行解前提下,增加集群的节能效果;
(6)对于二进制编码方式下的可行解,让所述的可行解在一定概率下发生变异,形成新一代种群;
(7)判断是否达到最大迭代次数maxGeneration,若是则跳转至第(8)步,否则跳转回第(4)步,进行下一轮搜索;
(8)输出最佳位置和最优解gbest。
步骤1)包括:
(1)映射DataNode节点为超图H的顶点X,映射数据块种类为超边E,第k种数据块和第k种数据块的多个副本被存储在不同机架的不同DataNode节点上,即表示为 其中,xi,xj,xk,xd分别代表存储的DataNode节点,超边所包含的节点个数称为超边的秩,r(Ek),即为第k种数据块所占据的不同DataNode数目;
(2)用关联矩阵A(aij)数学表述超图H,其中A中的m列分别代表超图H中的m条边E1,E2,…,Em,即集群中存储的m种数据块,n行分别代表H的n个顶点x1,x2,…,xn,即HDFS集群中的n个DataNode节点,当xi∈Ej时,aij=1,反之,当时,aij=0;
(3)计算超图H中与顶点xi连接的超边E的个数,记为该顶点xi的度dH(xi)。
步骤2)包括:
(1)查阅HDFS集群存储数据块的访问日志,统计所述HDFS集群存储数据块的访问次数Nv
(2)在满足HDFS集群存储数据块访问需求的前提下,计算HDFS集群存储数据块的活跃副本在访问周期T内,当HDFS集群存储数据块访问次数Nv≤50时,保留1个活跃副本数能够满足访问性能需求,当数据块访问次数满足50<Nv≤100时,保留2个活跃副本数能够满足访问性能需求,当数据块访问次数满足100<Nv≤200时,保留3个活跃副本数能够满足访问性能需求,当数据块访问次数满足Nv>200时,保留m(副本系数)个活跃副本数能够满足访问性能需求,即HDFS集群存储数据块的活跃副本为:
步骤3)包括:
(1)令超图H=(E,X),若集合与超图H中每条边的交集满足:||Γ∩Ej||≥kj其中,k1,k2,...,kj,...,km表示m种存储数据块各自的活跃副本,则称Г是超图H的一个活跃副本-横贯;
(2)令集合Г是超图H的一个活跃副本-横贯,Г致使||(Γ-x)∩Ej||≥kj不再成立,则集合Г是超图H的一个极小活跃副本-横贯;
(3)HDFS活跃副本覆盖问题的目标函数为:约束条件为:
其中,xi表示集群中第i个DataNode节点的状态,包括关闭/开启,即0/1,aij表示由DataNode节点和存储数据块构成的节点关联矩阵A(aij)里的元素,n表示HDFS集群中DataNode节点的个数,m表示超图H中超边E的个数,即存储数据块的种类,表示每种存储数据块需要的活跃副本。
步骤4)第(5)步包括:
(a)对于任一解向量如果活跃DataNode节点中存储数据块总数满足则说明所述的解向量不是可行解,将所述解向量中每个DataNode节点存储数据块总量按照降序排列,由大到小的方向将yia=0→yia=1,其中,a=1,2,…,n,直至所述的解向量满足
(b)如果任一解向量中活跃DataNode节点中存储数据块总数满足则所述解向量可能为可行解,进一步验证所述解向量是否满足所有存储数据块的活跃副本若满足则将所述解向量中每个DataNode节点存储数据块总量按照升序排列,由小到大的方向将yia=0→yia=1,其中,a=1,2,…,n,直至不满足所有存储数据块的活跃副本采用此措施可以让开启的DataNode节点总数更少,同时也可以保证可行解中存储的数据块总量更少,这将有利于HDFS集群的节能和读写操作。反之,若验证所述解向量并非可行解,则结束本轮操作。
本发明的基于贪心萤火虫算法的分布式文件系统存储优化节能方法,建立了数据中心存储超图模型,准确表述了存储数据块和DataNode节点间的多对多的关系,突破现有方法数据块的副本个数恒定的局限。本发明在保证数据块可用性的前提下,建立HDFS集群活跃副本覆盖的超图模型,使用贪心萤火虫算法求解超图模型的活跃副本覆盖极小集,依据极小覆盖集确定最优的DataNode节点开启集合,实现HDFS集群节能。
附图说明
图1是本发明的基于贪心萤火虫算法的分布式文件系统存储优化节能方法的流程图;
图2是HDFS集群Fat-tree拓扑结构;
图3是HDFS集群BCube2拓扑结构;
图4是HDFS集群DCell2拓扑结构;
图5是执行不同规模的任务时,采用不同节能算法后3种集群关闭的节点数;
图6是执行不同规模的任务时,Fat-tree拓扑结构的HDFS集群的任务执行时间;
图7是执行不同规模的任务时,BCube2拓扑结构的HDFS集群的任务执行时间;
图8是执行不同规模的任务时,DCell2拓扑结构的HDFS集群的任务执行时间;
图9是执行不同规模的任务时,Fat-tree拓扑结构的HDFS集群的平均功耗;
图10是执行不同规模的任务时,BCube2拓扑结构的HDFS集群的平均功耗;
图11是执行不同规模的任务时,DCell2拓扑结构的HDFS集群的平均功耗;
图12是执行不同规模的任务时,Fat-tree拓扑结构的HDFS集群的总能耗;
图13是执行不同规模的任务时,BCube2拓扑结构的HDFS集群的总能耗;
图14是执行不同规模的任务时,DCell2拓扑结构的HDFS集群的总能耗;
图15是执行不同规模的任务时,采用不同节能算法后3种拓扑结构集群的能耗节约率。
具体实施方式
下面结合实施例和附图对本发明的基于贪心萤火虫算法的分布式文件系统存储优化节能方法做出详细说明。
本发明的基于贪心萤火虫算法的分布式文件系统存储优化节能方法,是对于HDFS存储模型,建立存储数据块与DataNode节点的超图模型,依据数据块访问次数确定其活跃副本建立HDFS活跃副本覆盖的超图模型,使用贪心萤火虫算法求解该模型的活跃副本覆盖极小集。
如图1所示,本发明的基于贪心萤火虫算法的分布式文件系统存储优化节能方法,具体包括如下步骤:
1)建立HDFS集群存储数据块与DataNode节点的超图存储模型;包括:
(1)映射DataNode节点为超图H的顶点X,映射数据块种类为超边E,第k种数据块和第k种数据块的多个副本被存储在不同机架的不同DataNode节点上,即表示为 其中,xi,xj,xk,xd分别代表存储数据块的DataNode节点,超边所包含的节点个数称为超边的秩,r(Ek),即为第k种数据块所占据的不同DataNode数目;
(2)用关联矩阵A(aij)数学表述超图H,其中A中的m列分别代表超图H中的m条边E1,E2,…,Em,即集群中存储的m种数据块,n行分别代表H的n个顶点x1,x2,…,xn,即HDFS集群中的n个DataNode节点,当xi∈Ej时,aij=1,反之,当时,aij=0;
(3)计算超图H中与顶点xi连接的超边E的个数,记为该顶点xi的度dH(xi)。
2)依据存储数据块访问次数Nv确定各存储数据块的活跃副本所述活跃副本是处于活跃状态的DataNode节点上的存储数据块副本个数,即所求的DataNode节点的覆盖集与每条超边E交点的个数;包括:
(1)查阅HDFS集群存储数据块的访问日志,统计所述HDFS集群存储数据块的访问次数Nv
(2)在满足HDFS集群存储数据块访问需求的前提下,计算HDFS集群存储数据块的活跃副本在访问周期T内,当HDFS集群存储数据块访问次数Nv≤50时,保留1个活跃副本数能够满足访问性能需求,当数据块访问次数满足50<Nv≤100时,保留2个活跃副本数能够满足访问性能需求,当数据块访问次数满足100<Nv≤200时,保留3个活跃副本数能够满足访问性能需求,当数据块访问次数满足Nv>200时,保留m(副本系数)个活跃副本数能够满足访问性能需求,即HDFS集群存储数据块的活跃副本为:
3)建立HDFS活跃副本覆盖的超图横贯模型;包括:
(1)令超图H=(E,X),若集合与超图H中每条边的交集满足:||Γ∩Ej||≥kj其中,k1,k2,...,kj,...,km表示m种存储数据块各自的活跃副本,则称Г是超图H的一个活跃副本-横贯;
(2)令集合Г是超图H的一个活跃副本-横贯,Г致使||(Γ-x)∩Ej||≥kj不再成立,则集合Г是超图H的一个极小活跃副本-横贯,即:集合Г中少去任何一个节点,必然有某个数据块的活跃副本数无法满足访问性能要求,将求解满足数据块可用性的极小DataNode服务器覆盖集转化为求解超图H的一个极小活跃副本-横贯,即求解超图H的一个活跃副本覆盖极小集;
(3)HDFS活跃副本覆盖问题的目标函数为:约束条件为:
其中,xi表示集群中第i个DataNode节点的状态,包括关闭/开启,即0/1,aij表示由DataNode节点和存储数据块构成的节点关联矩阵A(aij)里的元素,n表示HDFS集群中DataNode节点的个数,m表示超图H中超边E的个数,即存储数据块的种类,表示每种存储数据块需要的活跃副本。
4)求解超图存储模型的活跃副本覆盖极小集,包括:
(1)为了贴合萤火虫算法的思想:绝对亮度大的萤火虫吸引绝对亮度小的萤火虫向其靠近,将目标函数转化为:其中,n为HDFS集群中DataNode节点的总数目,则萤火虫i的绝对亮度是一个n维的潜在解向量;
(2)算法参数初始化,包括:萤火虫数目M,步长因子α,最大吸引度β0,最小吸引度βmin,介质吸收因子γ,最大迭代次数maxGeneration;
(3)随机生成M×n的0/1矩阵作为M只萤火虫的初始位置,依据目标函数计算M只萤火虫的绝对亮度I0,I0=Max f,选出目标函数值最大位置记为最佳位置最大函数值记为最优解gbest;
(4)计算萤火虫i与萤火虫j之间的距离rij计算萤火虫i对萤火虫j的吸引度βij(rij),依据更新萤火虫位置,由于采用二进制编码时仅有0/1两种状态,故以0.5为界,若解向量的第a个元素其中,a=1,2,…,n,则令反之,若则令
(5)依据贪心策略搜索解向量,通过增开DataNode节点使不可行解变成可行解,同时在保证解向量为可行解前提下,增加集群的节能效果;包括:
(a)对于任一解向量如果活跃DataNode节点中存储数据块总数满足则说明所述的解向量不是可行解,将所述解向量中每个DataNode节点存储数据块总量按照降序排列,由大到小的方向将yia=0→yia=1,其中,a=1,2,…,n,直至所述的解向量满足
(b)如果任一解向量中活跃DataNode节点中存储数据块总数满足则所述解向量可能为可行解,进一步验证所述解向量是否满足所有存储数据块的活跃副本若满足则将所述解向量中每个DataNode节点存储数据块总量按照升序排列,由小到大的方向将yia=0→yia=1,其中,a=1,2,…,n,直至不满足所有存储数据块的活跃副本采用此措施可以让开启的DataNode节点总数更少,同时也可以保证可行解中存储的数据块总量更少,这将有利于HDFS集群的节能和读写操作。反之,若验证所述解向量并非可行解,则结束本轮操作。
(6)对于二进制编码方式下的可行解,让所述的可行解在一定概率下发生变异,形成新一代种群,本发明中对于采用二进制编码的所有可行解,让其每一位编码都以5%的概率发生变异,即将0变成1,将1变成0;
(7)判断是否达到最大迭代次数maxGeneration,若是则跳转至第(8)步,否则跳转回第(4)步,进行下一轮搜索;
(8)输出最佳位置和最优解gbest。
为验证本发明的基于贪心萤火虫算法的分布式文件系统存储优化节能方法的有效性,对HDFS集群应用本发明的方法进行集群能耗分析如下:
本实验包括三种HDFS集群:Fat-tree拓扑结构构成的HDFS集群,集群由6个机架组成,每个机架包含9个DataNode节点,BCube2拓扑结构构成的HDFS集群,集群由4个机架组成,每个机架包含16个DataNode节点,和DCell2拓扑结构构成的HDFS集群,集群由5个机架组成,每个机架包含20个DataNode节点,图2~4为三种HDFS集群的拓扑结构,在每个集群中运行8组不同规模WordCount任务,搜索计词规模从8~1024个数据块以2的阶乘递增。实验仍然设定不同种类存储数据块的可用性:需保留1个活跃副本、2个活跃副本与3个活跃副本的数据块数量之比为4:3:1。保证存储数据块满足可用性要求的基础上,针对依次递增的任务负荷分别采用CS-3重覆盖算法和本发明的活跃副本覆盖极小集算法进行存储优化,执行WordCount任务。
图5~15为本发明的仿真结果,图5所示为3个集群分别执行不同规模的wordcount任务时,采用CS-3重覆盖算法和本发明的活跃副本覆盖极小集算法最多能关闭的DataNode节点数目,图6~11为CPU执行map任务的平均时间和集群执行map任务的平均功耗,图12~15为集群执行map任务的总能耗和能耗节约率,本发明节能效果明显。

Claims (5)

1.一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法,其特征在于,包括如下步骤:
1)建立HDFS集群存储数据块与DataNode节点的超图存储模型;
2)依据存储数据块访问次数Nv确定各存储数据块的活跃副本所述活跃副本是处于活跃状态的DataNode节点上的存储数据块副本个数;
3)建立HDFS活跃副本覆盖的超图横贯模型;
4)求解超图存储模型的活跃副本覆盖极小集,包括:
(1)将目标函数转化为:其中,n为HDFS集群中DataNode节点的总数目,则萤火虫i的绝对亮度 是一个n维的潜在解向量;
(2)算法参数初始化,包括:萤火虫数目M,步长因子α,最大吸引度β0,最小吸引度βmin,介质吸收因子γ,最大迭代次数maxGeneration;
(3)随机生成M×n的0/1矩阵作为M只萤火虫的初始位置,依据目标函数计算M只萤火虫的绝对亮度I0,I0=Max f,选出目标函数值最大位置记为最佳位置最大函数值记为最优解gbest;
(4)计算萤火虫i与萤火虫j之间的距离rij计算萤火虫i对萤火虫j的吸引度βij(rij),依据更新萤火虫位置,由于采用二进制编码时仅有0/1两种状态,故以0.5为界,若解向量的第a个元素其中,a=1,2,…,n,则令反之,若则令
(5)依据贪心策略搜索解向量,通过增开DataNode节点使不可行解变成可行解,同时在保证解向量为可行解前提下,增加集群的节能效果;
(6)对于二进制编码方式下的可行解,让所述的可行解在一定概率下发生变异,形成新一代种群;
(7)判断是否达到最大迭代次数maxGeneration,若是则跳转至第(8)步,否则跳转回第(4)步,进行下一轮搜索;
(8)输出最佳位置和最优解gbest。
2.根据权利要求1所述的一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法,其特征在于,步骤1)包括:
(1)映射DataNode节点为超图H的顶点X,映射数据块种类为超边E,第k种数据块和第k种数据块的多个副本被存储在不同机架的不同DataNode节点上,即表示为 其中,xi,xj,xk,xd分别代表存储的DataNode节点,超边所包含的节点个数称为超边的秩,r(Ek),即为第k种数据块所占据的不同DataNode数目;
(2)用关联矩阵A(aij)数学表述超图H,其中A中的m列分别代表超图H中的m条边E1,E2,…,Em,即集群中存储的m种数据块,n行分别代表H的n个顶点x1,x2,…,xn,即HDFS集群中的n个DataNode节点,当xi∈Ej时,aij=1,反之,当时,aij=0;
(3)计算超图H中与顶点xi连接的超边E的个数,记为该顶点xi的度dH(xi)。
3.根据权利要求1所述的一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法,其特征在于,步骤2)包括:
(1)查阅HDFS集群存储数据块的访问日志,统计所述HDFS集群存储数据块的访问次数Nv
(2)在满足HDFS集群存储数据块访问需求的前提下,计算HDFS集群存储数据块的活跃副本在访问周期T内,当HDFS集群存储数据块访问次数Nv≤50时,保留1个活跃副本数能够满足访问性能需求,当数据块访问次数满足50<Nv≤100时,保留2个活跃副本数能够满足访问性能需求,当数据块访问次数满足100<Nv≤200时,保留3个活跃副本数能够满足访问性能需求,当数据块访问次数满足Nv>200时,保留m(副本系数)个活跃副本数能够满足访问性能需求,即HDFS集群存储数据块的活跃副本为:
&kappa; ~ = 1 , N v &le; 50 ; 2 , 50 < N v &le; 100 ; 3 , 100 < N v &le; 200 ; o r N v > 200 , w l = 3 ; m , N v > 200 , m > 3.
4.根据权利要求1所述的一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法,其特征在于,步骤3)包括:
(1)令超图H=(E,X),若集合与超图H中每条边的交集满足:||Γ∩Ej||≥kj其中,k1,k2,...,kj,...,km表示m种存储数据块各自的活跃副本,则称Г是超图H的一个活跃副本-横贯;
(2)令集合Г是超图H的一个活跃副本-横贯,不再成立,则集合Г是超图H的一个极小活跃副本-横贯;
(3)HDFS活跃副本覆盖问题的目标函数为:约束条件为:
&Sigma; i = 1 n a i j x i &GreaterEqual; k l i = 1 , 2 , ... , n j = 1 , 2 , ... , m x i = 0 / 1 l = 1 , 2 , ... , &kappa; ~
其中,xi表示集群中第i个DataNode节点的状态,包括关闭/开启,即0/1,aij表示由DataNode节点和存储数据块构成的节点关联矩阵A(aij)里的元素,n表示HDFS集群中DataNode节点的个数,m表示超图H中超边E的个数,即存储数据块的种类,表示每种存储数据块需要的活跃副本。
5.根据权利要求1所述的一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法,其特征在于,步骤4)第(5)步包括:
(a)对于任一解向量如果活跃DataNode节点中存储数据块总数满足则说明所述的解向量不是可行解,将所述解向量中每个DataNode节点存储数据块总量按照降序排列,由大到小的方向将yia=0→yia=1,其中,a=1,2,…,n,直至所述的解向量满足
(b)如果任一解向量中活跃DataNode节点中存储数据块总数满足则所述解向量可能为可行解,进一步验证所述解向量是否满足所有存储数据块的活跃副本若满足则将所述解向量中每个DataNode节点存储数据块总量按照升序排列,由小到大的方向将yia=0→yia=1,其中,a=1,2,…,n,直至不满足所有存储数据块的活跃副本采用此措施可以让开启的DataNode节点总数更少,同时也可以保证可行解中存储的数据块总量更少,这将有利于HDFS集群的节能和读写操作。反之,若验证所述解向量并非可行解,则结束本轮操作。
CN201610912588.7A 2016-10-20 2016-10-20 基于贪心萤火虫算法的分布式文件系统存储优化节能方法 Active CN106547854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610912588.7A CN106547854B (zh) 2016-10-20 2016-10-20 基于贪心萤火虫算法的分布式文件系统存储优化节能方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610912588.7A CN106547854B (zh) 2016-10-20 2016-10-20 基于贪心萤火虫算法的分布式文件系统存储优化节能方法

Publications (2)

Publication Number Publication Date
CN106547854A true CN106547854A (zh) 2017-03-29
CN106547854B CN106547854B (zh) 2020-12-15

Family

ID=58369284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610912588.7A Active CN106547854B (zh) 2016-10-20 2016-10-20 基于贪心萤火虫算法的分布式文件系统存储优化节能方法

Country Status (1)

Country Link
CN (1) CN106547854B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704594A (zh) * 2017-10-13 2018-02-16 东南大学 基于SparkStreaming的电力系统日志数据实时处理方法
CN108984308A (zh) * 2018-07-25 2018-12-11 国网山东省电力公司信息通信公司 一种基于工作负载的云数据处理方法及系统
CN110850956A (zh) * 2019-10-28 2020-02-28 西安交通大学 一种基于数据覆盖集的分布式运算集群动态能耗管理方法
CN112862068A (zh) * 2021-01-15 2021-05-28 复旦大学 面向复杂卷积神经网络的容错架构及方法
WO2021187194A1 (ja) * 2020-03-17 2021-09-23 日本電気株式会社 分散処理システム、分散処理システムの制御方法、及び、分散処理システムの制御装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809244A (zh) * 2015-05-15 2015-07-29 成都睿峰科技有限公司 一种大数据环境下的数据挖掘方法和装置
CN105681052A (zh) * 2016-01-11 2016-06-15 天津大学 一种用于数据中心分布式文件存储的节能方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809244A (zh) * 2015-05-15 2015-07-29 成都睿峰科技有限公司 一种大数据环境下的数据挖掘方法和装置
CN105681052A (zh) * 2016-01-11 2016-06-15 天津大学 一种用于数据中心分布式文件存储的节能方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BRODERICK CRAWFORD: "A Binary Coded Firefly Algorithm that Solves the Set Covering Problem", 《IEEE》 *
莫愿斌等: "求解0_1背包问题的萤火虫算法", 《计算机工程与设计》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704594A (zh) * 2017-10-13 2018-02-16 东南大学 基于SparkStreaming的电力系统日志数据实时处理方法
CN108984308A (zh) * 2018-07-25 2018-12-11 国网山东省电力公司信息通信公司 一种基于工作负载的云数据处理方法及系统
CN110850956A (zh) * 2019-10-28 2020-02-28 西安交通大学 一种基于数据覆盖集的分布式运算集群动态能耗管理方法
CN110850956B (zh) * 2019-10-28 2021-11-19 西安交通大学 一种基于数据覆盖集的分布式运算集群动态能耗管理方法
WO2021187194A1 (ja) * 2020-03-17 2021-09-23 日本電気株式会社 分散処理システム、分散処理システムの制御方法、及び、分散処理システムの制御装置
JP7435735B2 (ja) 2020-03-17 2024-02-21 日本電気株式会社 分散処理システム、分散処理システムの制御方法、及び、分散処理システムの制御装置
CN112862068A (zh) * 2021-01-15 2021-05-28 复旦大学 面向复杂卷积神经网络的容错架构及方法

Also Published As

Publication number Publication date
CN106547854B (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN106547854A (zh) 基于贪心萤火虫算法的分布式文件系统存储优化节能方法
CN107330056A (zh) 基于大数据云计算平台的风电场scada系统及其运行方法
CN107015852A (zh) 一种大规模梯级水电站群多核并行优化调度方法
Ahat et al. Smart grid and optimization
CN102404412A (zh) 云计算数据中心节能方法及系统
CN106484512A (zh) 计算单元的调度方法
Ma et al. Spark-based parallel dynamic programming and particle swarm optimization via cloud computing for a large-scale reservoir system
CN105681052A (zh) 一种用于数据中心分布式文件存储的节能方法
CN112862194B (zh) 配电网供电规划方法、装置、设备、以及可读存储介质
CN108363643A (zh) 一种基于文件访问热度的hdfs副本管理方法
CN109447264A (zh) 云计算环境下基于vham-r模型的虚拟机放置遗传优化方法
CN108881391A (zh) 一种分布式计算存储发热装置及其运行方法
CN110032470A (zh) 一种基于哈夫曼树的异构部分重复码的构造方法
CN106775987A (zh) 一种在IaaS云中安全提高资源效率的虚拟机调度方法
Yang et al. An energy-efficient storage strategy for cloud datacenters based on variable K-coverage of a hypergraph
CN104580518A (zh) 一种用于存储系统的负载均衡控制方法
Bai et al. Evaluation for development effect of enterprise innovation with neural network from low-carbon economy
Yang et al. The short-term economical operation problem for hydropower station using chaotic normal cloud model based discrete shuffled frog leaping algorithm
Chen et al. A cost-efficient and reliable resource allocation model based on cellular automaton entropy for cloud project scheduling
CN108920110A (zh) 一种基于内存计算模式的并行处理大数据存储系统及方法
CN110189230B (zh) 一种动态分区的解析化模型的构建方法
CN105306547A (zh) 提高云计算系统能量有效性的数据摆放及节点调度方法
CN112381333B (zh) 一种基于分布式改进蝙蝠算法的微电网优化方法
CN108053125A (zh) 一种基于宏观管理的能源展现方法及系统
Guo Modeling the demand for financial support for the development of port logistics industry under the financial crisis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant