CN105681052B - 一种用于数据中心分布式文件存储的节能方法 - Google Patents

一种用于数据中心分布式文件存储的节能方法 Download PDF

Info

Publication number
CN105681052B
CN105681052B CN201610016441.XA CN201610016441A CN105681052B CN 105681052 B CN105681052 B CN 105681052B CN 201610016441 A CN201610016441 A CN 201610016441A CN 105681052 B CN105681052 B CN 105681052B
Authority
CN
China
Prior art keywords
server
file
storage
load
data block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610016441.XA
Other languages
English (en)
Other versions
CN105681052A (zh
Inventor
杨挺
徐明玉
赵睿
盆海波
尚昆
武金成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610016441.XA priority Critical patent/CN105681052B/zh
Publication of CN105681052A publication Critical patent/CN105681052A/zh
Application granted granted Critical
Publication of CN105681052B publication Critical patent/CN105681052B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/12Arrangements for remote connection or disconnection of substations or of equipment thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于数据中心分布式文件存储的节能方法,包括以下步骤:基于分布式文件存储的机架感知存储策略,将文件数据块及其副本、与存储数据的节点之间的关系用超图表示出来;利用超图的关联矩阵清晰地表示超边和节点之间的关系;提出根据分布式集群文件的访问特点,在满足低时延的应用访问要求前提下,不同文件应该具有的活跃副本数目;在满足数据块可用的前提下,依据文件被访问的频度,获取可变覆盖的横贯模型;根据可变覆盖的横贯模型确定最大关闭数据节点DataNode的数目,建立服务器能耗评价。

Description

一种用于数据中心分布式文件存储的节能方法
技术领域
本发明涉及云数据中心领域,尤其涉及一种用于数据中心分布式文件存储的节能方法。
背景技术
当今,信息技术带动了各种现代服务业,以及新兴产业的快速发展,这些业务产生的数据正在以几何级数的形式增长。其中,这些业务包括:互联网、物联网和智能电网等。据统计,纽约证券交易所每天的交易数据会有1TB(万亿字节);Twitter(推特)每天会产生7TB的数据;Facebook(脸谱网)每天产生的数据超过10TB。据IDC(Internet Data Center,互联网数据中心)的调查与统计,2007年全球的数据信息量约为165EB(百亿亿字节),即使在全球遭遇金融危机的2009年,仍约800EB的数据量,相比上一年增长了62%。2012年全球信息总量已经达到2.7ZB(十万亿亿字节),2020年将会达到35ZB,约为2007年的230倍。大数据每年都在激增庞大的数据量,这给整个数据的存储以及数据的处理带来了挑战。
数据中心的能耗也一直居高不下,2007年,IT设备能耗占全球总能耗的5.3%,消耗电力达8700亿千瓦时。随着IT技术的广泛应用,该能耗以每年20%~25%的速度继续增长。根据麦肯锡公司2008年研究表明,2007年全球的数据中心所消耗能源的总费用为86亿美元。预计2025年,整个IT行业的整体平均能耗将会是2006年的5倍。并且存储系统占IT耗能的比重呈不断增长之势。
分布式文件存储系统是云计算底层的核心基础设施,并且是上层数据服务的提供者。由于分布式文件存储系统规模的不断扩大使其运营成本不断提高,不仅包括硬件、机房、冷却设备等固定成本,还包括IT设备和冷却设备的电能消耗。这将会导致能耗的浪费以及温室效应,给环境带来的危害毋庸置疑。另外,分布式文件存储系统在设计时,没有考虑对环境的危害问题。因此,无论是要减少本身消耗的成本,还是达到保护环境的目的,提高分布式文件存储系统的能耗利用率是云计算领域中需要研究的一个热点问题。
发明内容
本发明提供了一种用于数据中心分布式文件存储的节能方法,本发明在HDFS(HadoopDistributed File System,Hadoop分布式文件存储)集群中,通过建立超图模型,清晰地表述文件的数据块和服务器之间的多对多的关系,根据超图里的横贯理论,提出了一种可变覆盖的横贯模型,详见下文描述:
一种用于数据中心分布式文件存储的节能方法,所述节能方法包括以下步骤:
基于分布式文件存储的机架感知存储策略,将文件数据块及其副本、与存储的数据节点之间的关系用超图表示出来;
利用超图的关联矩阵清晰地表示超边和节点之间的关系;
提出根据分布式集群文件的访问特点,在满足低时延的应用访问要求前提下,不同文件应该具有的活跃副本数目
在满足数据块可用的前提下,依据文件被访问的频率,获取可变覆盖横贯模型;
根据可变覆盖的横贯模型确定最大关闭数据节点DataNode数目,实现数据中心分布式文件存储节能。
所述将文件数据块及其副本、与存储数据的节点之间的关系用超图表示出来具体为:
数据节点DataNode作为超图的顶点,以每种数据块作为超边,数据块和数据节点间复杂的多对多关系通过超图表示出来。
所述活跃副本数目具体为:
处于活跃状态服务器上的数据块副本个数,该参数也是所求的数据节点的子集与每条超边的交点个数。
所述可变覆盖的横贯模型具体为:
j=1,2,…,m,l=1,2,…,w
或1 i=1,2,...,n
其中,表示第si个机架上的第i个服务器的状态;0表示服务器处于休眠状态,1表示服务器处于活跃状态;aij表示节点关联矩阵里的元素;kl为文件的活动系数;Nl为文件l所包含的数据块的个数;为服务器节点的顶点度之和;n表示服务器的个数;m表示超边的个数,即数据块的种类;w表示文件的个数。
所述根据可变覆盖的横贯模型确定最大关闭数据节点DataNode数目具体为:
在满足文件的活跃副本数目kl的情况下,使开启服务器的个数最少,即值最小;
当存在开启服务器的个数相同、但不同状态向量解集时,从中选取顶点度之和最小的,即值最小的;
当存在横贯集等秩、且存储的总数据块个数相同的解集时,考虑选择活跃状态 服务器分布的机架数量多的解集,即 值最大的。
所述节能方法还包括:
1)负载均衡度的评价:负载均衡度表示的是服务器集群中所有服务器负载的总偏差和总负载的比值,根据服务器实际负载与负载平均值差的绝对值表示负载偏差,计算负载均衡度,即其中BL表示HDFS集群的负载均衡度,si表示第i个服务器的负载率,表示平均负载率;
2)对分布式文件集群进行节能评价;
一个DataNode节点的功耗为:
Pserver=seesa
式中,se为空闲功耗或者静态功耗,s为服务器的负载率,与服务器的时钟频率成正比,μe和a为常数;
整个HDFS集群节约的功耗为:
其中,s1为进行节能处理前的服务器的负载率,s2为进行节能处理后处于活跃状态的服务器的负载率,一般情况下有s1<s2;n为HDFS集群中DataNode的个数;q为休眠的DataNode的个数。
本发明提供的技术方案的有益效果是:本发明提供的基于超图的完全覆盖的HDFS节能方法,能够清晰地表述文件的数据块和服务器之间的多对多的关系。在保证数据块可用性的前提下,本发明基于k-横贯理论设计了实现数据中心分布式文件节能存储的可变覆盖的横贯模型,可依据文件的不同访问频率设定不同数据块的活跃副本可变数目通过可变覆盖的横贯模型确定最大关闭DataNode服务器数目,实现系统存储单元的节能。
附图说明
图1为HDFS数据存储的示意图;
图2为基于机架感知的存储策略示意图;
图3为数据块与DataNode节点的关系示意图;
图4为数据块存储的二部图;
图5为文件存储情况示意图;
图6为超图H的示意图;
图7为数据块存储量最小化求解的流程图;
图8为集群关闭比率和数据块不可用性之间的关系图;
图9为处于活跃状态的服务器个数的比较示意图;
图10为活跃状态服务器的顶点度之和的比较示意图;
图11为低负载时节能算法执行前的示意图;
图12为低负载时对称数据块存储节能算法执行后的示意图;
图13为低负载时横贯节能算法执行后的示意图;
图14为高负载时节能算法执行前的示意图;
图15为高负载率时对称数据块存储节能算法执行后的示意图;
图16为高负载率时横贯节能算法执行后的示意图;
图17为低负载状态下节点功耗对比图。
图18为高负载状态下节点功耗对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
Hadoop[1]是一个分布式处理的软件框架,能在由大量计算机组成的集群中运行海量数据并进行分布式计算。由于其具有可扩展、低成本、高效性与可靠性等优点,Hadoop在分布式计算领域得到了广泛运用。Hadoop通过副本策略与节点的失效处理等方法,在保证数据块可用性的同时并没有考虑集群负载率与系统能耗之间的关系,即使在Hadoop集群利用率很低的情况下,集群中所有的DataNode节点都保持活跃状态以保证数据块的可用性,其高能耗低效率的情况与Google服务器集群类似,并由此造成了大量电能的浪费。因此,在保证数据块可用性的前提下,不改变数据的存储,控制服务器的状态,从而达到存储与节能的目的具有重大意义。
在保证数据块可用性的前提下,考虑集群负载率与系统能耗之间的关系对HDFS的节能进行研究。在不改变存储策略的节能上,一些学者研究完全覆盖(full coverage)问题,即要求活跃节点上必须存有所有数据对象中的至少一个副本,因此需要在所有的存储节点集合中找到一个覆盖所有数据的子集,即在保证数据块可用性的前提下,将文件的数据块及副本中的至少一个放入该子集中,通过关闭该子集以外的DataNode节能来达到节能的目的。本发明的实施例所求取的DataNode节点的子集中的数据块的活跃副本数目是可变的,实现不同的文件具有不同的活跃副本数目
实施例1
101:基于HDFS中的机架感知存储策略,将文件数据块及其副本、与存储节点之间的关系用超图表示出来;
其中,超图的定义为:
令X={x1,x2,…,xn}是一个有限集,若Ei≠Φ(i=1,2,…,m)和则称二元关系H=(X,E)为超图。在超图H中,X的元素x1,x2,…,xn称为超图的顶点,E={E1,E2,…,Em}为超图的边集合,也称为超边。
102:利用超图的关联矩阵A(aij)清晰地表示超边和节点之间的关系;
其中,关联矩阵A(aij)定义为:
A中的m列分别对应H的m条超边E1,E2,…,Em,n行分别对应H的n个顶点x1,x2,…,xn。当时,aij=0;当xi∈Ej时,aij=1。
103:根据HDFS集群文件的访问特点,在满足低时延的应用访问要求前提下,确定不同文件应该具有的活跃副本数目
104:在满足数据块可用的前提下,依据文件被访问的频率,确定各数据块副本活跃个数,建立可变覆盖的横贯模型;
105:根据可变覆盖横贯模型确定最大关闭数据节点DataNode数目,建立服务器能耗评价。
综上所述,本发明实施例通过上述步骤101-步骤105,可依据文件的不同访问频率设定不同数据块的活跃副本数目通过可变覆盖的横贯模型确定最大关闭数据节点DataNode数目,实现系统存储单元的节能。
实施例2
下面结合具体的附图、计算公式对实施例1中的方案进行详细的介绍,详见下文描述:
201:基于机架感知的存储策略,文件可以分成多种数据块;
在HDFS集群中,在对文件进行存储时,为了提高数据块的可用性,HDFS集群采取多副本的措施,首先将文件分成一系列的数据块,并将数据块存储在DataNode数据节点上,如图1所示。
文件中的数据块放置时,遵循机架感知的存储策略如图2所示。即文件第一个数据块的第一个副本b11被随机地存放于某一个DataNode节点中,第二个副本b12存放在与数据块b11不同的机架上的任意一个DataNode节点中,第三个副本b13存放在与b12相同的机架但是不同的DataNode节点中。如果该文件的副本系数wl>3,那么剩下的数据块就被随机地存放在除b11、b12、b13存储节点以外的任意的DataNode节点中。这里bij表示第i个数据块的第j个副本。
如图1、2所示,每种数据块的多个副本被放置在不同的DataNode节点中,故形成了数据块和DataNode节点间的多对多关联,如图3所示,将其表示成二部图的形式,如图4所示。简单图只能表示事物之间的二元关系,在表示数据块与DataNode节点间的这种复杂的多对多的关系时较为繁琐。因此,本发明实施例运用超图理论表述数据块与DataNode节点之间多元关系。
202:根据超图的定义,以DataNode节点X={x11,x12,…,xs*n}为超图的顶点,以每种数据块为超边E,数据块和DataNode节点间复杂的多对多关系就通过超图表示出来;
如图5、图6所示,在超图H中,包含顶点xi的超边E的个数称为顶点xi的度,记为dH(xi)。在本发明实施例中顶点的度表示DataNode节点上存储的数据块的个数,存储的数据块的个数越多,所占用的存储空间越多。
203:通过超图H的关联矩阵A(aij),清晰地表示超边和节点之间的关系,即数据块与DataNode节点的存储关系;
关联矩阵A中的m列分别对应超图H的m条边E1,E2,…,Em;n行分别对应超图H的n个 顶点x1,x2,…,xm。当时,aij=0;当xi∈Ej时,aij=1。这样,顶点的度dH(xi)等于
其中,顶点度的定义为:对x∈X,以x为心的星H(x)为H中所有含x的边所导出的部分。包含顶点x的超边的个数称为顶点x的度,记为dH(x),即dH(x)=m(H(x))。
204:寻找一个DataNode节点的子集,该子集与每个超边E都有交集,即求超图H的一个横贯;
为了保证每一个文件均能随时被访问到,即每一种数据块均至少有一个副本存储于处于活跃状态的服务器上,这样,需要处于活跃状态的服务器上面有所有种类的数据块。即寻找一个DataNode节点的子集,该子集与每个超边E都有交集,即求超图H的一个横贯集合。
根据HDFS集群文件的访问特点可知,不同的文件具有不同的访问频率,因此为满足应用访问(性能)要求,不同的文件(数据)不应是唯一的保留一个副本,而应该具有不同的活跃副本数目活跃副本数目是处于活跃状态的服务器上的数据块副本个数,即所求的DataNode节点的子集与每条超边E交点的个数。例如,假设通过对HDFS集群系统数据块访问的实际观测得出结论:在周期T内,当文件访问次数小于N1时,活动系数为1能够满足访问性能要求;当访问次数介于N1~N2之间时,活动系数为2能够满足访问性能要求;当访问次数介于N2~N3时活动系数为3,能够满足访问性能要求;当访问次数大于N3时,活动系数为w(副本系数)能够满足访问性能要求。可以得出文件Fl的活动系数kl为:
205:获取可变覆盖的横贯模型;
本方法在满足数据访问性能要求的前提下,依据文件被访问的频率,确定各数据块副本活跃个数,建立可变覆盖横贯模型,该模型可灵活设定数据块的保留活跃副本数目确定最大关闭DataNode服务器数目,实现系统存储单元节能,该模型为:
约束条件为
j=1,2,…,m,
l=1,2,…,w
或1,i=1,2,...,n
式中,表示第si个机架上的第i个服务器的状态;aij表示节点关联矩阵A(aij)里的元素;n表示DataNode服务器的个数;m表示超边的个数,即数据块的种类;w表示文件的个数;kl表示文件l的活跃副本系数。
根据处于活跃状态的DataNode节点的顶点度之和(处于活跃状态的服务器上的数据块的个数)不小于可将k-横贯模型的公式变为:
j=1,2,…,m,l=1,2,…,w
206:根据可变覆盖的横贯模型确定最大关闭DataNode服务器数目,建立服务器能耗评价。
即在满足访问性能要求下,开启服务器的个数越少,则节能效果越好。根据可变覆盖的横贯模型,将采取下面的措施:
(1)在满足文件Fl的活跃副本数目kl的情况下,使开启服务器的个数最少,即值最小;
(2)当存在开启服务器的个数相同、但状态向量解集不同时,将从中选取顶点度之和最小的,即值最小的;
(3)当存在横贯集等秩、且存储的总数据块个数相同的解集时,将考虑选择其中活跃状态服务器分布的机架数量多的解集,即为:
式中表示的机架的标号,整个公式表示的就是对所有处于活跃状态的服务器所在的机架的个数。
对负载迁移后进行负载均衡度的评价。负载均衡度,即反应负载率均衡程度的一个数据,表示的是服务器集群中所有服务器负载的总偏差和总负载的比值,本发明实施例中采用服务器实际负载与负载平均值差的绝对值表示负载偏差,负载均衡度的计算公式为:
式中,BL表示负载均衡度,si表示第i台服务器的实际负载率,表示n台服务器的平均负载率。可知,负载均衡度BL的值越小该服务器集群的负载均衡性越好。
一个DataNode节点的功耗为:
Pserver=seesa
式中,se为空闲功耗或者静态功耗,s为服务器的负载率,与服务器的时钟频率成正比,μe和a为常数。
对整个HDFS集群进行了节能评价,设HDFS集群中DtaNode的个数为n,休眠的DataNode节点的个数为q。则整个HDFS集群的节约的功耗为:
其中,s1为休眠服务器前的服务器的负载率,s2为休眠服务器后的服务器的负载率。一般情况下有s1<s2
综上所述,本发明实施例通过上述步骤201-步骤206,可依据文件的不同访问频率设定不同数据块的活跃副本数目通过可变覆盖的横贯模型确定最大关闭DataNode服务器数目,实现系统存储单元的节能。
本发明实施例在进行模型求解时,将采用改进的隐枚举法进行求解,将分为如下两个过程,具体的执行为:
一、考虑到实际情况中,每个服务器上存储的数据块的个数差异性,为快速的找到开启服务器的个数,以及服务器的状态向量本发明实施例将按服务器顶点度从大到小的顺序对服务器排列的顺序进行重新调整,这样就可以快速的找到结果。开启服务器个数的判断过程为:
Step 1.将X按顶点度从大到小排序,顶点记为X',对应的顶点度记为D'(dH(xsii)),st'sii为对应的状态向量;
Step 2.从顶点度大的开始进行求和,直到顶点度的和Sum不小于记录此时所累加的服务器的个数r;
Step 3.令服务器状态向量对应的前r个元素的值为1,后n-r个元素的值为0;
Step 4.将服务器状态向量分别与关联矩阵A'的每一列进行乘积,逐个判断是否满足约束条件若都满足,输出和对应的顶点度之和D,即否则,判断服务器状态向量是否为终态,若是终态,r++,返回Step 3,若不是,改变服务器状态向量返回Step 4。
注:在进行状态变化时,将在相同个数的活跃状态DataNode的不同相量之间进行变换,若共有5个服务器,在进行判断开启3个服务器时是否满足要求,状态向量的变化过程为:
[1,1,1,0,0]→[1,1,0,1,0]→[1,1,0,0,1]→[1,0,1,1,0]→[1,0,1,0,1]→[1,0,0,1,1]→[0,1,1,1,0]→[0,1,1,0,1]→[0,1,0,1,1]→[0,0,1,1,1](终态)。
二、经过上面开启服务器个数的判断过程之后,所得到的开启服务器的个数r是最小的,但对应的顶点度之和D不是最小的。顶点度之和D代表着处于活跃状态的服务器上存储的数据块数量,该值越小,表示所占用的存储空间越小。因此,需要进行数据块存储量最小化算法来进行求解。根据图8在进行约束条件判断之前,首先进行顶点度之和的判断,若顶点之和大于已知值,便不进行约束条件的判断直接舍去,这样便可得到顶点度之和最小的一个或多个服务器状态向量若存在多个时,将根据上面的公式选取服务器状态向量。综上所述,本发明实施例给出了上述可变覆盖的横贯模型的求解过程,本方法可依据文件的不同访问频率设定不同数据块的活跃副本数目通过可变覆盖的横贯模型确定最大关闭DataNode服务器数目,实现系统存储单元的节能。
实施例3
下面结合具体的附图8-18,对实施例1和2中的方案进行可行性验证,详见下文描述:
本实验中产生6个机架(RACK),且每个RACK中有6个Datanode节点,即k=36的HDFS集群。数据块的副本随机产生m=random[2,6],文件的大小随机产生[500,6000]。集群中放置着20个文件,低负载时,集群中有5个作业,每个作业访问的文件数目是在1-20之间的随机数;高负载时,集群中有25个作业,每个作业访问的文件数目依然是1-20之间的随机数。
图8-18为本发明的仿真结果图。图8为不改变原始数据块存储结构前提下,DataNode服务器集群关闭比率和数据块不可用性之间的关系图。图9为HDFS集群中的文件均保留一个副本,采用贪心算法、可变覆盖横贯算法和未优化时处于活跃状态服务器的个数对比。图10为处于活跃状态服务器的顶点度之和的对比。表1为向该集群中施加低负载与高负载两种情况下节点的负载率的汇总表。图11-16为负载率对比图,图17-18描述了节点的功耗,将其汇总形成了表2。
表1节能算法执行前后负载比较
表2节能算法执行前后功耗对比
表1为节能算法执行前、横贯节能算法执行后和对称数据块存储节能算法执行后的节点负载率值,表中也给出了节点的平均负载率以及负载的均衡度。可知,当节能算法执行后节点的平均负载均会升高,并且采用横贯节能算法后,集群的负载均衡性要比采用对称数据块存储节能算法的效果要好。表2为节能算法执行前后的节点功耗对比图,从中可以看出,无论是低负载还是高负载,横贯节能算法比对称数据块存储节能算法的节能效果要好,且在节能算法执行后,节点的平均功耗增加了,但是集群的总功耗降低了。
综上所述,本发明可使得在活跃状态的服务器上,不同访问频率的文件具有不同的活跃副本数目
参考文献
[1]White T.Hadoop:The definitive guide[M]."O'Reilly Media,Inc.",2012.
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种用于数据中心分布式文件存储的节能方法,其特征在于,所述节能方法包括以下步骤:
基于分布式文件存储的机架感知存储策略,将文件数据块及其副本、与存储的数据节点之间的关系用超图表示出来;
利用超图的关联矩阵清晰地表示超边和节点之间的关系;
提出根据分布式集群文件的访问特点,在满足低时延的应用访问要求前提下,不同文件具有的活跃副本数目
在满足数据块可用的前提下,依据文件被访问的频度,获取可变覆盖横贯模型;
根据可变覆盖的横贯模型确定最大关闭数据节点DataNode数目,实现数据中心分布式文件存储节能;
所述可变覆盖的横贯模型具体为:
或1i=1,2,…,n
其中,表示第si个机架上的第i个服务器的状态;0表示服务器处于休眠状态,1表示服务器处于活跃状态;aij表示节点关联矩阵里的元素;kl为文件的活动系数;Nl为文件l所包含的数据块的个数;为服务器节点的顶点度之和;n表示服务器的个数;m表示超边的个数,即数据块的种类;w表示文件的个数。
2.根据权利要求1所述的一种用于数据中心分布式文件存储的节能方法,其特征在于,所述将文件数据块及其副本、与存储数据的节点之间的关系用超图表示出来具体为:
数据节点DataNode作为超图的顶点,以每种数据块作为超边,数据块和数据节点间复杂的多对多关系通过超图表示出来。
3.根据权利要求1所述的一种用于数据中心分布式文件存储的节能方法,其特征在于,所述活跃副本数目具体为:
处于活跃状态服务器上的数据块副本个数,该参数也是所求的数据节点的子集与每条超边的交点个数。
4.根据权利要求1所述的一种用于数据中心分布式文件存储的节能方法,其特征在于,所述根据可变覆盖的横贯模型确定最大关闭数据节点DataNode数目具体为:
在满足文件的活跃副本数目kl的情况下,使开启服务器的个数最少,即值最小;
当存在开启服务器的个数相同、但不同状态向量解集时,从中选取顶点度之和最小的,即值最小的;
当存在横贯集等秩、且存储的总数据块个数相同的解集时,考虑选择活跃状态服务器分布的机架数量多的解集,即值最大的。
5.根据权利要求1所述的一种用于数据中心分布式文件存储的节能方法,其特征在于,所述节能方法还包括:
1)负载均衡度的评价:负载均衡度表示的是服务器集群中所有服务器负载的总偏差和总负载的比值,根据服务器实际负载与负载平均值差的绝对值表示负载偏差,计算负载均衡度,即其中BL表示HDFS集群的负载均衡度,si表示第i个服务器的负载率,表示平均负载率;2)对分布式文件集群进行节能评价;
一个DataNode节点的功耗为:
Pserver=σeesa
式中,σe为空闲功耗或者静态功耗,s为服务器的负载率,与服务器的时钟频率成正比,μe和a为常数;
整个HDFS集群节约的功耗为:
其中,s1为进行节能处理前的服务器的负载率,s2为进行节能处理后处于活跃状态的服务器的负载率,一般情况下有s1<s2;n为HDFS集群中DataNode的个数;q为休眠的DataNode的个数。
CN201610016441.XA 2016-01-11 2016-01-11 一种用于数据中心分布式文件存储的节能方法 Expired - Fee Related CN105681052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610016441.XA CN105681052B (zh) 2016-01-11 2016-01-11 一种用于数据中心分布式文件存储的节能方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610016441.XA CN105681052B (zh) 2016-01-11 2016-01-11 一种用于数据中心分布式文件存储的节能方法

Publications (2)

Publication Number Publication Date
CN105681052A CN105681052A (zh) 2016-06-15
CN105681052B true CN105681052B (zh) 2018-11-27

Family

ID=56300071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610016441.XA Expired - Fee Related CN105681052B (zh) 2016-01-11 2016-01-11 一种用于数据中心分布式文件存储的节能方法

Country Status (1)

Country Link
CN (1) CN105681052B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547854B (zh) * 2016-10-20 2020-12-15 天津大学 基于贪心萤火虫算法的分布式文件系统存储优化节能方法
CN107273207A (zh) * 2017-05-25 2017-10-20 天津大学 一种基于超图划分算法的相关数据存储方法
CN109344009B (zh) * 2018-10-11 2021-09-14 重庆邮电大学 基于分级检查点的移动云系统容错方法
CN110187974A (zh) * 2019-05-31 2019-08-30 北京宝兰德软件股份有限公司 一种负载均衡的处理方法及装置
CN111859703B (zh) * 2020-07-30 2022-05-10 暨南大学 一种基于热量感知的数据中心节能数据副本放置方法
CN112765177B (zh) * 2021-01-26 2022-04-29 武汉大学 一种基于负载驱动的分布式图数据分割和复制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306157A (zh) * 2011-07-12 2012-01-04 中国人民解放军国防科学技术大学 数据中心环境下一种面向节能的高可靠数据存储方法
CN103312825A (zh) * 2013-07-10 2013-09-18 中国人民解放军国防科学技术大学 一种数据分布存储方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306157A (zh) * 2011-07-12 2012-01-04 中国人民解放军国防科学技术大学 数据中心环境下一种面向节能的高可靠数据存储方法
CN103312825A (zh) * 2013-07-10 2013-09-18 中国人民解放军国防科学技术大学 一种数据分布存储方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
云数据中心基于超图的存储优化节能算法研究;谢其扬;《中国优秀硕士论文全文数据库》;20131231;第4.1-4.6节 *
基于存储结构重配置的分布式存储系统节能算法;廖彬等;《计算机研究与发展》;20131231;第2.2-3节 *

Also Published As

Publication number Publication date
CN105681052A (zh) 2016-06-15

Similar Documents

Publication Publication Date Title
CN105681052B (zh) 一种用于数据中心分布式文件存储的节能方法
Pandey et al. Prominence of mapreduce in big data processing
WO2009103221A1 (zh) 一种高效的关联主体模型数据处理方法及其系统
Li et al. CBMR: An optimized MapReduce for item‐based collaborative filtering recommendation algorithm with empirical analysis
CN107832153A (zh) 一种Hadoop集群资源自适应分配方法
Geng et al. An improved task scheduling algorithm for scientific workflow in cloud computing environment
CN106547854B (zh) 基于贪心萤火虫算法的分布式文件系统存储优化节能方法
Bakhthemmat et al. Decreasing the execution time of reducers by revising clustering based on the futuristic greedy approach
CN103984737B (zh) 一种基于计算相关度的多数据中心数据布局优化方法
CN108173958A (zh) 一种多云环境下基于蚁群算法的数据优化存储方法
Séguéla et al. Comparing energy-aware vs. cost-aware data replication strategy
Vigliotti et al. Energy-efficient virtual machines placement
Zhiyong et al. An improved container cloud resource scheduling strategy
CN111935952A (zh) 大型机房能耗调控方法及装置
Wang et al. Model and algorithm for heterogeneous scheduling integrated with energy-efficiency awareness
Mohd. Zin et al. Replication techniques in data grid environments
Lee et al. Design and implementation of a data-driven simulation service system
Wan A query optimization method of blockchain electronic transaction based on group account
Séguéla et al. Energy and expenditure aware data replication strategy
CN108449376A (zh) 一种服务于企业的大数据计算节点的负载均衡方法
Saidi et al. A DSL-MCDA Model for Energy Consumption-Aware in Cloud Computing
Luo et al. Processing graphs with barrierless asynchronous parallel model on shared-memory systems
He Decision Scheduling for Cloud Computing Tasks Relying on Solving Large Linear Systems of Equations
Bao et al. Researching on the Placement of Data Replicas in the System of HDFS Cloud Storage Cluster
Xu et al. A novel data set importance based cost-effective and computation-efficient storage strategy in the cloud

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181127

Termination date: 20220111

CF01 Termination of patent right due to non-payment of annual fee