CN108363643B - 一种基于文件访问热度的hdfs副本管理方法 - Google Patents

一种基于文件访问热度的hdfs副本管理方法 Download PDF

Info

Publication number
CN108363643B
CN108363643B CN201810255610.4A CN201810255610A CN108363643B CN 108363643 B CN108363643 B CN 108363643B CN 201810255610 A CN201810255610 A CN 201810255610A CN 108363643 B CN108363643 B CN 108363643B
Authority
CN
China
Prior art keywords
file
copy
access
copies
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810255610.4A
Other languages
English (en)
Other versions
CN108363643A (zh
Inventor
代钰
杨雷
郝琪
李学学
张斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201810255610.4A priority Critical patent/CN108363643B/zh
Publication of CN108363643A publication Critical patent/CN108363643A/zh
Application granted granted Critical
Publication of CN108363643B publication Critical patent/CN108363643B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1461Backup scheduling policy

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于文件访问热度的HDFS副本管理方法,基于文件访问热度计算文件的副本数量;基于多文件访问关联性对预测的热点文件进行动态副本放置;据需要删除副本的文件对副本进行删除操作;本发明方法利用时间序列分析方法对文件访问热度进行预测,并给出文件访问热度的计算公式以及副本个数的计算公式,能够支持动态热点文件副本个数的调整,解决热点文件的访问瓶颈的问题,提高集群的服务效率。

Description

一种基于文件访问热度的HDFS副本管理方法
技术领域
本发明属于大数据分析与数据挖掘技术领域,具体涉及一种基于文件访问热度的HDFS副本管理方法。
背景技术
随着Web技术的发展,大量数据也随之产生,面对海量数据的存储和分析等相关问题,云存储、云计算、大数据分析和数据挖掘等相关概念也被相应提出。目前来说,在大数据背景下,Apache Hadoop已经成为了分布式大数据处理技术的参考框架,能够有效提高海量数据处理的效率。在Hadoop框架中,数据副本管理技术一直以来都是研究的热点与难点。尽管在HDFS数据副本管理方面目前已经开展了大量的研究工作,但是如何设置合适的副本个数以适应文件访问热度的变化,同时如何放置副本以优化集群负载仍是需要研究并解决的关键问题。
针对HDFS的副本管理问题,有两大关键点很值得研究,一是HDFS上文件的副本个数的问题,二是其上文件的副本放置的问题。HDFS默认的副本个数并不适用于所有应用,没有考虑到文件访问是一个变化的过程,某些文件仅在某一个时间段内会发生访问量突增或者突降的情况。HDFS默认的副本放置方法是在靠近客户端的机架上选择两个节点,其他机架选择一个DataNode节点进行文件的副本放置,但是这些方法并没有根据具体的应用,考虑到文件之间的Join访问关联性问题和节点上文件访问热度的负载情况,这些都严重影响集群的性能。对于以上问题,本发明展开了对HDFS副本管理方法的研究,提出了基于文件访问热度的HDFS副本管理方法及工具。并且开展了一系列的实验,对所提出的方法和相关算法进行了测试,实验结果表明本发明提出的方法使集群的并发性、任务执行的效率和集群的负载均衡情况上都有了很大的提高。
发明内容
针对现有技术的不足,本发明提出一种基于文件访问热度的HDFS副本管理方法,包括以下步骤:
步骤1:基于文件访问热度计算文件的副本数量;
步骤1.1:根据文件访问日志表,统计一段时间间隔time内的文件访问次数,确定文件访问热度;
所述文件fv的访问热度
Figure BDA0001608874420000011
公式如下所示:
Figure BDA0001608874420000021
其中,
Figure BDA0001608874420000022
为一段时间间隔time内的文件fv访问次数,λ为访问次数的经验临界值。
步骤1.2:建立矩阵形式的时间序列和文件访问热度的对应关系的时间序列文件A;
所述时间序列文件A的逻辑结构表示为Log=<row,T,D,fv>,其中,T={t1,t2,t3,...tx}为时间序列,x为访问热度观测时刻,row为时间序列文件中的行号,
Figure BDA0001608874420000023
为文件访问热度集合,fv为文件名称。
步骤1.3:逐行提取时间序列文件A中文件fv的访问热度,进行时间序列分析,对时间序列进行单根检验,判断所提取的文件的访问热度序列是否稳定,若是,执行步骤1.4,否则,执行步骤1.5;
步骤1.4:对平稳的时间序列进行ARMA模型匹配定阶,执行步骤1.6;
步骤1.5:对非稳定的时间序列进行ARIMA模型匹配定阶,执行步骤1.6;
步骤1.6:采用时间序列方法预测下一时刻文件fv的访问热度;
步骤1.7:采用向上取整方式预测文件fv的副本个数
Figure BDA0001608874420000024
当预测的文件的副本个数小于等于3时,保持该预测文件的副本数为3,若预测的文件的副本个数大于3时,增加该预测的文件的副本个数为
Figure BDA0001608874420000025
所述预测的文件fv的副本个数
Figure BDA0001608874420000026
的计算公式如下所示:
Figure BDA0001608874420000027
其中,
Figure BDA0001608874420000028
为经验值常量,
Figure BDA0001608874420000029
为向上取整符号。
步骤1.8:若预测的文件的副本个数增加,则执行步骤2;否则,执行步骤3;
步骤2:基于多文件访问关联性对预测的热点文件进行动态副本放置;
步骤2.1:根据文件访问日志表,计算任意两个文件fi和fj的访问关联度cor(fi,fj);
所述任意两个文件fi和fj的访问关联度cor(fi,fj)的计算公式如下所示:
Figure BDA00016088744200000210
其中,WTime为时间间隔time的时间权重,取值为0~1,NTime(fi,fj)为时间间隔time内文件fi和fj被同一应用访问的次数,N(fi)为文件fi被访问的次数,N(fj)为文件fj被访问的次数。
步骤2.2:以具有访问关联性的副本放置后总的通信代价最小、同一文件的副本放置在通信代价较大的节点上为优化目标,构建考虑多文件访问关联性的热点文件动态副本放置问题的数学模型;
所述考虑多文件访问关联性的热点文件动态副本放置问题的数学模型的计算公式如下所示:
Figure BDA0001608874420000031
其中,COR(bh,bh′)为副本bh和副本bh′的访问关联度,即副本bh所在文件和副本bh′所在文件的访问关联度,parallel(bh,bh′)为副本bh和副本bh′的并发度,bh、bh′∈B={b1,b2,...,bm}为需增加副本的文件块构成集合,m为需增加副本文件块个数,若副本bh和副本bh′属于同一个文件,则COR(bh,bh′)=0、parallel(bh,bh′)=0,COST(nodew,nodew′)为节点nodew和节点nodew′间的网络通信代价,nodew、nodew′∈NODE={node1,node2,....noder}为可放置副本的节点集合,Capacity(nodew)为剩余存储空间大小,Y={yhw,...,yh′w′,...,}为副本放置方案,yhw=1表示副本bh放置到节点nodew上,yhw=0表示副本bh未放置到节点nodew上,size(bh)表示数据块bh的大小。
步骤2.3:基于改进遗传算法求解热点文件动态副本放置问题的数学模型,得到最优的副本放置方案Y;
步骤2.3.1:染色体编码并初始化第一代种群,设定种群规模、适应度函数,设置迭代阈值;
所述染色体编码采取如下方式:每个基因位对应副本放置方案Y中的一个元素,并采用随机初始化方式填补基因位,得到NN个基因;
所述适应度函数如下所示:
Figure BDA0001608874420000041
其中,α、β、γ为系统常量;
步骤2.3.2:产生下一代种群:对上一代基因进行适应度评价,选择适应度排在K位以前的基因为精英基因,得到K个基因,对上一代基因中的非精英基因进行交叉变异操作,得到K′个基因,对所得到的K+K′个基因进行密度聚类,淘汰在聚类边界的K″个基因,即距离簇中心点较远的基因,将得到的K+K′-K″个基因遗传到下一代;
步骤2.3.3:判断迭代次数是否达到预先设置迭代阈值,若是,对所得到的种群中的所有基因进行适应度计算,保留适应度最大的基因,即得到的最优的副本放置方案Y,执行步骤3,否则,返回步骤2.3.1。
步骤3:根据需要删除副本的文件对副本进行删除操作;
步骤3.1:根据需要删除副本的文件V,通过文件信息表,获得需要删除副本的文件V所有不同副本的集合VRC;
步骤3.2:对集合VRC中的副本文件按照访问热度从低到高排序;
步骤3.3:删除集合VRC中访问热度最低的文件副本;
步骤3.4:判断目前集合VRC中的副本个数是否减少到所预测的副本个数,若是则停止;否则返回步骤3.3。
本发明的有益效果:
本发明提出一种基于文件访问热度的HDFS副本管理方法,本发明方法利用时间序列分析方法对文件访问热度进行预测,并给出文件访问热度的计算公式以及副本个数的计算公式,能够支持动态热点文件副本个数的调整,解决热点文件的访问瓶颈的问题,提高集群的服务效率。针对热点文件新增副本的放置问题,考虑了文件间访问关联度以及单个文件并发访问度问题,以减少关联副本访问通信代价和提高同一文件访问并发性为目标,建立了副本放置问题的数学模型,并给出了一种改进的带有精英策略的遗传算法实现对该问题的求解。该遗传算法对该问题求解进行了染色体编码,同时,给出了一种基于密度聚类的基因评价,将距离聚类中心点较远的基因淘汰出去,从而能够提高收敛速度。
附图说明
图1为本发明具体实施方式中基于文件访问热度的HDFS副本管理方法的流程图;
图2为本发明具体实施方式中根据改进的遗传算法对副本放置问题求解得到多目标优化结果;
图3为本发明具体实施方式中与Hadoop默认的保持3个副本的策略时的副本响应时间进行对比实验结果;
图4为本发明具体实施方式中采用默认副本放置策略和本发明考虑文件关联度的副本放置策略相同时间的作业完成度进行对比实验结果;
图5为本发明具体实施方式中采用默认副本放置策略和本发明考虑文件关联度的副本放置策略集群中放置文件副本的节点负载对比实验结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
一种基于文件访问热度的HDFS副本管理方法,如图1所示,包括以下步骤:
步骤1:基于文件访问热度计算文件的副本数量。
步骤1.1:根据文件访问日志表,统计一段时间间隔time内的文件访问次数,确定文件访问热度。
所述文件fv的访问热度
Figure BDA0001608874420000051
公式如式(1)所示:
Figure BDA0001608874420000052
其中,
Figure BDA0001608874420000053
为一段时间间隔time内的文件fv访问次数,λ为访问次数的经验临界值,可以设置为一段时间间隔time的所有文件的平均访问次数。
步骤1.2:建立矩阵形式的时间序列和文件访问热度的对应关系的时间序列文件A。
所述时间序列文件A的逻辑结构表示为Log=<row,T,D,fv>,其中,T={t1,t2,t3,...tx}为时间序列,x为访问热度观测时刻,row为时间序列文件中的行号,
Figure BDA0001608874420000054
为文件访问热度集合,fv为文件名称;
步骤1.3:逐行提取时间序列文件A中文件fv的访问热度,进行时间序列分析,对时间序列进行单根检验,判断所提取的文件的访问热度序列是否稳定,若是,执行步骤1.4,否则,执行步骤1.5。
步骤1.4:对平稳的时间序列进行ARMA模型匹配定阶,执行步骤1.6。
步骤1.5:对非稳定的时间序列进行ARIMA模型匹配定阶,执行步骤1.6。
步骤1.6:采用时间序列方法预测下一时刻文件fv的访问热度。
步骤1.7:采用向上取整方式预测文件fv的副本个数
Figure BDA0001608874420000061
当预测的文件的副本个数小于等于3时,保持该预测文件的副本数为3,若预测的文件的副本个数大于3时,增加该预测的文件的副本个数为
Figure BDA0001608874420000062
所述预测的文件fv的副本个数
Figure BDA0001608874420000063
的计算公式如式(2)所示:
Figure BDA0001608874420000064
其中,
Figure BDA0001608874420000065
为经验值常量,
Figure BDA0001608874420000066
为向上取整符号。
步骤1.8:若预测的文件的副本个数增加,则执行步骤2;否则,执行步骤3。
步骤2:基于多文件访问关联性对预测的热点文件进行动态副本放置。
步骤2.1:根据文件访问日志表,计算任意两个文件fi和fj的访问关联度cor(fi,fj)。
所述任意两个文件fi和fj的访问关联度cor(fi,fj)的计算公式如式(3)所示:
Figure BDA0001608874420000067
其中,WTime为时间间隔time的时间权重,取值为0~1,NTime(fi,fj)为时间间隔time内文件fi和fj被同一应用访问的次数,N(fi)为文件fi被访问的次数,N(fj)为文件fj被访问的次数。
步骤2.2:以具有访问关联性的副本放置后总的通信代价最小、同一文件的副本放置在通信代价较大的节点上为优化目标,构建考虑多文件访问关联性的热点文件动态副本放置问题的数学模型。
所述考虑多文件访问关联性的热点文件动态副本放置问题的数学模型的计算公式如式(4)所示:
Figure BDA0001608874420000071
其中,COR(bh,bh′)为副本bh和副本bh′的访问关联度,即副本bh所在文件和副本bh′所在文件的访问关联度,parallel(bh,bh′)为副本bh和副本bh′的并发度,bh、bh′∈B={b1,b2,...,bm}为需增加副本的文件块构成集合,m为需增加副本文件块个数,若副本bh和副本bh′属于同一个文件,则COR(bh,bh′)=0、parallel(bh,bh′)=0,COST(nodew,nodew′)为节点nodew和节点nodew′间的网络通信代价,nodew、nodew′∈NODE={node1,node2,....noder}为可放置副本的节点集合,Capacity(nodew)为剩余存储空间大小,Y={yhw,...,yh′w′,...,}为副本放置方案,yhw=1表示副本bh放置到节点nodew上,yhw=0表示副本bh未放置到节点nodew上,size(bh)表示数据块bh的大小。
步骤2.3:基于改进遗传算法求解热点文件动态副本放置问题的数学模型,得到最优的副本放置方案Y。
步骤2.3.1:染色体编码并初始化第一代种群,设定种群规模、适应度函数,设置迭代阈值。
所述染色体编码采取如下方式:每个基因位对应副本放置方案Y中的一个元素,并采用随机初始化方式填补基因位,得到种群规模2N个基因。
所述适应度函数如式(5)所示:
Figure BDA0001608874420000072
其中,α、β、γ为系统常量。
步骤2.3.2:产生下一代种群:对上一代基因进行适应度评价,选择适应度排在K位以前的基因为精英基因,得到K个基因,对上一代基因中的非精英基因进行交叉变异操作,得到K′个基因,对所得到的K+K′个基因进行密度聚类,淘汰在聚类边界的K″个基因,即距离簇中心点较远的基因,将得到的K+K′-K″个基因遗传到下一代。
步骤2.3.3:判断迭代次数是否达到预先设置迭代阈值,若是,对所得到的种群中的所有基因进行适应度计算,保留适应度最大的基因,即得到的最优的副本放置方案Y,执行步骤3,否则,返回步骤2.3.1。
本实施方式中,实验模拟对flu.txt文件新增副本放置到在30个节点上过程,在放置时考虑与flu.txt访问关联的patients.txt文件及候选节点上负载因素,输入网络的拓扑结构、flu.txt文件与patients.txt文件的访问关联度、flu.txt文件的新增副本个数及访问热度等相关信息,验证算法的有效性与收敛性。改进的遗传算法配置参数如表1所示:
表1改进的遗传算法配置参数表
Figure BDA0001608874420000081
本实施方式中,根据改进的遗传算法对副本放置问题求解得到多目标优化结果如图2所示。
由图2可见,从规模为2N的副本放置方案中选择保留的方案时,由于改进的精英策略过程,对方案进行了密度聚类使得算法的收敛速度变慢,但是因为此策略淘汰掉“极端”或重复方案,使规模为2N的副本方案中多样性得到增强,避免遗传算法陷入局部最优解。同时验证了改进后算法的收敛性。
该实验采用Jmeter压力测试工具模仿对热点文件flu.txt的高并发情况,Jmeter压力测试工具可以对静态资源和动态资源的性能进行测试,如它可以用在对服务器、网络的负载来测试在不同的压力或强度下的整体性能,客户端通过提交对flu.txt文件执行MapReduce操作,使得文件的访问热度增加,通过构建时间-访问热度序列进行预测访问热度并计算副本的个数,调整flu.txt的副本个数。在相同的访问热度下,与Hadoop默认的保持3个副本的策略时的副本响应时间进行对比实验,可以得到图3的实验对比图。
由图3可知,采用Hadoop默认的为文件保持3个副本时,在访问热度不大时,副本的响应时间增长比较缓慢,但随着flu.txt文件的访问热度的增大,此时3个副本无法应对高访问量,所以副本的响应时间也快速增长。而考虑访问热度因素对副本个数进行调整的策略,在flu.txt访问热度增加前,通过预测flu.txt的访问热度并计算副本个数,并对其增加相应的副本个数,使得副本的响应时间随着访问热度增加而增加到一定的峰值便开始下降,因为此时有更多的副本来响应请求,使得副本的响应时间开始下降。由于增加副本时需要消耗一定的时间,所以在访问热度不大时增加副本的个数,比默认策略消耗的时间更多一点,但增加副本消耗的时间比重会越来越小,使采用改进后策略后,副本的响应时间是明显减少的。
该实验,考虑patient.txt文件和flu.txt的访问关联性及节点负载,将这两个文件放在距离较近的节点上,与Hadoop默认的随机选择节点进行放置的策略作对比实验。其中,patient.txt记录病人的信息(姓名,年龄,病症),flu.txt记录病症的具体信息(病症,感冒等级),对这两个文件进行MapReduce操作(统计感冒等级为2的病人数量),对两种策略下,相同时间的作业完成度进行对比实验,得到如图4的对比实验图。
由图4可见,Hadoop默认的节点选择,使得具有访问关联性的文件随机存放,由此数据间的通信代价也比较高。改进的副本放置中,由于将具有访问关联性的文件放在较近的节点上,使在执行MapReduce任务时,数据间的通信代价降低,因此可以在较短时间内完成作业。证明考虑文件间访问关联度选择较近节点存放的方法是有效的。
该实验,对考虑文件间访问关联度和节点负载因素将副本放置到节点上,各个节点的访问热度负载与最高访问热度之比作为节点负载,对此副本放置方案的节点负载与默认的副本放置方案的节点负载作对比实验。利用文件信息表及文件-数据块信息表,得到文件对应的数据块和副本所在的datanode节点,然后由作业执行信息表得到作业与所需文件的关系,计算得到节点上的副本的访问热度。得到如图5对比实验图。
由图5可知,Hadoop默认的副本放置方法,使得节点间的负载相差较大,会造成有的节点上放置文件的副本过多,而有的节点则过少,使集群负载不均衡。采用改进后的副本放置方法,考虑到节点上文件的访问热度均衡等因素进行副本放置,使得集群中放置文件副本的节点负载比较均衡,可以提高集群的整体性能。
步骤3:根据需要删除副本的文件对副本进行删除操作。
步骤3.1:根据需要删除副本的文件V,通过文件信息表,获得需要删除副本的文件V所有不同副本的集合VRC;
步骤3.2:对集合VRC中的副本文件按照访问热度从低到高排序;
步骤3.3:删除集合VRC中访问热度最低的文件副本;
步骤3.4:判断目前集合VRC中的副本个数是否减少到所预测的副本个数,若是则停止;否则返回步骤3.3。

Claims (7)

1.一种基于文件访问热度的HDFS副本管理方法,其特征在于,包括以下步骤:
步骤1:基于文件访问热度计算文件的副本数量;
步骤1.1:根据文件访问日志表,统计一段时间间隔time内的文件访问次数,确定文件访问热度;
步骤1.2:建立矩阵形式的时间序列和文件访问热度的对应关系的时间序列文件A;
步骤1.3:逐行提取时间序列文件A中文件fv的访问热度,进行时间序列分析,对时间序列进行单根检验,判断所提取的文件的访问热度序列是否稳定,若是,执行步骤1.4,否则,执行步骤1.5;
步骤1.4:对平稳的时间序列进行ARMA模型匹配定阶,执行步骤1.6;
步骤1.5:对非稳定的时间序列进行ARIMA模型匹配定阶,执行步骤1.6;
步骤1.6:采用时间序列方法预测下一时刻文件fv的访问热度;
步骤1.7:采用向上取整方式预测文件fv的副本个数
Figure FDA0002955807860000011
当预测的文件的副本个数小于等于3时,保持该预测文件的副本数为3,若预测的文件的副本个数大于3时,增加该预测的文件的副本个数为
Figure FDA0002955807860000012
步骤1.8:若预测的文件的副本个数增加,则执行步骤2;否则,执行步骤3;
步骤2:基于多文件访问关联性对预测的热点文件进行动态副本放置;
步骤2.1:根据文件访问日志表,计算任意两个文件fi和fj的访问关联度cor(fi,fj);
步骤2.2:以具有访问关联性的副本放置后总的通信代价最小、同一文件的副本放置在通信代价较大的节点上为优化目标,构建考虑多文件访问关联性的热点文件动态副本放置问题的数学模型;
步骤2.3:基于改进遗传算法求解热点文件动态副本放置问题的数学模型,得到最优的副本放置方案Y;
步骤3:根据需要删除副本的文件对副本进行删除操作;
步骤3.1:根据需要删除副本的文件V,通过文件信息表,获得需要删除副本的文件V所有不同副本的集合VRC;
步骤3.2:对集合VRC中的副本文件按照访问热度从低到高排序;
步骤3.3:删除集合VRC中访问热度最低的文件副本;
步骤3.4:判断目前集合VRC中的副本个数是否减少到所预测的副本个数,若是则停止;否则返回步骤3.3。
2.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法,其特征在于,所述文件fv的访问热度
Figure FDA0002955807860000021
公式如下所示:
Figure FDA0002955807860000022
其中,
Figure FDA0002955807860000023
为一段时间间隔time内的文件fv访问次数,λ为访问次数的经验临界值。
3.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法,其特征在于,所述时间序列文件A的逻辑结构表示为Log=<row,T,D,fv>,其中,T={t1,t2,t3,...tx}为时间序列,x为访问热度观测时刻,row为时间序列文件中的行号,
Figure FDA0002955807860000024
为文件访问热度集合,fv为文件名称。
4.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法,其特征在于,所述预测的文件fv的副本个数
Figure FDA0002955807860000025
的计算公式如下所示:
Figure FDA0002955807860000026
其中,
Figure FDA0002955807860000027
为经验值常量,
Figure FDA0002955807860000028
为向上取整符号。
5.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法,其特征在于,
所述任意两个文件fi和fj的访问关联度cor(fi,fj)的计算公式如下所示:
Figure FDA0002955807860000029
其中,WTime为时间间隔time的时间权重,取值为0~1,NTime(fi,fj)为时间间隔time内文件fi和fj被同一应用访问的次数,N(fi)为文件fi被访问的次数,N(fj)为文件fj被访问的次数。
6.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法,其特征在于,所述考虑多文件访问关联性的热点文件动态副本放置问题的数学模型的计算公式如下所示:
Figure FDA0002955807860000031
其中,COR(bh,bh′)为副本bh和副本bh′的访问关联度,即副本bh所在文件和副本bh′所在文件的访问关联度,parallel(bh,bh′)为副本bh和副本bh′的并发度,bh、bh′∈B={b1,b2,...,bh}为需增加副本的文件块构成集合,m为需增加副本文件块个数,若副本bh和副本bh′属于同一个文件,则COR(bh,bh′)=0、parallel(bh,bh′)=0,COST(nodew,nodew′)为节点nodew和节点nodew′间的网络通信代价,nodew、nodew′∈NODE={node1,node2,....noder}为可放置副本的节点集合,Capacity(nodew)为剩余存储空间大小,Y={yhw,...,yh′w′,...,}为副本放置方案,yhw=1表示副本bh放置到节点nodew上,yhw=0表示副本bh未放置到节点nodew上,size(bh)表示数据块bh的大小。
7.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法,其特征在于,所述步骤2.3包括以下步骤:
步骤2.3.1:染色体编码并初始化第一代种群,设定种群规模、适应度函数,设置迭代阈值;
所述染色体编码采取如下方式:每个基因位对应副本放置方案Y中的一个元素,并采用随机初始化方式填补基因位,得到NN个基因;
所述适应度函数如下所示:
Figure FDA0002955807860000032
其中,α、β、γ为系统常量;
步骤2.3.2:产生下一代种群:对上一代基因进行适应度评价,选择适应度排在K位以前的基因为精英基因,得到K个基因,对上一代基因中的非精英基因进行交叉变异操作,得到K′个基因,对所得到的K+K′个基因进行密度聚类,淘汰在聚类边界的K″个基因,即距离簇中心点较远的基因,将得到的K+K′-K″个基因遗传到下一代;
步骤2.3.3:判断迭代次数是否达到预先设置迭代阈值,若是,对所得到的种群中的所有基因进行适应度计算,保留适应度最大的基因,即得到的最优的副本放置方案Y,执行步骤3,否则,返回步骤2.3.1。
CN201810255610.4A 2018-03-27 2018-03-27 一种基于文件访问热度的hdfs副本管理方法 Expired - Fee Related CN108363643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810255610.4A CN108363643B (zh) 2018-03-27 2018-03-27 一种基于文件访问热度的hdfs副本管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810255610.4A CN108363643B (zh) 2018-03-27 2018-03-27 一种基于文件访问热度的hdfs副本管理方法

Publications (2)

Publication Number Publication Date
CN108363643A CN108363643A (zh) 2018-08-03
CN108363643B true CN108363643B (zh) 2021-06-15

Family

ID=63001525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810255610.4A Expired - Fee Related CN108363643B (zh) 2018-03-27 2018-03-27 一种基于文件访问热度的hdfs副本管理方法

Country Status (1)

Country Link
CN (1) CN108363643B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109542678B (zh) * 2018-11-07 2021-12-17 郑州云海信息技术有限公司 一种服务器关键信息定时备份方法及装置
CN109766318B (zh) * 2018-12-17 2021-03-02 新华三大数据技术有限公司 文件读取方法及装置
CN109918229B (zh) * 2019-02-18 2021-03-30 国家计算机网络与信息安全管理中心 非日志模式的数据库集群副本构建方法及装置
CN110209693A (zh) * 2019-05-10 2019-09-06 苏宁云计算有限公司 高并发数据查询方法、装置、系统、设备及可读存储介质
CN110351374B (zh) * 2019-07-16 2022-04-01 深圳市网心科技有限公司 一种文件部署方法、装置及设备
CN111475108B (zh) * 2020-03-20 2023-11-28 深圳赛安特技术服务有限公司 一种分布式存储方法、计算机设备及计算机可读存储介质
CN113434492A (zh) * 2021-06-21 2021-09-24 青岛海尔科技有限公司 数据的检测方法、装置、存储介质和电子装置
CN115544377B (zh) * 2022-11-25 2023-04-07 浙江星汉信息技术股份有限公司 基于云端存储的档案的热度评估和更新方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838860A (zh) * 2014-03-19 2014-06-04 华存数据信息技术有限公司 一种基于动态副本策略的文件存储系统及其存储方法
CN107276781A (zh) * 2016-04-07 2017-10-20 中国科学院声学研究所 一种带存储的路由器扩展内容分发网络的预部署方法
CN107463606A (zh) * 2017-06-22 2017-12-12 浙江力石科技股份有限公司 一种用于大数据存储系统的数据压缩引擎及方法
CN107770259A (zh) * 2017-09-30 2018-03-06 武汉理工大学 基于文件热度和节点负载的副本数量动态调整方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838860A (zh) * 2014-03-19 2014-06-04 华存数据信息技术有限公司 一种基于动态副本策略的文件存储系统及其存储方法
CN107276781A (zh) * 2016-04-07 2017-10-20 中国科学院声学研究所 一种带存储的路由器扩展内容分发网络的预部署方法
CN107463606A (zh) * 2017-06-22 2017-12-12 浙江力石科技股份有限公司 一种用于大数据存储系统的数据压缩引擎及方法
CN107770259A (zh) * 2017-09-30 2018-03-06 武汉理工大学 基于文件热度和节点负载的副本数量动态调整方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于热度分析的动态副本创建算法;饶磊等;《计算机应用》;20141215;第130-134 *

Also Published As

Publication number Publication date
CN108363643A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
CN108363643B (zh) 一种基于文件访问热度的hdfs副本管理方法
CN108009016B (zh) 一种资源负载均衡控制方法及集群调度器
CN109582758B (zh) 一种Elasticsearch索引分片优化方法
CN103425756B (zh) 一种hdfs中数据块的副本管理策略
CN111507032A (zh) 基于深度学习技术预测温度分布的组件布局优化设计方法
CN108418858B (zh) 一种面向Geo-distributed云存储的数据副本放置方法
CN104731528B (zh) 一种云计算块存储服务的构建方法及系统
CN105227645A (zh) 一种云数据迁移方法
CN108255427B (zh) 一种数据存储和动态迁移方法及装置
CN111258980B (zh) 一种云存储系统中基于组合预测的动态文件放置方法
CN107566535B (zh) 基于Web地图服务并发访问时序规则的自适应负载均衡方法
CN108416054A (zh) 基于文件访问热度的动态hdfs副本个数计算方法
CN109951875A (zh) 基于内容流行度预测的缓存方法、装置、设备和介质
CN113568759A (zh) 一种基于云计算的大数据处理方法及其系统
Kamali et al. Dynamic data allocation with replication in distributed systems
CN1658560A (zh) 一种基于预测的快速数据复制方法
JP2021158591A (ja) 制御量算出装置及び制御量算出方法
CN116862025A (zh) 模型训练方法、系统、客户端和服务器节点、电子设备和存储介质
Taheri et al. Genetic algorithm in finding Pareto frontier of optimizing data transfer versus job execution in grids
US20200314019A1 (en) Managing bandwidth based on user behavior
CN116389255A (zh) 一种改进双深度q网络的服务功能链部署方法
CN111598390B (zh) 服务器高可用性评估方法、装置、设备和可读存储介质
Mays et al. Decentralized data allocation via local benchmarking for parallelized mobile edge learning
CN103888373B (zh) 一种网络节点的副本文件存储容量的调整方法和装置
CN108256694A (zh) 基于重复遗传算法的模糊时间序列预测系统、方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210615

CF01 Termination of patent right due to non-payment of annual fee