CN108363643B

CN108363643B - 一种基于文件访问热度的hdfs副本管理方法

Info

Publication number: CN108363643B
Application number: CN201810255610.4A
Authority: CN
Inventors: 代钰; 杨雷; 郝琪; 李学学; 张斌
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2021-06-15
Anticipated expiration: 2038-03-27
Also published as: CN108363643A

Abstract

本发明提出一种基于文件访问热度的HDFS副本管理方法，基于文件访问热度计算文件的副本数量；基于多文件访问关联性对预测的热点文件进行动态副本放置；据需要删除副本的文件对副本进行删除操作；本发明方法利用时间序列分析方法对文件访问热度进行预测，并给出文件访问热度的计算公式以及副本个数的计算公式，能够支持动态热点文件副本个数的调整，解决热点文件的访问瓶颈的问题，提高集群的服务效率。

Description

一种基于文件访问热度的HDFS副本管理方法

技术领域

本发明属于大数据分析与数据挖掘技术领域，具体涉及一种基于文件访问热度的HDFS副本管理方法。

背景技术

随着Web技术的发展，大量数据也随之产生，面对海量数据的存储和分析等相关问题，云存储、云计算、大数据分析和数据挖掘等相关概念也被相应提出。目前来说，在大数据背景下，Apache Hadoop已经成为了分布式大数据处理技术的参考框架，能够有效提高海量数据处理的效率。在Hadoop框架中，数据副本管理技术一直以来都是研究的热点与难点。尽管在HDFS数据副本管理方面目前已经开展了大量的研究工作，但是如何设置合适的副本个数以适应文件访问热度的变化，同时如何放置副本以优化集群负载仍是需要研究并解决的关键问题。

针对HDFS的副本管理问题，有两大关键点很值得研究，一是HDFS上文件的副本个数的问题，二是其上文件的副本放置的问题。HDFS默认的副本个数并不适用于所有应用，没有考虑到文件访问是一个变化的过程，某些文件仅在某一个时间段内会发生访问量突增或者突降的情况。HDFS默认的副本放置方法是在靠近客户端的机架上选择两个节点，其他机架选择一个DataNode节点进行文件的副本放置，但是这些方法并没有根据具体的应用，考虑到文件之间的Join访问关联性问题和节点上文件访问热度的负载情况，这些都严重影响集群的性能。对于以上问题，本发明展开了对HDFS副本管理方法的研究，提出了基于文件访问热度的HDFS副本管理方法及工具。并且开展了一系列的实验，对所提出的方法和相关算法进行了测试，实验结果表明本发明提出的方法使集群的并发性、任务执行的效率和集群的负载均衡情况上都有了很大的提高。

发明内容

针对现有技术的不足，本发明提出一种基于文件访问热度的HDFS副本管理方法，包括以下步骤：

步骤1：基于文件访问热度计算文件的副本数量；

步骤1.1：根据文件访问日志表，统计一段时间间隔time内的文件访问次数，确定文件访问热度；

所述文件f_v的访问热度

公式如下所示：

其中，

为一段时间间隔time内的文件f_v访问次数，λ为访问次数的经验临界值。

步骤1.2：建立矩阵形式的时间序列和文件访问热度的对应关系的时间序列文件A；

所述时间序列文件A的逻辑结构表示为Log＝＜row，T，D，f_v＞，其中，T＝{t₁，t₂，t₃，...t_x}为时间序列，x为访问热度观测时刻，row为时间序列文件中的行号，

为文件访问热度集合，f_v为文件名称。

步骤1.3：逐行提取时间序列文件A中文件f_v的访问热度，进行时间序列分析，对时间序列进行单根检验，判断所提取的文件的访问热度序列是否稳定，若是，执行步骤1.4，否则，执行步骤1.5；

步骤1.4：对平稳的时间序列进行ARMA模型匹配定阶，执行步骤1.6；

步骤1.5：对非稳定的时间序列进行ARIMA模型匹配定阶，执行步骤1.6；

步骤1.6：采用时间序列方法预测下一时刻文件f_v的访问热度；

步骤1.7：采用向上取整方式预测文件f_v的副本个数

当预测的文件的副本个数小于等于3时，保持该预测文件的副本数为3，若预测的文件的副本个数大于3时，增加该预测的文件的副本个数为

所述预测的文件f_v的副本个数

的计算公式如下所示：

其中，

为经验值常量，

为向上取整符号。

步骤1.8：若预测的文件的副本个数增加，则执行步骤2；否则，执行步骤3；

步骤2：基于多文件访问关联性对预测的热点文件进行动态副本放置；

步骤2.1：根据文件访问日志表，计算任意两个文件f_i和f_j的访问关联度cor(f_i，f_j)；

所述任意两个文件f_i和f_j的访问关联度cor(f_i，f_j)的计算公式如下所示：

其中，W_Time为时间间隔time的时间权重，取值为0～1，N_Time(f_i，f_j)为时间间隔time内文件f_i和f_j被同一应用访问的次数，N(f_i)为文件f_i被访问的次数，N(f_j)为文件f_j被访问的次数。

步骤2.2：以具有访问关联性的副本放置后总的通信代价最小、同一文件的副本放置在通信代价较大的节点上为优化目标，构建考虑多文件访问关联性的热点文件动态副本放置问题的数学模型；

所述考虑多文件访问关联性的热点文件动态副本放置问题的数学模型的计算公式如下所示：

其中，COR(b_h，b_h′)为副本b_h和副本b_h′的访问关联度，即副本b_h所在文件和副本b_h′所在文件的访问关联度，parallel(b_h，b_h′)为副本b_h和副本b_h′的并发度，b_h、b_h′∈B＝{b₁，b₂，...，b_m}为需增加副本的文件块构成集合，m为需增加副本文件块个数，若副本b_h和副本b_h′属于同一个文件，则COR(b_h，b_h′)＝0、parallel(b_h，b_h′)＝0，COST(node_w，node_w′)为节点node_w和节点node_w′间的网络通信代价，node_w、node_w′∈NODE＝{node₁，node₂，....node_r}为可放置副本的节点集合，Capacity(node_w)为剩余存储空间大小，Y＝{y_hw，...，y_h′w′，...，}为副本放置方案，y_hw＝1表示副本b_h放置到节点node_w上，y_hw＝0表示副本b_h未放置到节点node_w上，size(b_h)表示数据块b_h的大小。

步骤2.3：基于改进遗传算法求解热点文件动态副本放置问题的数学模型，得到最优的副本放置方案Y；

步骤2.3.1：染色体编码并初始化第一代种群，设定种群规模、适应度函数，设置迭代阈值；

所述染色体编码采取如下方式：每个基因位对应副本放置方案Y中的一个元素，并采用随机初始化方式填补基因位，得到NN个基因；

所述适应度函数如下所示：

其中，α、β、γ为系统常量；

步骤2.3.2：产生下一代种群：对上一代基因进行适应度评价，选择适应度排在K位以前的基因为精英基因，得到K个基因，对上一代基因中的非精英基因进行交叉变异操作，得到K′个基因，对所得到的K+K′个基因进行密度聚类，淘汰在聚类边界的K″个基因，即距离簇中心点较远的基因，将得到的K+K′-K″个基因遗传到下一代；

步骤2.3.3：判断迭代次数是否达到预先设置迭代阈值，若是，对所得到的种群中的所有基因进行适应度计算，保留适应度最大的基因，即得到的最优的副本放置方案Y，执行步骤3，否则，返回步骤2.3.1。

步骤3：根据需要删除副本的文件对副本进行删除操作；

步骤3.1：根据需要删除副本的文件V，通过文件信息表，获得需要删除副本的文件V所有不同副本的集合VRC；

步骤3.2：对集合VRC中的副本文件按照访问热度从低到高排序；

步骤3.3：删除集合VRC中访问热度最低的文件副本；

步骤3.4：判断目前集合VRC中的副本个数是否减少到所预测的副本个数，若是则停止；否则返回步骤3.3。

本发明的有益效果：

本发明提出一种基于文件访问热度的HDFS副本管理方法，本发明方法利用时间序列分析方法对文件访问热度进行预测，并给出文件访问热度的计算公式以及副本个数的计算公式，能够支持动态热点文件副本个数的调整，解决热点文件的访问瓶颈的问题，提高集群的服务效率。针对热点文件新增副本的放置问题，考虑了文件间访问关联度以及单个文件并发访问度问题，以减少关联副本访问通信代价和提高同一文件访问并发性为目标，建立了副本放置问题的数学模型，并给出了一种改进的带有精英策略的遗传算法实现对该问题的求解。该遗传算法对该问题求解进行了染色体编码，同时，给出了一种基于密度聚类的基因评价，将距离聚类中心点较远的基因淘汰出去，从而能够提高收敛速度。

附图说明

图1为本发明具体实施方式中基于文件访问热度的HDFS副本管理方法的流程图；

图2为本发明具体实施方式中根据改进的遗传算法对副本放置问题求解得到多目标优化结果；

图3为本发明具体实施方式中与Hadoop默认的保持3个副本的策略时的副本响应时间进行对比实验结果；

图4为本发明具体实施方式中采用默认副本放置策略和本发明考虑文件关联度的副本放置策略相同时间的作业完成度进行对比实验结果；

图5为本发明具体实施方式中采用默认副本放置策略和本发明考虑文件关联度的副本放置策略集群中放置文件副本的节点负载对比实验结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

一种基于文件访问热度的HDFS副本管理方法，如图1所示，包括以下步骤：

步骤1：基于文件访问热度计算文件的副本数量。

步骤1.1：根据文件访问日志表，统计一段时间间隔time内的文件访问次数，确定文件访问热度。

所述文件f_v的访问热度

公式如式(1)所示：

其中，

为一段时间间隔time内的文件f_v访问次数，λ为访问次数的经验临界值，可以设置为一段时间间隔time的所有文件的平均访问次数。

步骤1.2：建立矩阵形式的时间序列和文件访问热度的对应关系的时间序列文件A。

为文件访问热度集合，f_v为文件名称；

步骤1.3：逐行提取时间序列文件A中文件f_v的访问热度，进行时间序列分析，对时间序列进行单根检验，判断所提取的文件的访问热度序列是否稳定，若是，执行步骤1.4，否则，执行步骤1.5。

步骤1.4：对平稳的时间序列进行ARMA模型匹配定阶，执行步骤1.6。

步骤1.5：对非稳定的时间序列进行ARIMA模型匹配定阶，执行步骤1.6。

步骤1.6：采用时间序列方法预测下一时刻文件f_v的访问热度。

步骤1.7：采用向上取整方式预测文件f_v的副本个数

所述预测的文件f_v的副本个数

的计算公式如式(2)所示：

其中，

为经验值常量，

为向上取整符号。

步骤1.8：若预测的文件的副本个数增加，则执行步骤2；否则，执行步骤3。

步骤2：基于多文件访问关联性对预测的热点文件进行动态副本放置。

步骤2.1：根据文件访问日志表，计算任意两个文件f_i和f_j的访问关联度cor(f_i，f_j)。

所述任意两个文件f_i和f_j的访问关联度cor(f_i，f_j)的计算公式如式(3)所示：

步骤2.2：以具有访问关联性的副本放置后总的通信代价最小、同一文件的副本放置在通信代价较大的节点上为优化目标，构建考虑多文件访问关联性的热点文件动态副本放置问题的数学模型。

所述考虑多文件访问关联性的热点文件动态副本放置问题的数学模型的计算公式如式(4)所示：

步骤2.3：基于改进遗传算法求解热点文件动态副本放置问题的数学模型，得到最优的副本放置方案Y。

步骤2.3.1：染色体编码并初始化第一代种群，设定种群规模、适应度函数，设置迭代阈值。

所述染色体编码采取如下方式：每个基因位对应副本放置方案Y中的一个元素，并采用随机初始化方式填补基因位，得到种群规模2N个基因。

所述适应度函数如式(5)所示：

其中，α、β、γ为系统常量。

步骤2.3.2：产生下一代种群：对上一代基因进行适应度评价，选择适应度排在K位以前的基因为精英基因，得到K个基因，对上一代基因中的非精英基因进行交叉变异操作，得到K′个基因，对所得到的K+K′个基因进行密度聚类，淘汰在聚类边界的K″个基因，即距离簇中心点较远的基因，将得到的K+K′-K″个基因遗传到下一代。

本实施方式中，实验模拟对flu.txt文件新增副本放置到在30个节点上过程，在放置时考虑与flu.txt访问关联的patients.txt文件及候选节点上负载因素，输入网络的拓扑结构、flu.txt文件与patients.txt文件的访问关联度、flu.txt文件的新增副本个数及访问热度等相关信息，验证算法的有效性与收敛性。改进的遗传算法配置参数如表1所示：

表1改进的遗传算法配置参数表

本实施方式中，根据改进的遗传算法对副本放置问题求解得到多目标优化结果如图2所示。

由图2可见，从规模为2N的副本放置方案中选择保留的方案时，由于改进的精英策略过程，对方案进行了密度聚类使得算法的收敛速度变慢，但是因为此策略淘汰掉“极端”或重复方案，使规模为2N的副本方案中多样性得到增强，避免遗传算法陷入局部最优解。同时验证了改进后算法的收敛性。

该实验采用Jmeter压力测试工具模仿对热点文件flu.txt的高并发情况，Jmeter压力测试工具可以对静态资源和动态资源的性能进行测试，如它可以用在对服务器、网络的负载来测试在不同的压力或强度下的整体性能，客户端通过提交对flu.txt文件执行MapReduce操作，使得文件的访问热度增加，通过构建时间-访问热度序列进行预测访问热度并计算副本的个数，调整flu.txt的副本个数。在相同的访问热度下，与Hadoop默认的保持3个副本的策略时的副本响应时间进行对比实验，可以得到图3的实验对比图。

由图3可知，采用Hadoop默认的为文件保持3个副本时，在访问热度不大时，副本的响应时间增长比较缓慢，但随着flu.txt文件的访问热度的增大，此时3个副本无法应对高访问量，所以副本的响应时间也快速增长。而考虑访问热度因素对副本个数进行调整的策略，在flu.txt访问热度增加前，通过预测flu.txt的访问热度并计算副本个数，并对其增加相应的副本个数，使得副本的响应时间随着访问热度增加而增加到一定的峰值便开始下降，因为此时有更多的副本来响应请求，使得副本的响应时间开始下降。由于增加副本时需要消耗一定的时间，所以在访问热度不大时增加副本的个数，比默认策略消耗的时间更多一点，但增加副本消耗的时间比重会越来越小，使采用改进后策略后，副本的响应时间是明显减少的。

该实验，考虑patient.txt文件和flu.txt的访问关联性及节点负载，将这两个文件放在距离较近的节点上，与Hadoop默认的随机选择节点进行放置的策略作对比实验。其中，patient.txt记录病人的信息(姓名，年龄，病症)，flu.txt记录病症的具体信息(病症，感冒等级)，对这两个文件进行MapReduce操作(统计感冒等级为2的病人数量)，对两种策略下，相同时间的作业完成度进行对比实验，得到如图4的对比实验图。

由图4可见，Hadoop默认的节点选择，使得具有访问关联性的文件随机存放，由此数据间的通信代价也比较高。改进的副本放置中，由于将具有访问关联性的文件放在较近的节点上，使在执行MapReduce任务时，数据间的通信代价降低，因此可以在较短时间内完成作业。证明考虑文件间访问关联度选择较近节点存放的方法是有效的。

该实验，对考虑文件间访问关联度和节点负载因素将副本放置到节点上，各个节点的访问热度负载与最高访问热度之比作为节点负载，对此副本放置方案的节点负载与默认的副本放置方案的节点负载作对比实验。利用文件信息表及文件-数据块信息表，得到文件对应的数据块和副本所在的datanode节点，然后由作业执行信息表得到作业与所需文件的关系，计算得到节点上的副本的访问热度。得到如图5对比实验图。

由图5可知，Hadoop默认的副本放置方法，使得节点间的负载相差较大，会造成有的节点上放置文件的副本过多，而有的节点则过少，使集群负载不均衡。采用改进后的副本放置方法，考虑到节点上文件的访问热度均衡等因素进行副本放置，使得集群中放置文件副本的节点负载比较均衡，可以提高集群的整体性能。

步骤3：根据需要删除副本的文件对副本进行删除操作。

步骤3.3：删除集合VRC中访问热度最低的文件副本；

Claims

1.一种基于文件访问热度的HDFS副本管理方法，其特征在于，包括以下步骤：

步骤1：基于文件访问热度计算文件的副本数量；

步骤1.7：采用向上取整方式预测文件f_v的副本个数

步骤3：根据需要删除副本的文件对副本进行删除操作；

步骤3.3：删除集合VRC中访问热度最低的文件副本；

2.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法，其特征在于，所述文件f_v的访问热度

公式如下所示：

其中，

3.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法，其特征在于，所述时间序列文件A的逻辑结构表示为Log＝<row，T，D，f_v>，其中，T＝{t₁，t₂，t₃，...t_x}为时间序列，x为访问热度观测时刻，row为时间序列文件中的行号，

为文件访问热度集合，f_v为文件名称。

4.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法，其特征在于，所述预测的文件f_v的副本个数

的计算公式如下所示：

其中，

为经验值常量，

为向上取整符号。

5.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法，其特征在于，

6.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法，其特征在于，所述考虑多文件访问关联性的热点文件动态副本放置问题的数学模型的计算公式如下所示：

其中，COR(b_h，b_h′)为副本b_h和副本b_h′的访问关联度，即副本b_h所在文件和副本b_h′所在文件的访问关联度，parallel(b_h，b_h′)为副本b_h和副本b_h′的并发度，b_h、b_h′∈B＝{b₁，b₂，...，b_h}为需增加副本的文件块构成集合，m为需增加副本文件块个数，若副本b_h和副本b_h′属于同一个文件，则COR(b_h，b_h′)＝0、parallel(b_h，b_h′)＝0，COST(node_w，node_w′)为节点node_w和节点node_w′间的网络通信代价，node_w、node_w′∈NODE＝{node₁，node₂，....node_r}为可放置副本的节点集合，Capacity(node_w)为剩余存储空间大小，Y＝{y_hw，...，y_h′w′，...，}为副本放置方案，y_hw＝1表示副本b_h放置到节点node_w上，y_hw＝0表示副本b_h未放置到节点node_w上，size(b_h)表示数据块b_h的大小。

7.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法，其特征在于，所述步骤2.3包括以下步骤：

所述适应度函数如下所示：

其中，α、β、γ为系统常量；