CN108519856B

CN108519856B - 基于异构Hadoop集群环境下的数据块副本放置方法

Info

Publication number: CN108519856B
Application number: CN201810175672.4A
Authority: CN
Inventors: 吴奇石; 刘洋; 张晓阳; 侯爱琴; 王永强
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2018-03-02
Filing date: 2018-03-02
Publication date: 2020-10-27
Anticipated expiration: 2038-03-02
Also published as: CN108519856A

Abstract

本发明公开一种基于异构Hadoop集群环境下的数据块副本放置方法，该方法对异构集群下的节点根据其性能参数进行分类，把得到的数据块热度预测结果，根据副本个数，依次放到各个节点上。本发明结合了多个因素来决定哪个数据块该放到哪个节点上，这样既提高了MapReduce性能，也减少了执行时间。

Description

基于异构Hadoop集群环境下的数据块副本放置方法

技术领域

本发明属于大数据分布式计算领域，涉及一种基于异构Hadoop集群环境下的数据块副本放置方法。

背景技术

在过去的十年来，Apache基金会研究的Hadoop平台已经成为最突出的处理大数据分析的开源框架。15年大多数IDC报告“Trends in Enterprise Hadoop Deployments”发现32％的公司已经应用Hadoop。另外，31％的公司计划在12个月内部署Hadoop。不仅在企业计算，Hadoop还在HPC(high performance computing)群体中获得稳步的动力。在众多的云计算产品中，Hadoop凭借其高可靠性、高可扩展性、高效性以及低成本、开源等特性，成为越来越多互联网公司海量数据首选解决方案，并已经将Hadoop投入到实际产业应用当中。Hadoop主要包括MapReduce分布式计算框架和HDFS分布式文件系统两个部分。Hadoop的框架还不是很成熟，有许多方面尚待优化和改进。其中，数据放置及如何存储管理便是困扰HDFS使用者已久的问题。

由于MapReduce“移动计算比移动数据更划算”的设计思想，数据本地化成为分布式存储的核心问题。然而，在异构环境下，数据要求执行一个task通常是非本地的，这个就影响了Hadoop性能。在一个Hadoop默认环境下，每一个节点在同构集群下有同样的执行能力和硬盘容量，当数据写入HDFS时，数据会被分成许多同样大小的块，Hadoop会同等地平衡分布块的负载到每一个节点上，对于同构集群具有高效性和实用性。但在异构环境下，执行节点和硬盘容量是不一样的。高执行能力的节点要比低执行能力的节点完成本地数据块的task快得多，所以对于异构集群可能会需要额外的资源对数据块进行移动，那么将会导致更高的额外花费以及降低Hadoop的性能。

Hadoop默认的数据放置策略对于同构集群来说对系统性能有很大益处，能使得各个节点的性能发挥到最佳。但这种静态的副本放置策略对于需要根据用户需求、系统资源、存储空间等做出策略上的变化时存在一定的缺陷。即对异构集群环境下的节点，会导致各种状况，比如系统源使用率低、节点负载不均衡、执行速率低、容错性不高、通信负载，甚至会导致节点崩溃。

发明内容

针对上述同构Hadoop集群下存在的缺陷和不足，本发明的目的在于，提供一种基于异构Hadoop集群环境下的数据块副本放置方法，该方法可以根据异构集群下性能各异的节点来存放数据块，达到提高集群的性能，还能减少MapReduce task的执行时间。

为了实现上述目的，本发明采用如下技术方案：

基于异构Hadoop集群环境下的数据块副本放置方法，Hadoop集群中包括M个节点，该方法用于将数据块的新增副本放置到节点上，包括以下步骤：

步骤1，在第n个时间周期Tn内，n为大于0的整数，对多个数据块采用基于灰度预测模型的预测方法进行热度预测，得到在该时间周期Tn内每个数据块的总访问率；

步骤2，识别第n个时间周期Tn内的需要新增副本的数据块；

步骤3，计算需要新增副本的每个数据块的新增副本数，并将该数据块复制多次，数据块的复制次数与新增副本数相同，得到多个新增副本；

步骤4，计算Hadoop集群中每个节点的性能分数，按照性能分数由高到低对节点进行排序，得到节点序列[B₁，B₂，…B_m，…B_M]，其中，B_m表示节点序列中的第m个节点，M表示节点总数；

步骤5，将步骤2中需要新增副本的数据块按照总访问率由高到低进行排序，得到数据块序列[A₁，A₂，…A_i，…A_I]，其中，A_i表示数据块序列中的第i个数据块，I表示具有新增副本的数据块的总数；

步骤6，由前到后逐一选取数据块序列中的数据块，将选取到的数据块的所有新增副本放置到节点序列的RN个节点上；具体采用的方法如下：

记数据块A_i-1的最后一个新增副本放置在节点B_m上，则数据块A_i的第一个新增副本放置到节点B_m+p,(1≤p≤M-m)上，节点B_m+p上未放置属于数据块A_i的任一原始副本；

数据块A_i的下一个新增副本放置到节点B_m+q,(p<q≤M-p)上，节点B_m+q上未放置属于数据块A_i的任一原始副本；直至数据块A_i的所有新增副本均放置到相应节点上。

可选地，所述步骤2中的识别第n个时间周期Tn内的需要新增副本的数据块；采用的方法如下：

对于第i个数据块，若第n个时间周期Tn内第i个数据块的平均访问率

第n个时间周期Tn内集群的平均访问率AP^Tn,则该第i个数据块需要新增副本，否则，该第i个数据块不需要新增副本；

其中，第n个时间周期Tn内第i个数据块的平均访问率

采用如下公式计算：

上式中，

表示第n个时间周期Tn内第i个数据块的热度，

表示第j个时间周期Tj内第i个数据块的总访问率；

所述第n个时间周期Tn内第i个数据块的热度

也可采用如下公式计算：

其中，

表示第n个时间周期Tn内第i个数据块的总访问率,

表示第n-1个时间周期T(n-1)内第i个数据块的热度。

可选地，步骤3中的新增副本数RN的计算方法如下：

第i个数据块的新增副本数用RN_i表示，采用如下公式计算：

其中，

为第n个时间周期Tn内第i个数据块的平均访问率，AP^Tn为第n个时间周期Tn内Hadoop集群的平均访问率。

可选地，所述步骤4中的计算每个节点的性能分数，采用的方法如下：

对于第k个节点，该节点的性能分数用score_k表示，采用如下公式计算：

上式中，

表示归一化后的第k个节点的计算能力，

其中，cc_k表示第k个节点的计算能力，cc_min表示所有节点的计算能力的最小值，cc_max表示所有节点的计算能力的最大值；

表示归一化后的第k个节点的磁盘大小，

其中，hs_k表示第k个节点的磁盘大小，hs_min表示所有节点的磁盘大小的最小值，hs_max表示所有节点的磁盘大小的最大值；

表示归一化后的第k个节点的读写速度，

其中，iops_k表示第k个节点的读写速度，iops_min表示所有节点的读写速度的最小值，iops_max示所有节点的读写速度的最大值。

可选地，所述步骤6中的数据块A_i的第一个新增副本放置到节点B_m+p,(1≤p≤M-m)上，具体方法如下：

若节点B_m+p的剩余存储空间满足数据块A_i的存储要求，则将数据块A_i的第一个新增副本直接放置到节点B_m+p上；若节点B_m+p的剩余存储空间不满足数据块A_i的存储要求，则将节点B_m+p上放置的访问率最低的数据块对应的原始副本中的一个删除，再将数据块A_i的第一个新增副本放置到节点B_m+p上。

与现有技术相比，本发明具有以下技术效果：对异构集群下的节点根据其性能参数进行分类，把得到的数据块热度预测结果，根据副本个数，依次放到各个节点上。本发明结合了多个因素来决定哪个数据块该放到哪个节点上，这样既提高了MapReduce性能，也减少了执行时间。

附图说明

图1是10个时间段下的数据访问率示意图；

图2是异构集群下的副本动态变化图；

图3是采用本发明的方法和静态默认策略下，平均job完成时间对比结果图。

具体实施方式

本发明提供一种基于异构Hadoop集群环境下的数据块副本放置方法，多个文件被分成多个数据块，默认的每个数据块的原始副本有3个，3个原始副本按照静态放置策略被放置在相应节点上，本发明的方法用于对需要新增副本的数据块进行复制，得到新增副本，并将新增副本放置到Hadoop集群的相应节点上，具体包括以下步骤：

步骤1，在第n个时间周期Tn内，n为大于0的整数，对多个数据块采用基于灰度预测模型的预测方法进行热度预测，得到在该时间周期Tn内每个数据块的总访问率。

步骤2，识别第n个时间周期Tn内的需要新增副本的数据块；

步骤4，计算Hadoop集群中每个节点的性能分数，按照性能分数由高到低对节点进行排序，得到节点序列[B₁，B₂，…B_m，…B_M]，其中，M表示节点总数。

步骤5，将步骤2中需要新增副本的数据块按照总访问率由高到低进行排序，得到数据块序列[A₁，A₂，…A_i，…A_I]，其中，I表示具有新增副本的数据块的总数；

步骤6，由前到后逐一选取数据块序列中的数据块，将选取到的数据块的所有新增副本放置到节点序列的RN个节点上，具体采用的方法如下：

数据块序列中的数据块A_i具有RN(A_i)个新增副本，数据块序列中的数据块A_i-1具有RN(A_i-1)个新增副本，记数据块A_i-1的最后一个新增副本放置在节点B_m上，则数据块A_i的第一个新增副本放置到节点B_m+p,(1≤p≤M-m)上，节点B_m+p上未放置属于数据块A_i的任一原始副本；

数据块A_i的下一个新增副本放置到节点B_m+q,(p<q≤M-p)上，节点B_m+q上未放置属于数据块A_i的任一原始副本；直至数据块的所有新增副本均放置到相应节点上。

具体地，在又一实施例中，步骤2中的识别第n个时间周期Tn内的需要新增副本的数据块；采用的方法如下：

第n个时间周期Tn内集群的平均访问率AP^Tn,则该第i个数据块需要新增副本，否则，该第i个数据块不需要新增副本。

其中，第n个时间周期Tn内第i个数据块的平均访问率

采用如下公式计算：

上式中，

表示第n个时间周期Tn内第i个数据块的热度，

表示第j个时间周期Tj内第i个数据块的总访问率。

可选地，在本实施例中，

也可采用如下公式计算：

其中，

表示第n个时间周期Tn内第i个数据块的总访问率,

表示第n-1个时间周期T(n-1)内第i个数据块的热度。

其中，第n个时间周期Tn内集群的平均访问率AP^Tn采用如下公式计算：

其中，

表示第n个时间周期Tn内第i个数据块的总访问率,N表示Hadoop集群内数据块的总数。

具体地，在又一实施例中，步骤3中的新增副本数RN的计算方法如下：

第i个数据块的新增副本数用RN_i表示，采用如下公式计算：

具体地，在又一实施例中，步骤4中的计算每个节点的性能分数，采用的方法如下：

上式中，

表示归一化后的第k个节点的计算能力，

表示归一化后的第k个节点的磁盘大小，

表示归一化后的第k个节点的读写速度，

具体地，在又一实施例中，所述步骤6中的数据块A_i的第一个新增副本放置到节点B_m+p,(1≤p≤M-m)上，具体方法如下：

实施例：

为了证明本发明的方法的可实施性，对提出的数据块的新增副本动态放置进行了实验验证。首先收集了HDFS日志记录里的数据访问请求记录作为我们的数据，共1000个数据块。实验环境是四个不同类型的服务器组成，一共四个机架。机架之间是通过交换机进行通信。数据块默认大小是128M。1个NameNode和39个DataNodes。虚拟机类型是VMwareWorkstation 12.0，Ubuntu 14.04LTS。在Hadoop-2.7.3版本上对数据块访问率、每一个数据块的副本决策以及动态数据副本放置策略进行实施案例的评估工作。

基于灰度预测模型对1000个数据块在10个时间段进行热度预测，如图1是对一个数据块及其原始副本在10个时间段(大约两天)下的数据访问率。表明数据热度不仅由访问率决定，还跟一定时间段内的请求次数相关联。

通过对热点数据副本数的动态实时计算，如图2可以看出动态数据放置策略(Dynamic Replica Number)下的副本数是随时间逐渐变化的，数据副本数是随着用户访问竞争的增加而增加，这样就降低了访问竞争率并提高了job执行时间。访问率低的副本数也就相应减少，减少了存储空间的浪费。而静态数据放置策略(Default Replica Number)下的副本因子是3，明显没有本发明的方法的性能好。

图3是默认的数据放置策略(Default)和本发明的方法，作业完成时间的比较，数据访问率少的话数据热度也就低了，同时数据块就为cold数据。可以看出这个时间段，静态放置策略的job执行时间没有太大变化，副本数也没有浮动。当数据热度变高，数据访问竞争率变高，副本数就变多来降低用户访问竞争率，可以明显的看出动态下的数据放置策略的执行时间要少于默认的数据放置策略。