CN108519856B - 基于异构Hadoop集群环境下的数据块副本放置方法 - Google Patents

基于异构Hadoop集群环境下的数据块副本放置方法 Download PDF

Info

Publication number
CN108519856B
CN108519856B CN201810175672.4A CN201810175672A CN108519856B CN 108519856 B CN108519856 B CN 108519856B CN 201810175672 A CN201810175672 A CN 201810175672A CN 108519856 B CN108519856 B CN 108519856B
Authority
CN
China
Prior art keywords
data block
node
time period
nodes
copies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810175672.4A
Other languages
English (en)
Other versions
CN108519856A (zh
Inventor
吴奇石
刘洋
张晓阳
侯爱琴
王永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern University
Original Assignee
Northwestern University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern University filed Critical Northwestern University
Priority to CN201810175672.4A priority Critical patent/CN108519856B/zh
Publication of CN108519856A publication Critical patent/CN108519856A/zh
Application granted granted Critical
Publication of CN108519856B publication Critical patent/CN108519856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0611Improving I/O performance in relation to response time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/065Replication mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Abstract

本发明公开一种基于异构Hadoop集群环境下的数据块副本放置方法,该方法对异构集群下的节点根据其性能参数进行分类,把得到的数据块热度预测结果,根据副本个数,依次放到各个节点上。本发明结合了多个因素来决定哪个数据块该放到哪个节点上,这样既提高了MapReduce性能,也减少了执行时间。

Description

基于异构Hadoop集群环境下的数据块副本放置方法
技术领域
本发明属于大数据分布式计算领域,涉及一种基于异构Hadoop集群环境下的数据块副本放置方法。
背景技术
在过去的十年来,Apache基金会研究的Hadoop平台已经成为最突出的处理大数据分析的开源框架。15年大多数IDC报告“Trends in Enterprise Hadoop Deployments”发现32%的公司已经应用Hadoop。另外,31%的公司计划在12个月内部署Hadoop。不仅在企业计算,Hadoop还在HPC(high performance computing)群体中获得稳步的动力。在众多的云计算产品中,Hadoop凭借其高可靠性、高可扩展性、高效性以及低成本、开源等特性,成为越来越多互联网公司海量数据首选解决方案,并已经将Hadoop投入到实际产业应用当中。Hadoop主要包括MapReduce分布式计算框架和HDFS分布式文件系统两个部分。Hadoop的框架还不是很成熟,有许多方面尚待优化和改进。其中,数据放置及如何存储管理便是困扰HDFS使用者已久的问题。
由于MapReduce“移动计算比移动数据更划算”的设计思想,数据本地化成为分布式存储的核心问题。然而,在异构环境下,数据要求执行一个task通常是非本地的,这个就影响了Hadoop性能。在一个Hadoop默认环境下,每一个节点在同构集群下有同样的执行能力和硬盘容量,当数据写入HDFS时,数据会被分成许多同样大小的块,Hadoop会同等地平衡分布块的负载到每一个节点上,对于同构集群具有高效性和实用性。但在异构环境下,执行节点和硬盘容量是不一样的。高执行能力的节点要比低执行能力的节点完成本地数据块的task快得多,所以对于异构集群可能会需要额外的资源对数据块进行移动,那么将会导致更高的额外花费以及降低Hadoop的性能。
Hadoop默认的数据放置策略对于同构集群来说对系统性能有很大益处,能使得各个节点的性能发挥到最佳。但这种静态的副本放置策略对于需要根据用户需求、系统资源、存储空间等做出策略上的变化时存在一定的缺陷。即对异构集群环境下的节点,会导致各种状况,比如系统源使用率低、节点负载不均衡、执行速率低、容错性不高、通信负载,甚至会导致节点崩溃。
发明内容
针对上述同构Hadoop集群下存在的缺陷和不足,本发明的目的在于,提供一种基于异构Hadoop集群环境下的数据块副本放置方法,该方法可以根据异构集群下性能各异的节点来存放数据块,达到提高集群的性能,还能减少MapReduce task的执行时间。
为了实现上述目的,本发明采用如下技术方案:
基于异构Hadoop集群环境下的数据块副本放置方法,Hadoop集群中包括M个节点,该方法用于将数据块的新增副本放置到节点上,包括以下步骤:
步骤1,在第n个时间周期Tn内,n为大于0的整数,对多个数据块采用基于灰度预测模型的预测方法进行热度预测,得到在该时间周期Tn内每个数据块的总访问率;
步骤2,识别第n个时间周期Tn内的需要新增副本的数据块;
步骤3,计算需要新增副本的每个数据块的新增副本数,并将该数据块复制多次,数据块的复制次数与新增副本数相同,得到多个新增副本;
步骤4,计算Hadoop集群中每个节点的性能分数,按照性能分数由高到低对节点进行排序,得到节点序列[B1,B2,…Bm,…BM],其中,Bm表示节点序列中的第m个节点,M表示节点总数;
步骤5,将步骤2中需要新增副本的数据块按照总访问率由高到低进行排序,得到数据块序列[A1,A2,…Ai,…AI],其中,Ai表示数据块序列中的第i个数据块,I表示具有新增副本的数据块的总数;
步骤6,由前到后逐一选取数据块序列中的数据块,将选取到的数据块的所有新增副本放置到节点序列的RN个节点上;具体采用的方法如下:
记数据块Ai-1的最后一个新增副本放置在节点Bm上,则数据块Ai的第一个新增副本放置到节点Bm+p,(1≤p≤M-m)上,节点Bm+p上未放置属于数据块Ai的任一原始副本;
数据块Ai的下一个新增副本放置到节点Bm+q,(p<q≤M-p)上,节点Bm+q上未放置属于数据块Ai的任一原始副本;直至数据块Ai的所有新增副本均放置到相应节点上。
可选地,所述步骤2中的识别第n个时间周期Tn内的需要新增副本的数据块;采用的方法如下:
对于第i个数据块,若第n个时间周期Tn内第i个数据块的平均访问率
Figure GDA0002666025180000031
第n个时间周期Tn内集群的平均访问率APTn,则该第i个数据块需要新增副本,否则,该第i个数据块不需要新增副本;
其中,第n个时间周期Tn内第i个数据块的平均访问率
Figure GDA0002666025180000032
采用如下公式计算:
Figure GDA0002666025180000033
上式中,
Figure GDA0002666025180000041
表示第n个时间周期Tn内第i个数据块的热度,
Figure GDA0002666025180000042
Figure GDA0002666025180000043
表示第j个时间周期Tj内第i个数据块的总访问率;
所述第n个时间周期Tn内第i个数据块的热度
Figure GDA0002666025180000044
也可采用如下公式计算:
Figure GDA0002666025180000045
其中,
Figure GDA0002666025180000046
表示第n个时间周期Tn内第i个数据块的总访问率,
Figure GDA0002666025180000047
表示第n-1个时间周期T(n-1)内第i个数据块的热度。
可选地,步骤3中的新增副本数RN的计算方法如下:
第i个数据块的新增副本数用RNi表示,采用如下公式计算:
Figure GDA0002666025180000048
其中,
Figure GDA0002666025180000049
为第n个时间周期Tn内第i个数据块的平均访问率,APTn为第n个时间周期Tn内Hadoop集群的平均访问率。
可选地,所述步骤4中的计算每个节点的性能分数,采用的方法如下:
对于第k个节点,该节点的性能分数用scorek表示,采用如下公式计算:
Figure GDA00026660251800000410
上式中,
Figure GDA00026660251800000411
表示归一化后的第k个节点的计算能力,
Figure GDA00026660251800000412
其中,cck表示第k个节点的计算能力,ccmin表示所有节点的计算能力的最小值,ccmax表示所有节点的计算能力的最大值;
Figure GDA0002666025180000051
表示归一化后的第k个节点的磁盘大小,
Figure GDA0002666025180000052
其中,hsk表示第k个节点的磁盘大小,hsmin表示所有节点的磁盘大小的最小值,hsmax表示所有节点的磁盘大小的最大值;
Figure GDA0002666025180000053
表示归一化后的第k个节点的读写速度,
Figure GDA0002666025180000054
其中,iopsk表示第k个节点的读写速度,iopsmin表示所有节点的读写速度的最小值,iopsmax示所有节点的读写速度的最大值。
可选地,所述步骤6中的数据块Ai的第一个新增副本放置到节点Bm+p,(1≤p≤M-m)上,具体方法如下:
若节点Bm+p的剩余存储空间满足数据块Ai的存储要求,则将数据块Ai的第一个新增副本直接放置到节点Bm+p上;若节点Bm+p的剩余存储空间不满足数据块Ai的存储要求,则将节点Bm+p上放置的访问率最低的数据块对应的原始副本中的一个删除,再将数据块Ai的第一个新增副本放置到节点Bm+p上。
与现有技术相比,本发明具有以下技术效果:对异构集群下的节点根据其性能参数进行分类,把得到的数据块热度预测结果,根据副本个数,依次放到各个节点上。本发明结合了多个因素来决定哪个数据块该放到哪个节点上,这样既提高了MapReduce性能,也减少了执行时间。
附图说明
图1是10个时间段下的数据访问率示意图;
图2是异构集群下的副本动态变化图;
图3是采用本发明的方法和静态默认策略下,平均job完成时间对比结果图。
具体实施方式
本发明提供一种基于异构Hadoop集群环境下的数据块副本放置方法,多个文件被分成多个数据块,默认的每个数据块的原始副本有3个,3个原始副本按照静态放置策略被放置在相应节点上,本发明的方法用于对需要新增副本的数据块进行复制,得到新增副本,并将新增副本放置到Hadoop集群的相应节点上,具体包括以下步骤:
步骤1,在第n个时间周期Tn内,n为大于0的整数,对多个数据块采用基于灰度预测模型的预测方法进行热度预测,得到在该时间周期Tn内每个数据块的总访问率。
步骤2,识别第n个时间周期Tn内的需要新增副本的数据块;
步骤3,计算需要新增副本的每个数据块的新增副本数,并将该数据块复制多次,数据块的复制次数与新增副本数相同,得到多个新增副本;
步骤4,计算Hadoop集群中每个节点的性能分数,按照性能分数由高到低对节点进行排序,得到节点序列[B1,B2,…Bm,…BM],其中,M表示节点总数。
步骤5,将步骤2中需要新增副本的数据块按照总访问率由高到低进行排序,得到数据块序列[A1,A2,…Ai,…AI],其中,I表示具有新增副本的数据块的总数;
步骤6,由前到后逐一选取数据块序列中的数据块,将选取到的数据块的所有新增副本放置到节点序列的RN个节点上,具体采用的方法如下:
数据块序列中的数据块Ai具有RN(Ai)个新增副本,数据块序列中的数据块Ai-1具有RN(Ai-1)个新增副本,记数据块Ai-1的最后一个新增副本放置在节点Bm上,则数据块Ai的第一个新增副本放置到节点Bm+p,(1≤p≤M-m)上,节点Bm+p上未放置属于数据块Ai的任一原始副本;
数据块Ai的下一个新增副本放置到节点Bm+q,(p<q≤M-p)上,节点Bm+q上未放置属于数据块Ai的任一原始副本;直至数据块的所有新增副本均放置到相应节点上。
具体地,在又一实施例中,步骤2中的识别第n个时间周期Tn内的需要新增副本的数据块;采用的方法如下:
对于第i个数据块,若第n个时间周期Tn内第i个数据块的平均访问率
Figure GDA0002666025180000071
第n个时间周期Tn内集群的平均访问率APTn,则该第i个数据块需要新增副本,否则,该第i个数据块不需要新增副本。
其中,第n个时间周期Tn内第i个数据块的平均访问率
Figure GDA0002666025180000072
采用如下公式计算:
Figure GDA0002666025180000073
上式中,
Figure GDA0002666025180000074
表示第n个时间周期Tn内第i个数据块的热度,
Figure GDA0002666025180000075
Figure GDA0002666025180000076
表示第j个时间周期Tj内第i个数据块的总访问率。
可选地,在本实施例中,
Figure GDA0002666025180000077
也可采用如下公式计算:
Figure GDA0002666025180000078
其中,
Figure GDA0002666025180000079
表示第n个时间周期Tn内第i个数据块的总访问率,
Figure GDA00026660251800000710
表示第n-1个时间周期T(n-1)内第i个数据块的热度。
其中,第n个时间周期Tn内集群的平均访问率APTn采用如下公式计算:
Figure GDA0002666025180000081
其中,
Figure GDA0002666025180000082
表示第n个时间周期Tn内第i个数据块的总访问率,N表示Hadoop集群内数据块的总数。
具体地,在又一实施例中,步骤3中的新增副本数RN的计算方法如下:
第i个数据块的新增副本数用RNi表示,采用如下公式计算:
Figure GDA0002666025180000083
具体地,在又一实施例中,步骤4中的计算每个节点的性能分数,采用的方法如下:
对于第k个节点,该节点的性能分数用scorek表示,采用如下公式计算:
Figure GDA0002666025180000084
上式中,
Figure GDA0002666025180000085
表示归一化后的第k个节点的计算能力,
Figure GDA0002666025180000086
其中,cck表示第k个节点的计算能力,ccmin表示所有节点的计算能力的最小值,ccmax表示所有节点的计算能力的最大值;
Figure GDA0002666025180000087
表示归一化后的第k个节点的磁盘大小,
Figure GDA0002666025180000088
其中,hsk表示第k个节点的磁盘大小,hsmin表示所有节点的磁盘大小的最小值,hsmax表示所有节点的磁盘大小的最大值;
Figure GDA0002666025180000091
表示归一化后的第k个节点的读写速度,
Figure GDA0002666025180000092
其中,iopsk表示第k个节点的读写速度,iopsmin表示所有节点的读写速度的最小值,iopsmax示所有节点的读写速度的最大值。
具体地,在又一实施例中,所述步骤6中的数据块Ai的第一个新增副本放置到节点Bm+p,(1≤p≤M-m)上,具体方法如下:
若节点Bm+p的剩余存储空间满足数据块Ai的存储要求,则将数据块Ai的第一个新增副本直接放置到节点Bm+p上;若节点Bm+p的剩余存储空间不满足数据块Ai的存储要求,则将节点Bm+p上放置的访问率最低的数据块对应的原始副本中的一个删除,再将数据块Ai的第一个新增副本放置到节点Bm+p上。
实施例:
为了证明本发明的方法的可实施性,对提出的数据块的新增副本动态放置进行了实验验证。首先收集了HDFS日志记录里的数据访问请求记录作为我们的数据,共1000个数据块。实验环境是四个不同类型的服务器组成,一共四个机架。机架之间是通过交换机进行通信。数据块默认大小是128M。1个NameNode和39个DataNodes。虚拟机类型是VMwareWorkstation 12.0,Ubuntu 14.04LTS。在Hadoop-2.7.3版本上对数据块访问率、每一个数据块的副本决策以及动态数据副本放置策略进行实施案例的评估工作。
基于灰度预测模型对1000个数据块在10个时间段进行热度预测,如图1是对一个数据块及其原始副本在10个时间段(大约两天)下的数据访问率。表明数据热度不仅由访问率决定,还跟一定时间段内的请求次数相关联。
通过对热点数据副本数的动态实时计算,如图2可以看出动态数据放置策略(Dynamic Replica Number)下的副本数是随时间逐渐变化的,数据副本数是随着用户访问竞争的增加而增加,这样就降低了访问竞争率并提高了job执行时间。访问率低的副本数也就相应减少,减少了存储空间的浪费。而静态数据放置策略(Default Replica Number)下的副本因子是3,明显没有本发明的方法的性能好。
图3是默认的数据放置策略(Default)和本发明的方法,作业完成时间的比较,数据访问率少的话数据热度也就低了,同时数据块就为cold数据。可以看出这个时间段,静态放置策略的job执行时间没有太大变化,副本数也没有浮动。当数据热度变高,数据访问竞争率变高,副本数就变多来降低用户访问竞争率,可以明显的看出动态下的数据放置策略的执行时间要少于默认的数据放置策略。

Claims (5)

1.基于异构Hadoop集群环境下的数据块副本放置方法,Hadoop集群中包括M个节点,该方法用于将数据块的新增副本放置到节点上,其特征在于,包括以下步骤:
步骤1,在第n个时间周期Tn内,n为大于0的整数,对多个数据块采用基于灰度预测模型的预测方法进行热度预测,得到在该时间周期Tn内每个数据块的总访问率;
步骤2,识别第n个时间周期Tn内的需要新增副本的数据块;
步骤3,计算需要新增副本的每个数据块的新增副本数,并将该数据块复制多次,数据块的复制次数与新增副本数相同,得到多个新增副本;
步骤4,计算Hadoop集群中每个节点的性能分数,按照性能分数由高到低对节点进行排序,得到节点序列[B1,B2,…Bm,…BM],其中,Bm表示节点序列中的第m个节点,M表示节点总数;
步骤5,将步骤2中需要新增副本的数据块按照总访问率由高到低进行排序,得到数据块序列[A1,A2,…Ai,…AI],其中,Ai表示数据块序列中的第i个数据块,I表示具有新增副本的数据块的总数;
步骤6,由前到后逐一选取数据块序列中的数据块,将选取到的数据块的所有新增副本放置到节点序列的RN个节点上;具体采用的方法如下:
记数据块Ai-1的最后一个新增副本放置在节点Bm上,则数据块Ai的第一个新增副本放置到节点Bm+p,(1≤p≤M-m)上,节点Bm+p上未放置属于数据块Ai的任一原始副本;
数据块Ai的下一个新增副本放置到节点Bm+q,(p<q≤M-p)上,节点Bm+q上未放置属于数据块Ai的任一原始副本;直至数据块Ai的所有新增副本均放置到相应节点上。
2.如权利要求1所述的基于异构Hadoop集群环境下的数据块副本放置方法,其特征在于,所述步骤2中的识别第n个时间周期Tn内的需要新增副本的数据块;采用的方法如下:
对于第i个数据块,若第n个时间周期Tn内第i个数据块的平均访问率APi Tn≥第n个时间周期Tn内集群的平均访问率APTn,则该第i个数据块需要新增副本,否则,该第i个数据块不需要新增副本;
其中,第n个时间周期Tn内第i个数据块的平均访问率APi Tn,采用如下公式计算:
Figure FDA0002666025170000021
上式中,
Figure FDA0002666025170000022
表示第n个时间周期Tn内第i个数据块的热度,
Figure FDA0002666025170000023
Figure FDA0002666025170000024
表示第j个时间周期Tj内第i个数据块的总访问率;
所述第n个时间周期Tn内第i个数据块的热度
Figure FDA0002666025170000025
也可采用如下公式计算:
Figure FDA0002666025170000026
其中,
Figure FDA0002666025170000027
表示第n个时间周期Tn内第i个数据块的总访问率,
Figure FDA0002666025170000028
表示第n-1个时间周期T(n-1)内第i个数据块的热度。
3.如权利要求2所述的基于异构Hadoop集群环境下的数据块副本放置方法,其特征在于,所述步骤3中的新增副本数的计算方法如下:
第i个数据块的新增副本数用RNi表示,采用如下公式计算:
Figure FDA0002666025170000031
其中,
Figure FDA0002666025170000032
为第n个时间周期Tn内第i个数据块的平均访问率,APTn为第n个时间周期Tn内Hadoop集群的平均访问率。
4.如权利要求1所述的基于异构Hadoop集群环境下的数据块副本放置方法,其特征在于,所述步骤4中的计算每个节点的性能分数,采用的方法如下:
对于第k个节点,该节点的性能分数用scorek表示,采用如下公式计算:
Figure FDA0002666025170000033
上式中,
Figure FDA0002666025170000034
表示归一化后的第k个节点的计算能力,
Figure FDA0002666025170000035
其中,cck表示第k个节点的计算能力,ccmin表示所有节点的计算能力的最小值,ccmax表示所有节点的计算能力的最大值;
Figure FDA0002666025170000036
表示归一化后的第k个节点的磁盘大小,
Figure FDA0002666025170000037
其中,hsk表示第k个节点的磁盘大小,hsmin表示所有节点的磁盘大小的最小值,hsmax表示所有节点的磁盘大小的最大值;
Figure FDA0002666025170000038
表示归一化后的第k个节点的读写速度,
Figure FDA0002666025170000039
其中,iopsk表示第k个节点的读写速度,iopsmin表示所有节点的读写速度的最小值,iopsmax示所有节点的读写速度的最大值。
5.如权利要求1所述的基于异构Hadoop集群环境下的数据块副本放置方法,其特征在于,所述步骤6中的数据块Ai的第一个新增副本放置到节点Bm+p,(1≤p≤M-m)上,具体方法如下:
若节点Bm+p的剩余存储空间满足数据块Ai的存储要求,则将数据块Ai的第一个新增副本直接放置到节点Bm+p上;若节点Bm+p的剩余存储空间不满足数据块Ai的存储要求,则将节点Bm+p上放置的访问率最低的数据块对应的原始副本中的一个删除,再将数据块Ai的第一个新增副本放置到节点Bm+p上。
CN201810175672.4A 2018-03-02 2018-03-02 基于异构Hadoop集群环境下的数据块副本放置方法 Active CN108519856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810175672.4A CN108519856B (zh) 2018-03-02 2018-03-02 基于异构Hadoop集群环境下的数据块副本放置方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810175672.4A CN108519856B (zh) 2018-03-02 2018-03-02 基于异构Hadoop集群环境下的数据块副本放置方法

Publications (2)

Publication Number Publication Date
CN108519856A CN108519856A (zh) 2018-09-11
CN108519856B true CN108519856B (zh) 2020-10-27

Family

ID=63433479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810175672.4A Active CN108519856B (zh) 2018-03-02 2018-03-02 基于异构Hadoop集群环境下的数据块副本放置方法

Country Status (1)

Country Link
CN (1) CN108519856B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109542352B (zh) * 2018-11-22 2020-05-08 北京百度网讯科技有限公司 用于存储数据的方法和装置
CN111341391B (zh) * 2020-02-25 2023-12-01 深圳晶泰科技有限公司 一种用于异构集群环境中的自由能微扰计算调度方法
WO2021031545A1 (zh) * 2020-02-25 2021-02-25 深圳晶泰科技有限公司 一种用于异构集群环境中的自由能微扰计算调度方法
WO2021187194A1 (ja) * 2020-03-17 2021-09-23 日本電気株式会社 分散処理システム、分散処理システムの制御方法、及び、分散処理システムの制御装置
CN113407620B (zh) * 2020-03-17 2023-04-21 北京信息科技大学 基于异构Hadoop集群环境的数据块放置方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425756A (zh) * 2013-07-31 2013-12-04 西安交通大学 一种hdfs中数据块的副本管理策略
US20140108639A1 (en) * 2012-10-11 2014-04-17 International Business Machines Corporation Transparently enforcing policies in hadoop-style processing infrastructures
CN104270402A (zh) * 2014-08-25 2015-01-07 浪潮电子信息产业股份有限公司 一种异构集群存储自适应数据负载的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140108639A1 (en) * 2012-10-11 2014-04-17 International Business Machines Corporation Transparently enforcing policies in hadoop-style processing infrastructures
CN103425756A (zh) * 2013-07-31 2013-12-04 西安交通大学 一种hdfs中数据块的副本管理策略
CN104270402A (zh) * 2014-08-25 2015-01-07 浪潮电子信息产业股份有限公司 一种异构集群存储自适应数据负载的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Hadoop异构环境中数据副本动态管理研究";张松;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160715;全文 *
"异构Hadoop集群下自适应平衡数据存储的大数据放置策略";张少辉,张中军,于来行;《现代电子技术》;20160531;全文 *

Also Published As

Publication number Publication date
CN108519856A (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
CN108519856B (zh) 基于异构Hadoop集群环境下的数据块副本放置方法
US11561930B2 (en) Independent evictions from datastore accelerator fleet nodes
CN110147407B (zh) 一种数据处理方法、装置及数据库管理服务器
CN103455526A (zh) 一种etl数据处理方法、装置及系统
Elmeleegy et al. Spongefiles: Mitigating data skew in mapreduce using distributed memory
CN112799597A (zh) 面向流数据处理的分级存储容错方法
Zhang et al. Aurora: Adaptive block replication in distributed file systems
CN111159140A (zh) 数据处理方法、装置、电子设备及存储介质
CN114048186A (zh) 一种基于海量数据的数据迁移方法及系统
Wu et al. BOSS: An efficient data distribution strategy for object storage systems with hybrid devices
Zeng et al. Do more replicas of object data improve the performance of cloud data centers?
Shabeera et al. A novel approach for improving data locality of mapreduce applications in cloud environment through intelligent data placement
Rajput et al. Priority-based replication management for hadoop distributed file system
Azeem et al. Support-based replication algorithm for cloud storage systems
Wang et al. A cloud-computing-based data placement strategy in high-speed railway
Ragunathan et al. Frequent block access pattern-based replication algorithm for cloud storage systems
Tang et al. Multi-file queries performance improvement through data placement in Hadoop
Shwe et al. Preventing data popularity concentration in hdfs based cloud storage
Sun et al. HSPP: Load-Balanced and Low-Latency File Partition and Placement Strategy on Distributed Heterogeneous Storage with Erasure Coding
Yeh et al. Improving the program performance through prioritized memory management and disk operation
Sharfuddin et al. Improving Performance of Cloud Storage Systems Using a Support-Based Replication Algorithm
Barak et al. A holographic file system for a multicomputer with many disk nodes
CN112988703B (zh) 一种读写请求的均衡方法及装置
CN111143324B (zh) 一种kudu的基于大小的数据库数据均衡系统及实现方法
Tian et al. A flexible dynamic migration strategy for cloud data replica

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant