CN104933110A

CN104933110A - 一种基于MapReduce的数据预取方法

Info

Publication number: CN104933110A
Application number: CN201510299063.6A
Authority: CN
Inventors: 高胜立; 薛瑞尼; 敖立翔
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-06-03
Filing date: 2015-06-03
Publication date: 2015-09-23
Anticipated expiration: 2035-06-03
Also published as: CN104933110B

Abstract

本发明提供一种基于MapReduce的数据预取方法，属于计算机技术领域。本发明方法通过性能评估来预测各计算节点的数据块处理量，并根据一系列的计算来评估哪些计算节点会出现非本地化任务，对于通过计算评估的非本地化任务，在计算节点还未申请处理该任务时就提前预取到计算节点本地，从而使得计算节点不会产生计算等待。本发明的目的是提升MapReduce作业的执行效率和系统的整体吞吐率，从而使得计算节点不需要等待数据块的远程传输，提升计算节点的利用率。本发明提出的预取方法可以同时工作在同构和异构MapReduce集群环境，这种预取的思想也不单单针对MapReduce，所有分布式的计算框架都可以借鉴改进。

Description

一种基于MapReduce的数据预取方法

技术领域

本发明属于计算机技术领域，具体涉及一种关于MapReduce的数据预取方法。

背景技术

作为Hadoop的核心组件之一，MapReduce主要用于分布式计算。在Hadoop平台上，MapReduce的分布式计算框架是搭建在分布式文件系统HDFS(Hadoop Distributed File System)上的，也就是说，MapReduce框架所需的数据输入和数据输出都是基于HDFS的。MapReduce在进行数据处理时，将一个大的作业分成一个个小的计算任务，这些小的任务分为Map任务和Reduce任务，Map任务从HDFS上获取数据作为输入，并且不同Map任务间是相互独立的；Reduce任务的数据输入来源于Map的输出，并最终将处理完的数据存储到HDFS上。

HDFS分布式文件系统在存储数据时，将数据分成默认大小为128MB的数据块，然后以冗余的形式(默认数据本体加备份数总计为3)存储在HDFS上，而HDFS上的数据块最终也是存储到各物理节点上，这些物理节点既承担着数据存储的任务，也承担着数据计算的任务。

Map的数据输入来源于HDFS上的数据块，在处理数据块时，一般是优先选择本地的数据块，然后其次是本机架的数据块，最后才是选择本数据中心的数据块。然而，由于一个作业的数据块在HDFS上并不能完全匹配MapReduce的执行场景来实现高程度的本地化，因为在计算的时候，由于计算节点性能各异，当一个计算节点找不到本地化的任务时，需要等待远程数据块传输到本地，在这个过程中，需要浪费大量的等待时间，从而给集群整体吞吐率和单个作业的执行效率造成影响。所以，如果能有一种预取方法，能将各计算节点未来需要处理的数据块在任务还没有开始前就提前预取到计算节点本地，那将大大提升作业的执行效率和整个集群的吞吐率。

Seo等人(HPMR:Prefetching and pre-shuffling in shared MapReduce computationenvironment[C]//Cluster Computing and Workshops,2009.CLUSTER'09.IEEE InternationalConference on.IEEE,2009:1-8.)系统分析了MapReduce作业的执行场景和网络带宽在MapReduce计算中的重要性，并提出一种预取和提前Shuffle的方案用于减少网络带宽的消耗和提升集群吞吐量和作业执行效率，然而，这种预取并不能保证好的预取效果，因为没有考虑到计算节点的性能因素。

发明内容

本发明的目的是提升MapReduce作业的执行效率和系统任务的整体吞吐率，具体实施手段是通过在MapReduce调度中实现非本地化任务的预测并实现提前预取数据块到本地的目的，从而使得计算节点不需要等待数据块的远程传输，提升计算节点的利用率。本发明提出的预取方法可以同时工作在同构和异构MapReduce集群环境，这种预取的思想也不单单针对MapReduce，所有分布式的计算框架都可以借鉴改进。

本发明方法通过性能评估来预测各计算节点的数据块处理量，并根据一系列的计算来评估哪些计算节点会出现非本地化任务，对于通过计算评估的非本地化任务，在计算节点还未申请处理该任务时就提前预取到计算节点本地，从而使得计算节点不会产生计算等待。

本发明具体采用如下技术方案：

一种基于MapReduce的数据预取策略方法，其流程如图1所示，在拥有n个物理计算节点的集群上，针对得到调度的某个具体作业A，在其实施过程中按以下方法进行数据预取：

步骤1：由于集群有同构和异构之分，在计算尚未开始时假设集群是同构的，即假设所有计算节点的计算性能P_i均为1，其中i∈[1,n]；对于作业A，假设该作业对应的数据块个数为b个，且每个数据块在HDFS上的默认备份数为3，设各计算节点上的数据块个数为F_Ti，则总数据块数量∑F_Ti＝3b；

为每个计算节点分配第一轮任务，即为每个物理计算节点分配一个数据块，每个计算节点处理其分配到的第一个计算任务，并计算每个物理计算节点实际计算性能RP_Ti，其中i＝1,…,n；

步骤2：统计各计算节点针对作业A还需要处理的任务个数PB_Ti；

步骤3：计算各计算节点完全本地化的概率LP，第i个计算节点完全本地化的概率LP_Ti＝L_Ti/PB_Ti，其中L_Ti为第i个计算节点当前未处理的本地化数据块数量；

步骤4：在作业A的任务执行过程中，时刻监测所有计算节点的本地化概率LP值，将所有计算节点按照LP值由低至高进行排序得计算节点序列；

步骤5：若所述计算节点序列中第一个计算节点的LP值不小于1，则不作任何操作；

若作业A的执行过程中，所述计算节点序列中的前f个节点的LP值小于1，f≥1，将节点记为T₁、…、T_f，执行步骤6至步骤12所述的数据预取过程；根据设计要求，节点T₁至少还需要分配a＝PB_T1-L_T1个数据块到其本地其LP值才不小于1；

步骤6：锁定节点T₁上的所有本地数据块，且节点T₁的所有本地数据块在其他节点上对应的数据块备份都不能被调度，已锁定的数据块在其他节点上的备份数据块不能参与到所有节点的本地化概率LP的计算中；

步骤7：针对剩余的n-1个计算节点，按步骤6所述条件重新计算各自的本地化概率LP，并按照LP值由低至高进行排序得新的计算节点序列T₂、…、T_n；

步骤8：在新的节点序列T₂、…、T_n中，从其最后一个计算节点T_n开始由后向前选取一个最先同时满足以下三个条件的节点T_t并从该节点选取一个满足以下条件的数据块b_t：

1)所述节点T_t的本地化概率LP_t大于1；

2)从节点T_t提取一个数据块b_t，该数据块b_t及其备份数据块只能存储在满足条件1)的节点上，即所述备份数据块所在节点的本地化概率均大于1；

3)将数据块b_t从节点T_t中剔除，重新计算节点T_t的本地化概率LP_{t_2}，此时新的本地化概率LP_{t_2}不小于1；数据块b_t的备份数据块所在的节点也要满足上述要求，即把所述备份数据块从其所在节点中剔除，并重新计算这些节点的本地化概率，计算所得的本地化概率均不小于1；

步骤9：将满足步骤8所述三个条件的数据块b_t从其原先所在的节点预取至节点T₁中；

步骤10：重复执行至少a次步骤6至步骤9的操作过程，使节点T₁的本地化数据块数量至少增加a个，由此使得节点T₁的本地化概率LP不小于1，即节点T₁已完全本地化；

步骤11.在完成节点T₁的完全本地化之后，锁定节点T₁上的所有本地数据块，且节点T₁的所有本地数据块在其他节点上对应的备份数据块都不能被调度，已锁定的数据块在其他节点上的备份数据块不能参与到所有节点的本地化概率LP的计算中；

步骤12.针对剩余的n-1个计算节点，按步骤11的条件重新计算各个节点的本地化概率LP值并按照LP值由低至高进行排序构建新的计算节点序列，按步骤5至步骤11所述方法对本步骤所得的新的计算节点序列进行操作；

按上述方法即可实现所有计算节点的本地化概率LP值不小于1，由此完成数据预取过程。

本发明的有益效果是：

本发明提出一种可以同时工作在同构和异构集群环境下的MapReduce任务预取方法，该方法可以动态适应集群规模进行动态高效率预取，实施灵活方便，在各计算节点还没提出任务申请之前就将其需要处理的任务提前预取到本地，提升了机器计算节点的利用率，也缩短了在集群上的计算作业的执行时间，从而最终提升MapReduce集群的整体吞吐率。

附图说明

图1为本发明提供的基于MapReduce的数据预取方法流程图。

具体实施方式

本具体实施方式采用如下技术方案：

步骤1：由于集群有同构和异构之分，在计算尚未开始时假设集群是同构的，即假设所有物理计算节点的计算性能P_i均为1，其中i∈[1,n]；对于作业A，假设该作业对应的数据块个数为b个，且每个数据块在HDFS上的默认备份数为3，设各计算节点上的数据块个数为F_Ti，则总数据块数量∑F_Ti＝3b；

以各计算节点的关于作业A的本地化数据块数量为参量建立小顶堆并进行作业A的第一轮任务分配，即为每个物理计算节点分配一个数据块；第一轮任务分配过程中，首先对位于小顶堆堆顶对应的计算节点分配任务，分配完成后，对剩余的尚未分配的各计算节点按上述方法重新构建小顶堆，并对新的小顶堆堆顶对应的计算节点分配任务，按上述方法进行重复操作直至所有物理计算节点均分配到第一个计算任务；每个计算节点处理其分配到的第一个计算任务，并计算每个物理计算节点处理各自申请的第一个计算任务所需要的时间，由此得到每个物理计算节点的实际计算性能RP_Ti，其中i＝1,…,n；

步骤2：计算各物理计算节点针对作业A还需要处理的任务个数PB_Ti，计算方法如下：

作业A的第一轮任务分配及计算完成后，对于作业A剩余的m＝b-n个数据块，每个物理计算节点应处理的数据块数量CB_Ti＝m·RP_Ti/(RP_T1+…+RP_Tn)；通常情况下CB_Ti为非整数，对CB_Ti向下取整得整数DCB_Ti，即CB_Ti＝DCB_Ti+S_i，0≤S_i<1，则有m＝(DCB_T1+…+DCB_Tn)+S，其中S＝S₁+…+S_n为各计算节点取整后剩余小数累加的和得到的整数未分配数据块数量；

设Q_r为集群中计算性能最高与最低的物理计算节点之间的实际计算性能值之比，对Q_r向上取整得整数Q，即Q_r≤Q<Q_r+1，计算每个物理计算节点分别再处理D_i+1,…,D_i+Q个数据块所需要的时间加上该计算节点处理完正在处理的任务的剩余时间的和t_i,1,…,t_i,Q，由此得到n×Q个时间数据t_1,1,…,t_1,Q,…,t_i,1,…,t_i,Q,…,t_n,1,…,t_n,Q，按由小到大顺序对所述n×Q个时间数据进行排列并构成一个映射列表，列表中的每一个时间均映射一个其相应的物理计算节点；

选取映射列表中前S个时间所映射的S个物理计算节点，统计整个计算集群中第i个物理计算节点在这S个物理计算节点中出现的次数L_i；

针对第i个物理计算节点，经过计算最终需要处理的数据块个数为PB_Ti＝(DCB_Ti+L_i)个，且m＝(PB_T1+…+PB_Tn)；

步骤3：计算各计算节点完全本地化的概率LP，第i个物理计算节点完全本地化的概率LP_Ti＝L_Ti/PB_Ti，其中L_Ti为第i个物理计算节点当前未处理的本地化数据块数量，所述本地化数据块包括作业A的数据块及其备份数据块；LP代表各节点任务完全本地化的概率，对于一个计算节点，LP值越大表明该节点申请本地化任务的概率越大，LP值越小表明该节点申请本地化任务的概率越小；特别是当LP值小于1时，该节点未来将一定存在非本地化的计算任务；由于数据块在HDFS上存在冗余，所以LP大于1的节点随着计算节点上数据块的分配其LP的值可能趋于小于或等于1；

步骤4：在作业A的任务执行过程中，时刻监测所有物理计算节点的本地化概率LP值，将所有物理计算节点按照LP值由低至高进行排序得计算节点序列，越靠前的计算节点出现非本地化任务的概率越大；排序完成的物理计算节点序列可以分成三个部分：LP值小于1、LP值等于1、LP值大于1；

若执行过程中，所述节点序列中的前f个节点的LP值小于1，f≥1，将节点记为T₁、…、T_f，执行步骤6至步骤12所述的数据预取过程；根据设计要求，节点T₁至少还需要分配a＝PB_T1-L_T1个数据块到其本地其LP值才不小于1；

步骤7：针对剩余的n-1个物理计算节点，按上述条件重新计算各自的本地化概率LP并按照LP值由低至高进行排序得新的计算节点序列T₂、…、T_n；

步骤8：在新的节点序列T₂、…、T_n中，从其最后一个节点T_n开始由后向前选取一个最先同时满足以下三个条件的节点T_t并从该节点选取一个满足以下条件的数据块b_t：

1)所述节点T_t的本地化概率LP_t大于1；

2)从节点T_t提取一个数据块b_t，该数据块b_t及其备份数据块只能存储在满足条件1)的节点上；

3)将数据块b_t从节点T_t中剔除，重新计算节点T_t的本地化概率LP_{t_2}，此时新的本地化概率LP_{t_2}不小于1，对数据块b_t的备份数据块所在的节点也要满足这个要求；

步骤11.在完成节点T₁的完全本地化之后，锁定节点T₁上的所有本地数据块，且节点T₁的所有本地数据块在其他节点上对应的数据块备份都不能被调度，已锁定的数据块在其他节点上的备份数据块不能参与到所有节点的本地化概率LP的计算中；

按上述方法操作，即可实现所有计算节点的本地化概率LP值不小于1，由此完成数据预取过程。

Claims

1.一种基于MapReduce的数据预取方法，在拥有n个物理计算节点的集群上，针对得到调度的某个具体作业A，在其实施过程中按以下方法进行数据预取：

为每个计算节点分配第一轮任务，即为每个物理计算节点分配一个数据块，每个计算节点处理其分配到的第一个计算任务，并计算每个物理计算节点处理各自申请的第一个计算任务所需要的时间，由此得到每个物理计算节点的实际计算性能RP_Ti，其中i＝1,…,n；

1)所述节点T_t的本地化概率LP_t大于1；

2)从节点T_t提取一个数据块b_t，且该数据块b_t的备份数据块所在节点的本地化概率均大于1；

按上述方法，可使所有计算节点的本地化概率LP值不小于1，由此完成数据预取过程。

2.根据权利要求1所述的基于MapReduce的数据预取方法，其特征在于，具体按照以下方法实现步骤1所述的为每个计算节点分配第一轮任务：以各计算节点的关于作业A的本地化数据块数量为参量建立小顶堆并进行作业A的第一轮任务分配，即为每个物理计算节点分配一个数据块；第一轮任务分配过程中，首先对位于小顶堆堆顶对应的计算节点分配任务，然后对剩余的尚未分配的各计算节点重新构建小顶堆，并对新的小顶堆堆顶对应的计算节点分配任务，按上述方法进行重复操作直至所有物理计算节点均分配到第一个计算任务。

3.根据权利要求1所述的基于MapReduce的数据预取方法，其特征在于，步骤2所述的需要处理的任务个数PB_Ti具体按照以下方法获得：

对于作业A剩余的m＝b-n个数据块，每个物理计算节点应处理的数据块数量CB_Ti＝m·RP_Ti/(RP_T1+…+RP_Tn)；通常情况下CB_Ti为非整数，对CB_Ti向下取整得整数DCB_Ti，即CB_Ti＝DCB_Ti+S_i，0≤S_i<1，则有m＝(DCB_T1+…+DCB_Tn)+S，其中S＝S₁+…+S_n为各计算节点取整后剩余小数累加的和得到的整数未分配数据块数量；

选取映射列表中前S个时间所映射的S个物理计算节点，统计整个计算集群中第i个物理计算节点在这S个物理计算节点中出现的次数L_i；针对第i个物理计算节点，经过计算最终需要处理的数据块个数为PB_Ti＝(DCB_Ti+L_i)个，且m＝(PB_T1+…+PB_Tn)。