CN106681823A

CN106681823A - 一种处理MapReduce数据倾斜的负载均衡方法

Info

Publication number: CN106681823A
Application number: CN201510747447.XA
Authority: CN
Inventors: 田文洪; 李国忠
Original assignee: Huang Chaojie; Xu Minxian; Yang Wutong
Current assignee: Huang Chaojie; Xu Minxian; Yang Wutong
Priority date: 2015-11-05
Filing date: 2015-11-05
Publication date: 2017-05-17

Abstract

本发明实施例公开了一种处理MapReduce数据倾斜的负载均衡方法，涉及集群调度、负载均衡领域。随着大规模的MapReduce集群广泛地用于大数据处理，当前主要问题之一是如何最大限度地减少工作时间，提高MapReduce服务效率；在MapReduce过去的研究当中，较少涉及到数据均衡相关问题，本发明针对MapReduce运行流程中的数据倾斜问题，提出了Reduce端的负载均衡算法，所述方法包括步骤：对输入数据进行抽样分析，确定平均每个Reduce节点上任务数量；根据任务的个数和时间系数，按照基于时间系数的任务数量从大到小降序排序，数量相同则按照序号排序；按照资源剩余容量最大的原则以及所排任务顺序依次分配任务，直到所有任务分配完毕；并将分配方式提交给自定义的Partition函数，执行处理过程。

Description

一种处理MapReduce数据倾斜的负载均衡方法

技术领域

本发明涉及在线集群调度技术领域，尤其涉及一种处理Hadoop集群任务数据倾斜的负载均衡方法和装置。

背景技术

Hadoop是一个以可靠、高效、可伸缩的方式对大量数据进行分布式处理的软件框架。Hadoop集群(cluster)主要的任务部署分为客户端(Client)机器、主节点(Master nodes)和从节点(Slave nodes)3个部分,如图1所示。数据存储(Hadoop分布式文件系统，HadoopDistributed File System，HDFS)和对运行在这个数据之上的并行计算(MapReduce)的监督是Hadoop的两个关键功能模块，这两个关键功能模块主要由主节点负责。HDFS采用主从(Master/Slave)结构模型，一个HDFS集群是由一个名字节点(NameNode)和若干个数据节点(DataNode)组成的。MapReduce框架是由一个单独运行在主节点上的作业追踪器(JobTracker)和运行在每个集群从节点上的任务追踪器(TaskTracker)共同组成。HDFS和MR共同组成Hadoop分布式系统体系结构的核心。

Hadoop是一个实现了MapReduce模式的开源的分布式并行编程框架，它以其通用、方便实用等特征在云计算和大数据处理时代得到了广泛应用。MapReduce是一种用于大规模数据集(大于1TB)的并行运算的编程模型。MapReduce工作过程包括两个阶段：Map阶段和Reduce阶段。Map阶段包含多个Map任务，Reduc阶段包含多个Reduce任务。在正式执行Map函数前，需要对输入数据进行分片，每个Map任务处理一个逻辑分片(split)。split包含了数据起始位置、数据长度、数据所在节点等元数据信息，其划分方法通常由用户自己决定。split的数量决定了Map任务的数量。

HDFS实现Hadoop体系结构中对分布式存储的底层支持存储。

NameNode执行文件系统的命名空间，如打开、关闭、重命名文件或目录等，也负责数据块到具体DataNode的映射。DataNode既是数据存储节点，也是计算节点，它负责处理文件系统客户端的文件读写，并在NameNode的统一调度下进行数据库的创建、删除和复制工作。

Job Tracker主要负责调度Job的每一个子任务task运行于TaskTracker上，并监控它们，如果发现有失败的task就重新运行它。JobTracker还负责跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器(Task Scheduler)，以便于调度器在资源出现空闲时将这些资源分配给合适的任务。Task Tracker主动周期性地调用心跳RPC函数，向Job Tracker汇报节点和任务运行状态信息，同时领取Job Tracker返回心跳包的各种命令并执行相应的操作。TaskTracker使用“slot”等量划分本节点上的资源量。slot是一个逻辑概念，是Hadoop的资源单位，一个节点的slot的数量用来表示某个节点的资源的容量或者说是能力的大小。slot分为Map slot和Reduceslot两种，分别供Map Task和Reduce Task使用。每个作业申请资源以slot为单位，每个节点会确定自己的计算能力以及存储器，确定自己包含的slot总量。当某个作业要开始执行时，先向Job Tracker申请slot，一个任务获取到一个slot后才有机会运行，而Hadoop调度器的作用就是将各个Task Tracker上的空闲slot分配给任务使用。

Hadoop集群系统中的核心技术是任务调度，在云计算研究中，MapReduce环境的在线作业调度带来了新的课题和挑战，引起了越来越多的重视。最初，Hadoop默认的FIFO(先入先出)调度器专为周期性执行大规模批量作业而设计。随着MapReduce集群系统的用户数量的增加，计算能力调度器和Hadoop公平调度器(HFS:Hadoop FairScheduling)的出现，提供了更高效的集群共享方式，但是，现有的调度器还不能提供对最小化在线作业集完工时间的支持，当提交在线作业为一个作业集时，完工时间可能较长因而导致总能耗较高。

发明内容

本发明要解决的技术问题是：提供一种处理MapReduce数据倾斜的负载均衡方法和装置，能够减轻数据倾斜程度，加快任务处理速度。

为解决上述技术问题，第一方面，本发明实施例提供了一种处理MapReduce数据倾斜的负载均衡方法，所述方法包括以下四大步骤：

对输入数据进行抽样分析，确定平均每个Reduce节点上任务数量；

根据任务的个数和时间系数，按照基于时间系数的任务数量从大到小降序排序，数量相同则按照序号排序；

按照资源剩余容量最大的原则以及所排任务顺序依次分配任务，直到所有任务分配完毕；

将分配方式提交给自定义的Partition函数，执行任务处理过程；

根据第一方面，在第一种可能的实现方式中，所述对输入数据进行抽样分析，确定平均每个Reduce节点上任务数量；

对输入的文件，各个节点根据自己拥有的文件块进行计算，使用API计算文件的行数；

运行Map程序统计各个节点上样本key值的频率，并记录该节点key的总个数，总个数可以通过获得文件行数乘以每行key值获取；

运行Reduce程序汇总所有key的频率，并统计出各个key最终频率，同时汇总所有key的总个数，根据抽样频率和总个数，估算出每个key的具体数量。

根据第一方面，在第二种可能的实现方式中，所述为所述各个key处理的时间有显著不同时，每个不同key，设定一个时间系数t,对任意一个key k_i，t_i的大小定义为该key执行时间和执行最慢的key的执行时间的比值；对每个不同key进行一次执行，将该key的执行时间进行记录，增加时间系数后，可以通过在分配时候把时间系数考虑进去，解决key值处理时间不同的情形。

根据第一方面，在第三种可能的实现方式中，所述根据key的个数和时间系数，按照基于时间系数的key数量从大到小降序排序，数量相同则按照序号排序。

根据第一方面的第四种可能的实现方式，取出key选择Reduce剩余数量最大的分配；若该Reduce剩余容量足够分配，则直接分配给Reduce，分配后修改Reduce剩余容量数目；若该Reduce剩余容量不够，则分配Reduce剩余容量大小并将已经分配的k_i标记为k_{i_1}，取出Reduce剩余数量最大的分配，直到该key分配完毕。

根据第一方面，在第五种可能的实现方式中，所有调整执行完成后，按照调整的结果对输入文件进行key替换，并将分配方式提交给自定义的Partition函数。

第二方面，本发明实施例提供了一种处理MapReduce数据倾斜的负载均衡方法装置，所述装置四大模块包括：

抽样模块，用于对输入数据进行抽样分析，确定平均每个Reduce节点上任务数量；

排序模块，根据任务的个数和时间系数，基于时间系数的任务数量从大到小降序排序，数量相同则按照序号排序；

分配模块，按照资源剩余容量最大的原则以及所排任务顺序依次分配任务，直到所有任务分配完毕；

执行模块，用于按照所述顺序执行任务。

根据第二方面，在第一种可能的实现方式中，所述抽样模块：

并且获取不同key的时间系数，通过在分配时候把时间系数考虑进去，解决key值处理时间不同的情形。

根据第二方面，在第二种可能的实现方式中，所述排序模块：

根据key的个数和时间系数，按照基于时间系数的key数量从大到小降序排序，数量相同则按照序号排序。

根据第二方面，在第三种可能的实现方式中，所述分配模块：

取出key选择Reduce剩余数量最大的分配；若该Reduce剩余容量足够分配，则直接分配给Reduce，分配后修改Reduce剩余容量数目；若该Reduce剩余容量不够，则分配Reduce剩余容量大小并将已经分配的k_i标记为k_{i_1}，取出Reduce剩余数量最大的分配，直到该key分配完毕。

根据第二方面，在第四种可能的实现方式中，所述执行模块：

在所述根据任务执行顺序，依次执行任务，直到任务全部完成。

第三方面，本发明实施例提供了一种处理Hadoop集群任务数据倾斜的负载均衡装置，包括第二方面或第二方面任一种可能的实现方式所述的调度装置。

第四方面，本发明实施例提供了一种处理Hadoop集群任务数据倾斜的负载均衡的功耗降低方法，其特征在于，所述Hadoop集群系统使用第一方面或第一方面任一种可能的实现方式所述的方法进行调度。

附图说明

图1是本发明一种实施例的Hadoop集群系统部署示意图；

图2是本发明一种实施例的处理MapReduce数据倾斜的负载均衡方法流程图；

图3是本发明一种实施例的处理MapReduce数据倾斜的负载均衡装置示意图；

具体实施方式

下面根据附图和实施例，对本发明的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图2所示，本发明实施例提供了一种处理MapReduce数据倾斜的负载均衡方法，该方法包括步骤：

S101.对输入数据进行抽样分析，确定平均每个Reduce节点上任务数量。

S102.根据任务的个数和时间系数，按照基于时间系数的任务数量从大到小降序排序，数量相同则按照序号排序。

S103.按照资源剩余容量最大的原则以及所排任务顺序依次分配任务，直到所有任务分配完毕。

S104.将分配方式提交给自定义的Partition函数，执行任务处理过程。

本领域技术人员可以理解，在本发明各实施例的方法中，各步骤的序号大小并不意味着执行顺序的先后，各步骤的执行顺序应以其功能和内在逻辑确定，而不应对本发明具体实施例的实施过程构成任何限定。

如图3所示，本发明实施例还提供了一种实施例的Hadoop集群任务数据倾斜的负载均衡装置的调度装置300，该装置300包括：

抽样模块310，用于对输入数据进行抽样分析，确定平均每个Reduce节点上任务数量；

排序模块320，用于根据任务的个数和时间系数，按照基于时间系数的任务数量从大到小降序排序，数量相同则按照序号排序；

分配模块330，用于按照资源剩余容量最大的原则以及所排任务顺序依次分配任务，直到所有任务分配完毕。

执行模块340，用于将分配方式提交给自定义的Partition函数，执行任务处理过程。

本发明实施例还提供了一种包括本发明实施例的图3所示的调度装置的Hadoop集群系统，该集群系统可按照图1所示的架构部署，该调度装置可为图1中所示的任务调度器。

以下通过具体实例来进一步说明本发明各实施例：

假设一个MapReduce任务，有4种keys(k₁,k₂,k₃,k₄)，运行在4个Reducers(R₁,R₂,R₃,R₄)上，根据抽样分析后，得到k₁,k₂,k₃,k₄的数量分别是1000,100,50,20。则在默认情况下R₁,R₂,R₃,R₄分别分配到的key数量分别为1000,100,50,20，可以看出R₁分配到的key的数值明显大于其他几个，产生数据倾斜，最后导致R₂,R₃,R₄都在等待R₁执行完成，总完工时间较长，产生大量能耗。

按照本发明实施例的方法，对该作业集进行处理的过程如下：

S510.计算出key的均值k_avg为292，将R₁,R₂,R₃,R₄剩余值设置为292；

S520.取出k₁进行分配，选择R₁进行分配，由于k₁数量大于R₁剩余数量，所以将k₁分配292个key到R₁，并标记为k_{1_2}；

S530.继续执行，由于k₁剩余数量大于R₂剩余数量，因此将k₁剩下部分标记为k_{1_2}分配到R₂，分配key数量为292，同理将k_{1_3}分配到R₃，分配key数量为292，分配后k₁剩余数量为124，小于R₄剩余数量，故将剩余的124个key全部分配到R₄，标记为k_{1_4}；

同理，取出k₂,k₃,k₄分配到R₄上；

此时R₁,R₂,R₃,R₄分配到的key的数量分别为292，292，292，294，实现了key值的理想负载均衡。

另一具体实例进一步说明本发明各实施例：

计算key数量时候，增加时间系数，即基于时间系数的key数量k^t _i＝k_i×t_i，平均key值则变成了

具体分配时，分配到reduce上数量为R^t＝R/t。

增加时间系数后，上述例子中，k^t ₁＝500，则按照key均衡调整，k₁分配到R₁上，标记为k_{1_1}，数量为60，k_{1_2}分配到R₂上，数量为40，k₂分配到R₂上，数量100，则两个ReduceR₁，R₂执行时间相同，均为300个单位时间，达到了负载均衡的目的。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一台计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种处理MapReduce数据倾斜的负载均衡方法，其特征在于，所述方法包括步骤：

将分配方式提交给自定义的Partition函数，执行任务处理过程。

2.根据权利要求1所述的方法，其特征在于，所述的抽样方法为：

3.根据权利要求1所述的方法，其特征在于，所述各个key处理的时间有显著不同时，每个不同key，设定一个时间系数t,对任意一个key k_i，t_i的大小定义为该key执行时间和执行最慢的key的执行时间的比值；对每个不同key进行一次执行，将该key的执行时间进行记录，增加时间系数后，可以通过在分配时候把时间系数考虑进去，解决key值处理时间不同的情形。

4.根据权利要求1所述的方法，其特征在于，根据key的个数和时间系数，按照基于时间系数的key数量从大到小降序排序，数量相同则按照序号排序。

5.根据权利要求1所述的方法，其特征在于，取出key选择Reduce剩余数量最大的分配；若该Reduce剩余容量足够分配，则直接分配给Reduce，分配后修改Reduce剩余容量数目；若该Reduce剩余容量不够，则分配Reduce剩余容量大小并将已经分配的k_i标记为k_{i_1}，取出Reduce剩余数量最大的分配，直到该key分配完毕。

6.根据权利要求1所述的方法，其特征在于，所有调整执行完成后，按照调整的结果对输入文件进行key替换，并将分配方式提交给自定义的Partition函数。

7.一种处理MapReduce数据倾斜的负载均衡装置，其特征在于，所述装置包括：

执行模块，用于按照所述顺序执行任务。

8.根据权利要求7所述的装置，其特征在于，所述抽样模块：

运行Reduce程序汇总所有key的频率，并统计出各个key最终频率，同时汇总所有key的总个数，根据抽样频率和总个数，估算出每个key的具体数量；

获取不同key的时间系数，通过在分配时候把时间系数考虑进去，解决key值处理时间不同的情形。

9.根据权利要求7所述的装置，其特征在于，所述排序模块：

10.根据权利要求7所述的装置，其特征在于，所述分配模块：