CN107391250B

CN107391250B - 一种提高Mapreduce任务Shuffle性能的控制器调度方法

Info

Publication number: CN107391250B
Application number: CN201710684587.6A
Authority: CN
Inventors: 朱虹锦; 王国谦; 邓小旭
Original assignee: Chengdu Youe Data Co ltd
Current assignee: Chengdu Youe Data Co ltd
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2021-02-05
Anticipated expiration: 2037-08-11
Also published as: CN107391250A

Abstract

本发明公开了涉及分布式系统领域，特别涉及一种提高Mapreduce任务Shuffle性能的控制器调度方法。用户提供必备参数；生成控制器，再根据必备参数对控制器进行定义；加载步骤1中的进行定义后的控制器，生成临时Mapper任务，采集临时Mapper任务结果数据，分析临时Mapper任务中产生的Key，控制器根据Mapper任务的分区方式确定Reducer任务的启动节点；启动Mapreduce任务，在进行Reducer任务前调度步骤2的控制器，确定Reducer任务的启动节点，启动Reducer任务，最后输出Mapreduce任务的最终结果。本发明提供一种可以优化shuffle流程的控制器，降低了Mapper任务完成后节点间数据传输的距离；降低了在网络中传输的数据量；屏蔽了不同数据、业务逻辑的差异性，使得shuffle的优化更通用。

Description

一种提高Mapreduce任务Shuffle性能的控制器调度方法

技术领域

本发明涉及分布式系统领域，特别涉及一种提高Mapreduce任务Shuffle性能的控制器调度方法。

背景技术

在一个Mapreduce任务中，Shuffle阶段严重影响任务的执行效率，因为Shuffle阶段会引起大量数据网络传输，而在数据的传输过程中引起的丢包、时延、网络堵塞的几率会成倍提升。一个正常的Mapreduce任务可能变得缓慢甚至不会运行成功。对开发人员来说，上述场景的发生都会浪费大量的时间去调优、分析错误日志。所以优化Shuffle阶段的运行流程对于提高任务的执行速度有重要意义。

发明内容

本发明的目的在于克服现有技术中Mapreduce任务网络堵塞几率高、需浪费大量时间去调优以及分析错误日志的问题，提供一种提高Mapreduce任务Shuffle性能的控制器调度方法，降低了Mapper任务完成后节点间数据传输的距离，降低了在网络中传输的数据量，同时屏蔽了不同数据、业务逻辑的差异性，使得Shuffle的优化更通用。

为了实现上述发明目的，本发明提供了以下技术方案：

一种提高Mapreduce任务Shuffle性能的控制器调度方法，包括以下几个步骤：

步骤1：用户提供必备参数；生成控制器，再根据必备参数对控制器进行定义；

步骤2：加载步骤1中的进行定义后的控制器，生成临时Mapper任务，采集临时Mapper任务结果数据，分析临时Mapper任务中产生的Key，控制器根据临时Mapper任务的分区方式确定Reducer任务的启动节点；

步骤3：启动Mapreduce任务，在进行Reducer任务前调度步骤2的控制器，确定Reducer任务的启动节点，启动Reducer任务，最后输出Mapreduce任务的最终结果。

所述步骤1中所述必备参数包括包括输入路径、自定义分区器、Mapper任务输出的KV类型。

具体地，步骤2包括以下几个步骤：

步骤2.1：根据定义的必备参数，生成一个只有Mapper阶段的任务，同时不输出KV，分析必备参数，得到临时Mapper任务的启动位置及启动个数；

步骤2.2：启动步骤2.1的任务，同时在每个临时Mapper任务中嵌入统计Key的计数器，该计数器对分区、Key、临时Mapper任务的节点位置和Key的数量进行动态统计，在每个临时Mapper任务结束时将对应的统计结果更新到数据库；

步骤2.3：设运行临时Mapper任务的节点即数据块的节点有n个，在临时Mapper任务的n个节点中选择任意m个节点作为Reducer任务的运行节点，一共有

选择方式，设其中任一一种选择方式为一个分区，对分区进行编号，有m！种编号方式；

步骤2.4：设每个j对应一种分区，每种分区编号下Shuffle进程数据传输量为v_i，i∈(0,m！-1)，对Key进行采样，统计每个Mapper节点对应分区的数据量，并把这个结果写入到HDFS临时文件，由HDFS临时文件统计每个map节点输出的数据在某个分区中的数据量，得到v_i；

设最佳v_i为v_min，v_min满足以下公式：

步骤2.5：用按照公式和限制条件得出的v_min确定m个节点，并按照得出的节点进行分区编号得到一组节点，该组节点为Shuffle进程中传输数据量最小、传输距离最短的节点；

步骤2.6：将步骤2.5得到的一组节点设置为Reducer任务的执行节点。

具体地，步骤3包括以下几个步骤：

步骤3.1：所述Mapreduce任务的Shuffle进程分为Map端和Reduce端；输入分片到Map端，每个输入分片由对应的每个Mapper任务进行处理，然后将Mapper任务处理结果放在一个环形内存缓冲区，若环形内存缓冲区溢出，则在本地文件系统中创建一个溢出文件，将环形内存缓冲区的数据写入这个溢出文件；

步骤3.2：根据Reducer任务的数目将数据划分为相同数目的分区，同时启动步骤2的控制器；

步骤3.3：输入分片经过Mapper任务处理完成后，将Mapper任务处理过程中产生的溢出文件进行合并，再将合并文件输出到Reduce端；

步骤3.4：Reduce端接收Map端输出的合并文件，再进行合并处理，再由步骤2的控制器确定Reducer任务的执行节点，然后开始Reducer任务；

步骤3.5：经过Reducer任务处理后，输出处理后的结果。

与现有技术相比，本发明的有益效果：

1.本发明能大大降低整个数据的传输量、磁盘的IO，不用为了某一特定任务做数据采样，具有很强的通用性；

2.本发明能屏蔽不同数据或业务逻辑的差异性，使得Shuffle进程的优化更通用；

3.本发明相对一般的Mapreduce任务，由于整个Mapper任务只有及少量的输出，且都是在本地运算，因此时间消耗极小，可以极大地提升任务的执行效率。

附图说明：

图1为本发明的使用流程图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

具体地，如图1所示，步骤2包括以下几个步骤：

设最佳v_i为v_min，v_min满足以下公式：

具体地，步骤3包括以下几个步骤：

步骤3.5：经过Reducer任务处理后，输出处理后的结果。

实施例1：

步骤2.4中，设有4个Mapper任务节点，分别为1节点、2节点、3节点和4节点，则需要分区数为2，那么Reducer任务也有2个，在1-4Mapper任务节点中任意选2个节点启动Reducer任务，一共有C_k中取法，比如选择1节点和2节点为Reducer节点的启动节点，这种取法为j，那么编号方式有m！种，即2种：

1节点：分区号0，2节点：分区号1；

1节点：分区号1，2节点：分区号2。

分区确定后，计算数据量v_i，公式为：

v_i＝(从2、3、4节点传输到1节点的数据量)+(从1、3、4节点传输到2节点的数据量)

按照上述方式计算，找到最佳v_i即v_min，确定传输量最小的启动节点，当启动Mapreduce任务后，根据该控制器确定的启动节点启动Reducer任务，减少数据传输量。

Claims

1.一种提高Mapreduce任务Shuffle性能的控制器调度方法，其特征在于，包括以下几个步骤：

步骤3：启动Mapreduce任务，在进行Reducer任务前调度步骤2的控制器，确定Reducer任务的启动节点，启动Reducer任务，最后输出Mapreduce任务的最终结果；

所述步骤2包括以下几个步骤：

步骤2.1：根据定义的必备参数，生成一个临时Mapper任务，同时不输出KV，分析必备参数，得到临时Mapper任务的启动位置及启动个数；

步骤2.3：设运行临时Mapper任务的节点有n个，在临时Mapper任务的n个节点中选择任意m个节点作为Reducer任务的运行节点，一共有

设最佳v_i为v_min，v_min满足以下公式：

2.根据权利要求1所述的一种提高Mapreduce任务Shuffle性能的控制器调度方法，其特征在于，所述步骤3包括以下几个步骤：

步骤3.5：经过Reducer任务处理后，输出处理后的结果。

3.根据权利要求1所述的一种提高Mapreduce任务Shuffle性能的控制器调度方法，其特征在于，所述步骤1中所述必备参数包括输入路径、自定义分区器、Mapper任务输出的KV类型。