CN103605576B

CN103605576B - 一种基于多线程的MapReduce执行系统

Info

Publication number: CN103605576B
Application number: CN201310602222.6A
Authority: CN
Inventors: 石宣化; 金海�; 陈明; 吴松; 陆路
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2013-11-25
Filing date: 2013-11-25
Publication date: 2017-02-08
Anticipated expiration: 2033-11-25
Also published as: CN103605576A

Abstract

本发明公开了一种基于多线程的MapReduce执行系统，包括：实现一个多线程的MapReduce执行引擎：将原有Hadoop中Map/Reduce任务的多进程执行模式改为多线程方式；提取Map任务和Reduce任务中对内存使用的细节特征，根据这些特征将MapReduce流程细粒度地分为多个阶段，并将原有Hadoop中shuffle过程由Reduce的拉取改为Map的主动推送；在MapReduce多线程执行引擎内部实现统一的内存管理模块和I/O管理模块，统一管理各个任务线程对内存的使用；设计全局的内存调度和IO调度算法，在作业执行过程中动态调度系统资源。本发明能够在用户完全无需修改原有MapReduce程序的基础上，最大化内存使用，充分利用磁盘带宽，解决原有Hadoop中一直存在的I/O瓶颈问题。

Description

一种基于多线程的MapReduce执行系统

技术领域

本发明属于大数据分布式计算领域，更具体地，涉及一种I/O高效的MapReduce执行系统。

背景技术

通用的Hadoop系统是普及最广的一个MapReduce开源系统，它以多进程的方式运行任务，各个任务在运行时没有任何联系，管理上的简单导致了资源的粗放使用。目前系统普遍场景就是多个CPU与多块磁盘将内存划分成不同的独立分区来运行程序。CPU资源严重过剩，但是调度却以CPU为核心，极大增加了系统的等待时间；内存使用相互隔离，而且Reduce的执行必须等到所有Map完成之后才能开始，内存浪费严重；同时磁盘读写不合理，并行访问磁盘，降低了磁盘效率。节点的性能无法达到理论上的最大值，且相去甚远，主要的原因就是硬件资源的配置不协调，各部件都是分散的工作没有协调统一的管理。学术界和企业界对这类问题也进行了一些积极探索。

MapReduce Online系统中最明显的改进就是提前了Reduce进程的执行时间，平衡了Map与Reduce任务之间的资源使用空隙，提高了系统的资源利用率。但是这也只是一种粗粒度的管理，杯水车薪，没有解决根本问题。

One-Pass系统缓解了内存不足的问题，通过使用hash的方式代替Merge Sort，减小了系统对内存的需求，避开了内存管理这个问题，而且它改变了原来的排序属性，减小了系统的使用范围。

ThemisMR系统首先在硬件上进行定制，争取达到硬件之间的顺滑。其次在软件层次主要有两点儿创新。一是将I/O读写次数控制到2次，避免了频繁的I/O读写对性能的影响；二是动态的自适应的内存分配使不同种类的任务得到最优的内存分配。但它是用C++重写的MapReduce计算系统，在可用性，容错性等方面不能同Hadoop相比，而且也丧失了现有程序的兼容性，很难得到广泛使用。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于多线程的MapReduce执行系统，旨在解决现有方法中存在的高成本、低效率、高门槛、以及可用性差的问题。

为实现上述目的，本发明提供了一种基于多线程的MapReduce执行系统，包括：

（1）MapReduce多线程任务执行模块，采用多线程方式执行Hadoop中的Map/Reduce任务；

（2）细粒度任务执行模块，用于提取Map任务和Reduce任务的内存使用特征，并根据这些特征将MapReduce流程分为多个阶段，并且，采用Map主动推送方式进行Hadoop的shuffle过程；

（3）内存管理模块，用于统一管理各个任务线程对内存的使用，包括动态分配和回收各个任务执行过程中使用的内存；

（4）I/O管理模块，用于统一管理各个任务线程在执行过程中对本地磁盘的读写请求，最小化磁盘I/O等待时间。

与现有技术相比，本方法具有以下的有益效果：

（1）细粒度的资源管理

将Map任务和Reduce任务对资源的使用情况细分成几个阶段，在每个阶段都有对资源的释放和回收，并对每个阶段设置不同的优先级。在出现资源争用时可首先根据不同优先级来分配资源，而在同等优先级的资源请求间分配时遵循FIFO原则。

（2）高效的资源共享机制

由于资源管理器和各个任务都执行进程的各个线程，各个任务对资源的共享可以在统一的地址空间内直接实现，避免了消息传递和资源拷贝的开销。采用分层的资源管理机制，尽可能减轻最顶层的资源管理压力，下放资源管理负担给下层调度器，以此来减少资源的竞争。

（3）良好的可扩展性和兼容性

本系统为资源申请，分配，回收都提供了统一的接口，调度算法的实现也是可配置的。用户可根据实际情况对资源管理进行扩展升级。Hadoop原有的接口并没有改变，而且对于各个任务的执行线程做了类加载器的隔离，避免了静态变量的相互干扰，因此原有的MapReduce程序可以不做任何修改直接运行在本系统上。

（4）保有原Hadoop的高可用性，容错性

本发明仅对Hadoop的执行部分进行优化，其他部分未作改变，因此原有Hadoop优良特性都能继续发挥作用。每个Map任务的中间结果依然是写磁盘的，在Reduce失效时，仍然能够仅重启该Reduce任务即可。此外本系统通过杀死任务相关线程的方式来杀死任务，仍然支持原有Hadoop的投机性执行系统。

附图说明

图1是多线程MapReduce执行系统的整体结构图。

图2是内存管理模块的结构示意图。

图3是I/O管理模块的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

Hadoop之所以被广泛使用，一个重要的原因是其成熟的代码和高可用性。本发明目的是在保持它原有的优良特性的同时提高其执行效率，为此，系统接口跟原有的Hadoop一模一样，用户在使用本发明时无需修改其原有的MapReduce程序。用户在其所在节点上通过JobClient提交作业给JobTracker，JobTracker对作业进行调度，并初始化作业，待准备就绪后在各个TaskTracker通过心跳联系JobTracker时，JobTracker就将初始化好的作业任务按照固有的调度算法分配给各个TaskTracker。该部分跟原有的Hadoop一模一样。

如图1所示，本发明基于多线程的MapReduce执行系统主要架构如下：

（1）MapReduce多线程任务执行模块（TaskExecutor），采用多线程方式执行Hadoop中的Map/Reduce任务。其中，原有Hadoop中Map/Reduce任务的多进程执行模式被改为多线程方式，具体为：在MapReduce集群中的任一个TaskTracker节点上，除了原有的TaskTracker进程之外，还开启一个多线程任务执行引擎，当TaskTracker被分配到一个Map任务或Reduce任务时，将该任务交给多线程任务执行引擎以多线程的方式执行。

其中，TaskTracker在获取任务后，将其加入待执行任务列表中。TaskExecutor周期性地访问TaskTracker，当有空余的任务槽时就从TaskTracker中拉取任务，对任务进行初始化并开启相应的线程来开启该任务。

（2）细粒度任务执行模块，用于提取Map任务和Reduce任务的内存使用特征，并根据这些特征将MapReduce流程分为多个阶段，并且，采用Map主动推送方式进行Hadoop的shuffle过程。内存使用的方式包括Map任务中的排序缓冲区，Map任务中的发送缓冲区和Reduce任务中的接收缓冲区。其中，原有Hadoop中shuffle过程由Reduce的拉取改为Map的主动推送，具体为：一旦Map任务执行完成，将其结果数据缓存在发送缓冲区中，然后主动推送发送缓冲区中的数据到Reduce任务的接收缓冲区中。

所述细粒度任务执行具体为：将Map任务分为Map函数执行、中间部分结果排序、将部分结果归并为最终结果和最终结果推送。其中，中间部分结果存放在排序缓冲区中，每个Map任务的最终结果放在发送缓冲区中。将Reduce任务分为Map数据接收、数据排序、Reduce函数执行和Reduce结果写到HDFS。其中Reduce任务从Map端接收过来的数据就放在接收缓冲区中。

（3）内存管理模块，用于统一管理各个任务线程对内存的使用，包括动态分配和回收各个任务执行过程中使用的内存。

内存管理模块采用分层的结构来管理所有Map任务和Reduce任务的内存使用请求。如图2所示，内存管理模块分为三层：最上一层为全局内存管理模块，中间一层为Map内存管理模块和Reduce内存管理模块，最下一层为具体的Map任务和Reduce任务。其中，全局内存管理模块用于协调Map内存管理模块和Reduce内存管理模块的内存使用配额；Map内存管理模块用于管理所有Map任务的内存使用请求；Reduce内存管理用于所有Reduce任务的内存使用请求。

内存管理模块在分配内存时主要根据各个内存使用类型的优先级的原则，具体为：排序缓冲区>发送缓冲区>接收缓冲区，而内存回收时的优先级跟分配时的优先级相反。当内存请求类型相同时，采用FIFO的策略来分配内存；当内存请求类型不同时，根据优先级来处理内存使用请求。

（4）I/O管理模块，用于统一管理各个任务线程在执行过程中对本地磁盘的读写请求，最小化磁盘I/O等待时间。如图3所示，I/O管理模块包括写请求管理子模块和读请求管理子模块，在读/写请求管理子模块中针对同一个文件的读/写请求都对应一个读/写请求队列，用于缓存所要读/写的数据。队列有一个上限，超过队列上限时，读/写操作会被阻塞。队列中对内存的申请和释放也是需要内存管理模块的统一管理。

I/O管理模块主要用到交错I/O和异步I/O的技术。其中交错I/O是指多个I/O请求按照一定的粒度交错地进行I/O的方式。由于并发I/O会导致磁盘寻道，而串行I/O虽然效率最高但会丧失公平性，因此用交错I/O的方式来提高磁盘效率的同时保持一定的公平性。异步I/O是指I/O管理模块用独立的线程来进行I/O操作，以重叠CPU计算和磁盘I/O。

I/O管理模块对多个I/O请求的调度主要根据I/O优先级的原则，优先级的设置为：

（1）主动I/O>被动I/O，其中，主动I/O是指系统主动进行的I/O操作，比如为了容错需要将Map的结果数据主动写磁盘；被动I/O是指由于内存不足需要将缓冲区中的数据先写到磁盘中。

（2）被动I/O主要用于内存回收，其优先级跟内存分配时的优先级顺序相反，即：接收缓冲区>发送缓冲区>排序缓冲区。

处理不同优先级的请求时，直接按照优先级大小的顺序来完成I/O操作；处理相同优先级的请求时，采用交错I/O的方式。

在本实施例中，ResourceScheduler也即内存管理模块和I/O管理模块，它们都以单例模式在MapReduce多线程任务执行模块中运行，各个任务对内存的使用都是通过内存管理模块来调度分配，各个任务进行的磁盘读写操作都是通过I/O管理模块来统一管理。

为了验证本发明系统的可行性和有效性，在真实环境下配置本发明系统，对Hadoop典型应用集合进行实验。

本发明的Hadoop集群基本硬件和软件配置如表1所示：

表1

本发明的部署非常简单：首先，首先，将修改后的代码用ant进行重新编译，生成新的jar包，只需用其替换掉原有的hadoop-core-1.0.1.jar包即可。其次，需要在配置文件中添加一个新的配置选项如下：

<name>mapred.job.child.java.opts</name>

</property>

该配置选项将告知任务执行引擎能够使用的内存上限。最后，原有的用户代码无需任何修改，直接按照使用原有hadoop的方式运行作业即可。

在用户的作业提交之后，分配到每个节点的任务都会以线程的方式在多线程任务执行引擎中运行；根据MapReduce各个阶段对内存的使用特点不同，Map/Reduce任务被细粒度地划分为多个阶段；每一个任务在需要新的内存时都必须向内存管理模块申请，内存管理模块根据内存请求的优先级来统一分配内存；当有I/O操作发生时，通过统一的I/O接口，所有的I/O请求都被提交给I/O管理模块来统一管理，I/O管理模块内部用异步I/O和串行I/O的方式实现并能根据I/O请求的优先级来调度I/O，来减少不必要的I/O等待并能有效提升I/O效率。本发明能够根据作业的实时运行信息动态地调节内存的使用，通过内存使用效率的最大化来尽可能地减少中间数据I/O；当有I/O发生时又能够通过全局的I/O管理来实现I/O效率的最大化。通过以上这些设计能够有效地解决I/O瓶颈问题。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多线程的MapReduce执行系统，包括：

(1)MapReduce多线程任务执行模块，采用多线程方式执行Hadoop中的Map/Reduce任务；

(2)细粒度任务执行模块，用于提取Map任务和Reduce任务的内存使用特征，并根据这些特征将MapReduce流程分为多个阶段，并且，采用Map主动推送方式进行Hadoop的shuffle过程；

(3)内存管理模块，用于统一管理各个任务线程对内存的使用，包括动态分配和回收各个任务执行过程中使用的内存；

(4)I/O管理模块，用于统一管理各个任务线程在执行过程中对本地磁盘的读写请求，最小化磁盘I/O等待时间。

2.根据权利要求1所述的基于多线程的MapReduce执行系统，其中，所述采用多线程方式执行Hadoop中的Map/Reduce任务具体为：在MapReduce集群中的任一个TaskTracker节点上，除了原有的TaskTracker进程之外，还开启一个多线程任务执行引擎，当TaskTracker被分配到一个Map任务或Reduce任务时，将该任务交给多线程任务执行引擎以多线程的方式执行。

3.根据权利要求1所述的基于多线程的MapReduce执行系统，其中，所述内存使用的方式包括Map任务中的排序缓冲区，Map任务中的发送缓冲区和Reduce任务中的接收缓冲区。

4.根据权利要求1所述的基于多线程的MapReduce执行系统，其中，所述细粒度任务执行具体为：将Map任务分为Map函数执行、中间部分结果排序、将部分结果归并为最终结果和最终结果推送；将Reduce任务分为Map数据接收、数据排序、Reduce函数执行和Reduce结果写到HDFS。

5.根据权利要求3所述的基于多线程的MapReduce执行系统，其中，所述Map主动推送具体为：一旦Map任务执行完成，将其结果数据缓存在所述发送缓冲区中，然后主动推送所述发送缓冲区中的数据到Reduce任务的所述接收缓冲区中。

6.根据权利要求1所述的基于多线程的MapReduce执行系统，其中，所述内存管理模块和所述I/O管理模块以单例模式在MapReduce多线程任务执行模块中运行，各个任务对内存的使用通过内存管理模块来调度分配，各个任务进行的磁盘读写操作通过I/O管理模块来统一管理。

7.根据权利要求1所述的基于多线程的MapReduce执行系统，其中，所述内存管理模块分为三层：最上一层为全局内存管理模块，中间一层为Map内存管理模块和Reduce内存管理模块，最下一层为具体的各个Map任务和Reduce任务。

8.根据权利要求7所述的基于多线程的MapReduce执行系统，其中，全局内存管理模块用于协调Map内存管理模块和Reduce内存管理模块的内存使用配额；Map内存管理模块用于管理所有Map任务的内存使用请求；Reduce内存管理用于所有Reduce任务的内存使用请求。

9.根据权利要求1所述的基于多线程的MapReduce执行系统，其中，内存管理模块在分配内存时根据各个内存使用类型的优先级的原则，具体为：排序缓冲区>发送缓冲区>接收缓冲区，而回收内存时的优先级跟分配内存时的优先级相反。

10.根据权利要求9所述的基于多线程的MapReduce执行系统，其中，当内存请求类型相同时，采用FIFO的策略来分配内存；当内存请求类型不同时，根据优先级来处理内存使用请求。

11.根据权利要求1所述的基于多线程的MapReduce执行系统，其中，I/O管理模块包括写请求管理子模块和读请求管理子模块，在读/写请求管理子模块中针对同一个文件的读/写请求都对应一个读/写请求队列，用于缓存所要读/写的数据。

12.根据权利要求3所述的基于多线程的MapReduce执行系统，其中，I/O管理模块使用交错I/O和异步I/O，其中交错I/O是指多个I/O请求按照一定的粒度交错地进行I/O；异步I/O是指I/O管理模块用独立的线程来进行I/O操作，以重叠CPU计算和磁盘I/O。

13.根据权利要求12所述的基于多线程的MapReduce执行系统，其中，I/O管理模块对多个I/O请求的调度根据I/O优先级的原则，所述优先级的设置为：

(1)主动I/O>被动I/O，其中，主动I/O是指系统主动进行的I/O操作；被动I/O是指由于内存不足需要将缓冲区中的数据先写到磁盘中；

(2)被动I/O用于内存回收，其优先级跟内存分配时的优先级顺序相反，即：接收缓冲区>发送缓冲区>排序缓冲区。

14.根据权利要求13所述的基于多线程的MapReduce执行系统，其中，处理不同优先级的请求时，直接按照优先级大小的顺序来完成I/O操作；处理相同优先级的请求时，采用所述交错I/O的方式。