CN102880510A

CN102880510A - 基于多数据架构中心面向数据密集型应用的并行编程方法

Info

Publication number: CN102880510A
Application number: CN2012103596008A
Authority: CN
Inventors: 王力哲
Original assignee: CENTER FOR EARTH OBSERVATION AND DIGITAL EARTH CHINESE ACADEMY OF SCIENCES
Current assignee: CENTER FOR EARTH OBSERVATION AND DIGITAL EARTH CHINESE ACADEMY OF SCIENCES
Priority date: 2012-09-24
Filing date: 2012-09-24
Publication date: 2013-01-16

Abstract

本发明涉及一种基于多数据架构中心面向数据密集型应用的并行编程方法，包括构建系统架构的主节点、构建系统架构的子节点、加载、执行等步骤。本发明的有益效果为：大规模数据密集型科学数据领域技术人员，无需熟悉基于多数据中心的并行计算模型、也无需具备与高性能计算相关的MapReduce和MPI并行编程技术，只需要在多个分布式机群上进行简单配置，并加载MapReduce计算任务，无需改变已有集群系统的软硬件配置，就可实现架构于多数据中心，基于MapReduce编程模型的数据密集型应用的快速并行化，达到较高的并行效率，从而大大提高大规模分布式数据密集型科学数据的处理性能。

Description

基于多数据架构中心面向数据密集型应用的并行编程方法

技术领域

本发明涉及大规模数据密集型科学数据处理技术领域，尤其涉及一种基于多数据架构中心面向数据密集型应用的并行编程方法。

背景技术

万维网的快速增长产生了大量可用的在线信息。此外，社会、科学和工程应用也产生了大量结构化和非结构化的信息，这些信息需要被处理、分析和连接。目前，典型的数据密集型计算使用数据中心架构和大规模数据处理模式。本发明研究基于多个数据中心的大规模数据处理模型。

近年来，多个分布式机群或数据中心的数据密集型科学数据分析需求显著增长。一个数据密集型分析的好例子是高能物理领域（HEP，High Energy Physics），包括ALICE，ATLAS，CMS和LHCB在内的大型强子对撞机（LHC，Large Hadron Collider）的四个主要探测器在2010年产生了13PB的数据，这些大量数据存储在LHC世界范围内的计算网格中，包括分布在34个国家的140多个计算中心[3,4]。这些分布在全球的分布式计算中心通过广域网相连，彼此之间的数据拷贝过程是低效而乏味的。通过在多个机群之上使用数据并行处理模式，科学家们的模拟计算能够并发地在多计算中心上进行，并且不需要数据拷贝。

当前的数据密集型工作流系统，例如DAGMan、Pegasus、Swift、Kepler、Virtual Workflow、Virtual Data System和Taverna，被用于跨多数据中心的分布式数据处理。在多数据中心上使用工作流模式有如下限制：1）工作流提供粗粒度并行，并且不能满足高吞吐数据处理需求，这些高吞吐数据处理往往需要大规模并行处理；2）典型的数据密集型计算工作流系统需要多任务间大量的数据传输，有时会带来不必要的数据块或数据集移动；3）工作流系统必须考虑任务执行和数据传输的容错问题，容错是数据密集型计算实现的重要问题。将谷歌的MapReduce用于分布式数据中心的数据处理，能够克服工作流系统的上述限制。

MapReduce是谷歌提出用于大规模数据集的并行编程模型，它基于两个主要过程：映射（Map）和规约（Reduce）。映射函数用来把一组键值对映射成一组新的键值对，规约函数合并所有相同的中间值。许多现实世界的应用都采用MapReduce模型。Gfarm文件系统是一个分布式文件系统，用于共享全球范围内大量的分布式数据。Gfarm文件系统支持在计算节点上的本地存储能力。

因此目前亟需提出基于多数据中心面向数据密集型应用的并行编程方法设计和实现。为了共享多个管理域的数据集，我们使用了Gfarm文件系统来代替Hadoop的文件系统HDFS（Hadoop Distributed File System）。用户向Gfarm提交他们的MapReduce应用，基于多数据中心面向数据密集型应用的并行编程模型执行映射（map）和化简（reduce）任务。

基于多数据中心面向数据密集型应用的并行编程方法提供了一个基于MapReduce的并行处理环境，处理分布式机群的大规模数据集。与现有的数据密集型工作流系统相比，该方法实现了细粒度的数据并行处理，达到高吞吐数据处理性能，并且提供大规模数据处理的容错功能。

发明内容

本发明的目的是提供一种基于多数据架构中心面向数据密集型应用的并行编程方法，在保持各机群的自治性和现有Hadoop的MapReduce程序兼容性前提下，通过构建基于MapReduce编程模型的框架，能够自动加载MapReduce任务，使之在多个全球分布的机群节点上并行执行，解决多数据中心的数据密集型应用的并行编程问题。

本发明的目的通过以下技术方案来实现：

一种基于多数据架构中心面向数据密集型应用的并行编程方法，包括以下步骤：

1）构建系统架构的主节点，接收用户提交的若干作业，并通过主节点将所述作业分割成相对应的次一级任务，并将所述次一级任务分布到子节点上, 所述主节点包括元数据Metadata服务器和作业跟踪程序JobTracker服务器，所述元数据Metadata服务器使用Gfarm文件系统未经修改的元数据服务器，元数据服务器管理分布在多个机群上的文件，决定文件的实际位置，管理文件的复制，协调多个客户对文件的访问；元数据服务器还需要管理用户访问控制信息，所述作业跟踪程序JobTracker服务器使用一个数据感知的调度器，在考虑数据所在位置的基础上，将计算任务分布到多个机群中；

2）构建系统架构的子节点，所述子节点包括任务跟踪程序TaskTracker服务器、作业跟踪程序、I/O服务器程序和网络共享程序；

3）将MapReduce应用及其配置置于网络的共享位置中，供机群中的所有计算节点访问共享位置中的作业，并加以执行；以及

4）设计自动加载MapReduce作业并行处理模型，所述并行处理模型包括提交作业、作业初始化、任务分配、任务定位、任务提交、任务执行和释放资源功能。

进一步的，所述任务跟踪程序TaskTracker服务器负责接收和执行分布式资源管理应用接口DRMAA Gfarm Plugin送来的任务，所述作业跟踪程序使用一个分布式资源管理应用接口DRMAA的java库进行任务提交；所述子节点上的I/O服务器管理存储在子节点中的数据，所述主节点上的I/O服务器将数据存储在机群的高性能文件系统中。

本发明的有益效果为：大规模数据密集型科学数据领域技术人员，无需熟悉基于多数据中心的并行计算模型、也无需具备与高性能计算相关的MapReduce和MPI并行编程技术，只需要在多个分布式机群上进行简单配置，并加载MapReduce计算任务，无需改变已有集群系统的软硬件配置，就可实现架构于多数据中心，基于MapReduce编程模型的数据密集型应用的快速并行化，达到较高的并行效率，从而大大提高大规模分布式数据密集型科学数据的处理性能。

附图说明

图1为本发明实施例所述的基于多数据架构中心面向数据密集型应用的并行编程方法的体系结构图；

图2为本发明中主节点的软件组成部分示意图；

图3为本发明中子节点的软件组成部分示意图；

图4为本发明中一个MapReduce任务的执行流程示意图。

具体实施方式

本发明实施例所述的一种基于多数据架构中心面向数据密集型应用的并行编程方法，包括以下步骤：

1）构建系统架构的主节点，接收用户提交的若干作业，并通过主节点将所述作业分割成相对应的次一级任务，并将所述次一级任务分布到子节点上；主节点分为上下两层。首先，在作为系统主节点的计算机系统上安装Hadoop和Gfarm软件包。Hadoop是一个分布式计算平台，它实现了一个分布式文件系统。Gfarm也是一个分布式文件系统。Hadoop工作在主节点的上层，负责作业提交和跟踪管理。Gfarm工作在主节点的下层，负责管理存储系统。其次，在Hadoop和Gfarm之间安装一个GfarmFS Hadoop-Plugin插件软件程序，负责Hadoop和Gfarm的通讯。最后，分别在Hadoop上运行JobTracker程序，在Gfarm上运行Meta Data Server程序；

所述主节点包括元数据Metadata服务器和作业跟踪程序JobTracker服务器，所述元数据Metadata服务器使用Gfarm文件系统未经修改的元数据服务器，元数据服务器管理分布在多个机群上的文件，决定文件的实际位置，管理文件的复制，协调多个客户对文件的访问；元数据服务器还需要管理用户访问控制信息，所述作业跟踪程序JobTracker服务器使用一个数据感知的调度器，在考虑数据所在位置的基础上，将计算任务分布到多个机群中；

2）构建系统架构的子节点，所述子节点包括任务跟踪程序TaskTracker服务器、作业跟踪程序、I/O服务器程序和网络共享程序，在作为系统子节点的计算机系统上安装Hadoop和Gfarm软件包。其次，在Hadoop和Gfarm之间安装一个GfarmFS Hadoop-Plugin插件软件程序，负责Hadoop和Gfarm的通讯。最后，在Hadoop上运行TaskTracker程序，在Gfarm上运行I/O Server程序，TaskTracker程序等待管理主节点分配来的任务，I/O Server程序等待为这些任务进行数据的读写；

所述任务跟踪程序TaskTracker服务器负责接收和执行分布式资源管理应用接口DRMAA Gfarm Plugin送来的任务，所述作业跟踪程序使用一个分布式资源管理应用接口DRMAA的java库进行任务提交；所述子节点上的I/O服务器管理存储在子节点中的数据，所述主节点上的I/O服务器将数据存储在机群的高性能文件系统中；

具体实施时，基于多数据架构中心面向数据密集型应用的并行编程方法的具体应用流程如下：

1）提交作业。用户在客户节点上调用runJob()方法，开始进行一个MapReduce应用，runJob实例化产生一个JobClient，JobClient是Hadoop的MapReduce堆栈的一部分，负责向系统提交作业。JobClient首先联系主节点上的作业跟踪程序（JobTracker），为新作业请求一个唯一的ID，JobClient把MapReduce执行程序、配置参数和输入文件等附加资源赋值到一个指定的Gfarm文件系统目录中。JobClient把作业提交给任务跟踪程序，用于执行。

2）作业初始化。在主节点上，作业跟踪程序（JobTracker）对作业进行初始化，通过generateInputSplit()方法把作业分割成多个任务，该方法由用户实现，并联系Gfarm元数据服务器，请求得到作业输入文件的所有位置信息。由于Gfarm文件系统使用基于文件的方法，所以不同大小的文件被定位在不同的机群上。映像文件的编号被设置为输入文件的编号，每个任务使用一个文件作为它的输入数据。

3）任务分配。子节点上的任务跟踪程序（TaskTracker）使用心跳消息协议，定期向作业跟踪程序（JobTracker）询问是否有新的任务。基于输入文件的位置信息，任务倾向于分配给输入数据所在的机群。作业跟踪程序（JobTracker）使用单个心跳消息能够回答多个新任务请求。

4）任务定位。当任务跟踪程序（TaskTracker）收到一个新任务，它通过把Gfarm文件系统的工作目录复制到一个网络共享程序，将可执行任务和资源进行定位。

5）任务提交。任务被任务跟踪程序（TaskTracker）定位到机群上之后，使用分布式资源管理应用接口（DRMAA），将可执行程序和它的工作目录提交给机群调度器。

6）任务执行。机群调度器选择一个空闲的计算节点用于新任务的执行。计算节点从作业工作目录的共享位置获得可执行程序，需要的库文件（例如Hadoop和Gfarm）必须被放在机群指定的共享位置，用于访问。在计算节点上产生一个新的Java虚拟机（JVM），执行这个作业，使用配置好的参数运行相应的任务。这些任务包括映射（Map）任务和化简（Reduce）任务。如果是映射任务，则开始读取任务的输入文件，输出内容被写入到机群的一个共享目录中，并进行排序。如果是化简任务，则联系任务跟踪程序（TaskTracker）取回映射任务产生的输出内容。如果化简任务和映射任务产生的输出是在同一个机群上，那么从公共共享区域读取文件，否则使用超文本传输协议(HTTP)从其它机群上取回映射输出。化简任务的结果通常被写入到Gfarm文件系统中。在任务执行过程中，定期向任务跟踪程序（TaskTracker）报告任务的状态，当任务执行完成后，向任务跟踪程序（TaskTracker）报告完成状态，并退出。

7）释放资源。当机群调度器执行完任务，任务跟踪程序将释放资源，并且准备执行下一个任务。

按以上步骤，设计了一个面向多数据架构中心的数据密集型应用并行编程方法，适用于执行MapReduce作业。该方法由MapReduce并行编程模型、Gfarm分布式文件系统、主节点程序和子节点程序组成，已经实现了MapReduce作业在多数据中心上的并行执行。

虽然以上仅描述了本发明的具体实施方式范例，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更或修改均落入本发明的保护范围。

Claims

1.一种基于多数据架构中心面向数据密集型应用的并行编程方法，其特征在于，包括以下步骤：

1）构建系统架构的主节点，接收用户提交的若干作业，并通过主节点将所述作业分割成相对应的次一级任务，并将所述次一级任务分布到子节点上；

2.根据权利要求1所述的一种基于多数据架构中心面向数据密集型应用的并行编程方法，其特征在于：所述主节点包括元数据Metadata服务器和作业跟踪程序JobTracker服务器，所述元数据Metadata服务器使用Gfarm文件系统未经修改的元数据服务器，元数据服务器管理分布在多个机群上的文件，决定文件的实际位置，管理文件的复制，协调多个客户对文件的访问；元数据服务器还管理用户访问控制信息，所述作业跟踪程序JobTracker服务器使用一个数据感知的调度器，在考虑数据所在位置的基础上，将计算任务分布到多个机群中。

3.根据权利要求2所述的一种基于多数据架构中心面向数据密集型应用的并行编程方法，其特征在于：所述任务跟踪程序TaskTracker服务器负责接收和执行分布式资源管理应用接口DRMAA Gfarm Plugin送来的任务，所述作业跟踪程序使用一个分布式资源管理应用接口DRMAA的java库进行任务提交。

4.根据权利要求3所述的一种基于多数据架构中心面向数据密集型应用的并行编程方法，其特征在于：；所述子节点上的I/O服务器管理存储在子节点中的数据，所述主节点上的I/O服务器将数据存储在机群的高性能文件系统中。