CN106934017A

CN106934017A - 一种用lustre文件系统替换Hadoop的HDFS文件系统的方法

Info

Publication number: CN106934017A
Application number: CN201710142926.8A
Authority: CN
Inventors: 魏桂宝
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-03-10
Filing date: 2017-03-10
Publication date: 2017-07-07

Abstract

本发明提供了一种用lustre文件系统替换Hadoop的HDFS文件系统的方法，包括步骤：A、安装并配置lustre文件系统；B、挂载步骤A中安装并配置的lustre文件系统；C、安装Hadoop，并配置该已安装Hadoop对应的各配置文件；D、在步骤C中安装的Hadoop对应的Hadoop节点类库目录下添加Hadoop‑lustre‑plugin‑<HAL Version>.jar包，并修改步骤C中所述Hadoop的相应配置文件及相关环境变量，使步骤C中所安装的Hadoop能直接访问步骤B中所挂载的lustre文件系统。本发明能提高Hadoop系统性能，并能增加Hadoop系统的可扩展性。

Description

一种用lustre文件系统替换Hadoop的HDFS文件系统的方法

技术领域

本发明涉及计算机技术领域，具体是一种用lustre文件系统替换Hadoop的HDFS文件系统的方法。

背景技术

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。其实现了一个分布式文件系统(Hadoop Distributed File System，简称HDFS)，允许用户在不了解分布式底层细节的情况下，开发分布式程序。

此外，HDFS有高容错性的特点，并且设计用来部署在低廉的(low-cost)硬件上；而且它提供高吞吐量(high throughput)来访问应用程序的数据，尤其适于用于处理超大数据集(large data set)的应用程序。此外，Hadoop作为一种分布式数据和计算的框架，尤其适于存储大量的半结构化的数据集，且非常适于分布式计算--快速地跨多台机器处理大型数据集合。

但在HDFS上使用Hadoop有以下缺点：

1)Hadoop在Map/Reduce过程中有时会生成大量的临时或中间数据。而HDFS将这些文件存储在本地磁盘上，这会导致操作系统和磁盘I/O负载相当大。

2)在Map/Reduce过程中，Reduce节点使用HTTP协议，从Map节点协议中检索Map结果。而HTTP不支持RDMA协议(RDMA协议是当前分布式文件系统常用且常常需要的协议)，不是大数据传输的好选择。

3)Hadoop用于Map/Reduce作业，难以将HDFS作为正常的文件系统扩展使用。

4)对于小文件来说，使用Hadoop比较耗时。

此为现有技术的不足之处。

发明内容

本发明所要解决的技术问题是，针对现有技术的不足，提供一种用lustre文件系统替换Hadoop的HDFS文件系统的方法，用于提高Hadoop系统性能，增加Hadoop系统的可扩展性。

为解决上述技术问题，本发明提供了一种用lustre文件系统替换Hadoop的HDFS文件系统的方法，包括步骤：

A、安装并配置lustre文件系统；

B、挂载步骤A中安装并配置的lustre文件系统；

C、安装Hadoop，并配置该已安装Hadoop对应的各配置文件；

D、在步骤C中安装的Hadoop对应的Hadoop节点类库目录下添加Hadoop-lustre-plugin-<HAL Version>.jar包，并修改步骤C中所述Hadoop的相应配置文件及相关环境变量，使步骤C中所安装的Hadoop能直接访问步骤B中所挂载的lustre文件系统。

上述步骤A中安装并配置lustre文件系统的方法包括以下步骤：

s1、初始化步骤：关闭防火墙与selinux，将hadoop各节点名称加入host文件，配置ssh无密码登录，编辑/etc/modprobe/lustre.conf文件，使lustre模块采用IB网络；

s2、lustre服务端安装与配置步骤：在mds服务器和oss服务器上分别安装lustre服务端软件及与其配合使用的e2fs，配置mdt服务器、mgs服务器、oss服务器，然后加载lustre模块；

s3、lustre客户端安装与配置步骤：在Hadoop节点上编译并安装lustre客户端，加载lustre模块并挂载该当前加载的lustre模块。

其中，步骤C中安装并配置Hadoop的方法包括步骤：

p1、在Hadoop节点上安装当前所要安装的Hadoop对应版本的jdk，并配置该对应版本的jdk的环境变量；

p2、安装步骤p1中所述的当前所要安装的Hadoop；

p3、配置步骤p2中已安装的Hadoop的环境变量，并为该已安装的Hadoop增添相应的配置文件：Hadoop-env.sh，yarn-env.sh，core-site.xml，HDFS-site.xml，mapred-site.xml，yarn-site.xml，masters，及slaves。

其中，步骤D中所述的Hadoop的相应配置文件包括：core-site.xml，yarn-site.xml，以及mapred-site.xml。

其中，在步骤D中所述Hadoop的相应配置文件core-site.xml中，将Hadoop的fs.defaultFS端口值修改为所述步骤B中所挂载的lustre文件系统的端口值；在步骤D中所述Hadoop的相应配置文件yarn-site.xml中，指定resourcemanager所在的Hadoop节点，并配置nodemanager节点所使用内存的大小；在步骤D中所述Hadoop的相应配置文件mapred-site.xml中，配置JobTracker的address、scheduler和queue。

此外，在所述的步骤D之后还包括步骤E：

创建Hadoop实例的步骤，用于验证当前所安装的Hadoop能否直接访问步骤B中所挂载的lustre文件系统。

其中，步骤E中所述的创建Hadoop实例的步骤包括：

步骤t1、停止Hadoop的HDFS服务和Yarn服务；

步骤t2、创建用于验证Hadoop能否直接访问步骤B中所挂载的lustre文件系统的Hadoop实例；

步骤t3、启用Hadoop的yarn服务，创建完成步骤E中所述的Hadoop实例。

与现有技术相比，本发明的优点在于：

(1)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法，该方法的使用，使Hadoop成为一个并行文件系统，允许临时或中间数据并行存储在多个节点上，这在很大程度上可减少单个Hadoop节点上的负载；

(2)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法，该方法的使用，使Hadoop因Lustre拥有的自身网络协议，更适于对批量数据的传输；

(3)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法，该方法的使用，使Hadoop成为一个共享文件系统，每个客户端都能看到相同的文件系统映像，可使用硬链接来避免使Hadoop节点之间的数据传输；

(4)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法，该方法的使用，使Hadoop也可以作为标准POSIX文件系统进行安装；

(5)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法，使用于高性能计算的lustre文件系统与大数据计算相结合，填补了lustre文件系统在大数据方面的空白。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

图1为本发明所述用lustre文件系统替换Hadoop的HDFS文件系统的方法的方法流程图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面将结合附图，对本发明的技术方案进行清楚、完整地描述。

具体实施方式1：

图1为本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法的方法流程图。该用lustre文件系统替换Hadoop的HDFS文件系统的方法，包括以下步骤A-D：

步骤A、安装并配置lustre文件系统。

该步骤A通过以下方法步骤完成所述lustre文件系统的安装与配置：

步骤B、挂载步骤A中安装并配置的lustre文件系统。

步骤C、安装Hadoop，并配置该已安装Hadoop对应的各配置文件。

该步骤C中安装并配置Hadoop的方法包括步骤：

p2、安装步骤p1中所述的当前所要安装的Hadoop；

步骤D、在步骤C中安装的Hadoop对应的Hadoop节点类库目录下添加Hadoop-lustre-plugin-<HAL Version>.jar包，并修改步骤C中所述Hadoop的相应配置文件及相关环境变量，使步骤C中所安装的Hadoop能直接访问步骤B中所挂载的lustre文件系统。

在本实施方式中，该步骤D中所述的Hadoop的相应配置文件包括：core-site.xml，yarn-site.xml，以及mapred-site.xml。其中，为使上述步骤C中所安装的Hadoop能直接访问步骤B中所挂载的lustre文件系统，在该所述的相应配置文件core-site.xml中，将Hadoop的fs.defaultFS端口值修改为所述步骤B中所挂载的lustre文件系统的端口值；在该所述的相应配置文件yarn-site.xml中，指定resourcemanager所在的Hadoop节点，并配置nodemanager节点所使用内存的大小；在该所述的相应配置文件mapred-site.xml中配置JobTracker的address、scheduler和queue。

本发明使用时，首先安装并配置lustre文件系统，并挂载该安装与完成配置的lustre文件系统；之后安装Hadoop，并配置该已安装的Hadoop对应的各配置文件，完成Hadoop的安装与常规配置；最后在上述安装的Hadoop对应的Hadoop节点类库目录下添加Hadoop-lustre-plugin-<HAL Version>.jar包，并修改上述所安装的Hadoop的相应配置文件及相关环境变量，从而即可实现上述所安装的Hadoop对上述所挂载的lustre文件系统的直接访问。便于实现。

此外，对于所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法，在其所包含的上述步骤D之后还包括步骤E：

其中，上述步骤E中所述的创建Hadoop实例的步骤包括：

步骤t1、停止Hadoop的HDFS服务和Yarn服务；步骤t2、创建用于验证Hadoop能否直接访问步骤B中所挂载的lustre文件系统的Hadoop实例；步骤t3、启用Hadoop的yarn服务，创建完成步骤E中所述的Hadoop实例。使用时，运行Hadoop的MapReduce Job，通过运行结果，即可验证用lustre文件系统替换Hadoop的HDFS文件系统后Hadoop的功能完整性。

需要说明的是，本发明中未记载的内容，皆为本领域技术人员依据实际需要及结合现有技术能够实现的内容，为简化说明书的内容，在此不再赘述。

综上，基于本发明，使得lustre文件系统克服了其对条带化数据的位置信息不能完美的暴漏出来的不足；也使得Hadoop在很大程度上规避了HDFS的缺点，不仅提高了其(Hadoop)系统性能，也增加了其(Hadoop)扩展性。且便于实现。较为实用。

以上实施方式仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施方式对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施方式技术方案的范围。

Claims

1.一种用lustre文件系统替换Hadoop的HDFS文件系统的方法，其特征在于，包括步骤：

A、安装并配置lustre文件系统；

B、挂载步骤A中安装并配置的lustre文件系统；

C、安装Hadoop，并配置该已安装Hadoop对应的各配置文件；

2.根据权利要求1所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法，其特征在于，上述步骤A中安装并配置lustre文件系统的方法包括以下步骤：

3.根据权利要求1或2所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法，其特征在于，步骤C中安装并配置Hadoop的方法包括步骤：

p2、安装步骤p1中所述的当前所要安装的Hadoop；

4.根据权利要求1或2所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法，其特征在于，步骤D中所述的Hadoop的相应配置文件包括：core-site.xml，yarn-site.xml，以及mapred-site.xml。

5.根据权利要求4所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法，其特征在于，在步骤D中所述Hadoop的相应配置文件core-site.xml中，将Hadoop的fs.defaultFS端口值修改为所述步骤B中所挂载的lustre文件系统的端口值；在步骤D中所述Hadoop的相应配置文件yarn-site.xml中，指定resourcemanager所在的Hadoop节点，并配置nodemanager节点所使用内存的大小；在步骤D中所述Hadoop的相应配置文件mapred-site.xml中，配置JobTracker的address、scheduler和queue。

6.根据权利要求1或2所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法，其特征在于，在所述的步骤D之后还包括步骤E：

7.根据权利要求6所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法，其特征在于，步骤E中所述的创建Hadoop实例的步骤包括：

步骤t1、停止Hadoop的HDFS服务和Yarn服务；