CN106934017A - 一种用lustre文件系统替换Hadoop的HDFS文件系统的方法 - Google Patents

一种用lustre文件系统替换Hadoop的HDFS文件系统的方法 Download PDF

Info

Publication number
CN106934017A
CN106934017A CN201710142926.8A CN201710142926A CN106934017A CN 106934017 A CN106934017 A CN 106934017A CN 201710142926 A CN201710142926 A CN 201710142926A CN 106934017 A CN106934017 A CN 106934017A
Authority
CN
China
Prior art keywords
hadoop
file system
lustre
xml
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710142926.8A
Other languages
English (en)
Inventor
魏桂宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710142926.8A priority Critical patent/CN106934017A/zh
Publication of CN106934017A publication Critical patent/CN106934017A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用lustre文件系统替换Hadoop的HDFS文件系统的方法,包括步骤:A、安装并配置lustre文件系统;B、挂载步骤A中安装并配置的lustre文件系统;C、安装Hadoop,并配置该已安装Hadoop对应的各配置文件;D、在步骤C中安装的Hadoop对应的Hadoop节点类库目录下添加Hadoop‑lustre‑plugin‑<HAL Version>.jar包,并修改步骤C中所述Hadoop的相应配置文件及相关环境变量,使步骤C中所安装的Hadoop能直接访问步骤B中所挂载的lustre文件系统。本发明能提高Hadoop系统性能,并能增加Hadoop系统的可扩展性。

Description

一种用lustre文件系统替换Hadoop的HDFS文件系统的方法
技术领域
本发明涉及计算机技术领域,具体是一种用lustre文件系统替换Hadoop的HDFS文件系统的方法。
背景技术
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。其实现了一个分布式文件系统(Hadoop Distributed File System,简称HDFS),允许用户在不了解分布式底层细节的情况下,开发分布式程序。
此外,HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,尤其适于用于处理超大数据集(large data set)的应用程序。此外,Hadoop作为一种分布式数据和计算的框架,尤其适于存储大量的半结构化的数据集,且非常适于分布式计算--快速地跨多台机器处理大型数据集合。
但在HDFS上使用Hadoop有以下缺点:
1)Hadoop在Map/Reduce过程中有时会生成大量的临时或中间数据。而HDFS将这些文件存储在本地磁盘上,这会导致操作系统和磁盘I/O负载相当大。
2)在Map/Reduce过程中,Reduce节点使用HTTP协议,从Map节点协议中检索Map结果。而HTTP不支持RDMA协议(RDMA协议是当前分布式文件系统常用且常常需要的协议),不是大数据传输的好选择。
3)Hadoop用于Map/Reduce作业,难以将HDFS作为正常的文件系统扩展使用。
4)对于小文件来说,使用Hadoop比较耗时。
此为现有技术的不足之处。
发明内容
本发明所要解决的技术问题是,针对现有技术的不足,提供一种用lustre文件系统替换Hadoop的HDFS文件系统的方法,用于提高Hadoop系统性能,增加Hadoop系统的可扩展性。
为解决上述技术问题,本发明提供了一种用lustre文件系统替换Hadoop的HDFS文件系统的方法,包括步骤:
A、安装并配置lustre文件系统;
B、挂载步骤A中安装并配置的lustre文件系统;
C、安装Hadoop,并配置该已安装Hadoop对应的各配置文件;
D、在步骤C中安装的Hadoop对应的Hadoop节点类库目录下添加Hadoop-lustre-plugin-<HAL Version>.jar包,并修改步骤C中所述Hadoop的相应配置文件及相关环境变量,使步骤C中所安装的Hadoop能直接访问步骤B中所挂载的lustre文件系统。
上述步骤A中安装并配置lustre文件系统的方法包括以下步骤:
s1、初始化步骤:关闭防火墙与selinux,将hadoop各节点名称加入host文件,配置ssh无密码登录,编辑/etc/modprobe/lustre.conf文件,使lustre模块采用IB网络;
s2、lustre服务端安装与配置步骤:在mds服务器和oss服务器上分别安装lustre服务端软件及与其配合使用的e2fs,配置mdt服务器、mgs服务器、oss服务器,然后加载lustre模块;
s3、lustre客户端安装与配置步骤:在Hadoop节点上编译并安装lustre客户端,加载lustre模块并挂载该当前加载的lustre模块。
其中,步骤C中安装并配置Hadoop的方法包括步骤:
p1、在Hadoop节点上安装当前所要安装的Hadoop对应版本的jdk,并配置该对应版本的jdk的环境变量;
p2、安装步骤p1中所述的当前所要安装的Hadoop;
p3、配置步骤p2中已安装的Hadoop的环境变量,并为该已安装的Hadoop增添相应的配置文件:Hadoop-env.sh,yarn-env.sh,core-site.xml,HDFS-site.xml,mapred-site.xml,yarn-site.xml,masters,及slaves。
其中,步骤D中所述的Hadoop的相应配置文件包括:core-site.xml,yarn-site.xml,以及mapred-site.xml。
其中,在步骤D中所述Hadoop的相应配置文件core-site.xml中,将Hadoop的fs.defaultFS端口值修改为所述步骤B中所挂载的lustre文件系统的端口值;在步骤D中所述Hadoop的相应配置文件yarn-site.xml中,指定resourcemanager所在的Hadoop节点,并配置nodemanager节点所使用内存的大小;在步骤D中所述Hadoop的相应配置文件mapred-site.xml中,配置JobTracker的address、scheduler和queue。
此外,在所述的步骤D之后还包括步骤E:
创建Hadoop实例的步骤,用于验证当前所安装的Hadoop能否直接访问步骤B中所挂载的lustre文件系统。
其中,步骤E中所述的创建Hadoop实例的步骤包括:
步骤t1、停止Hadoop的HDFS服务和Yarn服务;
步骤t2、创建用于验证Hadoop能否直接访问步骤B中所挂载的lustre文件系统的Hadoop实例;
步骤t3、启用Hadoop的yarn服务,创建完成步骤E中所述的Hadoop实例。
与现有技术相比,本发明的优点在于:
(1)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,该方法的使用,使Hadoop成为一个并行文件系统,允许临时或中间数据并行存储在多个节点上,这在很大程度上可减少单个Hadoop节点上的负载;
(2)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,该方法的使用,使Hadoop因Lustre拥有的自身网络协议,更适于对批量数据的传输;
(3)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,该方法的使用,使Hadoop成为一个共享文件系统,每个客户端都能看到相同的文件系统映像,可使用硬链接来避免使Hadoop节点之间的数据传输;
(4)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,该方法的使用,使Hadoop也可以作为标准POSIX文件系统进行安装;
(5)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,使用于高性能计算的lustre文件系统与大数据计算相结合,填补了lustre文件系统在大数据方面的空白。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
图1为本发明所述用lustre文件系统替换Hadoop的HDFS文件系统的方法的方法流程图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面将结合附图,对本发明的技术方案进行清楚、完整地描述。
具体实施方式1:
图1为本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法的方法流程图。该用lustre文件系统替换Hadoop的HDFS文件系统的方法,包括以下步骤A-D:
步骤A、安装并配置lustre文件系统。
该步骤A通过以下方法步骤完成所述lustre文件系统的安装与配置:
s1、初始化步骤:关闭防火墙与selinux,将hadoop各节点名称加入host文件,配置ssh无密码登录,编辑/etc/modprobe/lustre.conf文件,使lustre模块采用IB网络;
s2、lustre服务端安装与配置步骤:在mds服务器和oss服务器上分别安装lustre服务端软件及与其配合使用的e2fs,配置mdt服务器、mgs服务器、oss服务器,然后加载lustre模块;
s3、lustre客户端安装与配置步骤:在Hadoop节点上编译并安装lustre客户端,加载lustre模块并挂载该当前加载的lustre模块。
步骤B、挂载步骤A中安装并配置的lustre文件系统。
步骤C、安装Hadoop,并配置该已安装Hadoop对应的各配置文件。
该步骤C中安装并配置Hadoop的方法包括步骤:
p1、在Hadoop节点上安装当前所要安装的Hadoop对应版本的jdk,并配置该对应版本的jdk的环境变量;
p2、安装步骤p1中所述的当前所要安装的Hadoop;
p3、配置步骤p2中已安装的Hadoop的环境变量,并为该已安装的Hadoop增添相应的配置文件:Hadoop-env.sh,yarn-env.sh,core-site.xml,HDFS-site.xml,mapred-site.xml,yarn-site.xml,masters,及slaves。
步骤D、在步骤C中安装的Hadoop对应的Hadoop节点类库目录下添加Hadoop-lustre-plugin-<HAL Version>.jar包,并修改步骤C中所述Hadoop的相应配置文件及相关环境变量,使步骤C中所安装的Hadoop能直接访问步骤B中所挂载的lustre文件系统。
在本实施方式中,该步骤D中所述的Hadoop的相应配置文件包括:core-site.xml,yarn-site.xml,以及mapred-site.xml。其中,为使上述步骤C中所安装的Hadoop能直接访问步骤B中所挂载的lustre文件系统,在该所述的相应配置文件core-site.xml中,将Hadoop的fs.defaultFS端口值修改为所述步骤B中所挂载的lustre文件系统的端口值;在该所述的相应配置文件yarn-site.xml中,指定resourcemanager所在的Hadoop节点,并配置nodemanager节点所使用内存的大小;在该所述的相应配置文件mapred-site.xml中配置JobTracker的address、scheduler和queue。
本发明使用时,首先安装并配置lustre文件系统,并挂载该安装与完成配置的lustre文件系统;之后安装Hadoop,并配置该已安装的Hadoop对应的各配置文件,完成Hadoop的安装与常规配置;最后在上述安装的Hadoop对应的Hadoop节点类库目录下添加Hadoop-lustre-plugin-<HAL Version>.jar包,并修改上述所安装的Hadoop的相应配置文件及相关环境变量,从而即可实现上述所安装的Hadoop对上述所挂载的lustre文件系统的直接访问。便于实现。
此外,对于所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,在其所包含的上述步骤D之后还包括步骤E:
创建Hadoop实例的步骤,用于验证当前所安装的Hadoop能否直接访问步骤B中所挂载的lustre文件系统。
其中,上述步骤E中所述的创建Hadoop实例的步骤包括:
步骤t1、停止Hadoop的HDFS服务和Yarn服务;步骤t2、创建用于验证Hadoop能否直接访问步骤B中所挂载的lustre文件系统的Hadoop实例;步骤t3、启用Hadoop的yarn服务,创建完成步骤E中所述的Hadoop实例。使用时,运行Hadoop的MapReduce Job,通过运行结果,即可验证用lustre文件系统替换Hadoop的HDFS文件系统后Hadoop的功能完整性。
需要说明的是,本发明中未记载的内容,皆为本领域技术人员依据实际需要及结合现有技术能够实现的内容,为简化说明书的内容,在此不再赘述。
综上,基于本发明,使得lustre文件系统克服了其对条带化数据的位置信息不能完美的暴漏出来的不足;也使得Hadoop在很大程度上规避了HDFS的缺点,不仅提高了其(Hadoop)系统性能,也增加了其(Hadoop)扩展性。且便于实现。较为实用。
以上实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的范围。

Claims (7)

1.一种用lustre文件系统替换Hadoop的HDFS文件系统的方法,其特征在于,包括步骤:
A、安装并配置lustre文件系统;
B、挂载步骤A中安装并配置的lustre文件系统;
C、安装Hadoop,并配置该已安装Hadoop对应的各配置文件;
D、在步骤C中安装的Hadoop对应的Hadoop节点类库目录下添加Hadoop-lustre-plugin-<HAL Version>.jar包,并修改步骤C中所述Hadoop的相应配置文件及相关环境变量,使步骤C中所安装的Hadoop能直接访问步骤B中所挂载的lustre文件系统。
2.根据权利要求1所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,其特征在于,上述步骤A中安装并配置lustre文件系统的方法包括以下步骤:
s1、初始化步骤:关闭防火墙与selinux,将hadoop各节点名称加入host文件,配置ssh无密码登录,编辑/etc/modprobe/lustre.conf文件,使lustre模块采用IB网络;
s2、lustre服务端安装与配置步骤:在mds服务器和oss服务器上分别安装lustre服务端软件及与其配合使用的e2fs,配置mdt服务器、mgs服务器、oss服务器,然后加载lustre模块;
s3、lustre客户端安装与配置步骤:在Hadoop节点上编译并安装lustre客户端,加载lustre模块并挂载该当前加载的lustre模块。
3.根据权利要求1或2所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,其特征在于,步骤C中安装并配置Hadoop的方法包括步骤:
p1、在Hadoop节点上安装当前所要安装的Hadoop对应版本的jdk,并配置该对应版本的jdk的环境变量;
p2、安装步骤p1中所述的当前所要安装的Hadoop;
p3、配置步骤p2中已安装的Hadoop的环境变量,并为该已安装的Hadoop增添相应的配置文件:Hadoop-env.sh,yarn-env.sh,core-site.xml,HDFS-site.xml,mapred-site.xml,yarn-site.xml,masters,及slaves。
4.根据权利要求1或2所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,其特征在于,步骤D中所述的Hadoop的相应配置文件包括:core-site.xml,yarn-site.xml,以及mapred-site.xml。
5.根据权利要求4所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,其特征在于,在步骤D中所述Hadoop的相应配置文件core-site.xml中,将Hadoop的fs.defaultFS端口值修改为所述步骤B中所挂载的lustre文件系统的端口值;在步骤D中所述Hadoop的相应配置文件yarn-site.xml中,指定resourcemanager所在的Hadoop节点,并配置nodemanager节点所使用内存的大小;在步骤D中所述Hadoop的相应配置文件mapred-site.xml中,配置JobTracker的address、scheduler和queue。
6.根据权利要求1或2所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,其特征在于,在所述的步骤D之后还包括步骤E:
创建Hadoop实例的步骤,用于验证当前所安装的Hadoop能否直接访问步骤B中所挂载的lustre文件系统。
7.根据权利要求6所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,其特征在于,步骤E中所述的创建Hadoop实例的步骤包括:
步骤t1、停止Hadoop的HDFS服务和Yarn服务;
步骤t2、创建用于验证Hadoop能否直接访问步骤B中所挂载的lustre文件系统的Hadoop实例;
步骤t3、启用Hadoop的yarn服务,创建完成步骤E中所述的Hadoop实例。
CN201710142926.8A 2017-03-10 2017-03-10 一种用lustre文件系统替换Hadoop的HDFS文件系统的方法 Pending CN106934017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710142926.8A CN106934017A (zh) 2017-03-10 2017-03-10 一种用lustre文件系统替换Hadoop的HDFS文件系统的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710142926.8A CN106934017A (zh) 2017-03-10 2017-03-10 一种用lustre文件系统替换Hadoop的HDFS文件系统的方法

Publications (1)

Publication Number Publication Date
CN106934017A true CN106934017A (zh) 2017-07-07

Family

ID=59433816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710142926.8A Pending CN106934017A (zh) 2017-03-10 2017-03-10 一种用lustre文件系统替换Hadoop的HDFS文件系统的方法

Country Status (1)

Country Link
CN (1) CN106934017A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108037930A (zh) * 2017-12-25 2018-05-15 郑州云海信息技术有限公司 一种Lustre文件系统的部署方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541475A (zh) * 2012-03-12 2012-07-04 成都市华为赛门铁克科技有限公司 数据存储方法和数据存储装置
CN103077245A (zh) * 2013-01-18 2013-05-01 浪潮电子信息产业股份有限公司 一种利用集群计算节点空闲硬盘空间扩展并行文件系统的方法
CN105260377A (zh) * 2015-09-01 2016-01-20 浪潮(北京)电子信息产业有限公司 一种基于分级存储的升级方法和系统
CN105278985A (zh) * 2015-09-25 2016-01-27 浪潮(北京)电子信息产业有限公司 一种部署文件系统的方法及系统
US9305010B1 (en) * 2013-12-30 2016-04-05 Emc Corporation Virtual file system providing interface between analytics platform and physical file system
US20160202935A1 (en) * 2015-01-13 2016-07-14 Elastifile Ltd. Distributed file system with speculative writing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541475A (zh) * 2012-03-12 2012-07-04 成都市华为赛门铁克科技有限公司 数据存储方法和数据存储装置
CN103077245A (zh) * 2013-01-18 2013-05-01 浪潮电子信息产业股份有限公司 一种利用集群计算节点空闲硬盘空间扩展并行文件系统的方法
US9305010B1 (en) * 2013-12-30 2016-04-05 Emc Corporation Virtual file system providing interface between analytics platform and physical file system
US20160202935A1 (en) * 2015-01-13 2016-07-14 Elastifile Ltd. Distributed file system with speculative writing
CN105260377A (zh) * 2015-09-01 2016-01-20 浪潮(北京)电子信息产业有限公司 一种基于分级存储的升级方法和系统
CN105278985A (zh) * 2015-09-25 2016-01-27 浪潮(北京)电子信息产业有限公司 一种部署文件系统的方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CAPTAIN_LUCKY: "yarn-site.xml", 《HTTPS://WWW.CNBLOGS.COM/CAPTAINLUCKY/P/4610295.HTML》 *
SUN MICROSYSTEMS INC.: "Using Lustre with Apache Hadoop", 《HTTP://WIKI.LUSTRE.ORG/INDEX.PHP/RUNNING_HADOOP_WITH_LUSTRE》 *
奔跑的小象: "HDFS的fs.defaultFS的端口", 《HTTPS://BLOG.CSDN.NET/U010022051/ARTICLE/DETAILS/51992352》 *
顺顺顺子: "mapred-site.xml配置信息说明", 《HTTPS://BLOG.CSDN.NET/XIAOSHUNZI111/ARTICLE/DETAILS/51221497》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108037930A (zh) * 2017-12-25 2018-05-15 郑州云海信息技术有限公司 一种Lustre文件系统的部署方法、装置及设备

Similar Documents

Publication Publication Date Title
US10761873B2 (en) Evaluating distributed application performance in a new environment
CA2902955C (en) Database system providing single-tenant and multi-tenant environments
US10740145B2 (en) Method and system for migration of virtual machines and virtual applications between cloud-computing facilities
US9430256B2 (en) Method and apparatus for migrating virtual machines between cloud computing facilities using multiple extended local virtual networks and static network addresses
JP5937724B2 (ja) ネットワーク複製のための技法
US9329894B2 (en) Method and apparatus for extending local area networks between clouds and permanently migrating virtual machines using static network addresses
US9389893B2 (en) Method and system for migration of virtual machines and virtual applications between cloud-computing facilities through multiplexed secure tunnels
US10592475B1 (en) Consistent data storage in distributed computing systems
WO2013090699A1 (en) Content delivery network
BR112014011892B1 (pt) Método e sistema de objetos de interface de rede virtual
Krishnan et al. Google compute engine
US10397051B1 (en) Configuration and testing of network-based service platform resources using a service platform specific language
US20190034464A1 (en) Methods and systems that collect data from computing facilities and export a specified portion of the collected data for remote processing and analysis
US10708379B1 (en) Dynamic proxy for databases
WO2019153880A1 (zh) 集群中镜像文件下载的方法、节点、查询服务器
Selimi et al. Distributed storage and service discovery for heterogeneous community network clouds
US10432548B2 (en) Workload deployment in computing networks
CN106934017A (zh) 一种用lustre文件系统替换Hadoop的HDFS文件系统的方法
Wang et al. Grid-oriented storage: A single-image, cross-domain, high-bandwidth architecture
US20210344771A1 (en) System and Method for Cloud Computing
Werner et al. STEAN: A storage and transformation engine for advanced networking context
Gunda et al. Performance evaluation of wireguard in kubernetes cluster
WO2016120885A1 (en) Deploying software products
Das Distributed File Systems Implementation on an Edge Router using GlusterFS for Cloud Applications
Onger Operating web applications on the edge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170707