CN106934017A - 一种用lustre文件系统替换Hadoop的HDFS文件系统的方法 - Google Patents
一种用lustre文件系统替换Hadoop的HDFS文件系统的方法 Download PDFInfo
- Publication number
- CN106934017A CN106934017A CN201710142926.8A CN201710142926A CN106934017A CN 106934017 A CN106934017 A CN 106934017A CN 201710142926 A CN201710142926 A CN 201710142926A CN 106934017 A CN106934017 A CN 106934017A
- Authority
- CN
- China
- Prior art keywords
- hadoop
- file system
- lustre
- xml
- site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
- G06F8/61—Installation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/70—Software maintenance or management
- G06F8/71—Version control; Configuration management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用lustre文件系统替换Hadoop的HDFS文件系统的方法,包括步骤:A、安装并配置lustre文件系统;B、挂载步骤A中安装并配置的lustre文件系统;C、安装Hadoop,并配置该已安装Hadoop对应的各配置文件;D、在步骤C中安装的Hadoop对应的Hadoop节点类库目录下添加Hadoop‑lustre‑plugin‑<HAL Version>.jar包,并修改步骤C中所述Hadoop的相应配置文件及相关环境变量,使步骤C中所安装的Hadoop能直接访问步骤B中所挂载的lustre文件系统。本发明能提高Hadoop系统性能,并能增加Hadoop系统的可扩展性。
Description
技术领域
本发明涉及计算机技术领域,具体是一种用lustre文件系统替换Hadoop的HDFS文件系统的方法。
背景技术
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。其实现了一个分布式文件系统(Hadoop Distributed File System,简称HDFS),允许用户在不了解分布式底层细节的情况下,开发分布式程序。
此外,HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,尤其适于用于处理超大数据集(large data set)的应用程序。此外,Hadoop作为一种分布式数据和计算的框架,尤其适于存储大量的半结构化的数据集,且非常适于分布式计算--快速地跨多台机器处理大型数据集合。
但在HDFS上使用Hadoop有以下缺点:
1)Hadoop在Map/Reduce过程中有时会生成大量的临时或中间数据。而HDFS将这些文件存储在本地磁盘上,这会导致操作系统和磁盘I/O负载相当大。
2)在Map/Reduce过程中,Reduce节点使用HTTP协议,从Map节点协议中检索Map结果。而HTTP不支持RDMA协议(RDMA协议是当前分布式文件系统常用且常常需要的协议),不是大数据传输的好选择。
3)Hadoop用于Map/Reduce作业,难以将HDFS作为正常的文件系统扩展使用。
4)对于小文件来说,使用Hadoop比较耗时。
此为现有技术的不足之处。
发明内容
本发明所要解决的技术问题是,针对现有技术的不足,提供一种用lustre文件系统替换Hadoop的HDFS文件系统的方法,用于提高Hadoop系统性能,增加Hadoop系统的可扩展性。
为解决上述技术问题,本发明提供了一种用lustre文件系统替换Hadoop的HDFS文件系统的方法,包括步骤:
A、安装并配置lustre文件系统;
B、挂载步骤A中安装并配置的lustre文件系统;
C、安装Hadoop,并配置该已安装Hadoop对应的各配置文件;
D、在步骤C中安装的Hadoop对应的Hadoop节点类库目录下添加Hadoop-lustre-plugin-<HAL Version>.jar包,并修改步骤C中所述Hadoop的相应配置文件及相关环境变量,使步骤C中所安装的Hadoop能直接访问步骤B中所挂载的lustre文件系统。
上述步骤A中安装并配置lustre文件系统的方法包括以下步骤:
s1、初始化步骤:关闭防火墙与selinux,将hadoop各节点名称加入host文件,配置ssh无密码登录,编辑/etc/modprobe/lustre.conf文件,使lustre模块采用IB网络;
s2、lustre服务端安装与配置步骤:在mds服务器和oss服务器上分别安装lustre服务端软件及与其配合使用的e2fs,配置mdt服务器、mgs服务器、oss服务器,然后加载lustre模块;
s3、lustre客户端安装与配置步骤:在Hadoop节点上编译并安装lustre客户端,加载lustre模块并挂载该当前加载的lustre模块。
其中,步骤C中安装并配置Hadoop的方法包括步骤:
p1、在Hadoop节点上安装当前所要安装的Hadoop对应版本的jdk,并配置该对应版本的jdk的环境变量;
p2、安装步骤p1中所述的当前所要安装的Hadoop;
p3、配置步骤p2中已安装的Hadoop的环境变量,并为该已安装的Hadoop增添相应的配置文件:Hadoop-env.sh,yarn-env.sh,core-site.xml,HDFS-site.xml,mapred-site.xml,yarn-site.xml,masters,及slaves。
其中,步骤D中所述的Hadoop的相应配置文件包括:core-site.xml,yarn-site.xml,以及mapred-site.xml。
其中,在步骤D中所述Hadoop的相应配置文件core-site.xml中,将Hadoop的fs.defaultFS端口值修改为所述步骤B中所挂载的lustre文件系统的端口值;在步骤D中所述Hadoop的相应配置文件yarn-site.xml中,指定resourcemanager所在的Hadoop节点,并配置nodemanager节点所使用内存的大小;在步骤D中所述Hadoop的相应配置文件mapred-site.xml中,配置JobTracker的address、scheduler和queue。
此外,在所述的步骤D之后还包括步骤E:
创建Hadoop实例的步骤,用于验证当前所安装的Hadoop能否直接访问步骤B中所挂载的lustre文件系统。
其中,步骤E中所述的创建Hadoop实例的步骤包括:
步骤t1、停止Hadoop的HDFS服务和Yarn服务;
步骤t2、创建用于验证Hadoop能否直接访问步骤B中所挂载的lustre文件系统的Hadoop实例;
步骤t3、启用Hadoop的yarn服务,创建完成步骤E中所述的Hadoop实例。
与现有技术相比,本发明的优点在于:
(1)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,该方法的使用,使Hadoop成为一个并行文件系统,允许临时或中间数据并行存储在多个节点上,这在很大程度上可减少单个Hadoop节点上的负载;
(2)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,该方法的使用,使Hadoop因Lustre拥有的自身网络协议,更适于对批量数据的传输;
(3)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,该方法的使用,使Hadoop成为一个共享文件系统,每个客户端都能看到相同的文件系统映像,可使用硬链接来避免使Hadoop节点之间的数据传输;
(4)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,该方法的使用,使Hadoop也可以作为标准POSIX文件系统进行安装;
(5)本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,使用于高性能计算的lustre文件系统与大数据计算相结合,填补了lustre文件系统在大数据方面的空白。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
图1为本发明所述用lustre文件系统替换Hadoop的HDFS文件系统的方法的方法流程图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面将结合附图,对本发明的技术方案进行清楚、完整地描述。
具体实施方式1:
图1为本发明所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法的方法流程图。该用lustre文件系统替换Hadoop的HDFS文件系统的方法,包括以下步骤A-D:
步骤A、安装并配置lustre文件系统。
该步骤A通过以下方法步骤完成所述lustre文件系统的安装与配置:
s1、初始化步骤:关闭防火墙与selinux,将hadoop各节点名称加入host文件,配置ssh无密码登录,编辑/etc/modprobe/lustre.conf文件,使lustre模块采用IB网络;
s2、lustre服务端安装与配置步骤:在mds服务器和oss服务器上分别安装lustre服务端软件及与其配合使用的e2fs,配置mdt服务器、mgs服务器、oss服务器,然后加载lustre模块;
s3、lustre客户端安装与配置步骤:在Hadoop节点上编译并安装lustre客户端,加载lustre模块并挂载该当前加载的lustre模块。
步骤B、挂载步骤A中安装并配置的lustre文件系统。
步骤C、安装Hadoop,并配置该已安装Hadoop对应的各配置文件。
该步骤C中安装并配置Hadoop的方法包括步骤:
p1、在Hadoop节点上安装当前所要安装的Hadoop对应版本的jdk,并配置该对应版本的jdk的环境变量;
p2、安装步骤p1中所述的当前所要安装的Hadoop;
p3、配置步骤p2中已安装的Hadoop的环境变量,并为该已安装的Hadoop增添相应的配置文件:Hadoop-env.sh,yarn-env.sh,core-site.xml,HDFS-site.xml,mapred-site.xml,yarn-site.xml,masters,及slaves。
步骤D、在步骤C中安装的Hadoop对应的Hadoop节点类库目录下添加Hadoop-lustre-plugin-<HAL Version>.jar包,并修改步骤C中所述Hadoop的相应配置文件及相关环境变量,使步骤C中所安装的Hadoop能直接访问步骤B中所挂载的lustre文件系统。
在本实施方式中,该步骤D中所述的Hadoop的相应配置文件包括:core-site.xml,yarn-site.xml,以及mapred-site.xml。其中,为使上述步骤C中所安装的Hadoop能直接访问步骤B中所挂载的lustre文件系统,在该所述的相应配置文件core-site.xml中,将Hadoop的fs.defaultFS端口值修改为所述步骤B中所挂载的lustre文件系统的端口值;在该所述的相应配置文件yarn-site.xml中,指定resourcemanager所在的Hadoop节点,并配置nodemanager节点所使用内存的大小;在该所述的相应配置文件mapred-site.xml中配置JobTracker的address、scheduler和queue。
本发明使用时,首先安装并配置lustre文件系统,并挂载该安装与完成配置的lustre文件系统;之后安装Hadoop,并配置该已安装的Hadoop对应的各配置文件,完成Hadoop的安装与常规配置;最后在上述安装的Hadoop对应的Hadoop节点类库目录下添加Hadoop-lustre-plugin-<HAL Version>.jar包,并修改上述所安装的Hadoop的相应配置文件及相关环境变量,从而即可实现上述所安装的Hadoop对上述所挂载的lustre文件系统的直接访问。便于实现。
此外,对于所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,在其所包含的上述步骤D之后还包括步骤E:
创建Hadoop实例的步骤,用于验证当前所安装的Hadoop能否直接访问步骤B中所挂载的lustre文件系统。
其中,上述步骤E中所述的创建Hadoop实例的步骤包括:
步骤t1、停止Hadoop的HDFS服务和Yarn服务;步骤t2、创建用于验证Hadoop能否直接访问步骤B中所挂载的lustre文件系统的Hadoop实例;步骤t3、启用Hadoop的yarn服务,创建完成步骤E中所述的Hadoop实例。使用时,运行Hadoop的MapReduce Job,通过运行结果,即可验证用lustre文件系统替换Hadoop的HDFS文件系统后Hadoop的功能完整性。
需要说明的是,本发明中未记载的内容,皆为本领域技术人员依据实际需要及结合现有技术能够实现的内容,为简化说明书的内容,在此不再赘述。
综上,基于本发明,使得lustre文件系统克服了其对条带化数据的位置信息不能完美的暴漏出来的不足;也使得Hadoop在很大程度上规避了HDFS的缺点,不仅提高了其(Hadoop)系统性能,也增加了其(Hadoop)扩展性。且便于实现。较为实用。
以上实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的范围。
Claims (7)
1.一种用lustre文件系统替换Hadoop的HDFS文件系统的方法,其特征在于,包括步骤:
A、安装并配置lustre文件系统;
B、挂载步骤A中安装并配置的lustre文件系统;
C、安装Hadoop,并配置该已安装Hadoop对应的各配置文件;
D、在步骤C中安装的Hadoop对应的Hadoop节点类库目录下添加Hadoop-lustre-plugin-<HAL Version>.jar包,并修改步骤C中所述Hadoop的相应配置文件及相关环境变量,使步骤C中所安装的Hadoop能直接访问步骤B中所挂载的lustre文件系统。
2.根据权利要求1所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,其特征在于,上述步骤A中安装并配置lustre文件系统的方法包括以下步骤:
s1、初始化步骤:关闭防火墙与selinux,将hadoop各节点名称加入host文件,配置ssh无密码登录,编辑/etc/modprobe/lustre.conf文件,使lustre模块采用IB网络;
s2、lustre服务端安装与配置步骤:在mds服务器和oss服务器上分别安装lustre服务端软件及与其配合使用的e2fs,配置mdt服务器、mgs服务器、oss服务器,然后加载lustre模块;
s3、lustre客户端安装与配置步骤:在Hadoop节点上编译并安装lustre客户端,加载lustre模块并挂载该当前加载的lustre模块。
3.根据权利要求1或2所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,其特征在于,步骤C中安装并配置Hadoop的方法包括步骤:
p1、在Hadoop节点上安装当前所要安装的Hadoop对应版本的jdk,并配置该对应版本的jdk的环境变量;
p2、安装步骤p1中所述的当前所要安装的Hadoop;
p3、配置步骤p2中已安装的Hadoop的环境变量,并为该已安装的Hadoop增添相应的配置文件:Hadoop-env.sh,yarn-env.sh,core-site.xml,HDFS-site.xml,mapred-site.xml,yarn-site.xml,masters,及slaves。
4.根据权利要求1或2所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,其特征在于,步骤D中所述的Hadoop的相应配置文件包括:core-site.xml,yarn-site.xml,以及mapred-site.xml。
5.根据权利要求4所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,其特征在于,在步骤D中所述Hadoop的相应配置文件core-site.xml中,将Hadoop的fs.defaultFS端口值修改为所述步骤B中所挂载的lustre文件系统的端口值;在步骤D中所述Hadoop的相应配置文件yarn-site.xml中,指定resourcemanager所在的Hadoop节点,并配置nodemanager节点所使用内存的大小;在步骤D中所述Hadoop的相应配置文件mapred-site.xml中,配置JobTracker的address、scheduler和queue。
6.根据权利要求1或2所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,其特征在于,在所述的步骤D之后还包括步骤E:
创建Hadoop实例的步骤,用于验证当前所安装的Hadoop能否直接访问步骤B中所挂载的lustre文件系统。
7.根据权利要求6所述的用lustre文件系统替换Hadoop的HDFS文件系统的方法,其特征在于,步骤E中所述的创建Hadoop实例的步骤包括:
步骤t1、停止Hadoop的HDFS服务和Yarn服务;
步骤t2、创建用于验证Hadoop能否直接访问步骤B中所挂载的lustre文件系统的Hadoop实例;
步骤t3、启用Hadoop的yarn服务,创建完成步骤E中所述的Hadoop实例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710142926.8A CN106934017A (zh) | 2017-03-10 | 2017-03-10 | 一种用lustre文件系统替换Hadoop的HDFS文件系统的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710142926.8A CN106934017A (zh) | 2017-03-10 | 2017-03-10 | 一种用lustre文件系统替换Hadoop的HDFS文件系统的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106934017A true CN106934017A (zh) | 2017-07-07 |
Family
ID=59433816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710142926.8A Pending CN106934017A (zh) | 2017-03-10 | 2017-03-10 | 一种用lustre文件系统替换Hadoop的HDFS文件系统的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106934017A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108037930A (zh) * | 2017-12-25 | 2018-05-15 | 郑州云海信息技术有限公司 | 一种Lustre文件系统的部署方法、装置及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102541475A (zh) * | 2012-03-12 | 2012-07-04 | 成都市华为赛门铁克科技有限公司 | 数据存储方法和数据存储装置 |
CN103077245A (zh) * | 2013-01-18 | 2013-05-01 | 浪潮电子信息产业股份有限公司 | 一种利用集群计算节点空闲硬盘空间扩展并行文件系统的方法 |
CN105260377A (zh) * | 2015-09-01 | 2016-01-20 | 浪潮(北京)电子信息产业有限公司 | 一种基于分级存储的升级方法和系统 |
CN105278985A (zh) * | 2015-09-25 | 2016-01-27 | 浪潮(北京)电子信息产业有限公司 | 一种部署文件系统的方法及系统 |
US9305010B1 (en) * | 2013-12-30 | 2016-04-05 | Emc Corporation | Virtual file system providing interface between analytics platform and physical file system |
US20160202935A1 (en) * | 2015-01-13 | 2016-07-14 | Elastifile Ltd. | Distributed file system with speculative writing |
-
2017
- 2017-03-10 CN CN201710142926.8A patent/CN106934017A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102541475A (zh) * | 2012-03-12 | 2012-07-04 | 成都市华为赛门铁克科技有限公司 | 数据存储方法和数据存储装置 |
CN103077245A (zh) * | 2013-01-18 | 2013-05-01 | 浪潮电子信息产业股份有限公司 | 一种利用集群计算节点空闲硬盘空间扩展并行文件系统的方法 |
US9305010B1 (en) * | 2013-12-30 | 2016-04-05 | Emc Corporation | Virtual file system providing interface between analytics platform and physical file system |
US20160202935A1 (en) * | 2015-01-13 | 2016-07-14 | Elastifile Ltd. | Distributed file system with speculative writing |
CN105260377A (zh) * | 2015-09-01 | 2016-01-20 | 浪潮(北京)电子信息产业有限公司 | 一种基于分级存储的升级方法和系统 |
CN105278985A (zh) * | 2015-09-25 | 2016-01-27 | 浪潮(北京)电子信息产业有限公司 | 一种部署文件系统的方法及系统 |
Non-Patent Citations (4)
Title |
---|
CAPTAIN_LUCKY: "yarn-site.xml", 《HTTPS://WWW.CNBLOGS.COM/CAPTAINLUCKY/P/4610295.HTML》 * |
SUN MICROSYSTEMS INC.: "Using Lustre with Apache Hadoop", 《HTTP://WIKI.LUSTRE.ORG/INDEX.PHP/RUNNING_HADOOP_WITH_LUSTRE》 * |
奔跑的小象: "HDFS的fs.defaultFS的端口", 《HTTPS://BLOG.CSDN.NET/U010022051/ARTICLE/DETAILS/51992352》 * |
顺顺顺子: "mapred-site.xml配置信息说明", 《HTTPS://BLOG.CSDN.NET/XIAOSHUNZI111/ARTICLE/DETAILS/51221497》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108037930A (zh) * | 2017-12-25 | 2018-05-15 | 郑州云海信息技术有限公司 | 一种Lustre文件系统的部署方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10761873B2 (en) | Evaluating distributed application performance in a new environment | |
CA2902955C (en) | Database system providing single-tenant and multi-tenant environments | |
US10740145B2 (en) | Method and system for migration of virtual machines and virtual applications between cloud-computing facilities | |
US9430256B2 (en) | Method and apparatus for migrating virtual machines between cloud computing facilities using multiple extended local virtual networks and static network addresses | |
JP5937724B2 (ja) | ネットワーク複製のための技法 | |
US9329894B2 (en) | Method and apparatus for extending local area networks between clouds and permanently migrating virtual machines using static network addresses | |
US9389893B2 (en) | Method and system for migration of virtual machines and virtual applications between cloud-computing facilities through multiplexed secure tunnels | |
US10592475B1 (en) | Consistent data storage in distributed computing systems | |
WO2013090699A1 (en) | Content delivery network | |
BR112014011892B1 (pt) | Método e sistema de objetos de interface de rede virtual | |
Krishnan et al. | Google compute engine | |
US10397051B1 (en) | Configuration and testing of network-based service platform resources using a service platform specific language | |
US20190034464A1 (en) | Methods and systems that collect data from computing facilities and export a specified portion of the collected data for remote processing and analysis | |
US10708379B1 (en) | Dynamic proxy for databases | |
WO2019153880A1 (zh) | 集群中镜像文件下载的方法、节点、查询服务器 | |
Selimi et al. | Distributed storage and service discovery for heterogeneous community network clouds | |
US10432548B2 (en) | Workload deployment in computing networks | |
CN106934017A (zh) | 一种用lustre文件系统替换Hadoop的HDFS文件系统的方法 | |
Wang et al. | Grid-oriented storage: A single-image, cross-domain, high-bandwidth architecture | |
US20210344771A1 (en) | System and Method for Cloud Computing | |
Werner et al. | STEAN: A storage and transformation engine for advanced networking context | |
Gunda et al. | Performance evaluation of wireguard in kubernetes cluster | |
WO2016120885A1 (en) | Deploying software products | |
Das | Distributed File Systems Implementation on an Edge Router using GlusterFS for Cloud Applications | |
Onger | Operating web applications on the edge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170707 |