CN104461792A - 一种解决hadoop分布式文件系统namenode单点故障的ha方法 - Google Patents

一种解决hadoop分布式文件系统namenode单点故障的ha方法 Download PDF

Info

Publication number
CN104461792A
CN104461792A CN201410717146.8A CN201410717146A CN104461792A CN 104461792 A CN104461792 A CN 104461792A CN 201410717146 A CN201410717146 A CN 201410717146A CN 104461792 A CN104461792 A CN 104461792A
Authority
CN
China
Prior art keywords
node
namenode
server
hdfs
file system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410717146.8A
Other languages
English (en)
Inventor
李璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201410717146.8A priority Critical patent/CN104461792A/zh
Publication of CN104461792A publication Critical patent/CN104461792A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法,采用两台服务器实现双机热备,HDFS的元数据需要保存在共享存储中;两台主机的eth1使用双机对联线直接连接;每台主机预留30G的空间作为共用空间被HA使用;DRBD实现了网络RAID-1功能,即两台服务器一台是主节点,一台是从节点;在主节点上的任何操作,都会被同步到从节点的相应磁盘分区上,达到数据备份的效果。本发明和现有技术相比,够解决HDFS中NameNode单点故障的问题,HDFS的元数据保存在共享存储中,实现双机热备,当其中一台服务器出现故障时实现自动切换。

Description

一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法
技术领域
本发明具体地说是一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法。
背景技术
Hadoop是一个能够对大量数据进行分布式处理的软件,能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop 由许多元素构成,如HDFS、MapReduce等。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。
对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是 HDFS 的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部提供元数据服务;DataNode,它为 HDFS 提供存储块。由于仅存在一个 NameNode,因此这是 HDFS 存在NameNode单点失败的问题。
NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。
实际的 I/O事务并没有经过 NameNode,只有表示 DataNode 和块的文件映射的元数据保存在 NameNode中。当外部客户机发送请求要求创建文件时,NameNode 会以块标识和该块的第一个副本的 DataNode IP 地址作为响应。这个 NameNode 还会通知其他将要接收该块的副本的 DataNode。
NameNode 在一个称为 FsImage 的文件中存储所有关于文件系统名称空间的信息。这个文件和一个包含所有事务的记录文件(EditLog)存储在 NameNode 的本地文件系统上。FsImage 和 EditLog 文件也需要复制副本,以防文件损坏或 NameNode 系统丢失。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法。
本发明的技术方案是按以下方式实现的,采用两台服务器实现双机热备,HDFS的元数据需要保存在共享存储中;两台主机的eth1使用双机对联线直接连接;每台主机预留30G的空间作为共用空间被HA使用;DRBD实现了网络RAID-1功能,即两台服务器一台是主节点,提供存储服务,一台是从节点;在主节点上的任何操作,都会被同步到从节点的相应磁盘分区上,达到数据备份的效果;当主节点发生故障时,通过Heartbeat从节点可以接管主节点的虚拟IP。 
本发明的优点是:
本发明的一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法和现有技术相比,够解决HDFS中NameNode单点故障的问题,HDFS的元数据保存在共享存储中,实现双机热备,当其中一台服务器出现故障时实现自动切换。
具体实施方式
下面对本发明的一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法作以下详细说明。
本发明的一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法,采用两台服务器实现双机热备,HDFS的元数据需要保存在共享存储中;两台主机的eth1使用双机对联线直接连接;每台主机预留30G的空间作为共用空间被HA使用;DRBD实现了网络RAID-1功能,即两台服务器一台是主节点,提供存储服务,一台是从节点;在主节点上的任何操作,都会被同步到从节点的相应磁盘分区上,达到数据备份的效果;当主节点发生故障时,通过Heartbeat从节点可以接管主节点的虚拟IP。
DRBD 实际上是一种块设备的实现,主要被用于Linux平台下的高可用(HA)方案之中。他是有内核模块和相关程序而组成,通过网络通 信来同步镜像整个设备,有点类似于一个网络RAID的功能。也就是说当你将数据写入本地的DRBD设备上的文件系统时,数据会同时被发送到网络中的另外一台主机之上, 并以完全相同的形式记录在一个文件系统中(实际上文件系统的创建也是由DRBD的同步来实现的)。本地节点(主机)与远程节点(主机)的数据可以保证实时 的同步,并保证IO的一致性。所以当本地节点的主机出现故障时,远程节点的主机上还会保留有一份完全相同的数据,可以继续使用,以达到高可用的目的。
实际生产环境中,如果NameNode宕机,造成的损失是不可估量的。要保证主NameNode不间断服务,就需要对服务器实现冗余。Heartbeat 提供了廉价的、可伸缩的高可用集群方案。通过DRBD + Heartbeat在Linux下创建一个高可用(HA)的集群服务器,在高可用(HA)解决方案中使用DRBD的功能,可以代替使用一个共享盘阵存储设备。因为数据同时存在于本地主机和远程主机上,在遇到需要切换的时候,远程主机只需要使用它上面的那份备份数据,就可以继续提供服务了。
本发明的一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法其加工制作非常简单方便,按照说明书所示即可加工。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法,其特征在于采用两台服务器实现双机热备,HDFS的元数据需要保存在共享存储中;两台主机的eth1使用双机对联线直接连接;每台主机预留30G的空间作为共用空间被HA使用;DRBD实现了网络RAID-1功能,即两台服务器一台是主节点,提供存储服务,一台是从节点;在主节点上的任何操作,都会被同步到从节点的相应磁盘分区上,达到数据备份的效果;当主节点发生故障时,通过Heartbeat从节点可以接管主节点的虚拟IP。
CN201410717146.8A 2014-12-03 2014-12-03 一种解决hadoop分布式文件系统namenode单点故障的ha方法 Pending CN104461792A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410717146.8A CN104461792A (zh) 2014-12-03 2014-12-03 一种解决hadoop分布式文件系统namenode单点故障的ha方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410717146.8A CN104461792A (zh) 2014-12-03 2014-12-03 一种解决hadoop分布式文件系统namenode单点故障的ha方法

Publications (1)

Publication Number Publication Date
CN104461792A true CN104461792A (zh) 2015-03-25

Family

ID=52907888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410717146.8A Pending CN104461792A (zh) 2014-12-03 2014-12-03 一种解决hadoop分布式文件系统namenode单点故障的ha方法

Country Status (1)

Country Link
CN (1) CN104461792A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105007172A (zh) * 2015-05-28 2015-10-28 杭州健港信息科技有限公司 一种hdfs高可用性方案的实现方法
CN105554130A (zh) * 2015-12-18 2016-05-04 深圳中兴网信科技有限公司 基于分布式存储系统的NameNode切换方法和切换装置
CN105808391A (zh) * 2016-04-05 2016-07-27 浪潮电子信息产业股份有限公司 一种热替换cpu节点的方法及装置
CN106210038A (zh) * 2016-07-06 2016-12-07 网易(杭州)网络有限公司 数据操作请求的处理方法及系统
CN106648996A (zh) * 2017-01-10 2017-05-10 郑州云海信息技术有限公司 一种存储管理软件的用户数据保护方法
CN107046474A (zh) * 2016-12-20 2017-08-15 东软集团股份有限公司 一种服务集群
WO2017152736A1 (zh) * 2016-03-07 2017-09-14 中兴通讯股份有限公司 一种分布式文件系统hdfs的管理方法、装置及系统
CN107463577A (zh) * 2016-06-06 2017-12-12 华为软件技术有限公司 一种数据存储系统以及数据查找方法
CN108268210A (zh) * 2016-12-30 2018-07-10 中移(苏州)软件技术有限公司 一种信息处理方法、计算节点及存储节点
CN108829787A (zh) * 2018-05-31 2018-11-16 郑州云海信息技术有限公司 一种元数据分布式系统
CN109542471A (zh) * 2018-11-28 2019-03-29 郑州云海信息技术有限公司 一种计算节点的安装方法及装置
CN109857588A (zh) * 2018-12-11 2019-06-07 浪潮(北京)电子信息产业有限公司 基于多控存储系统的精简卷元数据处理方法、装置及系统
CN109889561A (zh) * 2017-12-25 2019-06-14 新华三大数据技术有限公司 一种数据处理方法及装置
CN112131045A (zh) * 2020-09-04 2020-12-25 上海云轴信息科技有限公司 一种双机热备系统的存储设计及故障恢复的方法与设备
CN112380067A (zh) * 2020-11-30 2021-02-19 四川大学华西医院 一种Hadoop环境下基于元数据的大数据备份系统及方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105007172A (zh) * 2015-05-28 2015-10-28 杭州健港信息科技有限公司 一种hdfs高可用性方案的实现方法
CN105554130A (zh) * 2015-12-18 2016-05-04 深圳中兴网信科技有限公司 基于分布式存储系统的NameNode切换方法和切换装置
WO2017152736A1 (zh) * 2016-03-07 2017-09-14 中兴通讯股份有限公司 一种分布式文件系统hdfs的管理方法、装置及系统
CN105808391A (zh) * 2016-04-05 2016-07-27 浪潮电子信息产业股份有限公司 一种热替换cpu节点的方法及装置
CN107463577A (zh) * 2016-06-06 2017-12-12 华为软件技术有限公司 一种数据存储系统以及数据查找方法
CN107463577B (zh) * 2016-06-06 2021-01-29 华为技术有限公司 一种数据存储系统以及数据查找方法
CN106210038A (zh) * 2016-07-06 2016-12-07 网易(杭州)网络有限公司 数据操作请求的处理方法及系统
CN106210038B (zh) * 2016-07-06 2019-01-29 网易(杭州)网络有限公司 数据操作请求的处理方法及系统
CN107046474B (zh) * 2016-12-20 2019-12-13 东软集团股份有限公司 一种服务集群
CN107046474A (zh) * 2016-12-20 2017-08-15 东软集团股份有限公司 一种服务集群
CN108268210A (zh) * 2016-12-30 2018-07-10 中移(苏州)软件技术有限公司 一种信息处理方法、计算节点及存储节点
CN106648996A (zh) * 2017-01-10 2017-05-10 郑州云海信息技术有限公司 一种存储管理软件的用户数据保护方法
CN109889561A (zh) * 2017-12-25 2019-06-14 新华三大数据技术有限公司 一种数据处理方法及装置
CN108829787A (zh) * 2018-05-31 2018-11-16 郑州云海信息技术有限公司 一种元数据分布式系统
CN109542471A (zh) * 2018-11-28 2019-03-29 郑州云海信息技术有限公司 一种计算节点的安装方法及装置
CN109857588A (zh) * 2018-12-11 2019-06-07 浪潮(北京)电子信息产业有限公司 基于多控存储系统的精简卷元数据处理方法、装置及系统
CN112131045A (zh) * 2020-09-04 2020-12-25 上海云轴信息科技有限公司 一种双机热备系统的存储设计及故障恢复的方法与设备
CN112380067A (zh) * 2020-11-30 2021-02-19 四川大学华西医院 一种Hadoop环境下基于元数据的大数据备份系统及方法
CN112380067B (zh) * 2020-11-30 2023-08-22 四川大学华西医院 一种Hadoop环境下基于元数据的大数据备份系统及方法

Similar Documents

Publication Publication Date Title
CN104461792A (zh) 一种解决hadoop分布式文件系统namenode单点故障的ha方法
US11860898B2 (en) Non-disruptive baseline and resynchronization of a synchronous replication relationship
US11422908B2 (en) Non-disruptive controller replacement in a cross-cluster redundancy configuration
CN107707393B (zh) 基于Openstack O版特性的多活系统
US11567674B2 (en) Low overhead resynchronization snapshot creation and utilization
US11449401B2 (en) Moving a consistency group having a replication relationship
US11487468B2 (en) Healing failed erasure-coded write attempts in a distributed data storage system configured with fewer storage nodes than data plus parity fragments
US9992155B2 (en) DNS alias synchronization in replication topology
US20150143164A1 (en) I/o request mirroring in a clustered storage system
US20230308507A1 (en) Commissioning and decommissioning metadata nodes in a running distributed data storage system
KR101670343B1 (ko) 피어투피어 데이터 복제를 위한 방법, 장치, 및 시스템 및 마스터 노드 전환을 위한 방법, 장치, 및 시스템
US20150347047A1 (en) Multilayered data storage methods and apparatus
US20220382484A1 (en) Gransets for managing consistency groups of dispersed storage items
CN104023246B (zh) 一种视频数据私有云存储系统和视频数据私有云存储方法
CN102833580A (zh) 基于infiniband的高清视频应用系统及方法
US20120151095A1 (en) Enforcing logical unit (lu) persistent reservations upon a shared virtual storage device
CN103150304A (zh) 云数据库系统
CN104410531A (zh) 冗余的系统架构方法
CN103595799A (zh) 一种实现分布式共享数据库的方法
US20210026867A1 (en) Provenance-based replication in a storage system
Montag Understanding neo4j scalability
IN2013KO01274A (zh)
US20190179807A1 (en) Table and index communications channels
US20230418716A1 (en) Anti-entropy-based metadata recovery in a strongly consistent distributed data storage system
CN105468296A (zh) 基于虚拟化平台的无共享存储管理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150325

WD01 Invention patent application deemed withdrawn after publication