CN104461792A - 一种解决hadoop分布式文件系统namenode单点故障的ha方法 - Google Patents

一种解决hadoop分布式文件系统namenode单点故障的ha方法 Download PDF

Info

Publication number
CN104461792A
CN104461792A CN201410717146.8A CN201410717146A CN104461792A CN 104461792 A CN104461792 A CN 104461792A CN 201410717146 A CN201410717146 A CN 201410717146A CN 104461792 A CN104461792 A CN 104461792A
Authority
CN
China
Prior art keywords
node
namenode
file system
hdfs
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410717146.8A
Other languages
English (en)
Inventor
李璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201410717146.8A priority Critical patent/CN104461792A/zh
Publication of CN104461792A publication Critical patent/CN104461792A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法,采用两台服务器实现双机热备,HDFS的元数据需要保存在共享存储中;两台主机的eth1使用双机对联线直接连接;每台主机预留30G的空间作为共用空间被HA使用;DRBD实现了网络RAID-1功能,即两台服务器一台是主节点,一台是从节点;在主节点上的任何操作,都会被同步到从节点的相应磁盘分区上,达到数据备份的效果。本发明和现有技术相比,够解决HDFS中NameNode单点故障的问题,HDFS的元数据保存在共享存储中,实现双机热备,当其中一台服务器出现故障时实现自动切换。

Description

一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法
技术领域
本发明具体地说是一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法。
背景技术
Hadoop是一个能够对大量数据进行分布式处理的软件,能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop 由许多元素构成,如HDFS、MapReduce等。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。
对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是 HDFS 的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部提供元数据服务;DataNode,它为 HDFS 提供存储块。由于仅存在一个 NameNode,因此这是 HDFS 存在NameNode单点失败的问题。
NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。
实际的 I/O事务并没有经过 NameNode,只有表示 DataNode 和块的文件映射的元数据保存在 NameNode中。当外部客户机发送请求要求创建文件时,NameNode 会以块标识和该块的第一个副本的 DataNode IP 地址作为响应。这个 NameNode 还会通知其他将要接收该块的副本的 DataNode。
NameNode 在一个称为 FsImage 的文件中存储所有关于文件系统名称空间的信息。这个文件和一个包含所有事务的记录文件(EditLog)存储在 NameNode 的本地文件系统上。FsImage 和 EditLog 文件也需要复制副本,以防文件损坏或 NameNode 系统丢失。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法。
本发明的技术方案是按以下方式实现的,采用两台服务器实现双机热备,HDFS的元数据需要保存在共享存储中;两台主机的eth1使用双机对联线直接连接;每台主机预留30G的空间作为共用空间被HA使用;DRBD实现了网络RAID-1功能,即两台服务器一台是主节点,提供存储服务,一台是从节点;在主节点上的任何操作,都会被同步到从节点的相应磁盘分区上,达到数据备份的效果;当主节点发生故障时,通过Heartbeat从节点可以接管主节点的虚拟IP。 
本发明的优点是:
本发明的一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法和现有技术相比,够解决HDFS中NameNode单点故障的问题,HDFS的元数据保存在共享存储中,实现双机热备,当其中一台服务器出现故障时实现自动切换。
具体实施方式
下面对本发明的一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法作以下详细说明。
本发明的一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法,采用两台服务器实现双机热备,HDFS的元数据需要保存在共享存储中;两台主机的eth1使用双机对联线直接连接;每台主机预留30G的空间作为共用空间被HA使用;DRBD实现了网络RAID-1功能,即两台服务器一台是主节点,提供存储服务,一台是从节点;在主节点上的任何操作,都会被同步到从节点的相应磁盘分区上,达到数据备份的效果;当主节点发生故障时,通过Heartbeat从节点可以接管主节点的虚拟IP。
DRBD 实际上是一种块设备的实现,主要被用于Linux平台下的高可用(HA)方案之中。他是有内核模块和相关程序而组成,通过网络通 信来同步镜像整个设备,有点类似于一个网络RAID的功能。也就是说当你将数据写入本地的DRBD设备上的文件系统时,数据会同时被发送到网络中的另外一台主机之上, 并以完全相同的形式记录在一个文件系统中(实际上文件系统的创建也是由DRBD的同步来实现的)。本地节点(主机)与远程节点(主机)的数据可以保证实时 的同步,并保证IO的一致性。所以当本地节点的主机出现故障时,远程节点的主机上还会保留有一份完全相同的数据,可以继续使用,以达到高可用的目的。
实际生产环境中,如果NameNode宕机,造成的损失是不可估量的。要保证主NameNode不间断服务,就需要对服务器实现冗余。Heartbeat 提供了廉价的、可伸缩的高可用集群方案。通过DRBD + Heartbeat在Linux下创建一个高可用(HA)的集群服务器,在高可用(HA)解决方案中使用DRBD的功能,可以代替使用一个共享盘阵存储设备。因为数据同时存在于本地主机和远程主机上,在遇到需要切换的时候,远程主机只需要使用它上面的那份备份数据,就可以继续提供服务了。
本发明的一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法其加工制作非常简单方便,按照说明书所示即可加工。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法,其特征在于采用两台服务器实现双机热备,HDFS的元数据需要保存在共享存储中;两台主机的eth1使用双机对联线直接连接;每台主机预留30G的空间作为共用空间被HA使用;DRBD实现了网络RAID-1功能,即两台服务器一台是主节点,提供存储服务,一台是从节点;在主节点上的任何操作,都会被同步到从节点的相应磁盘分区上,达到数据备份的效果;当主节点发生故障时,通过Heartbeat从节点可以接管主节点的虚拟IP。
CN201410717146.8A 2014-12-03 2014-12-03 一种解决hadoop分布式文件系统namenode单点故障的ha方法 Pending CN104461792A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410717146.8A CN104461792A (zh) 2014-12-03 2014-12-03 一种解决hadoop分布式文件系统namenode单点故障的ha方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410717146.8A CN104461792A (zh) 2014-12-03 2014-12-03 一种解决hadoop分布式文件系统namenode单点故障的ha方法

Publications (1)

Publication Number Publication Date
CN104461792A true CN104461792A (zh) 2015-03-25

Family

ID=52907888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410717146.8A Pending CN104461792A (zh) 2014-12-03 2014-12-03 一种解决hadoop分布式文件系统namenode单点故障的ha方法

Country Status (1)

Country Link
CN (1) CN104461792A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105007172A (zh) * 2015-05-28 2015-10-28 杭州健港信息科技有限公司 一种hdfs高可用性方案的实现方法
CN105554130A (zh) * 2015-12-18 2016-05-04 深圳中兴网信科技有限公司 基于分布式存储系统的NameNode切换方法和切换装置
CN105808391A (zh) * 2016-04-05 2016-07-27 浪潮电子信息产业股份有限公司 一种热替换cpu节点的方法及装置
CN106210038A (zh) * 2016-07-06 2016-12-07 网易(杭州)网络有限公司 数据操作请求的处理方法及系统
CN106648996A (zh) * 2017-01-10 2017-05-10 郑州云海信息技术有限公司 一种存储管理软件的用户数据保护方法
CN107046474A (zh) * 2016-12-20 2017-08-15 东软集团股份有限公司 一种服务集群
WO2017152736A1 (zh) * 2016-03-07 2017-09-14 中兴通讯股份有限公司 一种分布式文件系统hdfs的管理方法、装置及系统
CN107463577A (zh) * 2016-06-06 2017-12-12 华为软件技术有限公司 一种数据存储系统以及数据查找方法
CN108268210A (zh) * 2016-12-30 2018-07-10 中移(苏州)软件技术有限公司 一种信息处理方法、计算节点及存储节点
CN108829787A (zh) * 2018-05-31 2018-11-16 郑州云海信息技术有限公司 一种元数据分布式系统
CN109542471A (zh) * 2018-11-28 2019-03-29 郑州云海信息技术有限公司 一种计算节点的安装方法及装置
CN109857588A (zh) * 2018-12-11 2019-06-07 浪潮(北京)电子信息产业有限公司 基于多控存储系统的精简卷元数据处理方法、装置及系统
CN109889561A (zh) * 2017-12-25 2019-06-14 新华三大数据技术有限公司 一种数据处理方法及装置
CN112131045A (zh) * 2020-09-04 2020-12-25 上海云轴信息科技有限公司 一种双机热备系统的存储设计及故障恢复的方法与设备
CN112380067A (zh) * 2020-11-30 2021-02-19 四川大学华西医院 一种Hadoop环境下基于元数据的大数据备份系统及方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105007172A (zh) * 2015-05-28 2015-10-28 杭州健港信息科技有限公司 一种hdfs高可用性方案的实现方法
CN105554130A (zh) * 2015-12-18 2016-05-04 深圳中兴网信科技有限公司 基于分布式存储系统的NameNode切换方法和切换装置
WO2017152736A1 (zh) * 2016-03-07 2017-09-14 中兴通讯股份有限公司 一种分布式文件系统hdfs的管理方法、装置及系统
CN105808391A (zh) * 2016-04-05 2016-07-27 浪潮电子信息产业股份有限公司 一种热替换cpu节点的方法及装置
CN107463577A (zh) * 2016-06-06 2017-12-12 华为软件技术有限公司 一种数据存储系统以及数据查找方法
CN107463577B (zh) * 2016-06-06 2021-01-29 华为技术有限公司 一种数据存储系统以及数据查找方法
CN106210038A (zh) * 2016-07-06 2016-12-07 网易(杭州)网络有限公司 数据操作请求的处理方法及系统
CN106210038B (zh) * 2016-07-06 2019-01-29 网易(杭州)网络有限公司 数据操作请求的处理方法及系统
CN107046474B (zh) * 2016-12-20 2019-12-13 东软集团股份有限公司 一种服务集群
CN107046474A (zh) * 2016-12-20 2017-08-15 东软集团股份有限公司 一种服务集群
CN108268210A (zh) * 2016-12-30 2018-07-10 中移(苏州)软件技术有限公司 一种信息处理方法、计算节点及存储节点
CN106648996A (zh) * 2017-01-10 2017-05-10 郑州云海信息技术有限公司 一种存储管理软件的用户数据保护方法
CN109889561A (zh) * 2017-12-25 2019-06-14 新华三大数据技术有限公司 一种数据处理方法及装置
CN108829787A (zh) * 2018-05-31 2018-11-16 郑州云海信息技术有限公司 一种元数据分布式系统
CN109542471A (zh) * 2018-11-28 2019-03-29 郑州云海信息技术有限公司 一种计算节点的安装方法及装置
CN109857588A (zh) * 2018-12-11 2019-06-07 浪潮(北京)电子信息产业有限公司 基于多控存储系统的精简卷元数据处理方法、装置及系统
CN112131045A (zh) * 2020-09-04 2020-12-25 上海云轴信息科技有限公司 一种双机热备系统的存储设计及故障恢复的方法与设备
CN112380067A (zh) * 2020-11-30 2021-02-19 四川大学华西医院 一种Hadoop环境下基于元数据的大数据备份系统及方法
CN112380067B (zh) * 2020-11-30 2023-08-22 四川大学华西医院 一种Hadoop环境下基于元数据的大数据备份系统及方法

Similar Documents

Publication Publication Date Title
CN104461792A (zh) 一种解决hadoop分布式文件系统namenode单点故障的ha方法
CN107707393B (zh) 基于Openstack O版特性的多活系统
US11860898B2 (en) Non-disruptive baseline and resynchronization of a synchronous replication relationship
US20200371990A1 (en) Virtual file server
US20230289069A1 (en) Low overhead resynchronization snapshot creation and utilization
US9747179B2 (en) Data management agent for selective storage re-caching
US20190213093A1 (en) Non-disruptive controller replacement in a cross-cluster redundancy configuration
US11106556B2 (en) Data service failover in shared storage clusters
US20200201725A1 (en) Moving a consistency group having a replication relationship
US8639976B2 (en) Power failure management in components of storage area network
US8396836B1 (en) System for mitigating file virtualization storage import latency
US20230308507A1 (en) Commissioning and decommissioning metadata nodes in a running distributed data storage system
KR101670343B1 (ko) 피어투피어 데이터 복제를 위한 방법, 장치, 및 시스템 및 마스터 노드 전환을 위한 방법, 장치, 및 시스템
CN104023246B (zh) 一种视频数据私有云存储系统和视频数据私有云存储方法
CN105141456A (zh) 一种高可用集群资源监控方法
US10423584B2 (en) Synchronous replication for file access protocol storage
US20150082302A1 (en) High availability using dynamic quorum-based arbitration
US9582559B1 (en) Multi-site storage system with replicated file system synchronization utilizing virtual block storage appliances
US20120151095A1 (en) Enforcing logical unit (lu) persistent reservations upon a shared virtual storage device
CN102833580A (zh) 基于infiniband的高清视频应用系统及方法
CN106919473A (zh) 一种数据灾备系统及业务处理方法
US11321283B2 (en) Table and index communications channels
IN2013KO01274A (zh)
CN104410531A (zh) 冗余的系统架构方法
US11120048B2 (en) Non-disruptive transition to synchronous replication state

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150325

WD01 Invention patent application deemed withdrawn after publication