CN101577735B - 一种接管故障元数据服务器的方法、装置及系统 - Google Patents

一种接管故障元数据服务器的方法、装置及系统 Download PDF

Info

Publication number
CN101577735B
CN101577735B CN2009101507328A CN200910150732A CN101577735B CN 101577735 B CN101577735 B CN 101577735B CN 2009101507328 A CN2009101507328 A CN 2009101507328A CN 200910150732 A CN200910150732 A CN 200910150732A CN 101577735 B CN101577735 B CN 101577735B
Authority
CN
China
Prior art keywords
neighbours
meta data
data server
metadata tree
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009101507328A
Other languages
English (en)
Other versions
CN101577735A (zh
Inventor
程菊生
徐涛
陈浩
钟吉林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Huawei Technology Co Ltd
Original Assignee
Huawei Symantec Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Symantec Technologies Co Ltd filed Critical Huawei Symantec Technologies Co Ltd
Priority to CN2009101507328A priority Critical patent/CN101577735B/zh
Publication of CN101577735A publication Critical patent/CN101577735A/zh
Priority to PCT/CN2010/074042 priority patent/WO2010148988A1/zh
Application granted granted Critical
Publication of CN101577735B publication Critical patent/CN101577735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Abstract

本发明实施例提供一种接管故障元数据服务器的方法、装置及系统,其中,上述方法应用于元数据服务器集群,元数据服务器包括本地元数据树、邻居元数据树;本地元数据树对本地文件系统进行管理;邻居元数据树对应于邻居元数据服务器的本地元数据树;所述方法包括:当本地元数据服务器对应的邻居元数据服务器工作正常时,本地元数据服务器通过邻居元数据树对邻居元数据服务器中的本地元数据树进行实时镜像;当邻居元数据服务器出现故障时,本地元数据服务器通过对实时镜像的邻居元数据树进行管理,以接管出现故障的邻居元数据服务器。本发明实施例上述技术方案达到了提高元数据服务器的可靠性,进而提高了整个分布式文件存储系统的可靠性。

Description

一种接管故障元数据服务器的方法、装置及系统
技术领域
本发明涉及分布式文件存储领域,尤其涉及一种接管故障元数据服务器(Metadata Server,MDS)的方法、装置及系统。
背景技术
近几年来分布式文件系统得到大力发展,开始广泛地应用于存储解决方案中。由于分布式文件系统管理的文件数量非常大,经常出现上亿个文件或几十亿个文件,需要用专门的元数据服务器进行管理。随着存储规模的扩大和云存储(云存储是指通过集群(Cluster)应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统)的发展,单个元数据服务器已经不能满足用户需求,需要用多个元数据服务器组成的集群来管理这些元数据。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:传统的分布式文件系统分为三个部分:客户端、元数据服务器、对象存储服务器(Object Storage Server,OSS)。元数据服务器管理整个系统所有元数据。如果元数据出现故障,分布式文件系统将不能工作。随着分布式文件系统的增大,元数据服务器的数量会越来越多,元数据服务器出现故障的概率也越来越大,系统的可靠性难以得到保证。因而,如何提高元数据服务器的可靠性就成为了分布式文件存储的发展瓶颈。
发明内容
本发明实施例提供一种接管故障元数据服务器的方法、装置及系统,以提高元数据服务器的可靠性,进而提高整个分布式文件存储系统的可靠性。
一方面,本发明实施例提供了一种接管故障元数据服务器的方法,应用于元数据服务器集群(MDS Cluster),所述元数据服务器包括本地元数据树、邻居元数据树;所述本地元数据树用于对本地文件系统进行管理;所述邻居元数据树对应于邻居元数据服务器的本地元数据树;
所述方法包括:通过生成森林框架保存所述元数据服务器集群中所述本地元数据树和所述邻居元数据树的分布情况,以及所述本地元数据树和所述邻居元数据树的相互关系;当本地元数据服务器对应的邻居元数据服务器工作正常时,所述本地元数据服务器通过所述邻居元数据树对所述邻居元数据服务器中的本地元数据树进行实时镜像,以对所述邻居元数据服务器中的本地文件系统进行备份;当所述邻居元数据服务器出现故障时,所述本地元数据服务器通过对实时镜像的邻居元数据树进行管理,以接管出现故障的所述邻居元数据服务器。
另一方面,本发明实施例提供了一种接管故障元数据服务器的装置,应用于元数据服务器集群,所述元数据服务器包括本地元数据树、邻居元数据树;所述本地元数据树用于对本地文件系统进行管理,所述邻居元数据树对应于邻居元数据服务器的本地元数据树;所述装置包括:森林框架生成单元,用于生成森林框架,所述森林框架用于保存所述元数据服务器集群中所述本地元数据树和所述邻居元数据树的分布情况,以及所述本地元数据树和所述邻居元数据树的相互关系;实时镜像单元,用于当本地元数据服务器对应的邻居元数据服务器工作正常时,通过所述邻居元数据树对所述邻居元数据服务器中的本地元数据树进行实时镜像,以对所述邻居元数据服务器中的本地文件系统进行备份;故障接管单元,用于当所述邻居元数据服务器出现故障时,所述本地元数据服务器通过对实时镜像的邻居元数据树进行管理,以接管出现故障的所述邻居元数据服务器。
再一方面,本发明实施例提供了一种接管故障元数据服务器的系统,上述系统包括:客户端集群,用于对元数据服务器集群中的元数据服务器的元数据和对象存储服务器集群(OSS Cluster)中对象存储服务器存储的对象进行访问;元数据服务器集群,所述元数据服务器集群中的每个元数据服务器包括本地元数据树、邻居元数据树;所述本地元数据树用于对本地文件系统进行管理,所述邻居元数据树对应于邻居元数据服务器的本地元数据树;用于生成森林框架,所述森林框架用于保存所述元数据服务器集群中所述本地元数据树和所述邻居元数据树的分布情况,以及所述本地元数据树和所述邻居元数据树的相互关系;当本地元数据服务器对应的邻居元数据服务器工作正常时,通过所述邻居元数据树对所述邻居元数据服务器中的本地元数据树进行实时镜像,以对所述邻居元数据服务器中的本地文件系统进行备份;还用于当所述邻居元数据服务器出现故障时,所述本地元数据服务器通过对实时镜像的邻居元数据树进行管理,以接管出现故障的所述邻居元数据服务器;对象存储服务器集群,用于对应于所述元数据服务器集群中的一个元数据服务器,存储所述元数据服务器中的元数据对应的对象。
上述技术方案具有如下有益效果:
在采用本地元数据服务器对应的邻居元数据服务器工作正常时,通过上述本地元数据服务器中的邻居元数据树对上述邻居元数据服务器中的元数据进行实时镜像;当上述邻居元数据服务器出现故障时,上述本地元数据服务器通过对实时镜像的邻居元数据树进行管理,以接管出现故障的上述邻居元数据服务器的技术手段,所以达到了提高元数据服务器的可靠性,进而提高了整个分布式文件存储系统的可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种接管故障元数据服务器的方法流程图;
图2为本发明实施例一种森林文件系统示意图;
图3为本发明实施例正常情况下的工作示意图;
图4为本发明实施例森林文件系统的森林框架与元数据树的关系示意图;
图5为本发明实施例某个元数据服务器发生故障和接管情况下的工作示意图;
图6为本发明实施例一种接管故障元数据服务器的装置结构示意图;
图7为本发明实施例一种接管故障元数据服务器的系统组成示意图;
图8为本发明实施例集群情况下正常情况的示意图;
图9为本发明实施例集群情况下某个元数据服务器发生故障和接管情况下的示意图;
图10为本发明实施例集群情况下故障排除和数据恢复情况下的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
如图1所示,为本发明实施例一种接管故障元数据服务器的方法流程图,应用于元数据服务器集群,所述元数据服务器包括本地元数据树、邻居元数据树;所述本地元数据树用于对本地文件系统进行管理;所述邻居元数据树对应于邻居元数据服务器的本地元数据树;
上述方法包括如下步骤:
S101,当本地元数据服务器对应的邻居元数据服务器工作正常时,所述本地元数据服务器通过所述邻居元数据树对所述邻居元数据服务器中的本地元数据树进行实时镜像,以对所述邻居元数据服务器中的本地文件系统进行备份。
S102,当所述邻居元数据服务器出现故障时,所述本地元数据服务器通过对实时镜像的邻居元数据树进行管理,以接管出现故障的所述邻居元数据服务器。
上述方法还通过生成森林框架保存所述元数据服务器集群中所述本地元数据树和所述邻居元数据树的分布情况,以及所述本地元数据树和所述邻居元数据树的相互关系。
当所述本地元数据服务器对应的邻居元数据服务器工作正常时,所述邻居元数据树属性为“镜像”,所述本地元数据树属性为“读写”;当所述邻居元数据服务器出现故障时,所述邻居元数据树的属性从“镜像”变为“读写”。
可选的,当所述邻居元数据服务器出现故障后长期没恢复时,所述邻居元数据树变为本地元数据树,对出现故障的所述邻居元数据服务器的本地文件系统进行管理;所述方法还包括,创建第二邻居元数据树,所述第二邻居元数据树对应于第二邻居元数据服务器的本地元数据树,用于对所述第二邻居元数据服务器通过镜像进行备份;所述第二邻居元数据服务器的本地元数据树原先与所述邻居元数据服务器的邻居元数据树对应。当所述邻居元数据服务器的故障恢复后,恢复所述本地元数据服务器和所述邻居元数据树中的所述元数据树对应关系为所述邻居元数据服务器正常时的关系。
本发明上述方法实施例的技术方案具有如下有益效果:因为采用本地元数据服务器对应的邻居元数据服务器工作正常时,通过上述本地元数据服务器中的邻居元数据树对上述邻居元数据服务器中的元数据进行实时镜像;当上述邻居元数据服务器出现故障时,上述本地元数据服务器通过对实时镜像的邻居元数据树进行管理,以接管出现故障的上述邻居元数据服务器的技术手段,所以提高了元数据服务器的可靠性。
实施例二:
为了接管故障元数据服务器,提高元数据服务器的可靠性,本发明实施例采用“森林文件系统”来对元数据进行组织和管理。森林文件系统是一个全局的文件系统,参见图2,包括:
森林框架(Framework)和元数据树(Metadata Tree)。
森林框架描述了整个系统中所有元数据树的分布情况,以及元数据树的相互关系(如父子关系、兄弟关系、邻居关系等)。同时,还为每一个元数据树分配一个本地文件系统。一个森林框架可以管理多个元数据树。
元数据树是森林文件系统的一棵数据树,由元数据服务器的本地文件系统组成。一棵元数据树由一个元数据服务器管理。元数据的读写查询等操作都通过元数据树来完成。
元数据树的操作权限可以为以下几种:
(1)“读写”(Read-Write):可以进行读写查找等操作;
(2)“只读”(Read-Only):只有读权限,不能进行写和其他操作;
(3)“镜像”(Mirror-Only):只有镜像权限,用于数据的镜像,不能进行读写等操作。此处所谓镜像,是指实时读取并拷贝邻居树的数据。
元数据树根据存放位置的不同,还可以分为本地元数据树(Local MetadataTree,简称本地树)和邻居元数据树(Neighbor Metadata Tree,简称邻居树)。
其中,本地树是指该树对应的元数据服务器在本地存放的元数据树;邻居树是指元数据服务器的数据树除了保存在本地外,同时还镜像到邻居元数据服务器上,即为一个保存在某一MDS上的元数据树,为另一元数据树的镜像。当本地树出现故障后,由邻居树来接管。正常情况下,邻居树只具有“镜像”权限,没有“读写”权限。接管时,邻居树被激活,并转换成本地树,具有本地树的全部权限。
参见图2,为本发明实施例森林文件系统示意图,在图2中,包括3个元数据树,分别为元数据树1、元数据树2和元数据树3。每个元数据树都由一个元数据服务器来管理,分别为元数据服务器MDS-1、MDS-2和MDS-3。为了对元数据进行冗余备份和故障恢复,可以将这些树组成一个环形,称为“树环(Tree Ring)”,即在每个元数据服务器上都设置两个树,一个本地树,一个邻居树;每个本地树对应于一个元数据树,每个邻居树对应于相邻的元数据树,并且都是一一对应,不会出现一个本地树或邻居树对应多个元数据树的情况,因此,可以将这些树之间的对应关系看成是一个树环。参见图2,图中所示的元数据服务器与本地树、邻居树的关系如下表1所示:
表1元数据服务器与本地树、邻居树的关系表
  元数据服务器   本地树   邻居树
  MDS-1   元数据树1   元数据树3
  MDS-2   元数据树2   元数据树1
  MDS-3   元数据树3   元数据树2
由表1可知,元数据数据服务器MDS-1中本地树对应的是元数据树1,邻居树对应的是元数据树3;同时,元数据树3也是MDS-3中的本地树,即MDS-1中的邻居树对应的是MDS-3中的本地树,如果MDS-3出现故障,则MDS-1通过对邻居树(对应于元数据树3)进行管理来实现对出现故障的MDS-3的接管。
这里需要说明的是,上述方案为本发明实施例优选的方案,在实际应用中也可以设置多个邻居树(如2个、或者3个)来对多个元数据树进行管理,其管理方法可以参考本发明实施例中的相关步骤。
参见图3,本发明实施例接管故障元数据服务器的流程图,步骤如下:
S301、构建森林框架;
森林框架描述了整个系统中所有元数据树的分布情况,以及所有元数据树的相互关系(如父子关系、兄弟关系、邻居关系等),其实质是建立在本地文件系统之上的一个超级文件系统,具有根节点、目录结构和分区结构;但不负责文件的管理和操作。同时,可以设置每一个分区分别对应于一棵元数据树,如下表2所示,为分区与元数据树对应关系表:
表2分区与元数据树对应关系表
  元数据服务器   路径
  MDS0   /
  MDS1   /home
  MDS2   /usr
  MDS3   /etc
  MDS4   /var
在表2中,元数据服务器MDS0对应的分区为“/”,即根路径;MDS1对应的路径为“/home”;其余元数据服务器具体对应的路径可以参见表2。需要说明的是,一个目录可以对应几个元数据服务器。
S302、构建元数据树;
参见图4,为本发明实施例森林文件系统森林框架与元数据树的关系示意图,其中,
(1)构建本地元数据树
如图4所示,为本发明实施例森林文件系统的森林框架与元数据树的关系示意图。元数据树是森林文件系统的一棵子树,本质上是元数据服务器上的本地文件系统。一棵元数据树由一个元数据服务器管理。元数据的读、写、查询等操作都是通过元数据树来完成。元数据树是本地文件系统,由本地的根节点(Root node)、索引节点(inode)、数据块(Data block)三层树型结构组成。只不过,这个本地文件系统仅仅是整个森林文件系统的一个分区。
(2)构建元数据的邻居树
元数据的邻居树是其他元数据服务器的本地树的镜像。在元数据服务器正常的情况下,邻居树只具有“镜像”权限,只用来实时镜像邻居数据,而没有“读写”权限。
邻居元数据树对应于邻居元数据服务器的本地元数据树,对应关系可以参考表1中的对应关系。
此外,如果本地树太大时,可以通过森林框架在新的元数据服务器上再创建一棵空树,然后将本地树的部分目录结构迁移到空树上,形成新的元数据服务器的本地树,同时,也可以创建邻居树,以及将这些树与其他元数据服务器上的树对应起来。
S303、本地元数据邻居树对应的邻居元数据服务器工作正常时,通过所述邻居元数据树对邻居元数据服务器中的本地元数据树进行实时镜像;
例如,在图2所示的系统中,MDS-1中的邻居树对MDS-3中的本地树进行实时镜像,MDS-2中的邻居树对MDS-1中的本地树进行实时镜像,MDS-3中的邻居树对MDS-2中的本地树进行实时镜像。通过实时镜像,可以对邻居元数据服务器的本地文件系统进行备份。
S304、当邻居元数据服务器出现故障时,激活邻居元数据树,用来管理邻居元数据服务器;
这里的邻居元数据服务器可以是邻居元数据树对应的元数据服务器,例如参见图2,在MDS-1中,邻居元数据服务器是指邻居元数据树对应的元数据服务器,即元数据服务器3(与元数据树3对应)。
当邻居元数据服务器出现故障,例如元数据服务器3(MDS-3)出现故障时,将邻居元数据树的属性从“镜像”变为“读写”,此时,MDS-1可对邻居元数据树3进行读写操作,来对元数据树3对应的元数据服务器3进行管理。
可选地,还可以包括步骤:
S305、当邻居元数据服务器长期没有恢复,邻居元数据树转变为本地元数据树,并生成新的邻居树对第二邻居元数据服务器进行管理;
例如,参见图2和图5,当MDS-1出现故障且长期没有恢复时,实时镜像MDS-1的本地树的MDS-2的邻居树变为本地树-2,接管MDS-1并对其进行元数据管理。
同时,还创建新的邻居树来对第二邻居元数据服务器进行管理,这里的第二邻居元数据服务器的本地树原先与出现故障的邻居元数据服务器的邻居树对应。例如,MDS-2生成新的邻居树对MDS-3的本地树进行实时镜像(MDS-3原先对应MDS-1的邻居树),MDS-3生成新的邻居树-2对MDS-2的本地树-2进行实时镜像。
可选地,还可以包括步骤:
S306、当邻居元数据服务器恢复时,恢复所述本地元数据服务器和所述邻居元数据树中的所述元数据树对应关系为所述邻居元数据服务器正常时的关系。
如果邻居元数据服务器恢复正常,则恢复改变后的各服务器树的对应关系为邻居元数据服务器正常时的关系。例如,将图5所示的对应关系恢复为图2所示的对应关系。
本发明实施例通过提出了一种通过邻居树来接管故障元数据服务器的方法,当本地元数据服务器对应的邻居元数据服务器工作正常时,利用本地元数据服务器的邻居树实时镜像邻居元数据服务器的本地树;当邻居元数据服务器出现故障,由本地元数据服务器的邻居树来接管。本发明实施例提出了一种关于元数据的“森林文件系统--本地树--邻居树”的设计方法。森林文件系统定义了各个分区、分区和元数据服务器的对应关系、本地树间的关系、邻居树的关系等等。本发明实施例技术方案带来的有益效果:大大提高分布式文件系统的元数据的可靠性。本发明实施例将大大提高分布式文件系统的元数据的可靠性,如果元数据服务器集群中某个元数据服务器出现故障(只要同一时间不出现两个元数据服务器故障),系统就可以通过邻居树来接管出现故障的邻居元数据服务器,以来保证系统的可用性。只要同一时间不出现两个元数据服务器故障(在实际应用中,同一时间两个元数据服务器发生故障的出现概率也极其微小),在极限情况下(除最后一个元数据服务器正常外,其余所有元数据服务器都发生故障),分布式文件系统依然可用。这种设计方法大大提高了元数据的可靠性。
实施例三:
如图6所示,为本发明实施例一种接管故障元数据服务器的装置结构示意图,应用于元数据服务器集群,所述元数据服务器包括本地元数据树、邻居元数据树;所述本地元数据树用于对本地文件系统进行管理,所述邻居元数据树对应于邻居元数据服务器的本地元数据树;所述装置70包括:
实时镜像单元701,用于当本地元数据服务器对应的邻居元数据服务器工作正常时,通过所述邻居元数据树对所述邻居元数据服务器中的本地元数据树进行实时镜像,以对所述邻居元数据服务器中的本地文件系统进行备份;
故障接管单元702,用于当所述邻居元数据服务器出现故障时,所述本地元数据服务器通过对实时镜像的邻居元数据树进行管理,以接管出现故障的所述邻居元数据服务器。
可选的,所述装置70还包括森林框架生成单元,生成森林,所述森林框架用于保存所述元数据服务器集群中所述本地元数据树和所述邻居元数据树的分布情况,以及所述本地元数据树和所述邻居元数据树的相互关系。
所述实时镜像单元还用于:
所述本地元数据服务器对应的邻居元数据服务器工作正常时,设置所述邻居元数据树属性为“镜像”,所述本地元数据树属性为“读写”;当所述邻居元数据服务器出现故障时,将所述邻居元数据树的属性从“镜像”改变为“读写”。
可选的,所述故障接管单元702还用于:当所述邻居元数据服务器出现故障后长期没恢复时,所述邻居元数据树变为本地元数据树,对出现故障的所述邻居元数据服务器的本地文件系统进行管理;所述故障接管单元702还用于:创建第二邻居元数据树,所述第二邻居元数据树对应于第二邻居元数据服务器的本地元数据树,用于对所述第二邻居元数据服务器通过镜像进行备份;所述第二邻居元数据服务器的本地元数据树原先与所述邻居元数据服务器的邻居元数据树对应。
所述装置70还包括:故障恢复单元,用于恢复所述本地元数据服务器和所述邻居元数据树中的所述元数据树对应关系为所述邻居元数据服务器正常时的关系。
本发明上述装置实施例的技术方案达到了提高元数据服务器的可靠性,进而提高了整个分布式文件存储系统的可靠性。
实施例四:
如图7所示,为本发明实施例一种接管故障元数据服务器的系统组成示意图,上述系统包括:客户端集群81,用于对元数据服务器集群82中的元数据服务器的元数据和对象存储服务器集群83中对象存储服务器存储的对象进行访问;元数据服务器集群82,所述元数据服务器集群中的每个元数据服务器包括本地元数据树、邻居元数据树;所述本地元数据树用于对本地文件系统进行管理,所述邻居元数据树对应于邻居元数据服务器的本地元数据树;用于当本地元数据服务器对应的邻居元数据服务器工作正常时,通过所述邻居元数据树对所述邻居元数据服务器中的本地元数据树进行实时镜像,以对所述邻居元数据服务器中的本地文件系统进行备份;还用于当所述邻居元数据服务器出现故障时,所述本地元数据服务器通过对实时镜像的邻居元数据树进行管理,以接管出现故障的所述邻居元数据服务器;对象存储服务器集群83,用于对应于所述元数据服务器集群中的一个元数据服务器,存储所述元数据服务器中的元数据对应的对象。
下面在上述系统的基础上结合附图进行具体形象的说明:
1)正常情况:
如图8所示,为本发明实施例集群情况下正常情况的示意图。本发明实施例的分布式存储系统分为三大部分:客户端集群、元数据服务器集群、对象存储服务器集群。元数据服务器集群由多个元数据服务器组成。每个元数据服务器负责一个对象存储服务器集群。
2)发生故障和接管:
如图9所示,为本发明实施例集群情况下某个元数据服务器发生故障和接管情况下的示意图。当元数据服务器集群中某个元数据服务器发生故障,系统将通过本发明实施例提出的方法,由邻居元数据服务器来接替故障节点。由于邻居元数据服务器上邻居树已经保存了故障节点的全部最新的元数据和目录结构,因而只需要在邻居元数据服务器上将邻居树激活,由“只读”变为“读写”,就可以接管故障元数据服务器,保证系统继续可用。
3)故障排除和数据恢复:
如图10所示,为本发明实施例集群情况下故障排除和数据恢复情况下的示意图。当元数据服务器故障已经排除,并且重新加入集群中,系统将通过本发明实施例提出的方法,将本地元数据服务器上最新的邻居树发送给新节点。新节点根据邻居树来建立本地树,同时将邻居元数据服务器上的本地树备份到本地,作为邻居树。
本发明实施例上述系统的技术方案达到了提高元数据服务器的可靠性,进而提高整个了分布式文件存储系统的可靠性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述全部或部分步骤,所述的存储介质,如:ROM/RAM、磁盘、光盘等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种接管故障元数据服务器的方法,其特征在于,应用于元数据服务器集群,所述元数据服务器包括本地元数据树、邻居元数据树;所述本地元数据树用于对本地文件系统进行管理;所述邻居元数据树对应于邻居元数据服务器的本地元数据树;所述方法包括:
通过生成森林框架保存所述元数据服务器集群中所述本地元数据树和所述邻居元数据树的分布情况,以及所述本地元数据树和所述邻居元数据树的相互关系;
当本地元数据服务器对应的邻居元数据服务器工作正常时,所述本地元数据服务器通过所述邻居元数据树对所述邻居元数据服务器中的本地元数据树进行实时镜像,以对所述邻居元数据服务器中的本地文件系统进行备份;
当所述邻居元数据服务器出现故障时,所述本地元数据服务器通过对实时镜像的邻居元数据树进行管理,以接管出现故障的所述邻居元数据服务器。
2.如权利要求1所述方法,其特征在于:
所述本地元数据服务器对应的邻居元数据服务器工作正常时,所述邻居元数据树属性为“镜像”,所述本地元数据树属性为“读写”;
当所述邻居元数据服务器出现故障时,所述邻居元数据树的属性从“镜像”变为“读写”。
3.如权利要求2所述方法,其特征在于,所述方法还包括:
当所述邻居元数据服务器出现故障后长期没恢复时,所述邻居元数据树变为本地元数据树,对出现故障的所述邻居元数据服务器的本地文件系统进行管理;
所述方法还包括,创建第二邻居元数据树,所述第二邻居元数据树对应于第二邻居元数据服务器的本地元数据树,用于对所述第二邻居元数据服务器通过镜像进行备份;所述第二邻居元数据服务器的本地元数据树原先与所述邻居元数据服务器的邻居元数据树对应。
4.如权利要求1所述方法,其特征在于:
当所述邻居元数据服务器的故障恢复后,恢复所述本地元数据服务器和所述邻居元数据树中的所述元数据树对应关系为所述邻居元数据服务器正常时的关系。
5.一种接管故障元数据服务器的装置,其特征在于,应用于元数据服务器集群,所述元数据服务器包括本地元数据树、邻居元数据树;所述本地元数据树用于对本地文件系统进行管理,所述邻居元数据树对应于邻居元数据服务器的本地元数据树;所述装置包括:
森林框架生成单元,用于生成森林框架,所述森林框架用于保存所述元数据服务器集群中所述本地元数据树和所述邻居元数据树的分布情况,以及所述本地元数据树和所述邻居元数据树的相互关系;
实时镜像单元,用于当本地元数据服务器对应的邻居元数据服务器工作正常时,通过所述邻居元数据树对所述邻居元数据服务器中的本地元数据树进行实时镜像,以对所述邻居元数据服务器中的本地文件系统进行备份;
故障接管单元,用于当所述邻居元数据服务器出现故障时,所述本地元数据服务器通过对实时镜像的邻居元数据树进行管理,以接管出现故障的所述邻居元数据服务器。
6.如权利要求5所述装置,其特征在于,所述实时镜像单元还用于:
所述本地元数据服务器对应的邻居元数据服务器工作正常时,设置所述邻居元数据树属性为“镜像”,所述本地元数据树属性为“读写”;当所述邻居元数据服务器出现故障时,将所述邻居元数据树的属性从“镜像”改变为“读写”。
7.如权利要求6所述装置,其特征在于:
所述故障接管单元还用于:当所述邻居元数据服务器出现故障后长期没恢复时,所述邻居元数据树变为本地元数据树,对出现故障的所述邻居元数据服务器的本地文件系统进行管理;
所述故障接管单元还用于:创建第二邻居元数据树,所述第二邻居元数据树对应于第二邻居元数据服务器的本地元数据树,用于对所述第二邻居元数据服务器通过镜像进行备份;所述第二邻居元数据服务器的本地元数据树原先与所述邻居元数据服务器的邻居元数据树对应。
8.如权利要求5所述装置,其特征在于,所述装置还包括:
故障恢复单元,用于恢复所述本地元数据服务器和所述邻居元数据树中的所述元数据树对应关系为所述邻居元数据服务器正常时的关系。
9.一种接管故障元数据服务器的系统,其特征在于,所述系统包括:
客户端集群,用于对元数据服务器集群中的元数据服务器的元数据和对象存储服务器集群中对象存储服务器存储的对象进行访问;
元数据服务器集群,所述元数据服务器集群中的每个元数据服务器包括本地元数据树、邻居元数据树;所述本地元数据树用于对本地文件系统进行管理,所述邻居元数据树对应于邻居元数据服务器的本地元数据树;用于生成森林框架,所述森林框架用于保存所述元数据服务器集群中所述本地元数据树和所述邻居元数据树的分布情况,以及所述本地元数据树和所述邻居元数据树的相互关系;当本地元数据服务器对应的邻居元数据服务器工作正常时,通过所述邻居元数据树对所述邻居元数据服务器中的本地元数据树进行实时镜像,以对所述邻居元数据服务器中的本地文件系统进行备份;还用于当所述邻居元数据服务器出现故障时,所述本地元数据服务器通过对实时镜像的邻居元数据树进行管理,以接管出现故障的所述邻居元数据服务器;
对象存储服务器集群,用于对应于所述元数据服务器集群中的一个元数据服务器,存储所述元数据服务器中的元数据对应的对象。
CN2009101507328A 2009-06-24 2009-06-24 一种接管故障元数据服务器的方法、装置及系统 Active CN101577735B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2009101507328A CN101577735B (zh) 2009-06-24 2009-06-24 一种接管故障元数据服务器的方法、装置及系统
PCT/CN2010/074042 WO2010148988A1 (zh) 2009-06-24 2010-06-18 接管故障元数据服务器的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101507328A CN101577735B (zh) 2009-06-24 2009-06-24 一种接管故障元数据服务器的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN101577735A CN101577735A (zh) 2009-11-11
CN101577735B true CN101577735B (zh) 2012-04-25

Family

ID=41272521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101507328A Active CN101577735B (zh) 2009-06-24 2009-06-24 一种接管故障元数据服务器的方法、装置及系统

Country Status (2)

Country Link
CN (1) CN101577735B (zh)
WO (1) WO2010148988A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101577735B (zh) * 2009-06-24 2012-04-25 成都市华为赛门铁克科技有限公司 一种接管故障元数据服务器的方法、装置及系统
CN102523105B (zh) * 2011-11-30 2014-03-26 广东电子工业研究院有限公司 一种数据存储的故障恢复方法及其适用的数据分布架构
CN102523114A (zh) * 2011-12-15 2012-06-27 深圳市同洲视讯传媒有限公司 媒体服务器容灾的方法、媒体访问网关及系统
CN102546776B (zh) * 2011-12-27 2014-10-22 北京中科大洋科技发展股份有限公司 一种san共享文件系统中实现离线读文件的方法
WO2014008652A1 (zh) * 2012-07-12 2014-01-16 华为技术有限公司 元数据管理方法和装置
CN104104648A (zh) * 2013-04-02 2014-10-15 杭州信核数据科技有限公司 一种访问存储设备中的数据的方法、应用服务器和网络
CN103605584A (zh) * 2013-10-22 2014-02-26 芜湖大学科技园发展有限公司 电力元数据管理平台中元数据的镜像方法
US9720779B2 (en) 2014-11-27 2017-08-01 Institute For Information Industry Backup system and backup method thereof
CN104408393A (zh) * 2014-12-08 2015-03-11 张君 针对瓶装液体食品生产的rfid信号传送方法
CN104994168B (zh) * 2015-07-14 2018-05-01 苏州科达科技股份有限公司 分布式存储方法及分布式存储系统
CN106027634B (zh) * 2016-05-16 2019-06-04 白杨 消息端口交换服务系统
CN107528872B (zh) 2016-06-22 2020-07-24 杭州海康威视数字技术股份有限公司 一种数据恢复方法、装置及云存储系统
CN106446197B (zh) * 2016-09-30 2019-11-19 华为数字技术(成都)有限公司 一种数据存储方法、装置及系统
CN106533754A (zh) * 2016-11-08 2017-03-22 北京交通大学 用于高校教学服务器故障诊断的方法及专家系统
CN107402870B (zh) * 2017-07-31 2020-10-16 苏州浪潮智能科技有限公司 一种元数据服务器中日志段的处理方法及装置
CN107729178A (zh) * 2017-09-28 2018-02-23 郑州云海信息技术有限公司 一种元数据服务进程接替方法及装置
CN108880906A (zh) * 2018-07-06 2018-11-23 郑州云海信息技术有限公司 一种元数据服务的故障恢复方法、服务器、客户端及系统
CN111159786B (zh) * 2019-12-29 2022-04-22 浪潮电子信息产业股份有限公司 一种元数据保护方法、装置及电子设备和存储介质
CN111176898A (zh) * 2019-12-29 2020-05-19 浪潮电子信息产业股份有限公司 分布式文件系统mds故障切换方法、装置、设备和介质
CN111639114A (zh) * 2020-04-07 2020-09-08 北京邮电大学 一种基于物联网平台的分布式数据融合管理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059807A (zh) * 2007-01-26 2007-10-24 华中科技大学 一种提高元数据服务可靠性的方法及其系统
CN101079902A (zh) * 2007-06-29 2007-11-28 清华大学 海量数据分级存储方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7464124B2 (en) * 2004-11-19 2008-12-09 International Business Machines Corporation Method for autonomic data caching and copying on a storage area network aware file system using copy services
KR100911058B1 (ko) * 2007-11-22 2009-08-06 한국전자통신연구원 메타데이터 서버 검색 방법
CN101577735B (zh) * 2009-06-24 2012-04-25 成都市华为赛门铁克科技有限公司 一种接管故障元数据服务器的方法、装置及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059807A (zh) * 2007-01-26 2007-10-24 华中科技大学 一种提高元数据服务可靠性的方法及其系统
CN101079902A (zh) * 2007-06-29 2007-11-28 清华大学 海量数据分级存储方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU Yuling et al..Design and Implementation of Two-Level Metadata Server in Small-Scale Cluster File System.《Wuhan University Journal of Natural Sciences》.2006,第11卷(第6期),第1939-1942页. *
田俊峰等.小规模集群文件系统中两级元数据服务器的设计与实现.《小型微型计算机系统》.2007,第28卷(第6期),第1027-1028页. *

Also Published As

Publication number Publication date
CN101577735A (zh) 2009-11-11
WO2010148988A1 (zh) 2010-12-29

Similar Documents

Publication Publication Date Title
CN101577735B (zh) 一种接管故障元数据服务器的方法、装置及系统
CN101888405B (zh) 一种云计算的文件系统和数据处理方法
CN102411637B (zh) 分布式文件系统的元数据管理方法
US8090792B2 (en) Method and system for a self managing and scalable grid storage
CN100399327C (zh) 管理文件系统的逻辑版本的方法和数据存储系统
JP5918243B2 (ja) 分散型データベースにおいてインテグリティを管理するためのシステム及び方法
US8108634B1 (en) Replicating a thin logical unit
US8214334B2 (en) Systems and methods for distributed system scanning
JP2021002369A (ja) 索引更新パイプライン
CN104813321B (zh) 在分布式对象存储生态系统中的去耦合的内容以及元数据
CN103944981A (zh) 一种基于纠删码技术改进的云存储系统及实现方法
CN106021016A (zh) 在快照之间的虚拟时间点访问
US20140032496A1 (en) Information storage system and data replication method thereof
JP2010079886A (ja) 拡張可能な2次ストレージシステムと方法
JP2013544386A5 (zh)
CN103929500A (zh) 一种分布式存储系统的数据分片方法
CN103098015A (zh) 存储系统
CN111031096A (zh) 一种基于拟态防御的分布式存储系统构建方法
CN102693168A (zh) 一种数据备份恢复的方法、系统和服务节点
CN101515296A (zh) 数据更新方法和装置
CN104184812A (zh) 一种基于私有云的多点数据传输方法
CN102142032A (zh) 一种分布式文件系统的数据读写方法及系统
CN101986276A (zh) 文件存储方法、文件恢复方法、系统及服务器
CN103365740B (zh) 一种数据冷备方法及装置
KR101254179B1 (ko) 분산 파일 시스템에서 효율적인 자료 복구 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: HUAWEI DIGITAL TECHNOLOGY (CHENGDU) CO., LTD.

Free format text: FORMER NAME: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee after: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

Address before: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee before: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20220922

Address after: No. 1899 Xiyuan Avenue, high tech Zone (West District), Chengdu, Sichuan 610041

Patentee after: Chengdu Huawei Technologies Co.,Ltd.

Address before: 611731 Qingshui River District, Chengdu hi tech Zone, Sichuan, China

Patentee before: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

TR01 Transfer of patent right