CN106960011A - 分布式文件系统元数据管理系统及方法 - Google Patents

分布式文件系统元数据管理系统及方法 Download PDF

Info

Publication number
CN106960011A
CN106960011A CN201710114815.6A CN201710114815A CN106960011A CN 106960011 A CN106960011 A CN 106960011A CN 201710114815 A CN201710114815 A CN 201710114815A CN 106960011 A CN106960011 A CN 106960011A
Authority
CN
China
Prior art keywords
meta data
meta
file
metadata
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710114815.6A
Other languages
English (en)
Inventor
张锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUXI UNIS STORAGE SYSTEM Co Ltd
Original Assignee
WUXI UNIS STORAGE SYSTEM Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUXI UNIS STORAGE SYSTEM Co Ltd filed Critical WUXI UNIS STORAGE SYSTEM Co Ltd
Priority to CN201710114815.6A priority Critical patent/CN106960011A/zh
Publication of CN106960011A publication Critical patent/CN106960011A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种分布式文件系统元数据管理系统及方法,旨在解决现有分布式文件系统难以满足对当下日益增长的元数据文件的高效管理的问题,其技术方案要点是:包括绑定服务器;元数据服务器;还包括至少记录有元数据文件的唯一标识码和文件数据名称的元元数据库;通信连接于用户客户端以接收用户客户端发布的至少带有文件数据名称的关键字的指令信息,并依据指令信息自元元数据库中读取指令信息对应的元数据文件的唯一标识码的元元数据服务器;绑定服务器通信连接于元元数据库服务器以接收元数据文件的唯一标识码并依据元数据文件的唯一标识码和记录的映射信息确定元数据服务器;本发明具有提高对分布式文件系统的元数据文件的管理效率的优点。

Description

分布式文件系统元数据管理系统及方法
技术领域
本发明涉及分布式文件系统技术领域,更具体地说,它涉及分布式文件系统元数据管理系统及方法。
背景技术
经济和技术的发展使我们处于一个信息爆炸的时代,只能利用单个文件服务器的存储资源、计算能力和网络传输能力的传统分布式文件系统NFS已难以满足当下急剧增长的数据量的处理要求。
为此,国家高性能计算机工程技术研究中心自主设计了蓝鲸分布式文件系统,该文件系统提出了分布式分层资源管理模型(distributed layered resource managementmodel,DLRM),通过多个元数据服务器(meta-data server,MS)共同管理存储在多个节点上的数据,并且采用带外(out of band)模式直接在应用服务器(application server,AS)和存储节点(storage node,SN)之间传送数据。
DLRM模型根据功能的不同把BWFS划分成处在不同层次上的多个模块,物理磁盘到应用程序都由不同的模块进行管理,并且各个模块之间通过一定的接口进行服务调用。相较于NFS,DLRM模型具有以下特点:
(1)带外数据传输,BWFS的所有文件数据直接在 AS和SN之间交换,无需经过MS转发;
(2)资源的批量申请/释放,上层以较大粒度向下层申请/释放资源,减少各个层次之间的通信以及由此带来的延迟,避免出现资源碎片;
(3)并发资源管理,多个层次上的多个模块并发管理不同的资源,提高资源管理的效率;
(4)完全分布的模块,各个模块可以处在同一个节点上,也可以分别部署在不同的节点上,由多个节点分担负载,提高系统性能;
(5)负载均衡,BWFS有效地在多个SN之间,多个MS之间进行负载平衡。
元数据是文件系统中用来描述数据组织和属性的数据,已有研究结果表明,文件系统中用户访问文件数据需要的文件元据请求数量所占的比例非常大。因此,文件系统元数据服务的研究是分布式文件系统研究的重要内容,从提供文件系统元数据服务的服务器系统结构来看,现有的研究可以归结为两大类,即没有集中服务器和存在集中服务器。“是否有集中服务器“是指是否存在单一集中点决策元数据请求负载的分布,从元数据请求负载分布策略来看,这些系统可以分为根据文件系统的目录树结构的“目录子树分区策略”和以文件路径名、索引节点号等因素为参数进行哈希的“哈希策略”两大类。
系统用户的文件系统元数据访问在一定时间内表现出了局部性和动态性的特征,请求集中在占很小比例的部分元数据集上,而目录子树分区策略和哈希策略都是以整个系统的文件为决策对象,这显然与实际情况不符。
BWFS提出了以文件系统静态结构和用户元数据的动态访问为参数的元数据分布策略,且仅针对用户访问到的小部分文件系统元数据进行分布管理。该元数据分布策略把正在被用户访问的文件系统元数据定义为活跃元数据,其中,访问包括了读和写,而元数据的读写权限分配给元数据服务器的过程称为“元数据分布映射过程”,一个元数据被映射后,有且仅有一个元数据服务器负责其读写请求的处理,元数据当前映射到的元数据服务器即称为该元数据的宿主。
绑定服务器(binding server,BS)通过对每隔一段时间接收自各个MS的CPU、内存、网络和已经分布在自身的元数据的个数4个参数做加权平均,得到每个MS的负载情况,从而作为决策参考。
随着文件数据的体量的剧增,文件数据的元数据文件也呈现出了大幅度的增长,对于如此庞大的元数据文件体量,如何对其进行高效管理,再一次成为了需要满足当下数据增长的新要求。
发明内容
针对现有技术存在无法满足当下数据增长的不足,本发明的第一目的在于提供一种能够提高对当下剧增的分布式文件系统的元数据文件的管理效率的分布式文件系统元数据管理系统。
本发明的上述技术目的是通过以下技术方案得以实现的:分布式文件系统元数据管理系统,包括记录有活跃元数据的映射信息的绑定服务器;用于映射元数据的元数据服务器;还包括至少记录有元数据文件的唯一标识码和文件数据名称的元元数据库;通信连接于用户客户端以接收用户客户端发布的至少带有文件数据名称的关键字的指令信息,并依据所述指令信息自所述元元数据库中读取所述指令信息对应的所述元数据文件的唯一标识码的元元数据服务器;所述绑定服务器通信连接于所述元元数据库服务器以接收所述元数据文件的唯一标识码并依据所述元数据文件的唯一标识码和记录的映射信息确定所述元数据服务器。
通过采用上述技术方案,元元数据库记录了元数据文件的属性信息,在接收到用户客户端发送的带有文件数据名称的关键字的指令信息后,元元数据服务器依据指令信息对元元数据库进行检索,并将检索结果发送到绑定服务器,绑定服务器依据自身记录的活跃元数据的映射信息,确定元数据服务器,使其响应于指令信息为用户客户端提供元数据文件服务。
本发明进一步设置为:所述元元数据库基于Mongdb构建。
通过采用上述技术方案,Mongdb具有高性能、易部署、易使用,存储数据非常方便的特定,并且还具有自动处理碎片,能够支持云计算层次的扩展性的优点。
本发明进一步设置为:所述元元数据库存储在共享存储空间中。
通过采用上述技术方案,可以直接使用现有的硬件设施,或在现有硬件设施基础上扩展即可,无需搭建新的硬件设施。
本发明进一步设置为:所述共享存储空间划分为多个独立且具有全局逻辑地址的资源组,所述元元数据库存储在所述资源组中。
通过采用上述技术方案,每一个资源组由一个资源组管理器管理,使其能够适应不同的使用模式,从而有效地利用存储空间。
本发明进一步设置为:所述元数据文件的唯一标识码包括元数据文件生成时间和六位随机数字。
通过采用上述技术方案,使得唯一标识码具有唯一性。
本发明的第二目的在于提供一种应用本发明第一目的的分布式文件系统。
本发明的上述技术目的是通过以下技术方案得以实现的:将上述分布式文件系统元数据管理系统应用于分布式文件系统。
本发明的第三目的在于提供一种能够提高对当下剧增的分布式文件系统的元数据文件的管理效率的分布式文件系统元数据管理方法。
本发明的上述技术目的是通过以下技术方案得以实现的:分布式文件系统元数据管理方法,通过与用户客户端通信连接的元元数据服务器从用户客户端接收至少带有文件数据名称的指令信息,并依据指令信息从至少记录有元数据文件的唯一标识码和文件数据名称的元元数据库中读取所述指令信息对应的所述元数据文件的唯一标识码的步骤;以及
通过通信连接于所述元元数据服务器且记录有活跃元数据的映射信息的绑定服务器从所述元元数据服务器接收所述元数据文件的唯一标识码并依据所述元数据文件的唯一标识码确定元数据服务器的步骤。
通过采用上述技术方案,元元数据服务器对元元数据库进行检索,确定元数据文件的唯一标识码并将其发送给绑定服务器,使绑定服务器基于自身记录的活跃元数据的映射信息确定元数据服务器,从而能够提高对元数据的管理效率。
本发明与现有技术相比,基于Mongdb构建了元元数据库,实现对元数据文件的管理,通信连接于用户客户端的元元数据服务器在接收到用户客户端发送的指令信息时,首先基于指令信息对元元数据库进行检索,然后将检索的元数据文件的唯一标识码反馈给绑定服务器,绑定服务器基于自身记录的活跃元数据的映射信息,确定元数据服务器,使其响应于指令信息为用户客户端提供元数据文件服务;如此一来,能够提高对当前剧增的元数据文件的管理效率。
附图说明
图1为本实施例的集群结构图。
具体实施方式
下面结合附图和实施例,对本发明进行详细描述。
为更好地理解本发明的技术方案,需要对活跃元数据和元数据宿主进行相关解释。
活跃元数据,是指正在被用户访问的文件系统元数据,访问包括读和写。
元数据宿主,元数据当前映射到的元数据服务器即称为该元数据的宿主。
如图1所示,显示的是分布式文件系统元数据管理系统的集群结构,其包括了与用户客户端通信连接的元元数据服务器,与元元数据服务器通信连接的绑定服务器,通信连接于绑定服务器的多个元数据服务器,以及划分成多个单独具有全局逻辑地址的资源组的共享存储空间。共享存储空间采用的是专门的网络存储设备,负责文件数据的存储服务和元数据文件的存储服务。并且共享存储空间内的每一个资源组都由一个资源组管理器管理,对资源组的资源使用情况进行动态分配,使其能够适应不同的使用模式,从而有效利用存储空间。
另外,元元数据服务器、绑定服务器和元数据服务器采用的都是专用服务器,并且所有的专用服务器都直接与高速互联网络连接。多个专用的元数据服务器构成元数据服务器集群,负责文件系统的元数据管理。
共享存储空间的某一个资源组内存储有基于Mongodb构建的元元数据库,元元数据库记录了文件名称、元数据文件的唯一标识码、元数据文件的大小等元数据文件的属性信息。其中,元数据文件的唯一标识码的生成规则是元数据文件的生成时间加六位随机数,是一个二十位的数字。比如某个元数据文件的生成时间是2017年2月25日22点30分43秒,那么该元数据文件的唯一标识码为20170225223043xxxxxx,其中后六位随机数由随机数生成算法随机生成。如此一来,能够保证元数据文件的唯一标识码的唯一性。
元元数据服务器在接收到用户客户端发送的带有文件名称的关键字的指令信息后,依据指令信息在元元数据库中进行检索,并将检索到的符合指令信息的元数据文件的唯一标识码发送给绑定服务器,这里需要说明的是,符合指令信息的元数据文件可能不止一个,可以是多个。绑定服务器依据自身记录的活跃元数据的映射信息,即可确定元数据服务器,这里确定的元数据服务器即为该活跃元数据的宿主。
一个元数据被映射后,即有且仅有一个元数据服务器负责其读写请求的处理,并且一个元数据服务器能够单独完成为用户客户端提供元数据文件的服务。
另外,元数据服务器集群还会实时向绑定服务器汇报自身的CPU、内存、网络和映射在自身的元数据文件的个数,绑定服务器接收到这四个参数后,对其做加权平均,计算出每个元数据服务器的负载情况,供决策使用。比如说绑定服务器依据活跃元数据的映射信息确定的元数据服务器的负载较大,此时,绑定服务器可以指定元数据文件映射到另一元数据服务器上,这一过程称为元数据迁移。
元数据迁移的过程为:首先,被另外指定的元数据服务器通过绑定服务器请求原映射有元数据文件的元数据服务器把元数据文件写回到共享存储空间中,另外指定的元数据服务器从共享存储空间中读回元数据文件即可。
上述技术方案能够应用到分布式文件系统中,达到满足当下分布式文件系统中日益增长的元数据文件的有效管理的要求。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.分布式文件系统元数据管理系统,包括记录有活跃元数据的映射信息的绑定服务器;用于映射元数据的元数据服务器;其特征在于:还包括至少记录有元数据文件的唯一标识码和文件数据名称的元元数据库;通信连接于用户客户端以接收用户客户端发布的至少带有文件数据名称的关键字的指令信息,并依据所述指令信息自所述元元数据库中读取所述指令信息对应的所述元数据文件的唯一标识码的元元数据服务器;所述绑定服务器通信连接于所述元元数据库服务器以接收所述元数据文件的唯一标识码并依据所述元数据文件的唯一标识码和记录的映射信息确定所述元数据服务器。
2.根据权利要求1所述的分布式文件系统元数据管理系统,其特征在于:所述元元数据库基于Mongdb构建。
3.根据权利要求2所述的分布式文件系统元数据管理系统,其特征在于:所述元元数据库存储在共享存储空间中。
4.根据权利要求3所述的分布式文件系统元数据管理系统,其特征在于:所述共享存储空间划分为多个独立且具有全局逻辑地址的资源组,所述元元数据库存储在所述资源组中。
5.根据权利要求1所述的分布式文件系统元数据管理系统,其特征在于:所述元数据文件的唯一标识码包括元数据文件生成时间和六位随机数字。
6.根据权利要求1所述的分布式文件系统元数据管理系统在分布式文件系统中的应用。
7.分布式文件系统元数据管理方法,其特征在于:通过与用户客户端通信连接的元元数据服务器从用户客户端接收至少带有文件数据名称的指令信息,并依据指令信息从至少记录有元数据文件的唯一标识码和文件数据名称的元元数据库中读取所述指令信息对应的所述元数据文件的唯一标识码的步骤;以及
通过通信连接于所述元元数据服务器且记录有活跃元数据的映射信息的绑定服务器从所述元元数据服务器接收所述元数据文件的唯一标识码并依据所述元数据文件的唯一标识码确定元数据服务器的步骤。
CN201710114815.6A 2017-02-28 2017-02-28 分布式文件系统元数据管理系统及方法 Pending CN106960011A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710114815.6A CN106960011A (zh) 2017-02-28 2017-02-28 分布式文件系统元数据管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710114815.6A CN106960011A (zh) 2017-02-28 2017-02-28 分布式文件系统元数据管理系统及方法

Publications (1)

Publication Number Publication Date
CN106960011A true CN106960011A (zh) 2017-07-18

Family

ID=59470104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710114815.6A Pending CN106960011A (zh) 2017-02-28 2017-02-28 分布式文件系统元数据管理系统及方法

Country Status (1)

Country Link
CN (1) CN106960011A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445694A (zh) * 2018-10-19 2019-03-08 郑州云海信息技术有限公司 一种分布式存储系统元数据分离方法和装置
CN109933580A (zh) * 2019-02-14 2019-06-25 北京奇艺世纪科技有限公司 训练数据生成方法、装置及服务器
CN110019025A (zh) * 2017-07-20 2019-07-16 中国移动通信集团公司 一种流数据处理方法和装置
CN111427862A (zh) * 2020-03-19 2020-07-17 国电南瑞科技股份有限公司 电网调度控制系统中分布式文件系统的元数据管理方法
CN112559447A (zh) * 2020-12-24 2021-03-26 光大兴陇信托有限责任公司 一种基于分布式文件系统的接口元数据管理系统
CN113672233A (zh) * 2021-07-16 2021-11-19 济南浪潮数据技术有限公司 一种基于Redfish的服务器带外管理方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101789027A (zh) * 2010-03-15 2010-07-28 江苏大学 一种基于dbms的元数据管理方法和元数据服务器
CN101944134A (zh) * 2010-10-18 2011-01-12 江苏大学 一种海量存储系统的元数据服务器和元数据索引方法
CN103546502A (zh) * 2012-07-11 2014-01-29 中国电信股份有限公司 元数据共享的方法和云存储服务器
CN103699585A (zh) * 2013-12-06 2014-04-02 华为技术有限公司 文件的元数据存储以及文件恢复的方法、装置和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101789027A (zh) * 2010-03-15 2010-07-28 江苏大学 一种基于dbms的元数据管理方法和元数据服务器
CN101944134A (zh) * 2010-10-18 2011-01-12 江苏大学 一种海量存储系统的元数据服务器和元数据索引方法
CN103546502A (zh) * 2012-07-11 2014-01-29 中国电信股份有限公司 元数据共享的方法和云存储服务器
CN103699585A (zh) * 2013-12-06 2014-04-02 华为技术有限公司 文件的元数据存储以及文件恢复的方法、装置和系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019025A (zh) * 2017-07-20 2019-07-16 中国移动通信集团公司 一种流数据处理方法和装置
CN110019025B (zh) * 2017-07-20 2021-12-21 中移动信息技术有限公司 一种流数据处理方法和装置
CN109445694A (zh) * 2018-10-19 2019-03-08 郑州云海信息技术有限公司 一种分布式存储系统元数据分离方法和装置
CN109445694B (zh) * 2018-10-19 2022-02-18 郑州云海信息技术有限公司 一种分布式存储系统元数据分离方法和装置
CN109933580A (zh) * 2019-02-14 2019-06-25 北京奇艺世纪科技有限公司 训练数据生成方法、装置及服务器
CN109933580B (zh) * 2019-02-14 2020-12-25 北京奇艺世纪科技有限公司 训练数据生成方法、装置及服务器
CN111427862A (zh) * 2020-03-19 2020-07-17 国电南瑞科技股份有限公司 电网调度控制系统中分布式文件系统的元数据管理方法
CN111427862B (zh) * 2020-03-19 2022-11-04 国电南瑞科技股份有限公司 电网调度控制系统中分布式文件系统的元数据管理方法
CN112559447A (zh) * 2020-12-24 2021-03-26 光大兴陇信托有限责任公司 一种基于分布式文件系统的接口元数据管理系统
CN112559447B (zh) * 2020-12-24 2023-01-31 光大兴陇信托有限责任公司 一种基于分布式文件系统的接口元数据管理系统
CN113672233A (zh) * 2021-07-16 2021-11-19 济南浪潮数据技术有限公司 一种基于Redfish的服务器带外管理方法、装置及设备
CN113672233B (zh) * 2021-07-16 2023-12-22 济南浪潮数据技术有限公司 一种基于Redfish的服务器带外管理方法、装置及设备

Similar Documents

Publication Publication Date Title
CN106960011A (zh) 分布式文件系统元数据管理系统及方法
US10496627B2 (en) Consistent ring namespaces facilitating data storage and organization in network infrastructures
CN102591970B (zh) 一种分布式键-值查询方法和查询引擎系统
CN105100146B (zh) 数据存储方法、装置及系统
US9052962B2 (en) Distributed storage of data in a cloud storage system
CN102053982B (zh) 一种数据库信息管理方法和设备
CN101997918B (zh) 异构san环境中的海量存储资源按需分配的实现方法
US20110153606A1 (en) Apparatus and method of managing metadata in asymmetric distributed file system
CN105025053A (zh) 基于云存储技术的分布式文件的上传方法及其系统
CN102708165B (zh) 分布式文件系统中的文件处理方法及装置
CN106446263B (zh) 一种多媒体文件云存储平台及使用该云存储平台去冗的方法
CN103944958A (zh) 一种广域文件系统及实现方法
CN104536903B (zh) 一种按数据属性分类存放的混合存储方法及系统
CN103812939A (zh) 一种大数据存储系统
CN109766312A (zh) 一种区块链存储方法、系统、装置及计算机可读存储介质
CN106294870B (zh) 基于对象的分布式云存储方法
US8010648B2 (en) Replica placement in a distributed storage system
CN106293490A (zh) 数据存储、读取的方法、装置及系统
CN108108476A (zh) 高可靠分布式日志系统的工作方法
CN106570113B (zh) 一种海量矢量切片数据云存储方法及系统
CN102012981A (zh) 一种通用权限等级分配与匹配方法及其系统
CN107026876A (zh) 一种文件数据访问系统及方法
US11621891B1 (en) Systems and methods for routing network data based on social connections of users
CN105138281B (zh) 一种物理磁盘的共享方法及装置
CN101330431B (zh) 一种即时信息存储方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170718