CN103458044B - 一种面向广域网环境下多存储集群的元数据共享管理方法 - Google Patents
一种面向广域网环境下多存储集群的元数据共享管理方法 Download PDFInfo
- Publication number
- CN103458044B CN103458044B CN201310415322.8A CN201310415322A CN103458044B CN 103458044 B CN103458044 B CN 103458044B CN 201310415322 A CN201310415322 A CN 201310415322A CN 103458044 B CN103458044 B CN 103458044B
- Authority
- CN
- China
- Prior art keywords
- metadata
- global
- area network
- wide area
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明针对广域网环境下多存储集群间元数据无法按需共享、全局名字空间无法提供可动态配置的用户视图等问题,采用权限控制、全局同步和名字空间重构技术,提供了一种面向广域网环境下多存储集群的元数据共享管理方法,为上层应用提供了高效而匹配的文件元数据查询支持。该方法包括:读取本地存放的本地名字空间,并定期通过权限设置规则筛选本地元数据再合并到全局元数据信息中;读取本地缓存的全局名字空间,根据同步策略决定同步频率,同时根据改进后的Paxos协议维护全局一致性;根据视图配置规则对用户视图进行动态配置。所谓视图配置是指用户或上层应用根据元数据信息希望重新组织全局名字空间目录树结构的实施过程。
Description
技术领域
本发明公开了一种元数据共享管理方法,尤其涉及一种面向广域网环境下多存储集群的元数据共享管理方法,属于计算机技术领域。
背景技术
集群是计算机系统结构与计算机系统软件相结合的一个重要研究方向。它通过将多个独立的机器组织成一个统一的整体,并对外提供透明的统一访问特性;通过整合多个所管辖机器节点的计算能力和存储能力,极大地扩展了整体系统的运算能力和存储能力;同时,良好的系统软件设计使得集群能够很容易地进行大规模扩展,能满足多样化的规模伸缩性需求,通过多副本技术,集群能提供极高的容错性能,满足对可靠性要求较高的行业和应用需求。
计算机集群技术的兴起主要是由于传统的HPC(高性能计算机)系统价格昂贵且性能瓶颈严重所致。到了20世纪80年代后期,HPC单机性能的增长速度已经乏力,但普通PC(个人计算机)性能却在不断提高,这让PC服务器的计算和存储能力开始受到重视。到了20世纪90年代,随着以x86架构为主的CPU硬件性价比提升以及高速以太网的发展,第一个用普通PC服务器构成的计算机集群Beowulf诞生,这标志着可以达到跟HPC同样计算和存储性能的计算机集群系统成本确只有前者的百分之一甚至千分之一。集群的出现极大改变了HPC领域的研究状况,也极大地降低了商业公司使用高性能计算机的门槛。今年来,随着网格计算、分布式计算以及云存储技术的发展,计算机集群技术在商业应用上的优势变得越发明显。计算机集群答复提高了企业基础设施的扩展性、可靠性和高性能计算和存储能力。其概念已经深入到企业甚至每个人的日常的工作与生活中,成为了目前全球软硬件产业中发展最快的技术之一。
表1
最近几年,不论是政府、企业还是个人团体都已经着手建造属于他们自己的计算机集群系统。但另一方面,随着计算机集群数量的增加,人们对这些计算机集群提出了更高的需求。他们不仅希望这些集群自身具有良好的计算、存储、容错和可扩展能力,而且还希望这些集群之间能够相互协调合作,组成一个更大庞大的区域性甚至是全球性系统。然而,通过对当前各个主流的分布式集群的对比(表1)可以看出,目前除了Google公司自家研发使用的Spanner系统和IBM公司研发的GPFS v3.5之外,其它系统都还不支持多集群间的交互和协作,这使得广域网环境下多集群管理面临严重的技术挑战。如无良好的上层系统软件的支持,这将给各大政府、企业和个人对多集群的进一步广泛应用带来巨大的阻力。而大型互联网公司若想提供更优质的大规模应用服务,尤其是涉及海量数据存储与管理的应用,突破广域网环境下多集群管理的技术刻不容缓。
现在国内外大量公司和机构广域网下多集群数据共享的研究也形成了不少成果和产品。2006年美国加州大学Santa Cruz分校提出Ceph分布式文件系统,它采用元数据与数据分离的管理方式,同时采用元数据集群来管理整个文件系统名字空间,消除了单点失败和单点性能瓶颈。理论上说,Ceph系统的扩展性可以是到达任意多个节点。但它不能支持广域网下多集群的管理。2012年Google发表了一篇论文讲述它的全球级集群管理系统Spanner。这个系统提供了多版本文件控制以支持并发操作,元数据管理采用层次式管理模式,即一个总服务器监控各大数据中心级(论文里称为Zone)的状态,Zone的总服务器负责管理下属多个集群的状态,最后集群再负责自身的元数据管理。但是,Spanner不支持其它拓扑类型的元数据管理模式,且无法提供用户可配置的视图的自动生成器。也是2012年,IBM推出了改进后的新版本GPFS v3.5,其中实现了一个叫AFM(Active File Management)的特性,支持在广域网下的GPFS集群间建立缓存映射,映射的粒度可以是任一文件集合。但是它依然不支持多集群间用户可配置视图的生成,另外缓存与远程系统的异步同步管理和一致性问题也会带来不小的性能开销。国内目前还没有面向广域网下多集群系统平台全局同步且支持动态可配置用户视图生成的相关方案。
总结现有研究结果和实现系统来看,现有的研究和发明存在如下趋势和问题:在体系结构上,大部分系统都采用中央元数据节点或集群的方式来管理元数据的关键技术发明,在支持特性上,针对数据共享的应用偏多。计算机集群技术在80年代提出,在90年代得到发展,到了21世纪后达到发展的盛世,计算和存储规模都极具扩大,但每一个阶段的跨越都与新型的数据或元数据共享技术密切相关。而在广域网环境下多集群系统的元数据共享关键技术的研发和发明还很缺乏。
发明内容
本发明的目的是提供一种面向广域网环境下多存储集群的元数据共享管理方法,针对当前多集群间无有效的元数据共享和统一管理等问题,它实现了一种支持权限控制、全局同步和动态生成用户配置试图的元数据共享管理模式,为上层应用提供了系统软件的支持。
根据本发明的一个实施例的面向广域网环境下多存储集群的元数据共享管理系统包括:
(1)物理主机:物理主机进一步物理CPU,物理内存和物理网卡。物理硬件是底层各文件系统的硬件基础设施;
(2)分布式文件系统:包括各种不同类型的分布式文件管理系统,只要该文件系统的名字空间具有唯一性就可被本发明的中间件系统管理;
(3)网络文件系统:包括支持NFS、CIFS等网络共享协议的文件系统;这种文件系统支持多个客户端挂载并访问;
(4)共享磁盘文件系统:包括对大型盘阵或磁带库的访问支持;
(5)权限控制模块;
(6)同步分发算法;
(7)动态可配置视图生成器:
根据本发明的另一个方面,提供了一种面向广域网环境下多存储集群的元数据共享管理方法。该方法将在已正常运行的底层存储系统上运行。该方法包括:
(1)步骤S1:各集群启动文件系统服务,进入运行模式;
(2)步骤S2:本发明方法启动,开始接管底层各集群服务,并对外提供透明、统一的相同服务;
(3)步骤S3:本地集群从各文件系统获取本地元数据以供用户使用;
(4)步骤S4:本地集群启动本地文件系统的元数据更新维护进程,储存更新的元数据信息;
(5)步骤S5:本地集群通过权限控制模块对所需同步更新的元数据进行裁剪;
(6)步骤S6:本地集群将裁剪后的元数据信息合并进本地缓存的全局元数据,准备进行全局同步;
(7)步骤S7:本地集群读取缓存的全局元数据信息,当网络出现故障时,可以作为历史信息进行无缝使用;
(8)步骤S8:本地文件系统与外部文件系统建立连接,为元数据同步做准备;
(9)步骤S9:本地集群启动全局元数据的更新进程,配置好相关参数如更新频率,触发更新条件等,开启元数据发送进程和元数据接收进程。同时,通过改进的两阶段提交(2PC)协议维护全局元数据访问的一致性;
(10)步骤S10:本地集群合并本地元数据和全局元数据,开始运行全局同步分发算法;
(11)步骤S11:外部集群的元数据发送进程在生成本地元数据信息;
(12)步骤S12:元数据发送前外部集群将根据权限控制模块对元数据信息进行裁剪以确定最终所需发送的更新信息;
(13)步骤S13:全局名字空间更新完成后本地集群需要应用动态可配置视图生成器对全局名字空间进行转换以产生满足上层应用需求的用户视图;
(14)步骤S14:本地集群将转换后的全局名字空间视图提供给用户或上层应用,并开始循环侦听下一次更新。
本发明所公布的面向广域网环境下多存储集群的元数据共享管理方法,它与现有技术相比,其主要的优点包括:
(1)通过权限控制配置集群间逻辑视图,并通过全局同步保证一致性,全局名字空间具有可定制和实时同步的优点。
(2)动态可配置的用户视图可以更加优化上层应用的性能。由于现有的广域网环境下多存储集群系统都存在元数据共享动态配置的问题,故本发明具有很强的实用性和很广的应用范围。
附图说明
图1本发明的面向广域网环境下多存储集群的元数据共享管理方法总体框架示意图
图2本发明的面向广域网环境下多存储集群的元数据共享管理方法运行流程示意图
具体实施方式
为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。
本发明的主要思想是对广域网环境下的多存储集群进行元数据的统一管理,能够通过权限机制对所需同步的元数据进行选择性同步,同时还能对同步后的全局名字空间进行本地化的用户视图动态配置,以满足用户或上层应用对元数据高性能访问的需求。
下面以HDFS(一种开源的分布式文件系统)作为实例描述根据本发明的一种面向广域网环境下多存储集群的元数据共享管理方法,如图1和2所示该方法包括:
(1)步骤S1:HDFS需要在本地集群正常运行起来,包括能够对文件或目录进行增、删、查、改等操作。
(2)步骤S2:本发明作为独立的代码库,可以直接部署在HDFS所在的集群上并在本地启动运行。在启动的同时,可以指定需要进行同步的集群个数和其IP或域名。
(3)步骤S3-S6(权限控制模块):本地集群读取存放的本地元数据信息。当元数据被完全加载到内存之后,系统便可以开始为本地访问的用户及上层应用提供可靠的服务,并且此时开始的所有操作都将写入系统日志进行维护。同时,一个定时模块开启,它将定期扫描当前的本地元数据,并将其转发给本地用户配置的权限管理模块进行元数据的裁剪,最终才会将余下的元数据发往本地负责维护全局名字空间的进程进行合并更新处理。这里的操作很重要,涉及到将新生成的元数据更新信息将来传播到外部多集群上,也能决定多集群间的逻辑视图,是本系统的重要模块。
(4)步骤S7-S12(同步分发算法):本地集群读取缓存的全局元数据信息。当全局元数据被完全加载到内存之后,系统实际上就可以向本地用户及上层应用提供全局可配置的用户视图了。同时本地集群将根据启动时的配置信息向外部集群发起建立连接的请求,连接通道为独立的发送和接收通道,因为全局同步为异步操作,独立通道可以提高系统的整体吞吐性能和更新效率。然后,系统将把处理后的本地元数据和全局元数据进行合并,同时开启一个定时器程序,在指定条件满足的时候会开始向外发送元数据同步信息。当然,接收通道一旦连接成功将一直保持侦听状态直到该系统断开网络连接。另外,在定时发送元数据的间隙,集群间采用改进的Paxos协议进行元数据一致性的维护,改进的地方主要为将协议中规定的协调者设定为某份元数据信息的初始来源,这样就不需要添加多余的协调者,避免了协调者失效等问题。本发明提供了可选的定时指定条件,包括超时传递参数和元数据更新量阈值参数。用户可以根据自己的网络状况和应用的需求情况进行定制。
(5)步骤S13-S14(动态可配置视图生成器):本地集群在获得全局名字空间后开始根据预先设定的视图配置规则进行用户视图的动态配置。所谓视图配置是指用户或上层应用根据元数据信息希望重新组织全局名字空间目录树结构的实施过程。这样的元数据信息包括目录或文件名,目录或文件优先级,目录或文件操作权限分类等。在本发明的中间件系统中,全局名字空间是以多层的哈希表形式存放的全局名字空间信息。因此,重组全局名字空间的目录树结构主要是对指定目录或文件的索引节点进行重定向操作,再辅以配套索引变动完成。
应说明的是,以上实施例仅用以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种面向广域网环境下多存储集群的元数据共享管理方法,该方法具体步骤如下:
步骤一:读取本地存放的本地名字空间,并定期通过权限设置规则筛选本地元数据再合并到全局元数据信息中;
步骤二:读取本地缓存的全局名字空间,根据同步策略决定同步频率,同时根据Paxos协议维护全局一致性;
步骤三:根据视图配置规则对用户视图进行动态配置,所谓视图配置是指用户或上层应用根据元数据信息希望重新组织全局名字空间目录树结构的实施过程。
2.根据权利要求1所述的一种面向广域网环境下多存储集群的元数据共享管理方法,其特征在于:步骤一所述的本地名字空间透过权限控制管理模块的筛选将得到可定制的全局名字空间逻辑视图;逻辑视图的生成是多种多样的,可以满足许多应用场景的需求。
3.根据权利要求1所述的一种面向广域网环境下多存储集群的元数据共享管理方法,其特征在于:步骤二所述的同步频率可以由用户进行定制,包括超时定时器和元数据更新量阈值;同时,同步过程采取广播的形式传递给指定的集群,然后根据改进后的Paxos协议进行元数据一致性维护,改进的关键在于将传播某份元数据的初始集群配置为这份元数据信息更新的协调者。
4.根据权利要求1所述的一种面向广域网环境下多存储集群的元数据共享管理方法,其特征在于:步骤三所述的用户视图动态配置其配置参数可以包括目录或文件的名称,目录或文件的优先级以及目录或文件的操作权限;而且由于全局名字空间是以多层的哈希表形式存放,因此,重组全局名字空间的目录树结构主要是对指定目录或文件的索引节点进行重定向操作,再辅以配套索引变动完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310415322.8A CN103458044B (zh) | 2013-09-12 | 2013-09-12 | 一种面向广域网环境下多存储集群的元数据共享管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310415322.8A CN103458044B (zh) | 2013-09-12 | 2013-09-12 | 一种面向广域网环境下多存储集群的元数据共享管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103458044A CN103458044A (zh) | 2013-12-18 |
CN103458044B true CN103458044B (zh) | 2017-01-04 |
Family
ID=49739986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310415322.8A Active CN103458044B (zh) | 2013-09-12 | 2013-09-12 | 一种面向广域网环境下多存储集群的元数据共享管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103458044B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9332069B2 (en) | 2012-12-28 | 2016-05-03 | Wandisco, Inc. | Methods, devices and systems for initiating, forming and joining memberships in distributed computing systems |
US9495381B2 (en) | 2005-01-12 | 2016-11-15 | Wandisco, Inc. | Geographically-distributed file system using coordinated namespace replication over a wide area network |
US9424272B2 (en) | 2005-01-12 | 2016-08-23 | Wandisco, Inc. | Distributed file system using consensus nodes |
US8364633B2 (en) | 2005-01-12 | 2013-01-29 | Wandisco, Inc. | Distributed computing systems and system components thereof |
US9361311B2 (en) | 2005-01-12 | 2016-06-07 | Wandisco, Inc. | Distributed file system using consensus nodes |
US9264516B2 (en) | 2012-12-28 | 2016-02-16 | Wandisco, Inc. | Methods, devices and systems enabling a secure and authorized induction of a node into a group of nodes in a distributed computing environment |
US9009215B2 (en) | 2013-03-15 | 2015-04-14 | Wandisco, Inc. | Methods, devices and systems for dynamically managing memberships in replicated state machines within a distributed computing environment |
ES2881606T3 (es) * | 2014-03-31 | 2021-11-30 | Wandisco Inc | Sistema de ficheros geográficamente distribuido que usa replicación de espacio de nombres coordinada |
CN105024831A (zh) * | 2014-04-30 | 2015-11-04 | 中国电信股份有限公司 | 在分布式计算平台中分发参数的方法、装置和系统 |
CN105138275B (zh) * | 2015-07-06 | 2018-03-20 | 中国科学院高能物理研究所 | 一种Lustre存储系统数据共享方法 |
US10210174B2 (en) | 2015-12-17 | 2019-02-19 | Red Hat, Inc. | Enforcing consistency of file to storage node mapping |
US11360942B2 (en) | 2017-03-13 | 2022-06-14 | Wandisco Inc. | Methods, devices and systems for maintaining consistency of metadata and data across data centers |
CN107579974B (zh) * | 2017-09-04 | 2019-09-17 | 武汉大学 | 面向实时按需数据广播系统及容量提升的请求预处理方法 |
CN107491343B (zh) * | 2017-09-08 | 2020-04-17 | 中电莱斯信息系统有限公司 | 一种基于云计算的跨集群资源调度系统 |
CN108881412B (zh) * | 2018-05-31 | 2020-09-04 | 郑州云海信息技术有限公司 | 分布式存储集群的统一管理方法、系统、设备及存储介质 |
CN109462640B (zh) * | 2018-10-29 | 2021-07-20 | 上海掌门科技有限公司 | 一种元数据同步方法、数据端、交互系统及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103037004A (zh) * | 2012-12-21 | 2013-04-10 | 曙光信息产业(北京)有限公司 | 云存储系统操作的实现方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8751456B2 (en) * | 2011-04-04 | 2014-06-10 | Symantec Corporation | Application wide name space for enterprise object store file system |
-
2013
- 2013-09-12 CN CN201310415322.8A patent/CN103458044B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103037004A (zh) * | 2012-12-21 | 2013-04-10 | 曙光信息产业(北京)有限公司 | 云存储系统操作的实现方法和装置 |
Non-Patent Citations (3)
Title |
---|
NAS集群文件系统元数据管理的设计与实现;封仲淹;《中国优秀硕士学位论文全文数据库信息科技辑》;20080331;全文 * |
SAN环境下高性能集群文件系统研究与实现;黄九鸣;《中国优秀硕士学位论文全文数据库信息科技辑》;20070531;全文 * |
大规模Lustre集群文件系统关键技术的研究;钱迎进;《中国博士学位论文全文数据库信息科技辑》;20120430;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN103458044A (zh) | 2013-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103458044B (zh) | 一种面向广域网环境下多存储集群的元数据共享管理方法 | |
US11704290B2 (en) | Methods, devices and systems for maintaining consistency of metadata and data across data centers | |
Makris et al. | A classification of NoSQL data stores based on key design characteristics | |
CN102855284B (zh) | 一种集群存储系统的数据管理方法及系统 | |
CN105324770B (zh) | 有效读出副本 | |
Goel et al. | Data replication strategies in wide-area distributed systems | |
CN103237046B (zh) | 支持混合云存储应用的分布式文件系统及实现方法 | |
CN103150304B (zh) | 云数据库系统 | |
US20150269239A1 (en) | Storage device selection for database partition replicas | |
CN104281506A (zh) | 一种文件系统的数据维护方法及系统 | |
CN104917843B (zh) | 云存储与医疗图像无缝对接系统 | |
JP2008533564A (ja) | データ管理のための方法および装置 | |
CN104113597A (zh) | 一种多数据中心的hdfs数据读写系统及方法 | |
CN104133882A (zh) | 一种基于hdfs的小文件处理方法 | |
CN102244685A (zh) | 一种支持负载均衡的分布式缓存动态伸缩方法及系统 | |
CN103166785A (zh) | 基于Hadoop的分布式日志分析系统 | |
US20230020330A1 (en) | Systems and methods for scalable database hosting data of multiple database tenants | |
JP2022500730A (ja) | 分散型異種ストレージシステムにおけるデータ一貫性のリアルタイムチェックのための方法、デバイス、およびシステム | |
CN106446268A (zh) | 一种数据库横向扩展系统及方法 | |
CN113449065A (zh) | 一种面向数据删重的去中心化存储方法及存储装置 | |
CN110022338A (zh) | 文件读取方法、系统、元数据服务器和用户设备 | |
Waqas et al. | Transaction management techniques and practices in current cloud computing environments: A survey | |
CN103246716B (zh) | 基于对象集群文件系统的对象副本高效管理方法及系统 | |
CN114925075A (zh) | 一种多源时空监测信息实时动态融合方法 | |
Vilaça et al. | On the expressiveness and trade-offs of large scale tuple stores |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |