CN102024022A - 一种分布式文件系统复制元数据的方法 - Google Patents

一种分布式文件系统复制元数据的方法 Download PDF

Info

Publication number
CN102024022A
CN102024022A CN2010105365511A CN201010536551A CN102024022A CN 102024022 A CN102024022 A CN 102024022A CN 2010105365511 A CN2010105365511 A CN 2010105365511A CN 201010536551 A CN201010536551 A CN 201010536551A CN 102024022 A CN102024022 A CN 102024022A
Authority
CN
China
Prior art keywords
copy
metadata
daily record
copies
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105365511A
Other languages
English (en)
Other versions
CN102024022B (zh
Inventor
王勇
张东阳
张玉龙
苗艳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Dawning Information Industry Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN 201010536551 priority Critical patent/CN102024022B/zh
Publication of CN102024022A publication Critical patent/CN102024022A/zh
Application granted granted Critical
Publication of CN102024022B publication Critical patent/CN102024022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种分布式文件系统复制元数据的方法。多个元数据副本排定次序,按照次序充当主副本;充当主副本的元数据副本承担写操作,并生成日志记录;主副本生成的日志写给从副本保存,保存该日志的从副本达到一定数目后,保存操作成功;从副本的日志记录集中应用到本地数据;如果主副本失效,第一从副本更新本地数据,转换为主副本,标记陈旧数据后对外提供服务;如果从副本失效,主副本记录所有发往从副本日志的信息,当从副本重新可用时,发往从副本,从副本写回日志后即完成更新。本发明通过将主副本的日志进行成批传送到从副本,缩短了元数据操作的关键路径,并提高了应用效率;从副本在主节点失效后更新本地数据并承担主副本角色,标记陈旧数据后即可对外提供服务,缩短了切换时间。

Description

一种分布式文件系统复制元数据的方法
技术领域
本发明涉及计算机存储系统技术领域,具体涉及一种分布式文件系统复制元数据的方法。
背景技术
文件元数据是计算机操作系统的核心数据,关系着存储系统的可靠性。一般文件系统提供fsck等工具来检查并修复文件系统的一致性。这一过程的持续时间和文件系统的规模成比例,因此大型文件系统需要很长的修复时间。有些文件系统(如专门为Linux开发的Ext3/4)依靠日志技术极大地缩短了恢复时间。然而,这些文件系统只是解决了本地磁盘的文件元数据一致性问题。在大规模的分布式系统下,如多达成百上千个节点的分布式环境下,在这种情况下,为了提高系统的可靠性,要使用专用的存储系统如分布式文件系统来管理文件元数据,并复制元数据形成副本来完成数据的冗余。传统的文件系统只能保证一个节点发生崩溃时,该节点的元数据的一致性,不能保证该节点和其他节点上的副本之间的一致性。因此,无法满足整个系统的文件元数据一致性的需求。在这种背景下,该专利技术提出了基于日志的复制技术,有效的保证了多副本下文件元数据的一致性。
发明内容
本发明目的是解决分布式系统下,如何有效的保证多副本的情况下元数据的一致性。
一种分布式文件系统复制元数据的方法,包含以下步骤:
A、多个元数据副本排定次序,按照次序充当主副本;
B、充当主副本的元数据副本承担写操作,并生成日志记录;
C、主副本生成的日志写给从副本保存,保存该日志的从副本达到一定数目后,保存操作成功;
D、从副本的日志记录集中应用到本地数据;
E、如果主副本失效,第一从副本更新本地数据,转换为主副本,标记陈旧数据后对外提供服务;如果从副本失效,主副本记录所有发往从副本日志的信息,当从副本重新可用时,发往从副本,从副本写回日志后即完成更新。
本发明的一种优选技术方案在于:所述步骤C中主副本日志写给从副本采用两阶段协议,所述两阶段协议是主从副本节点之间进行同步的一个通讯协议,当主副本准备进行写回日志时,要询问从副本是否写回,这称之为预提交阶段;当其他节点可用了,再进入第二阶段,即写回本地日志,并写回其他从副本。
本发明通过将主副本的日志进行成批传送到从副本,缩短了元数据操作的关键路径,并提高了应用效率;从副本在主节点失效后更新本地数据并承担主副本角色,标记陈旧数据后即可对外提供服务,缩短了切换时间。
附图说明
图1整个元数据服务器的框架图;
图2加入2PC(两阶段协议)的元数据服务流程;
图3从副本发生操作系统崩溃时,元数据的修复流程;
图4主副本发生操作系统崩溃时,元数据的修复流程;
图5从副本发生设备故障时,元数据的修复流程;
图6主副本发生设备故障时,元数据的修复流程。
具体实施方案
下面结合附图和具体实施方式对本发明作进一步详细描述。在分布式文件系统的元数据服务模块中,采用元数据复制方法的存储系统会采用多个副本,每个副本均位于不同的节点上,图1是三副本的情况,系统按照编号,会指定第一从副本和第二从副本。在系统正常的服务状态时,只有主副本提供元数据服务,其他的两个副本只做数据的备份。当系统的主副本节点发生崩溃时,会分别让第一从副本和第二从副本来接管元数据服务。为了提高系统的可靠性,在原有的文件服务系统中,增加了日志模块提高本地的逻辑文件系统的可靠性。本专利在原有的分布式文件系统的元数据模块中,添加了2PC(两阶段)传输协议,该协议保证元数据请求时,主从副本日志的一致;提出了主从副本崩溃时,日志维护策略。从而使得采用节点间的元数据复制(即副本技术)成为可能。下面详细进行介绍。
2PC(两阶段协议)如图2是用于主从副本节点之间进行同步的一个通讯协议,当主副本准备进行写回日志时,要询问从副本是否写回,这称之为预提交阶段。当其他节点可用了,再进入第二阶段,即写回本地日志,并写回其他从副本,这样,主从副本节点上的日志在每个时刻均保证是一致的,由于日志系统可以保证元数据是一致的,所以最终主从副本上的元数据是一致的。
当系统发生故障,分为主副本崩溃和从副本崩溃。根据崩溃的原因,又可以分为是操作系统崩溃,还是设备故障(磁盘故障和日志设备故障)。下面分别进行阐述该发明如何进行元数据恢复。
1.从副本发生操作系统的崩溃
如图3,主副本要将所有应该发往从副本日志的信息记录。当该从副本重新可以服务时,再将日志发送。当该从副本重新可用时,主副本将日志信息再次发往重启的从副本。当该从副本将日志写回磁盘后,主从副本上的元数据一致。
2.主副本发生操作系统的崩溃
如图4,当主副本发生崩溃时,系统根据配置情况,选择第一从副本接管元数据请求。该从副本以后将以主副本的状态完成元数据服务。同时,要将所有的元数据请求,记录到日志中。当主副本发生崩主副本可用时,要进行日志回传,主副本的日志写回磁盘后,其元数据也即和从副本一致。从而,整个系统完成了元数据的一致。
3.从副本磁盘发生故障
如图5,磁盘发生故障时,其磁盘数据均不可信,使用日志也无法修复,因此需要将所有磁盘数据进行拷贝。
4.主副本磁盘发生故障
如图6,正如主副本节点操作系统故障,首先进行服务节点切换。然而,此时,由于数据不可信,必须使用磁盘拷贝才能完成元数据的修复。

Claims (2)

1.一种分布式文件系统复制元数据的方法,其特征在于:包含以下步骤:
A、多个元数据副本排定次序,按照次序充当主副本;
B、充当主副本的元数据副本承担写操作,并生成日志记录;
C、主副本生成的日志写给从副本保存,保存该日志的从副本达到一定数目后,保存操作成功;
D、从副本的日志记录集中应用到本地数据;
E、如果主副本失效,第一从副本更新本地数据,转换为主副本,标记陈旧数据后对外提供服务;如果从副本失效,主副本记录所有发往从副本日志的信息,当从副本重新可用时,发往从副本,从副本写回日志后即完成更新。
2.如权利要求1所述一种分布式文件系统复制元数据的方法,其特征在于:所述步骤C中主副本日志写给从副本采用两阶段协议,所述两阶段协议是主从副本节点之间进行同步的一个通讯协议,当主副本准备进行写回日志时,要询问从副本是否写回,这称之为预提交阶段;当其他节点可用了,再进入第二阶段,即写回本地日志,并写回其他从副本。
CN 201010536551 2010-11-04 2010-11-04 一种分布式文件系统复制元数据的方法 Active CN102024022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010536551 CN102024022B (zh) 2010-11-04 2010-11-04 一种分布式文件系统复制元数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010536551 CN102024022B (zh) 2010-11-04 2010-11-04 一种分布式文件系统复制元数据的方法

Publications (2)

Publication Number Publication Date
CN102024022A true CN102024022A (zh) 2011-04-20
CN102024022B CN102024022B (zh) 2013-08-28

Family

ID=43865320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010536551 Active CN102024022B (zh) 2010-11-04 2010-11-04 一种分布式文件系统复制元数据的方法

Country Status (1)

Country Link
CN (1) CN102024022B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411639A (zh) * 2011-12-31 2012-04-11 曙光信息产业股份有限公司 元数据的多副本存储管理方法和系统
CN102508891A (zh) * 2011-10-25 2012-06-20 曙光信息产业(北京)有限公司 一种基于丢弃的多元数据服务器元数据日志一致性的方法
CN102567444A (zh) * 2011-10-25 2012-07-11 无锡城市云计算中心有限公司 一种分布式文件系统数据访问优化的方法
CN102799996A (zh) * 2012-06-25 2012-11-28 亿赞普(北京)科技有限公司 网络广告策略匹配方法及系统
CN102981934A (zh) * 2012-12-21 2013-03-20 曙光信息产业(北京)有限公司 日志转移方法和日志转移装置
CN103092719A (zh) * 2011-10-28 2013-05-08 浙江大华技术股份有限公司 一种文件系统的断电保护方法
CN103548010A (zh) * 2011-05-23 2014-01-29 微软公司 分布式存储环境中的同步复制
CN104144127A (zh) * 2013-05-08 2014-11-12 华为软件技术有限公司 负载均衡方法和负载均衡器
CN104281534A (zh) * 2014-09-22 2015-01-14 华为技术有限公司 一种存储元数据的方法和装置
US9251021B2 (en) 2011-05-23 2016-02-02 Bradley Gene Calder Asynchronous replication in a distributed storage environment
CN105550066A (zh) * 2015-12-10 2016-05-04 希姆通信息技术(上海)有限公司 文件系统崩溃的解决方法及系统
CN106933698A (zh) * 2015-12-29 2017-07-07 伊姆西公司 一种用于存储系统的方法和装置
CN106951443A (zh) * 2017-02-15 2017-07-14 北京百度网讯科技有限公司 基于分布式系统的副本同步的方法、设备和系统
CN107547648A (zh) * 2017-08-31 2018-01-05 郑州云海信息技术有限公司 一种内部数据复制方法及装置
US20180329970A1 (en) * 2012-11-29 2018-11-15 Teradata Us, Inc. Providing metadata to database systems and environments with multiple processing units or modules
CN108924203A (zh) * 2018-06-25 2018-11-30 深圳市金蝶天燕中间件股份有限公司 数据副本自适应分布方法、分布式计算系统及相关设备
CN111656326A (zh) * 2018-02-27 2020-09-11 华睿泰科技有限责任公司 用于执行用于无修复恢复的数据库备份的系统和方法
CN112269689A (zh) * 2020-11-05 2021-01-26 南京邮电大学 一种基于数据世系的云存储数据副本一致性维护方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040128269A1 (en) * 2002-12-27 2004-07-01 Milligan Charles A. System and method for managing data through families of inter-related metadata tables
CN101059807A (zh) * 2007-01-26 2007-10-24 华中科技大学 一种提高元数据服务可靠性的方法及其系统
US20080126365A1 (en) * 2006-08-18 2008-05-29 Fachan Neal T Systems and methods for providing nonlinear journaling
CN101706805A (zh) * 2009-10-30 2010-05-12 中国科学院计算技术研究所 对象存储方法及其系统
CN101741911A (zh) * 2009-12-18 2010-06-16 中兴通讯股份有限公司 基于多副本协同的写操作方法、系统及节点

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040128269A1 (en) * 2002-12-27 2004-07-01 Milligan Charles A. System and method for managing data through families of inter-related metadata tables
US20080126365A1 (en) * 2006-08-18 2008-05-29 Fachan Neal T Systems and methods for providing nonlinear journaling
CN101059807A (zh) * 2007-01-26 2007-10-24 华中科技大学 一种提高元数据服务可靠性的方法及其系统
CN101706805A (zh) * 2009-10-30 2010-05-12 中国科学院计算技术研究所 对象存储方法及其系统
CN101741911A (zh) * 2009-12-18 2010-06-16 中兴通讯股份有限公司 基于多副本协同的写操作方法、系统及节点

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
庞丽萍等: "并行文件系统集中式元数据管理高可用系统设计", 《计算机工程与科学》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103548010A (zh) * 2011-05-23 2014-01-29 微软公司 分布式存储环境中的同步复制
US11720594B2 (en) 2011-05-23 2023-08-08 Microsoft Technology Licensing, Llc Synchronous replication in a distributed storage environment
CN103548010B (zh) * 2011-05-23 2017-03-15 微软技术许可有限责任公司 分布式存储环境中的同步复制
US9519555B2 (en) 2011-05-23 2016-12-13 Microsoft Technology Licensing, Llc Synchronous replication in a distributed storage environment
US9251021B2 (en) 2011-05-23 2016-02-02 Bradley Gene Calder Asynchronous replication in a distributed storage environment
CN102508891A (zh) * 2011-10-25 2012-06-20 曙光信息产业(北京)有限公司 一种基于丢弃的多元数据服务器元数据日志一致性的方法
CN102567444A (zh) * 2011-10-25 2012-07-11 无锡城市云计算中心有限公司 一种分布式文件系统数据访问优化的方法
CN102508891B (zh) * 2011-10-25 2013-08-28 曙光信息产业(北京)有限公司 一种基于丢弃的多元数据服务器元数据日志一致性的方法
CN102567444B (zh) * 2011-10-25 2013-11-06 无锡城市云计算中心有限公司 一种分布式文件系统数据访问优化的方法
CN103092719B (zh) * 2011-10-28 2016-09-07 浙江大华技术股份有限公司 一种文件系统的断电保护方法
CN103092719A (zh) * 2011-10-28 2013-05-08 浙江大华技术股份有限公司 一种文件系统的断电保护方法
CN102411639A (zh) * 2011-12-31 2012-04-11 曙光信息产业股份有限公司 元数据的多副本存储管理方法和系统
CN102411639B (zh) * 2011-12-31 2013-05-08 曙光信息产业股份有限公司 元数据的多副本存储管理方法和系统
CN102799996A (zh) * 2012-06-25 2012-11-28 亿赞普(北京)科技有限公司 网络广告策略匹配方法及系统
US20180329970A1 (en) * 2012-11-29 2018-11-15 Teradata Us, Inc. Providing metadata to database systems and environments with multiple processing units or modules
CN102981934A (zh) * 2012-12-21 2013-03-20 曙光信息产业(北京)有限公司 日志转移方法和日志转移装置
CN104144127A (zh) * 2013-05-08 2014-11-12 华为软件技术有限公司 负载均衡方法和负载均衡器
CN104281534A (zh) * 2014-09-22 2015-01-14 华为技术有限公司 一种存储元数据的方法和装置
CN105550066A (zh) * 2015-12-10 2016-05-04 希姆通信息技术(上海)有限公司 文件系统崩溃的解决方法及系统
CN106933698B (zh) * 2015-12-29 2021-05-28 伊姆西Ip控股有限责任公司 一种用于存储系统的方法和装置
CN106933698A (zh) * 2015-12-29 2017-07-07 伊姆西公司 一种用于存储系统的方法和装置
CN106951443A (zh) * 2017-02-15 2017-07-14 北京百度网讯科技有限公司 基于分布式系统的副本同步的方法、设备和系统
CN107547648A (zh) * 2017-08-31 2018-01-05 郑州云海信息技术有限公司 一种内部数据复制方法及装置
CN111656326A (zh) * 2018-02-27 2020-09-11 华睿泰科技有限责任公司 用于执行用于无修复恢复的数据库备份的系统和方法
CN111656326B (zh) * 2018-02-27 2023-08-08 华睿泰科技有限责任公司 用于执行用于无修复恢复的数据库备份的系统和方法
CN108924203A (zh) * 2018-06-25 2018-11-30 深圳市金蝶天燕中间件股份有限公司 数据副本自适应分布方法、分布式计算系统及相关设备
CN108924203B (zh) * 2018-06-25 2021-07-27 深圳市金蝶天燕云计算股份有限公司 数据副本自适应分布方法、分布式计算系统及相关设备
CN112269689A (zh) * 2020-11-05 2021-01-26 南京邮电大学 一种基于数据世系的云存储数据副本一致性维护方法
CN112269689B (zh) * 2020-11-05 2022-10-14 南京邮电大学 一种基于数据世系的云存储数据副本一致性维护方法

Also Published As

Publication number Publication date
CN102024022B (zh) 2013-08-28

Similar Documents

Publication Publication Date Title
CN102024022B (zh) 一种分布式文件系统复制元数据的方法
JP6050342B2 (ja) リカバリーサイトにおけるレプリカされた仮想ストレージの管理
CN102891849B (zh) 业务数据同步方法、恢复方法及装置和网络设备
US7308545B1 (en) Method and system of providing replication
US20100114837A1 (en) Remote disaster data recovery system and method
CN101739313B (zh) 一种连续数据保护和恢复方法
CN105302667B (zh) 基于集群架构的高可靠性数据备份与恢复方法
WO2012126232A1 (zh) 一种数据备份恢复的方法、系统和服务节点
CN103780638A (zh) 数据同步方法及系统
US10726042B2 (en) Replication control using eventually consistent meta-data
CN104536971A (zh) 一种具备高可用性的数据库
WO2020063600A1 (zh) 数据容灾方法与站点
CN105530294A (zh) 一种海量数据分布式存储的方法
CN103902405B (zh) 一种准连续性数据复制方法及装置
CN108964986B (zh) 协同办公系统应用级双活灾备系统
WO2016177231A1 (zh) 基于双主控的主备倒换方法及装置
CN102681917A (zh) 一种操作系统及其修复方法
CN102279857B (zh) 一种实现数据复制的方法及系统
CN104660386A (zh) 一种基于安腾平台下提高db2容灾高可用性的方法
WO2017014814A1 (en) Replicating memory volumes
CN105354111A (zh) 一种适用于广域分布式实时数据库的冗余备份方法
CN110489491B (zh) 一种适用于a/b网双集群的全量数据同步装置
CN107357800A (zh) 一种数据库高可用零丢失解决方法
CN101552799A (zh) 媒体节点容错方法和装置
CN103544081B (zh) 双元数据服务器的管理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220722

Address after: 100193 No. 36 Building, No. 8 Hospital, Wangxi Road, Haidian District, Beijing

Patentee after: Dawning Information Industry (Beijing) Co.,Ltd.

Patentee after: DAWNING INFORMATION INDUSTRY Co.,Ltd.

Address before: 100084 Beijing Haidian District City Mill Street No. 64

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.

TR01 Transfer of patent right