CN102024022B - 一种分布式文件系统复制元数据的方法 - Google Patents

一种分布式文件系统复制元数据的方法 Download PDF

Info

Publication number
CN102024022B
CN102024022B CN 201010536551 CN201010536551A CN102024022B CN 102024022 B CN102024022 B CN 102024022B CN 201010536551 CN201010536551 CN 201010536551 CN 201010536551 A CN201010536551 A CN 201010536551A CN 102024022 B CN102024022 B CN 102024022B
Authority
CN
China
Prior art keywords
copy
metadata
daily record
copies
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010536551
Other languages
English (en)
Other versions
CN102024022A (zh
Inventor
王勇
张东阳
张玉龙
苗艳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Dawning Information Industry Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN 201010536551 priority Critical patent/CN102024022B/zh
Publication of CN102024022A publication Critical patent/CN102024022A/zh
Application granted granted Critical
Publication of CN102024022B publication Critical patent/CN102024022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种分布式文件系统复制元数据的方法。多个元数据副本排定次序,按照次序充当主副本;充当主副本的元数据副本承担写操作,并生成日志记录;主副本生成的日志写给从副本保存,保存该日志的从副本达到一定数目后,保存操作成功;从副本的日志记录集中应用到本地数据;如果主副本失效,第一从副本更新本地数据,转换为主副本,标记陈旧数据后对外提供服务;如果从副本失效,主副本记录所有发往从副本日志的信息,当从副本重新可用时,发往从副本,从副本写回日志后即完成更新。本发明通过将主副本的日志进行成批传送到从副本,缩短了元数据操作的关键路径,并提高了应用效率;从副本在主节点失效后更新本地数据并承担主副本角色,标记陈旧数据后即可对外提供服务,缩短了切换时间。

Description

一种分布式文件系统复制元数据的方法
技术领域
本发明涉及计算机存储系统技术领域,具体涉及一种分布式文件系统复制元数据的方法。
背景技术
文件元数据是计算机操作系统的核心数据,关系着存储系统的可靠性。一般文件系统提供fsck等工具来检查并修复文件系统的一致性。这一过程的持续时间和文件系统的规模成比例,因此大型文件系统需要很长的修复时间。有些文件系统(如专门为Linux开发的Ext3/4)依靠日志技术极大地缩短了恢复时间。然而,这些文件系统只是解决了本地磁盘的文件元数据一致性问题。在大规模的分布式系统下,如多达成百上千个节点的分布式环境下,在这种情况下,为了提高系统的可靠性,要使用专用的存储系统如分布式文件系统来管理文件元数据,并复制元数据形成副本来完成数据的冗余。传统的文件系统只能保证一个节点发生崩溃时,该节点的元数据的一致性,不能保证该节点和其他节点上的副本之间的一致性。因此,无法满足整个系统的文件元数据一致性的需求。在这种背景下,该专利技术提出了基于日志的复制技术,有效的保证了多副本下文件元数据的一致性。
发明内容
本发明目的是解决分布式系统下,如何有效的保证多副本的情况下元数据的一致性。
一种分布式文件系统复制元数据的方法,包含以下步骤:
A、多个元数据副本排定次序,按照次序充当主副本;
B、充当主副本的元数据副本承担写操作,并生成日志记录;
C、主副本生成的日志写给从副本保存,保存该日志的从副本达到一定数目后,保存操作成功;
D、从副本的日志记录集中应用到本地数据;
E、如果主副本失效,第一从副本更新本地数据,转换为主副本,标记陈旧数据后对外提供服务;如果从副本失效,主副本记录所有发往从副本日志的信息,当从副本重新可用时,发往从副本,从副本写回日志后即完成更新。
本发明的一种优选技术方案在于:所述步骤C中主副本日志写给从副本采用两阶段协议,所述两阶段协议是主从副本节点之间进行同步的一个通讯协议,当主副本准备进行写回日志时,要询问从副本是否写回,这称之为预提交阶段;当其他节点可用了,再进入第二阶段,即写回本地日志,并写回其他从副本。
本发明通过将主副本的日志进行成批传送到从副本,缩短了元数据操作的关键路径,并提高了应用效率;从副本在主节点失效后更新本地数据并承担主副本角色,标记陈旧数据后即可对外提供服务,缩短了切换时间。
附图说明
图1整个元数据服务器的框架图;
图2加入2PC(两阶段协议)的元数据服务流程;
图3从副本发生操作系统崩溃时,元数据的修复流程;
图4主副本发生操作系统崩溃时,元数据的修复流程;
图5从副本发生设备故障时,元数据的修复流程;
图6主副本发生设备故障时,元数据的修复流程。
具体实施方案
下面结合附图和具体实施方式对本发明作进一步详细描述。在分布式文件系统的元数据服务模块中,采用元数据复制方法的存储系统会采用多个副本,每个副本均位于不同的节点上,图1是三副本的情况,系统按照编号,会指定第一从副本和第二从副本。在系统正常的服务状态时,只有主副本提供元数据服务,其他的两个副本只做数据的备份。当系统的主副本节点发生崩溃时,会分别让第一从副本和第二从副本来接管元数据服务。为了提高系统的可靠性,在原有的文件服务系统中,增加了日志模块提高本地的逻辑文件系统的可靠性。本专利在原有的分布式文件系统的元数据模块中,添加了2PC(两阶段)传输协议,该协议保证元数据请求时,主从副本日志的一致;提出了主从副本崩溃时,日志维护策略。从而使得采用节点间的元数据复制(即副本技术)成为可能。下面详细进行介绍。
2PC(两阶段协议)如图2是用于主从副本节点之间进行同步的一个通讯协议,当主副本准备进行写回日志时,要询问从副本是否写回,这称之为预提交阶段。当其他节点可用了,再进入第二阶段,即写回本地日志,并写回其他从副本,这样,主从副本节点上的日志在每个时刻均保证是一致的,由于日志系统可以保证元数据是一致的,所以最终主从副本上的元数据是一致的。
当系统发生故障,分为主副本崩溃和从副本崩溃。根据崩溃的原因,又可以分为是操作系统崩溃,还是设备故障(磁盘故障和日志设备故障)。下面分别进行阐述该发明如何进行元数据恢复。
1.从副本发生操作系统的崩溃
如图3,主副本要将所有应该发往从副本日志的信息记录。当该从副本重新可以服务时,再将日志发送。当该从副本重新可用时,主副本将日志信息再次发往重启的从副本。当该从副本将日志写回磁盘后,主从副本上的元数据一致。
2.主副本发生操作系统的崩溃
如图4,当主副本发生崩溃时,系统根据配置情况,选择第一从副本接管元数据请求。该从副本以后将以主副本的状态完成元数据服务。同时,要将所有的元数据请求,记录到日志中。当主副本发生崩主副本可用时,要进行日志回传,主副本的日志写回磁盘后,其元数据也即和从副本一致。从而,整个系统完成了元数据的一致。
3.从副本磁盘发生故障
如图5,磁盘发生故障时,其磁盘数据均不可信,使用日志也无法修复,因此需要将所有磁盘数据进行拷贝。
4.主副本磁盘发生故障
如图6,正如主副本节点操作系统故障,首先进行服务节点切换。然而,此时,由于数据不可信,必须使用磁盘拷贝才能完成元数据的修复。

Claims (1)

1.一种分布式文件系统复制元数据的方法,其特征在于:包含以下步骤:
A、多个元数据副本排定次序,按照次序充当主副本;
B、充当主副本的元数据副本承担写操作,并生成日志记录;
C、主副本生成的日志写给从副本保存,保存该日志的从副本达到一定数目后,保存操作成功;
D、从副本的日志记录集中应用到本地数据;
E、如果主副本失效,第一从副本更新本地数据,转换为主副本,标记陈旧数据后对外提供服务;如果由于操作系统崩溃导致的从副本失效,主副本记录所有发往从副本日志的信息,当从副本重新可用时,发往从副本,从副本写回日志后即完成更新;由于磁盘发生故障导致的从副本失效,将所有磁盘数据进行拷贝完成元数据的修复;
所述步骤C中主副本日志写给从副本采用两阶段协议,所述两阶段协议是主从副本节点之间进行同步的一个通讯协议,当主副本准备进行写回日志时,要询问从副本是否写回,这称之为预提交阶段;当从副本节点可用了,再进入第二阶段,即写回本地日志,并写回其他从副本。
CN 201010536551 2010-11-04 2010-11-04 一种分布式文件系统复制元数据的方法 Active CN102024022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010536551 CN102024022B (zh) 2010-11-04 2010-11-04 一种分布式文件系统复制元数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010536551 CN102024022B (zh) 2010-11-04 2010-11-04 一种分布式文件系统复制元数据的方法

Publications (2)

Publication Number Publication Date
CN102024022A CN102024022A (zh) 2011-04-20
CN102024022B true CN102024022B (zh) 2013-08-28

Family

ID=43865320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010536551 Active CN102024022B (zh) 2010-11-04 2010-11-04 一种分布式文件系统复制元数据的方法

Country Status (1)

Country Link
CN (1) CN102024022B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251021B2 (en) 2011-05-23 2016-02-02 Bradley Gene Calder Asynchronous replication in a distributed storage environment
US9519555B2 (en) * 2011-05-23 2016-12-13 Microsoft Technology Licensing, Llc Synchronous replication in a distributed storage environment
CN102508891B (zh) * 2011-10-25 2013-08-28 曙光信息产业(北京)有限公司 一种基于丢弃的多元数据服务器元数据日志一致性的方法
CN102567444B (zh) * 2011-10-25 2013-11-06 无锡城市云计算中心有限公司 一种分布式文件系统数据访问优化的方法
CN103092719B (zh) * 2011-10-28 2016-09-07 浙江大华技术股份有限公司 一种文件系统的断电保护方法
CN102411639B (zh) * 2011-12-31 2013-05-08 曙光信息产业股份有限公司 元数据的多副本存储管理方法和系统
CN102799996A (zh) * 2012-06-25 2012-11-28 亿赞普(北京)科技有限公司 网络广告策略匹配方法及系统
US10042907B2 (en) * 2012-11-29 2018-08-07 Teradata Us, Inc. Providing metadata to database systems and environments with multiple processing units or modules
CN102981934A (zh) * 2012-12-21 2013-03-20 曙光信息产业(北京)有限公司 日志转移方法和日志转移装置
CN104144127A (zh) * 2013-05-08 2014-11-12 华为软件技术有限公司 负载均衡方法和负载均衡器
CN104281534B (zh) * 2014-09-22 2018-02-13 华为技术有限公司 一种存储元数据的方法和装置
CN105550066A (zh) * 2015-12-10 2016-05-04 希姆通信息技术(上海)有限公司 文件系统崩溃的解决方法及系统
CN106933698B (zh) * 2015-12-29 2021-05-28 伊姆西Ip控股有限责任公司 一种用于存储系统的方法和装置
CN106951443B (zh) * 2017-02-15 2020-03-13 北京百度网讯科技有限公司 基于分布式系统的副本同步的方法、设备和系统
CN107547648A (zh) * 2017-08-31 2018-01-05 郑州云海信息技术有限公司 一种内部数据复制方法及装置
US10884876B2 (en) * 2018-02-27 2021-01-05 Veritas Technologies Llc Systems and methods for performing a database backup for repairless restore
CN108924203B (zh) * 2018-06-25 2021-07-27 深圳市金蝶天燕云计算股份有限公司 数据副本自适应分布方法、分布式计算系统及相关设备
CN112269689B (zh) * 2020-11-05 2022-10-14 南京邮电大学 一种基于数据世系的云存储数据副本一致性维护方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059807A (zh) * 2007-01-26 2007-10-24 华中科技大学 一种提高元数据服务可靠性的方法及其系统
CN101706805A (zh) * 2009-10-30 2010-05-12 中国科学院计算技术研究所 对象存储方法及其系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040128269A1 (en) * 2002-12-27 2004-07-01 Milligan Charles A. System and method for managing data through families of inter-related metadata tables
US7676691B2 (en) * 2006-08-18 2010-03-09 Isilon Systems, Inc. Systems and methods for providing nonlinear journaling
CN101741911B (zh) * 2009-12-18 2014-04-30 中兴通讯股份有限公司 基于多副本协同的写操作方法、系统及节点

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059807A (zh) * 2007-01-26 2007-10-24 华中科技大学 一种提高元数据服务可靠性的方法及其系统
CN101706805A (zh) * 2009-10-30 2010-05-12 中国科学院计算技术研究所 对象存储方法及其系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
并行文件系统集中式元数据管理高可用系统设计;庞丽萍等;《计算机工程与科学》;20041231;第26卷(第11期);87-88,97页 *
庞丽萍等.并行文件系统集中式元数据管理高可用系统设计.《计算机工程与科学》.2004,第26卷(第11期),

Also Published As

Publication number Publication date
CN102024022A (zh) 2011-04-20

Similar Documents

Publication Publication Date Title
CN102024022B (zh) 一种分布式文件系统复制元数据的方法
CN102891849B (zh) 业务数据同步方法、恢复方法及装置和网络设备
US7308545B1 (en) Method and system of providing replication
AU2006297144B2 (en) Application of virtual servers to high availability and disaster recovery solutions
TW454120B (en) Flexible remote data mirroring
CN102955845B (zh) 数据访问方法、装置与分布式数据库系统
US20100114837A1 (en) Remote disaster data recovery system and method
CN101739313B (zh) 一种连续数据保护和恢复方法
JP2014520344A (ja) リカバリーサイトにおけるレプリカされた仮想ストレージの管理
CN105302667B (zh) 基于集群架构的高可靠性数据备份与恢复方法
CN103780638A (zh) 数据同步方法及系统
CN103226502A (zh) 一种数据灾备控制系统及数据恢复方法
CN102214128A (zh) 多用途恢复环境
CN103902405B (zh) 一种准连续性数据复制方法及装置
JP2001337939A (ja) データ多重化方法およびデータ多重化システム
WO2020063600A1 (zh) 数据容灾方法与站点
CN108810150B (zh) 协同办公系统应用级灾备系统的数据复制方法
US20150312340A1 (en) Method and system for data synchronization
CN103428288B (zh) 基于分区状态表和协调节点的副本同步方法
WO2017014814A1 (en) Replicating memory volumes
JP2011164800A (ja) ストレージシステム及びストレージ制御方法
CN106685688A (zh) 一种集群计算机设备同步升级方法
CN101552799A (zh) 媒体节点容错方法和装置
CN103544081B (zh) 双元数据服务器的管理方法和装置
CN101252464B (zh) 双机系统和双机在线升级的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220722

Address after: 100193 No. 36 Building, No. 8 Hospital, Wangxi Road, Haidian District, Beijing

Patentee after: Dawning Information Industry (Beijing) Co.,Ltd.

Patentee after: DAWNING INFORMATION INDUSTRY Co.,Ltd.

Address before: 100084 Beijing Haidian District City Mill Street No. 64

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.

TR01 Transfer of patent right