CN102024022B - 一种分布式文件系统复制元数据的方法 - Google Patents
一种分布式文件系统复制元数据的方法 Download PDFInfo
- Publication number
- CN102024022B CN102024022B CN 201010536551 CN201010536551A CN102024022B CN 102024022 B CN102024022 B CN 102024022B CN 201010536551 CN201010536551 CN 201010536551 CN 201010536551 A CN201010536551 A CN 201010536551A CN 102024022 B CN102024022 B CN 102024022B
- Authority
- CN
- China
- Prior art keywords
- copy
- metadata
- daily record
- copies
- primary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种分布式文件系统复制元数据的方法。多个元数据副本排定次序,按照次序充当主副本;充当主副本的元数据副本承担写操作,并生成日志记录;主副本生成的日志写给从副本保存,保存该日志的从副本达到一定数目后,保存操作成功;从副本的日志记录集中应用到本地数据;如果主副本失效,第一从副本更新本地数据,转换为主副本,标记陈旧数据后对外提供服务;如果从副本失效,主副本记录所有发往从副本日志的信息,当从副本重新可用时,发往从副本,从副本写回日志后即完成更新。本发明通过将主副本的日志进行成批传送到从副本,缩短了元数据操作的关键路径,并提高了应用效率;从副本在主节点失效后更新本地数据并承担主副本角色,标记陈旧数据后即可对外提供服务,缩短了切换时间。
Description
技术领域
本发明涉及计算机存储系统技术领域,具体涉及一种分布式文件系统复制元数据的方法。
背景技术
文件元数据是计算机操作系统的核心数据,关系着存储系统的可靠性。一般文件系统提供fsck等工具来检查并修复文件系统的一致性。这一过程的持续时间和文件系统的规模成比例,因此大型文件系统需要很长的修复时间。有些文件系统(如专门为Linux开发的Ext3/4)依靠日志技术极大地缩短了恢复时间。然而,这些文件系统只是解决了本地磁盘的文件元数据一致性问题。在大规模的分布式系统下,如多达成百上千个节点的分布式环境下,在这种情况下,为了提高系统的可靠性,要使用专用的存储系统如分布式文件系统来管理文件元数据,并复制元数据形成副本来完成数据的冗余。传统的文件系统只能保证一个节点发生崩溃时,该节点的元数据的一致性,不能保证该节点和其他节点上的副本之间的一致性。因此,无法满足整个系统的文件元数据一致性的需求。在这种背景下,该专利技术提出了基于日志的复制技术,有效的保证了多副本下文件元数据的一致性。
发明内容
本发明目的是解决分布式系统下,如何有效的保证多副本的情况下元数据的一致性。
一种分布式文件系统复制元数据的方法,包含以下步骤:
A、多个元数据副本排定次序,按照次序充当主副本;
B、充当主副本的元数据副本承担写操作,并生成日志记录;
C、主副本生成的日志写给从副本保存,保存该日志的从副本达到一定数目后,保存操作成功;
D、从副本的日志记录集中应用到本地数据;
E、如果主副本失效,第一从副本更新本地数据,转换为主副本,标记陈旧数据后对外提供服务;如果从副本失效,主副本记录所有发往从副本日志的信息,当从副本重新可用时,发往从副本,从副本写回日志后即完成更新。
本发明的一种优选技术方案在于:所述步骤C中主副本日志写给从副本采用两阶段协议,所述两阶段协议是主从副本节点之间进行同步的一个通讯协议,当主副本准备进行写回日志时,要询问从副本是否写回,这称之为预提交阶段;当其他节点可用了,再进入第二阶段,即写回本地日志,并写回其他从副本。
本发明通过将主副本的日志进行成批传送到从副本,缩短了元数据操作的关键路径,并提高了应用效率;从副本在主节点失效后更新本地数据并承担主副本角色,标记陈旧数据后即可对外提供服务,缩短了切换时间。
附图说明
图1整个元数据服务器的框架图;
图2加入2PC(两阶段协议)的元数据服务流程;
图3从副本发生操作系统崩溃时,元数据的修复流程;
图4主副本发生操作系统崩溃时,元数据的修复流程;
图5从副本发生设备故障时,元数据的修复流程;
图6主副本发生设备故障时,元数据的修复流程。
具体实施方案
下面结合附图和具体实施方式对本发明作进一步详细描述。在分布式文件系统的元数据服务模块中,采用元数据复制方法的存储系统会采用多个副本,每个副本均位于不同的节点上,图1是三副本的情况,系统按照编号,会指定第一从副本和第二从副本。在系统正常的服务状态时,只有主副本提供元数据服务,其他的两个副本只做数据的备份。当系统的主副本节点发生崩溃时,会分别让第一从副本和第二从副本来接管元数据服务。为了提高系统的可靠性,在原有的文件服务系统中,增加了日志模块提高本地的逻辑文件系统的可靠性。本专利在原有的分布式文件系统的元数据模块中,添加了2PC(两阶段)传输协议,该协议保证元数据请求时,主从副本日志的一致;提出了主从副本崩溃时,日志维护策略。从而使得采用节点间的元数据复制(即副本技术)成为可能。下面详细进行介绍。
2PC(两阶段协议)如图2是用于主从副本节点之间进行同步的一个通讯协议,当主副本准备进行写回日志时,要询问从副本是否写回,这称之为预提交阶段。当其他节点可用了,再进入第二阶段,即写回本地日志,并写回其他从副本,这样,主从副本节点上的日志在每个时刻均保证是一致的,由于日志系统可以保证元数据是一致的,所以最终主从副本上的元数据是一致的。
当系统发生故障,分为主副本崩溃和从副本崩溃。根据崩溃的原因,又可以分为是操作系统崩溃,还是设备故障(磁盘故障和日志设备故障)。下面分别进行阐述该发明如何进行元数据恢复。
1.从副本发生操作系统的崩溃
如图3,主副本要将所有应该发往从副本日志的信息记录。当该从副本重新可以服务时,再将日志发送。当该从副本重新可用时,主副本将日志信息再次发往重启的从副本。当该从副本将日志写回磁盘后,主从副本上的元数据一致。
2.主副本发生操作系统的崩溃
如图4,当主副本发生崩溃时,系统根据配置情况,选择第一从副本接管元数据请求。该从副本以后将以主副本的状态完成元数据服务。同时,要将所有的元数据请求,记录到日志中。当主副本发生崩主副本可用时,要进行日志回传,主副本的日志写回磁盘后,其元数据也即和从副本一致。从而,整个系统完成了元数据的一致。
3.从副本磁盘发生故障
如图5,磁盘发生故障时,其磁盘数据均不可信,使用日志也无法修复,因此需要将所有磁盘数据进行拷贝。
4.主副本磁盘发生故障
如图6,正如主副本节点操作系统故障,首先进行服务节点切换。然而,此时,由于数据不可信,必须使用磁盘拷贝才能完成元数据的修复。
Claims (1)
1.一种分布式文件系统复制元数据的方法,其特征在于:包含以下步骤:
A、多个元数据副本排定次序,按照次序充当主副本;
B、充当主副本的元数据副本承担写操作,并生成日志记录;
C、主副本生成的日志写给从副本保存,保存该日志的从副本达到一定数目后,保存操作成功;
D、从副本的日志记录集中应用到本地数据;
E、如果主副本失效,第一从副本更新本地数据,转换为主副本,标记陈旧数据后对外提供服务;如果由于操作系统崩溃导致的从副本失效,主副本记录所有发往从副本日志的信息,当从副本重新可用时,发往从副本,从副本写回日志后即完成更新;由于磁盘发生故障导致的从副本失效,将所有磁盘数据进行拷贝完成元数据的修复;
所述步骤C中主副本日志写给从副本采用两阶段协议,所述两阶段协议是主从副本节点之间进行同步的一个通讯协议,当主副本准备进行写回日志时,要询问从副本是否写回,这称之为预提交阶段;当从副本节点可用了,再进入第二阶段,即写回本地日志,并写回其他从副本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010536551 CN102024022B (zh) | 2010-11-04 | 2010-11-04 | 一种分布式文件系统复制元数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010536551 CN102024022B (zh) | 2010-11-04 | 2010-11-04 | 一种分布式文件系统复制元数据的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102024022A CN102024022A (zh) | 2011-04-20 |
CN102024022B true CN102024022B (zh) | 2013-08-28 |
Family
ID=43865320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010536551 Active CN102024022B (zh) | 2010-11-04 | 2010-11-04 | 一种分布式文件系统复制元数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102024022B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9519555B2 (en) | 2011-05-23 | 2016-12-13 | Microsoft Technology Licensing, Llc | Synchronous replication in a distributed storage environment |
US9251021B2 (en) | 2011-05-23 | 2016-02-02 | Bradley Gene Calder | Asynchronous replication in a distributed storage environment |
CN102508891B (zh) * | 2011-10-25 | 2013-08-28 | 曙光信息产业(北京)有限公司 | 一种基于丢弃的多元数据服务器元数据日志一致性的方法 |
CN102567444B (zh) * | 2011-10-25 | 2013-11-06 | 无锡城市云计算中心有限公司 | 一种分布式文件系统数据访问优化的方法 |
CN103092719B (zh) * | 2011-10-28 | 2016-09-07 | 浙江大华技术股份有限公司 | 一种文件系统的断电保护方法 |
CN102411639B (zh) * | 2011-12-31 | 2013-05-08 | 曙光信息产业股份有限公司 | 元数据的多副本存储管理方法和系统 |
CN102799996A (zh) * | 2012-06-25 | 2012-11-28 | 亿赞普(北京)科技有限公司 | 网络广告策略匹配方法及系统 |
US10042907B2 (en) * | 2012-11-29 | 2018-08-07 | Teradata Us, Inc. | Providing metadata to database systems and environments with multiple processing units or modules |
CN102981934A (zh) * | 2012-12-21 | 2013-03-20 | 曙光信息产业(北京)有限公司 | 日志转移方法和日志转移装置 |
CN104144127A (zh) * | 2013-05-08 | 2014-11-12 | 华为软件技术有限公司 | 负载均衡方法和负载均衡器 |
CN104281534B (zh) * | 2014-09-22 | 2018-02-13 | 华为技术有限公司 | 一种存储元数据的方法和装置 |
CN105550066A (zh) * | 2015-12-10 | 2016-05-04 | 希姆通信息技术(上海)有限公司 | 文件系统崩溃的解决方法及系统 |
CN106933698B (zh) * | 2015-12-29 | 2021-05-28 | 伊姆西Ip控股有限责任公司 | 一种用于存储系统的方法和装置 |
CN106951443B (zh) * | 2017-02-15 | 2020-03-13 | 北京百度网讯科技有限公司 | 基于分布式系统的副本同步的方法、设备和系统 |
CN107547648A (zh) * | 2017-08-31 | 2018-01-05 | 郑州云海信息技术有限公司 | 一种内部数据复制方法及装置 |
US10884876B2 (en) * | 2018-02-27 | 2021-01-05 | Veritas Technologies Llc | Systems and methods for performing a database backup for repairless restore |
CN108924203B (zh) * | 2018-06-25 | 2021-07-27 | 深圳市金蝶天燕云计算股份有限公司 | 数据副本自适应分布方法、分布式计算系统及相关设备 |
CN112269689B (zh) * | 2020-11-05 | 2022-10-14 | 南京邮电大学 | 一种基于数据世系的云存储数据副本一致性维护方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101059807A (zh) * | 2007-01-26 | 2007-10-24 | 华中科技大学 | 一种提高元数据服务可靠性的方法及其系统 |
CN101706805A (zh) * | 2009-10-30 | 2010-05-12 | 中国科学院计算技术研究所 | 对象存储方法及其系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040128269A1 (en) * | 2002-12-27 | 2004-07-01 | Milligan Charles A. | System and method for managing data through families of inter-related metadata tables |
US7676691B2 (en) * | 2006-08-18 | 2010-03-09 | Isilon Systems, Inc. | Systems and methods for providing nonlinear journaling |
CN101741911B (zh) * | 2009-12-18 | 2014-04-30 | 中兴通讯股份有限公司 | 基于多副本协同的写操作方法、系统及节点 |
-
2010
- 2010-11-04 CN CN 201010536551 patent/CN102024022B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101059807A (zh) * | 2007-01-26 | 2007-10-24 | 华中科技大学 | 一种提高元数据服务可靠性的方法及其系统 |
CN101706805A (zh) * | 2009-10-30 | 2010-05-12 | 中国科学院计算技术研究所 | 对象存储方法及其系统 |
Non-Patent Citations (2)
Title |
---|
并行文件系统集中式元数据管理高可用系统设计;庞丽萍等;《计算机工程与科学》;20041231;第26卷(第11期);87-88,97页 * |
庞丽萍等.并行文件系统集中式元数据管理高可用系统设计.《计算机工程与科学》.2004,第26卷(第11期), |
Also Published As
Publication number | Publication date |
---|---|
CN102024022A (zh) | 2011-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102024022B (zh) | 一种分布式文件系统复制元数据的方法 | |
CN102891849B (zh) | 业务数据同步方法、恢复方法及装置和网络设备 | |
JP6050342B2 (ja) | リカバリーサイトにおけるレプリカされた仮想ストレージの管理 | |
US7308545B1 (en) | Method and system of providing replication | |
TW454120B (en) | Flexible remote data mirroring | |
CN102955845B (zh) | 数据访问方法、装置与分布式数据库系统 | |
US20100114837A1 (en) | Remote disaster data recovery system and method | |
CN101739313B (zh) | 一种连续数据保护和恢复方法 | |
US20070078982A1 (en) | Application of virtual servers to high availability and disaster recovery soultions | |
CN105302667B (zh) | 基于集群架构的高可靠性数据备份与恢复方法 | |
CN103780638A (zh) | 数据同步方法及系统 | |
CN102214128A (zh) | 多用途恢复环境 | |
CN103902405B (zh) | 一种准连续性数据复制方法及装置 | |
JP2001337939A (ja) | データ多重化方法およびデータ多重化システム | |
WO2020063600A1 (zh) | 数据容灾方法与站点 | |
WO2016177231A1 (zh) | 基于双主控的主备倒换方法及装置 | |
CN104660386A (zh) | 一种基于安腾平台下提高db2容灾高可用性的方法 | |
WO2017014814A1 (en) | Replicating memory volumes | |
CN110489491B (zh) | 一种适用于a/b网双集群的全量数据同步装置 | |
CN101552799A (zh) | 媒体节点容错方法和装置 | |
CN103544081B (zh) | 双元数据服务器的管理方法和装置 | |
CN101252464B (zh) | 双机系统和双机在线升级的方法 | |
CN103428288A (zh) | 基于分区状态表和协调节点的副本同步方法 | |
CN103970620B (zh) | 一种准连续性数据复制方法及装置 | |
WO2023019953A1 (zh) | 数据同步方法、系统、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220722 Address after: 100193 No. 36 Building, No. 8 Hospital, Wangxi Road, Haidian District, Beijing Patentee after: Dawning Information Industry (Beijing) Co.,Ltd. Patentee after: DAWNING INFORMATION INDUSTRY Co.,Ltd. Address before: 100084 Beijing Haidian District City Mill Street No. 64 Patentee before: Dawning Information Industry (Beijing) Co.,Ltd. |
|
TR01 | Transfer of patent right |