CN109558267B - 一种存储集群数据恢复验证方法及装置 - Google Patents

一种存储集群数据恢复验证方法及装置 Download PDF

Info

Publication number
CN109558267B
CN109558267B CN201811369105.9A CN201811369105A CN109558267B CN 109558267 B CN109558267 B CN 109558267B CN 201811369105 A CN201811369105 A CN 201811369105A CN 109558267 B CN109558267 B CN 109558267B
Authority
CN
China
Prior art keywords
cluster
effective information
slave nodes
verification
data recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811369105.9A
Other languages
English (en)
Other versions
CN109558267A (zh
Inventor
张超凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811369105.9A priority Critical patent/CN109558267B/zh
Publication of CN109558267A publication Critical patent/CN109558267A/zh
Application granted granted Critical
Publication of CN109558267B publication Critical patent/CN109558267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1048Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using arrangements adapted for a specific error detection or correction feature
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种存储集群数据恢复验证方法及装置,存储集群包括主节点和多个从节点;本方案主节点存储集群有效信息;主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证。本发明主动模拟灾难,恢复系统数据,验证灾难前后有效信息,若前后信息一致,则说明恢复成功,存储集群数据恢复过程可用。本发明可有效验证存储集群的数据恢复过程是否可用,提高存储系统稳定性和可靠性。

Description

一种存储集群数据恢复验证方法及装置
技术领域
本发明涉及存储集群数据恢复领域,具体涉及一种存储数据恢复验证方法及装置。
背景技术
随着大数据时代的到来,数据已经成为企业、机构和个人最重要的财富。而数据集中已成为大势所趋,越来越多的企业都选择自建(云)存储系统,或直接把数据迁移到云端。存储系统从简单的双机热备到多节点的集群高可用,从底层磁盘的高可用到共享层服务的高可用,无论是从硬件层面还是软件层面都有显著的提升。
存储系统带来方便的同时,对存储系统的稳定性和可靠性提出更高要求。目前,在存储系统出现故障时,会对存储系统数据进行恢复,但存储系统的恢复过程是否能成功或正确,目前尚缺乏有效的验证方法,影响数据存储的可靠性。
发明内容
为解决上述问题,本发明提供一种存储集群数据恢复验证方法及装置,可验证存储系统数据恢复过程是否成功。
本发明的技术方案是:一种存储集群数据恢复验证方法,所述存储集群包括主节点和多个从节点;
该方法包括以下步骤:
主节点存储集群有效信息;
主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证。
进一步地,所述主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证,包括:
主节点控制任意两个从节点断电;
断电预设时间后,重新恢复该两个从节点供电;
判断该两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并进入下一步;若启动不成功,则重复上述两步骤;
若两个从节点为候选状态,则主节点驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则重复上一步骤。
进一步地,该方法还包括:
生成验证过程日志和验证结果日志。
进一步地,主节点所存储集群有效信息包括:
各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。
进一步地,该方法还包括以下步骤:
当集群有效信息变化时,主节点实时更新所存储集群有效信息。
本发明还公开一种存储集群数据恢复验证装置,所述存储集群包括主节点和多个从节点;
所述主节点包括:
存储信息模块:用于存储集群有效信息;
数据恢复验证模块:用于控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证。
进一步地,所述数据恢复验证模块包括:
断电单元:用于控制任意两个从节点断电;
供电恢复单元:用于在断电预设时间后,重新恢复上述两个从节点供电;
从节点启动判断单元:用于判断上述两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并通知验证单元;若启动不成功,则通知断电单元和供电恢复单元重新工作;
验证单元:用于在上述两个从节点为候选状态时,驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则通知从节点启动判断单元重新工作。
进一步地,主节点还包括:
日志生成模块:用于生成验证过程日志和验证结果日志。
进一步地,存储信息模块所存储集群有效信息包括:
各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。
进一步地,主节点还包括:
有效信息更新模块:用于当集群有效信息变化时,实时更新存储信息模块所存储集群有效信息。
本发明提供的存储集群数据恢复验证方法及装置,主动模拟灾难,恢复系统数据,验证灾难前后有效信息,若前后信息一致,则说明恢复成功,存储集群数据恢复过程可用。本发明可有效验证存储集群的数据恢复过程是否可用,提高存储系统稳定性和可靠性。
附图说明
图1是本发明具体实施例一方法流程示意图。
图2是图1中步骤S2的具体方法流程示意图。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
实施例一
如图1所示,本实施例提供一种存储集群数据恢复验证方法,存储集群包括主节点和多个从节点,该方法具体包括以下步骤:
S1:主节点存储集群有效信息;
S2:主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证。
需要说明的是,步骤S1中,主节点所存储集群有效信息包括:各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。
另外,在步骤S1和S2之间,还包括步骤:当集群有效信息变化时,主节点实时更新所存储集群有效信息。实时更新最新的有效信息,可保证验证的可靠性。
如图2所示,本实施例中,步骤S2具体包括以下步骤:
S2-1:主节点控制任意两个从节点断电;
本实施例通过给从节点断电模拟灾难。也可以人为拔出从节点控制器,使其非正常断电。
S2-2:断电预设时间后,重新恢复该两个从节点供电;
从节点供电恢复,启动成功后,从节点的服务web界面上会显示578错误码的状态。此时,存储集群已完全失效,不可使用。
S2-3:判断该两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并进入下一步;若启动不成功,则重复上述两步骤。
S2-4:若两个从节点为候选状态,则主节点驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则重复上一步骤。
本实施例还包括步骤S2-5:生成验证过程日志和验证结果日志。生成日志供工作人员查看和后续参考。
实施例二
本实施例提供一种存储集群数据恢复验证装置,存储集群包括主节点和多个从节点。
主节点包括以下模块实现对数据恢复的验证:
存储信息模块:用于存储集群有效信息;
数据恢复验证模块:用于控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证。
其中,存储信息模块所存储集群有效信息包括:各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。
主节点还包括有效信息更新模块:用于当集群有效信息变化时,实时更新存储信息模块所存储集群有效信息。实时更新最新的有效信息,可保证验证的可靠性。
本实施例中,数据恢复验证模块包括:
断电单元:用于控制任意两个从节点断电;
供电恢复单元:用于在断电预设时间后,重新恢复上述两个从节点供电;
从节点启动判断单元:用于判断上述两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并通知验证单元;若启动不成功,则通知断电单元和供电恢复单元重新工作;
验证单元:用于在上述两个从节点为候选状态时,驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则通知从节点启动判断单元重新工作。
主节点还设置有日志生成模块:用于生成验证过程日志和验证结果日志。生成日志供工作人员查看和后续参考。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (8)

1.一种存储集群数据恢复验证方法,其特征在于,所述存储集群包括主节点和多个从节点;
该方法包括以下步骤:
主节点存储集群有效信息;
主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证;
所述主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证,包括:
主节点控制任意两个从节点断电;
断电预设时间后,重新恢复该两个从节点供电;
判断该两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并进入下一步;若启动不成功,则重复上述两步骤;
若两个从节点为候选状态,则主节点驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则重复上一步骤。
2.根据权利要求1所述的存储集群数据恢复验证方法,其特征在于,该方法还包括:
生成验证过程日志和验证结果日志。
3.根据权利要求1所述的存储集群数据恢复验证方法,其特征在于,主节点所存储集群有效信息包括:
各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。
4.根据权利要求1所述的存储集群数据恢复验证方法,其特征在于,该方法还包括以下步骤:
当集群有效信息变化时,主节点实时更新所存储集群有效信息。
5.一种存储集群数据恢复验证装置,其特征在于,所述存储集群包括主节点和多个从节点;
所述主节点包括:
存储信息模块:用于存储集群有效信息;
数据恢复验证模块:用于控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证;
所述数据恢复验证模块包括:
断电单元:用于控制任意两个从节点断电;
供电恢复单元:用于在断电预设时间后,重新恢复上述两个从节点供电;
从节点启动判断单元:用于判断上述两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并通知验证单元;若启动不成功,则通知断电单元和供电恢复单元重新工作;
验证单元:用于在上述两个从节点为候选状态时,驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则通知从节点启动判断单元重新工作。
6.根据权利要求5所述的存储集群数据恢复验证装置,其特征在于,主节点还包括:
日志生成模块:用于生成验证过程日志和验证结果日志。
7.根据权利要求5所述的存储集群数据恢复验证装置,其特征在于,存储信息模块所存储集群有效信息包括:
各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。
8.根据权利要求5所述的存储集群数据恢复验证装置,其特征在于,主节点还包括:
有效信息更新模块:用于当集群有效信息变化时,实时更新存储信息模块所存储集群有效信息。
CN201811369105.9A 2018-11-16 2018-11-16 一种存储集群数据恢复验证方法及装置 Active CN109558267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811369105.9A CN109558267B (zh) 2018-11-16 2018-11-16 一种存储集群数据恢复验证方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811369105.9A CN109558267B (zh) 2018-11-16 2018-11-16 一种存储集群数据恢复验证方法及装置

Publications (2)

Publication Number Publication Date
CN109558267A CN109558267A (zh) 2019-04-02
CN109558267B true CN109558267B (zh) 2021-10-29

Family

ID=65866543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811369105.9A Active CN109558267B (zh) 2018-11-16 2018-11-16 一种存储集群数据恢复验证方法及装置

Country Status (1)

Country Link
CN (1) CN109558267B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110286732B (zh) * 2019-06-27 2021-01-12 华云数据控股集团有限公司 高可用集群掉电自动恢复方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017147105A1 (en) * 2016-02-22 2017-08-31 Netapp, Inc. Enabling data integrity checking and faster application recovery in synchronous replicated datasets
CN107241430A (zh) * 2017-07-03 2017-10-10 国家电网公司 一种基于分布式存储的企业级容灾系统及容灾控制方法
CN107454155A (zh) * 2017-07-25 2017-12-08 北京三快在线科技有限公司 一种基于负载均衡集群的故障处理方法、装置以及系统
CN108228789A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 从节点触发的同步异常恢复方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017147105A1 (en) * 2016-02-22 2017-08-31 Netapp, Inc. Enabling data integrity checking and faster application recovery in synchronous replicated datasets
CN107241430A (zh) * 2017-07-03 2017-10-10 国家电网公司 一种基于分布式存储的企业级容灾系统及容灾控制方法
CN107454155A (zh) * 2017-07-25 2017-12-08 北京三快在线科技有限公司 一种基于负载均衡集群的故障处理方法、装置以及系统
CN108228789A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 从节点触发的同步异常恢复方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"HRSPC: a hybrid redundancy scheme via exploring computational locality to support fast recovery and high reliability in distributed storage systems";Shiyi Li等;《Journal of Network and Computer Applications》;20160531;第66卷;第52-63页 *
"基于可用性度量的分布式文件系统节点失效恢复算法";廖彬等;《计算机科学》;20130131;第40卷(第1期);第144-149页 *

Also Published As

Publication number Publication date
CN109558267A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
US7971094B1 (en) Method, system and apparatus for creating and executing a failover plan on a computer network
CN102681917B (zh) 一种操作系统及其修复方法
CN103488494A (zh) 一种刀片服务器多固件同步更新升级方法
CN109189860A (zh) 一种基于Kubernetes系统的MySQL主备增量同步方法
CN106469069B (zh) 一种版本升级方法及系统
CN106844092B (zh) 一种自动恢复掉电的MariaDB Galera Cluster的方法
CN111478796B (zh) 一种ai平台的集群扩容异常处理方法
CN103092724A (zh) 用于嵌入式电力终端的系统自恢复方法
CN109614376A (zh) Nas节点配置文件的更新方法及nas配置节点控制器
CN111309524A (zh) 分布式存储系统故障恢复方法、装置、终端及存储介质
CN105160253A (zh) 修复客户端程序的方法、装置、系统及服务器
CN109558267B (zh) 一种存储集群数据恢复验证方法及装置
CN101996083A (zh) 一种镜像升级的方法和装置
WO2015043155A1 (zh) 一种基于命令集的网元备份与恢复方法及装置
US20180322020A1 (en) Backup and recovery of configuration files in management device
CN104407942A (zh) 一种基于异地存储的Linux操作系统备份恢复方法
CN108737153B (zh) 区块链灾备系统、方法、服务器和计算机可读存储介质
JP4914035B2 (ja) 計算機および退避復元プログラム
CN112367186B (zh) 一种基于0penStack裸机的故障保护方法及装置
CN102520880B (zh) 一种系统raid管理模块设计方法
WO2018076696A1 (zh) 一种数据同步方法及带外管理设备
CN102591750A (zh) 集群系统的恢复方法
CN105373549A (zh) 数据迁移方法、设备及数据节点服务器
CN112532418A (zh) 电动运具的充电设备及其自动排除故障的方法
CN108377198B (zh) 一种基于云平台的节点配置统一批量维护方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant