CN109558267B - 一种存储集群数据恢复验证方法及装置 - Google Patents
一种存储集群数据恢复验证方法及装置 Download PDFInfo
- Publication number
- CN109558267B CN109558267B CN201811369105.9A CN201811369105A CN109558267B CN 109558267 B CN109558267 B CN 109558267B CN 201811369105 A CN201811369105 A CN 201811369105A CN 109558267 B CN109558267 B CN 109558267B
- Authority
- CN
- China
- Prior art keywords
- cluster
- effective information
- slave nodes
- verification
- data recovery
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011084 recovery Methods 0.000 title claims abstract description 55
- 238000012795 verification Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 6
- 238000010200 validation analysis Methods 0.000 claims 4
- 238000013500 data storage Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/08—Error detection or correction by redundancy in data representation, e.g. by using checking codes
- G06F11/10—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
- G06F11/1008—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
- G06F11/1048—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using arrangements adapted for a specific error detection or correction feature
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1458—Management of the backup or restore process
- G06F11/1469—Backup restoration techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开一种存储集群数据恢复验证方法及装置,存储集群包括主节点和多个从节点;本方案主节点存储集群有效信息;主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证。本发明主动模拟灾难,恢复系统数据,验证灾难前后有效信息,若前后信息一致,则说明恢复成功,存储集群数据恢复过程可用。本发明可有效验证存储集群的数据恢复过程是否可用,提高存储系统稳定性和可靠性。
Description
技术领域
本发明涉及存储集群数据恢复领域,具体涉及一种存储数据恢复验证方法及装置。
背景技术
随着大数据时代的到来,数据已经成为企业、机构和个人最重要的财富。而数据集中已成为大势所趋,越来越多的企业都选择自建(云)存储系统,或直接把数据迁移到云端。存储系统从简单的双机热备到多节点的集群高可用,从底层磁盘的高可用到共享层服务的高可用,无论是从硬件层面还是软件层面都有显著的提升。
存储系统带来方便的同时,对存储系统的稳定性和可靠性提出更高要求。目前,在存储系统出现故障时,会对存储系统数据进行恢复,但存储系统的恢复过程是否能成功或正确,目前尚缺乏有效的验证方法,影响数据存储的可靠性。
发明内容
为解决上述问题,本发明提供一种存储集群数据恢复验证方法及装置,可验证存储系统数据恢复过程是否成功。
本发明的技术方案是:一种存储集群数据恢复验证方法,所述存储集群包括主节点和多个从节点;
该方法包括以下步骤:
主节点存储集群有效信息;
主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证。
进一步地,所述主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证,包括:
主节点控制任意两个从节点断电;
断电预设时间后,重新恢复该两个从节点供电;
判断该两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并进入下一步;若启动不成功,则重复上述两步骤;
若两个从节点为候选状态,则主节点驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则重复上一步骤。
进一步地,该方法还包括:
生成验证过程日志和验证结果日志。
进一步地,主节点所存储集群有效信息包括:
各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。
进一步地,该方法还包括以下步骤:
当集群有效信息变化时,主节点实时更新所存储集群有效信息。
本发明还公开一种存储集群数据恢复验证装置,所述存储集群包括主节点和多个从节点;
所述主节点包括:
存储信息模块:用于存储集群有效信息;
数据恢复验证模块:用于控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证。
进一步地,所述数据恢复验证模块包括:
断电单元:用于控制任意两个从节点断电;
供电恢复单元:用于在断电预设时间后,重新恢复上述两个从节点供电;
从节点启动判断单元:用于判断上述两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并通知验证单元;若启动不成功,则通知断电单元和供电恢复单元重新工作;
验证单元:用于在上述两个从节点为候选状态时,驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则通知从节点启动判断单元重新工作。
进一步地,主节点还包括:
日志生成模块:用于生成验证过程日志和验证结果日志。
进一步地,存储信息模块所存储集群有效信息包括:
各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。
进一步地,主节点还包括:
有效信息更新模块:用于当集群有效信息变化时,实时更新存储信息模块所存储集群有效信息。
本发明提供的存储集群数据恢复验证方法及装置,主动模拟灾难,恢复系统数据,验证灾难前后有效信息,若前后信息一致,则说明恢复成功,存储集群数据恢复过程可用。本发明可有效验证存储集群的数据恢复过程是否可用,提高存储系统稳定性和可靠性。
附图说明
图1是本发明具体实施例一方法流程示意图。
图2是图1中步骤S2的具体方法流程示意图。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
实施例一
如图1所示,本实施例提供一种存储集群数据恢复验证方法,存储集群包括主节点和多个从节点,该方法具体包括以下步骤:
S1:主节点存储集群有效信息;
S2:主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证。
需要说明的是,步骤S1中,主节点所存储集群有效信息包括:各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。
另外,在步骤S1和S2之间,还包括步骤:当集群有效信息变化时,主节点实时更新所存储集群有效信息。实时更新最新的有效信息,可保证验证的可靠性。
如图2所示,本实施例中,步骤S2具体包括以下步骤:
S2-1:主节点控制任意两个从节点断电;
本实施例通过给从节点断电模拟灾难。也可以人为拔出从节点控制器,使其非正常断电。
S2-2:断电预设时间后,重新恢复该两个从节点供电;
从节点供电恢复,启动成功后,从节点的服务web界面上会显示578错误码的状态。此时,存储集群已完全失效,不可使用。
S2-3:判断该两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并进入下一步;若启动不成功,则重复上述两步骤。
S2-4:若两个从节点为候选状态,则主节点驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则重复上一步骤。
本实施例还包括步骤S2-5:生成验证过程日志和验证结果日志。生成日志供工作人员查看和后续参考。
实施例二
本实施例提供一种存储集群数据恢复验证装置,存储集群包括主节点和多个从节点。
主节点包括以下模块实现对数据恢复的验证:
存储信息模块:用于存储集群有效信息;
数据恢复验证模块:用于控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证。
其中,存储信息模块所存储集群有效信息包括:各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。
主节点还包括有效信息更新模块:用于当集群有效信息变化时,实时更新存储信息模块所存储集群有效信息。实时更新最新的有效信息,可保证验证的可靠性。
本实施例中,数据恢复验证模块包括:
断电单元:用于控制任意两个从节点断电;
供电恢复单元:用于在断电预设时间后,重新恢复上述两个从节点供电;
从节点启动判断单元:用于判断上述两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并通知验证单元;若启动不成功,则通知断电单元和供电恢复单元重新工作;
验证单元:用于在上述两个从节点为候选状态时,驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则通知从节点启动判断单元重新工作。
主节点还设置有日志生成模块:用于生成验证过程日志和验证结果日志。生成日志供工作人员查看和后续参考。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。
Claims (8)
1.一种存储集群数据恢复验证方法,其特征在于,所述存储集群包括主节点和多个从节点;
该方法包括以下步骤:
主节点存储集群有效信息;
主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证;
所述主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证,包括:
主节点控制任意两个从节点断电;
断电预设时间后,重新恢复该两个从节点供电;
判断该两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并进入下一步;若启动不成功,则重复上述两步骤;
若两个从节点为候选状态,则主节点驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则重复上一步骤。
2.根据权利要求1所述的存储集群数据恢复验证方法,其特征在于,该方法还包括:
生成验证过程日志和验证结果日志。
3.根据权利要求1所述的存储集群数据恢复验证方法,其特征在于,主节点所存储集群有效信息包括:
各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。
4.根据权利要求1所述的存储集群数据恢复验证方法,其特征在于,该方法还包括以下步骤:
当集群有效信息变化时,主节点实时更新所存储集群有效信息。
5.一种存储集群数据恢复验证装置,其特征在于,所述存储集群包括主节点和多个从节点;
所述主节点包括:
存储信息模块:用于存储集群有效信息;
数据恢复验证模块:用于控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证;
所述数据恢复验证模块包括:
断电单元:用于控制任意两个从节点断电;
供电恢复单元:用于在断电预设时间后,重新恢复上述两个从节点供电;
从节点启动判断单元:用于判断上述两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并通知验证单元;若启动不成功,则通知断电单元和供电恢复单元重新工作;
验证单元:用于在上述两个从节点为候选状态时,驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则通知从节点启动判断单元重新工作。
6.根据权利要求5所述的存储集群数据恢复验证装置,其特征在于,主节点还包括:
日志生成模块:用于生成验证过程日志和验证结果日志。
7.根据权利要求5所述的存储集群数据恢复验证装置,其特征在于,存储信息模块所存储集群有效信息包括:
各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。
8.根据权利要求5所述的存储集群数据恢复验证装置,其特征在于,主节点还包括:
有效信息更新模块:用于当集群有效信息变化时,实时更新存储信息模块所存储集群有效信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811369105.9A CN109558267B (zh) | 2018-11-16 | 2018-11-16 | 一种存储集群数据恢复验证方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811369105.9A CN109558267B (zh) | 2018-11-16 | 2018-11-16 | 一种存储集群数据恢复验证方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109558267A CN109558267A (zh) | 2019-04-02 |
CN109558267B true CN109558267B (zh) | 2021-10-29 |
Family
ID=65866543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811369105.9A Active CN109558267B (zh) | 2018-11-16 | 2018-11-16 | 一种存储集群数据恢复验证方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558267B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110286732B (zh) * | 2019-06-27 | 2021-01-12 | 华云数据控股集团有限公司 | 高可用集群掉电自动恢复方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017147105A1 (en) * | 2016-02-22 | 2017-08-31 | Netapp, Inc. | Enabling data integrity checking and faster application recovery in synchronous replicated datasets |
CN107241430A (zh) * | 2017-07-03 | 2017-10-10 | 国家电网公司 | 一种基于分布式存储的企业级容灾系统及容灾控制方法 |
CN107454155A (zh) * | 2017-07-25 | 2017-12-08 | 北京三快在线科技有限公司 | 一种基于负载均衡集群的故障处理方法、装置以及系统 |
CN108228789A (zh) * | 2017-12-29 | 2018-06-29 | 北京奇虎科技有限公司 | 从节点触发的同步异常恢复方法及装置 |
-
2018
- 2018-11-16 CN CN201811369105.9A patent/CN109558267B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017147105A1 (en) * | 2016-02-22 | 2017-08-31 | Netapp, Inc. | Enabling data integrity checking and faster application recovery in synchronous replicated datasets |
CN107241430A (zh) * | 2017-07-03 | 2017-10-10 | 国家电网公司 | 一种基于分布式存储的企业级容灾系统及容灾控制方法 |
CN107454155A (zh) * | 2017-07-25 | 2017-12-08 | 北京三快在线科技有限公司 | 一种基于负载均衡集群的故障处理方法、装置以及系统 |
CN108228789A (zh) * | 2017-12-29 | 2018-06-29 | 北京奇虎科技有限公司 | 从节点触发的同步异常恢复方法及装置 |
Non-Patent Citations (2)
Title |
---|
"HRSPC: a hybrid redundancy scheme via exploring computational locality to support fast recovery and high reliability in distributed storage systems";Shiyi Li等;《Journal of Network and Computer Applications》;20160531;第66卷;第52-63页 * |
"基于可用性度量的分布式文件系统节点失效恢复算法";廖彬等;《计算机科学》;20130131;第40卷(第1期);第144-149页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109558267A (zh) | 2019-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7971094B1 (en) | Method, system and apparatus for creating and executing a failover plan on a computer network | |
CN102681917B (zh) | 一种操作系统及其修复方法 | |
CN103488494A (zh) | 一种刀片服务器多固件同步更新升级方法 | |
CN109189860A (zh) | 一种基于Kubernetes系统的MySQL主备增量同步方法 | |
CN106469069B (zh) | 一种版本升级方法及系统 | |
CN106844092B (zh) | 一种自动恢复掉电的MariaDB Galera Cluster的方法 | |
CN111478796B (zh) | 一种ai平台的集群扩容异常处理方法 | |
CN103092724A (zh) | 用于嵌入式电力终端的系统自恢复方法 | |
CN109614376A (zh) | Nas节点配置文件的更新方法及nas配置节点控制器 | |
CN111309524A (zh) | 分布式存储系统故障恢复方法、装置、终端及存储介质 | |
CN105160253A (zh) | 修复客户端程序的方法、装置、系统及服务器 | |
CN109558267B (zh) | 一种存储集群数据恢复验证方法及装置 | |
CN101996083A (zh) | 一种镜像升级的方法和装置 | |
WO2015043155A1 (zh) | 一种基于命令集的网元备份与恢复方法及装置 | |
US20180322020A1 (en) | Backup and recovery of configuration files in management device | |
CN104407942A (zh) | 一种基于异地存储的Linux操作系统备份恢复方法 | |
CN108737153B (zh) | 区块链灾备系统、方法、服务器和计算机可读存储介质 | |
JP4914035B2 (ja) | 計算機および退避復元プログラム | |
CN112367186B (zh) | 一种基于0penStack裸机的故障保护方法及装置 | |
CN102520880B (zh) | 一种系统raid管理模块设计方法 | |
WO2018076696A1 (zh) | 一种数据同步方法及带外管理设备 | |
CN102591750A (zh) | 集群系统的恢复方法 | |
CN105373549A (zh) | 数据迁移方法、设备及数据节点服务器 | |
CN112532418A (zh) | 电动运具的充电设备及其自动排除故障的方法 | |
CN108377198B (zh) | 一种基于云平台的节点配置统一批量维护方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |