CN109117317A - 一种集群故障恢复方法和相关装置 - Google Patents

一种集群故障恢复方法和相关装置 Download PDF

Info

Publication number
CN109117317A
CN109117317A CN201811296088.0A CN201811296088A CN109117317A CN 109117317 A CN109117317 A CN 109117317A CN 201811296088 A CN201811296088 A CN 201811296088A CN 109117317 A CN109117317 A CN 109117317A
Authority
CN
China
Prior art keywords
cluster
restored
malfunctioning node
node
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811296088.0A
Other languages
English (en)
Inventor
柳增运
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811296088.0A priority Critical patent/CN109117317A/zh
Publication of CN109117317A publication Critical patent/CN109117317A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying

Abstract

本申请公开一种集群故障恢复方法和相关装置,该方法首先确定集群发生故障后脱离于集群的故障节点中需要进行恢复的故障节点;其后,向需要进行恢复的故障节点发送第一事件,并触发集群状态机CSM向集群发送第二事件;第一事件用于对需要进行恢复的故障节点进行故障恢复;第二事件用于对集群进行故障恢复;最终,待需要进行恢复的故障节点故障恢复完成后,将需要进行恢复的故障节点加入集群。本申请提供的技术方案及时识别需要进行恢复的故障节点,其后通过事件发送方式使节点恢复与集群恢复并行,由集群恢复同时引导节点进行数据恢复。相比于现有技术,这种集群恢复与节点恢复并行的方式能够保障集群中节点数据恢复的安全性和可靠性。

Description

一种集群故障恢复方法和相关装置
技术领域
本申请涉及存储技术领域,特别是涉及一种集群故障恢复方法和相关装置。
背景技术
在大数据时代到来的今天,越来越多的存储系统被应用于数据存储。在这样庞大的存储集群中,节点宕机的情况时有发生,集群故障影响存储集群中数据的安全性和可靠性。然而,目前现有的集群故障恢复技术安全性和可靠性仍有待提升。
发明内容
基于上述问题,本申请提供了一种集群故障恢复方法和相关装置,以及时恢复集群,并保障集群数据的安全性和可靠性。
本申请实施例公开了如下技术方案:
本申请第一方面提供一种集群故障恢复方法,包括:
确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点;
向所述需要进行恢复的故障节点发送第一事件,并触发集群状态机CSM向所述集群发送第二事件;所述第一事件用于对所述需要进行恢复的故障节点进行故障恢复;所述第二事件用于对所述集群进行故障恢复;
所述需要进行恢复的故障节点故障恢复完成后,将所述需要进行恢复的故障节点加入所述集群。
可选地,所述确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点,具体包括:
进程与硬件检测模块通过检测硬件信息,确定所述需要进行恢复的故障节点。
可选地,在所述进程与硬件检测模块通过检测硬件信息,确定所述需要进行恢复的故障节点之前,所述方法还包括:
所述进程与硬件检测模块检测到存储系统的主函数返回的集群错误码时,根据所述集群错误码确定所述集群发生故障。
可选地,在所述向所述需要进行恢复的故障节点发送第一事件之前,所述方法还包括:
所述进程与硬件检测模块将用户数据发送至所述需要进行恢复的故障节点的系统盘进行保存。
可选地,所述对所述集群进行故障恢复,具体包括:
所述CSM对所述需要进行恢复的故障节点中元数据以外的数据进行清理;所述元数据包括:配置数据、虚拟化表和映射表;
将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步。
可选地,在所述将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步之后,所述方法还包括:
通知所述需要进行恢复的故障节点刷写掉未处理的数据;
所述将所述需要进行恢复的故障节点加入所述集群,具体包括:
所述未处理的数据刷写完成后,重启所述需要进行恢复的故障节点,将所述需要进行恢复的故障节点加入所述集群。
本申请第二方面提供一种集群故障恢复装置,包括:
进程与硬件检测模块,用于确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点;
事件控制模块,用于向所述需要进行恢复的故障节点发送第一事件,并触发集群状态机CSM向所述集群发送第二事件;所述第一事件用于对所述需要进行恢复的故障节点进行故障恢复;所述第二事件用于对所述集群进行故障恢复;
集群节点添加模块,用于在所述需要进行恢复的故障节点故障恢复完成后,将所述需要进行恢复的故障节点加入所述集群。
可选地,所述进程与硬件检测模块,具体用于通过检测硬件信息,确定所述需要进行恢复的故障节点。
可选地,所述进程与硬件检测模块,还用于检测到存储系统的主函数返回的集群错误码时,根据所述集群错误码确定所述集群发生故障。
可选地,所述进程与硬件检测模块,还用于将用户数据发送至所述需要进行恢复的故障节点的系统盘进行保存。
可选地,所述事件控制模块,具体用于触发所述CSM对所述需要进行恢复的故障节点中元数据以外的数据进行清理;将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步;所述元数据包括:配置数据、虚拟化表和映射表。
可选地,所述事件控制模块,还用于通知所述需要进行恢复的故障节点刷写掉未处理的数据;
所述集群节点添加模块,具体包括:
第一添加子模块,用于在所述未处理的数据刷写完成后,控制重启所述需要进行恢复的故障节点,将所述需要进行恢复的故障节点加入所述集群。
相较于现有技术,本申请具有以下有益效果:
本申请提供的集群故障恢复方法,首先确定集群发生故障后脱离于集群的故障节点中需要进行恢复的故障节点;其后,向需要进行恢复的故障节点发送第一事件,并触发集群状态机CSM向集群发送第二事件;第一事件用于对需要进行恢复的故障节点进行故障恢复;第二事件用于对集群进行故障恢复;最终,待需要进行恢复的故障节点故障恢复完成后,将需要进行恢复的故障节点加入集群。
该方法中,及时识别需要进行恢复的故障节点,其后通过事件发送方式使节点恢复与集群恢复并行,由集群恢复同时引导节点进行数据恢复。相比于现有技术,这种集群恢复与节点恢复并行的方式能够保障集群中节点数据恢复的安全性和可靠性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种集群故障恢复方法的流程图;
图2是本申请实施例提供的另一种集群故障恢复方法的流程图;
图3是本申请实施例提供的一种集群故障恢复装置的结构示意图。
具体实施方式
针对现有技术中集群故障恢复技术安全性和可靠性较差的问题,经过研究,本申请提供一种集群故障恢复方法和相关装置。下面结合实施例和附图对上述方法和装置分别进行详细描述。
第一实施例
参见图1,该图为本申请实施例提供的一种集群故障恢复方法的流程图。
如图1所示,本实施例提供的集群故障恢复方法,包括:
步骤101:确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点。
集群故障可能是由一个或多个节点故障导致。节点故障后状态为离线(offline)状态,即脱离于原来所述的集群。为恢复故障的集群,本实施例中首先需要确定需要进行恢复的故障节点。
对于导致集群故障的多个故障节点,如果数量过多,可能无法进行同时的故障节点恢复。本实施例中,提供了一种可能的实现方式,将故障节点中的配置节点作为首先确定的需要进行恢复的故障节点。配置节点以外的其他故障节点,其恢复顺序待恢复完成的配置节点调配。即,当配置节点恢复完成后,由配置节点确定需要进行恢复的故障节点。
作为另一种可能的实现方式,本实施例可由进程与硬件检测(Engine Change,EC)模块检测各个节点(包括集群中正常节点以及脱离于集群的故障节点)的硬件信息,确定各个节点的硬件运行情况,进而确定故障节点中需要进行恢复的故障节点。例如,EC模块根据故障节点的硬件信息,确定其中某一个故障节点需求加入集群中,此时,EC模块可确定该节点为需要进行恢复的故障节点。
步骤102:向所述需要进行恢复的故障节点发送第一事件,并触发集群状态机向所述集群发送第二事件。
本实施例中,向需要进行恢复的节点发送第一事件,具体可以由事件控制(EventManager,EM)模块执行。第一事件用于对需要进行恢复的故障节点进行故障恢复,具体可以包括:首先对节点的元数据状态进行恢复,其后对用户数据进行恢复。需要说明的是,本实施例中第一事件并不仅仅限值事件数量为一个,可能多个事件统称为第一事件。第一事件中不同的事件可以用于对故障节点的不同数据进行恢复。
EM模块向需要进行恢复的节点发送第一事件的同时,能够触发集群状态机(Cluster State Machine,CSM)注册第二事件并向集群发送第二事件。需要说明的是,本实施例中第二事件为与第一事件相对应的事件,在第一事件对故障节点进行恢复的同时,第二事件用于对集群进行故障恢复。具体地,第二事件可用于结合需要进行恢复的节点的数据恢复状态,对集群进行相应的故障恢复操作。
步骤103:所述需要进行恢复的故障节点故障恢复完成后,将所述需要进行恢复的故障节点加入所述集群。
待需要进行恢复的故障节点故障恢复完成后,相应地,集群也已经根据第二事件为故障节点的重新加入进行了充分的准备。此时,可以将恢复完成的故障节点重新加入集群中。
按照上述方式,对各个需要进行恢复的故障节点进行恢复,最终,实现集群的故障恢复。
以上,为本申请实施例提供的集群故障恢复方法,首先确定集群发生故障后脱离于集群的故障节点中需要进行恢复的故障节点;其后,向需要进行恢复的故障节点发送第一事件,并触发集群状态机CSM向集群发送第二事件;第一事件用于对需要进行恢复的故障节点进行故障恢复;第二事件用于对集群进行故障恢复;最终,待需要进行恢复的故障节点故障恢复完成后,将需要进行恢复的故障节点加入集群。
该方法中,及时识别需要进行恢复的故障节点,其后通过事件发送方式使节点恢复与集群恢复并行,由集群恢复同时引导节点进行数据恢复。相比于现有技术,这种集群恢复与节点恢复并行的方式能够保障集群中节点数据恢复的安全性和可靠性。
为提高故障恢复过程中,集群节点数据的安全性,在前述实施例的基础上,本申请还提供了另一种集群故障恢复方法。下面结合实施例和附图对该方法进行详细说明。
第二实施例
参见图2,该图为本申请实施例提供的一种集群故障恢复方法的流程图。
如图2所示,本实施例提供的集群故障恢复方法,包括:
步骤201:进程与硬件检测模块检测到存储系统的主函数返回的集群错误码时,根据所述集群错误码确定所述集群发生故障。
EC模块较为底层的模块,从该模块发起集群故障恢复能够保障集群节点数据的安全性。下面列举了EC模块的主要功能:
(1)如果节点故障,又称宕机或fail,EC模块负责把节点数据导出到系统盘;如果节点恢复,EC模块负责把节点数据恢复到内存中。
(2)EC模块负责检测输入、输出进程是否正常运行。
(3)EC模块负责检测节点的硬件运行状况。
(4)EC模块能够控制检测电源。
在本步骤中,EC模块还负责在检测到存储系统的主函数plmain发生故障退出,返回集群错误码exit_cluster_recover后,根据该集群错误码exit_cluster_recover确定当前集群发生故障。
步骤202:进程与硬件检测模块通过检测硬件信息,确定所述需要进行恢复的故障节点。
需要说明的是,在集群的恢复进程中,可以使用特定的集群ID使得需要进行恢复的节点与其他故障节点不会形成同一个集群。因此,根据故障节点的集群ID也能够确定需要进行恢复的故障节点。
步骤203:所述进程与硬件检测模块将用户数据发送至所述需要进行恢复的故障节点的系统盘进行保存。
本步骤中,用户数据具体指的是需要进行恢复的节点中的用户数据。由于用户数据是十分重要的数据,为保证安全性,不能丢失用户数据。因此,在对集群进行恢复的过程中,需要将需要进行恢复的故障节点的用户数据保存至其系统盘中,防止丢失、损坏。
步骤204:事件控制模块向所述需要进行恢复的故障节点发送第一事件。
关于步骤204的相关描述可参见前述实施例。
EM向需要进行恢复的故障节点发送第一事件的同时,能够触发CSM向集群发送第二事件,以对集群进行相应的恢复。下面通过步骤205至206对集群的恢复进程进行说明。
步骤205:CSM对所述需要进行恢复的故障节点中元数据以外的数据进行清理。
元数据作为存储系统中的关键数据,需要保留下来,而元数据以外的其他数据可清理掉。
本实施例中,元数据可以包括以下任意一种或多种的组合:配置数据、虚拟化表和映射表。
配置数据具体可以为节点的配置数据、raid分层(mdisk)的配置数据和卷(vdisk)的配置数据等。
清理掉的数据可以是mdisk、vdisk的状态信息,以及小型计算机系统接口(SmallComputer SystemInterface,SCSI)传输协议信息等。
步骤206:将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步。
在实际应用中,集群恢复的过程也相当于是集群中节点状态同步的过程。当需要进行恢复的故障节点中,元数据保留,其他作用微小的数据和信息清除掉以后,可对需要进行恢复的故障节点以及集群中正常节点的状态进行同步,例如bitmap同步等。
集群中节点状态同步后,需要进行恢复的该故障节点已经基本恢复完成。
步骤207:通知所述需要进行恢复的故障节点刷写掉未处理的数据。
在集群中节点状态同步结束后,EM模块可根据接收到的同步完成的信息,通知集群中各个节点刷写(flush)掉未处理的数据。此处,未处理的数据可以是节点系统盘中之前保存的数据。当集群恢复后,节点系统盘中保存的数据变为无用的数据,无需再处理使用,因此,可以将其刷写清除。
步骤208:未处理的数据刷写完成后,重启所述需要进行恢复的故障节点,将所述需要进行恢复的故障节点加入所述集群。
以上为本实施例提供的集群故障恢复方法,该方法通过EC模块确定集群故障并确定需要进行恢复的故障节点,另外通过EC模块发起集群恢复过程。由于EC模块为存储系统较底层的模块,因此,由EC模块发起对集群的恢复能够进一步保障节点数据的安全性。
基于前述实施例提供的集群故障恢复方法,对应地,本申请还提供一种集群故障恢复装置。下面结合实施例和附图对该装置的具体实现方式进行详细描述。
第三实施例
参见图3,该图为本申请实施例提供的集群故障恢复装置的结构示意图。
如图3所示,本实施例提供的集群故障恢复装置,包括:进程与硬件检测模块301,事件控制模块302,以及集群节点添加模块303。
其中,进程与硬件检测模块301,用于确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点;
事件控制模块302,用于向所述需要进行恢复的故障节点发送第一事件,并触发集群状态机CSM向所述集群发送第二事件;所述第一事件用于对所述需要进行恢复的故障节点进行故障恢复;所述第二事件用于对所述集群进行故障恢复;
集群节点添加模块303,用于在所述需要进行恢复的故障节点故障恢复完成后,将所述需要进行恢复的故障节点加入所述集群。
以上,为本申请实施例提供的集群故障恢复装置,该装置及时识别需要进行恢复的故障节点,其后通过事件发送方式使节点恢复与集群恢复并行,由集群恢复同时引导节点进行数据恢复。相比于现有技术,该装置采用集群恢复与节点恢复并行的方式对集群进行故障恢复,能够保障集群中节点数据恢复的安全性和可靠性。
作为一种可能的实现方式,所述进程与硬件检测模块301,具体用于通过检测硬件信息,确定所述需要进行恢复的故障节点。
作为一种可能的实现方式,所述进程与硬件检测模块301,还用于检测到存储系统的主函数返回的集群错误码时,根据所述集群错误码确定所述集群发生故障。
作为一种可能的实现方式,所述进程与硬件检测模块301,还用于将用户数据发送至所述需要进行恢复的故障节点的系统盘进行保存。
作为一种可能的实现方式,所述事件控制模块302,具体用于触发所述CSM对所述需要进行恢复的故障节点中元数据以外的数据进行清理;将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步;所述元数据包括:配置数据、虚拟化表和映射表。
作为一种可能的实现方式,所述事件控制模块302,还用于通知所述需要进行恢复的故障节点刷写掉未处理的数据;
所述集群节点添加模块303,具体包括:
第一添加子模块,用于在所述未处理的数据刷写完成后,控制重启所述需要进行恢复的故障节点,将所述需要进行恢复的故障节点加入所述集群。
上述装置中,通过EC模块确定集群故障并确定需要进行恢复的故障节点,另外通过EC模块发起集群恢复过程。由于EC模块为存储系统较底层的模块,因此,由EC模块发起对集群的恢复能够进一步保障节点数据的安全性。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (12)

1.一种集群故障恢复方法,其特征在于,包括:
确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点;
向所述需要进行恢复的故障节点发送第一事件,并触发集群状态机CSM向所述集群发送第二事件;所述第一事件用于对所述需要进行恢复的故障节点进行故障恢复;所述第二事件用于对所述集群进行故障恢复;
所述需要进行恢复的故障节点故障恢复完成后,将所述需要进行恢复的故障节点加入所述集群。
2.根据权利要求1所述的集群故障恢复方法,其特征在于,所述确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点,具体包括:
进程与硬件检测模块通过检测硬件信息,确定所述需要进行恢复的故障节点。
3.根据权利要求2所述的集群故障恢复方法,其特征在于,在所述进程与硬件检测模块通过检测硬件信息,确定所述需要进行恢复的故障节点之前,所述方法还包括:
所述进程与硬件检测模块检测到存储系统的主函数返回的集群错误码时,根据所述集群错误码确定所述集群发生故障。
4.根据权利要求2或3所述的集群故障恢复方法,其特征在于,在所述向所述需要进行恢复的故障节点发送第一事件之前,所述方法还包括:
所述进程与硬件检测模块将用户数据发送至所述需要进行恢复的故障节点的系统盘进行保存。
5.根据权利要求1所述的集群故障恢复方法,其特征在于,所述对所述集群进行故障恢复,具体包括:
所述CSM对所述需要进行恢复的故障节点中元数据以外的数据进行清理;所述元数据包括:配置数据、虚拟化表和映射表;
将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步。
6.根据权利要求5所述的集群故障恢复方法,其特征在于,在所述将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步之后,所述方法还包括:
通知所述需要进行恢复的故障节点刷写掉未处理的数据;
所述将所述需要进行恢复的故障节点加入所述集群,具体包括:
所述未处理的数据刷写完成后,重启所述需要进行恢复的故障节点,将所述需要进行恢复的故障节点加入所述集群。
7.一种集群故障恢复装置,其特征在于,包括:
进程与硬件检测模块,用于确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点;
事件控制模块,用于向所述需要进行恢复的故障节点发送第一事件,并触发集群状态机CSM向所述集群发送第二事件;所述第一事件用于对所述需要进行恢复的故障节点进行故障恢复;所述第二事件用于对所述集群进行故障恢复;
集群节点添加模块,用于在所述需要进行恢复的故障节点故障恢复完成后,将所述需要进行恢复的故障节点加入所述集群。
8.根据权利要求7所述的集群故障恢复装置,其特征在于,所述进程与硬件检测模块,具体用于通过检测硬件信息,确定所述需要进行恢复的故障节点。
9.根据权利要求8所述的集群故障恢复装置,其特征在于,所述进程与硬件检测模块,还用于检测到存储系统的主函数返回的集群错误码时,根据所述集群错误码确定所述集群发生故障。
10.根据权利要求8或9所述的集群故障恢复装置,其特征在于,所述进程与硬件检测模块,还用于将用户数据发送至所述需要进行恢复的故障节点的系统盘进行保存。
11.根据权利要求7所述的集群故障恢复装置,其特征在于,所述事件控制模块,具体用于触发所述CSM对所述需要进行恢复的故障节点中元数据以外的数据进行清理;将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步;所述元数据包括:配置数据、虚拟化表和映射表。
12.根据权利要求11所述的集群故障恢复装置,其特征在于,所述事件控制模块,还用于通知所述需要进行恢复的故障节点刷写掉未处理的数据;
所述集群节点添加模块,具体包括:
第一添加子模块,用于在所述未处理的数据刷写完成后,控制重启所述需要进行恢复的故障节点,将所述需要进行恢复的故障节点加入所述集群。
CN201811296088.0A 2018-11-01 2018-11-01 一种集群故障恢复方法和相关装置 Pending CN109117317A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811296088.0A CN109117317A (zh) 2018-11-01 2018-11-01 一种集群故障恢复方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811296088.0A CN109117317A (zh) 2018-11-01 2018-11-01 一种集群故障恢复方法和相关装置

Publications (1)

Publication Number Publication Date
CN109117317A true CN109117317A (zh) 2019-01-01

Family

ID=64856051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811296088.0A Pending CN109117317A (zh) 2018-11-01 2018-11-01 一种集群故障恢复方法和相关装置

Country Status (1)

Country Link
CN (1) CN109117317A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750379A (zh) * 2019-10-28 2020-02-04 无锡华云数据技术服务有限公司 一种etcd集群恢复方法、系统、设备及计算机介质
CN112838965A (zh) * 2021-02-19 2021-05-25 浪潮云信息技术股份公司 一种强同步角色故障的识别与恢复方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6609213B1 (en) * 2000-08-10 2003-08-19 Dell Products, L.P. Cluster-based system and method of recovery from server failures
CN102339305A (zh) * 2011-09-07 2012-02-01 北京人大金仓信息技术股份有限公司 基于偏序关系日志的数据库集群故障恢复方法
CN102394774A (zh) * 2011-10-31 2012-03-28 广东电子工业研究院有限公司 云计算操作系统的控制器服务状态监控和故障恢复方法
CN103064765A (zh) * 2012-12-28 2013-04-24 华为技术有限公司 数据恢复方法、装置及集群存储系统
CN103607297A (zh) * 2013-11-07 2014-02-26 上海爱数软件有限公司 一种计算机集群系统的故障处理方法
US20160334998A1 (en) * 2015-05-15 2016-11-17 Cisco Technology, Inc. Tenant-level sharding of disks with tenant-specific storage modules to enable policies per tenant in a distributed storage system
CN106293874A (zh) * 2016-07-29 2017-01-04 浪潮(北京)电子信息产业有限公司 一种对高可用集群进行监控的方法及装置
CN106911522A (zh) * 2017-04-20 2017-06-30 广东浪潮大数据研究有限公司 一种基于云环境的故障处理方法及系统
CN107276828A (zh) * 2017-07-26 2017-10-20 郑州云海信息技术有限公司 一种集群中节点的调度方法及装置
CN107608826A (zh) * 2017-09-19 2018-01-19 郑州云海信息技术有限公司 一种存储集群的节点的故障恢复方法、装置及介质
CN107665158A (zh) * 2017-09-22 2018-02-06 郑州云海信息技术有限公司 一种存储集群恢复方法及设备
CN108153606A (zh) * 2018-01-26 2018-06-12 上海储迅信息技术有限公司 一种无冗余保护集群实现前端业务连续性方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6609213B1 (en) * 2000-08-10 2003-08-19 Dell Products, L.P. Cluster-based system and method of recovery from server failures
CN102339305A (zh) * 2011-09-07 2012-02-01 北京人大金仓信息技术股份有限公司 基于偏序关系日志的数据库集群故障恢复方法
CN102394774A (zh) * 2011-10-31 2012-03-28 广东电子工业研究院有限公司 云计算操作系统的控制器服务状态监控和故障恢复方法
CN103064765A (zh) * 2012-12-28 2013-04-24 华为技术有限公司 数据恢复方法、装置及集群存储系统
CN103607297A (zh) * 2013-11-07 2014-02-26 上海爱数软件有限公司 一种计算机集群系统的故障处理方法
US20160334998A1 (en) * 2015-05-15 2016-11-17 Cisco Technology, Inc. Tenant-level sharding of disks with tenant-specific storage modules to enable policies per tenant in a distributed storage system
CN106293874A (zh) * 2016-07-29 2017-01-04 浪潮(北京)电子信息产业有限公司 一种对高可用集群进行监控的方法及装置
CN106911522A (zh) * 2017-04-20 2017-06-30 广东浪潮大数据研究有限公司 一种基于云环境的故障处理方法及系统
CN107276828A (zh) * 2017-07-26 2017-10-20 郑州云海信息技术有限公司 一种集群中节点的调度方法及装置
CN107608826A (zh) * 2017-09-19 2018-01-19 郑州云海信息技术有限公司 一种存储集群的节点的故障恢复方法、装置及介质
CN107665158A (zh) * 2017-09-22 2018-02-06 郑州云海信息技术有限公司 一种存储集群恢复方法及设备
CN108153606A (zh) * 2018-01-26 2018-06-12 上海储迅信息技术有限公司 一种无冗余保护集群实现前端业务连续性方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750379A (zh) * 2019-10-28 2020-02-04 无锡华云数据技术服务有限公司 一种etcd集群恢复方法、系统、设备及计算机介质
CN110750379B (zh) * 2019-10-28 2023-10-31 无锡华云数据技术服务有限公司 一种etcd集群恢复方法、系统、设备及计算机介质
CN112838965A (zh) * 2021-02-19 2021-05-25 浪潮云信息技术股份公司 一种强同步角色故障的识别与恢复方法

Similar Documents

Publication Publication Date Title
USRE47852E1 (en) Snapshot and replication of a multi-stream application on multiple hosts at near-sync frequency
CN101582787B (zh) 一种双机备份系统及备份方法
US9170888B2 (en) Methods and apparatus for virtual machine recovery
US8910172B2 (en) Application resource switchover systems and methods
US7219260B1 (en) Fault tolerant system shared system resource with state machine logging
CN101706802B (zh) 一种数据写入、修改及恢复的方法、装置及服务器
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
CN103077242A (zh) 一种实现数据库服务器双机热备的方法
WO2008092912A1 (en) System and method of error recovery for backup applications
CN105426275A (zh) 双活集群系统中容灾的方法及装置
CN109471759B (zh) 一种基于sas双控设备的数据库故障切换方法及设备
US9436539B2 (en) Synchronized debug information generation
CN102364448A (zh) 一种计算机故障管理系统的容错方法
CN103744743A (zh) 一种基于数据库rac模式心跳信号的冗余配置的方法
US8421614B2 (en) Reliable redundant data communication through alternating current power distribution system
CN111597079B (zh) 针对MySQL Galera集群故障的检测和恢复方法及系统
WO2017014814A1 (en) Replicating memory volumes
CN109117317A (zh) 一种集群故障恢复方法和相关装置
US9367413B2 (en) Detecting data loss during site switchover
US20140053019A1 (en) Reduced-impact error recovery in multi-core storage-system components
CN102457400A (zh) 一种防止磁盘镜像资源发生脑裂的方法
CN105824571A (zh) 一种实现数据无缝迁移的方法及装置
US8095828B1 (en) Using a data storage system for cluster I/O failure determination
US20150195167A1 (en) Availability device, storage area network system with availability device and methods for operation thereof
US7996707B2 (en) Method to recover from ungrouped logical path failures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190101

RJ01 Rejection of invention patent application after publication