CN111984474A - 一种双控集群故障恢复的方法、系统及设备 - Google Patents

一种双控集群故障恢复的方法、系统及设备 Download PDF

Info

Publication number
CN111984474A
CN111984474A CN202011033849.0A CN202011033849A CN111984474A CN 111984474 A CN111984474 A CN 111984474A CN 202011033849 A CN202011033849 A CN 202011033849A CN 111984474 A CN111984474 A CN 111984474A
Authority
CN
China
Prior art keywords
controller
service
service end
module
recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011033849.0A
Other languages
English (en)
Other versions
CN111984474B (zh
Inventor
张孙旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011033849.0A priority Critical patent/CN111984474B/zh
Publication of CN111984474A publication Critical patent/CN111984474A/zh
Application granted granted Critical
Publication of CN111984474B publication Critical patent/CN111984474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Abstract

本申请公开了一种双控集群故障恢复的方法,包括:确定后发生故障的控制器为第一控制器,确定先发生故障的控制器为第二控制器;控制第一控制器获取第一内存中的固化信息进行恢复,并将第一控制器中的配置信息同步到业务端,以恢复业务端的io业务;当业务端的io业务处理完成后,将第一控制器中的固化信息同步到第二控制器中,并控制第一控制器和第二控制器同时恢复业务流程。本申请降低了数据恢复的难度,并使得两个控制器不会因业务端io业务的不同而导致数据不同,进而保证了双控制器集群的两个控制器都出现故障时,恢复的数据在双控间的一致性及可靠性。本申请还提供了一种双控集群故障恢复的系统、设备及可读存储介质,具有上述有益效果。

Description

一种双控集群故障恢复的方法、系统及设备
技术领域
本申请涉及集群故障恢复领域,特别涉及一种双控集群故障恢复的方法、系统、设备及可读存储介质。
背景技术
为了提高存储系统的可用性,保障业务的连续性,人们设计了集群存储系统,集群内的各控制器节点通过网络等手段进行通信。目前使用最广泛的是由两个控制器组成的双控制器集群。双控制器集群的后端存储介质是通过光纤或SAS链路共享磁盘阵列的逻辑卷,或是通过SAS链路共享expander上的磁盘,前端业务则是通过以太网或光纤,使用nfs、cifs、scst等协议,提供文件级或块级的存储导出服务。
双控制器集群有两种工作模式,一种是active-standby模式:集群中的两个控制器一个为主控制器,另一个为备控制器。应用程序主要运行在主控制器上,当主控制器出现故障时,通知备控制器接管原先在主控制器上的业务,以使业务不间断;另一种是active-active模式:集群中的两个控制器同时对外提供业务,两个控制器互为主备,一个控制器出现故障后,将其上的业务切换到另一个控制器上。
然而,当双控制器集群的两个控制器都出现故障时,现有技术无法保证恢复的数据在双控间具有一致性及可靠性。
因此,如何保证恢复的数据在双控间具有一致性及可靠性是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种双控集群故障恢复的方法、系统、设备及可读存储介质,用于保证恢复的数据在双控间具有一致性及可靠性。
为解决上述技术问题,本申请提供一种双控集群故障恢复的方法,该方法包括:
确定后发生故障的控制器为第一控制器,确定先发生故障的控制器为第二控制器;
控制所述第一控制器获取第一内存中的固化信息进行恢复,并将所述第一控制器中的配置信息同步到业务端,以恢复所述业务端的io业务;
当所述业务端的io业务处理完成后,将所述第一控制器中的固化信息同步到所述第二控制器中,并控制所述第一控制器和所述第二控制器同时恢复业务流程。
可选的,将所述第一控制器中的配置信息同步到业务端,以恢复所述业务端的io业务,包括:
将所述业务端的各个模块设置为单控制器处理模式,所述业务端包括位图数据模块、元数据模块、垃圾回收模块中的至少一项;
将所述第一控制器中的配置信息同步到所述业务端的各个模块,以恢复所述业务端的io业务。
可选的,控制所述第一控制器和所述第二控制器同时恢复业务流程,包括:
将所述业务端的各个模块设置为双控制器处理模式,并控制所述第一控制器和所述第二控制器同时恢复业务流程。
可选的,所述固化信息包括所述配置信息、元数据和位图数据,将所述第一控制器中的固化信息同步到所述第二控制器中,包括:
将所述第一控制器中的配置信息同步到所述第二控制器中,并控制所述第二控制器将第二内存中的元数据和位图数据丢弃;
令所述第一控制器和所述第二控制器同时中断业务流程,并将所述第一控制器中的元数据和位图数据同步到所述第二控制器中。
本申请还提供一种双控集群故障恢复的系统,该系统包括:
确定单元,用于确定后发生故障的控制器为第一控制器,确定先发生故障的控制器为第二控制器;
第一恢复单元,用于控制所述第一控制器获取第一内存中的固化信息进行恢复,并将所述第一控制器中的配置信息同步到业务端,以恢复所述业务端的io业务;
第二恢复单元,用于当所述业务端的io业务处理完成后,将所述第一控制器中的固化信息同步到所述第二控制器中,并控制所述第一控制器和所述第二控制器同时恢复业务流程。
可选的,所述第一恢复单元包括:
第一设置子单元,用于将所述业务端的各个模块设置为单控制器处理模式,所述业务端包括位图数据模块、元数据模块、垃圾回收模块中的至少一项;
第一同步子单元,用于将所述第一控制器中的配置信息同步到所述业务端的各个模块,以恢复所述业务端的io业务。
可选的,所述第二恢复单元包括:
第二设置子单元,用于将所述业务端的各个模块设置为双控制器处理模式,并控制所述第一控制器和所述第二控制器同时恢复业务流程。
可选的,所述固化信息包括所述配置信息、元数据和位图数据,所述第二恢复单元包括:
第二同步子单元,用于将所述第一控制器中的配置信息同步到所述第二控制器中,并控制所述第二控制器将第二内存中的元数据和位图数据丢弃;
第三同步子单元,用于令所述第一控制器和所述第二控制器同时中断业务流程,并将所述第一控制器中的元数据和位图数据同步到所述第二控制器中。
本申请还提供一种双控集群故障恢复设备,该双控集群故障恢复设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一项所述双控集群故障恢复的方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述双控集群故障恢复的方法的步骤。
本申请所提供双控集群故障恢复的方法,包括:确定后发生故障的控制器为第一控制器,确定先发生故障的控制器为第二控制器;控制第一控制器获取第一内存中的固化信息进行恢复,并将第一控制器中的配置信息同步到业务端,以恢复业务端的io业务;当业务端的io业务处理完成后,将第一控制器中的固化信息同步到第二控制器中,并控制第一控制器和第二控制器同时恢复业务流程。
本申请所提供的技术方案,通过根据故障发生的先后顺序来确定控制器恢复的先后顺序,由于后发生故障的控制器中存储的固化信息为最新数据,因此先对后发生故障的控制器进行数据恢复,降低了数据恢复的难度;在业务端的io业务处理完成后,将第一控制器中的固化信息同步到第二控制器中,并控制第一控制器和第二控制器同时恢复业务流程,使得此时两个控制器不会因业务端io业务的不同而导致数据不同,进而保证了双控制器集群的两个控制器都出现故障时,恢复的数据在双控间的一致性及可靠性。本申请同时还提供了一种双控集群故障恢复的系统、设备及可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种双控集群故障恢复的方法的流程图;
图2为本申请实施例所提供的一种双控集群故障恢复的系统的结构图;
图3为本申请实施例所提供的一种双控集群故障恢复设备的结构图。
具体实施方式
本申请的核心是提供一种双控集群故障恢复的方法、系统、设备及可读存储介质,用于保证恢复的数据在双控间具有一致性及可靠性。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种双控集群故障恢复的方法的流程图。
其具体包括如下步骤:
S101:确定后发生故障的控制器为第一控制器,确定先发生故障的控制器为第二控制器;
当双控制器集群的两个控制器都出现故障时,现有技术通过同时对两个控制器进行恢复的方法进行双控集群故障恢复,这导致了恢复的两个控制器中此时存储的数据并不相同,进而无法保证恢复的数据在双控间具有一致性及可靠性,故本申请提供了一种双控集群故障恢复的方法,用于解决上述问题;
在本步骤中,通过根据故障发生的先后顺序来确定控制器恢复的先后顺序,即确定后发生故障的控制器为第一控制器,确定先发生故障的控制器为第二控制器,由于后发生故障的控制器中存储的固化信息为最新数据,因此先对后发生故障的控制器进行数据恢复,使得恢复的数据与故障发生之前的数据更为接近,进而降低了数据恢复的难度。
S102:控制第一控制器获取第一内存中的固化信息进行恢复,并将第一控制器中的配置信息同步到业务端,以恢复业务端的io业务;
这里提到的固化信息为业务端模块的固化信息,集群在故障之前记录下集群最后工作的固化信息,用于实现业务端io业务的执行,这里提到的第一内存即为存储第一控制器的固化信息的内存。
可选的,在一个具体实施例中,还可以将存储系统的配置端和业务端分离,在系统初始化时,将内存会划分出一块特定的区域用于存储固化信息,固化信息即使故障也不会丢失,在集群故障重启的时候会将自己的数据记录到内存中。
可选的,为了进一步降低数据恢复的难度,这里提到的将第一控制器中的配置信息同步到业务端,以恢复业务端的io业务,其具体可以为:
将业务端的各个模块设置为单控制器处理模式,业务端包括位图数据模块、元数据模块、垃圾回收模块中的至少一项;
将第一控制器中的配置信息同步到业务端的各个模块,以恢复业务端的io业务。
由于双控制器集群有两种工作模式,两个控制器同时对外提供业务,两个控制器互为主备,一个控制器出现故障后,将其上的业务切换到另一个控制器上,但由于二者都出现故障时无法实现两个控制器之间的信息同步,因此本申请实施例先将业务端的各个模块设置为单控制器处理模式,然后将第一控制器中的配置信息同步到业务端的各个模块,以恢复业务端的io业务,在io业务执行完成之后,再对第二控制器进行数据恢复,进而避免了恢复的数据在双控间不具有一致性及可靠性。
S103:当业务端的io业务处理完成后,将第一控制器中的固化信息同步到第二控制器中,并控制第一控制器和第二控制器同时恢复业务流程。
可选的,在上述实施例的基础上,在一个具体实施例中,为了进一步降低数据恢复的难度,这里提到的控制第一控制器和第二控制器同时恢复业务流程,其具体可以为:
将业务端的各个模块设置为双控制器处理模式,并控制第一控制器和第二控制器同时恢复业务流程。
可选的,这里提到的固化信息可以包括配置信息、元数据和位图数据,这里提到的将第一控制器中的固化信息同步到第二控制器中,其具体可以为:
将第一控制器中的配置信息同步到第二控制器中,并控制第二控制器将第二内存中的元数据和位图数据丢弃;
令第一控制器和第二控制器同时中断业务流程,并将第一控制器中的元数据和位图数据同步到第二控制器中。
可选的,在一个具体实施例中,这里提到的,将第一控制器中的固化信息同步到第二控制器中,其具体也可也为:
第二控制器通过线路通信的方式直接从第一控制器中同步固化信息。
基于上述技术方案,本申请所提供的一种双控集群故障恢复的方法,通过根据故障发生的先后顺序来确定控制器恢复的先后顺序,由于后发生故障的控制器中存储的固化信息为最新数据,因此先对后发生故障的控制器进行数据恢复,降低了数据恢复的难度;在业务端的io业务处理完成后,将第一控制器中的固化信息同步到第二控制器中,并控制第一控制器和第二控制器同时恢复业务流程,使得此时两个控制器不会因业务端io业务的不同而导致数据不同,进而保证了双控制器集群的两个控制器都出现故障时,恢复的数据在双控间的一致性及可靠性。
请参考图2,图2为本申请实施例所提供的一种双控集群故障恢复的系统的结构图。
该系统可以包括:
确定单元100,用于确定后发生故障的控制器为第一控制器,确定先发生故障的控制器为第二控制器;
第一恢复单元200,用于控制第一控制器获取第一内存中的固化信息进行恢复,并将第一控制器中的配置信息同步到业务端,以恢复业务端的io业务;
第二恢复单元300,用于当业务端的io业务处理完成后,将第一控制器中的固化信息同步到第二控制器中,并控制第一控制器和第二控制器同时恢复业务流程。
在上述实施例的基础上,在一个具体实施例中,第一恢复单元200可以包括:
第一设置子单元,用于将业务端的各个模块设置为单控制器处理模式,业务端包括位图数据模块、元数据模块、垃圾回收模块中的至少一项;
第一同步子单元,用于将第一控制器中的配置信息同步到业务端的各个模块,以恢复业务端的io业务。
在上述实施例的基础上,在一个具体实施例中,第二恢复单元300可以包括:
第二设置子单元,用于将业务端的各个模块设置为双控制器处理模式,并控制第一控制器和第二控制器同时恢复业务流程。
在上述实施例的基础上,在一个具体实施例中,固化信息包括配置信息、元数据和位图数据,第二恢复单元300可以包括:
第二同步子单元,用于将第一控制器中的配置信息同步到第二控制器中,并控制第二控制器将第二内存中的元数据和位图数据丢弃;
第三同步子单元,用于令第一控制器和第二控制器同时中断业务流程,并将第一控制器中的元数据和位图数据同步到第二控制器中。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
请参考图3,图3为本申请实施例所提供的一种双控集群故障恢复设备的结构图。
该双控集群故障恢复设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上单元(图示没标出),每个单元可以包括对装置中的一系列指令操作。更进一步地,处理器422可以设置为与存储介质430通信,在双控集群故障恢复设备400上执行存储介质430中的一系列指令操作。
双控集群故障恢复设备400还可以包括一个或一个以上电源424,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述图1所描述的双控集群故障恢复的方法中的步骤由双控集群故障恢复设备基于该图3所示的结构实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,功能调用装置,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本申请所提供的一种双控集群故障恢复的方法、系统、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种双控集群故障恢复的方法,其特征在于,包括:
确定后发生故障的控制器为第一控制器,确定先发生故障的控制器为第二控制器;
控制所述第一控制器获取第一内存中的固化信息进行恢复,并将所述第一控制器中的配置信息同步到业务端,以恢复所述业务端的io业务;
当所述业务端的io业务处理完成后,将所述第一控制器中的固化信息同步到所述第二控制器中,并控制所述第一控制器和所述第二控制器同时恢复业务流程。
2.根据权利要求1所述的方法,其特征在于,将所述第一控制器中的配置信息同步到业务端,以恢复所述业务端的io业务,包括:
将所述业务端的各个模块设置为单控制器处理模式,所述业务端包括位图数据模块、元数据模块、垃圾回收模块中的至少一项;
将所述第一控制器中的配置信息同步到所述业务端的各个模块,以恢复所述业务端的io业务。
3.根据权利要求2所述的方法,其特征在于,控制所述第一控制器和所述第二控制器同时恢复业务流程,包括:
将所述业务端的各个模块设置为双控制器处理模式,并控制所述第一控制器和所述第二控制器同时恢复业务流程。
4.根据权利要求1所述的方法,其特征在于,所述固化信息包括所述配置信息、元数据和位图数据,将所述第一控制器中的固化信息同步到所述第二控制器中,包括:
将所述第一控制器中的配置信息同步到所述第二控制器中,并控制所述第二控制器将第二内存中的元数据和位图数据丢弃;
令所述第一控制器和所述第二控制器同时中断业务流程,并将所述第一控制器中的元数据和位图数据同步到所述第二控制器中。
5.一种双控集群故障恢复的系统,其特征在于,包括:
确定单元,用于确定后发生故障的控制器为第一控制器,确定先发生故障的控制器为第二控制器;
第一恢复单元,用于控制所述第一控制器获取第一内存中的固化信息进行恢复,并将所述第一控制器中的配置信息同步到业务端,以恢复所述业务端的io业务;
第二恢复单元,用于当所述业务端的io业务处理完成后,将所述第一控制器中的固化信息同步到所述第二控制器中,并控制所述第一控制器和所述第二控制器同时恢复业务流程。
6.根据权利要求5所述的系统,其特征在于,所述第一恢复单元包括:
第一设置子单元,用于将所述业务端的各个模块设置为单控制器处理模式,所述业务端包括位图数据模块、元数据模块、垃圾回收模块中的至少一项;
第一同步子单元,用于将所述第一控制器中的配置信息同步到所述业务端的各个模块,以恢复所述业务端的io业务。
7.根据权利要求6所述的系统,其特征在于,所述第二恢复单元包括:
第二设置子单元,用于将所述业务端的各个模块设置为双控制器处理模式,并控制所述第一控制器和所述第二控制器同时恢复业务流程。
8.根据权利要求5所述的系统,其特征在于,所述固化信息包括所述配置信息、元数据和位图数据,所述第二恢复单元包括:
第二同步子单元,用于将所述第一控制器中的配置信息同步到所述第二控制器中,并控制所述第二控制器将第二内存中的元数据和位图数据丢弃;
第三同步子单元,用于令所述第一控制器和所述第二控制器同时中断业务流程,并将所述第一控制器中的元数据和位图数据同步到所述第二控制器中。
9.一种双控集群故障恢复设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述双控集群故障恢复的方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述双控集群故障恢复的方法的步骤。
CN202011033849.0A 2020-09-27 2020-09-27 一种双控集群故障恢复的方法、系统及设备 Active CN111984474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011033849.0A CN111984474B (zh) 2020-09-27 2020-09-27 一种双控集群故障恢复的方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011033849.0A CN111984474B (zh) 2020-09-27 2020-09-27 一种双控集群故障恢复的方法、系统及设备

Publications (2)

Publication Number Publication Date
CN111984474A true CN111984474A (zh) 2020-11-24
CN111984474B CN111984474B (zh) 2022-08-19

Family

ID=73450577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011033849.0A Active CN111984474B (zh) 2020-09-27 2020-09-27 一种双控集群故障恢复的方法、系统及设备

Country Status (1)

Country Link
CN (1) CN111984474B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391955A (zh) * 2021-06-17 2021-09-14 浪潮思科网络科技有限公司 一种sdn控制器的故障恢复方法、设备及介质
CN113868246A (zh) * 2021-06-30 2021-12-31 苏州浪潮智能科技有限公司 存储系统中位图同步方法、系统、装置及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103746841A (zh) * 2013-12-30 2014-04-23 华为技术有限公司 故障恢复的方法及控制器
CN106331081A (zh) * 2016-08-19 2017-01-11 浪潮(北京)电子信息产业有限公司 一种信息同步方法及装置
CN106326042A (zh) * 2016-08-19 2017-01-11 浪潮(北京)电子信息产业有限公司 一种运行状态确定方法及装置
CN109165112A (zh) * 2018-08-16 2019-01-08 郑州云海信息技术有限公司 一种元数据集群的故障恢复方法、系统及相关组件
CN110673978A (zh) * 2019-09-29 2020-01-10 苏州浪潮智能科技有限公司 一种双控集群掉电后的数据恢复方法及相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103746841A (zh) * 2013-12-30 2014-04-23 华为技术有限公司 故障恢复的方法及控制器
CN106331081A (zh) * 2016-08-19 2017-01-11 浪潮(北京)电子信息产业有限公司 一种信息同步方法及装置
CN106326042A (zh) * 2016-08-19 2017-01-11 浪潮(北京)电子信息产业有限公司 一种运行状态确定方法及装置
CN109165112A (zh) * 2018-08-16 2019-01-08 郑州云海信息技术有限公司 一种元数据集群的故障恢复方法、系统及相关组件
CN110673978A (zh) * 2019-09-29 2020-01-10 苏州浪潮智能科技有限公司 一种双控集群掉电后的数据恢复方法及相关装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391955A (zh) * 2021-06-17 2021-09-14 浪潮思科网络科技有限公司 一种sdn控制器的故障恢复方法、设备及介质
CN113868246A (zh) * 2021-06-30 2021-12-31 苏州浪潮智能科技有限公司 存储系统中位图同步方法、系统、装置及可读存储介质
CN113868246B (zh) * 2021-06-30 2024-01-19 苏州浪潮智能科技有限公司 存储系统中位图同步方法、系统、装置及可读存储介质

Also Published As

Publication number Publication date
CN111984474B (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
US9575849B2 (en) Synchronized backup and recovery of database systems
US9235632B1 (en) Synchronization of replication
US10042579B1 (en) Crash consistent snapshot
US8806274B1 (en) Snapshot assisted synchronous replication
US9235481B1 (en) Continuous data replication
US8850144B1 (en) Active replication switch
US9256605B1 (en) Reading and writing to an unexposed device
US8521694B1 (en) Leveraging array snapshots for immediate continuous data protection
US10565071B2 (en) Smart data replication recoverer
JP4484618B2 (ja) ディザスタリカバリシステム、プログラム及びデータの複製方法
US9672117B1 (en) Method and system for star replication using multiple replication technologies
US11080148B2 (en) Method and system for star replication using multiple replication technologies
US20140258241A1 (en) Zero and near-zero data loss database backup and recovery
WO2014059804A1 (zh) 数据同步方法及系统
CN105069160A (zh) 一种基于自主可控数据库的高可用性方法及构架
CN111984474B (zh) 一种双控集群故障恢复的方法、系统及设备
CN105677516A (zh) 一种计算靠近存储云平台中高效可靠的备份恢复方法
US9367409B2 (en) Method and system for handling failures by tracking status of switchover or switchback
US7979396B1 (en) System and method for performing consistent resynchronization between synchronized copies
WO2017014814A1 (en) Replicating memory volumes
CN116680256B (zh) 数据库节点升级方法、装置和计算机设备
US10078558B2 (en) Database system control method and database system
US10210056B2 (en) Methods for filesystem metadata caching to improve failover performance and devices thereof
CN108984346B (zh) 一种生产数据容灾的方法、系统及存储介质
WO2023019953A1 (zh) 数据同步方法、系统、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant