CN111984475A - 故障处理方法、装置、设备及介质 - Google Patents

故障处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN111984475A
CN111984475A CN202010868462.0A CN202010868462A CN111984475A CN 111984475 A CN111984475 A CN 111984475A CN 202010868462 A CN202010868462 A CN 202010868462A CN 111984475 A CN111984475 A CN 111984475A
Authority
CN
China
Prior art keywords
controller
recovered
target
target parameter
recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010868462.0A
Other languages
English (en)
Inventor
刘文志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010868462.0A priority Critical patent/CN111984475A/zh
Publication of CN111984475A publication Critical patent/CN111984475A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • G06F11/2092Techniques of failing over between control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/82Solving problems relating to consistency

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种统一存储设备节点故障处理方法、装置、设备、介质,该方法包括:获取目标统一存储设备的集群管理模块下发的节点恢复事件;获取所述节点恢复事件对应的待恢复控制器中的目标参数,其中,所述目标参数包括第一目标参数和第二目标参数,所述第一目标参数用于记录所述待恢复控制器的故障信息,所述第二目标参数用于记录参考控制器的故障信息,所述参考控制器为所述待恢复控制器所属控制组中的另一个控制器;根据所述目标参数对所述待恢复控制器进行服务恢复。这样能够对统一控制器组中双控制器节点故障恢复进行正常处理,以保证所述待恢复控制器恢复之后的数据一致性。

Description

故障处理方法、装置、设备及介质
技术领域
本申请涉及存储技术领域,特别涉及一种统一存储设备节点故障处理方法、装置、设备、介质。
背景技术
参见图1所示,为当前统一存储设备的结构示意图。当前的统一存储设备通常都由多个控制器组成冗余结构,最常用的方式为两个控制器(即两个Node)组成一个控制器组IoGroup,进而再由多个IoGroup组成最终的多控集群。
在图1所示的架构下,由于掉电、业务故障等原因,有可能出现同一个IoGroup中两个节点都因为故障退出的场景,例如一个节点故障后引发另一个节点故障,或者因掉电使得两节点同时断电退出集群等,这种场景下由于同一个IoGroup中会出现两个node都不在的场景,因而故障前数据的保存以及节点重新加入时数据的恢复流程就变得尤其重要。也即,如何处理故障退出之后重新加入的控制器节点,以便保障控制器节点重新加入之后数据与故障前数据的一致性是本领域技术人员要解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种统一存储设备节点故障处理方法、装置、设备、介质,能够对统一控制器组中双控制器节点故障恢复进行正常处理,保证故障恢复控制器节点的数据一致性。其具体方案如下:
第一方面,本申请公开了一种统一存储设备节点故障处理方法,应用于预设的节点事件处理模块,包括:
获取目标统一存储设备的集群管理模块下发的节点恢复事件,其中,所述目标统一存储设备包括多个控制器组,每个多控制器组包括两个控制器,所述集群管理模块为所述目标统一存储设备的事件管理模块,所述节点事件处理模块为所述集群管理模块的子模块,用于管理所述目标统一存储设备中的部分控制器组;
获取所述节点恢复事件对应的待恢复控制器中的目标参数,其中,所述目标参数包括第一目标参数和第二目标参数,所述第一目标参数用于记录所述待恢复控制器的故障信息,所述第二目标参数用于记录参考控制器的故障信息,所述参考控制器为所述待恢复控制器所属控制组中的另一个控制器;
根据所述目标参数对所述待恢复控制器进行服务恢复。
可选的,所述根据所述目标参数对所述待恢复控制器进行服务恢复,包括:
如果所述目标参数中的第一目标参数和第二目标参数均为第一预设值,则确定所述参考控制器的运行状态;
如果所述参考控制器处于正常运行中,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述参考控制器中同步目标配置数据,以进行服务恢复。
可选的,所述确定所述参考控制器的运行状态之后,还包括:
获取所述参考控制器中的第三目标参数和第四目标参数,其中,第三目标参数用于记录所述待恢复控制器的故障信息,所述第四目标参数用于记录所述参考控制器的故障信息;
根据所述第三目标参数和第四目标参数对所述待恢复控制器进行服务恢复。
可选的,所述根据所述第三目标参数和第四目标参数对所述待恢复控制器进行服务恢复,包括:
如果所述第三目标参数和所述第四目标参数均为所述第一预设值,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述待恢复控制器的预设存储区域读取目标配置数据,以进行服务恢复。
可选的,所述根据所述第三目标参数和第四目标参数对所述待恢复控制器进行服务恢复,包括:
如果所述第三目标参数为第二预设值,且所述第四目标参数为所述第一预设值,则向所述待恢复控制器下发恢复信息,以便限制所述待恢复控制器的服务恢复,直到所述参考控制器的服务恢复,则对所述待恢复控制器进行服务恢复。
可选的,所述根据所述目标参数对所述待恢复控制器进行服务恢复,包括:
如果所述目标参数中的第一目标参数为第一预设值,且所述第二目标参数为第二预设值,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述待恢复控制器的预设存储区域读取目标配置数据,以进行服务恢复。
第二方面,本申请公开了一种统一存储设备节点故障处理装置,应用于预设的节点事件处理模块,包括:
第一信息获取单元,用于获取目标统一存储设备的集群管理模块下发的节点恢复事件,其中,所述目标统一存储设备包括多个控制器组,每个多控制器组包括两个控制器,所述集群管理模块为所述目标统一存储设备的事件管理模块,所述节点事件处理模块为所述集群管理模块的子模块,用于管理所述目标统一存储设备中的部分控制器组;
第二信息获取单元,用于获取所述节点恢复事件对应的待恢复控制器中的目标参数,其中,所述目标参数包括第一目标参数和第二目标参数,所述第一目标参数用于记录所述待恢复控制器的故障信息,所述第二目标参数用于记录参考控制器的故障信息,所述参考控制器为所述待恢复控制器所属控制组中的另一个控制器;
恢复处理单元,用于根据所述目标参数对所述待恢复控制器进行服务恢复。
可选的,所述恢复处理单元,用于:
在所述目标参数中的第一目标参数和第二目标参数均为第一预设值时,则确定所述参考控制器的运行状态;
如果所述参考控制器处于正常运行中,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述参考控制器中同步目标配置数据,以进行服务恢复。
第三方面,本申请公开了一种电子设备,包括:
存储器和处理器;
其中,所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以实现前述公开的统一存储设备节点故障处理方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的统一存储设备节点故障处理方法。
可见,本申请先获取目标统一存储设备的集群管理模块下发的节点恢复事件,其中,所述目标统一存储设备包括多个控制器组,每个控制器组包括两个控制器,所述集群管理模块为所述目标统一存储设备的事件管理模块,所述节点事件处理模块为所述集群管理模块的子模块,用于管理所述目标统一存储设备中的部分控制器组,然后获取所述节点恢复事件对应的待恢复控制器中的目标参数,其中,所述目标参数包括第一目标参数和第二目标参数,所述第一目标参数用于记录所述待恢复控制器的故障信息,所述第二目标参数用于记录参考控制器的故障信息,所述参考控制器为所述待恢复控制器所属控制组中的另一个控制器,接着便可以根据所述目标参数对所述待恢复控制器进行服务恢复。由此可见,本申请在获取到集群管理模块下发的节点恢复事件之后,便获取所述节点恢复事件对应的待恢复控制器中存储的目标参数,根据所述目标参数便可以确定出所述待恢复控制器所属控制器组中两个控制器的故障情况,从而确定出所述待恢复控制器所属控制器组中哪个控制器的配置数据为最新配置数据,然后便可以根据所述目标参数对所述待恢复控制器进行服务恢复,以保证所述待恢复控制器恢复之后的数据一致性,且在同一个控制器中的两个控制器都需要故障恢复时,也能够根据目标参数进行故障恢复,以便能够对统一控制器组中双控制器节点故障恢复进行正常处理。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为现有的统一存储设备结构示意图;
图2为本申请公开的一种统一存储设备节点故障处理方法流程图;
图3为本申请公开的一种具体的统一存储设备节点故障处理方法流程图;
图4为本申请公开的一种统一存储设备节点故障处理装置结构示意图;
图5为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图2所示,本申请实施例公开了一种统一存储设备节点故障处理方法,应用于预设的节点事件处理模块,该方法包括:
步骤S11:获取目标统一存储设备的集群管理模块下发的节点恢复事件,其中,所述目标统一存储设备包括多个控制器组,每个控制器组包括两个控制器,所述集群管理模块为所述目标统一存储设备的事件管理模块,所述节点事件处理模块为所述集群管理模块的子模块,用于管理所述目标统一存储设备中的部分控制器组。
在具体的实施过程中,统一存储设备节点故障处理中一般包括多个控制器组,每个控制器组又包括两个控制器,由此组成一个多控制器集群,通常会设置一个集群管理模块,以便对各个控制器组中的控制器进行集群级的控制,负责识别相应的节点加入/退出场景。在各个业务模块内部又设置节点事件处理模块,将节点事件处理模块作为所述集群管理模块的子模块,在接收到集群管理模块发送的节点恢复事件之后,处理业务模块内部各个控制器组中各个控制器具体的加入/退出场景。
可以理解的是,在实际应用中,需要先获取目标统一存储设备的集群管理模块下发的节点恢复事件,其中,所述目标统一存储设备包括多个控制器组,每个控制器组包括两个控制器,所述集群管理模块为所述目标统一存储设备的事件管理模块,所述节点事件处理模块为所述集群管理模块的子模块,用于管理所述目标统一存储设备中的部分控制器组。在获取到所述节点恢复事件之后,便可以相应的确定待恢复控制器,以便对所述待恢复控制器的恢复事件进行相应的处理。
步骤S12:获取所述节点恢复事件对应的待恢复控制器中的目标参数,其中,所述目标参数包括第一目标参数和第二目标参数,所述第一目标参数用于记录所述待恢复控制器的故障信息,所述第二目标参数用于记录参考控制器的故障信息,所述参考控制器为所述待恢复控制器所属控制组中的另一个控制器。
在获取到所述节点恢复事件之后,还需要获取所述节点恢复事件对应的待恢复控制器中的目标参数,其中,所述目标参数包括第一目标参数和第二目标参数,所述第一目标参数用于记录所述待恢复控制器的故障信息,所述第二目标参数用于记录参考控制器的故障信息,所述参考控制器为所述待恢复控制器所属控制组中的另一个控制器。具体的,就是获取所述节点恢复事件对应的待恢复控制器中的目标参数,以便确定所述待恢复控制器中包括的配置数据是否为所述待恢复控制器所处的控制器组的最新配置数据,以便根据最新配置参数进行服务恢复。其中,配置数据为控制器故障退出集群式,通过控制器的掉电保护机制将目标配置数据存储到节点的预设存储区域得到的。
具体的,在控制器故障恢复时,首先就面临故障前数据恢复的问题,因此首先需要制定相应的数据存储机制。在所述数据存储机制中,对重要的数据进行统一管理,设定掉电保护数据,其中,所述重要数据可以包含业务模块内重要的配置参数、基本信息以及其他的数据等,在业务正常运行时,将所述重要的数据在内存中进行独立管理。当出现两个控制器故障时,可以利用掉电保护机制完成对所述重要的数据的存储,使得两个控制器故障后,相应数据能够保存在非易失的存储介质中。同时,在两个控制器重新恢复后,可以在第一时间重新将所述重要的数据获取出来,作为配置数据,以备下面的恢复流程中使用。
在具体的实施过程中,可以在每个控制器组的两个控制器中都设置目标参数,用于记录当前控制器组的两个控制器的故障信息。所述目标参数又可以包括两个参数,一个参数表示一个控制器的故障信息,例如,第一参数表示当前控制器组中第一控制器的故障信息,第二参数表示当前控制器组中第二控制器的故障信息。
例如,以一个二进制位来表示一个节点是否在线。以双控的场景为例,即可以以两个二进制位表示两个控制器的在线情况。在两个控制器都保存这个两个二进制位,一个控制器对应一个二进制位,例如,第一控制器对应第一个二进制位,第二控制器对应第二个二进制位。当两个控制器都正常工作时,可以将该参数表示为11,当一个控制器退出时,另一个控制器可以正常处理该退出流程,也即将该参数中对应二进制位清0,即变为了10或者01,具体的,当第一控制器故障退出时,第二控制器正常时,第二控制器将自身存储的该参数更新为01。当第二控制器故障退出时,第一控制器正常时,第一控制器将自身存储的该参数更新为10。当一个控制器先故障退出后,另外一个控制器也故障退出集群时,由于该控制器组中没有了存活节点,因而不会再有相关的处理流程,后退出的那个控制器中的参数继续为10或01。为1的一位对应的控制器中包括的配置数据为最新配置数据。同理,对于两个控制器同时故障退出,则该退出流程已经没有存活控制器进行处理,所以该控制器组中两个控制器中的参数为11的状态得以保留,因此可以认为两个控制器同时保存了最新配置数据。
步骤S13:根据所述目标参数对所述待恢复控制器进行服务恢复。
在获取到所述目标参数之后,便可以根据所述目标参数对所述待恢复控制器进行服务恢复。具体的,就是根据所述目标参数确定所述待恢复控制器中存储的配置数据是否为所述待恢复控制器所属控制组的最新配置数据,然后根据判定数据进行相应的服务恢复处理。
可见,本申请先获取目标统一存储设备的集群管理模块下发的节点恢复事件,其中,所述目标统一存储设备包括多个控制器组,每个控制器组包括两个控制器,所述集群管理模块为所述目标统一存储设备的事件管理模块,所述节点事件处理模块为所述集群管理模块的子模块,用于管理所述目标统一存储设备中的部分控制器组,然后获取所述节点恢复事件对应的待恢复控制器中的目标参数,其中,所述目标参数包括第一目标参数和第二目标参数,所述第一目标参数用于记录所述待恢复控制器的故障信息,所述第二目标参数用于记录参考控制器的故障信息,所述参考控制器为所述待恢复控制器所属控制组中的另一个控制器,接着便可以根据所述目标参数对所述待恢复控制器进行服务恢复。由此可见,本申请在获取到集群管理模块下发的节点恢复事件之后,便获取所述节点恢复事件对应的待恢复控制器中存储的目标参数,根据所述目标参数便可以确定出所述待恢复控制器所属控制器组中两个控制器的故障情况,从而确定出所述待恢复控制器所属控制器组中哪个控制器的配置数据为最新配置数据,然后便可以根据所述目标参数对所述待恢复控制器进行服务恢复,以保证所述待恢复控制器恢复之后的数据一致性,且在同一个控制器中的两个控制器都需要故障恢复时,也能够根据目标参数进行故障恢复,以便能够对统一控制器组中双控制器节点故障恢复进行正常处理。
参见图3所示,本申请实施例公开了一种具体的统一存储设备节点故障处理方法,应用于预设的节点事件处理模块,该方法包括:
步骤S21:获取目标统一存储设备的集群管理模块下发的节点恢复事件,其中,所述目标统一存储设备包括多个控制器组,每个多控制器组包括两个控制器,所述集群管理模块为所述目标统一存储设备的事件管理模块,所述节点事件处理模块为所述集群管理模块的子模块,用于管理所述目标统一存储设备中的部分控制器组。
步骤S22:获取所述节点恢复事件对应的待恢复控制器中的目标参数,其中,所述目标参数包括第一目标参数和第二目标参数,所述第一目标参数用于记录所述待恢复控制器的故障信息,所述第二目标参数用于记录参考控制器的故障信息,所述参考控制器为所述待恢复控制器所属控制组中的另一个控制器。
步骤S21和步骤S22的具体实施过程可以参考前述实施例中公开的内容,在此不再进行赘述。
步骤S23:如果所述目标参数中的第一目标参数和第二目标参数均为第一预设值,则确定所述参考控制器的运行状态。
在获取到所述目标参数之后,还需要根据所述目标参数对所述待恢复控制器进行服务恢复。也即,根据所述目标参数确定所述待恢复控制器中预先存储的配置数据是否为所述待恢复控制器所属控制器组的最新配置数据,以便根据最新配置数据进行所述待恢复控制器的服务恢复。
具体的,如果所述第一目标参数和所述第二目标参数均为第一预设值,则表示待恢复控制器和所述参考控制器同时故障退出集群,或者所述待恢复控制器在所述参考控制器之前故障退出了集群。所以需要先确定所述参考控制器的运行状态,以便确定所述待恢复控制器需要根据自身存储的配置数据来进行服务恢复,还是需要根据所述参考控制器中存储的配置数据来进行服务恢复。其中,所述第一预设值可以为1。
步骤S24:如果所述参考控制器处于正常运行中,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述参考控制器中同步目标配置数据,以进行服务恢复。
如果所述参考控制器处于正常运行中,表明所述参考控制器可能没有故障退出集群,或者在所述参考控制器和所述待恢复控制器同时故障退出集群之后,所述参考控制器在所述待恢复控制器之前,已经故障恢复成功,或者,所述参考控制器在所述待恢复控制器之后故障退出集群,但在所述待恢复控制器进行故障恢复之前已经进行了故障恢复,所以所述参考控制器中存储的配置数据为该控制器组中的最新配置数据,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述参考控制器中同步目标配置数据,以进行服务恢复。
如果所述参考控制器处于故障中,或所述参考控制器处于故障恢复中,则获取所述参考控制器中的第三目标参数和第四目标参数,其中,第三目标参数用于记录所述待恢复控制器的故障信息,所述第四目标参数用于记录所述参考控制器的故障信息;根据所述第三目标参数和第四目标参数对所述待恢复控制器进行服务恢复。
具体的,如果所述参考控制器处于故障中,或所述参考控制器处于故障恢复中,可能所述参考控制器和所述待恢复控制器同时故障退出集群,但所述参考控制器还没有完成故障恢复,或者所述待恢复控制器在所述参考控制器之前故障退出集群,且所述参考控制器还没有完成故障恢复,所以需要确定所述待恢复控制器中的配置数据是否为该控制器组中的最新配置数据,则需要获取所述参考控制器中的第三目标参数和第四目标参数,其中,第三目标参数用于记录所述待恢复控制器的故障信息,所述第四目标参数用于记录所述参考控制器的故障信息,然后根据所述第三目标参数和第四目标参数对所述待恢复控制器进行服务恢复。
具体的,在所述参考控制器处于故障中,或所述参考控制器处于故障恢复中时,如果所述第三目标参数和所述第四目标参数均为所述第一预设值,则所述参考控制器和所述待恢复控制器同时故障退出集群,且所述参考控制器还没有恢复正常服务,所以所述待恢复控制器中存储的配置数据也是该控制器组的最新配置数据,则可以向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述待恢复控制器自身的预设存储区域读取目标配置数据,以进行服务恢复。
如果所述第三目标参数为第二预设值,且所述第四目标参数为所述第一预设值,则向所述待恢复控制器下发恢复信息,以便限制所述待恢复控制器的服务恢复,直到所述参考控制器的服务恢复,则对所述待恢复控制器进行服务恢复。
具体的,在所述参考控制器处于故障中,或所述参考控制器处于故障恢复中时,如果所述第三目标参数为第二预设值,且所述第四目标参数为所述第一预设值,表明所述待恢复控制器在所述参考控制器之前就故障退出集群了,且所述参考控制器还未恢复正常服务,所以所述待恢复控制器中存储的配置数据便不是该控制器组的最新配置数据,所以需要先限制所述待恢复控制器的故障恢复流程,也即向所述待恢复控制器下发恢复限制信息,以便限制所述待恢复控制器的服务恢复,直到所述参考控制器的服务恢复,则对所述待恢复控制器进行服务恢复。也即,在所述参考控制器服务恢复之后,同步所述参考控制器中的配置数据以进行所述待恢复控制器的故障恢复。
如果所述目标参数中的第一目标参数为第一预设值,且所述第二目标参数为第二预设值,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述待恢复控制器的预设存储区域读取目标配置数据,以进行服务恢复。
当所述第一目标参数为第一预设值,且所述第二目标参数为第二预设值,表明所述待恢复控制器在所述参考控制器之后故障退出集群,又因为在后故障退出的控制器服务恢复之前,先故障退出的控制器不能进行服务恢复,所以所述待恢复控制器中存储的配置数据为该控制器组的最新配置数据,则可以向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述待恢复控制器自身的预设存储区域读取目标配置数据,以进行服务恢复。
参见图4所示,本申请实施例公开了一种统一存储设备节点故障处理装置,应用于预设的节点事件处理模块,包括:
第一信息获取单元11,用于获取目标统一存储设备的集群管理模块下发的节点恢复事件,其中,所述目标统一存储设备包括多个控制器组,每个控制器组包括两个控制器,所述集群管理模块为所述目标统一存储设备的事件管理模块,所述节点事件处理模块为所述集群管理模块的子模块,用于管理所述目标统一存储设备中的部分控制器组;
第二信息获取单元12,用于获取所述节点恢复事件对应的待恢复控制器中的目标参数,其中,所述目标参数包括第一目标参数和第二目标参数,所述第一目标参数用于记录所述待恢复控制器的故障信息,所述第二目标参数用于记录参考控制器的故障信息,所述参考控制器为所述待恢复控制器所属控制组中的另一个控制器;
恢复处理单元13,用于根据所述目标参数对所述待恢复控制器进行服务恢复。
可见,本申请先获取目标统一存储设备的集群管理模块下发的节点恢复事件,其中,所述目标统一存储设备包括多个控制器组,每个控制器组包括两个控制器,所述集群管理模块为所述目标统一存储设备的事件管理模块,所述节点事件处理模块为所述集群管理模块的子模块,用于管理所述目标统一存储设备中的部分控制器组,然后获取所述节点恢复事件对应的待恢复控制器中的目标参数,其中,所述目标参数包括第一目标参数和第二目标参数,所述第一目标参数用于记录所述待恢复控制器的故障信息,所述第二目标参数用于记录参考控制器的故障信息,所述参考控制器为所述待恢复控制器所属控制组中的另一个控制器,接着便可以根据所述目标参数对所述待恢复控制器进行服务恢复。由此可见,本申请在获取到集群管理模块下发的节点恢复事件之后,便获取所述节点恢复事件对应的待恢复控制器中存储的目标参数,根据所述目标参数便可以确定出所述待恢复控制器所属控制器组中两个控制器的故障情况,从而确定出所述待恢复控制器所属控制器组中哪个控制器的配置数据为最新配置数据,然后便可以根据所述目标参数对所述待恢复控制器进行服务恢复,以保证所述待恢复控制器恢复之后的数据一致性,且在同一个控制器中的两个控制器都需要故障恢复时,也能够根据目标参数进行故障恢复,以便能够对统一控制器组中双控制器节点故障恢复进行正常处理。
具体的,所述恢复处理单元13,用于:
如果所述目标参数中的第一目标参数和第二目标参数均为第一预设值,则确定所述参考控制器的运行状态;
如果所述参考控制器处于正常运行中,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述参考控制器中同步目标配置数据,以进行服务恢复。
具体的,所述恢复处理单元13,用于:
如果所述参考控制器处于故障中,或所述参考控制器处于故障恢复中,则
获取所述参考控制器中的第三目标参数和第四目标参数,其中,第三目标参数用于记录所述待恢复控制器的故障信息,所述第四目标参数用于记录所述参考控制器的故障信息;
根据所述第三目标参数和第四目标参数对所述待恢复控制器进行服务恢复。
具体的,所述恢复处理单元13,用于:
如果所述第三目标参数和所述第四目标参数均为所述第一预设值,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述待恢复控制器的预设存储区域读取目标配置数据,以进行服务恢复。
进一步的,所述恢复处理单元13,用于:
如果所述第三目标参数为第二预设值,且所述第四目标参数为所述第一预设值,则向所述待恢复控制器下发恢复信息,以便限制所述待恢复控制器的服务恢复,直到所述参考控制器的服务恢复,则对所述待恢复控制器进行服务恢复。
具体的,所述恢复处理单元13,用于:
如果所述目标参数中的第一目标参数为第一预设值,且所述第二目标参数为第二预设值,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述待恢复控制器的预设存储区域读取目标配置数据,以进行服务恢复。
进一步的,参见图5所示,本申请实施例还公开了一种电子设备,包括:处理器21和存储器22。
其中,所述存储器22,用于存储计算机程序;所述处理器21,用于执行所述计算机程序,以实现前述实施例中公开的统一存储设备节点故障处理方法。
其中,关于上述统一存储设备节点故障处理方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步的,本申请实施例还公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述任一实施例中公开的统一存储设备节点故障处理方法。
其中,关于上述统一存储设备节点故障处理方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得一系列包含其他要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种统一存储设备节点故障处理方法、装置、设备、介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种统一存储设备节点故障处理方法,其特征在于,应用于预设的节点事件处理模块,包括:
获取目标统一存储设备的集群管理模块下发的节点恢复事件,其中,所述目标统一存储设备包括多个控制器组,每个控制器组包括两个控制器,所述集群管理模块为所述目标统一存储设备的事件管理模块,所述节点事件处理模块为所述集群管理模块的子模块,用于管理所述目标统一存储设备中的部分控制器组;
获取所述节点恢复事件对应的待恢复控制器中的目标参数,其中,所述目标参数包括第一目标参数和第二目标参数,所述第一目标参数用于记录所述待恢复控制器的故障信息,所述第二目标参数用于记录参考控制器的故障信息,所述参考控制器为所述待恢复控制器所属控制组中的另一个控制器;
根据所述目标参数对所述待恢复控制器进行服务恢复。
2.根据权利要求1所述的统一存储设备节点故障处理方法,其特征在于,所述根据所述目标参数对所述待恢复控制器进行服务恢复,包括:
如果所述目标参数中的第一目标参数和第二目标参数均为第一预设值,则确定所述参考控制器的运行状态;
如果所述参考控制器处于正常运行中,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述参考控制器中同步目标配置数据,以进行服务恢复。
3.根据权利要求2所述的统一存储设备节点故障处理方法,其特征在于,所述确定所述参考控制器的运行状态之后,还包括:
如果所述参考控制器处于故障中,或所述参考控制器处于故障恢复中,则获取所述参考控制器中的第三目标参数和第四目标参数,其中,第三目标参数用于记录所述待恢复控制器的故障信息,所述第四目标参数用于记录所述参考控制器的故障信息;
根据所述第三目标参数和第四目标参数对所述待恢复控制器进行服务恢复。
4.根据权利要求3所述的统一存储设备节点故障处理方法,其特征在于,所述根据所述第三目标参数和第四目标参数对所述待恢复控制器进行服务恢复,包括:
如果所述第三目标参数和所述第四目标参数均为所述第一预设值,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述待恢复控制器的预设存储区域读取目标配置数据,以进行服务恢复。
5.根据权利要求3所述的统一存储设备节点故障处理方法,其特征在于,所述根据所述第三目标参数和第四目标参数对所述待恢复控制器进行服务恢复,包括:
如果所述第三目标参数为第二预设值,且所述第四目标参数为所述第一预设值,则向所述待恢复控制器下发恢复信息,以便限制所述待恢复控制器的服务恢复,直到所述参考控制器的服务恢复,则对所述待恢复控制器进行服务恢复。
6.根据权利要求1所述的统一存储设备节点故障处理方法,其特征在于,所述根据所述目标参数对所述待恢复控制器进行服务恢复,包括:
如果所述目标参数中的第一目标参数为第一预设值,且所述第二目标参数为第二预设值,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述待恢复控制器的预设存储区域读取目标配置数据,以进行服务恢复。
7.一种统一存储设备节点故障处理装置,其特征在于,应用于预设的节点事件处理模块,包括:
第一信息获取单元,用于获取目标统一存储设备的集群管理模块下发的节点恢复事件,其中,所述目标统一存储设备包括多个控制器组,每个控制器组包括两个控制器,所述集群管理模块为所述目标统一存储设备的事件管理模块,所述节点事件处理模块为所述集群管理模块的子模块,用于管理所述目标统一存储设备中的部分控制器组;
第二信息获取单元,用于获取所述节点恢复事件对应的待恢复控制器中的目标参数,其中,所述目标参数包括第一目标参数和第二目标参数,所述第一目标参数用于记录所述待恢复控制器的故障信息,所述第二目标参数用于记录参考控制器的故障信息,所述参考控制器为所述待恢复控制器所属控制组中的另一个控制器;
恢复处理单元,用于根据所述目标参数对所述待恢复控制器进行服务恢复。
8.根据权利要求7所述的统一存储设备节点故障处理装置,其特征在于,所述恢复处理单元,用于:
在所述目标参数中的第一目标参数和第二目标参数均为第一预设值时,则确定所述参考控制器的运行状态;
如果所述参考控制器处于正常运行中,则向所述待恢复控制器下发恢复信息,以便所述待恢复控制器根据所述恢复信息从所述参考控制器中同步目标配置数据,以进行服务恢复。
9.一种电子设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以实现权利要求1至6任一项所述的统一存储设备节点故障处理方法。
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的统一存储设备节点故障处理方法。
CN202010868462.0A 2020-08-26 2020-08-26 故障处理方法、装置、设备及介质 Withdrawn CN111984475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010868462.0A CN111984475A (zh) 2020-08-26 2020-08-26 故障处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010868462.0A CN111984475A (zh) 2020-08-26 2020-08-26 故障处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN111984475A true CN111984475A (zh) 2020-11-24

Family

ID=73443278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010868462.0A Withdrawn CN111984475A (zh) 2020-08-26 2020-08-26 故障处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111984475A (zh)

Similar Documents

Publication Publication Date Title
EP3617886B1 (en) Hot backup system, hot backup method, and computer device
EP1550036B1 (en) Method of solving a split-brain condition in a cluster computer system
CN112463448B (zh) 分布式集群数据库同步方法、装置、设备及存储介质
CN104036043B (zh) 一种mysql高可用的方法及管理节点
CN112422320B (zh) 服务器的主从切换方法、装置和服务器
US20210320977A1 (en) Method and apparatus for implementing data consistency, server, and terminal
CN109491609B (zh) 一种缓存数据处理方法、装置、设备及可读存储介质
CN111752488B (zh) 存储集群的管理方法、装置、管理节点及存储介质
CN111813348A (zh) 统一存储设备中的节点事件处理装置、方法、设备及介质
CN110351313B (zh) 数据缓存方法、装置、设备及存储介质
CN114554593A (zh) 数据处理方法及装置
CN108509296B (zh) 一种处理设备故障的方法和系统
CN110737543B (zh) 一种分布式文件系统数据恢复的方法、装置及存储介质
CN111984475A (zh) 故障处理方法、装置、设备及介质
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
CN110502496A (zh) 一种分布式文件系统修复方法、系统、终端及存储介质
CN115687019A (zh) 数据库集群的故障处理方法、智能监控平台、设备和介质
CN112269693B (zh) 一种节点自协调方法、装置和计算机可读存储介质
CN106326042B (zh) 一种运行状态确定方法及装置
JP2000090028A (ja) ネットワーク管理装置及びプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2015088123A (ja) 監視制御システム、監視制御装置および設定情報バックアップ方法
CN108897645B (zh) 一种基于备用心跳磁盘的数据库集群容灾方法和系统
CN112491633A (zh) 一种多节点集群的故障恢复方法、系统及相关组件
CN111581013A (zh) 基于元数据和影子文件的系统信息备份与重构方法
CN115934428B (zh) 一种mysql数据库的主灾备切换方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201124

WW01 Invention patent application withdrawn after publication