CN109117317A

CN109117317A - 一种集群故障恢复方法和相关装置

Info

Publication number: CN109117317A
Application number: CN201811296088.0A
Authority: CN
Inventors: 柳增运
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2019-01-01

Abstract

本申请公开一种集群故障恢复方法和相关装置，该方法首先确定集群发生故障后脱离于集群的故障节点中需要进行恢复的故障节点；其后，向需要进行恢复的故障节点发送第一事件，并触发集群状态机CSM向集群发送第二事件；第一事件用于对需要进行恢复的故障节点进行故障恢复；第二事件用于对集群进行故障恢复；最终，待需要进行恢复的故障节点故障恢复完成后，将需要进行恢复的故障节点加入集群。本申请提供的技术方案及时识别需要进行恢复的故障节点，其后通过事件发送方式使节点恢复与集群恢复并行，由集群恢复同时引导节点进行数据恢复。相比于现有技术，这种集群恢复与节点恢复并行的方式能够保障集群中节点数据恢复的安全性和可靠性。

Description

一种集群故障恢复方法和相关装置

技术领域

本申请涉及存储技术领域，特别是涉及一种集群故障恢复方法和相关装置。

背景技术

在大数据时代到来的今天，越来越多的存储系统被应用于数据存储。在这样庞大的存储集群中，节点宕机的情况时有发生，集群故障影响存储集群中数据的安全性和可靠性。然而，目前现有的集群故障恢复技术安全性和可靠性仍有待提升。

发明内容

基于上述问题，本申请提供了一种集群故障恢复方法和相关装置，以及时恢复集群，并保障集群数据的安全性和可靠性。

本申请实施例公开了如下技术方案：

本申请第一方面提供一种集群故障恢复方法，包括：

确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点；

向所述需要进行恢复的故障节点发送第一事件，并触发集群状态机CSM向所述集群发送第二事件；所述第一事件用于对所述需要进行恢复的故障节点进行故障恢复；所述第二事件用于对所述集群进行故障恢复；

所述需要进行恢复的故障节点故障恢复完成后，将所述需要进行恢复的故障节点加入所述集群。

可选地，所述确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点，具体包括：

进程与硬件检测模块通过检测硬件信息，确定所述需要进行恢复的故障节点。

可选地，在所述进程与硬件检测模块通过检测硬件信息，确定所述需要进行恢复的故障节点之前，所述方法还包括：

所述进程与硬件检测模块检测到存储系统的主函数返回的集群错误码时，根据所述集群错误码确定所述集群发生故障。

可选地，在所述向所述需要进行恢复的故障节点发送第一事件之前，所述方法还包括：

所述进程与硬件检测模块将用户数据发送至所述需要进行恢复的故障节点的系统盘进行保存。

可选地，所述对所述集群进行故障恢复，具体包括：

所述CSM对所述需要进行恢复的故障节点中元数据以外的数据进行清理；所述元数据包括：配置数据、虚拟化表和映射表；

将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步。

可选地，在所述将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步之后，所述方法还包括：

通知所述需要进行恢复的故障节点刷写掉未处理的数据；

所述将所述需要进行恢复的故障节点加入所述集群，具体包括：

所述未处理的数据刷写完成后，重启所述需要进行恢复的故障节点，将所述需要进行恢复的故障节点加入所述集群。

本申请第二方面提供一种集群故障恢复装置，包括：

进程与硬件检测模块，用于确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点；

事件控制模块，用于向所述需要进行恢复的故障节点发送第一事件，并触发集群状态机CSM向所述集群发送第二事件；所述第一事件用于对所述需要进行恢复的故障节点进行故障恢复；所述第二事件用于对所述集群进行故障恢复；

集群节点添加模块，用于在所述需要进行恢复的故障节点故障恢复完成后，将所述需要进行恢复的故障节点加入所述集群。

可选地，所述进程与硬件检测模块，具体用于通过检测硬件信息，确定所述需要进行恢复的故障节点。

可选地，所述进程与硬件检测模块，还用于检测到存储系统的主函数返回的集群错误码时，根据所述集群错误码确定所述集群发生故障。

可选地，所述进程与硬件检测模块，还用于将用户数据发送至所述需要进行恢复的故障节点的系统盘进行保存。

可选地，所述事件控制模块，具体用于触发所述CSM对所述需要进行恢复的故障节点中元数据以外的数据进行清理；将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步；所述元数据包括：配置数据、虚拟化表和映射表。

可选地，所述事件控制模块，还用于通知所述需要进行恢复的故障节点刷写掉未处理的数据；

所述集群节点添加模块，具体包括：

第一添加子模块，用于在所述未处理的数据刷写完成后，控制重启所述需要进行恢复的故障节点，将所述需要进行恢复的故障节点加入所述集群。

相较于现有技术，本申请具有以下有益效果：

本申请提供的集群故障恢复方法，首先确定集群发生故障后脱离于集群的故障节点中需要进行恢复的故障节点；其后，向需要进行恢复的故障节点发送第一事件，并触发集群状态机CSM向集群发送第二事件；第一事件用于对需要进行恢复的故障节点进行故障恢复；第二事件用于对集群进行故障恢复；最终，待需要进行恢复的故障节点故障恢复完成后，将需要进行恢复的故障节点加入集群。

该方法中，及时识别需要进行恢复的故障节点，其后通过事件发送方式使节点恢复与集群恢复并行，由集群恢复同时引导节点进行数据恢复。相比于现有技术，这种集群恢复与节点恢复并行的方式能够保障集群中节点数据恢复的安全性和可靠性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种集群故障恢复方法的流程图；

图2是本申请实施例提供的另一种集群故障恢复方法的流程图；

图3是本申请实施例提供的一种集群故障恢复装置的结构示意图。

具体实施方式

针对现有技术中集群故障恢复技术安全性和可靠性较差的问题，经过研究，本申请提供一种集群故障恢复方法和相关装置。下面结合实施例和附图对上述方法和装置分别进行详细描述。

第一实施例

参见图1，该图为本申请实施例提供的一种集群故障恢复方法的流程图。

如图1所示，本实施例提供的集群故障恢复方法，包括：

步骤101：确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点。

集群故障可能是由一个或多个节点故障导致。节点故障后状态为离线(offline)状态，即脱离于原来所述的集群。为恢复故障的集群，本实施例中首先需要确定需要进行恢复的故障节点。

对于导致集群故障的多个故障节点，如果数量过多，可能无法进行同时的故障节点恢复。本实施例中，提供了一种可能的实现方式，将故障节点中的配置节点作为首先确定的需要进行恢复的故障节点。配置节点以外的其他故障节点，其恢复顺序待恢复完成的配置节点调配。即，当配置节点恢复完成后，由配置节点确定需要进行恢复的故障节点。

作为另一种可能的实现方式，本实施例可由进程与硬件检测(Engine Change，EC)模块检测各个节点(包括集群中正常节点以及脱离于集群的故障节点)的硬件信息，确定各个节点的硬件运行情况，进而确定故障节点中需要进行恢复的故障节点。例如，EC模块根据故障节点的硬件信息，确定其中某一个故障节点需求加入集群中，此时，EC模块可确定该节点为需要进行恢复的故障节点。

步骤102：向所述需要进行恢复的故障节点发送第一事件，并触发集群状态机向所述集群发送第二事件。

本实施例中，向需要进行恢复的节点发送第一事件，具体可以由事件控制(EventManager，EM)模块执行。第一事件用于对需要进行恢复的故障节点进行故障恢复，具体可以包括：首先对节点的元数据状态进行恢复，其后对用户数据进行恢复。需要说明的是，本实施例中第一事件并不仅仅限值事件数量为一个，可能多个事件统称为第一事件。第一事件中不同的事件可以用于对故障节点的不同数据进行恢复。

EM模块向需要进行恢复的节点发送第一事件的同时，能够触发集群状态机(Cluster State Machine，CSM)注册第二事件并向集群发送第二事件。需要说明的是，本实施例中第二事件为与第一事件相对应的事件，在第一事件对故障节点进行恢复的同时，第二事件用于对集群进行故障恢复。具体地，第二事件可用于结合需要进行恢复的节点的数据恢复状态，对集群进行相应的故障恢复操作。

步骤103：所述需要进行恢复的故障节点故障恢复完成后，将所述需要进行恢复的故障节点加入所述集群。

待需要进行恢复的故障节点故障恢复完成后，相应地，集群也已经根据第二事件为故障节点的重新加入进行了充分的准备。此时，可以将恢复完成的故障节点重新加入集群中。

按照上述方式，对各个需要进行恢复的故障节点进行恢复，最终，实现集群的故障恢复。

以上，为本申请实施例提供的集群故障恢复方法，首先确定集群发生故障后脱离于集群的故障节点中需要进行恢复的故障节点；其后，向需要进行恢复的故障节点发送第一事件，并触发集群状态机CSM向集群发送第二事件；第一事件用于对需要进行恢复的故障节点进行故障恢复；第二事件用于对集群进行故障恢复；最终，待需要进行恢复的故障节点故障恢复完成后，将需要进行恢复的故障节点加入集群。

为提高故障恢复过程中，集群节点数据的安全性，在前述实施例的基础上，本申请还提供了另一种集群故障恢复方法。下面结合实施例和附图对该方法进行详细说明。

第二实施例

参见图2，该图为本申请实施例提供的一种集群故障恢复方法的流程图。

如图2所示，本实施例提供的集群故障恢复方法，包括：

步骤201：进程与硬件检测模块检测到存储系统的主函数返回的集群错误码时，根据所述集群错误码确定所述集群发生故障。

EC模块较为底层的模块，从该模块发起集群故障恢复能够保障集群节点数据的安全性。下面列举了EC模块的主要功能：

(1)如果节点故障，又称宕机或fail，EC模块负责把节点数据导出到系统盘；如果节点恢复，EC模块负责把节点数据恢复到内存中。

(2)EC模块负责检测输入、输出进程是否正常运行。

(3)EC模块负责检测节点的硬件运行状况。

(4)EC模块能够控制检测电源。

在本步骤中，EC模块还负责在检测到存储系统的主函数plmain发生故障退出，返回集群错误码exit_cluster_recover后，根据该集群错误码exit_cluster_recover确定当前集群发生故障。

步骤202：进程与硬件检测模块通过检测硬件信息，确定所述需要进行恢复的故障节点。

需要说明的是，在集群的恢复进程中，可以使用特定的集群ID使得需要进行恢复的节点与其他故障节点不会形成同一个集群。因此，根据故障节点的集群ID也能够确定需要进行恢复的故障节点。

步骤203：所述进程与硬件检测模块将用户数据发送至所述需要进行恢复的故障节点的系统盘进行保存。

本步骤中，用户数据具体指的是需要进行恢复的节点中的用户数据。由于用户数据是十分重要的数据，为保证安全性，不能丢失用户数据。因此，在对集群进行恢复的过程中，需要将需要进行恢复的故障节点的用户数据保存至其系统盘中，防止丢失、损坏。

步骤204：事件控制模块向所述需要进行恢复的故障节点发送第一事件。

关于步骤204的相关描述可参见前述实施例。

EM向需要进行恢复的故障节点发送第一事件的同时，能够触发CSM向集群发送第二事件，以对集群进行相应的恢复。下面通过步骤205至206对集群的恢复进程进行说明。

步骤205：CSM对所述需要进行恢复的故障节点中元数据以外的数据进行清理。

元数据作为存储系统中的关键数据，需要保留下来，而元数据以外的其他数据可清理掉。

本实施例中，元数据可以包括以下任意一种或多种的组合：配置数据、虚拟化表和映射表。

配置数据具体可以为节点的配置数据、raid分层(mdisk)的配置数据和卷(vdisk)的配置数据等。

清理掉的数据可以是mdisk、vdisk的状态信息，以及小型计算机系统接口(SmallComputer SystemInterface，SCSI)传输协议信息等。

步骤206：将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步。

在实际应用中，集群恢复的过程也相当于是集群中节点状态同步的过程。当需要进行恢复的故障节点中，元数据保留，其他作用微小的数据和信息清除掉以后，可对需要进行恢复的故障节点以及集群中正常节点的状态进行同步，例如bitmap同步等。

集群中节点状态同步后，需要进行恢复的该故障节点已经基本恢复完成。

步骤207：通知所述需要进行恢复的故障节点刷写掉未处理的数据。

在集群中节点状态同步结束后，EM模块可根据接收到的同步完成的信息，通知集群中各个节点刷写(flush)掉未处理的数据。此处，未处理的数据可以是节点系统盘中之前保存的数据。当集群恢复后，节点系统盘中保存的数据变为无用的数据，无需再处理使用，因此，可以将其刷写清除。

步骤208：未处理的数据刷写完成后，重启所述需要进行恢复的故障节点，将所述需要进行恢复的故障节点加入所述集群。

以上为本实施例提供的集群故障恢复方法，该方法通过EC模块确定集群故障并确定需要进行恢复的故障节点，另外通过EC模块发起集群恢复过程。由于EC模块为存储系统较底层的模块，因此，由EC模块发起对集群的恢复能够进一步保障节点数据的安全性。

基于前述实施例提供的集群故障恢复方法，对应地，本申请还提供一种集群故障恢复装置。下面结合实施例和附图对该装置的具体实现方式进行详细描述。

第三实施例

参见图3，该图为本申请实施例提供的集群故障恢复装置的结构示意图。

如图3所示，本实施例提供的集群故障恢复装置，包括：进程与硬件检测模块301，事件控制模块302，以及集群节点添加模块303。

其中，进程与硬件检测模块301，用于确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点；

事件控制模块302，用于向所述需要进行恢复的故障节点发送第一事件，并触发集群状态机CSM向所述集群发送第二事件；所述第一事件用于对所述需要进行恢复的故障节点进行故障恢复；所述第二事件用于对所述集群进行故障恢复；

集群节点添加模块303，用于在所述需要进行恢复的故障节点故障恢复完成后，将所述需要进行恢复的故障节点加入所述集群。

以上，为本申请实施例提供的集群故障恢复装置，该装置及时识别需要进行恢复的故障节点，其后通过事件发送方式使节点恢复与集群恢复并行，由集群恢复同时引导节点进行数据恢复。相比于现有技术，该装置采用集群恢复与节点恢复并行的方式对集群进行故障恢复，能够保障集群中节点数据恢复的安全性和可靠性。

作为一种可能的实现方式，所述进程与硬件检测模块301，具体用于通过检测硬件信息，确定所述需要进行恢复的故障节点。

作为一种可能的实现方式，所述进程与硬件检测模块301，还用于检测到存储系统的主函数返回的集群错误码时，根据所述集群错误码确定所述集群发生故障。

作为一种可能的实现方式，所述进程与硬件检测模块301，还用于将用户数据发送至所述需要进行恢复的故障节点的系统盘进行保存。

作为一种可能的实现方式，所述事件控制模块302，具体用于触发所述CSM对所述需要进行恢复的故障节点中元数据以外的数据进行清理；将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步；所述元数据包括：配置数据、虚拟化表和映射表。

作为一种可能的实现方式，所述事件控制模块302，还用于通知所述需要进行恢复的故障节点刷写掉未处理的数据；

所述集群节点添加模块303，具体包括：

上述装置中，通过EC模块确定集群故障并确定需要进行恢复的故障节点，另外通过EC模块发起集群恢复过程。由于EC模块为存储系统较底层的模块，因此，由EC模块发起对集群的恢复能够进一步保障节点数据的安全性。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种集群故障恢复方法，其特征在于，包括：

2.根据权利要求1所述的集群故障恢复方法，其特征在于，所述确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点，具体包括：

3.根据权利要求2所述的集群故障恢复方法，其特征在于，在所述进程与硬件检测模块通过检测硬件信息，确定所述需要进行恢复的故障节点之前，所述方法还包括：

4.根据权利要求2或3所述的集群故障恢复方法，其特征在于，在所述向所述需要进行恢复的故障节点发送第一事件之前，所述方法还包括：

5.根据权利要求1所述的集群故障恢复方法，其特征在于，所述对所述集群进行故障恢复，具体包括：

6.根据权利要求5所述的集群故障恢复方法，其特征在于，在所述将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步之后，所述方法还包括：

通知所述需要进行恢复的故障节点刷写掉未处理的数据；

7.一种集群故障恢复装置，其特征在于，包括：

8.根据权利要求7所述的集群故障恢复装置，其特征在于，所述进程与硬件检测模块，具体用于通过检测硬件信息，确定所述需要进行恢复的故障节点。

9.根据权利要求8所述的集群故障恢复装置，其特征在于，所述进程与硬件检测模块，还用于检测到存储系统的主函数返回的集群错误码时，根据所述集群错误码确定所述集群发生故障。

10.根据权利要求8或9所述的集群故障恢复装置，其特征在于，所述进程与硬件检测模块，还用于将用户数据发送至所述需要进行恢复的故障节点的系统盘进行保存。

11.根据权利要求7所述的集群故障恢复装置，其特征在于，所述事件控制模块，具体用于触发所述CSM对所述需要进行恢复的故障节点中元数据以外的数据进行清理；将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步；所述元数据包括：配置数据、虚拟化表和映射表。

12.根据权利要求11所述的集群故障恢复装置，其特征在于，所述事件控制模块，还用于通知所述需要进行恢复的故障节点刷写掉未处理的数据；

所述集群节点添加模块，具体包括：