CN110673978B

CN110673978B - 一种双控集群掉电后的数据恢复方法及相关装置

Info

Publication number: CN110673978B
Application number: CN201910931587.0A
Authority: CN
Inventors: 王新忠
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2023-01-10
Anticipated expiration: 2039-09-29
Also published as: CN110673978A

Abstract

本申请提供一种双控集群掉电后的数据恢复方法，包括：根据rootNode信息恢复元数据对象；恢复控制器掉电前保存至磁盘中的数据结构；将写模式设为LOGGING模式，确定所述双控集群的集群主节点；控制所述集群主节点根据所述数据结构将掉电前内存中数据下刷至所述磁盘中；将写模式设为CACHING模式，完成数据恢复。本申请提高了双控集群的数据安全可靠性，保证双控集群的高可用性。本申请还提供一种双控集群掉电后的数据恢复系统、计算机可读存储介质和一种双控服务器，具有上述有益效果。

Description

一种双控集群掉电后的数据恢复方法及相关装置

技术领域

本申请涉及服务器集群领域，特别涉及一种双控集群掉电后的数据恢复方法及相关装置。

背景技术

存储系统作为所有计算机相关业务的底层基础，对于其可靠性的要求十分高，因此在设计的时候需要考虑高可用性。一般通过集群方式来保障。一个集群中具有多个控制器（本申请以一个集群中有两个控制器为例），当其中的一个控制器发生故障无法提供服务时，存活的控制器需要接管故障控制器的所有业务，在该过程中上方业务不允许停止。

元数据是一个全闪存储系统中最重要的部分，针对一般I/O业务，需要管理逻辑地址到物理地址（即LP）的映射关系，针对垃圾回收功能，需要管理物理地址到逻辑地址（即PL）针对支持的重删功能，则需要管理I/O的指纹值到物理地址（即HP）的映射关系。

因为针对一个I/O，需要多次修改LP，PL，HP等操作，因此需要事务进行保证其原子性。对于元数据模块，又需要通过读缓存和写缓存进行性能提高，因此在考虑高可用性的时候流程十分复杂。

发明内容

本申请的目的是提供一种双控集群掉电后的数据恢复方法、系统、计算机可读存储介质和一种双控服务器，能够有效实现掉电数据保护。

为解决上述技术问题，本申请提供一种双控集群掉电后的数据恢复方法，具体技术方案如下：

根据rootNode信息恢复元数据对象；

恢复控制器掉电前保存至磁盘中的数据结构；

将写模式设为LOGGING模式，确定所述双控集群的集群主节点；

控制所述集群主节点根据所述数据结构将掉电前内存中数据下刷至所述磁盘中；

将写模式设为CACHING模式，完成数据恢复。

其中，根据rootNode信息恢复元数据对象之前，还包括：

从磁盘中的逻辑地址中划分预设区域作为ROOT区，用于保存rootNode信息；

其中，所述rootNode信息包括Lun ID、CRC校验值和MagicNumber。

其中，根据rootNode信息恢复元数据对象包括：

遍历元数据区地址，读取所述ROOT区的两个内存副本到内存；

对所述内存副本分别进行副本校验；所述副本校验包括利用所述CRC校验值进行CRC校验、利用所述MagicNumber进行MagicNumber校验，所述CRC校验和MagicNumber校验均校验通过视为所述内存副本校验通过；

若两个所述内存副本均校验通过，选择时间戳在后的内存副本恢复元数据对象；

若两个所述内存副本仅一个校验通过，选择校验通过的内存副本恢复元数据对象。

其中，确定所述双控集群的集群主节点包括：

根据掉电时间戳确定集群主节点；

其中，掉电时间在后的控制器为所述集群主节点；

若两个控制器的掉电时间戳相同，根据预先设置确定集群主节点。

其中，控制所述集群主节点根据所述数据结构将掉电前内存中数据下刷至所述磁盘中之后，还包括：

清除对端控制器待恢复数据。

其中，将写模式设为CACHING模式之前，还包括：

判断所述磁盘的写缓存中是否存在未完成请求；

若是，将所述未完成请求进行事务重做并返回所述写缓存中执行。

其中，在开始数据恢复之后，直至数据恢复完成之前，禁止业务I/O下发。

本申请还提供一种双控集群掉电后的数据恢复系统，包括：

第一恢复模块，用于根据rootNode信息恢复元数据对象；

第二恢复模块，用于恢复控制器掉电前保存至磁盘中的数据结构；

主节点确定模块，用于将写模式设为LOGGING模式，确定所述双控集群的集群主节点；

数据下刷模块，用于控制所述集群主节点根据所述数据结构将掉电前内存中数据下刷至所述磁盘中；

模式切换模块，用于将写模式设为CACHING模式，完成数据恢复。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的数据恢复方法的步骤。

本申请还提供一种双控服务器，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的数据恢复方法的步骤。

本申请提供一种双控集群掉电后的数据恢复方法，包括：根据rootNode信息恢复元数据对象；恢复控制器掉电前保存至磁盘中的数据结构；将写模式设为LOGGING模式，确定所述双控集群的集群主节点；控制所述集群主节点根据所述数据结构将掉电前内存中数据下刷至所述磁盘中；将写模式设为CACHING模式，完成数据恢复。

本申请在掉电后，利用rootNode信息恢复元数据对象，再先后恢复数据结构，在LOGGING模式下控制写缓存强制下刷数据，以恢复掉电时内存中的数据，在得到元数据对象和内存中的数据后，将写模式恢复至CACHING模式，以将双控集群设为双控镜像模式，保证在任一控制器掉电时利用另一控制器恢复数据，提高双控集群的数据安全可靠性，保证双控集群的高可用性。本申请还提供一种双控集群掉电后的数据恢复系统、计算机可读存储介质和一种双控服务器，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种双控集群掉电后的数据恢复方法的流程图；

图2为本申请实施例所提供的一种双控集群掉电后的数据恢复系统结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

通常元数据内部模块主要划分为以下几个子模块：

元数据对象模块：负责管理元数据对象，包括LUN信息，B+树的rootNode，负责ROOT区数据结构的初始化、更新、恢复等操作。

事务模块：由于一个请求可以被分为多个子请求，因此需要事务机制进行原子性保证：若完成则全部完成，若其中一个子请求未完成则表示失败，需要进行回滚重做，已完成的子请求也需要进行取消操作。

写缓存模块：写缓存模块负责将业务I/O的处理在内存中进行缓存，根据业务需要，分为WRITE_BACK模式和WRITE_THROUGH模式两种。在WRITE_BACK模式中，写缓存被划分一定的内存空间将事务模块发过来的操作进行缓存，并在达到一定条件的情况下才进行下刷。而在WRITE_THROUGH模式下则直接将事务过来的请求进行下刷。

B+树模块：负责整个元数据模块的B+树操作算法实现，是整个元数据模块的交互核心。

读缓存模块：负责提高读性能。

查询模块：负责查询操作。

需要说明的是，在系统重新上电的时候，系统所有模块即上文所述的各模块都进行初始化操作，各个模块都进行配置信息的恢复操作。对于元数据模块来讲，首先需保证元数据模块在恢复的时候的所需依赖的其他模块的业务可以正常进行，这一点可以在系统级恢复流程中进行保证。由于本文重点在于元数据及相关数据的恢复流程，因此此处不做赘述，假定在元数据进行处理的时候对于其他模块的依赖已经满足。

请参考图1，图1为本申请实施例所提供的一种双控集群掉电后的数据恢复方法的流程图，该方法包括：

S101：根据rootNode信息恢复元数据对象；

在恢复ROOT区数据结构的时候，可以直接给定PBA进行遍历，将读取到内存的双副本根据时间戳、CRC校验值、magicNumber进行选择，确保恢复的数据正确。

具体的，本步骤可以采用如下方式：

第一步、遍历元数据区地址，读取所述ROOT区的两个内存副本到内存；

第二步、对所述内存副本分别进行副本校验；所述副本校验包括利用所述CRC校验值进行CRC校验、利用所述MagicNumber进行MagicNumber校验，所述CRC校验和MagicNumber校验均校验通过视为所述内存副本校验通过；

若两个所述内存副本均校验通过，选择时间戳在后的内存副本恢复元数据对象；若两个所述内存副本仅一个校验通过，选择校验通过的内存副本恢复元数据对象。

S102：恢复控制器掉电前保存至磁盘中的数据结构；

需要注意的是，本步骤和步骤S101并无直接顺序关系，即恢复元数据对象和恢复数据结构两个过程并无直接联系，二者可存在一定执行顺序，也可以同时进行。

本步骤需要将掉电时通过BBU供电将内存中未完成的，持久化到磁盘中的数据结构进行恢复。

在存储集群中，每个节点在开机的时候都需要经过该流程。若能够在磁盘上找到该数据结构，则进行恢复，否则，重新申请并初始化内存。

此处考虑的是已经有该数据结构的情况。两个节点分别将该数据结构恢复到内存中。恢复完成后暂什么都不做，需要等待集群选择主节点。

S103：将写模式设为LOGGING模式，确定所述双控集群的集群主节点；

此时集群中两个节点都已经加入，但是此时不能组成双控镜像模式，需要各自改为LOGGING模式。因为在LOGGING模式下，事务将以单控模式进行处理，写缓存也将直接下刷。

在此对于如何确定集群主节点不作限定，例如可以根据掉电时间戳确定集群主节点，即掉电时间在后的控制器为所述集群主节点，若两个控制器的掉电时间戳相同，根据预先设置确定集群主节点。当然，也可以直接根据设定的参数确定集群主节点。

S104：控制所述集群主节点根据所述数据结构将掉电前内存中数据下刷至所述磁盘中；

在LOGGING模式下，写缓存进行强制下刷，将掉电前内存中的数据强制下刷到磁盘中。

S105：将写模式设为CACHING模式，完成数据恢复。

此时双控中的缓存都为CLEAN的，因此可以安全地组成双控镜像模式。当然，在此后还可以通知上层模块元数据恢复已完成。

需要注意的，在整个数据恢复过程中，即在开始数据恢复之后，直至数据恢复完成之前，禁止业务I/O下发。

本申请实施例在掉电后，利用rootNode信息恢复元数据对象，再先后恢复数据结构，在LOGGING模式下控制写缓存强制下刷数据，以恢复掉电时内存中的数据，在得到元数据对象和内存中的数据后，将写模式恢复至CACHING模式，以将双控集群设为双控镜像模式，保证在任一控制器掉电时利用另一控制器恢复数据，提高双控集群的数据安全可靠性，保证双控集群的高可用性。

基于上述实施例，作为优选的实施例，根据rootNode信息恢复元数据对象即执行数据恢复之前，还包括：

其中，所述rootNode信息包括Lun ID、CRC校验值和MagicNumber。

由于rootNode中包含当前树所对应的Lun ID、CRC校验值和MagicNumber等。为了便于修复，将磁盘中的逻辑地址划分一部分区域作为ROOT区，专门用于保存rootNode信息。这样在发生系统异常的情况下，可以直接使用地址将rootNode读取至内存中。在此对于预设区域的划分位置和区域大小不作限定，例如可以从零开始进行划分。而预设区域的区域大小应由本领域技术人员根据实际需求进行划分。

在创建卷的时候将ROOT区初始化一次，即使用初始化的rootNode进行写盘操作。为了增加可靠性，在写盘的时候采取双副本写的形式，并将magicNumber进行保存。在每次修改rootAddress的时候计算CRC校验值并更新到该rootNode数据结构中。

基于上述实施例，作为优选的实施例，控制所述集群主节点根据所述数据结构将掉电前内存中数据下刷至所述磁盘中之后，还包括：

清除对端控制器待恢复数据。

在一个控制器完成下刷后再通知对端控制器清除内存数据，这是为了避免在此时发生主节点的单控故障。若发生了，则需进行控制器切换，以此时主节点的对端节点为主节点，此时尽管不是最新的数据，但好过无法恢复。

基于上述实施例，作为优选的实施例，将写模式设为CACHING模式之前，还包括：

判断所述磁盘的写缓存中是否存在未完成请求；

由于事务通常分为若干个子请求在写缓存中执行，而掉电时常常出现某个子请求未执行，本实施例旨在判断写缓存中是否存在未完成的子请求。一旦存在未完成的子请求，需要将该事务整体进行重做，然后返回写缓存中重新执行。

当然若不存在未完成请求，可以直接将写模式设为CACHING模式。

下面对本申请实施例提供的双控集群掉电后的数据恢复系统进行介绍，下文描述的双控集群掉电后的数据恢复系统与上文描述的双控集群掉电后的数据方法可相互对应参照。

参见图2，本申请还提供一种双控集群掉电后的数据恢复系统，包括：

第一恢复模块100，用于根据rootNode信息恢复元数据对象；

第二恢复模块200，用于恢复控制器掉电前保存至磁盘中的数据结构；

主节点确定模块300，用于将写模式设为LOGGING模式，确定所述双控集群的集群主节点；

数据下刷模块400，用于控制所述集群主节点根据所述数据结构将掉电前内存中数据下刷至所述磁盘中；

模式切换模块500，用于将写模式设为CACHING模式，完成数据恢复；

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器（Read-Only Memory ，ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种双控服务器，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述双控服务器还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种双控集群掉电后的数据恢复方法，其特征在于，包括：

根据rootNode信息恢复元数据对象；

恢复控制器掉电前保存至磁盘中的数据结构；

将写模式设为LOGGING模式，确定所述双控集群的集群主节点；

将写模式设为CACHING模式，完成数据恢复；

其中，根据rootNode信息恢复元数据对象包括：

遍历元数据区地址，读取ROOT区的两个内存副本到内存；

对所述内存副本分别进行副本校验；所述副本校验包括利用CRC校验值进行CRC校验、利用MagicNumber进行MagicNumber校验，所述CRC校验和MagicNumber校验均校验通过视为所述内存副本校验通过；

2.根据权利要求1所述的数据恢复方法，其特征在于，根据rootNode信息恢复元数据对象之前，还包括：

其中，所述rootNode信息包括Lun ID、CRC校验值和MagicNumber。

3.根据权利要求1所述的数据恢复方法，其特征在于，确定所述双控集群的集群主节点包括：

根据掉电时间戳确定集群主节点；

其中，掉电时间在后的控制器为所述集群主节点；

4.根据权利要求1所述的数据恢复方法，其特征在于，控制所述集群主节点根据所述数据结构将掉电前内存中数据下刷至所述磁盘中之后，还包括：

清除对端控制器待恢复数据。

5.根据权利要求1所述的数据恢复方法，其特征在于，将写模式设为CACHING模式之前，还包括：

判断所述磁盘的写缓存中是否存在未完成请求；

6.根据权利要求1所述的数据恢复方法，其特征在于，在开始数据恢复之后，直至数据恢复完成之前，禁止业务I/O下发。

7.一种双控集群掉电后的数据恢复系统，其特征在于，包括：

第一恢复模块，用于根据rootNode信息恢复元数据对象；

模式切换模块，用于将写模式设为CACHING模式，完成数据恢复；

其中，所述第一恢复模块还用于：

遍历元数据区地址，读取ROOT区的两个内存副本到内存；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的数据恢复方法的步骤。

9.一种双控服务器，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-6任一项所述的数据恢复方法的步骤。