CN109582502A

CN109582502A - 存储系统故障处理方法、装置、设备及可读存储介质

Info

Publication number: CN109582502A
Application number: CN201811463319.2A
Authority: CN
Inventors: 柳增运
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-04-05

Abstract

本申请公开了存储系统故障处理方法，应用于双节点数据组存储集群，包括：当启动故障切换时，确定故障节点以及正常节点；切断与故障节点的通信，并将故障节点标记为故障状态；将正常节点的数据处理模式切换为直写模式；将正常节点中的缓存数据刷写至磁盘；当接收到新数据写入通知时，将新数据写入磁盘；根据新数据的写入情况生成并返回相应的提示信息。通过上述在存储系统发生故障时切换至上述状态的故障处理机制，既可以保证缓存数据的安全性，也可以同时实现业务的延续，提高了存储系统数据的稳定性，也优化了存储体验。本申请还公开了一种存储系统故障处理装置、设备及可读存储介质，均具有上述有益效果。

Description

存储系统故障处理方法、装置、设备及可读存储介质

技术领域

本申请涉及存储系统领域，特别涉及一种存储系统故障处理方法、装置、设备及计算机可读存储介质。

背景技术

在大数据时代到来的今天，越来越多的存储系统被应用到数据存储中。庞大的存储集群中，节点故障的发生越来越频繁。为了数据的可靠性，存储集群通常采用可靠的数据恢复技术来实现数据的安全性。

目前在存储集群双节点IO-GROUP下，当其中一个节点宕机离线时，则存储系统中无法实现对该IO-GROUP进行任何操作，即对该IO-GROUP存储业务中止，直至故障节点恢复。而在这种故障处理方法中不仅会耽误正常的节点进行业务处理，同时在故障节点进行故障恢复过程中容易出现缓存至内存的数据丢失的情况。

因此，如何在不中断业务的情况下提高存储数据的稳定性，是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种存储系统故障处理方法，该方法可以在不中断业务的情况下尽量保证缓存数据不丢失，从而提高存储数据的稳定性；本申请的另一目的是提供一种存储系统故障处理装置、设备及可读存储介质，均具有上述有益效果。

为解决上述技术问题，本申请提供了一种存储系统故障处理方法，应用于双节点数据组存储集群，该方法包括：

当启动故障切换时，确定故障节点以及正常节点；

切断与所述故障节点的通信，并将所述故障节点标记为故障状态；

将所述正常节点的数据处理模式切换为直写模式；

将所述正常节点中的缓存数据刷写至磁盘；

当接收到新数据写入通知时，将所述新数据写入磁盘；

根据所述新数据的写入情况生成并返回相应的提示信息。

优选地，当接收到新数据写入通知时，将所述新数据写入磁盘，包括：

当接收到数据写入时，判断是否存在未刷写的缓存数据；

如果存在，将所述新数据加入队列；

如果不存在，将所述新数据直写入磁盘。

优选地，将所述新数据加入队列后，还包括：

将所述新数据的标志位置为harden掉电恢复状态。

优选地，当启动故障切换时，确定故障节点以及正常节点，包括：

当启动故障切换时，获取集群状态信息；

根据所述集群状态信息中节点状态确定正常节点以及故障节点。

优选地，所述存储系统故障处理方法还包括：

当接收到节点离线信息后，将队列的IO状态切换至Quiesce IO静默状态；

当检测到无待刷写的缓存数据时，将队列的IO状态切换至active IO正常状态。

优选地，所述存储系统故障处理方法还包括：

当接收到所述故障节点的节点恢复信息时，恢复与所述故障节点的通信，并将所述正常节点的数据处理模式切换为回写模式。

本发明公开一种存储系统故障处理装置，应用于双节点数据组存储集群，包括：

节点划分单元，用于当启动故障切换时，确定故障节点以及正常节点；

故障节点处理单元，用于切断与故障节点的通信，并将所述故障节点标记为故障状态；

正常节点模式切换单元，用于将正常节点的数据处理模式切换为直写模式；

缓存刷写单元，用于将所述正常节点中的缓存数据刷写至磁盘；

新数据处理单元，用于当接收到新数据写入通知时，将所述新数据写入磁盘；

新数据写入提示单元，用于根据所述新数据的写入情况生成并返回相应的提示信息。

优选地，所述新数据处理单元包括：

判断子单元，用于当接收到数据写入时，判断是否存在未刷写的缓存数据；

新数据缓存子单元，用于如果存在，将所述新数据加入队列；

磁盘写入子单元，用于如果不存在，将所述新数据直写入磁盘。

本发明公开一种存储系统故障处理设备，包括：

存储器，用于存储程序；

处理器，用于执行所述程序时实现所述存储系统故障处理方法的步骤。

本发明公开一种可读存储介质，所述可读存储介质上存储有程序，所述程序被处理器执行时实现所述存储系统故障处理方法的步骤。

本发明所提供的存储系统故障处理方法通过启动故障切换后，暂停故障节点的业务，启动单节点模式，由于没有故障节点中存储的数据作为安全备份，需要将正常节点的内存中的缓存数据刷写至磁盘，避免正常节点出现异常情况时导致的掉电缓存数据丢失的情况，提高缓存数据存储的安全性以及稳定性；同时在存储系统故障下可以接收对新写IO的操作，切换为直写模式下数据将写入磁盘，可以在保证不间断业务数据的前提下实现数据的安全稳定。通过上述在存储系统发生故障时切换至上述状态的故障处理机制，既可以保证缓存数据的安全性，也可以同时实现业务的延续，提高了存储系统数据的稳定性，也优化了存储体验。

本申请还提供了一种存储系统故障处理装置、设备及可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种存储系统故障处理方法的流程图；

图2为本申请实施例提供的一种存储系统故障处理装置的结构框图；

图3为本申请实施例提供的一种存储系统故障处理设备的结构示意图。

具体实施方式

本申请的核心是提供一种存储系统故障处理方法，该方法可以在不中断业务的情况下尽量保证缓存数据不丢失，从而提高存储数据的稳定性；本申请的另一核心是提供一种存储系统故障处理装置、设备及计算机可读存储介质，均具有上述有益效果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

本发明应用于采用两个节点为一个数据组(IO-GROUP)的存储系统，两个节点中数据相同，互为备份，当有数据写入IO-GROUP时正常状态下采用回写模式将数据同时写入两节点的内存缓存空间，在系统活动减慢或写缓冲区接近最大容量时再将缓存数据写入磁盘，实现数据的稳定性存储。

当IO-GROUP中一个节点发生故障，宕机离线后，IO-GROUP中只剩一个节点可以进行数据业务的实现，在之前的数据业务中存储至该节点的数据大部分存储至内存的缓存空间，掉电丢失，而如果正常节点中数据丢失是无法挽回的，当IO-GROUP中一个节点宕机离线后，无法在实现正常节点的数据备份作用，本申请在系统发生故障时启动故障切换机制，故障切换可以影响在IO-GROUP中的磁盘(vdisk)的数据(IO)操作，故障切换的操作主要包含故障节点的用户数据暂停并使其fail(标记为故障状态，节点无效)，将用户数据的操作让在IO-GROUP中的剩余的正常节点接管。一旦故障切换完成，剩余的节点处理用户数据的模式为直写模式(Write-throuh)，即为节点需要写到后端磁盘才会通知主机写成功。如果只剩余一个节点缓存会增大下刷分配资源来加快下刷IO，以保证缓存数据不丢失。

请参考图1，图1为本申请所提供的一种存储系统故障处理方法的流程图，该方法可以包括：

步骤s110、当启动故障切换时，确定故障节点以及正常节点。

故障切换针对系统中运行故障导致的节点数据受损的情况，主要可以包括以下两种情况：IO-GROUP中一个节点宕机离线(比如由软件运行故障而引起)，则只需要剩余的节点启用故障切换机制，此时离线节点为故障节点，剩余的节点为正常节点；另外，还可能为系统中存储磁盘等系统处理装置发生故障(比如某个vdisk的访问路径发生错误)，为保证已存储数据的安全性以及稳定性，则两个节点都必须启动故障切换机制，此时两个节点均为正常节点进行处理。本实施例中以一个节点宕机离线启动故障切换为例进行介绍，即IO-GROUP中一个节点为故障节点，另一个节点为正常节点，其它系统故障情况均可参照本实施例的介绍。

具体地，当启动故障切换时，确定故障节点以及正常节点的过程具体可以为：当启动故障切换时，获取集群状态信息；根据集群状态信息中节点状态确定正常节点以及故障节点。正常节点以及故障节点的状态的确定可以利用非易失性的集群状态，从而可以知道哪个节点在IO-GROUP里面是active的，以此来决定在一个节点离线后缓存的模式。此外，还可以通过存储系统故障发生时输出的提示信息来确定故障节点以及正常节点等，在此对确定方法不做限定。

确定节点类型后，分别对故障节点以及正常节点分别进行处理，由于对故障节点以及正常节点的操作没有交叉部分，在此对故障节点以及正常节点的处理先后顺序不做限定，可以同时进行等。

步骤s120、切断与故障节点的通信，并将故障节点标记为故障状态。

当IO-GROUP中一个节点离线，系统感知到后，切断节点到节点的通信，将故障节点标记为故障状态，节点发送到故障节点的消息将不会被返回，系统将挂起节点到节点的消息，并且清除掉。

步骤s130、将正常节点的数据处理模式切换为直写模式。

缓存模式从回写更改为直写模式，直写模式(Write-Through，缓存的写模式)下，IO需要落到盘中才会表示该IO写成功。

需要说明的是，正常节点的处理过程与异常节点的处理过程可以同时进行，也可以先进行异常的处理，在进行正常的处理，在此不做限定，图1所以并行处理为例。

步骤s140、将正常节点中的缓存数据刷写至磁盘。

写缓存将数据在IO-GROUP的两个节点内进行镜像，所以剩余节点包含故障节点的数据。此时如果剩余节点再发生故障，则会发生数据丢失，本实施例中将缓存中数据刷写到磁盘中，实现缓存数据的固化存储，提高缓存数据的稳定性。

步骤s150、当接收到新数据写入通知时，将新数据写入磁盘。

新数据的写入处理与缓存数据的刷写过程并不冲突，可以并行处理，在此对处理顺序不做限定。

步骤s160、根据新数据的写入情况生成并返回相应的提示信息。

当接收到新数据写入通知时，切换至直写模式下的节点将新数据写入磁盘，根据新数据的写入情况输出相应的提示信息。比如当接收到新数据的写入成功标识后，返回数据写入成功的提示信息；当写入失败时，返回写入失败的提示信息至用户端，另外，还可以附上失败原因，比如磁盘剩余空间不足等。

在接收到新数据的写入通知时可能正在进行缓存数据的刷写过程，也可能此时刷写已经完毕，为避免缓存数据的永久丢失，可以在缓存数据刷写完成后在进行新数据的写入，具体地，在接收到数据写入时，判断是否存在未刷写的缓存数据；如果存在，将新数据加入队列；如果不存在，将新数据直写入磁盘。在刷写完成前，新来的IO一直入队列，按照加入队列的顺序进行数据的刷写，先进行预先缓存的数据的刷写过程，对后添加至队列的新数据后写入。

为了避免在将新数据加入队列后，直到新数据刷写完成前新数据由于断电导致的丢失，可以在接收到新数据后，将新数据的标志位置为harden掉电恢复状态。

此外，为了保证在系统单节点处理情况下保证尽量多的资源用于缓存数据的回写，避免缓存数据的掉电丢失，可以当接收到节点离线信息后，将队列的IO状态切换至Quiesce IO静默状态；当检测到无待刷写的缓存数据时，将队列的IO状态切换至active IO正常状态。

静默状态(Quiesce，IO的静默状态，暂时不被处理)是指数据库中只存在sys和system用户建立的活动会话，将阻止sys、system用户以外的用户提交操作，只有dba能继续操作数据库。此状态下可以大大减少其他用户会话导致的资源占用，从而尽量加大缓存回写的资源占用，提升缓存数据刷写速度，提升缓存数据的稳定性。写缓存刷写干净后，可以将队列中的IO的状态从IO静默状态更改为active，剩余节点将接管所有vdisk。此时IO-GROUP更改为单节点模式处理。

另外，当接收到故障节点的节点恢复信息时的处理方法不做限定，恢复与故障节点的通信，为减少运行所需的总线周期，可以将正常节点的数据处理模式切换为回写模式，也可以延续直写模式，可以根据系统需要选定。

基于上述实施例，本申请提供的存储系统故障处理方法通过启动故障切换后，暂停故障节点的业务，启动单节点模式，由于没有故障节点中存储的数据作为安全备份，需要将正常节点的内存中的缓存数据刷写至磁盘，避免正常节点出现异常情况时导致的掉电缓存数据丢失的情况，提高缓存数据存储的安全性以及稳定性；同时在存储系统故障下可以接收对新写IO的操作，切换为直写模式下数据将写入磁盘，可以在保证不间断业务数据的前提下实现数据的安全稳定。通过上述在存储系统发生故障时切换至上述状态的故障处理机制，既可以保证缓存数据的安全性，也可以同时实现业务的延续，提高了存储系统数据的稳定性，也优化了存储体验。

为加深对本发明提供的存储系统故障处理方法的理解，在此以单节点故障为例对整体流程进行介绍。

当IO-GROUP中一个节点离线，系统感知到后，切断节点到节点的通信。

写缓存会将缓存中数据刷写到磁盘中，在刷写完成前，新来的IO一直入队列，并标志位置为IO静默状态。并将其标志位置为harden。

缓存模式会从回写更改为直写模式，即IO需要落到盘中才会表示该IO写成功。

写缓存刷写干净后，将队列中的IO的状态从IO静默状态更改为active，剩余节点将接管所有vdisk。此时IO-GROUP更改为单节点模式处理。

本实施例提供的存储集群双节点在故障掉一个节点离线后的处理方式，利用故障切换的方式实现对写缓存中数据的处理保证数据不丢失，同时对新写IO的操作，在保证不间断业务数据的前提下实现数据的安全稳定。

下面对本申请提供的存储系统故障处理装置进行介绍，请参考图2，图2为本申请实施例提供的一种存储系统故障处理装置的结构框图；该装置可以包括：节点划分单元210、故障节点处理单元220、正常节点模式切换单元230、缓存刷写单元240、新数据处理单元250以及新数据写入提示单元260。

其中，节点划分单元210主要用于当启动故障切换时，确定故障节点以及正常节点；

故障节点处理单元220主要用于切断与故障节点的通信，并将故障节点标记为故障状态；

正常节点模式切换单元230主要用于将正常节点的数据处理模式切换为直写模式；

缓存刷写单元240主要用于将正常节点中的缓存数据刷写至磁盘；

新数据处理单元250主要用于当接收到新数据写入通知时，将新数据写入磁盘；

新数据写入提示单元260主要用于根据新数据的写入情况生成并返回相应的提示信息。

优选地，新数据处理单元具体可以包括：

新数据缓存子单元，用于如果存在，将新数据加入队列；

磁盘写入子单元，用于如果不存在，将新数据直写入磁盘。

优选地，新数据缓存子单元可以进一步用于：将新数据的标志位置为harden掉电恢复状态。

优选地，节点划分单元具体可以包括：

状态信息获取子单元，用于当启动故障切换时，获取集群状态信息；

节点确定子单元，用于根据集群状态信息中节点状态确定正常节点以及故障节点。

优选地，存储系统故障处理装置中可以进一步包括：IO静默设置单元，用于当接收到节点离线信息后，将队列的IO状态切换至Quiesce IO静默状态；当检测到无待刷写的缓存数据时，将队列的IO状态切换至active IO正常状态。

优选地，存储系统故障处理装置中可以进一步包括：节点恢复单元，用于当接收到故障节点的节点恢复信息时，恢复与故障节点的通信，并将正常节点的数据处理模式切换为回写模式。

本申请提供的存储系统故障处理装置可以在不中断业务的情况下尽量保证缓存数据不丢失，从而提高存储数据的稳定性。

本实施例提供一种存储系统故障处理设备，包括：存储器以及处理器。

其中，存储器用于存储程序；

处理器用于执行程序时实现如上述存储系统故障处理方法的步骤，具体可参照上述存储系统故障处理方法的介绍。

请参考图3，为本实施例提供的一种存储系统故障处理设备的结构示意图，该存储系统故障处理设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在存储系统故障处理设备301上执行存储介质330中的一系列指令操作。

存储系统故障处理设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上面图1所描述的存储系统故障处理方法中的步骤可以由存储系统故障处理设备的结构实现。

本实施例公开一种可读存储介质，其上存储有程序，程序被处理器执行时实现如存储系统故障处理方法的步骤，具体可参照上述存储系统故障处理方法的介绍。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的存储系统故障处理方法、装置、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种存储系统故障处理方法，其特征在于，应用于双节点数据组存储集群，包括：

当启动故障切换时，确定故障节点以及正常节点；

将所述正常节点的数据处理模式切换为直写模式；

将所述正常节点中的缓存数据刷写至磁盘；

当接收到新数据写入通知时，将所述新数据写入磁盘；

根据所述新数据的写入情况生成并返回相应的提示信息。

2.如权利要求1所述的存储系统故障处理方法，其特征在于，当接收到新数据写入通知时，将所述新数据写入磁盘，包括：

当接收到数据写入时，判断是否存在未刷写的缓存数据；

如果存在，将所述新数据加入队列；

如果不存在，将所述新数据直写入磁盘。

3.如权利要求2所述的存储系统故障处理方法，其特征在于，将所述新数据加入队列后，还包括：

将所述新数据的标志位置为harden掉电恢复状态。

4.如权利要求1所述的存储系统故障处理方法，其特征在于，当启动故障切换时，确定故障节点以及正常节点，包括：

当启动故障切换时，获取集群状态信息；

5.如权利要求1所述的存储系统故障处理方法，其特征在于，还包括：

6.如权利要求1所述的存储系统故障处理方法，其特征在于，还包括：

7.一种存储系统故障处理装置，其特征在于，应用于双节点数据组存储集群，包括：

8.如权利要求7所述的存储系统故障处理装置，其特征在于，所述新数据处理单元包括：

9.一种存储系统故障处理设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述程序时实现如权利要求1至6任一项所述存储系统故障处理方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序，所述程序被处理器执行时实现如权利要求1至6任一项所述存储系统故障处理方法的步骤。