CN110413216B

CN110413216B - 用于管理存储系统的方法、设备和计算机程序产品

Info

Publication number: CN110413216B
Application number: CN201810403822.2A
Authority: CN
Inventors: 马春; 韩耕; 董继炳; 高宏坡; 高健; 徐鑫磊
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2023-07-18
Anticipated expiration: 2038-04-28
Also published as: US11003556B2; CN110413216A; US20190332502A1

Abstract

本公开涉及一种用于管理存储系统的方法、设备和计算机程序产品。根据本公开的示例性实现，获取存储系统中的条带中的区块的状态信息，状态信息指示区块中是否包括故障区块和寿命终止区块中的至少一个；基于状态信息，确定条带的风险水平，风险水平指示条带丢失数据的可能性；以及响应于风险水平高于第一阈值，使得存储系统：重建与故障区块对应的数据，并且将数据写入与故障区块所在的第一存储设备不同的第二存储设备中的备用区块，以及将与寿命终止区块对应的数据写入与寿命终止区块所在的第三存储设备不同的第四存储设备中的交换区块，第四存储设备用于替换第三存储设备。由此，可以减少数据丢失并提高存储系统的整体性能。

Description

用于管理存储系统的方法、设备和计算机程序产品

技术领域

本公开的各实现方式涉及存储管理，更具体地，涉及用于管理存储系统(例如，独立磁盘冗余阵列(Redundant Array of Independent Disks，RAID))的方法、设备和计算机程序产品。

背景技术

在RAID的当前架构中，资源池被用于管理存储设备(例如，磁盘)的存储空间。资源池将所有磁盘划分为具有相同大小(例如，若干GB)的磁盘区块(disk extent)。资源池的基本操作单元并非是整个磁盘，而是所划分的磁盘区块。换句话说，在资源池中基于磁盘区块来寻址、分配和创建RAID。

映射独立磁盘冗余阵列(Mapped RAID)是RAID的一个子类。在映射RAID中，RAID条带(RAID extent)被用于组织磁盘区块。一个RAID条带包括分布在资源池中的不同磁盘上的磁盘区块，以便当该多个磁盘区块中的一个磁盘区块所在的磁盘具有错误或出现故障时，可以执行恢复操作以便从其他磁盘区块所在的磁盘中恢复数据。由于资源池中的存储设备可能具有错误或发生故障。如何在存储设备具有错误或发生故障的情况下恢复数据，进而减少数据丢失并提高存储系统的整体性能，成为一个技术难题。

发明内容

因而，期望能够开发并实现一种以更为有效的方式来管理存储系统的技术方案。期望该技术方案能够与现有的存储系统相兼容，并且通过改造现有存储系统的各种配置，来以更为有效的方式管理存储系统。

根据本公开的第一方面，提供了一种用于管理存储系统的方法。该方法包括：获取存储系统中的条带中的区块的状态信息，状态信息指示区块中是否包括故障区块和寿命终止区块中的至少一个；基于状态信息，确定条带的风险水平，风险水平指示条带丢失数据的可能性；以及响应于风险水平高于第一阈值，使得存储系统：重建与故障区块对应的数据，并且将数据写入与故障区块所在的第一存储设备不同的第二存储设备中的备用区块，以及将与寿命终止区块对应的数据写入与寿命终止区块所在的第三存储设备不同的第四存储设备中的交换区块，第四存储设备用于替换第三存储设备。

根据本公开的第二方面，提供了一种用于管理存储系统的设备，包括：至少一个处理器；易失性存储器；以及与至少一个处理器耦合的存储器，存储器具有存储于其中的指令，指令在被至少一个处理器执行时使得设备执行动作。该动作包括：获取存储系统中的条带中的区块的状态信息，状态信息指示区块中是否包括故障区块和寿命终止区块中的至少一个；基于状态信息，确定条带的风险水平，风险水平指示条带丢失数据的可能性；以及响应于风险水平高于第一阈值，使得存储系统：重建与故障区块对应的数据，并且将数据写入与故障区块所在的第一存储设备不同的第二存储设备中的备用区块，以及将与寿命终止区块对应的数据写入与寿命终止区块所在的第三存储设备不同的第四存储设备中的交换区块，第四存储设备用于替换第三存储设备。

根据本公开的第三方面，提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，机器可执行指令用于执行根据本公开的第一方面的方法。

附图说明

结合附图并参考以下详细说明，本公开各实现方式的特征、优点及其他方面将变得更加明显，在此以示例性而非限制性的方式示出了本公开的若干实现方式。在附图中：

图1示意性示出了其中可以实现本公开的方法的存储系统的示意图；

图2示意性示出了根据本公开的一个实现方式的用于管理存储系统的方法的流程图；

图3A-3D分别示意性示出了根据本公开的一个实现方式的用于管理存储系统的示意图；以及

图4示意性示出了根据本公开的一个示例性实现的用于管理存储系统的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反，提供这些实现是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本公开的上下文中，存储系统可以是基于映射RAID的存储系统。图1示意性示出了其中可以实现本公开的方法的存储系统100的示意图。

存储系统100包括资源池110。资源池110包括存储设备120-1到120-N(在下文中统称为“存储设备120”)，其中N是大于1的自然数。如上所述，资源池110被用于管理存储设备120的存储空间。资源池110将存储设备120划分为具有相同大小(例如，若干GB)的多个区块，以作为存储系统100的基本操作单元。如图所示，以存储设备120-1为例，存储设备120-1可以被划分为多个区块。类似地，其他存储设备120可以被划分为与存储设备120-1相同或不同数目的区块。

这些区块可以被组织为多个条带130。一个条带130由分布在资源池中的不同存储设备120上的多个区块组成。如图所示，以条带130-1为例，条带130-1可以由以下区块组成：存储设备120-2上的区块DE 0、存储设备120-3上的区块DE 0、存储设备120-4上的区块DE0、存储设备120-5上的区块DE 0、以及存储设备120-6上的区块DE 0。类似地，其他条带130可以由与条带130-1相同或不同数目的、分布在不同存储设备120上的区块组成。应当理解，虽然处于示例的目的，图1中仅示出了4个条带，但条带的数目不限于此，并且可以是大于1的任何自然数。

由于条带130所包括的区块分布在资源池中的不同存储设备120上，因此当条带130中的一个区块所在的存储设备120具有错误或出现故障时，存储系统100可以执行恢复操作以便从条带130中的其他区块所在的存储设备120中恢复数据。

在某些实施例中，子存储系统140-1到140-G(在下文中统称为子存储系统140)可以由相同宽度的条带130实现，其中G是大于1的自然数。在此，条带130具有相同宽度是指条带130由相同数目的区块组成。例如，如图所示，条带130-1和条带130-2分别包括5个区块，而条带130-3和条带130-4分别包括4个区块。在这种情况下，条带130-1和条带130-2可以形成子存储系统140-1，而条带130-3和条带130-4可以形成子存储系统140-G。针对不同的子存储系统140可以独立地或合并地执行数据恢复操作，其具体细节将在下文中详细描述。应当理解，虽然处于示例的目的，图1中仅示出了子存储系统包括2个条带，但条带的数目不限于此，并且可以是不小于1的任何自然数。

存储系统100还包括控制模块150。在某些实施例中，控制模块150可以实现在存储系统100的控制路径中。然而，控制模块150的实现不限于此。例如，控制模块150也可以实现在存储系统100的数据路径中，或实现在存储系统100的控制路径和数据路径两者中。控制模块150可以用于管理存储系统100。例如，控制模块150可以调度针对存储系统100中的存储设备120的后台操作(诸如重建、复制、验证等)，以保证数据可靠性。

具体地，在某些实施例中，如果存储设备120具有错误，则存储设备120将被标记为寿命终止(End of Life，EOL)。例如，在存储设备120的错误的数目或严重性等达到预定阈值的情况下，存储设备120将被标记为寿命终止。如图所示，存储设备120-2被示出为寿命终止存储设备。

控制模块150在检测到存储设备120寿命终止时，将调度针对存储设备120的主动复制操作。在主动复制操作中，存储系统100将从资源池中选择备用存储设备(也称为“交换存储设备”)。如图所示，存储设备120-1被示出为交换存储设备。存储系统100将寿命终止的存储设备中的区块中的数据迁移到所选择的交换存储设备中。在迁移完成之后，所选择的交换存储设备将替换寿命终止的存储设备。例如，存储系统100可以将存储设备120-2中的数据迁移到存储设备120-1中，并且使用存储设备120-1替换存储设备120-2。

此外，在存储设备120发生故障或损坏的情况下，控制模块150可以调度针对存储设备120的重建操作。如图所示，存储设备120-4被示出为发生故障的存储设备。在资源池的每个存储设备120中，一定数目的区块被保留为备用区块。在重建操作中，存储系统100将选择备用区块来重建发生故障的存储设备中的数据。备用区块的选择也需要遵守区块分配策略，即位于相同条带130中的区块分布在资源池中的不同存储设备120中。例如，存储设备120-4中的区块DE 0-DE4中的数据可以被重建在不同的存储设备120-7、120-5、120-N、120-6、120-1中的备用区块中。

在某些实施例中，控制模块150所调度的后台操作串行执行并且具有优先级。当需要运行更高优先级的后台操作时，已经运行的更低优先级的后台操作必须暂停，并且在更高优先级的后台操作完成之后恢复。在存储系统100的示例实现中，重建操作的优先级高于主动复制操作的优先级。原因在于，数据可靠性取决于两点：1)物理存储设备可靠性；2)数据冗余。许多类型的错误可以降低数据可靠性。一些错误甚至可能导致数据丢失。因此，当错误发生时，存储系统100将尝试恢复丢失的数据。

传统上，存储系统仅基于数据冗余来恢复丢失的数据，以提高数据可靠性。因此，存储系统优先进行重建操作，直到重建操作完成，才进行主动复制操作。在这种情况下，当存储系统正在针对资源池中的寿命终止的存储设备进行主动复制操作时，如果另一存储设备发生故障，则正在进行的主动复制操作将暂停，并且针对发生故障的另一存储设备的重建操作开始。直到该重建操作完成，暂停的主动复制操作才恢复。例如，如果正在进行针对存储设备120-1的主动复制操作时，存储设备120-4发生故障，则主动复制操作将暂停直到针对存储设备120-4的重建操作完成为止。

然而，传统存储系统并未考虑物理存储设备的错误对数据冗余的影响。具体地，具有最高数据丢失风险的条带不是仅包括位于发生故障的存储设备中的区块的条带，而是既包括发生故障的区块、又包括位于寿命终止的存储设备中的区块的条带。例如条带130-1，其既包括位于发生故障的存储设备120-4中的区块，又包括位于寿命终止的存储设备120-2中的区块。

传统存储系统无法区分这两种条带之间的差异。对于既包括发生故障的区块、又包括寿命终止的区块的条带，由于后台操作串行执行，优先执行的重建操作将从该条带所包括的多个区块读取数据以重建到备用区块中。在重建操作之后，主动复制操作还将再次从该条带所包括的多个区块读取数据以复制到交换区块中。例如，在重建操作和主动复制操作中，条带130-1中的5个区块都被读取。在这种情况下，该条带中的寿命终止的区块被两次读取。这两次读取加重了寿命终止的区块所位于的存储设备的负载，并且很可能加速该存储设备故障。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，本公开的示例实施例提出了一种用于管理存储系统的方案。该方案基于数据冗余和物理存储设备可靠性两者，来定义条带的数据丢失风险水平。此外，该方案在确定条带的风险水平高于预定阈值的情况下，对该条带执行结合了重建操作和主动复制操作的重建复制操作。在重建复制操作中，该条带所包括的多个区块读取数据，以将发生故障的区块的数据重建到备用区块中，并且将寿命终止的区块的数据复制到交换区块中。

以此方式，可以避免对寿命终止的存储设备的额外读取，从而减少数据丢失的可能性，并且可以减少对条带中的区块进行重建和复制所花费的时间，从而提高存储系统的整体性能。

图2示意性示出了根据本公开的一个实现方式的用于管理存储系统的方法200的流程图。例如，该方法200可以由控制模块150来执行。应当理解的是，该方法200还可以包括未示出的附加步骤和/或可以省略所示出的步骤，本公开的范围在此方面不受限制。

在210，控制模块150获取存储系统100中的条带130中的区块的状态信息。状态信息可以指示区块中是否包括故障区块和寿命终止区块中的至少一个。在某些实施例中，条带130中的区块的状态信息可以被存储在记录中。在存储设备120检测到其寿命终止或发生故障的情况下，存储系统100可以在存储条带130的状态信息的记录中将条带130位于寿命终止或发生故障的存储设备120中的区块标记为寿命终止或发生故障。然后，控制模块150可以以预定时间间隔从该记录获取状态信息。然而，控制模块150获取状态信息的方式不限于此。例如，在存储设备120检测到其寿命终止或发生故障的情况下，存储系统100可以以事件、通知或任何其他方式，使得控制模块150获取状态信息。

然后，控制模块150可以基于所获取的状态信息，确定条带130的风险水平。风险水平指示条带130丢失数据的可能性。如上所述，数据可靠性取决于数据冗余和存储设备可靠性。从数据冗余的角度来看，具有冗余的数据具有更低的数据丢失风险。从存储设备的角度来看，存储在更可靠存储设备中的数据具有更低的数据丢失风险。因此，条带130的数据丢失风险水平取决于条带130所包括的区块的数据冗余和存储设备，从而控制模块150可以基于条带130是否包括故障区块和/或寿命终止区块来确定数据丢失的风险水平。可以理解，在考虑数据和存储设备可靠性两者的情况下，可以更准确地评估条带130丢失数据的风险。

具体地，在220，控制模块150可以确定风险水平是否高于第一阈值。在某些实施例中，在状态信息指示条带130包括故障区块和寿命终止区块两者的情况下，控制模块150可以确定条带130的风险水平高于第一阈值(高风险水平)。例如，条带130-1既包括发生故障的存储设备120-4中的故障区块DE 0，又包括寿命终止的存储设备120-2中的寿命终止区块DE 0，因此条带130-1可以被确定为具有高于第一阈值的风险水平。

在控制模块150确定风险水平不高于第一阈值的情况下，在230，控制模块150可以进一步确定风险水平是否高于第二阈值。在状态信息指示条带130仅包括故障区块的情况下，控制模块150可以确定条带130的风险水平低于第一阈值并且高于第二阈值(中等风险水平)。例如，条带130-3仅包括发生故障的存储设备120-4中的故障区块DE1，因此条带130-3可以被确定为具有低于第一阈值并且高于第二阈值的风险水平。

在状态信息指示条带130仅包括寿命终止区块的情况下，控制模块150可以确定条带130的风险水平低于第二阈值(低风险水平)。例如，条带130-4仅包括寿命终止的存储设备120-2中的故障区块DE4，因此条带130-4可以被确定为具有低于第二阈值的风险水平。此外，在状态信息指示条带130既不包括故障区块，也不包括寿命终止区块的情况下，控制模块150可以确定条带130不存在风险。

针对条带130存在风险的情况，控制模块150可以分别使得存储系统执行重建复制操作、重建操作和主动复制操作。在240，在风险水平被确定为高于第一阈值的情况下，控制模块150使得存储系统基于条带130中的其他可用区块重建与故障区块对应的数据，将所重建的数据写入与故障区块所在的存储设备(称为“第一存储设备”)不同的存储设备(称为“第二存储设备”)中的备用区块，以及将与寿命终止区块对应的数据写入与寿命终止区块所在的存储设备(称为“第三存储设备”)不同的交换存储设备(称为“第四存储设备”)中的交换区块。在这种情况下，第四存储设备可以替换第三存储设备。

这样，在存储系统100针对高风险水平的条带130进行数据恢复的情况下，存储系统100将从寿命终止的存储设备读取寿命终止区块中的数据用于支持重建故障区块的数据。同时，从寿命终止的存储设备读取的数据也被复制到交换存储设备中的交换区块。因此，数据只从寿命终止的存储设备读取一次，重建操作和主动复制操作同时执行，使得可以在没有针对寿命终止区块的额外输入输出的情况下恢复条带130的可靠性，减少恢复数据所花费的时间，并且更快地降低数据丢失的风险。

在250，在风险水平被确定为低于第一阈值并且高于第二阈值的情况下，控制模块150使得存储系统基于条带130中的其他可用区块重建与故障区块对应的数据，将所重建的数据写入与故障区块所在的第一存储设备不同的第二存储设备中的备用区块。在260，在风险水平被确定为低于第二阈值的情况下，控制模块150使得存储系统将与寿命终止区块对应的数据写入与寿命终止区块所在的第三存储设备不同的第四存储设备中的交换区块。在这种情况下，第四存储设备可以替换第三存储设备。

在传统存储系统中，重建操作和主动复制操作将两次从寿命终止的存储设备读取数据以重建发生故障的存储设备中的数据，并且以复制到交换存储设备，这不仅导致了可能加速寿命终止的存储设备加速劣化的额外数据输入输出，并且重建操作和主动复制操作之间还存在长时间的高风险水平时间窗口。然而，本公开可以恢复具有最高数据丢失风险水平的条带的数据可靠性，以避免寿命终止的存储设备上可能加速该存储设备劣化的额外数据输入输出。

下面将结合图3A-3D详细描述控制模块150对条带130执行重建复制操作、重建操作和复制操作的一个具体示例。图3A示意性示出了根据本公开的一个实现方式的存储系统300的初始状态的示意图。存储系统300是存储系统100的一种示例实现。具体地，存储系统300包括资源池320。资源池320包括8个存储设备320-1到320-8(在下文中统称为“存储设备320”)，其中存储设备320-1是新交换入的交换存储设备，并且存储设备320-4是发生故障的存储设备。4个子存储系统340-1到340-4(在下文中统称为“子存储系统340”)被创建在资源池310上。子存储系统340-1由条带330-1和条带330-2组成。子存储系统340-2由条带330-3和条带330-4组成。子存储系统340-3由条带330-5和条带330-6组成。此外，子存储系统340-4由条带330-7组成。

如图所示，由于条带330-2包括位于寿命终止的存储设备320-2中的区块DE 3和位于发生故障的存储设备320-4中的区块DE 3两者，因此控制模块350可以确定条带330-2的风险水平高于第一阈值。

此外，由于条带330-1包括位于发生故障的存储设备320-4中的区块DE 0，条带330-3包括位于发生故障的存储设备320-4中的区块DE 1，条带330-6包括位于发生故障的存储设备320-4中的区块DE 4，以及条带330-7包括位于发生故障的存储设备320-4中的区块DE 2，因此控制模块350可以确定条带330-1、条带330-3、条带330-6、和条带330-7的风险水平低于第一阈值并且高于第二阈值。

进一步地，由于条带330-4包括位于寿命终止的存储设备320-2中的区块DE 4，以及条带330-5包括位于寿命终止的存储设备320-2中的区块DE 2，因此控制模块350可以确定条带330-4和条带330-5的风险水平低于第二阈值。此时，控制模块350可以基于所确定的风险水平来调度要对条带进行的数据恢复操作。

针对高风险水平的条带的恢复

如图3B所示，控制模块350使得存储系统300读取条带330-2中处位于发生故障的存储设备320-4中的区块DE 3之外的所有可用区块的数据，然后对条带330-2执行重建操作以基于条带330-2中的可用区块重建条带330-2中的位于发生故障的存储设备320-4中的区块DE 3中的数据，并且将所重建的数据写入与发生故障的存储设备320-4不同的存储设备320-6中的备用区块DE N中。同时，控制模块350使得存储系统100对条带330-2执行主动复制操作，以将位于寿命终止的存储设备320-2中的区块DE 3的数据写入交换存储设备320-1中的交换区块DE 3。

针对中等风险水平的条带的恢复

如图3C所示，针对条带330-1，控制模块350使得存储系统300读取条带330-1中处位于发生故障的存储设备320-4中的区块DE 0之外的所有可用区块的数据，然后对条带330-1执行重建操作以基于条带330-1中的可用区块重建条带330-1中的位于发生故障的存储设备320-4中的区块DE 0中的数据，并且将所重建的数据写入与发生故障的存储设备320-4不同的存储设备320-6中的备用区块DE N中。

类似地，针对条带330-3，控制模块350使得存储系统300重建条带330-3中的位于发生故障的存储设备320-4中的区块DE 1中的数据，并且将所重建的数据写入存储设备320-5中的备用区块DE N中。进一步地，针对条带330-6，控制模块350使得存储系统300重建条带330-6中的位于发生故障的存储设备320-4中的区块DE 4中的数据，并且将所重建的写入存储设备320-1中的备用区块DE N中。更进一步地，针对条带330-7，控制模块350使得存储系统300重建条带330-7中的位于发生故障的存储设备320-4中的区块DE 2中的数据，并且将所重建的数据写入存储设备320-8中的备用区块DE N中。

针对低风险水平的条带的恢复

如图3D所示，针对条带330-4，控制模块350使得存储系统300将条带330-4中的位于寿命终止的存储设备320-2中的区块DE 4的数据写入交换存储设备320-1中的交换区块DE 4。类似地，针对条带330-5，控制模块350使得存储系统300将条带330-5中的位于寿命终止的存储设备320-2中的区块DE 2的数据写入交换存储设备320-1中的交换区块DE 2。

在某些实施例中，为了充分利用存储系统的硬件资源，所有子存储系统可以同时执行数据恢复操作。在这种情况下，并非根据整个存储系统中的条带所具有的风险水平来针对条带执行数据恢复操作，而是仅根据单个子存储系统中的条带所具有的风险水平来针对条带执行数据恢复操作。例如，在子存储系统340-1中具有相对最高风险水平的条带为条带330-2(其具有高风险水平)，而在子存储系统340-2中具有相对最高风险水平的条带为条带330-3(其具有中等风险水平)。虽然条带330-2的风险水平高于条带330-3的风险水平，但是条带330-2和条带330-3分别为子存储系统340-1和子存储系统340-2中具有相对最高风险水平的条带，因此针对条带330-2和条带330-3的数据恢复操作可以同时执行。

本公开的方案可以在存储系统具有寿命终止的存储设备和发生故障的存储设备的情况下，减少存储系统的数据丢失风险，因为它减少了恢复存储设备可靠性所花费的时间。此外，本公开的方案可以减少后台操作所花费的时间，因为重建和主动复制操作的部分工作被合并作为重建复制操作。进一步地，因为重建和主动复制操作使用从寿命终止的存储设备读取的数据，本公开的方案可以减少数据读取次数，从而避免加重寿命终止的磁盘的负载。

图4示出了可以用来实施本公开内容的实施例的示例设备400的示意性框图。例如，如图1所示的控制模块150可以由设备400来实施。如图所示，设备400包括中央处理单元(CPU)410，其可以根据存储在只读存储器(ROM)420中的计算机程序指令或者从存储单元480加载到随机访问存储器(RAM)430中的计算机程序指令，来执行各种适当的动作和处理。在RAM 430中，还可存储设备400操作所需的各种程序和数据。CPU 410、ROM 420以及RAM430通过总线440彼此相连。输入/输出(I/O)接口450也连接至总线440。

设备400中的多个部件连接至I/O接口450，包括：输入单元460，例如键盘、鼠标等；输出单元470，例如各种类型的显示器、扬声器等；存储单元480，例如磁盘、光盘等；以及通信单元490，例如网卡、调制解调器、无线通信收发机等。通信单元490允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200，可由处理单元410执行。例如，在一些实施例中，方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元480。在一些实施例中，计算机程序的部分或者全部可以经由ROM 420和/或通信单元490而被载入和/或安装到设备400上。当计算机程序被加载到RAM 430并由CPU 410执行时，可以执行上文描述的方法200的一个或多个动作。

本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于管理存储系统的方法，所述方法包括：

获取所述存储系统中的单个条带中的区块的状态信息，所述状态信息指示所述区块中是否包括故障区块和寿命终止区块中的至少一个，其中获取所述状态信息包括以预定时间间隔从存储所述状态信息的记录获取所述状态信息；

基于所述状态信息，确定所述条带的风险水平，所述风险水平指示所述条带丢失数据的可能性，其中确定所述风险水平包括响应于所述状态信息指示所述区块中包括故障区块和寿命终止区块两者，确定所述风险水平高于第一阈值；以及

响应于所述风险水平高于所述第一阈值，使得所述存储系统：

重建与所述故障区块对应的数据，并且将所述数据写入与所述故障区块所在的第一存储设备不同的第二存储设备中的备用区块，其中所述第一存储设备包括故障存储设备，以及

将与所述寿命终止区块对应的数据写入与所述第二存储设备和所述寿命终止区块所在的第三存储设备两者不同的第四存储设备中的交换区块，所述第三存储设备包括被标记为与所述第一存储设备不同的寿命终止，并且所述第四存储设备用于替换所述第三存储设备；

其中响应于所述风险水平高于所述第一阈值，和与所述寿命终止区块对应的所述数据向所述第四存储设备中的所述交换区块的所述写入同时地，所述存储系统被使得重建与所述故障区块对应的所述数据并且将重建的所述数据写入所述第二存储设备中的所述备用区块。

2.根据权利要求1所述的方法，其中确定所述风险水平还包括：

响应于所述状态信息指示所述区块中包括故障区块，确定所述风险水平低于所述第一阈值并且高于第二阈值；以及

响应于所述状态信息指示所述区块中包括寿命终止区块，确定所述风险水平低于所述第二阈值。

3.根据权利要求1所述的方法，还包括：

响应于所述风险水平低于所述第一阈值并且高于第二阈值，使得所述存储系统重建与所述故障区块对应的数据，并且将所述数据写入所述备用区块。

4.根据权利要求1所述的方法，还包括：

响应于所述风险水平低于第二阈值，使得所述存储系统将与所述寿命终止区块对应的数据写入所述交换区块。

5.根据权利要求1所述的方法，其中响应于所述风险水平高于所述第一阈值，所述寿命终止区块中的所述数据仅被读取一次以执行以下两者：

重建与所述故障区块对应的所述数据并且将重建的所述数据写入所述备用区块；以及

将与所述寿命终止区块对应的所述数据写入所述交换区块。

6.根据权利要求5所述的方法，其中重建与所述故障区块对应的所述数据包括基于所述条带中的其他可用区块来重建与所述故障区块对应的所述数据。

7.根据权利要求6所述的方法，其中所述条带中的所述其他可用区块包括所述寿命终止区块。

8.一种用于管理存储系统的设备，包括：

至少一个处理器；

易失性存储器；以及

与所述至少一个处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被所述至少一个处理器执行时使得所述设备执行动作，所述动作包括：

9.根据权利要求8所述的设备，其中确定所述风险水平还包括：

10.根据权利要求8所述的设备，所述动作进一步包括：

11.根据权利要求8所述的设备，所述动作进一步包括：

12.一种非瞬态计算机可读介质，存储用于管理存储系统的一组指令，所述一组指令当由计算机化电路系统执行时，使得所述计算机化电路系统执行以下方法：

获取所述存储系统中的单个条带中的一组区块的状态信息，所述状态信息指示所述区块中是否包括故障区块和寿命终止区块中的至少一个，其中获取所述状态信息包括以预定时间间隔从存储所述状态信息的记录获取所述状态信息；

基于所述状态信息，确定所述条带的风险水平，所述风险水平指示存储在所述条带中的数据丢失的可能性，其中确定所述风险水平包括响应于所述状态信息指示所述区块中包括故障区块和寿命终止区块两者，确定所述风险水平高于第一阈值；以及

将与所述寿命终止区块对应的数据写入与所述第二存储设备和所述寿命终止区块所在的第三存储设备不同的第四存储设备中的交换区块，所述第三存储设备包括被标记为与所述第一存储设备不同的寿命终止，并且所述第四存储设备用于替换所述第三存储设备；