CN111857541A

CN111857541A - 用于管理存储系统的方法、设备和计算机程序产品

Info

Publication number: CN111857541A
Application number: CN201910341002.XA
Authority: CN
Inventors: 高宏坡; 高健; 徐鑫磊
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2020-10-30
Also published as: US11829247B2; US20200341845A1

Abstract

本公开涉及一种用于管理存储系统的方法、设备和计算机程序产品。在一种方法中，在存储系统的资源池中包括的多个存储设备中检测故障存储设备，多个存储设备分别位于资源池中的第一分组和第二分组中。在故障存储设备中确定已经被分配用于建立存储系统中的条带的区块。基于条带与条带中的多个区块之间的映射关系，从多个存储设备中的相应存储设备中包括的相应保留区块中选择空闲保留区块，相应保留区块在第一分组和第二分组之间被共享。将区块中的数据重建至选择的空闲保留区块。利用上述示例性实现，可以在资源池中的各个存储设备之间共享保留存储区，以便提高存储设备中的可分配空间。进一步，提供了一种用于管理存储系统的设备和计算机程序产品。

Description

用于管理存储系统的方法、设备和计算机程序产品

技术领域

本公开的各实现方式涉及存储管理，更具体地，涉及用于管理存储系统(例如，独立磁盘冗余阵列(Redundant Array of Independent Disks，RAID))中的保留存储区的方法、设备和计算机程序产品。

背景技术

随着数据存储技术的发展，各种数据存储设备已经能够向用户提供越来越高的数据存储能力，并且数据访问速度也有了很大程度的提高。在提高数据存储能力的同时，用户对于数据可靠性和存储系统的响应时间也提供了越来越高的需求。目前，已经开发出了基于冗余磁盘阵列的多种数据存储系统来提高数据的可靠性。当存储系统中的一个或者多个磁盘出现故障时，可以从其他正常操作的磁盘上的数据来恢复出故障磁盘中的数据。

目前已经开发出了映射独立磁盘冗余阵列(Mapped RAID)。在该映射RAID中，磁盘是一个逻辑概念并且可以包括多个区块(extent)。一个逻辑磁盘中包括的多个区块可以分布在资源池中的不同物理存储设备上。对于映射RAID的一个条带中的多个区块而言，该多个区块应当分布在不同的物理存储设备上，以便当该多个区块中的一个区块所在的物理存储设备出现故障时，可以执行重建操作以便从其他区块所在的物理存储设备中恢复数据。

将会理解，为了确保在资源池中存储设备出现故障时，能够迅速地将故障存储设备中的数据重建至资源池中的空闲存储空间，通常需要在资源池中的各个存储设备中设置保留存储区。然而，在存储系统的正常运行期间，保留存储区并不能被有效地利用。

发明内容

因而，期望能够开发并实现一种以更为有效的方式来管理存储系统的技术方案。期望该技术方案能够与现有的存储系统相兼容，并且通过改造现有存储系统的各种配置，来以更为有效的方式管理存储系统。

根据本公开的第一方面，提供了一种用于管理存储系统的方法。在该方法中，在存储系统的资源池中包括的多个存储设备中检测故障存储设备，多个存储设备分别位于存储系统的第一分组和第二分组中。在故障存储设备中确定已经被分配用于建立存储系统中的条带的区块。基于条带与条带中的多个区块之间的映射关系，从多个存储设备中的相应存储设备中包括的相应保留区块中选择空闲保留区块，相应保留区块在第一分组和第二分组之间被共享。将区块中的数据重建至选择的空闲保留区块。

根据本公开的第二方面，提供了一种用于管理存储系统的设备。该设备包括：至少一个处理器；易失性存储器；以及与至少一个处理器耦合的存储器，存储器具有存储于其中的指令，指令在被至少一个处理器执行时使得设备执行动作。该动作包括：在存储系统的资源池中包括的多个存储设备中检测故障存储设备，多个存储设备分别位于存储系统的第一分组和第二分组中；在故障存储设备中确定已经被分配用于建立存储系统中的条带的区块；基于条带与条带中的多个区块之间的映射关系，从多个存储设备中的相应存储设备中包括的相应保留区块中选择空闲保留区块，相应保留区块在第一分组和第二分组之间被共享；以及将区块中的数据重建至选择的空闲保留区块。

根据本公开的第三方面，提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，机器可执行指令用于执行根据本公开的第一方面的方法。

附图说明

结合附图并参考以下详细说明，本公开各实现方式的特征、优点及其他方面将变得更加明显，在此以示例性而非限制性的方式示出了本公开的若干实现方式。在附图中：

图1A和1B分别示意性示出了其中可以实现本公开的方法的存储系统的示意图；

图2示意性示出了其中可以实现本公开的方法的示例性环境的框图；

图3示意性示出了图2中的存储资源池中的存储设备中的区块的图示；

图4A示意性示出了根据一个技术方案的存储系统中的保留存储区的示意图；

图4B示意性示出了根据本公开一个实现方式的存储系统中的保留存储区的示意图；

图5示意性示出了根据本公开的一个实现方式的用于管理存储系统的方法的流程图；

图6示意性示出了根据本公开的一个实现方式的条带与条带中的多个区块之间的映射关系的框图；

图7A示意性示出了根据本公开的一个实现方式的用于将故障设备中的区块重建至位于故障设备所在分组中的存储设备的框图；

图7B示意性示出了根据本公开的一个实现方式的用于将故障设备中的区块重建至位于故障设备所在分组以外的其他分组中的存储设备的框图；

图8示意性示出了根据本公开的一个实现方式的用于重建故障设备中的区块的框图；

图9示意性示出了根据本公开的一个实现方式的条带与条带中的多个区块之间的映射关系的变化的框图；

图10示意性示出了根据本公开的一个实现方式的迁移条带的操作的框图；以及

图11示意性示出了根据本公开的示例性实现的用于管理存储系统的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反，提供这些实现是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本公开的上下文中，存储系统可以是基于RAID的存储系统。基于RAID的存储系统可以将多个存储设备组合起来，成为一个磁盘阵列。通过提供冗余的存储设备，可以使得整个磁盘组的可靠性大大超过单一的存储设备。RAID可以提供优于单一的存储设备的各种优势，例如，增强数据整合度，增强容错功能，增加吞吐量或容量，等等。RAID存在多个标准，例如RAID-1，RAID-2，RAID-3，RAID-4，RAID-5，RAID-6，RAID-10，RAID-50等等。关于RAID级别的更多细节，本领域技术人员例如可以参见https://en.wikipedia.org/wiki/Standard_RAID_levels、以及https://en.wikipedia.org/wiki/Nested_RAID_levels等。

图1A示意性示出了其中可以实现本公开的方法的存储系统100A的示意图。在图1A所示的存储系统中，以包括五个独立存储设备(110、112、114、116以及118)的RAID-5(4D+1P，其中4D表示存储系统中包括四个存储设备来用于存储数据，1P表示存储系统中包括一个存储设备来用于存储P校验)阵列为示例，来说明RAID的工作原理。应当注意，尽管图1A中示意性示出了五个存储设备，在其他的实现方式中，根据RAID的等级不同，还可以包括更多或者更少的存储设备。尽管图1A中示出了条带120、122、124、…、126，在其他的示例中，RAID系统还可以包括不同数量的条带。

在RAID中，条带跨越多个物理存储设备(例如，条带120跨越存储设备110、112、114、116以及118)。可以简单地将条带理解为多个存储设备中的满足一定地址范围的存储区域。在条带120中存储的数据包括多个部分：存储在存储设备110上的数据块D00、存储在存储设备112上的数据块D01、存储在存储设备114上的数据块D02、存储在存储设备116上的数据块D03、以及存储在存储设备118上的数据块P0。在此示例中，数据块D00、D01、D02、以及D03是被存储的数据，而数据块P0是被存储数据的P校验。

在其他条带122和124中存储数据的方式也类似于条带120，不同之处在于，有关其他数据块的校验可以存储在不同于存储设备118的存储设备上。以此方式，当多个存储设备110、112、114、116以及118中的一个存储设备出现故障时，可以从其他的正常的存储设备中恢复出故障设备中的数据。

图1B示意性示出了存储系统110A的重建过程的示意图100B。如图1B所示，当一个存储设备(例如，以阴影示出的存储设备116)出现故障时，可以从其余的正常操作的多个存储设备110、112、114、118中恢复数据。此时，可以向RAID中加入新的后备存储设备118B来替代存储设备118，以此方式，可以将恢复的数据写入118B并实现系统的重建。

应当注意，尽管在上文中参见图1A和图1B描述了包括5个存储设备(其中4个存储设备用于存储数据，1个存储设备用于存储校验)的RAID-5的存储系统，根据其他RAID等级的定义，还可以存在包括其他数量的存储设备的存储系统。例如，基于RAID-6的定义，可以利用两个存储设备来分别存储校验P和Q。又例如，基于三重校验RAID的定义，可以利用三个存储设备来分别存储校验P、Q和R。

随着分布式存储技术的发展，图1A和1B所示的存储系统中的各个存储设备110、112、114、116以及118可以不再局限于物理存储设备，而是可以是虚拟存储设备。例如，存储设备110上的各个区块可以分别来自于资源池中的不同的物理存储设备(在下文中将简称为存储设备)。图2示意性示出了其中可以实现本公开的方法的示例性环境200的框图。如图2所示，存储资源池270可以包括多个物理存储设备210、220、230、240、250、…、260。此时，该多个存储设备中的存储空间可以被分配给多个存储系统290、…、292。此时，存储系统290、…、292可以经由网络280来访问存储资源池270中的各个存储设备中的存储空间。

将会理解，资源池270中可以包括大量的存储设备。当存储设备中的数量过大时，资源池270中的设备出现故障的概率将会增大。因而，可以将资源池270中的各个存储设备划分为第一分组272和第二分组274。例如，第一分组272可以包括存储设备210、220、230、……、以及240，而第二分组274可以包括存储设备250、……、以及260等。

分组中的存储设备的数量的最小值将依赖于存储系统的类型，例如在4+1的RAID存储系统中，最小值可以设置为4+1＝5。又例如，在4+2的RAID存储系统中，最小值可以设置为4+2＝6。基于历史经验，可以分组中的存储设备的数量的最大值设置为25或者其他数值。此时，存储系统中的条带可以来自相同的分组中的存储设备。例如，存储系统290中的各个条带中的区块可以来自于第一分组272中的存储设备，而存储系统292中的各个条带中的区块可以来自于第二分组274中的存储设备。

图3示意性示出了如图2所示的存储资源池270的更多信息的图示。资源池270可以包括多个存储设备210、220、230、240、250、…、260。每个存储设备可以包括多个区块，其中空白区块(如图例360所示)表示空闲的区块，以条纹示出的区块(如图例362所示)表示用于图1中的存储系统110A的第一条带的区块，而以阴影示出的区块(如图例364所示)表示用于图1中的存储系统110A的第二条带的区块。此时，用于第一条带的区块312、322、332、342、352分别用于存储第一条带的数据块D00、D01、D02、D03和校验P0。用于第二条带的区块324、334、344、366和314分别用于存储第二条带的数据块D10、D11、D12、D13和校验P1。

如图3所示，在各个存储设备中还可以存在预留的保留区370，以便用于在资源池中的一个存储设备出现故障时，可以选择各个存储设备中的保留区370中的区块，来重建故障存储设备中的各个区块。

应当注意，图3仅以4D+1P的RAID-5存储系统为示例示出了各个条带中的区块如何分布在资源池的多个存储系统中。当采用基于其他RAID等级时，本领域技术人员可以基于上文的原理来实现具体细节。例如，在6D+1P+1Q的RAID-6存储系统中，每个条带中的8个区块可以分布在多个存储设备上，进而保证多个存储设备的负载均衡。

将会理解，为了确保在资源池270中的存储系统出现故障时能够及时将故障存储设备中的区块中的数据恢复至正常存储设备中，可以在各个存储设备中设置保留存储区。将会理解，当一个存储设备中的全部区块都已经被分配时，如果该存储设备故障时，需要重建故障存储设备中的全部区块。因而，分组中的全部保留存储区的容量应当等于故障存储设备的容量。假设分组中包括N个存储设备并且每个存储设备的存储容量均为M，则此时每个存储设备中的保留存储区将为M/N。

参见图4A，该图4A示意性示出了根据一个技术方案的存储系统中的保留存储区的示意图400A。如图4A所示，对于第一分组272中的存储设备而言，可以设置保留存储区410。假设每个存储设备的容量均为M，第一分组272包括N1个存储设备，而第二分组274包括N2个存储设备，则此时第一保留存储区410和第二保留存储区420将分别包括总计M的存储空间。具体地，第一分组272中的每个存储设备中将包括容量为M/N1的保留存储区，而第二分组274中的每个存储设备中将包括容量为M/N2的保留存储区。随着资源池中的分组数量的提高，各个分组的保留存储区将会占用更多的空间。

为了解决上述缺陷，本公开的实现方式提供了一种用于管理存储系统的方法、设备和计算机程序产品。根据本公开的示例性实现，可以为多个分组设置共享的保留存储区。在下文中，将参见图4详细描述本公开的具体实现方式。图4B示意性示出了根据本公开一个实现方式的存储系统中的保留存储区的示意图400B。

在图4中，以阴影区域示出的部分表示可以在第一分组272和第二分组274中的各个存储设备之间共享的保留存储区430。由于仅允许存储设备210至260中的一个存储设备出现故障，因而当在第一分组272和第二分组274中的任何设备出现故障时，可以而将该故障存储设备中的区块重建至跨越分区的保留存储区430中。

利用上述示例性实现，不必针对每个分组单独设置保留存储区，而是可以针对全部分组设置共享的保留存储区，以便提高资源池270中的可分配存储空间的比例。继续上文的示例，当每个存储设备包括M的存储空间，第一分组272包括N1个存储设备而第二分组274包括N2个存储设备的情况下，此时保留存储区430将包括总计M的存储空间，并且每个存储设备将包括M/(N1+N2)的保留存储区。

相对于针对每个分组设置单独的保留存储区而言，按照本公开的示例性实施方式，可以提高资源池270中的各个存储设备中的可分配空间的大小，进而以更为有效的方式利用资源池中的存储设备。

在下文中，将参见图5详细描述如何管理存储系统的更多细节。图5示意性示出了根据本公开的一个实现方式的用于管理存储系统的方法500的流程图。在框510处，在存储系统的资源池中包括的多个存储设备中检测故障存储设备。多个存储设备分别位于资源池中的第一分组和第二分组中。将会理解，在此的资源池例如可以是如图2中所示的资源池270，并且该资源池270可以包括第一分组272和第二分组274，并且每个分组可以包括相同或者不同数量的存储设备。在存储系统是4+1的RAID的情况下，可以为分组中的存储设备的数量设置最大值25和最小值5。例如，第一分组272可以包括25个存储设备，而第二分组274可以包括5个存储设备。又例如，第一分组272和第二分组274中的存储设备的数量可以是5至25之间的数值。

根据本公开的示例性实现方式，可以利用多种方式来检测故障设备，例如，可以利用存储设备对于访问请求的响应时间来确定设备是否出现故障。在存储设备的运行期间，出于硬件和/或软件原因，存储设备可能会短暂地不能被访问。因而，例如可以设置预定时间间隔，并且在该预定时间间隔内多次尝试访问存储设备并且失败时，确定存储设备中出现故障。

在框520处，在故障存储设备中确定已经被分配用于建立存储系统中的条带的区块。将会理解，存储设备中可以包括大量区块，然而其中可能仅有一部分区块被分配用于建立存储系统中的条带。仅有已经被分配的区块中包括有效的数据，因而此时仅需要针对这些区块执行重建操作。

将会理解，存储系统可以包括一个或多个条带，并且每个条带可以包括多个区块。在此区块的数量将取决于RAID的类型。例如，在4D+1P的存储系统中，每个条带可以包括5个区块。在下文中，将参见图6描述条带与各个区块之间的映射关系。

图6示意性示出了根据本公开的一个实现方式的条带与条带中的多个区块之间的映射关系的框图600。在图6中，示意性示出了存储系统中的一个条带包括的5个区块的地址。该地址可以采用三段方式表示，例如对于地址“1：0：2”而言，第一段表示分组的标识符为“1”，第二段表示存储设备的标识符为“0”，而第三段表示区块的标识符为“2”。因而，该地址表示区块位于分组1中的存储设备0中的区块2。

在框530处，基于条带与条带中的多个区块之间的映射关系，从多个存储设备中的相应存储设备中包括的相应保留区块中选择空闲保留区块。在此的相应保留区块在第一分组272和第二分组274之间被共享。

根据本公开的示例性实现方式，存储系统是基于独立磁盘冗余阵列的存储系统。在基于RAID的存储系统中，由于只有条带中的各个区块分别处于不同的存储设备时，才能确保可以恢复条带中的数据。因此，在基于映射关系从相应保留区块中选择空闲保留区块时，可以从多个存储设备中的不同于多个区块所在的相应存储设备中的相应保留区块中，选择空闲保留区块。

对于如图6所示的条带而言，映射关系610指示了条带中的各个区块分别位于：分组1中的标识符分别为0、1、2、3、4的存储设备。此时，可以从资源池270中选择标识符为0-4以外的其他存储设备中选择空闲保留区块。例如，可以从资源池270中选择分组1中的标识符为5的存储设备中的空闲保留区块。

将会理解，资源池270中的多个存储设备已经被划分为第一分组272和第二分组274。为了便于管理，可以优先地从位于相同分组中的存储设备中选择空闲保留区块。根据本公开的示例性实现方式，可以确定故障存储设备所位于的分组；并且选择确定的分组中的存储设备中包括的空闲保留区块。

继续参见图6所示的条带的示例，基于映射关系610可知，条带中的各个区块均位于分组1中，此时，可以优先地选择分组1中的存储设备中的空闲保留区块。确定的分组中的空闲保留区块将会涉及以下情况：1)在确定的分组中的一个或多个存储设备中存在空闲保留区块；以及2)在确定的分组中的任何存储设备中均不存在空闲保留区块。

对于第一种情况而言，可以直接选择分组中的空闲保留区块，并且需要确保选择的区块位于不同于条带中的正常区块所在的存储设备。对于第二种情况而言，可以从确定的分组以外的其他分组中的存储设备中选择空闲保留区块。

在框540处，将区块中的数据重建至选择的空闲保留区块。将会理解，在此可以基于条带中的位于正常存储设备中的区块中的数据，来恢复故障区块中的数据。继而，可以将恢复的数据写入选择的空闲保留区块。在下文中，将分别参见图7A和图7B描述如何从相同和不同分组中的存储设备中选择空闲存储区块以及重建故障区块中的数据。

图7A示意性示出了根据本公开的一个实现方式的用于将故障设备中的区块重建至位于故障设备所在分组中的存储设备的框图700A。假设存储设备210出现故障，并且期望重建存储设备210中的区块710中的数据。此时，可以首先确定在第一分组272中的各个存储设备中是否存在空闲存储区块。如果存在，则可以直接从保留存储区430中的第一分组272中的存储设备中选择空闲存储区块712。

具体地，假设区块710所在的条带的映射关系如图6所示，并且地址为“1：0：2”的区块所在的存储设备(即，存储设备210)出现故障。基于映射关系610可知，条带中的正常区块分别位于第一分组272中的标识符为1-4的存储设备中，则此时可以选择位于标识符不同于1-4的存储设备中选择空闲存储区块712。继而，如箭头714所示，可以基于映射关系来恢复故障区块710中的数据，并将恢复的数据写入空闲存储区块712。

图7B示意性示出了根据本公开的一个实现方式的用于将故障设备中的区块重建至位于故障设备所在分组以外的其他分组中的存储设备的框图700B。继续图7A的示例，假设在第一分组272中的各个存储设备中均不存在空闲存储区块，则可以从保留存储区430中的第二分组274中的各个存储设备中选择空闲存储区块722。基于图6中的映射关系610可知，条带中的正常区块均位于第一分组272中，则此时可以资源池的第二分组274中选择任何存储设备中的空闲存储区块。继而，如箭头724所示，可以基于映射关系610来恢复故障区块710中的数据，并将恢复的数据写入空闲存储区块722。

根据本公开的示例性实现方式，可以确定条带中的区块以外的至少一个其他区块，并且可以基于至少一个其他区块中的数据重建区块中的数据。根据本公开的示例性实现方式，用于重建故障区块中的数据的操作类似于RAID的常规重建过程。在下文中将参加图8来详细描述。图8示意性示出了根据本公开的一个实现方式的用于重建故障设备中的区块的框图800。在图8中，区块810、820、830和840是故障区块710所在的条带中的正常区块，此时，可以基于这些正常区块810、820、830和840中的数据来恢复故障区块710中的数据，并将恢复的数据写入区块712。

根据本公开的示例性实现方式，假设区块810、820、830和840用于存储用户数据的数据部分，而区块710用于存储用户数据的校验部分，则此时可以基于区块810、820、830和840中的数据来重新确定校验部分，并将确定的校验部分写入区块712。

根据本公开的示例性实现方式，假设区块710、810、820、以及830用于存储用户数据的数据部分，而区块840用于存储用户数据的校验部分，则此时可以基于区块810、820、830中的数据部分和840中的校验部分，来恢复原本存储于区块710中的数据部分，并将恢复的数据部分写入区块712。

根据本公开的示例性实现方式，由于故障区块710中的数据已经被恢复至选择的空闲保留区块712，因而基于空闲保留区块712的地址更新映射关系。在下文中将参见图9描述更新映射关系的具体操作。图9示意性示出了根据本公开的一个实现方式的条带与条带中的多个区块之间的映射关系的变化的框图900。

在图9中，映射关系610示出了在检测到故障存储设备之前的条带与各个区块之间的映射关系，映射关系920示出了将故障区块中的数据恢复至选择的空闲保留区块后的映射关系。在存储系统运行的初始阶段，条带中的各个区块分别位于映射关系610示出的各个地址。在存储系统运行期间，检测到地址912处的区块所在的存储设备出现故障，并且可以采用上文描述的方法来选择另一分组中的存储设备中的空闲保留区块(地址为922)。继而，如箭头914所示，可以将地址912处的区块中的数据恢复至地址922处的区块。由于重建后的数据已经位于不同于地址912所在的区块，因而需要将条带的映射关系610更新至映射关系920。以此方式，可以确保映射关系920指示条带中的当前区块的最新地址。

将会理解，尽管可以允许资源池中临时出现故障存储设备，然而此时的资源池并非处于稳定状态，而是在检测到资源池中出现故障存储设备之后，应当尽快利用后备(backup)存储设备替换故障存储设备。根据本公开的示例性实现方式，在替换操作之后，可以出于多种目的而迁移存储系统中的各个条带。可以出于负载平衡目的执行迁移，例如，可以将位于工作负载较重的多个存储设备中的条带迁移至工作负载较轻的多个存储设备。进一步，尽管根据本公开的示例性实现方式允许存在跨越多个分组而分布的条带，然而出于管理考虑，需要尽量保证条带中的各个区块位于相同的分组。因而，可以将跨越多个分组的条带中的各个区块迁移至一个分组中的存储设备。

可以在存储系统中确定是否存在跨越第一分组中的存储设备和第二分组中的存储设备而分布的目标条带。如果存在目标条带，则可以进行迁移操作，以使得迁移的目标条带中的多个区块位于相同分组中的存储设备。根据本公开的示例性实现方式，可以设置特殊的迁移标记，以指示需要跨越分组迁移条带中的区块。

根据本公开的示例性实现方式，在确定存储系统中存在跨越第一分组和第二分组而分布的目标区块之后，可以设置迁移标记用于指示跨越第一分组和第二分组来迁移目标条带。将会理解，由于存储系统中还可以存在一个分组内的存储设备之间迁移的操作，在此迁移标记用于映射管理器区分两种类型的迁移操作。

可以向映射管理器发送迁移标记以指示映射管理器启动迁移。如果接收到来自映射管理器的迁移请求，跨越第一分组和第二分组来迁移目标条带。继续上文参见图9描述的示例，映射关系920指示条带跨越分组1和分组2而分布，此时可以首先确定位于各个分组中的区块的数量，并且基于确定的数量执行迁移。具体地，可以确定目标条带中的多个区块中的位于第一分组中的存储设备中的区块的第一数量，以及多个区块中的位于第二分组中的存储设备中的区块的第二数量。参见图9中的映射关系920，可以确定4个区块(地址分别为“1:1:1”、“1:2:1”、“1:3:5”以及“1:4:2”)位于分组1中的存储设备中，而仅有1个区块(地址为“2:0:2”)位于分组2中的存储设备。

可以迁移对应于数量较小的分组中的区块。具体地，如果确定第一数量小于第二数量，将位于第一分组中的存储设备中的至少一个区块迁移至第二分组中的存储设备。在上文的示例中，由于仅有一个区块位于分组2中，此时可以将分组2中的区块迁移至分组1中的存储设备。

在已经完成区块迁移之后，可以基于迁移后的至少一个区块的地址，更新目标条带与目标条带中的多个区块之间的映射关系。假设已经将地址922处的区块从分组2迁移至分组1中的地址“1:5:2”处，则如箭头924所示，可以基于地址“1:5:2”来更新映射关系以获得更新后的映射关系930。如映射关系930所示，此时条带中的5个区块均位于分组1中的不同存储设备中。

将会理解，上文仅示意性示出了目标条带跨越两个分组分布的情况。根据本公开的示例性实现方式，目标条带还可以跨越更多分组分布，此时，可以基于条带与区块的映射关系来将位于多个分组中的区块迁移至一个分组。

根据本公开的示例性实现方式，存储系统可以包括用于管理映射关系的映射管理器。在下文中，将参见图10描述迁移的更多细节。图10示意性示出了根据本公开的一个实现方式的迁移条带的操作的框图100。如图10所示，存储系统可以包括RAID管理器1010以用于管理资源池中的存储设备。进一步，存储系统还可以包括映射管理器1020以用于管理映射关系。

在1032处，可以在RAID管理器1010处确定存储系统中是否存在跨越分组的条带。如果确定存在跨越分组的条带，则在1034处向映射管理器1020发送迁移标记。将会理解，为了确保存储系统中的数据一致性，在迁移期间应当禁止对于被迁移区块所在条带中的各个区块的写入操作。因而，在1036处，映射管理器1020可以将条带中的各个区块锁定。

继而，在1038处，映射管理器1020可以向RAID管理器1010发送迁移请求，以指示需要跨越分组迁移条带中的区块。继而，可以在RAID管理器1010处执行迁移操作，并且在已经成功迁移相关区块后，向映射管理器1020发送迁移成功的确认。继而，映射管理器1020可以在接收到迁移成功的确认后，解锁在1036处被锁定的区块。

上文已经参见图10描述了如何跨越多个分组迁移条带中的区块。根据本公开的示例性实现方式，当一个分组中的各个存储设备的工作负载出现不平衡时，还可以在分组内部迁移条带，以便平衡各个存储设备的工作负载。进一步，还可以整体地迁移条带中的多个区块，例如，当一个分组中的各个存储设备均处于较高工作负载时，可以将该分组中的条带迁移至工作负载较低的分组中。

根据本公开的示例性实现方式，可以首先确定存储系统中的多个存储设备的相应工作负载。将会理解，在此的工作负载可以包括多方面的内容，例如可以包括各个存储设备中的存储空间的使用率、各个存储设备被访问的频率、各个存储设备中的处理资源的使用率、各个存储设备的磨损程度等等。

在下文中，将仅以存储设备的存储空间的使用率为示例进行描述。可以基于存储空间的使用率来从存储系统中的多个条带中选择目标条带，这里的目标条带包括的多个区块位于资源池中的使用率较高的多个存储设备。进一步，可以从资源池中选择使用率较低的多个存储设备，并且将目标条带迁移至资源池中的选择的多个存储设备。在此，选择的多个存储设备的使用率低于目标条带所在的多个存储设备的使用率。

根据本公开的示例性实现方式，可以由上文描述的映射管理器来启动迁移操作。映射管理器可以锁定目标条带中的各个区块，并且指示RAID管理器来启动迁移。继而，RAID管理器响应于接收到来自映射管理器的启动请求，将目标条带从第一多个存储设备迁移至第二多个存储设备。

在上文中已经参见图2至图10详细描述了根据本公开的方法的示例，在下文中将描述相应的设备的实现。根据本公开的示例性实现，提供了用于管理存储系统的设备。该设备包括：检测模块，配置用于在存储系统的资源池中包括的多个存储设备中检测故障存储设备，多个存储设备分别位于资源池中的第一分组和第二分组中；确定模块，配置用于在故障存储设备中确定已经被分配用于建立存储系统中的条带的区块；选择模块，配置用于基于条带与条带中的多个区块之间的映射关系，从多个存储设备中的相应存储设备中包括的相应保留区块中选择空闲保留区块，相应保留区块在第一分组和第二分组之间被共享；以及重建模块，配置用于将区块中的数据重建至选择的空闲保留区块。将会理解，在此的各个模块可以配置用于实现上文描述的各个方法的步骤，在下文中将不再赘述。

图11示意性示出了根据本公开的示例性实现的用于管理存储系统的设备1100的框图。如图所示，设备1100包括中央处理单元(CPU)1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序指令或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序指令，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法500，可由处理单元1101执行。例如，在一些实现中，方法500可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实现中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序被加载到RAM 1103并由CPU 1101执行时，可以执行上文描述的方法500的一个或多个步骤。备选地，在其他实现中，CPU 1101也可以以其他任何适当的方式被配置以实现上述过程/方法。

根据本公开的示例性实现，提供了一种用于管理存储系统的设备，包括：至少一个处理器；易失性存储器；以及与至少一个处理器耦合的存储器，存储器具有存储于其中的指令，指令在被至少一个处理器执行时使得设备执行动作。该动作包括：在存储系统的资源池中包括的多个存储设备中检测故障存储设备，多个存储设备分别位于资源池中的第一分组和第二分组中；在故障存储设备中确定已经被分配用于建立存储系统中的条带的区块；基于条带与条带中的多个区块之间的映射关系，从多个存储设备中的相应存储设备中包括的相应保留区块中选择空闲保留区块，相应保留区块在第一分组和第二分组之间被共享；以及将区块中的数据重建至选择的空闲保留区块。

根据本公开的示例性实现方式，存储系统是基于独立磁盘冗余阵列，以及其中基于映射关系从相应保留区块中选择空闲保留区块包括：从多个存储设备中的不同于多个区块所在的相应存储设备中的相应保留区块中，选择空闲保留区块。

根据本公开的示例性实现方式，从多个存储设备中的不同于多个区块所在的相应存储设备中的相应保留区块中，选择空闲保留区块包括：确定故障存储设备所位于的分组；以及选择分组中的存储设备中包括的空闲保留区块。

根据本公开的示例性实现方式，从多个存储设备中的不同于多个区块所在的相应存储设备中的相应保留区块中，选择空闲保留区块包括：响应于确定分组中的存储设备中不包括空闲保留区块，从分组以外的其他分组中的存储设备中选择空闲保留区块。

根据本公开的示例性实现方式，将区块中的数据重建至选择的空闲保留区块包括：确定条带中的区块以外的至少一个其他区块；基于至少一个其他区块中的数据重建区块中的数据；以及基于空闲保留区块的地址更新映射关系。

根据本公开的示例性实现方式，该动作进一步包括：响应于确定故障存储设备被正常存储设备替换，在存储系统中确定跨越第一分组中的存储设备和第二分组中的存储设备而分布的目标条带；以及迁移目标条带，以使得迁移的目标条带中的多个区块位于相同分组中的存储设备。

根据本公开的示例性实现方式，存储系统包括用于管理映射关系的映射管理器，以及其中迁移目标条带包括：设置用于指示跨越第一分组和第二分组来迁移目标条带的迁移标记；向映射管理器发送迁移标记以指示映射管理器启动迁移；以及响应于接收到来自映射管理器的迁移请求，跨越第一分组和第二分组来迁移目标条带。

根据本公开的示例性实现方式，跨越第一分组和第二分组来迁移目标条带包括：确定目标条带中的多个区块中的位于第一分组中的存储设备中的区块的第一数量以及多个区块中的位于第二分组中的存储设备中的区块的第二数量；响应于确定第一数量小于第二数量，将位于第一分组中的存储设备中的至少一个区块迁移至第二分组中的存储设备；以及基于迁移后的至少一个区块的地址，更新目标条带与目标条带中的多个区块之间的映射关系。

根据本公开的示例性实现方式，该动作进一步包括：确定存储系统中的多个存储设备的相应工作负载；基于相应工作负载从存储系统中的多个条带中选择目标条带，目标条带包括的多个区块位于资源池中的第一多个存储设备；将目标条带迁移至资源池中的第二多个存储设备，第二多个存储设备的工作负载低于第一多个存储设备的工作负载。

根据本公开的示例性实现方式，存储系统包括用于管理映射关系的映射管理器，以及其中将目标条带迁移至资源池中的第二多个存储设备包括：请求映射管理器以启动迁移；以及响应于接收到来自映射管理器的启动请求，将目标条带从第一多个存储设备迁移至第二多个存储设备。

根据本公开的示例性实现，提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，机器可执行指令用于执行根据本公开的方法。

根据本公开的示例性实现，提供了一种计算机可读介质。计算机可读介质上存储有机器可执行指令，当机器可执行指令在被至少一个处理器执行时，使得至少一个处理器实现根据本公开方法。

本公开可以是方法、设备、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实现中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实现的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各实现。

Claims

1.一种用于管理存储系统的方法，所述方法包括：

在所述存储系统的资源池中包括的多个存储设备中检测故障存储设备，所述多个存储设备分别位于所述资源池中的第一分组和第二分组中；

在所述故障存储设备中确定已经被分配用于建立所述存储系统中的条带的区块；

基于所述条带与所述条带中的多个区块之间的映射关系，从所述多个存储设备中的相应存储设备中包括的相应保留区块中选择空闲保留区块，所述相应保留区块在所述第一分组和所述第二分组之间被共享；以及

将所述区块中的数据重建至选择的所述空闲保留区块。

2.根据权利要求1所述的方法，其中所述存储系统是基于独立磁盘冗余阵列，以及其中基于所述映射关系从所述相应保留区块中选择所述空闲保留区块包括：

从所述多个存储设备中的不同于所述多个区块所在的相应存储设备中的相应保留区块中，选择所述空闲保留区块。

3.根据权利要求2所述的方法，其中从所述多个存储设备中的不同于所述多个区块所在的相应存储设备中的相应保留区块中，选择所述空闲保留区块包括：

确定所述故障存储设备所位于的分组；以及

选择所述分组中的存储设备中包括的空闲保留区块。

4.根据权利要求3所述的方法，其中从所述多个存储设备中的不同于所述多个区块所在的相应存储设备中的相应保留区块中，选择所述空闲保留区块包括：

响应于确定所述分组中的存储设备中不包括空闲保留区块，从所述分组以外的其他分组中的存储设备中选择所述空闲保留区块。

5.根据权利要求1所述的方法，其中将所述区块中的数据重建至选择的所述空闲保留区块包括：

确定所述条带中的所述区块以外的至少一个其他区块；

基于所述至少一个其他区块中的数据重建所述区块中的数据；以及

基于所述空闲保留区块的地址更新所述映射关系。

6.根据权利要求1所述的方法，进一步包括：

响应于确定所述故障存储设备被正常存储设备替换，在所述存储系统中确定跨越所述第一分组中的存储设备和所述第二分组中的存储设备而分布的目标条带；以及

迁移所述目标条带，以使得迁移的所述目标条带中的多个区块位于相同分组中的存储设备。

7.根据权利要求6所述的方法，其中所述存储系统包括用于管理所述映射关系的映射管理器，以及其中迁移所述目标条带包括：

设置用于指示跨越所述第一分组和所述第二分组来迁移所述目标条带的迁移标记；

向所述映射管理器发送所述迁移标记以指示所述映射管理器启动迁移；以及

响应于接收到来自所述映射管理器的迁移请求，跨越所述第一分组和所述第二分组来迁移所述目标条带。

8.根据权利要求7所述的方法，其中跨越所述第一分组和所述第二分组来迁移所述目标条带包括：

确定所述目标条带中的多个区块中的位于所述第一分组中的存储设备中的区块的第一数量以及所述多个区块中的位于所述第二分组中的存储设备中的区块的第二数量；

响应于确定所述第一数量小于所述第二数量，将位于所述第一分组中的存储设备中的至少一个区块迁移至所述第二分组中的存储设备；以及

基于迁移后的所述至少一个区块的地址，更新所述目标条带与所述目标条带中的多个区块之间的映射关系。

9.根据权利要求1所述的方法，进一步包括：

确定所述存储系统中的多个存储设备的相应工作负载；

基于所述相应工作负载从所述存储系统中的多个条带中选择目标条带，所述目标条带包括的多个区块位于所述资源池中的第一多个存储设备；

将所述目标条带迁移至所述资源池中的第二多个存储设备，所述第二多个存储设备的工作负载低于所述第一多个存储设备的工作负载。

10.根据权利要求9所述的方法，其中所述存储系统包括用于管理所述映射关系的映射管理器，以及其中将所述目标条带迁移至所述资源池中的所述第二多个存储设备包括：

请求所述映射管理器以启动迁移；以及

响应于接收到来自所述映射管理器的启动请求，将所述目标条带从所述第一多个存储设备迁移至所述第二多个存储设备。

11.一种用于管理存储系统的设备，包括：

至少一个处理器；

易失性存储器；以及

与所述至少一个处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被所述至少一个处理器执行时使得所述设备执行动作，所述动作包括：

将所述区块中的数据重建至选择的所述空闲保留区块。

12.根据权利要求11所述的设备，其中所述存储系统是基于独立磁盘冗余阵列，以及其中基于所述映射关系从所述相应保留区块中选择所述空闲保留区块包括：

13.根据权利要求12所述的设备，其中从所述多个存储设备中的不同于所述多个区块所在的相应存储设备中的相应保留区块中，选择所述空闲保留区块包括：

确定所述故障存储设备所位于的分组；以及

选择所述分组中的存储设备中包括的空闲保留区块。

14.根据权利要求13所述的设备，其中从所述多个存储设备中的不同于所述多个区块所在的相应存储设备中的相应保留区块中，选择所述空闲保留区块包括：

15.根据权利要求11所述的设备，其中将所述区块中的数据重建至选择的所述空闲保留区块包括：

确定所述条带中的所述区块以外的至少一个其他区块；

基于所述空闲保留区块的地址更新所述映射关系。

16.根据权利要求11所述的设备，其中所述动作进一步包括：

17.根据权利要求16所述的设备，其中所述存储系统包括用于管理所述映射关系的映射管理器，以及其中迁移所述目标条带包括：

18.根据权利要求17所述的设备，其中跨越所述第一分组和所述第二分组来迁移所述目标条带包括：

19.根据权利要求11所述的设备，其中所述动作进一步包括：

确定所述存储系统中的多个存储设备的相应工作负载；

20.一种计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，所述机器可执行指令用于执行根据权利要求1-10中的任一项所述的方法。