CN100517250C

CN100517250C - 控制raid阵列重建的装置和方法

Info

Publication number: CN100517250C
Application number: CNB2007101091370A
Authority: CN
Inventors: P·N·卡什曼
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-06-23
Filing date: 2007-06-13
Publication date: 2009-07-22
Anticipated expiration: 2027-06-13
Also published as: CN101093460A; US7698592B2; GB0612482D0; US20080010503A1

Abstract

一种控制具有多个通信路径的存储阵列的装置，所述装置包括：第一错误检测组件，用于检测具有多个端口并可操作以为抢先重建提供数据的设备处的错误；端口控制组件，用于在所述设备处禁用除单个端口之外的所有所述多个端口；抢先重建组件，用于使用所述设备处的所述多个端口中的所述单个端口来将数据从所述设备复制到备用设备；备选路径维护组件，用于维护备选路径以供所述存储阵列的其他成员使用并绕过所述设备；第二错误检测组件，用于在所述抢先重建组件的操作期间检测所述设备处的错误；以及设备禁用组件，其响应于所述第二错误检测组件以禁用所述设备。

Description

控制RAID阵列重建的装置和方法

技术领域

本发明涉及用于控制阵列重建的技术，更具体地说，涉及用于在有可能失败的阵列重建期间维护数据可用性的技术。

背景技术

在廉价磁盘冗余阵列(RAID阵列)的某些布置中，提供了使用来自阵列中其他盘的数据来从出现故障的盘重建数据的工具。这通常通过将每个盘的数据的副本分发(以条带形式分布)到阵列中的其他盘，以便在盘出现故障时可以取回所述副本并在备用盘上将它们组装到一起来实现。最近，产生了抢先重建的概念。在这种情况下，将确定为处于故障点的盘(例如，由达到预定阈值(指示盘的即将发生的完全故障)的暂时或可恢复错误的计数来检测)在出现即将发生的故障之前抢先复制到备用设备。

在RAID阵列重建期间，出现故障的硬件和固件可以遇到阻止阵列重建完成及可以导致无法访问数据的重复错误。具体地说，盘驱动器模块固件可以根据例如错误定阈值机制来指示上述预测性的故障。此指示又可以用于启动从出现故障的组件到其他组件的抢先数据重建，以便通过减少准备备用盘驱动器模块所花费的时间来提高系统可用性，同时降低数据损失的可能性-如果抢先数据重建成功完成的话，而无需使用常规的从所有其他阵列组件回读数据的技术。

在抢先数据迁移期间，如果出现导致RAID操作失败的错误，则可能危及恢复。这是因为除非存在某种更高级别的控制，否则系统指定的恢复操作会持续重试，这只是重复失败的操作。这种重复可以最终导致无法访问数据甚至数据自身的丢失。

在RAID阵列重建期间维护数据可用性的问题的一个已知方法的实例是推迟重建恢复，直至控制软件指示其准备好进行此类恢复。尽管该方法可以在某些情况下具有可以接受的结果，但是它仍取决于是错误原因的重建操作自身。在一个备选方法中，可以具有在初始化阵列组件之前忽略它们的机制。但是，这也易于出现错误，因为预测由于某个原因而处于故障点的驱动器可以由于其他未预见的原因出现故障。其他备选方法是使用带外信令绕过出现故障的盘驱动器模块。但是，这在资源使用上是昂贵的并且可能在技术上不可行(例如，在长FC-AL电缆上路由通信的情况)。使用多个控制器同样不太可能提供任何益处，因为它们很可能运行相同的代码，所以它们容易发生相同的错误。此外，编写完全独立的解决方案以在不同控制器上使用将是极其昂贵的。

因此，需要一种控制RAID阵列重建的技术方法，具体地说，需要一种用于在可能失败的阵列重建期间维护数据可用性而不带来过多其他开发成本的技术方法。

发明内容

相应地，本发明在第一方面提供了一种控制具有多个通信路径的存储阵列的装置，所述装置包括：第一错误检测组件，用于检测具有多个端口并可操作以为抢先重建提供数据的设备处的错误；端口控制组件，用于在出错设备处禁用除单个端口之外的所有所述多个端口；抢先重建组件，用于使用所述出错设备处的所述多个端口中的所述单个端口来将数据从所述出错设备复制到备用设备；备选路径维护组件，用于维护备选路径以供所述存储阵列的其他成员使用并绕过所述出错设备；第二错误检测组件，用于在所述抢先重建组件的操作期间检测所述出错设备处的错误；以及设备禁用组件，其响应于所述第二错误检测组件以禁用所述出错设备。

所述装置优选地还包括非抢先重建组件，该组件用于使用来自所述存储阵列的所述其他成员的数据并使用绕过所述出错设备的所述备选路径来在备用设备处重建数据。

优选地，所述用于使用来自所述存储阵列的所述其他成员的数据在备用设备处重建数据的非抢先重建组件包括用于从以条带形式分布在所述存储阵列的所述其他成员间的异或后的数据来重建数据的RAID重建组件。

优选地，所述第一错误检测组件、所述端口控制组件、所述抢先重建组件、所述备选路径维护组件、所述第二错误检测组件，以及所述设备禁用组件都结合在设备控制器中。

在第二方面，本发明提供了一种控制具有多个通信路径的存储阵列的方法或逻辑布置，其包括以下步骤：由第一错误检测组件检测具有多个端口并可操作以为抢先重建提供数据的设备处的错误；在出错设备处禁用除单个端口之外的所有所述多个端口；使用所述出错设备处的所述多个端口中的所述单个端口来将数据从所述出错设备复制到备用设备；维护备选路径以供所述存储阵列的其他成员使用并绕过所述出错设备；在所述抢先重建的操作期间由第二错误检测组件来检测所述出错设备处的错误；以及响应于所述由第二错误检测组件检测错误的步骤，禁用所述出错设备。

所述方法优选地还包括使用来自所述存储阵列的所述其他成员的数据并使用绕过所述出错设备的所述备选路径来在备用设备处重建数据的步骤。

优选地，所述使用来自所述存储阵列的所述其他成员的数据在备用设备处重建数据的步骤包括从以条带形式分布在所述存储阵列的所述其他成员间的异或后的数据来重建数据。

优选地，所述步骤结合在设备控制器逻辑中。

在第三方面，提供了一种其上具有功能数据的数据载体，所述功能数据包括功能计算机数据结构，当所述数据结构被加载到计算机系统中并在其上运行时，使得所述计算机系统能够执行根据第二方面的方法的所有步骤。

在第四方面，提供了一种包括计算机程序代码的计算机程序，当所述计算机程序代码被加载到计算机系统中并在其上执行时，导致所述计算机系统执行根据第二方面的方法的所有步骤。

本发明的优选实施例因此在其最广泛的方面构想了一种用于控制阵列重建，并且具体地说，用于在可能出现故障的阵列重建期间维护数据可用性的技术框架。

附图说明

现在仅通过实例的方式参考附图来说明本发明的优选实施例，这些附图是：

图1以示意图的形式示出了根据本发明的优选实施例的处于其初始状态的装置的布置；

图2以示意图的形式示出了根据本发明的优选实施例的处于其第一修改状态的装置的布置；

图3以示意图的形式示出了根据本发明的优选实施例的处于其第二修改状态的装置的布置；

图4以流程图的形式示出了一种其中可以实现根据本发明的优选实施例的操作方法的方法或逻辑布置。

具体实施方式

在具有以下项的存储系统中适当地实现本发明的优选实施例：

1.到盘驱动器模块的冗余通信路径；以及

2.适于有选择地禁用到盘驱动器模块的通信路径的使用的控制组件。

当组件所处的位置使其可以用作到备用设备的抢先数据重建的源(通过例如包含在IBM的存储产品系列中的SmartRebuild工具)时，控制组件禁用对除其中之一以外的所有盘驱动器模块端口的访问。假如随后盘驱动器模块出现故障，危及数据重建，则可操作控制组件以绕过在控制器接口处的用于访问盘驱动器模块的单个剩余端口，然后完全恢复子系统，除了已被复制并且现在出现故障的盘驱动器模块以外。这实际上完全将出现故障的盘驱动器模块从系统中删除，恢复了系统稳定性，并且允许系统完全绕过盘驱动器模块并通过使用常规的重建技术(例如RAID存储系统领域中公知的技术)来恢复其余组件的完全冗余。这是对根据现有技术的情况的显著改进，在现有技术中将无法访问所有数据，直至工程师可以物理移除出现故障的盘驱动器模块，然后还原系统活动为止。

由一个或多个控制器经由多个端口通过使用例如FC-AL或SAS来访问根据本发明的优选实施例的盘驱动器模块。当盘驱动器模块报告可能可以由抢先智能重建工具处理的故障所导致的错误时，控制系统首先选择到盘驱动器模块的单个通信路径-所述选择可以基于已知的可能的冗余问题，如对本领域的技术人员将显而易见的-并绕过所有其他到该盘驱动器模块的通信路径。然后使用单个剩余的通信路径来激活所述抢先智能重建工具。将数据从盘驱动器模块复制到备用盘驱动器模块，并监视该过程以寻找任何后续的错误指示。假如出现其他故障(如监视组件确定的)，则控制器可以使用不包括出现故障的盘驱动器模块的剩余启用端口的一个或多个通信路径来绕过所述盘驱动器模块。然后可以使用常规的RAID重建技术来重建数据。

转到图1，图1示出了根据本发明的一个优选实施例的装置，其中示出了包括通过环形拓扑与设备104、106、108可操作地连接的一对适配器100、102的组件布置。还示出了连接适配器和设备的通信路径对，即通过适配器端口110、108及设备端口112、114、116的第一通信路径，和通过适配器端口110’、118’及设备端口112’、114’、116’的第二通信路径。(为了简洁，仅示出了两个路径，并且每个适配器和设备只有两个端口。对本领域的技术人员将显而易见的是，多个路径和端口可以以排成一行的方式操作。)在正常操作中，也就是说，直到报告了错误(或一系列导致超过阈值条件的错误)，两个通信路径才可用，并启用所有上述端口。

现在转到图2，其中示出了包括通过环形拓扑与设备104、106、108连接的适配器100、102的相同组件布置。还示出了连接适配器和设备的通信路径对，即通过适配器端口110、108及设备端口112、114、116的第一通信路径。但是，现在仅通过设备端口112’、116’来路由通过适配器端口110’、118’的第二通信路径。图2中示出的布置如下发生：从设备106接收到错误报告(或导致超过阈值条件的一系列错误的通知)时，已禁用端口114’，并且使用第二通信路径的业务现在经过适配器端口110’、118’和设备端口112’、116’。通常，设备106的抢先重建操作现在继续使用端口114来将数据从设备106传递到备用设备(其可以例如是设备104、108之一)，直至它成功完成，这不需要在此进行说明，因为对于本领域中熟悉抢先重建概念的技术人员来说，这将是显而易见的。但是，如果在此抢先重建过程期间在设备106处出现了其他不可恢复的错误，则将所述设备置于出现故障的条件。停止在适配器端口110和118上的业务。涉及适配器100、102和设备104、108的通信业务没有中断并通过使用适配器端口110’、118’和设备端口112’、116’继续。绕过了设备106处的端口114，以便完全隔离设备106，并且通信业务可以在适配器端口110、118及设备端口112、116上恢复。

这导致了图3中示出的布置，其中完全隔离了设备106并且恢复了剩余适配器和设备的通信冗余。系统恢复到本领域的技术人员公知的常规重建技术；例如，使用来自阵列其他成员的数据的副本为完全故障和隔离的存储设备在阵列备用设备上重建RAID数据。这通常使用来自布置在阵列间的数据条的异或后的数据来完成。

形式为装置的本发明的优选实施例因此有利地解决了提供用于控制RAID阵列重建，并且具体地说，用于在可能出现故障的阵列重建期间维护数据可用性的技术框架的问题。

现在转到图4，其中以流程图的形式示出了根据本发明的优选实施例的方法或逻辑布置的步骤。在图4中，所述方法或逻辑布置包括在“开始”步骤200开始的步骤，并且在步骤202，接收错误报告(或导致超出阈值条件的一系列错误的通知)。在步骤204，响应于步骤202，禁用出错设备处除其中一个端口以外的所有端口，在步骤206，开始数据的抢先重建，使用出错设备处的单个剩余端口来传送必要的数据以在备用设备上重建。如果在步骤208判定已成功完成抢先重建，则在步骤214重新开始针对已恢复阵列的正常操作，并且过程在“结束”步骤216结束。如果在步骤208判定抢先重建遇到了其他不可恢复的错误，或如果错误定阈值表明抢先重建很可能失败，则在步骤210将设备置于出现故障的状态。在步骤212，停止包括出现故障的设备的单个剩余端口的路径上的业务，绕过该端口，然后可以在所述路径上恢复业务，它现在绕过了所述出现故障的设备。在步骤214，正常的RAID重建开始使用旁路路径，并且在步骤216，正常的RAID重建完成并恢复针对阵列的正常操作。过程在“结束”步骤218完成。

形式为方法或逻辑布置的本发明的优选实施例因此有利地解决了提供用于控制RAID阵列重建，并且具体地说，用于在可能出现故障的阵列重建期间维护数据可用性的技术框架的问题。

对本领域的技术人员显而易见的是，本发明的优选实施例的方法的全部或一部分可以适合地和有效地包含在一个或多个逻辑装置中，所述逻辑装置包括布置为执行所述方法的各步骤的逻辑元素，并且此类逻辑元素可以包括硬件组件、固件组件或它们的组合。

同样对本领域的技术人员显而易见的是，根据本发明的优选实施例的逻辑布置的全部或一部分可以适合地包含在逻辑装置中，所述逻辑装置包括执行所述方法的各步骤的逻辑元素，并且此类逻辑元素可以包括诸如可编程逻辑阵列或专用集成电路中的逻辑门之类的组件。此类逻辑布置还可以包含在启用元素内，所述启用元素用于使用例如虚拟硬件描述符语言(其可以使用固定或可传输的载体介质来存储和传输)来在此类阵列或电路中暂时或永久地建立逻辑结构。

可以理解，上述方法和布置还可以被合适地在运行在一个或多个处理器(未在图中示出)上的软件中完全或部分地执行，并且可以以诸如磁盘或光盘之类的任何适合数据载体(同样未在图中示出)上承载的一个或多个计算机程序元素的形式来提供所述软件。用于数据传输的通道同样可以包括所有描述的存储介质以及诸如有线或无线信号介质之类的信号承载介质。

本发明还可以被合适地包括为用于与计算机系统一起使用的计算机程序产品。此类实现可以包括固定在诸如计算机可读介质(例如，软盘、CD-ROM、ROM或硬盘)之类的有形介质上，或经过调制解调器或其他接口设备通过有形介质(包括但不限于光或模拟通讯线路)或使用无线技术(包括但不限于微波、红外线或其他传输技术)无形地传输到计算机系统的一系列计算机可读指令。所述计算机可读指令系列包括所有或部分先前在此描述的功能。

本领域的技术人员将理解，可以以多种用于与许多计算机体系结构或操作系统一起使用的编程语言来编写此类计算机可读指令。此外，可以使用任何当前或未来的存储器技术(包括但不限于半导体、磁或光)来存储此类指令，或使用任何当前或未来的通信技术(包括但不限于光、红外线或微波)来传输此类指令。构想了此类计算机程序产品可以作为附带有印刷或电子文档的可移动介质(例如，紧缩套装软件)来发布、被预加载到计算机系统(例如，加载到系统ROM或固定盘上)，或者通过网络(例如，因特网或万维网)从服务器或电子公告版来发布。

备选地，可以以部署服务的计算机实现的方法的形式来实现本发明的优选实施例，所述方法包括部署计算机程序代码的步骤，当被部署到计算机基础结构并在其上执行时，所述计算机程序代码可导致所述计算机系统执行所述方法的所有步骤。

对本领域的技术人员显而易见的是，在不偏离本发明的范围的情况下，可以对上述示例性实施例做出许多改进和修改。

Claims

1.一种控制具有多个通信路径的存储阵列的装置，所述装置包括：

第一错误检测组件，用于检测具有多个端口并可操作以为抢先重建提供数据的设备处的错误；

端口控制组件，用于在出错设备处禁用除单个端口之外的所有所述多个端口；

抢先重建组件，用于使用所述出错设备处的所述多个端口中的所述单个端口来将数据从所述出错设备复制到备用设备；

备选路径维护组件，用于维护备选路径以供所述存储阵列的其他成员使用并绕过所述出错设备；

第二错误检测组件，用于在所述抢先重建组件的操作期间检测所述出错设备处的错误；以及

设备禁用组件，其响应于所述第二错误检测组件以禁用所述出错设备。

2.如权利要求1中所述的装置，还包括非抢先重建组件，该组件用于使用来自所述存储阵列的所述其他成员的数据并使用绕过所述出错设备的所述备选路径来在备用设备处重建数据。

3.如权利要求2中所述的装置，其中所述用于使用来自所述存储阵列的所述其他成员的数据在备用设备处重建数据的非抢先重建组件包括用于从以条带形式分布在所述存储阵列的所述其他成员间的异或后的数据来重建数据的RAID重建组件。

4.如上述权利要求中的任一权利要求所述的装置，其中所述第一错误检测组件、所述端口控制组件、所述抢先重建组件、所述备选路径维护组件、所述第二错误检测组件，以及所述设备禁用组件都结合在设备控制器中。

5.一种控制具有多个通信路径的存储阵列的方法，所述方法包括以下步骤：

由第一错误检测组件检测具有多个端口并可操作以为抢先重建提供数据的设备处的错误；

在出错设备处禁用除单个端口之外的所有所述多个端口；

使用所述出错设备处的所述多个端口中的所述单个端口来将数据从所述出错设备复制到备用设备；

维护备选路径以供所述存储阵列的其他成员使用并绕过所述出错设备；

在所述抢先重建的操作期间由第二错误检测组件来检测所述出错设备处的错误；以及

响应于所述由第二错误检测组件检测错误的步骤，禁用所述出错设备。

6.如权利要求5中所述的方法，还包括使用来自所述存储阵列的所述其他成员的数据并使用绕过所述出错设备的所述备选路径来在备用设备处重建数据的步骤。

7.如权利要求6中所述的方法，其中所述使用来自所述存储阵列的所述其他成员的数据在备用设备处重建数据的步骤包括从以条带形式分布在所述存储阵列的所述其他成员间的异或后的数据来重建数据。

8.如权利要求5到7中的任一权利要求所述的方法，其中所述步骤结合在设备控制器逻辑中。