CN105893171A

CN105893171A - 存储设备中用于故障恢复的方法和装置

Info

Publication number: CN105893171A
Application number: CN201510004940.2A
Authority: CN
Inventors: 常海华; 郭文磊; 陈超; 陆明刚; 吴佳玮
Original assignee: EMC Corp
Current assignee: EMC Corp
Priority date: 2015-01-04
Filing date: 2015-01-04
Publication date: 2016-08-24
Anticipated expiration: 2035-01-04
Also published as: US10140195B2; US20160196195A1; CN105893171B

Abstract

本发明的各实施方式提供了一种存储设备中用于故障恢复的方法和装置。所述存储设备包括至少一个服务器和存储装置并且在至少一个服务器上运行多个组件，该方法包括：在存储装置中对至少一个服务器上运行的多个组件中的一个或多个组件进行备份；监视至少一个服务器上故障的发生并且定位引起该故障的组件；获取备份在存储装置中的、与引起该故障的组件对应的一个或多个组件；以及利用所获取的一个或多个组件来恢复该故障。

Description

存储设备中用于故障恢复的方法和装置

技术领域

本公开的各实施例总体上涉及存储领域，并且更具体地涉及存储设备中用于故障恢复的方法和装置。

背景技术

目前的存储设备，特别是作为存储服务器的存储设备都不支持对控制路径数据(control path data)的备份和恢复。例如，对于市场上已有的一些存储设备，诸如EMC中端和高端的存储设备，其中具有不同功能的部分、例如存储处理器SP/控制站服务器CS/数据移动服务器DM上运行的操作系统内核、软件和系统的配置以及运行状态相关数据等都没有备份存在。因此，在配置改变、软件升级等引起软件不可用或系统宕机(system panic)的情况下或者其他原因导致系统宕机的情况下，例如在如下场景中：(1)用户利用存储设备供应商最新发布的软件信息对软件进行了非破坏性(NDU)升级，在该NDU过程中由于对驱动器和软件的改变可能导致系统宕机或者不能够重新启动或者某些软件不可用；(2)用户对某些软件进行新的配置，由此导致系统宕机或软件不可用；(3)随着时间流逝，系统自身累积错误导致系统宕机，如果在这些情况下用户不能够通过重新启动存储设备来解决遇到的问题而只能通过向存储设备供应商来寻求帮助，那么可能会不必要地浪费很多时间，并且由于系统不能及时恢复可能导致商业上的重大损失。另一方面，对于存储设备供应商的技术支持人员或工程师来说，也同样会不必要地耗费宝贵的时间。

发明内容

针对上述问题，本公开的各示例性实施例至少提供了一种使得用户能够在存储设备或存储服务器发生故障的情况下自行恢复系统或软件正常运行的方法和装置。本公开的各示例性实施例的其他特征、益处和优势将在结合附图阅读以下描述的具体实施方式时被更清楚地理解。

根据本公开的一个方面，提供了一种在存储设备中用于故障恢复的方法，该存储设备包括至少一个服务器和存储装置并且在该至少一个服务器上运行多个组件。该方法包括在所述存储装置中对所述至少一个服务器上运行的多个组件中的一个或多个组件进行备份以及监视至少一个服务器上故障的发生并且定位引起该故障的一个或多个组件。该方法还包括获取备份在所述存储装置中的、与引起故障的一个或多个组件对应的一个或多个组件并且利用所获取的一个或多个组件来恢复该故障。

根据本公开的另一方面，提供了一种在存储设备中用于故障恢复的装置，该存储设备包括至少一个服务器和存储装置并且在该至少一个服务器上运行多个组件。该用于故障恢复的装置包括备份模块、监视模块、获取模块和恢复模块。备份模块被配置为在存储装置中对至少一个服务器上运行的多个组件中的一个或多个组件进行备份、监视模块被配置为监视至少一个服务器上故障的发生并且定位引起该故障的一个或多个组件、获取模块被配置为获取备份在存储装置中的、与引起故障的一个或多个组件对应的一个或多个组件并且恢复模块被配置为利用所获取的一个或多个组件来恢复该故障。

附图说明

结合附图并参考以下详细说明，本发明各实施方式的特征、优点及其他方面将变得更加明显，在此以示例性而非限制性的方式示出了本发明的若干实施方式。在附图中相同或相近的附图标记指示相同或相近的单元或元素，其中：

图1示出了现有的EMC VNX系列存储设备的高层架构的框图；

图2示意性地示出了根据本公开实施例的基于逻辑单元搜索表和索引搜索表来获取期望组件备份的示例性检索方法200的流程图；

图3示意性地示出了根据本公开实施例的在存储设备中用于故障恢复的方法300的流程图；以及

图4示出了根据本公开实施例的在存储设备中用于故障恢复的装置400的示意性结构图。

具体实施方式

以下将参考附图详细描述本公开的各个示例性实施例。

应当理解，给出这些示例性实施例仅仅是为了使本领域技术人员能够更好地理解并进而实现本发明，而并非以任何方式限制本公开的范围。

在本文中，对“一个实施例”、“另一实施例”或“一个优选实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性，但每个实施例不一定必须包括该特定特征、结构或特性。而且，这些术语并不一定指相同的实施例。

还应理解，在此处使用的各种术语仅用于描述特定实施例的目的，而不旨在于限制本发明。如这里使用的单数形式“一”和“该”可以包括复数形式，除非上下文中有明确的相反指示。还应理解，此处使用的术语“包括”、“具有”和“包含”指示所述特征、单元和/或组件等的存在，但不排除一个或多个其他特征、单元、组件和/或其组合的存在。如这里使用的术语“多个”表示“两个或更多”。如这里使用的术语“和/或，，可以包括关联列出的各项中的一项或多项的任何和所有组合。除非特别定义，在本文中使用的各种术语具有本公开所属领域技术人员一般理解的含义。

为了更清楚地阐述本发明的各实施例，首先参考图1对现有典型中端存储设备的主要架构和操作方式进行简单介绍。

图1示出了现有的EMC VNX系列存储设备的高层架构的框图。

如图1中所示的VNX存储设备包括多个服务器和后端的存储装置。该多个服务器可以包括：诸如RAID/DEDUP/CACHE等服务在其上运行的存储处理器服务器SP、数据移动服务器DM和用于监视和配置数据移动服务器的控制站服务器CS。后端的存储装置可以包括多个存储盘，其为存储设备操作过程中所使用的各种数据提供物理存储空间或物理存储区域，这些物理存储区域可以映射为多个逻辑单元LUN。具体地如图1所示，在VNX存储设备的后端存储装置中包含了一个“启动分区”和多个通常的逻辑单元LUN。

VNX系列存储设备中的SP可以运行不同的操作系统以及存储设备供应商所拥有的内置软件。SP将与其相关的控制路径数据存储在后端存储装置的“启动分区”中，并从中获取这些控制路径数据。

本文所使用的“控制路径数据”指在存储设备的各服务器上运行的多个组件(component)，这些组件使得服务器及其上运行的软件能够正常操作，其可以包括但不限于：服务器上运行的操作系统内核、驱动器、软件配置文件(包括软件的配置和运行状态信息)、软件二进制文件以及固件。具体而言，与SP相关的控制路径数据包括在SP上运行的多个组件，其使得SP及其上运行的软件能够正常操作。此外，与某个软件相关的控制路径数据包括与该软件运行相关的多个组件，其使得该软件能够正常操作。

VNX系列存储设备中的CS可以运行RedHat+操作系统以及存储设备供应商所拥有的内置软件。CS可以具有其自己的存储盘，但是也会将与其相关的控制路径数据的一个副本存储在后端的一些存储逻辑单元LUN中，并且可以对其定期进行同步。

VNX系列存储设备中的DM用于将用户的文件级请求转换至块级请求传送至SP并且移动用户数据以对用户请求进行响应。DM运行实时数据访问(Dart)，其可以是经修改的伯克利软件套件(BSD)并且运行存储设备供应商所拥有的内置软件。DM不具有自己的存储盘，而是将与其相关的控制路径数据存储在后端的LUN中并且从该LUN获取这些数据。

根据SP运行的操作系统以及内置软件的不同，VNX存储设备可以分为不同的系列，例如VNX1和VNX2系列，其中VNX1系列存储设备的SP可以运行Microsoft2008操作系统；而VNX2系列存储设备可以运行Microsoft2008 R2 SP1。此外，相比于VNX1，VNX2系列中的CS运行更新版本的内置软件并且DM运行具有许多代码修订的Dart等。

从图1可以看出，在现有的存储设备中与各服务器相关的控制路径数据、例如操作系统和软件的可执行文件以及配置数据都存在于后端，它们将被直接或间接地从后端加载、然后被运行。虽然以上对存储设备的分析仅基于现有的一个存储设备供应商的产品，但其他存储设备供应商的产品也有着相同或类似的架构和操作方式。当前这种架构的问题在于，当软件故障或者系统宕机时，无法很快地恢复，因为在存储设备中针对各服务器仅存在一份与之相关的控制路径数据，例如针对服务器上的操作系统或软件仅存在一份可执行二进制文件和配置文件。

根据本公开的各示例性实施例提出了一种机制，其可以定期地从后端备份与各服务器相关的控制路径数据，例如软件二进制文件、配置文件和运行状态相关数据等或者在重大事件、诸如NDU或者用户改变配置之前进行这种备份，然后在必要时恢复该备份，从而使得用户在遭遇软件或系统故障、例如宕机时能够有可能迅速地自行恢复软件或系统的正常运行，而不必寻求设备商技术人员的帮助。

根据本公开的实施例，为了避免对后端的存储装置带来不必要的负担，并不必要对所有的控制路径数据或者服务器上运行的组件都进行备份。优选地，需要备份的控制路径数据或组件可以包括：操作系统内核、驱动器、软件配置文件、固件、可能被改变的软件二进制文件。例如，对于安装有Windows操作系统的服务器来讲，不需要备份属于Windows应用的文件，诸如notepad.exe。

以下参考附图具体描述根据本公开实施例的、在存储设备中用于故障恢复的方法和装置。

为了便于理解根据本公开实施例的故障恢复方法，首先介绍根据本公开实施例的一种组件检索方法。

根据本公开实施例的存储设备包括至少一个服务器和存储装置。在服务器的操作系统和软件的安装过程中，可以在该存储装置中建立多个存储逻辑单元LUN，并且可以对这些LUN进行编号或编索引，例如将其标记为L1、L2、L3......LN，其中N是唯一的编号或索引。这样，在对组件进行备份的过程中(优选地在操作系统和软件首次安装时都会对与操作系统和软件相关的多个组件进行备份)，可以为待备份的组件分配一个唯一的编号，根据该编号，该组件可以被存储到一个具有相同编号的存储逻辑单元中，或者可以直接为待备份的组件指配一个逻辑单元用于存储，由此每个备份的组件可以与一个存储逻辑单元编号(或索引)相对应。例如，如果软件“Autoconfig”的配置文件被分配了唯一的编号2，那么编号为L2的LUN将用来存储该“Autoconfig”的配置文件，替代地可以向该配置文件直接指配一个逻辑单元用于对其进行存储。

根据本公开的实施例，可以在存储设备的存储器中维护一个表，该表在下文中也可以被称作“逻辑单元搜索表”或“LUN搜索表”。在该表中，备份的组件名称、对应的逻辑单元编号(或索引)、以及该组件被实际备份到的物理存储区域的起始地址(例如起始逻辑块地址(LBA))关联地被存储。附加地，在该表中还可以与备份的组件关联地存储关于该组件的描述。

表1给出了根据本公开实施例的LUN搜索表的一个具体示例。

表1 LUN搜索表

LUN编号(或索引)	组件名	描述	存储起始LBA
				1	autoconfig.exe	autoconfig的二进制文件	0x9966
2	autoconfig.cfg	autoconfig的配置文件	0xA002
				…	…	…	…
0x39	clariion_cfg.sys	clariion_cfg的二进制文件	0xA518
				0x3A	clariion_cfg.inf	clariion_cfg的配置文件	0xA582
0x3B	clariion_mgmt	clariion_mgmt的zip文件	0xA598
				…	…	…	…

优选地，在非易失性存储器(NVRam)中维护该逻辑单元搜索表。使用NVRam的好处在于其为非易失性的，但是可以像存储器(例如DRAM)一样被访问。为此，NVRam可以通过具有其自己的电池的DRAM/SRAM来构造。

根据本公开的一个实施例，当服务器上运行的操作系统或软件的一个或多个组件发生故障时，可以直接在该逻辑单元搜索表中搜索发生故障的组件的备份位置，然后从该备份位置处获得备份的组件以替代故障组件，由此可以从故障中恢复。

根据本公开的优选实施例，为了能够更迅速地检索到故障组件或引起故障的组件的备份位置，可以根据备份的组件之间的共同特征而将其分成若干组，每个组可以由一个符号或字符来标识。基于此，然后可以在存储器中维护另一个表，该表在下文中可以被称为“索引搜索表”。在该表中，标识每一个组的符号或字符与该组所包含的组件被备份到的逻辑单元的范围指示、例如起始逻辑单元索引和/或结束逻辑单元索引关联地被存储。

优选地，可以根据待备份组件的名称的首字母来对这些组件分组，由此标识每个组的符号或字符是该组所包含的组件的名称的首字母。同样，优选地，在NVRam中维护该索引搜索表。替代地，也可以根据待备份组件的名称的其他位置的字母或符号来对这些组件进行分组，如果该位置处不存在相应的字母或符号，可以将其分入一个特殊分组并且由一个特殊且唯一的符号或字符来标识该分组。本公开的范围不受任何特定分组方式或标识方式的限制。

表2给出了根据本公开实施例的索引搜索表的一个具体示例。在表2中，组件名称首字母、例如软件名或配置文件名的首字母按照字母顺序排列并映射到起始LUN索引。与之对应地，备份的组件在逻辑单元搜索表中也按照对应的字母顺序排列，如表1中所示。

表2 索引搜索表

组件名称首字母	起始LUN索引
		A	0x1
B	0x18
		C	0x39
D	0x5A
		…	…
Z	0x178
		Z+1	0x18A

根据本公开的一个示例，当服务器上运行的操作系统或软件的一个或多个组件引起故障时，可以首先确定标识引起故障的组件被包含在其中的组的符号或字符，然后基于该符号或字符在索引搜索表中检索到该组对应的逻辑单元范围，例如起始逻辑单元索引。之后，在逻辑单元搜索表中、仅在检索到的逻辑单元范围内搜索引起故障的组件名称。

优选地，在索引搜索表中可以与被备份组件的组关联地存储该组中的组件被备份到的逻辑单元的起始索引和结束索引两者。在基于组件名的首字母来划分组的实施例中，例如表2所示，一个组的对应逻辑单元结束索引可以由与其紧接的下一个组的起始逻辑单元索引来指示。

优选地，在表2的“组件名称首字母”列的末尾设置了一个“Z+1”，其指示了包含首字母为“Z”的组件的组对应的逻辑单元的结束索引，并且用来限定对首字母为“Z”的组件进行搜索的搜索边界。也可以通过其他符号或字符来限定逻辑单元的边界，本公开并不受任何具体限定方式的限制。

基于上述逻辑单元搜索表和索引搜索表，可以在对引起故障的组件进行恢复时迅速检索到期望获得的组件备份。

图2示意性地示出了根据本公开实施例的基于逻辑单元搜索表和索引搜索表来检索并获取期望组件备份的示例性检索方法200的流程图。

在该方法中，首先在步骤S201获得待检索的组件名称；然后在步骤S202中通过搜索“索引搜索表”来获得该组件可能被备份到的逻辑单元的起始索引和结束索引；之后在步骤S203中，基于所获得的起始索引和结束索引对“逻辑单元搜索表”进行搜索以最终获得期望组件被备份到的存储区域的起始地址；并且在步骤S204中从该起始地址指示的存储区域获取该期望组件备份。在一个数据表(例如逻辑单元搜索表)中搜索一个数据项(例如组件名称)的方法对于本领域技术人员来说是公知的，因此出于简洁的目的在此不再赘述。

如下示出了用于实现参照图2描述的检索方法的一个示例性算法的伪代码。该示例性伪代码的给出仅是为了促进对本公开的理解，而不以任何方式限制本公开的范围。

以下将通过一个具体示例来说明如何基于逻辑单元搜索表和索引搜索表、例如表1和表2来快速地获得所需要恢复的组件备份，例如软件二进制文件“clariion_mgmt.exe”。

首先，使用该文件名“clariion_mgmt.exe”的首字母“c”来检索“索引搜索表”表2，由此获得可能存储该文件的起始LUN索引0x39以及结束LUN索引0x5A。这两个索引在“LUN搜索表”中用作其名称开始于字母“c”的组件可能被备份的起始LUN边界和结束LUN边界。

然后，在“LUN搜索表”表1中，从第0x39开始检查其对应的“组件名”列中是否存在“clariion_mamt.exe”。如果存在，则从对应的“存储起始地址”列中获得存储该组件的存储区域的起始地址并且从中获取该组件；否则进行至下一项，即在0x3A(＝0x39+1)上尝试相同的操作，如果仍然不能找到期望的组件，则在0x3B(＝0x3A+1)项上尝试相同的操作，依次类推直至找到期望的组件或者到达检索边界，即0x5A项。如果到达边界也没有找到期望的文件，则意味着这可能是一个新安装的组件，还为对其进行过备份。

一般地，存储设备中的服务器上需要备份的组件的总数通常小于500，因此LUN搜索表的大小可以被设置为小于500。这样，如果基于组件首字母来建立索引搜索表，那么用于搜索组件的平均时间小于搜索500/26≈20个组件的时间，其中26为英文字母的总数目。因此，利用根据本公开实施例的组件搜索算法，可以有效地提高搜索的效率。

附加地且优选地，LUN搜索表和索引搜索表可以在系统或软件升级过程中被更新或者在每次对系统或软件相关的组件备份时被更新。

根据本公开的其他优选实施例，在组件被备份到的每个LUN中，可能存在该组件的不同版本。这些不同的版本可以通过在其名称之后附加时间戳来进行区分。例如，在LUN L1中，存在文件“Autoconfig.exe”的两个版本“Autoconfig.exe.20130121”和“Autoconfig.exe.20140101”。通过该命名方式可以清楚地了解组件的不同版本的生成时间。优选地，在对故障组件进行恢复时，可以选取具有最新时间戳的组件来用于故障恢复。

接下来，在下文中详细介绍如何在系统启动和运行中监视故障发生并且由此找到引起故障的组件。

根据本公开的实施例，可以在存储设备的统一可扩展固件接口(UEFI)基本输入输出系统(BIOS)和操作系统内核中分别设置一个监视器。在UEFI BIOS中，该监视器可以是UEFI应用程序或UEFI服务；而在操作系统内核中，该监视器可以为内核线程。该监视器用于监视服务器上的软件/系统的启动和运行以发现该服务器上故障的发生并且找出引起故障的组件。这种监视器对故障的监视可以包括如下几种情况：

(1)在系统启动过程中，UEFI BIOS中的监视器实施对故障的监视功能。如果在系统启动过程中，例如由于UEFI BIOS加载了一些不能够正常工作的固件而导致系统不能够启动或启动异常，即发生故障，那么该监视器可以发现该故障，并且在这些被加载的固件的相关组件中找出引起该故障的组件。

优选地，可以通过在NVRam中维护一个计数器用来存储系统连续启动的计数并且设置一个计数阈值，如果系统可以在该计数阈值以内进入正常状态，那么不必进行其他操作，否则需要继续进行根据本公开实施例的故障恢复操作。例如，可以将该启动计数器的阈值设置为3，如果操作系统从首次启动或者从宕机状态开始在3次内重新启动至正常状态，那么无需其他操作。否则，如果操作系统从首次启动或者从宕机状态开始在3次内不能够重启至正常状态，那么将开始进行根据本公开实施例的故障恢复操作。该计数器可以由UEFI BIOS和OS内核中的应用监视器访问。在启动期间，UEFI BIOS中的监视器在每次重启尝试后将该计数器递增1，并且在系统正常启动后由OS监视器将该计数器设置为0。

(2)在系统运行过程中，OS内核中的监视器实施对故障的监视功能。在系统运行过程中，如果某个软件不能够启动或不能够正常工作，即发生故障，该故障可能由于NDU或配置改变引起，那么OS内核中的监视器可以发现该故障，并且在与该软件相关的组件中找出引起该故障的组件，例如某个可执行二进制文件。

在某些情况下，这种软件故障可以通过系统重启来恢复。在系统进入重启过程后，对故障监视的操作与前述(1)中相同。

(3)在系统发生宕机时，可以尝试系统重启，在这种情况下UEFIBIOS中的监视器实施对故障的监视功能以发现与故障关联的组件。在系统进入重启过程后，对故障监视的操作与前述(1)中相同。

在监视到系统或软件发生故障并且找出引起该故障的组件后，可以将引起该故障的组件作为待检测组件来调用前述参照图2描述的组件检索方法200，以从存储装置中获得期望的组件备份，然后用该期望的组件备份替代引起故障的组件来尝试重新运行该组件，由此完成故障恢复的过程。

为了能够有效地实现对存储设备的故障恢复，需要对存储服务器上运行的各种组件进行及时和有效地备份。根据本公开的不同实施例，该备份可以包括以下几种情况中的至少一种：

(1)定期备份：可以对服务器上运行的各种组件、例如软件二进制文件、配置文件、软件当前运行状态相关数据等进行定期备份。可以扫描整个软件包，将其中的组件与备份在存储装置中的组件进行比较，如果不同，则存储新的组件并更新其时间戳，并且将这些组件的相关信息添加至“LUN搜索表”以及“索引搜索表”。优选地，在系统或软件安装期间会对该系统或软件的相关组件进行备份。

(2)在NDU发生之前的备份：如前所述，NDU对服务器上运行的软件进行升级。在NDU期间，并不是所有的软件都会被升级。因此，需要检查NDU软件包以获知哪些软件将要被升级。相应地，与被升级的软件相关的组件，例如可执行二进制文件或配置文件等可能会被改变。对于将被改变的组件，可以首先搜索LUN搜索表以获得该组件的旧版本在存储装置上的备份位置，例如LUN编号Lz，然后将该组件的新版本存入该LUN Lz中，并且将该组件的新版本的相关信息相应地添加到LUN搜索表中。在NDU之后，新版本的软件被安装并且运行，如果该软件不能启动或者不能够正常运行，则可以通过上述监视器对故障的监视来找到引起故障的组件并且通过上述组件检索方法200获取期望的组件备份，在NDU的情况下，该期望的组件备份可以是同样保存在LUN Lz中的旧版本的组件，然后利用该备份组件替代引起故障的组件来恢复正常运行。

如果在NDU软件包中存在新的软件，则可以为该新的软件分配新的LUN，然后将该软件的相关组件备份到该LUN中，并且将这些组件的相关信息添加至“LUN搜索表”以及“索引搜索表”。

(3)在用户对软件配置进行改变之前备份：在用户确认其改变配置的输入期间，可以首先搜索LUN搜索表以获得原配置文件在存储装置上的位置，例如LUN编号Lp，然后将新的配置文件也存入该LUN Lp中，并且将与该新的配置文件相关的信息添加至“LUN搜索表”以及“索引搜索表”。如果配置改变之后软件不能够启动或不能够正常运行，则可以通过上述监视器对故障的监视来找到引起故障的组件并且通过上述组件检索方法200获取期望的组件备份。在改变配置的情况下，该期望的组件备份可以是同样保存在LUN Lp中的旧配置文件，然后可以利用该旧配置文件替代新配置文件来恢复正常运行。

图3示意性地示出了根据本公开实施例的在存储设备中用于故障恢复的方法300的流程图。该存储设备包括至少一个服务器和存储装置并且在该至少一个服务器上运行多个组件。该多个组件可以包括以下各项中的一项或多项：该服务器上运行的操作系统内核、驱动器、软件配置文件、能够被改变的软件二进制文件以及固件。

在方法300中，首先在步骤S301，在存储装置中对至少一个服务器上运行的多个组件中的一个或多个组件进行备份。在一个实施例中，该备份操作可以定期地被执行。在另一个实施例中，该备份操作可以在对多个组件中的至少一个组件进行升级之前针对该至少一个组件来执行。在又一个实施例中，该备份操作可以在对多个组件中的至少一个组件的配置进行改变之前针对该至少一个组件的配置来执行。

随后在步骤S302中，监视该至少一个服务器上故障的发生并且对引起该故障的一个或多个组件定位。上文已经详细描述了根据本公开实施例的通过监视器监视并定位引起故障的组件的方法，在此出于简洁的目的不再赘述。

之后，在步骤S303中，从存储装置中获取与引起故障的一个或多个组件对应的一个或多个组件。上文已经参照图2详细描述了根据本公开实施例从存储装置中获取期望组件的检索方法200，在此出于简洁的目的不再赘述。

最后，在步骤S304中，利用所获取的一个或多个组件来恢复该故障。例如，如果由于NDU引起软件不能够正常运行或者启动，那么可以利用所获取的组件来替代引起故障的组件并且重新运行该软件。

图4示出了根据本公开实施例的在存储设备中用于故障恢复的装置400的示意性结构图。该存储设备包括至少一个服务器和存储装置并且在至少一个服务器上运行多个组件。

如图4所示，装置400包括备份模块410、监视模块420、获取模块430和恢复模块440。备份模块410被配置为在存储装置中对至少一个服务器上运行的多个组件中的一个或多个组件进行备份。监视模块420被配置为监视至少一个服务器上故障的发生并且定位引起该故障的一个或多个组件。获取模块430被配置为获取备份在存储装置中的、与引起故障的一个或多个组件对应的一个或多个组件。恢复模块440被配置为利用所获取的一个或多个组件来恢复故障。

在一个实施例中，装置400可以进一步包括逻辑单元建立模块，其被配置为在存储装置中建立多个逻辑单元，每个逻辑单元包含具有特定地址范围的存储区域并且备份的每个组件被存储在相应的一个逻辑单元中。装置400还可以包括搜索表维护模块，其被配置为维护逻辑单元搜索表，其中多个组件中的每个组件的名称与该组件被备份在其中的逻辑单元的索引以及该组件被备份在其上的存储区域的起始地址相关联地被存储。该搜索表维护模块还被配置为维护索引搜索表，其中多个组件被划分为多个组，每个组所包含的组件共同地由一个符号标识，在所述索引搜索表中与每个组对应的符号至少与一个逻辑单元的索引相关联地被存储，该一个逻辑单元的索引表示与之对应的组中所包含的组件被备份在其中的逻辑单元的范围的边界。

在一个实施例中，备份模块410可以进一步被配置为通过以下各项中的至少一项来执行备份：定期地对多个组件中的一个或多个组件进行备份；在对多个组件中的至少一个组件进行升级之前针对该至少一个组件进行备份；以及在对多个组件中的至少一个组件的配置进行改变之前针对该至少一个组件的配置进行备份。

装置400的具体功能和操作与参照图2和图3描述的根据本公开各实施例的组件检索方法200和故障恢复方法300相对应，因此出于简洁的目的，在此不再赘述。

本领域技术人员应当认识到，这里描述的任何结构图表示实现本发明的原理的说明性原理图。类似地，应当理解，这里描述的流程图表示可以在计算机可读介质中具体表示并且由计算机或处理器执行的各种过程，不论这样的计算机或处理器是否被明确示出。

本领域技术人员还应认识到，上述方法的各步骤可以通过编程的计算机来执行。这里，一些实施例还旨在涵盖程序存储设备，例如，机器或计算机可读的数字数据存储介质，其包括编码机器可执行或计算机可执行的指令程序，其中所述指令程序执行上述方法的一些或全部步骤。程序存储设备可以是，例如数字存储器、磁存储介质，诸如磁盘和磁带、硬盘驱动或光学可读数字数据存储介质。本实施例还意在涵盖被编程为执行上述方法的所述步骤的计算机。

本领域技术人员还应认识到，上述方法200和300的各步骤可以通过附图中未示出的包括“处理器”或“控制器”的任何装置、设备或机器来实现，例如主机服务器。处理器或控制器的各种功能可以通过使用专用硬件以及能够与适当的软件相关联地执行软件的硬件来提供。当由处理器提供时，这些功能可以由单个专用处理器、由单个共享处理器或由多个独立处理器来提供，其中的一些独立处理器可以被共享。此外，此处明确使用的术语“处理器”或“控制器”不应被解释为排他地指能够执行软件的硬件，并且可以隐含地包括但不限于，数字信号处理器(DSP)硬件、网络处理器、专用集成集成电路(ASIC)、现场可编程门阵列(FPGA)、用于存储软件的只读存储器(ROM)、随机存取存储器(RAM)和非易失性存储器。还可以包括常规和/或定制的其他硬件。

上面结合附图所进行的描述只是为了说明本发明而示例性给出的。本领域技术人员可以理解，能够基于上面所描述的本发明的原理提出不同的结构，虽然这些不同的结构未在此处明确描述或示出，但都体现了本发明的原理并被包括在其精神和范围之内。此外，所有此处提到的示例明确地主要只用于教导目的以帮助读者理解本发明的原理以及发明人所贡献的促进本领域的构思，并不应被解释为对本发明范围的限制。此外，此处所有提到本发明的原则、方面和实施方式的陈述及其特定的示例包含其等同物在内。

Claims

1.一种在存储设备中用于故障恢复的方法，所述存储设备包括至少一个服务器和存储装置并且在所述至少一个服务器上运行多个组件，所述方法包括：

在所述存储装置中对所述至少一个服务器上运行的所述多个组件中的一个或多个组件进行备份；

监视所述至少一个服务器上故障的发生并且定位引起所述故障的一个或多个组件；

获取备份在所述存储装置中的、与引起所述故障的所述一个或多个组件对应的一个或多个组件；以及

利用所获取的一个或多个组件来恢复所述故障。

2.根据权利要求1所述的方法，进一步包括：

在所述存储装置中建立多个逻辑单元，每个逻辑单元包含具有特定地址范围的存储区域并且备份的每个组件被存储在相应的一个逻辑单元中；

维护逻辑单元搜索表，其中所述多个组件中的每个组件的名称与该组件被备份在其中的逻辑单元的索引以及该组件被备份在其上的存储区域的起始地址相关联地被存储；以及

维护索引搜索表，其中所述多个组件被划分为多个组，每个组所包含的组件共同地由一个符号标识，在所述索引搜索表中与每个组对应的所述符号至少与一个逻辑单元的索引相关联地被存储，其中所述一个逻辑单元的所述索引表示与之对应的所述组中所包含的组件被备份在其中的逻辑单元的范围的边界。

3.根据权利要求2所述的方法，其中获取与引起所述故障的所述一个或多个组件对应的一个或多个组件进一步包括，针对引起所述故障的所述一个或多个组件中的每个组件：

基于所述索引搜索表来查找与该组件对应的逻辑单元的范围；

在所述逻辑单元搜索表中、在所述逻辑单元的范围内查找该组件的名称以及与之对应的存储区域的起始地址；以及

基于所述存储区域的起始地址来获取与该组件对应的、备份在所述存储装置中的组件。

4.根据权利要求2或3所述的方法，其中在非易失性存储器中维护所述逻辑单元搜索表和所述索引搜索表。

5.根据权利要求2或3所述的方法，其中所述多个组件中的每个组件的名称包含该组件被创建时的时间戳。

6.根据权利要求5所述的方法，其中获取备份在所述存储装置中的组件包括获取具有最新时间戳的所述组件。

7.根据权利要求2或3所述的方法，其中所述多个组件按照每个组件名称的首字母被划分为多个组，并且每个组所包含的组件共同地由该组件的首字母标识。

8.根据权利要求2或3所述的方法，其中在所述存储装置中对所述至少一个服务器上运行的所述多个组件中的一个或多个组件进行备份包括以下各项中的至少一项：

定期地对所述多个组件中的所述一个或多个组件进行备份；

在对所述多个组件中的至少一个组件进行升级之前针对所述至少一个组件进行备份；以及

在对所述多个组件中的至少一个组件的配置进行改变之前针对所述至少一个组件的所述配置进行备份。

9.根据权利要求2或3所述的方法，其中在所述存储装置中对所述至少一个服务器上运行的所述多个组件中一个或多个组件进行备份进一步包括根据所述备份更新所述逻辑单元搜索表和所述索引搜索表。

10.根据权利要求1至3中任一项所述的方法，其中所述多个组件包括以下各项中的一项或多项：操作系统内核、驱动器、软件配置文件、能够被改变的软件二进制文件以及固件。

11.一种在存储设备中用于故障恢复的装置，所述存储设备包括至少一个服务器和存储装置并且在所述至少一个服务器上运行多个组件，所述用于故障恢复的装置包括：

备份模块，被配置为在所述存储装置中对所述至少一个服务器上运行的所述多个组件中的一个或多个组件进行备份；

监视模块，被配置为监视所述至少一个服务器上故障的发生并且定位引起所述故障的一个或多个组件；

获取模块，被配置为获取备份在所述存储装置中的、与引起所述故障的所述一个或多个组件对应的一个或多个组件；以及

恢复模块，被配置为利用所获取的一个或多个组件来恢复所述故障。

12.根据权利要求11所述的用于故障恢复的装置，进一步包括：

逻辑单元建立模块，被配置为在所述存储装置中建立多个逻辑单元，每个逻辑单元包含具有特定地址范围的存储区域并且备份的每个组件被存储在相应的一个逻辑单元中；以及

搜索表维护模块，被配置为维护逻辑单元搜索表，其中所述多个组件中的每个组件的名称与该组件被备份在其中的逻辑单元的索引以及该组件被备份在其上的存储区域的起始地址相关联地被存储，并且被配置为维护索引搜索表，其中所述多个组件被划分为多个组，每个组所包含的组件共同地由一个符号标识，在所述索引搜索表中与每个组对应的所述符号至少与一个逻辑单元的索引相关联地被存储，其中所述一个逻辑单元的所述索引表示与之对应的所述组中所包含的组件被备份在其中的逻辑单元的范围的边界。

13.根据权利要求12所述的用于故障恢复的装置，其中所述获取模块进一步被配置为针对引起所述故障的所述一个或多个组件中的每个组件：

14.根据权利要求12或13所述的用于故障恢复的装置，其中所述搜索表维护模块在非易失性存储器中维护所述逻辑单元搜索表和所述索引搜索表。

15.根据权利要求12或13所述的用于故障恢复的装置，其中所述多个组件中的每个组件的名称包含该组件被创建时的时间戳。

16.根据权利要求15所述的用于故障恢复的装置，其中所述获取模块进一步被配置为获取具有最新时间戳的所述组件。

17.根据权利要求12或13所述的用于故障恢复的装置，其中所述多个组件按照每个组件名称的首字母被划分为多个组，并且每个组所包含的组件共同地由该组件的首字母标识。

18.根据权利要求12或13所述的用于故障恢复的装置，其中所述备份模块进一步被配置为通过以下各项中的至少一项来执行备份：

定期地对所述多个组件中的所述一个或多个组件进行备份；

19.根据权利要求12或13所述的用于故障恢复的装置，其中所述备份模块进一步被配置为根据所述备份来更新所述逻辑单元搜索表和所述索引搜索表。

20.根据权利要求11至13中任一项所述的用于故障恢复的装置，其中所述多个组件包括以下各项中的一项或多项：操作系统内核、驱动器、软件配置文件、能够被改变的软件二进制文件以及固件。