CN1758608A

CN1758608A - 用于计算机簇节点的故障切换范围

Info

Publication number: CN1758608A
Application number: CNA2005101089884A
Authority: CN
Inventors: C·P·苏巴拉曼; S·施里瓦斯塔瓦
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-10-08
Filing date: 2005-09-29
Publication date: 2006-04-12
Anticipated expiration: 2025-09-29
Also published as: JP2006114040A; US7451347B2; JP5031218B2; KR20060051477A; EP1647890A2; EP1647890A3; ES2355262T3; ATE491989T1; KR101176651B1; EP1647890B1; US20060080568A1; DE602005025297D1; CN1758608B

Abstract

故障切换范围包括在计算机簇中的节点集合。一个资源组(如，应用程序)被关联一个或多个故障切换范围。如果一个节点故障了，它所包容的资源组仅故障切换到每个资源组的关联故障切换范围中识别出的节点，从第一关联故障切换范围开始，依次进行，因此定义了节点岛，其中可故障切换一个资源组。如果不能故障切换至资源组的第一故障切换范围中的节点，尝试故障切换至任意下一个关联故障切换范围中表示的节点，这可能需要手动干预。故障切换范围可表示地理上的站点，其中每个资源组在故障切换到另一个站点前尝试故障切换到在它的站点中的节点。故障切换范围可被簇实时运行程序自动管理，如，一个添加的节点是可发现为属于由一个故障切换范围表示的站点。

Description

用于计算机簇节点的故障切换范围

技术领域

本发明通常涉及簇计算节点，尤其涉及应用程序或簇主机节点的故障处理。

背景技术

簇是一组互连的计算机系统服务器，它们排列为节点，提供对资源，诸如服务器应用程序，的访问。使用服务器簇的一个理由是多连接的计算机系统通过分散负载的方式，极大地提高了计算性能和稳定性，并且拥有了更多的处理能力、速度和其他资源。

考虑到簇的可用性和稳定性，如果一个节点或一个主机应用程序故障，它的资源将故障切换(failover)到其他的工作节点，通常，故障切换(failover)表示其他节点提供主机应用程序，它相应于那些先前由目前故障的节点提供的主机应用程序。故障的类型包括计算机系统崩溃、节点之间通信连接的中断、为了维护或诸如此类的有目的关机、诸如意外地拔去了电源或通信电缆、以及类似情况的疏忽关机。

为了在某些受控制的方式下处理故障以使得故障的应用程序能在别的节点适当地重新启动，采取了一个尝试，基于一个优选节点列表使多个资源集合(其中每个都涉及一个资源集合，资源集合是一个包括一个或多个诸如应用程序的资源以及诸如网络名称、IP地址和诸如此类的相关资源的集合，它被管理为与故障切换有关的单一单元)故障切换到优选节点。然而，这可能会淹没某些特定节点，因为许多资源组关于优选节点有着相同默认配置。为了避免这个问题，现今的簇技术提供了当超过一个工作节点可用时，如果没有为一个资源组(至少是能够包容该组的节点)提供优选所有者列表，则使用一个基于随机数的算法来选择用于资源组的目标节点，这样没有一个节点会因为承担过多的故障节点资源组而被淹没。

考虑到计算能力/速度，一个簇内物理上接近的计算系统通常由极高带宽的网络连接链接在一起。然而，不是所有簇节点都是物理上邻近的，如企业(尤其是大型企业)经常将这样邻近链接的簇节点中的两个或多个子网彼此分开一个相对大的地理距离。这样做的一个目的是灾害防护，使得仍然保留一定数量的节点运行在飓风、火灾、地震或诸如此类的可导致互连节点中全部物理邻近子网集体故障的事件中，不论故障的原因是节点的实际故障还是节点子网和其他远端节点间的传输介质中断。

通过地理分割的灾害防护的一个问题在于，邻近互连节点的一个子网与其他子网中的子网间的通信带宽远远低于子网内的通信带宽。结果是，一些簇管理员不是必然希望资源组自动地从一个邻近互连子网故障切换到另一个(除非整个子网故障)，因为在低带宽下，从即使一个节点的资源故障切换的时间和开销也是巨大的。相反，簇管理员通常更宁愿让资源组仅仅故障切换到邻近连接的节点。当整个子网故障时，一些管理员更宁愿评估原因并如果可能则修复问题(如，一个拔掉的电缆)，且仅在必要时手动切换资源组，这可能需要重新配置其他子网以接受故障切换的资源组。其他管理员仍然希望如果整个子网故障时，故障切换是自动的，至少是部分自动的。进一步有，当处理合并簇，即包容多个应用程序的簇群时，许多管理员喜欢约束包容含有多个组件的应用程序的节点组。

然而，使用上面所述的迄今为止的随机故障切换机制，以及其他的目前机制，管理员不能配置它们的簇以他们期望的方式进行故障切换。实际上，使用随机机制，在资源组故障切换时，对物理邻近或物理远离节点是没有区分的。现在需要的是一个灵活的方法，使簇管理员可管理一个簇在故障时能采取的自动动作。

发明内容

简要地，本发明针对定义多个故障切换范围的系统和方法，其中每个范围包括簇中已识别节点的一个子集，且通过该系统和方法，资源组可关联于一个带有一个或多个故障切换范围的顺序列表。当一个故障切换发生时，每个资源组自动切换到一个在其故障切换范围中列出的工作节点。基于顺序，直到成功为止，在尝试切换到下一个故障切换范围中任何节点之前，将首先尝试故障切换到当前故障切换范围中的每个节点。

如果第一故障切换范围中没有节点可能接受该切换，(如，没有一个在工作)，则资源组可被设置为自动切换到下个故障切换范围中的一个节点，并且这样下去直到没有故障。为了赋予管理员阻止这样自动故障切换到另一个故障切换范围中节点的能力，可设置一个防止自动切换到随后列出的故障切换范围的手动设置(如，一个手动/自动的标识)。可能在每对关联于一个资源组的故障切换范围中都存在这样一个标识， (如，用于三个故障切换范围的两个标识，一个创建了从第一到第二故障切换范围的手动或自动转换，一个创建了从第二到第三故障切换范围的手动或自动转换)，或只在整个资源组中存在一个这样的标识。该标识默认为手动，也可经由管理员单独设置或者为整个簇的资源组总体设置。

可为根据地理基础而分离的节点的每个子集(称之为站点)创建一个故障切换范围。每个站点通常包括组成簇的子集的邻近(相对高的带宽)互连节点。然而，故障切换范围不需要精确对应于一个站点，并且这样故障切换范围可跨越超过一个站点。

或者，故障切换范围可被定义为只包括一个站点的一些子集，如，小到含有两个或多个节点的站点中的一个节点。这允许管理员来约束可包容任何资源组(诸如一个包含多种组件的应用程序)的节点集合。

当一个节点被添加到一个站点中时，作为运行一个要求该节点添加到该簇的设置应用程序的一部分，自动识别该新的节点。如果该簇软件是如此配置的，一个基于距离检测的自动进程会将该节点添加到一个对应于该站点的故障切换范围中。通过这种方式，管理员不需要为一个新的节点更新故障切换范围。然而，无论是自动进程将故障切换范围关联到新的节点，还是管理员手动地将新的节点添加到一个故障切换范围(或不止一个)，关联于该故障切换范围的资源组(可为一个相对大的数量)不需要被配置为能够运行在新的节点上。

根据下文的详细描述并结合附图可显而易见地得到其他优点。

附图说明

图1是框图，通常表示一个可按照本发明的计算机系统。

图2是框图，通常表示一个按照本发明多个方面，包含两个地理分离的站点并含有已定义的故障切换范围的示例簇。

图3是图2中故障切换范围的表示图，按照了本发明多个方面包含列出了一个或多个节点的故障切换范围，并列出了资源组和它们与故障切换范围的结合。

图4是框图，通常表示按照本发明多个方面的多个示例簇节点，其中每个都含有用于以受控制方式在故障切换范围中处理故障切换的故障切换管理器。

图5是框图，通常表示一个按照本发明多个方面的示例簇，它包含三个地理分离站点并含有已定义的故障切换范围，该故障切换范围包括一个含有一个站点的节点子集的故障切换范围。

图6是图5中按照本发明多个方面的故障切换范围以及与该故障切换范围相关的资源组的表示图。

具体实施方式

示例性操作环境

图1示出了一则可实现本发明的合适的计算系统环境100的示例。计算系统环境100只是一则合适的计算环境的示例且不旨在提出任何的对本发明使用范围或功能的限制。计算环境100也不能被认为是对示例性操作环境100中示出的任一组件或组合的有任何依赖或要求。

本发明可操作于多种其他通用功能或特定功能计算系统环境或配置。适合本发明使用的共知计算系统、环境、和/或配置的示例包括，但不限于，个人计算机、服务器计算机、手持或膝上设备、书写板设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费品电器、网络PC、小型机、大型机、包括任何上述系统或设备的分布式计算环境、以及诸如此类设备。

本发明可被描述在计算机可执行指令(诸如由一个计算机或其他设备执行的程序模块)的通常环境中。通常有，程序模块包括执行特定任务或实现特定抽象数据类型的例程、应用程序、对象、组件、数据结构、以及诸如此类。本发明还可被实现于分布式计算环境，后者中的任务被由通信网络连接在一起的远程处理设备所执行。在一个分布式计算环境中，程序模块可位于本地和/或远程计算机存储介质，包括内存存储器设备。

参照图1，一个用于实现本发明的示例性系统包括一个如计算机110形式的通用功能计算设备。计算机110的组件可包括，但不限于，一处理单元120、一系统存储器130、以及将包括系统存储器在内的各种系统组件连接到处理单元120的系统总线121。系统总线121可为多种类型的总线结构的任何一种，包括存储器总线或存储器控制器、外围设备总线、以及使用任何的多种总线体系结构的任何一种局部总线。作为示例，而非限制，这些体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线以及外围设备组件互连(PCI)总线(也被称为Mezzanine总线)。

计算机系统110典型地包括多种计算机可读介质。计算机可读介质可为计算机110可访问的任何可用介质，并包括易失和非易失介质、可移动和不可移动介质。通过示例，而非限制，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括通过任何方法或技术实现的，用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的，易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光学盘存储器、磁带盒、磁带、磁盘存储器或其他磁存储器设备、或任何其他可被用来存储所需信息并能够由计算机110访问的介质。通信介质典型地以一个已调制的数据信号，诸如载波或其他传输机制的形式来体现计算机可读指令、数据结构、程序模块或其他的数据，并包括任何信息传递介质。术语“已调制的数据信号”表示为了在信号内编码信息而设置或改变其一个或多个特征的信号。通过示例，而非限制，通信介质包括有线介质，诸如有线网络或直线连接、以及无线介质诸如声学的、FR、红外以及其他无线介质。任何上述的组合也被包括在计算机可读介质的范围内。

系统存储器130包括易失和/或非易失存储器形式的计算机存储器介质，诸如只读存储器(ROM)131以及随机访问存储器(RAM)132。基本输入/输出系统133(BIOS)一般被存储在ROM 131中，它包括诸如在起动过程中有助于计算机110内基本元件间传递信息的基本例程。RAM 132通常包括可由处理单元120立即访问和/或当前进行操作的数据和/或程序模块。通过示例，而非限制，图1示出了操作系统134、应用程序135、其他程序模块136、以及程序数据137。

计算机110也可包括其他可移动/不可移动的易失/非易失计算机存储介质。仅仅作为示例，图1示出了从不可移动非易失磁性介质读取或写入的硬盘驱动器151、从可移动非易失磁盘152读取或写入的磁盘驱动器151、以及一个从诸如CD-ROM或其他光学介质的可移动非易失光盘156读取或写入的光盘驱动器155。其他可被用于示例性操作环境的可移动/不可移动，易失/非易失计算机存储介质包括，但不限于，磁带盒、闪速存储卡、数字通用光盘、数字录影带、固态RAM、固态ROM、等等。硬盘驱动器141典型地通过诸如接口140的不可移动存储器接口连接到系统总线121，磁盘驱动器151以及光盘驱动器155通常通过一个诸如接口150的可移动存储器接口连接到系统总线121。

以上讨论的且示于图1中的驱动器和它们相关的计算机存储介质为来自计算机110的计算机可读指令、数据结构、程序模块以及其他数据提供了存储。在图1中，例如，硬盘驱动器141被示为存储操作系统144、应用程序145、其他程序模块146、以及程序数据147。注意这些组件可与操作系统134、应用程序135、其他程序模块136、以及程序数据137相同或相异。操作系统144、应用程序145、其他程序模块146以及程序数据147这里被给予了不同的标号用于表示在最小限度下，它们是不同的拷贝。用户可以经由一输入设备诸如书写板、或电子数字转换器164、麦克风163、键盘162、以及通常为鼠标、轨迹球或触摸板的定位设备181，输入命令和信息进入到计算机110中。没有在图1中示出的其他输入设备可包括操纵杆、游戏垫、卫星天线、扫描仪等等。这些及其他输入设备经常经由连接到系统总线用户输入接口160连接到处理单元120，但也可通过其他接口和总线结构进行连接，诸如并行端口、游戏端口或通用串行总线(USB)。一监视器191或其他类型的显示设备也经由诸如视频接口190的接口被连接到系统总线121。监视器191也可被集成在触摸屏面板或类似中。注意监视器和/或触摸屏面板可被物理连接到一个包括计算设备110的机架中，诸如在写字板型个人计算机的情况中。此外，诸如计算设备110的计算机也可包括其他外围输出设备，如扬声器195和打印机198，它们可通过输出外围接口194连接。

计算机110可操作在一个使用到一个或多个诸如远程计算机180的远程计算机的逻辑连接的网络环境下。远程计算机180可为个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，并典型地包括许多或所有上述涉及计算机110的元件，虽然在图1中只示出了一个存储器存储设备181。图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但也包括其他网络。这些网络化环境在办公室、企业级计算机网络、内部网和因特网上是普通的。

当用于LAN网络环境时，计算机110通过网络接口或适配器170连接到LAN 171上。当用于WAN网络环境时，计算机110典型地包括调制解调器172或其他装置，用于在诸如因特网的WAN 173上建立通信。调制解调器172可以是内置的或外置的，它通过用户输入接口160或其他合适的机制连接到系统总线121上。在网络环境中，与计算机110相关描述的程序模块或它的部分可存储在远程存储器设备中。通过示例，而非限制，图1示出了远程应用程序185驻留在存储器设备181上。可以被理解的是，所示网络连接是示例性的，且可以使用在计算机之间建立通信连接的其他装置。

故障切换范围

本发明通常针对一个通过管理员预先确定的方式处理资源组故障切换(如，由于计算机节点故障)的系统和方法。可以被理解的是，实现本发明的多种方式都是可行的，并且在此只描述了一些可选的方法。例如，下述本发明涉及一个簇节点，它在基于所维持的简单列表形式的故障切换范围信息判断哪个资源组被故障切换到哪个节点时充当领导者，然而其他机制也是可用的。例如，让节点对资源组投标，其中故障切换范围数据只是一个要素，这也是一个可用的可选方案。如此，本发明不限于任何在此使用的故障切换范围的特定示例，而是一般可向计算提供利益和优点的能以多种方式使用的故障切换范围概念。

转到附图2，示出了簇202中节点N1到N8的安排，簇202分开为两个地理上的站点，诸如一个“西”站点204和一个“东”站点206。通常的规则是相比不同站点的节点间的连接(示为节点N4和N5之间的点划线)，在一个站点内节点间的通信介质是非常高带宽的(示为连接节点N1到N4，N5到N8的实心斜线)。例如，一个站点内的节点可经由高速网络线路来连接，然而分开的站点的节点则经由因特网上的虚拟专用网络来连接。通常一个站点是地理上远离另一个站点的，然而可以基于其他要素来定义站点，诸如带宽因素，它可能独立于节点间的实际物理距离。

根据本发明的一个方面，为一组节点N1到N4定义了第一故障切换范围(FS1)208，为另一组节点N5到N8定义了第二故障切换范围(FS2)。关于哪个节点属于哪个故障切换范围的定义可由管理员或一个自动进程(下面讨论)来作出。在图2的示例中，考虑到节点身份，故障切换范围208和210准确地分别对应于站点204和206。然而如下所述参考图5和6，这不是一个必要条件，实际上，一个故障切换范围可跨越多个站点和/或一个故障切换范围可包括少于一个站点的全部节点(这可能是通常的)。

通常，每个资源组关联于至少一个故障切换范围，图3示出了图2中故障切换范围FS1和FS2的节点身份，每个故障切换范围身份含有一个属于该节点的节点身份列表，诸如维持在数据结构302中的列表。同样示出了资源组身份RG1到RGn的一个示例组，它列出了它们相关联的故障切换范围，诸如保持另一个数据结构304中。

根据本发明一个方面，一个资源组只故障切换到它所关联的故障切换范围或范围组列出的节点。在一则实现中，一个资源组不需要含有与故障切换范围的关联，在这样的事件中资源组可被故障切换到簇中任何的节点(只要那个节点基于其他考虑可接受该资源组)。为了防止一个资源组被故障切换，(诸如一个只能运行在非常强大的簇节点上的需要大量计算能力的程序)，该资源组可关联一个只包括一个单独节点的故障切换范围；如果那个节点故障了，则没有其他节点可以故障切换该资源组，那么一个自动重新启动进程或管理员需要重新启动该节点和/或重新配置该资源组的故障切换范围。注意，使用一个不包含运行资源组的节点(如，节点X)的故障切换范围是可行的(虽然不太可能)；随后故障切换会到另一个节点(如，节点Y)，但不再返回到先前运行过的节点(节点X)除非管理员手动干预。这可能需要管理员或一个启动进程在一个不列在故障切换范围中的节点上启动该资源组。

在任何情况下，如果一个将要被故障切换到的资源组关联超过一个故障切换范围(这很普遍)存在一个用于故障切换尝试的故障切换范围顺序。例如，参考图3的数据结构304，资源组RG1被设置为首先故障切换到图2的第一故障切换范围(FS1)208中的一个节点；只有当那个故障切换范围中没有节点能够处理该故障切换时，才会尝试故障切换到第二故障切换范围(FS2)210中的一个节点；换句话说，维持了故障切换范围间的优先权。在一则实施例中，如果整个故障切换范围的节点都故障了，则可从另一个关联到该组的故障切换范围中选择另一个节点，其中基于一些除了顺序以外的标准，如，当前负载、包容该资源组的能力、带宽、以及其他指标。注意如果资源组故障切换到的一个节点其本身故障了，那么故障切换管理器会首先试着将该组故障切换到那个故障切换范围中的一些其他节点(虽然那个范围内的所有节点可能都不可用了)。

注意在一个范围内的故障切换是自动的，(通常为了维持高可用度水平的目的)，然而在故障切换到第二个范围前，一个标识(图3中带有一个表示“手动”或“自动”的值，但只需要一个单个的比特)控制了用于给定资源组的跨故障切换范围的故障切换是手动还是自动的。即，当该标识被设置为手动时，需要手动干预来带动该资源组联机至工作的故障切换范围。进一步有，注意多个故障切换范围是排序的，然而在一个故障切换范围内的节点列表不必是排序的。作为替代，可随机地选择节点，或通过一些其他合适的方法，诸如基于负载平衡准则。然而，管理员可在一个故障切换范围内设置一个最优节点顺序，诸如通过根据节点排序来选择并对每个排序都有不同的故障切换范围。例如，如果激活了排序节点选择，按照N1，N4，N3，N2排序如图3所示的FS1；可用相同的节点N2，N3.N4.N1定义一个新的故障切换范围FS13(没有示出)。管理员可随后将一个资源组关联到FS1，将另一个资源组关联到FS13，从而这些资源组通常情况下会故障切换到不同节点，但仍然会在同一个节点子集里故障切换。通常，用户不需要为一个组设置优选列表，在内部，簇节点以一个随机的顺序列在优选列表上。不能包容组内资源的节点被从列表中删除。然而，如果用户希望拥有更多的对组安排的控制权，用户可以将组优选列表设置为一个特定的顺序。

故障切换通常经由图4所示的组件来工作，其中以一个稍微不同的方式示出了图2的簇202，包括两个节点(N4和N5)，展示了它们中一些内部组件和数据结构，其中主要是用于故障切换的那些。注意其他节点N1到N3和N6到N8拥有相似的组件和数据结构，但这些内部部件不单独示出。进一步考虑节点N2故障(由穿过节点N2的对角线所表示)，则节点N2的资源组必须被故障切换。注意可能是一个资源组故障了并被故障切换，即使它的节点仍然是在工作的；如，通过诸如为了测试目的而有意产生一个故障切换将一个资源组移动到另一个节点。

当一个节点故障时，簇中的每个节点都得知该故障。例如，检测节点故障的一个方法是故障节点停止响应常规网络连接信息，或者可选地，它不能发送周期性心跳信息。当这些信息常规地传达至簇中的节点时，工作的节点得知了该故障。

在一则实现例中，节点中的一个是控制故障切换的领导者节点；(注意如果领导者节点故障了，另一个节点升职为新的领导者，这样只要簇中有至少一个健康的节点那么就总是存在领导者节点。领导者节点控制(或委任另一个节点控制)故障切换操作以保证对每个资源组的故障切换，首先根据用于那个资源组的故障切换范围顺序来尝试故障切换操作。为此目的，每个节点含有一个故障切换管理器(有时候称为资源控制管理器)，以及维持故障切换范围和资源组到故障切换范围关联的数据结构。故障切换控制器按照故障切换范围的顺序工作，以限制该资源组到包含在该资源组关联的故障切换范围内的节点的故障切换，。在图4的示例中，对于节点N4，故障切换管理器被标记为408₄，故障切换范围数据结构302₄和资源组到故障切换范围关联数据结构304₄，对于节点N5相似的部件标有下标“5”。注意虽然没有在图4中示出，一个“资源管理器”可提供用于资源的包容环境，在这种情况下故障切换管理器提供控制指令，它们被合适的资源管理器引导到资源。

可以容易地理解的是，可以实现包括本发明故障切换范围的多种实施例。例如，在一则实现例中，故障切换管理器可强制执行规则以保证关联到资源组的故障切换范围是非相交的，即，不相交的。或者，如果这没有被故障切换管理器强制执行，这可被允许并强制执行，因为故障切换管理器基于该配置来做出决定。此外，故障切换管理器会首先判断一个节点包容资源组的能力，如果可能则是自动的，或者通过来自管理员的一些输入。例如，可基于候选节点是否包含一个资源组二元代码的副本来做出一个自动决定。注意在一些簇节点上可安装相应于资源组的应用程序，但其他没有，如，在判断应用程序是否需要使用到一些关联到节点子集的特殊能力(诸如多处理器支持)时用户输入可能是必须的。

可手动创建故障切换范围，如，通过调用簇实时运行支持的API。结果是，故障切换范围不一定需要表示站点，如下参考图5和6所述的。故障切换范围可被使用来定义节点岛，在其中可故障切换一个应用程序。

表示站点的故障切换范围可为自动创建的，因为下面的网络底层结构含有一些节点间距离的概念；注意公知的基于通信时间来确定距离的算法可被用于距离检测。如果该簇软件是这样配置，一个基于距离检测的自动进程可将该节点添加到一个对应于一个站点的故障切换范围。为了这个目的，图4表示的是一个当新节点被添加到一个簇时自动识别的组件420₄(或420₅)；一个这样的组件是一个设置应用程序，当添加一个新节点时运行。用这种方法，管理员不需要对任何匹配站点的故障切换范围更新用于新节点的故障切换范围。然而，无论是自动进程将故障切换范围关联到新的节点，还是管理员手动地将新的节点添加到一个故障切换范围(或不止一个)，关联于该故障切换范围的资源组(其可为一个相对大的数量)不需要被改变为能够在新的节点上运行。

如图2到4所示，一个簇可包含多个站点，(有时候称为一个大地簇(geocluster))，其中每个站点包括节点的一个集合。在这个示例中，在这样一个簇中的配置用于一个资源组的故障切换范围常常被连同站点级别边界一起定义，并实际上可能按这样的方式来使用。然而，本发明的实现例不阻止一个故障切换范围跨站点。

进一步有，如图5的簇502所示的，一个故障切换范围516(如，第四个故障切换范围，FS4)可只包括一个站点的节点的子集，如，故障切换范围FS4中只识别出站点504的节点N2，N3和N4。如图6中数据结构604中可见的，将不会尝试把资源组RG2故障切换到节点N1，因为RG2被关联到故障切换范围FS4，FS4和故障切换范围FS2一样不包括节点N1。

如图6进一步表示的，一个手动或自动标识不是对每个资源组必要的，但作为替代的可能对每个资源组中每对故障切换范围是必要的。这样，例如，资源组RG5由手动干预从故障切换范围FS1切换到FS2，然后，如果需要，因为故障切换范围FS2中没有发现合适的或工作的节点，由于第二个手动标识，再次手动地从故障切换范围FS2(切换)到FS3。相反，资源组RG7由手动干预从故障切换范围FS1切换到FS2，但随后，如果需要，因为故障切换范围FS2中没有发现合适的或现存的节点，因为第二个标识指定自动，则自动地从故障切换范围FS2切换到FS3。这给予了管理员额外的灵活性来选择第二次是否选择手动(如，因为簇中一些东西明显是错误的)或是否在另一个故障切换范围中寻找另一个节点(如，因为实在是不介意产生跨站点的故障切换费用)。注意可选的实现例会限制资源组到只有两个故障切换范围，或者如果允许大于两个，即使有三个或以上的故障切换范围关联到那个资源组，也限制为对整个资源组只有一个标识。

如前文详细描述可见的，提供了一种方法和系统，它提供了一种灵活的方式，用于簇管理员管理一个簇在故障时能采取的自动动作。管理员会指定资源组可故障切换到的簇节点或节点组的子集，它可能基于地理上的站点。

虽然本发明对多种的修改和可选择构造是敏感的，已经在附图中示出并在上文详细描述了某些说明性实施例。然而可以被理解的是，不旨在限制本发明为所披露的特定形式，而是相反地，本发明旨在覆盖所有在本发明精神和范围内的修改、可选择构造、或等价。

Claims

1.一种在一个计算环境中的方法，其特征在于，包括：

定义相应于簇内所选择的节点的故障切换范围；

将所述故障切换范围与资源组相关联；并且

基于与所述资源组关联的所述故障切换范围，将所述资源组从一个节点故障切换到另一个节点。

2.如权利要求1所述的方法，其特征在于，定义所述故障切换范围包括通过自动进程定义至少一部分所述故障切换范围。

3.如权利要求1所述的方法，其特征在于，定义所述故障切换范围包括从管理员接收关于至少一部分所述故障切换范围的输入。

4.如权利要求1所述的方法，其特征在于，定义所述故障切换范围包括定义至少一部分所述故障切换范围以对应于一个站点。

5.如权利要求1所述的方法，其特征在于，进一步包括，检测新节点的添加，并修改所述故障切换范围以包括对应所述新节点的信息。

6.如权利要求1所述的方法，其特征在于，进一步包括，将至少一个其他的故障切换范围与所述资源组相关联。

7.如权利要求1所述的方法，其特征在于，进一步包括，防止与所述资源组关联的故障切换范围之间的节点的相交。

8.如权利要求6所述的方法，其特征在于，进一步包括，维持与所述资源组关联的故障切换范围的顺序，使得在进行将所述资源组故障切换到任何其他故障切换范围中的节点的尝试之前，进行将所述资源组故障切换到第一故障切换范围中的节点的尝试。

9.如权利要求8所述的方法，其特征在于，所述的将所述资源组故障切换到第一故障切换范围中的节点的尝试是失败的，并进一步包括，在尝试将所述资源组故障切换到另一个故障切换范围的节点之前，访问表示手动干预是否必要的数据。

10.如权利要求1所述的方法，其特征在于，将所述资源组从一个节点故障切换到另一个节点包括从所述故障切换范围中的多个候选节点中选择所述的另一个节点。

11.如权利要求10所述的方法，其特征在于，从多个候选节点中选择所述另一个节点是基于随机选择。

12.如权利要求10所述的方法，其特征在于，从多个候选节点中选择所述另一个节点是基于满足至少一个准则。

13.一个或多个计算机可读介质，其特征在于，含有计算机可执行指令，它在执行时实现权利要求1所述的方法。

14.一种在一个计算环境中的方法，其特征在于，包括：

定义相应于一个簇中第一节点子集的第一故障切换范围；

定义相应于一个簇中第二节点子集的第二故障切换范围；

将所述第一和第二故障切换范围与资源组相关联；并且

尝试将所述资源组从所述第一故障切换范围中的一个节点故障切换至另一个节点，并且如果该尝试对于所述第一故障切换范围中的每个节点都是不成功的，则将所述资源组故障切换至所述第二故障切换范围中的节点。

15.如权利要求14所述的方法，其特征在于，所述第一和第二子集是不相交的。

16.如权利要求14所述的方法，其特征在于进一步包括，维持了有序信息，它表示在任何其他故障切换所述资源组的尝试之前，做出对于在所述第一故障切换范围中所识别的所述第一节点子集进行所述资源组故障切换的尝试。

17.如权利要求14所述的方法，其特征在于，定义所述第一和第二故障切换范围包括，通过自动进程定义至少部分的所述故障切换范围之一。

18.如权利要求14所述的方法，其特征在于，定义所述第一和第二故障切换范围包括，接收来自管理员的关于至少部分的所述故障切换范围之一的输入。

19.如权利要求14所述的方法，其特征在于，定义所述第一故障切换范围包括，定义了至少部分的所述第一故障切换范围以对应于站点。

20.如权利要求14所述的方法，其特征在于进一步包括，检测新节点的添加，并修改所述第一故障切换范围以包括对应所述新节点的信息。

21.如权利要求14所述的方法，其特征在于，进一步包括，将第三故障切换范围与所述资源组相关联。

22.如权利要求14所述的方法，其特征在于，将所述资源组故障切换到第一故障切换范围中的节点的所述尝试是不成功的，并进一步包括，在将所述资源故障切换到所述第二故障切换范围中的节点之前，访问表示手动干预是否必要的数据。

23.如权利要求22所述的方法，其特征在于，所述数据表示手动干预是必要的，并进一步包括，在将所述资源故障切换到所述第二故障切换范围中的节点之前，等待手动干预。

24.如权利要求14所述的方法，其特征在于，将所述资源组从一个节点故障切换到另一个节点包括，从所述故障切换范围中的多个候选节点中选择该另一个节点。

25.如权利要求24所述的方法，其特征在于，从多个候选节点间选择所述另一个节点是基于随机选择。

26.如权利要求24所述的方法，其特征在于，从多个候选节点中选择所述另一个节点是基于满足至少一个准则。

27.一个或多个计算机可读介质，其特征在于，含有计算机可执行指令，它在执行时实现权利要求24所述的方法。

28.一个在一个计算环境中的系统，其特征在于，包括：

多个节点；以及

运行在这些节点中至少一个上的种机制，当资源组需要被从一个节点故障切换到另一个节点时选择一个与所述资源组关联的已选择的故障切换范围，所述机制尝试首先将所述资源组故障切换至所述已选择的故障切换范围中的节点。

29.如权利要求28所述的系统，其特征在于，多个故障切换范围与所述资源组关联，并且所述机制基于所述故障切换范围的排序选择所述已选择的故障切换范围。

30.如权利要求29所述的系统，其特征在于，所述机制不能将所述资源组故障切换至所述已选择的故障切换范围，并且其中，所述机制选择一个最新选择的故障切换范围并尝试接着将所述资源组故障切换到该新选择的故障切换范围中的一个节点。

31.如权利要求29所述的系统，其特征在于，所述机制无法将所述资源组故障切换至所述已选择的故障切换范围，并且其中，所述机制检查数据以判断另一个故障切换范围是否可被选择以用于将所述资源组故障切换到所述另一个故障切换范围中的节点的自动尝试。

32.如权利要求28所述的系统，其特征在于，已选择的故障切换范围对应于一个站点。

33.一个或多个计算机可读介质，具有存储在其上的多个相关数据结构，其特征在于，包括：

第一数据结构，包括至少一个故障切换范围的组，每个故障切换范围与识别簇中至少一个节点的节点组相关联；

第二数据结构，它识别至少一个资源组，至少一个已识别的资源组含有到至少一个包括在所述第一数据结构中的故障切换范围的关联；以及

其中在资源组在所述第二数据结构中识别失败时，访问所述第二数据结构以选择已关联的故障切换范围作为已选择的故障切换范围，并且访问所述第一数据结构以定位对应于所述已选择的故障切换范围的节点组，使得所述资源组可被故障切换到在所述已选择的故障切换范围中识别的节点。

34.如权利要求33所述的计算机可读介质，其特征在于，在所述第二数据结构中识别的所述资源组与至少两个包括在所述第一数据结构中的故障切换范围相关联。

35.如权利要求34所述的计算机可读介质，其特征在于，进一步包括与所述资源组关联的数据，表示故障切换到所述已选择的故障切换范围之外的故障切换范围中的节点是否需要手动干预。

36.如权利要求33所述的计算机可读介质，其特征在于，在所述第二数据结构中识别的所述资源组与第一和第二故障切换范围相关联，其中，所述资源组还与对所述第一和第二故障切换范围进行排序的信息相关联，使得所述第一资源组为所述已选择的资源组。

37.如权利要求36所述的计算机可读介质，其特征在于，所述第一和第二资源组被维持在所述第二数据结构中，作为与所述已识别的资源组相关联的列表，其中，对所述第一和第二故障切换范围进行排序的所述信息包括所述列表中的所述故障切换范围的排序。