CN1784661A

CN1784661A - 分布式web服务的上下文中的自主故障转移

Info

Publication number: CN1784661A
Application number: CNA2004800120046A
Authority: CN
Inventors: 罗纳德·多伊勒; 戴维·路易斯·卡明斯基
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2003-05-15
Filing date: 2004-05-13
Publication date: 2006-06-07
Anticipated expiration: 2024-05-13
Also published as: TWI282228B; KR100745893B1; TW200501691A; JP2007500908A; WO2004102386A3; US20040243915A1; JP4916881B2; WO2004102386A2; BRPI0410366A; CN100514306C; US7287179B2; KR20060008891A

Abstract

已经被配置为进行自主故障转移的网格协调器可以包括以通信方式链接到服务网格中的许多网格主机的监视器。量度存储器可以连接到监视器并被配置为在网格主机中存储单个服务实例的服务量度。优化逻辑可以被编程为在为发生故障的网格主机中的一组服务实例存储的量度，以及为提议的替换网格主机确定的平台量度之间计算“最佳匹配”。最后，故障转移处理器可以连接到监视器和优化逻辑并以通信方式链接到网格主机，以在提议的替换网格主机中创建新的一组服务实例，以便根据在优化逻辑中计算的“最佳匹配”替换发生故障的网格主机中的服务实例集合。

Description

分布式WEB服务的上下文中的自主故障转移

技术领域

本发明涉及分布式计算的领域，包括Web服务，具体来说，涉及在分布式Web服务的上下文中管理自主故障转移。

背景技术

Web服务代表了分布式计算的前沿，被视为开发用于支持World Wide Web上的基于组件的应用程序的快速开发的真正通用的模型的基础。在当前技术中，已知Web服务包括许多描述面向服务的基于组件的应用程序体系结构的新兴标准。具体来说，Web服务是松散耦合的，可重用的软件组件，它们从语义上封装单独的功能，并且是分布式的，并通过标准因特网协议以编程方式来对它们访问。

在概念上，Web服务代表其中进程内的单独的任务在值网络内广泛地分布的模型。值得注意的是，许多工业专家认为面向服务的Web服务倡议是因特网的下一个发展阶段。通常，Web服务可以通过诸如Web服务定义语言(WSDL)之类的接口来进行定义，并可以根据该接口来实现，尽管实现方式的细节无关紧要，只要该实现方式符合Web服务接口即可。一旦根据对应的接口实现了Web服务，则可以向Web服务注册机构(如当前技术中已知的通用说明、发现和集成(UDDI))注册该实现方式。在注册时，Web服务可以被服务请求者通过使用任何支持消息协议，包括简单对象访问协议(SOAP)来进行访问。

在支持Web服务的面向服务的应用程序环境中，查找可靠的服务并实时动态地集成这些可靠的服务以满足应用程序的目标已经证明是有问题的。尽管注册表、目录和发现协议提供了用于实现服务检测和服务到服务的互连逻辑的基本结构，但是，仅凭注册表、目录和发现协议还不能用于实现分布式互操作性。相反地，需要更加结构化的、形式化的机制来促进形成统一的应用程序时的Web服务的分布。

值得注意的是，通过开放式网格服务体系结构(OGSA)的网格机制的生理机能可以跨分布式系统地在发现以及在Web服务(以下简称为“网格服务”)的绑定中提供协议，否则，仅通过使用注册表、目录和发现协议是不可能实现的。如在Ian Foster、Carl Kesselman和Steven Tuecke所著的The Anatomy of the Grid，[Intl J.Supercomputer Applications(2001)]和Ian Foster、Carl Kesselman、Jeffrey M.Nick和Steven Tuecke所著的The Physiology of theGrid，[Globus.org(June 22，2002)]中所描述的，网格机制可以提供分布式计算基础结构，通过该基础结构，可以创建、命名网格服务实例，并被发出请求的客户端发现。

网格服务通过提供增强的资源共享和调度支持、完善的分布式应用程序通常需要的长寿的状态的支持，以及企业之间的协作的支持来延伸Web服务。此外，尽管仅凭Web服务可以满足持久服务的发现和调用，但是，网格服务支持可以动态地创建和损坏的临时服务实例。使用网格服务的显著优点可以包括由于计算资源的比较有效的利用而使得拥有信息技术的成本降低，以及集成不同的计算组件变得更加容易。如此，网格机制，具体来说，符合OGSA的网格机制，可以实现面向服务的体系结构，通过该体系结构，可以提供分布式系统集成的基础-甚至可以跨组织域。

在服务网格内，提供基础结构的服务可以提供用于托管诸如网格服务之类的分布式服务的执行的处理资源。提供基础结构的服务可以包括一组资源，包括服务器计算设备、存储器系统，包括直接连接的存储器，网络连接的存储器和存储区域网络，处理和通信带宽等等。在提供基础结构的服务内处理的单个事务可以消耗这些资源的不同组合。

值得注意的是，OGSA定义了其中服务实例可以部署到服务网格内的一个或多个不同位置的体系结构。相应地，客户端访问特定服务的实例的请求可以被路由到被视为对于该请求来说特定服务的最佳实例的实例。为此，单个服务实例可以基于优化标准以战略性的方式被复制到服务网格中的不同节点。优化标准通常可以解析为可以访问特定资源的节点、具有与其他重要服务实例共存的服务实例的节点，相对于特定客户端的位置等等。

当托管了服务网格中的服务实例的一个服务实例或节点发生故障时，不管是什么原因，故障转移策略都可以变为服务网格的操作的重要方面。在这方面，至关重要的是，当在服务网格中的节点或服务实例中检测到故障时，随后的访问发生故障的节点中的服务实例内的服务功能的请求被重新路由到服务网格中的别处，到所希望的服务的其他实例。重要的是，这样的重新路由必须透明地进行，以便不干扰服务网格的虚拟组织方面。此外，尽管在当前技术中故障转移重新路由是已知的，但是，很少注意服务网格中的发生故障的服务实例的重新部署。

发明内容

优选情况下，本发明涉及分布式计算，包括Web服务和网格服务(特别是网格服务故障转移)。

根据优选实施例的本发明是配置为在分布式Web服务的上下文中管理自主故障转移的系统、方法和设备。

根据一个方面，提供了一种用于进行自主故障转移的方法，包括下列步骤：收集节点中的服务实例的量度；检测所述节点中的故障；在检测到所述故障时，定位一组替换节点并确定每一个所述替换节点的平台量度；以及，基于所述收集的量度和所述平台量度，在所述替换节点的最佳地选择的替换节点中创建新的替换服务实例。

关于这一点，根据优选实施例，在收集的量度和平台量度之间执行最佳匹配分析，以识别将在其中创建新的替换服务实例的最佳替换节点。然后，优选情况下，在识别的最佳替换节点中创建这样的新的替换服务实例。

在一些情况下，觉察到单个替换节点将能够托管新创建的替换服务实例，以便不大可能在任何一个服务实例中导致性能的下降。可是，在许多其他情况下，跨多个替换节点，将需要新的和预先存在的服务实例的比较复杂的重新布局。关于这一点，根据优选实施例，创建步骤包括，另外收集最佳替换节点中的现有服务实例的量度。优选情况下，在收集和另外收集的量度两者和最佳替换节点的平台量度之间执行最佳匹配分析。随后，优选情况下，在最佳替换节点中创建一组新的替换服务实例，以与一部分现有服务实例共存，在该部分现有服务实例中，计算新的替换服务实例集合和现有服务实例的部分，以便在最佳替换节点中最佳地合并。比较起来，优选情况下，将现有服务实例的其他实例移动到其他替换节点，优选情况下，在其他替换节点中创建其余的新的替换服务实例集合。

根据优选实施例，量度可以包括从由网格主机中消耗的资源、优选的操作系统平台、网格主机中需要的最少资源、网格主机中的供消耗的优选资源构成的组中选择的至少一个量度。

另外，在本发明的再一个优选实施例中，量度包括从由性能的单位成本、资源消耗的单位成本、性能的单位收入以及资源消耗的单位收入构成的组中选择的至少一个额外的量度。相应地，根据优选实施例，可以在收集和另外收集的量度两者和最佳替换节点的平台量度之间执行最佳匹配分析，同时给从由性能的单位成本、资源消耗的单位成本、性能的单位收入以及资源消耗的单位收入构成的组中选择的至少一个量度加权。

根据优选实施例，基于收集的量度和平台量度，在替换节点的最佳地选择的替换节点中创建新的替换服务实例包括下列步骤：另外收集最佳替换节点中的现有服务实例的量度；在所述收集和另外收集的量度两者和所述最佳替换节点的平台量度之间执行最佳匹配分析；在所述最佳替换节点中创建一组新的替换服务实例，以与一部分所述现有服务实例共存，在该部分所述现有服务实例中，计算新的替换服务实例的所述集和所述现有服务实例的所述部分，以便在所述最佳替换节点中最佳地合并；以及，将所述现有服务实例的其他实例移动到其他替换节点，并在所述其他替换节点中创建其余的新的替换服务实例集合。

根据优选实施例，基于收集的量度和平台量度，在替换节点的最佳地选择的替换节点中创建新的替换服务实例包括下列步骤：另外收集最佳替换节点中的现有服务实例的量度；在所述收集和另外收集的量度两者和所述最佳替换节点的平台量度之间执行最佳匹配分析，同时给从由性能的单位成本、资源消耗的单位成本、性能的单位收入以及资源消耗的单位收入构成的组中选择的至少一个量度加权；在所述最佳替换节点中创建一组新的替换服务实例，以与一部分所述现有服务实例共存，在该部分所述现有服务实例中，计算新的替换服务实例的所述集和所述现有服务实例的所述部分，以便根据所述加权的至少一个量度来在所述最佳替换节点中最佳地合并；以及，将所述现有服务实例的其他实例移动到其他替换节点，并在所述其他替换节点中创建其余的新的替换服务实例集合。

根据另一个方面，本发明提供一种网格协调器，包括：以通信方式链接到服务网格中的多个网格主机的监视器；连接到所述监视器并被配置为在所述网格主机中存储单个服务实例的服务量度的量度存储器；优化逻辑，被编程为在为发生故障的网格主机中的一组服务实例存储的量度，以及为提议的替换网格主机确定的平台量度之间计算“最佳匹配”；以及，连接到所述监视器和所述优化逻辑的并以通信方式链接到所述网格主机的故障转移处理器，以在所述提议的替换网格主机中创建新的一组服务实例，以便根据在所述优化逻辑中计算的所述“最佳匹配”替换所述发生故障的网格主机中的所述服务实例集合。

优选情况下，监视器包括位于所述网格主机中的多个协作监视进程，每一个协作监视进程具有将对应的网格主机的状态报告到所述故障转移处理器的配置。

优选情况下，服务量度包括从由网格主机中消耗的资源、优选的操作系统平台、网格主机中需要的最少资源、网格主机中的供消耗的优选资源构成的组中选择的至少一个量度。优选情况下，服务量度进一步包括从由性能的单位成本、资源消耗的单位成本、性能的单位收入以及资源消耗的单位收入构成的组中选择的至少一个量度。

根据另一个方面，提供了一种在其上存储了用于管理自主故障转移的计算机程序的机器可读的存储器，计算机程序包括用于使机器执行下列步骤的例行指令集：收集节点中的服务实例的量度；检测所述节点中的故障；在检测到所述故障时，定位一组替换节点并确定每一个所述替换节点的平台量度；以及，基于所述收集的量度和所述平台量度，在所述替换节点的最佳地选择的替换节点中创建新的替换服务实例。

优选情况下，所述量度包括从由网格主机中消耗的资源、优选的操作系统平台、网格主机中需要的最少资源、网格主机中的供消耗的优选资源构成的组中选择的至少一个量度。

优选情况下，量度进一步包括从由性能的单位成本、资源消耗的单位成本、性能的单位收入以及资源消耗的单位收入构成的组中选择的至少一个量度。

优选情况下，创建步骤包括下列步骤：在所述收集的量度和所述平台量度之间执行最佳匹配分析，以识别将在其中创建新的替换服务实例的最佳替换节点；以及，在所述识别的最佳替换节点中创建新的替换服务实例。

优选情况下，创建步骤包括下列步骤：另外收集最佳替换节点中的现有服务实例的量度；在所述收集和另外收集的量度两者和所述最佳替换节点的平台量度之间执行最佳匹配分析；在所述最佳替换节点中创建一组新的替换服务实例，以与一部分所述现有服务实例共存，在该部分所述现有服务实例中，计算新的替换服务实例的所述集和所述现有服务实例的所述部分，以便在所述最佳替换节点中最佳地合并；以及，将所述现有服务实例的其他实例移动到其他替换节点，并在所述其他替换节点中创建其余的新的替换服务实例集合。

在优选实施例中，创建步骤包括下列步骤：另外收集最佳替换节点中的现有服务实例的量度；在所述收集和另外收集的量度两者和所述最佳替换节点的平台量度之间执行最佳匹配分析，同时给从由性能的单位成本、资源消耗的单位成本、性能的单位收入以及资源消耗的单位收入构成的组中选择的至少一个量度加权；在所述最佳替换节点中创建一组新的替换服务实例，以与一部分所述现有服务实例共存，在该部分所述现有服务实例中，计算新的替换服务实例的所述集和所述现有服务实例的所述部分，以便根据所述加权的至少一个量度来在所述最佳替换节点中最佳地合并；以及，将所述现有服务实例的其他实例移动到其他替换节点，并在所述其他替换节点中创建其余的新的替换服务实例集合。

根据另一个方面，提供了包括程序代码装置的计算机程序，当所述程序在计算机上运行时，用于执行下列方法步骤，该步骤包括：收集节点中的服务实例的量度；检测所述节点中的故障；在检测到所述故障时，定位一组替换节点并确定每一个所述替换节点的平台量度；以及，基于所述收集的量度和所述平台量度，在所述替换节点的最佳地选择的替换节点中创建新的替换服务实例。

优选情况下，还提供了用于进行自主故障转移的设备，包括：用于收集节点中的服务实例的量度的装置；用于检测所述节点中的故障的装置；用于响应于检测到所述故障的情况，定位一组替换节点并确定每一个所述替换节点的平台量度的装置；以及，基于所述收集的量度和所述平台量度，在所述替换节点的最佳地选择的替换节点中创建新的替换服务实例的装置。

附图说明

现在将参考下面的附图，只作为示例，对本发明的优选实施例进行描述：

图1是根据本发明的优选实施例的被配置为自主故障转移的服务网格的示意图；

图2是根据本发明的优选实施例的图1的服务网格中的进行故障转移优化的过程的方框图；以及，

图3是根据本发明的优选实施例的图1的服务网格中的用于管理自主故障转移的过程的方框图。

具体实施方式

根据优选实施例，说明了一种用于用于管理诸如Web服务或网格服务托管基础结构之类的服务基础结构中的自主故障转移的方法和系统。在对网格服务托管基础结构的具体参考中，优选情况下，检测发生故障的网格托管节点，优选情况下，判断发生故障的节点中托管的对应的网格服务集。对于对应的集中的每一个服务，可以确定计算要求、计算性能和成本/收入特征。此外，优选情况下，识别可以容纳对应的集中的网格服务的新实例的现有的网格服务主机节点。在可以识别可以容纳对应的集中的所有服务的主机节点的情况下，优选情况下，在识别的主机节点中实例化该集中的服务。否则，根据一个或多个确定的计算要求、性能和成本/收入特征，优选情况下，优化一个或多个主机节点中的服务的放置。

关于这一点，对每一个服务实例进行监视，以便了解计算要求、性能量度和成本/收入特征。作为示例，计算要求可以包括操作系统要求和硬件资源要求。比较起来，性能量度可以包括资源消耗量度，如在服务实例的操作过程中消耗的通信带宽、处理器、存储器或磁盘存储器。最后，成本/收入特征可以包括每个消耗的资源的成本，以及每个消耗的资源的收入。在任何情况下，优选情况下，在每一个服务的操作过程中，动态地记录量度。如此，预计量度将随着时间而变化。

响应检测到节点故障的情况，优选情况下，在一个节点中放置较高优先级的服务，这样的较高优先级的服务可以享受符合或超过发生故障的节点中的以前的级别的资源消耗级别。然而，在资源有限上下文中，在替换节点缺乏足够的资源以在发生故障的节点的以前的资源消耗级别容纳发生故障的节点中的所有服务的新实例的情况下，可以给较低的优先级的服务分配甚至比发生故障的节点中先前分配的更少的资源。为避免此情况，优选情况下，使用多个替换节点来托管服务的新实例，其中，该集中的服务的拆分所产生的性能影响不会重于由于分配较低的优先级服务的替换节点中的较低的资源级别所造成的性能影响。

在任何情况下，尽管本发明可以在分布式的Web服务集的上下文中，或在网格服务基础结构的比较特定的情况下来实现，但是，在本发明的优选实施例中，网格服务基础结构被配置为自主故障转移，如这里所描述的。为此，图1是根据本发明的优选实施例的被配置为自主故障转移的服务网格的示意图。对熟练的技术人员显而易见的是，服务网格可以是这样的Web服务网格：其中配置了一个或多个网格主机120A、120B，它们跨计算机通信网络110(如因特网)以网格方式以通信方式彼此链接在一起。单个发出请求的客户端100可以请求从一个或多个网格主机120A、120B来访问Web服务。具体来说，如在当前技术中已知的，SOAP编码的消息可以在发出请求的客户端100和驻留在相应的网格主机120A、120B中的网格服务130A、130B之间来回被路由。

具体来说，客户端100可以通过同样地从网格协调器150请求来请求访问单个Web服务。具体来说，可以在消息路由器140中接收SOAP编码的消息，这些消息可以有选择地被路由到已知的网格协调器150集中的一个网格协调器(只显示了一个)。对于接收到的每一个消息，网格协调器150优选情况下通过查询已知的网格主机120A、120B内托管的已知的网格服务130A、130B的服务注册表190来查找服务网格中的被请求的Web服务的所希望的实例。随后，网格服务协调器150中的请求路由逻辑160优选情况下将请求路由到网格主机120A、120B的相应的网格主机中的网格服务130A、130B的所选择的一个网格服务。

那些熟练的技术人员将认识到，网格主机120A、120B可以以集中方式位于服务器计算设备内或以分布式方式跨多个服务器计算设备地布置。网格主机120A、120B可以包括诸如计算设备之类的物理主机，或诸如虚拟机或物理主机内的进程之类的虚拟主机。不论是哪一种情况，通常，每一个网格主机120A、120B可以被视为其中Web服务可以被实例化、维护和损坏的主机节点。

重要的是，网格服务协调器150优选情况下实现如OGSA定义的并且根据Globus Project，Globus Toolkit Futures：An OpenGrid Services Architecture，Globus Tutorial，Argonne NationalLaboratory(January 29，2002)说明的接口的网格服务接口。如在当前技术中已知的，符合OGSA的网格服务接口可以包括下列接口和行为：

1.Web服务创建(工厂)

2.全局命名(网格服务句柄)和参考(网格服务参考)

3.使用寿命管理

4.注册和发现

5.授权

6.通知

7.并行性

8.可管理性

关于这一点，网格服务协调器150优选情况下包括能够使用“工厂创建服务”将所选择的Web服务的实例克隆到新的或预先存在的应用程序容器中的工厂接口。

具体来说，根据优选实施例，网格服务协调器150可以请求跨一个或多个远程网格主机120A、120B地实例化被请求的Web服务的网格服务实例130A、130B。因此，响应接收在指定的Web服务中进行处理的服务请求的情况，不管指定的Web服务的任何特定实例，网格服务协调器150中的请求路由逻辑160优选情况下选择网格主机120A、120B内的服务实例130A、130B中的特定的一个服务实例，以根据任何数量路由标准来处理服务请求。

根据本发明的优选实施例，故障转移逻辑170和优化量度180的存储器两者都包括在网格协调器150中，完全地或通过关联来进行。优化量度180可以包括不同的静态和动态参数以及单个服务实例130A、130B的操作与关联测量的列表。在这方面，优化量度180优选情况下包括在网格主机120A、120B中消耗的资源的测量、优选的操作系统平台、需要的最少资源，以及需要的优选资源。此外，优化量度180优选情况下为每一个单个服务实例130A、130B指定性能的单位成本、资源消耗的单位成本、性能的单位收入以及资源消耗的单位收入。值得注意的是，优化量度180的存储器中包括的数据优选情况下通过连接到优化量度180(优选情况下，收集单个服务实例130A、130B的性能数据)的存储器监视器(未显示)的操作定期更新。

随着情况的产生，故障转移逻辑170优选情况下能够检测一个或多个服务实例所在的的网格主机120A、120B中的发生故障的那一个。识别发生故障的网格主机的情况下，故障转移逻辑170优选情况下查找一个或多个替换网格主机。替换网格主机可以包括能够在发生故障的网格主机内容纳所有服务实例的网格主机。相反，替换网格主机可以包括已经托管了服务实例并且目前没有分配全部主机资源供发生故障的网格主机中的服务实例使用的网格主机。在可以识别几乎相同或完全相同的替换网格主机的情况下，优选情况下，在识别的替换主机中创建驻留在发生故障的grid主机中的服务实例的新实例。否则，可以执行故障转移优化的过程，以便最佳地放置驻留在发生故障的网格主机中的服务实例的新实例。

图2是根据本发明的优选实施例的图1的服务网格中的进行故障转移优化的过程的方框图。根据本发明的布局，网格协调器215可以监视所选择的节点210X、210Y、210Z中工作的单个服务实例260A、260B、260C的操作。在监视单个服务实例260A、260B、260C的过程中，优选情况下，对于服务实例260A、260B、260C中的每一单个服务实例，记录了服务量度230。具体来说，优选情况下，对服务实例260A、260B、260C中的每一个服务实例进行监视，以便了解计算要求、性能量度和成本/收入特征。作为示例，计算要求可以包括操作系统要求和硬件资源要求。比较起来，性能量度可以包括资源消耗量度，如在服务实例的操作过程中消耗的通信带宽、处理器、存储器或磁盘存储器。最后，成本/收入特征可以包括每个消耗的资源的成本，以及每个消耗的资源的收入。

在检测到特定被监视的节点中的故障时，例如，服务实例260A、260C所在的节点210Y，优选情况下，优化逻辑220尝试根据下列过程进行故障转移。首先，优选情况下，识别一个或多个替换节点240A、240B。优选情况下，为每一个相应的替换节点240A、240B确定单个平台量度250A、250B。单个平台量度250A、250B可以包括，计算诸如处理器类型、操作系统类型、存储器和storage数量等等。单个平台量度250A、250B进一步可以包括替换节点250A、250B的动态地指定的状态，如消耗的计算资源，被托管的服务实例的数量和身份，等等。

在图2的典型的情况下，优化逻辑220最初可以根据优选实施例判断在发生故障的节点210Y内托管的服务260A、260C是否可以在其中一个被识别的替换节点240A、240B中完全地被重新实例化，以便服务260A、260C可以继续在发生故障的节点210Y中预先实现的性能级别下工作。关于这一点，作为一个简单情况，在已经判断替换节点240A包括能够在发生故障的节点210Y中预先实现的性能级别下容纳服务260A、260C的新实例的计算资源的情况下，优选情况下，将服务260A、260C的新实例放在替换节点240A内。

相反，在替换节点240A、240B中没有一个替换节点能够在发生故障的节点210Y中预先实现的性能级别下容纳服务260A、260C的新实例的的情况下，优选情况下，基于服务260A、260C的实例的服务量度230，以最佳方式，跨替换节点240A、240B中的一个或多个，放置服务260A、260C的新实例。具体来说，优选情况下，跨替换节点240A、240B两者放置服务260A、260C的新实例，以便任何一个替换节点240A、240B不必容纳服务260A、260C两者的新实例。或者，优选情况下，服务260A、260C的实例的服务量度230与平台量度250A、250B匹配，以识别服务260A、260C的任何一个实例的最兼容的平台。例如，在这方面，可以确定优选的操作系统。

在本发明的优选实施例中，对于服务260A、260C的每一个实例，确定成本对性能和收入对性能比。如此，服务260A、260C的新实例可以放置在替换节点240A、240B中的一个或多个替换节点内，以便优化这样的可能性：享受较高的收入/性能和较低的成本/性能比的服务260A、260C的实例将更可能地在替换节点内实现更高的性能，而具有较低的收入/性能和较高的成本/性能比的服务260A、260C的实例将让步于服务260A、260C的前面的实例。为帮助前面的计算，可以对服务量度230和平台量度250A、250B应用最佳匹配分析。

图3是根据本发明的优选实施例的图1的服务网格中的用于管理自主故障转移的过程的方框图。在方框310中开始，优选情况下，在网格协调器内检测节点故障。在方框320中，优选情况下，识别驻留在发生故障的节点内的每一个服务实例。在方框330中，优选情况下，进一步识别一个或多个替换节点。在方框340中，优选情况下，检索发生故障的节点中的每一个服务实例的记录的量度。或者，对于发生故障的节点中托管的服务的每一个实例，可以检索该服务的跨其他节点的多个实例的记录的量度，以便消除该服务的任何一个实例中的异常事件。在任何情况下，在方框350中识别每一个被识别的替换节点的平台量度。

在判断方框360中，优选情况下，基于发生故障的节点中预先体验到的性能，判断被识别的替换节点中是否有某个节点可以容纳服务的新实例，而不需要降低性能。如果是这样，则在方框380中，优选情况下，将服务的新实例放置在能够容纳服务的新实例而不需要性能下降的被识别的替换节点内。否则，在方框370中，优选情况下，执行最佳服务放置分析。具体来说，优选情况下，检索每一个服务的量度，并与每一个潜在的替换节点的量度进行比较。

优选情况下，应用最佳匹配分析，以判断应该在哪些替换节点中创建服务的新实例。特别是，可以给服务量度的不同的元素加权，以强调某些元素比其他元素更重要，例如，“每个百分比的资源消耗的收入”比“优选的操作系统”更重要。因此，可以在替换节点中创建全部新服务实例，而不是一个或多个新服务实例，或跨多个替换节点地分解全部新服务实例，以确保任何一个新服务实例中的性能都不会下降。最后，在可预见任何一个预先存在的服务实例可以通过将新服务放置在替换节点来移动的情况下，可以将方框370的分析延伸到一个或多个替换节点内的预先存在的服务实例。

本发明可以以硬件、软件或硬件和软件的组合实现。本发明的方法和系统可以使用一个计算机系统以集中方式，或者以不同的元素跨多个互连的计算机系统的分布式方式来实现。适于执行这里描述的方法的任何类型的计算机系统或其他设备都适于执行这里描述的功能。典型的硬件和软件的组合可以是具有这样的计算机程序的通用计算机系统，当加载并执行该计算机程序时，控制计算机系统以便它执行这里描述的方法。本发明还可以嵌入在包括实现这里描述的方法的所有特点的计算机程序产品中，这种计算机程序产品在加载到计算机系统中时，能够执行这些方法。

本上下文中的计算机程序或者应用程序是指以任何语言、代码或注释表达的一组指令的任何表达式，用于导致具有信息处理能力的系统直接或者在下列操作中的任何一种或两种操作都执行之后执行特定的功能：a)转换到另一种语言、代码或注释；b)以不同的材料形式再现。具体来说，在不偏离本发明的精神或必需的属性的情况下，本发明可以以其他特定的形式来实现，相应地，在表示本发明的范围时，应该参考下面的权利要求，而不是参考上述说明。

Claims

1.一种用于进行自主故障转移的方法，包括下列步骤：收集节点中的服务实例的量度；检测所述节点中的故障；在检测到所述故障时，定位一组替换节点并确定每一个所述替换节点的平台量度；以及，基于所述收集的量度和所述平台量度，在所述替换节点的最佳地选择的替换节点中创建新的替换服务实例。

2.根据权利要求1所述的方法，其中，所述量度包括从由网格主机中消耗的资源、优选的操作系统平台、网格主机中需要的最少资源、网格主机中的供消耗的优选资源构成的组中选择的至少一个量度。

3.根据权利要求2所述的方法，其中，所述量度进一步包括从由性能的单位成本、资源消耗的单位成本、性能的单位收入以及资源消耗的单位收入构成的组中选择的至少一个量度。

4.根据权利要求1所述的方法，其中，所述创建步骤包括下列步骤：在所述收集的量度和所述平台量度之间执行最佳匹配分析，以识别将在其中创建新的替换服务实例的最佳替换节点；以及，在所述识别的最佳替换节点中创建新的替换服务实例。

5.根据权利要求1所述的方法，其中，所述创建步骤包括下列步骤：另外收集最佳替换节点中的现有服务实例的量度；在所述收集和另外收集的量度两者和所述最佳替换节点的平台量度之间执行最佳匹配分析；在所述最佳替换节点中创建一组新的替换服务实例，以与一部分所述现有服务实例共存，在该部分所述现有服务实例中，计算新的替换服务实例的所述集和所述现有服务实例的所述部分，以便在所述最佳替换节点中最佳地合并；以及，将所述现有服务实例的其他实例移动到其他替换节点，并在所述其他替换节点中创建其余的新的替换服务实例集合。

6.根据权利要求3所述的方法，其中，所述创建步骤包括下列步骤：另外收集最佳替换节点中的现有服务实例的量度；在所述收集和另外收集的量度两者和所述最佳替换节点的平台量度之间执行最佳匹配分析，同时给从由性能的单位成本、资源消耗的单位成本、性能的单位收入以及资源消耗的单位收入构成的组中选择的至少一个量度加权；在所述最佳替换节点中创建一组新的替换服务实例，以与一部分所述现有服务实例共存，在该部分所述现有服务实例中，计算新的替换服务实例的所述集和所述现有服务实例的所述部分，以便根据所述加权的至少一个量度来在所述最佳替换节点中最佳地合并；以及，将所述现有服务实例的其他实例移动到其他替换节点，并在所述其他替换节点中创建其余的新的替换服务实例集合。

7.一种网格协调器，包括：以通信方式链接到服务网格中的多个网格主机的监视器；连接到所述监视器并被配置为在所述网格主机中存储单个服务实例的服务量度的量度存储器；优化逻辑，被编程为在为发生故障的网格主机中的一组服务实例存储的量度，以及为提议的替换网格主机确定的平台量度之间计算“最佳匹配”；以及，连接到所述监视器和所述优化逻辑的并以通信方式链接到所述网格主机的故障转移处理器，以在所述提议的替换网格主机中创建新的一组服务实例，以便根据在所述优化逻辑中计算的所述“最佳匹配”替换所述发生故障的网格主机中的所述服务实例集合。

8.根据权利要求7所述的网格协调器，其中，所述监视器包括位于所述网格主机中的多个协作监视进程，每一个所述协作监视进程具有将对应的网格主机的状态报告到所述故障转移处理器的配置。

9.一种在其上存储了用于管理自主故障转移的计算机程序的机器可读的存储器，计算机程序包括用于使机器执行下列步骤的例行指令集：收集节点中的服务实例的量度；检测所述节点中的故障；在检测到所述故障时，定位一组替换节点并确定每一个所述替换节点的平台量度；以及，基于所述收集的量度和所述平台量度，在所述替换节点的最佳地选择的替换节点中创建新的替换服务实例。

10.包括程序代码装置的计算机程序，当所述程序在计算机上运行时，用于执行权利要求1到6中的任何一个权利要求所述的方法。