CN1303786C

CN1303786C - 用于在群集中进行故障解决的方法和系统

Info

Publication number: CN1303786C
Application number: CNB2004100576065A
Authority: CN
Inventors: 苏德赫·拉奥; 布鲁斯·杰克逊; 马克·戴维斯; 斯拉卡纳斯·斯拉德哈拉
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2003-08-27
Filing date: 2004-08-20
Publication date: 2007-03-07
Anticipated expiration: 2024-08-20
Also published as: US7284147B2; US20100115338A1; US7941690B2; CN1592225A; KR100617344B1; TW200511002A; US20050050398A1; KR20050022329A; JP2005073277A; JP3903437B2; TWI310494B

Abstract

一种用于定位和解决群集环境中的故障的方法和系统。在群集(100)中至少配置了一个多宿主节点(110)，为每一个网络接口(112、114)至少配置了一个网关(140)。在预定义的固定时间间隔内在对等节点和网关之间发送心跳消息(202)。在任何节点或网关丢失心跳消息的情况下(204)，为每一个网络接口向群集中的每一个节点和网关发出ICMP回音(206)。如果响应ICMP回音既没有验证节点丢失也没有验证网络丢失，则发出应用程序级别的ping(224)，以确定与心跳消息丢失关联的故障是暂时错误状态(228)还是应用程序软件故障(230)。

Description

用于在群集中进行故障解决的方法和系统

技术领域

本发明涉及用于解决多宿主节点组成的群集中的故障的方法和系统。具体来说，本发明涉及检测和隔离故障，以确定故障的来源，以便进行适当的故障转移和修复操作。

背景技术

节点是运行一个或多个操作系统实例的计算机。计算环境中的每一个节点都具有网络接口，可使节点在局域网中进行通信。群集是通常通过存储区域网络协调对共享存储子系统集的访问的一个或多个节点的集合。一组节点与一个将一个局域网与另一个局域网、较宽的内部网或全局区域网络连接的网关进行通信是常见的情况。局域网中的每一个网络接口和每一个网关都包括标识IP地址。

当前技术还已知，局域网或广域网中的节点包括两个网络接口，也称为“多宿主节点”。两个网络接口配置提供了冗余连接。多宿主节点拥有可以访问两个网络接口的软件。在其中一个网络接口或沿着网络接口的路径发生故障的情况下，通信可以切换到同一个节点上的第二网络接口，即，故障转移，不会引起中断，或从该节点中丢失数据或服务。

解决网络中的故障的一种形式是需要对等节点对可疑的网络接口发出请求响应协议消息。这种解决办法试图解决验证网络路径丢失以及确定故障是与本地接口网络关联还是与远程接口网络关联的具体问题。然而，这种技术依靠远程节点上的可能不可靠的服务器向本地网络接口发出ping命令。这种技术只有在发生单一故障的情况下才起作用。影响远程节点的任何网络故障或软件故障都将提供有关本地节点的假的结论。

其他解决办法包括节点之间的冗余心跳和心跳通道，以及解决网络故障的链路故障。使用冗余心跳和心跳通道可以解决与节点丢失的可靠的检测关联的问题，但在网络丢失解决方面不成功。同样，用于解决网络故障的链路故障只限于提供网络故障转移支持，但对于具有节点的集成高可用性体系结构以及网络监视和集成节点以及网络路径故障转移支持却不起作用。此外，链路故障技术没有能力确定是否发生了故障转移需要群集重组的网络分隔的情况。最后，通常由网络驱动程序提供的这样的解决办法只能在单一的子网网络拓扑中才起作用。

采用现有技术的用于可靠地检测和解决故障的方法在集成高可用性体系结构中要么效率低，要么不可靠，或者在两节点群集中不能可靠地工作。相应地，需要能够在集成高可用性体系结构中可靠而有效检测和解决故障的方法和系统。

发明内容

本发明包括用于解决计算机系统中的故障的方法和系统。

在本发明的第一方面，提供了用于在计算机系统中解决故障的方法。在群集中为网络接口配置了网关。响应心跳丢失检测，通过网络接口向群集中的所有对等节点和网关发出操作系统因特网控制消息协议(ICMP)回音。分析对回音的响应以确定群集中的故障的位置。可以响应在预定义的时间间隔内接收到回音响应的情况并响应心跳丢失检测，向对等节点发出应用程序级别的ping。

在本发明的第二方面，给计算机系统配备了群集，在该群集中，为网络接口配置了网关。响应心跳丢失检测，通过网络接口向群集中的所有对等节点和网关发出操作系统ICMP回音。分析来自回音的响应以确定群集中的故障的位置。可以响应在预定义的时间间隔内接收到回音的情况并响应心跳丢失检测，向对等节点发出应用程序级别的ping。

在本发明的第三方面，在计算机可读的信号承载介质中提供了一种产品。在介质中提供了一种装置，用于响应心跳丢失检测，通过网络接口向群集中的所有对等节点和配置的群集网关发出操作系统ICMP回音。此外，在介质中还提供了一种装置，用于分析来自回音的响应消息，以确定群集中的故障的位置。在介质中还可以提供一种装置，用于响应在预先确定的时间间隔内接收到回音响应的情况并响应心跳丢失检测，向对等节点发出应用程序级别的ping。

通过阅读下面结合附图对本发明的优选实施例的详细说明，本发明的其他特点和优点将变得显而易见。

附图说明

图1是采用现有技术的多节点计算系统的方框图。

图2是根据本发明的优选实施例的多节点计算系统的方框图，并建议打印在所发布专利的第一页上。

图3是说明定位并解决计算机系统中的故障的过程的流程图。

具体实施方式

概述

群集中配置了多宿主节点，并为每一个网络接口至少配置了一个网关。在预定义的固定时间间隔内在群集中的对等节点之间发送心跳消息。响应心跳消息的丢失，通过两个网络接口向群集中的所有节点和网关发送到ICMP回音。向群集中的所有节点和网关发送ICMIP回音可以帮助解决是否发生故障、是否发生网络分隔，以及确定发生节点丢失的位置，与网络接口关联的故障和/或电缆故障。可以发出应用程序级别的ping以进一步定位故障。相应地，通过每一个网络接口使用群集中的每一个节点和网关的ICMP回音可以可靠地定位故障，并为故障情况提供有效的解决办法。

技术细节

已知在当前技术中在预定义的时间间隔向网络中的对等节点发送心跳消息。图1是采用现有技术的多节点计算系统的方框图10。在此图中，箭头代表心跳，直线代表网络路径。系统中有三个节点，Node₀20、Node₁30和Node₂40。每一个节点都是多宿主节点。如图1所示，Node₀20具有网络接口₁22和网络接口₂24。同样，Node₁30具有网络接口₁32和网络接口₂34，Node₂40具有网络接口₁42和网络接口₂44。如图1所示，心跳消息发送到网络中的相邻的对等节点。例如，Node₀跨第一网络接口22、32和42分别向Node₁30和Node₂40发送第一心跳消息50和52，跨第二网络接口24、34和44分别向Node₁30和Node₂40发送第二心跳消息54和56。同样，Node₁30跨第一网络接口22、32和42分别向Node₀20和Node₂40发送第一心跳消息50和58，跨第二网络接口24、34和44分别向Node₀20和Node₂40发送第二心跳消息54和60，Node₂40跨第一网络接口22、32和42向Node₀20和Node₁30发送第一心跳消息52和58，跨第二网络接口24、34和44向Node₀20和Node₁30发送第二心跳消息56和60。基本上，每一个节点都跨每一个网络接口向相邻的对等节点发送独立的定期心跳消息。心跳消息是双向的，并在相邻节点之间存在，以监视节点内的故障。然而，心跳消息不能够解决网络丢失的情况。相应地，心跳消息对于只确定节点级别的故障而不解决这样的故障(如果有的话)很有帮助。

图2是为两个网络接口配置了一个网关180的多宿主多节点计算系统的一个示例的方框图100。在此图中，系统中有三个节点，Node₀110、Node₁120和Node₂130。每一个节点都是多宿主节点。如图2所示，Node₀110具有网络接口₁112和网络接口₂114。同样，Node₁120具有网络接口₁122网络接口₂124，Node₂130具有网络接口₁132和网络接口₂134。除了多个网络接口外，系统还具有网关180，用于与网络接口₁112、122和132，以及与网络接口₂114、124和134进行通信。如图2所示，心跳消息发送到网络中的相邻的对等节点。例如，Node₀110跨第一网络接口112、122和132向Node₁120和Node₂130发送第一心跳消息152和158，跨第二网络接口114、124和134向Node₁120和Node₂130发送第二心跳消息150和160。同样，Node₁120跨第一网络接口112、122和132分别向Node₀110和Node₂130发送第一心跳消息152和156，跨第二网络接口114、124和134向Node₀110和Node₂130发送第二心跳消息150和154，Node₂130跨第一网络接口112、122和132向Node₁120和Node₀110发送第一心跳消息156和158，跨第二网络接口114、124和134向Node₁120和Node₀110发送第二心跳消息154和160。此外，网关180沿着网络路径为两个网络接口提供服务。网关180不接收或发送心跳消息，因为心跳消息是应用程序级协议，而网关180只限于操作系统级协议。由于网关180的存在，可以检测到操作系统级的故障，如与网络路径或路径中的任何组件(如卡、交换机或集线器)关联的故障。相应地，在网关存在于网络拓扑中的情况下，每一个节点都跨每一个网络接口定期向相邻的对等节点发送双向心跳消息，以监视关联的网络内的故障。

双向心跳消息用于监视与节点的通信丢失的情况。在对等节点丢失心跳消息的情况下，使用ICMP消息来检测与网络运转或其故障相关的超带宽消息。ICMP回音功能在主机之间往返地发送因特网协议数据包。同样，ping使用应用程序级协议代替操作系统级协议，用于发送让接收者作出回音的消息。应用程序级别的ping在它传输的每一个数据包上放置一个唯一的顺序号，并报告它接收到哪些顺序号。这样可使得系统操作员判断数据包是否被丢失、复制或重新排序。此外，ping功能还在每一个数据包中放置一个时间戳，该时间戳也被返回，并可用于计算每一个数据包交换将花费多长时间，即，往返时间。此外，ping还报告其他ICMP消息，如路由器是否声明目标主机无法连接。

图3是说明使用心跳消息、ICMP回音，以及可选地，使用应用程序级别的ping，定位和解决如图2所示的多宿主多节点计算系统100中的故障的过程。心跳消息被发送到对等节点，用于监视故障检测202。并进行测试204，以判断在任何一个网络接口上是否存在心跳丢失的情况。在步骤204中如果对查询是否定的回答，则应该返回到步骤202，向继续在预定义的时间间隔内发送心跳消息的过程。然而，如果在步骤204中对查询是肯定的回答，则表示某一特定的节点丢失了心跳。随后由检测心跳丢失的节点发出ICMP回音206。从检测心跳丢失的节点通过两个网络接口向群集中的所有对等节点和网关发送ICMP回音。一个ICMP回音集通过第一网络接口发送，第二ICMP回音集通过第二网络接口发送。响应心跳丢失的情况发出的回音的数量如下：

回音的数量＝[(N-1)+(网关的数量)]*(网络接口的数量)

，其中N代表系统中的节点的数量。ICMP回音是向每一个节点上的操作系统发出的。相应地，发出回音将从其中一个或多个节点可能发生故障的群集中的一个或多个节点上运行的操作系统请求响应消息。

ICMP回音响应的作用是验证节点丢失或网络路径丢失的怀疑。发出ICMP回音之后，将进行测试，以判断对于一个网络接口是否至少接收到一个回音返回208。如果在步骤208中对测试是肯定的回答，则表示沿着该网络接口的网络路径运行正常210。此后，对来自两个网络接口的目标节点集的回音响应进行比较，以判断沿着群集内的任何一个网络接口的连接的最佳路径212。随后进行测试以判断在其他网络路径上是否存在更好的连接214。如果在步骤214上对测试是否定的回答，则返回到步骤202。然而，如果在步骤214中对查询是肯定的回答，则导致网络路径故障转移216。相应地，如果至少产生了一个回音返回，则找到网络连接问题，并加以解决。

然而，如果在步骤208中对测试的回答是否定的，则表示网络路径中不存在故障。因此，进行测试以判断是否从相同的对等节点返回冗余的回音218。如果在步骤218中对测试的回答是否定的，则验证与节点硬件有关的对等节点故障和/或对等节点的操作系统故障220。此后，进行节点故障转移或群集重组222。在ICMP回音响应既没有验证节点丢失也没有验证网络丢失的情况下，发出应用程序级别的ping 224。发出ping之后，进行测试以判断对ping是否有响应226。如果对ping有响应，则表明出现了暂时的错误状态228，而如果在预定义的时间间隔内对ping没有响应，则表明出现了应用程序软件故障230。如果故障不发生在网络连接中，则随后继续进行测试，以判断和定位可能与节点故障、暂时错误状态或应用程序软件故障一起存在的其他故障。相应地，定位故障可以帮助确定自动恢复操作和/或管理修复操作的最佳过程。

相对现有技术的优点

在物理计算机系统和应用程序软件内配置了具有两个网络接口和关联的消息的路由表的网关。借助于路由表，可以跨每一个网络进行消息和回音的有效传输。此外，在计算机系统中为每一个网络接口配置网关可以控制向特定的网络发出ICMP回音。最后，在网络配置内放置网关可以有助于判断可疑的故障是发生在网络中还是发生在网络内的某个节点中。具体来说，它可以帮助解决两节点群集中的故障，一般而言，还可以解决网络分隔情况。相应地，在计算机系统内配置网关可以使定位和解决系统中的故障的效率和可靠性增强。

其他实施例

可以理解，虽然这里只是为了说明而对本发明的具体的实施例进行描述的，在不偏离本发明的精神和范围的情况下，可以进行各种修改。具体来说，本发明不应该只限于图2所示的系统的体系结构布局。每一个网络都可以包括多个网关，以及连接节点和网关的其他设计方案。此外，网络拓扑可以是单一的子网、双子网或冗余的物理网络。相应地，本发明的保护范围只由下面的权利要求以及它们的等效内容进行限制。

Claims

1.一种用于在计算机系统中进行故障解决的方法，包括：

(a)在群集中为网络接口配置网关；

(b)响应心跳丢失检测，通过所述网络接口向所述群集中的所有对等节点和所述网关发出操作系统ICMP回音；以及

(c)分析来自所述回音的响应以确定所述群集中故障的位置。

2.根据权利要求1所述的方法，其中，分析来自所述回音的响应的步骤包括接收所述响应和确定所述回音的计划的接收者。

3.根据权利要求2所述的方法，其中，在预定义的时间间隔内从所述网络接口的所述对等节点接收到所述回音的回送，表明所述网络接口运转正常。

4.根据权利要求2所述的方法，其中，在预定义的时间间隔内从所述网络接口的所述网关接收到所述回音的回送，表明所述网络接口运转正常。

5.根据权利要求2所述的方法，其中，在预定义的时间间隔内没有从所述网络接口的所述对等节点接收到所述回音的回送，表明存在下列故障中的某一种故障：对等节点故障、对等节点本地的网络故障，以及它们的组合。

6.根据权利要求1所述的方法，进一步包括响应在预定义的时间间隔内接收到所述回音响应并响应所述心跳丢失检测，向对等节点发出应用程序级别的ping的步骤。

7.根据权利要求1所述的方法，进一步包括比较来自每一个网络接口的目标节点集的回音响应。

8.根据权利要求7所述的方法，其中，比较来自每一个网络接口的目标节点集的回音响应的步骤包括下列标准中的某一个标准：所述网络中的节点的最大可用性、所述网络中的所述网关的可用性，以及它们的组合。

9.一种包括多节点的计算机系统，包括：

群集，其中为网络接口配置了网关；

操作系统ICMP回音，用于响应心跳丢失检测，通过所述网络接口向群集中的所有对等节点和所述网关发出；以及

来自所述回音的响应，用于被分析以确定所述群集中的故障的位置。

10.根据权利要求9所述的系统，其中，对来自所述回音的所述响应的分析包括确定所述回音的计划的接收者。

11.根据权利要求10所述的系统，其中，在预定义的时间间隔内从所述网络接口的所述对等节点接收到所述回音的回送，表明所述网络接口运转正常。

12.根据权利要求10所述的系统，其中，在预定义的时间间隔内从所述网络接口的所述网关接收到所述回音的回送，表明所述网络接口运转正常。

13.根据权利要求11所述的系统，其中，在预定义的时间间隔内没有从所述网络接口的对等节点接收到所述回音的回送，表明存在下列故障中的某一种故障：对等节点故障、对等节点本地的网络故障，以及它们的组合。

14.根据权利要求9所述的系统，进一步包括应用程序级别的ping，用于响应在预定义的时间间隔内接收到所述回音响应并响应所述心跳丢失检测，向对等节点发出。

15.根据权利要求9所述的系统，进一步包括比较工具，用于比较来自每个网络接口的目标节点的回音响应。

16.根据权利要求15所述的系统，其中，所述比较工具基于下列标准中的某一个标准确定网络接口路径：所述网络中的节点的最大可用性、所述网络中的所述网关的可用性，以及它们的组合。