CN1303786C - 用于在群集中进行故障解决的方法和系统 - Google Patents

用于在群集中进行故障解决的方法和系统 Download PDF

Info

Publication number
CN1303786C
CN1303786C CNB2004100576065A CN200410057606A CN1303786C CN 1303786 C CN1303786 C CN 1303786C CN B2004100576065 A CNB2004100576065 A CN B2004100576065A CN 200410057606 A CN200410057606 A CN 200410057606A CN 1303786 C CN1303786 C CN 1303786C
Authority
CN
China
Prior art keywords
network interface
node
echo
fault
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2004100576065A
Other languages
English (en)
Other versions
CN1592225A (zh
Inventor
苏德赫·拉奥
布鲁斯·杰克逊
马克·戴维斯
斯拉卡纳斯·斯拉德哈拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1592225A publication Critical patent/CN1592225A/zh
Application granted granted Critical
Publication of CN1303786C publication Critical patent/CN1303786C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/66Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2017Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where memory access, memory control or I/O control functionality is redundant

Abstract

一种用于定位和解决群集环境中的故障的方法和系统。在群集(100)中至少配置了一个多宿主节点(110),为每一个网络接口(112、114)至少配置了一个网关(140)。在预定义的固定时间间隔内在对等节点和网关之间发送心跳消息(202)。在任何节点或网关丢失心跳消息的情况下(204),为每一个网络接口向群集中的每一个节点和网关发出ICMP回音(206)。如果响应ICMP回音既没有验证节点丢失也没有验证网络丢失,则发出应用程序级别的ping(224),以确定与心跳消息丢失关联的故障是暂时错误状态(228)还是应用程序软件故障(230)。

Description

用于在群集中进行故障解决的方法和系统
技术领域
本发明涉及用于解决多宿主节点组成的群集中的故障的方法和系统。具体来说,本发明涉及检测和隔离故障,以确定故障的来源,以便进行适当的故障转移和修复操作。
背景技术
节点是运行一个或多个操作系统实例的计算机。计算环境中的每一个节点都具有网络接口,可使节点在局域网中进行通信。群集是通常通过存储区域网络协调对共享存储子系统集的访问的一个或多个节点的集合。一组节点与一个将一个局域网与另一个局域网、较宽的内部网或全局区域网络连接的网关进行通信是常见的情况。局域网中的每一个网络接口和每一个网关都包括标识IP地址。
当前技术还已知,局域网或广域网中的节点包括两个网络接口,也称为“多宿主节点”。两个网络接口配置提供了冗余连接。多宿主节点拥有可以访问两个网络接口的软件。在其中一个网络接口或沿着网络接口的路径发生故障的情况下,通信可以切换到同一个节点上的第二网络接口,即,故障转移,不会引起中断,或从该节点中丢失数据或服务。
解决网络中的故障的一种形式是需要对等节点对可疑的网络接口发出请求响应协议消息。这种解决办法试图解决验证网络路径丢失以及确定故障是与本地接口网络关联还是与远程接口网络关联的具体问题。然而,这种技术依靠远程节点上的可能不可靠的服务器向本地网络接口发出ping命令。这种技术只有在发生单一故障的情况下才起作用。影响远程节点的任何网络故障或软件故障都将提供有关本地节点的假的结论。
其他解决办法包括节点之间的冗余心跳和心跳通道,以及解决网络故障的链路故障。使用冗余心跳和心跳通道可以解决与节点丢失的可靠的检测关联的问题,但在网络丢失解决方面不成功。同样,用于解决网络故障的链路故障只限于提供网络故障转移支持,但对于具有节点的集成高可用性体系结构以及网络监视和集成节点以及网络路径故障转移支持却不起作用。此外,链路故障技术没有能力确定是否发生了故障转移需要群集重组的网络分隔的情况。最后,通常由网络驱动程序提供的这样的解决办法只能在单一的子网网络拓扑中才起作用。
采用现有技术的用于可靠地检测和解决故障的方法在集成高可用性体系结构中要么效率低,要么不可靠,或者在两节点群集中不能可靠地工作。相应地,需要能够在集成高可用性体系结构中可靠而有效检测和解决故障的方法和系统。
发明内容
本发明包括用于解决计算机系统中的故障的方法和系统。
在本发明的第一方面,提供了用于在计算机系统中解决故障的方法。在群集中为网络接口配置了网关。响应心跳丢失检测,通过网络接口向群集中的所有对等节点和网关发出操作系统因特网控制消息协议(ICMP)回音。分析对回音的响应以确定群集中的故障的位置。可以响应在预定义的时间间隔内接收到回音响应的情况并响应心跳丢失检测,向对等节点发出应用程序级别的ping。
在本发明的第二方面,给计算机系统配备了群集,在该群集中,为网络接口配置了网关。响应心跳丢失检测,通过网络接口向群集中的所有对等节点和网关发出操作系统ICMP回音。分析来自回音的响应以确定群集中的故障的位置。可以响应在预定义的时间间隔内接收到回音的情况并响应心跳丢失检测,向对等节点发出应用程序级别的ping。
在本发明的第三方面,在计算机可读的信号承载介质中提供了一种产品。在介质中提供了一种装置,用于响应心跳丢失检测,通过网络接口向群集中的所有对等节点和配置的群集网关发出操作系统ICMP回音。此外,在介质中还提供了一种装置,用于分析来自回音的响应消息,以确定群集中的故障的位置。在介质中还可以提供一种装置,用于响应在预先确定的时间间隔内接收到回音响应的情况并响应心跳丢失检测,向对等节点发出应用程序级别的ping。
通过阅读下面结合附图对本发明的优选实施例的详细说明,本发明的其他特点和优点将变得显而易见。
附图说明
图1是采用现有技术的多节点计算系统的方框图。
图2是根据本发明的优选实施例的多节点计算系统的方框图,并建议打印在所发布专利的第一页上。
图3是说明定位并解决计算机系统中的故障的过程的流程图。
具体实施方式
概述
群集中配置了多宿主节点,并为每一个网络接口至少配置了一个网关。在预定义的固定时间间隔内在群集中的对等节点之间发送心跳消息。响应心跳消息的丢失,通过两个网络接口向群集中的所有节点和网关发送到ICMP回音。向群集中的所有节点和网关发送ICMIP回音可以帮助解决是否发生故障、是否发生网络分隔,以及确定发生节点丢失的位置,与网络接口关联的故障和/或电缆故障。可以发出应用程序级别的ping以进一步定位故障。相应地,通过每一个网络接口使用群集中的每一个节点和网关的ICMP回音可以可靠地定位故障,并为故障情况提供有效的解决办法。
技术细节
已知在当前技术中在预定义的时间间隔向网络中的对等节点发送心跳消息。图1是采用现有技术的多节点计算系统的方框图10。在此图中,箭头代表心跳,直线代表网络路径。系统中有三个节点,Node020、Node130和Node240。每一个节点都是多宿主节点。如图1所示,Node020具有网络接口122和网络接口224。同样,Node130具有网络接口132和网络接口234,Node240具有网络接口142和网络接口244。如图1所示,心跳消息发送到网络中的相邻的对等节点。例如,Node0跨第一网络接口22、32和42分别向Node130和Node240发送第一心跳消息50和52,跨第二网络接口24、34和44分别向Node130和Node240发送第二心跳消息54和56。同样,Node130跨第一网络接口22、32和42分别向Node020和Node240发送第一心跳消息50和58,跨第二网络接口24、34和44分别向Node020和Node240发送第二心跳消息54和60,Node240跨第一网络接口22、32和42向Node020和Node130发送第一心跳消息52和58,跨第二网络接口24、34和44向Node020和Node130发送第二心跳消息56和60。基本上,每一个节点都跨每一个网络接口向相邻的对等节点发送独立的定期心跳消息。心跳消息是双向的,并在相邻节点之间存在,以监视节点内的故障。然而,心跳消息不能够解决网络丢失的情况。相应地,心跳消息对于只确定节点级别的故障而不解决这样的故障(如果有的话)很有帮助。
图2是为两个网络接口配置了一个网关180的多宿主多节点计算系统的一个示例的方框图100。在此图中,系统中有三个节点,Node0110、Node1120和Node2130。每一个节点都是多宿主节点。如图2所示,Node0110具有网络接口1112和网络接口2114。同样,Node1120具有网络接口1122网络接口2124,Node2130具有网络接口1132和网络接口2134。除了多个网络接口外,系统还具有网关180,用于与网络接口1112、122和132,以及与网络接口2114、124和134进行通信。如图2所示,心跳消息发送到网络中的相邻的对等节点。例如,Node0110跨第一网络接口112、122和132向Node1120和Node2130发送第一心跳消息152和158,跨第二网络接口114、124和134向Node1120和Node2130发送第二心跳消息150和160。同样,Node1120跨第一网络接口112、122和132分别向Node0110和Node2130发送第一心跳消息152和156,跨第二网络接口114、124和134向Node0110和Node2130发送第二心跳消息150和154,Node2130跨第一网络接口112、122和132向Node1120和Node0110发送第一心跳消息156和158,跨第二网络接口114、124和134向Node1120和Node0110发送第二心跳消息154和160。此外,网关180沿着网络路径为两个网络接口提供服务。网关180不接收或发送心跳消息,因为心跳消息是应用程序级协议,而网关180只限于操作系统级协议。由于网关180的存在,可以检测到操作系统级的故障,如与网络路径或路径中的任何组件(如卡、交换机或集线器)关联的故障。相应地,在网关存在于网络拓扑中的情况下,每一个节点都跨每一个网络接口定期向相邻的对等节点发送双向心跳消息,以监视关联的网络内的故障。
双向心跳消息用于监视与节点的通信丢失的情况。在对等节点丢失心跳消息的情况下,使用ICMP消息来检测与网络运转或其故障相关的超带宽消息。ICMP回音功能在主机之间往返地发送因特网协议数据包。同样,ping使用应用程序级协议代替操作系统级协议,用于发送让接收者作出回音的消息。应用程序级别的ping在它传输的每一个数据包上放置一个唯一的顺序号,并报告它接收到哪些顺序号。这样可使得系统操作员判断数据包是否被丢失、复制或重新排序。此外,ping功能还在每一个数据包中放置一个时间戳,该时间戳也被返回,并可用于计算每一个数据包交换将花费多长时间,即,往返时间。此外,ping还报告其他ICMP消息,如路由器是否声明目标主机无法连接。
图3是说明使用心跳消息、ICMP回音,以及可选地,使用应用程序级别的ping,定位和解决如图2所示的多宿主多节点计算系统100中的故障的过程。心跳消息被发送到对等节点,用于监视故障检测202。并进行测试204,以判断在任何一个网络接口上是否存在心跳丢失的情况。在步骤204中如果对查询是否定的回答,则应该返回到步骤202,向继续在预定义的时间间隔内发送心跳消息的过程。然而,如果在步骤204中对查询是肯定的回答,则表示某一特定的节点丢失了心跳。随后由检测心跳丢失的节点发出ICMP回音206。从检测心跳丢失的节点通过两个网络接口向群集中的所有对等节点和网关发送ICMP回音。一个ICMP回音集通过第一网络接口发送,第二ICMP回音集通过第二网络接口发送。响应心跳丢失的情况发出的回音的数量如下:
回音的数量=[(N-1)+(网关的数量)]*(网络接口的数量)
,其中N代表系统中的节点的数量。ICMP回音是向每一个节点上的操作系统发出的。相应地,发出回音将从其中一个或多个节点可能发生故障的群集中的一个或多个节点上运行的操作系统请求响应消息。
ICMP回音响应的作用是验证节点丢失或网络路径丢失的怀疑。发出ICMP回音之后,将进行测试,以判断对于一个网络接口是否至少接收到一个回音返回208。如果在步骤208中对测试是肯定的回答,则表示沿着该网络接口的网络路径运行正常210。此后,对来自两个网络接口的目标节点集的回音响应进行比较,以判断沿着群集内的任何一个网络接口的连接的最佳路径212。随后进行测试以判断在其他网络路径上是否存在更好的连接214。如果在步骤214上对测试是否定的回答,则返回到步骤202。然而,如果在步骤214中对查询是肯定的回答,则导致网络路径故障转移216。相应地,如果至少产生了一个回音返回,则找到网络连接问题,并加以解决。
然而,如果在步骤208中对测试的回答是否定的,则表示网络路径中不存在故障。因此,进行测试以判断是否从相同的对等节点返回冗余的回音218。如果在步骤218中对测试的回答是否定的,则验证与节点硬件有关的对等节点故障和/或对等节点的操作系统故障220。此后,进行节点故障转移或群集重组222。在ICMP回音响应既没有验证节点丢失也没有验证网络丢失的情况下,发出应用程序级别的ping 224。发出ping之后,进行测试以判断对ping是否有响应226。如果对ping有响应,则表明出现了暂时的错误状态228,而如果在预定义的时间间隔内对ping没有响应,则表明出现了应用程序软件故障230。如果故障不发生在网络连接中,则随后继续进行测试,以判断和定位可能与节点故障、暂时错误状态或应用程序软件故障一起存在的其他故障。相应地,定位故障可以帮助确定自动恢复操作和/或管理修复操作的最佳过程。
相对现有技术的优点
在物理计算机系统和应用程序软件内配置了具有两个网络接口和关联的消息的路由表的网关。借助于路由表,可以跨每一个网络进行消息和回音的有效传输。此外,在计算机系统中为每一个网络接口配置网关可以控制向特定的网络发出ICMP回音。最后,在网络配置内放置网关可以有助于判断可疑的故障是发生在网络中还是发生在网络内的某个节点中。具体来说,它可以帮助解决两节点群集中的故障,一般而言,还可以解决网络分隔情况。相应地,在计算机系统内配置网关可以使定位和解决系统中的故障的效率和可靠性增强。
其他实施例
可以理解,虽然这里只是为了说明而对本发明的具体的实施例进行描述的,在不偏离本发明的精神和范围的情况下,可以进行各种修改。具体来说,本发明不应该只限于图2所示的系统的体系结构布局。每一个网络都可以包括多个网关,以及连接节点和网关的其他设计方案。此外,网络拓扑可以是单一的子网、双子网或冗余的物理网络。相应地,本发明的保护范围只由下面的权利要求以及它们的等效内容进行限制。

Claims (16)

1.一种用于在计算机系统中进行故障解决的方法,包括:
(a)在群集中为网络接口配置网关;
(b)响应心跳丢失检测,通过所述网络接口向所述群集中的所有对等节点和所述网关发出操作系统ICMP回音;以及
(c)分析来自所述回音的响应以确定所述群集中故障的位置。
2.根据权利要求1所述的方法,其中,分析来自所述回音的响应的步骤包括接收所述响应和确定所述回音的计划的接收者。
3.根据权利要求2所述的方法,其中,在预定义的时间间隔内从所述网络接口的所述对等节点接收到所述回音的回送,表明所述网络接口运转正常。
4.根据权利要求2所述的方法,其中,在预定义的时间间隔内从所述网络接口的所述网关接收到所述回音的回送,表明所述网络接口运转正常。
5.根据权利要求2所述的方法,其中,在预定义的时间间隔内没有从所述网络接口的所述对等节点接收到所述回音的回送,表明存在下列故障中的某一种故障:对等节点故障、对等节点本地的网络故障,以及它们的组合。
6.根据权利要求1所述的方法,进一步包括响应在预定义的时间间隔内接收到所述回音响应并响应所述心跳丢失检测,向对等节点发出应用程序级别的ping的步骤。
7.根据权利要求1所述的方法,进一步包括比较来自每一个网络接口的目标节点集的回音响应。
8.根据权利要求7所述的方法,其中,比较来自每一个网络接口的目标节点集的回音响应的步骤包括下列标准中的某一个标准:所述网络中的节点的最大可用性、所述网络中的所述网关的可用性,以及它们的组合。
9.一种包括多节点的计算机系统,包括:
群集,其中为网络接口配置了网关;
操作系统ICMP回音,用于响应心跳丢失检测,通过所述网络接口向群集中的所有对等节点和所述网关发出;以及
来自所述回音的响应,用于被分析以确定所述群集中的故障的位置。
10.根据权利要求9所述的系统,其中,对来自所述回音的所述响应的分析包括确定所述回音的计划的接收者。
11.根据权利要求10所述的系统,其中,在预定义的时间间隔内从所述网络接口的所述对等节点接收到所述回音的回送,表明所述网络接口运转正常。
12.根据权利要求10所述的系统,其中,在预定义的时间间隔内从所述网络接口的所述网关接收到所述回音的回送,表明所述网络接口运转正常。
13.根据权利要求11所述的系统,其中,在预定义的时间间隔内没有从所述网络接口的对等节点接收到所述回音的回送,表明存在下列故障中的某一种故障:对等节点故障、对等节点本地的网络故障,以及它们的组合。
14.根据权利要求9所述的系统,进一步包括应用程序级别的ping,用于响应在预定义的时间间隔内接收到所述回音响应并响应所述心跳丢失检测,向对等节点发出。
15.根据权利要求9所述的系统,进一步包括比较工具,用于比较来自每个网络接口的目标节点的回音响应。
16.根据权利要求15所述的系统,其中,所述比较工具基于下列标准中的某一个标准确定网络接口路径:所述网络中的节点的最大可用性、所述网络中的所述网关的可用性,以及它们的组合。
CNB2004100576065A 2003-08-27 2004-08-20 用于在群集中进行故障解决的方法和系统 Active CN1303786C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/649,269 2003-08-27
US10/649,269 US7284147B2 (en) 2003-08-27 2003-08-27 Reliable fault resolution in a cluster

Publications (2)

Publication Number Publication Date
CN1592225A CN1592225A (zh) 2005-03-09
CN1303786C true CN1303786C (zh) 2007-03-07

Family

ID=34216906

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100576065A Active CN1303786C (zh) 2003-08-27 2004-08-20 用于在群集中进行故障解决的方法和系统

Country Status (5)

Country Link
US (2) US7284147B2 (zh)
JP (1) JP3903437B2 (zh)
KR (1) KR100617344B1 (zh)
CN (1) CN1303786C (zh)
TW (1) TWI310494B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107426003A (zh) * 2017-05-02 2017-12-01 华为技术有限公司 一种故障检测方法及装置

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080207178A1 (en) * 1997-07-30 2008-08-28 Steven Tischer Apparatus and method for restricting access to data
US20080220775A1 (en) * 1997-07-30 2008-09-11 Steven Tischer Apparatus, method, and computer-readable medium for securely providing communications between devices and networks
US20080194225A1 (en) * 1997-07-30 2008-08-14 Steven Tischer Apparatus and method for providing emergency and alarm communications
US20080192768A1 (en) * 1997-07-30 2008-08-14 Steven Tischer Apparatus, method, and computer-readable medium for interfacing communication devices
US20080207197A1 (en) 1997-07-30 2008-08-28 Steven Tischer Apparatus, method, and computer-readable medium for interfacing devices with communications networks
US20080194208A1 (en) * 1997-07-30 2008-08-14 Steven Tischer Apparatus, method, and computer-readable medium for communicating between and controlling network devices
US20080207179A1 (en) * 1997-07-30 2008-08-28 Steven Tischer Apparatus and method for testing communication capabilities of networks and devices
US7149514B1 (en) 1997-07-30 2006-12-12 Bellsouth Intellectual Property Corp. Cellular docking station
US8526466B2 (en) 2002-07-15 2013-09-03 At&T Intellectual Property I, L.P. Apparatus and method for prioritizing communications between devices
US8416804B2 (en) 2002-07-15 2013-04-09 At&T Intellectual Property I, L.P. Apparatus and method for providing a user interface for facilitating communications between devices
US8000682B2 (en) 2002-07-15 2011-08-16 At&T Intellectual Property I, L.P. Apparatus and method for restricting access to data
US8554187B2 (en) 2002-07-15 2013-10-08 At&T Intellectual Property I, L.P. Apparatus and method for routing communications between networks and devices
US7200424B2 (en) 2002-07-15 2007-04-03 Bellsouth Intelectual Property Corporation Systems and methods for restricting the use and movement of telephony devices
US8543098B2 (en) 2002-07-15 2013-09-24 At&T Intellectual Property I, L.P. Apparatus and method for securely providing communications between devices and networks
US8275371B2 (en) 2002-07-15 2012-09-25 At&T Intellectual Property I, L.P. Apparatus and method for providing communications and connection-oriented services to devices
US20050036483A1 (en) * 2003-08-11 2005-02-17 Minoru Tomisaka Method and system for managing programs for web service system
US7280486B2 (en) * 2004-01-07 2007-10-09 Cisco Technology, Inc. Detection of forwarding problems for external prefixes
US7965646B2 (en) * 2004-08-11 2011-06-21 Qwest Communications International Inc Wireless code-passing system for stateful connection monitoring
US20060246889A1 (en) * 2005-05-02 2006-11-02 Buchhop Peter K Wireless Data Device Performance Monitor
CN101199165A (zh) 2005-06-14 2008-06-11 艾利森电话股份有限公司 用于网络中的故障处理的方法和配置
US8195976B2 (en) 2005-06-29 2012-06-05 International Business Machines Corporation Fault-tolerance and fault-containment models for zoning clustered application silos into continuous availability and high availability zones in clustered systems during recovery and maintenance
CN100454849C (zh) * 2005-08-05 2009-01-21 华为技术有限公司 下一代网络中的故障检测方法
CN1327658C (zh) * 2005-08-09 2007-07-18 华为技术有限公司 网络通信状况探测方法
WO2007055014A1 (ja) * 2005-11-11 2007-05-18 Fujitsu Limited クラスタシステムのコンピュータにおいて実行されるネットワークモニタ・プログラム、情報処理方法及びコンピュータ
US7539755B2 (en) * 2006-04-24 2009-05-26 Inventec Corporation Real-time heartbeat frequency regulation system and method utilizing user-requested frequency
US20070294596A1 (en) * 2006-05-22 2007-12-20 Gissel Thomas R Inter-tier failure detection using central aggregation point
US8428098B2 (en) * 2006-07-06 2013-04-23 Qualcomm Incorporated Geo-locating end-user devices on a communication network
US8074109B1 (en) * 2006-11-14 2011-12-06 Unisys Corporation Third-party voting to select a master processor within a multi-processor computer
JP2008172592A (ja) * 2007-01-12 2008-07-24 Hitachi Ltd クラスタシステム、コンピュータおよびその異常検出方法
US7890555B2 (en) * 2007-07-10 2011-02-15 International Business Machines Corporation File system mounting in a clustered file system
US7898941B2 (en) * 2007-09-11 2011-03-01 Polycom, Inc. Method and system for assigning a plurality of MACs to a plurality of processors
CN101420335B (zh) 2007-10-26 2011-09-14 华为技术有限公司 对等网络节点故障检测/处理方法及装置
US8195977B2 (en) * 2007-11-19 2012-06-05 International Business Machines Corporation Network fault isolation
US9317432B2 (en) * 2008-01-09 2016-04-19 International Business Machines Corporation Methods and systems for consistently replicating data
CN101562784B (zh) * 2008-04-14 2012-06-06 华为技术有限公司 报文分发方法、设备及系统
US7983175B2 (en) * 2008-09-19 2011-07-19 International Business Machines Corporation System and method for detecting a network failure
JP2010103695A (ja) * 2008-10-22 2010-05-06 Ntt Data Corp クラスタシステム、クラスタサーバ及びクラスタ制御方法
US8918670B2 (en) * 2008-10-29 2014-12-23 Hewlett-Packard Development Company, L.P. Active link verification for failover operations in a storage network
US8671218B2 (en) * 2009-06-16 2014-03-11 Oracle America, Inc. Method and system for a weak membership tie-break
WO2011148510A1 (ja) * 2010-05-28 2011-12-01 富士通株式会社 伝送装置及び伝送装置制御方法
US8634328B2 (en) * 2010-12-03 2014-01-21 International Business Machines Corporation Endpoint-to-endpoint communications status monitoring
US8433760B2 (en) 2010-12-03 2013-04-30 International Business Machines Corporation Inter-node communication scheme for node status sharing
US8634330B2 (en) 2011-04-04 2014-01-21 International Business Machines Corporation Inter-cluster communications technique for event and health status communications
EP2704356B1 (en) * 2011-05-30 2019-09-04 Huawei Technologies Co., Ltd. Method and service node for determining fault state
US9244796B2 (en) 2011-11-15 2016-01-26 International Business Machines Corporation Diagnostic heartbeat throttling
US8903893B2 (en) * 2011-11-15 2014-12-02 International Business Machines Corporation Diagnostic heartbeating in a distributed data processing environment
US8756453B2 (en) 2011-11-15 2014-06-17 International Business Machines Corporation Communication system with diagnostic capabilities
US8874974B2 (en) * 2011-11-15 2014-10-28 International Business Machines Corporation Synchronizing a distributed communication system using diagnostic heartbeating
US8769089B2 (en) 2011-11-15 2014-07-01 International Business Machines Corporation Distributed application using diagnostic heartbeating
US9680785B2 (en) 2011-12-29 2017-06-13 Intel Corporation Secure geo-location of a computing resource
US9559894B2 (en) * 2012-08-22 2017-01-31 Oracle International Corporation System and method for supporting high available (HA) network communication in a middleware machine environment
US20140095925A1 (en) * 2012-10-01 2014-04-03 Jason Wilson Client for controlling automatic failover from a primary to a standby server
US9501363B1 (en) * 2013-03-15 2016-11-22 Nuodb, Inc. Distributed database management system with node failure detection
US10102088B2 (en) * 2013-12-25 2018-10-16 Nec Solution Innovators, Ltd. Cluster system, server device, cluster system management method, and computer-readable recording medium
JP6278868B2 (ja) * 2014-08-28 2018-02-14 三菱電機株式会社 通信制御装置および計算装置
US9760420B1 (en) * 2014-09-03 2017-09-12 Amazon Technologies, Inc. Fleet host rebuild service implementing vetting, diagnostics, and provisioning pools
US9823637B2 (en) * 2014-09-05 2017-11-21 Southern States, Llc Fault detection and isolation using a common reference clock
US10003525B2 (en) * 2014-11-14 2018-06-19 Fisher-Rosemount Systems, Inc. Methods and apparatus to provide redundancy in a process control system
GB2533432A (en) 2014-12-18 2016-06-22 Ipco 2012 Ltd A device system, method and computer program product for processing electronic transaction requests
GB2533562A (en) 2014-12-18 2016-06-29 Ipco 2012 Ltd An interface, method and computer program product for controlling the transfer of electronic messages
GB2537087A (en) 2014-12-18 2016-10-12 Ipco 2012 Ltd A system, method and computer program product for receiving electronic messages
GB2533379A (en) 2014-12-18 2016-06-22 Ipco 2012 Ltd A system and server for receiving transaction requests
CN105450466B (zh) * 2015-11-10 2018-11-02 浪潮(北京)电子信息产业有限公司 一种icmp请求报文保活控制方法及系统
JP6409812B2 (ja) * 2016-04-01 2018-10-24 横河電機株式会社 冗長化装置、冗長化システム、及び冗長化方法
CN106452957B (zh) * 2016-09-30 2019-09-10 邦彦技术股份有限公司 心跳检测方法及节点系统
CN106559288B (zh) * 2016-11-23 2019-11-12 北京航天自动控制研究所 一种基于icmp报文的快速故障检测方法
CN107566219B (zh) * 2017-09-27 2020-09-18 华为技术有限公司 应用于集群系统的故障诊断方法、节点设备和计算机设备
CN111869163B (zh) * 2018-03-19 2022-05-24 华为技术有限公司 一种故障检测的方法、装置及系统
US11595407B2 (en) * 2018-04-27 2023-02-28 Dell Products L.P. Information handling system threat management
KR102040115B1 (ko) * 2018-08-30 2019-11-27 주식회사 동희산업 네트워크 장애처리 자동화 시스템 및 방법
CN111092996A (zh) * 2019-10-31 2020-05-01 国网山东省电力公司信息通信公司 一种集中式调度录音系统及控制方法
US11397632B2 (en) * 2020-10-30 2022-07-26 Red Hat, Inc. Safely recovering workloads within a finite timeframe from unhealthy cluster nodes
CN114172824A (zh) * 2021-12-15 2022-03-11 国家石油天然气管网集团有限公司 油气管道高速总线与控制器进行冗余切换方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371852A (en) * 1992-10-14 1994-12-06 International Business Machines Corporation Method and apparatus for making a cluster of computers appear as a single host on a network
CN1175147A (zh) * 1996-08-23 1998-03-04 国际商业机器公司 可恢复的虚拟封闭群集
JPH1127326A (ja) * 1997-07-08 1999-01-29 Hitachi Ltd 階層lanスイッチネットワーク
US6031528A (en) * 1996-11-25 2000-02-29 Intel Corporation User based graphical computer network diagnostic tool
US20020156893A1 (en) * 2001-01-22 2002-10-24 Eric Pouyoul System and method for dynamic, transparent migration of services
JP2003501879A (ja) * 1999-05-28 2003-01-14 テラダイン・インコーポレーテッド ネットワーク障害分離

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5909540A (en) * 1996-11-22 1999-06-01 Mangosoft Corporation System and method for providing highly available data storage using globally addressable memory
US6072857A (en) 1996-12-19 2000-06-06 Bellsouth Intellectual Property Management Corporation Methods and system for monitoring the operational status of a network component in an advanced intelligent network
US6246666B1 (en) 1998-04-09 2001-06-12 Compaq Computer Corporation Method and apparatus for controlling an input/output subsystem in a failed network server
US6363416B1 (en) * 1998-08-28 2002-03-26 3Com Corporation System and method for automatic election of a representative node within a communications network with built-in redundancy
US6430610B1 (en) * 1998-09-02 2002-08-06 Steeleye Technology, Inc. TCP/IP address protection mechanism in a clustered server environment
KR100279660B1 (ko) * 1998-12-08 2001-02-01 이계철 인터넷 제어 메시지 프로토콜(icmp)을 이용한 분산처리 장치의 장애감시 이중화 방법
US6581166B1 (en) * 1999-03-02 2003-06-17 The Foxboro Company Network fault detection and recovery
JP2000307600A (ja) 1999-04-23 2000-11-02 Nec Corp デバイス装置のハートビート回路
US7275102B2 (en) * 2001-01-22 2007-09-25 Sun Microsystems, Inc. Trust mechanisms for a peer-to-peer network computing platform
US7120693B2 (en) * 2001-05-08 2006-10-10 International Business Machines Corporation Method using two different programs to determine state of a network node to eliminate message response delays in system processing
US6944785B2 (en) * 2001-07-23 2005-09-13 Network Appliance, Inc. High-availability cluster virtual server system
US7512649B2 (en) * 2002-03-22 2009-03-31 Sun Microsytems, Inc. Distributed identities
KR20040038266A (ko) * 2002-10-31 2004-05-08 주식회사 현대시스콤 이중화된 에이에이에이 서버에서 고가용성 메시지를 통한프로세스 상호간 상태 감시 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371852A (en) * 1992-10-14 1994-12-06 International Business Machines Corporation Method and apparatus for making a cluster of computers appear as a single host on a network
CN1175147A (zh) * 1996-08-23 1998-03-04 国际商业机器公司 可恢复的虚拟封闭群集
US6031528A (en) * 1996-11-25 2000-02-29 Intel Corporation User based graphical computer network diagnostic tool
JPH1127326A (ja) * 1997-07-08 1999-01-29 Hitachi Ltd 階層lanスイッチネットワーク
JP2003501879A (ja) * 1999-05-28 2003-01-14 テラダイン・インコーポレーテッド ネットワーク障害分離
US20020156893A1 (en) * 2001-01-22 2002-10-24 Eric Pouyoul System and method for dynamic, transparent migration of services

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107426003A (zh) * 2017-05-02 2017-12-01 华为技术有限公司 一种故障检测方法及装置

Also Published As

Publication number Publication date
US7284147B2 (en) 2007-10-16
US20100115338A1 (en) 2010-05-06
US7941690B2 (en) 2011-05-10
CN1592225A (zh) 2005-03-09
KR100617344B1 (ko) 2006-08-31
TW200511002A (en) 2005-03-16
US20050050398A1 (en) 2005-03-03
KR20050022329A (ko) 2005-03-07
JP2005073277A (ja) 2005-03-17
JP3903437B2 (ja) 2007-04-11
TWI310494B (en) 2009-06-01

Similar Documents

Publication Publication Date Title
CN1303786C (zh) 用于在群集中进行故障解决的方法和系统
US7266758B2 (en) Network monitoring program, network monitoring method, and network monitoring apparatus
US7974219B2 (en) Network troubleshooting using path topology
US7940645B2 (en) Protection switching method based on change in link status in ethernet link aggregation sublayer
CN102629225B (zh) 双控制器磁盘阵列、存储系统以及数据存储路径切换方法
US6885633B1 (en) Network node and a system
CN1507721A (zh) 用于在局域网内实现快速恢复进程的方法和系统
CN111030873A (zh) 一种故障诊断方法及装置
CN103036702B (zh) 一种跨网段的n+1备份方法及装置
CN101174975A (zh) 一种以太网中的链路故障定位方法及系统
CN102387087A (zh) 基于主动检测技术实现备份路由的方法和系统
CN112291116A (zh) 链路故障检测方法、装置及网络设备
JP4570582B2 (ja) ネットワーク監視プログラム、ネットワーク監視方法、およびネットワーク監視装置
JP3416604B2 (ja) ネットワーク監視装置
JP4464256B2 (ja) ネットワーク上位監視装置
CN111865667A (zh) 网络连通性故障根因定位方法及装置
US8111625B2 (en) Method for detecting a message interface fault in a communication device
JP2005244672A (ja) ネットワークの障害監視処理システム及び方法
CN111130941B (zh) 一种网络错误检测方法、装置以及计算机可读存储介质
CN113132140B (zh) 一种网络故障检测方法、装置、设备及存储介质
CN109361781B (zh) 报文转发方法、装置、服务器、系统及存储介质
US20050215128A1 (en) Remote device probing for failure detection
CN102291266A (zh) 环回检测方法及装置
JP2006319683A (ja) ネットワークシステム監視方式およびネットワークシステム監視装置
CN116094940B (zh) 一种vrrp脑裂抑制方法、系统、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant