JP2005073277A - クラスタにおける信頼性の高い障害解決 - Google Patents
クラスタにおける信頼性の高い障害解決 Download PDFInfo
- Publication number
- JP2005073277A JP2005073277A JP2004246154A JP2004246154A JP2005073277A JP 2005073277 A JP2005073277 A JP 2005073277A JP 2004246154 A JP2004246154 A JP 2004246154A JP 2004246154 A JP2004246154 A JP 2004246154A JP 2005073277 A JP2005073277 A JP 2005073277A
- Authority
- JP
- Japan
- Prior art keywords
- echo
- response
- node
- network interface
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/66—Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2002—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
- G06F11/2007—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2017—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where memory access, memory control or I/O control functionality is redundant
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Cardiology (AREA)
- Computer Hardware Design (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Small-Scale Networks (AREA)
- Debugging And Monitoring (AREA)
- Hardware Redundancy (AREA)
- Computer And Data Communications (AREA)
Abstract
【解決手段】 クラスタ(100)は、少なくとも1つのマルチホーム・ノード(110)と、各ネットワーク・インタフェース(112、114)のための少なくとも1つのゲートウエイ(140)によって構成される。所定の周期的間隔で、ピア・ノードおよびゲートウエイ間に、ハートビート・メッセージが送信される。いずれかのノードまたはゲートウエイによるハートビート・メッセージの損失があった場合、ネットワーク・インタフェースごとにクラスタの各ノードおよびゲートウエイにICMPエコーが発行される。ICMPエコーに応答して、ノード損失もネットワーク損失も確認されない場合、アプリケーション・レベルのpingが発行され、ハートビート・メッセージが存在しないことに関連した障害が、一時的なエラー状況であるか、またはアプリケーション・ソフトウエア障害であるかが判定される。
【選択図】 図2
Description
クラスタは、ネットワーク・インタフェースごとに、複数のマルチホーム・ノードおよび少なくとも1つのゲートウェイによって構成される。所定の時間間隔で、クラスタのピア・ノード間でハートビート・メッセージが送信される。ハードビート・メッセージの損失に応答して、ICMPエコーが、双方のネットワーク・インタフェースを介して、クラスタにおける全てのノードおよびゲートウェイに送信される。ICMPエコーを、クラスタにおける全てのノードおよびゲートウェイに送信することは、障害が発生したか否か、ネットワーク分割が行われたか否かを決定する際に役立ち、更に、ノード損失、ネットワーク・インタフェースに関連した障害、またはケーブル障害の位置を明らかにする。アプリケーション・レベルのpingを発行して、更に障害の位置を突き止めることも可能である。従って、各ネットワーク・インタフェースを介してクラスタにおける各ノードおよびゲートウェイごとにICMPエコーを用いることにより、信頼性高く障害を発見し、障害状況の効率的な解決を提供することができる。
図2は、2つのネットワーク・インタフェースのための1つのゲートウェイ180を用いた多マルチホーム・ノード・コンピューティング・システム100の1例のブロック図である。この図では、システムには3つのノードがある。すなわち、Node0110、Node1120、およびNode2130である。各ノードは、マルチホーム・ノードである。図2に示すように、Node0110は、ネットワーク・インタフェース(NI)1112およびネットワーク・インタフェース2114を有する。同様に、Node1120は、ネットワーク・インタフェース1122およびネットワーク・インタフェース2124を有し、Node2130は、ネットワーク・インタフェース1132およびネットワーク・インタフェース2134を有する。多ネットワーク・インタフェースに加えて、システムは、ネットワーク・インタフェース1112、122、および132ならびにネットワーク・インタフェース2114、124、および134と通信を行うためのゲートウェイ180を有する。図2に示すように、ハートビート・メッセージがネットワーク内の隣接するピア・ノードに送信される。例えば、Node0110は、第1のハートビート・メッセージ152および158を、第1のネットワーク・インタフェース112、122、および132を介して、Node1120およびNode2130に送信し、第2のハートビート・メッセージ150および160を、第2のネットワーク・インタフェース114、124、および134を介して、Node1120およびNode2130に送信する。同様に、Node1120は、第1のハートビート・メッセージ152および156を、第1のネットワーク・インタフェース112、122、および132を介して、Node0110およびNode2130に送信し、第2のハートビート・メッセージ150および154を、第2のネットワーク・インタフェース114、124、および134を介して、Node0110およびNode2130に送信し、Node2130は、第1のハートビート・メッセージ156および158を、第1のネットワーク・インタフェース112、122、および132を介して、Node1120およびNode0110に送信し、第2のハートビート・メッセージ154および160を、第2のネットワーク・インタフェース114、124、および134を介して、Node1120およびNode0110に送信する。更に、ゲートウェイ180は、双方のネットワーク・インタフェースのためのネットワーク経路に沿って存在する。ゲートウェイ180は、ハートビート・メッセージの受信も送信も行わない。なぜなら、ハートビート・メッセージは、アプリケーション・レベルのプロトコルであり、ゲートウェイ180は、オペレーティング・システム・レベルのプロトコルに限られているからである。ゲートウェイ180の存在により、ネットワーク経路またはそのコンポーネント(カード、スイッチ、ハブ等)に関連する障害を、オペレーティング・システム・レベルで検出することができる。従って、各ノードは、各ネットワーク・インタフェースを介して、周期的な双方向ハートビート・メッセージを隣接するピア・ノードに送信することにより、ネットワーク・トポロジにゲートウェイが存在する関連ネットワーク内の障害を監視する。
エコーの数=[(N−1)+(ゲートウェイの数)]*(ネットワーク・インタフェースの数)
ここで、Nは、システム内のノード数を表す。ICMPエコーは、各ノードのオペレーティング・システムに発行される。従って、エコーの発行は、ノードの1つ以上が障害を有し得るクラスタ内の1つ以上のノードで稼働しているオペレーティング・システムからの応答メッセージを要求する。
双方のネットワーク・インタフェースおよび関連メッセージのためのルーティング・テーブルを有するゲートウェイは、物理コンピュータ・システムおよびアプリケーション・ソフトウエア内に構成される。ルーティング・テーブルは、ネットワークの各々を介した効率的なメッセージおよびエコーの送信を可能にする。更に、各ネットワーク・インタフェースのためのゲートウェイを有するコンピュータ・システムの構成は、特定のネットワークへのICMPエコーの発行の制御を可能にする。最後に、ゲートウェイをネットワーク構成内に配置することは、疑わしい障害がネットワークに存在するのか、またはネットワーク内のノードに存在するのかを判定するのに役立つ。特に、これは一般に2ノード・クラスタおよびネットワーク分割において故障を解決するのに役立つ。従って、コンピュータ・システム内のゲートウェイの配置は、システムにおいて障害の位置を突き止め解決する際に効率および信頼性を向上させる。
本発明の特定の実施形態について例示の目的で説明してきたが、本発明の精神および範囲から逸脱することなく、様々な変更が可能であることは認められよう。特に、本発明は、図2に示すシステムのアーキテクチャ配置に限定されるものではない。各ネットワークは、複数のゲートウェイ、ならびにノードおよびゲートウェイを接続するための代替的な設計を含み得る。更に、ネットワーク・トポロジは、単一サブネット、二重サブネット、または冗長物理ネットワークとすることができる。従って、本発明の保護の範囲は、特許請求の範囲およびその均等物によってのみ限定される。
Claims (16)
- コンピュータ・システムにおける障害解決のための方法であって、
(a)ネットワーク・インタフェースのためのゲートウェイを有するクラスタを構成するステップと、
(b)ハートビート損失検出に応答して、前記ネットワーク・インタフェースを介して、前記クラスタにおける全てのピア・ノードおよび前記ゲートウェイにオペレーティング・システムICMPエコーを発行するステップと、
(c)前記エコーからの応答を分析して前記クラスタにおける障害の位置を決定するステップと、
を備える、方法。 - 前記決定するステップは、前記応答を受信し前記エコーの意図した受信者を決定することを含む、請求項1に記載の方法。
- 所定の時間間隔内に前記ネットワーク・インタフェースのための前記ピア・ノードまたは前記ゲートウェイからの前記エコーのリターンを受信することは、前記ネットワーク・インタフェースの動作を示す、請求項2に記載の方法。
- 所定の時間間隔内に前記ネットワーク・インタフェースのための前記ピア・ノードからの前記エコーのリターンが存在しないことは、ピア・ノード障害、前記ピア・ノードにローカルなネットワーク障害、およびそれらの組み合わせから成る群から選択される障害を示す、請求項2に記載の方法。
- 更に、所定の時間間隔内の前記エコー応答の受信および前記ハートビート・ビート損失検出の双方に応答して、ピア・ノードに対してアプリケーション・レベルのpingを発行するステップを備える、請求項1に記載の方法。
- 更に、各ネットワーク・インタフェースについて設定された目標ノードからのエコー応答を比較するステップを備える、請求項1に記載の方法。
- マルチプロセッサ・コンピュータ・システムであって、
ネットワーク・インタフェースのために構成されたゲートウェイを有するクラスタと、
ハートビート損失検出に応答して、前記ネットワーク・インタフェースを介して、クラスタにおける全てのピア・ノードおよび前記ゲートウェイにオペレーティング・システムICMPエコーを発行するための手段と、
前記エコーからの応答を分析して前記クラスタにおける障害の位置を決定するための手段と、
を備える、システム。 - 前記エコーからの前記応答の分析は、前記エコーの意図した受信者の決定を含む、請求項7に記載のシステム。
- 所定の時間間隔内に前記ネットワーク・インタフェースのための前記ピア・ノード又は前記ゲートウェイからの前記エコーのリターンを受信することは、前記ネットワーク・インタフェースの動作を示す、請求項8に記載のシステム。
- 所定の時間間隔内に前記ネットワーク・インタフェースのための前記ピア・ノードからの前記エコーのリターンの受信が存在しないことは、ピア・ノード障害、前記ピア・ノードにローカルなネットワーク障害、およびそれらの組み合わせから成る群から選択される障害を示す、請求項8に記載のシステム。
- 更に、所定の時間間隔内の前記エコー応答の受信および前記ハートビート・ビート損失検出の双方に応答して、ピア・ノードに対してアプリケーション・レベルのpingを発行するための手段を備える、請求項7に記載のシステム。
- 更に、各ネットワーク・インタフェースについて設定された目標ノードからのエコー応答を比較するための手段を備える、請求項7に記載のシステム。
- コンピュータを、
ハートビート損失検出に応答して、ネットワーク・インタフェースを介して、クラスタにおけるピア・ノードおよび構成されたクラスタ・ゲートウェイにオペレーティング・システムICMPエコーを発行するための手段、および
前記エコーからの応答メッセージを分析して前記クラスタにおける障害の位置を決定するための手段、
として機能させるためのプログラム。 - 前記障害の位置を決定するための手段は、前記応答を受信し前記エコーの意図した受信者を決定する、請求項13に記載のプログラム。
- 更に、前記コンピュータを、所定の時間間隔内のエコー応答の受信およびハートビート・損失検出の双方に応答して、ピア・ノードに対してアプリケーション・レベルのpingを発行するための手段として機能させる、請求項13に記載のプログラム。
- 更に、前記コンピュータを、各ネットワーク・インタフェースについて設定された目標ノードからのエコー応答を比較するための手段として機能させる、請求項13に記載のプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/649,269 US7284147B2 (en) | 2003-08-27 | 2003-08-27 | Reliable fault resolution in a cluster |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005073277A true JP2005073277A (ja) | 2005-03-17 |
JP3903437B2 JP3903437B2 (ja) | 2007-04-11 |
Family
ID=34216906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004246154A Active JP3903437B2 (ja) | 2003-08-27 | 2004-08-26 | クラスタにおける信頼性の高い障害解決 |
Country Status (5)
Country | Link |
---|---|
US (2) | US7284147B2 (ja) |
JP (1) | JP3903437B2 (ja) |
KR (1) | KR100617344B1 (ja) |
CN (1) | CN1303786C (ja) |
TW (1) | TWI310494B (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008172592A (ja) * | 2007-01-12 | 2008-07-24 | Hitachi Ltd | クラスタシステム、コンピュータおよびその異常検出方法 |
JP2010103695A (ja) * | 2008-10-22 | 2010-05-06 | Ntt Data Corp | クラスタシステム、クラスタサーバ及びクラスタ制御方法 |
WO2015098589A1 (ja) * | 2013-12-25 | 2015-07-02 | Necソリューションイノベータ株式会社 | クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びコンピュータ読み取り可能な記録媒体 |
JP2016048507A (ja) * | 2014-08-28 | 2016-04-07 | 三菱電機株式会社 | 通信制御装置および計算装置 |
Families Citing this family (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7149514B1 (en) | 1997-07-30 | 2006-12-12 | Bellsouth Intellectual Property Corp. | Cellular docking station |
US20080194208A1 (en) * | 1997-07-30 | 2008-08-14 | Steven Tischer | Apparatus, method, and computer-readable medium for communicating between and controlling network devices |
US20080192768A1 (en) * | 1997-07-30 | 2008-08-14 | Steven Tischer | Apparatus, method, and computer-readable medium for interfacing communication devices |
US20080207178A1 (en) * | 1997-07-30 | 2008-08-28 | Steven Tischer | Apparatus and method for restricting access to data |
US20080220775A1 (en) * | 1997-07-30 | 2008-09-11 | Steven Tischer | Apparatus, method, and computer-readable medium for securely providing communications between devices and networks |
US20080194225A1 (en) * | 1997-07-30 | 2008-08-14 | Steven Tischer | Apparatus and method for providing emergency and alarm communications |
US20080207179A1 (en) * | 1997-07-30 | 2008-08-28 | Steven Tischer | Apparatus and method for testing communication capabilities of networks and devices |
US20080207197A1 (en) | 1997-07-30 | 2008-08-28 | Steven Tischer | Apparatus, method, and computer-readable medium for interfacing devices with communications networks |
US8000682B2 (en) | 2002-07-15 | 2011-08-16 | At&T Intellectual Property I, L.P. | Apparatus and method for restricting access to data |
US8526466B2 (en) | 2002-07-15 | 2013-09-03 | At&T Intellectual Property I, L.P. | Apparatus and method for prioritizing communications between devices |
US8554187B2 (en) | 2002-07-15 | 2013-10-08 | At&T Intellectual Property I, L.P. | Apparatus and method for routing communications between networks and devices |
US8543098B2 (en) | 2002-07-15 | 2013-09-24 | At&T Intellectual Property I, L.P. | Apparatus and method for securely providing communications between devices and networks |
US8275371B2 (en) | 2002-07-15 | 2012-09-25 | At&T Intellectual Property I, L.P. | Apparatus and method for providing communications and connection-oriented services to devices |
US7200424B2 (en) | 2002-07-15 | 2007-04-03 | Bellsouth Intelectual Property Corporation | Systems and methods for restricting the use and movement of telephony devices |
US8416804B2 (en) | 2002-07-15 | 2013-04-09 | At&T Intellectual Property I, L.P. | Apparatus and method for providing a user interface for facilitating communications between devices |
US20050036483A1 (en) * | 2003-08-11 | 2005-02-17 | Minoru Tomisaka | Method and system for managing programs for web service system |
US7280486B2 (en) * | 2004-01-07 | 2007-10-09 | Cisco Technology, Inc. | Detection of forwarding problems for external prefixes |
US7965646B2 (en) * | 2004-08-11 | 2011-06-21 | Qwest Communications International Inc | Wireless code-passing system for stateful connection monitoring |
US20060246889A1 (en) * | 2005-05-02 | 2006-11-02 | Buchhop Peter K | Wireless Data Device Performance Monitor |
CN101199165A (zh) | 2005-06-14 | 2008-06-11 | 艾利森电话股份有限公司 | 用于网络中的故障处理的方法和配置 |
US8195976B2 (en) | 2005-06-29 | 2012-06-05 | International Business Machines Corporation | Fault-tolerance and fault-containment models for zoning clustered application silos into continuous availability and high availability zones in clustered systems during recovery and maintenance |
CN100454849C (zh) * | 2005-08-05 | 2009-01-21 | 华为技术有限公司 | 下一代网络中的故障检测方法 |
CN1327658C (zh) * | 2005-08-09 | 2007-07-18 | 华为技术有限公司 | 网络通信状况探测方法 |
JP4246248B2 (ja) * | 2005-11-11 | 2009-04-02 | 富士通株式会社 | クラスタシステムのコンピュータにおいて実行されるネットワークモニタ・プログラム、情報処理方法及びコンピュータ |
US7539755B2 (en) * | 2006-04-24 | 2009-05-26 | Inventec Corporation | Real-time heartbeat frequency regulation system and method utilizing user-requested frequency |
US20070294596A1 (en) * | 2006-05-22 | 2007-12-20 | Gissel Thomas R | Inter-tier failure detection using central aggregation point |
US8428098B2 (en) * | 2006-07-06 | 2013-04-23 | Qualcomm Incorporated | Geo-locating end-user devices on a communication network |
US8074109B1 (en) * | 2006-11-14 | 2011-12-06 | Unisys Corporation | Third-party voting to select a master processor within a multi-processor computer |
US7890555B2 (en) * | 2007-07-10 | 2011-02-15 | International Business Machines Corporation | File system mounting in a clustered file system |
US7898941B2 (en) * | 2007-09-11 | 2011-03-01 | Polycom, Inc. | Method and system for assigning a plurality of MACs to a plurality of processors |
CN101420335B (zh) | 2007-10-26 | 2011-09-14 | 华为技术有限公司 | 对等网络节点故障检测/处理方法及装置 |
US8195977B2 (en) * | 2007-11-19 | 2012-06-05 | International Business Machines Corporation | Network fault isolation |
US9317432B2 (en) * | 2008-01-09 | 2016-04-19 | International Business Machines Corporation | Methods and systems for consistently replicating data |
CN101562784B (zh) * | 2008-04-14 | 2012-06-06 | 华为技术有限公司 | 报文分发方法、设备及系统 |
US7983175B2 (en) * | 2008-09-19 | 2011-07-19 | International Business Machines Corporation | System and method for detecting a network failure |
US8918670B2 (en) * | 2008-10-29 | 2014-12-23 | Hewlett-Packard Development Company, L.P. | Active link verification for failover operations in a storage network |
US8671218B2 (en) * | 2009-06-16 | 2014-03-11 | Oracle America, Inc. | Method and system for a weak membership tie-break |
JP5594363B2 (ja) * | 2010-05-28 | 2014-09-24 | 富士通株式会社 | 伝送装置及び伝送装置制御方法 |
US8433760B2 (en) | 2010-12-03 | 2013-04-30 | International Business Machines Corporation | Inter-node communication scheme for node status sharing |
US8634328B2 (en) | 2010-12-03 | 2014-01-21 | International Business Machines Corporation | Endpoint-to-endpoint communications status monitoring |
US8634330B2 (en) | 2011-04-04 | 2014-01-21 | International Business Machines Corporation | Inter-cluster communications technique for event and health status communications |
EP2704356B1 (en) * | 2011-05-30 | 2019-09-04 | Huawei Technologies Co., Ltd. | Method and service node for determining fault state |
US8903893B2 (en) * | 2011-11-15 | 2014-12-02 | International Business Machines Corporation | Diagnostic heartbeating in a distributed data processing environment |
US8756453B2 (en) | 2011-11-15 | 2014-06-17 | International Business Machines Corporation | Communication system with diagnostic capabilities |
US8769089B2 (en) | 2011-11-15 | 2014-07-01 | International Business Machines Corporation | Distributed application using diagnostic heartbeating |
US8874974B2 (en) * | 2011-11-15 | 2014-10-28 | International Business Machines Corporation | Synchronizing a distributed communication system using diagnostic heartbeating |
US9244796B2 (en) | 2011-11-15 | 2016-01-26 | International Business Machines Corporation | Diagnostic heartbeat throttling |
EP2798776A4 (en) | 2011-12-29 | 2015-08-26 | Intel Corp | SECURE GEOLOCALIZATION OF A CALCULATION RESOURCE |
US9559894B2 (en) * | 2012-08-22 | 2017-01-31 | Oracle International Corporation | System and method for supporting high available (HA) network communication in a middleware machine environment |
US20140095925A1 (en) * | 2012-10-01 | 2014-04-03 | Jason Wilson | Client for controlling automatic failover from a primary to a standby server |
US9501363B1 (en) * | 2013-03-15 | 2016-11-22 | Nuodb, Inc. | Distributed database management system with node failure detection |
US9760420B1 (en) * | 2014-09-03 | 2017-09-12 | Amazon Technologies, Inc. | Fleet host rebuild service implementing vetting, diagnostics, and provisioning pools |
US9823637B2 (en) * | 2014-09-05 | 2017-11-21 | Southern States, Llc | Fault detection and isolation using a common reference clock |
US10003525B2 (en) * | 2014-11-14 | 2018-06-19 | Fisher-Rosemount Systems, Inc. | Methods and apparatus to provide redundancy in a process control system |
GB2537087A (en) | 2014-12-18 | 2016-10-12 | Ipco 2012 Ltd | A system, method and computer program product for receiving electronic messages |
GB2533379A (en) | 2014-12-18 | 2016-06-22 | Ipco 2012 Ltd | A system and server for receiving transaction requests |
GB2533432A (en) | 2014-12-18 | 2016-06-22 | Ipco 2012 Ltd | A device system, method and computer program product for processing electronic transaction requests |
GB2533562A (en) | 2014-12-18 | 2016-06-29 | Ipco 2012 Ltd | An interface, method and computer program product for controlling the transfer of electronic messages |
CN105450466B (zh) * | 2015-11-10 | 2018-11-02 | 浪潮(北京)电子信息产业有限公司 | 一种icmp请求报文保活控制方法及系统 |
JP6409812B2 (ja) * | 2016-04-01 | 2018-10-24 | 横河電機株式会社 | 冗長化装置、冗長化システム、及び冗長化方法 |
CN106452957B (zh) * | 2016-09-30 | 2019-09-10 | 邦彦技术股份有限公司 | 心跳检测方法及节点系统 |
CN106559288B (zh) * | 2016-11-23 | 2019-11-12 | 北京航天自动控制研究所 | 一种基于icmp报文的快速故障检测方法 |
CN107426003B (zh) * | 2017-05-02 | 2019-12-13 | 华为技术有限公司 | 一种故障检测方法及装置 |
CN107566219B (zh) * | 2017-09-27 | 2020-09-18 | 华为技术有限公司 | 应用于集群系统的故障诊断方法、节点设备和计算机设备 |
WO2019178714A1 (zh) * | 2018-03-19 | 2019-09-26 | 华为技术有限公司 | 一种故障检测的方法、装置及系统 |
US11595407B2 (en) * | 2018-04-27 | 2023-02-28 | Dell Products L.P. | Information handling system threat management |
KR102040115B1 (ko) * | 2018-08-30 | 2019-11-27 | 주식회사 동희산업 | 네트워크 장애처리 자동화 시스템 및 방법 |
CN111092996A (zh) * | 2019-10-31 | 2020-05-01 | 国网山东省电力公司信息通信公司 | 一种集中式调度录音系统及控制方法 |
US11397632B2 (en) * | 2020-10-30 | 2022-07-26 | Red Hat, Inc. | Safely recovering workloads within a finite timeframe from unhealthy cluster nodes |
CN114172824A (zh) * | 2021-12-15 | 2022-03-11 | 国家石油天然气管网集团有限公司 | 油气管道高速总线与控制器进行冗余切换方法和装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5371852A (en) * | 1992-10-14 | 1994-12-06 | International Business Machines Corporation | Method and apparatus for making a cluster of computers appear as a single host on a network |
US5918017A (en) | 1996-08-23 | 1999-06-29 | Internatioinal Business Machines Corp. | System and method for providing dynamically alterable computer clusters for message routing |
US5909540A (en) * | 1996-11-22 | 1999-06-01 | Mangosoft Corporation | System and method for providing highly available data storage using globally addressable memory |
US6031528A (en) * | 1996-11-25 | 2000-02-29 | Intel Corporation | User based graphical computer network diagnostic tool |
US6072857A (en) | 1996-12-19 | 2000-06-06 | Bellsouth Intellectual Property Management Corporation | Methods and system for monitoring the operational status of a network component in an advanced intelligent network |
JPH1127326A (ja) | 1997-07-08 | 1999-01-29 | Hitachi Ltd | 階層lanスイッチネットワーク |
US6246666B1 (en) | 1998-04-09 | 2001-06-12 | Compaq Computer Corporation | Method and apparatus for controlling an input/output subsystem in a failed network server |
US6363416B1 (en) * | 1998-08-28 | 2002-03-26 | 3Com Corporation | System and method for automatic election of a representative node within a communications network with built-in redundancy |
US6430610B1 (en) * | 1998-09-02 | 2002-08-06 | Steeleye Technology, Inc. | TCP/IP address protection mechanism in a clustered server environment |
KR100279660B1 (ko) * | 1998-12-08 | 2001-02-01 | 이계철 | 인터넷 제어 메시지 프로토콜(icmp)을 이용한 분산처리 장치의 장애감시 이중화 방법 |
US6581166B1 (en) * | 1999-03-02 | 2003-06-17 | The Foxboro Company | Network fault detection and recovery |
JP2000307600A (ja) | 1999-04-23 | 2000-11-02 | Nec Corp | デバイス装置のハートビート回路 |
US6654914B1 (en) | 1999-05-28 | 2003-11-25 | Teradyne, Inc. | Network fault isolation |
US7165107B2 (en) * | 2001-01-22 | 2007-01-16 | Sun Microsystems, Inc. | System and method for dynamic, transparent migration of services |
US7275102B2 (en) * | 2001-01-22 | 2007-09-25 | Sun Microsystems, Inc. | Trust mechanisms for a peer-to-peer network computing platform |
US7120693B2 (en) * | 2001-05-08 | 2006-10-10 | International Business Machines Corporation | Method using two different programs to determine state of a network node to eliminate message response delays in system processing |
US6944785B2 (en) * | 2001-07-23 | 2005-09-13 | Network Appliance, Inc. | High-availability cluster virtual server system |
US7512649B2 (en) * | 2002-03-22 | 2009-03-31 | Sun Microsytems, Inc. | Distributed identities |
KR20040038266A (ko) * | 2002-10-31 | 2004-05-08 | 주식회사 현대시스콤 | 이중화된 에이에이에이 서버에서 고가용성 메시지를 통한프로세스 상호간 상태 감시 방법 |
-
2003
- 2003-08-27 US US10/649,269 patent/US7284147B2/en active Active
-
2004
- 2004-07-26 TW TW093122319A patent/TWI310494B/zh active
- 2004-08-20 KR KR1020040065873A patent/KR100617344B1/ko not_active IP Right Cessation
- 2004-08-20 CN CNB2004100576065A patent/CN1303786C/zh active Active
- 2004-08-26 JP JP2004246154A patent/JP3903437B2/ja active Active
-
2007
- 2007-07-05 US US11/773,707 patent/US7941690B2/en active Active
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008172592A (ja) * | 2007-01-12 | 2008-07-24 | Hitachi Ltd | クラスタシステム、コンピュータおよびその異常検出方法 |
JP2010103695A (ja) * | 2008-10-22 | 2010-05-06 | Ntt Data Corp | クラスタシステム、クラスタサーバ及びクラスタ制御方法 |
WO2015098589A1 (ja) * | 2013-12-25 | 2015-07-02 | Necソリューションイノベータ株式会社 | クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びコンピュータ読み取り可能な記録媒体 |
JPWO2015098589A1 (ja) * | 2013-12-25 | 2017-03-23 | Necソリューションイノベータ株式会社 | クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。 |
US10102088B2 (en) | 2013-12-25 | 2018-10-16 | Nec Solution Innovators, Ltd. | Cluster system, server device, cluster system management method, and computer-readable recording medium |
JP2016048507A (ja) * | 2014-08-28 | 2016-04-07 | 三菱電機株式会社 | 通信制御装置および計算装置 |
Also Published As
Publication number | Publication date |
---|---|
US20100115338A1 (en) | 2010-05-06 |
KR20050022329A (ko) | 2005-03-07 |
US7284147B2 (en) | 2007-10-16 |
TWI310494B (en) | 2009-06-01 |
US20050050398A1 (en) | 2005-03-03 |
TW200511002A (en) | 2005-03-16 |
US7941690B2 (en) | 2011-05-10 |
CN1303786C (zh) | 2007-03-07 |
JP3903437B2 (ja) | 2007-04-11 |
CN1592225A (zh) | 2005-03-09 |
KR100617344B1 (ko) | 2006-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3903437B2 (ja) | クラスタにおける信頼性の高い障害解決 | |
EP1817855B1 (en) | System and methods for detecting network failure | |
US9137101B2 (en) | Multi-layer network diagnostic tracing | |
CN104168193B (zh) | 一种虚拟路由器冗余协议故障检测的方法及路由设备 | |
CA2498037C (en) | Root cause correlation in connectionless networks | |
US7693045B2 (en) | Verifying network connectivity | |
US8687503B2 (en) | Technique for identifying a failed network interface card within a team of network interface cards | |
US10454809B2 (en) | Automatic network topology detection for merging two isolated networks | |
US7545741B1 (en) | Technique for identifying a failed network interface card within a team of network interface cards | |
CN110224883B (zh) | 一种应用于电信承载网的灰色故障诊断方法 | |
CN103036702B (zh) | 一种跨网段的n+1备份方法及装置 | |
US20100246406A1 (en) | Route convergence based on ethernet operations, administration, and maintenance protocol | |
US20030233473A1 (en) | Method for configuring logical connections to a router in a data communication system | |
Vogels | World wide failures | |
CN107332793B (zh) | 一种报文转发方法、相关设备及系统 | |
CN113810439B (zh) | 一种以太网存储系统及其信息通告方法和相关装置 | |
GB2414624A (en) | Backup router actively monitoring a master router in a VRRP group | |
US20060285498A1 (en) | Broadcast traceroute | |
US7808893B1 (en) | Systems and methods for providing redundancy in communications networks | |
JP2006319683A (ja) | ネットワークシステム監視方式およびネットワークシステム監視装置 | |
JPH09321800A (ja) | 高信頼化ネットワークシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060808 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061106 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20061106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20061106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061226 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20061227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3903437 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100119 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110119 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120119 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130119 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140119 Year of fee payment: 7 |