JP2008172592A - クラスタシステム、コンピュータおよびその異常検出方法 - Google Patents

クラスタシステム、コンピュータおよびその異常検出方法 Download PDF

Info

Publication number
JP2008172592A
JP2008172592A JP2007004601A JP2007004601A JP2008172592A JP 2008172592 A JP2008172592 A JP 2008172592A JP 2007004601 A JP2007004601 A JP 2007004601A JP 2007004601 A JP2007004601 A JP 2007004601A JP 2008172592 A JP2008172592 A JP 2008172592A
Authority
JP
Japan
Prior art keywords
computer
abnormality
counterpart
packet
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007004601A
Other languages
English (en)
Inventor
Takahiro Ohira
崇博 大平
Takeshi Takebayashi
剛 武林
Shuji Nishiyama
修治 西山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information and Control Systems Inc
Hitachi Information and Control Solutions Ltd
Original Assignee
Hitachi Ltd
Hitachi Information and Control Systems Inc
Hitachi Information and Control Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Information and Control Systems Inc, Hitachi Information and Control Solutions Ltd filed Critical Hitachi Ltd
Priority to JP2007004601A priority Critical patent/JP2008172592A/ja
Publication of JP2008172592A publication Critical patent/JP2008172592A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】コンピュータの異常検出に伴うクラスタシステムのサービス中断時間を短縮する。
【解決手段】コンピュータ異常監視部51は、相手方コンピュータから送信される生存パケットを常時監視し、相手方コンピュータの異常を検出する。通信監視部52は、通信機器30から返信される応答パケットを常時受信し、所定時間当たりの応答パケットの受信数をカウントする。運転モード管理部53は、コンピュータ異常監視部51が相手方コンピュータの異常を検出すると、直ちに、通信監視部52から所定時間当たりの応答パケットの受信数を取得し、その受信数が所定の閾値以上のときには、相手方コンピュータに実際に異常があると判定し、さらに、そのときの自らの運転モードが待機状態であったときには、その運転モードを実行状態に更新し、サービスアプリケーション14を起動する。
【選択図】図1

Description

本発明は、クラスタシステム、ならびに、そのクラスタシステムに用いられるコンピュータおよびその異常検出方法に関する。
一般に、クラスタシステムとは、複数のコンピュータにより所定のサービスを提供するように構成されたシステムをいう。クラスタシステムにおいては、1つのコンピュータに動作不能などの異常が発生しても、他のコンピュータによってそのサービスを継続して提供することができる。
一般に、クラスタシステムを構成するそれぞれのコンピュータは、他のコンピュータに対して、自らが動作している証として、いわゆる、ハートビートメッセージを、所定の時間間隔で繰り返しネットワークに送信する。そこで、他のコンピュータによりハートビートメッセージが受信されなくなった場合には、そのハートビートメッセージの送信元のコンピュータは、異常な状態になり、動作していないと判定される。
しかしながら、コンピュータがハートビートメッセージを受信しなくなる状況は、他にもある。コンピュータは、自らに接続されたネットワークに障害があった場合にも、ハートビートメッセージを受信することができない。すなわち、あるコンピュータがハートビートメッセージを受信しなくなったときには、その原因は、ハートビートメッセージ送信元のコンピュータに実際に異常が発生した場合と、ネットワークに障害が生じた場合と、の2つの場合があることになる。従って、ハートビートメッセージだけに頼ったコンピュータの異常判定では、これら2つの場合を区別することができない。
すなわち、ハートビートメッセージを送受信することにより、その送受信の相手方コンピュータの異常を検出するときには、相手方コンピュータが正常であっても、通信障害のために相手方コンピュータが異常と判定される場合がある。その場合において、異常を検出したコンピュータが相手側コンピュータの機能をバックアップするために待機していたコンピュータであったようなときには、異常を検出したコンピュータは、相手方コンピュータが実行しているサービスを、相手方コンピュータに代わって実行しようとする。そうすると、同じサービスが2つのコンピュータによって重複または競合して実行されることになり、それはそれで、また、別の異常を生じることになる。
そこで、このような異常を回避するために、例えば、特許文献1に開示されたクラスタシステムでは、そのクラスタシステムを構成する複数のコンピュータ間で排他制御してアクセスされる共有ディスクが設けられている。そして、そのクラスタシステムのそれぞれのコンピュータは、ハートビートメッセージの送受信により、相手方コンピュータの異常を検出したときには、さらに、その共有ディスクの占有権を獲得するためのコマンドを発し、その占有権を獲得することができたときのみ、所定のサービスを実行するとしている。従って、共有ディスクの占有権を獲得したコンピュータだけが、所定のサービスを実行するので、所定のサービスが重複または競合して実行されることはない。
また、特許文献2に開示されたクラスタシステムにおいては、相互のコンピュータをつなぐネットワークにさらにゲートウエイが接続されている。そして、そのクラスタシステムのそれぞれのコンピュータは、ハートビートメッセージの送受信により、相手方コンピュータの異常を検出したときには、さらに、ゲートウエイに対してICMP(Internet Control Message Protocol)のエコーメッセージを送信し、そのエコーが戻ってくるか否かにより、相手方コンピュータに実際に生じた異常か、または、ネットワークの通信障害か、を判定するとしている。
以上、特許文献1や特許文献2に開示されたクラスタシステムによれば、そのクラスタシステムを構成するそれぞれのコンピュータは、ハートビートメッセージを送受信する相手方コンピュータに実際に生じた異常と、ネットワークの通信障害とを区別して判定することができる。
特許3573092号公報 特開2005−73277号公報
しかしながら、特許文献1や特許文献2に開示されたクラスタシステムにおいては、ハートビートメッセージが受信されなくなったことにより相手方コンピュータの異常を検出した後、他の手段により、相手方コンピュータに実際に生じた異常か、または、ネットワークの通信障害であるか、を判別する処理を実行している。従って、相手方コンピュータに実際に異常が生じた場合には、その異常を検出するのに要する時間は、ハートビートメッセージによる異常検出時間に、さらに、ネットワークの通信障害であるか否かを判別するための処理時間が加算されることになる。
従って、特許文献1や特許文献2に開示されたクラスタシステムの異常検出方法によれば、異常検出に要する時間が長くなってしまう。これは、相手方コンピュータに実際に異常があった場合には、そのコンピュータが実行していたサービスを他のコンピュータが実行するように切り替えるときには、その切り替える処理のために生じるサービスの中断時間が長くなることを意味する。
以上の従来技術の問題点に鑑み、本発明の目的は、クラスタシステムを構成するコンピュータに実際に発生した異常を検出する時間を短縮するとともに、それに伴うサービスの中断時間を短縮することにある。
以上の従来技術の問題点を解決するために、本発明では、クラスタシステムを、所定のサービスアプリケーションを実行している稼働コンピュータと、その稼働コンピュータにネットワークを介して接続され、所定のサービスアプリケーションを実行可能な状態で待機しているスペアコンピュータと、を含むように構成した。
そして、稼働コンピュータおよびスペアコンピュータのそれぞれは、動作開始後、ネットワークを介して接続された相手方コンピュータに対し、自らが動作していることを示す生存パケットを所定の時間間隔で繰り返し送信するとともに、相手方コンピュータから送信される生存パケットの受信を監視し、所定時間内に所定数に達する生存パケットを受信しなかったとき、それを相手方コンピュータの異常として検出するコンピュータ異常監視部と、動作開始後、ネットワーク上の通信機器に対して所定の時間間隔で繰り返し通信監視パケットを送信するとともに、その応答として通信機器から送信される応答パケットを受信して、その応答パケットの所定時間当たりの受信数をカウントする通信監視部と、を備えるようにした。
そして、稼働コンピュータおよびスペアコンピュータのそれぞれは、コンピュータ異常監視手段により相手方コンピュータの異常を検出したときには、通信監視手段から所定時間当たりの応答パケットの受信数を取得し、その受信数に基づき、前記検出した相手方コンピュータの異常が、相手方コンピュータに実際に生じた異常であるのか、または、ネットワークの通信障害により生じた見かけの異常であるのか、を区別して判定するようにした。
以上、本発明によれば、コンピュータ異常監視手段により相手方コンピュータの異常を検出したとき、別途カウントしている通信機器からの応答パケットの受信数に基づき、その異常が相手方コンピュータに実際に生じた異常であるのか、または、ネットワークの通信障害により生じた見かけの異常であるのかを、直ちに区別して判定することが可能である。従って、従来技術に比べ、相手方コンピュータに実際に生じた異常を検出する時間を大幅に短縮することができる。
本発明によれば、クラスタシステムを構成するコンピュータに実際に生じた異常を検出する時間を短縮することができ、さらに、それに伴うサービス中断時間を短縮することができる。
以下、本発明の実施形態について、図面を参照して詳細に説明する。
<第1の実施形態>
図1は、本発明の第1の実施形態に係るクラスタシステムの構成の例を示した図である。図1において、クラスタシステム1は、コンピュータ10として2台のコンピュータ10−1,10−2を含み、いわゆるホットスペアと呼ばれる高信頼コンピュータシステムを構成している。すなわち、コンピュータ10−1は、稼働コンピュータであり、通常状態では、クライアントに対し所定のサービスを提供している。また、コンピュータ10−2は、スペアコンピュータであり、通常状態では、クライアントに対するサービスは提供していないが、コンピュータ10−1の異常を監視し、コンピュータ10−1に動作不能などの異常が発生したことを検出した場合には、コンピュータ10−1が提供していたサービスを肩代わりしてクライアントに提供する。
ここで、2台のコンピュータ10−1,10−2は、それぞれがネットワーク20に接続され、ネットワーク20を介して相互に情報通信を行う。このとき、ネットワーク20の形態は、例えば、IP(Internet Protocol)ネットワークであるが、必ずしもそれに限定されることはなく、相互の情報通信が可能なネットワークであれば、どのようなネットワークであってもよい。
また、ネットワーク20には、コンピュータ10−1,10−2から独立して動作する通信機器30が接続される。なお、ここでいう通信機器30は、IPアドレスを有し、コンピュータ10−1,10−2から送信される診断用パケットに対して、応答パケットを送信できる機器であればよい。従って、ネットワーク20への接続機能を有するパーソナルコンピュータは、通信機器30になり得る。また、図示を省略しているが、ネットワーク20は、クラスタシステム1の外部に伸び、クライアントのコンピュータ(以下、単に「クライアント」という)に接続されている。
クラスタシステム1を構成するコンピュータ10は、それを構成するハードウエアとして、図示しないCPU(Central Processing Unit)と記憶装置とを少なくとも含む。ここで、記憶装置は、RAM(Random Access Memory)などのいわゆるメモリと、補助記憶としてのハードディスク装置などによって構成される。そして、その記憶装置には、CPUが実行すべきプログラムが記憶されるほか、そのプログラムを実行するに際し必要な情報がテーブルやファイルなどの形で記憶される。
また、図1に示すように、コンピュータ10は、その機能ブロックとして、ネットワークドライバ11、オペレーティングシステム12、クラスタ管理システム13、サービスアプリケーション14などを含む。これらの機能ブロック11,12,13,14の機能は、前記CPUが記憶装置に記憶されている所定のプログラムを実行することによって実現される。ただし、ネットワークドライバ11は、CPUが所定のプログラムを実行して実現される機能のほかに、通信専用の制御回路やインタフェース回路によって実現される機能を含む。
コンピュータ10においては、オペレーティングシステム12の管理の下に、ネットワークドライバ11とクラスタ管理システム13とが動作し、さらに、クラスタ管理システム13の管理の下に、サービスアプリケーション14が動作する。なお、図1の例においては、コンピュータ10−1は稼働コンピュータであり、そのサービスアプリケーション14は実行されている実行状態にある。また、他方のコンピュータ10−2はスペアコンピュータであり、そのサービスアプリケーション14は実行されていないが、いつでも実行可能な待機状態にある。
また、コンピュータ10においては、クラスタ管理システム13が動作し、そのクラスタ管理システム13によって相手方コンピュータ10の異常を監視するとともに、サービスアプリケーション14の動作モード(運転モード)を管理・制御する。これらの機能を実現するために、クラスタ管理システム13は、コンピュータ異常監視部51、通信監視部52および運転モード管理部53を備える。
ここで、コンピュータ異常監視部51は、ネットワーク20を介して、相手方コンピュータ10から送信されるハートビートメッセージ(以下、本明細書では「生存パケット」という)の受信状況を監視することによって、相手方コンピュータ10の異常を検出する。また、通信監視部52は、ネットワーク20を介して通信機器30に対し応答を要求する診断用パケット(以下、本明細書では「通信監視パケット」という)を送信し、その応答を監視することによって、ネットワーク20における通信障害を監視する。また、運転モード管理部53は、コンピュータ異常監視部51から相手方コンピュータ10の異常を検出した旨の検出通知を受けたとき、通信監視部52におけるネットワーク20の通信障害の監視状況を参照して、その検出された相手方コンピュータ10の異常が、相手方コンピュータ10に実際に生じた異常であるのか、または、ネットワーク20の通信障害により生じた見かけの異常であるのか、を区別して判定する。
続いて、図1を参照して、クラスタ管理システム13を構成するコンピュータ異常監視部51、通信監視部52および運転モード管理部53の動作について詳しく説明する。
コンピュータ異常監視部51は、自らのコンピュータの動作開始後、ネットワーク20を介して相手方コンピュータ10へ、生存パケットを所定の時間間隔で繰り返して送信するとともに、相手方コンピュータ10から同様に送信される生存パケットの受信状況を監視する。そして、所定時間内に所定数に達する生存パケットを受信しなかった場合には、相手方コンピュータ10の異常を検出したと判断して、その旨を運転モード管理部53へ通知する(本明細書では、この通知を、「検出通知」と呼ぶ)。ただし、コンピュータ異常監視部51によるこの判断は、必ずしも、相手方コンピュータ10に実際に異常が生じていることを意味するものではない。
なお、相手方コンピュータ10に実際に生じる異常とは、その相手方コンピュータ10が生存パケットを送信できない状態にあることをいい、このときには、少なくともサービスアプリケーション14を実行することができない状態にあり、クライアント側からはそのコンピュータは停止しているように見える。
通信監視部52は、コンピュータ異常監視部51の動作と並行して、自らのコンピュータの動作開始後、常時、ネットワーク20を介して通信機器30へ、通信監視パケットを所定の時間間隔で繰り返して送信するとともに、それに応答して通信機器30から送信される応答パケットの受信状況を監視する。すなわち、通信監視部52は、通信機器30から送信された応答パケットの所定時間当たりの受信数をカウントし、運転モード管理部53からの要求に応じて、そのカウント数を運転モード管理部53へ報告する。
運転モード管理部53は、コンピュータ異常監視部51から相手方コンピュータ10の異常を検出した旨の検出通知を受けた場合には、通信監視部52における応答パケットの所定時間当たりの受信数に基づき、そのカウント数が所定数以上であったときには、相手方コンピュータ10に実際に異常が生じていると判定し、そのカウント数が所定数に達していなかったときには、ネットワーク20に通信障害が発生していると判定する。
すなわち、運転モード管理部53が前記検出通知を受けた時点で、通信監視部52が通信機器30から所定時間当たり所定数以上の応答パケットを受信していたときには、ネットワーク20に通信障害がないことを意味しているので、運転モード管理部53は、コンピュータ異常監視部51によって検出された相手方コンピュータ10の異常が相手方コンピュータ10に実際に生じた異常によるものであると判定する。一方、運転モード管理部53が前記検出通知を受けた時点で、通信監視部52が通信機器30から所定時間当たり所定数以上の応答パケットを受信していなかったときには、ネットワーク20に通信障害があることを意味しているので、運転モード管理部53は、コンピュータ異常監視部51によって検出された相手方コンピュータ10の異常がその通信障害によって発生した見かけの異常であると判定する。
以上のようにして、運転モード管理部53は、相手方コンピュータ10に実際に生じた異常とネットワーク20の通信障害とを区別して検出することができる。
次に、運転モード管理部53は、相手方コンピュータ10に実際に生じた異常を検出した場合には、自身のコンピュータ10のサービスアプリケーション14の運転モードをチェックし、その運転モードが停止または待機状態であったときには、その運転モードを実行状態に遷移させる。すなわち、運転モード管理部53は、サービスアプリケーション14の実行を起動し、相手方コンピュータ10に代わって自身のコンピュータ10がサービスアプリケーション14を実行する。
なお、以上の説明において、コンピュータ異常監視部51は、所定時間内に所定数に達する生存パケットを受信しなかったとき、相手方コンピュータ10の異常と判定し、また、運転モード管理部53は、通信監視部52が所定時間内に所定数に達する応答パケットを受信しなかったとき、通信障害と判定している。すなわち、コンピュータ異常監視部51にしても、運転モード管理部53にしても、受信すべき生存パケットまたは応答パケットをすべて受信したときのみを正常であると判定するのではなく、受信したパケット数が所定の閾値以上の場合には、相手方コンピュータ10またはネットワーク20には障害がないと判定している。
このようにある閾値を用いて障害の有無を判定するようにしたのは、ネットワーク20などでしばしば発生する通信の間欠障害の影響を回避できるようにしたからである。ここで、通信の間欠障害とは、電磁的なノイズなどにより一時的に通信が不能になる障害をいう。すなわち、通信の間欠障害の場合には、通信は一時的に不能になるが、すぐに回復する。しかしながら、通信の間欠障害が発生すると、生存パケットであれ応答パケットであれ、その送受信に失敗することが多い。従って、その分、所定時間内の生存パケットまたは応答パケットの受信数は減少する。そこで、コンピュータ異常監視部51または運転モード管理部53は、あらかじめ所定の閾値を設定し、生存パケットまたは応答パケットの減少数がその閾値に達しなかった場合には、通信の間欠障害が発生したものと判定する。つまり、その場合には、ネットワーク20には通信障害が発生していないと判断する。
続いて、図2〜図10を用いて、以上に説明したクラスタ管理システム13の動作を実現する処理フローについて詳細に説明する。
まず、図2〜図5を用い、コンピュータ異常監視部51が実行する処理の内容について説明する。コンピュータ異常監視部51が実行する処理には、生存パケット送信処理、パケット受信処理およびコンピュータ異常検出処理が含まれる。
なお、これらの処理フローの動作は、コンピュータ10に含まれるCPU(図1に図示せず)によって実行される。従って、その動作の主語はCPUとすべきであるが、本明細書では、慣用に従い、その動作の主語を、当該処理の実行によって実現される機能ブロックによって表記する。ちなみに、以下の図2〜図5の説明においては、コンピュータ異常監視部51が動作の主語となる。なお、後記する図6〜図10の説明においても、その主語を同様に表記する。
図2は、コンピュータ異常監視部51における生存パケット送信処理の処理フローの例を示した図である。生存パケット送信処理は、自らのコンピュータ10が動作していることを示す生存パケットを相手方コンピュータ10に送信する処理である。従って、生存パケットは、いわゆるハートビートメッセージに相当する。この生存パケット送信処理は、電源投入などによりコンピュータ10が初期化されたときに起動される。
図2に示すように、コンピュータ異常監視部51は、まず、自身のコンピュータ10が有する初期化情報設定ファイルから、生存パケットの送信先となる相手方コンピュータ10のIPアドレスを読み込み(ステップS01)、さらに、その初期化情報設定ファイルから送信間隔時間を読み込む(ステップS02)。ここで、送信間隔時間は、生存パケットを送信する所定の時間間隔である。
ここで、初期化情報設定ファイルは、クラスタシステム1の構造または特性を決定するようなデータを記憶するファイルであり、そのデータは、所定の取り決めなどに従って、例えば、システム構築時にシステム設計者などによって設定される。初期化情報設定ファイルは、生存パケット送信処理だけでなく、後記する他の処理においても参照する。
次に、コンピュータ異常監視部51は、ステップS01で読み込んだIPアドレスを有するコンピュータに向けて、生存パケットを送信する(ステップS03)。その後、ステップS02で読み込んだ送信間隔時間が経過するのを待ち(ステップS04)、その時間が経過すると、再び、生存パケットを送信する(ステップS03)。このようにして、コンピュータ異常監視部51は、コンピュータ10が動作している限り、所定の時間間隔で繰り返して生存パケットを送信し続ける。
図3は、コンピュータ異常監視部51における生存パケット管理テーブルの構成の例を示した図である。図3に示すように、生存パケット管理テーブルは、クラスタ番号、ポート番号、パケットカウンタのデータなどを記憶する。
ここで、クラスタ番号は、クラスタシステム1において、相互に動作の異常を監視し合うコンピュータ10の組(以下、クラスタという)を識別する番号である。なお、図1の例では、クラスタシステム1を構成するコンピュータ10は2つしかないので、クラスタシステム1を構成するコンピュータ10の組(クラスタ)は1つしかない。
ポート番号は、ネットワーク20に対する受信ポートの識別番号であり、パケットカウンタは、このポート番号に対応付けられて管理される。通常、この受信ポートは、動作の異常を監視し合う相手方コンピュータ10に対応するように設けられる。なお、図3には、ポート番号が2つある例が示されているが、図1の構成のクラスタシステム1においては、動作の異常を監視し合う相手方コンピュータ10が1つしかないので、ポート番号も1つだけでよい。
パケットカウンタは、ポート番号に対応して設けられ、そのポート番号を有する受信ポートによって受信される生存パケットの受信数をカウントする。なお、パケットカウンタのカウント処理は、次に示すパケット受信処理によって行われる。
図4は、コンピュータ異常監視部51におけるパケット受信処理の処理フローの例を示した図である。ここで、パケット受信処理は、相手方コンピュータ10から送信されるパケットを受信する処理である。このパケット受信処理は、電源投入などによりコンピュータ10が初期化されたときに起動される。なお、パケット受信処理の受信対象のパケットは、相手方コンピュータ10から送信される生存パケットおよび起動パケット(後記する運転モード管理処理によって送信されるパケット)である。
図4に示すように、コンピュータ異常監視部51は、まず、初期化情報設定ファイルから、当該コンピュータ10が属するクラスタのクラスタ番号を読み込み(ステップS11)、さらに、生存パケットを送信する相手方コンピュータ10に対応して設けられた受信ポートのポート番号を読み込む(ステップS12)。
次に、コンピュータ異常監視部51は、相手方コンピュータ10からパケットが送信されるのを待ち、その送信されたパケットを受信すると(ステップS13)、受信したパケットが生存パケットであるか否かを判定する(ステップS14)。そして、その受信したパケットが生存パケットであったときには(ステップS14でYes)、コンピュータ異常監視部51は、生存パケット管理テーブルにおいて、そのパケットを受信した受信ポートのポート番号に対応付けられたパケットカウンタの値に1を加算する(ステップS15)。
また、受信したパケットが起動パケットであったときには(ステップS14でNo)、コンピュータ異常監視部51は、起動通知を運転モード管理部53へ送信し(ステップS16)、さらに、そのとき運転モード管理テーブルを起動パケット送信元のコンピュータへ送信する(ステップS17)。なお、起動通知は、相手方コンピュータ10から起動パケットを受信したことを知らせる情報である。また、運転モード管理テーブルは、自らのコンピュータの運転モードを少なくとも記憶したテーブルであり、その詳細については、図9を用いて、別途、説明する。
コンピュータ異常監視部51は、ステップS15またはステップS17を実行すると、ステップS13へ戻り、相手方コンピュータ10からパケットが送信されるのを待ち、繰り返して、その送信されたパケットを受信する(ステップS13)。コンピュータ異常監視部51は、このようにして相手方コンピュータ10から送信されるパケットを受信する(ステップS13)たびに、引き続きステップS14〜ステップS17を実行する。
図5は、コンピュータ異常監視部51におけるコンピュータ異常検出処理の処理フローの例を示した図である。ここで、コンピュータ異常検出処理は、相手方コンピュータ10から送信される生存パケットを受信しなくなったことを検出することにより、相手方コンピュータ10の異常を判定する処理である。ただし、このコンピュータ異常検出処理は、相手方コンピュータ10に実際に異常があることまでを判定するものではない。なお、このコンピュータ異常検出処理は、電源投入などによりコンピュータ10が初期化されたときに起動される。
図5に示すように、コンピュータ異常監視部51は、まず、初期化情報設定ファイルから、当該クラスタのクラスタ番号を読み込み(ステップS21)、さらに、相手方コンピュータ10の異常を判定する周期となる判定間隔時間を読み込む(ステップS22)。
コンピュータ異常監視部51は、ステップS22で読み込んだ判定間隔時間の経過を待ち(ステップS23)、その時間が経過すると、相手方コンピュータ10から送信される生存パケットの受信異常の有無を判定する(ステップS24)。このとき、コンピュータ異常監視部51は、生存パケット管理テーブルのパケットカウンタを参照し、そのカウント数が前記判定間隔時間内に受信すべき生存パケット数に達しているか否かを判定し、その数に達していたときには、受信正常と判定し、その数に達していなかったときには、受信異常と判定する。なお、この受信異常は、相手方コンピュータ10の異常(ネットワーク20の障害による見かけの異常を含む)を意味する。
なお、以上の説明において、判定間隔時間は、生存パケットの送信間隔時間よりも、例えば、1桁ほど大きい値が設定されているものとする。また、パケットカウンタの値は、ステップS24において参照された直後に、ゼロクリアされるものとする。
コンピュータ異常監視部51は、ステップS24の判定において受信異常があったと判定したときには(ステップS25でYes)、相手方コンピュータ10の異常を検出したことを示す検出通知を運転モード管理部53へ送信し(ステップS26)、再度、判定間隔時間の経過を待つ(ステップS23)。一方、ステップS24の判定において受信異常がなかったと判定したときには(ステップS25でNo)、そのままステップS23へ戻り、再度、判定間隔時間の経過を待つ(ステップS23)。
なお、ステップS24の判定において、生存パケット管理テーブルに複数のパケットカウンタが設定されていた場合には、そのそれぞれについて受信異常の有無を判定し、受信異常と判定されたパケットカウンタに対応するポート番号のポートに接続されたコンピュータが異常であると判定する。
続いて、図6〜図8を用い、通信監視部52が実行する処理の内容について説明する。通信監視部52が実行する処理には、通信監視パケット送信処理、通信監視パケット受信処理およびカウンタ値取得インタフェースが含まれる。
図6は、通信監視部52における通信監視パケット送信処理の処理フローの例を示した図である。通信監視パケット送信処理は、応答パケットを要求する通信監視パケットを、ネットワーク20を介して通信機器30へ送信する処理である。この通信監視パケット送信処理は、電源投入などによりコンピュータ10が初期化されたときに起動される。
図6に示すように、通信監視部52は、まず、初期化情報設定ファイルから、通信監視パケットの送信先となる通信機器30のIPアドレスを読み込み(ステップS31)、さらに、送信間隔時間を読み込む(ステップS32)。ここで、送信間隔時間は、通信監視パケットを送信する所定の時間間隔である。
次に、通信監視部52は、ステップS31で読み込んだIPアドレスを有する通信機器30に向けて、通信監視パケットを送信する(ステップS33)。その後、ステップS32で読み込んだ送信間隔時間が経過するのを待ち(ステップS34)、その時間が経過すると、再び、通信監視パケットを送信する(ステップS33)。このようにして、通信監視部52は、コンピュータ10が動作している限り、前記送信間隔時間を周期として繰り返し通信監視パケットを送信し続ける。
図7は、通信監視部52における通信監視パケット受信処理の処理フローの例を示した図である。ここで、通信監視パケット受信処理は、通信機器30から送信される応答パケットを受信する処理である。ここで、応答パケットは、通信監視パケット送信処理によって送信された通信監視パケットを受信した通信機器30が、通信監視パケット受信の応答として送信するパケットである。
図7に示すように、通信監視部52は、通信機器30から送信された応答パケットを受信するたびに(ステップS41)、記憶装置の所定の作業領域に設けられた通信監視カウンタの値に1を加算する(ステップS42)処理を繰り返す。このようにステップS41およびステップS42を繰り返すことにより、通信監視部52は、応答パケットの受信数をカウントする。
図8は、通信監視部52におけるカウンタ値取得インタフェースの処理フローの例を示した図である。ここで、カウンタ値取得インタフェースは、通信監視部52の外部の処理(例えば、運転モード管理部53に含まれる処理)から通信監視カウンタの値を取得するための処理であり、外部の処理からの呼び出しに応じて実行される。
図8に示すように、通信監視部52は、外部の処理によりカウンタ値取得インタフェースが呼び出されると、記憶装置の所定の作業領域から通信監視カウンタのカウンタ値を読み取り(ステップS51)、その読み取ったカウンタ値を呼び出し元の外部の処理へ返す(ステップS52)。
続いて、図9および図10を用い、運転モード管理部53が実行する運転モード管理処理の内容について説明する。ここで、図9は、運転モード管理部53における運転モード管理テーブルの構成の例を示した図、図10は、運転モード管理部53における運転モード管理処理の処理フローの例を示した図である。なお、この運転モード管理処理は、電源投入などによりコンピュータ10が初期化されたときに起動される。
図9に示すように、運転モード管理テーブルは、クラスタ番号、コンピュータ番号、運転モードのデータなどを記憶する。ここで、クラスタ番号は、クラスタシステム1において相互に動作の異常を監視し合うコンピュータ10の組を識別する番号である。また、コンピュータ番号は、クラスタシステム1を構成するコンピュータ10を識別する番号である。また、運転モードは、コンピュータ番号に対応付けられたデータであり、そのコンピュータ番号を有するコンピュータのサービスアプリケーション14の動作状態を表す。
なお、サービスアプリケーション14の運転モードとして、実行状態、待機状態、停止状態の3つの動作状態がある。すなわち、実行状態は、コンピュータ10がサービスアプリケーション14を実行している状態をいい、待機状態は、サービスアプリケーション14を実行していないが、コンピュータ10が稼働中であり、いつでもサービスアプリケーション14を実行することが可能な状態をいう。また、停止状態は、実行状態でも待機状態でもない状態をいう。なお、電源が投入されていないコンピュータ10は、停止状態にあり、また、電源が投入された後であっても、次の図10において説明する起動パケットを送信する以前は、停止状態にあるものとする。
図10に示すように、運転モード管理部53は、まず、初期化情報設定ファイルから、当該コンピュータ10が属するクラスタのクラスタ番号、通信の間欠障害の判定に用いる閾値を読み込む(ステップS60)。続いて、運転モード管理部53は、クラスタを構成する相手方コンピュータ10に対して起動パケットを送信し(ステップS61)、その応答として相手方コンピュータ10から送信される運転モード管理テーブルを取得する(ステップS62)。なお、起動パケットは、自身のコンピュータに電源が投入されるなどして、いつでも動作できる状態であることを他のコンピュータに知らせるパケットである。
次に、運転モード管理部53は、相手方コンピュータ10から取得した運転モード管理テーブルに基づき、自身のコンピュータの初期運転モードを設定する(ステップS63)。このとき、運転モード管理部53は、前記取得した運転モード管理テーブルを参照して、自身が属するクラスタのコンピュータで、実行状態のコンピュータが存在しないときには、自らの運転モードを実行モードに設定し、実行状態のコンピュータが存在したときには、自らの運転モードを待機モードに設定する。
運転モード管理部53は、ステップS63で運転モードを実行状態に設定したときには(ステップS64でYes)、サービスアプリケーション14の処理としてあらかじめ実行するように設定されたアプリケーションを起動し(ステップS65)、コンピュータ異常監視部51から送信される通知を待つ(ステップS66)。また、ステップS63で運転モードを実行状態以外に設定したときには(ステップS64でNo)、ステップS65を実行せずに、そのままコンピュータ異常監視部51からの通知を待つ(ステップS66)。なお、ここでいう通知とは、図5のステップS26で送信される検出通知、または、図4のステップS16で送信される起動通知である。
運転モード管理部53は、ステップS66の通知待ちの状態で、コンピュータ異常監視部51から検出通知でない通知、つまり、起動通知を受けたときには(ステップS67でNo)、その起動通知に含まれる起動パケット送信元コンピュータのコンピュータ番号に対応する運転モードを待機状態に設定し(ステップS68)、ステップS66へ戻り、次の通知を待つ。
また、運転モード管理部53は、ステップS66の通知待ちの状態で、コンピュータ異常監視部51から相手方コンピュータ10の異常を示す検出通知を受けたときには(ステップS67でYes)、通信監視部52からカウンタ通信インタフェース(図8参照)を介して通信監視カウンタの値を取得する(ステップS69)。そして、その取得したカウンタ値がステップS60で取得した通信の間欠障害の閾値以上であるか否かを判定する(ステップS70)。
その判定の結果、通信監視カウンタのカウンタ値が前記の閾値に達していなかったときには(ステップS70でNo)、所定時間内に通信監視パケットに応答する応答パケットの数が少なかったことを意味するので、運転モード管理部53は、ネットワーク20に間欠障害でない固定的な通信障害が生じたものと判断し、その通信障害に係るログを収集する(ステップS71)。そして、その場合には、相手方コンピュータ10は正常に動作していると判断し、運転モード管理テーブルなどを更新することはせず、そのままステップS66へ戻り、次の通知を待つ。
一方、通信監視カウンタのカウンタ値が閾値以上であったときには(ステップS70でYes)、運転モード管理部53は、ネットワーク20に通信障害はないか、あったとしても間欠障害であった判断する。この場合には、相手方コンピュータ10の異常が検出され、ネットワーク20には通信障害がないことになるので、相手方コンピュータ10には実際に異常が生じていたことになる。従って、運転モード管理部53は、運転モード管理テーブルを更新する必要があり、自らおよび相手方コンピュータ10の運転モードを更新する(ステップS72)。
このとき、相手方コンピュータ10の運転モードが待機状態であったときには、運転モード管理部53は、モード管理テーブルでその運転モードを停止状態に更新するだけでよい。一方、相手方コンピュータ10の運転モードが実行状態であったときには、運転モード管理部53は、モード管理テーブルで相手方コンピュータ10の運転モードを停止状態に更新するとともに、自身のコンピュータの運転モードを実行状態に更新する。
そこで、運転モード管理部53は、自身のコンピュータの運転モードを実行状態に更新したときには(ステップS73でYes)、待機状態にあったサービスアプリケーション14を起動し(ステップS74)、ステップS66へ戻り、次の通知を待つ。また、自身のコンピュータの運転モードを実行状態に更新しなかったときには(ステップS73でNo)、そのままステップS66へ戻り、次の通知を待つ。
なお、図10の運転モード管理処理の説明において、通信監視カウンタは、所定時間当たりに受信する応答メッセージの数をカウントするカウンタであるが、それを最も簡単に実現するには、図3のパケットカウンタをゼロクリアするとき併せて通信監視カウンタをゼロクリアすることが必要である。そして、通信監視カウンタをゼロクリアするに際しては、そのときの通信監視カウンタの値を記憶装置の所定の作業領域に記憶するものとし、通信監視部52は、カウンタ値取得インタフェース(図8参照)を実行したとき、ステップS52では、そのカウンタ値として、その所定の作業領域に記憶された値を返すものとする。
以上、第1の実施形態によれば、クラスタシステム1を構成するコンピュータ10は、相手方コンピュータ10の異常とネットワーク20の通信障害とを区別して検出することができる。しかも、相手方コンピュータ10の異常を検出するための生存パケットのパケットカウンタと、ネットワーク20の通信障害を検出するための通信監視カウンタは、並行して動作するので、コンピュータ異常監視部51が相手方コンピュータ10の異常を検出したときには、運転モード管理部53は、直ちに、通信監視カウンタを参照することにより、ネットワーク20に通信障害があるか否かを判定することができる。従って、本実施形態によれば、相手方コンピュータ10の異常とネットワーク20の通信障害とを区別する処理時間を、従来技術に比べ大幅に短縮することができる。
<第1の実施形態の変形例>
次に、第1の実施形態の変形例について説明する。第1の実施形態においては、クラスタシステム1は、2つのコンピュータ10−1,10−2によって構成されているものとしたが、その変形例では、クラスタシステムは、3つ以上のコンピュータによって構成されているものとする。
まず、そのクラスタシステムは、n台(nは、2以上の整数)の稼働コンピュータ10−1と1台のスペアコンピュータ10−2とによって構成されているとする。この場合には、n台の稼働コンピュータ10−1それぞれについてスペアコンピュータ10−2とのペア(組)を構成し、そのそれぞれを1つのクラスタとする。このとき、スペアコンピュータ10−2は、そのそれぞれのクラスタで重複して用いられることになるが、そのそれぞれのクラスタは、図1に示したクラスタシステム1と同じ構成になる。従って、そのそれぞれのクラスタのコンピュータ10の構成および機能は、第1の実施形態の場合と同じにすることができる。
なお、この変形例の場合には、スペアコンピュータ10−2は、n台の稼働コンピュータ10−1を相手に、相手方コンピュータ10の異常を監視することになる。従って、その処理負荷は大きくなるが、スペアコンピュータ10−2は、待機状態にあり、サービスアプリケーション14を実行していないので、その処理負荷が問題になることはない。また、スペアコンピュータ10−2の異常は、n台の稼働コンピュータ10−1によって重複して検出されることになるが、スペアコンピュータ10−2の異常が重複して検出されても、稼働コンピュータ10−1におけるサービスアプリケーション14の実行状態には影響がないので、特に問題になることはない。
なお、スペアコンピュータ10−2の異常を監視するために、n台の稼働コンピュータ10−1すべてを用いる必要はなく、n台の稼働コンピュータ10−1のうちの1台だけによってスペアコンピュータ10−2の異常を監視するようにしてもよい。それを実現するには、n−1台の稼働コンピュータ10−1において、そのコンピュータ異常監視部51および通信監視部52の機能を休止させればよい。この場合には、スペアコンピュータ10−2の異常が重複して検出されることはない。
また、この変形例の場合には、2台のコンピュータ10−1,10−2のペアで構成したクラスタそれぞれがすべて通信機器30を備えている必要はない。通信機器30は、全体のネットワークに1つあればよい。さらには、ペアを組んだコンピュータ10−1,10−2以外のコンピュータを通信機器30として利用することもできる。その場合には、通信機器30として特別なものとして設ける必要はない。
続いて、n台の稼働コンピュータ10−1とm台(mは、2以上でn以下の整数)のスペアコンピュータ10−2とで構成されたクラスタシステムを考える。このようなクラスタシステムは、適宜、n台(ただし、n=Σn,i=1,…,m)の稼働コンピュータ10−1と1台のスペアコンピュータ10−2とで構成されたm個のクラスタシステムに分割することができる。従って、この場合にも、そのクラスタシステムを構成するコンピュータ10の構成および機能は、前記した第1の実施形態の場合と同じにすることができる。
<第2の実施形態>
図11は、本発明の第2の実施形態に係るクラスタシステムの構成の例を示した図である。図11に示すように、クラスタシステム1Aの構成は、図1の第1の実施形態のクラスタシステム1とほとんど同じ構成であるが、次のような相違がある。
クラスタシステム1Aを構成するコンピュータ10Aとして2つのコンピュータ10A−1,10A−2は、それぞれ独立した2つのネットワーク20a,20bにより接続されている。また、通信機器30は、2つのネットワーク20a,20bそれぞれに接続されている。また、以上の接続関係に対応するように、クラスタ管理システム13Aは、2つのコンピュータ異常監視部51a,51bを備える。このとき、ネットワーク20aを介して、コンピュータ異常監視部51a同士で生存パケットの送受信を行い、また、ネットワーク20bを介して、コンピュータ異常監視部51b同士で、生存パケットの送受信を行う。
以上のようにクラスタシステム1Aでは、ネットワーク20a,20bとコンピュータ異常監視部51a,51bとが2重化されているので、相手方コンピュータ10Aの異常を、より高信頼度で検出することができる。
なお、以上の構成において、2つのネットワーク20a,20bが同時に障害を起こすことがない相互に独立したネットワークである場合には、通信機器30はなくてもよい。すなわち、2つのコンピュータ異常監視部51a,51bの両方で相手方コンピュータ10Aの異常を検出したときには、相手方コンピュータ10Aに実際に異常が生じていると判定することができる。また、2つのコンピュータ異常監視部51a,51bの一方だけで相手方コンピュータ10Aの異常を検出したときには、一方のネットワーク20aまたは20bの通信障害であり、相手方コンピュータ10Aは正常に動作していると判定することができる。
第1の実施形態に係るクラスタシステムの構成の例を示した図。 コンピュータ異常監視部における生存パケット送信処理の処理フローの例を示した図。 コンピュータ異常監視部における生存パケット管理テーブルの構成の例を示した図。 コンピュータ異常監視部におけるパケット受信処理の処理フローの例を示した図。 コンピュータ異常監視部におけるコンピュータ異常検出処理の処理フローの例を示した図。 通信監視部における通信監視パケット送信処理の処理フローの例を示した図。 通信監視部における通信監視パケット受信処理の処理フローの例を示した図。 通信監視部におけるカウンタ値取得インタフェースの処理フローの例を示した図。 運転モード管理部における運転モード管理テーブルの構成の例を示した図。 運転モード管理部における運転モード管理処理の処理フローの例を示した図。 本発明の第2の実施形態に係るクラスタシステムの構成の例を示した図。
符号の説明
1,1A クラスタシステム
10,10A コンピュータ
11 ネットワークドライバ
12 オペレーティングシステム
13,13A クラスタ管理システム
14 サービスアプリケーション
20,20a,20b ネットワーク
30 通信機器
51,51a,51b コンピュータ異常監視部
52 通信監視部
53 運転モード管理部

Claims (9)

  1. 所定のサービスアプリケーションを実行している稼働コンピュータと、その稼働コンピュータにネットワークを介して接続され、前記所定のサービスアプリケーションを実行可能な状態で待機しているスペアコンピュータと、を含んで構成されたクラスタシステムであって、
    前記稼働コンピュータおよび前記スペアコンピュータのそれぞれは、
    動作開始後、前記ネットワークを介して接続された相手方コンピュータに対し、自らが動作していることを示す生存パケットを所定の時間間隔で繰り返し送信するとともに、前記相手方コンピュータから送信される生存パケットの受信を監視し、所定時間内に所定数に達する前記生存パケットを受信しなかったとき、それを前記相手方コンピュータの異常として検出するコンピュータ異常監視手段と、
    動作開始後、前記通信機器に対して所定の時間間隔で繰り返し通信監視パケットを送信するとともに、その応答として前記ネットワークに接続された通信機器から送信される応答パケットを受信して、その応答パケットの所定時間当たりの受信数をカウントする通信監視手段と、
    を備え、
    前記コンピュータ異常監視手段により前記相手方コンピュータの異常を検出したときには、前記通信監視手段から前記所定時間当たりの応答パケットの受信数を取得し、その受信数に基づき、前記検出した相手方コンピュータの異常が、前記相手方コンピュータに実際に生じた異常であるのか、または、前記ネットワークの通信障害により生じた見かけの異常であるのか、を区別して判定すること
    を特徴とするクラスタシステム。
  2. 前記稼働コンピュータおよび前記スペアコンピュータのそれぞれは、
    前記検出した相手方コンピュータの異常を区別して判定する場合、前記通信監視部から取得した前記所定時間当たりの応答パケットの受信数が所定の閾値以上であったとき、相手方コンピュータに実際に生じた異常であると判定し、前記応答パケットの受信数が前記所定の閾値に達していなかったとき、前記ネットワークの通信障害により生じた見かけの異常であると判定すること
    を特徴とする請求項1に記載のクラスタシステム。
  3. 前記スペアコンピュータは、
    前記検出した相手方コンピュータの異常が前記相手方コンピュータに実際に生じた異常であると判定したときには、さらに、前記相手方コンピュータが実行していた前記サービスアプリケーションを、前記相手方コンピュータに代わって自らが実行すること
    を特徴とする請求項1または請求項2に記載のクラスタシステム。
  4. 所定のサービスアプリケーションを実行している稼働コンピュータと、その稼働コンピュータにネットワークを介して接続され、前記所定のサービスアプリケーションを実行可能な状態で待機しているスペアコンピュータと、を含んで構成されたクラスタシステムに用いられるコンピュータであって、
    動作開始後、前記ネットワークを介して接続された相手方コンピュータに対し、自らが動作していることを示す生存パケットを所定の時間間隔で繰り返し送信するとともに、前記相手方コンピュータから送信される生存パケットの受信を監視し、所定時間内に所定数に達する前記生存パケットを受信しなかったとき、それを前記相手方コンピュータの異常として検出するコンピュータ異常監視手段と、
    動作開始後、前記通信機器に対して所定の時間間隔で繰り返し通信監視パケットを送信するとともに、その応答として前記ネットワークに接続された通信機器から送信される応答パケットを受信して、その応答パケットの所定時間当たりの受信数をカウントする通信監視手段と、
    を備え、
    前記コンピュータ異常監視手段により前記相手方コンピュータの異常を検出したときには、前記通信監視手段から前記所定時間当たりの応答パケットの受信数を取得し、その受信数に基づき、前記検出した相手方コンピュータの異常が、前記相手方コンピュータに実際に生じた異常であるのか、または、前記ネットワークの通信障害により生じた見かけの異常であるのか、を区別して判定すること
    を特徴とするコンピュータ。
  5. 前記検出した相手方コンピュータの異常を区別して判定する場合、前記通信監視部から取得した前記所定時間当たりの応答パケットの受信数が所定の閾値以上であったとき、相手方コンピュータに実際に生じた異常であると判定し、前記応答パケットの受信数が前記所定の閾値に達していなかったとき、前記ネットワークの通信障害により生じた見かけの異常であると判定すること
    を特徴とする請求項4に記載のコンピュータ。
  6. 前記検出した相手方コンピュータの異常が前記相手方コンピュータに実際に生じた異常であると判定したときに、自らがスペアコンピュータとして動作していた場合には、さらに、前記相手方コンピュータが実行していた前記サービスアプリケーションを、前記相手方コンピュータに代わって実行すること
    を特徴とする請求項4または請求項5に記載のコンピュータ。
  7. 所定のサービスアプリケーションを実行している稼働コンピュータと、その稼働コンピュータにネットワークを介して接続され、前記所定のサービスアプリケーションを実行可能な状態で待機しているスペアコンピュータと、を含んで構成されたクラスタシステムにおける異常検出方法あって、
    前記稼働コンピュータおよび前記スペアコンピュータのそれぞれは、
    動作開始後、前記ネットワークを介して接続された相手方コンピュータに対し、自らが動作していることを示す生存パケットを所定の時間間隔で繰り返し送信するとともに、前記相手方コンピュータから送信される生存パケットの受信を監視し、
    さらに、動作開始後、前記通信機器に対して所定の時間間隔で繰り返し通信監視パケットを送信するとともに、その応答として前記ネットワークに接続された通信機器から送信される応答パケットを受信して、その応答パケットの所定時間当たりの受信数をカウントし、
    前記相手方コンピュータから送信される生存パケットを所定時間内に所定数に達する前記生存パケットを受信しなかったときには、それを前記相手方コンピュータの異常として検出すると、前記カウント中の所定時間当たりの応答パケットの受信数に基づき、前記検出した相手方コンピュータの異常が、前記相手方コンピュータに実際に生じた異常であるのか、または、前記ネットワークの通信障害により生じた見かけの異常であるのか、を区別して判定すること
    を特徴とする異常検出方法。
  8. 前記稼働コンピュータおよび前記スペアコンピュータのそれぞれは、
    前記検出した相手方コンピュータの異常を区別して判定する場合、前記カウント中の所定時間当たりの応答パケットの受信数が所定の閾値以上であったとき、相手方コンピュータに実際に生じた異常であると判定し、前記応答パケットの受信数が前記所定の閾値に達していなかったとき、前記ネットワークの通信障害により生じた見かけの異常であると判定すること
    を特徴とする請求項7に記載の異常検出方法。
  9. 前記スペアコンピュータは、
    前記検出した相手方コンピュータの異常が前記相手方コンピュータに実際に生じた異常であると判定したときには、さらに、前記相手方コンピュータが実行していた前記サービスアプリケーションを、前記相手方コンピュータに代わって自らが実行すること
    を特徴とする請求項7または請求項8に記載の異常検出方法。
JP2007004601A 2007-01-12 2007-01-12 クラスタシステム、コンピュータおよびその異常検出方法 Pending JP2008172592A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007004601A JP2008172592A (ja) 2007-01-12 2007-01-12 クラスタシステム、コンピュータおよびその異常検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007004601A JP2008172592A (ja) 2007-01-12 2007-01-12 クラスタシステム、コンピュータおよびその異常検出方法

Publications (1)

Publication Number Publication Date
JP2008172592A true JP2008172592A (ja) 2008-07-24

Family

ID=39700256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007004601A Pending JP2008172592A (ja) 2007-01-12 2007-01-12 クラスタシステム、コンピュータおよびその異常検出方法

Country Status (1)

Country Link
JP (1) JP2008172592A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010103695A (ja) * 2008-10-22 2010-05-06 Ntt Data Corp クラスタシステム、クラスタサーバ及びクラスタ制御方法
JP2011146877A (ja) * 2010-01-13 2011-07-28 Eliiy Power Co Ltd 監視対象物の集中管理システム
JP2012064248A (ja) * 2011-12-27 2012-03-29 Bank Of Tokyo-Mitsubishi Ufj Ltd 冗長状態検証装置
JP2012080426A (ja) * 2010-10-05 2012-04-19 Nec Corp 通信装置、通信システム、通信方法、および通信プログラム
JP2013123114A (ja) * 2011-12-09 2013-06-20 Hitachi Ltd 通信システム及び通信システムでの統計情報管理方法
JP2015222588A (ja) * 2015-07-23 2015-12-10 スミス アンド ネフュー インコーポレーテッド 医療装置間での確実な相互運用のための方法およびシステム
US10102088B2 (en) 2013-12-25 2018-10-16 Nec Solution Innovators, Ltd. Cluster system, server device, cluster system management method, and computer-readable recording medium
JPWO2018151290A1 (ja) * 2017-02-20 2019-12-19 日本電気株式会社 情報処理装置、情報処理方法および記憶媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003173299A (ja) * 2001-12-06 2003-06-20 Mitsubishi Electric Corp データ受信装置、データ送信装置、データ受信方法及びデータ送信方法
JP2005073277A (ja) * 2003-08-27 2005-03-17 Internatl Business Mach Corp <Ibm> クラスタにおける信頼性の高い障害解決

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003173299A (ja) * 2001-12-06 2003-06-20 Mitsubishi Electric Corp データ受信装置、データ送信装置、データ受信方法及びデータ送信方法
JP2005073277A (ja) * 2003-08-27 2005-03-17 Internatl Business Mach Corp <Ibm> クラスタにおける信頼性の高い障害解決

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010103695A (ja) * 2008-10-22 2010-05-06 Ntt Data Corp クラスタシステム、クラスタサーバ及びクラスタ制御方法
JP2011146877A (ja) * 2010-01-13 2011-07-28 Eliiy Power Co Ltd 監視対象物の集中管理システム
JP2012080426A (ja) * 2010-10-05 2012-04-19 Nec Corp 通信装置、通信システム、通信方法、および通信プログラム
JP2013123114A (ja) * 2011-12-09 2013-06-20 Hitachi Ltd 通信システム及び通信システムでの統計情報管理方法
JP2012064248A (ja) * 2011-12-27 2012-03-29 Bank Of Tokyo-Mitsubishi Ufj Ltd 冗長状態検証装置
US10102088B2 (en) 2013-12-25 2018-10-16 Nec Solution Innovators, Ltd. Cluster system, server device, cluster system management method, and computer-readable recording medium
JP2015222588A (ja) * 2015-07-23 2015-12-10 スミス アンド ネフュー インコーポレーテッド 医療装置間での確実な相互運用のための方法およびシステム
JPWO2018151290A1 (ja) * 2017-02-20 2019-12-19 日本電気株式会社 情報処理装置、情報処理方法および記憶媒体
JP7110990B2 (ja) 2017-02-20 2022-08-02 日本電気株式会社 情報処理装置、情報処理方法および記憶媒体

Similar Documents

Publication Publication Date Title
US10715411B1 (en) Altering networking switch priority responsive to compute node fitness
JP2008172592A (ja) クラスタシステム、コンピュータおよびその異常検出方法
US10693813B1 (en) Enabling and disabling links of a networking switch responsive to compute node fitness
US7225356B2 (en) System for managing operational failure occurrences in processing devices
US8467303B2 (en) Method and apparatus for preventing network conflict
US20090249115A1 (en) Method and system for dynamic link failover management
CN103297396A (zh) 群集系统中管理故障转移的装置和方法
JP2010103695A (ja) クラスタシステム、クラスタサーバ及びクラスタ制御方法
JP2004171370A (ja) 冗長構成におけるクライアント/サーバ間のアドレス制御方式および方法
US10721135B1 (en) Edge computing system for monitoring and maintaining data center operations
JP5625605B2 (ja) Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム
WO2019049433A1 (ja) クラスタシステム、クラスタシステムの制御方法、サーバ装置、制御方法、及びプログラムが格納された非一時的なコンピュータ可読媒体
JP6551111B2 (ja) 情報処理装置、ダウン判定方法、クラスタシステム、及びプログラム
JP2011203941A (ja) 情報処理装置、監視方法、および監視プログラム
US8917609B2 (en) Line monitoring apparatus and line monitoring method
CN103001832B (zh) 分布式文件系统中节点的检测方法和装置
JP2009003491A (ja) クラスタシステムにおけるサーバ切り替え方法
JP2009110218A (ja) 仮想化スイッチおよびそれを用いたコンピュータシステム
JP4511455B2 (ja) ファイバーチャネルスイッチおよびそれを用いたコンピュータシステム
KR20200101117A (ko) 노드장애를 감지할 수 있는 네트워크 시스템 및 노드장애 감지방법
JP5005425B2 (ja) 制御装置復帰システム
JP2014532236A (ja) 接続方法
JP2017183905A (ja) 通信装置、通信障害復旧方法および通信障害復旧プログラム
JP2006172050A (ja) ホットスタンバイ式2重化システム
JP2010087834A (ja) ネットワーク監視システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101130