JP2004287980A - 共有リソース障害検出システム及び方法 - Google Patents

共有リソース障害検出システム及び方法 Download PDF

Info

Publication number
JP2004287980A
JP2004287980A JP2003080751A JP2003080751A JP2004287980A JP 2004287980 A JP2004287980 A JP 2004287980A JP 2003080751 A JP2003080751 A JP 2003080751A JP 2003080751 A JP2003080751 A JP 2003080751A JP 2004287980 A JP2004287980 A JP 2004287980A
Authority
JP
Japan
Prior art keywords
monitoring
shared resource
failure
shared
agents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003080751A
Other languages
English (en)
Inventor
Masa Tanaka
雅 田中
Kotaro Endo
浩太郎 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003080751A priority Critical patent/JP2004287980A/ja
Publication of JP2004287980A publication Critical patent/JP2004287980A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】共有リソースの障害とパスの障害とを区別して検出できるようにする。
【解決手段】監視エージェント120−1〜120−3は、それぞれパス14−1〜14−3を介して共有装置13−1を監視し、監視エージェント120−3〜120−5は、それぞれパス14−4〜14−6を介して共有装置13−2を監視し、その監視結果を監視サーバ装置11に通知する。監視サーバ装置11内の監視結果収集部111aは、この監視結果を領域112bに格納する。監視サーバ装置11内の障害判別部111bは、領域112a中の共有装置−監視ジョブ関係情報に従い、障害検出の対象となる共有装置と関係する監視エージェントを全て特定し、領域112bに保持されている監視結果集合のうち、特定した監視エージェントの監視結果に従って、当該共有装置とパスの障害状態を判別する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、複数の装置から利用可能な共有リソースの障害を検出するための共有リソース障害検出システム及び方法に関する。
【0002】
【従来の技術】
一般に、複数の装置から利用可能な共有リソース(共有装置)は、当該リソースの障害の検出という観点から2種類に分類される。第1の種類の共有リソースは、当該リソースに障害が発生した場合に、当該リソース自身がその障害を検出して他の装置に通知する機能を有する。これに対し、第2の種類の共有リソースは、当該リソースに障害が発生しても当該リソース自身がその障害を検出する機能を持たず、その障害を他の装置に通知することもできない。
【0003】
一方、例えば特許文献1には、共有リソースの障害検出について記載されている。しかし、特許文献1には、上記第2の種類の共有リソースの障害を検出する際の問題については記載されていない。
【0004】
【特許文献1】
特開2001−34488号公報(段落0024、段落0025、図3、図4)
【0005】
【発明が解決しようとする課題】
上記第2の種類の共有リソースの障害を検出するには、当該共有リソースと当該共有リソースを監視する装置(監視装置)とをパス(例えば通信ケーブル)でつなぎ、このパスを介して監視装置が当該共有装置を監視する構成を適用することが考えられる。ここでは、監視装置は、パスを介して共有リソースに例えば定期的にアクセスし、当該リソースがリソースとしての機能を果たしているかを監視することにより、当該リソースの障害を検出することが可能である。このように、共有リソースの障害を当該共有リソースから教えてもらうことなく監視装置自身が検出することを、“共有リソースの障害を客観的に検出する”と表現する。
【0006】
しかしながら上記した従来技術においては、監視装置が共有リソースの障害を客観的に検出したとしても、当該共有リソースに実際に障害が発生しているのか、監視装置と共有リソースとを結ぶパス(監視パス)に障害があって当該共有リソースとの間で通信が行えなかったために、結果として共有リソースに障害が発生したと判定されたのか、区別をつけることができない。即ち従来技術においては、共有リソースに障害が発生したのか、監視パスに障害が発生したのかを区別して検出することができなかった。
【0007】
本発明は上記事情を考慮してなされたものでその目的は、共有リソースの障害とパスの障害とを区別して検出できる共有リソース障害検出システム及び方法を提供することにある。
【0008】
【課題を解決するための手段】
本発明の1つの観点によれば、複数の装置から共有使用される少なくとも1つの共有リソースの障害を検出するための共有リソース障害検出システムが提供される。この共有リソース障害検出システムは、上記共有リソースをそれぞれ固有のパス経由で監視する複数の監視エージェントと、上記共有リソースと当該共有リソースと少なくとも1つのパスを介して接続される上記複数の監視エージェントとの対応関係を示す関係情報を保持する関係情報保持手段と、上記複数の監視エージェントの監視結果を収集する監視結果収集手段と、この監視結果収集手段により収集された監視結果の集合を保持する監視結果集合保持手段と、上記関係情報保持手段に保持されている関係情報に従って、障害検出の対象となる共有リソースと関係する監視エージェントを全て特定し、上記監視結果集合保持手段に保持されている監視結果集合のうち、特定した全ての監視エージェントの監視結果に従って、当該共有リソースと当該共有リソースにつながるパスの障害状態を判別する障害判別手段とを備えたことを特徴とする。
【0009】
このような構成において、複数の監視エージェントが共有リソースをそれぞれ固有のパス経由で監視することにより得られる監視結果は、監視結果収集手段により収集されて監視結果集合保持手段に保持される。障害判別手段は、関係情報保持手段に保持されている関係情報に従って、障害検出の対象となる共有リソースと関係する監視エージェントを全て特定し、この特定した監視エージェントの監視結果に従って、当該共有リソースと当該共有リソースにつながるパスの障害状態を判別する。これにより、共有リソースの障害とパスの障害とを区別して検出できる。ここで、障害判別手段による上記処理が、監視結果集合保持手段に保持されている監視結果集合中の監視結果が更新される都度行われる構成とするとよい。また障害判別手段による障害状態の判別には、上記特定された全ての監視エージェントの監視結果がいずれも異常を表しているならば、対応する共有リソースの障害であり、一部の監視結果のみが異常を表しているならば、対応する共有リソースにつながるパスの障害であると判別される論理を適用するとよい。
【0010】
また、上記少なくとも1つの共有リソースを含む複数の共有リソースがネットワークを構成する要素である場合に、上記複数の監視エージェントが、このネットワークに接続された所定の装置と通信をすることにより当該所定の装置に至る上記ネットワークの経路上の共有リソース及びパスを含む監視対象を監視する構成とすることも可能である。この構成においては、ネットワーク監視システムが構築できる。
【0011】
また、上記関係情報が、上記ネットワークを構成する各共有リソースと当該共有リソースを監視対象として含む監視エージェントとの対応関係をトポロジーを含めてツリー構造で示すデータ構造を有し、上記障害判別手段が、このデータ構造の関係情報に従って、ルートにより近い共有リソースから順に障害検出の対象として選択し、その都度選択した共有リソースと関係する監視エージェントを全て特定する構成とするならば、共有リソースの障害検出が効率的に行える。特に、上記関係情報保持手段、監視結果収集手段、監視結果集合保持手段及び障害判別手段が、上記ネットワークを利用する複数のコンピュータを管理する統合システム管理サーバ装置に設けられる構成とすると共に、当該統合システム管理サーバ装置に、上記障害判別手段の障害判別結果を表す障害情報の通知を出力する障害通知手段を備えるとよい。ここで、障害情報通知は、上記統合システム管理サーバ装置の管理下にあるコンピュータは勿論、当該サーバ装置の管理下にないコンピュータにも出力可能である。また、上記障害情報通知を、上記サーバ装置のユーザインタフェースを介してユーザ(管理者)に出力することも可能である。この障害情報通知を用いて障害検出箇所を通知することにより、例えば上記サーバ装置により管理されているコンピュータの経路情報を操作できる。また、統合システム管理サーバ装置における処理と監視エージェントのプロセスを分離することにより、トポロジー的に分けてネットワーク監視が行え、サーバ装置側での負荷を軽減できる。なお、上記共有リソース障害検出システムに係る本発明は、上述の障害通知手段を備え、障害検出箇所の通知を出力する統合システム管理サーバに係る発明としても成立する。
【0012】
次に上記関係情報保持手段、監視結果収集手段、監視結果集合保持手段及び障害判別手段が、クラスタシステムを構成する複数のコンピュータにまたがって構築されるクラスタマネージャに設けられると共に、上記複数の監視エージェントが、それぞれ同一の共有リソースを監視するように上記複数のコンピュータに分散して設けられる構成とし、更に上記クラスタマネージャが、コンピュータ毎に、上記障害判別手段を利用して、上記関係情報の示す最上位の階層の共有リソースの障害の有無の判別結果を取得し、当該判別結果をもとに当該コンピュータから他のコンピュータへのサービスの引き継ぎまたは当該コンピュータでのサービス提供の停止を実施するか否かを決定する状態決定手段を備えている構成とすることも可能である。
【0013】
このような構成においては、障害が発生したコンピュータから他のコンピュータへのサービスの引き継ぎまたは当該コンピュータでのサービス提供の停止を実施するか否かを決定する状態決定処理が障害判別手段を利用してクラスタマネージャにより行われる。これにより、クラスタシステムの特徴である、当該システム内に或るコンピュータに障害が発生した場合のサービス引き継ぎまたはサービス提供防止が適切に行われ、連続的にサービスが移動する現象(連続フェイルオーバー)を防止できる。
【0014】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
【0015】
[第1の実施形態]
図1は本発明の第1の実施形態に係る共有リソース障害検出システムの構成を示すブロック図である。図1のシステムは、監視サーバ装置11と、複数台の監視エージェント装置、例えば5台の監視エージェント装置12−1乃至12−5とを備えている。
【0016】
監視サーバ装置11は監視エージェント装置12−1乃至12−5を利用して、少なくとも1台の共有装置、例えば2台の共有装置13−1(#1)及び13−2(#2)の障害を検出する。共有装置13−1及び13−2は複数の装置(図示せず)により共用される共有リソースである。共有装置13−1及び13−2には、それぞれ識別番号#1及び#2が割り当てられているものとする。
【0017】
監視エージェント装置12−1乃至12−5は例えばカード上に構築され、1つの筐体に実装されているものとする。勿論、各監視エージェント装置12−1乃至12−5が、それぞれ独立した筐体に実装されるものであっても構わない。監視エージェント装置12−1乃至12−5は少なくとも1台の共有装置を監視する。ここでは、監視エージェント装置12−1及び12−2は共有装置12−1を監視し、監視エージェント装置12−3は共有装置13−1及び13−2を監視し、監視エージェント装置12−4及び12−5は共有装置13−2を監視する。そのため、監視エージェント装置12−1及び12−2と共有装置12−1とは、それぞれ監視用のパス(監視パス)14−1及び14−2により接続され、監視エージェント装置12−3と共有装置13−1及び13−2とは、それぞれ監視用のパス14−3及び14−4により接続され、監視エージェント装置12−4及び12−5と共有装置13−2とは、それぞれ監視用のパス14−5及び14−6により接続される。パス14−1乃至14−6は、例えば通信ケーブルである。
【0018】
監視エージェント装置12−1乃至12−5上では、それぞれ監視エージェント120−1乃至120−5が動作する。監視エージェント120−1乃至120−5は、それぞれ少なくとも1つの監視ジョブを含む。監視ジョブとは、監視エージェントが監視を行う最小単位である。ここでは、各監視ジョブは、パスと当該パスに接続される共有装置を1セットとして監視対象にしている。図1の例では、監視エージェント120−1は、共有装置13−1及びパス14−1の組を監視対象とする監視ジョブ121(#1)を含み、監視エージェント120−2は、共有装置13−1及びパス14−2の組を監視対象とする監視ジョブ122(#2)を含む。監視エージェント120−3は、共有装置13−1及びパス14−3の組を監視対象とする監視ジョブ123−1(#3−1)と、共有装置13−2及びパス14−4の組を監視対象とする監視ジョブ123−2(#3−2)とを含む。監視エージェント120−4は、共有装置13−2及びパス14−5の組を監視対象とする監視ジョブ124を含み、監視エージェント120−5は、共有装置13−2及びパス14−6の組を監視対象とする監視ジョブ125を含む。各監視ジョブは、それぞれ対応する監視対象を定期的に監視し、監視結果を得る。このように、監視結果は、監視ジョブ単位に存在する。この監視ジョブ単位の監視結果は2種ある。1つは、監視対象に問題点が発見できなかった「正常」という状態を示す監視結果である。もう1つは、監視対象に問題点が発見された「異常」という状態を示す監視結果である。監視エージェント120−1乃至120−5は、当該エージェント内の全監視ジョブを定期的に監視して、当該監視ジョブにより得られた監視結果を監視サーバ装置11に送信する。
【0019】
監視サーバ装置11は、監視サーバ111と、記憶装置112と、通信部113と、入力部114とを備えている。監視サーバ111は、監視サーバ装置11上で動作して、共有装置13−1及び13−2の障害を検出する機能を有する。更に具体的に述べるならば、監視サーバ111は、監視エージェント120−1乃至120−5によって取得された監視結果の集合に基づき、共有装置13−1もしくは13−2、またはパス14−1乃至14−6のいずれに異常があるかを判別する機能を有する。
【0020】
監視サーバ111は、監視結果収集部111a、障害判別部111b及び設定部111cを含む。監視結果収集部111aは、監視エージェント120−1乃至120−5から送信される監視結果を通信部113を介して受け取って収集する。障害判別部111bは、監視結果収集部111aにより収集された監視結果の集合に基づいて、共有装置13−1もしくは13−2、またはパス14−1乃至14−6のいずれに異常があるかを判別する。設定部111cは、ユーザ(管理者)の操作による入力部114からの入力に従い、監視対象に含まれる共有装置と当該監視対象を監視する監視ジョブとの対応関係を示す情報(共有装置−監視ジョブ関係情報)を次に述べる共有装置−監視ジョブ関係情報領域112aに設定する。
【0021】
記憶装置112の記憶領域の一部は、共有装置−監視ジョブ関係情報領域112aと監視結果集合記憶領域112bとに用いられる。共有装置−監視ジョブ関係情報領域112aは、監視対象に含まれている共有装置と当該監視対象を監視する監視ジョブとの対応関係を表す共有装置−監視ジョブ関係情報を格納するのに用いられる。図2は共有装置−監視ジョブ関係情報領域112aに格納される共有装置−監視ジョブ関係情報のデータ構造例を示す。ここでは、共有装置13−1(#1)は監視ジョブ121(#1),122(#2)及び123−1(#3−1)によって監視され、共有装置13−2(#2)は監視ジョブ123−2(#3−2),124(#4)及び125(#5)によって監視されることが示されている。監視結果集合記憶領域112bは、監視結果収集部111aにより収集された監視結果の集合を格納するのに用いられる。図3は監視結果集合のデータ構造例を示す。
【0022】
通信部113は外部装置との間でデータを送受信する。この通信部113で受信されるデータに、各監視エージェント120−1乃至120−5から送信される監視結果がある。入力部114はユーザ(管理者)の操作に応じてデータを入力する。
【0023】
次に、図1のシステムにおける動作を、監視サーバ装置11上の監視サーバ111の処理を中心に、図4のフローチャートを参照して説明する。まず、監視エージェント装置12−1乃至12−5上では、それぞれ監視エージェント120−1乃至120−5が動作している。また、監視エージェント120−1及び120−2上では、それぞれ監視ジョブ121(#1)及び122(#2)が動作して、パス14−1及び14−2を介して共有装置13−1(#1)を定期的に監視している。同様に、監視エージェント120−3上では、2つの監視ジョブ123−1(#3−1)及び123−2(#3−2)が並行して動作して、それぞれパス14−3及び14−4を介して共有装置13−1(#1)及び13−2(#2)を定期的に監視している。また、監視エージェント120−4及び120−5上では、それぞれ監視ジョブ124(#4)及び125(#5)が動作して、パス14−5及び14−6を介して共有装置13−2(#2)を定期的に監視している。但し、各監視ジョブは共有装置自体の障害は検出できず、当該共有装置を接続するパスと当該共有装置との組(監視対象)全体の障害として検出する。つまり各監視ジョブは、自身に固有の監視対象を定期的に監視し、その監視結果(監視対象の正常または異常)を取得する。
【0024】
監視エージェント120−1乃至120−5は、当該エージェント上で動作する監視ジョブ#i(ここでは1つまたは2つの監視ジョブ)を定期的に監視して、当該監視ジョブ#iで得られた監視結果を監視サーバ装置11に送信する。この監視結果は監視サーバ装置11内の通信部113で受信されて監視サーバ111内の監視結果収集部111aに渡される。
【0025】
監視結果収集部111aは、監視ジョブ#iで得られた監視結果を通信部113から受け取ると、記憶装置112の監視結果集合記憶領域112bにアクセスする。次に監視結果収集部111aは、監視結果集合記憶領域112bに格納されている監視結果集合に含まれている、監視ジョブ#iに対応する監視結果を、今回受け取った最新の監視結果に更新する。そして監視結果収集部111aは、監視結果集合記憶領域112bの内容が更新されたことを監視サーバ111内の障害判別部111bに通知する。
【0026】
障害判別部111bは監視結果収集部111aからの更新通知に応じて起動され、まず共有装置を示す識別番号#Nを初期値1に設定する(ステップS1,S2)。そして障害判別部111bは記憶装置112内の共有装置−監視ジョブ関係情報領域112aを参照し、識別番号#Nで指定される共有装置#Nが存在するならば(ステップS3)、当該共有装置#Nを監視している(つまり共有装置#Nを監視対象として含む)全ての監視ジョブ#jを特定する(ステップS4)。N=1の場合、共有装置#1(つまり共有装置13−1)を監視している監視ジョブ#jは、監視ジョブ#1,#2及び#3−1(つまり監視ジョブ121,122及び123−1)の3台である。
【0027】
次に障害判別部111bは記憶装置112内の監視結果集合記憶領域112bを参照し、特定した全ての監視ジョブ#jの監視結果がいずれも「正常」であるか否かを判定する(ステップS5)。もし、1つでも「異常」を表す監視結果が含まれているならば、障害判別部111bは、特定した全ての監視ジョブ#jの監視結果がいずれも「異常」であるかを判定する(ステップS6)。即ち障害判別部111bは、共有装置#Nを監視している全ての監視ジョブ#jの監視結果がいずれも「異常」であるかを判定する。ここでは、共有装置#Nに対するパスが全て障害となることはないものとしている。
【0028】
もし、共有装置#Nを監視している全ての監視ジョブ#jの監視結果がいずれも「異常」であるならば、障害判別部111bは当該共有装置#Nに障害があると判定する。即ち障害判別部111bは、共有装置#Nに障害が発生したことを検出する(ステップS7)。これに対し、共有装置#Nを監視している全ての監視ジョブ#jの監視結果のうちの一部だけが「異常」であるならば、障害判別部111bは共有装置#Nには障害はなく、「異常」を表す監視結果を取得した監視ジョブの監視対象に含まれるパスに障害があると判定する。即ち障害判別部111bは、「異常」を表す監視結果を取得した監視ジョブの監視経路をなすパスに障害が発生したことを検出する(ステップS8)。このように障害判別部111bは、監視ジョブ#jでは区別できない、当該監視ジョブ#jの監視対象に含まれている共有装置とパスの障害を区別して検出することができる。
【0029】
障害判別部111bは、ステップS5で全ての監視ジョブ#jの監視結果がいずれも「正常」であると判定した場合は直ちに、「異常」を表す監視結果が含まれていると判定した場合には、ステップS7またはS8を実行した後に、識別番号#Nを1インクリメントする(ステップS9)。そして、このインクリメント後の識別番号#Nで指定される共有装置#Nが存在するならば(ステップS3)、障害判別部111bは当該共有装置#Nの障害を検出(判定)するために、ステップS4以降の処理を再度実行する。これに対し、インクリメント後の識別番号#Nで指定される共有装置#Nが存在しないならば、障害判別部111bは、監視結果集合の更新に伴う全ての共有装置の障害検出処理を終了したものと判断し、監視結果集合が再び更新されるのを待つ(ステップS1)。
【0030】
[第2の実施形態]
次に、本発明の共有リソース障害検出システムを統合管理システムに適用した第2の実施形態について図面を参照して説明する。図5は本発明の第2の実施形態に係る統合管理システムの構成を示すブロック図である。図5のシステムは、統合システム管理サーバ装置21と、複数台のコンピュータ、例えば7台のコンピュータ22−0乃至22−6と、監視対象となる共有リソースと接続されたコンピュータ(以下、対象コンピュータと称する)23とを備えている。対象コンピュータ23は、TCP(Transmission Control Protocol)/IP(Internet Protocol)ネットワークにおけるping(packet internet groper)コマンドに対する応答を返す機能を有する。pingは、TCP/IPネットワークにおいてネットワークの接続状態を検査するのに用いられるコマンドである。即ちpingは、IPパケットが送信先のノードまで到達しているかを調べるために利用されるコマンドであり、ICMP(Internet Control Message Protocol)のエコー要求を使って実行される。
【0031】
統合システム管理サーバ装置21は、システム全体の管理の効率化、信頼性の向上化をさせるために置かれる中央集中型の管理装置である。統合システム管理サーバ装置21はコンピュータ22−0を含む複数のコンピュータを管理する。統合システム管理サーバ装置21は、コンピュータ22−1乃至22−6を利用して、コンピュータ22−0を含む複数のコンピュータ(端末)によって使用される少なくとも1台の共有リソース、例えば4台のハブ24−1(#1)乃至24−4(#4)により実現されるネットワークを監視するネットワーク監視システム(共有リソース障害検出システム)を構成する。統合システム管理サーバ装置21によって検出された障害などの情報(例えば障害検出箇所の情報)は、当該サーバ装置21のユーザ(例えば管理者)、当該サーバ装置21によって管理されるコンピュータ、例えばコンピュータ22−0、更にはそれ以外のコンピュータに提供される。このコンピュータ22−0上では、通信アプリケーション(通信APL)220が、統合システム管理サーバ装置21上の監視サーバ211及びコンピュータ22−1乃至22−6上の監視エージェント220−1乃至200−6とは独立して動作し、ネットワーク監視システムにより監視されるネットワークを用いて他の装置と通信を行っている。コンピュータ22−0は、統合システム管理サーバ装置21内の障害通知部215から通信部213(図6参照)を介して通知される障害情報をもとに、可能な限り正常に通信が行えるよう経路情報を絶えず変更する。
【0032】
ハブ24−1乃至24−4は、コンピュータ22−0を含む複数の端末を相互に接続する集線装置である。ハブ24−1乃至24−4は、コンピュータ22−0を含む複数の端末が接続されるネットワーク(ネットワーク環境)を構成する。ここでは、コンピュータ22−0は、パス25−1を介してハブ24−1と接続され、当該ハブ24−1からパス25−2を介してハブ24−4と接続されている。コンピュータ22−0はまた、パス25−3を介してハブ24−2と接続され、当該ハブ24−2からパス25−4を介してハブ24−3と接続されている。ハブ24−3はパス25−5を介してハブ24−4と接続されている。このハブ24−4には、パス25−6を介して対象コンピュータ23も接続されている。ハブ24−1乃至24−4には、それぞれ識別番号#1乃至#4が割り当てられているものとする。パス25−1乃至25−5は、例えば通信ケーブルである。
【0033】
コンピュータ22−1乃至22−6上では、図1中の監視エージェント(120−1乃至120−4)に相当する監視エージェント220−1乃至220−6が動作する。監視エージェント220−1乃至220−6は、少なくとも1台の、共有リソースとしてのハブを監視する。ここでは、監視エージェント220−1及び220−2は、それぞれ監視ジョブ221−1及び221−2を有しており、当該監視ジョブ221−1及び221−2により、いずれもハブ24−1(#1)及びハブ24−4(#4)を介して対象コンピュータ23に至る経路を監視する。監視エージェント220−3及び220−4は、それぞれ監視ジョブ221−3及び221−4を有しており、当該監視ジョブ221−3及び221−4により、いずれも、ハブ24−2(#2)、ハブ24−3(#3)及びハブ24−4(#4)を介して対象コンピュータ23に至る経路を監視する。監視エージェント220−5は監視ジョブ221−5を有しており、当該監視ジョブ221−5により、ハブ24−3(#3)及びハブ24−4(#4)を介して対象コンピュータ23に至る経路を監視する。監視エージェント220−6は監視ジョブ221−6を有しており、当該監視ジョブ221−6により、ハブ24−4(#4)を介して対象コンピュータ23に至る経路を監視する。監視ジョブ221−1(#1)乃至221−6(#6)は、図1中の監視ジョブと同様に、監視エージェントが監視を行う最小単位であり、パスと当該パスに接続される共有リソース(ハブ)を1セットとして監視対象とする。
【0034】
上記監視のため、監視エージェント220−1及び220−2が動作するコンピュータ22−1及び22−2とハブ24−1とは、それぞれ監視用のパス(監視パス)26−1及び26−2により接続される。また、監視エージェント220−3及び220−4が動作するコンピュータ22−3及び22−4とハブ24−2とは、それぞれ監視用のパス26−3及び26−4により接続される。また、監視エージェント220−5が動作するコンピュータ22−5とハブ24−3とは監視用のパス26−5により接続され、監視エージェント220−6が動作するコンピュータ22−6とハブ24−4とは監視用のパス26−6により接続される。パス26−1乃至26−6は、パス25−1乃至25−5と同様に通信ケーブルである。
【0035】
図6は図5中の統合システム管理サーバ装置21のブロック構成を示す。統合システム管理サーバ装置21は、監視サーバ211と、記憶装置212と、通信部213と、入力部214と、障害通知部215とを備えている。監視サーバ211、記憶装置212、通信部213及び入力部214は、図1中の監視サーバ装置11が有する監視サーバ111、記憶装置112、通信部113及び入力部114に相当する。障害通知部215は、次に述べる監視サーバ211内の障害判別部211bによる障害判別結果を示す障害情報(例えば障害検出箇所の情報)を、統合システム管理サーバ装置21により管理されているコンピュータ、例えばコンピュータ22−0に通信部213を介して通知すると共に、統合システム管理サーバ装置21のユーザ(管理者)に表示画面等のユーザインタフェースを介して通知(提供)する。
【0036】
監視サーバ211は、監視結果収集部211a、障害判別部211b及び設定部211cを含む。監視結果収集部211aは、監視エージェント220−1乃至220−6から送信される監視結果を通信部213を介して受け取って収集する。障害判別部211bは、監視結果収集部211aにより収集された監視結果の集合に基づいて、ハブ24−1,24−2,24−3もしくは24−4、またはハブ以外の経路(NIC、パスもしくはハブポート)のいずれに異常があるかを判別する。設定部211cは、ユーザ(管理者)の操作による入力部214からの入力に従い、監視対象に含まれるハブと当該監視対象を監視する監視ジョブとの対応関係を示す情報を、トポロジー(ネットワーク接続形態)を含めてツリー構造で次に述べるハブ−監視ジョブ関係情報領域212aに設定する。
【0037】
記憶装置212の記憶領域の一部は、ハブ−監視ジョブ関係情報領域212aと監視結果集合記憶領域212bとに用いられる。ハブ−監視ジョブ関係情報領域212aは、監視対象に含まれているハブと当該監視対象を監視する監視ジョブとの対応関係をトポロジーを含めてツリー構造で表すハブ−監視ジョブ関係情報を格納するのに用いられる。監視結果集合記憶領域212bは、監視結果収集部211aにより収集された監視結果の集合を格納するのに用いられる。この監視結果集合のデータ構造は、監視ジョブの数を除き、図3と同様である。
【0038】
図7はハブ−監視ジョブ関係情報領域212aに格納されるハブ−監視ジョブ関係情報のデータ構造例を示す。図7の例では、ハブ24−1(#1)は、監視ジョブ221−1(#1)及び221−2(#2)によって監視され、ハブ24−2(#2)は、監視ジョブ221−3(#3)及び221−4(#4)によって監視されることが示されている。また、ハブ24−3(#3)はハブ24−2(#2)の上位階層に位置し、監視ジョブ221−3(#3)及び221−4(#4)、並びに監視ジョブ221−5(#5)によって監視されることが示されている。また、ハブ24−4(#4)はハブ24−1(#1)及び24−3(#3)の上位階層に位置し、監視ジョブ221−1(#1)及び221−2(#2)、並びに監視ジョブ221−3(#3)及び221−4(#4)、並びに監視ジョブ221−5(#5)、並びに監視ジョブ221−6(#6)によって監視されることが示されている。
【0039】
図8は、コンピュータとハブとがパス(通信ケーブル)により接続される接続形態の詳細を、コンピュータがコンピュータ22−6で、ハブがハブ24−6で、パスがパス26−1である場合を例に示す。同図に示すように、コンピュータ22−6はネットワークインタフェースカードNIC(図1中の監視サーバ装置11の通信部113に相当)を有している。このネットワークインタフェースカードNICは、ハブ24−6が有する複数のハブポートPの1つとパス26−6により接続されている。この接続形態は、他のコンピュータとハブとの間でも同様である。
【0040】
次に、図のシステムにおける動作を、統合システム管理サーバ装置21上の監視サーバ211の処理を中心に、図9のフローチャートを参照して説明する。まず、コンピュータ22−1乃至22−6上では、それぞれ監視エージェント220−1乃至220−6が動作している。また、監視エージェント220−1乃至220−6上では、それぞれ監視ジョブ221−1乃至221−6が定期的に動作して、それぞれパス26−1乃至26−6を介して、対象コンピュータ23向けのpingコマンドを実行することにより、対応する監視対象を監視している。ここでは、監視ジョブ221−1乃至221−6の監視結果は2種ある。1つは、監視対象に問題点が発見できなかった「正常」という状態を示す監視結果である。具体的には、pingコマンドの実行により当該監視ジョブ221−1乃至221−6から対象コンピュータ23宛てに送信されたエコー要求のパケットに対する応答が予め定められた制限時間内に返ってきた場合の監視結果である。もう1つは、監視対象に問題点が発見された「異常」という状態を示す監視結果である。具体的には、上記「正常」を示す条件が成立しなかった場合であり、例えば上記エコー要求のパケットに対する応答が上記制限時間内に返ってこなかった場合の監視結果である。
【0041】
監視エージェント220−1乃至220−6は、それぞれ監視ジョブ221−1乃至221−6を定期的に監視して、当該監視ジョブにより得られた監視結果を統合システム管理サーバ装置21に送信する。この監視結果は統合システム管理サーバ装置21内の通信部213で受信されて、監視サーバ211内の監視結果収集部211aに渡される。
【0042】
監視結果収集部211aは、監視ジョブ#iで得られた監視結果を受け取ると、記憶装置212の監視結果集合記憶領域212bに格納されている監視結果集合に含まれている、監視ジョブ#iに対応する監視結果を、今回受け取った最新の監視結果に更新する。
【0043】
監視サーバ211内の障害判別部211bは、監視結果収集部211aにより、監視ジョブ#iに対応する監視結果が更新されると(ステップS11)、ハブ−監視ジョブ関係情報領域212aに格納されているハブ−監視ジョブ関係情報を参照し、ルートに最も近いハブをハブXとして選択する(ステップS12)。ここでは、ハブXとして、ハブ24−4(#4)が選択される。次に障害判別部211bは、ハブ−監視ジョブ関係情報に従い、当該ハブXを監視対象として含む監視ジョブを全て特定する(ステップS13)。ハブXがハブ24−4(#4)の場合、当該ハブXを監視対象として含む監視ジョブは監視ジョブ221−1(#1)乃至221−6(#6)である。
【0044】
次に障害判別部211bは、ハブXを監視対象として含む監視ジョブの監視結果が全て正常かを判定する(ステップS14)。もし、ハブXを監視する監視ジョブの監視結果が全て「正常」である場合、監視サーバ211は、ハブXより下位に位置するハブが存在するならば、当該ハブXは勿論、当該ハブXより下位に位置するハブも全て「正常」であり、処理済みであるとする(ステップS15a)。また監視サーバ211は、後述するステップS15bも実行する。そして監視サーバ211は、上記ハブ−監視ジョブ関係情報を再び参照し、ハブXの次にルートに近い未処理のハブがあるならば、そのハブを新たなハブXとして選択する(ステップS16,S17)。続いて障害判別部211bは、新たなハブXについて上記ステップS13から始まる処理を実行する。
【0045】
一方、ハブXを監視する監視ジョブの監視結果の中に「異常」を表す監視結果が1つでもあるならば(ステップS14)、障害判別部211bは、ハブXを監視する監視ジョブの監視結果が全て「異常」であるかを判定する(ステップS18)。もし、ハブXを監視する監視ジョブの監視結果が全て「異常」であるならば、障害判別部211bは当該ハブXに障害があると判定する。即ち障害判別部211bは、ハブXに障害が発生したことを検出する(ステップS19)。この場合、障害判別部211bは上記ハブ−監視ジョブ関係情報を再び参照し、ハブXの次にルートに近い未処理のハブがあるならば、そのハブを新たなハブXとして選択する(ステップS16,S17)。そして障害判別部211bは、新たなハブXについて上記ステップS13から始まる処理を実行する。
【0046】
一方、ハブXを監視する監視ジョブの監視結果の中に「正常」を表す監視結果が1つでもあるならば(ステップS18)、障害判別部211bは、「異常」を検出した監視ジョブの監視対象に含まれているネットワークインタフェースカードNICまたはパス(通信ケーブル)またはハブポートP(NIC/パス/P)の障害の可能性があると判断する。障害判別部211bは、この障害の可能性のあるNIC/パス/Pを、記憶装置212の所定領域に履歴として格納する(ステップS20)。障害判別部211bは、その後のステップS14で新たなハブXを「正常」と判定した場合には、ステップS15bにより、上記履歴の中から、当該ハブXに至る経路上のNIC/パス/Pを削除する。したがって、最後に上記履歴に残ったNIC/パス/Pが、ハブ以外の検出された障害を示す。
【0047】
障害判別部211bはステップS20を実行すると、ハブXの次にルートに近い未処理のハブがあるならば、そのハブを新たなハブXとして選択して(ステップS16,S17)。上記ステップS13から始まる処理を実行する。
【0048】
以上に述べたように、監視サーバ211内の障害判別部211bは、監視結果集合中の監視結果が更新される毎に、ハブ−監視ジョブ関係情報に従って、未処理のハブが存在しなくなるまで上述の処理を繰り返す。
【0049】
このように本実施形態においては、監視サーバ211と監視エージェント220−1乃至220−6のプロセスを分離することにより、トポロジー的に分けてネットワーク監視を行うことができ、監視サーバ211の負荷を軽減することができる。
【0050】
また、本実施形態においては、ネットワークインタフェイスカードNIC・パス(通信ケーブル)・ハブポートP(NIC/パス/P)の障害とハブ自体の障害とを区別して検出することができる。これにより、障害復旧時の調査範囲を絞ることができる。また本実施形態においては、監視サーバ211内の障害判別部211bにより検出されて、統合システム管理サーバ装置21内の障害通知部215から通知される障害情報(ハブまたはNIC/パス/Pの障害を表す情報)に従って、他のコンピュータの経路情報を操作することで、ネットワークのパケット到着性を向上させることができる。
【0051】
[第3の実施形態]
次に、本発明の共有リソース障害検出システムをクラスタシステムに適用した第3の実施形態について図面を参照して説明する。図10は本発明の第3の実施形態に係るクラスタシステムの構成を示すブロック図である。図10のシステムは、クラスタシステムの主要素である、複数台、例えば2台のコンピュータ31−1(#1)及び31−2(#2)と、クラスタ管理用の端末(クラスタ端末)32とを備えている。コンピュータ31−1及び31−2上では、クラスタデーモン311−1(#1)及び311−2(#2)が動作している。このクラスタデーモン311−0及び311−1により、クラスタ制御を司る論理的な機構であるクラスタマネージャ312が実現される。つまり、クラスタマネージャ312の物理上のプロセスは、各コンピュータ31−1及び31−2上でそれぞれ動作するクラスタデーモン311−1及び311−2であり、当該デーモン311−1及び311−2が分散的に連携することで、クラスタマネージャ312が実現される。図10では、クラスタマネージャ312の制御により、コンピュータ31−1上でサービス313が実行されていることが示されている。このサービス313は、クラスタマネージャ312によって制御されているアプリケーションプロセスである。サービス313の実行は、クラスタマネージャ312により開始または停止される。またクラスタマネージャ312はクラスタ制御の際の意志決定機能を有しており、例えばコンピュータ31−1でのサービス313の続行に問題がある障害を検出した際に、当該サービス313の実行を他のコンピュータ31−2に切り替える制御、或いは当該サービス313の提供を取り止める制御を行う。
【0052】
コンピュータ31−1及び31−2上では、図5中の監視エージェント220−1及び220−2に相当する監視エージェント314−1及び314−2が動作する。監視エージェント314−1及び314−2は、少なくとも1台の共有リソースを監視する。ここでは、監視エージェント314−1は監視ジョブ315−1(#1)乃至315−4(#4)を有し、監視エージェント314−2は監視ジョブ315−5(#5)乃至315−8(#8)を有している。監視ジョブ315−1(#1)は、パス33−1(#1)−コントローラ34−1(#1)−共有ディスク装置35を監視対象として監視し、監視ジョブ315−2(#2)は、パス33−2(#1)−コントローラ34−2(#1)−共有ディスク装置35を監視対象として監視する。コントローラ34−1及び34−2は、共有ディスク装置35へのアクセスを制御する2重化コントローラである。監視ジョブ315−3(#3)は、パス33−3(#3)−ハブ36−1(#1)−ルータ37を監視対象として監視し、監視ジョブ315−4(#4)は、パス33−4(#4)−ハブ36−2(#2)−ルータ37を監視対象として監視する。同様に、監視ジョブ315−5(#5)は、パス33−5(#5)−コントローラ34−1(#1)−共有ディスク装置35を監視対象として監視し、監視ジョブ315−6(#6)は、パス33−6(#6)−コントローラ34−2(#1)−共有ディスク装置35を監視対象として監視する。監視ジョブ315−7(#7)は、パス33−7(#7)−ハブ36−1(#1)−ルータ37を監視対象として監視し、監視ジョブ315−8(#8)は、パス33−8(#8)−ハブ36−2(#2)−ルータ37を監視対象として監視する。
【0053】
第3の実施形態の特徴は、クラスタマネージャ312が、例えば図6に示した構成を有する監視サーバ211に相当する監視サーバとしての機能も有している点にある。この監視サーバとしての機能の構成については、図10では省略されている。必要があれば、図6を参照されたい。但し、本実施形態において、図6中のハブ−監視ジョブ関係情報領域212aに相当する領域(共有リソース−監視ジョブ関係情報領域)に格納される情報は、上記第2の実施形態と異なる。本実施形態で適用される共有リソース−監視ジョブ関係情報のデータ構造例を図11に示す。同図に示すように、本実施形態で適用される共有リソース−監視ジョブ関係情報は、監視対象に含まれている共有リソース(物理的な共有リソース)と当該監視対象を監視する監視ジョブとの対応関係をトポロジーを含めてツリー構造で表す物理共有リソース−監視ジョブ関係情報41に加えて、サービスの実行に必要な「データ」及び「ネットワーク」と監視ジョブとの対応関係をツリー構造で表す論理共有リソース−監視ジョブ関係情報情報42も含む。「データ」は、コンピュータ31−1及び31−2上のサービスが使用している共有ディスク装置35内のデータであり、「ネットワーク」は、コンピュータ31−1及び31−2上のサービスが使用しているルータ37並びにハブ36−1及び36−2により実現されるネットワークである。「データ」及び「ネットワーク」は、コントローラ34−1及び34−2、共有ディスク装置35、ハブ36−1及び36−2並びにルータ37で代表される物理的な共有リソースに対して、論理的な共有リソースであるといえる。
【0054】
次に、図10のシステムにおける動作を、コンピュータ31−1上でサービス313が実行されている状態で、当該システム内のいずれかの箇所で障害が発生した場合に、この障害が影響しないコンピュータに当該サービス313を移すための状態決定処理を例に、図12のフローチャートを参照して説明する。
【0055】
コンピュータ31−1上の監視エージェント314−1は、監視ジョブ315−1(#1)乃至315−4(#4)を定期的に監視して、当該監視ジョブにより得られた監視結果をクラスタマネージャ312に送信する。同様に、コンピュータ31−2上の監視エージェント314−2は、監視ジョブ315−5(#5)乃至315−8(#8)を定期的に監視して、当該監視ジョブにより得られた監視結果をクラスタマネージャ312に送信する。クラスタマネージャ312(内の監視結果収集部)は、監視ジョブ#iで得られた監視結果を受け取ると、監視結果集合記憶領域に格納されている監視結果集合に含まれている、監視ジョブ#iに対応する監視結果を、今回受け取った最新の監視結果に更新する。
【0056】
クラスタマネージャ312(内の障害判別部)は、監視ジョブ#iに対応する監視結果が更新されると(ステップS21)、クラスタシステムを構成するコンピュータを指定する識別番号#Xを初期値1に設定する(ステップS22)。もしコンピュータ#X(つまりコンピュータ31−X)が存在するならば(ステップS23)、クラスタマネージャ312(内の障害判別部)は、コンピュータ#X上で動作している全ての監視ジョブの監視結果を参照する(ステップS24)。この例のように、識別番号#Xが初期値1であるならば、クラスタマネージャ312は、コンピュータ31−1(#1)上で動作している全ての監視ジョブ315−1(#1)乃至315−4(#4)の監視結果を参照する。
【0057】
次にクラスタマネージャ312は、監視ジョブ315−1(#1)乃至315−4(#4)の監視結果と論理共有リソース−監視ジョブ関係情報情報42とから、コンピュータ31−1(#1)をルートとする論理的な共有リソースの中で、対応する全ての監視結果が「異常」を示している共有リソースが存在するか判定する(ステップS25)。図11の例では、コンピュータ31−1(#1)をルートとする論理的な共有リソースの中で、対応する全ての監視結果が「異常」を示している共有リソースは存在しない。この場合、クラスタマネージャ312は識別番号#Xを1インクリメントし(ステップS26)、しかる後にステップS23に戻る。ここでは、インクリメント後の識別番号#Xは2であり、コンピュータ31−2(#2)を示す。図10のシステムにはコンピュータ31−2(#2)は存在する。そこでクラスタマネージャ312は、コンピュータ31−2(#2)上で動作している全ての監視ジョブ315−5(#5)乃至315−8(#8)の監視結果を参照する(ステップS24)。
【0058】
次にクラスタマネージャ312は、監視ジョブ315−5(#5)乃至315−8(#8)の監視結果と論理共有リソース−監視ジョブ関係情報情報42とから、コンピュータ31−2(#2)をルートとする論理的な共有リソースの中で、対応する全ての監視結果が「異常」を示している共有リソースが存在するか判定する(ステップS25)。図11の例では、コンピュータ31−2(#2)をルートとする論理的な共有リソースのうちのデータ43に関し、対応する監視ジョブ315−5(#5)及び315−6(#6)の監視結果が全て「異常」を示している。この場合、クラスタマネージャ312は、この論理的共有リソースであるデータ43に障害が発生しており、したがってデータ43の最上位層のコンピュータ31−2(#2)、つまりデータ43のルートをなすコンピュータ31−2(#2)に障害が発生していると判断する。
【0059】
次にクラスタマネージャ312は、コンピュータ31−2(#2)で実行されていたサービスの扱いを決定するために、ステップS25で障害が検出されたデータ43を司るルートの物理的な共有リソース、即ち共有ディスク装置35の障害の有無を、前記第2の実施形態と同様の手法で判定する(ステップS27)。図11の例では、共有ディスク装置35に障害は発生していない。この場合、クラスタマネージャ312は、図1のクラスタシステムが、障害時にサービスの引き継ぎを行うフェイルオーバー(Fail over)クラスタシステムであれば、コンピュータ31−2(#2)で実行されていたサービスの、他のコンピュータ、例えばコンピュータ31−1(#1)への引き継ぎを実施する(ステップS28)。また、図1のクラスタシステムが、サービスを複数のコンピュータに振り分ける計算機クラスタシステムであれば、クラスタマネージャ312はコンピュータ31−2(#2)でのサービス提供を停止する。クラスタマネージャ312は、ステップS28を実行すると識別番号#Xを1インクリメントし(ステップS26)、しかる後にステップS23に戻る。
【0060】
一方、ステップS25で障害が検出された論理的な共有リソースに対応するルートの物理的な共有リソースに障害が発生している場合には(ステップS27)、他のコンピュータ、例えばコンピュータ31−1(#1)にサービスを移したとしても、当該コンピュータ31−1(#1)の側で再び障害が検出されてしまう。つまり、連続的にサービスが移動する現象(連続フェイルオーバー)が発生してしまう。そこで、このような不具合(連続フェイルオーバーにより状態制御ができなくなる状態)を防ぐため、クラスタマネージャ312は、障害が検出された論理的な共有リソースに対応するルートの物理的な共有リソースに障害が発生している場合には、サービスを移動せず、そのままステップS26を実行している。なお、論理的な共有リソースの障害として、ネットワークの障害が検出された場合には、当該ネットワークを司るルートの物理的な共有リソースである、ルータ37の障害の有無を判定すればよい。また、図12のフローチャートでは、物理的な共有リソースの障害検出は、物理共有リソース−監視ジョブ関係情報41のルートをなす共有ディスク装置35及びルータ37だけを対象に行っている。しかし、前記第2の実施形態と同様に、パスの障害と共有リソースの障害を判別して障害復旧時の調査範囲を絞ることも可能である。
【0061】
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【0062】
【発明の効果】
以上詳述したように本発明によれば、複数の監視エージェントが共有リソースをそれぞれ固有のパス経由で監視することにより得られる監視結果を収集して監視結果集合保持手段に保持する一方、共有リソースと当該共有リソースとパスを介して接続される複数の監視エージェントとの対応関係を示す関係情報を関係情報手段に予め保持しておき、この関係情報に従って、障害検出の対象となる共有リソースと関係する監視エージェントを全て特定し、この特定した監視エージェントの監視結果に従って、当該共有リソースと当該共有リソースにつながるパスの障害状態を判別する構成としたので、共有リソースの障害とパスの障害とを区別して検出できる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る共有リソース障害検出システムの構成を示すブロック図。
【図2】図1中の共有装置−監視ジョブ関係情報領域112aに格納される共有装置−監視ジョブ関係情報のデータ構造例を示す図。
【図3】図1中の監視結果集合記憶領域112bに格納される監視結果集合のデータ構造例を示す図。
【図4】上記第1の実施形態の動作を説明するためのフローチャート。
【図5】本発明の第2の実施形態に係る統合管理システムの構成を示すブロック図。
【図6】図5中の統合システム管理サーバ装置21のブロック構成を示す図。
【図7】図5中のハブ−監視ジョブ関係情報領域212aに格納されるハブ−監視ジョブ関係情報のデータ構造例を示す図。
【図8】コンピュータとハブとがパスにより接続される接続形態の詳細を示す図。
【図9】上記第2の実施形態の動作を説明するためのフローチャート。
【図10】本発明の第3の実施形態に係るクラスタシステムの構成を示すブロック図。
【図11】上記第3の実施形態で適用される共有リソース−監視ジョブ関係情報のデータ構造例を示す図。
【図12】上記第3の実施形態の動作を説明するためのフローチャート。
【符号の説明】
11…監視サーバ装置、13−1,13−2…共有装置(共有リソース)、14−1〜14−6,25−1〜25−6,26−1〜26−6,33−1〜33−8…パス、21…統合システム管理サーバ装置、24−1〜24−4…ハブ(共有リソース)、22−0〜22−6,31−1,31−2…コンピュータ、35…共有ディスク装置(共有リソース)、37…ルータ(共有リソース)、111,211…監視サーバ、111a,211a…監視結果収集部、111b,211b…障害判別部、111c,211c…設定部、112a…共有装置−監視ジョブ関係情報領域、112b,212b…監視結果集合記憶領域、120−1〜120−5,220−1〜220−6,314−1,314−2…監視エージェント、121〜125,221−1〜221−6,315−1〜315−8…監視ジョブ、212a…ハブ−監視ジョブ関係情報領域、215…障害通知部、312…クラスタマネージャ。

Claims (8)

  1. 複数の装置から共有使用される少なくとも1つの共有リソースの障害を検出するための共有リソース障害検出システムにおいて、
    前記共有リソースをそれぞれ固有のパス経由で監視する複数の監視エージェントと、
    前記共有リソースと当該共有リソースと少なくとも1つのパスを介して接続される前記複数の監視エージェントとの対応関係を示す関係情報を保持する関係情報保持手段と、
    前記複数の監視エージェントの監視結果を収集する監視結果収集手段と、
    前記監視結果収集手段により収集された前記監視結果の集合を保持する監視結果集合保持手段と、
    前記関係情報保持手段に保持されている前記関係情報に従って、障害検出の対象となる共有リソースと関係する監視エージェントを全て特定し、前記監視結果集合保持手段に保持されている前記監視結果集合のうち、特定した全ての監視エージェントの監視結果に従って、当該共有リソースと当該共有リソースにつながるパスの障害状態を判別する障害判別手段と
    を具備することを特徴とする共有リソース障害検出システム。
  2. 前記障害判別手段は、前記特定した全ての監視エージェントの監視結果がいずれも異常を表している場合に対応する共有リソースの障害であると判別し、一部の監視結果のみが異常を表している場合に対応する共有リソースにつながるパスの障害であると判別することを特徴とする請求項1記載の共有リソース障害検出システム。
  3. 前記少なくとも1つの共有リソースを含む複数の共有リソースを用いてネットワークが構成されており、
    前記複数の監視エージェントは、前記ネットワークに接続された所定の装置と通信をすることにより当該所定の装置に至る前記ネットワークの経路上の共有リソース及びパスを含む監視対象を監視する
    ことを特徴とする請求項1記載の共有リソース障害検出システム。
  4. 前記関係情報保持手段に保持される前記関係情報は、前記ネットワークを構成する前記各共有リソースと当該共有リソースを監視対象として含む監視エージェントとの対応関係をトポロジーを含めてツリー構造で示すデータ構造を有しており、
    前記障害判別手段は、前記関係情報保持手段に保持されている前記関係情報に従って、ルートにより近い共有リソースから順に障害検出の対象として選択し、その都度選択した共有リソースと関係する監視エージェントを全て特定することを特徴とする請求項3記載の共有リソース障害検出システム。
  5. 前記関係情報保持手段と、前記監視結果収集手段と、前記監視結果集合保持手段と、前記障害判別手段とが、前記ネットワークを利用する複数のコンピュータを管理する統合システム管理サーバ装置に設けられており、
    前記統合システム管理サーバ装置は更に、前記障害判別手段の障害判別結果を表す障害情報の通知を出力する障害通知手段を備えていることを特徴とする請求項4記載の共有リソース障害検出システム。
  6. 前記関係情報保持手段と、前記監視結果収集手段と、前記監視結果集合保持手段と、前記障害判別手段とが、クラスタシステムを構成する複数のコンピュータにまたがって構築されるクラスタマネージャに設けられ、
    前記複数の監視エージェントが、それぞれ同一の共有リソースを監視するように前記複数のコンピュータに分散して設けられており、
    前記クラスタマネージャは、前記コンピュータ毎に、前記障害判別手段を利用して、前記関係情報保持手段に保持されている前記関係情報の示す最上位の階層の共有リソースの障害の有無の判別結果を取得し、当該判別結果をもとに当該コンピュータから他のコンピュータへのサービスの引き継ぎまたは当該コンピュータでのサービス提供の停止を実施するか否かを決定する状態決定手段を備えていることを特徴とする請求項4記載の共有リソース障害検出システム。
  7. 前記関係情報保持手段に保持される関係情報は、前記共有リソースを物理的共有リソースとして当該物理的共有リソースを監視対象として含む監視エージェントとの対応関係をツリー構造で示す第1の関係情報と、前記物理的共有リソースの利用を当該リソースの種別に応じてデータの利用とネットワークの利用とに分類し、当該データ及びネットワークを論理的共有リソースとして当該論理的共有リソースを監視対象として含む監視エージェントとの対応関係をツリー構造で示す第2の関係情報とから構成され、
    前記障害判別手段は、前記関係情報保持手段に保持されている前記第2の関係情報に従って、前記コンピュータ毎に、対応する全ての前記監視エージェントの監視結果がいずれも異常を表す論理的共有リソースが存在するかを判定し、
    前記状態決定手段は、前記監視結果がいずれも異常を表す論理的共有リソースが存在する場合、当該異常を表す論理的共有リソースに対応する、前記関係情報保持手段に保持されている前記第1の関係情報の示す最上位の階層の物理的共有リソースの障害の有無を、前記障害判別手段を利用して判別し、その判別結果に応じてサービスの引き継ぎまたはサービス停止とするか否かを決定することを特徴とする請求項6記載の共有リソース障害検出システム。
  8. 複数の装置から共有使用される少なくとも1つの共有リソースの障害を検出するための共有リソース障害検出方法において、
    前記共有リソースを、独立に動作する複数の監視エージェントにより、それぞれ固有のパス経由で定期的に監視するステップと、
    前記監視エージェントから当該監視エージェントの監視結果が送信された場合、当該送信された監視結果により、監視結果集合保持手段に保持されている前記複数の監視エージェントの監視結果の集合のうちの対応する監視結果を更新するステップと、
    前記監視結果が更新される都度、関係情報保持手段に保持されている、前記共有リソースと当該共有リソースと少なくとも1つのパスを介して接続される前記複数の監視エージェントとの対応関係を示す関係情報前記関係情報に従って、障害検出の対象となる共有リソースと関係する監視エージェントを全て特定するステップと、
    前記監視結果集合保持手段に保持されている前記監視結果集合のうち、前記特定された全ての監視エージェントの監視結果に従って、当該共有リソースと当該共有リソースにつながるパスの障害状態を判別するステップと
    を具備することを特徴とする共有リソース障害検出方法。
JP2003080751A 2003-03-24 2003-03-24 共有リソース障害検出システム及び方法 Pending JP2004287980A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003080751A JP2004287980A (ja) 2003-03-24 2003-03-24 共有リソース障害検出システム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003080751A JP2004287980A (ja) 2003-03-24 2003-03-24 共有リソース障害検出システム及び方法

Publications (1)

Publication Number Publication Date
JP2004287980A true JP2004287980A (ja) 2004-10-14

Family

ID=33294522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003080751A Pending JP2004287980A (ja) 2003-03-24 2003-03-24 共有リソース障害検出システム及び方法

Country Status (1)

Country Link
JP (1) JP2004287980A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007265243A (ja) * 2006-03-29 2007-10-11 Hitachi Ltd 計算機システム及び論理パス切替方法
JP2008158666A (ja) * 2006-12-21 2008-07-10 Nec Corp ストレージデバイスのマルチパスシステム、その障害箇所特定方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007265243A (ja) * 2006-03-29 2007-10-11 Hitachi Ltd 計算機システム及び論理パス切替方法
US7992048B2 (en) 2006-03-29 2011-08-02 Hitachi, Ltd. Computer system and method for performing failure detecting processing for a logical path
JP2008158666A (ja) * 2006-12-21 2008-07-10 Nec Corp ストレージデバイスのマルチパスシステム、その障害箇所特定方法及びプログラム

Similar Documents

Publication Publication Date Title
US7225356B2 (en) System for managing operational failure occurrences in processing devices
US7234073B1 (en) System and methods for failover management of manageable entity agents
US7370223B2 (en) System and method for managing clusters containing multiple nodes
RU2375746C2 (ru) Способ и устройство для обнаружения сетевых устройств
EP1820291B1 (en) A method, system and computer program product for coordinated monitoring and failure detection
JP5033856B2 (ja) ネットワーク構成の想定のための装置、システム
JP3813776B2 (ja) ネットワーク分散管理システム
US10956832B2 (en) Training a data center hardware instance network
US7774642B1 (en) Fault zones for interconnect fabrics
JP2005512190A (ja) ネットワーク化システムにおけるリソースの高可用性をもたらす実複合オブジェクト
JP5577953B2 (ja) 判定プログラム、検証装置及び検証方法
US9231779B2 (en) Redundant automation system
WO2006035040A1 (en) Method and apparatus for determining impact of faults on network service
JP6549959B2 (ja) 障害切り分け方法および障害切り分けを行う管理サーバ
JP2012085339A (ja) 通信システム
US8213439B2 (en) Method and system for managing a network having an HSRP group
JPH0314161A (ja) プロセッサ監視処理方式
WO2019019915A1 (zh) 一种调度方案配置方法和装置及其计算机可读存储介质和计算机设备
JP4344333B2 (ja) パケット転送装置、パケット転送ネットワークシステムおよびパケット転送方法
JP2004287980A (ja) 共有リソース障害検出システム及び方法
CN114124803B (zh) 设备管理方法、装置、电子设备及存储介质
JP4238834B2 (ja) ネットワーク管理システムおよびネットワーク管理プログラム
CN109104333A (zh) 基于git的分布式集群的同步方法和装置
US20230224243A1 (en) Highly-Available Cluster Leader Election in a Distributed Routing System
US11374849B1 (en) High availability router switchover decision using monitoring and policies

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060417

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061107