JP4968568B2 - 障害監視方法、障害監視システムおよびプログラム - Google Patents

障害監視方法、障害監視システムおよびプログラム Download PDF

Info

Publication number
JP4968568B2
JP4968568B2 JP2004373293A JP2004373293A JP4968568B2 JP 4968568 B2 JP4968568 B2 JP 4968568B2 JP 2004373293 A JP2004373293 A JP 2004373293A JP 2004373293 A JP2004373293 A JP 2004373293A JP 4968568 B2 JP4968568 B2 JP 4968568B2
Authority
JP
Japan
Prior art keywords
information processing
information
failure
periodic signal
detailed information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004373293A
Other languages
English (en)
Other versions
JP2006178851A (ja
Inventor
亮仁 小比賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004373293A priority Critical patent/JP4968568B2/ja
Publication of JP2006178851A publication Critical patent/JP2006178851A/ja
Application granted granted Critical
Publication of JP4968568B2 publication Critical patent/JP4968568B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、ネットワークに接続された複数の情報処理装置により分散処理を実行する大規模クラスタにおける障害監視システム、障害監視方法および障害監視用プログラムに関する。
従来、複数のパーソナルコンピュータやワークステーションなどをノードとしてネットワーク接続したクラスタと呼ばれるシステムがある。クラスタは、外部装置からのユーザリクエスト(例えばWebページの要求など)を複数のノードで分散して処理する。クラスタは、ノードを追加することによって処理性能を高めることができ、また、一つのノードに障害が発生したとしても、他のノードで代替処理をさせることができる。よって、クラスタ全体を一つのサービスを実行するマシンと考えると、単体のマシンに比べ高い信頼性を提供することができる。このようなクラスタにおける障害処理とは、ノードの障害を発見して、代替ノードで置き替えることを指す。
クラスタ形式を適用した従来の障害監視システムの概要を図15を用いて説明する。従来の障害監視システムは、ネットワーク40で繋がれた障害監視ノード10および複数の被障害監視ノード20−1〜20−Nから構成される。障害監視ノード10は、定期信号受信手段1、定期信号判定手段2及びグループ管理手段3を有し、被障害監視ノード(20)は、定期信号送信手段21及び業務アプリケーション22を有する。
負荷分散装置30は、ウェブページの配信など、ユーザーからの要求を、障害監視ノード10のグループ管理手段3に設定されているグループ情報に基づいて、同一の業務を取り扱う複数の業務アプリケーション22に分散して割り当てる。
被障害監視ノード(20)は、定期信号送信手段21により、障害監視ノード10の定期信号受信手段1に向けて定期的に信号を送信する。この定期信号は、あらかじめ決められた時間間隔で障害監視ノード10に向かって送信される信号のことであり、信号の例としては、TCP/IPに規定されている空パケットなどがある。障害監視ノード10の定期信号障害判定手段2は、この定期信号を受け取っている間は、当該被障害監視ノード(20)は正常に稼動していると認識し、予め設定されたタイムアウト時間内に届かない信号、もしくは消失により届かない信号があった場合、当該被障害監視ノード(20)に障害が発生したとみなす。
上記判定を行う定期信号障害判定手段2は、図15に示すように、被障害監視ノード名とタイムアウト時間とを関連付けた表11を保持しており、この表11を基に個々のノードに対する障害の有無を判断する。障害が発生すると、定期信号障害判定手段2は、グループ管理手段3に当該被障害監視ノード(20)をグループから削除するように要求する。要求を受けたグループ管理手段3は、障害が発生した被障害監視ノード(20)をグループ情報から削除する。負荷分散装置30は、グループ情報から削除された被障害監視ノード(20)に対し、ユーザーリクエストの入力を停止する。この状態が、すなわち被障害監視ノード(20)をグループから切り離した状態である。
ところで、被障害監視ノードからの定期信号が途絶える要因の一つとして、マシンに過負荷が発生したことが考えられるが、図15に示したような監視システムでは、過負荷に陥ったノードはすべて切り離される。しかし、過負荷が一時的なものである場合、それは時間の経過により解消し得ることから、障害とみなして切り離すのはシステムにとって有益なことではない。このような不都合を解決するための手法が、例えば、後述の特許文献1に開示されている。
特許文献1に記載のシステムは、ネットワークに接続されたマシン1〜Nから構成され、マシン1は、コンピュータシステムの各マシンの負荷値を含む負荷情報を負荷情報受け渡し手段103を介して取得し記憶する負荷情報記憶手段102と、担当先のマシンに障害が発生したことを監視およびシステム切り替え手段104で検知したとき蓄積している担当先のマシンの負荷情報に基づき一時的な高負荷状態を予測する一時的高負荷予測手段101とを有し、一時的な高負荷と予測した場合には、前記監視およびシステム切り替え手段104がシステム切り替えの実施を一定時間延期するというものである。
特開2001−092800号公報
しかしながら、上述の特許文献1の手法にあっては、過負荷との予測によりシステムの切り替えが延期されても、当該マシンに対する処理分散は継続することからマシンの負荷が軽減され難い。そのため、マシンの過負荷状態が長引くことにより切り離しが実施されるおそれがあり、結果、一時的な過負荷状態であったノードが障害ノードとして処理されるという事態が生じる。このようなケースが多く発生すると、分散処理を担うノード数が減少することから、クラスタの性能が著しく損なわれる。
本発明の目的は、システムにて分散処理を実施する各ノードの状態を適切に判定することにより、システムの性能低下を防止する手法を提供することにある。
本発明に係る障害監視方法は、外部装置からの要求が分散して入力される複数の情報処理装置と、該各情報処理装置と通信可能に接続された障害監視装置とを備えるシステムにおける障害監視方法であって、前記各情報処理装置が、前記障害監視装置に対し所定の時間間隔にて定期信号を送信する処理を実行し、前記障害監視装置が、前記各情報処理装置から定期信号を受信したか否かを判定し、否のとき、当該情報処理装置に対する外部装置からの要求の入力を停止させ、該停止後、前記情報処理装置から該装置の動作状況を示す詳細情報を取得し該詳細情報に基づき前記情報処理装置の過負荷発生または障害発生のいずれかを判定し、過負荷発生と判定したとき、前記情報処理装置に対する前記入力停止を解除する。
本発明に係る障害監視システムは、外部装置からの要求が分散して入力される複数の情報処理装置と、該各情報処理装置と通信可能に接続された障害監視装置とを備え、前記各情報処理装置は、前記障害監視装置に対し所定の時間間隔にて定期信号を送信する処理を実行する定期信号送信手段と、定期信号の送信後、前記障害監視装置に対し自装置の動作状況を示す詳細情報を送信する詳細情報送信手段とを有し、前記障害監視装置は、前記各情報処理装置から定期信号を受信したか否かを判定する定期信号判定手段と、前記各情報処理装置に対する外部装置からの入力可否の切り替えを行うグループ管理手段と、前記定期信号判定手段による判定が否のとき、当該情報処理装置に対する外部装置からの要求の入力を停止させ、該停止後、前記情報処理装置から詳細情報を取得し該詳細情報に基づき前記情報処理装置の過負荷発生または障害発生のいずれかを判定し、過負荷発生と判定したとき、前記情報処理装置に対する前記入力停止を解除する監視制御手段とを有する。
本発明によれば、障害監視装置により定期信号を受信できないとき、当該情報処理装置へのリクエストを一旦停止させ、装置の負荷を軽減したうえで原因を判定することから、原因が過負荷発生であるのか、あるいは障害発生であるのかを適切に判定することができる。また、過負荷状態であった場合は、リクエストの入力を再開させることから、単なる過負荷状態のノードを障害とみなして完全に切り離してしまうことを回避でき、これにより、クラスタの性能低下を防止することができる。
[第1の実施形態]
図1は、本発明の第1の実施形態の構成を示すブロック図である。本実施形態のシステムは、図1に示すように、クラスタにおける個々のノードの障害を監視する障害監視ノード100と、この障害監視ノード100の監視対象であり且つ負荷分散装置(図示略)からユーザリクエストを分散して入力される被障害監視ノード200とから構成される。
障害監視ノード100及び被障害監視ノード200は、本発明に係る障害監視装置及び情報処理装置に対応し、それぞれ以下の構成要素に対応するプログラムに従い動作するコンピュータ装置である。なお、本実施形態のシステムには、従来のシステムと同様に、1つのグループを形成する複数の被障害監視ノード200が設けられているが、図面の簡素化のため、図1では、そのうちの1台の被障害監視ノード200が記載されている。
障害監視ノード100 は、図1に示すように、従来の障害監視ノードが有する手段と同様な定期信号受信手段101、定期信号障害判定手段102及びグループ管理手段103に加え、情報量切り替え命令送信手段104、詳細情報受信手段105及び過負荷状態判定手段107を有する。また、表示機能を果たすディスプレイ装置としての詳細情報表示部106を有する。被障害監視ノード200は、従来のノードが有する手段と同様な定期信号送信手段201に加え、情報量切り替え手段202及び詳細情報送信手段203を持つ。
情報量切り替え命令送信手段104は、本発明に係る障害監視装置が有する監視制御手段に対応し、定期信号障害判定手段102より、定期信号の受信障害についての通知を受け取る。ここで、受信障害とは、定期信号の到着遅れ、もしくは定期信号の消失の二種類である。
情報量切り替え命令送信手段104は、定期信号の障害が到着時間の遅れならば、被障害監視ノード200の情報量切り替え命令受信手段202に対し後述の詳細情報を送るよう命令し、自装置の過負荷状態判定手段107に対し、詳細情報に基づき過負荷状態の判定を開始するよう通知する。また、受信障害が定期信号の消失である場合、それは明らかな障害であると認識し、被障害監視ノード200に対し詳細情報を送るように命令するが、過負荷状態の判定は開始しない。取得した詳細情報は、後に障害箇所の特定に利用される。
情報量切り替え命令送信手段104から被障害監視ノード200の情報量切り替え手段202への命令の送信とは、定期信号から詳細情報への切り替え命令、又は、詳細情報から定期信号への切り替え命令を含むメッセージをネットワークを介して被障害監視ノード200へ送信することを指す。
詳細情報受信手段105は、詳細情報送信手段203から取得した詳細情報を、詳細情報表示部106により表示させると共に、過負荷状態判定手段107に渡す。過負荷状態判定手段107は、受け取った詳細情報を基に被障害監視ノード200の過負荷状態が一時的なものか否かを判定する。過負荷状態の判定が開始される時点で、被障害監視ノード200は、グループ管理手段103によりグループから切り離され、これにより、新たなサービス要求の入力が停止された状態となる。
過負荷状態判定手段107による過負荷状態の判定方法はいくつか考えられるが、もっとも単純な判断方法としては、例えば、過去のいくつかのCPU使用率と現在のCPU使用率とを比較し、その差分が単調減少しているならば過負荷状態は解消傾向にあり、定期信号の到着遅れは一時的な過負荷状態によるものであったと判断する方法がある。この場合、詳細情報として、被障害監視ノード200のCPU使用率を順次取得することとなるが、過負荷状態が解消傾向にあるか否かを確認できるのであれば、CPU使用率に限らず、他の情報を利用しても良い。
被障害監視ノード200の過負荷状態が解消されつつあると判断した場合、過負荷状態判定手段107は、グループ管理手段103に対して被障害監視ノード200をグループへ復帰させるよう要求し、また、情報量切り替え命令送信手段104に対し、被障害監視ノード200から詳細情報に代えて定期信号を取得するよう切り替え要求を行う。
詳細情報表示部106は、詳細情報受信手段105から送られてきた詳細情報を表示する。また、過負荷状態判定手段107により、被障害監視ノード200が過負荷状態ではなく何らかの障害であると判定されたときには、その判定内容を示すメッセージを表示する。この詳細情報表示部106を設けたことにより、管理者等に対し、障害発生の原因を特定するための十分な情報を提供することができる。
被障害監視ノード200の詳細情報送信手段203は、詳細情報としての、CPU使用率、メモリ使用量、I/O転送量など、被監視ノード200の内部状態を示す情報を障害監視ノード100の詳細情報受信手段105に送信する。情報量切り替え手段202は、障害監視ノード100の情報量切り替え命令送信手段104から送られてきた命令により次の2つの動作を行う。1つは、詳細情報を送信するように命令された場合に、定期信号送信手段201に定期信号の送信を中断させると共に、詳細情報送信手段203に対し内部状態の取得命令及び障害監視ノード100への詳細情報の送信命令を行う。また、詳細情報の送信中止を命令された場合には、詳細情報送信手段203に詳細情報の送信を中止させ、定期信号送信手段201に定期信号の送信を再開させる。
図2、図3及び図4のフローチャートを参照して本実施形態の全体の動作について詳細に説明する。まず、図2にて、定期信号障害の検出から被障害監視ノード200の一時切り離しについて説明する。
障害監視ノード100は、被障害監視ノード200から送信される定期信号の受信状況を監視し(S101)、定期信号の到着遅れ又は消失をチェックする(S102)。定期信号の到着が遅れているかどうかは、従来と同様に、定期信号障害判定手段102に設定されているタイムアウト時間に基づき判定する。すなわち、定期信号が到着したが、前回の受信時からの時間間隔がタイムアウト時間より長い場合、定期信号の到着遅れが発生していると判定する。
また、定期信号を消失しているかどうかは、例えば、被障害監視ノード200から定期信号を送信する際に、送信番号としての連番を付加することにより、消失した定期信号の有無を判定することができる。具体的には、例えば、正の整数を送信番号とし、届いた信号の送信番号が「4」及び「6」であった場合、送信番号「5」の信号を消失したと判定する。
定期信号の受信障害である到着遅れ又は信号消失が発生したと認められたとき(S103:Yes)、定期信号障害判定手段102は、グループ管理手段103に被障害監視ノード200の切り離しを命令し(S104)、また、情報量切り替え命令送信手段104に障害の発生状況を伝える(S105)。これにより、被障害監視ノード200に対するユーザリクエストの入力が一旦停止される。
次に、図3のフローチャートに沿って、上記説明したステップS105以降の手順について説明する。障害監視ノード100の情報量切り替え命令送信手段106は、定期信号の受信障害が発生したとの通知を受けると、被障害監視ノード200の情報量切替手段202に対して、定期信号の送信から詳細情報の送信に切り替える命令を送信する(S201)。
上記命令により被障害監視ノード200から詳細情報が送信されると、これを障害監視ノード100の詳細情報受信手段105が受け取る(S202)。詳細情報とは、上述したように、被障害監視ノード200におけるCPU使用率、メモリ使用率、I/O転送量など、被障害監視ノード200の内部状態を示す情報である。
情報量切り替え命令送信手段104は、定期信号障害判定手段102にて判定された(図5:S103)受信障害の内容を判別し (S203)、障害が定期信号の消失ならば、被障害監視ノード200に障害が発生し、正常に稼動できないと判断する。そして、詳細情報表示部106により、詳細情報と共に被障害監視ノード200の障害発生を通知して終了する(S204)。
一方、障害が到着遅延である場合、情報量切り替え命令送信手段104は、過負荷状態判定手段107に対し、被障害監視ノード200の過負荷状態の判定を開始するよう通知する(S205)。通知を受け取った過負荷状態判定手段107は、詳細情報受信手段105が受け取った詳細情報に基づき、過負荷状態の傾向を判定する(S206)。
ここで、被障害監視ノード200は、既にグループから切り離されているため(図5:S104)、新たなサービス要求を受けることはない。よって、一時的な過負荷状態に陥っていたのであれば、その時点までに蓄積したサービス要求が処理されるにつれて、過負荷状態が解消されると考えられる。このような過負荷状態の傾向を判定するための方法としては、次の方法がある。
1つは、詳細情報としてCPU使用率を取得し、順次取得した複数の時点のCPU使用率の移動平均を取り、その結果、CPU使用率が減少傾向にあれば、過負荷状態が解消する見込みがある、あるいは解消したと判断する。また、他の方法としては、例えば、詳細情報として、アプリケーションプログラムが実施するリクエストキューを採用し、最新のリクエストキューと過去に送られてきたリクエストキューとを比較した結果、リクエストキューに蓄積しているユーザ要求が減少傾向にあれば、過負荷状態が解消する傾向にある、あるいは解消されたと判断する。
情報量切り替え命令送信手段104は、過負荷状態判定手段107による判定の結果、過負荷状態が解消の傾向にある場合(S207:Yes)、被障害監視ノード200における一時的な過負荷状態により定期信号の到着遅れが生じたと判断する。そして、被障害監視ノード200に対し、詳細情報の送信を停止して定期信号の送信を再開するように命令し(S208)、グループ管理手段103に被障害監視ノード200のグループへの復帰を命令する(S209)。なお、過負荷状態が解消される見込みがない場合は(S207:No)、詳細情報と共にユーザに障害発生を通知する(S204)。
次に、図4のフローチャートを用いて、被障害監視ノード200の動作を説明する。図示のフローチャートは、被障害監視ノード200が障害監視ノード100により、定期信号及び詳細情報間の切り替えを命令された時点からの手順である。被障害監視ノード200は、上述した定期信号の受信障害に伴い、障害監視ノード100の情報量切り替え命令送信手段104により定期信号から詳細情報への切り替えを命令されると(S301:定期→詳細)、情報量切り替え手段202が、定期信号送信手段201による定期信号の送信を停止させ(S302)、詳細情報送信手段203に詳細情報を作成して送るよう命令する(S303)。また、グループへの復帰に伴い詳細情報から定期信号への切り替え命令があった場合(S301:詳細→定期)、情報量切り替え手段202は、詳細情報送信手段203による詳細情報の送信を停止させ(S304)、定期信号送信手段201による定期信号の送信を再開させる(S305)。
上記説明した第1の実施形態によれば、障害監視ノード100が、被障害監視ノード200からの定期信号の受信障害を検知したとき、一旦グループから切り離して被障害監視ノード200の負荷を軽減したうえで、受信障害の原因を判定することから、原因が過負荷発生であるのか、あるいは障害発生であるのかを適切に判定することができる。また、一時的な過負荷状態であれば、自動的にグループへ復帰させることから、単なる過負荷状態のノードを障害とみなして完全に切り離してしまうことを回避でき、これにより、クラスタの性能低下を防止することができる。
[第1の実施形態の変形]
上記説明した手順は、定期信号の受信障害を到着遅延と判定したとき、障害監視ノード200の過負荷状態が解消傾向にあるか否かを判定し(図3:S207)、解消傾向にあればグループへの復帰を行うものであったが、これに代えて、定期信号の到着遅延が信号消失のような明らかな障害ではないとの判断のもとに、到着遅延を一時的な過負荷状態であると一意に判定し、この判定を行ったとき、グループへ復帰させるようにしてもよい。すなわち、図1の過負荷状態判定手段107を不要とし、また、図3のフローチャートにおいて到着遅延と判定したとき(S203:到着遅延)、直ちに詳細情報から定期信号への切り換え命令(S208)及びグループへの復帰(S209)を行うものである。この手順によれば、グループへの復帰までの手順を簡素化することができる。
図1に示すシステムは、障害監視ノード100が詳細情報表示部106により詳細情報を表示する構成であったが、この表示は必須ではない。詳細情報の表示は、上述したように、信号消失が発生した場合あるいは過負荷状態の解消の見込みがない場合に実施されるが、表示された内容は、管理者などが障害の原因を特定するのに用いることを主な目的とするため、その必要がない場合は詳細情報表示部106の機能を削除してもよい。
[第2の実施形態]
本発明の第2の実施形態について図面を参照して詳細に説明する。図5は、第2の実施形態の構成を示すブロック図である。図5を参照すると、本実施形態は、図1に示す第1の実施形態の構成に加え、被障害監視ノード200が内部状態選択手段204及び内部状態付加手段205を持ち、障害監視ノード100が詳細情報選択手段108を持つ。本実施形態は、被障害監視ノード200の内部状態に関する情報を定期信号に付加することにより、信号遅延のような受信障害に先立ち被障害監視ノード200の不具合を察知しようとするものである。
被障害監視ノード200の内部状態選択手段204は、定期信号に付加する内部情報としてのリソースの種類及びそのリソースが正常か否かを判断するための条件を選択する。選択内容は、システムの管理者などにより予め設定することができ、例えば、リソースの種類をCPUとし、このCPUが正常に稼動しているか否かをCPU使用率に基づき判定するという条件を設定する。なお、条件としては、単一の閾値に基づく判定、あるいは複雑な条件分岐を含む判定など、リソースの状態が正常か否かを判定し得るものであれば、どのようなものでもよい。
内部状態付加手段205は、内部状態選択手段204により指定されたリソースの状態を被障害監視ノード200の内部情報として定期信号に付加する。図6は、定期信号に内部情報を付加した例である。図示の例において、定期信号300には、内部状態選択手段204により選択されたリソース名301と、その状態302とを記述する領域が設けられており、複数のリソースについて、それぞれの動作が「正常」であるか、あるいは「異常」であるかが記述される。
本実施形態の定期信号300について、対象のリソースを上記のCPUとする例を用いて具体的に説明すると、内部状態選択手段204がリソースの種類を「CPU」とし、そのリソースに付随する条件として「CPU使用率50%以上」を与えた場合、内部状態付加手段205は、被障害監視ノード200におけるCPU使用率を定期的に監視し、CPU使用率が50%未満である間、リソース名301「CPU」の状態302に「正常」を設定し、これを障害監視ノード100へ送信する。その後、CPU使用率が50%以上になったとき、図6に示すようにリソース名301「CPU」の状態302を「正常」から「異常」に変更して障害監視ノード100へ送信する。
障害監視ノード100の定期信号障害判定手段111は、受信した定期信号の内部情報を確認することにより「異常」のリソースの有無を監視し、「異常」を検知したとき、その旨を詳細情報選択手段108へ通知する。詳細情報選択手段108は、定期信号障害判定手段111から報告があった異常のリソースに対応する詳細情報を後述の対応表から選択し、その選択内容を情報量切り替え命令送信手段112へ通知する。
図7に、詳細情報選択手段108が用いる詳細情報対応表400を示す。詳細情報対応表400は、リソース名401と、取得すべき詳細情報402とを関連付けた表であり、異常が報告されたリソース(401)について、その異常を解析するために何れの情報(402)を詳細情報として取得すべきかを規定したものである。例えば、図6に示す例のようにCPUが「異常」である場合、詳細情報選択手段108は、詳細情報対応表400から「CPU」に対応する詳細情報「CPU使用率」及び「プロセス生成数」を選択し、これを情報量切り替え命令送信手段112に通知する。そして、情報量切り替え命令送信手段112が、被障害監視ノード200に対し、「CPU使用率」及び「プロセス生成数」の詳細情報を送信するよう命令する。
ここで、本実施形態の情報量切り替え命令送信手段112は、定期信号の受信状況に応じて、次のような作用をなす。情報量切り替え命令送信手段112は、定期信号障害判定手段111から定期信号の受信障害、すなわち信号の到着遅れ又は消失の報告があった場合は、既述した第1の実施形態における情報量切り替え命令送信手段104と同様に動作する。また、受信した定期信号の内部情報から「異常」が検知され、詳細情報選択手段108から異常のリソースがあるとの報告を受けた場合、情報量切り替え命令送信手段112は、詳細情報対応表400から選択した詳細情報の内容を被障害監視ノード200へ通知する。このとき、被障害監視ノード200の切り離しは行わず、また、過負荷状態判定手段107に過負荷状態の判定を指示しない。
詳細情報受信手段113の動作は、次の点で第1の実施形態の詳細情報受信手段105の動作と異なる。詳細情報受信手段113は、詳細情報送信手段211から送られてくる詳細情報を詳細情報表示部106に表示すると共に、この詳細情報を過負荷状態判定手段108へ渡すが、定期信号から「異常」が検知された後であれば、過負荷判定が開始されていないことから、当該詳細情報は詳細情報選択手段108にて自動的に破棄される。
被障害監視ノード200の情報量切り替え手段211は、次の点で第1の実施形態の情報量切り替え手段202と動作が異なる。情報量切り替え手段211は、情報量切り替え命令送信手段112から情報量の切り替え命令、すなわち定期信号から詳細情報への切り替え又はその逆の命令が送信されたときは、第1の実施形態で説明した動作手順と同じく動作する。
一方、障害監視ノード100により、定期信号300内の状態302に「異常」があったことにより、指定された詳細情報を送信するよう指示を受けたときは、その旨を詳細情報送信手段212へ通知する。詳細情報送信手段212は、情報量切り替え手段211より通知された情報を装置内部で収集し、これを詳細情報として詳細情報受信手段113へ送信する。このとき、被障害監視ノード200は、情報量の切り替えを行うことなく、障害監視ノード100に対し定期信号と詳細情報とを送信することとなる。
図8及び図9のフローチャートを参照して本実施形態の動作について詳細に説明する。以下の説明では、第1の実施形態と同様な手順は省略し、定期信号の内部情報における異常の検知から詳細情報の送信までを説明する。
まず、被障害監視ノード200は、内部状態選択手段204により指定されている「リソース名」について、内部状態付加手段205が「条件」に沿って「正常」又は「異常」を定期的に判定し、その判定内容を内部情報として付加し、定期信号送信手段201により障害監視ノード100へ送信する(S301)。
障害監視ノード100は、被障害監視ノード200から定期信号300を受け取ると(S302)、定期信号障害判定手段111が定期信号300の状態をチェックする(S303)。その結果、異常が無い場合(S304:No)、引き続き受信される定期信号について状態のチェックを行う。このとき、定期信号の受信障害についてのチェックも同時に行うが、第1の実施形態における手順と同様であり、ここでは省略する。
一方、定期信号300内に異常が認められた場合(S304:Yes)、定期信号障害判定手段111は、詳細情報選択手段108に対し、異常があるリソースを通知する(S305)。例えば、リソース名の「CPU」の状態が「異常」である場合は、被障害監視ノード200のCPUが異常であることを詳細情報選択手段108に通知する。通知を受けた詳細情報選択手段108は、詳細情報対応表400から当該リソース名に対応する詳細情報を選択する(S306)。具体的には、図7の対応表400から、例えば、リソース名「CPU」に対応する詳細情報として「CPU使用率」及び「プロセス生成数」を選択する。そして、選択した内容を情報量切り替え命令送信手段112に伝えることにより(S307)、その内容に沿った詳細情報の送信命令が被障害監視ノード200へ通知される。
次に、図9のフローチャートを用いて被障害監視ノード200の動作を説明する。情報量切り替え手段211は、情報量切り替え命令送信手段112から送られてきた情報を確認し、それが詳細情報対応表400に基づく詳細情報を指定するものである場合(S401:Yes)、その情報を詳細情報送信手段212に通知する。詳細情報送信手段212は、通知された内容に対応する情報を収集し詳細情報として障害監視ノード100へ送信する(S402)。このとき、定期信号送信手段201による定期信号の送信は継続されることから、被障害監視ノード200から障害監視ノード100に対し、定期信号及び詳細情報の双方が送信されることとなる。
情報量切り替え手段211は、定期信号300の送信から詳細情報の送信への切り替え命令があるかどうかを確認し、切り替え命令がある場合(S403:Yes)、定期信号の送信を停止する(S404)。ここで、先の手順にて内部情報の指定を受けたことにより(S401:Yes)既に詳細情報の送信を実行している場合は(S405:Yes)、そのまま詳細情報の送信を継続する。また、未だ詳細情報の送信が実行されていない場合は(S405:No)、指定された詳細情報を収集し、これを障害監視ノード100へ送信する(S406)。
一方、詳細情報から定期信号への切り替え命令を受けたときは(S407:Yes)、詳細情報の送信を停止し(S408)、定期信号の送信を再開させる(S409)。
上記説明した第2の実施形態によれば、被障害監視ノード200のリソースが正常か否かを示す内部情報を定期信号300に付加し、異常があるリソースに応じて、取得すべき情報を選択することから、致命的な障害が発生する可能性のある部位を障害監視ノード100側にて絞り込むことができる。また、被障害監視ノード200に異常が発生していても、障害監視ノード100側にて定期信号の受信障害がない限りは、異常を検知することは困難であるが、本実施形態によれば、被障害監視ノード200の異常を速やかに察知することができ、これにより、グループからの切り離しに至る障害を未然に防止することができる。
[第3の実施形態]
本発明の第3の実施形態について図面を参照して詳細に説明する。図10は、第3の実施形態の構成を示すブロック図である。第3の実施形態のシステムは、図10に示すように、図1に示す第1の実施形態の被障害監視ノード200に、詳細レベル選択手段206を追加したものである。詳細レベル選択手段206は、障害監視ノード100へ詳細情報を送信する際に、自装置の負荷及びネットワーク負荷に応じて、送信する詳細情報を切り替える機能を果たす。
詳細レベル選択手段206は、詳細情報の切り替えにあたり、ノード負荷及びネットワーク負荷についてレベルを設定し、当該レベルに応じて詳細情報の内容を変化させる。レベルごとの詳細情報の内容は、後述の階層表に基づき決定する。図11に、詳細レベル選択手段206が用いる詳細情報階層表500を示す。詳細情報階層表500は、負荷のレベルである詳細レベルと、取得すべき詳細情報の内容とを関連付けたものであり、図示の表は、詳細レベルの数値が高いほど、ノード及びネットワークの負荷が高いことを表す。また、図示の丸印は、各レベルが設定された際に選択すべき詳細情報の内容を示し、例えば、詳細レベル「1」の場合は、詳細情報として「CPU使用率」、「メモリ使用量」及び「ネットワーク転送率」を選択することが規定されている。
詳細レベル選択手段206による詳細レベルの設定には、例えば、次の式(1)を用いてノード負荷及びネットワーク負荷からなる負荷率を求める。そして、求めた結果に、全レベル数Nを乗じ、その整数部分を詳細レベルとして設定する。ここで、α及びβは、ノード負荷及びネットワーク負荷の比率であり、式(2)の定義を満たす範囲で適宜設定する。
負荷率=(CPU使用率xα)+(ネットワーク帯域使用率xβ) ・・・(1)
1≧(α,β)≧0 α+β=1 ・・・(2)
詳細レベルの設定について、一例を挙げると、詳細レベルを10段階(N=10)、負荷の比率を「α:β=0.8:0.2」としたときに、CPU使用率が50%、ネットワーク帯域使用率が30%であったとする。この場合、上記式(1)より、負荷率は「0.46」となり、これに全レベル数(N=10)を掛けることにより、詳細レベル「4」を得る。詳細レベル選択手段206は、上述の演算に基づく詳細情報の切り替え判断を、所定期間ごと、あるいは詳細情報の送出ごとに行い、詳細レベルの変化に従い、取得すべき詳細情報の内容を変化させる。
上記説明した第3の実施形態によれば、ノード及びネットワークの負荷状況に応じて詳細情報の内容を調整することから、ノードやネットワークの過負荷状態により、被障害監視ノード200から詳細情報を全く送信することができないという事態を回避することができる。
[第3の実施形態の変形]
図10に示す詳細レベル選択手段206と同様な機能を果たす手段を、被障害監視ノード200に代えて障害監視ノード100に設置することができる。この場合、最初の詳細情報は詳細レベル「1」にて取得し、その後、上記式(1)を用いて、ノード及びネットワークの負荷率に対応する詳細レベルを適用する。そして、適用する詳細レベルを被障害監視ノード200へ通知し、被障害監視ノード200が、通知されたレベルに基づき詳細情報を生成する。この形態によれば、詳細レベルを求める演算を障害監視ノード100側で行う分、被障害監視ノード200の負荷を軽くすることができる。
[第4の実施形態]
本発明の第4の実施形態について図面を参照して詳細に説明する。図12は、第4の実施形態の構成を示すブロック図である。本実施形態のシステムは、図1に示す第1の実施形態の障害監視ノード100に簡易障害判定手段109を追加し、被障害監視ノード200に障害対応手段207を追加したものである。
障害監視ノード100では、定期信号300に受信障害が発生し、詳細情報への切り替えが発生した時に、被障害監視ノード200から送られてきた詳細情報が簡易障害判定手段109に通知される。
簡易障害判定手段109は、詳細情報受信手段105から渡された詳細情報を、後述の判定表に基づき検査する。図13に、簡易障害判定手段109が用いる簡易障害判定表600の例を示す。簡易障害判定表600には、図13に示すように、障害名601、障害条件602、障害対処法603の3つの項目がある。各項目の情報は、予めファイルに記述されており、適宜追加することができる。簡易障害判定手段109は、被障害監視ノード200から送られてきた詳細情報が障害条件602に当てはまるか否かを調査し、該当する障害条件602があるなら、これに対応する障害対処法603を障害対処手段207に送信する。
障害対処法の送信について、一例を挙げると、被障害監視ノード200からの詳細情報から、I/O転送量がλ以下になり、且つディスク書き込みエラーが発生していることが読み取られた場合には、その障害名601は「ディスク障害」であると判定し、被障害監視ノード200が行うべき障害対処法603として、「ディスクチェック」の後に「再起動」するという命令を送る。
被障害監視ノード200は、障害監視ノード100から対処法を受けると、当該処理を障害対処手段207により実行する。障害対処手段207は、実行した処理の結果を障害監視ノード100の簡易障害判定手段109に通知する。このとき、対処法が正常に終了した場合は、対処法が正常に終了したことを通知し、正常に終了しない場合は、対処法が異常終了した旨を通知する。
簡易障害判定手段109は、対処法が正常に終了した通知を受けると、グループ管理手段103に対して被障害監視ノード200のグループへの復帰を要求し、情報量切り替え命令送信手段104に、詳細情報から定期信号への切り替えを被障害監視ノード200に対して送信するように要求する。また、対処法が異常終了した場合には、情報量切り替え命令送信手段104及びグループ管理手段103に対する上記の要求は行わず、障害としてユーザに通知する。
なお、被障害監視ノード200における対処法の実行にあたっては、ディスクチェックや再起動など、予め被障害監視ノード200に装備されているプログラムを実行させることに代えて、簡易障害判定手段109からテストパターンのプログラムを送信し、そのテストパターンを被障害監視ノード200が実行するという方法を用いてもよい。
図14に、テストパターンプログラムの例を示す。テストパターンプログラム700には、被障害監視ノード200にて実行すべきテストパターンが記載されている。図示の例は、簡易障害判定手段109にて、障害名601として「ネットワークカード障害」が判定されたことにより、「テストパターンA実行後再起動」という対処法603が選択された場合のテストパターンプログラム700である。
障害対応手段207は、送信されたテストパターンプログラム700を使って、図14の「テストパターンA」を実行する。テストパターンAでは、自装置のネットワークカードの動作チェックを行い、ネットワークカードが正常かどうかを判断する。そして、ネットワークの応答確認を行い、その結果、送信パケット数と受信パケット数とが一致すれば、正常終了し、そうでなければエラーログを被障害監視ノード200に出力し、テストパターンAを終了する。
なお、上述のネットワークカードのチェックは、例えば、OSに付属のハードウェア診断ツールを使い、ネットワークの応答確認には、OSに付属のPINGコマンドなどを用いると良い。また、対処法に再起動が含まれる場合は、対処法が終了したことを簡易障害判定手段109に送信するというフラグを立てておいて、再起動後にメッセージを送信する。
上記説明した第4の実施形態によれば、過負荷状態であった被障害監視ノード200をグループに復帰させるだけでなく、障害が発生した被障害監視ノード200に対し、障害を解消してグループに復帰させるよう導くことから、障害が起こっても自動的に回復させることが可能となり、これにより、クラスタの性能劣化を防ぐことができる。
本発明は、データセンターなど大規模クラスタを運用するような場所で、クラスタを一つの障害監視ノードにて管理するという用途に好適である。
本発明の第1の実施形態の構成を示すブロック図である。 第1の実施形態における一時切り離し処理に関する手順のフローチャートである。 第1の実施形態における障害監視ノードの動作手順を示すフローチャートである。 第1の実施形態における被障害監視ノードの動作手順を示すフローチャートである。 本発明の第2の実施形態の構成を示すブロック図である。 第2の実施形態における定期信号の説明図である。 第2の実施形態における詳細情報対応表の説明図である。 第2の実施形態の動作手順を示すフローチャートである。 第2の実施形態における被障害監視ノードの動作手順を示すフローチャートである。 本発明の第3の実施形態の構成を示すブロック図である。 第3の実施形態における詳細情報階層表の説明図である。 本発明の第4の実施形態の構成を示すブロック図である。 第4の実施形態における簡易障害対応表の説明図である。 第4の実施形態におけるテストパターンプログラムの説明図である。 従来の障害監視システムの構成を示すブロック図である。
符号の説明
100 障害監視ノード
200 被障害監視ノード
101:定期信号受信手段、102,111:定期信号障害判定手段、103:グループ管理手段、104,112:情報量切り替え命令送信手段、105,113:詳細情報受信手段、106:詳細情報表示部、107:過負荷状態判定手段、108:詳細情報選択手段、109:簡易障害判定手段、201:定期信号送信手段、202,211:情報量切り替え手段、203:詳細情報送信手段、204:内部状態選択手段、205:内部状態付加手段:206:詳細レベル選択手段、207:障害対処手段

Claims (18)

  1. 外部装置からの要求が分散して入力される複数の情報処理装置と、該各情報処理装置と通信可能に接続された障害監視装置とを備えるシステムにおける障害監視方法であって、
    前記各情報処理装置が、前記障害監視装置に対し所定の時間間隔にて定期信号を送信する処理を実行し、
    前記障害監視装置が、前記各情報処理装置から定期信号を受信したか否かを判定し、否のとき、当該情報処理装置に対する外部装置からの要求の入力を停止させ、該停止後、前記情報処理装置から該装置の動作状況を示す詳細情報を取得し該詳細情報に基づき前記情報処理装置の過負荷発生または障害発生のいずれかを判定し、過負荷発生と判定したとき、前記情報処理装置に対する前記入力停止を解除することを特徴とする障害監視方法。
  2. 前記障害監視装置が、詳細情報に基づく前記判定を過負荷発生としたとき、前記情報処理装置の過負荷状態が解消傾向にあるか否かを判定し、解消傾向にあると判定したとき、前記入力停止の解除を実行することを特徴とする請求項1記載の障害監視方法。
  3. 前記各情報処理装置が、自装置のリソースについて正常か否かを示す内部情報を定期信号に付加し、
    前記障害監視装置が、前記各情報処理装置からの定期信号に含まれる内部情報に基づき当該情報処理装置における異常のリソースの有無を判定し、異常のリソースがあるとき、当該リソースに対応し且つ前記情報処理装置が送信すべき詳細情報の内容を該情報処理装置へ通知し、
    前記情報処理装置が、前記障害監視装置からの通知に対応する詳細情報を送信することを特徴とする請求項1又は2記載の障害監視方法。
  4. 前記各情報処理装置が、自装置およびネットワークの負荷の変化に応じて前記障害監視装置へ送信すべき詳細情報を変化させることを特徴とする請求項1記載の障害監視方法。
  5. 前記障害監視装置が、前記情報処理装置およびネットワークの負荷の変化に応じて前記情報処理装置から取得すべき詳細情報を変化させることを特徴とする請求項1記載の障害監視方法。
  6. 前記障害監視装置が、詳細情報に基づく前記判定を障害発生としたとき、当該障害を解決するための対処情報を前記情報処理装置へ送信し、
    前記情報処理装置が、前記障害監視装置からの対処情報に対応する処理を実行し、該処理が完了したとき該完了の旨を前記障害監視装置へ通知し、
    前記障害監視装置が、前記情報処理装置から前記処理の完了を通知されたとき該情報処理装置に対する前記入力停止を解除することを特徴とする請求項1記載の障害監視方法。
  7. 外部装置からの要求が分散して入力される複数の情報処理装置と、該各情報処理装置と通信可能に接続された障害監視装置とを備え、
    前記各情報処理装置は、
    前記障害監視装置に対し所定の時間間隔にて定期信号を送信する処理を実行する定期信号送信手段と、
    定期信号の送信後、前記障害監視装置に対し自装置の動作状況を示す詳細情報を送信する詳細情報送信手段とを有し、
    前記障害監視装置は、
    前記各情報処理装置から定期信号を受信したか否かを判定する定期信号判定手段と、
    前記各情報処理装置に対する外部装置からの入力可否の切り替えを行うグループ管理手段と、
    前記定期信号判定手段による判定が否のとき、当該情報処理装置に対する外部装置からの要求の入力を停止させ、該停止後、前記情報処理装置から詳細情報を取得し該詳細情報に基づき前記情報処理装置の過負荷発生または障害発生のいずれかを判定し、過負荷発生と判定したとき、前記情報処理装置に対する前記入力停止を解除する監視制御手段とを有することを特徴とする障害監視システム。
  8. 前記障害監視装置は、詳細情報に基づく前記判定を過負荷発生としたとき前記情報処理装置の過負荷状態が解消傾向にあるか否かを判定する過負荷状態判定手段を有し、
    前記監視制御手段は、前記情報処理装置の過負荷状態が解消傾向にあると判定されたとき、前記入力停止の解除を実行することを特徴とする請求項7記載の障害監視システム。
  9. 前記各情報処理装置は、自装置のリソースについて正常か否かを示す内部情報を定期信号に付加する内部状態付加手段を有し、
    前記障害監視装置は、前記各情報処理装置からの定期信号に含まれる内部情報に基づき当該情報処理装置における異常のリソースの有無を判定し、異常のリソースがあるとき当該リソースに対応し且つ前記情報処理装置が送信すべき詳細情報の内容を該情報処理装置へ通知する詳細情報選択手段を有することを特徴とする請求項7又は8記載の障害監視システム。
  10. 前記各情報処理装置は、自装置およびネットワークの負荷の変化に応じて前記障害監視装置へ送信すべき詳細情報を変化させるレベル選択手段を有することを特徴とする請求項7記載の障害監視システム。
  11. 前記障害監視装置は、前記情報処理装置およびネットワークの負荷の変化に応じて前記情報処理装置から取得すべき詳細情報を変化させるレベル選択手段を有することを特徴とする請求項7記載の障害監視システム。
  12. 前記障害監視装置は、前記情報処理装置の障害を判別し該障害を解決するための対処情報を前記情報処理装置へ送信する障害判定手段を有し、
    前記各情報処理装置は、前記障害監視装置からの対処情報に対応する処理を実行し該処理の完了の旨を前記障害監視装置へ通知する障害対処手段を有し、
    前記監視制御手段は、前記情報処理装置から前記処理の完了を通知されたとき該情報処理装置に対する前記入力停止を解除することを特徴とする請求項7記載の障害監視システム。
  13. 外部装置からの要求が分散して入力される複数の情報処理装置と通信可能に接続された障害監視装置であって、
    前記各情報処理装置から所定の時間間隔にて送信される定期信号を受信したか否かを判定する定期信号判定手段と、
    前記各情報処理装置に対する外部装置からの入力可否の切り替えを行うグループ管理手段と、
    前記定期信号判定手段による判定が否のとき、当該情報処理装置に対する外部装置からの要求の入力を停止させ、該停止後、前記情報処理装置から該装置の動作状況を示す詳細情報を取得し該詳細情報に基づき前記情報処理装置の過負荷発生または障害発生のいずれかを判定し、過負荷発生と判定したとき、前記情報処理装置に対する前記入力停止を解除する監視制御手段とを有することを特徴とする障害監視装置。
  14. 詳細情報に基づく前記判定を過負荷発生としたとき前記情報処理装置の過負荷状態が解消傾向にあるか否かを判定する過負荷状態判定手段を有し、
    前記監視制御手段は、前記情報処理装置の過負荷状態が解消傾向にあると判定されたとき、前記入力停止の解除を実行することを特徴とする請求項13記載の障害監視装置。
  15. 前記各情報処理装置のリソースについて正常か否かを示す内部情報が付加された定期信号を受信したとき該定期信号に含まれる内部情報に基づき当該情報処理装置における異常のリソースの有無を判定し、異常のリソースがあるとき当該リソースに対応し且つ前記情報処理装置が送信すべき詳細情報の内容を該情報処理装置へ通知する詳細情報選択手段を有することを特徴とする請求項13又は14記載の障害監視装置。
  16. 前記情報処理装置およびネットワークの負荷の変化に応じて前記情報処理装置から取得すべき詳細情報を変化させるレベル選択手段を有することを特徴とする請求項13記載の障害監視装置。
  17. 前記各情報処理装置の障害を判別し該障害を解決するための対処情報を当該情報処理装置へ送信する障害判定手段を有し、
    前記監視制御手段は、前記情報処理装置から前記対処情報に対応する処理の完了を通知されたとき該情報処理装置に対する前記入力停止を解除することを特徴とする請求項13記載の障害監視装置。
  18. コンピュータを、請求項13乃至17いずれか1項に記載の障害監視装置として機能させることを特徴とするプログラム。
JP2004373293A 2004-12-24 2004-12-24 障害監視方法、障害監視システムおよびプログラム Active JP4968568B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004373293A JP4968568B2 (ja) 2004-12-24 2004-12-24 障害監視方法、障害監視システムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004373293A JP4968568B2 (ja) 2004-12-24 2004-12-24 障害監視方法、障害監視システムおよびプログラム

Publications (2)

Publication Number Publication Date
JP2006178851A JP2006178851A (ja) 2006-07-06
JP4968568B2 true JP4968568B2 (ja) 2012-07-04

Family

ID=36732906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004373293A Active JP4968568B2 (ja) 2004-12-24 2004-12-24 障害監視方法、障害監視システムおよびプログラム

Country Status (1)

Country Link
JP (1) JP4968568B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5098456B2 (ja) * 2007-06-15 2012-12-12 村田機械株式会社 プロセス状態監視装置
EP2177993A4 (en) * 2007-07-10 2011-01-12 Nec Corp COMPUTER SYSTEM, MANAGEMENT DEVICE, AND METHOD OF MANAGING COMPUTER SYSTEM
JP6082678B2 (ja) * 2013-09-13 2017-02-15 株式会社日立製作所 サーバ負荷分散方法およびプログラム
JP6977650B2 (ja) * 2018-03-30 2021-12-08 富士通株式会社 異常検出方法、異常検出プログラム、及び異常検出装置
CN110147292A (zh) * 2019-04-15 2019-08-20 平安普惠企业管理有限公司 网页异常的监控方法、装置、存储介质及计算机设备
CN111198778B (zh) * 2020-01-10 2024-03-15 广东金赋科技股份有限公司 一种自助终端故障上报的方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0691565B2 (ja) * 1987-06-17 1994-11-14 日本電気株式会社 相手処理装置の動作監視装置
JPH03122753A (ja) * 1989-10-05 1991-05-24 Nec Corp プロセッサ管理方式
JPH07302242A (ja) * 1994-04-30 1995-11-14 Mitsubishi Electric Corp 負荷分散方式
JPH09297733A (ja) * 1996-04-30 1997-11-18 Nec Corp コンソールメッセージの監視による自動運転システム
JP2000259449A (ja) * 1999-03-09 2000-09-22 Hitachi Information Systems Ltd プログラム実行トレース取得制御システムおよびその方法ならびに該方法を実現するプログラムを記録した記録媒体
JP2002351855A (ja) * 2001-05-28 2002-12-06 Mitsubishi Electric Corp 計算機異常処理システムおよび、計算機異常処理方法および、計算機で動作する計算機異常処理プログラムおよび、コンピュータにより読み取り可能な記録媒体に記録された計算機異常処置プログラム
JP2003114811A (ja) * 2001-10-05 2003-04-18 Nec Corp 自動障害復旧方法及びシステム並びに装置とプログラム
JP2003345770A (ja) * 2002-05-24 2003-12-05 Nec Corp クラスタシステム及びそのサーバ切替え方法
JP3916232B2 (ja) * 2002-11-27 2007-05-16 日本電気株式会社 ナレッジ型運用管理システム,方法およびプログラム
EP1627316B1 (en) * 2003-05-27 2018-02-21 Vringo Infrastructure Inc. Data collection in a computer cluster

Also Published As

Publication number Publication date
JP2006178851A (ja) 2006-07-06

Similar Documents

Publication Publication Date Title
US10802900B2 (en) Compute node, failure detection method thereof and cloud data processing system
US8332506B2 (en) Network monitor program executed in a computer of cluster system, information processing method and computer
US7328367B2 (en) Logically partitioned computer system and method for controlling configuration of the same
US10911295B2 (en) Server apparatus, cluster system, cluster control method and program
US20080288812A1 (en) Cluster system and an error recovery method thereof
JP4725724B2 (ja) クラスタ障害推定システム
US20160036654A1 (en) Cluster system
US20090164565A1 (en) Redundant systems management frameworks for network environments
JP4834622B2 (ja) ビジネスプロセス運用管理システム、方法、プロセス運用管理装置およびそのプログラム
JP4968568B2 (ja) 障害監視方法、障害監視システムおよびプログラム
JP2010231293A (ja) 監視装置
JP5408620B2 (ja) データ分散管理システム及びデータ分散管理方法
JP2011203941A (ja) 情報処理装置、監視方法、および監視プログラム
JP4863984B2 (ja) 監視処理プログラム、方法及び装置
WO2014010021A1 (ja) 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム
JP2006325118A (ja) 監視データ収集システム
JP2007272328A (ja) コンピュータ・システム
KR101883251B1 (ko) 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법
JP6368842B2 (ja) プロセス監視プログラム及びプロセス監視システム
JP2005110096A (ja) 通信装置および方法
JP6309711B2 (ja) プロセス監視プログラム及びプロセス監視システム
CN114760317A (zh) 虚拟网关集群的故障检测方法及相关设备
KR101015251B1 (ko) 통신망시스템의 관리시스템 및 그 관리방법
JP2014204136A (ja) 輻輳制御システム、輻輳制御方法及び輻輳制御プログラム
JP2010237793A (ja) 稼働状況監視システム、方法、及び、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071112

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080514

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101001

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111122

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120220

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120309

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120322

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4968568

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150