JP4968568B2

JP4968568B2 - 障害監視方法、障害監視システムおよびプログラム

Info

Publication number: JP4968568B2
Application number: JP2004373293A
Authority: JP
Inventors: 亮仁小比賀
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-12-24
Filing date: 2004-12-24
Publication date: 2012-07-04
Anticipated expiration: 2024-12-24
Also published as: JP2006178851A

Description

本発明は、ネットワークに接続された複数の情報処理装置により分散処理を実行する大規模クラスタにおける障害監視システム、障害監視方法および障害監視用プログラムに関する。

従来、複数のパーソナルコンピュータやワークステーションなどをノードとしてネットワーク接続したクラスタと呼ばれるシステムがある。クラスタは、外部装置からのユーザリクエスト（例えばWebページの要求など）を複数のノードで分散して処理する。クラスタは、ノードを追加することによって処理性能を高めることができ、また、一つのノードに障害が発生したとしても、他のノードで代替処理をさせることができる。よって、クラスタ全体を一つのサービスを実行するマシンと考えると、単体のマシンに比べ高い信頼性を提供することができる。このようなクラスタにおける障害処理とは、ノードの障害を発見して、代替ノードで置き替えることを指す。

クラスタ形式を適用した従来の障害監視システムの概要を図１５を用いて説明する。従来の障害監視システムは、ネットワーク４０で繋がれた障害監視ノード１０および複数の被障害監視ノード２０−１〜２０−Ｎから構成される。障害監視ノード１０は、定期信号受信手段１、定期信号判定手段２及びグループ管理手段３を有し、被障害監視ノード（２０）は、定期信号送信手段２１及び業務アプリケーション２２を有する。

負荷分散装置３０は、ウェブページの配信など、ユーザーからの要求を、障害監視ノード１０のグループ管理手段３に設定されているグループ情報に基づいて、同一の業務を取り扱う複数の業務アプリケーション２２に分散して割り当てる。

被障害監視ノード（２０）は、定期信号送信手段２１により、障害監視ノード１０の定期信号受信手段１に向けて定期的に信号を送信する。この定期信号は、あらかじめ決められた時間間隔で障害監視ノード１０に向かって送信される信号のことであり、信号の例としては、TCP/IPに規定されている空パケットなどがある。障害監視ノード１０の定期信号障害判定手段２は、この定期信号を受け取っている間は、当該被障害監視ノード（２０）は正常に稼動していると認識し、予め設定されたタイムアウト時間内に届かない信号、もしくは消失により届かない信号があった場合、当該被障害監視ノード（２０）に障害が発生したとみなす。

上記判定を行う定期信号障害判定手段２は、図１５に示すように、被障害監視ノード名とタイムアウト時間とを関連付けた表１１を保持しており、この表１１を基に個々のノードに対する障害の有無を判断する。障害が発生すると、定期信号障害判定手段２は、グループ管理手段３に当該被障害監視ノード（２０）をグループから削除するように要求する。要求を受けたグループ管理手段３は、障害が発生した被障害監視ノード（２０）をグループ情報から削除する。負荷分散装置３０は、グループ情報から削除された被障害監視ノード（２０）に対し、ユーザーリクエストの入力を停止する。この状態が、すなわち被障害監視ノード（２０）をグループから切り離した状態である。

ところで、被障害監視ノードからの定期信号が途絶える要因の一つとして、マシンに過負荷が発生したことが考えられるが、図１５に示したような監視システムでは、過負荷に陥ったノードはすべて切り離される。しかし、過負荷が一時的なものである場合、それは時間の経過により解消し得ることから、障害とみなして切り離すのはシステムにとって有益なことではない。このような不都合を解決するための手法が、例えば、後述の特許文献１に開示されている。

特許文献１に記載のシステムは、ネットワークに接続されたマシン１〜Ｎから構成され、マシン１は、コンピュータシステムの各マシンの負荷値を含む負荷情報を負荷情報受け渡し手段１０３を介して取得し記憶する負荷情報記憶手段１０２と、担当先のマシンに障害が発生したことを監視およびシステム切り替え手段１０４で検知したとき蓄積している担当先のマシンの負荷情報に基づき一時的な高負荷状態を予測する一時的高負荷予測手段１０１とを有し、一時的な高負荷と予測した場合には、前記監視およびシステム切り替え手段１０４がシステム切り替えの実施を一定時間延期するというものである。
特開２００１−０９２８００号公報

しかしながら、上述の特許文献１の手法にあっては、過負荷との予測によりシステムの切り替えが延期されても、当該マシンに対する処理分散は継続することからマシンの負荷が軽減され難い。そのため、マシンの過負荷状態が長引くことにより切り離しが実施されるおそれがあり、結果、一時的な過負荷状態であったノードが障害ノードとして処理されるという事態が生じる。このようなケースが多く発生すると、分散処理を担うノード数が減少することから、クラスタの性能が著しく損なわれる。

本発明の目的は、システムにて分散処理を実施する各ノードの状態を適切に判定することにより、システムの性能低下を防止する手法を提供することにある。

本発明に係る障害監視方法は、外部装置からの要求が分散して入力される複数の情報処理装置と、該各情報処理装置と通信可能に接続された障害監視装置とを備えるシステムにおける障害監視方法であって、前記各情報処理装置が、前記障害監視装置に対し所定の時間間隔にて定期信号を送信する処理を実行し、前記障害監視装置が、前記各情報処理装置から定期信号を受信したか否かを判定し、否のとき、当該情報処理装置に対する外部装置からの要求の入力を停止させ、該停止後、前記情報処理装置から該装置の動作状況を示す詳細情報を取得し該詳細情報に基づき前記情報処理装置の過負荷発生または障害発生のいずれかを判定し、過負荷発生と判定したとき、前記情報処理装置に対する前記入力停止を解除する。

本発明に係る障害監視システムは、外部装置からの要求が分散して入力される複数の情報処理装置と、該各情報処理装置と通信可能に接続された障害監視装置とを備え、前記各情報処理装置は、前記障害監視装置に対し所定の時間間隔にて定期信号を送信する処理を実行する定期信号送信手段と、定期信号の送信後、前記障害監視装置に対し自装置の動作状況を示す詳細情報を送信する詳細情報送信手段とを有し、前記障害監視装置は、前記各情報処理装置から定期信号を受信したか否かを判定する定期信号判定手段と、前記各情報処理装置に対する外部装置からの入力可否の切り替えを行うグループ管理手段と、前記定期信号判定手段による判定が否のとき、当該情報処理装置に対する外部装置からの要求の入力を停止させ、該停止後、前記情報処理装置から詳細情報を取得し該詳細情報に基づき前記情報処理装置の過負荷発生または障害発生のいずれかを判定し、過負荷発生と判定したとき、前記情報処理装置に対する前記入力停止を解除する監視制御手段とを有する。

本発明によれば、障害監視装置により定期信号を受信できないとき、当該情報処理装置へのリクエストを一旦停止させ、装置の負荷を軽減したうえで原因を判定することから、原因が過負荷発生であるのか、あるいは障害発生であるのかを適切に判定することができる。また、過負荷状態であった場合は、リクエストの入力を再開させることから、単なる過負荷状態のノードを障害とみなして完全に切り離してしまうことを回避でき、これにより、クラスタの性能低下を防止することができる。

［第１の実施形態］
図１は、本発明の第１の実施形態の構成を示すブロック図である。本実施形態のシステムは、図１に示すように、クラスタにおける個々のノードの障害を監視する障害監視ノード１００と、この障害監視ノード１００の監視対象であり且つ負荷分散装置（図示略）からユーザリクエストを分散して入力される被障害監視ノード２００とから構成される。

障害監視ノード１００及び被障害監視ノード２００は、本発明に係る障害監視装置及び情報処理装置に対応し、それぞれ以下の構成要素に対応するプログラムに従い動作するコンピュータ装置である。なお、本実施形態のシステムには、従来のシステムと同様に、１つのグループを形成する複数の被障害監視ノード２００が設けられているが、図面の簡素化のため、図１では、そのうちの１台の被障害監視ノード２００が記載されている。

障害監視ノード１００は、図１に示すように、従来の障害監視ノードが有する手段と同様な定期信号受信手段１０１、定期信号障害判定手段１０２及びグループ管理手段１０３に加え、情報量切り替え命令送信手段１０４、詳細情報受信手段１０５及び過負荷状態判定手段１０７を有する。また、表示機能を果たすディスプレイ装置としての詳細情報表示部１０６を有する。被障害監視ノード２００は、従来のノードが有する手段と同様な定期信号送信手段２０１に加え、情報量切り替え手段２０２及び詳細情報送信手段２０３を持つ。

情報量切り替え命令送信手段１０４は、本発明に係る障害監視装置が有する監視制御手段に対応し、定期信号障害判定手段１０２より、定期信号の受信障害についての通知を受け取る。ここで、受信障害とは、定期信号の到着遅れ、もしくは定期信号の消失の二種類である。

情報量切り替え命令送信手段１０４は、定期信号の障害が到着時間の遅れならば、被障害監視ノード２００の情報量切り替え命令受信手段２０２に対し後述の詳細情報を送るよう命令し、自装置の過負荷状態判定手段１０７に対し、詳細情報に基づき過負荷状態の判定を開始するよう通知する。また、受信障害が定期信号の消失である場合、それは明らかな障害であると認識し、被障害監視ノード２００に対し詳細情報を送るように命令するが、過負荷状態の判定は開始しない。取得した詳細情報は、後に障害箇所の特定に利用される。

情報量切り替え命令送信手段１０４から被障害監視ノード２００の情報量切り替え手段２０２への命令の送信とは、定期信号から詳細情報への切り替え命令、又は、詳細情報から定期信号への切り替え命令を含むメッセージをネットワークを介して被障害監視ノード２００へ送信することを指す。

詳細情報受信手段１０５は、詳細情報送信手段２０３から取得した詳細情報を、詳細情報表示部１０６により表示させると共に、過負荷状態判定手段１０７に渡す。過負荷状態判定手段１０７は、受け取った詳細情報を基に被障害監視ノード２００の過負荷状態が一時的なものか否かを判定する。過負荷状態の判定が開始される時点で、被障害監視ノード２００は、グループ管理手段１０３によりグループから切り離され、これにより、新たなサービス要求の入力が停止された状態となる。

過負荷状態判定手段１０７による過負荷状態の判定方法はいくつか考えられるが、もっとも単純な判断方法としては、例えば、過去のいくつかのＣＰＵ使用率と現在のＣＰＵ使用率とを比較し、その差分が単調減少しているならば過負荷状態は解消傾向にあり、定期信号の到着遅れは一時的な過負荷状態によるものであったと判断する方法がある。この場合、詳細情報として、被障害監視ノード２００のＣＰＵ使用率を順次取得することとなるが、過負荷状態が解消傾向にあるか否かを確認できるのであれば、ＣＰＵ使用率に限らず、他の情報を利用しても良い。

被障害監視ノード２００の過負荷状態が解消されつつあると判断した場合、過負荷状態判定手段１０７は、グループ管理手段１０３に対して被障害監視ノード２００をグループへ復帰させるよう要求し、また、情報量切り替え命令送信手段１０４に対し、被障害監視ノード２００から詳細情報に代えて定期信号を取得するよう切り替え要求を行う。

詳細情報表示部１０６は、詳細情報受信手段１０５から送られてきた詳細情報を表示する。また、過負荷状態判定手段１０７により、被障害監視ノード２００が過負荷状態ではなく何らかの障害であると判定されたときには、その判定内容を示すメッセージを表示する。この詳細情報表示部１０６を設けたことにより、管理者等に対し、障害発生の原因を特定するための十分な情報を提供することができる。

被障害監視ノード２００の詳細情報送信手段２０３は、詳細情報としての、ＣＰＵ使用率、メモリ使用量、Ｉ／Ｏ転送量など、被監視ノード２００の内部状態を示す情報を障害監視ノード１００の詳細情報受信手段１０５に送信する。情報量切り替え手段２０２は、障害監視ノード１００の情報量切り替え命令送信手段１０４から送られてきた命令により次の２つの動作を行う。１つは、詳細情報を送信するように命令された場合に、定期信号送信手段２０１に定期信号の送信を中断させると共に、詳細情報送信手段２０３に対し内部状態の取得命令及び障害監視ノード１００への詳細情報の送信命令を行う。また、詳細情報の送信中止を命令された場合には、詳細情報送信手段２０３に詳細情報の送信を中止させ、定期信号送信手段２０１に定期信号の送信を再開させる。

図２、図３及び図４のフローチャートを参照して本実施形態の全体の動作について詳細に説明する。まず、図２にて、定期信号障害の検出から被障害監視ノード２００の一時切り離しについて説明する。

障害監視ノード１００は、被障害監視ノード２００から送信される定期信号の受信状況を監視し(Ｓ１０１)、定期信号の到着遅れ又は消失をチェックする(Ｓ１０２)。定期信号の到着が遅れているかどうかは、従来と同様に、定期信号障害判定手段１０２に設定されているタイムアウト時間に基づき判定する。すなわち、定期信号が到着したが、前回の受信時からの時間間隔がタイムアウト時間より長い場合、定期信号の到着遅れが発生していると判定する。

また、定期信号を消失しているかどうかは、例えば、被障害監視ノード２００から定期信号を送信する際に、送信番号としての連番を付加することにより、消失した定期信号の有無を判定することができる。具体的には、例えば、正の整数を送信番号とし、届いた信号の送信番号が「４」及び「６」であった場合、送信番号「５」の信号を消失したと判定する。

定期信号の受信障害である到着遅れ又は信号消失が発生したと認められたとき(Ｓ１０３：Ｙｅｓ)、定期信号障害判定手段１０２は、グループ管理手段１０３に被障害監視ノード２００の切り離しを命令し(Ｓ１０４)、また、情報量切り替え命令送信手段１０４に障害の発生状況を伝える(Ｓ１０５)。これにより、被障害監視ノード２００に対するユーザリクエストの入力が一旦停止される。

次に、図３のフローチャートに沿って、上記説明したステップＳ１０５以降の手順について説明する。障害監視ノード１００の情報量切り替え命令送信手段１０６は、定期信号の受信障害が発生したとの通知を受けると、被障害監視ノード２００の情報量切替手段２０２に対して、定期信号の送信から詳細情報の送信に切り替える命令を送信する(Ｓ２０１)。

上記命令により被障害監視ノード２００から詳細情報が送信されると、これを障害監視ノード１００の詳細情報受信手段１０５が受け取る(Ｓ２０２)。詳細情報とは、上述したように、被障害監視ノード２００におけるＣＰＵ使用率、メモリ使用率、Ｉ／Ｏ転送量など、被障害監視ノード２００の内部状態を示す情報である。

情報量切り替え命令送信手段１０４は、定期信号障害判定手段１０２にて判定された（図５：Ｓ１０３）受信障害の内容を判別し (Ｓ２０３)、障害が定期信号の消失ならば、被障害監視ノード２００に障害が発生し、正常に稼動できないと判断する。そして、詳細情報表示部１０６により、詳細情報と共に被障害監視ノード２００の障害発生を通知して終了する(Ｓ２０４)。

一方、障害が到着遅延である場合、情報量切り替え命令送信手段１０４は、過負荷状態判定手段１０７に対し、被障害監視ノード２００の過負荷状態の判定を開始するよう通知する(Ｓ２０５)。通知を受け取った過負荷状態判定手段１０７は、詳細情報受信手段１０５が受け取った詳細情報に基づき、過負荷状態の傾向を判定する（Ｓ２０６）。

ここで、被障害監視ノード２００は、既にグループから切り離されているため（図５：Ｓ１０４）、新たなサービス要求を受けることはない。よって、一時的な過負荷状態に陥っていたのであれば、その時点までに蓄積したサービス要求が処理されるにつれて、過負荷状態が解消されると考えられる。このような過負荷状態の傾向を判定するための方法としては、次の方法がある。

１つは、詳細情報としてＣＰＵ使用率を取得し、順次取得した複数の時点のＣＰＵ使用率の移動平均を取り、その結果、ＣＰＵ使用率が減少傾向にあれば、過負荷状態が解消する見込みがある、あるいは解消したと判断する。また、他の方法としては、例えば、詳細情報として、アプリケーションプログラムが実施するリクエストキューを採用し、最新のリクエストキューと過去に送られてきたリクエストキューとを比較した結果、リクエストキューに蓄積しているユーザ要求が減少傾向にあれば、過負荷状態が解消する傾向にある、あるいは解消されたと判断する。

情報量切り替え命令送信手段１０４は、過負荷状態判定手段１０７による判定の結果、過負荷状態が解消の傾向にある場合（Ｓ２０７：Ｙｅｓ）、被障害監視ノード２００における一時的な過負荷状態により定期信号の到着遅れが生じたと判断する。そして、被障害監視ノード２００に対し、詳細情報の送信を停止して定期信号の送信を再開するように命令し(Ｓ２０８)、グループ管理手段１０３に被障害監視ノード２００のグループへの復帰を命令する(Ｓ２０９)。なお、過負荷状態が解消される見込みがない場合は(Ｓ２０７：Ｎｏ)、詳細情報と共にユーザに障害発生を通知する(Ｓ２０４)。

次に、図４のフローチャートを用いて、被障害監視ノード２００の動作を説明する。図示のフローチャートは、被障害監視ノード２００が障害監視ノード１００により、定期信号及び詳細情報間の切り替えを命令された時点からの手順である。被障害監視ノード２００は、上述した定期信号の受信障害に伴い、障害監視ノード１００の情報量切り替え命令送信手段１０４により定期信号から詳細情報への切り替えを命令されると(Ｓ３０１：定期→詳細)、情報量切り替え手段２０２が、定期信号送信手段２０１による定期信号の送信を停止させ(Ｓ３０２)、詳細情報送信手段２０３に詳細情報を作成して送るよう命令する(Ｓ３０３)。また、グループへの復帰に伴い詳細情報から定期信号への切り替え命令があった場合(Ｓ３０１：詳細→定期)、情報量切り替え手段２０２は、詳細情報送信手段２０３による詳細情報の送信を停止させ(Ｓ３０４)、定期信号送信手段２０１による定期信号の送信を再開させる(Ｓ３０５)。

上記説明した第１の実施形態によれば、障害監視ノード１００が、被障害監視ノード２００からの定期信号の受信障害を検知したとき、一旦グループから切り離して被障害監視ノード２００の負荷を軽減したうえで、受信障害の原因を判定することから、原因が過負荷発生であるのか、あるいは障害発生であるのかを適切に判定することができる。また、一時的な過負荷状態であれば、自動的にグループへ復帰させることから、単なる過負荷状態のノードを障害とみなして完全に切り離してしまうことを回避でき、これにより、クラスタの性能低下を防止することができる。

［第１の実施形態の変形］
上記説明した手順は、定期信号の受信障害を到着遅延と判定したとき、障害監視ノード２００の過負荷状態が解消傾向にあるか否かを判定し（図３：Ｓ２０７）、解消傾向にあればグループへの復帰を行うものであったが、これに代えて、定期信号の到着遅延が信号消失のような明らかな障害ではないとの判断のもとに、到着遅延を一時的な過負荷状態であると一意に判定し、この判定を行ったとき、グループへ復帰させるようにしてもよい。すなわち、図１の過負荷状態判定手段１０７を不要とし、また、図３のフローチャートにおいて到着遅延と判定したとき（Ｓ２０３：到着遅延）、直ちに詳細情報から定期信号への切り換え命令（Ｓ２０８）及びグループへの復帰（Ｓ２０９）を行うものである。この手順によれば、グループへの復帰までの手順を簡素化することができる。

図１に示すシステムは、障害監視ノード１００が詳細情報表示部１０６により詳細情報を表示する構成であったが、この表示は必須ではない。詳細情報の表示は、上述したように、信号消失が発生した場合あるいは過負荷状態の解消の見込みがない場合に実施されるが、表示された内容は、管理者などが障害の原因を特定するのに用いることを主な目的とするため、その必要がない場合は詳細情報表示部１０６の機能を削除してもよい。

［第２の実施形態］
本発明の第２の実施形態について図面を参照して詳細に説明する。図５は、第２の実施形態の構成を示すブロック図である。図５を参照すると、本実施形態は、図１に示す第１の実施形態の構成に加え、被障害監視ノード２００が内部状態選択手段２０４及び内部状態付加手段２０５を持ち、障害監視ノード１００が詳細情報選択手段１０８を持つ。本実施形態は、被障害監視ノード２００の内部状態に関する情報を定期信号に付加することにより、信号遅延のような受信障害に先立ち被障害監視ノード２００の不具合を察知しようとするものである。

被障害監視ノード２００の内部状態選択手段２０４は、定期信号に付加する内部情報としてのリソースの種類及びそのリソースが正常か否かを判断するための条件を選択する。選択内容は、システムの管理者などにより予め設定することができ、例えば、リソースの種類をＣＰＵとし、このＣＰＵが正常に稼動しているか否かをＣＰＵ使用率に基づき判定するという条件を設定する。なお、条件としては、単一の閾値に基づく判定、あるいは複雑な条件分岐を含む判定など、リソースの状態が正常か否かを判定し得るものであれば、どのようなものでもよい。

内部状態付加手段２０５は、内部状態選択手段２０４により指定されたリソースの状態を被障害監視ノード２００の内部情報として定期信号に付加する。図６は、定期信号に内部情報を付加した例である。図示の例において、定期信号３００には、内部状態選択手段２０４により選択されたリソース名３０１と、その状態３０２とを記述する領域が設けられており、複数のリソースについて、それぞれの動作が「正常」であるか、あるいは「異常」であるかが記述される。

本実施形態の定期信号３００について、対象のリソースを上記のＣＰＵとする例を用いて具体的に説明すると、内部状態選択手段２０４がリソースの種類を「ＣＰＵ」とし、そのリソースに付随する条件として「ＣＰＵ使用率５０％以上」を与えた場合、内部状態付加手段２０５は、被障害監視ノード２００におけるＣＰＵ使用率を定期的に監視し、ＣＰＵ使用率が５０％未満である間、リソース名３０１「ＣＰＵ」の状態３０２に「正常」を設定し、これを障害監視ノード１００へ送信する。その後、ＣＰＵ使用率が５０％以上になったとき、図６に示すようにリソース名３０１「ＣＰＵ」の状態３０２を「正常」から「異常」に変更して障害監視ノード１００へ送信する。

障害監視ノード１００の定期信号障害判定手段１１１は、受信した定期信号の内部情報を確認することにより「異常」のリソースの有無を監視し、「異常」を検知したとき、その旨を詳細情報選択手段１０８へ通知する。詳細情報選択手段１０８は、定期信号障害判定手段１１１から報告があった異常のリソースに対応する詳細情報を後述の対応表から選択し、その選択内容を情報量切り替え命令送信手段１１２へ通知する。

図７に、詳細情報選択手段１０８が用いる詳細情報対応表４００を示す。詳細情報対応表４００は、リソース名４０１と、取得すべき詳細情報４０２とを関連付けた表であり、異常が報告されたリソース（４０１）について、その異常を解析するために何れの情報（４０２）を詳細情報として取得すべきかを規定したものである。例えば、図６に示す例のようにＣＰＵが「異常」である場合、詳細情報選択手段１０８は、詳細情報対応表４００から「ＣＰＵ」に対応する詳細情報「ＣＰＵ使用率」及び「プロセス生成数」を選択し、これを情報量切り替え命令送信手段１１２に通知する。そして、情報量切り替え命令送信手段１１２が、被障害監視ノード２００に対し、「ＣＰＵ使用率」及び「プロセス生成数」の詳細情報を送信するよう命令する。

ここで、本実施形態の情報量切り替え命令送信手段１１２は、定期信号の受信状況に応じて、次のような作用をなす。情報量切り替え命令送信手段１１２は、定期信号障害判定手段１１１から定期信号の受信障害、すなわち信号の到着遅れ又は消失の報告があった場合は、既述した第１の実施形態における情報量切り替え命令送信手段１０４と同様に動作する。また、受信した定期信号の内部情報から「異常」が検知され、詳細情報選択手段１０８から異常のリソースがあるとの報告を受けた場合、情報量切り替え命令送信手段１１２は、詳細情報対応表４００から選択した詳細情報の内容を被障害監視ノード２００へ通知する。このとき、被障害監視ノード２００の切り離しは行わず、また、過負荷状態判定手段１０７に過負荷状態の判定を指示しない。

詳細情報受信手段１１３の動作は、次の点で第１の実施形態の詳細情報受信手段１０５の動作と異なる。詳細情報受信手段１１３は、詳細情報送信手段２１１から送られてくる詳細情報を詳細情報表示部１０６に表示すると共に、この詳細情報を過負荷状態判定手段１０８へ渡すが、定期信号から「異常」が検知された後であれば、過負荷判定が開始されていないことから、当該詳細情報は詳細情報選択手段１０８にて自動的に破棄される。

被障害監視ノード２００の情報量切り替え手段２１１は、次の点で第１の実施形態の情報量切り替え手段２０２と動作が異なる。情報量切り替え手段２１１は、情報量切り替え命令送信手段１１２から情報量の切り替え命令、すなわち定期信号から詳細情報への切り替え又はその逆の命令が送信されたときは、第１の実施形態で説明した動作手順と同じく動作する。

一方、障害監視ノード１００により、定期信号３００内の状態３０２に「異常」があったことにより、指定された詳細情報を送信するよう指示を受けたときは、その旨を詳細情報送信手段２１２へ通知する。詳細情報送信手段２１２は、情報量切り替え手段２１１より通知された情報を装置内部で収集し、これを詳細情報として詳細情報受信手段１１３へ送信する。このとき、被障害監視ノード２００は、情報量の切り替えを行うことなく、障害監視ノード１００に対し定期信号と詳細情報とを送信することとなる。

図８及び図９のフローチャートを参照して本実施形態の動作について詳細に説明する。以下の説明では、第１の実施形態と同様な手順は省略し、定期信号の内部情報における異常の検知から詳細情報の送信までを説明する。

まず、被障害監視ノード２００は、内部状態選択手段２０４により指定されている「リソース名」について、内部状態付加手段２０５が「条件」に沿って「正常」又は「異常」を定期的に判定し、その判定内容を内部情報として付加し、定期信号送信手段２０１により障害監視ノード１００へ送信する（Ｓ３０１）。

障害監視ノード１００は、被障害監視ノード２００から定期信号３００を受け取ると(Ｓ３０２)、定期信号障害判定手段１１１が定期信号３００の状態をチェックする(Ｓ３０３)。その結果、異常が無い場合(Ｓ３０４：Ｎｏ)、引き続き受信される定期信号について状態のチェックを行う。このとき、定期信号の受信障害についてのチェックも同時に行うが、第１の実施形態における手順と同様であり、ここでは省略する。

一方、定期信号３００内に異常が認められた場合(Ｓ３０４：Ｙｅｓ)、定期信号障害判定手段１１１は、詳細情報選択手段１０８に対し、異常があるリソースを通知する(Ｓ３０５)。例えば、リソース名の「ＣＰＵ」の状態が「異常」である場合は、被障害監視ノード２００のＣＰＵが異常であることを詳細情報選択手段１０８に通知する。通知を受けた詳細情報選択手段１０８は、詳細情報対応表４００から当該リソース名に対応する詳細情報を選択する(Ｓ３０６)。具体的には、図７の対応表４００から、例えば、リソース名「ＣＰＵ」に対応する詳細情報として「ＣＰＵ使用率」及び「プロセス生成数」を選択する。そして、選択した内容を情報量切り替え命令送信手段１１２に伝えることにより(Ｓ３０７)、その内容に沿った詳細情報の送信命令が被障害監視ノード２００へ通知される。

次に、図９のフローチャートを用いて被障害監視ノード２００の動作を説明する。情報量切り替え手段２１１は、情報量切り替え命令送信手段１１２から送られてきた情報を確認し、それが詳細情報対応表４００に基づく詳細情報を指定するものである場合(Ｓ４０１：Ｙｅｓ)、その情報を詳細情報送信手段２１２に通知する。詳細情報送信手段２１２は、通知された内容に対応する情報を収集し詳細情報として障害監視ノード１００へ送信する(Ｓ４０２)。このとき、定期信号送信手段２０１による定期信号の送信は継続されることから、被障害監視ノード２００から障害監視ノード１００に対し、定期信号及び詳細情報の双方が送信されることとなる。

情報量切り替え手段２１１は、定期信号３００の送信から詳細情報の送信への切り替え命令があるかどうかを確認し、切り替え命令がある場合(Ｓ４０３：Ｙｅｓ)、定期信号の送信を停止する(Ｓ４０４)。ここで、先の手順にて内部情報の指定を受けたことにより（Ｓ４０１：Ｙｅｓ）既に詳細情報の送信を実行している場合は（Ｓ４０５：Ｙｅｓ）、そのまま詳細情報の送信を継続する。また、未だ詳細情報の送信が実行されていない場合は（Ｓ４０５：Ｎｏ）、指定された詳細情報を収集し、これを障害監視ノード１００へ送信する（Ｓ４０６）。

一方、詳細情報から定期信号への切り替え命令を受けたときは（Ｓ４０７：Ｙｅｓ）、詳細情報の送信を停止し（Ｓ４０８）、定期信号の送信を再開させる（Ｓ４０９）。

上記説明した第２の実施形態によれば、被障害監視ノード２００のリソースが正常か否かを示す内部情報を定期信号３００に付加し、異常があるリソースに応じて、取得すべき情報を選択することから、致命的な障害が発生する可能性のある部位を障害監視ノード１００側にて絞り込むことができる。また、被障害監視ノード２００に異常が発生していても、障害監視ノード１００側にて定期信号の受信障害がない限りは、異常を検知することは困難であるが、本実施形態によれば、被障害監視ノード２００の異常を速やかに察知することができ、これにより、グループからの切り離しに至る障害を未然に防止することができる。

［第３の実施形態］
本発明の第３の実施形態について図面を参照して詳細に説明する。図１０は、第３の実施形態の構成を示すブロック図である。第３の実施形態のシステムは、図１０に示すように、図１に示す第１の実施形態の被障害監視ノード２００に、詳細レベル選択手段２０６を追加したものである。詳細レベル選択手段２０６は、障害監視ノード１００へ詳細情報を送信する際に、自装置の負荷及びネットワーク負荷に応じて、送信する詳細情報を切り替える機能を果たす。

詳細レベル選択手段２０６は、詳細情報の切り替えにあたり、ノード負荷及びネットワーク負荷についてレベルを設定し、当該レベルに応じて詳細情報の内容を変化させる。レベルごとの詳細情報の内容は、後述の階層表に基づき決定する。図１１に、詳細レベル選択手段２０６が用いる詳細情報階層表５００を示す。詳細情報階層表５００は、負荷のレベルである詳細レベルと、取得すべき詳細情報の内容とを関連付けたものであり、図示の表は、詳細レベルの数値が高いほど、ノード及びネットワークの負荷が高いことを表す。また、図示の丸印は、各レベルが設定された際に選択すべき詳細情報の内容を示し、例えば、詳細レベル「１」の場合は、詳細情報として「ＣＰＵ使用率」、「メモリ使用量」及び「ネットワーク転送率」を選択することが規定されている。

詳細レベル選択手段２０６による詳細レベルの設定には、例えば、次の式（１）を用いてノード負荷及びネットワーク負荷からなる負荷率を求める。そして、求めた結果に、全レベル数Ｎを乗じ、その整数部分を詳細レベルとして設定する。ここで、α及びβは、ノード負荷及びネットワーク負荷の比率であり、式（２）の定義を満たす範囲で適宜設定する。
負荷率＝(ＣＰＵ使用率ｘα)＋(ネットワーク帯域使用率ｘβ) ・・・（１）
１≧(α,β)≧０ α＋β＝１・・・（２）
詳細レベルの設定について、一例を挙げると、詳細レベルを１０段階（N=10）、負荷の比率を「α：β＝0.8：0.2」としたときに、ＣＰＵ使用率が５０％、ネットワーク帯域使用率が３０％であったとする。この場合、上記式（１）より、負荷率は「0.46」となり、これに全レベル数（N=10）を掛けることにより、詳細レベル「４」を得る。詳細レベル選択手段２０６は、上述の演算に基づく詳細情報の切り替え判断を、所定期間ごと、あるいは詳細情報の送出ごとに行い、詳細レベルの変化に従い、取得すべき詳細情報の内容を変化させる。

上記説明した第３の実施形態によれば、ノード及びネットワークの負荷状況に応じて詳細情報の内容を調整することから、ノードやネットワークの過負荷状態により、被障害監視ノード２００から詳細情報を全く送信することができないという事態を回避することができる。

［第３の実施形態の変形］
図１０に示す詳細レベル選択手段２０６と同様な機能を果たす手段を、被障害監視ノード２００に代えて障害監視ノード１００に設置することができる。この場合、最初の詳細情報は詳細レベル「１」にて取得し、その後、上記式（１）を用いて、ノード及びネットワークの負荷率に対応する詳細レベルを適用する。そして、適用する詳細レベルを被障害監視ノード２００へ通知し、被障害監視ノード２００が、通知されたレベルに基づき詳細情報を生成する。この形態によれば、詳細レベルを求める演算を障害監視ノード１００側で行う分、被障害監視ノード２００の負荷を軽くすることができる。

［第４の実施形態］
本発明の第４の実施形態について図面を参照して詳細に説明する。図１２は、第４の実施形態の構成を示すブロック図である。本実施形態のシステムは、図１に示す第１の実施形態の障害監視ノード１００に簡易障害判定手段１０９を追加し、被障害監視ノード２００に障害対応手段２０７を追加したものである。

障害監視ノード１００では、定期信号３００に受信障害が発生し、詳細情報への切り替えが発生した時に、被障害監視ノード２００から送られてきた詳細情報が簡易障害判定手段１０９に通知される。

簡易障害判定手段１０９は、詳細情報受信手段１０５から渡された詳細情報を、後述の判定表に基づき検査する。図１３に、簡易障害判定手段１０９が用いる簡易障害判定表６００の例を示す。簡易障害判定表６００には、図１３に示すように、障害名６０１、障害条件６０２、障害対処法６０３の３つの項目がある。各項目の情報は、予めファイルに記述されており、適宜追加することができる。簡易障害判定手段１０９は、被障害監視ノード２００から送られてきた詳細情報が障害条件６０２に当てはまるか否かを調査し、該当する障害条件６０２があるなら、これに対応する障害対処法６０３を障害対処手段２０７に送信する。

障害対処法の送信について、一例を挙げると、被障害監視ノード２００からの詳細情報から、Ｉ／Ｏ転送量がλ以下になり、且つディスク書き込みエラーが発生していることが読み取られた場合には、その障害名６０１は「ディスク障害」であると判定し、被障害監視ノード２００が行うべき障害対処法６０３として、「ディスクチェック」の後に「再起動」するという命令を送る。

被障害監視ノード２００は、障害監視ノード１００から対処法を受けると、当該処理を障害対処手段２０７により実行する。障害対処手段２０７は、実行した処理の結果を障害監視ノード１００の簡易障害判定手段１０９に通知する。このとき、対処法が正常に終了した場合は、対処法が正常に終了したことを通知し、正常に終了しない場合は、対処法が異常終了した旨を通知する。

簡易障害判定手段１０９は、対処法が正常に終了した通知を受けると、グループ管理手段１０３に対して被障害監視ノード２００のグループへの復帰を要求し、情報量切り替え命令送信手段１０４に、詳細情報から定期信号への切り替えを被障害監視ノード２００に対して送信するように要求する。また、対処法が異常終了した場合には、情報量切り替え命令送信手段１０４及びグループ管理手段１０３に対する上記の要求は行わず、障害としてユーザに通知する。

なお、被障害監視ノード２００における対処法の実行にあたっては、ディスクチェックや再起動など、予め被障害監視ノード２００に装備されているプログラムを実行させることに代えて、簡易障害判定手段１０９からテストパターンのプログラムを送信し、そのテストパターンを被障害監視ノード２００が実行するという方法を用いてもよい。

図１４に、テストパターンプログラムの例を示す。テストパターンプログラム７００には、被障害監視ノード２００にて実行すべきテストパターンが記載されている。図示の例は、簡易障害判定手段１０９にて、障害名６０１として「ネットワークカード障害」が判定されたことにより、「テストパターンＡ実行後再起動」という対処法６０３が選択された場合のテストパターンプログラム７００である。

障害対応手段２０７は、送信されたテストパターンプログラム７００を使って、図１４の「テストパターンＡ」を実行する。テストパターンＡでは、自装置のネットワークカードの動作チェックを行い、ネットワークカードが正常かどうかを判断する。そして、ネットワークの応答確認を行い、その結果、送信パケット数と受信パケット数とが一致すれば、正常終了し、そうでなければエラーログを被障害監視ノード２００に出力し、テストパターンＡを終了する。

なお、上述のネットワークカードのチェックは、例えば、ＯＳに付属のハードウェア診断ツールを使い、ネットワークの応答確認には、ＯＳに付属のＰＩＮＧコマンドなどを用いると良い。また、対処法に再起動が含まれる場合は、対処法が終了したことを簡易障害判定手段１０９に送信するというフラグを立てておいて、再起動後にメッセージを送信する。

上記説明した第４の実施形態によれば、過負荷状態であった被障害監視ノード２００をグループに復帰させるだけでなく、障害が発生した被障害監視ノード２００に対し、障害を解消してグループに復帰させるよう導くことから、障害が起こっても自動的に回復させることが可能となり、これにより、クラスタの性能劣化を防ぐことができる。

本発明は、データセンターなど大規模クラスタを運用するような場所で、クラスタを一つの障害監視ノードにて管理するという用途に好適である。

本発明の第１の実施形態の構成を示すブロック図である。第１の実施形態における一時切り離し処理に関する手順のフローチャートである。第１の実施形態における障害監視ノードの動作手順を示すフローチャートである。第１の実施形態における被障害監視ノードの動作手順を示すフローチャートである。本発明の第２の実施形態の構成を示すブロック図である。第２の実施形態における定期信号の説明図である。第２の実施形態における詳細情報対応表の説明図である。第２の実施形態の動作手順を示すフローチャートである。第２の実施形態における被障害監視ノードの動作手順を示すフローチャートである。本発明の第３の実施形態の構成を示すブロック図である。第３の実施形態における詳細情報階層表の説明図である。本発明の第４の実施形態の構成を示すブロック図である。第４の実施形態における簡易障害対応表の説明図である。第４の実施形態におけるテストパターンプログラムの説明図である。従来の障害監視システムの構成を示すブロック図である。

符号の説明

１００障害監視ノード
２００被障害監視ノード
１０１：定期信号受信手段、１０２,１１１：定期信号障害判定手段、１０３：グループ管理手段、１０４,１１２：情報量切り替え命令送信手段、１０５,１１３：詳細情報受信手段、１０６：詳細情報表示部、１０７：過負荷状態判定手段、１０８：詳細情報選択手段、１０９：簡易障害判定手段、２０１：定期信号送信手段、２０２,２１１：情報量切り替え手段、２０３：詳細情報送信手段、２０４：内部状態選択手段、２０５：内部状態付加手段：２０６：詳細レベル選択手段、２０７：障害対処手段

Claims

外部装置からの要求が分散して入力される複数の情報処理装置と、該各情報処理装置と通信可能に接続された障害監視装置とを備えるシステムにおける障害監視方法であって、
前記各情報処理装置が、前記障害監視装置に対し所定の時間間隔にて定期信号を送信する処理を実行し、
前記障害監視装置が、前記各情報処理装置から定期信号を受信したか否かを判定し、否のとき、当該情報処理装置に対する外部装置からの要求の入力を停止させ、該停止後、前記情報処理装置から該装置の動作状況を示す詳細情報を取得し該詳細情報に基づき前記情報処理装置の過負荷発生または障害発生のいずれかを判定し、過負荷発生と判定したとき、前記情報処理装置に対する前記入力停止を解除することを特徴とする障害監視方法。
前記障害監視装置が、詳細情報に基づく前記判定を過負荷発生としたとき、前記情報処理装置の過負荷状態が解消傾向にあるか否かを判定し、解消傾向にあると判定したとき、前記入力停止の解除を実行することを特徴とする請求項１記載の障害監視方法。
前記各情報処理装置が、自装置のリソースについて正常か否かを示す内部情報を定期信号に付加し、
前記障害監視装置が、前記各情報処理装置からの定期信号に含まれる内部情報に基づき当該情報処理装置における異常のリソースの有無を判定し、異常のリソースがあるとき、当該リソースに対応し且つ前記情報処理装置が送信すべき詳細情報の内容を該情報処理装置へ通知し、
前記情報処理装置が、前記障害監視装置からの通知に対応する詳細情報を送信することを特徴とする請求項１又は２記載の障害監視方法。
前記各情報処理装置が、自装置およびネットワークの負荷の変化に応じて前記障害監視装置へ送信すべき詳細情報を変化させることを特徴とする請求項１記載の障害監視方法。
前記障害監視装置が、前記情報処理装置およびネットワークの負荷の変化に応じて前記情報処理装置から取得すべき詳細情報を変化させることを特徴とする請求項１記載の障害監視方法。
前記障害監視装置が、詳細情報に基づく前記判定を障害発生としたとき、当該障害を解決するための対処情報を前記情報処理装置へ送信し、
前記情報処理装置が、前記障害監視装置からの対処情報に対応する処理を実行し、該処理が完了したとき該完了の旨を前記障害監視装置へ通知し、
前記障害監視装置が、前記情報処理装置から前記処理の完了を通知されたとき該情報処理装置に対する前記入力停止を解除することを特徴とする請求項１記載の障害監視方法。
外部装置からの要求が分散して入力される複数の情報処理装置と、該各情報処理装置と通信可能に接続された障害監視装置とを備え、
前記各情報処理装置は、
前記障害監視装置に対し所定の時間間隔にて定期信号を送信する処理を実行する定期信号送信手段と、
定期信号の送信後、前記障害監視装置に対し自装置の動作状況を示す詳細情報を送信する詳細情報送信手段とを有し、
前記障害監視装置は、
前記各情報処理装置から定期信号を受信したか否かを判定する定期信号判定手段と、
前記各情報処理装置に対する外部装置からの入力可否の切り替えを行うグループ管理手段と、
前記定期信号判定手段による判定が否のとき、当該情報処理装置に対する外部装置からの要求の入力を停止させ、該停止後、前記情報処理装置から詳細情報を取得し該詳細情報に基づき前記情報処理装置の過負荷発生または障害発生のいずれかを判定し、過負荷発生と判定したとき、前記情報処理装置に対する前記入力停止を解除する監視制御手段とを有することを特徴とする障害監視システム。
前記障害監視装置は、詳細情報に基づく前記判定を過負荷発生としたとき前記情報処理装置の過負荷状態が解消傾向にあるか否かを判定する過負荷状態判定手段を有し、
前記監視制御手段は、前記情報処理装置の過負荷状態が解消傾向にあると判定されたとき、前記入力停止の解除を実行することを特徴とする請求項７記載の障害監視システム。
前記各情報処理装置は、自装置のリソースについて正常か否かを示す内部情報を定期信号に付加する内部状態付加手段を有し、
前記障害監視装置は、前記各情報処理装置からの定期信号に含まれる内部情報に基づき当該情報処理装置における異常のリソースの有無を判定し、異常のリソースがあるとき当該リソースに対応し且つ前記情報処理装置が送信すべき詳細情報の内容を該情報処理装置へ通知する詳細情報選択手段を有することを特徴とする請求項７又は８記載の障害監視システム。
前記各情報処理装置は、自装置およびネットワークの負荷の変化に応じて前記障害監視装置へ送信すべき詳細情報を変化させるレベル選択手段を有することを特徴とする請求項７記載の障害監視システム。
前記障害監視装置は、前記情報処理装置およびネットワークの負荷の変化に応じて前記情報処理装置から取得すべき詳細情報を変化させるレベル選択手段を有することを特徴とする請求項７記載の障害監視システム。
前記障害監視装置は、前記情報処理装置の障害を判別し該障害を解決するための対処情報を前記情報処理装置へ送信する障害判定手段を有し、
前記各情報処理装置は、前記障害監視装置からの対処情報に対応する処理を実行し該処理の完了の旨を前記障害監視装置へ通知する障害対処手段を有し、
前記監視制御手段は、前記情報処理装置から前記処理の完了を通知されたとき該情報処理装置に対する前記入力停止を解除することを特徴とする請求項７記載の障害監視システム。
外部装置からの要求が分散して入力される複数の情報処理装置と通信可能に接続された障害監視装置であって、
前記各情報処理装置から所定の時間間隔にて送信される定期信号を受信したか否かを判定する定期信号判定手段と、
前記各情報処理装置に対する外部装置からの入力可否の切り替えを行うグループ管理手段と、
前記定期信号判定手段による判定が否のとき、当該情報処理装置に対する外部装置からの要求の入力を停止させ、該停止後、前記情報処理装置から該装置の動作状況を示す詳細情報を取得し該詳細情報に基づき前記情報処理装置の過負荷発生または障害発生のいずれかを判定し、過負荷発生と判定したとき、前記情報処理装置に対する前記入力停止を解除する監視制御手段とを有することを特徴とする障害監視装置。
詳細情報に基づく前記判定を過負荷発生としたとき前記情報処理装置の過負荷状態が解消傾向にあるか否かを判定する過負荷状態判定手段を有し、
前記監視制御手段は、前記情報処理装置の過負荷状態が解消傾向にあると判定されたとき、前記入力停止の解除を実行することを特徴とする請求項１３記載の障害監視装置。
前記各情報処理装置のリソースについて正常か否かを示す内部情報が付加された定期信号を受信したとき該定期信号に含まれる内部情報に基づき当該情報処理装置における異常のリソースの有無を判定し、異常のリソースがあるとき当該リソースに対応し且つ前記情報処理装置が送信すべき詳細情報の内容を該情報処理装置へ通知する詳細情報選択手段を有することを特徴とする請求項１３又は１４記載の障害監視装置。
前記情報処理装置およびネットワークの負荷の変化に応じて前記情報処理装置から取得すべき詳細情報を変化させるレベル選択手段を有することを特徴とする請求項１３記載の障害監視装置。
前記各情報処理装置の障害を判別し該障害を解決するための対処情報を当該情報処理装置へ送信する障害判定手段を有し、
前記監視制御手段は、前記情報処理装置から前記対処情報に対応する処理の完了を通知されたとき該情報処理装置に対する前記入力停止を解除することを特徴とする請求項１３記載の障害監視装置。
コンピュータを、請求項１３乃至１７いずれか１項に記載の障害監視装置として機能させることを特徴とするプログラム。