JP2002342180A - 障害自動監視復旧システム - Google Patents

障害自動監視復旧システム

Info

Publication number
JP2002342180A
JP2002342180A JP2001144978A JP2001144978A JP2002342180A JP 2002342180 A JP2002342180 A JP 2002342180A JP 2001144978 A JP2001144978 A JP 2001144978A JP 2001144978 A JP2001144978 A JP 2001144978A JP 2002342180 A JP2002342180 A JP 2002342180A
Authority
JP
Japan
Prior art keywords
failure
fault
monitoring
application
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001144978A
Other languages
English (en)
Inventor
Toshinori Takemura
俊徳 竹村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001144978A priority Critical patent/JP2002342180A/ja
Publication of JP2002342180A publication Critical patent/JP2002342180A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 複数の情報処理サーバで提供され通信網上の
情報処理サービスを1台の監視装置から一括して自動障
害監視/復旧することを可能にする。 【解決手段】 複数のコンピュータ端末21〜2mが通信網
1経由で情報処理サーバ31〜3nに接続して情報処理サー
ビスを受ける。監視装置4は、記憶装置5に蓄積された障
害処置アプリケーション・プログラムを含む情報に基づ
いて、コンピュータ端末21〜2mのユーザと同様に、通信
網1経由で情報処理サーバ31〜3nにアクセスし監視処理
を行う。障害処置アプリケーション・プログラムは、情
報処理サービスの一定の障害ごとに一連の監視/復旧処
理をとしてまとめたものであり、監視装置4、または監
視装置4と情報処理サーバ31〜3nとで実行される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、障害自動監視復旧
システム、特にネットワーク上で提供される情報処理サ
ービスの障害自動監視復旧システムに関する。
【0002】
【従来の技術】従来のこの種の障害自動監視復旧システ
ムについて図14および図15を参照して説明する。
【0003】図14は従来の障害自動監視復旧システムを
示し、監視対象の情報処理サーバ31b〜3nbと、情報処理
サーバ31b〜3nbによって提供される情報処理サービスを
受けるコンピュータ端末21〜2mとが通信網1を介して接
続されている。このシステムでは、コンピュータ端末21
〜2mのユーザから障害の申告があった場合、通信網1の
障害も含め、オペレータが障害原因の切り分け,障害の
処置,障害の復旧確認,障害の復旧報告などを行う。障
害の発生による情報処理サービスの停止期間を短く抑え
るためには、システム側でも、コンピュータ端末21〜2m
のユーザと同じアクセス方法による通信網1を経由した
状態での情報処理サービスの動作確認を定期的に行い、
障害発見時には速やかにこれを復旧する必要がある。
【0004】図15は情報処理サーバ3ib(i=1〜n)の詳
細を示す。図15を参照すると、情報処理サーバ3ibは、
障害監視手段3i3b,障害情報収集手段3i4b,障害分析手
段3i5b,障害処置手段3i6b,障害復旧確認手段3i7bと、
これらの各手段を制御する制御手段3i2bと、制御手段3i
2bを通信網1に接続するネットワークインタフェース3i1
bとから構成され、情報処理サービスを情報処理サーバ
の内部で監視している。
【0005】情報処理サービスの動作状況を監視する障
害監視手段3i3bが障害を検知すると、制御手段3i2bに障
害発生が伝達される。また、通信網1に接続された別の
情報処理サーバからもネットワークインタフェース3i1b
を経由して制御手段3i2bに障害発生が伝達される。する
と、制御手段3i2bは、障害情報収集手段3i4bを呼び出し
てログなどの各種ファイル,プロセスやデーモンの動作
状況など障害に関連する情報を収集し、これを障害分析
手段3i5bに転送して、障害の切り分けと障害原因の特定
を行う。その結果を基に、障害処置手段3i6bが障害に対
する処置を行い、その後障害復旧確認手段3i7bにて障害
の復旧が確認された時点で障害処置が完了する。これら
の処置は、障害発生の検知後は、全て情報処理サーバ3i
b内の情報に基づいて行われ、情報処理サーバ3ib内に閉
じた処理となる。
【0006】
【発明が解決しようとする課題】上述した従来技術で
は、障害の監視/復旧機能が情報処理サーバごとに固定
的に組み込まれているため、障害の監視/復旧機能を動
的に変更することができないという第1の問題点があ
る。
【0007】また、監視の対象が情報処理サーバ内に閉
じているため、複数台の情報処理サーバを一括して監視
することが困難であるという第2の問題点がある。
【0008】更に、障害の監視/復旧機能が情報処理サ
ーバごとに個別に組み込まれているため、監視対象が追
加/変更された場合に全ての情報処理サーバの障害監視
機能を個別に更新しなければならないので、障害の監視
/復旧機能を集中的に管理できないという第3の問題点が
ある。
【0009】更に、複数の障害監視処理が時系列に沿っ
た処理手段で構成されており監視項目ごとにまとめられ
ていないため、監視項目ごとの細かな処理内容の変更が
困難であるという第4の問題点がある。
【0010】更に、通常サービスによって出力されるロ
グのみを分析しているため、障害の細部にわたる分析が
困難であるという第5の問題点がある。
【0011】更に、障害復旧の処理が情報処理サーバ内
に閉じており障害処置の履歴情報を収集する手段が提供
されていないため、障害処置の履歴情報が管理し難いと
いう第6の問題点がある。
【0012】本発明の第1の目的は、様々な種類の障害
に関する監視/復旧処理が容易に追加/更新できる障害自
動監視復旧システムを提供することにある。
【0013】本発明の第2の目的は、複数の監視対象を
容易に追加/変更できる障害自動監視復旧システムを提
供することにある。
【0014】本発明の第3の目的は、障害に関する情報
の収集,障害原因の切り分け,分析,処置をきめ細か
く、かつ効率良く行える障害自動監視復旧システムを提
供することにある。
【0015】本発明の第4の目的は、複合的な障害の監
視/復旧処理を柔軟に行うことができる障害自動監視復
旧システムを提供することにある。
【0016】
【課題を解決するための手段】本発明は、ネットワーク
上の複数の情報処理サーバで提供される情報処理サービ
スを、1台の監視装置によって遠隔から監視し、発生し
た障害を自動的に検知/復旧できる構成を提供するもの
である。
【0017】図1において、通信網1には、複数の情報処
理サーバ31〜3nが接続され、同じく通信網1に接続され
た複数のコンピュータ端末21〜2mが情報処理サーバ31〜
3nに接続して情報処理サービスを受ける。監視装置4
は、記憶装置5に蓄積された情報に基づいて、コンピュ
ータ端末21〜2mのユーザと同様に、通信網1を経由して
情報処理サーバ31〜3nにアクセスし監視処理を行う。情
報処理サーバ31〜3nがそれぞれのサーバ内部に閉じて監
視を行うのではなく、このように、通信網1を経由して
情報処理サーバ31〜3nの監視を行うことにより、複数の
情報処理サーバ31〜3nで動作する情報処理サービスを1
台の監視装置4から一括して自動的に障害監視/復旧する
ことを可能にする。
【0018】図2において、障害処置アプリケーション6
は、障害監視のための環境を構築する処理と、その環境
構築に必要なデータを記憶する部分と、障害を検知する
処理と、障害に関連する情報を収集する処理と、障害の
原因を分析する処理と、障害を復旧する処理と、障害が
復旧したことを確認する処理と、障害復旧のために行っ
た処置の履歴情報を生成する処理と、障害処置の履歴情
報を記憶する部分と、別の障害処置アプリケーション6
と連携して動作するための処理と、障害処置アプリケー
ションの連携情報を記憶する部分から構成されるプログ
ラムである。
【0019】障害処置アプリケーション6は、装置の環
境に依存しない処理コードで記述されている。つまり、
どのような装置であっても障害処置アプリケーション6
を実行することが可能である。また、障害処置アプ リ
ケーション6は、監視対象となる障害に対して、別々の
プログラムとして個別に記述されモジュール化される。
障害監視の設定は、このモジュールの単位で行うことが
できる。これにより、さまざまな種類の障害に対して監
視/復 旧処理を容易に設定することが可能となる。
【0020】監視装置4は、障害処置アプリケーション6
を実行スケジュールにしたがって実行することによっ
て、通信網1を経由して情報処理サーバ3iを監視する装
置である。情報処理サーバ3iは、監視対象である情報処
理サーバ31〜3nのうちの典型的な1台を表す。障害処置
アプリケーション6は、ファイルやその他の形式で提供
されるプログラムで、操作者7によって、障害処置アプ
リケーション登録手段41(図3)から障害処置アプリケ
ーション記憶手段45(図3)を経由して、障害処置アプ
リケーション記憶部52(図3)に記憶される(図5のステ
ッ プA1〜A3)。
【0021】実行スケジュールは、障害処置アプリケー
ション6に対して、その実行を開始する時刻とその処置
対象となる情報処理サーバ31〜3nのリストを保持する情
報であり、操作者7によって、障害処置スケジュール登
録手段42(図3)から障害処置スケジュール記憶手段43
(図3)を経由して、障害処置スケジュール記憶部51
(図3)に記憶される(図6のステップB1〜B3)。
【0022】監視装置4は、複数の情報処理サーバ31〜3
nを監視するため、障害処置アプリケーション6の実行ス
ケジュールを管理しており、実行スケジュールには、障
害処置アプリケーション6の実行開始時刻とその監視対
象の情報処理サーバのリストが含まれる。これにより、
複数台の情報処理サーバ31〜3nの一括監視が可能とな
る。また、実行スケジュールを変更することにより、監
視対象の情報処理サーバを追加/変更したり、監視の頻
度を変更したりすることが容易に可能となる。
【0023】また、障害処置スケジュール記憶手段43
は、障害処置アプリケーション6の実行スケジュールを
障害処置スケジュール記憶部51に記憶した後に、障害処
置アプリケーション6のデータ構築処理の呼び出しを行
う(図6のステップB4〜B10)。これは、障害監視のため
に必要となる環境設定である。
【0024】障害処置スケジュール記憶手段43は、障害
処置アプリケーション記憶手段45に対して、登録された
実行スケジュールの障害処置アプリケーション6とその
監視対象となる情報処理サーバ3iを指定して、障害処置
アプリケーション6のデータ構築処理の呼び出しを依頼
する(図6のステップB4)。障害処置アプリケーション
記憶手段45は、指定された障害処置アプリケーション6
を障害処置アプリケーション記憶部52から取得し、情報
処理サーバ3iを指定して、障害処置アプリケーションデ
ータ構築手段47(図3)に対して、障害処置アプリケー
ション6のデータ構築処理を呼び出す(図6のステップB
5)。
【0025】障害処置アプリケーションデータ構築手段
47は、障害処置アプリケーション6の障害監視環境構築
手段61(図2)を実行する(図6のステップB6)。障害監
視環境構築手段61は、障害処置アプリケーション6が障
害情報の収集時に利用する障害監視用データを、障害監
視用データ記憶部611から取り出して、障害監視環境の
構築処理を行う。障害監視用データは、障害処置アプリ
ケーション6に定義されるデータであって、障害監視を
行うために設定される監視専用のファイルやプログラム
や環境設定データである。
【0026】障害監視環境構築手段61は、取り出した障
害監視用データに含まれる情報から、情報処理サーバ3i
上での障害監視環境の構築が必要かどうかを判断する
(図6のステップB7)。情報処理サーバ3i上での障害監
視用データの構築が不要であれば(図6のステップB7でn
oの場合)、処理を終了する。もし情報処理サーバ3i上
での障害監視用データの構築が必要であれば(図6のス
テップB7でyesの場合)、障害処置アプリケーション6を
障害処置アプリケーション送付手段49(図3)を経由し
て情報処理サーバ3iに転送し、情報処理サーバ3i上の障
害処置アプリケーションデータ構築手段3i3(図4)が障
害監視環境の構築処理を行う(図6のステップB8〜B1
0)。障害監視処理では、ここで構築された障害監視用
データを利用して監視を行う。このようにして、監視対
象となる障害に特化した細かな障害監視環境が構築でき
ることにより、障害分析の効率化と詳細化が可能とな
る。
【0027】障害処置アプリケーション制御手段44(図
3)は、障害処置スケジュール記憶部51に記憶されてい
る実行スケジュールにしたがって、障害処置アプリケー
ション記憶手段45を経由して、障害処置アプリケーショ
ン記憶部52に記憶されている障害処置アプリケーション
6を取得し、障害処置アプリケーション実行手段46(図
3)に転送して、障害処置アプリケーション6を実行する
(図7のステップC1〜C4)。
【0028】障害処置アプリケーション6は、障害検知
手段62(図2)を実行し、障害の有無を調べる(図7のス
テップC5,C6)。その結果、障害が発見されない場合に
は、障害処置アプリケーション6の実行を終了し、障害
監視処理を完了する(図7のステップC6でnoの場合)。
【0029】一方、障害検知手段62によって障害が発見
された場合(図7のステップC6でyesの場合)には、障害
処置アプリケーション6は障害情報収集手段63(図2)を
実行し、障害分析に必要な情報を収集する(図8のステ
ップC7)。障害情報収集手段63は、収集すべき情報が情
報処理サーバ3i上に存在するかどうかを、障害監視用デ
ータ記憶部611の情報から判断する(図8のステップC
8)。全ての情報が監視装置4上で収集できたら、障害処
置アプリケーション6は障害分析手段64(図2)の実行に
移る(図8のステップC8でnoの場合)。収集すべき情報
が情報処理サーバ3i上にも存在する場合には、それらの
情報収集を行う(図8のステップC8でyesの場合(後
述))。
【0030】全ての情報が収集できたら、障害分析手段
64にて収集した障害情報を分析して障害原因を割り出
し、障害処置アプリケーション6は障害処置手段65(図
2)にて障害を復旧し、障害復旧確認手段66(図2)にて
障害が復旧したことを確認し、障害処置履歴生成手段67
(図2)にて障害処置の履歴情報を生成し、障害処置履
歴記憶部671(図2)に記憶する。この時点で障害処置ア
プリケーション6の実行が終了する(図8のステップC9〜
C12)。
【0031】障害処置アプリケーション実行手段46は、
処置を行った障害処置アプリケーション6を障害処置デ
ータ記憶手段4B(図3)に転送する(図8のステップC1
3)。障害処置データ記憶手段4Bは、障害処置アプリケ
ーション6の障害処置履歴記憶部671に記憶されている障
害処置の履歴情報を障害処置データ記憶部53に記憶し
(図8のステップC23)、障害処置アプリケーション6を
障害処置アプリケーション連携手段48(図3)に転送す
る(図10のステップC24)。障害処置アプリケーション
連携手段48は、障害処置アプリケーション6の障害処置
連携手段68(図2)を実行し、他の障害処置アプリケー
ション6との連携情報を取得する(図8のステップC2
5)。
【0032】その結果、連携が不要な場合(図8のステ
ップC26でnoの場合)には、障害監視処理を完了する。
連携が必要な場合(図8のステップC26でyesの場合)に
は、障害処置連携手段68は障害処置アプリケーション制
御手段44に連携すべき障害処置アプリケーション6の情
報を通知し、処理を継続してその障害処置アプリケーシ
ョン6を実行する(図8のステップC27)。このように、
複数の障害処置アプリケーション6を連携させることに
より、複合的な障害の監視/復旧処理を柔軟に設定する
ことが可能となる。
【0033】障害処置アプリケーション6は、障害情報
収集手段63の実行において、収集すべき情報が監視装置
4以外に存在すると判断した場合(図7のステップC8でye
sの場合)、障害処置アプリケーション6を情報収集先の
情報処理サーバ3iに転送するように、障害処置アプリケ
ーション実行手段46に通知する(図8のステップC14)。
障害処置アプリケーション実行手段46は、障害処置アプ
リケーション6を障害処置アプリケーション送付手段49
と情報処理サーバ3i上の障害処置アプリケーション受取
手段3i1(図4)を経由して、障害処置アプリケーション
実行手段3i4(図4)に転送し、情報処理サーバ3i上で障
害処置アプリケーション6の障害情報収集手段63の実行
を継続する(図8のステップC15〜C17)。これ以降、障
害処置アプリケーション6実行終了までの処理は、監視
装置4上での実行と同様の処理となる(図8のステップC1
8〜C21)。
【0034】障害処置アプリケーション6は、その実行
が終了した時点で障害処置アプリケーション送付手段3i
2(図4)と監視装置4の障害処置アプリケーション受取
手段4A(図3)を経由して、障害処置データ記憶手段4B
に転送される(図8のステップC22)。障害処置データ記
憶手段4Bは、転送された障害処置アプリケーション6の
障害処置履歴記憶部671から障害処置の履歴情報を取得
し、障害処置データ記憶部53に記憶する(図8のステッ
プC23)。これにより、障害処置の履歴情報の一元管理
が可能となる。これ以降の処理は、監視装置4上での実
行と同様の処理となる(図8のステップC24〜C27)。こ
のように、監視対象となる情報処理サーバ3i上に障害処
置アプリケーションを転送して実行することにより、情
報処理サーバ3i内部の詳細な情報が取得でき、障害に関
する情報の収集や障害の処置をきめ細かく行うことがで
きる。
【0035】以上のように、本発明によれば、(1)様々
な種類の障害に関する監視/復旧処理が容易に追加/更新
できること、(2)1台の監視装置から複数台の情報処理サ
ーバ31〜3nを一括して監視できること、(3)監視したい
情報処理サーバが容易に追加/変更できること、(4)障害
に関する情報の収集や障害原因の分析が効率よく行える
こと、(5)複合的な障害の監視/復旧処理が柔軟に設定で
きること、(6)障害処置の履歴情報が一元管理できるこ
と、(7)障害に関する情報の収集や障害の処置がきめ細
かく行えることが可能になる。
【0036】
【発明の実施の形態】本発明の障害自動監視復旧システ
ムは、通信網上で複数の情報処理サーバにより提供され
る情報処理サービスの一定の障害ごとに一連の監視/復
旧処理を障害処置アプリケーション・プログラムとして
まとめ、該障害処置アプリケーション・プログラムの全
てを通信網に接続された監視装置上で一括管理し、該監
視装置が障害処置アプリケーション・プログラムを実行
することにより、通信網を経由して情報処理サーバの監
視/復旧を行うことを特徴とする。
【0037】また、本発明の監視装置は、操作者から提
供される障害処置アプリケーション・プログラムを入力
し記憶装置に書き込む障害処置アプリケーション書込み
部と、操作者によって指定される実行スケジュールを入
力し記憶装置に書き込む障害処置スケジュール書込み部
と、障害処置アプリケーション・プログラムを記憶装置
から読み出す障害処置アプリケーション読出し部と、実
行スケジュールを記憶装置から読み出す障害処置スケジ
ュール読出し部と、読み出された障害処置アプリケーシ
ョン・プログラムに定義されている障害監視用データの
構築処理を実行する障害処置アプリケーションデータ構
築部と、読み出された実行スケジュールまたは障害処置
アプリケーション・プログラムの連携機能にしたがっ
て、障害処置アプリケーション・プログラムの実行開始
処理を行う障害処置アプリケーション制御部と、読み出
された障害処置アプリケーション・プログラムが持つ障
害検知/情報収集/分析/復旧処置/復旧確認/処置履歴生
成の各処理を実行する障害処置アプリケーション実行部
と、複数の障害処置アプリケーション・プログラムが連
携する場合の連携処理を行う障害処置アプリケーション
連携部と、障害処置アプリーション・プログラムが行っ
た障害処置の履歴情報の記憶処理を行う障害処置データ
記憶部とを含むことを特徴とする。
【0038】また、本発明の情報処理サーバは、監視装
置から転送される障害処置アプリケーション・プログラ
ムを受け取る障害処置アプリケーション受取部と、障害
処置アプリケーション・プログラムに定義されている障
害監視用データの構築処理を行う障害処置アプリケーシ
ョンデータ構築部と、障害処置アプリケーション・プロ
グラムが持つ障害情報収集/分析/復旧処置/復旧確認/処
置履歴生成の各処理を実行する障害処置アプリケーショ
ン実行部と、実行が完了した障害処置アプリケーション
・プログラムを前記監視装置に転送する障害処理アプリ
ケーション送付部とを含むことを特徴とする。
【0039】
【実施例】次に、本発明の実施例について図面を参照し
ながら説明する。
【0040】図1を参照すると、本発明の障害自動監視
復旧システムの一実施例は、通信網1に接続された監視
装置4と、監視対象の情報処理サーバ31〜3nと、情報処
理サーバ31〜3nによって提供される情報処理サービスを
受けるコンピュータ端末21〜2mと、監視装置4に接続さ
れ障害の監視/復旧に関連する情報を記憶する記憶装置5
とで構成される。記憶装置5が記憶する情報には、個々
の障害ごとに監視方法や処置方法を記述した障害処置ア
プリケーション6(図2に図示)が含まれる。
【0041】図1において、通信網1には、情報処理サー
バ31〜3nが接続され、同じく通信網1に接続された複数
のコンピュータ端末21〜2mが情報処理サーバ31〜3nに接
続して情報処理サービスを受ける。監視装置4は、記憶
装置5に蓄積された情報に基づいて、コンピュータ端末2
1〜2mのユーザと同様に、通信網1を経由して情報処理サ
ーバ31〜3nにアクセスし監視処理を行う。本発明では、
このように、情報処理サーバ31〜3nの内部に閉じて監視
を行うのではなく、通信網1を経由して情報処理サーバ3
1〜3nの監視を行うことにより、複数の情報処理サーバ3
1〜3nで提供され情報処理サービスを1台の監視装置4か
ら一括して自動障害監視/復旧することを可能にする。
【0042】図2に示す障害処置アプリケーション6は、
障害監視処理や障害発見時の自動復旧処理が記述された
プログラムであり、監視したい障害に応じて別々のプロ
グラムとして個別に記述されモジュール化される。この
記述は監視対象の装置の環境に依存しない処理コードで
される。障害処置アプリケーション6は、障害監視環境
構築手段61,障害監視用データ記憶部611,害検知手段6
2,障害情報収集手段63,障害分析手段64,障害処置手
段65,障害復旧確認手段66,障害処置履歴生成手段67,
障害処置履歴記憶部671,障害処置連携手段68および障
害処置連携情報記憶部681から構成される。
【0043】障害監視環境構築手段61は、障害監視や障
害原因の切り分けに必要な障害監視用データを生成した
り、環境設定を行ったりすることにより、障害監視のた
めの環境を構築する。障害監視用データ記憶部611は、
生成される障害監視用データとその生成場所,必要な環
境設定といった、障害監視環境構築手段61が障害監視の
ための環境構築に必要とする情報を記憶する。障害検知
手段62は、障害監視環境構築手段61によって生成された
障害監視用データにアクセスして、障害の有無を検査す
る。障害情報収集手段63は、検知された障害に関連する
情報を収集する。障害分析手段64は、収集された障害関
連情報から障害の原因を分析する。
【0044】障害処置手段65は、障害原因に対応した障
害復旧処理を実行する。障害復旧確認手段66は、障害が
復旧したことを確認する。障害処置履歴生成手段67は、
障害復旧のために行った処置の履歴情報を生成し、障害
処置履歴記憶部671にその障害処置の履歴情報を記憶す
る。障害処置連携手段68は、別の障害処置アプリケーシ
ョン6と連携して動作するための情報を障害処置連携情
報記憶部681から取得し、連携処理を行う。障害処置連
係情報記憶部681は、障害処置アプリケーション6が行っ
た処置に応じて、処理を継続して行うべき別の障害処置
アプリケーション6の情報を記憶する。
【0045】図3は監視装置4および記憶装置5の詳細を
示す。図3において、監視装置4は、障害処置アプリケー
ション6をスケジュールにしたがって動作させることよ
って、監視対象の情報処理サーバ3i(i=1〜n)を通信網
1経由で監視し、検知された障害に対して、障害処置ア
プリケーション6による復旧処理を実行して障害を復旧
させるという機能を持った装置である。監視装置4は、
障害処置アプリケーション登録手段41,障害処置スケジ
ュール登録手段42,障害処置スケジュール記憶手段43,
障害処置アプリケーション制御手段44,障害処置アプリ
ケーション記憶手段45,障害処置アプリケーション実行
手段46,障害処置アプリケーションデータ構築手段47,
障害処置 アプリケーション連携手段48,障害処置アプ
リケーション送付手段49,障害処置アプリケーション受
取手段4Aおよび障害処置データ記憶手段4Bから構成され
る。
【0046】障害処置アプリケーション登録手段41は、
ファイルやその他の形式で提供される障害処置アプリケ
ーション6自体をデータとして取得し、障害処置アプリ
ケーション記憶手段45による記憶処理機能を呼び出す。
障害処置スケジュール登録手段42は、操作者7によって
指定される障害処置アプリケーション6の実行スケジュ
ールをデータとして取得し、障害処置スケジュール記憶
手段43の記憶処理機能を呼び出す。実行スケジュール
は、その障害処置アプリケーション6が実行される時刻
と、監視対象となる情報処理サーバ31〜3nのリストで構
成される情報である。
【0047】障害処置スケジュール記憶手段43は、障害
処置アプリケーション6の実行スケジュールの記憶処理
と取得処理を行う。障害処置アプリケーション制御手段
44は、実行スケジュールや障害処置アプリケーション6
の連携機能にしたがって、障害処置アプリケーション6
の実行開始処理を行う。障害処置アプリケーション記憶
手段45は、障害処置アプリケーション6自体の記憶処理
と実行時の取得処理を行う。障害処置アプリケーション
実行手段46は具体的な監視復旧処理として、障害処置ア
プリケーション6が持つ障害検知/情報収集/分析/復旧処
置/復旧確認/処置履歴生成の各処理を実行する。障害処
置アプリケーションデータ構築手段47は、障害処置アプ
リケーション6の障害監視用データの構築処理を実行す
る。
【0048】障害処置アプリケーション連携手段48は、
複数の障害処置アプリケーション6が連携する場合の連
携処理を行う。障害処置アプリケーション送付手段49
は、障害処置アプリケーション6が情報処理サーバ3i上
で実行される場合に、その転送処理を行う。障害処置ア
プリケーション受取手段4Aは、情報処理サーバ3i上で実
行された障害処置アプリケーション6の監視装置4側での
受け取り処理を行う。障害処置データ記憶手段4Bは、障
害処置アプリーション6が行った障害処置の履歴情報の
記憶処理を行う。
【0049】記憶装置5は、障害処置スケジュール記憶
部51と、障害処置アプリケーション記憶部52と、障害処
置データ記憶部53とから構成される。障害処置スケジュ
ール記憶部51には、障害処置スケジュール記憶手段43が
障害処置アプリケーション6の実行スケジュールを記憶
する。障害処置アプリケーション記憶部52には、障害処
置アプリケーション記憶手段45が障害処置アプリケーシ
ョン6を記憶する。障害処置データ記憶部53には、障害
処置データ記憶手段411が障害処置の履歴情報を記憶す
る。
【0050】図4は情報処理サーバ3iの詳細を示す。図4
において、情報処理サーバ3iは、障害処置アプリケーシ
ョン受取手段3i1,障害処置アプリケーション送付手段3
i2,障害処置アプリケーションデータ構築手段3i3およ
び障害処置アプリケーション実行手段3i4から構成され
る。障害処置アプリケーション受取手段3i1は、監視装
置4から転送される障害処置アプリケーション6を受け取
る。障害処理アプリケーション送付手段3i2は、実行が
完了した障害処置アプリケーション6を監視装置4に転送
する。障害処置アプリケーションデータ構築手段3i3
は、障害処置アプリケーション6の障害監視用データの
構築処理を行う。障害処置アプリケーション実行手段3i
4は、具体的な障害復旧処理として、障害処置アプリケ
ーション6が持つ障害情報収集/分析/復旧処置/復旧確認
/処置履歴生成の各処理を実行する。
【0051】次に、本実施例の動作について、図5,図
6,図7および図8に示すフローチャートを参照しながら
説明する。図5は障害処理アプリケーション6を登録する
場合のフローチャートである。図5において、操作者7
は、障害処置アプリケーション6を登録するために、障
害処置アプリケーション登録手段41を呼び出す(図5の
ステップA1)。障害処置アプリケーション登録手段41
は、ファイルやその他の形式で提供される障害処置アプ
リケーション6を障害処置アプリケーション記憶手段45
に転送する(図5のステップA2)。障害処置アプリケー
ション記憶手段45は、障害処置アプリケーション6を障
害処置アプリケーション記憶部52に記憶する(図5のス
テップA3)。
【0052】図6は、実行スケジュールの登録および障
害監視環境の構築を示すフローチャートである。図6に
おいて、操作者7は、障害処置アプリケーション6の実行
スケジュールを登録するために、障害処置スケジュール
登録手段42を呼び出す(図6のステップB1)。障害処置
スケジュール登録手段42は、GUIやファイルやその他の
形式で提供される実行スケジュールを障害処置スケジュ
ール記憶手段43に転送し、障害処置スケジュール記憶部
51に記憶させる(図6のステップ B2〜B3)。監視装置4
は、複数の情報処理サーバ31〜3nを監視するため、障害
処置アプリケーション6の実行スケジュールを管理して
おり、実行スケジュールには、障害処置アプリケーショ
ン6の実行開始時刻とその監視対象の情報処理サーバの
リストが含まれる。
【0053】続いて、障害処置スケジュール記憶手段43
は、障害処置アプリケーション記憶手段45に対して、登
録された実行スケジュールの障害処置アプリケーション
6とその監視対象となる情報処理サーバ3iを指定して、
障害処置アプリケーション6のデータ構築処理機能の呼
び出しを依頼する(図6のステップB4)。障害処置アプ
リケーション記憶手段45は、指定された障害処置アプリ
ケーション6を障害処置アプリケーション記憶部52から
取得し、情報処理サーバ3iを指定して、障害処置アプリ
ケーションデータ構築手段47に対して、障害処置アプリ
ケーション6のデータ構築処理を依頼する(図6のステッ
プB5)。
【0054】障害処置アプリケーションデータ構築手段
47は、障害処置アプリケーション6の障害監視環境構築
手段61を実行する(図6のステップB6)。障害監視環境
構築手段61は、障害処置アプリケーション6が障害情報
の収集時に利用する障害監視用データを、障害監視用デ
ータ記憶部611から取り出して障害監視環境の構築を行
う。障害監視用データは、障害処置アプリケーション6
に定義されるデータであって、障害監視を行うために設
定される監視専用のファイルやプログラムや環境設定で
ある。障害監視環境構築手段61は、取り出した障害監視
用データに含まれる情報から、情報処理サーバ3i上での
障害監視環境の構築が必要かどうかを判断する(図6の
ステップB7)。
【0055】情報処理サーバ3i上での障害監視用データ
の構築が不要であれば(図6のステップB7でnoの場
合)、処理を終了する。もし、情報処理サーバ3i上での
障害監視用データの構築が必要であれば(図6のステッ
プB7でyesの場合)、障害監視環境構築手段61は、障害
処置アプリケーションデータ構築手段47に対して、障害
処置アプリケーション6をデータ構築先の情報処理サー
バ3iに転送するように通知する(図6のステップB8)。
障害処置アプリケーションデータ構築手段47は、障害処
置アプリケーション6を障害処置アプリケーション送付
手段49に転送する。障害処置アプリケーション送付手段
49は、通信網1を経由して情報処置サーバ3iに障害処置
アプリケーション6を送付する。
【0056】情報処理サーバ3iでは、障害処置アプリケ
ーション受取手段3i1を経由して、障害処置アプリケー
ションデータ構築手段3i3に障害処置アプリケーション6
を転送する(図6のステップB9)。障害処置アプリケー
ションデータ構築手段3i3は、障害処置アプリケーショ
ン6の障害監視環境構築手段61を実行する(図6のステッ
プB10)。障害監視環境構築手段61は、障害監視用デー
タ記憶部611から障害監視用データを取得し、その中に
記述されている手順にしたがって、ファイルやプログラ
ムを所定の位置に出力し、必要な設定を行って環境構築
処理を終了する。障害監視処理では、ここで構築された
障害監視用データを利用して監視を行う。
【0057】図7および図8は障害処置を示すフローチャ
ートである。図7において、障害処置アプリケーション
制御手段44は、障害処置スケジュール記憶手段43を経由
して障害処置スケジュール記憶部51から取得した実行ス
ケジュールにしたがって、障害処置アプリケーション6
を障害処置アプリケーション記憶手段45経由で障害処置
アプリケーション記憶部52から取得し、障害処置アプリ
ケーション実行手段46に転送する(図7のステップC1〜C
3)。障害処置アプリケーション実行手段46は、障害処
置アプリケーション6を実行する(図7のステップC4)。
障害処置アプリケーション6は、障害検知手段62を実行
し、障害の有無を調べる(図7のステップC5,C6)。障
害が発見されない場合には、障害処置アプリケーション
6の実行を終了し、障害監視処理を完了する(図7のステ
ップC6でnoの場合)。
【0058】一方、障害検知手段62によって障害が発見
された場合(図7のステップC6でyesの場合)には、障害
情報収集手段63を実行し、障害分析に必要な情報を収集
する(図7のステップC7)。障害情報収集手段63は、収
集すべき情報が監視装置4以外に存在するかどうかを、
障害監視用データ記憶部611の情報から判断する(図7の
ステップC8)。全ての情報が監視装置4上で収集できた
ら、(図8のステップC8でnoの場合)障害分析手段64の
実行に移る。収集すべき情報が情報処理サーバ3i上にも
存在する場合(図8のステップC8でyesの場合)には、そ
れらの情報収集を行う。
【0059】全ての情報が収集できた場合(図7のステ
ップC8でnoの場合)には、障害分析手段64にて収集した
障害情報を分析して障害原因を割り出し(図7のステッ
プC9)、障害処置手段65にて障害を復旧し(図7のステ
ップC10)、障害復旧確認手段66にて障害が復旧したこ
とを確認し(図7のステップC11)、障害処置履歴生成手
段67にて障害処置の履歴情報を生成し障害処置履歴記憶
部671に記憶する。この時点で障害処置アプリケーショ
ン6の実行が終了する(図8のステップC12)。
【0060】障害処置アプリケーション実行手段46は、
処置を行った障害処置アプリケーション6を障害処置デ
ータ記憶手段4Bに転送する(図8のステップC13)。障害
処置データ記憶手段4Bは、障害処置アプリケーション6
の障害処置履歴記憶部671から障害処置の履歴情報を取
得し、障害処置データ記憶部53に記憶して(図8のステ
ップC23)、障害処置アプリケーション6を障害処置アプ
リケーション連携手段48に転送する(図8のステップC2
4)。障害処置アプリケーション連携手段48は、障害処
置アプリケーション6の障害処置連携手段68を実行し
て、他の障害処置アプリケーション6との連携情報を取
得し、引き続き実行すべき障害処置アプリケーション6
の情報を収集する(図8のステップC25)。
【0061】連携が不要な場合(図8のステップC26でno
の場合)には、障害監視処理を完了する。連携が必要な
場合(図8のステップC26でyesの場合)には、障害処置
アプリケーション制御手段44に連携すべき障害処置アプ
リケーション6の情報を通知し(図8のステップC27)、
処理を継続してその障害処置アプリケーション6を実行
する(図7のステップC2)。
【0062】一方、障害情報収集手段63は、障害処置ア
プリケーション6が収集すべき情報が情報処理サーバ3i
上に存在すると判断した場合(図8のステップC8でyesの
場合)、障害処置アプリケーション6を情報収集先の情
報処理サーバ3iに転送するように、障害処置アプリケー
ション実行手段46に通知する(図8のステップC14)。障
害処置アプリケーション実行手段46は、障害処置アプリ
ケーション6を障害処置アプリケーション送付手段49に
転送する。障害処置アプリケーション送付手段49は、障
害処置アプリケーション6を情報処理サーバ3i上の障害
処置アプリケーション受取手段3i1に転送する。
【0063】障害処置アプリケーション受取手段3i1
は、障害処置アプリケーション実行手段3i4に障害処置
アプリケーション6を転送する(図8のステップC15)。
障害処置アプリケーション実行手段3i4は、情報処理サ
ーバ3i上で障害処置アプリケーション6の障害情報収集
手段63の実行を継続する(図8のステップC16,C17)。
それ以降、実行終了までの処理は、監視装置4上での実
行と同様の処理となる(図8のステップC18からC21)。
障害処置アプリケーション6は、その実行が終了した時
点で、障害処置アプリケーション実行手段3i4により、
障害処置アプリケーション送付手段3i2に転送される。
障害処置アプリケーション送付手段3i2は、障害処置ア
プリケーション6を監視装置4の障害処置アプリケーショ
ン受取手段4Aに転送する。
【0064】障害処置アプリケーション受取手段4Aは、
障害処置アプリケーション6を障害処置データ記憶手段4
Bに転送する(図8のステップC22)。障害処置データ記
憶手段4Bは、転送された障害処置アプリケーション6の
障害処置履歴記憶部671から障害処置の履歴情報を取得
し、障害処置データ記憶部53に記憶する(図8のステッ
プC23)。これにより、障害処置の履歴情報が監視装置4
上で一元管理されることになる。これ以降の処理は、監
視装置4上での実行と同様の処理となる(図8のステップ
C24〜C27)。
【0065】次に、本実施例について具体例を用いて説
明する。EC(Electric Commerce)サイトを始めとする
ユーザ認証が必要なWWWシステムでは、WWWサーバと認証
サーバの障害はそのままサービス停止につながるため、
この部分の障害監視は極めて重要なものとなる。以下で
は、WWWサーバと認証サーバの自動障害監視/復旧処理に
ついて説明する。
【0066】図9はWWWサーバ31aと認証サーバ32aの詳細
を示す。図9において、WWWサーバ31aと認証サーバ32aが
通信網1に接続されている。WWWサーバ31aは、障害処置
アプリケーション受取手段311,障害処置アプリケーシ
ョン送付手段312,障害処置アプリケーションデータ構
築手段313,障害処置アプリケーション実行手段314およ
びWWWサーバプロセス317から構成される。また、認証サ
ーバ32aは、障害処置アプリケーション受取手段321,障
害処置アプリケーション送付手段322,障害処置アプリ
ケーション実行手段324および認証サーバプロセス327か
ら構成される。
【0067】この具体例では、図3に示した障害処置ア
プリケーション記憶部52にはWWWサーバ障害処置アプリ
ケーション6a(図10)と認証サーバ障害処置アプリケー
ション6b(図11)が記憶される。WWWサーバ障害処置ア
プリケーション6aは、WWWサーバの障害監視/復旧のため
の障害処置アプリケーション6であり、障害監視用デー
タとして、監視対象のサーバ上に出力される認証コンテ
ンツ315,認証不要コンテンツ316と、それらの監視対象
のサーバ上での出力先の情報とを保持する。以下では、
認証コンテンツ315および認証不要コンテンツ316を障害
監視用コンテンツと総称する。
【0068】図10はWWWサーバ障害処置アプリケーショ
ン6aの詳細を示す。図10において、WWWサーバ障害処置
アプリケーション6aは、障害監視用データを記憶するWW
Wサーバ障害監視用データ記憶部611a,そこから取得し
た障害監視用コンテンツをWWWサーバ31上に出力するWWW
サーバ障害監視環境構築手段61a,障害監視用コンテン
ツにアクセスしてWWWサーバ31aの応答を調べるWWWサー
バ障害検知手段62a,WWWサーバ31a上の取得可能な障害
監視用コンテンツの情報を収集するWWWサーバ障害情報
収集手段63a,WWWサーバ31aの障害時にWWWサーバプロセ
ス317を再起動するWWWサーバ障害処置手段65a,WWWサー
バ31aが復旧したかどうかを確認するWWWサーバ障害復旧
確認手段66a,障害復旧のために行った処置の履歴情報
を生成するWWWサーバ障害処置履歴生成手段67a,障害処
置の履歴情報を記憶するWWWサーバ障害処置履歴記憶部6
71a,障害分析の結果により認証サーバ31の復旧処置が
必要な場合に認証サーバ障害処置アプリケーション6bと
の連携を処理するWWWサーバ障害処置連携手段68aおよび
認証サーバ障害処置アプリケーション6bとの連携に関す
る情報を記憶するWWWサーバ障害処置連携情報記憶部681
aから構成される。
【0069】図11は認証サーバ障害処置アプリケーショ
ン6bの詳細を示す。図11において、認証サーバ障害処置
アプリケーション6bは、認証サーバプロセス327の動作
状況を取得する認証サーバ障害情報収集手段63b,認証
サーバプロセス327を再起動する認証サーバ障害処置手
段65b,認証サーバプロセス327が正常に再起動されたこ
とを確認する認証サーバ障害復旧確認手段66b,認証サ
ーバ32aに対して行った処置の履歴情報を生成する認証
サーバ障害処置履歴生成手段67bおよび障害処置の履歴
情報を記憶する認証サーバ障害処置履歴記憶部671bから
構成される。
【0070】この具体例についても、図3に示した監視
装置4および記憶装置5はそのまま使用できる。監視装置
4の障害処置アプリケーション登録手段41は、操作者7に
よって呼び出され、ファイルやその他の形式で提供され
るWWWサーバ障害処置アプリケーション6aと認証サーバ
障害処置アプリケーション6bを障害処置アプリケーショ
ン記憶手段45に転送し、障害処置アプリケーション記憶
部52に記憶させる。また、障害処置スケジュール登録手
段42は、操作者7によって呼び出され、WWWサーバ障害処
置アプリケーション6aの実行スケジュールを障害処置ス
ケジュール記憶手段43aに転送し、障害処置スケジュー
ル記憶部51に記憶させる。この実行スケジュールでは、
監視対象の情報処理サーバをWWWサーバ31aとしている。
【0071】続いて、障害処置スケジュール記憶手段43
は、障害処置アプリケーション記憶手段45に対して、登
録された障害処置アプリケーション6がWWWサーバ障害処
置アプリケーション6aであり、監視対象の情報処理サー
バがWWWサーバ31aであることを指定して、WWWサーバ障
害処置アプリケーション6bのデータ構築処理機能の呼び
出しを依頼する。障害処置アプリケーション記憶手段45
はWWWサーバ障害処置アプリケーション6aを障害処置ア
プリケーション記憶部52から取得し、情報処理サーバと
してWWWサーバ31aを指定して、障害処置アプリケーショ
ンデータ構築手段47に対して、WWWサーバ障害処置アプ
リケーション6aのデータ構築処理を依頼する。
【0072】障害処置アプリケーションデータ構築手段
47は、WWWサーバ障害処置アプリケーション6aのWWWサー
バ障害監視環境構築手段61aを実行する。WWWサーバ障害
監視環境構築手段61aは、WWWサーバ障害監視用データ記
憶部611aから取得した障害監視用データの情報から、障
害監視用コンテンツの出力先が監視対象の情報処理サー
バであるWWWサーバ31aであると判断し、障害処置アプリ
ケーションデータ構築手段47に対してWWWサーバ障害処
置アプリケーション6aをWWWサーバ31aに転送するように
通知する。障害処置アプリケーションデータ構築手段47
は、WWWサーバ障害処置アプリケーション6aを障害処置
アプリケーション送付手段49に転送する。障害処置アプ
リケーション送付手段49は、通信網1を経由してWWWサー
バ31aにWWWサーバ障害処置アプリケーション6aを送付す
る。
【0073】WWWサーバ31aでは、WWWサーバ障害処置ア
プリケーション6aをWWWサーバ31aの障害処置アプリケー
ション受取手段311を経由して、障害処置アプリケーシ
ョンデータ構築手段313に転送する。障害処置アプリケ
ーションデータ構築手段313は、WWWサーバ障害処置アプ
リケーション6aのWWWサーバ障害監視環境構築手段61を
実行する。WWWサーバ障害監視環境構築手段61は、WWWサ
ーバ障害監視用データ記憶部611aから障害監視用データ
を取得し、その中に記述されている出力先の情報にした
がって、障害監視用コンテンツをWWWサーバ31a上に出力
する。この障害監視用コンテンツは、認証サーバ32aと
の動作障害の切り分け情報として利用されるため、WWW
サーバ31a上のコンテンツ領域のうち、認証が必要なコ
ンテンツ領域への出力と認証が不要なコンテンツ領域へ
の出力が行われ、それぞれ認証コンテンツ315と認証不
要コンテンツ316が生成される。
【0074】監視装置4の障害処置アプリケーション制
御手段44は、障害処置スケジュール記憶手段43を経由し
て障害処置スケジュール記憶部51から取得した実行スケ
ジュールにしたがって、WWWサーバ障害処置アプリケー
ション6aを障害処置アプリケーション記憶手段45経由で
障害処置 アプリケーション記憶部52から取得し、障害
処置アプリケーション実行手段46に転送する。障害処置
アプリケーション実行手段46は、WWWサーバ障害処置ア
プリケーション6aを実行する。
【0075】ここで、監視対象のWWWサーバ31aで発生し
ている障害は、認証サーバプロセス327の動作障害であ
るとする。
【0076】障害処置アプリケーション実行手段46は、
WWWサーバ障害処置アプリケーション6aのWWWサーバ障害
検知手段62aを実行する。WWWサーバ障害検知手段62a
は、WWWサーバ31a上の認証コンテンツ315にアクセス
し、認証コンテンツ315のデータの取得を試みる。ここ
で、認証サーバプロセス327の動作障害により、そのデ
ータの取得に失敗するため、WWWサーバ31aの障害を検知
する。次に、WWWサーバ障害情報収集手段63aを実行し、
WWWサーバ31a上の認証不要コンテンツ316にアクセスし
て、そのデータの取得に成功することを確認する。認証
コンテンツ315のデータの取得に失敗し、認証不要コン
テンツ316のデータの取得に成功したという情報から、W
WWサーバ障害分析手段64aは、認証サーバ32aの障害であ
ると判断する。続いて、WWWサーバ障害処置手段65aが実
行されるが、WWWサーバ31aの障害ではないので何も行わ
ない。
【0077】同様に WWWサーバ障害復旧確認手段66も実
行されるがWWWサーバ31aの障害ではないので何も行わな
い。最後に、WWWサーバ障害処置履歴生成手段67が実行
され、認証コンテンツ315のデータが取得できなかった
ことと、認証不要コンテンツ316のデータが取得できた
ことと、障害原因が認証サーバ32aにあることと、認証
サーバ障害処置アプリケーション6bを実行することを障
害処置の履歴情報として生成し、WWWサーバ障害処置履
歴記憶部671に記憶して、WWWサーバ障害処置アプリケー
ション6aの実行を終了する。
【0078】続いて、障害処置アプリケーション実行手
段46は、WWWサーバ障害処置アプリケーション6aを障害
処置データ記憶手段4Bに転送し、WWWサーバ障害処置ア
プリケーション6aのWWWサーバ障害処置履歴記憶部671a
から障害処置の履歴情報を取得して、障害処置データ記
憶部53に記憶する。障害処置データ記憶手段4Bは、WWW
サーバ障害処置アプリケーション6aを障害処置アプリケ
ーション連携手段48に転送し、WWWサーバ障害処置アプ
リケーション6aのWWWサーバ障害処置連携手段68aを実行
する。
【0079】WWWサーバ障害処置連携手段68aは、WWWサ
ーバ障害処置連携情報記憶部681aからWWWサーバ障害処
置アプリケーション6aの連携情報を取得する。WWWサー
バ障害処置アプリケーション6aの連携情報には、発生し
た障害に対処するために実行すべき障害処置アプリケー
ションの情報が含まれており、ここでは、障害原因が認
証サーバ32aの障害であることから、認証サーバ32aの障
害復旧のため、認証サーバ障害処置アプリケーション6b
を認証サーバ32aに対して実行するという処置情報が得
られる。障害処置アプリケーション連携手段48は、この
処置情報を障害処置アプリケーション制御手段44に通知
する。
【0080】障害処置アプリケーション制御手段44は、
障害処置アプリケーション記憶手段45を経由して、認証
サーバ障害処置アプリケーション6bを障害処置アプリケ
ーション記憶部52から取得し、障害処置アプリケーショ
ン実行手段46に転送する。障害処置アプリケーション実
行手段46は、監視対象の情報処理サーバを認証サーバ32
aとして認証サーバ障害処置アプリケーション6bを実行
する。
【0081】認証サーバ障害処置アプリケーション6b
は、認証サーバ障害情報収集手段63bを実行する。認証
サーバ障害処置アプリケーション6bは、認証サーバ障害
情報収集手段63bの実行において、認証サーバ32a上で動
作する認証サーバプロセス327の動作状況を取得するた
め、認証サーバ32a上での情報収集が必要であると判断
し、認証サーバ障害処置アプリケーション6bを認証サー
バ32aに転送するように、障害処置アプリケーション実
行手段46に通知する。障害処置アプリケーション実行手
段46は、認証サーバ障害処置アプリケーション6bを障害
処置アプリケーション送付手段49に転送する。障害処置
アプリケーション送付手段49は、認証サーバ障害処置ア
プリケーション6bを認証サーバ32aの障害処置アプリケ
ーション受取手段321を経由して、障害処置アプリケー
ション実行手段324に転送する。障害処置アプリケーシ
ョン実行手段324は認証サーバ障害処置アプリケーショ
ン6bを実行する。
【0082】認証サーバ障害処置アプリケーション6b
は、認証サーバ障害処置情報収集手段63bを実行し、認
証サーバプロセス327のプロセス番号や実行開始時刻やC
PU消費時間などの動作状況に関する情報を取得して、認
証サーバ障害処置手段65bを実行する。認証サーバ障害
処置手段65bは、認証サーバプロセス327を再起動する。
認証サーバ障害復旧確認手段66bは、再起動後の認証サ
ーバプロセス327の動作状況に関する情報と、認証サー
バ障害情報収集手段63bが取得した認証サーバプロセス
再起動前の動作状況の情報を比較し、認証サーバプロセ
ス327が確実に再起動されたことを確認する。
【0083】最後に、認証サーバ障害処置履歴生成手段
67bは、認証サーバプロセス327を再起動したことを障害
処置の履歴情報として生成し、認証サーバ障害処置履歴
記憶部671bに記憶して、認証サーバ障害処置アプリケー
ション6bの実行を終了する。
【0084】障害処置アプリケーション実行手段324
は、認証サーバ障害処置アプリケーション6bを障害処置
アプリケーション送付手段322に転送する。障害処置ア
プリケーション送付手段322は、認証サーバ障害処置ア
プリケーション6bを監視装置4上の障害処置アプリケー
ション受取手段4Aを経由して、障害処置データ記憶手段
4Bに転送する。障害処置データ記憶手段4Bは、認証サー
バ障害処置アプリケーション6bの認証サーバ障害処置履
歴記憶部671bから障害処置の履歴情報を取得して、障害
処置データ記憶部53に記憶する。
【0085】障害処置アプリケーション記憶手段4Aは、
認証サーバ障害処置アプリケーション6bを障害処置アプ
リケーション連携手段48に転送する。認証サーバ障害処
置アプリケーション6bは図2の障害処置アプリケーショ
ン6の障害処置連携手段68に相当する機能を持たないた
め、障害処置アプリケーション連携手段48は何も処理を
行わない。この時点で、認証サーバ障害処置アプリケー
ション6bの障害復旧処理が完了する。
【0086】このようにして、WWWサーバ31aの自動監視
により検知された動作障害から、認証サーバ32a上の認
証サーバプロセス327の動作障害を自動的に復旧するこ
とができるのである。
【0087】次に、本発明の他の実施例について図12お
よび図13を参照して説明する。
【0088】図12に示す本実施例は、図1に示した実施
例に比べて、監視装置4aのほかに中継装置4bが通信網1
に接続されている点が異なる。中継装置4bは、監視装置
4aから転送された障害処置アプリケーション6を監視装
置4aに代理して動作させる装置である。監視装置4aは、
通信網1の障害により情報処理サーバ3iの監視ができな
い場合、障害処置アプリケーション6を中継装置4bに転
送し、そこから情報処理サーバ3iの障害監視/復旧処理
を行う。これにより、情報処理サーバ3iの障害監視/復
旧処理において、通信網1の障害に対する耐障害性を向
上することが可能となる。
【0089】図13は、この実施例の要部を示す。図13に
おいて、監視装置4aでは、障害処置アプリケーション実
行手段4a6,障害処置アプリケーション送付手段4a9,障
害処置アプリケーション中継手段4aC,障害処置アプリ
ケーション受取手段4aAおよび障害処置データ記憶手段4
aBのみを示し、障害処置アプリケーション実行手段4a6
と障害処置データ記憶手段4aBの左方に位置する図3にお
ける他の各手段41〜48(46は除く)は図示を省略してい
る。
【0090】中継装置4bは、障害処置アプリケーション
受取手段4bA,障害処置アプリケーション中継実行手段4
bDおよび障害処置アプリケーション送付手段4b9から構
成される。障害処置アプリケーション受取手段4bAは、
監視装置4aまたは情報処理サーバ3iから転送される障害
処置アプリケーション6を受け取る。障害処置アプリケ
ーション中継実行手段4bDは、監視装置4aの障害処置ア
プリケーション実行手段4a6と同様に、障害処置アプリ
ケーション6を実行する。障害処置アプリケーション送
付手段4b9は、障害処置アプリケーション6を情報処理サ
ーバ3iまたは監視装置4aに転送する。
【0091】監視装置4aの障害処置アプリケーション送
付手段4a9は、障害処置アプリケーション6を情報処理サ
ーバ3iに送付する処理に失敗した場合、障害処置アプリ
ケーション6を障害処置アプリケーション中継手段4aCに
転送する。障害処置アプリケーション中継手段4aCは、
障害処置アプリケーション6を中継装置4bの障害処置ア
プリケーション受取手段4bAに転送する。
【0092】障害処置アプリケーション受取手段4bA
は、受け取った障害処置アプリケーション6を障害処置
アプリケーション中継実行手段4bDに転送する。障害処
置アプリケーション中継実行手段4bDは、障害処置アプ
リケーション6を監視装置4aの障害処置アプリケーショ
ン実行手段4a6と同様に実行し、障害処置アプリケーシ
ョン6の障害検知手段62,障害情報収集手段63,障害分
析手段64,障害処置手段65,障害復旧確認手段66および
障害処置履歴生成手段67を実行する。また、障害処置ア
プリケーション中継実行手段4bDは、障害情報収集手段6
3で、情報処理サーバ3i上での情報収集が必要であると
判断された場合に、障害処置アプリケーション6を障害
処置アプリケーション送付手段4b9経由で、情報処理サ
ーバ3iに転送する。このときに使用される通信網1の経
路は、監視装置4aが情報処理サーバ3iへの障害処置アプ
リケーション6の送付に失敗したときのものとは異な
る。
【0093】情報処理サーバ3iでの障害処置アプリケー
ション6の実行が終了した後、中継装置4bの障害処置ア
プリケーション受取手段4bAは、障害処置アプリケーシ
ョン6を情報処理サーバ3iから受け取る。障害処置アプ
リケーション受取手段4bAは、障害処置アプリケーショ
ン6がもつ障害処置の履歴情報から障害処置アプリケー
ション6の実行が終了していると判断し、障害処置アプ
リケーション6を障害処置アプリケーション送付手段4b9
に転送する。障害処置アプリケーション送付手段4b9
は、障害処置アプリケーション6を監視装置4aの障害処
置アプリケーション受取手段4aAに転送する。これ以降
は、監視装置4aにおいて、通信網1が正常な場合と同様
に処理される。
【0094】このようにして、通信網1の障害により監
視装置4aと情報処理サーバ3iの通信ができなくなった場
合でも、中継装置4bを経由して障害処置アプリケ ーシ
ョン6を実行することにより、監視装置4aの通信網1の障
害に対する耐障害性を向上させることができる。
【0095】
【発明の効果】本発明の第1の効果は、障害に対する一
連の監視/復旧処理を障害処置アプリケーションとして
まとめ、それらを監視装置上で一括管理しているため、
様々な種類の障害に関する監視/復旧処理が容易に追加/
更新できるということである。
【0096】第2の効果は、障害処置アプリケーション
のスケジュールを設定するだけで障害の監視が可能とな
るため、監視対象とする情報処理サーバを容易に追加/
変更できるということである。
【0097】第3の効果は、監視したい障害ごとに障害
監視専用のデータをあらかじめ情報処理サーバに設定で
きるため、障害に関する情報の収集,障害原因の切り分
け,分析が効率よく行えるということである。
【0098】第4の効果は、異なる障害に対処する障害
処置アプリケーションが連携して処理を進めることがで
きるため、複合的な障害の監視/復旧処理が柔軟に設定
できるということである。
【0099】第5の効果は、障害処置アプリケーション
が監視対象の情報処理サーバに移動し、その情報処理サ
ーバの内部で処理を行うため、障害に関する情報の収
集,処置をきめ細かく行えるということである。
【図面の簡単な説明】
【図1】本発明の障害自動監視復旧システムの一実施例
を示す図
【図2】図1の情報処理サーバ3iで実行される障害処置
アプリケーションの詳細を示す図
【図3】図1における監視装置4および記憶装置5の詳細
を示す図
【図4】図1における情報処理サーバ3iの詳細を示す図
【図5】図1に示した実施例において障害処理アプリケ
ーション6を登録する場合のフローチャート
【図6】図1に示した実施例において実行スケジュール
の登録および障害監視環境の構築を示すフローチャート
【図7】図1に示した実施例における障害処置(前半)
を示すフローチャート
【図8】図1に示した実施例における障害処置(後半)
を示すフローチャート
【図9】図1に示した実施例における情報処理サーバ3i
の具体例であるWWWサーバ31aと認証サーバ32aの詳細を
示す図
【図10】図9のWWWサーバ31aで実行されるWWWサーバ
障害処置アプリケーションの詳細を示す図
【図11】図9の認証サーバ32aで実行される認証サー
バ障害処置アプリケーションの詳細を示す図
【図12】本発明の障害自動監視復旧システムの他の実
施例を示す図
【図13】図2における監視装置4aと中継装置4bの要部
を示す図
【図14】従来の障害自動監視復旧システムを例示する
【図15】図14における情報処理サーバ3ibの詳細を
示す図
【符号の説明】
1 通信網 4,4a 監視装置 5 記憶装置 6 障害処理アプリケーション 21〜2m コンピュータ端末 31〜3n 情報処理サーバ 41 障害処置アプリケーション登録手段 42 障害処置スケジュール登録手段 43 障害処置スケジュール記憶手段 44 障害処置アプリケーション制御手段 45 障害処置アプリケーション記憶手段 46,4a6 障害処置アプリケーション実行手段 47 障害処置アプリケーションデータ構築
手段 48 障害処置アプリケーション連携手段 49,4a9,4b9 障害処置アプリケーション送付手段 4A,4aA,4bA 障害処置アプリケーション受取手段 4B,4aB 障害処置データ記憶手段 4b 中継装置 51 障害処置スケジュール記憶部 52 障害処置アプリケーション記憶部 53 障害処置データ記憶部 61 障害監視環境構築手段 62 障害検知手段 63 障害情報収集手段 64 障害分析手段 65 障害処置手段 66 障害復旧確認手段 67 障害処置履歴生成手段 68 障害処置連携手段 6a WWWサーバ障害処置アプリケーション 6b 認証サーバ障害処置アプリケーション 311,321,3i1 障害処置アプリケーション受取手段 312,322,3i2 障害処置アプリケーション送付手段 313,3i3 障害処置アプリケーションデータ構築
手段 314,324,3i4 障害処置アプリケーション実行手段 315 認証コンテンツ 316 認証不要コンテンツ 317 WWWサーバプロセス 327 認証サーバプロセス 31a wwwサーバ 32a 認証サーバ 4aC 障害処置アプリケーション中継手段 4bD 障害処置アプリケーション中継実行手
段 611 障害監視用データ記憶部 671 障害処理履歴記憶部 681 障害処置連携情報記憶部
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B042 GA12 JJ02 JJ03 KK02 KK14 KK15 5B048 AA18 CC15 FF02 5B085 AC11 AC16 BG07 5B089 GA11 GA12 GA21 GB02 JA35 JB14 KA12 KB04 MC01

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 通信網上で複数の情報処理サーバにより
    提供される情報処理サービスの一定の障害ごとに一連の
    監視/復旧処理を障害処置アプリケーション・プログラ
    ムとしてまとめ、該障害処置アプリケーション・プログ
    ラムの全てを前記通信網に接続された監視装置上で一括
    管理し、該監視装置が前記障害処置アプリケーション・
    プログラムを実行することにより、前記通信網を経由し
    て前記情報処理サーバの監視/復旧を行うことを特徴と
    する障害自動監視復旧システム。
  2. 【請求項2】 請求項1に記載の監視装置が前記通信網
    の障害により前記情報処理サーバの監視ができない場合
    に、該監視装置に代理して前記障害アプリケーション・
    プログラムを動作させる中継装置を前記通信網に接続し
    たことを特徴する障害自動監視復旧システム。
  3. 【請求項3】 前記障害処置アプリケーション・プログ
    ラムは、監視対象の情報処理サーバに移動し、該情報処
    理サーバの内部で処理を行うことが可能な請求項1また
    は請求項2に記載の障害自動監視復旧システム。
  4. 【請求項4】 前記監視装置は、前記障害処置アプリケ
    ーション・プログラムの実行開始時刻と監視対象となる
    前記情報処理サーバのリストとを含み操作者によって指
    定される実行スケジュールにより、複数の前記情報処理
    サーバを一括監視する請求項1ないし請求項3のいずれ
    かに記載の障害自動監視復旧システム。
  5. 【請求項5】 前記監視装置は、監視したい障害ごとに
    障害監視専用のデータを前記情報処理サーバに予め設定
    する請求項1ないし請求項4のいずれかに記載の障害自
    動監視復旧システム。
  6. 【請求項6】 異なる障害に対処する前記障害処置アプ
    リケーション・プログラムが連携して処理を進める請求
    項1ないし請求項5のいずれかに記載の障害自動監視復
    旧システム。
  7. 【請求項7】 前記障害処置アプリケーション・プログ
    ラムが実行した障害処置の履歴情報を前記監視装置内の
    記憶装置で一元管理することを特徴とする請求項1また
    は請求項6に記載の障害自動監視復旧システム。
  8. 【請求項8】 前記情報処理サーバの一つはWWWサーバ
    であり、他の一つは認証サーバである請求項1または請
    求項7に記載の障害自動監視復旧システム。
  9. 【請求項9】 請求項1ないし請求項8のいずれかに記
    載の監視装置であって、 操作者から提供される前記障害処置アプリケーション・
    プログラムを入力し記憶装置に書き込む障害処置アプリ
    ケーション書込み部と、 操作者によって指定される実行スケジュールを入力し記
    憶装置に書き込む障害処置スケジュール書込み部と、 前記障害処置アプリケーション・プログラムを前記記憶
    装置から読み出す障害処置アプリケーション読出し部
    と、 前記実行スケジュールを前記記憶装置から読み出す障害
    処置スケジュール読出し部と、 前記読み出された障害処置アプリケーション・プログラ
    ムに定義されている前記障害監視用データの構築処理を
    実行する障害処置アプリケーションデータ構築部と、 前記読み出された実行スケジュールまたは障害処置アプ
    リケーション・プログラムの連携機能にしたがって、前
    記障害処置アプリケーション・プログラムの実行開始処
    理を行う障害処置アプリケーション制御部と、 前記読み出された障害処置アプリケーション・プログラ
    ムが持つ障害検知/情報収集/分析/復旧処置/復旧確認の
    各処理を実行する障害処置アプリケーション実行部と、 複数の前記障害処置アプリケーション・プログラムが連
    携する場合の連携処理を行う障害処置アプリケーション
    連携部とを含むことを特徴とする監視装置。
  10. 【請求項10】 請求項1ないし請求項8のいずれかに
    記載の情報処理サーバであって、 前記監視装置から転送される障害処置アプリケーション
    ・プログラムを受け取る障害処置アプリケーション受取
    部と、 障害処置アプリケーション・プログラムに定義されてい
    る障害監視用データの構築処理を行う障害処置アプリケ
    ーションデータ構築部と、 障害処置アプリケーション・プログラムが持つ障害情報
    収集/分析/復旧処置/復旧確認の各処理を実行する障害
    処置アプリケーション実行部と、 実行が完了した障害処置アプリケーション・プログラム
    を前記監視装置に転送する障害処理アプリケーション送
    付部とを含むことを特徴とする情報処理サーバ。
  11. 【請求項11】 請求項1ないし請求項10のいずれか
    に記載の障害処置アプリケーション・プログラムであっ
    て、 前記障害の監視や障害原因の切り分けに必要な障害監視
    用データを生成したり、環境設定を行ったりすることに
    より、障害監視のための環境を構築する障害監視環境構
    築手段と、 前記障害監視環境構築手段が障害監視のための環境構築
    に必要とする情報を記憶する障害監視用データ記憶部
    と、 前記障害監視環境構築手段によって生成された障害監視
    用データにアクセスして、障害の有無を検査する障害検
    知手段と、 前記検査により検知された障害に関連する情報を収集す
    る障害情報収集手段と、 前記収集された障害関連情報から障害の原因を分析する
    障害分析手段と、 前記分析により得られた障害原因に対応した障害復旧処
    理を実行する障害処置手段と、 障害が復旧したことを確認する障害復旧確認手段と、 障害処置アプリケーションが行った処置に応じて、処理
    を継続して行うべき別の障害処置アプリケーションの情
    報を記憶する障害処置連係情報記憶部と、 別の障害処置アプリケーションと連携して動作するため
    の情報を障害処置連携情報記憶部から取得し、連携処理
    を行う障害処置連携手段とを有することを特徴とする障
    害処置アプリケーション・プログラム。
  12. 【請求項12】 通信網上で複数の情報処理サーバによ
    り提供される情報処理サービスに対する障害自動監視復
    旧方法であって、 情報処理サービスの一定の障害ごとに一連の監視/復旧
    処理を障害処置アプリケーション・プログラムとしてま
    とめて、該障害処置アプリケーション・プログラムの全
    てを前記通信網に接続された監視装置上で一括管理し、
    該監視装置は、 操作者によって提供される前記障害処置アプリケーショ
    ン・プログラムおよび実行スケジュールを入力し記憶装
    置に書き込む手順と、 前記障害処置アプリケーション・プログラムおよび実行
    スケジュールを前記記憶装置から読み出す手順と、 前記読み出された障害処置アプリケーション・プログラ
    ムに定義されている障害監視用データの構築処理を実行
    する手順と、 前記読み出された実行スケジュールまたは障害処置アプ
    リケーション・プログラムの連携機能にしたがって、前
    記障害処置アプリケーション・プログラムの実行開始処
    理を行う手順と、 前記読み出された障害処置アプリケーション・プログラ
    ムが持つ障害検知/情報収集/分析/復旧処置/復旧確認の
    各処理を実行する手順と、 複数の前記障害処置アプリケーション・プログラムが連
    携する場合に、前記情報処理サーバとの間で行う前記障
    害処置アプリケーション・プログラムの転送を含む連携
    処理を行う手順とを有し、 前記情報処理サーバは、 前記監視装置から転送される障害処置アプリケーション
    ・プログラムを受け取る手順と、 障害処置アプリケーション・プログラムに定義されてい
    る障害監視用データの構築処理を行う手順と、 障害処置アプリケーション・プログラムが持つ障害情報
    収集/分析/復旧処置/復旧確認の各処理を実行する手順
    と、 実行が完了した障害処置アプリケーション・プログラム
    を前記監視装置に転送する手順とを含むことを特徴とす
    る障害自動監視復旧方法。
JP2001144978A 2001-05-15 2001-05-15 障害自動監視復旧システム Pending JP2002342180A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001144978A JP2002342180A (ja) 2001-05-15 2001-05-15 障害自動監視復旧システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001144978A JP2002342180A (ja) 2001-05-15 2001-05-15 障害自動監視復旧システム

Publications (1)

Publication Number Publication Date
JP2002342180A true JP2002342180A (ja) 2002-11-29

Family

ID=18990853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001144978A Pending JP2002342180A (ja) 2001-05-15 2001-05-15 障害自動監視復旧システム

Country Status (1)

Country Link
JP (1) JP2002342180A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004061681A1 (ja) * 2002-12-26 2004-07-22 Fujitsu Limited 運用管理方法および運用管理サーバ
JP6275301B1 (ja) * 2017-03-17 2018-02-07 株式会社三井住友銀行 ポータルサイト障害時のログインシステム、ログイン方法及びログインプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004061681A1 (ja) * 2002-12-26 2004-07-22 Fujitsu Limited 運用管理方法および運用管理サーバ
JP6275301B1 (ja) * 2017-03-17 2018-02-07 株式会社三井住友銀行 ポータルサイト障害時のログインシステム、ログイン方法及びログインプログラム
JP2018156438A (ja) * 2017-03-17 2018-10-04 株式会社三井住友銀行 ポータルサイト障害時のログインシステム、ログイン方法及びログインプログラム

Similar Documents

Publication Publication Date Title
US20090094484A1 (en) System and method for autonomously processing faults in home network environments
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
CN102231681A (zh) 一种高可用集群计算机系统及其故障处理方法
JPWO2015037603A1 (ja) 遠隔監視システム、遠隔監視方法、及びプログラム
JP2009294837A (ja) 障害監視システム及びデバイスと監視装置並びに障害監視方法
CN113825164A (zh) 网络故障修复方法、装置、存储介质及电子设备
US11349730B2 (en) Operation device and operation method
JP2004178296A (ja) ナレッジ型運用管理システム,方法およびプログラム
KR20130063866A (ko) 엠투엠 단말기 진단시스템 및 방법
JP2002342180A (ja) 障害自動監視復旧システム
JP2008244902A (ja) 障害復旧装置、障害復旧方法、及び障害復旧システム
JP6070040B2 (ja) データベースシステム、データベース装置、データベースの障害回復方法およびプログラム
JP2595833B2 (ja) 遠隔保守装置
JP2001251346A (ja) データ伝送システム
JP7421267B2 (ja) サービス提供用アプリケーションの保守管理システム、保守管理装置、保守管理方法、および、保守管理用プログラム
JPH0962626A (ja) 分散処理システムのオンラインテスト方法
JP2003006018A (ja) 処理要求復旧方式及び処理要求復旧方法及びクライアント装置及びサーバ装置
JPH1188471A (ja) 試験方法及び試験装置
JP3757072B2 (ja) ネットワークシステムを構成する計算機の監視方法
JP6790309B1 (ja) データ処理装置、データ送信方法及びプログラム
JP4491195B2 (ja) 情報処理装置間を移動するオブジェクトの追従監視システム
JP5565153B2 (ja) プログラム、情報処理装置、及び情報処理装置の制御方法
JP4459185B2 (ja) コンピュータ・システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050422

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050621

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050713

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050811

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050811

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20070119

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20080603

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090508