JP2005267434A - アプリケーション監視装置、そのプログラム、及びその記録媒体。 - Google Patents

アプリケーション監視装置、そのプログラム、及びその記録媒体。 Download PDF

Info

Publication number
JP2005267434A
JP2005267434A JP2004081327A JP2004081327A JP2005267434A JP 2005267434 A JP2005267434 A JP 2005267434A JP 2004081327 A JP2004081327 A JP 2004081327A JP 2004081327 A JP2004081327 A JP 2004081327A JP 2005267434 A JP2005267434 A JP 2005267434A
Authority
JP
Japan
Prior art keywords
log
monitoring
failure
column
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004081327A
Other languages
English (en)
Other versions
JP4230946B2 (ja
Inventor
Takuro Niitome
卓郎 新留
Masakazu Shimomura
雅一 下邨
Masamichi Ishii
雅通 石井
Toru Endo
徹 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004081327A priority Critical patent/JP4230946B2/ja
Publication of JP2005267434A publication Critical patent/JP2005267434A/ja
Application granted granted Critical
Publication of JP4230946B2 publication Critical patent/JP4230946B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】 本発明は、アプリケーションが正常に機能しているかどうかを監視する技術を提供し、更に復旧処理が適切に行なわれない場合に管理者に通知する技術を提供することを目的とする。
【解決手段】 アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実行させることを前提とし、プロセス(1)のログファイル(2)を作成する機能と、前記ログファイルに出現するログメッセージを監視する機能(4、6、7)と、前記ログファイルにおける所定のログメッセージの出現頻度が所定回数以上であった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能(4、6、7)と、をコンピュータに実現させる。
【選択図】図1

Description

本発明は、複数のプロセスで構成され、それぞれのプロセスが実行ログを出力するアプリケーションシステムの、システム障害を復旧する技術に関する。
24時間連続稼動が必要である業務アプリケーションシステムにおいて、アプリケーションに異常が発生した場合、その異常を速やかに復旧し、業務への支障を最小限に留める必要がある。
そこで従来、複数のプロセスで構成されるコンピュータシステムにおいて、プロセスの異常を監視し、プロセスの異常終了を検知すると、そのプロセス名と終了コードを取得して対応する連動処理(再起動等)を実行し、上記異常を速やかに復旧していた(特許文献1参照)。
特開2000−311099号公報
従来の自動復旧の仕組みはプロセスの異常のみを監視している。このため、見かけ上プロセスが正常に存在していればプロセスは正常なものとして判断されるため、プロセスが存在していても実際には業務アプリケーションとして正常に機能していなような場合、自動復旧の対象から外れてしまう。例えばDBへの書込みを行なうアプリケーションが排他で待ち状態になっている場合、プロセスは存在しているがアプリケーション自体は待ち状態のままなので処理は停止している。しかし従来の自動復旧の仕組みでは、プロセスが存在しているためアプリケーションの異常は検知できない。また、プロセスがゾンビプロセスとして残った場合、アプリケーションとしては正常に動作していない。しかしこのような場合もプロセスが存在しているためアプリケーションの異常を検知できない。
更に、従来のプロセス異常を監視して自動復旧する仕組みでは、異常を検知して復旧処理を行なった場合にプロセス異常に対応する復旧処理のみが行なわれるため、この復旧処理により上記異常の発端となっている原因が解消されていない場合もある。このような場合は復旧処理後に同一の異常が再び生じてしまい、同様の復旧処理が繰り返し行なわれることになる。そして、上記復旧処理が繰り返し行なわれても、当然、上記異常の発端となっている原因が解消されることはない。よってプロセス異常の監視・復旧だけでは解消されない種の異常が生じた場合、従来は異常が解消されないどころか同様の復旧処理が繰り返し行なわれることになり、業務に大きな支障をきたすため問題となっていた。
そこで本発明は、アプリケーションが正常に機能しているかどうかを監視する技術を提供し、更に復旧処理が適切に行なわれない場合に管理者に通知する技術を提供することを目的とする。
本発明は上記課題を解決するために以下のように構成する。
本発明のプログラムの態様一つは、アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実行させることを前提とし、プロセスのログファイルに出現するログメッセージを監視する機能と、前記ログファイルにおける所定のログメッセージの出現頻度が所定回数以上であった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、をコンピュータに実現させる。
なお、前記アプリケーション障害に対する対応処理は、前記プロセス及び前記アプリケーション障害と判定されたログメッセージの種類との組み合わせによって任意に設定されていることが望ましい。
本発明のプログラムの態様のその他の一つは、アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実行させることを前提とし、プロセスのログファイルのログ更新時間を監視する機能と、前記ログファイルのログ更新が所定時間間隔以上行なわれなかった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、をコンピュータに実現させる。
なお、前記アプリケーション障害の判定基準となる前記所定時間間隔は、前記判定を行なう時間帯ごとに任意に時間間隔が設定されている、ことが望ましい。
本発明のプログラムのその他の態様一つは、アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実行させることを前提とし、プロセスのログファイルに出現するログメッセージを監視する機能と、前記ログファイルのログ更新時間を監視する機能と、前記ログファイルにおける所定のログメッセージの出現頻度が所定回数以上であった場合または前記ログファイルのログ更新が所定時間間隔以上行なわれなかった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、をコンピュータに実現させる。
また、以上の各態様のプログラムは、前記対応処理の実行日時をプロセス毎に管理する機能と、前記プロセス毎に管理される実行日時から所定時間間隔内の実行回数を前記プロセス毎に算出する機能と、前記所定時間間隔内の実行回数が所定回数を超えた場合に対応処理エラーと判定し、前記所定時間間隔内の実行回数が所定回数を超えたプロセスを停止して監視対象から外す機能と、前記所定時間間隔内の実行回数が所定回数を超えたプロセスの管理者に前記対応処理エラーの情報を通知する機能と、を更にコンピュータに実現させるものであるとなお良い。
本発明のコンピュータ読み取り可能な記録媒体の態様の一つは、アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実現させるプログラムを記録し、プロセスのログファイルに出現するログメッセージを監視する機能と、前記ログファイルにおける所定のログメッセージの出現頻度が所定回数以上であった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、をコンピュータに実現させるプログラムを記録する。
本発明のコンピュータ読み取り可能な記録媒体のその他の態様の一つは、アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実現させるプログラムを記録し、プロセスのログファイルのログ更新時間を監視する機能と、前記ログファイルのログ更新が所定時間間隔以上行なわれなかった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、をコンピュータに実現させるプログラムを記録する。
なお、以上の各態様のコンピュータに読み取り可能な記録媒体は、上記各態様前記対応処理の実行日時をプロセス毎に管理する機能と、前記プロセス毎に管理される実行日時から所定時間間隔内の実行回数を前記プロセス毎に算出する機能と、前記所定時間間隔内の実行回数が所定回数を超えた場合に対応処理エラーと判定し、前記所定時間間隔内の実行回数が所定回数を超えたプロセスを停止して監視対象から外す機能と、前記所定時間間隔内の実行回数が所定回数を超えたプロセスの管理者に前記対応処理エラーの情報を通知する機能と、を更にコンピュータに実現させるプログラムを記録するとなお良い。
本発明のアプリケーション監視装置の態様の一つは、アプリケーション障害を検知して自動的に障害対応することを前提とし、プロセスのログファイルに出現するログメッセージを監視する機能と、前記ログファイルにおける所定のログメッセージの出現頻度が所定回数以上であった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、を有する。
本発明のアプリケーション監視装置のその他の態様の一つは、アプリケーション障害を検知して自動的に障害対応することを前提とし、プロセスのログファイルのログ更新時間を監視する機能と、前記ログファイルのログ更新が所定時間間隔以上行なわれなかった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、を有する。
本発明のアプリケーション監視装置のその他の態様の一つは、アプリケーション障害を検知して自動的に障害対応することを前提とし、プロセスのログファイルに出現するログメッセージを監視する機能と、前記ログファイルのログ更新時間を監視する機能と、前記ログファイルにおける所定のログメッセージの出現頻度が所定回数以上であった場合または前記ログファイルのログ更新が所定時間間隔以上行なわれなかった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、を有する。
また、以上の各態様のアプリケーション監視装置は、前記対応処理の実行日時をプロセス毎に管理する機能と、前記プロセス毎に管理される実行日時から所定時間間隔内の実行回数を前記プロセス毎に算出する機能と、前記所定時間間隔内の実行回数が所定回数を超えた場合に対応処理エラーと判定し、前記所定時間間隔内の実行回数が所定回数を超えたプロセスを停止して監視対象から外す機能と、前記所定時間間隔内の実行回数が所定回数を超えたプロセスの管理者に前記対応処理エラーの情報を通知する機能と、を更に有すると、なお良い。
本発明では、プロセスのログファイルにおいてログメッセージの出現頻度を監視する。 このため、アプリケーションの障害を上記ログメッセージの出現頻度から検知し、これに対応する復旧処理を自動で実行できるようになる。
また本発明は、プロセスのログファイルの更新時間間隔を監視する。このため、アプリケーションの障害を上記ログフィルの更新時間間隔から検知し、これに対応する復旧処理を自動で実行できるようになる。
更に本発明では、上記アプリケーション障害が検知された後に自動で実行される対応処理の実行頻度を監視する。このため、アプリケーション障害の復旧処理が適切ではなかった旨を自動で検知することが可能になり、それを管理者に通知することができる。
以上のように本発明では、プロセスのログファイルからアプリケーション異常を検出できる。このためプロセスの存在の有無を監視するだけでは検出できないアプリケーション障害を検出できるようになり、このように検出された障害に対して復旧処理が行なえる。また、以上のように復旧処理を行なって正常に対処できない場合は、その状況を検出し、管理者に通知できるようになるので、簡易的な障害については自動復旧させ、高度な障害については速やかに管理者に通知できるようになる。
以下、本発明を実施するための最良の形態を、図面を参照しながら詳細に説明する。
図1は、本発明の実施の形態におけるアプリケーション監視装置の一構成例である。
本装置は、CPU(中央処理装置)、メモリ、外部記録部、入出力部、及び通信部が互いにバスを介して接続される一つ或いは複数のコンピュータによって構成され、各種のプログラムが外部記録装置からメモリにロードされ、CPU(中央処理装置)で適宜実行されることにより、以下に詳述する機能を実現する。
同図に示されるように、本例のアプリケーション監視装置は、メモリにロードされた複数のプロセス(以下において、監視対象として扱われるプロセスを監視対象外のプロセスと区別して監視対象プロセスと呼ぶこととする)1のそれぞれの実行履歴を個別のログファイル2に出力するようにし、上記監視対象プロセス1と同様に該ログファイル2を監視の対象とすることによりアプリケーション障害を検知する。このログファイル2には、各プロセスを対象に検知されたログメッセージやログ更新時間などが含まれ、監視対象プロセスの存在の有無以外に上記ログファイル2のログメッセージやログ更新時間などからアプリケーション異常を検知することができる。そして、本アプリケーション監視装置ではそれらからアプリケーション障害を検知すると自動復旧(または障害対応処理ともいう)を試みる。
同図には、メモリにロードされた監視対象プロセスを監視するプロセス監視機能3、当該監視対象プロセスのログメッセージを監視するログメッセージ監視機能4、及び当該監視対象プロセスのログ更新時間を監視するログ更新時間監視機能5からなる監視機能6が構成されている。
各監視機能6は、アプリケーション障害状態の判定基準となる判定基準情報を記録するマスタ情報記録部7を参照し、該当する判定基準情報に基づく監視対象プロセスの存在の有無或いは該当する判定基準情報とログファイルの持つ情報(ログメッセージやログ更新時間など)との比較からアプリケーション障害の有無を判定する。
また、各監視機能6は、アプリケーション障害と判定した場合、上記判定基準情報を記録するマスタ情報記録部7に対し上記判定基準情報と対応付けされて記録される対応処理情報(例えばプロセスの種類毎に指定された対応処理方法)を基に自動復旧処理(または対応処理ともいう)を行なう。
更に本例では、監視機能6によって実行された自動復旧処理の実行回数を逐次記録する対応処理実行ログ記録部8を備え、該対応処理実行ログ記録部8に記録された対応処理実行回数とマスタ情報記録部7に記録された判定基準情報とから上記対応処理の適用頻度を監視する対応処理実行ログ監視機能9が構成される。該対応処理実行ログ監視機能9は、上記対応処理の適用頻度が上記マスタ情報記録部7に記録される適用頻度の閾値を超えると、アプリケーション障害(特にこの場合は上記対応処理が適切な処理ではない場合なので、厳密に言うと対応処理エラーである)である状態の通知(これもまた障害対応処理の一つである)を該当する管理者へ行なう。
以上を整理すると本構成のアプリケーション監視装置では次の1から4の監視・復旧処理を行なう。
1.マスタ情報記録部7の判定基準情報に基づき、プロセス監視機能3は監視対象プロセス1の存在の有無を判定し、監視対象プロセス1が存在しない場合にアプリケーション障害の発生と認定して特定の復旧処理を行なう。
2.マスタ情報記録部7の判定基準情報に基づき、ログメッセージ監視機能4は監視対象プロセス1のログファイル2への特定のログメッセージの出現を調べ、特定のログメッセージの出現頻度に応じてアプリケーション障害の発生と認定し、特定の復旧処理を行なう。
3.マスタ情報記録部7の判定基準情報に基づき、ログ更新時間監視機能5は監視対象プロセス1のログファイル2のログ更新間隔をチェックし、所定時間以上ログ更新が行なわれない場合にアプリケーション障害の発生と認定して特定の復旧処理を行なう。
4.マスタ情報記録部7の判定基準情報に基づき、対応処理実行ログ監視機能9は対応処理実行ログ記録部8に記録された各監視機能6の復旧処理が行なわれた頻度をチェックし、復旧処理が行なわれた頻度が所定回数よりも高い場合に適切な復旧処理が行なわれていないと認定して管理者へ通知する。
上記の機能をより理解しやすいように、以下に具体的なテーブル例と動作例を挙げて説明する。
そこで本例のマスタ情報記録部7において提供される情報(上記判定基準情報を含む情報)を以下のように整理しておく。
アプリケーション障害を該当する管理者へ通知するための管理者マスタ情報10、プロセスを一意に識別するためのプロセスマスタ情報11、プロセス監視機能3に対して上記判定基準情報及び対応処理情報を提供するプロセス監視マスタ情報12、ログメッセージ監視機能4に対して上記判定基準情報及び対応処理情報を提供するログメッセージ監視マスタ情報13、ログ更新時間監視手段5に対して対応処理情報を提供するログ更新時間監視マスタ情報14、ログ更新時間監視手段5に対して判定基準情報を提供するログ更新時間監視閾値マスタ情報15、及び対応処理実行ログ監視手段9に対して判定基準情報を提供する対応処理実行ログ監視マスタ情報16である(以下において、情報10から16を総称してマスタ情報と呼ぶことにする)。
なお、上記マスタ情報記録部7に記録される各マスタ情報は、プロセス登録ツール17を利用して情報の登録・更新・削除が可能である。
また、監視対象となる各プロセスの起動・停止をプロセス操作ツール18から行なうことができる。
続いて、上記各マスタ情報を記録するマスタ情報記録部7のテーブル、対応処理実行ログ、ログファイルの構成を一例を挙げて示すと共に、該構成におけるアプリケーション障害監視・復旧動作について説明する。
図2から図4は上記各マスタ情報を記録するマスタ情報記録部7のテーブル例である。
図2(a)は管理者マスタテーブルの一例である。
同図の管理者マスタテーブル20は、カラム「プロセスSEQ」200及びカラム「管理者」201によって構成される。
カラム「プロセスSEQ」200にはプロセスを一意に識別する番号が格納される。また、カラム「管理者」201にはプロセスに対応する管理者のメールアドレスが格納される。
なお、以下のテーブルにおいても上記同様にカラム「プロセスSEQ」が構成され、このカラムは外部キーに設定されている。よって、特に説明しない限り、そのカラムにはプロセスを一意に識別する番号が格納される。
図2(b)はプロセスマスタテーブルの一例である。
同図のプロセスマスタテーブル21は、カラム「プロセスSEQ」210、カラム「プロセス名」211、カラム「起動シェル」212、カラム「停止シェル」213、カラム「状態」214、及びカラム「ログファイル名」215によって構成される。
カラム「プロセス名」211にはプロセスSEQによって一意に識別されるプロセス名前が格納される。
カラム「起動シェル」212及びカラム「停止シェル」213にはそれぞれ、起動シェルのファイル名、停止シェルのファイル名が格納される。本例では「起動シェル」212に、再起動を実行する起動シェルのファイル名が格納される。
カラム「状態」214にはプロセスを監視対象に指定するか否かを示すフラグが格納される。本例では「0」を監視対象外、「1」を監視対象とする。なお、「0」は手動でアプリケーションを停止することにより監視対象外とすることができる。
カラム「ログファイル名」215には当該プロセスのログファイルのファイル名が格納される。
図3(a)は、プロセス監視マスタテーブルの一例である。
同図のプロセス監視マスタテーブル30は、カラム「プロセスSEQ」300、カラム「監視間隔」301、カラム「対応処理フラグ」302、カラム「障害対応シェル」303、及びカラム「通知フラグ」304によって構成される。
カラム「監視間隔」301にはプロセスを監視する監視間隔の時間が格納される。本例では分単位の数字が格納される。
カラム「対応処理フラグ」302にはアプリケーション障害発生時の対応処理方法を示すフラグが格納される。本例では、処理を行なわない場合を「0」、障害調査用にログファイルを退避し、プロセスマスタテーブル21のカラム「起動シェル」212の名前からプロセスを再起動する場合を「1」、障害調査用にログファイルを退避し、プロセス監視マスタテーブル30のカラム「障害対応シェル」303から該「障害対応シェル」303に格納される対応処理を行なう場合を「2」とする。
カラム「障害対応シェル」303には上記対応処理を行なう障害対応シェルのファイル名が格納される。
カラム「通知フラグ」304には管理者へ通知するか否かのフラグが格納される。本例では通知しない場合を「0」、通知する場合を「1」とする。
図3(b)は、ログメッセージ監視マスタテーブルの一例である。
同図のログメッセージ監視マスタテーブル31は、カラム「プロセスSEQ」310、カラム「監視間隔」311、カラム「監視メッセージ」312、カラム「単位時間」313、カラム「出現回数閾値」314、カラム「対応処理フラグ」315、カラム「障害対応シェル」316、及びカラム「通知フラグ」317によって構成される。
カラム「監視間隔」311にはログメッセージを監視する監視間隔の時間が格納される。本例では分単位の数字が格納される。
カラム「監視メッセージ」312にはアプリケーション障害と判定されるログメッセージが格納される。
カラム「単位時間」313には後述する出現回数の閾値が設定される単位時間が格納される。本例では分単位の数字が格納される。
カラム「出現回数閾値」314には、カラム「監視メッセージ」312に格納されるメッセージがカラム「単位時間」に格納される単位時間あたりに出現する回数の閾値が格納される。
カラム「対応処理フラグ」315にはアプリケーション障害発生時の対応処理方法を示すフラグが格納される。本例では、処理を行なわない場合を「0」、障害調査用にログファイルを退避し、プロセスマスタテーブル21のカラム「起動シェル」212の名前からプロセスを再起動する場合を「1」、障害調査用にログファイルを退避し、ログメッセージ監視マスタテーブル31のカラム「障害対応シェル」316から該「障害対応シェル」316に格納される対応処理を行なう場合を「2」とする。
なお、「障害対応シェル」316及びカラム「通知フラグ」317は、プロセス監視マスタテーブル30のカラム「障害対応シェル」303及びカラム「通知フラグ」304においてそれぞれ説明した通りのものであるため、ここでの説明を省略する。
図3(c)は、ログ更新時間監視マスタテーブルの一例である。
本例のログ更新時間監視マスタテーブル32は、カラム「プロセスSEQ」320、カラム「監視間隔」321、カラム「対応処理フラグ」322、カラム「障害対応シェル」323、及びカラム「通知フラグ」324によって構成される。
カラム「監視間隔」301にはログ更新時間を監視する監視間隔の時間が格納される。本例では分単位の数字が格納される。
カラム「対応処理フラグ」302にはアプリケーション障害発生時の対応処理方法を示すフラグが格納される。本例では、処理を行なわない場合を「0」、障害調査用にログファイルを退避し、プロセスマスタテーブル21のカラム「起動シェル」212の名前からプロセスを再起動する場合を「1」、障害調査用にログファイルを退避し、ログ更新時間監視マスタテーブル32のカラム「障害対応シェル」323から該「障害対応シェル」323に格納される対応処理を行なう場合を「2」とする。
なお、「障害対応シェル」323及びカラム「通知フラグ」324は、プロセス監視マスタテーブル30のカラム「障害対応シェル」303及びカラム「通知フラグ」304においてそれぞれ説明した通りのものであるため、ここでの説明を省略する。
図3(d)は、ログ更新時間監視閾値マスタテーブルの一例である。
同図のログ更新時間監視閾値マスタテーブル33は、カラム「プロセスSEQ」330、カラム「曜日」331、0時から23時まで1時間ごとに分けられたカラム「時刻」332によって構成される。
カラム「曜日」331には曜日が格納される。
カラム「時刻」332には、カラム「曜日」331に格納される曜日の0時から23時で示される各時間帯に対して、各々、ログ更新の時間間隔の閾値が格納される。本例では分単位で数字が格納される。
図4は、対応処理実行ログ監視マスタテーブルの一例である。
同図の対応処理実行ログ監視マスタテーブル40は、カラム「プロセスSEQ」400、カラム「監視間隔」401、カラム「単位時間」402、カラム「対応処理実行回数閾値」403、及びカラム「通知フラグ」404によって構成される。
カラム「監視間隔」401には対応処理実行ログを監視する監視間隔の時間が格納される。本例では分単位の数字が格納される。
カラム「単位時間」402には後述する出現回数の閾値が設定される単位時間が格納される。本例では分単位の数字が格納される。
カラム「対応処理実行回数閾値」403には、対応処理実行ログに書き出された対応処理の実行履歴を対象とし、カラム「単位時間」に格納される単位時間あたりに対応処理が実行される回数の閾値が格納される。
カラム「通知フラグ」404には管理者へ通知するか否かのフラグが格納される。本例では通知しない場合を「0」、通知する場合を「1」とする。
図5は、対応処理実行ログを格納する対応処理実行ログテーブルの一例である。
同図の対応処理実行ログテーブル50は、カラム「SEQ」500、カラム「プロセスSEQ」501、カラム「対応処理フラグ」502、及びカラム「実行時刻」503によって構成されている。
カラム「SEQ」500は、任意の対応処理の実行を一意に識別するための番号である。
カラム「プロセスSEQ」501は、マスタ情報記録部7の各テーブルの「プロセスSEQ」に該当する。
カラム「対応処理フラグ」502は、対応処理の種類の指定に利用できるが、特に本例では使用しない。
カラム「実行時刻」503は、対応処理が実行された日時が格納される。本例では、西暦/月/日、時:分:秒が格納される。
本対応処理実行ログテーブル50には、対応処理が実行されるたびに上記各カラムに対応するレコードが追加される。
図6は監視対象プロセスのログファイルの一例である。
同図のログファイルの例では、例えば一行目を例に挙げると「200401282322」は2004年1月28日23時22分を意味し、「INFO」はログメッセージを意味している。
続いて、上記構成の基で実行させるアプリケーション監視動作の一例を説明する。
図7は、監視対象プロセスに対する監視及びアプリケーション障害時の対応処理のフローチャートである。
本例では5分間待機してから(S700)、監視対象プロセスの監視を行なう。
先ず、プロセスマスタテーブル21から、メモリにロードされたプロセスに該当するプロセス名のレコードを取得し、カラム「状態」214の値を調べる(S702)。
ここで上記値が「0」の場合、アプリケーションが停止状態にあるため監視の必要はなく、ステップS700に戻る。
また、上記値が「1」の場合、監視対象として設定されているため続くステップS704の処理を行なう。
ステップS704においては対応するプロセスSEQ番号のレコードをプロセス監視マスタテーブル30から取得し、「監視間隔」301の値を調べる。
現在時刻が監視間隔の値の倍数でない場合、ステップS700に戻る。
また、現在時刻が監視間隔の値の倍数である場合、続いてプロセスの存在の有無を調べる(S706)。
ここでプロセスの存在が確認されると、ステップS700に戻る。
また、プロセスが存在しないと判定された場合には、以下に述べる「対応処理フロー」が実行される。
先ず、対応するプロセスSEQ番号のレコードをプロセス監視マスタテーブル30から取得し、「対応処理フラグ」302の値を調べる(S708)。
対応処理フラグの値が「0」の場合、処理を実行せずに後述するステップS710の処理に移行する。
また、対応処理フラグの値が「1」の場合、障害調査用として、対応するプロセスSEQ番号のレコードをプロセスマスタテーブル21から取得し、カラム「ログファイル名」215によって指定されるログファイルを一旦外部記録装置に退避し(S712)、その後、対応するプロセスSEQ番号のレコードをプロセスマスタテーブル21から取得し、カラム「起動シェル」212によって指定されるプロセスの起動を実行し(S714)、ステップS710の処理に移行する。
また更に、対応処理フラグの値が「2」の場合、障害調査用として、対応するプロセスSEQ番号のレコードをプロセスマスタテーブル21から取得し、カラム「ログファイル名」215によって指定されるログファイルを一旦外部記録装置に退避し(S716)、その後、対応するプロセスSEQ番号のレコードをプロセス監視マスタテーブル30から取得し、カラム「障害対応シェル」303によって指定される障害対応シェルを実行し(S718)、ステップS710の処理に移行する。
ステップS710においては、対応するプロセスSEQ番号のレコードをプロセス監視マスタテーブル30から取得し、カラム「通知フラグ」304の値を調べる。この値が「0」の場合、ステップS700の処理に戻り、「1」の場合、対応するプロセスSEQ番号のレコードを管理者マスタテーブル20から取得し、カラム「管理者」201によって指定される管理者のメールアドレスに通知してから(S720)、ステップS700の処理に戻る。
図8は、監視対象プロセスにおけるログメッセージに対する監視及びアプリケーション障害時の対応処理のフローチャートである。
本例では5分間待機してから(S800)、監視対象プロセスの監視を行なう。
先ず、プロセスマスタテーブル21から、メモリにロードされたプロセスに該当するプロセス名のレコードを取得し、カラム「状態」214の値を調べる(S802)。
ここで上記値が「0」の場合、アプリケーションが停止状態にあるため監視の必要はなく、ステップS800に戻る。
また、上記値が「1」の場合、監視対象として設定されているため続くステップS804の処理を行なう。
ステップS804においては対応するプロセスSEQ番号のレコードをログメッセージ監視マスタテーブル31から取得し、「監視間隔」311の値を調べる。
現在時刻が監視間隔の値の倍数でない場合、ステップS800に戻る。
また、現在時刻が監視間隔の値の倍数である場合、ログファイルにおける所定のログメッセージの出現頻度を調べ、この出現頻度が所定の閾値を超えているかどうか調べる(S806)。
ここで所定のログメッセージの出現頻度が所定の閾値を超えていないと判定されると、ステップS800に戻る。
また、所定の閾値を超えていると判定されると、以下に述べる「対応処理フロー」が実行される。
先ず、対応するプロセスSEQ番号のレコードをログメッセージ監視マスタテーブル31から取得し、「対応処理フラグ」315の値を調べる(S808)。
対応処理フラグの値が「0」の場合、処理を実行せずに後述するステップS810の処理に移行する。
また、対応処理フラグの値が「1」の場合、障害調査用として、対応するプロセスSEQ番号のレコードをプロセスマスタテーブル21から取得し、カラム「ログファイル名」215によって指定されるログファイルを一旦外部記録装置に退避し(S812)、その後、対応するプロセスSEQ番号のレコードをプロセスマスタテーブル21から取得し、カラム「起動シェル」212によって指定されるプロセスの起動を実行し(S814)、ステップS810の処理に移行する。
また更に、対応処理フラグの値が「2」の場合、障害調査用として、対応するプロセスSEQ番号のレコードをプロセスマスタテーブル21から取得し、カラム「ログファイル名」215によって指定されるログファイルを一旦外部記録装置に退避し(S816)、その後、対応するプロセスSEQ番号のレコードをログメッセージ監視マスタテーブル31から取得し、カラム「障害対応シェル」316によって指定される障害対応シェルを実行し(S818)、ステップS810の処理に移行する。
ステップS810においては、対応するプロセスSEQ番号のレコードをログメッセージ監視マスタテーブル31から取得し、カラム「通知フラグ」317の値を調べる。この値が「0」の場合、ステップS800の処理に戻り、「1」の場合、対応するプロセスSEQ番号のレコードを管理者マスタテーブル20から取得し、カラム「管理者」201によって指定される管理者のメールアドレスに通知してから(S820)、ステップS800の処理に戻る。
図9は、監視対象プロセスにおけるログ更新時間に対する監視及びアプリケーション障害時の対応処理のフローチャートである。
本例では5分間待機してから(S900)、監視対象プロセスの監視を行なう。
先ず、プロセスマスタテーブル21から、メモリにロードされたプロセスに該当するプロセス名のレコードを取得し、カラム「状態」214の値を調べる(S902)。
ここで上記値が「0」の場合、アプリケーションが停止状態にあるため監視の必要はなく、ステップS900に戻る。
また、上記値が「1」の場合、監視対象として設定されているため続くステップS904の処理を行なう。
ステップS904においては対応するプロセスSEQ番号のレコードをログ更新時間監視マスタテーブル32から取得し、カラム「監視間隔」321の値を調べる。
現在時刻が監視間隔の値の倍数でない場合、ステップS900に戻る。
また、現在時刻が監視間隔の値の倍数である場合、次のように、ログファイルの更新間隔を調べ、この更新間隔が所定の閾値を超えているかどうか調べる(S906)。
先ず、ログファイルのファイル名などに示された更新時刻を取得し、該更新時刻から現在時刻を差し引いて更新時間間隔を計算する。次に、ログ更新時間監視閾値マスタテーブル33から対応するプロセスSEQ番号の現在の曜日のレコードを取得し、現在の時間帯のカラムに格納される値(閾値)を取得する。そして、上記更新時間間隔と上記閾値とを比較する。
ここで、上記更新時間間隔が上記閾値を超えなければ、ステップS900の処理に戻る。
また、上記更新時間間隔が上記閾値を超えた場合には、以下に述べる「対応処理フロー」が実行される。
先ず、対応するプロセスSEQ番号のレコードをログ更新時間監視マスタテーブル32から取得し、「対応処理フラグ」322の値を調べる(S908)。
対応処理フラグの値が「0」の場合、処理を実行せずに後述するステップS910の処理に移行する。
また、対応処理フラグの値が「1」の場合、障害調査用として、対応するプロセスSEQ番号のレコードをプロセスマスタテーブル21から取得し、カラム「ログファイル名」215によって指定されるログファイルを一旦外部記録装置に退避し(S912)、その後、対応するプロセスSEQ番号のレコードをプロセスマスタテーブル21から取得し、カラム「起動シェル」212によって指定されるプロセスの起動を実行し(S914)、ステップS910の処理に移行する。
また更に、対応処理フラグの値が「2」の場合、障害調査用として、対応するプロセスSEQ番号のレコードをプロセスマスタテーブル21から取得し、カラム「ログファイル名」215によって指定されるログファイルを一旦外部記録装置に退避し(S916)、詳しくは後述するが、その後、対応するプロセスSEQ番号のレコードをログ更新時間監視マスタテーブル32から取得し、カラム「障害対応シェル」323によって指定される障害対応シェルを実行し(S918)、ステップS910の処理に移行する。
ステップS910においては、対応するプロセスSEQ番号のレコードをログ更新時間監視マスタテーブル32から取得し、カラム「通知フラグ」324の値を調べる。この値が「0」の場合、ステップS900の処理に戻り、「1」の場合、対応するプロセスSEQ番号のレコードを管理者マスタテーブル20から取得し、カラム「管理者」201によって指定される管理者のメールアドレスに通知してから(S920)、ステップS900の処理に戻る。
ここで、障害対応シェル実行例を、図3(b)に示されるログメッセージ監視マスタテーブル31を基に説明する。
但し、図3(b)のログメッセージ監視マスタテーブル31のカラム「障害対応シェル」316に示される「aaa.sh」は、後述のプロセスB再起動後にプロセスAを再起動するシェルとする。
例えばプロセスA(プロセスSEQ:001、ソケットクライアントプロセス)とプロセスB(ソケットサーバプロセス)が存在する場合、プロセスAからプロセスBに対してソケット通信が行なわれている。
このとき、プロセスAのログファイルに、アプリケーション障害を示すログメッセージの「ERROR」が出現すると、ログメッセージ監視マスタテーブル31のカラム「対応処理フラグ」315の値「1」に基づいてプロセスAを再起動する。これに対しプロセスAのログファイルに、通信障害を示すログメッセージの「SOCKET」が出現すると、ログメッセージ監視マスタテーブル31のカラム「対応処理フラグ」315の値「2」に基づいてカラム「障害対応シェル」316の「aaa.sh」を実行する。この障害対応シェルは上述したようにプロセスB再起動後にプロセスAを再起動するためのシェルなので、その順に再起動を実行し、上記通信障害を回避する。
なお、特に説明しないが後述する障害対応シェルも、参照するテーブルは異なるが、同様の手順で処理を説明することができる。
図10は、対応処理実行ログの監視及びアプリケーション障害時の対応処理のフローチャートである。
本例では5分間待機してから(S1000)、監視対象プロセスの監視を行なう。
先ず、プロセスマスタテーブル21から、メモリにロードされたプロセスに該当するプロセス名のレコードを取得し、カラム「状態」214の値を調べる(S1002)。
ここで上記値が「0」の場合、アプリケーションが停止状態にあるため監視の必要はなく、ステップS1000に戻る。
また、上記値が「1」の場合、監視対象として設定されているため続くステップS1004の処理を行なう。
ステップS1004においては対応するプロセスSEQ番号のレコードを対応処理実行ログ監視マスタテーブル40から取得し、カラム「監視間隔」401の値を調べる。
現在時刻が監視間隔の値の倍数でない場合、ステップS1000に戻る。
また、現在時刻が監視間隔の値の倍数である場合、実行された対応処理の単位時間あたりの回数を調べ、この回数が所定の閾値を超えているかどうか判定する(S1006)。
このステップS1006における「単位時間あたりの対応処理実行回数の算出処理」は例えばSQL文を用いるものとすると、次のように記述できる。
(SQL文)
SELECT COUNT(*)FROM 対応処理実行ログ
WHWRE プロセスSEQ=‘***’
AND 実行時刻>現在時刻−単位時間

そして、得られた結果(すなわち現在時刻から遡って所定の単位時間内に対応処理が実行された回数)と対応処理実行ログ監視マスタテーブル40のカラム「対応処理実行回数閾値」403の値とを比較することにより判定を行なう。
ここで、上記実行回数が上記閾値を超えなければ、ステップS1000の処理に戻る。
また、上記実行回数が上記閾値を超えた場合には対応するプロセスSEQ番号のレコードをプロセスマスタテーブル21から取得し、そしてカラム「停止シェル」213に指定された停止シェルを実行して当該プロセスを停止し、当該プロセスのカラム「状態」214の値を「0」に変更して当該プロセスを監視対象から外す(S1008)。
続いて、対応するプロセスSEQ番号のレコードを対応処理実行ログ監視マスタテーブル40から取得し、カラム「通知フラグ」404の値を調べる。この値が「0」の場合、ステップS1000の処理に戻り、「1」の場合、対応するプロセスSEQ番号のレコードを管理者マスタテーブル20から取得し、カラム「管理者」201によって指定される管理者のメールアドレスに通知してから(S1020)、ステップS1000の処理に戻る。
以上説明してきた各処理はプログラムの形態で配布することもできる。
その場合、フロッピー(登録商標)ディスク、CD−ROM、DVDなどの記録媒体に上記プログラムやファイルを記録させて配布したり、或いは、公衆網等で用いられる伝送媒体を介して、そのプログラムやファイルの一部、若しくは全部を配信するようにしたりすることができる。この場合、それを受け取ったユーザは、CD−ROM装置などの読み取り装置(入出力部の一部)を利用してフロッピー(登録商標)ディスクやCD−ROMやDVDなどの可搬型記録媒体から上記プログラムやファイルを外部記録部にコピーしたり、コンピュータの通信部を介してインターネットから上記プログラムやファイルを外部記録部にコピーしたりすることができる。そして、CPUで実行することにより、ユーザのコンピュータ上でも上述した機能を実現できる。
以上に述べたように、本発明の実施の形態では、プロセスのログファイルからアプリケーション異常を検出できる。このためプロセスの存在の有無を監視するだけでは検出できないアプリケーション障害を検出できるようになり、このように検出された障害に対して復旧処理が行なえる。また、以上のように復旧処理を行なって正常に対処できない場合は、その状況を検出し、管理者に通知できるようになるので、簡易的な障害については自動復旧させ、高度な障害については速やかに管理者に通知できるようになる。
(付記1)アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実行させるプログラムであって、プロセスのログファイルに出現するログメッセージを監視する機能と、上記ログファイルにおける所定のログメッセージの出現頻度が所定回数以上であった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、をコンピュータに実現させるプログラム。
(付記2)上記アプリケーション障害に対する対応処理は、上記プロセス及び上記アプリケーション障害と判定されたログメッセージの種類との組み合わせによって任意に設定されている、ことを特徴とする付記1に記載のプログラム。
(付記3)上記対応処理の実行日時をプロセス毎に管理する機能と、上記プロセス毎に管理される実行日時から所定時間間隔内の実行回数を上記プロセス毎に算出する機能と、上記所定時間間隔内の実行回数が所定回数を超えた場合に対応処理エラーと判定し、上記所定時間間隔内の実行回数が所定回数を超えたプロセスを停止して監視対象から外す機能と、上記所定時間間隔内の実行回数が所定回数を超えたプロセスの管理者に上記対応処理エラーの情報を通知する機能と、を更にコンピュータに実現させる付記1または2に記載のプログラム。
(付記4)アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実行させるプログラムであって、プロセスのログファイルのログ更新時間を監視する機能と、上記ログファイルのログ更新が所定時間間隔以上行なわれなかった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、をコンピュータに実現させるプログラム。
(付記5)上記アプリケーション障害の判定基準となる上記所定時間間隔は、上記判定を行なう時間帯ごとに任意に時間間隔が設定されている、ことを特徴とする付記4に記載のプログラム。
(付記6)上記対応処理の実行日時をプロセス毎に管理する機能と、上記プロセス毎に管理される実行日時から所定時間間隔内の実行回数を上記プロセス毎に算出する機能と、上記所定時間間隔内の実行回数が所定回数を超えた場合に対応処理エラーと判定し、上記所定時間間隔内の実行回数が所定回数を超えたプロセスを停止して監視対象から外す機能と、上記所定時間間隔内の実行回数が所定回数を超えたプロセスの管理者に上記対応処理エラーの情報を通知する機能と、を更にコンピュータに実現させる付記4または5に記載のプログラム。
(付記7)アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実現させるプログラムを記録したコンピュータ読み取り可能な記録媒体であって、プロセスのログファイルに出現するログメッセージを監視する機能と、上記ログファイルにおける所定のログメッセージの出現頻度が所定回数以上であった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、をコンピュータに実現させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記8)アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実現させるプログラムを記録したコンピュータ読み取り可能な記録媒体であって、プロセスのログファイルのログ更新時間を監視する機能と、上記ログファイルのログ更新が所定時間間隔以上行なわれなかった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、をコンピュータに実現させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記9)アプリケーション障害を検知して自動的に障害対応するコンピュータによる、アプリケーション障害を検知して自動的に障害対応する方法であって、プロセスのログファイルに出現するログメッセージを監視し、上記ログファイルにおける所定のログメッセージの出現頻度が所定回数以上であった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する、ことを特徴とする方法。
(付記10)アプリケーション障害を検知して自動的に障害対応するコンピュータによる、アプリケーション障害を検知して自動的に障害対応する方法であって、プロセスのログファイルのログ更新時間を監視し、上記ログファイルのログ更新が所定時間間隔以上行なわれなかった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する、ことを特徴とする方法。
(付記11)アプリケーション障害を検知して自動的に障害対応するアプリケーション監視装置であって、プロセスのログファイルに出現するログメッセージを監視する機能と、上記ログファイルにおける所定のログメッセージの出現頻度が所定回数以上であった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、を有することを特徴とするアプリケーション監視装置。
(付記12)アプリケーション障害を検知して自動的に障害対応するアプリケーション監視装置であって、プロセスのログファイルのログ更新時間を監視する機能と、上記ログファイルのログ更新が所定時間間隔以上行なわれなかった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、を有することを特徴とするアプリケーション監視装置。
本発明の実施の形態におけるアプリケーション監視装置の一構成例である。 管理者マスタテーブル/プロセスマスタテーブルの一例である。 プロセス監視マスタテーブル/ログメッセージ監視マスタテーブル/ログ更新時間監視マスタテーブル/ログ更新時間監視閾値マスタテーブルの一例である。 対応処理実行ログ監視マスタテーブルの一例である。 対応処理実行ログを格納する対応処理実行ログテーブルの一例である。 監視対象プロセスのログファイルの一例である。 監視対象プロセスに対する監視及びアプリケーション障害時の対応処理のフローチャートである。 監視対象プロセスにおけるログメッセージに対する監視及びアプリケーション障害時の対応処理のフローチャートである。 監視対象プロセスにおけるログ更新時間に対する監視及びアプリケーション障害時の対応処理のフローチャートである。 対応処理実行ログの監視及びアプリケーション障害時の対応処理のフローチャートである。
符号の説明
1 監視対象プロセス
2 ログファイル
3 プロセス監視機能
4 ログメッセージ監視機能
5 ログ更新時間監視機能
6 監視機能
7 マスタ情報記録部
8 対応処理実行ログ記録部
9 対応処理実行ログ監視機能

Claims (5)

  1. アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実行させるプログラムであって、
    プロセスのログファイルに出現するログメッセージを監視する機能と、
    前記ログファイルにおける所定のログメッセージの出現頻度が所定回数以上であった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、
    をコンピュータに実現させるプログラム。
  2. 前記アプリケーション障害に対する対応処理は、前記プロセス及び前記アプリケーション障害と判定されたログメッセージの種類との組み合わせによって任意に設定されている、
    ことを特徴とする請求項1に記載のプログラム。
  3. アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実行させるプログラムであって、
    プロセスのログファイルのログ更新時間を監視する機能と、
    前記ログファイルのログ更新が所定時間間隔以上行なわれなかった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、
    をコンピュータに実現させるプログラム。
  4. 前記アプリケーション障害の判定基準となる前記所定時間間隔は、前記判定を行なう時間帯ごとに任意に時間間隔が設定されている、
    ことを特徴とする請求項3に記載のプログラム。
  5. アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実行させるプログラムであって、
    プロセスのログファイルに出現するログメッセージを監視する機能と、
    前記ログファイルのログ更新時間を監視する機能と、
    前記ログファイルにおける所定のログメッセージの出現頻度が所定回数以上であった場合または前記ログファイルのログ更新が所定時間間隔以上行なわれなかった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、
    をコンピュータに実現させるプログラム。
JP2004081327A 2004-03-19 2004-03-19 アプリケーション監視装置、そのプログラム、及びその記録媒体。 Expired - Fee Related JP4230946B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004081327A JP4230946B2 (ja) 2004-03-19 2004-03-19 アプリケーション監視装置、そのプログラム、及びその記録媒体。

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004081327A JP4230946B2 (ja) 2004-03-19 2004-03-19 アプリケーション監視装置、そのプログラム、及びその記録媒体。

Publications (2)

Publication Number Publication Date
JP2005267434A true JP2005267434A (ja) 2005-09-29
JP4230946B2 JP4230946B2 (ja) 2009-02-25

Family

ID=35091899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004081327A Expired - Fee Related JP4230946B2 (ja) 2004-03-19 2004-03-19 アプリケーション監視装置、そのプログラム、及びその記録媒体。

Country Status (1)

Country Link
JP (1) JP4230946B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008123357A (ja) * 2006-11-14 2008-05-29 Honda Motor Co Ltd 並列計算機システム、並列計算方法および並列計算機用プログラム
JP2009181482A (ja) * 2008-01-31 2009-08-13 Fuji Television Network Inc 画像処理システム及び画像処理方法
WO2010113212A1 (ja) * 2009-03-31 2010-10-07 富士通株式会社 メモリリーク監視装置、及び方法
JP2013525885A (ja) * 2010-04-16 2013-06-20 インターナショナル・ビジネス・マシーンズ・コーポレーション アプリケーションの無進行状態の検出
US8489525B2 (en) 2010-05-20 2013-07-16 International Business Machines Corporation Automatic model evolution
JP2014219719A (ja) * 2013-05-01 2014-11-20 株式会社日立システムズ 監視装置、プログラムおよび監視方法
JP2019106001A (ja) * 2017-12-12 2019-06-27 富士通株式会社 情報処理装置、情報処理システムおよびプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008123357A (ja) * 2006-11-14 2008-05-29 Honda Motor Co Ltd 並列計算機システム、並列計算方法および並列計算機用プログラム
JP2009181482A (ja) * 2008-01-31 2009-08-13 Fuji Television Network Inc 画像処理システム及び画像処理方法
WO2010113212A1 (ja) * 2009-03-31 2010-10-07 富士通株式会社 メモリリーク監視装置、及び方法
JPWO2010113212A1 (ja) * 2009-03-31 2012-10-04 富士通株式会社 メモリリーク監視装置、及び方法
JP2013525885A (ja) * 2010-04-16 2013-06-20 インターナショナル・ビジネス・マシーンズ・コーポレーション アプリケーションの無進行状態の検出
US8489525B2 (en) 2010-05-20 2013-07-16 International Business Machines Corporation Automatic model evolution
US8577818B2 (en) 2010-05-20 2013-11-05 International Business Machines Corporation Automatic model evolution
JP2014219719A (ja) * 2013-05-01 2014-11-20 株式会社日立システムズ 監視装置、プログラムおよび監視方法
JP2019106001A (ja) * 2017-12-12 2019-06-27 富士通株式会社 情報処理装置、情報処理システムおよびプログラム

Also Published As

Publication number Publication date
JP4230946B2 (ja) 2009-02-25

Similar Documents

Publication Publication Date Title
US20090327361A1 (en) Data replication feedback for transport input/output
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
CN110417586B (zh) 服务监控方法、服务节点、服务器及计算机可读存储介质
CN110659159A (zh) 一种服务进程运行监控方法、装置、设备及存储介质
JP4230946B2 (ja) アプリケーション監視装置、そのプログラム、及びその記録媒体。
WO2023185802A1 (zh) 数据处理方法及装置
TWI518680B (zh) 維護電腦系統之檔案系統的方法
JP2003233512A (ja) 保守機能付きクライアント監視システム及び監視サーバ及びプログラム並びにクライアント監視・保守方法
US20120096303A1 (en) Detecting and recovering from process failures
JP2007058506A (ja) 文書管理サーバ、文書管理システム、及び、文書管理プログラムとその記録媒体
CN111342986A (zh) 分布式节点管理方法及装置、分布式系统、存储介质
JP2006065440A (ja) プロセス管理システム
JP2001022709A (ja) クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体
JP5417264B2 (ja) 分析情報提供方法
JP3551079B2 (ja) 修正ロードモジュール置換後の復旧方法ならびに装置
CN113778763B (zh) 一种三方接口服务故障智能切换方法及系统
US8087032B2 (en) Automated recovery process initiation for data consumers of a common information model (CIM) managed component
CN115604088A (zh) 组件集群系统的主备切换方法、装置、设备及存储介质
CN115098294A (zh) 异常事件的处理方法、电子设备及管理终端
CN110532160B (zh) 一种bmc记录服务器系统热重启事件的方法
JP2015215739A (ja) 障害切り分けサポートシステムおよび障害対応管理方法
JP2001022717A (ja) 分散環境の運用管理システムに関する誤操作判別方法
US8533331B1 (en) Method and apparatus for preventing concurrency violation among resources
CN110837431A (zh) 服务控制方法、装置、计算机设备及计算机可读存储介质
JP2005018179A (ja) 障害監視装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080708

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081007

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081204

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121212

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121212

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131212

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees