JP4230946B2 - アプリケーション監視装置、そのプログラム、及びその記録媒体。 - Google Patents
アプリケーション監視装置、そのプログラム、及びその記録媒体。 Download PDFInfo
- Publication number
- JP4230946B2 JP4230946B2 JP2004081327A JP2004081327A JP4230946B2 JP 4230946 B2 JP4230946 B2 JP 4230946B2 JP 2004081327 A JP2004081327 A JP 2004081327A JP 2004081327 A JP2004081327 A JP 2004081327A JP 4230946 B2 JP4230946 B2 JP 4230946B2
- Authority
- JP
- Japan
- Prior art keywords
- monitoring
- log
- column
- failure
- application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
本発明のプログラムの態様一つは、アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実行させることを前提とし、プロセスのログファイルに出現するログメッセージを監視する機能と、前記ログファイルにおける所定のログメッセージの出現頻度が所定回数以上であった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、をコンピュータに実現させる。
本発明のプログラムのその他の態様一つは、アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実行させることを前提とし、プロセスのログファイルに出現するログメッセージを監視する機能と、前記ログファイルのログ更新時間を監視する機能と、前記ログファイルにおける所定のログメッセージの出現頻度が所定回数以上であった場合または前記ログファイルのログ更新が所定時間間隔以上行なわれなかった場合にアプリケーション障害と判定し、該アプリケーション障害に対する対応処理を実行する機能と、をコンピュータに実現させる。
図1は、本発明の実施の形態におけるアプリケーション監視装置の一構成例である。
本装置は、CPU(中央処理装置)、メモリ、外部記録部、入出力部、及び通信部が互いにバスを介して接続される一つ或いは複数のコンピュータによって構成され、各種のプログラムが外部記録装置からメモリにロードされ、CPU(中央処理装置)で適宜実行されることにより、以下に詳述する機能を実現する。
1.マスタ情報記録部7の判定基準情報に基づき、プロセス監視機能3は監視対象プロセス1の存在の有無を判定し、監視対象プロセス1が存在しない場合にアプリケーション障害の発生と認定して特定の復旧処理を行なう。
そこで本例のマスタ情報記録部7において提供される情報(上記判定基準情報を含む情報)を以下のように整理しておく。
また、監視対象となる各プロセスの起動・停止をプロセス操作ツール18から行なうことができる。
図2(a)は管理者マスタテーブルの一例である。
同図の管理者マスタテーブル20は、カラム「プロセスSEQ」200及びカラム「管理者」201によって構成される。
同図のプロセスマスタテーブル21は、カラム「プロセスSEQ」210、カラム「プロセス名」211、カラム「起動シェル」212、カラム「停止シェル」213、カラム「状態」214、及びカラム「ログファイル名」215によって構成される。
カラム「起動シェル」212及びカラム「停止シェル」213にはそれぞれ、起動シェルのファイル名、停止シェルのファイル名が格納される。本例では「起動シェル」212に、再起動を実行する起動シェルのファイル名が格納される。
図3(a)は、プロセス監視マスタテーブルの一例である。
カラム「対応処理フラグ」302にはアプリケーション障害発生時の対応処理方法を示すフラグが格納される。本例では、処理を行なわない場合を「0」、障害調査用にログファイルを退避し、プロセスマスタテーブル21のカラム「起動シェル」212の名前からプロセスを再起動する場合を「1」、障害調査用にログファイルを退避し、プロセス監視マスタテーブル30のカラム「障害対応シェル」303から該「障害対応シェル」303に格納される対応処理を行なう場合を「2」とする。
カラム「通知フラグ」304には管理者へ通知するか否かのフラグが格納される。本例では通知しない場合を「0」、通知する場合を「1」とする。
同図のログメッセージ監視マスタテーブル31は、カラム「プロセスSEQ」310、カラム「監視間隔」311、カラム「監視メッセージ」312、カラム「単位時間」313、カラム「出現回数閾値」314、カラム「対応処理フラグ」315、カラム「障害対応シェル」316、及びカラム「通知フラグ」317によって構成される。
カラム「監視間隔」311にはログメッセージを監視する監視間隔の時間が格納される。本例では分単位の数字が格納される。
カラム「単位時間」313には後述する出現回数の閾値が設定される単位時間が格納される。本例では分単位の数字が格納される。
本例のログ更新時間監視マスタテーブル32は、カラム「プロセスSEQ」320、カラム「監視間隔」321、カラム「対応処理フラグ」322、カラム「障害対応シェル」323、及びカラム「通知フラグ」324によって構成される。
カラム「対応処理フラグ」322にはアプリケーション障害発生時の対応処理方法を示すフラグが格納される。本例では、処理を行なわない場合を「0」、障害調査用にログファイルを退避し、プロセスマスタテーブル21のカラム「起動シェル」212の名前からプロセスを再起動する場合を「1」、障害調査用にログファイルを退避し、ログ更新時間監視マスタテーブル32のカラム「障害対応シェル」323から該「障害対応シェル」323に格納される対応処理を行なう場合を「2」とする。
同図のログ更新時間監視閾値マスタテーブル33は、カラム「プロセスSEQ」330、カラム「曜日」331、0時から23時まで1時間ごとに分けられたカラム「時刻」332によって構成される。
カラム「時刻」332には、カラム「曜日」331に格納される曜日の0時から23時で示される各時間帯に対して、各々、ログ更新の時間間隔の閾値が格納される。本例では分単位で数字が格納される。
同図の対応処理実行ログ監視マスタテーブル40は、カラム「プロセスSEQ」400、カラム「監視間隔」401、カラム「単位時間」402、カラム「対応処理実行回数閾値」403、及びカラム「通知フラグ」404によって構成される。
カラム「単位時間」402には後述する出現回数の閾値が設定される単位時間が格納される。本例では分単位の数字が格納される。
図5は、対応処理実行ログを格納する対応処理実行ログテーブルの一例である。
カラム「プロセスSEQ」501は、マスタ情報記録部7の各テーブルの「プロセスSEQ」に該当する。
カラム「実行時刻」503は、対応処理が実行された日時が格納される。本例では、西暦/月/日、時:分:秒が格納される。
図6は監視対象プロセスのログファイルの一例である。
図7は、監視対象プロセスに対する監視及びアプリケーション障害時の対応処理のフローチャートである。
先ず、プロセスマスタテーブル21から、メモリにロードされたプロセスに該当するプロセス名のレコードを取得し、カラム「状態」214の値を調べる(S702)。
また、上記値が「1」の場合、監視対象として設定されているため続くステップS704の処理を行なう。
現在時刻が監視間隔の値の倍数でない場合、ステップS700に戻る。
ここでプロセスの存在が確認されると、ステップS700に戻る。
先ず、対応するプロセスSEQ番号のレコードをプロセス監視マスタテーブル30から取得し、「対応処理フラグ」302の値を調べる(S708)。
また、対応処理フラグの値が「1」の場合、障害調査用として、対応するプロセスSEQ番号のレコードをプロセスマスタテーブル21から取得し、カラム「ログファイル名」215によって指定されるログファイルを一旦外部記録装置に退避し(S712)、その後、対応するプロセスSEQ番号のレコードをプロセスマスタテーブル21から取得し、カラム「起動シェル」212によって指定されるプロセスの起動を実行し(S714)、ステップS710の処理に移行する。
本例では5分間待機してから(S800)、監視対象プロセスの監視を行なう。
ここで上記値が「0」の場合、アプリケーションが停止状態にあるため監視の必要はなく、ステップS800に戻る。
ステップS804においては対応するプロセスSEQ番号のレコードをログメッセージ監視マスタテーブル31から取得し、「監視間隔」311の値を調べる。
また、現在時刻が監視間隔の値の倍数である場合、ログファイルにおける所定のログメッセージの出現頻度を調べ、この出現頻度が所定の閾値を超えているかどうか調べる(S806)。
また、所定の閾値を超えていると判定されると、以下に述べる「対応処理フロー」が実行される。
対応処理フラグの値が「0」の場合、処理を実行せずに後述するステップS810の処理に移行する。
本例では5分間待機してから(S900)、監視対象プロセスの監視を行なう。
ここで上記値が「0」の場合、アプリケーションが停止状態にあるため監視の必要はなく、ステップS900に戻る。
ステップS904においては対応するプロセスSEQ番号のレコードをログ更新時間監視マスタテーブル32から取得し、カラム「監視間隔」321の値を調べる。
また、現在時刻が監視間隔の値の倍数である場合、次のように、ログファイルの更新間隔を調べ、この更新間隔が所定の閾値を超えているかどうか調べる(S906)。
また、上記更新時間間隔が上記閾値を超えた場合には、以下に述べる「対応処理フロー」が実行される。
対応処理フラグの値が「0」の場合、処理を実行せずに後述するステップS910の処理に移行する。
但し、図3(b)のログメッセージ監視マスタテーブル31のカラム「障害対応シェル」316に示される「aaa.sh」は、後述のプロセスB再起動後にプロセスAを再起動するシェルとする。
図10は、対応処理実行ログの監視及びアプリケーション障害時の対応処理のフローチャートである。
先ず、プロセスマスタテーブル21から、メモリにロードされたプロセスに該当するプロセス名のレコードを取得し、カラム「状態」214の値を調べる(S1002)。
また、上記値が「1」の場合、監視対象として設定されているため続くステップS1004の処理を行なう。
現在時刻が監視間隔の値の倍数でない場合、ステップS1000に戻る。
このステップS1006における「単位時間あたりの対応処理実行回数の算出処理」は例えばSQL文を用いるものとすると、次のように記述できる。
SELECT COUNT(*)FROM 対応処理実行ログ
WHWRE プロセスSEQ=‘***’
AND 実行時刻>現在時刻−単位時間
そして、得られた結果(すなわち現在時刻から遡って所定の単位時間内に対応処理が実行された回数)と対応処理実行ログ監視マスタテーブル40のカラム「対応処理実行回数閾値」403の値とを比較することにより判定を行なう。
また、上記実行回数が上記閾値を超えた場合には対応するプロセスSEQ番号のレコードをプロセスマスタテーブル21から取得し、そしてカラム「停止シェル」213に指定された停止シェルを実行して当該プロセスを停止し、当該プロセスのカラム「状態」214の値を「0」に変更して当該プロセスを監視対象から外す(S1008)。
その場合、フロッピー(登録商標)ディスク、CD−ROM、DVDなどの記録媒体に上記プログラムやファイルを記録させて配布したり、或いは、公衆網等で用いられる伝送媒体を介して、そのプログラムやファイルの一部、若しくは全部を配信するようにしたりすることができる。この場合、それを受け取ったユーザは、CD−ROM装置などの読み取り装置(入出力部の一部)を利用してフロッピー(登録商標)ディスクやCD−ROMやDVDなどの可搬型記録媒体から上記プログラムやファイルを外部記録部にコピーしたり、コンピュータの通信部を介してインターネットから上記プログラムやファイルを外部記録部にコピーしたりすることができる。そして、CPUで実行することにより、ユーザのコンピュータ上でも上述した機能を実現できる。
2 ログファイル
3 プロセス監視機能
4 ログメッセージ監視機能
5 ログ更新時間監視機能
6 監視機能
7 マスタ情報記録部
8 対応処理実行ログ記録部
9 対応処理実行ログ監視機能
Claims (2)
- アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実行させるプログラムであって、
プロセスのログファイルに出現するログメッセージを監視するステップと、
前記ログファイルにおける所定のログメッセージの出現頻度が前記プロセスの該ログメッセージ毎に予め設定された所定回数以上であった場合にアプリケーション障害と判定するステップと、
前記判定されたアプリケーション障害に予め対応付けられている対応処理を実行するステップと、
前記実行された対応処理の実行日時を前記プロセス毎に管理するステップと、
前記管理されたプロセス毎の前記対応処理の実行日時から予め該プロセス毎に設定された所定時間間隔内の前記対応処理の実行回数を該プロセス毎に算出するステップと、
前記所定時間間隔内の前記実行回数が予め前記プロセス毎に設定された閾値を超えたプロセスを停止させて監視対象から外すステップと
をコンピュータに実行させることを特徴とするアプリケーション監視プログラム。 - アプリケーション障害を検知して自動的に障害対応する処理をコンピュータに実行させるプログラムであって、
プロセスのログファイルのログ更新時間を監視するステップと、
前記ログファイルのログ更新が前記プロセス毎に予め設定された所定時間間隔以上行われなかった場合にアプリケーション障害と判定するステップと、
前記判定されたアプリケーション障害に予め対応付けられている対応処理を実行するステップと、
前記実行された対応処理の実行日時を前記プロセス毎に管理するステップと、
前記管理されたプロセス毎の前記対応処理の実行日時から予め該プロセス毎に設定された所定時間間隔内の前記対応処理の実行回数を該プロセス毎に算出するステップと、
前記所定時間間隔内の前記実行回数が予め前記プロセス毎に設定された閾値を超えたプロセスを停止させて監視対象から外すステップと
をコンピュータに実行させることを特徴とするアプリケーション監視プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004081327A JP4230946B2 (ja) | 2004-03-19 | 2004-03-19 | アプリケーション監視装置、そのプログラム、及びその記録媒体。 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004081327A JP4230946B2 (ja) | 2004-03-19 | 2004-03-19 | アプリケーション監視装置、そのプログラム、及びその記録媒体。 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005267434A JP2005267434A (ja) | 2005-09-29 |
JP4230946B2 true JP4230946B2 (ja) | 2009-02-25 |
Family
ID=35091899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004081327A Expired - Fee Related JP4230946B2 (ja) | 2004-03-19 | 2004-03-19 | アプリケーション監視装置、そのプログラム、及びその記録媒体。 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4230946B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008123357A (ja) * | 2006-11-14 | 2008-05-29 | Honda Motor Co Ltd | 並列計算機システム、並列計算方法および並列計算機用プログラム |
JP5052361B2 (ja) * | 2008-01-31 | 2012-10-17 | 株式会社フジテレビジョン | 画像処理システム及び画像処理方法 |
JPWO2010113212A1 (ja) * | 2009-03-31 | 2012-10-04 | 富士通株式会社 | メモリリーク監視装置、及び方法 |
US8397106B2 (en) * | 2010-04-16 | 2013-03-12 | International Business Machines Corporation | Detecting no progress state of an application |
US8489525B2 (en) | 2010-05-20 | 2013-07-16 | International Business Machines Corporation | Automatic model evolution |
JP5768086B2 (ja) * | 2013-05-01 | 2015-08-26 | 株式会社日立システムズ | 監視装置、プログラムおよび監視方法 |
JP6958311B2 (ja) * | 2017-12-12 | 2021-11-02 | 富士通株式会社 | 情報処理装置、情報処理システムおよびプログラム |
-
2004
- 2004-03-19 JP JP2004081327A patent/JP4230946B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005267434A (ja) | 2005-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109240765B (zh) | 服务资源的熔断方法、装置、设备及计算机可读存储介质 | |
CN109308252B (zh) | 一种故障定位处理方法及装置 | |
CN110417586B (zh) | 服务监控方法、服务节点、服务器及计算机可读存储介质 | |
CN110659159A (zh) | 一种服务进程运行监控方法、装置、设备及存储介质 | |
CN106681863B (zh) | 保存电子病历编辑内容的方法和终端设备 | |
JP4230946B2 (ja) | アプリケーション監視装置、そのプログラム、及びその記録媒体。 | |
US8271454B2 (en) | Circular log amnesia detection | |
CN111901176B (zh) | 故障确定方法、装置、设备及存储介质 | |
JP5417264B2 (ja) | 分析情報提供方法 | |
US8103905B2 (en) | Detecting and recovering from process failures | |
TWI518680B (zh) | 維護電腦系統之檔案系統的方法 | |
JP2003233512A (ja) | 保守機能付きクライアント監視システム及び監視サーバ及びプログラム並びにクライアント監視・保守方法 | |
JP2007058506A (ja) | 文書管理サーバ、文書管理システム、及び、文書管理プログラムとその記録媒体 | |
CN118018463A (zh) | 一种故障处理方法、装置、设备及可读存储介质 | |
CN111342986A (zh) | 分布式节点管理方法及装置、分布式系统、存储介质 | |
JP3551079B2 (ja) | 修正ロードモジュール置換後の復旧方法ならびに装置 | |
CN113778763B (zh) | 一种三方接口服务故障智能切换方法及系统 | |
JP2006065440A (ja) | プロセス管理システム | |
JP2015095876A (ja) | プラント監視制御システム | |
JP2001331330A (ja) | プロセス異常検知及び復旧システム | |
JP2015215739A (ja) | 障害切り分けサポートシステムおよび障害対応管理方法 | |
CN110837431A (zh) | 服务控制方法、装置、计算机设备及计算机可读存储介质 | |
JP5792055B2 (ja) | 情報処理装置 | |
CN111694634A (zh) | 一种虚拟机的监控方法和监控装置 | |
CN114048075A (zh) | 磁盘测试方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080708 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081007 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081204 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111212 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111212 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121212 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121212 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131212 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |