JP2004280171A - 障害情報通知プログラム - Google Patents

障害情報通知プログラム Download PDF

Info

Publication number
JP2004280171A
JP2004280171A JP2003066931A JP2003066931A JP2004280171A JP 2004280171 A JP2004280171 A JP 2004280171A JP 2003066931 A JP2003066931 A JP 2003066931A JP 2003066931 A JP2003066931 A JP 2003066931A JP 2004280171 A JP2004280171 A JP 2004280171A
Authority
JP
Japan
Prior art keywords
person
charge
event
notification
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003066931A
Other languages
English (en)
Inventor
Hideki Ishiwatari
秀樹 石渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003066931A priority Critical patent/JP2004280171A/ja
Publication of JP2004280171A publication Critical patent/JP2004280171A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】障害発生を受信すると、予想される対処作業をスケジューリングし、各担当者に障害内容と各担当者の作業開始予想時間を通知することで、各担当者にとって効率的な障害通知を可能にする。
【解決手段】コンピュータに、各事象に関する担当者と対処内容とを格納したリカバリ情報テーブルを参照し、監視対象サーバで発生した事象に関する担当者と対処内容とを抽出する第一抽出ステップと、前記第一抽出ステップにおいて抽出した対処内容に基づき、対処スケジュールを作成する第一スケジューリングステップと、前記対処スケジュールを前記担当者に対して通知する第一通知ステップと、を動作させることを特徴とする。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は監視対象サーバで発生する障害を監視する障害監視サーバにおいて動作する障害情報通知プログラムに関する。
【0002】
【従来の技術】
従来、運用中のコンピュータシステムに障害が発生した時、まず、保守部門の窓口担当者を呼び出し、呼び出された人が現場の状況を確認して適切な担当者を呼び出すという、二段階呼び出しを行うことが多い。この場合、適切な担当者が呼び出されるまでに時間がかかり、障害情報の伝達が不十分になる恐れもある。
【0003】
上記の問題点に対し、運用中に発生した障害を受信し、障害の種別に基づきその障害の復旧処置を行う担当者を設定し、通信ネットワークを介して障害情報を通知するコンピュータ監視システムがある(例えば、特許文献1参照。)。
【0004】
【特許文献1】
特開2002−215425号公報
【0005】
【発明が解決しようとする課題】
しかし、コンピュータシステムの障害は、多くの場合いくつかの要因が存在し、その障害に対処する場合には、複数の担当者が必要となる。例えば、ネットワークのトラブルが発生した場合に、ネットワーク担当者が対処した後、サーバ担当者がサーバの設定を修正し、アプリケーションプログラム担当者がプログラムの修正を行い、運用担当者がデータの修正を行うということが考えられる。
【0006】
このような場合に、上記先行技術を適用すると、一時に各担当者に通知が行くことになるが、例えば最後に対処を行う運用担当者は、他の対処が完了するまで何も手を打つことができないといった無駄な時間を過ごすことになってしまう。
【0007】
このような問題を解決するため、本発明は、障害発生を受信すると、予想される対処作業をスケジューリングし、各担当者に障害内容と各担当者の作業開始予想時間を通知することで、各担当者にとって効率的な障害通知を可能にすることを目的とする。
【0008】
【課題を解決するための手段】
本発明に係る障害情報通知プログラムは、コンピュータに、各事象に関する担当者と対処内容とを格納したリカバリ情報テーブルを参照し、監視対象サーバで発生した事象に関する担当者と対処内容とを抽出する第一抽出ステップと、前記第一抽出ステップにおいて抽出した対処内容に基づき、対処スケジュールを作成する第一スケジューリングステップと、前記対処スケジュールを前記担当者に対して通知する第一通知ステップと、を動作させることを特徴とする。
【0009】
このように構成することにより、発生した事象に必要な対処をスケジューリングし、そのスケジューリング結果を各担当者に通知することが可能となる。
【0010】
また、本発明に係る障害情報通知プログラムは、監視対象サーバからのエラーメッセージを受信するエラーメッセージ受信ステップと、各エラーメッセージに該当する事象情報を格納した事象テーブルを参照し、前記エラーメッセージ受信ステップにおいて受信したエラーメッセージに該当する事象情報を抽出する第二抽出ステップと、を備え、前記第一抽出ステップにおいて、前記第二抽出ステップにおいて抽出された事象情報に関する担当者と対処内容とを抽出することを特徴とする。
【0011】
このように構成することにより、監視対象サーバからのエラーメッセージを受信することを契機に自動的に通知処理を行うことが可能となる。
【0012】
また、本発明に係る障害情報通知プログラムは、各担当者からの完了通知を受信する完了通知受信ステップと、前記完了通知に基づき、再度対処スケジュールを作成する第二スケジューリングステップと、前記第二スケジューリングステップで作成した対処スケジュールを前記担当者に対して通知する第二通知ステップと、を備えることを特徴とする。
【0013】
このように構成することにより、一度作成して通知したスケジュールを実績に基づいて見直しを行って再通知することが可能となる。
【0014】
また、本発明に係る障害情報通知プログラムは、実際に対処が完了した時間に基づき、前記リカバリ情報テーブルに格納された対処に要する所要時間を補正することを特徴とする。
【0015】
このように構成することにより、従前に見積もって作成した対処スケジュールを、実績に基づいてより正確な値に補正することが可能となる。
【0016】
なお、上述のプログラムは、コンピュータにて実施することができ、このプログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークなどを介してデジタル信号として配信される場合もある。なお、中間的な処理結果はメモリに一時保管される。
【0017】
【発明の実施の形態】
本発明の実施の形態に係るシステム概要について図1を用いて説明する。本発明の障害情報通知プログラムは、監視対象サーバ150とネットワークを介して接続されて、当該監視対象サーバ150で発生する障害を監視する障害監視サーバ100のハードディスクにインストールすることで機能する。
【0018】
インストールされる主なプログラムは、監視対象サーバ150から送信されるエラーメッセージや担当者が保持する端末180から送信される完了通知を受信する受信プログラム102、受信プログラム102で受信したエラーメッセージや完了通知に基づき、対処スケジュールを作成するスケジューリングプログラム103、スケジューリングプログラム103で作成されたスケジュールを担当者が保持する端末180に通知する通知プログラム104、全ての対処が完了した際に実績に基づいて従前に見積もって作成した対処スケジュールの補正を行う情報登録プログラム105、が含まれる。
【0019】
なお、受信プログラム102及び通知プログラム104と、担当者が保持する端末180との電子メールの送受信については、本発明の障害情報通知プログラムとは別に障害監視サーバ100に備えられるメール送受信プログラム101と、メールサーバ160とを介し、更にインターネット等のネットワーク170を介して行われるものとする。但し、必ずしも電子メールで情報のやり取りを行う必要はなく、WWWサーバを用いる等、様々な手段が考えられるが、本実施の形態においては説明の便宜上電子メールでのやり取りを用いて説明する。
【0020】
これらのプログラムは、障害監視サーバ100の図示せぬ外部記憶装置に格納されており、各プログラム実行時に内部記憶装置に読み出される。
【0021】
また更に、障害監視サーバ100の外部記憶装置には、各メッセージに対応する事象名を格納する事象テーブル107、各事象に関するリカバリ情報を格納するリカバリ情報テーブル108、担当者に関する情報を格納する担当者テーブル109、対処中の事象の状況を管理する対処状況テーブル110、受信プログラム102で受信した情報を格納するメッセージ退避テーブル111、とが含まれ、必要に応じて受信プログラム102、スケジューリングプログラム103、通知プログラム104、情報登録プログラム105、から参照又は更新される。
【0022】
なお、監視対象サーバ150には、障害監視サーバ100に障害情報を通知するための監視プログラム151が備えられているものとする。
【0023】
次に、本発明の一実施の形態に係る処理概要について図2を用いて説明する。監視対象サーバ150において何らかの障害が発生すると、監視対象サーバ150の監視プログラム151が感知し、所定のフォーマットに編集したメッセージ電文として障害監視サーバ100に送信する。
【0024】
このメッセージ電文を、図3のメッセージ電文301に例示する。メッセージ電文301は、電文の種別を表す種別、電文の内容を表す内容、とから構成されている。メッセージ電文301は、監視対象サーバ150の監視プログラム151から送信されたエラーメッセージであれば、種別に“SYS”と設定されている。後述する担当者からの完了通知であれば、“INF”が設定されるものとする。また、監視対象サーバ150の監視プログラム151から送信されたエラーメッセージであれば、エラーコードが設定されている。
【0025】
メッセージ電文301の場合は、3つの情報が同時に送信され、それら全ての種別が“SYS”であることから、監視対象サーバ150の監視プログラム151から送信されたエラーメッセージであることがわかる。更に、エラーメッセージは“msg001”、“msg052”、“msg107”であることもわかる。
【0026】
監視対象サーバ150の監視プログラム151がこのようなメッセージ電文を送信すると、障害監視サーバ100の受信プログラム102が受信する(S201)。次に、受信プログラム102は、受信処理を行う(S202)。この処理は、メッセージ電文を事象テーブルに照らし合わせて、本障害情報通知プログラムで処理すべきデータであるかの判定を行うものである。
【0027】
上記判定において本障害情報通知プログラムで処理すべきデータであると判定した場合、スケジューリングプログラム103がリカバリ情報テーブルを参照することで、必要となる対処と各対処の開始予定時刻を算出する(S203)。そして、通知プログラム104は、これらの情報を各担当者の保持する端末180に通知する(S204)。
【0028】
ここまでで、最初の通知処理が完了する。次に、各対処作業の進捗を監視する処理が始まる。スケジュールをチェックして完了予定時刻になっても完了していない対処が存在するか否かの判定と、監視対象サーバ150の監視プログラム151からのメッセージの受信や担当者が保持する端末180からの完了通知を受信したか否かの判定と、を定期的にチェックするフェーズである。
【0029】
具体的には、まずS204の通知処理が完了した時点で今回の障害の全ての対処が完了したか否かの判定を行う(S205)。現時点ではまだ最初の通知処理を行っただけなのでこの判定は完了していないという結果になり、S206の判定に進むが、以下の繰り返しを行った後、最終的に全ての対処が完了した場合には後述する情報登録処理(S208)に進む。
【0030】
次に、S203で作成したスケジュールを参照し、現在処理中の対処の完了予定時刻が既に過ぎてしまっているか否かの判定を行う(S206)。この判定で、まだ完了予定時刻になっていないと判定された場合は、S207の判定に進む。もし完了予定時刻になっていると判定された場合は、S203のスケジューリング処理に戻り、再スケジューリングを行い、その結果を再度各担当者の保持する端末180に通知する(S204)。
【0031】
S206の判定においてまだ完了予定時刻になっていないと判定された場合、監視対象サーバ150の監視プログラム151からのメッセージの受信や担当者が保持する端末180からの完了通知を受信したか否かの判定を行う(S207)。これらのメッセージ受信がないと判定された場合は、S206の判定に戻り、S206及びS207の処理を定期的に繰り返す。
【0032】
S207でいずれかのメッセージ受信があったと判定された場合は、S202の受信処理に戻り、本障害情報通知プログラムで処理すべきデータであるかの判定を行う。そして受信したメッセージの内容に基づき再スケジューリングを行い(S203)、その結果を再度各担当者の保持する端末180に通知する(S204)。
【0033】
このように、S201からS207の処理を全ての対処が完了するまで繰り返した後、最終的に全ての対処が完了した時点で、情報登録プログラム105は、今回の対処実績情報をリカバリ情報テーブルに反映することで、当該テーブルの情報をより実態に即したデータにメンテナンスする(S208)。つまり、従前に見積もった対処予定を、実際に対処に要した作業時間に置き換えることで、次回の同じ事象に対する対処予定が正確なものとなるという効果を奏するのである。
【0034】
次に、S201のメッセージの受信で図3のメッセージ電文301を監視対象サーバ150の監視プログラム151から受信したあとの障害情報通知プログラムの処理を詳細に説明する。メッセージ電文を受信すると、受信プログラム102は、受信処理(S202)を行う。
【0035】
この受信処理(S202)について、図4のフローを用いて詳細に説明する。まず、受信したメッセージ電文が監視プログラム151から受信したものか否かの判定を行う(S401)。これは、前述したように、メッセージ電文の種別に”SYS”と設定されているか否かで判定する。図3のメッセージ電文301の情報は全て種別に“SYS”と設定されているので、ここではS402の処理に進む。もしメッセージ電文の種別に”INF”が設定されていた場合は、各担当者の保持する端末180からの完了通知であると判定されてS404に進むが、この処理については後述するものとする。
【0036】
次に、受信したエラーメッセージが既知のものであるかの判定を行う(S402)。この判定は、受信したメッセージ電文の内容と、事象テーブル107とに基づいて行われる。
【0037】
ここで、事象テーブル107を図5の事象テーブル502に例示する。事象テーブル502は、各メッセージIDで考えられる事象名を予め設定してあるテーブルである。事象テーブル502では便宜上“事象A”“事象B”等と記載してあるが、実際は例えば“WORK UNITの起動エラー”“ファイルシステムの異常”“メモリの交換要求”“メモリハードエラー”“ディスクエラー”等の具体的な名称が設定されているものである。
【0038】
このように、事象テーブル502の各レコードはメッセージIDをレコードキーとした構造となっているので、受信したメッセージ電文の内容に設定されているメッセージIDをキーとして事象テーブル502を検索することで既知のエラーメッセージか否かの判定が可能となる。
【0039】
ここで既知のエラーメッセージであると判定された場合は、本障害情報通知プログラムで処理可能なエラーであると考えられるため、受信処理(S202)を完了する。しかし、既知のエラーメッセージではないと判定された場合は、本障害情報通知プログラムで処理不可能なエラーであると考えられるため、システム管理者へ通知を行い、本障害情報通知プログラムでは処理できない障害が発生した旨を知らせる(S403)。
【0040】
この時の連絡先については、担当者テーブル109を参照することで行われる。
【0041】
この担当者テーブル109を図5の担当者テーブル501に例示する。担当者テーブル501は、担当者を一意に識別するための担当者ID、担当者名、メールアドレス、電話番号、等とから構成されている。また、担当者テーブル501に情報を格納されている担当者のうち、システム管理者については、それがわかるようにフラグを設けている。
【0042】
S403においては、上述のような情報を参照し、システム管理者のメールアドレスを抽出して、当該メールアドレスに対して電子メールを送信する。なお、電子メールの送信については、メール送受信プログラム101がメールサーバ160に送信依頼を行うことにより、メールサーバ160が実行する。
【0043】
受信処理(S202)において本障害情報通知プログラムで処理可能であると判定された場合、次にスケジューリング処理(S203)で対処スケジュールを作成する。このスケジューリング処理(S203)について、図6のフローに基づき詳細に説明する。
【0044】
まず、受信したメッセージ電文が監視プログラム151から受信したものか否かの判定を行う(S601)。これは、前述したように、メッセージ電文の種別に”SYS”と設定されているか否かで判定する。図3のメッセージ電文301の情報は全て種別に”SYS”と設定されているので、ここではS602の処理に進む。もしメッセージ電文の種別に”INF”が設定されていた場合は、各担当者の保持する端末180からの完了通知であると判定されてS606に進むが、この処理については後述するものとする。
【0045】
次に、受信したメッセージ電文を、本障害情報通知プログラムが受信した時間とともに、メッセージ退避テーブル111に格納する(S602)。このメッセージ退避テーブル111は図7のメッセージ退避テーブル701に例示したように、メッセージ電文のフォーマットに受信時間を付加したものとなっている。
【0046】
続いて、受信したメッセージで示されたメッセージIDで想定される事象名を、事象テーブル107を検索することで抽出する(S603)。具体的には、メッセージ退避テーブル701の内容に格納された“msg001”“msg052”“msg107”をキーに、事象テーブル502を検索する。
【0047】
この検索において例えば事象テーブル502のようなレコードが抽出されるが、各レコードには複数の事象名が列挙されている。ここでは、各レコードに共通な事象名が一番確率の高い事象であると考え、各レコードに共通な“事象B”が今回の事象であると決定する。
【0048】
上述のように、今回の事象が確定すると、次に、リカバリ情報テーブル108を参照して、今回の障害を対処するための手順を抽出する(S604)。
【0049】
ここで、リカバリ情報テーブル108を、図7のリカバリ情報テーブル702に例示する。リカバリ情報テーブル702は、各事象に対する手順と、当該手順に要する作業時間である所要時間、担当者、対処内容から構成されている。
【0050】
S604の処理においては、S603で確定した事象名をキーにリカバリ情報テーブル702を検索し、これらの情報を取得する。リカバリ情報テーブル702の例では、事象Bには手順がSTEP1から3までの3つあることがわかる。STEP1には15分を要し、担当者コードは123で、対処内容はアプリケーションの停止であることがわかる。以下同様である。
【0051】
次に、S604でリカバリ情報テーブル702から抽出した内容に基づき、対処状況テーブル110を作成する(S605)。
【0052】
この対処状況テーブル110を図8の対処状況テーブル801に例示する。対処状況テーブル801は、基本的にはリカバリ情報テーブル702の情報を書き出すが、各対処の完了予定時間を算出して各レコードに付加する。具体的には以下のように算出する。
【0053】
まず、システム日付等から現在の時間を取得する。ここでは仮に14時15分であるとする。そして、STEP1に要する時間をリカバリ情報テーブル702を参照することで取得する。これらの値により、STEP1は14時15分から15分後の14時30分に対処が完了することがわかる。この14時30分という時間を、対処状況テーブルの完了予定時間に書き込む。
【0054】
次に、STEP2についてはSTEP1の完了予定時間に、リカバリ情報テーブル702のSTEP2のレコードから判明する所要時間である5分を加えることで、STEP2の完了予定時間14時35分が算出され、この時間を対処状況テーブル801の完了予定時間に書き込む。STEP3についても同様の算出を行い、14時50分という完了予定時間を書き込むことができる。このようにして、対処状況テーブルの作成が完了する。
【0055】
S203で対処スケジュールが作成されると、次にこのスケジュール情報を各担当者の保持する端末180に通知する(S204)。この通知処理(S204)について、図9のフローを用いて詳細に説明する。まず、対処状況テーブル801に基づき、通知メールを作成する(S901)。
【0056】
この通知メールを図10の通知メール1001に例示する。例示のように、障害の発生時刻、内容、リカバリ状況から構成されている。このうち、障害の発生時刻についてはメッセージ退避テーブルの一番古いレコードの受信時間から、その他については対処状況テーブル801から転記される。
【0057】
次に、S901で作成された通知メールを、各担当者の保持する端末180に送信する(S902)。なお、電子メールの送信については、メール送受信プログラム101がメールサーバ160に送信依頼を行うことにより、メールサーバ160が実行するが、メールアドレスについては、対処状況テーブル801の担当者IDをキーに担当者テーブル501を検索することで取得する。
【0058】
ここまでで、最初の通知処理が完了する。次に、各対処作業の進捗を監視する処理が始まる。スケジュールをチェックして完了予定時刻になっても完了していない対処が存在するか否かの判定と、監視対象サーバ150の監視プログラム151からのメッセージの受信や担当者が保持する端末180からの完了通知を受信したか否かの判定と、を定期的にチェックするフェーズである。
【0059】
具体的には、まずS204の通知処理が完了した時点で今回の障害の全ての対処が完了したか否かの判定を行う(S205)。現時点ではまだ最初の通知処理を行っただけなのでこの判定は完了していないという結果になり、S206の判定に進むが、以下の繰り返しを行った後、最終的に全ての対処が完了した場合には後述する情報登録処理(S208)に進む。
【0060】
次に、S203で作成したスケジュールを参照し、現在処理中の対処の完了予定時刻が既に過ぎてしまったいるか否かの判定を行う(S206)。例えば、現在時刻が14時25分であった場合、STEP1の完了時間は14時30分なので、まだ完了予定時刻が過ぎていないと判定される。すると、次のS207の判定に進む。
【0061】
S207では、監視対象サーバ150の監視プログラム151からのメッセージの受信や担当者が保持する端末180からの完了通知を受信したか否かの判定を行う。そして、これらのメッセージ受信がないと判定された場合は、S206の判定に戻り、S206及びS207の処理を定期的に繰り返す。
【0062】
さて、上記の繰り返し処理において、例えば数サイクルの後、14時30分になった場合、STEP1の完了予定時刻を過ぎていることが判明する。更に、実際の完了時点でその時刻が書き込まれる完了時刻が空白であることから、まだ対処が完了していないことが判明する。
【0063】
そのため、スケジューリング処理(S203)に戻り、再スケジューリングを行う。この再スケジューリングについて、図6のフローを用いて詳細に説明する。まず、監視対象サーバ150の監視プログラム151からのメッセージ受信か否かを判定する(S601)。今回は完了予定時刻を経過したことによるスケジューリング処理であるため、この判定は“NO”となり、S606に進む。
【0064】
次に、従前にS605で作成された対処状況テーブル801の完了予定時刻を補正する(S606)。この補正については、様々な方法が考えられるが、本実施の形態においては、全ての完了予定時刻を5分間延伸するように補正するものとする。この補正後の対処状況テーブル110を図8の対処状況テーブル802に例示する。このように各手順の完了予定時刻を5分ずつ延伸するように補正する。
【0065】
上記補正が完了すると、次に通知処理S204を行い、各担当者の保持する端末に補正後のスケジュールの通知を行う。この処理については上で説明した通りである。そして、まだ全ての対処が完了していないのでS205の判定は“NO”となり、またS206とS207の処理を繰り返すこととなる。
【0066】
続いて、担当者からの対処完了通知を受信したものとする。この対処完了通知は、例えば障害情報通知プログラムからの通知メールに返信する形で担当者の保持する端末からメールサーバ160に送信され、メール送受信プログラム101を介して障害情報通知プログラムに送達する。その際、メール送受信プログラム101は、電子メールの内容を解析して、所定のフォーマットに編集したメッセージ電文として障害監視サーバ100に送信する。
【0067】
このメッセージ電文を、図3のメッセージ電文302に例示する。フォーマットは上で説明したメッセージ電文301と同じだが、監視対象サーバ150の監視プログラム151からのメッセージではなく、メール送受信プログラム101からのメッセージなので、種別には“INF”が設定されている。また、内容には、どのステップを担当している担当者の保持する端末からのメッセージかわかるように、ステップの番号が設定されている。さらに、対処が完了した場合は“OK”が、何らかの理由により完了しなかった場合は“NG”が設定されているものとする。
【0068】
この場合、S207の判定で、メッセージの受信があったと判定されるので、S202の受信処理に戻る。この受信処理(S202)について、図4のフローを用いて詳細に説明する。まず、受信したメッセージ電文が監視プログラム151から受信したものか否かの判定を行う(S401)。これは、前述したように、メッセージ電文の種別に”SYS”と設定されているか否かで判定する。図3のメッセージ電文302の情報は種別に“INF” と設定されているので、ここではS404の処理に進む。S404では、受信したメッセージ電文の内容を判定して、それが完了したものか否かを見る。メッセージ電文302の内容は“OK”となっているので、“Y”となり、受信処理S202は完了する。しかし、もしメッセージ電文302の内容が“NG”となっていた場合は、本障害情報通知プログラムで処理不可能な事象である考えられるため、システム管理者へ通知を行い、本障害情報通知プログラムでは処理できない障害が発生した旨を知らせる(S405)。
【0069】
次に、受信したメッセージの受信時間に基づき、再スケジューリングを行う。ここでの処理は、上述した完了予定時刻になっても完了通知が来なかった場合の再スケジューリングと同様なので、詳細な説明は割愛するが、例えば14時40分にSTEP1の対処完了の通知を受信した場合は、その時刻を基点として、図8の対処状況テーブル803のような補正を行う。つまり、STEP1の完了時刻に14時40分を設定し、この時刻を基点として以下の対処の完了予定時刻を補正するものである。
【0070】
上記補正が完了すると、次に通知処理S204を行い、各担当者の保持する端末に補正後のスケジュールの通知を行う。この処理については上で説明した通りである。そして、まだ全ての対処が完了していないのでS205の判定は“NO”となり、またS206とS207の処理を繰り返すこととなる。
【0071】
S206とS207の処理を繰り返しているうちに、新たなエラーメッセージが監視対象サーバ150の監視プログラム151から送信されてくることも考えられる。この場合は、S207の判定で、メッセージの受信があったと判定されるので、S202の受信処理に戻る。そして、スケジューリング処理(S203)でメッセージ退避テーブル111にこの新たなエラーメッセージが格納されれ、それまで格納されたエラーメッセージを用いて再度事象テーブルを検索し、それまでと異なる事象と判定された場合は、その新たな事象に関するリカバリ情報をリカバリ情報テーブル108から抽出して、そのリカバリ情報に基づいて再作成されたスケジュールが各担当者の保持する端末180に送信されることとなる。この時、直前の対処状況テーブルを退避しておき、見直し後の対処スケジュールから外れた担当者を把握し、当該担当者の保持する端末に対して対処不要の通知を送ることも可能である。
【0072】
このように、S206及びS207の処理を繰り返すことにより、常に最適なスケジュールを作成して各担当者の保持する端末180にそのスケジュールを通知することが可能となる。そして、最終的に全ての対処が完了すると、その実績情報(特に完了時刻)をリカバリ情報テーブル108に反映することで、スケジュール作成の元データである各対処に要する時間の最適化を可能とする。
【0073】
具体的には、S204で全ての対処が完了した旨の通知を各担当者の保持する端末180に通知した後、S205の判定で“Y”となり、S208の情報登録処理に進む。この情報登録処理を図11のフローに基づいて詳細に説明する。この時点で、対処状況テーブル110は、図12の対処状況テーブル1201のようになっているものとする。
【0074】
対処状況テーブル1201でわかることは、メッセージ退避テーブルの内容から一番最初にエラーメッセージを受信した時刻が14時15分であることからSTEP1は25分、STEP2は10分、STEP3は25分かかったという実績対処時間である。リカバリ情報テーブル108は、リカバリ情報テーブル702のように、STEP1は15分、STEP2は5分、STEP3は15分という見積になっていたので、これを実態に即して補正することが情報登録処理S208の目的である。
【0075】
よって、上記のように算出した実績対処時間に基づいてリカバリ情報テーブル108を補正する(S1101)。補正後のリカバリ情報テーブル108を図7のリカバリ情報テーブル703に例示する。リカバリ情報テーブル702と比較すると、各ステップの所要時間が補正されていることがわかる。このように実態に即した各対処の所要時間の補正が完了する。
【0076】
なお、本実施の形態においては、担当者が保持する端末として携帯電話やPDA(Personal Data Assistant)のようなものを想定して説明したが、担当者が操作する端末は特にインターネットのようなネットワークを介して接続されている必要はなく、監視対象サーバと同じLANに接続されている端末など、障害監視サーバ100からの通知を受信できるものであれば何であっても構わない。
(付記1)
コンピュータに、
各事象に関する担当者と対処内容とを格納したリカバリ情報テーブルを参照し、監視対象サーバで発生した事象に関する担当者と対処内容とを抽出する第一抽出ステップと、
前記第一抽出ステップにおいて抽出した対処内容に基づき、対処スケジュールを作成する第一スケジューリングステップと、
前記対処スケジュールを前記担当者に対して通知する第一通知ステップと、
を動作させることを特徴とする障害情報通知プログラム。
(付記2)
監視対象サーバからのエラーメッセージを受信するエラーメッセージ受信ステップと、
各エラーメッセージに該当する事象情報を格納した事象テーブルを参照し、前記エラーメッセージ受信ステップにおいて受信したエラーメッセージに該当する事象情報を抽出する第二抽出ステップと、
を備え、
前記第一抽出ステップにおいて、前記第二抽出ステップにおいて抽出された事象情報に関する担当者と対処内容とを抽出することを特徴とする付記1記載の障害情報通知プログラム。
(付記3)
各担当者からの完了通知を受信する完了通知受信ステップと、
前記完了通知に基づき、再度対処スケジュールを作成する第二スケジューリングステップと、
前記第二スケジューリングステップで作成した対処スケジュールを前記担当者に対して通知する第二通知ステップと、
を備えることを特徴とする付記2から3までのいずれかに記載の障害情報通知プログラム。
(付記4)
実際に対処が完了した時間に基づき、前記リカバリ情報テーブルに格納された対処に要する所要時間を補正することを特徴とする付記3記載の障害情報通知プログラム。
(付記5)
コンピュータに、
各事象に関する担当者と対処内容とを格納したリカバリ情報テーブルを参照し、監視対象サーバで発生した事象に関する担当者と対処内容とを抽出する抽出ステップと、
前記抽出ステップにおいて抽出した対処内容に基づき、対処スケジュールを作成するスケジューリングステップと、
前記対処スケジュールを前記担当者に対して通知する通知ステップと、
を動作させることを特徴とする障害情報通知プログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記6)
監視対象サーバで発生する障害を監視する障害監視サーバによる障害情報通知方法であって、
各事象に関する担当者と対処内容とを格納したリカバリ情報テーブルを参照し、前記監視対象サーバで発生した事象に関する担当者と対処内容とを抽出する抽出ステップと、
前記抽出ステップにおいて抽出した対処内容に基づき、対処スケジュールを作成するスケジューリングステップと、
前記対処スケジュールを前記担当者に対して通知する通知ステップと、
を含むことを特徴とする障害情報通知方法。
(付記7)
監視対象サーバで発生する障害を監視する障害監視サーバであって、
各事象に関する担当者と対処内容とを格納したリカバリ情報テーブルと、
前記リカバリ情報テーブルを参照し、前記監視対象サーバで発生した事象に関する担当者と対処内容とを抽出する抽出手段と、
前記抽出手段において抽出した対処内容に基づき、対処スケジュールを作成するスケジューリング手段と、
前記対処スケジュールを前記担当者に対して通知する通知手段と、
を備えることを特徴とする障害情報通知サーバ。
【0077】
【発明の効果】
以上説明したように、本発明によれば、監視対象サーバで発生した事象に必要な対処をスケジューリングし、そのスケジューリング結果を各担当者に通知することが可能となる。また、監視対象サーバからのエラーメッセージを受信することを契機に自動的に通知処理を行うことが可能となる。更に、一度作成して通知したスケジュールを実績に基づいて見直しを行って再通知することが可能となる。また、従前に見積もって作成した対処スケジュールを、実績に基づいて、より正確な値に補正することが可能となる。
【図面の簡単な説明】
【図1】実施例のシステム構成図である。
【図2】実施例の処理フローである。
【図3】メッセージ電文の一例を示す図である。
【図4】受信処理の流れを示すフローチャートである。
【図5】担当者テーブルと事象テーブルの一例を示す図である。
【図6】スケジューリング処理の流れを示すフローチャートである。
【図7】メッセージ退避テーブルとリカバリ情報テーブルの一例を示す図である。
【図8】対処状況テーブルの一例を示す図である。
【図9】通知処理の流れを示すフローチャートである。
【図10】通知メールの一例を示す図である。
【図11】情報登録処理の流れを示すフローチャートである。
【図12】対処状況テーブルの一例を示す図である。
【符号の説明】
100 障害監視サーバ
101 メール送受信プログラム
102 受信プログラム
103 スケジューリングプログラム
104 通知プログラム
105 情報登録プログラム
107 事象テーブル
108 リカバリ情報テーブル
109 担当者テーブル
110 対処状況テーブル
111 メッセージ退避テーブル
150 監視対象サーバ
151 監視プログラム
160 メールサーバ
170 ネットワーク
180 担当者の保持する端末

Claims (5)

  1. コンピュータに、
    各事象に関する担当者と対処内容とを格納したリカバリ情報テーブルを参照し、監視対象サーバで発生した事象に関する担当者と対処内容とを抽出する第一抽出ステップと、
    前記第一抽出ステップにおいて抽出した対処内容に基づき、対処スケジュールを作成する第一スケジューリングステップと、
    前記対処スケジュールを前記担当者に対して通知する第一通知ステップと、
    を動作させることを特徴とする障害情報通知プログラム。
  2. 監視対象サーバからのエラーメッセージを受信するエラーメッセージ受信ステップと、
    各エラーメッセージに該当する事象情報を格納した事象テーブルを参照し、前記エラーメッセージ受信ステップにおいて受信したエラーメッセージに該当する事象情報を抽出する第二抽出ステップと、
    を備え、
    前記第一抽出ステップにおいて、前記第二抽出ステップにおいて抽出された事象情報に関する担当者と対処内容とを抽出することを特徴とする請求項1記載の障害情報通知プログラム。
  3. コンピュータに、
    各事象に関する担当者と対処内容とを格納したリカバリ情報テーブルを参照し、監視対象サーバで発生した事象に関する担当者と対処内容とを抽出する抽出ステップと、
    前記抽出ステップにおいて抽出した対処内容に基づき、対処スケジュールを作成するスケジューリングステップと、
    前記対処スケジュールを前記担当者に対して通知する通知ステップと、
    を動作させることを特徴とする障害情報通知プログラムを記録したコンピュータ読み取り可能な記録媒体。
  4. 監視対象サーバで発生する障害を監視する障害監視サーバによる障害情報通知方法であって、
    各事象に関する担当者と対処内容とを格納したリカバリ情報テーブルを参照し、前記監視対象サーバで発生した事象に関する担当者と対処内容とを抽出する抽出ステップと、
    前記抽出ステップにおいて抽出した対処内容に基づき、対処スケジュールを作成するスケジューリングステップと、
    前記対処スケジュールを前記担当者に対して通知する通知ステップと、
    を含むことを特徴とする障害情報通知方法。
  5. 監視対象サーバで発生する障害を監視する障害監視サーバであって、
    各事象に関する担当者と対処内容とを格納したリカバリ情報テーブルと、
    前記リカバリ情報テーブルを参照し、前記監視対象サーバで発生した事象に関する担当者と対処内容とを抽出する抽出手段と、
    前記抽出手段において抽出した対処内容に基づき、対処スケジュールを作成するスケジューリング手段と、
    前記対処スケジュールを前記担当者に対して通知する通知手段と、
    を備えることを特徴とする障害情報通知サーバ。
JP2003066931A 2003-03-12 2003-03-12 障害情報通知プログラム Pending JP2004280171A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003066931A JP2004280171A (ja) 2003-03-12 2003-03-12 障害情報通知プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003066931A JP2004280171A (ja) 2003-03-12 2003-03-12 障害情報通知プログラム

Publications (1)

Publication Number Publication Date
JP2004280171A true JP2004280171A (ja) 2004-10-07

Family

ID=33284694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003066931A Pending JP2004280171A (ja) 2003-03-12 2003-03-12 障害情報通知プログラム

Country Status (1)

Country Link
JP (1) JP2004280171A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113708A (ja) * 2004-10-13 2006-04-27 Nomura Research Institute Ltd 障害メッセージに対する再警告発動システム及び再警告発動プログラム
JP2007207169A (ja) * 2006-02-06 2007-08-16 Mitsubishi Electric Corp 運用監視業務支援装置
JP2009211618A (ja) * 2008-03-06 2009-09-17 Nec Corp 障害自動復旧装置
JP2010066848A (ja) * 2008-09-09 2010-03-25 Toshiba Storage Device Corp 記憶装置の管理方法及び記憶装置、並びに記憶システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113708A (ja) * 2004-10-13 2006-04-27 Nomura Research Institute Ltd 障害メッセージに対する再警告発動システム及び再警告発動プログラム
JP4533716B2 (ja) * 2004-10-13 2010-09-01 株式会社野村総合研究所 障害メッセージに対する再警告発動システム
JP2007207169A (ja) * 2006-02-06 2007-08-16 Mitsubishi Electric Corp 運用監視業務支援装置
JP2009211618A (ja) * 2008-03-06 2009-09-17 Nec Corp 障害自動復旧装置
JP2010066848A (ja) * 2008-09-09 2010-03-25 Toshiba Storage Device Corp 記憶装置の管理方法及び記憶装置、並びに記憶システム

Similar Documents

Publication Publication Date Title
US7266734B2 (en) Generation of problem tickets for a computer system
JP2006350632A (ja) アプリケーション管理システム、アプリケーション管理方法、サーバ及び通信システム
US8122089B2 (en) High availability transport
TW202046206A (zh) 異常帳戶的檢測方法及裝置
JP2007080035A (ja) 障害通報の通知方法およびシステム
TWI429232B (zh) 備用伺服器、恢復用戶端在主用伺服器註冊的系統及方法
CN112433885A (zh) 区块链共识处理方法及装置、电子设备、存储介质
US8150007B2 (en) Fully redundant call recording
JP2004280171A (ja) 障害情報通知プログラム
JP2008257413A (ja) システムの障害情報を自動で検知し、導入時・平常時・障害時のログファイルを自動採取・暗号化・送信するシステム
CN101714105A (zh) 应用程序的错误回报及错误解决回复系统及其方法
CN112698969A (zh) 一种基于消息落库的mq消息可靠性投递解决方法
US7941708B2 (en) Error management framework
CN110119400B (zh) 适用于逻辑运算的唯一标识生成方法及装置
CN112261035A (zh) 基于区块链的信息管理方法、防控中心节点及复工平台
CN104079469A (zh) 一种信息处理的方法及电子设备
JP2009187390A (ja) メール管理装置、メール管理方法およびメール管理プログラム
CA2895921C (en) System and method for obtaining a portion of an archived email message
JP5578106B2 (ja) 情報処理システム及び帳票イメージ保管サーバ
US20110246824A1 (en) Throttling non-delivery reports based on root cause
JP2007323422A (ja) 分散データベースシステム及びそのデータ同期方法
CN114900531B (zh) 数据同步方法、装置和系统
CN113472469B (zh) 一种数据同步方法、装置、设备及存储介质
CN115827678B (zh) 一种获取业务数据的方法、装置、介质及电子设备
CN109542643B (zh) 一种OpenStack系统中消息的恢复方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040726

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071204

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080401