JP4102592B2 - 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム - Google Patents

集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム Download PDF

Info

Publication number
JP4102592B2
JP4102592B2 JP2002134019A JP2002134019A JP4102592B2 JP 4102592 B2 JP4102592 B2 JP 4102592B2 JP 2002134019 A JP2002134019 A JP 2002134019A JP 2002134019 A JP2002134019 A JP 2002134019A JP 4102592 B2 JP4102592 B2 JP 4102592B2
Authority
JP
Japan
Prior art keywords
information
failure information
failure
aggregation
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002134019A
Other languages
English (en)
Other versions
JP2003330758A (ja
Inventor
克之 石澤
伸弘 森岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
NEC System Technologies Ltd
Original Assignee
NEC Corp
NEC System Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, NEC System Technologies Ltd filed Critical NEC Corp
Priority to JP2002134019A priority Critical patent/JP4102592B2/ja
Publication of JP2003330758A publication Critical patent/JP2003330758A/ja
Application granted granted Critical
Publication of JP4102592B2 publication Critical patent/JP4102592B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラムに関する。
【0002】
【従来の技術】
従来の障害通知では、障害が発生していた場合、集約装置を使わずに全て運用者に逐次通知していた。図1に示すような水平負荷分散型システムで障害監視を行う場合、ある一つの装置の不具合から、水平分散したN×M個の装置が一斉に障害通知を行う。
【0003】
結果、運用者の障害情報受信装置(メ−ルボックス)に何万通という障害情報が到着してしまい、障害情報の受信装置の異常を来す。また、全く別の障害情報が膨大な障害情報の中に紛れ込んでしまい、その通知自体に気づかず対処が大幅に遅れる。
【0004】
【発明が解決しようとする課題】
その為、階層的な障害情報集約装置の設置が必要である。階層的な障害情報集約装置の設置により、同じ内容の障害情報を省略できる。また、障害内容の緊急度に応じて集約ル−ルの中の通知先を変更し、緊急度が最上の障害は24時間体制の監視室に通知する設定を行い迅速な障害対応が可能となる。
【0005】
そこで、本発明の目的は、過剰な障害情報の通知を受けずに済み、運用者の負担が軽減できる集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラムを提供することにある。
【0006】
【課題を解決するための手段】
本発明は、障害通知元が検出した障害情報を運用者に通知するシステムである。
発明の特徴として、現在発生している障害と過去に発生した障害記録を解析することで、現在の障害情報を通知するか、集約するか判定を行う。判定に従い、過剰な障害情報を運用者に通知する事を避ける事が可能である。それにより運用者の障害対応に対する負荷を軽減する事が出来る。別の特徴として、階層構造的に障害情報通知装置を設定できる事が挙げられる。この特徴の効果は、水平負荷分散型システムにおける中央装置の異常発生の場合など、膨大な量の同一障害情報の通知を効果的に集約することが可能な事である。この装置はプログラム制御で動作するソフトウェアである。
【0007】
図1において、運用マシン1−1〜1−N(N個)があり、各々にM個ずつのサ−ビス提供装置2−1−1〜2−N−M(N×M個)がある。サ−ビス提供装置は水平分散システムの形態をとっている。支援装置7は、この水平分散システム全体で一意に扱いたい情報を一括管理している。
例えばユ−ザ名とパスワ−ドからなる認証情報を管理する。サ−ビス提供装置は、1回のサ−ビス提供で必ず支援装置7に問い合わせて情報の設定/提供を受けなければならない。本発明は、サ−ビス提供装置に発生した障害を障害対応者に効果的に通知する装置である。
その為サ−ビス提供装置と支援装置7は発明品に含まない。
【0008】
本発明品を構成する各装置を説明する。障害情報通知装置3−1−1〜3−N−Mは、サ−ビス提供装置2−1−1〜2−N−Mに設置されている。この装置は、サ−ビス提供装置で発生した障害内容を、それぞれの運用マシン上に設置されている障害情報集約装置4−1〜4−Nに通知する機能を持っている。障害情報集約装置4−1〜4−Nは、受信した障害情報を取捨選択し、過剰な障害情報を通知しないように抑制して障害情報を出力する、一種のフィルタの機能を持つ。図1の構成では、障害情報集約装置4−1〜4−Nは、各々の運用マシン1−1〜1−N内の障害情報通知装置が通知した障害情報を集約する機能を持つ。障害情報集約装置4−1〜4−Nの障害情報通知先は、運用者受信装置6、或いは障害情報集約装置5−1、5−2である。通知先の設定は各々の障害情報集約装置で個別に設定できる。障害情報集約装置5−1と5−2は、4−1〜4−Nの障害情報集約装置と同様の機能を持つ集約装置であり、障害情報集約装置4−1〜4−Nが出力した障害情報を更に集約する階層的な位置付けにある装置である。5−2は、5−1のバックアップ装置であり、5−1の装置に問題が発生している場合代替で機能する。運用者受信装置6は、運用者が実際に障害情報を受け取る装置であり、例えば電子メ−ルシステムのメ−ルボックスが挙げられる。
【0009】
サ−ビス提供装置2−1−1で、ある障害が頻繁に発生している場合の障害情報通知を考える。障害が発生する度に、障害情報通知装置3−1−1が障害情報を障害情報集約装置4−1に送信する。障害情報集約装置4−1は、運用者が予め設定した集約ル−ルに従って障害情報を集約して、通知の必要があると判断して初めて運用者に障害情報を通知する。この集約の結果、運用者は、過剰な障害情報を受信せず、必要十分な障害情報を得る事が出来る。
【0010】
次に、支援装置7に障害が発生した場合を考える。この場合、サ−ビス提供装置は支援装置7から認証情報を受け取れない為、障害情報を通知する。水平負荷分散型システムである事を考えると、全サ−ビス提供装置2−1−1〜2−N−Mが一斉に障害通知を行うことがある。
この時、障害情報集約装置4−1〜4−Nが銘々勝手に障害情報を集約して運用者に障害情報を送信すると、運用者は大量の同一原因の障害情報を受信してしまい、効率が悪い。そこでこの場合、障害情報集約装置4−1〜4−Nは集約した障害情報を障害情報集約装置5−1に送信するように、集約ル−ルを設定すると良い。障害情報集約装置5−1は4−1〜4−Nまでの集約済み障害情報をさらに集約して、運用者に通知する。
【0011】
このように、階層構造を持った障害情報集約装置を設計する事で、水平負荷分散型のシステムで発生する障害情報を的確に集約できる。これにより、運用者の障害対応に対する作業負荷を軽減する事が可能である。
【0012】
【発明の実施の形態】
(発明の第1の実施の形態)
本発明の第1の実施の形態の説明に伴い、図1、図2の構成内容を説明する。図1は、集約機能付障害情報通知システムを組込んだ水平負荷分散型のサ−ビス提供システムの全体を示す。図2は図1の中の、運用マシン1−1の内部構造図である。これらの装置は全て、プログラム制御により動作するソフトウェアであると仮定する。また、運用者が受信する障害情報は電子メ−ルによる形式を採用する。
【0013】
図1に関して説明する。運用マシン1−1〜1−Nは並列分散されたコンピュ−タである(Nはコンピュ−タの数)。各運用マシン1−1〜1−Nに、障害監視の対象となるサ−ビス提供装置2−1−1〜2−N−Mが動作している(Mは1つのコンピュ−タ当りのサ−ビス提供装置の数)。これはコンピュ−タ内部で動作するソフトウェアである。これらは水平負荷分散型システムにより構成されている。支援装置7は、サ−ビス提供装置2−1−1〜2−N−Mの動作中に参照/更新/削除する情報が含まれている。これらは本発明の説明の為に仮定している装置である。
例を挙げると、サ−ビス提供装置が発券機で支援装置が在庫管理情報を持つデ−タベ−ス、他には、サ−ビス提供装置が金融業のATM機で支援装置が通帳と暗証番号の組みを持つ認証局、である。
【0014】
この装置には障害情報通知装置3−1−1〜3−N−Mが実装されている。書式に従った障害情報(後述する)を供給されると、障害情報集約装置4−1〜4−Nに障害情報を送信する。この装置は、障害を発見したサ−ビス提供装置自らが実行しなければならない。サ−ビス提供装置のプログラム中から制御できるプログラム関数や、実行コマンド形式として設置する。
【0015】
障害情報集約装置4−1〜4−Nは、各々の運用マシンの障害情報通知装置で発生した障害情報を集約し、再出力するフィルタの機能を持つ。出力先は障害情報集約装置5−1、又は、運用者受信装置6である。障害情報集約装置5−1に出力する場合、障害情報集約装置4−1〜4−Nが受信した障害情報と同じ書式の障害情報を出力する。運用者受信装置6に通知する場合、障害情報を電子メ−ル形式に変換して出力する。
【0016】
障害情報集約装置5−1、5−2は、各運用マシンに配置されている障害情報集約装置4−1〜4−Nの出力を更に階層的に集約する為に設定されている。出力は運用者受信装置6に通知する為、電子メ−ル形式に変換した障害情報である。5−2の装置は、5−1のバックアップ装置であり、普段は待機している。5−1の装置に異常が発生している場合代替機能する。この切替には、ソケットプログラムのコネクション型通信の特性を活かす。即ち、障害情報集約装置4−1〜4−Nが、障害情報を送信する際に、5−1に対して送信経路が確立できない場合に、5−2に対して送信先を自動的に切りかえる。
【0017】
運用者受信装置6は、電子メ−ルのメ−ルボックスとする。電子メ−ル形式に変換された障害情報を受信する。入力元は障害情報集約装置4−1〜4−N、5−1、5−2である。運用者は電子メ−ルをチェックする事で初めて障害通知を知ることができる。
【0018】
図2に関して説明する。図2は運用マシン1−1を詳細に説明した図である。障害情報通知装置3−1−1〜3−1−Mが障害情報を、障害情報集約装置4−1に対して送信する。つまり、障害情報通知装置3−1−1〜3−1−M自身には、障害を検出する機能は無い。
【0019】
障害情報とは、次の5つの情報を総称したものである。
【0020】
▲1▼障害情報コ−ド、▲2▼障害発生時刻、▲3▼障害発生元情報、
▲4▼障害検出元情報、▲5▼障害内容詳細デ−タ
▲1▼障害情報コ−ドは、障害内容を端的に表わす数値であり、図1の運用マシン1−1〜1−Nで発生する全ての障害毎に一意な値を持つ。例えば、運用マシンのディスク空き容量不足を表わす障害コ−ドを00002、サ−ビス提供装置停止を表わす障害コ−ドを01106といった具合に予め設定しておかなければならない。また、この値は、サ−ビス提供装置と障害情報集約装置で同じ意味として管理しなければならない。▲3▼障害発生元情報は、障害が発生した装置の所在を表わす。例えば運用マシンのIPアドレスが挙げられる。▲4▼障害検出元情報は実際に障害が発生した場所と検出した場所とが異なる場合、検出した個所を表わす情報である。障害発生元情報と対に存在している。▲5▼障害内容詳細デ−タは、通知を受けた運用者が障害対応に活用できるような、障害の内容を具体的に表わしたものである。
例えば、「ディスク空き容量が残り5%である。およそ60分で0%になる。」といった具合である。▲1▼〜▲5▼の障害情報のうち、▲1▼障害情報コ−ドと▲2▼障害発生時刻、▲3▼障害発生元情報は必ず設定しなければならない。設定せずに障害通知を行った場合、障害情報集約装置4−1は、障害と判定せずに廃棄する。運用者が解析不能な障害情報を送信しても意味が無い(結局障害対応が出来ない)為である。サ−ビス提供装置がこの障害情報を障害情報通知装置に提供することで障害通知の動作が始まる。
【0021】
障害情報集約装置4−1の構造に関して説明する。受信装置41は、障害情報を受信する。集約ル−ル設定情報47は、障害情報コ−ド毎に集約ル−ルと障害通知先の情報が設定されている。集約ル−ル検索手段42は受信した障害情報と同じ障害情報コ−ドを持つ集約ル−ルを集約ル−ル設定情報47から検索する。運用者が集約ル−ル設定情報47を作成する為には、動作設定ファイル49に決められた書式に従い記述する。障害情報集約装置4−1は、動作設定ファイル49の内容を解読後、集約ル−ル設定情報47として用いる。これは障害情報集約装置4−1の内部メモリ−情報として記憶する。
【0022】
実施の形態で用意する集約ル−ルとして、3種類を挙げる。
【0023】
・装置起動後最初に受信した障害情報は通知する。以降は前回通知した障害情報から一定期間、同一障害発生元から発生した同一障害は通知しない(集約する)。
・前回通知した障害情報から一定期間内、一定回数の同一障害は集約する。・集約無し
障害情報蓄積記録48には、過去受信した全ての障害情報を記録している。また、各々の記録には、通知したか集約したかを表わす情報も設定されている。これも、障害情報集約装置4−1の内部メモリ−情報として記憶している。
【0024】
障害情報解析手段43は障害情報蓄積記録48を検索して得た情報と、集約ル−ル検索手段42で検索した集約ル−ル、そして今回受信した障害情報の3つの情報を解析して、今回の障害情報を通知するか、集約するか否かの動作を決定する装置である。また、通知する場合、集約ル−ルに応じて、出力先を決定する(運用者受信装置6に送信するか、障害情報集約装置5−1に転送するか)。そして、今回の障害情報に対して、通知したか集約したかの情報を付加して障害情報蓄積記録48に追加する。
【0025】
運用者受信装置に通知する場合、通知装置44に制御が移る。通知装置44は、障害情報を電子メ−ル形式に変換してメ−ル送信する。送信には外部のSMTPサ−バと通信を行なわれなければならず、通知装置44はこの機能を持つ。電子メ−ル化された障害情報は運用者受信装置6(メ−ルボックス)に格納され、運用者がメ−ルをとり込み、障害通知が完了する。
【0026】
障害情報集約装置5−1に通知する場合、転送装置45に制御が移る。転送装置45は、障害情報通知装置3−N−Mと同じ機能を持ち、障害情報集約装置4−1が受信した障害情報と同じ書式でデ−タを送信する。(但し、自分自身に転送することは無い。集約ル−ル設定情報47を作成する際に自分宛の送信が設定されていない事をチェックする事で対処する。)
破棄装置46は、障害情報を内部メモリ上から抹消する機能である。
【0027】
運用者受信装置6は、運用者が実際に障害情報を受け取る電子メ−ルシステムのメ−ルボックスである。
次に、本発明の第1の実施の形態の動作の説明をする。
【0028】
二つの例で説明をする。第一の例としては、運用マシン1−1のディスク空き容量が枯渇した場合の障害である。ディスク空き容量不足を表わす障害情報の障害情報コ−ドは00002とする。
第二の例としては、図1の支援装置7に異常があり、サ−ビス提供装置2−1−1〜2−N−Mが、支援装置7を利用できない場合の障害である。これを表わす障害情報コ−ドを00001とする。
【0029】
先ず、運用者は起こり得る障害内容に応じた集約ル−ルを図2の動作設定ファイル49に記述して障害情報集約装置4−1〜4−N、及び5−1、5−2を起動しおかなければならない。同様に、サ−ビス提供装置2−1−1〜2−N−Mにも障害内容に応じて障害情報コ−ドを使い分けるように個別に設定しておく。図3は、動作設定ファイル49の記述例である。障害情報コ−ド毎に、集約ル−ルと障害通知先を設定している様子を表わす。00001と00002の障害情報コ−ドは次の集約ル−ル設定をしている。
【0030】
Figure 0004102592
第一の例、「運用マシン1−1のディスク空き容量枯渇」の障害通知に関して説明する。サ−ビス提供装置2−1−1はディスク空き容量を監視する機能を持ち、5分おきに起動し、異常検出の度に障害情報通知装置3−1−1を実行する装置とする。ディスク空き容量不足の通知情報の障害情報コ−ドは00002である(上記集約ル−ル参照)。
【0031】
障害発生時の条件として、既に一度障害通知されており、その後再び5分毎に連続4回、ディスク空き容量不足をサ−ビス提供装置2−1−1が検出しているとする。図2を参考にしながら説明する。今、5回目のディスク空き容量不足をサ−ビス提供装置2−1−1(ディスク空き容量監視)が検出し、障害情報通知装置3−1−1を実行する。実行時に障害情報通知装置3−1−1に対して、サ−ビス提供装置2−1−1は次の障害情報を作成して提供する。
【0032】
▲1▼00002(障害情報コ−ド)
▲2▼2001/01/01 13:00(障害発生時刻)
▲3▼運用マシン1−1(障害発生元情報)
▲4▼運用マシン1−1(障害検出元情報)
▲5▼"ディスクBの残り空き容量が全容量の5%を切っている"(障害内容詳細デ−タ)
障害情報通知装置3−1−1は供給された障害情報を障害情報集約装置4−1の間で取り決められた書式に変換して送信する。
【0033】
受信装置41は障害デ−タを受信する。集約ル−ル検索手段42は、▲1▼00002(障害情報コ−ド)をキ−として、集約ル−ル設定情報47を検索する。検索により、障害コ−ド00002に対する集約ル−ルを探し出す(集約ル−ルは上記参照)。次に障害情報解析手段43は、障害情報蓄積記録48と検索した集約ル−ル、そして受信した障害情報の3つの情報から集約の是非を解析する。この解析方法を図4の処理図を用いて詳細に説明する。
【0034】
図4は、障害情報解析手段43の詳細なステップ図である。障害情報蓄積記録48には、過去受信した障害情報とそれを集約したか否かを示す情報が時系列に記録されている。先ず、どの種類の集約ル−ルに従うのか決定する。検索した00002コ−ドの集約ル−ルは、ステップA1に対する処理である。次に▲2▼2001/01/01 13:00(障害発生時刻)から、過去一定期間(30分)に▲1▼00002(障害情報コ−ド)を持つ障害情報記録を障害情報蓄積記録48から全て検索する(ステップA2)。ステップA3で、ステップA2の検索結果を調べ、一定期間(30分)以内に本集約装置から障害通知を出力したか否かを調べる。もし通知していれば、今回の障害は集約する処置をとる為、ステップD1に移る。発生条件から、30分以内には通知を行っていない。今度は集約した回数をステップA4で調べる。ステップA4で一定期間(30分)に▲1▼00002(障害情報コ−ド)を何回記録しているか集計する。ステップA5で集計の結果に、1(今回発生した障害数)を足した結果が一定回数(5)未満の場合、条件に満たない為今回の障害を集約する処置をとり、ステップD1に処理が移る。発生条件より、ステップA4の集計結果が4であるため、一定期間(30分)以内に5回目の障害情報を受信した為、障害通知を行う処理に移る。ステップD2では、今回の障害情報を障害情報蓄積記録48に追加する。この時、次の集約解析で利用する為、「通知した」という情報を追加する。ステップD3で通知先を決める。障害コ−ド00002の集約ル−ルに従い、宛先は運用者受信装置6(admin@xxx.co.jp)である。その為、通知装置44に障害情報を供給する決定を行い、障害情報解析手段43は終了する。
【0035】
図2の通知装置44に障害情報が伝達される。通知装置44は、障害情報を電子メ−ルの本文として作成する。それを指定された宛先admin@xxx.co.jpへメ−ル送信する。運用者は、運用者受信装置6(電子メ−ルボックス)を定期的にチェックして、ディスク空き容量不足障害が運用マシン1−1で2001/01/01 13:00に発生したことを知る。
【0036】
次に条件を変えて、20分前に一度障害通知をしたがまだ問題が解決されずに、その後5分毎に連続4回ディスク空き容量不足を検出した場合の動作を考える。障害情報解析手段43において、図4のステップA3で、20分前に障害通知を出した事実を障害情報蓄積記録48から知る。集約ル−ル中の一定期間(30分)に通知されているので、障害通知の必要が無いと障害情報解析手段43は判断する。よってステップD1で、今回の情報を障害情報蓄積記録48に「集約した」という情報と共に追加する。その後障害情報は図2の破棄装置46に供給され、障害情報集約装置4−1の内部メモリ上から障害情報が抹消される。これにより、運用者受信装置6には障害情報が通知される事はない。
【0037】
結果として運用者は、30分間にディスク空き容量が自然回復した場合、障害通知を受けずに済み、通常通りの運用を遂行できる。
【0038】
次に、第二の例、「図1の支援装置7に異常が発生」の場合の障害通知に関して説明する。条件として、サ−ビス提供装置2−1−1〜2−N−Mは、処理の過程で図1の支援装置7に頻繁にアクセスし、情報供給を受ける機能があるとする。サ−ビス提供装置2−1−1〜2−N−Mが支援装置7にアクセスできない事を表わす障害コ−ドは00001である(集約ル−ル参照)。
【0039】
障害発生時の条件として、サ−ビス提供装置2−1−1の処理中に支援装置7に異常が発生した。サ−ビス支援装置2−1−1は、支援装置7にアクセスできなくなり、障害情報通知装置3−1−1を利用して障害情報を障害情報集約装置4−1に送信する。障害情報は以下の内容である。
【0040】
▲1▼00001(障害情報コ−ド)
▲2▼2001/01/01 14:10(障害発生時刻)
▲3▼支援装置7(障害発生元情報)
▲4▼運用マシン1−1(障害検出元情報)
▲5▼"支援装置7が停止している"(障害内容詳細デ−タ)
第一の例と同様に障害情報集約装置4−1において、障害情報を通知するか集約するかの解析が行われる。集約ル−ル設定情報4−7にある集約ル−ルに従い、受信した障害情報コ−ド00001は、図4のステップB1のル−トをとることになる。ステップB2で障害情報発生元が支援装置7である過去の障害情報を障害情報蓄積記録48から全て検出する。ステップB3で、ステップB2の結果を更に障害情報コ−ド00001のみに絞る。
ステップB4で、B3で得た記録のうち、最も最近障害通知した時刻と、今回の障害発生時刻とを比較する。これが条件の60分以内であればステップD1に移り、障害情報は集約される。そうでない場合、ステップD2に経由し障害が通知される。
【0041】
通知する場合、ステップD3で集約ル−ルの条件に従い、運用者受信装置6(system@xxx.co.jp)に送信が決定され、障害通知が成される。
【0042】
さて、図1において、支援装置7で障害が発生したとき、サ−ビス提供装置2−1−1〜2−1−Mが一斉に障害を検出した場合を考える。障害情報集約装置4−1は受信した順に障害解析を行う。この結果、サ−ビス提供装置2−1−1〜2−1−Mが一斉発信した障害情報は、一番最初に解析された障害情報以外運用者に通知されない。これは60分間継続し、60分後に再び一番最初に解析された障害情報のみ、運用者に通知される。サ−ビス提供装置2−1−1〜2−1−Mの何れが発生させた障害情報が通知されても良い。運用者が受け取る障害情報の中の障害内容詳細デ−タは"支援装置7が停止している"という内容である為、個々のサ−ビス提供装置の障害ではなく支援装置7に問題が発生していることを理解できるからである。
【0043】
さらに図1において、支援装置7で障害が発生したとき、サ−ビス提供装置2−1−1〜2−N−M全てが一斉に障害を検出した場合を考える。各運用マシン1−1〜1−Nに設定されている障害情報集約装置が、それぞれ独立に障害解析を行い通知する為、運用者受信装置には、全ての運用マシンから1通ずつ、合計N通の障害情報が届いてしまう。そこで、障害情報集約装置4−1〜4−Nの、支援装置7で障害が発生したことを表わす00001の集約ル−ルの通知先を障害情報集約装置5−1に変更する。すると、障害情報集約装置4−1〜4−Nの情報をさらに集約し、図1に示すシステム全体で、唯一通の障害情報だけ運用者に通知する事が出来る。
【0044】
(発明の第2の実施の形態)
本発明の第2の実施の形態の説明に伴い、図5の構成内容を説明する。
障害情報集約装置自身が異常を起こすと、本来の障害情報が通知できない事態が発生する。そこで、障害情報集約装置の動作状態を確認する機能を追加する。動作確認は、実際に障害情報集約装置の内部で正しく処理が行われ、障害情報が通知されるまでの一連の動作を確認しなければならない。図5は、図1のシステムにおいて、障害情報集約装置4−1〜4−N、5−1、5−2を監視する事に着目している図である。各障害情報集約装置は第1の実施の形態の説明の通りの動作を行う。また、集約装置監視器8が追加されている。この集約装置監視器8は以下の動作を行う。
【0045】
・定期的に全障害情報集約装置の動作確認を行う為に、各障害情報集約装置に障害情報を送信する。これを擬似障害情報と呼ぶ。擬似障害情報に対応する障害通知を、運用者受信装置6の代わりに受信して(擬似障害通知)、正しく集約されていることが確認できる。
・異常状態の障害情報集約装置がある場合、リモ−ト操作で復旧作業を行う。その後、運用者受信装置6に障害情報集約装置に異常が発生していた旨の障害情報を発行する。
・動作確認の結果全て正常の場合、何も行わない。
集約装置監視器8の障害情報集約装置の動作確認方法について説明する。予め、各障害情報集約装置には、動作確認用としての擬似障害情報に対する集約ル−ルを以下のように設定しておく。
・障害情報コ−ド00000:集約ル−ル=常に通知する
通知先=集約装置監視器8
即ち、擬似障害情報(障害情報コ−ド00000)を受信した各障害情報集約装置は、解析の結果、擬似障害情報の発信元である集約装置監視器8に応答を返す形となる。応答を返せない障害情報集約装置には設定上の不具合があるか、障害が発生していることになる。集約装置監視器8は、検査対象の障害情報集約装置の一覧を持っており、一覧に沿って擬似障害情報を送信する。一覧と応答結果を照らし合せる事で動作が異常な障害情報集約装置を確認できる。
【0046】
次に、障害情報集約装置の異常対処について説明する。集約装置監視器8は異常と判断した障害情報集約装置の設置されている運用マシンにリモ−ト操作を行う。ここで言うリモ−ト操作とは、マシン間通信により、外部マシンから対象マシンの操作を行うことである。リモ−ト操作で、先ず障害情報集約装置が稼動しているか否か調べる。稼動していない場合、リモ−ト操作により起動を行う。起動しているが異常を検出している場合、内部的に不正が発生している可能性が考えられる。リモ−ト操作で、障害情報集約装置を停止し、その後起動する。リモ−ト操作が出来ない場合、何もしない。
【0047】
全ての異常な障害情報集約装置に対してリモ−ト操作を行い、最後に集約装置監視器8は運用者受信装置6に対して障害情報を送信する。障害情報には、異常な障害情報集約装置の名前、対処方法、対処結果を含める。
【0048】
図5を用いて実例で説明する。集約装置監視器8は図5の全ての障害情報集約装置4−1〜4−N、5−1、5−2の一覧情報を把握している。集約装置監視器8が発信する擬似障害情報は以下の障害情報である。(4)障害検出元情報は検査対象毎に変更する。
【0049】
▲1▼00000(障害情報コ−ド)
▲2▼2001/01/01 14:10(擬似障害発生時刻)
▲3▼集約装置監視器8(障害発生元情報)
▲4▼運用マシン1−1(障害検出元情報)
▲5▼"受信したら正常動作を示します"(障害内容詳細デ−タ)
全障害情報集約装置はこの擬似障害情報に対して次の集約ル−ルを適応している。
【0050】
・障害情報コ−ド00000:集約ル−ル=常に通知する
通知先=集約装置監視器8
図5の障害情報集約装置のうち、4−2が未起動、4−4は、内部メモリ−の異常で、集約ル−ル設定情報が消失している状態とする。
【0051】
先ず、集約装置監視器8は、定期的に擬似障害情報を一覧に沿って障害情報集約装置に送信する。正常な障害情報集約装置は、図2及び図4に示す内部制御に従い障害情報を通知する。通知先は集約ル−ルにより、擬似障害情報発信元の集約装置監視器8である。集約装置監視器8は、受信した擬似障害通知のうち、(4)障害検出元情報 からどの障害情報集約装置からの応答であるか判断する。一覧と応答受信した擬似障害情報から、応答を返していない障害情報集約装置があり、4−2、4−4である事が判明する。4−2は図4の受信装置41が機能していない為、擬似障害通知を発生できない。4−4は図2の集約ル−ル検索手段42が不正な為である。
【0052】
集約装置監視器8は、応答が無い障害情報集約装置のある運用マシン、即ち運用マシン1−2と1−4に対して、リモ−ト操作を行う。運用マシン1−2のリモ−ト操作で、障害情報集約装置4−2が起動しているか否かをチェックするが、起動していない事が分かる。そこでリモ−ト操作により起動を行う。運用マシン1−4では、障害情報集約装置4−4が起動している事が分かる。リモ−ト操作により一度障害情報集約装置を停止し、起動しなおす。
【0053】
最後に、障害情報集約装置が起動していなかった旨の障害情報を以下のように作成し、障害情報を直接運用者受信装置6に送信する。
【0054】
▲1▼99999(障害情報コ−ド)
▲2▼2001/01/01 14:10(擬似障害発生時刻)
▲3▼集約装置監視器8(障害発生元情報)
▲4▼集約装置監視器8(障害検出元情報)
▲5▼"集約装置4−2が停止、4−4が異常動作状態であった。"(障害内容詳細デ−タ)"
障害通知を受けた運用者は、この情報を元に、障害情報集約装置が異常であった原因と現在の復旧状態をチェックする。また、障害情報集約装置の異常中に異常動作を起こしたサ−ビス提供装置がないかを調べることが可能である。
【0055】
【発明の効果】
以上説明したように、本発明には、以下の効果がある。
【0056】
障害情報を発生頻度/発生個所毎に集約可能である為、過剰な障害情報の通知を受けずに済み、運用者の負担が軽減できるという効果がある。また、障害情報集約装置自体が、並列的、階層的に構成可能である為、システムの規模と構成に応じた設定が可能であるという効果がある。また、障害内容に応じて通知する宛先を変更できるという効果がある。
【図面の簡単な説明】
【図1】集約機能付障害情報通知システムを組込んだ水平負荷分散型のサ−ビス提供システムの全体を示す図である。
【図2】図1の中の、運用マシン1−1の内部構造図である。
【図3】動作設定ファイルの記述例を示す図である。
【図4】障害情報解析手段の詳細なステップ図である。
【図5】図1のシステムにおいて、集約装置監視器が追加されている図である。
【符号の説明】
1−1〜1−N 運用マシン
2−1−1〜2−N−M サ−ビス提供装置
3−1−1〜3−N−M 障害情報通知装置
4−1〜4−N、5−1、5−2 障害情報集約装置
6 運用者受信装置
6−1〜6−2 階層集約マシン
7 支援装置
8 集約装置監視器
8−1 集約装置監視マシン
41 受信装置
42 集約ル−ル検索手段
43 障害情報解析手段
44 通知装置
45 転送装置
46 破棄装置
47 集約ル−ル設定情報
48 障害情報蓄積記録
49 動作設定ファイル

Claims (4)

  1. N個の運用マシン支援装置、2個の階層集約マシン、及び、運用者受信マシンを集約機能付障害情報通知手段として機能させるためのプログラムであって、
    前記集約機能付障害情報通知手段は障害情報通知手段と障害情報集約手段と運用者受信手段を含み
    前記運用マシンの各々、M個ずつの水平分散システムの形態をとるサ−ビス提供手段M個ずつ障害情報通知手段、及び、1個ずつ障害情報集約手段として機能
    前記支援装置は、前記サ−ビス提供手段の動作中に参照/更新/削除する情報を一括管理し、ユ−ザ名とパスワ−ドからなる認証情報を管理し、前記サ−ビス提供手段情報の設定/提供を行い、
    前記サ−ビス提供手段は、1回のサ−ビス提供で必ず前記支援装置に問い合わせて情報の設定/提供を受け
    前記階層集約マシンの各々、1個障害情報集約手段として機能し
    前記運用者受信マシンは、運用者が障害情報を受け取る手段である運用者受信手段として機能し、
    前記各運用マシンの前記障害情報通知手段は、前記サ−ビス提供手段で発生した障害内容を、当該運用マシン前記障害情報集約手段に通知する機能を有し、
    前記運用マシン前記障害情報集約手段は、前記障害情報通知手段が通知した障害情報の各々について、集約するか否かを決定し、集約しない障害情報だけを前記運用者受信手段または前記階層集約マシンの前記障害情報集約手段へ出力する機能を有し、
    前記階層集約マシン前記障害情報集約手段は、前記運用マシンの前記障害情報集約手段が出力した前記障害情報の各々について、更に集約するか否かを決定し、集約しない障害情報だけを前記運用者受信手段へ出力する機能を有し、
    前記2個の階層集約マシンの内の一方の階層集約マシン前記障害情報集約手段は、バックアップ手段であり、他方の前記障害情報集約手段に問題が発生している場合代替で機能
    前記プログラムは、
    前記運用マシンを前記障害情報通知手段及び前記障害情報集約手段として機能させるためのプログラムと、
    前記階層集約マシンを前記障害情報集約手段として機能させるためのプログラムと、
    前記運用者受信マシンを前記運用者受信手段として機能させるためのプログラムとを含、プログラム。
  2. 前記運用マシン前記障害情報集約手段は、障害情報を受信する受信手段と、
    障害情報コ−ド毎に集約ル−ルと障害通知先の情報が設定されている内部メモリとしての集約ル−ル設定情報と、
    受信した障害情報と同じ障害情報コ−ドを持つ集約ル−ルを前記集約ル−ル設定情報から検索する集約ル−ル検索手段と、
    過去受信した全ての障害情報を記録し、各々の記録には、通知したか集約したかを表わす情報も設定される内部メモリとしての障害情報蓄積記録と、
    該障害情報蓄積記録を検索して得た情報と、集約ル−ル検索手段で検索した集約ル−ルと、新たに受信した障害情報の3つの情報を解析して、新たに受信した障害情報を通知するか、集約するか否かの動作を決定する障害情報解析手段と、
    障害情報を電子メ−ル形式に変換してメ−ル送信する通知手段と、
    前記障害情報集約手段が受信した障害情報と同じ書式でデ−タを送信する転送手段と、
    障害情報を内部メモリ上から抹消する破棄手段とから構成され、
    動作設定ファイルは決められた書式で前記集約ル−ル設定情報を記述したファイルであり、前記障害情報集約手段は、前記動作設定ファイルの内容を解読後、前記集約ル−ル設定情報として用いる、請求項1に記載プログラム。
  3. 前記集約ル−ルは、
    障害情報を過去の障害情報の発生頻度/発生個所に応じて集約するル−ルであり、障害内容毎に適応できるル−ルである、請求項2に記載プログラム。
  4. 集約装置監視手段を更に有し、
    該集約装置監視手段は、
    定期的に全ての前記障害情報集約手段の動作確認を行う為に、各前記障害情報集約手段に擬似障害情報を送信し、該擬似障害情報に対応する擬似障害通知を、前記運用者受信マシンの代わりに受信して、正しく集約されていることを確認し、
    異常状態の前記障害情報集約手段がある場合、リモ−ト操作で復旧作業を行い、前記運用者受信マシンに前記障害情報集約手段に異常が発生していた旨の障害情報を発行し、
    動作確認の結果全て正常の場合、復旧作業を行わない、請求項1から請求項3の何れか1項に記載プログラム。
JP2002134019A 2002-05-09 2002-05-09 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム Expired - Lifetime JP4102592B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002134019A JP4102592B2 (ja) 2002-05-09 2002-05-09 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002134019A JP4102592B2 (ja) 2002-05-09 2002-05-09 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム

Publications (2)

Publication Number Publication Date
JP2003330758A JP2003330758A (ja) 2003-11-21
JP4102592B2 true JP4102592B2 (ja) 2008-06-18

Family

ID=29696802

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002134019A Expired - Lifetime JP4102592B2 (ja) 2002-05-09 2002-05-09 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム

Country Status (1)

Country Link
JP (1) JP4102592B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010055479A (ja) * 2008-08-29 2010-03-11 Toshiba It Service Kk コンピュータリモート監視システム
JP5588127B2 (ja) * 2009-06-08 2014-09-10 株式会社日立システムズ 障害監視装置
JP6028514B2 (ja) * 2012-10-18 2016-11-16 三菱電機株式会社 光伝送装置
JP2015125496A (ja) * 2013-12-25 2015-07-06 株式会社東芝 監視制御装置、及び監視制御システム
JP5869018B2 (ja) * 2014-03-04 2016-02-24 グリー株式会社 メッセージ処理システム
FR3021138B1 (fr) * 2014-05-16 2017-10-06 Bull Architecture de correlation d'evenements pour la surveillance de supercalculateur
JP6369255B2 (ja) * 2014-09-18 2018-08-08 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、及び、プログラム
JP6453801B2 (ja) * 2016-03-31 2019-01-16 日本電信電話株式会社 監視システム、監視方法、監視装置、および、被監視装置
US11442773B2 (en) * 2017-03-29 2022-09-13 Kyocera Corporation Equipment management method, equipment management apparatus and equipment management system
WO2020105619A1 (ja) * 2018-11-20 2020-05-28 日本電気株式会社 保守作業指示システム、保守作業指示方法及びプログラム
JP7268228B1 (ja) 2022-06-07 2023-05-02 ソフトバンク株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
JP2003330758A (ja) 2003-11-21

Similar Documents

Publication Publication Date Title
CN100417081C (zh) 检查和修复网络配置的方法和系统
US6651183B1 (en) Technique for referencing failure information representative of multiple related failures in a distributed computing environment
US6907551B2 (en) Fault notification method and related provider facility
US9411969B2 (en) System and method of assessing data protection status of data protection resources
US20140188729A1 (en) Remote notification and action system with event generating
JP6095140B2 (ja) 遠隔監視システム、遠隔監視方法、及びプログラム
JP6050378B2 (ja) メッセージの追跡およびチェックのための方法ならびにシステム
JP4102592B2 (ja) 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム
JP2011100283A (ja) 管理装置、機器管理方法、機器管理プログラム、記録媒体、及び機器管理システム
CN101918922A (zh) 用于计算机网络中的自动数据异常修正的系统和方法
US20140006600A1 (en) Remote notification and action system
CN111782345B (zh) 容器云平台日志收集及分析告警方法
US11630137B2 (en) Reliable hardware metering
CN110119325A (zh) 服务器故障处理方法、装置、设备及计算机可读存储介质
KR20180037342A (ko) 어플리케이션 에러 모니터링 및 통계관리 서비스 및 방법
JP3916232B2 (ja) ナレッジ型運用管理システム,方法およびプログラム
JP2008027022A (ja) 障害資料採取システム
JPWO2013124947A1 (ja) 情報システム管理装置及び情報システム管理方法及びプログラム
JP2011090429A (ja) 統合監視システム
JP4761978B2 (ja) ハードディスク冗長管理装置、方法、プログラムおよび監視制御システム
KR101641306B1 (ko) 서버 모니터링 장치 및 이를 이용하는 서버 모니터링 방법
WO2019241199A1 (en) System and method for predictive maintenance of networked devices
JP2014078083A (ja) 情報処理装置、その制御方法およびプログラム
WO2020138176A1 (ja) 監視システム、監視方法および監視プログラム
JP2016200961A (ja) サーバー障害監視システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040426

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041208

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041208

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080324

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4102592

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120328

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120328

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130328

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130328

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140328

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term