JP2003330758A - 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム - Google Patents
集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラムInfo
- Publication number
- JP2003330758A JP2003330758A JP2002134019A JP2002134019A JP2003330758A JP 2003330758 A JP2003330758 A JP 2003330758A JP 2002134019 A JP2002134019 A JP 2002134019A JP 2002134019 A JP2002134019 A JP 2002134019A JP 2003330758 A JP2003330758 A JP 2003330758A
- Authority
- JP
- Japan
- Prior art keywords
- information
- fault
- failure
- failure information
- fault information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Debugging And Monitoring (AREA)
Abstract
者の負担が軽減できる集約機能付障害情報通知システム
及びマシンを集約機能付障害情報通知手段として機能さ
せるためのプログラムを提供する。 【解決手段】 障害情報通知装置3−1−1〜3−N−
Mは、サ−ビス提供装置2−1−1〜2−N−Mに設置
されている。この装置は、サ−ビス提供装置で発生した
障害内容を、それぞれの運用マシン上に設置されている
障害情報集約装置4−1〜4−Nに通知する機能を持っ
ている。障害情報集約装置4−1〜4−Nは、受信した
障害情報を取捨選択し、過剰な障害情報を通知しないよ
うに抑制して障害情報を出力する。障害情報集約装置4
−1〜4−Nの障害情報通知先は、運用者受信装置6、
又は障害情報集約装置4−1〜4−Nが出力した障害情
報を更に集約する階層的な位置付けにある障害情報集約
装置5−1、5−2である。
Description
報通知システム及びマシンを集約機能付障害情報通知手
段として機能させるためのプログラムに関する。
た場合、集約装置を使わずに全て運用者に逐次通知して
いた。図1に示すような水平負荷分散型システムで障害
監視を行う場合、ある一つの装置の不具合から、水平分
散したN×M個の装置が一斉に障害通知を行う。
ボックス)に何万通という障害情報が到着してしまい、
障害情報の受信装置の異常を来す。また、全く別の障害
情報が膨大な障害情報の中に紛れ込んでしまい、その通
知自体に気づかず対処が大幅に遅れる。
情報集約装置の設置が必要である。階層的な障害情報集
約装置の設置により、同じ内容の障害情報を省略でき
る。また、障害内容の緊急度に応じて集約ル−ルの中の
通知先を変更し、緊急度が最上の障害は24時間体制の
監視室に通知する設定を行い迅速な障害対応が可能とな
る。
の通知を受けずに済み、運用者の負担が軽減できる集約
機能付障害情報通知システム及びマシンを集約機能付障
害情報通知手段として機能させるためのプログラムを提
供することにある。
検出した障害情報を運用者に通知するシステムである。
発明の特徴として、現在発生している障害と過去に発生
した障害記録を解析することで、現在の障害情報を通知
するか、集約するか判定を行う。判定に従い、過剰な障
害情報を運用者に通知する事を避ける事が可能である。
それにより運用者の障害対応に対する負荷を軽減する事
が出来る。別の特徴として、階層構造的に障害情報通知
装置を設定できる事が挙げられる。この特徴の効果は、
水平負荷分散型システムにおける中央装置の異常発生の
場合など、膨大な量の同一障害情報の通知を効果的に集
約することが可能な事である。この装置はプログラム制
御で動作するソフトウェアである。
(N個)があり、各々にM個ずつのサ−ビス提供装置2−
1−1〜2−N−M(N×M個)がある。サ−ビス提供装
置は水平分散システムの形態をとっている。支援装置7
は、この水平分散システム全体で一意に扱いたい情報を
一括管理している。例えばユ−ザ名とパスワ−ドからな
る認証情報を管理する。サ−ビス提供装置は、1回のサ
−ビス提供で必ず支援装置7に問い合わせて情報の設定
/提供を受けなければならない。本発明は、サ−ビス提
供装置に発生した障害を障害対応者に効果的に通知する
装置である。その為サ−ビス提供装置と支援装置7は発
明品に含まない。
害情報通知装置3−1−1〜3−N−Mは、サ−ビス提
供装置2−1−1〜2−N−Mに設置されている。この
装置は、サ−ビス提供装置で発生した障害内容を、それ
ぞれの運用マシン上に設置されている障害情報集約装置
4−1〜4−Nに通知する機能を持っている。障害情報
集約装置4−1〜4−Nは、受信した障害情報を取捨選
択し、過剰な障害情報を通知しないように抑制して障害
情報を出力する、一種のフィルタの機能を持つ。図1の
構成では、障害情報集約装置4−1〜4−Nは、各々の
運用マシン1−1〜1−N内の障害情報通知装置が通知
した障害情報を集約する機能を持つ。障害情報集約装置
4−1〜4−Nの障害情報通知先は、運用者受信装置
6、或いは障害情報集約装置5−1、5−2である。通
知先の設定は各々の障害情報集約装置で個別に設定でき
る。障害情報集約装置5−1と5−2は、4−1〜4−
Nの障害情報集約装置と同様の機能を持つ集約装置であ
り、障害情報集約装置4−1〜4−Nが出力した障害情
報を更に集約する階層的な位置付けにある装置である。
5−2は、5−1のバックアップ装置であり、5−1の
装置に問題が発生している場合代替で機能する。運用者
受信装置6は、運用者が実際に障害情報を受け取る装置
であり、例えば電子メ−ルシステムのメ−ルボックスが
挙げられる。
が頻繁に発生している場合の障害情報通知を考える。障
害が発生する度に、障害情報通知装置3−1−1が障害
情報を障害情報集約装置4−1に送信する。障害情報集
約装置4−1は、運用者が予め設定した集約ル−ルに従
って障害情報を集約して、通知の必要があると判断して
初めて運用者に障害情報を通知する。この集約の結果、
運用者は、過剰な障害情報を受信せず、必要十分な障害
情報を得る事が出来る。
考える。この場合、サ−ビス提供装置は支援装置7から
認証情報を受け取れない為、障害情報を通知する。水平
負荷分散型システムである事を考えると、全サ−ビス提
供装置2−1−1〜2−N−Mが一斉に障害通知を行う
ことがある。この時、障害情報集約装置4−1〜4−N
が銘々勝手に障害情報を集約して運用者に障害情報を送
信すると、運用者は大量の同一原因の障害情報を受信し
てしまい、効率が悪い。そこでこの場合、障害情報集約
装置4−1〜4−Nは集約した障害情報を障害情報集約
装置5−1に送信するように、集約ル−ルを設定すると
良い。障害情報集約装置5−1は4−1〜4−Nまでの
集約済み障害情報をさらに集約して、運用者に通知す
る。
約装置を設計する事で、水平負荷分散型のシステムで発
生する障害情報を的確に集約できる。これにより、運用
者の障害対応に対する作業負荷を軽減する事が可能であ
る。
明の第1の実施の形態の説明に伴い、図1、図2の構成
内容を説明する。図1は、集約機能付障害情報通知シス
テムを組込んだ水平負荷分散型のサ−ビス提供システム
の全体を示す。図2は図1の中の、運用マシン1−1の
内部構造図である。これらの装置は全て、プログラム制
御により動作するソフトウェアであると仮定する。ま
た、運用者が受信する障害情報は電子メ−ルによる形式
を採用する。
〜1−Nは並列分散されたコンピュ−タである(Nはコ
ンピュ−タの数)。各運用マシン1−1〜1−Nに、障
害監視の対象となるサ−ビス提供装置2−1−1〜2−
N−Mが動作している(Mは1つのコンピュ−タ当りの
サ−ビス提供装置の数)。これはコンピュ−タ内部で動
作するソフトウェアである。これらは水平負荷分散型シ
ステムにより構成されている。支援装置7は、サ−ビス
提供装置2−1−1〜2−N−Mの動作中に参照/更新
/削除する情報が含まれている。これらは本発明の説明
の為に仮定している装置である。例を挙げると、サ−ビ
ス提供装置が発券機で支援装置が在庫管理情報を持つデ
−タベ−ス、他には、サ−ビス提供装置が金融業のAT
M機で支援装置が通帳と暗証番号の組みを持つ認証局、
である。
〜3−N−Mが実装されている。書式に従った障害情報
(後述する)を供給されると、障害情報集約装置4−1〜
4−Nに障害情報を送信する。この装置は、障害を発見
したサ−ビス提供装置自らが実行しなければならない。
サ−ビス提供装置のプログラム中から制御できるプログ
ラム関数や、実行コマンド形式として設置する。
の運用マシンの障害情報通知装置で発生した障害情報を
集約し、再出力するフィルタの機能を持つ。出力先は障
害情報集約装置5−1、又は、運用者受信装置6であ
る。障害情報集約装置5−1に出力する場合、障害情報
集約装置4−1〜4−Nが受信した障害情報と同じ書式
の障害情報を出力する。運用者受信装置6に通知する場
合、障害情報を電子メ−ル形式に変換して出力する。
用マシンに配置されている障害情報集約装置4−1〜4
−Nの出力を更に階層的に集約する為に設定されてい
る。出力は運用者受信装置6に通知する為、電子メ−ル
形式に変換した障害情報である。5−2の装置は、5−
1のバックアップ装置であり、普段は待機している。5
−1の装置に異常が発生している場合代替機能する。こ
の切替には、ソケットプログラムのコネクション型通信
の特性を活かす。即ち、障害情報集約装置4−1〜4−
Nが、障害情報を送信する際に、5−1に対して送信経
路が確立できない場合に、5−2に対して送信先を自動
的に切りかえる。
ボックスとする。電子メ−ル形式に変換された障害情報
を受信する。入力元は障害情報集約装置4−1〜4−
N、5−1、5−2である。運用者は電子メ−ルをチェ
ックする事で初めて障害通知を知ることができる。
1−1を詳細に説明した図である。障害情報通知装置3
−1−1〜3−1−Mが障害情報を、障害情報集約装置
4−1に対して送信する。つまり、障害情報通知装置3
−1−1〜3−1−M自身には、障害を検出する機能は
無い。
ものである。
害発生元情報、障害検出元情報、障害内容詳細デ−
タ 障害情報コ−ドは、障害内容を端的に表わす数値であ
り、図1の運用マシン1−1〜1−Nで発生する全ての
障害毎に一意な値を持つ。例えば、運用マシンのディス
ク空き容量不足を表わす障害コ−ドを00002、サ−
ビス提供装置停止を表わす障害コ−ドを01106とい
った具合に予め設定しておかなければならない。また、
この値は、サ−ビス提供装置と障害情報集約装置で同じ
意味として管理しなければならない。障害発生元情報
は、障害が発生した装置の所在を表わす。例えば運用マ
シンのIPアドレスが挙げられる。障害検出元情報は
実際に障害が発生した場所と検出した場所とが異なる場
合、検出した個所を表わす情報である。障害発生元情報
と対に存在している。障害内容詳細デ−タは、通知を
受けた運用者が障害対応に活用できるような、障害の内
容を具体的に表わしたものである。例えば、「ディスク
空き容量が残り5%である。およそ60分で0%にな
る。」といった具合である。〜の障害情報のうち、
障害情報コ−ドと障害発生時刻、障害発生元情報
は必ず設定しなければならない。設定せずに障害通知を
行った場合、障害情報集約装置4−1は、障害と判定せ
ずに廃棄する。運用者が解析不能な障害情報を送信して
も意味が無い(結局障害対応が出来ない)為である。サ−
ビス提供装置がこの障害情報を障害情報通知装置に提供
することで障害通知の動作が始まる。
明する。受信装置41は、障害情報を受信する。集約ル
−ル設定情報47は、障害情報コ−ド毎に集約ル−ルと
障害通知先の情報が設定されている。集約ル−ル検索手
段42は受信した障害情報と同じ障害情報コ−ドを持つ
集約ル−ルを集約ル−ル設定情報47から検索する。運
用者が集約ル−ル設定情報47を作成する為には、動作
設定ファイル49に決められた書式に従い記述する。障
害情報集約装置4−1は、動作設定ファイル49の内容
を解読後、集約ル−ル設定情報47として用いる。これ
は障害情報集約装置4−1の内部メモリ−情報として記
憶する。
3種類を挙げる。
知する。以降は前回通知した障害情報から一定期間、同
一障害発生元から発生した同一障害は通知しない(集約
する)。 ・前回通知した障害情報から一定期間内、一定回数の同
一障害は集約する。 ・集約無し 障害情報蓄積記録48には、過去受信した全ての障害情
報を記録している。また、各々の記録には、通知したか
集約したかを表わす情報も設定されている。これも、障
害情報集約装置4−1の内部メモリ−情報として記憶し
ている。
48を検索して得た情報と、集約ル−ル検索手段42で
検索した集約ル−ル、そして今回受信した障害情報の3
つの情報を解析して、今回の障害情報を通知するか、集
約するか否かの動作を決定する装置である。また、通知
する場合、集約ル−ルに応じて、出力先を決定する(運
用者受信装置6に送信するか、障害情報集約装置5−1
に転送するか)。そして、今回の障害情報に対して、通
知したか集約したかの情報を付加して障害情報蓄積記録
48に追加する。
44に制御が移る。通知装置44は、障害情報を電子メ
−ル形式に変換してメ−ル送信する。送信には外部のS
MTPサ−バと通信を行なわれなければならず、通知装
置44はこの機能を持つ。電子メ−ル化された障害情報
は運用者受信装置6(メ−ルボックス)に格納され、運用
者がメ−ルをとり込み、障害通知が完了する。
転送装置45に制御が移る。転送装置45は、障害情報
通知装置3−N−Mと同じ機能を持ち、障害情報集約装
置4−1が受信した障害情報と同じ書式でデ−タを送信
する。(但し、自分自身に転送することは無い。集約ル
−ル設定情報47を作成する際に自分宛の送信が設定さ
れていない事をチェックする事で対処する。)破棄装置
46は、障害情報を内部メモリ上から抹消する機能であ
る。
情報を受け取る電子メ−ルシステムのメ−ルボックスで
ある。次に、本発明の第1の実施の形態の動作の説明を
する。
は、運用マシン1−1のディスク空き容量が枯渇した場
合の障害である。ディスク空き容量不足を表わす障害情
報の障害情報コ−ドは00002とする。第二の例とし
ては、図1の支援装置7に異常があり、サ−ビス提供装
置2−1−1〜2−N−Mが、支援装置7を利用できな
い場合の障害である。これを表わす障害情報コ−ドを0
0001とする。
た集約ル−ルを図2の動作設定ファイル49に記述して
障害情報集約装置4−1〜4−N、及び5−1、5−2
を起動しおかなければならない。同様に、サ−ビス提供
装置2−1−1〜2−N−Mにも障害内容に応じて障害
情報コ−ドを使い分けるように個別に設定しておく。図
3は、動作設定ファイル49の記述例である。障害情報
コ−ド毎に、集約ル−ルと障害通知先を設定している様
子を表わす。00001と00002の障害情報コ−ド
は次の集約ル−ル設定をしている。
=前回通知した障害から一定期間(60分)集約する 通知先=system@xxx.co.jp(運用者受信装置6) ・障害情報コ−ド00002:集約ル−ル=前回通知し
た障害から一定期間(30分)/一定回数(5回)の間に発
生した障害は集約する 通知先=ADmin@xxx.co.jp(運用者受信装置6) ・障害情報コ−ド00003:集約ル−ル=常に通知す
る 通知先=10.123.24.1(障害情報集約装置5−1
の階層集約マシンのIPアドレス) 通知先=10.123.24.1(障害情報集約装置5−2
の階層集約マシンのIPアドレス) 第一の例、「運用マシン1−1のディスク空き容量枯
渇」の障害通知に関して説明する。サ−ビス提供装置2
−1−1はディスク空き容量を監視する機能を持ち、5
分おきに起動し、異常検出の度に障害情報通知装置3−
1−1を実行する装置とする。ディスク空き容量不足の
通知情報の障害情報コ−ドは00002である(上記集
約ル−ル参照)。
知されており、その後再び5分毎に連続4回、ディスク
空き容量不足をサ−ビス提供装置2−1−1が検出して
いるとする。図2を参考にしながら説明する。今、5回
目のディスク空き容量不足をサ−ビス提供装置2−1−
1(ディスク空き容量監視)が検出し、障害情報通知装置
3−1−1を実行する。実行時に障害情報通知装置3−
1−1に対して、サ−ビス提供装置2−1−1は次の障
害情報を作成して提供する。
いる"(障害内容詳細デ−タ) 障害情報通知装置3−1−1は供給された障害情報を障
害情報集約装置4−1の間で取り決められた書式に変換
して送信する。
約ル−ル検索手段42は、00002(障害情報コ−
ド)をキ−として、集約ル−ル設定情報47を検索す
る。検索により、障害コ−ド00002に対する集約ル
−ルを探し出す(集約ル−ルは上記参照)。次に障害情報
解析手段43は、障害情報蓄積記録48と検索した集約
ル−ル、そして受信した障害情報の3つの情報から集約
の是非を解析する。この解析方法を図4の処理図を用い
て詳細に説明する。
テップ図である。障害情報蓄積記録48には、過去受信
した障害情報とそれを集約したか否かを示す情報が時系
列に記録されている。先ず、どの種類の集約ル−ルに従
うのか決定する。検索した00002コ−ドの集約ル−
ルは、ステップA1に対する処理である。次に200
1/01/01 13:00(障害発生時刻)から、過去
一定期間(30分)に00002(障害情報コ−ド)を持
つ障害情報記録を障害情報蓄積記録48から全て検索す
る(ステップA2)。ステップA3で、ステップA2の検
索結果を調べ、一定期間(30分)以内に本集約装置から
障害通知を出力したか否かを調べる。もし通知していれ
ば、今回の障害は集約する処置をとる為、ステップD1
に移る。発生条件から、30分以内には通知を行ってい
ない。今度は集約した回数をステップA4で調べる。ス
テップA4で一定期間(30分)に00002(障害情
報コ−ド)を何回記録しているか集計する。ステップA
5で集計の結果に、1(今回発生した障害数)を足した結
果が一定回数(5)未満の場合、条件に満たない為今回の
障害を集約する処置をとり、ステップD1に処理が移
る。発生条件より、ステップA4の集計結果が4である
ため、一定期間(30分)以内に5回目の障害情報を受信
した為、障害通知を行う処理に移る。ステップD2で
は、今回の障害情報を障害情報蓄積記録48に追加す
る。この時、次の集約解析で利用する為、「通知した」
という情報を追加する。ステップD3で通知先を決め
る。障害コ−ド00002の集約ル−ルに従い、宛先は
運用者受信装置6(admin@xxx.co.jp)である。その為、
通知装置44に障害情報を供給する決定を行い、障害情
報解析手段43は終了する。
る。通知装置44は、障害情報を電子メ−ルの本文とし
て作成する。それを指定された宛先admin@xxx.co.jpへ
メ−ル送信する。運用者は、運用者受信装置6(電子メ
−ルボックス)を定期的にチェックして、ディスク空き
容量不足障害が運用マシン1−1で2001/01/0
1 13:00に発生したことを知る。
知をしたがまだ問題が解決されずに、その後5分毎に連
続4回ディスク空き容量不足を検出した場合の動作を考
える。障害情報解析手段43において、図4のステップ
A3で、20分前に障害通知を出した事実を障害情報蓄
積記録48から知る。集約ル−ル中の一定期間(30分)
に通知されているので、障害通知の必要が無いと障害情
報解析手段43は判断する。よってステップD1で、今
回の情報を障害情報蓄積記録48に「集約した」という
情報と共に追加する。その後障害情報は図2の破棄装置
46に供給され、障害情報集約装置4−1の内部メモリ
上から障害情報が抹消される。これにより、運用者受信
装置6には障害情報が通知される事はない。
空き容量が自然回復した場合、障害通知を受けずに済
み、通常通りの運用を遂行できる。
常が発生」の場合の障害通知に関して説明する。条件と
して、サ−ビス提供装置2−1−1〜2−N−Mは、処
理の過程で図1の支援装置7に頻繁にアクセスし、情報
供給を受ける機能があるとする。サ−ビス提供装置2−
1−1〜2−N−Mが支援装置7にアクセスできない事
を表わす障害コ−ドは00001である(集約ル−ル参
照)。
置2−1−1の処理中に支援装置7に異常が発生した。
サ−ビス支援装置2−1−1は、支援装置7にアクセス
できなくなり、障害情報通知装置3−1−1を利用して
障害情報を障害情報集約装置4−1に送信する。障害情
報は以下の内容である。
害情報を通知するか集約するかの解析が行われる。集約
ル−ル設定情報4−7にある集約ル−ルに従い、受信し
た障害情報コ−ド00001は、図4のステップB1の
ル−トをとることになる。ステップB2で障害情報発生
元が支援装置7である過去の障害情報を障害情報蓄積記
録48から全て検出する。ステップB3で、ステップB
2の結果を更に障害情報コ−ド00001のみに絞る。
ステップB4で、B3で得た記録のうち、最も最近障害
通知した時刻と、今回の障害発生時刻とを比較する。こ
れが条件の60分以内であればステップD1に移り、障
害情報は集約される。そうでない場合、ステップD2に
経由し障害が通知される。
の条件に従い、運用者受信装置6(system@xxx.co.jp)に
送信が決定され、障害通知が成される。
発生したとき、サ−ビス提供装置2−1−1〜2−1−
Mが一斉に障害を検出した場合を考える。障害情報集約
装置4−1は受信した順に障害解析を行う。この結果、
サ−ビス提供装置2−1−1〜2−1−Mが一斉発信し
た障害情報は、一番最初に解析された障害情報以外運用
者に通知されない。これは60分間継続し、60分後に
再び一番最初に解析された障害情報のみ、運用者に通知
される。サ−ビス提供装置2−1−1〜2−1−Mの何
れが発生させた障害情報が通知されても良い。運用者が
受け取る障害情報の中の障害内容詳細デ−タは"支援装
置7が停止している"という内容である為、個々のサ−
ビス提供装置の障害ではなく支援装置7に問題が発生し
ていることを理解できるからである。
発生したとき、サ−ビス提供装置2−1−1〜2−N−
M全てが一斉に障害を検出した場合を考える。各運用マ
シン1−1〜1−Nに設定されている障害情報集約装置
が、それぞれ独立に障害解析を行い通知する為、運用者
受信装置には、全ての運用マシンから1通ずつ、合計N
通の障害情報が届いてしまう。そこで、障害情報集約装
置4−1〜4−Nの、支援装置7で障害が発生したこと
を表わす00001の集約ル−ルの通知先を障害情報集
約装置5−1に変更する。すると、障害情報集約装置4
−1〜4−Nの情報をさらに集約し、図1に示すシステ
ム全体で、唯一通の障害情報だけ運用者に通知する事が
出来る。
の実施の形態の説明に伴い、図5の構成内容を説明す
る。障害情報集約装置自身が異常を起こすと、本来の障
害情報が通知できない事態が発生する。そこで、障害情
報集約装置の動作状態を確認する機能を追加する。動作
確認は、実際に障害情報集約装置の内部で正しく処理が
行われ、障害情報が通知されるまでの一連の動作を確認
しなければならない。図5は、図1のシステムにおい
て、障害情報集約装置4−1〜4−N、5−1、5−2
を監視する事に着目している図である。各障害情報集約
装置は第1の実施の形態の説明の通りの動作を行う。ま
た、集約装置監視器8が追加されている。この集約装置
監視器8は以下の動作を行う。
を行う為に、各障害情報集約装置に障害情報を送信す
る。これを擬似障害情報と呼ぶ。擬似障害情報に対応す
る障害通知を、運用者受信装置6の代わりに受信して
(擬似障害通知)、正しく集約されていることが確認でき
る。 ・異常状態の障害情報集約装置がある場合、リモ−ト操
作で復旧作業を行う。その後、運用者受信装置6に障害
情報集約装置に異常が発生していた旨の障害情報を発行
する。 ・動作確認の結果全て正常の場合、何も行わない。集約
装置監視器8の障害情報集約装置の動作確認方法につい
て説明する。予め、各障害情報集約装置には、動作確認
用としての擬似障害情報に対する集約ル−ルを以下のよ
うに設定しておく。 ・障害情報コ−ド00000:集約ル−ル=常に通知す
る 通知先=集約装置監視器8 即ち、擬似障害情報(障害情報コ−ド00000)を受信
した各障害情報集約装置は、解析の結果、擬似障害情報
の発信元である集約装置監視器8に応答を返す形とな
る。応答を返せない障害情報集約装置には設定上の不具
合があるか、障害が発生していることになる。集約装置
監視器8は、検査対象の障害情報集約装置の一覧を持っ
ており、一覧に沿って擬似障害情報を送信する。一覧と
応答結果を照らし合せる事で動作が異常な障害情報集約
装置を確認できる。
て説明する。集約装置監視器8は異常と判断した障害情
報集約装置の設置されている運用マシンにリモ−ト操作
を行う。ここで言うリモ−ト操作とは、マシン間通信に
より、外部マシンから対象マシンの操作を行うことであ
る。リモ−ト操作で、先ず障害情報集約装置が稼動して
いるか否か調べる。稼動していない場合、リモ−ト操作
により起動を行う。起動しているが異常を検出している
場合、内部的に不正が発生している可能性が考えられ
る。リモ−ト操作で、障害情報集約装置を停止し、その
後起動する。リモ−ト操作が出来ない場合、何もしな
い。
モ−ト操作を行い、最後に集約装置監視器8は運用者受
信装置6に対して障害情報を送信する。障害情報には、
異常な障害情報集約装置の名前、対処方法、対処結果を
含める。
査器8は図5の全ての障害情報集約装置4−1〜4−
N、5−1、5−2の一覧情報を把握している。集約装
置検査器8が発信する擬似障害情報は以下の障害情報で
ある。障害検出元情報は検査対象毎に変更する。
刻) 集約装置監視器8(障害発生元情報) 運用マシン1−1(障害検出元情報) "受信したら正常動作を示します"(障害内容詳細デ−
タ) 全障害情報集約装置はこの擬似障害情報に対して次の集
約ル−ルを適応している。
=常に通知する 通知先=集約装置監視器8 図5の障害情報集約装置のうち、4−2が未起動、4−
4は、内部メモリ−の異常で、集約ル−ル設定情報が消
失している状態とする。
障害情報を一覧に沿って膳障害情報集約装置に送信す
る。正常な障害情報集約装置は、図2及び図4に示す内
部制御に従い障害情報を通知する。通知先は集約ル−ル
により、擬似障害情報発信元の集約装置監視器8であ
る。集約装置監視器8は、受信した擬似障害通知のう
ち、障害検出元情報 からどの障害情報集約装置から
の応答であるか判断する。一覧と応答受信した擬似障害
情報から、応答を返していない障害情報集約装置があ
り、4−2、4−4である事が判明する。4−2は図4
の受信装置41が機能していない為、擬似障害通知を発
生できない。4−4は図2の集約ル−ル検索手段42が
不正な為である。
集約装置のある運用マシン、即ち運用マシン1−2と1
−4に対して、リモ−ト操作を行う。運用マシン1−2
のリモ−ト操作で、障害情報集約装置4−2が起動して
いるか否かをチェックするが、起動していない事が分か
る。そこでリモ−ト操作により起動を行う。運用マシン
1−4では、障害情報集約装置4−4が起動している事
が分かる。リモ−ト操作により一度障害情報集約装置を
停止し、起動しなおす。
かった旨の障害情報を以下のように作成し、障害情報を
直接運用者受信装置6に送信する。
刻) 集約装置監視器8(障害発生元情報) 集約装置監視器8(障害検出元情報) "集約装置4−2が停止、4−4が異常動作状態であ
った。"(障害内容詳細デ−タ)" 障害通知を受けた運用者は、この情報を元に、障害情報
集約装置が異常であった原因と現在の復旧状態をチェッ
クする。また、障害情報集約装置の異常中に異常動作を
起こしたサ−ビス提供装置がないかを調べることが可能
である。
の効果がある。
能である為、過剰な障害情報の通知を受けずに済み、運
用者の負担が軽減できるという効果がある。また、障害
情報集約装置自体が、並列的、階層的に構成可能である
為、システムの規模と構成に応じた設定が可能であると
いう効果がある。また、障害内容に応じて通知する宛先
を変更できるという効果がある。
平負荷分散型のサ−ビス提供システムの全体を示す図で
ある。
ある。
加されている図である。
Claims (8)
- 【請求項1】 各々にM個ずつの水平分散システムの形
態をとるサ−ビス提供装置を有するN個の運用マシン
と、前記水平分散システム全体で一意に扱いたい情報を
一括管理する支援装置とからなり、該支援装置は、ユ−
ザ名とパスワ−ドからなる認証情報を管理し、前記サ−
ビス提供装置は、1回のサ−ビス提供で必ず前記支援装
置に問い合わせて情報の設定/提供を受ける必要があ
る、水平負荷分散型のサ−ビス提供システムに組み込ま
れた集約機能付障害情報通知システムであって、前記N
個の運用マシン上の各々に、M個ずつ設置されている前
記サ−ビス提供装置に各々設置されている障害情報通知
装置と、1個ずつ設置されている障害情報集約装置と、
2個の階層集約マシン上の各々に、1個ずつ設置されて
いる障害情報集約装置と、運用者が実際に障害情報を受
け取る装置である運用者受信装置とから構成され、前記
障害情報通知装置は、前記サ−ビス提供装置で発生した
障害内容を、それぞれの前記運用マシン上に設置されて
いる前記障害情報集約装置に通知する機能を有し、前記
運用マシン上に設置されている前記障害情報集約装置
は、前記障害情報通知装置が通知した障害情報を集約し
て障害情報を前記運用者受信装置または前記階層集約マ
シン上に設置されている前記障害情報集約装置へ出力す
る機能を有し、前記階層集約マシン上に設置されている
前記障害情報集約装置は、前記運用マシン上に設置され
ている前記障害情報集約装置が出力した前記障害情報を
更に集約する階層的な位置付けにあり、前記2個の階層
集約マシンの内の一方の階層集約マシン上に設置されて
いる前記障害情報集約装置は、バックアップ装置であ
り、他方の前記障害情報集約装置に問題が発生している
場合代替で機能する、集約機能付障害情報通知システ
ム。 - 【請求項2】 前記運用マシン上に設置されている前記
障害情報集約装置は、障害情報を受信する受信装置と、
障害情報コ−ド毎に集約ル−ルと障害通知先の情報が設
定されている内部メモリとしての集約ル−ル設定情報
と、受信した障害情報と同じ障害情報コ−ドを持つ集約
ル−ルを前記集約ル−ル設定情報から検索する集約ル−
ル検索手段と、 過去受信した全ての障害情報を記録し、各々の記録に
は、通知したか集約したかを表わす情報も設定される内
部メモリとしての障害情報蓄積記録と、 該障害情報蓄積記録を検索して得た情報と、集約ル−ル
検索手段で検索した集約ル−ルと、今回受信した障害情
報の3つの情報を解析して、今回の障害情報を通知する
か、集約するか否かの動作を決定する障害情報解析手段
と、 障害情報を電子メ−ル形式に変換してメ−ル送信する通
知装置と、前記障害情報通知装置と同じ機能を持ち、前
記障害情報集約装置が受信した障害情報と同じ書式でデ
−タを送信する転送装置と、 障害情報を内部メモリ上から抹消する破棄装置とから構
成され、 運用者が前記集約ル−ル設定情報を作成する為には、動
作設定ファイルに決められた書式に従い記述し、前記障
害情報集約装置は、前記動作設定ファイルの内容を解読
後、前記集約ル−ル設定情報として用いる、請求項1に
記載の集約機能付障害情報通知システム。 - 【請求項3】 前記集約ル−ルは、障害情報を過去の障
害情報の発生頻度/発生個所に応じて集約するル−ルで
あり、障害内容毎に適応できるル−ルである、請求項2
に記載の集約機能付障害情報通知システム。 - 【請求項4】 集約装置監視器を更に有し、該集約装置
監視器は、定期的に全ての前記障害情報集約装置の動作
確認を行う為に、各前記障害情報集約装置に擬似障害情
報を送信し、該擬似障害情報に対応する擬似障害通知
を、前記運用者受信装置の代わりに受信して、正しく集
約されていることを確認し、異常状態の前記障害情報集
約装置がある場合、リモ−ト操作で復旧作業を行い、前
記運用者受信装置に前記障害情報集約装置に異常が発生
していた旨の障害情報を発行し、動作確認の結果全て正
常の場合、何も行わない、請求項1から請求項3の何れ
か1項に記載の集約機能付障害情報通知システム。 - 【請求項5】 各々がM個ずつの水平分散システムの形
態をとるサ−ビス提供手段として機能するN個の運用マ
シンと、前記水平分散システム全体で一意に扱いたい情
報を一括管理する支援装置とからなり、該支援装置は、
ユ−ザ名とパスワ−ドからなる認証情報を管理し、前記
サ−ビス提供手段は、1回のサ−ビス提供で必ず前記支
援装置に問い合わせて情報の設定/提供を受ける必要が
ある、水平負荷分散型のサ−ビス提供システムに組み込
まれた、マシンを集約機能付障害情報通知手段として機
能させるためのプログラムであって、前記集約機能付障
害情報通知手段は、前記N個の運用マシン上の各々に、
M個ずつ設置されている前記サ−ビス提供手段に各々設
置されている障害情報通知手段と、1個ずつ設置されて
いる障害情報集約手段と、2個の階層集約マシン上の各
々に、1個ずつ設置されている障害情報集約手段と、運
用者が実際に障害情報を受け取る装置である運用者受信
装置とから構成され、前記障害情報通知手段は、前記サ
−ビス提供手段で発生した障害内容を、それぞれの前記
運用マシン上に設置されている前記障害情報集約手段に
通知する機能を有し、前記運用マシン上に設置されてい
る前記障害情報集約手段は、前記障害情報通知手段が通
知した障害情報を集約して障害情報を前記運用者受信装
置または前記階層集約マシン上に設置されている前記障
害情報集約手段へ出力する機能を有し、前記階層集約マ
シン上に設置されている前記障害情報集約手段は、前記
運用マシン上に設置されている前記障害情報集約手段が
出力した前記障害情報を更に集約する階層的な位置付け
にあり、前記2個の階層集約マシンの内の一方の階層集
約マシン上に設置されている前記障害情報集約手段は、
バックアップ手段であり、他方の前記障害情報集約手段
に問題が発生している場合代替で機能する、マシンを集
約機能付障害情報通知手段として機能させるためのプロ
グラム。 - 【請求項6】 前記運用マシン上に設置されている前記
障害情報集約手段は、障害情報を受信する受信手段と、
障害情報コ−ド毎に集約ル−ルと障害通知先の情報が設
定されている内部メモリとしての集約ル−ル設定情報
と、受信した障害情報と同じ障害情報コ−ドを持つ集約
ル−ルを前記集約ル−ル設定情報から検索する集約ル−
ル検索手段と、 過去受信した全ての障害情報を記録し、各々の記録に
は、通知したか集約したかを表わす情報も設定される内
部メモリとしての障害情報蓄積記録と、 該障害情報蓄積記録を検索して得た情報と、集約ル−ル
検索手段で検索した集約ル−ルと、今回受信した障害情
報の3つの情報を解析して、今回の障害情報を通知する
か、集約するか否かの動作を決定する障害情報解析手段
と、 障害情報を電子メ−ル形式に変換してメ−ル送信する通
知手段と、前記障害情報通知手段と同じ機能を持ち、前
記障害情報集約手段が受信した障害情報と同じ書式でデ
−タを送信する転送手段と、 障害情報を内部メモリ上から抹消する破棄手段とから構
成され、 運用者が前記集約ル−ル設定情報を作成する為には、動
作設定ファイルに決められた書式に従い記述し、前記障
害情報集約手段は、前記動作設定ファイルの内容を解読
後、前記集約ル−ル設定情報として用いる、請求項5に
記載のマシンを集約機能付障害情報通知手段として機能
させるためのプログラム。 - 【請求項7】 前記集約ル−ルは、障害情報を過去の障
害情報の発生頻度/発生個所に応じて集約するル−ルで
あり、障害内容毎に適応できるル−ルである、請求項6
に記載のマシンを集約機能付障害情報通知手段として機
能させるためのプログラム。 - 【請求項8】 集約装置監視手段を更に有し、該集約装
置監視手段は、定期的に全ての前記障害情報集約手段の
動作確認を行う為に、各前記障害情報集約手段に擬似障
害情報を送信し、該擬似障害情報に対応する擬似障害通
知を、前記運用者受信装置の代わりに受信して、正しく
集約されていることを確認し、異常状態の前記障害情報
集約手段がある場合、リモ−ト操作で復旧作業を行い、
前記運用者受信装置に前記障害情報集約手段に異常が発
生していた旨の障害情報を発行し、動作確認の結果全て
正常の場合、何も行わない、請求項5から請求項7の何
れか1項に記載のマシンを集約機能付障害情報通知手段
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002134019A JP4102592B2 (ja) | 2002-05-09 | 2002-05-09 | 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002134019A JP4102592B2 (ja) | 2002-05-09 | 2002-05-09 | 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003330758A true JP2003330758A (ja) | 2003-11-21 |
JP4102592B2 JP4102592B2 (ja) | 2008-06-18 |
Family
ID=29696802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002134019A Expired - Lifetime JP4102592B2 (ja) | 2002-05-09 | 2002-05-09 | 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4102592B2 (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010055479A (ja) * | 2008-08-29 | 2010-03-11 | Toshiba It Service Kk | コンピュータリモート監視システム |
JP2010282521A (ja) * | 2009-06-08 | 2010-12-16 | Hitachi Electronics Service Co Ltd | 障害監視装置 |
JP2014082719A (ja) * | 2012-10-18 | 2014-05-08 | Mitsubishi Electric Corp | 光伝送装置 |
JP2014112432A (ja) * | 2014-03-04 | 2014-06-19 | Gree Inc | メッセージ処理システム |
JP2015125496A (ja) * | 2013-12-25 | 2015-07-06 | 株式会社東芝 | 監視制御装置、及び監視制御システム |
JP2016062340A (ja) * | 2014-09-18 | 2016-04-25 | 日本電気株式会社 | 情報処理システム、情報処理装置、情報処理方法、及び、プログラム |
JP2017521802A (ja) * | 2014-05-16 | 2017-08-03 | ブル | スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ |
JP2017184071A (ja) * | 2016-03-31 | 2017-10-05 | 日本電信電話株式会社 | 監視システム、監視方法、監視装置、および、被監視装置 |
WO2018181422A1 (ja) * | 2017-03-29 | 2018-10-04 | 京セラ株式会社 | 設備管理方法、設備管理装置及び設備管理システム |
JPWO2020105619A1 (ja) * | 2018-11-20 | 2021-10-14 | 日本電気株式会社 | 保守作業指示システム、保守作業指示方法及びプログラム |
JP7268228B1 (ja) | 2022-06-07 | 2023-05-02 | ソフトバンク株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
-
2002
- 2002-05-09 JP JP2002134019A patent/JP4102592B2/ja not_active Expired - Lifetime
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010055479A (ja) * | 2008-08-29 | 2010-03-11 | Toshiba It Service Kk | コンピュータリモート監視システム |
JP2010282521A (ja) * | 2009-06-08 | 2010-12-16 | Hitachi Electronics Service Co Ltd | 障害監視装置 |
JP2014082719A (ja) * | 2012-10-18 | 2014-05-08 | Mitsubishi Electric Corp | 光伝送装置 |
JP2015125496A (ja) * | 2013-12-25 | 2015-07-06 | 株式会社東芝 | 監視制御装置、及び監視制御システム |
JP2014112432A (ja) * | 2014-03-04 | 2014-06-19 | Gree Inc | メッセージ処理システム |
JP2017521802A (ja) * | 2014-05-16 | 2017-08-03 | ブル | スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ |
JP2016062340A (ja) * | 2014-09-18 | 2016-04-25 | 日本電気株式会社 | 情報処理システム、情報処理装置、情報処理方法、及び、プログラム |
JP2017184071A (ja) * | 2016-03-31 | 2017-10-05 | 日本電信電話株式会社 | 監視システム、監視方法、監視装置、および、被監視装置 |
WO2018181422A1 (ja) * | 2017-03-29 | 2018-10-04 | 京セラ株式会社 | 設備管理方法、設備管理装置及び設備管理システム |
JPWO2018181422A1 (ja) * | 2017-03-29 | 2020-02-06 | 京セラ株式会社 | 設備管理方法、設備管理装置及び設備管理システム |
JP7034139B2 (ja) | 2017-03-29 | 2022-03-11 | 京セラ株式会社 | 設備管理方法、設備管理装置及び設備管理システム |
JPWO2020105619A1 (ja) * | 2018-11-20 | 2021-10-14 | 日本電気株式会社 | 保守作業指示システム、保守作業指示方法及びプログラム |
JP7120325B2 (ja) | 2018-11-20 | 2022-08-17 | 日本電気株式会社 | 保守作業指示システム、保守作業指示方法及びプログラム |
JP7268228B1 (ja) | 2022-06-07 | 2023-05-02 | ソフトバンク株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2023179140A (ja) * | 2022-06-07 | 2023-12-19 | ソフトバンク株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP7500817B2 (ja) | 2022-06-07 | 2024-06-17 | ソフトバンク株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4102592B2 (ja) | 2008-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100417081C (zh) | 检查和修复网络配置的方法和系统 | |
JP3746395B2 (ja) | 遠隔監視システム | |
JP4995104B2 (ja) | 性能監視条件の設定・管理方法及びその方法を用いた計算機システム | |
US6651183B1 (en) | Technique for referencing failure information representative of multiple related failures in a distributed computing environment | |
JP6095140B2 (ja) | 遠隔監視システム、遠隔監視方法、及びプログラム | |
US20140188729A1 (en) | Remote notification and action system with event generating | |
GB2478625A (en) | Deleting snapshot backups for unstable virtual machine configurations | |
CA2835446A1 (en) | Data analysis system | |
JP2003330758A (ja) | 集約機能付障害情報通知システム及びマシンを集約機能付障害情報通知手段として機能させるためのプログラム | |
US8032792B2 (en) | Dynamic discovery algorithm | |
US9021078B2 (en) | Management method and management system | |
JP3916232B2 (ja) | ナレッジ型運用管理システム,方法およびプログラム | |
WO2013124947A1 (ja) | 情報システム管理装置及び情報システム管理方法及びプログラム | |
JP2007328641A (ja) | 画像形成装置の管理装置および管理方法 | |
JP2011090429A (ja) | 統合監視システム | |
JP4761978B2 (ja) | ハードディスク冗長管理装置、方法、プログラムおよび監視制御システム | |
CN117579651A (zh) | 物联网系统 | |
CN101681362B (zh) | 存储优化方法 | |
KR101641306B1 (ko) | 서버 모니터링 장치 및 이를 이용하는 서버 모니터링 방법 | |
US7739420B2 (en) | Communication error information output method, communication error information output device and recording medium therefor | |
JP2014164628A (ja) | 情報処理装置、情報処理方法および情報処理プログラム並びに統合監視サーバ及び監視システム | |
WO2020138176A1 (ja) | 監視システム、監視方法および監視プログラム | |
JP7167749B2 (ja) | 情報処理装置、情報処理システム、及び情報処理プログラム | |
JP2007164494A (ja) | 情報出力方法、システム及びプログラム | |
KR102668343B1 (ko) | 인터페이스 관리 방법, 인터페이스 거버넌스 시스템, 및 인터페이스를 관리하는, 컴퓨터로 실행가능한 프로그램을 저장하는 저장매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040426 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20041208 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041208 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080324 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110328 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4102592 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110328 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120328 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120328 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130328 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130328 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140328 Year of fee payment: 6 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |