JP5509994B2 - 障害継続監視システム、障害継続監視方法、及びその監視制御プログラム - Google Patents

障害継続監視システム、障害継続監視方法、及びその監視制御プログラム Download PDF

Info

Publication number
JP5509994B2
JP5509994B2 JP2010078163A JP2010078163A JP5509994B2 JP 5509994 B2 JP5509994 B2 JP 5509994B2 JP 2010078163 A JP2010078163 A JP 2010078163A JP 2010078163 A JP2010078163 A JP 2010078163A JP 5509994 B2 JP5509994 B2 JP 5509994B2
Authority
JP
Japan
Prior art keywords
message
agent
monitoring
manager
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010078163A
Other languages
English (en)
Other versions
JP2011211555A (ja
Inventor
雅宣 駒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010078163A priority Critical patent/JP5509994B2/ja
Publication of JP2011211555A publication Critical patent/JP2011211555A/ja
Application granted granted Critical
Publication of JP5509994B2 publication Critical patent/JP5509994B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、障害の継続運用監視システム等に係り、特に、障害監視対象である複数のエージェントから障害監視マネージャに送り込まれる通信流量を動的に制御し、各エージェントの障害を継続して円滑に監視し得るようにした障害継続監視システム、障害継続監視方法、及びその監視制御プログラムに関する。
障害継続監視システムにあっては、従来より、障害監視対象である複数のエージェントから所定のメッセージが障害監視側である障害監視マネージャにそれぞれ送り込まれ、このメッセージを監視することによって各エージェントの障害監視が円滑に成されるようになっている。
この種の障害継続監視システムにあって、その内の一のエージェントからの過多なメッセージの発生(送信)、即ちメッセージラッシュの発生(送信)があった場合には、他のエージェントに対する通常の監視業務が大幅に遅延する等、当該他のエージェントの監視に悪影響を与える事態が発生する。
かかる不都合を解消して通常の監視業務を継続させるには、従来は、多発したメッセージを破棄するか、メッセージラッシュの発生しているエージェントをマネージャから切り離すしか方法が無かった。
一方、メッセージラッシュの原因を取り除き、エージェントの状態を早期に正常に戻すためには、障害監視マネージャでの監視業務の継続が必須であり、また、このような状態であってもメッセージの取りこぼしを発生させない方法を検討する必要があった。
この種の課題に近い内容を課題とする関連技術としては、従来より下記の特許文献1乃至3が知られている。
この内、特許文献1には、端末からコール制御サーバに対して通信開始時通信開始メッセージを送ることにより端末間の通信を制御するシステムであり、コール制御サーバに対する特定の端末からのDos攻撃を防御し、他の端末の通信が阻害されるのを防ぐ技術が開示されている。
又、特許文献2には、電子メールを効果的に配信する技術が開示され、特に、電子メールの配信頻度が制限されている環境下で、電子メールの配信者にとって重要な電子メールが重要でない電子メールによって妨げられずに配信されるようにする技術が開示されている。
更に、特許文献3には、メールサーバの輻輳を当該輻輳の程度に応じて制御するとし、これによって輻輳状態にあってもサーバの処理能力とサービスを維持可能とする技術が開示されている。そして、特に、送信の輻輳制御に際して出力規制が行われている場合には、送信予定のメールをバッファに所定時間保存し送信リソースに空きがあれば送信する技術が開示されている。
特開2007−243406号公報 特開2004−318278号公報 特許第3735631号(特許公報)
しかしながら、前述した複数のエージェントを対象とした障害監視マネージャを有する障害の継続運用監視システムにあっては、前述したように一のエージェントで発生した過多なメッセージの発生・送信(以下、メッセージラッシュ)により、障害監視マネージャの処理性能やネットワーク性能を超えたメッセージが送信されてくると、当該障害監視マネージャの処理負荷が増大し、他の正常なエージェントの監視業務にも影響を及ぼすという不都合がある。
又、処理負荷が継続した場合には、メッセージの取りこぼしによるメッセージロストが発生する可能性が生じる。
更に、送られてくるメッセージの通信流量を制限させ、他の監視業務に影響を与えないように当該エージェントからのメッセージ送信を止めてしまうと、そのエージェントに対する監視が、全て出来なくなり根本的な障害の原因究明を迅速に実施することができなくなるという不都合がある。
又、上述した各特許文献1乃至3にあっては、課題解決の対象が異なっており、その技術内容も似て非なるものであり、従ってこれら特許文献1乃至3を一つにしても、何ら上記課題を解決し得るものとはなっていない。
〔発明の目的〕
本発明は、上記関連技術の有する不都合を改善し、特に、メッセージフラッシュの発生時に、エージェントからのメッセージ流量を動的に制御(制限)すると共に、送信されなかったメッセージをその後に所定のタイミングでマネージャ側にファイル転送する等の構成を採り、これによって他の監視業務に影響を与えることなく継続した障害監視を可能としメッセージロストの発生を有効に抑制した障害継続監視システム、障害継続監視方法、及びその監視制御プログラムを提供することを、その目的とする。
上記目的を達成するため、本発明にかかる障害継続監視システムは、障害監視対象である複数のエージェントから送り込まれるメッセージを受信し当該メッセージに基づいて前記各エージェント側の障害原因を究明すると共に各メッセージをエージェント毎に選別して蓄積し管理用端末に送信する障害監視マネージャを備え、この障害監視マネージャと前記複数の各エージェントとは通信回線を介して連結されてなる障害継続監視システムであって、 前記障害監視マネージャは、前記複数のエージェントの内の一のエージェントからのメッセージ流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続した場合に作動して当該一のエージェントにメッセージ送信に制御をかけるように指令するマネージャ側動作制御部を備えている。
又、前記各エージェントは、前記障害監視マネージャからの指令に応答して作動し予め設定された基準に従って送信レベルの高いメッセージを選択制御し送信するエージェント側動作制御部と、この選択に外れたメッセージを送信用として蓄積するデータファイル部とを備えている。
そして、前記マネージャ側動作制御部が、前記一のエージェントから選択され送信されてきたメッセージを同時に受信した他のエージェントのメッセージと選別して予め装備したデータファイル部に格納する選択メッセージ格納機能と、前記一のエージェントから前記選択から外れたメッセージが送信されてきた場合に当該メッセージを前記選択格納機能で選別された対応する前記メッセージに併合して出力するメッセージ併合機能とを備え
前記各エージェントが、前記選択から外れたメッセージを前記メッセージの通常の送信時に使用される通信回線に転送用として併設された他の通信回線を利用して前記障害監視マネージャに転送するファイル転送送信部を備えていることを特徴とする。
上記目的を達成するため、本発明にかかる障害継続監視方法は、
障害監視対象である複数のエージェントから送り込まれるメッセージを受信し当該メッセージに基づいて前記各エージェント側の障害原因を究明すると共に各メッセージをエージェント毎に選別して蓄積し管理用端末に送信する障害監視マネージャを備え、この障害監視マネージャと前記複数の各エージェントとは通信回線を介して連結されてなる障害継続監視システムにあって、
前記複数のエージェントの内の一のエージェントからのメッセージ流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続した場合に、前記障害監視マネージャに装備されたマネージャ側動作制御部が作動して当該一のエージェントに対してメッセージ送信に所定の制御をかけるように指令し、
前記一のエージェント側では、前記障害監視マネージャの指令に応答してエージェント側動作制御部が作動し、予め設定された基準に従って送信レベルの高いメッセージを選択制御し送信すると共にこの選択に外れたメッセージを送信用としてデータファイル部に蓄積し、
前記一のエージェント側では、所定のタイミングでファイル転送送信部が作動し、前記選択から外れたメッセージを前記メッセージの通常の送信時に使用される通信回線に転送用として併設された他の通信回線を利用して前記障害監視マネージャに転送し、
前記各一のエージェントから選択制御され送信されてきたメッセージを同時に受信した他のエージェントのメッセージと選別して予め装備したデータファイル部に格納し、その後に前記一のエージェントから前記選択から外れたメッセージが送信されてきた場合に当該メッセージを前記格納された対応する前記メッセージに併合して出力すると共に、これらの各格納動作および併合出力動作を、前記マネージャ側動作制御部が実行する構成としたことを特徴とする。
上記目的を達成するため、本発明にかかる障害継続監視プログラムは、障害監視対象である複数のエージェントから送り込まれるメッセージを受信し当該メッセージに基づいて前記各エージェント側の障害原因を究明すると共に各メッセージをエージェント毎に選別して蓄積し管理用端末に送信する障害監視マネージャを備え、この障害監視マネージャと前記複数の各エージェントとは通信回線を介して連結されてなる障害継続監視システムにあって、
前記複数のエージェントの内の一のエージェントから前記障害監視マネージャに向けて送信されたメッセージの流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続した場合に、当該一のエージェントに対してメッセージ送信に所定の制御をかけるように指令する制御指令発信機能、
前記一のエージェントから選択制御され送信されてきた場合に、メッセージを同時に受信した他のエージェントのメッセージから選別して予め装備したデータファイル部に各メッセージを格納するメッセージ選別格納機能、
及びその後に前記一のエージェントから前記選択制御によって外れたメッセージが前記メッセージの通常の送信時に使用される通信回線に転送用として併設された他の通信回線を介して送信されてきた場合に、当該メッセージを前記格納された対応する前記メッセージに併合して出力するメッセージ併合出力機能を備え、
これらを前記障害監視マネージャが備えているコンピュータに実現させるようにしたことを特徴とした障害継続監視プログラム。
上記目的を達成するため、本発明にかかる障害継続監視プログラムは、障害監視対象である複数のエージェントから送り込まれるメッセージを受信し当該メッセージに基づいて前記各エージェント側の障害原因を究明すると共に各メッセージをエージェント毎に選別して蓄積し管理用端末に送信する障害監視マネージャを備え、この障害監視マネージャと前記複数の各エージェントとは通信回線を介して連結されてなる障害継続監視システムにあって、
前記各エージェントの内の一のエージェントに前記障害監視マネージャ側からメッセージ流量の低減要求が流量制御要求として入力された場合、これを受け付ける流量制御要求受付機能、
この流量制御要求の受け付け後に発生する当該一のエージェントにおける送信対象となるメッセージ量の監視を実行するエージェント側負荷状況監視機能、
このエージェント側負荷状況監視機能が当該一のエージェントで扱うメッセージ情報の流量が予め設定した一定量を超えて且つ継続していると判定された場合に、前記障害監視マネージャの指令に応答して作動し予め設定された基準に従って送信レベルの高いメッセージを選択して送信する選択メッセージ送信制御機能、
このメッセージ選択に外れたメッセージを送信用としてデータファイル部に蓄積する外れメッセージ蓄積制御機能、
及び前記データファイル部に送信用として蓄積された外れメッセージから成るデータファイルを、前記メッセージの通常の送信時に使用される通信回線に転送用として併設された他の通信回線を利用して前記障害監視マネージャに所定のタイミングで転送する外れメッセージ転送制御機能とを備え、
これらの各機能を前記一のエージェントが予め備えているコンピュータに実現させるようにしたことを特徴とする。
本発明は上述したように構成したので、これによると、特に監視対象である複数のエージェントの内の一のエージェントのメッセージラッシュに対しては、マネージャ側動作制御部が上述したように有効に機能し、障害監視マネージャが影響を受ける事なく、他のエージェントの監視を継続して行うことができ、更に、当該一のエージェントからのメッセージ受信についてはこれを完全に止めるのではなく、送信されるメッセージのレベルを絞ることで、重要な障害の早期検出を可能にすることができるという、他に類例のない優れた効果を得ることができる。
本発明の一実施形態を示すブロック図である。 図1に開示した実施形態における各動作情報格納部に格納されている定義情報(例示的)を示す図で、図2(A)はフィルタ定義テーブルを示し、図2(B)は流量制御定義テーブルを示し、図2(C)はデータファイルを示す図表である。 図1に開示した実施形態の動作の一例を示すフローチャートである。
以下、本発明の一実施形態を図1乃至図3に基づいて説明する。
まず、本実施形態は、障害継続監視システムの継続した運用管理を実行可能としたものであり、特に、その主要部である障害監視マネージャ10が各エージェント20,20,……からの通信流量を動的に制御し、或る一のエージェント20からの通信負荷の増大によってシステム全体が悪影響を受けないように制御を行うと共に、エージェント20から送信されるメッセージのレベルを指定することで、重要なメッセージだけを受信するようにし、これによって継続した運用監視を可能としたものである。
この場合、制限を受けたメッセージは、ファイルに出力され、後の任意のタイミングで障害監視マネージャがダウンロードを行ない、先に送信した重要なメッセージと併合するようにし、これによって、メッセージの取りこぼしによるメッセージロストの発生を回避し得るようにした。
〔基本的構成〕
本実施形態において、障害継続監視システムは、図1に示すように、監視対象である複数のエージェント20,20,……と、この各エージェント20,20,……から送信されてくるメッセージ流量を障害検出を意図して監視する障害監視マネージャ10と、この障害監視マネージャ10から送り込まれる各エージェント20,20,……からの送信メッセージを取り込む管理用端末10Aとを備えている。
ここで、障害監視マネージャ10は、監視対象としている複数の全エージェント20,20,……からのメッセージ流量を監視し、或る一のエージェント20からのメッセージ流量が設定時間(単位時間)当たり予め設定した一定量を超えた状態が継続したと判断した場合にその一のエージェント20に対して、メッセージ送信に制御(送信量の低減制御)をかけるように指示を行う(指令する)。
これに対し、一のエージェント20は、障害監視マネージャ10に送信するメッセージの選別に、送信信号のレベル(量的レベル等)の概念を導入し、平常時で特に何らの指定もない場合は全てのメッセージを送信するようにする。また、障害監視マネージャ10から送信制御(送信量低減)の指示を受けた場合は、その指示に従い、送信量を抑えるように低いレベルのものからは送信を行なわない(高いレベルのメッセージを送信する)ようにする。
尚、送信メッセージのレベルは、障害監視マネージャ10に対す送信メッセージの定義を予め決めておくようにする。
このようにして、その全体の構成を設定することにより、他の正常なエージェント20の監視に影響を与えず、更に当該一のエージェント20の監視を完全に止めること無く、障害原因の究明および復旧を継続して行なえるようにすることが可能となる。
一方、送信を止めたメッセージについては、エージェント20上のデータファイルで管理を行うようにし、物理ファイルとして書き出されるようにする。
この物理ファイルのフォーマットは、障害監視マネージャ10側で管理しているメッセージログのデータファイルと同様にしておき、障害監視マネージャ10は任意のタイミングで、エージェント20からそのデータファイルをダウンロードし、障害監視マネージャ10上で管理しているログとのマージ(併合)を行なうことで、メッセージロストの防止が可能となる。
又、本実施形態では、データファイルのフォーマットを、障害監視マネージャ10とエージェント20双方で同一にしておくことで、マージ作業自体の効率化も行うようにする。ダウンロードの完了したエージェント20上のデータファイルは、ダウンロード完了確認後、削除するようにする。
〔全体構成〕
次に、本実施形態における障害継続監視システムの基本的な構成について説明する。
図1に示すように、本実施形態における障害継続監視システムは、上述したように、障害監視対象である複数のエージェント20,20,……から送り込まれるメッセージを受信し当該メッセージに基づいて前記各エージェント20側の障害原因を究明すると共に各メッセージをエージェント20毎に選別して蓄積し管理用端末10Aに送信する障害監視マネージャ10を備えている。
この障害監視マネージャ10と前記複数の各エージェント20とはインターネット上に設定された一の通信回線を介して連結されている。そして、この障害監視マネージャ10は、上記複数のエージェント20の内の一のエージェント20からのメッセージ流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続した場合に作動して、当該一のエージェント20にメッセージ送信に制御をかける(送信量の低減制御)ように指令するマネージャ側動作制御部11を備えている。
又、各エージェント20は、前記障害監視マネージャ10からの指令に応答して作動し予め設定された基準に従って送信レベルの高いメッセージを選択制御し送信するエージェント側動作制御部21と、この選択に外れたメッセージを送信用として蓄積するデータファイル部26とを備えている。
そして、前記マネージャ側動作制御部11は、更に、障害監視マネージャ10側の各構成要素各部の動作を制御する全体制御機能と、前記一のエージェント20から選択され送信されてきたメッセージを同時に受信した他のエージェントのメッセージと選別してデータファイル部14に格納する選択メッセージ格納機能と、前記一のエージェント20から前記選択から外れたメッセージが送信されてきた場合に当該メッセージを前記選択格納機能で選別された対応する前記メッセージに併合して出力させるメッセージ併合制御機能とを備えている。
ここで、上記選択メッセージ格納機能は、障害監視マネージャ10が備えているフィルタ部11Fによってその処理が実行されるようになっている。
このフィルタ部11Fは、監視対象のメッセージを選分する機能を有し、特に前述した選択され送信されてきたメッセージに限定することなく、通常状態にあって複数の各エージェント20から送られてくる監視対象のメッセージを円滑に選分して分類しデータファイル部14に格納処理する機能をも兼ね備えている。
これにより、前記一のエージェント20からの送信メッセージが量的に過多な状態(メッセージラッシュ)があっても、他のエージェント20からの送信メッセージに受信に悪影響を与えること無く、安定した状態で送信メッセージを受信し処理する事が可能となっている。
又、上記マネージャ側動作制御部11には、前記各エージェント20の負荷状況を監視する負荷状況監視部13が併設されている。この負荷状況監視部13は、前記一のエージェント20からのメッセージ流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続しているか否かを判定すると共に、その判定結果を前記マネージャ側動作制御部11に送信するメッセージ流量判定機能を備えている。
これにより、マネージャ側動作制御部11は、エージェント20からのメッセージラッシュ状態をリアルタイムで即把握することが可能となっている。
このマネージャ側動作制御部11は、前記負荷状況監視部13から前記メッセージ流量が前記一定量を超えて且つその状態が継続しているとの判定結果が入力された場合に稼働して当該負荷状況監視部13を介して前記一のエージェント20に対してメッセージ送信に制御をかける旨の指令を発信する制御指令発信機能を備えている。
これにより、メッセージラッシュ状態のエージェント20に対しては、そのメッセージ量の低減指令を直ちに伝えることが可能となっている。
又、上記マネージャ側動作制御部11には、更に、前記各エージェント20からのメッセージを受信し前記マネージャ側動作制御部11に送信すると共にこの受信した各エージェントのメッセージ流量にかかる情報を前記負荷状況監視部13に送り込むメッセージ受信部12が併設されている。このメッセージ受信部12から、前述した受信メッセージが負荷状況監視部13に直送される。
更に、前記マネージャ側動作制御部11には、前記一のエージェント20から選択から外れた前記メッセージが前述したエージェント20側から転送されてきた場合(具体的には後述する)にこれを受信するファイル転送受信部15と、このファイル転送受信部15で受信された前記選択から外れたメッセージを前記一のエージェント20から先に送信され前記データファイル部14に格納されている選択されたメッセージ部分に併合して出力するデータ併合部16とが併設されている。
これにより、前述した障害監視マネージャ10からの指令によって分離して送信した前記一のエージェント20からのメッセージが併合された状態で障害監視マネージャ10側に円滑な収集が可能となっている。
前述した一のエージェント20で前記選択から外れたメッセージの前記障害監視マネージャ10への転送は、後述するように、前記メッセージの通常の送信時に使用される通信回線に対して転送用としてインターネット上に併設された他の通信回線が利用されるようになっている。
又、上記各エージェント20が備えているエージェント側動作制御部21には、前述した障害監視マネージャ10に対して障害監視に必要なメッセージを送信するメッセージ送信部22と、前記障害監視マネージャ10からの流量制御要求を受け付ける制御指令受付部24と、この流量制御要求の受け付け後に発生するメッセージの量の監視を行う負荷状況監視部23と、前記選択に外れたメッセージで前記データファイル部26に送信用として蓄積されているデータファイルを前記障害監視マネージャ10に所定のタイミングで転送するファイル転送送信部25とが併設されている。
このファイル転送送信部25は、上記データファイル部26に送信用として蓄積されている前記選択に外れたメッセージのデータファイルを、前述した通信回線を介して障害監視マネージャ10側へ送信する機能を備えている。
又、上記エージェント側動作制御部21は、エージェント20側の各部の動作を制御すると共に、前記メッセージの送信に際して成される前記送信レベルの高いメッセージの選択動作を、予め装備したフィルタ部21Fに実行させるように構成されている。
ここで、上述した障害監視マネージャ10については、これをワークステーション等の高性能コンピュータで構成してもよい。又、エージェント20については、これをパーソナルコンピュータやワークステーション等のコンピュータで構成してもよい。更に、前述した管理用端末10Aは、インターネット等のネットワークで接続してもよい。
この管理用端末10Aへのメッセージの送信は端末通信部17を介して実行される。
〔定義テーブル等〕
更に、障害監視マネージャ10の動作制御部11における前述したフィルタ部11Fは、その動作がフィルタ定義11aによって規制されるようになっている。このフィルタ定義11aは、フィルタ定義テーブルFTとしてまとめられ、動作制御部11に併設されたフィルタ用動作情報格納部11Aに格納されている。
ここで、フィルタ定義11aとは、前述した障害監視マネージャ10が受信したメッセージに対して、そのメッセージ中のキーワード等からメッセージの分類を行うための定義を示す。
そして、この定義に従ってフィルタ部11Fが作動し、エージェント20から受信したメッセージについて分類を行い、その結果を前述したようにデータファイル部14に保存する。この場合、メッセージについての分類は、例えば、OS系のメッセージ、HW系のメッセージ、SW系のメッセージ等である。図2(A)にこれを示す。
又、前述した障害監視マネージャ10の負荷状況監視部13は、その動作が流量制御定義13aによって規制されるようになっている。この流量制御定義13aは、テーブルRT流量制御定義テーブルRTとしてまとめられ、負荷状況監視部13に併設された流量制御動作情報格納部13Aに格納されている。
ここで、流量制御定義13aとは、障害監視マネージャ10側に流入して来るメッセージに対してどの程度の流量まで受け付けるかを指定する定義を示す。
そして、この定義に従って負荷状況監視部13が作動し、エージェント20から送られて来たメッセージの流量が定義量で定めたレベルを超えているのであれば、前述したようにエージェント20側の制御指令受付部24に対して、メッセージの送信を抑えるように指令を出す。
この場合、流量制御定義13aとしては、例えば、流入可能流量、送信再開しきい値、等である。図2(B)にこれを示す。
更に、前述した障害監視マネージャ10の動作制御部11には、そのフィルタ部11Fで分類されたメッセージを保存蓄積しておくデータファイル部14が併設されている。
このデータファイル部14に格納されているデータファイルDFには、メッセージの分類毎にファイルが用意されている。例えば、OS系のメッセージだけを蓄積するファイル、HW系のメッセージだけを蓄積するファイル、SW系のメッセージだけを蓄積するファイル等であり、その分類に際しては上述したフィルタ定義11aに従って整理される。
本実施形態でフォーマットとして取り扱っているものの例を下記に示す。
(1) 分類名(フィルタ定義11aに従う)
(2) ファイルに蓄積されているメッセージ(レコード)の総件数
以下、(3)〜(7)を一つのレコードとして処理する。
(3) メッセージの重要度(正常、警告、異常など)
(4) メッセージを出力したアプリケーション情報(アプリケーション名など)
(5) メッセージが発生したエージェント名
(6) メッセージの発生日付、時刻
(7) メッセージ本文
〔全体の動作〕
次に、図3に基づいて、本実施形態における障害継続監視システムの全体的な動作を説明する。
最初に、本実施形態におけるシステムの基本的な動作内容を説明し、その後に具体的な動作を詳述する。
(基本的な動作内容)
まず、障害監視マネージャ10は、前述したように、障害監視対象である複数のエージェント20から送り込まれるメッセージを受信し当該メッセージに基づいて前記各エージェント20側の障害原因を究明すると共に、各メッセージをエージェント20毎に選別して蓄積し、その後、管理用端末10Aに送信する。この場合、障害監視マネージャと前記複数の各エージェントとは前述したように、通信回線(インターネット)を介して連結されている。
そして、複数のエージェント20,20,……の内の一のエージェント20から送り込まれるメッセージ流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続しているか否かの判定については、前記マネージャ側動作制御部11に併設された負荷状況監視部13が判定し(メッセージ量判定工程)、この判定により、前記一のエージェント20からのメッセージ流量が前記一定量を超えて且つ継続していると判定された場合には、当該一のエージェント20に対する前記マネージャ側動作制御部11からのメッセージ量低減要求にかかるメッセージ送信制御指令が、前記負荷状況監視部13を介して前記一のエージェント20に送信される(流量制御指令発信工程)。
次に、上記一のエージェント20側では、前記障害監視マネージャ10の指令に応答してエージェント側動作制御部21が作動し、予め設定された基準に従って送信レベルの高いメッセージを選択制御し送信する(メッセージ量低減制御工程)。同時に、この選択に外れたメッセージを送信用としてデータファイル部26に蓄積する(残メッセージ蓄積工程)。
続いて、前記一のエージェント20から選択制御され送信されてきたメッセージを同時に受信した他のエージェント20のメッセージとから選別した状態で予め装備したデータファイル部14に格納し、その後に前記一のエージェント20から前記選択から外れた残メッセージが送信されてきた場合に当該残メッセージを対応する前記格納されたメッセージに併合して出力する(併合処理工程)。そして、これらの各格納動作および併合出力動作を、前記マネージャ側動作制御部11が実行する構成とした。
この一のエージェント20に障害監視マネージャ10から流量制御要求が入力された場合、これを制御指令受付部24が受け付ける。そして、この流量制御要求の受け付け後に発生するメッセージの量については、これをエージェント側負荷状況監視部23が監視する。
このエージェント側負荷状況監視部23は、前記一のエージェント20で扱うメッセージ情報の流量が前記一定量を超えて且つ継続していると判定された場合には、当該一のエージェント20のエージェント側動作制御部21が、前記障害監視マネージャ10の指令に応答して作動し予め設定された基準に従って送信レベルの高いメッセージを選択して送信すると共に、当該選択に外れたメッセージを送信用としてデータファイル部26に蓄積する。そして、その後、選択に外れた前記残メッセージで前記データファイル部26に送信用として蓄積されて成るデータファイルを、ファイル転送送信部25が前記障害監視マネージャ10に所定のタイミングで転送するようにした。
(具体的な動作)
次に、上記基本的な動作内容を含めて、本実施形態の具体的な動作を説明する。
まず、障害監視マネージャ10は、複数のエージェント20,20,……から送信してくるメッセージを、メッセージ受信部12で障害監視用として常時受信し、マネージャ側動作制御部および負荷状況監視部13へ送り込む(ステップS101:メッセージ受信工程)。
負荷状況監視部13は、この送り込まれた受信メッセージを常時監視し(ステップS102:メッセージ監視工程)、障害監視マネージャ10のフィルタ部11Fの処理能力を超えた量か否かを判定する(ステップS103A:メッセージ量判定工程)。
このエージェント20から受信されるメッセージ量は、障害監視マネージャ10上で単位時間当たりに処理されているメッセージ量と、エージェントから送信されてくる単位時間当たりの流量が監視される。
そして、障害監視マネージャ10で、予め定義された流量制御定義13a(図2(B)参照)に基づいてメッセージ処理量とエージェント20からの流量とのギャップにより滞留したメッセージ数が制限範囲を超えたと負荷状況監視部13が判断した場合(フィルタ部11Fでの処理能力を超える量の送信メッセージが受信された場合)、障害監視マネージャ10からエージェント20側の制御指令受付部24に対し、流量低減にかかる要求(即ち、流量制御指令)が発信される(ステップS103B:流量制御指令発信工程)。
これに対し、受信メッセージ量がフィルタ部11Fの処理能力を超えていない場合(通常の場合)、受信メッセージはフィルタ部11Fにて、エージェント20から受信したメッセージのエージェント毎に分類し又は選別され(ステップS104A:メッセージ選別分類工程)、その後、データファイル部14に蓄積される(ステップS105A:メッセージ格納工程)。
ここで、フィルタ部11Fの選別および分類動作は、フィルタ用動作情報格納部11Aに格納されているフィルタ定義11aに基づいて実行される。ここで、フィルタ用動作情報格納部11Aに格納されているフィルタ定義11aには、前述したように、メッセージの選り分けパターンと、メッセージ毎にキーワード等によるレベルが定義されている(図2(A)参照)。
そして、この分類後(又は選別後)に蓄積されたメッセージは、端末送信部17を介して管理用端末10Aに転送される(ステップS106:メッセージ転送工程)。
この管理用端末10Aは、表示画面を予め備えており、障害監視マネージャ10から送信されるメッセージを表示画面に表示可能に構成されている。
一方、エージェント20は、その起動時に、障害監視マネージャ10と接続すると、障害監視マネージャ10側のフィルタ用動作情報格納部11Aからフィルタ定義11aを、又流量制御用動作情報格納部13Aから流量制御定義を、それぞれダウンロードし、エージェント20側のフィルタ用動作情報格納部21Aおよび流量制御用動作情報格納部23Aに、それぞれフィルタ定義21a、流量制御定義23aとして保持させる。
このエージェント20上で発生する送信用のメッセージは、エージェント側動作制御部21を通してメッセージ送信部22から障害監視マネージャ10に向けて送信される(S201:メッセージ送信工程)。ここで、エージェント側フィルタ部21Fは、通常はメッセージの選別を行なわず、発生したメッセージを全てメッセージ送信部22から送信する。
一方、送信したメッセージについてはその量が障害監視マネージャ10側の処理能力を超えている場合、当該障害監視マネージャ10から、送信メッセージに対する量の低減要求(即ち、流量制御指令)が発信されてくる。
この障害監視マネージャ10側からの流量制御指令(メッセージ量低減要求)を、エージェント20側の制御指令受付部24が受信すると(S202:制御指令受信工程)、これに対応してエージェント側動作制御部21が直ちに作動し、負荷状況監視部23に対してメッセージの発生状況の監視を指示すると共に(S203:メッセージ監視工程)、フィルタ部21Fに対して障害監視マネージャ10に向けて送信すべきメッセージの選別開始を指示する。
そして、フィルタ部21Fは、エージェント20上で発生するメッセージ情報20mについては、フィルタ定義21aでメッセージ内のキーワード等により予め定義されたレベルに従って、流量制御指令に含まれる送信レベルの高いメッセージだけを障害監視マネージャ10に対して送信するように制御を行ない(S204:メッセージ量低減制御工程)、送信しなかったメッセージ(残メッセージ)は、データファイル部26に蓄積を開始する(S205:残メッセージ蓄積工程)。
これにより、障害監視マネージャ10の処理能力を超えた量のメッセージが、一のエージェント20から障害監視マネージャ10側へ送信される不都合が解消され、障害監視マネージャ10の円滑動作が確保される。
続いて、エージェント20側の負荷状況監視部23は、エージェント20上で発生するメッセージの量を継続して監視し(S206:発生メッセージ量監視工程)、発生量が流量制御定義23aに定義されたしきい値を下回った場合に、今度は障害監視マネージャ10に対して流量制御解除要求を送信する(S207:流量制御の解除要求工程)。
この流量制御解除要求の送信に対して、これを受信した障害監視マネージャ10は、直ちに流量制御解除要求を容認して流量制御の解除を決定し(S104B:流量制御指令解除工程)、エージェント20側に制御指令の解除を通知する。
この指令解除通知が受信されると、エージェント20は、障害監視マネージャ10に対して、流量制限解除で指示されたレベル以上の蓄積したメッセージの数を通知し、その後、指示されたメッセージ以上の高いレベルのメッセージだけを障害監視マネージャ10に送信し、解除されなかった低いレベルの送信メッセージは継続してデータファイル部26にて蓄積を行なう。
一方、障害監視マネージャ10は、エージェント20から流量制御解除要求があった場合、その受信時に、当該障害監視マネージャ10側におけるメッセージ滞留数が制限範囲を下回ったとの判断が負荷状況監視部13で成されると、前述した流量制御の解除通知後に、エージェント20に対して、そのデータファイル部26に蓄積されたデータファイル(残メッセージ)に対する転送要求を送信する。
この転送要求は制御指令受付部24からエージェント側動作制御部21へ転送される。そして、これを受けたエージェント側動作制御部21は直ちに作動し、ファイル転送送信部25を介して障害監視マネージャ10側のファイル転送受信部15へ、新たな通信パスを開設する(S208:通信パス開設工程)。
エージェント20側のデータファイル部26のデータファイルは、この新たに開設されたファイル転送用の通信パスを通して障害監視マネージャ10側に一括送信される(S209:残メッセージ一括転送工程)。
この残メッセージにかかるデータファイルの転送が完了すると、ファイル転送送信部25は、ファイル転送受信部15との間の通信パスを切断し、転送の終ったデータファイル部26のデータファイルを削除する(S210:通信パス切断工程)。
そして、この一括転送されて来た残メッセージは、続いて、マネージャ側動作制御部11に指示されてデータ併合部16へ移送され、同時にマネージャ側動作制御部11は、データファイル部14から先に送り送り込まれ且つ選別されて蓄積されている送信レベルの高いメッセージ(前記残メッセージに対応するメッセージ)をデータ併合部16へ移送し、このデータ併合部16で、両者は併合処理されて元の送信量の多いメッセージに一体化される(S105B:併合処理工程)。
その後、この併合処理されたメッセージは、前述した通常のメッセージと同様に端末通信部17を通して管理用端末に転送される。
ここで、上述した各工程にあって、その実行内容をプログラム化しコンピュータに実現させるように構成してもよい。
又、上記実施形態において、エージェント20側のフィルタ部21Fで、メッセージによるメッセージの選別だけでなく、フィルタ定義部21aに含まれるメッセージの選り分け設定を使ってメッセージの選別を実行することで、障害監視マネージャ10が行なう選別処理を代替し、障害監視マネージャのメッセージフィルタ処理の負荷軽減を図るようにしてもよい。このようにすると、蓄積されたファイルの障害監視マネージャ上でのマージ処理(併合処理)も容易に行なうことが可能となる。
〔実施形態の効果〕
本発明の第一の効果は、障害監視マネージャ−エージェント構成の運用監視システムにおいて、あるエージェントからのメッセージラッシュに対して障害監視マネージャが影響を受ける事無く、他のエージェントの監視を継続して行うことができることである。
また、第二の効果は、エージェントからのラッシュの発生しているエージェントからのメッセージ受信を完全に止めるのではなく、送信されるメッセージのレベルを絞ることで重要な障害の早期検出を可能にすることができる。
上述した実施形態については、その新規な技術内容の要点をまとめると、以下のようになる。
尚、上記実施形態の一部又は全部は、新規な技術内容として以下の如くまとめられるが、本発明は必ずしもこれに限定されるものではない。
(付記1)
障害監視対象である複数のエージェントから送り込まれるメッセージを受信し当該メッセージに基づいて前記各エージェント側の障害原因を究明すると共に各メッセージをエージェント毎に選別して蓄積し管理用端末に送信する障害監視マネージャを備え、この障害監視マネージャと前記複数の各エージェントとは通信回線を介して連結されてなる障害継続監視システムであって、
前記障害監視マネージャは、前記複数のエージェントの内の一のエージェントからのメッセージ流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続した場合に作動して当該一のエージェントにメッセージ送信に制御をかけるように指令するマネージャ側動作制御部を備え、
前記各エージェントは、前記障害監視マネージャからの指令に応答して作動し予め設定された基準に従って送信レベルの高いメッセージを選択制御し送信するエージェント側動作制御部と、この選択に外れたメッセージを送信用として蓄積するデータファイル部とを備え、
前記マネージャ側動作制御部が、前記一のエージェントから選択され送信されてきたメッセージを同時に受信した他のエージェントのメッセージと選別して予め装備したデータファイル部に格納する選択メッセージ格納機能と、前記一のエージェントから前記選択から外れたメッセージが送信されてきた場合に当該メッセージを前記選択格納機能で選別された対応する前記メッセージに併合させて出力するメッセージ併合制御機能とを備えていることを特徴とした障害継続監視システム。
(付記2)
付記1に記載の障害継続監視システムにおいて、
前記マネージャ側動作制御部に、前記各エージェントの負荷状況を監視する負荷状況監視部を併設すると共に、
この負荷状況監視部が、
前記一のエージェントからのメッセージ流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続しているか否かを判定すると共にその判定結果を前記マネージャ側動作制御部に送信するメッセージ流量判定機能を有し、
前記マネージャ側動作制御部は、前記負荷状況監視部から前記メッセージ流量が前記一定量を超えて且つその状態が継続しているとの判定結果が入力された場合に稼働し当該負荷状況監視部を介して前記一のエージェントに対してメッセージ送信に制御をかける旨の指令を発信する制御指令発信機能を備えていることを特徴とした障害継続監視システム。
(付記3)
付記2に記載の障害継続監視システムにおいて、
前記マネージャ側動作制御部に、前記各エージェントからのメッセージを受信し前記マネージャ側動作制御部に送信すると共にこの受信した各エージェントのメッセージ流量にかかる情報を前記負荷状況監視部に送り込むメッセージ受信部を併設したことを特徴とした障害継続監視システム。
(付記4)
付記3に記載の障害継続監視システムにおいて、
前記マネージャ側動作制御部に、前記一のエージェントから前記選択から外れたメッセージが転送されてきた場合にこれを受信するファイル転送受信部と、このファイル転送受信部で受信された前記選択から外れたメッセージを前記一のエージェントから先に送信され前記データファイル部に格納されている選択されたメッセージと併合して出力するデータ併合部とを併設したことを特徴とする障害継続監視システム。
(付記5)
付記4に記載の障害継続監視システムにおいて、
前記一のエージェントからの前記選択から外れたメッセージの転送は、前記メッセージの通常の送信時に使用される通信回線に転送用として併設された他の通信回線を利用する構成としたことを特徴とした障害継続監視システム。
(付記6)
付記1乃至5の何れか1項に記載の障害継続監視システムにおいて、
前記各エージェントが備えている前記エージェント側動作制御部に、
前記障害監視マネージャに対して障害監視に必要な前記メッセージを送信するメッセージ送信部と、前記障害監視マネージャからの流量制御要求を受け付ける制御指令受付部と、この流量制御要求の受け付け後に発生するメッセージの量の監視を行う負荷状況監視部と、前記選択に外れたメッセージで前記データファイル部に送信用として蓄積されて成るデータファイルを前記障害監視マネージャに所定のタイミングで転送するファイル転送送信部とを併設し、
前記エージェント側動作制御部は、前記エージェント側の各部の動作を制御すると共に、前記メッセージの送信に際して成される前記送信レベルの高いメッセージの選択動作を予め装備したフィルタ部に実行させる構成としたことを特徴とした障害継続監視システム。
(付記7)
障害監視対象である複数のエージェントから送り込まれるメッセージを受信し当該メッセージに基づいて前記各エージェント側の障害原因を究明すると共に各メッセージをエージェント毎に選別して蓄積し管理用端末に送信する障害監視マネージャを備え、この障害監視マネージャと前記複数の各エージェントとは通信回線を介して連結されてなる障害継続監視システムにあって、
前記複数のエージェントの内の一のエージェントからのメッセージ流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続した場合に、前記障害監視マネージャに装備されたマネージャ側動作制御部が作動して当該一のエージェントに対してメッセージ送信に所定の制御をかけるように指令し、
前記一のエージェント側では、前記障害監視マネージャの指令に応答してエージェント側動作制御部が作動し、予め設定された基準に従って送信レベルの高いメッセージを選択制御し送信すると共にこの選択に外れたメッセージを送信用としてデータファイル部に蓄積し、
前記各一のエージェントから選択制御され送信されてきたメッセージを同時に受信した他のエージェントのメッセージと選別して予め装備したデータファイル部に格納し、その後に前記一のエージェントから前記選択から外れたメッセージが送信されてきた場合に当該メッセージを前記格納された対応する前記メッセージに併合して出力すると共に、これらの各格納動作および併合出力動作を、前記マネージャ側動作制御部が実行する構成としたことを特徴とする障害継続監視方法。
(付記8)
付記7に記載の障害継続監視方法において、
前記一のエージェントからのメッセージ流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続しているか否かの判定について、前記マネージャ側動作制御部に併設された負荷状況監視部が判定し、
この判定により、前記一のエージェントからのメッセージ流量が前記一定量を超えて且つ継続していると判定された場合には、当該一のエージェントに対する前記マネージャ側動作制御部からのメッセージ量低減要求にかかるメッセージ送信制御指令を、前記負荷状況監視部を介して前記一のエージェントに送信する構成としたことを特徴とする障害継続監視方法。
(付記9)
付記8に記載の障害継続監視方法において、
前記各エージェントからの障害監視マネージャへ送り込まれるメッセージはメッセージ受信部が受信し、
このメッセージ受信部で受信された各メッセージのメッセージ流量にかかる情報に基づいて、前記監視マネージャ側の負荷状況監視部が前記判定を実行する構成としたことを特徴とする障害継続監視方法。
(付記10)
付記9に記載の障害継続監視方法において、
前記障害監視マネージャ側に前記一のエージェントから前記選択から外れたメッセージが転送されてきた場合、ファイル転送受信部がこれを受信し、
このファイル転送受信部で受信された前記選択から外れたメッセージと前記一のエージェントから先に送信され前記データファイル部に格納されている選択されたメッセージとを併合して外部に装備された管理端末に出力する動作を、前記障害監視マネージャ側のデータ併合部が実行することを特徴とした障害継続監視方法。
(付記11)
付記10に記載の障害継続監視方法において、
前記一のエージェントに前記障害監視マネージャ側から流量制御要求が入力された場合、その受け付けを制御指令受付部が実行し、
この流量制御要求の受け付け後に発生するメッセージの量の監視をエージェント側負荷状況監視部が実行し、
このエージェント側負荷状況監視部が前記一のエージェントで扱うメッセージ情報の流量が前記一定量を超えて且つ継続していると判定された場合には、当該一のエージェントのエージェント側動作制御部が、前記障害監視マネージャの指令に応答して作動し予め設定された基準に従って送信レベルの高いメッセージを選択して送信すると共に、当該選択に外れたメッセージを送信用としてデータファイル部に蓄積し、
その後、前記選択に外れたメッセージで前記データファイル部に送信用として蓄積されて成るデータファイルを、ファイル転送送信部が前記障害監視マネージャに所定のタイミングで転送するようにしたことを特徴とする障害継続監視方法。
(付記12)
障害監視対象である複数のエージェントから送り込まれるメッセージを受信し当該メッセージに基づいて前記各エージェント側の障害原因を究明すると共に各メッセージをエージェント毎に選別して蓄積し管理用端末に送信する障害監視マネージャを備え、この障害監視マネージャと前記複数の各エージェントとは通信回線を介して連結されてなる障害継続監視システムにあって、
前記複数のエージェントの内の一のエージェントから前記障害監視マネージャに向けて送信されたメッセージの流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続した場合に、当該一のエージェントに対してメッセージ送信に所定の制御をかけるように指令する制御指令発信機能、
前記一のエージェントから選択制御され送信されてきた場合に、メッセージを同時に受信した他のエージェントのメッセージから選別して予め装備したデータファイル部に各メッセージを格納するメッセージ選別格納機能、
及びその後に前記一のエージェントから前記選択制御によって外れたメッセージが送信されてきた場合に、当該メッセージを前記格納された対応する前記メッセージに併合して出力するメッセージ併合出力機能を備え、
これらを前記障害監視マネージャが備えているコンピュータに実現させるようにしたことを特徴とした障害継続監視プログラム。
(付記13)
付記12に記載の障害継続監視プログラムにおいて、
前記一のエージェントからのメッセージ流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続しているか否かを判定するメッセージ流量判定機能、
及び前記メッセージ流量判定機能によって前記一のエージェントからのメッセージ流量が前記一定量を超えて且つ継続していると判定された場合に、当該一のエージェントに対する前記マネージャ側動作制御部からの送信メッセージ量の低減制御をメッセージ送信制御指令として前記一のエージェントに送信する制御指令発信機能を設け、
これらを前記コンピュータに実現させるようにしたことを特徴とした障害継続監視プログラム。
(付記14)
付記13に記載の障害継続監視プログラムにおいて、
障害監視対象である複数のエージェントから送り込まれるメッセージを受信し当該メッセージに基づいて前記各エージェント側の障害原因を究明すると共に各メッセージをエージェント毎に選別して蓄積し管理用端末に送信する障害監視マネージャを備え、この障害監視マネージャと前記複数の各エージェントとは通信回線を介して連結されてなる障害継続監視システムにあって、
前記各エージェントの内の一のエージェントに前記障害監視マネージャ側からメッセージ流量の低減要求が流量制御要求として入力された場合、これを受け付ける流量制御要求受付機能、
この流量制御要求の受け付け後に発生する当該一のエージェントにおける送信対象となるメッセージ量の監視を実行するエージェント側負荷状況監視機能、
このエージェント側負荷状況監視機能が当該一のエージェントで扱うメッセージ情報の流量が予め設定した一定量を超えて且つ継続していると判定された場合に、前記障害監視マネージャの指令に応答して作動し予め設定された基準に従って送信レベルの高いメッセージを選択して送信する選択メッセージ送信制御機能、
このメッセージ選択に外れたメッセージを送信用としてデータファイル部に蓄積する外れメッセージ蓄積制御機能、
及び前記データファイル部に送信用として蓄積された外れメッセージから成るデータファイルを、前記障害監視マネージャに所定のタイミングで転送する外れメッセージ転送制御機能とを備え、
これらの各機能を前記一のエージェントが予め備えているコンピュータに実現させるようにしたことを特徴とした障害継続監視プログラム。
サーバの停止やメッセージロストが許されないミッションクリティカルを重視した業務に対して運用管理を実施する全ての産業分野に、利用可能である。
10 障害監視マネージャ
10A 管理用端末
11 マネージャ側動作制御部
11A,21A フィルタ用動作情報格納部
11F,21F フィルタ部
11a,21a フィルタ定義
12 メッセージ受信部
13 マネージャ側負荷状況監視部
13A,23A 流量制御用動作情報格納部
13a,23a 流量制御定義
14,24 データファイル部
15 ファイル転送受信部
16 データ併合部
17 端末通信部
20 エージェント(一のエージェント)
21 エージェント側動作制御部
21A フィルタ用動作情報格納部
22 メッセージ送信部
23 エージェント側負荷状況監視部
24 制御指令受付部
25 ファイル転送送信部

Claims (9)

  1. 障害監視対象である複数のエージェントから送り込まれるメッセージを受信し当該メッセージに基づいて前記各エージェント側の障害原因を究明すると共に各メッセージをエージェント毎に選別して蓄積し管理用端末に送信する障害監視マネージャを備え、この障害監視マネージャと前記複数の各エージェントとは通信回線を介して連結されてなる障害継続監視システムであって、
    前記障害監視マネージャは、前記複数のエージェントの内の一のエージェントからのメッセージ流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続した場合に作動して当該一のエージェントにメッセージ送信に制御をかけるように指令するマネージャ側動作制御部を備え、
    前記各エージェントは、前記障害監視マネージャからの指令に応答して作動し予め設定された基準に従って送信レベルの高いメッセージを選択制御し送信するエージェント側動作制御部と、この選択に外れたメッセージを送信用として蓄積するデータファイル部とを備え、
    前記マネージャ側動作制御部が、前記一のエージェントから選択され送信されてきたメッセージを同時に受信した他のエージェントのメッセージと選別して予め装備したデータファイル部に格納する選択メッセージ格納機能と、前記一のエージェントから前記選択から外れたメッセージが送信されてきた場合に当該メッセージを前記選択格納機能で選別された対応する前記メッセージに併合させて出力するメッセージ併合制御機能とを備え
    前記各エージェントが、前記選択から外れたメッセージを前記メッセージの通常の送信時に使用される通信回線に転送用として併設された他の通信回線を利用して前記障害監視マネージャに転送するファイル転送送信部を備えていることを特徴とした障害継続監視システム。
  2. 請求項1に記載の障害継続監視システムにおいて、
    前記マネージャ側動作制御部に、前記各エージェントの負荷状況を監視する負荷状況監視部を併設すると共に、
    この負荷状況監視部が、
    前記一のエージェントからのメッセージ流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続しているか否かを判定すると共にその判定結果を前記マネージャ側動作制御部に送信するメッセージ流量判定機能を有し、
    前記マネージャ側動作制御部は、前記負荷状況監視部から前記メッセージ流量が前記一定量を超えて且つその状態が継続しているとの判定結果が入力された場合に稼働し当該負荷状況監視部を介して前記一のエージェントに対してメッセージ送信に制御をかける旨の指令を発信する制御指令発信機能を備えていることを特徴とした障害継続監視システム。
  3. 請求項2に記載の障害継続監視システムにおいて、
    前記マネージャ側動作制御部に、前記各エージェントからのメッセージを受信し前記マネージャ側動作制御部に送信すると共にこの受信した各エージェントのメッセージ流量にかかる情報を前記負荷状況監視部に送り込むメッセージ受信部を併設したことを特徴とした障害継続監視システム。
  4. 請求項3に記載の障害継続監視システムにおいて、
    前記マネージャ側動作制御部に、前記一のエージェントから前記選択から外れたメッセージが転送されてきた場合にこれを受信するファイル転送受信部と、このファイル転送受信部で受信された前記選択から外れたメッセージを前記一のエージェントから先に送信され前記データファイル部に格納されている選択されたメッセージと併合して出力するデータ併合部とを併設したことを特徴とする障害継続監視システム。
  5. 請求項1乃至の何れか一項に記載の障害継続監視システムにおいて、
    前記各エージェントが備えている前記エージェント側動作制御部に、
    前記障害監視マネージャに対して障害監視に必要な前記メッセージを送信するメッセージ送信部と、前記障害監視マネージャからの流量制御要求を受け付ける制御指令受付部と、この流量制御要求の受け付け後に発生するメッセージの量の監視を行う負荷状況監視部とを併設すると共に、
    前記ファイル転送送信部は、前記選択に外れたメッセージで前記データファイル部に送信用として蓄積されて成るデータファイルを前記障害監視マネージャに所定のタイミングで転送し、
    前記エージェント側動作制御部は、前記エージェント側の各部の動作を制御すると共に、前記メッセージの送信に際して成される前記送信レベルの高いメッセージの選択動作を予め装備したフィルタ部に実行させる構成としたことを特徴とした障害継続監視システム。
  6. 障害監視対象である複数のエージェントから送り込まれるメッセージを受信し当該メッセージに基づいて前記各エージェント側の障害原因を究明すると共に各メッセージをエージェント毎に選別して蓄積し管理用端末に送信する障害監視マネージャを備え、この障害監視マネージャと前記複数の各エージェントとは通信回線を介して連結されてなる障害継続監視システムにあって、
    前記複数のエージェントの内の一のエージェントからのメッセージ流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続した場合に、前記障害監視マネージャに装備されたマネージャ側動作制御部が作動して当該一のエージェントに対してメッセージ送信に所定の制御をかけるように指令し、
    前記一のエージェント側では、前記障害監視マネージャの指令に応答してエージェント側動作制御部が作動し、予め設定された基準に従って送信レベルの高いメッセージを選択制御し送信すると共にこの選択に外れたメッセージを送信用としてデータファイル部に蓄積し、
    前記一のエージェント側では、所定のタイミングでファイル転送送信部が作動し、前記選択から外れたメッセージを前記メッセージの通常の送信時に使用される通信回線に転送用として併設された他の通信回線を利用して前記障害監視マネージャに転送し、
    前記各一のエージェントから選択制御され送信されてきたメッセージを同時に受信した他のエージェントのメッセージと選別して予め装備したデータファイル部に格納し、その後に前記一のエージェントから前記選択から外れたメッセージが送信されてきた場合に当該メッセージを前記格納された対応する前記メッセージに併合して出力すると共に、これらの各格納動作および併合出力動作を、前記マネージャ側動作制御部が実行する構成としたことを特徴とする障害継続監視方法。
  7. 請求項に記載の障害継続監視方法において、
    前記一のエージェントからのメッセージ流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続しているか否かの判定について、前記マネージャ側動作制御部に併設された負荷状況監視部が判定し、
    この判定により、前記一のエージェントからのメッセージ流量が前記一定量を超えて且つ継続していると判定された場合には、当該一のエージェントに対する前記マネージャ側動作制御部からのメッセージ量低減要求にかかるメッセージ送信制御指令を、前記負荷状況監視部を介して前記一のエージェントに送信する構成としたことを特徴とする障害継続監視方法。
  8. 障害監視対象である複数のエージェントから送り込まれるメッセージを受信し当該メッセージに基づいて前記各エージェント側の障害原因を究明すると共に各メッセージをエージェント毎に選別して蓄積し管理用端末に送信する障害監視マネージャを備え、この障害監視マネージャと前記複数の各エージェントとは通信回線を介して連結されてなる障害継続監視システムにあって、
    前記複数のエージェントの内の一のエージェントから前記障害監視マネージャに向けて送信されたメッセージの流量が予め設定した単位時間当たり一定量を超えて且つその状態が継続した場合に、当該一のエージェントに対してメッセージ送信に所定の制御をかけるように指令する制御指令発信機能、
    前記一のエージェントから選択制御され送信されてきた場合に、メッセージを同時に受信した他のエージェントのメッセージから選別して予め装備したデータファイル部に各メッセージを格納するメッセージ選別格納機能、
    及びその後に前記一のエージェントから前記選択制御によって外れたメッセージが前記メッセージの通常の送信時に使用される通信回線に転送用として併設された他の通信回線を介して送信されてきた場合に、当該メッセージを前記格納された対応する前記メッセージに併合して出力するメッセージ併合出力機能を備え、
    これらを前記障害監視マネージャが備えているコンピュータに実現させるようにしたことを特徴とした障害継続監視プログラム。
  9. 障害監視対象である複数のエージェントから送り込まれるメッセージを受信し当該メッセージに基づいて前記各エージェント側の障害原因を究明すると共に各メッセージをエージェント毎に選別して蓄積し管理用端末に送信する障害監視マネージャを備え、この障害監視マネージャと前記複数の各エージェントとは通信回線を介して連結されてなる障害継続監視システムにあって、
    前記各エージェントの内の一のエージェントに前記障害監視マネージャ側からメッセージ流量の低減要求が流量制御要求として入力された場合、これを受け付ける流量制御要求受付機能、
    この流量制御要求の受け付け後に発生する当該一のエージェントにおける送信対象となるメッセージ量の監視を実行するエージェント側負荷状況監視機能、
    このエージェント側負荷状況監視機能が当該一のエージェントで扱うメッセージ情報の流量が予め設定した一定量を超えて且つ継続していると判定された場合に、前記障害監視マネージャの指令に応答して作動し予め設定された基準に従って送信レベルの高いメッセージを選択して送信する選択メッセージ送信制御機能、
    このメッセージ選択に外れたメッセージを送信用としてデータファイル部に蓄積する外れメッセージ蓄積制御機能、
    及び前記データファイル部に送信用として蓄積された外れメッセージから成るデータファイルを、前記メッセージの通常の送信時に使用される通信回線に転送用として併設された他の通信回線を利用して前記障害監視マネージャに所定のタイミングで転送する外れメッセージ転送制御機能とを備え、
    これらの各機能を前記一のエージェントが予め備えているコンピュータに実現させるようにしたことを特徴とした障害継続監視プログラム。
JP2010078163A 2010-03-30 2010-03-30 障害継続監視システム、障害継続監視方法、及びその監視制御プログラム Active JP5509994B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010078163A JP5509994B2 (ja) 2010-03-30 2010-03-30 障害継続監視システム、障害継続監視方法、及びその監視制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010078163A JP5509994B2 (ja) 2010-03-30 2010-03-30 障害継続監視システム、障害継続監視方法、及びその監視制御プログラム

Publications (2)

Publication Number Publication Date
JP2011211555A JP2011211555A (ja) 2011-10-20
JP5509994B2 true JP5509994B2 (ja) 2014-06-04

Family

ID=44942137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010078163A Active JP5509994B2 (ja) 2010-03-30 2010-03-30 障害継続監視システム、障害継続監視方法、及びその監視制御プログラム

Country Status (1)

Country Link
JP (1) JP5509994B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6115148B2 (ja) * 2013-01-23 2017-04-19 富士通株式会社 警報管理装置、通信装置、警報制御装置、警報管理方法、通信方法、警報制御方法、警報管理プログラム、通信プログラム、及び警報制御プログラム
JP2016072679A (ja) * 2014-09-26 2016-05-09 日本電気株式会社 コンピュータネットワークシステム、サーバ、及び通信制御方法
JP7010171B2 (ja) 2018-08-10 2022-01-26 日本電信電話株式会社 保守管理システムおよびデータ処理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991219A (ja) * 1995-09-28 1997-04-04 Mitsubishi Electric Corp 障害監視システム
JP2001223694A (ja) * 2000-02-07 2001-08-17 Fujitsu Ltd ネットワーク監視システム
JP2004023571A (ja) * 2002-06-18 2004-01-22 Mitsubishi Electric Corp 監視装置、監視対象装置、ネットワーク管理システムおよびメッセージ送信抑止制御方法

Also Published As

Publication number Publication date
JP2011211555A (ja) 2011-10-20

Similar Documents

Publication Publication Date Title
EP2182682B1 (en) A general flow control apparatus and method
CN109218097A (zh) 一种云平台可配置告警规则的告警系统及告警方法
CN112800017B (zh) 分布式日志采集方法、装置、介质及电子设备
EP0990349A1 (en) A telecommunications performance management system
CN111209110B (zh) 一种实现负载均衡的任务调度管理方法、系统和存储介质
CN107204875B (zh) 数据上报链路监测方法、装置、电子设备及存储介质
CN105141400A (zh) 一种高可用性集群管理方法及相关设备
CN112650575B (zh) 资源调度方法、装置和云端服务系统
JP5509994B2 (ja) 障害継続監視システム、障害継続監視方法、及びその監視制御プログラム
CN103229462A (zh) 一种最优路径选择方法、相关设备及通信系统
CN102611630B (zh) 一种报文接收控制方法及系统
CN103414739B (zh) 采用自动漂移的云服务器自动监控系统及方法
CN103338240B (zh) 监控自动漂移的云服务器自动监控系统及方法
EP1785866A1 (en) Alarm consolidaton in IT infrastructures
CN111552543A (zh) 容器管控方法及处理节点
WO2005008496A1 (en) Dynamic discovery algorithm
US8612524B2 (en) Cessation of sending network status messages to a server
CN112615901B (zh) 一种客户端发送用户请求的方法和存储系统
JP5408620B2 (ja) データ分散管理システム及びデータ分散管理方法
CN112564990A (zh) 一种用于音频管理服务器切换的管理方法
JP6091333B2 (ja) ネットワーク管理装置及びネットワーク管理方法
CN113794755A (zh) 基于微服务架构的共享服务推送方法及系统
JP2006178851A (ja) 障害監視方法、障害監視システムおよびプログラム
CN114679412B (zh) 一种流量向业务节点的转发方法、装置、设备及介质
CN112261076B (zh) 下载服务分离方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131119

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140310

R150 Certificate of patent or registration of utility model

Ref document number: 5509994

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150