JP2011209789A - 管理方法および管理装置 - Google Patents

管理方法および管理装置 Download PDF

Info

Publication number
JP2011209789A
JP2011209789A JP2010074197A JP2010074197A JP2011209789A JP 2011209789 A JP2011209789 A JP 2011209789A JP 2010074197 A JP2010074197 A JP 2010074197A JP 2010074197 A JP2010074197 A JP 2010074197A JP 2011209789 A JP2011209789 A JP 2011209789A
Authority
JP
Japan
Prior art keywords
monitoring
probe device
unit
content
probe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010074197A
Other languages
English (en)
Other versions
JP5554112B2 (ja
Inventor
Yu Takashima
悠 高島
Ryo Ohira
亮 大平
Kenichiro Abe
健一郎 安部
Ryo Okayama
亮 岡山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2010074197A priority Critical patent/JP5554112B2/ja
Publication of JP2011209789A publication Critical patent/JP2011209789A/ja
Application granted granted Critical
Publication of JP5554112B2 publication Critical patent/JP5554112B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

【課題】プローブによる監視を実行する場合に、プローブに障害が発生しても、簡易にかつスムーズに監視を継続させる技術を提供する。
【解決手段】記憶部38は、第1監視テーブル40と第2監視テーブル42とを記憶する。監視部26は、第1監視プローブ装置および第2監視プローブ装置の動作を監視する。修正部34は、監視によって第2監視プローブ装置の異常を検出した場合、第2監視テーブル42の監視内容を反映させるように、第1監視テーブル40の監視内容を修正する。指示部36は、修正した第1監視テーブル40にしたがった監視を第1監視プローブ装置に指示する。
【選択図】図2

Description

本発明は、管理技術に関し、特にネットワークを介して接続された機器の動作状況を管理する管理方法および管理装置に関する。
従来では、各種システムの運用管理、例えば、システムの稼働状況やリソースを監視することによって、システムを正常に稼働させるための運用管理が行われている。そこでは、中央演算処理装置(CPU)の使用率やメモリ容量等が監視されるとともに、システムを構成する装置の一部に障害が発生したことが検知される。このようなシステムの高信頼性を実現するために、ハードウエアの構成が二重化されている。例えば、システムを構成する一部のハードウエアに障害が発生しても、システム全体の処理が停止することなく稼働を継続することができるように、複数の端末を組み合わせてひとつの端末として扱うようにしたクラスタ構成が採用されている。クラスタ構成によるシステムの一部に障害が発生した場合に、システムの処理およびシステムに対する監視が確実に継続されるように次のような処理がなされている。
管理対象システムにはネットワークを介して、当該管理対象システムの運用を管理する管理システムが接続されている。管理対象システムには、管理対象システムとしての処理を行う現用ノード、現用ノードにおいて障害が発生した際に備えて待機している待機ノード、現用ノードおよび待機ノードとの共有データを記憶する共有データ記憶部が含まれている。また、共有データ記憶部は、管理対象システムを監視するエージェントを常駐させ、現用ノードは、現用ノードを監視するエージェントを常駐させ、待機ノードは、待機ノードを監視するエージェントを常駐させている。各エージェントは、それぞれ管理システムからの制御にもとづいて監視を行い、監視状況を管理システムに対して通知する(例えば、特許文献1)。
特開2004−126982号公報
エージェントによって、ノード等のネットワーク機器を監視させることが可能であるが、プローブによっても、ノード等のネットワーク機器を監視させることが可能である。エージェントは、ネットワーク機器の内部に組み込まれて、当該ネットワーク機器の状態を監視しているのに対して、プローブは、ネットワーク機器の外部から、当該ネットワーク機器の状態を監視している。そのため、プローブによる監視の方が、エージェントによる監視よりも、ネットワーク機器の処理量が低減する。一般的に、監視対象のネットワーク機器をひとつのプローブが監視する。また、ひとつの監視対象のネットワーク機器に対して複数のプローブを設定する場合、各プローブの設定は異なっており、複数の障害状態を検出することが目的とされている。
プローブの監視においてプローブに障害が発生した場合に、監視の設定を手動で引き継ぐ必要があり、対応している間はサービスレベルが低下する。また、どのプローブに設定を引き継ぐかを担当者が確認する必要がある。ひとつの監視対象のネットワーク機器に対して複数のプローブを設定する場合、すべてのセカンダリプローブに対して、プライマリプローブと同じように監視設定を設定する必要があり手間がかかる。また定義の内容について変更があるたびに同期を取る必要がある。一方、プローブを冗長化して耐障害性を向上させる場合は、セカンダリのプローブに対して、プライマリのプローブと同一の監視内容を設定する必要性があり、リソースの有効活用ができない。
本発明はこうした状況に鑑みてなされたものであり、その目的は、プローブによる監視を実行する場合に、プローブに障害が発生しても、簡易にかつスムーズに監視を継続させる技術を提供することである。
上記課題を解決するために、本発明のある態様の管理装置は、ひとつの以上のネットワーク機器を監視すべき第1監視プローブ装置における監視内容が規定された第1監視テーブルと、第1監視プローブ装置において監視されているネットワーク機器とは別のネットワーク機器をひとつ以上監視すべき第2監視プローブ装置における監視内容が規定された第2監視テーブルとを記憶する記憶部と、記憶部において記憶した第1監視テーブルに規定された監視内容にしたがった監視結果を第1監視プローブ装置から受けつけるとともに、記憶部において記憶した第2監視テーブルに規定された監視内容にしたがった監視結果を第2監視プローブ装置から受けつける受付部と、受付部において監視結果を受けつけるべき第1監視プローブ装置および第2監視プローブ装置の動作を監視する監視部と、監視部における監視によって第2監視プローブ装置の異常を検出した場合、記憶部において記憶した第2監視テーブルの監視内容を反映させるように、記憶部において記憶した第1監視テーブルの監視内容を修正する修正部と、修正部において修正した第1監視テーブルにしたがった監視を第1監視プローブ装置に指示する指示部とを備える。受付部は、指示部での指示に応じて、修正した第1監視テーブルに規定された監視内容にしたがった監視結果を第1監視プローブ装置から受けつける。
修正部は、第2監視テーブルの監視内容を反映させるように、第1監視テーブルの監視内容を修正することによって、第1監視プローブ装置の処理量が許容値を超える場合、監視内容の処理量を許容値まで低減させてもよい。
記憶部において記憶した第1監視テーブルおよび第2監視テーブルに規定された各監視内容には優先順位が付与されており、修正部は、優先順位の低い監視内容から処理量を低減させてもよい。
修正部は、処理量を低減させても、処理量が許容値を超える場合、監視内容の少なくとも一部を停止させてもよい。
修正部は、第2監視テーブルの監視内容を反映させるように、第1監視テーブルの監視内容を修正することによって、第1監視プローブ装置の処理量が許容値を超える場合、監視内容の少なくとも一部を停止させてもよい。
記憶部において記憶した第1監視テーブルに規定された監視内容には、第2監視プローブ装置を監視することが含まれていてもよい。
本発明の別の態様は、管理方法である。この方法は、ひとつの以上のネットワーク機器を監視すべき第1監視プローブ装置における監視内容が規定された第1監視テーブルと、第1監視プローブ装置において監視されているネットワーク機器とは別のネットワーク機器をひとつ以上監視すべき第2監視プローブ装置における監視内容が規定された第2監視テーブルとがメモリに記憶されており、第1監視テーブルに規定された監視内容にしたがった監視結果を第1監視プローブ装置から受けつけるとともに、第2監視テーブルに規定された監視内容にしたがった監視結果を第2監視プローブ装置から受けつけるステップと、監視結果を受けつけるべき第1監視プローブ装置および第2監視プローブ装置の動作を監視するステップと、監視によって第2監視プローブ装置の異常を検出した場合、メモリにおいて記憶した第2監視テーブルの監視内容を反映させるように、メモリにおいて記憶した第1監視テーブルの監視内容を修正するステップと、修正した第1監視テーブルにしたがった監視を第1監視プローブ装置に指示するステップと、指示に応じて、修正した第1監視テーブルに規定された監視内容にしたがった監視結果を第1監視プローブ装置から受けつけるステップと、を備える。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、プローブによる監視を実行する場合に、プローブに障害が発生しても、簡易にかつスムーズに監視を継続できる。
本発明の実施例に係る監視システムの構成を示す図である。 図1の監視マネージャ装置の構成を示す図である。 図3(a)−(b)は、図2の記憶部に記憶された第1監視テーブルと第2監視テーブルとのデータ構造を示す図である。 図2の記憶部に記憶されたプローブ情報のデータ構造を示す図である。 図5(a)−(b)は、図2の記憶部に記憶された第1監視テーブルのデータ構造を示す図である。 図2の記憶部に記憶されたプローブ情報のデータ構造を示す図である。 図1の監視プローブ装置の構成を示す図である。 図1の監視システムにおける監視手順を示すシーケンス図である。 図1の監視システムにおける報告手順を示すシーケンス図である。 図1の監視システムにおける変更手順を示すシーケンス図である。 図2の監視マネージャ装置における変更手順を示すフローチャートである。 本発明の変形例に係る監視システムにおける変更手順を示すシーケンス図である。 本発明の変形例に係る監視マネージャ装置における変更手順を示すフローチャートである。
本発明を具体的に説明する前に、概要を述べる。本発明の実施例は、複数の監視プローブ装置と、それらを管理するための監視マネージャ装置とによって構成される監視システムに関する。複数の監視プローブ装置のそれぞれは、互いに異なったネットワーク機器の状態を監視することによって、監視情報を収集する。ネットワーク機器の一例は、サーバである。監視マネージャ装置は、監視プローブ装置から監視情報を取得する。さらに、監視マネージャ装置は、監視プローブ装置の稼働を監視する。監視マネージャ装置は、所定の監視プローブ装置からの応答を定期的に受けつけることによって、当該監視プローブ装置の稼働を確認する。
所定の監視プローブ装置からの応答が途絶えた場合、監視マネージャ装置は、別の監視プローブ装置を特定する。ここでは、別の監視プローブ装置を第1監視プローブ装置とし、所定の監視プローブ装置を第2プローブ装置であるとする。監視マネージャ装置は、第2監視プローブ装置にて監視すべき項目(以下、監視すべき項目のひとつあるいは複数を「監視内容」という)を引き継がせるように、第1監視プローブ装置での監視内容を修正する。また、第1監視プローブ装置が、第2監視プローブ装置の監視内容を引き継いだ場合、第1監視プローブ装置における監視内容が許容値を超えれば、監視レベルを落として監視を継続させる。
図1は、本発明の実施例に係る監視システム100の構成を示す。監視システム100は、ユーザ端末装置10、ネットワーク12、監視マネージャ装置14、監視プローブ装置16と総称される第1監視プローブ装置16a、第2監視プローブ装置16b、ネットワーク機器18と総称される第1ネットワーク機器18a、第2ネットワーク機器18b、第3ネットワーク機器18c、第4ネットワーク機器18d、第5ネットワーク機器18eを含む。また、第1監視プローブ装置16aと第2監視プローブ装置16bは、プローブグループ110としてグループ化される。
ネットワーク機器18は、サーバ等に相当し、所定の処理を実行する。ネットワーク機器18においてなされる処理は公知の技術でよいので、ここでは説明を省略する。監視プローブ装置16は、ネットワーク機器18に接続され、ネットワーク機器18の状態を監視する。ネットワーク機器18の状態とは、例えば、CPU使用率、プロセス数、ディスク容量、ノード生死等である。監視プローブ装置16が監視すべき項目、つまり前述の監視内容は、監視テーブルとして規定されており、監視テーブルは監視プローブ装置16内に記憶されている。また、ネットワーク機器18は、監視した結果を監視情報として監視マネージャ装置14へ出力する。
ここでは、監視プローブ装置16として、第1監視プローブ装置16aと第2監視プローブ装置16bとが設けられており、これらはプローブグループ110としてグループ化される。第1監視プローブ装置16aの監視対象は、第1ネットワーク機器18a、第2ネットワーク機器18b、第3ネットワーク機器18cであり、第2監視プローブ装置16bの監視対象は、第4ネットワーク機器18d、第5ネットワーク機器18eである。つまり、ふたつの監視プローブ装置16は、互いに異なったネットワーク機器18を監視する。
監視マネージャ装置14は、各監視プローブ装置16に接続される。監視マネージャ装置14は、監視テーブルを生成するとともに、監視テーブルを記憶する。また、監視マネージャ装置14は、監視テーブルを各監視プローブ装置16へ送信することによって、各監視プローブ装置16での監視内容を指定する。ここでは、第1監視プローブ装置16aに送信すべき監視テーブルを「第1監視テーブル」といい、第2監視プローブ装置16bgに送信すべき監視テーブルを「第2監視テーブル」というものとする。また、監視マネージャ装置14は、監視テーブルにもとづく監視の指示に対する応答として、各監視プローブ装置16から監視情報を受けつける。監視マネージャ装置14は、監視情報を記憶する。
さらに、監視マネージャ装置14は、各監視プローブ装置16から、当該監視プローブ装置16が稼働していることを示した情報(以下、「稼働報告」という)を定期的に受けつける。監視マネージャ装置14は、稼働報告を受けつけることによって、監視プローブ装置16が正常に稼働していることを確認する。監視マネージャ装置14は、ネットワーク12を介してユーザ端末装置10にも接続される。ユーザ端末装置10は、ユーザからの指示を受けつけ、受けつけた指示をネットワーク12経由で監視マネージャ装置14へ出力する。受けつけた指示の一例が監視内容についての指示であり、監視マネージャ装置14は、当該指示をもとに監視テーブルを生成する。また、ユーザ端末装置10は、ネットワーク12経由で監視マネージャ装置14から、監視情報を受けつける。ユーザ端末装置10は、図示しないモニタに監視情報を表示する。
監視マネージャ装置14は、所定の監視プローブ装置16、例えば、第2監視プローブ装置16bから、所定の期間にわたって稼働報告を受けつけていないことを検出する。その結果、監視マネージャ装置14は、第2監視プローブ装置16bの故障を推定する。監視マネージャ装置14は、故障を推定すると、監視プローブ装置16の切替を実行する。具体的には、第2監視テーブルの内容を第1監視テーブルに追加することによって、第1監視テーブルを修正する。監視マネージャ装置14は、修正した第1監視テーブルを第1監視プローブ装置16aへ出力する。第1監視プローブ装置16aは、修正した第1監視テーブルにしたがって監視を実行する。その結果、第1監視プローブ装置16aは、第1ネットワーク機器18aから第5ネットワーク機器18eを監視する。つまり、第1監視プローブ装置16aは、第2監視プローブ装置16bでの監視内容を引き継ぐ。
図2は、監視マネージャ装置14の構成を示す。監視マネージャ装置14は、通信部20、制御部22、通常動作部24、監視部26、故障時動作部28、記憶部38を含む。また、通常動作部24は、受付部30、処理部32を含み、故障時動作部28は、修正部34、指示部36を含み、記憶部38は、第1監視テーブル40、第2監視テーブル42、プローブ情報44を含む。
記憶部38は、デジタルデータを記憶可能な記憶媒体であり、例えば、ハードディスクに相当する。記憶部38は、デジタルデータとして、第1監視テーブル40、第2監視テーブル42、プローブ情報44、監視情報を記憶する。第1監視テーブル40は、ひとつの以上のネットワーク機器18、例えば、図1の第1ネットワーク機器18aから第3ネットワーク機器18cを監視すべき第1監視プローブ装置16aにおける監視内容を示す。第2監視テーブル42は、第1監視プローブ装置16aにおいて監視されているネットワーク機器18とは別のネットワーク機器18をひとつ以上監視すべき第2監視プローブ装置16bにおける監視内容を示す。別のネットワーク機器18は、図1の第4ネットワーク機器18d、第5ネットワーク機器18eに相当する。前述のごとく、第1監視テーブル40および第2監視テーブル42は、図示しないユーザ端末装置10からの指示をもとに生成される。
図3(a)−(b)は、記憶部38に記憶された第1監視テーブル40と第2監視テーブル42とのデータ構造を示す。図3(a)が第1監視テーブル40に相当し、図3(b)が第2監視テーブル42に相当する。第1監視テーブル40には、監視対象欄200、監視項目欄202、詳細項目欄204、監視間隔欄206、優先順位欄208が含まれる。監視対象欄200には、第1監視プローブ装置16aが監視すべきネットワーク機器18が示される。監視項目欄202には、監視の種類が示される。通常、基本監視が選択されている。基本監視の他に、緊急監視等が設けられてもよいが、ここでは説明を省略する。
詳細項目欄204には、監視すべき項目が示されており、これらは、前述のネットワーク機器18の状態に相当する。監視間隔欄206には、監視の間隔が示されている。優先順位欄208には、各項目に対する優先順位が示されている。ここで、優先順位の値が小さいほど、優先順位が高いとする。また、第2監視テーブル42も同様に示される。また、優先順位は、第1監視テーブル40と第2監視テーブル42とにおいて、重複しないように付与されている。なお、第1監視テーブル40における優先順位と、第2監視テーブル42における優先順位とが別々に付与されてもよい。図2に戻る。
プローブ情報44は、各監視プローブ装置16の処理状況が示される。処理状況とは、監視プローブ装置16の稼働状況ともいえる。図4は、記憶部38に記憶されたプローブ情報44のデータ構造を示す。図示のごとく、プローブ名欄220、処理量欄222、引継量欄224、許容値欄226、稼働状況欄228が含まれる。プローブ名欄220には、管理対象となる監視プローブ装置16が示される。処理量欄222には、各監視プローブ装置16での処理量が示されている。ここでは、図3(a)−(b)でのひとつの項目を1分間隔で監視する場合の処理量を「1」と定義する。そのため、ひとつの項目を2分間隔で監視する場合、処理量は「0.5」になる。
第1監視プローブ装置16aに対する処理量は、第1監視テーブル40に示された各項目に対して、上記の計算を行った結果である。第2監視プローブ装置16bに対する処理量も同様に導出される。引継量欄224は、初期の状態において「0」である。引継量欄224の詳細は後述する。許容値欄226には、各監視プローブ装置16において処理可能な処理量の上限値である。例えば、第1監視プローブ装置16aの許容値は「10」であり、処理量は「7.5」であるので、現在の処理量は許容値を超えていない。稼働状況欄228には、各監視プローブ装置16が稼働しているか否かが示される。稼働している場合、「稼働中」が示され、稼働していない場合、「非稼働」が示される。図2に戻る。
通信部20は、ネットワーク12と接続されることによって、ユーザ端末装置10と通信するとともに、監視プローブ装置16とも通信する。その結果、通信部20は、ユーザ端末装置10へ信号を送信したり、ユーザ端末装置10からの信号を受信したりする。また、通信部20は、監視プローブ装置16へ信号を送信したり、監視プローブ装置16からの信号を受信したりする。制御部22は、監視マネージャ装置14全体の処理を制御する。また、制御部22は、通信部20からの信号を受けつけ、信号の内容に応じて、通常動作部24、監視部26、故障時動作部28のいずれかへ信号を出力する。さらに、制御部22は、通常動作部24、監視部26、故障時動作部28から信号を受けつけ、通信部20へ出力する。
受付部30は、通信部20、制御部22を介して、各監視プローブ装置16からの監視情報を受けつける。ここで、監視情報を受けつけるまでの監視プローブ装置16の処理の概要を説明する。監視プローブ装置16は、監視テーブルを記憶する。例えば、第1監視プローブ装置16aは、第1監視テーブル40を記憶し、第2監視プローブ装置16bは、第2監視テーブル42を記憶する。各監視プローブ装置16は、記憶した監視テーブルの内容にしたがって、ネットワーク機器18を監視する。
図3(a)−(b)のごとく、監視は定期的になされる。監視プローブ装置16は、監視結果を監視情報として監視マネージャ装置14へ出力する。そのため、受付部30は、第1監視テーブル40に規定された監視内容にしたがった監視情報を第1監視プローブ装置16aから受けつけるとともに、第2監視テーブル42に規定された監視内容にしたがった監視情報を第2監視プローブ装置16bから受けつける。受付部30は、監視情報を処理部32へ出力する。
処理部32は、受付部30からの監視情報を受けつける。処理部32は、監視情報を記憶部38に記憶するとともに、監視情報をもとに監視処理を実行する。例えば、処理部32は、監視情報に含まれた結果をネットワーク機器18ごとに分類し、各ネットワーク機器18に対する結果をしきい値と比較する。処理部32は、しきい値と比較して悪化した結果を抽出する。例えば、処理部32は、しきい値よりも高くなったCPU使用率を抽出する。処理部32は、抽出した結果を制御部22へ出力する。制御部22は、通信部20、ネットワーク12を介して、抽出結果をユーザ端末装置10へ出力する。ユーザ端末装置10は、抽出結果をモニタに表示することによって、ネットワーク機器18の動作状態をユーザに通知する。
監視部26は、第1監視プローブ装置16aおよび第2監視プローブ装置16bの動作を監視する。具体的に説明すると、各監視プローブ装置16は、稼働している場合に、監視マネージャ装置14へ稼働報告を定期的に送信する。監視部26は、稼働報告を定期的に受けつけることによって、監視プローブ装置16が正常に稼働していることを確認する。一方、所定の期間にわたって稼働報告を受けつけていない監視プローブ装置16が存在する場合、監視部26は、当該監視プローブ装置16の異常、つまり故障を検出する。例えば、第2監視プローブ装置16bの故障が検出されるとする。なお、このような稼働の監視は、前述のネットワーク機器18の監視とは別になされる。監視部26は、故障を検出すると、第2監視プローブ装置16bでの監視内容を第1監視プローブ装置16aへ引き継がせる旨の指示(以下、「変更指示」という)を修正部34へ出力する。ここで、変更指示の内容として、故障した監視プローブ装置16から、引継対象となる監視プローブ装置16への対応が予め定められているとする。
修正部34は、監視部26から、変更指示を受けつける。修正部34は、記憶部38において記憶した第2監視テーブル42の監視内容を反映させるように、記憶部38において記憶した第1監視テーブル40の監視内容を修正する。ここで、修正部34は、第2監視テーブル42の監視内容を反映させるように、第1監視テーブル40の監視内容を修正することによって、第1監視プローブ装置16aの処理量が許容値を超える場合、監視内容の処理量を許容値まで低減させる。例えば、修正部34は、優先順位の低い監視内容から処理量を低減させる。処理量を低減させるために、監視間隔が延長される。これは、監視頻度を低減することに相当する。さらに、修正部34は、処理量を低減させても、処理量が許容値を超える場合、監視内容の少なくとも一部を停止させる。
図5(a)−(b)は、記憶部38に記憶された第1監視テーブル40のデータ構造を示す図である。図5(a)は、図3(a)と同一である。一方、図5(b)は、図3(b)の第2監視テーブル42から第1監視テーブル40へ追加される監視内容である。図6の処理量欄222に示したように、修正前の第1監視プローブ装置16aの処理量は「7.5」であり、修正前の第2監視プローブ装置16bの処理量は「5」である。そのため、第2監視テーブル42を第1監視テーブル40に結合しただけでは、処理量が「12.5」になる。その結果、結合した処理量は、第1監視プローブ装置16aの許容値よりも大きくなる。修正部34は、優先順位の低い項目の処理量を低減させるために、優先順位の低い項目の監視間隔を2倍にする。図5(b)の優先順位「10」から「15」の項目の監視間隔は、図3(b)の優先順位「10」から「15」の項目の監視間隔の2倍にされている。その結果、処理量が「10」になり、許容値に等しくなる。
図6は、記憶部38に記憶されたプローブ情報44のデータ構造を示す。これは、修正部34によって図5(a)−(b)のように第1監視テーブル40が修正された場合のプローブ情報44である。稼働状況欄228において、第2監視プローブ装置16bが「非稼働」に変更されている。また、引継量欄224において、第1監視プローブ装置16aの引継量が「10」にされている。これは、修正された第1監視テーブル40での処理量に相当する。図2に戻る。修正部34は、修正した第1監視テーブル40を指示部36へ出力する。
指示部36は、修正部34から、修正した第1監視テーブル40を受けつける。指示部36は、制御部22、通信部20を介して、修正した第1監視テーブル40を第1監視プローブ装置16aへ出力する。これは、修正した第1監視テーブル40にしたがった監視を第1監視プローブ装置16aに指示することに相当する。第1監視プローブ装置16aは、修正した第1監視テーブル40にしたがって監視を実行する。受付部30は、指示部36での指示に応じて、修正した第1監視テーブル40に規定された監視内容にしたがった監視情報を第1監視プローブ装置16aから受けつける。この処理は、修正前と同様であるので、ここでは説明を省略する。
この構成は、ハードウエア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
図7は、監視プローブ装置16の構成を示す。監視プローブ装置16は、通信部60、処理部62、記憶部64、制御部66を含む。通信部60は、監視マネージャ装置14と通信するとともに、ネットワーク機器18とも通信する。その結果、通信部60は、監視マネージャ装置14へ信号を送信したり、監視マネージャ装置14からの信号を受信したりする。また、通信部60は、ネットワーク機器18へ信号を送信したり、ネットワーク機器18からの信号を受信したりする。
処理部62は、ネットワーク機器18の監視を実行する。前提として、処理部62は、通信部60を介して、監視プローブ装置16から監視テーブルを受けつけ、監視テーブルを記憶部64に記憶する。記憶部64に記憶された監視テーブルは、処理部62での監視に使用される。具体的に説明すると、処理部62は、監視テーブルに示された監視間隔ごとに、監視内容の出力を要求するための信号を生成し、通信部60を介して信号をネットワーク機器18へ出力する。その後、処理部62は、ネットワーク機器18から、通信部60を介して監視結果を受けつける。処理部62は、通信部60を介して、監視結果を監視情報として監視マネージャ装置14へ出力する。また、処理部62は、所定間隔で稼働報告を生成し、通信部60を介して、稼働報告を監視マネージャ装置14へ出力する。制御部66は、監視プローブ装置16全体の処理を制御する。
以上の構成による監視システム100の動作を説明する。図8は、監視システム100における監視手順を示すシーケンス図である。第1監視プローブ装置16aは、第1ネットワーク機器18aから第3ネットワーク機器18cを監視する(S10)。第1監視プローブ装置16aは、監視情報を監視マネージャ装置14へ出力する(S12)。監視マネージャ装置14は、第1監視プローブ装置16aからの監視情報を受けつける(S14)。第2監視プローブ装置16bは、第4ネットワーク機器18d、第5ネットワーク機器18eを監視する(S16)。第2監視プローブ装置16bは、監視情報を監視マネージャ装置14へ出力する(S18)。監視マネージャ装置14は、第2監視プローブ装置16bからの監視情報を受けつける(S20)。監視マネージャ装置14は、監視情報をもとにした警告を生成し、警告をユーザ端末装置10へ出力する(S22)。ユーザ端末装置10は、監視マネージャ装置14からの警告を受けつけ(S24)、警告をモニタに表示する(S26)。
図9は、監視システム100における報告手順を示すシーケンス図である。第1監視プローブ装置16aは、稼働報告を監視マネージャ装置14へ出力する(S40)。監視マネージャ装置14は、第1監視プローブ装置16aからの稼働報告を受けつける(S42)。第2監視プローブ装置16bは、稼働報告を監視マネージャ装置14へ出力する(S44)。監視マネージャ装置14は、第2監視プローブ装置16bからの稼働報告を受けつける(S46)。監視マネージャ装置14は、第1監視プローブ装置16aおよび第2監視プローブ装置16bからの稼働報告をもとに、両者の稼働を確認する。
図10は、監視システム100における変更手順を示すシーケンス図である。第1監視プローブ装置16aは、稼働報告を監視マネージャ装置14へ出力する(S120)。監視マネージャ装置14は、第1監視プローブ装置16aからの稼働報告を受けつける(S122)。監視マネージャ装置14は、第2監視プローブ装置16bの故障を検出する(S124)。監視マネージャ装置14は、第2監視プローブ装置16bから第1監視プローブ装置16aへの引継を決定する(S126)。監視マネージャ装置14は、第1監視テーブル40の内容を修正する(S128)。監視マネージャ装置14は、第1監視テーブル40を第1監視プローブ装置16aへ出力する(S130)。第1監視プローブ装置16aは、第1監視テーブル40にしたがって監視内容を変更する(S132)。
図11は、監視マネージャ装置14における変更手順を示すフローチャートである。一定期間にわたって稼働報告を受けつけていない監視プローブ装置16があれば(S150のY)、監視部26は故障を検出する(S152)。修正部34は、引継を決定する(S154)。修正部34は、監視テーブルを合成する(S156)。処理量が許容値を超えていれば(S158のY)、修正部34は、監視頻度を低減する(S160)。処理量が許容値を超えていれば(S162のY)、修正部34は一部の項目の監視を停止する(S164)。処理量が許容値を超えていなければ(S162のN)、ステップ164はスキップされる。処理量が許容値を超えていなければ(S158のN)、ステップ160からステップ164はスキップされる。指示部36は、変更を指示する(S166)。一定期間にわたって稼働報告を受けつけていない監視プローブ装置16がなければ(S150のN)、ステップ152からステップ166はスキップされる。
次に変形例を説明する。実施例における監視マネージャ装置14は、監視プローブ装置16の故障を検出すると、監視テーブルを自動的に修正する。一方、変形例における監視マネージャ装置14は、監視プローブ装置16の故障を検出すると、監視マネージャ装置14は、推定結果、つまり故障の検出をネットワーク12経由でユーザ端末装置10へ通知する。ユーザ端末装置10は、故障した監視プローブ装置16、例えば、第2監視プローブ装置16bが故障した旨をユーザに通知する。通知は、モニタへの表示や、スピーカからの音声主力によってなされる。ユーザ端末装置10は、ユーザから、監視プローブ装置16の切替指示を受けつけ、ネットワーク12を介して、切替指示を監視マネージャ装置14へ出力する。ユーザの確認をもとに引継がなされるので、引継を確実に実行できる。
変形例における監視システム100の構成は、図1と同様のタイプであり、監視マネージャ装置14の構成は、図2と同様のタイプであり、監視プローブ装置16の構成は、図7と同様のタイプである。以下では、差異を中心に説明する。図2の監視部26は、検出結果を制御部22へ出力する。制御部22は、通信部20、ネットワーク12を介して、検出結果をユーザ端末装置10へ出力する。ユーザ端末装置10は、検出結果をモニタに表示することによって、監視プローブ装置16の故障をユーザに通知する。第2監視プローブ装置16bの故障が通知された場合、ユーザは、これを確認し、変更指示をユーザ端末装置10に入力する。ユーザ端末装置10は、ネットワーク12を介して、監視マネージャ装置14へ変更指示を送信する。
図12は、監視システム100における変更手順を示すシーケンス図である。第1監視プローブ装置16aは、稼働報告を監視マネージャ装置14へ出力する(S60)。監視マネージャ装置14は、第1監視プローブ装置16aからの稼働報告を受けつける(S62)。一方、第2監視プローブ装置16bは、稼働していないので、稼働報告を出力しない。監視マネージャ装置14は、第2監視プローブ装置16bの故障を検出する(S64)。監視マネージャ装置14は、故障検出をユーザ端末装置10へ通知する(S66)。ユーザ端末装置10は、故障検出を表示する(S68)。ユーザ端末装置10は、ユーザから、第1監視プローブ装置16aへの引継の指示を受けつける(S70)。ユーザ端末装置10は、変更指示を監視マネージャ装置14へ出力する(S72)。監視マネージャ装置14は、第1監視テーブル40の内容を修正する(S74)。監視マネージャ装置14は、第1監視テーブル40を第1監視プローブ装置16aへ出力する(S76)。第1監視プローブ装置16aは、第1監視テーブル40にしたがって監視内容を変更する(S78)。
図13は、監視マネージャ装置14における変更手順を示すフローチャートである。一定期間にわたって稼働報告を受けつけていない監視プローブ装置16があれば(S100のY)、監視部26は故障を検出する(S102)。修正部34は、ユーザ端末装置10からの変更指示を受けつける(S104)。修正部34は、監視テーブルを合成する(S106)。処理量が許容値を超えていれば(S108のY)、修正部34は、監視頻度を低減する(S110)。処理量が許容値を超えていれば(S112のY)、修正部34は一部の項目の監視を停止する(S114)。処理量が許容値を超えていなければ(S112のN)、ステップ114はスキップされる。処理量が許容値を超えていなければ(S108のN)、ステップ110からステップ114はスキップされる。指示部36は、変更を指示する(S116)。一定期間にわたって稼働報告を受けつけていない監視プローブ装置16がなければ(S100のN)、ステップ102からステップ116はスキップされる。
本発明の実施例によれば、第2監視プローブ装置が故障した場合でも、第2監視テーブルの監視内容を第1監視テーブルに反映させるので、第1監視プローブ装置に監視を引き継がせることができる。また、監視を引き継がせるために、監視テーブルを修正するだけなので、監視プローブ装置に障害が発生しても、簡易にかつスムーズに監視を継続できる。また、監視プローブ装置の稼働報告を周期的に受けつけているので、監視プローブ装置の故障を自動的に検出できる。また、監視プローブ装置の故障が自動的に検出されるので、故障を早期に検出できる。また、引継が自動的になされるので、監視の引継期間を短縮できる。
また、故障が早期に検出されるので、引継を早期に実行できる。また、引継が早期に実行されるので、故障の影響を低減できる。また、処理量が許容量を超える場合に、監視内容の処理量を低減させるので、第1監視プローブ装置による監視を継続できる。また、優先順位の低い監視内容の処理量を低減させるので、監視に与える影響を低減できる。また、監視頻度を下げても処理量が許容量を超える場合に、一部の監視内容の処理を停止させるので、処理量を抑制できる。また、プローブグループのリソースを有効活用できる。
以上、本発明について実施例をもとに説明した。実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
本発明の実施例において、修正部34は、処理量が許容量を超える場合に、まず監視頻度を低減し、それでも処理量が許容量を超えていれば、監視内容の少なくとも一部を停止させる。しかしながらこれに限らず例えば、修正部34は、第2監視テーブル42の監視内容を反映させるように、第1監視テーブル40の監視内容を修正することによって、第1監視プローブ装置16aの処理量が許容値を超える場合、すぐに監視内容の少なくとも一部を停止させてもよい。本変形例によれば、処理量を低減させるための処理を簡易にできる。
本発明の実施例において、記憶部38に記憶された監視テーブルには、監視対象としてネットワーク機器18が示されている。しかしながらこれに限らず例えば、監視テーブルに別の監視プローブ装置16が示されていてもよい。第1監視テーブル40には、第2監視プローブ装置16bが示され、第2監視テーブル42には、第1監視プローブ装置16aが示される。つまり、第1監視テーブル40に規定された監視内容には、第2監視プローブ装置16bを監視することが含まれている。この場合、図2の監視部26は、省略されてもよい。本変形例によれば、ネットワーク機器18を監視するように、他の監視プローブ装置16の稼働も監視できる。
本発明の変形例において、監視プローブ装置16の数は「2」であり、ネットワーク機器18の数は「5」である。しかしながらこれに限らず例えば、これらの数は、別の値であってもよい。監視プローブ装置16の数が3以上である場合、記憶部38には、監視プローブ装置16の数に応じた監視テーブルが記憶される。また、修正部34は、故障した監視プローブ装置16に対応した監視テーブルをひとつの別の監視テーブルに引き継がせる。ここで、ひとつの別の監視テーブルは予め定められていればよい。あるいは、修正部34は、故障した監視プローブ装置16に対応した監視テーブルを複数の別の監視テーブルに引き継がせてもよい。ここでも、複数の別の監視テーブルは予め定められていればよい。また、修正部34は、予め定められた複数の監視プローブ装置16に対して、各監視プローブ装置16の処理量および許容値に応じて動的に配分して引き継がせてもよい。ここで、複数の監視プローブ装置16は、例えば、同じプローブグループ110に含まれている。本変形例によれば、監視システム100の構成の自由度を向上できる。
本発明の変形例において、第1監視テーブル40および第2監視テーブル42での処理量は、監視間隔に応じて定められている。しかしながらこれに限らず例えば、処理量は、項目数のみによって定められていてもよい。本変形例によれば、処理を簡易化できる。
10 ユーザ端末装置、 12 ネットワーク、 14 監視マネージャ装置、 16 監視プローブ装置、 18 ネットワーク機器、 20 通信部、 22 制御部、 24 通常動作部、 26 監視部、 28 故障時動作部、 30 受付部、 32 処理部、 34 修正部、 36 指示部、 38 記憶部、 40 第1監視テーブル、 42 第2監視テーブル、 44 プローブ情報、 60 通信部、 62 処理部、 64 記憶部、 66 制御部、 100 監視システム、 110 プローブグループ。

Claims (7)

  1. ひとつの以上のネットワーク機器を監視すべき第1監視プローブ装置における監視内容が規定された第1監視テーブルと、第1監視プローブ装置において監視されているネットワーク機器とは別のネットワーク機器をひとつ以上監視すべき第2監視プローブ装置における監視内容が規定された第2監視テーブルとを記憶する記憶部と、
    前記記憶部において記憶した第1監視テーブルに規定された監視内容にしたがった監視結果を第1監視プローブ装置から受けつけるとともに、前記記憶部において記憶した第2監視テーブルに規定された監視内容にしたがった監視結果を第2監視プローブ装置から受けつける受付部と、
    前記受付部において監視結果を受けつけるべき第1監視プローブ装置および第2監視プローブ装置の動作を監視する監視部と、
    前記監視部における監視によって第2監視プローブ装置の異常を検出した場合、前記記憶部において記憶した第2監視テーブルの監視内容を反映させるように、前記記憶部において記憶した第1監視テーブルの監視内容を修正する修正部と、
    前記修正部において修正した第1監視テーブルにしたがった監視を第1監視プローブ装置に指示する指示部とを備え、
    前記受付部は、前記指示部での指示に応じて、修正した第1監視テーブルに規定された監視内容にしたがった監視結果を第1監視プローブ装置から受けつけることを特徴とする管理装置。
  2. 前記修正部は、第2監視テーブルの監視内容を反映させるように、第1監視テーブルの監視内容を修正することによって、第1監視プローブ装置の処理量が許容値を超える場合、監視内容の処理量を許容値まで低減させることを特徴とする請求項1に記載の管理装置。
  3. 前記記憶部において記憶した第1監視テーブルおよび第2監視テーブルに規定された各監視内容には優先順位が付与されており、
    前記修正部は、優先順位の低い監視内容から処理量を低減させることを特徴とする請求項2に記載の管理装置。
  4. 前記修正部は、処理量を低減させても、処理量が許容値を超える場合、監視内容の少なくとも一部を停止させることを特徴とする請求項3に記載の管理装置。
  5. 前記修正部は、第2監視テーブルの監視内容を反映させるように、第1監視テーブルの監視内容を修正することによって、第1監視プローブ装置の処理量が許容値を超える場合、監視内容の少なくとも一部を停止させることを特徴とする請求項1に記載の管理装置。
  6. 前記記憶部において記憶した第1監視テーブルに規定された監視内容には、第2監視プローブ装置を監視することが含まれていることを特徴とする請求項1から5のいずれかに記載の管理装置。
  7. ひとつの以上のネットワーク機器を監視すべき第1監視プローブ装置における監視内容が規定された第1監視テーブルと、第1監視プローブ装置において監視されているネットワーク機器とは別のネットワーク機器をひとつ以上監視すべき第2監視プローブ装置における監視内容が規定された第2監視テーブルとがメモリに記憶されており、第1監視テーブルに規定された監視内容にしたがった監視結果を第1監視プローブ装置から受けつけるとともに、第2監視テーブルに規定された監視内容にしたがった監視結果を第2監視プローブ装置から受けつけるステップと、
    監視結果を受けつけるべき第1監視プローブ装置および第2監視プローブ装置の動作を監視するステップと、
    監視によって第2監視プローブ装置の異常を検出した場合、メモリにおいて記憶した第2監視テーブルの監視内容を反映させるように、メモリにおいて記憶した第1監視テーブルの監視内容を修正するステップと、
    修正した第1監視テーブルにしたがった監視を第1監視プローブ装置に指示するステップと、
    指示に応じて、修正した第1監視テーブルに規定された監視内容にしたがった監視結果を第1監視プローブ装置から受けつけるステップと、
    を備えることを特徴とする管理方法。
JP2010074197A 2010-03-29 2010-03-29 管理方法および管理装置 Active JP5554112B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010074197A JP5554112B2 (ja) 2010-03-29 2010-03-29 管理方法および管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010074197A JP5554112B2 (ja) 2010-03-29 2010-03-29 管理方法および管理装置

Publications (2)

Publication Number Publication Date
JP2011209789A true JP2011209789A (ja) 2011-10-20
JP5554112B2 JP5554112B2 (ja) 2014-07-23

Family

ID=44940818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010074197A Active JP5554112B2 (ja) 2010-03-29 2010-03-29 管理方法および管理装置

Country Status (1)

Country Link
JP (1) JP5554112B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004126982A (ja) * 2002-10-03 2004-04-22 Nri & Ncc Co Ltd 運用管理システム
JP2005196455A (ja) * 2004-01-07 2005-07-21 Toshiba Corp 分散監視システム
JP2007235914A (ja) * 2006-01-31 2007-09-13 Victor Co Of Japan Ltd デジタル映像監視システム
JP2009282735A (ja) * 2008-05-22 2009-12-03 Nec Corp 情報記録システム及び情報記録方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004126982A (ja) * 2002-10-03 2004-04-22 Nri & Ncc Co Ltd 運用管理システム
JP2005196455A (ja) * 2004-01-07 2005-07-21 Toshiba Corp 分散監視システム
JP2007235914A (ja) * 2006-01-31 2007-09-13 Victor Co Of Japan Ltd デジタル映像監視システム
JP2009282735A (ja) * 2008-05-22 2009-12-03 Nec Corp 情報記録システム及び情報記録方法

Also Published As

Publication number Publication date
JP5554112B2 (ja) 2014-07-23

Similar Documents

Publication Publication Date Title
US11223690B2 (en) Service management modes of operation in distributed node service management
US9749415B2 (en) Service management roles of processor nodes in distributed node service management
KR102072148B1 (ko) 네트워크에서 링크 손실을 처리하기 위한 시스템 및 방법
US10547499B2 (en) Software defined failure detection of many nodes
US10911295B2 (en) Server apparatus, cluster system, cluster control method and program
CN107508694B (zh) 一种集群内的节点管理方法及节点设备
JPWO2008105031A1 (ja) クラスタシステムおよびノード切り替え方法
CN103856357A (zh) 一种堆叠系统故障处理方法及堆叠系统
CN112217847A (zh) 微服务平台及其实现方法、电子设备及存储介质
WO2019049433A1 (ja) クラスタシステム、クラスタシステムの制御方法、サーバ装置、制御方法、及びプログラムが格納された非一時的なコンピュータ可読媒体
US9164825B2 (en) Computing unit, method of managing computing unit, and computing unit management program
JP5613119B2 (ja) マスター/スレーブシステム、制御装置、マスター/スレーブ切替方法、および、マスター/スレーブ切替プログラム
JP2017187868A (ja) 冗長化装置、冗長化システム、及び冗長化方法
JP5554112B2 (ja) 管理方法および管理装置
JP2011203941A (ja) 情報処理装置、監視方法、および監視プログラム
JP2018056633A (ja) クラスタシステム、サーバ、サーバの動作方法、及びプログラム
JP2016009413A (ja) 網監視システムおよび網監視方法
JP5631285B2 (ja) 障害監視システムおよび障害監視方法
JP2010045497A (ja) ソフトウェア無線機
KR20040054947A (ko) 통신망 관리시스템 및 그 제어방법
US11150980B2 (en) Node device, recovery operation control method, and non-transitory computer readable medium storing recovery operation control program
JP6040180B2 (ja) マスター/スレーブシステム、制御装置、マスター/スレーブ切替方法、および、マスター/スレーブ切替プログラム
JP2000222233A (ja) デュプレックスシステムおよび現用系・待機系切り換え方法
JP2010212807A (ja) フェイルオーバー方法、そのシステム、ノード及びプログラム
JP2003076572A (ja) コンピュータシステム、プログラム、フォールバック方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140527

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140528

R150 Certificate of patent or registration of utility model

Ref document number: 5554112

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250