JP2006338543A

JP2006338543A - 監視システムおよび監視方法

Info

Publication number: JP2006338543A
Application number: JP2005164630A
Authority: JP
Inventors: Mineyoshi Masuda; 峰義増田; Norihiro Kobayashi; 紀浩小林; Tomohiro Morimura; 知弘森村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2005-06-03
Filing date: 2005-06-03
Publication date: 2006-12-14
Anticipated expiration: 2025-06-03
Also published as: US7890620B2; US20060277295A1; JP4313336B2

Abstract

【課題】大規模なサービスシステムの構成に合わせて、監視能力を下げずにトータルでの監視コストを低減することができ、また、構成変更後のサービスシステムの状態を早期に把握することができる監視技術を提供する。
【解決手段】サービスシステムを構成する情報処理装置を監視対象とする監視システムにおいて、監視マネージャプログラム０００２および複数個の監視エージェントプログラム００１１を備え、監視対象００１０を性能特性が同じものを同一のグループに分けた各グループ内において、監視対象００１０を、短い監視間隔で監視する群と、長い監視間隔で監視する群に分ける。長い監視間隔で監視する群に含まれる監視対象の性能状況は、短い監視間隔で監視する群に含まれる監視対象の性能状況から推測する。
【選択図】図２０

Description

本発明は、監視技術に関し、特に、情報処理システムの性能を監視する監視システム、および、その監視方法に適用して有効な技術に関する。

例えば、高い性能品質が求められる情報サービス、殊に不特定多数の利用者へのサービスを提供する情報処理システム（以下、サービスシステムと呼ぶ）において、高い性能品質のサービスを提供することは、事業成功に向けた必須要件である。そのため、このようなサービスシステムでは、一般に性能監視を行い性能品質の低下を早期に検出するよう努める。性能監視を行うことで、性能品質の低下を早期に検出し、性能品質低下に対する適切な対処を実施する。これにより、重大な事故を未然に防止する。

性能監視を行うための情報処理システム（以下、性能監視システムと呼ぶ）は、サービスシステムを構成する要素（以下、監視対象と呼ぶ）それぞれの性能情報を定期的にチェックし、システムの性能が不足していないか、想定通りの性能が出ているか、を確認する。

性能監視システムの一般的な構成について説明する。性能監視システムは、監視マネージャプログラム、および複数の監視エージェントプログラムから構成される。監視エージェントプログラムは、一つ以上の監視対象の状態を定期的に監視、分析し、異状があれば監視マネージャプログラムへ通知する。監視マネージャプログラムは、これら監視エージェントプログラムを統括管理する。監視マネージャプログラムは、サービスシステムとは別の管理用情報処理装置上で動作する。監視エージェントプログラムは、サービスシステムを構成する計算機（監視対象）上で動作する。

性能監視システムにおける監視処理の流れを以下に示す。（１）監視エージェントプログラムは、（１−１）監視対象から性能情報を監視間隔１で定期的に取得し、（１−２）上記監視間隔１よりも長い監視間隔２で、定期的に取得した性能情報を分析し、（１−３）上記分析の結果、監視対象の状態が異状であると判断した場合、監視マネージャプログラムへその旨を通知する。

（２）監視マネージャプログラムは、（２−１）監視エージェントプログラムからの通知を受け、サービスシステム全体の状態を分析し、（２−２）上記分析の結果、何らかの対処が必要である場合、管理者への連絡などにより対処実行を指示する。

性能監視システムの第１の課題は、大規模なサービスシステムの監視における監視コストの低減である。監視コストとは、監視システムのプログラムの監視処理、すなわち、前述の性能監視システムの監視処理の実行に使用する、ＣＰＵ、メモリ、ネットワーク帯域、ディスク領域等の計算リソースである。

大規模なサービスシステムの監視では、前述の監視処理の中でも、特に、（１−１）（１−２）および、（２−１）におけるコストが大きくなる。（１−１）および（１−２）の処理は、サービスシステムを構成する情報処理装置の数、すなわち、監視エージェントプログラムの数に比例して増大する。また、（２−１）の処理についても、異状通知元となる監視エージェントプログラムの数が増えるため、同処理による監視コストが増大する。更に、異状通知は、複数の監視エージェントプログラムから同時に送られる傾向にあるため、（２−１）の処理が急激に増加してしまう。

監視コストを単純に低減させるのであれば、監視間隔を長くして単位時間あたりの監視回数を減らせばよい。監視回数を減らすことで、監視処理で使用する計算リソースの消費を少なくでき、監視コストを低減できる。

しかし、この方法には、監視能力が低下するデメリットがある。監視間隔を長くすると、監視と監視の間に発生した異状を見逃し、異状の検出が遅れる、あるいは、検出できない恐れがある。つまり、監視間隔の長さと検出能力はトレードオフの関係がある。

そこで、上記の方法を改良し、動的に監視間隔を調整することで、監視コストを低減しつつ、検出遅れを防ぐ方法が、特許文献１〜４において提案されている。

特許文献１の技術は、監視エージェントプログラムが監視する監視項目が複数あり、その内の一つの項目の監視間隔を短くする際に、それ以外の監視項目の監視間隔を長くする。これにより、監視コストのトータルでの増加を防ぐ。

特許文献２の技術は、監視マネージャプログラムが監視エージェントプログラムから測定データを収集する間隔を動的に変更し、監視エージェントプログラムによる監視コスト、および通信量を低減する。監視間隔の変更タイミングは、測定したデータが予め設定した条件を満たした場合である。

特許文献３の技術は、監視エージェントプログラムがＣＰＵ使用率を計測し、前回測定時からの変化が大きい場合、監視マネージャプログラムへの報告頻度を増やす。

特許文献４の技術は、監視エージェントプログラムが測定した測定データが、前回測定したデータと比べて変化がない場合に、測定データを監視マネージャプログラムへ送信しない。

性能監視システムの第２の課題は、サービスシステムの構成変更への対応である。サービスシステムの構成は運用中に変更されうる。例えば、障害を起こした情報処理装置をサービスシステムから分離する場合、サービスシステムの構成は変更される。

また、近年「ワークロード管理システム」と呼ばれる、サービスシステムの構成を自律的に変更するシステムが多数提案されている。このシステムは、サービスシステムへの負荷を監視し、その負荷量に応じて、このサービスシステムへ情報処理装置を増強、あるいは逆にこのサービスシステムから情報処理装置を減らす。

このように、サービスシステムの構成が変更された場合、その変更に合わせて、性能監視システムも設定を変更する必要がある。サービスシステムの構成変更に追随して監視システムの設定を自動的に変更する方法に、特許文献５，６の技術がある。

特許文献５の技術は、サービスシステムを構成する情報処理装置をいくつかのグループに分ける。また、一つのサービスシステムに対して一つ以上の監視マネージャプログラムが存在する。各情報処理装置は、情報処理装置と監視マネージャプログラムとの対応関係を記述したテーブルを持つ。構成変更時、例えば、情報処理装置の台数が増減した場合や、監視マネージャプログラムの数、すなわち、監視マネージャプログラムが動作する情報処理装置の数が増減した場合には、前記テーブルを更新する。

特許文献６の技術は、サービスシステムを構成する情報処理装置をいくつかのグループに分ける。グループごとに、そのグループに含まれる情報処理装置のアドレスリストが作成され、全ての情報処理装置は、全てのグループのアドレスリストを保持する。また、全ての情報処理装置は、関連するグループ同士をリンクで結んだ木構造を保持する。サービスシステムの構成が変更された場合、前述の木構造を順に参照して、それぞれのグループに含まれる情報処理装置へ、構成変更の内容が伝達され、前述のアドレスリストおよび木構造へ変更が反映される。
特開２００４−１７８１１８号公報特開平５−２０５０７４号公報特開平７−１５２７０６号公報特開平８−２７５０６０号公報特開２０００−９２０９１号公報特開２００３−２７１４７１号公報

ところで、前述した性能監視システムにおいて、第１の課題は、大規模なサービスシステムの構成に合わせて、トータルでの監視コストを低減することである。前記特許文献１〜４記載の技術は、サービスシステムを構成する個々の情報処理装置内における監視コストの低減に関する技術ではあるが、サービスシステム全体の構成を参照して、監視コストを低減する手法についての言及はない。

また、第２の課題は、構成変更後のサービスシステムの状態を早期に把握することである。サービスシステムの構成変更には何らかの目的がある。例えば、サービスシステムへの情報処理装置の増強は、サービス品質の改善を目的とする。サービスシステムの構成変更後は、その構成変更の効果の有無を早急に確認する必要がある。なぜなら、効果がない場合には、別の対応を行う必要があるためである。前記特許文献５，６に記載された技術は、サービスシステムの構成が変更された場合に、監視システムの設定を自動的に追随できる効果があるが、構成変更後のサービスシステムの状態認識を早める効果については考慮されていない。

そこで、本発明の目的は、大規模なサービスシステムの構成に合わせて、監視能力を下げずにトータルでの監視コストを低減することができ、また、構成変更後のサービスシステムの状態を早期に把握することができる監視技術を提供することにある。

本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。

本発明における監視システム、および、その監視方法は、サービスシステムを構成する情報処理装置（監視対象、具体的には監視対象に含まれる監視エージェントプログラム）を複数の群に分け、その内のいくつかの群に含まれる情報処理装置を強く監視、すなわち短い監視間隔で監視し、その他の群に含まれる情報処理装置は弱く監視、すなわち長い監視間隔で監視する。このように、監視間隔を群別に行うことで、監視システム全体での監視コストを低減することができるようになる。

また、本発明における監視システム、および、その監視方法は、サービスシステムを構成する情報処理装置を複数のグループに分け、かつ、それらのグループごとに前述の群による監視間隔の管理を行う。グループは、複数の「同質」な情報処理装置ごとに作成される。すなわち、性能特性が同じ情報処理装置を同一グループに含める。グループ内では情報処理装置の性能特性が同じであるため、グループ内で強い監視を行う群に含まれる情報処理装置の性能状況を把握していれば、弱い監視を行っている群に含まれる情報処理装置についても、高い精度で性能状況を推測できる。したがって、性能コストを低減しながら、監視による性能状況を把握する能力も保つことができるようになる。

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。

本発明によれば、大規模なサービスシステムの構成に合わせて、監視能力を下げずにトータルでの監視コストを低減することができる。また、構成変更後のサービスシステムの状態を早期に把握することができる。

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。

本発明の各実施の形態においては、これに限定されるものではないが、サービスシステムを構成する計算機、サーバなどの情報処理装置を監視対象として説明する。

図１に、本発明の第１の実施の形態である監視システムのブロック図を示す。

この監視システムは、一つの監視マネージャプログラム０００２およびＮ個の監視エージェントプログラム００１１から構成され、第ｉ番目の監視エージェントプログラム００１１は第ｉ番目の監視対象００１０を監視する。監視マネージャプログラム０００２は、監視装置０００１上で動作し、監視エージェントプログラム００１１は、それぞれの監視対象００１０上で動作する。監視装置０００１と各監視対象００１０はＬＡＮ０００９で接続され、相互に通信可能である。

監視エージェントプログラム１および監視エージェントプログラム２は第１群００１２に含まれ、残りの監視エージェントプログラム３から監視エージェントプログラムＮは第２群００１３に含まれる。

監視マネージャプログラム０００２は、詳細は後述するが、監視エージェントプログラム００１１を各群に分ける機能、各群に含まれる監視エージェントプログラム００１１を群間で入れ替える機能や、イベントの内容を分析し、各群に含まれる監視エージェントプログラム００１１の数、および各群における監視エージェントプログラム００１１が監視対象００１０を監視する監視間隔を計算し、この計算の結果、監視する間隔を変更する監視エージェントプログラム００１１へ変更を指示する各機能などを備える。

さらに、監視マネージャプログラム０００２は、監視対象００１０が構成変更されたイベントを受信し、このイベントを受信したのち、計算された監視間隔を短縮させる機能や、もし、監視対象００１０において障害が発生した場合、その旨を障害イベントとして受信し、この障害イベントを受信したのち、障害イベントに対応する監視エージェントプログラム００１１が短い監視間隔の群に含まれる場合、短い監視間隔の群よりも監視間隔が長い群に含まれる監視エージェントプログラム００１１を短い監視間隔の群へ変更する各機能などを備える。

監視エージェントプログラム００１１は、詳細は後述するが、監視対象００１０を所定の監視間隔で監視する機能や、監視対象００１０を監視することで得られた情報が所定の条件を満たした場合、監視マネージャプログラム０００２へイベントを通知する機能などを備える。

監視マネージャプログラム０００２には、イベント受信部０００３、監視間隔管理部０００４、監視エージェントプログラム管理部０００５、および記憶装置０００６が含まれる。記憶装置０００６には、監視間隔情報０００７、群情報０００８が格納される。

監視間隔情報０００７、群情報０００８の格納例である、群管理テーブル０１００を図２に示す。群管理テーブル０１００には、各群に含まれる監視エージェントプログラム００１１とその監視間隔が格納される。また、別の群管理テーブル０１０１の構成例を図３に示す。図２の群管理テーブル０１００では、監視間隔が監視エージェントプログラム００１１ごとに記録されているが、図３の群管理テーブル０１０１では、群ごとに監視間隔が記録される構成としている。

図４に、監視マネージャプログラム０００２における、群に含まれる監視エージェントプログラム００１１を群間で入れ替える処理のフロー図を示す。スタートは、イベント受信部０００３が入れ替え指示のイベントを受信する、あるいは、監視マネージャプログラム０００２内部のタイマーによって起動されるものとする。

まず、監視間隔管理部０００４が記憶装置０００６から群情報を取得し（Ｓ０００１）、入れ替える二つの群を選択する。次いで、各群に含まれる監視エージェントプログラムの情報を取得し（Ｓ０００２）、群ごとに一つの監視エージェントプログラム００１１を選択する。続いて、選択した各監視エージェントプログラム００１１に設定されている監視間隔を記憶装置０００６から取得する（Ｓ０００３）。次いで、監視エージェントプログラム００１１の間で互いの監視間隔を交換し、監視エージェントプログラム管理部０００５が、それぞれの監視エージェントプログラム００１１に監視間隔変更を指示して新しい監視間隔を設定する（Ｓ０００４）。最後に、変更した監視間隔を記憶装置０００６へ記憶する（Ｓ０００５）。

図５に、監視マネージャプログラム０００２における、監視強化／弱化処理のフロー図を示す。監視強化処理は、群に含まれる監視エージェントプログラム００１１が監視対象００１０を監視する間隔を短縮する処理である。逆に、監視弱化処理は、監視間隔を伸長する処理である。

スタートは、イベント受信部０００３がイベントを受信することで開始される（Ｓ０１０１）。イベントは、例えば、監視エージェントプログラム００１１が監視対象００１０の負荷増加、負荷減少を検出した際に監視マネージャプログラムへ通知するイベント、あるいは、システム管理者が監視マネージャプログラム０００２へ与える指示イベントなどである。

次いで、イベント内容を評価し、それにより処理を振り分ける（Ｓ０１０２）。イベントの内容が監視の強化を指示するものであれば、監視強化アクションを行い、イベントの内容が監視の弱化を指示するものであれば、監視弱化アクションを行う。

監視強化アクションでは、群内の監視エージェントプログラム００１１に設定されている監視間隔を短く、ここでは半分にする。まず、監視間隔管理部０００４が、記憶装置０００６から群情報を取得し（Ｓ０１０３）、次いで群に含まれる監視エージェントプログラム情報を取得する（Ｓ０１０４）。次に、各監視エージェントプログラムに対して設定されている現在の監視間隔を取得し（Ｓ０１０５）、その値の半分を計算して監視間隔を１／２へ変更する（Ｓ０１０６）。続いて、監視エージェントプログラム管理部０００５が、変更後の監視間隔を監視エージェントプログラム００１１へ通知し、監視間隔変更を指示することで監視間隔が変更される（Ｓ０１１１）。最後に、変更した監視間隔を記憶装置０００６へ記憶する（Ｓ０１１２）。監視弱化アクションの流れ（Ｓ０１０７〜Ｓ０１１０）は、監視間隔を半分ではなく二倍とする点を除いて、監視強化アクションと同じである。

図１３に、監視エージェントプログラム００１１、もしくは、監視対象００１０に障害が発生した際の、監視マネージャプログラム０００２における対応処理のフロー図を示す。このフロー図では、障害が発生した群が若い番号の群、すなわち強い監視を行っている群であれば、弱い監視を行っている群から代替の監視エージェントプログラム００１１を割り当てる処理である。

はじめに、イベント受信部０００３が障害イベントを受信する（Ｓ０３０１）。次いで、障害が発生した群についての情報を記憶装置０００６から取得する（Ｓ０３０２）。続いて、障害が発生した群の番号を評価し、群番号がＫよりも大きければ、処理を終了し、Ｋ以下であれば次のステップへ進む（Ｓ０３０３）。次のステップでは、第Ｋ＋１番以上の群に含まれる監視エージェントプログラム００１１を一つ選択し（Ｓ０３０４）、続く二つのステップにて、その監視エージェントプログラム００１１が障害を発生した群に含める処理を行う。すなわち、この監視エージェントプログラム００１１へ、障害を発生した群に対する監視間隔へ変更するように指示を出す（Ｓ０３０５）。続いて、変更した監視間隔を記憶装置０００６へ記憶する（Ｓ０３０６）。

図６に、本発明の第２の実施の形態である監視システムのブロック図を示す。本実施の形態の監視システムは、前記図１に示した第１の実施の形態に、監視強度情報００１４を加えた構成である。

監視強度情報００１４とは、監視の強度と監視間隔を対応付ける情報であり、高い監視強度ほど監視間隔が短くなる。図９に、監視強度情報の具体例である、記憶装置０００６へ格納される監視強度テーブル０１０４を示す。図９に示す通り、監視強度に対する監視間隔の形式で記憶される、マッピングテーブルの構造となっている。

監視間隔が監視強度として表現されることにともない、群管理テーブル０１０２の構造も図７のようになる。すなわち、前記図２に示した群管理テーブルでは、監視エージェントプログラム００１１ごとに監視間隔が記憶されていたが、図７の群管理テーブル０１０２では、監視エージェントプログラム００１１ごとに監視強度が記憶される。また、前記図３に示した群管理テーブルの監視間隔を、監視強度で示した群管理テーブル０１０３を図８に示す。

図１０は、本発明の第２の実施の形態の監視システムにおける、監視強化／弱化処理のフロー図を示す。このフローは、前記図５に示した監視強化／弱化処理のフローと監視間隔を変更する処理が異なる。すなわち、前記図５に示したフローでは、監視間隔を直接扱っているのに対して、図１０のフローでは、監視強度の増減によって監視間隔を変更している。

図１０のフローにおける、イベント受信（Ｓ０２０１）、イベント種別の評価によるアクションの振り分け（Ｓ０２０２）後の監視強化アクション（Ｓ０２０３〜Ｓ０２０６）では、監視を強化する監視エージェントプログラム００１１の監視強度を取得し（Ｓ０２０５）、次いで監視強度を一つ増加させる（Ｓ０２０６）。続いて、監視強度テーブルを参照し、該当する監視強度に対応する監視間隔を取得し、監視エージェントプログラム００１１に、取得した監視間隔を通知し、監視間隔を変更するように指示を出す（Ｓ０２１１）。最後に、変更した監視強度を記憶装置０００６へ記憶する（Ｓ０２１２）。監視弱化アクション（Ｓ０２０７〜Ｓ０２１０）では、監視強度を一つ増加させずに、逆に監視強度を一つ減少させる。それ以外の処理は監視強化アクションと同じである。

図１１に、本発明の第３の実施の形態である監視システムにおける監視エージェントプログラム００１１内のブロック図を示す。監視エージェントプログラム００１１以外の要素についての構造は、前記図６に示した監視システムのブロック図と同じである。

図１１に示す監視エージェントプログラム００１１は、統計処理部００１５、性能情報取得部００１６、性能情報一時記憶００１７を含む。監視エージェントプログラム００１１は、性能情報取得部００１６の機能により、第１の監視間隔（以下、監視間隔１）で、定期的に監視対象００１０から性能情報を取得し（００２０）、取得した性能情報を性能情報一時記憶００１７へ格納する。監視エージェントプログラム００１１は、統計処理部００１５の機能により、第２の監視間隔（以下、監視間隔２）で、定期的に性能情報一時記憶００１７から性能情報を取得し、取得した性能情報に対して統計処理を行い（００１９）、統計処理の結果が所定の条件を満たす場合、その旨を監視マネージャプログラム０００２へイベントとして送信する（００１８）。つまり、監視エージェントプログラム００１１は、二種類の監視間隔、監視間隔１、監視間隔２を有する。

監視エージェントプログラム００１１が二種類の監視間隔を持つことにともない、監視強度と監視間隔のマッピングテーブルである監視強度テーブル０１０５は、図１２のようになる。すなわち、監視強度に対して、監視間隔のカラムが、監視間隔１、監視間隔２の二つになる。

図１４に、本発明の第４の実施の形態である監視システムのブロック図を示す。本実施の形態の監視システムは、前記図１に示した第１の実施の形態の監視システムに、負荷量管理部００２１、負荷量情報００２２、および負荷分散装置００２４を加えた構成である。負荷分散装置００２４は、監視対象１からＮへ負荷の割り振りを行う。すなわち、エンドユーザからのリクエストは、はじめに負荷分散装置が受け付け、その後、監視対象１からＮへ、それぞれの“設定負荷量”の割合に応じた数のリクエストが送られる。

本実施の形態における監視マネージャプログラム０００２は、負荷分散装置に設定された、前述の設定負荷量を変更する機能を持つ。監視マネージャプログラム０００２は、負荷量管理部００２１、および記憶装置０００６内に格納された負荷量情報００２２を用いて、設定負荷量を変更する。

負荷量情報００２２は、例えば、図１５に示す、群および負荷量管理テーブル０１０６のように、群管理テーブルに負荷量についてのカラムを付け加えることで記憶される。図１５は、第１群に含まれる監視エージェントプログラム１および監視エージェントプログラム２がそれぞれ監視する監視対象１および監視対象２への設定負荷量が１５であることを示している。同様に、第２群に含まれる監視エージェントプログラムの監視対象への設定負荷量が２０であることを示している。

負荷量管理部００２１は、図１７に示す、負荷量設定処理のフロー図にしたがい、設定負荷量を負荷分散装置００２４へ設定する。はじめに、負荷量管理部００２１は、記憶装置０００６から群情報を取得し（Ｓ０４０１）、次いで各群に含まれる監視エージェントプログラム００１１についての負荷量情報を取得する（Ｓ０４０２）。続いて、各監視エージェントプログラム００１１が監視する監視対象００１０の負荷量を負荷分散装置００２４へ通知し、その値を設定負荷量とするように指示を出す（Ｓ０４０３）。

さて、設定負荷量の値について、次の二つのパターンがある。すなわち、パターン１：群番号が若いほど設定負荷量を小さくする、パターン２：群番号が若いほど設定負荷量を大きくする、の２パターンである。前記図１５に示した群および負荷量管理テーブルは、パターン１の場合に相当する。パターン２の場合の群および負荷量管理テーブル０１０７を図１６に示す。

パターン１では、群番号が若い、すなわち、監視間隔が短く監視が強い監視対象００１０ほど負荷量が小さくなる。このパターンのメリットは、監視による負荷も考慮に入れて群間の負荷量の均衡を図ることができる点である。短い監視間隔で監視を行うと、監視による負荷が大きくなる。つまり、群間で監視による負荷量に格差が発生する。そこで、その分だけ設定負荷量を小さくすることで、トータルの負荷を群間で均等にできる。

パターン２では、群番号が若い、すなわち、監視間隔が短く監視が強い監視対象００１０ほど負荷量が大きくなる。このパターンのメリットは、監視エージェントプログラム００１１から監視マネージャプログラム０００２へ通知される負荷増大イベントの回数を抑制できる点である。このパターンでは、監視が強い群に含まれる監視対象００１０ほど負荷量が大きいため、負荷増大イベントが発生する可能性が、他の群に比べて高い。つまり、他群よりも早く負荷増大を検出できる。

図１８に、本発明の第５の実施の形態である監視システムのブロック図を示す。本実施の形態の監視システムは、前記図１４に示した第４の実施の形態の監視システムに対して、負荷分散装置００２４上で動作する監視エージェントプログラムＬ（００２３）を追加した構成である。監視エージェントプログラムＬは、監視対象１からＮの全ての監視を担当する。監視エージェントプログラムＬは、負荷分散装置００２４が監視対象１からＮへのリクエスト振り分け状況を、監視対象ごとに監視する。

図１９に、本実施の形態の監視システムにおける群管理テーブル０１０８を示す。図１９に示す通り、全ての監視対象００１０の監視を監視エージェントプログラムＬが担当する。

図２０に、本発明の第６の実施の形態である監視システムのブロック図を示す。本実施の形態の監視システムは、監視対象００１０を複数のグループに分け、グループごとに群管理するシステムである。

この監視システムは、前記図１に示した第１の実施の形態である監視システムに、グループ管理部００２５、およびグループ情報００２６を加えた構成である。すなわち、監視マネージャプログラム０００２は、監視エージェントプログラム００１１を複数のグループに分割し、各グループに含まれる監視エージェントプログラム００１１を各群に分ける機能を備える。

Ｍ個の監視対象００１０は、監視対象１から監視対象Ｎまでを含むグループ１（００２７）と、監視対象Ｎ＋１から監視対象Ｍまでを含むグループ２（００２８）にグループ分けされている。グループ１は、監視対象１と監視対象２を含む第１群００１２、監視対象３から監視対象Ｎまでを含む第２群００１３、を含む。グループ２は、監視対象Ｍを含む第１群００２９、監視対象Ｎ＋１から監視対象Ｍ−１までを含む第２群００３０、を含む。

この監視システムにおけるグループテーブル０１０９を図２１に示す。このグループテーブル０１０９は、群情報、監視間隔情報の他に、グループについての情報が記憶される。つまり、グループと群、群と監視エージェントプログラム００１１の対応関係が記憶される。

図２２に、本発明の第７の実施の形態である監視システムのブロック図を示す。本実施の形態の監視システムは、前記図２０に示した第６の実施の形態である監視システムに、グループ間の関連付けを管理する機能を加えた構成である。

グループ間の関連付けの管理は、関連付け管理部００３１、および関連付け情報００３２によって行われる。関連付け情報００３２は、例えば、図２３に示す関連付けテーブル０１１０によって表現される。この図２３は、グループ１（００２７）とグループ２（００２８）の間に関連付けがあることを示している。具体的な関連付けの内容、関連付けを使用した各種の処理フローについては後述する。

図２４に、本発明の第８の実施の形態である監視システムのブロック図を示す。本実施の形態の監視システムは、前記図２２に示した第７の実施の形態である監視システムに、構成情報記憶装置００３３を加えた構成である。構成情報記憶装置００３３には、監視対象００１０の構成についての情報が記憶される。監視対象００１０の構成についての情報は、監視対象の属性情報００３４として記憶される。

図２９に、グループ分割処理のフロー図を示す。この処理は、複数の監視対象００１０を含むグループと、一つ以上の評価条件を入力として、そのグループを評価条件によって評価し、複数のグループへ分割していく処理である。

まず、入力グループについてのグループ情報を記憶装置０００６に格納されたグループ情報００２６から取得する（Ｓ０５０１）。次いで、入力された評価条件の列を取得し（Ｓ０５０２）、その中から未処理の評価条件を取得する（Ｓ０５０３）。次いで、グループに含まれる監視対象をこの評価条件によって評価し、評価が同一である監視対象ごとにグループを分割する（Ｓ０５０４）。次に、分割したグループを新たな入力グループとして、Ｓ０５０３のステップを繰り返す。最後に、未評価の評価条件がなくなった時点で処理を終了する。

ここで、具体的なグループ分割の説明を行うために、複数の監視対象００１０から構成されるシステムの例を示す。このグループ分割例によるシステムの構成を図２５に示す。このシステムは、１台の負荷分散サーバ１（０３０７）、４台のＷｅｂサーバ１〜４（０３０８〜０３１１）、１台のＮＦＳサーバ１（０３１２）から構成され、各サーバは、ＬＡＮ１（０３１３）、およびＬＡＮ２（０３１４）で接続されている。

監視対象の構成情報は、図２７に示す属性テーブル０１１１に記憶される。属性テーブル０１１１には、監視対象ごとに、監視対象が持つ属性およびその属性値が記憶される。図２７は、図２５で示すシステムの各監視対象の属性および属性値を示している。

図２５に示すシステムを、図２９に示すグループ分割処理のフロー図にしたがって、グループ分割する。なお、このシステムのユーザを「ユーザ１」とし、システムに含まれる全監視対象からなるグループをユーザ１グループ０３０１とする。

グループ分割処理への入力グループをユーザ１グループ０３０１とする。また、評価条件列を、評価条件１「アプリケーションについての属性値が一致しているか」、評価条件２「計算機のスペックについての属性値が一致しているか」、とする。

まず、ユーザ１グループ０３０１を評価条件１によってグループ分割する。図２７の属性テーブル０１１１によると、アプリケーションについての属性は、「アプリケーション名」、「アプリケーションバージョン」の２属性がある。この値が同一である監視対象をグループとしてまとめると、負荷分散サーバのみを含むグループ、Ｗｅｂサーバ１から４を含むグループ、ＮＦＳサーバのみを含むグループ、の３グループに分割できる。次に、これら３グループを評価条件２によってグループ分割する。図２７の属性テーブル０１１１によると、計算機のスペックについての属性は、「ＣＰＵ数」のみである。したがって、評価条件２によって、さきほどの３グループを分割すると、Ｗｅｂサーバ１から４を含むグループが、ＣＰＵ数が１であるＷｅｂサーバ１および２を含むグループと、ＣＰＵ数が２であるＷｅｂサーバ３および４を含むグループのグループに分けられる。

したがって、図２５に示すシステムは、ユーザ１グループ０３０１、負荷分散グループ０３０２、Ｗｅｂグループ０３０３、Ｗｅｂグループ１（０３０４）、Ｗｅｂグループ２（０３０５）、およびＮＦＳグループ０３０６に分けられる。

グループ分割前のグループと、そのグループを複数のグループに分けた際、それらのグループの間に関連付けを作成し、また、それらのグループと分割前のグループとの間に関連付けを作成した場合、グループ間の関連付け０３１５は図２６のようになる。このとき、関連付けテーブル０１１２は、図２８のようになる。

図３０に、本発明の第９の実施の形態である監視システムのブロック図を示す。本実施の形態の監視システムは、前記図２４に示した第８の実施の形態である監視システムに、グループ間の相関度を管理する機能を加えた構成である。

相関度は、相関計算部００３５および相関度情報００３６によって管理される。相関度情報００３６は、関連付けを持つグループ間の相関度を記憶する。図３１に、グループ間の相関度についての情報を持つ、相関度つき関連付けテーブル０１１３を示す。このテーブルには、関連付けを持つ二つのグループ、およびその間の相関度（図中では７０）が記憶される。

以下では、相関度情報を用いた各種処理のフローについて説明する。はじめに、あるグループで発生したイベントを、そのグループと、所定以上の相関度の関連付けを持つグループへ伝播する処理のフローについて説明する。このフロー図を図３２に示す。

まず、イベント受信部００１８がイベントを受信する（Ｓ０６０１）。次いで、そのイベントを発生させたグループについての情報を取得する（Ｓ０６０２）。続いて、このグループについての関連付け情報を取得する（Ｓ０６０３）。次に、関連付け情報に付随する相関度情報を取得し（Ｓ０６０４）、相関度がＳ以上であるか否かを評価する（Ｓ０６０５）。相関度がＳ以上であれば、グループ情報を取得し（Ｓ０６０６）、イベントを関連先のグループに伝播させる。相関度がＳ未満であれば、伝播させずに処理を終了する。

図３３に、二つのグループ間の相関度を更新する処理のフロー図を示す。入力は、二つのグループとする。まず、各グループに含まれる監視エージェントプログラム００１１から性能情報を取得する（Ｓ０７０１）。次いで、取得した性能情報について、グループ間の相関性を分析し、相関度を計算する（Ｓ０７０２）。最後に、計算した相関度を記憶装置０００６へ記憶する（Ｓ０７０３）。

図３４に、相関度が高い二つのグループを併合する処理のフロー図を示す。入力は、合併候補の二つのグループとする。まず、各グループの情報を取得し（Ｓ０８０１）、次いでグループ間の関連付け情報を取得し（Ｓ０８０２）、関連付けに付随する相関度を取得する（Ｓ０８０３）。続いて、取得した相関度を評価し（Ｓ０８０４）、相関度がＳ未満であれば、合併せずに処理を終了する。相関度がＳ以上であれば、二つのグループを同一のグループとなるように併合し、記憶装置０００６の記憶内容を変更する（Ｓ０８０５）。

前述した、第８の実施の形態の説明の中で、構成情報記憶装置００３３中の属性情報００３４を参照して、グループを作成する例について述べた。以下では、第８の実施の形態とは別の属性情報００３４をいくつか示し、それぞれについてグループを作成する例について説明する。なお、以下に説明する各実施の形態における監視システムのブロック図は、前記第８の実施の形態の構成と同じ、すなわち図２４のブロック図とし、また、グループ分割フローについても図２９に記載のフローにしたがうものとする。

本発明の第１０の実施の形態について説明する。本実施の形態において、属性情報００３４に含まれる属性テーブル０２０１を図３５に示す。図３５に示す属性テーブル０２０１には、１４台のＷｅｂサーバ（すなわち、１４個の監視対象００１０）についての属性情報が格納されている。属性「サーバ名」には、各サーバの名称が記載される。属性「アプリケーション名」には、各サーバ上で動作するアプリケーション名、すなわち、この例では全て“Ｗｅｂサーバ”と記載される。これら以外の属性は、全てサーバのハードウェアスペックに関する属性である。

これら１４台のＷｅｂサーバを、ハードウェアスペックに関する属性値によって、いくつかのグループに分割する。どの属性を参照してグループを分割するのか、つまり、評価条件列をどのように設定するのかは、Ｗｅｂサーバの処理性能がどの属性に影響されるのか、によって決まる。ここでは、次の３つの場合、すなわち、（１）ＣＰＵ性能の影響大、（２）メモリ性能の影響大、（３）ＨＤＤ性能の影響大、についての評価条件列の例を示す。

（１）ＣＰＵ性能の影響が大きい場合
Ｗｅｂサーバ上で、ＣＧＩなどのプログラムを頻繁に動作する場合、Ｗｅｂサーバの処理性能はＣＰＵ性能に強く依存する。そのため、ＣＰＵ性能に関する属性で評価条件列を構成することが妥当である。評価条件列の例は、条件１：ＣＰＵ個数が等しい、条件２：ＣＰＵ名が等しい、条件３：ＣＰＵ動作周波数が等しい、の通りである。

サーバ１〜１４からなるグループを初期グループとして、上記評価条件列によってグループ分割を行うと、グループは図３６に示すように分割される。まず、条件１によって、初期グループが、ＣＰＵ個数が２のグループ（サーバ１〜２）と、ＣＰＵ個数が１のグループ（サーバ３〜１４）に分割される。同様に、条件２のＣＰＵ名属性、および条件３のＣＰＵ動作周波数属性による分割を行うと、最終的に６個のグループが作成される。

（２）メモリ性能の影響が大きい場合
Ｗｅｂサーバの処理性能がメモリ性能に強く依存する場合、メモリ性能に関する属性で評価条件列を構成することが妥当である。評価条件列の例は、条件１：２次キャッシュサイズが等しい、条件２：メモリバス動作周波数が等しい、の通りである。

サーバ１〜１４からなるグループを初期グループとして、上記評価条件列によってグループ分割を行うと、グループは図３７に示すように分割される。まず、条件１によって、初期グループが、２次キャッシュサイズが２ＭＢのグループ（サーバ１〜４）と、２次キャッシュサイズが５１２ＫＢのグループ（サーバ５〜１２）と、２次キャッシュサイズが１ＭＢのグループ（サーバ１３〜１４）に分割される。同様に、条件２のメモリバス動作周波数属性による分割を行うと、最終的に４個のグループが作成される。

（３）ＨＤＤ性能の影響が大きい場合
Ｗｅｂサーバの処理性能がＨＤＤ性能に強く依存する場合、例えばサイズの大きい画像ファイルを大量に配信する場合、ＨＤＤ性能に関する属性で評価条件列を構成することが妥当である。評価条件列の例は、条件１：ＨＤＤシークタイムが等しい、条件２：ＨＤＤバッファサイズが等しい、の通りである。

サーバ１〜１４からなるグループを初期グループとして、上記評価条件列によってグループ分割を行うと、グループは図３８に示すように分割される。まず、条件１によって、初期グループが、ＨＤＤシークタイムが０．８ｍｓのグループ（サーバ１〜４）と、ＨＤＤシークタイムが１．５ｍｓのグループ（サーバ５〜６）と、ＨＤＤシークタイムが１．２ｍｓのグループ（サーバ７〜９）と、ＨＤＤシークタイムが１．０ｍｓのグループ（サーバ１０〜１４）に分割される。同様に、条件２のＨＤＤバッファサイズによる分割を行うと、最終的に４個のグループが作成される。

本発明の第１１の実施の形態について説明する。本実施の形態において、属性情報００３４に含まれる属性テーブル０２０２を図３９に示す。図３９に示す属性テーブル０２０２には、６台のＷｅｂサーバと、８台のＪａｖａ（登録商標）アプリケーションサーバについての属性情報が格納されている。属性「サーバ名」には、各サーバの名称が記載される。属性「アプリケーション名」には、各サーバ上で動作するアプリケーション名、すなわち、この例では“Ｗｅｂサーバ”と、“Ｊａｖａ（登録商標）アプリ”が記載される。「Ｗｅｂキャッシュサイズ」属性は、Ｗｅｂサーバのみに対する属性であり、Ｗｅｂサーバが使用するキャッシュメモリの容量を示す。「ＪＶＭ（Ｊａｖａ（登録商標）ＶｉｒｔｕａｌＭａｃｈｉｎｅ）最大使用メモリ量」属性は、Ｊａｖａ（登録商標）アプリケーションサーバのみに対する属性であり、Ｊａｖａ（登録商標）アプリケーションが動作するＪＶＭが使用するメモリの最大容量を示す。

Ｗｅｂサーバ、Ｊａｖａ（登録商標）アプリケーション、双方とも使用できるメモリ量が処理性能に大きく影響するため、それらの属性を評価条件列に入れることは妥当である。評価条件列の例を下記に示す。

Ｗｅｂサーバに対する評価条件列の例は、条件１：アプリケーション名が等しい、条件２：Ｗｅｂキャッシュサイズが等しい、の通りである。

Ｊａｖａ（登録商標）アプリケーションサーバに対する評価条件列の例は、条件１：アプリケーション名が等しい、条件３：ＪＶＭ最大使用メモリ量が等しい、の通りである。

サーバ１〜１４からなるグループを初期グループとして、上記評価条件列によってグループ分割を行うと、グループは図４０に示すように分割される。まず、条件１によって、初期グループが、Ｗｅｂサーバのグループ（サーバ１〜６）と、Ｊａｖａ（登録商標）アプリケーションのグループ（サーバ７〜１４）に分割される。次いで、Ｗｅｂサーバのグループに対しては、条件２のＷｅｂキャッシュサイズ属性による分割が行われ、Ｗｅｂキャッシュサイズが１ＧＢのグループ（サーバ１〜３）と、Ｗｅｂキャッシュサイズが５１２ＭＢのグループ（サーバ４〜６）に分割される。同様に、Ｊａｖａ（登録商標）アプリケーションのグループに対しては、条件３のＪＶＭ最大使用メモリ量属性による分割が行われ、ＪＶＭ最大使用メモリ量が５１２ＭＢのグループ（サーバ７〜１０）と、ＪＶＭ最大使用メモリ量が２５６ＭＢのグループ（サーバ１１〜１４）に分割され、最終的に４個のグループが作成される。

本発明の第１２の実施の形態について説明する。本実施の形態において、属性情報００３４に含まれる属性テーブル０２０３を図４１に示す。図４１に示す属性テーブル０２０３には、６台のサーバと、その上で生成された１４個の仮想計算機についての属性情報が格納されている。各サーバのハードウェアスペックは同等とする。「仮想計算機名」属性には、各仮想計算機の名称が記載され、「ＣＰＵ割り当て率」属性および「メモリ割り当て率」属性には、各サーバにおいてそれぞれの仮想計算機が使用できるＣＰＵ使用率、およびメモリ使用量が記載される。つまり、これら二つの属性によって、仮想計算機の性能が定義される。

仮想計算機の性能は、上記二つの属性に強く依存するため、仮想計算機をグループ分割するための評価条件列に、これらの属性を含めることは妥当である。評価条件列の例は、条件１：ＣＰＵ割り当て率が等しい、条件２：メモリ割り当て量が等しい、の通りである。

仮想計算機１〜１４からなるグループを初期グループとして、上記評価条件列によってグループ分割を行うと、グループは図４２に示すように分割される。まず、条件１によって、初期グループが、ＣＰＵ割り当て率が７０％のグループ（仮想計算機１、３）と、ＣＰＵ割り当て率が３０％のグループ（仮想計算機２、４）と、ＣＰＵ割り当て率が５０％のグループ（仮想計算機５〜１０）と、ＣＰＵ割り当て率が２５％のグループ（仮想計算機１１〜１４）に分割される。続いて、条件２によって、ＣＰＵ割り当て率が５０％のグループ（仮想計算機５〜１０）が、メモリ割り当て量が５１２ＭＢのグループ（仮想計算機５〜６）と、メモリ割り当て量が２５６ＭＢのグループ（仮想計算機７〜１０）に分割され、最終的に５個グループが作成される。

本発明の第１３の実施の形態について説明する。本実施の形態において、属性情報００３４に含まれる属性テーブル０２０４を図４３に示す。図４３に示す属性テーブル０２０４には、１台の負荷分散サーバ（サーバ１）と、１０台のＷｅｂサーバ（サーバ２〜１１）と、３台のＮＦＳサーバ（サーバ１２〜１４）についての属性情報が格納されている。図４４に、システム構成図を示す。

属性「サーバ名」には、各サーバの名称が記載される。属性「アプリケーション名」には、各サーバ上で動作するアプリケーション名が記載される。「共有ファイル配置先」属性は、Ｗｅｂサーバ固有の属性であり、各Ｗｅｂサーバが配信するファイルの配置先が記載される。「提供ファイル種別」属性は、ＮＦＳサーバ固有の属性であり、各ＮＦＳサーバが保持するファイルの種別が記載される。ここでは、サーバ１２がＨＴＭＬファイルを提供し、サーバ１３がｊｐｅｇ、ｐｎｇ等の画像ファイルを提供し、サーバ１４が映像ファイルを提供している。

これら１４台のサーバを、以下の評価条件列の例、すなわち、条件１：アプリケーション名が等しい、条件２：共有ファイル配置先が等しい、条件３：提供ファイル種別が等しい、によって、グループに分割する。なお、条件２はＷｅｂサーバに対してのみ適用され、条件３はＮＦＳサーバに対してのみ適用される。

サーバ１〜１４からなるグループを初期グループとして、上記評価条件列によってグループ分割を行うと、グループは図４５に示すように分割される。まず、条件１によって、初期グループが、負荷分散サーバのグループ（サーバ１）と、Ｗｅｂサーバのグループ（サーバ２〜１１）と、ＮＦＳサーバのグループ（サーバ１２〜１４）に分割される。次いで、Ｗｅｂサーバのグループに対しては、条件２の共有ファイル配置先属性による分割が行われ、共有ファイル配置先がサーバ１２のグループ（サーバ２〜３）と、共有ファイル配置先がサーバ１３のグループ（サーバ４〜７）と、共有ファイル配置先がサーバ１４のグループ（サーバ８〜１１）に分割される。同様に、ＮＦＳサーバのグループに対しては、条件３の提供ファイル種別属性による分割が行われ、提供ファイル種別がＨＴＭＬファイルのグループ（サーバ１２）と、提供ファイル種別が画像ファイルのグループ（サーバ１３）と、提供ファイル種別が映像ファイルのグループ（サーバ１４）に分割され、最終的に７個のグループが作成される。

以上説明したように、前記実施の形態によれば、監視システムのコストを低減することができる。具体的には、処理性能が似通った複数の監視対象を複数の群に分け、短い監視間隔で監視する群と長い監視間隔で監視する群を設けることで、全ての監視対象について短い監視間隔で監視する場合と比較して、監視能力を低下させることなく、監視エージェント側での監視コストを低減することができる。同時に、監視マネージャ側においても、監視エージェントからの情報を集約する頻度が小さくなるため、監視コストを低減することができる。

更に、処理性能が似通った監視対象を一つのグループとして、負荷変動に関するグループ間の相関度が強い場合、グループ間で監視間隔の変更情報を伝達させることで、システム状態を迅速に把握することができる。

また、監視対象のシステム構成が変更された場合、監視対象の監視間隔を短い監視間隔に変更することで、構成変更後のシステム状態を迅速に把握することができる。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

本発明は、情報処理システムの性能を監視する監視システム、および、その監視方法に適用して有効であり、システム監視を行うソフトウェア製品、あるいは、システム監視を行う監視装置などに適用可能である。

本発明の第１の実施の形態である監視システムを示すブロック図である。本発明の第１の実施の形態である監視システムにおいて、群管理テーブルを示す図である。本発明の第１の実施の形態である監視システムにおいて、別の群管理テーブルを示す図である。本発明の第１の実施の形態である監視システムにおいて、群に含まれる監視エージェントプログラムを群間で入れ替える処理を示すフロー図である。本発明の第１の実施の形態である監視システムにおいて、監視強化／弱化処理を示すフロー図である。本発明の第２の実施の形態である監視システムを示すブロック図である。本発明の第２の実施の形態である監視システムにおいて、群管理テーブルを示す図である。本発明の第２の実施の形態である監視システムにおいて、別の群管理テーブルを示す図である。本発明の第２の実施の形態である監視システムにおいて、監視強度テーブルを示す図である。本発明の第２の実施の形態である監視システムにおいて、監視強化／弱化処理を示すフロー図である。本発明の第３の実施の形態である監視システムにおいて、監視エージェントプログラムを示すブロック図である。本発明の第３の実施の形態である監視システムにおいて、監視強度テーブルを示す図である。本発明の第１の実施の形態である監視システムにおいて、障害が発生した際の対応処理を示すフロー図である。本発明の第４の実施の形態である監視システムを示すブロック図である。本発明の第４の実施の形態である監視システムにおいて、群および負荷量管理テーブルの設定例（パターン１）を示す図である。本発明の第４の実施の形態である監視システムにおいて、群および負荷量管理テーブルの設定例（パターン２）を示す図である。本発明の第４の実施の形態である監視システムにおいて、負荷量設定処理を示すフロー図である。本発明の第５の実施の形態である監視システムを示すブロック図である。本発明の第５の実施の形態である監視システムにおいて、群管理テーブルを示す図である。本発明の第６の実施の形態である監視システムを示すブロック図である。本発明の第６の実施の形態である監視システムにおいて、グループテーブルを示す図である。本発明の第７の実施の形態である監視システムを示すブロック図である。本発明の第７の実施の形態である監視システムにおいて、関連付けテーブルを示す図である。本発明の第８の実施の形態である監視システムを示すブロック図である。本発明の第８の実施の形態である監視システムにおいて、グループ分割例を示す図である。本発明の第８の実施の形態である監視システムにおいて、グループ間の関連付けの例を示す図である。本発明の第８の実施の形態である監視システムにおいて、属性テーブルを示す図である。本発明の第８の実施の形態である監視システムにおいて、関連付けテーブルを示す図である。本発明の第８の実施の形態である監視システムにおいて、グループ分割処理を示すフロー図である。本発明の第９の実施の形態である監視システムを示すブロック図である。本発明の第９の実施の形態である監視システムにおいて、相関度つき関連付けテーブルを示す図である。本発明の第９の実施の形態である監視システムにおいて、相関度によるイベント伝播処理を示すフロー図である。本発明の第９の実施の形態である監視システムにおいて、相関度を更新する処理を示すフロー図である。本発明の第９の実施の形態である監視システムにおいて、グループを併合する処理を示すフロー図である。本発明の第１０の実施の形態である監視システムにおいて、属性テーブルを示す図である。本発明の第１０の実施の形態である監視システムにおいて、グループ分割（ＣＰＵ性能）を示す模式図である。本発明の第１０の実施の形態である監視システムにおいて、グループ分割（メモリ性能）を示す模式図である。本発明の第１０の実施の形態である監視システムにおいて、グループ分割（ＨＤＤ性能）を示す模式図である。本発明の第１１の実施の形態である監視システムにおいて、属性テーブルを示す図である。本発明の第１１の実施の形態である監視システムにおいて、グループ分割を示す模式図である。本発明の第１２の実施の形態である監視システムにおいて、属性テーブルを示す図である。本発明の第１２の実施の形態である監視システムにおいて、グループ分割を示す模式図である。本発明の第１３の実施の形態である監視システムにおいて、属性テーブルを示す図である。本発明の第１３の実施の形態である監視システムにおいて、システム構成を示す図である。本発明の第１３の実施の形態である監視システムにおいて、グループ分割を示す模式図である。

符号の説明

０００１…監視装置、０００２…監視マネージャプログラム、０００３…イベント受信部、０００４…監視間隔管理部、０００５…監視エージェントプログラム管理部、０００６…記憶装置、０００７…監視間隔情報、０００８…群情報、０００９…ＬＡＮ、００１０…監視対象、００１１…監視エージェントプログラム、００１２…第１群、００１３…第２群、００１４…監視強度情報、００１５…統計処理部、００１６…性能情報取得部、００１７…性能情報一時記憶、００１８…イベント送信、００１９…性能情報取得・統計処理、００２０…性能情報取得、００２１…負荷量管理部、００２２…負荷量情報、００２３…監視エージェントプログラムＬ、００２４…負荷分散装置、００２５…グループ管理部、００２６…グループ情報、００２７…グループ１、００２８…グループ２、００２９…第１群、００３０…第２群、００３１…関連付け管理部、００３２…関連付け情報、００３３…構成情報記憶装置、００３４…属性情報、００３５…相関計算部、００３６…相関度情報、０１００…群管理テーブル、０１０１…群管理テーブル、０１０２…群管理テーブル、０１０３…群管理テーブル、０１０４…監視強度テーブル、０１０５…監視強度テーブル、０１０６…群および負荷量管理テーブル、０１０７…群および負荷量管理テーブル、０１０８…群管理テーブル、０１０９…グループテーブル、０１１０…関連付けテーブル、０１１１…属性テーブル、０１１２…関連付けテーブル、０１１３…相関度つき関連付けテーブル、０２０１…属性テーブル、０２０２…属性テーブル、０２０３…属性テーブル、０２０４…属性テーブル、０３０１…ユーザ１グループ、０３０２…負荷分散グループ、０３０３…Ｗｅｂグループ、０３０４…Ｗｅｂグループ１、０３０５…Ｗｅｂグループ２、０３０６…ＮＦＳグループ、０３０７…負荷分散サーバ１、０３０８…Ｗｅｂサーバ１、０３０９…Ｗｅｂサーバ２、０３１０…Ｗｅｂサーバ３、０３１１…Ｗｅｂサーバ４、０３１２…ＮＦＳサーバ１、０３１３…ＬＡＮ１、０３１４…ＬＡＮ２、０３１５…関連付け。

Claims

監視対象を所定の監視間隔で監視する、複数の監視エージェントプログラムと、
前記複数の監視エージェントプログラムを制御する監視マネージャプログラムと、からなる監視システムであって、
前記監視マネージャプログラムは、前記複数の監視エージェントプログラムを複数の各群に分ける機能を備え、
第１の群に含まれる監視エージェントプログラムは、第２の群に含まれる監視エージェントプログラムよりも短い監視間隔で監視対象を監視する機能を備える、ことを特徴とする監視システム。
請求項１記載の監視システムにおいて、
前記監視マネージャプログラムは、前記各群に含まれる監視エージェントプログラムを群間で入れ替える機能を備える、ことを特徴とする監視システム。
請求項１記載の監視システムにおいて、
前記監視エージェントプログラムは、監視対象を監視することで得られた情報が所定の条件を満たした場合、前記監視マネージャプログラムへイベントを通知する機能を備え、
前記監視マネージャプログラムは、イベントの内容を分析し、前記各群に含まれる監視エージェントプログラムの数、および各群における監視エージェントプログラムが監視対象を監視する監視間隔を計算する監視間隔計算機能と、計算の結果、監視する間隔を変更する前記監視エージェントプログラムへ変更を指示する機能とを備える、ことを特徴とする監視システム。
請求項３記載の監視システムにおいて、
前記監視エージェントプログラムは、第１の間隔で監視対象を監視して情報を取得し、第２の間隔で取得した情報が所定の条件を満たすか否かを判定し、条件を満たす場合、前記監視マネージャプログラムへイベントを通知する機能を備え、
前記監視マネージャプログラムは、イベントの内容を分析し、前記各群に含まれる監視エージェントプログラムの数、および各群における監視エージェントプログラムが持つ前記第１の間隔および第２の間隔を計算する監視間隔計算機能と、計算の結果、監視する間隔を変更する前記監視エージェントプログラムへ変更を指示する機能とを備える、ことを特徴とする監視システム。
請求項３記載の監視システムにおいて、
前記監視マネージャプログラムは、監視対象が構成変更されたイベントを受信する機能と、前記機能によってイベントを受信したのち、前記監視間隔計算機能によって計算された監視間隔を短縮させる機能とを備える、ことを特徴とする監視システム。
請求項１記載の監視システムにおいて、
前記監視マネージャプログラムは、監視対象において障害が発生した場合、その旨を障害イベントとして受信する機能と、前記障害イベントを受信したのち、前記障害イベントに対応する監視エージェントプログラムが短い監視間隔の群に含まれる場合、前記短い監視間隔の群よりも監視間隔が長い群に含まれる監視エージェントプログラムを、前記短い監視間隔の群へ変更する代替機能とを備える、ことを特徴とする監視システム。
請求項１記載の監視システムにおいて、
前記監視マネージャプログラムは、前記監視エージェントプログラムが監視する監視対象への負荷量を設定する負荷量設定機能を備え、前記負荷量設定機能を用いて、前記各群ごとに、その群に含まれる監視エージェントプログラムが監視する監視対象への負荷量を設定する、ことを特徴とする監視システム。
請求項１記載の監視システムにおいて、
前記監視マネージャプログラムは、前記監視エージェントプログラムを複数のグループに分割し、各グループに含まれる監視エージェントプログラムを前記各群に分ける機能を備える、ことを特徴とする監視システム。
請求項８記載の監視システムにおいて、
前記監視対象の構成情報を記憶した構成情報記憶装置を備え、
前記監視マネージャプログラムは、前記構成情報記憶装置から監視対象ごとに前記監視対象の構成情報を取得し、前記構成情報を所定の評価条件で評価し、その結果が同一、もしくは所定の範囲内である監視対象同士を同一のグループとする機能を備える、ことを特徴とする監視システム。
請求項９記載の監視システムにおいて、
前記監視対象が情報処理装置である場合、監視対象のスペック情報の同一性を評価する条件を、前記評価条件としてグループを作成する、ことを特徴とする監視システム。
請求項９記載の監視システムにおいて、
前記監視対象がアプリケーションが動作している情報処理装置である場合、監視対象のアプリケーションの同一性を評価する条件を、前記評価条件としてグループを作成する、ことを特徴とする監視システム。
請求項９記載の監視システムにおいて、
前記構成情報記憶装置は、前記グループ間の関連付け情報を記憶し、前記関連付けごとに、前記関連付けによって関連付けられているグループ間の相関性を示す相関度を記憶する、ことを特徴とする監視システム。
請求項１２記載の監視システムにおいて、
前記監視マネージャプログラムは、前記監視エージェントプログラムからイベントを受信したのち、前記監視エージェントプログラムが含まれるグループと関連付けを持つグループへ、前記イベントを伝播させるか否かの判断を、前記関連付けに対応する相関度が所定の条件を満たすか否かで判断する、ことを特徴とする監視システム。
請求項１２記載の監視システムにおいて、
前記監視エージェントプログラムは、監視対象を監視して取得した情報を記憶する性能情報記憶装置を備え、
前記監視マネージャプログラムは、所定のスケジュールにしたがって、前記関連付けによって関連付けられたグループに含まれる監視対象の性能情報の相関性を計算する相関性計算機能を備え、前記相関性計算機能による計算結果を前記相関度に記憶する、ことを特徴とする監視システム。
請求項１４記載の監視システムにおいて、
前記相関性計算機能による計算結果が、所定の条件を満たす場合、前記関連付けられたグループを併合して一つのグループとする、ことを特徴とする監視システム。
監視対象を所定の監視間隔で監視する、複数の監視エージェントプログラムと、
前記複数の監視エージェントプログラムを制御する監視マネージャプログラムと、からなる監視システムにおける監視方法であって、
前記複数の監視エージェントプログラムを複数の各群に分け、第１の群に含まれる監視エージェントプログラムは、第２の群に含まれる監視エージェントプログラムよりも短い監視間隔で監視対象を監視する、ことを特徴とする監視方法。
請求項１６記載の監視方法において、
前記監視エージェントプログラムは、第１の間隔で監視対象を監視して情報を取得し、第２の間隔で取得した情報が所定の条件を満たすか否かを判定し、条件を満たす場合、前記監視マネージャプログラムへイベントを通知し、
前記監視マネージャプログラムは、イベントの内容を分析し、前記各群に含まれる監視エージェントプログラムの数、および各群における監視エージェントプログラムが持つ前記第１の間隔および第２の間隔を計算し、計算の結果、監視する間隔を変更する前記監視エージェントプログラムへ変更を指示する、ことを特徴とする監視方法。
請求項１６記載の監視方法において、
前記監視エージェントプログラムを複数のグループに分割し、各グループに含まれる監視エージェントプログラムを前記各群に分ける、ことを特徴とする監視方法。
請求項１８記載の監視方法において、
前記構成情報記憶装置から監視対象ごとに前記監視対象の構成情報を取得し、前記構成情報を所定の評価条件で評価し、その結果が同一、もしくは所定の範囲内である監視対象同士を同一のグループとする、ことを特徴とする監視方法。
請求項１９記載の監視方法において、
前記監視対象が情報処理装置である場合、監視対象のスペック情報の同一性を評価する条件を、前記評価条件としてグループを作成する、ことを特徴とする監視方法。