JP5701403B2

JP5701403B2 - 監視計算機及び方法

Info

Publication number: JP5701403B2
Application number: JP2013548958A
Authority: JP
Inventors: 峰義増田; 清美和田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2011-12-15
Filing date: 2011-12-15
Publication date: 2015-04-15
Anticipated expiration: 2031-12-15
Also published as: US20140317286A1; WO2013088477A1; JPWO2013088477A1

Description

本発明は、計算機システムの状態、性能を監視する装置において、監視した結果得られる計測データの削除技術に関わる。

監視システムは、情報システムが適正な性能で情報処理していることを監視する。監視システムは、監視対象の計算機システムを構成するコンポーネント（計算機、オペレーティングシステムおよびアプリケーション等）から性能情報を収集する。監視システムは、収集した性能情報を分析し、情報システムの性能が適正か否か判定する。

監視システムが収集する性能情報のデータ量は膨大な大きさになる。これは、監視対象の計算機システムが多数のコンポーネントから構成されること、監視対象システムから性能情報を収集する間隔が分オーダーと短いこと、による。千台超の計算機からなる大規模な計算機システムを監視する監視システムでは、１日あたりの性能情報のデータ量は数十ＧＢに達することもある。

特許文献１には、監視システムの監視間隔を動的に変更し、短い間隔で計測する期間と、長い間隔で計測する期間とを分ける技術が開示されている。すなわち、平時は長い監視間隔で監視を行い、特定の条件下、例えば、性能障害発生後は、監視間隔を短くすることが開示されている。

特開平５−２０５０７４号公報

既述した従来の監視方法では、監視対象システムの異常発生時以降であれば詳細データを残すことができる。しかし、異常発生時以前の詳細データを残すことができない。

本発明は以上の点を考慮してなされたもので、その目的は、最小限の詳細データを削除せずに残し、管理者の詳細データ参照要求に応えることである。

本発明では、管理者が、後日参照する可能性が高い詳細データの期間を特定し、それ以外の詳細データを削除する。

本発明の第１の実施の形態では、システムに発生した事象（イベント）の前後期間は、後日参照される可能性が高いとみなし、イベント前後の規定された期間（保護期間と称す）分、詳細データを残す。また、保護期間を、イベントの重要度に応じて優先度をつけ、保護期間にある詳細データであっても優先度が低い順に詳細データを削除する。

第１の実施の形態では、予め規定された期間を保護期間とするが、本発明の第２の実施の形態では、保護期間を規定値ではなく、システムがイベント発生後の異常状態を脱し、平常状態に戻るまでを保護期間とする。つまり、システムの状態に応じて、保護期間の長短を変更する。これにより、保護期間の長さを最適化できる。

また、本発明の第３の実施形態では、管理者による詳細データへの参照履歴に基づいて保護期間の長さを決定する。これにより、保護期間の長さをより最適化できる。

本発明によれば、より少ない詳細データで、管理者が後日参照する可能性の高い詳細データだけを残すことができる。

第１の実施の形態によるシステム全体の概略構成を示すブロック図である。記憶資源におけるデータ構成を示す概念図である。詳細データテーブルの構成を示す概念図である。要約データテーブルの構成を示す概念図である。イベントテーブルの構成を示す概念図である。設定テーブルの構成を示す概念図である。保護期間テーブルの構成を示す概念図である。ベースラインテーブルの構成を示す概念図である。データ参照記録テーブルの構成を示す概念図である。クォータテーブルの構成を示す概念図である。エントリ作成処理の処理手順を示すフローチャートである。第１の詳細データ削除処理の処理手順を示すフローチャートである。保護期間取得処理の処理手順を示すフローチャートである。ユーザによる詳細データ参照時間を記録する処理の処理手順を示すフローチャートである。第２の詳細データ削除処理の処理手順を示すフローチャートである。期間設定処理の処理手順を示すフローチャートである。管理者へ性能情報を表示する性能情報画面の画面構成例を示す平面図である。

以下図面について、本発明の一実施の形態を詳述する。

（１）第１の実施の形態
図１は、第１の実施の形態の全体システム構成図である。管理計算機０１００は物理計算機であり、ＣＰＵ０１０１、記憶資源０１０２、出力インターフェース（以下、インターフェースをＩ／Ｆと記す）０１０３、入力Ｉ／Ｆ０１０４、記憶デバイスＩ／Ｆ０１０５およびネットワークインターフェースカード（以下、これをＮＩＣと呼ぶ）０１０８を具備する。管理計算機０１００の入力Ｉ／Ｆ０１０４は、マウスやキーボードといった入力デバイスと接続され、ユーザからの操作を受け付ける。出力Ｉ／Ｆ０１０３は、ディスプレイ０１０６といった出力デバイスと接続され、ユーザへの画面出力を行う。出力デバイスであれば他にもプリンタ（図示せず）も出力Ｉ／Ｆ０１０３に接続可能である。ＮＩＣ０１０８は、ネットワーク０１５０を介して監視対象計算機０１３０と接続されている。

監視対象計算機０１３０は、管理計算機０１００と同様のハードウエア構成を有する計算機で、各々ＣＰＵ０１３１と、記憶資源０１３２と、管理計算機０１００とネットワーク接続するためのＮＩＣ０１３３と、記憶デバイス０１３８と各々接続するための記憶デバイスＩ／Ｆ０１３４とを備えて構成される。図示していないが管理計算機０１００で実装された他の入力Ｉ／Ｆ０１０４や出力Ｉ／Ｆ０１０３を監視対象計算機０１３０が備えていてもよい。

図２に記憶資源０１０２におけるデータ構成を示す。記憶資源０１０２には，管理プログラム０１２０および各種テーブル（後述）が格納される。管理プログラム０１２０には、監視プログラム０１１０、要約プログラム０１１１、詳細データ削除プログラム０１１２、設定プログラム０１１３、参照管理プログラム０１１４およびクォータ設定プログラム０１１５が含まれる。これらのプログラムは、通常記憶デバイス０１０７に格納されており、ＣＰＵ０１０１の要求により記憶資源０１０２へロードされ実装される。なお、記憶デバイス０１０７と前記の記憶資源０１０２とは、同じものであっても異なるものであってもよい。

記憶資源０１０２に格納されるテーブルとしては、監視プログラム０１１０が、監視対象計算機０１３０に対する監視結果を格納する詳細データテーブル０２００と、要約プログラム０１１１が、詳細データテーブル０２００の内容をもとに作成した要約データを格納する要約データテーブル０３００と、監視プログラム０１１０が検知したイベント情報を格納するイベントテーブル０４００と、管理者による設定の内容を格納する設定テーブル０５００と、長期保存する（削除せずに保護する）詳細データの保護期間を管理する保護期間テーブル０６００と、監視プログラム０１１０が詳細データテーブル０２００の内容をもとに作成したベースラインデータを格納するベースラインテーブル０７００と、管理者による詳細データテーブル０２００への参照履歴を格納するデータ参照記録テーブル０８００と、クォータ設定を格納するクォータテーブル１０００となどのテーブルがあり、各プログラムが処理に応じてこれらのテーブルに、適宜、情報を読み書きする。これらのテーブルは、また記憶デバイス０１０７にも格納され、必要に応じてＣＰＵ０１０１が、記憶デバイス０１０７から読み出して記憶資源０１０２へロードしたり、記憶資源０１０２上の各種テーブルの情報を記憶デバイス０１０７へ格納する。

図３は、詳細データテーブル０２００の構成を示す。この詳細データテーブル０２００には、監視プログラム０１１０が、監視対象計算機０１３０上で動作するＯＳ、アプリケーションおよび監視エージェントプログラムから取得した性能情報が格納される。監視プログラム０１１０は、定期的、あるいは、管理者からの要求に応じて、監視対象計算機０１３０上で動作するＯＳ、アプリケーション、あるいは、監視エージェントプログラムから性能情報を取得し、取得した性能情報を詳細データテーブル０２００に格納する。詳細データテーブル０２００は、監視対象計算機０１３０が所属するシステムを表す情報が格納されるシステム欄０２０１と、性能情報が記録された時刻が格納される計測時刻欄が０２０２と、性能計測の対象を示す情報が格納される計測対象欄０２０３、計測した監視項目を表すメトリックが格納されるメトリック欄０２０４と、計測値が格納される計測値欄０２０５とから構成される。

図４は、要約データテーブル０３００の構成を示す。この要約データテーブル０３００には、要約プログラム０１１１が、詳細データテーブル０２００に格納されたデータに対して要約処理を施した結果が格納される。ここで、要約処理とは、詳細データテーブル０２００に格納された計測データを、ある期間ごと（例えば１時間ごと）に分け、それぞれの期間に属する計測データに対して統計処理を施すことである。

要約データテーブル０３００のシステム欄０３０１、計測対象欄０３０３およびメトリック欄０３０４には、それぞれ統計処理のもとになった詳細データテーブル０２００のシステム欄０２０１、計測対象欄０２０３およびメトリック欄０２０４にそれぞれ格納された情報と同じ情報が格納される。期間欄０３０２には、要約処理の対象となった期間が格納される。平均値欄０３０５、ピーク欄０３０６および標準偏差欄０３０７には、それぞれ要約処理の結果得られた統計値（平均値、ピーク値または標準偏差）が格納される。なお要約データテーブル０３００に、これらの統計値以外の統計値を格納するようにしてもよい。

図５は、イベントテーブル０４００の構成を示す。監視プログラム０１１０は、監視対象計算機０１３０から得た各計測データが、特定条件に合致するか否かをチェックし、特定条件に合致する場合に、その内容および発生時刻をイベントテーブル０４００に格納する。

イベントテーブル０４００は、発生したイベントの通し番号であるイベント番号が格納されるイベント番号欄０４０１と、発生したイベントの種別を表すイベントＩＤが格納されるイベントＩＤ欄０４０２と、イベントが発生したシステムを表すシステム情報が格納されるシステム欄０４０３と、イベントの発生時刻が格納される発生時刻欄０４０４と、発生したイベントの詳細内容が格納される詳細内容欄０４０５とから構成される。なお、本実施の形態では、詳細データテーブル０２００に格納されたデータに基づいて、特定条件に合致するイベントを検出するようにしているが、詳細データテーブル０２００にイベント検出に用いないデータを格納するようにしてもよい。

図６は、設定テーブル０５００の構成を示す。この設定テーブル０５００には、管理計算機０１００が、詳細データを残す期間を決定する上での基準となる、様々な設定内容が格納される。具体的に、設定テーブル０５００には、保護期間（発生したイベントの前後どれくらいの期間分の詳細データを残すか）に関する情報が格納される。保護期間は、システムごと、イベント種別ごとに設定される。設定プログラム０１１３は、管理者からの設定入力を受領し、その内容を設定テーブル０５００へ格納する。

設定テーブル０５００は、設定の対象システムを示す情報が格納されるシステム欄０５０１と、設定の対象イベント種別を示すイベントＩＤが格納されるイベントＩＤ欄０５０２と、イベント発生時刻の前後期間を示す保護期間が格納される保護期間欄０５０３と、詳細データの削除されにくさを示す優先度が格納される優先度欄０５０４とからなる。また、設定テーブル０５００には、見極め期間が格納される見極め期間欄０５０５が設けられている。見極め期間は、イベント発生後、管理者が、そのイベント前後の詳細データを参照する可能性が高い期間である。イベント発生後、見極め期間の経過後であれば、イベント発生前後の詳細データを参照される可能性が下がる期間と言い換えてもよい。

図７は、保護期間テーブル０６００の構成を示す。保護期間テーブル０６００は、監視対象の計算機システムの詳細データを残すことが望ましい期間が格納される期間欄０６０３と、その詳細データの優先度が格納される優先度欄０６０４と、その詳細データを残すきっかけとなったイベントのイベント通し番号が格納されるイベント欄０６０２と、計測対象を表す情報が格納される計測対象欄０６０５と、その計測対象内の対象となるメトリックを表す情報が格納されるメトリック欄０６０６と、対応するメトリックに関する詳細データのサイズが格納されるサイズ欄０６０７とから構成される。

図８は、ベースラインテーブル０７００の構成を示す。このベースラインテーブル０７００には、監視対象計算機システムにおける各メトリックのベースラインが格納される。ベースラインは、メトリックの通常想定される基準線である。ベースラインは、例えば、同一曜日、同一時間帯の計測データの統計値として算出される。

ベースラインテーブル０７００は、個々のベースラインを識別するベースライン識別子が格納されるベースライン識別子欄０７０１と、作成したベースラインの対象システムを表す情報が格納されるシステム欄０７０２と、ベースライン作成のもとになったデータの収集期間が格納される期間欄０７０３と、計測対象を表す情報が格納される計測対象欄０７０４と、対象とするメトリックを表す情報が格納されるメトリック欄０７０６と、そのメトリックに関するベースラインデータ（平均値、標準偏差などの統計値）が格納されるベースラインデータ欄０７０９と構成される。

図９は、データ参照記録テーブル０８００の構成を示す。このデータ参照記録テーブル０８００には、いつ、誰が、どのシステムの、どの期間の詳細データを参照したのかを表す情報が格納される。すなわち、データ参照記録テーブル０８００は、かかる詳細データの参照が行われた時刻（参照時刻）が格納される参照時刻欄０８０１と、その詳細データを参照した参照者を表す情報が格納される参照者欄０８０２と、参照対象となったシステムを表す情報が格納されるシステム欄０８０３と、詳細データのうちの参照対象となった期間を表す期間欄０８０４とから構成される。

データ参照記録テーブル０８００へのデータ格納は、参照管理プログラム０１１４が行う。参照管理プログラム０１１４は、管理者から、システムの性能情報参照要求を受け付け、詳細データテーブル０２００もしくは要約データテーブル０３００から求められた性能情報を取得し、性能情報画面１６００をディスプレイ０１０６に表示する。性能情報画面１６００の画面構成例を図１７に示す。

性能情報画面１６００には、表示要求されたシステムを構成するサーバや仮想マシン（VM：Virtual Machine）等の、ＣＰＵ使用率やメモリ使用量といった性能情報を表示した性能グラフ１６１０と、表示中の時間帯を示す表示時間帯１６０１とが表示される。性能グラフ１６１０には、詳細データおよび要約データが共に表示される。すなわち、表示要求された時間帯の性能情報が削除されずに詳細データテーブル０２００に残っていれば、図１７の破線枠（詳細データに基づく性能グラフ１６１１）に示すような詳細な性能グラフが表示され、詳細データが削除されていれば要約データに基づく粗い性能グラフが表示される。

管理者は、表示時間帯１６０１を操作することで（例えば、図１７に示す表示時間帯１６０１のスライダーを左右に動かすことで）、性能情報を表示する時間帯を変えることができる。参照管理プログラム０１１４は、表示する時間帯の変更に合わせて、新たに表示すべき性能情報を詳細データテーブル０２００もしくは要約データテーブル０３００から取得して、性能グラフ１６１０を更新する。このとき、参照管理プログラム０１１４は、参照された時間帯をデータ参照記録テーブル０８００に格納する。

図１０は、クォータテーブル０９００の構成を示す。クォータテーブル０９００には、システムごとの詳細データのデータサイズの上限（以下、これをクォータと呼ぶ）が格納される。クォータは、各月で１ＧＢ未満、通年で５ＧＢ未満のように、期間ごとに定められてもよい。図１０は、このようにクォータを期間ごとに定める場合のクォータテーブル０９００の構成例である。このクォータテーブル０９００は、システムを表す情報が格納されるシステム欄０９０１と、期間を表す期間欄０９０２と、その期間について定められたクォータが格納されるクォータ欄０９０３とから構成される。

図１１に、監視プログラム０１１０が保護期間テーブル０６００にエントリを作成する際に実行する処理（以下、これをエントリ作成処理と呼ぶ）の処理手順を示す。監視プログラム０１１０は、上述の通りイベントテーブル０４００にイベントを登録する。監視プログラム０１１０は、登録された各イベントに対して、設定テーブル０５００に格納された設定にしたがい、保護期間テーブル０６００にエントリを作成する。

（Ｓ１００１）監視プログラム０１１０は、イベントテーブル０４００から未処理イベント（保護期間テーブル０６００に、イベントに対応するエントリをまだ作成していないイベント）を取得する。

（Ｓ１００２）監視プログラム０１１０は、設定テーブル０５００から、未処理イベントのイベントＩＤがマッチするエントリの情報を取得する。この情報には、設定テーブル０５００の優先度欄０５０４および保護期間欄０５０３に格納されている、当該イベントに対応する優先度および保護期間（イベント前後の期間）が含まれる。

（Ｓ１００３）監視プログラム０１１０は、前ステップで取得した優先度および保護期間と、イベント自体の情報とに基づき、保護期間テーブル０６００にエントリを作成する。作成するエントリの期間欄０６０３には、当該イベントの発生時刻を起点とする、ステップＳ１００２で取得した保護期間を格納する。また、作成するエントリの優先度欄０６０４には、前ステップで取得した優先度を格納する。

なお、かかるエントリ作成処理は、イベントを検知するたびに実行してもよいし、定期的に実行して、前回実行時以降に検知した複数のイベントに対してまとめて実行してもよい。

次に、詳細データ削除プログラム０１１２により実行される第１の詳細データ削除処理について説明する。

詳細データ削除プログラム０１１２は、当該システムの見極め期間を設定する。見極め期間とは、以下の２つの時刻（（Ａ）および（Ｂ）の時刻）の間の時間である。
（Ａ）現在時刻
（Ｂ）見極め期間にあるイベントの中で、最も過去に発生したイベントの発生時間

見極め期間にあるイベントとは、イベント発生後の経過時間が、設定テーブル０５００の見極め期間欄０５０５に格納された見極め期間以内であるイベントのことである。

見極め期間にあるイベントが一つもない場合、詳細データ削除プログラム０１１２は、所与の期間（例えば、１週間）を見極め期間とする。

（Ｓ１１０１）詳細データ削除プログラム０１１２は、イベントテーブル０４００を参照して、当該システムで発生した全イベントを取得する。次に、各イベントＩＤ欄０４０２に格納されたこれらのイベントのイベントＩＤをもとに、設定テーブル０５００の対応する見極め期間欄０５０５を参照して、イベントごとの見極め期間を取得する。

（Ｓ１１０２）詳細データ削除プログラム０１１２は、当該システムの保護なし期間を求める。保護なし期間とは、詳細データが削除処理から保護されていない期間であり、具体的には、見極め期間でも保護期間でもない期間である。詳細データ削除プログラム０１１２は、保護期間テーブル０６００を参照して、当該システム保護期間一覧を取得する。詳細データ削除プログラム０１１２は、これらの保護期間と、Ｓ１１０１で求めた見極め期間を除く期間を保護なし期間とする。

（Ｓ１１０３）詳細データ削除プログラム０１１２は、保護なし期間の詳細データを詳細データテーブル０２００から削除する。

（Ｓ１１０４）詳細データ削除プログラム０１１２は、詳細データ削除後のデータ量が、クォータテーブル０９００に格納されたクォータを超過しているかチェックする。クォータ違反している場合にはステップＳ１１０５へ進み、違反していなければ終了する。

詳細データ削除プログラム０１１２は、ステップＳ１１０５およびステップＳ１１０６で、クォータ違反が解消するまで、保護期間の詳細データを削除する。

（Ｓ１１０５）詳細データ削除プログラム０１１２は、削除対象の保護期間を決定するために、保護期間の順位付けを行う。具体的には、詳細データ削除プログラム０１１２は、保護期間テーブル０６００を参照し、当該システムにおける保護期間を取得し、その順位付けをする。順位付けは、例えば、まず優先度欄０６０４に格納された優先度に基づいてソートし、次に、同一優先度のイベントを発生時刻順にソートする。つまり、優先度が低いほど、古いイベントの保護期間ほど削除されやすくする。

（Ｓ１１０６）詳細データ削除プログラム０１１２は、ステップＳ１１０５でソートした保護期間を、クォータを満たすまで下位から順に削除する。詳細データ削除プログラム０１１２は、詳細データテーブル０２００上の情報を削除すると同時に、保護期間テーブル０６００上の該当する保護期間も削除する。

管理者が後日参照する詳細データの期間には、次の（Ａ）〜（Ｄ）の特性があると考えられる。
（Ａ）情報処理システムに、性能障害や構成変更などのイベントが発生した前後の期間は、他の期間に比べて参照可能性が高い
（Ｂ）重大なイベントほど参照可能性が高い
（Ｃ）イベント発生してからの時間経過が少ないほど参照可能性が高い
（Ｄ）イベント発生時間を中心時間として、中心時間に近い期間ほど参照可能性が高い

本実施の形態による管理計算機０１００は、上記の特性に該当する期間の詳細データを残し、それ以外を削除する。これにより、管理者が参照する可能性の高い詳細データを残しつつ、詳細データのデータ量を削減できる。

（２）第２の実施の形態
本実施の形態では、詳細データの保護期間を、設定テーブル０５００に格納した固定的な長さとするのではなく、システムの計測値に合わせて動的に変更する。これにより保存するデータを、より必要な分量に限定することができる。

具体的に、詳細データの保護期間は、システムにイベントが発生した後、システムの平常状態を回復するまでとする。つまり、システムに何らかの異常が認められた状態から、システムが平常と変わらない状態に回復するまでを詳細データの保護期間とする。

システムが平常であるか否かの判定には、ベースラインを用いる。すなわち、システムの計測値の履歴から、平常時にそのシステムの計測値が示す値の幅を算出する。例えば、システムのＣＰＵ使用率の履歴から、平均値と標準偏差（どの程度の幅をもってばらつくか）を求める。また１週間分の履歴から、システムの時間帯ごとの平均と標準偏差を算出しておく。平均値プラスマイナス標準偏差の幅は、平常時にシステムの計測値が示す範囲である。計測値がこの範囲内にあるか否かでシステムが平常であるか否かを判定できる。

ベースラインによる平常性判定には注意点が１つある。ベースラインは、システムの計測値の履歴から作成される。これは、システムの挙動が変わっていないことを前提としている。しかし、システムの構成を変更した後は、システムの挙動が変わっている可能性があり、この前提が成り立たない。そのため、システムの構成変更後は、構成変更後に計測したデータをもとにベースラインを作り直す必要がある。

図１３は、図１１について上述したエントリ作成処理において、ステップＳ１００２に代えて第２の実施の形態による管理計算機により実行される保護期間取得処理の処理手順を示す。第１の実施の形態では、詳細データ削除プログラム０１１２は、ステップＳ１００２で設定テーブル０５００を参照して、固定的な保護期間を読み取っていた。図１３に示す保護期間取得処理は、保護期間の後半（イベント発生時刻から保護期間の終了まで）を求める処理である。

（Ｓ１２０１）詳細データ削除プログラム０１１２は、イベントの種別が構成変更イベントか否かを判定する。これは、イベントテーブル０４００のイベントＩＤ０４０２を参照することで判定できる。イベントが構成変更イベントであればステップＳ１２０３へ、そうでなければステップＳ１２０２へ進む。

（Ｓ１２０２）イベントが構成変更でなければ、詳細データ削除プログラム０１１２は、ベースラインテーブル０７００を参照し、当該システムのベースラインを取得する。取得するベースラインは、イベント発生前の計測値をもとに作成されていても構わない。ただし、イベントが構成変更イベントであれば、詳細データ削除プログラム０１１２は、構成変更後に計測したデータから作成したベースラインを取得する。

次に、詳細データ削除プログラム０１１２は、詳細データテーブル０２００から、イベント発生後からのシステムの計測値を少しずつ読み込み、ベースラインと比較する。計測値とベースラインの差異が正常な範囲内に収まっていれば、詳細データ削除プログラム０１１２は、システムが平常性を回復したものとみなし、その時点までを対応する詳細データの保護期間とする。

管理者が後日参照する詳細データの期間には、第１の実施の形態で挙げた特性の他に、次の（Ａ）の特性があると考えられる。
（Ａ）管理者は、情報処理システムが平常状態である期間の詳細データを参照する可能性は低い。これは、この期間の詳細データを参照しても、情報処理システムの平常と変わらない様子が観察されるだけで、そこから得られる知見は少ない。すなわち、これを言い換えれば、管理者は、情報処理システムが何らかの異常状態を示している期間の詳細データを参照する可能性が高い。

本実施の形態では、情報処理システムに何らかの異常が発生（つまりイベント発生時間）してから、情報処理システムが平常状態に復すまでの期間は、管理者が参照する可能性が高い期間として残し、平常状態に復してから以降の期間は、管理者が参照する可能性が低い期間として削除する。これにより、イベント発生前後の固定的な期間だけ詳細データを残すとした第１の実施の形態の性能監視装置よりも、管理者が参照する詳細データを残す可能性を高めることができる。

（３）第３の実施の形態
本実施の形態では、ユーザによるデータ参照の履歴をもとに、見極め期間および保護期間の長さを変更する。

参照管理プログラム０１１４は、詳細データテーブル０２００もしくは要約データテーブル０３００から特定時間帯のデータを読み込み、出力Ｉ／Ｆ０１０３を通じてディスプレイ０１０６へグラフなどの形式で表示する。ユーザは、表示するデータの時間帯をスクロールさせながら、表示されたグラフを参考に、性能障害の解析を行う。ユーザによるグラフスクロール等の操作は、入力Ｉ／Ｆ０１０４を通じて、参照管理プログラム０１１４へ伝えられる。

参照管理プログラム０１１４は、伝えられたユーザによる参照時間帯をデータ参照記録テーブル０８００に記録する。その処理手順を図１４に示す。

（Ｓ１３０１）まず参照管理プログラム０１１４は、入力Ｉ／Ｆから、ユーザによるデータ参照が行われたこと、および、ユーザが参照した時間帯を受信する。

（Ｓ１３０２）次に、参照管理プログラム０１１４は、データ参照記録テーブル０８００に、参照時間帯等の情報を記録する。

本実施の形態において、詳細データ削除プログラム０１１２が詳細データを削除するために実行する第２の詳細データ削除処理の処理手順を図１５に示す。図１５に示す第２の詳細データ削除処理の処理手順は、図１２に示した第１の詳細データ削除処理の処理手順とほぼ同じであり、相違点は、第２の詳細データ削除処理では、ステップＳ１１０２およびステップＳ１１０３の間に、ステップＳ１４０１が追加されていることである。

（Ｓ１４０１）この処理は、ユーザが参照した記録のある期間は、保護なし期間であっても削除対象から除外する処理である。詳細データ削除プログラム０１１２は、ステップＳ１１０２で求めた保護なし期間のうち、データ参照記録テーブル０８００に格納された参照時間帯の記録と重複する期間を、保護なし期間から除外する。

本実施の形態では、ユーザによるデータ参照記録をもとに、見極め期間および保護期間を設定する。設定プログラム０１１３が、見極め期間および保護期間を設定するために実行する期間設定処理の処理手順を図１６に示す。

設定プログラム０１１３は、システムで発生したイベントを、ユーザが見極め期間内に参照しているか否かを判定する。見極め期間内に参照していれば、現在の見極め期間の設定値が正しく（もしくは、見極め期間が必要以上に長い）、見極め期間後に参照していれば、現在の見極め期間の設定値が短すぎることを示している。

（Ｓ１５０１）設定プログラム０１１３は、イベントテーブル０４００の発生時刻欄０４０４に格納されているシステムのイベントの発生時刻を取得し、当該発生時刻からの経過時間が、設定テーブル０５００の見極め期間欄０５０５に格納されている同イベントの見極め期間内に、ユーザによって参照されたか否かを調査する。この調査は、データ参照記録テーブル０８００の参照時刻欄０８０１に格納されている参照時刻が同イベント見極め期間内であるか否かを判定することにより行われる。かかるユーザの参照時刻が見極め期間内であればステップＳ１５０２に進み、そうでなければステップＳ１５０３へ進む。

（Ｓ１５０２）設定プログラム０１１３は、かかるイベントの見極め期間を短縮する。短縮方法は、現在設定されている見極め期間を一定時間分短縮してもよいし、全イベントの９０％（数字は任意）をカバーする見極め期間を設定してもよい。

（Ｓ１５０３）設定プログラム０１１３は、逆に、かかるイベントの見極め期間を延長する。延長方法は、短縮方法と同様に、現在設定されている見極め期間を一定時間分延長してもよいし、全イベントの９０％（数字は任意）をカバーする見極め期間を設定してもよい。

以降、ステップＳ１５０４〜ステップＳ１５０７で、設定プログラム０１１３は、対応する詳細データの保護期間の長さの適正さを判定し、必要であれば当該保護期間の長さを変更する。

（Ｓ１５０４）設定プログラム０１１３は、参照期間と保護期間との関係を次の（Ａ）〜（Ｃ）の３パターンに分類し、パターンごとにステップＳ１５０５〜ステップＳ１５０７へ進む。
（Ａ）参照期間が保護期間内に収まっている（ステップＳ１５０５へ進む）
（Ｂ）参照期間が保護期間と一部重複している（ステップＳ１５０６へ進む）
（Ｃ）参照期間が保護期間と重複していない（ステップＳ１５０７へ進む）

（Ｓ１５０５）設定プログラム０１１３は、かかるイベントに関する詳細データの保護期間を短縮する。保護期間を現在の設定値から一定時間分短縮してもよいし、全イベントの９０％（数字は任意）をカバーする保護期間を設定してもよい。

（Ｓ１５０６）設定プログラム０１１３は、かかるイベントの詳細データの保護期間を延長する。保護期間を現在の設定値から一定時間分延長してもよいし、全イベントの９０％（数字は任意）をカバーする保護期間を設定してもよい。

（Ｓ１５０７）設定プログラム０１１３は、参照期間と最も時間が近い保護期間に対応するイベントを、当該参照期間と関連するイベントであると判定する。設定プログラム０１１３は、当該イベントに関する詳細データの保護期間を延長する。延長の方法はステップＳ１５０６記載の方法と同様でよい。

管理者が後日参照する詳細データの期間は、管理者（複数人でもよい）、あるいは、監視対象となる情報処理システムによって異なる。例えば、情報処理システムＡの管理者は、警告イベント１が発生した前後期間の詳細データを参照するが、情報処理システムＢの管理者は、警告イベント１の前後期間を参照しない。本実施の形態では、管理計算機０１００が、管理者が性能情報を参照した履歴から、参照の仕方の特徴を分析し、その特徴に合わせて詳細データを残す期間を決める。

０１００：管理計算機、０１０１：ＣＰＵ、０１０２:記憶資源、０１０３:出力Ｉ／Ｆ、０１０４:入力Ｉ／Ｆ、０１０５：記憶デバイスＩ／Ｆ、０１０６：ディスプレイ、０１０７：記憶デバイス、０１０８：ＮＩＣ、０１１０：監視プログラム、０１１１：要約プログラム、０１１２：詳細データ削除プログラム、０１１３：設定プログラム、０１１４：参照管理プログラム、０１１５：クォータ設定プログラム、０２００：詳細データテーブル、０３００：要約データテーブル、０４００：イベントテーブル、０５００：設定テーブル、０６００：保護期間テーブル、０７００：ベースラインテーブル、０８００：データ参照記録テーブル、０９００：クォータテーブル、０１３０：監視対象計算機、０１３１：ＣＰＵ、０１３２：記憶資源、０１３３：ＮＩＣ、０１３４：記憶デバイスＩ／Ｆ、０１３８：記憶デバイス、０１５０：ネットワーク。

Claims

監視対象計算機を監視する監視計算機であって、
監視計算機は、
前記監視対象計算機の複数の時点の計測データを格納する記憶デバイスと、
前記計測データを表示デバイスに表示させるＣＰＵと、
前記ＣＰＵが用いるデータを格納する記憶資源と、
を有し、
前記ＣＰＵは、
前記計測データに基づいて、前記監視対象計算機で発生したイベント及イベント発生時間を特定し、
（１）前記記憶デバイスの容量又は予め定められた計測データの保持期間と、
（２）前記イベント発生時間から求められる削除除外期間と、
に基づいて、削除すべきでない計測データを考慮しつつ、前記複数の時点の計測データの一部を削除対象として選択し、
選択した計測データを前記記憶デバイスから削除し、
前記複数の時点の計測データは、
前記イベント特定に用いた第１種別の計測データと、前記第１種別とは異なる第２種別の計測データとを含み、
前記削除すべきでない計測データは、
前記第１種別の計測データと前記第２種別の計測データとを含み、
前記削除除外期間は、
（２ａ）前記イベントの種別を特定し、
（２ｂ）前記イベント種別から、基点の時間から除外すべきでない計測データの前後時間を特定し、
（２ｃ）前記イベント発生時間を前記基点として、前記前後時間から前記削除除外期間を計算することにより求められ、
前記ＣＰＵは、
イベント種別に応じた削除除外優先度を管理し、
前記削除すべきでない計測データを、前記削除除外優先度に基づいて選択し、
前記ＣＰＵは、
前記計測データの表示に伴って、前記除外期間に含まれる計測データが表示対象となったか否かを前記記憶資源に記録し、
前記削除すべきでない計測データで、かつ過去に表示対象でない計測データは、削除対象とする
ことを特徴とする監視計算機。
請求項１記載の監視計算機であって、
前記ＣＰＵは、
前記計測データを統計処理して作成された、正常な計測データの時間的な推移を示すベースラインデータを前記記憶資源に格納し、
前記ベースラインデータと前記計測データを比較することで前記イベントを特定する
ことを特徴とする監視計算機。
請求項２記載の監視計算機であって、
前記記憶資源又は記憶デバイスは、前記削除対象データに対応する要約データを格納し、
前記ＣＰＵは、前記計測データと組み合わせて前記要約データを表示する
ことを特徴とする監視計算機。
監視計算機が監視対象計算機を監視する監視方法であって、
前記監視計算機は、
前記監視対象計算機の複数の時点の計測データを格納する記憶デバイスと、
前記計測データを表示デバイスに表示させるＣＰＵと、
前記ＣＰＵが用いるデータを格納する記憶資源と、
を有し、
前記ＣＰＵが、前記計測データに基づいて、前記監視対象計算機で発生したイベント及イベント発生時間を特定する第１のステップと、
前記ＣＰＵが、前記記憶デバイスの容量又は予め定められた計測データの保持期間と、前記イベント発生時間から求められる削除除外期間とに基づいて、削除すべきでない計測データを考慮しつつ、前記複数の時点の計測データの一部を削除対象として選択する第２のステップと、
前記ＣＰＵが、選択した計測データを前記記憶デバイスから削除する第３のステップと
を備え、
前記複数の時点の計測データは、
前記イベント特定に用いた第１種別の計測データと、前記第１種別とは異なる第２種別の計測データとを含み、
前記削除すべきでない計測データは、
前記第１種別の計測データと前記第２種別の計測データとを含み、
前記削除除外期間は、
（２ａ）前記イベントの種別を特定し、
（２ｂ）前記イベント種別から、基点の時間から除外すべきでない計測データの前後時間を特定し、
（２ｃ）前記イベント発生時間を前記基点として、前記前後時間から前記削除除外期間を計算することにより求められ、
前記第２のステップにおいて、前記ＣＰＵは、
イベント種別に応じた削除除外優先度を管理し、
前記削除すべきでない計測データを、前記削除除外優先度に基づいて選択し、
前記第２のステップにおいて、前記ＣＰＵは、
前記計測データの表示に伴って、前記除外期間に含まれる計測データが表示対象となったか否かを前記記憶資源に記録し、
前記削除すべきでない計測データで、かつ過去に表示対象でない計測データは、削除対象とする
ことを特徴とする監視方法。
請求項４記載の監視方法であって、
前記第１のステップにおいて、前記ＣＰＵは、
前記計測データを統計処理して作成された、正常な計測データの時間的な推移を示すベースラインデータを前記記憶資源に格納し、
前記ベースラインデータと前記計測データを比較することで前記イベントを特定する
ことを特徴とする監視方法。
請求項５記載の監視方法であって、
前記記憶資源又は記憶デバイスは、前記削除対象データに対応する要約データを格納し、
前記ＣＰＵは、前記計測データと組み合わせて前記要約データを表示する
ことを特徴とする監視方法。