JP5701403B2 - 監視計算機及び方法 - Google Patents

監視計算機及び方法 Download PDF

Info

Publication number
JP5701403B2
JP5701403B2 JP2013548958A JP2013548958A JP5701403B2 JP 5701403 B2 JP5701403 B2 JP 5701403B2 JP 2013548958 A JP2013548958 A JP 2013548958A JP 2013548958 A JP2013548958 A JP 2013548958A JP 5701403 B2 JP5701403 B2 JP 5701403B2
Authority
JP
Japan
Prior art keywords
measurement data
event
period
data
cpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013548958A
Other languages
English (en)
Other versions
JPWO2013088477A1 (ja
Inventor
峰義 増田
峰義 増田
清美 和田
清美 和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of JP5701403B2 publication Critical patent/JP5701403B2/ja
Publication of JPWO2013088477A1 publication Critical patent/JPWO2013088477A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/328Computer systems status display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、計算機システムの状態、性能を監視する装置において、監視した結果得られる計測データの削除技術に関わる。
監視システムは、情報システムが適正な性能で情報処理していることを監視する。監視システムは、監視対象の計算機システムを構成するコンポーネント(計算機、オペレーティングシステムおよびアプリケーション等)から性能情報を収集する。監視システムは、収集した性能情報を分析し、情報システムの性能が適正か否か判定する。
監視システムが収集する性能情報のデータ量は膨大な大きさになる。これは、監視対象の計算機システムが多数のコンポーネントから構成されること、監視対象システムから性能情報を収集する間隔が分オーダーと短いこと、による。千台超の計算機からなる大規模な計算機システムを監視する監視システムでは、1日あたりの性能情報のデータ量は数十GBに達することもある。
特許文献1には、監視システムの監視間隔を動的に変更し、短い間隔で計測する期間と、長い間隔で計測する期間とを分ける技術が開示されている。すなわち、平時は長い監視間隔で監視を行い、特定の条件下、例えば、性能障害発生後は、監視間隔を短くすることが開示されている。
特開平5−205074号公報
既述した従来の監視方法では、監視対象システムの異常発生時以降であれば詳細データを残すことができる。しかし、異常発生時以前の詳細データを残すことができない。
本発明は以上の点を考慮してなされたもので、その目的は、最小限の詳細データを削除せずに残し、管理者の詳細データ参照要求に応えることである。
本発明では、管理者が、後日参照する可能性が高い詳細データの期間を特定し、それ以外の詳細データを削除する。
本発明の第1の実施の形態では、システムに発生した事象(イベント)の前後期間は、後日参照される可能性が高いとみなし、イベント前後の規定された期間(保護期間と称す)分、詳細データを残す。また、保護期間を、イベントの重要度に応じて優先度をつけ、保護期間にある詳細データであっても優先度が低い順に詳細データを削除する。
第1の実施の形態では、予め規定された期間を保護期間とするが、本発明の第2の実施の形態では、保護期間を規定値ではなく、システムがイベント発生後の異常状態を脱し、平常状態に戻るまでを保護期間とする。つまり、システムの状態に応じて、保護期間の長短を変更する。これにより、保護期間の長さを最適化できる。
また、本発明の第3の実施形態では、管理者による詳細データへの参照履歴に基づいて保護期間の長さを決定する。これにより、保護期間の長さをより最適化できる。
本発明によれば、より少ない詳細データで、管理者が後日参照する可能性の高い詳細データだけを残すことができる。
第1の実施の形態によるシステム全体の概略構成を示すブロック図である。 記憶資源におけるデータ構成を示す概念図である。 詳細データテーブルの構成を示す概念図である。 要約データテーブルの構成を示す概念図である。 イベントテーブルの構成を示す概念図である。 設定テーブルの構成を示す概念図である。 保護期間テーブルの構成を示す概念図である。 ベースラインテーブルの構成を示す概念図である。 データ参照記録テーブルの構成を示す概念図である。 クォータテーブルの構成を示す概念図である。 エントリ作成処理の処理手順を示すフローチャートである。 第1の詳細データ削除処理の処理手順を示すフローチャートである。 保護期間取得処理の処理手順を示すフローチャートである。 ユーザによる詳細データ参照時間を記録する処理の処理手順を示すフローチャートである。 第2の詳細データ削除処理の処理手順を示すフローチャートである。 期間設定処理の処理手順を示すフローチャートである。 管理者へ性能情報を表示する性能情報画面の画面構成例を示す平面図である。
以下図面について、本発明の一実施の形態を詳述する。
(1)第1の実施の形態
図1は、第1の実施の形態の全体システム構成図である。管理計算機0100は物理計算機であり、CPU0101、記憶資源0102、出力インターフェース(以下、インターフェースをI/Fと記す)0103、入力I/F0104、記憶デバイスI/F0105およびネットワークインターフェースカード(以下、これをNICと呼ぶ)0108を具備する。管理計算機0100の入力I/F0104は、マウスやキーボードといった入力デバイスと接続され、ユーザからの操作を受け付ける。出力I/F0103は、ディスプレイ0106といった出力デバイスと接続され、ユーザへの画面出力を行う。出力デバイスであれば他にもプリンタ(図示せず)も出力I/F0103に接続可能である。NIC0108は、ネットワーク0150を介して監視対象計算機0130と接続されている。
監視対象計算機0130は、管理計算機0100と同様のハードウエア構成を有する計算機で、各々CPU0131と、記憶資源0132と、管理計算機0100とネットワーク接続するためのNIC0133と、記憶デバイス0138と各々接続するための記憶デバイスI/F0134とを備えて構成される。図示していないが管理計算機0100で実装された他の入力I/F0104や出力I/F0103を監視対象計算機0130が備えていてもよい。
図2に記憶資源0102におけるデータ構成を示す。記憶資源0102には,管理プログラム0120および各種テーブル(後述)が格納される。管理プログラム0120には、監視プログラム0110、要約プログラム0111、詳細データ削除プログラム0112、設定プログラム0113、参照管理プログラム0114およびクォータ設定プログラム0115が含まれる。これらのプログラムは、通常記憶デバイス0107に格納されており、CPU0101の要求により記憶資源0102へロードされ実装される。なお、記憶デバイス0107と前記の記憶資源0102とは、同じものであっても異なるものであってもよい。
記憶資源0102に格納されるテーブルとしては、監視プログラム0110が、監視対象計算機0130に対する監視結果を格納する詳細データテーブル0200と、要約プログラム0111が、詳細データテーブル0200の内容をもとに作成した要約データを格納する要約データテーブル0300と、監視プログラム0110が検知したイベント情報を格納するイベントテーブル0400と、管理者による設定の内容を格納する設定テーブル0500と、長期保存する(削除せずに保護する)詳細データの保護期間を管理する保護期間テーブル0600と、監視プログラム0110が詳細データテーブル0200の内容をもとに作成したベースラインデータを格納するベースラインテーブル0700と、管理者による詳細データテーブル0200への参照履歴を格納するデータ参照記録テーブル0800と、クォータ設定を格納するクォータテーブル1000となどのテーブルがあり、各プログラムが処理に応じてこれらのテーブルに、適宜、情報を読み書きする。これらのテーブルは、また記憶デバイス0107にも格納され、必要に応じてCPU0101が、記憶デバイス0107から読み出して記憶資源0102へロードしたり、記憶資源0102上の各種テーブルの情報を記憶デバイス0107へ格納する。
図3は、詳細データテーブル0200の構成を示す。この詳細データテーブル0200には、監視プログラム0110が、監視対象計算機0130上で動作するOS、アプリケーションおよび監視エージェントプログラムから取得した性能情報が格納される。監視プログラム0110は、定期的、あるいは、管理者からの要求に応じて、監視対象計算機0130上で動作するOS、アプリケーション、あるいは、監視エージェントプログラムから性能情報を取得し、取得した性能情報を詳細データテーブル0200に格納する。詳細データテーブル0200は、監視対象計算機0130が所属するシステムを表す情報が格納されるシステム欄0201と、性能情報が記録された時刻が格納される計測時刻欄が0202と、性能計測の対象を示す情報が格納される計測対象欄0203、計測した監視項目を表すメトリックが格納されるメトリック欄0204と、計測値が格納される計測値欄0205とから構成される。
図4は、要約データテーブル0300の構成を示す。この要約データテーブル0300には、要約プログラム0111が、詳細データテーブル0200に格納されたデータに対して要約処理を施した結果が格納される。ここで、要約処理とは、詳細データテーブル0200に格納された計測データを、ある期間ごと(例えば1時間ごと)に分け、それぞれの期間に属する計測データに対して統計処理を施すことである。
要約データテーブル0300のシステム欄0301、計測対象欄0303およびメトリック欄0304には、それぞれ統計処理のもとになった詳細データテーブル0200のシステム欄0201、計測対象欄0203およびメトリック欄0204にそれぞれ格納された情報と同じ情報が格納される。期間欄0302には、要約処理の対象となった期間が格納される。平均値欄0305、ピーク欄0306および標準偏差欄0307には、それぞれ要約処理の結果得られた統計値(平均値、ピーク値または標準偏差)が格納される。なお要約データテーブル0300に、これらの統計値以外の統計値を格納するようにしてもよい。
図5は、イベントテーブル0400の構成を示す。監視プログラム0110は、監視対象計算機0130から得た各計測データが、特定条件に合致するか否かをチェックし、特定条件に合致する場合に、その内容および発生時刻をイベントテーブル0400に格納する。
イベントテーブル0400は、発生したイベントの通し番号であるイベント番号が格納されるイベント番号欄0401と、発生したイベントの種別を表すイベントIDが格納されるイベントID欄0402と、イベントが発生したシステムを表すシステム情報が格納されるシステム欄0403と、イベントの発生時刻が格納される発生時刻欄0404と、発生したイベントの詳細内容が格納される詳細内容欄0405とから構成される。なお、本実施の形態では、詳細データテーブル0200に格納されたデータに基づいて、特定条件に合致するイベントを検出するようにしているが、詳細データテーブル0200にイベント検出に用いないデータを格納するようにしてもよい。
図6は、設定テーブル0500の構成を示す。この設定テーブル0500には、管理計算機0100が、詳細データを残す期間を決定する上での基準となる、様々な設定内容が格納される。具体的に、設定テーブル0500には、保護期間(発生したイベントの前後どれくらいの期間分の詳細データを残すか)に関する情報が格納される。保護期間は、システムごと、イベント種別ごとに設定される。設定プログラム0113は、管理者からの設定入力を受領し、その内容を設定テーブル0500へ格納する。
設定テーブル0500は、設定の対象システムを示す情報が格納されるシステム欄0501と、設定の対象イベント種別を示すイベントIDが格納されるイベントID欄0502と、イベント発生時刻の前後期間を示す保護期間が格納される保護期間欄0503と、詳細データの削除されにくさを示す優先度が格納される優先度欄0504とからなる。また、設定テーブル0500には、見極め期間が格納される見極め期間欄0505が設けられている。見極め期間は、イベント発生後、管理者が、そのイベント前後の詳細データを参照する可能性が高い期間である。イベント発生後、見極め期間の経過後であれば、イベント発生前後の詳細データを参照される可能性が下がる期間と言い換えてもよい。
図7は、保護期間テーブル0600の構成を示す。保護期間テーブル0600は、監視対象の計算機システムの詳細データを残すことが望ましい期間が格納される期間欄0603と、その詳細データの優先度が格納される優先度欄0604と、その詳細データを残すきっかけとなったイベントのイベント通し番号が格納されるイベント欄0602と、計測対象を表す情報が格納される計測対象欄0605と、その計測対象内の対象となるメトリックを表す情報が格納されるメトリック欄0606と、対応するメトリックに関する詳細データのサイズが格納されるサイズ欄0607とから構成される。
図8は、ベースラインテーブル0700の構成を示す。このベースラインテーブル0700には、監視対象計算機システムにおける各メトリックのベースラインが格納される。ベースラインは、メトリックの通常想定される基準線である。ベースラインは、例えば、同一曜日、同一時間帯の計測データの統計値として算出される。
ベースラインテーブル0700は、個々のベースラインを識別するベースライン識別子が格納されるベースライン識別子欄0701と、作成したベースラインの対象システムを表す情報が格納されるシステム欄0702と、ベースライン作成のもとになったデータの収集期間が格納される期間欄0703と、計測対象を表す情報が格納される計測対象欄0704と、対象とするメトリックを表す情報が格納されるメトリック欄0706と、そのメトリックに関するベースラインデータ(平均値、標準偏差などの統計値)が格納されるベースラインデータ欄0709と構成される。
図9は、データ参照記録テーブル0800の構成を示す。このデータ参照記録テーブル0800には、いつ、誰が、どのシステムの、どの期間の詳細データを参照したのかを表す情報が格納される。すなわち、データ参照記録テーブル0800は、かかる詳細データの参照が行われた時刻(参照時刻)が格納される参照時刻欄0801と、その詳細データを参照した参照者を表す情報が格納される参照者欄0802と、参照対象となったシステムを表す情報が格納されるシステム欄0803と、詳細データのうちの参照対象となった期間を表す期間欄0804とから構成される。
データ参照記録テーブル0800へのデータ格納は、参照管理プログラム0114が行う。参照管理プログラム0114は、管理者から、システムの性能情報参照要求を受け付け、詳細データテーブル0200もしくは要約データテーブル0300から求められた性能情報を取得し、性能情報画面1600をディスプレイ0106に表示する。性能情報画面1600の画面構成例を図17に示す。
性能情報画面1600には、表示要求されたシステムを構成するサーバや仮想マシン(VM:Virtual Machine)等の、CPU使用率やメモリ使用量といった性能情報を表示した性能グラフ1610と、表示中の時間帯を示す表示時間帯1601とが表示される。性能グラフ1610には、詳細データおよび要約データが共に表示される。すなわち、表示要求された時間帯の性能情報が削除されずに詳細データテーブル0200に残っていれば、図17の破線枠(詳細データに基づく性能グラフ1611)に示すような詳細な性能グラフが表示され、詳細データが削除されていれば要約データに基づく粗い性能グラフが表示される。
管理者は、表示時間帯1601を操作することで(例えば、図17に示す表示時間帯1601のスライダーを左右に動かすことで)、性能情報を表示する時間帯を変えることができる。参照管理プログラム0114は、表示する時間帯の変更に合わせて、新たに表示すべき性能情報を詳細データテーブル0200もしくは要約データテーブル0300から取得して、性能グラフ1610を更新する。このとき、参照管理プログラム0114は、参照された時間帯をデータ参照記録テーブル0800に格納する。
図10は、クォータテーブル0900の構成を示す。クォータテーブル0900には、システムごとの詳細データのデータサイズの上限(以下、これをクォータと呼ぶ)が格納される。クォータは、各月で1GB未満、通年で5GB未満のように、期間ごとに定められてもよい。図10は、このようにクォータを期間ごとに定める場合のクォータテーブル0900の構成例である。このクォータテーブル0900は、システムを表す情報が格納されるシステム欄0901と、期間を表す期間欄0902と、その期間について定められたクォータが格納されるクォータ欄0903とから構成される。
図11に、監視プログラム0110が保護期間テーブル0600にエントリを作成する際に実行する処理(以下、これをエントリ作成処理と呼ぶ)の処理手順を示す。監視プログラム0110は、上述の通りイベントテーブル0400にイベントを登録する。監視プログラム0110は、登録された各イベントに対して、設定テーブル0500に格納された設定にしたがい、保護期間テーブル0600にエントリを作成する。
(S1001) 監視プログラム0110は、イベントテーブル0400から未処理イベント(保護期間テーブル0600に、イベントに対応するエントリをまだ作成していないイベント)を取得する。
(S1002) 監視プログラム0110は、設定テーブル0500から、未処理イベントのイベントIDがマッチするエントリの情報を取得する。この情報には、設定テーブル0500の優先度欄0504および保護期間欄0503に格納されている、当該イベントに対応する優先度および保護期間(イベント前後の期間)が含まれる。
(S1003) 監視プログラム0110は、前ステップで取得した優先度および保護期間と、イベント自体の情報とに基づき、保護期間テーブル0600にエントリを作成する。作成するエントリの期間欄0603には、当該イベントの発生時刻を起点とする、ステップS1002で取得した保護期間を格納する。また、作成するエントリの優先度欄0604には、前ステップで取得した優先度を格納する。
なお、かかるエントリ作成処理は、イベントを検知するたびに実行してもよいし、定期的に実行して、前回実行時以降に検知した複数のイベントに対してまとめて実行してもよい。
次に、詳細データ削除プログラム0112により実行される第1の詳細データ削除処理について説明する。
詳細データ削除プログラム0112は、当該システムの見極め期間を設定する。見極め期間とは、以下の2つの時刻((A)および(B)の時刻)の間の時間である。
(A)現在時刻
(B)見極め期間にあるイベントの中で、最も過去に発生したイベントの発生時間
見極め期間にあるイベントとは、イベント発生後の経過時間が、設定テーブル0500の見極め期間欄0505に格納された見極め期間以内であるイベントのことである。
見極め期間にあるイベントが一つもない場合、詳細データ削除プログラム0112は、所与の期間(例えば、1週間)を見極め期間とする。
(S1101) 詳細データ削除プログラム0112は、イベントテーブル0400を参照して、当該システムで発生した全イベントを取得する。次に、各イベントID欄0402に格納されたこれらのイベントのイベントIDをもとに、設定テーブル0500の対応する見極め期間欄0505を参照して、イベントごとの見極め期間を取得する。
(S1102) 詳細データ削除プログラム0112は、当該システムの保護なし期間を求める。保護なし期間とは、詳細データが削除処理から保護されていない期間であり、具体的には、見極め期間でも保護期間でもない期間である。詳細データ削除プログラム0112は、保護期間テーブル0600を参照して、当該システム保護期間一覧を取得する。詳細データ削除プログラム0112は、これらの保護期間と、S1101で求めた見極め期間を除く期間を保護なし期間とする。
(S1103) 詳細データ削除プログラム0112は、保護なし期間の詳細データを詳細データテーブル0200から削除する。
(S1104) 詳細データ削除プログラム0112は、詳細データ削除後のデータ量が、クォータテーブル0900に格納されたクォータを超過しているかチェックする。クォータ違反している場合にはステップS1105へ進み、違反していなければ終了する。
詳細データ削除プログラム0112は、ステップS1105およびステップS1106で、クォータ違反が解消するまで、保護期間の詳細データを削除する。
(S1105) 詳細データ削除プログラム0112は、削除対象の保護期間を決定するために、保護期間の順位付けを行う。具体的には、詳細データ削除プログラム0112は、保護期間テーブル0600を参照し、当該システムにおける保護期間を取得し、その順位付けをする。順位付けは、例えば、まず優先度欄0604に格納された優先度に基づいてソートし、次に、同一優先度のイベントを発生時刻順にソートする。つまり、優先度が低いほど、古いイベントの保護期間ほど削除されやすくする。
(S1106) 詳細データ削除プログラム0112は、ステップS1105でソートした保護期間を、クォータを満たすまで下位から順に削除する。詳細データ削除プログラム0112は、詳細データテーブル0200上の情報を削除すると同時に、保護期間テーブル0600上の該当する保護期間も削除する。
管理者が後日参照する詳細データの期間には、次の(A)〜(D)の特性があると考えられる。
(A)情報処理システムに、性能障害や構成変更などのイベントが発生した前後の期間は、他の期間に比べて参照可能性が高い
(B)重大なイベントほど参照可能性が高い
(C)イベント発生してからの時間経過が少ないほど参照可能性が高い
(D)イベント発生時間を中心時間として、中心時間に近い期間ほど参照可能性が高い
本実施の形態による管理計算機0100は、上記の特性に該当する期間の詳細データを残し、それ以外を削除する。これにより、管理者が参照する可能性の高い詳細データを残しつつ、詳細データのデータ量を削減できる。
(2)第2の実施の形態
本実施の形態では、詳細データの保護期間を、設定テーブル0500に格納した固定的な長さとするのではなく、システムの計測値に合わせて動的に変更する。これにより保存するデータを、より必要な分量に限定することができる。
具体的に、詳細データの保護期間は、システムにイベントが発生した後、システムの平常状態を回復するまでとする。つまり、システムに何らかの異常が認められた状態から、システムが平常と変わらない状態に回復するまでを詳細データの保護期間とする。
システムが平常であるか否かの判定には、ベースラインを用いる。すなわち、システムの計測値の履歴から、平常時にそのシステムの計測値が示す値の幅を算出する。例えば、システムのCPU使用率の履歴から、平均値と標準偏差(どの程度の幅をもってばらつくか)を求める。また1週間分の履歴から、システムの時間帯ごとの平均と標準偏差を算出しておく。平均値プラスマイナス標準偏差の幅は、平常時にシステムの計測値が示す範囲である。計測値がこの範囲内にあるか否かでシステムが平常であるか否かを判定できる。
ベースラインによる平常性判定には注意点が1つある。ベースラインは、システムの計測値の履歴から作成される。これは、システムの挙動が変わっていないことを前提としている。しかし、システムの構成を変更した後は、システムの挙動が変わっている可能性があり、この前提が成り立たない。そのため、システムの構成変更後は、構成変更後に計測したデータをもとにベースラインを作り直す必要がある。
図13は、図11について上述したエントリ作成処理において、ステップS1002に代えて第2の実施の形態による管理計算機により実行される保護期間取得処理の処理手順を示す。第1の実施の形態では、詳細データ削除プログラム0112は、ステップS1002で設定テーブル0500を参照して、固定的な保護期間を読み取っていた。図13に示す保護期間取得処理は、保護期間の後半(イベント発生時刻から保護期間の終了まで)を求める処理である。
(S1201) 詳細データ削除プログラム0112は、イベントの種別が構成変更イベントか否かを判定する。これは、イベントテーブル0400のイベントID0402を参照することで判定できる。イベントが構成変更イベントであればステップS1203へ、そうでなければステップS1202へ進む。
(S1202) イベントが構成変更でなければ、詳細データ削除プログラム0112は、ベースラインテーブル0700を参照し、当該システムのベースラインを取得する。取得するベースラインは、イベント発生前の計測値をもとに作成されていても構わない。ただし、イベントが構成変更イベントであれば、詳細データ削除プログラム0112は、構成変更後に計測したデータから作成したベースラインを取得する。
次に、詳細データ削除プログラム0112は、詳細データテーブル0200から、イベント発生後からのシステムの計測値を少しずつ読み込み、ベースラインと比較する。計測値とベースラインの差異が正常な範囲内に収まっていれば、詳細データ削除プログラム0112は、システムが平常性を回復したものとみなし、その時点までを対応する詳細データの保護期間とする。
管理者が後日参照する詳細データの期間には、第1の実施の形態で挙げた特性の他に、次の(A)の特性があると考えられる。
(A)管理者は、情報処理システムが平常状態である期間の詳細データを参照する可能性は低い。これは、この期間の詳細データを参照しても、情報処理システムの平常と変わらない様子が観察されるだけで、そこから得られる知見は少ない。すなわち、これを言い換えれば、管理者は、情報処理システムが何らかの異常状態を示している期間の詳細データを参照する可能性が高い。
本実施の形態では、情報処理システムに何らかの異常が発生(つまりイベント発生時間)してから、情報処理システムが平常状態に復すまでの期間は、管理者が参照する可能性が高い期間として残し、平常状態に復してから以降の期間は、管理者が参照する可能性が低い期間として削除する。これにより、イベント発生前後の固定的な期間だけ詳細データを残すとした第1の実施の形態の性能監視装置よりも、管理者が参照する詳細データを残す可能性を高めることができる。
(3)第3の実施の形態
本実施の形態では、ユーザによるデータ参照の履歴をもとに、見極め期間および保護期間の長さを変更する。
参照管理プログラム0114は、詳細データテーブル0200もしくは要約データテーブル0300から特定時間帯のデータを読み込み、出力I/F0103を通じてディスプレイ0106へグラフなどの形式で表示する。ユーザは、表示するデータの時間帯をスクロールさせながら、表示されたグラフを参考に、性能障害の解析を行う。ユーザによるグラフスクロール等の操作は、入力I/F0104を通じて、参照管理プログラム0114へ伝えられる。
参照管理プログラム0114は、伝えられたユーザによる参照時間帯をデータ参照記録テーブル0800に記録する。その処理手順を図14に示す。
(S1301) まず参照管理プログラム0114は、入力I/Fから、ユーザによるデータ参照が行われたこと、および、ユーザが参照した時間帯を受信する。
(S1302) 次に、参照管理プログラム0114は、データ参照記録テーブル0800に、参照時間帯等の情報を記録する。
本実施の形態において、詳細データ削除プログラム0112が詳細データを削除するために実行する第2の詳細データ削除処理の処理手順を図15に示す。図15に示す第2の詳細データ削除処理の処理手順は、図12に示した第1の詳細データ削除処理の処理手順とほぼ同じであり、相違点は、第2の詳細データ削除処理では、ステップS1102およびステップS1103の間に、ステップS1401が追加されていることである。
(S1401) この処理は、ユーザが参照した記録のある期間は、保護なし期間であっても削除対象から除外する処理である。詳細データ削除プログラム0112は、ステップS1102で求めた保護なし期間のうち、データ参照記録テーブル0800に格納された参照時間帯の記録と重複する期間を、保護なし期間から除外する。
本実施の形態では、ユーザによるデータ参照記録をもとに、見極め期間および保護期間を設定する。設定プログラム0113が、見極め期間および保護期間を設定するために実行する期間設定処理の処理手順を図16に示す。
設定プログラム0113は、システムで発生したイベントを、ユーザが見極め期間内に参照しているか否かを判定する。見極め期間内に参照していれば、現在の見極め期間の設定値が正しく(もしくは、見極め期間が必要以上に長い)、見極め期間後に参照していれば、現在の見極め期間の設定値が短すぎることを示している。
(S1501) 設定プログラム0113は、イベントテーブル0400の発生時刻欄0404に格納されているシステムのイベントの発生時刻を取得し、当該発生時刻からの経過時間が、設定テーブル0500の見極め期間欄0505に格納されている同イベントの見極め期間内に、ユーザによって参照されたか否かを調査する。この調査は、データ参照記録テーブル0800の参照時刻欄0801に格納されている参照時刻が同イベント見極め期間内であるか否かを判定することにより行われる。かかるユーザの参照時刻が見極め期間内であればステップS1502に進み、そうでなければステップS1503へ進む。
(S1502) 設定プログラム0113は、かかるイベントの見極め期間を短縮する。短縮方法は、現在設定されている見極め期間を一定時間分短縮してもよいし、全イベントの90%(数字は任意)をカバーする見極め期間を設定してもよい。
(S1503) 設定プログラム0113は、逆に、かかるイベントの見極め期間を延長する。延長方法は、短縮方法と同様に、現在設定されている見極め期間を一定時間分延長してもよいし、全イベントの90%(数字は任意)をカバーする見極め期間を設定してもよい。
以降、ステップS1504〜ステップS1507で、設定プログラム0113は、対応する詳細データの保護期間の長さの適正さを判定し、必要であれば当該保護期間の長さを変更する。
(S1504) 設定プログラム0113は、参照期間と保護期間との関係を次の(A)〜(C)の3パターンに分類し、パターンごとにステップS1505〜ステップS1507へ進む。
(A)参照期間が保護期間内に収まっている(ステップS1505へ進む)
(B)参照期間が保護期間と一部重複している(ステップS1506へ進む)
(C)参照期間が保護期間と重複していない(ステップS1507へ進む)
(S1505) 設定プログラム0113は、かかるイベントに関する詳細データの保護期間を短縮する。保護期間を現在の設定値から一定時間分短縮してもよいし、全イベントの90%(数字は任意)をカバーする保護期間を設定してもよい。
(S1506) 設定プログラム0113は、かかるイベントの詳細データの保護期間を延長する。保護期間を現在の設定値から一定時間分延長してもよいし、全イベントの90%(数字は任意)をカバーする保護期間を設定してもよい。
(S1507) 設定プログラム0113は、参照期間と最も時間が近い保護期間に対応するイベントを、当該参照期間と関連するイベントであると判定する。設定プログラム0113は、当該イベントに関する詳細データの保護期間を延長する。延長の方法はステップS1506記載の方法と同様でよい。
管理者が後日参照する詳細データの期間は、管理者(複数人でもよい)、あるいは、監視対象となる情報処理システムによって異なる。例えば、情報処理システムAの管理者は、警告イベント1が発生した前後期間の詳細データを参照するが、情報処理システムBの管理者は、警告イベント1の前後期間を参照しない。本実施の形態では、管理計算機0100が、管理者が性能情報を参照した履歴から、参照の仕方の特徴を分析し、その特徴に合わせて詳細データを残す期間を決める。
0100:管理計算機、0101:CPU、0102:記憶資源、0103:出力I/F、0104:入力I/F、0105:記憶デバイス I/F、0106:ディスプレイ、0107:記憶デバイス、0108:NIC、0110:監視プログラム、0111:要約プログラム、0112:詳細データ削除プログラム、0113:設定プログラム、0114:参照管理プログラム、0115:クォータ設定プログラム、0200:詳細データテーブル、0300:要約データテーブル、0400:イベントテーブル、0500:設定テーブル、0600:保護期間テーブル、0700:ベースラインテーブル、0800:データ参照記録テーブル、0900:クォータテーブル、0130:監視対象計算機、0131:CPU、0132:記憶資源、0133:NIC、0134:記憶デバイス I/F、0138:記憶デバイス、0150:ネットワーク。

Claims (6)

  1. 監視対象計算機を監視する監視計算機であって、
    監視計算機は、
    前記監視対象計算機の複数の時点の計測データを格納する記憶デバイスと、
    前記計測データを表示デバイスに表示させるCPUと、
    前記CPUが用いるデータを格納する記憶資源と、
    を有し、
    前記CPUは、
    前記計測データに基づいて、前記監視対象計算機で発生したイベント及イベント発生時間を特定し、
    (1)前記記憶デバイスの容量又は予め定められた計測データの保持期間と、
    (2)前記イベント発生時間から求められる削除除外期間と、
    に基づいて、削除すべきでない計測データを考慮しつつ、前記複数の時点の計測データの一部を削除対象として選択し、
    選択した計測データを前記記憶デバイスから削除し、
    前記複数の時点の計測データは、
    前記イベント特定に用いた第1種別の計測データと、前記第1種別とは異なる第2種別の計測データとを含み、
    前記削除すべきでない計測データは、
    前記第1種別の計測データと前記第2種別の計測データとを含み、
    前記削除除外期間は、
    (2a)前記イベントの種別を特定し、
    (2b)前記イベント種別から、基点の時間から除外すべきでない計測データの前後時間を特定し、
    (2c)前記イベント発生時間を前記基点として、前記前後時間から前記削除除外期間を計算することにより求められ、
    前記CPUは、
    イベント種別に応じた削除除外優先度を管理し、
    前記削除すべきでない計測データを、前記削除除外優先度に基づいて選択し、
    前記CPUは、
    前記計測データの表示に伴って、前記除外期間に含まれる計測データが表示対象となったか否かを前記記憶資源に記録し、
    前記削除すべきでない計測データで、かつ過去に表示対象でない計測データは、削除対象とする
    ことを特徴とする監視計算機。
  2. 請求項記載の監視計算機であって、
    前記CPUは、
    前記計測データを統計処理して作成された、正常な計測データの時間的な推移を示すベースラインデータを前記記憶資源に格納し、
    前記ベースラインデータと前記計測データを比較することで前記イベントを特定する
    ことを特徴とする監視計算機。
  3. 請求項記載の監視計算機であって、
    前記記憶資源又は記憶デバイスは、前記削除対象データに対応する要約データを格納し、
    前記CPUは、前記計測データと組み合わせて前記要約データを表示する
    ことを特徴とする監視計算機。
  4. 監視計算機が監視対象計算機を監視する監視方法であって、
    前記監視計算機は、
    前記監視対象計算機の複数の時点の計測データを格納する記憶デバイスと、
    前記計測データを表示デバイスに表示させるCPUと、
    前記CPUが用いるデータを格納する記憶資源と、
    を有し、
    前記CPUが、前記計測データに基づいて、前記監視対象計算機で発生したイベント及イベント発生時間を特定する第1のステップと、
    前記CPUが、前記記憶デバイスの容量又は予め定められた計測データの保持期間と、前記イベント発生時間から求められる削除除外期間とに基づいて、削除すべきでない計測データを考慮しつつ、前記複数の時点の計測データの一部を削除対象として選択する第2のステップと、
    前記CPUが、選択した計測データを前記記憶デバイスから削除する第3のステップと
    を備え
    前記複数の時点の計測データは、
    前記イベント特定に用いた第1種別の計測データと、前記第1種別とは異なる第2種別の計測データとを含み、
    前記削除すべきでない計測データは、
    前記第1種別の計測データと前記第2種別の計測データとを含み、
    前記削除除外期間は、
    (2a)前記イベントの種別を特定し、
    (2b)前記イベント種別から、基点の時間から除外すべきでない計測データの前後時間を特定し、
    (2c)前記イベント発生時間を前記基点として、前記前後時間から前記削除除外期間を計算することにより求められ、
    前記第2のステップにおいて、前記CPUは、
    イベント種別に応じた削除除外優先度を管理し、
    前記削除すべきでない計測データを、前記削除除外優先度に基づいて選択し、
    前記第2のステップにおいて、前記CPUは、
    前記計測データの表示に伴って、前記除外期間に含まれる計測データが表示対象となったか否かを前記記憶資源に記録し、
    前記削除すべきでない計測データで、かつ過去に表示対象でない計測データは、削除対象とする
    ことを特徴とする監視方法。
  5. 請求項記載の監視方法であって、
    前記第1のステップにおいて、前記CPUは、
    前記計測データを統計処理して作成された、正常な計測データの時間的な推移を示すベースラインデータを前記記憶資源に格納し、
    前記ベースラインデータと前記計測データを比較することで前記イベントを特定する
    ことを特徴とする監視方法。
  6. 請求項記載の監視方法であって、
    前記記憶資源又は記憶デバイスは、前記削除対象データに対応する要約データを格納し、
    前記CPUは、前記計測データと組み合わせて前記要約データを表示する
    ことを特徴とする監視方法。
JP2013548958A 2011-12-15 2011-12-15 監視計算機及び方法 Active JP5701403B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/007014 WO2013088477A1 (ja) 2011-12-15 2011-12-15 監視計算機及び方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015028709A Division JP5982513B2 (ja) 2015-02-17 2015-02-17 監視計算機及び方法

Publications (2)

Publication Number Publication Date
JP5701403B2 true JP5701403B2 (ja) 2015-04-15
JPWO2013088477A1 JPWO2013088477A1 (ja) 2015-04-27

Family

ID=48611971

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013548958A Active JP5701403B2 (ja) 2011-12-15 2011-12-15 監視計算機及び方法

Country Status (3)

Country Link
US (1) US20140317286A1 (ja)
JP (1) JP5701403B2 (ja)
WO (1) WO2013088477A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6441803B2 (ja) 2012-10-04 2018-12-19 アルカテル−ルーセント マルチクライアント・アーキテクチャでのデータ・ログ管理
US9015716B2 (en) 2013-04-30 2015-04-21 Splunk Inc. Proactive monitoring tree with node pinning for concurrent node comparisons
US9142049B2 (en) * 2013-04-30 2015-09-22 Splunk Inc. Proactive monitoring tree providing distribution stream chart with branch overlay
US8904389B2 (en) 2013-04-30 2014-12-02 Splunk Inc. Determining performance states of components in a virtual machine environment based on performance states of related subcomponents
US9185007B2 (en) 2013-04-30 2015-11-10 Splunk Inc. Proactive monitoring tree with severity state sorting
JP6417742B2 (ja) * 2014-06-18 2018-11-07 富士通株式会社 データ管理プログラム、データ管理装置及びデータ管理方法
CN104268066A (zh) * 2014-09-23 2015-01-07 国家电网公司 用于维护计算机的方法和系统
US10031815B2 (en) * 2015-06-29 2018-07-24 Ca, Inc. Tracking health status in software components
JP6981063B2 (ja) 2017-06-28 2021-12-15 富士通株式会社 表示制御プログラム、表示制御方法、及び表示制御装置
JP6974703B2 (ja) * 2017-08-02 2021-12-01 富士通株式会社 情報処理装置およびプログラム
JP7006406B2 (ja) 2018-03-16 2022-01-24 富士通株式会社 ストレージ管理装置、ストレージシステム、及びストレージ管理プログラム
JPWO2020065778A1 (ja) * 2018-09-26 2021-08-30 日本電気株式会社 情報処理装置、制御方法、及びプログラム
WO2020178985A1 (ja) * 2019-03-05 2020-09-10 三菱電機株式会社 ボトルネック検出装置及びボトルネック検出プログラム
CN112799863A (zh) * 2019-11-13 2021-05-14 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN115794591B (zh) * 2023-02-06 2023-05-23 南方电网数字电网研究院有限公司 一种电网it资源的调度方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001077813A (ja) * 1999-09-06 2001-03-23 Hitachi Information Systems Ltd ネットワーク情報管理装置とネットワーク情報管理方法およびその処理プログラムを記録した記録媒体
JP2001273172A (ja) * 2000-03-24 2001-10-05 Hitachi Information Systems Ltd コンピュータ稼働データ記録システム及びそのシステムに用いる記録媒体
JP2003162504A (ja) * 2001-11-26 2003-06-06 Hitachi Ltd 障害分析支援システム
WO2011125138A1 (ja) * 2010-04-06 2011-10-13 株式会社日立製作所 性能監視装置,方法,プログラム
WO2013165744A1 (en) * 2012-04-30 2013-11-07 Webtrends Inc. Method and system that streams real-time, processed data from remote processor-controlled appliances

Also Published As

Publication number Publication date
US20140317286A1 (en) 2014-10-23
WO2013088477A1 (ja) 2013-06-20
JPWO2013088477A1 (ja) 2015-04-27

Similar Documents

Publication Publication Date Title
JP5701403B2 (ja) 監視計算機及び方法
JP6165886B2 (ja) 動的ストレージサービスレベル・モニタリングの管理システムおよび方法
JP4255317B2 (ja) 運用監視方法及び実施システム並びに処理プログラム
US9971664B2 (en) Disaster recovery protection based on resource consumption patterns
Birke et al. Failure analysis of virtual and physical machines: patterns, causes and characteristics
EP2685380A1 (en) Operations management unit, operations management method, and program
JP5982513B2 (ja) 監視計算機及び方法
EP2874064B1 (en) Adaptive metric collection, storage, and alert thresholds
US20130227127A1 (en) Schedule management method and schedule management server
JP5222876B2 (ja) 計算機システムにおけるシステム管理方法、及び管理システム
US8656224B2 (en) Network fault management in busy periods
JP6030996B2 (ja) 情報管理装置及び情報管理方法
JP2014067369A (ja) 情報処理装置,プログラム,情報処理方法
CN109284220A (zh) 集群故障恢复时长估算方法、装置、设备及存储介质
JP5740338B2 (ja) 仮想環境運用支援システム
US20130144844A1 (en) Computer system and file system management method using the same
JP5845789B2 (ja) 制御プログラム、データアクセス制御装置およびデータ制御方法
JP6622808B2 (ja) 管理計算機および計算機システムの管理方法
US10503577B2 (en) Management system for managing computer system
US20140165058A1 (en) System resource management method for virtual system
US20200394091A1 (en) Failure analysis support system, failure analysis support method, and computer readable recording medium
JP6823618B2 (ja) アクセス方法推定システム、及びアクセス方法推定方法
US9864668B2 (en) Apparatus, method, and system for event data processing
JP7006077B2 (ja) 管理システム、管理方法、及び管理プログラム
JP2018063518A5 (ja)

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150217

R150 Certificate of patent or registration of utility model

Ref document number: 5701403

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150