JP2013054402A - 運用監視装置、運用監視プログラム及び記録媒体 - Google Patents

運用監視装置、運用監視プログラム及び記録媒体 Download PDF

Info

Publication number
JP2013054402A
JP2013054402A JP2011190098A JP2011190098A JP2013054402A JP 2013054402 A JP2013054402 A JP 2013054402A JP 2011190098 A JP2011190098 A JP 2011190098A JP 2011190098 A JP2011190098 A JP 2011190098A JP 2013054402 A JP2013054402 A JP 2013054402A
Authority
JP
Japan
Prior art keywords
value
monitoring
monitoring data
network
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011190098A
Other languages
English (en)
Other versions
JP5659108B2 (ja
Inventor
Keisuke Miura
啓介 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu FIP Corp
Original Assignee
Fujitsu FIP Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu FIP Corp filed Critical Fujitsu FIP Corp
Priority to JP2011190098A priority Critical patent/JP5659108B2/ja
Publication of JP2013054402A publication Critical patent/JP2013054402A/ja
Application granted granted Critical
Publication of JP5659108B2 publication Critical patent/JP5659108B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Small-Scale Networks (AREA)

Abstract

【課題】ネットワークシステム全体という視点から、ノード間に存在する相関関係をも直感的に把握できるよう、各ノード及び各ノード間のネットワークの負荷状況を包括的・一元的に表示し、障害要因の迅速な特定・復旧に寄与する運用監視装置等を提供する。
【解決手段】本発明に係る運用監視装置は、監視機器及び前記ネットワークの監視データ値を記憶する第1記憶手段と、監視機器に対応する少なくとも2以上の監視機器表示とネットワークに対応する2以上の監視機器を結線して接続するネットワーク表示とを含むネットワーク構成マップを記憶する第2記憶手段と、ネットワーク構成マップを表示するとともに、監視機器表示及びネットワーク表示に対応付けて監視データ値を表示する表示手段とを有し、表示手段は、監視データ値が異常値と判定されたときは、異常値と判定された監視データ値とともに異常識別情報を表示する。
【選択図】図9

Description

本発明は、運用監視装置、運用監視プログラム及び記録媒体の分野に関する。
近年、コンピュータに係るあらゆる環境下において、ネットワークシステムは益々複雑化する一方である。通常、このようなネットワークシステムを的確且つ効率的に監視するため、運用監視装置、ネットワーク監視システムなどが導入される(例えば特許文献1参照)。運用監視装置は、ネットワーク機器やサーバ装置など監視の対象となる監視機器から定期的なデータ収集を行っており、管理者は運用監視装置を使用して、GUI上、収集された情報を元に監視機器のモニタリングを行う。そして監視対象の監視機器に異常が見られた場合、具体的には監視対象項目の値が所定の閾値を越えたような場合、運用監視装置は、管理者に対しモニタ上でアラートを通知したりメール通知を行う。
具体的に、監視機器の1つであるサーバ装置に異常が発生すると、管理者は運用監視装置を使用して、異常が見られたサーバ装置の詳細を確認する。例えばCPU、メモリ、ディスク使用率、使用中のプロセスやコネクション数等を参照し、異常な負荷がかかっていないか等を確認する。またサーバ装置の障害の場合、サーバ装置に異常が見られたとしても、障害要因自体がサーバ装置に起因するとは限られない。例えばネットワーク側からの要因が影響することにより、サーバ装置上の異常現象となって表面化している場合もありうるからである。この場合、管理者はネットワーク構成を考慮のうえ、サーバ装置へ接続されるネットワーク系統やネットワーク機器(スイッチやルータ等)などのサーバ装置周辺に何らかの異常がないかどうかを併せて確認することにより、総合的な現状分析を行い、迅速に障害要因を特定し復旧させる。
特開2002−244939号
しかしながら、的確且つ迅速に障害要因を特定し復旧させることは、必ずしも容易なことではない。上述の如く、監視機器の1つであるサーバ装置に異常が発生したとしても一義的にサーバ装置に障害要因があるとは限られないので、サーバ装置及びサーバ装置周辺に見られる異常現象とその相関関係とを多面的に把握し、総合的な現状分析の中から、迅速な障害要因を特定しなくてはならないからである。
結局の所、運用監視装置は迅速な障害要因の特定を手助けするものであるが、最終的な障害要因の特定判断は、管理者等の人的スキルに依存するところが大きい。同じ運用監視装置を使用したとしても、例えば経験のあるエンジニアは短時間で障害要因を特定し、一方経験の浅いエンジニアは障害要因の特定までに時間を費やすか、特定自体できないといった事態が起こりうるのである。
ところで、監視機器を監視するには、サーバ装置や接続されるネットワークのデータを収集する必要があるが、どのようにデータを収集するか、またどのように収集データを監視するかの設定など、事前設定の仕掛け(コマンドや設定等)が監視機器によって異なり、1の運用監視装置で包括的、一元的に監視することは難しい。よってこの場合、個々のサーバ装置毎、ネットワーク毎のそれぞれ複数の運用監視装置で別個に監視せざるをえない。そして複数の運用監視装置で別個に監視するとなると、サーバ装置及びサーバ装置周辺に見られる現象と相関関係との多面的な把握が困難であるので、特に経験の浅いエンジニアにとって、迅速な障害要因の特定は非常に難易度が高く、そのため障害復旧までに多くの時間を費やさざるを得ないという問題があった。
また仮に、サーバ装置が汎用的なサーバ群であったり同一製品群である場合、1の運用監視装置で包括的、一元的に監視することも比較的可能ではある。この場合、例えばモニタ上、各ノード(ネットワーク機器やサーバ装置)が相互に接続されたネットワーク構成マップが表示される。そして監視対象の監視機器に異常が見られた場合、運用監視装置は、異常が見られたノード・アイコンの色を例えば緑色から赤色に変化させることにより、アラートを通知する。しかしこれはあくまで閾値を超えたサーバ装置のアイコン色を変化させたものに過ぎない。マップ上一目してサーバ装置に何らかの異常が発生したことは認められるものの、具体的な原因特定は、運用監視装置を使用してサーバ装置自体は勿論のこと、周辺装置の収集データまでを個々に掘り下げて調べ、最終的にサーバ装置及びサーバ装置周辺に見られる現象と相関関係とを多面的に把握し、総合的な現状分析の中から、迅速な障害要因を特定しなくてはならない。よって依然として、迅速な障害要因の特定は非常に難易度が高く、そのため障害復旧までに多くの時間を費やさざるを得ない。
そこで本発明では上記のような問題に鑑みて、ネットワークシステム全体という視点から、ノード間に存在する相関関係をも直感的に把握できるよう、各ノード及び各ノード間のネットワークの負荷状況を包括的・一元的に表示し、障害要因の迅速な特定・復旧に寄与する運用監視装置、運用監視プログラム及び記録媒体を提供することを目的とする。
上記課題を解決するため、本発明に係る運用監視装置は、監視対象の監視機器から、前記監視機器の監視データ値と該監視機器を接続するネットワークの監視データ値とを取得し、該監視データ値に基づき前記監視機器の監視を行う運用監視装置であって、取得された前記監視機器及び前記ネットワークの監視データ値を記憶する第1記憶手段と、前記監視機器に対応する少なくとも2以上の監視機器表示と前記ネットワークに対応する前記2以上の監視機器を結線して接続するネットワーク表示とを含むネットワーク構成マップを記憶する第2記憶手段と、前記ネットワーク構成マップを表示するとともに、該ネットワーク構成マップ内の監視機器表示及びネットワーク表示に対応付けて、前記監視機器及び前記ネットワークの監視データ値を表示する表示手段と、を有し、前記表示手段は、前記監視データ値が異常値と判定されたときは、前記ネットワーク構成マップ内において、該監視機器表示又は該ネットワーク表示に対応付けて異常値と判定された該監視データ値とともに異常識別情報を表示することを特徴とする。
また上記課題を解決するため、前記運用監視装置は、前記表示手段は、該ネットワーク構成マップ内の監視機器表示及びネットワーク表示に対応付けて、前記監視機器及び前記ネットワークの監視データ値を表示するとき、表示する該監視データの所定の期間内における最大監視データ値をともに表示し、前記表示手段は、前記最大監視データ値が異常値と判定されたときは、前記ネットワーク構成マップ内において、該監視機器表示又は該ネットワーク表示に対応付けて異常値と判定された該最大監視データを表示するとともに異常識別情報を表示することを特徴とする。
また上記課題を解決するため、前記運用監視装置は、前記第1記憶手段により所定のサイクル期間蓄積された監視データ値から、監視データ値の上限傾向値及び/又は該上限傾向値に対し所定演算を施した演算値を、サイクル日毎且つ時刻毎に算出する傾向値分析手段と、前記監視データの上限傾向値及び/又は演算値のうち閾値判定の対象となる監視データ値が取得された同サイクル日且つ同時刻の上限傾向値及び/又は演算値を取得し、該監視データ値が該上限傾向値及び/又は演算値を越えたとき、該監視データ値が異常値と判定する閾値判定手段とを有することを特徴とする。
また上記課題を解決するため、前記運用監視装置は、前記第1記憶手段により所定のサイクル期間蓄積された監視データ値から、監視データ値の下限傾向値及び/又は該下限傾向値に対し所定演算を施した演算値を、サイクル日毎且つ時刻毎に算出する傾向値分析手段と、前記監視データの下限傾向値及び/又は演算値のうち閾値判定の対象となる監視データ値が取得された同サイクル日且つ同時刻の下限傾向値及び/又は演算値を取得し、該監視データ値が該下限傾向値及び/又は演算値を越えたとき、該監視データ値が異常値と判定する閾値判定手段とを有することを特徴とする。
また上記課題を解決するため、前記運用監視装置は、前記表示手段は、前記ネットワーク構成マップ、前記監視機器及び前記ネットワークの監視データ値、並びに該監視データ値が異常値と判定されたときは前記異常識別情報をWebブラウザ上で表示可能なデータ形式に変換することを特徴とする。
なお、本発明の構成要素、表現または構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、などに適用したものも本発明の態様として有効である。
本発明によれば、ネットワークシステム全体という視点から、ノード間に存在する相関関係をも直感的に把握できるよう、各ノード及び各ノード間のネットワークの負荷状況を包括的・一元的に表示し、障害要因の迅速な特定・復旧に寄与する運用監視装置、運用監視プログラム及び記録媒体を提供することができる。
本実施形態に係るネットワーク構成図(その1)である。 本実施形態に係るネットワーク構成図(その2)である。 本実施形態に係るネットワーク構成図(その3)である。 運用監視装置1の一実施形態の主要構成を示すハードウェア構成図である。 運用監視装置1の一実施形態の主要機能を示す機能ブロック図である。 本実施形態に係るネットワーク構成マップ例を示す。 本実施形態に係るネットワーク構成マップの付帯情報例を示す。 本実施形態に係る監視データ例を示す。 本実施形態に係るネットワーク構成マップ/画面例(その1)を示す。 本実施形態に係るネットワーク構成マップ/画面例(その2)を示す。 本実施形態に係る運用監視装置1のネットワーク構成マップ表示処理を説明するフローチャートである。 表示監視データ値に対する閾値判定結果例を示す図である。 表示監視データ値に対する閾値判定結果例を示す図である。 本変形例に係るネットワーク構成マップ/画面例(一部抜粋)を示す。 本実施形態に係る傾向値線分析画面例(その1)を示す。 本実施形態に係るネットワーク構成マップ/画面例(一部抜粋)を示す。 本実施形態に係る傾向値線分析画面例(その2)を示す。
以下、本発明を実施するための最良の形態を各実施形態において図面を用いて説明する。
[実施形態1]
<システム構成>
(ネットワーク構成)
はじめに、具体的な発明の内容を説明する前に、本発明を実施するにあたってのネットワーク構成について説明する。
図1は、本実施形態に係るネットワーク構成図(その1)である。図に示されるように、本実施形態に係るネットワークは、運用監視装置1、管理者端末2、監視対象ネットワーク3から構成される。運用監視装置1は、監視対象ネットワーク3内の監視機器であるサーバやネットワーク(ネットワーク機器)などを監視する。管理者端末2は、運用監視装置1に対し例えばWebブラウザ等を介しアクセスし、GUI上から収集された情報を元に監視機器のモニタリングを行う監視用端末である。
図2は、本実施形態に係るネットワーク構成図(その2)である。運用監視装置1、管理者端末2に加え、監視対象ネットワーク3の構成要素の具体例を示したものである。ここで、監視対象ネットワーク3は例えばWebオンラインショッピングシステムであるとし、このとき監視機器(監視ノード)は、FW/LB装置31、Webサーバ1号機32、Webサーバ2号機33、APサーバ1号機34、APサーバ2号機35、DBサーバ36、Hub37、Hub38、Hub39である。
FW/LB装置(FireWall/LoadBalancer)31は、インターネット網とWebオンラインショッピングシステムを接続するファイアーウォールである。またインターネット網からユーザのアクセスに対し、負荷分散(ロードバランス)を行い、アクセスが分散されるよう2台のWebサーバ1号機32、Webサーバ2号機33に振り分ける。
Webサーバ1号機32、Webサーバ2号機33は、WebオンラインショッピングサイトのWeb画面を提供するWebサーバである。ユーザは例えばWebサーバから提供されるWeb画面を通じて商品を閲覧したり商品の購入を行う。
APサーバ1号機34、APサーバ2号機35は、Webオンラインショッピングを実現するアプリケーションを動作させるサーバである。Webサーバと連携し、ユーザがWeb画面を通じて商品を検索したりすればDBサーバ36から商品を抽出して商品画面を生成したり、商品を購入したりすれば商品購入処理(発注、決済等)を行いDBサーバ36に対し商品購入情報を格納する。
DBサーバ36は、商品情報や購入情報等、Webオンラインショッピングに必要な情報を格納するデータベースサーバである。本例においては、DBサーバ36は1台のみとなり、APサーバ1号機34、APサーバ2号機35からの要求に応じて、商品検索や商品購入情報を格納する。
Hub37、Hub38、Hub39は、各サーバをネットワーク接続するネットワーク中継装置である。各Hub(ハブ)にはミラーポートが付いており、所定ポートから入出力されるトラフィック・データはそのままミラーポートにも出力される。
ネットワークアナライザー4は、各Hubからのミラーポートを介して取得したトラフィック・データを取得、解析し、トラフィック解析レポート(例えばトラフィック量、プロトコル種別、データの流れ等々)を作成するネットワーク解析装置である。
図3は、本実施形態に係るネットワーク構成図(その3)である。図に示されるように、本実施形態に係る運用監視装置1は、定期的に監視対象ネットワーク3内の監視機器(監視ノード)から監視データを収集する。勿論、障害発生時等、管理者端末2からの明示的な収集指示によっても監視データを収集しうる。
例えば監視機器であるFW/LB装置31に対してはSNMP(Simple Network Management Protocol)を使用し、所定の監視データ(例えばMIB値)を収集する。また例えば、Windows(登録商標)ベースのWebサーバ32等に対しては、WMI(Windows Management Instrumentation)を使用し、所定の監視データを収集する。また例えば、UNIX(登録商標)ベースのAPサーバ34等に対しては、SSH(Secure Shell)やTelnetを使用し、所定の監視データを収集する。また例えば、独自ベンダー仕様のDBサーバ36に対しては、SDK(Software Development Kit)により開発されたコマンドを使用し、所定の監視データを収集する。
また例えば、各Hubからの収集データについては、ネットワークアナライザー4が各Hubからのミラーポートを介して取得したトラフィック・データを取得、解析し、トラフィック解析レポート(例えばトラフィック量、プロトコル種別、データの流れ等々)を作成している。よって運用監視装置1は、ネットワークアナライザー4に対して、HTML(HTTP)を使用し、各Hubからの所定の監視データを収集する。
なお一般に、インテリジェントHubといわれるHubからは、単純に各ポートの通信データ量を例えばSNMPで収集することは比較的容易である。しかし、Hubに接続されるサーバ毎のトラフィック量やプロトコル種別、サーバ間のデータの流れ等々を含む詳細な監視データまでを収集可能なHubは少ない。よって本実施形態では、ネットワークアナライザー4にHubの監視データを収集代行させ、運用監視装置1において、詳細なHub(ネットワーク)の監視を実現できるようにする。勿論、運用監視装置1が各Hubから直接的に詳細な監視データを収集することが可能であれば、ネットワークアナライザー4は不要である。
運用監視装置1は、このようにして収集した監視データを日々蓄積する。管理者端末2が運用監視装置1に対しWebブラウザ等を介しアクセスし、ネットワーク構成マップを要求すると、収集した監視データを元にして、サーバやネットワークの現在の稼動状況、負荷状況をGUI上に表示する(詳細後述)。またあるとき、収集した監視データが所定の閾値を越えたような場合、運用監視装置1は、マップ上、異常が見られたサーバやネットワークの色を例えば緑色から赤色に変化させるとともに、現在の稼動状況、負荷状況を表示する(詳細後述)。
(ハードウェア)
次に、運用監視装置1のハードウェア構成について説明しておく。図4は、運用監視装置1の一実施形態の主要構成を示すハードウェア構成図である。運用監視装置1は、設置が容易なように小型ボックス型の筐体として構成され、主要な構成として、CPU11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、補助記憶装置14、記憶媒体読取装置15及び通信装置16を含む構成である。
CPU11は、マイクロプロセッサ及びその周辺回路から構成され、装置全体を制御する回路である。また、ROM12は、CPU11で実行される所定の制御プログラム(ソフトウェア部品)を格納するメモリであり、RAM13は、CPU11がROM12に格納された所定の制御プログラム(ソフトウェア部品)を実行して各種の制御を行うときの作業エリア(ワーク領域)として使用するメモリである。
補助記憶装置14は、OS(Operating System)、監視プログラム、収集した監視データ、閾値等の設定情報などを含む各種情報を格納する装置であり、耐震性等にも強く不揮発性の記憶装置であるCF(Conpact Flash)などが用いられる。なお、上記各種情報は、補助記憶装置14以外にも、各種記憶媒体やその他のメディアを記憶されてもよく、これらの記憶媒体に格納された各種情報は、記憶媒体読取装置15などのドライブ装置を介して読み取ることが可能である。よって、必要に応じて記録媒体を記憶媒体読取装置15にセットすることで、各種情報が得られ、また更新プログラムなどもインストールできる。
通信装置16は、ネットワークを介して他の機器との通信を行う装置である。有線ネットワークや無線ネットワークなど含む各種ネットワーク形態に応じた通信をサポートする。
(機能)
運用監視装置1の主要構成を示す機能について説明する。図5は、運用監視装置1の一実施形態の主要機能を示す機能ブロック図である。運用監視装置1は、主要な機能として、監視データ取得部101、監視データ蓄積部102、ネットワーク構成マップ作成部103、ネットワーク構成マップ保存部104、表示部105、閾値判定部106を含む構成である。
監視データ取得部101は、監視対象の監視機器から、上述の如く監視機器に応じたコマンド等を使用して、監視機器の監視データ値や監視機器を接続するネットワークの監視データ値を取得、収集する。ここで、監視機器はHub37等のネットワーク中継機器も含まれる。よってネットワーク中継機器から監視データを取得することにより、このネットワーク中継機器により相互接続される監視機器間のネットワークの監視データ値(例えばトラフィック・データ等)を取得可能である。なお監視データ取得部101は、通常、管理者が指定する一定期間毎に監視データを収集し続けているが、障害発生時等は管理者端末2からの明示的な収集指示によっても監視データを収集しうる。
監視データ蓄積部102は、監視データ取得部101により取得された監視機器及びネットワークの監視データ値を蓄積する記憶部である。蓄積時においては、言うまでもなくどの監視機器からいつ取得したものであるかの情報、例えば監視機器のIPアドレス(又はホスト名等)、取得時間(日時分秒等)を対応付けて保持しておく。具体例は後述する。
ネットワーク構成マップ作成部103は、監視対象のネットワーク構成を描いたマップである。管理者は、管理者端末2を操作してWebブラウザのGUI上、マップ作成ツール等を利用しながら監視対象となるネットワーク構成を描く。マップを構成する構成要素は、主にネットワーク上の機器と、機器同士を接続するネットワーク結線である。この点、具体例を挙げて詳細後述する。
ネットワーク構成マップ保存部104は、ネットワーク構成マップ作成部103により作成されたネットワーク構成マップを保存する記憶部である。ネットワーク構成マップは、ネットワーク構成図面のみならず、マップを構成する各構成要素のネットワーク設定情報(例えばIPアドレス等)や、監視データの閾値など付帯情報を含むので、これら情報についても併せて保存する。
表示部105は、ネットワーク構成マップを表示する。言うまでもなくネットワーク構成マップ内には、構成要素である複数のサーバ・アイコンや、各サーバを相互接続するネットワーク結線などが描かれている。また表示部105は、各構成要素に対応する監視データを取得し、構成要素毎に監視データをリアルタイムに表示したり、その監視データが異常値と判定されたときにはサーバ・アイコンのステータスを変更するなどしてアラートを通知する。この点もまた具体例を挙げて詳細後述する。
閾値判定部106は、監視機器及びネットワークの監視データ値に基づき、その監視データ値が異常値であるか否かを判定する。閾値はその監視データの性格に応じて、管理者により適切な値に設定されるべきものである。そして監視機器及びネットワークの監視データ値が、それぞれに設定されている監視データの閾値を越えたり、下回ったりした場合、その監視データ値は異常値であると判定する。一般にこの場合、監視データが異常値を示した監視機器は、何らか障害が発生したり、またその前兆段階にあることが多い。閾値判定部106は、表示部105に対しその監視機器が異常値を示している旨を通知する。
以上これらの機能は、実際には運用監視装置1のCPU11が実行する運用監視プログラムによりコンピュータに実現させるものである。なお、本実施形態はあくまで一構成例であり、各機能部を外部装置や他のサーバに実装することも可能である。例えば、監視機器数や監視期間によって監視データは膨大な情報量になりうるので、監視データ蓄積部102は外部の記憶装置により構築することができる。
(ネットワーク構成マップ/作成例)
図6は、本実施形態に係るネットワーク構成マップ例を示す。本実施形態においては、監視対象は監視対象ネットワーク3であるので、図に示されるように、管理者は管理者端末2を操作してWebブラウザのGUI上、マップ作成ツール等を利用しながら監視対象となるネットワーク構成を描く。また監視対象となる監視機器として、マップ上、FW/LB装置31、Webサーバ1号機32、Webサーバ2号機33、APサーバ1号機34、APサーバ2号機35、DBサーバ36を描く。マップ作成にあたっては、マップ作成ツールで所定のアイコンが用意されているので、例えば白紙のマップ上にアイコンのドラックアンドドロップ操作を行って、各監視機器を追加していくこともできる。
また管理者は、追加した各監視機器に対し、マップ上の「表示名」、コンピュータ上の「ホスト名」、ネットワーク上の「IPアドレス」、監視対象の監視データのうちマップ上に表示すべき監視データを指定する「表示監視データ値」、マップ上に表示すべきその監視データの閾値を指定する「閾値」を設定する。またさらに、各監視機器同士を実際のネットワーク構成に即して論理的なネットワーク結線で接続する。ネットワーク結線の場合、ネットワーク回線の「回線容量」、監視対象の監視データのうちマップ上に表示すべき監視データを指定する「表示監視データ値」、マップ上に表示すべきその監視データの閾値を指定する「閾値」を設定する。
なお、上述の監視対象ネットワーク3内には、Hub37、Hub38、Hub39も存在するが、本実施形態においては、Hub自体は直接的な監視機器とはしないものとするため、マップ上にはアイコンとして描かない。但し上述の如く、ネットワークアナライザー4を介してHubから収集された監視データ(例えばトラフィック・データ量)によって、ネットワーク結線のネットワーク回線の「回線容量」などに反映される。
(付帯情報例)
図7は、本実施形態に係るネットワーク構成マップの付帯情報例を示す。ネットワーク構成マップは、ネットワーク構成図面のみではなく、マップを構成する各構成要素のネットワーク設定情報(例えばIPアドレス等)や、監視データの閾値など付帯情報を含み、これら情報についても併せてネットワーク構成マップ保存部104に保存されるが、具体的には、管理者がネットワーク構成マップ(図6)で作成した構成要素の各設定情報となる。
図7(a)は、監視機器ノード系の付帯情報例を示す。監視機器ノード毎に、マップ上の監視対象物の識別子である「オブジェクトID」(自動付番)、マップ上の「表示名」、コンピュータ上の「ホスト名」、ネットワーク上の「IPアドレス」、監視対象の監視データのうちマップ上に表示すべき監視データ及び閾値を指定する「表示監視データ値(閾値)」などが保存される。
例えば、Webサーバ1号機32の場合、管理者がマップ上、マップ作成ツールで所定のサーバ・アイコンが用意されているので、例えば白紙のマップ上にそのアイコンのドラックアンドドロップ操作を行って、Webサーバ1号機32を追加する。追加したサーバ・アイコンをクリックすると、付帯情報入力画面が表示されるので、管理者は入力画面に従って、「表示名」:Webサーバ1号機、「ホスト名」:WEBSV01、「IPアドレス」:x.0.0.2、「表示監視データ値(閾値)」: CPU(50%/80%)、MEM(50%/80%)、プロセス数(10/20)、コネクション数(20/40)と入力する。
なお、図7(a)において、FW/LB装置31の「IPアドレス」が2つあるのは、FW/LB装置31はグローバルセグメントとプライベートセグメントに接続されているため、グローバルIPアドレス(x.0.0.1)とプライベートIPアドレス(192.168.1.254)を有しているためである。またCPU(50%/80%)のように閾値が2つあるのは、使用率に応じて注意、警告などというように複数段階的にアラートを通知できるようにしたためである。
図7(b)は、ネットワーク結線系の付帯情報例を示す。ネットワーク結線毎に、結線元のノードを示す「結線元」、結線先のノードを示す「結線先」、ネットワーク回線の「回線容量」、監視対象の監視データのうちマップ上に表示すべき監視データ及び閾値を指定する「表示監視データ値(閾値)」などが保存される。
例えば、FW/LB装置31とWebサーバ1号機を接続するネットワーク結線の場合、管理者がマップ上、マップ作成ツールでFW/LB装置アイコンとWebサーバ1号機アイコンをネットワーク結線で接続操作する。接続操作後、付帯情報入力画面が表示されるので、管理者は入力画面に従って、「回線容量」:6Mbps、「表示監視データ値(閾値)」:回線使用率(80%)と入力する。このうち「結線元」及び「結線先」については、管理者がアイコン同士の接続操作を行うと、これに伴って「結線元」及び「結線先」のノードを識別し、「結線元」及び「結線先」のノードの「表示名」が付帯情報上に自動的に入力される。
なお、ネットワーク構成マップ上において、各アイコンの配置位置、つまり各オブジェクの位置は、マップと対応付けされて例えば座標情報等により管理・保持されることはいうまでもない。
(監視データ例)
図8は、本実施形態に係る監視データ例を示す。監視データは、通常、定期的に各監視機器からそれぞれ収集されたデータである。一概に監視データといっても、1の監視機器から複数種類の監視データを収集する。例えば、監視機器のうち図に示されるWebサーバ1号機32の監視データの場合、例えばCPU使用率、メモリ使用率、ディスク使用率、使用中のプロセス数、コネクション数、ディスク使用率、トラフィック量(累積)、イベントログ数(累積)等が監視すべき監視データとして収集される。管理者はこれら監視データの値をもってWebサーバ1号機32を監視し、安定的な稼動状態にあるか否かを判断する。監視データ取得部101は、所定時刻(例えばポーリング間隔5分毎)になると、1以上の監視データを取得し、時系列に順々に保存する。どのような監視データをどの程度の間隔で取得するかは、監視機器毎に管理者によって予め決められる。
このようにして運用監視装置1は、FW/LB装置31、Webサーバ1号機32、Webサーバ2号機33、APサーバ1号機34、APサーバ2号機35、DBサーバ36、ネットワークアナライザー4から監視データを収集する。ネットワークアナライザー4からの監視データは、Hub37、Hub38、Hub39から収集されたトラフィック・データが解析された結果物であり、ネットワーク結線毎に纏められた監視データとなる。
<ネットワーク構成マップ/稼動画面例>
図9は、本実施形態に係るネットワーク構成マップ/画面例(その1)を示す。運用監視装置1は稼動を開始すると、監視データの収集を開始しつつ、ネットワーク構成マップ内の監視機器(サーバ等)やネットワークを監視する。管理者端末2は、監視機器のモニタリングを行うときは、運用監視装置1に対し例えばWebブラウザ等を介しアクセスすると、Webブラウザ上、例えば図9のネットワーク構成マップが表示される。
ここで、図6と図9とを比較する。図6はあくまで管理者によって事前に作成されているマップであり、図9のマップは稼動開始後のマップである。従ってその時点(例えば2011年7月28日14:00現在)における各監視機器及びネットワーク結線の各監視データ値がマップ上反映されて表示される。
例えば、図8のWebサーバ1号機32の監視データを参照すれば、2011/7/28 14:20現在、複数種類の監視データが取得されている。また図7のWebサーバ1号機32を参照すれば、監視対象の監視データのうちマップ上に表示すべき監視データ及び閾値を指定する「表示監視データ値(閾値)」は、CPU(50%/80%)、MEM(50%/80%)、プロセス数(10/20)、コネクション数(20/40)と入力されているので、マップ上Webサーバ1号機32のサーバ・アイコンにおいて、複数種類の監視データのうち、CPU、MEM、プロセス数、コネクション数の監視データ値が表示される。
同様にマップ上の全てのオブジェクト(図7)について、その時点の「表示監視データ値」が取得され、マップ上それぞれ監視データ値がリアルタイムに表示されている。従って管理者は、ネットワーク全体において、各監視機器の状態、監視機器を相互接続するネットワークの状態を一目で把握することが可能である。例えば図9のマップを参照すると、一見して特にDBサーバ36に異常が見られ、警告(アラート)が上がっていることが分かる。運用監視装置1は、DBサーバ36のCPU使用率、メモリ使用率、プロセス数、コネクション数が閾値を越えたため、マップ上、DBサーバ36のサーバ・アイコン色を赤色に変化させたり、特殊なアラート表示を行うなどの異常識別情報を表示したものである。
このマップを参照した管理者は一義的にはDBサーバ36の異常を認識する。しかし、DBサーバ36のネットワークに着眼すれば、APサーバ1号機34と接続される上流のネットワーク結線に異常が見られ、警告(アラート)が上がっていることが分かる。またさらに、DBサーバ36の接続元であるAPサーバ1号機34にも異常が見られ、注意(アラート)が上がっていることが分かる。つまり視覚的にサーバ同士の相関関係を容易に把握できる。
具体的に、管理者は、一義的にはDBサーバ36の異常を認識するものの、マップ全体からすると、DBサーバ36単独の問題ではなく、上流のネットワーク結線、さらにはDBサーバ36の接続元であるAPサーバ1号機34に起因しているのではないかとの判断を行なうことができる。この場合例えば、APサーバ1号機34のアプリケーション処理に何らかの問題が生じており、このため大量のトラフィック・データがDBサーバ36に流入し、結果としてDBサーバ36の異常が生じているものと考えられる。つまり管理者は、異常状態を解消すべく、まずはAPサーバ1号機34に対しアプローチすべきである。そしてこの判断が正しければ、APサーバ1号機34の異常に対し対処すれば、迅速に全ての異常を解消することができる。
図10は、本実施形態に係るネットワーク構成マップ/画面例(その2)を示す。管理者は、各監視機器やネットワーク結線を例えばクリック操作すると、より詳細な監視データや分析情報を参照することができる。原則、マップ上には事前指定の「表示監視データ値」のみが表示されるが、上述の如く監視データは複数種類のものが取得されているので、運監視装置1は、これら監視データを元に、詳細データや分析情報を生成し表示することもできる。よって管理者はDBサーバ36のみならず、上流のネットワーク結線、さらにはDBサーバ36の接続元であるAPサーバ1号機34についても、詳細な監視データや分析情報を参照することにより、高い精度での原因究明、原因切り分け作業を行うことができる。
<情報処理>
図11は、本実施形態に係る運用監視装置1のネットワーク構成マップ表示処理を説明するフローチャートである。このマップ表示処理の結果、管理者端末2がWebブラウザ上で例えば図9に示されるネットワーク構成マップ/稼動画面が表示される。以下説明する。
S1:表示部105は、マップ作成要求の有無を判定する。マップ作成要求が有ると、ネットワーク構成マップの表示処理を開始する。マップ作成要求は、例えば管理者端末2がWebブラウザ上でネットワーク構成マップを表示すべく、運用監視装置1に対しアクセスしたタイミングで発行される。
S2:表示部105は、ネットワーク構成マップ保存部104からネットワーク構成マップ及び付帯情報を取得する。
S3:表示部105は、マップ上に「表示監視データ値」を表示させるため、閾値判定部106に対し、付帯情報に基づき各オブジェクト(監視機器及びネットワーク結線)の「表示監視データ値」の取得要求を行う。ここで、閾値判定部106を介して「表示監視データ値」を取得するのは、その「表示監視データ値」に異常がないか否か、つまり閾値を超えたり又は下回ったりしていないかどうかの判定を閾値判定部106に行わせるためである。
S4:閾値判定部106は、取得要求に応じて、各オブジェクトの「表示監視データ値」を取得する。ここでは図7を参照すると、「表示監視データ値」取得対象となるのは、オブジェクトID1〜14のオブジェクトである。まず閾値判定部106は、オブジェクトID1のFW/LB装置31について、「表示監視データ値」はCPU使用率、メモリ使用率、プロセス数、コネクション数であるので、監視データ蓄積部102から現時刻(又は直近)のCPU使用率、メモリ使用率、プロセス数、コネクション数の監視データ値を取得する。同様の要領で、オブジェクトID2〜14の全オブジェクトについても、「表示監視データ値」を取得する(図12、13参照)。
なお、オブジェクトID7〜14のネットワーク結線については、上述の如く、Hub37、Hub38、Hub39のミラーポートから収集したトラフィック・データをネットワークアナライザー4が解析しており、その結果、オブジェクトID7〜14のネットワーク結線毎に回線使用率等の監視データが監視データ蓄積部102に蓄積されている。よって閾値判定部106は、例えばオブジェクトID7のネットワーク結線について、「表示監視データ値」は回線使用率であるので、監視データ蓄積部102から現時刻(又は直近)の回線使用率の監視データ値を取得する。同様の要領で、オブジェクトID8〜14のネットワーク結線についても、「表示監視データ値」を取得する。
S5:閾値判定部106は、取得した全オブジェクトの「表示監視データ値」に対し、その監視データ値が異常値であるか否か、つまり具体的には閾値を超えているか(又は下回っているか)を判定する。監視データ値毎の閾値は付帯情報を参照して判定する。閾値判定部106は、判定の結果、異常がある場合には、段階に応じて第1段階異常フラグ、第2段階異常フラグを「表示監視データ値」に付して、表示部105に返答する。
図12、13は、表示監視データ値に対する閾値判定結果例を示す図である。オブジェクトID4(APサーバ1号機34)において、CPU使用率は76%であるので第1段階(50〜80%)閾値を超えており、メモリ使用率は55%であるので第1段階(50〜80%)閾値を超えており、プロセス数は16であるので第1段階(10〜20)閾値を超えている。またコネクション数は40であるので第2段階(20〜)閾値を超えている。またオブジェクトID6(DBサーバ36)において、CPU使用率は98%であるので第2段階(80%〜)閾値を超えており、メモリ使用率は82%であるので第2段階(80%〜)閾値を超えており、プロセス数は22であるので第2段階(20〜)閾値を超えており、コネクション数は52であるので第2段階(20〜)閾値を超えている。閾値判定部106は、図12、13に示されるように、全オブジェクトの「表示監視データ値」とともに異常フラグを付して表示部105に返答する。
S6:表示部105は、各オブジェクトの「表示監視データ値」を閾値判定結果とともに取得する。具体的にここでは、図11、12に示される情報を取得する。
S7:表示部105は、オブジェクト毎に、「表示監視データ値」は異常あるか否かを判定する。これは異常フラグの有無で判定できる。
S8:表示部105は、オブジェクトの「表示監視データ値」に異常がないと判定した場合、マップ上、そのオブジェクトに対応付けて、その「表示監視データ値」を表示する。
S9:一方表示部105は、オブジェクトの「表示監視データ値」に異常があると判定した場合、マップ上、そのオブジェクトに対応付けて、その「表示監視データ値」を異常識別情報とともに表示する。
S10:表示部105は、全てのオブジェクトに対し、S7、S8又はS9の処理を繰り返す。
S11:そして表示部105は、マップ上、全ての全てのオブジェクトに対し、そのオブジェクトに対応付けて、その「表示監視データ値」、又はその「表示監視データ値」と異常識別情報とを表示させたならば、ネットワーク構成マップを出力する。出力は上述の如く管理者端末2のWebブラウザに対し行われるので、表示部105はネットワーク構成マップをWebブラウザ上で表示可能なデータ形式(例えばHTML形式)に変換してから出力することができる。またWebブラウザ上でネットワーク構成マップの最新状態をリアルタイムに閲覧できるよう、一定時間後にWebページをリフレッシュさせるタグを埋め込んでおくとよい。このリフレッシュはマップ作成要求に相当するので、表示部105はリフレッシュが有ると、ネットワーク構成マップの表示処理を再び開始する(S1)。
図9は、本実施形態に係るネットワーク構成マップ/画面例(その1)を示す。運用監視装置1は稼動を開始すると、監視データの収集を開始しつつ、ネットワーク構成マップ内の監視機器(サーバ等)やネットワークを監視する。管理者端末2は、監視機器のモニタリングを行うときは、運用監視装置1に対し例えばWebブラウザ等を介しアクセスすると、Webブラウザ上、例えば図9のネットワーク構成マップが表示される。
ここで、図6と図9とを比較する。図6はあくまで管理者によって事前に作成されているマップであり、図9のマップは稼動開始後のマップである。従ってその時点(例えば2011年7月28日14:00現在)における各監視機器及びネットワーク結線の各監視データ値がマップ上反映されて表示される。
再び図9を参照する。Webブラウザ上に出力されたネットワーク構成マップにおいては、マップ上の全てのオブジェクトについて、その時点の「表示監視データ値」が取得され、それぞれ監視データ値がマップ上に表示されている。またDBサーバ36とAPサーバ1号機34と接続される上流のネットワーク結線には、強い異常が見られ、警告(アラート)が上がっていることが分かる。これは上述の第2段階異常フラグを受け、表示部105は、該当箇所色を例えば赤色等(異常識別情報)に変化させた結果である。またAPサーバ1号機34には、異常が見られ、注意(アラート)が上がっていることが分かる。これは上述の第1段階異常フラグを受け、表示部105は、該当箇所色を例えば黄色等(異常識別情報)に変化させた結果である。言うまでもなく第2段階異常フラグの場合、ユーザに対し第1段階異常フラグよりも直感的に警告を強く訴える異常識別情報を採用するとよい。
以上のように管理者は、ネットワーク全体において、各監視機器の状態、監視機器を相互接続するネットワークの状態が一目で把握することが可能である。また監視機器やネットワークに異常が見られる場合、監視データ値毎の異常識別情報により、一見してそれを把握できる。近年、ネットワークシステムにおいては、非常に多くの装置群によってシステムが構築されているので、サーバ単独での障害のみならず、複数のサーバやネットワークに起因して障害が起こることも多く、本実施形態に係る運用監視装置1によれば、マップ上でネットワーク結線により相互接続されているサーバ同士の相関関係についても一目で容易に把握することができるので、例えば経験の少ないエンジニア等であっても直感的に連動的に発生している障害の原因の究明を迅速に行うことが可能となる。
なお、本フローチャートでは、「表示監視データ値」のみを対象に異常の有無を判定すべく閾値判定を行ったが、上述の如く監視データ値は複数種類のものが収集されているので、閾値が設定されている全ての監視データ値に対し閾値判定を行うようにすることも可能である。この場合、例えば複数種類の監視データ値のうち、マップ上に表示する「表示監視データ値」に異常はなかったとしても、何れかの監視データ値に異常があった場合、閾値判定部106は表示部105に対し異常フラグを渡す。表示部105は異常フラグを受け取ると、マップ上に表示する「表示監視データ値」については正常状態を表示するものの、「表示監視データ値」以外の監視データ値に異常が見られることを示す異常識別情報(例えば背景色の変更等)を表示するようにする。
なおまた、本フローチャートは、あくまでネットワーク構成マップ表示処理を説明したものである。運用監視装置1は管理者がネットワーク構成マップを表示中以外においても、当然に監視を継続させており、閾値が設定されている全ての監視データ値に対し、常時、閾値判定を行っている。そして何れかの監視データ値に異常があった場合には、管理者に対しメールやモニタ上で通知を行う。
[変形例]
図14は、本変形例に係るネットワーク構成マップ/画面例(一部抜粋)を示す。ネットワーク構成マップ中、Webサーバ1号機及び前後のネットワーク結線の箇所のみを抜粋して示したものである。上述の図9と比較すると、Webサーバ1号機については、CPU使用率、メモリ使用率、プロセス数、コネクション数の値に次ぐ括弧内にも値が入って表示されている。またネットワーク結線については、回線使用率を示す使用率グラフの下に、もう1の使用率グラフが表示されている。
これらは例えば1日の中で収集した監視データのうち最大値を示す。つまり、上述の図9の場合、マップ作成の現時点(例えば2011年7月28日14:20)での監視データ値が表示されているのみであったが、ここでは併せて1日の中で収集した監視データのうち最大値を表示するようにする。マップ作成の現時点では、監視データに何ら異常が見られない場合であっても、過去24時間遡ったある時点において、監視データに異常が発生していた可能性があるので、このように過去所定時間内における監視データ値の最大値を表示し、また閾値判定に基づく異常識別情報を表示するようにする。
勿論管理者は、上述の如く各監視機器やネットワーク結線を例えばクリック操作し、過去の監視データ等のより詳細な監視データや分析情報を参照すれば、過去の監視データに異常を認識することが可能である(図10)。しかし本変形例によれば、マップ作成の現時点では、監視データに何ら異常が見られない場合であっても、過去所定時間内遡った過去のある時点における監視データの異常を一目で判断することができる。
再び図14を参照すると、マップ中、Webサーバ1号機には、過去24時間遡ったある時点において、CPU使用率70%(注意)、メモリ使用率81%(警告)、プロセス数14(注意)、コネクション数21(警告)の監視データが見られる。また上流のネットワーク結線において、回線使用率(注意)が見られる。管理者は現時点でこの現象は生じていないものの、過去に何らかの異常が見られたと判断し、より詳細な監視データや分析情報を参照するなどの調査を行うことができる。
なおマップ中、例えば1日の中で収集した監視データのうち最大値及び異常識別情報を表示するには、次のようにすればよい。S4において、閾値判定部106は、監視データ蓄積部102から取得要求のあった各オブジェクトの「表示監視データ値」を取得する際、過去24時間内の「表示監視データ値」を参照し、この中から最大値を併せて取得する。またS5において、閾値判定部106は、取得した「表示監視データ値」の最大値に対し、その監視データ値が異常値であるか否か、つまり具体的には閾値を超えているか(又は下回っているか)を判定する。監視データ値毎の閾値は付帯情報を参照して判定する。後は同様に、判定の結果、異常がある場合には、段階に応じて第1段階異常フラグ、第2段階異常フラグを最大値に付して、表示部105に返答する。S8、9において、表示部105は、最大値に異常がないと判定した場合は、マップ上、そのオブジェクトに対応付けて、その最大値を表示し、最大値に異常があると判定した場合、マップ上、そのオブジェクトに対応付けて、その最大値を異常識別情報とともに表示する。
なお本図例の最大値の表示形態はあくまで一例である。マップ上、いかように最大値を表示するかはデザイン的な問題であり、少なくとも「表示監視データ値」のそれぞれに対し、ユーザが過去の最大値を容易に認識できる限り、数値、グラフ、メータ、その他何らかの図形等を用いていかように最大値を表示してもよい。
[実施形態2]
上述の実施形態1において、監視データが異常か否かを判定するために使用される閾値は、管理者により予め設定されてるものであった。具体的に、管理者がマップ上に追加したサーバ・アイコンをクリックすると、付帯情報入力画面が表示されるので、管理者は入力画面に従って、例えば、Webサーバ1号機32の場合、「表示名」:Webサーバ1号機、「ホスト名」:WEBSV01、「IPアドレス」:x.0.0.2、「表示監視データ値(閾値)」: CPU(50%/80%)、MEM(50%/80%)、プロセス数(10/20)、コネクション数(20/40)と入力する(図7)。
一方本実施形態2において、閾値は管理者により予め設定される固定的な値ではなく、運用実績に基づき算出した動的な値を使用する。以下説明する。
<傾向値線分析>
図15は、本実施形態に係る傾向値線分析画面例(その1)を示す。上述の如く運用監視装置1は過去の監視データ等に基づく詳細な監視データや分析情報を参照できるが、この傾向値線分析は分析機能の1つで、収集され蓄積した過去の監視データを曜日毎に集計し、統計的分析手法(ここでは標準偏差)を用いて曜日毎の1日において、監視データの傾向上限値(最大値)や傾向下限値(最小値)を算出するものである。そして傾向上限値、傾向下限値を線で結んだものが、傾向上限値線、傾向下限値線である。
図15は、2011年8月1日・月曜日、Webサーバ1号機32のCPUの傾向値線分析画面を示す。この月曜日のCPU使用率を示す実線を見ると、夕方から徐々にCPU使用率が上昇し(アクセス数の増加に伴うものと推測される)、午後8〜9時頃にCPU使用率のピークを迎える。そして以後は徐々にCPU使用率が下降していることが分かる。一方、CPU使用率を示す実線のほか、傾向上限値線、傾向下限値線が点線で示されている。傾向上限値線、傾向下限値線は、収集され蓄積した過去の監視データを曜日毎に集計し標準偏差を用いて月曜日毎の1日においてCPU使用率の傾向上限値(最大値)や傾向下限値(最小値)を示すものであるから、ここではCPU使用率を示す実線が傾向上限値線、傾向下限値線の範囲に入る確率(例えば99.74%)は非常に高い。いいかえれば、毎週月曜日のCPU使用率は、通常通り稼動しているとするならば、傾向上限値線、傾向下限値線の範囲に収まるはずである。逆にこの範囲を外した場合、何らかの異常が発生している可能性がある。つまり傾向上限値(傾向下限値)は、CPU使用率の閾値として使用することができる。
<ネットワーク構成マップ/稼動画面例>
図16は、本実施形態に係るネットワーク構成マップ/画面例(一部抜粋)を示す。ネットワーク構成マップ中、Webサーバ1号機及び前後のネットワーク結線の箇所のみを抜粋して時系列的に示したものである。再び図15を参照しながら説明する。
図15のこの日のCPU使用率を示す実線を参照する。例えば午前10:00時点をみると、Webサーバ1号機のCPU使用率は28%、これに対し閾値は30%である。よってWebサーバ1号機に異常が見られないと判断し、運用監視装置1は、マップ中、Webサーバ1号機に対し、その時点のCPU使用率のみを表示し、異常識別情報は非表示である。
一方、この日のCPU使用率を示す実線を参照すると、CPU使用率は午後8:20位までは閾値内に収まっているものの、午後8:20以降から午後9:00位までの間は、傾向上限値(閾値)を超える。午後8:20時点、Webサーバ1号機のCPU使用率は92%、これに対しこの時点での閾値は62%である。よってWebサーバ1号機に異常が見られるものと判断し、運用監視装置1は、マップ中、Webサーバ1号機に対し、その時点のCPU使用率とともに異常識別情報を表示する。またマップが表示されていない場合には、管理者に対しメールやモニタ上で通知を行う。
また一方、例えば午後9:20時点をみると、Webサーバ1号機のCPU使用率は56%、これに対しこの時点での閾値は58%である。よってWebサーバ1号機に異常が見られないと判断し、運用監視装置1は、マップ中、Webサーバ1号機に対し、その時点のCPU使用率のみを表示し、異常識別情報は非表示である。
このように、閾値はその時点において動的に変化するが、この閾値は傾向値線分析に基づく傾向上限値が使用される。この傾向上限値は、その時点での曜日毎の傾向からすると、本来は想定されない(超えるはずのない)値である。よって、CPU使用率が同じでも時間帯によって閾値は異なるので、ある時間によっては異常と判断され、またある時間によっては異常なしと判断されることもある。
午後9:20時点でWebサーバ1号機のCPU使用率は56%に達しているが、この時点での閾値との関係からWebサーバ1号機に異常が見られないと判断される一方、午前10:00時点での閾値は30%であるので、仮に午前10:00時点でCPU使用率が56%に達した場合、Webサーバ1号機に異常が見られるものと判断され、運用監視装置1は、マップ中、Webサーバ1号機に対し、その時点のCPU使用率とともに異常識別情報を表示することになる。
午前10:00では、月曜日毎の傾向からすると、アクセスは少ないと考えられるため、本来的にはCPU使用率は5〜30%以内の範囲に収まるはずであると想定される。しかし仮に午前10:00時点でCPU使用率が56%に達した場合、傾向からすると、本来起こりえない値である。よって、Webサーバ1号機に異常が見られるものと判断され、運用監視装置1は、マップ中、Webサーバ1号機に対し、その時点のCPU使用率とともに異常識別情報を表示するので、管理者はこの時間帯にしては不自然なこのCPU使用率に対し、何らかの異常が生じている可能性があるものとして、より詳細にこの監視データとともにWebサーバ1号機を調べることが可能となる。
一方、例えば午後9:20では、月曜日毎の傾向からすると、アクセスは多いと考えられるため、本来的にはCPU使用率は30〜58%以内の範囲に収まるはずであると想定される。実際、午後9:20時点をみると、Webサーバ1号機のCPU使用率は56%であり、本来的に想定されている値である。よってWebサーバ1号機に異常が見られないと判断し、運用監視装置1は、マップ中、Webサーバ1号機に対し、その時点のCPU使用率のみを表示する(異常識別情報は非表示)。
<情報処理>
閾値として、その時点での傾向上限値を使用するには、次のようにすればよい。本実施形態においては、上述の傾向値線分析機能(傾向値線分析手段)により、全オブジェクト(ID1〜14)について、収集される全監視データについて、収集され蓄積した過去の監視データを所定のサイクル日(例えば曜日毎)に集計し、統計的手法を用いてサイクル日毎において、オブジェクト毎、監視データ毎の傾向上限値(及び傾向下限値)を時系列/時刻毎に算出しているものとする。
S5において、閾値判定部106は、取得した全オブジェクトの「表示監視データ値」に対し、その監視データ値が異常値であるか否か、つまり具体的には閾値を超えているか(又は下回っているか)を判定するが、このとき監視データ値毎の閾値は付帯情報を参照せず、その時点でのその監視データ値に対応する傾向上限値を閾値として使用するようにする。
具体的に例えば、閾値判定部106は、オブジェクトID1のFW/LB装置31の「表示監視データ値」(CPU使用率、メモリ使用率、プロセス数、コネクション数)について閾値判定する場合、FW/LB装置31のその時点(曜日、時間)でのCPU使用率の傾向上限値、メモリ使用率の傾向上限値、プロセス数の傾向上限値、コネクション数の傾向上限値を取得し、これらの傾向上限値をそれぞれの閾値とする。そして、現時刻(又は直近)のCPU使用率、メモリ使用率、プロセス数、コネクション数の監視データ値(実値)と比較して閾値判定を行う。
図17は、本実施形態に係る傾向値線分析画面例(その2)を示す。傾向上限値(及び傾向下限値)は、傾向値線分析機能により2段階で算出するようにすることもできる。本図では例えば、傾向上限値について2段階で算出し、第1傾向上限値は90.00%の確率で、第2傾向上限値は99.74%の確率でCPU使用率を示す実線が入るようになるものとして算出する。
上述の実施形態1の閾値判定部106は、判定の結果、異常がある場合には、段階に応じて第1段階異常フラグ、第2段階異常フラグを「表示監視データ値」に付して、表示部105に返答した。
同様にS5において、閾値判定部106は、取得した全オブジェクトの「表示監視データ値」に対し、その監視データ値が異常値であるか否か、つまり具体的には閾値を超えているか(又は下回っているか)を判定するが、このとき監視データ値毎の閾値は、その時点でのその監視データ値に対応する第1傾向上限値、第2傾向上限値を閾値として使用するようにする。そして閾値判定部106は、判定の結果、異常がある場合には、段階に応じて第1段階異常フラグ、第2段階異常フラグを「表示監視データ値」に付して、表示部105に返答する。
S8、9において、表示部105は、オブジェクトの「表示監視データ値」に異常があると判定した場合、マップ上、そのオブジェクトに対応付けて、その「表示監視データ値」を異常識別情報とともに表示する。異常識別情報は、上述と同様、第1段階異常フラグであれば例えば黄色等(注意)、第2段階異常フラグであれば例えば赤色等(警告)を用いればよい。
なお、これまでは傾向上限値に注目し説明を行ってきたが、傾向下限値についても傾向上限値と同様に捉え、下限の閾値とすることが可能である。傾向値線分析に基づく傾向下限値もまた、その時点での曜日毎の傾向からすると、本来は想定されない(下回るはずのない)値である。監視データによっては値が極端に少ない場合、何らかの異常が認められるものもあり、上限閾値の場合と同様、その監視データに対し注意や警告が必要である。
なおまた、これら傾向値線を算出には、少なくとも1ヶ月、望ましくは3ヶ月以上、過去の監視データを収集し蓄積する必要がある。よって閾値は暫く管理者入力の閾値を用い、妥当な傾向値線を算出できた時点から傾向上限値(又は傾向下限値)を閾値として使用するとよい。また上述の傾向値線分析において、曜日というサイクル期間で一定の人間行動パターンが見られるという観点に基づき、曜日毎に傾向上限値線等を算出したものであった。しかし、他にも例えば月毎、季節(シーズン)などによっても一定の人間行動パターンが見られる。よって月毎や季節毎という観点から、月毎や季節毎に傾向上限値線等を算出し、その傾向上限値を閾値として使用することもできる。またこれらを複合させた傾向上限値線等を算出し、閾値と使用してもよい。
以上、実施形態2において、閾値は、監視対象となる機器やネットワークの運用実績に基づき算出した動的な値を使用するので、監視現場に即した閾値により、より適切な監視業務を行うことが可能である。例えばWebサーバ1号機32、Webサーバ2号機33は、同じWebサーバであるので、監視データに対し、通常、Webサーバとして妥当な閾値が一律に設定されうる。しかしながら実施形態2においては、同じWebサーバであっても、それぞれのWebサーバ毎の運用実績に基づき算出した動的な値を使用するので、それぞれのWebサーバ毎の運用・稼動状況に即した閾値を使用した監視を行うことができる。つまりネットワーク構成マップ上、全監視機器及びネットワーク結線に対し、それぞれの運用・稼動状況に即した閾値を使用しての異常の有無の判断を行うことができるので、管理者は運用・稼動状況に即して異常を認識し、また直感的に連動的に発生している障害の原因の究明を迅速に行うことが可能となる。
[総括]
以上本実施形態によれば、ネットワークシステム全体という視点から、ノード間に存在する相関関係をも直感的に把握できるよう、各ノード及び各ノード間のネットワークの負荷状況を包括的・一元的に表示し、障害要因の迅速な特定・復旧に寄与する運用監視装置等を提供することが可能となる。
なお、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
1 運用監視装置
2 管理者端末
3 監視対象ネットワーク
11 CPU
12 ROM
13 RAM
14 補助記憶装置
15 記憶媒体読取装置
16 通信装置
31 FW/LB装置
32 Webサーバ1号機
33 Webサーバ2号機
34 APサーバ1号機
35 APサーバ2号機
36 DBサーバ36
37−39 Hub
101 監視データ取得部
102 監視データ蓄積部
103 ネットワーク構成マップ作成部
104 ネットワーク構成マップ保存部
105 表示部
106 閾値判定部

Claims (11)

  1. 監視対象の監視機器から、前記監視機器の監視データ値と該監視機器を接続するネットワークの監視データ値とを取得し、該監視データ値に基づき前記監視機器の監視を行う運用監視装置であって、
    取得された前記監視機器及び前記ネットワークの監視データ値を記憶する第1記憶手段と、
    前記監視機器に対応する少なくとも2以上の監視機器表示と前記ネットワークに対応する前記2以上の監視機器を結線して接続するネットワーク表示とを含むネットワーク構成マップを記憶する第2記憶手段と、
    前記ネットワーク構成マップを表示するとともに、該ネットワーク構成マップ内の監視機器表示及びネットワーク表示に対応付けて、前記監視機器及び前記ネットワークの監視データ値を表示する表示手段と、
    を有し、
    前記表示手段は、前記監視データ値が異常値と判定されたときは、前記ネットワーク構成マップ内において、該監視機器表示又は該ネットワーク表示に対応付けて異常値と判定された該監視データ値とともに異常識別情報を表示すること、
    を特徴とする運用監視装置。
  2. 前記表示手段は、該ネットワーク構成マップ内の監視機器表示及びネットワーク表示に対応付けて、前記監視機器及び前記ネットワークの監視データ値を表示するとき、表示する該監視データの所定の期間内における最大監視データ値をともに表示し、
    前記表示手段は、前記最大監視データ値が異常値と判定されたときは、前記ネットワーク構成マップ内において、該監視機器表示又は該ネットワーク表示に対応付けて異常値と判定された該最大監視データを表示するとともに異常識別情報を表示すること、
    を特徴とする請求項1記載の運用監視装置。
  3. 前記第1記憶手段により所定のサイクル期間蓄積された監視データ値から、監視データ値の上限傾向値及び/又は該上限傾向値に対し所定演算を施した演算値を、サイクル日毎且つ時刻毎に算出する傾向値分析手段と、
    前記監視データの上限傾向値及び/又は演算値のうち閾値判定の対象となる監視データ値が取得された同サイクル日且つ同時刻の上限傾向値及び/又は演算値を取得し、該監視データ値が該上限傾向値及び/又は演算値を越えたとき、該監視データ値が異常値と判定する閾値判定手段と、
    を有することを特徴とする請求項1又は2記載の運用監視装置。
  4. 前記第1記憶手段により所定のサイクル期間蓄積された監視データ値から、監視データ値の下限傾向値及び/又は該下限傾向値に対し所定演算を施した演算値を、サイクル日毎且つ時刻毎に算出する傾向値分析手段と、
    前記監視データの下限傾向値及び/又は演算値のうち閾値判定の対象となる監視データ値が取得された同サイクル日且つ同時刻の下限傾向値及び/又は演算値を取得し、該監視データ値が該下限傾向値及び/又は演算値を越えたとき、該監視データ値が異常値と判定する閾値判定手段と、
    を有することを特徴とする請求項1ないし3何れか一項記載の運用監視装置。
  5. 前記表示手段は、前記ネットワーク構成マップ、前記監視機器及び前記ネットワークの監視データ値、並びに該監視データ値が異常値と判定されたときは前記異常識別情報をWebブラウザ上で表示可能なデータ形式に変換すること、
    を特徴とする請求項1ないし4何れか一項記載の運用監視装置。
  6. 監視対象の監視機器から、前記監視機器の監視データ値と該監視機器を接続するネットワークの監視データ値とを取得し、該監視データ値に基づき前記監視機器の監視を行うコンピュータに、
    取得された前記監視機器及び前記ネットワークの監視データ値を記憶する第1記憶手段と、
    前記監視機器に対応する少なくとも2以上の監視機器表示と前記ネットワークに対応する前記2以上の監視機器を結線して接続するネットワーク表示とを含むネットワーク構成マップを記憶する第2記憶手段と、
    前記ネットワーク構成マップを表示するとともに、該ネットワーク構成マップ内の監視機器表示及びネットワーク表示に対応付けて、前記監視機器及び前記ネットワークの監視データ値を表示する表示手段として機能させ、
    前記表示手段は、前記監視データ値が異常値と判定されたときは、前記ネットワーク構成マップ内において、該監視機器表示又は該ネットワーク表示に対応付けて異常値と判定された該監視データ値とともに異常識別情報を表示すること、
    を特徴とする運用監視プログラム。
  7. 前記表示手段は、該ネットワーク構成マップ内の監視機器表示及びネットワーク表示に対応付けて、前記監視機器及び前記ネットワークの監視データ値を表示するとき、表示する該監視データの所定の期間内における最大監視データ値をともに表示し、
    前記表示手段は、前記最大監視データ値が異常値と判定されたときは、前記ネットワーク構成マップ内において、該監視機器表示又は該ネットワーク表示に対応付けて異常値と判定された該最大監視データを表示するとともに異常識別情報を表示すること、
    を特徴とする請求項6記載の運用監視プログラム。
  8. 前記コンピュータに、
    前記第1記憶手段により所定のサイクル期間蓄積された監視データ値から、監視データ値の上限傾向値及び/又は該上限傾向値に対し所定演算を施した演算値を、サイクル日毎且つ時刻毎に算出する傾向値分析手段と、
    前記監視データの上限傾向値及び/又は演算値のうち閾値判定の対象となる監視データ値が取得された同サイクル日且つ同時刻の上限傾向値及び/又は演算値を取得し、該監視データ値が該上限傾向値及び/又は演算値を越えたとき、該監視データ値が異常値と判定する閾値判定手段として機能させるための請求項6又は7記載の運用監視プログラム。
  9. 前記コンピュータに、
    前記第1記憶手段により所定のサイクル期間蓄積された監視データ値から、監視データ値の下限傾向値及び/又は該下限傾向値に対し所定演算を施した演算値を、サイクル日毎且つ時刻毎に算出する傾向値分析手段と、
    前記監視データの下限傾向値及び/又は演算値のうち閾値判定の対象となる監視データ値が取得された同サイクル日且つ同時刻の下限傾向値及び/又は演算値を取得し、該監視データ値が該下限傾向値及び/又は演算値を越えたとき、該監視データ値が異常値と判定する閾値判定手段として機能させるための請求項6ないし8何れか一項記載の運用監視プログラム。
  10. 前記表示手段は、前記ネットワーク構成マップ、前記監視機器及び前記ネットワークの監視データ値、並びに該監視データ値が異常値と判定されたときは前記異常識別情報をWebブラウザ上で表示可能なデータ形式に変換すること、
    を特徴とする請求項6ないし9何れか一項記載の運用監視プログラム。
  11. 請求項6ないし10何れか一項記載の運用監視プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2011190098A 2011-08-31 2011-08-31 運用監視装置、運用監視プログラム及び記録媒体 Expired - Fee Related JP5659108B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011190098A JP5659108B2 (ja) 2011-08-31 2011-08-31 運用監視装置、運用監視プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011190098A JP5659108B2 (ja) 2011-08-31 2011-08-31 運用監視装置、運用監視プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2013054402A true JP2013054402A (ja) 2013-03-21
JP5659108B2 JP5659108B2 (ja) 2015-01-28

Family

ID=48131379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011190098A Expired - Fee Related JP5659108B2 (ja) 2011-08-31 2011-08-31 運用監視装置、運用監視プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5659108B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014206887A (ja) * 2013-04-15 2014-10-30 株式会社シーイーシー 宅内装置間通信表示方法、装置およびプログラム
WO2015141220A1 (ja) * 2014-03-20 2015-09-24 日本電気株式会社 情報処理装置及び監視方法
JP2015230714A (ja) * 2014-06-06 2015-12-21 富士通株式会社 異常検知方法、異常検知プログラムおよび異常検知装置
KR20170040210A (ko) * 2014-07-30 2017-04-12 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 분산 시스템에서 결함을 분석하기 위한 비주얼 툴
JP2017162287A (ja) * 2016-03-10 2017-09-14 富士通株式会社 情報処理装置、システム、方法及びプログラム
US10021668B2 (en) 2015-02-24 2018-07-10 Mitsubishi Electric Corporation Wireless characteristic display apparatus, wireless characteristic display method, and computer readable medium
JP2018530035A (ja) * 2015-08-13 2018-10-11 ブル・エス・アー・エス トポロジカルデータを用いたスーパーコンピュータのための監視システム
WO2020049465A1 (en) * 2018-09-04 2020-03-12 Toshiba Memory Corporation System and method for managing gui of virtual nvme entities in nvme over fabric appliance
JPWO2021059352A1 (ja) * 2019-09-24 2021-04-01

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142746A (ja) * 1999-11-11 2001-05-25 Nec Software Chubu Ltd 計算機システムの負荷監視装置
US20050193376A1 (en) * 1999-11-24 2005-09-01 Guy Harrison Systems and methods for monitoring a computing environment
WO2006117832A1 (ja) * 2005-04-25 2006-11-09 Fujitsu Limited 運用中システムチェック処理装置,方法およびそのプログラム
JP2007179403A (ja) * 2005-12-28 2007-07-12 Mitsubishi Electric Corp 監視装置
JP2010146306A (ja) * 2008-12-19 2010-07-01 Hitachi Information Systems Ltd 構成監視システム及び構成監視方法
JP2010224831A (ja) * 2009-03-23 2010-10-07 Nippon Steel Corp ネットワークシステムの診断システム、方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142746A (ja) * 1999-11-11 2001-05-25 Nec Software Chubu Ltd 計算機システムの負荷監視装置
US20050193376A1 (en) * 1999-11-24 2005-09-01 Guy Harrison Systems and methods for monitoring a computing environment
WO2006117832A1 (ja) * 2005-04-25 2006-11-09 Fujitsu Limited 運用中システムチェック処理装置,方法およびそのプログラム
JP2007179403A (ja) * 2005-12-28 2007-07-12 Mitsubishi Electric Corp 監視装置
JP2010146306A (ja) * 2008-12-19 2010-07-01 Hitachi Information Systems Ltd 構成監視システム及び構成監視方法
JP2010224831A (ja) * 2009-03-23 2010-10-07 Nippon Steel Corp ネットワークシステムの診断システム、方法及びプログラム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014206887A (ja) * 2013-04-15 2014-10-30 株式会社シーイーシー 宅内装置間通信表示方法、装置およびプログラム
US10860406B2 (en) 2014-03-20 2020-12-08 Nec Corporation Information processing device and monitoring method
WO2015141220A1 (ja) * 2014-03-20 2015-09-24 日本電気株式会社 情報処理装置及び監視方法
JPWO2015141220A1 (ja) * 2014-03-20 2017-04-06 日本電気株式会社 情報処理装置及び監視方法
JP2015230714A (ja) * 2014-06-06 2015-12-21 富士通株式会社 異常検知方法、異常検知プログラムおよび異常検知装置
KR20170040210A (ko) * 2014-07-30 2017-04-12 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 분산 시스템에서 결함을 분석하기 위한 비주얼 툴
JP2017523526A (ja) * 2014-07-30 2017-08-17 マイクロソフト テクノロジー ライセンシング,エルエルシー 分散システムにおける故障解析のための視覚ツール
KR102301946B1 (ko) * 2014-07-30 2021-09-13 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 분산 시스템에서 결함을 분석하기 위한 비주얼 툴
US10021668B2 (en) 2015-02-24 2018-07-10 Mitsubishi Electric Corporation Wireless characteristic display apparatus, wireless characteristic display method, and computer readable medium
JP2018530035A (ja) * 2015-08-13 2018-10-11 ブル・エス・アー・エス トポロジカルデータを用いたスーパーコンピュータのための監視システム
US11436121B2 (en) 2015-08-13 2022-09-06 Bull Sas Monitoring system for supercomputer using topological data
JP2017162287A (ja) * 2016-03-10 2017-09-14 富士通株式会社 情報処理装置、システム、方法及びプログラム
US10671286B2 (en) 2018-09-04 2020-06-02 Toshiba Memory Corporation System and method for managing GUI of virtual NVMe entities in NVMe over fabric appliance
WO2020049465A1 (en) * 2018-09-04 2020-03-12 Toshiba Memory Corporation System and method for managing gui of virtual nvme entities in nvme over fabric appliance
US11112969B2 (en) 2018-09-04 2021-09-07 Toshiba Memory Corporation System and method for managing GUI of virtual NVMe entities in NVMe over fabric appliance
JPWO2021059352A1 (ja) * 2019-09-24 2021-04-01
US12068926B2 (en) 2019-09-24 2024-08-20 Ntt Communications Corporation Display control system, display method, and program

Also Published As

Publication number Publication date
JP5659108B2 (ja) 2015-01-28

Similar Documents

Publication Publication Date Title
JP5659108B2 (ja) 運用監視装置、運用監視プログラム及び記録媒体
US7877472B2 (en) System and method for displaying historical performance of an element on a network
EP3327637B1 (en) On-demand fault reduction framework
WO2018126645A1 (zh) 一种通信网络管理方法及其装置
JP5267736B2 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
US20110032260A1 (en) Enhancing visualization of relationships and temporal proximity between events
US20060200373A1 (en) Facilitating Root Cause Analysis for Abnormal Behavior of Systems in a Networked Environment
CN105610648B (zh) 一种运维监控数据的采集方法及服务器
US20030225876A1 (en) Method and apparatus for graphically depicting network performance and connectivity
AU2001270017A1 (en) Liveexception system
JPWO2014033894A1 (ja) サービス性能監視方法
JPWO2013001609A1 (ja) 監視システム、及び監視方法
CN111817911A (zh) 一种探测网络质量的方法、装置、计算设备及存储介质
CN106487612A (zh) 一种服务器节点监控方法、监控服务器及系统
CN112699007B (zh) 监控机器性能的方法、系统、网络设备及存储介质
JP2019507454A (ja) アプリケーションの実行中に観察される問題の根本原因を特定する方法
JP2010146306A (ja) 構成監視システム及び構成監視方法
CN114143160A (zh) 一种云平台自动化运维系统
US11556120B2 (en) Systems and methods for monitoring performance of a building management system via log streams
JP5598362B2 (ja) トラフィックデータの監視システムおよびサーバ間データ整合方法
US8924537B2 (en) Business processes tracking
JP5793762B2 (ja) ネットワーク装置、ネットワークシステム及びアラート情報処理方法
JP2014137635A (ja) 応答時間監視プログラム、方法および応答時間監視装置
CN102567470A (zh) 系统级性能数据的处理方法及设备
CN115687036A (zh) 日志采集方法、装置及日志系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140722

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141201

R150 Certificate of patent or registration of utility model

Ref document number: 5659108

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees