JP2021051704A - 監視装置及びプログラム - Google Patents

監視装置及びプログラム Download PDF

Info

Publication number
JP2021051704A
JP2021051704A JP2019176013A JP2019176013A JP2021051704A JP 2021051704 A JP2021051704 A JP 2021051704A JP 2019176013 A JP2019176013 A JP 2019176013A JP 2019176013 A JP2019176013 A JP 2019176013A JP 2021051704 A JP2021051704 A JP 2021051704A
Authority
JP
Japan
Prior art keywords
group
information
unit
transaction
virtual server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019176013A
Other languages
English (en)
Other versions
JP7304252B2 (ja
Inventor
加藤 俊也
Toshiya Kato
俊也 加藤
知範 岩田
Tomonori Iwata
知範 岩田
直子 丹野
Naoko Tanno
直子 丹野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IIM Corp
Original Assignee
IIM Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IIM Corp filed Critical IIM Corp
Priority to JP2019176013A priority Critical patent/JP7304252B2/ja
Publication of JP2021051704A publication Critical patent/JP2021051704A/ja
Application granted granted Critical
Publication of JP7304252B2 publication Critical patent/JP7304252B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

【課題】異常状態発生箇所及び異常状態を引き起こす原因の特定を容易にする。【解決手段】監視装置は、トランザクション情報を取得するトランザクション情報取得部と、トランザクション情報取得部が取得するトランザクション情報が属するアプリケーショングループを取得するアプリケーショングループ情報取得部と、トランザクション情報取得部が取得するトランザクション情報が属する仮想サーバグループを取得する仮想サーバグループ情報取得部と、アプリケーショングループ情報と、仮想サーバグループ情報とに基づきトランザクション情報が示すトランザクションの属するアプリケーショングループ又は仮想サーバグループのうち少なくともいずれか一方を判定するグループ判定部と、グループ判定部が判定する結果に基づきトランザクションについての統計演算を行う統計部と、統計部による統計演算の結果を出力する出力部とを有する。【選択図】図2

Description

本発明は、監視装置及びプログラムに関する。
従来、コンピュータシステム全体を監視し、評価する方法が知られている。(例えば、特許文献1を参照)。
特開2006−018369号公報
多数のアプリケーションオンラインサービスを提供する分散コンピュータ環境では、多くの物理サーバにおいて仮想技術を利用して構築された仮想マシン上でホストOSが稼動し、それらが、様々な役割を持つ仮想サーバが構成されている。また、当該アプリケーションの様々なサービスの実行単位であるトランザクションが入り混じった状態(以下、トランザクションミックスと言う。)で、前記分散コンピュータ環境で実行される。このような複雑なコンピュータシステムの性能管理では、刻々と変化するトランザクション量とトランザクションミックスと、それに応じて変化するサーバの資源利用状況やミドルウェアの制御機能の活動状況を把握し、監視し、レポーティングを行う運用が必要とされるが、これらを個々のホスト単位やトランザクション単位など、個別に管理することは容易ではなく、従来では、システム毎に個別の仕組みを構築して運用方法を確立した上で、システムを熟知しているシステム管理者や運用担当者のスキルに依存した運用が行われている。例えば、性能異常が発生した場合に、その影響範囲を特定したり、その異常の原因がアプリケーションに起因するものなのか、サーバに起因するものなのかを切り分け、アプリケーション開発者やシステム管理者が様々な情報を収集して分析し、問題個所の特定を行うという煩雑な手順と人のスキルに依存した問題判別を行っている。このような手法では異常発生原因の特定に時間がかかるという問題が生じていた。
すなわち、従来手法によると、システム管理者はコンピュータシステムに異常が発生していることを発見できても、その異常を引き起こす異常状態発生箇所、及び異常状態を引き起こす原因の特定には時間がかかるという問題があった。
本発明は、このような状況に鑑みてなされたものであり、コンピュータシステムの性能状況を把握するリアルモニタ機能を持ち、異常発生時には、異常状態発生箇所、及び異常状態を引き起こす原因の特定が容易な監視機能を有し、かつ、定期的な性能レポートを出力する機能を持つ装置及びプログラムを提供することを目的とする。
本発明の一態様に係る監視装置は、複数の仮想サーバと前記仮想サーバ上で動作する複数のアプリケーションとを含んで構成されるコンピュータシステム内においてやり取りされる情報伝達の実行単位であるトランザクションを識別する情報であり、前記トランザクションの宛先であるアプリケーションを示す宛先情報と前記仮想サーバを構成する複数のホストのうち一のホストを識別するホスト情報とを含むトランザクション情報を取得するトランザクション情報取得部と、宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報を記憶するアプリケーショングループ情報記憶部から、前記トランザクション情報取得部が取得する前記トランザクション情報が属するアプリケーショングループを取得するアプリケーショングループ情報取得部と、ホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報を記憶する仮想サーバグループ情報記憶部から、前記トランザクション情報取得部が取得する前記トランザクション情報が属する仮想サーバグループを取得する仮想サーバグループ情報取得部と、前記アプリケーショングループ情報取得部が取得する前記アプリケーショングループ情報と、前記仮想サーバグループ情報取得部が取得する前記仮想サーバグループ情報とに基づき、前記トランザクション情報取得部が取得する前記トランザクション情報が示すトランザクションの属する前記アプリケーショングループ又は前記仮想サーバグループのうち少なくともいずれか一方を判定するグループ判定部と、前記グループ判定部が判定する結果に基づき、前記トランザクションについての統計演算を行う統計部と、前記統計部による統計演算の結果を出力する出力部と、を有する。
また、本発明の一態様に係る監視装置において、前記アプリケーショングループ情報は、前記複数の宛先情報を持つコンピュータシステムを一のグループとして定義した第一のアプリケーショングループと、前記複数の第一のアプリケーショングループを一のグループとして定義した第二のアプリケーショングループと、前記複数の第二のアプリケーショングループを一のグループとして定義した第三のアプリケーショングループと、前記複数の第三のアプリケーショングループを一のグループとして定義した第四のアプリケーショングループとを備え、前記仮想サーバグループ情報は、前記コンピュータシステムを構成する複数のホスト情報を一のグループとして定義した第一の仮想サーバグループと、前記複数の第一の仮想サーバグループを一のグループとして定義した第二の仮想サーバグループとを備える。
また、本発明の一態様に係る監視装置は、前記統計部が行った前記統計演算の結果が前記出力部から出力されることに応じて選択される前記アプリケーショングループまたは前記仮想サーバグループを示すグループ選択情報を取得するグループ選択情報取得部と、前記グループ選択情報取得部が取得した前記グループ選択情報に基づいて、前記統計部が行った前記統計演算の結果の中から、(前記出力部による)出力対象の前記統計演算の結果を選択する表示選択部と、をさらに備え、前記出力部は、前記表示選択部が選択した前記統計演算の結果を出力する。
また、本発明の一態様に係る監視装置は、前記コンピュータシステムが備えるリソースの使用状況を示す情報を含むリソース情報を取得するリソース情報取得部と、前記トランザクション情報取得部が取得する前記トランザクション情報と、前記リソース情報取得部が取得する前記リソース情報とに基づき、前記コンピュータシステムの性能を測る指標を計測する計測部と、をさらに備え、前記統計部は、前記計測部が計測した前記コンピュータシステムの性能を測る指標についての統計演算を前記統計演算として行い、前記出力部は、前記統計部が前記統計演算を行った結果を出力する。
また、本発明の一態様に係る監視装置は、前記計測部が計測する前記コンピュータシステムの性能を測る指標に基づき、前記コンピュータシステムの性能を測る指標が閾値を超えるか否かの比較を行う比較部、をさらに備え、前記比較部が有する前記閾値は、宛先、ホスト、アプリケーショングループ又は仮想サーバグループ毎に設定可能であり、前記出力部は、前記比較部が比較を行った結果を出力する。
また、本発明の一態様に係る監視装置は、前記コンピュータシステムの性能を測る指標が前記閾値を超えた場合に警告を行う警告部、をさらに備え、前記出力部は、前記警告部が行った警告に基づき閾値を超えた前記コンピュータシステムの性能を測る指標と、前記コンピュータシステムの性能を測る指標が属する前記宛先、ホスト、アプリケーショングループ又は仮想サーバグループを表示する。
また、本発明の一態様に係る監視装置において、前記警告部は、前記コンピュータシステムの性能を測る指標が前記閾値を超えている時間が所定の判定時間を超える場合に前記警告を行う。
また、本発明の一態様に係る監視装置は、複数の仮想サーバと前記仮想サーバ上で動作する複数のアプリケーションとを含んで構成されるコンピュータシステム内においてやり取りされる情報伝達の実行単位であるトランザクションを識別する情報であり、前記トランザクションの宛先であるアプリケーションを示す宛先情報と前記仮想サーバを構成する複数のホストのうち一のホストを識別するホスト情報とを含むトランザクション情報を取得するトランザクション情報取得部と、宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報を記憶するアプリケーショングループ情報記憶部、及びホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報を記憶する仮想サーバグループ情報記憶部のうちの少なくとも一方から、前記トランザクション情報取得部が取得する前記トランザクション情報が属するグループについてのグループ情報を取得するグループ情報取得部と、前記グループ情報取得部が取得する前記グループ情報に基づき、前記トランザクション情報取得部が取得する前記トランザクション情報が示すトランザクションの属するグループを判定するグループ判定部と、前記グループ判定部が判定する結果に基づき、前記トランザクションについての統計演算を行う統計部と、前記統計部による統計演算の結果を出力する出力部と、を有する。
また、本発明の一態様は、コンピュータシステムに、複数の仮想サーバと前記仮想サーバ上で動作する複数のアプリケーションとを含んで構成されるシステム内においてやり取りされる情報伝達の実行単位であるトランザクションを識別する情報であり、前記トランザクションの宛先であるアプリケーションを示す宛先情報と前記仮想サーバを構成する複数のホストのうち一のホストを識別するホスト情報とを含むトランザクション情報を取得するトランザクション情報取得ステップと、宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報を記憶するアプリケーショングループ情報記憶部から、前記トランザクション情報取得ステップにおいて取得される前記トランザクション情報が属するアプリケーショングループを取得するアプリケーショングループ情報取得ステップと、ホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報を記憶する仮想サーバグループ情報記憶部から、前記トランザクション情報取得ステップにおいて取得される前記トランザクション情報が属する仮想サーバグループを取得する仮想サーバグループ情報取得ステップと、前記アプリケーショングループ情報取得ステップにおいて取得される前記アプリケーショングループ情報と、前記仮想サーバグループ情報取得において取得される前記仮想サーバグループ情報とに基づき、前記トランザクション情報取得において取得される前記トランザクション情報が示すトランザクションの属する前記アプリケーショングループ又は前記仮想サーバグループのうち少なくともいずれか一方を判定するグループ判定ステップと、前記グループ判定ステップにおいて判定される結果に基づき、前記トランザクションについての統計演算を行う統計ステップと、前記統計ステップにおける統計演算の結果を出力する出力ステップと、を実行させるためのプログラム。
また、本発明の一態様は、コンピュータに、複数の仮想サーバと前記仮想サーバ上で動作する複数のアプリケーションとを含んで構成されるコンピュータシステム内においてやり取りされる情報伝達の実行単位であるトランザクションを識別する情報であり、前記トランザクションの宛先であるアプリケーションを示す宛先情報と前記仮想サーバを構成する複数のホストのうち一のホストを識別するホスト情報とを含むトランザクション情報を取得するトランザクション情報取得ステップと、宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報を記憶するアプリケーショングループ情報記憶部、及びホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報を記憶する仮想サーバグループ情報記憶部のうちの少なくとも一方から、前記トランザクション情報取得ステップにおいて取得される前記トランザクション情報が属するグループについてのグループ情報を取得するグループ情報取得ステップと、前記グループ情報取得ステップにおいて取得される前記グループ情報に基づき、前記トランザクション情報取得ステップにおいて取得される前記トランザクション情報が示すトランザクションの属するグループを判定するグループ判定ステップと、前記グループ判定ステップにおいて判定される結果に基づき、前記トランザクションについての統計演算を行う統計ステップと、前記統計ステップにおける統計演算の結果を出力する出力ステップと、を実行させるためのプログラム。
本発明によれば、多数のアプリケーションオンラインサービスを提供し、分散コンピュータ環境上で稼働する複数のコンピュータシステムの性能情報の把握を容易にし、異常状態発生箇所、及び異常状態を引き起こす原因の特定を可能にし、前記グループ情報に基づいた定期的なレポーティングを実現できる監視装置及びプログラムを提供できる。
実施形態におけるシステム監視装置の概要の一例を示す図である。 実施形態におけるシステム監視装置の機能構成の一例を示す図である。 実施形態におけるグループの一例を示す図である。 実施形態におけるシステム監視装置が備える制御部の機能構成の一例を示す図である。 実施形態におけるシステム監視装置の画面構成の一例を示す図である。 実施形態におけるトランザクション統計処理動作の一例を示す図である。 実施形態におけるグループの統計情報表示動作の一例を示す図である。 実施形態におけるシステムの性能を測る指標を比較し、警告を行う動作の一例を示す図である。
以下、本発明の実施形態について、図面を参照しながら説明する。
[システム監視装置1の概要]
図1は、実施形態におけるシステム監視装置の概要の一例を示す図である。
システム監視装置1は、監視対象システム2の監視を行う。この一例で監視とは、監視対象システム2の性能に関する情報をリアルタイムに、または一定時間ごとに計測し、提示することをいう。監視対象システム2の処理能力は、特定のホスト3又は特定のアプリケーション4にかかる負荷が変化することにより、変化する場合がある。例えば、監視対象システム2の処理能力は、特定のホスト3又は特定のアプリケーション4にかかる負荷が大きくなると、低下することがある。そこでシステム監視装置1は、監視対象システム2にかかる負荷が大きくなることにより処理能力が低下しているホスト3又はアプリケーション4を特定するべく、監視対象システム2を監視する。
監視対象システム2は、ホスト3と、アプリケーション4とを備える。
ホスト3は、物理サーバに備えられるアプリケーション4が動作するためのシステムである。1つの物理サーバに対して1つのホスト3が備えられてもよいし、1つの物理サーバに対して複数のホスト3が備えられてもよいし、複数の物理サーバに1つのホスト3が備えられていてもよい。
アプリケーション4は、ホスト3上で動作するプログラム等である。1つのホスト3上で1つのアプリケーション4が動作してもよいし、1つのホスト3上で複数のアプリケーション4が動作してもよいし、複数のホスト3上で1つのアプリケーション4が動作してもよい。
この一例でホスト3は、ウェブアプリケーションサーバ(以下、APサーバとする。)、オペレーションシステム(以下、OSとする。)、仮想マシン(以下、VMとする。)、仮想サーバ、物理サーバ、ネットワーク、データベースマネジメントシステム(以下、DBMSとする。)等を含む。
また、この一例でアプリケーション4は、WUI(ウェブユーザーインターフェース)、ウェブアプリケーション、サービスインターフェース、ビジネスロジック、インテグレーションロジック、データベースリソース等を含む。
つまり、この一例で監視対象システム2は、複数の仮想サーバであるホスト3とホスト3上で動作する複数のアプリケーション4とを含んで構成される。
[システム監視装置1の機能構成]
図2は、実施形態におけるシステム監視装置の機能構成の一例を示す図である。
システム監視装置1は、トランザクション情報取得部100と、グループ判定部200と、制御部300と、出力部400と、操作検出部5とを備える。
操作検出部5は、ユーザからの操作を検出するデバイス(不図示)を備えており、ユーザの操作に応じた情報を取得する。ユーザの操作を検出するデバイスには、スイッチ、キーボード、ポインティングデバイス、音声認識デバイスなどが含まれていてもよい。
ここで、ユーザとは、例えばシステム監視装置1を使用する者である。監視対象システム2を使用する事業者の従業員であってもよいし、監視対象システム2のメンテナンスを担当する者であってもよい。
トランザクション情報取得部100は、監視対象システム2よりトランザクション情報TXIを取得する。トランザクション情報TXIとは、トランザクションを識別する情報である。トランザクションとは、システム内においてやり取りされる情報伝達の実行単位である。
トランザクション情報TXIは、トランザクションの宛先であるアプリケーションを示す宛先情報を含む。また、トランザクション情報TXIは、複数のホストのうち一のホストを識別するホスト情報を含む。つまりトランザクションとは監視対象システム2内で行われた処理であり、当該処理が行われたホスト3とアプリケーション4を特定する情報を含む。
トランザクション情報取得部100は、監視対象システム2より取得したトランザクション情報TXIを、グループ判定部200及び制御部300に提供する。
グループ判定部200は、仮想サーバグループ情報取得部210と、仮想サーバグループ情報記憶部220と、アプリケーショングループ情報取得部230と、アプリケーショングループ情報記憶部240と、判定部250とを備える。
ここでグループとは、監視対象システム2を装置単位や機能単位などに基づき分割した1単位である。この一例でグループには、仮想サーバに基づく単位で分割した仮想サーバグループと、アプリケーションに基づく単位で分割したアプリケーショングループとがある。
図3は、実施形態におけるグループの一例を示す図である。この図に示した一例において監視対象システム2は、仮想サーバごとに分割したサーバV100とサーバV200とを備える。サーバV100は、ホストV110とホストV120とを備える。サーバV200は、ホストV210とホストV220とを備える。このように監視対象システム2は、階層を分けて仮想サーバごとにグループ化される。つまり、仮想サーバグループ情報VSGIは、複数のホスト情報で構成されるコンピュータシステムを一のグループとして定義した第一の仮想サーバグループと、複数の第一の仮想サーバグループを一のグループとして定義した第二の仮想サーバグループとを備える。
また、この図に示した一例において監視対象システム2は、アプリケーションごとに分割したドメインA100とドメインA200とを備える。
ドメインA100は中機能レベルA110と中機能レベルA120とを備える。中機能レベル110は、小機能レベル111を備える。中機能レベル210は、小機能レベルA211と、小機能レベルA212とを備える。このように監視対象システム2は、階層を分けてアプリケーションごとにグループ化される。つまり、アプリケーショングループ情報は、複数の宛先情報を持つコンピュータシステムを一のグループとして定義した第一のアプリケーショングループと、複数の第一のアプリケーショングループを一のグループとして定義した第二のアプリケーショングループと、複数の第二のアプリケーショングループを一のグループとして定義した第三のアプリケーショングループと、複数の第三のアプリケーショングループを一のグループとして定義した第四のアプリケーショングループとを備える。
図2に戻り、判定部250は、トランザクション情報取得部100からトランザクション情報TXIを取得し、取得したトランザクション情報TXIを仮想サーバグループ情報取得部210及びアプリケーショングループ情報取得部230に提供する。
仮想サーバグループ情報記憶部220は、ホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報を記憶する。つまり仮想サーバグループ情報記憶部220は、ホスト情報をグループ化し、それぞれのホスト情報がどのグループに属するかの情報を記憶する。
仮想サーバグループ情報取得部210は、判定部250から取得するトランザクション情報TXIに基づいて、当該トランザクションが属する仮想サーバグループを仮想サーバグループ情報記憶部220から取得する。仮想サーバグループ情報取得部210は、当該トランザクションが属する仮想サーバグループを仮想サーバグループ情報VSGIとして判定部250に提供する。
アプリケーショングループ情報記憶部240は、宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報を記憶する。つまり、アプリケーショングループ情報記憶部240は、宛先情報をグループ化し、それぞれの宛先情報がどのグループに属するかの情報を記憶する。
アプリケーショングループ情報取得部230は、判定部250から取得するトランザクション情報TXIに基づいて、当該トランザクションが属するアプリケーショングループをアプリケーショングループ情報記憶部240から取得する。アプリケーショングループ情報取得部230は、当該トランザクションが属するアプリケーショングループをアプリケーショングループ情報APGIとして、判定部250に提供する。
グループ情報取得部260は仮想サーバグループ情報取得部210とアプリケーショングループ情報取得部230とを備える。グループ情報取得部260は宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報APGIを記憶するアプリケーショングループ情報記憶部240、及びホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報VSGIを記憶する仮想サーバグループ情報記憶部220のうちの少なくとも一方から、トランザクション情報取得部100が取得するトランザクション情報TXIが属するグループについてのグループ情報を取得する。
判定部250は、アプリケーショングループ情報取得部230が取得するアプリケーショングループ情報と、仮想サーバグループ情報取得部210が取得する仮想サーバグループ情報とに基づき、当該トランザクション(すなわち、トランザクション情報取得部100が取得するトランザクション情報TXIが示すトランザクション)の属するアプリケーショングループ又は仮想サーバグループの両方を判定する。
具体的には、判定部250は、トランザクションがどのアプリケーショングループに属するのか、また、該当トランザクションが実行されるホストがどの仮想サーバグループに属するのかについて判定する。判定部250によるアプリケーショングループ及び仮想サーバグループの判定結果を、総称してグループ判定結果とも称する。
なお、判定部250は、アプリケーショングループと仮想サーバグループのうち、いずれか一方のみについて判定するようにしてもよい。
判定部250は、当該トランザクションが属する仮想サーバグループと、アプリケーショングループとの情報(つまり、グループ判定結果)を、トランザクション情報TXIに付加し、トランザクショングループ情報TXGIとして制御部300に提供する。判定部250は、仮想サーバグループ情報取得部210から取得する仮想サーバグループ情報VSGI及びアプリケーショングループ情報取得部230から取得するアプリケーショングループ情報APGIを制御部300に提供する。
以下、制御部300の機能構成の詳細について図4を参照して説明する。
[システム監視装置1が備える制御部300の機能構成]
図4は、実施形態におけるシステム監視装置が備える制御部300の機能構成の一例を示す図である。
制御部300は、トランザクション情報取得部100よりトランザクション情報TXIを取得し、グループ判定部200より、トランザクショングループ情報TXGIを取得する。また、制御部300は、性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、警告情報ALIとを出力部400に提供する。
制御部300は、計測部310と、統計部320と、グループ選択情報取得部330と、比較部340と、警告部350と、閾値情報取得部360と表示選択部370とを備える。
計測部310は、システムの性能を測る指標を計測する。
システムの性能を測る指標には、トランザクション情報TXIに基づくシステムの性能を測る指標と、トランザクション情報TXIに基づかないシステムの性能を測る指標とがある。
トランザクション情報TXIに基づくシステムの性能を測る指標とは、例えば、応答時間、単位時間当たりのトランザクション数(以下、TRX要求件数とする。)等である。
計測部310は、トランザクション情報TXIに基づいて、システムの性能を測る指標を計測する。
具体的には、計測部310は、トランザクション情報取得部100からトランザクション情報TXIを取得する。計測部310は、取得したトランザクション情報TXIが示すトランザクションに基づいて、性能情報SPIを計測する。ここで性能情報SPIとは、システムの性能を測る指標についての情報である。この一例において性能情報SPIとは、応答時間、TRX要求件数等である。
トランザクション情報TXIに基づかないシステムの性能を測る指標とは、例えば、OSやミドルウェア(OLTPやDBMS)等の活動やリソース情報に基づくシステムの性能を測る指標である。トランザクション情報TXIに基づかないシステムの性能を測る指標は、例えば、単位時間当たりのOSの単位時間当たりのページングやOLTPのメモリ管理処理等の活動指標であったり、CPU使用率、メモリ使用率等のリソース利用状況指標等である。
計測部310は、不図示のリソース情報取得部が監視対象システム2から取得するリソース情報に基づいて、システムの性能を測る指標を計測する。
リソース情報取得部は、監視対象システム2が備えるOS、ミドルウェア、アプリケーション、ソフトウェア等からリソース情報を取得する。
リソース情報は、監視対象システム2が備える物理的リソース及び論理的リソースの使用状況を示す情報を含む。つまり、リソース情報取得部は、監視対象システム2が備えるリソースの使用状況を示す情報を含むリソース情報を取得する。
具体的には、計測部310は、リソース情報取得部からリソース情報を取得する。計測部310は、取得したリソース情報に基づいて、性能情報SPIを計測する。ここで性能情報SPIとは、システムの性能を測る指標についての情報である。この一例において性能情報SPIとは、CPU使用率、メモリ使用率、TPS等である。
計測部310は、計測した性能情報SPIを、比較部340および統計部320に提供する。
閾値情報取得部360は、ユーザにより設定されたシステムの性能を測る指標に対する閾値を取得する。
具体的には、閾値情報取得部360は、操作検出部5がユーザの操作を検出することにより、閾値情報THIを取得する。ここで閾値情報THIとは、システムの性能を測る指標に対してユーザが設定する閾値である。閾値情報THIは、システムの性能を測る指標ごとに設定することができる。例えば、応答時間がシステムの性能を測る指標となるシステムの場合、任意の時間を閾値情報THIとして設定することができる。同様に、TRX要求件数、CPU使用率、メモリ使用率等を閾値情報THIとして設定できる。
また、グループ毎に閾値情報THIを設定することも可能である。具体的には、閾値情報THIは、宛先、ホスト、アプリケーショングループ又は仮想サーバグループ毎に設定可能である。例えば、ある特定のアプリケーションについて監視したい場合、当該アプリケーションに対して閾値情報THIを設定することで、当該アプリケーションの監視をすることができる。
閾値情報取得部360は、比較部340に対して、閾値情報THIを提供する。
比較部340は、閾値情報取得部360が取得する閾値と、計測部310が計測するシステムの性能を測る指標とを比較する。
具体的には、比較部340は、閾値情報取得部360より閾値情報THIを、計測部310より性能情報SPIを取得する。比較部340は、取得した閾値情報THIと、性能情報SPIとを比較する。例えばユーザが、監視対象システム2の応答時間について、任意の時間を閾値情報THIとして設定したとする。比較部340は、計測部310が計測する応答時間と、閾値情報取得部360が取得する閾値情報THIを比較する。比較部340は、計測部310により計測される応答時間が、閾値情報取得部360により取得される閾値情報THIの範囲内にある場合、正常状態であると判定する。また、応答時間が閾値情報THIの範囲外にある場合、異常状態であると判定する。つまり比較部340は、計測部310が計測するシステムの性能を測る指標である性能情報SPIに基づき、性能情報SPIが閾値情報THIを超えるか否かの比較を行う。
比較部340は、比較した結果を比較性能情報CPIとして警告部350及び統計部320に提供する。
グループ選択情報取得部330は、ユーザにより選択されたグループを操作検出部5から取得する。
統計部320は、計測部310が計測するシステムの性能を測る指標についての統計処理を行う。例えば、統計部320は、システムの性能を測る指標についての単位時間ごとの平均値等を求める統計処理を行う。
具体的には、統計部320は、比較部340より比較性能情報CPIを取得し、計測部310より性能情報SPIを取得し、グループ判定部200よりトランザクショングループ情報TXGIを取得する。統計部320は、取得した情報(例えば、比較性能情報CPI、性能情報SPI及びトランザクショングループ情報TXGI)に基づき、統計処理を行う。
一例として、統計部320は、性能情報SPIに基づき、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIとを算出する。
累計性能情報ASPIとは、性能情報SPIについて統計処理を行った結果である。より具体的には、この一例において累計性能情報ASPIとは、X軸に時間を取り、Y軸に性能情報SPIをとった2次元のグラフで表される情報である。
統計後性能情報SSPIとは、性能情報SPIと、比較性能情報CPIとに基づき、統計処理を行った結果である。より具体的には、この一例において統計後性能情報SSPIとは、X軸に時間を取り、Y軸に性能情報SPIが閾値の範囲外にあった回数をとった2次元のグラフで表される情報である。
グループ別統計情報GSPIとは、トランザクショングループ情報TXGIに基づき、グループ毎に性能情報SPIについて統計処理を行った結果である。より具体的には、この一例においてグループ別統計情報GSPIとは、X軸に時間を取り、Y軸に特定のグループの性能情報SPIをとった2次元のグラフで表される情報である。上述した通り、グループには、仮想サーバグループ及びアプリケーショングループが存在し、またそれぞれのグループは複数のグループを備えることがある。したがって、グループ別統計情報GSPIは、仮想サーバグループ情報記憶部220及びアプリケーショングループ情報記憶部240に記憶されているグループごとに分かれている。つまり統計部320は、グループ判定部200が判定するトランザクショングループ情報TXGIに基づき、トランザクション情報TXIが示すトランザクションについての統計演算を行う。
統計部320は、性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIとを表示選択部370に提供する。
グループ選択情報取得部330は、操作検出部5がユーザの操作を検出することにより、グループ選択情報SGIを取得する。ここでグループ選択情報SGIとは、ユーザが選択するグループの情報である。ユーザは監視対象システム2に異常が発生していることを発見した場合、その異常を引き起こす異常状態発生箇所の特定を行う。システム監視装置1において、システムの性能を測る指標は、グループごとに表示することが可能である。選択されるグループの一例について、図3に戻って説明を行う。
例えば監視対象システム2の応答時間が、ユーザが設定する閾値情報THIを超えている状況において、ユーザが異常発生個所の特定を行う場合について説明する。この一例においてユーザは操作検出部5を通じて、サーバV100を選択する。グループ選択情報取得部330はサーバV100が選択されたことをグループ選択情報SGIとして取得し、表示選択部370に提供する。表示選択部370は、ユーザにより選択されたサーバV100の応答時間を出力部400に提供する。もし、サーバV100の応答時間が監視対象システム2の応答時間と同様に閾値情報THIで設定した範囲を超えていた場合、原因はサーバV100にあることが推定される。さらにユーザは、サーバV100を構成するホストV110やホストV120等のグループを選択し、応答時間を確かめることにより、異常発生箇所の特定を行うことが可能となる。
またユーザは、操作検出部5を通じて、アプリケーションについても特定する事が可能である。この一例において、監視対象システム2の応答時間が閾値情報THIの範囲外にある場合、異常の発生原因がハードウェアによるものか、ソフトウェアによるものかの判断が難しい場合がある。そこで、ソフトウェアによる異常発生箇所を特定するため、アプリケーションごとのアプリケーショングループを選択することにより、アプリケーションに問題がある場合の異常発生箇所も特定が可能である。この一例においてユーザは操作検出部5を通じて、ドメインA100を選択する。グループ選択情報取得部330はドメインA100が選択されたことをグループ選択情報SGIとして取得し、表示選択部370に提供する。表示選択部370は、ユーザにより選択されたドメインA100の応答時間を出力部400に提示させる。もし、ドメインA100の応答時間が監視対象システム2の応答時間と同様に閾値情報THIで設定した範囲を超えていた場合、原因はドメインA100にあることが推定される。さらにユーザは、ドメインA100を構成するドメインA110やドメインA120等のグループを選択し、応答時間を確かめることにより、異常が発生しているアプリケーションの特定を行うことが可能となる。
つまり、グループ選択情報SGIとは、統計部320が行った統計演算の結果が出力部400から出力されることに応じて選択されるアプリケーショングループまたは仮想サーバグループを選択するグループ選択情報である。
グループ選択情報取得部330は、取得したグループ選択情報SGIを、表示選択部370に提供する。
表示選択部370は、統計部320が統計処理を行った結果について、出力部400に提供する情報を選択する。
具体的には、表示選択部370は、統計部320より性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIとを取得し、グループ選択情報取得部330よりグループ選択情報SGIを取得する。表示選択部370は、グループ選択情報SGIに基づき、統計部320が行った統計演算の結果の中から、(前記出力部による)出力対象の統計演算の結果を選択する。表示選択部370は、性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIとを提供する。
警告部350は、比較部340が比較した結果、システムの性能を測る指標が閾値を超えた場合に、警告を行う。
具体的には、警告部350は、比較部340より比較性能情報CPIを取得する。警告部350は、性能情報SPIが閾値情報THIを超えていた場合に、警告情報ALIを出力部400に提供する。警告部350は、比較性能情報CPIが示す閾値を超えた性能情報SPIの値と、宛先又はホストと、アプリケーショングループ又は仮想サーバグループとを、出力部に提示させる。
ここで性能情報SPIは、瞬間的に比較性能情報CPIを超える場合がある。ユーザが異常箇所の特定や原因の特定を目的としている場合において、警告の閾値を超えたとしても、その期間が非常に短い場合(例えば、瞬間的なノイズなどの場合)には、システム監視装置1はユーザに対する警告の必要がない場合がある。そこで、警告部350は、性能情報SPIが閾値情報THIを超えている時間が所定の判定時間を超える場合に出力部400に対して警告情報ALIを提供する。
性能情報SPIが閾値情報THIを超えている時間が所定の判定時間を超えるか否かの判定には、時間を測定する方法と、回数を測定する方法とがある。
時間を測定する方法とは、性能情報SPIが閾値情報THIを上回った時点から、性能情報SPIが閾値情報THIを下回った時点までの時間が、所定の判定時間を超えるか否かの判定を行う方法である。警告部350は、性能情報SPIが閾値情報THIを上回っている時間が所定の判定時間を超えた場合に、出力部400に対して警告情報ALIを提供する。
回数を測定する方法とは、所定の時間ごとに性能情報SPIが閾値情報THIを超えているか否かを測定し、性能情報SPIが閾値情報THIを超えた回数が、所定回数に達したか否かの判定を行う方法である。警告部350は、性能情報SPIが閾値情報THIを超えた回数が、所定回数に達した場合に、出力部400に対して警告情報ALIを提供する。
時間を測定する方法と、回数を測定する方法とは、いずれも性能情報SPIが閾値情報THIを超えている時間を測定している。警告部350は、所定の判定時間を超える場合に出力部400に対して警告情報ALIを提供する。
すなわち、警告部350は、瞬間的に性能情報SPIが悪化した場合などのノイズによって警告が行われてしまう頻度を低減することができる。
出力部400は、制御部300の表示選択部370より、性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIと、警告情報ALIとを取得する。出力部400は、取得した性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIと、警告情報ALIとを、出力する。一例として、出力部400は、性能情報SPIと、累計性能情報ASPIと、警告情報ALIと統計後性能情報SSPIと、グループ別統計情報GSPIとを表示部(不図示)に出力することで、表示させる。表示部は、例えば液晶表示面である。表示部は、画像表示装置であるとして説明するが、これに限られず、プリンタ装置やスピーカ装置などの情報出力装置として構成されていてもよい。
すなわち、出力部400は、性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIと、警告情報ALIとを出力する。
[システム監視装置1の画面構成]
図5は、実施形態におけるシステム監視装置の画面構成の一例を示す図である。この一例では、出力部400は、同図に示すダッシュボード画面D900を、不図示の表示部に表示させる。ダッシュボード画面D900は、累積性能情報画像D100と、性能情報画像D300と、選択情報画像D500とを画面の構成要素として備える。
累積性能情報画像D100は、累積平均応答時間表示画像D110と、累積TRX要求件数表示画像D120と、累積CPU使用率表示画像D130とを画面の構成要件として備えている。累積平均応答時間表示画像D110、累積TRX要求件数表示画像D120、及び累積CPU使用率表示画像D130は、累計性能情報ASPIに基づいて表示される。
この一例において累積平均応答時間表示画像D110は、横軸(以後、X軸とする。)に時間を、縦軸(以後、Y軸とする。)に平均応答時間をとっている。つまり累積平均応答時間表示画像D110は、時間ごとの平均応答時間を示している。
累積TRX要求件数表示画像D120は、X軸に時間を、Y軸にTRX要求件数をとっている。つまり、累積TRX要求件数表示画像D120は、時間ごとのTRX要求件数を示している。
累積CPU使用率表示画像D130は、X軸に時間を、Y軸にCPU使用率をとっている。つまり、累積CPU使用率表示画像D130は、時間ごとのCPU使用率を示している。
累積平均応答時間表示画像D110、累積TRX要求件数表示画像D120、及び累積CPU使用率表示画像D130は、時間が経過するごとに更新されてもよい。この一例において、X軸は画面左側が古い時点における情報であり、画面右側は新しい時点における情報である。累積平均応答時間表示画像D110、累積TRX要求件数表示画像D120、及び累積CPU使用率表示画像D130は、単位時間経過に伴う更新時において、表示されている値は全体が画面左にシフトし、画面左側の最も古い情報が非表示となる。画面右側の空いた箇所に新しい情報が表示される。つまり、値が時間と共にスクロールすることで、ユーザはシステムの性能を測る指標をリアルタイムに監視することができる。
性能情報画像D300は、平均応答時間表示画像D310と、TRX要求件数表示画像D320と、CPU使用率表示画像D330と、メモリ使用率表示画像D340と、TPS表示画像D350とを画面の構成要件として備えている。平均応答時間表示画像D310、TRX要求件数表示画像D320、CPU使用率表示画像D330、メモリ使用率表示画像D340、及びTPS表示画像D350は、性能情報SPIに基づいて表示される。平均応答時間表示画像D310は、応答時間の単位時間当たりの平均値を示している。TRX要求件数表示画像D320は、TRX要求件数の単位時間当たりの平均値を示している。CPU使用率表示画像D330は、CPU使用率の単位時間当たりの平均値を示している。メモリ使用率表示画像D340は、メモリ使用率の単位時間当たりの平均値を示している。TPS表示画像D350は、TPSの単位時間当たりの平均値を示している。単位時間は任意に設定可能である。この一例においての単位時間は、累積性能情報画像D100で示されるX軸の時間と同一の時間を用いている。
また別の実施例として、性能情報画像D300は、瞬時値を示してもいい。その場合、累積性能情報画像D100が備える瞬時値計測バーによりどの時点の値を表示するかを決定する。累積平均応答時間表示画像D110は、平均応答時間瞬時値計測バーD111を備えている。平均応答時間瞬時値計測バーD111は、操作検出部5により検出したユーザの操作により、移動される。操作検出部5が検出した操作は、不図示の計測バー操作取得部により取得され、表示選択部370に提供される。表示選択部370は、平均応答時間瞬時値計測バーD111が示す時点の瞬時値を、平均応答時間表示画像D310として、出力部400に出力する。
累積平均応答時間表示画像D110と同様に、累積TRX要求件数表示画像D120は、TRX要求件数瞬時値計測バーD121を備えている。表示選択部370は、TRX要求件数瞬時値計測バーD121の操作により検出された時点の瞬時値を、TRX要求件数表示画像D320として、出力部400に出力する。
同様に、累積CPU使用率表示画像D130は、CPU使用率瞬時値計測バーD131を備えている。CPU使用率瞬時値計測バーD131の操作により検出された時点の瞬時値を、CPU使用率表示画像D330として、出力部400に出力する。
選択情報画像D500は、応答時間分布画像D510と、サーバグループ別CPU使用率表示画像D520と、アプリ閾値違反件数表示画像D530と、インフラ閾値違反件数表示画像D540とを画面の構成要件として備える。
応答時間分布画像D510は、応答時間の分布を示している。X軸には時間の範囲が示され、Y軸には該当するトランザクションの件数を百分率で表している。応答時間分布画像D510は、累計性能情報ASPIに含まれる情報を使用している。統計部320は、性能情報SPIに含まれる応答時間について統計処理を行い、統計後性能情報SSPIとして表示選択部370に提供する。ユーザは、応答時間分布画像D510により、累積平均応答時間表示画像D110と比較して、より統計的にシステムの性能を監視することができる。
サーバグループ別CPU使用率表示画像D520は、グループ別にCPU使用率及びメモリ使用率を表示したものである。グループ選択情報取得部330は、操作検出部5がユーザから取得したグループ選択情報SGIを取得する。グループ選択情報取得部330は表示選択部370にグループ選択情報SGIを提供する。表示選択部370はグループ選択情報SGIに基づき、表示するグループを選択する。表示選択部370は、グループ別統計情報GSPIとして出力部400に出力する。この一例では、仮想サーバグループごとにCPU使用率及びメモリ使用率を表示している。グループ選択情報SGIにより選択されているグループは、グループ1、グループ2、及びグループ3である。
アプリ閾値違反件数表示画像D530、及びインフラ閾値違反件数表示画像D540は、閾値情報取得部360が取得した閾値の範囲を、性能情報SPIが超えた場合の件数を表示している。アプリ閾値違反件数表示画像D530は、特定のアプリケーショングループが閾値を超えた件数を示しており、インフラ閾値違反件数表示画像D540は、特定の仮想サーバグループが閾値を超えた件数を示している。
なお、選択情報画像D500に表示する画像の種類は、不図示のダッシュボード表示情報取得部が操作検出部5からユーザの操作を検出することにより、表示選択部370が選択する。つまり、選択情報画像D500はユーザにより任意で決めることが可能である。
[トランザクション統計処理動作の一例]
図6は、実施形態におけるトランザクション統計処理動作の一例を示す図である。図6を参照して、監視対象システム2からトランザクション情報TXIを取得し、統計処理を行う流れについて説明する。
(ステップS110)トランザクション情報取得部100は、複数のホスト3上で動作する複数のアプリケーション4を含んで構成される監視対象システム2において、やり取りされる情報伝達の実行単位であるトランザクション情報TXIを取得する。ここでトランザクション情報取得部100が取得するトランザクション情報TXIは、複数のホストのうち情報伝達が行われたホストを識別するホスト情報と、情報伝達が行われたアプリケーションを識別する宛先情報とを含む。
トランザクション情報取得部100は、取得したトランザクション情報TXIを計測部310及び判定部250に提供する。
(ステップS120)計測部310は、トランザクション情報取得部100からトランザクション情報TXIを取得する。計測部310は、トランザクション情報TXIに基づいて、システムの性能を測る指標を計測する。この一例でシステムの性能を測る指標とは、応答時間、TRX要求件数、CPU使用率、メモリ使用率、TPS等である。システムの性能を測る指標を、性能情報SPIとして統計部320に提供する。
(ステップS130)一方、判定部250はトランザクション情報取得部100からトランザクション情報TXIを取得する。判定部250は、取得したトランザクション情報TXIを仮想サーバグループ情報取得部210及びアプリケーショングループ情報取得部230に提供する。
仮想サーバグループ情報取得部210は、トランザクション情報TXIに含まれるホスト情報が属するグループの情報について、仮想サーバグループ情報記憶部220を検索する。仮想サーバグループ情報取得部210は、検索により得たトランザクション情報TXIに含まれるホスト情報が属するグループの情報を、仮想サーバグループ情報VSGIとして、判定部250に提供する。
アプリケーショングループ情報取得部230は、トランザクション情報TXIに含まれる宛先情報が属するグループの情報について、アプリケーショングループ情報記憶部240を検索する。アプリケーショングループ情報取得部230は、検索により得たトランザクション情報TXIに含まれる宛先情報が属するグループの情報を、アプリケーショングループ情報APGIとして、判定部に提供する。
判定部250は、仮想サーバグループ情報取得部210より仮想サーバグループ情報VSGIを取得し、アプリケーショングループ情報取得部230より、アプリケーショングループ情報APGIを取得する。判定部250は、トランザクション情報TXIに仮想サーバグループ情報VSGIとアプリケーショングループ情報APGIを付加し、トランザクショングループ情報TXGIとして、統計部320に提供する。
(ステップS140)統計部320は、計測部310より性能情報SPIを取得し、判定部250よりトランザクショングループ情報TXGIを取得する。統計部320は取得した情報に基づき、統計処理を行う。この一例において統計部320は、統計処理により、累計性能情報ASPIと、グループ別統計情報GSPIと、統計後性能情報SSPIとを算出する。
累計性能情報ASPIは、性能情報SPIにより示される瞬時値を、積算して得られる情報である。
グループ別統計情報GSPIとは、性能情報SPIとトランザクショングループ情報TXGIに基づき、性能情報SPIにより示される瞬時値を、グループ毎に積算して得られる情報である。
統計後性能情報SSPIとは、上述した統計処理以外により統計処理された情報である。この一例において統計部320は閾値情報取得部360が取得する閾値情報THIに基づいて、閾値で指定された範囲を超える性能情報SPIを積算して得られる情報である。
統計部320は、性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIとを表示選択部370に提供する。
(ステップS150)表示選択部370は、統計部320より、性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIとを取得する。表示選択部370は取得した情報を出力部400に出力する。
[グループ選択動作の一例]
図7は、実施形態におけるグループの統計情報表示動作の一例を示す図である。図7を参照して、ユーザにより選択されたグループを取得し、選択されたグループのグループ別統計情報GSPIを提示する流れについて説明する。
(ステップS210)統計部320はトランザクショングループ情報TXGIをグループ判定部200から取得し、表示選択部370に提供する。表示選択部370は、トランザクショングループ情報TXGIを出力部400に出力する。
(ステップS220)ユーザは、グループ情報をドリルダウンにより、選択することができる。
ここで、ドリルダウンとは、グループを上位の階層から下位の階層に向けて順次(例えば、一階層ずつ)選択していくことをいう。例えば、図3の例において、ドリルダウンによりグループが選択される流れを説明する。下段に示されるアプリケーショングループを選択されるとする。ユーザによりドメインA100又はドメインA200の選択が行われる。この時点では中機能レベル及び小機能レベルの下位の階層は提示されていない。操作検出部5がドメインA100の選択を検出すると、出力部400は、中機能レベルA110及び中機能レベルA120の提示を行う。この時点では下位の階層である小機能レベルは提示されていない。操作検出部5が中機能レベルA110の選択を検出すると、出力部400は小機能レベルA111を提示する。このように、ユーザはドリルダウンにより階層を一階層ずつ下げてグループを選択していく。
図7に戻り、操作検出部5はユーザによるグループ情報の選択動作を検出し、選択されたグループをグループ選択情報SGIとしてグループ選択情報取得部330に提供する。
(ステップS230)表示選択部370は、グループ選択情報取得部330よりグループ選択情報SGIを取得し、統計部320よりグループ別統計情報GSPIを取得する。表示選択部370は、グループ選択情報SGIにより示されたグループのグループ別統計情報GSPIを出力部400に提供する。出力部400はグループ別統計情報GSPIを出力する。
[比較・警告動作の一例]
図8は、実施形態におけるシステムの性能を測る指標を比較し、警告を行う動作の一例を示す図である。
(ステップS310)閾値情報取得部360は、操作検出部5により閾値情報THIを取得する。閾値情報取得部360は、取得した閾値情報THIを比較部340に提供する。
(ステップS320)比較部340は、閾値情報取得部360より閾値情報THIを取得し、計測部310より性能情報SPIを取得する。比較部340は取得した閾値情報THIと性能情報SPIとを比較する。
(ステップS330)比較部340は、性能情報SPIが閾値情報THIで示される範囲の範囲外である場合、すなわち(ステップS330;YES)の場合、処理をステップS340に進める。比較部340は、性能情報SPIが閾値情報THIで示される範囲の範囲内である場合、すなわち(ステップS330;NO)の場合、処理をステップS320に進める。比較部340は、計測部310から性能情報SPIを取得するたびに、性能情報SPIと閾値情報THIとの比較を行う。
(ステップS340)警告部350は、比較部340から、性能情報SPIが閾値情報THIの範囲外にあることを示す、比較性能情報CPIを取得する。警告部350は、警告情報ALIを出力部400に提供する。出力部400は、警告情報ALIを取得すると、警告情報ALIを提示する。
警告情報ALIは、ユーザに対して警告を行うことを目的しているので、手段は問わない。例えばユーザのディスプレイに表示されるポップアップウィンドウのようなものでもよいし、SNMPTrapなどのネットワークを利用したイベント通知でもよいし、音声デバイスによるアナウンスでもよいし、システムを管理する関係者に電子メールが送信されても良い。
[実施形態の効果のまとめ]
以上説明したように、本実施形態のシステム監視装置1は、トランザクション情報取得部100と、グループ判定部200と、制御部300と、出力部400とを備えている。グループ判定部200は、トランザクション情報取得部100が取得したトランザクション情報TXIに対し、グループ情報を付加し、トランザクショングループ情報TXGIとして統計部320に提供する。統計部320は、グループ別に仕分けられたトランザクション情報TXIを統計処理することにより、グループ別統計情報GSPIを提示する。ここで、グループ別統計情報GSPIとは、統計情報をグループ別に示す情報である。グループ別統計情報GSPIが提示されることにより、統計情報が示すシステム状態をグループごとにユーザに把握させることができる。したがって、グループ別統計情報GSPIが提示されることにより、ユーザは、監視対象のシステムのうち、異常が発生している箇所をグループ単位で把握することができる。
ここで、従来のシステム監視技術によると、統計情報に基づいてシステム全体の状態が変化(例えば、悪化)していることは把握できる場合があるものの、その変化が発生している箇所(例えば、ハードウエアやソフトウエア)の特定まではできなかった。このため、従来のシステム監視技術によると、システム全体の状態を示す統計情報を提示したとしても、異常が発生している箇所をユーザが特定することが困難であるという問題があった。
本実施形態のシステム監視装置1によれば、異常が発生している箇所をグループ単位で把握することができるため、異常が発生している箇所をユーザに特定させやすくすることができる。また、異常が発生している箇所の特定が容易になることにより、本実施形態のシステム監視装置1は、異常状態を引き起こす原因をユーザに特定させやすくすることができる。すなわち、本実施形態のシステム監視装置1によれば、異常状態発生箇所、及び異常状態を引き起こす原因の特定を容易にすることができる。
また、上述した実施形態によれば、仮想サーバグループ情報VSGI及び、アプリケーショングループ情報APGIは、当該グループの下位下層に、さらに複数のグループを持つことにより、階層化されたグループ構造を備えている。システム監視装置1は、グループの階層毎に、グループ別統計情報GSPIを提示する。
ここで、監視対象のシステムを構成する要素(例えば、装置や機能)のうち、異常が発生している要素を含むグループの階層が、例えば中位階層である場合において、より上位階層のグループや、より下位階層のグループの統計情報しか提示されないとすれば、異常発生箇所の特定が困難になる場合がある。
本実施形態のシステム監視装置1は、グループの階層毎にグループ別統計情報GSPIを提示するため、複数のグループ階層の中から、統計情報の提示対象のグループの階層を選択することができる。このため、本実施形態のシステム監視装置1によれば、異常発生箇所、及び異常状態を引き起こす原因の特定を容易にすることができる。
また、上述した実施形態によれば、グループ選択情報取得部330は、ユーザが選択するグループの情報をグループ選択情報SGIとして取得する。表示選択部370は選択されたグループのグループ別統計情報GSPIを表示することにより、ユーザは所望のグループの性能情報SPIを確認することができる。
また、上述した実施形態によれば、システム監視装置1は、計測部310を備える。計測部310は、トランザクション情報取得部100が取得したトランザクション情報TXIに基づき、応答時間、TRX要求件数等のシステムの性能を測る指標を計測する。また、計測部310は、リソース情報取得部が取得したリソース情報に基づき、CPU使用率、メモリ使用率、単位時間当たりにCPUが処理するトランザクション件数等のシステムの性能を測る指標を計測する。したがって、システム監視装置1は、ユーザに、様々な角度から異常の発生原因を特定させる事が可能となる。
また、上述した実施形態によれば、システム監視装置1は比較部340及び閾値情報取得部360を備える。比較部340は、性能情報SPIと閾値情報THIを比較することにより、リアルタイムにシステムの性能を測る指標を監視する。システム監視装置1を利用することにより、ユーザは、リアルタイムにシステムの監視をすることができる。
また、上述した実施形態によれば、システム監視装置1は警告部350を備える。比較部340が比較した結果、性能情報SPIが閾値情報THIの範囲外にある場合、警告部350が警告を行う。システム監視装置1を利用することにより、ユーザであるシステム管理者は早期に異常の発生に気づくことができる。
また、上述した実施形態によれば、警告部350は、性能情報SPIが閾値情報THIの範囲外にある場合に、所定の期間経過後に警告を行う。これにより、システム監視装置1は、瞬発的に負荷が高まった場合のようなノイズを排除することが可能となる。
なお、上述した実施形態におけるシステム監視装置1が備える各部の機能の全体あるいはその機能の一部は、これらの機能を実現するためのプログラムをコンピュータにより読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータにより読み取り可能な記録媒体」とは、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶部のことをいう。さらに、「コンピュータにより読み取り可能な記録媒体」とは、インターネット等のネットワークを介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
1…システム監視装置、2…監視対象システム、3…ホスト、4…アプリケーション、5…操作検出部、100…トランザクション情報取得部、200…グループ判定部、300…制御部、400…出力部、210…仮想サーバグループ情報取得部、220…仮想サーバグループ情報記憶部、230…アプリケーショングループ情報取得部、240…アプリケーショングループ情報記憶部、250…判定部、310…計測部、320…統計部、330…グループ選択情報取得部、340…比較部、350…警告部、360…閾値情報取得部、370…表示選択部、TXI…トランザクション情報、TXGI…トランザクショングループ情報、VSGI…仮想サーバグループ情報、APGI…アプリケーショングループ情報、SGI…グループ選択情報、SPI…性能情報、SSPI…統計後性能情報、THI…閾値情報、CPI…比較性能情報、ALI…警告情報

Claims (10)

  1. 複数の仮想サーバと前記仮想サーバ上で動作する複数のアプリケーションとを含んで構成されるコンピュータシステム内においてやり取りされる情報伝達の実行単位であるトランザクションを識別する情報であり、前記トランザクションの宛先であるアプリケーションを示す宛先情報と前記仮想サーバを構成する複数のホストのうち一のホストを識別するホスト情報とを含むトランザクション情報を取得するトランザクション情報取得部と、
    宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報を記憶するアプリケーショングループ情報記憶部から、前記トランザクション情報取得部が取得する前記トランザクション情報が属するアプリケーショングループを取得するアプリケーショングループ情報取得部と、
    ホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報を記憶する仮想サーバグループ情報記憶部から、前記トランザクション情報取得部が取得する前記トランザクション情報が属する仮想サーバグループを取得する仮想サーバグループ情報取得部と、
    前記アプリケーショングループ情報取得部が取得する前記アプリケーショングループ情報と、前記仮想サーバグループ情報取得部が取得する前記仮想サーバグループ情報とに基づき、前記トランザクション情報取得部が取得する前記トランザクション情報が示すトランザクションの属する前記アプリケーショングループ又は前記仮想サーバグループのうち少なくともいずれか一方を判定するグループ判定部と、
    前記グループ判定部が判定する結果に基づき、前記トランザクションについての統計演算を行う統計部と、
    前記統計部による統計演算の結果を出力する出力部と、
    を有する監視装置。
  2. 前記アプリケーショングループ情報は、
    前記複数の宛先情報を持つ前記コンピュータシステムを一のグループとして定義した第一のアプリケーショングループと、前記複数の第一のアプリケーショングループを一のグループとして定義した第二のアプリケーショングループと、前記複数の第二のアプリケーショングループを一のグループとして定義した第三のアプリケーショングループと、前記複数の第三のアプリケーショングループを一のグループとして定義した第四のアプリケーショングループとを備え、
    前記仮想サーバグループ情報は、
    前記コンピュータシステムを構成する複数のホスト情報を一のグループとして定義した第一の仮想サーバグループと、前記複数の第一の仮想サーバグループを一のグループとして定義した第二の仮想サーバグループとを備える、
    請求項1に記載の監視装置。
  3. 前記統計部が行った前記統計演算の結果が前記出力部から出力されることに応じて選択される前記アプリケーショングループまたは前記仮想サーバグループを示すグループ選択情報を取得するグループ選択情報取得部と、
    前記グループ選択情報取得部が取得した前記グループ選択情報に基づいて、前記統計部が行った前記統計演算の結果の中から、出力対象の前記統計演算の結果を選択する表示選択部と、
    をさらに備え、
    前記出力部は、前記表示選択部が選択した前記統計演算の結果を出力する、
    請求項1または請求項2に記載の監視装置。
  4. 前記コンピュータシステムが備えるリソースの使用状況を示す情報を含むリソース情報を取得するリソース情報取得部と、
    前記トランザクション情報取得部が取得する前記トランザクション情報と、前記リソース情報取得部が取得する前記リソース情報とに基づき、前記コンピュータシステムの性能を測る指標を計測する計測部と、
    をさらに備え、
    前記統計部は、前記計測部が計測した前記コンピュータシステムの性能を測る指標についての統計演算を前記統計演算として行い、
    前記出力部は、前記統計部が前記統計演算を行った結果を出力する、
    請求項1から請求項3のいずれか一項に記載の監視装置。
  5. 前記計測部が計測する前記コンピュータシステムの性能を測る指標に基づき、前記コンピュータシステムの性能を測る指標が閾値を超えるか否かの比較を行う比較部、
    をさらに備え、
    前記比較部が有する前記閾値は、前記宛先、前記ホスト、前記アプリケーショングループ又は前記仮想サーバグループ毎に設定可能であり、
    前記出力部は、前記比較部が比較を行った結果を出力する、
    請求項4に記載の監視装置。
  6. 前記コンピュータシステムの性能を測る指標が前記閾値を超えた場合に警告を行う警告部、
    をさらに備え、
    前記出力部は、前記警告部が行った前記警告に基づき前記閾値を超えた前記コンピュータシステムの性能を測る指標と、前記コンピュータシステムの性能を測る指標が属する前記宛先、前記ホスト、前記アプリケーショングループ又は前記仮想サーバグループを表示する、
    請求項5に記載の監視装置。
  7. 前記警告部は、
    前記コンピュータシステムの性能を測る指標が前記閾値を超えている時間が所定の判定時間を超える場合に前記警告を行う、
    請求項6に記載の監視装置。
  8. 複数の仮想サーバと前記仮想サーバ上で動作する複数のアプリケーションとを含んで構成されるコンピュータシステム内においてやり取りされる情報伝達の実行単位であるトランザクションを識別する情報であり、前記トランザクションの宛先であるアプリケーションを示す宛先情報と前記仮想サーバを構成する複数のホストのうち一のホストを識別するホスト情報とを含むトランザクション情報を取得するトランザクション情報取得部と、
    宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報を記憶するアプリケーショングループ情報記憶部、及びホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報を記憶する仮想サーバグループ情報記憶部のうちの少なくとも一方から、前記トランザクション情報取得部が取得する前記トランザクション情報が属するグループについてのグループ情報を取得するグループ情報取得部と、
    前記グループ情報取得部が取得する前記グループ情報に基づき、前記トランザクション情報取得部が取得する前記トランザクション情報が示すトランザクションの属するグループを判定するグループ判定部と、
    前記グループ判定部が判定する結果に基づき、前記トランザクションについての統計演算を行う統計部と、
    前記統計部による統計演算の結果を出力する出力部と、
    を有する監視装置。
  9. コンピュータに、複数の仮想サーバと前記仮想サーバ上で動作する複数のアプリケーションとを含んで構成されるコンピュータシステム内においてやり取りされる情報伝達の実行単位であるトランザクションを識別する情報であり、前記トランザクションの宛先であるアプリケーションを示す宛先情報と前記仮想サーバを構成する複数のホストのうち一のホストを識別するホスト情報とを含むトランザクション情報を取得するトランザクション情報取得ステップと、
    宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報を記憶するアプリケーショングループ情報記憶部から、前記トランザクション情報取得ステップにおいて取得される前記トランザクション情報が属するアプリケーショングループを取得するアプリケーショングループ情報取得ステップと、
    ホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報を記憶する仮想サーバグループ情報記憶部から、前記トランザクション情報取得ステップにおいて取得される前記トランザクション情報が属する仮想サーバグループを取得する仮想サーバグループ情報取得ステップと、
    前記アプリケーショングループ情報取得ステップにおいて取得される前記アプリケーショングループ情報と、前記仮想サーバグループ情報取得ステップにおいて取得される前記仮想サーバグループ情報とに基づき、前記トランザクション情報取得ステップにおいて取得される前記トランザクション情報が示すトランザクションの属する前記アプリケーショングループ又は前記仮想サーバグループのうち少なくともいずれか一方を判定するグループ判定ステップと、
    前記グループ判定ステップにおいて判定される結果に基づき、前記トランザクションについての統計演算を行う統計ステップと、
    前記統計ステップにおける統計演算の結果を出力する出力ステップと、
    を実行させるためのプログラム。
  10. コンピュータに、複数の仮想サーバと前記仮想サーバ上で動作する複数のアプリケーションとを含んで構成されるコンピュータシステム内においてやり取りされる情報伝達の実行単位であるトランザクションを識別する情報であり、前記トランザクションの宛先であるアプリケーションを示す宛先情報と前記仮想サーバを構成する複数のホストのうち一のホストを識別するホスト情報とを含むトランザクション情報を取得するトランザクション情報取得ステップと、
    宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報を記憶するアプリケーショングループ情報記憶部、及びホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報を記憶する仮想サーバグループ情報記憶部のうちの少なくとも一方から、前記トランザクション情報取得ステップにおいて取得される前記トランザクション情報が属するグループについてのグループ情報を取得するグループ情報取得ステップと、
    前記グループ情報取得ステップにおいて取得される前記グループ情報に基づき、前記トランザクション情報取得ステップにおいて取得される前記トランザクション情報が示すトランザクションの属するグループを判定するグループ判定ステップと、
    前記グループ判定ステップにおいて判定される結果に基づき、前記トランザクションについての統計演算を行う統計ステップと、
    前記統計ステップにおける統計演算の結果を出力する出力ステップと、
    を実行させるためのプログラム。
JP2019176013A 2019-09-26 2019-09-26 監視装置及びプログラム Active JP7304252B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019176013A JP7304252B2 (ja) 2019-09-26 2019-09-26 監視装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019176013A JP7304252B2 (ja) 2019-09-26 2019-09-26 監視装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2021051704A true JP2021051704A (ja) 2021-04-01
JP7304252B2 JP7304252B2 (ja) 2023-07-06

Family

ID=75156144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019176013A Active JP7304252B2 (ja) 2019-09-26 2019-09-26 監視装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7304252B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012099048A (ja) * 2010-11-05 2012-05-24 Hitachi Ltd 計算機のモニタリングシステム及びモニタリング方法
WO2015025379A1 (ja) * 2013-08-21 2015-02-26 株式会社日立製作所 監視装置、監視方法、および記録媒体
US20160105350A1 (en) * 2014-10-10 2016-04-14 Dynatrace Llc Method And System For Real-time Modeling Of Communication, Virtualization And Transaction Execution Related Topological Aspects Of Monitored Software Applications And Hardware Entities

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012099048A (ja) * 2010-11-05 2012-05-24 Hitachi Ltd 計算機のモニタリングシステム及びモニタリング方法
WO2015025379A1 (ja) * 2013-08-21 2015-02-26 株式会社日立製作所 監視装置、監視方法、および記録媒体
US20160105350A1 (en) * 2014-10-10 2016-04-14 Dynatrace Llc Method And System For Real-time Modeling Of Communication, Virtualization And Transaction Execution Related Topological Aspects Of Monitored Software Applications And Hardware Entities

Also Published As

Publication number Publication date
JP7304252B2 (ja) 2023-07-06

Similar Documents

Publication Publication Date Title
US20200358826A1 (en) Methods and apparatus to assess compliance of a virtual computing environment
US11381492B1 (en) Analyzing servers based on data streams generated by instrumented software executing on the servers
US8966392B2 (en) Event management apparatus, systems, and methods
US7310590B1 (en) Time series anomaly detection using multiple statistical models
US7673191B2 (en) Baselining backend component error rate to determine application performance
US9384114B2 (en) Group server performance correction via actions to server subset
US9798644B2 (en) Monitoring system performance with pattern event detection
US20090271511A1 (en) Automatic context-based baselining for transactions
KR101639332B1 (ko) 화상형성장치 관리 서버, 화상형성장치들의 에러를 관리하는 방법 및 시스템
US20070005298A1 (en) Monitoring method, system, and computer program based on severity and persistence of problems
US9692654B2 (en) Systems and methods for correlating derived metrics for system activity
US10380867B2 (en) Alert management within a network based virtual collaborative space
JPWO2011125138A1 (ja) 性能監視装置,方法,プログラム
WO2022000398A1 (en) Detecting metrics indicative of operational characteristics of network and identifying and controlling based on detected anomalies
US11438239B2 (en) Tail-based span data sampling
US7669088B2 (en) System and method for monitoring application availability
JP7423271B2 (ja) 監視装置、監視システム及び監視プログラム
JP7304252B2 (ja) 監視装置及びプログラム
US20160182333A1 (en) Measuring affinity bands for pro-active performance management
JP7467078B2 (ja) 監視装置及びプログラム
JP5974905B2 (ja) 応答時間監視プログラム、方法および応答時間監視装置
US9054995B2 (en) Method of detecting measurements in service level agreement based systems
US10228822B2 (en) Optimal visualization of systems with large quantity of technical servicer instances
CN113132431A (zh) 服务监控方法、服务监控装置、电子设备及介质
US11818028B2 (en) Network diagnostic sampling in a distributed computing environment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220706

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230524

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230626

R150 Certificate of patent or registration of utility model

Ref document number: 7304252

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150