JP2021051704A - 監視装置及びプログラム - Google Patents
監視装置及びプログラム Download PDFInfo
- Publication number
- JP2021051704A JP2021051704A JP2019176013A JP2019176013A JP2021051704A JP 2021051704 A JP2021051704 A JP 2021051704A JP 2019176013 A JP2019176013 A JP 2019176013A JP 2019176013 A JP2019176013 A JP 2019176013A JP 2021051704 A JP2021051704 A JP 2021051704A
- Authority
- JP
- Japan
- Prior art keywords
- group
- information
- unit
- transaction
- virtual server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012806 monitoring device Methods 0.000 title claims abstract description 50
- 238000005259 measurement Methods 0.000 claims description 35
- 230000005540 biological transmission Effects 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 abstract description 15
- 230000001186 cumulative effect Effects 0.000 description 44
- 230000004044 response Effects 0.000 description 44
- 230000005856 abnormality Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 22
- 238000012545 processing Methods 0.000 description 20
- 238000001514 detection method Methods 0.000 description 17
- 238000000034 method Methods 0.000 description 17
- 238000012544 monitoring process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000000052 comparative effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- RDYMFSUJUZBWLH-UHFFFAOYSA-N endosulfan Chemical compound C12COS(=O)OCC2C2(Cl)C(Cl)=C(Cl)C1(Cl)C2(Cl)Cl RDYMFSUJUZBWLH-UHFFFAOYSA-N 0.000 description 3
- 238000005553 drilling Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
- Computer And Data Communications (AREA)
Abstract
Description
すなわち、従来手法によると、システム管理者はコンピュータシステムに異常が発生していることを発見できても、その異常を引き起こす異常状態発生箇所、及び異常状態を引き起こす原因の特定には時間がかかるという問題があった。
[システム監視装置1の概要]
図1は、実施形態におけるシステム監視装置の概要の一例を示す図である。
システム監視装置1は、監視対象システム2の監視を行う。この一例で監視とは、監視対象システム2の性能に関する情報をリアルタイムに、または一定時間ごとに計測し、提示することをいう。監視対象システム2の処理能力は、特定のホスト3又は特定のアプリケーション4にかかる負荷が変化することにより、変化する場合がある。例えば、監視対象システム2の処理能力は、特定のホスト3又は特定のアプリケーション4にかかる負荷が大きくなると、低下することがある。そこでシステム監視装置1は、監視対象システム2にかかる負荷が大きくなることにより処理能力が低下しているホスト3又はアプリケーション4を特定するべく、監視対象システム2を監視する。
ホスト3は、物理サーバに備えられるアプリケーション4が動作するためのシステムである。1つの物理サーバに対して1つのホスト3が備えられてもよいし、1つの物理サーバに対して複数のホスト3が備えられてもよいし、複数の物理サーバに1つのホスト3が備えられていてもよい。
アプリケーション4は、ホスト3上で動作するプログラム等である。1つのホスト3上で1つのアプリケーション4が動作してもよいし、1つのホスト3上で複数のアプリケーション4が動作してもよいし、複数のホスト3上で1つのアプリケーション4が動作してもよい。
この一例でホスト3は、ウェブアプリケーションサーバ(以下、APサーバとする。)、オペレーションシステム(以下、OSとする。)、仮想マシン(以下、VMとする。)、仮想サーバ、物理サーバ、ネットワーク、データベースマネジメントシステム(以下、DBMSとする。)等を含む。
また、この一例でアプリケーション4は、WUI(ウェブユーザーインターフェース)、ウェブアプリケーション、サービスインターフェース、ビジネスロジック、インテグレーションロジック、データベースリソース等を含む。
つまり、この一例で監視対象システム2は、複数の仮想サーバであるホスト3とホスト3上で動作する複数のアプリケーション4とを含んで構成される。
図2は、実施形態におけるシステム監視装置の機能構成の一例を示す図である。
システム監視装置1は、トランザクション情報取得部100と、グループ判定部200と、制御部300と、出力部400と、操作検出部5とを備える。
ここで、ユーザとは、例えばシステム監視装置1を使用する者である。監視対象システム2を使用する事業者の従業員であってもよいし、監視対象システム2のメンテナンスを担当する者であってもよい。
トランザクション情報TXIは、トランザクションの宛先であるアプリケーションを示す宛先情報を含む。また、トランザクション情報TXIは、複数のホストのうち一のホストを識別するホスト情報を含む。つまりトランザクションとは監視対象システム2内で行われた処理であり、当該処理が行われたホスト3とアプリケーション4を特定する情報を含む。
トランザクション情報取得部100は、監視対象システム2より取得したトランザクション情報TXIを、グループ判定部200及び制御部300に提供する。
図3は、実施形態におけるグループの一例を示す図である。この図に示した一例において監視対象システム2は、仮想サーバごとに分割したサーバV100とサーバV200とを備える。サーバV100は、ホストV110とホストV120とを備える。サーバV200は、ホストV210とホストV220とを備える。このように監視対象システム2は、階層を分けて仮想サーバごとにグループ化される。つまり、仮想サーバグループ情報VSGIは、複数のホスト情報で構成されるコンピュータシステムを一のグループとして定義した第一の仮想サーバグループと、複数の第一の仮想サーバグループを一のグループとして定義した第二の仮想サーバグループとを備える。
また、この図に示した一例において監視対象システム2は、アプリケーションごとに分割したドメインA100とドメインA200とを備える。
ドメインA100は中機能レベルA110と中機能レベルA120とを備える。中機能レベル110は、小機能レベル111を備える。中機能レベル210は、小機能レベルA211と、小機能レベルA212とを備える。このように監視対象システム2は、階層を分けてアプリケーションごとにグループ化される。つまり、アプリケーショングループ情報は、複数の宛先情報を持つコンピュータシステムを一のグループとして定義した第一のアプリケーショングループと、複数の第一のアプリケーショングループを一のグループとして定義した第二のアプリケーショングループと、複数の第二のアプリケーショングループを一のグループとして定義した第三のアプリケーショングループと、複数の第三のアプリケーショングループを一のグループとして定義した第四のアプリケーショングループとを備える。
仮想サーバグループ情報記憶部220は、ホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報を記憶する。つまり仮想サーバグループ情報記憶部220は、ホスト情報をグループ化し、それぞれのホスト情報がどのグループに属するかの情報を記憶する。
仮想サーバグループ情報取得部210は、判定部250から取得するトランザクション情報TXIに基づいて、当該トランザクションが属する仮想サーバグループを仮想サーバグループ情報記憶部220から取得する。仮想サーバグループ情報取得部210は、当該トランザクションが属する仮想サーバグループを仮想サーバグループ情報VSGIとして判定部250に提供する。
アプリケーショングループ情報記憶部240は、宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報を記憶する。つまり、アプリケーショングループ情報記憶部240は、宛先情報をグループ化し、それぞれの宛先情報がどのグループに属するかの情報を記憶する。
アプリケーショングループ情報取得部230は、判定部250から取得するトランザクション情報TXIに基づいて、当該トランザクションが属するアプリケーショングループをアプリケーショングループ情報記憶部240から取得する。アプリケーショングループ情報取得部230は、当該トランザクションが属するアプリケーショングループをアプリケーショングループ情報APGIとして、判定部250に提供する。
グループ情報取得部260は仮想サーバグループ情報取得部210とアプリケーショングループ情報取得部230とを備える。グループ情報取得部260は宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報APGIを記憶するアプリケーショングループ情報記憶部240、及びホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報VSGIを記憶する仮想サーバグループ情報記憶部220のうちの少なくとも一方から、トランザクション情報取得部100が取得するトランザクション情報TXIが属するグループについてのグループ情報を取得する。
具体的には、判定部250は、トランザクションがどのアプリケーショングループに属するのか、また、該当トランザクションが実行されるホストがどの仮想サーバグループに属するのかについて判定する。判定部250によるアプリケーショングループ及び仮想サーバグループの判定結果を、総称してグループ判定結果とも称する。
なお、判定部250は、アプリケーショングループと仮想サーバグループのうち、いずれか一方のみについて判定するようにしてもよい。
判定部250は、当該トランザクションが属する仮想サーバグループと、アプリケーショングループとの情報(つまり、グループ判定結果)を、トランザクション情報TXIに付加し、トランザクショングループ情報TXGIとして制御部300に提供する。判定部250は、仮想サーバグループ情報取得部210から取得する仮想サーバグループ情報VSGI及びアプリケーショングループ情報取得部230から取得するアプリケーショングループ情報APGIを制御部300に提供する。
以下、制御部300の機能構成の詳細について図4を参照して説明する。
図4は、実施形態におけるシステム監視装置が備える制御部300の機能構成の一例を示す図である。
制御部300は、計測部310と、統計部320と、グループ選択情報取得部330と、比較部340と、警告部350と、閾値情報取得部360と表示選択部370とを備える。
システムの性能を測る指標には、トランザクション情報TXIに基づくシステムの性能を測る指標と、トランザクション情報TXIに基づかないシステムの性能を測る指標とがある。
計測部310は、トランザクション情報TXIに基づいて、システムの性能を測る指標を計測する。
具体的には、計測部310は、トランザクション情報取得部100からトランザクション情報TXIを取得する。計測部310は、取得したトランザクション情報TXIが示すトランザクションに基づいて、性能情報SPIを計測する。ここで性能情報SPIとは、システムの性能を測る指標についての情報である。この一例において性能情報SPIとは、応答時間、TRX要求件数等である。
計測部310は、不図示のリソース情報取得部が監視対象システム2から取得するリソース情報に基づいて、システムの性能を測る指標を計測する。
リソース情報取得部は、監視対象システム2が備えるOS、ミドルウェア、アプリケーション、ソフトウェア等からリソース情報を取得する。
リソース情報は、監視対象システム2が備える物理的リソース及び論理的リソースの使用状況を示す情報を含む。つまり、リソース情報取得部は、監視対象システム2が備えるリソースの使用状況を示す情報を含むリソース情報を取得する。
具体的には、計測部310は、リソース情報取得部からリソース情報を取得する。計測部310は、取得したリソース情報に基づいて、性能情報SPIを計測する。ここで性能情報SPIとは、システムの性能を測る指標についての情報である。この一例において性能情報SPIとは、CPU使用率、メモリ使用率、TPS等である。
計測部310は、計測した性能情報SPIを、比較部340および統計部320に提供する。
具体的には、閾値情報取得部360は、操作検出部5がユーザの操作を検出することにより、閾値情報THIを取得する。ここで閾値情報THIとは、システムの性能を測る指標に対してユーザが設定する閾値である。閾値情報THIは、システムの性能を測る指標ごとに設定することができる。例えば、応答時間がシステムの性能を測る指標となるシステムの場合、任意の時間を閾値情報THIとして設定することができる。同様に、TRX要求件数、CPU使用率、メモリ使用率等を閾値情報THIとして設定できる。
また、グループ毎に閾値情報THIを設定することも可能である。具体的には、閾値情報THIは、宛先、ホスト、アプリケーショングループ又は仮想サーバグループ毎に設定可能である。例えば、ある特定のアプリケーションについて監視したい場合、当該アプリケーションに対して閾値情報THIを設定することで、当該アプリケーションの監視をすることができる。
閾値情報取得部360は、比較部340に対して、閾値情報THIを提供する。
具体的には、比較部340は、閾値情報取得部360より閾値情報THIを、計測部310より性能情報SPIを取得する。比較部340は、取得した閾値情報THIと、性能情報SPIとを比較する。例えばユーザが、監視対象システム2の応答時間について、任意の時間を閾値情報THIとして設定したとする。比較部340は、計測部310が計測する応答時間と、閾値情報取得部360が取得する閾値情報THIを比較する。比較部340は、計測部310により計測される応答時間が、閾値情報取得部360により取得される閾値情報THIの範囲内にある場合、正常状態であると判定する。また、応答時間が閾値情報THIの範囲外にある場合、異常状態であると判定する。つまり比較部340は、計測部310が計測するシステムの性能を測る指標である性能情報SPIに基づき、性能情報SPIが閾値情報THIを超えるか否かの比較を行う。
比較部340は、比較した結果を比較性能情報CPIとして警告部350及び統計部320に提供する。
具体的には、統計部320は、比較部340より比較性能情報CPIを取得し、計測部310より性能情報SPIを取得し、グループ判定部200よりトランザクショングループ情報TXGIを取得する。統計部320は、取得した情報(例えば、比較性能情報CPI、性能情報SPI及びトランザクショングループ情報TXGI)に基づき、統計処理を行う。
一例として、統計部320は、性能情報SPIに基づき、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIとを算出する。
累計性能情報ASPIとは、性能情報SPIについて統計処理を行った結果である。より具体的には、この一例において累計性能情報ASPIとは、X軸に時間を取り、Y軸に性能情報SPIをとった2次元のグラフで表される情報である。
統計後性能情報SSPIとは、性能情報SPIと、比較性能情報CPIとに基づき、統計処理を行った結果である。より具体的には、この一例において統計後性能情報SSPIとは、X軸に時間を取り、Y軸に性能情報SPIが閾値の範囲外にあった回数をとった2次元のグラフで表される情報である。
グループ別統計情報GSPIとは、トランザクショングループ情報TXGIに基づき、グループ毎に性能情報SPIについて統計処理を行った結果である。より具体的には、この一例においてグループ別統計情報GSPIとは、X軸に時間を取り、Y軸に特定のグループの性能情報SPIをとった2次元のグラフで表される情報である。上述した通り、グループには、仮想サーバグループ及びアプリケーショングループが存在し、またそれぞれのグループは複数のグループを備えることがある。したがって、グループ別統計情報GSPIは、仮想サーバグループ情報記憶部220及びアプリケーショングループ情報記憶部240に記憶されているグループごとに分かれている。つまり統計部320は、グループ判定部200が判定するトランザクショングループ情報TXGIに基づき、トランザクション情報TXIが示すトランザクションについての統計演算を行う。
統計部320は、性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIとを表示選択部370に提供する。
例えば監視対象システム2の応答時間が、ユーザが設定する閾値情報THIを超えている状況において、ユーザが異常発生個所の特定を行う場合について説明する。この一例においてユーザは操作検出部5を通じて、サーバV100を選択する。グループ選択情報取得部330はサーバV100が選択されたことをグループ選択情報SGIとして取得し、表示選択部370に提供する。表示選択部370は、ユーザにより選択されたサーバV100の応答時間を出力部400に提供する。もし、サーバV100の応答時間が監視対象システム2の応答時間と同様に閾値情報THIで設定した範囲を超えていた場合、原因はサーバV100にあることが推定される。さらにユーザは、サーバV100を構成するホストV110やホストV120等のグループを選択し、応答時間を確かめることにより、異常発生箇所の特定を行うことが可能となる。
またユーザは、操作検出部5を通じて、アプリケーションについても特定する事が可能である。この一例において、監視対象システム2の応答時間が閾値情報THIの範囲外にある場合、異常の発生原因がハードウェアによるものか、ソフトウェアによるものかの判断が難しい場合がある。そこで、ソフトウェアによる異常発生箇所を特定するため、アプリケーションごとのアプリケーショングループを選択することにより、アプリケーションに問題がある場合の異常発生箇所も特定が可能である。この一例においてユーザは操作検出部5を通じて、ドメインA100を選択する。グループ選択情報取得部330はドメインA100が選択されたことをグループ選択情報SGIとして取得し、表示選択部370に提供する。表示選択部370は、ユーザにより選択されたドメインA100の応答時間を出力部400に提示させる。もし、ドメインA100の応答時間が監視対象システム2の応答時間と同様に閾値情報THIで設定した範囲を超えていた場合、原因はドメインA100にあることが推定される。さらにユーザは、ドメインA100を構成するドメインA110やドメインA120等のグループを選択し、応答時間を確かめることにより、異常が発生しているアプリケーションの特定を行うことが可能となる。
つまり、グループ選択情報SGIとは、統計部320が行った統計演算の結果が出力部400から出力されることに応じて選択されるアプリケーショングループまたは仮想サーバグループを選択するグループ選択情報である。
グループ選択情報取得部330は、取得したグループ選択情報SGIを、表示選択部370に提供する。
具体的には、表示選択部370は、統計部320より性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIとを取得し、グループ選択情報取得部330よりグループ選択情報SGIを取得する。表示選択部370は、グループ選択情報SGIに基づき、統計部320が行った統計演算の結果の中から、(前記出力部による)出力対象の統計演算の結果を選択する。表示選択部370は、性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIとを提供する。
具体的には、警告部350は、比較部340より比較性能情報CPIを取得する。警告部350は、性能情報SPIが閾値情報THIを超えていた場合に、警告情報ALIを出力部400に提供する。警告部350は、比較性能情報CPIが示す閾値を超えた性能情報SPIの値と、宛先又はホストと、アプリケーショングループ又は仮想サーバグループとを、出力部に提示させる。
ここで性能情報SPIは、瞬間的に比較性能情報CPIを超える場合がある。ユーザが異常箇所の特定や原因の特定を目的としている場合において、警告の閾値を超えたとしても、その期間が非常に短い場合(例えば、瞬間的なノイズなどの場合)には、システム監視装置1はユーザに対する警告の必要がない場合がある。そこで、警告部350は、性能情報SPIが閾値情報THIを超えている時間が所定の判定時間を超える場合に出力部400に対して警告情報ALIを提供する。
性能情報SPIが閾値情報THIを超えている時間が所定の判定時間を超えるか否かの判定には、時間を測定する方法と、回数を測定する方法とがある。
時間を測定する方法とは、性能情報SPIが閾値情報THIを上回った時点から、性能情報SPIが閾値情報THIを下回った時点までの時間が、所定の判定時間を超えるか否かの判定を行う方法である。警告部350は、性能情報SPIが閾値情報THIを上回っている時間が所定の判定時間を超えた場合に、出力部400に対して警告情報ALIを提供する。
回数を測定する方法とは、所定の時間ごとに性能情報SPIが閾値情報THIを超えているか否かを測定し、性能情報SPIが閾値情報THIを超えた回数が、所定回数に達したか否かの判定を行う方法である。警告部350は、性能情報SPIが閾値情報THIを超えた回数が、所定回数に達した場合に、出力部400に対して警告情報ALIを提供する。
時間を測定する方法と、回数を測定する方法とは、いずれも性能情報SPIが閾値情報THIを超えている時間を測定している。警告部350は、所定の判定時間を超える場合に出力部400に対して警告情報ALIを提供する。
すなわち、警告部350は、瞬間的に性能情報SPIが悪化した場合などのノイズによって警告が行われてしまう頻度を低減することができる。
すなわち、出力部400は、性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIと、警告情報ALIとを出力する。
図5は、実施形態におけるシステム監視装置の画面構成の一例を示す図である。この一例では、出力部400は、同図に示すダッシュボード画面D900を、不図示の表示部に表示させる。ダッシュボード画面D900は、累積性能情報画像D100と、性能情報画像D300と、選択情報画像D500とを画面の構成要素として備える。
この一例において累積平均応答時間表示画像D110は、横軸(以後、X軸とする。)に時間を、縦軸(以後、Y軸とする。)に平均応答時間をとっている。つまり累積平均応答時間表示画像D110は、時間ごとの平均応答時間を示している。
累積TRX要求件数表示画像D120は、X軸に時間を、Y軸にTRX要求件数をとっている。つまり、累積TRX要求件数表示画像D120は、時間ごとのTRX要求件数を示している。
累積CPU使用率表示画像D130は、X軸に時間を、Y軸にCPU使用率をとっている。つまり、累積CPU使用率表示画像D130は、時間ごとのCPU使用率を示している。
累積平均応答時間表示画像D110、累積TRX要求件数表示画像D120、及び累積CPU使用率表示画像D130は、時間が経過するごとに更新されてもよい。この一例において、X軸は画面左側が古い時点における情報であり、画面右側は新しい時点における情報である。累積平均応答時間表示画像D110、累積TRX要求件数表示画像D120、及び累積CPU使用率表示画像D130は、単位時間経過に伴う更新時において、表示されている値は全体が画面左にシフトし、画面左側の最も古い情報が非表示となる。画面右側の空いた箇所に新しい情報が表示される。つまり、値が時間と共にスクロールすることで、ユーザはシステムの性能を測る指標をリアルタイムに監視することができる。
累積平均応答時間表示画像D110と同様に、累積TRX要求件数表示画像D120は、TRX要求件数瞬時値計測バーD121を備えている。表示選択部370は、TRX要求件数瞬時値計測バーD121の操作により検出された時点の瞬時値を、TRX要求件数表示画像D320として、出力部400に出力する。
同様に、累積CPU使用率表示画像D130は、CPU使用率瞬時値計測バーD131を備えている。CPU使用率瞬時値計測バーD131の操作により検出された時点の瞬時値を、CPU使用率表示画像D330として、出力部400に出力する。
応答時間分布画像D510は、応答時間の分布を示している。X軸には時間の範囲が示され、Y軸には該当するトランザクションの件数を百分率で表している。応答時間分布画像D510は、累計性能情報ASPIに含まれる情報を使用している。統計部320は、性能情報SPIに含まれる応答時間について統計処理を行い、統計後性能情報SSPIとして表示選択部370に提供する。ユーザは、応答時間分布画像D510により、累積平均応答時間表示画像D110と比較して、より統計的にシステムの性能を監視することができる。
サーバグループ別CPU使用率表示画像D520は、グループ別にCPU使用率及びメモリ使用率を表示したものである。グループ選択情報取得部330は、操作検出部5がユーザから取得したグループ選択情報SGIを取得する。グループ選択情報取得部330は表示選択部370にグループ選択情報SGIを提供する。表示選択部370はグループ選択情報SGIに基づき、表示するグループを選択する。表示選択部370は、グループ別統計情報GSPIとして出力部400に出力する。この一例では、仮想サーバグループごとにCPU使用率及びメモリ使用率を表示している。グループ選択情報SGIにより選択されているグループは、グループ1、グループ2、及びグループ3である。
アプリ閾値違反件数表示画像D530、及びインフラ閾値違反件数表示画像D540は、閾値情報取得部360が取得した閾値の範囲を、性能情報SPIが超えた場合の件数を表示している。アプリ閾値違反件数表示画像D530は、特定のアプリケーショングループが閾値を超えた件数を示しており、インフラ閾値違反件数表示画像D540は、特定の仮想サーバグループが閾値を超えた件数を示している。
なお、選択情報画像D500に表示する画像の種類は、不図示のダッシュボード表示情報取得部が操作検出部5からユーザの操作を検出することにより、表示選択部370が選択する。つまり、選択情報画像D500はユーザにより任意で決めることが可能である。
図6は、実施形態におけるトランザクション統計処理動作の一例を示す図である。図6を参照して、監視対象システム2からトランザクション情報TXIを取得し、統計処理を行う流れについて説明する。
(ステップS110)トランザクション情報取得部100は、複数のホスト3上で動作する複数のアプリケーション4を含んで構成される監視対象システム2において、やり取りされる情報伝達の実行単位であるトランザクション情報TXIを取得する。ここでトランザクション情報取得部100が取得するトランザクション情報TXIは、複数のホストのうち情報伝達が行われたホストを識別するホスト情報と、情報伝達が行われたアプリケーションを識別する宛先情報とを含む。
トランザクション情報取得部100は、取得したトランザクション情報TXIを計測部310及び判定部250に提供する。
(ステップS120)計測部310は、トランザクション情報取得部100からトランザクション情報TXIを取得する。計測部310は、トランザクション情報TXIに基づいて、システムの性能を測る指標を計測する。この一例でシステムの性能を測る指標とは、応答時間、TRX要求件数、CPU使用率、メモリ使用率、TPS等である。システムの性能を測る指標を、性能情報SPIとして統計部320に提供する。
(ステップS130)一方、判定部250はトランザクション情報取得部100からトランザクション情報TXIを取得する。判定部250は、取得したトランザクション情報TXIを仮想サーバグループ情報取得部210及びアプリケーショングループ情報取得部230に提供する。
仮想サーバグループ情報取得部210は、トランザクション情報TXIに含まれるホスト情報が属するグループの情報について、仮想サーバグループ情報記憶部220を検索する。仮想サーバグループ情報取得部210は、検索により得たトランザクション情報TXIに含まれるホスト情報が属するグループの情報を、仮想サーバグループ情報VSGIとして、判定部250に提供する。
アプリケーショングループ情報取得部230は、トランザクション情報TXIに含まれる宛先情報が属するグループの情報について、アプリケーショングループ情報記憶部240を検索する。アプリケーショングループ情報取得部230は、検索により得たトランザクション情報TXIに含まれる宛先情報が属するグループの情報を、アプリケーショングループ情報APGIとして、判定部に提供する。
判定部250は、仮想サーバグループ情報取得部210より仮想サーバグループ情報VSGIを取得し、アプリケーショングループ情報取得部230より、アプリケーショングループ情報APGIを取得する。判定部250は、トランザクション情報TXIに仮想サーバグループ情報VSGIとアプリケーショングループ情報APGIを付加し、トランザクショングループ情報TXGIとして、統計部320に提供する。
(ステップS140)統計部320は、計測部310より性能情報SPIを取得し、判定部250よりトランザクショングループ情報TXGIを取得する。統計部320は取得した情報に基づき、統計処理を行う。この一例において統計部320は、統計処理により、累計性能情報ASPIと、グループ別統計情報GSPIと、統計後性能情報SSPIとを算出する。
累計性能情報ASPIは、性能情報SPIにより示される瞬時値を、積算して得られる情報である。
グループ別統計情報GSPIとは、性能情報SPIとトランザクショングループ情報TXGIに基づき、性能情報SPIにより示される瞬時値を、グループ毎に積算して得られる情報である。
統計後性能情報SSPIとは、上述した統計処理以外により統計処理された情報である。この一例において統計部320は閾値情報取得部360が取得する閾値情報THIに基づいて、閾値で指定された範囲を超える性能情報SPIを積算して得られる情報である。
統計部320は、性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIとを表示選択部370に提供する。
(ステップS150)表示選択部370は、統計部320より、性能情報SPIと、累計性能情報ASPIと、統計後性能情報SSPIと、グループ別統計情報GSPIとを取得する。表示選択部370は取得した情報を出力部400に出力する。
図7は、実施形態におけるグループの統計情報表示動作の一例を示す図である。図7を参照して、ユーザにより選択されたグループを取得し、選択されたグループのグループ別統計情報GSPIを提示する流れについて説明する。
(ステップS210)統計部320はトランザクショングループ情報TXGIをグループ判定部200から取得し、表示選択部370に提供する。表示選択部370は、トランザクショングループ情報TXGIを出力部400に出力する。
(ステップS220)ユーザは、グループ情報をドリルダウンにより、選択することができる。
ここで、ドリルダウンとは、グループを上位の階層から下位の階層に向けて順次(例えば、一階層ずつ)選択していくことをいう。例えば、図3の例において、ドリルダウンによりグループが選択される流れを説明する。下段に示されるアプリケーショングループを選択されるとする。ユーザによりドメインA100又はドメインA200の選択が行われる。この時点では中機能レベル及び小機能レベルの下位の階層は提示されていない。操作検出部5がドメインA100の選択を検出すると、出力部400は、中機能レベルA110及び中機能レベルA120の提示を行う。この時点では下位の階層である小機能レベルは提示されていない。操作検出部5が中機能レベルA110の選択を検出すると、出力部400は小機能レベルA111を提示する。このように、ユーザはドリルダウンにより階層を一階層ずつ下げてグループを選択していく。
図7に戻り、操作検出部5はユーザによるグループ情報の選択動作を検出し、選択されたグループをグループ選択情報SGIとしてグループ選択情報取得部330に提供する。
(ステップS230)表示選択部370は、グループ選択情報取得部330よりグループ選択情報SGIを取得し、統計部320よりグループ別統計情報GSPIを取得する。表示選択部370は、グループ選択情報SGIにより示されたグループのグループ別統計情報GSPIを出力部400に提供する。出力部400はグループ別統計情報GSPIを出力する。
図8は、実施形態におけるシステムの性能を測る指標を比較し、警告を行う動作の一例を示す図である。
(ステップS310)閾値情報取得部360は、操作検出部5により閾値情報THIを取得する。閾値情報取得部360は、取得した閾値情報THIを比較部340に提供する。
(ステップS320)比較部340は、閾値情報取得部360より閾値情報THIを取得し、計測部310より性能情報SPIを取得する。比較部340は取得した閾値情報THIと性能情報SPIとを比較する。
(ステップS330)比較部340は、性能情報SPIが閾値情報THIで示される範囲の範囲外である場合、すなわち(ステップS330;YES)の場合、処理をステップS340に進める。比較部340は、性能情報SPIが閾値情報THIで示される範囲の範囲内である場合、すなわち(ステップS330;NO)の場合、処理をステップS320に進める。比較部340は、計測部310から性能情報SPIを取得するたびに、性能情報SPIと閾値情報THIとの比較を行う。
(ステップS340)警告部350は、比較部340から、性能情報SPIが閾値情報THIの範囲外にあることを示す、比較性能情報CPIを取得する。警告部350は、警告情報ALIを出力部400に提供する。出力部400は、警告情報ALIを取得すると、警告情報ALIを提示する。
警告情報ALIは、ユーザに対して警告を行うことを目的しているので、手段は問わない。例えばユーザのディスプレイに表示されるポップアップウィンドウのようなものでもよいし、SNMPTrapなどのネットワークを利用したイベント通知でもよいし、音声デバイスによるアナウンスでもよいし、システムを管理する関係者に電子メールが送信されても良い。
以上説明したように、本実施形態のシステム監視装置1は、トランザクション情報取得部100と、グループ判定部200と、制御部300と、出力部400とを備えている。グループ判定部200は、トランザクション情報取得部100が取得したトランザクション情報TXIに対し、グループ情報を付加し、トランザクショングループ情報TXGIとして統計部320に提供する。統計部320は、グループ別に仕分けられたトランザクション情報TXIを統計処理することにより、グループ別統計情報GSPIを提示する。ここで、グループ別統計情報GSPIとは、統計情報をグループ別に示す情報である。グループ別統計情報GSPIが提示されることにより、統計情報が示すシステム状態をグループごとにユーザに把握させることができる。したがって、グループ別統計情報GSPIが提示されることにより、ユーザは、監視対象のシステムのうち、異常が発生している箇所をグループ単位で把握することができる。
ここで、従来のシステム監視技術によると、統計情報に基づいてシステム全体の状態が変化(例えば、悪化)していることは把握できる場合があるものの、その変化が発生している箇所(例えば、ハードウエアやソフトウエア)の特定まではできなかった。このため、従来のシステム監視技術によると、システム全体の状態を示す統計情報を提示したとしても、異常が発生している箇所をユーザが特定することが困難であるという問題があった。
本実施形態のシステム監視装置1によれば、異常が発生している箇所をグループ単位で把握することができるため、異常が発生している箇所をユーザに特定させやすくすることができる。また、異常が発生している箇所の特定が容易になることにより、本実施形態のシステム監視装置1は、異常状態を引き起こす原因をユーザに特定させやすくすることができる。すなわち、本実施形態のシステム監視装置1によれば、異常状態発生箇所、及び異常状態を引き起こす原因の特定を容易にすることができる。
ここで、監視対象のシステムを構成する要素(例えば、装置や機能)のうち、異常が発生している要素を含むグループの階層が、例えば中位階層である場合において、より上位階層のグループや、より下位階層のグループの統計情報しか提示されないとすれば、異常発生箇所の特定が困難になる場合がある。
本実施形態のシステム監視装置1は、グループの階層毎にグループ別統計情報GSPIを提示するため、複数のグループ階層の中から、統計情報の提示対象のグループの階層を選択することができる。このため、本実施形態のシステム監視装置1によれば、異常発生箇所、及び異常状態を引き起こす原因の特定を容易にすることができる。
Claims (10)
- 複数の仮想サーバと前記仮想サーバ上で動作する複数のアプリケーションとを含んで構成されるコンピュータシステム内においてやり取りされる情報伝達の実行単位であるトランザクションを識別する情報であり、前記トランザクションの宛先であるアプリケーションを示す宛先情報と前記仮想サーバを構成する複数のホストのうち一のホストを識別するホスト情報とを含むトランザクション情報を取得するトランザクション情報取得部と、
宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報を記憶するアプリケーショングループ情報記憶部から、前記トランザクション情報取得部が取得する前記トランザクション情報が属するアプリケーショングループを取得するアプリケーショングループ情報取得部と、
ホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報を記憶する仮想サーバグループ情報記憶部から、前記トランザクション情報取得部が取得する前記トランザクション情報が属する仮想サーバグループを取得する仮想サーバグループ情報取得部と、
前記アプリケーショングループ情報取得部が取得する前記アプリケーショングループ情報と、前記仮想サーバグループ情報取得部が取得する前記仮想サーバグループ情報とに基づき、前記トランザクション情報取得部が取得する前記トランザクション情報が示すトランザクションの属する前記アプリケーショングループ又は前記仮想サーバグループのうち少なくともいずれか一方を判定するグループ判定部と、
前記グループ判定部が判定する結果に基づき、前記トランザクションについての統計演算を行う統計部と、
前記統計部による統計演算の結果を出力する出力部と、
を有する監視装置。 - 前記アプリケーショングループ情報は、
前記複数の宛先情報を持つ前記コンピュータシステムを一のグループとして定義した第一のアプリケーショングループと、前記複数の第一のアプリケーショングループを一のグループとして定義した第二のアプリケーショングループと、前記複数の第二のアプリケーショングループを一のグループとして定義した第三のアプリケーショングループと、前記複数の第三のアプリケーショングループを一のグループとして定義した第四のアプリケーショングループとを備え、
前記仮想サーバグループ情報は、
前記コンピュータシステムを構成する複数のホスト情報を一のグループとして定義した第一の仮想サーバグループと、前記複数の第一の仮想サーバグループを一のグループとして定義した第二の仮想サーバグループとを備える、
請求項1に記載の監視装置。 - 前記統計部が行った前記統計演算の結果が前記出力部から出力されることに応じて選択される前記アプリケーショングループまたは前記仮想サーバグループを示すグループ選択情報を取得するグループ選択情報取得部と、
前記グループ選択情報取得部が取得した前記グループ選択情報に基づいて、前記統計部が行った前記統計演算の結果の中から、出力対象の前記統計演算の結果を選択する表示選択部と、
をさらに備え、
前記出力部は、前記表示選択部が選択した前記統計演算の結果を出力する、
請求項1または請求項2に記載の監視装置。 - 前記コンピュータシステムが備えるリソースの使用状況を示す情報を含むリソース情報を取得するリソース情報取得部と、
前記トランザクション情報取得部が取得する前記トランザクション情報と、前記リソース情報取得部が取得する前記リソース情報とに基づき、前記コンピュータシステムの性能を測る指標を計測する計測部と、
をさらに備え、
前記統計部は、前記計測部が計測した前記コンピュータシステムの性能を測る指標についての統計演算を前記統計演算として行い、
前記出力部は、前記統計部が前記統計演算を行った結果を出力する、
請求項1から請求項3のいずれか一項に記載の監視装置。 - 前記計測部が計測する前記コンピュータシステムの性能を測る指標に基づき、前記コンピュータシステムの性能を測る指標が閾値を超えるか否かの比較を行う比較部、
をさらに備え、
前記比較部が有する前記閾値は、前記宛先、前記ホスト、前記アプリケーショングループ又は前記仮想サーバグループ毎に設定可能であり、
前記出力部は、前記比較部が比較を行った結果を出力する、
請求項4に記載の監視装置。 - 前記コンピュータシステムの性能を測る指標が前記閾値を超えた場合に警告を行う警告部、
をさらに備え、
前記出力部は、前記警告部が行った前記警告に基づき前記閾値を超えた前記コンピュータシステムの性能を測る指標と、前記コンピュータシステムの性能を測る指標が属する前記宛先、前記ホスト、前記アプリケーショングループ又は前記仮想サーバグループを表示する、
請求項5に記載の監視装置。 - 前記警告部は、
前記コンピュータシステムの性能を測る指標が前記閾値を超えている時間が所定の判定時間を超える場合に前記警告を行う、
請求項6に記載の監視装置。 - 複数の仮想サーバと前記仮想サーバ上で動作する複数のアプリケーションとを含んで構成されるコンピュータシステム内においてやり取りされる情報伝達の実行単位であるトランザクションを識別する情報であり、前記トランザクションの宛先であるアプリケーションを示す宛先情報と前記仮想サーバを構成する複数のホストのうち一のホストを識別するホスト情報とを含むトランザクション情報を取得するトランザクション情報取得部と、
宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報を記憶するアプリケーショングループ情報記憶部、及びホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報を記憶する仮想サーバグループ情報記憶部のうちの少なくとも一方から、前記トランザクション情報取得部が取得する前記トランザクション情報が属するグループについてのグループ情報を取得するグループ情報取得部と、
前記グループ情報取得部が取得する前記グループ情報に基づき、前記トランザクション情報取得部が取得する前記トランザクション情報が示すトランザクションの属するグループを判定するグループ判定部と、
前記グループ判定部が判定する結果に基づき、前記トランザクションについての統計演算を行う統計部と、
前記統計部による統計演算の結果を出力する出力部と、
を有する監視装置。 - コンピュータに、複数の仮想サーバと前記仮想サーバ上で動作する複数のアプリケーションとを含んで構成されるコンピュータシステム内においてやり取りされる情報伝達の実行単位であるトランザクションを識別する情報であり、前記トランザクションの宛先であるアプリケーションを示す宛先情報と前記仮想サーバを構成する複数のホストのうち一のホストを識別するホスト情報とを含むトランザクション情報を取得するトランザクション情報取得ステップと、
宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報を記憶するアプリケーショングループ情報記憶部から、前記トランザクション情報取得ステップにおいて取得される前記トランザクション情報が属するアプリケーショングループを取得するアプリケーショングループ情報取得ステップと、
ホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報を記憶する仮想サーバグループ情報記憶部から、前記トランザクション情報取得ステップにおいて取得される前記トランザクション情報が属する仮想サーバグループを取得する仮想サーバグループ情報取得ステップと、
前記アプリケーショングループ情報取得ステップにおいて取得される前記アプリケーショングループ情報と、前記仮想サーバグループ情報取得ステップにおいて取得される前記仮想サーバグループ情報とに基づき、前記トランザクション情報取得ステップにおいて取得される前記トランザクション情報が示すトランザクションの属する前記アプリケーショングループ又は前記仮想サーバグループのうち少なくともいずれか一方を判定するグループ判定ステップと、
前記グループ判定ステップにおいて判定される結果に基づき、前記トランザクションについての統計演算を行う統計ステップと、
前記統計ステップにおける統計演算の結果を出力する出力ステップと、
を実行させるためのプログラム。 - コンピュータに、複数の仮想サーバと前記仮想サーバ上で動作する複数のアプリケーションとを含んで構成されるコンピュータシステム内においてやり取りされる情報伝達の実行単位であるトランザクションを識別する情報であり、前記トランザクションの宛先であるアプリケーションを示す宛先情報と前記仮想サーバを構成する複数のホストのうち一のホストを識別するホスト情報とを含むトランザクション情報を取得するトランザクション情報取得ステップと、
宛先情報と複数の宛先情報を一のグループとして定義したアプリケーショングループとの対応関係を示すアプリケーショングループ情報を記憶するアプリケーショングループ情報記憶部、及びホスト情報と複数のホスト情報を一のグループとして定義した仮想サーバグループとの対応関係を示す仮想サーバグループ情報を記憶する仮想サーバグループ情報記憶部のうちの少なくとも一方から、前記トランザクション情報取得ステップにおいて取得される前記トランザクション情報が属するグループについてのグループ情報を取得するグループ情報取得ステップと、
前記グループ情報取得ステップにおいて取得される前記グループ情報に基づき、前記トランザクション情報取得ステップにおいて取得される前記トランザクション情報が示すトランザクションの属するグループを判定するグループ判定ステップと、
前記グループ判定ステップにおいて判定される結果に基づき、前記トランザクションについての統計演算を行う統計ステップと、
前記統計ステップにおける統計演算の結果を出力する出力ステップと、
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019176013A JP7304252B2 (ja) | 2019-09-26 | 2019-09-26 | 監視装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019176013A JP7304252B2 (ja) | 2019-09-26 | 2019-09-26 | 監視装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021051704A true JP2021051704A (ja) | 2021-04-01 |
JP7304252B2 JP7304252B2 (ja) | 2023-07-06 |
Family
ID=75156144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019176013A Active JP7304252B2 (ja) | 2019-09-26 | 2019-09-26 | 監視装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7304252B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012099048A (ja) * | 2010-11-05 | 2012-05-24 | Hitachi Ltd | 計算機のモニタリングシステム及びモニタリング方法 |
WO2015025379A1 (ja) * | 2013-08-21 | 2015-02-26 | 株式会社日立製作所 | 監視装置、監視方法、および記録媒体 |
US20160105350A1 (en) * | 2014-10-10 | 2016-04-14 | Dynatrace Llc | Method And System For Real-time Modeling Of Communication, Virtualization And Transaction Execution Related Topological Aspects Of Monitored Software Applications And Hardware Entities |
-
2019
- 2019-09-26 JP JP2019176013A patent/JP7304252B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012099048A (ja) * | 2010-11-05 | 2012-05-24 | Hitachi Ltd | 計算機のモニタリングシステム及びモニタリング方法 |
WO2015025379A1 (ja) * | 2013-08-21 | 2015-02-26 | 株式会社日立製作所 | 監視装置、監視方法、および記録媒体 |
US20160105350A1 (en) * | 2014-10-10 | 2016-04-14 | Dynatrace Llc | Method And System For Real-time Modeling Of Communication, Virtualization And Transaction Execution Related Topological Aspects Of Monitored Software Applications And Hardware Entities |
Also Published As
Publication number | Publication date |
---|---|
JP7304252B2 (ja) | 2023-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200358826A1 (en) | Methods and apparatus to assess compliance of a virtual computing environment | |
US11381492B1 (en) | Analyzing servers based on data streams generated by instrumented software executing on the servers | |
US8966392B2 (en) | Event management apparatus, systems, and methods | |
US7310590B1 (en) | Time series anomaly detection using multiple statistical models | |
US7673191B2 (en) | Baselining backend component error rate to determine application performance | |
US9384114B2 (en) | Group server performance correction via actions to server subset | |
US9798644B2 (en) | Monitoring system performance with pattern event detection | |
US20090271511A1 (en) | Automatic context-based baselining for transactions | |
KR101639332B1 (ko) | 화상형성장치 관리 서버, 화상형성장치들의 에러를 관리하는 방법 및 시스템 | |
US20070005298A1 (en) | Monitoring method, system, and computer program based on severity and persistence of problems | |
US9692654B2 (en) | Systems and methods for correlating derived metrics for system activity | |
US10380867B2 (en) | Alert management within a network based virtual collaborative space | |
JPWO2011125138A1 (ja) | 性能監視装置,方法,プログラム | |
WO2022000398A1 (en) | Detecting metrics indicative of operational characteristics of network and identifying and controlling based on detected anomalies | |
US11438239B2 (en) | Tail-based span data sampling | |
US7669088B2 (en) | System and method for monitoring application availability | |
JP7423271B2 (ja) | 監視装置、監視システム及び監視プログラム | |
JP7304252B2 (ja) | 監視装置及びプログラム | |
US20160182333A1 (en) | Measuring affinity bands for pro-active performance management | |
JP7467078B2 (ja) | 監視装置及びプログラム | |
JP5974905B2 (ja) | 応答時間監視プログラム、方法および応答時間監視装置 | |
US9054995B2 (en) | Method of detecting measurements in service level agreement based systems | |
US10228822B2 (en) | Optimal visualization of systems with large quantity of technical servicer instances | |
CN113132431A (zh) | 服务监控方法、服务监控装置、电子设备及介质 | |
US11818028B2 (en) | Network diagnostic sampling in a distributed computing environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220706 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230524 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230626 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7304252 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |