JP2002132543A - 計算機システムの管理方法 - Google Patents

計算機システムの管理方法

Info

Publication number
JP2002132543A
JP2002132543A JP2000332108A JP2000332108A JP2002132543A JP 2002132543 A JP2002132543 A JP 2002132543A JP 2000332108 A JP2000332108 A JP 2000332108A JP 2000332108 A JP2000332108 A JP 2000332108A JP 2002132543 A JP2002132543 A JP 2002132543A
Authority
JP
Japan
Prior art keywords
value
reference value
time
processing
procedure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000332108A
Other languages
English (en)
Inventor
英樹 ▲高▼野
Hideki Takano
Masaharu Akatsu
雅晴 赤津
Sawaki Kuroda
沢希 黒田
Toshihiro Sonomura
智弘 園村
Naohiro Fujii
直大 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000332108A priority Critical patent/JP2002132543A/ja
Publication of JP2002132543A publication Critical patent/JP2002132543A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】計算機システムにおいて、管理対象を管理する
時、その管理対象の挙動に対してしきい値を設ければ、
管理対象の異常は検出できるが、管理対象の構成要素の
どれが問題なのかを特定することは難しい。逆に、各構
成要素の挙動に対してしきい値を設けた場合、管理対象
全体の挙動は問題ないのに、構成要素の異常は検出され
る場合がある。 【解決手段】管理対象の構成要素が、正常動作時に計測
されるべき値である基準値を設ける。管理対象稼動時
に、管理対象の各構成要素を計測し、基準値と計測値と
を比較してずれを求める。ずれに応じて順序付けて表示
することで、管理対象内の異常である可能性の高い個所
を管理者に知らせる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】計算機システムの管理方法で
あって、管理対象の異常発生時に管理対象を構成するど
の要素が問題であるかを通知する異常検出に関する。特
に、複数の計算機システム上の複数のプログラムが強調
して動作する分散アプリケーションにおいて、性能異常
発生時に異常個所を示す異常検出に関する。
【0002】
【従来の技術】計算機システムに関する管理方法であっ
て、管理対象を構成する複数の要素から問題を検出する
ために、各要素にしきい値を設定し、計測値がしきい値
を超えた場合に通知することで、管理対象を管理するこ
とが特開2000-105707に示されている。また、コンピュ
ータ・アソシエイツ株式会社のUnicenter(R) TNG(TM) R
esponse Manager(TM) Optionでは、しきい値を自動的
に求めることが可能である。一方、Microsoft(R)の基本
ソフトウェアWindowsNT(R) Workstation 4.0では、タス
クマネージャによりリソースの使用状況を確認でき、負
荷のかかっているプロセスを判別することで問題のあり
そうなプログラムを把握できる。
【0003】
【発明が解決しようとする課題】計算機システムの要素
である管理対象を管理する時、その管理対象の挙動に対
してしきい値を設ければ、管理対象の異常は検出できる
が、管理対象の構成要素のどれが問題なのかを特定する
ことは難しい。逆に、管理対象の各構成要素の挙動に対
してしきい値を設けた場合、管理対象全体の挙動は問題
ないのに、構成要素の異常は検出される場合がある。異
常個所特定のためにWindowsNT(R)のタスクマネージャを
使用すれば、リソースの使用状況が分かるが、それが正
常であるのか問題であるのかが分からない。本発明は、
管理対象内の異常個所を探す手がかりを提供することを
目的とする。
【0004】
【課題を解決するための手段】本発明の計算機システム
の管理方法では、管理対象を構成する複数の要素に対し
て、基準値を設ける。基準値は、基準値格納テーブルに
格納する。計測ステップでは、管理対象を構成する要素
を計測する。基準値更新ステップでは、計測値を用い
て、基準値格納テーブル内の基準値を必要に応じて更新
する。評価値計算ステップでは、基準値と計測値を比較
して、ずれを求める。表示ステップでは、ずれに応じて
順序付けて表示することで、管理対象内の異常である可
能性の高い個所を管理者に知らせる。
【0005】(課題を解決するための手段2)また、本
発明の他の管理方法では、管理対象を構成する要素に対
して基準値を設ける。基準値は基準値格納テーブルに格
納する。管理対象に対してもしきい値のような管理対象
の異常を判定する基準となる値を設ける。異常判定ステ
ップでは、管理対象を計測し、管理対象の基準値と計測
値を比較して管理対象が異常であるかを判定する。計測
ステップでは管理対象の構成要素を計測して、計測値格
納テーブルに格納する。基準値更新ステップでは、計測
値を用いて、基準値格納テーブル内の基準値を必要に応
じて更新する。異常判定ステップで、管理対象が異常だ
と判定された場合、評価値計算ステップにより、異常だ
と判定した管理対象の計測値と関連のある構成要素の計
測値を計測値格納テーブルから取得し、基準値を比較し
てずれを求める。表示ステップではずれに応じて順序付
けて表示する。管理対象が異常であった時、その構成要
素の中から異常である可能性の高い個所を管理者に知ら
せる。
【0006】
【発明の実施の形態】図1に本発明の実施例1のシステ
ムの構成図を示す。計算機システムにおいて、管理対象
10を構成する複数の要素11に対して、基準値を設ける。
基準値は、基準値格納テーブル23に格納する。計測ステ
ップ21では、管理対象10を構成する要素11を計測する。
基準値更新ステップ22では、計測値を用いて、基準値格
納テーブル23内の基準値を必要に応じて更新する。評価
値計算ステップ24では、基準値と計測値を比較して、ず
れを求める。表示ステップ25では、ずれに応じて順序付
けて表示することで、管理対象内の異常である可能性の
高い個所を管理者に知らせる。
【0007】図2に他のシステムの構成図を示す。管理
対象10を構成する要素に対して基準値を設ける。基準値
は基準値格納テーブル23に格納する。管理対象10に対し
てもしきい値のような管理対象の異常を判定する基準と
なる値を設ける。異常判定ステップ31では、管理対象10
を計測し、管理対象10の基準値と計測値を比較して管理
対象10が異常であるかを判定する。計測ステップ32では
管理対象10の構成要素11を計測して、計測値格納テーブ
ル33に格納する。基準値更新ステップ22では、計測値を
用いて、基準値格納テーブル23内の基準値を必要に応じ
て更新する。異常判定ステップ31で、管理対象10が異常
だと判定された場合、評価値計算ステップ24により、異
常だと判定した管理対象の計測値と関連のある構成要素
11の計測値を計測値格納テーブル33から取得し、基準値
を比較してずれを求める。表示ステップ25ではずれに応
じて順序付けて表示する。管理対象10が異常であった
時、その構成要素11の中から異常である可能性の高い個
所を管理者に知らせる。
【0008】図3で示した複数のプロセスA、B、Cが協
調して動作するアプリケーション50に本発明を適用し
て,アプリケーション50の応答が通常より遅かった時に
最も影響の大きかった処理を検出する場合を例として説
明する。プロセスAは,ユーザ40からの要求を受けて手
続きα1を開始する。プロセスAはプロセスBの手続きβ1
を要求し,次に手続きB2を要求する。手続きB2ではプロ
セスCの手続きγ1を要求する。
【0009】このアプリケーション50の異常を検出する
ための構成を図4に示す。アプリケーション50の各プロ
セスには、処理時間を計測するために管理エージェント
60を付加する。管理エージェント60で計測した処理時間
などの計測値は、処理時間通知70として管理サーバ80に
送る。管理サーバ80では処理時間の基準値と計測値のず
れを計算しずれに応じて順序付けて手続きとその計測
値、基準値などを表示する。
【0010】管理エージェント60の各ステップについて
説明する。処理時間計測ステップ61は,各手続きの開始
時刻、他手続き呼び出し時刻、他手続きからの復帰時
刻、終了時刻を計測し、計測用テーブル62を利用して処
理時間を計算する。処理時間とは、他の手続きを呼び出
している時間を除いて、その手続きのみに要した時間で
ある。計測値送出ステップ63は,管理サーバ80に処理時
間通知70を送出する。
【0011】管理サーバ80の各ステップについて説明す
る。計測値受信ステップ81は,管理エージェント60から
処理時間通知70を受信する。基準値更新ステップ82は,
処理時間と基準値格納テーブル83に格納された基準値を
使用して基準値を更新し、基準値格納テーブル83に格納
する。本例では,手続き毎に要した時間の平均を基準値
として使用する。評価値計算ステップ84は,処理時間と
基準値とを比較して基準値からのずれを求める。本例で
は,偏差を求める。表示ステップ85は,ずれを表示して
管理者に知らせる。
【0012】アプリケーション50のプロセスBの手続き
β2の処理時間を管理エージェント60が計測し、管理サ
ーバ80に送出する処理の流れを説明する。手続きβ2で
は、まず手続きβ2のスレッドIDと処理名を得る。処理
名は、プロセス名と手続き名を含む。スレッドIDは、手
続きβ2が同時に複数の要求を処理する場合、各計測値
を区別できるようにするために必要である。
【0013】次に、手続きβ2の開始時刻を取得するた
めにスレッドIDと処理名を引数としてstartを呼ぶ。こ
れで、手続きβ2の処理をするための準備が終わったの
で、次に手続きβ2の本来の処理を行う。手続きγ1を呼
ぶ時は,手続きγ1の呼び出し時刻を取得するためにス
レッドIDと処理名を引数としてsuspendを呼ぶ。手続き
γ1から復帰したら復帰時刻を取得するためにスレッドI
Dと処理名を引数としてresumeを呼ぶ。手続きβ2の本来
の処理が終了したらスレッドIDと処理名を引数としてen
dを呼ぶ。
【0014】start、suspend、resume、endの処理内容
を説明する。startでは、引数としてスレッドIDと処理
名を得る。計測用テーブル62に引数として得たスレッド
IDと処理名を格納する。次に、計測用テーブル62のスレ
ッドIDと処理名が一致する個所の一時停止時刻と停止時
間に0を格納する。現在時刻を得て、計測用テーブルの
スレッドIDと処理名が一致する個所の開始時刻に現在時
刻を格納する。suspendでは、引数としてスレッドIDと
処理名を得る。現在時刻を得て、計測用テーブル62のス
レッドIDと処理名が一致する個所の一時停止時刻に現在
時刻を格納する。resumeでは、引数としてスレッドIDと
処理名を得る。計測用テーブル62のスレッドIDと処理名
が一致する個所の一時停止時刻と停止時間を得る。現在
時刻から一時停止時刻を引いた値を停止時間に足す。算
出した値を計測用テーブル62のスレッドIDと処理名が一
致する個所の停止時間に格納する。endでは、引数とし
てスレッドIDと処理名を得る。計測用テーブル62のスレ
ッドIDと処理名が一致する個所から開始時刻と停止時間
を得る。現在時刻から開始時刻と停止時間を引いて処理
時間を求める。管理サーバ80に現在時刻と処理名と処理
時間を含んだ処理時間通知70を送出する。
【0015】次に管理サーバ80がアプリケーション50の
各手続きに要した時間を受けとってから管理者に表示す
るまでの流れを説明する。管理サーバ80は、計測値受信
ステップ81で、管理エージェント60から時刻と処理名と
処理時間が送出されるのを待つ。受信すると基準値更新
ステップ82により、受信した処理時間を利用して基準値
の更新を行う。
【0016】次に、評価値計算ステップ84により基準値
と処理時間のずれを計算する。最後に、ずれに応じて手
続きとその処理時間、基準値などを表示する。基準値更
新ステップ82について説明する。引数として処理名と処
理時間を得る。基準値格納テーブル83に引数で得た処理
名が存在しないなら、基準値格納テーブル83に引数とし
て渡された処理名、更新時間に現在時刻、基準値に処理
時間、更新回数に1を格納する。基準値格納テーブル83
に引数で得た処理名が存在するなら、基準値格納テーブ
ル83から処理名をキーにして基準値と更新回数を得る。
(基準値×更新回数+処理時間)÷(更新回数+1)を計算し
て新しい基準値を計算する。基準値格納テーブル83の処
理名が一致する個所の更新時間に現在時刻、基準値に新
しい基準値、更新回数に更新回数+1を格納する。
【0017】評価値計算ステップ84について説明する。
引数として、処理名と処理時間を得る。基準値格納テー
ブル83から処理名をキーにして基準値を得る。処理時間
から基準値を引いて偏差を求める。戻り値として、偏差
を返す。図5に表示ステップ85が表示する画面の例を示
す。ずれを算出するたびに新たに行を作成し、ずれに応
じて適当な個所に追加表示する。画面では、偏差の降順
に表示している。時刻、処理名、処理時間、基準処理時
間、偏差に対して昇順、降順に表示することも可能であ
る。図6にグラフ表示の例を示す。偏差の基準値からの
ずれを棒グラフ表示している。四角で濃く示された個所
は、これまでにアプリケーション50を計測した履歴の中
で最も基準値よりずれた時の偏差を表している。
【0018】上記の実施例によれば、アプリケーション
50の挙動が異常であった場合、実施例1の表示結果を管
理者に提供することにより、管理者に異常な手続きを特
定する手がかりを与えることが可能である。
【0019】実施例1において、管理エージェント90と
管理サーバ間110の通信量を減らすことを目的としたシ
ステムを例にとって実施例2を説明する。図7は、その
システムの構成図である。管理エージェント90内でアプ
リケーション50の各手続きの処理時間の基準値からのず
れを計算し、管理サーバ110ではずれに応じて順序付け
て表示する。start処理、suspend処理、resume処理は実
施例1と同じである。end処理は、処理時間を求めると
ころまでは実施例1と同じであるが、その後、基準値更
新ステップ82により基準値を更新し、評価値計算ステッ
プ91によりずれを計算する。引数は、処理名と処理時間
である。ずれを求めたら、評価値通知100として管理サ
ーバ110に送出する。管理サーバ110の処理の流れを説明
する。評価値受信ステップ111でずれを受け取ったら、
表示ステップ112で表示する。
【0020】上記の実施例によれば、実施例1の効果に
加えて、管理サーバ110と管理エージェント90間の通信
量が実施例1に比べて少ないため、管理サーバ110と管
理エージェント90が別計算機で稼動することがあって
も、ネットワークの通信量が少なくて済む。
【0021】実施例1において、ずれとして比率を利用
し、さらに、一覧表示では既に処理名が表示されていた
場合にその処理名の行を削除してから新たに行を追加す
る方法を利用する実施例3を示す。ずれとして比率を利
用した時の評価値計算ステップ91の処理の流れを説明す
る。基準値格納テーブル83から、引数で与えられた処理
名をキーにして基準値を得て、引数で与えられた処理時
間を基準値で割って比率を得てその比率を戻り値として
返す。
【0022】図8に一覧表示の例を示す。この表示方法
では、ずれを受け取った時に、既に同じ処理名のずれが
表示されていたら、その表示の行を削除してから、新し
く受け取ったずれをずれに応じて適当な位置に表示す
る。
【0023】図9にグラフ表示の例を示す。手続き毎に
比率を棒グラフ表示している。四角で濃く示された個所
は、これまでにアプリケーション50を計測した履歴の中
で最も基準値よりずれた時の比率を表している。
【0024】上記の実施例によれば、ずれとして、比率
を利用することで、基準値からのずれをずれの割合で知
ることができる。一覧表示の表示方法の変更では、ある
処理名は必ず表中に一つしか存在しないため、容易に現
在の処理状況を知ることができる。
【0025】CORBAを基盤として構築されたアプリケー
ションに適用して,アプリケーションを管理対象とし、
アプリケーションの応答時間にしきい値を設けて、しき
い値より応答時間が遅かった時に、そのセッション内の
影響の大きかった手続きを特定する場合を例にとって実
施例4を説明する。セッションとは要求が発生するたび
に呼ばれる一連の手続きである。
【0026】図10で示すように管理対象は、オブジェ
クトα、β、γの3つのプログラムで構成されているア
プリケーション120である。オブジェクトα,β,γは
それぞれ計算機A、B、Cで稼動している。
【0027】図11にアプリケーション120を管理する
システムの構成を示す。オブジェクトα、β、γには管
理エージェント130を配する。管理エージェント130は、
アプリケーション120の各手続きの処理時間、経過時間
を計測する。計測結果は、処理時間通知140として、管
理サーバ150に送出する。管理サーバ150では、処理時間
通知140を受信したら、計測値格納テーブル153に格納す
る。基準値格納テーブル83内の基準値を処理時間の計測
した処理時間を利用して更新する。全体経過時間が管理
者が前もって設定したしきい値を超えていないかを確認
し、超えている場合、超えていたセッションの処理時間
と基準値のずれをずれに応じて表示する。
【0028】管理エージェント130の各ステップについ
て説明する。処理ID付与ステップ131は,アプリケーシ
ョン120に対する要求が発生するたびにそのセッション
の処理に対して処理IDを付与する。処理IDは,"計算機
名.オブジェクト名.処理名.呼び出された時刻"などから
構成される。処理名は、オブジェクト名と処理名を含ん
でいる。処理時間計測ステップ132は,各手続きの開始
時刻、他手続きの呼び出し時刻、他手続きからの復帰時
刻、終了時刻を得て、計測用テーブル133を利用して処
理時間と経過時間を算出する。計測値送出ステップ134
は,時刻、呼び出し元処理ID、処理ID、処理時間、経過
時間から構成される処理時間通知140を管理サーバ140に
送出する。
【0029】次に管理サーバ150の各ステップについて
説明する。全体しきい値入力ステップ151は管理者が,
手続き0を要求してから手続き0が終了するまでの経過時
間に要しても良い時間のしきい値を設定するステップで
ある。計測値受信ステップ152は,管理エージェントか
ら各処理時間通知140を受信して、計測値格納テーブル1
53に格納する。基準値更新ステップ82は,処理時間を使
用して基準値格納テーブル83に格納された基準値を更新
するステップである。基準値として計測値の履歴の平均
値を使用する。
【0030】全体経過時間比較ステップ154は,管理者
が入力したしきい値と実際に全体でかかった経過時間を
比較する。比較の結果、しきい値を超えていなかった場
合、処理IDをたどって計測値格納テーブル153からその
セッションで出た計測値を全て削除する。評価値計算ス
テップ155は,全体経過時間比較ステップ154を実行した
結果、全体の経過時間が管理者の設定したしきい値を超
えていた場合,計測値格納テーブル153内の処理IDをた
どって処理時間と各手続きの基準値とを比較してずれを
計算するステップである。ずれは、比率で表す。時刻、
処理名、処理時間、基準値、比率は、表示情報格納テー
ブルに格納する。表示ステップ157は,表示情報格納テ
ーブル156に保存された情報を表示するステップであ
る。
【0031】アプリケーション120の各オブジェクトの
手続きは、管理エージェント130の機能を呼ぶことによ
り、開始時刻,他手続きの呼び出し時刻,他手続きから
の復帰時刻、終了時刻を通知する。これらの通知処理は
管理サーバ150に各手続きの処理時間と経過時間を報告
するために必要である。オブジェクトβの手続き1の処
理の流れで説明する。
【0032】手続き1は,手続き0から呼び出されるが,
この時,手続き0の処理IDを得る。処理ID付与ステップ
を呼ぶことにより、手続き1の処理IDを得る。処理名と
して"オブジェクトβ"、"手続き1"を得る。処理IDを引
数としてstartを呼ぶ。これで、手続き1の処理を開始す
る準備は完了である。手続き1の本来の処理を行う。手
続き2を呼ぶ前には、処理IDを引数としてsuspendを呼
ぶ。手続き2から復帰したら、処理IDを引数としてresum
eを呼ぶ。手続き1の本来の処理をして最後に処理IDを引
数としてendを呼ぶ。
【0033】start、suspend、resume、endは、実施例1
のstart、suspend、resume、endで、スレッドIDと処理
名を処理IDに置き換えたものと同じである。endの処理
では、さらに現在時刻から開始時刻を引いて経過時間を
算出、管理サーバには、現在時刻、呼び出し元処理ID、
処理ID、処理時間、経過時間を処理時間通知140として
送出する。
【0034】管理サーバ150が処理時間通知140を受け取
って基準値を更新するまでの処理の流れを説明する。計
測値受信ステップ152では、処理時間通知140を受け取る
のを待つ。受け取ると基準値更新ステップ82により、基
準値を更新する。
【0035】図12に管理サーバ150が異常な個所を表
示する処理の流れをPADで示す。計測値受信ステップ152
により、管理エージェント130から処理時間通知130を受
信するのを待つ。受信したら、受信した経過時間に対応
するしきい値が設定されているかを調べ、設定されてい
るなら、全体経過時間比較ステップ154で経過時間と管
理者が設定したしきい値を比較する。経過時間がしきい
値を超えていたら、評価値計算ステップ155により、処
理時間と基準値の間の比率を計算し、表示ステップ157
によりずれの大きさに応じて表示する。各ステップにつ
いて説明する。基準値更新ステップ82は実施例1と同じ
である。
【0036】図13(a)に全体経過時間比較ステップ154
のPADを示す。引数として、処理ID、しきい値、全体経
過時間を得る。全体経過時間がしきい値を超えていない
なら、計測値格納テーブルからの削除154-1を行い、し
きい値を超えていないことを通知する。全体経過時間が
しきい値を超えているならしきい値を超えたことを通知
する。
【0037】図13(b)に計測値格納テーブルからの削
除154-1の処理の流れをPADで示す。計測値格納テーブル
153から処理IDが一致する項目を削除し、削除した処理I
Dを記録しておく。計測値格納テーブル153内に記録した
処理IDが呼び出し元処理IDである項目が存在する間、以
下の処理を行う。計測値格納テーブル153から呼び出し
元処理IDが記録した処理IDである項目の処理IDを得る。
計測値格納テーブルからの削除154-1を呼ぶ。
【0038】図14(a)に評価値計算ステップ155のPAD
を示す。引数として最初の手続きの処理IDを得る。比率
計算155-1を呼ぶ。図14(b)に比率計算155-1の処理の
流れを示す。引数として処理IDを得る。計測値格納テー
ブル153から処理IDが引数で渡された処理IDである処理
時間と時刻を得る。処理IDを記録しておく。基準値格納
テーブル83から処理名をキーにして基準値を得る。ここ
での処理名は、処理IDに含まれるものである。処理時間
と基準値から比率を計算する。表示情報格納テーブル15
6に時刻、処理IDに含まれる計算機名、処理IDに含まれ
る処理名、処理時間、基準値、比率を格納する。計測値
格納テーブル153の呼び出し元処理IDが記録した処理ID
である項目が存在する間、以下の処理を繰り返す。計測
値格納テーブル153の呼び出し元処理IDが記録した処理I
Dである項目の処理IDを得る。比率計算155-1を呼ぶ。図
15に表示ステップ157の表示例を示す。この表示で
は、比率が大きい順にソートして表示している。
【0039】上記の実施例によれば、アプリケーション
120の挙動が異常であった場合のみ、ずれの表示を行う
ため、管理者に余分な情報を提供せず、効率良く管理す
ることを可能とする。
【0040】実施例4において、管理エージェント160
に全体経過時間としきい値の比較、基準値更新、ずれの
計算機能を配し、管理サーバ200では、各管理エージェ
ント160からのずれの収集、表示機能を配したアプリケ
ーション120を管理することで管理エージェント160、管
理サーバ200間の通信量を減らすシステムを例にとって
実施例5を説明する。
【0041】図16にシステムの構成図を示す。管理エ
ージェント160では、処理時間、経過時間を計測し、計
測値格納テーブル164に格納する。さらに、基準値格納
テーブル83内の基準値の更新を行う。計測した全体経過
時間と管理者が設定したしきい値の比較を行い、管理サ
ーバ200に比較結果通知170を出す。管理サーバ200は比
較結果通知170を受け取ると、しきい値を超えていたな
ら、各管理エージェント160に評価値要求通知180を出
す。各管理エージェント160は、評価値要求通知180を受
け取ると、計測値格納テーブル164に格納された処理時
間と基準値格納テーブル83内に格納された基準値からず
れを計算し、評価値通知190として、管理サーバ200に送
出する。管理サーバ200では、評価値通知190を受け取
り、ずれに応じて表示する。
【0042】各ステップについて説明する。セッション
ID付与ステップ161では、セッション毎にIDを付与す
る。処理時間計測ステップ162では、計測用テーブル163
を利用して各手続きの処理時間と経過時間を計測する。
計測した値は、計測値格納テーブル164に格納する。基
準値更新ステップ82では、計測値を利用して基準値格納
テーブル83内の基準値を更新する。
【0043】全体経過時間比較ステップ165では、管理
者が全体しきい値入力ステップ151により入力したしき
い値と、全体経過時間(ここでは、手続き0の経過時間)
を比較する。比較結果は、比較結果通知170として管理
サーバ200に送出する。管理サーバ200の比較結果受信ス
テップ201で比較結果通知170を受信する。評価値要求送
出ステップ202では、全体経過時間がしきい値を超えて
いた場合、全ての管理エージェント160に評価値要求通
知180を送出する。管理エージェント160の評価値要求受
信ステップ167では、評価値要求通知180を受け取る。
【0044】評価値計算ステップ168では、計測値格納
テーブル164に格納されたセッションIDが一致する処理
時間と基準値格納テーブル83の基準値とを比較してずれ
を計算する。ずれとして比率を利用する。評価値送出ス
テップ169により、評価値通知190を管理サーバ200に送
出する。管理サーバ200の評価値受信ステップでは、評
価値通知190を受け取ると、表示情報格納テーブル156に
格納する。表示ステップ157では、表示情報格納テーブ
ル156内の情報をずれに応じて表示する。
【0045】斜線で示した個所は、全体経過時間を計測
する手続きにのみ付加するステップである。ここでは、
斜線で示したステップは手続き0に付加する。手続き0に
付加した後の手続き0の処理の流れを説明する。まず、
セッションID付与ステップ161により、セッションを一
意に識別できるIDを得る。
【0046】次に、セッションIDを引数としてstartを
呼ぶ。手続き0の本来の処理をする。手続き1を呼ぶ前
に、セッションIDを引数としてsuspendを呼ぶ。手続き
1を呼ぶ時は、セッションIDを受け渡す。手続き1から
復帰したらセッションIDを引数としてresumeを呼ぶ。手
続き0の本来の処理をした後、セッションIDを引数とし
てendを呼んで終了する。手続き0から呼ばれる手続き1
の処理の流れを説明する。手続き0から引数としてセッ
ションIDを受け取り、手続き0と同様に処理する。手続
き2を呼ぶ時にも手続き0から受け取ったセッションID
を受け渡す。start、suspend、resume処理は、実施例4
の処理IDをセッションIDに置き換えたものと同じであ
る。
【0047】手続き0に付加するend処理を説明する。以
下、処理IDとは、計算機名、処理名を含んだものであ
る。実施例4のend処理と同様に、処理時間、経過時間
を計算したら、セッションID、処理ID、処理時間、経過
時間を計測値格納テーブル164に格納する。次に、基準
値更新ステップ82により、基準値を更新する。基準値と
して計測値の履歴の平均を利用する。全体経過時間比較
ステップ165により、全体経過時間(手続き0の経過時
間)と管理者が設定したしきい値を比較して比較結果を
求める。最後に、比較結果送出ステップにより、比較結
果を比較結果通知170として管理サーバに送出する。手
続き0以外の手続きに付加するend処理では、全体経過
時間比較ステップ165と比較結果送出ステップ166は行わ
ない。
【0048】全体経過時間比較ステップ165の処理の流
れを説明する。引数としてしきい値と全体経過時間を得
る。しきい値と全体経過時間を比較して、しきい値の方
が大きければしきい値を超えていないという通知を返
す。全体経過時間の方が大きければ、しきい値を超えた
という通知を返す。
【0049】管理サーバ200では、比較結果受信ステッ
プ201により、比較結果通知170を得て評価値要求送出ス
テップ202を行う。図17に評価値要求送出ステップ202
の処理の流れを示す。比較結果が、全体経過時間がしき
い値を超えていることを示しているなら、全ての管理エ
ージェント160に対して評価値要求通知180を送出する。
【0050】管理エージェントは、評価値要求受信ステ
ップ167により、評価値要求通知180を受け取ると、評価
値計算ステップ168により、ずれを計算し、評価値送出
ステップ169により、ずれを評価値通知190として管理サ
ーバ200に送出する。評価値計算ステップ168の処理の流
れを説明する。引数としてセッションIDと処理IDを得
る。計測値格納テーブル164から、セッションIDと処理I
Dが一致する個所の処理時間を得る。基準値格納テーブ
ル83から処理名をキーにして基準値を得る。処理時間を
基準値で割って比率を求める。時刻、セッションID、処
理ID、処理時間、基準値、比率を返す。これらの値を評
価値通知190として管理サーバ200に送出すると、評価値
受信ステップ203で受け取って、表示情報格納テーブル1
56に格納される。表示ステップ157では、格納された値
を表示する。
【0051】上記の実施例によれば、実施例4の効果に
加えて、管理サーバ200と管理エージェント160間の通信
量が実施例4に比べて少ないため、管理サーバ200と管
理エージェント160が別計算機で稼動することがあって
も、ネットワークの通信量が少なくて済む。
【0052】実施例5において、管理エージェントに各
計算機、各オブジェクト、各手続きの状態を計測する手
段を配し、処理時間の計測を開始する時に手続きと、そ
の手続きが含まれる計算機、その手続きが含まれるオブ
ジェクトの状態を計測し、計測した結果を一覧表示と関
連付けて表示することで管理者が問題追求するための多
くの手がかりを提供することを可能とする実施例6のシ
ステムの例である。
【0053】図18は、実施例5の図16に変更追加す
る構成要素を示している。処理時間計測ステップ162と
表示ステップ157と比較結果受信ステップ201は、処理時
間計測ステップ211と表示ステップ231と比較結果受信ス
テップ233に変更し、評価値要求送出ステップ202は表示
ステップ231から呼び出されるように変更し、それ以外
は追加要素である。
【0054】各計算機の状態として、CPU使用率、メモ
リ使用量、プロセス数を計測する。各オブジェクトの状
態として、処理しているリクエスト数を計測する。各手
続きの状態として、処理しているリクエスト数を計測す
る。
【0055】計算機の状態であるCPU使用率,メモリ使
用量,プロセス数は、OSから取得可能であるとする。処
理時間計測ステップ211は、処理時間計測ステップ162の
機能に加えて、end処理内で、CPU使用率、メモリ使用
量、プロセス数をOSから得て、計算機状態格納テーブル
215に格納する機能を持つ。
【0056】オブジェクトの状態である処理しているリ
クエスト数を計測する方法を説明する。管理エージェン
ト210毎に,オブジェクト状態格納テーブル216を配す
る。さらに、処理しているリクエスト数を計測するため
にオブジェクト毎にカウンタを、オブジェクトに一つず
つ配する。オブジェクト状態計測ステップ213では、次
のようにリクエスト数を計測する。処理時間の計測を開
始するために呼ぶstartで,処理しているリクエスト数
のカウンタに1を加える。処理時間の計測を終了する時
に呼ぶendでは,処理しているリクエスト数のカウンタ
から1を引く。さらに、引数で受け取ったセッションID
と処理IDと時刻をオブジェクト状態格納テーブル216に
格納する。オブジェクト状態格納テーブル216内の処理
しているリクエスト数にはカウンタの値を書き込む。こ
れらの情報が必要な時は、セッションID、時刻、処理ID
をキーにして、検索する。
【0057】手続きの状態である、処理しているリクエ
スト数を計測する方法を説明する。管理エージェント21
0に、手続き状態格納テーブル217を配する。さらに、処
理しているリクエスト数を計測するためにカウンタを手
続きに一つずつ配する。手続き状態計測ステップ214で
は、この手続き状態格納テーブル217と各カウンタに対
して、start、endで、オブジェクト状態格納テーブルに
対して行う処理と同様の処理を行うことで、処理してい
るリクエスト数を計測する。
【0058】アプリケーション120の全体経過時間が管
理者が設定したしきい値を超えた場合、比較結果通知17
0が比較結果受信ステップ233に届く。比較結果受信ステ
ップでは、届いた比較結果通知170を比較結果格納テー
ブル234に格納する。表示ステップ231では、比較結果格
納テーブル234に格納された情報を表示する。
【0059】図19に、表示される画面の遷移の様子を
示す。図中の矢印は、画面の遷移を表している。比較結
果格納テーブル234に格納された情報をしきい値を超え
た要求一覧240として表示する。ここで、セッションID
が87521を選択すると、表示ステップ231から評価値要求
ステップ202を呼び出し、管理エージェント210から評価
値を得て、処理時間一覧表241を表示する。処理時間一
覧表241で、管理者が計算機名、オブジェクト名、手続
き名を選択することでそれぞれの状態を表示する。各項
目が選択されると、管理サーバ230の周辺状況収集ステ
ップ232で、その項目のセッションIDと時刻と処理IDを
含む、計算機状態要求、オブジェクト状態要求、手続き
状態要求の何れかを管理エージェントに出す。管理エー
ジェント210の計算機状態計測値受信ステップ218、オブ
ジェクト状態計測値要求受信ステップ、手続き状態計測
値要求受信ステップでは、それを受け取るとセッション
IDと時刻と処理IDをキーにして、計算機状態格納テーブ
ル215、オブジェクト状態格納テーブル216、手続き状態
格納テーブル217の何れかから計測値を取り出す。管理
エージェント210には、計算機状態計測値送信ステッ
プ、オブジェクト状態計測値送信ステップ、手続き状態
計測値受信ステップを配し、計算機状態格納テーブル21
5、オブジェクト状態格納テーブル216、手続き状態格納
テーブル217から計測値の平均を算出し、基準値とす
る。セッションIDと時刻と処理IDをキーにして取り出し
た計測値を基準値で割って比率を計算する。計算機状態
通知、オブジェクト状態通知、手続き状態通知の何れか
としてセッションID、時刻、処理ID、計測値、基準値、
比率を管理サーバに送出する。管理サーバ230の表示ス
テップ231では、それらの情報を、計算機Cの状態242、
計算機Cのオブジェクトγの状態243、計算機Cのオブジ
ェクトγ.手続き2の状態244として表示する。
【0060】さらに、各表示内の気になる項目を選択す
ることで、その項目に関連する周辺の状況を表示する。
例えば、計算機Cの状態242の画面中のCPU使用率を選択
すると、管理サーバ230内の周辺状況収集ステップ232で
は、CPU使用率収集要求を出し、管理エージェント210内
の計算機状態計測値要求受信ステップ218でその要求を
受け取り、計算機状態計測値送出ステップ219では、CPU
使用率と時刻の一覧を得て、管理サーバ230へ送出す
る。表示ステップ231では、それらをCPU使用率のグラフ
表示245として表示する。図中の白丸245-1が、選択する
個所に対応する部分である。
【0061】以上の機能を用いて、管理者が問題追求を
行う一例を説明する。アプリケーション120の応答時間
が、管理者が設定したしきい値を超えていた場合、しき
い値を超えた要求一覧表210に項目が追加される。管理
者は、セッションIDが87521の情報を見たい場合、その
セッションの行を選択すると、どの手続きで時間がかか
ったのかを示す、処理時間一覧表示241が出る。この場
合、計算機Cで稼動しているオブジェクトγの手続き2が
最も通常より時間がかかったことが分かる。
【0062】そこで、どうして時間がかかったのかを調
べるために、管理者は、計算機Cを選択する。選択する
と、計算機Cの状態242が現れる。比率を見ることで、通
常より異常であるのがCPU使用率であることが分かる。
念のために、計算機Cのオブジェクトγの状態243、計算
機Cのオブジェクトγ.手続き2の状態244を見てみると、
通常とあまり変わらないことが分かる。そこで、計算機
のCPU使用率が原因であることが分かる。さらに、CPU使
用率のグラフ表示245を得ると、CPU使用率が急に上がっ
ている個所245-2があることが分かる。その個所245-2で
問題が発生している可能性が高いと予想できるので、次
に、その個所245-2を選択すると、該当するセッション
の処理時間一覧表が表示される。管理者、次に、そのセ
ッションについて問題があるかを追跡していくことにな
る。
【0063】上記の実施例によれば、アプリケーション
の処理速度が遅かった時,遅かった手続きを遅かった順
に表示するのに加え,各手続きが呼ばれた時の計算機,
オブジェクト,手続きの状態を管理者に関連付けて表示
することにより,異常個所の追求をより迅速に行うこと
を可能にする。
【0064】
【発明の効果】計算機システムの構成要素である管理対
象が異常である時、本発明を用いれば、基準値と計測値
のずれによって管理対象を構成する要素名を表示するこ
とができ、管理者は表示を手がかりに異常個所を探すこ
とができる。
【図面の簡単な説明】
【図1】管理対象内の異常個所を検出するシステムの構
成図である。
【図2】管理対象が異常であった場合に管理対象内の異
常個所を検出するシステムの構成図である。
【図3】複数のプロセスで構成された管理対象の例であ
る。
【図4】管理エージェントから計測値を送出して処理時
間を管理するシステムの構成図である。
【図5】ずれを計算するたびに表に追加する一覧表示例
である。
【図6】偏差のずれのグラフ表示例である。
【図7】管理エージェントからずれを送出して処理時間
を管理するシステムの構成図である。
【図8】ずれを計算する毎に既に値があればその行を削
除してから新たに行を追加する一覧表示例である。
【図9】比率のずれのグラフ表示例である。
【図10】CORBAで実現された管理対象の例である。
【図11】管理エージェントから計測値を送出してセッ
ション毎に処理時間を管理するシステムの構成図であ
る。
【図12】管理エージェントから計測値を送出してセッ
ション毎に処理時間を管理する時の異常個所表示処理の
流れである。
【図13】管理エージェントから計測値を送出してセッ
ション毎に処理時間を管理する時の全体経過時間比較ス
テップの処理の流れである。
【図14】管理エージェントから計測値を送出してセッ
ション毎に処理時間を管理する時の評価値計算ステップ
の処理の流れである。
【図15】セッション毎に処理時間を管理する時の管理
対象の一覧表示例である。
【図16】管理エージェントからずれを送出してセッシ
ョン毎に処理時間を管理するシステムの構成図である。
【図17】管理エージェントからずれを送出してセッシ
ョン毎に処理時間を管理する時の評価値要求送出ステッ
プの処理の流れである。
【図18】処理時間のずれと周辺状況を関連付けて表示
した時の例である。
【図19】管理対象内の異常個所を検出するシステムの
構成図である。
【符号の説明】 10…管理対象、11…構成要素、20…管理方法、21…計測
ステップ、22…基準値更新ステップ、23…基準値格納テ
ーブル、24…評価値計算ステップ、25…表示ステップ、
30…管理方法、31…異常判定ステップ、32…計測ステッ
プ、33…計測値格納テーブル、40…ユーザ、50…アプリ
ケーション、60…管理エージェント
───────────────────────────────────────────────────── フロントページの続き (72)発明者 黒田 沢希 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 園村 智弘 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 (72)発明者 藤井 直大 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 Fターム(参考) 5B042 GA12 JJ23 JJ30 KK13 LA08 MC28 MC33 5B098 GA04 GC10 JJ08

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】計算機システムにおける、複数の構成要素
    から成る管理対象に対して、その要素の挙動を計測し、
    前記挙動の基準値を設定し、計測値と前記基準値を比較
    し、前記計測値と前記基準値のずれに応じて、当該複数
    の要素と前記計測値、及び前記基準値を順序付けて表示
    することを特徴とする計算機システムの管理方法。
  2. 【請求項2】計算機システムにおける、管理対象全体の
    挙動を計測し、前記管理対象の挙動が異常であると判断
    するためのしきい値を設定し、前記管理対象の計測値と
    しきい値を比較し、前記管理対象の前記計測値が前記し
    きい値を超えていた場合に、前記管理対象の構成要素の
    前記計測値と前記基準値のずれに応じて、当該複数の要
    素と前記計測値と前期基準値を順序付けて表示すること
    を特徴とする計算機システムの管理方法。
  3. 【請求項3】前記構成要素はプログラム内手続きであ
    り、前記挙動は処理時間であることを特徴とする請求項
    1及び2記載の計算機システムの管理方法。
  4. 【請求項4】前記計測値の履歴の平均を前記基準値とし
    て設定することを特徴とする請求項1及び2記載の計算
    機システムの管理方法。
  5. 【請求項5】前記ずれとして偏差(計測値-基準値)を利
    用することを特徴とする請求項1及び2記載の計算機シ
    ステムの管理方法。
  6. 【請求項6】前記ずれとして比率(計測値/基準値)を利
    用することを特徴とする請求項1及び2記載の計算機シ
    ステムの管理方法。
  7. 【請求項7】前記管理対象の計測の際に,前記管理対象
    の構成要素の挙動の計測値を受け取った時に計測値格納
    テーブルに保存し,管理対象全体の挙動の計測値がしき
    い値を超えなかった時に計測値格納テーブルからその管
    理対象の構成要素に関する計測値を削除することを特徴
    とする請求項1及び2記載の計算機システムの管理方
    法。
JP2000332108A 2000-10-25 2000-10-25 計算機システムの管理方法 Pending JP2002132543A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000332108A JP2002132543A (ja) 2000-10-25 2000-10-25 計算機システムの管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000332108A JP2002132543A (ja) 2000-10-25 2000-10-25 計算機システムの管理方法

Publications (1)

Publication Number Publication Date
JP2002132543A true JP2002132543A (ja) 2002-05-10

Family

ID=18808353

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000332108A Pending JP2002132543A (ja) 2000-10-25 2000-10-25 計算機システムの管理方法

Country Status (1)

Country Link
JP (1) JP2002132543A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202076A (ja) * 2005-01-21 2006-08-03 Internatl Business Mach Corp <Ibm> トレース情報収集システム、トレース情報収集方法、及びトレース情報収集プログラム
JP2007323193A (ja) * 2006-05-30 2007-12-13 Nec Corp 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
WO2008114323A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Microelectronics Limited プロセッサ・システム最適化支援装置、および支援方法
US8560667B2 (en) 2004-10-28 2013-10-15 Fujitsu Limited Analysis method and apparatus
KR20170040210A (ko) * 2014-07-30 2017-04-12 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 분산 시스템에서 결함을 분석하기 위한 비주얼 툴
CN111966478A (zh) * 2020-08-18 2020-11-20 北京百度网讯科技有限公司 自定义任务排序方法和设备、电子设备和介质
JP2021018813A (ja) * 2019-07-18 2021-02-15 株式会社日立製作所 データセットにおける異常の根本原因を検出する方法およびシステム
JP7393847B2 (ja) 2019-10-25 2023-12-07 インターナショナル・ビジネス・マシーンズ・コーポレーション パイプラインにおけるタスクの並列度の動的な変更

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8560667B2 (en) 2004-10-28 2013-10-15 Fujitsu Limited Analysis method and apparatus
JP2006202076A (ja) * 2005-01-21 2006-08-03 Internatl Business Mach Corp <Ibm> トレース情報収集システム、トレース情報収集方法、及びトレース情報収集プログラム
US7574626B2 (en) 2005-01-21 2009-08-11 International Business Machines Corporation Trace information collecting system, method and program
JP2007323193A (ja) * 2006-05-30 2007-12-13 Nec Corp 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP4573179B2 (ja) * 2006-05-30 2010-11-04 日本電気株式会社 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
US8612805B2 (en) 2007-03-20 2013-12-17 Spansion Llc Processor system optimization supporting apparatus and supporting method
WO2008114323A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Microelectronics Limited プロセッサ・システム最適化支援装置、および支援方法
US8972795B2 (en) 2007-03-20 2015-03-03 Spansion Llc Processor system optimization
KR20170040210A (ko) * 2014-07-30 2017-04-12 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 분산 시스템에서 결함을 분석하기 위한 비주얼 툴
JP2017523526A (ja) * 2014-07-30 2017-08-17 マイクロソフト テクノロジー ライセンシング,エルエルシー 分散システムにおける故障解析のための視覚ツール
KR102301946B1 (ko) * 2014-07-30 2021-09-13 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 분산 시스템에서 결함을 분석하기 위한 비주얼 툴
JP2021018813A (ja) * 2019-07-18 2021-02-15 株式会社日立製作所 データセットにおける異常の根本原因を検出する方法およびシステム
JP7393847B2 (ja) 2019-10-25 2023-12-07 インターナショナル・ビジネス・マシーンズ・コーポレーション パイプラインにおけるタスクの並列度の動的な変更
CN111966478A (zh) * 2020-08-18 2020-11-20 北京百度网讯科技有限公司 自定义任务排序方法和设备、电子设备和介质
CN111966478B (zh) * 2020-08-18 2024-02-20 北京百度网讯科技有限公司 自定义任务排序方法和设备、电子设备和介质

Similar Documents

Publication Publication Date Title
US10348809B2 (en) Naming of distributed business transactions
JP3537356B2 (ja) ジョブシステムにおける遅延要因解析方法
US8707386B2 (en) Policy processing system, method, and program
KR101203306B1 (ko) 데이터 변경 통지
US9811356B2 (en) Automated software configuration management
US20020156884A1 (en) Method and system for providing and viewing performance analysis of resource groups
US20090182866A1 (en) Method of setting and managing performance monitoring conditions and computer system using the method
CN112416581B (zh) 定时任务的分布式调用系统
US10380867B2 (en) Alert management within a network based virtual collaborative space
JP5050878B2 (ja) 監視装置、監視システム、監視方法およびプログラム
JP2002132543A (ja) 計算機システムの管理方法
CN111611057A (zh) 分布式重试方法、装置、电子设备和存储介质
US9317355B2 (en) Dynamically determining an external systems management application to report system errors
CN113157426A (zh) 一种任务调度方法、系统、设备及存储介质
US10585620B2 (en) Storage monitoring system for monitoring components in a storage system in a distributed manner
EP2775400B1 (en) Ressource management system a method
CN112732765B (zh) 一种实验路径的确定方法及装置、电子设备
CN113132431B (zh) 服务监控方法、服务监控装置、电子设备及介质
JP2007520806A (ja) システム・パフォーマンスを監視し、高度なグラフィカル・ユーザ・インターフェースを介して詳細なシステム・パフォーマンス・データを伝える方法、システム、データ処理システム及びコンピュータ・プログラム(システム管理データの多次元視覚相関のための方法)
CN113761420A (zh) 一种页面展示方法、装置、业务服务器及存储介质
CN117271277A (zh) 异常业务的告警方法、装置、设备及存储介质
CN113655964A (zh) 数据卷的处理方法、装置、电子设备、介质及程序产品
JPH113230A (ja) ジョブ情報問合せ・表示システム
CN110837431A (zh) 服务控制方法、装置、计算机设备及计算机可读存储介质
JP2009265689A (ja) クラスタシステム及び引き継ぎ先ノード決定方法