JP2008191849A - 稼働管理装置、情報処理装置、稼働管理装置の制御方法、情報処理装置の制御方法及びプログラム - Google Patents

稼働管理装置、情報処理装置、稼働管理装置の制御方法、情報処理装置の制御方法及びプログラム Download PDF

Info

Publication number
JP2008191849A
JP2008191849A JP2007024318A JP2007024318A JP2008191849A JP 2008191849 A JP2008191849 A JP 2008191849A JP 2007024318 A JP2007024318 A JP 2007024318A JP 2007024318 A JP2007024318 A JP 2007024318A JP 2008191849 A JP2008191849 A JP 2008191849A
Authority
JP
Japan
Prior art keywords
management
time
types
predetermined
state data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007024318A
Other languages
English (en)
Inventor
Tatsuo Nishiyama
龍男 西山
Minoru Fujihira
実 藤平
Jun Otsu
純 大津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NS Solutions Corp
Original Assignee
NS Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NS Solutions Corp filed Critical NS Solutions Corp
Priority to JP2007024318A priority Critical patent/JP2008191849A/ja
Publication of JP2008191849A publication Critical patent/JP2008191849A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】複数種類の稼働状態データの相関関係を加味したコンピュータの稼働状態を容易に分析可能とする。
【解決手段】一次編集ツール107〜109は、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データを夫々取得し、二次編集ツール113は、取得された複数種類の稼働状態データを取得時間に対応付けて管理する。
【選択図】図1

Description

本発明は、例えば、オープン系サーバの稼働状態を正確に判断するための技術に関するものである。
24時間365日連続稼働が要求される製鉄業の操業オンラインシステムにおいては、対障害性能に優れていることから、かつてはシステムとして完成度の高いメインフレームを利用していた。しかし、スピードやコスト等仕様に対する要求がめまぐるしく変動する昨今では、基幹システムのオープン化が取り組まれている。即ち、複数のベンダによって提供されるハードウェア及びソフトウェアの組み合わせによって構成可能なオープン系サーバを用いて基幹システムを構築する傾向にある。
ところで、サーバを構成するCPU、メモリ及びアプリケーション等の稼働状態は相互に影響し合うため、障害発生時等には、夫々の稼働状態の相関関係を踏まえて障害を検証する必要がある。
また、コンピュータの稼働状態を評価する技術に関して、例えば特許文献1には、瞬間のCPU使用率から、安定した真のCPU使用率を導き出すための手法が開示されている。特許文献2には、オンラインシステムにおいて或る処理ノードが、リソース負荷情報の蓄積時間を含む共通フォーマットのリソース負荷情報を各処理ノードから取得し、特定の処理ノードで関連付けて、それらのリソース負荷情報に基づいて性能評価結果を出力するものが開示されている。
特開2000−347905号公報 特開平5−158876号公報
オープン系サーバの稼働状態は、ハードウェアやソフトウェア用の管理ツールが出力する稼働状態データによって把握することができる。しかしながら、個々の管理ツールは、夫々のハードウェアやソフトウェア向けに各ベンダが提供した個別のものであるため、稼働状態データの出力タイミングにはばらつきがある。また、個々の管理ツールは稼働状態データを記録しているが、量が膨大であり、稼働状態データのどこに注目すればいいのか、どのように分析すればいいのか、分からなかった。さらに、一処理の開始から終了までのSQL発行回数のように時間幅を持ったデータとCPU使用率のような瞬間の状態データとが混在するため、分析が困難であった。従って、出力された稼働状態データを単に参照しただけでは、稼働状態データ間の相関関係を容易に把握することはできず、稼働状態の分析を正確に行うためには、多大な労力を要していた。
そして、サーバの性能管理を行えないまま、障害を恐れて非常に高価なサーバを何台も購入していた。しかしながら、実際には、このように購入されたサーバのリソースはほとんど使用されてないことも多く、無駄なコストが大量に発生していた。
また、特許文献1に開示される発明は、仮に真のCPU使用率が導き出され、それが異常値を示していたとしても、障害の原因はCPUとは限らず、真の原因を分析することはできない。なぜなら、CPU使用率と他のリソースの稼働状態データとの出力タイミングにはばらつきがあり、各稼働状態データの相関関係を踏まえて障害やその原因を検証することができないからである。
特許文献2に開示される発明は、各処理ノード間から取得するリソース負荷情報のフォーマットを予め共通化する必要があり、異種ベンダ間のように、予め共通化したフォーマットで管理できず、ベンダ独自のフォーマットで管理するしかないという制約がある場合に対して、全く考慮されていなかった。
また、夫々の稼働状態の相関関係を踏まえて障害を検証する際において、例えば、或る時点に処理が大幅に集中し、それに伴ってCPU使用率も一時的に上昇し、所定の基準値を超える場合がある。従来、CPU使用率のグラフを参照したユーザは、CPU使用率が基準値を超えたというだけで、障害が発生したと誤認識していた。しかし、実際は、これは一時的に処理が集中したことに伴い、CPU使用率も一時的に上昇しただけであって、自然な上昇と捉えるべきである。従って、このような状況は真の障害とは認められない。
そこで、本発明の目的は、真の障害や原因を検出することを可能とすることにある。
本発明の他の目的は、異種ベンダ間から取得した稼働状態であっても、複数種類の稼働状態データの相関関係を加味したコンピュータの稼働状態や真の障害を容易に分析可能とするとともに、分析に基づいて性能管理(キャパシティマネジメント)を行うことにある。
本発明の稼働管理装置の第1の態様は、所定の設定時間単位で、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する第1の管理手段を有することを特徴とする。
本発明の稼働管理装置の第2の態様は、複数の取得手段によって夫々取得された、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データを、前記各取得手段の取得時間に対応付けて管理する第3の管理手段の管理内容を入力する入力手段と、所定の設定時間単位で、前記第3の管理手段において管理される前記複数種類の稼働データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する第4の管理手段とを有することを特徴とする。
本発明の情報処理装置は、複数の取得手段によって夫々取得された、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データを、前記各取得手段の取得時間に対応付けて管理する第1の管理手段と、所定の設定時間単位で、前記第1の管理手段において管理される前記複数種類の稼働データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する第2の管理手段とを有する稼働管理装置の前記第2の管理手段における管理内容に基づいて、前記複数種類の稼働状態データの平均値を各時間帯に対応付けて一票化して出力する出力手段を有することを特徴とする。
本発明の稼働管理装置の制御方法の第1の態様は、所定の設定時間単位で、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する管理ステップを含むことを特徴とする。
本発明の稼働管理装置の制御方法の第2の態様は、複数の取得手段によって夫々取得された、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データを、前記各取得手段の取得時間に対応付けて管理する管理手段の管理内容を入力する入力ステップと、所定の設定時間単位で、前記管理手段において管理される前記複数種類の稼働データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する管理ステップとを含むことを特徴とする。
本発明の情報処理装置の制御方法は、複数の取得手段によって夫々取得された、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データを、前記各取得手段の取得時間に対応付けて管理する第1の管理手段と、所定の設定時間単位で、前記第1の管理手段において管理される前記複数種類の稼働データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する第2の管理手段とを有する稼働管理装置の前記第2の管理手段における管理内容に基づいて、前記複数種類の稼働状態データの平均値を各時間帯に対応付けて一票化して出力する出力ステップを含むことを特徴とする。
本発明のプログラムの第1の態様は、稼働管理装置の制御方法をコンピュータに実行させるためのプログラムであって、所定の設定時間単位で、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する管理ステップをコンピュータに実行させることを特徴とする。
本発明のプログラムの第2の態様は、稼働管理装置の制御方法をコンピュータに実行させるためのプログラムであって、複数の取得手段によって夫々取得された、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データを、前記各取得手段の取得時間に対応付けて管理する管理手段の管理内容を入力する入力ステップと、所定の設定時間単位で、前記管理手段において管理される前記複数種類の稼働データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する管理ステップとをコンピュータに実行させることを特徴とする。
本発明のプログラムの第3の態様は、情報処理装置の制御方法をコンピュータに実行させるためのプログラムであって、複数の取得手段によって夫々取得された、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データを、前記各取得手段の取得時間に対応付けて管理する第1の管理手段と、所定の設定時間単位で、前記第1の管理手段において管理される前記複数種類の稼働データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する第2の管理手段とを有する稼働管理装置の前記第2の管理手段における管理内容に基づいて、前記複数種類の稼働状態データの平均値を各時間帯に対応付けて一票化して出力する出力ステップをコンピュータに実行させることを特徴とする。
本発明においては、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データの夫々に対して所定の演算処理を施し、所定の設定時間を時間幅とする時間帯に対応付けて該当する演算結果を管理するように構成している。従って、一時的に上昇する値をとる稼働状態データは、上記演算により無視することができる値となり、ある程度継続して上昇した値をとる稼働状態データのみを障害監視の対象とすることが可能となる。従って、本発明によれば、真の障害や原因を検出することができる。
また、本発明においては、複数種類の稼働状態データをその取得時間に対応付けて管理するように構成したので、予め共通化したフォーマットを使用することなく、例えば、時間軸を揃えて各稼働状態データを一票化させて表示させることが可能となる。従って、異種ベンダ間から取得した稼働状態データであっても、複数種類の稼働状態データの相関関係を加味したコンピュータの稼働状態の分析や真の障害の分析、性能管理(キャパシティマネジメント)を容易に行うことが可能となる。
以下、本発明を適用した好適な実施形態を、添付図面を参照しながら詳細に説明する。
<第1の実施形態>
図1は、本発明の第1の実施形態に係る稼働管理装置100及びPC200の構成を示すとともに、それらの各構成間における処理の流れを示すブロック図である。本実施形態に係る稼働管理装置100は、複数のベンダによって提供されるハードウェア及びソフトウェアの組み合わせで構成されているオープン系サーバを想定している。
図1に示すように、本実施形態に係る稼働管理装置100は、DBMS(Data Base Management System)101、OLTP(On-Line Transaction Processing)102、OS(Operating System)103、一次編集ツール107〜109、二次編集ツール113及び三次編集ツール115を備える。なお、DBMS101は、データベースを管理・運用するためのソフトウェアである。OLTP102は、当該稼働管理装置100とネットワークを介して接続されるクライアント装置やサーバ装置等からの処理要求に対応する処理を行い、その処理結果を送り返すためのソフトウェアである。一方、PC200は、四次編集ツール201を備える。
図2は、稼働管理装置100のハードウェア構成を示すブロック図である。図2において、CPU301は、システムバスに接続される各デバイスやコントローラを統括的に制御する。ROM303、HD(ハードディスク)309には、CPU301が実行するBIOS(Basic Input/Output System)、OS103、DBMS101、OLTP102、一次編集ツール107〜109、二次編集ツール113及び三次編集ツール115等のプログラムが格納されている。
なお、図2の例では、HD309は、稼働管理装置100の内部に配置された構成としているが、他の実施形態として、HD309に相当する構成が稼働管理装置100の外部に配置された構成としてもよい。また、一次編集ツール107〜109、二次編集ツール113及び三次編集ツール115は、フレキシブルディスク(FD)やCD−ROM等、コンピュータ読み取り可能な記録媒体に記録され、それらの記録媒体から供給される構成としてもよいし、インターネット等の通信媒体を介して供給される構成としてもよい。
RAM302は、CPU301の主メモリ、ワークエリア等として機能する。CPU301は、処理の実行に際して必要なプログラムやデータをRAM302にロードして、プログラムを実行することで各種動作を実現するものである。
HD309やFD308は、外部メモリとして機能する。CPU301は、処理の実行に際して必要なプログラム等をRAM302にロードして、プログラムを実行することで各種動作を実現するものである。
ディスクコントローラ307は、HD309やFD308等の外部メモリへのアクセスを制御する。通信I/Fコントローラ306は、インターネットやLANと接続し、例えば、TCP/IPによって外部との通信を制御するものである。
ディスプレイコントローラ310は、ディスプレイ311における画像表示を制御する。
KBコントローラ304は、KB(キーボード)305からの操作入力を受け付け、CPU301に対して送信する。なお、図示していないが、KB305の他に、マウス等のポインティングデバイスもユーザの操作手段として本実施形態に係る稼働管理装置100に適用可能である。
DBMS101は、例えば、一次編集ツール107の要求に応じて、一処理当たりのSQL文の発行数やデータベースのバッファヒット率等、DBMS101の処理状態を示す膨大な量や種類の稼働状態データ(以下、DBMS処理状態データと称す)を出力する。一次編集ツール107は、ユーザに対してDBMS101の稼働状態を通知するためにDBMS101のベンダによって提供されたツールであり、当該ベンダによって設定された独自のタイミングでDBMS処理状態データ(1−1)104をDBMS101から取得し、RAM302に順次保存する。
次に、一次編集ツール107は、取得した各DBMS処理状態データ(1−1)104とDBMS101からの取得時間とを対応付けて管理する。
DBMS処理状態データは膨大であるが、図3は、DBMS処理状態データと取得時間とを対応付けて管理するためのテーブルを模式的に示すため、簡略化してある。このテーブルは、図1の110に相当する構成である。図3に示すテーブルでは、10分毎に、DBMS処理状態データの一つである一処理当たりのSQL文発行数を示すデータ(以下、SQL文発行数データと称す)が取得され、取得時間毎にSQL文発行数データを格納している。即ち、一次編集ツール107は、SQL文発行数データをRAM302から一旦読み込み、対応する取得時間を付与して、RAM302上における図3に示すテーブルに書き込む処理を行う。なお、図3に示すテーブルの格納場所は、RAM302に限らず、FD308やHD309等であってもよく、その格納場所は限定されない。
OLTP102は、例えば、一次編集ツール108の要求に応じて、アプリケーション毎のトランザクション数等、トランザクション処理の状態を示す膨大な量や種類の稼働状態データ(以下、トランザクション処理状態データと称す)を出力する。一次編集ツール108は、ユーザに対して当該OLTP102の稼働状態を通知するために当該OLTP102を提供するベンダによって提供されたツールであり、当該ベンダによって設定された独自のタイミングでトランザクション処理状態データ(2−1)105をOLTP102から取得し、RAM302に順次保存する。
次に、一次編集ツール108は、取得した各トランザクション処理状態データ(2−1)105とOLTP102からの取得時間とを対応付けて管理する。
トランザクション処理状態データは膨大であるが、図4は、トランザクション処理状態データと取得時間とを対応付けて管理するためのテーブルを模式的に示すため、簡略化してある。このテーブルは、図1の111に相当する構成である。図4に示すテーブルでは、15分毎に、トランザクション処理状態データの一つであるトランザクション数を示すデータ(以下、トランザクション数データと称す)が取得され、取得時間毎にトランザクション数データを格納している。即ち、一次編集ツール108は、トランザクション数データをRAM302から一旦読み込み、対応する取得時間を付与して、RAM302上における図4に示すテーブルに書き込む処理を行う。なお、図4に示すテーブルの格納場所は、RAM302に限らず、FD308やHD309等であってもよく、その格納場所には限定されない。
OS103は、例えば、一次編集ツール109の要求に応じて、例えば、CPU使用率やメモリ使用量等、稼働管理装置100のハードウェア構成の稼働状態や使用状態を示す膨大な量や種類の稼働状態データ(以下、ハードウェア状態データと称す)を出力する。一次編集ツール109は、ユーザに対して上記ハードウェア構成の状態を通知するためにOS103を提供するベンダによって提供されたツールであり、当該ベンダによって設定された独自のタイミングでハードウェア状態データ(3−1)106をOS103から取得し、RAM302に順次保存する。
次に、一次編集ツール109は、取得したハードウェア状態データ(3−1)106とOS103からの取得時間とを対応付けて管理する。
ハードウェア状態データは膨大であるが、図5は、ハードウェア状態データと取得時間とを対応付けて管理するためのテーブルを模式的に示すため、簡略化してある。このテーブルは、図1の112に相当する構成である。図5に示すテーブルでは、5分毎に、ハードウェア状態データの一つであるCPU使用率を示すデータ(以下、CPU使用率データと称す)が取得され、取得時間毎にCPU使用率データを格納している。即ち、一次編集ツール109は、CPU使用率データをRAM302から一旦読み込み、対応する取得時間を付与して、RAM302上における図5に示すテーブルに書き込む処理を行う。なお、図5に示すテーブルの格納場所は、RAM302に限らず、FD308やHD309等であってもよく、その格納場所は限定されない。
二次編集ツール113は、各取得時間に対応付けて、図3〜図5に示す各テーブルに格納されたSQL文発行数データ、トランザクション数データ及びCPU使用率データを管理する。二次編集ツール113の詳細については、図6を用いて以下に説明する。
図6は、SQL文発行数データ、トランザクション数データ及びCPU使用率データを各取得時間に対応付けて管理するためのテーブルを模式的に示す図である。このテーブルは、図1の114に相当する構成である。図6に示すテーブルは、RAM302内において保持され、図3〜図5に示す各テーブル内の全ての取得時間に対応付けて、該当するSQL文発行数データ、トランザクション数データ及びCPU使用率データのうちの一部又は全部の組み合わせを格納している。即ち、二次編集ツール113は、図3〜図5に示す各テーブルに格納される全ての取得時間を読み込み、図6に示すテーブル内の取得時間項目のフィールドに重複しないように書き込むとともに、図3〜図5に示す各テーブルからSQL文発行数データ、トランザクション数データ及びCPU使用率データを読み込み、各取得時間に対応付けて、該当するSQL文発行数データ、トランザクション数データ及びCPU使用率データのうちの一部又は全部の組み合わせを書き込んでいる。なお、図6に示すテーブルの格納場所は、RAM302に限らず、FD308やHD309等であってもよく、その格納場所は限定されない。
三次編集ツール115は、基準時間(ここでは、0時)から設定時間単位(ここでは、1時間単位)で、図6に示すテーブルにおける項目毎にデータの平均値を算出し、該当する時間帯(ここでは、0時台、1時台、2時台、・・・)に対応付けて管理するための処理を行う。なお、上記の基準時間及び設定時間単位の内容は、ユーザの操作によって入力される制御文116(図1)によって任意に設定可能である。
図7は、各項目の平均値の組み合わせを時間帯毎に管理するためのテーブルを模式的に示す図である。このテーブルは、図1の114に相当する構成である。図7に示すテーブルは、RAM302内において保持され、各時間帯に対応付けて、各項目の該当する平均値を格納している。例えば、8時台の時間帯には、図6に示す8:00〜8:55までのデータの平均値が項目毎に登録されている。即ち、三次元編集ツール115は、基準時間である0時から1時間単位で図6のテーブルからデータを項目毎に読み込み、その時間帯でのデータの平均値を求め、求めた平均値を該当する項目及び時間帯に対応付けて図7のテーブルに書き込む。
PC200内の四次編集ツール201は、稼働管理装置100から図7に示すテーブルのデータを読み込み、SQL文発行数の時間的な推移を示すグラフ、トランザクション数の時間的な推移を示すグラフ及びCPU使用率の時間的な推移を示すグラフを一票化して閲覧可能な表示画面情報(図1の202)を生成し、ディスプレイに表示させる。
図8は、四次編集ツール201によって生成される上記表示画面情報に基づく表示画面例を示す図である。図8において、CPU使用率の推移を示す棒グラフ801と、SQL文発行数及びトランザクション数の推移を示す折れ線グラフ802、803とが一票化されて表示されている。図8に示すように、各グラフ801〜803は、図7に示すテーブルのデータに基づいて表示されているため、1時間の時間帯毎に値(平均値)を持っている。
このように、本実施形態においては、例えば、夫々異なるベンダから提供されるツールによって取得されたデータであっても、CPU使用率、SQL文発行数及びトランザクション数の推移を示す3つのグラフを、時間軸を揃えて一票化して表示させることが可能である。従って、ユーザは、ハードウェア及びソフトウェアが異なるベンダのもので構成されるオープン系のサーバであっても、CPU使用率、SQL文発行数及びトランザクション数等の相関関係を加味したサーバの稼働状態の分析を容易に行うことが可能となる。
また、本実施形態においては、元々10分毎、15分毎、5分毎に取得したデータを、1時間単位で平均化して表示させるようにしているため、ユーザは、この表示画面を参照し、真の障害発見を容易に行うことが可能となる。以下、その理由について説明する。
図9は、時間の経過に対するCPU使用率の推移をグラフで示す図である。図9(a)は、偽の障害発見に陥りやすい従来のグラフ表示方法による表示画面の一例を示し、図9(b)は、偽の障害発見に陥りやすいグラフ表示方法に対処した本実施形態におけるグラフ表示方法による表示画面の一例を示している。本実施形態におけるグラフ表示方法とは、上述した、平均化処理を施したデータに基づいて行われるグラフ表示方法である。
図9(a)に示すグラフは、或る時間幅でCPU使用率の値がプロットされている。これは、同時間幅で保持されるCPU使用率データに従って作成されたグラフである。例えば、図6に示すように、短い時間幅(5分)毎に取得されるCPU使用率データを1対1でプロットし、作成したグラフがこれに相当する。
一方、図9(b)に示すグラフは、図9(a)の時間幅より長い時間幅でCPU使用率の値がプロットされたものである。これは、保持されているCPU使用率データの値を図9(a)の時間幅より長い一定の時間幅で平均化し、それらの平均値データに従って作成されたグラフである。例えば、5分毎に取得されるCPU使用率データの値を1時間単位で平均化した図7に示すようなテーブルを用いて、該当する時間帯に平均値データをプロットし、作成したグラフがこれに相当する。
図9(a)に示すグラフでは、例えば、或る時点に処理が大幅に集中し、それに伴ってCPU使用率も一時的に上昇し、所定の基準値を超える場合がある。従来であれば、グラフを参照したユーザは、このCPU使用率が基準値を超えたというだけで、障害が発生したと誤認識していた。しかし、実際は、これは一時的に処理が集中したことに伴い、CPU使用率も一時的に上昇しただけであって、自然な上昇と捉えるべきである。従って、このような状況は真の障害とは認められない。
これに対して、一定時間連続してCPU使用率が上昇した値をとる場合、一定時間に処理する件数は事前に見込まれてシステムが構築されているため、連続的にCPU使用率が基準値を超える状態を維持することは、例えば、アプリケーションプログラムに潜在的な不良が存在するか、処理内容の変更に起因したアプリケーションプログラムの異常等が生じていると判断することができる。
そこで、図9(b)の例では、一時的なCPU使用率の急激な上昇は無視できるように、ある時間幅でCPU使用率の値を平均化し、平均値をグラフ上で示すようにしている。これにより、障害発生に対する誤った認識を与え得る情報を除外し、真の障害発生と捉えることのできる情報のみを提示するグラフ表示が可能となる。
次に、一票化されたグラフから相関関係を加味してサーバの稼働状態を分析し、ユーザが障害の原因を発見する際の具体的な手法を図10を用いて説明する。図10(a)、(b)はともに、図9(b)と同様の処理で生成された表を示している。図10(a)は、ある期間のCPU使用率の平均値が基準値を超え、一旦異常が発生したと判断されたが、一票化した結果、正常な挙動を示していると判断されるケースを示している。一方、図10(b)は、ある期間のCPU使用率の平均値が基準値を超えることによって異常が発生したと判断され、一票化した結果、その判断が正しく、異常の原因まで特定できるケースを示している。
図10(a)の例においては、ある期間P1において、CPU使用率の平均値が他の期間と比べて非常に大きな値を示し、基準値を超えた場合であっても、期間P1における処理件数の平均値も通常より大幅に増加している。CPU使用率と処理件数の平均値を一票化したことにより、これは、処理件数の平均値の急激な増加に伴い、CPU使用率の平均値も高くなったことを意味している。従って、図10(a)の例は異常でないと判断することができる。
一方、図10(b)の例においては、ある期間P2において、CPU使用率の平均値が他の期間と比べて非常に大きな値を示し、基準値を超えているが、その一方で、処理件数は通常時と同じ程度である場合を示している。このような場合、例えば、アプリケーションプログラムに異常があるのではないかと着目することができる。この異常の原因を追求する場合、ユーザの操作によって該当する詳細ログデータを取得する指示を出したり、更に短い時間幅でのグラフ表示を行わせる。なお、グラフ表示の時間幅は、上述した制御文116によって任意に設定可能である。この短い時間幅でのグラフ表示を行うための詳細グラフ表示用データは、図1の203に対応する。ユーザは、詳細ログデータや短い時間幅でのグラフ表示を参照し、異常のあるアプリケーションプログラムを特定して、そのアプリケーションプログラムに潜在的な不良が存在するか、処理内容の変更に起因したアプリケーションプログラムの異常等が生じているか等を調査し、対策を実施することになる。
さらに、発生した異常の原因を特定する他の例としては、相関関係があると考えられる稼動状態データを一票化することで原因を追究する方法が挙げられる。例えば、ある期間のアプリケーションプログラムの異常値の原因を分析する場合、その期間におけるデータベースのバッファヒット率の平均値、当該期間におけるアプリケーションプログラムによる1件の処理当たりのSQL文発行回数の平均値、当該期間の処理件数の平均値に対するCPU使用率の平均値等、相関関係があると考えられうる稼動状態データを一票化し、相関関係を分析する。一票化したグラフから、アプリケーションプログラムの異常値と連動してデータベースのバッファヒット率が異常に低いことが分かった場合、データベースが非効率的にデータ参照を行っていると分析できる。従って、例えば、特定のSQL文が効率悪くデータを参照するコーディングになっていたという、上記アプリケーションプログラムの異常の真の原因を分析することができる。
<第2の実施形態>
次に、本発明の第2の実施形態について説明する。図11は、本発明の第2の実施形態に係る稼働管理装置300及び400の構成を示すとともに、それらの各構成間における処理の流れを示すブロック図である。なお、図11においては、図1と同じ構成のものは同じ符号を付してある。ここでは、第1の実施形態との相違点についてのみ説明する。
第1の実施形態と本実施形態との相違点は、第1の実施形態の稼働管理装置100が備えていた三次編集ツール115をPC200側、即ち本実施形態では稼働管理装置400側に移した点にある。つまり、本実施形態における稼働管理装置300は、二次編集ツール113を用いて、一次編集ツール107〜109による取得時間に対応付けて、各稼働状態データを管理するまでの処理を行う。一方、稼働管理装置400側では、二次編集ツール113による管理内容を入力し、三次編集ツール115を用いて、その管理内容に含まれる稼働状態データの平均化及び平均値の時間帯毎の対応付け処理を行う。なお、二次編集ツール113の管理内容の入力方法は、ネットワークを介した入力態様であってもよいし、ユーザがMDやFD等の記録媒体に二次編集ツール113の管理内容を一旦記録して、それを稼働管理装置400に装着して三次編集ツール115に読み取らせる方法であってもよい。
<第3の実施形態>
次に、本発明の第3の実施形態について説明する。図12は、本発明の第3の実施形態に係る稼働管理装置500及び600の構成を示すとともに、それらの各構成間における処理の流れを示すブロック図である。なお、図12においては、図1と同じ構成のものは同じ符号を付してある。ここでは、第1の実施形態との相違点についてのみ説明する。
第1の実施形態と本実施形態との相違点は、第1の実施形態の稼働管理装置100が備えていた二次編集ツール113及び三次編集ツール115をPC200側、即ち本実施形態では稼働管理装置600側に移した点にある。つまり、本実施形態における稼働管理装置600は、一次編集ツール107〜109を用いて、DBMS101、OLTP102及びOS103から夫々稼働状態データを取得するまでの処理を行う。一方、稼働管理装置600側では、一次編集ツール107〜109によって取得された各稼働状態データを入力し、二次編集ツール113を用いて一次編集ツール107〜109による取得時間に対応付けて各稼働状態データを管理し、次に、三次編集ツール115を用いてその管理内容に含まれる稼働状態データの平均化及び平均値の時間帯毎の対応付け処理を行う。なお、一次編集ツール107〜109によって取得された稼働状態データの入力方法は、ネットワークを介した入力態様であってもよいし、ユーザがUSBメモリ等の可搬型メモリやCD又はFD等の記録媒体に一次編集ツール107〜109が取得した稼働状態データを一旦記録して、それを稼働管理装置400に装着して二次編集ツール113に読み取らせる方法であってもよい。
以上のように、上述した第2及び第3の実施形態においては、第1の実施形態と共通の構成の配置位置を組み替えたものであるため、第1の実施形態と同様の効果を奏することは勿論である。
<第4の実施形態>
第1の実施形態では、稼働管理装置100とPC200とを分離した構成としているが、本発明の第4の実施形態として、稼働管理装置100とPC200とを一体化した稼働管理装置とすることも可能である。即ち、本実施形態によれば、稼働管理装置単体で、三次編集ツール115で管理される時間帯毎の稼働状態データの対応付けから、複数種類の稼働状態データを一票化したグラフ情報の生成、表示までを行うことが可能である。
更に、上述した実施形態によれば、以下の効果を奏する。上述した実施形態においては、オープン系サーバ等の稼働状態を正確に把握することが容易になる。従って、その把握した稼働状態を収集し、収集した稼働状態に基づいて、オープン系サーバの稼働に係る傾向管理にも役立てることができる。例えば、将来オープン系システムを構築する予定がある場合、既に10台のオープン系サーバによって構築されたシステムがあり、これら一台一台のサーバの傾向管理ができていれば、同じようなサービスを提供するシステムを構築する場合、次に構築するシステムにはサーバを10台設置する必要はない、更にサーバの台数を増やす必要がある、別のサーバを設置した方がよい、別のCPUを取り替えた方がよい等、システムの傾向の予測に活用することが可能となる。
この傾向予測は、オープン系システムからオープン系システムへの移行時やオープン系システムの増築等に限られない。例えば、あるメインフレームが提供しているサービスをオープン系システムで代用しており、そのオープン系システムの稼働状態の傾向管理が既にできていれば、同じサービスを提供するメインフレームの代用としてオープン系システムを新規に構築する場合等も同様に、新規に構築するオープン系システムの傾向予測に用いることが可能である。
なお、上述した実施形態では、一台のコンピュータから複数種類の稼働状態データ(SQL文発行数データ、トランザクション処理状態データ、ハードウェア状態データ)を取得する例を挙げたが、本発明は、これに限られず、複数台のコンピュータを対象に複数種類の稼働状態データを取得してもよい。例えば、本発明の第3の実施形態を例に挙げると、図12に示す稼働管理装置500が複数存在し、その複数の稼働管理装置500から二次編集ツール113が稼働状態データを取得することになる。
また、上述した実施形態においては、二次編集ツール113において取得時間と対応付けた各稼働状態データを、三次編集ツール115により平均化して各時間帯と対応付けているが、平均化処理に限らず、相乗平均、加重平均、中央値、最頻値等を求める演算を行い、その結果を各時間帯と対応付けるようにしてもよい。
本発明の第1の実施形態に係る稼働管理装置及びPCの構成を示すとともに、それらの各構成間における処理の流れを示すブロック図である。 稼働管理装置のハードウェア構成を示すブロック図である。 DBMS処理状態データと取得時間とを対応付けて管理するためのテーブルを模式的に示す図である。 トランザクション処理状態データと取得時間とを対応付けて管理するためのテーブルを模式的に示す図である。 ハードウェア状態データと取得時間とを対応付けて管理するためのテーブルを模式的に示す図である。 SQL文発行数データ、トランザクション数データ及びCPU使用率データを各取得時間に対応付けて管理するためのテーブルを模式的に示す図である。 各項目の平均値の組み合わせを時間帯毎に管理するためのテーブルを模式的に示す図である。 四次編集ツールによって生成される上記表示画面情報に基づく表示画面例を示す図である。 時間の経過に対するCPU使用率の推移をグラフで示す図である。 表示されたグラフからユーザが障害の原因を発見する際の具体的な手法を説明するための図である。 本発明の第2の実施形態に係る稼働管理装置の構成を示すとともに、それらの各構成間における処理の流れを示すブロック図である。 本発明の第3の実施形態に係る稼働管理装置の構成を示すとともに、それらの各構成間における処理の流れを示すブロック図である。
符号の説明
100、300、400、500、600:稼働管理装置
101:DBMS
102:OLTP
103:OS
104〜106:稼働状態データ
107〜109:一次編集ツール
110〜112、114、117:テーブル
113:二次編集ツール
115:三次編集ツール
116:制御文
200:PC
201:四次編集ツール
202:一覧表示用の表示画面情報
203:詳細グラフ表示用データ

Claims (14)

  1. 所定の設定時間単位で、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅と
    する時間帯に対応付けて該当する前記所定の演算処理の結果を管理する第1の管理手段を有することを特徴とする稼働管理装置。
  2. 複数の取得手段によって夫々取得された前記複数種類の稼働状態データを、前記各取得手段の取得時間に対応付けて管理する第2の管理手段を更に有することを特徴とする請求項1に記載の稼働管理装置。
  3. 複数の取得手段によって夫々取得された、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データを、前記各取得手段の取得時間に対応付けて管理する第3の管理手段の管理内容を入力する入力手段と、
    所定の設定時間単位で、前記第3の管理手段において管理される前記複数種類の稼働データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する第4の管理手段とを有することを特徴とする稼働管理装置。
  4. 前記所定の設定時間として任意の時間を設定可能な設定手段を更に有することを特徴とする請求項1乃至3の何れか1項に記載の稼働管理装置。
  5. 前記複数の取得手段は夫々、対象となる稼働状態データを任意のタイミングで取得することを特徴とする請求項2又は3に記載の稼働管理装置。
  6. 前記第1の管理手段における管理内容に基づいて、前記複数種類の稼働状態データの夫々に対する前記所定の演算処理の結果を各時間帯に対応付けて一票化して出力する出力手段を更に有することを特徴とする請求項1又は2に記載の稼働管理装置。
  7. 前記第4の管理手段における管理内容に基づいて、前記複数種類の稼働状態データの夫々に対する前記所定の演算処理の結果を各時間帯に対応付けて一票化して出力する出力手段を更に有することを特徴とする請求項3に記載の稼働管理装置。
  8. 複数の取得手段によって夫々取得された、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データを、前記各取得手段の取得時間に対応付けて管理する第1の管理手段と、所定の設定時間単位で、前記第1の管理手段において管理される前記複数種類の稼働データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する第2の管理手段とを有する稼働管理装置の前記第2の管理手段における管理内容に基づいて、前記複数種類の稼働状態データの平均値を各時間帯に対応付けて一票化して出力する出力手段を有することを特徴とする情報処理装置。
  9. 稼働管理装置の制御方法であって、
    所定の設定時間単位で、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する管理ステップを含むことを特徴とする稼働管理装置の制御方法。
  10. 稼働管理装置の制御方法であって、
    複数の取得手段によって夫々取得された、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データを、前記各取得手段の取得時間に対応付けて管理する管理手段の管理内容を入力する入力ステップと、
    所定の設定時間単位で、前記管理手段において管理される前記複数種類の稼働データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する管理ステップとを含むことを特徴とする稼働管理装置の制御方法。
  11. 情報処理装置の制御方法であって、
    複数の取得手段によって夫々取得された、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データを、前記各取得手段の取得時間に対応付けて管理する第1の管理手段と、所定の設定時間単位で、前記第1の管理手段において管理される前記複数種類の稼働データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する第2の管理手段とを有する稼働管理装置の前記第2の管理手段における管理内容に基づいて、前記複数種類の稼働状態データの平均値を各時間帯に対応付けて一票化して出力する出力ステップを含むことを特徴とする情報処理装置の制御方法。
  12. 稼働管理装置の制御方法をコンピュータに実行させるためのプログラムであって、
    所定の設定時間単位で、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する管理ステップをコンピュータに実行させるためのプログラム。
  13. 稼働管理装置の制御方法をコンピュータに実行させるためのプログラムであって、
    複数の取得手段によって夫々取得された、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データを、前記各取得手段の取得時間に対応付けて管理する管理手段の管理内容を入力する入力ステップと、
    所定の設定時間単位で、前記管理手段において管理される前記複数種類の稼働データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する管理ステップとをコンピュータに実行させるためのプログラム。
  14. 情報処理装置の制御方法をコンピュータに実行させるためのプログラムであって、
    複数の取得手段によって夫々取得された、少なくとも一つのコンピュータの稼働状態を示す複数種類の稼働状態データを、前記各取得手段の取得時間に対応付けて管理する第1の管理手段と、所定の設定時間単位で、前記第1の管理手段において管理される前記複数種類の稼働データの夫々に対して所定の演算処理を施し、前記所定の設定時間を時間幅とする時間帯に対応付けて該当する前記所定の演算処理の結果を管理する第2の管理手段とを有する稼働管理装置の前記第2の管理手段における管理内容に基づいて、前記複数種類の稼働状態データの平均値を各時間帯に対応付けて一票化して出力する出力ステップをコンピュータに実行させるためのプログラム。
JP2007024318A 2007-02-02 2007-02-02 稼働管理装置、情報処理装置、稼働管理装置の制御方法、情報処理装置の制御方法及びプログラム Pending JP2008191849A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007024318A JP2008191849A (ja) 2007-02-02 2007-02-02 稼働管理装置、情報処理装置、稼働管理装置の制御方法、情報処理装置の制御方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007024318A JP2008191849A (ja) 2007-02-02 2007-02-02 稼働管理装置、情報処理装置、稼働管理装置の制御方法、情報処理装置の制御方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2008191849A true JP2008191849A (ja) 2008-08-21

Family

ID=39751904

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007024318A Pending JP2008191849A (ja) 2007-02-02 2007-02-02 稼働管理装置、情報処理装置、稼働管理装置の制御方法、情報処理装置の制御方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2008191849A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010032701A1 (ja) * 2008-09-18 2010-03-25 日本電気株式会社 運用管理装置、運用管理方法、および運用管理プログラム
JP2011065269A (ja) * 2009-09-15 2011-03-31 Toshiba Corp 時系列データ解析支援プログラム及び装置
JP2013525885A (ja) * 2010-04-16 2013-06-20 インターナショナル・ビジネス・マシーンズ・コーポレーション アプリケーションの無進行状態の検出
WO2017134758A1 (ja) * 2016-02-03 2017-08-10 株式会社日立製作所 管理計算機及び管理対象計算機の管理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05158876A (ja) * 1991-12-06 1993-06-25 Hitachi Ltd 評価データ蓄積・収集および出力システム
JPH09274596A (ja) * 1996-04-08 1997-10-21 Nri & Ncc Co Ltd 分散処理システムにおける稼働情報自動取得通知方法
JPH09293004A (ja) * 1996-04-26 1997-11-11 Hitachi Ltd 稼働評価システム
JP2000347905A (ja) * 1999-06-08 2000-12-15 Nec Software Kobe Ltd Cpu使用率算出方式、cpu使用率算出方法およびcpu使用率算出用プログラムを記録した記録媒体
JP2003271557A (ja) * 2002-03-18 2003-09-26 Fujitsu Ltd 障害情報分析方法
JP2006079488A (ja) * 2004-09-13 2006-03-23 Mitsubishi Electric Corp データ収集装置、データ収集システム及びデータ収集方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05158876A (ja) * 1991-12-06 1993-06-25 Hitachi Ltd 評価データ蓄積・収集および出力システム
JPH09274596A (ja) * 1996-04-08 1997-10-21 Nri & Ncc Co Ltd 分散処理システムにおける稼働情報自動取得通知方法
JPH09293004A (ja) * 1996-04-26 1997-11-11 Hitachi Ltd 稼働評価システム
JP2000347905A (ja) * 1999-06-08 2000-12-15 Nec Software Kobe Ltd Cpu使用率算出方式、cpu使用率算出方法およびcpu使用率算出用プログラムを記録した記録媒体
JP2003271557A (ja) * 2002-03-18 2003-09-26 Fujitsu Ltd 障害情報分析方法
JP2006079488A (ja) * 2004-09-13 2006-03-23 Mitsubishi Electric Corp データ収集装置、データ収集システム及びデータ収集方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010032701A1 (ja) * 2008-09-18 2010-03-25 日本電気株式会社 運用管理装置、運用管理方法、および運用管理プログラム
US8700953B2 (en) 2008-09-18 2014-04-15 Nec Corporation Operation management device, operation management method, and operation management program
JP2011065269A (ja) * 2009-09-15 2011-03-31 Toshiba Corp 時系列データ解析支援プログラム及び装置
JP2013525885A (ja) * 2010-04-16 2013-06-20 インターナショナル・ビジネス・マシーンズ・コーポレーション アプリケーションの無進行状態の検出
WO2017134758A1 (ja) * 2016-02-03 2017-08-10 株式会社日立製作所 管理計算機及び管理対象計算機の管理方法
US10909016B2 (en) 2016-02-03 2021-02-02 Hitachi, Ltd. Management computer and method of managing computer to be managed

Similar Documents

Publication Publication Date Title
US9424157B2 (en) Early detection of failing computers
JP4756675B2 (ja) コンピュータ資源のキャパシティを予測するためのシステム、方法およびプログラム
US20170097863A1 (en) Detection method and information processing device
US10868744B2 (en) Influence range identification method and influence range identification apparatus
WO2010061735A1 (ja) 検出イベントに応じたアクション実行を支援するシステム、検出イベントに応じたアクション実行を支援する方法、支援装置及びコンピュータプログラム
US9852007B2 (en) System management method, management computer, and non-transitory computer-readable storage medium
TWI327694B (en) Method and apparatus for extending dispersion frame technique using dynamic rule sets, and computer readable medium related instructions
JP2007207117A (ja) 性能監視装置、性能監視方法及びプログラム
JP2018147280A (ja) データ分析装置及びデータ分析方法
US7823029B2 (en) Failure recognition, notification, and prevention for learning and self-healing capabilities in a monitored system
JP2008191849A (ja) 稼働管理装置、情報処理装置、稼働管理装置の制御方法、情報処理装置の制御方法及びプログラム
JP2008158889A (ja) トラブル要因検出プログラム、トラブル要因検出方法およびトラブル要因検出装置
US20190129781A1 (en) Event investigation assist method and event investigation assist device
JPWO2020202433A1 (ja) 情報処理装置およびapi使用履歴表示プログラム
US20130318499A1 (en) Test script generation
JP6276668B2 (ja) 障害分析システム
Chang et al. Monitoring the software development process using a short-run control chart
WO2018042646A1 (ja) 分析システム及び分析方法
JP5077427B2 (ja) 対策選択プログラム、対策選択装置および対策選択方法
JP5967091B2 (ja) システムパラメータ設定支援システム、システムパラメータ設定支援装置のデータ処理方法、およびプログラム
WO2014054233A1 (ja) 情報システムの性能評価装置、方法およびプログラム
JP2009266031A (ja) 計算機システム及び計算機
JP5679347B2 (ja) 障害検知装置、障害検知方法、及びプログラム
JP6547341B2 (ja) 情報処理装置、方法及びプログラム
JP2010122133A (ja) 故障箇所特定システム、故障箇所特定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110613

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110705