JP2011198262A - 計算機システムにおけるシステム管理方法、及び管理システム - Google Patents

計算機システムにおけるシステム管理方法、及び管理システム Download PDF

Info

Publication number
JP2011198262A
JP2011198262A JP2010066546A JP2010066546A JP2011198262A JP 2011198262 A JP2011198262 A JP 2011198262A JP 2010066546 A JP2010066546 A JP 2010066546A JP 2010066546 A JP2010066546 A JP 2010066546A JP 2011198262 A JP2011198262 A JP 2011198262A
Authority
JP
Japan
Prior art keywords
event
threshold value
threshold
management table
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010066546A
Other languages
English (en)
Other versions
JP5222876B2 (ja
Inventor
Takayuki Nagai
崇之 永井
Masa Kunii
雅 國井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010066546A priority Critical patent/JP5222876B2/ja
Priority to US12/812,708 priority patent/US8554906B2/en
Priority to PCT/JP2010/057894 priority patent/WO2011118051A1/ja
Publication of JP2011198262A publication Critical patent/JP2011198262A/ja
Application granted granted Critical
Publication of JP5222876B2 publication Critical patent/JP5222876B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3485Performance evaluation by tracing or monitoring for I/O devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0605Improving or facilitating administration, e.g. storage management by facilitating the interaction with a user or administrator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】システムを構成する各装置の構成部品に対して適切な閾値の設定を可能にする。
【解決手段】管理ソフトウェアを用いて、管理対象機器に対し事前に性能監視のための閾値を設定し、性能取得値が閾値を超過した場合は性能障害イベントとして感知する。また、管理ソフトウェアは、管理機器における性能障害イベント相互間の因果関係を示す相関解析ルールを持つ。管理ソフトはイベントを検知した場合に障害原因解析処理を実施し、受信した複数のイベントの中から障害原因装置と、その障害により影響を受けた装置(影響装置)を特定する。
【選択図】図1

Description

本発明は、計算機システムにおけるシステム管理方法、及び管理システムに関し、例えば、ホストコンピュータ、ネットワークスイッチ、ストレージを含むシステムを管理するための技術に関するものである。
計算機システムを管理するソフトウェアにおいて、例えば特許文献1に示されるように、検知した複数の障害もしくはその兆候の中から、原因となる事象を検出することが行われている。より具体的には特許文献1の管理ソフトは、管理下機器における性能値の閾値超過をイベント化し、イベントDBに情報を蓄積する。また、この管理ソフトは、管理下機器において発生した複数の障害イベントの因果関係を解析するための解析エンジンを持っている。解析エンジンは、管理下機器のインベントリ情報を持つ構成DBにアクセスして、I/O系路上のパス上にある機器内構成要素を認識し、ホスト上の論理ボリュームの性能に影響を与えうる構成要素を「トポロジ」と呼ばれる一グループとして認識する。そして、この解析エンジンは、イベントが発生すると各トポロジに対し、事前に定められた条件文と解析結果からなる解析ルールを適用して展開ルールを構築する。展開ルールには、他装置における性能低下の原因である原因イベントと、それによって引き起こされている関連イベント群が含まれる。具体的には、ルールのTHEN部に障害の根本原因として記載されているイベントが原因イベント、IF部に記載されているイベントのうち原因イベント以外のものが関連イベントである。
一方で、性能障害を管理する技術としては特許文献2及び特許文献3の技術がある。
特許文献2は、所定のアプリケーションが実装された上位装置と、アプリケーションが使用する記憶領域を提供するストレージ装置と、上位装置及びストレージ装置間においてデータを通信するホストサーバと、を有する記憶システムを管理する技術を開示する。この特許文献2においては、あるストレージ装置内の記憶領域を参照しているホストコンピュータ群を、ストレージ装置とホストコンピュータ間のマッピング情報から検索して検出し、そのホストコンピュータ群の性能データのみに絞り込んだI/O競合のレポートを作成してシステム管理者に提示することで、ストレージ装置内のリソース上でI/Oの競合を引き起こしているホストコンピュータ群や性能のボトルネックとなっている部品の特定を容易にしている。
特許文献3は、所定のアプリケーションが実装された上位装置と、アプリケーションが使用する記憶領域を提供するストレージ装置と、上位装置及びストレージ装置間においてデータを通信するホストサーバと、を有する記憶システムを管理する技術を開示する。この特許文献3においては、ホストサーバ及びストレージ装置間のデータ経路上に存在する各性能情報収集対象の現在の性能値を収集し、アプリケーションについて予め設定された目標性能値と、アプリケーションの現在の性能値とに基づいて、性能問題の発生の有無を判定する。そして、各性能情報収集対象の現在の性能値と、性能問題発生の有無の判定結果とに基づいて、各性能情報収集対象の性能値の閾値を設定している。
米国特許7107185号公報 特開2005−62941号公報 特開2007−328396号公報
特許文献2においては、システム性能管理ソフトにおける性能監視のための閾値を付与する際、必ずしも部品本来の性能を加味していない。部品本来の性能を考慮せずに閾値を設定すると、性能障害が発生してしないにも拘わらず警告が生成される、もしくは逆に性能障害が発生しても警告が生成されないといった事態が発生し、管理者を混乱させる可能性がある。このような事態を防ぐための対策としては、ユーザが管理対象機器固有の性能に即した閾値を算出し付与すればよい。
しかしながら、ユーザにとって、業務ホスト上論理ボリュームといったFront Endに位置する構成要素の性能要求は見積もりやすいが、Back Endに位置するストレージ・スイッチ等の性能要件の見積もりを行うことは難しい。
特許文献3においては、ホストサーバ及びストレージ装置間のデータ経路上に存在する各性能情報収集対象の現在の性能値を収集し、アプリケーションについて予め設定された目標性能値と、アプリケーションの現在の性能値とに基づいて、性能問題の発生の有無を判定し、各性能情報収集対象の現在の性能値と、性能問題発生の有無の判定結果とに基づいて、各性能情報収集対象の性能値の閾値を設定する技術について述べられている。
しかし、特許文献2及び3に開示の閾値に基づく性能障害管理技術は、特許文献1に開示されるようなルールに基いた原因事象を特定する管理ソフトウェアに適用する事が容易にできない。
本発明はこのような状況に鑑みてなされたものであり、システムを構成する各装置の構成部品に対して適切な閾値の設定を可能にする技術を提供するものである。
上記課題を解決するために、本発明では、管理ソフトウェアを用いて、管理対象機器に対し事前に性能監視のための閾値を設定し、性能取得値が閾値を超過した場合は性能障害イベントとして感知する。また、管理ソフトウェアは、管理機器における性能障害イベント相互間の因果関係を示す相関解析ルールを持つ。管理ソフトはイベントを検知した場合に障害原因解析処理を実施し、受信した複数のイベントの中から障害原因装置と、その障害により影響を受けた装置(影響装置)を特定する。
また、本発明におけるシステム管理ソフトウェアは、閾値を部品の性能キャパシティに合致したものとするための閾値再計算機能を持つ。閾値再計算機能は、上記障害原因解析において影響装置の特定がなされなかった場合、その障害原因装置と類推される機器の閾値をより厳しくする方向で補正する。また、閾値再計算機能は、上記障害原因解析において障害要因装置の特定がなされなかった場合、その障害原因装置と類推される機器の閾値を緩和する方向で補正する。
さらなる本発明の特徴は、以下本発明を実施するための形態および添付図面によって明らかになるものである。
本発明によれば、システム管理ソフトウェア管理下の機器に対し付与した性能管理のための閾値が、機器本来の性能キャパシティに合致したものとなり、結果として管理ソフトが管理者に対し、正確に性能障害警告を行うことができる。
本発明における計算機システムの物理的概略構成例を示す図である。 本発明におけるホストコンピュータの詳細な構成例を示す図である。 本発明におけるストレージ装置の詳細な構成例を示す図である。 本発明における管理サーバの詳細な構成例を示す図である。 本発明において、例えばホストコンピュータ1が有する論理ボリューム管理表の構成例を示す図である。 本発明において、例えばホストコンピュータ2が有する論理ボリューム管理表の構成例を示す図である。 本発明において、例えばホストコンピュータ3が有する論理ボリューム管理表の構成例を示す図である。 本発明において、例えばホストコンピュータ1が有するiSCSIイニシエータ管理表の構成例を示す図である。 本発明において、例えばホストコンピュータ2が有するiSCSIイニシエータ管理表の構成例を示す図である。 本発明において、例えばホストコンピュータ3が有するiSCSIイニシエータ管理表の構成例を示す図である。 本発明においてストレージ装置が有するボリューム管理表の構成例を示す図である。 本発明においてストレージ装置が有するiSCSIターゲット管理表の構成例を示す図である。 本発明においてストレージ装置が有するI/Oポート管理表の構成例を示す図である。 本発明においてストレージが有するコントローラ管理表の構成例を示す図である。 本発明において管理サーバが有する装置性能管理表の構成例を示す図である。 本発明において管理サーバが有するボリュームトポロジ管理表の構成例を示す図である。 本発明において管理サーバが有するイベント管理表の構成例を示す図である。 本発明において管理サーバが有する汎用ルールの構成例(1)を示す図である。 本発明において管理サーバが有する汎用ルールの構成例(2)を示す図である。 本発明において管理サーバが有する展開ルールの構成例(1)を示す図である。 本発明において管理サーバが有する展開ルールの構成例(2)を示す図である。 本発明において管理サーバが有する展開ルールの構成例(3)を示す図である。 本発明において管理サーバが有する展開ルールの構成例(4)を示す図である。 管理サーバが実行する通常の性能情報取得処理の全体を説明するためのフローチャートである。 管理サーバが実行する通常の障害解析処理の全体を説明するためのフローチャートである。 本発明において管理サーバが有する解析結果管理表の構成例を示す図である。 本発明において管理サーバが有する閾値補正優先度管理表の構成例を示す図である。 本発明において管理サーバが有する閾値補正割合管理表の構成例を示す図である。 本発明の第1の実施形態において、管理サーバが実行する、改良された障害解析処理の全体を説明するためのフローチャートである。 第1の実施形態において、管理サーバが実行する閾値緩和処理の全体を説明するためのフローチャートである。 管理サーバが表示する閾値修正画面の構成例を示す図である。 本発明の第1の実施形態において、管理サーバが実行する閾値厳格化処理の全体を説明するためのフローチャートである。 本発明による第2の実施形態において、管理サーバが実行する測定値ベース閾値による閾値再設定処理の全体を説明するためのフローチャート(1)である 本発明による第2の実施形態において、管理サーバが実行する測定値ベース閾値による閾値再設定処理の全体を説明するためのフローチャート(2)である 本発明の第3の実施形態において、管理サーバが有する解析結果管理表の構成例を示す図である。 第3の実施形態において、管理サーバが実行する解析結果管理表構築処理の全体を説明するためのフローチャートである
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。
なお、本明細書では「aaa表」という表現によって本発明で用いられる情報について説明しているが、「aaaテーブル」、「aaaリスト」、「aaaDB」、「aaaキュー」等の表現や、テーブル、リスト、DB、キュー、等のデータ構造以外で表現されていてもよい。このため、本発明で用いられる情報が、データ構造に依存しないことを示すために、「aaaテーブル」、「aaaリスト」、「aaaDB」、「aaaキュー」等について「aaa情報」と呼ぶことがある。
また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いるが、これらについてはお互いに置換が可能である。
さらに、以後の本発明の処理動作の説明では、「プログラム」や「モジュール」を動作主体(主語)として説明を行う場合があるが、プログラムやモジュールは、プロセッサによって実行されることで、定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、プロセッサを動作主体(主語)とした処理に読み替えても良い。また、プログラムやモジュールを主語として開示された処理は、管理サーバ等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部または全ては専用ハードウェアによって実現されてもよい。また、各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。
(1)第1の実施形態
第1の実施形態は、管理ソフトウェアによる閾値緩和処理及び閾値厳格化処理に関するものである。
<システム構成>
図1は、本発明による計算機システムの物理的構成を示す図である。当該計算機システムは、ストレージ装置20000と、ホストコンピュータ10000と、管理サーバ30000と、WEBブラウザ起動サーバ35000と、IPスイッチ40000と、を有し、それらが、ネットワーク45000によって接続される構成となっている。
ホストコンピュータ10000乃至10010は、例えば、それらに接続された、図示しないクライアントコンピュータからファイルのI/O要求を受信し、それに基づいてストレージ装置20000乃至20010へのアクセスを実現する。また、管理サーバ(管理計算機)30000は、当該計算機システム全体の運用を管理するものである。
WEBブラウザ起動サーバ35000は、ネットワーク45000を介して、管理サーバ30000のGUI表示処理モジュール33400と通信し、WEBブラウザ上に各種情報を表示する。ユーザはWEBブラウザ起動サーバ上のWEBブラウザに表示された情報を参照することで、計算機システム内の装置を管理する。ただし、管理サーバ30000と、WEBブラウザ起動サーバ35000は1台のサーバから構成されていてもよい。
<ホストコンピュータの内部構成>
図2は、本発明によるホストコンピュータ10000の詳細な内部構成例を示す図である。ホストコンピュータ10000は、ネットワーク45000に接続するためのポート11000と、プロセッサ12000と、メモリ13000(ディスク装置を含んでも良い)と、を有し、これらは内部バス等の回路を介して相互に接続される構成となっている。
メモリ13000には、業務アプリケーション13100と、オペレーティングシステム13200と、論理ボリューム管理表13300と、iSCSIイニシエータ管理表13400が格納されている。
業務アプリケーション13100は、オペレーティングシステム13200から提供された記憶領域を使用し、当該記憶領域に対しデータ入出力(以下、I/Oと表記)を行う。
オペレーティングシステム13200は、ネットワーク45000を介してホストコンピュータ10000に接続されたストレージ装置20000乃至20010上の論理ボリュームを記憶領域として業務アプリケーション13100に認識させるための処理を実行する。
ポート11000は、ストレージ装置20000とiSCSIにより通信を行うためのI/Oポートと、管理サーバ30000がホストコンピュータ内の管理情報を取得するための管理ポートを含む単一のポートとして図2で表現されているが、iSCSIにより通信を行うためのI/Oポートと管理ポートに分かれていてもよい。
なお、論理ボリューム管理表13300及びiSCSIイニシエータ管理表13400については後述する(図5及び6参照)。
<ストレージ装置の内部構成>
図3は、本発明によるストレージ装置20000の詳細な内部構成例を示す図である。ストレージ装置20010も同様の構成を有している。
ストレージ装置20000は、ネットワーク45000を介してホストコンピュータ10000に接続するためのI/Oポート21000及び21010と、ネットワーク45000を介して管理サーバ30000に接続するための管理ポート21100と、各種管理情報を格納するための管理メモリ23000と、データを格納するためのRAIDグループ24000乃至24010と、データや管理メモリ内の管理情報を制御するためのコントローラ25000及び25010と、を有し、これらが内部バス等の回路を介して相互に接続される構成となっている。なお、RAIDグループ24000乃至24010の接続とは、より正確にはRAIDグループ24000乃至24010を構成する記憶デバイスが他の構成物と接続されていることを指す。
管理メモリ23000には、ストレージ装置の管理プログラム23100と、ボリューム管理表23200と、iSCSIターゲット管理表23300と、ボリューム管理表23400と、コントローラ管理表23500が格納される。
RAIDグループ24000乃至24010は、それぞれ、1つまたは複数の磁気ディスク24200、24210、24220、及び24230によって構成されている。複数の磁気ディスクによって構成されている場合、それらの磁気ディスクはRAID構成を組んでいてもよい。また、RAIDグループ24000乃至24010は、論理的に複数のボリューム24100乃至24110に分割されている。
なお、論理ボリューム24100及び24110は、1つ以上の磁気ディスクの記憶領域を用いて構成されるのであれば、RAID構成を組まなくてもよい。さらに、論理ボリュームに対応する記憶領域を提供するのであれば、磁気ディスクの代わりとしてフラッシュメモリなど他の記憶媒体を用いた記憶デバイスでも良いものとする。
コントローラ25000及び25010は、その内部に、ストレージ装置20000内の制御を行うプロセッサや、ホストコンピュータ10000との間でやりとりするデータを一時的に記憶するキャッシュメモリを持っている。そして、それぞれのコントローラは、I/OポートとRAIDグループの間に介在し、両者の間でデータの受け渡しを行う。
なお、ストレージ装置20000は、何れかのホストコンピュータに対して論理ボリュームを提供し、アクセス要求(I/O要求を指す)を受信し、受信したアクセス要求に応じて記憶デバイスへの読み書きを行うストレージコントローラと、記憶領域を提供する前述の記憶デバイスを含めば、図3及び上記説明以外の構成でもよく、例えば、ストレージコントローラと記憶領域を提供する記憶デバイスが別な筐体に格納されていてもよい。即ち、図3の例では管理メモリ23000と、コントローラ25000及び25110と、がストレージコントローラであってもよい。また、本明細書ではストレージコントローラと記憶デバイスが同じ筐体に存在する場合または別な筐体を含む表現として、ストレージ装置をストレージシステムと呼び変えても良い。
<管理サーバの内部構成>
図4は、本発明による管理サーバ30000の詳細な内部構成例を示す図である。管理サーバ30000は、ネットワーク45000に接続するための管理ポート31000と、プロセッサ31100と、取得情報リポジトリ32000と、記憶領域33000と、後述する処理結果を出力するためのディスプレイ装置等の出力デバイス31200と、ストレージ管理者が指示を入力するためのキーボード等の入力デバイス31300とを有し、これらが内部バス等の回路を介して相互に接続される構成となっている。
記憶領域33000には、プログラム制御モジュール33100と、構成管理情報取得モジュール33200と、装置性能取得モジュール33300と、GUI表示処理モジュール33400と、イベント解析処理モジュール33500と、ルール展開モジュール33600と、イベント管理表33700と、汎用ルールリポジトリ33800と、展開ルールリポジトリ33900と、解析結果管理表34000と、閾値補正優先度管理表34100と、閾値補正割合管理表34200と、取得情報リポジトリ32000と、が格納されている。なお、記憶領域33000は、半導体メモリまたは磁気ディスクのいずれか、もしくは半導体メモリおよび磁気ディスク両方から構成される。また、図4においては、各モジュールは、記憶領域33000のソフトウェアモジュールとして提供されているが、ハードウェアモジュールとして提供されるものであっても良い。また、各モジュールが行う処理が一つ以上のプログラムコードとして提供されても良く、モジュール間の明確な境界が存在しなくても良い。
取得情報リポジトリ32000には、装置性能管理表32100と、ボリュームトポロジ管理表32200が格納されている。
GUI表示処理モジュール33400は、入力デバイス31300を介した管理者からの要求に応じ、取得した構成管理情報を、出力デバイス31200を介して表示する。なお、入力デバイスと出力デバイスは別々なデバイスでもよく、一つ以上のまとまったデバイスでもよい。
なお、管理サーバ(管理計算機)は、例えば、入出力デバイスとして、ディスプレイとキーボードとポインタデバイス等を有しているが、これ以外の装置であってもよい。また、入出力デバイスの代替としてシリアルインターフェースやイーサーネットインターフェースを用い、当該インターフェースにディスプレイ又はキーボード又はポインタデバイスを有する表示用計算機を接続し、表示用情報を表示用計算機に送信したり、入力用情報を表示用計算機から受信することで、表示用計算機で表示を行ったり、入力を受け付けることで入出力デバイスでの入力及び表示を代替してもよい。
本明細書では、計算機システム(情報処理システム)を管理し、表示用情報を表示する一つ以上の計算機の集合を管理システムと呼ぶことがある。管理サーバが表示用情報を表示する場合は、管理サーバが管理システムであり、また、管理サーバと表示用計算機(例えば図1のWEBブラウザ起動サーバ35000)の組み合わせも管理システムである。また、管理処理の高速化や高信頼化のために複数の計算機で管理サーバと同等の処理を実現してもよく、この場合は当該複数の計算機(表示を表示用計算機が行う場合は表示用計算機も含め)が管理システムである。
<論理ボリューム管理表の構成>
図5A乃至Cは、ホストコンピュータ10000が有する論理ボリューム管理表13300の構成例を示す図である。図5A乃至Cに示されるように、この論理ボリューム管理表13300は、例えば、ホストコンピュータが複数ある場合にはホストコンピュータ毎に設けられ、それぞれ管理できるようになっている。
論理ボリューム管理表13300は、ホストコンピュータ内で各論理ボリュームの識別子となるドライブ名を登録するフィールド13310と、論理ボリュームの実体が存在するストレージ装置との通信の際に用いるホストコンピュータ上のI/Oポート11000の識別子となるiSCSIイニシエータ名を登録するフィールド13320と、論理ボリュームの実体が存在するストレージ装置との通信の際に用いるストレージ装置上のI/Oポート21000の識別子となる接続先iSCSIターゲットを登録するフィールド13330と、ストレージ装置において論理ボリュームの識別子となるLUN IDを登録するフィールド13340と、ホストコンピュータの業務アプリケーション13200から各論理ボリューム(ドライブ)へのI/Oの際の応答時間であるレスポンスタイム(現時点での瞬時的な値)を格納するためのフィールド13350と、を構成項目として含んでいる。
例えば、図5Aからは、ホストコンピュータ上で(E:)というドライブ名で示される論理ボリュームが、com.hitachi.sv1というiSCSIイニシエータ名で示されるホストコンピュータ上のポートと、com.hitachi.sto1というiSCSIターゲット名で示されるストレージ装置上のポートを介してストレージ装置と接続しており、0というLUN IDをストレージ装置上で持ち、現時点でのレスポンスタイムが5msecであったということが分かる。
<iSCSIイニシエータ管理表の構成>
図6A乃至Cは、ホストコンピュータ10000が有するiSCSIイニシエータ管理表13400の構成例を示す図である。iSCSIイニシエータも、ホストコンピュータが複数ある場合には、ホストコンピュータ毎に管理されている。
iSCSIイニシエータ管理表13400は、ホストコンピュータ10000内で各ポート11000の識別子となるポートIDを登録するフィールド13410と、ポートのネットワーク45000上での識別子となるMACアドレスを登録するためのフィールド13420と、iSCSIイニシエータ名を登録するフィールド13430と、を構成項目として含んでいる。
例えば、図6Aからは、ホストコンピュータ上のポートLAN1は、11:11:11:11:11:11というMACアドレスを持ち、com.hitachi.sv1というiSCSIイニシエータ名を持っていることが分かる。
<ボリューム管理表の構成>
図7は、ストレージ装置20000が有するボリューム管理表23200の構成例を示す。各ストレージ装置が同様のボリューム管理表を有している。
ボリューム管理表23200は、ストレージ装置内で各ボリュームの識別子となるボリュームIDを登録するフィールド23210と、各ボリュームの容量を登録するフィールド23220と、各ボリュームが所属するiSCSIターゲットの識別子となるターゲットIDを登録するフィールド23230と、各ボリュームのiSCSIターゲット内での識別子となるLUN IDを登録するフィールド23240と、各ボリュームへのI/Oの際の応答時間であるレスポンスタイムを格納するためのフィールド23250と、を構成項目として含んでいる。
例えば、図7の第1行目(1つ目のエントリ)からは、ストレージ装置20000上のボリュームVOL1は、20GBの記憶領域を持ち、TG1というiSCSIターゲットIDで示されるiSCSIターゲットに属し、0というLUN IDを持ち、現時点でのレスポンスタイムが5msecであったことが分かる。
<iSCSIターゲット管理表の構成>
図8は、ストレージ装置20000の有するiSCSIターゲット管理表23300の構成例を示す図である。iSCSIターゲット管理表23300は、ストレージ装置内でiSCSIターゲットの識別子となるターゲットIDを登録するフィールド23310と、各iSCSIターゲットが持つiSCSIターゲット名を登録するフィールド23320と、各iSCSIターゲットに属するボリュームに対しアクセスが許可されたホストコンピュータ上のポートの識別子となるiSCSIイニシエータ名を登録するフィールド23330と、を構成項目として含んでいる。
例えば、図8の第1行目(1つ目のエントリ)からは、ストレージ装置上のiSCSIターゲットTG1は、com.hitachi.sto1というiSCSIターゲット名を持ち、iSCSIイニシエータ名がcom.hitachi.sv1(例えば、ホストコンピュータ1に相当)もしくはcom.hitachi.sv11(例えば、ホストコンピュータ11に相当)であるホストコンピュータ上のポートからのアクセスを許可していることが分かる。
<I/Oポート管理表の構成>
図9は、ストレージ装置20000が有するI/Oポート管理表23400の構成例を示す図である。
I/Oポート管理表23400は、ストレージ装置内で各ポートの識別子となるポートIDを登録するフィールド23410と、ポートのネットワーク45000上での識別子となるMACアドレスを登録するためのフィールド23420と、ポートを使用するiSCSIターゲットの識別子となるターゲットIDを登録するフィールド23430と、各ポートの単位時間当たりのI/O量を格納するためのフィールド23440と、を構成項目として含んでいる。
例えば、図9の第1行目(1つ目のエントリ)からは、ストレージ装置上のポートPORT1が、22:22:22:22:22:11というMACアドレスを持ち、TG1(VOL1、2に対応)、TG2(VOL3、4に対応)というiSCSIターゲットIDで示されるiSCSIターゲットによって使用されていて、単位時間当たりのI/O量は300IOPSであることが分かる。TG1やTG2にアクセスする場合には、PORT1が用いられる。
<コントローラ管理表の構成>
図10は、ストレージ装置20000が有するコントローラ管理表23500の構成例を示す図である。
コントローラ管理表23500は、ストレージ内で各コントローラの識別子となるコントローラIDを登録するフィールド23510と、コントローラと接続するポートの識別子となるポートIDを登録するためのフィールド23520と、コントローラ内のプロセッサの稼働率を登録するためのフィールド23530と、を構成項目として含んでいる。
例えば、図10の第1行目(1つ目のエントリ)からは、ストレージ上のコントローラCTL1が、ポートPORT1と接続しており、現時点でのプロセッサの稼働率が60%であることが分かる。
<装置性能管理表の構成>
図11は、管理サーバ30000が有する装置性能管理表32100の構成例を示す図である。
装置性能管理表32100は、管理対象となる機器の識別子となる装置IDを登録するフィールド32110と、管理対象機器内部のデバイスの識別子であるデバイスIDを登録するフィールド32120と、管理対象デバイスの性能情報のメトリック名称を格納するフィールド32130と、管理対象デバイスの性能値を該当装置から取得して格納するフィールド32140と、管理対象デバイスの性能値の正常範囲の上限もしくは下限である閾値(アラート実行閾値)を、ユーザからの入力を受けて格納するフィールド32150と、閾値(測定値ベース閾値)をイベント解析処理モジュール33500からの入力を受けて格納するフィールド32160と、閾値が正常値の上限であるのか下限であるのかを登録するためのフィールド32170と、性能値が正常値であるか異常値であるかを登録するためのフィールド32180と、を構成項目として含んでいる。なお、フィールド32160は、第2の実施形態で用いられる項目であるため、その詳細については後述する。
例えば、図11の第1行目(1つ目のエントリ)からは、ストレージ装置SYS1内のコントローラCTL1におけるプロセッサの稼働率が現時点で40%(32140参照)であり、また、CTL1の稼働率が20%を超えた場合(32150参照)、管理サーバはコントローラCTL1が過負荷であるものと判断するが、当該具体例では本性能値が異常値であると判断されている(32180参照)ことが分かる。
なお、ここでは管理サーバが管理するデバイスの性能値として単位時間当たりのI/O量や動作率を例として挙げたが、管理サーバが管理する性能値はこれ以外でも良い。
<ボリュームトポロジ管理表の構成>
図12は、管理サーバ30000の有するボリュームトポロジ管理表32200の構成例を示す図である。
ボリュームトポロジ管理表32200は、ストレージ装置の識別子となる装置IDを登録するフィールド32210と、ストレージ装置が有するボリュームの識別子となるボリュームIDを登録するフィールド32220と、ボリュームがホストコンピュータ10000と通信する際使用するポートの識別子となるポートIDを登録するフィールド32230と、ポートとボリュームとの通信の際に使用するコントローラのIDを登録するフィールド32240と、ボリュームが接続するホストコンピュータ10000の識別子を登録するフィールド32250と、ボリュームが実体となるホストコンピュータ10000の論理ボリュームのドライブ名を登録するフィールド32260と、ホストコンピュータがストレージ装置との接続の際使用するポートの識別子となる当該ホストコンピュータのポートIDを登録するフィールド32270と、を構成項目として含んでいる。
例えば、図12の第1行目(1つ目のエントリ)からは、ストレージ装置SYS1のボリュームVOL1が、PORT1で示されるストレージ側のポートおよびCTL1で示されるコントローラと、LAN1で示されるホスト側のポートを介してホストコンピュータHOST1と接続し、ホスト上で論理ボリューム(E:)として認識されていることが分かる。
<イベント管理表の構成>
図13は、管理サーバ30000が有するイベント管理表33700の構成例を示す図である。このイベント管理表33700は、後述する障害原因解析処理、閾値緩和処理、閾値厳格化処理、閾値再計算処理において適宜参照されるものである。
イベント管理表33700は、取得した性能値に閾値異常といったイベントの発生した機器の識別子となる装置IDを登録するフィールド33710と、イベントの発生した機器内の部位の識別子を登録するフィールド33720と、閾値異常を検知したメトリックの名称を登録するフィールド33730と、機器内の部位のイベント発生時の状態を登録するフィールド33740と、イベントが発生した日時を登録するフィールド33750と、を構成項目として含んでいる。
例えば、図13の第1行目(1つ目のエントリ)からは、管理サーバ30000が、ストレージ装置SYS1の、CTL1で示されるコントローラにおけるプロセッサ稼働率の閾値異常を検知したことが分かる。なお、異常状態が正常に変化した場合もイベントとして登録されるようにしても良い。
<汎用ルールの構成>
図14A及びBは、管理サーバ30000が有する汎用ルールリポジトリ33800内の汎用ルールの構成例を示す図である。一般的に、障害解析において根本原因を特定するためのイベント伝播モデルは、ある障害の結果発生することが予想されるイベントの組み合わせと、その根本原因を”IF-THEN”形式で記載するものとなっている。なお、汎用ルールは図14A及びBに挙げられたものに限られず、さらに多くのルールがあっても構わない。
汎用ルールは、汎用ルールの識別子となる汎用ルールIDを登録するフィールド33830と、”IF-THEN”形式で記載した汎用ルールのIF部に相当する観測事象を登録するフィールド33810と、”IF-THEN”形式で記載した汎用ルールのTHEN部に相当する原因事象を登録するためのフィールド33820と、汎用ルールを実システムに展開し、展開ルールを生成する際に取得するトポロジを登録するためのフィールド33840と、を構成項目として含んでいる。結論部のステータスが正常になれば、条件部の問題も解決しているという関係にあるものである。
例えば、図14Aからは、汎用ルールIDがRule1で示される汎用ルールが、観測事象としてホストコンピュータ上の論理ボリュームのレスポンスタイムの閾値異常(関連イベント)と、ストレージ装置におけるコントローラのプロセッサ使用率の閾値異常(原因イベント)を検知したとき、ストレージ装置のコントローラのプロセッサ使用率の閾値異常が原因と結論付けるということが分かる。また、展開ルールを生成する際にはボリュームトポロジ管理表からトポロジ情報を取得する。
なお、観測事象に含まれるイベントとして、ある条件が正常であることを定義してもよい。図14Bに示す汎用ルールの例では、ストレージ装置のコントローラのプロセッサ使用率が正常であることを観測事象として定義している。
<展開ルールの構成>
図15乃至Dは、管理サーバ30000が有する展開ルールリポジトリ33900内の展開ルールの構成例を示す図である。これらの展開ルールは、汎用ルール(図14A及びB)にボリュームトポロジ管理表(図12)の各エントリの項目を挿入することによって生成される。
展開ルールは、展開ルールの識別子となる展開ルールIDを登録するフィールド33930と、展開ルールの基となった汎用ルールの識別子となる汎用ルールIDを登録するためのフィールド33940と、”IF-THEN”形式で記載した展開ルールのIF部に相当する観測事象を登録するフィールド33910と、”IF-THEN”形式で記載した展開ルールのTHEN部に相当する原因事象を登録するためのフィールド33920と、を構成項目として含んでいる。
例えば、図15Aの展開ルールは、汎用ルールIDがRule1における装置種別及び装置部位種別に、図12の第1エントリのコントローラ名32240とホストID32250と、接続先ドライブ名32260を挿入することによって生成される。そして、図15Aからは、展開ルールIDがExRule1-1で示される展開ルールが、汎用ルールIDがRule1で示される汎用ルールを基に展開され、観測事象としてホストコンピュータ上の論理ボリュームのレスポンスタイムの閾値異常と、ストレージ装置におけるコントローラのプロセッサ使用率の閾値異常を検知したとき、ストレージ装置のコントローラのプロセッサ使用率の閾値異常が原因と結論付けられることが分かる。
<その他の管理表の構成等について>
解析結果管理表34000と、閾値補正優先度管理表34100と、閾値補正割合管理表34200の構成例については、後述する。
<構成管理情報の取得処理及び、ボリュームトポロジ管理表の更新処理>
プログラム制御モジュール33100は、情報取得モジュール33200に対し、計算機システム内のストレージ装置20000およびホストコンピュータ10000およびIPスイッチ40000から、構成管理情報を定期的に取得するよう指示する。
構成管理情報取得モジュール33200は、ストレージ装置20000およびホストコンピュータ10000およびIPスイッチ40000から構成管理情報を取得して、取得情報リポジトリ32000に格納するとともに、ボリュームトポロジ管理表32200を更新する。
また、ボリュームトポロジ管理表32200を更新する処理は次のように実行される。まず、情報取得モジュール33200は、取得情報リポジトリ32000に格納されたボリューム管理表23200を参照し、ボリュームの接続するiSCSIターゲット名と、ボリュームにアクセス可能なiSCSIイニシエータ名を確認する。次に、情報取得モジュール33200は、論理ボリューム管理表13300を参照し、確認したアクセス可能なiSCSIイニシエータ名と同じイニシエータを使用し、確認したiSCSIターゲット名を持つストレージ側ポートに接続する。そして、情報取得モジュール33200は、LUN IDが等しいストレージ内ボリュームとホスト内論理ボリュームの対を発見した場合、相互に接続関係にあるものとしてボリュームトポロジ管理表32200に登録する。
<一般的な装置性能情報取得処理及びイベント解析処理>
図16は、管理サーバ30000の装置性能取得モジュール33300が実行する通常の装置性能情報取得処理を説明するためのフローチャートである。プログラム制御モジュール33100は、プログラムの起動時、もしくは前回の装置性能情報取得処理から一定時間経過するたびに、装置性能取得モジュール33300に対し、装置性能情報取得処理を実行するよう指示する。なお、当該実行指示を繰り返し出す場合は厳密に一定期間毎である必要は無く、繰り返しさえしていればよい。
装置性能情報取得モジュール33300は、監視対象の各装置に対し、以下の一連の処理を繰り返す。
装置性能情報取得モジュール33300は、まず、監視対象の各装置に対し、構成管理情報を送信するよう指示する(ステップ61010)。
装置性能情報取得モジュールは、監視対象装置からの応答があったか否か判断し(ステップ61020)、装置から装置性能情報の応答があれば(ステップ61020でYesの場合)、取得した装置性能情報を装置性能管理表32100に格納する(ステップ61030)。装置から構成管理情報の応答がなかった場合(ステップ61020でNoの場合)、構成管理情報取得処理は終了する。
次に、装置性能取得モジュール33300は、装置性能管理表32100に格納された装置性能情報を参照し、各性能値に対してステップ61050からステップ61070の処理を繰り返す(ステップ61040)。装置性能取得モジュール33300は、性能値が閾値を超過しているかを確認し、装置性能管理表32100に登録された状態を更新する(ステップ61050)。そして、装置性能取得モジュール33300は、状態が正常から閾値異常に、或いは閾値異常から正常に変化したか否か判断し(ステップ61060)、状態が変化した場合(ステップ61060でYesの場合)、イベント管理表33700にイベントを登録する(ステップ61070)。状態が変化していない場合(ステップ61060でNoの場合)、全ての性能値に対する状態確認処理が終わっていなければ、処理はステップ61050に戻る。
全ての性能値に対する上記の処理が終了した後、装置性能取得モジュール33300は、一連の処理で新規に追加したイベントがあるか否か判断し(ステップ61080)、追加イベントがあれば(例えば、処理中に新たな以上が発生したような場合)、イベント解析処理モジュール33500に対し、図17に示す障害原因解析処理を行なうよう指示する(ステップ61090)。
以上が、装置性能取得モジュール33300が実施する装置性能情報取得処理である。
図17は、管理サーバ30000のイベント解析処理モジュール33500が実行する通常の障害原因解析処理(図16のステップ61090)の詳細を説明するためのフローチャートである。
イベント解析処理モジュール33500は、最初のイベントより遅れて発生したイベントの受信を待つため一定時間待機した後(ステップ62010)、イベント管理表33700より、過去一定期間に発生したイベントを取得する(ステップ62020)。
次に、イベント解析処理モジュール33500は、展開ルールリポジトリ33900内の各展開ルールに対し、ステップ62040からステップ62060の処理を繰り返す(ステップ62030)。イベント解析処理モジュール33500は、まず、展開ルールに記載された条件部に対応する各イベントについて、過去一定期間の発生件数を算出する(ステップ62040)。ただし、最新のイベント発生状況が「正常」であるものについては発生件数としてカウントしない。そして、イベント解析処理モジュール33500は、ステップ62040の処理において集計したイベント発生数が、条件部に記載された全イベントにおいて一定の比率を超過したか否か判断する(ステップ62050)。超過していると判断した場合には(ステップ62050でYesの場合)、イベント解析処理モジュール33500は、GUI表示処理モジュール33400に対し、根本原因なるイベントを、条件文中のイベント発生割合と共に表示するよう指示し(ステップ62060)、処理を終了させる。
例えば、図15Aに示す展開ルールExRule1-1には、条件部に”ホストコンピュータHOST1における論理ボリューム(E:)のレスポンスタイムの閾値異常”と、”ストレージ装置SYS1におけるコントローラCTL1の稼働率の閾値異常”が定義されている。
そして、図13に示すイベント管理表33700に、”ストレージ装置SYS1におけるコントローラCTL1の稼働率の閾値異常”(発生日時:2010-01-01 16:00:00)が登録されると、イベント解析処理モジュール33500は、一定時間待機した後にイベント管理表33700を参照し、過去一定期間に発生したイベントを取得する。
次に、イベント解析処理モジュール33500は、展開ルールリポジトリ33900の展開ルールExRule1-1に記載された条件部に対応する各イベントについて、過去一定期間の発生件数を算出する。その結果、”ホストコンピュータHOST1における論理ボリューム(E:)のレスポンスタイムの閾値異常”(関連イベント)は過去一定期間に発生していないことから、展開ルールExRule1-1に記載された条件部に対応する各イベント(原因イベントと関連イベント)の過去一定期間の発生数が、条件部に記載された全イベントにおいて占める割合は1/2(原因イベントは発生したが関連イベントが発生していないので分子が1となっている)となる。
以上のようにして算出された割合が一定値を超過した場合、イベント解析処理モジュール33500は、GUI表示処理モジュール33400に対し、根本原因となるイベントを、条件文中のイベント発生割合と共に表示するよう指示する。ここでいう一定値を例えば80%とした場合、当該具体例では、展開ルールExRule1-1の条件部の各イベントの過去一定期間の発生割合が1/2、すなわち50%であるので、GUIには表示されないことになる。
上記の処理を、展開ルールリポジトリ33900に定義された全ての展開ルールに対し実行することになる。
以上が、イベント解析処理モジュール33500が実施する障害原因解析処理である。
しかしながら、上述の障害原因解析処理においては、展開ルール内に定義された、閾値異常イベントの1つを検知するための閾値がその機器本来の性能に対して低すぎた場合には、その機器の性能異常イベントが発生するにもかかわらず、展開ルール内に定義された他の閾値異常イベントが発生しない。逆に、展開ルール内に定義された、閾値異常イベントの1つを検知するための閾値がその機器本来の性能に対して高すぎた場合には、その機器の性能異常イベントが発生しないにもかかわらず、展開ルール内に定義された他の閾値異常イベントが発生してしまう。
従って、一般的なイベント解析処理では、処理展開ルールにおいて意図するとおりに必ずしも条件部に記載されたイベントが発生しないという課題が存在する。
そこで、本発明による実施形態では、より適切に性能異常イベントを適切できるようにするために、改良したイベント解析処理を、閾値緩和処理及び閾値厳格化処理として提供する。
<閾値緩和処理の内容>
まず、本発明において新たに導入された解析結果管理表(図18)、閾値補正優先度管理表(図19)、及び閾値補正割合管理表(図20)について説明し、続いて閾値緩和処理及び閾値厳格化処理について説明する。
(i)解析結果管理表の構成
図18は、管理サーバ30000の有する解析結果管理表34000の構成例を示す図である。
解析結果管理表34000は、障害原因解析処理において根本原因と判断されたイベントの発生した機器の識別子となる装置IDを登録するフィールド34010と、イベントの発生した機器内の部位の識別子を登録するフィールド34020と、閾値異常を検知したメトリックの名称を登録するフィールド34030と、イベントを根本原因と判断した根拠となる展開ルールのIDを登録するフィールド34040と、展開ルールにおいて条件部に記載されたイベントのうち、根本原因と判定されたイベントの発生有無を登録するフィールド34050と、根本原因と判定されたイベント以外のイベント(関連イベント)の発生割合を登録するフィールド34060と、イベント発生時の性能値を登録するフィールド34070と、イベント発生に伴う障害解析処理を開始した日時を登録するフィールド34080と、を構成項目として含んでいる。
例えば、図18の第1段目(1つ目のエントリ)からは、展開ルールExRule1-1に基づき、管理サーバ30000がストレージ装置SYS1の、CTL1で示されるコントローラにおけるプロセッサ稼働率の閾値異常を根本原因として判断し、その際の他の条件イベント(関連イベント)の発生割合が0/1(つまり、HOST1のドライブEのレスポンスタイム異常は起こっていない)であることが分かる。
(ii)閾値優先度管理表の構成
図19は、管理サーバ30000の有する閾値補正優先度管理表34100の構成例を示す図である。
閾値補正優先度管理表34100は、管理サーバ30000の管理する機器の種別を登録するフィールド34110と、管理対象の機器のうち性能情報の取得の対象となる機器内の部位を登録するフィールド34120と、管理対象の機器より取得するメトリックの名称を登録するフィールド34130と、メトリックに対する閾値修正の優先度を登録するフィールド34140と、を構成項目として含んでいる。
例えば、図19からは、管理サーバ30000は各ストレージ装置における各コントローラのプロセッサ稼働率を監視しており、その際閾値変更優先度は1であることが分かる。
なお、展開ルール内の条件部において一番優先度が高いデバイスについて解析結果管理表(図18)が作成される。従って、例えば、展開ルールExRule1-1の場合、優先度はディスクドライブEよりもコントローラCTL1の方が高く設定されているので、コントローラCTL1についてのみ解析結果管理表が作成されることになる。
(iii)閾値補正割合管理表の構成
図20は、管理サーバ30000が有する閾値補正割合管理表34200の構成例を示す図である。閾値補正割合管理表34200は、管理サーバの管理する機器の種別を登録するフィールド34210と、前記機器のうち、性能情報の取得の対象となる機器内の部位を登録するフィールド34220と、前記機器より取得するメトリックの名称を登録するフィールド34230と、前記メトリックに対する閾値修正の条件を登録するフィールド34240と、前記メトリックに対する閾値修正処理時に閾値を変更する割合を登録するフィールド34250から構成されている。
例えば、図20からは、管理サーバ30000が各ストレージ装置における各コントローラのプロセッサ稼働率を監視しており、その閾値を上昇或いは下降させる際の変更の割合は2%であることが分かる。
(iv)障害原因解析処理について
図21は、第1の実施形態による、管理サーバ30000のイベント解析処理モジュール33500が実行する障害原因解析処理を説明するためのフローチャートである。
イベント解析処理モジュール33500は、最初のイベントより遅れて発生したイベントの受信を待つため一定時間待機した後(ステップ63005)、イベント管理表33700より、過去一定期間に発生したイベントを取得する(ステップ63010)。
次に、イベント解析処理モジュール33500は、展開ルールリポジトリ33900内の各展開ルールに対し、ステップ63030からステップ63070の処理を繰り返す(ステップ63020)。
繰り返し処理において、まず、イベント解析処理モジュール33500は、条件部に対応する各イベントについて、過去一定期間の発生件数を算出した後(ステップ63030)、展開ルールの条件部の各イベントのステータスが「閾値異常」もしくは「正常」から構成されているか否か判断する(ステップ63040)。他のステータスとして「故障」があり得るが、それはこのステップで除かれることになる。
条件部のイベントが「閾値異常」及び「正常」のみであった場合(ステップ63040でYesの場合)、イベント解析処理モジュール33500は、閾値補正優先度管理表34100を参照し、展開ルールに記載された条件部の各イベントのうち、閾値補正優先度の最も高いイベントを選び出す。その上で、補正優先度の最も高いイベントの装置ID、部位ID、メトリック名をそれぞれ解析結果管理表34000のフィールド34010、34020、34030に、イベントの発生状況と発生時の性能値をそれぞれフィールド34050、34070に、展開ルールIDおよび解析開始日時をそれぞれフィールド34040、34080に追加する。また、閾値補正優先度の最も高いイベントの他に条件部に定義された各イベントの発生割合を算出して、解析結果管理表34000のフィールド34060に追加する(ステップ63050)。ただし、条件部に記載されたイベントのうち、ステータスが「正常」からなるイベントについては算出の対象としない。
次に、イベント解析処理モジュール33500は、ステップ63030において集計したイベント発生数が、条件部に記載された全イベントにおいて一定の比率を超過しているか判断し(ステップ63060:図17のステップ62050と同じ処理)、超過している場合(ステップ63060でYesの場合)、GUI表示処理モジュール33400に対し、根本原因なるイベントを、条件文中のイベント発生割合と共に表示するよう指示する(ステップ63070)。
上記の処理を全展開ルールに対して実行した後、イベント解析処理モジュール33500は、後述する閾値緩和処理を実行する(63080)。
(v)閾値緩和処理の詳細
図22は、管理サーバ30000のイベント解析処理モジュール33500が実行する閾値緩和処理(ステップ63080)の詳細を説明するためのフローチャートである。本処理は、図21における障害原因解析処理の途中に実行される。ただし、管理者の指示によって当該処理が動作してもよい。
イベント解析処理モジュール33500は、解析結果管理表34000を参照し、解析結果管理表に定義された各部位の各メトリックについて、ステップ64020からステップ64090の処理を繰り返す(ステップ64010)。
まずイベント解析処理モジュール33500は、各部位の各メトリックについて、過去一定期間の解析結果すべてにおいて閾値異常イベントを受信済みかどうか確認し(ステップ64020)、受信していない場合(ステップ64020でNoの場合)、処理は次のメトリックについての処理に移行する。イベントを受信している場合(ステップ64020でYesの場合)、イベント解析処理モジュール33500は、解析結果管理表34000に定義された閾値補正対象となる各部位の各メトリックについて、条件発生比率の総計を集計する(ステップ64030)。
次に、イベント解析処理モジュール33500は、総計した割合が一定値を下回っているかを確認し(ステップ64040)、下回っていない場合(ステップ64040でNoの場合)は、処理は次のメトリックについての処理に移行する。値が一定値を下回っている場合(ステップ64040でYesの場合)は、イベント解析処理モジュール33500は、閾値補正割合管理表34200を参照し、変更後の閾値を決定する(ステップ64050)。その際、補正種別が「上昇」となっている変更割合を使用する。
次に、イベント解析処理モジュール33500は、これまでの処理で算出した閾値をGUI画面上で表示し、ユーザからの閾値変更の可否についての指示を受付け、閾値変更の有無を確認する(ステップ64060)。
ユーザから閾値変更許可の指示を受けた場合(ステップ64070でYesの場合)、イベント解析処理モジュール33500は、装置性能管理表32100の閾値を算出した値に変更する(ステップ64080)。さらに、イベント解析処理モジュール33500は、該当するメトリックの解析結果を、解析結果管理表34000から削除する(ステップ64090)。なお、ユーザに対して閾値変更の可否を確認せずに処理するようにしても良い。
以上が、イベント解析処理モジュール33500が実施する閾値緩和処理である。
続いて、障害原因解析処理および閾値緩和処理の具体例について説明する。なお、処理終了後の解析結果管理表は図18、閾値補正優先度管理表は図19、閾値補正割合管理表は図20、展開ルールExRule1-1は図15Aに示す通りのものであるとする。
図13に示すイベント管理表33700に、”ストレージ装置SYS1におけるコントローラCTL1の稼働率の閾値異常”(発生日時:2010-01-01 16:00:00)が登録されると、イベント解析処理モジュール33500は、一定時間待機した後にイベント管理表33700を参照し、過去一定期間に発生したイベントを取得する。
次に、イベント解析処理モジュール33500は、展開ルールExRule1-1に記載された条件部に対応する各イベントについて、閾値補正優先度管理表34100を参照し、展開ルールに記載された条件部の各イベントのうち、閾値補正優先度の最も高いイベントを選び出す。展開ルールExRule1-1においては、”ストレージ装置SYS1におけるコントローラCTL1の稼働率”の 閾値補正優先度が最も高い。”ストレージ装置SYS1におけるコントローラCTL1の稼働率”の閾値異常イベントは過去一定期間に発生済みである。一方、条件部に定義されたその他のイベントは”ホストコンピュータHOST1における論理ボリューム(E:)のレスポンスタイムの閾値異常”の1つで、過去一定期間において未発生である。そのため、その他の条件部に定義された各イベントの発生割合は0/1となる。以上の結果を算出解析結果管理表に追加する。
また、イベント解析処理モジュール33500は、解析結果管理表34000を参照し、”ストレージ装置SYS1におけるコントローラCTL1の稼働率”について、閾値異常イベントを受信済みかどうか確認する。”ストレージ装置SYS1におけるコントローラCTL1の稼働率”の閾値異常イベントは受信済みのため、”ストレージ装置SYS1におけるコントローラCTL1の稼働率”について、条件部に定義された各イベントの発生割合の総計を集計する。総計の結果、割合は0/4となる。
そして、総計した割合が一定値を下回っているため、イベント解析処理モジュール33500は、閾値補正優先度管理表34100と閾値補正割合管理表34200を参照し、変更後の閾値を決定する。閾値補正割合管理表34200を参照すると、”ストレージ装置SYS1におけるコントローラCTL1の稼働率”は2%上方に修正するよう定義されているため、新閾値は20.4%となる。
以上の処理で算出した閾値がGUI画面上で表示され、ユーザに閾値変更の可否を確認する。ユーザが閾値変更を許可した場合、装置性能管理表の閾値を前記算出した値に変更する。
以上の処理により、”ストレージ装置SYS1におけるコントローラCTL1の稼働率”に関する装置性能管理表の閾値が上方に更新される。
なお、イベント解析処理モジュール33500が実施する閾値緩和処理において、イベント解析処理モジュール33500は、取得情報リポジトリ32000に保持された管理下機器の構成情報を参照し、閾値再設定の対象となっている機器内構成要素と同一の性能特性を持つ部品に対しても、一括して閾値緩和処理を実施してもよい。例えば、ストレージ装置20000のRAIDグループ24000を構成するディスク24200乃至24210が同一の機種であって同じ性能特性を持つ場合、ディスク24200のあるメトリックに対する閾値再設定と同時に、ディスク24210の同一メトリックに対する閾値再設定を同時に行なってもよい。
<閾値修正画面の構成>
図23は、管理サーバ30000がユーザに対し表示する、閾値修正画面の表示例を示す図である。
閾値修正画面71000では、修正対象となる機器の種別および機器内構成要素の種別、およびメトリックと、変更前後の閾値が表示される(テーブル71010)。そして、ユーザが「変更する」ボタン(ボタン71020)を押下すると、閾値変更が許可される。また、ユーザが「変更しない」ボタン(ボタン71030)を押下した場合は閾値変更を許可しないこととなり、閾値の修正が行われない。
<閾値緩和処理の効果>
以上のように、システム管理ソフトウェアが、自身が持つ障害原因解析機能の性能障害解析のための展開ルールにおけるイベントヒット状況に基づき、閾値緩和処理を実行し、機器本来の性能に比して低く設定された閾値を上方に補正する。その結果、管理下の部品に対し付与した閾値が、部品の性能キャパシティに合致したものとなり、結果として管理ソフトが管理者に対し、正確に警告を行うことができる。
<閾値厳格化処理の詳細>
図24は、本発明の第1の実施形態によるイベント解析処理モジュール33500が実行する閾値厳格化処理を説明するためのフローチャートである。なお、管理サーバ30000が有する管理情報は、閾値緩和処理で用いた情報と変わらない。また、本処理は、図22による閾値緩和処理の実行後に実行される。ただし、管理者の指示によって当該処理が動作してもよい。
イベント解析処理モジュール33500は、解析結果管理表34000を参照し、解析結果管理表に定義された各部位の各補正対象メトリックについて、ステップ65020からステップ65090の処理を繰り返す(ステップ65010)。
この繰り返し処理において、まずイベント解析処理モジュール33500は、各部位の各メトリックについて、過去一定期間の解析結果すべてにおいて閾値異常イベントを未受信かどうか確認する(ステップ65020)。つまり、1つでも受信したイベントがあれば、処理は次のメトリックについての処理に移行する。
未受信でない場合(ステップ65020でNoの場合)は、処理は次のメトリックについての処理に移行する。未受信の場合(ステップ65020でYesの場合)は、イベント解析処理モジュール33500は、解析結果管理表34000に定義された閾値補正対象となる各部位の各メトリックについて、条件発生比率の総計を集計する(ステップ65030)。次に、イベント解析処理モジュール33500は、総計した割合が一定値を超えているかを確認する(ステップ65040)。超えていない場合(ステップ65040でNoの場合)は、処理は次のメトリックについての処理に移行する。
値が一定値を超えている場合(ステップ65040でYesの場合)、イベント解析処理モジュール33500は、閾値補正割合管理表34200を参照し、変更後の閾値を決定する(ステップ65050)。その際、補正種別が「下降」となっている変更割合を使用する。
次に、イベント解析処理モジュール33500は、これまでの処理で算出した閾値をGUI画面上で表示し、ユーザに閾値変更の可否を確認する(ステップ65060)。
ユーザから閾値変更許可の指示を受けた場合(ステップ65070でYesの場合)、イベント解析処理モジュール33500は、装置性能管理表32100の閾値を前記算出した値に変更する(ステップ65080)。ユーザから閾値変更不許可の指示を受けた場合(ステップ65070でNoの場合)、処理は次のメトリックについての処理に移行する。なお、ユーザに対して閾値変更の可否を確認せずに処理するようにしても良い。
そして、イベント解析処理モジュール33500は、該当するメトリックの解析結果を、解析結果管理表34000から削除する(ステップ65090)。
以上が、イベント解析処理モジュール33500が実施する閾値厳格化処理である。
続いて、障害原因解析処理および閾値厳格化処理の具体例について説明する。なお、処理終了後の解析結果管理表は図18、閾値補正優先度管理表は図19、閾値補正割合管理表は図20、展開ルールExRule1-4は図15Dに示す通りのものであるとする。
図13に示すイベント管理表に、” ホストコンピュータHOST3における論理ボリューム(E:)のレスポンスタイムの閾値異常”(発生日時:2010-01-01 16:00:00)が登録されると、イベント解析処理モジュール33500は一定時間待機した後にイベント管理表33700を参照し、過去一定期間に発生したイベントを取得する。
次に、イベント解析処理モジュール33500は、展開ルールリポジトリ33900の展開ルールExRule1-4に記載された条件部に対応する各イベントについて、閾値補正優先度管理表34100を参照し、展開ルールExRule1-4に記載された条件部の各イベントのうち、閾値補正優先度の最も高いイベントを選び出す。展開ルールExRule1-4においては、”ストレージ装置SYS1におけるコントローラCTL2の稼働率”の閾値補正優先度が最も高い。”ストレージ装置SYS1におけるコントローラCTL2の稼働率”の閾値異常イベントは過去一定期間に未発生である。一方、条件部に定義されたその他のイベント(関連イベント)は”ホストコンピュータHOST3における論理ボリューム(E:)のレスポンスタイムの閾値異常”の1つで、過去一定期間において発生済みである。そのため、その他の条件部に定義された各イベント(関連イベント)の発生割合は1/1となる。以上の結果を解析結果管理表34000に追加する。
次に、イベント解析処理モジュール33500は、解析結果管理表34000を参照し、”ストレージ装置SYS1におけるコントローラCTL2の稼働率”について、閾値異常イベントを未受信かどうか確認する。”ストレージ装置SYS1におけるコントローラCTL2の稼働率”の閾値異常イベントは未受信のため、”ストレージ装置SYS1におけるコントローラCTL2の稼働率”について、条件部に定義された各イベントの発生割合の総計を集計する。総計の結果、割合は2/2となる。
総計した割合が一定値を超えているため、イベント解析処理モジュール33500は装置性能管理表32100と閾値補正割合管理表34200を参照し、変更後の閾値を決定する。閾値補正割合管理表34200を参照すると、”ストレージ装置SYS1におけるコントローラCTL2の稼働率”は2%下方に修正するよう定義されているため、新閾値は78.4%となる。
そして、イベント解析処理モジュール33500は、修正した閾値をGUI画面上で表示し、ユーザに閾値変更の可否を確認する(図23参照)。ユーザが閾値変更を許可した場合、イベント解析処理モジュール33500は、装置性能管理表32100の閾値を修正した値に変更する。
以上の処理により、”ストレージ装置SYS1におけるコントローラCTL2の稼働率”に関する装置性能管理表の閾値が下方に更新される。
なお、閾値厳格化処理において、イベント解析処理モジュール33500が、取得情報リポジトリ32000に保持された管理下機器の構成情報を参照し、閾値再設定の対象となっている機器内構成要素と同一の性能特性を持つ部品に対しても、一括して閾値再設定処理を実行してもよい。例えば、ストレージ装置20000のRAIDグループ24000を構成するディスク24200乃至24210が同一の機種であって同じ性能特性を持つ場合、ディスク24200のあるメトリックに対する閾値再設定と同時に、ディスク24210の同一メトリックに対する閾値再設定を同時に行なってもよい。
<閾値厳格化処理の効果>
以上のように、システム管理ソフトウェアは、自身が持つ障害原因解析機能の性能障害解析のための展開ルールにおけるイベントヒット状況に基づき、閾値厳格化処理を実行し、本来の性能に比して高く設定された閾値を下方に補正する。この結果、管理下の部品に対し付与した閾値が、部品の性能キャパシティに合致したものとなり、結果として管理ソフトが管理者に対し、正確に警告を行うことができる。
(2)第2の実施形態
第2の実施形態は、管理ソフトウェアによる測定値ベース閾値を用いた閾値再計算処理に関するものである。システム構成や各装置の構成は第1の実施形態と同じであるので、説明は省略する。
<測定値ベース閾値を用いた閾値再計算処理の詳細>
適切な閾値設定を実現するために、本実施形態では、管理サーバ30000が、測定値ベース閾値を用いた閾値再計算処理を実行する。なお、管理サーバ30000が有する管理情報は、第1の実施形態と同じである。
図25は、第3の実施形態において、管理サーバ30000のイベント解析処理モジュール33500が実行する閾値再計算処理を説明するためのフローチャートである。本処理は、第1の実施形態で述べた図22における障害原因解析処理における閾値緩和処理に代わって実行される。ただし、管理者の指示によって当該処理が動作してもよい。
イベント解析処理モジュール33500は、解析結果管理表34000を参照し、解析結果管理表に定義された各部位の各メトリックについて、ステップ66020からステップ66090からステップ66190の一連の処理を繰り返す(ステップ66010)。
この繰り返し処理においては、まず、イベント解析処理モジュール33500は、各部位の各メトリックについて、過去一定期間の解析結果の全てにおいて閾値異常イベントを受信したか(解析結果管理表34000のイベント受信34050で全てがYesとなっているか)どうか確認する(ステップ66020)。閾値異常イベントを受信していない場合(ステップ66020でNoの場合)、処理はステップ66100に移行する。所定部位のメトリックの全てにおいて閾値異常イベントを受信している場合(ステップ66020でYesの場合)、イベント解析処理モジュール33500は、解析結果管理表34000に定義された閾値補正対象となる各部位の各メトリックについて、条件発生比率の総計を集計する(ステップ66030)。
次に、イベント解析処理モジュール33500は、総計した割合が一定値を下回っているかを確認し(ステップ66040)、下回っていない場合(ステップ66040でNoの場合)、処理は次のメトリックについての処理に移行する。
割合が一定値を下回っている場合(ステップ66040でYesの場合)、イベント解析処理モジュール33500は、解析結果管理表34000を参照し、当該メトリックにおける過去一定期間の閾値異常イベント発生時の性能値の平均を算出する(ステップ66050)。
次に、イベント解析処理モジュール33500は、ステップ66050で算出した閾値(修正値)をGUI画面上で表示し、ユーザに閾値変更の可否を確認する(ステップ66060)。その際、算出したイベント発生時の性能値の平均を変更後閾値として提示する。
そして、ユーザから閾値変更許可の指示を受けた場合(ステップ66070でYes)、イベント解析処理モジュール33500は、装置性能管理表32100の測定値ベース閾値を算出した値(修正値)に変更する(ステップ66080)。さらに、イベント解析処理モジュール33500は、該当するメトリックの解析結果を、解析結果管理表34000から削除する(ステップ66090)。
一方、イベント解析処理モジュール33500は、各部位の各メトリックについて、過去一定期間の解析結果の全てにおいて閾値異常イベントを未受信かどうか(解析結果管理表34000のイベント受信34050で全てがNoとなっているか)確認する(ステップ66100)。未受信でない場合(ステップ66100でNoの場合)、処理は次のメトリックについての処理に移行する。
全てにおいて未受信の場合(ステップ66100でYesの場合)、イベント解析処理モジュール33500は、解析結果管理表34000に定義された閾値補正対象となる各部位の各メトリックについて、条件発生比率の総計を集計する(ステップ66110)。
次に、イベント解析処理モジュール33500は、総計した割合が一定値を超えているかを確認する(ステップ66120)。超えていない場合(ステップ66120でNoの場合)、処理は次のメトリックについての処理に移行する。
割合が一定値を超えている場合(ステップ66120でYesの場合)、イベント解析処理モジュール33500は、閾値補正割合管理表34200を参照し、変更後の閾値を決定する(ステップ66130)。その際、補正種別が「下降」となっている変更割合を使用する。
次に、イベント解析処理モジュール33500は、装置性能管理表32100を参照し、該当するメトリックの測定値ベース閾値を確認する(ステップ66140)。算出した閾値が測定値ベース閾値を下回っている場合(ステップ66140でYesの場合)、イベント解析処理モジュール33500は、測定値ベース閾値を新閾値として設定する(ステップ66150)。一方、算出した閾値が測定値ベース閾値を下回っていない場合(ステップ66140でNoの場合)、イベント解析処理モジュール33500は、ステップ66130で算出した閾値を新閾値とし、処理をステップ66160に移行させる。
そして、イベント解析処理モジュール33500は、新閾値(測定ベース閾値或いは算出した閾値)をGUI画面上に表示し、ユーザからの閾値変更可否の指示を受け付ける(ステップ66160)。
ユーザから閾値変更許可の指示を受信した場合(ステップ66170でYesの場合)、イベント解析処理モジュール33500は、装置性能管理表32100の閾値を新閾値に変更する(ステップ66180)。ユーザから閾値変更不許可の指示を受信した場合(ステップ66170でNoの場合)、処理は次のメトリックについての処理に移行する。
さらに、イベント解析処理モジュール33500は、該当するメトリックの解析結果を、解析結果管理表34000から削除する(ステップ66190)。
以上が、イベント解析処理モジュール33500が実施する測定値ベース閾値を用いた閾値再計算処理である。
続いて、障害原因解析処理および測定値ベース閾値を用いた閾値再計算処理の具体例について説明する。なお、処理終了後の解析結果管理表は図18、閾値補正優先度管理表は図19、閾値補正割合管理表は図20、展開ルールExRule1-1は図15Aに示すとおりであるものとする。
まず、図13に示すイベント管理表に、”ストレージ装置SYS1におけるコントローラCTL1の稼働率の閾値異常”(発生日時:2010-01-01 16:00:00)が登録されると、イベント解析処理モジュール33500は一定時間待機した後にイベント管理表を参照し、過去一定期間に発生したイベントを取得する。
次に、イベント解析処理モジュール33500は、展開ルールリポジトリ33900の展開ルールExRule1-1に記載された条件部に対応する各イベントについて、閾値補正優先度管理表34100を参照し、展開ルールExRule1-1に記載された条件部の各イベントのうち、閾値補正優先度の最も高いイベントを選び出す。展開ルールExRule1-1においては、”ストレージ装置SYS1におけるコントローラCTL1の稼働率”の閾値補正優先度が最も高い。”ストレージ装置SYS1におけるコントローラCTL1の稼働率”の閾値異常イベントは、イベント管理表33700を見ると、過去一定期間に発生済みである。
一方、条件部に定義されたその他のイベント(関連イベント)は”ホストコンピュータHOST1における論理ボリューム(E:)のレスポンスタイムの閾値異常”の1つで、過去一定期間において未発生である。そのため、その他の条件部に定義された各イベントの発生割合は0/1となる。以上の結果を解析結果管理表34000に追加する(図18の34060参照)。
次に、イベント解析処理モジュール33500は、解析結果管理表34000を参照し、”ストレージ装置SYS1におけるコントローラCTL1の稼働率”の全てについて、閾値異常イベントを受信済みかどうか確認する。解析結果管理表34000を見ると、”ストレージ装置SYS1におけるコントローラCTL1の稼働率”の全てについて閾値異常イベントは受信済みのため、”ストレージ装置SYS1におけるコントローラCTL1の稼働率”について、条件部に定義された各イベントの発生割合の総計を集計する。総計の結果、割合は0/4となる。
そして、総計した割合が一定値を下回っているため、イベント解析処理モジュール33500は、解析結果管理表34000を参照し、変更後の閾値を決定する。解析結果管理表34000を参照すると、”ストレージ装置SYS1におけるコントローラCTL1の稼働率の閾値異常”イベント発生時の性能値は40%と45%であるため、それらの平均である42.5%が新閾値となる。
算出した新しい閾値をGUI画面上で表示し、ユーザに閾値変更の可否を確認する。ユーザが閾値変更を許可した場合、装置性能管理表の閾値を前記算出した値に変更する。
以降、閾値再計算処理の過程で、ストレージ装置SYS1におけるコントローラCTL1の稼働率の閾値を引き下げる場合、測定値ベース閾値として算出した42.5%を下回らない範囲で閾値を引き下げる。
以上の処理により、”ストレージ装置SYS1におけるコントローラCTL1の稼働率”に関する装置性能管理表の測定値ベース閾値が設定される。
なお、測定値ベース閾値を用いた閾値再計算処理において、イベント解析処理モジュール33500は、取得情報リポジトリ32000に保持された管理下機器の構成情報を参照し、閾値再設定の対象となっている機器内構成要素と同一の性能特性を持つ部品に対しても、一括して測定値ベース閾値設定を実施してもよい。例えば、ストレージ装置20000のRAIDグループ24000を構成するディスク24200、24210が同一の機種であって同じ性能特性を持つ場合、ディスク24200のあるメトリックに対する測定値ベース閾値設定と同時に、ディスク24210の同一メトリックに対する測定値ベース閾値設定を同時に行なってもよい。
<測定値ベース閾値を用いた閾値再計算処理の効果>
以上のように、システム管理ソフトウェアは、自身が持つ障害原因解析機能の性能障害解析のための展開ルールにおけるイベントヒット状況に基づき、閾値再計算処理を実行し、機器本来の性能に比して高く、もしくは低く設定された閾値を補正する。この結果、管理下の部品に対し付与した閾値が、部品の性能キャパシティに合致したものとなり、結果として管理ソフトが管理者に対し、正確に警告を行うことができる。
また、測定値ベース閾値を設定することで、閾値再計算処理により閾値が上下し続けることを防止することができる。
(3)第3の実施形態
第3の実施形態は、管理ソフトによる解析結果管理表構築に関するものである。システム構成や各装置の構成は第1の実施形態と同じであるので、説明は省略する。
<解析結果管理表の構成>
図26は、第3の実施形態による、管理サーバ30000が有する解析結果管理表34000の構成例を示す図である。解析結果管理表34000は、図18の解析結果管理表とは異なり、受信時測定値34070を構成項目としては有していないが、さらに、障害原因解析処理において根本原因と判定されたイベント以外のイベントのうち、閾値補正優先度の最も低いイベントのメトリック名を登録するフィールド34090と、イベントの閾値を登録するフィールド34100と、を構成項目として含んでいる。その他のフィールドは、図18に示す構成と同じである。
<解析結果管理表構築処理の詳細>
図27は、第3の実施形態において、管理サーバ30000のイベント解析処理モジュール33500が実行する障害原因解析および解析結果管理表構築処理を説明するためのフローチャートである。
イベント解析処理モジュール33500は、最初のイベントより遅れて発生したイベントの受信を待つため一定時間待機した後(ステップ67010)、イベント管理表33700(図13)から、過去一定期間に発生したイベントを取得する(ステップ67020)。そして、イベント解析処理モジュール33500は、展開ルールリポジトリ33900内の各展開ルールに対し、ステップ67040からステップ67120の一連の処理を繰り返し(ステップ67030)、繰り返し処理終了後に、閾値緩和処理(ステップ67130)を実行する。
繰り返し処理において、まず、イベント解析処理モジュール33500は、展開ルールの条件部に対応する各イベントについて、過去一定期間の発生件数を算出した後(ステップ67040)、展開ルールの条件部の各イベントのステータスが「閾値異常」もしくは「正常」のみ(ステータス「故障」を除く趣旨)から構成されているか判断する(ステップ67050)。「閾値異常」もしくは「正常」のみから構成されていると判断された場合(ステップ67050でYesの場合)、イベント解析処理モジュール33500は、展開ルールに記載された展開前の汎用ルールIDと同じ展開前の汎用ルールIDを持つ展開ルールに基づく解析結果であり、かつ解析開始日時が同じである解析結果を選び出す(ステップ67060)。「閾値異常」もしくは「正常」以外にもあると判断された場合(ステップ67050でNoの場合)、処理はステップ67110に移行する。
次に、イベント解析処理モジュール33500は、該当する解析結果が存在するか否か判断する(ステップ67070)。該当メトリックがないと判断された場合(ステップ67070でNoの場合)、処理はステップ67100に移行する。
ステップ67100では、イベント解析処理モジュール33500は、補正優先度の最も高いイベントの装置ID、部位ID、メトリック名を解析結果管理表34000のフィールド34010、34020、34030のそれぞれに追加し、イベントの発生状況をフィールド34050に追加し、展開ルールIDおよび解析開始日時をフィールド34040、34080のそれぞれに追加する。また、イベント解析処理モジュール33500は、装置性能管理表32100を参照し、展開ルールに記載されたイベントのうち、閾値補正優先度の最も低いイベントのメトリック名および閾値を解析結果管理表34000のフィールド34090、34100のそれぞれに登録する。さらに、イベント解析処理モジュール33500は、閾値補正優先度の最も高いイベントの他に条件部に定義された各イベントの発生割合を算出解析結果管理表34000のフィールド34060に追加する(ステップ67100)。ただし、条件部に記載されたイベントのうち、ステータスが「正常」からなるイベントについては算出の対象としない。
一方、該当する解析結果が存在すると判断された場合(ステップ67070でYesの場合)、イベント解析処理モジュール33500は、閾値補正優先度の最も低いイベントの閾値と、算出解析結果管理表34000の基準イベント閾値34090に定義された値を比較し、最も低いイベントの閾値が他のイベントの閾値よりも厳格か否か判断する(ステップ67080)。
閾値補正優先度の最も低いイベントの閾値の方が、基準イベント閾値の値より厳格である場合(ステップ67080でYesの場合)、イベント解析処理モジュール33500は、ステップ67060で検出した解析結果を解析結果管理表34000から一旦削除する(ステップ67090)。その上で、イベント解析処理モジュール33500は、解析結果管理表34000への解析結果の登録を実行する(ステップ67100)。
一方、閾値補正優先度の最も低いイベント(若しくは、より優先度の低いイベント)の閾値の方が、基準イベント閾値の値より厳格でない場合(ステップ67080でNoの場合)、処理はステップ67110に移行する。
続いて、イベント解析処理モジュール33500は、ステップ67040において集計したイベント発生数が、展開ルールの条件部に記載された全イベントにおいて一定の比率を超過したか否か判断する(ステップ67110)。一定の比率を超える場合(ステップ67110でYesの場合)、イベント解析処理モジュール33500はGUI表示処理モジュール33400に対し、根本原因なるイベントを、条件文中のイベント発生割合と共に表示するよう指示する(ステップ67120)。一定の比率を超えていない場合(ステップ67110でNoの場合)、処理は、次の展開ルールに移行するか、ステップ67130に移行する。
全展開ルールに対して実行した後、イベント解析処理モジュール33500は、第1の実施形態で説明した閾値緩和処理を実行する(ステップ67130)。
続いて、解析結果管理表構築処理の具体例について説明する。なお、処理開始当初の解析結果管理表は図26、装置性能管理表は図11、閾値補正優先度管理表は図19、閾値補正割合管理表は図20、展開ルールExRule1-3は図15Cに示す通りのものであるとする。
図13に示すイベント管理表に、”ストレージ装置SYS1におけるコントローラCTL1の稼働率の閾値異常”(発生日時:2010-01-01 16:00:00)が登録されると、イベント解析処理モジュールは一定時間待機した後にイベント管理表を参照し、過去一定期間に発生したイベントを取得する。
次に、イベント解析処理モジュール33500は、展開ルールリポジトリ33900の展開ルールExRule1-3に記載された展開前の汎用ルールIDを参照し、同じ展開前の汎用ルールIDを持つ展開ルールに基づく解析結果であり、かつ解析開始日時が同じである解析結果を選び出す。図26における解析結果管理表34000では、解析開始日時が2010-01-01 16:05:00であり、展開ルールがExRule1-1およびExRule1-2である解析結果がそれに該当する。
これらの解析結果について、イベント解析処理モジュール33500は、基準イベント閾値を参照する。ExRule1-1およびExRule1-2の基準イベント閾値は10msecである。一方、ExRule1-3において閾値補正優先度の最も低いイベントである”サーバHOST2におけるドライブ(E:)のレスポンスタイム”の閾値は、図11に示す装置性能管理表によると8msecである。
この場合、閾値補正優先度の最も低いイベントの閾値の方が、基準イベント閾値の値より厳格であるため、イベント解析処理モジュール33500は、検出した展開ルールがExRule1-1およびExRule1-2である解析結果を解析結果管理表から削除する。削除することにより、当該結果は、閾値変更検討対象から外れる。
次に、イベント解析処理モジュール33500は、展開ルールExRule1-3の条件部に対応する各イベントについて、閾値補正優先度管理表34100を参照し、展開ルールに記載された条件部の各イベントのうち、閾値補正優先度の最も高いイベントを選び出す。展開ルールExRule1-3においては、”ストレージ装置SYS1におけるコントローラCTL1の稼働率”の閾値補正優先度が最も高い。”ストレージ装置SYS1におけるコントローラCTL1の稼働率”の閾値異常イベントは過去一定期間に発生済みである。一方、展開ルールの条件部に定義されたその他のイベントは”ホストコンピュータHOST2における論理ボリューム(E:)のレスポンスタイムの閾値異常”の1つで、過去一定期間において未発生である。そのため、その他の条件部に定義された各イベントの発生割合は0/1となる。
また、ExRule1-3において閾値補正優先度の最も低いイベントである”サーバHOST2におけるドライブ(E:)のレスポンスタイム”の閾値は、図11に示す装置性能管理表32100によると8msecである。以上の結果を算出解析結果管理表に追加する。
<解析結果管理表構築処理の効果>
以上のように、システム管理ソフトウェアは、自身が持つ障害原因解析機能の性能障害解析のための展開ルールにおけるイベントヒット状況に基づき、閾値再計算処理を実行し、機器本来の性能に比して高く、もしくは低く設定された閾値を補正する。この結果、管理下の部品に対し付与した閾値が、部品の性能キャパシティに合致したものとなり、結果として管理ソフトが管理者に対し、正確に警告を行うことができる。
また、1つの部品と接続する複数の機器において、同一の性能メトリックについてそれぞれ異なる閾値が付与されていた場合、それらの閾値のうち最も厳格な閾値を閾値再計算の際の基準とすることで、閾値再計算処理により閾値が緩和され過ぎることを防止することができる。
特に、本実施形態によれば、閾値優先度が高いデバイスにも拘わらず、当該優先度が低いデバイスよりも閾値が緩く設定されていた場合には厳しく設定された閾値に合わせるようにする。また、閾値優先度が高いデバイスの方が、優先度が低いデバイスよりも厳しい閾値が設定されていた場合には、優先度が低いデバイスに合わせて閾値を緩和しないようにする。このようにすることにより、重要なデバイスについては、閾値をより厳格に管理することができるようになる。
(4)まとめ
本発明では、管理サーバ(プロセッサ)が、ノード装置(ストレージ装置やホストコンピュータ)を監視し、各構成デバイス(コントローラ、I/Oポート、ドライブ)の処理性能を示す処理性能値を取得する。また、管理サーバは、各構成デバイスについて設定された閾値と取得した処理性能値とを比較し、各構成デバイスの性能の異常を検知する。そして、管理サーバは、汎用ルール(図14)から生成された展開ルール(図15:ノード装置で発生し得る1つ以上の条件イベント(障害の根本原因に直接関係する原因イベント及び障害が発生する場合に原因イベントと共に発生する関連イベントで構成される)の組み合わせと、条件イベントの組み合わせの根本原因とされる結論イベントとの関係を示すルール)と、検知した各構成デバイスの性能とを照合することにより、閾値修正の必要がある構成デバイスを特定し、その閾値を調整する。より具体的には、展開ルールの原因イベントが発生したとき、或いは未発生のときの関連イベントの発生の有無を確認し、関連イベントの発生率に基づいて閾値修正の必要性を検知する。このようにすることにより、各構成デバイスに設定された性能管理のための閾値を、各構成デバイスの性能キャパシティに合致した適切な値に設定することが可能となる。
また、閾値を調整する場合には、特定された構成デバイスを有するノード装置(コントローラ1を有するストレージ装置1)とは異なる他のノード装置(同じコントローラを有するストレージ装置2)における、特定された構成デバイス(コントローラ1)と同一の構成デバイス(コントローラ2)の閾値についても、調整後の閾値(調整後のコントローラ1の閾値)に変更する。このようにすることにより、同じ構成部品についての閾値を一遍に適切な値に変更することができるので、システムを管理するときの効率が向上する。
なお、閾値の調整方法は、予め決められた変更幅を示す修正ルール(図20)に従って、調整後の閾値を算出するようにしても良いし、特定された構成デバイスの測定性能値の平均を演算し、当該平均値を調整後の閾値としても良い。
さらに、管理サーバは、構成デバイスの種類に応じて閾値の補正の優先度に関する情報(図19)を管理するようにする。そして、原因イベントを生じさせる構成デバイスの優先度は、関連イベントを生じさせる構成デバイスの優先度よりも高く設定されている。このとき、管理サーバは、解析結果表(図26)において、検討対象の構成デバイスについて、原因イベントの発生及び関連イベントの発生の有無と、優先度が低く設定されている構成デバイスの基準閾値を管理する。そして、管理サーバは、優先度が低く設定されている構成デバイスと同一のデバイスを有する他のノード装置の閾値が、基準閾値よりも厳格に設定されているか判断し、他のノード装置の閾値が基準閾値よりも厳格に設定されている場合には、検討対象の構成デバイスを閾値調整の対象から外すように管理する。このようにすることにより、他のデバイスで厳しい閾値が設定されているにも拘わらず、原因イベントが発生したからといって同じデバイスの閾値を緩和してしまうという不都合を回避することが可能となる。
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
10000:サーバ、20000:ストレージ装置、30000:管理サーバ、35000:WEBブラウザ起動サーバ、40000:IPスイッチ、45000:ネットワーク

Claims (15)

  1. 監視対象のノード装置と、ネットワークを介して前記ノード装置と接続され、前記ノード装置を管理する管理システムと、を含む計算機システムにおけるシステム管理方法であって、
    前記管理システムが、前記ノード装置を構成する構成デバイスの処理性能を示す処理性能値を取得し、
    前記管理システムが、前記構成デバイスについて設定された閾値と前記取得した処理性能値との比較に基づいて、前記構成デバイスの性能の異常を検知し、
    前記管理システムが、前記ノード装置で発生し得る1つ以上の条件イベントの組み合わせと、前記条件イベントの組み合わせの根本原因とされる結論イベントとの関係を示す解析ルールと、前記検知した各構成デバイスの性能とを照合することにより、前記閾値修正の必要がある構成デバイスを特定し、
    前記管理システムが、前記特定された構成デバイスの前記閾値を調整し、調整後の閾値を用いて前記ノード装置を管理する、
    ことを特徴とするシステム管理方法。
  2. 請求項1において、
    前記閾値を調整する際に、前記管理システムが、前記特定された構成デバイスを有する前記ノード装置とは異なる他のノード装置における、前記特定された構成デバイスと同一の構成デバイスの閾値についても、前記調整後の閾値に変更することを特徴とするシステム管理方法。
  3. 請求項2において、
    さらに、前記管理システムが、前記管理サーバの情報を表示するための表示デバイスの表示画面上に前記調整後の閾値を表示することを特徴とするシステム管理方法。
  4. 請求項2において、
    前記解析ルールは、前記条件イベントとして、障害の根本原因に直接関係する原因イベント及び前記障害が発生する場合に前記原因イベントと共に発生する関連イベントの組み合わせを有し、
    前記閾値修正の必要がある構成デバイスを特定する際に、前記管理システムが、前記原因イベントが発生状況に応じた前記関連イベントの発生の有無を検知し、前記関連イベントの発生率に基づくことを特徴とするシステム管理方法。
  5. 請求項4において、
    前記閾値を調整する際、前記管理システムが、予め決められた変更幅を示す修正ルールに従って、前記調整後の閾値を算出することを特徴とするシステム管理方法。
  6. 請求項4において、
    前記閾値を調整する際、前記管理システムが、前記特定された構成デバイスの測定性能値の平均を演算し、当該平均値を前記調整後の閾値とすることを特徴とするシステム管理方法。
  7. 請求項2において、
    前記管理サーバは、前記構成デバイスの種類に応じた前記閾値の補正の優先度に関する情報をメモリに有し、
    前記解析ルールは、前記条件イベントとして、障害の根本原因に直接関係する原因イベント及び前記障害が発生する場合に前記原因イベントと共に発生する関連イベントの組み合わせを有しており、
    前記原因イベントを生じさせる構成デバイスの優先度は、前記関連イベントを生じさせる構成デバイスの優先度よりも高く設定されており、
    前記方法は、さらに、
    前記管理システムが、検討対象の前記構成デバイスについて、前記原因イベントの発生及び前記関連イベントの発生の有無と、前記優先度が低く設定されている構成デバイスの基準閾値を管理し、
    前記管理システムが、前記優先度が低く設定されている構成デバイスと同一のデバイスを有する他のノード装置の閾値が、前記基準閾値よりも厳格に設定されているか判断し、
    前記管理システムが、前記他のノード装置の閾値が前記基準閾値よりも厳格に設定されている場合には、前記検討対象の構成デバイスを前記閾値調整の対象から外す、
    ことを特徴とするシステム管理方法。
  8. 監視対象のノード装置とネットワークを介して接続され、前記ノード装置を管理する管理システムであって、
    前記ノード装置の各構成デバイスの処理性能を示す処理性能値を取得するプロセッサと、
    前記ノード装置で発生し得る1つ以上の条件イベントの組み合わせと、前記条件イベントの組み合わせの根本原因とされる結論イベントとの関係を示す解析ルールを格納するメモリと、を有し、
    前記プロセッサは、前記取得した処理性能値と、前記各構成デバイスについて設定された閾値と比較に基づいて、前記各構成デバイスの性能の異常を検知し、前記解析ルールと前記検知した各構成デバイスの性能とを照合することにより、前記閾値修正の必要がある構成デバイスを特定すると共に、当該特定された構成デバイスの前記閾値を調整することを特徴とする管理システム。
  9. 請求項8において、
    前記プロセッサは、前記特定された構成デバイスを有する前記ノード装置とは異なる他のノード装置における、前記特定された構成デバイスと同一の構成デバイスの閾値についても、前記調整後の閾値に変更することを特徴とする管理システム。
  10. 請求項9において、
    前記プロセッサは、表示デバイスの表示画面上に前記調整後の閾値を表示することを特徴とする管理システム。
  11. 請求項9において、
    前記メモリは、前記解析ルールの前記条件イベントとして、障害の根本原因に直接関係する原因イベント及び前記障害が発生する場合に前記原因イベントと共に発生する関連イベントの組み合わせを有し、
    前記プロセッサは、前記原因イベントが発生状況に応じた前記関連イベントの発生の有無を検知し、前記関連イベントの発生率に基づいて、前記閾値修正の必要がある構成デバイスを特定することを特徴とする管理システム。
  12. 請求項11において、
    前記プロセッサは、予め決められた変更幅を示す修正ルールに従って前記閾値を調整し、前記調整後の閾値を算出することを特徴とする管理システム。
  13. 請求項11において、
    前記プロセッサは、前記特定された構成デバイスの測定性能値の平均を演算し、当該平均値を前記調整後の閾値とすることを特徴とする管理システム。
  14. 請求項9において、
    前記管理システムは、前記構成デバイスの種類に応じた前記閾値の補正の優先度に関する情報をメモリに有し、
    前記メモリは、前記解析ルールの前記条件イベントとして、障害の根本原因に直接関係する原因イベント及び前記障害が発生する場合に前記原因イベントと共に発生する関連イベントの組み合わせを有しており、
    前記原因イベントを生じさせる構成デバイスの優先度は、前記関連イベントを生じさせる構成デバイスの優先度よりも高く設定されており、
    前記プロセッサは、検討対象の前記構成デバイスについて、前記原因イベントの発生及び前記関連イベントの発生の有無と、前記優先度が低く設定されている構成デバイスの基準閾値を管理し、前記優先度が低く設定されている構成デバイスと同一のデバイスを有する他のノード装置の閾値が、前記基準閾値よりも厳格に設定されているか判断し、前記他のノード装置の閾値が前記基準閾値よりも厳格に設定されている場合には、前記検討対象の構成デバイスを前記閾値調整の対象から外すことを特徴とする管理システム。
  15. 請求項8において、
    前記ノード装置は、1つ以上のストレージ装置、及び1つ以上のホストコンピュータを含み、
    前記ストレージ装置は、前記構成デバイスとして、コントローラとI/Oポートを含み、
    前記ホストコンピュータは、前記構成デバイスとして、ドライブを含み、
    前記メモリは、前記解析ルールの前記条件イベントとして、障害の根本原因に直接関係する原因イベント及び前記障害が発生する場合に前記原因イベントと共に発生する関連イベントの組み合わせを有し、
    前記プロセッサは、前記原因イベントが発生したときの前記関連イベントの発生の有無を検知し、前記関連イベントの発生率に基づいて、前記閾値修正の必要がある構成デバイスを特定し、予め決められた変更幅を示す修正ルールに従って前記特定された構成デバイスの前記閾値を調整する、或いは、前記特定された構成デバイスの測定性能値の平均を演算し、当該平均値を前記調整後の閾値とし、表示デバイスの表示画面上に前記調整後の閾値を表示すると共に、前記特定された構成デバイスを有する前記ノード装置とは異なる他のノード装置における、前記特定された構成デバイスと同一の構成デバイスの閾値についても、前記調整後の閾値に変更することを特徴とする管理システム。
JP2010066546A 2010-03-23 2010-03-23 計算機システムにおけるシステム管理方法、及び管理システム Expired - Fee Related JP5222876B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010066546A JP5222876B2 (ja) 2010-03-23 2010-03-23 計算機システムにおけるシステム管理方法、及び管理システム
US12/812,708 US8554906B2 (en) 2010-03-23 2010-05-10 System management method in computer system and management system
PCT/JP2010/057894 WO2011118051A1 (ja) 2010-03-23 2010-05-10 計算機システムにおけるシステム管理方法、及び管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010066546A JP5222876B2 (ja) 2010-03-23 2010-03-23 計算機システムにおけるシステム管理方法、及び管理システム

Publications (2)

Publication Number Publication Date
JP2011198262A true JP2011198262A (ja) 2011-10-06
JP5222876B2 JP5222876B2 (ja) 2013-06-26

Family

ID=44672639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010066546A Expired - Fee Related JP5222876B2 (ja) 2010-03-23 2010-03-23 計算機システムにおけるシステム管理方法、及び管理システム

Country Status (3)

Country Link
US (1) US8554906B2 (ja)
JP (1) JP5222876B2 (ja)
WO (1) WO2011118051A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013103008A1 (ja) * 2012-01-05 2013-07-11 株式会社日立製作所 事象の原因を特定する情報システム、コンピュータ及び方法
WO2016016926A1 (ja) * 2014-07-28 2016-02-04 株式会社日立製作所 管理計算機及び性能閾値の評価方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150120914A1 (en) * 2012-06-13 2015-04-30 Hitachi, Ltd. Service monitoring system and service monitoring method
US20160006640A1 (en) * 2013-11-12 2016-01-07 Hitachi, Ltd. Management computer, allocation management method, and non-transitory computer readable storage medium
CN105320461B (zh) * 2014-07-01 2018-04-03 先智云端数据股份有限公司 用于软件定义储存系统的自适应快速反应控制系统
US20160170821A1 (en) * 2014-12-15 2016-06-16 Tata Consultancy Services Limited Performance assessment
US10152245B1 (en) * 2015-12-28 2018-12-11 EMC IP Holding Company LLC Storage management system and method
JP6206525B2 (ja) * 2016-03-15 2017-10-04 日本電気株式会社 監視装置、監視方法および監視プログラム
US10972333B2 (en) * 2016-03-16 2021-04-06 Telefonaktiebolaget Lm Ericsson (Publ) Method and device for real-time network event processing
JP2020071570A (ja) * 2018-10-30 2020-05-07 ファナック株式会社 データ作成装置、デバッグ装置、データ作成方法及びデータ作成プログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001343177A (ja) * 2000-05-31 2001-12-14 Fuji Electric Co Ltd 故障診断方法、故障診断装置、及び記録媒体
JP2006295413A (ja) * 2005-04-07 2006-10-26 Tess Engineering Kk 情報収集配信装置および設定装置
JP2007148728A (ja) * 2005-11-28 2007-06-14 Hitachi Ltd ポリシ制御方法、装置及びプログラム
JP2009116618A (ja) * 2007-11-06 2009-05-28 Toshiba Corp 情報処理装置
JP2009169657A (ja) * 2008-01-16 2009-07-30 Hitachi Ltd 性能監視条件の設定・管理方法及びその方法を用いた計算機システム
JP2009193486A (ja) * 2008-02-18 2009-08-27 Fuji Xerox Co Ltd 故障診断装置およびプログラム
JP2009205208A (ja) * 2008-02-26 2009-09-10 Nec Corp 運用管理装置、運用管理方法ならびにプログラム
JP2009206850A (ja) * 2008-02-28 2009-09-10 Fuji Xerox Co Ltd 故障診断装置およびプログラム
WO2009153901A1 (en) * 2008-06-17 2009-12-23 Hitachi, Ltd. Method and apparatus for performing root cause analysis

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7107185B1 (en) 1994-05-25 2006-09-12 Emc Corporation Apparatus and method for event correlation and problem reporting
US7076695B2 (en) * 2001-07-20 2006-07-11 Opnet Technologies, Inc. System and methods for adaptive threshold determination for performance metrics
US7444263B2 (en) * 2002-07-01 2008-10-28 Opnet Technologies, Inc. Performance metric collection and automated analysis
US7457864B2 (en) * 2002-11-27 2008-11-25 International Business Machines Corporation System and method for managing the performance of a computer system based on operational characteristics of the system components
JP4421230B2 (ja) 2003-08-12 2010-02-24 株式会社日立製作所 性能情報分析方法
JP2005165852A (ja) * 2003-12-04 2005-06-23 Hitachi Ltd ストレージシステム、ストレージ制御装置、ストレージシステムの制御方法
US8086708B2 (en) * 2005-06-07 2011-12-27 International Business Machines Corporation Automated and adaptive threshold setting
JP5121161B2 (ja) * 2006-04-20 2013-01-16 株式会社日立製作所 記憶システム、パス管理方法及びパス管理装置
JP4837445B2 (ja) 2006-06-06 2011-12-14 株式会社日立製作所 記憶システム並びに管理装置及び方法
US7779101B1 (en) * 2006-06-27 2010-08-17 Emc Corporation Method and apparatus for mapping and identifying the root causes of performance problems in network-based services
JP4922834B2 (ja) * 2007-05-29 2012-04-25 株式会社日立製作所 コンピュータシステムに存在するリソースの性能を監視する装置及び方法
US9225610B2 (en) 2008-03-31 2015-12-29 Hitachi, Ltd. User interface providing information system topology presentation

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001343177A (ja) * 2000-05-31 2001-12-14 Fuji Electric Co Ltd 故障診断方法、故障診断装置、及び記録媒体
JP2006295413A (ja) * 2005-04-07 2006-10-26 Tess Engineering Kk 情報収集配信装置および設定装置
JP2007148728A (ja) * 2005-11-28 2007-06-14 Hitachi Ltd ポリシ制御方法、装置及びプログラム
JP2009116618A (ja) * 2007-11-06 2009-05-28 Toshiba Corp 情報処理装置
JP2009169657A (ja) * 2008-01-16 2009-07-30 Hitachi Ltd 性能監視条件の設定・管理方法及びその方法を用いた計算機システム
JP2009193486A (ja) * 2008-02-18 2009-08-27 Fuji Xerox Co Ltd 故障診断装置およびプログラム
JP2009205208A (ja) * 2008-02-26 2009-09-10 Nec Corp 運用管理装置、運用管理方法ならびにプログラム
JP2009206850A (ja) * 2008-02-28 2009-09-10 Fuji Xerox Co Ltd 故障診断装置およびプログラム
WO2009153901A1 (en) * 2008-06-17 2009-12-23 Hitachi, Ltd. Method and apparatus for performing root cause analysis
JP2011518359A (ja) * 2008-06-17 2011-06-23 株式会社日立製作所 根本原因分析を実行する方法および装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013103008A1 (ja) * 2012-01-05 2013-07-11 株式会社日立製作所 事象の原因を特定する情報システム、コンピュータ及び方法
WO2016016926A1 (ja) * 2014-07-28 2016-02-04 株式会社日立製作所 管理計算機及び性能閾値の評価方法

Also Published As

Publication number Publication date
JP5222876B2 (ja) 2013-06-26
WO2011118051A1 (ja) 2011-09-29
US8554906B2 (en) 2013-10-08
US20120023219A1 (en) 2012-01-26

Similar Documents

Publication Publication Date Title
JP5222876B2 (ja) 計算機システムにおけるシステム管理方法、及び管理システム
US9146793B2 (en) Management system and management method
JP5684946B2 (ja) イベントの根本原因の解析を支援する方法及びシステム
US8819220B2 (en) Management method of computer system and management system
US9619314B2 (en) Management system and management program
US8429455B2 (en) Computer system management method and management system
US20200012550A1 (en) Enabling symptom verification
JP5432867B2 (ja) 計算機システムの管理方法、及び管理システム
JP5385459B2 (ja) 管理システム及び計算機システムの管理方法
WO2012053104A1 (ja) 管理システム、及び管理方法
JP6009089B2 (ja) 計算機システムを管理する管理システム及びその管理方法
WO2020000760A1 (zh) 服务器的管理方法、装置、计算机设备及存储介质
US9021078B2 (en) Management method and management system
JP5419819B2 (ja) 計算機システムの管理方法、及び管理システム
US20200012580A1 (en) Storage apparatus, storage system, and performance evaluation method
US20160004584A1 (en) Method and computer system to allocate actual memory area from storage pool to virtual volume
US10503577B2 (en) Management system for managing computer system
JP5938482B2 (ja) 情報処理装置及びプログラム
WO2017068623A1 (ja) 管理計算機及び閾値設定方法
JP2021105897A (ja) 制御プログラム、制御方法および制御装置
WO2015145677A1 (ja) 管理計算機及びプラットフォーム改善方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130311

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160315

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160315

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees