JP2011076293A - 障害の根本原因解析結果表示方法、装置、及びシステム - Google Patents

障害の根本原因解析結果表示方法、装置、及びシステム Download PDF

Info

Publication number
JP2011076293A
JP2011076293A JP2009225859A JP2009225859A JP2011076293A JP 2011076293 A JP2011076293 A JP 2011076293A JP 2009225859 A JP2009225859 A JP 2009225859A JP 2009225859 A JP2009225859 A JP 2009225859A JP 2011076293 A JP2011076293 A JP 2011076293A
Authority
JP
Japan
Prior art keywords
information
analysis result
result information
aggregation
cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009225859A
Other languages
English (en)
Other versions
JP5542398B2 (ja
Inventor
Tomohiro Morimura
知弘 森村
Kimitoku Sugauchi
公徳 菅内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009225859A priority Critical patent/JP5542398B2/ja
Priority to US12/664,382 priority patent/US8423826B2/en
Priority to PCT/JP2009/005560 priority patent/WO2011039825A1/ja
Priority to EP09850016.8A priority patent/EP2485148A4/en
Priority to CN200980159268.7A priority patent/CN102428447B/zh
Publication of JP2011076293A publication Critical patent/JP2011076293A/ja
Application granted granted Critical
Publication of JP5542398B2 publication Critical patent/JP5542398B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Abstract

【課題】多数のルールで原因分析を行う管理システムを用いる管理者の負担を軽減する。
【解決手段】管理システムは少なくとも第一の解析ルール情報と第二の解析ルール情報を有し、検知した情報処理装置の状態に基いて第一の解析結果と第二の解析結果を取得し、(A)解析結果が示す原因、(B)解析結果の元となった解析ルール情報の状態条件、又は(C)検知済みの状態に基いて第一の解析結果と第二の解析結果を集約し、表示する。
【選択図】図1

Description

本発明は、サーバ計算機、ネットワーク装置、又は/及びストレージサブシステムを含む計算機システム、並びに、当該計算機システムを管理する管理システム、当該計算機システム及び当該管理システムを含む計算機システムに関する。
近年、計算機システムは、計算機ネットワーク(以降、単にネットワークと記す)を介して様々な情報処理装置を相互に接続することで複雑化・大規模化してきており、これに伴いいずれかの情報処理装置に発生した障害がネットワークを介して様々な情報処理装置に影響を与えるようになってきた。これらの障害の箇所と原因を特定する根本原因解析技術として、情報処理装置から通知される障害内容を表すイベント情報を用いて障害箇所及び原因を解析するイベント・コリレーション技術がある(例えば、特許文献1)。イベント・コリレーション技術は、障害時に上げられるイベントの相関を利用して根本原因を推測するもので、古くからネットワークシステムの障害の診断に用いられてきた。
また、非特許文献2では、当該技術と障害時のイベントの組み合わせと推測される根本原因を対にしてルール化することで、エキスパートシステムをベースとした推論エンジンを用いて根本原因を迅速に突き止める技術が開示されている。
米国特許第6249755号
"Rete: A Fast Algorithm for the Many Pattern/Many Object Pattern Match Problem", ARTIFICIAL INTELLIGENCE, Vol. 19, no. 1, 1982, pp. 17−37
イベント・コリレーション技術は、障害時に通知されるイベントの組み合わせパターンから障害の原因候補を絞り込む有効な技術であるが、あるイベントに対して複数の原因候補が関連することが多く、イベントの組み合わせパターンも、多種多様な情報処理装置と、接続関係の多様化と、障害パターンの複雑化・多様化により、個々に出力される原因候補は、同時に成立しないもの、又は冗長なものがある場合がある。特にイベントの組み合わせに対して障害の原因候補をペアとしてif−then形式(条件−結論形式と以後呼ぶことがある)のルールにより計算機システムの障害原因を解析する場合には、多種多様な情報処理装置、接続パターン、障害パターンに対応するために多数のルールを設計、用意する必要がある。
しかし、障害が発生した場合に出力される解析結果がルール単位に表示する場合、ルールが多数存在した場合に解析結果の表示数が多くなり、解析結果を確認する管理者の負担が高くなる。
本発明の目的は、多数のルールで原因分析を行う管理システムを用いる管理者の負担を軽減することである。
本発明における管理システムは少なくとも第一の解析ルール情報と第二の解析ルール情報を有し、検知した情報処理装置の状態に基いて第一の解析結果と第二の解析結果を取得し、(A)解析結果が示す原因、(B)解析結果の元となった解析ルール情報の状態条件、又は(C)検知済みの状態に基いて第一の解析結果と第二の解析結果を集約し、表示する。
本発明により、多数のルールで原因分析を行う管理システムを用いる管理者の負担を軽減することができる。
図1は計算機システムの全体構成の概観図を模式的に示した図である。 図2は障害解析をプロセッサで行うときに使う解析ルール情報を示した図である。 図3はファイルサーバの公開ファイルシステム障害に関する解析ルール情報の例とサーバのファイルシステム障害に関する解析ルール情報の例を示した図である。 図4はストレージサブシステムのFCポートと隣接接続するFCスイッチのトポロジにおけるストレージサブシステムのFCポートの障害に関する解析ルールの例を示した図である。 図5はストレージサブシステムのFCポートと隣接接続するFCスイッチのトポロジにおけるFCスイッチのポートの障害に関する解析ルールの例を示した図である。 図6はストレージサブシステムのコントローラの障害に関する解析ルールの例を示した図である。 図7はストレージサブシステムのFCポートの障害に関する解析ルールの例を示した図である。 図8は図3の解析ルールに対応する解析結果情報の例を示した図である。 図9は図4と図5の解析ルールに対応する解析結果情報の例を示した図である。 図10は図4と図5の解析ルールに対応する図9とは別の解析結果情報の例を示した図である。 図11は図6と図7の解析ルールに対応する解析結果情報の例を示した図である。 図12は集約した解析結果を画面表示するときに必要となる集約解析結果情報を示した図である。 図13は解析結果情報に対して、装置集約処理に用いる、原因装置をキーとして解析結果情報の識別情報を格納したテーブルT2を示した図である。 図14は解析結果情報に対して、部位集約処理に用いる、原因部位をキーとして解析結果情報の識別情報を格納したテーブルT3を示した図である。 図15は解析結果情報に対して、上位集約、排他選択、包含集約の処理で用いる、解析ID、解析IDに対応する適用条件リストと、受信イベントリストを格納したテーブルT4を示した図である。 図16は解析ルール単位ごとに解析結果情報を元に、各種集約処理を行い、集約した解析結果を画面に表示する処理のメインフローを示した図である。 図17はテーブルT2及びテーブルT3を作成するフロー図である。 図18はテーブルT4を作成するフロー図である。 図19は上位集約、排他選択、包含集約に対する集約処理で用いる図12のデータを作成するためのフローを示した図である。 図20はテーブルT4に基いて集約解析結果情報T1を作成するフロー図である。 図21は図20のフローの内、特に上位集約について詳細フローを示した図である。 図22は図20のフローの内、特に排他選択について詳細フローを示した図である。。 図23は図20のフローの内、特に包含集約について詳細フローを示した図である。 図24は集約解析結果を画面に表示するためのフローを示した図である。 図25は集約解析結果の画面表示データの例を示したものである。 図26は解析結果情報について示した図である。 図27はイベント情報について示した図である。 図28は管理対象装置群の例を示した図である。 図29は管理対象構成情報について示した図である。
以下、本発明について説明する。
以後の説明では「AAAテーブル」、「AAAリスト」、「AAADB」又は「AAAキュー」等の表現にて本発明の情報を説明するが、これら情報はテーブル、リスト、DB又はキュー等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「AAAテーブル」、「AAAリスト」、「AAADB」及び「AAAキュー」等について「AAA情報」と呼ぶことがある。
また各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」及び「番号」という表現を用いるが、これらの表現は装置や部品などの物理的な存在に限らず、論理的な存在についても区別をつけるために割り当てられているものであるため、お互いに置換が可能である。
以後の説明では「プログラム」を主語として説明を行う場合があるが、プログラムはプロセッサによって実行されることによって定められた処理をメモリ及びインタフェースを用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。また、プログラムの一部または全ては専用ハードウェアによって実現されてもよい。
また、各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。
<1.計算機システムの構成>
図1は、本発明の第1の実施の形態による計算機システムの1つの構成を示す概観図である。計算機システム0は、管理サーバ1と、管理サーバ1で生成される画面出力データを表示するためのディスプレイ装置D2と、管理対象装置群3とからなる。管理サーバ1は、管理対象装置群3を構成する計算機、ネットワークスイッチ(NWスイッチ)及びストレージサブシステムを含む情報処理装置を管理対象として監視・管理している。
管理サーバ1は、情報を電子データとして記憶するための領域であるメモリ10と、メモリ10に存在する電子データを用いて計算機ネットワーク上で発生した障害の解析処理を行うプロセッサ11と、管理対象装置群3と管理用の計算機ネットワークN3を介して電子データの送受信を行うためのネットワークインタフェース13(インタフェースはI/Fと略す場合がある)と、ディスプレイ装置D2に表示するためのデータを出力する画面出力インタフェース12とを備えて構成される。なお、ネットワークインターフェースは画面出力インターフェース12を兼ねても良い。
メモリ10は、主メモリとして半導体メモリであってもよく、補助メモリとして磁気ディスク装置と、外付けのストレージサブシステムとのいずれか又は両方を含んでも良い。
管理用ネットワークN3は、Local Areaについて限定されたネットワークである必要はない。管理用ネットワークN3は、情報処理装置間の通信を行うためのネットワークと別なネットワークであってもよく、また部分的または完全に同一なネットワークであってもよい。
メモリ10には、計算機システム0において管理サーバ1に予め与えられている管理対象装置群3に関する装置名、並びに計算機ネットワーク上でアクセスするために必要な識別情報及び認証情報を含む管理対象装置情報103を格納し、さらに以下の情報及びプログラムを格納する。
* 計算機ネットワークN4における接続状態、及び論理的な関係情報を含んだ管理対象構成情報103。なお、メモリ10は内容の異なる当該情報を複数格納し得る。
* プロセッサ11によって解析処理を行うための解析ルール情報104。なお、メモリ10は内容の異なる当該情報を複数格納し得る。
* プロセッサ11において解析ルール情報104を入力として解析処理がおこなわれた結果を格納するための解析結果情報102。なお、メモリ10は内容の異なる当該情報を複数格納し得る。
* 本発明の手順を実行するためのプログラムである管理プログラム105。
* 管理対象装置、又は管理対象装置にて発生したイベントについての情報を含むイベント管理情報106。メモリ10は内容の異なる当該情報を複数格納し得る。
* プロセッサ11によって管理プログラム105を実行した結果、生成される集約解析結果情報T1。
なお、メモリ10に格納された前記の各情報及びプログラムについては、後でフローチャートと情報の図とによって説明を補足する。
前述の通り、管理サーバ1はディスプレイ装置2と接続するが他の入出力装置を有しても良い。入出力装置の例としてはディスプレイとキーボードとポインタデバイスが考えられるが、これ以外の装置であってもよい。また、入出力装置の代替としてシリアルインターフェースやイーサーネットインターフェースを入出力装置とし、当該インタフェースにディスプレイ又はキーボード又はポインタデバイスを有する表示用計算機を接続し、表示用情報を表示用計算機に送信したり、入力用情報を表示用計算機から受信することで、表示用計算機で表示を行ったり、入力を受け付けることで入出力装置での入力及び表示を代替してもよい。当然ながら、管理サーバ1がディスプレイ装置を内蔵してもよい。
以後、管理対象装置群3を管理し、本願発明の表示用情報を表示する一つ以上の計算機の集合を管理システムと呼ぶことがある。管理サーバ1が表示用情報を表示する場合は管理サーバ1が管理システムであり、管理サーバ1と表示用計算機の組み合わせも管理システムである。また、管理処理の高速化や高信頼化のために複数の計算機で管理サーバ1と同等の処理を実現してもよく、この場合は当該複数の計算機(表示を表示用計算機が行う場合は表示用計算機も含め)が管理システムである。
<1.1.用語定義>
以下に、本発明で用いる用語の定義を記す。なお本箇所以外にも用語定義がされている。
情報処理装置:ネットワーク通信を送信または受信する装置(たとえばサーバ装置、ストレージサブシステム、プリンタ、スキャナ、パソコン、PDA、携帯電話等)と、ネットワーク通信を中継する装置(ルータ、プロキシーサーバ、スイッチ)とをさす。なお、サーバ装置は例えばWebサーバ、ファイルサーバ、ネームサーバ、ディレクトリサーバ、認証サーバ等が考えられるが、何らかのサービスを提供する装置であれば何でも良い。
監視対象情報処理装置:管理サーバ1が監視対象とする情報処理装置。
確信度:あるイベントが発生している確からしさを表す値。
<2.計算機システム又は管理サーバが有する情報>
管理サーバ1が有する各種情報について説明する。
<2.1.管理対象装置情報>
管理対象構成情報103は、管理サーバ1が管理対象とする管理対象装置の識別子と、装置間の物理的及び論理的な関係(例えば接続関係や、サーバ・クライアントの関係や、包含関係)を含む情報である。前記識別子は管理対象装置と通信するための識別子、例えばIPアドレス、FQDN(Fully Qualified Domain Name)、又はホスト名等が考えられる。しかしこれ以外の識別子であっても管理対象装置と最終的に通信可能であればよい。
図29は図28に示す管理対象装置群3の例に対して生成される管理対象構成情報103の一例である。なお、図29及び図30は一例であり、本願の権利範囲を限定するものではない。図29の例では、それぞれの監視対象情報処理装置について以下の情報を当該情報に格納している。なお、以下の項目は全てが必要とは限らない。
* 監視対象情報処理装置の種別(たとえば、ストレージサブシステム、スイッチ装置、サーバ装置等)と、当該装置を構成する部位の種別。
* 監視対象情報処理装置を構成する部位の情報及び装置と部位、または部位と部位の包含関係。
* ネットワーク通信を行うための部位については、接続相手となる部位。
* 監視対象情報処理装置の設定。
なお、管理対象構成情報103は以下の処理により生成又は更新されることが考えられるが、他の処理から生成されたものであってもよい。
* 管理プログラム105は、監視対象情報処理装置から受信した各装置についての構成情報及び設定情報に基いて管理対象構成情報103を生成又は更新する。
* 管理プログラム105が監視対象情報処理装置の設定を行える場合は、管理プログラムは管理サーバの入力装置を介して受信した装置設定情報を装置に設定すると共に、管理対象構成情報103を生成又は更新する。
<2.2.イベント管理情報>
図27はイベント管理情報106を示す。イベント管理情報は以下の情報を含む。
* イベントID。イベント管理情報を識別する情報である。
* イベント検知時間。イベントを検知した時間を示す。なお、イベント検知は監視対象情報処理装置である場合や、管理システムである場合もあり、当該時間にはそれぞれの計算機または装置が管理するタイマーに基いた値をセットする。
* 発生元装置ID。イベントが発生した装置の識別子を格納する。
* 発生元部位ID。イベントを生じさせた理由となる装置内の部位の識別子を格納する。
* 状態。イベント発生によって変化した発生元部位の状態を格納する。
なお、イベント管理情報106はこれら以外の情報を含んでも良く、また、上述の値は間接的な情報を格納することで、直接的な値の格納に変えても良い。これは例えば、”状態”の代わりとして”FCポートの電源ダウンを検知しました”等の結果的に特定の状態になることが明らかなメッセージを入れることがある。
なお、イベント管理情報106は、管理プログラム105の処理によって、監視対象情報処理装置がイベント検知に応じて生成して管理システムに送信するイベントに関する情報(以後、イベント受信情報と呼ぶ)の受信に応じて生成される。
<2.3.解析ルール情報>
図2は解析ルール情報104を示した図である。
解析ルール情報104は、以下の情報を含む。
* 解析ルールに対して一意に識別される識別情報104−1。
* 解析ルールを適用する対象とする装置及び部位同士の関係を示したトポロジ条件104−21。
* 管理対象装置群3で発生した障害の原因箇所を特定するために検知が必要とされる一つ以上のイベント(装置又は部位の状態を直接的又は間接的に示すことができるイベントがより好適)で構成される、いわゆる原因箇所を特定するための条件の集合である条件セット104−22。なお、前述のトポロジ条件104ー21と条件セット104ー22を合わせて条件パート104−2と呼ぶことがある。
* if−then形式のルールの結論として、障害の原因箇所を示す原因箇所情報104−31と障害原因に対する結論の詳細情報である結論詳細情報104−32とから成る結論パート104−3。
なお、条件セット104−22を構成する個々の条件は、さらに条件をルール内で識別するためのIDである条件ID C1とイベントの発生装置部位を示す装置部位C2と、その装置部位の状態を示す状態C3と、から成る。なお、条件ID C1は必須ではない。
<2.3.1.解析ルール情報の例>
本発明の説明のために、図28の装置群を例として、一般的なルールの例を説明する。
図3の解析ルール情報104−R1は以下の場合の解析ルール情報の例である。ルール識別情報が”R1”で識別される本情報は、以下のトポロジを想定する。
* ファイルサーバ計算機(以後ファイルサーバと省略して呼ぶ)のローカルのファイルシステムをネットワーク上の他の計算機に公開する。なお、ファイルシステムの公開対象は全ての場合もあればファイルシステムの一部の場合もある。
* 前述の他の計算機はネットワークを介して公開された前述のファイルシステムをネットワークドライブとして利用する。なお、ネットワークドライブはMicrosoft Windows(登録商標)固有の表現であり、公開されたファイルシステムを利用するためにネットワークドライブが必須というわけではない。
以上のトポロジを想定した場合、条件パートにはトポロジ条件として”ファイルサーバとファイルサーバの公開されたファイルシステムを利用するクライアント計算機”という指定がされる。条件パートは、さらに条件セットとして以下が指定される。
* 条件R1−21としてファイルサーバの公開されたファイルシステムの状態がエラーとなること。
* 条件R1−22としてクライアントマシンのネットワークドライブの状態がエラーとなること。
なお、エラー状態は少なくとも装置または部位が使えない状態であることを含む他、一般的にエラーとされる状態を含めても良い。以後で説明する他のケースについても特に記載しない限りエラー状態は前述の意味であるものとする。
この条件セットに対して結論パートは以下を指定する。
* 原因箇所情報は”ファイルサーバ”の公開されたファイルシステムである。
* 詳細メッセージは”ファイルサーバの公開されたファイルシステムの障害が原因”である。
図3の解析ルール情報104−R2はサーバのファイルシステムの障害を取り扱うための解析ルールの一例として以下が示されている。
* ルール識別情報R2−1には”R2”が、条件パートには適用先のトポロジとしてトポロジ条件は”なし”である為、少なくとも全ての管理対象のファイルサーバに適用される。
* 条件セットを構成する条件は、”計算機のファイルシステム”の状態がエラーであることを指定する。
そして、この条件セットに対応する結論として、結論パートR2−3には、以下を指定する。
* 原因箇所情報は、”計算機”の”ファイルシステム”である。
* 詳細メッセージは、”計算機のファイルシステムの障害が原因”である。
図4の解析ルール情報104−R3と図5の解析ルール情報104−R4はストレージサブシステムと、これとケーブルを介して直接接続されているFCスイッチに関する解析ルールの一例である。なお、前述の直接接続の意味は他のFCスイッチを介さないという意味である。
このため、104−R3と104−R4共に条件パートには適用先のトポロジとして”ストレージサブシステムのFCポートとFCスイッチのポートにおいて隣接しているポート”と指定している。
解析ルール情報104−R3の条件セットは、条件R3−21としてストレージサブシステムのFCポートの状態が”エラー”である事と、条件R3−22としてFCスイッチのFCポートの状態が”リンクダウン”へ変化したことと、の2つの条件で構成する。なおポートのリンクダウン状態とは当該ポート自体は正常な状態だが、接続先の装置(今回の場合はストレージサブシステム)と通信できない状態を意味する。
この場合の結論として結論パートR3−3には原因箇所情報として”ストレージサブシステム”の”FCポート”が指定され、詳細メッセージは”ストレージサブシステムのFCポート、又は装置間ケーブルのいずれか又は両方の障害が原因”と指定している。
図5記載の解析ルール情報104−R4の条件セットは、条件R4−21としてストレージサブシステムのFCポートの状態が”エラー”へ変化したことと、条件R4−22としてFCスイッチのポートの状態が”エラー”へ変化したことと、の2つの条件で構成する。
この場合の結論として結論R4−3には原因箇所情報として”FCスイッチ”の”ポート”を指定し、詳細メッセージは”FCスイッチのポート、又はストレージサブシステムのFCポート、又はケーブルのいずれか少なくとも一つの障害が原因”と指定している。
図6の解析ルール情報104−R5は、ストレージサブシステムのコントローラ障害に関する解析ルールの一例である。条件パートのトポロジ条件は”なし”であるため、全てのストレージサブシステムに適用されることを示す。条件セットは、条件R5−1としてストレージサブシステムのコントローラの状態が”エラー”に変化したことと、条件R5−2としてストレージサブシステムのコントローラの付いているFCポートの状態が”エラー”に変化したことと、の2つの条件で構成している。この場合の結論として結論R5−3には原因箇所情報として”ストレージサブシステム”の”コントローラ”を指定し、詳細メッセージは”ストレージサブシステムのコントローラ 障害が原因”と指定している。
図7の解析ルール情報104−R6は、ストレージサブシステムのFCポート障害に関する解析ルールの一例である。条件パートのトポロジ条件は”なし”であるため、全てのストレージサブシステムに適用されることを示す。条件セットは、条件R6−1としてストレージサブシステムのコントローラの付いているFCポートの状態が”エラー”に変化したことの1つの条件で構成している。この場合の結論として結論R6−3には原因箇所情報として”ストレージサブシステム”の”FCポート”を指定し、詳細メッセージは”ストレージサブシステムのFCポート 障害が原因”と指定している。
以上が本実施例の処理を説明するために用意した解析ルールの例である。
<2.4.解析結果情報>
図26は解析結果情報102を示した図である。解析結果情報102は、解析ルール情報104を、トポロジ条件に適合する一つ以上の監視対象情報処理装置のセットの構成または設定とトポロジ条件に合わせて具体化した展開済みルールのいずれかを元として作成される。解析結果情報102は、以下の情報を含む。
* 解析ID:解析結果情報を識別する識別子である。
* 解析時間:解析結果情報が格納した解析結果を得た時間である。
* 適用ルールID:解析結果を得るために使用した解析ルールIDの識別子である。
* 適用部位ID:適用ルールIDで識別される解析ルール情報を適用した、一つ以上の監視対象情報処理装置又は当該装置の部位についての一つ以上の識別子である。
* 原因装置情報:適用ルールIDで識別される解析ルール情報を適用部位IDで指定された監視対象情報処理装置又は当該装置の部位に適用して得られた、一連のイベントの原因となった監視対象情報処理装置についての、種別及び識別子である。なお本欄の種別は省略しても良い。
* 原因部位情報:適用ルールIDで識別される解析ルール情報を適用部位IDで指定された監視対象情報処理装置又は当該装置の部位に適用して得られた、一連のイベントの原因となった監視対象情報処理装置の部位についての、種別及び識別子である。なお本欄の種別は省略しても良い。
* 受信イベントリスト:当該解析結果情報に示す原因を導き出した元となる一つ以上のイベントに関する情報である。なお、個々のイベントに関する情報は、イベントの発生元である監視対象情報処理装置の識別子、又は当該装置の識別子に部位の識別子を加えた識別子と、当該装置または部位の状態を含む。
* 確信度:受信イベントリストに含まれる一つ以上のイベントから原因装置情報及び/又は原因装置部位が原因箇所であることに対する確からしさを示す。なお、本実施例では確信度は0から100の値を取り、100の場合は管理サーバが得たイベントの情報から上述の原因装置情報及び部位が確実に原因箇所であることを意味し、値が小さいほど確実性が下がることを意味する。なお、当然ながら確信度は他の表現で表記してもよい。
* メッセージ:適用ルールIDで識別される解析ルール情報を適用部位IDで指定された監視対象情報処理装置又は当該装置の部位に適用して得られた原因装置及び原因部位を表示するためのメッセージである。
なお、解析結果情報102は管理プログラム105によって以下の処理を行うことで生成される。
(Step A)管理プログラム105は、解析ルール情報104及び管理対象構成情報103を参照することで、解析ルール情報の条件パートのトポロジ条件に適合する監視対象情報処理装置を選択する。なお、トポロジ条件が複数の監視対象情報処理装置の関係を示している場合は、トポロジ条件に適合する装置の集合が複数選択される場合もある(例えばトポロジ条件としてストレージサブシステムを利用するサーバ装置とし、ストレージサブシステム及びサーバ装置が複数ある場合は、ストレージサブシステムとサーバ装置の集合を、複数選択する。)
(Step B)管理プログラム105は、Step Aで選択した個々の集合に対する処理として、解析ルール情報104の条件セットの条件を満たす、前述の装置集合が発生元のイベントをイベント管理情報106を参照することで選択する。
(Step C)管理プログラム105は、Step Bで選択したイベントが一つ以上の場合、Step Bの選択結果に基いて解析結果情報102を生成する。なお、解析結果情報102の各項目の値は以下の通り生成される。
* 受信イベントリスト:Step Bで選択したイベントの各々について、発生元装置ID及び発生元部位ID及び状態を格納する。なお、イベントを識別する情報としてイベント管理情報のイベントIDを上記値と共に格納してもよい。
* 適用ルールID:Step Aの選択に用いた解析ルール情報に格納されたルール識別情報を格納する。
* 適用部位ID:Step Aで選択した装置集合であって、解析ルール情報104の条件パートの原因箇所情報に記載の装置及び部位の識別子を格納する。
* 原因装置情報及び原因部位情報:Step Aで選択した装置集合であって、解析ルール情報104の条件パートの原因箇所情報に記載の装置及び部位の識別子を格納する。
* メッセージ:Step Aの選択に用いた解析ルール情報に格納された結論詳細情報104−32のテキスト文に原因装置情報及び原因部位情報の情報を追加したテキスト文。なお、本項目はテキスト形式以外の情報であってもよい。
* 確信度: 解析結果情報102の受信イベントリストに格納した情報と、解析ルール情報104の条件セットの条件に基いて計算された確信度を格納する。計算方法の一例としては、受信イベントリストが示すイベントの個数を、前述の条件セットの条件の個数で割った値に100を掛ける方法がある。しかし、他の方法で計算してもよい。
(Step D)管理プログラム105は、Step Cで生成した解析結果情報102をメモリに格納する。
なお、上記管理プログラムの処理は、管理プログラムが自律的に繰り返し実行してもよく、管理者からの指示によって実行してもよく、又はイベント管理情報又は解析ルール情報の生成・更新を契機としてもよい。
<2.4.1.解析結果情報の例>
図8乃至図11は、解析結果情報102の例を示したものである。
図8の解析結果情報102−1は、解析ルール情報R1のファイルサーバを担っているServerのSrv01に対する解析結果情報であり、R1に設定された条件セットの2つの条件についてイベントを受信していることを示している。この解析結果情報では、原因装置はファイルサーバのSrv01で、原因部位はFile Systemの”/dev/sdb”で、この結果に対する確信度は50%であることを示したものである(R1の解析ルールの条件セットは二つの条件から構成されるが、解析結果情報102−1生成時点ではそのうち一つのイベントしか受信していないため)。
図8の解析結果情報102−2は、解析ルール情報R2のServerのSrv01に対する解析結果情報であり、R2に設定された条件セットの1つの条件についてイベントを受信していることを示している。この解析結果情報では、原因装置はServerのSrv01で、原因部位はFile Systemの”/dev/sdb”で、この結果に対する確信度は100%であることを示したものである。
図9の解析結果情報102−3は、解析ルール情報R3のストレージサブシステムのStg01に対する解析結果情報であり、R3に設定された条件セットの2つの条件の内の1つの条件についてイベントを受信していることを示している。この解析結果情報では、原因装置はストレージサブシステムのStg01で、原因部位はFCポートのCtrl−Aを構成するP01ポートで、この結果に対する確信度は50%であることを示している。
図9の解析結果情報102−4は、解析ルール情報R4のFCスイッチ のFCSw01のポートP01に対する解析結果情報であり、R4に設定された条件セットの2つの条件の内の1つの条件についてイベントを受信していることを示している。この解析結果情報では、原因装置はFCスイッチのFCSw01又はストレージサブシステムのStg01で、原因部位はFCスイッチFCSw01のポートP01又はストレージサブシステムStg01のコントローラCtrl−A上のFCポートP01で、この結果に対する確信度は50%であることを示している。
図10の解析結果情報102−5は、解析ルール情報R3のストレージサブシステムのStg02に対する解析結果情報であり、R3に設定された条件セットの2つの条件の内の2つの条件についてイベントを受信していることを示している。この解析結果情報では、原因装置はストレージサブシステムのStg02で、原因部位はCtrl−AのFCポートP02で、この結果に対する確信度は100%であることを示している。
図10の解析結果情報102−6は、解析ルール情報R4のFCスイッチのFCSw01のポートのp05に対する解析結果情報であり、R4に設定された条件セットの2つの条件の内の1つの条件についてイベントを受信していることを示している。この解析結果情報では、原因装置はFCスイッチのFCSw01又はストレージサブシステムのStg02で、原因部位はFCスイッチFCSw01のポートp05又はストレージサブシステムStg02のコントローラCtrl−A上のFCポートP02で、この結果に対する確信度は50%であることを示している。
図11の解析結果情報102−7は、解析ルール情報R5のストレージサブシステムのStg03に対する解析結果情報であり、R5に設定された条件セットの2つの条件の内の2つの条件についてイベントを受信していることを示している。この解析結果情報では、原因装置はストレージサブシステムのStg03で、原因部位はコントローラのCtrl−Aで、この結果に対する確信度は100%であることを示している。
図11の解析結果情報102−8は、解析ルール情報R6のストレージサブシステムのStg03に対する解析結果情報であり、R6に設定された条件セットの1つの条件についてイベントを受信していることを示している。この解析結果情報では、原因装置はストレージサブシステムのStg03で、原因部位はコントローラCtrl−AのFCポートP01で、この結果に対する確信度は100%であることを示している。
以上が本実施例の処理を説明するために用意した解析結果情報の例である。
<2.5.集約解析結果情報>
図12は、集約した解析結果を画面表示するための表示用情報である集約解析結果情報T1を示したものである。
集約解析結果情報T1は、内容としては、どのような方法で集約するのかを示す集約種別を格納する列である集約種別C4と、集約した解析結果に対する確信度を格納する列であるC5と、集約した結果における原因箇所を要素とした原因箇所リストC6と、集約した元の解析結果情報を一意に識別するための識別子を格納する解析情報リストC7と、から構成される。これらの情報を用いて具体的にどのように画面を表示させるかの手順については、図24に詳細を記述しており、そこで改めて触れる。
なお、C4の集約種別として指定できるものは以下の5つである:
(A)装置集約:同じ原因装置であることを示す解析結果情報を1つに集約する。当該集約の場合、管理プログラム105は複数の解析結果情報のそれぞれに記載の受信イベントリストをまとめて表示し、かつ集約対象の複数の解析結果情報の確信度の最高値を表示することで、管理者はより多くのイベントが同一の原因装置の障害によって発生したことが容易に理解できるようになる。なお、個々の解析ルールに対して確信度を含む解析結果を表示する場合は、集約対象の複数の解析結果情報の中でもっとも高い値を採用し、集約対象の他の解析結果情報の確信度も当該高い値に修正する。
(B)部位集約:同じ原因部位であることを示す解析結果情報を1つに集約する。当該集約の場合、管理プログラム105は複数の解析結果情報に記載の受信イベントリストをまとめて表示し、かつ集約対象の複数の解析結果情報の確信度の最高値を表示することで、管理者はより多くのイベントが同一の原因装置の障害によって発生したことが容易に理解できるようになる。なお、個々の解析ルールに対して確信度を含む解析結果を表示する場合は、確信度は集約対象の複数の解析結果情報の中でもっとも高い値を採用し、集約対象の他の解析結果情報の確信度も当該高い値に修正する。
(C)上位集約:同一の適用装置及び部位の集合に対して複数の解析ルールを適用することで得られた複数の解析結果情報を集約対象とし、元となった複数の解析ルール間で異なる条件が、共通の所定の装置又は部位の状態である場合に、集約対象である複数の解析結果情報を一つに集約する。ただし、当該集約は、前述の共通の所定の装置又は部位の状態がイベント受信で得られない場合に適用される。当該集約の場合、管理プログラム105は集約対象の複数の解析結果情報のそれぞれに記載の原因装置情報又は原因部位情報又はメッセージをまとめて表示し、さらに集約した確信度として、集約対象の複数の解析結果情報ののそれぞれの確信度を合計した値を表示する。
(D)排他選択:同一の適用装置及び部位の集合に対して複数の解析ルールを適用することで得られた複数の解析結果情報を集約対象とし、元となった複数の解析ルール間で異なる条件が、共通の所定の装置又は部位の状態である場合に、集約対象である複数の解析結果情報から一つを選択し、残りの解析結果情報について障害監視上意味の無い解析結果であることを示す表示処理を行う。当該集約は、前述の共通の所定の装置又は部位の状態がイベント受信で得られる場合で、かつ当該状態がある瞬間は一つの状態しか排他的になりえないことが明らかな部位に対して適用される。また、選択する解析結果情報は確信度の高い情報を選択する。なお、確信度のより高い解析結果情報は、前述の共通の所定の装置又は部位の状態に関する条件を満たす解析ルールに基いた解析結果情報になる。なおこの場合の選択されなかった解析結果情報の表示処理としては、確信度をゼロにする場合もあれば、解析結果の表示の抑止、表示時の強調度を下げる等の例がある。
(E)包含集約:集約対象の複数の解析結果情報の元となった複数の解析ルールについて、複数の解析ルールの任意の一つである第一の解析ルールの複数の条件の一部が、複数の解析ルールの第一の解析ルール以外の一つであるその他の解析ルールの条件と同じである場合に、集約対象である複数の解析結果情報を一つに集約する。なお、集約後の原因装置及び確信度は、集約対象の複数の解析結果情報の中で最も確信度の高い解析結果情報の値を採用する。当該採用処理は、結果的には第一の解析ルールと第二の解析ルールの条件差分を満たすイベントを受信した場合は、第一の解析ルールに基く解析結果情報の値を採用し、そうでない場合はその他の解析ルールに基く解析結果情報の値を採用するとも言える。
なお、確信度が集約処理によって個々の解析結果情報の値よりも高くなる場合、上記計算結果より少なく、かつ元の解析結果情報の値より高い値を表示する場合も本発明の発明の範囲である。
<2.6.画面表示情報>
図25は、ディスプレイ装置D2に表示させる画面表示データの構成について示したものである。画面表示データは、大きくわけて、集約解析結果D21と、集約元解析結果D22と、集約解析トポロジ表示D23から成る。集約解析結果D21は、集約した解析結果の要約を表示する領域であり、集約した結果としての障害の原因に関する情報を表示する。このため、集約した解析メッセージとして、障害の原因箇所に言及した集約解析メッセージD211と、集約解析した結果に対する確からしさを示す確信度D212から成る。なお、集約元解析結果D22と、集約トポロジ表示D23は必ずしも必須の表示データではない。ITシステムを管理する管理者の都合にあわせて、表示の有無を決定すべきものである。ただし、集約された解析結果の生データである解析結果情報が何であるのかを把握したい場合には、集約元解析結果D22のような表示は有効である。
<2.7.管理プログラム>
管理プログラム105は、監視対象情報処理装置の状態を管理するプログラムである。管理プログラム105は、これまで示した処理及び以後説明する処理に加えて、監視対象情報処理装置の状態(例えば、障害発生の有無や、当該装置で行われた設定変更の有無や、性能に関する状態等がある)を管理し、ディスプレイ装置D2で表示する。そのため、当該管理プログラム105は例えば以下を行う。
(A)ネットワークインタフェース13を介して監視対象情報処理装置から管理情報(例えば、障害発生の有無や、当該装置の設定情報や、性能情報等がある)を受信する。
(B)受信した管理情報に基づいて上記状態を判断し、ディスプレイ装置D2へ表示させる。
なお、管理プログラム105は管理サーバ1が受信した監視対象情報処理装置への設定要求を受信し、当該要求に基づいてした監視対象情報処理装置への設定を行っても良い。
<3.管理サーバの処理および表示>
次に、管理サーバ1が有する管理プログラム105について説明する。
<3.1.管理プログラムによる処理の概要>
以下に、管理サーバ1が、ある時間の解析結果情報を取得し、ルール毎に出力された解析結果情報を、(A)装置集約、(B)部位集約、(C)上位集約、(D)排他選択、(E)包含集約、の5つの集約方法で解析結果が集約して絞りこまれて画面に表示されるまでの処理について示す。
図16は、管理プログラム105が任意のタイミングで、ある時間の解析結果情報に対して集約処理を実行して、画面に表示する手順を示したものである。なお、本手順は管理者によって指定されたタイミングで行ってもよい。以下、フローの説明を行う。
(ステップS1601)管理プログラム105は、集約解析の対象とする解析結果情報102を選択する。なお、選択方法は例えば、前回以前に本処理によって集約解析対象とならなかった解析結果情報を選択することが考えられるが、他の方法でもよい。
(ステップS1602、ステップS1606)管理プログラム105は、ステップS1で選択した集約解析対象の解析結果情報102のそれぞれについてステップS3乃至ステップS5の処理を行う。なお、以後の説明ではステップS1601で選択した集約解析対象の解析結果情報102の一つをS1601選択解析結果情報と呼ぶ。
(ステップS1603)管理プログラム105は、S1601選択解析結果情報から、原因装置情報、原因部位情報、および解析ルールIDを取得する。
(ステップS1604)管理プログラム105は、装置集約可能な解析結果情報を求めるために装置毎に関係する解析結果情報を記憶するテーブルT2にS1601選択解析情報を登録する。また、管理プログラム105は、部位集約可能な解析結果情報を求めるために装置及び部位毎に関係する解析結果情報を記憶するテーブルT3にS1601選択解析情報を登録する。なお、本処理は後ほど詳細を示す。
(ステップS1605)管理プログラム105は、上位集約、排他集約、又は包含集約可能な解析結果情報102を求めるために、テーブルT4に解析結果情報102を登録する。なお、本処理は後ほど詳細を示す。
(ステップS1607)管理プログラム105は、テーブルT2に記録した情報のうち、二つ以上の解析結果情報が同じ原因装置に関連している行を、装置集約として、集約解析結果情報T1に登録する。具体的な登録は以下の通りである。
* 集約種別:装置集約を示す値を格納する。
* 集約確信度:ステップS7の該当行の関連解析IDリストが示す複数の解析結果情報のうち、最も高い値を格納する。
* 原因箇所リスト:ステップS7の該当行の原因装置情報を格納する。
* 解析結果リスト:ステップS7の該当行の関連解析IDを格納する。
(ステップS1608)管理プログラム105は、テーブルT3に記録した情報のうち、二つ以上の解析結果情報が同じ原因装置と原因部位に関連している行を、部位集約として、集約解析結果情報T1に登録する。具体的な登録は以下の通りである。
* 集約種別:部位集約を示す値を格納する。
* 集約確信度:ステップS8の該当行の関連解析IDリストが示す複数の解析結果情報のうち、最も高い値を格納する。
* 原因箇所リスト:ステップS8の該当行の原因装置情報及び原因箇所情報を格納する。
* 解析結果リスト:ステップS8の該当行の関連解析IDリストを格納する。
(ステップS1609)管理プログラム105は、テーブルT4に基いて、集約種別が排他選択又は上位集約又は包含集約が適用できる解析ルールに対して集約解析結果情報T1を作成・更新する。なお、本処理は後ほど詳細を示す。
(ステップS1610)管理プログラム105は、集約解析結果情報T1と、イベント管理情報106と、解析ルール情報104と、管理対象構成情報103と、解析結果情報102と、を用いて、集約解析結果をディスプレイ装置D1に画面描画・出力する。ここで、どのようなデータを元に図25に示す集約解析結果の画面表示の画面構成を表示するのかについては、後述の画面出力処理手順にて説明する。
なお、集約後の集約解析結果を新たな入力としてさらに集約処理を行っても良い。
<3.2.管理プログラムが作成するその他の情報>
以下に上述の処理で用いたテーブルT2乃至テーブルT4について説明する。
<3.2.1.テーブルT2>
図13は、テーブルT2を示した図である。テーブルT2は原因装置カラムC201に記載の原因装置毎に、当該装置が原因装置である解析結果情報102の識別子をカラムC202に格納する。なおテーブルT2は、プログラム実行中に作成し、集約解析結果情報T1を生成後に消去してもよい。
テーブルT2に例示されたL201は図8の解析結果情報102−1及び102−2に対するステップS1604の処理結果であり、これら解析結果情報の原因装置が同一の”Srv01”であるため、図13のL201のように、関連解析IDリストが”A−01, A−02”が登録される。
<3.2.2.テーブルT3>
図14は、テーブルT3を示した図である。テーブルT3は原因装置・原因部位情報カラムC301に記載の原因装置及び部位毎に、当該装置の部位が原因部位である解析結果情報102の識別子をカラムC303に格納する。なおテーブルT2は、プログラム実行中に作成し、集約解析結果情報T1を生成後に消去してもよい。
テーブルT3に例示されたL301は図8の解析結果情報102−1及び102−2に対するステップS1604の処理結果であり、これら解析結果情報の原因部位が同一の”Srv01./dev/sdb”であるため、図14のL301のように、関連解析IDリストが”A−01, A−02”が登録される。
<3.2.3.テーブルT4>
図15は、テーブルT4を示した図である。テーブルT4は解析結果情報毎に、解析結果情報記載の原因を確信度100で得るために受信が必要なイベントのリスト(適用条件リストC402)と、解析結果情報の確信度を計算した時点で用いた(または受信した)イベントのリスト(受信イベントリストC403)と、を格納する。なおテーブルT4は、プログラム実行中に作成し、集約解析結果情報T1を生成後に消去してもよい。
テーブルT4に例示されたL401は図8の解析結果情報102−1に対するステップS1605の処理結果であり、適用条件C402として、解析結果情報102−1の適用部位IDに記載の装置及び部位に対して適用ルールIDが示す解析ルール情報R1の条件セットを適用部位ID記載の装置及び部位適用したことで生成された”Srv01./dev/sdb.Error, Srv05.NetworkDrive−D.Error”を格納する。また、受信イベントリストC403として、解析結果情報102−1の受信イベントリストの情報である”Srv01./dev/sdb.Error”を格納する。
<3.3.1.テーブルT2及びT3作成処理>
次に、装置集約および部位集約のためのテーブルT2及びT3の作成処理について説明する。図17は、図16のステップS1604の詳細を示したフローである。
(ステップS1701)管理プログラム105は、図16のステップS1603で取得したS1601選択解析結果情報から取り出した原因装置情報を持つテーブルT2の行を検索し、存在しない場合は取り出した原因装置情報をカラムC201とする行を作成する。そして、管理プログラム105は、取り出した原因装置情報を持つテーブルT2の行にS1601選択解析結果情報の解析IDを追加する。
(ステップS1702)管理プログラム105は、図16のステップS1603で取得したS1601選択解析結果情報から取り出した原因装置情報及び原因部位情報を持つテーブルT3の行を検索し、存在しない場合は取り出した原因装置情報をカラムC301とする行を作成する。そして、管理プログラム105は、取り出した原因装置情報を持つテーブルT3の行にS1601選択解析結果情報の解析IDを追加する。
<3.3.2.テーブルT4の作成処理>
次に、上位集約、排他選択、及び包含集約のためのテーブルT4の作成処理について説明する。図18は、図16のステップS1605の詳細を示したフローである。
(ステップS1801)管理プログラム105は、テーブルT4に、図16のステップS1603で取得したS1601選択解析結果情報を登録する。より具体的にはテーブルT4の各カラムは以下の値を格納する。
* 解析ID C401:S1601選択解析結果情報の解析IDを格納する。
* 適用条件リストC402:S1601選択解析結果情報の適用部位IDが示す監視対象装置又は部位に対して、適用ルールIDが示す解析ルール情報の条件を適用して得た監視対象装置及び部位と条件の集合を格納する。
* 受信イベントリストC403:S1601選択解析結果情報の受信イベントリストの値を格納する。
<3.3.2.集約解析結果情報T1の作成処理>
次に、図16におけるステップS1609の、上位集約、排他選択、及び包含集約に対する集約処理手順を詳細化した図19について説明する。
(ステップS1901、ステップS1905)管理プログラム105は、テーブルT4に含まれる行のそれぞれ(以後、S1901対象T4行と呼ぶ)を対象として、ステップS1902乃至ステップS1904の処理を、実行する。
(ステップS1902、ステップS1904)管理プログラム105は、テーブルT4に含まれる各行であって、S1901対象T4行を除いた行のそれぞれ(以後、S1902対象T4行と呼ぶ)を対象として、ステップS1903の処理を、実行する。
(ステップS1903)管理プログラム105は、S1901対象T4行及びS1902対象T4行に基いて、集約解析を行う。
図20は、図19のステップ1903の詳細を記したフローである。
(ステップS2000)管理プログラム105は、S1901対象T4行の適用条件リストC402の条件とS1902対象T4行の適用条件リストC402の条件とを比較することで、S1901対象T4行とS1902対象T4行とで共通の条件と、S1901対象T4行のみが有する条件(S1901対象T4行固有条件と呼ぶことがある)と、S1902対象T4行のみが有する条件(S1902対象T4行固有条件と呼ぶことがある)を得る。
(ステップS2001)管理プログラム105は、S1901対象T4行固有条件と、S1902対象T4行固有条件とが、同一の監視対象情報処理装置の部位に関する条件で、状態条件のみが異なる場合は、ステップS2002を実行し、そうでない場合はS2006を実行する。
(ステップS2002)管理プログラム105は、S1901対象T4行固有条件とS1902対象T4行固有条件に関するイベントを一つでも受信した場合はステップS2004を実行し、全て受信していない場合はステップS2003を実行する。
(ステップS2003)管理プログラム105は、集約種別を上位集約としてS1901対象T4行とS1902対象T4行を集約解析結果情報T1に登録し、図19の処理に戻る。なお、本処理は後ほど詳細に説明する。
(ステップS2004)管理プログラム105は、集約種別を排他選択としてS1901対象T4行とS1902対象T4行を集約解析結果情報T1に登録し、図19の処理に戻る。なお、本処理は後ほど詳細に説明する。
(ステップS2005)管理プログラム105は、S1901対象T4行固有条件またはS1902対象T4行固有条件のどちらかが条件を持たないかどうかを確認する。本処理は言い換えると、片方の対象T4行の適用条件リストC402の条件の全てが、もう片方の対象T4行の適用条件リストC402の条件に含まれるかどうかを確認することと言い換えても良い。もし、片方の固有条件が条件を持たない場合は、ステップS2007を実行し、そうでない場合は図19の処理に戻る。
(ステップS2006)管理プログラム105は、集約種別を包含集約としてS1901対象T4行とS1902対象T4行を集約解析結果情報T1に登録し、図19の処理に戻る。なお、本処理は後ほど詳細に説明する。
次に、図20のステップS2003における、上位集約に対するT1へのデータ登録処理を詳細化した図21の処理手順について説明する。以下、フローの説明を行う。
(ステップS2101)管理プログラム105は、S1901対象T4行と、S1902対象T4行の解析IDからそれぞれ解析結果情報102を取得する。
(ステップS2102)管理プログラム105は、T1に集約種別が上位集約である行(説明を分かりやすくするために集約解析結果情報T1の行をT1行と呼ぶ)を追加する。追加するT1行の各列の値は、以下の通りである。
* 集約確信度:図20のステップS2000で得た共通の条件のみで評価した確信度を格納する。
* 原因箇所リスト:原因装置情報と原因部位情報を組み合わせた原因箇所情報を取得した二つの解析結果情報102それぞれに対して求めた後に求めた情報を加えたリストを格納する。
* 解析結果リストには、S1901対象T4行の解析IDと、S1902対象T4行の解析IDとを格納する。
以上の手順により、上位集約に対するT1へのデータ登録が完了する。
解析結果情報A−03とA−04を例とすると、それぞれが対応する解析ルール情報R−3, R−4の条件セットの内、状態の部分のみが異なるFCスイッチのポートの状態の"エラー"と"リンクダウン"が、ストレージサブシステムの"Stg01"に直接接続されるFCスイッチに関するイベントを管理プログラム105が受信できていない場合を示している。なお、FCスイッチに関するイベントを管理プログラム105が受信できていない場合というのは、FCスイッチのいずれのポートでもエラーまたはリンクダウン以外の状態もあれば、FCスイッチと管理サーバ1との通信障害によってイベント受信ができない状態でエラーまたはリンクダウンの何れかを示したイベントを受信できなかった場合の両方がありうる。
以上の状況でA−03及びA−04の集約確信度は、FCスイッチに対する条件であるR3−22、およびR4−22を省いたR3及びR4が共通に持っている条件であるストレージサブシステム の"Stg01"の"FCポート"の"エラー"のみを条件として確信度を計算する。したがって、集約解析結果情報T1にはL103のように登録されることになる。これにより、確信度を高めた影響で解析粒度が複数ルールを集約した粗い粒度に集約されることになるが、似たような原因に対する解析結果をまとめて表示することができる。
次に、図20のステップS2004における、排他選択に対するT1へのデータ登録処理を詳細化した図22の処理手順について説明する。以下、フローの説明を行う。
(ステップS2201)管理プログラム105は、S1901対象T4行と、S1902対象T4行の解析IDから解析結果情報102を取得する。そして、管理プログラム105は、S1901対象T4行の解析結果情報102の確信度と、S1902対象T4行の解析結果情報102の確信度を比較して高い確信度を持つ解析結果情報を選択する。
(ステップS2202)管理プログラム105は、T1に集約種別を排他選択であるT1行を追加する。なお追加するT1行の各列の値は以下の通りである。
* 集約確信度:ステップS2201の高い確信度を持つ解析結果情報102の確信度を格納する。
* 原因箇所リスト:ステップS2201の高い確信度を持つ解析結果情報102の原因装置情報、原因部位情報を組み合わせた原因箇所情報を格納する。
* 解析結果リスト:高い確信度を持つ解析結果情報の解析IDを先に格納し、次に高い確信度ではなかったS1901対象T4行又はS1902対象T4行どちらかの解析IDを格納する。
以上の手順により、排他集約に対するT1へのデータ登録が完了する。
解析結果情報A−5とA−6を例とすると、それぞれが対応する解析ルール情報R−3, R−4の条件セットの内、状態の部分のみが異なるFCスイッチのポートの状態が"リンクダウン"としてイベント受信された場合を示している。
以上の状況でA−05及びA−06の集約確信度は、解析結果情報の内、確信度が高くなるA−5を選択して、これを集約確信度とし、原因箇所リストについてはA−5の結果を採用することとなる。したがって集約解析結果情報T1にはL104のように登録される。これにより、冗長な解析結果をフィルタリングすることが可能となり、より正確な精度の高い解析結果だけを選択して表示することができる。
次に、図20のステップS2006における、包含集約に対するT1へのデータ登録処理を詳細化した図23の処理手順について説明する。以下、フローの説明を行う。
(ステップS2300)管理プログラム105は、ステップ2000で求めたS1901対象T4行固有条件とS1902対象T4行固有条件のうち、条件が含まれる条件を選択する。なお、以後の説明では前述の選択した条件を差分条件と呼び、差分条件を適用条件リストC402に含むS1901対象T4行又はS1902対象T4行のいずれかを親条件のT4行と呼び、そうでないT4行を子条件のT4行と呼ぶ。当該呼び方を用いると、親条件のT4行の適用条件リストC402は、子条件のT4行の適用条件リストC402に差分条件を加えたリストとなる。
(ステップS2301)管理プログラム105は、差分条件の少なくとも一つを満たすイベントを受信できているか確認し、少なくとも一つを受信できている場合は親条件のT4行を選択し、そうでない場合は子条件のT4行を選択する。
(ステップS2304)管理プログラム105は、ステップS2301で選択したT4行の解析IDから対応する解析結果情報102を取得する。
(ステップS2305)管理プログラム105は、T1に集約種別が包含集約である行を追加する。なお追加するT1行の各列の値は以下の通りである。
* 集約確信度:ステップS2304で取得した解析結果情報102の確信度を格納する。
* 原因箇所リスト:ステップS2304で取得した解析結果情報102の原因装置情報、原因部位情報を組み合わせた原因箇所情報を格納する。
* 解析結果リスト:ステップS2304で取得した解析結果情報102の解析IDを先に格納し、次にもう一つの解析結果情報102の解析IDを格納する。
以上の手順により、包含集約に対するT1へのデータ登録が完了する。
解析結果情報A−07とA−08を例とすると、それぞれが対応する解析ルールのRー5, Rー6の条件セットは、Rー5の条件セットがRー6の条件セットを包含する形となっている。Rー5, Rー6に共通な条件はストレージサブシステムのFCポートのエラー状態の条件であり、R5のみに存在する条件は、ストレージサブシステムのコントローラのエラー状態の条件である。ここで、コントローラのエラーの条件が成立した場合には、R−5の解析結果情報を採用、選択して表示し、一方でコントローラのエラーの条件が成立していない場合には、R−6の解析結果情報を採用、選択して表示することになる。
したがってT1にはL4のように登録される。これにより、包含関係を持つルール間の解析結果は、解析できている情報に応じて最適な粒度の解析結果が選択されて表示できるようになる。
<3.4.表示処理>
次に作成されたT4の集約解析結果情報により、どのように画面表示されるのかの処理について詳細化した図24について説明する。なお、本処理は図16の解析から表示までの一連の処理の一環として行うほか、管理サーバ1の管理者からの画面表示要求にもとづいて処理を開始してもよい。以下、フローの説明を行う。
(ステップS91)管理プログラム105は、集約解析結果情報T1の原因箇所リストC103から、集約用の共通メッセージリソースを用いて集約解析メッセージD211の表示データを作成する。なお集約用の共通メッセージリソースは、原因箇所と原因部位、および確信度を含んだ汎用性の高いメッセージを用意しておく。例として、”原因は、装置(XXX)の部位(YYY)の障害です。(確信度:ZZ%)”のようなものを用意して利用する。
(ステップS92)管理プログラム105は、ステップS91で作成したD211の表示データにもとづいて集約解析メッセージD211の画面を描画する。
(ステップS93)管理プログラム105は、集約解析結果情報T1の集約確信度から、確信度D212の表示データを取得する。
(ステップS94)管理プログラム105は、ステップS93で取得した表示データを元に確信度D212の画面を描画する。
(ステップS95)管理プログラム105は、集約解析結果情報T1の解析情報リストから、集約元解析結果D22の表示データを取得する。
(ステップS96)管理プログラム105は、ステップS95で取得した表示データを元に集約元解析結果D22の画面を描画する。
(ステップS97)管理プログラム105は、集約解析結果情報T1の解析結果リストから解析IDを取得し、解析IDから解析結果情報102を取得して、関連する装置情報を管理装置構成情報103から取得して、トポロジ表示データを作成する。
(ステップS98)管理プログラム105は、ステップS97で作成したトポロジ表示データを元に集約解析トポロジ画面を描画する。
以上の手順により、集約解析結果情報T1を用いて、画面に集約された障害の解析結果情報を表示する画面を得ることができる。
なお、本実施例では受信したイベントに関する情報を用いて監視対象情報処理装置装置または当該装置の部位の状態を得ている。しかし、別な実施形態として、管理プログラム105は繰り返し監視対象情報処理装置に問い合わせすることで前述の状態を得て、繰り返し得た状態のうち、同一装置または同一装置の同一部位について最も最後に取得した状態をイベント管理情報(各装置及び部位の状態を格納するのであれば装置状態管理情報と呼ぶことがある)に格納してもよい。この場合、受信していないイベントという表現は管理プログラム105が状態把握できないという表現に置き換えればよい。
以上、本実施例では前記情報処理装置から管理情報を受信するネットワークインタフェースと、前記管理情報に基づいて前記情報処理装置の状態を判断するプロセッサと、前記情報処理装置の状態と、前記状態が発生した原因である原因装置を特定するための複数の解析ルール情報と、を格納するメモリと、前記情報処理装置の状態を表示するディスプレイ装置とを有する管理システムについて説明した。
なお、
(A)前記メモリは、前記原因装置の原因を示す原因情報と、前記原因装置を十分条件で特定するための前記情報処理装置に関する一つ以上の状態条件と、前記原因情報の確からしさを表す確信度と、前記一つ以上の状態条件の一部または全てを満たす一つ以上の検知済み状態と、を含み、前記解析ルール情報に基いて生成された解析結果情報を複数格納し、
(B)前記プロセッサは、前記解析結果情報に含まれる前記原因情報又は前記一つ以上の状態条件又は前記一つ以上の検知済み状態に基いて、複数の前記解析結果情報から集約対象とする複数の解析結果情報を選択し、
(C)前記プロセッサは、前記集約対象とする複数の解析結果情報に含まれる前記原因情報に基いて、集約後の原因情報を生成し、
(D)前記プロセッサは、前記集約対象とする複数の解析結果情報に含まれる前記確信度に基いて、集約後の確信度を計算し、
(E) 前記ディスプレイ装置は、前記集約後の原因情報と、前記集約後の確信度を表示することも説明した。
また、前記情報処理装置の状態は、前記情報処理装置の論理的又は物理的な構成物である部位の状態、又は前記情報処理装置の装置としての状態であって、前記原因情報は、前記部位に関する情報又は前記情報処理装置の装置としての情報であってもよいことを説明した。
また、前記集約対象とする複数の解析結果情報は第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、前記第一の集約対象解析結果情報の原因情報が示す原因装置又は原因部位と、前記第二の集約対象解析結果情報の原因情報が示す原因装置又は原因部位とは同一であって、前記集約後の確信度は、確からしさがより高いことを示す、前記第一の集約対象解析結果情報の確信度又は前記第二の集約対象解析結果情報の確信度のいずれかであってよいことも説明した。
また、前記集約対象とする複数の解析結果情報は第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、前記第一の集約対象解析結果情報の一つ以上の状態条件と前記第二の集約対象解析結果情報の一つ以上の状態条件は共通の状態条件と、共通の情報処理装置又は共通の部位に関して条件とする状態が異なる差異条件とを含み、前記第一の集約対象解析結果情報の一つ以上の検知済み状態は前記第一の集約対象解析結果情報の一つ以上の状態条件の差異条件の少なくとも一つを満たす場合、前記集約後の確信度は前記第一の集約対象解析結果情報の確信度であり、前記集約後の原因情報は前記第一の集約対象解析結果情報の原因情報に基く表示情報であり、前記第二の集約対象解析結果情報の一つ以上の検知済み状態は前記第二の集約対象解析結果情報の一つ以上の状態条件の差異条件の少なくとも一つを満たす場合、前記集約後の確信度は前記第二の集約対象解析結果情報の確信度であり、前記集約後の原因情報は前記第二の集約対象解析結果情報の原因情報に基く表示情報であってもよいことを説明した。
また、前記集約対象とする複数の解析結果情報は第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、前記第一の集約対象解析結果情報の一つ以上の状態条件と前記第二の集約対象解析結果情報の一つ以上の状態条件は共通の状態条件と、共通の情報処理装置又は共通の部位に関して条件とする状態が異なる差異条件とを含み、前記第一の集約対象解析結果情報の一つ以上の検知済み状態及び前記第一の集約対象解析結果情報の一つ以上の検知済み状態が前記差異条件に含まれる前記第一の集約対象解析結果情報の一つ以上の状態条件又は前記差異条件に含まれる前記第一の集約対象解析結果情報の一つ以上の状態条件を満たさない場合、前記集約後の確信度は前記第一の集約対象解析結果情報の確信度と前記第一の集約対象解析結果情報の確信度の和であり、前記集約後の原因情報は前記第一の集約対象解析結果情報の原因情報と前記第一の集約対象解析結果情報の原因情報とに基く表示情報であってもよいことを説明した。
また、前記集約対象とする複数の解析結果情報は第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、前記第一の集約対象解析結果情報の一つ以上の状態条件は、前記第二の集約対象解析結果情報の一つ以上の状態条件の全てと、他の状態条件で構成され、前記第一の集約対象解析結果情報の一つ以上の検知済み状態は前記他の状態条件を満たす場合、前記集約後の確信度は前記第一の集約対象解析結果情報の確信度であり、前記集約後の原因情報は前記第一の集約対象解析結果情報の原因情報に基く表示情報であり、前記第一の集約対象解析結果情報の一つ以上の検知済み状態は前記他の状態条件のいずれも満たさない場合、前記集約後の確信度は前記第二の集約対象解析結果情報の確信度であり、前記集約後の原因情報は前記第二の集約対象解析結果情報の原因情報に基く表示情報であってもよいことを説明した。
また、前記ディスプレイ装置は、前記第二の集約対象解析結果情報の原因情報を表示する場合、対応する確信度として前記集約後の確信度を表示してもよいことを説明した。
しかし、本実施例はこれら以外の事項についても開示されている。
1・・・管理サーバ
10・・・メモリ
11・・・プロセッサ
13・・・ネットワークI/F

Claims (14)

  1. 情報処理装置を複数管理する管理システムであって、
    前記管理システムは、
    前記情報処理装置から管理情報を受信するネットワークインタフェースと、
    前記管理情報に基づいて前記情報処理装置の状態を判断するプロセッサと、
    前記情報処理装置の状態と、前記状態が発生した原因である原因装置を特定するための複数の解析ルール情報と、を格納するメモリと、
    前記情報処理装置の状態を表示するディスプレイ装置と、
    を有し、
    前記メモリは、前記原因装置の原因を示す原因情報と、前記原因装置を十分条件で特定するための前記情報処理装置に関する一つ以上の状態条件と、前記原因情報の確からしさを表す確信度と、前記一つ以上の状態条件の一部または全てを満たす一つ以上の検知済み状態と、を含み、前記解析ルール情報に基いて生成された解析結果情報を複数格納し、
    前記プロセッサは、前記解析結果情報に含まれる前記原因情報又は前記一つ以上の状態条件又は前記一つ以上の検知済み状態に基いて、複数の前記解析結果情報から集約対象とする複数の解析結果情報を選択し、
    前記プロセッサは、前記集約対象とする複数の解析結果情報に含まれる前記原因情報に基いて、集約後の原因情報を生成し、
    前記プロセッサは、前記集約対象とする複数の解析結果情報に含まれる前記確信度に基いて、集約後の確信度を計算し、
    前記ディスプレイ装置は、前記集約後の原因情報と、前記集約後の確信度を表示する、
    ことを特徴とする管理システム。
  2. 請求項1の管理システムであって、
    前記情報処理装置の状態は、前記情報処理装置の論理的又は物理的な構成物である部位の状態、又は前記情報処理装置の装置としての状態であって、
    前記原因情報は、前記部位に関する情報又は前記情報処理装置の装置としての情報である、
    ことを特徴とする管理システム。
  3. 請求項2記載の管理システムであって、
    前記集約対象とする複数の解析結果情報は第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、
    前記第一の集約対象解析結果情報の原因情報が示す原因装置又は原因部位と、前記第二の集約対象解析結果情報の原因情報が示す原因装置又は原因部位とは同一であって、
    前記集約後の確信度は、確からしさがより高いことを示す、前記第一の集約対象解析結果情報の確信度又は前記第二の集約対象解析結果情報の確信度のいずれかである、
    ことを特徴とする管理システム。
  4. 請求項2記載の管理システムであって、
    前記集約対象とする複数の解析結果情報は第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、
    前記第一の集約対象解析結果情報の一つ以上の状態条件と前記第二の集約対象解析結果情報の一つ以上の状態条件は共通の状態条件と、共通の情報処理装置又は共通の部位に関して条件とする状態が異なる差異条件とを含み、
    前記第一の集約対象解析結果情報の一つ以上の検知済み状態は前記第一の集約対象解析結果情報の一つ以上の状態条件の差異条件の少なくとも一つを満たす場合、前記集約後の確信度は前記第一の集約対象解析結果情報の確信度であり、前記集約後の原因情報は前記第一の集約対象解析結果情報の原因情報に基く表示情報であり、
    前記第二の集約対象解析結果情報の一つ以上の検知済み状態は前記第二の集約対象解析結果情報の一つ以上の状態条件の差異条件の少なくとも一つを満たす場合、前記集約後の確信度は前記第二の集約対象解析結果情報の確信度であり、前記集約後の原因情報は前記第二の集約対象解析結果情報の原因情報に基く表示情報である、
    ことを特徴とする管理システム。
  5. 請求項2記載の管理システムであって、
    前記集約対象とする複数の解析結果情報は第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、
    前記第一の集約対象解析結果情報の一つ以上の状態条件と前記第二の集約対象解析結果情報の一つ以上の状態条件は共通の状態条件と、共通の情報処理装置又は共通の部位に関して条件とする状態が異なる差異条件とを含み、
    前記第一の集約対象解析結果情報の一つ以上の検知済み状態及び前記第一の集約対象解析結果情報の一つ以上の検知済み状態が前記差異条件に含まれる前記第一の集約対象解析結果情報の一つ以上の状態条件又は前記差異条件に含まれる前記第一の集約対象解析結果情報の一つ以上の状態条件を満たさない場合、前記集約後の確信度は前記第一の集約対象解析結果情報の確信度と前記第一の集約対象解析結果情報の確信度の和であり、前記集約後の原因情報は前記第一の集約対象解析結果情報の原因情報と前記第一の集約対象解析結果情報の原因情報とに基く表示情報である、
    ことを特徴とする管理システム。
  6. 請求項2記載の管理システムであって、
    前記集約対象とする複数の解析結果情報は第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、
    前記第一の集約対象解析結果情報の一つ以上の状態条件は、前記第二の集約対象解析結果情報の一つ以上の状態条件の全てと、他の状態条件で構成され、
    前記第一の集約対象解析結果情報の一つ以上の検知済み状態は前記他の状態条件を満たす場合、前記集約後の確信度は前記第一の集約対象解析結果情報の確信度であり、前記集約後の原因情報は前記第一の集約対象解析結果情報の原因情報に基く表示情報であり、
    前記第一の集約対象解析結果情報の一つ以上の検知済み状態は前記他の状態条件のいずれも満たさない場合、前記集約後の確信度は前記第二の集約対象解析結果情報の確信度であり、前記集約後の原因情報は前記第二の集約対象解析結果情報の原因情報に基く表示情報である、
    ことを特徴とする管理システム。
  7. 請求項4記載の管理システムであって、
    前記ディスプレイ装置は、前記第二の集約対象解析結果情報の原因情報を表示する場合、対応する確信度として前記集約後の確信度を表示する、
    ことを特徴とする管理システム。
  8. 情報処理装置を複数管理する管理システムの管理方法であって、
    前記情報処理装置から管理情報を受信し、
    前記管理情報に基づいて前記情報処理装置の状態を判断し、
    前記情報処理装置の状態を前記管理システムが有するメモリに格納し、
    前記状態が発生した原因である原因装置を特定するための複数の解析ルール情報をメモリに格納し、
    前記解析ルール情報に基き、前記原因装置の原因を示す原因情報と、前記原因装置を十分条件で特定するための前記情報処理装置に関する一つ以上の状態条件と、前記原因情報の確からしさを表す確信度と、前記一つ以上の状態条件の一部または全てを満たす一つ以上の検知済み状態と、を含む解析結果情報を複数生成し、
    前記解析結果情報に含まれる前記原因情報又は前記一つ以上の状態条件又は前記一つ以上の検知済み状態に基いて、複数の前記解析結果情報から集約対象とする複数の解析結果情報を選択し、
    前記集約対象とする複数の解析結果情報に含まれる前記原因情報に基いて、集約後の原因情報を生成し、
    前記集約対象とする複数の解析結果情報に含まれる前記確信度に基いて、集約後の確信度を計算し、
    前記集約後の原因情報と、前記集約後の確信度を表示する、
    ことを特徴とする管理方法。
  9. 請求項8の管理方法であって、
    前記情報処理装置の状態は、前記情報処理装置の論理的又は物理的な構成物である部位の状態、又は前記情報処理装置の装置としての状態であって、
    前記原因情報は、前記部位に関する情報又は前記情報処理装置の装置としての情報である、
    ことを特徴とする管理方法。
  10. 請求項9記載の管理方法であって、
    前記集約対象とする複数の解析結果情報は第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、
    前記第一の集約対象解析結果情報の原因情報が示す原因装置又は原因部位と、前記第二の集約対象解析結果情報の原因情報が示す原因装置又は原因部位とは同一であって、
    前記集約後の確信度は、確からしさがより高いことを示す、前記第一の集約対象解析結果情報の確信度又は前記第二の集約対象解析結果情報の確信度のいずれかである、
    ことを特徴とする管理方法。
  11. 請求項9記載の管理方法であって、
    前記集約対象とする複数の解析結果情報は第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、
    前記第一の集約対象解析結果情報の一つ以上の状態条件と前記第二の集約対象解析結果情報の一つ以上の状態条件は共通の状態条件と、共通の情報処理装置又は共通の部位に関して条件とする状態が異なる差異条件とを含み、
    前記第一の集約対象解析結果情報の一つ以上の検知済み状態は前記第一の集約対象解析結果情報の一つ以上の状態条件の差異条件の少なくとも一つを満たす場合、前記集約後の確信度は前記第一の集約対象解析結果情報の確信度であり、前記集約後の原因情報は前記第一の集約対象解析結果情報の原因情報に基く表示情報であり、
    前記第二の集約対象解析結果情報の一つ以上の検知済み状態は前記第二の集約対象解析結果情報の一つ以上の状態条件の差異条件の少なくとも一つを満たす場合、前記集約後の確信度は前記第二の集約対象解析結果情報の確信度であり、前記集約後の原因情報は前記第二の集約対象解析結果情報の原因情報に基く表示情報である、
    ことを特徴とする管理方法。
  12. 請求項9記載の管理方法であって、
    前記集約対象とする複数の解析結果情報は第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、
    前記第一の集約対象解析結果情報の一つ以上の状態条件と前記第二の集約対象解析結果情報の一つ以上の状態条件は共通の状態条件と、共通の情報処理装置又は共通の部位に関して条件とする状態が異なる差異条件とを含み、
    前記第一の集約対象解析結果情報の一つ以上の検知済み状態及び前記第一の集約対象解析結果情報の一つ以上の検知済み状態が前記差異条件に含まれる前記第一の集約対象解析結果情報の一つ以上の状態条件又は前記差異条件に含まれる前記第一の集約対象解析結果情報の一つ以上の状態条件を満たさない場合、前記集約後の確信度は前記第一の集約対象解析結果情報の確信度と前記第一の集約対象解析結果情報の確信度の和であり、前記集約後の原因情報は前記第一の集約対象解析結果情報の原因情報と前記第一の集約対象解析結果情報の原因情報とに基く表示情報である、
    ことを特徴とする管理方法。
  13. 請求項9記載の管理方法であって、
    前記集約対象とする複数の解析結果情報は第一の集約対象解析結果情報と第二の集約対象解析結果情報を含み、
    前記第一の集約対象解析結果情報の一つ以上の状態条件は、前記第二の集約対象解析結果情報の一つ以上の状態条件の全てと、他の状態条件で構成され、
    前記第一の集約対象解析結果情報の一つ以上の検知済み状態は前記前記他の状態条件を満たす場合、前記集約後の確信度は前記第一の集約対象解析結果情報の確信度であり、前記集約後の原因情報は前記第一の集約対象解析結果情報の原因情報に基く表示情報であり、
    前記第一の集約対象解析結果情報の一つ以上の検知済み状態は前記前記他の状態条件のいずれも満たさない場合、前記集約後の確信度は前記第二の集約対象解析結果情報の確信度であり、前記集約後の原因情報は前記第二の集約対象解析結果情報の原因情報に基く表示情報である、
    ことを特徴とする管理方法。
  14. 請求項11記載の管理方法であって、
    前記第二の集約対象解析結果情報の原因情報を表示する場合、対応する確信度として前記集約後の確信度を表示する、
    ことを特徴とする管理方法。
JP2009225859A 2009-09-30 2009-09-30 障害の根本原因解析結果表示方法、装置、及びシステム Expired - Fee Related JP5542398B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2009225859A JP5542398B2 (ja) 2009-09-30 2009-09-30 障害の根本原因解析結果表示方法、装置、及びシステム
US12/664,382 US8423826B2 (en) 2009-09-30 2009-10-22 Method, apparatus and system for displaying result of failure root cause analysis
PCT/JP2009/005560 WO2011039825A1 (ja) 2009-09-30 2009-10-22 障害の根本原因解析結果表示方法、装置、及びシステム
EP09850016.8A EP2485148A4 (en) 2009-09-30 2009-10-22 Method, device and system for displaying analysis result of essential cause analysis of failure
CN200980159268.7A CN102428447B (zh) 2009-09-30 2009-10-22 故障的根本原因解析结果显示方法、装置以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009225859A JP5542398B2 (ja) 2009-09-30 2009-09-30 障害の根本原因解析結果表示方法、装置、及びシステム

Publications (2)

Publication Number Publication Date
JP2011076293A true JP2011076293A (ja) 2011-04-14
JP5542398B2 JP5542398B2 (ja) 2014-07-09

Family

ID=43825682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009225859A Expired - Fee Related JP5542398B2 (ja) 2009-09-30 2009-09-30 障害の根本原因解析結果表示方法、装置、及びシステム

Country Status (5)

Country Link
US (1) US8423826B2 (ja)
EP (1) EP2485148A4 (ja)
JP (1) JP5542398B2 (ja)
CN (1) CN102428447B (ja)
WO (1) WO2011039825A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015079564A1 (ja) * 2013-11-29 2015-06-04 株式会社日立製作所 イベントの根本原因の解析を支援する管理システム及び方法
US9658908B2 (en) 2013-10-23 2017-05-23 Fujitsu Limited Failure symptom report device and method for detecting failure symptom
JP2017097879A (ja) * 2015-11-24 2017-06-01 株式会社日立製作所 クラウド環境における障害原因解析システムのルール検証のための方法及びシステム
JP2018513442A (ja) * 2015-02-03 2018-05-24 ネットアップ,インコーポレイテッド ストレージ・クラスタ要素のモニタリング
WO2018181422A1 (ja) * 2017-03-29 2018-10-04 京セラ株式会社 設備管理方法、設備管理装置及び設備管理システム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8156387B2 (en) * 2003-12-19 2012-04-10 Pitney Bowes Inc. Method and system for error manipulation
US8112378B2 (en) 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
US8429455B2 (en) * 2010-07-16 2013-04-23 Hitachi, Ltd. Computer system management method and management system
JP5165132B1 (ja) * 2012-05-31 2013-03-21 株式会社 ディー・エヌ・エー ゲーム管理サーバ装置、ゲーム管理サーバ装置用プログラム、および、端末装置用プログラム
US9130850B2 (en) 2012-07-20 2015-09-08 Hitachi, Ltd. Monitoring system and monitoring program with detection probability judgment for condition event
WO2014091653A1 (ja) * 2012-12-12 2014-06-19 三菱電機株式会社 監視制御装置及び監視制御方法
US20140282426A1 (en) * 2013-03-12 2014-09-18 Microsoft Corporation Divide and conquer approach to scenario timeline activity attribution
CN103440174B (zh) * 2013-08-02 2016-05-25 杭州华为数字技术有限公司 一种错误信息处理方法、装置及应用该装置的电子设备
US9244808B2 (en) 2013-09-27 2016-01-26 International Business Machines Corporation Pattern oriented data collection and analysis
JP6838234B2 (ja) * 2017-03-24 2021-03-03 日立Astemo株式会社 車両制御装置
CN110502404B (zh) * 2019-07-22 2022-05-31 平安科技(深圳)有限公司 一种基于数据治理平台的预警处理方法及相关设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05114899A (ja) * 1991-10-22 1993-05-07 Hitachi Ltd ネツトワーク障害診断方式
JPH0818593A (ja) * 1994-06-27 1996-01-19 Internatl Business Mach Corp <Ibm> 限定複数障害管理方法および診断システム
JPH09160849A (ja) * 1995-12-04 1997-06-20 Nippon Telegr & Teleph Corp <Ntt> 自律エージェント制御による通信ネットワーク障害管理システム
JP2003333084A (ja) * 2002-05-09 2003-11-21 Matsushita Electric Ind Co Ltd パケットフィルタリングルール設定方法
JP2006244404A (ja) * 2005-03-07 2006-09-14 Nec Corp 障害復旧システム、障害復旧装置、ルール作成方法、および障害復旧プログラム
JP2007293489A (ja) * 2006-04-24 2007-11-08 Mitsubishi Electric Corp 設備機器用故障診断装置および設備機器用故障診断方法
WO2008149975A1 (ja) * 2007-06-06 2008-12-11 Nec Corporation 通信網の障害原因分析システムと障害原因分析方法、及び障害原因分析用プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5528516A (en) * 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
US5737520A (en) * 1996-09-03 1998-04-07 Hewlett-Packard Co. Method and apparatus for correlating logic analyzer state capture data with associated application data structures
US7043661B2 (en) * 2000-10-19 2006-05-09 Tti-Team Telecom International Ltd. Topology-based reasoning apparatus for root-cause analysis of network faults
US6738933B2 (en) * 2001-05-09 2004-05-18 Mercury Interactive Corporation Root cause analysis of server system performance degradations
KR20040062528A (ko) * 2001-07-06 2004-07-07 컴퓨터 어소시에이츠 싱크, 인코포레이티드 시스템 및 기업 이벤트의 근본 원인을 상관시키고결정하는 방법 및 시스템
CN100456687C (zh) * 2003-09-29 2009-01-28 华为技术有限公司 网络故障实时相关性分析方法及系统
US7552447B2 (en) * 2004-05-26 2009-06-23 International Business Machines Corporation System and method for using root cause analysis to generate a representation of resource dependencies
US7203624B2 (en) * 2004-11-23 2007-04-10 Dba Infopower, Inc. Real-time database performance and availability change root cause analysis method and system
US7406271B2 (en) * 2005-05-24 2008-07-29 Xerox Corporation Contextual fault handling method and apparatus in a printing system
JP4527642B2 (ja) * 2005-09-29 2010-08-18 富士通株式会社 ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム
JP4981974B2 (ja) * 2009-03-24 2012-07-25 株式会社日立製作所 管理システム及び情報処理システム
US20110145269A1 (en) * 2009-12-09 2011-06-16 Renew Data Corp. System and method for quickly determining a subset of irrelevant data from large data content
US20110314138A1 (en) * 2010-06-21 2011-12-22 Hitachi, Ltd. Method and apparatus for cause analysis configuration change

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05114899A (ja) * 1991-10-22 1993-05-07 Hitachi Ltd ネツトワーク障害診断方式
JPH0818593A (ja) * 1994-06-27 1996-01-19 Internatl Business Mach Corp <Ibm> 限定複数障害管理方法および診断システム
JPH09160849A (ja) * 1995-12-04 1997-06-20 Nippon Telegr & Teleph Corp <Ntt> 自律エージェント制御による通信ネットワーク障害管理システム
JP2003333084A (ja) * 2002-05-09 2003-11-21 Matsushita Electric Ind Co Ltd パケットフィルタリングルール設定方法
JP2006244404A (ja) * 2005-03-07 2006-09-14 Nec Corp 障害復旧システム、障害復旧装置、ルール作成方法、および障害復旧プログラム
JP2007293489A (ja) * 2006-04-24 2007-11-08 Mitsubishi Electric Corp 設備機器用故障診断装置および設備機器用故障診断方法
WO2008149975A1 (ja) * 2007-06-06 2008-12-11 Nec Corporation 通信網の障害原因分析システムと障害原因分析方法、及び障害原因分析用プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNH200500178006; 小山田 聡、古谷雅典、大野孝生: 'ネットワークオペレーションナレッジシステムの開発' NTT DoCoMoテクニカル・ジャーナル Vol.12,No.2, 20040701, pp.43〜50, 社団法人電気通信協会 *
JPN6009062811; 小山田 聡、古谷雅典、大野孝生: 'ネットワークオペレーションナレッジシステムの開発' NTT DoCoMoテクニカル・ジャーナル Vol.12,No.2, 20040701, pp.43〜50, 社団法人電気通信協会 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9658908B2 (en) 2013-10-23 2017-05-23 Fujitsu Limited Failure symptom report device and method for detecting failure symptom
WO2015079564A1 (ja) * 2013-11-29 2015-06-04 株式会社日立製作所 イベントの根本原因の解析を支援する管理システム及び方法
GB2536317A (en) * 2013-11-29 2016-09-14 Hitachi Ltd Management system and method for assisting event root cause analysis
JPWO2015079564A1 (ja) * 2013-11-29 2017-03-16 株式会社日立製作所 イベントの根本原因の解析を支援する管理システム及び方法
JP2018513442A (ja) * 2015-02-03 2018-05-24 ネットアップ,インコーポレイテッド ストレージ・クラスタ要素のモニタリング
JP2017097879A (ja) * 2015-11-24 2017-06-01 株式会社日立製作所 クラウド環境における障害原因解析システムのルール検証のための方法及びシステム
WO2018181422A1 (ja) * 2017-03-29 2018-10-04 京セラ株式会社 設備管理方法、設備管理装置及び設備管理システム
JPWO2018181422A1 (ja) * 2017-03-29 2020-02-06 京セラ株式会社 設備管理方法、設備管理装置及び設備管理システム

Also Published As

Publication number Publication date
WO2011039825A1 (ja) 2011-04-07
EP2485148A1 (en) 2012-08-08
CN102428447A (zh) 2012-04-25
US20110209010A1 (en) 2011-08-25
JP5542398B2 (ja) 2014-07-09
US8423826B2 (en) 2013-04-16
EP2485148A4 (en) 2017-06-21
CN102428447B (zh) 2015-03-18

Similar Documents

Publication Publication Date Title
JP5542398B2 (ja) 障害の根本原因解析結果表示方法、装置、及びシステム
US11614943B2 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
US11868237B2 (en) Intelligent services for application dependency discovery, reporting, and management tool
US11379292B2 (en) Baseline modeling for application dependency discovery, reporting, and management tool
US11057266B2 (en) Identifying troubleshooting options for resolving network failures
US11966324B2 (en) Discovery crawler for application dependency discovery, reporting, and management tool
US11221854B2 (en) Dependency analyzer in application dependency discovery, reporting, and management tool
US11650909B2 (en) Intelligent services and training agent for application dependency discovery, reporting, and management tool
US9071535B2 (en) Comparing node states to detect anomalies
US11675692B2 (en) Testing agent for application dependency discovery, reporting, and management tool
US10558513B2 (en) System management apparatus and system management method
EP4242849A2 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130806

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140507

LAPS Cancellation because of no payment of annual fees