JP2023133915A

JP2023133915A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2023133915A
Application number: JP2022039170A
Authority: JP
Inventors: 玲子近藤; Reiko Kondo; 崇白石; Takashi Shiraishi; 一隆荻原; Kazutaka Ogiwara; 祐美福村; Sukeyoshi Fukumura; 真俊道園; Masatoshi Michizono; 友憲鈴木; Tomonori Suzuki
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2023-09-27

Abstract

【課題】アラートの原因のノードを適切に特定する。【解決手段】記憶部１１は、情報処理システム２０におけるノード間の関連を示す構成情報と情報処理システム２０で発生したアラートを示すアラート情報とを記憶する。処理部１２は、アラート情報に基づいて複数のノードそれぞれに対してアラートに応じた基礎スコアを算出する。処理部１２は、複数のノードそれぞれに対して構成情報に基づいて特定される、ノードに隣接する隣接ノードの基礎スコアに、ノードと隣接ノードとの依存関係に応じた重み付け係数を乗算した伝搬スコアを、ノードと隣接ノードとのペアごとに算出する。処理部１２は、ノードの基礎スコアに、ノードと隣接ノードとのペアに対応する伝搬スコアを合計した障害スコアを、複数のノードそれぞれに対して算出する。処理部１２は、複数のノードそれぞれの障害スコアに基づいて、複数のノードのうちアラートの原因である第１ノードを特定する。【選択図】図１

Description

本発明は情報処理装置、情報処理方法およびプログラムに関する。

現在、多数の通信機器、物理マシン、仮想マシンおよびアプリケーションなどが連携して動作する情報処理システムが運用されている。各機器が連携していることから、トポロジー構造として表現できるため、通信機器、物理マシン、仮想マシンおよびアプリケーションなどの情報処理システムの要素をノードと表現できる。すなわち、ノードは、情報処理システムにおける何れかの要素に相当する。監視システムは、ノードを監視することで、ノードが異常となった場合に、監視システムはノードのアラートを検出することができる。アラートは、異常を通知する情報である。そこで、情報処理システムの運用管理では、ノードにより出力されるアラートの監視が行われることがある。

例えば、システムに含まれる要素間の関連性に基づいて、システムに含まれる要素に関するメッセージのうち、何れかのメッセージを選択的に出力することで、管理者が異常を把握しやすくするメッセージ出力装置の提案がある。

また、計算機システムで問題が発生したときに、計算機システムの部品の状態を変更する対策手順案を生成する管理計算機の提案もある。
なお、分散ストリームデータ処理基盤において実行される複数のタスクそれぞれのログメッセージを出力する情報処理装置の提案もある。提案の情報処理装置は、各タスクに対し、障害の発生のし易さと関連する指標に基づくログスコアを取得する。当該情報処理装置は、ログスコアに基づく出力頻度で当該タスクのログメッセージを出力する。

特開２０１９－４０５１５号公報国際公開第２０１７／２６０１７号特開２０２０－１９７８５３号公報

複数のノードが連携して動作する場合、あるノードで発生した異常は、他のノードにも影響し、他のノードにおける異常を引き起こす可能性がある。このため、情報処理システムにおいてアラートが発生した場合、アラートの根本的な原因であるノードを特定することは容易でない。１つの側面では、本発明は、アラートの原因のノードを適切に特定することを目的とする。

１つの態様では、情報処理装置が提供される。この情報処理装置は、記憶部と処理部とを有する。記憶部は、情報処理システムに含まれる複数のノードにおけるノード間の関連を示す構成情報と、情報処理システムで発生したアラートを示すアラート情報とを記憶する。処理部は、アラート情報に基づいて複数のノードそれぞれに対してアラートに応じた基礎スコアを算出する。処理部は、複数のノードそれぞれに対して構成情報に基づいて特定される、ノードに隣接する隣接ノードの基礎スコアに、ノードと隣接ノードとの依存関係に応じた重み付け係数を乗算した伝搬スコアを、ノードと隣接ノードとのペアごとに算出する。処理部は、ノードの基礎スコアに、ノードと隣接ノードとのペアに対応する伝搬スコアを合計した障害スコアを、複数のノードそれぞれに対して算出する。処理部は、複数のノードそれぞれの障害スコアに基づいて、複数のノードのうちアラートの原因である第１ノードを特定する。

また、１つの態様では、情報処理方法が提供される。また、１つの態様では、プログラムが提供される。

１つの側面では、アラートの原因のノードを適切に特定できる。

第１の実施の形態の情報処理装置を説明する図である。第２の実施の形態の情報処理システムの例を示す図である。障害箇所推定サーバのハードウェア例を示す図である。障害箇所推定サーバの機能例を示す図である。監視対象システムの例を示す図である。障害スコアの計算方法の例を示す図である。ノードテーブルおよびエッジテーブルの例を示す図である。アラートテーブルの例を示す図である。基礎スコア係数テーブルの例を示す図である。伝搬スコア係数テーブルの例を示す図である。スコアテーブルの例を示す図である。障害箇所推定結果画面の表示例を示す図である。障害箇所推定サーバの処理例を示すフローチャートである。基礎スコア係数テーブルの変形例を示す図である。伝搬スコア係数テーブルの第１の変形例を示す図である。伝搬スコア係数テーブルの第２の変形例を示す図である。障害スコアの他の計算方法の例を示す図である。監視対象システムの他の例を示す図である。障害スコアの計算例を示す図である。障害スコアの計算の比較例を示す図である。

以下、本実施の形態について図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の情報処理装置を説明する図である。
情報処理装置１０は、情報処理システム２０に接続される。情報処理システム２０は、複数のノードを含む。複数のノードそれぞれは、通信機器、物理マシン、仮想マシンおよびアプリケーションなどの何れかである。情報処理装置１０は、情報処理システム２０で発生したアラートの原因であるノードの特定を支援する。なお、情報処理装置１０は、情報処理システム２０に含まれてもよい。

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性記憶装置でもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性記憶装置でもよい。処理部１２は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）などを含み得る。処理部１２はプログラムを実行するプロセッサでもよい。「プロセッサ」は、複数のプロセッサの集合（マルチプロセッサ）を含み得る。

記憶部１１は、構成情報を記憶する。構成情報は、情報処理システム２０に含まれる複数のノードにおけるノード間の関連を示す。ノード間の関連は、あるノードが他のノードのリソースを用いて実行されることや、あるノードが動作するために他のノードに接続されることを含む。例えば、ノード間の関連は、各ノードをエッジで結ぶグラフで表される。２つのノードを隔てるエッジの数が小さいほど、両ノードの関連性は強い。２つのノードを隔てるエッジの数が閾値ａ以下である場合、両ノードは互いに隣接すると言う。ａは１以上の整数である。例えばａ＝１である。

また、構成情報は、ノード間の依存関係を示す情報を含む。情報処理システム２０に含まれる複数のノードそれぞれは、他のノードと次のような依存関係をもち得る。
例えば、アプリケーションは仮想マシンにより実行される。この場合、アプリケーションは、仮想マシンに依存する。仮想マシンは、アプリケーションに依存される。また、例えば仮想マシンは物理マシンにより実行される。この場合、仮想マシンは、物理マシンに依存する。物理マシンは、仮想マシンに依存される。また、例えば物理マシンは、他の物理マシンと通信するためにＬ２（Layer 2）スイッチに接続される。この場合、物理マシンは、Ｌ２スイッチに依存する。Ｌ２スイッチは、物理マシンに依存される。更に、例えばＬ２スイッチは、上位ネットワークと通信するためにルータに接続される。この場合、Ｌ２スイッチは、ルータに依存する。ルータは、Ｌ２スイッチに依存される。

これらの依存関係は、例えば上記のグラフにおける、ノード間を結ぶ有向エッジにより表される。すなわち、有向エッジの起点のノードは終点のノードに依存する。有向エッジの終点のノードは起点のノードに依存される。一例では、情報処理システム２０は、ノード２１，２２を有する。ノード２１のノードＩＤ（IDentifier）はｎ１である。ノード２２のノードＩＤはｎ２である。ノード２１は、ノード２２に依存する。すなわち、ノード２２は、ノード２１に依存される。この場合、構成情報は、例えばノード２１，２２を示す情報と、ノード２１を起点、ノード２２を終点とする有向エッジの情報とを含む。ただし、情報処理システム２０は、３以上のノードを含んでもよい。

記憶部１１は、アラート情報を記憶する。アラート情報は、所定期間において情報処理システム２０で発生したアラートを示す。アラートは、複数のノードそれぞれにより出力され得る。所定期間は、例えば、予め定められた時間間隔よりも短い時間間隔でアラートが発生し続けた期間として決定されてもよい。一定の時間間隔よりも短い時間間隔で連続して発生した一群のアラートは、原因が共通する可能性が高いためである。この場合、当該一定の時間間隔は、情報処理システム２０に応じて予め定められる。

処理部１２は、情報処理システム２０で発生した一群のアラートについて、各ノードのアラートに対する寄与度をスコア化して評価することで、アラートの根本的な原因であるノードを特定する。各ノードのアラートに対する寄与度を示す指標は、障害スコアと言われる。例えば、ノードの障害スコアが大きいほど、当該ノードのアラートに対する寄与度は大きい。このため、ノードの障害スコアが大きいほど、当該ノードがアラートの原因である可能性は高いと推定される。

処理部１２は、アラート情報に基づいて、複数のノードそれぞれに対してアラートに応じた基礎スコアを算出する。基礎スコアは、障害スコアの計算の基になるスコアである。一例では、処理部１２は、アラートを出力したノードに対して、アラートの数に応じた基礎スコアを算出する。例えば、処理部１２は、ノードが出力したアラートの数が多いほど、当該ノードの基礎スコアを大きくする。処理部１２は、アラートを出力していないノードに対して基礎スコア「０」を付与する。

例えば、処理部１２は、所定期間にノード２１，２２それぞれでアラートが発生した場合、ノード２１でのアラートの数に応じてノード２１の基礎スコアＶ１を算出し、ノード２２でのアラートの数に応じてノード２２の基礎スコアＶ２を算出する。テーブル１１ａは、ノード２１，２２それぞれの基礎スコアＶ１，Ｖ２を保持する情報である。テーブル１１ａは、記憶部１１に記憶される。

処理部１２は、構成情報に基づいて特定される、あるノードに隣接する隣接ノードの基礎スコアに、当該ノードと隣接ノードとの依存関係に応じた重み付け係数を乗算した伝搬スコアを、当該ノードと隣接ノードとのペアごとに算出する。ここで、伝搬スコアは、隣接ノードの基礎スコアの影響を、着目するノードの障害スコアに反映させるためのスコアである。重み付け係数は、着目するノードの障害スコアに対し、隣接ノードの基礎スコアの影響を反映させる度合いを定める係数である。

重み付け係数は、隣接ノードが該当のノードに依存する場合、αである。また、重み付け係数は、隣接ノードが該当のノードに依存される場合、すなわち、該当のノードが隣接ノードに依存する場合、βである。α，βは何れも正の実数である。また、α＞βである。互いに隣接する２つのノードのうち、依存される側であるノードの方が、障害箇所である可能性が高いからである。また、着目するノードに対して、隣接ノードは複数存在することがある。その場合、処理部１２は、着目するノードに対して隣接ノードごとに、当該隣接ノードに適用する伝搬スコアを算出する。

例えば、前述の閾値ａ＝１とする。この場合、処理部１２は、構成情報に基づいて、ノード２１に隣接する隣接ノードとしてノード２２を特定する。ノード２２は、ノード２１に依存される。よって、処理部１２は、ノード２１に対するノード２２の伝搬スコアを、β＊Ｖ２と算出する。また、処理部１２は、構成情報に基づいて、ノード２２に隣接する隣接ノードとしてノード２１を特定する。ノード２１は、ノード２２に依存する。よって、処理部１２は、ノード２２に対するノード２１の伝搬スコアを、α＊Ｖ１と算出する。テーブル１１ｂは、ノード２１に対するノード２２の伝搬スコアβ＊Ｖ２、および、ノード２２に対するノード２１の伝搬スコアα＊Ｖ１を保持する情報である。テーブル１１ｂは、記憶部１１に記憶される。

そして、処理部１２は、ノードの基礎スコアに、当該ノードと隣接ノードとのペアに対応する伝搬スコアを合計した障害スコアを、複数のノードそれぞれに対して算出する。例えば、処理部１２は、テーブル１１ａ，１１ｂに基づいて、ノード２１の障害スコアを、Ｖ１＋β＊Ｖ２と算出する。また、処理部１２は、ノード２２の障害スコアを、Ｖ２＋α＊Ｖ１と算出する。テーブル１１ｃは、ノード２１の障害スコアＶ１＋β＊Ｖ２、および、ノード２２の障害スコアＶ２＋α＊Ｖ１を保持する情報である。テーブル１１ｃは、記憶部１１に記憶される。こうして、伝搬スコアにより、着目するノードの障害スコアに対して、隣接ノードで発生した事象の影響が適切に反映される。

処理部１２は、複数のノードそれぞれの障害スコアに基づいて、複数のノードのうちアラートの原因である第１ノードを特定する。例えば、上記の例において、処理部１２は、ノード２１，２２それぞれの障害スコアを比較し、障害スコアが大きい方のノードを、アラートの原因である第１ノードとして特定する。第１ノードは、アラートを引き起こした根本的な原因箇所として推定されるノードであり、障害箇所に相当する。

一例では、該当のノードで発生したアラートの数を、当該ノードの基礎スコアとする。例えば、ノード２１で発生したアラートの数が１であり、ノード２２で発生したアラートの数が１であるとする。この場合、Ｖ１＝Ｖ２＝１である。また、一例では、伝搬スコアα＝１、β＝０．５とする。この場合、処理部１２は、ノード２１の障害スコアを、Ｖ１＋β＊Ｖ２＝１＋０．５＊１＝１．５と計算する。また、処理部１２は、ノード２２の障害スコアを、Ｖ２＋α＊Ｖ１＝１＋１＊１＝２と計算する。よって、処理部１２は、ノード２１，２２で発生したアラートの原因がノード２２であると特定する。

以上説明したように情報処理装置１０によれば、アラート情報に基づいて、複数のノードそれぞれに対してアラートに応じた基礎スコアが算出される。ノードに隣接する隣接ノードの基礎スコアに、当該ノードと隣接ノードとの依存関係に応じた重み付け係数を乗算した伝搬スコアが、ノードと隣接ノードとのペアごとに算出される。ノードの基礎スコアに、ノードと隣接ノードとのペアに対応する伝搬スコアを合計した障害スコアが、複数のノードそれぞれに対して算出される。複数のノードそれぞれの障害スコアに基づいて、複数のノードのうち最も障害スコアの高いノードを、アラートを引き起こした根本的な原因箇所、すなわちアラートの原因である第１ノードが特定される。

これにより、アラートの原因のノードを適切に特定できる。
ここで、情報処理システム２０では、多数のノードが連携して動作する。このため、情報処理システムにおいて障害が発生した場合、その障害が伝搬し、多数のアラートが発生するため、障害の根本的な原因であるノードを特定することは容易でない。

例えば、２つ以上のノードそれぞれでアラートが出力されたときに、何れのノードが根本原因であるかの特定が難しいことがある。上記の障害スコアの計算において、ノードと隣接ノードとの依存関係を考慮せずに、例えばα＝β＝０．５とするというように、単純に一律の重み付け係数を用いることも考えられる。しかしこの場合、上記の障害スコアは、ノード２１，２２の何れに対しても同じ値になり、アラートの原因である第１ノードの特定が困難になり得る。例えば、Ｖ１＝Ｖ２＝１、かつ、α＝β＝０．５の場合、ノード２１，２２の障害スコアは何れも１．５になり、障害スコアに基づく第１ノードの絞り込みが適切に行われない。

そこで、情報処理装置１０は、ノードと隣接ノードとの依存関係に応じた重み付け係数を用いて各ノードの障害スコアを算出することで、各ノードの障害スコアを基にアラートの原因である第１ノードを適切に特定可能になる。

また、例えば、アラートの原因のノードがアラートを出力したノード以外のノードである場合、アラートの出力元のみから原因のノードを特定できないこともある。これに対し、情報処理装置１０は、所定期間内にアラートを出力したノードおよびアラートを出力しなかったノードそれぞれに対して障害スコアを算出できる。これにより、情報処理装置１０は、アラートの出力元以外のノードから、アラートの根本的な原因となったノードを特定できる可能性を高められる。例えば、アラートの出力元以外のノードが、異常な動作をしているにもかかわらず、アラートの出力に用いられる使用リソース量の閾値の設定が適切でないなど、アラートの出力設定に不備があってアラートを出力しないこともある。このような場合、アラートの出力元以外のノードの異常が、他のノードに影響を及ぼしている可能性もある。情報処理装置１０は、こうしたアラートの出力元以外のノードも、アラートの根本的な原因、すなわち、障害箇所として適切に特定し得る。

障害箇所推定サーバ１００は、こうして特定した第１ノードを示す情報を出力することで、アラートの原因のノードの、ユーザによる把握を支援できる。その結果、障害箇所推定サーバ１００は、ユーザによる迅速な障害対応を支援できる。以下では、より具体的な例を示し、情報処理装置１０の機能を更に詳細に説明する。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
図２は、第２の実施の形態の情報処理システムの例を示す図である。

第２の実施の形態の情報処理システムは、障害箇所推定サーバ１００、監視対象システム２００、構成管理サーバ３００および異常検知サーバ４００を有する。障害箇所推定サーバ１００、監視対象システム２００、構成管理サーバ３００および異常検知サーバ４００は、ネットワーク５０に接続される。

障害箇所推定サーバ１００は、監視対象システム２００において所定期間中に発生したアラートに基づいて、アラートの原因となったノード、すなわち、障害箇所を推定し、ユーザに提示する。具体的には、障害箇所推定サーバ１００は、監視対象システム２００で発生したアラートに対して、監視対象システム２００における各ノードのアラートに対する寄与度を表す指標である障害スコアを評価する。例えば、ノードの障害スコアが大きいほど、当該ノードのアラートに対する寄与度は大きい。すなわち、ノードの障害スコアが大きいほど、当該ノードがアラートの原因である可能性は高い。障害箇所推定サーバ１００は、各ノードの障害スコアに基づいて、アラートの根本的な原因であるノードを特定する。障害箇所推定サーバ１００は、第１の実施の形態の情報処理装置１０の一例である。

監視対象システム２００は、障害箇所推定サーバ１００、構成管理サーバ３００および異常検知サーバ４００による監視対象のシステムである。監視対象システム２００は、通信機器、物理マシン、仮想マシンおよびアプリケーションなどの複数のノードを含む。アプリケーションは、コンテナとして実行されてもよい。監視対象システム２００は、第１の実施の形態の情報処理システム２０の一例である。

構成管理サーバ３００は、監視対象システム２００における複数のノードの情報を収集し、収集した情報を基にノード間の関連を示す構成情報を生成して、障害箇所推定サーバ１００に提供する。

異常検知サーバ４００は、監視対象システム２００で発生したアラートを収集し、収集したアラートを示すアラート情報を障害箇所推定サーバ１００に提供する。アラートは、障害の影響を受けて異常となっているイベントを報告するメッセージである。例えば、各ノードは、ＣＰＵ使用率やメモリ使用率などが閾値を超過したという事象や、アノマリ検知により検知された事象を異常なイベントとして特定し、アラートを発生させる。

図３は、障害箇所推定サーバのハードウェア例を示す図である。
障害箇所推定サーバ１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ（Graphics Processing Unit）１０４、入力インタフェース１０５、媒体リーダ１０６およびＮＩＣ（Network Interface Card）１０７を有する。なお、ＣＰＵ１０１は、第１の実施の形態の処理部１２の一例である。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１の一例である。障害箇所推定サーバ１００は、ＣＰＵ１０１とＲＡＭ１０２とを有するコンピュータでもよい。

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。なお、ＣＰＵ１０１は複数のプロセッサコアを含んでもよい。また、障害箇所推定サーバ１００は複数のプロセッサを有してもよい。以下で説明する処理は複数のプロセッサまたはプロセッサコアを用いて並列に実行されてもよい。また、複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。

ＲＡＭ１０２は、ＣＰＵ１０１が実行するプログラムやＣＰＵ１０１が演算に用いるデータを一時的に記憶する揮発性の半導体メモリである。なお、障害箇所推定サーバ１００は、ＲＡＭ以外の種類のメモリを備えてもよく、複数個のメモリを備えてもよい。

ＨＤＤ１０３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性の記憶装置である。なお、障害箇所推定サーバ１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の記憶装置を備えてもよく、複数の不揮発性の記憶装置を備えてもよい。

ＧＰＵ１０４は、ＣＰＵ１０１からの命令に従って、障害箇所推定サーバ１００に接続されたディスプレイ５１に画像を出力する。ディスプレイ５１としては、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、プラズマディスプレイ、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイなど、任意の種類のディスプレイを用いることができる。

入力インタフェース１０５は、障害箇所推定サーバ１００に接続された入力デバイス５２から入力信号を取得し、ＣＰＵ１０１に出力する。入力デバイス５２としては、マウス、タッチパネル、タッチパッド、トラックボールなどのポインティングデバイス、キーボード、リモートコントローラ、ボタンスイッチなどを用いることができる。また、障害箇所推定サーバ１００に、複数の種類の入力デバイスが接続されていてもよい。

媒体リーダ１０６は、記録媒体５３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体５３として、例えば、磁気ディスク、光ディスク、光磁気ディスク（ＭＯ：Magneto-Optical disk）、半導体メモリなどを使用できる。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）が含まれる。

媒体リーダ１０６は、例えば、記録媒体５３から読み取ったプログラムやデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、ＣＰＵ１０１によって実行される。なお、記録媒体５３は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体５３やＨＤＤ１０３を、コンピュータ読み取り可能な記録媒体と言うことがある。

ＮＩＣ１０７は、ネットワーク５０に接続され、ネットワーク５０を介して他のコンピュータと通信を行うインタフェースである。ＮＩＣ１０７は、例えば、スイッチやルータなどの通信装置とケーブルで接続される。ＮＩＣ１０７は無線通信インタフェースでもよい。

監視対象システム２００に含まれる物理マシン、構成管理サーバ３００および異常検知サーバ４００も、障害箇所推定サーバ１００と同様のハードウェアにより実現される。
図４は、障害箇所推定サーバの機能例を示す図である。

障害箇所推定サーバ１００は、構成情報記憶部１１０、アラート情報記憶部１２０、係数情報記憶部１３０、スコア情報記憶部１４０、構成情報管理部１５１、アラート情報取得部１５２、基礎スコア算出部１５３、伝搬スコア係数算出部１５４、伝搬スコア算出部１５５、障害スコア算出部１５６および障害箇所出力部１５７を有する。構成情報記憶部１１０、アラート情報記憶部１２０、係数情報記憶部１３０およびスコア情報記憶部１４０には、ＲＡＭ１０２やＨＤＤ１０３の記憶領域が用いられる。構成情報管理部１５１、アラート情報取得部１５２、基礎スコア算出部１５３、伝搬スコア係数算出部１５４、伝搬スコア算出部１５５、障害スコア算出部１５６および障害箇所出力部１５７は、ＲＡＭ１０２に記憶されたプログラムがＣＰＵ１０１により実行されることで実現される。

構成情報記憶部１１０は、監視対象システム２００におけるノードと、ノード間の関連を含む構成情報を記憶する。
アラート情報記憶部１２０は、監視対象システム２００におけるアラート情報を記憶する。

係数情報記憶部１３０は、基礎スコアの計算に用いられる基礎スコア係数および伝搬スコアの計算に用いられる伝搬スコア係数を示す係数情報を記憶する。
スコア情報記憶部１４０は、各ノードに対して計算された基礎スコア、伝搬スコアおよび障害スコアを示すスコア情報を記憶する。

構成情報管理部１５１は、構成管理サーバ３００から構成情報を取得し、構成情報記憶部１１０に格納する。構成情報は、監視対象システム２００に含まれる各ノードの関連を示す情報を含む。また、構成情報は、あるノードに対する、他のノードが保有するリソースの割当て量を示す情報を含む。例えば、構成情報は、あるアプリケーションに割当てられる仮想マシンのリソース量や、仮想マシンに割当てられる物理マシンのリソース量などを示す情報を含む。

アラート情報取得部１５２は、異常検知サーバ４００からアラート情報を取得し、アラート情報記憶部１２０に格納する。
基礎スコア算出部１５３は、構成情報記憶部１１０に記憶された構成情報と、アラート情報記憶部１２０に記憶されたアラート情報と、係数情報記憶部１３０に記憶された係数情報とに基づいて、各ノードの基礎スコアを算出する。基礎スコア算出部１５３は、算出した基礎スコアをスコア情報記憶部１４０に格納する。

伝搬スコア係数算出部１５４は、構成情報記憶部１１０に記憶された構成情報に基づいて、あるノードに対する隣接ノードの伝搬スコア係数を算出し、係数情報記憶部１３０に格納する。ここで、伝搬スコア係数は、第１の実施の形態の重み付け係数に相当する。伝搬スコア係数は、あるノードに対する隣接ノードの伝搬スコアの算出に用いられる。伝搬スコア係数は、該当のノードと隣接ノードとの依存関係に基づいて決定される。

伝搬スコア算出部１５５は、係数情報記憶部１３０に記憶された係数情報とスコア情報記憶部１４０に記憶されたスコア情報に基づいて、あるノードに対する隣接ノードの伝搬スコアを計算する。伝搬スコアは、着目するノードと当該隣接ノードとの組ごとに計算される。伝搬スコア算出部１５５は、計算した伝搬スコアをスコア情報記憶部１４０に格納する。

障害スコア算出部１５６は、スコア情報記憶部１４０に記憶された各ノードの基礎スコアおよび当該ノードに対する隣接ノードの伝搬スコアに基づいて、各ノードの障害スコアを算出し、スコア情報記憶部１４０に格納する。

障害箇所出力部１５７は、スコア情報記憶部１４０に記憶された各ノードの障害スコアに基づいて、障害箇所に相当するノードを特定し、当該ノードの情報を出力する。具体的には、障害箇所出力部１５７は、障害スコアが最も大きいノードを、障害箇所に相当するノードと特定する。

例えば、障害箇所出力部１５７は、構成情報記憶部１１０に記憶された構成情報、および、スコア情報記憶部１４０に記憶された、各ノードの障害スコアの情報に基づいて、アラートの原因となったノード、すなわち、障害箇所に相当するノードを可視化する。具体的には、障害箇所出力部１５７は、障害箇所推定結果画面をディスプレイ５１に表示させる。障害箇所推定結果画面は、障害箇所の推定結果を示す画面である。障害箇所推定結果画面では、例えば監視対象システム２００における各ノードと、各ノードの障害スコアの計算結果とが表示されるとともに、障害箇所として特定されたノードが強調表示される。

図５は、監視対象システムの例を示す図である。
監視対象システム２００は、例えば、ルータ２０１、スイッチ２１１，２１２、物理マシン２２１，２２２、仮想マシン２３１，２３２およびアプリケーション２４１，２４２を有する。

スイッチ２１１，２１２は、ルータ２０１に接続される。スイッチ２１１，２１２は、例えばＬ２スイッチである。スイッチ２１１から上位ネットワークへのアクセスにはルータ２０１を経由する。よって、スイッチ２１１は、ルータ２０１に依存する。ルータ２０１は、スイッチ２１１に依存される。同様に、スイッチ２１２は、ルータ２０１に依存する。ルータ２０１は、スイッチ２１２に依存される。

物理マシン２２１は、スイッチ２１１に接続される。物理マシン２２１と他の物理マシンとの通信にはスイッチ２１１を経由する。よって、物理マシン２２１は、スイッチ２１１に依存する。スイッチ２１１は、物理マシン２２１に依存される。物理マシン２２２は、スイッチ２１２に接続される。物理マシン２２２は、スイッチ２１２に依存する。スイッチ２１２は、物理マシン２２２に依存される。

仮想マシン２３１は、物理マシン２２１で実行される。よって、仮想マシン２３１は、物理マシン２２１に依存する。物理マシン２２１は、仮想マシン２３１に依存される。仮想マシン２３２は、物理マシン２２２で実行される。よって、仮想マシン２３２は、物理マシン２２２に依存する。物理マシン２２２は、仮想マシン２３２に依存される。

アプリケーション２４１は、仮想マシン２３１で実行される。よって、アプリケーション２４１は、仮想マシン２３１に依存する。仮想マシン２３１は、アプリケーション２４１に依存される。アプリケーション２４２は、仮想マシン２３２で実行される。よって、アプリケーション２４２は、仮想マシン２３２に依存する。仮想マシン２３２は、アプリケーション２４２に依存される。

アプリケーション２４１は、アプリケーション２４２と連携する。例えば、アプリケーション２４１は、アプリケーション２４２にリクエストを送信し、アプリケーション２４２からのレスポンスに応じた処理を実行する。よって、アプリケーション２４１は、アプリケーション２４２に依存する。アプリケーション２４２は、アプリケーション２４１に依存される。

上記のノード間の関連は、例えば、依存する側のノードと依存される側のノードとをエッジで結ぶグラフによって表される。他のノードに依存する側のノードを上位、他のノードから依存される側のノードを下位とする。この場合、図５の例では、アプリケーション２４１，２４２は、最上位の階層のノードである。ルータ２０１は、最下位の階層のノードである。

ここで、ルータ２０１のノード名は「Ｒｏｕｔｅｒ」である。スイッチ２１１のノード名は「ＳＷ１」である。スイッチ２１２のノード名は「ＳＷ２」である。物理マシン２２１のノード名は「ＰＭ１」である。物理マシン２２２のノード名は「ＰＭ２」である。仮想マシン２３１のノード名は「ＶＭ１」である。仮想マシン２３２のノード名は「ＶＭ２」である。アプリケーション２４１のノード名は「ａｐｐｌ１」である。アプリケーション２４２のノード名は「ａｐｐｌ２」である。

依存されているノードに障害が発生すると、依存しているノードに影響が及ぶことが多いが、依存しているノードの障害によって、依存されているノードにアラートが発生することもある。例えば、物理マシン２２１のメモリが過負荷となると、仮想マシン２３１も過負荷となりアラートが発生する。一方、仮想マシン２３１が大量のジョブを、制限をかけずに実行すると、物理マシン２２１のサービスが遅くなりアラートが発生することがある。

図６は、障害スコアの計算方法の例を示す図である。
図６において、ノード間を結ぶ矢印は有向エッジを示す。有向エッジは、ノード間の依存関係を示す。有向エッジの起点のノードは終点のノードに依存する。有向エッジの終点のノードは起点のノードに依存される。本例では、隣接ノードを決定するための閾値ａ＝１とする。この場合、２つのノードを隔てるエッジの数が１である場合、両ノードは互いに隣接すると判断される。より具体的には、ノードＮ１とノードＮ２との間を隔てる有向エッジの数が１つの場合、すなわち、ノードＮ１，Ｎ２が有向エッジで直接結ばれる場合に、ノードＮ２はノードＮ１の隣接ノードであるとともに、ノードＮ１はノードＮ２の隣接ノードである。

例えば、障害箇所推定サーバ１００は、スイッチ２１１、物理マシン２２１およびアプリケーション２４１，２４２で発生したアラートに対して、仮想マシン２３１の障害スコアを次のように計算する。仮想マシン２３１の隣接ノードは、アプリケーション２４１および物理マシン２２１である。

まず、基礎スコア算出部１５３は、監視対象システム２００の各ノードの基礎スコアを算出する。アプリケーション２４１の基礎スコアはｘである。仮想マシン２３１の基礎スコアはｙである。物理マシン２２１の基礎スコアはｚである。図６では、着目する仮想マシン２３１および仮想マシン２３１の隣接ノード以外のノードの基礎スコアの図示が省略されている。

一例では、基礎スコア算出部１５３は、該当のノードで発出されたアラートの個数を基礎スコアとする。例えば、該当のノードで発出されたアラートの個数が１２個だった場合、基礎スコアは１２となる。基礎スコア算出部１５３は、アラートの重要度（ＥＲＲＯＲ、Ｗａｒｎｉｎｇ、Ｉｎｆｏｒｍａｔｉｏｎなど）に応じて、重みを付けて基礎スコアを求めてもよい。例えば、基礎スコア算出部１５３は、アラートの重要度の重みをＥＲＲＯＲ：３、Ｗａｒｎｉｎｇ：２、Ｉｎｆｏｒｍａｔｉｏｎ：１とする。例えば、アラートの個数がそれぞれＥＲＲＯＲ：１２個、Ｗａｒｎｉｎｇ：１１個、Ｉｎｆｏｒｍａｔｉｏｎ：１３個であった場合、基礎スコア算出部１５３は、該当のノードの基礎スコアを、３＊１２＋２＊１１＋１＊１３＝７１と計算してもよい。

更に、基礎スコア算出部１５３は、着目する仮想マシン２３１についてアラートに応じて求めた基礎スコアｙに、仮想マシン２３１の属性に応じた基礎スコア係数εを乗じた自己スコアεｙを、仮想マシン２３１の基礎スコアとして採用してもよい。εｙは、基礎スコアｙを基礎スコア係数εで補正した補正後の基礎スコアである。なお、基礎スコア係数は後述するように仮想マシンに限らず、アプリケーションや物理マシンなど、全てのノードの属性について、設定することができる。図６では、障害スコアの算出対象である仮想マシン２３１の基礎スコアをεｙとする例を示す。

仮想マシン２３１に対するアプリケーション２４１の伝搬スコア係数はαである。仮想マシン２３１に対する物理マシン２２１の伝搬スコア係数はβである。α，βは何れも正の実数である。また、α＞βである。互いに隣接する２つのノードのうち、依存される側であるノードの方が、障害箇所である可能性が高いからである。

伝搬スコア算出部１５５は、着目するノードに対する隣接ノードの伝搬スコア係数を、当該隣接ノードの基礎スコアに乗じることで、着目するノードに対する隣接ノードの伝搬スコアを算出する。具体的には、仮想マシン２３１に対するアプリケーション２４１の伝搬スコアαｘを算出する。また、伝搬スコア算出部１５５は、仮想マシン２３１に対する物理マシン２２１の伝搬スコアβｚを算出する。

そして、障害スコア算出部１５６は、着目するノードの基礎スコアと隣接ノードの伝搬スコアとの合計を、着目するノードの障害スコアとして算出する。例えば、障害スコア＝基礎スコア係数（ε）＊基礎スコア（ｙ）＋隣接する上位層の伝搬スコア係数（α）＊隣接する上位層の基礎スコア（ｘ）＋隣接する下位層の伝搬スコア係数（β）＊隣接する下位層の基礎スコア（ｚ）である。すなわち、例えば、障害スコア算出部１５６は、仮想マシン２３１に対して、障害スコアεｙ＋αｘ＋βｚを算出する。

図７は、ノードテーブルおよびエッジテーブルの例を示す図である。
ノードテーブル１１１は、ノード名およびノードＩＤの項目を含む。ノード名の項目には、ノード名が登録される。ノードＩＤの項目には、ノードＩＤが登録される。例えば、ノードテーブル１１１は、ノード名「ａｐｐｌ１」、ノードＩＤ「ｎ１」のレコードを有する。当該レコードは、ノード名「ａｐｐｌ１」のノード、すなわち、アプリケーション２４１のノードＩＤが「ｎ１」であることを示す。ノードテーブル１１１は、アプリケーション２４１以外のノードのノード名およびノードＩＤのレコードも有する。

エッジテーブル１１２は、エッジＩＤ、起点および終点の項目を含む。エッジＩＤの項目には、エッジＩＤが登録される。起点の項目には、エッジの起点のノードのノードＩＤが登録される。終点の項目には、エッジの終点のノードのノードＩＤが登録される。例えば、エッジテーブル１１２は、エッジＩＤ「ｅ１」、起点「ｎ１」、終点「ｎ２」のレコードを有する。当該レコードは、エッジＩＤの「ｅ１」で識別されるエッジの起点のノードのノードＩＤが「ｎ１」であり、当該エッジの終点のノードのノードＩＤが「ｎ２」であることを示す。すなわち、当該レコードは、アプリケーション２４１の隣接ノードが仮想マシン２３１であること、および、仮想マシン２３１の隣接ノードがアプリケーション２４１であることを示す。また、当該レコードは、アプリケーション２４１が仮想マシン２３１に依存するという依存関係を示す。この依存関係は、仮想マシン２３１がアプリケーション２４１に依存されるという依存関係であるとも言える。エッジテーブル１１２は、エッジＩＤ「ｅ１」以外のエッジＩＤのエッジを示すレコードも有する。

なお、ノードテーブル１１１およびエッジテーブル１１２は、構成情報記憶部１１０に記憶される構成情報の一例である。
図８は、アラートテーブルの例を示す図である。

アラートテーブル１２１は、時刻、ノードＩＤ、重要度およびアラート内容の項目を含む。時刻の項目には、アラートが発生した時刻が登録される。ノードＩＤの項目には、アラートが発生したノードのノードＩＤが登録される。重要度の項目には、アラートの重要度が登録される。例えば、アラートの重要度には、「ＥＲＲＯＲ」、「Ｗａｒｎｉｎｇ」、「Ｉｎｆｏｒｍａｔｉｏｎ」などがある。アラート内容の項目には、アラートのメッセージが登録される。

例えば、アラートテーブル１２１は、時刻「ｔ１」、ノードＩＤ「ｎ１」、重要度「Ｗａｒｎｉｎｇ」、アラート内容「…」のレコードを有する。当該レコードは、時刻ｔ１に、ノードＩＤ「ｎ１」のノード、すなわち、アプリケーション２４１で、重要度「Ｗａｒｎｉｎｇ」のアラートが発生したことを示す。アラートテーブル１２１は、他のアラートを示すレコードも有する。なお、アラートテーブル１２１は、アラート情報記憶部１２０に記憶されるアラート情報の一例である。

図９は、基礎スコア係数テーブルの例を示す図である。
基礎スコア係数テーブル１３１は、係数情報記憶部１３０に記憶される。基礎スコア係数テーブル１３１は、基礎スコア係数の項目を含む。基礎スコア係数の項目には、基礎スコア係数が登録される。図９の例では、基礎スコア係数は、全てのノードに対して一律に１．０である。基礎スコア係数は、各ノードの自己スコアの算出に用いられる。例えば、ノードの自己スコアは、当該ノードで発出されたアラートの数、または、アラートの数にアラートの重要度に応じた重みを合計した値に、基礎スコア係数を乗じた値として求められてもよい。基礎スコア係数は１．０以外の値でもよい。また、後述されるように、基礎スコア係数は、例えばノードの属性に応じた値でもよい。

図１０は、伝搬スコア係数テーブルの例を示す図である。
伝搬スコア係数テーブル１３２は、係数情報記憶部１３０に記憶される。伝搬スコア係数テーブル１３２は、依存関係、伝搬方向および伝搬スコア係数の項目を含む。依存関係の項目には、ノード間の依存関係を示す情報が登録される。伝搬方向の項目には、隣接ノードの伝搬スコアを適用する方向、すなわち、伝搬方向が登録される。伝搬スコア係数の項目には、伝搬方向に応じた伝搬スコア係数が登録される。

例えば、伝搬スコア係数テーブル１３２の依存関係の項目には、「ｎｏｄｅ１」が「ｎｏｄｅ２」に依存することを示す情報が登録される。図１０の例では、「ｎｏｄｅ１」が「ｎｏｄｅ２」に依存する依存関係が「ｎｏｄｅ１－＞ｎｏｄｅ２」と表されている。

また、伝搬スコア係数テーブル１３２は、依存関係「ｎｏｄｅ１－＞ｎｏｄｅ２」に対して、伝搬方向「ｎｏｄｅ１－＞ｎｏｄｅ２」、伝搬スコア係数「１．０」のレコードを有する。このレコードは、「ｎｏｄｅ１」が「ｎｏｄｅ２」に依存する場合、「ｎｏｄｅ２」に対する「ｎｏｄｅ１」の伝搬スコア係数を「１．０」とすることを示す。

更に、伝搬スコア係数テーブル１３２は、依存関係「ｎｏｄｅ１－＞ｎｏｄｅ２」に対して、伝搬方向「ｎｏｄｅ１＜－ｎｏｄｅ２」、伝搬スコア係数「０．７」のレコードを有する。このレコードは、「ｎｏｄｅ１」が「ｎｏｄｅ２」に依存する場合、「ｎｏｄｅ１」に対する「ｎｏｄｅ２」の伝搬スコア係数を「０．７」とすることを示す。

伝搬スコア係数テーブル１３２では、依存する側のノードの、依存される側のノードに対する伝搬スコア係数αが、依存される側のノードの、依存する側のノードに対する伝搬スコア係数βよりも大きくなるように、伝搬スコア係数が設定される。

なお、基礎スコア係数テーブル１３１および伝搬スコア係数テーブル１３２は、係数情報記憶部１３０に記憶される係数情報の一例である。
図１１は、スコアテーブルの例を示す図である。

スコアテーブル１４１は、スコア情報記憶部１４０に記憶される。スコアテーブル１４１は、ノード名、ノードＩＤ、重み別アラート数、基礎スコア、自己スコア、上位ノードＩＤ、下位ノードＩＤ、リソース伝搬スコア係数、上位ノードの伝搬スコア、下位ノードの伝搬スコアおよび障害スコアの項目を含む。

ノード名の項目には、ノード名が登録される。ノードＩＤの項目には、ノードＩＤが登録される。重み別アラート数の項目には、重み別のアラート数が登録される。例えば、「ＥＲＲＯＲ」、「Ｗａｒｎｉｎｇ」、「Ｉｎｆｏｒｍａｔｉｏｎ」といった重要度が、それぞれ重み「３」、重み「２」、重み「１」に対応付けられる。基礎スコアの項目には、該当のノードの基礎スコアが登録される。ここで、スコアテーブル１４１の例では、該当のノードで発生したアラートの数に、アラートの重要度に応じた重みを乗じて合計した値を基礎スコアとする例を示している。自己スコアの項目には、該当のノードの自己スコアが登録される。上位ノードＩＤの項目には、上位ノードのノードＩＤが登録される。上位ノードは、該当のノードの１つ上位の隣接ノードである。下位ノードＩＤの項目には、下位ノードのノードＩＤが登録される。下位ノードは、該当のノードの１つ下位の隣接ノードである。

リソース伝搬スコア係数の項目には、リソース伝搬スコア係数が登録される。リソース伝搬スコア係数は、伝搬スコア係数算出部１５４により算出される伝搬スコア係数である。伝搬スコア係数算出部１５４は、下位ノードのリソースを、該当のノードが利用する場合に、下位ノードのリソース量のうちの該当のノードが利用するリソース量の割合に応じてリソース伝搬スコア係数を計算する。

例えば、リソース伝搬スコア係数は、リソース伝搬スコア係数＝（リソース割当て係数）＊｛（該当ノードが使用しているＣＰＵコア数）／（下位ノードが所有するＣＰＵコア数）｝の計算式により計算される。このように、該当ノードが使用しているＣＰＵリソース量が多い場合は、下位ノードの障害によって該当ノードが影響を受ける可能性が高くなるため、リソース伝搬スコア係数は大きくなる。なお、リソース割当て係数としては、予め設定される一定値が用いられる。一例では、リソース割当て係数は１．０である。

なお、スコアテーブル１４１では、リソース伝搬スコア係数をスコアテーブル１４１に登録する例を示している。ただし、伝搬スコア係数算出部１５４は、着目するノードに対する隣接ノード（下位ノード）のリソース伝搬スコア係数を、係数情報記憶部１３０に格納してもよい。

上位ノードの伝搬スコアの項目には、該当のノードに対する上位ノードの伝搬スコアが登録される。下位ノードの伝搬スコアの項目には、該当のノードに対する下位ノードの伝搬スコアが登録される。障害スコアの項目には、該当のノードの障害スコアが登録される。

例えば、スコアテーブル１４１は、ノード名「ａｐｐｌ１」、ノードＩＤ「ｎ１」、重み別アラート数の重み３が「０」、重み２が「１」、重み１が「１」、基礎スコア「３」、自己スコア「３」、上位ノードＩＤ「－」、下位ノードＩＤ「ｎ２」、リソース伝搬スコア係数「０．５」、上位ノードの伝搬スコア「－」、下位ノードの伝搬スコア「０」、障害スコア「３」のレコードを有する。このレコードは、アプリケーション２４１に対して計算される各スコアを示すレコードである。アプリケーション２４１の上位には、ノードが存在しないため、上位ノードＩＤや上位ノードの伝搬スコアは設定なしとなる。

また、例えば、スコアテーブル１４１は、ノード名「ＶＭ１」、ノードＩＤ「ｎ２」、重み別アラート数の各重みで「０」、基礎スコア「０」、自己スコア「０」、上位ノードＩＤ「ｎ１」、下位ノードＩＤ「ｎ３」、リソース伝搬スコア係数「０．２」、上位ノードの伝搬スコア「３」、下位ノードの伝搬スコア「０．２」、障害スコア「３．２」のレコードを有する。このレコードは、仮想マシン２３１に対して計算される各スコアを示すレコードである。仮想マシン２３１は、アラートを出力していないため、重み別アラート数、基礎スコアおよび自己スコアは何れも「０」となる。一方、仮想マシン２３１の隣接ノードであるアプリケーション２４１および物理マシン２２１の伝搬スコアによって、仮想マシン２３１の障害スコアは「３．２」となる。

また、例えば、スコアテーブル１４１は、ノード名「ＰＭ１」、ノードＩＤ「ｎ３」、重み別アラート数の重み３，２で「０」、重み１で「１」、基礎スコア「１」、自己スコア「１」、上位ノードＩＤ「ｎ２」、下位ノードＩＤ「ｎ４」、リソース伝搬スコア係数「－」、上位ノードの伝搬スコア「０」、下位ノードの伝搬スコア「０．７」、障害スコア「１．７」のレコードを有する。このレコードは、物理マシン２２１に対して計算される各スコアを示すレコードである。物理マシン２２１は、下位ノードのリソースの割当てを受けないため、リソース伝搬スコア係数は設定なしとなる。リソース伝搬スコア係数の設定がない場合、下位ノードの伝搬スコア係数には、伝搬スコア係数テーブル１３２における伝搬方向「ｎｏｄｅ１＜－ｎｏｄｅ２」の伝搬スコア係数が使用される。

スコアテーブル１４１には、アプリケーション２４１、仮想マシン２３１および物理マシン２２１以外のノードの基礎スコア、当該ノードに対する隣接ノードの伝搬スコア、および、当該ノードの障害スコアを示すレコードも登録される。なお、スコアテーブル１４１は、スコア情報記憶部１４０に記憶されるスコア情報の一例である。

図１２は、障害箇所推定結果画面の表示例を示す図である。
障害箇所推定結果画面５１ａは、ディスプレイ５１に表示される。障害箇所出力部１５７は、ノードテーブル１１１、エッジテーブル１１２、アラートテーブル１２１およびスコアテーブル１４１に基づいて、障害箇所推定結果画面５１ａをディスプレイ５１に表示させる。

障害箇所推定結果画面５１ａは、監視対象システム２００に含まれる各ノードの関連を示す画像を含む。障害箇所推定結果画面５１ａは、各ノードに対して計算された障害スコアを含む。また、障害箇所推定結果画面５１ａは、障害スコアの算出時に考慮されたアラートの発生元のノードを示すマークを含む。障害箇所推定結果画面５１ａの例では、アラートの発生元のノードを示すマークは、エクスクラメーションマーク「！」である。

更に、障害箇所推定結果画面５１ａでは、アラートの原因として特定されたノード、すなわち、障害箇所として特定されたノードが強調表示される。障害箇所推定結果画面５１ａの例では、ノード名「ＶＭ１」のアイコン、すなわち、仮想マシン２３１を示すアイコンが、アラートの原因として特定されたノードとして強調表示されている。障害箇所推定結果画面５１ａで例示されるように、障害箇所推定サーバ１００によれば、アラートを発出していないノードの中からもアラートの原因のノードを特定することもできる。

次に、障害箇所推定サーバ１００の処理手順を説明する。
図１３は、障害箇所推定サーバの処理例を示すフローチャートである。
例えば、障害箇所推定サーバ１００は、定期的なタイミング、アラート検知時、または、ユーザによるリクエストに応じて下記の処理手順を開始する。係数情報のうち、基礎スコア係数や伝搬スコア係数のように一定値となる係数は、ユーザにより予め設定された値が係数情報記憶部１３０に保存される。一方、リソース伝搬スコア係数のように、システム構成に応じて動的に変化し得る係数は、下記の手順の中で、最新の構成情報に基づいて計算される。

（Ｓ１０）構成情報管理部１５１は、監視対象システム２００の構成情報を、構成管理サーバ３００から取得し、構成情報記憶部１１０に格納する。構成情報は、ノードテーブル１１１やエッジテーブル１１２を含む。また、構成情報は、あるノードに対する他のノードのリソースの割当て量を示す情報を含む。

（Ｓ１１）基礎スコア算出部１５３は、アラートテーブル１２１に基づいて、アラートを発出したノードを特定して各ノードの基礎スコアを算出し、スコアテーブル１４１に登録する。例えば、基礎スコア算出部１５３は、各ノードにおけるアラート数にアラートの重要度に応じた重みを乗じて合計した値を該当のノードの基礎スコアとする。また、基礎スコア算出部１５３は、各ノードの基礎スコアと基礎スコア係数テーブル１３１とに基づいて、各ノードの自己スコア（＝基礎スコア係数＊基礎スコア）を算出し、スコアテーブル１４１に登録する。このとき、基礎スコア算出部１５３は、ノードテーブル１１１およびエッジテーブル１１２に基づいて、各ノードのノード名、ノードＩＤ、上位ノードＩＤおよび下位ノードＩＤを、スコアテーブル１４１に登録する。

（Ｓ１２）伝搬スコア係数算出部１５４は、構成情報に含まれる、ノードに対する他のノードのリソースの割当て量を示す情報に基づいて、リソース伝搬スコア係数を算出し、スコアテーブル１４１に登録する。他のノードからのリソースの割当てを受けないノードは、リソース伝搬スコア係数の算出の対象外となる。また、伝搬スコア係数算出部１５４は、算出したリソース伝搬スコア係数を、係数情報記憶部１３０に格納してもよい。

（Ｓ１３）伝搬スコア算出部１５５は、ノードごとに、上位ノードの基礎スコアに、上位ノードの伝搬スコア係数を乗じることで、上位ノードの伝搬スコアを算出し、スコアテーブル１４１に登録する。また、伝搬スコア算出部１５５は、ノードごとに、下位ノードの基礎スコアに、下位ノードの伝搬スコア係数を乗じることで、下位ノードの伝搬スコアを算出し、スコアテーブル１４１に登録する。ここで、伝搬スコア算出部１５５は、下位ノードのリソースを用いるノードに対し、リソース伝搬スコア係数を用いて伝搬スコアを算出する。一方、伝搬スコア算出部１５５は、リソース伝搬スコア係数の無いノードに対しては、伝搬スコア係数テーブル１３２に登録されている伝搬スコア係数を用いて伝搬スコアを算出する。

（Ｓ１４）障害スコア算出部１５６は、各ノードの障害スコアを、障害スコア＝（自己スコア＋上位ノードの伝搬スコア＋下位ノードの伝搬スコア）として算出する。障害スコア算出部１５６は、算出した障害スコアをスコアテーブル１４１に登録する。なお、自己スコアは、元の基礎スコアに対し、基礎スコア係数による補正後の基礎スコアであると言える。したがって、上記の障害スコアの式は、障害スコア＝（補正後の基礎スコア＋上位ノードの伝搬スコア＋下位ノードの伝搬スコア）と表されてもよい。また、基礎スコア係数＝１．０の場合、自己スコア＝元の基礎スコアとなる。

（Ｓ１５）障害箇所出力部１５７は、監視対象システム２００の構成および各ノードの障害スコアの可視化を行う。具体的には、障害箇所出力部１５７は、ノードテーブル１１１、エッジテーブル１１２およびスコアテーブル１４１に基づいて、障害箇所推定結果画面５１ａをディスプレイ５１に表示させる。そして、障害箇所推定サーバ１００の処理が終了する。

なお、アラート検知時に上記の処理手順を開始する場合、障害箇所推定サーバ１００は、一定の時間間隔よりも短い時間間隔でアラートが検知されるたびに、一定の時間間隔よりも短い時間間隔で発生した一群のアラートに対して、各ノードの障害スコアを更新する。一定の時間間隔よりも短い時間間隔で連続して発生した一群のアラートは、原因が共通する可能性が高いためである。上記の一定の時間間隔としては、１分、３分、５分または１０分など、監視対象システム２００に応じた値が予め設定される。

また、定期的なタイミングで上記の処理手順を開始する場合、障害箇所推定サーバ１００は、前回のタイミングから今回のタイミングまでにアラート情報記憶部１２０に蓄積されたアラートの情報に基づいて、各ノードの障害スコアを算出する。

更に、前回構成情報を取得した時点から現在までの間に構成情報に変更がないことが明らかである場合、障害箇所推定サーバ１００は、ステップＳ１０をスキップして、ステップＳ１１を実行してもよい。

次に、係数情報記憶部１３０に格納される係数情報の変形例を説明する。
図１４は、基礎スコア係数テーブルの変形例を示す図である。
基礎スコア係数テーブル１３１ａは、基礎スコア係数テーブル１３１に代えて、係数情報記憶部１３０に記憶される。基礎スコア係数テーブル１３１ａは、ノード属性および基礎スコア係数の項目を含む。ノード属性の項目には、ノードの属性が登録される。ノードの属性には、仮想マシン（ＶＭ）、物理マシン（ＰＭ）、アプリケーション、スイッチおよびルータなどがある。基礎スコア係数の項目には、基礎スコア係数が登録される。

例えば、基礎スコア係数テーブル１３１ａは、ノード属性「ＶＭ」、基礎スコア係数「０．９」のレコードを有する。当該レコードは、ノード属性「ＶＭ」のノードの基礎スコア係数が「０．９」であることを示す。基礎スコア係数テーブル１３１ａは、ノード属性「ＰＭ」などの他のノード属性に対する基礎スコア係数を示すレコードも含む。

基礎スコア算出部１５３は、基礎スコア係数テーブル１３１ａに基づいて、各ノードに対し、当該ノードのノード属性に応じた基礎スコア係数を用いて、当該ノードの障害スコアの計算に用いる自己スコア（＝補正後の基礎スコア）を算出してもよい。

図１５は、伝搬スコア係数テーブルの第１の変形例を示す図である。
伝搬スコア係数テーブル１３２ａは、伝搬スコア係数テーブル１３２に代えて、係数情報記憶部１３０に記憶される。伝搬スコア係数テーブル１３２ａは、依存関係、伝搬方向および伝搬スコア係数の項目を含む。伝搬スコア係数テーブル１３２ａでは、依存関係および伝搬方向の項目に設定される情報に、ノードの属性が含まれる点が、伝搬スコア係数テーブル１３２と異なる。例えば、伝搬スコア係数テーブル１３２ａは、仮想マシン（ＶＭ）が物理マシン（ＰＭ）に依存するという依存関係に対して、ＰＭに対するＶＭの伝搬スコア係数が１．０、ＶＭに対するＰＭの伝搬スコア係数が０．５であることを示すレコードを有する。

伝搬スコア係数テーブル１３２ａは、物理マシン（ＰＭ）がスイッチ（ＳＷ）に依存するという依存関係に対する伝搬スコア係数など、他の依存関係に対する伝搬スコア係数のレコードも有する。

伝搬スコア算出部１５５は、伝搬スコア係数テーブル１３２ａに基づいて、ノードと隣接ノードとのペアに対し、当該ノードのノード属性および隣接ノードのノード属性に応じた伝搬スコア係数を用いて、伝搬スコアを算出してもよい。

図１６は、伝搬スコア係数テーブルの第２の変形例を示す図である。
伝搬スコア係数テーブル１３２ｂは、伝搬スコア係数テーブル１３２，１３２ａに代えて、係数情報記憶部１３０に記憶される。伝搬スコア係数テーブル１３２ｂは、依存関係、伝搬方向および伝搬スコア係数の項目を含む。

伝搬スコア係数テーブル１３２ｂでは、依存関係および伝搬方向の項目に設定される情報に、ノードの属性が含まれる点が、伝搬スコア係数テーブル１３２と異なる。また、伝搬スコア係数テーブル１３２ｂでは、依存される側のノードの、依存する側のノードに対する伝搬スコア係数が、リソース伝搬スコア係数として求められる点が、伝搬スコア係数テーブル１３２ａと異なる。リソース伝搬スコア係数は、依存する側のノードの、依存される側のノードに対する伝搬スコア係数よりも小さい値となる。

例えば、伝搬スコア係数テーブル１３２ｂは、ＰＭに対するＶＭの伝搬スコア係数が１．０、ＶＭに対するＰＭの伝搬スコア係数が、リソース伝搬スコア係数であることを示すレコードを有する。伝搬スコア係数テーブル１３２ｂは、物理マシン（ＰＭ）がスイッチ（ＳＷ）に依存するという依存関係に対する伝搬スコア係数など、他の依存関係に対する伝搬スコア係数のレコードも有する。

伝搬スコア算出部１５５は、伝搬スコア係数テーブル１３２ｂに基づいて、各ノードに対し、当該ノードのノード属性および隣接ノードのノード属性に応じた伝搬スコア係数を用いて、伝搬スコアを算出してもよい。この場合、伝搬スコア係数算出部１５４は、各ノードに対し、当該ノードのノード属性および隣接ノードのノード属性に応じたリソース伝搬スコア係数を算出する。

なお、リソース伝搬スコア係数は、ノードと隣接ノードとのペアに対して個別に算出される。例えば、仮想マシン２３１が物理マシン２２１上に構築されている場合、リソース割当て係数は１．０などと一定値とされる。仮想マシン２３１が使用しているＣＰＵコア数が２で、物理マシン２２１が所有するＣＰＵコア数が２０の場合、仮想マシン２３１に対する物理マシン２２１のリソース伝搬スコア係数は次のように求められる。すなわち、リソース伝搬スコア係数＝リソース割当て係数（１．０）＊｛該当ノードが使用しているＣＰＵコア数（２）｝／｛下位ノードが所有するＣＰＵコア数（２０）｝＝０．１となる。なお、伝搬スコア係数算出部１５４は、リソース伝搬スコア係数が上位ノード側から下位ノード側への伝搬スコア係数よりも小さい値になるように、リソース伝搬スコア係数を算出する。

ところで、上記の例では、隣接ノードを決定するための閾値ａ＝１としたが、前述のように、ａは２以上でもよい。そこで、次に、ａ＝２とする場合の障害スコアの計算方法の例を説明する。

図１７は、障害スコアの他の計算方法の例を示す図である。
ａ＝２の場合、あるノードからエッジ数２以内、すなわち、ホップ数２以内で到達するノードが隣接ノードとなる。この場合、エッジ数１で到達する隣接ノードは第１隣接ノードと言われる。また、エッジ数２で到達する隣接ノードは第２隣接ノードと言われる。例えば、監視対象システム２００における物理マシン２２１に対して、仮想マシン２３１およびスイッチ２１１は何れも第１隣接ノードである。また、物理マシン２２１に対して、アプリケーション２４１およびルータ２０１は何れも第２隣接ノードである。アプリケーション２４１は、仮想マシン２３１を介して、物理マシン２２１に依存する。また、ルータ２０１は、スイッチ２１１を介して、物理マシン２２１に依存される。

この場合に、アプリケーション２４１の基礎スコアｖ、仮想マシン２３１の基礎スコアｗ、物理マシン２２１の基礎スコアｘ、スイッチ２１１の基礎スコアｙ、ルータ２０１の基礎スコアｚに対し、物理マシン２２１の障害スコアは次のように計算される。すなわち、物理マシン２２１の障害スコア＝εｘ＋α_１ｗ＋α_２ｖ＋β_１ｙ＋β_２ｚである。

ここで、εは、物理マシン２２１の基礎スコア係数である。α_１は、物理マシン２２１に対する仮想マシン２３１の伝搬スコア係数である。α_２は、物理マシン２２１に対するアプリケーション２４１の伝搬スコア係数である。β_１は、物理マシン２２１に対するスイッチ２１１の伝搬スコア係数である。β_２は、物理マシン２２１に対するルータ２０１の伝搬スコア係数である。α_１，α_２，β_１，β_２は、何れも正の実数である。また、α_１＞α_２である。α_１＞β_１である。α_２＞β_２である。β_１＞β_２である。ノード間を隔てるエッジ数が少なく関連の強いノードのペアでは、ノード間を隔てるエッジ数が多く関連の弱いノードのペアよりも、及ぼし合う影響の度合いは大きいと推定されるためである。

このように、障害スコア算出部１５６は、ａ＝２として、各ノードの障害スコアを算出してもよい。また、同様に、障害スコア算出部１５６は、ａ＝３以上として、各ノードの障害スコアを算出してもよい。

次に、障害箇所推定サーバ１００による他の監視対象システムに対する障害箇所の特定例を説明する。
図１８は、監視対象システムの他の例を示す図である。

障害箇所推定サーバ１００は、監視対象システム５００を監視対象としてもよい。監視対象システム５００は、物理マシン５２１，５２２，５２３、仮想マシン５３１，５３２，５３３，５３４，５３５、コンテナ５４１，５４２，５４３，５４４，５４５，５４６，５４７，５４８を有する。物理マシン５２１，５２２，５２３は、スイッチに接続される。スイッチは、図１８では省略されている。

仮想マシン５３１，５３２，５３３は、物理マシン５２１で動作する。仮想マシン５３４は、物理マシン５２２で動作する。仮想マシン５３５は、物理マシン５２３で動作する。コンテナ５４１は、仮想マシン５３１で動作する。コンテナ５４２は、仮想マシン５３２で動作する。コンテナ５４３，５４４，５４５は、仮想マシン５３３で動作する。コンテナ５４６は、仮想マシン５３４で動作する。コンテナ５４７，５４８は、仮想マシン５３５で動作する。

例えば、障害箇所推定サーバ１００は、物理マシン５２３で発生したアラートＬ１および仮想マシン５３５で発生したアラートＬ２を取得する。障害箇所推定サーバ１００は、監視対象システム５００の他のノードのアラートは取得していない。この場合、障害箇所推定サーバ１００は、次のように障害スコアを計算する。

図１９は、障害スコアの計算例を示す図である。
物理マシン５２３および仮想マシン５３５の基礎スコア係数は何れも１である。また、物理マシン５２３および仮想マシン５３５それぞれで１つずつアラートが発生したので、物理マシン５２３および仮想マシン５３５の基礎スコアは何れも１である。また、物理マシン５２３に対する仮想マシン５３５の伝搬スコア係数は１である。更に、仮想マシン５３５に対する物理マシン５２３の伝搬スコア係数は０．５である。

したがって、障害箇所推定サーバ１００は、物理マシン５２３の障害スコアを、１＊１＋１＊１＝２．０と計算する。また、障害箇所推定サーバ１００は、仮想マシン５３５の障害スコアを、１＊１＋０．５＊１＝１．５と計算する。なお、物理マシン５２３および仮想マシン５３５以外のノードの障害スコアは、物理マシン５２３の障害スコアおよび仮想マシン５３５の障害スコアよりも小さくなることが明らかであるため、説明を省略する。よって、障害箇所推定サーバ１００は、取得されたアラートＬ１，Ｌ２の根本的な原因となったノードを、物理マシン５２３と特定する。そして、障害箇所推定サーバ１００は、アラートＬ１，Ｌ２の原因のノードが物理マシン５２３であることを示す情報を出力し、ユーザに提示する。

次に、伝搬スコア係数をノードの依存関係に依らずに一定にして障害スコアを計算する場合の比較例を説明する。
図２０は、障害スコアの計算の比較例を示す図である。

例えば、物理マシン５２３に対する仮想マシン５３５の伝搬スコア係数は０．５である。また、仮想マシン５３５に対する物理マシン５２３の伝搬スコア係数は０．５である。この場合、障害箇所推定サーバ１００は、物理マシン５２３の障害スコアを、１＊１＋０．５＊１＝１．５と計算する。また、障害箇所推定サーバ１００は、仮想マシン５３５の障害スコアを、１＊１＋０．５＊１＝１．５と計算する。

このように、ノード間の依存関係を考慮せずに伝搬スコア係数を一定にすると、物理マシン５２３の障害スコアおよび仮想マシン５３５の障害スコアは何れも同じ値となり、障害スコアから何れのノードがアラートＬ１，Ｌ２の原因であるかを特定できない。

一方、障害箇所推定サーバ１００は、ノード間の依存関係に応じた伝搬スコア係数を用いることで、図１９で例示されるように、アラートの原因であるノードを適切に特定可能になる。

以上説明したように、障害箇所推定サーバ１００は、例えば、次の処理を実行する。
構成情報記憶部１１０は、監視対象システム２００に含まれる複数のノードにおけるノード間の関連を示す構成情報を記憶する。構成情報は、例えば構成管理サーバ３００から取得される。アラート情報記憶部１２０は、監視対象システム２００で発生したアラートを示すアラート情報を記憶する。アラート情報は、例えば異常検知サーバ４００から取得される。基礎スコア算出部１５３は、アラート情報に基づいて、複数のノードそれぞれに対してアラートに応じた基礎スコアを算出する。伝搬スコア算出部１５５は、構成情報に基づいて特定される、ノードに隣接する隣接ノードの基礎スコアに、当該ノードと隣接ノードとの依存関係に応じた重み付け係数を乗算した伝搬スコアを、当該ノードと隣接ノードとのペアごとに算出する。障害スコア算出部１５６は、ノードの基礎スコアに、当該ノードと隣接ノードとのペアに対応する伝搬スコアを合計した障害スコアを、複数のノードそれぞれに対して算出する。障害箇所出力部１５７は、複数のノードそれぞれの障害スコアに基づいて、複数のノードのうちアラートの原因である第１ノードを特定する。

これにより、障害箇所推定サーバ１００は、アラートの原因のノードを適切に特定できる。例えば、障害箇所推定サーバ１００は、アラートの出力元のノードだけでなく、アラートを出力していないノードからも、アラートの根本的な原因となったノードを特定できる。なお、伝搬スコア係数は、重み付け係数の一例である。また、複数のノードは、前述のように、スイッチやルータなどの通信機器、物理マシン、仮想マシン、アプリケーションおよびコンテナを含み得る。

また、アラート情報は、所定期間において監視対象システム２００で発生した複数のアラートを示してもよい。この場合、基礎スコア算出部１５３は、アラート情報に基づいて、複数のノードそれぞれに対して当該複数のアラートに応じた基礎スコアを算出する。また、障害箇所出力部１５７は、複数のノードそれぞれの障害スコアに基づいて、複数のノードのうち当該複数のアラートの原因である第１ノードを特定する。また、障害スコアが同値の場合は、第１ノードが複数あってもよい。さらに、障害スコアが最も高い第１ノードに加え、障害スコアが次に高いノードを第２ノードとして特定することで、第２のアラートの原因の可能性があるノードを特定してもよい。このように、アラートの原因の可能性を順位として特定してもよい。例えば、障害箇所出力部１５７は、複数のノードそれぞれの障害スコアに基づいてアラートの原因である可能性の高い順に第１ノードを含む２以上のノードを特定し、当該２以上のノードそれぞれがアラートの原因である可能性の高さを示す順位を出力してもよい。このように、アラートの原因の可能性の順位を出力することで、ユーザに対して障害対応の順番を示すこともできる。

更に、構成情報は、前述のように、関連をもつ２つのノードをエッジで結ぶグラフを示す情報でもよい。伝搬スコア算出部１５５は、構成情報を参照して、２つのノードを隔てるエッジの数に基づいて、着目するノードに隣接する隣接ノードを特定してもよい。また、当該グラフにおけるエッジは、ノード間の依存関係を示す有向エッジでもよい。伝搬スコア算出部１５５は、ノードと隣接ノードとの間の有向エッジに基づいて、当該ノードが隣接ノードに依存する依存関係、または、隣接ノードがノードに依存する依存関係を特定してもよい。

伝搬スコア算出部１５５は、伝搬スコアの算出の際に、隣接ノードが、着目するノードに依存する場合、重み付け係数として第１重み付け係数を使用する。一方、伝搬スコア算出部１５５は、着目するノードが隣接ノードに依存する場合、重み付け係数として、第１重み付け係数よりも小さい第２重み付け係数を使用する。

これにより、障害箇所推定サーバ１００は、着目するノードに対する隣接ノードの影響を、当該ノードの障害スコアに適切に反映させることができ、アラートの原因のノードを適切に特定できる。

例えば、伝搬スコア係数算出部１５４は、着目するノードが隣接ノードに依存する場合、隣接ノードが有するリソース量のうちの当該ノードに割当てられたリソース量の割合が大きいほど第２重み付け係数を大きくしてもよい。

これにより、障害箇所推定サーバ１００は、依存される側のノードの影響を、依存する側のノードの障害スコアに適切に反映させることができ、アラートの原因のノードを適切に特定できる。リソース伝搬スコア係数は、リソース量に応じて決定される第２重み付け係数の一例である。

また、伝搬スコア算出部１５５は、ノードの属性と隣接ノードの属性とに応じて、伝搬スコアの算出に用いる重み付け係数を変更してもよい。これにより、障害箇所推定サーバ１００は、着目するノードに対する隣接ノードの影響を、当該ノードの障害スコアに適切に反映させることができ、アラートの原因のノードを適切に特定できる。

また、基礎スコア算出部１５３は、ノードにより出力されたアラートの数に基づいて、当該ノードの基礎スコアを算出してもよい。これにより、障害箇所推定サーバ１００は、各ノードの障害スコアの基になる基礎スコアを適切に算出でき、アラートの原因のノードを適切に特定できる。

例えば、基礎スコア算出部１５３は、当該ノードにより出力されたアラートの重要度ごとのアラートの数に重要度に応じた重みを乗じて合計した値を、当該ノードの基礎スコアとして算出してもよい。これにより、障害箇所推定サーバ１００は、各ノードの障害スコアの基になる基礎スコアを適切に算出でき、アラートの原因のノードを適切に特定できる。

また、伝搬スコア算出部１５５は、ノードに対する隣接ノードとして、第１隣接ノードと、第１隣接ノードを介して当該ノードに隣接する第２隣接ノードとを特定してもよい。伝搬スコア算出部１５５は、当該ノードに対する第１隣接ノードの重み付け係数として、当該ノードに対する第２隣接ノードの重み付け係数よりも大きい値を使用してもよい。

また、障害スコア算出部１５６は、着目するノードの障害スコアの算出の際に、当該ノードの基礎スコアを、複数のノードに対して一定である第１基礎スコア係数、または、当該ノードの属性に応じた第２基礎スコア係数を用いて補正してもよい。この場合、障害スコア算出部１５６は、補正後の基礎スコアを、当該ノードと隣接ノードとのペアに対応する伝搬スコアと合計することで、当該ノードの障害スコアを算出する。

これにより、障害箇所推定サーバ１００は、該当のノードの属性に応じて、アラートに対する寄与を適切に評価でき、アラートの原因のノードを適切に特定できる。なお、基礎スコア係数テーブル１３１に登録される基礎スコア係数は、第１基礎スコア係数の一例である。基礎スコア係数テーブル１３１ａに登録される基礎スコア係数は、第２基礎スコア係数の一例である。

更に、障害箇所出力部１５７は、複数のノードのうち第１ノードを強調表示する画面を表示装置に表示させてもよい。これにより、障害箇所推定サーバ１００は、アラートの原因のノードの、ユーザによる把握を支援できる。その結果、障害箇所推定サーバ１００は、ユーザによる迅速な障害対応を支援できる。ディスプレイ５１は、表示装置の一例である。ただし、表示装置は、ネットワーク５０を介して障害箇所推定サーバ１００と通信する他の情報処理装置に接続されるものでもよい。例えば、障害箇所推定サーバ１００は、他の情報処理装置から障害箇所推定の要求を受け付け、当該要求に応じて、第１ノードを強調表示する画面、すなわち、障害箇所推定の結果を示す画面の情報を、当該他の情報処理装置に応答してもよい。障害箇所推定結果画面５１ａは、第１ノードを強調表示する画面の一例である。

なお、第１の実施の形態の情報処理は、処理部１２にプログラムを実行させることで実現できる。また、第２の実施の形態の情報処理は、ＣＰＵ１０１にプログラムを実行させることで実現できる。プログラムは、コンピュータ読み取り可能な記録媒体５３に記録できる。

例えば、プログラムを記録した記録媒体５３を配布することで、プログラムを流通させることができる。また、プログラムを他のコンピュータに格納しておき、ネットワーク経由でプログラムを配布してもよい。コンピュータは、例えば、記録媒体５３に記録されたプログラムまたは他のコンピュータから受信したプログラムを、ＲＡＭ１０２やＨＤＤ１０３などの記憶装置に格納し（インストールし）、当該記憶装置からプログラムを読み込んで実行してもよい。

１０情報処理装置
１１記憶部
１１ａ，１１ｂ，１１ｃテーブル
１２処理部
２０情報処理システム
２１，２２ノード

Claims

情報処理システムに含まれる複数のノードにおけるノード間の関連を示す構成情報と、前記情報処理システムで発生したアラートを示すアラート情報とを記憶する記憶部と、
前記アラート情報に基づいて前記複数のノードそれぞれに対して前記アラートに応じた基礎スコアを算出し、
前記複数のノードそれぞれに対して前記構成情報に基づいて特定される、前記ノードに隣接する隣接ノードの前記基礎スコアに、前記ノードと前記隣接ノードとの依存関係に応じた重み付け係数を乗算した伝搬スコアを、前記ノードと前記隣接ノードとのペアごとに算出し、
前記ノードの前記基礎スコアに、前記ノードと前記隣接ノードとのペアに対応する前記伝搬スコアを合計した障害スコアを、前記複数のノードそれぞれに対して算出し、
前記複数のノードそれぞれの前記障害スコアに基づいて前記複数のノードのうち前記アラートの原因である第１ノードを特定する、処理部と、
を有する情報処理装置。
前記処理部は、前記伝搬スコアの算出の際に、
前記隣接ノードが前記ノードに依存する場合、前記重み付け係数として第１重み付け係数を使用し、
前記ノードが前記隣接ノードに依存する場合、前記重み付け係数として前記第１重み付け係数よりも小さい第２重み付け係数を使用する、
請求項１記載の情報処理装置。
前記処理部は、前記ノードが前記隣接ノードに依存する場合、前記隣接ノードが有するリソース量のうちの前記ノードに割当てられたリソース量の割合が大きいほど前記第２重み付け係数を大きくする、
請求項２記載の情報処理装置。
前記処理部は、前記ノードの属性と前記隣接ノードの属性とに応じて前記伝搬スコアの算出に用いる前記重み付け係数を変更する、
請求項１記載の情報処理装置。
前記処理部は、前記ノードにより出力された前記アラートの数に基づいて前記ノードの前記基礎スコアを算出する、
請求項１記載の情報処理装置。
前記処理部は、前記ノードにより出力された前記アラートの重要度ごとの前記アラートの数に前記重要度に応じた重みを乗じて合計した値を、前記ノードの前記基礎スコアとして算出する、
請求項５記載の情報処理装置。
前記処理部は、前記ノードに対する前記隣接ノードとして、第１隣接ノードと、前記第１隣接ノードを介して前記ノードに隣接する第２隣接ノードとを特定し、前記ノードに対する前記第１隣接ノードの前記重み付け係数として、前記ノードに対する前記第２隣接ノードの前記重み付け係数よりも大きい値を使用する、
請求項１記載の情報処理装置。
前記処理部は、前記障害スコアの算出の際に、前記ノードの前記基礎スコアを、前記複数のノードに対して一定である第１基礎スコア係数、または、前記ノードの属性に応じた第２基礎スコア係数を用いて補正し、補正後の前記基礎スコアを前記伝搬スコアと合計することで、前記ノードの前記障害スコアを算出する、
請求項１記載の情報処理装置。
前記処理部は、前記複数のノードそれぞれの前記障害スコアに基づいて前記アラートの原因である可能性の高い順に前記第１ノードを含む２以上のノードを特定し、前記２以上のノードそれぞれが前記アラートの原因である可能性の高さを示す順位を出力する、
請求項１記載の情報処理装置。
コンピュータが、
情報処理システムに含まれる複数のノードにおけるノード間の関連を示す構成情報と、前記情報処理システムで発生したアラートを示すアラート情報とを取得し、
前記アラート情報に基づいて前記複数のノードそれぞれに対して前記アラートに応じた基礎スコアを算出し、
前記複数のノードそれぞれに対して前記構成情報に基づいて特定される、前記ノードに隣接する隣接ノードの前記基礎スコアに、前記ノードと前記隣接ノードとの依存関係に応じた重み付け係数を乗算した伝搬スコアを、前記ノードと前記隣接ノードとのペアごとに算出し、
前記ノードの前記基礎スコアに、前記ノードと前記隣接ノードとのペアに対応する前記伝搬スコアを合計した障害スコアを、前記複数のノードそれぞれに対して算出し、
前記複数のノードそれぞれの前記障害スコアに基づいて、前記複数のノードのうち前記アラートの原因である第１ノードを特定する、
情報処理方法。
情報処理システムに含まれる複数のノードにおけるノード間の関連を示す構成情報と、前記情報処理システムで発生したアラートを示すアラート情報とを取得し、
前記アラート情報に基づいて前記複数のノードそれぞれに対して前記アラートに応じた基礎スコアを算出し、
前記複数のノードそれぞれに対して前記構成情報に基づいて特定される、前記ノードに隣接する隣接ノードの前記基礎スコアに、前記ノードと前記隣接ノードとの依存関係に応じた重み付け係数を乗算した伝搬スコアを、前記ノードと前記隣接ノードとのペアごとに算出し、
前記ノードの前記基礎スコアに、前記ノードと前記隣接ノードとのペアに対応する前記伝搬スコアを合計した障害スコアを、前記複数のノードそれぞれに対して算出し、
前記複数のノードそれぞれの前記障害スコアに基づいて、前記複数のノードのうち前記アラートの原因である第１ノードを特定する、
処理をコンピュータに実行させるプログラム。