JP2023136444A

JP2023136444A - 解析プログラム、解析方法、および情報処理システム

Info

Publication number: JP2023136444A
Application number: JP2022042116A
Authority: JP
Inventors: 雄太及川; Yuta Oikawa
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2023-09-29
Also published as: US20230297459A1

Abstract

【課題】影響範囲に含まれる要素の判定の確度を向上させる。【解決手段】情報処理システム１０は、監視対象システム１における問題の発生を検知すると、複数のソフトウェア要素６～８それぞれについて、問題が発生していない期間と問題が発生している期間との処理の実行状態の乖離度を算出する。また情報処理システム１０は、システム構成上の関係に基づいて、複数のソフトウェア要素６～８それぞれについて、問題と関係する度合いを示す関与度を算出する。さらに情報処理システム１０は、乖離度と関与度とに基づいて、複数のソフトウェア要素６～８それぞれの単体影響ポイントを算出する。そして情報処理システム１０は、第１のソフトウェア要素の単体影響ポイントと、第１のソフトウェア要素による処理を介した通信の通信経路上の第２のソフトウェア要素の単体影響ポイントに基づいて、第１のソフトウェア要素の総合影響ポイントを算出する。【選択図】図１

Description

本発明は、解析プログラム、解析方法、および情報処理システムに関する。

コンピュータシステムに何か問題が発生した場合に、そのシステムを継続して稼働させるために、発生した問題により生じる影響の及ぶ範囲を正確に把握することが望まれている。他方、ソフトウェアの仮想的な実行環境であるコンテナを活用したシステムでは、その特性からシステム構成が複雑になりやすい。しかもコンテナの配置など構成が頻繁に変化する。そのため、問題により生じる影響の範囲を正確に把握することの困難性が増している。

システムの問題の影響の把握に関連する技術としては、例えば、全ての障害伝搬経路を予め計算することが不要で、障害原因の自動的な絞り込みが可能である障害原因の推論方法が提案されている。また、ネットワークの構成を変更する際に、影響を受け得る端末の評価を適切に実行することができるネットワーク管理装置も提案されている。さらに、広い範囲に渡って迅速かつ客観的な評価を実現するネットワークセキュリティに関する被害評価システムも提案されている。

特開２０２０－００５１３８号公報特開２０２１－０７２５４８号公報特開２００２－３２８８９３号公報

従来手法では、例えば問題発生時のシステムの構成情報と通信経路情報から、問題発生箇所に関連する範囲が割り出され、該当範囲が影響範囲とされる。この場合、例えばノード（ハードウェアまたはＶＭ（Virtual Machine））で発生した問題の影響は、そのノードで動作するすべてのコンテナ、およびそのコンテナで実行されるソフトウェア（ＳＷ）要素に及ぶものと判断される。

また、例えば、問題の影響を受けるＳＷ要素に対して処理要求を送信するＳＷ要素にも、問題の影響が波及するものと判断される。このように、システム構成情報と通信経路情報だけで影響範囲を割り出すと、影響範囲が広くなりすぎ、影響範囲に含まれている要素が本当に影響を受けるか否かの確度が低下してしまう。すなわち、実際には影響がないか、あるいは影響が軽微であり即時対応が不要な要素まで影響範囲に含まれる可能性がある。その結果、発生した問題に対して迅速に対応するべきＳＷ要素への対処が遅れてしまう。

１つの側面では、本件は、影響範囲に含まれるソフトウェア要素の判定の確度を向上させることを目的とする。

１つの案では、以下の処理をコンピュータに実行させる解析プログラムが提供される。
コンピュータは、監視対象システムで問題が発生したとき、監視対象システムにおいて実行される複数のソフトウェア要素それぞれについて、問題が発生していない期間における処理の実行状態を表す第１の測定値と、問題が発生している期間における処理の実行状態を表す第２の測定値との乖離度を算出する。コンピュータは、問題の発生箇所と複数のソフトウェア要素それぞれとのシステム構成上の関係に基づいて、複数のソフトウェア要素それぞれについて、問題と関係する度合いを示す関与度を算出する。コンピュータは、乖離度と関与度とに基づいて、複数のソフトウェア要素それぞれについて、問題から個別に影響を受ける度合いを示す単体影響ポイントを算出する。そしてコンピュータは、第１のソフトウェア要素の単体影響ポイントと、第１のソフトウェア要素による処理を介した通信の通信経路上の第２のソフトウェア要素の単体影響ポイントに基づいて、第１のソフトウェア要素が問題から影響を受ける度合いを示す総合影響ポイントを算出する。

１態様によれば、影響範囲に含まれるソフトウェア要素の判定の確度が向上する。

第１の実施の形態に係る解析方法の一例を示す図である。第２の実施の形態のシステム構成の一例を示す図である。解析装置のハードウェアの一例を示す図である。解析装置が有する機能の一例を示すブロック図である。問題の影響範囲を解析するために受け渡される情報の一例を示す図である。構成情報の一例を示す図である。レイヤを跨がった要素間の関係の一例を示す図である。通信経路情報の一例を示す図である。横の構成関係の一例を示す図である。運用管理システムの構成の一例を示す図である。縦の構成関係による候補要素特定の一例を示す図である。横の構成関係による候補要素特定の一例を示す図である。平常時メトリックの一例を示す図である。影響ポイント算出処理の手順の一例を示すフローチャートである。乖離度算出処理の手順の一例を示すフローチャートである。平常時統計指標テーブルの一例を示す図である。関与度算出処理の手順の一例を示すフローチャートである。単体影響ポイント算出処理の手順の一例を示すフローチャートである。総合影響ポイント算出処理の手順の一例を示すフローチャートである。影響箇所の候補要素の特定結果の一例を示す図である。乖離度の算出結果の一例を示す図である。関与度の算出結果の一例を示す図である。単体影響ポイントの算出結果の一例を示す図である。総合影響ポイントの算出結果の一例を示す図である。影響範囲画面の一例を示す図である。問題発生箇所がワークロードの場合の関与度の算出結果の一例を示す図である。問題発生箇所がＰｏｄの場合の関与度の算出結果の一例を示す図である。

以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第１の実施の形態〕
第１の実施の形態は、影響範囲に含まれるソフトウェア（ＳＷ）要素の判定の確度を向上させるための、監視対象のシステムの運用状態の解析方法である。

図１は、第１の実施の形態に係る解析方法の一例を示す図である。図１には、第１の実施の形態に係る解析方法を実現するための情報処理システム１０を示している。情報処理システム１０は、例えば所定の解析プログラムを実行することにより、第１の実施の形態に係る解析方法を実施することができる。

情報処理システム１０は、記憶部１１と処理部１２とを有する。記憶部１１は、例えば情報処理システム１０が有するメモリまたはストレージ装置である。処理部１２は、例えば情報処理システム１０が有するプロセッサまたは演算回路である。情報処理システム１０は、例えば監視対象システム１を監視するコンピュータと、監視結果に基づいて発生した問題の影響範囲を解析するコンピュータとで構成される。なお情報処理システム１０は、監視対象システム１の監視と監視結果に基づく問題の影響範囲の解析とを行う１台のコンピュータであってもよい。

情報処理システム１０は、監視対象システム１に問題が発生した場合に、その問題の影響範囲を解析する。監視対象システム１は、例えば複数のノード１ａ，１ｂを含んでいる。ノード１ａ，１ｂそれぞれは、例えばコンピュータ（物理マシン）または仮想マシンである。複数のノード１ａ，１ｂでは、サービスを提供するための複数のＳＷ要素６～８が動作している。ＳＷ要素６～８は、例えばワークロードと呼ばれるアプリケーションソフトウェア（以下、アプリと呼ぶ）である。ＳＷ要素６～８は、例えばアプリの仮想的な実行環境であるコンテナで実行される。同じノードで実現されている１または複数のコンテナは、例えばＰｏｄと呼ばれる管理単位（コンテナの集合体）で管理される。

例えばＳＷ要素６は、複数のＰｏｄ６ａ，６ｂそれぞれのコンテナで実行されている。ＳＷ要素７は、複数のＰｏｄ７ａ，７ｂそれぞれのコンテナで実行されている。ＳＷ要素８は、複数のＰｏｄ８ａ，８ｂそれぞれのコンテナで実行されている。

情報処理システム１０の記憶部１１は、解析に用いる情報を記憶する。例えば記憶部１１には、平常時メトリック２、問題発生時メトリック３、構成情報４、および通信経路情報５を記憶する。

平常時メトリック２は、監視対象システム１が平常動作をしている間に測定された、処理の実行状態を表す所定の指標の値（第１の測定値）である。例えば平常時メトリック２には、平常時の処理実行時間の測定結果が示される。

問題発生時メトリック３は、監視対象システム１に問題が発生している間に測定された、処理の実行状態を表す所定の指標の値（第２の測定値）である。例えば問題発生時メトリック３には、問題が発生している間の処理実行時間の測定結果が示される。

構成情報４は、監視対象システム１で実現されているアプリの実行環境の階層構造が示されている。例えば構成情報４には、最下層のノードの情報、ノードの上位層である実行リソース（コンテナとＰｏｄを含む）の情報、実行リソースの上位層であるＳＷ要素６～８の情報が含まれる。さらに構成情報４には、ノード、実行リソースおよびＳＷ要素６～８間の関係が示されている。すなわち構成情報４には、ＳＷ要素６～８を実行しているコンテナがどのＰｏｄに含まれるのか、そのコンテナがどのノード上で動作しているのかを示す情報が示されている。このような構成情報４に示される構成関係は、階層を跨がった縦の構成関係と呼ぶことができる。

通信経路情報５は、ＳＷ要素６～８における処理要求の通信経路を示す情報である。図１の例では、ＳＷ要素６から送信された処理要求はＳＷ要素７で受信される。ＳＷ要素７では、受信した処理要求に応じた処理を実行すると共に、ＳＷ要素８に処理要求を送信する。ＳＷ要素８は、ＳＷ要素７からの処理要求に応じた処理を行う。ＳＷ要素８は、処理結果をＳＷ要素７に送信する。ＳＷ要素７は、ＳＷ要素８から取得した処理結果を用いてＳＷ要素６からの処理要求に応じた処理を完了させ、処理結果をＳＷ要素６に送信する。ＳＷ要素６は、ＳＷ要素７からの処理結果を用いて自己の処理を完了させる。この場合、ＳＷ要素６の通信先がＳＷ要素７、ＳＷ要素７の通信先がＳＷ要素８の一連の通信経路となる。ＳＷ要素６が通信経路の始端であり、ＳＷ要素８が通信経路の終端である。このような通信経路情報５に示される関係は、ＳＷ要素６～８間の横の構成関係と呼ぶことができる。

処理部１２は、監視対象システム１における問題の発生を検知する。例えば処理部１２は、監視対象システム１の動作を監視して、例えばメトリックの異常値の検知などにより、問題発生を検知することもできる。

処理部１２は、監視対象システム１における問題の発生を検知すると、複数のＳＷ要素６～８それぞれについて、処理の実行状態を表す所定の指標に関する第１の測定値と第２の測定値との乖離度を算出する。第１の測定値は、平常時メトリック２に示される、問題が発生していない期間における値である。第２の測定値は、問題発生時メトリック３に示される、問題が発生している期間における値である。処理部１２は、例えば問題検知時点で問題発生時メトリック３が取得できていない場合、監視対象システム１から問題発生時メトリック３を取得して、乖離度を算出する。

さらに処理部１２は、問題の発生箇所と複数のＳＷ要素６～８それぞれとのシステム構成上の関係に基づいて、複数のＳＷ要素６～８それぞれについて、問題と関係する度合いを示す関与度を算出する。例えばいずれかのノード（以下、第１のノードとする）で問題が発生した場合、処理部１２は、第１のノード上で動作しているＳＷ要素の関与度を、その第１のノード上で動作していないＳＷ要素の関与度よりも高く設定する。なお１つのＳＷ要素は複数の仮想的な実行環境（例えばコンテナ）で実行されている場合がある。その場合、処理部１２は、例えば関与度を算出する対象のソフトウェア要素を実行している仮想的なソフトウェア実行環境のうちの、問題の発生箇所であるノード上で動作しているソフトウェア実行環境の割合に基づいて、対象のソフトウェア要素の関与度を算出する。なお、特定のＳＷ要素を実行するコンテナがＰｏｄ単位で管理されている場合、処理部１２は、問題が発生したノード上で動作しているＰｏｄの割合によって、問題の発生箇所であるノード上で動作しているコンテナの割合を把握することができる。

複数のＳＷ要素６～８それぞれの乖離度と関与度との算出が終了すると、処理部１２は、乖離度と関与度とに基づいて、複数のＳＷ要素６～８それぞれについて、問題から個別に影響を受ける度合いを示す単体影響ポイントを算出する。例えば処理部１２は、複数のＳＷ要素６～８それぞれについての乖離度と関与度との乗算結果を、該当するＳＷ要素の単体影響ポイントとする。

さらに処理部１２は、ＳＷ要素６～８間の相互の影響を加味し、複数のＳＷ要素６～８それぞれについて、問題から受ける総合的な影響の度合いを示す総合影響ポイントを算出する。ここで、総合影響ポイントの算出対象を第１のＳＷ要素とする。このとき処理部１２は、第１のＳＷ要素の単体影響ポイントと、第１のＳＷ要素を介した通信の通信経路上の第２のＳＷ要素の単体影響ポイントに基づいて、第１のＳＷ要素が問題から影響を受ける度合いを示す総合影響ポイントを算出する。通信経路は、通信経路情報５に基づいて判断することができる。例えば処理部１２は、第１のＳＷ要素を介した処理要求の通信経路における処理要求の送信先にあるＳＷ要素を第２のＳＷ要素とする。そして処理部１２は、例えば第１のＳＷ要素の単体影響ポイントと第２のＳＷ要素の単体影響ポイントとの合計を、総合影響ポイントとする。

そして処理部１２は、第１のＳＷ要素の総合影響ポイントが所定値以上の場合、第１のＳＷ要素が発生した問題の影響範囲内にあると判定する。総合影響ポイントは、平常時メトリック２と問題発生時メトリック３との乖離度と、構成情報４に示された縦の構成関係に基づく関与度と、通信経路情報５に示された横の構成関係とを用いた、信頼性の高い値となっている。そのためを総合影響ポイントにより各ＳＷ要素が問題の影響範囲か否かを判断することで、確度の高い判断結果を得ることができる。

すなわち、縦の構成関係により、問題により生じる構成上の影響の範囲を得ることができ、横の構成関係により、発生した問題がシステム上の別の要素に実際に与える影響の範囲と度合いを得ることができる。その結果、実際に生じている影響の大きさに基づいた優先度の高い影響範囲を詳細に把握できるようになり、復旧・対処時間の短縮が可能となる。

例えば図１の例ではノード１ｂで問題が発生している。このときＳＷ要素６の乖離度が「１」、ＳＷ要素７の乖離度が「１０」、ＳＷ要素８の乖離度が「６」であるものとする。またＳＷ要素６は、ノード１ａで動作するＰｏｄ６ａ，６ｂで実行されており、関与度は「０」である。ＳＷ要素７は、ノード１ｂで動作するＰｏｄ７ａ，７ｂで実行されており、関与度は「１」である。ＳＷ要素８は、ノード１ａで動作するＰｏｄ８ａとノード１ｂで動作するＰｏｄ８ｂで実行されており、関与度は「０．５」である。

単体影響ポイントを「乖離度×関与度」とすると、ＳＷ要素６の単体影響ポイントは「０」となる。ＳＷ要素７の単体影響ポイントは「１０」となる。ＳＷ要素８の単体影響ポイントは「３」となる。

そして複数のＳＷ要素６～８それぞれの総合影響ポイントを、通信先（通信経路の終端まで）の単体影響ポイント（ＳＷ要素自身の単体影響ポイントを含む）の和とする。するとＳＷ要素６の総合影響ポイントは「１３」となる。ＳＷ要素７の総合影響ポイントは「１３」となる。ＳＷ要素８の総合影響ポイントは「３」となる。ここで影響範囲内にあると判断するための総合影響ポイントの閾値を「１０」とすると、ＳＷ要素６とＳＷ要素７とが問題の影響を受ける影響要素と判断される。

図１の例の場合、ＳＷ要素７については、そのＳＷ要素７を実行している複数のＰｏｄ７ａ，７ｂが共に問題発生箇所のノード１ｂで動作しており、影響を受ける可能性が高い。すなわちＳＷ要素７が影響要素であるとの判断結果の確度は高い。またＳＷ要素６は、ＳＷ要素７に対して処理要求を送信する。すると問題の影響を受けてＳＷ要素７での処理が遅延すれば、その遅延の影響がＳＷ要素６に及ぶ。そのため、ＳＷ要素７が影響要素であるとの判断結果の確度は高い。

他方、ＳＷ要素８については、そのＳＷ要素８を実行している２つのＰｏｄ８ａ，８ｂのち、一方は問題が発生したノード１ｂで動作しているものの、他方は別のノード１ａで動作している。Ｐｏｄ８ａ，８ｂが冗長構成となっている場合、Ｐｏｄ８ｂによるＳＷ要素８の実行による処理が遅延しても、他方のＰｏｄ８ａによるＳＷ要素８の実行により、全体としての処理遅延は微小ですむ可能性がある。またＳＷ要素８は、通信経路の終端であり、他のＳＷ要素に処理要求を送信し、処理結果を待つこともない。そのため発生した問題のＳＷ要素８への影響は軽微である可能性が高く、ＳＷ要素８を影響範囲外とする判断結果の確度は高い。

なお図１の例では、ノード１ｂで問題が発生した場合の例を示しているが、問題発生箇所がいずれかのＳＷの場合もあり得る。その場合、関与度の算出処理が、ノード１ｂで問題が発生した場合と異なる。処理部１２は、いずれかのＳＷ要素で問題が発生した場合、問題の発生箇所となっているＳＷ要素の関与度を、問題の発生箇所となっていないＳＷ要素の関与度より高くする。例えば処理部１２は、問題の発生箇所のＳＷ要素の関与度を「１」、それ以外のＳＷ要素の関与度を「０」とする。これにより、ＳＷ要素に問題が発生した場合にも、問題の影響範囲を高い確度で判断することができる。

また、問題発生箇所がいずれかのＰｏｄ（コンテナの管理単位）の場合もあり得る。その場合、関与度の算出処理が、ノード１ｂで問題が発生した場合と異なる。例えば処理部１２は、関与度を算出する対象のソフトウェア要素を実行している仮想的なソフトウェア実行環境を管理する複数の管理単位のうちの、問題の発生箇所である管理単位の割合に基づいて、対象のソフトウェア要素の関与度を算出する。これにより、Ｐｏｄに問題が発生した場合にも、問題の影響範囲を高い確度で判断することができる。

図１の例では、１つの通信経路しか示していないが、監視対象システム１には、通信経路の異なる様々な通信が行われる。その場合、処理部１２は、例えば複数のＳＷ要素６～８それぞれについて通信経路ごとに総合影響ポイントを算出してもよい。例えば処理部１２は、複数のＳＷ要素６～８それぞれについての通信経路ごとの乖離度を算出する。また処理部１２は、複数のＳＷ要素それぞれについての通信経路ごとの単体影響ポイントを算出する。そして処理部１２は、複数のＳＷ要素それぞれについての通信経路ごとの総合影響ポイントを算出する。

このように通信経路ごとの総合影響ポイントを算出することで、監視対象システム１内に多数の通信経路が存在する場合であっても、問題の影響範囲を高い確度で判断することができる。

〔第２の実施の形態〕
第２の実施の形態は、コンテナを用いてサービスを運用する運用システムで発生した問題を監視装置で検知し、検知された問題の影響範囲を解析装置で解析するコンピュータシステムである。

図２は、第２の実施の形態のシステム構成の一例を示す図である。運用システム３０には、複数のノード３１～３３が含まれている。複数のノード３１～３３それぞれは、コンテナを用いてユーザへのサービスを提供するコンピュータまたはＶＭである。複数のノード３１～３３は、ネットワーク２０に接続されている。ネットワーク２０には、さらに監視装置４１、解析装置１００、および運用端末４２が接続されている。

監視装置４１は、運用システム３０内の複数のノード３１～３３それぞれの動作状況を監視するコンピュータである。監視装置４１は、いずれかのノード、ノード内のコンテナ、またはアプリで問題が発生した場合、その問題の発生を検知する。例えば監視装置４１は、処理に要する時間が所定の基準値以上となった場合、問題が発生したと判断する。

解析装置１００は、発生した問題の影響の範囲を解析するコンピュータである。解析装置１００は、監視装置４１から問題発生箇所などの情報を取得し、取得した情報に基づいて問題の影響範囲を解析する。

運用端末４２は、運用システム３０の運用者が使用するコンピュータである。運用者は、問題が発生した場合に、運用端末４２を利用してその問題の影響範囲を確認することができる。

図３は、解析装置のハードウェアの一例を示す図である。解析装置１００は、プロセッサ１０１によって装置全体が制御されている。プロセッサ１０１には、バス１０９を介してメモリ１０２と複数の周辺機器が接続されている。プロセッサ１０１は、マルチプロセッサであってもよい。プロセッサ１０１は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、またはＤＳＰ（Digital Signal Processor）である。プロセッサ１０１がプログラムを実行することで実現する機能の少なくとも一部を、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）などの電子回路で実現してもよい。

メモリ１０２は、解析装置１００の主記憶装置として使用される。メモリ１０２には、プロセッサ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ１０２には、プロセッサ１０１による処理に利用する各種データが格納される。メモリ１０２としては、例えばＲＡＭ（Random Access Memory）などの揮発性の半導体記憶装置が使用される。

バス１０９に接続されている周辺機器としては、ストレージ装置１０３、ＧＰＵ（Graphics Processing Unit）１０４、入力インタフェース１０５、光学ドライブ装置１０６、機器接続インタフェース１０７およびネットワークインタフェース１０８がある。

ストレージ装置１０３は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置１０３は、解析装置１００の補助記憶装置として使用される。ストレージ装置１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置１０３としては、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）を使用することができる。

ＧＰＵ１０４は画像処理を行う演算装置であり、グラフィックコントローラとも呼ばれる。ＧＰＵ１０４には、モニタ２１が接続されている。ＧＰＵ１０４は、プロセッサ１０１からの命令に従って、画像をモニタ２１の画面に表示させる。モニタ２１としては、有機ＥＬ（Electro Luminescence）を用いた表示装置や液晶表示装置などがある。

入力インタフェース１０５には、キーボード２２とマウス２３とが接続されている。入力インタフェース１０５は、キーボード２２やマウス２３から送られてくる信号をプロセッサ１０１に送信する。なお、マウス２３は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク２４に記録されたデータの読み取り、または光ディスク２４へのデータの書き込みを行う。光ディスク２４は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク２４には、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）などがある。

機器接続インタフェース１０７は、解析装置１００に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース１０７には、メモリ装置２５やメモリリーダライタ２６を接続することができる。メモリ装置２５は、機器接続インタフェース１０７との通信機能を搭載した記録媒体である。メモリリーダライタ２６は、メモリカード２７へのデータの書き込み、またはメモリカード２７からのデータの読み出しを行う装置である。メモリカード２７は、カード型の記録媒体である。

ネットワークインタフェース１０８は、ネットワーク２０に接続されている。ネットワークインタフェース１０８は、ネットワーク２０を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。ネットワークインタフェース１０８は、例えばスイッチやルータなどの有線通信装置にケーブルで接続される有線通信インタフェースである。またネットワークインタフェース１０８は、基地局やアクセスポイントなどの無線通信装置に電波によって通信接続される無線通信インタフェースであってもよい。

解析装置１００は、以上のようなハードウェアによって実現することができる。複数のノード３１～３３、監視装置４１、および運用端末４２も、解析装置１００と同様のハードウェアで実現することができる。また、第１の実施の形態に示した情報処理システム１０も、解析装置１００と同様のハードウェアにより実現することができる。

解析装置１００は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第２の実施の形態の処理機能を実現する。解析装置１００に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、解析装置１００に実行させるプログラムをストレージ装置１０３に格納しておくことができる。プロセッサ１０１は、ストレージ装置１０３内のプログラムの少なくとも一部をメモリ１０２にロードし、プログラムを実行する。また解析装置１００に実行させるプログラムを、光ディスク２４、メモリ装置２５、メモリカード２７などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ１０１からの制御により、ストレージ装置１０３にインストールされた後、実行可能となる。またプロセッサ１０１が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。

解析装置１００は、システムの構成情報と通信経路情報に加え、Kubernetes（登録商標）のワークロードごとの平常時と問題発生時とのメトリックの乖離度を用いて、問題の影響範囲を高い確度で特定する。ワークロードは、コンテナ内で実行されるアプリである。コンテナでワークロードを実行することにより、そのワークロードに応じたサービスが提供される。ワークロードは、第１の実施の形態に示したＳＷ要素の一例である。

ここで、平常時と問題発生時とのメトリックの乖離度を用いて問題の影響範囲を特定することの有用性について説明する。メトリックの乖離度を用いない場合、システムの構成情報と通信経路情報から問題の影響範囲を判断することとなる。その場合、例えば問題の発生箇所（ノード、ワークロード、またはＰｏｄ）から、システムの構成上の下位構造から上位構造を辿ったときに到達するワークロードが影響範囲に含められる。また影響範囲内のワークロードを通信の要求先するワークロードも影響範囲に含められる。

このようにシステムの構成情報と通信経路情報のみから問題の影響範囲を特定する場合のように、通信経路を辿って到達するすべてのワークロードを影響範囲に含めると、影響範囲が膨大になる可能性がある。影響範囲が膨大になると、問題の対処に時間がかかる。しかも影響を受けるワークロードに対して処理要求を送信している他のワークロードであっても、問題の影響をほとんど受けない場合がある。例えば通信およびアプリが冗長化されており、１つの通信経路上で問題が発生しても、冗長構成の他の通信経路を用いて、問題の影響を受けずに処理を継続できる可能性がある。このように、システムの構成情報と通信経路情報のみから問題の影響範囲を特定すると、影響範囲内とされたワークロードが問題の影響を受ける確度が低くなる。

そこで第２の実施の形態に係るシステムの解析装置１００では、平常時と問題発生時とのメトリックの乖離度を用いて、影響範囲内とされたワークロードが問題の影響を受ける確度を向上させる。すなわち平常時と問題発生時とのメトリックの乖離度が大きいワークロードは、発生した問題の影響を大きく受けているものと考えられる。また問題が発生したノード上で動作しているワークロードは、その問題に関与しており、問題の影響を受けているものと考えられる。そこで解析装置１００は、問題への関与度と乖離度とに基づいて、影響の度合いを影響ポイントで表し、影響ポイントが所定値以上のワークロードを影響範囲に含めることとする。これにより高い確度で問題の影響を受けているワークロードのみを含む影響範囲を、運用者に提示することができる。

図４は、解析装置が有する機能の一例を示すブロック図である。解析装置１００は、構成情報取得部１１０、候補要素特定部１２０、および影響ポイント算出部１３０を有する。

構成情報取得部１１０は、運用システム３０からシステムの構成情報と通信経路情報とを取得する。構成情報取得部１１０は、取得した構成情報と通信経路情報とを、候補要素特定部１２０と影響ポイント算出部１３０に送信する。

候補要素特定部１２０は、発生した問題から影響を受ける可能性のある候補要素を特定する。例えば候補要素特定部１２０は、問題が発生した箇所からシステムの構成情報を上位に辿り、到達可能なワークロードを候補要素とする。さらに候補要素特定部１２０は、候補要素となったワークロードを通る通信経路を処理要求の送信元方向に辿り、到達可能なワークロードを候補要素に加える。候補要素特定部１２０は、特定した候補要素を影響ポイント算出部１３０に通知する。

影響ポイント算出部１３０は、監視装置４１から候補要素それぞれについての平常時メトリックと問題発生時メトリックとを取得する。そして影響ポイント算出部１３０は、候補要素ごとに、平常時メトリックと問題発生時メトリックの乖離度を算出する。また影響ポイント算出部１３０は、システムの構成情報に示される問題発生箇所と候補要素との関係に基づいて、候補要素それぞれの問題に対する関与度を算出する。そして影響ポイント算出部１３０は、候補要素それぞれについて、その候補要素、および候補要素と同じ通信経路上の他の候補要素についての乖離度と関与度とに基づいて、影響ポイントを算出する。影響ポイント算出部１３０は、影響ポイントが所定の閾値以上の候補要素を、問題の影響が及ぶ影響要素（影響範囲内の要素）と判定する。影響ポイント算出部１３０は、影響範囲内の要素を示す情報を運用端末４２に送信する。

なお、構成情報取得部１１０、候補要素特定部１２０、および影響ポイント算出部１３０の機能は、例えば、その機能に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。

図５は、問題の影響範囲を解析するために受け渡される情報の一例を示す図である。例えば解析装置１００の構成情報取得部１１０は、運用システム３０から構成情報５１と通信経路情報５２を取得する。構成情報取得部１１０は、取得した構成情報５１と通信経路情報５２を、候補要素特定部１２０と影響ポイント算出部１３０とに送信する。

監視装置４１は、運用システム３０の問題を検知した場合に、問題が発生した要素を示す問題箇所情報５３を候補要素特定部１２０に通知する。また監視装置４１は、平常時メトリック５４と問題発生時メトリック５５とを影響ポイント算出部１３０に送信する。候補要素特定部１２０は、構成情報５１、通信経路情報５２、および問題箇所情報５３に基づいて特定した候補要素を示す候補要素情報５６を影響ポイント算出部１３０に送信する。

影響ポイント算出部１３０は、取得した各情報に基づいて、候補要素ごとかつ通信経路ごとの総合影響ポイント５７を算出する。そして影響ポイント算出部１３０は、総合影響ポイント５７と問題の影響範囲を示す影響範囲情報５８とを運用端末４２に送信する。

図６は、構成情報の一例を示す図である。構成情報５１には、ノード３１～３３ごとのノード情報６１ａ，６１ｂ，・・・、ノード３１～３３内のコンテナごとのコンテナ情報６２ａ，６２ｂ，・・・、コンテナ内のＰｏｄごとのＰｏｄ情報６３ａ，６３ｂ，・・・、Ｐｏｄで実行されるワークロードごとのサービス情報６４ａ，６４ｂ，・・・が含まれる。

ノード情報６１ａ，６１ｂ，・・・には、対応するノードの名前（ｎａｍｅ）、ステータス（ｓｔａｔｕｓ）、役割（ｒｏｌｅ）などの情報が含まれる。コンテナ情報６２ａ，６２ｂ，・・・には、対応するコンテナの名前（ｎａｍｅ）、ステータス（ｓｔａｔｕｓ）、そのコンテナを実行しているノード（ホスト）の名前（ｈｏｓｔ）などが含まれる。Ｐｏｄ情報６３ａ，６３ｂ，・・・には、対応するＰｏｄの名前（ｎａｍｅ）、ステータス（ｓｔａｔｕｓ）、そのＰｏｄを有しているコンテナの名前（ｃｏｎｔａｉｎｅｒ）などが含まれる。サービス情報６４ａ，６４ｂ，・・・には、対応するサービスの名前（ｎａｍｅ）、ステータス（ｓｔａｔｕｓ）、そのサービスを提供しているワークロードを実行している１以上のＰｏｄの名前（Ｐｏｄｓ）、そのサービスの提供に用いるソフトウェアコンポーネントの名前（ｃｏｍｐｏｎｅｎｔ）などが含まれる。

構成情報５１に基づいて、運用システム３０内の各要素のレイヤを跨がった関係（縦の構成関係）を把握することができる。レイヤは、例えばノード、実行リソース、サービスに分けることができる。

図７は、レイヤを跨がった要素間の関係の一例を示す図である。ノード、実行リソース、サービスに階層を分けた場合、ノードレイヤはノード情報６１で示され、実行リソースレイヤはコンテナ情報６２とＰｏｄ情報６３とで示され、サービスレイヤはサービス情報６４で示される。

ここで、あるサービスのサービス情報６４に設定されているＰｏｄの名前（ｎａｍｅ）により、そのサービスを提供するための１または複数のワークロードそれぞれが実行されているＰｏｄが特定できる。またＰｏｄ情報６３に設定されているコンテナの名前（ｃｏｎｔａｉｎｅｒ）により、そのＰｏｄを有しているコンテナが特定できる。コンテナ情報６２に設定されているノード（ホスト）の名前（ｈｏｓｔ）により、そのコンテナを実行しているノードが特定できる。

このように構成情報５１に基づいてレイヤを跨がった要素間の関係を把握することが可能となる。また同じレイヤに属する要素間の関係は、通信経路情報５２に基づいて把握することが可能である。

図８は、通信経路情報の一例を示す図である。通信経路情報５２には、例えばＰｏｄ間の通信ごとに、通信元（Ｆｒｏｍ）、通信先（Ｔｏ）、経路が設定されている。通信元（Ｆｒｏｍ）は、処理要求を送信したＰｏｄを示す情報である。通信先（Ｔｏ）は、処理要求を受信したＰｏｄを示す情報である。経路は、処理要求の送信に使用された通信経路を示す情報である。例えば通信経路「／ａｐｐ／Ａ／Ｃ」は、「ＰｏｄＡ」から「ＰｏｄＣ」へのアプリ間の通信経路を示している。

図８の例では、通信経路情報５２の１行目のデータと２行目のデータとは、通信元と通信先との組が同じであるが、異なる通信経路を用いた通信である。また通信経路情報５２の１行目のデータと３行目のデータとは、通信元と通信先との組は異なるが、同じ通信経路を用いた通信である。１行目のデータと３行目のデータとにより、通信経路「／ａｐｐ／Ａ／Ｃ」は、「ＰｏｄＡ」→「ＰｏｄＢ」→「ＰｏｄＣ」の通信経路であることが分かる。

このような通信経路情報５２から把握できる構成関係を横の構成関係と呼ぶこととする。横の構成関係によって、Ｐｏｄ間の関係が明確となる。
図９は、横の構成関係の一例を示す図である。図９には、４つのサービスそれぞれに対応するワークロード７１～７４が示されている。ワークロード７１は、サービス「Ｓｅｒｖｉｃｅ１」を提供するアプリである。ワークロード７１は、ノード「ＮｏｄｅＸ」上で動作するＰｏｄ「ＰｏｄＡ」で実行されるアプリと、ノード「ＮｏｄｅＹ」上で動作するＰｏｄ「ＰｏｄＢ」で実行されるアプリとを含む。

ワークロード７２は、サービス「Ｓｅｒｖｉｃｅ２」を提供するアプリである。ワークロード７２は、ノード「ＮｏｄｅＸ」上で動作するＰｏｄ「ＰｏｄＣ」で実行されるアプリと、ノード「ＮｏｄｅＺ」上で動作するＰｏｄ「ＰｏｄＤ」で実行されるアプリとを含む。

ワークロード７３は、サービス「Ｓｅｒｖｉｃｅ３」を提供するアプリである。ワークロード７３は、ノード「ＮｏｄｅＸ」上で動作するＰｏｄ「ＰｏｄＥ」で実行されるアプリと、ノード「ＮｏｄｅＺ」上で動作するＰｏｄ「ＰｏｄＦ」で実行されるアプリとを含む。

ワークロード７４は、サービス「Ｓｅｒｖｉｃｅ４」を提供するアプリである。ワークロード７４は、ノード「ＮｏｄｅＹ」上で動作するＰｏｄ「ＰｏｄＧ」で実行されるアプリと、ノード「ＮｏｄｅＺ」上で動作するＰｏｄ「ＰｏｄＨ」で実行されるアプリとを含む。

例えば通信経路情報５２において、通信元「ＰｏｄＡ」、通信先「ＰｏｄＥ」の通信が登録されている場合、ワークロード７１内の「ＰｏｄＡ」から「ＰｏｄＥ」への通信が行われていることが把握できる。同様にして、通信経路情報５２に設定されているＰｏｄ間の通信に従って、各ワークロード内のＰｏｄ間の通信を把握することができる。このような各ワークロード内のＰｏｄ間の通信の関係が、横の構成関係である。

解析装置１００では、構成情報５１に示される縦の構成関係と通信経路情報５２に示される横の構成関係とを組み合わせることで、問題発生時にその問題の影響伝播が可能な範囲を把握することができる。

図１０は、運用管理システムの構成の一例を示す図である。複数のサービス９１～９８が、それぞれに対応するワークロード８１～８８によって提供されている。なお図１０において、各サービスのサービス名が、そのサービスに対応するワークロードの上に記載されている。

ワークロード８１はＰｏｄ８１ａ，８１ｂで実行されている。ワークロード８２はＰｏｄ８２ａ，８２ｂで実行されている。ワークロード８３はＰｏｄ８３ａ，８３ｂで実行されている。ワークロード８４はＰｏｄ８４ａ，８４ｂで実行されている。ワークロード８５はＰｏｄ８５ａ，８５ｂで実行されている。ワークロード８６はＰｏｄ８６ａ，８６ｂで実行されている。ワークロード８７はＰｏｄ８７ａ，８７ｂで実行されている。ワークロード８８はＰｏｄ８８ａ，８８ｂで実行されている。

各Ｐｏｄ８１ａ～８８ａ，８１ｂ～８８ｂは、複数のノード３１～３３のいずれかで動作している。ノードとＰｏｄとの縦の構成関係は、レイヤ間を跨ぐエッジ（線）で表されている。例えばノード３２で動作しているのは、５つのＰｏｄ８３ｂ，８５ａ，８５ｂ，８７ｂ，８８ｂである。なお図１０では、ノード３２以外のノードとＰｏｄとの縦の構成関係を示すエッジは省略されている。

また図１０の例では、通信経路情報５２に示されるＰｏｄ間の通信は、該当Ｐｏｄで実行されているワークロード間の通信として把握されている。通信によって把握される横の構成関係は、処理要求を送信する通信元から処理要求を受信する通信先へのエッジ（矢印）で表されている。線種が同じエッジを繋げた通信経路が１つの通信経路を構成する。

図１０の例では３つの通信経路が示されている。１つ目の通信経路は、ワークロード８７からワークロード８６へ処理要求を送信する通信経路である。１つ目の通信経路は一点破線のエッジで示されている。２つ目の通信経路は、ワークロード８１から、ワークロード８２とワークロード８６とを経由して、ワークロード８８へ処理要求を送信する通信経路である。２つ目の通信経路は破線のエッジで示されている。３つ目の通信経路は、ワークロード８３から、ワークロード８４とワークロード８５とワークロード８６とを経由して、ワークロード８８へ処理要求を送信する通信経路である。３つ目の通信経路は実線のエッジで示されている。以下の説明では、１つ目の通信経路を「経路１」、２つ目の通信経路を「経路２」、３つ目の通信経路を「経路３」とする。

このような構成の運用システム３０において問題が発生したものとする。すると監視装置４１により問題の発生が検知され、監視装置４１から解析装置１００へ、問題箇所を示す情報が送られる。解析装置１００では、候補要素特定部１２０が、構成情報５１と通信経路情報５２とに基づいて運用システム３０の構成を把握する。そして候補要素特定部１２０は、検知された問題箇所との間で縦の構成関係または横の構成関係を辿ることで到達可能な要素を、問題の影響を受ける可能性のある候補要素とする。

図１１は、縦の構成関係による候補要素特定の一例を示す図である。図１１の例では、問題発生箇所はノード３２である。この場合、候補要素特定部１２０は、ノード３２から縦の構成関係を示すエッジを辿り、到達可能な５つのＰｏｄ８３ｂ，８５ａ，８５ｂ，８７ｂ，８８ｂを検出する。そして候補要素特定部１２０は、検出したＰｏｄ８３ｂ，８５ａ，８５ｂ，８７ｂ，８８ｂのいずれかで実行されているワークロード８３，８５，８７，８８を、影響箇所となる可能性がある候補要素として特定する。図１１では、候補要素となったワークロード８３，８５，８７，８８はハッチングが施されている。

縦の構成関係を辿って候補要素を特定後、候補要素特定部１２０は横の構成関係を辿って到達可能なワークロードを候補要素として特定する。
図１２は、横の構成関係による候補要素特定の一例を示す図である。候補要素特定部１２０は、例えば横の構成関係で示される３つの通信経路それぞれについて、候補要素から通信元の方向へ通信経路を辿り、経路上のワークロードを候補要素に加える。例えば候補要素として特定されたワークロード８８から、２つ目の通信経路（破線のエッジ）を通信元方向に辿ると、ワークロード８１，８２，８６に到達する。そこでこれらのワークロード８１，８２，８６が候補要素に加えられる。またワークロード８８から、３つ目の通信経路（実線のエッジ）を通信元方向に辿ると、ワークロード８３～８６に到達する。これらのワークロード８３～８６のうち、まだ候補要素となっていないワークロード８４が候補要素に加えられる。

このようにして、構成関係を辿ることで、すべてのワークロード８１～８８が候補要素として特定される。これらのワークロード８１～８８すべてを影響箇所としてしまうと影響範囲が広すぎ、影響範囲内のワークロード８１～８８についての問題の影響を受ける確度が低くなってしまう。そこで影響ポイント算出部１３０が、平常時と問題発生時とのメトリックの乖離度を用いて、影響ポイント算出処理を行う。

図１３は、平常時メトリックの一例を示す図である。影響ポイント算出部１３０は、監視装置４１から、候補要素（ワークロード）それぞれの通信経路ごとの平常時メトリック５４ａ，５４ｂ，・・・を取得する。例えば１つの平常時メトリック５４ａには、要素名「ＡｐｐＡ」のワークロードにおける通信経路「／ａｐｐ／Ａ」を介した複数の処理要求それぞれの処理実行時間が設定されている。平常時メトリック５４ａを参照すれば、対応する候補要素の通信経路ごとの処理実行時間の平均値、または標準偏差などの統計量を求めることができる。

なお平常時メトリック５４ａ，５４ｂ，・・・は、問題の検知前の所定の期間、監視装置４１が観測した情報である。監視装置４１は、問題発生後は、平常時メトリック５４ａ，５４ｂ，・・・とは区別して、観測した処理実行時間を問題発生時メトリック５５として記録する。そして監視装置４１は、平常時メトリック５４ａ，５４ｂ，・・・と同様に、候補要素それぞれの通信経路ごとの問題発生時メトリック５５を解析装置１００に送信する。問題発生時メトリック５５に含まれる情報は、図１３に示した平常時メトリック５４ａ，５４ｂ，・・・と同種の情報である。

図１４は、影響ポイント算出処理の手順の一例を示すフローチャートである。以下、図１４に示す処理をステップ番号に沿って説明する。
［ステップＳ１０１］影響ポイント算出部１３０は、候補要素それぞれの通信経路ごとのメトリックの乖離度算出処理を行う。乖離度算出処理の詳細は後述する（図１５参照）。

［ステップＳ１０２］影響ポイント算出部１３０は、システムの構成情報５１に基づいて、候補要素それぞれについての関与度算出処理を行う。関与度算出処理の詳細は後述する（図１７参照）。

［ステップＳ１０３］影響ポイント算出部１３０は、単体影響ポイント算出処理を行う。単体影響ポイント算出処理によって候補要素ごとの単体影響ポイントが得られる。単体影響ポイントは、候補要素それぞれについての乖離度と関与度とから算出される値である。各候補要素の単体影響ポイントには、その候補要素と横の構成関係を有する他の候補要素の乖離度または関与度は加味されない。単体影響ポイント算出処理の詳細は後述する（図１８参照）。

［ステップＳ１０４］影響ポイント算出部１３０は、総合影響ポイント算出処理を行う。総合影響ポイントは、横の構成関係を有する他の候補要素の単体影響ポイントを考慮した値である。総合影響ポイント算出処理の詳細は後述する（図１９参照）。

［ステップＳ１０５］影響ポイント算出部１３０は、総合影響ポイントが閾値以上の候補要素を影響要素に決定する。そして影響ポイント算出部１３０は、影響要素の集合を影響範囲とする。

［ステップＳ１０６］影響ポイント算出部１３０は、各候補要素の総合影響ポイントと影響範囲とを示す情報を、運用端末４２に送信する。
このようにして候補要素それぞれの総合影響ポイントに応じて決定された影響範囲が運用者に通知される。以下、図１５～図１９を参照して、ステップＳ１０１～Ｓ１０４の各処理の詳細について説明する。

図１５は、乖離度算出処理の手順の一例を示すフローチャートである。以下、図１５に示す処理をステップ番号に沿って説明する。
［ステップＳ１１１］影響ポイント算出部１３０は、監視装置４１から、候補要素それぞれの平常時メトリック５４を取得する。

［ステップＳ１１２］影響ポイント算出部１３０は、平常時メトリック５４を解析して、平常時統計指標テーブルを作成する。平常時統計指標テーブルは、候補要素それぞれについての通信経路ごとの統計情報を纏めたデータテーブルである。

図１６は、平常時統計指標テーブルの一例を示す図である。平常時統計指標テーブル１３１には、要素、経路、メトリック、平均値、標準偏差、周期開始、および周期終了の欄が設けられている。要素の欄には、候補要素の要素名が設定される。経路の欄には、経路上に候補要素が含む通信経路を示す情報が設定される。メトリックの欄には、候補要素と通信経路との組に対応して取得されたメトリックの種別を示す情報が設定される。平均値の欄には、候補要素と通信経路との組におけるメトリックの値の平均値が設定される。標準偏差の欄には、候補要素と通信経路との組におけるメトリックの値の標準偏差が設定される。周期開始の欄には、メトリックを観測した期間の開始時刻が設定される。周期終了の欄には、メトリックを観測した期間の終了時刻が設定される。

なお平常時のメトリックの標準偏差σは、以下の式（１）で求めることができる。

式（１）において、ｎはサンプル数である。ｘ_iは平常時に収集したメトリックのｉ番目の実測データである（ｉは１以上ｎ以下の整数）。μはメトリックの平均値である。

以下、図１５の説明に戻る。
［ステップＳ１１３］影響ポイント算出部１３０は、候補要素特定部１２０で特定された影響箇所の候補要素のうち、未選択の候補要素を１つ選択する。

［ステップＳ１１４］影響ポイント算出部１３０は、選択した候補要素についての経路ごとの問題発生時メトリックを、監視装置４１から取得する。
［ステップＳ１１５］影響ポイント算出部１３０は、選択した候補要素についての経路ごとの乖離度を算出する。例えば影響ポイント算出部１３０は、平常時のメトリックの平均と標準偏差とを用いて、以下の式（２）により標準化した乖離度Ｚを求める。

式（２）において、Ｘは問題発生時のメトリックの実測データである。問題発生時のメトリックの実測データを複数取得できている場合、例えばそれらの実測データの平均をＸとしてもよい。式（２）では、問題発生時のメトリックＸと平常時のメトリックの平均値μとの差を、平常時のメトリックの標準偏差σで除算した値の絶対値が、乖離度Ｚとなる。この場合、問題発生時のメトリックＸと平常時のメトリックの平均値μとの差が標準偏差σと等しい場合に乖離度Ｚが１となるように標準化（正規化と呼ぶこともできる）されている。

標準化した乖離度Ｚを算出することで、複数のメトリックを合わせて乖離度を求めることも容易となる。例えば影響ポイント算出部１３０は、複数のメトリックを用いる場合、個々のメトリックの標準化された乖離度の平均を、選択した候補要素の該当経路の乖離度とすることができる。また影響ポイント算出部１３０は、複数のメトリックそれぞれの標準化された乖離度のうちの最大値を、選択した候補要素の該当経路の乖離度としてもよい。

なお平常時のメトリックの統計指標（平均値、標準偏差）が時間帯ごとに集計されている場合、問題が発生した時刻を含む時間帯の平常時のメトリックの統計指標に基づいて乖離度を算出してもよい。例えば影響ポイント算出部１３０は、問題の発生時刻が「１２：００」であれば、周期開始「１０：００」、周期終了「２２：００」（１０時から２２時が測定期間）における平常時のメトリックとの乖離度を算出する。

［ステップＳ１１６］影響ポイント算出部１３０は、選択した候補要素と経路との組に対応付けて、算出した乖離度をメモリ１０２などに記録する。
［ステップＳ１１７］影響ポイント算出部１３０は、未選択の候補要素があるか否かを判断する。影響ポイント算出部１３０は、未選択の候補要素があれば処理をステップＳ１１３に進める。また影響ポイント算出部１３０は、すべての候補要素が選択済みであれば、乖離度算出処理を終了する。

このようにして、候補要素それぞれについて経路ごとの乖離度が求められる。次に関与度算出処理について詳細に説明する。
図１７は、関与度算出処理の手順の一例を示すフローチャートである。以下、図１７に示す処理をステップ番号に沿って説明する。

［ステップＳ１２１］影響ポイント算出部１３０は、影響箇所の候補要素のうちの未選択の候補要素を１つ選択する。
［ステップＳ１２２］影響ポイント算出部１３０は、問題発生箇所（影響範囲の起点）がノードか否かを判断する。影響ポイント算出部１３０は、起点がノードであれば処理をステップＳ１２３に進める。また影響ポイント算出部１３０は、起点がノードでなければ処理をステップＳ１２４に進める。

［ステップＳ１２３］影響ポイント算出部１３０は、選択した候補要素（ワークロード）内のＰｏｄのうち、起点のノードに直接の関係（縦の構成関係）を有するＰｏｄの割合を、その候補要素の関与度とする。その後、影響ポイント算出部１３０は処理をステップＳ１２７に進める。

［ステップＳ１２４］影響ポイント算出部１３０は、影響範囲の起点がワークロードか否かを判断する。影響ポイント算出部１３０は、起点がワークロードであれば処理をステップＳ１２５に進める。また影響ポイント算出部１３０は、起点がワークロードでなければ処理をステップＳ１２６に進める。

［ステップＳ１２５］影響ポイント算出部１３０は、選択した候補要素が起点であれば、その候補要素の関与度を「１」とする。また影響ポイント算出部１３０は、選択した候補要素が起点でなければ関与度を「０」とする。その後、影響ポイント算出部１３０は処理をステップＳ１２７に進める。

［ステップＳ１２６］影響ポイント算出部１３０は、選択した候補要素内のＰｏｄのうち、問題が発生しているＰｏｄの割合を、その候補要素の関与度とする。
［ステップＳ１２７］影響ポイント算出部１３０は、選択した候補要素に対応付けて、算出した関与度をメモリ１０２などに記録する。

［ステップＳ１２８］影響ポイント算出部１３０は、未選択の候補要素があるか否かを判断する。影響ポイント算出部１３０は、未選択の候補要素があれば処理をステップＳ１２１に進める。また影響ポイント算出部１３０は、すべての候補要素が選択済みであれば関与度算出処理を終了する。

このようにして、各候補要素の関与度が算出される。そして乖離度と関与度とに基づいて、候補要素それぞれの経路ごとの単体影響ポイントが計算される。
図１８は、単体影響ポイント算出処理の手順の一例を示すフローチャートである。以下、図１８に示す処理をステップ番号に沿って説明する。

［ステップＳ１３１］影響ポイント算出部１３０は、影響箇所の候補要素のうちの未選択の候補要素を１つ選択する。
［ステップＳ１３２］影響ポイント算出部１３０は、選択した候補要素についての通信経路ごとの乖離度と、その候補要素の関与度とを取得する。

［ステップＳ１３３］影響ポイント算出部１３０は、選択した候補要素の通信経路ごとの単体影響ポイントを算出する。単体影響ポイントは、例えば「乖離度×関与度」である。

［ステップＳ１３４］影響ポイント算出部１３０は、候補要素と通信経路との組に対応付けて、算出した単体影響ポイントをメモリ１０２などに記録する。
［ステップＳ１３５］影響ポイント算出部１３０は、未選択の候補要素があるか否かを判断する。影響ポイント算出部１３０は、未選択の候補要素があれば処理をステップＳ１３１に進める。また影響ポイント算出部１３０は、すべての候補要素が選択済みであれば単体影響ポイント算出処理を終了する。

このようにして、候補要素それぞれの経路ごとの単体影響ポイントが算出される。その後、算出された単体影響ポイントを用いて総合影響ポイントが算出される。
図１９は、総合影響ポイント算出処理の手順の一例を示すフローチャートである。以下、図１９に示す処理をステップ番号に沿って説明する。

［ステップＳ１４１］影響ポイント算出部１３０は、影響箇所の候補要素のうちの未選択の候補要素を１つ選択する。
［ステップＳ１４２］影響ポイント算出部１３０は、選択した候補要素を通る通信経路それぞれについて、選択した候補要素から終端までの各候補要素の単体影響ポイントを取得する。

［ステップＳ１４３］影響ポイント算出部１３０は、選択した候補要素の通信経路ごとの総合影響ポイントを算出する。例えば影響ポイント算出部１３０は、通信経路ごとに、選択した候補要素から通信経路の終端までの各候補要素の単体影響ポイントを合計し、合計値を総合影響ポイントとする。

［ステップＳ１４４］影響ポイント算出部１３０は、候補要素と通信経路との組に対応付けて、算出した総合影響ポイントをメモリ１０２などに記録する。
［ステップＳ１４５］影響ポイント算出部１３０は、未選択の候補要素があるか否かを判断する。影響ポイント算出部１３０は、未選択の候補要素があれば処理をステップＳ１４１に進める。また影響ポイント算出部１３０は、すべての候補要素が選択済みであれば総合影響ポイント算出処理を終了する。

このようにして算出された総合影響ポイントが所定値以上の候補要素は、影響要素として影響範囲に含められる。以下、図２０～図２４を参照して、影響範囲の決定例を具体的に説明する。

図２０は、影響箇所の候補要素の特定結果の一例を示す図である。図２０には、ノード３２で問題が発生した場合の例が示されている。ノード３２から縦の構成関係と横の構成関係とを辿ると、すべてのワークロード８１～８８に到達する。そのためすべてのワークロード８１～８８が候補要素として特定される。なお横の構成関係を示す通信経路は３つである。１つ目の通信経路「経路１」は、ワークロード８７が通信元であり、ワークロード８６が通信先である。２つ目の通信経路「経路２」は、ワークロード８１が最初の通信元であり、ワークロード８２とワークロード８６とを経由して、ワークロード８８を終端とする通信経路である。３つ目の通信経路「経路３」は、ワークロード８３が最初の通信元であり、ワークロード８４とワークロード８５とワークロード８６とを経由して、ワークロード８８を終端とする通信経路である。

この場合、ワークロード８６は３つの通信経路内にある。またワークロード８８は２つの通信経路内にある。なおワークロード８６の通信経路「経路１」については、その通信経路を介して他の要素（ノードまたはワークロードなど）からを受けているわけではないので、総合影響ポイントの計算対象から除外される。候補要素が特定されると、候補要素それぞれについて、通信経路ごとの乖離度が算出される。

図２１は、乖離度の算出結果の一例を示す図である。図２１の例では、ワークロード８１の通信経路「経路２」についての乖離度は「１」である。ワークロード８２の通信経路「経路２」についての乖離度は「１」である。ワークロード８３の通信経路「経路３」についての乖離度は「３」である。ワークロード８４の通信経路「経路３」についての乖離度は「１」である。ワークロード８５の通信経路「経路３」についての乖離度は「１０」である。ワークロード８６の通信経路「経路２」についての乖離度は「１」である。ワークロード８６の通信経路「経路３」についての乖離度は「２」である。ワークロード８７の通信経路「経路１」についての乖離度は「８」である。ワークロード８８の通信経路「経路２」についての乖離度は「４」である。ワークロード８８の通信経路「経路３」についての乖離度は「６」である。

乖離度が求まると、候補要素ごとの関与度が算出される。
図２２は、関与度の算出結果の一例を示す図である。図２２の例では、問題発生箇所がノード３２であり、影響範囲の起点はノード３２である。ワークロード８１内のＰｏｄは起点と縦の構成関係を有していないため、ワークロード８１の関与度は「０」である。ワークロード８２内のＰｏｄも起点と縦の構成関係を有していないため、ワークロード８２の関与度も「０」である。ワークロード８３内の２つのＰｏｄのうちの１つが起点と縦の構成関係を有しているため、ワークロード８３の関与度は「０．５」である。ワークロード８４内のＰｏｄは起点と縦の構成関係を有していないため、ワークロード８４の関与度は「０」である。ワークロード８５内の２つのＰｏｄの両方が起点と縦の構成関係を有しているため、ワークロード８５の関与度は「１」である。ワークロード８６内のＰｏｄは起点と縦の構成関係を有していないため、ワークロード８６の関与度は「０」である。ワークロード８７内の２つのＰｏｄのうちの１つが起点と縦の構成関係を有しているため、ワークロード８７の関与度は「０．５」である。ワークロード８８内の２つのＰｏｄのうちの１つが起点と縦の構成関係を有しているため、ワークロード８８の関与度も「０．５」である。

乖離度と関与度とが算出されると、次に単体影響ポイントが算出される。
図２３は、単体影響ポイントの算出結果の一例を示す図である。ワークロード８１は、乖離度が「１」、関与度が「０」であるため、単体影響ポイントは「０」（１×０）である。ワークロード８２は、乖離度が「１」、関与度が「０」であるため、単体影響ポイントは「０」（１×０）である。ワークロード８３は、乖離度が「３」、関与度が「０．５」であるため、単体影響ポイントは「１．５」（３×０．５）である。ワークロード８４は、乖離度が「１」、関与度が「０」であるため、単体影響ポイントは「０」（１×０）である。ワークロード８５は、乖離度が「１０」、関与度が「１」であるため、単体影響ポイントは「１０」（１０×１）である。ワークロード８６の通信経路「経路２」は、乖離度が「１」、関与度が「０」であるため、通信経路「経路２」の単体影響ポイントは「０」（１×０）である。ワークロード８６の通信経路「経路３」は、乖離度が「２」、関与度が「０」であるため、通信経路「経路３」の単体影響ポイントは「０」（２×０）である。ワークロード８７は、乖離度が「８」、関与度が「０．５」であるため、単体影響ポイントは「４」（８×０．５）である。ワークロード８８の通信経路「経路２」は、乖離度が「４」、関与度が「０．５」であるため、通信経路「経路２」の単体影響ポイントは「２」（４×０．５）である。ワークロード８８の通信経路「経路３」は、乖離度が「６」、関与度が「０．５」であるため、通信経路「経路３」の単体影響ポイントは「３」（６×０．５）である。

このようにして算出された単体影響ポイントに基づいて総合影響ポイントが算出される。
図２４は、総合影響ポイントの算出結果の一例を示す図である。ワークロード８１の単体影響ポイントは「０」であり、ワークロード８１の通信先から通信経路「経路２」の終端までの単体影響ポイントの合計は「２」である。従ってワークロード８１の総合影響ポイントは「２」（０＋２）となる。

ワークロード８２の単体影響ポイントは「０」であり、ワークロード８２の通信先から通信経路「経路２」の終端までの単体影響ポイントの合計は「２」である。従ってワークロード８２の総合影響ポイントは「２」（０＋２）となる。

ワークロード８３の単体影響ポイントは「１．５」であり、ワークロード８３の通信先から通信経路「経路３」の終端までの単体影響ポイントの合計は「１３」である。従ってワークロード８３の総合影響ポイントは「１４．５」（１．５＋１３）となる。

ワークロード８４の単体影響ポイントは「０」であり、ワークロード８４の通信先から通信経路「経路３」の終端までの単体影響ポイントの合計は「１３」である。従ってワークロード８４の総合影響ポイントは「１３」（０＋１３）となる。

ワークロード８５の単体影響ポイントは「１０」であり、ワークロード８５の通信先から通信経路「経路３」の終端までの単体影響ポイントの合計は「３」である。従ってワークロード８５の総合影響ポイントは「１３」（１０＋３）となる。

ワークロード８６の通信経路「経路２」の単体影響ポイントは「０」であり、ワークロード８６の通信先から通信経路「経路２」の終端までの単体影響ポイントの合計は「２」である。従ってワークロード８６の通信経路「経路２」の総合影響ポイントは「２」（０＋２）となる。ワークロード８６の通信経路「経路３」の単体影響ポイントは「０」であり、ワークロード８６の通信先から通信経路「経路３」の終端までの単体影響ポイントの合計は「３」である。従ってワークロード８６の通信経路「経路３」の総合影響ポイントは「３」（０＋３）となる。

ワークロード８７は、自身の単体影響ポイントが「４」であり、通信経路「１」の通信先のワークロード８６は通信経路「１」について総合影響ポイントの計算対象ではない。従って、ワークロード８７の総合影響ポイントは、単体影響ポイントと同じ「４」となる。

ワークロード８８の通信経路「経路２」は、自身の単体影響ポイントが「２」であり、通信経路「２」の通信先は存在しない。従って、ワークロード８８の通信経路「経路２」の総合影響ポイントは、単体影響ポイントと同じ「２」となる。ワークロード８８の通信経路「経路３」は、自身の単体影響ポイントが「３」であり、通信経路「３」の通信先は存在しない。従って、ワークロード８８の通信経路「経路３」の総合影響ポイントは、単体影響ポイントと同じ「３」となる。

このようにして算出された総合影響ポイントが所定の閾値以上のワークロードが、問題の影響を受ける影響要素であると判断される。例えば閾値が「１０」の場合、３つのワークロード８３，８４，８５が影響要素となる。これらのワークロード８３，８４，８５を含む範囲が、問題の影響範囲である。影響ポイント算出部１３０は、影響範囲を示す情報と、各ワークロードの総合影響ポイントを運用端末４２に送信する。影響範囲と総合影響ポイントとを受信した運用端末４２には、例えば問題の影響範囲を示す影響範囲表示画面が表示される。

図２５は、影響範囲画面の一例を示す図である。影響範囲表示画面２００には、サービス表示部２１０、実行リソース表示部２２０、ノード表示部２３０、アラート表示部２４０、影響範囲表示部２５０、および問題経路表示部２６０が含まれる。

サービス表示部２１０には、運用システム３０で提供されているサービス間の関係が示されている。サービス表示部２１０における影響範囲内のワークロードに対応するサービスは、強調表示されている。実行リソース表示部２２０には、ワークロードと、ワークロード間の関係が示されている。実行リソース表示部２２０における影響範囲内のワークロードは強調表示されている。ノード表示部２３０には、運用システム３０内のノードが表示されている。

実行リソース表示部２２０またはノード表示部２３０内の問題発生箇所となるワークロードまたはノードには、問題発生箇所を示すマーク２３１が表示されている。図２５の例では、「ＮｏｄｅＹ」が問題発生箇所であり、この「ＮｏｄｅＹ」を示すオブジェクトの上にマーク２３１が表示されている。

アラート表示部２４０には、問題発生箇所を示す情報が表示される。影響範囲表示部２５０には、影響範囲に含まれるワークロードを示す情報が表示される。影響範囲表示部２５０における各ワークロードには、そのワークロードの総合影響ポイントが付与されている。問題経路表示部２６０には、影響範囲に含まれるワークロードにおいて所定の閾値以上の総合影響ポイントとなった通信経路を示す情報が表示される。

運用者は、影響範囲表示画面２００を参照することで、問題発生箇所と問題の影響範囲とを把握することができる。また例えば運用者がマウスカーソルなどを用いて影響要素であるワークロードを選択すると、該当ワークロードが受けている影響内容を示す影響詳細画面２２１が、例えばポップアップで表示される。影響詳細画面２２１には、例えば選択されたワークロードの総合影響ポイント、平常時と問題発生時とのメトリックの違いなどが表示される。例えば問題発生時に平常時よりもメトリックの値が上昇するのか、あるいは低下するのかが、メトリックごとに影響詳細画面２２１に表示される。また問題発生時と平常時とのメトリックの値の差を影響詳細画面２２１に表示することもできる。

なお図２０～図２５に示した例は問題発生箇所がノードの場合であるが、問題発生箇所がロードワークまたはＰｏｄの場合もある。問題発生箇所がロードワークまたはＰｏｄの場合は、関与度の決定の仕方が、問題発生箇所がノードの場合と異なる。

図２６は、問題発生箇所がワークロードの場合の関与度の算出結果の一例を示す図である。図２６の例では、ワークロード８５とワークロード８８が問題発生箇所である。この場合、ワークロード８８が通信経路「経路２」と通信経路「経路３」との終端であるため、その２つの通信経路上のワークロード８１～８６，８８は影響範囲の候補要素となり、関与度が計算される。他方、通信経路「経路１」上には問題発生箇所がないため、その通信経路のみに関係するワークロード８７は候補要素に含められない。候補要素となったワークロード８１～８６，８８のうち問題発生箇所であるワークロード８５とワークロード８８との関与度は「１」である。それ以外のワークロード８１～８４，８６の関与度は「０」である。

図２７は、問題発生箇所がＰｏｄの場合の関与度の算出結果の一例を示す図である。図２７の例では、ワークロード８５内の２つのＰｏｄ８５ａ，８５ｂとワークロード８８内の１つのＰｏｄ８８ａが問題発生箇所である。この場合も図２６に示した例と同様に、ワークロード８１～８６，８８は影響範囲の候補要素となり、ワークロード８７は候補要素に含められない。ワークロード８５は、有するＰｏｄ８５ａ，８５ｂのうちの問題発生箇所の割合は「２／２」であり、関与度は「１」である。ワークロード８８は、有するＰｏｄ８８ａ，８８ｂのうちの問題発生箇所の割合は「１／２」であり、関与度は「０．５」である。候補要素であるそれ以外のワークロード８１～８４，８６の関与度は「０」である。

図２６、図２７に示したように、ワークロード全体に問題が発生している場合には、そのワークロードの関与度が「１」となるが、ワークロード内のＰｏｄに問題がある場合には、そのワークロード内の問題があるＰｏｄの割合が関与度となる。これにより、問題が発生したＰｏｄを含む割合が多いワークロードほど関与度を大きくすることができ、そのワークロードが関係する通信経路上のワークロードが問題から受ける影響の度合いを正しく計算することができる。

〔その他の実施の形態〕
第２の実施の形態では、監視装置４１と解析装置１００とを別の装置として説明したが、これらの装置を１つの装置で実現することもできる。

また第２の実施の形態では、メトリックが処理実行時間の場合の例を示したが、乖離度の算出に利用可能なメトリックは処理実行時間には限定されない。
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の２以上の構成（特徴）を組み合わせたものであってもよい。

１監視対象システム
１ａ，１ｂノード
２平常時メトリック
３問題発生時メトリック
４構成情報
５通信経路情報
６～８ＳＷ要素
６ａ，６ｂ，７ａ，７ｂ，８ａ，８ｂＰｏｄ
１０情報処理システム
１１記憶部
１２処理部

Claims

監視対象システムで問題が発生したとき、前記監視対象システムにおいて実行される複数のソフトウェア要素それぞれについて、前記問題が発生していない期間における処理の実行状態を表す第１の測定値と、前記問題が発生している期間における処理の実行状態を表す第２の測定値との乖離度を算出し、
前記問題の発生箇所と前記複数のソフトウェア要素それぞれとのシステム構成上の関係に基づいて、前記複数のソフトウェア要素それぞれについて、前記問題と関係する度合いを示す関与度を算出し、
前記乖離度と前記関与度とに基づいて、前記複数のソフトウェア要素それぞれについて、前記問題から個別に影響を受ける度合いを示す単体影響ポイントを算出し、
第１のソフトウェア要素の単体影響ポイントと、前記第１のソフトウェア要素による処理を介した通信の通信経路上の第２のソフトウェア要素の単体影響ポイントに基づいて、前記第１のソフトウェア要素が前記問題から影響を受ける度合いを示す総合影響ポイントを算出する、
処理をコンピュータに実行させる解析プログラム。
前記総合影響ポイントを算出する処理では、前記第１のソフトウェア要素を介した処理要求の通信経路における前記処理要求の送信先にあるソフトウェア要素を前記第２のソフトウェア要素とする、
請求項１記載の解析プログラム。
前記総合影響ポイントを算出する処理では、前記第１のソフトウェア要素の単体影響ポイントと前記第２のソフトウェア要素の単体影響ポイントとの合計を、前記総合影響ポイントとする、
請求項１または２に記載の解析プログラム。
前記関与度を算出する処理では、前記関与度を算出する対象のソフトウェア要素を実行している仮想的なソフトウェア実行環境のうちの、前記問題の発生箇所であるノード上で動作している前記ソフトウェア実行環境の割合に基づいて、前記対象のソフトウェア要素の前記関与度を算出する、
請求項１から３までのいずれかに記載の解析プログラム。
前記関与度を算出する処理では、前記問題の発生箇所であるソフトウェア要素の前記関与度を、前記問題の発生箇所となっていないソフトウェア要素の前記関与度より高くする、
請求項１から３までのいずれかに記載の解析プログラム。
前記関与度を算出する処理では、前記関与度を算出する対象のソフトウェア要素を実行している仮想的なソフトウェア実行環境を管理するための複数の管理単位のうちの、前記問題の発生箇所である管理単位の割合に基づいて、前記対象のソフトウェア要素の前記関与度を算出する、
請求項１から３までのいずれかに記載の解析プログラム。
前記乖離度を算出する処理では、前記複数のソフトウェア要素それぞれについての通信経路ごとの前記乖離度を算出し、
前記単体影響ポイントを算出する処理では、前記複数のソフトウェア要素それぞれについての通信経路ごとの前記単体影響ポイントを算出し、
前記総合影響ポイントを算出する処理では、前記複数のソフトウェア要素それぞれについての通信経路ごとの前記総合影響ポイントを算出する、
請求項１から６までのいずれかに記載の解析プログラム。
前記第１のソフトウェア要素の前記総合影響ポイントが所定値以上の場合、前記第１のソフトウェア要素が前記問題の影響範囲内にあると判定する、
処理を前記コンピュータにさらに実行させる請求項１から７までのいずれかに記載の解析プログラム。
監視対象システムで問題が発生したとき、前記監視対象システムにおいて実行される複数のソフトウェア要素それぞれについて、前記問題が発生していない期間における処理の実行状態を表す第１の測定値と、前記問題が発生している期間における処理の実行状態を表す第２の測定値との乖離度を算出し、
前記問題の発生箇所と前記複数のソフトウェア要素それぞれとのシステム構成上の関係に基づいて、前記複数のソフトウェア要素それぞれについて、前記問題と関係する度合いを示す関与度を算出し、
前記乖離度と前記関与度とに基づいて、前記複数のソフトウェア要素それぞれについて、前記問題から個別に影響を受ける度合いを示す単体影響ポイントを算出し、
第１のソフトウェア要素の単体影響ポイントと、前記第１のソフトウェア要素による処理を介した通信の通信経路上の第２のソフトウェア要素の単体影響ポイントに基づいて、前記第１のソフトウェア要素が前記問題から影響を受ける度合いを示す総合影響ポイントを算出する、
処理をコンピュータが実行する解析方法。
監視対象システムで問題が発生したとき、前記監視対象システムにおいて実行される複数のソフトウェア要素それぞれについて、前記問題が発生していない期間における処理の実行状態を表す第１の測定値と、前記問題が発生している期間における処理の実行状態を表す第２の測定値との乖離度を算出し、前記問題の発生箇所と前記複数のソフトウェア要素それぞれとのシステム構成上の関係に基づいて、前記複数のソフトウェア要素それぞれについて、前記問題と関係する度合いを示す関与度を算出し、前記乖離度と前記関与度とに基づいて、前記複数のソフトウェア要素それぞれについて、前記問題から個別に影響を受ける度合いを示す単体影響ポイントを算出し、第１のソフトウェア要素の単体影響ポイントと、前記第１のソフトウェア要素による処理を介した通信の通信経路上の第２のソフトウェア要素の単体影響ポイントに基づいて、前記第１のソフトウェア要素が前記問題から影響を受ける度合いを示す総合影響ポイントを算出する処理部、
を有する情報処理システム。