JP7010986B2

JP7010986B2 - ネットワーク管理システム、ネットワーク管理装置、およびネットワーク管理方法

Info

Publication number: JP7010986B2
Application number: JP2020038846A
Authority: JP
Inventors: 研二辰巳
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2022-01-26
Anticipated expiration: 2040-03-06
Also published as: JP2021141490A

Description

本発明は、概して、ネットワークにおいて障害が発生した部位（以下、「障害部位」と記す）の特定に関する。

近年、クラウドコンピューティングの発達に伴って、データセンタのネットワークは、大規模化、複雑化に加え、構成変更の頻度が増加している。管理者がサービスのレベルを保つためには、障害部位の検知、障害部位の特定、および障害部位の復旧の自動化が必須である。しかしながら、システム上に予め用意した監視機能で特定ができない障害（以下、「サイレント障害」と記す）が、サービスのレベルを低下させてしまう問題がある。

この点、仮想プライベートネットワークにおける障害部位を適切に特定するネットワーク管理システムが開示されている（特許文献１参照）。

特開２０１３－０９８７９９号公報

特許文献１に記載のネットワーク管理システムでは、ユーザから障害に関する申告をしてもらわなければならない。また、障害部位の疑いがある部位（以下、「被疑部位」と記す）が複数特定された場合、管理者は、何れの被疑部位から復旧すべきかが判断し難い。

本発明は、以上の点を考慮してなされたもので、ネットワークにおける障害部位を適切に特定し得るネットワーク管理システム等を提案しようとするものである。

かかる課題を解決するため本発明においては、ネットワークに係るコンポーネントのうち、障害が発生したコンポーネントを障害部位として特定可能なネットワーク管理システムであって、前記ネットワークに係るコンポーネントの構成を示す構成情報を、前記ネットワークにおける通信に用いられる経路毎に取得する取得部と、前記ネットワークにおける通信を監視する監視部と、前記監視部により検出された異常な経路の構成情報と、前記ネットワークのコンポーネント毎に設けられた、コンポーネントの復旧による影響の度合いを示す影響度とに基づいて、前記異常な経路のンポーネントの中から障害部位を特定する特定部と、を設けるようにした。

上記構成では、障害部位が特定されるので、例えば、障害の発生から復旧までの時間を短縮することができる。また、上記構成では、影響度に基づいて、異常な経路のコンポーネントの中から障害部位が特定される。よって、例えば、早期に復旧することに配慮して、一度で復旧する可能性が高い、つまり影響度が大きい障害部位から復旧を実施することができるようになる。また、例えば、他のユーザに与える影響を配慮して、影響度が小さい障害部位から復旧を実施することができるようになる。

本発明によれば、信頼性の高いネットワーク管理システムを実現することができる。

第１の実施の形態によるネットワークに係る構成の一例を示す図である。第１の実施の形態による物理サーバに係る物理構成の一例を示す図である。第１の実施の形態による物理サーバに係る論理構成の一例を示す図である。第１の実施の形態によるネットワーク管理マシンを示す図である。第１の実施の形態によるネットワーク状態テーブルの一例を示す図である。第１の実施の形態による影響度テーブルの一例を示す図である。第１の実施の形態による障害復旧処理の一例を示す図である。

（１）第１の実施の形態
以下、本発明の一実施の形態を詳述する。本実施の形態では、ネットワークにおける障害部位を特定する技術に関して主に説明する。

本実施の形態に示すネットワーク管理システムは、ネットワークにおける異常な通信の経路（例えば、疎通ができない経路）の情報をもとに、障害が発生している、ネットワークに係るコンポーネント（ネットワークの構成要素であり、以下では、「ネットワークコンポーネント」と記す）を特定する。そして、ネットワーク管理システムは、例えば、特定した障害部位に応じた復旧を行う。

上記構成によれば、例えば、サイレント障害が発生したとしても、障害部位の特定および障害部位の復旧を自動的に行うことが可能となり、サイレント障害の発生から復旧までの時間を従来と比べて短縮することができる。

また、ネットワーク管理システムは、例えば、正常な通信の経路（例えば、疎通ができる経路）と、異常な通信の経路とを比較し、各経路に含まれるネットワークコンポーネントの重複から、被疑部位を絞り込んでもよい。上記構成によれば、例えば、異常な通信の経路が１つしか検出できない場合でも、被疑部位を絞り込むことができる。

また、例えば、ネットワーク管理システムは、障害部位を一意に特定できない場合、被疑部位の影響度から障害部位を特定し、確実な復旧を行ってもよい。上記構成によれば、例えば、異常な通信の経路を一意に特定することができない場合でも、業務の継続を優先した復旧を行うことができるようになる。

上記ネットワークについては、仮想ネットワークを用いてもよいし、仮想ネットワークと物理ネットワークとが混在したネットワークを用いてもよいし、物理ネットワークを用いてもよい。

また、ネットワーク管理システムを構成する物理サーバとしては、サーバ仮想化技術を適用した物理サーバからなる構成としてもよいし、サーバ仮想化技術を適用した物理サーバとサーバ仮想化技術を適用していない物理サーバとを含んだ構成としてもよいし、サーバ仮想化技術を適用していない物理サーバからなる構成としてもよい。なお、以下では、全ての物理サーバにサーバ仮想化技術を適用するケースを例に挙げて説明する。

次に、本発明の実施形態を図面に基づいて説明する。ただし、本発明は、実施の形態に限定されるものではない。

なお、以下の説明では、同種の要素を区別しないで説明する場合には、枝番を含む参照符号のうちの共通部分（枝番を除く部分）を使用し、同種の要素を区別して説明する場合は、枝番を含む参照符号を使用することがある。例えば、ハイパーバイザを特に区別しないで説明する場合には、「ハイパーバイザ１１０」と記載し、個々のハイパーバイザを区別して説明する場合には、「ハイパーバイザ１１０－１」、「ハイパーバイザ１１０－２」のように記載することがある。

図１において、１００は全体として第１の実施の形態によるネットワーク管理システムを示す。

図１は、ネットワーク管理システム１００におけるネットワークに係る構成の一例を示す図である。ネットワーク管理システム１００では、複数のハイパーバイザ１１０（HYPERVISOR）が１つ以上のＬ２ＳＷ（layer 2 switch）１２０を介して通信可能に接続されている。

ハイパーバイザ１１０は、１つ以上の仮想マシン１１１（VM：virtual machine）を備える。ハイパーバイザ１１０は、仮想マシン１１１を実現するためのプログラムである。ハイパーバイザ１１０は、図２および図３を用いて説明する物理サーバ２１０に設けられている。

なお、仮想マシン１１１を稼働させる方法については、特に限定されるものではない。例えば、ホストＯＳ（Operating System）を必要とせず、ハイパーバイザ１１０上で仮想マシン１１１を稼働させてもよいし、ホストＯＳのカーネルのハイパーバイザ機能で仮想マシン１１１を稼働させてもよいし、ホストＯＳ上の仮想化アプリケーション上で仮想マシン１１１を稼働させてもよい。

仮想マシン１１１は、１つ以上のｖＮＩＣ（virtual Network Interface Card）１１２を備える。ｖＮＩＣ１１２は、ｖＳＷ（virtual switch）１１３に接続されている。ｖＳＷ１１３には、１つ以上のｖＰＧ（virtual Port Group）１１４が設定されている。ｖＰＧ１１４は、ｖＳＷ１１３上の設定が共通である仮想ポートの集まりである。

ここで、ハイパーバイザ１１０－１は、物理サーバ２１０－１に設けられ、他の物理サーバ２１０－２に設けられているハイパーバイザ１１０－２とは、ＮＩＣ１１５－１を用いてＬ２ＳＷ１２０を介して通信を行う。

ネットワーク管理システム１００では、第１の仮想マシン１１１（以下では、「仮想マシン管理マシン」）と、第２の仮想マシン１１１（以下では、「ネットワーク管理マシン」と記す）とを備える。仮想マシン管理マシンは、ネットワーク管理システム１００におけるネットワークコンポーネントの構成を示す構成情報（以下、「ネットワーク構成情報」と記す）を管理している。ネットワーク管理マシンは、仮想マシン管理マシンから、ネットワーク構成情報を随時取得している。

また、ネットワーク管理マシンは、全ての仮想マシン１１１のｖＮＩＣ１１２に対して疎通の確認を行う。そして、ネットワーク管理マシンは、疎通ができる経路を示す情報および疎通ができない経路を示す情報を記憶する。また、ネットワーク管理マシンは、取得したネットワーク構成情報と、疎通ができない経路を示す情報とをもとに障害部位を特定する。そして、ネットワーク管理マシンは、障害部位に係るハイパーバイザ１１０に対して障害部位を復旧する旨の指示を出す。なお、ネットワーク管理マシンについては、図４を用いて後述する。

以下では、ネットワーク管理システム１００において、仮想マシン１１１から最も離れているネットワーク機器、換言するならば、通信においてデータが中継されるネットワークコンポーネントの数が最も多いネットワーク機器（本例では、Ｌ２ＳＷ１２０）までの道筋を「経路」として説明する。このように、障害部位が含まれ得る経路を分けることで、障害部位をより容易に特定することができるようになる。なお、経路については、通信において、通信元（例えば、第１の仮想マシン１１１）からデータが送信されてから、通信先（例えば、第２の仮想マシン１１１）で当該データが受信されるまでの道筋であってもよい。

図２は、物理サーバ２１０に係る物理構成の一例を示す図である。

物理サーバ２１０は、サーバ装置、ノートパソコン等である。物理サーバ２１０は、プロセッサ２１１、主記憶装置２１２、補助記憶装置２１３、ＮＩＣ１１５等を含んで構成される。

物理サーバ２１０が備える各種の機能は、プロセッサ２１１が、主記憶装置２１２に記憶されているプログラムを読み出して実行することにより、または、物理サーバ２１０を構成しているハードウェア（ＦＰＧＡ、ＡＳＩＣ、ＡＩチップ等）により実現される。

プロセッサ２１１は、演算処理を行う装置である。プロセッサ２１１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＡＩ（Artificial Intelligence）チップ等である。

主記憶装置２１２は、プログラム、データ等を記憶する装置である。主記憶装置２１２は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等である。ＲＯＭは、ＳＲＡＭ（Static Random Access Memory）、ＮＶＲＡＭ（Non Volatile RAM）、マスクＲＯＭ（Mask Read Only Memory）、ＰＲＯＭ（Programmable ROM）等である。ＲＡＭは、ＤＲＡＭ（Dynamic Random Access Memory）等である。

補助記憶装置２１３は、ハードディスクドライブ（Hard Disk Drive）、フラッシュメモリ（Flash Memory）、ＳＳＤ（Solid State Drive）、光学式記憶装置等である。光学式記憶装置は、ＣＤ（Compact Disc）、ＤＶＤ(Digital Versatile Disc)等である。補助記憶装置２１３に記憶されているプログラム、データ等は、主記憶装置２１２に随時読み込まれる。

ＮＩＣ１１５は、Ｌ２ＳＷ１２０等の通信媒体を介して他の装置と通信する通信インターフェースである。なお、ＮＩＣ１１５は、通信可能に接続する他の装置から情報を受信する入力装置として機能することもできる。また、ＮＩＣ１１５は、通信可能に接続する他の装置に情報を送信する出力装置として機能することもできる。通信媒体としては、Ｌ２ＳＷ１２０を例に挙げて説明するが、Ｌ３ＳＷといった他のネットワーク機器が設けられていてもよい。

また、物理サーバ２１０は、入力装置、出力装置等を備えていてもよい。入力装置は、ユーザから情報を受付けるユーザインターフェースである。入力装置は、例えば、キーボード、マウス、カードリーダ、タッチパネル等である。出力装置は、各種の情報を出力（表示出力、音声出力、印字出力等）するユーザインターフェースである。出力装置は、例えば、各種情報を可視化する表示装置、音声出力装置（スピーカ）、印字装置等である。表示装置は、ＬＣＤ（Liquid Crystal Display）、グラフィックカード等である。

図３は、物理サーバ２１０に係る論理構成の一例を示す図である。

物理サーバ２１０は、ハイパーバイザ１１０と、１つ以上の仮想マシン１１１とを含んで構成される。

ハイパーバイザ１１０は、物理サーバ２１０の計算機リソースを分割して仮想マシン１１１に割り当て、仮想マシン１１１を稼働させる。また、ハイパーバイザ１１０は、仮想マシン１１１に接続されたｖＮＩＣ１１２を提供し、ｖＮＩＣ１１２間の通信、および、ｖＰＧ１１４間の通信を制御するｖＳＷ１１３を提供する。

仮想マシン１１１は、仮想化ハードウェア３１０と、ゲストＯＳ３２０と、アプリケーション３３０とを備える。仮想マシン１１１では、ハイパーバイザ１１０から提供された仮想化ハードウェア３１０上でゲストＯＳ３２０が稼働する。また、ゲストＯＳ３２０上では、１つ以上のアプリケーション３３０が稼働する。

図４は、ネットワーク管理システム１００におけるネットワークに係る管理を行う所定の仮想マシン１１１の一例（ネットワーク管理マシン４００）を示す図である。

ネットワーク管理マシン４００は、取得部４１０と、算出部４２０と、監視部４３０と、特定部４４０と、指示部４５０と、ネットワーク状態テーブル４６０と、影響度テーブル４７０とを備える。

取得部４１０は、仮想マシン管理マシン（なお、各ハイパーバイザ１１０であってもよい）から、仮想マシン１１１での通信に用いる各経路について、ネットワーク構成情報を随時取得する。ネットワーク構成情報は、ネットワークコンポーネントのうち、当該経路で用いられるネットワークコンポーネントを示す情報である。取得部４１０は、取得したネットワーク構成情報をネットワーク状態テーブル４６０に記憶する。なお、ネットワーク状態テーブル４６０については、図５を用いて後述する。

算出部４２０は、ネットワーク状態テーブル４６０をもとに、各ネットワークコンポーネントについて、障害部位の復旧による影響の度合いを示す影響度を算出する。ここで、障害部位の復旧による影響の度合いについては、ネットワークにおいて通信が集約されるネットワークコンポーネント（ネットワーク管理システム１００において数が少ないネットワークコンポーネント）ほど大きくなると捉えて影響度が算出される構成であってもよい。また、仮想マシン１１１からの通信において分岐が行われる数が多いネットワークコンポーネント（アップリンク側のネットワークコンポーネント）ほど大きくなると捉えて影響度が算出される構成であってもよい。算出部４２０は、算出した影響度を影響度テーブル４７０に記憶する。なお、影響度テーブル４７０については、図６を用いて後述する。

監視部４３０は、全ての仮想マシン１１１のｖＮＩＣ１１２に対して疎通の確認を行う。例えば、仮想マシン１１１は、監視部４３０からの指示に応じて、物理サーバ２１０と、物理サーバ２１０に接続されたＬ２ＳＷ１２０等のネットワーク機器との間の導通確認のための制御メッセージ（例えば、ｐｉｎｇ（Packet Internet Groper）コマンド）を送信する。

監視部４３０は、ネットワーク機器からの応答が所定の条件を満たしたと判定した場合、当該経路は異常である（例えば、疎通ができない）と判定する。所定の条件としては、応答の時間がしきい値を超えていること（例えば、応答がない、応答の時間が極端に遅い）こと、応答が断続していること等が挙げられる。他方、監視部４３０は、所定の条件を満たしていないと判定した場合、当該経路は正常である（例えば、疎通ができる）と判定する。

監視部４３０は、各経路についての疎通の判定の結果を当該経路の状態を示す情報としてネットワーク状態テーブル４６０に記憶する。

特定部４４０は、ネットワーク状態テーブル４６０および影響度テーブル４７０をもとに障害部位を特定する。

指示部４５０は、特定部４４０で特定された障害部位に対応可能なハイパーバイザ１１０に対し、特定した障害部位に応じた復旧の指示を出す。なお、ハイパーバイザ１１０は、指示部４５０により出された指示に基づいて、障害部位の復旧を実行する。

なお、障害部位を特定して復旧する処理（障害復旧処理）については、図７を用いて後述する。

付言するならば、ネットワーク状態テーブル４６０および影響度テーブル４７０の少なくとも１つについては、ネットワーク管理マシン４００とは異なる他の仮想マシン１１１が備えてもよい。

また、例えば、ネットワーク管理マシン４００は、仮想マシン１１１の一例として説明したが、これに限られるものではない。例えば、ネットワーク管理マシン４００は、物理サーバ２１０（ネットワーク管理装置）であってもよい。また、例えば、ネットワーク管理マシン４００の一部の構成が物理サーバ２１０に設けられていてもよい。また、例えば、ネットワーク管理マシン４００は、ドッカーエンジン（Docker Engine）上で稼働するコンテナプロセスであってもよい。なお、上述の内容については、仮想マシン管理マシンについても同様である。

図５は、ネットワーク状態テーブル４６０の一例を示す図である。ネットワーク状態テーブル４６０は、例えば、補助記憶装置２１３に記憶されている。

ネットワーク状態テーブル４６０は、仮想マシン１１１での通信に用いる各経路について、ネットワークコンポーネントを示す情報と、当該経路の状態を示す情報とを管理するためのテーブルである。

より具体的には、ネットワーク状態テーブル４６０には、各経路について、物理ＳＷ項目５０１、ＳＷポート項目５０２、ハイパーバイザ項目５０３、物理ＮＩＣ項目５０４、仮想ＳＷ項目５０５、仮想ポートグループ項目５０６、ＡＣＴ／ＳＴＢ項目５０７、仮想マシン項目５０８、仮想ＮＩＣ項目５０９、および経路状態項目５１０の情報を含むレコードが記憶されている。なお、項目５０１～項目５０９の情報は、取得部４１０により記憶され、項目５１０の情報は、監視部４３０により記憶される。

物理ＳＷ項目５０１の情報は、当該経路のネットワークコンポーネントであるＬ２ＳＷ１２０を識別可能な情報である。ＳＷポート項目５０２の情報は、当該経路のネットワークコンポーネントであるＬ２ＳＷ１２０のポートを識別可能な情報である。ハイパーバイザ項目５０３の情報は、当該経路のネットワークコンポーネントであるハイパーバイザ１１０を識別可能な情報である。物理ＮＩＣ項目５０４の情報は、当該経路のネットワークコンポーネントであるＮＩＣ１１５を識別可能な情報である。

仮想ＳＷ項目５０５の情報は、当該経路のネットワークコンポーネントであるｖＳＷ１１３を識別可能な情報である。仮想ポートグループ項目５０６の情報は、当該経路のネットワークコンポーネントであるｖＰＧ１１４を識別可能な情報である。ＡＣＴ／ＳＴＢ項目５０７の情報は、当該経路がアクティブであるか、当該経路がスタンバイであるかを識別可能な情報である。仮想マシン項目５０８の情報は、当該経路のネットワークコンポーネントである仮想マシン１１１を識別可能な情報である。仮想ＮＩＣ項目５０９の情報は、当該経路のネットワークコンポーネントであるｖＮＩＣ１１２を識別可能な情報である。経路状態項目５１０の情報は、当該経路の状態（疎通ができた、疎通ができなかった、疎通の確認が行われていない等）を識別可能な情報である。

図５において、例えば、疎通可能レコード５２０は、経路状態項目５１０の情報が「ＯＫ」であり、疎通ができるレコード（以下、「疎通可能レコード」と記す）を示している。他方、疎通不可能レコード５２１および疎通不可能レコード５２２は、経路状態項目５１０の情報が「ＮＧ」であり、疎通ができないレコード（以下、「疎通不可能レコード」と記す）を示している。

図６は、影響度テーブル４７０の一例を示す図である。影響度テーブル４７０は、例えば、補助記憶装置２１３に記憶されている。

影響度テーブル４７０は、各ネットワークコンポーネントの影響度を管理するためのテーブルである。

より具体的には、影響度テーブル４７０には、ネットワークコンポーネント項目６０１、要素数項目６０２、および影響度項目６０３の情報を含むレコードが記憶されている。

ネットワークコンポーネント項目６０１の情報は、ネットワークコンポーネントを示す情報である。要素数項目６０２の情報は、ネットワーク管理システム１００において当該ネットワークコンポーネントが用いられている数（以下、「要素数」と記す）を示す情報である。影響度項目６０３の情報は、当該ネットワークコンポーネントの復旧による影響の度合いを示す情報である。本例では、影響度項目６０３については、値が小さいほど、影響の度合いが小さいことを示している。

ここで、本実施の形態では、適宜のタイミングで、算出部４２０により影響度テーブル４７０に情報が登録される。算出部４２０が影響度を算出する方法については、図５に示すネットワーク状態テーブル４６０も参照して説明する。

まず、算出部４２０は、ネットワーク管理システム１００で用いられているネットワークコンポーネント毎に要素数を計数する。ネットワーク状態テーブル４６０の例では、算出部４２０は、物理ＳＷ項目５０１の情報が「１」または「２」であるので、Ｌ２ＳＷ１２０の要素数を「２」として計数する。また、算出部４２０は、ＳＷポート項目５０２の情報が「１０」～「１３」であるので、Ｌ２ＳＷ１２０のポートの要素数を「４」として計数する。また、算出部４２０は、ハイパーバイザ項目５０３の情報が「１」または「２」であるので、ハイパーバイザ１１０の要素数を「２」として計数する。

また、算出部４２０は、物理ＮＩＣ項目５０４の情報が「１」～「４」であるので、ＮＩＣ１１５の要素数を「４」として計数する。また、算出部４２０は、仮想ＳＷ項目５０５の情報が「１」～「３」であるので、ｖＳＷ１１３の要素数を「３」として計数する。また、算出部４２０は、仮想ポートグループ項目５０６の情報が「１」～「４」であるので、ｖＰＧ１１４の要素数を「４」として計数する。また、算出部４２０は、仮想マシン項目５０８の情報が「１」～「３」であるので、仮想マシン１１１の要素数を「３」として計数する。また、算出部４２０は、仮想ＮＩＣ項目５０９の情報が「１」～「５」であるので、ｖＮＩＣ１１２の要素数を「５」として計数する。なお、算出部４２０は、計数した要素数を要素数項目６０２に記憶する。

次に、算出部４２０は、各ネットワークコンポーネントに優先度を設定する。例えば、算出部４２０は、下記の（規則１）および（規則２）に従って優先度を設定する。

（規則１）
算出部４２０は、要素数が少ない順に影響度を大きく設定する。この設定は、要素数が少ないネットワークコンポーネントほど、多くの経路を集約しているため、障害部位の復旧による影響の度合いが相対的に大きいという考えに基づいている。

（規則２）
算出部４２０は、要素数が同一である場合、アップリンク側ほど影響度を大きく設定する。この設定は、アップリンク側のネットワークコンポーネントほど、通信において多くの枝分かれがあるため、障害部位の復旧による影響の度合いが相対的に大きいという考えに基づいている。

例えば、図５に示すネットワーク状態テーブル４６０の例では、最も要素数が少ない要素数「２」のネットワークコンポーネントとしては、Ｌ２ＳＷ１２０と、ハイパーバイザ１１０とがあるが、Ｌ２ＳＷ１２０の方がアップリンク側にあるので、算出部４２０は、Ｌ２ＳＷ１２０の影響度については「１」を算出し、ハイパーバイザ１１０の影響度については「２」を算出する。

次に要素数が少ない要素数「３」のネットワークコンポーネントとしては、ｖＳＷ１１３と仮想マシン１１１とがあるが、ｖＳＷ１１３の方がアップリンク側にあるので、算出部４２０は、ｖＳＷ１１３の影響度については「３」を算出し、仮想マシン１１１の影響度については「４」を算出する。

次に要素数が少ない要素数「４」のネットワークコンポーネントとしては、Ｌ２ＳＷ１２０のポートとＮＩＣ１１５とｖＰＧ１１４とがあるが、最もアップリンク側にあるのはＬ２ＳＷ１２０のポートであり、次にアップリンク側にあるのはＮＩＣ１１５である。よって、算出部４２０は、Ｌ２ＳＷ１２０のポートの影響度については「５」を算出し、ＮＩＣ１１５の影響度については「６」を算出し、ｖＰＧ１１４の影響度については「７」を算出する。

また、算出部４２０は、最も要素数が少ない要素数「５」のネットワークコンポーネントであるｖＮＩＣ１１２の影響度については「８」を算出する。そして、算出部４２０は、算出した影響度を影響度項目６０３に記憶する。

なお、上述の影響度の算出方法は、一例である。例えば、算出部４２０は、アップリンク側ほど影響度を大きく設定してもよい。

なお、図６では、影響度については、現在のネットワークの構成に応じて算出部４２０により算出される構成を示したが、これに限られない。例えば、ユーザにより算出された影響度が影響度テーブル４７０に登録される構成であってもよい。

図７は、障害復旧処理の一例を示す図である。障害復旧処理は、所定のタイミングで実行される。例えば、障害復旧処理は、異常な経路が検出されたことを契機に行われてもよいし、随時行われてもよいし、予め指定された時間に行われてもよいし、その他のタイミングで行われてもよい。

Ｓ７０１では、特定部４４０は、疎通ができない経路があるか否か（例えば、ネットワーク状態テーブル４６０に疎通不可能レコードがあるか否か）を判定する。特定部４４０は、疎通ができない経路があると判定した場合、Ｓ７０２に処理を移し、疎通ができない経路がないと判定した場合、障害復旧処理を終了する。

Ｓ７０２では、特定部４４０は、疎通ができない経路が複数あるか否か（疎通不可能レコードが複数あるか否か）を判定する。特定部４４０は、疎通ができない経路が複数あると判定した場合、Ｓ７０３に処理を移し、疎通ができない経路が複数ないと判定した場合、Ｓ７０４に処理を移す。

Ｓ７０３では、特定部４４０は、被疑部位を設定する。より具体的には、特定部４４０は、複数の疎通不可能レコードを比較し、共通して存在する部位を被疑部位として設定する。例えば、図５に示すネットワーク状態テーブル４６０では、疎通不可能レコード５２１と、疎通不可能レコード５２２とを比較し、ハイパーバイザ項目５０３「１」、仮想ＳＷ項目５０５「２」、仮想ポートグループ項目「２」のように、これらの項目については単一のネットワークコンポーネントしかないため、ハイパーバイザ１１０、ｖＳＷ１１３、ｖＰＧ１１４が被疑部位として設定される。

Ｓ７０４では、特定部４４０は、疎通可能レコード中に被疑部位があるかを確認し、被疑部位がある場合は、当該被疑部位を除外する。例えば、図５に示すネットワーク状態テーブル４６０では、疎通可能レコード５２０のハイパーバイザ項目５０３が「１」であり、疎通可能レコード５２０に被疑部位が含まれているため、Ｓ７０３で設定した被疑部位からハイパーバイザ１１０を除外する。

Ｓ７０５では、特定部４４０は、被疑部位が複数あるか否かを判定する。特定部４４０は、被疑部位が複数あると判定した場合、Ｓ７０６に処理を移し、被疑部位が複数ないと判定した場合、Ｓ７１０に処理を移す。

Ｓ７０６では、特定部４４０は、影響度に基づいて障害部位を特定する。より具体的には、特定部４４０は、残っている被疑部位について、影響度テーブル４７０を参照し、影響度が最も大きいネットワークコンポーネントを特定（第１の特定）、または、影響度が最も小さいネットワークコンポーネントを特定（第２の特定）する。第１の特定が行われる場合は、復旧により他のユーザを巻き込むリスクは大きいが、一度で復旧する可能性が高くなる。他方、第２の特定が行われる場合は、復旧により他のユーザを巻き込むリスクは小さいが、複数回の復旧を要する可能性がある。第１の特定と第２の特定との何れが用いれるかについては、予め設定されていてもよいし、ユーザにより設定されてもよい。

Ｓ７０７では、指示部４５０は、障害部位に応じた復旧の実行をハイパーバイザ１１０に指示する。例えば、指示部４５０は、障害部位がＬ２ＳＷ１２０である場合は、フェイルオーバーの実行を指示する。指示部４５０は、障害部位がＬ２ＳＷ１２０のポートである場合は、例えば、ポートの閉塞（使用不可）の実行を指示する。指示部４５０は、障害部位がハイパーバイザ１１０である場合は、例えば、フェイルオーバーの実行を指示する。指示部４５０は、障害部位がＮＩＣ１１５である場合は、例えば、ＮＩＣ１１５の閉塞の実行を指示する。指示部４５０は、障害部位がｖＳＷ１１３である場合は、例えば、フェイルオーバーの実行を指示する。指示部４５０は、障害部位がｖＰＧ１１４である場合は、例えば、フェイルオーバーの実行を指示する。指示部４５０は、障害部位が仮想マシン１１１である場合は、例えば、仮想マシン１１１の再起動の実行を指示する。指示部４５０は、障害部位がｖＮＩＣ１１２である場合は、例えば、仮想マシン１１１の再起動の実行を指示する。

Ｓ７０８では、特定部４４０は、疎通ができない経路について疎通の確認を行い、復旧したか否か（例えば、ネットワーク状態テーブル４６０から疎通不可能レコードがなくなったか否か）を判定する。特定部４４０は、復旧したと判定した場合、障害復旧処理を終了し、復旧していないと判定した場合、Ｓ７０９に処理を移す。

Ｓ７０９では、特定部４４０は、特定した障害部位を被疑部位から除外し、Ｓ７０５に処理を移す。

Ｓ７１０では、特定部４４０は、被疑部位を障害部位として特定する。

Ｓ７１１では、指示部４５０は、障害部位に応じた復旧の実行をハイパーバイザ１１０に指示し、障害復旧処理を終了する。

なお、障害復旧処理は、上述の内容に限られない。例えば、Ｓ７０２およびＳ７０３の処理については省略されてもよい。また、例えば、Ｓ７０４の処理については省略されてもよい。また、例えば、Ｓ７０２～Ｓ７０５の処理を行うことなく、疎通ができない経路のネットワークコンポーネントを被疑部位とし、Ｓ７０５～Ｓ７１１の処理を行うようにしてもよい。

本実施の形態によれば、信頼性の高いネットワーク管理システムを実現することができる。

（２）付記
上述の実施の形態には、例えば、以下のような内容が含まれる。

上述の実施の形態においては、本発明をネットワーク管理システムに適用するようにした場合について述べたが、本発明はこれに限らず、この他種々のシステム、装置、方法、プログラムに広く適用することができる。

また、上述の実施の形態において、各テーブルの構成は一例であり、１つのテーブルは、２以上のテーブルに分割されてもよいし、２以上のテーブルの全部または一部が１つのテーブルであってもよい。

また、上述の実施の形態において、説明の便宜上、ＸＸテーブルを用いて各種のデータを説明したが、データ構造は限定されるものではなく、ＸＸ情報等と表現してもよい。

また、上記の説明において、各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記憶装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

上述した実施の形態は、例えば、以下の特徴的な構成を有する。

ネットワークコンポーネント（仮想マシン１１１、ｖＮＩＣ１１２、ｖＳＷ１１３、ｖＰＧ１１４、ＮＩＣ１１５、Ｌ２ＳＷ１２０等）のうち、障害が発生したネットワークコンポーネントを障害部位として特定可能なネットワーク管理システム（例えば、ネットワーク管理システム１００）は、上記ネットワークコンポーネントの構成を示す構成情報（例えば、ネットワーク状態テーブル４６０、ネットワークコンポーネントを示す情報）を、上記ネットワークにおける通信に用いられる経路毎に取得する取得部（例えば、取得部４１０）と、上記ネットワークにおける通信を監視する監視部（例えば、監視部４３０）と、上記監視部により検出された異常な経路（例えば、疎通ができなかった経路）の構成情報（疎通不可能レコード５２１、疎通不可能レコード５２２）と、上記ネットワークコンポーネント毎に設けられた、ネットワークコンポーネントの復旧による影響の度合いを示す影響度（例えば、影響度テーブル４７０、影響度項目６０３の情報）とに基づいて、上記異常な経路のンポーネントの中から障害部位を特定する特定部（例えば、特定部４４０）と、を備える。

上記構成では、障害部位が特定されるので、例えば、障害の発生から復旧までの時間を短縮することができる。また、上記構成では、影響度に基づいて、異常な経路のネットワークコンポーネントの中から障害部位が特定される。よって、例えば、早期に復旧することに配慮して、一度で復旧する可能性が高い、つまり影響度が大きい障害部位から復旧を実施することができるようになる。また、例えば、ユーザに与える影響を抑えつつ、影響度が小さい障害部位から復旧を実施することができるようになる。

上記特定部は、上記監視部により検出された異常な経路のネットワークコンポーネントの中から、上記監視部により検出された正常な経路（例えば、疎通ができた経路）のネットワークコンポーネントを除いたネットワークコンポーネントを被疑部位として設定し（例えば、Ｓ７０４参照）、設定した被疑部位の中から障害部位を特定する。

上記構成では、例えば、異常な経路が１つであったとしても、障害部位を絞り込むことができるので、障害部位をより迅速に復旧することができる。

上記特定部は、上記監視部により検出された異常な経路が複数ある場合、上記複数の経路において共通するネットワークコンポーネントを被疑部位として設定し（例えば、Ｓ７０２およびＳ７０３参照）、設定した被疑部位の中から障害部位を特定する。

上記構成によれば、例えば、複数の異常な経路から、障害部位を絞り込むことができるので、障害部位をより迅速に復旧することができる。

上記取得部により取得された構成情報をもとに、上記ネットワークコンポーネント毎に上記ネットワークに用いられているネットワークコンポーネントの数（例えば、要素数）を計数し、計数した数が少ないネットワークコンポーネントほど影響の度合いが大きくなるように上記影響度を算出する算出部（例えば、算出部４２０）を備える。

上記構成では、取得部により取得された構成情報をもとに影響度が算出されるので、例えば、現在のネットワークの構成に対応して障害部位を特定できるようになる。また、数が少ないネットワークコンポーネントほど影響の度合いが大きくなるように算出された影響度を用いることで、ネットワークコンポーネントの数を加味して障害部位を特定できるようになる。

上記取得部により取得された構成情報をもとに、上記ネットワークに接続されている通信元（例えば、仮想マシン１１１、ゲストＯＳ３２０、アプリケーション３３０）からの通信において経由するネットワークコンポーネントの数が多いネットワークコンポーネントほど影響の度合いが大きくなるように上記影響度を算出する算出部（例えば、算出部４２０）を備える。

上記構成では、取得部により取得された構成情報をもとに影響度が算出されるので、例えば、現在のネットワークの構成に対応して障害部位を特定できるようになる。また、通信元からの通信において経由するネットワークコンポーネントの数が多いネットワークコンポーネントほど影響の度合いが大きくなるように算出された影響度を用いることで、通信元からの距離を加味して障害部位を特定できるようになる。

上記特定部により特定された障害部位の復旧（フェイルオーバー、ポートの閉塞、再起動、マイグレーション等）を実行するように復旧部（例えば、ハイパーバイザ１１０）に指示を出す指示部（例えば、指示部４５０）を備え、上記特定部は、上記影響度が大きい順に障害部位を特定する。

上記構成によれば、障害部位を自動的に復旧することができるので、例えば、障害の発生から復旧までの時間を短縮することができる。また、一度で復旧する可能性が高い、つまり影響度が大きい障害部位から復旧が実施されるので、例えば、より迅速に復旧を行うことができるようになる。

上記特定部により特定された障害部位の復旧（フェイルオーバー、ポートの閉塞、再起動、マイグレーション等）を実行するように復旧部（例えば、ハイパーバイザ１１０）に指示を出す指示部（例えば、指示部４５０）を備え、上記特定部は、上記影響度が小さい順に障害部位を特定する。

上記構成によれば、障害部位を自動的に復旧することができるので、例えば、障害の発生から復旧までの時間を短縮することができる。また、影響度が小さい障害部位から復旧が実施されるので、例えば、ユーザに与える影響を抑えつつ、影響度が小さい障害部位から復旧を実施することができるようになる。

また上述した構成については、本発明の要旨を超えない範囲において、適宜に、変更したり、組み替えたり、組み合わせたり、省略したりしてもよい。

「Ａ、Ｂ、およびＣのうちの少なくとも１つ」という形式におけるリストに含まれる項目は、（Ａ）、（Ｂ）、（Ｃ）、（ＡおよびＢ）、（ＡおよびＣ）、（ＢおよびＣ）または（Ａ、Ｂ、およびＣ）を意味することができると理解されたい。同様に、「Ａ、Ｂ、またはＣのうちの少なくとも１つ」の形式においてリストされた項目は、（Ａ）、（Ｂ）、（Ｃ）、（ＡおよびＢ）、（ＡおよびＣ）、（ＢおよびＣ）または（Ａ、Ｂ、およびＣ）を意味することができる。

１００……ネットワーク管理システム、４１０……取得部、４３０……監視部、４４０……特定部。

Claims

ネットワークに係るコンポーネントのうち、障害が発生したコンポーネントを障害部位として特定可能なネットワーク管理システムであって、
前記ネットワークに係るコンポーネントの構成を示す構成情報を、前記ネットワークにおける通信に用いられる経路毎に取得する取得部と、
前記ネットワークにおける通信を監視する監視部と、
前記監視部により検出された異常な経路の構成情報と、前記ネットワークのコンポーネント毎に設けられた、コンポーネントの復旧による影響の度合いを示す影響度とに基づいて、前記異常な経路のコンポーネントの中から障害部位を特定する特定部と、
を備え、
前記特定部は、前記監視部により検出された異常な経路のコンポーネントの中から、前記監視部により検出された正常な経路のコンポーネントを除いたコンポーネントを被疑部位として設定し、設定した被疑部位の中から障害部位を特定する、
ネットワーク管理システム。
前記特定部は、前記監視部により検出された異常な経路が複数ある場合、前記複数の経路において共通するコンポーネントを被疑部位として設定し、設定した被疑部位の中から、前記監視部により検出された正常な経路の被疑部位を除いて障害部位を特定する、
請求項１に記載のネットワーク管理システム。
前記取得部により取得された構成情報をもとに、前記ネットワークに係るコンポーネント毎に前記ネットワークに用いられているコンポーネントの数を計数し、計数した数が少ないコンポーネントほど影響の度合いが大きくなるように前記影響度を算出する算出部を備える、
請求項１に記載のネットワーク管理システム。
前記取得部により取得された構成情報をもとに、前記ネットワークに接続されている通信元からの通信において経由するコンポーネントの数が多いコンポーネントほど影響の度合いが大きくなるように前記影響度を算出する算出部を備える、
請求項１に記載のネットワーク管理システム。
前記特定部により特定された障害部位の復旧を実行するように復旧部に指示を出す指示部を備え、
前記特定部は、前記影響度が大きい順に障害部位を特定する、
請求項１に記載のネットワーク管理システム。
前記特定部により特定された障害部位の復旧を実行するように復旧部に指示を出す指示部を備え、
前記特定部は、前記影響度が小さい順に障害部位を特定する、
請求項１に記載のネットワーク管理システム。
ネットワークに係るコンポーネントのうち、障害が発生したコンポーネントを障害部位として特定可能なネットワーク管理装置であって、
前記ネットワークに係るコンポーネントの構成を示す構成情報を、前記ネットワークにおける通信に用いられる経路毎に取得する取得部と、
前記ネットワークにおける通信を監視する監視部と、
前記監視部により検出された異常な経路の構成情報と、前記ネットワークのコンポーネント毎に設けられた、コンポーネントの復旧による影響の度合いを示す影響度とに基づい
て、前記異常な経路のコンポーネントの中から障害部位を特定する特定部と、
を備え、
前記特定部は、前記監視部により検出された異常な経路のコンポーネントの中から、前記監視部により検出された正常な経路のコンポーネントを除いたコンポーネントを被疑部位として設定し、設定した被疑部位の中から障害部位を特定する、
ネットワーク管理装置。
ネットワークに係るコンポーネントのうち、障害が発生したコンポーネントを障害部位として特定するネットワーク管理方法であって、
取得部が、前記ネットワークに係るコンポーネントの構成を示す構成情報を、前記ネットワークにおける通信に用いられる経路毎に取得することと、
監視部が、前記ネットワークにおける通信を監視することと、
特定部が、前記監視部により検出された異常な経路の構成情報と、前記ネットワークのコンポーネント毎に設けられた、コンポーネントの復旧による影響の度合いを示す影響度とに基づいて、前記異常な経路のコンポーネントの中から障害部位を特定することと、
を含み、
前記特定部は、前記監視部により検出された異常な経路のコンポーネントの中から、前記監視部により検出された正常な経路のコンポーネントを除いたコンポーネントを被疑部位として設定し、設定した被疑部位の中から障害部位を特定する、
ネットワーク管理方法。