JP7010986B2 - ネットワーク管理システム、ネットワーク管理装置、およびネットワーク管理方法 - Google Patents

ネットワーク管理システム、ネットワーク管理装置、およびネットワーク管理方法 Download PDF

Info

Publication number
JP7010986B2
JP7010986B2 JP2020038846A JP2020038846A JP7010986B2 JP 7010986 B2 JP7010986 B2 JP 7010986B2 JP 2020038846 A JP2020038846 A JP 2020038846A JP 2020038846 A JP2020038846 A JP 2020038846A JP 7010986 B2 JP7010986 B2 JP 7010986B2
Authority
JP
Japan
Prior art keywords
network
unit
influence
degree
components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020038846A
Other languages
English (en)
Other versions
JP2021141490A (ja
Inventor
研二 辰巳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020038846A priority Critical patent/JP7010986B2/ja
Publication of JP2021141490A publication Critical patent/JP2021141490A/ja
Application granted granted Critical
Publication of JP7010986B2 publication Critical patent/JP7010986B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)

Description

本発明は、概して、ネットワークにおいて障害が発生した部位(以下、「障害部位」と記す)の特定に関する。
近年、クラウドコンピューティングの発達に伴って、データセンタのネットワークは、大規模化、複雑化に加え、構成変更の頻度が増加している。管理者がサービスのレベルを保つためには、障害部位の検知、障害部位の特定、および障害部位の復旧の自動化が必須である。しかしながら、システム上に予め用意した監視機能で特定ができない障害(以下、「サイレント障害」と記す)が、サービスのレベルを低下させてしまう問題がある。
この点、仮想プライベートネットワークにおける障害部位を適切に特定するネットワーク管理システムが開示されている(特許文献1参照)。
特開2013-098799号公報
特許文献1に記載のネットワーク管理システムでは、ユーザから障害に関する申告をしてもらわなければならない。また、障害部位の疑いがある部位(以下、「被疑部位」と記す)が複数特定された場合、管理者は、何れの被疑部位から復旧すべきかが判断し難い。
本発明は、以上の点を考慮してなされたもので、ネットワークにおける障害部位を適切に特定し得るネットワーク管理システム等を提案しようとするものである。
かかる課題を解決するため本発明においては、ネットワークに係るコンポーネントのうち、障害が発生したコンポーネントを障害部位として特定可能なネットワーク管理システムであって、前記ネットワークに係るコンポーネントの構成を示す構成情報を、前記ネットワークにおける通信に用いられる経路毎に取得する取得部と、前記ネットワークにおける通信を監視する監視部と、前記監視部により検出された異常な経路の構成情報と、前記ネットワークのコンポーネント毎に設けられた、コンポーネントの復旧による影響の度合いを示す影響度とに基づいて、前記異常な経路のンポーネントの中から障害部位を特定する特定部と、を設けるようにした。
上記構成では、障害部位が特定されるので、例えば、障害の発生から復旧までの時間を短縮することができる。また、上記構成では、影響度に基づいて、異常な経路のコンポーネントの中から障害部位が特定される。よって、例えば、早期に復旧することに配慮して、一度で復旧する可能性が高い、つまり影響度が大きい障害部位から復旧を実施することができるようになる。また、例えば、他のユーザに与える影響を配慮して、影響度が小さい障害部位から復旧を実施することができるようになる。
本発明によれば、信頼性の高いネットワーク管理システムを実現することができる。
第1の実施の形態によるネットワークに係る構成の一例を示す図である。 第1の実施の形態による物理サーバに係る物理構成の一例を示す図である。 第1の実施の形態による物理サーバに係る論理構成の一例を示す図である。 第1の実施の形態によるネットワーク管理マシンを示す図である。 第1の実施の形態によるネットワーク状態テーブルの一例を示す図である。 第1の実施の形態による影響度テーブルの一例を示す図である。 第1の実施の形態による障害復旧処理の一例を示す図である。
(1)第1の実施の形態
以下、本発明の一実施の形態を詳述する。本実施の形態では、ネットワークにおける障害部位を特定する技術に関して主に説明する。
本実施の形態に示すネットワーク管理システムは、ネットワークにおける異常な通信の経路(例えば、疎通ができない経路)の情報をもとに、障害が発生している、ネットワークに係るコンポーネント(ネットワークの構成要素であり、以下では、「ネットワークコンポーネント」と記す)を特定する。そして、ネットワーク管理システムは、例えば、特定した障害部位に応じた復旧を行う。
上記構成によれば、例えば、サイレント障害が発生したとしても、障害部位の特定および障害部位の復旧を自動的に行うことが可能となり、サイレント障害の発生から復旧までの時間を従来と比べて短縮することができる。
また、ネットワーク管理システムは、例えば、正常な通信の経路(例えば、疎通ができる経路)と、異常な通信の経路とを比較し、各経路に含まれるネットワークコンポーネントの重複から、被疑部位を絞り込んでもよい。上記構成によれば、例えば、異常な通信の経路が1つしか検出できない場合でも、被疑部位を絞り込むことができる。
また、例えば、ネットワーク管理システムは、障害部位を一意に特定できない場合、被疑部位の影響度から障害部位を特定し、確実な復旧を行ってもよい。上記構成によれば、例えば、異常な通信の経路を一意に特定することができない場合でも、業務の継続を優先した復旧を行うことができるようになる。
上記ネットワークについては、仮想ネットワークを用いてもよいし、仮想ネットワークと物理ネットワークとが混在したネットワークを用いてもよいし、物理ネットワークを用いてもよい。
また、ネットワーク管理システムを構成する物理サーバとしては、サーバ仮想化技術を適用した物理サーバからなる構成としてもよいし、サーバ仮想化技術を適用した物理サーバとサーバ仮想化技術を適用していない物理サーバとを含んだ構成としてもよいし、サーバ仮想化技術を適用していない物理サーバからなる構成としてもよい。なお、以下では、全ての物理サーバにサーバ仮想化技術を適用するケースを例に挙げて説明する。
次に、本発明の実施形態を図面に基づいて説明する。ただし、本発明は、実施の形態に限定されるものではない。
なお、以下の説明では、同種の要素を区別しないで説明する場合には、枝番を含む参照符号のうちの共通部分(枝番を除く部分)を使用し、同種の要素を区別して説明する場合は、枝番を含む参照符号を使用することがある。例えば、ハイパーバイザを特に区別しないで説明する場合には、「ハイパーバイザ110」と記載し、個々のハイパーバイザを区別して説明する場合には、「ハイパーバイザ110-1」、「ハイパーバイザ110-2」のように記載することがある。
図1において、100は全体として第1の実施の形態によるネットワーク管理システムを示す。
図1は、ネットワーク管理システム100におけるネットワークに係る構成の一例を示す図である。ネットワーク管理システム100では、複数のハイパーバイザ110(HYPERVISOR)が1つ以上のL2SW(layer 2 switch)120を介して通信可能に接続されている。
ハイパーバイザ110は、1つ以上の仮想マシン111(VM:virtual machine)を備える。ハイパーバイザ110は、仮想マシン111を実現するためのプログラムである。ハイパーバイザ110は、図2および図3を用いて説明する物理サーバ210に設けられている。
なお、仮想マシン111を稼働させる方法については、特に限定されるものではない。例えば、ホストOS(Operating System)を必要とせず、ハイパーバイザ110上で仮想マシン111を稼働させてもよいし、ホストOSのカーネルのハイパーバイザ機能で仮想マシン111を稼働させてもよいし、ホストOS上の仮想化アプリケーション上で仮想マシン111を稼働させてもよい。
仮想マシン111は、1つ以上のvNIC(virtual Network Interface Card)112を備える。vNIC112は、vSW(virtual switch)113に接続されている。vSW113には、1つ以上のvPG(virtual Port Group)114が設定されている。vPG114は、vSW113上の設定が共通である仮想ポートの集まりである。
ここで、ハイパーバイザ110-1は、物理サーバ210-1に設けられ、他の物理サーバ210-2に設けられているハイパーバイザ110-2とは、NIC115-1を用いてL2SW120を介して通信を行う。
ネットワーク管理システム100では、第1の仮想マシン111(以下では、「仮想マシン管理マシン」)と、第2の仮想マシン111(以下では、「ネットワーク管理マシン」と記す)とを備える。仮想マシン管理マシンは、ネットワーク管理システム100におけるネットワークコンポーネントの構成を示す構成情報(以下、「ネットワーク構成情報」と記す)を管理している。ネットワーク管理マシンは、仮想マシン管理マシンから、ネットワーク構成情報を随時取得している。
また、ネットワーク管理マシンは、全ての仮想マシン111のvNIC112に対して疎通の確認を行う。そして、ネットワーク管理マシンは、疎通ができる経路を示す情報および疎通ができない経路を示す情報を記憶する。また、ネットワーク管理マシンは、取得したネットワーク構成情報と、疎通ができない経路を示す情報とをもとに障害部位を特定する。そして、ネットワーク管理マシンは、障害部位に係るハイパーバイザ110に対して障害部位を復旧する旨の指示を出す。なお、ネットワーク管理マシンについては、図4を用いて後述する。
以下では、ネットワーク管理システム100において、仮想マシン111から最も離れているネットワーク機器、換言するならば、通信においてデータが中継されるネットワークコンポーネントの数が最も多いネットワーク機器(本例では、L2SW120)までの道筋を「経路」として説明する。このように、障害部位が含まれ得る経路を分けることで、障害部位をより容易に特定することができるようになる。なお、経路については、通信において、通信元(例えば、第1の仮想マシン111)からデータが送信されてから、通信先(例えば、第2の仮想マシン111)で当該データが受信されるまでの道筋であってもよい。
図2は、物理サーバ210に係る物理構成の一例を示す図である。
物理サーバ210は、サーバ装置、ノートパソコン等である。物理サーバ210は、プロセッサ211、主記憶装置212、補助記憶装置213、NIC115等を含んで構成される。
物理サーバ210が備える各種の機能は、プロセッサ211が、主記憶装置212に記憶されているプログラムを読み出して実行することにより、または、物理サーバ210を構成しているハードウェア(FPGA、ASIC、AIチップ等)により実現される。
プロセッサ211は、演算処理を行う装置である。プロセッサ211は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、AI(Artificial Intelligence)チップ等である。
主記憶装置212は、プログラム、データ等を記憶する装置である。主記憶装置212は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)等である。ROMは、SRAM(Static Random Access Memory)、NVRAM(Non Volatile RAM)、マスクROM(Mask Read Only Memory)、PROM(Programmable ROM)等である。RAMは、DRAM(Dynamic Random Access Memory)等である。
補助記憶装置213は、ハードディスクドライブ(Hard Disk Drive)、フラッシュメモリ(Flash Memory)、SSD(Solid State Drive)、光学式記憶装置等である。光学式記憶装置は、CD(Compact Disc)、DVD(Digital Versatile Disc)等である。補助記憶装置213に記憶されているプログラム、データ等は、主記憶装置212に随時読み込まれる。
NIC115は、L2SW120等の通信媒体を介して他の装置と通信する通信インターフェースである。なお、NIC115は、通信可能に接続する他の装置から情報を受信する入力装置として機能することもできる。また、NIC115は、通信可能に接続する他の装置に情報を送信する出力装置として機能することもできる。通信媒体としては、L2SW120を例に挙げて説明するが、L3SWといった他のネットワーク機器が設けられていてもよい。
また、物理サーバ210は、入力装置、出力装置等を備えていてもよい。入力装置は、ユーザから情報を受付けるユーザインターフェースである。入力装置は、例えば、キーボード、マウス、カードリーダ、タッチパネル等である。出力装置は、各種の情報を出力(表示出力、音声出力、印字出力等)するユーザインターフェースである。出力装置は、例えば、各種情報を可視化する表示装置、音声出力装置(スピーカ)、印字装置等である。表示装置は、LCD(Liquid Crystal Display)、グラフィックカード等である。
図3は、物理サーバ210に係る論理構成の一例を示す図である。
物理サーバ210は、ハイパーバイザ110と、1つ以上の仮想マシン111とを含んで構成される。
ハイパーバイザ110は、物理サーバ210の計算機リソースを分割して仮想マシン111に割り当て、仮想マシン111を稼働させる。また、ハイパーバイザ110は、仮想マシン111に接続されたvNIC112を提供し、vNIC112間の通信、および、vPG114間の通信を制御するvSW113を提供する。
仮想マシン111は、仮想化ハードウェア310と、ゲストOS320と、アプリケーション330とを備える。仮想マシン111では、ハイパーバイザ110から提供された仮想化ハードウェア310上でゲストOS320が稼働する。また、ゲストOS320上では、1つ以上のアプリケーション330が稼働する。
図4は、ネットワーク管理システム100におけるネットワークに係る管理を行う所定の仮想マシン111の一例(ネットワーク管理マシン400)を示す図である。
ネットワーク管理マシン400は、取得部410と、算出部420と、監視部430と、特定部440と、指示部450と、ネットワーク状態テーブル460と、影響度テーブル470とを備える。
取得部410は、仮想マシン管理マシン(なお、各ハイパーバイザ110であってもよい)から、仮想マシン111での通信に用いる各経路について、ネットワーク構成情報を随時取得する。ネットワーク構成情報は、ネットワークコンポーネントのうち、当該経路で用いられるネットワークコンポーネントを示す情報である。取得部410は、取得したネットワーク構成情報をネットワーク状態テーブル460に記憶する。なお、ネットワーク状態テーブル460については、図5を用いて後述する。
算出部420は、ネットワーク状態テーブル460をもとに、各ネットワークコンポーネントについて、障害部位の復旧による影響の度合いを示す影響度を算出する。ここで、障害部位の復旧による影響の度合いについては、ネットワークにおいて通信が集約されるネットワークコンポーネント(ネットワーク管理システム100において数が少ないネットワークコンポーネント)ほど大きくなると捉えて影響度が算出される構成であってもよい。また、仮想マシン111からの通信において分岐が行われる数が多いネットワークコンポーネント(アップリンク側のネットワークコンポーネント)ほど大きくなると捉えて影響度が算出される構成であってもよい。算出部420は、算出した影響度を影響度テーブル470に記憶する。なお、影響度テーブル470については、図6を用いて後述する。
監視部430は、全ての仮想マシン111のvNIC112に対して疎通の確認を行う。例えば、仮想マシン111は、監視部430からの指示に応じて、物理サーバ210と、物理サーバ210に接続されたL2SW120等のネットワーク機器との間の導通確認のための制御メッセージ(例えば、ping(Packet Internet Groper)コマンド)を送信する。
監視部430は、ネットワーク機器からの応答が所定の条件を満たしたと判定した場合、当該経路は異常である(例えば、疎通ができない)と判定する。所定の条件としては、応答の時間がしきい値を超えていること(例えば、応答がない、応答の時間が極端に遅い)こと、応答が断続していること等が挙げられる。他方、監視部430は、所定の条件を満たしていないと判定した場合、当該経路は正常である(例えば、疎通ができる)と判定する。
監視部430は、各経路についての疎通の判定の結果を当該経路の状態を示す情報としてネットワーク状態テーブル460に記憶する。
特定部440は、ネットワーク状態テーブル460および影響度テーブル470をもとに障害部位を特定する。
指示部450は、特定部440で特定された障害部位に対応可能なハイパーバイザ110に対し、特定した障害部位に応じた復旧の指示を出す。なお、ハイパーバイザ110は、指示部450により出された指示に基づいて、障害部位の復旧を実行する。
なお、障害部位を特定して復旧する処理(障害復旧処理)については、図7を用いて後述する。
付言するならば、ネットワーク状態テーブル460および影響度テーブル470の少なくとも1つについては、ネットワーク管理マシン400とは異なる他の仮想マシン111が備えてもよい。
また、例えば、ネットワーク管理マシン400は、仮想マシン111の一例として説明したが、これに限られるものではない。例えば、ネットワーク管理マシン400は、物理サーバ210(ネットワーク管理装置)であってもよい。また、例えば、ネットワーク管理マシン400の一部の構成が物理サーバ210に設けられていてもよい。また、例えば、ネットワーク管理マシン400は、ドッカーエンジン(Docker Engine)上で稼働するコンテナプロセスであってもよい。なお、上述の内容については、仮想マシン管理マシンについても同様である。
図5は、ネットワーク状態テーブル460の一例を示す図である。ネットワーク状態テーブル460は、例えば、補助記憶装置213に記憶されている。
ネットワーク状態テーブル460は、仮想マシン111での通信に用いる各経路について、ネットワークコンポーネントを示す情報と、当該経路の状態を示す情報とを管理するためのテーブルである。
より具体的には、ネットワーク状態テーブル460には、各経路について、物理SW項目501、SWポート項目502、ハイパーバイザ項目503、物理NIC項目504、仮想SW項目505、仮想ポートグループ項目506、ACT/STB項目507、仮想マシン項目508、仮想NIC項目509、および経路状態項目510の情報を含むレコードが記憶されている。なお、項目501~項目509の情報は、取得部410により記憶され、項目510の情報は、監視部430により記憶される。
物理SW項目501の情報は、当該経路のネットワークコンポーネントであるL2SW120を識別可能な情報である。SWポート項目502の情報は、当該経路のネットワークコンポーネントであるL2SW120のポートを識別可能な情報である。ハイパーバイザ項目503の情報は、当該経路のネットワークコンポーネントであるハイパーバイザ110を識別可能な情報である。物理NIC項目504の情報は、当該経路のネットワークコンポーネントであるNIC115を識別可能な情報である。
仮想SW項目505の情報は、当該経路のネットワークコンポーネントであるvSW113を識別可能な情報である。仮想ポートグループ項目506の情報は、当該経路のネットワークコンポーネントであるvPG114を識別可能な情報である。ACT/STB項目507の情報は、当該経路がアクティブであるか、当該経路がスタンバイであるかを識別可能な情報である。仮想マシン項目508の情報は、当該経路のネットワークコンポーネントである仮想マシン111を識別可能な情報である。仮想NIC項目509の情報は、当該経路のネットワークコンポーネントであるvNIC112を識別可能な情報である。経路状態項目510の情報は、当該経路の状態(疎通ができた、疎通ができなかった、疎通の確認が行われていない等)を識別可能な情報である。
図5において、例えば、疎通可能レコード520は、経路状態項目510の情報が「OK」であり、疎通ができるレコード(以下、「疎通可能レコード」と記す)を示している。他方、疎通不可能レコード521および疎通不可能レコード522は、経路状態項目510の情報が「NG」であり、疎通ができないレコード(以下、「疎通不可能レコード」と記す)を示している。
図6は、影響度テーブル470の一例を示す図である。影響度テーブル470は、例えば、補助記憶装置213に記憶されている。
影響度テーブル470は、各ネットワークコンポーネントの影響度を管理するためのテーブルである。
より具体的には、影響度テーブル470には、ネットワークコンポーネント項目601、要素数項目602、および影響度項目603の情報を含むレコードが記憶されている。
ネットワークコンポーネント項目601の情報は、ネットワークコンポーネントを示す情報である。要素数項目602の情報は、ネットワーク管理システム100において当該ネットワークコンポーネントが用いられている数(以下、「要素数」と記す)を示す情報である。影響度項目603の情報は、当該ネットワークコンポーネントの復旧による影響の度合いを示す情報である。本例では、影響度項目603については、値が小さいほど、影響の度合いが小さいことを示している。
ここで、本実施の形態では、適宜のタイミングで、算出部420により影響度テーブル470に情報が登録される。算出部420が影響度を算出する方法については、図5に示すネットワーク状態テーブル460も参照して説明する。
まず、算出部420は、ネットワーク管理システム100で用いられているネットワークコンポーネント毎に要素数を計数する。ネットワーク状態テーブル460の例では、算出部420は、物理SW項目501の情報が「1」または「2」であるので、L2SW120の要素数を「2」として計数する。また、算出部420は、SWポート項目502の情報が「10」~「13」であるので、L2SW120のポートの要素数を「4」として計数する。また、算出部420は、ハイパーバイザ項目503の情報が「1」または「2」であるので、ハイパーバイザ110の要素数を「2」として計数する。
また、算出部420は、物理NIC項目504の情報が「1」~「4」であるので、NIC115の要素数を「4」として計数する。また、算出部420は、仮想SW項目505の情報が「1」~「3」であるので、vSW113の要素数を「3」として計数する。また、算出部420は、仮想ポートグループ項目506の情報が「1」~「4」であるので、vPG114の要素数を「4」として計数する。また、算出部420は、仮想マシン項目508の情報が「1」~「3」であるので、仮想マシン111の要素数を「3」として計数する。また、算出部420は、仮想NIC項目509の情報が「1」~「5」であるので、vNIC112の要素数を「5」として計数する。なお、算出部420は、計数した要素数を要素数項目602に記憶する。
次に、算出部420は、各ネットワークコンポーネントに優先度を設定する。例えば、算出部420は、下記の(規則1)および(規則2)に従って優先度を設定する。
(規則1)
算出部420は、要素数が少ない順に影響度を大きく設定する。この設定は、要素数が少ないネットワークコンポーネントほど、多くの経路を集約しているため、障害部位の復旧による影響の度合いが相対的に大きいという考えに基づいている。
(規則2)
算出部420は、要素数が同一である場合、アップリンク側ほど影響度を大きく設定する。この設定は、アップリンク側のネットワークコンポーネントほど、通信において多くの枝分かれがあるため、障害部位の復旧による影響の度合いが相対的に大きいという考えに基づいている。
例えば、図5に示すネットワーク状態テーブル460の例では、最も要素数が少ない要素数「2」のネットワークコンポーネントとしては、L2SW120と、ハイパーバイザ110とがあるが、L2SW120の方がアップリンク側にあるので、算出部420は、L2SW120の影響度については「1」を算出し、ハイパーバイザ110の影響度については「2」を算出する。
次に要素数が少ない要素数「3」のネットワークコンポーネントとしては、vSW113と仮想マシン111とがあるが、vSW113の方がアップリンク側にあるので、算出部420は、vSW113の影響度については「3」を算出し、仮想マシン111の影響度については「4」を算出する。
次に要素数が少ない要素数「4」のネットワークコンポーネントとしては、L2SW120のポートとNIC115とvPG114とがあるが、最もアップリンク側にあるのはL2SW120のポートであり、次にアップリンク側にあるのはNIC115である。よって、算出部420は、L2SW120のポートの影響度については「5」を算出し、NIC115の影響度については「6」を算出し、vPG114の影響度については「7」を算出する。
また、算出部420は、最も要素数が少ない要素数「5」のネットワークコンポーネントであるvNIC112の影響度については「8」を算出する。そして、算出部420は、算出した影響度を影響度項目603に記憶する。
なお、上述の影響度の算出方法は、一例である。例えば、算出部420は、アップリンク側ほど影響度を大きく設定してもよい。
なお、図6では、影響度については、現在のネットワークの構成に応じて算出部420により算出される構成を示したが、これに限られない。例えば、ユーザにより算出された影響度が影響度テーブル470に登録される構成であってもよい。
図7は、障害復旧処理の一例を示す図である。障害復旧処理は、所定のタイミングで実行される。例えば、障害復旧処理は、異常な経路が検出されたことを契機に行われてもよいし、随時行われてもよいし、予め指定された時間に行われてもよいし、その他のタイミングで行われてもよい。
S701では、特定部440は、疎通ができない経路があるか否か(例えば、ネットワーク状態テーブル460に疎通不可能レコードがあるか否か)を判定する。特定部440は、疎通ができない経路があると判定した場合、S702に処理を移し、疎通ができない経路がないと判定した場合、障害復旧処理を終了する。
S702では、特定部440は、疎通ができない経路が複数あるか否か(疎通不可能レコードが複数あるか否か)を判定する。特定部440は、疎通ができない経路が複数あると判定した場合、S703に処理を移し、疎通ができない経路が複数ないと判定した場合、S704に処理を移す。
S703では、特定部440は、被疑部位を設定する。より具体的には、特定部440は、複数の疎通不可能レコードを比較し、共通して存在する部位を被疑部位として設定する。例えば、図5に示すネットワーク状態テーブル460では、疎通不可能レコード521と、疎通不可能レコード522とを比較し、ハイパーバイザ項目503「1」、仮想SW項目505「2」、仮想ポートグループ項目「2」のように、これらの項目については単一のネットワークコンポーネントしかないため、ハイパーバイザ110、vSW113、vPG114が被疑部位として設定される。
S704では、特定部440は、疎通可能レコード中に被疑部位があるかを確認し、被疑部位がある場合は、当該被疑部位を除外する。例えば、図5に示すネットワーク状態テーブル460では、疎通可能レコード520のハイパーバイザ項目503が「1」であり、疎通可能レコード520に被疑部位が含まれているため、S703で設定した被疑部位からハイパーバイザ110を除外する。
S705では、特定部440は、被疑部位が複数あるか否かを判定する。特定部440は、被疑部位が複数あると判定した場合、S706に処理を移し、被疑部位が複数ないと判定した場合、S710に処理を移す。
S706では、特定部440は、影響度に基づいて障害部位を特定する。より具体的には、特定部440は、残っている被疑部位について、影響度テーブル470を参照し、影響度が最も大きいネットワークコンポーネントを特定(第1の特定)、または、影響度が最も小さいネットワークコンポーネントを特定(第2の特定)する。第1の特定が行われる場合は、復旧により他のユーザを巻き込むリスクは大きいが、一度で復旧する可能性が高くなる。他方、第2の特定が行われる場合は、復旧により他のユーザを巻き込むリスクは小さいが、複数回の復旧を要する可能性がある。第1の特定と第2の特定との何れが用いれるかについては、予め設定されていてもよいし、ユーザにより設定されてもよい。
S707では、指示部450は、障害部位に応じた復旧の実行をハイパーバイザ110に指示する。例えば、指示部450は、障害部位がL2SW120である場合は、フェイルオーバーの実行を指示する。指示部450は、障害部位がL2SW120のポートである場合は、例えば、ポートの閉塞(使用不可)の実行を指示する。指示部450は、障害部位がハイパーバイザ110である場合は、例えば、フェイルオーバーの実行を指示する。指示部450は、障害部位がNIC115である場合は、例えば、NIC115の閉塞の実行を指示する。指示部450は、障害部位がvSW113である場合は、例えば、フェイルオーバーの実行を指示する。指示部450は、障害部位がvPG114である場合は、例えば、フェイルオーバーの実行を指示する。指示部450は、障害部位が仮想マシン111である場合は、例えば、仮想マシン111の再起動の実行を指示する。指示部450は、障害部位がvNIC112である場合は、例えば、仮想マシン111の再起動の実行を指示する。
S708では、特定部440は、疎通ができない経路について疎通の確認を行い、復旧したか否か(例えば、ネットワーク状態テーブル460から疎通不可能レコードがなくなったか否か)を判定する。特定部440は、復旧したと判定した場合、障害復旧処理を終了し、復旧していないと判定した場合、S709に処理を移す。
S709では、特定部440は、特定した障害部位を被疑部位から除外し、S705に処理を移す。
S710では、特定部440は、被疑部位を障害部位として特定する。
S711では、指示部450は、障害部位に応じた復旧の実行をハイパーバイザ110に指示し、障害復旧処理を終了する。
なお、障害復旧処理は、上述の内容に限られない。例えば、S702およびS703の処理については省略されてもよい。また、例えば、S704の処理については省略されてもよい。また、例えば、S702~S705の処理を行うことなく、疎通ができない経路のネットワークコンポーネントを被疑部位とし、S705~S711の処理を行うようにしてもよい。
上記構成によれば、例えば、サイレント障害が発生したとしても、障害部位の特定および障害部位の復旧を自動的に行うことが可能となり、サイレント障害の発生から復旧までの時間を従来と比べて短縮することができる。
本実施の形態によれば、信頼性の高いネットワーク管理システムを実現することができる。
(2)付記
上述の実施の形態には、例えば、以下のような内容が含まれる。
上述の実施の形態においては、本発明をネットワーク管理システムに適用するようにした場合について述べたが、本発明はこれに限らず、この他種々のシステム、装置、方法、プログラムに広く適用することができる。
また、上述の実施の形態において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部または一部が1つのテーブルであってもよい。
また、上述の実施の形態において、説明の便宜上、XXテーブルを用いて各種のデータを説明したが、データ構造は限定されるものではなく、XX情報等と表現してもよい。
また、上記の説明において、各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記憶装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
上述した実施の形態は、例えば、以下の特徴的な構成を有する。
ネットワークコンポーネント(仮想マシン111、vNIC112、vSW113、vPG114、NIC115、L2SW120等)のうち、障害が発生したネットワークコンポーネントを障害部位として特定可能なネットワーク管理システム(例えば、ネットワーク管理システム100)は、上記ネットワークコンポーネントの構成を示す構成情報(例えば、ネットワーク状態テーブル460、ネットワークコンポーネントを示す情報)を、上記ネットワークにおける通信に用いられる経路毎に取得する取得部(例えば、取得部410)と、上記ネットワークにおける通信を監視する監視部(例えば、監視部430)と、上記監視部により検出された異常な経路(例えば、疎通ができなかった経路)の構成情報(疎通不可能レコード521、疎通不可能レコード522)と、上記ネットワークコンポーネント毎に設けられた、ネットワークコンポーネントの復旧による影響の度合いを示す影響度(例えば、影響度テーブル470、影響度項目603の情報)とに基づいて、上記異常な経路のンポーネントの中から障害部位を特定する特定部(例えば、特定部440)と、を備える。
上記構成では、障害部位が特定されるので、例えば、障害の発生から復旧までの時間を短縮することができる。また、上記構成では、影響度に基づいて、異常な経路のネットワークコンポーネントの中から障害部位が特定される。よって、例えば、早期に復旧することに配慮して、一度で復旧する可能性が高い、つまり影響度が大きい障害部位から復旧を実施することができるようになる。また、例えば、ユーザに与える影響を抑えつつ、影響度が小さい障害部位から復旧を実施することができるようになる。
上記特定部は、上記監視部により検出された異常な経路のネットワークコンポーネントの中から、上記監視部により検出された正常な経路(例えば、疎通ができた経路)のネットワークコンポーネントを除いたネットワークコンポーネントを被疑部位として設定し(例えば、S704参照)、設定した被疑部位の中から障害部位を特定する。
上記構成では、例えば、異常な経路が1つであったとしても、障害部位を絞り込むことができるので、障害部位をより迅速に復旧することができる。
上記特定部は、上記監視部により検出された異常な経路が複数ある場合、上記複数の経路において共通するネットワークコンポーネントを被疑部位として設定し(例えば、S702およびS703参照)、設定した被疑部位の中から障害部位を特定する。
上記構成によれば、例えば、複数の異常な経路から、障害部位を絞り込むことができるので、障害部位をより迅速に復旧することができる。
上記取得部により取得された構成情報をもとに、上記ネットワークコンポーネント毎に上記ネットワークに用いられているネットワークコンポーネントの数(例えば、要素数)を計数し、計数した数が少ないネットワークコンポーネントほど影響の度合いが大きくなるように上記影響度を算出する算出部(例えば、算出部420)を備える。
上記構成では、取得部により取得された構成情報をもとに影響度が算出されるので、例えば、現在のネットワークの構成に対応して障害部位を特定できるようになる。また、数が少ないネットワークコンポーネントほど影響の度合いが大きくなるように算出された影響度を用いることで、ネットワークコンポーネントの数を加味して障害部位を特定できるようになる。
上記取得部により取得された構成情報をもとに、上記ネットワークに接続されている通信元(例えば、仮想マシン111、ゲストOS320、アプリケーション330)からの通信において経由するネットワークコンポーネントの数が多いネットワークコンポーネントほど影響の度合いが大きくなるように上記影響度を算出する算出部(例えば、算出部420)を備える。
上記構成では、取得部により取得された構成情報をもとに影響度が算出されるので、例えば、現在のネットワークの構成に対応して障害部位を特定できるようになる。また、通信元からの通信において経由するネットワークコンポーネントの数が多いネットワークコンポーネントほど影響の度合いが大きくなるように算出された影響度を用いることで、通信元からの距離を加味して障害部位を特定できるようになる。
上記特定部により特定された障害部位の復旧(フェイルオーバー、ポートの閉塞、再起動、マイグレーション等)を実行するように復旧部(例えば、ハイパーバイザ110)に指示を出す指示部(例えば、指示部450)を備え、上記特定部は、上記影響度が大きい順に障害部位を特定する。
上記構成によれば、障害部位を自動的に復旧することができるので、例えば、障害の発生から復旧までの時間を短縮することができる。また、一度で復旧する可能性が高い、つまり影響度が大きい障害部位から復旧が実施されるので、例えば、より迅速に復旧を行うことができるようになる。
上記特定部により特定された障害部位の復旧(フェイルオーバー、ポートの閉塞、再起動、マイグレーション等)を実行するように復旧部(例えば、ハイパーバイザ110)に指示を出す指示部(例えば、指示部450)を備え、上記特定部は、上記影響度が小さい順に障害部位を特定する。
上記構成によれば、障害部位を自動的に復旧することができるので、例えば、障害の発生から復旧までの時間を短縮することができる。また、影響度が小さい障害部位から復旧が実施されるので、例えば、ユーザに与える影響を抑えつつ、影響度が小さい障害部位から復旧を実施することができるようになる。
また上述した構成については、本発明の要旨を超えない範囲において、適宜に、変更したり、組み替えたり、組み合わせたり、省略したりしてもよい。
「A、B、およびCのうちの少なくとも1つ」という形式におけるリストに含まれる項目は、(A)、(B)、(C)、(AおよびB)、(AおよびC)、(BおよびC)または(A、B、およびC)を意味することができると理解されたい。同様に、「A、B、またはCのうちの少なくとも1つ」の形式においてリストされた項目は、(A)、(B)、(C)、(AおよびB)、(AおよびC)、(BおよびC)または(A、B、およびC)を意味することができる。
100……ネットワーク管理システム、410……取得部、430……監視部、440……特定部。

Claims (8)

  1. ネットワークに係るコンポーネントのうち、障害が発生したコンポーネントを障害部位として特定可能なネットワーク管理システムであって、
    前記ネットワークに係るコンポーネントの構成を示す構成情報を、前記ネットワークにおける通信に用いられる経路毎に取得する取得部と、
    前記ネットワークにおける通信を監視する監視部と、
    前記監視部により検出された異常な経路の構成情報と、前記ネットワークのコンポーネント毎に設けられた、コンポーネントの復旧による影響の度合いを示す影響度とに基づいて、前記異常な経路のコンポーネントの中から障害部位を特定する特定部と、
    を備え、
    前記特定部は、前記監視部により検出された異常な経路のコンポーネントの中から、前記監視部により検出された正常な経路のコンポーネントを除いたコンポーネントを被疑部位として設定し、設定した被疑部位の中から障害部位を特定する、
    ットワーク管理システム。
  2. 前記特定部は、前記監視部により検出された異常な経路が複数ある場合、前記複数の経路において共通するコンポーネントを被疑部位として設定し、設定した被疑部位の中から、前記監視部により検出された正常な経路の被疑部位を除いて障害部位を特定する、
    請求項1に記載のネットワーク管理システム。
  3. 前記取得部により取得された構成情報をもとに、前記ネットワークに係るコンポーネント毎に前記ネットワークに用いられているコンポーネントの数を計数し、計数した数が少ないコンポーネントほど影響の度合いが大きくなるように前記影響度を算出する算出部を備える、
    請求項1に記載のネットワーク管理システム。
  4. 前記取得部により取得された構成情報をもとに、前記ネットワークに接続されている通信元からの通信において経由するコンポーネントの数が多いコンポーネントほど影響の度合いが大きくなるように前記影響度を算出する算出部を備える、
    請求項1に記載のネットワーク管理システム。
  5. 前記特定部により特定された障害部位の復旧を実行するように復旧部に指示を出す指示部を備え、
    前記特定部は、前記影響度が大きい順に障害部位を特定する、
    請求項1に記載のネットワーク管理システム。
  6. 前記特定部により特定された障害部位の復旧を実行するように復旧部に指示を出す指示部を備え、
    前記特定部は、前記影響度が小さい順に障害部位を特定する、
    請求項1に記載のネットワーク管理システム。
  7. ネットワークに係るコンポーネントのうち、障害が発生したコンポーネントを障害部位として特定可能なネットワーク管理装置であって、
    前記ネットワークに係るコンポーネントの構成を示す構成情報を、前記ネットワークにおける通信に用いられる経路毎に取得する取得部と、
    前記ネットワークにおける通信を監視する監視部と、
    前記監視部により検出された異常な経路の構成情報と、前記ネットワークのコンポーネント毎に設けられた、コンポーネントの復旧による影響の度合いを示す影響度とに基づい
    て、前記異常な経路のコンポーネントの中から障害部位を特定する特定部と、
    を備え、
    前記特定部は、前記監視部により検出された異常な経路のコンポーネントの中から、前記監視部により検出された正常な経路のコンポーネントを除いたコンポーネントを被疑部位として設定し、設定した被疑部位の中から障害部位を特定する、
    ネットワーク管理装置。
  8. ネットワークに係るコンポーネントのうち、障害が発生したコンポーネントを障害部位として特定するネットワーク管理方法であって、
    取得部が、前記ネットワークに係るコンポーネントの構成を示す構成情報を、前記ネットワークにおける通信に用いられる経路毎に取得することと、
    監視部が、前記ネットワークにおける通信を監視することと、
    特定部が、前記監視部により検出された異常な経路の構成情報と、前記ネットワークのコンポーネント毎に設けられた、コンポーネントの復旧による影響の度合いを示す影響度とに基づいて、前記異常な経路のコンポーネントの中から障害部位を特定することと、
    を含み、
    前記特定部は、前記監視部により検出された異常な経路のコンポーネントの中から、前記監視部により検出された正常な経路のコンポーネントを除いたコンポーネントを被疑部位として設定し、設定した被疑部位の中から障害部位を特定する、
    ネットワーク管理方法。
JP2020038846A 2020-03-06 2020-03-06 ネットワーク管理システム、ネットワーク管理装置、およびネットワーク管理方法 Active JP7010986B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020038846A JP7010986B2 (ja) 2020-03-06 2020-03-06 ネットワーク管理システム、ネットワーク管理装置、およびネットワーク管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020038846A JP7010986B2 (ja) 2020-03-06 2020-03-06 ネットワーク管理システム、ネットワーク管理装置、およびネットワーク管理方法

Publications (2)

Publication Number Publication Date
JP2021141490A JP2021141490A (ja) 2021-09-16
JP7010986B2 true JP7010986B2 (ja) 2022-01-26

Family

ID=77669160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020038846A Active JP7010986B2 (ja) 2020-03-06 2020-03-06 ネットワーク管理システム、ネットワーク管理装置、およびネットワーク管理方法

Country Status (1)

Country Link
JP (1) JP7010986B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007025948A (ja) 2005-07-14 2007-02-01 Hitachi Ltd 動作状態管理機器、システム管理方法及びそのプログラム
JP2014199993A (ja) 2013-03-29 2014-10-23 株式会社Kddi研究所 優先復旧設備決定装置、優先復旧設備決定方法、プログラムおよび優先復旧設備決定システム
JP2016009982A (ja) 2014-06-24 2016-01-18 富士通株式会社 ネットワーク管理装置、ネットワーク管理システム、及びネットワーク管理方法
JP2017139709A (ja) 2016-02-05 2017-08-10 日本電信電話株式会社 ネットワーク制御装置およびネットワーク制御方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007025948A (ja) 2005-07-14 2007-02-01 Hitachi Ltd 動作状態管理機器、システム管理方法及びそのプログラム
JP2014199993A (ja) 2013-03-29 2014-10-23 株式会社Kddi研究所 優先復旧設備決定装置、優先復旧設備決定方法、プログラムおよび優先復旧設備決定システム
JP2016009982A (ja) 2014-06-24 2016-01-18 富士通株式会社 ネットワーク管理装置、ネットワーク管理システム、及びネットワーク管理方法
JP2017139709A (ja) 2016-02-05 2017-08-10 日本電信電話株式会社 ネットワーク制御装置およびネットワーク制御方法

Also Published As

Publication number Publication date
JP2021141490A (ja) 2021-09-16

Similar Documents

Publication Publication Date Title
US11321197B2 (en) File service auto-remediation in storage systems
US9489274B2 (en) System and method for performing efficient failover and virtual machine (VM) migration in virtual desktop infrastructure (VDI)
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
US7725768B1 (en) System and method for handling a storage resource error condition based on priority information
US9110867B2 (en) Providing application based monitoring and recovery for a hypervisor of an HA cluster
JP5536878B2 (ja) ファイバ・チャネル・ファブリックへのアクセスの変更
US11221935B2 (en) Information processing system, information processing system management method, and program thereof
EP3288239B1 (en) Service availability management method and apparatus, and network function virtualization infrastructure thereof
US20140215265A1 (en) Data backup and recovery
JP2020507852A (ja) オーケストレーションのためのワークロードの依存性分析のための方法及びシステム
US9292371B1 (en) Systems and methods for preventing failures of nodes in clusters
US11768724B2 (en) Data availability in a constrained deployment of a high-availability system in the presence of pending faults
US20150074251A1 (en) Computer system, resource management method, and management computer
US10353786B2 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
JP2008052407A (ja) クラスタシステム
US9047247B2 (en) Storage system and data processing method
US10102088B2 (en) Cluster system, server device, cluster system management method, and computer-readable recording medium
US8683258B2 (en) Fast I/O failure detection and cluster wide failover
CN114327662B (zh) 操作系统的处理方法及装置、存储介质和处理器
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
JP7010986B2 (ja) ネットワーク管理システム、ネットワーク管理装置、およびネットワーク管理方法
US20180287914A1 (en) System and method for management of services in a cloud environment
CN106484495A (zh) 一种虚拟机磁盘数据块同步方法
US20160034548A1 (en) System and Method for Obtaining Automated Scaling of a Virtual Desktop Environment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220113

R150 Certificate of patent or registration of utility model

Ref document number: 7010986

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150