JP6427058B2 - 通信確認・通信断箇所特定装置、および、通信確認・通信断箇所特定プログラム - Google Patents
通信確認・通信断箇所特定装置、および、通信確認・通信断箇所特定プログラム Download PDFInfo
- Publication number
- JP6427058B2 JP6427058B2 JP2015082375A JP2015082375A JP6427058B2 JP 6427058 B2 JP6427058 B2 JP 6427058B2 JP 2015082375 A JP2015082375 A JP 2015082375A JP 2015082375 A JP2015082375 A JP 2015082375A JP 6427058 B2 JP6427058 B2 JP 6427058B2
- Authority
- JP
- Japan
- Prior art keywords
- communication
- confirmation
- section
- unit
- unconfirmed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
なお、物理サーバには、図1(a)に示すように、OS(Operating System)、MW(Middleware)、AP(Application)等で構成されるシステムが構築されるが、物理サーバとシステムとの関係は固定されたものとなる。
(1)頻繁なVMの生成や削除により、通信確認が必要なメンバが高頻度に変わる。
(2)仮想スイッチの設定漏れ等、仮想化プラットフォーム側の通信区間の正常性についても考慮する必要がある。
(3)1つの物理サーバ上に複数のVMが設定可能であるため、各通信区間を網羅的に確認しようとすると、通信確認の組み合わせ数が大幅に増加する。例えば、10台の物理サーバそれぞれに、5つのVMを設定すると、VM間(論理通信区間)の通信正常性確認は、50C2=1225通りの組み合わせでping等による確認を実行する必要がある。さらに、VMの配置が換わるたびに、ping等による確認が必要となる。
よって、全通りの通信組み合わせで通信確認を行う従来の手法に比べ、通信確認組み合わせの数を削減し、処理オーバヘッドや処理時間を低減することができる。
また、通信確認・通信断箇所特定装置は、未確認の通信区間を最も多く含むVMのペアを上位レイヤから順に選択し、通信確認リストを作成することができる。よって、通信区間をできるだけ重複せずに選択し通信確認を行うことができるため、確実に通信確認組み合わせの数を減らすことができる。
また、通信確認・通信断箇所特定装置は、通信OKでない通信区間を上位レイヤから順に、任意回数(n回)選択し、再送通信確認組み合わせリストを作成することができる。よって、推定故障箇所の通信区間をさらに絞り込んで特定することができる。
請求項3に記載の発明は、前記推定故障箇所と、前記推定した復旧方法とを、前記ネットワークの装置構成と共に表示する通信状態可視化部を更に備えることを特徴とする請求項2に記載の通信確認・通信断箇所特定装置とした。
このようにすることにより、通信確認・通信断箇所特定装置は、この推定故障箇所および復旧方法をネットワークの保守者が直感的に認知できるように視覚表示するため、保守者の作業負担を軽減することができる。
まず、本実施形態に係るサーバ仮想化環境の適用領域について説明する。
図2に示すように、L2(layer 2)・L3(layer 3)装置により構成される転送系ネットワーク内における、仮想マシン(VM50)および物理サーバ40間のL2/L3レベルの通信正常性確認、通信故障箇所特定、即ち、仮想マシン(VM50)および物理サーバ40のネットワーク構成管理、並びに、論理ネットワークおよび物理ネットワークの故障管理が、本実施形態に係る通信確認・通信断箇所特定装置10の適用領域となる。
なお、本実施形態に係る通信確認・通信断箇所特定装置10は、L3SW30配下のL2SW20等では、物理ケーブル配線やスイッチポート設定誤り等により限定された故障箇所範囲を特定可能であり、L3SW30間においては、任意の2つのL3SW30間が専用線6やNGN網7を介する場合や経由経路が複数パターン存在する場合には、1通信区間とみなし、そのみなし通信区間の正常性確認のみ可能となる。一方、2つのL3SW30の間が1パターンの経由経路で通常の物理ケーブル線でつながる場合は、L2SW20同様物理ケーブル配線やスイッチポート設定誤り等により限定された故障箇所範囲を特定可能である。
次に、本実施形態に係る通信確認・通信断箇所特定装置10が実行する処理の概要について説明する。
図4は、本実施形態に係る通信確認・通信断箇所特定装置10を含むシステムの全体構成と処理概要を説明するための図である。なお、図4においては、VLAN-αとVLAN-βとが、1つのL3SW30を介して接続する例を示している。
また、通信確認・通信断箇所特定装置10は、VM50の生成や削除、VM50の電源のON/OFF、VM50の再配置等を管理する仮想インフラマネージャ(VIM:Virtualized Infrastructure Manager)60と接続される。
次に、通信確認・通信断箇所特定装置10について詳細に説明する。
図5は、本実施形態に係る通信確認・通信断箇所特定装置10の構成例を示す機能ブロック図である。
通信確認・通信断箇所特定装置10は、仮想化環境のサーバ・NW構成において、各通信区間の通信正常性確認を、従来の網羅的な(全通りの)メンバ間の通信正常性確認の組み合わせ数に比べ、より削減した(なるべく少ない数の)通信確認組み合わせ数で実行する。また、通信確認・通信断箇所特定装置10は、通信断(通信故障)検出時に、通信確認組み合わせの各通信確認結果をマージし、より少ない(なるべく少ない数の)再送通信確認組み合わせで通信正常性の確認を行うことで、通信断発生箇所候補を局所的に絞り込み、その結果を表示手段に表示する。さらに、通信確認・通信断箇所特定装置10は、通信断(通信故障)の故障タイプ(ソフトウェアの設定誤り、物理的な故障等)を判定し、通信断発生箇所の通信区間に応じた復旧方法を表示手段に表示する。
この通信確認・通信断箇所特定装置10は、制御部11と、記憶部12と、通信部13と、入出力部14とを備える。
この記憶部12には、メンバ構成情報テーブル100(図7参照)、メンバ状態管理テーブル200(図8参照)、故障タイプ別復旧方法テーブル300(図46参照)等が記憶される。なお、記憶部12に記憶される情報の詳細は後記する。
メンバ構成情報保存部111は、L2SW20やL3SW30等のNW装置、物理サーバ40、NW装置や仮想マシン(VM50)のポートやIP(Internet Protocol)アドレス、VLAN情報等を、仮想インフラマネージャ(VIM)60やネットワーク監視装置(図示省略)等から取得し、記憶部12に保存する。メンバ構成情報保存部111は、NW装置や物理サーバ40の接続関係、仮想マシン(VM50)の配置先物理サーバ、各ポートに対応する割当IPアドレス、VLAN情報等を管理するために、メンバ構成情報テーブル100(図7参照)およびメンバ状態管理テーブル200(図8参照)を、最新の状態に更新する。
図6に示すように、VLAN-10とVLAN-20とは、1つのL3SW30(L3−1)を介して接続される。また、各メンバのポート情報が図6に示すものであるとする。なお、ここで「メンバ」とは、1または複数の論理NWスライスにおいてネットワーク構成する、NW装置(L2SW,L3SW)、物理サーバ、仮想マシン(VM)、APを意味する。また、図6において、VLAN-10の「SM-1」として記載した「SM」は、エンクロージャーが備えるSWモジュール(L2SW)を表わしている。
このメンバ構成情報テーブル100には、各メンバのポート識別子101に対応付けて、装置・AP識別子102、接続先親ポート識別子103、並列関係にある接続先ポート識別子104、割当IPアドレス105、所属VLANリスト106が格納される。
装置・AP識別子102には、ネットワーク内の各メンバを一意に特定するための識別子が格納される。例えば、1行目に示すように、APの識別子として「AP-1」が格納される。
メンバ状態管理テーブル200には、装置・AP識別子201に対応付けて、装置・AP種別202および起動状態203が格納される。
装置・AP識別子201は、メンバ構成情報テーブル100の装置・AP識別子102と同じ情報である。
装置・AP種別202には、装置・AP識別子201に示されるメンバの種別が、例えば、「Application(AP)」「Virtual Machine(VM)」「Physical Server(物理サーバ)」「Enclosure SW Module(SM)」「L2SW」「L3SW」等として格納される。
起動状態203には、装置・AP識別子201で示されるメンバの起動の状態が「Active」または「Non-Active」(不図示)として格納される。
図5に戻り、通信状態確認実行部112は、通信状態を確認したい通信区間に対応して通信確認組み合わせを生成し、例えば、pingコマンドを実行することにより通信区間の通信正常性確認を行う。
ここでは、図9に示すネットワークにおいて通信区間を、上位レイヤから順に、L3SW間、L3SW―L2SW間、並列のL2SW間、親と配下のL2SW間、L2SW―物理サーバ間、物理サーバ―仮想マシン間、物理サーバ―システム間(非仮想化システムの場合)と分類し、以下において説明を行う。なお、本実施形態において並列関係とは、上記分類における同一レイヤに属し、メンバ同士が接続されている関係をいう。
定期通信確認部113は、図9に示すように、ネットワークの各通信区間のすべてについて、定期的に(所定の時間間隔で)通信正常性確認を行う。
不定期通信確認部114は、仮想マシン(VM50)の生成や再配置等のイベント発生に伴い局所的な通信区間の通信正常性確認を行う。図9においては、VLAN-βの物理サーバ上に新たなVM50(「VM-8」)が生成され、生成された新たなVM50とL3SW30との間の局所的な通信正常性確認を、不定期通信確認部114が行う例を示している。
以下、定期通信確認部113および不定期通信確認部114について、具体的に説明する。
定期通信確認部113は、同一論理NWスライスにおける各通信区間の通信正常性を確認するため、記憶部12(図5参照)内のメンバ構成情報テーブル100(図7)およびメンバ状態管理テーブル200(図8)を参照し、メンバ状態管理テーブル200の起動状態203が「Active」である各メンバ間の通信区間の通信正常性を確認する。
このとき、定期通信確認部113は、論理通信区間のすべてを確認するために、より少ない(なるべく少ない数の)メンバ間の通信確認組み合わせを、後記する「全論理通信区間の通信組み合わせ生成手法」に基づき生成し、通信状態を確認したい仮想マシン(VM50)や物理サーバ40に通信確認要求(ping)を送り、その通信確認結果を取得する。
これに対し、定期通信確認部113は、全論理通信区間の通信組み合わせ生成手法に基づき、メンバ間の通信確認組み合わせを生成することにより、図10に示す例のように、「VM−2」―「VM-8」、「VM-3」―「VM-5」、「VM-1」―「VM-6」、「VM-4」―「VM-7」、「VM-9」―物理サーバ「5」の5通りで、すべての論理通信区間の通信正常性確認を行うことができる。なお、この全論理通信区間の通信組み合わせ生成手法は、上位レイヤの通信区間から順に、未確認の通信区間が多いAP同士を優先的に選択することにより、より少ない通信確認組み合わせ数で、すべての論理通信区間を経由する組み合わせを生成する手法であり、詳細は後記する図12を参照して説明する。
図11に示す例のように、「VM-2」―「VM-8」、「VM-3」―「VM-5」、「VM-6」―物理サーバ「5」の3通りで、すべての物理通信区間の正常性確認を行うことができる。なお、この全物理通信区間の通信組み合わせ生成手法は、通信状態の確認対象となる物理通信区間について、従来の手法による各物理通信区間の網羅的な組み合わせによる通信正常性確認に比べ、より少ない通信確認組み合わせ数ですべての物理通信区間を経由する組み合わせを生成し通信正常性を確認する手法であり、詳細は後記する図24を参照して説明する。
まず、全論理通信区間の通信組み合わせ生成手法(通信確認組み合わせ生成処理)について説明する。
定期通信確認部113は、通信確認組み合わせ数をより少なくした上で、すべての論理通信区間の通信状態を確認するため、基本的なロジックとして、上位レイヤから順に未確認の通信区間(以下、「未確認通信区間」と称する。)を特定し、その特定した未確認通信区間を経由した上で、他の未確認通信区間の通信ホップ数が最も大きいAP同士の通信を優先的に通信確認リストに登録していく。
まず、定期通信確認部113は、通信正常性確認を行うネットワークにおける、L3SWレイヤの通信区間の確認を行う。
ここで、定期通信確認部113は、すべてのL3SW間の物理通信区間が確認済みか否かを判定する(ステップS10)。なお、L3SW間の通信経路が複数パターンある場合や、専用線・NGN網を跨ぐ場合(図3参照)には、該当する最短のL3SW間を「1通信区間」とみなす。
ステップS10において、すべてのL3SW間の物理通信区間が確認済みでない場合、つまり、まだ確認していないL3SW間の物理通信区間がある場合には(ステップS10→No)、ステップS11に進む。一方、すべてのL3SW間の物理通信区間を確認済みの場合は(ステップS10→Yes)、ステップS12に進む。
ここで、定期通信確認部113は、メンバ状態管理テーブル200(図8)を参照し、起動状態203が「Active」のメンバのみを、通信確認対象とする。なお、未確認通信区間の数が同じ場合は、経路ホップ数が少ないAP同士を優先的に選択する。また、通信確認リストに追加した後、選択したAP間の経路上の通信区間を確認済状態とし、未確認通信区間から除外して、以降の処理を進める(以下、同様である。)。
また、ステップS11を終えると、ステップS10に戻り、すべてのL3SW間の物理通信区間が確認できた場合に(ステップS10→Yes)、ステップS12に進む。
まず、定期通信確認部113は、各VLANの論理通信区間をすべて確認済みか否か判定する(ステップS12)。ここで、まだ確認していないVLANの論理通信区間がある場合には(ステップS12→No)、まだ確認していないVLANのうちの1つを選択してステップS13に進む。一方、各VLANの論理通信区間がすべて確認済みである場合には(ステップS12→Yes)、定期通信確認部113は、全論理通信区間の通信確認組み合わせ生成処理を終える。
なお、ここでは、VLAN毎に対応する論理通信区間が存在すると仮定する。したがって、同一物理通信区間に複数の論理通信区間が存在することもあり得る。
以下、上記の処理ステップの具体例を、図13〜図21を参照して例示する。なお、図13〜図21に示す例では、L3SW30として「L3-1」と「L3-2」とが存在し、L3-1側にはVLAN-α、L3-2側にはVLAN-βが設定されているものとする。
なお、以降の図において、太実線で示すAP間が、通信確認要求(ping)が経由する通信区間、つまり、通信状態の確認済となる通信区間を意味する。
次に、全物理通信区間の通信組み合わせ生成手法(通信確認組み合わせ生成処理)について説明する。
定期通信確認部113は、ソフトウェア面の設定誤りを故障原因とする通信断が発生しにくい時間帯においては、物理通信区間の通信正常性を確認するための通信確認組み合わせを生成し、さらに通信確認組み合わせ数を抑えることができる。
この場合も、全論理通信区間の通信組み合わせ生成手法と同様に、上位レイヤから順に未確認の通信区間(以下、「未確認通信区間」と称する。)を特定し、その特定した未確認通信区間を経由した上で、他の未確認通信区間の通信ホップ数が最も大きいAP同士の通信を優先的に通信確認リストに登録していく。
なお、この全物理通信区間の通信組み合わせ生成手法での未確認通信区間は、L3SW間、L3SW―L2SW間、並列のL2SW間、親と配下のL2SW間、L2SW―物理サーバ間であり、物理サーバ―仮想マシン間、物理サーバ―システム間(非仮想化システムの場合)は含まない。
図24のステップS20,S21の処理は、図12に示す全論理通信区間の通信確認組み合わせ生成処理のステップS10,S11と同様であるため、説明を省略する。
以下、上記の処理ステップの具体例を、図25〜図30を参照して例示する。なお、図25〜図30に示す例では、L3SW30として「L3-1」と「L3-2」とが存在し、「L3-1」のNW装置側にはVLAN-α、「L3-2」のNW装置側にはVLAN-βが設定されているものとする。
図5に戻り、不定期通信確認部114は、仮想インフラマネージャ(VIM)60等から通知される新規のVM50の作成や、VM50の配置先となる物理サーバ40の変更等のイベントに基づき、当該イベント発生後の仮想スイッチや物理スイッチの設定漏れの有無を確認するため、対象となるVM50から所定の他のVM50やデフォルトGW(Gateway)等に対して通信確認を実行する。
図31では、物理サーバ「1」上に、新規に「VM-1」が作成された場合において、その「VM-1」と、デフォルトGWとなるL3SW30との間で、通信確認を実行する例を示している。
図31では、物理サーバ「3」上の「VM-7」が、通信正常性が未確認の通信区間に位置する物理サーバ「6」上に再配置された場合において、再配置された「VM-7」と、デフォルトGWとなるL3SW30との間で、通信確認を実行する例を示している。
図5に戻り、通信断発生箇所特定部115は、通信状態確認実行部112の定期通信確認部113や不定期通信確認部114が実行した通信確認結果が通信不能(通信NG)の通信状態を含む場合、必要に応じて、通信断箇所を特定(さらに通信区間の範囲を限定)するために、より少ない(なるべく少ない数の)通信確認組み合わせ数にて再度通信確認を行う。そして、通信断発生箇所特定部115は、実行した各通信確認組み合わせの通信確認結果から、各通信区間の通信OK/通信断(通信NG)を判定し、各通信確認組み合わせの通信確認結果をマージすることで、通信断の通信区間を局所的に特定する。さらに、通信断発生箇所特定部115は、特定された通信断の通信区間に対し、想定される故障原因(故障原因のタイプ)からその復旧方法を決定する。
なお、通信断発生箇所特定部115は、後記する通信確認結果分析処理(ステップS33〜S35)の結果、ステップS30において、通信確認結果が取得できない物理通信区間の通信結果が正常(通信OK)である情報を取得したときには、該当通信区間の両端の物理サーバ・スイッチの物理故障および該当通信区間の接続線故障を、故障原因から除外する。
まず、通信断発生箇所特定部115は、ステップS32において取得した、通信確認組み合わせの通信確認結果(通信区間正常性確認情報400)のすべてを確認したか否かを判定する(ステップS33)。ここで、通信断発生箇所特定部115は、通信確認組み合わせの通信確認結果のすべてを確認した場合には(ステップS33→Yes)、ステップS36に進み、まだ確認していない通信確認組み合わせの通信確認結果がある場合には(ステップS33→No)、ステップS34に進む。
このようにすることで、通信断発生箇所特定部115は、各通信確認組み合わせの通信確認結果をマージすることができる。
ここで、通信断発生箇所特定部115は、通信断発生候補の通信区間が分断されているか否かを、次のように判定する。通信断発生箇所特定部115は、図34に示すように、枝分かれしてもよいが、各通信区間が繋がっていて必ずたどれる通信断発生候補の集合を「通信断発生候補区間群」と定義する。そして、通信断発生箇所特定部115は、この通信断発生候補区間群と定義できる繋がった通信断発生候補の通信区間を分断されていないと判定する。また、通信断発生箇所特定部115は、通信断発生候補区間群の定義に基づき繋がっていない通信断発生候補の通信区間が複数存在する場合に、通信断発生候補の通信区間が分断されていると判定する。
ここで、通信断発生箇所特定部115は、分断された通信断発生候補の通信区間が複数でない、つまり、1つの通信区間のみである場合には(ステップS40→No)、ステップS43に進み、該当通信区間を通信断発生特定箇所とする。
一方、通信断発生箇所特定部115は、分断された通信断発生箇所候補の通信区間が複数である場合には(ステップS40→Yes)、ステップS41に進み、分断された通信区間ごとに、再送通信確認組み合わせ生成処理を実行する。そして、ステップS42に進む。
これにより、通信断発生箇所特定部115は、通信断発生候補を、再送通信確認組み合わせの通信確認結果を用いて絞り込んだ上で、通信断発生特定箇所(推定故障箇所)として推定することができる。
次に、通信断発生箇所特定部115が実行する再送通信確認組み合わせ生成処理について、図35を参照して説明する。なお、この再送通信確認組み合わせ生成処理は、図33のステップS39,S41において実行される処理である。
通信断発生箇所特定部115は、APの選定にあたり、再送通信確認リストに含まれる回数の少ないAP同士を優先し、その中で未確認通信区間の端点と直結するAP若しくは両端点からAPまでの通信区間において、すべての通信区間が通信正常若しくは(再送以前の時点で)未確認の状態であり、かつ、選択未確認通信区間の端点までの通信区間が少ない(ホップ数の少ない)APを優先的に選択する。該当APが存在しない場合には、通信断発生箇所特定部115は、既に再送通信確認リストに確認先として含まれる回数が少ないAPから優先的に、選択した通信区間(選択未確認通信区間)の両端点からAPまでの通信区間が少なく、通信正常または未確認状態の通信区間の合計通信区間をより多く経由するAPを優先的に選択する。さらに、通信断発生箇所特定部115は、通信正常と未確認状態の通信区間の合計通信区間が同じ場合には、通信正常区間が多い方を優先的に選択する。
そして、通信断発生箇所特定部115は、ステップS52の処理の後、ステップS50に戻る。
以下、再送通信確認組み合わせ生成処理の処理ステップ(再送通信確認組み合わせ生成手法)の具体例を、図36〜図44を参照して例示する。
なお、ここでは、図36に例示するように、破線で示した区間が通信断発生候補区間群、つまり、各通信区間が繋がっていて必ずたどれる通信断発生候補の集合であるとする。また、一点鎖線で示した区間が、通信正常性の確認済みの通信区間の範囲とする。また、実際に通信断(通信故障)が発生している箇所を、「L3-1」と「L2-1」との間の通信区間、「L2-2」と「L2-3」との間の通信区間、「VM-1」と「AP-3」との間の通信区間として説明する。
そして、通信断発生箇所特定部115は、「L3-1」側のAPとして、よりホップ数が少ないAPの中で、再送通信確認リストに含まれないAPとして「AP-1」を選択する。また、「L3-2」側のAPとして、未確認状態の通信区間のより多く経由するAPの中から「AP-3」を選択する。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-1」―「AP-3」を追加する。
そして、通信断発生箇所特定部115は、「L2-2」側のAPとして、よりホップ数が少ないAPの中で、再送通信確認リストに含まれないAPとして「AP-4」を選択する。また、「L2-3」側のAPとして「AP-8」を選択する。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-4」―「AP-8」を追加する。
そして、通信断発生箇所特定部115は、「L2-5」側のAPとして、よりホップ数が少ないAPの中で、再送通信確認リストに含まれないAPとして「AP-5」を選択する。また、「S-4」側のAPとして、再送通信確認リストに含まれていないAPの中から「AP-6」を選択する。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-5」―「AP-6」を追加する。
そして、通信断発生箇所特定部115は、「L2-5」側のAPとして、よりホップ数が少ないAPの中から、「AP-4」を選択する。また、「S-4」側のAPとして、再送通信確認リストに含まれないAPとして「AP-7」を選択する。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-4」―「AP-7」を追加する。
そして、通信断発生箇所特定部115は、「VM-1」側のAPとして、「AP-3」を選択する。また、「S-3」側のAPとして、未確認状態の通信区間よりも通信正常の通信区間が多い「AP-4」を選択する。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-3」―「AP-4」を追加する。
そして、通信断発生箇所特定部115は、「S-3」側のAPとして、未確認状態の通信区間よりも通信正常の通信区間が多い「AP-4」を選択する。また、「VM-3」側のAPとして、「AP-5」を選択する。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-4」―「AP-5」を追加する。
そして、通信断発生箇所特定部115は、「VM-4」側のAPとして「AP-6」を選択する。また、「S-4」側のAPとして、「AP-7」を選択する。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-6」―「AP-7」を追加する。
そして、通信断発生箇所特定部115は、この8通りの再送通信確認組み合わせについて、通信確認結果分析処理(図33のステップS42)を実行することにより、各再送通信確認組み合わせの通信確認結果をマージし、通信OKでない通信区間を抽出して、通信断発生特定箇所を推定することができる(ステップS43)。
ここでは、図44に示すように、「L3-1」―「L3-2」、「L3-1」―「L2-1」、「L3-2」―「L2-2」、「L2-2」―「L2-3」、「S-3」―「VM-1」、「VM-1」―「AP-3」の各通信区間を、通信断発生特定箇所として推定する。よって、通信断発生箇所特定部115は、通信断発生候補区間群から、再送通信確認組み合わせの通信確認結果を用いて通信断発生候補を絞り込み、通信断発生特定箇所として推定することができる。なお、通過回数nを大きくすることで、再送通信確認組み合わせ数が増えるが、通信断発生特定箇所の推定精度は向上する。しかし、NW装置構成によっては、推定精度に限界があり、通過回数nを増やしても実際の通信断発生箇所よりも推定される通信断発生特定箇所が広くなる。図44の例では、通過回数nを「2」以上にしても、推定される通信断発生特定箇所は図示している範囲よりさらに絞り込むことはできない。
次に通信断発生箇所特定部115による、通信断原因判定処理について、具体的に説明する。
図45は、本実施形態に係る通信断発生箇所特定部115による、通信断原因判定処理を示すフローチャートである。
一方、通信断発生箇所特定部115は、現在行っている通信正常性確認が、論理通信区間の通信状態確認である場合には(ステップS60→Yes)、ステップS61において、通信断発生特定箇所ごとに、その通信断発生特定箇所の論理通信区間について、該当する物理通信区間がその他のVLANの論理通信区間を共有しているか否かを判定する。
この判定は、図7に示すメンバ構成情報テーブル100の所属VLANリスト106を参照することにより確認することができる。通信断発生箇所特定部115は、通信断発生特定箇所の論理通信区間において、この所属VLANリスト106に複数のVLANの識別子が登録されている場合には、該当する物理通信区間がその他のVLANの論理通信区間を共有していると判定し(ステップS61→Yes)、ステップS62に進む。
図46は、本実施形態に係る故障タイプ別復旧方法テーブル300のデータ構成例を示す図である。
また、通信断発生箇所特定部115は、故障タイプが「ソフトウェア設定誤り、物理的故障両方の可能性あり」の場合であり、通信断発生特定箇所の通信区間が「システムと物理サーバのNWIF間」であるときには、「システムOSレベルのNWIF設定を確認」するという故障復旧方法に決定する。
このようにすることで、通信断発生箇所特定部115は、判定した故障タイプと、通信断発生箇所の通信区間とに基づき、復旧方法を決定することができる。
図5に戻り、通信状態可視化部116は、通信状態確認実行部112による通信確認結果、並びに、通信断発生箇所特定部115による通信断発生特定箇所およびその復旧方法を、保守者等に分かりやすく可視化するための情報を生成し、入出力部14を介して、表示手段等に出力する。
例えば、物理サーバ「2」とVM-4との間の通信区間について、通信断発生特定箇所を示す「十字の記号」が付され、その復旧方法として、「VM4のシステムOSレベルのNWIF設定、および、VM4と物理サーバ2との間の仮想スイッチの設定を確認」というように表示することができる。
このようにすることにより、ネットワークの管理者は、通信断(通信故障)の発生箇所を一瞥で確認でき、あわせてその復旧方法も認知することが可能となる。
本実施形態に係る通信確認・通信断箇所特定装置10は、通信断(通信故障)発生箇所を特定するための、通信確認組み合わせおよび再送通信確認組み合わせを、自ら処理(自動実行)して通信確認結果を得られる。これにより、従来の手動で各通信組み合わせに対して逐次的に通信確認を行う手法に比べ、保守者の作業負担を大幅に軽減することができる。
本実施形態に係る通信確認・通信断箇所特定装置10は、サーバ・NW構成の各通信区間のすべてを網羅して通信確認を行うことにより、従来のユーザ申告に基づく故障切分作業に比べ、早期に通信断を検知することが可能となる。
本実施形態に係る通信確認・通信断箇所特定装置10は、サーバ・NW構成の各通信区間の重複確認をできるだけ避ける通信確認組み合わせで通信確認を行うことにより、全通りのメンバ間の通信確認手法に比べ、通信確認組み合わせ数を削減し、処理オーバヘッドや処理時間を低減することが可能となる。特に大規模な仮想化環境ほど、この効果が大きくなる。
本実施形態に係る通信確認・通信断箇所特定装置10は、通信断検知時に通信確認組み合わせの各通信確認結果をマージさせ、必要に応じてより少ない再送通信確認組み合わせで通信確認を行うことにより、通信断発生候補を局所的に絞り込み、それに対応する復旧方法を提示することができる。これにより、従来の複雑な故障切分作業および復旧方法確認作業をすべて自動化し、保守者の作業負担を軽減することができる。
本実施形態に係る通信確認・通信断箇所特定装置10は、通信確認メンバの論理構成や、サーバ・NW構成における各通信区間の通信状態および通信断発生箇所、並びに、その復旧方法を視覚的に表現することで、コマンドライン画面による確認や以前の確認結果の見直しや比較といったステップが不要となり、より保守者に直感的に故障発生箇所とその復旧方法を認知させることができる。
6 専用線
7 NGN網
10 通信確認・通信断箇所特定装置
11 制御部
12 記憶部
13 通信部
14 入出力部
100 メンバ構成情報テーブル
111 メンバ構成情報保存部
112 通信状態確認実行部
113 定期通信確認部
114 不定期通信確認部
115 通信断発生箇所特定部
116 通信状態可視化部
200 メンバ状態管理テーブル
300 故障タイプ別復旧方法テーブル
400 通信区間正常性確認情報
500 通信状態可視化画面
Claims (4)
- ネットワークを構成する装置間を物理的および論理的に通信接続するための、ポート情報および装置情報を管理するメンバ構成情報保存部と、
論理通信区間を経由するVM(Virtual Machine)の組み合わせのうち、上位レイヤの未確認の論理通信区間の両端から前記組み合わせの両VMまでの間に未確認の論理通信区間を最も多く含む前記VMの組み合わせから、優先的に第1の通信確認リストに加えていき、前記未確認の論理通信区間のすべてを確認する前記第1の通信確認リストを作成し、作成した前記第1の通信確認リストに登録された前記VMの組み合わせの通信確認を実行すると共に、物理通信区間を経由する前記VMの組み合わせのうち、上位レイヤの未確認の物理通信区間の両端から前記組み合わせの両VMまでの間に未確認の物理通信区間を最も多く含む前記VMの組み合わせから、優先的に第2の通信確認リストに加えていき、前記未確認の物理通信区間のすべてを確認する前記第2の通信確認リストを作成し、作成した前記第2の通信確認リストに登録された前記VMの組み合わせの通信確認を実行する定期通信確認部と、前記VMの生成ならびに再配置に伴い発生する未確認の通信区間の通信正常性を確認する不定期通信確認部と、から成る通信状態確認実行部と、
前記第1の通信確認リストおよび前記第2の通信確認リストに含まれる前記VMの組み合わせの通信確認結果に通信OKでない通信区間があった場合に、上位レイヤの前記通信OKでない通信区間から順に、当該通信区間を任意回数(n回)通過する前記VM間を再送通信確認リストに加え、次に、前記再送通信確認リストに無い最上位の前記通信OKでない通信区間を前記任意回数通過する前記VM間を前記再送通信確認リストに加えていき、前記再送通信確認リストを作成し、作成した前記再送通信確認リストに登録された前記VMの組み合わせを用いて推定故障箇所を決定し、決定した前記推定故障箇所の通信区間から故障原因を推定する通信断発生箇所特定部と、
を備えることを特徴とする通信確認・通信断箇所特定装置。 - 前記通信断発生箇所特定部は、前記推定故障箇所が、前記物理通信区間か前記論理通信区間か、前記論理通信区間の場合において前記物理通信区間との対応付けを判定することによって故障原因を推定し、前記推定した故障原因と前記推定故障箇所とから、復旧方法の推定までを更に行うこと、を特徴とする請求項1に記載の通信確認・通信断箇所特定装置。
- 前記推定故障箇所と、前記推定した復旧方法とを、前記ネットワークの装置構成と共に表示する通信状態可視化部
を更に備えることを特徴とする請求項2に記載の通信確認・通信断箇所特定装置。 - コンピュータを、請求項1乃至請求項3のいずれか一項に記載の通信確認・通信断箇所特定装置として機能させるための通信確認・通信断箇所特定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015082375A JP6427058B2 (ja) | 2015-04-14 | 2015-04-14 | 通信確認・通信断箇所特定装置、および、通信確認・通信断箇所特定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015082375A JP6427058B2 (ja) | 2015-04-14 | 2015-04-14 | 通信確認・通信断箇所特定装置、および、通信確認・通信断箇所特定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016201760A JP2016201760A (ja) | 2016-12-01 |
JP6427058B2 true JP6427058B2 (ja) | 2018-11-21 |
Family
ID=57424652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015082375A Active JP6427058B2 (ja) | 2015-04-14 | 2015-04-14 | 通信確認・通信断箇所特定装置、および、通信確認・通信断箇所特定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6427058B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7440747B2 (ja) | 2020-01-27 | 2024-02-29 | 富士通株式会社 | 情報処理装置、情報処理システムおよびネットワーク疎通確認方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5398568B2 (ja) * | 2010-02-05 | 2014-01-29 | 三菱電機株式会社 | ネットワーク管理装置および障害箇所推定方法 |
JP5342082B1 (ja) * | 2013-06-07 | 2013-11-13 | 株式会社野村総合研究所 | ネットワーク障害解析システムおよびネットワーク障害解析プログラム |
-
2015
- 2015-04-14 JP JP2015082375A patent/JP6427058B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016201760A (ja) | 2016-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9686146B2 (en) | Reconfiguring interrelationships between components of virtual computing networks | |
US10644952B2 (en) | VNF failover method and apparatus | |
EP3451587B1 (en) | Creating searchable and global database of user visible process traces | |
CN108270726B (zh) | 应用实例部署方法及装置 | |
BR112016023155B1 (pt) | Método, aparelho e sistema de solução de problemas com base na virtualização de função de rede | |
US9634886B2 (en) | Method and apparatus for providing tenant redundancy | |
JP6601237B2 (ja) | 試験装置、ネットワークシステム、及び試験方法 | |
CN105471994B (zh) | 一种控制方法及装置 | |
JP6604218B2 (ja) | 試験装置、ネットワークシステム、及び試験方法 | |
Kim et al. | SDN and NFV benchmarking for performance and reliability | |
US20150071091A1 (en) | Apparatus And Method For Monitoring Network Performance | |
CN111756567B (zh) | 用于显示优化的网络规划的特征的交互式用户界面 | |
JP6427058B2 (ja) | 通信確認・通信断箇所特定装置、および、通信確認・通信断箇所特定プログラム | |
CN113872997B (zh) | 基于容器集群服务的容器组pod重建方法及相关设备 | |
US10642713B1 (en) | Object-based monitoring and remediation system | |
US10833918B2 (en) | Automatic rule based grouping of compute nodes for a globally optimal cluster | |
JP5475130B2 (ja) | 監視プログラム、監視システム及び監視方法 | |
WO2017018435A1 (ja) | リソース監視装置、仮想ネットワークファンクション管理システム、リソース監視方法及びプログラム | |
JP6010906B2 (ja) | コンピュータネットワークシステム、構成管理方法、構成管理プログラム、記録媒体 | |
Guedes et al. | Stochastic model for availability analysis of service function chains using rejuvenation and live migration | |
CN111757333B (zh) | 用于显示优化的网络规划的特征的多层交互式用户接口 | |
CN106899475A (zh) | 一种整合隧道资源的方法、装置以及处理报文的方法 | |
CN105591780B (zh) | 集群监测方法和设备 | |
JP6754338B2 (ja) | 障害解析支援装置、障害解析支援方法および障害解析支援プログラム | |
WO2024004029A1 (ja) | サーバのログ取得操作の自動化 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180605 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180731 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181026 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6427058 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |