本発明の例示的な実施形態について説明する。本発明の実施形態において、ネットワーク管理装置は、複数段に接続された複数の通信装置を含むネットワークであって、対向する2つの前記通信装置間の複数の回線を束ねたLAGを含むネットワークに対して、広義の区間を含めてサイレント故障の区間の有無の判定を行い、つづいて故障部位の判定を行う。
図2は、本発明の実施形態を説明する図である。図2(A)を参照すると、ネットワーク管理装置10は、多段(図2(A)では3段)に接続された通信装置1−4で構成されるネットワークを管理する。図2(A)では、ネットワーク管理装置10は最前段の通信装置1に接続されている。対向する通信装置間の区間において、複数の回線(図2(A)では2本)を束ねたLAGで接続される区間を少なくとも1つ含む。図2(A)では、対向する通信装置間の区間は全てLAGで接続されているが、対向する通信装置間の全ての区間がLAGである必要はないことは勿論である。なお、多段に接続された通信装置の配置に関して、ネットワーク管理装置10側に近い方の通信装置を前段、ターゲット端末側の通信装置を後段という。図2(A)には、ネットワーク管理装置10は、最前段の通信装置1に通信接続されているが、通信装置1上に実装し、ネットワーク監視時等に、ネットワーク管理装置10を機能させるようにしてもよい。
図2(A)において、各区間のLAGのメンバーポートは、通信装置内の同一のNIC(Network Interface Card)の複数のポートからなる。なお、通信装置1において、NIC1とは別のNICを備え、該別のNICが、通信装置2とは別の2段目の通信装置に接続される構成としてもよいが、図2(A)では、簡単のため、省略されている。
ネットワーク管理装置10は、ネットワークのエッジの通信装置(例えばエッジスイッチ)3、4にそれぞれ接続されるターゲット端末A、Bのうち、例えばターゲット端末Aを宛先として監視用のフレームのヘッダの宛先MAC(Media Access Control)アドレス情報欄を、ターゲット端末AのMACアドレスとし、該ヘッダの送信元MACアドレス欄に、予め定められた所定範囲(例えばネットワークにおけるLAGメンバーポート数の最大数以上)で値を連続的に掃引した仮想送信元MACアドレス情報を設定した複数のフレームを生成して送信する。同様に、ターゲット端末Bを宛先として、監視用のフレームのヘッダの宛先MACアドレス情報欄をターゲット端末BのMACアドレスとし、該ヘッダの送信元MACアドレス欄に、予め定められた所定範囲(例えばネットワークにおけるLAGメンバーポート数の最大数以上)で値を連続的に掃引した仮想送信元MACアドレス情報を設定した複数のフレームを生成して送信する。ネットワーク管理装置10は、複数のターゲット端末A、Bからの応答フレームの有無と、区間の故障判定条件に基づき、故障区間を判定する。応答フレームは、監視用のフレームを受信したターゲット端末A又はBにおいて作成され、フレームヘッダの宛先MACアドレス情報を、監視用のフレームの送信元情報(仮想送信元MACアドレス)とし、送信元MACアドレス情報を、該ターゲット端末のMACアドレスとし、必要に応じて、応答フレームである識別コードが設定される。
特に制限されないが、図2(A)のネットワークは、例えばEoE(Ethernet Over Ethernet)網であってもよい。EoE網では、エッジスイッチ(エッジルータ)にEoE網向けにユニークな代表EoE MACアドレスが一つ定義される。エッジスイッチは例えばPEルータ(Provider Edge router)等であってもよい。EoE網の入口のエッジスイッチでは、IEEE802.1Q網側のアクセスポートの先にある送信元から受け取ったイーサネットフレームをEoEヘッダでカプセル化(encapsulate)して、送信元として代表EoE MACアドレスを付与して宛先(EoE網の出口に位置するエッジスイッチのEoE MACアドレス)に転送する。EoE網内のスイッチはEoE MACアドレスだけを学習すればよく、中継スイッチやコアスイッチで学習すべきMACエントリー数を削減する。
EoEヘッダは、図13に例示するように、
・EoE DA(Destination Address)(宛先EoE MACアドレス):網の出口のエッジスイッチのEoE MACアドレス、
・EoE SA(Source Address)(送信元EoE MACアドレス):網の入口のエッジスイッチのEoEMACアドレス、
・TAG(VID(VLAN ID))、
・TTL(Time To Live)(ルータ又はスイッチを通った回数等に対応)
等を含む。入り口のエッジスイッチはカプセル化したイーサネットフレームを中継スイッチやコアスイッチを介してEoEヘッダのEoE DAであるエッジスイッチに転送する。転送先のエッジスイッチでは付加されたEoEヘッダを外し(非カプセル化(decapsulate))、宛先の端末等に転送する。
図2(B)は、図2(A)のネットワークにおける区間の故障判定条件の一例を説明する図である。図2(B)に示すように、ネットワーク管理装置10では、ターゲット端末A、Bの各々に宛てて複数の監視用のフレーム(例えばEOE PINGフレーム)を送信したが、ターゲット端末A、Bからの応答フレームが1つでも受信されなかった場合、区間1をサイレント故障区間と判定する。
ネットワーク管理装置10は、ターゲット端末A、Bの各々に宛てて送信した複数の監視用のフレームに対して、ターゲット端末Aからの応答フレームが1つでも受信されず、ターゲット端末Bから複数の監視用にフレームに対する全ての応答フレームが受信された場合、区間2をサイレント故障区間と判定する。
ネットワーク管理装置10は、ターゲット端末Bからの応答フレームが1つでも受信されず、ターゲット端末Aから複数の監視用にフレームに対する全ての応答フレームが受信された場合、区間3をサイレント故障区間と判定する。
上記故障区間の判定では、EOE網の例について説明したが、図2(A)のネットワークが、IEEE802.1Qである場合には、上記故障区間の判定は、監視対象のLAGメンバーポートがダウン(Down)MEP(Maintenance End Point)の場合に対応する。MEP(Maintenance End Point)にはサービス方向(アップ(Up)MEP/ダウン(Down)MEP)がある。ダウンMEPは、回線側を監視対象とするMEPであり対象ポートの装置外部方向で監視フレームを送受信する。一方、アップMEPは、リレー側(装置の内側)を監視対象とするMEPであり、対象ポートの装置内部方向で監視フレームを送受信する。図3(A)は、2つのダウンMEP(ネットワーク管理装置10のポートと通信装置2の回線側のポートであるダウンMEP)で挟まれる範囲をモニタ領域とし、図3(B)では、ダウンMEPとアップMEPで挟まれる範囲をモニタ領域とする構成を模式的に表している。
図2(A)のネットワークがIEEE802.1Qの場合において、図3(A)のように、ネットワーク管理装置10は、通信装置2の監視対象のLAGメンバーポートに割り当てられたダウンMEPの各MACアドレスを、ヘッダの宛先MACアドレスに設定し、該ヘッダの送信元MACアドレス欄に、予め定められた所定範囲で値を連続的に掃引した仮想送信元MACアドレス情報を設定した複数の監視用のフレームを生成して送信する。
各区間の故障判定については、各区間でのサイレント故障、つまり光モジュール対光モジュールの区間におけるサイレント故障であれば、図2を参照して説明した方法により、サイレント故障の区間の特定が可能となる。しかし、図2を参照して説明した故障区間の判定において、通信装置のLAGのメンバーポートに複数のNIC(Network Interface Card)のポートを含む場合に、実際に故障の発生した区間を、故障区間として判定しない場合が生じる。
光モジュールよりも通信装置側(NIC等における内部バスエラー等)のサイレント故障は、区間(狭義の区間)のサイレント故障ではない。本実施形態では、通信装置内部でのサイレント故障を広義の区間と確度で出力する。本実施形態では、区間、及び通信装置内部のサイレント故障の判定結果として、区間としての故障部位候補とその確度(あるいは、一致度、精度ともいう)を出力する。
図4(A)は、通信装置間の区間の回線を束ねたLAGが少なくとも一方の通信装置内の複数のNICの各々の少なくとも1つのポートをメンバーポートとして含む場合を説明する図である。図4(A)において、多段(複数段)に接続された通信装置1−4は、図2(A)と同一であり、区間1のLAG構成、通信装置3とターゲット端末Aの接続、通信装置4とターゲット端末Bの接続は図2(A)と同一である。
図4(A)を参照すると、例えば、通信装置2と通信装置3の間の区間2のLAGは、通信装置2の2つの異なるNIC3とNIC4のそれぞれのポートをLAGメンバーポートとして有する。また、通信装置2と通信装置4の間の区間3のLAGは通信装置2の2つの異なるNIC3とNIC4のそれぞれのポートをLAGメンバーポートとして有する。
ネットワーク管理装置10は、ネットワークのエッジに位置する通信装置(エッジスイッチ)に接続されるターゲット端末Aを宛先として、例えば監視用のフレームのヘッダの宛先MACアドレス情報欄をターゲット端末AのMACアドレスとし、送信元MACアドレス欄に、値を連続的に掃引した仮想送信元MACアドレス情報を設定した複数のフレームを生成して送信する。なお、図3(A)では、簡単のため、1つの通信装置(エッジスイッチ)3(4)に接続されるターゲット端末を1つとしているが、複数のターゲット端末が接続される構成としてもよいことは勿論である。
図4(A)のネットワーク構成において、各通信装置1−4のNICの故障(ポート故障や装置内部故障)と、複数のターゲット端末A、Bからの応答フレームの受信の有無のパタンとの関係の一例は、図4(B)のようなものとなる(○、×はそれぞれ応答フレームの受信の有り、無を表す)。
区間1を構成するNIC1又はNIC2のLAGメンバーポートがサイレント故障の場合、ターゲット端末A、Bからの応答フレームはネットワーク管理装置10で受信されない。
区間2のLAGにおいて、NIC3のLAGメンバーポートが故障(リンクダウン)の場合、例えば、故障したリンクで伝送されていたトラフィックを残りのポート(例えばNIC4のポート)に自動で切り替えて通信を継続することができるため、複数のターゲット端末A、Bからの応答フレームはネットワーク管理装置10で受信可能とされる。例えばスタティック(STATIC)LAGでは、リンクのアップダウンに伴う光レベルの変化を検出する事によって動的、自動的にリンクの再構成が行われる。LAGの回線(物理回線)の障害等により、LAG内の使用可能な回線の中から通信に使用する回線を再度決定し、該回線を使用して通信を再開する。この処理により、LAG内の特定の回線が使用できなくなっても、LAGの他の使用可能な回線を使用し、継続して通信を行うことができる。これをLAGの縮退という。
しかし、区間2のLAGにおいて、NIC3のポートがサイレント故障の場合、残りのポートへの切り替えは行われない。このため、ターゲット端末Aからの応答フレームは、NIC3のポートで受信されず、その結果、ネットワーク管理装置10まで戻らない。区間3のLAGにおいても、NIC3のポートをLAGメンバーポートとして含み、このポートがサイレント故障の場合、ターゲット端末Bからの応答フレームは、NIC3の当該ポートで受信されず、その結果、ネットワーク管理装置10まで戻らない。NIC3の装置内部の故障(サイレント故障)の場合、複数ポートが故障となる場合があり、ターゲット端末A、Bからの応答フレームはネットワーク管理装置10で受信されない場合がある。
区間3のLAGにおいて、NIC4のポートがサイレント故障の場合、故障したリンクで伝送されていたトラフィックを残りのポート(例えばNIC3のポート)に切り替えて通信を継続することができるため、ターゲット端末A、Bからの応答フレームはネットワーク管理装置10で受信可能とされる。しかし、区間3のLAGにおいて、NIC4のポートがサイレント故障の場合、残りのポートへの切り替えは行われない。このため、ターゲット端末Bからの応答フレームは、NIC4のポートで受信されず、その結果、ネットワーク管理装置10まで戻らない。区間2のLAGにおいても、NIC4のポートをLAGメンバーポートとして含み、このポートがサイレント故障の場合、ターゲット端末Aからの応答フレームはNIC4の当該ポートで受信されず、その結果、ネットワーク管理装置10まで戻らない。NIC4の装置内部の故障(サイレント故障)の場合、複数ポートが故障となる場合があり、ターゲット端末A、Bからの応答フレームはネットワーク管理装置10で受信されない場合がある。
NIC5がサイレント故障の場合、ターゲット端末Aからの応答フレームはネットワーク管理装置10で受信されない。同様に、NIC6がサイレント故障の場合、ターゲット端末Bからの応答フレームはネットワーク管理装置10で受信されない。
ネットワーク管理装置10では、複数のターゲット端末A、Bからの応答フレームの有無と、区間の故障判定条件に基づき、故障区間の判定を判定する。図4(C)は、故障判定条件の一例を示す図である。図4(C)は、図4(A)のネットワークのトポロジー(多段の通信装置の構成)に基づいており、図2(B)と同一である(すなわち、通信装置間の区間の回線を束ねたLAGが少なくとも一方の通信装置内の複数のNICの各々の少なくとも1つのポートをメンバーポートとして含むネットワーク構成は反映されていない)。
ネットワーク管理装置10において、ターゲット端末Aから応答フレームを1つでも受信せず、且つ、ターゲット端末Bから応答フレームを1つでも受信しなかった場合、区間1の故障と判定する。ターゲット端末Aからの応答フレームが1つでも受信無しであり、ターゲット端末Bからの全ての応答フレームの受信有りの場合、区間2の故障区間と判定する。ターゲット端末Bからの応答フレームが1つでも受信無しでありターゲット端末Aからの全ての応答フレームの受信有りの場合、区間3の故障区間と判定する。
しかしながら、ネットワーク管理装置10がターゲット端末A、Bの各々から1つでも応答フレームを受信しなかった場合、区間1は正常(サイレント故障無し)であり、区間2、区間3の一方又は両方のサイレント故障(あるいは、例えば通信装置2のNIC3、NIC4の装置内部のサイレント故障)である可能性もあり得る。
区間2と区間3の故障判定条件の応答フレーム受信無しの組み合わせパタンは、区間1の応答フレーム受信無しの組み合わせパタンとは相違している。区間2、区間3において、故障と判定される応答フレーム受信無しの組み合わせが、区間1が故障と判定される応答フレーム受信無しの組み合わせパタンと一致する割合(確度)は、50%である。すなわち、図4(C)において、区間2、区間3の各々の×印は、区間1の×印の数の半分である。
ネットワーク管理装置10では、ある区間において、該区間が故障と判定される応答フレーム受信無しの組み合わせパタンが、該区間の前段側(ネットワーク管理装置側)の区間において該区間が故障と判定される応答フレーム受信無しの組み合わせパタンとの一致度(確度)が100%未満(0%より大:例えば50%)であっても、これを故障候補として扱い、監視用のフレームを用いて、故障候補の区間、及び該区間に接続する通信装置のNICのサイレント故障の部位の特定を試みる。
ネットワーク管理装置10は、例えば区間1の故障判定において、図5(A)に模式的に示すように、EOE網の場合、監視用のフレーム(例えばEOE PINGフレーム)のヘッダの宛先MACアドレス情報欄を、通信装置2のEOE MACアドレスとし、該ヘッダの送信元MACアドレス欄に、所定範囲(例えば、便宜的に、ネットワークにおけるLAGメンバーポート数の最大数以上、あるいは例えば当該区間のLAGメンバーポート数以上)で値を連続的に掃引した仮想送信元MACアドレス情報を設定した複数のフレーム(EOE PINGフレーム)を生成して送信する。そして、ネットワーク管理装置10において、通信装置2から監視用のフレームに対する応答フレームが1つでも受信されない場合、区間1を故障区間とする。EOE PINGフレームの応答フレームは、ポート情報(番号)が付与されてネットワーク管理装置10に返送されるため、ネットワーク管理装置10では応答のないポート情報(番号)を特定することができる。また、網内をMAC振分ルールとせずに、その他の振分ルールとしてVLAN振分(VLAN ID(VID)による振り分け)を用いている場合には、LAGメンバーポート数以上の数の連続的な値で掃引する送信元情報は、MACアドレスの代わりに、VID、あるいは振分ルールが混在している場合を想定してLAGメンバーポート数の最大数以上でMACアドレスとVIDの双方の送信元情報を連続的な値で掃引する方法を併用するようにしてもよい。
IEEE802.1Q網の場合、図5(A)に模式的に示すように、ネットワーク管理装置10は、ヘッダの宛先アドレス情報欄に通信装置2のNIC2のLAGグループあるいはメンバーポートの各々に割り当てられたダウンMEPの各MACアドレスを設定し、該ヘッダの送信元MACアドレス欄に、所定範囲(例えばLAGメンバーポート数の最大数以上)で値を連続的に掃引した仮想送信元MACアドレス情報を設定した複数のフレーム(LBMフレーム)を生成して送信する。ネットワーク管理装置10は、各ポートについて、応答フレームが1つでも受信されない場合、該ポートをサイレント故障と判定する。また、網内をMAC振分ルールとせずに、その他の振分ルールとして、VLAN振分を用いている場合には、LAGメンバーポート数以上の数の連続的な値で掃引する送信元情報は、MACアドレスの代わりにVID、あるいは振分ルールが混在している場合を想定してLAGメンバーポート数の最大数以上でMACアドレスとVIDの双方の送信元情報を連続的な値で掃引する方法を併用するようにしてもよい。
図5(B)は、広義の区間判定と故障部位判定をEOE網、IEEE802.1Q網について表形式にまとめて例示したものである。上記したように、NICの装置故障等を含む広義区間判定では、送信元情報(MACやVIDなど)を所定範囲で掃引したフレームをネットワーク管理装置10から送信する。ただし、EoE網、IEEE802.1Q網のアップMEP、ダウンMEPでは、フレームヘッダの宛先や判定方法が異なる。また、故障部位判定では、EoE網のスイッチ等とIEEE802.1Q網のダウンMEPに関して、上記広義区間判定で送信したフレームの応答フレームを分析することで、ポートやNICの装置故障等、故障部位の判定が行われる(ただし、IEEE802.1Q網のアップMEP、あるいはLAGグループに代表的に設定されたダウンMEPでは、応答フレームの分析だけでは故障部位の判定は行えない)。またLAGグループの代表ダウンMEPを宛先とする場合はポートの特定が出来ないが、区間判定が行われる。
ネットワーク管理装置10において、通信装置2から、監視用のフレームに対する応答フレームが全て受信された場合、区間1は正常区間(サイレント故障無し)と判定される。
ネットワーク管理装置10は、該区間1とネットワーク経路上で接続し該区間1よりも後段の区間2と区間3について、サイレント故障の有無を判定する。
区間1について説明したように、EoE網の場合、ネットワーク管理装置10は、監視用のフレームとして、フレームヘッダの送信元MACアドレス情報欄を、例えばネットワークで使用されるLAGメンバーポート数の最大数以上で値を連続掃引した仮想送信元MACアドレスに設定した複数のフレーム(例えばEOE PINGフレーム)を、通信装置3と通信装置4に宛てて送信させ、通信装置3と通信装置4からの応答フレームの受信の有無に基づき、区間2と区間3のサイレント故障の判定を行うようにしてもよい。ネットワーク管理装置10は、応答フレーム(EoE PINGリプライ)に含まれるポートIDが、応答フレームには無いことで、サイレント故障が発生しているポートを自動的に又は半自動的に特定してもよい。また、網内をMAC振分ルールとせずに、その他の振分ルールとしてVLAN振分を用いている場合は、LAGメンバーポート数以上の数の連続的な値で掃引する送信元情報は、MACアドレスの代わりにVID、あるいは振分ルールが混在している場合を想定してLAGメンバーポート数の最大数以上でMACアドレスとVIDの双方の送信元情報を連続的な値で掃引する方法を併用するようにしてもよい。
IEEE802.1Q網の場合、ネットワーク管理装置10は、ヘッダの宛先アドレス情報欄に通信装置3のNIC5のLAGメンバーポートの各々に割り当てられたダウンMEPの各MACアドレスを設定し、該ヘッダの送信元MACアドレス欄に、所定範囲(例えばLAGメンバーポート数の最大数以上)で値を連続的に掃引した仮想送信元MACアドレス情報を設定した複数のフレーム(LBMフレーム)を生成して送信する。図14に、LBMフレーム構成を示す。ネットワーク管理装置10は、各ポートについて、応答フレームが1つでも受信されない場合、該ポートをサイレント故障と判定する。また、ネットワーク管理装置10は、ヘッダの宛先アドレス情報欄に通信装置4のNIC6のLAGメンバーポートの各々に割り当てられたダウンMEPの各MACアドレスを設定し、該ヘッダの送信元MACアドレス欄に値を連続的に掃引した仮想送信元MACアドレス情報を設定した複数のフレーム(LBMフレーム)を生成して送信する。ネットワーク管理装置10は、各ポートについて、応答フレームが1つでも受信されない場合、該ポートをサイレント故障と判定する。また、網内をMAC振分ルールとせずに、その他の振分ルールとしてVLAN振分を用いている場合は、LAGメンバーポート数以上の数の連続的な値で掃引する送信元情報はMACアドレスの代わりにVIDを用いてもよい。
ネットワーク管理装置10は、例えば正常区間と判定された区間1に接続する通信装置1から、区間2に接続する通信装置3宛てに、EOE(Ethernet Over Ethernet) PINGフレームを送信させ、通信装置3からの応答フレームの受信の有無、及び、該応答フレームに含まれるポート情報に基づき、区間2のサイレント故障及び該ポートの接続性をチェックするようにしてもよい。
図6は、本発明の一実施形態のネットワーク管理装置10の構成の一例を示す図である。図6を参照すると、管理モジュール18は、故障判定制御部121を備えた監視制御部12と、仮想送信元MACアドレス設定部131を備えたフレーム作成部13と、フレーム送信部14と、応答フレーム受信判定部15と、故障判定条件を記憶した記憶部16を備えている。
イーサネットカード等のネットワークインタフェースカード(Network Interface Card:NIC)11のトランスミッタ111とレシーバ112(トランスミッタ111とレシーバ112をあわせてトランスミッタといい光モジュールで構成される)は、伝送メディアとして、例えばUTP(Unshielded Twisted Pair)ケーブル(例えばカテゴリ3(10BASE−Tのイーサネット規格で10Mbps(Megabit per second)、100BASE−T2/T4の規格で100Mbps)乃至カテゴリ6(1000BASE−T、1000BASE−TXの規格で1Gbps(Giga bit per second)))、STP(Shielded Twisted Pair)ケーブル、又は光ファイバ、あるいは同軸ケーブル(100base)等で有線接続する構成としてもよい。NIC11は、全二重方式のポイント・ツー・ポイント(point to point)イーサネットリンクを構成するようにしてもよい。
監視用のフレームの一例としてのイーサネットOAMフレームは、例えば、論理チャネル(制御チャネル、トラフィックチャネル)と伝送チャネルを繋ぐ機能を実行するレイヤ2(MAC(Media Access Control)サブレイヤ)で受信処理される。PINGを機能の一部として含むICMP(Internet Control Message Protocol)はレイヤ3で受信処理される。
イーサネットOAMの保守・管理に関する処理を行う管理モジュール18は、NIC11のデバイスドライバ等に、L2(データリンク層)処理モジュール(サブレイヤ)として実装するようにしてもよい。なお、管理モジュール18は、機能(表示機能等)の一部を、NIC11のデバイスドライバの管理用のアプリケーションとして実装するようにしてもよい。
フレーム作成部13は、フレームヘッダに宛先MACアドレス、送信元MACアドレスやタイプ、オペコード、MEGレベル等を設定した監視用のフレーム(例えばLBMフレーム、あるいは、EOE PINGフレーム)を作成する。
仮想送信元MACアドレス設定部131は、例えばベンダーに割り当てられたMACアドレス(6オクテット)の下位3オクテットのうち(上位3オクテットはOUI(Organizationally Unique Identifier))、他のネットワーク機器のMACアドレスと衝突しないMACアドレスの中から(NIC11のMACアドレスとも異なる)、予め用意されたMACアドレスのうち予め定められた所定範囲(例えばネットワークで使用されるLAGメンバーポート数の最大数以上)で連続する値を仮想送信元MACアドレスとして、複数の監視用のフレームの送信元MACアドレス欄に設定する。
あるいは、仮想送信元MACアドレス設定部131は、ベンダーに割り当てられたMACアドレスの下位3オクテットのうち他のネットワーク機器のMACアドレスと衝突しないMACアドレスの中から(NIC11のMACアドレスとも異なる)、予め用意されたMACアドレスを記憶部に保持しておき、予め定められた所定範囲(例えばネットワークで使用されるLAGメンバーポート数の最大数以上)で連続する値を仮想送信元MACアドレスとして選択するようにしてもよい。
また、網内をMAC振分ルールとせずに、その他の振分ルールとしてVLAN振分を用いている場合には、LAGメンバーポート数以上の数の連続的な値で掃引する送信元情報は、MACアドレスの代わりにVIDに限定しても良い。あるいは、振分ルールが混在しているネットワークである場合を想定してLAGメンバーポート数の最大数以上でMACアドレスとVIDの双方の送信元情報を連続的な値で掃引する方法を併用するようにしてもよい。
フレーム送信部14は、送信元MACアドレス欄に仮想送信元MACアドレスが設定された監視用のフレーム(例えば、LBM等のOAMフレーム又はPINGフレーム)を、例えばプロミスキャス・モード(promiscuous mode)に設定されたNIC11に送出しトランスミッタ111を介してネットワークに送信する。フレーム送信部14は、送信した監視用のフレームに対して送信時刻情報(タイムスタンプ)を、送信ID(Transmission ID)と対応させて、不図示の記憶部に保持するようにしてもよい。なお、フレーム送信部14は、送信IDに対応させて、監視用のフレームの宛先MACアドレス、仮想送信元MACアドレス、監視用のフレームの送信時刻を対応させて、不図示の記憶部(テーブル)で管理するようにしてもよい。後述する応答フレーム受信判定部15において、受信したフレームが、正常な監視用フレームの応答フレームであるかの確認処理の効率化、容易化に資する。
NIC11とそのデバイスドライバは、イーサネットOAMモード(ループバックモード)に設定されている場合、レシーバ112で受信したフレームを応答フレーム受信判定部15に渡す。
NIC11とそのデバイスドライバでは、例えば以下のような制御が行われる。例えば監視用のフレームによる監視モード時以外(通常モード)には、NIC11でフレームを受信すると、そのヘッダの宛先MACアドレスが、該NIC11の固有のMACアドレス(またはブロードキャストアドレス)と一致するか確認し、MACアドレスが一致しない場合、当該フレームを廃棄する。
監視用のフレームによる監視モード時には、NIC11等へのモード設定に基づき、NIC11とそのデバイスドライバは、受信フレームの宛先MACアドレスとNIC11のMACアドレスとが一致するか比較判定せずに、レシーバ112で受信した全てのフレームを応答フレーム受信判定部15に渡すようにしてもよい。
監視制御部12は、監視用のフレームによるループバックモード時に、NIC11とそのデバイスドライバをプロミスキャス・モード (promiscuous mode)に設定し、受信した全てのフレームを応答フレーム受信判定部15に渡すようにしてもよい。
本実施形態において、監視用のフレームに対する応答フレーム(例えばLBRフレーム又は、Echo Reply)が受信された時に、該LBRフレームの宛先MACアドレスは、NIC11の固有のMACアドレスと異なる仮想送信元MACアドレスに設定されており、NIC11のMACアドレスとは一致しないが、廃棄されず、そのまま、応答フレーム受信判定部15に渡され、応答フレーム受信判定部15でフレームヘッダの内容が解析される。
すなわち、応答フレーム受信判定部15は、例えば、
・受け取ったフレームの宛先MACアドレスが送信済のLBMフレームの送信元に設定した仮想送信元MACアドレスである、
・送信元MACアドレスが送信済のLBMフレームの宛先に設定したLAGメンバーポートのMACアドレスである、
・OAM Ether−type(2オクテット)が、“0x8902”である、
・オペコードがLBR(=4)、
・受け取ったフレームがLBRフレームであり、LBMフレームの送信時刻(記憶部に保持されている)から予め定められた時間が経過する前に受信している、
場合に、LBRフレームの正常な受信であると判定する。応答フレーム受信判定部15は、さらにOAMフレームのMEGレベルを判別してもよい。
応答フレーム受信判定部15は、前述したフレーム送信部14によるLBMフレームの宛先MACアドレス、仮想送信元MACアドレス、LBMフレームの送信時刻を記憶管理する記憶部(テーブル)を参照して、今回受信したLBRフレームの受信時刻と、LBMフレームの送信時刻との差分から、予め定められた時間が経過しているか否かを判断する構成としてもよい。
応答フレーム受信判定部15は、上記要件に合致しないフレームは、LBRフレームでないか、LBRフレームの正常受信ではないと判定して、廃棄する。
なお、監視用のフレームによる監視モード時に、NIC11とそのデバイスドライバは、フレームヘッダの宛先MACアドレス欄と仮想送信元MACアドレスとを比較し、一致する受信フレームだけを選択して、応答フレーム受信判定部15に渡し、宛先MACアドレス欄が仮想送信元MACアドレス以外の受信フレームを全て廃棄する構成としてもよい。この場合、応答フレーム受信判定部15では、受け取ったフレームの宛先MACアドレスが送信済の監視用のフレームの送信元に設定した仮想送信元MACアドレスと一致するか否かの判定処理は省略される。また、全ての受信フレームを応答フレーム受信判定部15に供給する場合と比べて、応答フレーム受信判定部15の処理負荷が軽減する。
監視制御部12は、監視用のフレームを送信した後、予め定められた所定の時間以内に、その応答フレームを検出したことを応答フレーム受信判定部15から通知されない場合、接続の切断(“loss of connectivity”)と判断する。すなわち、監視制御部12は、MACアドレスに基づき計算されるハッシュ値を元にしたLAGポートの振り分けにより、LBMフレームの宛先として設定したLAGメンバーポートには、当該LBMフレームが到達していないものと判断して、別の仮想送信元MACアドレスを、送信元MACアドレスとした監視用のフレームの送信を指示するようにしてもよい。あるいは、異なる値に設定された仮想送信元MACアドレスを送信元MACアドレスとした複数の監視用のフレームを連続送信又は同時送信するようにしてもよい。
応答フレーム受信判定部15でLBRフレームの受信を検出すると、応答フレーム受信判定部15はその旨を監視制御部12に通知する。
ネットワーク管理装置10における記憶部16の故障判定条件は、図4(C)に示した故障区間判定条件と同様、ネットワークにおける通信装置(スイッチ)間の各区間について、区間と、該区間が故障の場合の複数のターゲット端末の対応(例えば応答フレームの受信無)を含む。
この対応において、各区間に対応する複数のターゲット端末は、ターゲット端末宛に複数の監視用のフレームを送信し前記ターゲット端末からの応答フレームの受信の有無が前記区間のサイレント故障の判定に用いられるターゲット端末を示している。なお、サイレント故障は、スイッチ(通信装置)において、検出されるリンクダウン等以外の故障をいう。リンクアグリゲーショングループ(LAG)内に予め待機用(スタンバイ)の回線を用意しておき、運用中の回線が障害となったときに待機用の回線と切り替えることによって、リンクアグリゲーショングループとして運用する回線数を維持するスタンバイ機能、あるいは、回線本数を縮減させて通信を継続させる機能がある。しかし、サイレント故障の回線は、回線障害と認識されない場合がある、この場合、回線の切り替え等は行われず、サイレント故障の回線はアクティブなLAGメンバーポートとしてそのまま留まる。
ネットワーク管理装置10において、故障判定制御部121は、応答フレーム受信判定部15からの応答フレーム受信判定結果に基づき、複数のターゲット端末に関する前記応答フレームの有無の組み合わせパタンが故障判定条件に一致する第1の区間(例えば図4(A)の区間1)が検出された場合、該区間1の後段に位置する区間(図4(A)の区間2、区間3)であって、応答フレームの受信無しの組み合わせパタンの、第1の区間の応答フレーム受信無しの組み合わせパタンとの一致度(確度)が100%未満(0%より大:例えば50%)の第2の区間であっても、これを故障候補として扱う。
そして、ネットワーク管理装置10の故障判定制御部121は、該第2の区間に接続する少なくとも1つの通信装置(図4(A)の通信装置3、通信装置4)宛てに第2の区間を介して監視用のフレーム(掃引するヘッダの送信元情報として、例えば送信元MACアドレス情報欄を所定範囲の値で掃引した仮想MACアドレスに設定された複数の監視フレーム)を送信し、該通信装置(図4(A)の通信装置3、通信装置4)からの応答フレームの受信の有無に基づき、第2の区間のサイレント故障の有無、又は通信装置(図4(A)の通信装置3、通信装置4)の装置内部の故障の有無を判定する。
例えば、故障判定制御部121は、ターゲット端末A宛てに送信した複数の監視用のフレームに対して応答フレームが1つでも受信されず、ターゲット端末B宛てに送信した複数の監視用のフレームに対して応答フレームが1つでも受信されない場合、故障区間と判定された区間1を間に挟んで対向接続される通信装置1、2に関して、例えば通信装置2に対して監視用のフレームを送信させる。ネットワーク管理装置10は、該監視用のフレーム(掃引するヘッダの送信元情報として、例えば送信元MACアドレス情報欄を所定範囲の値で掃引した仮想MACアドレスに設定された複数の監視フレーム(EOE PINGフレーム又はLBMフレーム))を生成して、
通信装置2宛てに、又は、
通信装置2のNIC2のLAGメンバーポート(ダウンMEP)、あるいはLAGグループ(ダウンMEP)、あるいは、通信装置2のNIC2以外のNIC(例えばNIC3やNIC4に設定されたアップMEPのMACアドレス宛に、
生成した複数の監視用のフレームを送信するようにしてもよい。あるいは、ネットワーク管理装置10は、単にネットワーク機器の接続情報から、被疑とされる区間の前後を含む装置のMEPに対して、上記複数の監視フレームを送信するようにしてもよいことは言うまでもない。あるいは、ネットワーク管理装置10の故障判定制御部121は、通信装置1から通信装置2に対して監視用のフレームを送信させるためのコマンドを生成して該コマンドを通信装置1に送信し、該コマンドを通信装置1に実行させるようにしてもよい。この場合、通信装置1において、通信装置2から監視用のフレームに対する応答がない場合、この通知を受けて、故障判定制御部121は、区間1を故障区間とする。
一方、ネットワーク管理装置10において通信装置2から監視用のフレームに対する全ての応答を受信した場合、区間1より後段の区間2、3について、通信装置2とは区間2、3を間に挟んで対向配置される通信装置3、4(又は、通信装置3、4のNIC5、NIC6のLAGメンバーポート(ダウンMEP)のMACアドレス)の各々に対して、あるいはLAGグループ(ダウンMEP)、あるいはNIC5やNIC6以外に設定された通信装置3、4のアップMEPに対して、掃引するヘッダの送信元情報として、例えば送信元フレームヘッダの送信元MACアドレス情報欄に値をそれぞれ異ならせた仮想送信元MACアドレス情報を設定した複数の監視用のフレーム(PINGフレーム、又はLBMフレーム)を生成して通信装置1から送信する。故障判定制御部121は、通信装置3、通信装置4(又は、通信装置3、通信装置4のNIC5、NIC6のポート)から、該監視用のフレームに対する応答フレームが1つでも受信されない場合、この通知を受けて、区間3又は区間4をサイレント故障区間と判定する。また、ネットワーク管理装置10において、NIC5やNIC6以外に設定されたアップMEPから、該監視用のフレームに対する応答フレームが1つでも受信されない場合、この通知を受けて、ネットワーク管理装置10から通信装置3と通信装置4のNIC5、NIC6を通り、各アップMEPが設定されたNICまでの内部バスを含めた広義の区間のサイレント故障と判定するようにしてもよい。
なお、変形例として、ネットワーク管理装置10の故障判定制御部121は、通信装置1から通信装置3、4に対して監視用のフレームを送信させるためのコマンドを自動生成して通信装置1に送信し、該コマンドを通信装置1に実行させるようにしてもよい。故障判定制御部121は、通信装置1において、通信装置3又は通信装置4から、該監視用のフレームに対する応答フレームが受信されない場合、この通知を受けて、区間3又は区間4をサイレント故障区間と判定する。
故障判定制御部121は、前記監視用のフレームとして、通信装置3(又は通信装置4)宛てに、掃引するヘッダの送信元情報として、例えば送信元MACアドレス情報欄を、LAGメンバーポート数以上、あるいは便宜的にネットワーク内のLAGの最大数以上で連続掃引した仮想送信元MACアドレスに設定した複数のフレームを送信させるようにしてもよい。故障判定制御部121は、通信装置1から通信装置3(又は通信装置4)宛てに、EOE PINGフレームを送信させるようにしてもよい。
また、網内をMAC振分ルールとせずに、振分ルールとして、VLAN振分のみを用いている場合は、LAGメンバーポート数以上の数の連続的な値で掃引する送信元情報は、MACアドレスの代わりにVIDに限定しても良い。あるいは振分ルールが混在しているネットワークである場合を想定してLAGメンバーポート数の最大数以上でMACアドレスとVIDの双方の送信元情報を連続的な値で掃引する方法を併用するようにしてもよい。
故障判定制御部121は、通信装置1から、通信装置3(又は通信装置4)のポート宛(該ポートのMACアドレスを宛先MACアドレス)に、Ether OAM LBMフレームを送信させるようにしてもよい。あるいは、故障判定制御部121は、図4(A)の通信装置2から、前記監視用のフレームとして、通信装置3(又は通信装置4)宛てに、送信し、該監視用のフレームに対する応答フレームが受信されない場合、この通知を受けて、区間3又は区間4をサイレント故障区間と判定するようにしてもよい。
図7は、本実施形態のネットワーク管理装置10の動作を説明する流れ図である、ネットワーク管理装置10は、ターゲット端末に宛てて、送信元MACアドレス欄を、仮想送信元MACアドレスに設定した監視用のフレームを送信する(S11)。
ネットワーク管理装置10は、ターゲット端末に宛てて送信した監視用のフレームに対する応答フレームを受信しないポートを含む区間をサイレント故障とする(S12)。
複数のターゲット端末について、前記応答フレームが受信されない組み合わせパタンが前段側の区間の故障判定条件と完全に一致しない後段側の区間について、前記前段側の区間に接続する一つの通信装置から、該後段側の区間に接続する少なくとも1つの通信装置に所定の監視用のフレームを送信させる。
そして、ネットワーク管理装置10は、該後段側の区間に接続する前記少なくとも1つの通信装置から、前段側の前記区間に接続する前記1つの通信装置への応答フレームの受信の有無に基づき、後段側の区間がサイレント故障であるか否かを判定する。前記後段側の区間に接続する少なくとも1つの通信装置のポート宛てに監視用フレームを送信するようにしてもよい。
図8は、本実施形態の一例を説明するための図である。なお、本発明は、図8等の構成例に限定されるものでないことは勿論である。ネットワーク管理装置10はゲートウェイスイッチ(GSW)に接続される。ゲートウェイスイッチ(GSW)は、コアスイッチ1(CSW1)、コアスイッチ2(CSW2)に対向接続され、コアスイッチ1(CSW1)は、エッジスイッチ1(ESW1)、エッジスイッチ2(ESW2)に対向配置され、コアスイッチ2(CSW2)は、エッジスイッチ3(ESW3)、エッジスイッチ4(ESW4)に対向配置され、エッジスイッチ1(ESW1)−エッジスイッチ4(ESW4)には、ターゲット端末A−Dが接続されている。なお、ネットワーク管理装置10をゲートウェイスイッチ(GSW)に組み込んでもよいことは勿論である。図8は、EOEネットワークを前提としているが、上記したように、IEEE802.1Q等のネットワークであってもよいことは勿論である。
区間1は、ゲートウェイスイッチ(GSW)のネットワークインタフェースカード(ラインカードともいう)NIC01、NIC02のポートと、コアスイッチ1(CSW1)のNIC1、NIC2のポートを接続する回線を束ねたLAGで構成される。区間2は、ゲートウェイスイッチ(GSW)のNIC01、NIC02のポートと、コアスイッチ2(CSW2)のNIC5、NIC6のポートを接続する回線を束ねたLAGで構成される。区間3は、コアスイッチ1(CSW1)のNIC3、NIC4のポートと、エッジスイッチ1(ESW1)のNIC9を接続する回線を束ねたLAGで構成される。区間4は、コアスイッチ1(CSW1)のNIC3、NIC4のポートと、エッジスイッチ2(ESW2)のNIC10を接続する回線を束ねたLAGで構成される。区間5は、コアスイッチ2(CSW2)のNIC7、NIC8のポートと、エッジスイッチ3(ESW3)のNIC11を接続する回線を束ねたLAGで構成される。区間6は、コアスイッチ2(CSW2)のNIC7、NIC8のポートと、エッジスイッチ4(ESW4)のNIC12を接続する回線を束ねたLAGで構成される。
図8において、区間4のLAGにおいて、コアスイッチ1(CSW1)のNIC3とエッジスイッチ2(ESW2)のNIC10間のリンクにサイレント故障が発生しているものとする。サイレント故障であることから、このリンク(物理リンク)に代えて他のリンクへのトラフィックの割り当て等は行われない。
図9(A)に、図8の各区間の故障判定条件の一例を示す。図9(A)において、列1−6は、図8の区間1−6に対応し、行A−Dは、図8のターゲット端末A−Dに対応し、区間1−6の故障と、ターゲット端末A−Dからの応答フレームの受信の有無(○は全ての応答フレームの受信有り、×は1つでも応答フレームの受信無し)との対応を表している。
図8において、ネットワーク管理装置10から、ターゲット端末A−D宛てに、監視用フレーム(宛先MACアドレスをターゲット端末のMACアドレス、送信元MACアドレスを、所定範囲(例えばネットワークで使用されるLAGメンバーポート数の最大数以上)で値を連続的に掃引した仮想送信元MACアドレスとした複数のフレーム)を送信し、これに対するターゲット端末A−Dからの応答フレームの受信有無のパタンが、図9(A)の枠71で囲んだものである場合、すなわち、ターゲット端末A、C、Dからの応答フレームが受信有り、ターゲット端末Bからの応答フレームが受信無しの場合、図9(B)に示すように、ネットワーク管理装置10の故障判定制御部121は、区間4のサイレント故障(確度100%)と判定する。この場合、NIC3の内部またはよりポート側で障害が発生しており、これを区間4のサイレント故障として検出する。
区間の故障判定では、狭義の区間でのサイレント故障、つまり光モジュール対光モジュールの区間におけるサイレント故障であれば、当該区間に対応する故障判定条件と、複数のターゲット端末からの応答フレームの受信の有無の組み合わせパタンは、原則、完全に一致する。
これに対して、広義の区間のサイレント故障(例えば光モジュールよりも装置側のサイレント故障)については、狭義の区間におけるサイレント故障ではなく、装置内部でのサイレント故障である。この場合、該区間に対応する故障判定条件と、複数のターゲット端末からの応答フレームの受信無しの組み合わせパタンが一致しない場合がある。
図10(A)は、図8の構成において、コアスイッチ1(CSW1)のNIC3の装置にサイレント故障が発生している場合を説明する図である。例えばNIC3の内部バス(不図示)等に障害(サイレント故障)が発生しているものとする。サイレント故障であるため、区間3及び区間4の各LAGにおいて、冗長リンクによるコアスイッチ1(CSW1)のNIC4へのリンクの自動割り当て等は行われない。このため、NIC3とエッジスイッチ1(ESW1)、NIC3とエッジスイッチ2(ESW2)の通信ができなくなり、ネットワーク管理装置10において、ターゲット端末A、BからNIC3を経由する応答フレームは受信されない。ターゲット端末C、Dからの全ての応答フレームはネットワーク管理装置10で受信される。
したがって、この場合、区間1は正常(故障無し)であっても、ターゲット端末A−Dからの応答フレームの受信の有無の組み合わせパタンは、図10(B)の故障判定条件の組み合わせパタン81と一致し、区間1が故障(サイレント故障)であると判定される。
しかし、これは、区間3の故障判定条件(区間3がサイレント故障の場合の応答フレームの受信の有無の組み合わせパタン)82や、区間4の故障判定条件(区間4がサイレント故障の場合の応答フレームの受信の有無の組み合わせパタン)と相違している。
図10(B)を参照すると、区間3の故障時における、ネットワーク管理装置10でのターゲット端末A−Dからの応答フレームの受信の有無の組み合わせパタン82は、応答フレームの受信無しに関して、区間1の故障時の応答フレームの受信無しのパタンと50%で照合していることがわかる。また、区間4の故障時における、ネットワーク管理装置10でのターゲット端末A−Dからの応答フレームの受信の有無の組み合わせパタン83は、応答フレームの受信無しに関して、区間1の故障時における応答フレームの受信無しのパタンと50%で照合していることがわかる。
図10(C)は、各NIC(各列)の装置故障(サイレント故障)と、ターゲット端末A−D(各行)からの応答フレームの受信の有無の組み合わせパタンを表したものである。NIC3の装置内のサイレント故障の場合、ネットワーク管理装置10において、ターゲット端末A、Bからの応答フレームは受信されない。
本実施形態では、故障判定制御部121は、通信装置に含まれるNIC自体のサイレント故障として部位特定をする場合、故障部位の特定動作に移行する。
図11は、第1候補故障部位を特定する動作を説明する図である。図11には、サイレント故障と判定された第1候補部位(応答フレームの受信無しのパタンが故障判定条件と100%一致)である区間1における故障部位を特定するための動作が模式的に示されている。
ネットワーク管理装置10は、監視用のフレーム90、91として、例えば、ヘッダの送信元MACアドレス情報欄を予め定められた所定範囲(例えばネットワークで使用されるLAGメンバーポート数の最大数以上)で値を掃引した仮想送信元MACアドレスを設定し、宛先MACアドレス情報欄を、コアスイッチ1(CSW1)を宛先MACアドレスとしたEOE PINGフレームを送信する。あるいは、ネットワーク管理装置10は、監視用のフレーム90として、例えば、ヘッダの送信元MACアドレス情報欄を予め定められた所定範囲で値を掃引した仮想送信元MACアドレスを設定し、宛先MACアドレス情報欄をNIC1、NIC2のLAGメンバーポートに割り当てられたダウンMEPの各MACアドレスとした複数のLBMフレームを送信する。LAGメンバーポートのポートMACアドレスとポート番号との対応は、例えば特許文献2に記載の方法を用いて取得するようにしてもよい。ゲートウェイスイッチ(GSW)において、監視用のフレームに対するコアスイッチ1(CSW1)からの応答フレーム(エコー応答、LBRフレーム)の受信の有無を判定するようにしてもよい。
ネットワーク管理装置10の故障判定制御部121において、監視用のフレームに対するコアスイッチ1(CSW1)からの応答フレーム(エコー応答)の受信の有無を判定する。あるいは、ネットワーク管理装置10において監視用のフレームの宛先であるNIC1、NIC2のポートからの応答フレーム(LBR)の受信の有無を判定する。
ネットワーク管理装置10の故障判定制御部121において、監視用のフレームに対する全ての応答フレームが受信できたら、ネットワーク管理装置10において区間1は正常区間と判定する。
ネットワーク管理装置10において、区間1が正常区間と判定された場合、故障判定制御部121は、応答フレームの受信無しのパタンが区間1の50%と同率の、区間1の後段に位置する区間3、4について故障部位を特定する手順を実行する。
図12(A)は、ネットワーク管理装置10による第2候補故障部位を特定する動作を説明する図である。ネットワーク管理装置10の故障判定制御部121は、エッジスイッチ1(ESW1)宛てに、監視用のフレーム92(EOE PINGフレーム)を送信する。この場合、監視用のフレームとして、ヘッダの送信元MACアドレス情報欄を所定範囲(例えばネットワークで使用されるLAGメンバーポート数の最大数以上)の値で掃引した仮想送信元MACアドレスに設定した複数のEOE PINGフレームを、エッジスイッチ1(ESW1)宛てに送信する(監視フレーム92、93)。なお、ネットワークがIEEE802.1Qの場合、PINGのかわりに、LBMフレームを、エッジスイッチのNICのLAGメンバーポートに割り当てられたダウンMEPの各MACアドレス宛てに送信する。
EOE PINGの応答フレームのヘッダには、ポート情報が設定される。ネットワーク管理装置10の故障判定制御部121において、送信したEOE PINGに対するエッジスイッチ1(ESW1)から全ての応答フレームが受信された場合、応答フレームにはポート情報(ポートID)が含まれていることから、正常なポートを判定することができる。
ネットワーク管理装置10の故障判定制御部121において、監視用のフレームに対する応答フレームが1つでも受信されない場合、区間1がすでに正常区間と判定されていることから、区間3のサイレント故障と判定する。
故障判定制御部121は、さらに、故障部位特定のため、エッジスイッチ2(ESW2)又は、エッジスイッチ2のLAGメンバーポートのMACアドレス宛てに、監視用のフレーム(EOE PINGフレーム又はLBMフレーム)を送信するようにしてもよい。NIC3装置内の故障(サイレント故障)の場合、区間4において、監視用のフレーム94は、エッジスイッチ2(ESW2)に送信されない場合がある(したがって応答フレームも受信されない)。ネットワーク管理装置10の故障判定制御部121において、NIC3を介して送信された監視用のフレーム94に対するエッジスイッチ2(ESW2)(又はエッジスイッチ2のNICの宛先ポート)からの応答フレームが受信されず、NIC4を介して送信された監視用のフレーム95に対するエッジスイッチ2(ESW2)(又はエッジスイッチ2のNICの宛先ポート)からの応答フレームが受信された場合、故障判定制御部121は、コアスイッチ1(CSW1)内のNIC3の装置内(例えば内部バスの障害)と判定するようにしてもよい。すなわち、図12に示した故障判定では、区間1が正常区間と判定された上で、監視用のフレーム92、93に対する応答フレームが受信されないため、区間3のリンクのサイレント故障と推定され、さらに、NIC3を介して送信された監視用のフレーム94に対するエッジスイッチ2(ESW2)(又はエッジスイッチ2のNICの宛先ポート)からの応答フレームが受信されない場合、NIC3の複数ポートのサイレント故障が発生していることになる。この場合、ネットワーク管理装置10の故障判定制御部121において、コアスイッチ1(CSW1)内のNIC3装置内の故障(サイレント故障)と判定してもよい。すなわち、NIC3装置内の故障が、区間1のサイレント故障として現れている。本実施形態によれば、故障判定制御部121において、このNIC3装置内の故障(サイレント故障)の候補を検出可能としている。
図12(B)は、故障判定制御部121の表示装置(不図示)への出力の一例を示す図である。図12(A)の区間1は、ターゲット端末からの応答フレームの受信の有無の組み合わせパタンと故障判定条件が完全一致し(確度100%)、区間3、4は、ターゲット端末からの応答フレームの受信無しの組み合わせパタンが区間1のターゲット端末からの応答フレームの受信の無しの組み合わせパタンと50%で一致していることを表している。この結果に対して、故障判定制御部121では、上記候補故障部位の特定動作の結果、特定されたNICの故障ポート情報、NIC装置の内部の故障等の情報を出力するようにしてもよい。
ネットワーク管理装置10の故障判定制御部121では、エッジスイッチ1、2(ESW1、2)が、コアスイッチ1(CSW1)のNIC3、NIC4のポートに接続されているというネットワーク接続情報(ポート接続情報)を取得し、NIC3のポートに関する監視フレームが複数又は全て不到達である場合、NIC3の故障(サイレント故障)が原因の一つであると判断(推定)することができる。なお、ポート間接続情報は、例えば図15に模式的に示すように、各ポートについて、シャーシ番号、スロット番号(当該シャーシのバックプレーンに接続するスロット番号)、ポート番号の三つ組みで与えられ、ポート間接続情報は、接続する二つのポートの(シャーシ番号、スロット番号、ポート番号)の組で与えられる。
ネットワーク管理装置10では、監視用のフレームによるネットワークの監視時に、ターゲット端末A−Dからの応答フレームの受信の有無の組み合わせパタンと、故障部位判定条件を照合し、故障部位候補の出力、又は、障害ログ等の生成を行うようにしてもよい。
なお、通信装置(スイッチ)間のLAG回線は電気信号又は光信号を伝送するようにしてもよい。光信号の場合、例えば図16(A)に示すように、上りと下りの回線を別々にしてもよいし、図16(B)に示すように、上りと下りで同一の回線を用いてもよい(例えばマルチモード光ファイバを用いた10GBASE−SR等)。図16(B)のように、上りと下りで同一の光通信回線を用いる場合、一心双方向伝送の機種では、特定の波長を出力する送信器(TX)と、波長によって光信号を選り分ける波長フィルタと、波長フィルタからの出力を受信し電気信号に変換する受信器(RX)を備えている。光信号の上りと下りで波長を異ならせている。本実施形態によれば、監視用のフレームを行きと帰りの双方向に流すことになる。このため、ネットワーク管理装置10とターゲット端末3との間の往路、復路の経路について簡易な方法で100%監視が可能である、という特徴を有する。特に、行き(ネットワーク管理装置10からターゲット端末の経路)では、ターゲット端末3毎に複数の仮想送信元識別情報(仮想送信元MACアドレス)を持った監視用のフレームを流し、帰り(ターゲット端末からネットワーク管理装置10への経路)では、自動的に、送信元識別情報と宛先識別情報を入れ替えて監視用のフレーム(応答フレーム)が返信されることで、簡便に、双方向の疎通監視を実現可能としている。これは、本実施形態では、一つのネットワーク管理装置において複数の仮想送信元識別情報(仮想送信元MACアドレス情報)を生成し該複数の仮想送信元識別情報をそれぞれフレームヘッダに設定した複数の監視用のフレームをターゲット端末3宛てに流す構成としたことによる。
図17は、上記各実施形態において、ネットワーク管理装置10から送信された監視用のフレーム(LBMフレームやPINGフレーム(エコー要求)等の監視用のフレーム)に対するターゲット端末3からの応答フレーム(LBRフレームやエコー応答等の応答フレーム)の各通信装置(スイッチ)におけるLAGポートの振り分けを説明する図である。
実施形態において、フレームのフレームヘッダの送信元MACアドレスを、一つのターゲット端末あたり少なくとも経路上にあるLAGのLAGメンバーポート数以上の値にそれぞれ異ならせた所定の識別情報として設定した監視用のフレームを生成し、複数のターゲット端末宛に、並行して、並列的に、又は、同時に、送信する。複数のリンクアグリゲーション接続を用いて階層的に接続された複数のネットワーク機器を含むネットワークにおいて、階層的に接続された複数のネットワーク機器の先にある複数のターゲット端末までの複数の経路における、経路上の全てのハッシュアルゴリズムも相互に異なる機器を含む、含まないにかかわらず、全てのリンクアグリゲーションメンバーポート(LAGメンバーポート)に対する網羅性をもった振り分けのために、リンクアグリゲーションのハッシュ振分がこの仮想送信元MACアドレスと宛先MACアドレスに基づき行われることを利用する。例えば経路内のネットワーク機器のリンクアグリゲーションのハッシュ振分の設定がアドレス振分の設定となっている場合、宛先MACアドレスが固定であれば、仮想送信元MACアドレスのみを用いて、メーカ独自のハッシュ振分アルゴリズムに基づいて振分が行われるが、この仮想送信元MACアドレスが設定された監視用のフレームのフレームヘッダのVLANタグのVIDを少なくとも経路上のリンクアグリゲーションにおけるLAGメンバーポート数の最大数以上にて可変させることで、意図的に、特定の指定したポートに監視用のフレームを振り分ける計算アルゴリズム情報を入手する必要なしに、VIDのハッシュ値に基づき、LAGメンバーポートへ網羅性を持った振り分けを行わせている。
以下では、各通信装置(スイッチ)が要求監視用のフレームを送信元MACアドレスと宛先MACアドレスを用いて、通信装置(スイッチ)1から通信装置(スイッチ)4までの経路上にある最大4本のLAGメンバーポートを有する全てのLAGポートへ双方向で網羅性を持って振り分けを行わせた例を説明する。
ネットワーク管理装置10から、経路上にあるLAGメンバーポート数4に対して、少なくとも経路上のLAGメンバーポート数の最大値以上の数で、送信元MACアドレスをスイープした監視用のフレームをターゲット端末3の宛先MACアドレスに対して送信する。この時、便宜上、送信元MACアドレスの一桁目を連番で4つ変えた監視用のフレームを送信してもよい。この方法により、メーカC社製の通信装置(スイッチ)1では、監視用のフレームを送信元MACアドレスと宛先MACアドレスの情報から、通常はメーカが未開示としているメーカC独自のハッシュ振分アルゴリズムに基づいて計算されたハッシュ値を用いて、LAGメンバーポートへ(4つのLAGメンバーポートへ均等に)網羅性を持った振り分けを行わせることで、4つ全てのポートに対して、ネットワーク管理装置からターゲット端末方向の回線のトラフィックの正常性を確認する。
次に、4つの監視用のフレームがメーカC社製の通信装置(スイッチ)2からメーカJ社製の通信装置(スイッチ)2に入力され、通信装置(スイッチ)2では監視用のフレームに含まれる送信元MACアドレスと宛先MACアドレスを用いて、通常はメーカが未開示としているメーカJ独自のハッシュ振分アルゴリズムに基づいて計算されたハッシュ値を用いてLAGメンバーポートへ(2つのLAGメンバーポートへ均等に)網羅性を持った振り分けを行わせる。このことにより、少なくとも2つの監視用のフレームは他の監視用のフレームと同じポートに振り分けされるが、2つ全てのポートに対して、ネットワーク管理装置からターゲット端末方向の回線のトラフィックの正常性を確認する。
メーカF社製通信装置(スイッチ)3では、監視用のフレームを送信元MACアドレスと宛先MACアドレスの情報から、通常はメーカが未開示としているメーカJ独自のハッシュ振分アルゴリズムに基づいて計算されたハッシュ値を用いてLAGポートへ(3つのLAGポートへ均等に)振り分けを行わせる。このことにより、少なくとも1つの監視用のフレームは他の監視用のフレームと同じポートに振り分けがされるが、3つ全てのポートに対して、ネットワーク管理装置10からターゲット端末3方向の回線のトラフィックの正常性を確認する。
メーカA社製通信装置(スイッチ)4では、監視用のフレームの宛先MACアドレス(ターゲット端末3のMACアドレス)が接続するポートに、監視用のフレームを転送する。
ターゲット端末3では、通信装置(スイッチ)4から受信した監視用のフレーム4つに対して、応答フレームを4つ返信する。応答フレームのフレームヘッダの宛先MACアドレスは、監視用のフレームの送信元MACアドレスであるそれぞれ互いに異なる4つの監視用のフレームの仮想送信元MACアドレスとし、送信元MACアドレスはターゲット端末3のMACアドレスとして、応答フレームをネットワーク管理装置宛てに送信する。
メーカA社製通信装置(スイッチ)4では、応答フレームの送信元MACアドレスと宛先MACアドレスの情報のうち、4つの宛先MACアドレスを用いて、通常はメーカが未開示としているメーカA独自のハッシュ振分アルゴリズムに基づいて相互に異なった値に計算されたハッシュ値を用いて、LAGポートへの(3つのLAGポートへ均等に)振り分けを行う。このことにより、少なくとも1つの応答フレームは他の応答フレームと同じポートに振り分けがされるが、3つ全てのポートに対して、監視用のフレームとは逆向きのトラフィック方向の回線のトラフィックの正常性を確認する。
通信装置(スイッチ)3では、通信装置(スイッチ)4から受信した応答フレームを送信元MACアドレスと宛先MACアドレスの情報のうち、4つの宛先MACアドレスを用いて、通常はメーカが未開示としているメーカF独自のハッシュ振分アルゴリズムに基づいて相互に異なった値に計算されたハッシュ値を用いて、LAGポートへの(2つのLAGポートへ均等に)振り分けを行う。このことにより、少なくとも2つの応答フレームは他の応答フレームと同じポートに振り分けがされるが、2つ全てのポートに対して、監視用のフレームとは逆向きのトラフィック方向の回線のトラフィックの正常性を確認する。
通信装置(スイッチ)2では、通信装置(スイッチ)20−3から受信した応答フレームを送信元MACアドレスと宛先MACアドレスの情報のうち、4つの宛先MACアドレスを用いて、通常はメーカが未開示としているメーカJ独自のハッシュ振分アルゴリズムに基づいて相互に異なった値に計算されたハッシュ値を用いて、LAGポートへの(4つのLAGポートへ均等に)振り分けを行う。このことにより、4つ全てのポートに対して、監視用のフレームとは逆向きのトラフィック方向の回線のトラフィックの正常性を確認する。
通信装置(スイッチ)1では、通信装置(スイッチ)20−2から受信した応答フレームの宛先MACアドレス(ネットワーク管理装置10のMACアドレス)が接続するポートに、応答フレームを転送し、応答フレームはネットワーク管理装置10で受信される。
図18は、ネットワーク管理装置10をサーバ等のコンピュータ100で構成した例を説明する図である。プロセッサ(CPU(Central Processing Unit)、データ処理装置)101と、半導体メモリ(例えばRAM(Random Access Memory)、ROM(Read Only Memory)、又は、EEPROM(Electrically Erasable and Programmable ROM)等)、HDD(Hard Disk Drive)、CD(Compact Disc)、DVD(Digital Versatile Disc)等の少なくともいずれかを含む記憶装置102と、表示装置103と、ネットワークインタフェースカード(NIC)11を備えている。記憶装置102に、上記実施形態で説明したネットワーク管理装置10の機能を実現するプログラムを記憶しておき、プロセッサ101が該プログラムを読み出して実行することで、コンピュータ100を、上記した各実施形態のネットワーク管理装置10として動作させるようにしてもよい。
なお、上記の特許文献1−3の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素(各請求項の各要素、各実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ乃至選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。