JP2008228035A - ネットワークシステム、ノード装置及び管理サーバ - Google Patents

ネットワークシステム、ノード装置及び管理サーバ Download PDF

Info

Publication number
JP2008228035A
JP2008228035A JP2007064942A JP2007064942A JP2008228035A JP 2008228035 A JP2008228035 A JP 2008228035A JP 2007064942 A JP2007064942 A JP 2007064942A JP 2007064942 A JP2007064942 A JP 2007064942A JP 2008228035 A JP2008228035 A JP 2008228035A
Authority
JP
Japan
Prior art keywords
failure detection
node device
time
node
transmission interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007064942A
Other languages
English (en)
Other versions
JP4639207B2 (ja
Inventor
Takuro Mori
拓郎 森
Kazuma Yumoto
一磨 湯本
Hitoshi Yoshida
均 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007064942A priority Critical patent/JP4639207B2/ja
Priority to CN2007101600845A priority patent/CN101267389B/zh
Priority to US11/964,210 priority patent/US7801051B2/en
Publication of JP2008228035A publication Critical patent/JP2008228035A/ja
Application granted granted Critical
Publication of JP4639207B2 publication Critical patent/JP4639207B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/11Identifying congestion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/28Flow control; Congestion control in relation to timing considerations
    • H04L47/283Flow control; Congestion control in relation to timing considerations in response to processing delays, e.g. caused by jitter or round trip time [RTT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】経路に障害が無くとも通信遅延により障害を誤検出することを防ぐ。
【解決手段】ノード装置は、決定された障害検出時間が経過してもパケットを対向ノード装置から受信しないことにより、対向ノード装置との経路の障害を検出する。ノード装置は、対向ノード装置とのネゴシエーションによって定められたパケットの送信間隔に基づき、「リモートシステムのパケット送信間隔×障害検出乗数」を第1の障害検出時間60とする。また、「リモートシステムのパケット実送信間隔×障害検出乗数」61と「許容する遅延時間」62の和を、第2の障害検出時間63とする。第1の障害検出時間60と第2の障害検出時間63とを比較し、大きい方の値を実運用で適用する障害検出時間64として決定する。
【選択図】図6

Description

本発明は、ネットワークシステム、ノード装置及び管理サーバに係り、特に、ノード装置間の通信障害を監視する障害検出プロトコルに関し、さらに、障害誤検知を防ぐために行う障害検出時間を補正するネットワークシステム、ノード装置及び管理サーバに関する。
ノード装置間において、ネクストホップ間の通信障害を検出するための、ルーティングプロトコルからは独立したプロトコルとして、BFD(Bidirectional Forwarding Detection)の標準化がIETF(Internet Engineering Task Force)で進められている。BFDはUDP(User Datagram Protocol)を使ってシステム間で定期的なパケットの送受信を行い、一定時間パケットを受信しなかった場合に、通信路の障害(経路の障害)が発生したものとみなす。上記一定時間は予め定められ、以下障害検出時間と記す。障害検出時間はパケットを送信する間隔と、そのパケットがいくつ連続でロスした場合に障害と見なすかという障害検出乗数で算出され、その式は「送信間隔×障害検出乗数」で求めることが、例えば非特許文献1で定められている。
Bidirectional Forwarding Detection、draft−ietf−bfd−base−05、June、2006
障害検出用プロトコルであるBFDプロトコルは、BFDパケットの通信遅延対策として、パケット送信を行う際はネゴシエーションにより決定した送信間隔を特定倍率だけ減少させた値を用いるよう規定している。例えば、実送信間隔を、決定されたパケット送信間隔の75%〜100%になるようにしている。この減少分が遅延の許容量に相当する。規定に則り、例えば、送信間隔を50ミリ秒、障害検出乗数を1とした場合は、遅延に対する許容値は5〜12.5ミリ秒となり、許容値以上の通信遅延が発生した場合は受信側の待ち時間内にパケットが到達しないことにより、通信障害を誤検出するという課題がある。BFDでは遅延の許容値はリモートシステムのパケット送信間隔に比例するため、送信間隔が短くなるほど遅延によって障害を誤検出する可能性が高くなる。
例えば、通信障害を検出するとプロトコル制御機能は経路の切替えを行う場合がある。OSPF(Open Shortest Path First)やIS−IS(Intermediate System−Intermediate System)における経路切替えは高負荷なので、障害の誤検出によって切替えが頻発した場合はシステムの性能悪化に繋がる。そのため遅延による障害の誤検出はできるだけ抑えたいという課題がある。
本発明は、以上の点に鑑み、対向装置からのパケット送信間隔が短い場合でも、遅延として許容する基準値である必要猶予時間までの遅延であれば、これを通信障害として誤検出することを回避するネットワークシステム、ノード装置及び管理サーバを提供することを目的とする。また、本発明は、無用な迂回経路への切替えが発生を抑え、安定したネットワーク運用を行うことを目的のひとつとする。
また、本発明は、補正前の障害検出時間が必要障害検出時間(リモート送信時間+必要猶予時間)より短い場合のみ補正を行い、障害検出時間を補正したことによる検出の遅れを抑えることを目的のひとつとする。
本発明は、例えば、障害検出時間補正手段により、リモートノードからパケットを受信しなかった際に障害を検出する時間である障害検出時間の値が、リモートノードが実際にパケットを送信する間隔であるリモート実送信間隔に、許容する遅延時間である必要猶予時間を加えたもの以上となるよう補正を行う。リモートノードからのパケット通信に必要猶予時間以下の遅延が発生しても誤って障害を検出せず、遅延に対する猶予時間が十分な場合は補正を行わない。
本発明の第1の解決手段によると、
複数のノード装置を備えたネットワークシステムであって、
前記ノード装置はそれぞれ、対向するノード装置との経路の障害を検出する障害検出部を備え、
第1のノード装置の前記障害検出部は、
対向する第2のノード装置とネゴシエーションによって、障害検出のためのパケットの送信間隔を定め、
前記第2のノード装置から送信される障害検出のためのパケットを受信し、及び、
決定された障害検出時間が経過しても前記パケットを前記第2のノード装置から受信しないことにより、該第2のノード装置との経路の障害を検出し、
前記障害検出時間は、前記第1のノード装置の前記障害検出部が、
前記第2のノード装置とのネゴシエーションによって定められた前記パケットの送信間隔に基づく第1の障害検出時間を求め、
予め設定された又は予め求められた猶予時間を、ネゴシエーションによって定められた前記パケットの送信間隔、又は、該送信間隔に基づく前記パケットが実際に送信される実送信間隔の予測値に加えて、第2の障害検出時間を求め、
第1の障害検出時間と第2の障害検出時間とを比較し、大きい方の値が実運用で適用する前記障害検出時間として決定される
前記ネットワークシステムが提供される。
本発明の第2の解決手段によると、
複数のノード装置を備えたネットワークシステムにおける前記ノード装置であって、
前記ノード装置は、対向ノード装置との経路の障害を検出する障害検出部を備え、
前記障害検出部は、
対向ノード装置とネゴシエーションによって、障害検出のためのパケットの送信間隔を定め、
対向ノード装置から送信される障害検出のためのパケットを受信し、及び、
決定された障害検出時間が経過しても前記パケットを前記対向ノード装置から受信しないことにより、該対向ノード装置との経路の障害を検出し、
前記障害検出時間は、前記障害検出部が、
前記対向ノード装置とのネゴシエーションによって定められた前記パケットの送信間隔に基づく第1の障害検出時間を求め、
予め設定された又は予め求められた猶予時間を、ネゴシエーションによって定められた前記パケットの送信間隔、又は、該送信間隔に基づく前記パケットが実際に送信される実送信間隔の予測値に加えて、第2の障害検出時間を求め、
第1の障害検出時間と第2の障害検出時間とを比較し、大きい方の値が実運用で適用する前記障害検出時間として決定される
前記ノード装置が提供される。
本発明の第3の解決手段によると、
第1及び第2のノード装置と管理サーバとを備えたネットワークシステムにおいて、前記第1のノード装置が、前記第2のノード装置とのネゴシエーションによって定められた障害検出のためのパケットの送信間隔に基づく第1の障害検出時間と、管理サーバより受信される猶予時間を、ネゴシエーションによって定められた前記パケットの送信間隔、又は、該送信間隔に基づく前記パケットが実際に送信される実送信間隔の予測値に加えた第2の障害検出時間とのいずれかを障害検出時間として決定し、決定された障害検出時間が経過しても障害検出のための前記パケットを前記第2のノード装置から受信しないことにより、該第2のノード装置との経路の障害を検出する前記ネットワークシステムにおける前記管理サーバであって、
前記管理サーバは、
第1のノード装置の接続負荷情報と第2のノード装置の接続負荷情報に対応して、猶予時間が予め記憶されたテーブル
を有し、
第1のノード装置と対向する第2のノード装置で接続を行う旨の通知を、該第1のノード装置から受信し、
第1及び第2のノード装置から、それぞれの装置の接続負荷情報を受信し、
第1及び第2のノード装置から受信された接続負荷情報に基づき、前記テーブルを検索して対応する猶予時間を求め、前記第1及び第2のノード装置に猶予時間を送信し、
前記第1及び第2のノード装置により、該猶予時間を用いて前記第2の障害検出時間が求められるための前記管理サーバが提供される。
本発明により、対向装置からのパケット送信間隔が短い場合でも、遅延として許容する基準値である必要猶予時間までの遅延であれば、これを通信障害として誤検出することを回避するネットワークシステム、ノード装置及び管理サーバを提供することが出来る。これにより、本発明は、無用な迂回経路への切替えが発生しなくなるため、安定したネットワーク運用を行うことが出来る。
また、本発明は、補正前の障害検出時間が必要障害検出時間(リモート送信時間+必要猶予時間)より短い場合のみ補正を行うため、障害検出時間を補正したことによる検出の遅れを抑えるという利点がある。
1.システム構成
図1は、本実施の形態の通信障害検出システムの一構成例を示す図である。
通信障害検出システム(ネットワークシステム)は、例えば、複数のノード装置10(以下、ノード)を備える。
ノードA(10a)とノードE(10e)の間の通信路として、ノードB(10b)を介する経路13と、ノードC(10c)とノードD(10d)を介する経路14が存在する場合、ノードAは、隣接する各ノード(ノードB、ノードC)との間で通信障害検出プロトコル(例えば、BFD)を用いて障害の監視を行う。例えば、OSPFやIS−IS、またはstaticな経路設定により、ノードAとノードEの間の通信経路が経路13で運用されていた時に、ノードAとノードBの間で監視を行っていた通信障害検出プロトコルで通信障害が検出された場合、通信障害検出プロトコルは同一ノード内の経路制御部に障害通知を挙げることで、ノードAとノードEの間の代替経路である経路14に通信経路を切り替える。
なお、本実施の形態で示す障害とは、例えば、ノードAがノードBを介してノードEに対してパケットを送信する際に、パケットがノードEに到達しない状態のことを指す。従って、ある程度の遅延を伴うがパケットが到達する状態は検出対象の障害と見なさない。
図7は、本実施の形態の通信障害検出機能を有するノード装置の一構成例を示した装置ブロック図である。
ノード装置は、例えば、ユーザインタフェース7hと、上位アプリケーション(上位AP)72と、ネットワークノード部70と、ネットワークI/F75と、メモリ76と、記憶装置77と、CPU7gとを有する。ネットワークノード部70は、障害検知プロトコル部71、UDP層73、IP層74を含む。
障害検知プロトコル部(障害検出部)71は、経路制御などを行う機能モジュールである上位アプリケーション72からの要求により、対象通信路の通信障害を監視する。障害検知プロトコルがBFDの場合は、障害検知プロトコル自体はレイヤ3以上のプロトコルとなり、下位にはUDP層73、IP層74という構造になる。障害検知パケットは、物理的にはネットワークインタフェース75を介在してリモートノードとのパケット送受信を行う。これらの機能をソフトウェアプログラムとして実装する場合は、記憶装置77からメモリ76上にロードして、CPU(7g)で実行する。
障害検知プロトコル部71は、タイマ処理機構78と、送信機構79と、受信機構7aと、セッション情報管理部7iを有する。タイマ処理機構78は、周期送信タイマ7bと、障害検出タイマ7dと、タイマ補正部7fとを有する。また、送信機構79は送信処理部7cを有し、受信機構7aは受信処理部7eを有する。リモートノードとのネゴシエーションなどのセッション情報の獲得や更新の処理は、セッション情報管理部7iで行う。パケットを周期的に送信する際には、周期送信タイマ7bが契機を与えて、セッション情報管理部7iの情報を基に送信処理部7cがパケットを生成して送信する。
障害を検出する際には、受信処理部7eがパケットの受信を監視し、セッション管理部7iの情報を基に障害検出タイマ7dが障害検出時間の経過を監視する。障害検出時間が経過するまでの間に、受信処理部7eからパケット受信の通知がない場合は、障害とみなして上位アプリケーション72に通知を行う。上位アプリケーション72は、障害の通知を受けると、例えば経路を切り替える。
本実施の形態では、タイマ処理機構78にタイマ補正部7fを有する。タイマ補正部7fは、障害検出タイマ7dから障害検出時間を得て、補正が必要な場合は障害検出タイマ7dに対してフィードバックする。これにより、既存の機構では解決できない遅延による障害の誤検出を防ぐ。ユーザがタイマ補正部7fのパラメータを設定する場合は、ユーザインタフェース7hの操作で行うことができる。
2.障害検出
まず、通信障害の検出及び課題について説明する。
図2は、BFD(Bidirectional Forwarding Detection)の障害監視メカニズムを示すシーケンス図である。
本装置(例えば、ノードA 10a)をローカルノード(第1のノード装置)20とし、リモートノード(第2のノード装置、対向ノード装置)21(例えば、ノードB、ノードC)との経路状態を監視する際の一定間隔でのパケット送信とその監視時間について示している。図では、ローカルノード20における障害監視に関わる通信だけを示しているが、実際には、リモートノード21でも同様の障害監視を行うため、反対方向でも同様の通信が行なわれる。
リモートノード21からは、定期的にパケットが送信される。リモートノード21からのパケット送信間隔(リモート送信間隔)22は、セッション確立時のネゴシエーションで決定する。パケット送信間隔など、パラメータのネゴシエーション手順はBFDの規格に則ることができるため、ここでは説明を省略する。
ローカルノード20側では、同じくセッション確立時のネゴシエーションにより決定するパラメータである障害検出時間23で、リモートノード21からのパケット受信を監視する。BFDにおける障害検出時間は、リモートノード21からのパケット送信間隔22と障害検出乗数との乗算により決定する。障害検出時間内にパケットを受信した場合は、パケットを受信するごとに障害検出タイマ7dをリセットする。図2に示すように、障害検出時間内にパケットを受信している場合は、正常であるとみなす。
図3は、BFDのパケットロスによる障害発生の一例を示すシーケンス図である。
図は、障害検出乗数が2の場合の例であり、パケットを2個連続で障害検出時間内に受信できなかった場合にタイムアウトになり、障害として検出される。
BFDの規定により、リモートノード21はパケットを送信する際の遅延対策として、実際に送信するリモート実送信間隔(35)は、ネゴシエーションによって決定したリモート送信間隔よりも減少させる。その範囲は、プロトコルの規定により障害検出乗数が1の場合でリモート送信間隔の75〜90%、2以上の場合でリモート送信間隔の75〜100%である。例えば、リモート実送信間隔は以下の式で求められる。
障害検出乗数が1の場合:
実送信間隔(35)=送信間隔(22)×(75〜90%)
障害検出乗数が2以上の場合:
実送信間隔(35)=送信間隔(22)×(75〜100%)
なお、送信間隔(22)に乗ずる値は、パケット送信ごとにランダムに変化させる。
リモートノード21から送信されるパケット30を受信したローカルノード20では、障害検出タイマ7dをリセットする(ステップ33)。この後、リモートノード21からのパケット31および32が何らかの要因でローカルノード10まで到達しないと、ローカルノード20の障害検出タイマ7dはタイムアウトとなる。すなわち、障害検出時間内にリモートノード21からパケットが1つも届かず、障害検出タイマ7dがリセット(更新)されること無くタイムアウトした場合、ローカルノード20は、両システム間の通信路で通信障害が発生したものとみなし、これを障害として検出する(ステップ34)。
図4は、BFDパケットの通信遅延による障害発生の一例を示すシーケンス図である。
この図も、障害検出乗数は図3と同様に2の場合である。図3との違いは、図3におけるパケット32に相当するリモートノード21からのパケット42が遅延し、障害検出時間経過後にローカルノード20に到達する例を示している。このように、パケットロスの個数が障害検出乗数の値(この場合2)より少ない1個であっても、遅延43の大きさによっては障害検出時間内にパケットが2つとも到達しなかったことになるため、障害として検出される(ステップ44)。
障害検出乗数が小さくなるほど、このような障害の発生頻度(誤検出の数)は、大きくなる。障害検出乗数が1の場合に至っては、通信路自体は生きていて、パケットロスが1つも発生しない場合でも、通信遅延により障害として検出されるケースが起こる。また、リモートノードのリモート実送信間隔35はリモート送信間隔22との乗算で与えているため、パケットの送信間隔を短くするほど、許容される遅延時間は短くなる。一般的に、通信遅延時間は送信間隔とは比例しないため、この遅延対策は特にパケット送信間隔が短い場合において十分ではない。
図5は、障害検出を行う処理の一例を示すフローチャートである。
例えば、以下の処理が繰り返し実行される。なお、本フローチャートの処理は、ノードA 10aなどの各ノードにより実行されることができる。ここで示す検出タイマ(7d)は、セッション作成時に開始される障害検出のためのタイマである。
ローカルノード20は、リモートノード21との接続性を確認する際には先ず、前回実行時からの経過時間算出し(ステップ50)、その値を検出タイマ7dに加えて、検出タイマ7dの値を更新し、パケットを受信していない時間を記録する(ステップ51)。なお、タイマの処理については適宜の処理でもよい。ローカルノード20は、更新した検出タイマ7dの値と予め決定された障害検出時間を比較し(ステップ52)、検出タイマ7dの値が障害検出時間以上である場合は、リモートノード21との接続性に障害があることを検出し、経路(ルーティング)制御などを行う上位アプリケーション72に対して通知を行う(ステップ53)。一方、ローカルノード20は、障害検出時間を未だ超過していない場合は(ステップ50)、リモートノードからのパケットを受信しているかどうか確認を行う(ステップ54)。パケットを受信している場合には、障害は発生していないものとみなして検出タイマ7dをリセットする(ステップ55)。パケットを受信していない場合は処理を終了し、次回の処理を待つ。
図5に示す処理は、例えば、一定時間間隔およびリモートノードからのパケット受信を契機に繰り返し実行する。
3.障害検出時間の設定
図6は、本実施の形態の障害検出時間補正方式を説明するためのグラフである。
これは図4で示したステップ42のように、パケットはロスしていないが送信遅延が発生することによって、誤って障害を検出してしまう課題を回避するための障害検出時間の補正方式である。
リモートノードからのパケットが連続でロスした場合に、障害を検出するまでの時間60は、従来の方法ではリモート送信間隔22×障害検出乗数である。また、実際にリモートノードが障害検出乗数と等しい個数のパケットを送信するのに必要なリモート実送信時間61は、リモート実送信間隔35×障害検出乗数である。なお、リモート実送信間隔35は、上述のようにリモート送信間隔に75〜100%を乗じたものであり、リモート送信間隔よりも短い。
本方式では、必要猶予時間62を設定し、リモートノードからのパケット通信の所要時間に必要猶予時間62までの遅延が発生しても、誤って障害を検出しないような必要障害検出時間63を「リモート実送信時間61+必要猶予時間62」で与える。新たな(補正後の)障害検出時間64は、障害検出時間60と必要障害検出時間63のうち長いものを採用する。
リモート実送信間隔35については、ローカルノードではリモートノードが規定範囲のどの割合で送信間隔をその都度減少させるかは判らない。そこで、リモート実送信時間61を求める際に用いるリモート実送信間隔35を、ローカルノードでは次のようにして求める。障害検出乗数が1の場合は、リモートノードから通知されるリモート送信間隔22の90%をリモート実送信間隔の想定値とし、障害検出乗数が2以上の場合は、リモート送信間隔22の100%をリモート実送信間隔の想定値とする。つまり、遅延対策として導入されている規定の効果が最も弱くなる場合を想定して補正演算を行う。なお、これ以外にも適宜の想定値を用いてもよい。
上述の必要猶予時間の算出方法については図11以降の図面を参照して後に述べる。
図8は、本実施の形態の必要猶予時間を適用した障害検出時間設定のフローチャートである。
本フローに先立ち、ノード装置は、対向ノード装置とのネゴシエーションにより、リモート送信間隔、障害検出乗数が予め得られており、適宜メモリに記憶されている。さらに、リモート送信間隔に基づき、リモート実送信間隔の想定値が予め求められていてもよい。
タイマ処理機構78(例えば、タイマ補正部7f)は、最初にプロトコル規定に基づいて、障害検出時間(第1の障害検出時間)を「リモート送信間隔×障害検出乗数」で算出する(ステップ80)。次に、タイマ処理機構78は、必要障害検出時間(第2の障害検出時間)63を「リモート実送信間隔×障害検出乗数+必要猶予時間」で算出する(ステップ81)。必要猶予時間は、予め設定されていてもよいし、後述する処理により求められた値を用いることもできる。タイマ処理機構78は、ステップ80で算出した従来の障害検出時間と、ステップ81で算出した必要障害検出時間を比較する(ステップ82)。タイマ処理機構78は、障害検出時間が必要障害検出時間に満たない場合は(ステップ82)、障害検出時間として必要障害検出時間の値を設定する(ステップ83)。タイマ処理機構78は、更新した障害検出時間は(ステップ82)、システムの記憶領域(メモリ76または記憶装置77)に書き込む(ステップ84)。
ユーザが構成定義を変更する場合や、後述するように必要猶予時間が変化した場合など、パラメータの変更が行われた場合は図8の処理を再度行うことによって必要猶予時間を適したものへと更新するようにしてもよい。
補正の例として、補正前の障害検出時間60に対して、リモート実送信間隔35がリモート送信間隔22の90%となるような場合を考える。必要猶予時間として10ミリ秒を確保する場合、補正が必要となるのは障害検出時間が100ミリ秒以下の場合である。判り易い例としては、障害検出乗数が1でリモート送信間隔22が50ミリ秒(すなわち障害検出時間は50ミリ秒)の場合、許容される遅延時間は5ミリ秒となるため、必要猶予時間の10ミリ秒を下回ることになる。本実施の形態を適用すると、補正前の障害検出時間60は50ミリ秒(ステップ80)、必要障害検出時間は55ミリ秒(ステップ81)であり、適用する障害検出時間は55ミリ秒となる(ステップ82、83)ため、リモート実送信間隔45ミリ秒との差分10ミリ秒が遅延許容時間として確保されるようになる。
図9は、本実施の形態の障害検出処理の一例を示すフローチャートである。
障害の監視を行う際は、図5で示した障害検出フローに、ステップ90として、図8の手順で算出する補正後の障害検出時間を読み込む手順を加える。他の処理は、図5と同様であるので、説明を省略する。なお、障害検出時間を、システム起動時などに定めて固定の値を用いる場合は、図5のフローを用いてもよい。ここでは、障害検出時間は適宜更新されることができる。
4.必要猶予時間の決定
以下に、必要猶予時間の決定方法として、本実施の形態で提案する第1〜第4の4つの方法について説明する。各方法の説明に先立ち、第2〜第4の3つ方法で用いる必要猶予時間検索テーブル760について説明する。
図10に、必要猶予時間検索テーブル760、761の構成例を示す。
必要猶予時間検索テーブル760、761は、例えば、2つのキー情報a、bに対応して、必要猶予時間が予め記憶される。
必要猶予時間は、二種類のキー情報(100、102)により検索する。キー情報として何を用いるかは、各方式の説明で具体的に述べる。テーブルの値は、システム管理者などが運用に先立ち設定することができる。なお、各カラム値の相関は次のとおりとなる。インデックスを決定する値(複数の第1の閾値)であるA1〜An(101)が大きくなるにつれ、必要猶予時間も大きくなる。同様に、インデックスを決定する値(複数の第2の閾値)であるB1〜Bm(103)が大きくなると、必要猶予時間も大きくなる。
第1の必要猶予時間の決定方法は、固定値として予め与える方式である。ユーザ(管理者)がコンフィグの設定などを通じて指定し、コンフィグの設定変更が発生しない限り、ノードシステム動作中には変化しない。
第2の決定方法は、ローカルノードの負荷(処理負荷)を測定することにより、装置内負荷による遅延に対する猶予時間を与える方法である。ここで、必要猶予時間検索テーブル760のキー情報a、bは、負荷の平均及び分散である。また、ノードは、例えば、障害検知プロトコル部71などに、負荷測定部を有してもよい。
図11は、本実施の形態の自装置の負荷を用いて必要猶予時間を算出する方法の一例を示すフローチャートである。図11に示した以下の一連の処理は、例えば、タイマ補正部7fで行う。
ローカルノード20は、タイマ処理機構78のような周期的に動作する処理部分の実際の実行周期と設定された周期の差分や、CPU負荷などの自装置における負荷を測定し(ステップ110)、その値の平均や分散などの時間軸に対する変化を算出する(ステップ111)。ローカルノード20は、図10に示すようなテーブル760を参照して、対応する必要猶予時間を求める(ステップ112)。その際のキー情報(100、102)は、ステップ111で求めた負荷の平均および分散を用いる。必要猶予時間が過去の値(例えば、前回求めた値)と変化した場合(ステップ113)は、図8に示した処理を行って障害検出時間を再計算する(ステップ114)。この時、ステップ81で用いる必要猶予時間は、ステップ112で算出された値を用いる。ローカルノード20は、求めた負荷の平均、分散、障害検出時間を適宜メモリ等に記憶してもよい。
第3の必要猶予時間の決定方法は、リモートノード21からのパケット受信間隔(遅延ゆらぎ)を測定することにより、リモートノード21および通信路で発生する遅延を推測して、それら対する猶予時間を与える方法である。ここで、必要猶予時間検索テーブル760のキー情報a、bは、例えば、パケットの受信間隔の平均及び分散である。また、ノードは、例えば、障害検知プロトコル部71などに、受信間隔測定部を有してもよい。
図12は、本実施の形態の遅延ゆらぎ測定方式を用いて必要猶予時間を算出する方法の一例を示すフローチャートである。図12に示した以下の一連の処理は、例えばタイマ補正部7fで行う。
ローカルノード20は、リモートノード21からのパケットを受信した際に、前回のパケット受信から経過した時間間隔を算出し(ステップ120)、その値の平均や分散などの時間軸に対する変化(遅延ゆらぎ)を算出する(ステップ121)。必要猶予時間は、図10に示すようなテーブル760を参照して求める(ステップ122)。その際のキー情報(100、102)は、ステップ121で求めた受信間隔の平均や分散の値を用いる。必要猶予時間が変化した場合(ステップ123)は、図8に示した処理を行って障害検出時間を再計算する(ステップ124)。この時、ステップ81で用いる必要猶予時間は、ステップ122で算出された値を用いる。ローカルノード20は、求めた受信間隔の平均、分散、障害検出時間を適宜メモリ等に記憶してもよい。
上記第2及び第3の方法で平均値や分散値を分布を用いて解析することにより、それらの負荷、遅延の発生確率に基づいた必要猶予時間の決定を行うことができる。
第4の必要猶予時間の決定方法は、管理サーバが決定する方法である。以下、本方式について説明する。
図13は、本実施の形態の管理サーバを含む通信障害検出システムの一構成例を示す図である。
管理サーバ130は、各ノード131、132、133とネットワークを介して接続されている(134、135、136)。また、各ノード131、132、133は、ネットワークを介して相互に接続性の監視を行う(137、138、139)。各ノード131、132、133は、それぞれ、図1のノード10a、10b、10cに対応する。管理サーバ130は、各ノードの接続状態の情報を保持している。各ノードは、他ノードに対して接続を試みる前に、管理サーバ130に対して必要猶予時間を要求する。管理サーバ130は、要求に応じて全ノードの必要猶予時間を算出し、必要猶予時間の変化のあるノードに対して通知する。管理サーバ130を用いることにより、各ノードの接続負荷を考慮した必要猶予時間の設定を行うことが出来る。
図15は、本実施の形態の必要猶予時間算出機能を有する管理サーバ130の一構成例を示した装置ブロック図である。
管理サーバ130は、例えば、ユーザインタフェース151と、管理機構150と、ネットワークI/F154と、メモリ155と、記憶装置156と、CPU15dとを有する。メモリ155は、例えば、必要猶予時間検索テーブル761が記憶される。ここで、必要猶予時間検索テーブル761のキー情報a、bは、各ノードを装置のセッション数である。
管理機構150は、ユーザからの要求を受け付けるユーザインタフェースプログラム151からの設定により、必要猶予時間算出用のテーブルの値を得て、テーブル761に予め設定する。下位にはTCP/UDP層152、IP v4/v6層153が存在し、ネットワークインタフェース154を介在してノードシステムとのパケット送受信を行う。各ノード装置の情報はメモリ155や記憶装置156に記録する。
本実施の形態では、管理機構150は、タイマ処理機構157と送信機構158と受信機構159を有する。タイマ処理機構157は、必要猶予時間算出部15bを有する。受信機構159は、受信処理部15aによってノード装置からの要求を受け取ると、必要猶予時間算出部15bに通知する。必要猶予時間算出部15bは、必要猶予時間を算出する。算出した値は、送信機構158内の送信処理部15dにより、通知先のノード装置に対してパケットを送信される。
図14は、本実施の形態の管理サーバ130による必要猶予時間の決定及び通知方式の一例を示すシーケンス図である。
ノードA(131)は、例えば、ノードB(132)との間に新たなセッションを確立する前に、自装置でのセッション数を含むセッション数通知(140)と、ノードBとの間で確立する通信障害監視セッションで用いる必要猶予時間要求(141)を、管理サーバ(130)に送る。なお、ノードは、セッション数を例えばセッション情報管理部7iなどで管理している。管理サーバ130は、受信したノードのセッション数をノード毎に記憶する。管理サーバ130は、ノードBに関する情報(例えば、セッション情報)を未取得の場合、または、ノードBの最新の情報を取得する必要がある場合、ノードBのセッション数を取得する(142、143)。最新の情報を取得する必要がある場合とは、例えば、ノードBから所定時間以上の間セッション数の通知を受信していない場合などがある。管理サーバ130は、ノードAおよびノードBに対して、その必要猶予時間を算出する(ステップ144)。必要猶予時間は、各ノードA、Bのセッション数をキー情報(100、102)として、図10に示すようなテーブル761を参照して、対応する必要猶予時間を求める。ノードAもしくはBとセッションを確立している全てのノードについても、同様に必要猶予時間を求めてもよい。
管理サーバ130は、必要猶予時間をノードに送信する。ステップ144で求めた必要猶予時間は、新規セッション分だけでなく、既存セッションでも値が変化した場合は、管理サーバ130は、対象ノードに対して通知を行う(145)。ここで、対象ノードとは、例えば、ノードA及び/又はノードBと接続されたノード(例えば、ノードC)である。各ノードは、通知された必要猶予時間を用いて障害検出時間を算出する(146)。
各ノードは、自身の持つセッション数が変化した場合は同様に管理サーバに対して通知を行い、新たな必要猶予時間を得るようにしてもよい。また、各ノードは、定期的に、セッション数を管理サーバ130に送信し、必要猶予時間を得るようにしてもよい。管理サーバ130は、セッション数の変化したノード(例えば、ノードA)と既にセッションを確立しているノード(例えば、ノードB)に対しても必要猶予時間が変化する場合は新たな必要猶予時間を通知する。
図16は、本実施の形態の管理サーバ130における必要猶予時間算出方法の一例を示すフローチャートである。
管理サーバ130は、ノードAがノードBに対してセッションを確立する際に送信される、セッション数の通知と、ノードBとのセッションにおける必要猶予時間の要求を受信する(ステップ160)。管理サーバ130は、ノードBのセッション数の情報を保持しているか確認し(ステップ161)、存在する場合はステップ164に移る。一方、存在しない場合はノードBに対してセッション数を要求する(ステップ162)。ノードBからセッション数を通知されたならば(ステップ163)、ステップ164に移る。
ステップ164では、管理サーバ130は、ノードAとノードBに関連する全てのノード間で用いる必要猶予時間を算出する(ステップ164)。管理サーバ130は、求められた必要猶予時間を記憶する(ステップ165)。管理サーバ130は、必要猶予時間が変化したノードに対して、必要猶予時間を通知する(ステップ166)。必要猶予時間を受け取ったノードは、新たな必要猶予時間を用いて図8の処理を行い、障害検出時間の更新を行う。
管理サーバ130は、タイムアウト時間未満(ステップ167)で、ノードBからセッション数の通知が得られない場合は、セッション数の要求を再送する(ステップ162)。タイムアウト時間以上応答がない場合は(ステップ167)、管理サーバ130は、必要猶予時間の算出を失敗としてノードAに通知する(ステップ168)。一方、再送を行わない場合はタイムアウト時間が経過するまで応答を待ち、タイムアウト後にステップ168へ移行する。ノードAは補正値算出の失敗を受け取った際、ノードBに問題があると判断して、接続を行わなくてもよい。なお、ここでは必要猶予時間を求めるキーにセッション数のみを用いているが、セッションの送信間隔や受信間隔などの値を組み合わせてキーとしてもよい。
以上で説明した必要猶予時間を決定する4つの方式は、それぞれ組み合わせて用いても構わない。例えば、上述の第2の方法と第3の方法の双方を実行し、得られるそれぞれの
障害検出時間のうち、値が大きいほうを実運用で用いるものとして決定するようにしてもよい。また、他の方法を同様に組み合わせてもよい。また、第2、第3の方法を管理サーバを用いて行ってもよいし、第4の方法を管理サーバを備えずに、各ノード装置がセッション数情報をやりとりして、各ノード装置で上記管理サーバの処理を行うようにしてもよい。
以上のように本実施の形態では、ノード間における通信障害監視において、必要猶予時間を導入して障害検出時間の補正を行うことにより、通信路に遅延は発生しているが経路に問題が無い場合において、障害検出時間の増加を抑えつつ、遅延を誤って障害として検出することを避けることが可能になる。
5.概略
5.1 ネットワークシステム
本発明におけるネットワークシステムは、例えば、複数のノード装置により構成されるネットワークシステムであって、
前記ノード装置は通信路の障害を検知する障害検出プロトコルを備え、
前記障害検出プロトコルは、
対向ノードに対して互いにパケットを送信し、
対向ノードから障害検出時間が経過してもパケットを受信しない場合に障害を検出し、
前記障害検出時間は、
対向ノードとのネゴシエーションによって得る値を規準とする障害検出プロトコルを備えたノード装置により構成されるネットワークシステムにおいて、
前記基準値に対して障害誤検出を防ぐための補正を加え、実運用に適用する障害検出時間を決定する
障害検出時間補正機能を有する。
(固定方式)
上述のネットワークシステムにおける前記障害検出時間の補正は、装置構成定義などを通じて設定値として与える必要猶予時間を、対向装置からのパケット送信間隔であるリモート送信時間に加えて必要障害検出時間とし、補正前の障害検出時間の基準値と前記必要障害検出時間とを比較し、大きい方の値を実運用で適用する障害検出時間とすることを特徴のひとつとする。
(負荷測定方式)
上述のネットワークシステムにおける前記障害検出時間の補正は、ノード装置の処理負荷を測定し、前記ノード装置内の負荷から必要猶予時間を決定し、前期必要猶予時間を対向装置からのパケット送信間隔であるリモート送信時間に加えて必要障害検出時間とし、補正前の障害検出時間の基準値と前記必要障害検出時間とを比較し、大きい方の値を実運用で適用する障害検出時間とすることを特徴のひとつとする。
(受信パケット測定方式)
上述のネットワークシステムにおける前記障害検出時間の補正は、対向ノード装置からの実パケット受信間隔を測定し、受信間隔の平均および分散から必要猶予時間を決定し、前期必要猶予時間を対向装置からのパケット送信間隔であるリモート送信時間に加えて必要障害検出時間とし、補正前の障害検出時間の基準値と前記必要障害検出時間とを比較し、大きい方の値を実運用で適用する障害検出時間とすることを特徴のひとつとする。
(管理サーバ方式)
本実施の形態における他のネットワークシステムは、例えば、通信路の障害を検知する障害検出プロトコルを備えた複数のノード装置と管理サーバにより構成されるネットワークシステムであって、
ノード装置Aは対向ノード装置Bと接続を行う際に、
ノード装置Aと対向ノード装置Bで接続を行う旨を管理サーバに通知し、
前記接続通知を受信した管理サーバは、
各ノード装置の接続負荷情報を基に障害誤検出を防ぐための必要猶予時間を求めてノード装置に通知を行い、
前記ノード装置は、管理サーバから通知された前記必要猶予時間を用いて障害検出時間の補正を行う
障害検出時間補正機能を有する。
(管理サーバにおける必要猶予時間算出方式)
上述のネットワークシステムにおいて前記管理サーバが求める必要猶予時間は、ローカルノードのセッション数およびリモートノードのセッション数をキー情報として検索したテーブルの値を用いることを特徴のひとつとする。
(管理サーバにおけるテーブルの設定方式)
上述のネットワークシステムにおける前記テーブルの値は、サーバ管理者の設定により決定することを特徴のひとつとする。
(必要猶予時間の通知対象)
上述のネットワークシステムにおいて前記管理サーバが必要猶予時間を通知する対象は、ノードAおよびノード装置Bと、両ノード装置と接続状態にあるノード装置であることを特徴のひとつとする。
(BFD)
上述のネットワークシステムにおける前記障害検知プロトコルとしてBFD(Bidirectional Forwarding Detection)を用い、必要猶予時間を加味した障害検出時間を利用することを特徴のひとつとする。
5.2 ノード装置
本実施の形態におけるノード装置は、例えば、通信路の障害を検知する障害検出プロトコルを備えたノード装置であって、
前記障害検出プロトコルは、
対向ノードに対してパケットを送信し、
対向ノードから障害検出時間が経過してもパケットを受信しない場合に障害を検出し、
前記障害検出時間は、
対向ノードとのネゴシエーションによって得る値を規準とする障害検出プロトコルを備えたノード装置において、
前記基準値に対して障害誤検出を防ぐための補正を加え、実運用に適用する障害検出時間を決定する
障害検出時間補正機能を有する。
(固定方式)
上述のノード装置における前記障害検出時間の補正は、装置構成定義などを通じて設定値として与える必要猶予時間を、対向装置からのパケット送信間隔であるリモート送信時間に加えて必要障害検出時間とし、補正前の障害検出時間の基準値と前記必要障害検出時間とを比較し、大きい方の値を実運用で適用する障害検出時間とすることを特徴のひとつとする。
(負荷測定方式)
上述のノード装置における前記障害検出時間の補正は、ノード装置の処理負荷を測定し、前記ノード装置内の負荷から必要猶予時間を決定し、前期必要猶予時間を対向装置からのパケット送信間隔であるリモート送信時間に加えて必要障害検出時間とし、補正前の障害検出時間の基準値と前記必要障害検出時間とを比較し、大きい方の値を実運用で適用する障害検出時間とすることを特徴のひとつとする。
(受信パケット測定方式)
上述のノード装置における前記障害検出時間の補正は、対向ノード装置からの実パケット受信間隔を測定し、受信間隔の平均および分散から必要猶予時間を決定し、前期必要猶予時間を対向装置からのパケット送信間隔であるリモート送信時間に加えて必要障害検出時間とし、補正前の障害検出時間の基準値と前記必要障害検出時間とを比較し、大きい方の値を実運用で適用する障害検出時間とすることを特徴のひとつとする。
(管理サーバ方式)
本実施の形態における他のノード装置は、例えば、通信路の障害を検知する障害検出プロトコルを備え、管理サーバとネットワークで接続されたノード装置であって、
ノード装置Aは対向ノード装置Bと接続を行う際に、
ノード装置Aと対向ノード装置Bで接続を行う旨を管理サーバに通知し、
管理サーバから通知された必要猶予時間を用いて障害検出時間の補正を行う
障害検出時間補正機能を有する。
(BFD)
上述のノード装置における前記障害検知プロトコルとしてBFD(Bidirectional Forwarding Detection)を用い、必要猶予時間を加味した障害検出時間を利用することを特徴のひとつとする。
5.3 管理サーバ
本実施の形態における管理サーバは、例えば、通信路の障害を検知する障害検出プロトコルを備えた複数のノード装置と接続された管理サーバであって、
前記ノード装置から対向ノード装置との間で障害監視を開始する通知を受信した管理サーバは、
各ノード装置の接続負荷情報を基に障害誤検出を防ぐための必要猶予時間を求めてノード装置に通知を行う。
(管理サーバにおける必要猶予時間算出方式)
前記管理サーバが求める必要猶予時間は、ローカルノードのセッション数およびローカルノードのセッション数をキー情報として検索したテーブルの値を用いることを特徴のひとつとする。
(管理サーバにおけるテーブルの設定方式)
上記管理サーバにおける前記テーブルの値は、サーバ管理者の設定により決定することを特徴のひとつとする。
(必要猶予時間の通知対象)
前記管理サーバが必要猶予時間を通知する対象は、
ノードAおよびノード装置Bと、両ノード装置と接続状態にあるノード装置であることを特徴のひとつとする。
5.4 障害検出方法
本実施の形態における障害検出方式(障害検出方法)は、例えば、ネットワークで接続されたノード装置間の通信障害を検出する障害検出方式であって、
前記障害検出方式は、
対向ノードに対して互いにパケットを送信し、
対向ノードから障害検出時間が経過してもパケットを受信しない場合に障害を検出し、
前記障害検出時間は、
対向ノードとのネゴシエーションによって得る値を規準とする障害検出方式において、
前記基準値に対して障害誤検出を防ぐための補正を加え、実運用に適用する障害検出時間を決定する
障害検出時間補正機能を有する。
(固定方式)
上述の障害検出方式における前記障害検出時間の補正は、
装置構成定義などを通じて設定値として与える必要猶予時間を、対向装置からのパケット送信間隔であるリモート送信時間に加えて必要障害検出時間とし、補正前の障害検出時間の基準値と前記必要障害検出時間とを比較し、大きい方の値を実運用で適用する障害検出時間とすることを特徴のひとつとする。
(負荷測定方式)
上述の障害検出方式における前記障害検出時間の補正は、ノード装置の処理負荷を測定し、前記ノード装置内の負荷から必要猶予時間を決定し、前期必要猶予時間を対向装置からのパケット送信間隔であるリモート送信時間に加えて必要障害検出時間とし、補正前の障害検出時間の基準値と前記必要障害検出時間とを比較し、大きい方の値を実運用で適用する障害検出時間とすることを特徴のひとつとする。
(受信パケット測定方式)
上述の障害検出方式における前記障害検出時間の補正は、対向ノード装置からの実パケット受信間隔を測定し、受信間隔の平均および分散から必要猶予時間を決定し、前期必要猶予時間を対向装置からのパケット送信間隔であるリモート送信時間に加えて必要障害検出時間とし、補正前の障害検出時間の基準値と前記必要障害検出時間とを比較し、大きい方の値を実運用で適用する障害検出時間とすることを特徴のひとつとする。
(管理サーバ方式)
本実施の形態における他の障害検出方式は、例えば、管理サーバとネットワークで接続されたノード装置において通信路の障害を検出する障害検出方式であって、
障害監視を開始する際には、対向ノード装置と接続を行う旨を管理サーバに通知し、
前記管理サーバから障害誤検出を防ぐための必要猶予時間の通知を受け、
前記必要猶予時間を用いて障害検出時間の補正を行う
障害検出時間補正機能を有する。
(管理サーバにおける必要猶予時間算出方式)
上述の障害検出方式における前記管理サーバが求める必要猶予時間は、ローカルノードのセッション数およびリモートノードのセッション数をキー情報として検索したテーブルの値を用いることを特徴のひとつとする。
(管理サーバにおけるテーブルの設定方式)
上述の障害検出方式における前記テーブルの値は、使用者の設定により決定することを特徴のひとつとする。
(必要猶予時間の通知対象)
上述の障害検出方式における前記管理サーバが必要猶予時間を通知する対象は、
ノードAおよびノード装置Bと、両ノード装置と接続状態にあるノード装置であることを特徴のひとつとする。
(BFD)
上述の障害検出方式における障害検知プロトコルとしてBFD(Bidirectional Forwarding Detection)を用い、必要猶予時間を加味した障害検出時間を利用することを特徴のひとつとする。
本発明の障害検出時間補正方式は、高速な通信障害検出を必要とするルータ間の通信路監視のみならず、サーバなど通信タイムアウトによる障害監視を行う通信機器全般において、通信遅延による障害誤検出を回避する手法として利用できる。また、本発明は、例えば、通信障害検出システム、通信障害検出機能を有するノード装置、または通信遅延による経路障害の誤検出を防ぐ障害検出時間の補正に関する産業に利用可能である。
本実施の形態の通信障害検出システムの一構成例を示す図。 BFDの障害監視メカニズムを示すシーケンス図。 BFDのパケットロスによる障害発生の一例を示すシーケンス図。 BFDの通信遅延による障害発生の一例を示すシーケンス図。 障害検出を行う処理の一例を示すフローチャート。 本実施の形態の障害検出時間補正方式を示すグラフ。 本実施の形態の通信障害検出機能を有するノード装置の一構成例を示した装置ブロック図。 本実施の形態の必要猶予時間の適用方式の一例を示すフローチャート。 本実施の形態の障害検出処理の一例を示すフローチャート。 本実施の形態の必要猶予時間検索テーブルの一例を示す図。 本実施の形態の自装置の負荷を用いて必要猶予時間を算出する方法の一例を示すフローチャート。 本実施の形態の遅延ゆらぎ測定方式を用いて必要猶予時間を算出する方法の一例を示すフローチャート。 本実施の形態の管理サーバを含む通信障害検出システムの一構成例を示す図。 本実施の形態の管理サーバによる必要猶予時間の通知方式の一例を示すシーケンス図。 本実施の形態の必要猶予時間算出機能を有する管理サーバの一構成例を示した装置ブロック図。 本実施の形態の管理サーバによる必要猶予時間算出方法の一例を示すフローチャート。
符号の説明
10a〜10e ノード装置
60 障害検出時間(補正前)
61 リモート実送信時間
62 必要障害検出時間
63 必要猶予時間
64 障害検出時間(補正後)
70 ネットワークノード部
71 障害検知プロトコル
72 上位AP
73 UDP層
74 IP層
75 ネットワークI/F
76 メモリ
77 記憶装置
78 タイマ処理機構
79 送信機構
7a 受信機構
7b 周期送信タイマ
7c 送信処理部
7d 障害検出タイマ
7e 受信処理部
7f タイマ補正部
7g CPU
130 管理サーバ
150 管理機構
151 ユーザインタフェース
152 TCP/UDP層
153 IP層
154 ネットワークI/F
155 メモリ
156 記憶装置
157 タイマ処理機構
158 送信機構
159 受信機構
15a 受信処理部
15b 必要猶予時間算出部
15c 送信処理部
15d CPU

Claims (18)

  1. 複数のノード装置を備えたネットワークシステムであって、
    前記ノード装置はそれぞれ、対向するノード装置との経路の障害を検出する障害検出部を備え、
    第1のノード装置の前記障害検出部は、
    対向する第2のノード装置とネゴシエーションによって、障害検出のためのパケットの送信間隔を定め、
    前記第2のノード装置から送信される障害検出のためのパケットを受信し、及び、
    決定された障害検出時間が経過しても前記パケットを前記第2のノード装置から受信しないことにより、該第2のノード装置との経路の障害を検出し、
    前記障害検出時間は、前記第1のノード装置の前記障害検出部が、
    前記第2のノード装置とのネゴシエーションによって定められた前記パケットの送信間隔に基づく第1の障害検出時間を求め、
    予め設定された又は予め求められた猶予時間を、ネゴシエーションによって定められた前記パケットの送信間隔、又は、該送信間隔に基づく前記パケットが実際に送信される実送信間隔の予測値に加えて、第2の障害検出時間を求め、
    第1の障害検出時間と第2の障害検出時間とを比較し、大きい方の値が実運用で適用する前記障害検出時間として決定される
    前記ネットワークシステム。
  2. 前記第2の障害検出時間は、
    前記障害検出部が、
    設定値として予め与えられる猶予時間を、ネゴシエーションによって定められた前記パケットの送信間隔、又は、該送信間隔に基づく前記パケットが実際に送信される実送信間隔の予測値に加えて、第2の障害検出時間とすることを特徴とする請求項1に記載のネットワークシステム。
  3. 前記第2の障害検出時間は、
    前記障害検出部が、
    自ノード装置の負荷を測定し、
    測定された自ノード装置内の負荷に基づき猶予時間を求め、
    求められた猶予時間を、ネゴシエーションによって定められた前記パケットの送信間隔、又は、該送信間隔に基づく前記パケットが実際に送信される実送信間隔の予測値に加えて第2の障害検出時間とすることを特徴とする請求項1に記載のネットワークシステム。
  4. 前記ノード装置は、自ノード装置の負荷の平均及び分散に対応して猶予時間が予め記憶されたテーブル
    をさらに備え、
    前記障害検出部は、
    自ノード装置のCPU負荷、及び、周期的に動作する処理部分の実際の実行周期と設定された周期との差のいずれかを含む負荷の平均及び分散を測定し、
    測定された負荷の平均及び分散に基づき前記テーブルを参照して、対応する猶予時間を求める請求項3に記載のネットワークシステム。
  5. 前記障害検出部は、
    自ノード装置内の負荷を定期的に又は不定期に複数回測定し、
    測定された負荷に基づき求められた猶予時間が、過去に求められた猶予時間から変化している場合、求められた猶予時間に基づき第2の障害検出時間を再度求め、及び、前記障害検出時間を再度決定する請求項3に記載のネットワークシステム。
  6. 前記第2の障害検出時間は、
    前記障害検出部が、
    対向ノード装置からの前記パケットの受信間隔を測定し、受信間隔の平均及び分散を測定し、
    測定された受信間隔の平均および分散に基づき猶予時間を求め、
    求められた猶予時間を、ネゴシエーションによって定められた前記パケットの送信間隔、又は、該送信間隔に基づく前記パケットが実際に送信される実送信間隔の予測値に加えて第2の障害検出時間とすることを特徴とする請求項1に記載のネットワークシステム。
  7. 前記ノード装置は、パケットの受信間隔の平均及び分散に対応して猶予時間が予め記憶されたテーブル
    をさらに備え、
    前記障害検出部は、
    測定された受信間隔の平均及び分散に基づき前記テーブルを参照して、対応する猶予時間を決定する請求項6に記載のネットワークシステム。
  8. 前記障害検出部は、
    対向ノード装置からの前記パケットの受信間隔の平均及び分散を、定期的に又は不定期に複数回測定し、
    測定された受信間隔の平均及び分散に基づく猶予時間が、過去に求められた猶予時間から変化している場合、求められた猶予時間に基づき第2の障害検出時間を再度求め、及び、前記障害検出時間を再度決定する請求項6に記載のネットワークシステム。
  9. 前記ノード装置のそれぞれと通信する管理サーバ
    をさらに備え、
    前記第1のノード装置は、対向する前記第2のノード装置と接続を行う際に、前記第1のノード装置と対向する前記第2のノード装置で接続を行う旨を前記管理サーバに通知し、
    前記第1及び第2のノード装置は、自装置の接続負荷情報を前記管理サーバに送信し、
    前記通知を受信した管理サーバは、
    前記第1及び第2のノード装置から受信された接続負荷情報に基づき猶予時間を求めて、前記第1及び第2のノード装置に猶予時間を送信し、
    前記第1及び第2のノード装置は、前記管理サーバから受信した猶予時間を用いて前記第2の障害検出時間を求めることを特徴とする請求項1に記載のネットワークシステム。
  10. 前記接続負荷情報は、前記第1又は第2のノード装置のセッション数であり、
    前記管理サーバは、
    前記第1のノード装置のセッション数と前記第2のノード装置のセッション数に対応して、猶予時間が予め記憶されたテーブルを有し、
    受信された前記第1のノード装置のセッション数及び前記第2のノード装置のセッション数に基づき前記テーブルを検索して対応する猶予時間を取得し、取得された猶予時間を前記第1及び第2のノード装置に送信することを特徴とする請求項9に記載のネットワークシステム。
  11. 前記障害検出部は、BFD(Bidirectional Forwarding Detection)プロトコルを用い、及び、猶予時間を加味した障害検出時間を用いて障害を検出することを特徴とする請求項1乃至10のいずれかに記載のネットワークシステム。
  12. 複数のノード装置を備えたネットワークシステムにおける前記ノード装置であって、
    前記ノード装置は、対向ノード装置との経路の障害を検出する障害検出部を備え、
    前記障害検出部は、
    対向ノード装置とネゴシエーションによって、障害検出のためのパケットの送信間隔を定め、
    対向ノード装置から送信される障害検出のためのパケットを受信し、及び、
    決定された障害検出時間が経過しても前記パケットを前記対向ノード装置から受信しないことにより、該対向ノード装置との経路の障害を検出し、
    前記障害検出時間は、前記障害検出部が、
    前記対向ノード装置とのネゴシエーションによって定められた前記パケットの送信間隔に基づく第1の障害検出時間を求め、
    予め設定された又は予め求められた猶予時間を、ネゴシエーションによって定められた前記パケットの送信間隔、又は、該送信間隔に基づく前記パケットが実際に送信される実送信間隔の予測値に加えて、第2の障害検出時間を求め、
    第1の障害検出時間と第2の障害検出時間とを比較し、大きい方の値が実運用で適用する前記障害検出時間として決定される
    前記ノード装置。
  13. 前記第2の障害検出時間は、
    前記障害検出部が、
    設定値として予め与えられる猶予時間を、ネゴシエーションによって定められた前記パケットの送信間隔、又は、該送信間隔に基づく前記パケットが実際に送信される実送信間隔の予測値に加えて、第2の障害検出時間とすることを特徴とする請求項12に記載のノード装置。
  14. 前記第2の障害検出時間は、
    前記障害検出部が、
    自ノード装置の負荷を測定し、
    測定された自ノード装置内の負荷に基づき猶予時間を求め、
    求められた猶予時間を、ネゴシエーションによって定められた前記パケットの送信間隔、又は、該送信間隔に基づく前記パケットが実際に送信される実送信間隔の予測値に加えて第2の障害検出時間とすることを特徴とする請求項12に記載のノード装置。
  15. 前記第2の障害検出時間は、
    前記障害検出部が、
    対向ノード装置からの前記パケットの受信間隔を測定し、受信間隔の平均及び分散を測定し、
    測定された受信間隔の平均および分散に基づき猶予時間を求め、
    求められた猶予時間を、ネゴシエーションによって定められた前記パケットの送信間隔、又は、該送信間隔に基づく前記パケットが実際に送信される実送信間隔の予測値に加えて第2の障害検出時間とすることを特徴とする請求項12に記載のノード装置。
  16. 前記障害検出部が、
    対向ノード装置と接続を行う際に、対向ノード装置で接続を行う旨を管理サーバに通知し、
    自装置の接続負荷情報を前記管理サーバに送信し、
    該接続負荷情報と、対向ノード装置の接続負荷情報とに基づき管理サーバにより求められ及び送信された猶予時間を受信し、
    受信した猶予時間を用いて前記第2の障害検出時間を求めることを特徴とする請求項12に記載のノード装置。
  17. 前記障害検出部は、BFD(Bidirectional Forwarding Detection)プロトコルを用い、及び、猶予時間を加味した障害検出時間を用いて障害を検出することを特徴とする請求項12乃至16のいずれかに記載のノード装置。
  18. 第1及び第2のノード装置と管理サーバとを備えたネットワークシステムにおいて、前記第1のノード装置が、前記第2のノード装置とのネゴシエーションによって定められた障害検出のためのパケットの送信間隔に基づく第1の障害検出時間と、管理サーバより受信される猶予時間を、ネゴシエーションによって定められた前記パケットの送信間隔、又は、該送信間隔に基づく前記パケットが実際に送信される実送信間隔の予測値に加えた第2の障害検出時間とのいずれかを障害検出時間として決定し、決定された障害検出時間が経過しても障害検出のための前記パケットを前記第2のノード装置から受信しないことにより、該第2のノード装置との経路の障害を検出する前記ネットワークシステムにおける前記管理サーバであって、
    前記管理サーバは、
    第1のノード装置の接続負荷情報と第2のノード装置の接続負荷情報に対応して、猶予時間が予め記憶されたテーブル
    を有し、
    第1のノード装置と対向する第2のノード装置で接続を行う旨の通知を、該第1のノード装置から受信し、
    第1及び第2のノード装置から、それぞれの装置の接続負荷情報を受信し、
    第1及び第2のノード装置から受信された接続負荷情報に基づき、前記テーブルを検索して対応する猶予時間を求め、前記第1及び第2のノード装置に猶予時間を送信し、
    前記第1及び第2のノード装置により、該猶予時間を用いて前記第2の障害検出時間が求められるための前記管理サーバ。
JP2007064942A 2007-03-14 2007-03-14 ネットワークシステム、ノード装置及び管理サーバ Expired - Fee Related JP4639207B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007064942A JP4639207B2 (ja) 2007-03-14 2007-03-14 ネットワークシステム、ノード装置及び管理サーバ
CN2007101600845A CN101267389B (zh) 2007-03-14 2007-12-21 网络系统、节点装置及管理服务器
US11/964,210 US7801051B2 (en) 2007-03-14 2007-12-26 Network system, node device and management server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007064942A JP4639207B2 (ja) 2007-03-14 2007-03-14 ネットワークシステム、ノード装置及び管理サーバ

Publications (2)

Publication Number Publication Date
JP2008228035A true JP2008228035A (ja) 2008-09-25
JP4639207B2 JP4639207B2 (ja) 2011-02-23

Family

ID=39762546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007064942A Expired - Fee Related JP4639207B2 (ja) 2007-03-14 2007-03-14 ネットワークシステム、ノード装置及び管理サーバ

Country Status (3)

Country Link
US (1) US7801051B2 (ja)
JP (1) JP4639207B2 (ja)
CN (1) CN101267389B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010081496A (ja) * 2008-09-29 2010-04-08 Fujitsu Ltd アプリケーション間通信の高信頼化技術
JP2010200063A (ja) * 2009-02-26 2010-09-09 Oki Networks Co Ltd 伝送路故障検出方法及びプログラム
JP2011097571A (ja) * 2010-09-06 2011-05-12 Kyocera Corp 大セル基地局及び通信制御方法
JP2011151752A (ja) * 2010-01-25 2011-08-04 Fujitsu Ltd パケットトランスポート障害検出機能を含む通信ネットワークシステム
JP2014093661A (ja) * 2012-11-02 2014-05-19 Ntt Communications Corp パケット転送装置、監視方法、及びプログラム
JP2016535276A (ja) * 2013-09-18 2016-11-10 インテル コーポレイション 飛行時間測位のためのファインタイミング測定

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2010064532A1 (ja) * 2008-12-02 2012-05-10 日本電気株式会社 通信ネットワーク管理システム、方法、プログラム、及び管理計算機
US8711678B2 (en) * 2008-12-02 2014-04-29 Nec Corporation Communication network management system, method and program, and management computer
CN101931971A (zh) 2009-06-18 2010-12-29 中兴通讯股份有限公司 基站配置的管理方法及装置
JP5049317B2 (ja) * 2009-06-23 2012-10-17 株式会社日立製作所 伝送装置、伝送システム、障害検出方法
CN101697626A (zh) * 2009-10-30 2010-04-21 中兴通讯股份有限公司 基于双向转发检测协议的通信故障检测方法及系统
US8850062B2 (en) * 2010-08-09 2014-09-30 Cisco Technology, Inc. Distributed connectivity verification protocol redundancy
JP5754199B2 (ja) * 2011-03-25 2015-07-29 富士ゼロックス株式会社 管理システム、管理装置、及び制御プログラム
CN103378997B (zh) * 2012-04-26 2018-07-24 中兴通讯股份有限公司 一种nfs性能监控方法、前端节点及系统
US9258234B1 (en) * 2012-12-28 2016-02-09 Juniper Networks, Inc. Dynamically adjusting liveliness detection intervals for periodic network communications
US8953460B1 (en) 2012-12-31 2015-02-10 Juniper Networks, Inc. Network liveliness detection using session-external communications
CN104104644A (zh) * 2013-04-01 2014-10-15 中兴通讯股份有限公司 双向转发检测系统及双向转发检测的检测时间配置方法
JP6290053B2 (ja) * 2014-09-18 2018-03-07 株式会社東芝 通信装置、通信システムおよび通信方法
US9769017B1 (en) 2014-09-26 2017-09-19 Juniper Networks, Inc. Impending control plane disruption indication using forwarding plane liveliness detection protocols
CN106330588B (zh) * 2015-06-29 2020-01-10 华为技术有限公司 一种bfd检测方法与装置
US10374936B2 (en) 2015-12-30 2019-08-06 Juniper Networks, Inc. Reducing false alarms when using network keep-alive messages
US10397085B1 (en) 2016-06-30 2019-08-27 Juniper Networks, Inc. Offloading heartbeat responses message processing to a kernel of a network device
US11750441B1 (en) 2018-09-07 2023-09-05 Juniper Networks, Inc. Propagating node failure errors to TCP sockets
TWI696907B (zh) * 2018-11-26 2020-06-21 財團法人工業技術研究院 通訊失效偵測方法和裝置
CN110535712B (zh) * 2019-09-19 2022-08-26 杭州迪普科技股份有限公司 Bfd参数设置方法、装置、电子设备
US10972402B1 (en) * 2019-09-27 2021-04-06 Juniper Networks, Inc. Dynamic management of inline entries in hardware across protocols in a scaled environment
CN113708889A (zh) * 2020-05-22 2021-11-26 维沃移动通信有限公司 数据传输方法和设备
US11445423B2 (en) 2020-05-29 2022-09-13 Cisco Technology, Inc. Network environment health monitoring
CN111881067B (zh) * 2020-07-30 2022-07-08 北京浪潮数据技术有限公司 一种内存申请方法、装置、电子设备和介质
CN117526566B (zh) * 2023-11-16 2024-05-28 国网江苏省电力有限公司宿迁供电分公司 一种变电站远程操作联闭锁安全管理方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6496481B1 (en) * 1998-07-16 2002-12-17 Industrial Technology Research Institute Data transfer method for wire real-time communications
CN1695377A (zh) * 2002-11-14 2005-11-09 松下电器产业株式会社 传输数据结构以及发送该传输数据结构的方法与设备
JP3836077B2 (ja) * 2002-11-14 2006-10-18 松下電器産業株式会社 伝送データ構造及びそれを伝送するための方法並びに装置
JP4328602B2 (ja) * 2003-11-20 2009-09-09 富士通株式会社 パケットエラー訂正装置及び方法
JP4429845B2 (ja) * 2004-08-23 2010-03-10 本田技研工業株式会社 四輪駆動車両の故障検出装置
JP4840099B2 (ja) * 2006-11-20 2011-12-21 富士通株式会社 通話サーバ、通話システム、転送処理装置および転送処理プログラム
US7606143B2 (en) * 2007-02-28 2009-10-20 Embarq Corporation System and method for advanced fail-over for packet label swapping

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6010064278, D.Katz,D.Ward, "Bidirectional Forwarding Detection", draft−ietf−bfd−base−05.txt, 200606 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010081496A (ja) * 2008-09-29 2010-04-08 Fujitsu Ltd アプリケーション間通信の高信頼化技術
JP2010200063A (ja) * 2009-02-26 2010-09-09 Oki Networks Co Ltd 伝送路故障検出方法及びプログラム
JP2011151752A (ja) * 2010-01-25 2011-08-04 Fujitsu Ltd パケットトランスポート障害検出機能を含む通信ネットワークシステム
JP2011097571A (ja) * 2010-09-06 2011-05-12 Kyocera Corp 大セル基地局及び通信制御方法
JP2014093661A (ja) * 2012-11-02 2014-05-19 Ntt Communications Corp パケット転送装置、監視方法、及びプログラム
JP2016535276A (ja) * 2013-09-18 2016-11-10 インテル コーポレイション 飛行時間測位のためのファインタイミング測定
KR101836014B1 (ko) 2013-09-18 2018-03-07 인텔 코포레이션 Tof 포지셔닝을 위한 정밀 타이밍 측정
US10034188B2 (en) 2013-09-18 2018-07-24 Intel Corporation Fine-timing measurement exchange

Also Published As

Publication number Publication date
US20080225731A1 (en) 2008-09-18
JP4639207B2 (ja) 2011-02-23
CN101267389B (zh) 2011-05-25
CN101267389A (zh) 2008-09-17
US7801051B2 (en) 2010-09-21

Similar Documents

Publication Publication Date Title
JP4639207B2 (ja) ネットワークシステム、ノード装置及び管理サーバ
JP5913635B2 (ja) 冗長ネットワーク接続
US8913506B2 (en) Call quality monitoring
JP5867188B2 (ja) 情報処理装置、輻輳制御方法および輻輳制御プログラム
US9602374B2 (en) Systems and methods for collecting and analyzing data to determine link quality and stability in layer two networks
JP6186729B2 (ja) 監視システム及び監視プログラム
US20090245099A1 (en) Repeater and communication method
US20180167262A1 (en) Establishing a network fault detection session
CN108933818B (zh) 通信方法及装置
JP2012039565A (ja) 監視システム、監視装置、監視プログラム及び端末
JP2007180891A (ja) 通信装置及びそれに用いるパケット送信制御方法並びにそのプログラム
JP4532253B2 (ja) フレーム転送装置及びフレームのループ抑止方法
JP5042095B2 (ja) 通信装置および障害監視方法
WO2017036165A1 (zh) 链路故障检测方法及装置
CN114363147B (zh) 用于媒体访问控制安全性的改善的错误处理
JP2014204438A (ja) データ伝送方法、データ伝送デバイス、およびデータ伝送システム
JP2006229399A (ja) 通信システム、中継ノード及びそれらに用いる通信方法並びにそのプログラム
WO2012070274A1 (ja) 通信システムおよびネットワーク障害検出方法
JP2010205234A (ja) 監視システム、ネットワーク機器、監視情報提供方法およびプログラム
JP5637975B2 (ja) ネットワークシステムおよび通信装置
JP6705815B2 (ja) 候補問題ネットワーク・エンティティの識別
JP5953101B2 (ja) 通信システム、ルータ、通信方法および制御プログラム
JP2012205143A (ja) ルータおよびメトリック管理方法
JP4818338B2 (ja) 監視サーバ、ネットワーク監視方法
JP7280998B2 (ja) 通信経路制御システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101116

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101129

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees