JP2011211350A - 故障検出装置 - Google Patents

故障検出装置 Download PDF

Info

Publication number
JP2011211350A
JP2011211350A JP2010075096A JP2010075096A JP2011211350A JP 2011211350 A JP2011211350 A JP 2011211350A JP 2010075096 A JP2010075096 A JP 2010075096A JP 2010075096 A JP2010075096 A JP 2010075096A JP 2011211350 A JP2011211350 A JP 2011211350A
Authority
JP
Japan
Prior art keywords
switch device
link information
unit
switch
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010075096A
Other languages
English (en)
Other versions
JP5322987B2 (ja
Inventor
Takanori Takahashi
孝徳 高橋
Masaki Fukui
将樹 福井
Toshihiro Takahashi
利広 高橋
Masaki Tomita
昌樹 富田
Masahiro Kobayashi
正啓 小林
Takashi Ogawa
隆司 小川
Katsuhiro Kutsukake
勝弘 沓掛
Kaoru Masuda
薫 増田
Takayuki Kusakabe
貴之 日下部
Takanori Numata
高典 沼田
Toshinari Kurihara
利成 栗原
Takayasu Imai
崇泰 今井
Hitoshi Yamada
仁志 山田
Koichi Usami
浩一 宇佐美
Hirotaka Kuwahara
裕隆 桑原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone East Corp
Original Assignee
Nippon Telegraph and Telephone East Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone East Corp filed Critical Nippon Telegraph and Telephone East Corp
Priority to JP2010075096A priority Critical patent/JP5322987B2/ja
Publication of JP2011211350A publication Critical patent/JP2011211350A/ja
Application granted granted Critical
Publication of JP5322987B2 publication Critical patent/JP5322987B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

【課題】ネットワークにおいてサイレント故障が発生した場合にも、故障箇所の特定をする。
【解決手段】読み出し部102は、スイッチ装置200−1〜200−5から、隣接するスイッチ装置ごとに、MIB情報を読み出す。当該MIB情報には、少なくとも、隣接するスイッチ装置への送信パケット数と、隣接するスイッチ装置からの受信パケット数とが含まれる。次に、故障検出部108は、読み出し部102が読み出したMIB情報を用いて、スイッチ装置200−1〜200−5と隣接するスイッチ装置との間のリンクが故障しているか否かを判定する。
【選択図】図1

Description

本発明は、複数のスイッチ装置から構成されるネットワークにおける故障箇所を検出する故障検出装置に関する。
従来、スイッチ装置を連接したネットワークの故障管理は、スイッチ装置から発せられる、ネットワークまたは装置上で発生した障害や状態変化などを示す警報をオペレータが監視することで行っている。例えば、スイッチ装置は、自装置のポートの状態が転送可能状態から転送不可能状態へ変化したことを、リンクダウンとして検出する。そして、スイッチ装置が検出したポートの識別子や状態を管理装置に対して警報として発することで、オペレータは、故障の発生場所を特定し、故障に対する対応を行うことができる。
しかし、スイッチ装置からの警報に基づいた故障管理は、サイレント故障の発生時に、故障に対する対応が遅れてしまうという問題がある。ここで、サイレント故障とは、故障が発生したが、その情報をオペレータが把握できない状態のことである。具体的には、お客様通信の不達などが発生しているにも関わらず、スイッチ装置が警報を発しないために発生する。
このようなサイレント故障に対処するため、従来の故障管理においては、ネットワークの端部のスイッチ装置同士でEth−CCフレームを定期的に(例えば、1秒に1フレーム)送信することで、ネットワークの疎通確認をしている。ここで、Eth−CCフレームとは、装置間の故障を検出するための試験フレームである。これにより、ネットワークの端部のスイッチ装置が、所定の時間以内にEth−CCフレームを受信しなかった場合、ネットワーク内において故障が発生していることが分かる。なお、ETH−CCは、装置間で試験フレームを送受信することによって故障を検出するための機能であり、ITU−TのY.1731(Ethernet(登録商標) OAM)で規定されている。
なお、特許文献1に、ネットワーク上において隣接するスイッチ装置のそれぞれから、ポーリングによってMIB(Management Information Base)情報を取得し、隣接するスイッチ装置のMIB情報を比較することで、スイッチ装置間における異常の有無を判定する技術が開示されている。なお、MIBは、SNMPで管理される通信装置が自装置の状態を外部に通知するために公開する情報であり、RFC1156、RFC1213で規定されている。
特開2006−174375号公報
しかしながら、上述したEth−CCフレームによる故障の検出は、ネットワークの端部のスイッチ装置がフレームを受信したか否かによって判定するものであるため、ネットワーク上における故障の有無を検出することはできても、故障箇所の特定をすることはできないという問題があった。
また、特許文献1に記載の技術を用いた故障管理を行う場合、ネットワークを構成するスイッチ装置のそれぞれがMIB情報を解析する処理部を備える必要がある。そのため、MIB情報を解析する処理部を備えない従来のスイッチ装置によって構成されたネットワークの故障管理を行う場合、特許文献1に記載の方法を用いることができないという問題があった。
本発明は上記の課題を解決するためになされたものであり、複数のスイッチ装置から構成されるネットワークにおける故障箇所を検出する故障検出装置であって、前記ネットワークを構成するスイッチ装置のそれぞれから、当該スイッチ装置に隣接して接続する他のスイッチ装置である隣接スイッチ装置への送信データ量と当該隣接スイッチ装置からの受信データ量とを示すリンク情報を、前記隣接スイッチ装置ごとに読み出す読み出し部と、前記複数あるスイッチ装置のうち第1のスイッチ装置から前記読み出し部が読み出すリンク情報である第1のリンク情報と、前記第1のスイッチ装置の隣接スイッチ装置である第2のスイッチ装置から前記読み出し部が読み出すリンク情報である第2のリンク情報とを用いて、前記第1のリンク情報が示す、前記第1のスイッチ装置から前記第2のスイッチ装置への送信データ量が、前記第2のリンク情報が示す、前記第2のスイッチ装置における前記第1のスイッチ装置からの受信データ量より所定の割合以上大きい場合、または前記第2のリンク情報が示す、前記第2のスイッチ装置から前記第1のスイッチ装置への送信データ量が、前記第1のリンク情報が示す、前記第1のスイッチ装置における前記第2のスイッチ装置からの受信データ量より所定の割合以上大きい場合に、前記第1のスイッチ装置と前記第2のスイッチ装置との間のリンクに故障が発生していると判定するリンク故障検出部とを備えることを特徴とする。
また、本発明において、前記読み出し部が読み出すリンク情報は、前記隣接スイッチ装置を特定する隣接スイッチ識別情報を含み、前記リンク故障検出部は、前記第1のスイッチ装置から読み出したリンク情報の中から、前記隣接スイッチ識別情報が前記第2のスイッチ装置を示すものを抽出し、また、前記第2のスイッチ装置から読み出したリンク情報の中から、前記隣接スイッチ識別情報が前記第1のスイッチ装置を示すものを抽出し、当該抽出した2つのリンク情報を用いて、前記第1のスイッチ装置と前記第2のスイッチ装置との間のリンクが故障しているか否かの判定を行うことが望ましい。
また、本発明においては、前記読み出し部が読み出したリンク情報をリンク情報記憶部に登録する登録部と、前記登録部が前記リンク情報記憶部に前回登録したリンク情報が示す送信データ量と前記登録部が前記リンク情報記憶部に新たに登録したリンク情報が示す送信データ量との差分、及び前記登録部が前記リンク情報記憶部に前回登録したリンク情報が示す受信データ量と前記登録部が前記リンク情報記憶部に新たに登録したリンク情報が示す受信データ量との差分を算出する差分算出部と、を備え、前記読み出し部は、前記スイッチ装置のそれぞれから前記リンク情報を定期的に読み出し、前記差分算出部が算出した前記第1のスイッチ装置から前記第2のスイッチ装置への送信データ量の差分が、前記差分算出部が算出した前記第2のスイッチ装置における前記第1のスイッチ装置からの受信データ量の差分より所定の割合以上大きい場合、または前記差分算出部が算出した前記第2のスイッチ装置から前記第1のスイッチ装置への送信データ量の差分が、前記差分算出部が算出した前記第1のスイッチ装置における前記第2のスイッチ装置からの受信データ量の差分より所定の割合以上大きい場合に、前記第1のスイッチ装置と前記第2のスイッチ装置との間のリンクが故障していると判定することが望ましい。
また、本発明においては、前記差分算出部が算出した第1のスイッチ装置の送信データ量の差分及び受信データ量の差分が何れも零である場合に、当該スイッチ装置のポートが故障していると判定するポート故障検出部を備えることが望ましい。
本発明によれば、故障検出装置は、スイッチ装置のそれぞれから読み出したリンク情報に含まれる送信データ量及び受信データ量と、隣接スイッチ装置の送信データ量及び受信データ量とを比較することで故障の有無の判定、及び故障箇所の特定を行う。これにより、ネットワークにおいてサイレント故障が発生した場合にも、故障箇所の特定をすることができる。
また、本発明によれば、スイッチ装置のそれぞれがリンク情報を解析する処理部を備える必要がない。
本発明の一実施形態による故障検出装置を備えるネットワーク監視システムの構成を示す概略ブロック図である。 故障検出装置のMIB情報記憶部が記憶する情報を示す図である。 故障検出装置の動作を示すフローチャートである。 ポートが故障している場合におけるスイッチ装置の差分情報を示す図である。 リンクが故障している場合におけるスイッチ装置の差分情報を示す図である。
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態による故障検出装置を備えるネットワーク監視システムの構成を示す概略ブロック図である。
ネットワーク監視システムは、故障検出装置100と、複数のスイッチ装置200−1〜200−5(以下、スイッチ装置200−1〜200−5を総称する場合はスイッチ装置200と表記する)から構成されるネットワークとを備える。
故障検出装置100は、スイッチ情報記憶部101、読み出し部102、計時部103、計数部104、登録部105、MIB情報記憶部106(リンク情報記憶部)、差分算出部107、故障検出部108(リンク故障検出部、ポート故障検出部)を備える。
スイッチ情報記憶部101は、ネットワークを構成するスイッチ装置200の名称とIPアドレスとを関連付けて記憶する。
読み出し部102は、定期的に(例えば、10秒に1度)スイッチ装置200のそれぞれに対して、ポート毎のMIB情報(リンク情報)を要求するポーリングを実施し、スイッチ装置200のそれぞれからMIB情報を読み出す。ここで、MIB情報とは、累積受信パケット数(受信データ量)、累積送信パケット数(送信データ量)、リンク状態などの情報を示す。本実施形態では、MIB情報として、RFC(Request For Comments)によって規定された標準MIB情報を用いる。したがって、本実施形態によれば、スイッチ装置200のベンダや装置スペックが異なっていても同一形式の情報を読み出すことができる。
計時部103は、読み出し部102がポーリングを実施した時刻からの経過時間を計測する。
計数部104は、読み出し部102によるポーリングの実施回数を計数する。
登録部105は、読み出し部102がスイッチ装置200から読み出したMIB情報を、読み出し元のスイッチ装置200の名称と、計数部104が計数したポーリングの実施回数とに関連付けてMIB情報記憶部106に登録する。
図2は、故障検出装置のMIB情報記憶部が記憶する情報を示す図である。
MIB情報記憶部106は、読み出し部102が読み出したMIB情報を記憶する。具体的には、MIB情報記憶部106は、図2に示すように、ポーリング実施回数とスイッチ装置名称とポート番号とに関連付けて、累積受信パケット数、累積送信パケット数、リンク状態、隣接するスイッチ装置の名称(隣接スイッチ識別情報)、及び隣接するスイッチ装置のポート番号を記憶する。ここで、「隣接するスイッチ装置(隣接スイッチ装置)」とは、一のスイッチ装置200に直接接続されている他のスイッチ装置200のことを示す。例えば、図1を参照すると、スイッチ装置200−1とスイッチ装置200−2とは隣接しているが、スイッチ装置200−1とスイッチ装置200−3とは隣接していない。言い換えると、複数あるスイッチ装置200のうち、第1のスイッチ装置200が、他のスイッチ装置200を介することなく、第2のスイッチ装置200に接続される場合を示す。
また、故障検出部108は、故障があると判定した場合、故障の発生場所を特定し、音声や画面によってオペレータに故障の発生場所を通知する。
ポーリング実施回数は、計数部104が計数する読み出し部102によるポーリングの実施回数を示す。
スイッチ装置名称は、読み出し部102がMIB情報を読み出したスイッチ装置200の名称を示し、当該名称によりスイッチ装置200を一意に特定することができる。
ポート番号は、スイッチ装置200のポート番号である。
ポーリング実施回数、スイッチ装置名称及びポート番号の組み合わせが、MIB情報記憶部106の主キーであり、これらの組み合わせによってMIB情報が一意に定まる。
差分算出部107は、MIB情報記憶部106が記憶するMIB情報から、読み出し部102が最後に読み出したMIB情報と読み出し部102が前回読み出したMIB情報との差分を算出する。
故障検出部108は、差分算出部107が算出したMIB情報の差分を用いて、隣接する2つのスイッチ装置200の間のリンク、またはスイッチ装置200のポートにおける故障の有無を判定する。
また、ネットワークの端部のスイッチ装置200−1、200−5は、定期的に、スイッチ装置200−2〜200−4を介してEth−CCフレームの送受信を行う。このとき、Eth−CCフレームによる通信頻度は、故障検出装置100によるポーリングの頻度より高いものとする。また、隣接するスイッチ装置200同士は、相互にLLDP(Link Layer Discovery Protocol)パケットを送受信する。ここで、LLDPパケットとは、スイッチ装置200の名称や設定情報などを隣接するノードに通知するパケットのことである。なお、LLDPは、デバイスの識別情報、設定情報などを交換するレイヤ2プロトコルであり、IEEE802.1ABで規定されている。
また、スイッチ装置200は、故障検出装置100からポーリング信号を受信すると、自装置のポート毎に、累積受信パケット数、累積送信パケット数、リンク状態、及び隣接するスイッチ装置200の情報を、故障検出装置100に送信する。
そして、このような構成を有する故障検出装置100において、読み出し部102は、ネットワークを構成するスイッチ装置200のそれぞれから、隣接するスイッチ装置200ごとに、MIB情報を読み出す。当該MIB情報には、少なくとも、隣接するスイッチ装置200への送信パケット数と、隣接するスイッチ装置200からの受信パケット数とが含まれる。次に、故障検出部108は、複数あるスイッチ装置200のうち第1のスイッチ装置200から読み出し部102が読み出すリンク情報である第1のリンク情報と、第1のスイッチ装置200に隣接するスイッチ装置である第2のスイッチ装置200から読み出し部102が読み出すリンク情報である第2のリンク情報とを用いて、第1のスイッチ装置200と第2のスイッチ装置200との間のリンクに故障が発生しているか否かを判定する。
具体的には、故障検出部108は第1のリンク情報が示す、第1のスイッチ装置200から第2のスイッチ装置200への送信データ量が、第2のリンク情報が示す、第2のスイッチ装置200における第1のスイッチ装置200からの受信データ量より所定の割合以上大きいか否かを判定する。また、故障検出部108は、第2のリンク情報が示す、第2のスイッチ装置200から第1のスイッチ装置200への送信データ量が、第1のリンク情報が示す、第1のスイッチ装置200における第2のスイッチ装置200からの受信データ量より所定の割合以上大きいか否かを判定する。そして、故障検出部108は、2つの判定結果の少なくとも何れか一方が所定の割合以上大きいことを示す場合、第1のスイッチ装置200と第2のスイッチ装置200との間のリンクが故障していると判定する。
これにより、故障検出装置100は、ネットワークにおいてサイレント故障が発生した場合にも、故障箇所の特定をすることができる。
次に、本発明による故障検出装置100の動作を説明する。
図3は、故障検出装置の動作を示すフローチャートである。
まず、故障検出装置100の読み出し部102は、スイッチ情報記憶部101から監視対象のネットワークを構成するスイッチ装置200のIPアドレスと名称を読み出す(ステップS1)。次に、読み出し部102は、読み出したIPアドレスを宛先として、ポーリング信号を送信することで、MIBポーリングを実施する(ステップS2)。読み出し部102がポーリングを実施すると、計数部104は、内部メモリに格納するポーリング実施回数を1つカウントアップさせる。なお、計数部104が記憶するポーリング実施回数の初期値は「0」である。また、計時部103は、現在時刻からの経過時間の計測を開始する(ステップS3)。
スイッチ装置200は、故障検出装置100からのポーリング信号を受信すると、自装置の累積受信パケット数、累積送信パケット数、リンク状態、及び隣接するスイッチ装置200の名称並びにポート番号を、MIB情報として故障検出装置100に送信する。
故障検出装置100がスイッチ装置200からMIB情報を受信すると、故障検出装置100の読み出し部102は、スイッチ装置200からMIB情報を読み出す(ステップS4)。
次に、登録部105は、計数部104が記憶するポーリング実施回数、MIB情報の読み出し元であるスイッチ装置200の名称、及びスイッチ装置200のポート番号の組み合わせを主キーとして、読み出し部102が読み出したMIB情報をMIB情報記憶部106に登録する(ステップS5)。
次に、差分算出部107は、MIB情報記憶部106から、今回新たに登録されたMIB情報と前回登録されたMIB情報とを読み出す。具体的には、差分算出部107は、MIB情報記憶部から、最も大きいポーリング実施回数に関連付けられたMIB情報と、2番目に大きいポーリング実施回数に関連付けられたMIB情報とを読み出す。
次に、差分算出部107は、スイッチ装置名称とポート番号との組み合わせ毎に、前回登録した累積送信パケット数と新たに登録した累積送信パケット数との差分を算出する。また、差分算出部107は、スイッチ装置名称とポート番号との組み合わせ毎に、前回登録した累積受信パケット数と新たに登録した累積受信パケット数との差分を算出する(ステップS6)。
なお、MIB情報記憶部106は、初回実行時、ポーリング実施回数「1」に関連付けられたMIB情報のみを記憶している。そのため、差分算出部107は、当該MIB情報を読み出し、差分を算出せずに故障検出部108に出力する。
次に、故障検出部108は、スイッチ装置200とポート番号との組み合わせを1つ選択し、以下に示すステップS8〜ステップS13の処理を実行する。なお、故障検出部108は、ステップS8〜ステップS13の処理を、全てのスイッチ装置200とポート番号との組み合わせに対して実行する(ステップS7)。
まず、故障検出部108は、ステップS7で選択したスイッチ装置200(第1のスイッチ装置:以下、スイッチ装置200−Aと呼ぶ)の名称とステップS7で選択したポート(以下、ポートAと呼ぶ)のポート番号とに関連付けられた受信パケット数の差分、及び送信パケット数の差分を差分算出部107から読み出す。次に、故障検出部108は、読み出した受信パケット数の差分、及び送信パケット数の差分が共に「0」であるか否かを判定する(ステップS8)。
ここで、図4は、ポートが故障している場合におけるスイッチ装置の差分情報を示す図である。
故障検出部108は、読み出した受信パケット数の差分、及び送信パケット数の差分が共に「0」であると判定した場合(ステップS8:YES)、ポートAが故障していると判定し、音声や画面によってオペレータに、ポートAに故障が発生していること通知する(ステップS9)。
図4に示すように、受信パケット数の差分、及び送信パケット数の差分が共に「0」である場合に、ポートAに障害が発生していると判定する理由を説明する。
上述したように、スイッチ装置200によるEth−CCフレームの通信頻度は、故障検出装置100によるポーリングの頻度より高いため、スイッチ装置200−AのポートAが正常である場合、スイッチ装置200は、故障検出装置100がポーリングを2回実施する間に1回以上のEth−CCフレームの通信を行うこととなる。
他方、上述したように、スイッチ装置200−AのポートAが故障している場合、ポートAは、Eth−CCフレームの送受信を受け付けなくなることが予測される。したがって、故障検出装置100がポーリングを2回実施する間に、スイッチ装置200−Aが、Eth−CCフレームの送信及び受信を1度も行っていない場合、スイッチ装置200−AのポートAが故障している可能性が高いことが分かる。
他方、故障検出部108は、読み出した受信パケット数の差分か送信パケット数の差分かの少なくともいずれかが「0」でないと判定した場合(ステップS8:NO)、スイッチ装置200−Aに隣接するスイッチ装置200(第2のスイッチ装置:以下、スイッチ装置200−Bと呼ぶ)の受信パケット数の差分、及び送信パケット数の差分を差分算出部107から読み出す(ステップS10)。
以下に、スイッチ装置200−Bの受信パケット数の差分、及び送信パケット数の差分の具体的な読み出し方法を説明する。
故障検出部108は、スイッチ装置200−AとポートAとの組み合わせに関連付けられた「隣接するスイッチ装置」(すなわち、スイッチ装置200−B)及び「隣接するスイッチ装置のポート番号」(以下、「ポートB」と呼ぶ)をMIB情報記憶部106から読み出す。そして、故障検出部108は、スイッチ装置200−BとポートBとに関連付けられた受信パケット数の差分、及び送信パケット数の差分を、差分算出部107から読み出す。このとき、MIB情報記憶部106が記憶するMIB情報のうち、「スイッチ装置名称」がスイッチ装置200−Bを示し、かつ「ポート番号」がポートBを示すMIB情報は、「隣接するスイッチ装置」としてスイッチ装置200−Aを示すこととなる。
つまり、故障検出部108は、スイッチ装置200−Aから読み出したMIB情報の中から、「隣接するスイッチ装置」がスイッチ装置200−Bを示すものを抽出する。また、故障検出部108は、スイッチ装置200−Bから読み出したリンク情報の中から、「隣接するスイッチ装置」がスイッチ装置200−Aを示すものを抽出する。
次に、故障検出部108は、スイッチ装置200−Aの送信パケット数の差分が、スイッチ装置200−Bの受信パケット数の差分と比較して、著しく大きいか否かを判定する(ステップS11)。ここで、「著しく大きい」とは、スイッチ装置200−Aの送信パケット数の差分がスイッチ装置200−Bの受信パケット数の差分より所定の割合(例えば10倍)以上大きいことを示す。故障検出部108は、スイッチ装置200−Aの送信パケット数の差分とスイッチ装置200−Bの受信パケット数の差分との差が著しくないと判定した場合(ステップS11:NO)、スイッチ装置200−Bの送信パケット数の差分が、スイッチ装置200−Aの受信パケット数の差分と比較して著しく大きいか否かを判定する(ステップS12)。
故障検出部108は、スイッチ装置200−Bの送信パケット数の差分とスイッチ装置200−Aの受信パケット数の差分との差が著しくないと判定した場合(ステップS12:NO)、スイッチ装置200−Aとスイッチ装置200−Bとの間に故障が無いと判定する。
他方、故障検出部108は、スイッチ装置200−Aの送信パケット数の差分がスイッチ装置200−Bの受信パケット数の差分と比較して著しく大きいと判定した場合(ステップS11:YES)、またはスイッチ装置200−Bの送信パケット数の差分がスイッチ装置200−Aの受信パケット数の差分と比較して著しく大きいと判定した場合(ステップS12:YES)、スイッチ装置200−Aとスイッチ装置200−Bとを接続するリンクが故障していると判定する(ステップS13)。
図5は、リンクが故障している場合におけるスイッチ装置の差分情報を示す図である。
ここで、図5に示すように、スイッチ装置200−Aからスイッチ装置200−Bへの送信パケット数が、スイッチ装置200−Bにおけるスイッチ装置200−Aからの受信パケット数より著しく大きい場合、またはスイッチ装置200−Bからスイッチ装置200−Aへの送信パケット数が、スイッチ装置200−Aにおけるスイッチ装置200−Bからの受信パケット数より著しく大きい場合に、スイッチ装置200−Aとスイッチ装置200−Bとの間のリンクが故障していると判定する理由を説明する。
スイッチ装置200−Aとスイッチ装置200−Bとの間のリンクが正常である場合、多少のパケットロスが発生したとしても、スイッチ装置200−Aの送信パケット数とスイッチ装置200−Bの受信パケット数とは近似する値となることが予測される。同様に、スイッチ装置200−Bの送信パケット数とスイッチ装置200−Aの受信パケット数とは近似する値となることが予測される。
他方、スイッチ装置200−Aとスイッチ装置200−Bとの間のリンクが故障している場合、それぞれのスイッチ装置200は、隣接するスイッチ装置200にパケットを送信することができても、隣接するスイッチ装置200からパケットを受信することはできない。そのため、送信パケット数が受信パケット数と比較して著しく大きくなることが予測される。
したがって、送信パケット数が受信パケット数と比較して著しく大きい場合は、スイッチ装置200間のリンクが故障している可能性が高いことが分かる。
故障検出部108は、全てのスイッチ装置200とポート番号との組み合わせに対して、上述したステップS8〜ステップS13の処理を実行していない場合、ステップS7に戻り、新たなスイッチ装置200−Aの選択を行う。
他方、故障検出部108が全てのスイッチ装置200とポート番号との組み合わせに対して、上述した処理を実行した場合、読み出し部102は、計時部103がステップS3から計測している時間が、一定時間(MIBポーリングの定期実施時間)を経過しているか否かを判定する(ステップS14)。読み出し部102は、計時部103が計測している時間が一定時間を経過したと判定した場合(ステップS14:YES)、ステップS1に戻り、次のMIBポーリングを実施する。
他方、読み出し部102が、計時部103が計測している時間が一定時間を経過していないと判定した場合(ステップS14:NO)、故障検出装置100は、オペレータなどによる操作や割り込み処理などにより、外部から処理の終了要求を入力したか否かを判定する(ステップS15)。故障検出装置100は、外部から終了要求を入力していないと判定した場合(ステップS15:NO)、ステップS14に戻り、一定時間の経過の判定を継続する。他方、故障検出装置100は、外部から終了要求を入力したと判定した場合(ステップS15:YES)、処理を終了する。
このように、本実施形態によれば、故障検出装置100は、スイッチ装置200のそれぞれから読み出したMIB情報に基づいて故障箇所を特定する。これにより、ネットワークにおいてサイレント故障が発生した場合にも、故障箇所の特定をすることができる。
また、本実施形態によれば、故障検出装置100がMIB情報の読み出し及び解析を行う。そのため、ネットワークを構成するスイッチ装置200のそれぞれがMIB情報を解析する処理部を備える必要がなく、従来のスイッチ装置によって構成されたネットワークに対しても故障箇所の特定を行うことができる。
また、本実施形態によれば、スイッチ装置200はLLDPパケットの送受信により、隣接するスイッチ装置200の情報を保持し、故障検出装置100は、MIB情報として隣接するスイッチ装置の情報を読み出す。これにより、故障検出装置100は、予めネットワークの構成を管理する必要がなく、少なくともネットワークを構成するスイッチ装置200の名称及びIPアドレスを記憶しておくことで、故障箇所の特定を行うことができる。
また、本実施形態によれば、故障検出装置100は、2回のポーリングによって得られたMIB情報の差分によって故障箇所の特定を行う。そのため、スイッチ装置200のそれぞれに正確な同期処理を行う必要がなく、容易に故障箇所の特定処理を行うことができる。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、本実施形態では、読み出し部102がスイッチ装置200のそれぞれから隣接するスイッチ装置200の情報を読み出し、故障検出部108が当該情報に基づいて故障箇所の特定を行う場合を説明したが、これに限られない。例えば故障検出装置100のスイッチ情報記憶部101がネットワークの構成を示すトポロジ情報を記憶し、故障検出部108が当該トポロジ情報に基づいて故障箇所の特定を行う構成としてもよい。
また、本実施形態では、MIB情報の差分を算出することで所定時間内における送受信パケット数を取得する場合を説明したが、これに限られず、例えば、MIB情報以外の情報から所定時間内における送受信パケット数を算出しても良いし、スイッチ装置200から所定の時間内における送受信パケット数を示す信号を直接読み出しても良い。
また、本実施形態では、故障検出部108は、送信パケット数及び受信パケット数を用いてスイッチ装置200における通信の有無を確認する場合を説明したが、これに限られず、例えば、故障検出部108は、送信データ量及び受信データ量を用いてスイッチ装置200における通信の有無を確認しても良い。
上述の故障検出装置100は内部に、コンピュータシステムを有している。そして、上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
100…故障検出装置 101…スイッチ情報記憶部 102…読み出し部 103…計時部 104…計数部 105…登録部 106…MIB情報記憶部 107…差分算出部 108…故障検出部 200、200−1〜200−5、200−A、200−B…スイッチ装置

Claims (4)

  1. 複数のスイッチ装置から構成されるネットワークにおける故障箇所を検出する故障検出装置であって、
    前記ネットワークを構成するスイッチ装置のそれぞれから、当該スイッチ装置に隣接して接続する他のスイッチ装置である隣接スイッチ装置への送信データ量と当該隣接スイッチ装置からの受信データ量とを示すリンク情報を、前記隣接スイッチ装置ごとに読み出す読み出し部と、
    前記複数あるスイッチ装置のうち第1のスイッチ装置から前記読み出し部が読み出すリンク情報である第1のリンク情報と、前記第1のスイッチ装置の隣接スイッチ装置である第2のスイッチ装置から前記読み出し部が読み出すリンク情報である第2のリンク情報とを用いて、前記第1のリンク情報が示す、前記第1のスイッチ装置から前記第2のスイッチ装置への送信データ量が、前記第2のリンク情報が示す、前記第2のスイッチ装置における前記第1のスイッチ装置からの受信データ量より所定の割合以上大きい場合、または前記第2のリンク情報が示す、前記第2のスイッチ装置から前記第1のスイッチ装置への送信データ量が、前記第1のリンク情報が示す、前記第1のスイッチ装置における前記第2のスイッチ装置からの受信データ量より所定の割合以上大きい場合に、前記第1のスイッチ装置と前記第2のスイッチ装置との間のリンクに故障が発生していると判定するリンク故障検出部と
    を備えることを特徴とする故障検出装置。
  2. 前記読み出し部が読み出すリンク情報は、前記隣接スイッチ装置を特定する隣接スイッチ識別情報を含み、
    前記リンク故障検出部は、前記第1のスイッチ装置から読み出したリンク情報の中から、前記隣接スイッチ識別情報が前記第2のスイッチ装置を示すものを抽出し、また、前記第2のスイッチ装置から読み出したリンク情報の中から、前記隣接スイッチ識別情報が前記第1のスイッチ装置を示すものを抽出し、当該抽出した2つのリンク情報を用いて、前記第1のスイッチ装置と前記第2のスイッチ装置との間のリンクが故障しているか否かの判定を行う
    ことを特徴とする請求項1に記載の故障検出装置。
  3. 前記読み出し部が読み出したリンク情報をリンク情報記憶部に登録する登録部と、
    前記登録部が前記リンク情報記憶部に前回登録したリンク情報が示す送信データ量と前記登録部が前記リンク情報記憶部に新たに登録したリンク情報が示す送信データ量との差分、及び前記登録部が前記リンク情報記憶部に前回登録したリンク情報が示す受信データ量と前記登録部が前記リンク情報記憶部に新たに登録したリンク情報が示す受信データ量との差分を算出する差分算出部と、
    を備え、
    前記読み出し部は、前記スイッチ装置のそれぞれから前記リンク情報を定期的に読み出し、
    前記差分算出部が算出した前記第1のスイッチ装置から前記第2のスイッチ装置への送信データ量の差分が、前記差分算出部が算出した前記第2のスイッチ装置における前記第1のスイッチ装置からの受信データ量の差分より所定の割合以上大きい場合、または前記差分算出部が算出した前記第2のスイッチ装置から前記第1のスイッチ装置への送信データ量の差分が、前記差分算出部が算出した前記第1のスイッチ装置における前記第2のスイッチ装置からの受信データ量の差分より所定の割合以上大きい場合に、前記第1のスイッチ装置と前記第2のスイッチ装置との間のリンクが故障していると判定する
    ことを特徴とする請求項1または請求項2に記載の故障検出装置。
  4. 前記差分算出部が算出した第1のスイッチ装置の送信データ量の差分及び受信データ量の差分が何れも零である場合に、当該スイッチ装置のポートが故障していると判定するポート故障検出部
    を備えることを特徴とする請求項3に記載の故障検出装置。
JP2010075096A 2010-03-29 2010-03-29 故障検出装置 Expired - Fee Related JP5322987B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010075096A JP5322987B2 (ja) 2010-03-29 2010-03-29 故障検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010075096A JP5322987B2 (ja) 2010-03-29 2010-03-29 故障検出装置

Publications (2)

Publication Number Publication Date
JP2011211350A true JP2011211350A (ja) 2011-10-20
JP5322987B2 JP5322987B2 (ja) 2013-10-23

Family

ID=44941984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010075096A Expired - Fee Related JP5322987B2 (ja) 2010-03-29 2010-03-29 故障検出装置

Country Status (1)

Country Link
JP (1) JP5322987B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013102308A (ja) * 2011-11-07 2013-05-23 Fujitsu Ltd 通信装置、障害検出方法および障害検出プログラム
JP2016134056A (ja) * 2015-01-21 2016-07-25 三菱電機株式会社 情報処理システム
JP2020088786A (ja) * 2018-11-30 2020-06-04 富士通株式会社 スイッチ装置及び障害検知プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108566315B (zh) * 2018-03-30 2019-10-08 中国联合网络通信集团有限公司 一种故障链路的检测方法、装置及服务器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000151607A (ja) * 1998-09-11 2000-05-30 Hitachi Ltd Ipパケット通信装置及び光ネットワ―ク
JP2006352763A (ja) * 2005-06-20 2006-12-28 Fujitsu Ltd ネットワーク障害検出装置及びネットワーク障害検出方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000151607A (ja) * 1998-09-11 2000-05-30 Hitachi Ltd Ipパケット通信装置及び光ネットワ―ク
JP2006352763A (ja) * 2005-06-20 2006-12-28 Fujitsu Ltd ネットワーク障害検出装置及びネットワーク障害検出方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013102308A (ja) * 2011-11-07 2013-05-23 Fujitsu Ltd 通信装置、障害検出方法および障害検出プログラム
JP2016134056A (ja) * 2015-01-21 2016-07-25 三菱電機株式会社 情報処理システム
JP2020088786A (ja) * 2018-11-30 2020-06-04 富士通株式会社 スイッチ装置及び障害検知プログラム
JP7119957B2 (ja) 2018-11-30 2022-08-17 富士通株式会社 スイッチ装置及び障害検知プログラム

Also Published As

Publication number Publication date
JP5322987B2 (ja) 2013-10-23

Similar Documents

Publication Publication Date Title
WO2016192408A1 (zh) 集群系统中节点的故障检测方法和装置
JP4340300B2 (ja) 伝送装置、試験方法および伝送装置制御プログラム
US8274911B2 (en) Network monitoring system and path extracting method
JP5530864B2 (ja) ネットワークシステム、管理サーバ、及び、管理方法
US9602374B2 (en) Systems and methods for collecting and analyzing data to determine link quality and stability in layer two networks
JP5322987B2 (ja) 故障検出装置
WO2013060163A1 (zh) 丢包检测方法和系统、发送设备及接收设备
WO2015096636A1 (zh) 一种丢包测量的方法及网络设备
JP2010088031A (ja) アンダーレイネットワーク障害検知方法及びネットワークシステム
US20150236920A1 (en) Method and apparatus for determining connection information of a link
US9832066B2 (en) Port number extension method and switch
JP5572064B2 (ja) 通信システム、通信装置およびリング網監視方法
EP2854339B1 (en) Transmission monitoring method and device
JP4477512B2 (ja) パケット通信における物理回線監視方法
US9203718B2 (en) Frame loss measurement device, communication device, communication system and performance measurement method
Basuki et al. Localizing link failures in legacy and SDN networks
JP5483198B2 (ja) ネットワーク中継装置及びリング型ネットワーク
JP2012222790A (ja) 通信システム、切替装置および中継装置
JP5630611B2 (ja) ネットワーク監視システムおよびその監視対象装置の登録方法
JP2011182011A (ja) 中継装置及び通信システム及び異常検出方法及びプログラム
JP5469104B2 (ja) 情報処理装置、ネットワーク試験方法、及びプログラム
JP2017050704A (ja) 通信システム,通信装置及び通信方法
WO2014177001A1 (zh) 一种网络告警方法、设备及终端
JP2007233858A (ja) 障害監視システム及び障害監視方法
JP6030456B2 (ja) 通信装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130716

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees