JP5322987B2 - Failure detection device - Google Patents
Failure detection device Download PDFInfo
- Publication number
- JP5322987B2 JP5322987B2 JP2010075096A JP2010075096A JP5322987B2 JP 5322987 B2 JP5322987 B2 JP 5322987B2 JP 2010075096 A JP2010075096 A JP 2010075096A JP 2010075096 A JP2010075096 A JP 2010075096A JP 5322987 B2 JP5322987 B2 JP 5322987B2
- Authority
- JP
- Japan
- Prior art keywords
- switch device
- link information
- unit
- switch
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Description
本発明は、複数のスイッチ装置から構成されるネットワークにおける故障箇所を検出する故障検出装置に関する。 The present invention relates to a failure detection device that detects a failure location in a network composed of a plurality of switch devices.
従来、スイッチ装置を連接したネットワークの故障管理は、スイッチ装置から発せられる、ネットワークまたは装置上で発生した障害や状態変化などを示す警報をオペレータが監視することで行っている。例えば、スイッチ装置は、自装置のポートの状態が転送可能状態から転送不可能状態へ変化したことを、リンクダウンとして検出する。そして、スイッチ装置が検出したポートの識別子や状態を管理装置に対して警報として発することで、オペレータは、故障の発生場所を特定し、故障に対する対応を行うことができる。 Conventionally, failure management of a network in which switch devices are connected is performed by an operator monitoring an alarm that is issued from the switch device and indicates a failure or state change that has occurred on the network or device. For example, the switch device detects that the state of the port of its own device has changed from the transfer enabled state to the transfer disabled state as a link down. Then, by issuing the port identifier or state detected by the switch device as an alarm to the management device, the operator can identify the location of the failure and take measures against the failure.
しかし、スイッチ装置からの警報に基づいた故障管理は、サイレント故障の発生時に、故障に対する対応が遅れてしまうという問題がある。ここで、サイレント故障とは、故障が発生したが、その情報をオペレータが把握できない状態のことである。具体的には、お客様通信の不達などが発生しているにも関わらず、スイッチ装置が警報を発しないために発生する。 However, the failure management based on the alarm from the switch device has a problem that the response to the failure is delayed when a silent failure occurs. Here, the silent failure is a state where a failure has occurred but the information cannot be grasped by the operator. Specifically, this occurs because the switch device does not issue an alarm in spite of the failure of customer communication.
このようなサイレント故障に対処するため、従来の故障管理においては、ネットワークの端部のスイッチ装置同士でEth−CCフレームを定期的に(例えば、1秒に1フレーム)送信することで、ネットワークの疎通確認をしている。ここで、Eth−CCフレームとは、装置間の故障を検出するための試験フレームである。これにより、ネットワークの端部のスイッチ装置が、所定の時間以内にEth−CCフレームを受信しなかった場合、ネットワーク内において故障が発生していることが分かる。なお、ETH−CCは、装置間で試験フレームを送受信することによって故障を検出するための機能であり、ITU−TのY.1731(Ethernet(登録商標) OAM)で規定されている。 In order to deal with such a silent failure, in conventional failure management, the switch device at the end of the network transmits an Eth-CC frame periodically (for example, one frame per second), so that the network Checking communication. Here, the Eth-CC frame is a test frame for detecting a failure between apparatuses. As a result, when the switch device at the end of the network does not receive the Eth-CC frame within a predetermined time, it is understood that a failure has occurred in the network. Note that ETH-CC is a function for detecting a failure by transmitting and receiving a test frame between devices. 1731 (Ethernet (registered trademark) OAM).
なお、特許文献1に、ネットワーク上において隣接するスイッチ装置のそれぞれから、ポーリングによってMIB(Management Information Base)情報を取得し、隣接するスイッチ装置のMIB情報を比較することで、スイッチ装置間における異常の有無を判定する技術が開示されている。なお、MIBは、SNMPで管理される通信装置が自装置の状態を外部に通知するために公開する情報であり、RFC1156、RFC1213で規定されている。
In
しかしながら、上述したEth−CCフレームによる故障の検出は、ネットワークの端部のスイッチ装置がフレームを受信したか否かによって判定するものであるため、ネットワーク上における故障の有無を検出することはできても、故障箇所の特定をすることはできないという問題があった。
また、特許文献1に記載の技術を用いた故障管理を行う場合、ネットワークを構成するスイッチ装置のそれぞれがMIB情報を解析する処理部を備える必要がある。そのため、MIB情報を解析する処理部を備えない従来のスイッチ装置によって構成されたネットワークの故障管理を行う場合、特許文献1に記載の方法を用いることができないという問題があった。
However, because the above-described failure detection by the Eth-CC frame is determined by whether or not the switch device at the end of the network has received the frame, it is not possible to detect the presence or absence of a failure on the network. However, there was a problem that the location of the failure could not be identified.
In addition, when performing failure management using the technique described in
本発明は上記の課題を解決するためになされたものであり、複数のスイッチ装置から構成されるネットワークにおける故障箇所を検出する故障検出装置であって、前記ネットワークを構成する前記複数のスイッチ装置のそれぞれから、当該スイッチ装置に隣接して接続する他のスイッチ装置である隣接スイッチ装置への送信データ量と当該隣接スイッチ装置からの受信データ量とを示すリンク情報を、前記隣接スイッチ装置ごとに読み出す読み出し部と、前記複数のスイッチ装置のうち第1のスイッチ装置から前記読み出し部が読み出すリンク情報である第1のリンク情報と、前記第1のスイッチ装置の隣接スイッチ装置である第2のスイッチ装置から前記読み出し部が読み出すリンク情報である第2のリンク情報とを用いて、前記第1のリンク情報が示す、前記第1のスイッチ装置から前記第2のスイッチ装置への送信データ量が、前記第2のリンク情報が示す、前記第2のスイッチ装置における前記第1のスイッチ装置からの受信データ量より所定の割合以上大きい場合、または前記第2のリンク情報が示す、前記第2のスイッチ装置から前記第1のスイッチ装置への送信データ量が、前記第1のリンク情報が示す、前記第1のスイッチ装置における前記第2のスイッチ装置からの受信データ量より所定の割合以上大きい場合に、前記第1のスイッチ装置と前記第2のスイッチ装置との間のリンクに故障が発生していると判定するリンク故障検出部とを備えることを特徴とする。 The present invention has been made to solve the above-described problem, and is a failure detection device for detecting a failure location in a network composed of a plurality of switch devices, wherein the plurality of switch devices constituting the network Link information indicating the amount of transmission data to the adjacent switch device, which is another switch device connected adjacent to the switch device, and the amount of received data from the adjacent switch device is read for each of the adjacent switch devices. A read unit; first link information which is link information read by the read unit from a first switch device among the plurality of switch devices; and a second switch device which is an adjacent switch device of the first switch device. And the second link information which is the link information read by the reading unit from The amount of data transmitted from the first switch device to the second switch device indicated by the link information is received from the first switch device in the second switch device indicated by the second link information. When the data amount is larger than a predetermined ratio, or the transmission data amount from the second switch device to the first switch device indicated by the second link information is indicated by the first link information, A failure has occurred in the link between the first switch device and the second switch device when the amount of data received from the second switch device in the first switch device is greater than a predetermined rate. A link failure detection unit that determines that the link failure is detected.
また、本発明において、前記読み出し部が読み出すリンク情報は、前記隣接スイッチ装置を特定する隣接スイッチ識別情報を含み、前記リンク故障検出部は、前記第1のスイッチ装置から読み出したリンク情報の中から、前記隣接スイッチ識別情報が前記第2のスイッチ装置を示すものを抽出し、また、前記第2のスイッチ装置から読み出したリンク情報の中から、前記隣接スイッチ識別情報が前記第1のスイッチ装置を示すものを抽出し、当該抽出した2つのリンク情報を用いて、前記第1のスイッチ装置と前記第2のスイッチ装置との間のリンクが故障しているか否かの判定を行うことが望ましい。 Further, in the present invention, the link information read by the reading unit includes adjacent switch identification information that identifies the adjacent switch device, and the link failure detection unit is selected from the link information read from the first switch device. The adjacent switch identification information indicating the second switch device is extracted, and the adjacent switch identification information indicates the first switch device out of the link information read from the second switch device. It is desirable to extract what is shown and to determine whether or not the link between the first switch device and the second switch device has failed using the extracted two link information.
また、本発明においては、前記読み出し部が読み出したリンク情報をリンク情報記憶部に登録する登録部と、前記登録部が前記リンク情報記憶部に前回登録したリンク情報が示す送信データ量と前記登録部が前記リンク情報記憶部に新たに登録したリンク情報が示す送信データ量との差分、及び前記登録部が前記リンク情報記憶部に前回登録したリンク情報が示す受信データ量と前記登録部が前記リンク情報記憶部に新たに登録したリンク情報が示す受信データ量との差分を算出する差分算出部と、を備え、前記読み出し部は、前記スイッチ装置のそれぞれから前記リンク情報を定期的に読み出し、前記差分算出部が算出した前記第1のスイッチ装置から前記第2のスイッチ装置への送信データ量の差分が、前記差分算出部が算出した前記第2のスイッチ装置における前記第1のスイッチ装置からの受信データ量の差分より所定の割合以上大きい場合、または前記差分算出部が算出した前記第2のスイッチ装置から前記第1のスイッチ装置への送信データ量の差分が、前記差分算出部が算出した前記第1のスイッチ装置における前記第2のスイッチ装置からの受信データ量の差分より所定の割合以上大きい場合に、前記第1のスイッチ装置と前記第2のスイッチ装置との間のリンクが故障していると判定することが望ましい。 Further, in the present invention, a registration unit that registers the link information read by the reading unit in a link information storage unit, a transmission data amount indicated by the link information that the registration unit previously registered in the link information storage unit, and the registration The difference between the transmission data amount indicated by the link information newly registered in the link information storage unit and the reception data amount indicated by the link information previously registered by the registration unit in the link information storage unit and the registration unit A difference calculation unit that calculates a difference from the received data amount indicated by the link information newly registered in the link information storage unit, and the reading unit periodically reads the link information from each of the switch devices, The difference of the transmission data amount from the first switch device calculated by the difference calculation unit to the second switch device is calculated by the difference calculation unit. Transmission data from the second switch device to the first switch device calculated by the difference calculation unit when the difference is greater than a predetermined ratio by the difference in the received data amount from the first switch device in the switch device When the difference in amount is larger than the difference in the amount of received data from the second switch device in the first switch device calculated by the difference calculation unit, the first switch device and the first switch It is desirable to determine that the link between the two switch devices has failed.
また、本発明においては、前記差分算出部が算出した第1のスイッチ装置の送信データ量の差分及び受信データ量の差分が何れも零である場合に、当該スイッチ装置のポートが故障していると判定するポート故障検出部を備えることが望ましい。 In the present invention, when the difference between the transmission data amount and the reception data amount of the first switch device calculated by the difference calculation unit is both zero, the port of the switch device is out of order. It is desirable to include a port failure detection unit that determines that
本発明によれば、故障検出装置は、スイッチ装置のそれぞれから読み出したリンク情報に含まれる送信データ量及び受信データ量と、隣接スイッチ装置の送信データ量及び受信データ量とを比較することで故障の有無の判定、及び故障箇所の特定を行う。これにより、ネットワークにおいてサイレント故障が発生した場合にも、故障箇所の特定をすることができる。
また、本発明によれば、スイッチ装置のそれぞれがリンク情報を解析する処理部を備える必要がない。
According to the present invention, the failure detection device compares the transmission data amount and the reception data amount included in the link information read from each of the switch devices with the transmission data amount and the reception data amount of the adjacent switch device, thereby determining the failure. Judgment of presence or absence of failure and identification of failure location. Thereby, even when a silent failure occurs in the network, the failure location can be specified.
Further, according to the present invention, it is not necessary for each of the switch devices to include a processing unit that analyzes link information.
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態による故障検出装置を備えるネットワーク監視システムの構成を示す概略ブロック図である。
ネットワーク監視システムは、故障検出装置100と、複数のスイッチ装置200−1〜200−5(以下、スイッチ装置200−1〜200−5を総称する場合はスイッチ装置200と表記する)から構成されるネットワークとを備える。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a schematic block diagram illustrating a configuration of a network monitoring system including a failure detection apparatus according to an embodiment of the present invention.
The network monitoring system includes a
故障検出装置100は、スイッチ情報記憶部101、読み出し部102、計時部103、計数部104、登録部105、MIB情報記憶部106(リンク情報記憶部)、差分算出部107、故障検出部108(リンク故障検出部、ポート故障検出部)を備える。
スイッチ情報記憶部101は、ネットワークを構成するスイッチ装置200の名称とIPアドレスとを関連付けて記憶する。
読み出し部102は、定期的に(例えば、10秒に1度)スイッチ装置200のそれぞれに対して、ポート毎のMIB情報(リンク情報)を要求するポーリングを実施し、スイッチ装置200のそれぞれからMIB情報を読み出す。ここで、MIB情報とは、累積受信パケット数(受信データ量)、累積送信パケット数(送信データ量)、リンク状態などの情報を示す。本実施形態では、MIB情報として、RFC(Request For Comments)によって規定された標準MIB情報を用いる。したがって、本実施形態によれば、スイッチ装置200のベンダや装置スペックが異なっていても同一形式の情報を読み出すことができる。
計時部103は、読み出し部102がポーリングを実施した時刻からの経過時間を計測する。
計数部104は、読み出し部102によるポーリングの実施回数を計数する。
登録部105は、読み出し部102がスイッチ装置200から読み出したMIB情報を、読み出し元のスイッチ装置200の名称と、計数部104が計数したポーリングの実施回数とに関連付けてMIB情報記憶部106に登録する。
The
The switch
The
The
The
The
図2は、故障検出装置のMIB情報記憶部が記憶する情報を示す図である。
MIB情報記憶部106は、読み出し部102が読み出したMIB情報を記憶する。具体的には、MIB情報記憶部106は、図2に示すように、ポーリング実施回数とスイッチ装置名称とポート番号とに関連付けて、累積受信パケット数、累積送信パケット数、リンク状態、隣接するスイッチ装置の名称(隣接スイッチ識別情報)、及び隣接するスイッチ装置のポート番号を記憶する。ここで、「隣接するスイッチ装置(隣接スイッチ装置)」とは、一のスイッチ装置200に直接接続されている他のスイッチ装置200のことを示す。例えば、図1を参照すると、スイッチ装置200−1とスイッチ装置200−2とは隣接しているが、スイッチ装置200−1とスイッチ装置200−3とは隣接していない。言い換えると、複数あるスイッチ装置200のうち、第1のスイッチ装置200が、他のスイッチ装置200を介することなく、第2のスイッチ装置200に接続される場合を示す。
FIG. 2 is a diagram illustrating information stored in the MIB information storage unit of the failure detection apparatus.
The MIB
また、故障検出部108は、故障があると判定した場合、故障の発生場所を特定し、音声や画面によってオペレータに故障の発生場所を通知する。
ポーリング実施回数は、計数部104が計数する読み出し部102によるポーリングの実施回数を示す。
スイッチ装置名称は、読み出し部102がMIB情報を読み出したスイッチ装置200の名称を示し、当該名称によりスイッチ装置200を一意に特定することができる。
ポート番号は、スイッチ装置200のポート番号である。
ポーリング実施回数、スイッチ装置名称及びポート番号の組み合わせが、MIB情報記憶部106の主キーであり、これらの組み合わせによってMIB情報が一意に定まる。
Further, when the
The polling execution count indicates the number of polling executions by the
The switch device name indicates the name of the switch device 200 from which the
The port number is the port number of the switch device 200.
The combination of the number of times of polling, the switch device name, and the port number is the primary key of the MIB
差分算出部107は、MIB情報記憶部106が記憶するMIB情報から、読み出し部102が最後に読み出したMIB情報と読み出し部102が前回読み出したMIB情報との差分を算出する。
故障検出部108は、差分算出部107が算出したMIB情報の差分を用いて、隣接する2つのスイッチ装置200の間のリンク、またはスイッチ装置200のポートにおける故障の有無を判定する。
The
The
また、ネットワークの端部のスイッチ装置200−1、200−5は、定期的に、スイッチ装置200−2〜200−4を介してEth−CCフレームの送受信を行う。このとき、Eth−CCフレームによる通信頻度は、故障検出装置100によるポーリングの頻度より高いものとする。また、隣接するスイッチ装置200同士は、相互にLLDP(Link Layer Discovery Protocol)パケットを送受信する。ここで、LLDPパケットとは、スイッチ装置200の名称や設定情報などを隣接するノードに通知するパケットのことである。なお、LLDPは、デバイスの識別情報、設定情報などを交換するレイヤ2プロトコルであり、IEEE802.1ABで規定されている。
また、スイッチ装置200は、故障検出装置100からポーリング信号を受信すると、自装置のポート毎に、累積受信パケット数、累積送信パケット数、リンク状態、及び隣接するスイッチ装置200の情報を、故障検出装置100に送信する。
In addition, the switching devices 200-1 and 200-5 at the end of the network periodically transmit and receive Eth-CC frames via the switching devices 200-2 to 200-4. At this time, it is assumed that the communication frequency by the Eth-CC frame is higher than the polling frequency by the
Further, when receiving the polling signal from the
そして、このような構成を有する故障検出装置100において、読み出し部102は、ネットワークを構成するスイッチ装置200のそれぞれから、隣接するスイッチ装置200ごとに、MIB情報を読み出す。当該MIB情報には、少なくとも、隣接するスイッチ装置200への送信パケット数と、隣接するスイッチ装置200からの受信パケット数とが含まれる。次に、故障検出部108は、複数あるスイッチ装置200のうち第1のスイッチ装置200から読み出し部102が読み出すリンク情報である第1のリンク情報と、第1のスイッチ装置200に隣接するスイッチ装置である第2のスイッチ装置200から読み出し部102が読み出すリンク情報である第2のリンク情報とを用いて、第1のスイッチ装置200と第2のスイッチ装置200との間のリンクに故障が発生しているか否かを判定する。
In the
具体的には、故障検出部108は第1のリンク情報が示す、第1のスイッチ装置200から第2のスイッチ装置200への送信データ量が、第2のリンク情報が示す、第2のスイッチ装置200における第1のスイッチ装置200からの受信データ量より所定の割合以上大きいか否かを判定する。また、故障検出部108は、第2のリンク情報が示す、第2のスイッチ装置200から第1のスイッチ装置200への送信データ量が、第1のリンク情報が示す、第1のスイッチ装置200における第2のスイッチ装置200からの受信データ量より所定の割合以上大きいか否かを判定する。そして、故障検出部108は、2つの判定結果の少なくとも何れか一方が所定の割合以上大きいことを示す場合、第1のスイッチ装置200と第2のスイッチ装置200との間のリンクが故障していると判定する。
これにより、故障検出装置100は、ネットワークにおいてサイレント故障が発生した場合にも、故障箇所の特定をすることができる。
Specifically, the
As a result, the
次に、本発明による故障検出装置100の動作を説明する。
図3は、故障検出装置の動作を示すフローチャートである。
まず、故障検出装置100の読み出し部102は、スイッチ情報記憶部101から監視対象のネットワークを構成するスイッチ装置200のIPアドレスと名称を読み出す(ステップS1)。次に、読み出し部102は、読み出したIPアドレスを宛先として、ポーリング信号を送信することで、MIBポーリングを実施する(ステップS2)。読み出し部102がポーリングを実施すると、計数部104は、内部メモリに格納するポーリング実施回数を1つカウントアップさせる。なお、計数部104が記憶するポーリング実施回数の初期値は「0」である。また、計時部103は、現在時刻からの経過時間の計測を開始する(ステップS3)。
Next, the operation of the
FIG. 3 is a flowchart showing the operation of the failure detection apparatus.
First, the
スイッチ装置200は、故障検出装置100からのポーリング信号を受信すると、自装置の累積受信パケット数、累積送信パケット数、リンク状態、及び隣接するスイッチ装置200の名称並びにポート番号を、MIB情報として故障検出装置100に送信する。
故障検出装置100がスイッチ装置200からMIB情報を受信すると、故障検出装置100の読み出し部102は、スイッチ装置200からMIB情報を読み出す(ステップS4)。
When the switch device 200 receives the polling signal from the
When the
次に、登録部105は、計数部104が記憶するポーリング実施回数、MIB情報の読み出し元であるスイッチ装置200の名称、及びスイッチ装置200のポート番号の組み合わせを主キーとして、読み出し部102が読み出したMIB情報をMIB情報記憶部106に登録する(ステップS5)。
Next, the
次に、差分算出部107は、MIB情報記憶部106から、今回新たに登録されたMIB情報と前回登録されたMIB情報とを読み出す。具体的には、差分算出部107は、MIB情報記憶部から、最も大きいポーリング実施回数に関連付けられたMIB情報と、2番目に大きいポーリング実施回数に関連付けられたMIB情報とを読み出す。
次に、差分算出部107は、スイッチ装置名称とポート番号との組み合わせ毎に、前回登録した累積送信パケット数と新たに登録した累積送信パケット数との差分を算出する。また、差分算出部107は、スイッチ装置名称とポート番号との組み合わせ毎に、前回登録した累積受信パケット数と新たに登録した累積受信パケット数との差分を算出する(ステップS6)。
なお、MIB情報記憶部106は、初回実行時、ポーリング実施回数「1」に関連付けられたMIB情報のみを記憶している。そのため、差分算出部107は、当該MIB情報を読み出し、差分を算出せずに故障検出部108に出力する。
Next, the
Next, the
The MIB
次に、故障検出部108は、スイッチ装置200とポート番号との組み合わせを1つ選択し、以下に示すステップS8〜ステップS13の処理を実行する。なお、故障検出部108は、ステップS8〜ステップS13の処理を、全てのスイッチ装置200とポート番号との組み合わせに対して実行する(ステップS7)。
まず、故障検出部108は、ステップS7で選択したスイッチ装置200(第1のスイッチ装置:以下、スイッチ装置200−Aと呼ぶ)の名称とステップS7で選択したポート(以下、ポートAと呼ぶ)のポート番号とに関連付けられた受信パケット数の差分、及び送信パケット数の差分を差分算出部107から読み出す。次に、故障検出部108は、読み出した受信パケット数の差分、及び送信パケット数の差分が共に「0」であるか否かを判定する(ステップS8)。
Next, the
First, the
ここで、図4は、ポートが故障している場合におけるスイッチ装置の差分情報を示す図である。
故障検出部108は、読み出した受信パケット数の差分、及び送信パケット数の差分が共に「0」であると判定した場合(ステップS8:YES)、ポートAが故障していると判定し、音声や画面によってオペレータに、ポートAに故障が発生していること通知する(ステップS9)。
図4に示すように、受信パケット数の差分、及び送信パケット数の差分が共に「0」である場合に、ポートAに障害が発生していると判定する理由を説明する。
上述したように、スイッチ装置200によるEth−CCフレームの通信頻度は、故障検出装置100によるポーリングの頻度より高いため、スイッチ装置200−AのポートAが正常である場合、スイッチ装置200は、故障検出装置100がポーリングを2回実施する間に1回以上のEth−CCフレームの通信を行うこととなる。
他方、上述したように、スイッチ装置200−AのポートAが故障している場合、ポートAは、Eth−CCフレームの送受信を受け付けなくなることが予測される。したがって、故障検出装置100がポーリングを2回実施する間に、スイッチ装置200−Aが、Eth−CCフレームの送信及び受信を1度も行っていない場合、スイッチ装置200−AのポートAが故障している可能性が高いことが分かる。
Here, FIG. 4 is a diagram illustrating the difference information of the switch device when the port is out of order.
If the
The reason why it is determined that a failure has occurred in port A when the difference in the number of received packets and the difference in the number of transmitted packets are both “0” as shown in FIG.
As described above, since the communication frequency of the Eth-CC frame by the switch device 200 is higher than the polling frequency by the
On the other hand, as described above, when the port A of the switching device 200-A is out of order, it is predicted that the port A will not accept transmission / reception of an Eth-CC frame. Therefore, if the switch device 200-A has never transmitted and received an Eth-CC frame while the
他方、故障検出部108は、読み出した受信パケット数の差分か送信パケット数の差分かの少なくともいずれかが「0」でないと判定した場合(ステップS8:NO)、スイッチ装置200−Aに隣接するスイッチ装置200(第2のスイッチ装置:以下、スイッチ装置200−Bと呼ぶ)の受信パケット数の差分、及び送信パケット数の差分を差分算出部107から読み出す(ステップS10)。
以下に、スイッチ装置200−Bの受信パケット数の差分、及び送信パケット数の差分の具体的な読み出し方法を説明する。
On the other hand, when the
Hereinafter, a specific method for reading the difference in the number of received packets and the difference in the number of transmitted packets of the switch device 200-B will be described.
故障検出部108は、スイッチ装置200−AとポートAとの組み合わせに関連付けられた「隣接するスイッチ装置」(すなわち、スイッチ装置200−B)及び「隣接するスイッチ装置のポート番号」(以下、「ポートB」と呼ぶ)をMIB情報記憶部106から読み出す。そして、故障検出部108は、スイッチ装置200−BとポートBとに関連付けられた受信パケット数の差分、及び送信パケット数の差分を、差分算出部107から読み出す。このとき、MIB情報記憶部106が記憶するMIB情報のうち、「スイッチ装置名称」がスイッチ装置200−Bを示し、かつ「ポート番号」がポートBを示すMIB情報は、「隣接するスイッチ装置」としてスイッチ装置200−Aを示すこととなる。
The
つまり、故障検出部108は、スイッチ装置200−Aから読み出したMIB情報の中から、「隣接するスイッチ装置」がスイッチ装置200−Bを示すものを抽出する。また、故障検出部108は、スイッチ装置200−Bから読み出したリンク情報の中から、「隣接するスイッチ装置」がスイッチ装置200−Aを示すものを抽出する。
That is, the
次に、故障検出部108は、スイッチ装置200−Aの送信パケット数の差分が、スイッチ装置200−Bの受信パケット数の差分と比較して、著しく大きいか否かを判定する(ステップS11)。ここで、「著しく大きい」とは、スイッチ装置200−Aの送信パケット数の差分がスイッチ装置200−Bの受信パケット数の差分より所定の割合(例えば10倍)以上大きいことを示す。故障検出部108は、スイッチ装置200−Aの送信パケット数の差分とスイッチ装置200−Bの受信パケット数の差分との差が著しくないと判定した場合(ステップS11:NO)、スイッチ装置200−Bの送信パケット数の差分が、スイッチ装置200−Aの受信パケット数の差分と比較して著しく大きいか否かを判定する(ステップS12)。
Next, the
故障検出部108は、スイッチ装置200−Bの送信パケット数の差分とスイッチ装置200−Aの受信パケット数の差分との差が著しくないと判定した場合(ステップS12:NO)、スイッチ装置200−Aとスイッチ装置200−Bとの間に故障が無いと判定する。
他方、故障検出部108は、スイッチ装置200−Aの送信パケット数の差分がスイッチ装置200−Bの受信パケット数の差分と比較して著しく大きいと判定した場合(ステップS11:YES)、またはスイッチ装置200−Bの送信パケット数の差分がスイッチ装置200−Aの受信パケット数の差分と比較して著しく大きいと判定した場合(ステップS12:YES)、スイッチ装置200−Aとスイッチ装置200−Bとを接続するリンクが故障していると判定する(ステップS13)。
When the
On the other hand, the
図5は、リンクが故障している場合におけるスイッチ装置の差分情報を示す図である。
ここで、図5に示すように、スイッチ装置200−Aからスイッチ装置200−Bへの送信パケット数が、スイッチ装置200−Bにおけるスイッチ装置200−Aからの受信パケット数より著しく大きい場合、またはスイッチ装置200−Bからスイッチ装置200−Aへの送信パケット数が、スイッチ装置200−Aにおけるスイッチ装置200−Bからの受信パケット数より著しく大きい場合に、スイッチ装置200−Aとスイッチ装置200−Bとの間のリンクが故障していると判定する理由を説明する。
FIG. 5 is a diagram illustrating the difference information of the switch device when the link is broken.
Here, as shown in FIG. 5, when the number of transmitted packets from the switch device 200-A to the switch device 200-B is significantly larger than the number of received packets from the switch device 200-A in the switch device 200-B, or When the number of transmitted packets from the switch device 200-B to the switch device 200-A is significantly larger than the number of received packets from the switch device 200-B in the switch device 200-A, the switch device 200-A and the switch device 200- The reason for determining that the link with B has failed will be described.
スイッチ装置200−Aとスイッチ装置200−Bとの間のリンクが正常である場合、多少のパケットロスが発生したとしても、スイッチ装置200−Aの送信パケット数とスイッチ装置200−Bの受信パケット数とは近似する値となることが予測される。同様に、スイッチ装置200−Bの送信パケット数とスイッチ装置200−Aの受信パケット数とは近似する値となることが予測される。
他方、スイッチ装置200−Aとスイッチ装置200−Bとの間のリンクが故障している場合、それぞれのスイッチ装置200は、隣接するスイッチ装置200にパケットを送信することができても、隣接するスイッチ装置200からパケットを受信することはできない。そのため、送信パケット数が受信パケット数と比較して著しく大きくなることが予測される。
したがって、送信パケット数が受信パケット数と比較して著しく大きい場合は、スイッチ装置200間のリンクが故障している可能性が高いことが分かる。
When the link between the switch device 200-A and the switch device 200-B is normal, even if some packet loss occurs, the number of transmitted packets of the switch device 200-A and the received packets of the switch device 200-B Numbers are expected to be approximate values. Similarly, it is predicted that the number of transmitted packets of the switch device 200-B and the number of received packets of the switch device 200-A are approximate values.
On the other hand, when the link between the switch device 200-A and the switch device 200-B is broken, each switch device 200 is adjacent to each other even though it can transmit a packet to the adjacent switch device 200. Packets cannot be received from the switch device 200. Therefore, it is predicted that the number of transmitted packets will be significantly larger than the number of received packets.
Therefore, when the number of transmitted packets is significantly larger than the number of received packets, it can be seen that there is a high possibility that the link between the switch devices 200 is broken.
故障検出部108は、全てのスイッチ装置200とポート番号との組み合わせに対して、上述したステップS8〜ステップS13の処理を実行していない場合、ステップS7に戻り、新たなスイッチ装置200−Aの選択を行う。
他方、故障検出部108が全てのスイッチ装置200とポート番号との組み合わせに対して、上述した処理を実行した場合、読み出し部102は、計時部103がステップS3から計測している時間が、一定時間(MIBポーリングの定期実施時間)を経過しているか否かを判定する(ステップS14)。読み出し部102は、計時部103が計測している時間が一定時間を経過したと判定した場合(ステップS14:YES)、ステップS1に戻り、次のMIBポーリングを実施する。
If the
On the other hand, when the
他方、読み出し部102が、計時部103が計測している時間が一定時間を経過していないと判定した場合(ステップS14:NO)、故障検出装置100は、オペレータなどによる操作や割り込み処理などにより、外部から処理の終了要求を入力したか否かを判定する(ステップS15)。故障検出装置100は、外部から終了要求を入力していないと判定した場合(ステップS15:NO)、ステップS14に戻り、一定時間の経過の判定を継続する。他方、故障検出装置100は、外部から終了要求を入力したと判定した場合(ステップS15:YES)、処理を終了する。
On the other hand, when the
このように、本実施形態によれば、故障検出装置100は、スイッチ装置200のそれぞれから読み出したMIB情報に基づいて故障箇所を特定する。これにより、ネットワークにおいてサイレント故障が発生した場合にも、故障箇所の特定をすることができる。
また、本実施形態によれば、故障検出装置100がMIB情報の読み出し及び解析を行う。そのため、ネットワークを構成するスイッチ装置200のそれぞれがMIB情報を解析する処理部を備える必要がなく、従来のスイッチ装置によって構成されたネットワークに対しても故障箇所の特定を行うことができる。
As described above, according to the present embodiment, the
Further, according to the present embodiment, the
また、本実施形態によれば、スイッチ装置200はLLDPパケットの送受信により、隣接するスイッチ装置200の情報を保持し、故障検出装置100は、MIB情報として隣接するスイッチ装置の情報を読み出す。これにより、故障検出装置100は、予めネットワークの構成を管理する必要がなく、少なくともネットワークを構成するスイッチ装置200の名称及びIPアドレスを記憶しておくことで、故障箇所の特定を行うことができる。
また、本実施形態によれば、故障検出装置100は、2回のポーリングによって得られたMIB情報の差分によって故障箇所の特定を行う。そのため、スイッチ装置200のそれぞれに正確な同期処理を行う必要がなく、容易に故障箇所の特定処理を行うことができる。
Further, according to the present embodiment, the switch device 200 holds information on the adjacent switch device 200 by transmitting and receiving LLDP packets, and the
Further, according to the present embodiment, the
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、本実施形態では、読み出し部102がスイッチ装置200のそれぞれから隣接するスイッチ装置200の情報を読み出し、故障検出部108が当該情報に基づいて故障箇所の特定を行う場合を説明したが、これに限られない。例えば故障検出装置100のスイッチ情報記憶部101がネットワークの構成を示すトポロジ情報を記憶し、故障検出部108が当該トポロジ情報に基づいて故障箇所の特定を行う構成としてもよい。
As described above, the embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to the above, and various design changes and the like can be made without departing from the scope of the present invention. It is possible to
For example, in the present embodiment, a case has been described in which the
また、本実施形態では、MIB情報の差分を算出することで所定時間内における送受信パケット数を取得する場合を説明したが、これに限られず、例えば、MIB情報以外の情報から所定時間内における送受信パケット数を算出しても良いし、スイッチ装置200から所定の時間内における送受信パケット数を示す信号を直接読み出しても良い。 Further, in the present embodiment, a case has been described in which the number of transmission / reception packets within a predetermined time is obtained by calculating a difference in MIB information. However, the present invention is not limited to this. For example, transmission / reception within a predetermined time from information other than MIB information The number of packets may be calculated, or a signal indicating the number of transmitted / received packets within a predetermined time may be directly read from the switch device 200.
また、本実施形態では、故障検出部108は、送信パケット数及び受信パケット数を用いてスイッチ装置200における通信の有無を確認する場合を説明したが、これに限られず、例えば、故障検出部108は、送信データ量及び受信データ量を用いてスイッチ装置200における通信の有無を確認しても良い。
In the present embodiment, the case where the
上述の故障検出装置100は内部に、コンピュータシステムを有している。そして、上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
The above-described
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.
100…故障検出装置 101…スイッチ情報記憶部 102…読み出し部 103…計時部 104…計数部 105…登録部 106…MIB情報記憶部 107…差分算出部 108…故障検出部 200、200−1〜200−5、200−A、200−B…スイッチ装置
DESCRIPTION OF
Claims (4)
前記ネットワークを構成する前記複数のスイッチ装置のそれぞれから、当該スイッチ装置に隣接して接続する他のスイッチ装置である隣接スイッチ装置への送信データ量と当該隣接スイッチ装置からの受信データ量とを示すリンク情報を、前記隣接スイッチ装置ごとに読み出す読み出し部と、
前記複数のスイッチ装置のうち第1のスイッチ装置から前記読み出し部が読み出すリンク情報である第1のリンク情報と、前記第1のスイッチ装置の隣接スイッチ装置である第2のスイッチ装置から前記読み出し部が読み出すリンク情報である第2のリンク情報とを用いて、前記第1のリンク情報が示す、前記第1のスイッチ装置から前記第2のスイッチ装置への送信データ量が、前記第2のリンク情報が示す、前記第2のスイッチ装置における前記第1のスイッチ装置からの受信データ量より所定の割合以上大きい場合、または前記第2のリンク情報が示す、前記第2のスイッチ装置から前記第1のスイッチ装置への送信データ量が、前記第1のリンク情報が示す、前記第1のスイッチ装置における前記第2のスイッチ装置からの受信データ量より所定の割合以上大きい場合に、前記第1のスイッチ装置と前記第2のスイッチ装置との間のリンクに故障が発生していると判定するリンク故障検出部と
を備えることを特徴とする故障検出装置。 A failure detection device for detecting a failure point in a network composed of a plurality of switch devices,
A transmission data amount from each of the plurality of switch devices constituting the network to an adjacent switch device which is another switch device connected adjacent to the switch device and a reception data amount from the adjacent switch device are indicated. A read unit that reads link information for each adjacent switch device; and
Of the plurality of switch devices, the first link information that is read by the read unit from the first switch device, and the read unit from the second switch device that is an adjacent switch device of the first switch device. The amount of transmission data from the first switch device to the second switch device indicated by the first link information using the second link information that is the link information read by the second link information is the second link information. When the amount of received data from the first switch device in the second switch device indicated by the information is greater than a predetermined ratio, or from the second switch device indicated by the second link information The amount of data transmitted to the switch device is received data from the second switch device in the first switch device, which is indicated by the first link information. A link failure detection unit that determines that a failure has occurred in a link between the first switch device and the second switch device when the amount is greater than a predetermined ratio. Fault detection device.
前記リンク故障検出部は、前記第1のスイッチ装置から読み出したリンク情報の中から、前記隣接スイッチ識別情報が前記第2のスイッチ装置を示すものを抽出し、また、前記第2のスイッチ装置から読み出したリンク情報の中から、前記隣接スイッチ識別情報が前記第1のスイッチ装置を示すものを抽出し、当該抽出した2つのリンク情報を用いて、前記第1のスイッチ装置と前記第2のスイッチ装置との間のリンクが故障しているか否かの判定を行う
ことを特徴とする請求項1に記載の故障検出装置。 The link information read by the reading unit includes adjacent switch identification information that identifies the adjacent switch device,
The link failure detecting unit extracts, from the link information read from the first switch device, the adjacent switch identification information indicating the second switch device, and from the second switch device. From the read link information, the information indicating that the adjacent switch identification information indicates the first switch device is extracted, and using the extracted two link information, the first switch device and the second switch are extracted. The failure detection device according to claim 1, wherein it is determined whether or not a link with the device is broken.
前記登録部が前記リンク情報記憶部に前回登録したリンク情報が示す送信データ量と前記登録部が前記リンク情報記憶部に新たに登録したリンク情報が示す送信データ量との差分、及び前記登録部が前記リンク情報記憶部に前回登録したリンク情報が示す受信データ量と前記登録部が前記リンク情報記憶部に新たに登録したリンク情報が示す受信データ量との差分を算出する差分算出部と、
を備え、
前記読み出し部は、前記スイッチ装置のそれぞれから前記リンク情報を定期的に読み出し、
前記差分算出部が算出した前記第1のスイッチ装置から前記第2のスイッチ装置への送信データ量の差分が、前記差分算出部が算出した前記第2のスイッチ装置における前記第1のスイッチ装置からの受信データ量の差分より所定の割合以上大きい場合、または前記差分算出部が算出した前記第2のスイッチ装置から前記第1のスイッチ装置への送信データ量の差分が、前記差分算出部が算出した前記第1のスイッチ装置における前記第2のスイッチ装置からの受信データ量の差分より所定の割合以上大きい場合に、前記第1のスイッチ装置と前記第2のスイッチ装置との間のリンクが故障していると判定する
ことを特徴とする請求項1または請求項2に記載の故障検出装置。 A registration unit for registering link information read by the reading unit in a link information storage unit;
The difference between the transmission data amount indicated by the link information previously registered by the registration unit in the link information storage unit and the transmission data amount indicated by the link information newly registered by the registration unit in the link information storage unit, and the registration unit A difference calculation unit that calculates a difference between the received data amount indicated by the link information previously registered in the link information storage unit and the received data amount indicated by the link information newly registered by the registration unit in the link information storage unit;
With
The reading unit periodically reads the link information from each of the switch devices,
The difference of the transmission data amount from the first switch device calculated by the difference calculation unit to the second switch device is obtained from the first switch device in the second switch device calculated by the difference calculation unit. The difference calculation unit calculates a difference in transmission data amount from the second switch device to the first switch device calculated by the difference calculation unit when the difference is greater than a predetermined ratio by the difference in received data amount The link between the first switch device and the second switch device fails when the first switch device is larger than the difference in the amount of received data from the second switch device by a predetermined ratio or more. The failure detection device according to claim 1, wherein the failure detection apparatus determines that the failure has occurred.
を備えることを特徴とする請求項3に記載の故障検出装置。 Port failure detection unit that determines that the port of the switch device is faulty when the difference between the transmission data amount and the reception data amount of the first switch device calculated by the difference calculation unit is both zero The failure detection apparatus according to claim 3, further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010075096A JP5322987B2 (en) | 2010-03-29 | 2010-03-29 | Failure detection device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010075096A JP5322987B2 (en) | 2010-03-29 | 2010-03-29 | Failure detection device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011211350A JP2011211350A (en) | 2011-10-20 |
JP5322987B2 true JP5322987B2 (en) | 2013-10-23 |
Family
ID=44941984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010075096A Expired - Fee Related JP5322987B2 (en) | 2010-03-29 | 2010-03-29 | Failure detection device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5322987B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108566315A (en) * | 2018-03-30 | 2018-09-21 | 中国联合网络通信集团有限公司 | A kind of detection method of faulty link, device and server |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5790420B2 (en) * | 2011-11-07 | 2015-10-07 | 富士通株式会社 | Communication device, failure detection method, and failure detection program |
JP6365320B2 (en) * | 2015-01-21 | 2018-08-01 | 三菱電機株式会社 | Information processing system |
JP7119957B2 (en) * | 2018-11-30 | 2022-08-17 | 富士通株式会社 | Switch device and failure detection program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4207297B2 (en) * | 1998-09-11 | 2009-01-14 | 株式会社日立製作所 | Packet communication device |
JP4794917B2 (en) * | 2005-06-20 | 2011-10-19 | 富士通株式会社 | Network failure detection apparatus and network failure detection method |
-
2010
- 2010-03-29 JP JP2010075096A patent/JP5322987B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108566315A (en) * | 2018-03-30 | 2018-09-21 | 中国联合网络通信集团有限公司 | A kind of detection method of faulty link, device and server |
CN108566315B (en) * | 2018-03-30 | 2019-10-08 | 中国联合网络通信集团有限公司 | A kind of detection method of faulty link, device and server |
Also Published As
Publication number | Publication date |
---|---|
JP2011211350A (en) | 2011-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8441941B2 (en) | Automating identification and isolation of loop-free protocol network problems | |
JP4340300B2 (en) | Transmission apparatus, test method, and transmission apparatus control program | |
US8274911B2 (en) | Network monitoring system and path extracting method | |
JP5530864B2 (en) | Network system, management server, and management method | |
EP3528434B1 (en) | Method and device for measuring delay | |
JP5322987B2 (en) | Failure detection device | |
US20160020973A1 (en) | Systems and methods for collecting and analyzing data to determine link quality and stability in layer two networks | |
JP2006261804A (en) | Network monitoring device and network monitoring method | |
WO2013060163A1 (en) | Packet loss detection method and system, sending device and receiving device | |
JP2010088031A (en) | Fault detection method of underlay network, and network system | |
US20150236920A1 (en) | Method and apparatus for determining connection information of a link | |
US9832066B2 (en) | Port number extension method and switch | |
JP5572064B2 (en) | COMMUNICATION SYSTEM, COMMUNICATION DEVICE, AND RING NETWORK MONITORING METHOD | |
EP2854339B1 (en) | Transmission monitoring method and device | |
JP5904140B2 (en) | Transmission apparatus and abnormality detection method | |
JP4477512B2 (en) | Physical line monitoring method for packet communication | |
US9203718B2 (en) | Frame loss measurement device, communication device, communication system and performance measurement method | |
Basuki et al. | Localizing link failures in legacy and SDN networks | |
JP5483198B2 (en) | Network relay device and ring network | |
JP2012222790A (en) | Communication system, switching device, and relay device | |
JP2011182011A (en) | Repeater, communication system, and abnormality detection method, and program | |
JP5630611B2 (en) | Network monitoring system and method for registering monitored device | |
JP5469104B2 (en) | Information processing apparatus, network test method, and program | |
WO2014177001A1 (en) | Network alarm method, device and terminal | |
JP2007233858A (en) | Failure monitoring system and failure monitoring method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120608 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130326 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130716 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |