JP5367002B2 - Monitoring server and monitoring program - Google Patents
Monitoring server and monitoring program Download PDFInfo
- Publication number
- JP5367002B2 JP5367002B2 JP2011072257A JP2011072257A JP5367002B2 JP 5367002 B2 JP5367002 B2 JP 5367002B2 JP 2011072257 A JP2011072257 A JP 2011072257A JP 2011072257 A JP2011072257 A JP 2011072257A JP 5367002 B2 JP5367002 B2 JP 5367002B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- inspection
- switch
- inspection data
- monitoring server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Description
本発明は、通信システムにおける機器のサイレント故障を検査する監視サーバおよび監視プログラムに関する。 The present invention relates to a monitoring server and a monitoring program for inspecting a silent failure of a device in a communication system.
昨今の通信ネットワークの発達に伴い、故障した通信機器の特定や、その故障した通信機器への対応は重要な課題となっている。早期に故障した通信機器を特定し、その機器に対応することにより、通信ネットワークを安定して提供することができる。 With the recent development of communication networks, identification of a failed communication device and correspondence to the failed communication device have become important issues. A communication network can be stably provided by identifying a communication device that has failed at an early stage and dealing with the device.
通信機器の正常な稼働を確認するために、検査データを送信する方法がある(例えば、非特許文献1参照。)。例えば、検査対象の通信機器に、イーサネット(登録商標)ループバックや、pingなどのコマンドを送信し、その応答がある場合に、通信機器は正常と判断することができる。 In order to confirm the normal operation of the communication device, there is a method of transmitting inspection data (see, for example, Non-Patent Document 1). For example, when a command such as Ethernet (registered trademark) loopback or ping is transmitted to the communication device to be inspected and there is a response, the communication device can be determined to be normal.
しかしながら、上記の方法では、通信が可能なことは確認できるものの、データが正常に送受信されているかを判定することはできない。 However, although the above method can confirm that communication is possible, it cannot determine whether data is normally transmitted / received.
一般的に、スイッチは論理回路やSRAMなどを備える。高エネルギー中性子がこれらの半導体基板に衝突し、衝突で放出された重イオンが電流パルスを引き起こすことにより、これらの半導体基板において、データが反転する事象が発生する場合がある。 In general, the switch includes a logic circuit, an SRAM, and the like. When high-energy neutrons collide with these semiconductor substrates, and heavy ions emitted by the collision cause current pulses, an event of data inversion may occur in these semiconductor substrates.
このような事象が発生している状況で、イーサネットループバックや、pingなどのコマンドを送信すると、その応答は、正常に返ってくる。しかし、このようなスイッチ内のメモリエラーを検出することはできない。本明細書において、このような通信機器内のメモリエラーを、サイレント故障と称する。 If a command such as Ethernet loopback or ping is transmitted in a situation where such an event occurs, the response is returned normally. However, such a memory error in the switch cannot be detected. In this specification, such a memory error in the communication device is referred to as a silent failure.
従って本発明の目的は、通信システムにおける機器のサイレント故障を検査する監視サーバおよび監視プログラムを提供することである。 Accordingly, an object of the present invention is to provide a monitoring server and a monitoring program for inspecting a silent failure of a device in a communication system.
上記課題を解決するために、本発明の第1の特徴は、複数の機器と、機器のサイレント故障を検査する監視サーバと、を備える通信システムにおける監視サーバに関する。本発明の第1の特徴に係る監視サーバは、サイレント故障の検査対象の機器の識別子を含む機器データを記憶する機器データ記憶部と、機器に送信する検査データを記憶する検査データ記憶部と、機器データの検査対象の機器に、複数の検査データを所定時間内に送信して当該機器において高トラフィック状態にし、当該機器によって当該検査データがコピーされ返信された応答データを取得するとともに、当該機器に送信した検査データと当該応答データとが、一致するか否かを判定し、一致しない場合、当該機器の識別子を結果データに記憶するエラー検査手段と、エラー検査手段において、いずれかの機器で一致しないと判定された場合、一致しないと判定された対象機器および当該対象機器に隣接する機器の上流側および下流側のそれぞれのMIPに検査データを送信し、対象機器および隣接する機器によって当該検査データがコピーされ返信された応答データを取得するとともに、対象機器および隣接する機器の上流側および下流側にそれぞれ送信した検査データと当該応答データとが、一致するか否かを判定し、上流側と下流側とで判定結果が一致しない場合、当該MIPの識別子に基づいて、サイレント故障が発生した機器を特定する詳細エラー検査手段を備える。 In order to solve the above problems, a first feature of the present invention relates to a monitoring server in a communication system including a plurality of devices and a monitoring server that inspects a silent failure of the devices. The monitoring server according to the first aspect of the present invention includes a device data storage unit that stores device data including an identifier of a device to be inspected for silent failure, a test data storage unit that stores test data to be transmitted to the device, A plurality of inspection data is transmitted to the device to be inspected for the device data within a predetermined time, and the device is brought into a high traffic state, and the response data in which the inspection data is copied and returned by the device is acquired, and the device It is determined whether or not the inspection data transmitted to the response data and the response data match, and if they do not match, the error inspection means for storing the identifier of the device in the result data and the error inspection means When it is determined that they do not match, the upstream side and the downstream side of the target device that is determined not to match and the device adjacent to the target device. The inspection data is transmitted to each MIP, the response data is copied and returned by the target device and the adjacent device, and sent back to the upstream side and the downstream side of the target device and the adjacent device, respectively. Details for determining whether or not the inspection data and the response data match, and when the determination result does not match between the upstream side and the downstream side, details identifying the device in which the silent failure has occurred based on the identifier of the MIP An error checking means is provided.
ここで、機器の識別子とともに、通信システムのトポロジーを示すトポロジーデータを記憶するトポロジーデータ記憶部と、トポロジーデータに基づいて通信システムのネットワーク構成を表示装置に表示するとともに、結果データに含まれる機器の識別子を抽出し、抽出した機器の識別子に基づいて表示装置に警告を表示する表示手段を備えても良い。 Here, a topology data storage unit for storing topology data indicating the topology of the communication system together with the identifier of the device, and the network configuration of the communication system based on the topology data are displayed on the display device, and the device included in the result data is displayed. There may be provided display means for extracting the identifier and displaying a warning on the display device based on the extracted identifier of the device.
また、検査データ記憶部は、異なる複数の検査データが記憶され、エラー検査手段は、検査データ記憶部に記憶された複数の検査データをそれぞれ、検査対象の機器に送信しても良い。 The inspection data storage unit may store a plurality of different inspection data, and the error inspection unit may transmit each of the plurality of inspection data stored in the inspection data storage unit to the inspection target device.
ここで詳細エラー検査手段は、結果データおよびトポロジーデータを参照し、隣接する機器のいずれか一方の識別子が、結果データに含まれる場合、当該隣接する機器のMIPに検査データを送信しても良い。 Here, the detailed error inspection means refers to the result data and the topology data, and when the identifier of either one of the adjacent devices is included in the result data, the detailed error inspection means may transmit the inspection data to the MIP of the adjacent device. .
情報システムが、運用系の機器と待機系の機器を備える場合、エラー検査手段は、待機系の機器に、検査データを送信しても良い。 When the information system includes an active device and a standby device, the error inspection means may transmit inspection data to the standby device.
本発明の第2の特徴は、本発明の第1の特徴のいずれかに係る記載の監視プログラムである。 A second feature of the present invention is the monitoring program according to any one of the first features of the present invention.
本発明によれば、通信システムにおける機器のサイレント故障を検査する監視サーバおよび監視プログラムを提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the monitoring server and monitoring program which test | inspect the silent failure of the apparatus in a communication system can be provided.
次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号を付している。 Next, embodiments of the present invention will be described with reference to the drawings. In the following description of the drawings, the same or similar parts are denoted by the same or similar reference numerals.
(通信システム)
図1を参照して、本発明の実施の形態に係る通信システム3を説明する。通信システム3は、複数の機器と、監視サーバ1と、を備える。ここで、図1に示す例においては、複数の機器が、第1のスイッチ2aないし第12のスイッチ2lの12のスイッチである場合について説明する。機器の数はこれに限られないし、機器はスイッチでなくても良い。また、本実施形態においてこれらのスイッチを区別する必要のない場合、単にスイッチ2と記載する場合がある。
(Communications system)
A
図1に示す例において、スイッチ2間を結ぶリンクは、通信ネットワークが隣接していることを示す。例えば第1のスイッチ2aは、第2のスイッチ2bおよび第3のスイッチ2cと隣あって接続される。第2のスイッチ2bは、第1のスイッチおよび第4のスイッチ2dと隣あって接続される。このように、図1に示すスイッチ2は、双方向に通信可能なネットワークにより、網状に相互に通信可能に接続される。図1に示す例において監視サーバ1は、第1のスイッチ2aにのみ接続されるが、この接続形態には限られない。
In the example shown in FIG. 1, the link connecting the
監視サーバ1は、スイッチ2などの機器のサイレント故障を検査する。監視サーバ1は、検査対象のスイッチ2に、所定の検査データを送信する。検査対象のスイッチ2は、ICMP(Internet Control Message Protocol)のエコー要求機能を利用して、検査データをそのまま返信し、監視サーバ1は、検査対象のスイッチ2から、エコー応答として検査データを受信する。監視サーバ1は、送信した検査データと、受信した検査データと、を比較し、各ビットが一致するか否かを判定する。一致しない場合、監視サーバ1から検査対象のスイッチ2までの経路上のスイッチのいずれかにおいて、サイレント故障が発生していると判定する。監視サーバ1は、すべての検査対象のスイッチ2に同様に検査データを送信し、送信した検査データと、受信した応答データとが一致しなかったスイッチ2を特定する。監視サーバ1は、ネットワーク構成と比較し、隣接するスイッチ2のいずれか一方のみが一致しなかった場合、監視サーバ1は、この隣接するスイッチ2を、サイレント故障の被疑区間として特定する。
The
ここで、本発明の実施の形態において、被疑区間のスイッチ2のMIPに対してイーサネットループバックを利用して検査データを送信する。これにより、いずれのスイッチ2でサイレント故障が発生しているかを検知することができる。
Here, in the embodiment of the present invention, the inspection data is transmitted to the MIP of the
スイッチ2は、検査データを含むデータを受信すると、その宛先のスイッチにデータを転送する。このときスイッチ2は、データを受信すると、データに含まれる検査データをスイッチ2のメモリに記憶し、そのメモリから検査データを読み出して、宛先のスイッチに転送する。ここで、検査データが記憶されたメモリに不具合が生じている場合が考えられる。この場合、スイッチ2が検査データを記憶したアドレスに基づいてデータを読み出しても、スイッチ2において書き込んだデータと読み出したデータに差異が生じる場合がある。メモリの所定のビットに不具合が生じている場合、そのビットにデータを記憶しても正しくデータを保持できないため、読み出したデータが、書き込んだデータと異なる事象が発生するからである。本発明の実施の形態に係る監視サーバ1は、このようなサイレント故障を検出することができる。
When the
図2を参照して、本発明の実施の形態に係る監視方法を説明する。図2においては、監視サーバ1が、第1のスイッチ2a、第2のスイッチ2bを介して宛先スイッチ2nに検査データを送信する場合を説明する。ここで、宛先スイッチ2nは、図1に示す例において、監視サーバ1と、第1のスイッチ2aおよび第2のスイッチ2bを介して接続される第4のスイッチ2dである。
With reference to FIG. 2, the monitoring method according to the embodiment of the present invention will be described. In FIG. 2, a case will be described in which the
まずステップS1において監視データ1は、pingコマンドを使ってデータD1を、宛先スイッチ2n宛に送信する。このデータD1は、宛先および送信元を示すヘッダと、検査データC1と、このヘッダおよび検査データC1に対するFCS(フレームチェックシーケンス:誤り検出データ)を含む。このFCSは、エラー検出のために、監視サーバ1において算出され、データD1に含まれる。
First, in step S1, the
第1のスイッチ2aがデータD1を受信すると、ステップS2において、受信したデータD1をメモリに記憶する。スイッチ2aは、データD1からFCSを外し、メモリから読み出したヘッダおよび検査データC2について、新たにFCSを算出する。ステップS3において第1のスイッチ2aは、メモリから読み出した検査データC2と、ヘッダおよび検査データC2から算出したFCSを含むデータD2を、送信する。
When the
第2のスイッチ2bがデータD2を受信すると、ステップS4において、受信したデータD2をメモリに記憶する。スイッチ2bは、データD2からFCSを外し、メモリから読み出したヘッダおよび検査データC3について、新たにFCSを算出する。ステップS5において第2のスイッチ2bは、メモリから読み出した検査データC3と、ヘッダおよび検査データC3から算出したFCSを含むデータD3を、送信する。
When the
宛先スイッチ2nはデータD3を受信すると、ステップS6において、宛先スイッチ2nは、ICMPを利用して、発信元と宛先のアドレスを入れ替え、FCSを再計算し、pingコマンドの応答としてデータD4を送信する。 When the destination switch 2n receives the data D3, in step S6, the destination switch 2n uses ICMP to switch the source and destination addresses, recalculates the FCS, and transmits the data D4 as a response to the ping command. .
ステップS7ないしステップS9において、検査データは、第2のスイッチ2bおよび第1のスイッチ2aを介して、監視サーバ1に送信される、監視サーバ1は、pingコマンドの応答として、第1のスイッチ2aからデータD6を受信すると、データD6に含まれる検査データC6と、ステップS1で送信した検査データC1とを比較する。
In step S7 to step S9, the inspection data is transmitted to the
ここで、データを中継した第1のスイッチ2a、第2のスイッチ2bおよび宛先スイッチ2nのいずれのメモリもエラーが発生しなければ、データD1の検査データC1と、データD6の検査データC6とは一致する。しかし、第1のスイッチ2a、第2のスイッチ2bおよび宛先スイッチ2nのいずれかにおいて、メモリエラーが発生し、そのエラーが発生した記憶領域に検査データが記憶されていた場合、データD1の検査データC1と、データD6の検査データC6とは一致しない。例えば、検査データC1が”1010101”で、検査データC6が”1010111”の場合、監視サーバ1は、第1のスイッチ2a、第2のスイッチ2bおよび宛先スイッチ2nのいずれかの検査データが保持された第5ビットにおいて、メモリエラーが発生していると特定することができる。
Here, if no error occurs in any of the memories of the
この後、監視サーバ1は、同様に、サイレント故障が疑われる機器のMIPに対し、イーサループバックコマンドを使って、検査データを送信する。そこで監視サーバ1は、送信した検査データと、イーサループバックの応答として受信した検査データと、を比較して、一致するか否かを判定し、メモリエラーが発生した機器を特定することができる。
Thereafter, the
(監視サーバ)
図3を参照して本発明の実施の形態に係る監視サーバ1を説明する。監視サーバ1は、記憶装置10、中央処理制御装置20、通信制御装置30および表示装置40を備える一般的なコンピュータである。監視サーバ1は、記憶装置10に記憶された監視プログラムが、中央処理制御装置20によって読み出され実行されることにより実現される。通信制御装置30は、例えばLANボードであって、監視サーバ1の通信を制御する。表示装置40は、一般的なディスプレイである。
(Monitoring server)
The
記憶装置10は、検査データ記憶部11、機器データ記憶部12、結果データ記憶部13、詳細結果データ記憶部14およびトポロジーデータ記憶部15を備える。
The
検査データ記憶部11は、記憶装置10のうち、検査データ11aが記憶された記憶領域である。検査データ11aは、スイッチ2等の検査対象の機器に送信されるデータである。この検査データ11aは、例えば、所定のビット数だけ”1”や”0”が連続したフレームデータである。
The inspection
検査データ記憶部11には、異なる複数の検査データ11a、11b、11c…が記憶されても良い。例えば、スイッチ2のメモリにおけるサイレント故障は、そのメモリ領域のいずれの位置にも発生する可能性はある。そこで、本発明の実施の形態においては、ショートフレームの検査データ、ロングフレームの検査データなど、種々の検査データを予め検査データ記憶部11に記憶する。このような種々の検査データを検査対象の機器に送信することにより、監視サーバ1は、メモリのビットの位置を問わず、サイレント故障を検査することができる。
The inspection
例えば、図4(a)は、検査データがショートフレームの場合のスイッチ2のメモリを模式的に示す。ショートフレームの場合、記憶されるメモリ領域も少ない。従って、最大位近辺のビットでサイレント故障が発生すると、サイレント故障が検出されない場合がある。しかし、図4(b)に示すようにロングフレームの場合、メモリ領域のビットを多く使用する。従って、最大位近辺のビットでサイレント故障が発生している場合でも、サイレント故障が発生したビットにフレームが疎通される。これにより監視データ1は、サイレント故障を検出することができる。
For example, FIG. 4A schematically shows the memory of the
また、検査データ記憶部11には、ショートフレームとロングフレームを混合した複数の検査データの集合が記憶されても良い。これらの複数の検査データを所定時間内に送出することにより、高トラヒック状態を作り出すことができる。これにより、高トラヒック時にしか使用されないメモリ領域にもフレームが疎通されるので、サイレント故障を検査することができる。
The inspection
例えば図4(b)は、トラヒックが低い場合のスイッチ2のメモリを模式的に示す。低トラヒックの場合、スイッチ2のバッファ蓄積量が少ない。従って、バッファ蓄積量が多いときのみ使用するビットでサイレント故障が発生すると、サイレント故障が検出されない場合がある。しかし、図5(b)に示すように高トラヒックの場合、バッファ蓄積量が多くなりメモリ領域のビットも多く使う。従って、バッファ蓄積量が多いときのみ使用するビットでサイレント故障が発生する場合でも、サイレント故障が発生したビットにフレームが疎通される。これにより監視データ1は、サイレント故障を検出することができる。
For example, FIG. 4B schematically shows the memory of the
また、優先度によってスイッチ2において蓄積されるキューが異なる。従って、検査データ記憶部11に、優先度の異なる検査データが記憶されても良い。
Further, the queue stored in the
このように検査データ記憶部11には、監視サーバ1がサイレント故障を送信するために必要な、フレーム長、優先度、トラヒックなどの異なる種々の検査データが記憶される。
As described above, the inspection
機器データ記憶部12は、記憶装置10のうち、機器データ12aが記憶された記憶領域である。機器データ12aは、監視データ1のサイレント故障の検査対象の機器の識別子を含むデータである。
The device
機器データ12aは、例えば、図6に示すように、スイッチ2の識別子、IPアドレスおよびMIP識別子が対応づけられたデータである。スイッチ識別子として、図1で参照した機器の名称を用いているが、IPアドレスを用いても良い。IPアドレスは、後述するエラー検査手段21および表示手段23によって参照される。MIP識別子は、後述する詳細エラー検査手段22によって参照される。
For example, as shown in FIG. 6, the device data 12a is data in which the identifier, IP address, and MIP identifier of the
結果データ記憶部13は、記憶装置10のうち、結果データ13aが記憶された記憶領域である。結果データ13aには、後述するエラー検査手段21による検査結果が格納されたデータである。例えば結果データ13aには、エラーの発生したスイッチ2の識別子と、エラーの発生した検査データと、を対応づけて記憶する。例えば、第7のスイッチ2gにロングフレームの検査データを送信し、監視サーバ1が送信した検査データと、監視サーバ1が受信した検査データとが異なる場合、結果データ13aには、第7のスイッチ2gの識別子と、エラーの発生した検査データがロングフレームであることが記憶される。
The result
詳細結果データ記憶部14は、記憶装置10のうち、詳細結果データ14aが記憶された記憶領域である。詳細結果データ記憶部14aには、後述する詳細エラー検査手段22による検査結果が記憶された記憶領域である。詳細結果データ14aには、詳細エラー検査手段22において特定された、サイレント故障が発生した機器の識別子が記憶される。
The detailed result
トポロジーデータ記憶部14は、スイッチ2などの機器の識別子とともに、通信システム3のトポロジーを示すデータである。トポロジーデータ15aは、図1に示すようなネットワーク構成を表示装置40に表示する際に参照される。トポロジーデータ15aは、スイッチ2の識別子と、そのスイッチ2の接続情報とが含まれる。
The topology
中央処理制御装置20は、エラー検査手段21、詳細エラー検査手段22および表示手段23を備える。
The central
エラー検査手段21は、機器データ12aの検査対象のスイッチ2に検査データ11aを送信し、当該スイッチ2によって検査データがコピーされ返信された応答データを取得するとともに、当該スイッチ2に送信した検査データ11aと応答データとが、一致するか否かを判定する。一致しない場合、エラー検査手段21は、当該スイッチ2の識別子を結果データ13aに記憶する。
The
ここで、検査データ記憶部11に複数の検査データが格納されている場合、エラー検査手段21は、検査データ記憶部11に記憶された複数の検査データ11a、11b、11c…のそれぞれを、機器データ12aの検査対象のスイッチ2に送信し、それぞれの検査データと、それぞれの検査データに対する応答データとが、一致するか否かを判定する。一致しない場合、エラー検査手段21は、当該スイッチ2の識別子および送信した検査データと、を対応づけて結果データ13aに記憶する。
Here, when a plurality of inspection data is stored in the inspection
さらにエラー検査手段21は、複数の検査データを所定時間内に送信して高トラヒック状態をつくり、高トラヒック状態で送信した各検査データと、その状態で受信した各応答データとが、一致するか否かを判定する。一致しない場合、エラー検査手段21は、エラーが発生したスイッチ2の識別子と、高トラヒック状態でエラーが発生したことを対応づけて結果データ13aに記憶する。
Furthermore, the error inspection means 21 transmits a plurality of inspection data within a predetermined time to create a high traffic state, and whether each inspection data transmitted in the high traffic state matches each response data received in that state. Determine whether or not. If they do not match, the error checking means 21 associates the identifier of the
結果データ13aに何らデータが記憶されていない場合、すべての検査データが正常に送受信されているので、監視サーバ1によるサイレント故障の検査は終了する。一方、結果データ13aに何らかのデータが記憶されている場合、通信システム3のいずれかのスイッチ2でサイレント故障が発生していると考えられる。この結果データ13aは、表示手段23によって、表示装置40に表示される。
When no data is stored in the result data 13a, all inspection data is normally transmitted / received, and thus the silent failure inspection by the
表示手段23は、トポロジーデータ15aに基づいて通信システム3のネットワーク構成を表示装置40に表示するとともに、結果データ13aに含まれるスイッチ2の識別子を抽出し、抽出したスイッチ2の識別子に基づいて表示装置40に警告を表示する。
The display means 23 displays the network configuration of the
表示手段23は、例えば図7に示す結果表示画面P101を表示装置40に表示する。結果表示画面P101は、通信システム3のトポロジーを表示するとともに、エラー検査手段21によってエラーが検出されたスイッチ2のアイコンをハッチングして表示している。
The display means 23 displays a result display screen P101 shown in FIG. The result display screen P101 displays the topology of the
例えば、結果データ13aには、第7のスイッチ2gないし第12のスイッチ2lの識別子が含まれる場合を考える。この場合、結果表示画面P101においては、第7のスイッチ2gないし第12のスイッチ2lに対応するアイコンがハッチングされている。これにより作業者は、第7のスイッチ2gないし第12のスイッチ2l宛の検査において検査データの不一致が確認され、これらのスイッチの近傍でサイレント故障が発生していることを認識することができる。図7に示す例では、エラーの発生したスイッチのアイコンをハッチングして表示したが、これに限られない。例えば点滅表示など、作業者にエラーが発生していることを示すことができれば、他の警告表示でも良い。
For example, consider a case where the result data 13a includes the identifiers of the seventh switch 2g to the twelfth switch 2l. In this case, in the result display screen P101, icons corresponding to the seventh switch 2g to the
表示手段23はさらに、サイレント故障が発生した被疑区間を結果表示画面P101に表示しても良い。表示手段23は、監視サーバ1は、隣接するスイッチ2のいずれか一方のみが、結果データ13aに含まれている場合、この隣接するスイッチを、被疑区間として特定することができる。図7に示す例では、第3のスイッチ2cおよび第7のスイッチ2g間と、第4のスイッチ2dおよび第8のスイッチ2h間とが、被疑区間として特定される。従って表示手段23は、第3のスイッチ2cおよび第7のスイッチ2g間と、第4のスイッチ2dおよび第8のスイッチ2h間とを、被疑区間として、結果表示画面P101に表示しても良い。
The
エラー検査手段21においてエラーが発生した場合、詳細エラー検査手段22によって、サイレント故障の発生したスイッチ2が特定される。
When an error occurs in the error checking means 21, the detailed error checking means 22 identifies the
詳細エラー検査手段22は、エラー検査手段21によって何らかのエラーが検出された場合、サイレント故障が発生した機器を特定する。具体的には詳細エラー検査手段22は、エラーが検出された機器、具体的には、結果データ13aに含まれるスイッチ2に隣接するスイッチのMIPに検査データを送信し、当該スイッチ2によって検査データがコピーされ返信された応答データを取得する。詳細エラー検査手段22は、当該スイッチ2に送信した検査データと応答データとが、一致するか否かを判定する。一致しない場合、当該MIPの識別子に基づいて、サイレント故障が発生したスイッチ2を特定する。サイレント故障が発生したスイッチ2が特定されると、詳細エラー検査手段22は、そのスイッチ2の識別子を、詳細結果データ14aに記憶する。
The detailed
ここで詳細エラー検査手段22は、結果データ13aを読み出して、エラーの発生したスイッチ2の識別子を取得するとともに、トポロジーデータ15aを参照し、隣接する機器のいずれか一方の識別子が、結果データ13aに含まれる場合、イーサネットループバックコマンドを利用して、隣接するスイッチのMIPに検査データを送信する。
Here, the detailed error checking means 22 reads out the result data 13a, acquires the identifier of the
図7に示す例において、第3のスイッチ2cおよび第7のスイッチ2gは一つのリンクで接続され隣接されているところ、第3のスイッチ2cの識別子は結果データ13aに含まれておらず、第7のスイッチ2gの識別子は結果データ13aに含まれている。同様に、第4のスイッチ2dの識別子は結果データ13aに含まれておらず、第8のスイッチ2hの識別子は結果データ13aに含まれている。そこで、詳細エラー検査手段22は、このように、隣接する2つのスイッチのうち、一方が結果データ13aに含まれ一方が結果データ13aに含まれない区間を、被疑区間として抽出し、この抽出した被疑区間のスイッチ2のMIPに対して検査データを送信する。図7に示す例の場合、第3のスイッチ2c、第4のスイッチ2d、第7のスイッチ2gおよび第8のスイッチ2hの各MIPに、検査データが送信される。
In the example shown in FIG. 7, the
詳細エラー検査手段22は、その検査データと、各MIPから受信した検査データとが一致するか否かに基づいて、サイレント故障が発生しているスイッチ2を特定することができる。
The detailed error inspection means 22 can identify the
図8を参照して説明する。エラー検査手段21において、監視サーバ1から第3のスイッチ2c宛に送信した場合はエラーが発生せず、第7のスイッチ2g宛に送信した場合にエラーが発生している。従って、第3のスイッチ2cおよび第7のスイッチ2gの区間は、このいずれかにおいてサイレント故障が発生している可能性がある被疑区間となる。そこで詳細エラー検査手段22は、第3のスイッチ2cのMIPおよび第7のスイッチ2gのMIPに検査データを送信する。
This will be described with reference to FIG. In the error checking means 21, no error occurs when the
図8は、第3のスイッチ2cにサイレント故障が発生している場合を示す。監視サーバ1が、第3のスイッチ2cの上流側のMIPに検査データを送信した場合は、送信したデータと受信したデータとは一致する。一方、第3のスイッチ2cの下流側のMIPに検査データを送信した場合は、第3のスイッチ2cのメモリに一度記憶された検査データが返信されるので、送信したデータと受信したデータとは一致しない。なお、第7のスイッチ2gの上流のMIPに検査データを送信しても同様に、送信したデータと受信したデータとは一致しない。そこで詳細エラー検査手段22は、一つのスイッチ2の上流側のMIPと下流側のMIPとで検査結果が異なる場合、このスイッチ2のメモリにおいてサイレント故障が発生していると特定することができる。
FIG. 8 shows a case where a silent failure has occurred in the
ここで、結果データ13aに、エラーが発生したときの検査データの種別が含まれている場合、詳細エラー検査手段22は、同様の検査データを、MIPに送信する。例えば、エラー検査手段21においてロングフレームの検査データを送信してエラーが発生した場合、詳細エラー検査手段22は同様に、ロングフレームの検査データをMIPに送信する。またエラー検査手段21において高トラヒックの状態でエラーが発生した場合、詳細エラー検査手段22は同様に、高トラヒック状態で検査データをMIPに送信する。
Here, when the result data 13a includes the type of inspection data when an error occurs, the detailed
このように、詳細エラー検査手段22が、サイレント故障の発生しているスイッチ2を特定すると、そのスイッチ2の識別子を、詳細結果データ14aに記憶する。表示手段23は、詳細結果データ14aに含まれるスイッチ2の識別子に基づいて、サイレント故障が発生している機器である旨を表示装置40に表示する。
As described above, when the detailed error checking means 22 identifies the
図9を参照して、本発明の実施の形態に係る監視サーバ1の処理を説明する。
With reference to FIG. 9, the process of the
通信システム3のサイレント故障の検査のタイミングになると、すべての対象機器およびすべての検査データについて、ステップS101ないしステップS103を繰り返す。ここで、すべての対象機器とは、図1に示す通信システム3の第1のスイッチ2aないし第12のスイッチ2lである。すべての検査データとは、検査データ記憶部11に記憶された検査データであって、例えば、ショートフレームの検査データ、ロングフレームの検査データ、優先度の異なる検査データなどである。また、高トラヒック状態をつくるために、複数の検査データの集合が含まれていても良い。
When it is time to inspect the silent failure of the
まずステップS101において監視サーバ1は、対象機器にpingで検査データを送信し、その応答データを受信する。ステップS102において監視サーバ1は、検査データと応答データとを比較し、一致しない場合、当該対象機器の識別子と、当該検査データを、結果データ13aに記憶する。
First, in step S101, the
すべての対象機器およびすべての検査データについてステップS101ないしステップS103の処理が終了すると、監視サーバ1は、ステップS104において、サイレント故障が発生した被疑区間を特定する。監視サーバ1は、トポロジーデータ15aを参照し、隣接するスイッチ2のいずれか一方のみが、結果データ13aに含まれている場合、この隣接する2つのスイッチを結ぶ区間を、被疑区間として特定することができる。
When the processing of step S101 to step S103 is completed for all target devices and all inspection data, the
ステップS105において監視サーバ1は、トポロジーデータ15aに基づいて、通信システム3のトポロジーを表示装置40に表示する。さらに監視サーバ1は、結果データ13aに基づいて検査データと応答データとが一致しなかった検査データの宛先のスイッチ2をエラー表示するとともに、ステップS104で特定した被疑区間を表示装置40に表示する。なお、結果データ13aに何らデータが格納されていない場合、ステップS105において監視サーバ1は、エラーが発生していない旨を、表示装置40に表示しても良い。
In step S105, the
ステップS106において監視サーバ1は、詳細エラー検査を実施するか否かを決定するために、結果データ13aに記録があるか否かを判定する。記録がない場合、通信システム3の対象機器のいずれもサイレント故障が発生していないので、そのまま処理を終了する。一方、結果データ13aに記録がある場合、ステップS104で特定された被疑区間の機器の各MIPについて、ステップS107およびステップS108の処理が繰り返される。
In step S106, the
まずステップS107において監視サーバ1は、各MIPに、イーサネットループバックで、検査データを送信する。ステップS108において監視サーバ1は、検査データと応答データが一致するか否かを判定する。各MIPに対して検査データを送信すると、ステップS109においてサイレント故障が発生した被疑装置を特定する。具体的には、機器の上流側のMIP宛に送信した検査データについては一致し、下流側のMIP宛に送信した検査データについては一致しなかった場合、その機器にサイレント故障が発生していると特定することができる。
First, in step S107, the
被疑装置が特定されると、ステップS110において監視サーバ1は、特定された被疑装置の名称等を、表示装置40に表示する。ここで監視サーバ1は、トポロジーデータとともに、被疑装置のアイコンを警告表示しても良い。
When the suspected device is identified, the
(適用例)
図10に示すように、本発明の実施の形態に係る監視サーバ1によって、待機系の機器についてサイレント故障を検出することが有効である。図10(a)に示すシステムは、待機系のAスイッチ200aと、運用系のBスイッチ200Bと、Aスイッチ200aまたはBスイッチ200bに処理を振り分けるCスイッチ200cを備える。
(Application example)
As shown in FIG. 10, it is effective to detect a silent failure for a standby device by the
この場合、Cスイッチ200cからBスイッチ200bに接続される第2のインスタンス201bにはトラヒックがあるものの、Cスイッチ200cからAスイッチ200aに接続される第1のインスタンス201aには、トラヒックはない。しかし、図10(b)に示すように、運用系システムの障害に伴い、待機系システムは運用を開始するところ、この待機系システムにサイレント故障が発生している状況では、問題が発生するおそれがある。
In this case, the second instance 201b connected from the
そこで本発明の実施の形態に係る監視サーバ1が、運用系システムが正常に稼働する間、待機系システムの機器にサイレント故障の検査を実施することが好ましい。これにより、待機系システムは、万全の状態で待機することができる。
Therefore, it is preferable that the
このように、本発明の実施の形態に係る監視サーバ1によれば、検査データを送信し応答データを比較することにより、通信システム3の機器のメモリの不具合によるサイレント故障も発見することができる。これにより、高品質な通信システム3を提供することができる。
Thus, according to the
また監視サーバ1は、コンピュータ処理として、通信システム3の機器のサイレント故障を予め発見することができる。これにより、例えば、ユーザの申告によって受動的に発見される障害の数を低減させることができる。また、待機系の通信システムに対してサイレント故障を検知することにより、定常的な正常性を確認することができる。
In addition, the
さらに、サイレント故障が発生した機器を特定することができるので、り障時間を短縮させることができる。さらに、トポロジーデータを用いて表示装置40に表示することにより、作業者に障害箇所を迅速に特定させ、障害回復アクションを迅速化させることができる。 Furthermore, since the device in which the silent failure has occurred can be identified, the failure time can be shortened. Furthermore, by displaying the topology data on the display device 40, it is possible to prompt the operator to identify the fault location and speed up the fault recovery action.
また本発明の実施の形態に係る監視サーバ1は、ICMPを利用して被疑区間を特定し、その被疑区間の機器のMIPに対してイーサネットループバックを利用してサイレント故障の部位を特定することができる。このように段階的に故障箇所を特定することにより、サイレント故障の検査時間を短縮することができる。
In addition, the
このように本発明の実施の形態に係る監視サーバ1によれば、高品質な通信システム3を提供し、ユーザの信頼性を向上させることができる。
Thus, according to the
(その他の実施の形態)
上記のように、本発明の実施の形態によって記載したが、この開示の一部をなす論述および図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例および運用技術が明らかとなる。
(Other embodiments)
As described above, the embodiments of the present invention have been described. However, it should not be understood that the descriptions and drawings constituting a part of this disclosure limit the present invention. From this disclosure, various alternative embodiments, examples, and operational techniques will be apparent to those skilled in the art.
例えば、本発明の最良の実施の形態に記載したアプリケーションサーバ1は、図3に示すように一つのハードウェア上に構成されても良いし、その機能や処理数に応じて複数のハードウェア上に構成されても良い。
For example, the
本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。 It goes without saying that the present invention includes various embodiments not described herein. Therefore, the technical scope of the present invention is defined only by the invention specifying matters according to the scope of claims reasonable from the above description.
1 監視サーバ
2 スイッチ
3 通信システム
10 記憶装置
11 検査データ記憶部
12 機器データ記憶部
13 結果データ記憶部
14 詳細結果データ記憶部
15 トポロジーデータ記憶部
20 中央処理制御装置
21 エラー検査手段
22 詳細エラー検査手段
23 表示手段
30 通信制御装置
40 表示装置
DESCRIPTION OF
Claims (6)
サイレント故障の検査対象の機器の識別子を含む機器データを記憶する機器データ記憶部と、
前記機器に送信する検査データを記憶する検査データ記憶部と、
前記機器データの検査対象の機器に、複数の前記検査データを所定時間内に送信して当該機器において高トラフィック状態にし、当該機器によって当該検査データがコピーされ返信された応答データを取得するとともに、当該機器に送信した検査データと当該応答データとが、一致するか否かを判定し、一致しない場合、当該機器の識別子を結果データに記憶するエラー検査手段と、
前記エラー検査手段において、いずれかの機器で一致しないと判定された場合、一致しないと判定された対象機器および当該対象機器に隣接する機器の上流側および下流側のそれぞれのMIPに前記検査データを送信し、前記対象機器および前記隣接する機器によって当該検査データがコピーされ返信された応答データを取得するとともに、前記対象機器および前記隣接する機器の上流側および下流側にそれぞれ送信した検査データと当該応答データとが、一致するか否かを判定し、上流側と下流側とで判定結果が一致しない場合、当該MIPの識別子に基づいて、サイレント故障が発生した機器を特定する詳細エラー検査手段
を備えることを特徴とする監視サーバ。 A monitoring server in a communication system comprising a plurality of devices and a monitoring server for inspecting silent failures of devices,
A device data storage unit for storing device data including an identifier of a device to be inspected for silent failure;
An inspection data storage unit for storing inspection data to be transmitted to the device;
A plurality of the inspection data is transmitted to the device to be inspected for the device data within a predetermined time to be in a high traffic state in the device, and the response data in which the inspection data is copied and returned by the device is acquired. It is determined whether or not the inspection data transmitted to the device and the response data match, and if they do not match, error checking means for storing the identifier of the device in the result data;
When it is determined that any of the devices does not match in the error inspection unit, the inspection data is stored in the MIP on each of the upstream side and the downstream side of the target device determined not to match and the device adjacent to the target device. Transmitting the response data in which the inspection data is copied and returned by the target device and the adjacent device, and transmitting the inspection data transmitted to the upstream side and the downstream side of the target device and the adjacent device, respectively It is determined whether or not the response data matches, and if the determination result does not match between the upstream side and the downstream side, detailed error checking means for specifying the device in which the silent failure has occurred is determined based on the identifier of the MIP. A monitoring server comprising:
前記トポロジーデータに基づいて前記通信システムのネットワーク構成を表示装置に表示するとともに、前記結果データに含まれる機器の識別子を抽出し、抽出した機器の識別子に基づいて前記表示装置に警告を表示する表示手段
を備えることを特徴とする請求項1に記載の監視サーバ。 A topology data storage unit that stores topology data indicating the topology of the communication system together with the identifier of the device;
A display that displays the network configuration of the communication system on a display device based on the topology data, extracts an identifier of the device included in the result data, and displays a warning on the display device based on the extracted identifier of the device The monitoring server according to claim 1, further comprising: means.
前記エラー検査手段は、前記検査データ記憶部に記憶された複数の検査データをそれぞれ、前記検査対象の機器に送信する
ことを特徴とする請求項1または2に記載の監視サーバ。 The inspection data storage unit stores a plurality of different inspection data,
The monitoring server according to claim 1, wherein the error inspection unit transmits each of a plurality of inspection data stored in the inspection data storage unit to the inspection target device.
ことを特徴とする請求項1ないし3のいずれか1項に記載の監視サーバ。 The detailed error inspection means refers to the result data and the topology data, and when the identifier of any one of the adjacent devices is included in the result data, transmits the inspection data to the MIP of the adjacent device. The monitoring server according to any one of claims 1 to 3 , characterized in that:
前記エラー検査手段は、待機系の機器に、前記検査データを送信する
ことを特徴とする請求項1ないし4のいずれか1項に記載の監視サーバ。 When the information system includes an active device and a standby device,
The monitoring server according to any one of claims 1 to 4 , wherein the error inspection unit transmits the inspection data to a standby device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011072257A JP5367002B2 (en) | 2011-03-29 | 2011-03-29 | Monitoring server and monitoring program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011072257A JP5367002B2 (en) | 2011-03-29 | 2011-03-29 | Monitoring server and monitoring program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012209666A JP2012209666A (en) | 2012-10-25 |
JP5367002B2 true JP5367002B2 (en) | 2013-12-11 |
Family
ID=47189086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011072257A Expired - Fee Related JP5367002B2 (en) | 2011-03-29 | 2011-03-29 | Monitoring server and monitoring program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5367002B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6822262B2 (en) * | 2017-03-24 | 2021-01-27 | 富士ゼロックス株式会社 | Relay device, connection information management system and program |
JP7119957B2 (en) * | 2018-11-30 | 2022-08-17 | 富士通株式会社 | Switch device and failure detection program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000013372A (en) * | 1998-06-19 | 2000-01-14 | Nec Corp | Network management device |
JP2005347969A (en) * | 2004-06-01 | 2005-12-15 | Matsushita Electric Ind Co Ltd | Device and method for transferring packet |
JP4992573B2 (en) * | 2007-06-27 | 2012-08-08 | 日本電気株式会社 | Layer 2 switch, communication device, data section error detection method used therefor, and program thereof |
-
2011
- 2011-03-29 JP JP2011072257A patent/JP5367002B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012209666A (en) | 2012-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6544816B2 (en) | Method and apparatus for checking a forwarding table and device | |
CN104168193B (en) | A kind of method and routing device of Virtual Router Redundancy Protocol fault detect | |
JP2019129408A (en) | Failure detection method, node device, and communication system | |
US20090003241A1 (en) | A Method and System For Obtaining Path Maximum Transfer Unit in Network | |
US7983175B2 (en) | System and method for detecting a network failure | |
CN103138988B (en) | Positioning treatment method and positioning treatment device of network faults | |
CN110708715B (en) | Service fault finding method and device for 5G base station | |
US12052328B2 (en) | Deriving proxy stability without network inspection | |
JP2010034876A (en) | Fault monitoring server and network failure monitoring system | |
US20100246415A1 (en) | Network testing method and system | |
JP5367002B2 (en) | Monitoring server and monitoring program | |
CN102868616B (en) | Method for establishing virtual MAC (Media Access Control) address table item in network as well as router and system | |
CN105959129B (en) | The method and device of monitoring network failure | |
JP3416604B2 (en) | Network monitoring equipment | |
US8111625B2 (en) | Method for detecting a message interface fault in a communication device | |
JP5643453B1 (en) | Communication path management apparatus and program | |
JP6052150B2 (en) | Relay device | |
JPH0856235A (en) | Test method for router and terminal equipment for test | |
JP2016040885A (en) | Relay system and relay device | |
JP2007207050A (en) | Test method and program of communication between parallel processor | |
KR101888041B1 (en) | Method and apparatus for network diagnosis processing | |
CN110309027B (en) | APP fault positioning method and device, server and terminal | |
CN113242141B (en) | Fault detection method and device for user plane network element | |
JP2016174217A (en) | Communication system | |
JP4024941B2 (en) | LAN device monitoring device for computers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130205 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130408 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130507 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130806 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130910 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |