JP7498128B2 - Monitoring device, fault detection method and fault detection program - Google Patents
Monitoring device, fault detection method and fault detection program Download PDFInfo
- Publication number
- JP7498128B2 JP7498128B2 JP2021028735A JP2021028735A JP7498128B2 JP 7498128 B2 JP7498128 B2 JP 7498128B2 JP 2021028735 A JP2021028735 A JP 2021028735A JP 2021028735 A JP2021028735 A JP 2021028735A JP 7498128 B2 JP7498128 B2 JP 7498128B2
- Authority
- JP
- Japan
- Prior art keywords
- switch
- monitoring
- occurred
- alert
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012806 monitoring device Methods 0.000 title claims description 52
- 238000001514 detection method Methods 0.000 title claims description 37
- 238000012544 monitoring process Methods 0.000 claims description 92
- 238000004891 communication Methods 0.000 claims description 54
- 238000000034 method Methods 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 15
- 230000005856 abnormality Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 230000004044 response Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Description
本発明は、監視装置等に関する。 The present invention relates to a monitoring device, etc.
クラウドの普及に伴って、データセンター(DC:Data Center)の基盤となるDCネットワークには、今まで以上に高い品質が求められている。DCネットワークでは、スイッチ等のネットワーク機器が障害アラートを発しないにも関わらず、誤動作するサイレント障害が発生する場合がある。このサイレント障害は、その発見が認識されにくいため、障害復旧が遅延し、多くのサービスに影響を及ぼす恐れがある。 As cloud computing becomes more widespread, higher quality than ever is required of data centers (DC) networks, which are the foundation of DCs. In DC networks, silent failures can occur, where network devices such as switches malfunction without issuing a failure alert. Because silent failures are difficult to detect, recovery from the failure can be delayed, potentially affecting many services.
図9は、サイレント障害の一例を説明するための図である。図9に示す例では、スイッチ4,5が、監視装置6に接続されている。スイッチ4は、コントロールプレーン4aと、データプレーン4bとを有する。コントロールプレーン4aは、スイッチ4全体を制御する制御部である。データプレーン4bは、実際にデータ通信を司るASIC(Application Specific Integrated Circuit:特定用途向け集積回路)である。スイッチ5には、スイッチ4と同様にして、コントロールプレーン5aと、データプレーン5bとが含まれる。
Figure 9 is a diagram for explaining an example of a silent failure. In the example shown in Figure 9, switches 4 and 5 are connected to a monitoring device 6. Switch 4 has a
たとえば、スイッチ4のデータプレーン4bに異常が発生し、通信に支障をきたしているが、コントロールプレーン4aが正常である場合には、サイレント障害となる。ここで、コントロールプレーン4aが正常に動作している場合、監視装置6が、SNMPリクエストをスイッチ4に送信しても、異常を示すアラートが、監視装置6に通知されず、監視装置6は、SNMPリクエストによって、データプレーン4bの障害を検知できない。
For example, if an abnormality occurs in the
上記のサイレント障害を検知する従来技術として、従来技術1、2がある。従来技術1では、監視装置から、監視対象装置に対してテストデータを定期的に送信し、応答の有無で異常(サイレント障害等)を検知する。 Conventional techniques for detecting the above-mentioned silent failures include Conventional Techniques 1 and 2. In Conventional Technique 1, a monitoring device periodically transmits test data to a monitored device, and detects an abnormality (such as a silent failure) based on the presence or absence of a response.
従来技術2では、監視装置が、各監視対象装置の情報を定期的に収集し、収集した情報を基にして、システムの管理者が、通常時のネットワークの振る舞いを定義しておき、通常時の振る舞いとの違いや兆候を基にして異常(サイレント障害等)を検知する。 In conventional technology 2, a monitoring device periodically collects information from each monitored device, and a system administrator defines normal network behavior based on the collected information, and detects abnormalities (such as silent failures) based on differences from normal behavior and symptoms.
上述した従来技術では、効率よくサイレント障害を検知することができないという問題がある。 The above-mentioned conventional technology has the problem that it is not possible to efficiently detect silent failures.
たとえば、従来技術1をそのまま、大規模なネットワークに適用すると、テストデータによってトラフィックの量が増加してしまうという問題がある。また、従来技術2では、通常時のネットワークの振る舞いを定義する管理者の負担が大きく、運用コストもかかる。 For example, if conventional technology 1 is applied as is to a large-scale network, there is a problem that the amount of traffic increases due to the test data. Furthermore, conventional technology 2 places a heavy burden on the administrator who defines the network behavior under normal circumstances, and it also incurs operational costs.
1つの側面では、本発明は、効率よくサイレント障害を検知することができる監視装置、障害検知方法および障害検知プログラムを提供することを目的とする。 In one aspect, the present invention aims to provide a monitoring device, a fault detection method, and a fault detection program that can efficiently detect silent faults.
第1の案では、監視装置は、取得部と、検知部とを有する。取得部は、ネットワークに含まれる複数のスイッチのうち、監視対象とする第1スイッチと、第2スイッチと、他の監視スイッチとをそれぞれ仮想ネットワークで接続した監視スイッチから、第1スイッチとの第1通信状況、第2スイッチとの第2通信状況、他の監視スイッチとの第3通信状況とを取得する。検知部は、第1通信状況と、第2通信状況と、第3通信状況とを基にして、第1スイッチおよび第2スイッチから、障害の発生したスイッチを検知する。 In the first proposal, the monitoring device has an acquisition unit and a detection unit. The acquisition unit acquires a first communication status with the first switch, a second communication status with the second switch, and a third communication status with the other monitoring switches from a monitoring switch that connects a first switch, a second switch, and other monitoring switches to be monitored by a virtual network among multiple switches included in the network. The detection unit detects a failed switch from the first switch and the second switch based on the first communication status, the second communication status, and the third communication status.
効率よくサイレント障害を検知することができる。 It can efficiently detect silent failures.
以下に、本願の開示する監視装置、障害検知方法および障害検知プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。 Below, examples of the monitoring device, fault detection method, and fault detection program disclosed in this application are described in detail with reference to the drawings. Note that the present invention is not limited to these examples.
図1は、本実施例に係る監視システムの一例を示す図である。図1に示すように、この監視システム1は、コアスイッチ10A,10B、フロアスイッチ20、監視スイッチ30A,30B、監視装置100を有する。
Figure 1 is a diagram showing an example of a monitoring system according to the present embodiment. As shown in Figure 1, the monitoring system 1 includes
コアスイッチ10A,10B、フロアスイッチ20、監視スイッチ30A,30Bはそれぞれ無線LAN(Local Area Network)又は有線LANによって相互に接続される。また、図示を省略するが、コアスイッチ10A,10B、フロアスイッチ20、監視スイッチ30A,30Bは、無線LAN又は有線LANによって、ネットワーク内の他のスイッチ、端末装置に接続される。
The
コアスイッチ10Aは、ネットワーク内でパケット転送、中継を行うネットワークスイッチである。たとえば、コアスイッチ10Aは、ルーティングテーブルを保持しており、コアスイッチ10B、他のスイッチ、端末装置からパケットを受信した場合には、ルーティングテーブルを基にして、データの転送、中継を行う。コアスイッチ10Aは、スイッチング機能も有する。
The
コアスイッチ10Bは、ネットワーク内でパケット転送、中継を行うネットワークスイッチである。たとえば、コアスイッチ10Bは、ルーティングテーブルを保持しており、コアスイッチ10A、他のスイッチ、端末装置からパケットを受信した場合には、ルーティングテーブルを基にして、データの転送、中継を行う。コアスイッチ10Bは、スイッチング機能も有する。
The
フロアスイッチ20は、ネットワークの中枢部と末端部との橋渡しを行うネットワークスイッチである。
The
監視スイッチ30Aは、IP SLA機能を備え、コアスイッチ10A,10Bを経由してフロアスイッチ20に到達するVLAN(Virtual Local Area Network)を作成し、コアスイッチ10A,10B、フロアスイッチ20、監視スイッチ30Bを監視する。
The
監視スイッチ30Bは、IP SLA機能を備え、コアスイッチ10A,10Bを経由してフロアスイッチ20に到達するVLANを作成し、コアスイッチ10A,10B、フロアスイッチ20、監視スイッチ30Aを監視する。
The
図2は、IP SLA機能を説明するための図である。一例として、監視スイッチ30Aと、監視対象としてコアスイッチ10Aとを用いて説明を行う。監視スイッチ30Aは、監視パケットをコアスイッチ10Aに送信し、コアスイッチ10Aからの応答を基にして、コアスイッチ10Aのアラートの発生の有無を判定する。以下では説明を省略するが、監視スイッチ30Aとコアスイッチ10Aとは、VLANを介して、監視パケットに関する情報をやり取りする。
Figure 2 is a diagram for explaining the IP SLA function. As an example, the explanation will be given using a
監視スイッチ30Aは、監視パケットを送信し、コアスイッチ10Aから応答を受信した場合には、コアスイッチ10Aにアラートが発生していないと判定する。
When the
一方、監視スイッチ30Aは、監視パケットをコアスイッチ10Aに送信し、コアスイッチ10Aから応答を受信しない場合には、コアスイッチ10Aにアラートが発生したと判定し、アラート情報を、監視装置100に送信する。アラート情報の通信には、SYSLOG/SNMP trap等のプロトコルが用いられる。
On the other hand, the
監視スイッチ30Aは、他の監視対象となるコアスイッチ10B、フロアスイッチ20、監視スイッチ30Bについても、VLANを介して、監視パケットに関する情報をやり取りすることで、アラートの発生の有無を判定し、アラートが発生した場合には、アラート情報を、監視装置100に送信する。
The
アラート情報には、送信元の監視スイッチ30Aの情報と、アラートの発生した監視対象の情報が設定される。監視スイッチ30Aは、アラートの発生した監視対象を検知するたびに、アラート情報を、監視装置100に送信する。
The alert information contains information about the sending
監視スイッチ30Bは、監視スイッチ30Aと同様にして、監視パケットを監視対象(コアスイッチ10A,10B,フロアスイッチ20、監視スイッチ30A)に送信し、監視対象からの応答を基にして、監視対象のアラートの発生の有無を判定する。監視スイッチ30Bは、監視対象にアラートが発生したと判定した場合には、アラート情報を、監視装置100に送信する。
Similar to monitoring
監視装置100は、監視スイッチ30A、30Bからアラート情報を受信した場合に、アラート情報を基にして、サイレント障害の発生した監視対象のスイッチを検知する装置である。監視装置100は、サイレント障害の発生した監視対象のスイッチを検知すると、検知したスイッチに対して、メッセージを送信することで、監視対象のポートを閉塞させる。たとえば、ネットワークが冗長化されていれば、かかる処理を実行することで、自動的に、サイレント障害のスイッチを検知して、ネットワークを障害から復旧させることができる。
When the
次に、監視装置100の構成の一例について説明する。図3は、本実施例に係る監視装置の構成を示す機能ブロック図である。図3に示すように、この監視装置100は、通信部110と、入力部120と、表示部130と、記憶部140、制御部150とを有する。
Next, an example of the configuration of the
通信部110は、ネットワークを介して、監視スイッチ30A,30Bとの間で情報の送受信を行う。たとえば、通信部110は、NIC(Network Interface Card)等によって実現される。 The communication unit 110 transmits and receives information between the monitoring switches 30A and 30B via the network. For example, the communication unit 110 is realized by a network interface card (NIC) or the like.
入力部120は、各種の情報を、入力する入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。 The input unit 120 is an input device for inputting various types of information. The input unit 120 corresponds to a keyboard, a mouse, a touch panel, etc.
表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、タッチパネル等に対応する。 The display unit 130 is a display device that displays information output from the control unit 150. The display unit 130 corresponds to a liquid crystal display, an organic EL (Electro Luminescence) display, a touch panel, etc.
記憶部140は、登録テーブル141、パターンテーブル142、判定ポリシーテーブル143を有する。記憶部140は、たとえば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。 The storage unit 140 has a registration table 141, a pattern table 142, and a judgment policy table 143. The storage unit 140 is realized, for example, by a semiconductor memory element such as a random access memory (RAM) or a flash memory, or a storage device such as a hard disk or an optical disk.
登録テーブル141は、監視スイッチ30A,30Bから送信されるアラート情報を保持するテーブルである。アラート情報には、このアラート情報の送信元となる監視スイッチの識別情報(IP<Internet Protocol>アドレス、MAC<Media Access Control>アドレス等)と、アラートの発生した監視対象のスイッチの識別情報(IPアドレス、MACアドレス等)が含まれる。
Registration table 141 is a table that holds alert information sent from
パターンテーブル142は、アラートの発生した監視対象と、アラートの発生していない監視対象との組み合わせに対応するパターンを定義するテーブルである。図4は、パターンテーブルのデータ構造の一例を示す図である。図4に示すように、このパターンテーブル142は、アラート発生箇所と、パターンとを対応付ける。アラート発生箇所は、監視パケットによってアラートが検出されたスイッチを示す。ここではアラート発生箇所として、監視スイッチ(監視スイッチ30A,30B)、コアスイッチ10A、フロアスイッチ20を用いて説明する。
Pattern table 142 is a table that defines patterns corresponding to combinations of monitoring targets for which an alert has occurred and monitoring targets for which no alert has occurred. FIG. 4 is a diagram showing an example of the data structure of a pattern table. As shown in FIG. 4, this pattern table 142 associates the location where an alert occurred with a pattern. The location where an alert occurred indicates the switch where an alert was detected by a monitoring packet. Here, the explanation will be given using the monitoring switches (monitoring switches 30A, 30B),
たとえば、監視スイッチ30Aから送信されたアラート情報において監視スイッチ30Bにアラートが発生しておらず、かつ、監視スイッチ30Bから送信されたアラート情報において監視スイッチ30Aにアラートが発生していない場合に、パターンテーブル142の監視スイッチの判定が「○」となる。
For example, if the alert information sent from monitoring
一方、監視スイッチ30Aから送信されたアラート情報において監視スイッチ30Bにアラートが発生している場合、または、監視スイッチ30Bから送信されたアラート情報において監視スイッチ30Aにアラートが発生している場合には、パターンテーブル142の監視スイッチの判定が「×」となる。
On the other hand, if the alert information sent from monitoring
監視スイッチ30Aから送信されたアラート情報においてコアスイッチ10Aにアラートが発生しておらず、かつ、監視スイッチ30Bから送信されたアラート情報においてコアスイッチ10Aにアラートが発生していない場合に、パターンテーブル142のコアスイッチの判定が「○」となる。
If the alert information sent from the
監視スイッチ30Aから送信されたアラート情報においてコアスイッチ10Aにアラートが発生している場合、または、監視スイッチ30Bから送信されたアラート情報においてコアスイッチ10Aにアラートが発生している場合には、パターンテーブル142のコアスイッチの判定が「×」となる。
If the alert information sent from the
監視スイッチ30Aから送信されたアラート情報においてフロアスイッチ20にアラートが発生しておらず、かつ、監視スイッチ30Bから送信されたアラート情報においてフロアスイッチ20にアラートが発生していない場合に、パターンテーブル142のフロアスイッチの判定が「○」となる。
If the alert information sent from the
監視スイッチ30Aから送信されたアラート情報においてフロアスイッチ20にアラートが発生している場合、または、監視スイッチ30Bから送信されたアラート情報においてフロアスイッチ20にアラートが発生している場合には、パターンテーブル142のコアスイッチの判定が「×」となる。
If the alert information sent from the
ここで、図4に示すように、監視スイッチの判定が「○」、コアスイッチ10Aの判定が「○」、フロアスイッチ20の判定が「×」の場合には、パターン「A」となる。監視スイッチの判定が「○」、コアスイッチ10Aの判定が「×」、フロアスイッチ20の判定が「○」の場合には、パターン「B」となる。
As shown in FIG. 4, if the monitoring switch judges "○", the
監視スイッチの判定が「×」、コアスイッチ10Aの判定が「○」、フロアスイッチ20の判定が「○」の場合には、パターン「C」となる。監視スイッチの判定が「×」、コアスイッチ10Aの判定が「×」、フロアスイッチ20の判定が「○」の場合には、パターン「D」となる。
If the monitoring switch judges "X", the
監視スイッチの判定が「○」、コアスイッチ10Aの判定が「×」、フロアスイッチ20の判定が「×」の場合には、パターン「E」となる。監視スイッチの判定が「×」、コアスイッチ10Aの判定が「○」、フロアスイッチ20の判定が「×」の場合には、パターン「F」となる。監視スイッチの判定が「×」、コアスイッチ10Aの判定が「×」、フロアスイッチ20の判定が「×」の場合には、パターン「G」となる。
If the monitoring switch judges as "○", the
ここで、図4で説明したパターンテーブル142は、コアスイッチ10Aに対応するパターンテーブルであるが、コアスイッチ10Bに対応するパターンテーブルも同様となる。説明の便宜上、一部について説明すると、監視スイッチ30Aから送信されたアラート情報においてコアスイッチ10Bにアラートが発生しておらず、かつ、監視スイッチ30Bから送信されたアラート情報においてコアスイッチ10Bにアラートが発生していない場合に、パターンテーブル(コアスイッチ10Bに対応するパターンテーブル)のコアスイッチの判定が「○」となる。
The pattern table 142 described in FIG. 4 is a pattern table corresponding to
監視スイッチ30Aから送信されたアラート情報においてコアスイッチ10Bにアラートが発生している場合、または、監視スイッチ30Bから送信されたアラート情報においてコアスイッチ10Bにアラートが発生している場合には、パターンテーブル(コアスイッチ10Bに対応するパターンテーブル)のコアスイッチの判定が「×」となる。
If the alert information sent from the
そして、監視スイッチ、コアスイッチ10A、フロアスイッチ20の「○」、「×」の組み合わせによって、コアスイッチ10Bに関するパターンが特定される。
Then, a pattern related to the
判定ポリシーテーブル143は、パターンに応じたサイレント障害の要因を判定するための情報を保持する。図5は、判定ポリシーテーブルのデータ構造の一例を示す図である。図5に示すように、この判定ポリシーテーブル143は、パターンと、要因とを対応付ける。パターンは、図4で説明したパターンA~Gに対応する。要因は、サイレント障害の要因を示す。ここでは一例として、コアスイッチ10Aに関するパターンを用いて説明を行う。
The judgment policy table 143 holds information for determining the cause of a silent failure according to a pattern. FIG. 5 is a diagram showing an example of the data structure of the judgment policy table. As shown in FIG. 5, this judgment policy table 143 associates patterns with causes. The patterns correspond to patterns A to G described in FIG. 4. The causes indicate the causes of silent failures. Here, an explanation will be given using a pattern related to the
たとえば、パターンAの要因は、「フロアスイッチ20またはコアスイッチ10A(コアスイッチ10Aのルーティング機能)に障害発生」となる。パターンBの要因は、「コアスイッチ10Aに障害発生」となる。
For example, the cause of pattern A is "a failure occurs in the
パターンCの要因は、「コアスイッチ10A(コアスイッチ10Aのスイッチング機能)に障害発生」となる。パターンDの要因は、「コアスイッチ10Aに障害発生」となる。
The cause of pattern C is "a failure occurs in
パターンEの要因は、「コアスイッチ10A(コアスイッチ10Aのルーティング機能)に障害発生」となる。パターンFの要因は、「コアスイッチ10A(コアスイッチ10Aのルーティング機能、スイッチング機能)に障害発生」となる。パターンGの要因は、「コアスイッチ10Aに障害発生」となる。
The cause of pattern E is "a failure occurs in the
図5では、コアスイッチ10Aに関するパターンを用いて説明を行った。図示を省略するが、コアスイッチ10Bのパターンに対応する要因は、上記説明のコアスイッチ10Aを、コアスイッチ10Bに置き換えたものとなる。
In Figure 5, the explanation was given using a pattern related to
図3の説明に戻る。制御部150は、取得部151と、検知部152と、送信部153とを有する。制御部150は、たとえば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)により実現される。また、制御部150は、例えばASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実行されてもよい。 Returning to the explanation of FIG. 3, the control unit 150 has an acquisition unit 151, a detection unit 152, and a transmission unit 153. The control unit 150 is realized, for example, by a CPU (Central Processing Unit) or an MPU (Micro Processing Unit). The control unit 150 may also be executed by an integrated circuit, for example, an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
取得部151は、監視スイッチ30A,30Bから、アラート情報を取得する。取得部151は、取得したアラート情報を、登録テーブル141に登録する。取得部151は、アラート情報を取得する度に、上記処理を繰り返し実行する。 The acquisition unit 151 acquires alert information from the monitoring switches 30A and 30B. The acquisition unit 151 registers the acquired alert information in the registration table 141. The acquisition unit 151 repeats the above process each time it acquires alert information.
検知部152は、登録テーブル141に登録されたアラート情報の組み合わせと、パターンテーブル142とを基にして、パターンを特定する。検知部152は、特定したパターンと、判定ポリシーテーブル143とを基にして、サイレント障害の要因となる箇所を検知し、検知結果を送信部153に出力する。検知部152は、検知結果を表示部130に出力して、表示させてもよい。 The detection unit 152 identifies a pattern based on a combination of alert information registered in the registration table 141 and the pattern table 142. The detection unit 152 detects a location that is the cause of a silent failure based on the identified pattern and the judgment policy table 143, and outputs the detection result to the transmission unit 153. The detection unit 152 may output the detection result to the display unit 130 for display.
たとえば、検知部152は、登録テーブル141に登録された各アラート情報を参照し、監視スイッチ(30A,30B)、コアスイッチ10A、コアスイッチ10B、フロアスイッチについて、「○」か「×」かの判定を実行する。検知部152が「○」か「×」かを判定する処理は、図4で説明した方法に対応する。
For example, the detection unit 152 refers to each piece of alert information registered in the registration table 141, and executes a judgment as to whether the monitoring switch (30A, 30B), the
検知部152は、「○」、「×」の判定結果の組み合わせと、パターンテーブル142とを基にして、パターンを特定する。検知部152が、パターンを特定する処理は、図4で説明した方法に対応する。なお、検知部152は、全ての判定結果が「○」となる場合には、サイレント障害が発生していないものとして、いずれかの判定結果が「×」となるまで、上記処理を繰り返し実行する。 The detection unit 152 identifies a pattern based on a combination of the judgment results of "○" and "×" and the pattern table 142. The process by which the detection unit 152 identifies a pattern corresponds to the method described in FIG. 4. If all judgment results are "○", the detection unit 152 assumes that a silent failure has not occurred and repeats the above process until any judgment result becomes "×".
検知部152は、パターン(図4で説明したパターンA~Gのいずれか)を特定すると、特定したパターンと、判定ポリシーテーブル143とを基にして、サイレント障害の要因となる箇所を検知し、検知した結果を、送信部153に出力する。検知部152は、サイレント障害の要因となる箇所に加えて、ルーティング機能、スイッチング機能に障害があるのかを合わせて出力してもよい。 When the detection unit 152 identifies a pattern (any of patterns A to G described in FIG. 4), it detects the location that is the cause of the silent failure based on the identified pattern and the judgment policy table 143, and outputs the detection result to the transmission unit 153. In addition to the location that is the cause of the silent failure, the detection unit 152 may also output whether there is a failure in the routing function or the switching function.
送信部153は、検知部152の検知結果を基にして、サイレント障害の要因となる箇所となるスイッチに対してメッセージを送信する。メッセージには、あて先となるスイッチの識別情報が設定されるものとする。 The sending unit 153 sends a message to the switch that is the cause of the silent failure based on the detection result of the detection unit 152. The message is set with the identification information of the destination switch.
送信部153のメッセージを受信したスイッチは、他のスイッチとの通信を停止する処理を行う。たとえば、送信部153は、監視スイッチ30A,30Bを介して、該当するスイッチにメッセージを送信する。係る処理が実行されることで、コアスイッチ10A,10Bによる経路の切り替えが発生する。 The switch that receives the message from the transmission unit 153 performs processing to stop communication with other switches. For example, the transmission unit 153 transmits a message to the relevant switch via the monitoring switches 30A and 30B. Execution of this processing causes a route switch by the core switches 10A and 10B.
図6は、メッセージ送信による経路切り替えの一例を説明するための図である。たとえば、監視装置100が、コアスイッチ10Aにサイレント障害が発生したことを検知し、送信部153が、メッセージをコアスイッチ10Aに送信した場合について説明する。
Figure 6 is a diagram for explaining an example of path switching by message transmission. For example, a case will be explained in which the
監視スイッチ30Aは、監視装置100の送信部153からメッセージを受信すると、メッセージをコアスイッチ10Aに転送する。コアスイッチ10Aは、メッセージを受信すると、所定のスクリプトを実行し、コアスイッチ10Aのポートをダウンさせる。コアスイッチ10Aのポートがダウンすることで、それまでコアスイッチ10Aを経由していたパケットが、コアスイッチ10Bを経由して転送されるようになり、経路の切り替えが発生する。これによって、一部のコアスイッチにサイレント障害が発生しても、ネットワークを自動的に復旧させることができる。
When the
次に、本実施例に係る監視装置100の処理手順の一例について説明する。図7は、本実施例に係る監視装置の処理手順を示すフローチャートである。図7に示すように、監視装置100の取得部151は、監視スイッチ30A,30Bからアラート情報を受信した場合に、アラート情報を登録テーブル141に登録する(ステップS101)。
Next, an example of the processing procedure of the
監視装置100の検知部152は、登録テーブル141の各アラート情報と、パターンテーブル142とを比較して、パターンを特定する(ステップS102)。検知部152は、パターンと判定ポリシーテーブル143とを基にして、サイレント障害の発生したスイッチを検知する(ステップS103)。
The detection unit 152 of the
監視装置100の送信部は、サイレント障害の発生したスイッチに対してメッセージを送信し、送信先のスイッチのポートを閉塞させる(ステップS104)。
The transmitter of the
監視装置100は、処理を継続するか否かを判定する(ステップS105)。監視装置100は、処理を継続する場合には(ステップS105,Yes)、ステップS101に移行する。監視装置100は、処理を継続しない場合には(ステップS105,No)、処理を終了する。
The
次に、本実施例に係る監視装置100の効果について説明する。監視装置100は、監視対象となるスイッチを監視する監視スイッチ30A,30Bから、アラート情報を取得し、アラートの発生したスイッチの組み合わせを基にして、サイレント障害の発生したスイッチを検知する。これによって、効率的に監視対象となるスイッチのサイレント障害を検知することができる。
Next, the effects of the
たとえば、監視装置100は、アラートの発生したスイッチの組み合わせを、パターンA~パターンGのいずれかに分類し、分類したパターンと、判定ポリシーテーブル143とを基にして、サイレント障害の発生したスイッチを検知する。これにより、精度よく、サイレント障害に対応する箇所を特定することができる。
For example, the
監視装置100は、サイレント障害の発生したスイッチを検知した場合に、検知したスイッチに対して、メッセージを送信し、スイッチのポートを閉塞させる。冗長化されたネットワークにおいて、かかる処理を実行することで、サイレント障害が発生した場合でも、ネットワークを自動的に復旧させることができる。
When the
次に、上記実施例に示した監視装置100と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図8は、実施例の監視装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
Next, an example of the hardware configuration of a computer that realizes the same functions as the
図8に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、ユーザからのデータの入力を受け付ける入力装置202と、ディスプレイ203とを有する。また、コンピュータ200は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置204と、インタフェース装置205とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM206と、ハードディスク装置207とを有する。そして、各装置201~207は、バス208に接続される。
As shown in FIG. 8,
ハードディスク装置207は、取得プログラム207a、検知プログラム207b、送信プログラム207cを有する。また、CPU201は、各プログラム207a~207cを読み出してRAM206に展開する。
The
取得プログラム207aは、取得プロセス206aとして機能する。検知プログラム207bは、検知プロセス206bとして機能する。送信プログラム207cは、送信プロセス206cとして機能する。 The acquisition program 207a functions as an acquisition process 206a. The detection program 207b functions as a detection process 206b. The transmission program 207c functions as a transmission process 206c.
取得プロセス206aの処理は、取得部151の処理に対応する。検知プロセス206bの処理は、検知部152の処理に対応する。送信プロセス206cの処理は、送信部153の処理に対応する。 The processing of the acquisition process 206a corresponds to the processing of the acquisition unit 151. The processing of the detection process 206b corresponds to the processing of the detection unit 152. The processing of the transmission process 206c corresponds to the processing of the transmission unit 153.
なお、各プログラム207a~207dについては、必ずしも最初からハードディスク装置207に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200が各プログラム207a~207dを読み出して実行するようにしてもよい。
Note that each of the programs 207a to 207d does not necessarily have to be stored in the
100 監視装置
110 通信部
120 入力部
130 表示部
140 記憶部
141 登録テーブル
142 パターンテーブル
143 判定ポリシーテーブル
150 制御部
151 取得部
152 検知部
153 送信部
REFERENCE SIGNS
Claims (11)
前記第1通信状況と、前記第2通信状況と、前記第3通信状況とを基にして、前記第1スイッチおよび前記第2スイッチから、障害の発生したスイッチを検知する検知部と、
を有することを特徴とする監視装置。 an acquisition unit that acquires, from a second monitoring switch that connects a first switch, a second switch, and a first monitoring switch to be monitored by a virtual network among a plurality of switches included in the network, a first communication status with the first switch, a second communication status with the second switch, and a third communication status with the first monitoring switch and the second monitoring switch ;
a detection unit that detects a switch in which a failure has occurred from the first switch and the second switch based on the first communication status, the second communication status, and the third communication status;
A monitoring device comprising:
ネットワークに含まれる複数のスイッチのうち、監視対象とする第1スイッチと、第2スイッチと、第1監視スイッチとをそれぞれ仮想ネットワークで接続した第2監視スイッチから、前記第1スイッチとの第1通信状況、前記第2スイッチとの第2通信状況、前記第1監視スイッチおよび前記第2監視スイッチとの第3通信状況とを取得し、
前記第1通信状況と、前記第2通信状況と、前記第3通信状況とを基にして、前記第1スイッチおよび前記第2スイッチから、障害の発生したスイッチを検知する
処理を実行することを特徴とする障害検知方法。 1. A computer-implemented method for fault detection, comprising:
obtain, from a second monitoring switch that connects a first switch, a second switch, and a first monitoring switch to be monitored by a virtual network among a plurality of switches included in the network, a first communication status with the first switch, a second communication status with the second switch, and a third communication status with the first monitoring switch and the second monitoring switch ;
a process of detecting a switch in which a fault has occurred from the first switch and the second switch based on the first communication status, the second communication status, and the third communication status.
ネットワークに含まれる複数のスイッチのうち、監視対象とする第1スイッチと、第2スイッチと、第1監視スイッチとをそれぞれ仮想ネットワークで接続した第2監視スイッチから、前記第1スイッチとの第1通信状況、前記第2スイッチとの第2通信状況、前記第1監視スイッチおよび前記第2監視スイッチとの第3通信状況とを取得し、
前記第1通信状況と、前記第2通信状況と、前記第3通信状況とを基にして、前記第1スイッチおよび前記第2スイッチから、障害の発生したスイッチを検知する
処理を実行させることを特徴とする障害検知プログラム。 On the computer,
obtain, from a second monitoring switch that connects a first switch, a second switch, and a first monitoring switch to be monitored by a virtual network among a plurality of switches included in the network, a first communication status with the first switch, a second communication status with the second switch, and a third communication status with the first monitoring switch and the second monitoring switch ;
a fault detection program that executes a process of detecting a switch in which a fault has occurred from the first switch and the second switch based on the first communication status, the second communication status, and the third communication status.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021028735A JP7498128B2 (en) | 2021-02-25 | 2021-02-25 | Monitoring device, fault detection method and fault detection program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021028735A JP7498128B2 (en) | 2021-02-25 | 2021-02-25 | Monitoring device, fault detection method and fault detection program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022129879A JP2022129879A (en) | 2022-09-06 |
JP7498128B2 true JP7498128B2 (en) | 2024-06-11 |
Family
ID=83150657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021028735A Active JP7498128B2 (en) | 2021-02-25 | 2021-02-25 | Monitoring device, fault detection method and fault detection program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7498128B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024257207A1 (en) * | 2023-06-13 | 2024-12-19 | 日本電信電話株式会社 | Relay device |
-
2021
- 2021-02-25 JP JP2021028735A patent/JP7498128B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2022129879A (en) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100452759C (en) | Ip redundancy with improved failover notification | |
JP4164704B2 (en) | Network connection device switching method and network system using redundancy protocol and pseudo-redundant configuration means | |
US11349703B2 (en) | Method and system for root cause analysis of network issues | |
CN102387028A (en) | Network system, network management server, and OAM test method | |
US8131871B2 (en) | Method and system for the automatic reroute of data over a local area network | |
JP2752265B2 (en) | Computer system with disconnection function from LAN | |
JP7498128B2 (en) | Monitoring device, fault detection method and fault detection program | |
JP5012338B2 (en) | Network device, network management system, and MAC address duplication detection method used therefor | |
JP4464256B2 (en) | Network host monitoring device | |
CN111585797A (en) | Ethernet link switching method, device, equipment and computer readable storage medium | |
JP3416604B2 (en) | Network monitoring equipment | |
JP2017011480A (en) | Route control device, route control system, and route control method | |
JP4133738B2 (en) | High-speed network address takeover method, network device, and program | |
US12143286B2 (en) | Network monitoring device, network monitoring method, and network monitoring program | |
JP4378205B2 (en) | Blade type network relay device | |
CN116708129A (en) | Method, device and storage medium for link fault detection and quick recovery | |
JP3914072B2 (en) | Network failure monitoring method, communication system, and line switching apparatus | |
JP5653947B2 (en) | Network management system, network management device, network management method, and network management program | |
US8111625B2 (en) | Method for detecting a message interface fault in a communication device | |
JP2009100363A (en) | Network monitoring system and terminal device | |
JP7119957B2 (en) | Switch device and failure detection program | |
JP2015035678A (en) | Network system, monitoring method for route, and relay device | |
US7808893B1 (en) | Systems and methods for providing redundancy in communications networks | |
CN115955427A (en) | Communication failure detection method, apparatus, device, storage medium, and program product | |
JP5790420B2 (en) | Communication device, failure detection method, and failure detection program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230315 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240530 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7498128 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |