JP2020088786A - スイッチ装置及び障害検知プログラム - Google Patents

スイッチ装置及び障害検知プログラム Download PDF

Info

Publication number
JP2020088786A
JP2020088786A JP2018225058A JP2018225058A JP2020088786A JP 2020088786 A JP2020088786 A JP 2020088786A JP 2018225058 A JP2018225058 A JP 2018225058A JP 2018225058 A JP2018225058 A JP 2018225058A JP 2020088786 A JP2020088786 A JP 2020088786A
Authority
JP
Japan
Prior art keywords
communication
unit
switch
switch device
adjacent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018225058A
Other languages
English (en)
Other versions
JP7119957B2 (ja
Inventor
祐也 生田
Yuya Ikuta
祐也 生田
豪 梅月
Takeshi Umezuki
豪 梅月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018225058A priority Critical patent/JP7119957B2/ja
Priority to US16/687,020 priority patent/US11206224B2/en
Publication of JP2020088786A publication Critical patent/JP2020088786A/ja
Application granted granted Critical
Publication of JP7119957B2 publication Critical patent/JP7119957B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/10Packet switching elements characterised by the switching fabric construction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/66Layer 2 routing, e.g. in Ethernet based MAN's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/10Packet switching elements characterised by the switching fabric construction
    • H04L49/111Switch interfaces, e.g. port details
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)

Abstract

【課題】通信部が故障して通信を中継できない状態であるにもかかわらず、通信部以外の機能が正常に動作するサイレント障害を検知すること。【解決手段】スイッチ状況チェック部41が、通信を中継する機能が動作しない場合にも動作する機能を用いて隣接スイッチ3を特定する。そして、疎通確認部44が、通信を中継する機能を用いて隣接スイッチ3との間の疎通を確認する。そして、サイレント障害チェック部49が、隣接スイッチ3との間の疎通確認の結果に基づいて、自装置がサイレント障害であるか否かを判定する。【選択図】図2

Description

本発明は、スイッチ装置及び障害検知プログラムに関する。
ネットワークシステムにおいては、サイレント障害が発生することがある。ここで、サイレント障害とは、エラーとして検知されない障害である。ネットワーク通信を中継するスイッチに関しては、通信部が故障して通信を中継できない状態であるにもかかわらず、通信部以外の機能が正常に動作してしまうと、ポートがオンラインとなり通信を受けることができる状態になり、サイレント障害が発生する。スイッチは、サイレント障害の状態でパケットを受けとると、通信部が故障しているのでパケットを破棄してしまう。このため、スイッチにサイレント障害が発生すると、ネットワークがブラックホール化する。
なお、通信障害に関して、複数のスイッチ装置のポート毎に、ポートを含むネットワーク経路又はポートに接続された機器の障害発生確率に応じた監視優先度を算出し、算出した各ポートの監視優先度と、各ポートとを対応付けた表示を行う従来技術がある。この従来技術によれば、監視対象ポイントを設定するポートを監視優先度に基づいて選択できるので、効率的な監視を行い、迅速な障害要因の切り分けを行うことができる。
また、別の従来技術として、通信の中断を生じさせることなく経路の切り替えを行うことを可能にし、障害発生及び回復のためのルーティング機構の処理の低減を図り、ネットワーク全体のパフォーマンス劣化を防止する技術がある。この技術では、IPスイッチングノード装置のスイッチング機構に、物理ポート、回線及び仮想コネクションの状態を監視する手段を設ける。また、スイッチング機構に、IPルーティング機構から仮想コネクション設定要求時に指定される物理ポート/仮想コネクション群の論理的定義及び物理マッピング情報を設定する手段を設ける。そして、回線の障害発生及び障害回復検出時、前記設定手段により定義された情報に従いIPルーティング機構に障害を意識させずにスイッチング機構のみで経路の切り替えを行う。
特開2011−205301号公報 特開平11−127196号公報
スイッチにおいてサイレント障害が発生した場合、ネットワークダウンやシステムダウンといった形で顕在化するまで、障害を検知できないという問題がある。また、サイレント障害では、故障したスイッチは自身がパケットを廃棄していることを検知することができず、故障したスイッチに接続するスイッチや装置も故障スイッチが正常であるとみなすため、障害個所の特定や復旧に多くの時間がかかる。
サイレント障害が顕在化すると、例えば、複数の時刻における複数のスイッチのログを採取してパケット流量を計算することで故障スイッチを推測することや、ケーブルの抜き差しによって障害個所を推測することが行われる。近年、データセンターの規模の拡大にともない、ネットワークを構成するスイッチの数が増大し、ネットワーク構成が複雑化している。このため、障害個所の特定や復旧に要する時間がますます増大している。
本発明は、1つの側面では、スイッチにおけるサイレント障害を検知することを目的とする。
1つの態様では、スイッチ装置は、特定部と疎通確認部と判定部とを有する。前記特定部は、通信を中継する機能が動作しない場合にも動作する機能を用いて隣接スイッチ装置を特定する。前記疎通確認部は、前記特定部により特定された隣接スイッチ装置との疎通を、通信を中継する機能を用いて確認する。前記判定部は、前記疎通確認部による疎通確認の結果に基づいて自装置にサイレント障害があるか否かを判定する。
1つの側面では、本発明は、スイッチにおけるサイレント障害を検知することができる。
図1は、実施例に係るネットワークシステムの構成を示す図である。 図2は、スイッチの機能構成を示す図である。 図3は、スイッチ状況記憶部が記憶する情報の一例を示す図である。 図4は、スイッチによるサイレント障害処理のフローを示すフローチャートである。 図5は、隣接スイッチ特定処理のシーケンスを示す図である。 図6は、隣接スイッチ特定処理後のスイッチ状況記憶部の一例を示す図である。 図7は、疎通確認処理のシーケンスを示す図である。 図8は、疎通確認処理後のスイッチAのスイッチ状況記憶部を示す図である。 図9は、経路復帰処理のシーケンスを示す図である。 図10は、疎通失敗確認処理のシーケンスを示す図である。 図11は、疎通失敗確認処理後のスイッチAのスイッチ状況記憶部を示す図である。 図12は、切り離し処理のシーケンスを示す図である。 図13は、切り離し処理後のスイッチAのスイッチ状況記憶部を示す図である。 図14は、障害個所判定処理のシーケンスを示す図である。 図15は、スイッチ間以外の切り離し処理のシーケンスを示す図である。 図16は、スイッチのハードウェア構成を示す図である。
以下に、本願の開示するスイッチ装置及び障害検知プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
まず、実施例に係るネットワークシステムの構成について説明する。図1は、実施例に係るネットワークシステムの構成を示す図である。図1に示すように、実施例に係るネットワークシステム1は、サーバAとサーバBで表される2台のサーバ2と、スイッチA〜スイッチDで表される4台のスイッチ3を有する。スイッチAはポート#1〜ポート#3で表される3つのポートを有する。なお、図1では省略されているが、他のスイッチ3も複数のポートを有する。
スイッチAは、サーバAにポート#1で隣接し、スイッチBにポート#2で隣接し、スイッチCにポート#3で隣接する。スイッチBは、サーバAとスイッチAとスイッチDに隣接する。スイッチCは、サーバBとスイッチAとスイッチDに隣接する。スイッチDは、サーバBとスイッチBとスイッチCに隣接する。
なお、ここでは説明の便宜上、2台のサーバ2と4台のスイッチ3を示したが、サーバ2の台数はより多くてもより少なくてもよく、スイッチ3の台数もより多くてもより少なくてもよい。
次に、スイッチ3の機能構成について説明する。図2は、スイッチ3の機能構成を示す図である。図2に示すように、スイッチ3は、記憶部3aと制御部3bとを有する。
記憶部3aは、制御部3bがスイッチ3を制御するときに使用するデータなどを記憶する。記憶部3aは、ログ記憶部31と、パケット記憶部32と、スイッチ状況記憶部33とを有する。ログ記憶部31は、スイッチ3のログを記憶する。パケット記憶部32は、スイッチ3が中継するパケットを記憶する。
スイッチ状況記憶部33は、スイッチ3が有するオンラインポートに関する情報をオンラインポート毎に記憶する。図3は、スイッチ状況記憶部33が記憶する情報の一例を示す図である。図3に示すように、スイッチ状況記憶部33は、ポート番号、ポート状態、LLDP(Link Layer Discovery Protocol)ステータス、IP(Internet Protocol)アドレス、疎通状態、ACL(Access Control List)設定及び経路ステータスを記憶する。
ポート番号は、ポートを識別する番号である。ポート状態は、ポートがオンラインであるか否かを示す。スイッチ状況記憶部33は、オンラインポートに関する情報を記憶するため、ポート状態は、常にオンライン状態を示す「online」である。
LLDPステータスは、LLDPで問合せを行った結果を示す。LLDPは、隣接スイッチ3の情報得るためのプロトコルである。LLDPステータスは、「NG」又は「OK」である。「NG」は、LLDPで問合せを行ったが応答がない場合を示し、ポートに接続する装置がスイッチ3でないことを示す。「OK」は、LLDPで問合せを行って応答があった場合を示し、ポートに接続する装置がスイッチ3であることを示す。IPアドレスは、ポートに接続する装置がスイッチ3である場合に、隣接スイッチ3のIPアドレスを示す。
疎通状態は、隣接スイッチ3にpingを送信して確認した疎通結果を示す。疎通状態は、「NG」又は「OK」である。「NG」は疎通が確認されなかったことを示し、「OK」は疎通が確認されたことを示す。疎通状態の初期状態は「OK」である。
ACL設定は、接続先装置のACLによる切り離しの有無を示す。障害の発生を検知して隣接装置を切り離す際に、ポートをシャットダウンするとLLDPの通信もできない状態になるので、スイッチ3は、ACL設定により隣接装置を切り離す。ACLの設定では、ポート毎に通信するデータそれぞれに対して通信の可否を設定することができ、スイッチ3は、ACLの設定によりLLDPのみ通信を可能として隣接装置を切り離す。
ACL設定は、「disable」又は「enable」である。「disable」はACLを用いた通信制御による切り離しは行われていないことを示し、「enable」はACLを用いた通信制御による切り離しが行われていることを示す。ACL設定の初期状態は「disable」である。
経路ステータスは、ポートが含まれる経路の状態を示す。経路ステータスは、「○」、「△」又は「×」である。「○」はポートが含まれる経路が通信可能であることを示し、「△」はLLDPステータスが「NG」であることを示し、「×」は疎通状態が「NG」であり通信不可であることを示す。経路ステータスの初期状態は「○」である。
制御部3bは、記憶部3aを用いてスイッチ3を制御する。制御部3bは、サイレント障害を検知して、障害個所の切り離しを行う。制御部3bは、スイッチ状況チェック部41と、LLDP解析部42と、LLDP送受信部43と、疎通確認部44と、ping送受信部45と、経路復帰部46と、ACL設定部47と、障害チェック部48と、サイレント障害チェック部49とを有する。
スイッチ状況チェック部41は、オンラインポートを検出し、検出したオンラインポートに基づいてスイッチ状況記憶部33のポート状態を更新する。ポート状態が「onleine」だったポートがオフラインになると、当該ポートの情報はスイッチ状況記憶部33から削除される。そして、スイッチ状況チェック部41は、全オンラインポートのLLDP確認をLLDP解析部42に依頼し、LLDP解析部42からの応答に基づいてスイッチ状況記憶部33の経路ステータスを更新する。スイッチ状況チェック部41は、LLDPの確認が得られなかったポートの経路ステータスを「△」に更新する。
LLDP解析部42は、スイッチ状況チェック部41からの依頼に基づいて、全オンラインポートからLLDP問合せを送信するようにLLDP送受信部43に指示する。そして、LLDP解析部42は、LLDP送受信部43からの応答に基づいて、スイッチ状況記憶部33のLLDPステータスとIPアドレスを更新する。LLDP解析部42は、応答があったポートについては、LLDPステータスを「OK」に設定して、IPアドレスを格納し、応答がなかったポートについては、LLDPステータスを「NG」に設定する。
また、LLDP解析部42は、経路ステータスが「×」であってACL設定が未設定であるポートについて、ACLを用いて切り離すためACL設定部47にACLの設定を指示する。そして、LLDP解析部42は、スイッチ状況記憶部33のACL設定を「enable」に更新する。
LLDP送受信部43は、LLDP解析部42の指示に基づいて、全オンラインポートにLLDP問合せを送信し、問合せに対する応答があったオンラインポートについて、IPアドレスをLLDP解析部42に渡す。
疎通確認部44は、スイッチ状況記憶部33に記憶されたIPアドレスを用いてpingを送信するようにping送受信部45に指示する。そして、疎通確認部44は、ping送受信部45からping送信結果を受取り、応答が得られなかったポートについてスイッチ状況記憶部33の疎通状態を「NG」に更新する。
ping送受信部45は、疎通確認部44の指示に基づいて、隣接スイッチ3にpingを送信し、隣接スイッチ3からの応答の有無を疎通確認部44に応答する。
経路復帰部46は、経路ステータスが「×」になっていた経路が復旧した場合に、経路を通信可能な状態に自動復旧する。経路復帰部46は、経路が復旧してLLDPの応答を受信すると、応答したポートを自動復旧する。
具体的には、経路復帰部46は、経路ステータスが「×」であるポートを抽出し、抽出したポートについてLLDPステータスを確認し、LLDPステータスが「OK」になっていれば、経路が復旧したと判断する。そして、経路復帰部46は、スイッチ状況記憶部33の対応するエントリを初期化し、ACL設定を削除するようにACL設定部47に指示する。
ACL設定部47は、LLDP解析部42の指示に基づいて、LLDPのみ通信を可能とするACL設定を行う。また、ACL設定部47は、経路復帰部46の指示に基づいて、LLDPのみ通信を可能とするACL設定を削除する。
障害チェック部48は、ping疎通が失敗したポート、すなわちスイッチ状況記憶部33の疎通状態が「NG」であるポートの経路ステータスで「×」以外のものを「×」に変更する。
サイレント障害チェック部49は、切り離しの原因が自装置か他スイッチ3か、すなわち自装置がサイレント障害を起こしているか否かを判定し、自装置がサイレント障害を起こしている場合には、スイッチ以外と接続する経路も切り離す。そして、サイレント障害チェック部49は、ネットワーク管理者に通知するとともに、ポートLEDを点灯する。
自装置がサイレント障害を起こしている場合、隣接スイッチ3との接続ポートの経路ステータスが全て「×」になる。そこで、サイレント障害チェック部49は、隣接スイッチ3との接続ポートの経路ステータスが全て「×」であるか否かを判定することで、自装置がサイレント障害を起こしているか否かを判定する。
なお、障害チェック部48は、疎通状態が「NG」であるポートの経路ステータスを「×」とする。したがって、隣接スイッチ3との接続ポートの経路ステータスが「×」であるポートは、疎通状態が「NG」である。このため、障害チェック部48は、隣接スイッチ3との接続ポートの疎通状態が全て「NG」であるか否かを判定することで、自装置がサイレント障害を起こしているか否かを判定してもよい。
スイッチ以外と接続する経路としては、例えば、サーバ2と接続する経路がある。サイレント障害を起こしたスイッチ3と接続するサーバ2は、接続するスイッチ3が正常だとみなして接続するスイッチ3に通信パケットを送信するので、サーバ2に悪影響を与える。このような悪影響を防ぐため、サイレント障害チェック部49は、経路ステータスが「△」の経路についても切り離しを行う。このように、経路ステータスが「△」の経路についても切り離しを行うことで、サイレント障害チェック部49は、障害を完全に切り離すことができる。
次に、スイッチ3によるサイレント障害処理のフローについて説明する。図4は、スイッチ3によるサイレント障害処理のフローを示すフローチャートである。図4に示すように、スイッチ3は、LLDPを用いて隣接スイッチ3を特定し(ステップS1)、特定した隣接スイッチ3の疎通をpingを用いて確認する(ステップS2)。
そして、スイッチ3は、以前に切り離した経路に復帰経路はあるか否かを判定し(ステップS3)、復帰経路がある場合には、経路復帰を行う(ステップS4)。そして、スイッチ3は、疎通に失敗したポートはあるか否かを判定し(ステップS5)、疎通に失敗したポートがない場合には、ステップS1に戻る。
一方、疎通に失敗したポートがある場合には、スイッチ3は、疎通に失敗したポートの経路を切り離す(ステップS6)。疎通に失敗したポートが複数ある場合には、スイッチ3は、疎通に失敗した全ポートの経路を切り離す。そして、スイッチ3は、全ての隣接スイッチ3との疎通に失敗したか否かに基づいて、自身の障害であるか否かを判定し(ステップS7)、自身の障害でない場合には、ステップS1に戻る。一方、自身の障害である場合には、スイッチ3は、スイッチ間以外の経路を切り離し、ネットワーク管理者に通知する(ステップS8)。
このように、スイッチ3は、LLDPを用いて隣接スイッチ3を特定し、特定した隣接スイッチ3の疎通をpingを用いて確認する。そして、スイッチ3は、全ての隣接スイッチ3との疎通に失敗したか否かに基づいて、自身に障害があるか否かを判定するので、サイレント障害を検知することができる。
次に、スイッチ3によるサイレント障害処理のシーケンスについて図5〜図15を用いて説明する。図5は、隣接スイッチ特定処理のシーケンスを示す図である。図5に示すように、スイッチ状況チェック部41は、オンラインポートを検出し、スイッチ状況記憶部33のポート状態を更新する(ステップS11)。そして、スイッチ状況チェック部41は、全オンラインポートのLLDP確認をLLDP解析部42に依頼する(ステップS12)。
LLDP解析部42は、LLDPの受信有無の問合せをLLDP送受信部43に行う(ステップS13)。LLDP送受信部43は、LLDPを用いた送信を隣接装置に行い、LLDPの受信状況をLLDP解析部42に提供する(ステップS14)。LLDP解析部42は、LLDP送受信部43が受信したLLDP応答からIPアドレスを取得し(ステップS15)、スイッチ状況記憶部33のLLDPステータスとIPアドレスを更新する(ステップS16)。
そして、スイッチ状況チェック部41は、スイッチ状況記憶部33の経路ステータスを更新する(ステップS17)。そして、スイッチ3は、図7に示す疎通確認処理に移動する。図6は、隣接スイッチ特定処理後のスイッチ状況記憶部33の一例を示す図である。図6は、図1に示したネットワークシステム1において、スイッチAにサイレント障害が発生した場合のスイッチAのスイッチ状況記憶部33を示す。
図6に示すように、ポート#1はサーバAに接続するので、LLDPステータスは「NG」である。ポート#2及びポート#3は隣接するスイッチB及びスイッチCにそれぞれ接続するので、LLDPステータスは「OK」であり、IPアドレス「IPB」及び「IPC」がそれぞれ記憶される。
疎通状態は全て初期状態の「OK」であり、ACL設定も全て初期状態の「disable」である。ポート#1の経路ステータスは、LLDPステータスが「NG」であるので「△」に更新される。ポート#2及びポート#2の経路ステータスは、LLDPステータスが「OK」であるので、初期状態の「○」のままである。
図7は、疎通確認処理のシーケンスを示す図である。図7に示すように、疎通確認部44は、スイッチ状況記憶部33が記憶する全IPアドレスを取得し(ステップS18)、取得したIPアドレスを用いて隣接スイッチ3に対するpingの送信をping送受信部45に指示する(ステップS19)。
ping送受信部45は、隣接スイッチ3にpingを送信し(ステップS20)、疎通確認の結果を疎通確認部44に渡す。疎通確認部44は、ping疎通OKか否かを判定する(ステップS21)。そして、疎通確認部44は、ping疎通OKである場合には、スイッチ状況記憶部33の疎通状態を「OK」に更新し(ステップS22)、ping疎通OKでない場合には、スイッチ状況記憶部33の疎通状態を「NG」に更新する(ステップS23)。疎通確認部44は、ステップS21〜ステップS23の処理をpingを送信した全隣接スイッチ3について行う。そして、スイッチ3は、図9に示す経路復帰処理に移動する。
図8は、疎通確認処理後のスイッチAのスイッチ状況記憶部33を示す図である。図8に示すように、スイッチAにサイレント障害が発生しているので、スイッチAはスイッチB及びスイッチCとはping疎通が行えないので、ポート#2及びポート#3の疎通確認結果は「NG」に更新される。
図9は、経路復帰処理のシーケンスを示す図である。図9に示すように、経路復帰部46は、スイッチ状況記憶部33から経路ステータスが「×」のポートのLLDPステータスを抽出する(ステップS24)。そして、経路復帰部46は、LLDPステータスは「OK」であるか否かを判定し(ステップS25)、「OK」である場合は、スイッチ状況記憶部33の対応するエントリを初期状態に更新し(ステップS26)、ACL設定部47にACL設定の削除を指示する。ACL設定部47は、対応するACL設定を削除する(ステップS27)。
経路復帰部46は、ステップS25〜ステップS27の処理を、抽出した全LLDPステータスについて行う。そして、スイッチ3は、図10に示す疎通失敗確認処理に移動する。
図10は、疎通失敗確認処理のシーケンスを示す図である。図10に示すように、障害チェック部48は、スイッチ状況記憶部33から疎通状態が「NG」のポートを抽出し(ステップS28)、抽出したポートの経路ステータスを取得する(ステップS29)。そして、障害チェック部48は、経路ステータスは「×」であるか否かを判定し(ステップS30)、「×」でない場合には、経路ステータスを「×」に更新する(ステップS31)。
障害チェック部48は、ステップS30〜ステップS31の処理を取得した全てのポートについて行う。そして、スイッチ3は、図12に示す切り離し処理に移動する。
図11は、疎通失敗確認処理後のスイッチAのスイッチ状況記憶部33を示す図である。図11に示すように、疎通状態が「NG」であるポート#2及びポート#3の経路ステータスが「×」に更新される。
図12は、切り離し処理のシーケンスを示す図である。図12に示すように、LLDP解析部42は、スイッチ状況記憶部33から経路ステータスが「×」のポートのACL設定を抽出する(ステップS32)。そして、LLDP解析部42は、ACL設定は「disable」であるか否かを判定し(ステップS33)、ACL設定が「disable」である場合には、ACL設定部47にACLの設定を指示する(ステップS34)。
指示を受けて、ACL設定部47は、該当ポートにACLを設定する(ステップS35)。ACLの設定が完了すると、LLDP解析部42は、スイッチ状況記憶部33のACL設定を「enable」に更新する(ステップS36)。
LLDP解析部42は、ステップS33〜ステップS36の処理を抽出した全てのACL設定について行う。そして、スイッチ3は、図14に示す障害個所判定処理に移動する。
図13は、切り離し処理後のスイッチAのスイッチ状況記憶部33を示す図である。図13に示すように、経路ステータスが「×」であるポート#2及びポート#3のACL設定が「enable」に更新される。
図14は、障害個所判定処理のシーケンスを示す図である。図14に示すように、サイレント障害チェック部49は、スイッチ状況記憶部33から全ポートの経路ステータスを取得し(ステップS37)、全ポートの経路ステータスの中に「○」のポートがないか否かを判定する(ステップS38)。そして、全ポートの経路ステータスの中に「○」のポートがある場合には、スイッチ3は、図5のステップ11に戻る。一方、全ポートの経路ステータスの中に「○」のポートがない場合には、サイレント障害が発生しているので、サイレント障害チェック部49は、図15に示すスイッチ間以外の切り離し処理に移動する。
図15は、スイッチ間以外の切り離し処理のシーケンスを示す図である。図15に示すように、サイレント障害チェック部49は、スイッチ状況記憶部33から経路ステータスが「△」のポートを抽出し(ステップS39)、抽出したポートのACLの設定をACL設定部47に指示する(ステップS40)。ACL設定部47は、指示に基づいて、ACLを設定する(ステップS41)。
サイレント障害チェック部49は、自装置のサイレント障害をネットワーク管理者へ通知し(ステップS42)、ポートLEDを点灯する(ステップS43)。
このように、スイッチ3は、隣接スイッチ特定処理、疎通確認処理、経路復帰処理、疎通失敗確認処理、切り離し処理、障害個所判定処理、スイッチ間以外の切り離し処理を行うことで、自装置のサイレント障害を検出して自装置の切り離しを行うことができる。
なお、図2に示した機能は、スイッチ3が有するMPU(Micro Processing Unit)で障害検知プログラムを実行することで実現される。そこで、スイッチ3のハードウェア構成について説明する。図16は、スイッチ3のハードウェア構成を示す図である。図16に示すように、スイッチ3は、MPU30aと、フラッシュメモリ30bと、RAM(Random Access Memory)30cとを有する。
MPU30aは、RAM30cに記憶された障害検知プログラムを読み出して実行する処理装置である。フラッシュメモリ30bは、障害検知プログラムを記憶する不揮発性のメモリである。RAM30cは、フラッシュメモリ30bから読み出された障害検知プログラムを記憶する揮発性メモリである。また、RAM30cは、障害検知プログラムの実行に必要なデータ、障害検知プログラムの実行の途中結果等を記憶する。
また、障害検知プログラムは、例えば、障害検知プログラムが記録されたDVD、CD−ROM等の可搬型記録媒体で提供されてもよい。また、障害検知プログラムは、サーバコンピュータの記憶装置に格納され、ネットワークを介して、サーバコンピュータからスイッチ3に転送されてもよい。
上述してきたように、実施例では、スイッチ状況チェック部41がLLDPを用いて隣接スイッチ3を特定し、疎通確認部44が隣接スイッチ3の疎通をpingを用いて確認する。そして、サイレント障害チェック部49が、疎通が確認できる隣接スイッチ3がない場合に、自装置がサイレント障害であると判定する。したがって、スイッチ3は、サイレント障害を検知することができる。
また、実施例では、LLDP解析部42は、疎通が確認できなかった隣接スイッチ3との間の経路をACL設定により切り離すので、通信可能になった経路の自動復旧を可能にすることができる。
また、実施例では、サイレント障害チェック部49が、自装置にサイレント障害が発生したと判定した場合に、隣接スイッチ以外の隣接装置との間の経路をACL設定により切り離すので、サイレント障害が隣接装置に悪影響を与えることを防ぐことができる。
また、実施例では、LLDP解析部42により切り離された隣接スイッチ3がスイッチ状況チェック部41により隣接スイッチ3として新たに特定された場合に、経路復帰部46が、ACL設定を削除する。したがって、スイッチ3は、復旧した隣接スイッチ3との間の経路を自動復旧することができる。
また、実施例では、LLDPを用いて隣接スイッチ3を特定する場合について説明したが、スイッチ状況チェック部41は、通信を中継する機能が動作しない場合にも動作する他の機能を用いて隣接スイッチ3を特定してもよい。
また、実施例では、pingを用いて疎通確認を行う場合について説明したが、疎通確認部44は、例えばARP(Address Resolution Protocol)、GARP(Gratuitous ARP)等の通信を中継する際に用いられる他の機能を用いて疎通を確認してもよい。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)通信を中継する機能が動作しない場合にも動作する機能を用いて隣接スイッチ装置を特定する特定部と、
前記特定部により特定された隣接スイッチ装置との疎通を、通信を中継する機能を用いて確認する疎通確認部と、
前記疎通確認部による疎通確認の結果に基づいて自装置にサイレント障害があるか否かを判定する判定部と
を有することを特徴とするスイッチ装置。
(付記2)前記疎通確認部により疎通が確認されなかった隣接スイッチ装置との通信をACLによる通信制御を行うことで該隣接スイッチ装置の切り離しを行う切離部をさらに有することを特徴とする付記1に記載のスイッチ装置。
(付記3)前記切離部により切り離しが行われた隣接スイッチ装置が前記特定部により隣接スイッチ装置として特定された場合に、ACLによる通信制御を解除することで前記切り離しを復旧する復旧部をさらに有することを特徴とする付記2に記載のスイッチ装置。
(付記4)前記判定部は、自装置にサイレント障害があると判定した場合に、隣接スイッチ装置以外の隣接装置との通信についてACLによる通信制御を行うことを特徴とする付記2又は3に記載のスイッチ装置。
(付記5)前記特定部は、隣接スイッチ装置をLLDPを用いて特定することを特徴とする付記1〜4のいずれか1つに記載のスイッチ装置。
(付記6)前記疎通確認部は、前記特定部により特定された隣接スイッチ装置との疎通をpingを用いて確認することを特徴とする付記1〜5のいずれか1つに記載のスイッチ装置。
(付記7)コンピュータに、
通信を中継する機能が動作しない場合にも動作する機能を用いて隣接スイッチ装置を特定し、
特定した隣接スイッチ装置との疎通を、通信を中継する機能を用いて確認し、
疎通確認の結果に基づいて自装置にサイレント障害があるか否かを判定する
処理を実行させることを特徴とする障害検知プログラム。
(付記8)前記コンピュータに、
疎通が確認されなかった隣接スイッチ装置との通信をACLによる通信制御を行うことで該隣接スイッチ装置の切り離しを行う
処理をさらに実行させることを特徴とする付記7に記載の障害検知プログラム。
(付記9)前記コンピュータに、
切り離しを行った隣接スイッチ装置を特定した場合に、ACLによる通信制御を解除することで前記切り離しを復旧する
処理をさらに実行させることを特徴とする付記8に記載の障害検知プログラム。
1 ネットワークシステム
2 サーバ
3 スイッチ
3a 記憶部
3b 制御部
30a MPU
30b フラッシュメモリ
30c RAM
31 ログ記憶部
32 パケット記憶部
33 スイッチ状況記憶部
41 スイッチ状況チェック部
42 LLDP解析部
43 LLDP送受信部
44 疎通確認部
45 ping送受信部
46 経路復帰部
47 ACL設定部
48 障害チェック部
49 サイレント障害チェック部

Claims (7)

  1. 通信を中継する機能が動作しない場合にも動作する機能を用いて隣接スイッチ装置を特定する特定部と、
    前記特定部により特定された隣接スイッチ装置との疎通を、通信を中継する機能を用いて確認する疎通確認部と、
    前記疎通確認部による疎通確認の結果に基づいて自装置にサイレント障害があるか否かを判定する判定部と
    を有することを特徴とするスイッチ装置。
  2. 前記疎通確認部により疎通が確認されなかった隣接スイッチ装置との通信をACLによる通信制御を行うことで該隣接スイッチ装置の切り離しを行う切離部をさらに有することを特徴とする請求項1に記載のスイッチ装置。
  3. 前記切離部により切り離しが行われた隣接スイッチ装置が前記特定部により隣接スイッチ装置として特定された場合に、ACLによる通信制御を解除することで前記切り離しを復旧する復旧部をさらに有することを特徴とする請求項2に記載のスイッチ装置。
  4. 前記判定部は、自装置にサイレント障害があると判定した場合に、隣接スイッチ装置以外の隣接装置との通信についてACLによる通信制御を行うことを特徴とする請求項2又は3に記載のスイッチ装置。
  5. 前記特定部は、隣接スイッチ装置をLLDPを用いて特定することを特徴とする請求項1〜4のいずれか1つに記載のスイッチ装置。
  6. 前記疎通確認部は、前記特定部により特定された隣接スイッチ装置との疎通をpingを用いて確認することを特徴とする請求項1〜5のいずれか1つに記載のスイッチ装置。
  7. コンピュータに、
    通信を中継する機能が動作しない場合にも動作する機能を用いて隣接スイッチ装置を特定し、
    特定した隣接スイッチ装置との疎通を、通信を中継する機能を用いて確認し、
    疎通確認の結果に基づいて自装置にサイレント障害があるか否かを判定する
    処理を実行させることを特徴とする障害検知プログラム。
JP2018225058A 2018-11-30 2018-11-30 スイッチ装置及び障害検知プログラム Active JP7119957B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018225058A JP7119957B2 (ja) 2018-11-30 2018-11-30 スイッチ装置及び障害検知プログラム
US16/687,020 US11206224B2 (en) 2018-11-30 2019-11-18 Switch device and recording medium recording failure detection program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018225058A JP7119957B2 (ja) 2018-11-30 2018-11-30 スイッチ装置及び障害検知プログラム

Publications (2)

Publication Number Publication Date
JP2020088786A true JP2020088786A (ja) 2020-06-04
JP7119957B2 JP7119957B2 (ja) 2022-08-17

Family

ID=70850728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018225058A Active JP7119957B2 (ja) 2018-11-30 2018-11-30 スイッチ装置及び障害検知プログラム

Country Status (2)

Country Link
US (1) US11206224B2 (ja)
JP (1) JP7119957B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100124165A1 (en) * 2008-11-20 2010-05-20 Chen-Yui Yang Silent Failure Identification and Trouble Diagnosis
JP2011211350A (ja) * 2010-03-29 2011-10-20 Nippon Telegraph & Telephone East Corp 故障検出装置
JP2012209666A (ja) * 2011-03-29 2012-10-25 Nippon Telegraph & Telephone East Corp 監視サーバ、監視プログラムおよび監視方法
JP2013030826A (ja) * 2011-07-26 2013-02-07 Ricoh Co Ltd ネットワーク監視システム、ネットワーク監視方法
JP2019075603A (ja) * 2017-10-12 2019-05-16 ヤマハ株式会社 通信中継装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11127196A (ja) 1997-10-24 1999-05-11 Hitachi Ltd スイッチングノード装置及び経路切り替え制御方法
JP2006245849A (ja) * 2005-03-02 2006-09-14 Fujitsu Ltd 通信装置
JP5386745B2 (ja) 2010-03-25 2014-01-15 株式会社日立製作所 ネットワーク監視サーバ及びネットワーク監視システム
JP6268943B2 (ja) * 2013-11-06 2018-01-31 富士通株式会社 情報処理システム,スイッチ装置及び情報処理システムの制御方法
US20160065423A1 (en) * 2014-09-03 2016-03-03 Microsoft Corporation Collecting and Analyzing Selected Network Traffic
US10171303B2 (en) * 2015-09-16 2019-01-01 Avago Technologies International Sales Pte. Limited IP-based interconnection of switches with a logical chassis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100124165A1 (en) * 2008-11-20 2010-05-20 Chen-Yui Yang Silent Failure Identification and Trouble Diagnosis
JP2011211350A (ja) * 2010-03-29 2011-10-20 Nippon Telegraph & Telephone East Corp 故障検出装置
JP2012209666A (ja) * 2011-03-29 2012-10-25 Nippon Telegraph & Telephone East Corp 監視サーバ、監視プログラムおよび監視方法
JP2013030826A (ja) * 2011-07-26 2013-02-07 Ricoh Co Ltd ネットワーク監視システム、ネットワーク監視方法
JP2019075603A (ja) * 2017-10-12 2019-05-16 ヤマハ株式会社 通信中継装置

Also Published As

Publication number Publication date
JP7119957B2 (ja) 2022-08-17
US11206224B2 (en) 2021-12-21
US20200177520A1 (en) 2020-06-04

Similar Documents

Publication Publication Date Title
US8489913B2 (en) Network system and network relay apparatus
JP6287518B2 (ja) オープンフロースイッチおよびオープンフローネットワークの障害復旧方法
US20030233473A1 (en) Method for configuring logical connections to a router in a data communication system
US20140177431A1 (en) Graceful failover of a principal link in a fiber-channel fabric
JP2010103695A (ja) クラスタシステム、クラスタサーバ及びクラスタ制御方法
KR100425560B1 (ko) 단말기의 액티브 포트를 쉽게 변경할 수 있는 랜 경로제어 시스템 및 방법
CN107682221B (zh) 一种基于erps的链路状态检查方法及装置
US9246796B2 (en) Transmitting and forwarding data
JP4570582B2 (ja) ネットワーク監視プログラム、ネットワーク監視方法、およびネットワーク監視装置
JP5035219B2 (ja) 通信経路検出方法、通信経路検出プログラム、および通信経路検出装置
JP2017011480A (ja) 経路制御装置、経路制御システムおよび経路制御方法
JP2021061478A (ja) 中継装置、中継システム、及び中継プログラム
WO2012070274A1 (ja) 通信システムおよびネットワーク障害検出方法
JP7119957B2 (ja) スイッチ装置及び障害検知プログラム
JP2005244672A (ja) ネットワークの障害監視処理システム及び方法
JP2006246152A (ja) パケット転送装置、パケット転送ネットワークシステムおよびパケット転送方法
JP4133738B2 (ja) 高速ネットワークアドレス引継ぎ方法、ネットワーク装置及びプログラム
JP5518771B2 (ja) 冗長ネットワークシステム、終端装置及び中継点隣接装置
JP5278358B2 (ja) ネットワ−ク接続装置
JP2006260223A (ja) iSCSIストレージシステムおよびそのシステムにおけるパス多重化方法
JP6490167B2 (ja) 通信装置、通信方法、コンピュータプログラムおよび通信システム
JP2009100363A (ja) ネットワーク監視システム及び端末装置
JP2006319683A (ja) ネットワークシステム監視方式およびネットワークシステム監視装置
JP5585437B2 (ja) ネットワーク管理装置、ネットワーク管理システム、および、ネットワーク管理方法
JP2015138987A (ja) 通信システムおよび通信システムにおけるサービス復旧方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220718

R150 Certificate of patent or registration of utility model

Ref document number: 7119957

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150