JP6859672B2 - 情報処理装置および情報処理装置の障害検出方法 - Google Patents

情報処理装置および情報処理装置の障害検出方法 Download PDF

Info

Publication number
JP6859672B2
JP6859672B2 JP2016222987A JP2016222987A JP6859672B2 JP 6859672 B2 JP6859672 B2 JP 6859672B2 JP 2016222987 A JP2016222987 A JP 2016222987A JP 2016222987 A JP2016222987 A JP 2016222987A JP 6859672 B2 JP6859672 B2 JP 6859672B2
Authority
JP
Japan
Prior art keywords
communication
test
detected
route
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016222987A
Other languages
English (en)
Other versions
JP2018082301A (ja
Inventor
正純 前田
正純 前田
幸治 右田
幸治 右田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016222987A priority Critical patent/JP6859672B2/ja
Priority to US15/792,868 priority patent/US10409686B2/en
Publication of JP2018082301A publication Critical patent/JP2018082301A/ja
Application granted granted Critical
Publication of JP6859672B2 publication Critical patent/JP6859672B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/1423Reconfiguring to eliminate the error by reconfiguration of paths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test buses, lines or interfaces, e.g. stuck-at or open line faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/15Interconnection of switching modules
    • H04L49/1515Non-blocking multistage, e.g. Clos
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/552Prevention, detection or correction of errors by ensuring the integrity of packets received through redundant connections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/555Error detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/557Error correction, e.g. fault recovery or fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/85Active fault masking without idle spares

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)

Description

本発明は、情報処理装置および情報処理装置の障害検出方法に関する。
複数のプロセッサモジュールを相互に接続するネットワークに、多段に接続される複数のスイッチノードを設け、スイッチノードが故障した場合にネットワークを再構築することで、故障の耐久性を強化する手法が提案されている(例えば、特許文献1参照)。また、複数の入力と複数の出力とを相互に接続するクロスコネクトの前段にクロスコネクトインタフェース部を設けることで、クロスコネクト部に障害が発生した場合にもクロスコネクト接続を可能にする手法が提案されている(例えば、特許文献2参照)。
特開平5−207011号公報 特開平6−245236号公報
上述のように、通信経路に故障が発生した場合、故障した通信経路を別の通信経路に切り替えることで、通信の再開が可能になる。この際、故障した個所を特定するために、テストデータ等が送信され、故障の原因となった部品等が交換される。しかしながら、従来、通信経路上の複数個所で故障が同時に発生することは想定されておらず、複数個所で発生した故障のそれぞれを検出することは困難であった。
1つの側面では、本発明は、情報を相互に通信する通信部間で複数の故障が発生した場合に、故障個所のそれぞれを検出することを目的とする。
一つの実施態様では、複数の第1通信路の各々を介して情報を相互に通信する第1通信部および第2通信部と、第1通信部、第2通信部または複数の第1通信路で発生する障害の検出を制御する検出制御部とを有する情報処理装置において、第1通信部および第2通信部の各々は、複数の第1通信路にそれぞれ接続される複数の第2通信路と、複数の第2通信路に跨って設けられ、複数の第2通信路のいずれかに伝達される情報の伝達経路を切り替える複数のマトリックススイッチとを備え、検出制御部は、複数の第2通信路のいずれかにおいて通信エラーが検出された場合、複数のマトリックススイッチを、通信エラーが検出された第2通信路に伝達される情報を折り返す折り返し状態に順次切り替えたテストである第1折り返しテストを実行し、第1折り返しテストでエラーが検出された場合、障害が発生した第2通信路の往路と復路の一方を他の第2通信路に迂回させて第2折り返しテストを実行し、第2折り返しテストによりエラーが検出されない場合に往路と復路の一方の異常を検出し、あるいは、第2折り返しテストによりエラーが検出された場合に、障害が発生した第2通信路の往路と復路の他方を更に他の第2通信路に迂回させて第3折り返しテストを実行し、第3折り返しテストによりエラーが検出されない場合に往路と復路の他方の異常を検出し、あるいは、第3折り返しテストによりエラーが検出された場合に往路と復路の両方の異常を検出し、異常を検出した経路を迂回により避けて、第1折り返しテストを継続する。
別の実施態様では、複数の第1通信路の各々を介して情報を相互に通信する第1通信部および第2通信部を備え、第1通信部および第2通信部の各々が、複数の第1通信路にそれぞれ接続される複数の第2通信路と、複数の第2通信路に跨って設けられ、複数の第2通信路のいずれかに伝達される情報の伝達経路を切り替える複数のマトリックススイッチとを備える情報処理装置の障害検出方法において、情報処理装置が有する検出制御部が、複数の第2通信路のいずれかにおいて通信エラーが検出された場合、複数のマトリックススイッチを、通信エラーが検出された第2通信路に伝達される情報を折り返す折り返し状態に順次切り替えたテストである第1折り返しテストを実行し、第1折り返しテストでエラーが検出された場合、障害が発生した第2通信路の往路と復路の一方を他の第2通信路に迂回させて第2折り返しテストを実行し、第2折り返しテストによりエラーが検出されない場合に往路と復路の前記一方の異常を検出し、あるいは、第2折り返しテストによりエラーが検出された場合に、障害が発生した第2通信路の往路と復路の他方を更に他の第2通信路に迂回させて第3折り返しテストを実行し、第3折り返しテストによりエラーが検出されない場合に往路と復路の前記他方の異常を検出し、あるいは、第3折り返しテストによりエラーが検出された場合に往路と復路の両方の異常を検出し、異常を検出した経路を迂回により避けて、第1折り返しテストを継続することで、第1通信部、第2通信部または複数の第1通信路で発生した障害を検出する。
1つの側面では、本発明は、情報を相互に通信する通信部間で複数の故障が発生した場合に、故障個所のそれぞれを検出できる。
情報処理装置の一実施形態を示す図である。 図1に示す情報処理装置の障害検出方法の一例を示す図である。 図2の続きを示す図である。 情報処理装置の別の実施形態を示す図である。 図4に示すマトリックススイッチのスイッチ部を切り替えるために制御プロセッサが出力するスイッチ制御情報の一例を示す図である。 図4に示す制御プロセッサが実行する折り返しテストの一例を示す図である。 図6に示すテストパターン4からテストパターン7による折り返しテストの一例を示す図である。 図7に示す折り返しテストの続きを示す図である。 図8(b)に示す折り返しテストの終了時のマトリックススイッチの切り替え状態を示すスイッチ制御情報の一例を示す図である。 図4に示す制御プロセッサが実行する折り返しテストの別の例を示す図である。 図10に示す折り返しテストの続きを示す図である。 図11(c)に示す折り返しテストの終了時のマトリックススイッチの切り替え状態を示すスイッチ制御情報の一例を示す図である。 図4に示す制御プロセッサが実行する折り返しテストのさらなる別の例を示す図である。 図13に示す折り返しテストの続きを示す図である。 図14(c)に示す折り返しテストの終了時のマトリックススイッチの切り替え状態を示すスイッチ制御情報の一例を示す図である。 図4に示す制御プロセッサが実行する通信状態の監視動作の一例を示す図である。 図16に示すステップS200に示す折り返しテストの一例を示す図である。 図17に示すステップS300による故障個所を特定する折り返しテストの一例を示す図である。 情報処理装置の別の実施形態を示す図である。 情報処理装置の別の実施形態を示す図である。
以下、図面を用いて実施形態を説明する。
図1は、情報処理装置の一実施形態を示す。図1に示す情報処理装置IPE1は、半導体装置LSI1、LSI2(LSI:Large-Scale Integration)と、制御プロセッサCNTLとを有する。半導体装置LSI1、LSI2は、複数の伝送路TP(TP1、TP2)を介して情報を相互に通信する。特に限定されないが、情報は電気信号を使用して半導体装置LSI1、LSI2間で伝達される。例えば、半導体装置LSI1と制御プロセッサCNTLとは、プリント基板等の1つの基板に搭載され、LSI2は、別の基板に搭載される。そして、ラックに設けられるバックプレーンに基板を接続することで、半導体装置LSI1、LSI2は互いに接続される。この場合、伝送路TPは、バックプレーンに配線される信号線を含む。
半導体装置LSI1は、第1通信部の一例であり、半導体装置LSI2は、第2通信部の一例である。伝送路TPは、第1通信路の一例である。制御プロセッサCNTLは、半導体装置LSI1、LSI2または伝送路TPで発生する障害の検出を制御する検出制御部の一例である。以下の説明では、半導体装置LSI1、LSI2は、単にLSI1、LSI2とも称される。
以下に示す説明では、伝送路TPにおいて、情報を送信するLSIから情報を受信するLSIに向かう矢印の経路を往路と呼び、情報を受信するLSIから情報を送信するLSIに向かう矢印の経路を復路と呼ぶ。例えば、LSI1がLSI2に情報を送信する場合、LSI1からLSI2に向かう矢印を往路と呼び、LSI2からLSI1に向かう矢印を復路と呼ぶ。反対に、LSI2がLSI1に情報を送信する場合、LSI2からLSI1に向かう矢印を往路と呼び、LSI1からLSI2に向かう矢印を復路と呼ぶ。
LSI1は、複数の伝送路TP1、TP2にそれぞれ接続される複数の通信路CP1(CP11、CP12)と、複数の通信路CP1に跨って設けられる複数のマトリックススイッチMSW(MSW1、MSW2)とを有する。また、LSI1は、複数の通信路CP1に情報を送信するとともに、複数の通信路CP1から情報を受信するCPU1(CPU:Central Processing Unit)を有する。例えば、CPU1は、通信路CP11、CP12にそれぞれ接続され、通信路CP11、CP12に対して情報を送受信する通信インタフェース部CH1(CH11、CH12)を有する。CPU1は、複数の通信路CP11、CP12に情報を送信するとともに、複数の通信路CP11、CP12から情報を受信する通信制御部の一例である。通信路CP11、CP12は、第2通信路の一例である。
各マトリックススイッチMSW1、MSW2は、制御プロセッサCNTLから出力されるスイッチ制御情報SCNT(SCNT11、SCNT12)に基づいて、複数の通信路CP1のいずれかに伝達される情報の伝達経路を切り替える機能を有する。例えば、各マトリックススイッチMSW1、MSW2は、通信インタフェース部CH11から出力される情報を、伝達経路の切り替えにより、通信インタフェース部CH11に向けて折り返す折り返し状態に設定する機能を有する。
各マトリックススイッチMSW1、MSW2は、通信インタフェース部CH12から出力される情報を、伝達経路の切り替えにより、通信インタフェース部CH12に向けて折り返す折り返し状態に設定する機能を有する。また、各マトリックススイッチMSW1、MSW2は、通信路CP1の一方に伝達される情報を、伝達経路の切り替えにより、通信路CP1の他方に迂回させる迂回状態に設定する機能を有する。なお、各マトリックススイッチMSW1、MSW2は、例えば、通信インタフェース部CH21から出力される情報を、伝達経路の切り替えにより、通信インタフェース部CH21に向けて折り返す折り返し状態に設定する機能を有してもよい。
なお、LSI1は、マトリックススイッチMSW1、MSW2間に、各通信路CP11、CP12に接続され、情報の送信処理または受信処理を実行する通信処理部を有してもよい。通信処理部は、マルチプレクサ、デマルチプレクサ、送信器または受信器等である。なお、LSI1は、3個以上のマトリックススイッチを有してもよい。
LSI2は、LSI1と同様に、複数の伝送路TP1、TP2にそれぞれ接続される複数の通信路CP2(CP21、CP22)と、複数の通信路CP2に跨って設けられる複数のマトリックススイッチMSW3、MSW4とを有する。また、LSI2は、通信路CP21、CP22にそれぞれ接続される通信インタフェース部CH2(CH21、CH22)を含むCPU2を有する。CPU2は、複数の通信路CP21、CP22に情報を送信するとともに、複数の通信路CP21、CP22から情報を受信する通信制御部の一例である。通信路CP21、CP22は、第2通信路の一例である。
各マトリックススイッチMSW3、MSW4は、制御プロセッサCNTLから出力されるスイッチ制御情報SCNT(SCNT21、SCNT22)に基づいて、複数の通信路CP2のいずれかに伝達される情報の伝達経路を切り替える機能を有する。例えば、各マトリックススイッチMSW3、MSW4は、LSI1の通信インタフェース部CH11から出力される情報を、伝達経路の切り替えにより、通信インタフェース部CH11に向けて折り返す折り返し状態に設定する機能を有する。各マトリックススイッチMSW3、MSW4は、LSI1の通信インタフェース部CH12から出力される情報を、伝達経路の切り替えにより、通信インタフェース部CH12に向けて折り返す折り返し状態に設定する機能を有する。また、各マトリックススイッチMSW3、MSW4は、通信路CP2の一方に伝達される情報を、伝達経路の切り替えにより、通信路CP2の他方に迂回させる迂回状態に設定する機能を有する。なお、各マトリックススイッチMSW3、MSW4は、例えば、LSI2の通信インタフェース部CH21から出力される情報を、伝達経路の切り替えにより、通信インタフェース部CH21に向けて折り返す折り返し状態に設定する機能を有してもよい。
なお、LSI2は、マトリックススイッチMSW3、MSW4間に、各通信路CP21、CP22に接続され、情報の送信処理または受信処理を実行する通信処理部を有してもよい。通信処理部は、マルチプレクサ、デマルチプレクサ、送信器または受信器等である。なお、LSI2は、3個以上のマトリックススイッチを有してもよい。
図1に示す情報処理装置IPE1では、通信インタフェース部CH11、CH21、通信路CP11、CP21および伝送路TP1により1つのチャネルが設けられる。また、通信インタフェース部CH12、CH22、通信路CP12、CP22および伝送路TP2により別のチャネルが設けられる。そして、情報処理装置IPE1は、各チャネルを独立に使用して、情報を通信する。なお、CPU1は、3個以上の通信インタフェース部CH1を有してもよく、CPU2は、3個以上の通信インタフェース部CH2を有してもよい。すなわち、情報処理装置IPE1は、3個以上のチャネルを有してもよい。以下では、説明を分かりやすくするために、半導体装置LSI1を基準に情報を送受信する例を述べ、CPU1からCPU2に向かう矢印は往路と称し、CPU2からCPU1に向かう矢印は復路と称する。
制御プロセッサCNTLは、CPU1に出力するテスト制御情報TCNT1を生成する機能と、CPU2に出力するテスト制御情報TCNT2を生成する機能とを有する。また、制御プロセッサCNTLは、各マトリックススイッチMSW1−MSW4に出力するスイッチ制御情報SCNT(SCNT11、SCNT12、SCNT21、SCNT22)を生成する機能を有する。なお、制御プロセッサCNTLの機能は、ロジック回路等のプロセッサ以外のデバイスにより実現されてもよい。CPU1は、テスト制御情報TCNT1に基づいて、通常モードからテストモードに移行し、CPU2は、テスト制御情報TCNT2に基づいて、通常モードからテストモードに移行する。
テストモードに移行したCPU1は、制御プロセッサCNTLが指定する通信インタフェース部CH1を使用して、テストデータを通信路CP1(往路)送信し、送信したテストデータを通信路CP1(復路)から受信する折り返しテストを実行する。テストモードに移行したCPU2は、通信路CP2(往路)を介してテストデータを受信した場合、受信したテストデータを通信路CP2(復路)に出力する。そして、CPU1は、受信したテストデータに基づいてテストデータが正常に通信されたかを判定し、判定結果を制御プロセッサCNTLに通知する。
制御プロセッサCNTLは、CPU1からの判定結果に基づいて、各マトリックススイッチMSW1−MSW4の接続状態を切り替え、CPU1に折り返しテストを繰り返し実行させる。これにより、制御プロセッサCNTLは、通信路CP1、CP2または伝送路TP1、TP2で発生した障害を検出する。制御プロセッサCNTLにより障害を検出する例は、図2および図3に示される。
図2および図3は、図1に示す情報処理装置IPE1の障害検出方法の一例を示す。図2および図3では、通常モードにおいて、通信路CP1、CP2および伝送路TP1を含むチャネルを使用してLSI1、LSI2間で情報を相互に通信中に、通信エラーが検出され、図1に示す制御プロセッサCNTLが、障害の発生個所を検出する例を示す。ここでは、太いX印で示す2個所で障害が発生している状態を前提に説明する。
まず、通常モードで通信中に通信エラーが検出された場合、LSI1またはLSI2は、制御プロセッサCNTLに通信エラーの発生を通知する。この時点で障害が発生した個所はまだ分からない。通信エラーの発生の通知は、情報処理装置IPE1に搭載される管理装置を介して、LSI1またはLSI2から制御プロセッサCNTLに通知されてもよい。
通信エラーの発生を受信した制御プロセッサCNTLは、テスト制御情報TCNT1、TCNT2をCPU1、CPU2にそれぞれ出力し、CPU1、CPU2を、通常モードからテストモードに移行させる。制御プロセッサCNTLは、図1に示す通信インタフェース部CH11を使用して折り返しテストを実行する指示をCPU1に発行する。また、制御プロセッサCNTLは、図2に示す通信インタフェース部CH21がテストデータを受信した場合、テストデータをCPU1に向けて返送する指示をCPU2に発行する。
ここで、折り返しテストは、第1折り返しテスト、第2折り返しテストおよび第3折り返しテストを含む。第1折り返しテストでは、テストデータを折り返すマトリックススイッチMSWの直前の通信路CP1、CP2の往路および復路とも迂回させずに、テストデータを折り返して、通信エラーの有無が検出される。すなわち、第1折り返しテストでは、通信エラーが検出されたチャネルの通信路CP1、CP2のみを使用して、テストデータが伝送される。
第2折り返しテストでは、テストデータを折り返すマトリックススイッチMSWの直前の通信路CP1(またはCP2)の往路のみを迂回させ、テストデータを折り返して、通信エラーの有無が検出される。第3折り返しテストでは、テストデータを折り返すマトリックススイッチMSWの直前の通信路CP1(またはCP2)の復路のみを迂回させ、テストデータを折り返して、通信エラーの有無が検出される。すなわち、第2折り返しテストおよび第3折り返しテストでは、通信エラーが検出されたチャネルの以外の通信路CP1、CP2の一部にテストデータを迂回させて、テストデータが伝送される。
図2(a)において、制御プロセッサCNTLは、太線で示すように、通信路CP11をマトリックススイッチMSW1で折り返す折り返し状態に設定し、CPU1に第1折り返しテストを実行させる。
CPU1は、第1折り返しテストを実行し、マトリックススイッチMSW1で折り返されたテストデータを正常に受信したため、パスを示す判定結果を制御プロセッサCNTLに出力する。制御プロセッサCNTLは、第1折り返しテストの判定結果(パス)に基づいて、CPU1とマトリックススイッチMSW1との間の通信路CP11が正常であると判定する。なお、図2(b)以降においても、テストデータが伝達される経路は、太線で示される。
次に、図2(b)において、制御プロセッサCNTLは、通信路CP11をマトリックススイッチMSW2で折り返す折り返し状態に設定し、CPU1に第1折り返しテストを実行させる。CPU1は、マトリックススイッチMSW2で折り返されたテストデータを正常に受信しないため、フェイルを示す判定結果を制御プロセッサCNTLに出力する。制御プロセッサCNTLは、第1折り返しテストの判定結果(フェイル)に基づいて、通信エラーの発生を検出し、マトリックススイッチMSW1、MSW2間の通信路CP11に障害があると判定する。
次に、図2(c)において、制御プロセッサCNTLは、障害が往路と復路とのいずれで発生したかを検出するために、マトリックススイッチMSW1、MSW2間の通信路CP11の往路を通信路CP12に迂回させる迂回状態に設定する。ここで、通信路CP12、CP22および伝送路TP2は、通常モード中の通信より、正常に動作することが確認されている。そして、制御プロセッサCNTLは、CPU1に第2折り返しテストを実行させる。CPU1は、マトリックススイッチMSW2で折り返され、かつ、往路が通信路CP2に迂回されたテストデータを正常に受信したため、パスを示す判定結果を制御プロセッサCNTLに出力する。
制御プロセッサCNTLは、第2折り返しテストの判定結果(パス)に基づいて、マトリックススイッチMSW1、MSW2間の通信路CP11の往路に障害が発生したと判定する。すなわち、制御プロセッサCNTLは、障害が発生した通信路CP11の往路を他の通信路CP12に迂回させて第2折り返しテストを実行し、エラーが検出されない場合、通信路CP11の往路の異常を検出する。
次に、図3(a)において、制御プロセッサCNTLは、伝送路TP1をマトリックススイッチMSW3で折り返す折り返し状態に設定する。この際、マトリックススイッチMSW1、MSW2間の通信路CP11の往路を通信路CP12に迂回させる迂回状態は維持される。そして、制御プロセッサCNTLは、CPU1に第1折り返しテストを実行させる。
CPU1は、マトリックススイッチMSW3で折り返されたテストデータを正常に受信しないため、フェイルを示す判定結果を制御プロセッサCNTLに出力する。制御プロセッサCNTLは、第1折り返しテストの判定結果(フェイル)に基づいて、マトリックススイッチMSW2、MSW3間(例えば、伝送路TP1)に障害があると判定する。
次に、図3(b)において、制御プロセッサCNTLは、障害が往路と復路とのいずれで発生したかを検出するために、伝送路TP1の往路を伝送路TP2に迂回させる迂回状態に設定する。この際、マトリックススイッチMSW1、MSW2間の通信路CP11の往路を通信路CP12に迂回させる迂回状態は維持される。
そして、制御プロセッサCNTLは、CPU1に第2折り返しテストを実行させる。CPU1は、マトリックススイッチMSW3で折り返され、かつ、往路が伝送路TP2に迂回されたテストデータを正常に受信しないため、フェイルを示す判定結果を制御プロセッサCNTLに出力する。制御プロセッサCNTLは、第2折り返しテストの判定結果(フェイル)に基づいて、伝送路TP1の往路と復路の両方、または伝送路TP1の復路に障害があると判定する。
次に、図3(c)において、制御プロセッサCNTLは、伝送路TP1の復路を伝送路TP2に迂回させる迂回状態に設定する。この際、マトリックススイッチMSW1、MSW2間の通信路CP11の往路を通信路CP12に迂回させる迂回状態は維持される。そして、制御プロセッサCNTLは、CPU1に第3折り返しテストを実行させる。CPU1は、マトリックススイッチMSW3で折り返され、かつ、復路が伝送路TP2に迂回されたテストデータを正常に受信したため、パスを示す判定結果を制御プロセッサCNTLに出力する。
制御プロセッサCNTLは、第3折り返しテストの判定結果(パス)に基づいて、マトリックススイッチMSW2、MSW3間の復路に障害があると判定する。すなわち、制御プロセッサCNTLは、伝送路TP1の往路を迂回させた第2折り返しテストでエラーを検出し、さらに、伝送路TP1の復路を迂回させた第3折り返しテストでエラーを検出しない場合、伝送路TP1の復路の異常を検出する。
なお、伝送路TP1の往路と復路の両方に障害が発生した場合、CPU1は、図3(c)に示す第3折り返しテストでエラーを検出する。すなわち、制御プロセッサCNTLは、伝送路TP1の往路を迂回させた第2折り返しテストでエラーを検出し、さらに、伝送路TP1の復路を迂回させた第3折り返しテストでエラーを検出する。この場合、制御プロセッサCNTLは、マトリックススイッチMSW2、MSW3間の往路と復路との異常を検出する。
この後、制御プロセッサCNTLは、通信路CP21をマトリックススイッチMSW4で折り返す折り返し状態に設定し、CPU1に第1折り返しテストを実行させる。この際、マトリックススイッチMSW1、MSW2間の往路の迂回状態と、マトリックススイッチMSW2、MSW3間の復路の迂回状態は維持される。
図2(b)から図3(c)の説明と同様に、制御プロセッサCNTLは、第1折り返しテストがフェイルした場合、マトリックススイッチMSW3、MSW4間の往路または復路を迂回させ、故障個所を特定する。さらに、制御プロセッサCNTLは、通信路CP21をCPU2(図1に示す通信インタフェース部CH21)で折り返す折り返し状態に設定し、CPU1に第1折り返しテストを実行させる。テストデータをCPU2で折り返す第1折り返しテストでエラーが発生した場合、制御プロセッサCNTLは、CPU2の通信インタフェース部CH21(図1)の故障を検出する。
以上より、通信路CP11、CP21および伝送路TP1の複数個所に障害が発生した場合にも、互いに隣接する2つのマトリックススイッチMSW間の往路または復路を迂回させることで、障害の原因となる故障個所を特定することができる。換言すれば、1つのチャネル内の複数個所に故障が発生した場合、故障個所を従来に比べて容易に特定することができる。
なお、例えば、図2(b)または図3(a)に示す第1折り返しテストでエラーが検出された場合、制御プロセッサCNTLは、復路を迂回させてCPU1に第3折り返しテストを実行させた後、往路を迂回させてCPU1に第2折り返しテストを実行させてもよい。この場合、制御プロセッサCNTLは、第3折り返しテストによりエラーが検出されない場合に復路の異常を検出し、第3折り返しテストによりエラーが検出された場合に、往路を迂回させて第2折り返しテストを実行する。そして、制御プロセッサCNTLは、第2折り返しテストによりエラーが検出されない場合に往路の異常を検出し、第2折り返しテストによりエラーが検出された場合に、往路と復路の両方の異常を検出する。
なお、情報処理装置IPE1が3個以上のチャネルを有する場合にも、正常に動作する少なくとも1つのチャネルを迂回路として使用することで、障害が発生したチャネルの故障個所を特定することができる。また、図2および図3では、CPU1からテストデータを出力し、折り返しテストを実行する例を説明したが、CPU2からテストデータを出力し、折り返しテストを実行してもよい。この場合、CPU2からCPU1に向かう矢印が往路となり、CPU1からCPU2に向かう矢印が復路となる。
以上、図1から図3に示す実施形態では、複数のチャネルを使用してLSI1、LSI2間で情報を相互に通信する場合、通信路CP1、CP2または伝送路TPで発生した複数の故障の故障個所をそれぞれ特定することができる。制御プロセッサCNTLが、マトリックススイッチMSWを切り替えながらCPU1に折り返しテストを実行させることで、保守作業者等を介在させることなく複数の故障個所を特定することができる。これにより、保守作業者等を介在させて故障個所を特定する場合に比べて、障害を迅速に復旧させることができ、情報処理装置IPE1の信頼性を向上することができる。さらに、少なくとも1つのチャネルが正常に動作する場合、他のチャネルの故障個所を特定することができる。
図4は、情報処理装置の別の実施形態を示す。図1で説明した要素と同一または同様の要素については、同一の符号を付し、これ等については、詳細な説明は省略する。この実施形態の情報処理装置IPE2は、複数の伝送路TP(TP1、TP2、...、TP8)を介して情報を相互に通信するLSI1、LSI2と、制御プロセッサCNTLとを有する。すなわち、LSI1とLSI2とは、8つのチャネルを介して情報を通信可能である。なお、LSI1とLSI2との間で通信するためのチャネル数は、”2”以上であればよい。
図1に示す情報処理装置IPE1と同様に、例えば、LSI1、LSI2は、ラックに設けられるバックプレーンを介して互いに接続される基板にそれぞれ搭載され、制御プロセッサCNTLは、LSI1が搭載される基板に搭載される。伝送路TPは、バックプレーンに配線される信号線を含む。
LSI1は、通信インタフェース部CH1(CH11、CH12、...、CH18)を含むCPU1と、通信インタフェース部CH1を伝送路TPにそれぞれ接続する複数の通信路CP1(CP11、CP12、...、CP18)とを有する。通信インタフェース部CH11−CH18の機能は、図1に示すCPU1に設けられる通信インタフェース部CH11−CH12の機能と同様である。
また、LSI1は、複数の通信路CP1に跨って設けられる複数のマトリックススイッチMSW(MSW1、MSW2、MSW3)と、制御インタフェース部CIFとを有する。マトリックススイッチMSW1−MSW3の機能は、図1に示すマトリックススイッチMSW1−MSW2の機能と同様である。制御インタフェース部CIFは、制御プロセッサCNTLと、CPU1およびマトリックススイッチMSW1、MSW2、MSW3との間の情報の授受を制御する。なお、LSI1は、4個以上のマトリックススイッチMSWを有してもよい。
CPU1から伝送路TPに情報を伝達する各通信路CP1の往路(右向きの矢印)において、マルチプレクサMUXが、マトリックススイッチMSW1、MSW2の間に配置され、送信器TXが、マトリックススイッチMSW2、MSW3の間に配置される。伝送路TPからCPU1に情報を伝達する各通信路CP1の復路(左向きの矢印)において、受信器RXが、マトリックススイッチMSW3、MSW2の間に配置され、デマルチプレクサDEMUXが、マトリックススイッチMSW2、MSW1の間に配置される。マルチプレクサMUXは、並列信号を直列信号に変換し、デマルチプレクサDEMUXは、直列信号を並列信号に変換する。送信器TXは、マルチプレクサMUXから受信する信号を伝送路TPに出力し、受信器RXは、伝送路TPから受信する信号をデマルチプレクサDEMUXに出力する。
LSI2は、LSI1と同様に、通信インタフェース部CH2(CH21、CH22、...、CH28)を含むCPU2と、通信インタフェース部CH2を伝送路TPにそれぞれ接続する複数の通信路CP2(CP21、CP22、...、CP28)とを有する。通信インタフェース部CH21−CH28の機能は、図1に示すCPU2に設けられる通信インタフェース部CH21−CH22の機能と同様である。また、LSI2は、複数の通信路CP2に跨って設けられる複数のマトリックススイッチMSW(MSW4、MSW5、MSW6)と、制御インタフェース部CIFとを有する。マトリックススイッチMSW4−MSW6の機能は、図1に示すマトリックススイッチMSW3−MSW4の機能と同様である。なお、LSI2は、4個以上のマトリックススイッチMSWを有してもよい。
CPU2から伝送路TPに情報を伝達する各通信路CP2の復路(左向きの矢印)において、マルチプレクサMUXが、マトリックススイッチMSW6、MSW5の間に配置され、送信器TXがマトリックススイッチMSW5、MSW4の間に配置される。伝送路TPからCPU2に情報を伝達する各通信路CP2の往路(右向きの矢印)において、受信器RXが、マトリックススイッチMSW4、MSW5の間に配置され、デマルチプレクサDEMUXが、マトリックススイッチMSW5、MSW6の間に配置される。
各マトリックススイッチMSW1−MSW6は、チャネル毎にスイッチ部SWを有し、制御インタフェース部CIFを介して制御プロセッサCNTLから出力されるスイッチ制御情報を受信する。各マトリックススイッチMSW1−MSW6は、受信したスイッチ制御情報に基づいて、伝達経路を切り替え、スイッチ部SWの状態を通常状態、折り返し状態または迂回状態に設定する。
通常状態は、スイッチ部SWの端子Aと端子Cとを互いに接続するとともに、スイッチ部SWの端子Bと端子Dとを互いに接続する状態である。折り返し状態は、スイッチ部SWの端子Aと端子Bとを互いに接続し、または、スイッチ部SWの端子Cと端子Dとを互いに接続する状態である。迂回状態は、スイッチ部SWの端子A、B、C、Dのいずれかを、異なるチャネルのスイッチ部SWの端子A、B、C、Dのいずれかに接続する状態である。スイッチ部SWの端子A、B、C、Dの後ろに付した2桁の数字は、上位の桁がマトリックススイッチMSWの番号を示し、下位の桁がチャネルの番号を示す。
図5は、図4に示すマトリックススイッチMSWのスイッチ部SWを切り替えるために制御プロセッサCNTLが出力するスイッチ制御情報の一例を示す。図5に示すスイッチ制御情報は、図7(a)の状態を示す。図5では、各スイッチ制御情報は、8ビット単位の16進数で示される。スイッチ制御情報は、伝達経路を切り替えるスイッチ部SWを指定するアドレスAD(例えば、16ビット)と、指定したスイッチ部SWの状態を指定するデータDT(例えば、64ビット)とを含む。
アドレスADの上位8ビットは、チャネルの番号(1から8のいずれか)を示し、アドレスADの下位8ビットは、マトリックススイッチMSWの番号(1から6のいずれか)を示す。すなわち、図5に示す表の1行は、1つのスイッチ部SWの状態を示す。
データDTは、スイッチ部SWの端子A、B、C、D毎に、接続先のチャネルの番号を示す8ビットの情報と、接続先の端子を示す8ビットの情報とを含む。端子A、B、C、D毎に割り当てられた16ビットの値が”00”の場合、その端子は、どこにも接続されないことを示す(オープン状態)。接続先の端子を示す8ビットの情報は、16進数の”0A”、”0B”、”0C”、”0D”(2進数の”00001010”、”00001011”、”00001100”、”00001101”)で端子名A、B、C、Dを示す。これにより、例えば、情報処理装置IPE2の開発中に制御プロセッサCNTLのデバッグ等をする場合に、設計者等は、デバッグリスト等に出力されたデータDTに基づいて、接続先の端子名を容易に理解できる。
例えば、図5に示す表の1行目および3行目は、マトリックススイッチMSW1のチャネル1のスイッチ部SWにおいて、端子Dと端子Bとが互いに接続され、端子Cと端子Aとが互いに接続されることを示す。表の3行目は、マトリックススイッチMSW3のチャネル1のスイッチ部SWにおいて、端子Dと端子Bが互いに接続され、端子Cがオープン状態に設定され、端子AがマトリックススイッチMSW3のチャネル2のスイッチ部SWの端子Cに接続されることを示す。この場合、マトリックススイッチMSW3のチャネル2のスイッチ部SWの状態を示す表の9行目において、端子Cの接続先は、チャネル1のスイッチ部SWの端子Aに設定される。
表の4行目は、マトリックススイッチMSW4のチャネル1のスイッチ部SWにおいて、端子Dと端子Cと端子Aがオープン状態に設定され、端子BがマトリックススイッチMSW4のチャネル2のスイッチ部SWの端子Aに接続されることを示す。この場合、マトリックススイッチMSW4のチャネル2のスイッチ部SWの状態を示す表の10行目において、端子Aの接続先は、チャネル1のスイッチ部SWの端子Bに設定される。
図6は、図4に示す制御プロセッサCNTLが実行する折り返しテストの一例を示す。すなわち、図6は、情報処理装置の障害検出方法の一例を示す。図2および図3と同様の動作については、詳細な説明は省略する。図6に示す折り返しテストは、チャネルのいずれかで通信エラーが検出された場合に開始される。なお、折り返しテストは、図2および図3で説明したように、第1折り返しテスト、第2折り返しテストおよび第3折り返しテストを含む。
以下では、例えば、図7(a)に示すように、チャネル1の伝送路TP1の往路と、LSI2におけるチャネル1の受信器RXとの2個所で故障が発生し(太いX印)、チャネル1で通信エラーが発生した場合について説明される。なお、以下では、CPU1からCPU2にデータを伝送する経路は往路と称し、CPU2からCPU1にデータを伝送する経路は復路と称する。制御プロセッサCNTLは、テストパターン1からテストパターン7に示す第1折り返しテストを順に実行する。
まず、制御プロセッサCNTLは、テストパターン1に示すように、通信エラーが発生したチャネル1を使用して、テストデータをマトリックススイッチMSW1で折り返す第1折り返しテストをCPU1に実行させる。テストパターン1による折り返しテストはパスするため、制御プロセッサCNTLは、テストパターン2に示すように、チャネル1を使用して、テストデータをマトリックススイッチMSW2で折り返す第1折り返しテストをCPU1に実行させる。
テストパターン2による折り返しテストはパスするため、制御プロセッサCNTLは、テストパターン3に示すように、チャネル1を使用して、テストデータをマトリックススイッチMSW3で折り返す第1折り返しテストをCPU1に実行させる。テストパターン3による折り返しテストはパスするため、制御プロセッサCNTLは、テストパターン4に示すように、チャネル1を使用して、テストデータをマトリックススイッチMSW4で折り返す第1折り返しテストをCPU1に実行させる。
この例では、チャネル1の伝送路TP1の往路が故障しているため、第1折り返しテストはフェイルする。マトリックススイッチMSW4で折り返す第1折り返しテストでフェイルした場合、制御プロセッサCNTLは、通信エラーが検出されたチャネル1のマトリックススイッチMSW3、MSW4間の往路または復路の一方を他のチャネルに迂回させる。この例では、図7(a)に示すように、伝送路TP1の往路がチャネル2に迂回される。そして、制御プロセッサCNTLは、テストデータをマトリックススイッチMSW4で折り返す第2折り返しテストをCPU1に実行させる。
チャネル1の伝送路TP1の往路を避けて第2折り返しテストが実行されるため、第2折り返しテストはパスする。制御プロセッサCNTLは、第2折り返しテストのパスに基づいて、チャネル1のマトリックススイッチMSW3、MSW4間の伝送路TP1を含む往路が故障していることを検出する。次に、制御プロセッサCNTLは、テストパターン5に示すように、チャネル1を使用して、テストデータをマトリックススイッチMSW5で折り返す第1折り返しテストをCPU1に実行させる。テストデータをマトリックススイッチMSW5で折り返す第1折り返しテストの例は、図7(b)に示される。
この例では、LSI2におけるチャネル1の受信器RXが故障しているため、第1折り返しテストはフェイルする。マトリックススイッチMSW5で折り返す第1折り返しテストでフェイルした場合、制御プロセッサCNTLは、通信エラーが検出されたチャネル1のマトリックススイッチMSW4、MSW5間の往路または復路の一方を他のチャネルに迂回させる。この例では、図7(c)に示すように、伝送路TP1の往路が迂回される。そして、制御プロセッサCNTLは、テストデータをマトリックススイッチMSW5で折り返す第2折り返しテストをCPU1に実行させる。
LSI2におけるチャネル1の受信器RXを含む往路を避けて第2折り返しテストが実行されるため、第2折り返しテストはパスする。制御プロセッサCNTLは、第2折り返しテストのパスに基づいて、LSI2におけるチャネル1のマトリックススイッチMSW4、MSW5間の受信器RXを含む往路が故障していることを検出する。次に、制御プロセッサCNTLは、テストパターン6に示すように、チャネル1を使用して、テストデータをマトリックススイッチMSW6で折り返す第1折り返しテストをCPU1に実行させる。テストデータをマトリックススイッチMSW6で折り返す第1折り返しテストの例は、図8(a)に示される。
テストパターン6による第1折り返しテストはパスするため、制御プロセッサCNTLは、テストパターン7に示すように、チャネル1を使用して、テストデータをCPU2で折り返す第1折り返しテストをCPU1に実行させる。テストデータをCPU2で折り返す第1折り返しテストの例は、図8(b)に示される。テストパターン7による第1折り返しテストはパスする。そして、制御プロセッサCNTLは、チャネル1のマトリックススイッチMSW3、MSW4間の往路と、LSI2におけるチャネル1のマトリックススイッチMSW4、MSW5間の往路との故障により、チャネル1の通信障害が発生していることを検出する。
図7および図8は、図6に示すテストパターン4からテストパターン7による折り返しテストの一例を示す。図2および図3と同様の動作については、詳細な説明は省略する。図7(a)は、図6に示すテストパターン4による第1折り返しテストがフェイルした場合に、チャネル1におけるマトリックススイッチMSW3、MSW4間の往路をチャネル2に迂回させて、第2折り返しテストが実行される状態を示す。第2折り返しテストにより、チャネル1におけるマトリックススイッチMSW3、MSW4間の往路(すなわち、伝送路TP1の往路)の故障が検出される。
図7(b)は、図6に示すテストパターン5による第1折り返しテストがフェイルする状態を示す。図7(b)に示すように、既に実行したテストパターンによる迂回によりパスした経路は、そのまま維持されて次の折り返しテストが実行される。
図7(c)は、テストパターン5による第1折り返しテストがフェイルした場合に、チャネル1におけるマトリックススイッチMSW4、MSW5間の往路をチャネル2に迂回させて、第2折り返しテストが実行される状態を示す。第2折り返しテストにより、チャネル1のマトリックススイッチMSW4、MSW5間の往路(すなわち、LSI2におけるチャネル1の受信器RX)の故障が検出される。
図8(a)は、図6に示すテストパターン6による第1折り返しテストが実行される状態を示す。図8(b)は、図6に示すテストパターン7による第1折り返しテストが実行される状態を示す。そして、制御プロセッサCNTLは、チャネル1におけるマトリックススイッチMSW3、MSW4間の往路と、チャネル1におけるマトリックススイッチMSW4、MSW5間の往路とに故障が発生していることを検出し、折り返しテストを終了する。
図9は、図8(b)に示す第1折り返しテストの終了時のマトリックススイッチMSWの切り替え状態を示すスイッチ制御情報の一例を示す。経路を迂回させるためのスイッチ制御情報は、網掛けで示す。すなわち、表の3行目と9行目に示すように、チャネル1のマトリックススイッチMSW3の端子Aと、チャネル2のマトリックススイッチMSW3の端子Cとが相互に接続される。表の10行目に示すように、チャネル2のマトリックススイッチMSW4の端子Aと端子Cとが相互に接続される。そして、表の11行目と5行目に示すように、チャネル2のマトリックススイッチMSW5の端子Aと、チャネル1のマトリックススイッチMSW5の端子Cとが相互に接続される。
図10および図11は、図4に示す制御プロセッサCNTLが実行する折り返しテストの別の例を示す。すなわち、図10および図11は、情報処理装置の障害検出方法の別の例を示す。図10に示す折り返しテストは、例えば、チャネル1の伝送路TP1の復路と、LSI2におけるチャネル1の受信器RXとの2個所で故障が発生し、チャネル1で通信エラーが発生した場合に実行される。図10(a)の第2折り返しテストが実行される前に、図6に示すテストパターン1からテストパターン4による第1折り返しテストが実行され、テストパターン4による第1折り返しテストがフェイルする。
図10(a)は、図7(a)と同様に、通信エラーが検出されたチャネル1のマトリックススイッチMSW3、MSW4間の往路をチャネル2に迂回させる状態を示す。制御プロセッサCNTLは、テストデータをマトリックススイッチMSW4で折り返す第2折り返しテストをCPU1に実行させる。しかしながら、伝送路TP1の復路に故障があるため、第2折り返しテストはフェイルする。
第2折り返しテストがフェイルした場合、図10(b)に示すように、制御プロセッサCNTLは、チャネル1のマトリックススイッチMSW3、MSW4間の復路をチャネル2に迂回させる。そして、制御プロセッサCNTLは、テストデータをマトリックススイッチMSW4で折り返す第3折り返しテストをCPU1に実行させる。チャネル1の伝送路TP1の復路を避けて第3折り返しテストが実行されるため、第3折り返しテストはパスする。制御プロセッサCNTLは、第3折り返しテストのパスに基づいて、チャネル1のマトリックススイッチMSW3、MSW4間の復路が故障していることを検出する。
次に、図10(c)に示すように、制御プロセッサCNTLは、チャネル1を使用して、図7(b)と同様に、テストデータをマトリックススイッチMSW5で折り返す第1折り返しテストをCPU1に実行させる。第1折り返しテストは、LSI2におけるチャネル1の受信器RXの故障によりフェイルする。
次に、図11(a)に示すように、制御プロセッサCNTLは、図7(c)と同様に、通信エラーが検出されたチャネル1のマトリックススイッチMSW4、MSW5間の往路をチャネル2に迂回させる。そして、制御プロセッサCNTLは、テストデータをマトリックススイッチMSW5で折り返す第2折り返しテストをCPU1に実行させる。第2折り返しテストはパスする。
この後、図11(b)において、制御プロセッサCNTLは、図8(a)と同様に、テストデータをマトリックススイッチMSW5で折り返す第1折り返しテストをCPU1に実行させる。第1折り返しテストはパスする。さらに、図11(c)において、制御プロセッサCNTLは、図8(b)と同様に、テストデータをCPU2で折り返す第1折り返しテストをCPU1に実行させる。第1折り返しテストはパスする。そして、制御プロセッサCNTLは、チャネル1におけるマトリックススイッチMSW3、MSW4間の復路と、チャネル1におけるマトリックススイッチMSW4、MSW5間の往路とに故障が発生していることを検出し、折り返しテストを終了する。
図12は、図11(c)に示す第1折り返しテストの終了時のマトリックススイッチMSWの切り替え状態を示すスイッチ制御情報の一例を示す。
チャネル1におけるマトリックススイッチMSW4、MSW5間の往路をチャネル2に迂回させるためのスイッチ制御情報は、網掛けで示す。すなわち、表の4行目と10行目に示すように、チャネル1のマトリックススイッチMSW4の端子Aと、チャネル2のマトリックススイッチMSW4の端子Cとが相互に接続される。また、表の11行目と5行目に示すように、チャネル2のマトリックススイッチMSW5の端子Aと、チャネル1のマトリックススイッチMSW5の端子Cとが相互に接続される。
チャネル1におけるマトリックススイッチMSW3、MSW4間の復路をチャネル2に迂回させるためのスイッチ制御情報は、太枠で示す。すなわち、表の4行目と10行目に示すように、チャネル1のマトリックススイッチMSW4の端子Dと、チャネル2のマトリックススイッチMSW4の端子Bとが相互に接続される。また、表の9行目と3行目に示すように、チャネル2のマトリックススイッチMSW3の端子Dとチャネル1のマトリックススイッチMSW3の端子Bとが相互に接続される。
図13および図14は、図4に示す制御プロセッサCNTLが実行する折り返しテストの別の例を示す。すなわち、図13および図14は、情報処理装置の障害検出方法の別の例を示す。図13および図14に示す折り返しテストは、例えば、チャネル1の伝送路TP1の往路および復路と、LSI2におけるチャネル1の受信器RXとの3個所で故障が発生し、チャネル1で通信エラーが発生した場合に実行される。図10と同様に、図13(a)の第2折り返しテストが実行される前に、図6に示すテストパターン1からテストパターン4による第1折り返しテストが実行され、テストパターン4による第1折り返しテストがフェイルする。
図13(a)は、図7(a)と同様に、チャネル1のマトリックススイッチMSW3、MSW4間の往路をチャネル2に迂回させた状態を示す。制御プロセッサCNTLは、テストデータをマトリックススイッチMSW4で折り返す第2折り返しテストをCPU1に実行させる。しかしながら、伝送路TP1の復路に故障があるため、第2折り返しテストはフェイルする。
第2折り返しテストがフェイルした場合、図13(b)に示すように、制御プロセッサCNTLは、図10(b)と同様に、チャネル1のマトリックススイッチMSW3、MSW4間の復路をチャネル2に迂回させる。そして、制御プロセッサCNTLは、テストデータをマトリックススイッチMSW4で折り返す第3折り返しテストをCPU1に実行させる。しかしながら、伝送路TP1の往路にも故障があるため、第3折り返しテストはフェイルする。制御プロセッサCNTLは、第2折り返しテストのフェイルと第3折り返しテストのフェイルと基づいて、チャネル1のマトリックススイッチMSW3、MSW4間の往路と復路とが故障していることを検出する。
次に、図13(c)に示すように、制御プロセッサCNTLは、チャネル1のマトリックススイッチMSW3、MSW4間の往路と復路とを迂回させて、テストデータをマトリックススイッチMSW5で折り返す第1折り返しテストをCPU1に実行させる。第1折り返しテストは、LSI2におけるチャネル1の受信器RXの故障によりフェイルする。
次に、図14(a)に示すように、制御プロセッサCNTLは、図7(c)と同様に、通信エラーが検出されたチャネル1のマトリックススイッチMSW4、MSW5間の往路をチャネル2に迂回させる。そして、制御プロセッサCNTLは、テストデータをマトリックススイッチMSW5で折り返す第2折り返しテストをCPU1に実行させる。第2折り返しテストはパスする。
この後、図14(b)において、制御プロセッサCNTLは、図8(a)と同様に、テストデータをマトリックススイッチMSW5で折り返す第1折り返しテストをCPU1に実行させる。第1折り返しテストはパスする。さらに、図14(c)において、制御プロセッサCNTLは、図8(b)と同様に、テストデータをCPU2で折り返す第1折り返しテストをCPU1に実行させる。第1折り返しテストはパスする。そして、制御プロセッサCNTLは、チャネル1のマトリックススイッチMSW3、MSW4間の往路および復路と、チャネル1におけるマトリックススイッチMSW4、MSW5間の往路とに故障が発生していることを検出する。
図15は、図14(c)に示す第1折り返しテストの終了時のマトリックススイッチMSWの切り替え状態を示すスイッチ制御情報の一例を示す。チャネル1におけるマトリックススイッチMSW3、MSW5間の往路をチャネル2に迂回させるためのスイッチ制御情報は、網掛けで示す。チャネル1におけるマトリックススイッチMSW3、MSW4間の復路をチャネル2に迂回させるためのスイッチ制御情報は、太枠で示す。
図16は、図4に示す制御プロセッサCNTLが制御するCPU1、CPU2間での通信状態の監視動作の一例を示す。
まず、ステップS100において、制御プロセッサCNTLは、CPU1、CPU2間で発生する通信障害を監視する。ステップS100による監視は、CPU1、CPU2間で通常の通信を実行する通常モード中に実行される。制御プロセッサCNTLは、通信エラーが発生したことを示すCPU1またはCPU2からのエラー通知の受信の有無により、通信障害を監視する。次に、ステップS102において、制御プロセッサCNTLは、通信障害が発生した場合、処理をステップS104に移行し、通信障害が発生していない場合、処理をステップS100に戻して、監視を継続する。
ステップS104において、制御プロセッサCNTLは、通信障害が全てのチャネルで発生したか否かを判定する。制御プロセッサCNTLは、通信障害が全てのチャネルで発生した場合、処理をステップS106に移行する。制御プロセッサCNTLは、通信障害が一部のチャネルで発生した場合、すなわち、正常に動作するチャネルがある場合、処理をステップS108に移行する。
ステップS106において、制御プロセッサCNTLは、通信障害が全てのチャネルで発生したため、情報処理装置IPE2が故障したと判断し、情報処理装置IPE2を管理する管理装置等に、情報処理装置IPE2の故障を通知する。なお、制御プロセッサCNTLは、管理装置等の画面に情報処理装置IPE2が故障したことを示す情報を表示してもよい。
一方、ステップS108において、制御プロセッサCNTLは、正常に動作するチャネルの番号と、故障が発生したチャネルの番号とを取得する。次に、ステップS110において、制御プロセッサCNTLは、故障が発生したチャネルの各々を、正常に動作するチャネルのいずれかに割り当てる。この際、故障が発生した複数のチャネルの各々は、正常に動作する複数のチャネルの各々に割り当てられてもよく、正常に動作する1つのチャネルに共通に割り当てられてもよい。故障が発生した複数のチャネルの各々が、正常に動作する複数のチャネルの各々に割り当てられる場合、故障が発生した複数のチャネルの折り返しテスト(図6)を並列に実行することができる。故障が発生した複数のチャネルの各々が、正常に動作する1つのチャネルに共通に割り当てられる場合、折り返しテスト中に、正常に動作する他のチャネルを使用して通常モードでの通信を実行することができる。
次に、ステップS112において、制御プロセッサCNTLは、折り返しテストに使用するチャネルの通常モードによる通信を停止させ、テストモードに移行させる指示をCPU1およびCPU2に発行する。CPU1およびCPU2は、指示されたチャネルを通常モードからテストモードに移行する。次に、ステップS200において、制御プロセッサCNTLは、図6に示した折り返しテストを実行し、処理を終了する。
図17は、図16のステップS200に示す折り返しテストの一例を示す。すなわち、図17は、情報処理装置の障害検出方法の一例を示す。図17において、変数iは、第1折り返しテストにおいてテストデータを折り返すマトリックススイッチMSWの番号を示し、変数jは、故障したチャネルの数を示す。図4に示す例では、変数iの最大値は、マトリックススイッチMSW1−MSW6の数である”6”であり、変数jの最大値は、情報処理装置IPE2が有するチャネル数(=”8”)より1つ少ない”7”である。例えば、制御プロセッサCNTLは、故障したチャネルに、故障チャネル番号を”1”から順に割り当てられる。
まず、ステップS202において、制御プロセッサCNTLは、変数jを”1”に初期化する。次に、ステップS204において、制御プロセッサCNTLは、変数jにより示される故障したチャネルを選択する。次に、ステップS206において、制御プロセッサCNTLは、変数iを”1”に初期化し、処理をステップS208に移行する。ステップS208以降の処理は、ステップS204で選択された故障したチャネルに対して実行される。
ステップS208において、制御プロセッサCNTLは、マトリックススイッチMSWiでテストデータを折り返す第1折り返しテストを実行する。次に、ステップS210において、制御プロセッサCNTLは、第1折り返しテストのパス/フェイルを判定し、パスした場合、処理をステップS212に移行し、フェイルした場合、処理をステップS224に移行する。
ステップS212において、制御プロセッサCNTLは、テストデータを折り返したマトリックススイッチMSWの番号が変数iの最大値か否かを判定する。テストデータを折り返したマトリックススイッチMSWの番号が変数iの最大値でない場合、マトリックススイッチMSWを使用した第1折り返しテストが完了していないため、処理はステップS214に移行される。テストデータを折り返したマトリックススイッチMSWの番号が変数iの最大値の場合、マトリックススイッチMSWを使用した第1折り返しテストが完了したため、処理はステップS216に移行される。
ステップS214において、制御プロセッサCNTLは、次のマトリックススイッチMSWでテストデータを折り返す第1折り返しテストを実行するために、変数iを”1”増加し、処理をステップS208に移行する。一方、ステップS216において、制御プロセッサCNTLは、図4に示すCPU2を制御し、CPU2でテストデータを折り返す第1折り返しテストを実行する。
次に、ステップS218において、制御プロセッサCNTLは、CPU2でテストデータを折り返す第1折り返しテストのパス/フェイルを判定し、パスした場合、処理をステップS220に移行し、フェイルした場合、処理をステップS222に移行する。ステップS220において、制御プロセッサCNTLは、第1折り返しテストが正常に終了したため、CPU1とCPU2との間に故障がないと判断し、処理をステップS228に移行する。すなわち、図16のステップS102で判定した通信障害は、ノイズ等により一時的に発生したと判定される。ステップS222において、制御プロセッサCNTLは、故障したチャネルにおけるCPU2の通信インタフェース部CH2が故障したと判定し、処理をステップS228に移行する。
一方、ステップS208の第1折り返しテストでフェイルした場合、ステップS224において、制御プロセッサCNTLは、変数iが”1”か否かを判定する。変数iが”1”の場合、処理はステップS226に移行され、変数iが”1”でない場合、処理はステップS300に移行される。ステップS226において、制御プロセッサCNTLは、故障したチャネルにおけるCPU1の通信インタフェース部CH1が故障したと判定し、故障したチャネルの折り返しテストの継続が困難であるため、処理をステップS228に移行する。一方、ステップS300において、制御プロセッサCNTLは、故障個所を特定するための折り返しテストを実行する。ステップS300の処理の例は、図18に示される。
ステップS228において、制御プロセッサCNTLは、故障したチャネルのうち折り返しテストを実行していないチャネルがあるか否かを、変数jを利用して判定する。変数jが最大値の場合、故障した全てのチャネルの折り返しテストが完了したため、処理は終了する。変数jが最大値でない場合、折り返しテストを実行していないチャネルがあるため、処理はステップS230に移行される。ステップS230において、制御プロセッサCNTLは、故障した他のチャネルで折り返しテストを実行するために、変数jを”1”増加し、処理をステップS204に移行する。
図18は、図17に示すステップS300による故障個所を特定する折り返しテストの一例を示す。図18は、故障が検出されたチャネルで実行される複数の折り返しテストのうち、最初にフェイルした後に実行される折り返しテストを示す。最初にフェイルする前の第1折り返しテストは、図17に示すステップS208により実行される。例えば、図6では、テストデータをマトリックススイッチMSW4で折り返す第1折り返しテストまでは、図17に示すステップS208により実行され、それ以降の折り返しテストは、ステップS300により実行される。
まず、ステップS302において、制御プロセッサCNTLは、テストデータを折り返すマトリックススイッチMSWと1つ前のマトリックススイッチMSWとの間の往路を、他のチャネルに迂回させる。以下の説明では、テストデータを折り返すマトリックススイッチMSWは、折り返しスイッチMSWとも称される。次に、ステップS304において、制御プロセッサCNTLは、往路を迂回させた状態でテストデータを折り返しスイッチMSWで折り返す第2折り返しテストを実行する。
次に、ステップS306において、制御プロセッサCNTLは、第2折り返しテストでパスした場合、処理をステップS308に移行し、第2折り返しテストでフェイルした場合、処理をステップS310に移行する。ステップS308において、制御プロセッサCNTLは、往路の迂回により通信エラーが解消されたため、往路の障害を検出し、処理をステップS320に移行する。
ステップS310において、制御プロセッサCNTLは、折り返しスイッチMSWと1つ前のマトリックススイッチMSWとの間の復路を、他のチャネルに迂回させる。次に、ステップS312において、制御プロセッサCNTLは、復路を迂回させた状態でテストデータを折り返しスイッチMSWで折り返す第3折り返しテストを実行する。次に、ステップS314において、制御プロセッサCNTLは、第3折り返しテストでパスした場合、処理をステップS316に移行し、第3折り返しテストでフェイルした場合、処理をステップS318に移行する。
ステップS316において、制御プロセッサCNTLは、復路の迂回により通信エラーが解消されたため、復路の障害を検出し、処理をステップS320に移行する。ステップS318において、制御プロセッサCNTLは、往路の迂回と復路の迂回のいずれによっても通信エラーが解消されないため、往路と復路の両方で障害が発生したことを検出し、処理をステップS320に移行する。
ステップS320において、制御プロセッサCNTLは、これまでに実行した折り返しテストの結果に基づいて、テストデータを伝達する経路を決定する。すなわち、往路と復路の障害の状況に応じて、迂回路が決定される。次に、ステップS322において、制御プロセッサCNTLは、図17に示すステップS212と同様に、テストデータを折り返したマトリックススイッチMSWが最終か否か(マトリックススイッチMSWの番号が最大か否か)を判定する。マトリックススイッチMSWが最終の場合、処理はステップS330に移行され、マトリックススイッチMSWが最終でない場合、処理はステップS324に移行される。
ステップS324において、制御プロセッサCNTLは、折り返しスイッチMSWを、テストデータを出力するCPU1から遠い側に1つずらす。次に、ステップS326において、制御プロセッサCNTLは、テストデータを折り返しスイッチMSWで折り返す第1折り返しテストを実行する。次に、ステップS328において、制御プロセッサCNTLは、第1折り返しテストでパスした場合、次の折り返しスイッチMSWで第1折り返しテストを実行するため、処理をステップS322に移行する。制御プロセッサCNTLは、第1折り返しテストでフェイルした場合、故障個所を特定するため、処理をステップS302に移行する。
一方、ステップS330において、制御プロセッサCNTLは、最終のマトリックススイッチMSWでの折り返しテストが完了したため、テストデータの折り返しを図4に示すCPU2に指示する。次に、ステップS332において、制御プロセッサCNTLは、CPU2でテストデータを折り返す第1折り返しテストを実行する。次に、ステップS334において、制御プロセッサCNTLは、CPU2でテストデータを折り返す折り返しテストのパス/フェイルを判定し、パスした場合、処理を終了し、フェイルした場合、処理をステップS336に移行する。ステップS336において、制御プロセッサCNTLは、故障したチャネルにおけるCPU2の通信インタフェース部CH2が故障したと判定し、処理を終了する。
以上、図4から図18に示す実施形態においても、図1から図3に示す実施形態と同様の効果を得ることができる。すなわち、通信路CP1、CP2および伝送路TPで発生した複数の故障の故障個所をそれぞれ特定することができる。また、通信路CP1、CP2および伝送路TPで発生した複数の故障の故障個所を、保守作業者等を介在させることなく特定することができる。これにより、保守作業者等を介在させて故障個所を特定する場合に比べて、障害を迅速に復旧させることができ、情報処理装置IPE2の信頼性を向上することができる。少なくとも1つのチャネルが正常に動作する場合、他のチャネルの故障個所を特定することができる。
さらに、図4から図18に示す実施形態では、以下の効果を得ることができる。すなわち、2つのマトリックススイッチMSWの間に、マルチプレクサMUX、送信器TXおよび受信器RX等の通信処理部を配置される場合に、通信処理部を含む通信路CP1、CP2の個々の不良を折り返しテストにより検出することができる。
図19は、情報処理装置の別の実施形態を示す。図1および図4で説明した要素と同一または同様の要素については、同一の符号を付し、これ等については、詳細な説明は省略する。この実施形態の情報処理装置IPE3では、制御プロセッサCNTLがLSI1内に設けられる。LSI1およびLSI2のそれぞれは、制御インタフェース部CIFを有する。制御プロセッサCNTLからLSI2のマトリックススイッチMSW4、MSW5、MSW6へのスイッチ制御情報の伝達と、制御プロセッサCNTLとCPU2との間でのテスト制御情報の授受は、制御インタフェース部CIFを介して実行される。情報処理装置IPE3のその他の構成は、図4に示す情報処理装置IPE2の構成と同じである。制御プロセッサCNTLが実行するチャネルにおける通信障害の監視動作および折り返しテストの動作は、図6から図18と同じである。
図19に示す実施形態においても、図1から図18に示す実施形態と同様の効果を得ることができる。さらに、図19に示す実施形態では、制御プロセッサCNTLをLSI1に搭載することで、LSI1が搭載される基板に設けられる配線の数を、図4に比べて削減することができる。また、LSI1およびLSI2にスイッチ制御情報およびテスト制御情報を伝達する制御インタフェース部CIFを搭載することで、LSI2が搭載される基板に設けられる配線の数を、図4に比べて削減することができる。これにより、LSI1およびLSI2に設けられる端子の数を図4に比べて削減することができる。また、LSI1が搭載される基板と、LSI2が搭載される基板との間を接続する配線の数を、図4に比べて削減することができる。すなわち、バックプレーンの配線数および端子数を、図4に比べて削減することができる。
図20は、情報処理装置の別の実施形態を示す。図1および図4で説明した要素と同一または同様の要素については、同一の符号を付し、これ等については、詳細な説明は省略する。この実施形態の情報処理装置IPE4では、LSI1内に設けられる制御プロセッサCNTLは、チャネルを利用して、LSI2のマトリックススイッチMSW4、MSW5、MSW6およびCPU2との間でのスイッチ制御情報およびテスト制御情報を伝達する。図20では、チャネル8を使用して、スイッチ制御情報およびテスト制御情報がLSI2に伝達される。情報処理装置IPE4のその他の構成は、図4に示す情報処理装置IPE2の構成と同じである。制御プロセッサCNTLが実行するチャネルにおける通信障害の監視動作および折り返しテストの動作は、図6から図18と同じである。
チャネル18の端子A18には、通信インタフェース部CH18または制御プロセッサCNTLのいずれかを端子A18に接続するセレクタSELが接続される。制御プロセッサCNTLは、通常モード中、端子A18をセレクタSELを介して通信インタフェース部CH18に接続し、テストモード中に端子A18をセレクタSELを介して制御プロセッサCNTLに接続する。これにより、テストモード中に、マトリックススイッチMSW4、MSW5、MSW6を切り替えるスイッチ制御情報をチャネル18を利用してLSI2に伝達することができ、CPU2にテスト制御情報を伝達することができる。
テストモード中にチャネル18を介して制御プロセッサCNTLからスイッチ制御情報を受けた通信インタフェース部CH28は、制御インタフェース部CIFを介してマトリックススイッチMSW4、MSW5、MSW6にスイッチ制御情報を転送する。あるいは、テストモード中にチャネル18を介して制御プロセッサCNTLからテスト制御情報を受けた通信インタフェース部CH28は、通信インタフェース部CH21−CH28のいずれかにテストデータを折り返す指示を発行する。
なお、複数のチャネルのいずれが故障しても折り返しテストを実施可能にするため、セレクタSELは、マトリックススイッチMSW1の各端子Aに接続されることが好ましい。また、テストモード中に、制御プロセッサCNTLがCPU2からの情報を受信する場合、セレクタSELは、マトリックススイッチMSW1の各端子Bにも接続される。
図20に示す実施形態においても、図1から図18に示す実施形態と同様の効果を得ることができる。さらに、図20に示す実施形態では、以下に示す効果を得ることができる。すなわち、LSI1およびLSI2に設けられる端子の数を、図19に比べて削減することができ、LSI1が搭載される基板に設けられる配線の数およびLSI2が搭載される基板に設けられる配線の数を、図19に比べて削減することができる。また、LSI1が搭載される基板と、LSI2が搭載される基板との間を接続する配線の数を、図19に比べて削減することができる。すなわち、バックプレーンの配線数および端子数を、図19に比べて削減することができる。
以上の図1から図20に示す実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数の第1通信路の各々を介して情報を相互に通信する第1通信部および第2通信部と、前記第1通信部、前記第2通信部または前記複数の第1通信路で発生する障害の検出を制御する検出制御部とを有する情報処理装置において、
前記第1通信部および前記第2通信部の各々は、
前記複数の第1通信路にそれぞれ接続される複数の第2通信路と、
前記複数の第2通信路に跨って設けられ、前記複数の第2通信路のいずれかに伝達される情報の伝達経路を切り替える複数のマトリックススイッチとを備え、
前記検出制御部は、
前記複数の第2通信路のいずれかにおいて通信エラーが検出された場合、
前記複数のマトリックススイッチを、通信エラーが検出された第2通信路に伝達される情報を折り返す折り返し状態に順次切り替えたテストである第1折り返しテストを実行し、
前記第1折り返しテストでエラーが検出された場合、前記複数のマトリックススイッチを、エラーが検出された個所を他の第2通信路に迂回させる迂回状態に切り替えた後、前記第1折り返しテストを継続すること
を特徴とする情報処理装置。
(付記2)
前記検出制御部は、前記第1折り返しテストでエラーが検出された場合、
障害が発生した第2通信路の往路と復路の一方を他の第2通信路に迂回させて第2折り返しテストを実行し、
前記第2折り返しテストによりエラーが検出されない場合に往路と復路の前記一方の異常を検出し、あるいは、前記第2折り返しテストによりエラーが検出された場合に、障害が発生した第2通信路の往路と復路の他方を更に他の第2通信路に迂回させて第3折り返しテストを実行し、
前記第3折り返しテストによりエラーが検出されない場合に往路と復路の前記他方の異常を検出し、あるいは、前記第3折り返しテストによりエラーが検出された場合に往路と復路の両方の異常を検出し、
異常を検出した経路を迂回により避けて、前記第1折り返しテストを継続すること
を特徴とする付記1記載の情報処理装置。
(付記3)
前記検出制御部は、前記第1通信部内に設けられること
を特徴とする付記1または付記2記載の情報処理装置。
(付記4)
前記検出制御部は、前記複数の第2通信路のいずれかを使用して、前記第2通信部の前記複数のマトリックススイッチを制御する制御情報を前記第2通信部に送信すること
を特徴とする付記3記載の情報処理装置。
(付記5)
前記第1通信部および前記第2通信部の各々は、前記複数のマトリックススイッチのうち、互いに隣接する2つのマトリックススイッチの間に配置され、情報の送信処理または受信処理を実行する通信処理部を備えること
を特徴とする付記1ないし付記4のいずれか1項記載の情報処理装置。
(付記6)
前記第1通信部および前記第2通信部は、前記複数の第2通信路に情報を送信するとともに、前記複数の第2通信路から情報を受信する通信制御部を備え、
前記検出制御部は、前記複数の第2通信路のいずれかにおいて通信エラーが検出された場合、前記通信制御部の一方に、テストデータを出力させ、前記複数のマトリックススイッチのいずれかから折り返されるテストデータに基づいて前記第1折り返しテストのエラーを検出させること
を特徴とする付記1ないし付記5のいずれか1項記載の情報処理装置。
(付記7)
前記第1通信部および前記第2通信部の各々は、ラックに搭載される基板に搭載され、
前記複数の第1通信路は、前記ラックに設けられ、前記基板が接続されるバックプレーンに含まれること
を特徴とする付記1ないし付記6のいずれか1項記載の情報処理装置。
(付記8)
複数の第1通信路の各々を介して情報を相互に通信する第1通信部および第2通信部を備え、前記第1通信部および前記第2通信部の各々が、前記複数の第1通信路にそれぞれ接続される複数の第2通信路と、前記複数の第2通信路に跨って設けられ、前記複数の第2通信路のいずれかに伝達される情報の伝達経路を切り替える複数のマトリックススイッチとを備える情報処理装置の障害検出方法において、
前記情報処理装置が有する検出制御部が、
前記複数の第2通信路のいずれかにおいて通信エラーが検出された場合、
前記複数のマトリックススイッチを、通信エラーが検出された第2通信路に伝達される情報を折り返す折り返し状態に順次切り替えたテストである第1折り返しテストを実行し、
前記第1折り返しテストでエラーが検出された場合、前記複数のマトリックススイッチを、エラーが検出された個所を他の第2通信路に迂回させる迂回状態に切り替えた後、前記第1折り返しテストを継続することで、前記第1通信部、前記第2通信部または前記複数の第1通信路で発生した障害を検出すること
を特徴とする情報処理装置の障害検出方法。
以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。
CH1、CH2…通信インターフェース部;CIF…制御インタフェース部CNTL…制御プロセッサ;CP1、CP2…通信路;DEMUX…デマルチプレクサ;IPE1、IPE2、IPE3、IPE4…情報処理装置;LSI1、LSI2…半導体装置;MSW(MSW1−MSW6)…マトリックススイッチ;MUX…マルチプレクサ;RX…受信器;SCNT…スイッチ制御情報;SEL…セレクタ;TCNT…テスト制御情報;TP…伝送路;TX…送信器

Claims (5)

  1. 複数の第1通信路の各々を介して情報を相互に通信する第1通信部および第2通信部と、前記第1通信部、前記第2通信部または前記複数の第1通信路で発生する障害の検出を制御する検出制御部とを有する情報処理装置において、
    前記第1通信部および前記第2通信部の各々は、
    前記複数の第1通信路にそれぞれ接続される複数の第2通信路と、
    前記複数の第2通信路に跨って設けられ、前記複数の第2通信路のいずれかに伝達される情報の伝達経路を切り替える複数のマトリックススイッチとを備え、
    前記検出制御部は、
    前記複数の第2通信路のいずれかにおいて通信エラーが検出された場合、
    前記複数のマトリックススイッチを、通信エラーが検出された第2通信路に伝達される情報を折り返す折り返し状態に順次切り替えたテストである第1折り返しテストを実行し、
    前記第1折り返しテストでエラーが検出された場合、
    障害が発生した第2通信路の往路と復路の一方を他の第2通信路に迂回させて第2折り返しテストを実行し、
    前記第2折り返しテストによりエラーが検出されない場合に往路と復路の前記一方の異常を検出し、あるいは、前記第2折り返しテストによりエラーが検出された場合に、障害が発生した第2通信路の往路と復路の他方を更に他の第2通信路に迂回させて第3折り返しテストを実行し、
    前記第3折り返しテストによりエラーが検出されない場合に往路と復路の前記他方の異常を検出し、あるいは、前記第3折り返しテストによりエラーが検出された場合に往路と復路の両方の異常を検出し、
    異常を検出した経路を迂回により避けて、前記第1折り返しテストを継続すること
    を特徴とする情報処理装置。
  2. 前記検出制御部は、前記第1通信部内に設けられること
    を特徴とする請求項1記載の情報処理装置。
  3. 前記検出制御部は、前記複数の第2通信路のいずれかを使用して、前記第2通信部の前記複数のマトリックススイッチを制御する制御情報を前記第2通信部に送信すること
    を特徴とする請求項2記載の情報処理装置。
  4. 前記第1通信部および前記第2通信部の各々は、前記複数のマトリックススイッチのうち、互いに隣接する2つのマトリックススイッチの間に配置され、情報の送信処理または受信処理を実行する通信処理部を備えること
    を特徴とする請求項1ないし請求項3のいずれか1項記載の情報処理装置。
  5. 複数の第1通信路の各々を介して情報を相互に通信する第1通信部および第2通信部を備え、前記第1通信部および前記第2通信部の各々が、前記複数の第1通信路にそれぞれ接続される複数の第2通信路と、前記複数の第2通信路に跨って設けられ、前記複数の第2通信路のいずれかに伝達される情報の伝達経路を切り替える複数のマトリックススイッチとを備える情報処理装置の障害検出方法において、
    前記情報処理装置が有する検出制御部が、
    前記複数の第2通信路のいずれかにおいて通信エラーが検出された場合、
    前記複数のマトリックススイッチを、通信エラーが検出された第2通信路に伝達される情報を折り返す折り返し状態に順次切り替えたテストである第1折り返しテストを実行し、
    前記第1折り返しテストでエラーが検出された場合、
    障害が発生した第2通信路の往路と復路の一方を他の第2通信路に迂回させて第2折り返しテストを実行し、
    前記第2折り返しテストによりエラーが検出されない場合に往路と復路の前記一方の異常を検出し、あるいは、前記第2折り返しテストによりエラーが検出された場合に、障害が発生した第2通信路の往路と復路の他方を更に他の第2通信路に迂回させて第3折り返しテストを実行し、
    前記第3折り返しテストによりエラーが検出されない場合に往路と復路の前記他方の異常を検出し、あるいは、前記第3折り返しテストによりエラーが検出された場合に往路と復路の両方の異常を検出し、
    異常を検出した経路を迂回により避けて、前記第1折り返しテストを継続することで、前記第1通信部、前記第2通信部または前記複数の第1通信路で発生した障害を検出すること
    を特徴とする情報処理装置の障害検出方法。
JP2016222987A 2016-11-16 2016-11-16 情報処理装置および情報処理装置の障害検出方法 Active JP6859672B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016222987A JP6859672B2 (ja) 2016-11-16 2016-11-16 情報処理装置および情報処理装置の障害検出方法
US15/792,868 US10409686B2 (en) 2016-11-16 2017-10-25 Apparatus and method to determine plural locations in communication circuits at which failures have occurred

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016222987A JP6859672B2 (ja) 2016-11-16 2016-11-16 情報処理装置および情報処理装置の障害検出方法

Publications (2)

Publication Number Publication Date
JP2018082301A JP2018082301A (ja) 2018-05-24
JP6859672B2 true JP6859672B2 (ja) 2021-04-14

Family

ID=62108531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016222987A Active JP6859672B2 (ja) 2016-11-16 2016-11-16 情報処理装置および情報処理装置の障害検出方法

Country Status (2)

Country Link
US (1) US10409686B2 (ja)
JP (1) JP6859672B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6885237B2 (ja) * 2017-07-11 2021-06-09 富士通株式会社 ノード間通信装置、並列処理装置及びノード間通信経路制御方法
JP6649416B2 (ja) * 2018-02-02 2020-02-19 ファナック株式会社 障害分類装置、障害分類方法及び障害分類プログラム
JP6705845B2 (ja) 2018-02-08 2020-06-03 ファナック株式会社 障害部位特定装置、障害部位特定方法及び障害部位特定プログラム
US11091169B2 (en) * 2018-03-23 2021-08-17 Infineon Technologies Ag Advanced driver assistance systems test-interface for automated driving sensors

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4394541A (en) * 1981-01-02 1983-07-19 Seiden Lewis J Three stage minimum configuration conditionally non-blocking matrix
US4725835A (en) * 1985-09-13 1988-02-16 T-Bar Incorporated Time multiplexed bus matrix switching system
US4975909A (en) * 1988-10-14 1990-12-04 Compunetics, Inc. Broadcast network
US5287491A (en) * 1989-04-10 1994-02-15 International Business Machines Corporation Network rearrangement method and system
US5321813A (en) * 1991-05-01 1994-06-14 Teradata Corporation Reconfigurable, fault tolerant, multistage interconnect network and protocol
JP2820005B2 (ja) 1992-11-04 1998-11-05 日本電気株式会社 クロスコネクト方式
US7388872B2 (en) * 2001-04-06 2008-06-17 Montgomery Jr Charles D Dynamic communication channel allocation method and system

Also Published As

Publication number Publication date
US10409686B2 (en) 2019-09-10
JP2018082301A (ja) 2018-05-24
US20180137008A1 (en) 2018-05-17

Similar Documents

Publication Publication Date Title
JP6859672B2 (ja) 情報処理装置および情報処理装置の障害検出方法
EP3104277B1 (en) Mixed redundancy scheme for inter-die interconnects in a multichip package
US20080074998A1 (en) Self-healing chip-to-chip interface
CN1667579A (zh) 定制和监视多个接口并实现容错和隔离功能的装置和方法
JP3574425B2 (ja) 耐多重障害ネットワーク構造を利用したパケット処理方法
US7073088B2 (en) Data bus arrangement and control method for efficiently compensating for faulty signal lines
JP3588936B2 (ja) フレキシブル高速多重化リモート入出力システム
JP4024607B2 (ja) 光クロスコネクト装置
US7170908B2 (en) System and method of selecting sources for a network element having redundant sources
US11411861B2 (en) Routing messages in an integrated circuit chip device using a crosslinked tree structure
JP6052150B2 (ja) 中継装置
JP7208060B2 (ja) 情報処理プログラム、情報処理装置、および、情報処理方法
US7187674B2 (en) Method and apparatus for using adaptive switches for providing connections to point-to-point interconnection fabrics
JP2006135723A (ja) 情報中継装置、情報中継方法、プログラム、情報通信システム
JP3616306B2 (ja) 半導体集積回路
JP2006197095A (ja) 光クロスコネクトおよびこれを用いた光ネットワーク経路監視システム
JPH0213095A (ja) データ経路検査装置及び方法
JP2518514B2 (ja) 自動障害検出システム
JPH10243008A (ja) 多重化伝送装置
KR0140302B1 (ko) 전전자 교환기의 패킷 통합시험장치 및 방법
JP2003032284A (ja) パケット交換装置
CN115047789A (zh) 机台感测电路板及其运作方法
US20050027856A1 (en) Signaling method for line terminal equipment health and status
JP2019021957A (ja) ノード間通信装置、並列処理装置及びノード間通信経路制御方法
SU928335A1 (ru) Устройство дл отключени внешних устройств от линий св зи,соедин ющих внешние устройства с ЦВМ

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20170803

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20170803

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170804

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180219

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20180219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200811

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210309

R150 Certificate of patent or registration of utility model

Ref document number: 6859672

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150