JP2020065144A - 並列処理装置および光ファイバーケーブルの交換方法 - Google Patents

並列処理装置および光ファイバーケーブルの交換方法 Download PDF

Info

Publication number
JP2020065144A
JP2020065144A JP2018195338A JP2018195338A JP2020065144A JP 2020065144 A JP2020065144 A JP 2020065144A JP 2018195338 A JP2018195338 A JP 2018195338A JP 2018195338 A JP2018195338 A JP 2018195338A JP 2020065144 A JP2020065144 A JP 2020065144A
Authority
JP
Japan
Prior art keywords
optical fiber
fiber cable
information processing
processing device
aoc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018195338A
Other languages
English (en)
Other versions
JP7035950B2 (ja
Inventor
淳司 三木
Junji Miki
淳司 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018195338A priority Critical patent/JP7035950B2/ja
Priority to US16/589,580 priority patent/US10771150B2/en
Publication of JP2020065144A publication Critical patent/JP2020065144A/ja
Application granted granted Critical
Publication of JP7035950B2 publication Critical patent/JP7035950B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B10/00Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
    • H04B10/03Arrangements for fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B10/00Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
    • H04B10/07Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B10/00Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
    • H04B10/07Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems
    • H04B10/075Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems using an in-service signal
    • H04B10/079Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems using an in-service signal using measurements of the data signal
    • H04B10/0791Fault location on the transmission path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B10/00Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
    • H04B10/07Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems
    • H04B10/075Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems using an in-service signal
    • H04B10/079Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems using an in-service signal using measurements of the data signal
    • H04B10/0795Performance monitoring; Measurement of transmission parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B10/00Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
    • H04B10/80Optical aspects relating to the use of optical transmission for specific applications, not provided for in groups H04B10/03 - H04B10/70, e.g. optical power feeding or optical transmission through water
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q11/0066Provisions for optical burst or packet networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q2011/0079Operation or maintenance aspects
    • H04Q2011/0081Fault tolerance; Redundancy; Recovery; Reconfigurability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q2011/0086Network resource allocation, dimensioning or optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)
  • Testing Of Optical Devices Or Fibers (AREA)
  • Light Guides In General And Applications Therefor (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Optical Communication System (AREA)

Abstract

【課題】光ファイバーケーブルの保守作業の効率を向上する。【解決手段】並列処理装置は、複数のチャネルを有する光ファイバーケーブルを介して接続された情報処理装置のペアを有する。各情報処理装置は、光ファイバーケーブルの所定数のチャネルがそれぞれに割り当てられた複数の演算処理部と制御部と表示部とを有する。各演算処理部は、チャネル故障を検出した場合、他の情報処理装置の演算処理部にチャネル故障を通知するとともに、自情報処理装置の制御部にチャネル故障を通知し、他の情報処理装置からのチャネル故障の通知を自情報処理装置の制御部に通知する。制御部は、チャネル故障の通知の受信に基づいて、自情報処理装置の演算処理部に故障した光ファイバーケーブルの使用を停止させ、故障した光ファイバーケーブルに対応する表示部を、光ファイバーケーブルによる通信が停止したことを示す停止表示状態に設定する。【選択図】図1

Description

本発明は、並列処理装置および光ファイバーケーブルの交換方法に関する。
近年、情報処理装置等のコンピュータ間で送受信される情報の伝送容量の増大とともに情報の伝送速度が向上しており、コンピュータ間を光ファイバーケーブルで接続して情報を相互に通信する手法が主流となりつつある。この種のコンピュータシステムでは、信頼性の低下を抑止するために、コンピュータ間での通信の停止期間を短縮するための様々な工夫がなされている。
例えば、光伝送路を介して互いに通信する複数の情報処理装置の各々に、光伝送路に接続された複数のインタフェース回路を設けることで、インタフェース回路のいずれかが故障した場合にも、通信は停止することなく継続される(例えば、特許文献1参照)。
また、複数の伝送路を介して互いに接続されるサーバとストレージとのインタフェース部のいずれかが故障した場合、管理装置は、故障箇所に接続された伝送路を使用した通信を故障箇所が復旧するまで停止させる(例えば、特許文献2参照)。
複数のケーブルがそれぞれ接続される複数のポートを有するネットワーク装置において、ポートのいずれかの障害が検出された場合、障害が検出されたポートに接続されたケーブルがアンロック状態にされ、障害が検出されたポートに対応する点灯部が点灯される。これにより、障害を復旧するためのケーブルの交換作業時にケーブルが誤って挿抜されることが抑止される(例えば、特許文献3参照)。
特開2014−183482号公報 特開2004−88570号公報 特開2012−74841号公報
例えば、複数のCPU(Central Processing Unit)を各々含む複数の情報処理装置を有する並列処理装置では、複数の情報処理装置は、光ファイバーケーブル等を介して相互に接続され、処理を並列に実行する。この種の並列処理装置では、情報処理装置の数が多いほど、すなわち、システムの規模が大きいほど、情報処理装置間を接続する光ファイバーケーブルの本数が多くなる。これに伴い、故障した光ファイバーケーブルを交換する保守作業において、交換する光ファイバーケーブルを探すことが困難になり、また、接続の間違い等が発生する可能性が増大する。その結果、光ファイバーケーブルの交換に掛かる作業時間が増大するおそれがある。
また、光ファイバーケーブルを共有し、所定数のチャネルが割り当てられた複数のCPUを含む情報処理装置において、チャネルのいずれかが故障した場合、光ファイバーケーブルの交換は、複数のCPUが処理を停止した後に行われる。CPUの処理の停止は、情報処理装置毎に実行される。このため、交換する光ファイバーケーブルを使用する全てのCPUの処理が停止したことの確認は、並列処理装置を管理する管理装置を操作するシステム管理者等により行われ、システム管理者から光ファイバーケーブルの交換が指示される。
1つの側面では、本発明は、光ファイバーケーブルの保守作業の効率を向上することを目的とする。
一つの観点によれば、複数のチャネルを有する光ファイバーケーブルを介して接続された所定数の情報処理装置のペアを有する並列処理装置において、前記各情報処理装置は、前記光ファイバーケーブルを共有し、所定数のチャネルがそれぞれに割り当てられた複数の演算処理部と、自情報処理装置を制御する制御部と、前記光ファイバーケーブルに対応して設けられる表示部と、を有し、前記複数の演算処理部の各々は、チャネルの故障であるチャネル故障を検出した場合、故障していないチャネルを使用して他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知するとともに、自情報処理装置の前記制御部に前記チャネル故障を通知し、他の情報処理装置から前記チャネル故障の通知を受信した場合、自情報処理装置の前記制御部に前記チャネル故障を通知し、前記各情報処理装置の前記制御部は、前記チャネル故障の通知の受信に基づいて、故障したチャネルを含む故障光ファイバーケーブルを使用している自情報処理装置の演算処理部を検出し、検出した演算処理部に故障光ファイバーケーブルの使用を停止させ、前記検出した演算処理部による故障光ファイバーケーブルの使用の停止に基づいて、故障光ファイバーケーブルに対応する前記表示部を、故障光ファイバーケーブルによる通信が停止したことを示す停止表示状態に設定する。
別の観点によれば、並列処理装置に含まれる所定数の情報処理装置のペア間に接続された複数のチャネルを有する光ファイバーケーブルの交換方法であって、前記各情報処理装置は、前記光ファイバーケーブルを共有し、所定数のチャネルがそれぞれに割り当てられた複数の演算処理部と、自情報処理装置を制御する制御部と、前記光ファイバーケーブルに対応して設けられる表示部と、を有し、前記複数の演算処理部の各々は、チャネルの故障であるチャネル故障を検出した場合、故障していないチャネルを使用して他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知するとともに、自情報処理装置の前記制御部に前記チャネル故障を通知し、他の情報処理装置から前記チャネル故障の通知を受信した場合、自情報処理装置の前記制御部に前記チャネル故障を通知する機能を有し、前記各情報処理装置の前記制御部は、前記チャネル故障の通知の受信に基づいて、故障したチャネルを含む故障光ファイバーケーブルを使用している自情報処理装置の演算処理部を検出し、検出した演算処理部に故障光ファイバーケーブルの使用を停止させ、前記検出した演算処理部による故障光ファイバーケーブルの使用の停止に基づいて、故障光ファイバーケーブルに対応する前記表示部を、故障光ファイバーケーブルによる通信が停止したことを示す停止表示状態に設定する機能を有し、前記情報処理装置のペアの一方の前記表示部が前記停止表示状態に設定されたかを確認し、前記情報処理装置のペアの他方の前記表示部が前記停止表示状態に設定されたかを確認し、前記情報処理装置のペアの一方と他方の前記表示部が、ともに前記停止表示状態に設定されたことに基づいて、前記光ファイバーケーブルを交換する。
1つの側面では、本発明は、光ファイバーケーブルの保守作業の効率を向上することができる。
一実施形態における並列処理装置の一例を示す図である。 図1のCPUと光ファイバーケーブルとの接続の一例を示す図である。 図1のシステムボードが有するCPUおよびコントローラの機能部の一例を示す図である。 図1の並列処理装置の動作の一例を示す図である。 図1の並列処理装置の動作の別の例を示す図である。 図1のCPUの動作の一例を示す図である。 図6の動作の続きを示す図である。 図1のコントローラの動作の一例を示す図である。 図1のコントローラの別の動作の一例を示す図である。 図1のCPUの別の動作の一例を示す図である。 図1の並列処理装置の動作の一例を示す図である。 他の並列処理装置の動作の一例を示す図である。 他の並列処理装置の動作の別の例を示す図である。 別の実施形態における並列処理装置の一例を示す図である。 別の実施形態における並列処理装置の一例を示す図である。
以下、図面を用いて実施形態を説明する。
図1は、一実施形態における並列処理装置の一例を示す。
図1に示す並列処理装置100は、複数のチャネルを有する光ファイバーケーブル10を介して互いに接続されたシステムボード20、30のペアを有する。なお、並列処理装置100は、複数ペアのシステムボード20、30を有してもよい。システムボード20は、複数のCPU22(22a、22b)、コントローラ24、表示部26およびコネクタ28を有する。システムボード30は、複数のCPU32(32a、32b)、コントローラ34、表示部36およびコネクタ38を有する。そして、システムボード20、30は、コネクタ28、38に接続される光ファイバーケーブル10により互いに接続される。
各システムボード20、30は、ネットワーク60等を介して、並列処理装置100の全体を管理する管理サーバ等の管理装置50に接続される。CPU22a、22b、32a、32bの各々は、演算処理部の一例であり、コントローラ24、34は、制御部の一例である。以下では、CPU22、32の区別が不要な場合、CPU22、32は、単にCPUと称される場合がある。
なお、各システムボード20、30に含まれるCPUの数は、2つより多くてもよい。例えば、システムボード20、30が4つのCPUをそれぞれ有する場合、システムボード20、30は、2本の光ファイバーケーブル10により接続される。各光ファイバーケーブル10には、システムボード20の2つのCPU22と、システムボード30の2つのCPU32とが接続される。
システムボード20、30は、情報処理装置の一例であり、ラックまたは筐体に収納される。ラックまたは筐体には、複数のシステムボード20、30が収納されてもよい。また、システムボード20、30の各々は、図示した要素以外にも、主記憶メモリおよび通信インタフェース部等を有してもよい。
例えば、CPUは、ジョブを並列に実行可能である。また、CPUは、図示しない他のCPUとともにジョブを並列に実行してもよい。すなわち、並列処理装置100は、複数のCPUを使用して処理を並列に実行する。なお、システムボード20、30の各々に通信インタフェース部が配置される代わりに、CPUの各々が通信インタフェース部を含んでもよい。CPUは、光ファイバーケーブル10を共有し、光ファイバーケーブル10の所定数のチャネルがそれぞれに割り当てられる。特に限定されないが、光ファイバーケーブル10は、8つのチャネルを有するAOC(Active Optical Cable)である。以下では、光ファイバーケーブル10は、AOC10とも称される。
コントローラ24は、CPU22a、22bの動作を制御するとともに、表示部26の表示を制御する。例えば、コントローラ24は、CPU22の一方からチャネルの故障を示すチャネル故障の通知を受信した場合であって、CPU22の他方がAOC10を介して通信している場合、CPU22の他方にAOC10を使用した通信を停止させる。また、コントローラ24は、CPU22の動作状態などのシステムボード20内の状態を示す情報を管理装置50に出力する。
同様に、コントローラ34は、CPU32a、32bの動作を制御するとともに、表示部36の表示を制御する。例えば、コントローラ34は、CPU32の一方からチャネルの故障を示すチャネル故障の通知を受信した場合であって、CPU32の他方がAOC10を介して通信している場合、CPU32の他方にAOC10を使用した通信を停止させる。また、コントローラ34は、CPU32の動作状態などのシステムボード30内の状態を示す情報を管理装置50に出力する。
表示部26(36)は、例えば、LED(Light Emitting Diode)を含み、コントローラ24(34)の制御により、点灯状態、消灯状態または点滅状態に設定される。表示部26(36)は、AOC10に対応して設けられる。例えば、システムボード20が、4つのCPU22を有し、2本のAOC10に接続される場合、システムボード20は、AOC10毎に表示部26を有する。同様に、システムボード30が4つのCPU32を有し、2本のAOC10に接続される場合、システムボード30は、AOC10毎に表示部36を有する。以下では、表示部26、36は、LED26、36と称される。なお、表示部26、36は、LEDの代わりに電球等のランプを含んでもよく、他の発光体を含んでもよい。
なお、図1では、LED26とコネクタ28とが互いに離れ、LED36とコネクタ38とが互いに離れている。しかしながら、実際には、LED26とコネクタ28とはシステムボード20上の互いに隣接する位置に配置され、LED28とコネクタ38とはシステムボード30上の互いに隣接する位置に配置される。これにより、後述するように、保守作業者は、LED26、36がどのAOC10に対応するのかを一目で判断することができ、AOC10の抜き間違いや差し間違いの発生を抑止することができる。
また、CPU22、32の各々が複数のAOC10を介して複数のシステムボードに接続される場合、CPU22、32の各々に対応する通信インタフェース部は、ルータを有してもよい。これにより、各CPU22、32をノードとする計算機ネットワーク(インターコネクト)が構築可能である。なお、インターコネクトは、AOC10と電気ケーブルとを併用して構築されてもよい。この場合、相対的に通信距離が大きいノード間は、AOC10を使用して接続され、相対的に通信距離が短いノード間は、電気ケーブルを使用して接続されることが好ましい。
図2は、図1のCPU22、32とAOC10との接続の一例を示す。例えば、AOC10は、8本の心線(光ファイバー)を含む光ケーブル10aと、光ケーブル10aの両端にそれぞれ取り付けられたコネクタ部10b、10cとを有する。コネクタ部10bは、システムボード20に取り付けられたコネクタ28に着脱自在に接続され、コネクタ部10cは、システムボード30に取り付けられたコネクタ38に着脱自在に接続される。光ケーブル10aは、8本の心線毎にチャネルCH(CHa1−CHa4、CHb1−CHb4)が割り当てられる。以下では、チャネルCHが割り当てられた心線は、チャネルCHとも称される。図2では、実線の矢印により心線が示され、破線の矢印により電気配線が示される。
チャネルCHa1、CHa2は、CPU22aが送信してCPU32aが受信する信号の伝送に使用され、チャネルCHa3、CHa4は、CPU32aが送信してCPU22aが受信する信号の伝送に使用される。チャネルCHb1、CHb2は、CPU22bが送信してCPU32bが受信する信号の伝送に使用され、チャネルCHb3、CHb4は、CPU32bが送信してCPU22bが受信する信号の伝送に使用される。
特に限定されないが、例えば、CPU22aは、チャネルCHa1、CHa2が正常の場合、パケットを分割し(ストライピング)、分割したパケットをチャネルCHa1、CHa2を使用して並列に送信する。これにより、1つのチャネルCHを使用する場合に比べて、パケットの伝送レートを向上することができる。チャネルCHa1、CHa2を介して分割されたパケットを受信したCPU32aは、分割されたパケットを元のパケットに統合する。一方、CPU22aは、チャネルCHa1、CHa2の一方が故障している場合、チャネルCHa1、CHa2の他方を使用してパケットを伝送する。
他のCPU22b、32a、32bも、CPU22aと同様に、パケットを送信し、他のCPU22a、22b、32bも、CPU32aと同様に、パケットを受信する。これにより、一対のチャネルCHが正常の場合には伝送レートを向上することができ、一対のチャネルCHの一方が故障した場合には、チャネルCHの他方を使用してパケットの伝送を維持することができる。このように、一対のチャネルCHの各々は、冗長のチャネルCHとしても使用される。
なお、冗長に使用する心線の数は、2本より多くてもよい。また、AOC10の心線の数(すなわち、チャネル数)は、8本より多くてもよい。例えば、CPU22a、32a間を4本の心線(送信チャネル)と4本の心線(受信チャネル)とで接続してもよい。この場合、AOC10は、16本の心線を有し、CPU22a、32a間の通信と、CPU22b、32b間の通信とに共有される。
コネクタ部10bは、CPU22aからの電気信号を光信号に変換してチャネルCHa1、CHa2が割り当てられた光ケーブル10aの心線に出力する電気/光変換部(E to O)を有する。コネクタ部10bは、チャネルCHa3、CHa4が割り当てられた光ケーブル10aの心線を介してCPU32aから受信する光信号を電気信号に変換してCPU22aに出力する光/電気変換部(O to E)を有する。
また、コネクタ部10bは、CPU22bからの電気信号を光信号に変換してチャネルCHb1、CHb2が割り当てられた光ケーブル10aの心線に出力する電気/光変換部(E to O)を有する。コネクタ部10bは、チャネルCHb3、CHb4が割り当てられた光ケーブル10aの心線を介してCPU32bから受信する光信号を電気信号に変換してCPU22bに出力する光/電気変換部(O to E)を有する。
コネクタ部10bと同様に、コネクタ部10cは、チャネルCHa1、CHa2に対応する光/電気変換部(O to E)と、チャネルCHa3、CHa4に対応する電気/光変換部(E to O)とを有する。また、コネクタ部10cは、チャネルCHb1、CHb2に対応する光/電気変換部(O to E)と、チャネルCHb3、CHb4に対応する電気/光変換部(E to O)とを有する。
例えば、コネクタ部10b、10cは、光ケーブル10aの両端にそれぞれ固着されている。このため、コネクタ部10b、10cの電気/光変換部または光/電気変換部のいずれかが故障した場合、光ケーブル10aとコネクタ部10b、10cとを含むAOC10全体が交換される。なお、コネクタ部10b、10cの各々と光ケーブル10aとが着脱自在に接続される光ファイバーケーブルが、システムボード20、30との接続に使用されてもよい。また、チャネルCHは、心線だけでなく、心線に接続された電気/光変換部および光/電気変換部の電気配線にも割り当てられる。このため、チャネルCHの故障は、芯線の断線等の不具合だけでなく、電気/光変換部または光/電気変換部の故障によっても発生する。
図3は、図1のシステムボード20が有するCPU22a、22bおよびコントローラ24の機能部の一例を示す。CPU22a、22bの各々は、通知部42、44を有する。コントローラ24は、検出制御部52、停止制御部54および表示制御部56を有する。
通知部42は、自CPU22に割り当てられた4つのチャネルCHのいずれかの故障であるチャネル故障を検出した場合、故障していない送信側のチャネルCHを使用して、通信先のCPU32にチャネル故障を通知するパケットを送信する。また、通知部42は、チャネル故障を検出した場合、コントローラ24にチャネル故障を通知する。
通知部44は、通信相手のCPU32からチャネル故障の通知を示すパケットを受信した場合、自システムボード20のコントローラ24にチャネル故障を通知する。
検出制御部52は、CPU22からのチャネル故障の通知の受信に基づいて、CPU22の状態をモニタし、CPU22が、故障したチャネルCHを含むAOC10を介して通信しているか否かを検出する。
停止制御部54は、AOC10を介して通信しているCPU22が検出制御部52により検出された場合、検出されたCPU22にAOC10を使用した通信を停止させる停止指示を出力する。例えば、停止指示は、検出されたCPU22にジョブの実行を停止させる指示である。停止指示を受信したCPU22は、実行中のジョブを停止することで、AOC10を使用した通信を停止し、通信を停止したことをコントローラ24に通知する。なお、チャネル故障を通知したCPU22が、チャネル故障の検出に基づいて実行中のジョブを自ら停止する場合、停止制御部54は、チャネル故障の通知を受信していない他のCPU22のみにジョブの実行を停止させる停止指示を出力してもよい。
表示制御部56は、停止指示を出力したCPU22からの通信を停止したこと示す通知に基づいて、故障したチャネルCHを含むAOC10に対応するLED26を、AOC10が交換可能であることを示す表示状態に設定する。例えば、LED26が、AOC10が正常に動作可能なときに点灯状態に設定される緑色の場合、AOC10が交換可能であることを示す表示状態は、消灯状態である。一方、LED26が、AOC10に何らかの異常があるときに点灯状態に設定される赤色の場合、AOC10が交換可能であることを示す表示状態は、点灯状態である。
例えば、通知部42、44の機能は、CPU22が実行する制御プログラムにより実現される。例えば、検出制御部52、停止制御部54および表示制御部56の機能は、コントローラ24が有するCPU等のプロセッサが実行する制御プログラムにより実現される。なお、通知部42、44の機能は、ハードウェア(論理回路)により実現されてもよく、検出制御部52、停止制御部54および表示制御部56の機能は、ハードウェア(論理回路)により実現されてもよい。
なお、図1のシステムボード30が有するCPU32およびコントローラ34の機能部の構成および機能も図3と同様である。CPU32およびコントローラ34の機能部は、上述の説明のCPU22をCPU32に、CPU32をCPU22に、コントローラ24をコントローラ34に、LED26をLED36に、システムボード20をシステムボード30に読み替えることで説明される。
図4は、図1の並列処理装置100の動作の一例を示す。CPU22a、22b、32a、32bにおいて、白い矩形は、AOC10を使用するジョブが実行されていることを示す。LED26、36において、白い矩形は点灯状態を示し、黒い矩形は消灯状態を示す。LED26、36は、例えば、点灯状態において緑色の光を出射する。
例えば、CPU22aは、チャネルCHa1、CHa2、CHa3、CHa4を使用してCPU32aとともに並列にジョブを実行中に、チャネルCHa3の故障を検出する(図4(a))。CPU22aは、ジョブを停止し、正常に動作するチャネルCHa1、CHa2の少なくとも一方を用いて、CPU32aにチャネル故障を通知する(図4(b)、(c))。また、CPU22aは、コントローラ24にチャネル故障を通知する(図4(d))。
コントローラ24は、故障の通知に基づいて、AOC10を介して通信しているCPU22があるか否かを検出する(図4(e))。コントローラ24は、CPU22bがAOC10を介して通信していることを検出した場合、ジョブの実行を停止させる停止指示をCPU22bに出力する(図4(f))。コントローラ24は、CPU22bからジョブを停止したことを示す停止通知を受信したことに基づいて、LED26を消灯する(図4(g)、(h))。
なお、コントローラ24は、AOC10を使用した通信をCPU22bが実行していないことを検出した場合、LED26を消灯する。LED26の消灯は、システムボード20上の全てのCPU22がAOC10を使用した通信を実行していないことを示す。
例えば、システムボード20が、AOC10を共有する3以上のCPU22を有する場合、コントローラ24は、チャネル故障を検出したCPU22aの除く他の全てのCPU22がAOC10を介して通信しているか否かを検出する。そして、コントローラ24は、AOC10を介して通信している全てのCPU22がジョブを停止したことに基づいて、LED26を消灯させる。
一方、CPU22aからチャネル故障の通知を受信したCPU32aは、ジョブを停止し、コントローラ34にチャネル故障を通知する(図4(i)、(j))。コントローラ34は、故障の通知に基づいて、AOC10を介して通信しているCPU32があるか否かを検出する(図4(k))。コントローラ34は、CPU32bがAOC10を介して通信していることを検出した場合、ジョブの実行を停止させる停止指示をCPU32bに出力する(図4(l))。コントローラ34は、CPU22bからジョブを停止したことを示す停止通知を受信したことに基づいて、LED36を消灯する(図4(m)、(n))。
なお、コントローラ34は、AOC10を使用した通信をCPU32bが実行していないことを検出した場合、LED36を消灯する。LED36の消灯は、システムボード30上の全てのCPU32がAOC10を使用した通信を実行していないことを示す。ジョブが停止したことに基づくLED26、36の各々の消灯状態は、故障したAOC10による通信が停止したことを示す停止表示状態の一例である。
例えば、並列処理装置100の各種保守を行う保守作業者は、AOC10により接続されたシステムボード20、30のLED26、36の両方が消灯された場合、AOC10を使用した通信が実行されていないため、AOC10の交換が可能であると判断する。そして、保守作業者は、故障したチャネルCHを含むAOC10を新たなAOC10に交換する交換作業を実施する(図4(o))。AOC10の交換した後のコントローラ24、34およびCPU22、32の動作は、図9および図10に示される。なお、故障したチャネルCHを含むAOC10は、正常なチャネルCHを含むが、以下の説明では、故障したAOC10とも称される。
なお、コントローラ24は、CPU22からチャネル故障の通知を受信した場合、管理装置50にチャネル故障を通知する。コントローラ34は、CPU32からチャネル故障の通知を受信した場合、管理装置50にチャネル故障を通知する。管理装置50は、チャネル故障の通知の受信に基づいて、管理装置50の設けられる表示装置の画面に、例えば、チャネル故障が発生したシステムボード20(または30)とチャネル故障が発生したAOC10とを示す情報を表示する。すなわち、表示装置の画面には、AOC10を使用した通信で異常が発生したことを示す情報が表示される。
例えば、並列処理装置100の運用を管理するシステム管理者は、管理装置50の表示装置の画面に表示される情報に基づいて、保守作業者にAOC10の故障を連絡する。なお、保守作業者は、管理者からの連絡によりAOC10の故障を認識してもよく、他の手段によりAOC10の故障を認識してもよい。例えば、保守作業者が並列処理装置100の近くにいる場合、保守作業者は、LED26、36が両方消灯したことに基づいて、AOC10の故障を認識してもよい。
図4に示すように、並列処理装置100は、システムボード20、30のそれぞれにおいて、AOC10を使用した通信の停止に基づいて、LED26、36を消灯し、LED26、36の両方の消灯に基づいてAOC10の交換を可能とする。このため、点灯しているLED26、36に対応するAOC10(通信で使用中)が抜かれることで、実行中のジョブが異常停止するシステム障害を抑止することができる。
また、各システムボード20、30に複数のAOC10が接続される場合にも、故障したAOC10に対応するLED26、36のペアの消灯に基づいて、AOC10の交換が可能になったと判断される。このため、点灯中のLEDに対応する故障していない他のAOC10がコネクタ28、38から誤って抜かれることを抑止することができ、AOC10の交換作業の効率を向上することができる。例えば、複数のAOC10が接続される複数のシステムボード20がラックに収納され、ラックに多数のAOC10が収容される場合にも、故障していないAOC10が誤って抜かれることを抑止することができる。
図5は、図1の並列処理装置100の動作の別の例を示す。図5と同様の動作については、詳細な説明は省略される。図5では、CPU22aは、一対の送信側のチャネルCHa1、CHa2の両方のチャネル故障を検出する(図5(a))。このため、CPU22aは、CPU32aにチャネル故障を通知できない。
CPU22aは、ジョブを停止し、自システムボード20内のCPU22bに、チャネル故障をシステムボード30に通知する依頼を発行する(図5(b)、(c))。CPU22aからCPU22bへの通知の依頼は、図3に示していない通信経路を介して発行されてもよく、コントローラ24を介して発行されてもよい。
CPU22aは、コントローラ24にチャネル故障を通知する(図5(d))。CPU22aによるチャネル故障のコントローラ24への通知と、コントローラ24によるAOC10を使用した他のCPU22の通信の検出動作とは、図4と同様である(図5(e)、(f))。コントローラ24は、CPU22bからジョブを停止したことを示す停止通知を受信したことに基づいて、LED26を消灯する(図5(g)、(h))。
通知の依頼を受信したCPU22bは、一対の送信側のチャネルCHb1、CHb2の少なくとも一方を使用して、CPU32bにチャネル故障を通知する(図5(i))。CPU22bからチャネル故障の通知を受信したCPU32bは、コントローラ34にチャネル故障を通知する(図5(j))。なお、CPU22bは、CPU22aからチャネル故障の通知の依頼を受信したことに基づいて、コントローラ24からジョブの停止が指示される前に、実行中のジョブを停止してもよい。
CPU32aは、CPU22aからパケットを受信しないことに基づいて、チャネルCHa1、CHa2のチャネル故障を検出し、ジョブを停止し、コントローラ34にチャネル故障を通知する(図5(k)、(l))。
図4と同様に、コントローラ34は、故障の通知に基づいて、AOC10を介して通信しているCPUがあるか否かを検出する(図5(m))。この際、コントローラ34は、CPU32a、32bからのチャネル故障の通知のうち、早いほうの通知に基づいて、AOC10を介して通信しているCPUがあるか否かを検出する。
コントローラ34は、CPU32bがAOC10を介して通信していることを検出した場合、ジョブの実行を停止させる停止指示をCPU32bに出力する(図5(n))。コントローラ24は、CPU22bからジョブを停止したことを示す停止通知を受信したことに基づいて、LED26を消灯する(図5(o)、(p))。そして、並列処理装置100の各種保守を行う保守作業者は、AOC10により接続されたシステムボード20、30のLED26、36が両方消灯された場合、AOC10の交換作業を実施する(図5(q))。
なお、CPU32bがチャネル故障の通知に基づいてジョブを停止する場合、コントローラ34は、AOC10を使用した通信を実行しているCPU32を検出しない。この場合、コントローラ24は、ジョブの停止の指示を発行することなく、LED36を消灯する。また、図4と同様に、コントローラ24は、CPU22からチャネル故障の通知を受信した場合、管理装置50にチャネル故障を通知する。コントローラ34は、CPU32からチャネル故障の通知を受信した場合、管理装置50にチャネル故障を通知する。チャネル故障の通知を受信した管理装置50は、図4の説明と同様に動作する。
図5に示すように、CPU22aの一対の送信側のチャネルCHa1、CHa2の両方が故障した場合、CPU22aは、CPU22bにシステムボード30へのチャネル故障の通知を依頼する。依頼を受信したCPU22bは、通信相手であるCPU32bにチャネル故障を通知する。これにより、一対の送信側のチャネルCHが両方使えない場合にも、チャネル故障を通信先のシステムボード30に通知することができ、AOC10の交換作業の開始の合図であるLED26、36の消灯動作を正常に実行することができる。
図6および図7は、図1のCPU22、32の動作の一例を示す。すなわち、図6および図7は、CPU22、32の制御方法の一例を示す。図6および図7に示す動作は、CPU22、32が制御プログラムを実行することで実現される。図6および図7に示す動作フローは、例えば、所定の周期で開始される。CPU22、32の動作は、互いに同じであるため、以下では、CPU22の動作が説明される。
なお、チャネル故障は、図2に示す光ケーブル10aの心線だけでなく、電気/光変換部および光/電気変換部の故障によっても発生する。また、CPU22、32は、図6および図7に示す動作とは別に、情報処理を実行する処理プログラム(ユーザプログラム、アプリケーションプログラム等)を実行することで、ジョブを実行する。
まず、ステップS102において、CPU22は、例えば、送信パケットに対する応答の有無、またはビットエラーレート等に基づいて、チャネル故障が発生したか否かを判定する。チャネル故障が発生した場合、処理はステップS104に移行され、チャネル故障が発生していない場合、処理は図7のA(ステップS114)に移行される。
ステップS104において、CPU22は、チャネル故障の発生を通信先のCPU32に通知可能な場合、処理をステップS106に移行し、チャネル故障の発生を通信先のCPU32に通知できない場合、処理をステップS112に移行する。例えば、CPU22aは、送信側のチャネルCHa1、CHa2の両方の故障を判定した場合、チャネル故障の発生を通信先のCPU32に通知できないと判定する。
ステップS106において、CPU22は、チャネル故障が発生していない正常なチャネルCHを使用して、通信先のCPU32にチャネル故障の発生を通知する。次に、ステップS108において、CPU22は、実行中のジョブを停止することで、AOC10を使用した通信を停止する。次に、ステップS110において、CPU22は、コントローラ24にチャネル故障の発生を通知し、処理を図7のA(ステップS114)に移行する。
ステップS112において、CPU22は、チャネル故障のシステムボード30への通知を、自システムボード20内の他のCPU22に依頼し、処理を図7のA(ステップS114)に移行する。
図7のステップS114において、CPU22は、システムボード20の他のCPU22からチャネル故障のシステムボード30への通知を依頼された場合、処理をステップS116に移行する。CPU22は、システムボード20の他のCPU22からチャネル故障のシステムボード30への通知を依頼されていない場合、処理をステップS118に移行する。ステップS116において、CPU22は、チャネル故障が発生していない正常なチャネルCHを使用して、通信先のCPU32にチャネル故障の発生を通知し、処理をステップS118に移行する。
ステップS118において、CPU22は、通信先のCPU32からチャネル故障の通知を受信した場合、処理をステップS120に移行し、通信先のCPU32からチャネル故障の通知を受信しない場合、処理をステップS124に移行する。ステップS120において、CPU22は、実行中のジョブを停止することで、AOC10を使用した通信を停止する。次に、ステップS122において、CPU22は、コントローラ24にチャネル故障の発生を通知し、処理をステップS124に移行する。
ステップS124において、CPU22は、コントローラ24からジョブを停止する指示を受信した場合、処理をステップS126に移行し、コントローラ24からジョブを停止する指示を受信しない場合、処理を終了するす。ステップS126において、CPU22は、実行中のジョブを停止することで、AOC10を使用した通信を停止する。次に、ステップS128において、CPU22は、コントローラ24にジョブを停止したことを通知し、処理をステップS102に戻す。
図8は、図1のコントローラ24、34の動作の一例を示す。すなわち、図8は、コントローラ24、34の制御方法の一例を示す。図8に示す動作は、コントローラ24、34のそれぞれが有するCPUが制御プログラムを実行することで実現される。図8に示す動作フローは、例えば、システムボード20、30間での通信が確立される毎(すなわち、チャネルCHをリンクアップさせる起動動作毎)に開始される。コントローラ24、34の動作は、互いに同じであるため、以下では、コントローラ24の動作が説明される。なお、コントローラ24は、図8に示す動作とは別に、CPU22の状態をモニタするとともに、AOC10の接続状態をモニタする制御プログラムを実行する。
まず、ステップS200において、コントローラ24は、CPU22のいずれかからのチャネル故障の通知を待ち、チャネル故障の通知の受信に基づいて、処理をステップS202に移行する。ステップS202において、コントローラ24は、チャネル故障の通知の受信に基づいて、AOC10を使用した通信に異常が発生したことを管理装置50に通知する。
次に、ステップS204において、コントローラ24は、故障したチャネルCHを含むAOC10を介して通信しているCPU22を検出する。例えば、コントローラ24は、各CPU22から通知されるジョブの実行情報に基づいて、AOC10を介して通信しているCPU22を検出する。また、コントローラ24は、各CPU22がどのチャネルCHを使用してどのCPU32に接続されているかを示す情報を保持している。
次に、ステップS206において、コントローラ24は、故障したチャネルCHを含むAOC10を介して通信しているCPU22を検出した場合、処理をステップS208に移行する。コントローラ24は、故障したチャネルCHを含むAOC10を介して通信しているCPU22を検出しない場合、処理をステップS212に移行する。
ステップS208において、コントローラ24は、検出したCPU22にジョブの停止を指示し、処理をステップS210に移行する。ステップS210において、コントローラ24は、ジョブの停止を指示したCPU22からジョブの停止の通知の受信を待ち、ジョブの停止の通知を受信した場合、処理をステップS212に移行する。ステップS212において、コントローラ24は、LED26を消灯し、動作を終了する。
図9は、図1のコントローラ24、34の別の動作の一例を示す。すなわち、図9は、コントローラ24、34の制御方法の一例を示す。図9に示す動作は、コントローラ24、34のそれぞれが有するCPUが制御プログラムを実行することで実現される。
図9に示す動作フローは、例えば、システムボード20、30へのAOC10の接続が検出されたことに基づいて開始される。AOC10の接続は、AOC10に設けられる接続検出用の端子がコネクタ28(図2)に接続された場合に論理レベルが変化するシステムボード20上の信号を、コントローラ24が受信することにより検出される。例えば、AOC10の接続は、故障したAOC10を交換した場合、または、AOC10を接続し直した場合に検出される。コントローラ24、34の動作は、互いに同じであるため、以下では、コントローラ24の動作が説明される。
まず、ステップS220において、コントローラ24は、LED26を点灯する。次に、ステップS222において、コントローラ24は、接続が検出されたAOC10を介して通信するCPU22に座標情報の交換を指示する。例えば、コントローラ24は、CPU22に、AOC10を介して接続される他のCPU32に対して座標上を取得することを要求する。
ここで、座標情報は、複数のCPU22、32を含む計算機ネットワーク上での各CPU22、32の位置(すなわち、座標)を示す情報である。例えば、3次元メッシュ/トーラスネットワークに含まれるCPU22、32(ノード)の座標情報は、X軸、Y軸、Z軸の座標(X、Y、Z)を含む。各CPU22、32は、自分の座標を示す座標情報と、ネットワーク上で直接接続される他のCPU32、22の座標を示す座標情報とを予め保持している。3次元メッシュ/トーラスネットワークでは、座標情報が保持される他のCPU32、22は、自CPUに対してX+、X−、Y+、Y−、Z+、Z−に位置する。CPU22、32による座標情報の交換動作の例は、図10で説明される。
次に、ステップS224において、コントローラ24は、CPU32との間で座標情報を交換したCPU22から通知されるAOC10の接続情報を受信するまで待ち、接続情報の受信に基づいて、処理をステップS226に移行する。ステップS226において、コントローラ24は、受信した接続情報が、AOC10を介して正しいCPU32にCPU22が接続されたことを示す場合、処理をステップS228に移行する。一方、コントローラ24は、受信した接続情報が、AOC10を介して間違ったCPU32にCPU22が接続されたことを示す場合、処理をステップS230に移行する。すなわち、AOC10の接続が間違っている場合、処理は、ステップS230に移行される。
ステップS228において、コントローラ24は、LED26を消灯し、動作を終了する。ステップS230において、コントローラ24は、LED26を点滅させ、動作を終了する。AOC10が正しく接続された場合、その後、CPU22、23間で各チャネルCHを通信可能な状態にするリンクアップが実行され、リンクアップの完了に伴い、LED26は再び点灯する。一方、AOC10が間違って接続された場合、LED26の点滅により、保守作業者は、接続の間違いを認識し、AOC10を正しい経路に接続するために、AOC10を接続し直す。AOC10が接続し直された場合、コントローラ24は、図9に示す動作を再び実行する。
図10は、図1のCPU22、32の別の動作の一例を示す。すなわち、図10は、CPU22、32の制御方法の一例を示す。図10に示す動作は、CPU22、32が制御プログラムを実行することで実現される。CPU22、32の動作は、互いに同じであるため、以下では、CPU22の動作が説明される。図10に示す動作フローは、CPU22が、コントローラ24から座標情報の交換の指示(図9のステップS222)を受信したことに基づいて開始される。
まず、ステップS140において、CPU22は、AOC10を介して接続された通信相手のCPU32に座標情報を要求する。例えば、AOC10が交換される場合、AOC10の一方のコネクタ部10bは、コネクタ28を介してCPU22a、22bに接続され、AOC10の他方のコネクタ部10cは、コネクタ38を介してCPU32a、32bに接続される。このため、AOC10が交換される場合、CPU22a、22bは、それぞれCPU32a、32bに座標情報を要求し、CPU32a、32bは、それぞれCPU22a、22bに座標情報を要求する。そして、CPU22a、32a間と、CPU22b、32b間で、座標情報の交換が相互に実行される。なお、CPU22は、相手のCPU32に座標情報を要求する場合、自分の座標情報をCPU32に通知してもよい。
次に、ステップS142において、CPU22は、CPU32から受信した座標情報が正しい場合、処理をステップS144に移行し、CPU32から受信した座標情報が間違っている場合、処理をステップS146に移行する。
例えば、3次元メッシュ/トーラスネットワークでは、CPU22は、CPU32から受信した座標情報が、自分の座標(X、Y、Z)に対して、X軸、Y軸、Z軸のいずれか1つが”1”だけ異なる場合、座標情報が正しいと判定する。例えば、CPU22は、自分の座標が(2、2、2)で、受信した座標情報が(2、1、2)、(1、2、2)または(2、2、3)等の場合、AOC10の接続が正しいと判定する。
一方、CPU22は、CPU32から受信した座標情報が、自分の座標(X、Y、Z)に対して、X軸、Y軸、Z軸の座標の差の総和が”2”以上の場合、AOC10の接続が間違っていると判定する。例えば、CPU22は、自分の座標が(2、2、2)で、受信した座標情報が(2、0、2)、(1、1、2)または(1、2、3)等の場合、AOC10の接続が間違っていると判定する。
ステップS144において、CPU22は、AOC10の接続が正常であることを示す接続情報をコントローラ24に通知し、動作を終了する。ステップS146において、CPU22は、AOC10の接続が間違っていることを示す接続情報をコントローラ24に通知し、動作を終了する。
図11は、図1の並列処理装置の保守作業の一例を示す。図11の上側の保守シーケンスは、AOC10の故障が発生した後、保守作業により、故障したAOC10が新しいAOC10に正常に交換される場合を示す。図11の下側の保守シーケンスは、AOC10の故障が発生した後、保守作業において、新しいAOC10のコネクタ部10b、10cの一方が、故障したAOC10が接続されていたシステムボードとは異なるシステムボードに接続される場合を示す。
図11の上側の保守シーケンスにおいて、AOC10のチャネル故障がCPU22、32のいずれかにより検出され、並列処理装置100は、図4から図8に示す動作を実行する。コントローラ24、34の少なくともいずれかは、AOC10を使用した通信で異常が発生したことを管理装置50に通知する(図11(a))。管理装置50は、通信の異常の発生(アラーム)を表示装置に表示する。並列処理装置100のコントローラ24、34は、LED26、36を消灯することで、AOC10を使用した通信の停止によりAOC10が交換可能になったことを、保守作業者等が認識できるようにする(図11(b))。上述したように、チャネル故障の発生後のLED26、36の消灯状態は、故障したAOC10による通信が停止したことを示す停止表示状態である。
並列処理装置100の運用を管理するシステム管理者は、管理装置50の表示画面に表示されたアラームに基づいて、AOC10が故障したか否かを判断する。システム管理者は、AOC10の故障を判断した場合、管理装置50の端末を操作し、故障したAOC10に接続されたシステムボード20、30の動作を停止させる停止指示を、システムボード20、30のコントローラ24、34に発行する(図11(c))。停止指示を受信したコントローラ24、34は、例えば、システムボード20、30を通常の動作モードからメンテナンスモードに移行させる。
また、システム管理者は、並列処理装置100を保守する保守作業者にAOC10が故障したことを連絡する(図11(d))。保守作業者は、システム管理者からの連絡に基づいて、AOC10の保守(すなわち、AOC10の交換作業)を実施する(図11(e))。並列処理装置100の各コントローラ24、34は、新しいAOC10がシステムボード20、30にそれぞれ接続されたことに基づいて、LED26、36を点灯する(図11(f))。LED26、36の点灯状態は、AOC10がシステムボード20、30の各々に接続されたことを示す接続表示状態の一例である。また、各コントローラ24、34は、新しいAOC10が正常に接続されたことの検出に基づいて、LED26、36を消灯する(図11(g))。すなわち、並列処理装置100は、図9および図10に示す動作を実行する。新しいAOC10の接続後のLED26、36の消灯状態は、AOC10の接続が正常であることを示す正常表示状態の一例である。
保守作業者は、AOC10のシステムボード20、30への接続時に、LED26、36の各々が一時的に点灯し、その後消灯することで、AOC10が正しい位置に正常に接続されたことを認識することができる。保守作業者は、AOC10の保守の完了をシステム管理者に連絡する(図11(h))。システム管理者は、管理装置50の端末を操作し、AOC10が交換されたシステムボード20、30を再起動する(図11(i))。そして、システムボード20、30を使用した並列処理装置100の通常運用が再開される。
図11の下側の保守シーケンスにおいて、保守作業者がAOC10の保守を開始するまでの動作および処理は、図11の上側のシーケンスと同じである。図11の下側のシーケンスでは、保守作業者は、故障したAOC10をシステムボード20、30から抜いた後、新しいAOC10の一端を、誤ってシステムボード20、30以外のシステムボードに接続する。すなわち、AOC10の接続間違いが発生する(図11(j))。
例えば、新しいAOC10がシステムボード20と、システムボード30ではない他のシステムボードとに接続された場合、CPU22a、22bは、AOC10を介してCPU32a、32b以外のCPUに接続される。システムボード20のLED26は、新しいAOC10が接続されたことに基づいて一旦点灯する(図11(k))。しかし、その後のCPU間での座標情報の交換により、AOC10の接続の異常が検出され、LED26は点滅する(図11(l))。すなわち、並列処理装置100は、図9および図10に示す動作を実行する。新しいAOC10の接続後のLED26、36の点滅状態は、AOC10の接続が間違っていることを示すエラー表示状態の一例である。なお、新しいAOC10が接続されていないシステムボード30のLED36は、消灯状態に維持される。
保守作業者は、LED26の点滅により、AOC10の接続先を間違えたことを、システム管理者からの連絡を待つことなく、その場で認識することができる。そして、保守作業者は、AOC10を、本来のシステムボード20、30に接続し直す。これにより、並列処理装置100は、図9および図10に示す動作を実行し、LED26、36を点灯した後、消灯する(図11(m)、(n))。保守作業者は、LED26、36が消灯したことに基づいて、AOC10が正しい位置に正常に接続されたことを認識し、AOC10の保守の完了をシステム管理者に連絡する(図11(o))。システム管理者は、管理装置50の端末を操作し、AOC10が交換されたシステムボード20、30を再起動する(図11(p))。そして、システムボード20、30を使用した並列処理装置100の通常運用が再開される。
図12は、他の並列処理装置の動作の一例を示す。図12に示す保守シーケンスは公知ではない。図12に示す保守シーケンスは、図11の下側の保守シーケンスに対応している。すなわち、AOCの故障が発生し、故障したAOCを新しいAOCと交換する場合に、新しいAOCの接続間違いが発生する。図11と同様の処理および動作については、詳細な説明は省略される。
まず、並列処理装置は、AOCのチャネル故障を検出した場合、AOCを使用した通信で異常が発生したことを管理装置に通知する(図12(a))。管理装置は、通信の異常の発生(アラーム)を表示装置に表示する。並列処理装置の運用を管理するシステム管理者は、管理装置の表示画面に表示されたアラームに基づいて、AOCの故障を判断した場合、AOCに接続されたシステムボードの動作を停止させる停止指示を発行する(図12(b))。
また、システム管理者は、並列処理装置を保守する保守作業者にAOCが故障したことを連絡する(図12(c))。保守作業者は、システム管理者からの連絡に基づいて、AOCの保守(交換作業)を実施する(図12(d))。但し、保守作業者は、AOCを誤ったシステムボードに接続し、接続間違いが発生する(図12(e))。
他の並列処理装置は、図1に示すLED26、36を持たないため、保守作業者は、接続間違いに気付かず、AOCの保守の完了をシステム管理者に連絡する(図12(f))。システム管理者は、AOC10が交換されたはずのシステムボードを再起動する(図12(g))。しかしながら、AOCが正しいシステムボードに接続されていないため、起動が正常に実行されず、システム管理者は、起動の完了(リンクアップ)を確認できない(図12(h))。
システム管理者は、端末を操作して並列処理装置の状態を確認し、再起動の失敗の原因がAOC10の接続間違いであると判断する。このため、システム管理者は、AOCの接続が間違っている箇所とともに、AOCを接続し直すことを保守作業者に連絡する(図12(i))。連絡を受けた保守作業者は、AOCを接続し直す保守作業を実施する(図12(j))。
保守作業者は、AOCの保守の完了をシステム管理者に連絡する(図12(k))。システム管理者は、AOC10が交換されたシステムボードを再起動する(図12(l))。そして、システムボードを使用した並列処理装置の通常運用が再開される。
AOCの接続が正常であるか否かを表示するLED26、36を持たない他の並列処理装置では、保守作業者自身がAOCの接続間違いに気付くことが困難である。このため、システム管理者は、保守作業者への保守の連絡を2回しなくてはならず、再起動ができない原因がAOCの接続間違いであることを調査しなくてはならない。したがって、AOCの故障の発生から並列処理装置が正常に運用されるまでの時間は、図11に比べて長くなる。
これに対して、図11に示す保守シーケンスでは、AOC10の接続間違いは、保守作業者だけで確認できるため、システム管理者は、AOC10の接続間違いに対する表示装置の確認および保守作業者への連絡を省略できる。したがって、AOC10の故障の発生から並列処理装置100が正常に運用されるまでの時間を短縮することができ、システム管理者の負担を軽減することができる。
図13は、他の並列処理装置の動作の別の例を示す。図13に示す保守シーケンスは公知ではない。図13に示す保守シーケンスでは、保守管理者が故障したAOCではない通常運用中のAOCを間違って抜いてしまう。図11および図12と同様の処理および動作については、詳細な説明は省略される。保守作業者がAOCの最初の保守を開始するまでの動作および処理は、図12と同じである。
正常なAOCが間違って抜かれた場合、通信が遮断されるため、並列処理装置は、AOCを使用した通信で異常が発生したことを管理装置に通知する(図13(a))。システム管理者は、管理装置の表示画面に表示された通信の異常を示すアラームに基づいて、AOCの故障を判断した場合、AOCに接続されたシステムボードの動作を停止させる停止指示を発行する(図13(b))。
また、システム管理者は、直前に故障したAOCとは別のAOCが故障したことを保守作業者に連絡する(図13(c))。保守作業者は、システム管理者からの連絡に基づいて、例えば、AOCの接続状態を確認し、別のAOCを間違って抜いていたことに気付く。そして、間違って抜いたAOCを差し戻し、故障したAOCの交換作業を実施する(図13(d))。
保守作業者は、AOCの保守の完了をシステム管理者に連絡する(図13(e))。システム管理者は、間違って抜いたAOCが差し戻されたシステムボードと、AOCが交換されたシステムボードとを再起動する(図13(f))。そして、システムボードを使用した並列処理装置の通常運用が再開される。
なお、図1に示す並列処理装置100では、図13に示すような不具合は発生しない。並列処理装置100では、故障したチャネルCHを含むAOC10に対応するLED26、36は、AOC10を使用した通信が停止し、AOC10が交換可能になった時点で、消灯される。このため、保守作業者は、消灯したLED26、36に対応するAOC10を、交換対象のAOC10として抜き、新しいAOC10を接続する。また、正常運用中のAOC10に対応するLED26、36は点灯している。したがって、点灯しているLED26、36に対応するAOC10が誤って抜かれる可能性は少ない。また、通常運用していないリンクダウン中のAOC10(対応するLED26、36が消灯中)が誤って抜かれた場合、通信の異常は発生しないため、並列処理装置100から管理装置50に異常が通知されることはない。
以上、図1から図13に示す実施形態では、CPU22、32のいずれかによるチャネル故障の検出に基づいて、AOC10を介して接続されたシステムボード20、30の両方のコントローラ24、34が、CPU22、32にAOC10の使用を停止させる。これにより、例えば、チャネル故障を検出したCPU22だけでなく、故障したAOC10を使用する全てのCPU22、32にAOC10の使用を停止させることができる。したがって、人手を介在させることなく、自動的にAOC10を交換可能な状態にすることができる。
AOC10を保守する保守作業者は、故障したAOC10に対応するLED26、36の両方の消灯に基づいて、AOC10を使用した通信が停止したことを確認することができ、AOC10の交換作業を開始できる。この際、消灯したLED26、36に対応するAOC10を引き抜けばよいため、正常な他のAOC10を誤って引き抜くことを抑止することができる。したがって、保守作業者の作業ミスにより通常運用中のリンクが遮断されることを抑止することができ、並列処理装置100の信頼性の低下を抑止することができる。
このように、AOC10の保守作業を間違いなく確実に実施することができるため、LED26、36を持たない他の並列処理装置に比べて、AOC10の保守作業の効率性を向上することができる。これにより、並列処理装置100の運用の停止期間を最小限にすることができ、並列処理装置100の処理性能の低下を抑制することができる。
CPU22aが送信に使用するチャネルCHa1、CHa2が両方故障した場合にも、他のCPU22bを介してシステムボード30にチャネル故障を通知することができる。これにより、システムボード20、30の両方のCPU22、32にAOC10の使用を停止させることできる。
AOC10の交換作業時、新しいAOC10のシステムボード20への接続に基づいて、コントローラ24は、CPU22にCPU32との座標情報を交換させ、AOC10が正しいコネクタ28、38に接続されたか否かを示す情報をLED26に表示させる。これにより、保守作業者は、AOC10の接続位置が間違っていることを自ら確認することができ、その場でAOC10を接続し直すことできる。これにより、LED26を使用しない場合に比べて保守に掛かる時間を短縮することができ、並列処理装置100の運用の停止期間を最小限にすることができる。
各CPUは、計算機ネットワーク上で直接接続される他のCPUの座標情報を保持するため、AOC10で接続されたCPUから座標情報を受信することで、AOC10を介して正しいCPUに接続されたか否かを判断することができる。CPUの接続が正しいか否かをCPU毎に判定できるため、コントローラ24、34の負荷を削減することができる。
図14は、別の実施形態における並列処理装置の一例を示す。図14に示す並列処理装置102は、複数のチャネルを各々有する複数のAOC10を介して接続された複数のサーバ200、300を有する。各サーバ200、300には、4本のAOC10が接続される。例えば、サーバ200は、AOC10を介して、サーバ300と、図示しない他の3つのサーバに接続され、サーバ300は、AOC10を介して、サーバ200と、図示しない他の3つのサーバに接続される。例えば、AOC10は、図2に示すAOC10と同じである。
サーバ200は、複数のCPU220(220a、220b)、コントローラ240、ルータ部270、メモリ280(280a、280b)およびLED26(261、262、263、264)を有する。サーバ300は、複数のCPU320(320a、320b)、コントローラ340、ルータ部370、メモリ380(380a、380b)およびLED36(361、362、363、364)を有する。各サーバ200、300および図示しない他のサーバは、ネットワーク62を介して、並列処理装置102の全体を管理する管理装置52に接続される。なお、サーバ200は、2つより多くのCPU220を有してもよく、サーバ300は、2つより多くのCPU320を有してもよい。
CPU220、320の各々は、演算処理部の一例であり、図1に示すCPU22、32と同一または同様の機能を有する。各CPU220、320は、計算機ネットワーク上の1つのノードとして機能する。サーバ200、300の各々は、情報処理装置の一例である。LED26、36の各々は、表示部の一例であり、例えば、図1に示すLED26、32と同じである。
4つのLED261、262、263、264は、サーバ200に接続される4本のAOC10の各々に対応して設けられ、点灯時に緑色の光を出射する。同様に、4つのLED361、362、363、364は、サーバ300に接続される4本のAOC10の各々に対応して設けられ、点灯時に緑色の光を出射する。LED26、36は、図1に示す表示部26、36と同様に、AOC10が正常に動作可能なときに点灯され、AOC10が交換可能であるときに消灯され、AOC10が正しく接続されていないときに点滅される。AOC10が正しく接続されていないときとは、AOC10を介して互いに接続される2つのCPUの座標が、計算機ネットワーク上の座標の期待値と異なる場合であり、AOC10が間違って接続されている場合を示す。
ルータ部270は、例えば、パケットの通信先のノードに応じて、CPU220a、220bの各々を4本のAOC10のいずれかに接続する。ルータ部370は、例えば、パケットの通信先のノードに応じて、CPU320a、320bの各々を4本のAOC10のいずれかに接続する。例えば、サーバ200、300を相互に接続するAOC10は、図2と同様に、2つのCPU220a、220bと2つのCPU320a、320bとに共有される。ルータ部270の機能は、CPU220a、220bに内蔵されてもよく、ルータ部370の機能は、CPU320a、320bに内蔵されてもよい。
メモリ280aは、CPU220aに接続され、メモリ280bは、CPU220bに接続される。メモリ380aは、CPU320aに接続され、メモリ380bは、CPU320bに接続される。例えば、メモリ280、380は、CPU220、320で使用される主記憶メモリである。
コントローラ240、340は、制御部の一例であり、図1に示すコントローラ24、34と同様の機能を有する。コントローラ240は、CPU220a、220bの動作を制御するとともに、4つのLED26の表示を制御する。コントローラ340は、CPU320a、320bの動作を制御するとともに、4つのLED36の表示を制御する。コントローラ240、340は、制御プログラムを実行することで、図8および図9に示す動作を実行する。但し、コントローラ240は、故障したチャネルを含むAOC10に対応する4つのLED26を点灯、消灯または点滅する制御を実行する。コントローラ340は、故障したチャネルを含むAOC10に対応する4つのLED36を点灯、消灯または点滅する制御を実行する。
各CPU220、320は、情報処理を実行する処理プログラムとは別に制御プログラムを実行することで、図6、図7および図10に示す動作を実行する。そして、並列処理装置102は、図4、図5および図11に示す動作と同様の動作を実行する。
以上、図14に示す実施形態においても、図1から図13に示す実施形態と同様の効果を得ることできる。
図15は、別の実施形態における並列処理装置の一例を示す。図15に示す並列処理装置104は、複数のチャネルを各々有する複数のAOC10を介して接続された複数のサーバ202(図15では1つのみを図示)を有する。各サーバ202には、9本のAOC10が接続される。サーバ202は、情報処理装置の一例である。
サーバ202は、3本のAOC10にそれぞれ接続された3つのシステムボード204を有する。各システムボード204は、2つのCPU222(222a、222b)と、2つのCPU222の動作を制御するコントローラ242と、3つのAOC10にそれぞれ対応するLED26(261、262、263)とを有する。なお、各システムボード204は、2つより多くのCPU222を有してもよい。
各CPU222は、演算処理部の一例であり、図1に示すCPU22、32と同一または同様の機能を有する。各CPU222は、計算機ネットワーク上の1つのノードとして機能する。サーバ202は、情報処理装置の一例である。LED26は、表示部の一例であり、例えば、図1に示すLED26、32と同様に、点灯時に緑色の光を出射する。LED26は、図1に示す表示部26、36と同様に、AOC10が正常に動作可能なときに点灯され、AOC10が交換可能であるときに消灯され、AOC10が正しく接続されていないときに点滅される。
コントローラ242は、制御部の一例であり、図1に示すコントローラ24、34と同様の機能を有する。コントローラ242は、制御プログラムを実行することで、図8および図9に示す動作を実行する。但し、コントローラ242は、故障したチャネルを含むAOC10に対応する3つのLED26を点灯、消灯または点滅する制御を実行する。
各CPU222は、情報処理を実行する処理プログラムとは別に制御プログラムを実行することで、図6、図7および図10に示す動作を実行する。そして、並列処理装置102は、図4、図5および図11に示す動作と同様の動作を実行する。
以上、図15に示す実施形態においても、図1から図14に示す実施形態と同様の効果を得ることができる。
以上の図1から図15に示す実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数のチャネルを有する光ファイバーケーブルを介して接続された所定数の情報処理装置のペアを有する並列処理装置において、
前記各情報処理装置は、
前記光ファイバーケーブルを共有し、所定数のチャネルがそれぞれに割り当てられた複数の演算処理部と、
自情報処理装置を制御する制御部と、
前記光ファイバーケーブルに対応して設けられる表示部と、を有し、
前記複数の演算処理部の各々は、チャネルの故障であるチャネル故障を検出した場合、故障していないチャネルを使用して他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知するとともに、自情報処理装置の前記制御部に前記チャネル故障を通知し、他の情報処理装置から前記チャネル故障の通知を受信した場合、自情報処理装置の前記制御部に前記チャネル故障を通知し、
前記各情報処理装置の前記制御部は、前記チャネル故障の通知の受信に基づいて、故障したチャネルを含む故障光ファイバーケーブルを使用している自情報処理装置の演算処理部を検出し、検出した演算処理部に故障光ファイバーケーブルの使用を停止させ、前記検出した演算処理部による故障光ファイバーケーブルの使用の停止に基づいて、故障光ファイバーケーブルに対応する前記表示部を、故障光ファイバーケーブルによる通信が停止したことを示す停止表示状態に設定することを特徴とする並列処理装置。
(付記2)
前記複数の演算処理部の各々は、チャネルの故障により、前記他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知できない場合、自情報処理装置の他の演算処理部に、前記他の情報処理装置への前記チャネル故障の通知を依頼し、
依頼を受けた前記他の演算処理部は、前記他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知することを特徴とする付記1に記載の並列処理装置。
(付記3)
故障したチャネルを含む故障光ファイバーケーブルに接続された前記情報処理装置のペアの前記表示部の両方の前記停止表示状態は、前記表示部に対応する故障光ファイバーケーブルが交換可能になったことを示すことを特徴とする付記1または付記2に記載の並列処理装置。
(付記4)
前記制御部は、
自情報処理装置への前記光ファイバーケーブルの接続を検出した場合、接続が検出された光ファイバーケーブルに対応する前記表示部を、光ファイバーケーブルが接続されたことを示す接続表示状態に設定し、
接続が検出された光ファイバーケーブルを共有する自情報処理装置の演算処理装置に、前記複数の演算処理装置を含む計算機ネットワーク上における通信先の演算処理装置の位置を示す座標情報を、通信先の演算処理装置から取得することを要求し、
要求に基づいて取得された座標情報が正しい場合、前記表示部を、前記光ファイバーケーブルの接続が正常であることを示す正常表示状態に設定し、
要求に基づいて取得された座標情報が間違っている場合、前記表示部を、前記光ファイバーケーブルの接続が間違っていることを示すエラー表示状態に設定することを特徴とする付記1ないし付記3のいずれか1項に記載の並列処理装置。
(付記5)
前記複数の演算処理装置の各々は、
自演算処理装置と計算機ネットワーク上で直接接続される他の演算処理装置との計算機ネットワーク上での位置を示す座標情報を保持し、
座標情報の取得の要求を自情報処理装置の前記制御部から受けた場合、通信先の演算処理装置から座標情報を取得し、取得した座標情報が正しいかを自情報処理装置の前記制御部に通知することを特徴とする付記4に記載の並列処理装置。
(付記6)
前記制御部は、前記光ファイバーケーブルの使用が検出された演算処理部にジョブの実行を停止させることで、前記光ファイバーケーブルの使用を停止させることを特徴とする付記1ないし付記5のいずれか1項に記載の並列処理装置。
(付記7)
前記複数の演算処理部の各々は、複数の前記光ファイバーケーブルを介して互いに異なる情報処理装置に接続されることを特徴とする付記1ないし付記6のいずれか1項に記載の並列処理装置。
(付記8)
前記光ファイバーケーブルは、
前記複数のチャネルにそれぞれ対応する複数の光ファイバーと、
前記複数の光ファイバーの両端の各々に設けられ、前記情報処理装置からの電気信号を光信号に変換して光ファイバーに出力し、光ファイバーからの光信号を電気信号に変換して情報処理装置に出力するインタフェース部を含み、前記情報処理装置に設けられるコネクタに着脱自在に接続されるコネクタ部と、を有することを特徴とする付記1ないし付記7のいずれか1項に記載の並列処理装置。
(付記9)
並列処理装置に含まれる所定数の情報処理装置のペア間に接続された複数のチャネルを有する光ファイバーケーブルの交換方法であって、
前記各情報処理装置は、前記光ファイバーケーブルを共有し、所定数のチャネルがそれぞれに割り当てられた複数の演算処理部と、自情報処理装置を制御する制御部と、前記光ファイバーケーブルに対応して設けられる表示部と、を有し、
前記複数の演算処理部の各々は、チャネルの故障であるチャネル故障を検出した場合、故障していないチャネルを使用して他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知するとともに、自情報処理装置の前記制御部に前記チャネル故障を通知し、他の情報処理装置から前記チャネル故障の通知を受信した場合、自情報処理装置の前記制御部に前記チャネル故障を通知する機能を有し、
前記各情報処理装置の前記制御部は、前記チャネル故障の通知の受信に基づいて、故障したチャネルを含む故障光ファイバーケーブルを使用している自情報処理装置の演算処理部を検出し、検出した演算処理部に故障光ファイバーケーブルの使用を停止させ、前記検出した演算処理部による故障光ファイバーケーブルの使用の停止に基づいて、故障光ファイバーケーブルに対応する前記表示部を、故障光ファイバーケーブルによる通信が停止したことを示す停止表示状態に設定する機能を有し、
前記情報処理装置のペアの一方の前記表示部が前記停止表示状態に設定されたかを確認し、
前記情報処理装置のペアの他方の前記表示部が前記停止表示状態に設定されたかを確認し、
前記情報処理装置のペアの一方と他方の前記表示部が、ともに前記停止表示状態に設定されたことに基づいて、前記光ファイバーケーブルを交換することを特徴とする光ファイバーケーブルの交換方法。
(付記10)
前記光ファイバーケーブルの交換後、前記情報処理装置のペアの演算処理装置間で相互に実行される、前記複数の演算処理装置を含む計算機ネットワーク上における通信先の演算処理装置の位置を示す座標情報の取得動作に基づいて、前記情報処理装置のペアの前記表示部が前記光ファイバーケーブルの接続が間違っていることを示すエラー表示状態に設定された場合、光ファイバーケーブルを接続し直すことを特徴とする付記9に記載の光ファイバーケーブルの交換方法。
以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。
10 光ファイバーケーブル(AOC)
10a 光ケーブル
10b、10c コネクタ部
20 システムボード
22a、22b CPU
24 コントローラ
26 表示部(LED)
28 コネクタ
30 システムボード
32a、32b CPU
34 コントローラ
36 表示部(LED)
38 コネクタ
50、52 管理装置
60、62 ネットワーク
100、102、104 並列処理装置
200、202 サーバ
204 システムボード
220a、220b、222a、222b CPU
240、242 コントローラ
261−264 LED
270 ルータ部
280a、280b メモリ
300 サーバ
320a、320b CPU
340 コントローラ
361−364 LED
370 ルータ部
380a、380b メモリ

Claims (7)

  1. 複数のチャネルを有する光ファイバーケーブルを介して接続された所定数の情報処理装置のペアを有する並列処理装置において、
    前記各情報処理装置は、
    前記光ファイバーケーブルを共有し、所定数のチャネルがそれぞれに割り当てられた複数の演算処理部と、
    自情報処理装置を制御する制御部と、
    前記光ファイバーケーブルに対応して設けられる表示部と、を有し、
    前記複数の演算処理部の各々は、チャネルの故障であるチャネル故障を検出した場合、故障していないチャネルを使用して他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知するとともに、自情報処理装置の前記制御部に前記チャネル故障を通知し、他の情報処理装置から前記チャネル故障の通知を受信した場合、自情報処理装置の前記制御部に前記チャネル故障を通知し、
    前記各情報処理装置の前記制御部は、前記チャネル故障の通知の受信に基づいて、故障したチャネルを含む故障光ファイバーケーブルを使用している自情報処理装置の演算処理部を検出し、検出した演算処理部に故障光ファイバーケーブルの使用を停止させ、前記検出した演算処理部による故障光ファイバーケーブルの使用の停止に基づいて、故障光ファイバーケーブルに対応する前記表示部を、故障光ファイバーケーブルによる通信が停止したことを示す停止表示状態に設定することを特徴とする並列処理装置。
  2. 前記複数の演算処理部の各々は、チャネルの故障により、前記他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知できない場合、自情報処理装置の他の演算処理部に、前記他の情報処理装置への前記チャネル故障の通知を依頼し、
    依頼を受けた前記他の演算処理部は、前記他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知することを特徴とする請求項1に記載の並列処理装置。
  3. 故障したチャネルを含む故障光ファイバーケーブルに接続された前記情報処理装置のペアの前記表示部の両方の前記停止表示状態は、前記表示部に対応する故障光ファイバーケーブルが交換可能になったことを示すことを特徴とする請求項1または請求項2に記載の並列処理装置。
  4. 前記制御部は、
    自情報処理装置への前記光ファイバーケーブルの接続を検出した場合、接続が検出された光ファイバーケーブルに対応する前記表示部を、光ファイバーケーブルが接続されたことを示す接続表示状態に設定し、
    接続が検出された光ファイバーケーブルを共有する自情報処理装置の演算処理装置に、前記複数の演算処理装置を含む計算機ネットワーク上における通信先の演算処理装置の位置を示す座標情報を、通信先の演算処理装置から取得することを要求し、
    要求に基づいて取得された座標情報が正しい場合、前記表示部を、前記光ファイバーケーブルの接続が正常であることを示す正常表示状態に設定し、
    要求に基づいて取得された座標情報が間違っている場合、前記表示部を、前記光ファイバーケーブルの接続が間違っていることを示すエラー表示状態に設定することを特徴とする請求項1ないし請求項3のいずれか1項に記載の並列処理装置。
  5. 前記複数の演算処理装置の各々は、
    自演算処理装置と計算機ネットワーク上で直接接続される他の演算処理装置との計算機ネットワーク上での位置を示す座標情報を保持し、
    座標情報の取得の要求を自情報処理装置の前記制御部から受けた場合、通信先の演算処理装置から座標情報を取得し、取得した座標情報が正しいかを自情報処理装置の前記制御部に通知することを特徴とする請求項4に記載の並列処理装置。
  6. 並列処理装置に含まれる所定数の情報処理装置のペア間に接続された複数のチャネルを有する光ファイバーケーブルの交換方法であって、
    前記各情報処理装置は、前記光ファイバーケーブルを共有し、所定数のチャネルがそれぞれに割り当てられた複数の演算処理部と、自情報処理装置を制御する制御部と、前記光ファイバーケーブルに対応して設けられる表示部と、を有し、
    前記複数の演算処理部の各々は、チャネルの故障であるチャネル故障を検出した場合、故障していないチャネルを使用して他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知するとともに、自情報処理装置の前記制御部に前記チャネル故障を通知し、他の情報処理装置から前記チャネル故障の通知を受信した場合、自情報処理装置の前記制御部に前記チャネル故障を通知する機能を有し、
    前記各情報処理装置の前記制御部は、前記チャネル故障の通知の受信に基づいて、故障したチャネルを含む故障光ファイバーケーブルを使用している自情報処理装置の演算処理部を検出し、検出した演算処理部に故障光ファイバーケーブルの使用を停止させ、前記検出した演算処理部による故障光ファイバーケーブルの使用の停止に基づいて、故障光ファイバーケーブルに対応する前記表示部を、故障光ファイバーケーブルによる通信が停止したことを示す停止表示状態に設定する機能を有し、
    前記情報処理装置のペアの一方の前記表示部が前記停止表示状態に設定されたかを確認し、
    前記情報処理装置のペアの他方の前記表示部が前記停止表示状態に設定されたかを確認し、
    前記情報処理装置のペアの一方と他方の前記表示部が、ともに前記停止表示状態に設定されたことに基づいて、前記光ファイバーケーブルを交換することを特徴とする光ファイバーケーブルの交換方法。
  7. 前記光ファイバーケーブルの交換後、前記情報処理装置のペアの演算処理装置間で相互に実行される、前記複数の演算処理装置を含む計算機ネットワーク上における通信先の演算処理装置の位置を示す座標情報の取得動作に基づいて、前記情報処理装置のペアの前記表示部が前記光ファイバーケーブルの接続が間違っていることを示すエラー表示状態に設定された場合、光ファイバーケーブルを接続し直すことを特徴とする請求項6に記載の光ファイバーケーブルの交換方法。
JP2018195338A 2018-10-16 2018-10-16 並列処理装置および光ファイバーケーブルの交換方法 Active JP7035950B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018195338A JP7035950B2 (ja) 2018-10-16 2018-10-16 並列処理装置および光ファイバーケーブルの交換方法
US16/589,580 US10771150B2 (en) 2018-10-16 2019-10-01 Parallel processing apparatus and replacing method of failing optical transmission line

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018195338A JP7035950B2 (ja) 2018-10-16 2018-10-16 並列処理装置および光ファイバーケーブルの交換方法

Publications (2)

Publication Number Publication Date
JP2020065144A true JP2020065144A (ja) 2020-04-23
JP7035950B2 JP7035950B2 (ja) 2022-03-15

Family

ID=70160572

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018195338A Active JP7035950B2 (ja) 2018-10-16 2018-10-16 並列処理装置および光ファイバーケーブルの交換方法

Country Status (2)

Country Link
US (1) US10771150B2 (ja)
JP (1) JP7035950B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114222178B (zh) * 2022-02-21 2022-09-27 长芯盛(武汉)科技有限公司 Hdmi有源光缆及其端接状态信息同步的方法、介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0537599A (ja) * 1991-07-26 1993-02-12 Nippon Telegr & Teleph Corp <Ntt> 回線接続アダプタの誤交換防止回路
US5852407A (en) * 1995-06-21 1998-12-22 Hitachi, Ltd. Multistage interconnection network and parallel computer using the same
JP2004032308A (ja) * 2002-06-25 2004-01-29 Toshiba Corp ポート接続状態表示方法および通信装置および通信システム
CN101055536A (zh) * 2006-04-13 2007-10-17 国际商业机器公司 在并行计算机数据通信网络中定位硬件故障的方法和设备
JP2008097164A (ja) * 2006-10-10 2008-04-24 Hitachi Ltd 複数の機能要素から構成されるシステムの故障監視方法
JP2015142308A (ja) * 2014-01-30 2015-08-03 富士通株式会社 ネットワークスイッチ、情報処理システム及び接続支援方法
WO2015198402A1 (ja) * 2014-06-24 2015-12-30 富士通株式会社 情報処理システム、接続支援方法及びプログラム
JP2016075968A (ja) * 2013-01-10 2016-05-12 株式会社日立製作所 情報処理装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08293834A (ja) * 1995-04-24 1996-11-05 Fujitsu Ltd 光パラレル伝送方式および光伝送装置
US6879559B1 (en) * 2000-10-31 2005-04-12 Chiaro Networks, Ltd. Router line card protection using one-for-N redundancy
JP3957065B2 (ja) 2002-08-28 2007-08-08 富士通株式会社 ネットワーク計算機システムおよび管理装置
JP5061667B2 (ja) * 2007-03-14 2012-10-31 株式会社日立製作所 マルチレート信号を収容する光伝送装置
JP5163298B2 (ja) * 2008-06-04 2013-03-13 富士通株式会社 情報処理装置、データ伝送装置及びデータ伝送方法
JP5239774B2 (ja) * 2008-11-18 2013-07-17 富士通株式会社 ノード装置
JP2012074841A (ja) 2010-09-28 2012-04-12 Nec Fielding Ltd ネットワーク管理装置及びネットワーク管理装置の制御方法
JP2014183482A (ja) 2013-03-19 2014-09-29 Fujitsu Ltd 送受信システム、送信装置、受信装置、及び送受信システムの制御方法
US9882633B2 (en) * 2015-09-30 2018-01-30 Juniper Networks, Inc. Methods and apparatus for self healing of an optical transceiver in a wavelength division multiplexing (WDM) system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0537599A (ja) * 1991-07-26 1993-02-12 Nippon Telegr & Teleph Corp <Ntt> 回線接続アダプタの誤交換防止回路
US5852407A (en) * 1995-06-21 1998-12-22 Hitachi, Ltd. Multistage interconnection network and parallel computer using the same
JP2004032308A (ja) * 2002-06-25 2004-01-29 Toshiba Corp ポート接続状態表示方法および通信装置および通信システム
CN101055536A (zh) * 2006-04-13 2007-10-17 国际商业机器公司 在并行计算机数据通信网络中定位硬件故障的方法和设备
JP2008097164A (ja) * 2006-10-10 2008-04-24 Hitachi Ltd 複数の機能要素から構成されるシステムの故障監視方法
JP2016075968A (ja) * 2013-01-10 2016-05-12 株式会社日立製作所 情報処理装置
JP2015142308A (ja) * 2014-01-30 2015-08-03 富士通株式会社 ネットワークスイッチ、情報処理システム及び接続支援方法
WO2015198402A1 (ja) * 2014-06-24 2015-12-30 富士通株式会社 情報処理システム、接続支援方法及びプログラム

Also Published As

Publication number Publication date
US10771150B2 (en) 2020-09-08
US20200119809A1 (en) 2020-04-16
JP7035950B2 (ja) 2022-03-15

Similar Documents

Publication Publication Date Title
JP5534026B2 (ja) 通信システムの制御方法、通信システム、通信装置
CN103246213B (zh) 冗余控制装置之间的备用同步连接
CN107147540A (zh) 高可用性系统中的故障处理方法和故障处理集群
US20070270984A1 (en) Method and Device for Redundancy Control of Electrical Devices
CN112436885B (zh) 基于kvm坐席的光纤链路互备方法及系统
CN105072029A (zh) 一种双活双控存储系统的冗余链路设计方法及系统
JP7035950B2 (ja) 並列処理装置および光ファイバーケーブルの交換方法
JP2012074841A (ja) ネットワーク管理装置及びネットワーク管理装置の制御方法
EP2741447B1 (en) Programmable logic controller communication system
CN113645048B (zh) 网卡切换方法、装置以及现场可编程逻辑门阵列fpga
CN111314148A (zh) 基于冗余计算机的冗余网络ip智能切换方法及系统
JP2014191401A (ja) 処理装置、制御プログラム、及び制御法
KR20130037977A (ko) 로봇 컴포넌트 관리 장치 및 방법
CN105553735A (zh) 一种堆叠系统故障处理方法、设备及堆叠系统
CN103001832B (zh) 分布式文件系统中节点的检测方法和装置
CN111880999B (zh) 用于高密度刀片服务器的高可用监控管理装置及冗余切换方法
JP2008172575A (ja) 監視装置及び監視方法
KR101234102B1 (ko) 회선 자동 절체 장치 및 그 운용방법
CN212064044U (zh) 一种实时性容错以太网交换机模块
JP6238919B2 (ja) 監視制御システム
JP6654762B2 (ja) 受電装置、給電装置及び電源供給システム
JP2019168739A (ja) 並列計算システム
KR101505491B1 (ko) Pod 기반의 모듈형 데이터 센터 및 그의 모니터링 방법
WO2022190501A1 (ja) ネットワーク機器、及びネットワークシステム
JP2008059531A (ja) コンピュータシステムの障害通報方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220214

R150 Certificate of patent or registration of utility model

Ref document number: 7035950

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150