JP2020065144A

JP2020065144A - 並列処理装置および光ファイバーケーブルの交換方法

Info

Publication number: JP2020065144A
Application number: JP2018195338A
Authority: JP
Inventors: 淳司三木; Junji Miki
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2020-04-23
Anticipated expiration: 2038-10-16
Also published as: US10771150B2; US20200119809A1; JP7035950B2

Abstract

【課題】光ファイバーケーブルの保守作業の効率を向上する。【解決手段】並列処理装置は、複数のチャネルを有する光ファイバーケーブルを介して接続された情報処理装置のペアを有する。各情報処理装置は、光ファイバーケーブルの所定数のチャネルがそれぞれに割り当てられた複数の演算処理部と制御部と表示部とを有する。各演算処理部は、チャネル故障を検出した場合、他の情報処理装置の演算処理部にチャネル故障を通知するとともに、自情報処理装置の制御部にチャネル故障を通知し、他の情報処理装置からのチャネル故障の通知を自情報処理装置の制御部に通知する。制御部は、チャネル故障の通知の受信に基づいて、自情報処理装置の演算処理部に故障した光ファイバーケーブルの使用を停止させ、故障した光ファイバーケーブルに対応する表示部を、光ファイバーケーブルによる通信が停止したことを示す停止表示状態に設定する。【選択図】図１

Description

本発明は、並列処理装置および光ファイバーケーブルの交換方法に関する。

近年、情報処理装置等のコンピュータ間で送受信される情報の伝送容量の増大とともに情報の伝送速度が向上しており、コンピュータ間を光ファイバーケーブルで接続して情報を相互に通信する手法が主流となりつつある。この種のコンピュータシステムでは、信頼性の低下を抑止するために、コンピュータ間での通信の停止期間を短縮するための様々な工夫がなされている。

例えば、光伝送路を介して互いに通信する複数の情報処理装置の各々に、光伝送路に接続された複数のインタフェース回路を設けることで、インタフェース回路のいずれかが故障した場合にも、通信は停止することなく継続される（例えば、特許文献１参照）。

また、複数の伝送路を介して互いに接続されるサーバとストレージとのインタフェース部のいずれかが故障した場合、管理装置は、故障箇所に接続された伝送路を使用した通信を故障箇所が復旧するまで停止させる（例えば、特許文献２参照）。

複数のケーブルがそれぞれ接続される複数のポートを有するネットワーク装置において、ポートのいずれかの障害が検出された場合、障害が検出されたポートに接続されたケーブルがアンロック状態にされ、障害が検出されたポートに対応する点灯部が点灯される。これにより、障害を復旧するためのケーブルの交換作業時にケーブルが誤って挿抜されることが抑止される（例えば、特許文献３参照）。

特開２０１４−１８３４８２号公報特開２００４−８８５７０号公報特開２０１２−７４８４１号公報

例えば、複数のＣＰＵ（Central Processing Unit）を各々含む複数の情報処理装置を有する並列処理装置では、複数の情報処理装置は、光ファイバーケーブル等を介して相互に接続され、処理を並列に実行する。この種の並列処理装置では、情報処理装置の数が多いほど、すなわち、システムの規模が大きいほど、情報処理装置間を接続する光ファイバーケーブルの本数が多くなる。これに伴い、故障した光ファイバーケーブルを交換する保守作業において、交換する光ファイバーケーブルを探すことが困難になり、また、接続の間違い等が発生する可能性が増大する。その結果、光ファイバーケーブルの交換に掛かる作業時間が増大するおそれがある。

また、光ファイバーケーブルを共有し、所定数のチャネルが割り当てられた複数のＣＰＵを含む情報処理装置において、チャネルのいずれかが故障した場合、光ファイバーケーブルの交換は、複数のＣＰＵが処理を停止した後に行われる。ＣＰＵの処理の停止は、情報処理装置毎に実行される。このため、交換する光ファイバーケーブルを使用する全てのＣＰＵの処理が停止したことの確認は、並列処理装置を管理する管理装置を操作するシステム管理者等により行われ、システム管理者から光ファイバーケーブルの交換が指示される。

１つの側面では、本発明は、光ファイバーケーブルの保守作業の効率を向上することを目的とする。

一つの観点によれば、複数のチャネルを有する光ファイバーケーブルを介して接続された所定数の情報処理装置のペアを有する並列処理装置において、前記各情報処理装置は、前記光ファイバーケーブルを共有し、所定数のチャネルがそれぞれに割り当てられた複数の演算処理部と、自情報処理装置を制御する制御部と、前記光ファイバーケーブルに対応して設けられる表示部と、を有し、前記複数の演算処理部の各々は、チャネルの故障であるチャネル故障を検出した場合、故障していないチャネルを使用して他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知するとともに、自情報処理装置の前記制御部に前記チャネル故障を通知し、他の情報処理装置から前記チャネル故障の通知を受信した場合、自情報処理装置の前記制御部に前記チャネル故障を通知し、前記各情報処理装置の前記制御部は、前記チャネル故障の通知の受信に基づいて、故障したチャネルを含む故障光ファイバーケーブルを使用している自情報処理装置の演算処理部を検出し、検出した演算処理部に故障光ファイバーケーブルの使用を停止させ、前記検出した演算処理部による故障光ファイバーケーブルの使用の停止に基づいて、故障光ファイバーケーブルに対応する前記表示部を、故障光ファイバーケーブルによる通信が停止したことを示す停止表示状態に設定する。

別の観点によれば、並列処理装置に含まれる所定数の情報処理装置のペア間に接続された複数のチャネルを有する光ファイバーケーブルの交換方法であって、前記各情報処理装置は、前記光ファイバーケーブルを共有し、所定数のチャネルがそれぞれに割り当てられた複数の演算処理部と、自情報処理装置を制御する制御部と、前記光ファイバーケーブルに対応して設けられる表示部と、を有し、前記複数の演算処理部の各々は、チャネルの故障であるチャネル故障を検出した場合、故障していないチャネルを使用して他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知するとともに、自情報処理装置の前記制御部に前記チャネル故障を通知し、他の情報処理装置から前記チャネル故障の通知を受信した場合、自情報処理装置の前記制御部に前記チャネル故障を通知する機能を有し、前記各情報処理装置の前記制御部は、前記チャネル故障の通知の受信に基づいて、故障したチャネルを含む故障光ファイバーケーブルを使用している自情報処理装置の演算処理部を検出し、検出した演算処理部に故障光ファイバーケーブルの使用を停止させ、前記検出した演算処理部による故障光ファイバーケーブルの使用の停止に基づいて、故障光ファイバーケーブルに対応する前記表示部を、故障光ファイバーケーブルによる通信が停止したことを示す停止表示状態に設定する機能を有し、前記情報処理装置のペアの一方の前記表示部が前記停止表示状態に設定されたかを確認し、前記情報処理装置のペアの他方の前記表示部が前記停止表示状態に設定されたかを確認し、前記情報処理装置のペアの一方と他方の前記表示部が、ともに前記停止表示状態に設定されたことに基づいて、前記光ファイバーケーブルを交換する。

１つの側面では、本発明は、光ファイバーケーブルの保守作業の効率を向上することができる。

一実施形態における並列処理装置の一例を示す図である。図１のＣＰＵと光ファイバーケーブルとの接続の一例を示す図である。図１のシステムボードが有するＣＰＵおよびコントローラの機能部の一例を示す図である。図１の並列処理装置の動作の一例を示す図である。図１の並列処理装置の動作の別の例を示す図である。図１のＣＰＵの動作の一例を示す図である。図６の動作の続きを示す図である。図１のコントローラの動作の一例を示す図である。図１のコントローラの別の動作の一例を示す図である。図１のＣＰＵの別の動作の一例を示す図である。図１の並列処理装置の動作の一例を示す図である。他の並列処理装置の動作の一例を示す図である。他の並列処理装置の動作の別の例を示す図である。別の実施形態における並列処理装置の一例を示す図である。別の実施形態における並列処理装置の一例を示す図である。

以下、図面を用いて実施形態を説明する。

図１は、一実施形態における並列処理装置の一例を示す。

図１に示す並列処理装置１００は、複数のチャネルを有する光ファイバーケーブル１０を介して互いに接続されたシステムボード２０、３０のペアを有する。なお、並列処理装置１００は、複数ペアのシステムボード２０、３０を有してもよい。システムボード２０は、複数のＣＰＵ２２（２２ａ、２２ｂ）、コントローラ２４、表示部２６およびコネクタ２８を有する。システムボード３０は、複数のＣＰＵ３２（３２ａ、３２ｂ）、コントローラ３４、表示部３６およびコネクタ３８を有する。そして、システムボード２０、３０は、コネクタ２８、３８に接続される光ファイバーケーブル１０により互いに接続される。

各システムボード２０、３０は、ネットワーク６０等を介して、並列処理装置１００の全体を管理する管理サーバ等の管理装置５０に接続される。ＣＰＵ２２ａ、２２ｂ、３２ａ、３２ｂの各々は、演算処理部の一例であり、コントローラ２４、３４は、制御部の一例である。以下では、ＣＰＵ２２、３２の区別が不要な場合、ＣＰＵ２２、３２は、単にＣＰＵと称される場合がある。

なお、各システムボード２０、３０に含まれるＣＰＵの数は、２つより多くてもよい。例えば、システムボード２０、３０が４つのＣＰＵをそれぞれ有する場合、システムボード２０、３０は、２本の光ファイバーケーブル１０により接続される。各光ファイバーケーブル１０には、システムボード２０の２つのＣＰＵ２２と、システムボード３０の２つのＣＰＵ３２とが接続される。

システムボード２０、３０は、情報処理装置の一例であり、ラックまたは筐体に収納される。ラックまたは筐体には、複数のシステムボード２０、３０が収納されてもよい。また、システムボード２０、３０の各々は、図示した要素以外にも、主記憶メモリおよび通信インタフェース部等を有してもよい。

例えば、ＣＰＵは、ジョブを並列に実行可能である。また、ＣＰＵは、図示しない他のＣＰＵとともにジョブを並列に実行してもよい。すなわち、並列処理装置１００は、複数のＣＰＵを使用して処理を並列に実行する。なお、システムボード２０、３０の各々に通信インタフェース部が配置される代わりに、ＣＰＵの各々が通信インタフェース部を含んでもよい。ＣＰＵは、光ファイバーケーブル１０を共有し、光ファイバーケーブル１０の所定数のチャネルがそれぞれに割り当てられる。特に限定されないが、光ファイバーケーブル１０は、８つのチャネルを有するＡＯＣ（Active Optical Cable）である。以下では、光ファイバーケーブル１０は、ＡＯＣ１０とも称される。

コントローラ２４は、ＣＰＵ２２ａ、２２ｂの動作を制御するとともに、表示部２６の表示を制御する。例えば、コントローラ２４は、ＣＰＵ２２の一方からチャネルの故障を示すチャネル故障の通知を受信した場合であって、ＣＰＵ２２の他方がＡＯＣ１０を介して通信している場合、ＣＰＵ２２の他方にＡＯＣ１０を使用した通信を停止させる。また、コントローラ２４は、ＣＰＵ２２の動作状態などのシステムボード２０内の状態を示す情報を管理装置５０に出力する。

同様に、コントローラ３４は、ＣＰＵ３２ａ、３２ｂの動作を制御するとともに、表示部３６の表示を制御する。例えば、コントローラ３４は、ＣＰＵ３２の一方からチャネルの故障を示すチャネル故障の通知を受信した場合であって、ＣＰＵ３２の他方がＡＯＣ１０を介して通信している場合、ＣＰＵ３２の他方にＡＯＣ１０を使用した通信を停止させる。また、コントローラ３４は、ＣＰＵ３２の動作状態などのシステムボード３０内の状態を示す情報を管理装置５０に出力する。

表示部２６（３６）は、例えば、ＬＥＤ（Light Emitting Diode）を含み、コントローラ２４（３４）の制御により、点灯状態、消灯状態または点滅状態に設定される。表示部２６（３６）は、ＡＯＣ１０に対応して設けられる。例えば、システムボード２０が、４つのＣＰＵ２２を有し、２本のＡＯＣ１０に接続される場合、システムボード２０は、ＡＯＣ１０毎に表示部２６を有する。同様に、システムボード３０が４つのＣＰＵ３２を有し、２本のＡＯＣ１０に接続される場合、システムボード３０は、ＡＯＣ１０毎に表示部３６を有する。以下では、表示部２６、３６は、ＬＥＤ２６、３６と称される。なお、表示部２６、３６は、ＬＥＤの代わりに電球等のランプを含んでもよく、他の発光体を含んでもよい。

なお、図１では、ＬＥＤ２６とコネクタ２８とが互いに離れ、ＬＥＤ３６とコネクタ３８とが互いに離れている。しかしながら、実際には、ＬＥＤ２６とコネクタ２８とはシステムボード２０上の互いに隣接する位置に配置され、ＬＥＤ２８とコネクタ３８とはシステムボード３０上の互いに隣接する位置に配置される。これにより、後述するように、保守作業者は、ＬＥＤ２６、３６がどのＡＯＣ１０に対応するのかを一目で判断することができ、ＡＯＣ１０の抜き間違いや差し間違いの発生を抑止することができる。

また、ＣＰＵ２２、３２の各々が複数のＡＯＣ１０を介して複数のシステムボードに接続される場合、ＣＰＵ２２、３２の各々に対応する通信インタフェース部は、ルータを有してもよい。これにより、各ＣＰＵ２２、３２をノードとする計算機ネットワーク（インターコネクト）が構築可能である。なお、インターコネクトは、ＡＯＣ１０と電気ケーブルとを併用して構築されてもよい。この場合、相対的に通信距離が大きいノード間は、ＡＯＣ１０を使用して接続され、相対的に通信距離が短いノード間は、電気ケーブルを使用して接続されることが好ましい。

図２は、図１のＣＰＵ２２、３２とＡＯＣ１０との接続の一例を示す。例えば、ＡＯＣ１０は、８本の心線（光ファイバー）を含む光ケーブル１０ａと、光ケーブル１０ａの両端にそれぞれ取り付けられたコネクタ部１０ｂ、１０ｃとを有する。コネクタ部１０ｂは、システムボード２０に取り付けられたコネクタ２８に着脱自在に接続され、コネクタ部１０ｃは、システムボード３０に取り付けられたコネクタ３８に着脱自在に接続される。光ケーブル１０ａは、８本の心線毎にチャネルＣＨ（ＣＨａ１−ＣＨａ４、ＣＨｂ１−ＣＨｂ４）が割り当てられる。以下では、チャネルＣＨが割り当てられた心線は、チャネルＣＨとも称される。図２では、実線の矢印により心線が示され、破線の矢印により電気配線が示される。

チャネルＣＨａ１、ＣＨａ２は、ＣＰＵ２２ａが送信してＣＰＵ３２ａが受信する信号の伝送に使用され、チャネルＣＨａ３、ＣＨａ４は、ＣＰＵ３２ａが送信してＣＰＵ２２ａが受信する信号の伝送に使用される。チャネルＣＨｂ１、ＣＨｂ２は、ＣＰＵ２２ｂが送信してＣＰＵ３２ｂが受信する信号の伝送に使用され、チャネルＣＨｂ３、ＣＨｂ４は、ＣＰＵ３２ｂが送信してＣＰＵ２２ｂが受信する信号の伝送に使用される。

特に限定されないが、例えば、ＣＰＵ２２ａは、チャネルＣＨａ１、ＣＨａ２が正常の場合、パケットを分割し（ストライピング）、分割したパケットをチャネルＣＨａ１、ＣＨａ２を使用して並列に送信する。これにより、１つのチャネルＣＨを使用する場合に比べて、パケットの伝送レートを向上することができる。チャネルＣＨａ１、ＣＨａ２を介して分割されたパケットを受信したＣＰＵ３２ａは、分割されたパケットを元のパケットに統合する。一方、ＣＰＵ２２ａは、チャネルＣＨａ１、ＣＨａ２の一方が故障している場合、チャネルＣＨａ１、ＣＨａ２の他方を使用してパケットを伝送する。

他のＣＰＵ２２ｂ、３２ａ、３２ｂも、ＣＰＵ２２ａと同様に、パケットを送信し、他のＣＰＵ２２ａ、２２ｂ、３２ｂも、ＣＰＵ３２ａと同様に、パケットを受信する。これにより、一対のチャネルＣＨが正常の場合には伝送レートを向上することができ、一対のチャネルＣＨの一方が故障した場合には、チャネルＣＨの他方を使用してパケットの伝送を維持することができる。このように、一対のチャネルＣＨの各々は、冗長のチャネルＣＨとしても使用される。

なお、冗長に使用する心線の数は、２本より多くてもよい。また、ＡＯＣ１０の心線の数（すなわち、チャネル数）は、８本より多くてもよい。例えば、ＣＰＵ２２ａ、３２ａ間を４本の心線（送信チャネル）と４本の心線（受信チャネル）とで接続してもよい。この場合、ＡＯＣ１０は、１６本の心線を有し、ＣＰＵ２２ａ、３２ａ間の通信と、ＣＰＵ２２ｂ、３２ｂ間の通信とに共有される。

コネクタ部１０ｂは、ＣＰＵ２２ａからの電気信号を光信号に変換してチャネルＣＨａ１、ＣＨａ２が割り当てられた光ケーブル１０ａの心線に出力する電気／光変換部（ＥｔｏＯ）を有する。コネクタ部１０ｂは、チャネルＣＨａ３、ＣＨａ４が割り当てられた光ケーブル１０ａの心線を介してＣＰＵ３２ａから受信する光信号を電気信号に変換してＣＰＵ２２ａに出力する光／電気変換部（ＯｔｏＥ）を有する。

また、コネクタ部１０ｂは、ＣＰＵ２２ｂからの電気信号を光信号に変換してチャネルＣＨｂ１、ＣＨｂ２が割り当てられた光ケーブル１０ａの心線に出力する電気／光変換部（ＥｔｏＯ）を有する。コネクタ部１０ｂは、チャネルＣＨｂ３、ＣＨｂ４が割り当てられた光ケーブル１０ａの心線を介してＣＰＵ３２ｂから受信する光信号を電気信号に変換してＣＰＵ２２ｂに出力する光／電気変換部（ＯｔｏＥ）を有する。

コネクタ部１０ｂと同様に、コネクタ部１０ｃは、チャネルＣＨａ１、ＣＨａ２に対応する光／電気変換部（ＯｔｏＥ）と、チャネルＣＨａ３、ＣＨａ４に対応する電気／光変換部（ＥｔｏＯ）とを有する。また、コネクタ部１０ｃは、チャネルＣＨｂ１、ＣＨｂ２に対応する光／電気変換部（ＯｔｏＥ）と、チャネルＣＨｂ３、ＣＨｂ４に対応する電気／光変換部（ＥｔｏＯ）とを有する。

例えば、コネクタ部１０ｂ、１０ｃは、光ケーブル１０ａの両端にそれぞれ固着されている。このため、コネクタ部１０ｂ、１０ｃの電気／光変換部または光／電気変換部のいずれかが故障した場合、光ケーブル１０ａとコネクタ部１０ｂ、１０ｃとを含むＡＯＣ１０全体が交換される。なお、コネクタ部１０ｂ、１０ｃの各々と光ケーブル１０ａとが着脱自在に接続される光ファイバーケーブルが、システムボード２０、３０との接続に使用されてもよい。また、チャネルＣＨは、心線だけでなく、心線に接続された電気／光変換部および光／電気変換部の電気配線にも割り当てられる。このため、チャネルＣＨの故障は、芯線の断線等の不具合だけでなく、電気／光変換部または光／電気変換部の故障によっても発生する。

図３は、図１のシステムボード２０が有するＣＰＵ２２ａ、２２ｂおよびコントローラ２４の機能部の一例を示す。ＣＰＵ２２ａ、２２ｂの各々は、通知部４２、４４を有する。コントローラ２４は、検出制御部５２、停止制御部５４および表示制御部５６を有する。

通知部４２は、自ＣＰＵ２２に割り当てられた４つのチャネルＣＨのいずれかの故障であるチャネル故障を検出した場合、故障していない送信側のチャネルＣＨを使用して、通信先のＣＰＵ３２にチャネル故障を通知するパケットを送信する。また、通知部４２は、チャネル故障を検出した場合、コントローラ２４にチャネル故障を通知する。

通知部４４は、通信相手のＣＰＵ３２からチャネル故障の通知を示すパケットを受信した場合、自システムボード２０のコントローラ２４にチャネル故障を通知する。

検出制御部５２は、ＣＰＵ２２からのチャネル故障の通知の受信に基づいて、ＣＰＵ２２の状態をモニタし、ＣＰＵ２２が、故障したチャネルＣＨを含むＡＯＣ１０を介して通信しているか否かを検出する。

停止制御部５４は、ＡＯＣ１０を介して通信しているＣＰＵ２２が検出制御部５２により検出された場合、検出されたＣＰＵ２２にＡＯＣ１０を使用した通信を停止させる停止指示を出力する。例えば、停止指示は、検出されたＣＰＵ２２にジョブの実行を停止させる指示である。停止指示を受信したＣＰＵ２２は、実行中のジョブを停止することで、ＡＯＣ１０を使用した通信を停止し、通信を停止したことをコントローラ２４に通知する。なお、チャネル故障を通知したＣＰＵ２２が、チャネル故障の検出に基づいて実行中のジョブを自ら停止する場合、停止制御部５４は、チャネル故障の通知を受信していない他のＣＰＵ２２のみにジョブの実行を停止させる停止指示を出力してもよい。

表示制御部５６は、停止指示を出力したＣＰＵ２２からの通信を停止したこと示す通知に基づいて、故障したチャネルＣＨを含むＡＯＣ１０に対応するＬＥＤ２６を、ＡＯＣ１０が交換可能であることを示す表示状態に設定する。例えば、ＬＥＤ２６が、ＡＯＣ１０が正常に動作可能なときに点灯状態に設定される緑色の場合、ＡＯＣ１０が交換可能であることを示す表示状態は、消灯状態である。一方、ＬＥＤ２６が、ＡＯＣ１０に何らかの異常があるときに点灯状態に設定される赤色の場合、ＡＯＣ１０が交換可能であることを示す表示状態は、点灯状態である。

例えば、通知部４２、４４の機能は、ＣＰＵ２２が実行する制御プログラムにより実現される。例えば、検出制御部５２、停止制御部５４および表示制御部５６の機能は、コントローラ２４が有するＣＰＵ等のプロセッサが実行する制御プログラムにより実現される。なお、通知部４２、４４の機能は、ハードウェア（論理回路）により実現されてもよく、検出制御部５２、停止制御部５４および表示制御部５６の機能は、ハードウェア（論理回路）により実現されてもよい。

なお、図１のシステムボード３０が有するＣＰＵ３２およびコントローラ３４の機能部の構成および機能も図３と同様である。ＣＰＵ３２およびコントローラ３４の機能部は、上述の説明のＣＰＵ２２をＣＰＵ３２に、ＣＰＵ３２をＣＰＵ２２に、コントローラ２４をコントローラ３４に、ＬＥＤ２６をＬＥＤ３６に、システムボード２０をシステムボード３０に読み替えることで説明される。

図４は、図１の並列処理装置１００の動作の一例を示す。ＣＰＵ２２ａ、２２ｂ、３２ａ、３２ｂにおいて、白い矩形は、ＡＯＣ１０を使用するジョブが実行されていることを示す。ＬＥＤ２６、３６において、白い矩形は点灯状態を示し、黒い矩形は消灯状態を示す。ＬＥＤ２６、３６は、例えば、点灯状態において緑色の光を出射する。

例えば、ＣＰＵ２２ａは、チャネルＣＨａ１、ＣＨａ２、ＣＨａ３、ＣＨａ４を使用してＣＰＵ３２ａとともに並列にジョブを実行中に、チャネルＣＨａ３の故障を検出する（図４（ａ））。ＣＰＵ２２ａは、ジョブを停止し、正常に動作するチャネルＣＨａ１、ＣＨａ２の少なくとも一方を用いて、ＣＰＵ３２ａにチャネル故障を通知する（図４（ｂ）、（ｃ））。また、ＣＰＵ２２ａは、コントローラ２４にチャネル故障を通知する（図４（ｄ））。

コントローラ２４は、故障の通知に基づいて、ＡＯＣ１０を介して通信しているＣＰＵ２２があるか否かを検出する（図４（ｅ））。コントローラ２４は、ＣＰＵ２２ｂがＡＯＣ１０を介して通信していることを検出した場合、ジョブの実行を停止させる停止指示をＣＰＵ２２ｂに出力する（図４（ｆ））。コントローラ２４は、ＣＰＵ２２ｂからジョブを停止したことを示す停止通知を受信したことに基づいて、ＬＥＤ２６を消灯する（図４（ｇ）、（ｈ））。

なお、コントローラ２４は、ＡＯＣ１０を使用した通信をＣＰＵ２２ｂが実行していないことを検出した場合、ＬＥＤ２６を消灯する。ＬＥＤ２６の消灯は、システムボード２０上の全てのＣＰＵ２２がＡＯＣ１０を使用した通信を実行していないことを示す。

例えば、システムボード２０が、ＡＯＣ１０を共有する３以上のＣＰＵ２２を有する場合、コントローラ２４は、チャネル故障を検出したＣＰＵ２２ａの除く他の全てのＣＰＵ２２がＡＯＣ１０を介して通信しているか否かを検出する。そして、コントローラ２４は、ＡＯＣ１０を介して通信している全てのＣＰＵ２２がジョブを停止したことに基づいて、ＬＥＤ２６を消灯させる。

一方、ＣＰＵ２２ａからチャネル故障の通知を受信したＣＰＵ３２ａは、ジョブを停止し、コントローラ３４にチャネル故障を通知する（図４（ｉ）、（ｊ））。コントローラ３４は、故障の通知に基づいて、ＡＯＣ１０を介して通信しているＣＰＵ３２があるか否かを検出する（図４（ｋ））。コントローラ３４は、ＣＰＵ３２ｂがＡＯＣ１０を介して通信していることを検出した場合、ジョブの実行を停止させる停止指示をＣＰＵ３２ｂに出力する（図４（ｌ））。コントローラ３４は、ＣＰＵ２２ｂからジョブを停止したことを示す停止通知を受信したことに基づいて、ＬＥＤ３６を消灯する（図４（ｍ）、（ｎ））。

なお、コントローラ３４は、ＡＯＣ１０を使用した通信をＣＰＵ３２ｂが実行していないことを検出した場合、ＬＥＤ３６を消灯する。ＬＥＤ３６の消灯は、システムボード３０上の全てのＣＰＵ３２がＡＯＣ１０を使用した通信を実行していないことを示す。ジョブが停止したことに基づくＬＥＤ２６、３６の各々の消灯状態は、故障したＡＯＣ１０による通信が停止したことを示す停止表示状態の一例である。

例えば、並列処理装置１００の各種保守を行う保守作業者は、ＡＯＣ１０により接続されたシステムボード２０、３０のＬＥＤ２６、３６の両方が消灯された場合、ＡＯＣ１０を使用した通信が実行されていないため、ＡＯＣ１０の交換が可能であると判断する。そして、保守作業者は、故障したチャネルＣＨを含むＡＯＣ１０を新たなＡＯＣ１０に交換する交換作業を実施する（図４（ｏ））。ＡＯＣ１０の交換した後のコントローラ２４、３４およびＣＰＵ２２、３２の動作は、図９および図１０に示される。なお、故障したチャネルＣＨを含むＡＯＣ１０は、正常なチャネルＣＨを含むが、以下の説明では、故障したＡＯＣ１０とも称される。

なお、コントローラ２４は、ＣＰＵ２２からチャネル故障の通知を受信した場合、管理装置５０にチャネル故障を通知する。コントローラ３４は、ＣＰＵ３２からチャネル故障の通知を受信した場合、管理装置５０にチャネル故障を通知する。管理装置５０は、チャネル故障の通知の受信に基づいて、管理装置５０の設けられる表示装置の画面に、例えば、チャネル故障が発生したシステムボード２０（または３０）とチャネル故障が発生したＡＯＣ１０とを示す情報を表示する。すなわち、表示装置の画面には、ＡＯＣ１０を使用した通信で異常が発生したことを示す情報が表示される。

例えば、並列処理装置１００の運用を管理するシステム管理者は、管理装置５０の表示装置の画面に表示される情報に基づいて、保守作業者にＡＯＣ１０の故障を連絡する。なお、保守作業者は、管理者からの連絡によりＡＯＣ１０の故障を認識してもよく、他の手段によりＡＯＣ１０の故障を認識してもよい。例えば、保守作業者が並列処理装置１００の近くにいる場合、保守作業者は、ＬＥＤ２６、３６が両方消灯したことに基づいて、ＡＯＣ１０の故障を認識してもよい。

図４に示すように、並列処理装置１００は、システムボード２０、３０のそれぞれにおいて、ＡＯＣ１０を使用した通信の停止に基づいて、ＬＥＤ２６、３６を消灯し、ＬＥＤ２６、３６の両方の消灯に基づいてＡＯＣ１０の交換を可能とする。このため、点灯しているＬＥＤ２６、３６に対応するＡＯＣ１０（通信で使用中）が抜かれることで、実行中のジョブが異常停止するシステム障害を抑止することができる。

また、各システムボード２０、３０に複数のＡＯＣ１０が接続される場合にも、故障したＡＯＣ１０に対応するＬＥＤ２６、３６のペアの消灯に基づいて、ＡＯＣ１０の交換が可能になったと判断される。このため、点灯中のＬＥＤに対応する故障していない他のＡＯＣ１０がコネクタ２８、３８から誤って抜かれることを抑止することができ、ＡＯＣ１０の交換作業の効率を向上することができる。例えば、複数のＡＯＣ１０が接続される複数のシステムボード２０がラックに収納され、ラックに多数のＡＯＣ１０が収容される場合にも、故障していないＡＯＣ１０が誤って抜かれることを抑止することができる。

図５は、図１の並列処理装置１００の動作の別の例を示す。図５と同様の動作については、詳細な説明は省略される。図５では、ＣＰＵ２２ａは、一対の送信側のチャネルＣＨａ１、ＣＨａ２の両方のチャネル故障を検出する（図５（ａ））。このため、ＣＰＵ２２ａは、ＣＰＵ３２ａにチャネル故障を通知できない。

ＣＰＵ２２ａは、ジョブを停止し、自システムボード２０内のＣＰＵ２２ｂに、チャネル故障をシステムボード３０に通知する依頼を発行する（図５（ｂ）、（ｃ））。ＣＰＵ２２ａからＣＰＵ２２ｂへの通知の依頼は、図３に示していない通信経路を介して発行されてもよく、コントローラ２４を介して発行されてもよい。

ＣＰＵ２２ａは、コントローラ２４にチャネル故障を通知する（図５（ｄ））。ＣＰＵ２２ａによるチャネル故障のコントローラ２４への通知と、コントローラ２４によるＡＯＣ１０を使用した他のＣＰＵ２２の通信の検出動作とは、図４と同様である（図５（ｅ）、（ｆ））。コントローラ２４は、ＣＰＵ２２ｂからジョブを停止したことを示す停止通知を受信したことに基づいて、ＬＥＤ２６を消灯する（図５（ｇ）、（ｈ））。

通知の依頼を受信したＣＰＵ２２ｂは、一対の送信側のチャネルＣＨｂ１、ＣＨｂ２の少なくとも一方を使用して、ＣＰＵ３２ｂにチャネル故障を通知する（図５（ｉ））。ＣＰＵ２２ｂからチャネル故障の通知を受信したＣＰＵ３２ｂは、コントローラ３４にチャネル故障を通知する（図５（ｊ））。なお、ＣＰＵ２２ｂは、ＣＰＵ２２ａからチャネル故障の通知の依頼を受信したことに基づいて、コントローラ２４からジョブの停止が指示される前に、実行中のジョブを停止してもよい。

ＣＰＵ３２ａは、ＣＰＵ２２ａからパケットを受信しないことに基づいて、チャネルＣＨａ１、ＣＨａ２のチャネル故障を検出し、ジョブを停止し、コントローラ３４にチャネル故障を通知する（図５（ｋ）、（ｌ））。

図４と同様に、コントローラ３４は、故障の通知に基づいて、ＡＯＣ１０を介して通信しているＣＰＵがあるか否かを検出する（図５（ｍ））。この際、コントローラ３４は、ＣＰＵ３２ａ、３２ｂからのチャネル故障の通知のうち、早いほうの通知に基づいて、ＡＯＣ１０を介して通信しているＣＰＵがあるか否かを検出する。

コントローラ３４は、ＣＰＵ３２ｂがＡＯＣ１０を介して通信していることを検出した場合、ジョブの実行を停止させる停止指示をＣＰＵ３２ｂに出力する（図５（ｎ））。コントローラ２４は、ＣＰＵ２２ｂからジョブを停止したことを示す停止通知を受信したことに基づいて、ＬＥＤ２６を消灯する（図５（ｏ）、（ｐ））。そして、並列処理装置１００の各種保守を行う保守作業者は、ＡＯＣ１０により接続されたシステムボード２０、３０のＬＥＤ２６、３６が両方消灯された場合、ＡＯＣ１０の交換作業を実施する（図５（ｑ））。

なお、ＣＰＵ３２ｂがチャネル故障の通知に基づいてジョブを停止する場合、コントローラ３４は、ＡＯＣ１０を使用した通信を実行しているＣＰＵ３２を検出しない。この場合、コントローラ２４は、ジョブの停止の指示を発行することなく、ＬＥＤ３６を消灯する。また、図４と同様に、コントローラ２４は、ＣＰＵ２２からチャネル故障の通知を受信した場合、管理装置５０にチャネル故障を通知する。コントローラ３４は、ＣＰＵ３２からチャネル故障の通知を受信した場合、管理装置５０にチャネル故障を通知する。チャネル故障の通知を受信した管理装置５０は、図４の説明と同様に動作する。

図５に示すように、ＣＰＵ２２ａの一対の送信側のチャネルＣＨａ１、ＣＨａ２の両方が故障した場合、ＣＰＵ２２ａは、ＣＰＵ２２ｂにシステムボード３０へのチャネル故障の通知を依頼する。依頼を受信したＣＰＵ２２ｂは、通信相手であるＣＰＵ３２ｂにチャネル故障を通知する。これにより、一対の送信側のチャネルＣＨが両方使えない場合にも、チャネル故障を通信先のシステムボード３０に通知することができ、ＡＯＣ１０の交換作業の開始の合図であるＬＥＤ２６、３６の消灯動作を正常に実行することができる。

図６および図７は、図１のＣＰＵ２２、３２の動作の一例を示す。すなわち、図６および図７は、ＣＰＵ２２、３２の制御方法の一例を示す。図６および図７に示す動作は、ＣＰＵ２２、３２が制御プログラムを実行することで実現される。図６および図７に示す動作フローは、例えば、所定の周期で開始される。ＣＰＵ２２、３２の動作は、互いに同じであるため、以下では、ＣＰＵ２２の動作が説明される。

なお、チャネル故障は、図２に示す光ケーブル１０ａの心線だけでなく、電気／光変換部および光／電気変換部の故障によっても発生する。また、ＣＰＵ２２、３２は、図６および図７に示す動作とは別に、情報処理を実行する処理プログラム（ユーザプログラム、アプリケーションプログラム等）を実行することで、ジョブを実行する。

まず、ステップＳ１０２において、ＣＰＵ２２は、例えば、送信パケットに対する応答の有無、またはビットエラーレート等に基づいて、チャネル故障が発生したか否かを判定する。チャネル故障が発生した場合、処理はステップＳ１０４に移行され、チャネル故障が発生していない場合、処理は図７のＡ（ステップＳ１１４）に移行される。

ステップＳ１０４において、ＣＰＵ２２は、チャネル故障の発生を通信先のＣＰＵ３２に通知可能な場合、処理をステップＳ１０６に移行し、チャネル故障の発生を通信先のＣＰＵ３２に通知できない場合、処理をステップＳ１１２に移行する。例えば、ＣＰＵ２２ａは、送信側のチャネルＣＨａ１、ＣＨａ２の両方の故障を判定した場合、チャネル故障の発生を通信先のＣＰＵ３２に通知できないと判定する。

ステップＳ１０６において、ＣＰＵ２２は、チャネル故障が発生していない正常なチャネルＣＨを使用して、通信先のＣＰＵ３２にチャネル故障の発生を通知する。次に、ステップＳ１０８において、ＣＰＵ２２は、実行中のジョブを停止することで、ＡＯＣ１０を使用した通信を停止する。次に、ステップＳ１１０において、ＣＰＵ２２は、コントローラ２４にチャネル故障の発生を通知し、処理を図７のＡ（ステップＳ１１４）に移行する。

ステップＳ１１２において、ＣＰＵ２２は、チャネル故障のシステムボード３０への通知を、自システムボード２０内の他のＣＰＵ２２に依頼し、処理を図７のＡ（ステップＳ１１４）に移行する。

図７のステップＳ１１４において、ＣＰＵ２２は、システムボード２０の他のＣＰＵ２２からチャネル故障のシステムボード３０への通知を依頼された場合、処理をステップＳ１１６に移行する。ＣＰＵ２２は、システムボード２０の他のＣＰＵ２２からチャネル故障のシステムボード３０への通知を依頼されていない場合、処理をステップＳ１１８に移行する。ステップＳ１１６において、ＣＰＵ２２は、チャネル故障が発生していない正常なチャネルＣＨを使用して、通信先のＣＰＵ３２にチャネル故障の発生を通知し、処理をステップＳ１１８に移行する。

ステップＳ１１８において、ＣＰＵ２２は、通信先のＣＰＵ３２からチャネル故障の通知を受信した場合、処理をステップＳ１２０に移行し、通信先のＣＰＵ３２からチャネル故障の通知を受信しない場合、処理をステップＳ１２４に移行する。ステップＳ１２０において、ＣＰＵ２２は、実行中のジョブを停止することで、ＡＯＣ１０を使用した通信を停止する。次に、ステップＳ１２２において、ＣＰＵ２２は、コントローラ２４にチャネル故障の発生を通知し、処理をステップＳ１２４に移行する。

ステップＳ１２４において、ＣＰＵ２２は、コントローラ２４からジョブを停止する指示を受信した場合、処理をステップＳ１２６に移行し、コントローラ２４からジョブを停止する指示を受信しない場合、処理を終了するす。ステップＳ１２６において、ＣＰＵ２２は、実行中のジョブを停止することで、ＡＯＣ１０を使用した通信を停止する。次に、ステップＳ１２８において、ＣＰＵ２２は、コントローラ２４にジョブを停止したことを通知し、処理をステップＳ１０２に戻す。

図８は、図１のコントローラ２４、３４の動作の一例を示す。すなわち、図８は、コントローラ２４、３４の制御方法の一例を示す。図８に示す動作は、コントローラ２４、３４のそれぞれが有するＣＰＵが制御プログラムを実行することで実現される。図８に示す動作フローは、例えば、システムボード２０、３０間での通信が確立される毎（すなわち、チャネルＣＨをリンクアップさせる起動動作毎）に開始される。コントローラ２４、３４の動作は、互いに同じであるため、以下では、コントローラ２４の動作が説明される。なお、コントローラ２４は、図８に示す動作とは別に、ＣＰＵ２２の状態をモニタするとともに、ＡＯＣ１０の接続状態をモニタする制御プログラムを実行する。

まず、ステップＳ２００において、コントローラ２４は、ＣＰＵ２２のいずれかからのチャネル故障の通知を待ち、チャネル故障の通知の受信に基づいて、処理をステップＳ２０２に移行する。ステップＳ２０２において、コントローラ２４は、チャネル故障の通知の受信に基づいて、ＡＯＣ１０を使用した通信に異常が発生したことを管理装置５０に通知する。

次に、ステップＳ２０４において、コントローラ２４は、故障したチャネルＣＨを含むＡＯＣ１０を介して通信しているＣＰＵ２２を検出する。例えば、コントローラ２４は、各ＣＰＵ２２から通知されるジョブの実行情報に基づいて、ＡＯＣ１０を介して通信しているＣＰＵ２２を検出する。また、コントローラ２４は、各ＣＰＵ２２がどのチャネルＣＨを使用してどのＣＰＵ３２に接続されているかを示す情報を保持している。

次に、ステップＳ２０６において、コントローラ２４は、故障したチャネルＣＨを含むＡＯＣ１０を介して通信しているＣＰＵ２２を検出した場合、処理をステップＳ２０８に移行する。コントローラ２４は、故障したチャネルＣＨを含むＡＯＣ１０を介して通信しているＣＰＵ２２を検出しない場合、処理をステップＳ２１２に移行する。

ステップＳ２０８において、コントローラ２４は、検出したＣＰＵ２２にジョブの停止を指示し、処理をステップＳ２１０に移行する。ステップＳ２１０において、コントローラ２４は、ジョブの停止を指示したＣＰＵ２２からジョブの停止の通知の受信を待ち、ジョブの停止の通知を受信した場合、処理をステップＳ２１２に移行する。ステップＳ２１２において、コントローラ２４は、ＬＥＤ２６を消灯し、動作を終了する。

図９は、図１のコントローラ２４、３４の別の動作の一例を示す。すなわち、図９は、コントローラ２４、３４の制御方法の一例を示す。図９に示す動作は、コントローラ２４、３４のそれぞれが有するＣＰＵが制御プログラムを実行することで実現される。

図９に示す動作フローは、例えば、システムボード２０、３０へのＡＯＣ１０の接続が検出されたことに基づいて開始される。ＡＯＣ１０の接続は、ＡＯＣ１０に設けられる接続検出用の端子がコネクタ２８（図２）に接続された場合に論理レベルが変化するシステムボード２０上の信号を、コントローラ２４が受信することにより検出される。例えば、ＡＯＣ１０の接続は、故障したＡＯＣ１０を交換した場合、または、ＡＯＣ１０を接続し直した場合に検出される。コントローラ２４、３４の動作は、互いに同じであるため、以下では、コントローラ２４の動作が説明される。

まず、ステップＳ２２０において、コントローラ２４は、ＬＥＤ２６を点灯する。次に、ステップＳ２２２において、コントローラ２４は、接続が検出されたＡＯＣ１０を介して通信するＣＰＵ２２に座標情報の交換を指示する。例えば、コントローラ２４は、ＣＰＵ２２に、ＡＯＣ１０を介して接続される他のＣＰＵ３２に対して座標上を取得することを要求する。

ここで、座標情報は、複数のＣＰＵ２２、３２を含む計算機ネットワーク上での各ＣＰＵ２２、３２の位置（すなわち、座標）を示す情報である。例えば、３次元メッシュ／トーラスネットワークに含まれるＣＰＵ２２、３２（ノード）の座標情報は、Ｘ軸、Ｙ軸、Ｚ軸の座標（Ｘ、Ｙ、Ｚ）を含む。各ＣＰＵ２２、３２は、自分の座標を示す座標情報と、ネットワーク上で直接接続される他のＣＰＵ３２、２２の座標を示す座標情報とを予め保持している。３次元メッシュ／トーラスネットワークでは、座標情報が保持される他のＣＰＵ３２、２２は、自ＣＰＵに対してＸ＋、Ｘ−、Ｙ＋、Ｙ−、Ｚ＋、Ｚ−に位置する。ＣＰＵ２２、３２による座標情報の交換動作の例は、図１０で説明される。

次に、ステップＳ２２４において、コントローラ２４は、ＣＰＵ３２との間で座標情報を交換したＣＰＵ２２から通知されるＡＯＣ１０の接続情報を受信するまで待ち、接続情報の受信に基づいて、処理をステップＳ２２６に移行する。ステップＳ２２６において、コントローラ２４は、受信した接続情報が、ＡＯＣ１０を介して正しいＣＰＵ３２にＣＰＵ２２が接続されたことを示す場合、処理をステップＳ２２８に移行する。一方、コントローラ２４は、受信した接続情報が、ＡＯＣ１０を介して間違ったＣＰＵ３２にＣＰＵ２２が接続されたことを示す場合、処理をステップＳ２３０に移行する。すなわち、ＡＯＣ１０の接続が間違っている場合、処理は、ステップＳ２３０に移行される。

ステップＳ２２８において、コントローラ２４は、ＬＥＤ２６を消灯し、動作を終了する。ステップＳ２３０において、コントローラ２４は、ＬＥＤ２６を点滅させ、動作を終了する。ＡＯＣ１０が正しく接続された場合、その後、ＣＰＵ２２、２３間で各チャネルＣＨを通信可能な状態にするリンクアップが実行され、リンクアップの完了に伴い、ＬＥＤ２６は再び点灯する。一方、ＡＯＣ１０が間違って接続された場合、ＬＥＤ２６の点滅により、保守作業者は、接続の間違いを認識し、ＡＯＣ１０を正しい経路に接続するために、ＡＯＣ１０を接続し直す。ＡＯＣ１０が接続し直された場合、コントローラ２４は、図９に示す動作を再び実行する。

図１０は、図１のＣＰＵ２２、３２の別の動作の一例を示す。すなわち、図１０は、ＣＰＵ２２、３２の制御方法の一例を示す。図１０に示す動作は、ＣＰＵ２２、３２が制御プログラムを実行することで実現される。ＣＰＵ２２、３２の動作は、互いに同じであるため、以下では、ＣＰＵ２２の動作が説明される。図１０に示す動作フローは、ＣＰＵ２２が、コントローラ２４から座標情報の交換の指示（図９のステップＳ２２２）を受信したことに基づいて開始される。

まず、ステップＳ１４０において、ＣＰＵ２２は、ＡＯＣ１０を介して接続された通信相手のＣＰＵ３２に座標情報を要求する。例えば、ＡＯＣ１０が交換される場合、ＡＯＣ１０の一方のコネクタ部１０ｂは、コネクタ２８を介してＣＰＵ２２ａ、２２ｂに接続され、ＡＯＣ１０の他方のコネクタ部１０ｃは、コネクタ３８を介してＣＰＵ３２ａ、３２ｂに接続される。このため、ＡＯＣ１０が交換される場合、ＣＰＵ２２ａ、２２ｂは、それぞれＣＰＵ３２ａ、３２ｂに座標情報を要求し、ＣＰＵ３２ａ、３２ｂは、それぞれＣＰＵ２２ａ、２２ｂに座標情報を要求する。そして、ＣＰＵ２２ａ、３２ａ間と、ＣＰＵ２２ｂ、３２ｂ間で、座標情報の交換が相互に実行される。なお、ＣＰＵ２２は、相手のＣＰＵ３２に座標情報を要求する場合、自分の座標情報をＣＰＵ３２に通知してもよい。

次に、ステップＳ１４２において、ＣＰＵ２２は、ＣＰＵ３２から受信した座標情報が正しい場合、処理をステップＳ１４４に移行し、ＣＰＵ３２から受信した座標情報が間違っている場合、処理をステップＳ１４６に移行する。

例えば、３次元メッシュ／トーラスネットワークでは、ＣＰＵ２２は、ＣＰＵ３２から受信した座標情報が、自分の座標（Ｘ、Ｙ、Ｚ）に対して、Ｘ軸、Ｙ軸、Ｚ軸のいずれか１つが”１”だけ異なる場合、座標情報が正しいと判定する。例えば、ＣＰＵ２２は、自分の座標が（２、２、２）で、受信した座標情報が（２、１、２）、（１、２、２）または（２、２、３）等の場合、ＡＯＣ１０の接続が正しいと判定する。

一方、ＣＰＵ２２は、ＣＰＵ３２から受信した座標情報が、自分の座標（Ｘ、Ｙ、Ｚ）に対して、Ｘ軸、Ｙ軸、Ｚ軸の座標の差の総和が”２”以上の場合、ＡＯＣ１０の接続が間違っていると判定する。例えば、ＣＰＵ２２は、自分の座標が（２、２、２）で、受信した座標情報が（２、０、２）、（１、１、２）または（１、２、３）等の場合、ＡＯＣ１０の接続が間違っていると判定する。

ステップＳ１４４において、ＣＰＵ２２は、ＡＯＣ１０の接続が正常であることを示す接続情報をコントローラ２４に通知し、動作を終了する。ステップＳ１４６において、ＣＰＵ２２は、ＡＯＣ１０の接続が間違っていることを示す接続情報をコントローラ２４に通知し、動作を終了する。

図１１は、図１の並列処理装置の保守作業の一例を示す。図１１の上側の保守シーケンスは、ＡＯＣ１０の故障が発生した後、保守作業により、故障したＡＯＣ１０が新しいＡＯＣ１０に正常に交換される場合を示す。図１１の下側の保守シーケンスは、ＡＯＣ１０の故障が発生した後、保守作業において、新しいＡＯＣ１０のコネクタ部１０ｂ、１０ｃの一方が、故障したＡＯＣ１０が接続されていたシステムボードとは異なるシステムボードに接続される場合を示す。

図１１の上側の保守シーケンスにおいて、ＡＯＣ１０のチャネル故障がＣＰＵ２２、３２のいずれかにより検出され、並列処理装置１００は、図４から図８に示す動作を実行する。コントローラ２４、３４の少なくともいずれかは、ＡＯＣ１０を使用した通信で異常が発生したことを管理装置５０に通知する（図１１（ａ））。管理装置５０は、通信の異常の発生（アラーム）を表示装置に表示する。並列処理装置１００のコントローラ２４、３４は、ＬＥＤ２６、３６を消灯することで、ＡＯＣ１０を使用した通信の停止によりＡＯＣ１０が交換可能になったことを、保守作業者等が認識できるようにする（図１１（ｂ））。上述したように、チャネル故障の発生後のＬＥＤ２６、３６の消灯状態は、故障したＡＯＣ１０による通信が停止したことを示す停止表示状態である。

並列処理装置１００の運用を管理するシステム管理者は、管理装置５０の表示画面に表示されたアラームに基づいて、ＡＯＣ１０が故障したか否かを判断する。システム管理者は、ＡＯＣ１０の故障を判断した場合、管理装置５０の端末を操作し、故障したＡＯＣ１０に接続されたシステムボード２０、３０の動作を停止させる停止指示を、システムボード２０、３０のコントローラ２４、３４に発行する（図１１（ｃ））。停止指示を受信したコントローラ２４、３４は、例えば、システムボード２０、３０を通常の動作モードからメンテナンスモードに移行させる。

また、システム管理者は、並列処理装置１００を保守する保守作業者にＡＯＣ１０が故障したことを連絡する（図１１（ｄ））。保守作業者は、システム管理者からの連絡に基づいて、ＡＯＣ１０の保守（すなわち、ＡＯＣ１０の交換作業）を実施する（図１１（ｅ））。並列処理装置１００の各コントローラ２４、３４は、新しいＡＯＣ１０がシステムボード２０、３０にそれぞれ接続されたことに基づいて、ＬＥＤ２６、３６を点灯する（図１１（ｆ））。ＬＥＤ２６、３６の点灯状態は、ＡＯＣ１０がシステムボード２０、３０の各々に接続されたことを示す接続表示状態の一例である。また、各コントローラ２４、３４は、新しいＡＯＣ１０が正常に接続されたことの検出に基づいて、ＬＥＤ２６、３６を消灯する（図１１（ｇ））。すなわち、並列処理装置１００は、図９および図１０に示す動作を実行する。新しいＡＯＣ１０の接続後のＬＥＤ２６、３６の消灯状態は、ＡＯＣ１０の接続が正常であることを示す正常表示状態の一例である。

保守作業者は、ＡＯＣ１０のシステムボード２０、３０への接続時に、ＬＥＤ２６、３６の各々が一時的に点灯し、その後消灯することで、ＡＯＣ１０が正しい位置に正常に接続されたことを認識することができる。保守作業者は、ＡＯＣ１０の保守の完了をシステム管理者に連絡する（図１１（ｈ））。システム管理者は、管理装置５０の端末を操作し、ＡＯＣ１０が交換されたシステムボード２０、３０を再起動する（図１１（ｉ））。そして、システムボード２０、３０を使用した並列処理装置１００の通常運用が再開される。

図１１の下側の保守シーケンスにおいて、保守作業者がＡＯＣ１０の保守を開始するまでの動作および処理は、図１１の上側のシーケンスと同じである。図１１の下側のシーケンスでは、保守作業者は、故障したＡＯＣ１０をシステムボード２０、３０から抜いた後、新しいＡＯＣ１０の一端を、誤ってシステムボード２０、３０以外のシステムボードに接続する。すなわち、ＡＯＣ１０の接続間違いが発生する（図１１（ｊ））。

例えば、新しいＡＯＣ１０がシステムボード２０と、システムボード３０ではない他のシステムボードとに接続された場合、ＣＰＵ２２ａ、２２ｂは、ＡＯＣ１０を介してＣＰＵ３２ａ、３２ｂ以外のＣＰＵに接続される。システムボード２０のＬＥＤ２６は、新しいＡＯＣ１０が接続されたことに基づいて一旦点灯する（図１１（ｋ））。しかし、その後のＣＰＵ間での座標情報の交換により、ＡＯＣ１０の接続の異常が検出され、ＬＥＤ２６は点滅する（図１１（ｌ））。すなわち、並列処理装置１００は、図９および図１０に示す動作を実行する。新しいＡＯＣ１０の接続後のＬＥＤ２６、３６の点滅状態は、ＡＯＣ１０の接続が間違っていることを示すエラー表示状態の一例である。なお、新しいＡＯＣ１０が接続されていないシステムボード３０のＬＥＤ３６は、消灯状態に維持される。

保守作業者は、ＬＥＤ２６の点滅により、ＡＯＣ１０の接続先を間違えたことを、システム管理者からの連絡を待つことなく、その場で認識することができる。そして、保守作業者は、ＡＯＣ１０を、本来のシステムボード２０、３０に接続し直す。これにより、並列処理装置１００は、図９および図１０に示す動作を実行し、ＬＥＤ２６、３６を点灯した後、消灯する（図１１（ｍ）、（ｎ））。保守作業者は、ＬＥＤ２６、３６が消灯したことに基づいて、ＡＯＣ１０が正しい位置に正常に接続されたことを認識し、ＡＯＣ１０の保守の完了をシステム管理者に連絡する（図１１（ｏ））。システム管理者は、管理装置５０の端末を操作し、ＡＯＣ１０が交換されたシステムボード２０、３０を再起動する（図１１（ｐ））。そして、システムボード２０、３０を使用した並列処理装置１００の通常運用が再開される。

図１２は、他の並列処理装置の動作の一例を示す。図１２に示す保守シーケンスは公知ではない。図１２に示す保守シーケンスは、図１１の下側の保守シーケンスに対応している。すなわち、ＡＯＣの故障が発生し、故障したＡＯＣを新しいＡＯＣと交換する場合に、新しいＡＯＣの接続間違いが発生する。図１１と同様の処理および動作については、詳細な説明は省略される。

まず、並列処理装置は、ＡＯＣのチャネル故障を検出した場合、ＡＯＣを使用した通信で異常が発生したことを管理装置に通知する（図１２（ａ））。管理装置は、通信の異常の発生（アラーム）を表示装置に表示する。並列処理装置の運用を管理するシステム管理者は、管理装置の表示画面に表示されたアラームに基づいて、ＡＯＣの故障を判断した場合、ＡＯＣに接続されたシステムボードの動作を停止させる停止指示を発行する（図１２（ｂ））。

また、システム管理者は、並列処理装置を保守する保守作業者にＡＯＣが故障したことを連絡する（図１２（ｃ））。保守作業者は、システム管理者からの連絡に基づいて、ＡＯＣの保守（交換作業）を実施する（図１２（ｄ））。但し、保守作業者は、ＡＯＣを誤ったシステムボードに接続し、接続間違いが発生する（図１２（ｅ））。

他の並列処理装置は、図１に示すＬＥＤ２６、３６を持たないため、保守作業者は、接続間違いに気付かず、ＡＯＣの保守の完了をシステム管理者に連絡する（図１２（ｆ））。システム管理者は、ＡＯＣ１０が交換されたはずのシステムボードを再起動する（図１２（ｇ））。しかしながら、ＡＯＣが正しいシステムボードに接続されていないため、起動が正常に実行されず、システム管理者は、起動の完了（リンクアップ）を確認できない（図１２（ｈ））。

システム管理者は、端末を操作して並列処理装置の状態を確認し、再起動の失敗の原因がＡＯＣ１０の接続間違いであると判断する。このため、システム管理者は、ＡＯＣの接続が間違っている箇所とともに、ＡＯＣを接続し直すことを保守作業者に連絡する（図１２（ｉ））。連絡を受けた保守作業者は、ＡＯＣを接続し直す保守作業を実施する（図１２（ｊ））。

保守作業者は、ＡＯＣの保守の完了をシステム管理者に連絡する（図１２（ｋ））。システム管理者は、ＡＯＣ１０が交換されたシステムボードを再起動する（図１２（ｌ））。そして、システムボードを使用した並列処理装置の通常運用が再開される。

ＡＯＣの接続が正常であるか否かを表示するＬＥＤ２６、３６を持たない他の並列処理装置では、保守作業者自身がＡＯＣの接続間違いに気付くことが困難である。このため、システム管理者は、保守作業者への保守の連絡を２回しなくてはならず、再起動ができない原因がＡＯＣの接続間違いであることを調査しなくてはならない。したがって、ＡＯＣの故障の発生から並列処理装置が正常に運用されるまでの時間は、図１１に比べて長くなる。

これに対して、図１１に示す保守シーケンスでは、ＡＯＣ１０の接続間違いは、保守作業者だけで確認できるため、システム管理者は、ＡＯＣ１０の接続間違いに対する表示装置の確認および保守作業者への連絡を省略できる。したがって、ＡＯＣ１０の故障の発生から並列処理装置１００が正常に運用されるまでの時間を短縮することができ、システム管理者の負担を軽減することができる。

図１３は、他の並列処理装置の動作の別の例を示す。図１３に示す保守シーケンスは公知ではない。図１３に示す保守シーケンスでは、保守管理者が故障したＡＯＣではない通常運用中のＡＯＣを間違って抜いてしまう。図１１および図１２と同様の処理および動作については、詳細な説明は省略される。保守作業者がＡＯＣの最初の保守を開始するまでの動作および処理は、図１２と同じである。

正常なＡＯＣが間違って抜かれた場合、通信が遮断されるため、並列処理装置は、ＡＯＣを使用した通信で異常が発生したことを管理装置に通知する（図１３（ａ））。システム管理者は、管理装置の表示画面に表示された通信の異常を示すアラームに基づいて、ＡＯＣの故障を判断した場合、ＡＯＣに接続されたシステムボードの動作を停止させる停止指示を発行する（図１３（ｂ））。

また、システム管理者は、直前に故障したＡＯＣとは別のＡＯＣが故障したことを保守作業者に連絡する（図１３（ｃ））。保守作業者は、システム管理者からの連絡に基づいて、例えば、ＡＯＣの接続状態を確認し、別のＡＯＣを間違って抜いていたことに気付く。そして、間違って抜いたＡＯＣを差し戻し、故障したＡＯＣの交換作業を実施する（図１３（ｄ））。

保守作業者は、ＡＯＣの保守の完了をシステム管理者に連絡する（図１３（ｅ））。システム管理者は、間違って抜いたＡＯＣが差し戻されたシステムボードと、ＡＯＣが交換されたシステムボードとを再起動する（図１３（ｆ））。そして、システムボードを使用した並列処理装置の通常運用が再開される。

なお、図１に示す並列処理装置１００では、図１３に示すような不具合は発生しない。並列処理装置１００では、故障したチャネルＣＨを含むＡＯＣ１０に対応するＬＥＤ２６、３６は、ＡＯＣ１０を使用した通信が停止し、ＡＯＣ１０が交換可能になった時点で、消灯される。このため、保守作業者は、消灯したＬＥＤ２６、３６に対応するＡＯＣ１０を、交換対象のＡＯＣ１０として抜き、新しいＡＯＣ１０を接続する。また、正常運用中のＡＯＣ１０に対応するＬＥＤ２６、３６は点灯している。したがって、点灯しているＬＥＤ２６、３６に対応するＡＯＣ１０が誤って抜かれる可能性は少ない。また、通常運用していないリンクダウン中のＡＯＣ１０（対応するＬＥＤ２６、３６が消灯中）が誤って抜かれた場合、通信の異常は発生しないため、並列処理装置１００から管理装置５０に異常が通知されることはない。

以上、図１から図１３に示す実施形態では、ＣＰＵ２２、３２のいずれかによるチャネル故障の検出に基づいて、ＡＯＣ１０を介して接続されたシステムボード２０、３０の両方のコントローラ２４、３４が、ＣＰＵ２２、３２にＡＯＣ１０の使用を停止させる。これにより、例えば、チャネル故障を検出したＣＰＵ２２だけでなく、故障したＡＯＣ１０を使用する全てのＣＰＵ２２、３２にＡＯＣ１０の使用を停止させることができる。したがって、人手を介在させることなく、自動的にＡＯＣ１０を交換可能な状態にすることができる。

ＡＯＣ１０を保守する保守作業者は、故障したＡＯＣ１０に対応するＬＥＤ２６、３６の両方の消灯に基づいて、ＡＯＣ１０を使用した通信が停止したことを確認することができ、ＡＯＣ１０の交換作業を開始できる。この際、消灯したＬＥＤ２６、３６に対応するＡＯＣ１０を引き抜けばよいため、正常な他のＡＯＣ１０を誤って引き抜くことを抑止することができる。したがって、保守作業者の作業ミスにより通常運用中のリンクが遮断されることを抑止することができ、並列処理装置１００の信頼性の低下を抑止することができる。

このように、ＡＯＣ１０の保守作業を間違いなく確実に実施することができるため、ＬＥＤ２６、３６を持たない他の並列処理装置に比べて、ＡＯＣ１０の保守作業の効率性を向上することができる。これにより、並列処理装置１００の運用の停止期間を最小限にすることができ、並列処理装置１００の処理性能の低下を抑制することができる。

ＣＰＵ２２ａが送信に使用するチャネルＣＨａ１、ＣＨａ２が両方故障した場合にも、他のＣＰＵ２２ｂを介してシステムボード３０にチャネル故障を通知することができる。これにより、システムボード２０、３０の両方のＣＰＵ２２、３２にＡＯＣ１０の使用を停止させることできる。

ＡＯＣ１０の交換作業時、新しいＡＯＣ１０のシステムボード２０への接続に基づいて、コントローラ２４は、ＣＰＵ２２にＣＰＵ３２との座標情報を交換させ、ＡＯＣ１０が正しいコネクタ２８、３８に接続されたか否かを示す情報をＬＥＤ２６に表示させる。これにより、保守作業者は、ＡＯＣ１０の接続位置が間違っていることを自ら確認することができ、その場でＡＯＣ１０を接続し直すことできる。これにより、ＬＥＤ２６を使用しない場合に比べて保守に掛かる時間を短縮することができ、並列処理装置１００の運用の停止期間を最小限にすることができる。

各ＣＰＵは、計算機ネットワーク上で直接接続される他のＣＰＵの座標情報を保持するため、ＡＯＣ１０で接続されたＣＰＵから座標情報を受信することで、ＡＯＣ１０を介して正しいＣＰＵに接続されたか否かを判断することができる。ＣＰＵの接続が正しいか否かをＣＰＵ毎に判定できるため、コントローラ２４、３４の負荷を削減することができる。

図１４は、別の実施形態における並列処理装置の一例を示す。図１４に示す並列処理装置１０２は、複数のチャネルを各々有する複数のＡＯＣ１０を介して接続された複数のサーバ２００、３００を有する。各サーバ２００、３００には、４本のＡＯＣ１０が接続される。例えば、サーバ２００は、ＡＯＣ１０を介して、サーバ３００と、図示しない他の３つのサーバに接続され、サーバ３００は、ＡＯＣ１０を介して、サーバ２００と、図示しない他の３つのサーバに接続される。例えば、ＡＯＣ１０は、図２に示すＡＯＣ１０と同じである。

サーバ２００は、複数のＣＰＵ２２０（２２０ａ、２２０ｂ）、コントローラ２４０、ルータ部２７０、メモリ２８０（２８０ａ、２８０ｂ）およびＬＥＤ２６（２６１、２６２、２６３、２６４）を有する。サーバ３００は、複数のＣＰＵ３２０（３２０ａ、３２０ｂ）、コントローラ３４０、ルータ部３７０、メモリ３８０（３８０ａ、３８０ｂ）およびＬＥＤ３６（３６１、３６２、３６３、３６４）を有する。各サーバ２００、３００および図示しない他のサーバは、ネットワーク６２を介して、並列処理装置１０２の全体を管理する管理装置５２に接続される。なお、サーバ２００は、２つより多くのＣＰＵ２２０を有してもよく、サーバ３００は、２つより多くのＣＰＵ３２０を有してもよい。

ＣＰＵ２２０、３２０の各々は、演算処理部の一例であり、図１に示すＣＰＵ２２、３２と同一または同様の機能を有する。各ＣＰＵ２２０、３２０は、計算機ネットワーク上の１つのノードとして機能する。サーバ２００、３００の各々は、情報処理装置の一例である。ＬＥＤ２６、３６の各々は、表示部の一例であり、例えば、図１に示すＬＥＤ２６、３２と同じである。

４つのＬＥＤ２６１、２６２、２６３、２６４は、サーバ２００に接続される４本のＡＯＣ１０の各々に対応して設けられ、点灯時に緑色の光を出射する。同様に、４つのＬＥＤ３６１、３６２、３６３、３６４は、サーバ３００に接続される４本のＡＯＣ１０の各々に対応して設けられ、点灯時に緑色の光を出射する。ＬＥＤ２６、３６は、図１に示す表示部２６、３６と同様に、ＡＯＣ１０が正常に動作可能なときに点灯され、ＡＯＣ１０が交換可能であるときに消灯され、ＡＯＣ１０が正しく接続されていないときに点滅される。ＡＯＣ１０が正しく接続されていないときとは、ＡＯＣ１０を介して互いに接続される２つのＣＰＵの座標が、計算機ネットワーク上の座標の期待値と異なる場合であり、ＡＯＣ１０が間違って接続されている場合を示す。

ルータ部２７０は、例えば、パケットの通信先のノードに応じて、ＣＰＵ２２０ａ、２２０ｂの各々を４本のＡＯＣ１０のいずれかに接続する。ルータ部３７０は、例えば、パケットの通信先のノードに応じて、ＣＰＵ３２０ａ、３２０ｂの各々を４本のＡＯＣ１０のいずれかに接続する。例えば、サーバ２００、３００を相互に接続するＡＯＣ１０は、図２と同様に、２つのＣＰＵ２２０ａ、２２０ｂと２つのＣＰＵ３２０ａ、３２０ｂとに共有される。ルータ部２７０の機能は、ＣＰＵ２２０ａ、２２０ｂに内蔵されてもよく、ルータ部３７０の機能は、ＣＰＵ３２０ａ、３２０ｂに内蔵されてもよい。

メモリ２８０ａは、ＣＰＵ２２０ａに接続され、メモリ２８０ｂは、ＣＰＵ２２０ｂに接続される。メモリ３８０ａは、ＣＰＵ３２０ａに接続され、メモリ３８０ｂは、ＣＰＵ３２０ｂに接続される。例えば、メモリ２８０、３８０は、ＣＰＵ２２０、３２０で使用される主記憶メモリである。

コントローラ２４０、３４０は、制御部の一例であり、図１に示すコントローラ２４、３４と同様の機能を有する。コントローラ２４０は、ＣＰＵ２２０ａ、２２０ｂの動作を制御するとともに、４つのＬＥＤ２６の表示を制御する。コントローラ３４０は、ＣＰＵ３２０ａ、３２０ｂの動作を制御するとともに、４つのＬＥＤ３６の表示を制御する。コントローラ２４０、３４０は、制御プログラムを実行することで、図８および図９に示す動作を実行する。但し、コントローラ２４０は、故障したチャネルを含むＡＯＣ１０に対応する４つのＬＥＤ２６を点灯、消灯または点滅する制御を実行する。コントローラ３４０は、故障したチャネルを含むＡＯＣ１０に対応する４つのＬＥＤ３６を点灯、消灯または点滅する制御を実行する。

各ＣＰＵ２２０、３２０は、情報処理を実行する処理プログラムとは別に制御プログラムを実行することで、図６、図７および図１０に示す動作を実行する。そして、並列処理装置１０２は、図４、図５および図１１に示す動作と同様の動作を実行する。

以上、図１４に示す実施形態においても、図１から図１３に示す実施形態と同様の効果を得ることできる。

図１５は、別の実施形態における並列処理装置の一例を示す。図１５に示す並列処理装置１０４は、複数のチャネルを各々有する複数のＡＯＣ１０を介して接続された複数のサーバ２０２（図１５では１つのみを図示）を有する。各サーバ２０２には、９本のＡＯＣ１０が接続される。サーバ２０２は、情報処理装置の一例である。

サーバ２０２は、３本のＡＯＣ１０にそれぞれ接続された３つのシステムボード２０４を有する。各システムボード２０４は、２つのＣＰＵ２２２（２２２ａ、２２２ｂ）と、２つのＣＰＵ２２２の動作を制御するコントローラ２４２と、３つのＡＯＣ１０にそれぞれ対応するＬＥＤ２６（２６１、２６２、２６３）とを有する。なお、各システムボード２０４は、２つより多くのＣＰＵ２２２を有してもよい。

各ＣＰＵ２２２は、演算処理部の一例であり、図１に示すＣＰＵ２２、３２と同一または同様の機能を有する。各ＣＰＵ２２２は、計算機ネットワーク上の１つのノードとして機能する。サーバ２０２は、情報処理装置の一例である。ＬＥＤ２６は、表示部の一例であり、例えば、図１に示すＬＥＤ２６、３２と同様に、点灯時に緑色の光を出射する。ＬＥＤ２６は、図１に示す表示部２６、３６と同様に、ＡＯＣ１０が正常に動作可能なときに点灯され、ＡＯＣ１０が交換可能であるときに消灯され、ＡＯＣ１０が正しく接続されていないときに点滅される。

コントローラ２４２は、制御部の一例であり、図１に示すコントローラ２４、３４と同様の機能を有する。コントローラ２４２は、制御プログラムを実行することで、図８および図９に示す動作を実行する。但し、コントローラ２４２は、故障したチャネルを含むＡＯＣ１０に対応する３つのＬＥＤ２６を点灯、消灯または点滅する制御を実行する。

各ＣＰＵ２２２は、情報処理を実行する処理プログラムとは別に制御プログラムを実行することで、図６、図７および図１０に示す動作を実行する。そして、並列処理装置１０２は、図４、図５および図１１に示す動作と同様の動作を実行する。

以上、図１５に示す実施形態においても、図１から図１４に示す実施形態と同様の効果を得ることができる。

以上の図１から図１５に示す実施形態に関し、さらに以下の付記を開示する。
（付記１）
複数のチャネルを有する光ファイバーケーブルを介して接続された所定数の情報処理装置のペアを有する並列処理装置において、
前記各情報処理装置は、
前記光ファイバーケーブルを共有し、所定数のチャネルがそれぞれに割り当てられた複数の演算処理部と、
自情報処理装置を制御する制御部と、
前記光ファイバーケーブルに対応して設けられる表示部と、を有し、
前記複数の演算処理部の各々は、チャネルの故障であるチャネル故障を検出した場合、故障していないチャネルを使用して他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知するとともに、自情報処理装置の前記制御部に前記チャネル故障を通知し、他の情報処理装置から前記チャネル故障の通知を受信した場合、自情報処理装置の前記制御部に前記チャネル故障を通知し、
前記各情報処理装置の前記制御部は、前記チャネル故障の通知の受信に基づいて、故障したチャネルを含む故障光ファイバーケーブルを使用している自情報処理装置の演算処理部を検出し、検出した演算処理部に故障光ファイバーケーブルの使用を停止させ、前記検出した演算処理部による故障光ファイバーケーブルの使用の停止に基づいて、故障光ファイバーケーブルに対応する前記表示部を、故障光ファイバーケーブルによる通信が停止したことを示す停止表示状態に設定することを特徴とする並列処理装置。
（付記２）
前記複数の演算処理部の各々は、チャネルの故障により、前記他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知できない場合、自情報処理装置の他の演算処理部に、前記他の情報処理装置への前記チャネル故障の通知を依頼し、
依頼を受けた前記他の演算処理部は、前記他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知することを特徴とする付記１に記載の並列処理装置。
（付記３）
故障したチャネルを含む故障光ファイバーケーブルに接続された前記情報処理装置のペアの前記表示部の両方の前記停止表示状態は、前記表示部に対応する故障光ファイバーケーブルが交換可能になったことを示すことを特徴とする付記１または付記２に記載の並列処理装置。
（付記４）
前記制御部は、
自情報処理装置への前記光ファイバーケーブルの接続を検出した場合、接続が検出された光ファイバーケーブルに対応する前記表示部を、光ファイバーケーブルが接続されたことを示す接続表示状態に設定し、
接続が検出された光ファイバーケーブルを共有する自情報処理装置の演算処理装置に、前記複数の演算処理装置を含む計算機ネットワーク上における通信先の演算処理装置の位置を示す座標情報を、通信先の演算処理装置から取得することを要求し、
要求に基づいて取得された座標情報が正しい場合、前記表示部を、前記光ファイバーケーブルの接続が正常であることを示す正常表示状態に設定し、
要求に基づいて取得された座標情報が間違っている場合、前記表示部を、前記光ファイバーケーブルの接続が間違っていることを示すエラー表示状態に設定することを特徴とする付記１ないし付記３のいずれか１項に記載の並列処理装置。
（付記５）
前記複数の演算処理装置の各々は、
自演算処理装置と計算機ネットワーク上で直接接続される他の演算処理装置との計算機ネットワーク上での位置を示す座標情報を保持し、
座標情報の取得の要求を自情報処理装置の前記制御部から受けた場合、通信先の演算処理装置から座標情報を取得し、取得した座標情報が正しいかを自情報処理装置の前記制御部に通知することを特徴とする付記４に記載の並列処理装置。
（付記６）
前記制御部は、前記光ファイバーケーブルの使用が検出された演算処理部にジョブの実行を停止させることで、前記光ファイバーケーブルの使用を停止させることを特徴とする付記１ないし付記５のいずれか１項に記載の並列処理装置。
（付記７）
前記複数の演算処理部の各々は、複数の前記光ファイバーケーブルを介して互いに異なる情報処理装置に接続されることを特徴とする付記１ないし付記６のいずれか１項に記載の並列処理装置。
（付記８）
前記光ファイバーケーブルは、
前記複数のチャネルにそれぞれ対応する複数の光ファイバーと、
前記複数の光ファイバーの両端の各々に設けられ、前記情報処理装置からの電気信号を光信号に変換して光ファイバーに出力し、光ファイバーからの光信号を電気信号に変換して情報処理装置に出力するインタフェース部を含み、前記情報処理装置に設けられるコネクタに着脱自在に接続されるコネクタ部と、を有することを特徴とする付記１ないし付記７のいずれか１項に記載の並列処理装置。
（付記９）
並列処理装置に含まれる所定数の情報処理装置のペア間に接続された複数のチャネルを有する光ファイバーケーブルの交換方法であって、
前記各情報処理装置は、前記光ファイバーケーブルを共有し、所定数のチャネルがそれぞれに割り当てられた複数の演算処理部と、自情報処理装置を制御する制御部と、前記光ファイバーケーブルに対応して設けられる表示部と、を有し、
前記複数の演算処理部の各々は、チャネルの故障であるチャネル故障を検出した場合、故障していないチャネルを使用して他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知するとともに、自情報処理装置の前記制御部に前記チャネル故障を通知し、他の情報処理装置から前記チャネル故障の通知を受信した場合、自情報処理装置の前記制御部に前記チャネル故障を通知する機能を有し、
前記各情報処理装置の前記制御部は、前記チャネル故障の通知の受信に基づいて、故障したチャネルを含む故障光ファイバーケーブルを使用している自情報処理装置の演算処理部を検出し、検出した演算処理部に故障光ファイバーケーブルの使用を停止させ、前記検出した演算処理部による故障光ファイバーケーブルの使用の停止に基づいて、故障光ファイバーケーブルに対応する前記表示部を、故障光ファイバーケーブルによる通信が停止したことを示す停止表示状態に設定する機能を有し、
前記情報処理装置のペアの一方の前記表示部が前記停止表示状態に設定されたかを確認し、
前記情報処理装置のペアの他方の前記表示部が前記停止表示状態に設定されたかを確認し、
前記情報処理装置のペアの一方と他方の前記表示部が、ともに前記停止表示状態に設定されたことに基づいて、前記光ファイバーケーブルを交換することを特徴とする光ファイバーケーブルの交換方法。
（付記１０）
前記光ファイバーケーブルの交換後、前記情報処理装置のペアの演算処理装置間で相互に実行される、前記複数の演算処理装置を含む計算機ネットワーク上における通信先の演算処理装置の位置を示す座標情報の取得動作に基づいて、前記情報処理装置のペアの前記表示部が前記光ファイバーケーブルの接続が間違っていることを示すエラー表示状態に設定された場合、光ファイバーケーブルを接続し直すことを特徴とする付記９に記載の光ファイバーケーブルの交換方法。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

１０光ファイバーケーブル（ＡＯＣ）
１０ａ光ケーブル
１０ｂ、１０ｃコネクタ部
２０システムボード
２２ａ、２２ｂＣＰＵ
２４コントローラ
２６表示部（ＬＥＤ）
２８コネクタ
３０システムボード
３２ａ、３２ｂＣＰＵ
３４コントローラ
３６表示部（ＬＥＤ）
３８コネクタ
５０、５２管理装置
６０、６２ネットワーク
１００、１０２、１０４並列処理装置
２００、２０２サーバ
２０４システムボード
２２０ａ、２２０ｂ、２２２ａ、２２２ｂＣＰＵ
２４０、２４２コントローラ
２６１−２６４ＬＥＤ
２７０ルータ部
２８０ａ、２８０ｂメモリ
３００サーバ
３２０ａ、３２０ｂＣＰＵ
３４０コントローラ
３６１−３６４ＬＥＤ
３７０ルータ部
３８０ａ、３８０ｂメモリ

Claims

複数のチャネルを有する光ファイバーケーブルを介して接続された所定数の情報処理装置のペアを有する並列処理装置において、
前記各情報処理装置は、
前記光ファイバーケーブルを共有し、所定数のチャネルがそれぞれに割り当てられた複数の演算処理部と、
自情報処理装置を制御する制御部と、
前記光ファイバーケーブルに対応して設けられる表示部と、を有し、
前記複数の演算処理部の各々は、チャネルの故障であるチャネル故障を検出した場合、故障していないチャネルを使用して他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知するとともに、自情報処理装置の前記制御部に前記チャネル故障を通知し、他の情報処理装置から前記チャネル故障の通知を受信した場合、自情報処理装置の前記制御部に前記チャネル故障を通知し、
前記各情報処理装置の前記制御部は、前記チャネル故障の通知の受信に基づいて、故障したチャネルを含む故障光ファイバーケーブルを使用している自情報処理装置の演算処理部を検出し、検出した演算処理部に故障光ファイバーケーブルの使用を停止させ、前記検出した演算処理部による故障光ファイバーケーブルの使用の停止に基づいて、故障光ファイバーケーブルに対応する前記表示部を、故障光ファイバーケーブルによる通信が停止したことを示す停止表示状態に設定することを特徴とする並列処理装置。
前記複数の演算処理部の各々は、チャネルの故障により、前記他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知できない場合、自情報処理装置の他の演算処理部に、前記他の情報処理装置への前記チャネル故障の通知を依頼し、
依頼を受けた前記他の演算処理部は、前記他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知することを特徴とする請求項１に記載の並列処理装置。
故障したチャネルを含む故障光ファイバーケーブルに接続された前記情報処理装置のペアの前記表示部の両方の前記停止表示状態は、前記表示部に対応する故障光ファイバーケーブルが交換可能になったことを示すことを特徴とする請求項１または請求項２に記載の並列処理装置。
前記制御部は、
自情報処理装置への前記光ファイバーケーブルの接続を検出した場合、接続が検出された光ファイバーケーブルに対応する前記表示部を、光ファイバーケーブルが接続されたことを示す接続表示状態に設定し、
接続が検出された光ファイバーケーブルを共有する自情報処理装置の演算処理装置に、前記複数の演算処理装置を含む計算機ネットワーク上における通信先の演算処理装置の位置を示す座標情報を、通信先の演算処理装置から取得することを要求し、
要求に基づいて取得された座標情報が正しい場合、前記表示部を、前記光ファイバーケーブルの接続が正常であることを示す正常表示状態に設定し、
要求に基づいて取得された座標情報が間違っている場合、前記表示部を、前記光ファイバーケーブルの接続が間違っていることを示すエラー表示状態に設定することを特徴とする請求項１ないし請求項３のいずれか１項に記載の並列処理装置。
前記複数の演算処理装置の各々は、
自演算処理装置と計算機ネットワーク上で直接接続される他の演算処理装置との計算機ネットワーク上での位置を示す座標情報を保持し、
座標情報の取得の要求を自情報処理装置の前記制御部から受けた場合、通信先の演算処理装置から座標情報を取得し、取得した座標情報が正しいかを自情報処理装置の前記制御部に通知することを特徴とする請求項４に記載の並列処理装置。
並列処理装置に含まれる所定数の情報処理装置のペア間に接続された複数のチャネルを有する光ファイバーケーブルの交換方法であって、
前記各情報処理装置は、前記光ファイバーケーブルを共有し、所定数のチャネルがそれぞれに割り当てられた複数の演算処理部と、自情報処理装置を制御する制御部と、前記光ファイバーケーブルに対応して設けられる表示部と、を有し、
前記複数の演算処理部の各々は、チャネルの故障であるチャネル故障を検出した場合、故障していないチャネルを使用して他の情報処理装置の前記複数の演算処理部のいずれかに前記チャネル故障を通知するとともに、自情報処理装置の前記制御部に前記チャネル故障を通知し、他の情報処理装置から前記チャネル故障の通知を受信した場合、自情報処理装置の前記制御部に前記チャネル故障を通知する機能を有し、
前記各情報処理装置の前記制御部は、前記チャネル故障の通知の受信に基づいて、故障したチャネルを含む故障光ファイバーケーブルを使用している自情報処理装置の演算処理部を検出し、検出した演算処理部に故障光ファイバーケーブルの使用を停止させ、前記検出した演算処理部による故障光ファイバーケーブルの使用の停止に基づいて、故障光ファイバーケーブルに対応する前記表示部を、故障光ファイバーケーブルによる通信が停止したことを示す停止表示状態に設定する機能を有し、
前記情報処理装置のペアの一方の前記表示部が前記停止表示状態に設定されたかを確認し、
前記情報処理装置のペアの他方の前記表示部が前記停止表示状態に設定されたかを確認し、
前記情報処理装置のペアの一方と他方の前記表示部が、ともに前記停止表示状態に設定されたことに基づいて、前記光ファイバーケーブルを交換することを特徴とする光ファイバーケーブルの交換方法。
前記光ファイバーケーブルの交換後、前記情報処理装置のペアの演算処理装置間で相互に実行される、前記複数の演算処理装置を含む計算機ネットワーク上における通信先の演算処理装置の位置を示す座標情報の取得動作に基づいて、前記情報処理装置のペアの前記表示部が前記光ファイバーケーブルの接続が間違っていることを示すエラー表示状態に設定された場合、光ファイバーケーブルを接続し直すことを特徴とする請求項６に記載の光ファイバーケーブルの交換方法。