JP2015192360A

JP2015192360A - 情報処理装置、並列計算機システムおよび並列計算機システムの制御方法

Info

Publication number: JP2015192360A
Application number: JP2014069111A
Authority: JP
Inventors: 誠裕前田; Masahiro Maeda; 智宏井上; Tomohiro Inoue; 新哉平本; Shinya Hiramoto; 俊安藤; Takashi Ando; 広治細江; Koji Hosoe; 雄一郎安島; Yuichiro Yasujima
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-03-28
Filing date: 2014-03-28
Publication date: 2015-11-02
Anticipated expiration: 2034-03-28
Also published as: JP6331574B2; US9619347B2; EP2924583B1; EP2924583A1; US20150278043A1

Abstract

【課題】故障したレーンを特定する機能を含まない物理層を使用する場合においても、縮退するレーンを特定する。【解決手段】情報処理装置は、データを複数の第１レーンに分配し、所定の数の第１レーンをまとめた複数の第２レーンを用いて外部の装置とのデータ転送を実行する物理層と、演算処理装置から受信したデータを物理層に転送し、物理層から受信したデータを演算処理装置に転送する転送回路とを有し、転送回路は、データを受信したことを示す各第１レーンの検出情報と、データに誤りがあることを示す各第１レーンのエラー情報とのいずれかを、物理層から受信する情報取得部と、レーン故障が発生した場合、縮退対象の第２レーンをエラー情報および検出情報のいずれかに基づいて特定し、特定した第２レーンを除く第２レーンからデータ転送に使用する第２レーンを選択する選択部とを有する。【選択図】図１

Description

本発明は、情報処理装置、並列計算機システムおよび並列計算機システムの制御方法に関する。

並列計算機システムは、例えば、データを処理する複数の情報処理装置（以下、ノードとも称する）を有する。並列計算機システムの複数の情報処理装置は、伝送路（以下、レーンとも称する）を介して接続される。例えば、ＩＥＥＥ８０２．３ｂａ規格で標準化された１００Ｇｂｐｓのイーサネット（登録商標）を使用した情報処理装置は、複数のレーンを用いてデータを通信先の情報処理装置に転送する。以下、１００Ｇｂｐｓのイーサネットを１００Ｇｂイーサネットとも称する。例えば、１００Ｇｂイーサネットでは、複数のレーンでリンクを実現する。

なお、例えば、並列計算機システムのノード間を複数のレーンにより接続するリンクに光伝送が適用される場合、電気信号を光信号に変換する発光素子、光信号を電気信号に変換する受光素子等を含む光モジュールが使用される。発光素子等の光モジュールの故障率は、電気部品に比べて高い。例えば、光モジュールの故障等により複数のレーンのうちの１つでも故障した場合、ノード間のリンクが切断される。この場合、故障部品（例えば、故障した光モジュール）を含むノードを使用した並列計算等の処理は実行できない。このため、並列計算機システムの信頼性は、レーンの故障率の増加に伴い低下する。

換言すれば、故障したレーン（以下、故障レーンとも称する）を縮退させてリンクの接続を維持できれば、並列計算機システムの信頼性は向上する。なお、ＩＥＥＥ８０２．３ｂａ規格の物理層（以下、物理層ＰＨＹ（physical layer）とも称する）には、故障したレーンを特定する機能およびレーンを縮退させる機能は用意されていない。

このため、一部のレーンで発生した障害を回避してリンクを維持可能な物理層アーキテクチャが提案されている（例えば、非特許文献１）。例えば、レーン縮退を実現するために、１００Ｇｂイーサネット標準仕様のアライメントマーカ挿抜プロトコル中に、レーン切り替え制御情報を埋め込む機能が追加される。なお、各レーンの障害は、例えば、６４Ｂ／６６Ｂ符号ブロックのヘッダ２ビットを監視することにより、検出される。

また、複数の伝送路から障害状態の伝送路を特定する方法として、障害が発生しているレーンを特定するための固定データパターンを生成し、生成した固定データパターンを接続先の装置に送信する方法が提案されている（例えば、特許文献１）。例えば、固定データパターンを受信した装置は、受信した固定データパターンから障害状態の伝送路を特定する。

特開２００６−１８６５２７号公報

神戸章宏、光野正志、豊田英弘、「１００ギガビットイーサネット対応レーン縮退技術の研究」、信学技報 CS2010-39、pp.13-18、２０１０年１１月

ＩＥＥＥ８０２．３ｂａ規格に準拠した物理層を使用することを前提とした情報処理装置では、故障したレーンを特定する機能を含まない物理層を使用するため、故障レーンの特定は、困難である。なお、アライメントマーカ挿抜プロトコル中にレーン切り替え制御情報を埋め込む機能等を追加する方式では、物理層プロトコルを改良するため、ＩＥＥＥ８０２．３ｂａ規格の物理層からの変更量が大きくなるおそれがある。標準規格からの変更量が大きくなると、汎用性が低下するおそれがある。

１つの側面では、本件開示の情報処理装置、並列計算機システムおよび並列計算機システムの制御方法は、故障したレーンを特定する機能を含まない物理層を使用する場合においても、縮退するレーンを特定することを目的とする。

一観点によれば、情報処理装置は、ＯＳＩ参照モデルの物理層に相当するデバイスであり、データを複数の第１レーンに分配し、所定の数の第１レーンをまとめた複数の第２レーンを用いて外部の装置とのデータ転送を実行する物理層デバイスと、物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを物理層デバイスに転送し、物理層デバイスから受信したデータを演算処理装置に転送する転送回路とを有し、転送回路は、物理層デバイスが外部の装置からデータを受信したことを示す各第１レーンの検出情報と、外部の装置から物理層デバイスに転送されたデータに誤りがあることを示す各第１レーンのエラー情報とのいずれかを、物理層デバイスから受信する情報取得部と、複数の第１レーンおよび複数の第２レーンのいずれかに故障が発生した場合、縮退対象の第２レーンをエラー情報および検出情報のいずれかに基づいて特定し、特定した第２レーンを除く第２レーンから外部の装置とのデータ転送に使用する第２レーンを選択する選択部とを有する。

別の観点によれば、伝送路を介して接続される複数の情報処理装置を有する並列計算機システムでは、情報処理装置は、ＯＳＩ参照モデルの物理層に相当するデバイスであり、データを複数の第１レーンに分配し、所定の数の第１レーンをまとめた複数の第２レーンを用いて通信先の情報処理装置とのデータ転送を実行する物理層デバイスと、物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを物理層デバイスに転送し、物理層デバイスから受信したデータを演算処理装置に転送する転送回路とを有し、転送回路は、物理層デバイスが通信先の情報処理装置からデータを受信したことを示す各第１レーンの検出情報と、通信先の情報処理装置から物理層デバイスに転送されたデータに誤りがあることを示す各第１レーンのエラー情報とのいずれかを、物理層デバイスから受信する情報取得部と、複数の第１レーンおよび複数の第２レーンのいずれかに故障が発生した場合、縮退対象の第２レーンをエラー情報および検出情報のいずれかに基づいて特定し、特定した第２レーンを除く第２レーンから通信先の情報処理装置とのデータ転送に使用する第２レーンを選択する選択部とを有する。

別の観点によれば、伝送路を介して接続される複数の情報処理装置を有し、情報処理装置が、ＯＳＩ参照モデルの物理層に相当するデバイスであり、データを複数の第１レーンに分配し、所定の数の第１レーンをまとめた複数の第２レーンを用いて通信先の情報処理装置とのデータ転送を実行する物理層デバイスと、物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを物理層デバイスに転送し、物理層デバイスから受信したデータを演算処理装置に転送する転送回路とを有する並列計算機システムの制御方法では、転送回路は、物理層デバイスが通信先の情報処理装置からデータを受信したことを示す各第１レーンの検出情報と、通信先の情報処理装置から物理層デバイスに転送されたデータに誤りがあることを示す各第１レーンのエラー情報とのいずれかを、物理層デバイスから受信し、転送回路は、複数の第１レーンおよび複数の第２レーンのいずれかに故障が発生した場合、縮退対象の第２レーンをエラー情報および検出情報のいずれかに基づいて特定し、特定した第２レーンを除く第２レーンから通信先の情報処理装置とのデータ転送に使用する第２レーンを選択する。

本件開示の情報処理装置、並列計算機システムおよび並列計算機システムの制御方法は、故障したレーンを特定する機能を含まない物理層を使用する場合においても、縮退するレーンを特定できる。

情報処理装置、並列計算機システムおよび並列計算機システムの制御方法の一実施形態を示す図である。図１に示した物理層の一例を示す図である。図１に示したフレーム転送回路の一例を示す図である。図３に示したリンク制御部の一例を示す図である。図４に示したエラーカウンタの一例を示す図である。レーン縮退の契機の一例を示す図である。図１に示した情報処理装置のリンクアップ前の動作の一例を示す図である。縮退するレーンの特定方法の一例を示す図である。縮退するレーンの特定方法の別の例を示す図である。図１に示した情報処理装置のリンクアップ後の動作の一例を示す図である。図１に示した情報処理装置のリンクアップ後の動作の別の例を示す図である。図１に示した情報処理装置のリンクアップ後の動作の別の例を示す図である。図１に示した情報処理装置のリンクアップ後の動作の別の例を示す図である。

以下、実施形態を図面を用いて説明する。

図１は、情報処理装置、並列計算機システムおよび並列計算機システムの制御方法の一実施形態を示す。この実施形態の並列計算機システムＳＹＳは、伝送路ＰＨＬ（以下、物理レーンＰＨＬとも称する）を介して接続される複数の情報処理装置ＰＤＥＶ（ＰＤＥＶ１、ＰＤＥＶ２）を有する。例えば、情報処理装置ＰＤＥＶは、複数の物理レーンＰＨＬを用いて、データを通信先の情報処理装置ＰＤＥＶに転送する。これにより、並列計算機システムＳＹＳは、情報処理装置ＰＤＥＶ間の高速伝送を実現する。

例えば、情報処理装置ＰＤＥＶ１から見た場合、情報処理装置ＰＤＥＶ２は、通信先の情報処理装置ＰＤＥＶであり、外部の装置に対応する。また、例えば、情報処理装置ＰＤＥＶ２から見た場合、情報処理装置ＰＤＥＶ１は、通信先の情報処理装置ＰＤＥＶであり、外部の装置に対応する。

各情報処理装置ＰＤＥＶは、並列計算機システムＳＹＳの各ノードに対応する。以下、情報処理装置ＰＤＥＶをノードとも称する。例えば、並列計算機システムＳＹＳのノード間を接続するリンクには、光伝送が適用される。なお、並列計算機システムＳＹＳのノード間を接続するリンクに、電気伝送が用いられてもよい。情報処理装置ＰＤＥＶは、例えば、物理層ＰＨＹ（physical layer）、フレーム転送回路ＦＴＲおよびＣＰＵ（Central Processing Unit）を有する。

物理層ＰＨＹは、ＯＳＩ参照モデルの物理層に相当する物理層デバイスの一例である。例えば、物理層ＰＨＹは、ＩＥＥＥ８０２．３ｂａ規格のＬａｙｅｒ１（物理層）に準拠した機能を有する。物理層ＰＨＹは、例えば、物理層に含まれるＰＣＳ（Physical Coding Sublayer）内の伝送路に対応する複数のＰＣＳレーンにデータを分配する。また、物理層ＰＨＹは、所定の数のＰＣＳレーンをまとめた複数の物理レーンＰＨＬを用いて、外部の装置（例えば、通信先の情報処理装置ＰＤＥＶ）とのデータ転送を実行する。

例えば、物理層ＰＨＹは、起動や停止を指示する指示通知ＳＩＮＦおよび有効な物理レーンＰＨＬを示すイネーブル信号ＬＥＮをフレーム転送回路ＦＴＲから受信する。物理層ＰＨＹは、例えば、起動を指示する指示通知ＳＩＮＦをフレーム転送回路ＦＴＲから受信した場合、通信先の情報処理装置ＰＤＥＶの物理層ＰＨＹとのリンクアップ等の起動処理を実行する。そして、物理層ＰＨＹは、起動が完了した場合、起動完了を示す起動完了通知ＣＩＮＦをフレーム転送回路ＦＴＲに出力する。また、例えば、物理層ＰＨＹは、停止を指示する指示通知ＳＩＮＦをフレーム転送回路ＦＴＲから受信した場合、物理層ＰＨＹを停止するための停止処理を実行する。

さらに、物理層ＰＨＹは、各ＰＣＳレーンのアライメントマーカ検出情報ＡＩＮＦおよび各ＰＣＳレーンのエラー情報ＥＩＮＦをフレーム転送回路ＦＴＲに出力する。以下、アライメントマーカ検出情報をＡＭ（Alignment Marker）検出情報とも称する。なお、アライメントマーカは、例えば、通信先の情報処理装置ＰＤＥＶのＰＣＳレーンとの対応を示す情報である。

また、ＡＭ検出情報ＡＩＮＦは、物理層ＰＨＹが外部の装置（例えば、通信先の情報処理装置ＰＤＥＶ）からデータを受信したことを示す各ＰＣＳレーンの検出情報の一例である。また、エラー情報ＥＩＮＦは、物理層ＰＨＹが外部の装置から受信したデータに誤りがあることを示す各ＰＣＳレーンのエラー情報の一例である。

例えば、物理層ＰＨＹは、通信先の情報処理装置ＰＤＥＶから物理層ＰＨＹの各ＰＣＳレーンに転送されたデータからアライメントマーカを検出する。そして、物理層ＰＨＹは、アライメントマーカを検出したことを示す各ＰＣＳレーンのＡＭ検出情報ＡＩＮＦを、フレーム転送回路ＦＴＲに出力する。

また、例えば、物理層ＰＨＹは、通信先の情報処理装置ＰＤＥＶから物理層ＰＨＹの各ＰＣＳレーンに転送されたデータに対して、ＢＩＰ（Bit Interleaved Parity）を用いた符号誤り検出を実行する。そして、物理層ＰＨＹは、符号誤り検出の結果を示す各ＰＣＳレーンのエラー情報ＥＩＮＦを、フレーム転送回路ＦＴＲに出力する。

フレーム転送回路ＦＴＲは、ＣＰＵや物理層ＰＨＹにデータを転送する転送回路の一例である。フレーム転送回路ＦＴＲは、例えば、物理層より上位の層（例えば、データリンク層）に相当するデバイスである。例えば、フレーム転送回路ＦＴＲは、ＣＰＵから受信したデータＳＤＡＴＡを含むフレームデータＳＦＲＡＭを生成し、生成したフレームデータＳＦＲＡＭを物理層ＰＨＹに転送する。また、フレーム転送回路ＦＴＲは、例えば、物理層ＰＨＹから受信したフレームデータＲＦＲＡＭに含まれるデータＲＤＡＴＡを、ＣＰＵに転送する。

このように、フレーム転送回路ＦＴＲは、ＣＰＵから受信したデータを物理層ＰＨＹに転送し、物理層ＰＨＹから受信したデータをＣＰＵに転送する。さらに、フレーム転送回路ＦＴＲは、情報取得部ＡＣＱおよび選択部ＳＥＬを有する。例えば、フレーム転送回路ＦＴＲは、図３等に示すように、情報取得部ＡＣＱおよび選択部ＳＥＬを含むリンク制御部ＬＣＬＴを有する。情報取得部ＡＣＱは、ＡＭ検出情報ＡＩＮＦおよびエラー情報ＥＩＮＦのいずれかを、物理層ＰＨＹから受信する情報取得部の一例である。

例えば、情報取得部ＡＣＱは、通信先の情報処理装置ＰＤＥＶのＰＣＳレーンとの対応を示すアライメントマーカを検出したことを示すＡＭ検出情報ＡＩＮＦを、ＰＣＳレーン毎に物理層ＰＨＹから受信する。また、情報取得部ＡＣＱは、例えば、通信先の情報処理装置ＰＤＥＶから物理層ＰＨＹに転送されたデータに対する符号誤り検出の結果を示すエラー情報ＥＩＮＦを、ＰＣＳレーン毎に物理層ＰＨＹから受信する。

選択部ＳＥＬは、縮退対象の物理レーンＰＨＬを、ＡＭ検出情報ＡＩＮＦおよびエラー情報ＥＩＮＦのいずれかに基づいて特定する選択部の一例である。縮退対象の物理レーンＰＨＬは、例えば、故障したＰＣＳレーンを使用する物理レーンＰＨＬ、故障した物理レーンＰＨＬ等である。以下、縮退対象の物理レーンＰＨＬを、故障レーンＰＨＬや縮退するレーンＰＨＬとも称する。

例えば、選択部ＳＥＬは、物理層ＰＨＹのリンクアップ前に、ＰＣＳレーンおよび物理レーンＰＨＬのいずれかに故障が発生した場合、縮退対象の物理レーンＰＨＬ（縮退するレーンＰＨＬ）を、ＡＭ検出情報ＡＩＮＦに基づいて特定する。そして、選択部ＳＥＬは、特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を除く物理レーンＰＨＬから通信先の情報処理装置ＰＤＥＶとのデータ転送に使用する物理レーンＰＨＬを選択する。

また、例えば、選択部ＳＥＬは、物理層ＰＨＹのリンクアップ後に、ＰＣＳレーンおよび物理レーンＰＨＬのいずれかに故障が発生した場合、縮退対象の物理レーンＰＨＬ（縮退するレーンＰＨＬ）を、エラー情報ＥＩＮＦに基づいて特定する。そして、選択部ＳＥＬは、特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を除く物理レーンＰＨＬから通信先の情報処理装置ＰＤＥＶとのデータ転送に使用する物理レーンＰＨＬを選択する。

ＣＰＵは、演算処理を実行する演算処理装置の一例である。例えば、ＣＰＵは、フレーム転送回路ＦＴＲからデータＲＤＡＴＡを受信する。そして、ＣＰＵは、データＲＤＡＴＡを用いた演算を実行する。また、ＣＰＵは、例えば、演算結果等に対応するデータＳＤＡＴＡをフレーム転送回路ＦＴＲに出力する。

このように、情報処理装置ＰＤＥＶでは、物理層より上位の層に相当するフレーム転送回路ＦＴＲが、縮退するレーンＰＨＬを特定する。これにより、この実施形態では、故障したレーンを特定する機能（以下、故障レーン特定機能とも称する）を含まない物理層ＰＨＹを使用する場合においても、縮退するレーンＰＨＬを特定できる。この結果、この実施形態では、故障レーン特定機能を含まない物理層ＰＨＹを使用する場合においても、特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を使用しないように設定することにより、故障レーンＰＨＬを縮退できる。

したがって、並列計算機システムＳＹＳは、例えば、複数の物理レーンＰＨＬのうちの１つが故障した場合でも、故障レーンＰＨＬを縮退してリンクを維持できる。このため、並列計算機システムＳＹＳは、故障レーンＰＨＬを含むノード（情報処理装置ＰＤＥＶ）を使用した並列計算等の処理を実行できる。このように、並列計算機システムＳＹＳの信頼性は、複数の物理レーンＰＨＬのうちの１つでも故障した場合にノード間のリンクが切断される構成に比べて、向上する。

なお、情報処理装置ＰＤＥＶおよび並列計算機システムＳＹＳの構成は、この例に限定されない。例えば、情報処理装置ＰＤＥＶは、物理層ＰＨＹとフレーム転送回路ＦＴＲとの組を１つのＣＰＵに対して複数有してもよい。また、例えば、並列計算機システムＳＹＳは、３つ以上の情報処理装置ＰＤＥＶを有してもよい。

図２は、図１に示した物理層ＰＨＹの一例を示す。図２の例では、ＰＣＳレーンＰＬｓ０−ＰＬｓ４は、物理レーンＰＨＬｓ０に集約され、ＰＣＳレーンＰＬｒ０−ＰＬｒ４は、物理レーンＰＨＬｒ０に集約される。ＰＣＳレーンＰＬｓ５−ＰＬｓ９は、物理レーンＰＨＬｓ１に集約され、ＰＣＳレーンＰＬｒ５−ＰＬｒ９は、物理レーンＰＨＬｒ１に集約される。ＰＣＳレーンＰＬｓ１０−ＰＬｓ１４は、物理レーンＰＨＬｓ２に集約され、ＰＣＳレーンＰＬｒ１０−ＰＬｒ１４は、物理レーンＰＨＬｒ２に集約される。ＰＣＳレーンＰＬｓ１５−ＰＬｓ１９は、物理レーンＰＨＬｓ３に集約され、ＰＣＳレーンＰＬｒ１５−ＰＬｒ１９は、物理レーンＰＨＬｒ３に集約される。

物理層ＰＨＹは、例えば、ＰＣＳおよびＰＭＡ（Physical Medium Attachment）を有する。ＰＣＳは、例えば、データ分割部ＤＩＶＳ、ＤＩＶＲ、ＡＭ挿入部ＡＩＮＳ、ＢＩＰ挿入部ＢＩＮＳ、データ集約部ＡＧＧＳ、ＡＧＧＲ、ＡＭ検出部ＡＤＥＴ、ＢＩＰ検出部ＢＤＥＴ、エラー通知部ＥＲＥＰおよび起動制御部ＳＵＣＬＴを有する。また、ＰＭＡは、パラレルシリアル変換部ＰＳおよびシリアルパラレル変換部ＳＰを有する。

データ分割部ＤＩＶＳは、有効な物理レーンＰＨＬ（ＰＨＬｓ、ＰＨＬｒ）を示すイネーブル信号ＬＥＮをフレーム転送回路ＦＴＲから受信する。これにより、データ分割部ＤＩＶＳは、例えば、複数のＰＣＳレーンＰＬｓ（ＰＬｓ０−ＰＬｓ１９）から有効なＰＣＳレーンＰＬｓを選択できる。有効なＰＣＳレーンＰＬｓは、例えば、イネーブル信号ＬＥＮにより有効と指示された物理レーンＰＨＬｓに対応するＰＣＳレーンＰＬｓである。

また、データ分割部ＤＩＶＳは、フレーム転送回路ＦＴＲからフレームデータＳＦＲＡＭを順次受信する。そして、データ分割部ＤＩＶＳは、受信したフレームデータＳＦＲＡＭを有効なＰＣＳレーンＰＬｓに分配して、ＡＭ挿入部ＡＩＮＳに出力する。例えば、データ分割部ＤＩＶＳは、６４ビットのデータを６６ビットのデータに符号化する６４Ｂ／６６Ｂ符号化を実行する。

そして、データ分割部ＤＩＶＳは、６４Ｂ／６６Ｂ符号化後のブロック単位で、データを有効なＰＣＳレーンＰＬｓに振り分ける。これにより、ブロック（６６ビットのブロック）単位のデータが有効なＰＣＳレーンＰＬｓに対応するＡＭ挿入部ＡＩＮＳに転送される。このように、データ分割部ＤＩＶＳは、例えば、１個のレーンを２０個のＰＣＳレーンＰＬｓに分割する。

ＡＭ挿入部ＡＩＮＳ（ＡＩＮＳ０−ＡＩＮＳ１９）は、例えば、ＰＣＳレーンＰＬｓ０−ＰＬｓ１９に対応して設けられる。各ＡＭ挿入部ＡＩＮＳは、データ分割部ＤＩＶＳから受信したデータにアライメントマーカを挿入し、アライメントマーカを挿入したデータを各ＢＩＰ挿入部ＢＩＮＳ（ＢＩＮＳ０−ＢＩＮＳ１９）に出力する。例えば、各ＡＭ挿入部ＡＩＮＳは、１６３８４ブロック毎にアライメントマーカを挿入する。

ＢＩＰ挿入部ＢＩＮＳ（ＢＩＮＳ０−ＢＩＮＳ１９）は、例えば、ＰＣＳレーンＰＬｓ０−ＰＬｓ１９に対応して設けられる。各ＢＩＰ挿入部ＢＩＮＳは、各ＡＭ挿入部ＡＩＮＳから受信したデータにＢＩＰを挿入し、ＢＩＰを挿入したデータをデータ集約部ＡＧＧＳに出力する。例えば、各ＢＩＰ挿入部ＢＩＮＳは、１６３８４ブロック毎にＢＩＰを挿入する。

データ集約部ＡＧＧＳは、各ＢＩＰ挿入部ＢＩＮＳから各ＰＣＳレーンＰＬｓを介して受信したデータを集約して、ＰＭＡのパラレルシリアル変換部ＰＳに出力する。例えば、データ集約部ＡＧＧＳは、２０個のＰＣＳレーンＰＬｓを４個のレーンに集約する。

ＰＭＡのパラレルシリアル変換部ＰＳは、例えば、データ集約部ＡＧＧＳからパラレルに受信したデータをシリアルに変換する。例えば、データ集約部ＡＧＧＳとパラレルシリアル変換部ＰＳとを接続するレーンのそれぞれのバス幅が３２ビットの場合、パラレルシリアル変換部ＰＳは、３２ビットのパラレルデータを１ビットのシリアルデータに変換する。そして、パラレルシリアル変換部ＰＳは、シリアルに変換したデータを、物理レーンＰＨＬｓ０−ＰＨＬｓ４等を介して、通信先の情報処理装置ＰＤＥＶの物理層ＰＨＹに転送する。

ＰＭＡのシリアルパラレル変換部ＳＰは、例えば、物理レーンＰＨＬｒ０−ＰＨＬｒ４等を介して、通信先の情報処理装置ＰＤＥＶの物理層ＰＨＹからシリアルデータを受信する。そして、シリアルパラレル変換部ＳＰは、シリアルデータをパラレルデータに変換して、ＰＣＳのデータ分割部ＤＩＶＲに出力する。例えば、シリアルパラレル変換部ＳＰとデータ分割部ＤＩＶＲとを接続するレーンのそれぞれのバス幅が３２ビットの場合、シリアルパラレル変換部ＳＰは、１ビットのシリアルデータを３２ビットのパラレルデータに変換する。

データ分割部ＤＩＶＲは、ＰＭＡのシリアルパラレル変換部ＳＰからデータを順次受信する。そして、データ分割部ＤＩＶＲは、受信したデータを複数のＰＣＳレーンＰＬｒ（ＰＬｒ０−ＰＬｒ１９）に分配して、ＡＭ検出部ＡＤＥＴ（ＡＤＥＴ０−ＡＤＥＴ１９）に出力する。このように、データ分割部ＤＩＶＲは、例えば、４個のレーンを２０個のＰＣＳレーンＰＬｒに分割する。

ＡＭ検出部ＡＤＥＴ（ＡＤＥＴ０−ＡＤＥＴ１９）は、例えば、ＰＣＳレーンＰＬｒ０−ＰＬｒ１９に対応して設けられる。各ＡＭ検出部ＡＤＥＴは、データ分割部ＤＩＶＲから転送されたデータからアライメントマーカを検出する。そして、各ＡＭ検出部ＡＤＥＴは、アライメントマーカを検出した場合、アライメントマーカを検出したことを示すＡＭ検出情報ＡＩＮＦを、起動制御部ＳＵＣＬＴに出力する。また、各ＡＭ検出部ＡＤＥＴは、データ分割部ＤＩＶＲから転送されたデータを各ＢＩＰ検出部ＢＤＥＴ（ＢＤＥＴ０−ＢＤＥＴ１９）に出力する。

ＢＩＰ検出部ＢＤＥＴ（ＢＤＥＴ０−ＢＤＥＴ１９）は、例えば、ＰＣＳレーンＰＬｒ０−ＰＬｒ１９に対応して設けられる。各ＢＩＰ検出部ＢＤＥＴは、各ＡＭ検出部ＡＤＥＴから転送されたデータに対して、ＢＩＰを用いた符号誤り検出を実行する。そして、各ＢＩＰ検出部ＢＤＥＴは、符号誤り検出の結果をエラー情報ＥＩＮＦとして、エラー通知部ＥＲＥＰに出力する。また、各ＢＩＰ検出部ＢＤＥＴは、各ＡＭ検出部ＡＤＥＴから転送されたデータをデータ集約部ＡＧＧＲに出力する。

データ集約部ＡＧＧＲは、有効な物理レーンＰＨＬ（ＰＨＬｓ、ＰＨＬｒ）を示すイネーブル信号ＬＥＮをフレーム転送回路ＦＴＲから受信する。これにより、データ集約部ＡＧＧＲは、例えば、複数のＰＣＳレーンＰＬｒ（ＰＬｒ０−ＰＬｒ１９）から有効なＰＣＳレーンＰＬｒを選択できる。有効なＰＣＳレーンＰＬｒは、例えば、イネーブル信号ＬＥＮにより有効と指示された物理レーンＰＨＬｒに対応するＰＣＳレーンＰＬｒである。

また、データ集約部ＡＧＧＲは、例えば、２０個のＰＣＳレーンＰＬｒを１個のレーンに集約する。例えば、データ集約部ＡＧＧＲは、６４Ｂ／６６Ｂ符号化されたデータを有効なＰＣＳレーンＰＬｒ毎に復号する。そして、データ集約部ＡＧＧＲは、各ＰＣＳレーンＰＬｓのデータ（復号したデータ）を集約して、フレームデータＲＦＲＡＭを生成する。

このように、データ集約部ＡＧＧＲは、有効なＰＣＳレーンＰＬｒに対応するＢＩＰ検出部ＢＤＥＴから受信したデータを集約して、フレームデータＲＦＲＡＭを生成する。そして、データ集約部ＡＧＧＲは、フレームデータＲＦＲＡＭをフレーム転送回路ＦＴＲに出力する。

起動制御部ＳＵＣＬＴは、例えば、起動や停止の指示を示す指示通知ＳＩＮＦおよびイネーブル信号ＬＥＮをフレーム転送回路ＦＴＲから受信する。例えば、起動制御部ＳＵＣＬＴは、起動指示を示す指示通知ＳＩＮＦをフレーム転送回路ＦＴＲから受信した場合、物理層ＰＨＹを起動させる処理を実行する。そして、起動制御部ＳＵＣＬＴは、例えば、有効なＰＣＳレーンＰＬｒの全てで、アライメントマーカが検出された場合、起動完了を示す起動完了通知ＣＩＮＦをフレーム転送回路ＦＴＲに出力する。

また、起動制御部ＳＵＣＬＴは、各ＡＭ検出部ＡＤＥＴから受信した各ＰＣＳレーンＰＬｒのＡＭ検出情報ＡＩＮＦを、フレーム転送回路ＦＴＲの情報取得部ＡＣＱに出力する。例えば、起動制御部ＳＵＣＬＴは、各ＡＭ検出部ＡＤＥＴから受信したＡＭ検出情報ＡＩＮＦを保持するレジスタ等を有する。

エラー通知部ＥＲＥＰは、各ＢＩＰ検出部ＢＤＥＴから受信した各ＰＣＳレーンＰＬｒのエラー情報ＥＩＮＦを、フレーム転送回路ＦＴＲの情報取得部ＡＣＱに出力する。例えば、エラー通知部ＥＲＥＰは、各ＢＩＰ検出部ＢＤＥＴから受信したエラー情報ＥＩＮＦを保持するレジスタ等を有する。このように、物理層ＰＨＹは、ＡＭ検出情報ＡＩＮＦおよびエラー情報ＥＩＮＦをフレーム転送回路ＦＴＲに出力する。これにより、フレーム転送回路ＦＴＲは、物理レーンＰＨＬ等の故障を検出でき、さらに、縮退するレーンＰＨＬを特定できる。

なお、物理層ＰＨＹの構成は、この例に限定されない。例えば、各ＡＭ検出部ＡＤＥＴは、ＡＭ検出情報ＡＩＮＦを、起動制御部ＳＵＣＬＴおよびフレーム転送回路ＦＴＲの情報取得部ＡＣＱに出力してもよい。また、例えば、各ＢＩＰ検出部ＢＤＥＴは、エラー情報ＥＩＮＦを、エラー通知部ＥＲＥＰおよびフレーム転送回路ＦＴＲの情報取得部ＡＣＱに出力してもよい。また、ＰＣＳレーンＰＬ（ＰＬｓ、ＰＬｒ）の数、物理レーンＰＨＬ（ＰＨＬｓ、ＰＨＬｒ）の数等も、この例に限定されない。

図３は、図１に示したフレーム転送回路ＦＴＲの一例を示す。フレーム転送回路ＦＴＲは、フレーム生成部ＦＧＥＮ、フレーム送信部ＦＳＥＮ、再送制御部ＲＴＣＬＴ、フレーム受信部ＦＲＥＣ、バッファ部ＲＢＵＦ、フロー制御部ＦＣＬＴおよびリンク制御部ＬＣＬＴを有する。なお、図１に示した情報取得部ＡＣＱおよび選択部ＳＥＬは、例えば、リンク制御部ＬＣＬＴに含まれる。

フレーム生成部ＦＧＥＮは、ＣＰＵからデータＳＤＡＴＡを受信し、受信したデータＳＤＡＴＡをフレームの形式に変換する。これにより、フレームデータＳＦＲＡＭが生成される。そして、フレーム生成部ＦＧＥＮは、フレームの形式に変換したフレームデータＳＦＲＡＭをフレーム送信部ＦＳＥＮおよび再送制御部ＲＴＣＬＴに出力する。また、フレーム生成部ＦＧＥＮは、例えば、フレームデータＳＦＲＡＭのデータ長を示す情報をフロー制御部ＦＣＬＴに出力する。

フレーム送信部ＦＳＥＮは、物理層ＰＨＹにフレームデータＳＦＲＡＭを送信するためのインターフェース回路である。例えば、フレーム送信部ＦＳＥＮは、物理層ＰＨＹとの非同期クロックの乗り換え等を実行する。また、フレーム送信部ＦＳＥＮは、再送制御部ＲＴＣＬＴから受信したフレームデータＳＦＲＡＭとフレーム生成部ＦＧＥＮから受信したフレームデータＳＦＲＡＭとのいずれかを出力データとして選択するデータパス選択機能を有する。

再送制御部ＲＴＣＬＴは、フレーム生成部ＦＧＥＮから受信したフレームデータＳＦＲＡＭを内部のバッファ等に記憶する。また、再送制御部ＲＴＣＬＴは、例えば、肯定応答信号ＡＣＫ、否定応答信号ＮＡＣＫ等を、フレーム受信部ＦＲＥＣから受信する。例えば、肯定応答信号ＡＣＫは、データの受信が通信先の情報処理装置ＰＤＥＶで正常に完了したことを示す信号であり、通信先の情報処理装置ＰＤＥＶのフレーム転送回路ＦＴＲから送信される。また、例えば、否定応答信号ＮＡＣＫは、通信先の情報処理装置ＰＤＥＶがデータを正常に受信できなかったことを示す信号であり、通信先の情報処理装置ＰＤＥＶのフレーム転送回路ＦＴＲから送信される。

例えば、再送制御部ＲＴＣＬＴは、否定応答信号ＮＡＣＫを受信した場合、再送制御部ＲＴＣＬＴ内のバッファ等に記憶したフレームデータＳＦＲＡＭ（フレーム生成部ＦＧＥＮから受信したフレームデータＳＦＲＡＭ）を、フレーム送信部ＦＳＥＮに出力する。これにより、フレームデータＳＦＲＡＭの再送信が実行される。

また、再送制御部ＲＴＣＬＴは、異常検出部ＦＤＥＴを有する。異常検出部ＦＤＥＴは、外部の装置（例えば、通信先の情報処理装置ＰＤＥＶ）に物理層ＰＨＹを介して転送したフレームデータＳＦＲＡＭの再送信に関する処理での異常を検出する第１検出部の一例である。例えば、異常検出部ＦＤＥＴは、ビットエラーレートの悪化、リトライアウト等を検出した場合、再送信に関する処理で異常が発生したと判定する。ビットエラーレートの悪化は、例えば、所定時間内の再送回数が閾値を超えた場合に検出される。また、例えば、リトライアウトは、送信したフレームデータＳＦＲＡＭに対する応答（肯定応答信号ＡＣＫ、否定応答信号ＮＡＣＫ）がない場合や連続した再送の回数が閾値を超えた場合に検出される。

異常検出部ＦＤＥＴは、再送信に関する処理での異常を検出した場合、再送信に関する処理で異常が発生したことを示す再送信エラー通知ＲＥＲＲをリンク制御部ＬＣＬＴに出力する。

フレーム受信部ＦＲＥＣは、物理層ＰＨＹからフレームデータＲＦＲＡＭを受信するためのインターフェース回路である。物理層ＰＨＹからフレーム受信部ＦＲＥＣに転送されるフレームデータＲＦＲＡＭは、通信先の情報処理装置ＰＤＥＶのフレーム転送回路ＦＴＲから送信されるフレームデータＳＦＲＡＭに対応する。

フレーム受信部ＦＲＥＣは、物理層ＰＨＹとの非同期クロックの乗り換え等を実行し、物理層ＰＨＹから受信したフレームデータＲＦＲＡＭをバッファ部ＲＢＵＦに出力する。また、フレーム受信部ＦＲＥＣは、制御用ＤＬＬＰ（Data Link Layer Packet）の検出機能を有する。

例えば、フレーム受信部ＦＲＥＣは、フロー制御に関するフロー制御情報ＦＩＮＦ（フロー制御フレーム）を検出した場合、検出したフロー制御情報ＦＩＮＦをフロー制御部ＦＣＬＴに出力する。例えば、通信先の情報処理装置ＰＤＥＶのバッファ部ＲＢＵＦの空き状態等を示すクレジット解放通知は、フロー制御情報ＦＩＮＦに含まれる。

また、例えば、フレーム受信部ＦＲＥＣは、データリンク層のリンクアップ／リンクダウン、物理レーンＰＨＬの縮退に関する縮退情報ＤＩＮＦＲ等を示すリンク制御情報を検出した場合、検出したリンク制御情報をリンク制御部ＬＣＬＴに出力する。例えば、フレーム受信部ＦＲＥＣは、物理レーンＰＨＬの縮退に関する縮退情報ＤＩＮＦＲを検出した場合、検出した縮退情報ＤＩＮＦＲをリンク制御部ＬＣＬＴに出力する。縮退情報ＤＩＮＦＲは、通信先の情報処理装置ＰＤＥＶのリンク制御部ＬＣＬＴから送信される縮退情報ＤＩＮＦＳに対応する。以下、縮退情報ＤＩＮＦＲを縮退情報ＤＩＮＦＳと読み替えて説明する場合もある。

また、例えば、フレーム受信部ＦＲＥＣは、肯定応答信号ＡＣＫ、否定応答信号ＮＡＣＫ等の応答信号を検出した場合、検出した応答信号（肯定応答信号ＡＣＫ、否定応答信号ＮＡＣＫ）を再送制御部ＲＴＣＬＴに出力する。

バッファ部ＲＢＵＦは、フレーム受信部ＦＲＥＣから受信したフレームデータＲＦＲＡＭを順次記憶し、記憶したフレームデータＲＦＲＡＭをデータＲＤＡＴＡとしてＣＰＵに順次出力する。

フロー制御部ＦＣＬＴは、通信先の情報処理装置ＰＤＥＶにフレームデータＳＦＲＡＭを転送するためのフロー制御を実行する。例えば、フロー制御部ＦＣＬＴは、通信先の情報処理装置ＰＤＥＶのバッファ部ＲＢＵＦの空き状態およびフレームデータＳＦＲＡＭのデータ長に基づいて、フレーム生成部ＦＧＥＮを制御する。これにより、フレームデータＳＦＲＡＭの送信が制御され、通信先の情報処理装置ＰＤＥＶのバッファ部ＲＢＵＦの空き状態が管理される。

例えば、フロー制御部ＦＣＬＴは、通信先の情報処理装置ＰＤＥＶのバッファ部ＲＢＵＦに空きがないことを示すフロー制御情報ＦＩＮＦを受信した場合、フレームデータＳＦＲＡＭの送信を抑制するようにフレーム生成部ＦＧＥＮを制御する。

また、フロー制御部ＦＣＬＴは、バッファ部ＲＢＵＦの空き状態等を示す情報をバッファ部ＲＢＵＦから定期的に受信する。そして、フロー制御部ＦＣＬＴは、バッファ部ＲＢＵＦの状態を示す情報をフレーム生成部ＦＧＥＮに定期的に出力する。これにより、バッファ部ＲＢＵＦの状態を示すフロー制御情報ＦＩＮＦが通信先の情報処理装置ＰＤＥＶのフロー制御部ＦＣＬＴに定期的に通知される。すなわち、フロー制御部ＦＣＬＴは、通信先の情報処理装置ＰＤＥＶのバッファ部ＲＢＵＦの状態を示すフロー制御情報ＦＩＮＦを定期的に受信する。

さらに、フロー制御部ＦＣＬＴは、エラー検出部ＥＤＥＴを有する。エラー検出部ＥＤＥＴは、外部の装置（例えば、通信先の情報処理装置ＰＤＥＶ）にフレームデータＳＦＲＡＭを転送するためのフロー制御での異常を検出する第２検出部の一例である。例えば、フロー制御での異常は、フロー制御フレーム（フロー制御情報ＦＩＮＦ）を受信していない期間の長さが閾値を超えた場合に検出される。例えば、エラー検出部ＥＤＥＴは、フロー制御情報ＦＩＮＦを受信してから所定時間が経過するまでに次のフロー制御情報ＦＩＮＦを受信しなかった場合、フロー制御で異常が発生したと判定する。以下、フロー制御での異常を、フロー制御プロトコルエラーとも称する。

エラー検出部ＥＤＥＴは、フロー制御での異常を検出した場合、フロー制御で異常が発生したことを示すフロー制御プロトコルエラー通知ＦＥＲＲをリンク制御部ＬＣＬＴに出力する。以下、フロー制御プロトコルエラー通知ＦＥＲＲを、ＦＣＰＥ（Flow Control Protocol Error）通知ＦＥＲＲとも称する。

リンク制御部ＬＣＬＴは、物理層ＰＨＹの制御、リンクの制御、物理レーンＰＨＬの縮退等を実行する。例えば、物理層ＰＨＹの制御では、リンク制御部ＬＣＬＴは、物理層ＰＨＹに対して起動を指示する場合、起動を指示する指示通知ＳＩＮＦを物理層ＰＨＹに出力する。そして、リンク制御部ＬＣＬＴは、例えば、物理層ＰＨＹの起動が完了した場合、起動完了通知ＣＩＮＦを物理層ＰＨＹから受信する。また、例えば、リンク制御部ＬＣＬＴは、物理層ＰＨＹに対して停止を指示する場合、停止を指示する指示通知ＳＩＮＦを物理層ＰＨＹに出力する。

リンクの制御では、例えば、リンク制御部ＬＣＬＴは、各モジュールからのエラー通知に基づいてリンクを切断する処理、各モジュールにリンクの状態を通知する処理等を実行する。また、例えば、物理レーンＰＨＬの縮退は、リンク制御部ＬＣＬＴに含まれる情報取得部ＡＣＱおよび選択部ＳＥＬ等により実行される。例えば、情報取得部ＡＣＱは、ＡＭ検出情報ＡＩＮＦおよびエラー情報ＥＩＮＦを物理層ＰＨＹから受信する。また、選択部ＳＥＬは、物理レーンＰＨＬのイネーブル信号ＬＥＮおよび縮退情報ＤＩＮＦＳを物理層ＰＨＹおよびフレーム生成部ＦＧＥＮにそれぞれ出力する。

図４は、図３に示したリンク制御部ＬＣＬＴの一例を示す。リンク制御部ＬＣＬＴは、起動指示部ＳＣＬＴ、情報取得部ＡＣＱおよび選択部ＳＥＬを有する。情報取得部ＡＣＱは、エラー情報受信部ＥＲＥＣおよびＡＭ検出情報受信部ＡＲＥＣを有する。また、選択部ＳＥＬは、タイマＴＭ、タイムアウト判定部ＴＪＧ、エラーカウンタＥＣＴ、故障判定部ＢＪＧ、縮退指示部ＤＣＬＴ、レーン選択部ＬＳＥＬおよび縮退情報生成部ＤＧＥＮを有する。

起動指示部ＳＣＬＴは、例えば、ユーザ指示ＯＰＩＮＦを受信する。例えば、起動指示部ＳＣＬＴは、ユーザが情報処理装置ＰＤＥＶの操作部等を操作して物理層ＰＨＹの起動を指示した場合、起動を指示するユーザ指示ＯＰＩＮＦを受信する。そして、起動指示部ＳＣＬＴは、起動を指示する指示通知ＳＩＮＦを物理層ＰＨＹに出力する。さらに、起動指示部ＳＣＬＴは、初回の起動指示に応じて、タイマＴＭを起動する。

物理層ＰＨＹの起動が完了した場合、起動指示部ＳＣＬＴは、起動完了を示す起動完了通知ＣＩＮＦを物理層ＰＨＹから受信する。また、例えば、起動指示部ＳＣＬＴは、ユーザが情報処理装置ＰＤＥＶの操作部等を操作して物理層ＰＨＹの停止を指示した場合、停止を指示するユーザ指示ＯＰＩＮＦを受信する。そして、起動指示部ＳＣＬＴは、停止を指示する指示通知ＳＩＮＦを物理層ＰＨＹに出力する。

また、起動指示部ＳＣＬＴは、物理層ＰＨＹの再起動を指示する通知を縮退指示部ＤＣＬＴから受信する。この場合、起動指示部ＳＣＬＴは、例えば、停止を指示する指示通知ＳＩＮＦを物理層ＰＨＹに出力した後、起動を指示する指示通知ＳＩＮＦを物理層ＰＨＹに出力する。なお、再起動時では、例えば、起動指示部ＳＣＬＴは、タイマＴＭを有効にしない。

ＡＭ検出情報受信部ＡＲＥＣは、各ＰＣＳレーンＰＬｒのＡＭ検出情報ＡＩＮＦを物理層ＰＨＹから受信する。そして、ＡＭ検出情報受信部ＡＲＥＣは、例えば、アライメントマーカを検出したことを示すＡＭ検出情報ＡＩＮＦを１つ以上受信したとき、タイマＴＭに計測の開始を指示する。例えば、ＡＭ検出情報受信部ＡＲＥＣは、アライメントマーカを検出したことを示すＡＭ検出情報ＡＩＮＦを１つ以上受信したとき、開始指示信号をタイマＴＭに出力する。

また、ＡＭ検出情報受信部ＡＲＥＣは、各ＰＣＳレーンＰＬｒのＡＭ検出情報ＡＩＮＦをレーン選択部ＬＳＥＬに出力する。なお、ＡＭ検出情報受信部ＡＲＥＣは、例えば、ＩＥＥＥ８０２．３ｂａ規格で規定されているアライメント検出情報通知機能を用いて、定期的にＡＭ検出情報ＡＩＮＦを物理層ＰＨＹから読み出してもよい。

タイマＴＭは、例えば、ＡＭ検出情報受信部ＡＲＥＣからの開始指示信号を受信したとき、所定時間（例えば、４ミリ秒）の計測を開始する。また、タイマＴＭは、起動完了通知ＣＩＮＦを物理層ＰＨＹから受信する。そして、タイマＴＭは、起動完了通知ＣＩＮＦの受信に応じて、計測を停止する。また、タイマＴＭは、所定時間の計測が終了したとき、所定時間が経過したことを示す情報をタイムアウト判定部ＴＪＧに出力する。

タイムアウト判定部ＴＪＧは、起動完了通知ＣＩＮＦを物理層ＰＨＹから受信する。そして、タイムアウト判定部ＴＪＧは、所定時間が経過するまでに起動完了通知ＣＩＮＦを物理層ＰＨＹから受信しなかった場合、レーン故障が発生していると判定する。この場合、タイムアウト判定部ＴＪＧは、レーン故障が発生していることを示す情報を、縮退指示部ＤＣＬＴに出力する。

エラー情報受信部ＥＲＥＣは、各ＰＣＳレーンＰＬｒのエラー情報ＥＩＮＦを物理層ＰＨＹから受信する。そして、エラー情報受信部ＥＲＥＣは、各ＰＣＳレーンＰＬｒのエラー情報ＥＩＮＦをレーン選択部ＬＳＥＬおよびエラーカウンタＥＣＴに出力する。なお、エラー情報受信部ＥＲＥＣは、例えば、ＩＥＥＥ８０２．３ｂａ規格で規定されているＢＩＰエラー数通知機能を用いて、ＢＩＰエラー数を物理層ＰＨＹから定期的に読み出してもよい。

エラーカウンタＥＣＴは、所定期間に発生した誤りの数（例えば、ＢＩＰエラー数）をエラー情報ＥＩＮＦに基づいて物理レーンＰＨＬ毎に計測する計測部の一例である。例えば、エラーカウンタＥＣＴは、エラー情報受信部ＥＲＥＣから受信した各ＰＣＳレーンＰＬｒのエラー情報ＥＩＮＦに基づいて、所定期間（例えば、８０ミリ秒）内のＢＩＰエラー数を物理レーンＰＨＬ毎に計算する。そして、エラーカウンタＥＣＴは、各物理レーンＰＨＬのＢＩＰエラー数を示す情報を、故障判定部ＢＪＧおよびレーン選択部ＬＳＥＬに出力する。

故障判定部ＢＪＧは、所定期間内の各物理レーンＰＨＬのＢＩＰエラー数を示す情報に基づいて、物理レーンＰＨＬに故障が発生しているか否かを判定する。これにより、レーン故障が発生しているか否かが判定される。例えば、故障判定部ＢＪＧは、レーン故障が発生していると判定した場合、レーン故障が発生していることを示す情報を、縮退指示部ＤＣＬＴに出力する。

縮退指示部ＤＣＬＴは、縮退情報ＤＩＮＦＲ、再送信エラー通知ＲＥＲＲおよびＦＣＰＥ通知ＦＥＲＲを、フレーム受信部ＦＲＥＣ、再送制御部ＲＴＣＬＴの異常検出部ＦＤＥＴおよびフロー制御部ＦＣＬＴのエラー検出部ＥＤＥＴからそれぞれ受信する。また、縮退指示部ＤＣＬＴは、レーン故障が発生していることを示す情報を、タイムアウト判定部ＴＪＧおよび故障判定部ＢＪＧから受信する。そして、縮退指示部ＤＣＬＴは、例えば、レーン縮退を実行するか否かを示す情報等を、レーン選択部ＬＳＥＬに出力する。また、例えば、縮退指示部ＤＣＬＴは、通信先の情報処理装置ＰＤＥＶに送付する縮退情報ＤＩＮＦＳを生成するための情報を、縮退情報生成部ＤＧＥＮに出力する。

レーン選択部ＬＳＥＬは、縮退指示部ＤＣＬＴ、ＡＭ検出情報受信部ＡＲＥＣ、エラー情報受信部ＥＲＥＣおよびエラーカウンタＥＣＴから受信するそれぞれの情報に基づいて、通信先の情報処理装置ＰＤＥＶとのデータ転送に使用する物理レーンＰＨＬを選択する。例えば、レーン選択部ＬＳＥＬは、通信先の情報処理装置ＰＤＥＶとのデータ転送に使用する物理レーンＰＨＬを有効にするイネーブル信号ＬＥＮを物理層ＰＨＹに出力する。

縮退情報生成部ＤＧＥＮは、縮退指示部ＤＣＬＴから受信した情報に基づいて、縮退情報ＤＩＮＦＳを生成する。そして、縮退情報生成部ＤＧＥＮは、縮退情報ＤＩＮＦＳをフレーム生成部ＦＧＥＮに出力する。これにより、縮退情報ＤＩＮＦＳは、通信先の情報処理装置ＰＤＥＶに縮退情報ＤＩＮＦＲとして転送される。

なお、リンク制御部ＬＣＬＴの構成は、この例に限定されない。例えば、起動指示部ＳＣＬＴは、再起動時にも、タイマＴＭを有効にしてもよい。

図５は、図４に示したエラーカウンタＥＣＴの一例を示す。エラーカウンタＥＣＴは、例えば、エラーカウンタＥＣＴ０、ＥＣＴ１、ＥＣＴ２、ＥＣＴ３を有する。エラーカウンタＥＣＴ０−ＥＣＴ３は、例えば、物理レーンＰＨＬｒ０−ＰＨＬｒ４の所定期間内のＢＩＰエラーをそれぞれ計数する。なお、図５のエラー情報ＥＩＮＦの符号の末尾の括弧内の数字は、例えば、図２に示したＰＣＳレーンＰＨＬｒ０−ＰＨＬｒ１９の符号の末尾の数字に対応する。

エラーカウンタＥＣＴ１−ＥＣＴ３の構成および動作は、エラーカウンタＥＣＴ１と同一または同様である。このため、図５では、エラーカウンタＥＣＴ０について説明する。エラーカウンタＥＣＴ０は、例えば、約８０ミリ秒の間に発生した物理レーンＰＨＬｒ０のＢＩＰエラーの数を計測する。例えば、エラーカウンタＥＣＴ０は、物理層ＰＨＹのリンクアップを契機に計測を開始し、計測値（約８０ミリ秒の間に発生したＢＩＰエラーの数）を約２０ミリ秒毎に更新する。

エラーカウンタＥＣＴ０は、例えば、カウンタＣＵＮＴ、レジスタＲＥＧ１、ＲＥＧ２、ＲＥＧ３および加算部ＡＤＤを有する。カウンタＣＵＮＴ、レジスタＲＥＧ１、ＲＥＧ２は、例えば、保持している値を後段のレジスタＲＥＧ１、ＲＥＧ２、ＲＥＧ３に約２０ミリ秒毎にリレーする。

例えば、１００Ｇｂｐｓの転送レートでは、６４Ｂ／６６Ｂ符号ブロックを物理層ＰＨＹが１６３８４個受信するまでの時間が約２１０マイクロ秒である。この場合、例えば、カウンタＣＵＮＴは、物理レーンＰＨＬｒ０のＢＩＰエラーの総数（ＰＣＳレーンＰＨＬｒ０−ＰＨＬｒ４のＢＩＰエラー数）を約２１０マイクロ秒毎に加算する。そして、カウンタＣＵＮＴは、加算値（約２０ミリ秒の間に発生した物理レーンＰＨＬｒ０のＢＩＰエラー数）を、約２０ミリ秒毎に後段のレジスタＲＥＧ１に転送する。このとき、レジスタＲＥＧ１、ＲＥＧ２も、保持している値を後段のレジスタＲＥＧ２、ＲＥＧ３に転送する。

また、カウンタＣＵＮＴ、レジスタＲＥＧ１、ＲＥＧ２、ＲＥＧ３は、例えば、カウンタＣＵＮＴが加算値をレジスタＲＥＧ１に転送するタイミングで、保持している値を加算部ＡＤＤに出力する。例えば、カウンタＣＵＮＴは、現時点から約２０ミリ秒前までの約２０ミリ秒間に発生した物理レーンＰＨＬｒ０のＢＩＰエラー数を加算部ＡＤＤに出力する。また、レジスタＲＥＧ１は、約２０ミリ秒前から約４０ミリ秒前までの約２０ミリ秒間に発生した物理レーンＰＨＬｒ０のＢＩＰエラー数を加算部ＡＤＤに出力する。レジスタＲＥＧ２は、約４０ミリ秒前から約６０ミリ秒前までの約２０ミリ秒間に発生した物理レーンＰＨＬｒ０のＢＩＰエラー数を加算部ＡＤＤに出力する。レジスタＲＥＧ３は、約６０ミリ秒前から約８０ミリ秒前までの約２０ミリ秒間に発生した物理レーンＰＨＬｒ０のＢＩＰエラー数を加算部ＡＤＤに出力する。

加算部ＡＤＤは、カウンタＣＵＮＴ、レジスタＲＥＧ１、ＲＥＧ２、ＲＥＧ３から受信した値を加算する。これにより、約８０ミリ秒の間に発生した物理レーンＰＨＬｒ０のＢＩＰエラー数が算出される。そして、加算部ＡＤＤは、加算結果（約８０ミリ秒の間に発生した物理レーンＰＨＬｒ０のＢＩＰエラー数）を故障判定部ＢＪＧに出力する。なお、加算部ＡＤＤから出力される加算結果は、例えば、約２０ミリ秒毎に更新される。したがって、故障判定部ＢＪＧは、物理レーンＰＨＬに故障が発生しているか否かを約２０ミリ秒毎に判定する。

なお、エラーカウンタＥＣＴの構成および所定期間等の数値例は、この例に限定されない。例えば、約４０ミリ秒の間に発生した物理レーンＰＨＬｒのＢＩＰエラー数を判定に使用する場合等では、レジスタＲＥＧ２、ＲＥＧ３は、省かれてもよい。

図６は、レーン縮退の契機の一例を示す。物理層ＰＨＹのリンクアップ前では、リンク制御部ＬＣＬＴは、ＰＣＳレーンＰＬや物理レーンＰＨＬの故障の検出を契機に、レーン縮退を実行する。物理層ＰＨＹのリンクアップ後では、リンク制御部ＬＣＬＴは、ビットエラーレートの悪化、リトライアウトの検出、フロー制御プロトコルエラーの検出、所定期間内のＢＩＰエラー数の閾値超えのいずれかを契機に、レーン縮退を実行する。

ビットエラーレートの悪化は、例えば、所定時間内の再送回数が閾値を超えた場合に検出される。例えば、異常検出部ＦＤＥＴは、２４秒間に２５５回以上の再送要求が発生した場合、ビットエラーレートの悪化と判定する。

リトライアウトは、例えば、送信したフレームデータＳＦＲＡＭに対する応答（肯定応答信号ＡＣＫ、否定応答信号ＮＡＣＫ）がない場合や連続した再送の回数が閾値を超えた場合に検出される。例えば、異常検出部ＦＤＥＴは、フレームデータＳＦＲＡＭが送信されてから所定時間（例えば、１２．６２ミリ秒）が経過するまでに、肯定応答信号ＡＣＫあるいは否定応答信号ＮＡＣＫを受信しなかった場合、リトライアウトと判定する。また、例えば、異常検出部ＦＤＥＴは、連続した再送の回数が閾値（例えば、２５５回）を超えた場合、リトライアウトと判定する。

フロー制御プロトコルエラーは、フロー制御フレーム（フロー制御情報ＦＩＮＦ）を受信していない期間の長さが閾値（例えば、２００マイクロ秒）を超えた場合に検出される。このように、フレーム転送回路ＦＴＲは、物理層ＰＨＹより上位の通信プロトコルのエラー検出情報に基づいて、レーン縮退の契機を検出する。また、リンク制御部ＬＣＬＴは、複数種類のエラーのうちのいずれかが検出された場合にレーン縮退を実行するため、故障レーンＰＨＬの使用を適切に回避できる。

図７は、図１に示した情報処理装置ＰＤＥＶのリンクアップ前の動作の一例を示す。すなわち、図７は、並列計算機システムの制御方法の一形態を示す。なお、図７は、物理層ＰＨＹのリンクアップ前のレーン縮退に関するリンク制御部ＬＣＬＴの動作の一例を示す。図７の動作は、ハードウエアのみで実現されてもよく、ハードウエアをソフトウエアにより制御することにより実現されてもよい。例えば、制御プログラム等のソフトウエアは、図７の動作をコンピュータに実行させてもよい。すなわち、コンピュータは、制御プログラムを記録した記憶媒体を読み取り、図７の動作を実行してもよい。

ステップＳ１００では、起動指示部ＳＣＬＴは、例えば、ユーザからの起動指示に応じて、物理層ＰＨＹに対して起動を指示する。

ステップＳ１１０では、ＡＭ検出情報受信部ＡＲＥＣは、アライメントマーカを検出したことを示すＡＭ検出情報ＡＩＮＦを、１つ以上受信したか否かを判定する。すなわち、ＡＭ検出情報受信部ＡＲＥＣは、１個以上のＰＣＳレーンＰＬでＡＭ検出情報ＡＩＮＦが観測されたか否かを判定する。

ＡＭ検出情報ＡＩＮＦを１つ以上受信した場合（ステップＳ１１０のＹｅｓ）、リンク制御部ＬＣＬＴの動作は、ステップＳ１２０に移る。一方、ＡＭ検出情報ＡＩＮＦを１つも受信していない場合（ステップＳ１１０のＮｏ）、リンク制御部ＬＣＬＴの動作は、ステップＳ１１０に戻る。すなわち、ステップＳ１２０以降の処理は、例えば、通信先の情報処理装置ＰＤＥＶから転送されたデータ（アライメントマーカを含むデータ）が１個以上のＰＣＳレーンＰＬで観測された場合に実行される。

ステップＳ１２０では、タイマＴＭは、所定時間（例えば、４ミリ秒）の計測を開始する。すなわち、タイマＴＭは、アライメントマーカを含むデータが１個以上のＰＣＳレーンＰＬで観測されてから所定時間の計測を開始する。

ステップＳ１３０では、タイムアウト判定部ＴＪＧは、ステップＳ１２０で計測が開始されてから所定時間が経過するまでに起動完了通知ＣＩＮＦを物理層ＰＨＹから受信したか否かを判定する。すなわち、タイムアウト判定部ＴＪＧは、アライメントマーカが最初に検出されてから所定時間が経過するまでに全てのＰＣＳレーンＰＬでアライメントマーカが検出されたか否かを判定する。

所定時間が経過するまでに起動完了通知ＣＩＮＦを受信した場合（ステップＳ１３０のＹｅｓ）、リンク制御部ＬＣＬＴの動作は、ステップＳ１４０に移る。一方、所定時間が経過するまでに起動完了通知ＣＩＮＦを受信していない場合（ステップＳ１３０のＮｏ）、リンク制御部ＬＣＬＴの動作は、ステップＳ１５０に移る。

ステップＳ１４０では、リンク制御部ＬＣＬＴは、故障レーンなしと判定する。すなわち、リンク制御部ＬＣＬＴは、所定時間が経過するまでに起動完了通知ＣＩＮＦを受信した場合、レーン縮退を実行することなく、レーン縮退に関する処理（以下、レーン縮退処理とも称する）を終了する。

ステップＳ１５０では、レーン選択部ＬＳＥＬは、ＡＭ検出情報ＡＩＮＦを観測したＰＣＳレーンＰＬの数が少ない物理レーンＰＨＬを、縮退するレーンと特定する。

ステップＳ１６０では、レーン選択部ＬＳＥＬは、ステップＳ１５０で特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を使用しないように、レーン縮退を実行する。例えば、レーン選択部ＬＳＥＬは、ステップＳ１５０で特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を除く物理レーンＰＨＬから、通信先の情報処理装置ＰＤＥＶとのデータ転送に使用する物理レーンＰＨＬを選択し、選択した物理レーンＰＨＬをイネーブルに設定する。なお、初期状態では、例えば、全ての物理レーンＰＨＬがイネーブルに設定される。

また、縮退指示部ＤＣＬＴは、物理層ＰＨＹの再起動を指示する通知を起動指示部ＳＣＬＴに出力する。そして、起動指示部ＳＣＬＴは、例えば、縮退指示部ＤＣＬＴからの再起動指示に応じて、物理層ＰＨＹに対して再起動を指示する。また、縮退情報生成部ＤＧＥＮは、通信先の情報処理装置ＰＤＥＶにレーン縮退を要求する縮退情報ＤＩＮＦＳを、フレーム生成部ＦＧＥＮに出力する。これにより、通信先の情報処理装置ＰＤＥＶは、レーン縮退を要求する縮退情報ＤＩＮＦＳを含む縮退要求ＤＬＬＰを受信する。この結果、通信先の情報処理装置ＰＤＥＶは、データ転送に使用する物理レーンＰＨＬ等を選択できる。

なお、レーン縮退により実行される物理層ＰＨＹの再起動では、物理レーンＰＨＬのイネーブルの設定は、ステップＳ１６０で設定した内容が引き継がれる。また、レーン縮退により実行される物理層ＰＨＹの再起動では、レーン縮退が既に実行されているため、図７のレーン縮退処理は、実行されない。

このように、レーン選択部ＬＳＥＬは、起動指示部ＳＣＬＴが物理層ＰＨＹに対して起動を指示してから起動完了の通知を物理層ＰＨＹから受信するまでの期間では、所定時間以内に起動完了通知ＣＩＮＦを受信しなかった場合、ステップＳ１５０、Ｓ１６０の処理を実行する。すなわち、レーン選択部ＬＳＥＬは、ＡＭ検出情報ＡＩＮＦがＰＣＳレーンＰＬのいずれかで検出されてから所定時間経過するまでに、起動完了通知ＣＩＮＦを物理層ＰＨＹから受信しなかった場合、縮退するレーンＰＨＬをＡＭ検出情報に基づいて特定する。

したがって、フレーム転送回路ＦＴＲは、故障レーン特定機能を含まない物理層ＰＨＹを使用する場合においても、ＡＭ検出情報ＡＩＮＦ等を参照することにより、縮退するレーンをリンクアップ前に特定できる。なお、情報処理装置ＰＤＥＶのリンクアップ前の動作は、この例に限定されない。例えば、情報処理装置ＰＤＥＶは、物理層ＰＨＹの再起動時にも、レーン縮退処理を実行してもよい。

図８は、縮退するレーンＰＨＬの特定方法の一例を示す。なお、図８は、物理層ＰＨＹのリンクアップ前の縮退するレーンＰＨＬの特定方法の一例を示す。

物理レーンＰＨＬｒ０では、ＰＣＳレーンＰＬｒ０−ＰＬｒ４でアライメントマーカが検出されたため、アライメントマーカが検出されたＰＣＳレーンＰＬｒの数は、５である。物理レーンＰＨＬｒ１では、ＰＣＳレーンＰＬｒ５−ＰＬｒ９でアライメントマーカが検出されたため、アライメントマーカが検出されたＰＣＳレーンＰＬｒの数は、５である。物理レーンＰＨＬｒ２では、ＰＣＳレーンＰＬｒ１０−ＰＬｒ１４でアライメントマーカが検出されたため、アライメントマーカが検出されたＰＣＳレーンＰＬｒの数は、５である。

物理レーンＰＨＬｒ３では、ＰＣＳレーンＰＬｒ１５、ＰＬｒ１７−ＰＬｒ１９でアライメントマーカが検出され、ＰＣＳレーンＰＬｒ１６でアライメントマーカが検出されないため、アライメントマーカが検出されたＰＣＳレーンＰＬｒの数は、４である。このため、例えば、図７に示したステップＳ１５０において、レーン選択部ＬＳＥＬは、アライメントマーカが検出されたＰＣＳレーンＰＬｒの数が最も少ない物理レーンＰＨＬｒ３を、縮退するレーンと特定する。したがって、物理レーンＰＨＬｒ０−ＰＨＬｒ２は、正常な物理レーンＰＨＬｒと判定される。このように、レーン選択部ＬＳＥＬは、縮退するレーンＰＨＬをＡＭ検出情報ＡＩＮＦに基づいて特定する。

なお、レーン選択部ＬＳＥＬは、例えば、アライメントマーカが検出されなかったＰＣＳレーンＰＬｒを含む物理レーンＰＨＬｒが複数存在する場合、複数の物理レーンＰＨＬｒを、縮退するレーンと判定してもよい。

図９は、縮退するレーンＰＨＬの特定方法の別の例を示す。なお、図９は、物理層ＰＨＹのリンクアップ後の縮退するレーンＰＨＬの特定方法の一例を示す。図９のＢＩＰエラーの有無は、所定期間（例えば、８０ミリ秒）のうちの一部のタイミングを抜粋した場合のＢＩＰエラーの検出結果の一例を示す。また、縮退するレーンか否かの閾値は、例えば、３である。

物理レーンＰＨＬｒ０では、過去８０ミリ秒の間に検出されたＰＣＳレーンＰＬｒ０−ＰＬｒ４のＢＩＰエラーの総数は、４である。物理レーンＰＨＬｒ１では、過去８０ミリ秒の間に検出されたＰＣＳレーンＰＬｒ５−ＰＬｒ９のＢＩＰエラーの総数は、１である。物理レーンＰＨＬｒ２では、過去８０ミリ秒の間に検出されたＰＣＳレーンＰＬｒ１０−ＰＬｒ１４のＢＩＰエラーの総数は、２である。物理レーンＰＨＬｒ３では、過去８０ミリ秒の間に検出されたＰＣＳレーンＰＬｒ１５−ＰＬｒ１９のＢＩＰエラーの総数は、０である。

このため、例えば、図１０に示すステップＳ３００において、レーン選択部ＬＳＥＬは、所定期間でのＢＩＰエラーの数が閾値（図９では、３）を超えた物理レーンＰＨＬｒ０を、縮退するレーンと特定する。あるいは、図１１に示すステップＳ３１４や図１３に示すステップＳ３３４において、レーン選択部ＬＳＥＬは、所定期間でのＢＩＰエラーが最も多い物理レーンＰＨＬｒ０を、縮退するレーンと特定する。したがって、物理レーンＰＨＬｒ１−ＰＨＬｒ３は、正常な物理レーンＰＨＬｒと判定される。このように、レーン選択部ＬＳＥＬは、通信先の情報処理装置ＰＤＥＶから物理層ＰＨＹに転送されたデータに誤りがあることを示すエラー情報ＥＩＮＦに基づいて、縮退するレーンＰＨＬを特定する。

図１０は、図１に示した情報処理装置ＰＤＥＶのリンクアップ後の動作の一例を示す。すなわち、図１０は、並列計算機システムの制御方法の一形態を示す。なお、図１０は、物理層ＰＨＹのリンクアップ後のレーン縮退に関するリンク制御部ＬＣＬＴの動作の一例を示す。例えば、図１０の動作では、レーン縮退の契機は、所定期間内のＢＩＰエラー数が閾値を超えた場合（例えば、図６に示した所定期間内のＢＩＰエラー数の閾値超え）である。図１０の例では、各物理レーンＰＨＬのＢＩＰエラー数を計測する際の所定期間は、８０ミリ秒である。

図１０の動作は、ハードウエアのみで実現されてもよく、ハードウエアをソフトウエアにより制御することにより実現されてもよい。例えば、制御プログラム等のソフトウエアは、図１０の動作をコンピュータに実行させてもよい。すなわち、コンピュータは、制御プログラムを記録した記憶媒体を読み取り、図１０の動作を実行してもよい。

ステップＳ２００では、エラー情報受信部ＥＲＥＣは、例えば、各ＰＣＳレーンＰＬのエラー情報ＥＩＮＦを物理層ＰＨＹから受信する。

ステップＳ２０２では、エラーカウンタＥＣＴは、過去８０ミリ秒のＢＩＰエラー数を物理レーンＰＨＬ毎に計測する。例えば、エラーカウンタＥＣＴは、過去８０ミリ秒の間に発生した各物理レーンＰＨＬのＢＩＰエラーを計数し、計数値を約２０ミリ秒毎に更新する。

ステップＳ２０４では、故障判定部ＢＪＧは、ステップＳ２０２で算出されたＢＩＰエラー数が閾値（例えば、２５５）を超えた物理レーンＰＨＬが存在するか否かを判定する。ＢＩＰエラー数が閾値を超えた物理レーンＰＨＬが存在する場合（ステップＳ２０４のＹｅｓ）、リンク制御部ＬＣＬＴの動作は、ステップＳ３００に移る。すなわち、レーン縮退の契機が検出された場合、リンク制御部ＬＣＬＴの動作は、ステップＳ３００に移る。ステップＳ２００−Ｓ２０４は、レーン縮退の契機の検出処理に対応する。

一方、ＢＩＰエラー数が閾値を超えた物理レーンＰＨＬが存在しない場合（ステップＳ２０４のＮｏ）、リンク制御部ＬＣＬＴの動作は、ステップＳ２００に戻る。すなわち、過去８０ミリ秒間のＢＩＰエラー数が全ての物理レーンＰＨＬで閾値以下の場合、リンク制御部ＬＣＬＴの動作は、ステップＳ２００に戻る。

ステップＳ３００では、レーン選択部ＬＳＥＬは、過去８０ミリ秒間のＢＩＰエラー数が閾値を超えた物理レーンＰＨＬを、縮退するレーンと特定する。例えば、故障判定部ＢＪＧは、縮退するレーンが存在することを縮退指示部ＤＣＬＴに通知する。これにより、縮退指示部ＤＣＬＴは、例えば、ＢＩＰエラー数が閾値を超えた物理レーンＰＨＬを縮退するように、レーン選択部ＬＳＥＬに指示する。

そして、レーン選択部ＬＳＥＬは、例えば、ステップＳ２０２で算出されたＢＩＰエラー数に基づいて、過去８０ミリ秒間のＢＩＰエラー数が閾値を超えた物理レーンＰＨＬ（縮退するレーン）を検出する。なお、レーン選択部ＬＳＥＬは、過去８０ミリ秒間のＢＩＰエラー数が閾値を超えた物理レーンＰＨＬを示す情報を、故障判定部ＢＪＧから受信してもよい。

ステップＳ４００では、リンク制御部ＬＣＬＴは、レーン縮退を実行し、物理層ＰＨＹの再起動を指示する。例えば、レーン選択部ＬＳＥＬは、ステップＳ３００で特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を除く物理レーンＰＨＬから、通信先の情報処理装置ＰＤＥＶとのデータ転送に使用する物理レーンＰＨＬを選択し、選択した物理レーンＰＨＬをイネーブルに設定する。このように、レーン選択部ＬＳＥＬは、ステップＳ３００で特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を使用しないように、レーン縮退を実行する。

なお、例えば、図１０の動作がレーン縮退後に実行された場合、図１０の動作が実行される前にディセーブルに設定された物理レーンＰＨＬは、選択対象の物理レーンＰＨＬに含まれない。この場合、例えば、選択対象の物理レーンＰＨＬは、図１０の動作が実行される前にイネーブルに設定された物理レーンＰＨＬからステップＳ３００で特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を除いた物理レーンＰＨＬである。

また、縮退指示部ＤＣＬＴは、物理層ＰＨＹの再起動を指示する通知を起動指示部ＳＣＬＴに出力する。そして、起動指示部ＳＣＬＴは、例えば、縮退指示部ＤＣＬＴからの再起動指示に応じて、物理層ＰＨＹに対して再起動を指示する。

また、縮退情報生成部ＤＧＥＮは、通信先の情報処理装置ＰＤＥＶにレーン縮退を要求する縮退情報ＤＩＮＦＳを、フレーム生成部ＦＧＥＮに出力する。これにより、通信先の情報処理装置ＰＤＥＶは、レーン縮退を要求する縮退情報ＤＩＮＦＳを含む縮退要求ＤＬＬＰを受信する。この結果、通信先の情報処理装置ＰＤＥＶは、データ転送に使用する物理レーンＰＨＬ等を選択できる。

なお、レーン縮退により実行される物理層ＰＨＹの再起動では、物理レーンＰＨＬのイネーブルの設定は、ステップＳ４００で設定した内容が引き継がれる。また、レーン縮退により実行される物理層ＰＨＹの再起動では、レーン縮退が既に実行されているため、図７で説明した物理層ＰＨＹのリンクアップ前のレーン縮退処理は、実行されない。

このように、図１０の動作では、レーン選択部ＬＳＥＬは、通信先の情報処理装置ＰＤＥＶから物理層ＰＨＹに転送されたデータに誤りがあることを示すエラー情報ＥＩＮＦに基づいて、縮退するレーンＰＨＬを特定する。したがって、フレーム転送回路ＦＴＲは、故障レーン特定機能を含まない物理層ＰＨＹを使用する場合においても、エラー情報ＥＩＮＦ等を参照することにより、縮退するレーンをリンクアップ後に特定できる。なお、情報処理装置ＰＤＥＶのリンクアップ後の動作は、この例に限定されない。

図１１は、図１に示した情報処理装置ＰＤＥＶのリンクアップ後の動作の別の例を示す。すなわち、図１１は、並列計算機システムの制御方法の一形態を示す。なお、図１１は、物理層ＰＨＹのリンクアップ後のレーン縮退に関するリンク制御部ＬＣＬＴおよび異常検出部ＦＤＥＴの動作の一例を示す。例えば、ステップＳ２１０、Ｓ２１２は、レーン縮退の契機の検出処理に対応し、異常検出部ＦＤＥＴにより実行される。また、ステップＳ３１０−Ｓ３１８、Ｓ４００は、リンク制御部ＬＣＬＴより実行される。

なお、図１１の動作では、例えば、レーン縮退の契機は、再送処理での異常の検出（例えば、図６に示したビットエラーレートの悪化、リトライアウトの検出）である。図１１の動作は、ハードウエアのみで実現されてもよく、ハードウエアをソフトウエアにより制御することにより実現されてもよい。例えば、制御プログラム等のソフトウエアは、図１１の動作をコンピュータに実行させてもよい。すなわち、コンピュータは、制御プログラムを記録した記憶媒体を読み取り、図１１の動作を実行してもよい。

ステップＳ２１０では、異常検出部ＦＤＥＴは、再送信に関する処理（再送処理）で異常が発生したか否かを判定する。例えば、異常検出部ＦＤＥＴは、再送処理での異常を検出する処理を実行する。そして、異常検出部ＦＤＥＴは、例えば、ビットエラーレートの悪化やリトライアウトを検出した場合、再送処理で異常が発生したと判定する。

例えば、異常検出部ＦＤＥＴは、所定時間（例えば、２４秒間）に閾値（例えば、２５５回）以上の再送要求が発生した場合、ビットエラーレートの悪化と判定する。また、例えば、異常検出部ＦＤＥＴは、フレームデータＳＦＲＡＭが送信されてから所定時間（例えば、１２．６２ミリ秒）が経過するまでに、肯定応答信号ＡＣＫあるいは否定応答信号ＮＡＣＫを受信しなかった場合、リトライアウトと判定する。あるいは、異常検出部ＦＤＥＴは、連続した再送の回数が閾値（例えば、２５５回）を超えた場合、リトライアウトと判定する。

再送処理で異常が発生した場合（ステップＳ２１０のＹｅｓ）、異常検出部ＦＤＥＴの動作は、ステップＳ２１２に移る。一方、再送処理で異常が発生していない場合（ステップＳ２１０のＮｏ）、異常検出部ＦＤＥＴの動作は、ステップＳ２１０に戻る。すなわち、異常検出部ＦＤＥＴは、再送処理で異常が発生していない場合、再送処理での異常を検出する処理を継続する。

ステップＳ２１２では、異常検出部ＦＤＥＴは、再送処理で異常が発生したことを示す再送信エラー通知ＲＥＲＲをリンク制御部ＬＣＬＴに出力する。これにより、リンク制御部ＬＣＬＴは、ステップＳ３１０において、再送信エラー通知ＲＥＲＲを受信する。

ステップＳ３１０では、リンク制御部ＬＣＬＴの縮退指示部ＤＣＬＴは、再送信エラー通知ＲＥＲＲを異常検出部ＦＤＥＴから受信する。これにより、リンク制御部ＬＣＬＴは、再送処理で異常が発生した場合のレーン縮退処理を開始する。

ステップＳ３１２では、故障判定部ＢＪＧは、通信先の情報処理装置ＰＤＥＶから物理層ＰＨＹに転送されたデータの所定期間（例えば、８０ミリ秒）内のＢＩＰエラー数が閾値（例えば、２５５）を超えた物理レーンＰＨＬが存在するか否かを判定する。なお、リンク制御部ＬＣＬＴは、例えば、図１１の動作と並列して、所定期間内のＢＩＰエラー数を物理レーンＰＨＬ毎にエラーカウンタＥＣＴを用いて計測する。例えば、所定期間内の各物理レーンＰＨＬのＢＩＰエラー数は、図１０のステップＳ２０２で算出される。

ＢＩＰエラー数が閾値を超えた物理レーンＰＨＬが存在する場合（ステップＳ３１２のＹｅｓ）、リンク制御部ＬＣＬＴの動作は、ステップＳ３１４に移る。すなわち、通信先の情報処理装置ＰＤＥＶから自身の物理層ＰＨＹの方向にデータを伝送するレーンに故障が存在する可能性が高い場合、リンク制御部ＬＣＬＴの動作は、ステップＳ３１４に移る。

一方、ＢＩＰエラー数が閾値を超えた物理レーンＰＨＬが存在しない場合（ステップＳ３１２のＮｏ）、リンク制御部ＬＣＬＴの動作は、ステップＳ３１６に移る。すなわち、自身の物理層ＰＨＹから通信先の情報処理装置ＰＤＥＶの方向にデータを伝送するレーンに故障が存在する可能性が高い場合、リンク制御部ＬＣＬＴの動作は、ステップＳ３１６に移る。なお、ステップＳ３１２の閾値は、図１０のステップＳ２０４の閾値と同じ値でもよいし、異なる値でもよい。

ステップＳ３１４では、レーン選択部ＬＳＥＬは、所定期間内のＢＩＰエラー数が最も多い物理レーンＰＨＬを、縮退するレーンと特定する。例えば、レーン選択部ＬＳＥＬは、故障したレーンとして縮退する物理レーンを、所定期間内（例えば、過去８０ミリ秒の間）のＢＩＰエラー数に基づいて特定する。この場合、レーン選択部ＬＳＥＬは、縮退するレーンを再送処理での異常が検出された直前のＢＩＰエラーのみに基づいて特定する場合に比べて、故障したレーンとして縮退する物理レーンを精度よく特定できる。以下、故障したレーンとして縮退する物理レーンを特定する際の特定精度を、縮退するレーンの特定精度とも称する。

例えば、縮退するレーンを再送処理での異常が検出された直前のＢＩＰエラーのみに基づいて特定する方法では、ノイズ等によるＢＩＰエラーが故障レーン以外で検出された直後に再送処理での異常が検出された場合、縮退するレーンの特定精度が低下するおそれがある。

このように、レーン選択部ＬＳＥＬは、再送信に関する処理での異常が検出された場合、縮退するレーンＰＨＬを、所定期間内のＢＩＰエラー数に基づいて特定する。すなわち、レーン選択部ＬＳＥＬは、再送信に関する処理での異常が検出された場合、縮退するレーンＰＨＬを、所定期間分のエラー情報ＥＩＮＦに基づいて特定する。

ステップＳ３１６では、リンク制御部ＬＣＬＴは、自身の物理層ＰＨＹから通信先の情報処理装置ＰＤＥＶの方向にデータを伝送するレーンに故障が存在する可能性が高いため、通信先の情報処理装置ＰＤＥＶのリンク制御部ＬＣＬＴにレーン縮退処理を依頼する。例えば、縮退情報生成部ＤＧＥＮは、縮退するレーンの特定およびレーン縮退処理の実行を通信先の情報処理装置ＰＤＥＶに依頼するための縮退情報ＤＩＮＦＳを、フレーム生成部ＦＧＥＮに出力する。

これにより、通信先の情報処理装置ＰＤＥＶは、縮退するレーンの特定およびレーン縮退処理の依頼を示す縮退情報ＤＩＮＦＳを含む縮退依頼ＤＬＬＰを受信し、縮退するレーンの特定およびレーン縮退処理を実行する。また、通信先の情報処理装置ＰＤＥＶは、データ転送に使用する物理レーンＰＨＬ等示す縮退情報ＤＩＮＦＳを含む縮退要求ＤＬＬＰを、レーン縮退処理の依頼元の情報処理装置ＰＤＥＶ（縮退依頼ＤＬＬＰを送信した情報処理装置ＰＤＥＶ）に出力する。これにより、例えば、フレーム受信部ＦＲＥＣは、縮退依頼ＤＬＬＰに対する応答である縮退要求ＤＬＬＰを、通信先の情報処理装置ＰＤＥＶから受信する。

ステップＳ３１８では、縮退指示部ＤＣＬＴは、ステップＳ３１６で通信先の情報処理装置ＰＤＥＶに依頼したレーン縮退処理の結果として、縮退を要求する縮退情報ＤＩＮＦＳ（縮退要求）を受信する。これにより、レーン選択部ＬＳＥＬは、データ転送に使用する物理レーンＰＨＬ等を選択できる。

ステップＳ４００では、リンク制御部ＬＣＬＴは、レーン縮退を実行し、物理層ＰＨＹの再起動を指示する。例えば、レーン選択部ＬＳＥＬは、ステップＳ３１４で特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を除く物理レーンＰＨＬから、通信先の情報処理装置ＰＤＥＶとのデータ転送に使用する物理レーンＰＨＬを選択し、選択した物理レーンＰＨＬをイネーブルに設定する。あるいは、レーン選択部ＬＳＥＬは、データ転送に使用する物理レーンＰＨＬをステップＳ３１８で受信した縮退情報ＤＩＮＦＳに基づいて選択し、選択した物理レーンＰＨＬをイネーブルに設定する。

なお、例えば、図１１の動作がレーン縮退後に実行された場合、図１１の動作が実行される前にディセーブルに設定された物理レーンＰＨＬは、選択対象の物理レーンＰＨＬに含まれない。

なお、縮退情報生成部ＤＧＥＮは、縮退するレーンを自身のリンク制御部ＬＣＬＴで特定した場合（ステップＳ３１４を実行した場合）、通信先の情報処理装置ＰＤＥＶにレーン縮退を要求する縮退情報ＤＩＮＦＳを、フレーム生成部ＦＧＥＮに出力する。これにより、通信先の情報処理装置ＰＤＥＶは、レーン縮退を要求する縮退情報ＤＩＮＦＳを含む縮退要求ＤＬＬＰを受信する。この結果、通信先の情報処理装置ＰＤＥＶは、データ転送に使用する物理レーンＰＨＬ等を選択できる。このように、例えば、レーン選択部ＬＳＥＬは、再送信に関する処理での異常が検出された場合、外部の装置とのデータ転送に使用する物理レーンＰＨＬを、所定期間分のエラー情報ＥＩＮＦに基づいて選択する。

このように、図１１の動作では、レーン選択部ＬＳＥＬは、通信先の情報処理装置ＰＤＥＶから物理層ＰＨＹに転送されたデータに誤りがあることを示すエラー情報ＥＩＮＦに基づいて、縮退するレーンＰＨＬを特定する。したがって、フレーム転送回路ＦＴＲは、故障レーン特定機能を含まない物理層ＰＨＹを使用する場合においても、再送処理での異常を検出した場合に、エラー情報ＥＩＮＦ等を参照することにより、縮退するレーンをリンクアップ後に特定できる。

なお、情報処理装置ＰＤＥＶのリンクアップ後の動作は、この例に限定されない。例えば、レーン選択部ＬＳＥＬは、再送処理での異常が検出された時点、直前または直後のＢＩＰエラー数に基づいて、縮退するレーンを特定してもよい。

図１２は、図１に示した情報処理装置ＰＤＥＶのリンクアップ後の動作の別の例を示す。すなわち、図１２は、並列計算機システムの制御方法の一形態を示す。なお、図１２は、物理層ＰＨＹのリンクアップ後のレーン縮退に関するリンク制御部ＬＣＬＴおよびエラー検出部ＥＤＥＴの動作の一例を示す。例えば、ステップＳ２２０、Ｓ２２２は、レーン縮退の契機の検出処理に対応し、エラー検出部ＥＤＥＴにより実行される。また、ステップＳ３２０−Ｓ３２６、Ｓ４００は、リンク制御部ＬＣＬＴより実行される。

なお、図１２の動作では、例えば、レーン縮退の契機は、通信先の情報処理装置ＰＤＥＶにデータを転送するためのフロー制御での異常の検出（例えば、図６に示したフロー制御プロトコルエラーの検出）である。図１２の動作は、ハードウエアのみで実現されてもよく、ハードウエアをソフトウエアにより制御することにより実現されてもよい。例えば、制御プログラム等のソフトウエアは、図１２の動作をコンピュータに実行させてもよい。すなわち、コンピュータは、制御プログラムを記録した記憶媒体を読み取り、図１２の動作を実行してもよい。

ステップＳ２２０では、エラー検出部ＥＤＥＴは、ＦＣＰＥを検出したか否かを判定する。例えば、エラー検出部ＥＤＥＴは、通信先の情報処理装置ＰＤＥＶにデータを転送するためのフロー制御での異常（ＦＣＰＥ）を検出する処理を実行する。例えば、エラー検出部ＥＤＥＴは、フロー制御フレーム（フロー制御情報ＦＩＮＦ）を受信していない期間の長さが閾値（例えば、２００マイクロ秒）を超えた場合、ＦＣＰＥと判定する。

ＦＣＰＥが検出された場合（ステップＳ２２０のＹｅｓ）、エラー検出部ＥＤＥＴの動作は、ステップＳ２２２に移る。一方、ＦＣＰＥが検出されない場合（ステップＳ２２０のＮｏ）、エラー検出部ＥＤＥＴの動作は、ステップＳ２２０に戻る。すなわち、エラー検出部ＥＤＥＴは、フロー制御で異常が発生していない場合、フロー制御での異常を検出する処理を継続する。

ステップＳ２２２では、エラー検出部ＥＤＥＴは、フロー制御で異常が発生したことを示すＦＣＰＥ通知ＦＥＲＲをリンク制御部ＬＣＬＴに出力する。これにより、リンク制御部ＬＣＬＴは、ステップＳ３２０において、ＦＣＰＥ通知ＦＥＲＲを受信する。

ステップＳ３２０では、リンク制御部ＬＣＬＴの縮退指示部ＤＣＬＴは、ＦＣＰＥ通知ＦＥＲＲをエラー検出部ＥＤＥＴから受信する。これにより、リンク制御部ＬＣＬＴは、フロー制御で異常が発生した場合のレーン縮退処理を開始する。

ステップＳ３２２では、例えば、レーン選択部ＬＳＥＬは、通信先の情報処理装置ＰＤＥＶから物理層ＰＨＹに転送されたデータにＢＩＰエラーが存在するか否かを判定する。例えば、レーン選択部ＬＳＥＬは、ＦＣＰＥが検出された時点、直前または直後のエラー情報ＥＩＮＦに基づいて、ＢＩＰエラーが存在するか否かを判定する。

ここで、例えば、ＦＣＰＥの検出時間間隔（例えば、４．５マイクロ秒）は、ＢＩＰエラーの検出時間間隔（例えば、２１０マイクロ秒）に比べて短い。このため、固定故障によりＦＣＰＥが検出された場合、ＢＩＰエラーの履歴（所定期間内のＢＩＰエラー数）は、ＦＣＰＥの検出に至るまでの状況を十分に反映していないおそれがある。したがって、縮退するレーンをＢＩＰエラーの履歴に基づいて特定した場合、縮退するレーンの特定精度が低下するおそれがある。このため、レーン選択部ＬＳＥＬは、例えば、ステップＳ３２２、Ｓ３２４の処理を実行する際に、ＦＣＰＥが検出された時点、直前または直後のＢＩＰエラーの検出情報（エラー情報ＥＩＮＦ）を参照する。

ＢＩＰエラーが存在する場合（ステップＳ３２２のＹｅｓ）、リンク制御部ＬＣＬＴの動作は、ステップＳ３２４に移る。一方、ＢＩＰエラーが存在しない場合（ステップＳ３２２のＮｏ）、リンク制御部ＬＣＬＴの動作は、ステップＳ３２６に移る。

ステップＳ３２４では、レーン選択部ＬＳＥＬは、ＦＣＰＥが検出された時点、直前または直後のエラー情報ＥＩＮＦを参照し、ＢＩＰエラーが最も多い物理レーンＰＨＬを、縮退するレーンと特定する。このように、レーン選択部ＬＳＥＬは、フロー制御での異常が検出された場合、縮退するレーンＰＨＬを、エラー情報ＥＩＮＦに基づいて特定する。

ステップＳ３２６では、レーン選択部ＬＳＥＬは、特定の物理レーンＰＨＬを、縮退するレーンと特定する。例えば、レーン選択部ＬＳＥＬは、予め決められた物理レーンＰＨＬを、縮退するレーンと特定する。これにより、ＦＣＰＥが検出されたにも拘わらず、ＢＩＰエラーが検出されない場合でも、レーン縮退が実行される。

ステップＳ４００では、レーン選択部ＬＳＥＬは、ステップＳ３２４あるいはステップＳ３２６で特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を使用しないように、レーン縮退を実行する。例えば、レーン選択部ＬＳＥＬは、ステップＳ３２４を実行した場合、ステップＳ３２４で特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を除く物理レーンＰＨＬから、通信先の情報処理装置ＰＤＥＶとのデータ転送に使用する物理レーンＰＨＬを選択する。そして、レーン選択部ＬＳＥＬは、選択した物理レーンＰＨＬをイネーブルに設定する。

あるいは、レーン選択部ＬＳＥＬは、ステップＳ３２６を実行した場合、ステップＳ３２６で特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を除く物理レーンＰＨＬから、通信先の情報処理装置ＰＤＥＶとのデータ転送に使用する物理レーンＰＨＬを選択する。そして、レーン選択部ＬＳＥＬは、選択した物理レーンＰＨＬをイネーブルに設定する。

なお、例えば、図１２の動作がレーン縮退後に実行された場合、図１２の動作が実行される前にディセーブルに設定された物理レーンＰＨＬは、選択対象の物理レーンＰＨＬに含まれない。この場合、例えば、選択対象の物理レーンＰＨＬは、図１２の動作が実行される前にイネーブルに設定された物理レーンＰＨＬから、ステップＳ３２４あるいはステップＳ３２６で特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を除いた物理レーンＰＨＬである。

また、縮退情報生成部ＤＧＥＮは、通信先の情報処理装置ＰＤＥＶにレーン縮退を要求する縮退情報ＤＩＮＦＳを、フレーム生成部ＦＧＥＮに出力する。これにより、通信先の情報処理装置ＰＤＥＶは、レーン縮退を要求する縮退情報ＤＩＮＦＳを含む縮退要求ＤＬＬＰを受信する。この結果、通信先の情報処理装置ＰＤＥＶは、データ転送に使用する物理レーンＰＨＬ等を選択できる。このように、例えば、レーン選択部ＬＳＥＬは、フロー制御での異常が検出された場合、外部の装置とのデータ転送に使用する物理レーンＰＨＬを、エラー情報ＥＩＮＦに基づいて選択する。

このように、図１２の動作では、レーン選択部ＬＳＥＬは、通信先の情報処理装置ＰＤＥＶから物理層ＰＨＹに転送されたデータに誤りがあることを示すエラー情報ＥＩＮＦに基づいて、縮退するレーンＰＨＬを特定する。したがって、フレーム転送回路ＦＴＲは、故障レーン特定機能を含まない物理層ＰＨＹを使用する場合においても、フロー制御での異常を検出した場合に、エラー情報ＥＩＮＦ等を参照することにより、縮退するレーンをリンクアップ後に特定できる。

なお、情報処理装置ＰＤＥＶのリンクアップ後の動作は、この例に限定されない。例えば、ステップＳ３２６の処理は、省かれてもよい。この場合、例えば、ステップＳ３２２は、ＢＩＰエラーが検出されるまで繰り返されてもよい。

図１３は、図１に示した情報処理装置ＰＤＥＶのリンクアップ後の動作の別の例を示す。すなわち、図１３は、並列計算機システムの制御方法の一形態を示す。なお、図１３は、通信先の情報処理装置ＰＤＥＶでレーン縮退の契機が検出された場合のレーン縮退に関するリンク制御部ＬＣＬＴおよびフレーム受信部ＦＲＥＣの動作の一例を示す。例えば、ステップＳ２３０、Ｓ２３２は、レーン縮退の契機の検出処理に対応し、フレーム受信部ＦＲＥＣにより実行される。また、ステップＳ３３０−Ｓ３３６、Ｓ４００は、リンク制御部ＬＣＬＴより実行される。

図１３の動作は、ハードウエアのみで実現されてもよく、ハードウエアをソフトウエアにより制御することにより実現されてもよい。例えば、制御プログラム等のソフトウエアは、図１３の動作をコンピュータに実行させてもよい。すなわち、コンピュータは、制御プログラムを記録した記憶媒体を読み取り、図１３の動作を実行してもよい。

ステップＳ２３０では、フレーム受信部ＦＲＥＣは、縮退情報ＤＩＮＦＲを含む制御用ＤＬＬＰ（縮退要求ＤＬＬＰまたは縮退依頼ＤＬＬＰ）を受信したか否かを判定する。縮退情報ＤＩＮＦＲを含む制御用ＤＬＬＰ（縮退要求ＤＬＬＰまたは縮退依頼ＤＬＬＰ）を受信した場合（ステップＳ２３０のＹｅｓ）、フレーム受信部ＦＲＥＣの動作は、ステップＳ２３２に移る。一方、縮退情報ＤＩＮＦＲを含む制御用ＤＬＬＰ（縮退要求ＤＬＬＰまたは縮退依頼ＤＬＬＰ）を受信していない場合（ステップＳ２３０のＮｏ）、フレーム受信部ＦＲＥＣの動作は、ステップＳ２３０に戻る。

ステップＳ２３２では、フレーム受信部ＦＲＥＣは、ステップＳ２３０で受信した制御用ＤＬＬＰ（縮退要求ＤＬＬＰまたは縮退依頼ＤＬＬＰ）に含まれる縮退情報ＤＩＮＦＲを、リンク制御部ＬＣＬＴに出力する。これにより、リンク制御部ＬＣＬＴは、ステップＳ３３０において、縮退情報ＤＩＮＦＲを受信する。

ステップＳ３３０では、リンク制御部ＬＣＬＴの縮退指示部ＤＣＬＴは、縮退情報ＤＩＮＦＲをフレーム受信部ＦＲＥＣから受信する。これにより、リンク制御部ＬＣＬＴは、通信先の情報処理装置ＰＤＥＶでレーン縮退の契機が検出された場合のレーン縮退処理を開始する。

ステップＳ３３１では、縮退指示部ＤＣＬＴは、ステップＳ３３０で受信した縮退情報ＤＩＮＦＲがレーン縮退依頼か否かを判定する。縮退情報ＤＩＮＦＲがレーン縮退依頼の場合（ステップＳ３３１のＹｅｓ）、リンク制御部ＬＣＬＴの動作は、ステップＳ３３２に移る。一方、縮退情報ＤＩＮＦＲがレーン縮退依頼でない場合（ステップＳ３３１のＮｏ）、リンク制御部ＬＣＬＴの動作は、ステップＳ４００に移る。すなわち、縮退情報ＤＩＮＦＲがレーン縮退要求の場合、リンク制御部ＬＣＬＴの動作は、ステップＳ４００に移る。

ステップＳ３３２では、故障判定部ＢＪＧは、通信先の情報処理装置ＰＤＥＶから物理層ＰＨＹに転送されたデータの所定期間（例えば、８０ミリ秒）内のＢＩＰエラー数が閾値（例えば、２５５）を超えた物理レーンＰＨＬが存在するか否かを判定する。なお、リンク制御部ＬＣＬＴは、例えば、図１３の動作と並列して、所定期間内のＢＩＰエラー数を物理レーンＰＨＬ毎にエラーカウンタＥＣＴを用いて計測する。例えば、所定期間内の各物理レーンＰＨＬのＢＩＰエラー数は、図１０のステップＳ２０２で算出される。

ＢＩＰエラー数が閾値を超えた物理レーンＰＨＬが存在する場合（ステップＳ３３２のＹｅｓ）、リンク制御部ＬＣＬＴの動作は、ステップＳ３３４に移る。一方、ＢＩＰエラー数が閾値を超えた物理レーンＰＨＬが存在しない場合（ステップＳ３３２のＮｏ）、リンク制御部ＬＣＬＴの動作は、ステップＳ３３６に移る。なお、ステップＳ３３２の閾値は、図１０のステップＳ２０４の閾値と同じ値でもよいし、異なる値でもよい。

ステップＳ３３４では、レーン選択部ＬＳＥＬは、所定期間内のＢＩＰエラー数が最も多い物理レーンＰＨＬを、縮退するレーンと特定する。このように、レーン選択部ＬＳＥＬは、縮退するレーンＰＨＬを所定期間内のＢＩＰエラー数に基づいて特定する。

ステップＳ３３６では、レーン選択部ＬＳＥＬは、特定の物理レーンＰＨＬを、縮退するレーンと特定する。例えば、レーン選択部ＬＳＥＬは、予め決められた物理レーンＰＨＬを、縮退するレーンと特定する。これにより、リンク制御部ＬＣＬＴは、レーン縮退依頼を示す縮退情報ＤＩＮＦＲを受信したにも拘わらず、ＢＩＰエラーが検出されない場合でも、レーン縮退を実行できる。なお、レーン選択部ＬＳＥＬは、所定期間内のＢＩＰエラー数が１以上で閾値以下の場合、所定期間内のＢＩＰエラー数が最も多い物理レーンＰＨＬを、縮退するレーンと特定してもよい。

ステップＳ４００では、リンク制御部ＬＣＬＴは、レーン縮退を実行し、物理層ＰＨＹの再起動を指示する。例えば、レーン選択部ＬＳＥＬは、ステップＳ３３４またはステップＳ３３６で特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を除く物理レーンＰＨＬから、通信先の情報処理装置ＰＤＥＶとのデータ転送に使用する物理レーンＰＨＬを選択する。そして、レーン選択部ＬＳＥＬは、選択した物理レーンＰＨＬをイネーブルに設定する。

あるいは、レーン選択部ＬＳＥＬは、ステップＳ３３０で受信した縮退情報ＤＩＮＦＲがレーン縮退要求の場合、データ転送に使用する物理レーンＰＨＬをステップＳ３３０で受信した縮退情報ＤＩＮＦＳに基づいて選択する。そして、レーン選択部ＬＳＥＬは、選択した物理レーンＰＨＬをイネーブルに設定する。

なお、例えば、図１３の動作がレーン縮退後に実行された場合、図１３の動作が実行される前にディセーブルに設定された物理レーンＰＨＬは、選択対象の物理レーンＰＨＬに含まれない。

なお、縮退情報生成部ＤＧＥＮは、ステップＳ３３０で受信した縮退情報ＤＩＮＦＲがレーン縮退依頼の場合、データ転送に使用する物理レーンＰＨＬ等示す縮退情報ＤＩＮＦＳ（レーン縮退を要求する縮退情報ＤＩＮＦＳ）をフレーム生成部ＦＧＥＮに出力する。これにより、通信先の情報処理装置ＰＤＥＶは、レーン縮退を要求する縮退情報ＤＩＮＦＳを含む縮退要求ＤＬＬＰを受信する。この結果、通信先の情報処理装置ＰＤＥＶは、データ転送に使用する物理レーンＰＨＬ等を選択できる。

このように、例えば、レーン選択部ＬＳＥＬは、通信先の情報処理装置ＰＤＥＶからレーンの縮退を依頼された場合、通信先の情報処理装置ＰＤＥＶとのデータ転送に使用する物理レーンＰＨＬを、所定期間分のエラー情報ＥＩＮＦに基づいて選択する。

なお、レーン縮退により実行される物理層ＰＨＹの再起動では、物理レーンＰＨＬのイネーブルの設定は、ステップＳ４００で設定した内容が引き継がれる。また、レーン縮退により実行される物理層ＰＨＹの再起動では、レーン縮退が既に実行されているため、図７で説明した物理層ＰＨＹのリンクアップ前のレーン縮退処理は、実行されない。なお、情報処理装置ＰＤＥＶのリンクアップ後の動作は、この例に限定されない。また、通信先の情報処理装置ＰＤＥＶでレーン縮退の契機が検出された場合のリンクアップ前のレーン縮退に関する動作は、図１３の動作と同様である。

図１０から図１３に示したように、レーン選択部ＬＳＥＬは、通信先の情報処理装置ＰＤＥＶから物理層ＰＨＹに転送されたデータに誤りがあることを示すエラー情報ＥＩＮＦに基づいて、縮退するレーンＰＨＬを特定する。したがって、フレーム転送回路ＦＴＲは、故障レーン特定機能を含まない物理層ＰＨＹを使用する場合においても、レーン縮退の契機を検出した場合に、エラー情報ＥＩＮＦ等を参照することにより、縮退するレーンをリンクアップ後に特定できる。

例えば、フレーム転送回路ＦＴＲは、図１０のステップＳ２００−Ｓ２０４、図１１のステップＳ２１０−Ｓ２１２、図１２のステップＳ２２０−Ｓ２２２、図１３のステップＳ２３０−Ｓ２３２等のレーン縮退の契機の検出処理を、並列に実行する。この場合、フレーム転送回路ＦＴＲは、縮退するレーンＰＨＬを複数のレーン縮退の契機のうちのいずれかを検出した場合に特定するため、縮退するレーンＰＨＬの特定を効率よく実行できる。

なお、フレーム転送回路ＦＴＲは、図１０から図１３に示したレーン縮退の契機の検出処理の一部を実行してもよい。例えば、フレーム転送回路ＦＴＲは、図６に示した所定期間内のＢＩＰエラー数の閾値超えをレーン縮退の契機から省いてもよい。この場合、例えば、図１０から図１３に示した動作のうち、図１０のステップＳ２０４、Ｓ３００、Ｓ４００が省かれる。

また、例えば、図６に示したビットエラーの悪化、リトライアウトの検出、所定期間内のＢＩＰエラー数の閾値超えがレーン縮退の契機から省かれた場合、フレーム転送回路ＦＴＲは、図１０、図１１および図１３の動作を実行しなくてもよい。この場合、図４に示したエラーカウンタＥＣＴおよび故障判定部ＢＪＧは、選択部ＳＥＬから省かれてもよい。

以上、図１から図１３に示した実施形態の情報処理装置、並列計算機システムおよび並列計算機システムの制御方法では、縮退対象の物理レーンＰＨＬ（縮退するレーンＰＨＬ）をエラー情報ＥＩＮＦおよびＡＭ検出情報ＡＩＮＦのいずれかに基づいて特定する。

例えば、ＡＭ検出情報受信部ＡＲＥＣは、物理層ＰＨＹが通信先の情報処理装置ＰＤＥＶからデータを受信したことを示すＡＭ検出情報ＡＩＮＦを、ＰＣＳレーンＰＬ毎に受信する。そして、選択部ＳＥＬは、物理レーンＰＨＬ等に故障が発生したことをリンクアップ前に検出した場合、縮退するレーンＰＨＬをＡＭ検出情報ＡＩＮＦに基づいて特定する。これにより、フレーム転送回路ＦＴＲは、故障レーン特定機能を含まない物理層ＰＨＹを使用する場合においても、ＡＭ検出情報ＡＩＮＦ等を参照することにより、縮退するレーンをリンクアップ前に特定できる。

また、例えば、エラー情報受信部ＥＲＥＣは、通信先の情報処理装置ＰＤＥＶから物理層ＰＨＹに転送されたデータに誤りがあることを示すエラー情報ＥＩＮＦを、ＰＣＳレーンＰＬ毎に受信する。そして、選択部ＳＥＬは、物理レーンＰＨＬ等に故障が発生したことをリンクアップ後に検出した場合、縮退するレーンＰＨＬをエラー情報ＥＩＮＦに基づいて特定する。これにより、フレーム転送回路ＦＴＲは、故障レーン特定機能を含まない物理層ＰＨＹを使用する場合においても、エラー情報ＥＩＮＦ等を参照することにより、縮退するレーンをリンクアップ後に特定できる。

このように、この実施形態では、物理層より上位の層に相当するフレーム転送回路ＦＴＲがエラー情報ＥＩＮＦおよびＡＭ検出情報ＡＩＮＦのいずれかに基づいて、縮退するレーンＰＨＬを特定する。したがって、この実施形態では、故障レーン特定機能を含まない物理層ＰＨＹを使用する場合においても、縮退するレーンＰＨＬを特定できる。例えば、この実施形態では、故障レーン特定機能を含まない物理層ＰＨＹに、エラー情報ＥＩＮＦ、ＡＭ検出情報ＡＩＮＦ等を出力する機能を追加する。これにより、この実施形態では、故障レーン特定機能を含まない物理層ＰＨＹを使用する場合においても、特定した物理レーンＰＨＬ（縮退するレーンＰＨＬ）を使用しないように設定することにより、故障レーンＰＨＬを縮退できる。この結果、この実施形態では、故障レーンＰＨＬを縮退させてリンクの接続を維持できるため、並列計算機システムの信頼性を向上できる。

以上の実施形態において説明した発明を整理して、付記として開示する。
（付記１）
ＯＳＩ参照モデルの物理層に相当するデバイスであり、データを複数の第１レーンに分配し、所定の数の前記第１レーンをまとめた複数の第２レーンを用いて外部の装置とのデータ転送を実行する物理層デバイスと、
前記物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを前記物理層デバイスに転送し、前記物理層デバイスから受信したデータを前記演算処理装置に転送する転送回路とを有し、
前記転送回路は、
前記物理層デバイスが前記外部の装置からデータを受信したことを示す前記各第１レーンの検出情報と、前記外部の装置から前記物理層デバイスに転送されたデータに誤りがあることを示す前記各第１レーンのエラー情報とのいずれかを、前記物理層デバイスから受信する情報取得部と、
複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、縮退対象の前記第２レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第２レーンを除く前記第２レーンから前記外部の装置とのデータ転送に使用する前記第２レーンを選択する選択部とを有することを特徴とする情報処理装置。
（付記２）
付記１に記載の情報処理装置において、
前記選択部は、所定期間に発生した前記誤りの数を前記エラー情報に基づいて前記第２レーン毎に計測する計測部を有し、複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、前記縮退対象の前記第２レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする情報処理装置。
（付記３）
付記２に記載の情報処理装置において、
前記転送回路は、前記外部の装置に前記物理層デバイスを介して転送したデータの再送信に関する処理での異常を検出する第１検出部を有し、
前記選択部は、前記再送信に関する処理での異常が検出された場合、前記縮退対象の前記第２レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする情報処理装置。
（付記４）
付記２または付記３に記載の情報処理装置において、
前記選択部は、前記所定期間内の前記誤りの数が閾値を超えた前記第２レーンを検出した場合、前記所定期間内の前記誤りの数が前記閾値を超えた前記第２レーンを、前記縮退対象の前記第２レーンと特定する
ことを特徴とする情報処理装置。
（付記５）
付記１ないし付記４のいずれか１項に記載の情報処理装置において、
前記転送回路は、前記外部の装置に前記物理層デバイスを介してデータを転送するためのフロー制御での異常を検出する第２検出部を有し、
前記選択部は、前記フロー制御での異常が検出された場合、前記縮退対象の前記第２レーンを前記エラー情報に基づいて特定する
ことを特徴とする情報処理装置。
（付記６）
付記１ないし付記５のいずれか１項に記載の情報処理装置において、
前記選択部は、前記転送回路が前記物理層デバイスに対して起動を指示してから起動完了の通知を前記物理層デバイスから受信するまでの期間では、前記第１レーンのいずれかの前記検出情報を前記情報取得部が受信してから所定時間経過するまでに、前記起動完了の通知を前記転送回路が受信しなかった場合、前記縮退対象の前記第２レーンを前記検出情報に基づいて特定する
ことを特徴とする情報処理装置。
（付記７）
伝送路を介して接続される複数の情報処理装置を有する並列計算機システムにおいて、
前記情報処理装置は、
ＯＳＩ参照モデルの物理層に相当するデバイスであり、データを複数の第１レーンに分配し、所定の数の前記第１レーンをまとめた複数の第２レーンを用いて通信先の前記情報処理装置とのデータ転送を実行する物理層デバイスと、
前記物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを前記物理層デバイスに転送し、前記物理層デバイスから受信したデータを前記演算処理装置に転送する転送回路とを有し、
前記転送回路は、
前記物理層デバイスが前記通信先の情報処理装置からデータを受信したことを示す前記各第１レーンの検出情報と、前記通信先の情報処理装置から前記物理層デバイスに転送されたデータに誤りがあることを示す前記各第１レーンのエラー情報とのいずれかを、前記物理層デバイスから受信する情報取得部と、
複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、縮退対象の前記第２レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第２レーンを除く前記第２レーンから前記通信先の情報処理装置とのデータ転送に使用する前記第２レーンを選択する選択部とを有することを特徴とする並列計算機システム。
（付記８）
付記７に記載の並列計算機システムにおいて、
前記選択部は、所定期間に発生した前記誤りの数を前記エラー情報に基づいて前記第２レーン毎に計測する計測部を有し、複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、前記縮退対象の前記第２レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システム。
（付記９）
付記８に記載の並列計算機システムにおいて、
前記転送回路は、前記通信先の情報処理装置に前記物理層デバイスを介して転送したデータの再送信に関する処理での異常を検出する第１検出部を有し、
前記選択部は、前記再送信に関する処理での異常が検出された場合、前記縮退対象の前記第２レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システム。
（付記１０）
付記８または付記９に記載の並列計算機システムにおいて、
前記選択部は、前記所定期間内の前記誤りの数が閾値を超えた前記第２レーンを検出した場合、前記所定期間内の前記誤りの数が前記閾値を超えた前記第２レーンを、前記縮退対象の前記第２レーンと特定する
ことを特徴とする並列計算機システム。
（付記１１）
付記７ないし付記１０のいずれか１項に記載の並列計算機システムにおいて、
前記転送回路は、前記通信先の情報処理装置に前記物理層デバイスを介してデータを転送するためのフロー制御での異常を検出する第２検出部を有し、
前記選択部は、前記フロー制御での異常が検出された場合、前記縮退対象の前記第２レーンを前記エラー情報に基づいて特定する
ことを特徴とする並列計算機システム。
（付記１２）
付記７ないし付記１１のいずれか１項に記載の並列計算機システムにおいて、
前記選択部は、前記転送回路が前記物理層デバイスに対して起動を指示してから起動完了の通知を前記物理層デバイスから受信するまでの期間では、前記第１レーンのいずれかの前記検出情報を前記情報取得部が受信してから所定時間経過するまでに、前記起動完了の通知を前記転送回路が受信しなかった場合、前記縮退対象の前記第２レーンを前記検出情報に基づいて特定する
ことを特徴とする並列計算機システム。
（付記１３）
伝送路を介して接続される複数の情報処理装置を有し、前記情報処理装置が、ＯＳＩ参照モデルの物理層に相当するデバイスであり、データを複数の第１レーンに分配し、所定の数の前記第１レーンをまとめた複数の第２レーンを用いて通信先の前記情報処理装置とのデータ転送を実行する物理層デバイスと、前記物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを前記物理層デバイスに転送し、前記物理層デバイスから受信したデータを前記演算処理装置に転送する転送回路とを有する並列計算機システムの制御方法において、
前記転送回路は、前記物理層デバイスが前記通信先の情報処理装置からデータを受信したことを示す前記各第１レーンの検出情報と、前記通信先の情報処理装置から前記物理層デバイスに転送されたデータに誤りがあることを示す前記各第１レーンのエラー情報とのいずれかを、前記物理層デバイスから受信し、
前記転送回路は、複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、縮退対象の前記第２レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第２レーンを除く前記第２レーンから前記通信先の情報処理装置とのデータ転送に使用する前記第２レーンを選択することを特徴とする並列計算機システムの制御方法。
（付記１４）
付記１３に記載の並列計算機システムの制御方法において、
前記転送回路は、所定期間に発生した前記誤りの数を前記エラー情報に基づいて前記第２レーン毎に計測し、複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、前記縮退対象の前記第２レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。
（付記１５）
付記１４に記載の並列計算機システムの制御方法において、
前記転送回路は、前記通信先の情報処理装置に前記物理層デバイスを介して転送したデータの再送信に関する処理での異常を検出する処理を実行し、
前記転送回路は、前記再送信に関する処理での異常を検出した場合、前記縮退対象の前記第２レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。
（付記１６）
付記１４または付記１５に記載の並列計算機システムの制御方法において、
前記転送回路は、前記所定期間内の前記誤りの数が閾値を超えた前記第２レーンを検出した場合、前記所定期間内の前記誤りの数が前記閾値を超えた前記第２レーンを、前記縮退対象の前記第２レーンと特定する
ことを特徴とする並列計算機システムの制御方法。
（付記１７）
付記１３ないし付記１６のいずれか１項に記載の並列計算機システムの制御方法において、
前記転送回路は、前記通信先の情報処理装置に前記物理層デバイスを介してデータを転送するためのフロー制御での異常を検出する処理を実行し、
前記転送回路は、前記フロー制御での異常を検出した場合、前記縮退対象の前記第２レーンを前記エラー情報に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。
（付記１８）
付記１３ないし付記１７のいずれか１項に記載の並列計算機システムの制御方法において、
前記転送回路は、前記物理層デバイスに対して起動を指示してから起動完了の通知を前記物理層デバイスから受信するまでの期間では、前記第１レーンのいずれかの前記検出情報を受信してから所定時間経過するまでに、前記起動完了の通知を受信しなかった場合、前記縮退対象の前記第２レーンを前記検出情報に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

ＡＣＱ‥情報取得部；ＡＤＤ‥加算部；ＡＤＥＴ‥ＡＭ検出部；ＡＧＧＲ、ＡＧＧＳ‥データ集約部；ＡＩＮＳ‥ＡＭ挿入部；ＡＲＥＣ‥ＡＭ検出情報受信部；ＢＤＥＴ‥ＢＩＰ検出部；ＢＩＮＳ‥ＢＩＰ挿入部；ＢＪＧ‥故障判定部；ＣＵＮＴ‥カウンタ；ＤＣＬＴ‥縮退指示部；ＤＧＥＮ‥縮退情報生成部；ＤＩＶＲ、ＤＩＶＳ‥データ分割部；ＥＣＴ、ＥＣＴ０、ＥＣＴ１、ＥＣＴ２、ＥＣＴ３‥エラーカウンタ；ＥＤＥＴ‥エラー検出部；ＥＲＥＣ‥エラー情報受信部；ＥＲＥＰ‥エラー通知部；ＦＣＬＴ‥フロー制御部；ＦＤＥＴ‥異常検出部；ＦＧＥＮ‥フレーム生成部；ＦＲＥＣ‥フレーム受信部；ＦＳＥＮ‥フレーム送信部；ＦＴＲ‥フレーム転送回路；ＬＣＬＴ‥リンク制御部；ＬＳＥＬ‥レーン選択部；ＰＤＥＶ１、ＰＤＥＶ２‥情報処理装置；ＰＨＬ、ＰＨＬｒ０−ＰＨＬｒ３、ＰＨＬｓ０−ＰＨＬｓ３‥物理レーン；ＰＬｒ０−ＰＬｒ１９、ＰＬｓ０−ＰＬｓ１９‥ＰＣＳレーン；ＰＳ‥パラレルシリアル変換部；ＲＢＵＦ‥バッファ部；ＲＥＧ１、ＲＥＧ２、ＲＥＧ３‥レジスタ；ＲＴＣＬＴ‥再送制御部；ＳＣＬＴ‥起動指示部；ＳＥＬ‥選択部；ＳＰ‥シリアルパラレル変換部；ＳＵＣＬＴ‥起動制御部；ＳＹＳ‥並列計算機システム；ＴＪＧ‥タイムアウト判定部；ＴＭ‥タイマ

一観点によれば、情報処理装置は、データを複数の第１レーンに分配し、所定の数の第１レーンをまとめた複数の第２レーンを用いて外部の装置とのデータ転送を実行する第１転送部と、演算処理を実行する演算処理装置から受信したデータを第１転送部に転送し、第１転送部から受信したデータを演算処理装置に転送する第２転送部とを有し、第２転送部は、第１転送部が外部の装置からデータを受信したことを示す各第１レーンの検出情報と、外部の装置から第１転送部に転送されたデータに誤りがあることを示す各第１レーンのエラー情報とのいずれかを、第１転送部から受信する情報取得部と、複数の第１レーンおよび複数の第２レーンのいずれかに故障が発生した場合、縮退対象の第２レーンをエラー情報および検出情報のいずれかに基づいて特定し、特定した第２レーンを除く第２レーンから外部の装置とのデータ転送に使用する第２レーンを選択する選択部とを有する。

別の観点によれば、伝送路を介して接続される複数の情報処理装置を有する並列計算機システムでは、情報処理装置は、データを複数の第１レーンに分配し、所定の数の第１レーンをまとめた複数の第２レーンを用いて通信先の情報処理装置とのデータ転送を実行する第１転送部と、演算処理を実行する演算処理装置から受信したデータを第１転送部に転送し、第１転送部から受信したデータを演算処理装置に転送する第２転送部とを有し、第２転送部は、第１転送部が通信先の情報処理装置からデータを受信したことを示す各第１レーンの検出情報と、通信先の情報処理装置から第１転送部に転送されたデータに誤りがあることを示す各第１レーンのエラー情報とのいずれかを、第１転送部から受信する情報取得部と、複数の第１レーンおよび複数の第２レーンのいずれかに故障が発生した場合、縮退対象の第２レーンをエラー情報および検出情報のいずれかに基づいて特定し、特定した第２レーンを除く第２レーンから通信先の情報処理装置とのデータ転送に使用する第２レーンを選択する選択部とを有する。

別の観点によれば、伝送路を介して接続される複数の情報処理装置を有し、情報処理装置が、データを複数の第１レーンに分配し、所定の数の第１レーンをまとめた複数の第２レーンを用いて通信先の情報処理装置とのデータ転送を実行する第１転送部と、演算処理を実行する演算処理装置から受信したデータを第１転送部に転送し、第１転送部から受信したデータを演算処理装置に転送する第２転送部とを有する並列計算機システムの制御方法では、第２転送部は、第１転送部が通信先の情報処理装置からデータを受信したことを示す各第１レーンの検出情報と、通信先の情報処理装置から第１転送部に転送されたデータに誤りがあることを示す各第１レーンのエラー情報とのいずれかを、第１転送部から受信し、第２転送部は、複数の第１レーンおよび複数の第２レーンのいずれかに故障が発生した場合、縮退対象の第２レーンをエラー情報および検出情報のいずれかに基づいて特定し、特定した第２レーンを除く第２レーンから通信先の情報処理装置とのデータ転送に使用する第２レーンを選択する。

以上の実施形態において説明した発明を整理して、付記として開示する。
（付記１）
データを複数の第１レーンに分配し、所定の数の前記第１レーンをまとめた複数の第２レーンを用いて外部の装置とのデータ転送を実行する第１転送部と、
演算処理を実行する演算処理装置から受信したデータを前記第１転送部に転送し、前記第１転送部から受信したデータを前記演算処理装置に転送する第２転送部とを有し、
前記第２転送部は、
前記第１転送部が前記外部の装置からデータを受信したことを示す前記各第１レーンの検出情報と、前記外部の装置から前記第１転送部に転送されたデータに誤りがあることを示す前記各第１レーンのエラー情報とのいずれかを、前記第１転送部から受信する情報取得部と、
複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、縮退対象の前記第２レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第２レーンを除く前記第２レーンから前記外部の装置とのデータ転送に使用する前記第２レーンを選択する選択部とを有することを特徴とする情報処理装置。
（付記２）
付記１に記載の情報処理装置において、
前記選択部は、所定期間に発生した前記誤りの数を前記エラー情報に基づいて前記第２レーン毎に計測する計測部を有し、複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、前記縮退対象の前記第２レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする情報処理装置。
（付記３）
付記２に記載の情報処理装置において、
前記第２転送部は、前記外部の装置に前記第１転送部を介して転送したデータの再送信に関する処理での異常を検出する第１検出部を有し、
前記選択部は、前記再送信に関する処理での異常が検出された場合、前記縮退対象の前記第２レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする情報処理装置。
（付記４）
付記２または付記３に記載の情報処理装置において、
前記選択部は、前記所定期間内の前記誤りの数が閾値を超えた前記第２レーンを検出した場合、前記所定期間内の前記誤りの数が前記閾値を超えた前記第２レーンを、前記縮退対象の前記第２レーンと特定する
ことを特徴とする情報処理装置。
（付記５）
付記１ないし付記４のいずれか１項に記載の情報処理装置において、
前記第２転送部は、前記外部の装置に前記第１転送部を介してデータを転送するためのフロー制御での異常を検出する第２検出部を有し、
前記選択部は、前記フロー制御での異常が検出された場合、前記縮退対象の前記第２レーンを前記エラー情報に基づいて特定する
ことを特徴とする情報処理装置。
（付記６）
付記１ないし付記５のいずれか１項に記載の情報処理装置において、
前記選択部は、前記第２転送部が前記第１転送部に対して起動を指示してから起動完了の通知を前記第１転送部から受信するまでの期間では、前記第１レーンのいずれかの前記検出情報を前記情報取得部が受信してから所定時間経過するまでに、前記起動完了の通知を前記第２転送部が受信しなかった場合、前記縮退対象の前記第２レーンを前記検出情報に基づいて特定する
ことを特徴とする情報処理装置。
（付記７）
伝送路を介して接続される複数の情報処理装置を有する並列計算機システムにおいて、
前記情報処理装置は、
データを複数の第１レーンに分配し、所定の数の前記第１レーンをまとめた複数の第２レーンを用いて通信先の前記情報処理装置とのデータ転送を実行する第１転送部と、
演算処理を実行する演算処理装置から受信したデータを前記第１転送部に転送し、前記第１転送部から受信したデータを前記演算処理装置に転送する第２転送部とを有し、
前記第２転送部は、
前記第１転送部が前記通信先の情報処理装置からデータを受信したことを示す前記各第１レーンの検出情報と、前記通信先の情報処理装置から前記第１転送部に転送されたデータに誤りがあることを示す前記各第１レーンのエラー情報とのいずれかを、前記第１転送部から受信する情報取得部と、
複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、縮退対象の前記第２レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第２レーンを除く前記第２レーンから前記通信先の情報処理装置とのデータ転送に使用する前記第２レーンを選択する選択部とを有することを特徴とする並列計算機システム。
（付記８）
付記７に記載の並列計算機システムにおいて、
前記選択部は、所定期間に発生した前記誤りの数を前記エラー情報に基づいて前記第２レーン毎に計測する計測部を有し、複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、前記縮退対象の前記第２レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システム。
（付記９）
付記８に記載の並列計算機システムにおいて、
前記第２転送部は、前記通信先の情報処理装置に前記第１転送部を介して転送したデータの再送信に関する処理での異常を検出する第１検出部を有し、
前記選択部は、前記再送信に関する処理での異常が検出された場合、前記縮退対象の前記第２レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システム。
（付記１０）
付記８または付記９に記載の並列計算機システムにおいて、
前記選択部は、前記所定期間内の前記誤りの数が閾値を超えた前記第２レーンを検出した場合、前記所定期間内の前記誤りの数が前記閾値を超えた前記第２レーンを、前記縮退対象の前記第２レーンと特定する
ことを特徴とする並列計算機システム。
（付記１１）
付記７ないし付記１０のいずれか１項に記載の並列計算機システムにおいて、
前記第２転送部は、前記通信先の情報処理装置に前記第１転送部を介してデータを転送するためのフロー制御での異常を検出する第２検出部を有し、
前記選択部は、前記フロー制御での異常が検出された場合、前記縮退対象の前記第２レーンを前記エラー情報に基づいて特定する
ことを特徴とする並列計算機システム。
（付記１２）
付記７ないし付記１１のいずれか１項に記載の並列計算機システムにおいて、
前記選択部は、前記第２転送部が前記第１転送部に対して起動を指示してから起動完了の通知を前記第１転送部から受信するまでの期間では、前記第１レーンのいずれかの前記検出情報を前記情報取得部が受信してから所定時間経過するまでに、前記起動完了の通知を前記第２転送部が受信しなかった場合、前記縮退対象の前記第２レーンを前記検出情報に基づいて特定する
ことを特徴とする並列計算機システム。
（付記１３）
伝送路を介して接続される複数の情報処理装置を有し、前記情報処理装置が、データを複数の第１レーンに分配し、所定の数の前記第１レーンをまとめた複数の第２レーンを用いて通信先の前記情報処理装置とのデータ転送を実行する第１転送部と、演算処理を実行する演算処理装置から受信したデータを前記第１転送部に転送し、前記第１転送部から受信したデータを前記演算処理装置に転送する第２転送部とを有する並列計算機システムの制御方法において、
前記第２転送部は、前記第１転送部が前記通信先の情報処理装置からデータを受信したことを示す前記各第１レーンの検出情報と、前記通信先の情報処理装置から前記第１転送部に転送されたデータに誤りがあることを示す前記各第１レーンのエラー情報とのいずれかを、前記第１転送部から受信し、
前記第２転送部は、複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、縮退対象の前記第２レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第２レーンを除く前記第２レーンから前記通信先の情報処理装置とのデータ転送に使用する前記第２レーンを選択することを特徴とする並列計算機システムの制御方法。
（付記１４）
付記１３に記載の並列計算機システムの制御方法において、
前記第２転送部は、所定期間に発生した前記誤りの数を前記エラー情報に基づいて前記第２レーン毎に計測し、複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、前記縮退対象の前記第２レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。
（付記１５）
付記１４に記載の並列計算機システムの制御方法において、
前記第２転送部は、前記通信先の情報処理装置に前記第１転送部を介して転送したデータの再送信に関する処理での異常を検出する処理を実行し、
前記第２転送部は、前記再送信に関する処理での異常を検出した場合、前記縮退対象の前記第２レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。
（付記１６）
付記１４または付記１５に記載の並列計算機システムの制御方法において、
前記第２転送部は、前記所定期間内の前記誤りの数が閾値を超えた前記第２レーンを検出した場合、前記所定期間内の前記誤りの数が前記閾値を超えた前記第２レーンを、前記縮退対象の前記第２レーンと特定する
ことを特徴とする並列計算機システムの制御方法。
（付記１７）
付記１３ないし付記１６のいずれか１項に記載の並列計算機システムの制御方法において、
前記第２転送部は、前記通信先の情報処理装置に前記第１転送部を介してデータを転送するためのフロー制御での異常を検出する処理を実行し、
前記第２転送部は、前記フロー制御での異常を検出した場合、前記縮退対象の前記第２レーンを前記エラー情報に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。
（付記１８）
付記１３ないし付記１７のいずれか１項に記載の並列計算機システムの制御方法において、
前記第２転送部は、前記第１転送部に対して起動を指示してから起動完了の通知を前記第１転送部から受信するまでの期間では、前記第１レーンのいずれかの前記検出情報を受信してから所定時間経過するまでに、前記起動完了の通知を受信しなかった場合、前記縮退対象の前記第２レーンを前記検出情報に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。

Claims

ＯＳＩ参照モデルの物理層に相当するデバイスであり、データを複数の第１レーンに分配し、所定の数の前記第１レーンをまとめた複数の第２レーンを用いて外部の装置とのデータ転送を実行する物理層デバイスと、
前記物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを前記物理層デバイスに転送し、前記物理層デバイスから受信したデータを前記演算処理装置に転送する転送回路とを有し、
前記転送回路は、
前記物理層デバイスが前記外部の装置からデータを受信したことを示す前記各第１レーンの検出情報と、前記外部の装置から前記物理層デバイスに転送されたデータに誤りがあることを示す前記各第１レーンのエラー情報とのいずれかを、前記物理層デバイスから受信する情報取得部と、
複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、縮退対象の前記第２レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第２レーンを除く前記第２レーンから前記外部の装置とのデータ転送に使用する前記第２レーンを選択する選択部とを有することを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記選択部は、所定期間に発生した前記誤りの数を前記エラー情報に基づいて前記第２レーン毎に計測する計測部を有し、複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、前記縮退対象の前記第２レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする情報処理装置。
請求項２に記載の情報処理装置において、
前記転送回路は、前記外部の装置に前記物理層デバイスを介して転送したデータの再送信に関する処理での異常を検出する第１検出部を有し、
前記選択部は、前記再送信に関する処理での異常が検出された場合、前記縮退対象の前記第２レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする情報処理装置。
請求項２または請求項３に記載の情報処理装置において、
前記選択部は、前記所定期間内の前記誤りの数が閾値を超えた前記第２レーンを検出した場合、前記所定期間内の前記誤りの数が前記閾値を超えた前記第２レーンを、前記縮退対象の前記第２レーンと特定する
ことを特徴とする情報処理装置。
請求項１ないし請求項４のいずれか１項に記載の情報処理装置において、
前記転送回路は、前記外部の装置に前記物理層デバイスを介してデータを転送するためのフロー制御での異常を検出する第２検出部を有し、
前記選択部は、前記フロー制御での異常が検出された場合、前記縮退対象の前記第２レーンを前記エラー情報に基づいて特定する
ことを特徴とする情報処理装置。
請求項１ないし請求項５のいずれか１項に記載の情報処理装置において、
前記選択部は、前記転送回路が前記物理層デバイスに対して起動を指示してから起動完了の通知を前記物理層デバイスから受信するまでの期間では、前記第１レーンのいずれかの前記検出情報を前記情報取得部が受信してから所定時間経過するまでに、前記起動完了の通知を前記転送回路が受信しなかった場合、前記縮退対象の前記第２レーンを前記検出情報に基づいて特定する
ことを特徴とする情報処理装置。
伝送路を介して接続される複数の情報処理装置を有する並列計算機システムにおいて、
前記情報処理装置は、
ＯＳＩ参照モデルの物理層に相当するデバイスであり、データを複数の第１レーンに分配し、所定の数の前記第１レーンをまとめた複数の第２レーンを用いて通信先の前記情報処理装置とのデータ転送を実行する物理層デバイスと、
前記物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを前記物理層デバイスに転送し、前記物理層デバイスから受信したデータを前記演算処理装置に転送する転送回路とを有し、
前記転送回路は、
前記物理層デバイスが前記通信先の情報処理装置からデータを受信したことを示す前記各第１レーンの検出情報と、前記通信先の情報処理装置から前記物理層デバイスに転送されたデータに誤りがあることを示す前記各第１レーンのエラー情報とのいずれかを、前記物理層デバイスから受信する情報取得部と、
複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、縮退対象の前記第２レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第２レーンを除く前記第２レーンから前記通信先の情報処理装置とのデータ転送に使用する前記第２レーンを選択する選択部とを有することを特徴とする並列計算機システム。
伝送路を介して接続される複数の情報処理装置を有し、前記情報処理装置が、ＯＳＩ参照モデルの物理層に相当するデバイスであり、データを複数の第１レーンに分配し、所定の数の前記第１レーンをまとめた複数の第２レーンを用いて通信先の前記情報処理装置とのデータ転送を実行する物理層デバイスと、前記物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを前記物理層デバイスに転送し、前記物理層デバイスから受信したデータを前記演算処理装置に転送する転送回路とを有する並列計算機システムの制御方法において、
前記転送回路は、前記物理層デバイスが前記通信先の情報処理装置からデータを受信したことを示す前記各第１レーンの検出情報と、前記通信先の情報処理装置から前記物理層デバイスに転送されたデータに誤りがあることを示す前記各第１レーンのエラー情報とのいずれかを、前記物理層デバイスから受信し、
前記転送回路は、複数の前記第１レーンおよび複数の前記第２レーンのいずれかに故障が発生した場合、縮退対象の前記第２レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第２レーンを除く前記第２レーンから前記通信先の情報処理装置とのデータ転送に使用する前記第２レーンを選択することを特徴とする並列計算機システムの制御方法。