JP2015192360A - 情報処理装置、並列計算機システムおよび並列計算機システムの制御方法 - Google Patents
情報処理装置、並列計算機システムおよび並列計算機システムの制御方法 Download PDFInfo
- Publication number
- JP2015192360A JP2015192360A JP2014069111A JP2014069111A JP2015192360A JP 2015192360 A JP2015192360 A JP 2015192360A JP 2014069111 A JP2014069111 A JP 2014069111A JP 2014069111 A JP2014069111 A JP 2014069111A JP 2015192360 A JP2015192360 A JP 2015192360A
- Authority
- JP
- Japan
- Prior art keywords
- lane
- physical layer
- unit
- information
- lanes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/42—Bus transfer protocol, e.g. handshake; Synchronisation
- G06F13/4282—Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2002—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
- G06F11/2007—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/20—Arrangements for detecting or preventing errors in the information received using signal quality detector
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q11/0066—Provisions for optical burst or packet networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/85—Active fault masking without idle spares
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q2011/0079—Operation or maintenance aspects
- H04Q2011/0081—Fault tolerance; Redundancy; Recovery; Reconfigurability
Abstract
Description
(付記1)
OSI参照モデルの物理層に相当するデバイスであり、データを複数の第1レーンに分配し、所定の数の前記第1レーンをまとめた複数の第2レーンを用いて外部の装置とのデータ転送を実行する物理層デバイスと、
前記物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを前記物理層デバイスに転送し、前記物理層デバイスから受信したデータを前記演算処理装置に転送する転送回路とを有し、
前記転送回路は、
前記物理層デバイスが前記外部の装置からデータを受信したことを示す前記各第1レーンの検出情報と、前記外部の装置から前記物理層デバイスに転送されたデータに誤りがあることを示す前記各第1レーンのエラー情報とのいずれかを、前記物理層デバイスから受信する情報取得部と、
複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、縮退対象の前記第2レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第2レーンを除く前記第2レーンから前記外部の装置とのデータ転送に使用する前記第2レーンを選択する選択部とを有することを特徴とする情報処理装置。
(付記2)
付記1に記載の情報処理装置において、
前記選択部は、所定期間に発生した前記誤りの数を前記エラー情報に基づいて前記第2レーン毎に計測する計測部を有し、複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、前記縮退対象の前記第2レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする情報処理装置。
(付記3)
付記2に記載の情報処理装置において、
前記転送回路は、前記外部の装置に前記物理層デバイスを介して転送したデータの再送信に関する処理での異常を検出する第1検出部を有し、
前記選択部は、前記再送信に関する処理での異常が検出された場合、前記縮退対象の前記第2レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする情報処理装置。
(付記4)
付記2または付記3に記載の情報処理装置において、
前記選択部は、前記所定期間内の前記誤りの数が閾値を超えた前記第2レーンを検出した場合、前記所定期間内の前記誤りの数が前記閾値を超えた前記第2レーンを、前記縮退対象の前記第2レーンと特定する
ことを特徴とする情報処理装置。
(付記5)
付記1ないし付記4のいずれか1項に記載の情報処理装置において、
前記転送回路は、前記外部の装置に前記物理層デバイスを介してデータを転送するためのフロー制御での異常を検出する第2検出部を有し、
前記選択部は、前記フロー制御での異常が検出された場合、前記縮退対象の前記第2レーンを前記エラー情報に基づいて特定する
ことを特徴とする情報処理装置。
(付記6)
付記1ないし付記5のいずれか1項に記載の情報処理装置において、
前記選択部は、前記転送回路が前記物理層デバイスに対して起動を指示してから起動完了の通知を前記物理層デバイスから受信するまでの期間では、前記第1レーンのいずれかの前記検出情報を前記情報取得部が受信してから所定時間経過するまでに、前記起動完了の通知を前記転送回路が受信しなかった場合、前記縮退対象の前記第2レーンを前記検出情報に基づいて特定する
ことを特徴とする情報処理装置。
(付記7)
伝送路を介して接続される複数の情報処理装置を有する並列計算機システムにおいて、
前記情報処理装置は、
OSI参照モデルの物理層に相当するデバイスであり、データを複数の第1レーンに分配し、所定の数の前記第1レーンをまとめた複数の第2レーンを用いて通信先の前記情報処理装置とのデータ転送を実行する物理層デバイスと、
前記物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを前記物理層デバイスに転送し、前記物理層デバイスから受信したデータを前記演算処理装置に転送する転送回路とを有し、
前記転送回路は、
前記物理層デバイスが前記通信先の情報処理装置からデータを受信したことを示す前記各第1レーンの検出情報と、前記通信先の情報処理装置から前記物理層デバイスに転送されたデータに誤りがあることを示す前記各第1レーンのエラー情報とのいずれかを、前記物理層デバイスから受信する情報取得部と、
複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、縮退対象の前記第2レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第2レーンを除く前記第2レーンから前記通信先の情報処理装置とのデータ転送に使用する前記第2レーンを選択する選択部とを有することを特徴とする並列計算機システム。
(付記8)
付記7に記載の並列計算機システムにおいて、
前記選択部は、所定期間に発生した前記誤りの数を前記エラー情報に基づいて前記第2レーン毎に計測する計測部を有し、複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、前記縮退対象の前記第2レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システム。
(付記9)
付記8に記載の並列計算機システムにおいて、
前記転送回路は、前記通信先の情報処理装置に前記物理層デバイスを介して転送したデータの再送信に関する処理での異常を検出する第1検出部を有し、
前記選択部は、前記再送信に関する処理での異常が検出された場合、前記縮退対象の前記第2レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システム。
(付記10)
付記8または付記9に記載の並列計算機システムにおいて、
前記選択部は、前記所定期間内の前記誤りの数が閾値を超えた前記第2レーンを検出した場合、前記所定期間内の前記誤りの数が前記閾値を超えた前記第2レーンを、前記縮退対象の前記第2レーンと特定する
ことを特徴とする並列計算機システム。
(付記11)
付記7ないし付記10のいずれか1項に記載の並列計算機システムにおいて、
前記転送回路は、前記通信先の情報処理装置に前記物理層デバイスを介してデータを転送するためのフロー制御での異常を検出する第2検出部を有し、
前記選択部は、前記フロー制御での異常が検出された場合、前記縮退対象の前記第2レーンを前記エラー情報に基づいて特定する
ことを特徴とする並列計算機システム。
(付記12)
付記7ないし付記11のいずれか1項に記載の並列計算機システムにおいて、
前記選択部は、前記転送回路が前記物理層デバイスに対して起動を指示してから起動完了の通知を前記物理層デバイスから受信するまでの期間では、前記第1レーンのいずれかの前記検出情報を前記情報取得部が受信してから所定時間経過するまでに、前記起動完了の通知を前記転送回路が受信しなかった場合、前記縮退対象の前記第2レーンを前記検出情報に基づいて特定する
ことを特徴とする並列計算機システム。
(付記13)
伝送路を介して接続される複数の情報処理装置を有し、前記情報処理装置が、OSI参照モデルの物理層に相当するデバイスであり、データを複数の第1レーンに分配し、所定の数の前記第1レーンをまとめた複数の第2レーンを用いて通信先の前記情報処理装置とのデータ転送を実行する物理層デバイスと、前記物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを前記物理層デバイスに転送し、前記物理層デバイスから受信したデータを前記演算処理装置に転送する転送回路とを有する並列計算機システムの制御方法において、
前記転送回路は、前記物理層デバイスが前記通信先の情報処理装置からデータを受信したことを示す前記各第1レーンの検出情報と、前記通信先の情報処理装置から前記物理層デバイスに転送されたデータに誤りがあることを示す前記各第1レーンのエラー情報とのいずれかを、前記物理層デバイスから受信し、
前記転送回路は、複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、縮退対象の前記第2レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第2レーンを除く前記第2レーンから前記通信先の情報処理装置とのデータ転送に使用する前記第2レーンを選択することを特徴とする並列計算機システムの制御方法。
(付記14)
付記13に記載の並列計算機システムの制御方法において、
前記転送回路は、所定期間に発生した前記誤りの数を前記エラー情報に基づいて前記第2レーン毎に計測し、複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、前記縮退対象の前記第2レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。
(付記15)
付記14に記載の並列計算機システムの制御方法において、
前記転送回路は、前記通信先の情報処理装置に前記物理層デバイスを介して転送したデータの再送信に関する処理での異常を検出する処理を実行し、
前記転送回路は、前記再送信に関する処理での異常を検出した場合、前記縮退対象の前記第2レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。
(付記16)
付記14または付記15に記載の並列計算機システムの制御方法において、
前記転送回路は、前記所定期間内の前記誤りの数が閾値を超えた前記第2レーンを検出した場合、前記所定期間内の前記誤りの数が前記閾値を超えた前記第2レーンを、前記縮退対象の前記第2レーンと特定する
ことを特徴とする並列計算機システムの制御方法。
(付記17)
付記13ないし付記16のいずれか1項に記載の並列計算機システムの制御方法において、
前記転送回路は、前記通信先の情報処理装置に前記物理層デバイスを介してデータを転送するためのフロー制御での異常を検出する処理を実行し、
前記転送回路は、前記フロー制御での異常を検出した場合、前記縮退対象の前記第2レーンを前記エラー情報に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。
(付記18)
付記13ないし付記17のいずれか1項に記載の並列計算機システムの制御方法において、
前記転送回路は、前記物理層デバイスに対して起動を指示してから起動完了の通知を前記物理層デバイスから受信するまでの期間では、前記第1レーンのいずれかの前記検出情報を受信してから所定時間経過するまでに、前記起動完了の通知を受信しなかった場合、前記縮退対象の前記第2レーンを前記検出情報に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。
(付記1)
データを複数の第1レーンに分配し、所定の数の前記第1レーンをまとめた複数の第2レーンを用いて外部の装置とのデータ転送を実行する第1転送部と、
演算処理を実行する演算処理装置から受信したデータを前記第1転送部に転送し、前記第1転送部から受信したデータを前記演算処理装置に転送する第2転送部とを有し、
前記第2転送部は、
前記第1転送部が前記外部の装置からデータを受信したことを示す前記各第1レーンの検出情報と、前記外部の装置から前記第1転送部に転送されたデータに誤りがあることを示す前記各第1レーンのエラー情報とのいずれかを、前記第1転送部から受信する情報取得部と、
複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、縮退対象の前記第2レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第2レーンを除く前記第2レーンから前記外部の装置とのデータ転送に使用する前記第2レーンを選択する選択部とを有することを特徴とする情報処理装置。
(付記2)
付記1に記載の情報処理装置において、
前記選択部は、所定期間に発生した前記誤りの数を前記エラー情報に基づいて前記第2レーン毎に計測する計測部を有し、複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、前記縮退対象の前記第2レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする情報処理装置。
(付記3)
付記2に記載の情報処理装置において、
前記第2転送部は、前記外部の装置に前記第1転送部を介して転送したデータの再送信に関する処理での異常を検出する第1検出部を有し、
前記選択部は、前記再送信に関する処理での異常が検出された場合、前記縮退対象の前記第2レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする情報処理装置。
(付記4)
付記2または付記3に記載の情報処理装置において、
前記選択部は、前記所定期間内の前記誤りの数が閾値を超えた前記第2レーンを検出した場合、前記所定期間内の前記誤りの数が前記閾値を超えた前記第2レーンを、前記縮退対象の前記第2レーンと特定する
ことを特徴とする情報処理装置。
(付記5)
付記1ないし付記4のいずれか1項に記載の情報処理装置において、
前記第2転送部は、前記外部の装置に前記第1転送部を介してデータを転送するためのフロー制御での異常を検出する第2検出部を有し、
前記選択部は、前記フロー制御での異常が検出された場合、前記縮退対象の前記第2レーンを前記エラー情報に基づいて特定する
ことを特徴とする情報処理装置。
(付記6)
付記1ないし付記5のいずれか1項に記載の情報処理装置において、
前記選択部は、前記第2転送部が前記第1転送部に対して起動を指示してから起動完了の通知を前記第1転送部から受信するまでの期間では、前記第1レーンのいずれかの前記検出情報を前記情報取得部が受信してから所定時間経過するまでに、前記起動完了の通知を前記第2転送部が受信しなかった場合、前記縮退対象の前記第2レーンを前記検出情報に基づいて特定する
ことを特徴とする情報処理装置。
(付記7)
伝送路を介して接続される複数の情報処理装置を有する並列計算機システムにおいて、
前記情報処理装置は、
データを複数の第1レーンに分配し、所定の数の前記第1レーンをまとめた複数の第2レーンを用いて通信先の前記情報処理装置とのデータ転送を実行する第1転送部と、
演算処理を実行する演算処理装置から受信したデータを前記第1転送部に転送し、前記第1転送部から受信したデータを前記演算処理装置に転送する第2転送部とを有し、
前記第2転送部は、
前記第1転送部が前記通信先の情報処理装置からデータを受信したことを示す前記各第1レーンの検出情報と、前記通信先の情報処理装置から前記第1転送部に転送されたデータに誤りがあることを示す前記各第1レーンのエラー情報とのいずれかを、前記第1転送部から受信する情報取得部と、
複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、縮退対象の前記第2レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第2レーンを除く前記第2レーンから前記通信先の情報処理装置とのデータ転送に使用する前記第2レーンを選択する選択部とを有することを特徴とする並列計算機システム。
(付記8)
付記7に記載の並列計算機システムにおいて、
前記選択部は、所定期間に発生した前記誤りの数を前記エラー情報に基づいて前記第2レーン毎に計測する計測部を有し、複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、前記縮退対象の前記第2レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システム。
(付記9)
付記8に記載の並列計算機システムにおいて、
前記第2転送部は、前記通信先の情報処理装置に前記第1転送部を介して転送したデータの再送信に関する処理での異常を検出する第1検出部を有し、
前記選択部は、前記再送信に関する処理での異常が検出された場合、前記縮退対象の前記第2レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システム。
(付記10)
付記8または付記9に記載の並列計算機システムにおいて、
前記選択部は、前記所定期間内の前記誤りの数が閾値を超えた前記第2レーンを検出した場合、前記所定期間内の前記誤りの数が前記閾値を超えた前記第2レーンを、前記縮退対象の前記第2レーンと特定する
ことを特徴とする並列計算機システム。
(付記11)
付記7ないし付記10のいずれか1項に記載の並列計算機システムにおいて、
前記第2転送部は、前記通信先の情報処理装置に前記第1転送部を介してデータを転送するためのフロー制御での異常を検出する第2検出部を有し、
前記選択部は、前記フロー制御での異常が検出された場合、前記縮退対象の前記第2レーンを前記エラー情報に基づいて特定する
ことを特徴とする並列計算機システム。
(付記12)
付記7ないし付記11のいずれか1項に記載の並列計算機システムにおいて、
前記選択部は、前記第2転送部が前記第1転送部に対して起動を指示してから起動完了の通知を前記第1転送部から受信するまでの期間では、前記第1レーンのいずれかの前記検出情報を前記情報取得部が受信してから所定時間経過するまでに、前記起動完了の通知を前記第2転送部が受信しなかった場合、前記縮退対象の前記第2レーンを前記検出情報に基づいて特定する
ことを特徴とする並列計算機システム。
(付記13)
伝送路を介して接続される複数の情報処理装置を有し、前記情報処理装置が、データを複数の第1レーンに分配し、所定の数の前記第1レーンをまとめた複数の第2レーンを用いて通信先の前記情報処理装置とのデータ転送を実行する第1転送部と、演算処理を実行する演算処理装置から受信したデータを前記第1転送部に転送し、前記第1転送部から受信したデータを前記演算処理装置に転送する第2転送部とを有する並列計算機システムの制御方法において、
前記第2転送部は、前記第1転送部が前記通信先の情報処理装置からデータを受信したことを示す前記各第1レーンの検出情報と、前記通信先の情報処理装置から前記第1転送部に転送されたデータに誤りがあることを示す前記各第1レーンのエラー情報とのいずれかを、前記第1転送部から受信し、
前記第2転送部は、複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、縮退対象の前記第2レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第2レーンを除く前記第2レーンから前記通信先の情報処理装置とのデータ転送に使用する前記第2レーンを選択することを特徴とする並列計算機システムの制御方法。
(付記14)
付記13に記載の並列計算機システムの制御方法において、
前記第2転送部は、所定期間に発生した前記誤りの数を前記エラー情報に基づいて前記第2レーン毎に計測し、複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、前記縮退対象の前記第2レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。
(付記15)
付記14に記載の並列計算機システムの制御方法において、
前記第2転送部は、前記通信先の情報処理装置に前記第1転送部を介して転送したデータの再送信に関する処理での異常を検出する処理を実行し、
前記第2転送部は、前記再送信に関する処理での異常を検出した場合、前記縮退対象の前記第2レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。
(付記16)
付記14または付記15に記載の並列計算機システムの制御方法において、
前記第2転送部は、前記所定期間内の前記誤りの数が閾値を超えた前記第2レーンを検出した場合、前記所定期間内の前記誤りの数が前記閾値を超えた前記第2レーンを、前記縮退対象の前記第2レーンと特定する
ことを特徴とする並列計算機システムの制御方法。
(付記17)
付記13ないし付記16のいずれか1項に記載の並列計算機システムの制御方法において、
前記第2転送部は、前記通信先の情報処理装置に前記第1転送部を介してデータを転送するためのフロー制御での異常を検出する処理を実行し、
前記第2転送部は、前記フロー制御での異常を検出した場合、前記縮退対象の前記第2レーンを前記エラー情報に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。
(付記18)
付記13ないし付記17のいずれか1項に記載の並列計算機システムの制御方法において、
前記第2転送部は、前記第1転送部に対して起動を指示してから起動完了の通知を前記第1転送部から受信するまでの期間では、前記第1レーンのいずれかの前記検出情報を受信してから所定時間経過するまでに、前記起動完了の通知を受信しなかった場合、前記縮退対象の前記第2レーンを前記検出情報に基づいて特定する
ことを特徴とする並列計算機システムの制御方法。
Claims (8)
- OSI参照モデルの物理層に相当するデバイスであり、データを複数の第1レーンに分配し、所定の数の前記第1レーンをまとめた複数の第2レーンを用いて外部の装置とのデータ転送を実行する物理層デバイスと、
前記物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを前記物理層デバイスに転送し、前記物理層デバイスから受信したデータを前記演算処理装置に転送する転送回路とを有し、
前記転送回路は、
前記物理層デバイスが前記外部の装置からデータを受信したことを示す前記各第1レーンの検出情報と、前記外部の装置から前記物理層デバイスに転送されたデータに誤りがあることを示す前記各第1レーンのエラー情報とのいずれかを、前記物理層デバイスから受信する情報取得部と、
複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、縮退対象の前記第2レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第2レーンを除く前記第2レーンから前記外部の装置とのデータ転送に使用する前記第2レーンを選択する選択部とを有することを特徴とする情報処理装置。 - 請求項1に記載の情報処理装置において、
前記選択部は、所定期間に発生した前記誤りの数を前記エラー情報に基づいて前記第2レーン毎に計測する計測部を有し、複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、前記縮退対象の前記第2レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする情報処理装置。 - 請求項2に記載の情報処理装置において、
前記転送回路は、前記外部の装置に前記物理層デバイスを介して転送したデータの再送信に関する処理での異常を検出する第1検出部を有し、
前記選択部は、前記再送信に関する処理での異常が検出された場合、前記縮退対象の前記第2レーンを前記所定期間内の前記誤りの数に基づいて特定する
ことを特徴とする情報処理装置。 - 請求項2または請求項3に記載の情報処理装置において、
前記選択部は、前記所定期間内の前記誤りの数が閾値を超えた前記第2レーンを検出した場合、前記所定期間内の前記誤りの数が前記閾値を超えた前記第2レーンを、前記縮退対象の前記第2レーンと特定する
ことを特徴とする情報処理装置。 - 請求項1ないし請求項4のいずれか1項に記載の情報処理装置において、
前記転送回路は、前記外部の装置に前記物理層デバイスを介してデータを転送するためのフロー制御での異常を検出する第2検出部を有し、
前記選択部は、前記フロー制御での異常が検出された場合、前記縮退対象の前記第2レーンを前記エラー情報に基づいて特定する
ことを特徴とする情報処理装置。 - 請求項1ないし請求項5のいずれか1項に記載の情報処理装置において、
前記選択部は、前記転送回路が前記物理層デバイスに対して起動を指示してから起動完了の通知を前記物理層デバイスから受信するまでの期間では、前記第1レーンのいずれかの前記検出情報を前記情報取得部が受信してから所定時間経過するまでに、前記起動完了の通知を前記転送回路が受信しなかった場合、前記縮退対象の前記第2レーンを前記検出情報に基づいて特定する
ことを特徴とする情報処理装置。 - 伝送路を介して接続される複数の情報処理装置を有する並列計算機システムにおいて、
前記情報処理装置は、
OSI参照モデルの物理層に相当するデバイスであり、データを複数の第1レーンに分配し、所定の数の前記第1レーンをまとめた複数の第2レーンを用いて通信先の前記情報処理装置とのデータ転送を実行する物理層デバイスと、
前記物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを前記物理層デバイスに転送し、前記物理層デバイスから受信したデータを前記演算処理装置に転送する転送回路とを有し、
前記転送回路は、
前記物理層デバイスが前記通信先の情報処理装置からデータを受信したことを示す前記各第1レーンの検出情報と、前記通信先の情報処理装置から前記物理層デバイスに転送されたデータに誤りがあることを示す前記各第1レーンのエラー情報とのいずれかを、前記物理層デバイスから受信する情報取得部と、
複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、縮退対象の前記第2レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第2レーンを除く前記第2レーンから前記通信先の情報処理装置とのデータ転送に使用する前記第2レーンを選択する選択部とを有することを特徴とする並列計算機システム。 - 伝送路を介して接続される複数の情報処理装置を有し、前記情報処理装置が、OSI参照モデルの物理層に相当するデバイスであり、データを複数の第1レーンに分配し、所定の数の前記第1レーンをまとめた複数の第2レーンを用いて通信先の前記情報処理装置とのデータ転送を実行する物理層デバイスと、前記物理層より上位の層に相当するデバイスであり、演算処理を実行する演算処理装置から受信したデータを前記物理層デバイスに転送し、前記物理層デバイスから受信したデータを前記演算処理装置に転送する転送回路とを有する並列計算機システムの制御方法において、
前記転送回路は、前記物理層デバイスが前記通信先の情報処理装置からデータを受信したことを示す前記各第1レーンの検出情報と、前記通信先の情報処理装置から前記物理層デバイスに転送されたデータに誤りがあることを示す前記各第1レーンのエラー情報とのいずれかを、前記物理層デバイスから受信し、
前記転送回路は、複数の前記第1レーンおよび複数の前記第2レーンのいずれかに故障が発生した場合、縮退対象の前記第2レーンを前記エラー情報および前記検出情報のいずれかに基づいて特定し、特定した前記第2レーンを除く前記第2レーンから前記通信先の情報処理装置とのデータ転送に使用する前記第2レーンを選択することを特徴とする並列計算機システムの制御方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014069111A JP6331574B2 (ja) | 2014-03-28 | 2014-03-28 | 情報処理装置、並列計算機システムおよび並列計算機システムの制御方法 |
US14/629,881 US9619347B2 (en) | 2014-03-28 | 2015-02-24 | Systems and methods of fault management in electronic communications |
EP15156826.8A EP2924583B1 (en) | 2014-03-28 | 2015-02-26 | Information processing apparatus, parallel computer system, and method of controlling parallel computer system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014069111A JP6331574B2 (ja) | 2014-03-28 | 2014-03-28 | 情報処理装置、並列計算機システムおよび並列計算機システムの制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015192360A true JP2015192360A (ja) | 2015-11-02 |
JP6331574B2 JP6331574B2 (ja) | 2018-05-30 |
Family
ID=52669444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014069111A Active JP6331574B2 (ja) | 2014-03-28 | 2014-03-28 | 情報処理装置、並列計算機システムおよび並列計算機システムの制御方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9619347B2 (ja) |
EP (1) | EP2924583B1 (ja) |
JP (1) | JP6331574B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6442974B2 (ja) * | 2014-10-20 | 2018-12-26 | 富士通株式会社 | 情報処理装置および情報処理システム |
JP2017175243A (ja) * | 2016-03-22 | 2017-09-28 | 富士ゼロックス株式会社 | 通信装置 |
US11520653B2 (en) * | 2020-10-15 | 2022-12-06 | Nxp Usa, Inc. | System and method for controlling faults in system-on-chip |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007159063A (ja) * | 2005-12-08 | 2007-06-21 | Nec Corp | ネットワークコントローラの障害処理装置、リンク障害時パケット転送システムおよび方法 |
US20100162033A1 (en) * | 2008-12-22 | 2010-06-24 | Kye-Hyun Ahn | Ethernet apparatus capable of lane fault recovery and methods for transmitting and receiving data |
US20110320881A1 (en) * | 2010-06-24 | 2011-12-29 | International Business Machines Corporation | Isolation of faulty links in a transmission medium |
WO2013125621A1 (ja) * | 2012-02-22 | 2013-08-29 | 日本電信電話株式会社 | マルチレーン伝送装置及びマルチレーン伝送方法 |
WO2013145240A1 (ja) * | 2012-03-29 | 2013-10-03 | 富士通株式会社 | 情報処理装置及び情報処理装置制御方法 |
US20140078894A1 (en) * | 2012-09-17 | 2014-03-20 | Electronics And Telecommunications Research Institute | Lane fault recovery apparatus and method |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2503888B2 (ja) | 1993-06-30 | 1996-06-05 | 日本電気株式会社 | 移動無線通信におけるデ―タ伝送方式 |
JP4079940B2 (ja) | 2004-12-27 | 2008-04-23 | エヌイーシーコンピュータテクノ株式会社 | データ伝送方式及び方法 |
US8332729B2 (en) | 2008-09-29 | 2012-12-11 | Oracle International Corporation | System and method for automatic communication lane failover in a serial link |
US8677176B2 (en) | 2010-12-03 | 2014-03-18 | International Business Machines Corporation | Cable redundancy and failover for multi-lane PCI express IO interconnections |
US9077624B2 (en) * | 2012-03-07 | 2015-07-07 | International Business Machines Corporation | Diagnostics in a distributed fabric system |
JP6069897B2 (ja) | 2012-06-05 | 2017-02-01 | 富士通株式会社 | データ伝送装置、およびデータ伝送方法 |
US9325449B2 (en) * | 2013-12-06 | 2016-04-26 | Intel Corporation | Lane error detection and lane removal mechanism to reduce the probability of data corruption |
-
2014
- 2014-03-28 JP JP2014069111A patent/JP6331574B2/ja active Active
-
2015
- 2015-02-24 US US14/629,881 patent/US9619347B2/en active Active
- 2015-02-26 EP EP15156826.8A patent/EP2924583B1/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007159063A (ja) * | 2005-12-08 | 2007-06-21 | Nec Corp | ネットワークコントローラの障害処理装置、リンク障害時パケット転送システムおよび方法 |
US20100162033A1 (en) * | 2008-12-22 | 2010-06-24 | Kye-Hyun Ahn | Ethernet apparatus capable of lane fault recovery and methods for transmitting and receiving data |
US20110320881A1 (en) * | 2010-06-24 | 2011-12-29 | International Business Machines Corporation | Isolation of faulty links in a transmission medium |
WO2013125621A1 (ja) * | 2012-02-22 | 2013-08-29 | 日本電信電話株式会社 | マルチレーン伝送装置及びマルチレーン伝送方法 |
WO2013145240A1 (ja) * | 2012-03-29 | 2013-10-03 | 富士通株式会社 | 情報処理装置及び情報処理装置制御方法 |
US20140078894A1 (en) * | 2012-09-17 | 2014-03-20 | Electronics And Telecommunications Research Institute | Lane fault recovery apparatus and method |
Also Published As
Publication number | Publication date |
---|---|
JP6331574B2 (ja) | 2018-05-30 |
US9619347B2 (en) | 2017-04-11 |
EP2924583B1 (en) | 2017-01-25 |
EP2924583A1 (en) | 2015-09-30 |
US20150278043A1 (en) | 2015-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11620175B2 (en) | Method and apparatus for disconnecting link between PCIe device and host | |
WO2019056899A1 (zh) | Oam消息传输方法、传输设备及存储介质 | |
US10348616B2 (en) | Packet transmission method and apparatus, and interconnect interface | |
CN104620542A (zh) | 具有灵活数据速率的控制器局域网 | |
JP5977437B2 (ja) | バスシステムの加入者局、及び、バスシステムの加入者間でメッセージを伝送する方法 | |
US10419035B2 (en) | Use of multiple cyclic redundancy codes for optimized fail isolation | |
US20130003751A1 (en) | Method and system for exponential back-off on retransmission | |
JP6331574B2 (ja) | 情報処理装置、並列計算機システムおよび並列計算機システムの制御方法 | |
WO2007002892A1 (en) | Data packet reconstruction in link-based interconnects with retransmission | |
US20140108878A1 (en) | Method, Apparatus, and System for Retransmitting Data Packet in Quick Path Interconnect System | |
EP2157723B1 (en) | Data retransmission method and system | |
EP2391042B1 (en) | Efficient error handling on a link using ARQ and multiple NACKs associated with multiple error thresholds | |
WO2014091663A1 (en) | Detecting and isolating dropped or out-of-order packets in communication networks | |
JP2013009045A (ja) | 伝送システム、伝送装置および伝送装置の制御方法 | |
JP6458494B2 (ja) | 情報処理装置、情報処理システムおよび通信装置 | |
TW201512832A (zh) | 快照訊息技術 | |
CN109039761B (zh) | 集群控制通道中故障链路处理方法和装置 | |
CN107332697B (zh) | 一种故障检测方法及装置 | |
JP2012085244A (ja) | シリアル伝送装置、情報処理装置、及びシリアル伝送方法 | |
KR100995621B1 (ko) | 에러 제어 장치 | |
WO2017000737A1 (zh) | 一种传输校验方法、节点、系统与计算机存储介质 | |
US9755888B2 (en) | Information processing device, information processing system, and communication device | |
US20100208581A1 (en) | Data transfer system, data transmitting device, data receiving device and data transfer method | |
JP2016052074A (ja) | 通信装置 | |
JP2021144614A (ja) | インタフェース制御装置、情報処理システムおよびインタフェース制御装置の制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161206 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20170803 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20170803 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20170804 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170911 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171129 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20180214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180219 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20180219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180403 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180416 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6331574 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |