JP2021144614A - Interface control unit, information process system, and method of controlling interface control unit - Google Patents
Interface control unit, information process system, and method of controlling interface control unit Download PDFInfo
- Publication number
- JP2021144614A JP2021144614A JP2020044409A JP2020044409A JP2021144614A JP 2021144614 A JP2021144614 A JP 2021144614A JP 2020044409 A JP2020044409 A JP 2020044409A JP 2020044409 A JP2020044409 A JP 2020044409A JP 2021144614 A JP2021144614 A JP 2021144614A
- Authority
- JP
- Japan
- Prior art keywords
- link
- recovery
- interface
- control unit
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Maintenance And Management Of Digital Transmission (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Small-Scale Networks (AREA)
Abstract
Description
本発明は、インタフェース制御装置、情報処理システムおよびインタフェース制御装置の制御方法に関する。 The present invention relates to an interface control device, an information processing system, and a control method for the interface control device.
二重化ネットワークで接続された複数の情報処理装置において、一方のネットワークの異常を検出した受信側の情報処理装置は、他方のネットワークを介して送信側の情報処理装置に異常発生通知を行う。送信側の情報処理装置は、他方のネットワークを介して、異常が発生したネットワークに対してコネクションレス型で診断テキストを所定周期で送信し続ける。そして、送信側の情報処理装置は、受信側の情報処理装置から診断テキストに対する正常応答を受信すると、異常が発生したネットワークを正常復旧させる(例えば、特許文献1参照)。 In a plurality of information processing devices connected by a redundant network, the information processing device on the receiving side that detects an abnormality in one network notifies the information processing device on the transmitting side of the occurrence of an abnormality via the other network. The information processing device on the transmitting side continues to transmit the diagnostic text in a connectionless type at a predetermined cycle to the network in which the abnormality has occurred via the other network. Then, when the information processing device on the transmitting side receives a normal response to the diagnostic text from the information processing device on the receiving side, the network in which the abnormality has occurred is normally restored (see, for example, Patent Document 1).
二重のループ状のデータ伝送路に接続された複数のデータ伝送装置を含むデータ伝送系において、ループ監視装置は、データ伝送系の障害時に、ループバック保持時間を指定して、ループバックの指示を障害箇所の前後のデータ伝送装置に与える。各データ伝送装置は、障害復旧時に復旧信号をループバック状態のデータ伝送装置に送出し、ループバック中に復旧信号を受信し、かつループバック保持時間が経過している場合、復旧可能の応答信号を返送する。そして、各データ伝送装置は、応答信号が正常に受信されたことを確認後、ループバックを解除する(例えば、特許文献2参照)。 In a data transmission system including a plurality of data transmission devices connected to a double loop-shaped data transmission line, the loop monitoring device specifies a loopback holding time and indicates a loopback when the data transmission system fails. Is given to the data transmission device before and after the faulty part. Each data transmission device sends a recovery signal to the data transmission device in the loopback state at the time of failure recovery, receives the recovery signal during the loopback, and if the loopback holding time has elapsed, a recoverable response signal. Will be returned. Then, each data transmission device releases the loopback after confirming that the response signal has been normally received (see, for example, Patent Document 2).
標準リンクと冗長リンクとを含み、複数の端末を有する通信ネットワークシステムでは、検出手段により標準リンクの障害が検出されると、冗長リンクに接続されたインタフェースがメッセージの転送を引き継ぐように制御される(例えば、特許文献3参照)。 In a communication network system having a plurality of terminals including a standard link and a redundant link, when a detection means detects a failure of the standard link, the interface connected to the redundant link is controlled to take over the message transfer. (See, for example, Patent Document 3).
2系統の通信インタフェースを介して接続される一対の情報処理装置の各々が、通信インタフェース毎に、通信を制御するインタフェース制御部を有する場合、2系統の通信インタフェースを並列に使用して情報を通信可能である。例えば、2系統の通信インタフェースで並列に情報を通信中に、一方の通信インタフェースで障害が発生した場合、情報処理装置のファームウェアが管理用のネットワークを使用して障害の復旧処理を実行する。ファームウェアにより障害の復旧処理を実行する場合、ハードウェアによる制御で障害の復旧処理を実行する場合に比べて復旧時間が長くなり、復旧時間が長くなるほど、情報処理装置の性能は低下する。 When each of the pair of information processing devices connected via the two communication interfaces has an interface control unit that controls communication for each communication interface, the two communication interfaces are used in parallel to communicate information. It is possible. For example, when information is being communicated in parallel by two communication interfaces and a failure occurs in one of the communication interfaces, the firmware of the information processing device executes the failure recovery process using the management network. When the failure recovery process is executed by the firmware, the recovery time becomes longer than when the failure recovery process is executed by hardware control, and the longer the recovery time, the lower the performance of the information processing device.
1つの側面では、本発明は、一対の情報処理装置を接続する2系統の通信インタフェースの一方がリンクダウンした場合、リンクを迅速に復旧することを目的とする。 On one side, the present invention aims to quickly restore a link when one of the two communication interfaces connecting a pair of information processing devices is linked down.
一つの観点によれば、インタフェース制御装置は、2系統の通信インタフェースを介して接続される一対の情報処理装置の一方に含まれ、前記通信インタフェースによる他方の情報処理装置との通信を制御するインタフェース制御装置であって、前記通信インタフェースのリンクダウンの検出処理を実行し、前記通信インタフェースのいずれかのリンクダウンを検出した場合、または、前記通信インタフェースの一方を介して前記他方の情報処理装置から、前記通信インタフェースの他方で発生したリンクダウンの通知を受けた場合、ダウンしたリンクの復旧処理を実行し、リンクを復旧させる復旧制御指示を前記通信インタフェースの一方を介して他方の情報処理装置に送信する。 According to one viewpoint, the interface control device is included in one of a pair of information processing devices connected via two communication interfaces, and is an interface that controls communication with the other information processing device by the communication interface. When the control device executes a link-down detection process of the communication interface and detects a link-down of any of the communication interfaces, or from the other information processing device via one of the communication interfaces. When the notification of the link down occurring on the other side of the communication interface is received, the recovery process of the downed link is executed, and the recovery control instruction for recovering the link is sent to the other information processing device via one of the communication interfaces. Send.
1つの側面では、本発明は、一対の情報処理装置を接続する2系統の通信インタフェースの一方がリンクダウンした場合、リンクを迅速に復旧することができる。 On one side, the present invention can quickly restore a link if one of the two communication interfaces connecting the pair of information processing devices is linked down.
以下、図面を用いて実施形態が説明される。 Hereinafter, embodiments will be described with reference to the drawings.
図1は、一実施形態における情報処理システムの一例を示す。図1に示す情報処理システムSYS1は、例えば、2系統の高速シリアルインタフェースSIFa、SIFb(リンク)を介して互いに接続された一対の情報処理装置10、20を有する。例えば、シリアルインタフェースSIF(SIFa、SIFb)は、10Gインタフェースである。高速シリアルインタフェースSIFは、通信インタフェースの一例であり、以下では、シリアルインタフェースと称する。
FIG. 1 shows an example of an information processing system according to an embodiment. The information processing system SYS1 shown in FIG. 1 has, for example, a pair of
情報処理装置10は、計算処理を実行するコア部12と、相手の情報処理装置20との間での通信を制御するインタフェース制御装置14とを有する。インタフェース制御装置14は、シリアルインタフェースSIFa、SIFbの各々に接続されたインタフェース制御部14a、14bを有する。インタフェース制御部14a、14bは、復旧制御用の通信インタフェースRIFを介して互いに接続される。コア部12は、縮退制御用の通信インタフェースDIFを介してインタフェース制御部14a、14bにそれぞれ接続される。
The
情報処理装置20は、図示しない記憶装置への情報の入出力を制御するコア部22と、相手の情報処理装置10との間での通信を制御するインタフェース制御装置24とを有する。インタフェース制御装置24は、シリアルインタフェースSIFa、SIFbの各々に接続されたインタフェース制御部24a、24bを有する。インタフェース制御部24a、24bは、復旧制御用の通信インタフェースRIFを介して互いに接続される。コア部22は、縮退制御用の通信インタフェースDIFを介してインタフェース制御部24a、24bにそれぞれ接続される。
The
インタフェース制御部14a、24aは、送信経路と受信経路とを有するシリアルインタフェースSIFaを介して互いに接続される。インタフェース制御部14b、24bは、送信経路と受信経路とを有するシリアルインタフェースSIFbを介して互いに接続される。すなわち、情報処理装置10、20は、2系統のシリアルインタフェースSIFを使用してデータ等の情報を送受信可能である。
The
情報処理装置10、20は、2系統のシリアルインタフェースSIFを使用可能な通常モードでは、2系統のシリアルインタフェースSIFを使用して情報を送受信する。情報処理装置10、20は、シリアルインタフェースSIFの一方がリンクダウンしている縮退モードでは、シリアルインタフェースSIFの他方のみを使用して情報を送受信する。
The
情報処理装置10は、図1にX印で示すように、2系統のシリアルインタフェースSIFのいずれかがリンクダウンした場合、情報処理装置20に指示してリンクダウンの復旧処理を主体的に実行する主体情報処理装置として動作する。情報処理装置20は、2系統のシリアルインタフェースSIFのいずれかがリンクダウンした場合、情報処理装置10からの指示に基づいて、復旧処理を従属的に実行する従属情報処理装置として動作する。図1に示す例では、シリアルインタフェースSIFaがリンクダウンする。
As shown by the X mark in FIG. 1, the
リンクダウンしたシリアルインタフェースSIFaは、リンクの復旧処理に使用できない。このため、インタフェース制御部14aは、図1に太い矢印で示すように、インタフェース制御部14b、24bを経由して、正常に動作するシリアルインタフェースSIFbを介してインタフェース制御部24aと通信し、リンクの復旧処理を実行する。
The linked down serial interface SIFa cannot be used for link recovery processing. Therefore, as shown by a thick arrow in FIG. 1, the
図2は、図1の情報処理システムSYS1の動作の一例を示す。すなわち、図2は、情報処理システムSYS1のインタフェース制御装置14、24の制御方法の一例を示す。図2では、情報処理システムSYS1がシリアルインタフェースSIFa、SIFbを使用して通常モードで通信を実行中にシリアルインタフェースSIFaがリンクダウンする。情報処理装置20のインタフェース制御部24aは、リンクダウンの検出処理を実行し、情報処理装置10のインタフェース制御部14aよりも前にリンクダウンを検出する。
FIG. 2 shows an example of the operation of the information processing system SYS1 of FIG. That is, FIG. 2 shows an example of a control method of the
リンクダウンを検出したインタフェース制御部24aは、通信インタフェースDIFを介してコア部22にリンクの縮退処理を指示する。また、インタフェース制御部24aは、通信インタフェースRIFを介してインタフェース制御部24bにリンクダウンを通知する。リンクダウンの通知を受けたインタフェース制御部24bは、シリアルインタフェースSIFbを介して情報処理装置10のインタフェース制御部14bにリンクダウンを通知する。
The
インタフェース制御部14bは、インタフェース制御部24bからリンクダウンの通知を受けた場合、通信インタフェースRIFを介してインタフェース制御部14aにリンクダウンを通知する。リンクダウンの通知を受けたインタフェース制御部14aは、通信インタフェースDIFを介してコア部12にリンクの縮退処理を指示する。これにより、情報処理システムSYS1は、通常モードから縮退モードに遷移し、通信インタフェースRIFaのリンクダウンが復旧するまでの間、通信インタフェースRIFbを使用して通信を実行する。
When the interface control unit 14b receives the link down notification from the
また、インタフェース制御部14aは、通信インタフェースRIFを介してインタフェース制御部14bに復旧制御指示を通知し、ダウンしたリンクの復旧処理を開始する。インタフェース制御部14bは、正常なシリアルインタフェースSIFbを介してインタフェース制御部24bに復旧制御指示を送信する。インタフェース制御部24bは、受信した復旧制御指示を、通信インタフェースRIFを介してインタフェース制御部24aに通知する。インタフェース制御部24aは、復旧制御指示の受信に基づいて復旧処理を開始し、復旧制御指示に対応する復旧応答を、通信インタフェースRIFを介してインタフェース制御部24bに通知する。
Further, the
インタフェース制御部24bは、インタフェース制御部24aから受けた復旧応答を、シリアルインタフェースSIFbを介してインタフェース制御部14bに送信する。インタフェース制御部14bは、受信した復旧応答を、通信インタフェースRIFを介してインタフェース制御部14aに通知する。復旧応答を受けたインタフェース制御部14aは、次の復旧制御指示をインタフェース制御部14b、24bを介してインタフェース制御部24aに送信する。そして、復旧制御指示と復旧応答とが所定数繰り返されることで、ダウンしたリンクの復旧が完了する。
The
リンクの復旧が完了した場合、インタフェース制御部14aは、コア部12に復旧完了通知を発行する。復旧完了通知を受けたコア部12は、縮退を解除する処理を実行する。同様に、リンクの復旧が完了した場合、インタフェース制御部24aは、コア部22に復旧完了通知を発行する。復旧完了通知を受けたコア部22は、縮退を解除する処理を実行する。そして、情報処理システムSYS1は、縮退モードから通常モードに復帰し、情報処理装置10、20は、シリアルインタフェースSIFa、SIFbを使用した情報の送受信を再開する。
When the restoration of the link is completed, the
図3は、図1の情報処理システムSYS1の動作の別の例を示す。すなわち、図3は、情報処理システムSYS1のインタフェース制御装置14、24の制御方法の一例を示す。図2と同様の動作については、詳細な説明は省略する。図3に示す例では、図2と同様に、情報処理システムSYS1が通常モードで動作中にシリアルインタフェースSIFaがリンクダウンする。但し、情報処理装置10のインタフェース制御部14aが、リンクダウンの検出処理を実行し、情報処理装置20のインタフェース制御部24aよりも前にリンクダウンを検出する。
FIG. 3 shows another example of the operation of the information processing system SYS1 of FIG. That is, FIG. 3 shows an example of a control method of the
リンクダウンを検出したインタフェース制御部14aは、通信インタフェースDIFを介してコア部12にリンクの縮退処理を指示する。また、インタフェース制御部14aは、通信インタフェースRIFを介してインタフェース制御部14bに復旧制御指示を通知し、ダウンしたリンクの復旧処理を開始する。インタフェース制御部14bは、正常なシリアルインタフェースSIFbを介してインタフェース制御部24bに復旧制御指示を送信する。
The
インタフェース制御部24bは、受信した復旧制御指示を、通信インタフェースRIFを介してインタフェース制御部24aに通知する。復旧制御指示を受信したインタフェース制御部24aは、通信インタフェースDIFを介してコア部22にリンクの縮退処理を指示する。また、インタフェース制御部24aは、復旧制御指示の受信に基づいて復旧処理を開始し、復旧制御指示に対応する復旧応答を、通信インタフェースRIFを介してインタフェース制御部24bに通知する。
The
インタフェース制御部24bは、インタフェース制御部24aから受けた復旧応答を、シリアルインタフェースSIFbを介してインタフェース制御部14bに送信する。インタフェース制御部14bは、受信した復旧応答を、通信インタフェースRIFを介してインタフェース制御部14aに通知する。復旧応答を受けたインタフェース制御部14aは、次の復旧制御指示をインタフェース制御部14b、24bを介してインタフェース制御部24aに送信する。そして、図2と同様に、復旧制御指示と復旧応答とが所定数繰り返されることで、ダウンしたリンクの復旧が完了する。
The
この実施形態では、シリアルインタフェースSIFa、SIFbの一方がリンクダウンした場合、縮退された正常なシリアルインタフェースSIFa、SIFbの他方を使用して、復旧制御指示および復旧応答が送受信される。例えば、リンクダウンしたシリアルインタフェースSIFaに対応するインタフェース制御部14a、24aは、復旧制御指示および復旧応答をインタフェース制御部14b、24bを迂回して、正常なシリアルインタフェースSIFbを使用して送受信する。
In this embodiment, when one of the serial interfaces SIFa and SIFb is linked down, the recovery control instruction and the recovery response are transmitted and received using the other of the degenerate normal serial interfaces SIFa and SIFb. For example, the
この際、インタフェース制御部14a、14b間は、通信インタフェースRIFを介して復旧制御指示および復旧応答を送受信可能である。インタフェース制御部24a、24b間は、通信インタフェースRIFを介して復旧制御指示および復旧応答を送受信可能である。したがって、ダウンしたリンクの復旧を、情報処理装置10、20に搭載されるサービスプロセッサが実行するファームウェア等を使用することなく、インタフェース制御部14a、14b、24a、24b(すなわち、ハードウェア)により実行することができる。
At this time, the
この結果、この実施形態では、ファームウェアによりリンクを復旧する場合に比べて、リンクを迅速に復旧することができ、リンクダウン期間を最小限にすることができ、情報処理システムSYS1の性能の低下期間を最小限にすることができる。すなわち、一対の情報処理装置10、20を接続する2系統の通信インタフェースの一方がリンクダウンした場合、リンクを迅速に復旧することができる。また、リンクダウンの期間を最小限にできるため、情報を1系統のみで送受信する期間を最小限にすることができ、残りの1系統がリンクダウンすることでシステムダウンするリスクを軽減することができる。
As a result, in this embodiment, the link can be restored more quickly, the link down period can be minimized, and the performance deterioration period of the information processing system SYS1 can be minimized, as compared with the case where the link is restored by the firmware. Can be minimized. That is, when one of the two communication interfaces connecting the pair of
図4は、別の実施形態における情報処理システムの一例を示す。図1と同様の要素については、同様の符号を付し、詳細な説明は省略する。図4に示す情報処理システムSYS2は、例えば、8つのクラスタ100(#0〜#7)と4つのSSU(System Storage Unit)500(#0〜#3)を有する。各クラスタ100は、CPU(Central Processing Unit)110および管理装置120を有する。各SSU500は、ASIC(Application Specific Integrated Circuit)510、管理装置520および記憶装置530を有する。
FIG. 4 shows an example of an information processing system according to another embodiment. The same elements as those in FIG. 1 are designated by the same reference numerals, and detailed description thereof will be omitted. The information processing system SYS2 shown in FIG. 4 has, for example, eight clusters 100 (# 0 to # 7) and four SSUs (System Storage Units) 500 (# 0 to # 3). Each
各CPU110は、各クラスタ100の全体を制御し、各ASIC510は、各SSU500の全体を制御する。また、各クラスタ100の管理装置120と各SSU500の管理装置520とは、LAN(Local Area Network)インタフェース等の管理バスMBUSを介して互いに接続される。例えば、管理装置120、520は、BMC(Baseboard Management Controller)またはiRMC(integrated Remote Management Controller)等のサービスプロセッサであり、ファームウェアを実行することで互いに通信可能である。記憶装置530は、例えば、DIMM(Dual Inline Memory Module)等のメモリモジュールであるが、メモリの種類は、SDRAM(Synchronous Dynamic Random Access Memory)に限定されない。
Each
各クラスタ100は、シリアルインタフェースSIFを介して4つのSSU500に接続される。図1に示す1本のシリアルインタフェースSIFは、図1の4本のシリアルインタフェースSIFa、SIFbに対応する。なお、情報処理システムSYS2に搭載されるクラスタ100の数とSSU500の数は、図4に限定されない。例えば、シリアルインタフェースSIFは、10Gインタフェースである。以下では、8つのクラスタ100および3つのSSU500をそれぞれ識別可能にするために、クラスタ#0〜クラスタ#7およびSSU#0〜SSU#3と称する場合がある。
Each
各クラスタ100は、シリアルインタフェースSIFa、SIFbのいずれかがリンクダウンした場合、対応するSSU500に指示してリンクダウンの復旧処理を主体的に実行する主体情報処理装置の一例である。各SSU500は、シリアルインタフェースSIFa、SIFbのいずれかがリンクダウンした場合、対応するクラスタ100からの指示に基づいて、復旧処理を従属的に実行する従属情報処理装置の一例である。
Each
図5は、図4のクラスタ100とSSU500との接続の一例を示す。図5では、クラスタ#0とSSU#0との接続を例示するが、他のクラスタ#1〜#7と他のSSU#1〜#3との接続も同様である。各クラスタ#0〜#7は、各SSU#0〜#3の各々に接続される4組のインタフェース制御部300a、300bを有する。各SSU#0〜#3は、各クラスタ#0〜#7の各々に接続される7組のインタフェース制御部700a、700bを有する。一対のインタフェース制御部300(300a、300b)は、インタフェース制御装置の一例であり、一対のインタフェース制御部700(700a、700b)は、インタフェース制御装置の一例である。
FIG. 5 shows an example of the connection between the
以下では、各クラスタ#0〜#7に設けられるインタフェース制御部300を符号MMijで示し、各SSU#0〜#3に設けられるインタフェース制御部700を符号SMmnで示す。符号iは、接続されるSSU500の番号を示し、符号jは、シリアルインタフェースSIFの識別符号(aまたはb)を示す。符号mは、接続されるクラスタ100の番号を示し、符号nは、シリアルインタフェースSIFの識別符号(aまたはb)を示す。
In the following, the
例えば、クラスタ#0のインタフェース制御部MM0a、MM0bは、SSU#0のインタフェース制御部SM0a、SM0bに接続される。クラスタ#0のインタフェース制御部MM3a、MM3bは、図示しないSSU#3のインタフェース制御部SM0a、SM0bに接続される。SSU#0のインタフェース制御部SM7a、SM7bは、図示しないクラスタ#7のインタフェース制御部MM0a、MM0bに接続される。
For example, the interface control units MM0a and MM0b of
図6は、図5のクラスタ#0およびSSU#0の内部構成の一例を示す。図1と同様の要素については、図1と同様の符号を付し、詳細な説明は省略する。以下では、クラスタ#0およびSSU#0の内部構成を説明するが、他のクラスタ#1〜#7および他のSSU#0〜#3の内部構成も、図6と同様である。
FIG. 6 shows an example of the internal configuration of
クラスタ#0のCPU110は、計算処理を実行するコア部200と、SSU#0〜#3の各々に接続される4組のインタフェース制御部MMijとを有する。コア部200と各インタフェース制御部MMijとは、縮退制御用の通信インタフェースDIFを介して互いに接続される。インタフェース制御部MMia、MMib間は、復旧制御用の通信インタフェースRIFを介して互いに接続される。破線の枠で囲った通信インタフェースRIFの2本の線は、通信インタフェースRIFa、RIFbをそれぞれ示す。
The
SSU#0のASIC510は、記憶装置530へのデータの読み書きを制御するコア部600と、クラスタ#0〜#7の各々に接続される8組のインタフェース制御部SMmnとを有する。コア部600と各インタフェース制御部MMmnとは、縮退制御用の通信インタフェースDIFを介して互いに接続される。インタフェース制御部MMma、MMmb間は、復旧制御用の通信インタフェースRIFを介して互いに接続される。
The
図7は、図5のクラスタ100に設けられる各インタフェース制御部300の一例を示す。図7において、符号FFは、フリップフロップ回路を示し、符号SYNCは、通信インタフェースRIFを介して接続されるインタフェース制御部300との間でクロックを同期化させる同期化回路を示す。クラスタ100に設けられるインタフェース制御部300の動作の例は、図10から図12に示す。
FIG. 7 shows an example of each
インタフェース制御部300は、復旧パケット送信部402、復旧パケット生成部404、通常パケット送信部406、パケット挿入部408および通信インタフェース部410(PHY)を有する。インタフェース制御部300は、復旧シーケンス制御部412、イネーブル部414、エラー検出部416、パケット判定部418、復旧パケット受信部420および通常パケット受信部422を有する。インタフェース制御部300は、縮退指示部426、コア通知部428、モジュール間制御部430およびオア回路432を有する。
The
復旧パケット送信部402は、通信インタフェースRIFを介して隣接するインタフェース制御部300から受信するリンクダウン通知またはリンクの復旧用通知を、対向するSSU500(送信先)に送信するために復旧パケット生成部404に出力する。例えば、リンクダウン通知およびリンクの復旧用通知は、後述する復旧制御指示(***_req_send)である。図6の右下の凡例に示すように、符号***は、interface_disable、reset、lock_detect、interface_enableまたはlink_downのいずれである。
The recovery
interface_disableは、対応するシリアルインタフェースSIFの抑止(PHY410(リンク)のディセーブル)を示す。resetは、シリアルインタフェースSIFを制御するPHY410等の回路のリセットを示す。lock_detectは、シリアルインタフェースSIFのリンクアップの確認(PHY410のロックステータスの検出)を示す。interface_enableは、シリアルインタフェースSIFの有効化(PHY410(リンク)のイネーブル)を示す。link_downは、シリアルインタフェースSIFのリンクダウンを示す。 interface_disable indicates suppression of the corresponding serial interface SIF (disable PHY410 (link)). reset indicates a reset of a circuit such as PHY410 that controls the serial interface SIF. lock_detect indicates confirmation of link-up of serial interface SIF (detection of lock status of PHY410). interface_enable indicates the activation of the serial interface SIF (enable PHY410 (link)). link_down indicates the link down of the serial interface SIF.
復旧パケット生成部404は、復旧パケット送信部402からの復旧制御指示を用いて復旧パケットを生成し、生成した復旧パケットをパケット挿入部408に出力する。復旧パケット送信部402および復旧パケット生成部404は、復旧制御送信部の一例である。
The recovery
通常パケット送信部406は、通信インタフェースDIFを介してコア部200から受信する通常パケット(例えば、8バイト幅のデータ)を保持するRAM(SYNC)を有する。通常パケット送信部406は、RAM(SYNC)に保持した通常パケットをパケット挿入部408に順次出力する。
The normal
パケット挿入部408は、通常パケット送信部406から受信する通常パケットをPHY410に順次出力する。また、パケット挿入部408は、復旧パケット生成部404から復旧パケットを受信した場合、通常パケットの出力の合間に復旧パケットを挿入し、PHY410に出力する。これにより、縮退したリンクを使用して通常パケットを送受信しながら、復旧パケットをSSU500に送信することができる。復旧パケットについては、図13で説明する。
The
通信インタフェース部410(PHY)は、いわゆる物理層としての機能を有する。PHY410は、パケット挿入部408から転送されるパケット(パラレルデータ)をシリアルデータに変換し、シリアルインタフェースSIFを介して送信先のSSU500に送信する。また、PHY410は、シリアルインタフェースSIFを介してSSU500から受信したシリアルデータをパラレルデータに変換し、イネーブル部414に出力する。
The communication interface unit 410 (PHY) has a function as a so-called physical layer. The
なお、PHY410は、復旧シーケンス制御部412からリセット信号reset(tx/rx)を受信した場合、内部回路をリセットし、初期化する。内部回路のリセットは、リセット信号resetの内容に応じて、送信部(tx)および受信部(rx)の一方または両方で実行される。また、PHY410は、リンクのロック状態をlock_statusとして復旧シーケンス制御部412に出力する。
When the PHY410 receives the reset signal reset (tx / rx) from the recovery
復旧シーケンス制御部412は、PHY410に接続されたシリアルインタフェースSIFのリンクダウンが検出された場合、リンクの復旧シーケンスを実行する。復旧シーケンスは、リンクダウンを検出した場合(link_down_det)、または、モジュール間制御部430を介して対向するSSU500からリンクダウンの通知(link_down_req_send)を受信した場合に実行される。復旧シーケンス制御部412は、リンクの復旧処理を制御する復旧制御部の一例である。
When the link down of the serial interface SIF connected to the
イネーブル部414は、復旧シーケンス制御部412から出力されるインタフェースイネーブル信号(interface_enable)が有効レベルを示す場合、PHY410から出力されるパケットをエラー検出部416に出力する。イネーブル部414は、復旧シーケンス制御部412から出力されるインタフェースイネーブル信号が無効レベルを示す場合、PHY410から出力されるパケットのエラー検出部416への出力を抑止する。
When the interface enable signal (interface_enable) output from the recovery
エラー検出部416は、対向するSSU500から受信したパケットに含まれるエラーを検出する。エラー検出部416は、リンクダウンを検出した場合、復旧シーケンス制御部412とオア回路432とにリンクダウン検出信号link_down_detを出力する。また、エラー検出部416は、SSU500から受信したパケットをパケット判定部418に出力する。
The
パケット判定部418は、エラー検出部416からのパケットが復旧応答を示す場合(***_end_recv)、パケットを復旧パケット受信部420に出力する。パケット判定部418は、エラー検出部416からのパケットがリンクダウンの通知を示す場合(link_down_req_recv)、パケットを復旧シーケンス制御部412に出力する。
When the packet from the
復旧パケット受信部420は、パケット判定部418が判定した復旧応答(***_end_recv)を、通信インタフェースRIFを介して、隣接するインタフェース制御部300に出力する。インタフェース制御部300の復旧パケット受信部420は、受信通知部の一例である。
The recovery
通常パケット受信部422は、PHY410を介してSSU500から順次受信する通常パケットを保持するRAM(SYNC)を有する。通常パケット受信部422は、RAM(SYNC)に保持したパケット(例えば、8バイト幅のデータ)を、通信インタフェースDIFを介してコア部200に出力する。
The normal
オア回路432は、エラー検出部416からのリンクダウン検出信号link_down_detまたは復旧シーケンス制御部412からのリンクダウン受信信号link_down_recvを縮退指示部426に出力する。
The or
縮退指示部426は、オア回路432からのリンクダウン検出信号link_down_detまたはリンクダウン受信信号link_down_recvに基づいて、通信インタフェースDIFを介してコア部200にリンクの縮退を指示する。すなわち、縮退指示部426は、エラー検出部416によるリンクダウンの検出時、または、シリアルインタフェースSIFを介して接続される対向のインタフェース制御部700からのリンクダウンの通知に基づいてリンクの縮退をコア部200に指示する。
The
コア通知部428は、復旧シーケンス制御部412がリンクの復旧処理後に出力するリスタート信号re_startを、通信インタフェースDIFを介してコア部200に出力する。また、コア通知部428は、復旧シーケンス制御部412がリンクの復旧処理を失敗した場合に出力するリンク閉塞信号link_quietを、通信インタフェースDIFを介してコア部200に出力する。
The
モジュール間制御部430は、復旧シーケンス制御部412がリンクの復旧処理時に出力する復旧制御指示***_req_sendを、通信インタフェースRIFを介して、隣接するインタフェース制御部300に出力する。モジュール間制御部430は、通信インタフェースRIFを介して、隣接するインタフェース制御部300から受信する復旧応答(***_end_recv)を復旧シーケンス制御部412に出力する。モジュール間制御部430は、通信インタフェースRIFを介して、隣接するインタフェース制御部300から受信するリンクダウンの通知(link_down_req_recv)を復旧シーケンス制御部412に出力する。
The
図8は、図5のSSU500に設けられるインタフェース制御部700の一例を示す。図7と同様の要素については、同じ符号を付し、詳細な説明は省略する。SSU500に設けられるインタフェース制御部700の動作の例は、図10から図12に示す。
FIG. 8 shows an example of the
インタフェース制御部700は、図7のインタフェース制御部300の復旧シーケンス制御部412の代わりに復旧処理部413を有し、図7のインタフェース制御部300のPHY410の代わりにPHY710を有する。PHY710の機能は、PHY410の機能と同じである。
The
また、インタフェース制御部700は、インタフェース制御部300にはないリンクダウン通知部424を有する。インタフェース制御部700のその他のブロック構成は、インタフェース制御部300のブロック構成と同様である。以下では、インタフェース制御部300の機能と異なる機能を有するブロックについて説明する。
Further, the
復旧パケット送信部402は、隣接するインタフェース制御部700から通信インタフェースRIFを介して受信するリンクダウン通知またはリンクの復旧用応答を、対向するクラスタ100(送信先)に送信するために復旧パケット生成部404に出力する。ここで、リンクダウン通知は、link_down_req_sendであり、復旧用応答は、***_end_sendである。
The recovery
パケット挿入部408は、復旧パケット生成部404からリンクダウンの通知パケットまたはリンクの復旧応答パケットを受信した場合、通常パケットの出力の合間にリンクダウンの通知パケットまたはリンクの復旧応答パケットを挿入し、PHY410に出力する。これにより、縮退したリンクを使用して通常パケットを送受信しながら、リンクダウンの通知パケットまたはリンクの復旧応答パケットをSSU500に送信することができる。
When the
リンクダウン通知部424は、リンクダウンを検出したエラー検出部416が出力するリンクダウン検出信号link_down_detをリンクダウン通知link_down_req_sendとして受信する。リンクダウン通知部424は、受信したリンクダウン通知link_down_req_sendを、通信インタフェースRIFを介して、隣接するインタフェース制御部700に出力する。
The link-down
リンクダウン通知部424により、インタフェース制御部700で検出したリンクダウンを、正常に動作するシリアルインタフェースSIFを介して、対向するクラスタ100のインタフェース制御部300に通知することができる。なお、リンクダウンが通知されたインタフェース制御部300は、リンクダウンが発生している、隣接するインタフェース制御部300にリンクダウンを通知し、リンクの復旧処理を実行させる。
The link-down
インタフェース制御部700は、対向するクラスタ100のインタフェース制御部300から復旧応答(***_end_recv)を受信しない。このため、パケット判定部418は、復旧応答(***_end_recv)の判定をせず、復旧制御指示(***_req_recv)を判定して復旧パケット受信部420に出力する。復旧パケット受信部420は、受信した復旧制御指示(***_req_recv)を、通信インタフェースRIFを介して、隣接するインタフェース制御部700に出力する。
The
モジュール間制御部430は、リンクダウンの検出時に復旧処理部413から出力されるリンクダウン通知(link_down_req_send)を、通信インタフェースRIFを介して、隣接するインタフェース制御部700に出力する。モジュール間制御部430は、通信インタフェースRIFを介して、隣接するインタフェース制御部700から出力される復旧制御指示(***_req_recv)を、復旧処理部413に出力する。モジュール間制御部430は、復旧処理部413がリンクの復旧処理時に出力する復旧応答(***_end_send)を、通信インタフェースRIFを介して、隣接するインタフェース制御部700に出力する。
The
復旧処理部413は、エラー検出部416がリンクダウンを検出した場合、対向するクラスタ100にリンクダウン(link_down_req_send)を通知する制御を実行する。また、復旧処理部413は、対向するクラスタ100の復旧シーケンス制御部412から出力される復旧制御指示(***_req_recv)に基づいて、リンクの復旧処理を実行する。そして、復旧処理部413は、復旧制御指示(***_req_recv)に対応する復旧応答(***_end_send)を出力する。復旧処理部413のその他の機能は、リンクの復旧処理を自発的に実行しないことを除き、インタフェース制御部300の復旧シーケンス制御部412の機能と同様である。
When the
図9は、図4の情報処理システムSYS2の動作の一例を示す。すなわち、図9は、情報処理システムSYS2に搭載されるインタフェース制御装置(300a、300b、700a、700b)の制御方法の一例を示す。図2の初期状態において、情報処理装置10、20は、シリアルインタフェースSIFa、SIFbの両方を使用してパケットの送受信を実行している(通常モード)。図2では、シリアルインタフェースSIFaがリンクダウンする例について説明する。
FIG. 9 shows an example of the operation of the information processing system SYS2 of FIG. That is, FIG. 9 shows an example of a control method of the interface control device (300a, 300b, 700a, 700b) mounted on the information processing system SYS2. In the initial state of FIG. 2, the
まず、ステップS10において、シリアルインタフェースSIFaに接続されたインタフェース制御部300a(クラスタ100)またはインタフェース制御部700a(SSU500)のいずれのエラー検出部416が、リンクダウンを検出する。次に、ステップS12において、リンクダウンを検出したクラスタ100またはSSU500は、リンクダウンしたシリアルインタフェースSIFを縮退する。
First, in step S10, either the
次に、ステップS14において、クラスタ100がリンクダウンを検出した場合、ステップS18に移行し、SSU500がリンクダウンを検出した場合、ステップS16に移行する。ステップS16において、SSU500は、クラスタ100にリンクダウンを通知し、ステップS18に移行する。
Next, in step S14, if the
ステップS18において、クラスタ100の復旧シーケンス制御部412は、復旧処理を開始し、復旧パケット生成部404に復旧制御指示パケットを生成させる。なお、SSU500からリンクダウン通知を受信した場合、クラスタ100は、リンクダウンしたシリアルインタフェースSIFを縮退する。
In step S18, the recovery
クラスタ100またはSSU500のいずれがリンクダウンを検出した場合にも、クラスタが主体となりリンクの復旧処理を実行する。これにより、クラスタ100およびSSU500が、リンクアップ処理を互いに独立して開始し、リンクアッププロトコルが崩れてリンクアップできなくなることを抑止することができる。ここで、リンクアッププロトコルとは、シリアルインタフェースに対して、インタフェースディセーブル、初期化、設定、リンク確立の順で制御することを示す。
When either the
クラスタ100は、復旧処理の最初の復旧制御指示パケットとして、リンクダウン通知をSSU500に送信する。なお、復旧制御指示パケットは、縮退していないシリアルインタフェースSIFを使用して、通常パケットの合間に挿入される。
The
次に、ステップS20において、SSU500の復旧処理部413は、クラスタ100から受信した復旧制御指示パケットに基づいて復旧処理を実行し、復旧応答をクラスタ100に送信する。なお、復旧処理部413は、復旧処理の最初に、リンクダウンしたシリアルインタフェースを縮退する。
Next, in step S20, the
次に、ステップS22において、クラスタ100は、復旧処理の全てが完了した場合、ステップS24に移行し、完了していない復旧処理がある場合、処理をステップS18に戻す。ステップS18、S20により、クラスタ100とSSU500とがハンドシェイクで復旧処理を1つずつ進めていくことで、クラスタ100とSSU500との復旧処理を互いに同期して実行することができる。
Next, in step S22, the
ステップS24において、クラスタ100は、リンクダウンしていたシリアルインタフェースSIFの縮退を解除し、復旧処理を完了する。なお、SSU500は、最後の復旧制御指示パケット(interface_enable_req_send)の受信に基づいて、リンクダウンしていたシリアルインタフェースSIFの縮退を解除する。
In step S24, the
図10は、図4の情報処理システムSYS2におけるリンクダウン検出時の処理の一例を示す。すなわち、図10は、情報処理システムSYS2に搭載されるインタフェース制御装置(300a、300b、700a、700b)の制御方法の一例を示す。図10に示す例では、クラスタ#0とSSU#0との間のパケット転送において、クラスタ#0のインタフェース制御部MM0aまたはSSU#0のインタフェース制御部SM0aのいずれかがリンクダウンを検出する。
FIG. 10 shows an example of processing at the time of link down detection in the information processing system SYS2 of FIG. That is, FIG. 10 shows an example of a control method of the interface control device (300a, 300b, 700a, 700b) mounted on the information processing system SYS2. In the example shown in FIG. 10, in the packet transfer between the
なお、図10および後述する図11、図12において、インタフェース制御部MM0b、SM0b間でリンクダウンが発生した場合の復旧シーケンスは、符号MM0a、MM0bを入れ替え、符号SM0a、SM0bを入れ替えることで説明される。また、クラスタ#x(xは、0から3のいずれか)とSSU#y(yは、0から7のいずれか)との間で発生したリンクダウンの復旧シーケンスも、図10、図11、図12と同様である。 In addition, in FIG. 10 and FIGS. 11 and 12 described later, the recovery sequence when a link down occurs between the interface control units MM0b and SM0b is described by replacing the reference numerals MM0a and MM0b and replacing the reference numerals SM0a and SM0b. NS. Also, the link-down recovery sequences that occurred between cluster # x (x is any of 0 to 3) and SSU # y (y is any of 0 to 7) are also shown in FIGS. 10, 11, It is the same as FIG.
ステップS30において、SSU#0のインタフェース制御部SM0aは、自シリアルインタフェースSIFaのリンクダウンを検出した場合、ステップS32を実施する。なお、SSU#0のインタフェース制御部SM0aは、リンクダウンを検出した場合、コア部600に縮退指示を発行する。インタフェース制御部SM0aは、ステップS32において、通信インタフェースRIFを介して接続されたインタフェース制御部SM0bにリンクダウンを通知する。
In step S30, when the interface control unit SM0a of
リンクダウンの通知を受けたインタフェース制御部SM0bは、ステップS34において、通常パケット間にリンクダウンの通知パケットを挿入する。そして、インタフェース制御部SM0bは、正常なシリアルインタフェースSIFbを介して、対向するクラスタ#0のインタフェース制御部MM0bにリンクダウンの通知パケットを送信する。
Upon receiving the link down notification, the interface control unit SM0b inserts the link down notification packet between the normal packets in step S34. Then, the interface control unit SM0b transmits a link-down notification packet to the interface control unit MM0b of the opposing
リンクダウンの通知パケットを受信したインタフェース制御部MM0bは、ステップS36において、通信インタフェースRIFを介して接続されたインタフェース制御部MM0aにリンクダウンの通知パケットを転送する。 Upon receiving the link-down notification packet, the interface control unit MM0b transfers the link-down notification packet to the interface control unit MM0a connected via the communication interface RIF in step S36.
一方、ステップS38において、インタフェース制御部MM0aは、自シリアルインタフェースSIFaのリンクダウンの検出処理を実行する。インタフェース制御部MM0aは、自シリアルインタフェースSIFaのリンクダウンを検出した場合、またはインタフェース制御部MM0bからリンクダウンの通知パケットを受信した場合、ステップS40を実行する。インタフェース制御部MM0aは、ステップS40において、コア部200に縮退指示を発行し、図11に示す復旧処理を開始する。
On the other hand, in step S38, the interface control unit MM0a executes the link down detection process of the own serial interface SIFa. The interface control unit MM0a executes step S40 when it detects a link down of its own serial interface SIFa or receives a link down notification packet from the interface control unit MM0b. In step S40, the interface control unit MM0a issues a degeneracy instruction to the
図11は、図5の情報処理システムSYS2におけるリンクの復旧処理の一例を示す。すなわち、図11は、情報処理システムSYS2に搭載されるインタフェース制御装置(300a、300b、700a、700b)の制御方法の一例を示す。まず、インタフェース制御部MM0aは、ステップS42において、対向するSSU#0のインタフェース制御部SM0aとの間でのシリアルインタフェースSIFaを使用した通信において、エラーの頻度(エラー率)が所定の頻度より高いか否かを判定する。例えば、エラーの頻度は、エラー検出部416により判定される。
FIG. 11 shows an example of the link restoration process in the information processing system SYS2 of FIG. That is, FIG. 11 shows an example of a control method of the interface control device (300a, 300b, 700a, 700b) mounted on the information processing system SYS2. First, in step S42, whether the interface control unit MM0a has an error frequency (error rate) higher than a predetermined frequency in communication using the serial interface SIFa with the interface control unit SM0a of the opposing
エラーの頻度が所定の頻度より高い場合、インタフェース制御部MM0aは、コア部200に異常を通知し、異常処理を実行させ、リンクの復旧処理を終了する。エラーの頻度が所定の頻度以下である場合、インタフェース制御部MM0aは、ステップS44において、インタフェース制御部MM0bに復旧制御指示を通知する。この後、インタフェース制御部MM0aは、ステップS46において、自身のリンクを復旧させる復旧シーケンスを実行し、処理をステップS60に移行する。
When the frequency of the error is higher than the predetermined frequency, the interface control unit MM0a notifies the
通信インタフェースRIFを介して復旧制御指示を受信したインタフェース制御部MM0bは、ステップS48において、通常パケットの間に復旧制御指示のための専用の通知パケットを挿入する。そして、インタフェース制御部MM0bは、正常なシリアルインタフェースSIFbを介して、対向するSSU#0のインタフェース制御部SM0bに復旧制御指示の通知パケットを送信する。
The interface control unit MM0b, which has received the recovery control instruction via the communication interface RIF, inserts a dedicated notification packet for the recovery control instruction between the normal packets in step S48. Then, the interface control unit MM0b transmits a recovery control instruction notification packet to the interface control unit SM0b of the
復旧制御指示の通知パケットを受信したインタフェース制御部SM0bは、ステップS50において、通信インタフェースRIFを介して接続されたインタフェース制御部SM0aに復旧制御指示の通知パケットを転送する。 Upon receiving the recovery control instruction notification packet, the interface control unit SM0b transfers the recovery control instruction notification packet to the interface control unit SM0a connected via the communication interface RIF in step S50.
通信インタフェースRIFを介して復旧制御指示を受信したインタフェース制御部SM0aは、ステップS52において、自身のリンクを復旧させる復旧シーケンスを実行し、処理をステップS54に移行する。インタフェース制御部SM0aは、ステップS54において、復旧制御指示に基づいて実行した復旧シーケンスの完了をインタフェース制御部SM0bに通知する。 Upon receiving the recovery control instruction via the communication interface RIF, the interface control unit SM0a executes a recovery sequence for recovering its own link in step S52, and shifts the process to step S54. In step S54, the interface control unit SM0a notifies the interface control unit SM0b of the completion of the recovery sequence executed based on the recovery control instruction.
復旧シーケンスの完了の通知を受信したインタフェース制御部SM0bは、ステップS56において、通常パケットの間に復旧シーケンスの完了応答パケットを挿入する。そして、インタフェース制御部SM0bは、正常なシリアルインタフェースSIFbを介して、対向するクラスタ#0のインタフェース制御部MM0bに完了応答パケットを送信する。
Upon receiving the notification of the completion of the recovery sequence, the interface control unit SM0b inserts the recovery sequence completion response packet between the normal packets in step S56. Then, the interface control unit SM0b transmits a completion response packet to the interface control unit MM0b of the opposing
復旧シーケンスの完了応答パケットを受信したインタフェース制御部MM0bは、ステップS58において、通信インタフェースRIFを介して接続されたインタフェース制御部MM0aに完了応答通知パケットを転送する。 In step S58, the interface control unit MM0b that has received the completion response packet of the recovery sequence transfers the completion response notification packet to the interface control unit MM0a connected via the communication interface RIF.
インタフェース制御部MM0aは、ステップS60において、完了応答パケットを待ち、完了応答パケットを受信していない場合、ステップS62を実行し、完了応答パケットを受信した場合、ステップS64を実行する。インタフェース制御部MM0aは、ステップS62において、完了応答パケットを受信せずにタイムアウトが発生したか否かを判定する。タイムアウトが発生した場合、インタフェース制御部MM0aは、コア部200に異常を通知し、異常処理を実行させ、リンクの復旧処理を終了する。タイムアウトが発生していない場合、インタフェース制御部MM0aは、ステップS60に戻る。
In step S60, the interface control unit MM0a waits for the completion response packet, executes step S62 if the completion response packet is not received, and executes step S64 if the completion response packet is received. In step S62, the interface control unit MM0a determines whether or not a timeout has occurred without receiving the completion response packet. When a timeout occurs, the interface control unit MM0a notifies the
インタフェース制御部MM0aは、ステップS64において、全ての復旧シーケンスが完了した場合、ステップS66を実行し、実行していない復旧シーケンスがある場合、ステップS44に戻り、次の復旧制御指示をインタフェース制御部MM0bに通知する。このように、インタフェース制御部MM0aは、復旧シーケンスの処理毎に、復旧完了応答を待ってから次の復旧制御指示を発行するハンドシェイク制御を、インタフェース制御部SM0aとの間で実行する。リンクダウンしたリンクの復旧処理を、リンクアッププロトコルにしたがって、クラスタ#0とSSU#0との間で着実に実行することができる。
In step S64, the interface control unit MM0a executes step S66 when all the recovery sequences are completed, returns to step S44 when there is a recovery sequence that has not been executed, and issues the next recovery control instruction to the interface control unit MM0b. Notify to. In this way, the interface control unit MM0a executes handshake control with the interface control unit SM0a for issuing the next recovery control instruction after waiting for the recovery completion response for each processing of the recovery sequence. The link-down link recovery process can be steadily executed between
インタフェース制御部MM0aは、ステップS66において、コア部200にリンクの縮退の解除を指示し、復旧処理を終了する。
In step S66, the interface control unit MM0a instructs the
以上より、リンクダウンが発生した場合、クラスタ#0が主導となり、復旧シーケンスのための専用パケットをリンクアッププロトコルにしたがって生成し、生成した専用パケットを通常パケットの間に割り込ませて、SSU#0に送信する。これにより、正常なシリアルインタフェースSIFを使用して、リンクの復旧するための復旧制御指示を、ハンドシェイク制御でSSU#0に送信することができ、クラスタ#0が主導して、遠隔でSSU#0のリンクを復旧させることができる。
From the above, when a link down occurs,
なお、図4および図5に示す情報処理システムSYS2では、各SSU500には、最大で8台のクラスタ100が接続される。このため、最大で8つのシリアルインタフェースSIFが同時にリンクダウンする可能性がある。例えば、管理装置520のサービスプロセッサが実行するファームウェアを使用してリンクの復旧処理を実行する場合、シリアルインタフェースSIF毎にリンクが順次復旧される。
In the information processing system SYS2 shown in FIGS. 4 and 5, a maximum of eight
1つのシリアルインタフェースSIFのリンクの復旧に最大で3秒掛かるとすると、8つのシリアルインタフェースSIFの復旧に最大で24秒掛かってしまう。これにより、リンクの縮退状態は、最大で24秒間続くことになる。リンクの復旧処理中は、リンクの縮退によりデータの転送性能が半分になるため、長時間の性能低下をもたらすことになる。さらに、シリアルインタフェースSIFの縮退が長時間にわたると、システムダウンのリスクが高くなる。これは、縮退しているインタフェースがリンクダウンするとデータ転送の継続ができなくなるためである。 If it takes a maximum of 3 seconds to restore the link of one serial interface SIF, it takes a maximum of 24 seconds to restore the eight serial interface SIFs. As a result, the degenerate state of the link lasts for up to 24 seconds. During the link recovery process, the data transfer performance is halved due to the degeneracy of the link, resulting in a long-term performance degradation. Furthermore, if the serial interface SIF is degenerated for a long time, the risk of system down increases. This is because if the degenerate interface is linked down, data transfer cannot be continued.
例えば、シリアルインタフェースSIFにおいて、受信ビット数に対するエラービット数の比率であるビットエラーレート(BER)の要求値が10−12以下であり、データの転送速度を考慮して100秒間に1回エラーが発生するとする。この場合、2つのシリアルインタフェースSIFでは、40秒間に1回のエラーが発生し、24秒間(縮退期間)では、エラーが約0.5回発生することになる。 For example, in the serial interface SIF, the required value of the bit error rate (BER), which is the ratio of the number of error bits to the number of received bits, is 10-12 or less, and an error occurs once every 100 seconds in consideration of the data transfer speed. Suppose it occurs. In this case, in the two serial interface SIFs, an error occurs once every 40 seconds, and in 24 seconds (degenerate period), an error occurs about 0.5 times.
これに対して、この実施形態では、クラスタ100とSSU500との接続単位で独立して、シリアルインタフェースSIFのリンクダウンの復旧処理を実行することができる。さらに、リンクの復旧処理は、クラスタ100およびSSU500のハードウェア(インタフェース制御部300、700)を使用して実行される。このため、リンクダウンの普及処理は、例えば、数マイクロ秒で完了させることができ、リンクの縮退期間を数マイクロ秒にすることができる。この結果、縮退期間にパケットを送受信するシリアルインタフェースSIFがリンクダウンする可能性はほとんどない。
On the other hand, in this embodiment, the link-down recovery process of the serial interface SIF can be executed independently for each connection between the
図12は、図11の復旧シーケンスの一例を示す。すなわち、図12は、情報処理システムSYS2に搭載されるインタフェース制御装置(300a、300b、700a、700b)の制御方法の一例を示す。図9から図11と同様の処理については、詳細な説明は省略する。図12では、クラスタ#0とSSU#0間のシリアルインタフェースSIFaがリンクダウンし、SSU#0のインタフェース制御部SM0aがリンクダウンを検出する例を示す。なお、図12において、クラスタ#0とSSU#0との間で送受信されるパケットは、リンクを復旧するための復旧パケットである。
FIG. 12 shows an example of the recovery sequence of FIG. That is, FIG. 12 shows an example of a control method of the interface control device (300a, 300b, 700a, 700b) mounted on the information processing system SYS2. Detailed description of the same processing as in FIGS. 9 to 11 will be omitted. FIG. 12 shows an example in which the serial interface SIFa between
まず、SSU#0のインタフェース制御部SM0aは、リンクダウンの検出に基づいてリンクダウン検出信号link_down_detをインタフェース制御部SM0bに出力する。インタフェース制御部SM0bは、リンクダウン検出信号link_down_detの受信に基づいてリンクダウンの通知パケット(link_down_req_send)を対向するインタフェース制御部MM0bに送信する。インタフェース制御部MM0bは、リンクダウンの通知パケット(link_down_req_send)に基づいてリンクダウン通知(link_down_req_recv)をインタフェース制御部MM0aに送信する。
First, the interface control unit SM0a of
リンクダウン通知(link_down_req_recv)を受信したインタフェース制御部MM0aは、SSU#0でのリンクダウンを認識し、ステップS70において、リンクの復旧処理のシーケンス制御を開始する。インタフェース制御部MM0aは、コア部200にリンクダウン受信信号link_down_det(縮退指示)を出力する。
Upon receiving the link down notification (link_down_req_recv), the interface control unit MM0a recognizes the link down in
コア部200は、リンクの縮退処理を開始し、リンクダウンにより失われたデータを保証するため、リンクダウン発生時のデータ転送を先頭からやり直す。これにより、リンクダウンによるデータの消失を抑止することができる。なお、インタフェース制御部MM0aは、リンクダウンを自ら検出した場合、リンクダウン通知(link_down_req_recv)を受けることなく、ステップS70を開始する。
The
次に、インタフェース制御部MM0aは、ステップS72において、エラーの頻度(エラー率)が所定の頻度より高い場合、リンクを強制的に閉塞させて、リンクの使用を禁止する指示(link_quiet)をコア部200に出力し、復旧シーケンスを終了する。エラーの頻度が所定の頻度以下である場合、インタフェース制御部MM0aは、ステップS74を実行する。 Next, in step S72, the interface control unit MM0a gives an instruction (link_quiet) to forcibly block the link and prohibit the use of the link when the error frequency (error rate) is higher than the predetermined frequency. Output to 200 and end the recovery sequence. When the frequency of the error is less than or equal to the predetermined frequency, the interface control unit MM0a executes step S74.
インタフェース制御部MM0aは、ステップS74において、リンクをディセーブルさせる指示(interface enable off)をPHY410に出力する。また、インタフェース制御部MM0aは、インタフェース制御部MM0bに、リンクのディセーブル用の復旧制御パケットの生成とSSU#0への送信とを指示する。
In step S74, the interface control unit MM0a outputs an instruction (interface enable off) for disabling the link to the
インタフェース制御部MM0bは、復旧制御パケット(interface_disable_req_send)を生成し、通常パケットの間に割り込ませてSSU#0のインタフェース制御部MM0bに送信する。インタフェース制御部SM0bは、復旧制御パケット(interface_disable_req_send)の受信に基づいて、復旧指示(interface_disable_req_recv)をインタフェース制御部SM0aに通知する。
The interface control unit MM0b generates a recovery control packet (interface_disable_req_send), interrupts it between normal packets, and transmits it to the interface control unit MM0b of
復旧指示(interface_disable_req_recv)を受信したインタフェース制御部SM0aは、リンクをディセーブルさせる指示(interface enable off)をイネーブル部414に出力する。インタフェース制御部SM0aは、リンクのディセーブルの完了応答通知をインタフェース制御部SM0bに通知する。インタフェース制御部SM0bは、完了応答通知に基づいて、リンクのディセーブルの完了応答パケット(interface_disable_end_send)を生成し、クラスタ#0のインタフェース制御部SM0bに送信する。
Upon receiving the recovery instruction (interface_disable_req_recv), the interface control unit SM0a outputs an instruction to disable the link (interface enable off) to the enable
インタフェース制御部SM0bは、完了応答パケット(interface_disable_end_send)の受信に基づいて、完了応答通知(interface_disable_end_recv)をインタフェース制御部SM0aに送信する。インタフェース制御部MM0aは、ステップS76において、完了応答通知(interface_disable_end_recv)を、所定時間の経過を示すタイムアウトが発生する前に受信した場合、ステップS78においてリセット処理を実行する。インタフェース制御部MM0aは、タイムアウトが発生した場合、リンクを強制的に閉塞させて、リンクの使用を禁止する指示(link_quiet)をコア部200に出力し、復旧シーケンスを終了する。
The interface control unit SM0b transmits a completion response notification (interface_disable_end_recv) to the interface control unit SM0a based on the reception of the completion response packet (interface_disable_end_send). If the interface control unit MM0a receives the completion response notification (interface_disable_end_recv) in step S76 before the timeout indicating the elapse of a predetermined time occurs, the interface control unit MM0a executes the reset process in step S78. When a timeout occurs, the interface control unit MM0a forcibly shuts down the link, outputs an instruction (link_quiet) prohibiting the use of the link to the
このように、インタフェース制御部MM0aは、ハンドシェイクによる復旧処理の各シーケンスにおいて、タイムアウトを監視し、タイムアウトが発生した場合には、リンクを強制的に閉塞させて、リンクの使用を禁止する。これにより、インタフェース制御部SM0a、SM0b、MM0bの不具合または縮退後のシリアルインタフェースSIFbの不具合により、万一、リンクの復旧処理が進まなくなった場合に、復旧処理を中断することができる。 In this way, the interface control unit MM0a monitors the timeout in each sequence of the recovery process by the handshake, and when the timeout occurs, forcibly closes the link and prohibits the use of the link. As a result, in the unlikely event that the link restoration process does not proceed due to a defect in the interface control units SM0a, SM0b, MM0b or a defect in the serial interface SIFb after degeneration, the restoration process can be interrupted.
インタフェース制御部MM0aは、ステップS78において、PHY410にリンクのリセット指示(reset(tx/rx))を出力する。この例では、インタフェース制御部MM0aは、送信系(tx)と受信系(rx)の両方のリセットを指示する。しかしながら、インタフェース制御部MM0aは、送信系(tx)と受信系(rx)のうち、異常な系のみのリセットを指示してもよい。また、インタフェース制御部MM0aは、インタフェース制御部MM0bに、リンクのリセット用の復旧制御パケットの生成とSSU#0への送信とを指示する。
In step S78, the interface control unit MM0a outputs a link reset instruction (reset (tx / rx)) to the
インタフェース制御部MM0bは、復旧制御パケット(reset_req_send)を生成し、通常パケットの間に割り込ませてSSU#0のインタフェース制御部SM0bに送信する。インタフェース制御部SM0bは、復旧制御パケット(reset_req_send)の受信に基づいて、復旧指示(reset_req_recv)をインタフェース制御部SM0aに通知する。
The interface control unit MM0b generates a recovery control packet (reset_req_send), interrupts it between normal packets, and transmits it to the interface control unit SM0b of
復旧指示(reset_req_recv)を受信したインタフェース制御部SM0aは、リセット指示(reset(tx/rx))をPHY710に出力する。インタフェース制御部SM0aは、PHY710のリセットの完了応答通知をインタフェース制御部SM0bに通知する。インタフェース制御部SM0bは、完了応答通知に基づいて、PHY710のリセットの完了応答パケット(reset_end_send)を生成し、クラスタ#0のインタフェース制御部MM0bに送信する。
Upon receiving the restoration instruction (reset_req_recv), the interface control unit SM0a outputs the reset instruction (reset (tx / rx)) to the PHY710. The interface control unit SM0a notifies the interface control unit SM0b of the completion response notification of the reset of the PHY710. The interface control unit SM0b generates a reset completion response packet (reset_end_send) of the PHY710 based on the completion response notification, and transmits the completion response packet (reset_end_send) to the interface control unit MM0b of the
インタフェース制御部MM0bは、完了応答パケット(reset_end_send)の受信に基づいて、完了応答通知(reset_end_recv)をインタフェース制御部MM0aに送信する。インタフェース制御部MM0aは、ステップS80において完了応答通知(reset_end_recv)をタイムアウトが発生する前に受信した場合、ステップS82のロックステータス確認処理を実行する。インタフェース制御部MM0aは、タイムアウトが発生した場合、リンクを強制的に閉塞させて、リンクの使用を禁止する指示(link_quiet)をコア部200に出力し、復旧シーケンスを終了する。
The interface control unit MM0b transmits a completion response notification (reset_end_recv) to the interface control unit MM0a based on the reception of the completion response packet (reset_end_send). If the interface control unit MM0a receives the completion response notification (reset_end_recv) in step S80 before the timeout occurs, the interface control unit MM0a executes the lock status confirmation process in step S82. When a timeout occurs, the interface control unit MM0a forcibly shuts down the link, outputs an instruction (link_quiet) prohibiting the use of the link to the
インタフェース制御部MM0aは、ステップS82において、例えば、シリアルインタフェースSIFaが正常にリンクアップされたかを判断するロックステータスの問い合わせ(reset(rx) on/off lock status)をPHY410に対して行う。なお、送信系(tx)が正常にリセットされたかを判断するロックステータスの問い合わせが実行されてもよい。
In step S82, the interface control unit MM0a makes, for example, an inquiry (reset (rx) on / off lock status) of the lock status for determining whether the serial interface SIFa is normally linked up to the
ロックステータスの問い合わせは、ロックが検出されるまで繰り返し実行される。そして、インタフェース制御部MM0aは、インタフェース制御部MM0bに、ロックステータスの検出用の復旧制御パケットの生成とSSU#0への送信とを指示する。
The lock status query is repeated until a lock is detected. Then, the interface control unit MM0a instructs the interface control unit MM0b to generate a recovery control packet for detecting the lock status and transmit it to
インタフェース制御部MM0bは、復旧制御パケット(lock_detect_req_send)を生成し、通常パケットの間に割り込ませてSSU#0のインタフェース制御部SM0bに送信する。インタフェース制御部SM0bは、復旧制御パケット(lock_detect_req_send)の受信に基づいて、復旧指示(lock_detect_req_recv)をインタフェース制御部SM0aに通知する。
The interface control unit MM0b generates a recovery control packet (lock_detect_req_send), interrupts it between normal packets, and transmits it to the interface control unit SM0b of
復旧指示(lock_detect_req_recv)を受信したインタフェース制御部SM0aは、受信系(rx)が正常にリセットされたかを判断するロックステータスの問い合わせ(reset(rx) on/off lock status)をPHY710に対して行う。なお、送信系(tx)が正常にリセットされたかを判断するロックステータスの問い合わせが実行されてもよい。 Upon receiving the recovery instruction (lock_detect_req_recv), the interface control unit SM0a makes a lock status inquiry (reset (rx) on / off lock status) to the PHY710 to determine whether the receiving system (rx) has been reset normally. A lock status inquiry for determining whether the transmission system (tx) has been reset normally may be executed.
インタフェース制御部SM0aは、リンクが正常にリセットされたことを確認した場合(ロック検出)、ロック検出の完了応答通知をインタフェース制御部SM0bに通知する。インタフェース制御部SM0bは、完了応答通知に基づいて、ロック検出の完了応答パケット(lock_detect_end_send)を生成し、クラスタ#0のインタフェース制御部MM0bに送信する。
When the interface control unit SM0a confirms that the link has been reset normally (lock detection), the interface control unit SM0a notifies the interface control unit SM0b of the completion response notification of the lock detection. The interface control unit SM0b generates a lock detection completion response packet (lock_detect_end_send) based on the completion response notification, and transmits the lock detection completion response packet (lock_detect_end_send) to the interface control unit MM0b of
インタフェース制御部MM0bは、完了応答パケット(lock_detect_end_send)の受信に基づいて、完了応答通知(lock_detect_end_recv)をインタフェース制御部MM0aに送信する。インタフェース制御部MM0aは、ステップS84において完了応答通知(lock_detect_end_recv)をタイムアウトが発生する前に受信した場合、ステップS86のロック検出の判定処理を実行する。インタフェース制御部MM0aは、タイムアウトが発生した場合、リンクを強制的に閉塞させて、リンクの使用を禁止する指示(lilnk_quiet)をコア部200に出力し、復旧シーケンスを終了する。
The interface control unit MM0b transmits a completion response notification (lock_detect_end_recv) to the interface control unit MM0a based on the reception of the completion response packet (lock_detect_end_send). If the interface control unit MM0a receives the completion response notification (lock_detect_end_recv) in step S84 before the timeout occurs, the interface control unit MM0a executes the lock detection determination process in step S86. When a timeout occurs, the interface control unit MM0a forcibly blocks the link, outputs an instruction (link_quiet) prohibiting the use of the link to the
インタフェース制御部MM0aは、ステップS86において、PHY410によるシリアルインタフェースSIFaのリンクアップが成功し、かつ、PHY710によるシリアルインタフェースSIFaのリンクアップが成功した場合、ステップS88を実行する。一方、インタフェース制御部MM0aは、ステップS82においてリンクアップが成功しなかった場合、リンクを強制的に閉塞させて、リンクの使用を禁止する指示(lilnk_quiet)をコア部200に出力し、復旧シーケンスを終了する。
In step S86, the interface control unit MM0a executes step S88 when the link-up of the serial interface SIFa by PHY410 is successful and the link-up of the serial interface SIFa by PHY710 is successful. On the other hand, when the link-up is not successful in step S82, the interface control unit MM0a outputs an instruction (link_quiet) for forcibly blocking the link and prohibiting the use of the link to the
インタフェース制御部MM0aは、ステップS88において、シリアルインタフェースSIFaを有効化させる指示(interface enable on)をイネーブル部414に出力する。また、インタフェース制御部MM0aは、インタフェース制御部MM0bに、PHY710側のシリアルインタフェースSIFaを有効化させる復旧制御パケットの生成とSSU#0への送信とを指示する。
In step S88, the interface control unit MM0a outputs an instruction (interface enable on) for enabling the serial interface SIFa to the enable
インタフェース制御部MM0bは、復旧制御パケット(interface_enable_req_send)を生成し、通常パケットの間に割り込ませてSSU#0のインタフェース制御部MM0bに送信する。インタフェース制御部SM0bは、復旧制御パケット(interface_enable_req_send)の受信に基づいて、復旧指示(interface_enable_req_recv)をインタフェース制御部SM0aに通知する。
The interface control unit MM0b generates a recovery control packet (interface_enable_req_send), interrupts it between normal packets, and transmits it to the interface control unit MM0b of
復旧指示(interface_enable_req_recv)を受信したインタフェース制御部SM0aは、シリアルインタフェースSIFaを有効にさせる指示(interface enable on)をPHY710に出力する。インタフェース制御部SM0aは、リンクのイネーブルの完了応答通知をインタフェース制御部SM0bに通知する。インタフェース制御部SM0bは、完了応答通知に基づいて、リンクのイネーブルの完了応答パケット(interface_enable_end_send)を生成し、クラスタ#0のインタフェース制御部MM0bに送信する。
Upon receiving the recovery instruction (interface_enable_req_recv), the interface control unit SM0a outputs an instruction (interface enable on) for enabling the serial interface SIFA to the PHY710. The interface control unit SM0a notifies the interface control unit SM0b of the completion response notification of link enable. The interface control unit SM0b generates a completion response packet (interface_enable_end_send) for enabling the link based on the completion response notification, and transmits the completion response packet (interface_enable_end_send) to the interface control unit MM0b of the
なお、図示を省略するが、インタフェース制御部SM0aは、シリアルインタフェースSIFaが有効化された後、リンクを縮退状動作態から通常動作状態に復旧させるため、コア部600にリスタート指示(re_start on)を出力する。リスタート指示を受けたコア部600は、リンクを縮退状態から復旧させる。
Although not shown, the interface control unit SM0a gives a restart instruction (re_start on) to the
インタフェース制御部MM0bは、完了応答パケット(interface_enable_end_send)の受信に基づいて、完了応答通知(interface enable_end_recv)をインタフェース制御部MM0aに送信する。インタフェース制御部MM0aは、ステップS76において完了応答通知(interface enable_end_recv)をタイムアウトが発生する前に受信した場合、ステップS92において縮退からの復旧処理を実行する。インタフェース制御部MM0aは、タイムアウトが発生した場合、リンクを強制的に閉塞させて、リンクの使用を禁止する指示(link_quiet)をコア部200に出力し、復旧シーケンスを終了する。
The interface control unit MM0b transmits a completion response notification (interface enable_end_recv) to the interface control unit MM0a based on the reception of the completion response packet (interface_enable_end_send). If the interface control unit MM0a receives the completion response notification (interface enable_end_recv) in step S76 before the timeout occurs, the interface control unit MM0a executes the recovery process from the degeneration in step S92. When a timeout occurs, the interface control unit MM0a forcibly shuts down the link, outputs an instruction (link_quiet) prohibiting the use of the link to the
インタフェース制御部MM0aは、ステップS92において、リンクを縮退状態から復旧させるため、コア部200にリスタート指示(re_start on)を出力し、図12に示すリンクの復旧処理を完了する。コア部200は、リスタート指示(re_start on)に基づいて、リンクを縮退動作状態から通常動作状態に復旧する。これにより、クラスタ#0とSSU#0間でのシリアルインタフェースSIFa、SIFbの両方を使用したパケット通信が再開される。
In step S92, the interface control unit MM0a outputs a restart instruction (re_start on) to the
図12に示すように、クラスタ#0は、リンクの復旧処理において、復旧シーケンスに含まれる複数のシーケンス毎に、処理を実行し、SSU#0に復旧制御指示を発行する。そして、クラスタ#0は、自身の処理の完了とSSU#0からの復旧応答とに基づいて、次のシーケンスの処理を実行する。これにより、クラスタ#0の主導により、復旧シーケンスを1つずつ着実に実行することができ、リンクの復旧に失敗する可能性を低減することができる。
As shown in FIG. 12, in the link recovery process,
図13は、図11のクラスタ100とSSU500との間で送受信されるパケットのフォーマットの一例を示す。情報処理システムSYS2のシステム動作により送受信されるデータパケット(通常パケット)は、ヘッダ部、データ部、CRC(Cyclic Redundancy Check)部およびターミネート部を有する。図12で説明した復旧シーケンスに使用する復旧パケットは、ヘッダ部、CRC部およびターミネート部を有する。
FIG. 13 shows an example of the format of packets sent and received between the
データパケットのヘッダ部は、バイト0〜バイト7の8バイトを有する。バイト0は0xFB、バイト1〜バイト5とバイト7は任意の値、バイト6はオペレーションコード(0x02以外)が設定される。ここで、符号0xは、値が16進数であることを示す。
The header portion of the data packet has 8 bytes of
復旧パケットのヘッダ部は、バイト0〜バイト7の8バイトを有する。バイト0は0xFB、バイト1、バイト4、バイト5およびバイト7は任意の値、バイト2は制御指示用の制御ビット、バイト3は応答通知用の制御ビット、バイト6はオペレーションコード(0x02)が設定される。復旧パケットのヘッダ部のバイト2は、クラスタ100からSSU500に送信される復旧制御パケットで使用される。復旧パケットのヘッダ部のバイト3は、SSU500からクラスタ100に送信される完了応答パケットで使用される。
The header portion of the recovery packet has 8 bytes of
復旧パケットのヘッダ部のバイト2(制御指示用)において、ビット0は、リンクダウンの検出時にセットされ、ビット2は、リンクをディセーブルするときにセットされ、ビット3は、PHY710をリセットするときにセットされる。また、バイト2において、ビット4は、ロックステータスを確認するときにセットされ、ビット5は、リンクをイネーブルにするときにセットされる。バイト2のビット1、ビット6およびビット7は、任意の値が設定される。
In byte 2 (for control instruction) of the header part of the recovery packet,
復旧パケットのヘッダ部のバイト3(応答通知用)において、ビット0は、完了応答パケットであることを示すためにセットされる。バイト3において、ビット2は、ロックステータスがオン状態の場合にセットされ、ビット3は、ロックステータスがフェイル状態(アンロック状態)の場合にセットされる。バイト3のビット1とビット4〜ビット7は、任意の値が設定される。
In byte 3 (for response notification) of the header portion of the recovery packet,
以上、図4から図13に示す実施形態においても、図1から図3に示す実施形態と同様の効果を得ることができる。例えば、クラスタ100およびSSU500に搭載されるサービスプロセッサが実行するファームウェアによりリンクを復旧する場合に比べて、リンクを迅速に復旧することができ、リンクダウン期間を最小限にすることができる。また、クラスタ100とSSU500との接続単位毎に、シリアルインタフェースSIFのリンクダウンの復旧処理を独立に実行することができる。さらに、リンクの復旧処理を、クラスタ100およびSSU500のハードウェア(インタフェース制御部300、700)により実行することができる。この結果、情報処理システムSYS2の性能の低下期間を最小限にすることができる。
As described above, even in the embodiments shown in FIGS. 4 to 13, the same effects as those in the embodiments shown in FIGS. 1 to 3 can be obtained. For example, the link can be restored more quickly and the link down period can be minimized as compared with the case where the link is restored by the firmware executed by the service processor mounted on the
例えば、本実施形態を適用した場合のリンクの復旧時間(数マイクロ秒)を、ファームウェアによるリンクの復旧時間(最大24秒)に比べて大幅に短縮することができる。したがって、シリアルインタフェースSIFの縮退時に、システムダウンのリスクを大幅に下げることができる。 For example, the link recovery time (several microseconds) when the present embodiment is applied can be significantly shortened as compared with the link recovery time (maximum 24 seconds) by the firmware. Therefore, when the serial interface SIF is degenerated, the risk of system down can be significantly reduced.
さらに、図4から図13に示す実施形態では、以下の効果を得ることができる。例えば、リンクダウンが発生した場合、クラスタ100が主体となり、復旧シーケンスのための専用パケットをリンクアッププロトコルにしたがって生成し、生成した専用パケットを通常パケットの間に割り込ませて、SSU500に送信する。これにより、正常なシリアルインタフェースSIFを使用して、リンクの復旧するための復旧制御指示を、ハンドシェイク制御でSSU500に送信することができ、クラスタ100が主導して、SSU500側のリンクを遠隔で復旧させることができる。
Further, in the embodiments shown in FIGS. 4 to 13, the following effects can be obtained. For example, when a link down occurs, the
図12で説明したように、クラスタ100とSSU500とがハンドシェイクにより復旧処理のシーケンスを1つずつ進めていくことで、クラスタ100とSSU500との復旧処理を互いに同期して実行することができる。これにより、リンクの復旧処理をクラスタ100とSSU500との間で着実に実行することができる。クラスタ100の主導により、復旧シーケンスを1つずつ着実に実行することで、リンクの復旧に失敗する可能性を低減することができる。
As described with reference to FIG. 12, the
インタフェース制御部300は、ハンドシェイクによる復旧処理の各シーケンスにおいて、タイムアウトを監視し、タイムアウトが発生した場合には、リンクを強制的に閉塞させて、リンクの使用を禁止する。これにより、インタフェース制御部700の不具合または縮退後のシリアルインタフェースSIFの不具合等により、万一、リンクの復旧処理が進まなくなった場合に、復旧処理を中断することができる。
The
インタフェース制御部300のパケット挿入部408により、通常パケットの出力の合間に復旧パケットを挿入し、SSU500に送信することができる。同様に、インタフェース制御部700のパケット挿入部408により、通常パケットの出力の合間にリンクダウンの通知パケットまたはリンクの復旧応答パケットを挿入し、クラスタ100に送信することができる。したがって、2系統のシリアルインタフェースSIFa、SIFbを介して接続されるクラスタ100およびSSU500において、リンクが縮退された場合にも、生きているリンクを使用して復旧パケットおよび復旧応答パケット等を送受信することができる。この結果、リンクダウンが発生した場合に、通常データの送受信を継続しながら、縮退したリンクを使用してリンクの復旧処理を実行することができる。
The
図14は、別の実施形態における情報処理システムの一例を示す。上述した実施形態と同様の要素は、同じ符号を付し、詳細な説明は省略する。図14に示す情報処理システムSYS3では、各クラスタ100のコア部200と各SSU500のコア部600とが、管理バスMBUSとは別の専用ネットワーク(例えば、LAN)を介して接続される。そして、復旧制御指示パケットおよび完了応答パケットは、専用ネットワークを介して送受信される。情報処理システムSYS3のその他の構成および機能は、図4から図13に示す情報処理システムSYS2の構成および機能と同様である。
FIG. 14 shows an example of an information processing system according to another embodiment. The same elements as those in the above-described embodiment are designated by the same reference numerals, and detailed description thereof will be omitted. In the information processing system SYS3 shown in FIG. 14, the
この実施形態では、クラスタ100において、リンクダウンを検出したインタフェース制御部300(300aまたは300b)は、コア部200を介して、復旧制御指示パケットをSSU500に送信し、完了応答パケットをSSU500から受信する。また、SSU500において、リンクダウンを検出したインタフェース制御部700(700aまたは700b)は、コア部600を介して、リンクダウンの通知パケットをクラスタ100に送信する。
In this embodiment, the interface control unit 300 (300a or 300b) that has detected the link down in the
この実施形態では、リンクダウンしていない正常なシリアルインタフェースSIFを使用した復旧パケット(図13)の送受信は実行されない。したがって、正常なシリアルインタフェースSIFに接続されるインタフェース制御部300、700に復旧パケットを送受信させる処理を不要にすることができる。この結果、リンクを復旧するための復旧シーケンスを、図10から図12に示す復旧シーケンスに比べて簡易に実行することができ、リンクの復旧処理に掛かる時間を短縮することができる。
In this embodiment, the transmission / reception of the recovery packet (FIG. 13) using the normal serial interface SIF that is not linked down is not executed. Therefore, it is possible to eliminate the process of transmitting and receiving recovery packets to the
以上、図14に示す実施形態においても、図1から図13に示す実施形態と同様の効果を得ることができる。さらに、図14に示す実施形態では、クラスタ100とSSU500との間での復旧パケットの送受信を簡易に実行することができ、リンクの復旧処理に掛かる時間を短縮することができる。
As described above, even in the embodiment shown in FIG. 14, the same effect as that of the embodiment shown in FIGS. 1 to 13 can be obtained. Further, in the embodiment shown in FIG. 14, the recovery packet can be easily transmitted and received between the
図15は、別の実施形態における情報処理システムの一例を示す。上述した実施形態と同様の要素は、同じ符号を付し、詳細な説明は省略する。図15に示す情報処理システムSYS4では、各クラスタ100と各SSU500とが、4つのインタフェース制御部(図15では、300a〜300dと700a〜700d)を介して接続される。
FIG. 15 shows an example of an information processing system according to another embodiment. The same elements as those in the above-described embodiment are designated by the same reference numerals, and detailed description thereof will be omitted. In the information processing system SYS4 shown in FIG. 15, each
そして、各クラスタ100において、復旧パケット(リンクダウン通知またはリンクの復旧用通知)は、ビジーでないシリアルインタフェースSIF(SIFa、SIFb、SIFc、SIFdのいずれか)を使用して送受信される。このため、コア部200は、復旧パケットの転送経路を決定するルーターの機能を有する。そして、コア部200は、例えば、リンクダウンしたシリアルインタフェースSIFに接続されたインタフェース制御部300からの指示を、正常なシリアルインタフェースSIFに接続されたインタフェース制御部300に転送する。なお、各クラスタ100は、ビジーまたはリンクダウンしていないシリアルインタフェースSIFを使用して復旧パケットを送受信してもよい。
Then, in each
各SSU500において、復旧応答パケット(リンクダウンの通知パケットまたはリンクの復旧応答パケット)は、ビジーでないシリアルインタフェースSIF(SIFa、SIFb、SIFc、SIFdのいずれか)を使用して送受信される。ここで、ビジーでないシリアルインタフェースSIFは、クラスタ100からの復旧パケットを受信したシリアルインタフェースSIFである。そして、コア部600は、例えば、リンクダウンしたシリアルインタフェースSIFに接続されたインタフェース制御部700からの指示を、正常なシリアルインタフェースSIFに接続されたインタフェース制御部700に転送する。このように、ビジーでないシリアルインタフェースSIFを選択して復旧パケットおよび復旧応答パケットを送受信することで、シリアルインタフェースSIFをリンクの復旧処理のために専用に使用することができる。
In each SSU500, the recovery response packet (link down notification packet or link recovery response packet) is transmitted and received using a non-busy serial interface SIF (either SIFa, SIFb, SIFc, or SIFd). Here, the non-busy serial interface SIF is the serial interface SIF that has received the recovery packet from the
以上、図15に示す実施形態においても、図1から図14に示す実施形態と同様の効果を得ることができる。さらに、図15に示す実施形態では、ビジーでない複数のシリアルインタフェースSIFのいずれかを使用して復旧パケットおよび復旧応答パケットが送受信される。このため、復旧パケットおよび復旧応答パケットを通常パケットの合間に送受信する場合に比べて、復旧パケットの転送効率を向上することができ、復旧シーケンスに掛かる処理時間を短縮することができる。 As described above, even in the embodiment shown in FIG. 15, the same effect as that of the embodiment shown in FIGS. 1 to 14 can be obtained. Further, in the embodiment shown in FIG. 15, a recovery packet and a recovery response packet are transmitted and received using any of a plurality of non-busy serial interface SIFs. Therefore, the transfer efficiency of the recovery packet can be improved and the processing time required for the recovery sequence can be shortened as compared with the case where the recovery packet and the recovery response packet are transmitted and received between the normal packets.
以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。 The above detailed description will clarify the features and advantages of the embodiments. It is intended that the claims extend to the features and advantages of the embodiments as described above, without departing from their spirit and scope of rights. Also, anyone with ordinary knowledge in the art should be able to easily come up with any improvements or changes. Therefore, there is no intention to limit the scope of the embodiments having invention to those described above, and it is possible to rely on suitable improvements and equivalents included in the scope disclosed in the embodiments.
10 情報処理装置
12 コア部
14 インタフェース制御装置
14a、14b インタフェース制御部
20 情報処理装置
22 コア部
24 インタフェース制御装置
24a、24b インタフェース制御部
100 クラスタ
120 管理装置
200 コア部
300(300a、300b) インタフェース制御部
402 復旧制御送信部
402 復旧パケット送信部
404 復旧制御送信部
404 復旧パケット生成部
406 通常パケット送信部
408 パケット挿入部
410 通信インタフェース部
412 復旧シーケンス制御部
413 復旧処理部
414 イネーブル部
416 エラー検出部
418 パケット判定部
420 復旧パケット受信部
422 通常パケット受信部
424 リンクダウン通知部
426 縮退指示部
428 コア通知部
430 モジュール間制御部
432 オア回路
500 情報処理装置
520 管理装置
530 記憶装置
600 コア部
700(700a、700b) インタフェース制御部
MBUS 管理バス
MM0a〜MM3b インタフェース制御部
PHY 通信インタフェース部
RIF(RIFa、RIFb) 通信インタフェース
SIF(SIFa、SIFb) シリアルインタフェース
SM0a〜SM7b インタフェース制御部
SSU インタフェース制御部
SYS1、SYS2、SYS3、SYS4 情報処理システム
10
Claims (8)
前記通信インタフェースのリンクダウンの検出処理を実行し、
前記通信インタフェースのいずれかのリンクダウンを検出した場合、または、前記通信インタフェースの一方を介して前記他方の情報処理装置から、前記通信インタフェースの他方で発生したリンクダウンの通知を受けた場合、ダウンしたリンクの復旧処理を実行し、リンクを復旧させる復旧制御指示を前記通信インタフェースの一方を介して他方の情報処理装置に送信する
インタフェース制御装置。 An interface control device included in one of a pair of information processing devices connected via two communication interfaces and controlling communication with the other information processing device by the communication interface.
The link down detection process of the communication interface is executed, and
When a link down of any of the communication interfaces is detected, or when a link down occurs on the other side of the communication interface is notified from the other information processing device via one of the communication interfaces, the link down occurs. An interface control device that executes a recovery process of the linked link and transmits a recovery control instruction for recovering the link to the other information processing device via one of the communication interfaces.
前記インタフェース制御部の各々は、
他方の情報処理装置からリンクダウンの通知を受信した場合、他方のインタフェース制御部にリンクダウンを通知し、他方の情報処理装置から復旧制御指示に対応する復旧応答を受信した場合、他方のインタフェース制御部に復旧応答を通知する受信通知部と、
自通信インタフェース部のリンクダウンを検出した場合、または、他方のインタフェース制御部から前記他方の情報処理装置のリンクダウンの通知を受信した場合、リンクの縮退を指示する縮退指示部と、
自通信インタフェース部のリンクダウンを検出した場合、または、他方のインタフェース制御部から前記他方の情報処理装置のリンクダウンの通知を受信した場合、ダウンしたリンクを復旧させる復旧処理を開始し、他方のインタフェース制御部に、前記他方の情報処理装置にダウンしたリンクを復旧させる復旧制御指示を通知する復旧制御部と、
他方のインタフェース制御部から前記復旧制御指示を受信した場合、他方の情報処理装置に前記復旧制御指示を送信する復旧制御送信部と
を有する請求項1に記載のインタフェース制御装置。 It has a pair of interface control units that are connected to each of the two communication interfaces and control the transmission and reception of packets.
Each of the interface control units
When a link down notification is received from the other information processing device, the link down is notified to the other interface control unit, and when a recovery response corresponding to the recovery control instruction is received from the other information processing device, the other interface control is performed. A reception notification unit that notifies the department of the recovery response,
When a link down of the self-communication interface unit is detected, or when a notification of the link down of the other information processing device is received from the other interface control unit, a degeneration instruction unit for instructing the degeneracy of the link and a degeneration instruction unit.
When a link down of the self-communication interface unit is detected, or when a notification of a link down of the other information processing device is received from the other interface control unit, a recovery process for recovering the downed link is started, and the other A recovery control unit that notifies the interface control unit of a recovery control instruction for recovering a link that has been downloaded to the other information processing device.
The interface control device according to claim 1, further comprising a recovery control transmission unit that transmits the recovery control instruction to the other information processing device when the recovery control instruction is received from the other interface control unit.
請求項2に記載のインタフェース制御装置。 In each of the plurality of sequence controls included in the recovery process, the recovery control unit instructs the other information processing device to perform the sequence control process via the other interface control unit until the next sequence control disappears. The interface control device according to claim 2, wherein when the completion response of the sequence control process is received from the other information processing device via the other interface control unit, the process of executing the next sequence control is repeated.
ダウンしたリンクを縮退し、
ダウンしたリンクをディセーブルし、他方のインタフェース制御部を介して他方の情報処理装置にダウンしたリンクのディセーブルを指示し、
他方のインタフェース制御部を介して他方の情報処理装置からリンクのディセーブルの完了応答を受信した場合、ダウンしたリンクをリセットし、他方のインタフェース制御部を介して他方の情報処理装置にダウンしたリンクのリセットを指示し、
他方のインタフェース制御部を介して他方の情報処理装置からリンクのリセットの完了応答を受信した場合、ダウンしたリンクのリンクアップを確認し、他方のインタフェース制御部を介して他方の情報処理装置にリンクアップの確認を指示し、
他方のインタフェース制御部を介して他方の情報処理装置からリンクアップの完了応答を受信した場合、リンクアップしたリンクを有効に設定し、他方のインタフェース制御部を介して他方の情報処理装置にリンクアップしたリンクの有効化を指示し、
他方のインタフェース制御部を介して他方の情報処理装置からリンクの有効化の完了応答を受信した場合、縮退したリンクを復旧する
請求項3に記載のインタフェース制御装置。 In the recovery process, the recovery control unit
Degenerate the down link,
Disables the downed link and instructs the other information processing device to disable the downed link via the other interface control unit.
When a link disable completion response is received from the other information processing device via the other interface control unit, the downed link is reset and the downed link to the other information processing device via the other interface control unit. Instructed to reset
When a link reset completion response is received from the other information processing device via the other interface control unit, the link up of the downed link is confirmed, and the link is linked to the other information processing device via the other interface control unit. Instruct to confirm the up,
When a link-up completion response is received from the other information processing device via the other interface control unit, the linked-up link is enabled and linked up to the other information processing device via the other interface control unit. Instructed to activate the linked link
The interface control device according to claim 3, wherein when a link activation completion response is received from the other information processing device via the other interface control unit, the degenerate link is restored.
請求項3または請求項4に記載のインタフェース制御装置。 When the recovery control unit does not receive a completion response within a predetermined time from the instruction of sequence control to the other information processing device via the other interface control unit in the recovery process, the recovery control unit uses a down link. The interface control device according to claim 3 or 4.
請求項2ないし請求項5のいずれか1項に記載のインタフェース制御装置。 The interface control device according to any one of claims 2 to 5, wherein each of the interface control units transmits a packet including the recovery control instruction between normal packets transmitted to the other information processing device. ..
前記情報処理装置の一方は、前記通信インタフェースのリンクダウンの復旧処理を主体的に実行する主体情報処理装置として動作し、前記情報処理装置の他方は、前記主体情報処理装置からの指示に基づいてリンクダウンの復旧処理を従属的に実行する従属情報処理装置として動作し、
前記主体情報処理装置のインタフェース制御装置は、前記通信インタフェースのリンクダウンの検出処理を実行し、前記通信インタフェースのいずれかのリンクダウンを検出した場合、または、前記従属情報処理装置のインタフェース制御装置からリンクダウンの通知を受けた場合、ダウンしたリンクの復旧処理を実行し、正常な通信インタフェースを介して前記従属情報処理装置のインタフェース制御装置にリンクの復旧制御指示を通知し、
前記従属情報処理装置のインタフェース制御装置は、リンクダウンを検出した場合、正常な通信インタフェースを介して前記主体情報処理装置のインタフェース制御装置にリンクダウンを通知し、正常な通信インタフェースを介して前記主体情報処理装置のインタフェース制御装置から復旧制御指示を受けた場合、リンクの復旧処理を実行する
情報処理システム。 An information processing system having a pair of information processing devices including an interface control device that communicates with a partner information processing device via two communication interfaces.
One of the information processing devices operates as a main information processing device that proactively executes a link-down recovery process of the communication interface, and the other of the information processing devices is based on an instruction from the main information processing device. Operates as a dependent information processing device that performs link-down recovery processing subordinately,
The interface control device of the main information processing device executes a link down detection process of the communication interface and detects any link down of the communication interface, or from the interface control device of the subordinate information processing device. When the link down notification is received, the downed link recovery process is executed, and the link recovery control instruction is notified to the interface control device of the subordinate information processing device via the normal communication interface.
When the interface control device of the subordinate information processing device detects a link down, it notifies the interface control device of the main information processing device of the link down via the normal communication interface, and the main body via the normal communication interface. An information processing system that executes link recovery processing when a recovery control instruction is received from the interface control device of the information processing device.
前記通信インタフェースのリンクダウンの検出処理を実行し、
前記通信インタフェースのいずれかのリンクダウンを検出した場合、または、前記通信インタフェースの一方を介して前記他方の情報処理装置から、前記通信インタフェースの他方で発生したリンクダウンの通知を受けた場合、ダウンしたリンクの復旧処理を実行し、リンクを復旧させる復旧制御指示を前記通信インタフェースの一方を介して他方の情報処理装置に送信する
インタフェース制御装置の制御方法。 It is a control method of an interface control device included in one of a pair of information processing devices connected via two communication interfaces and controlling communication with the other information processing device by the communication interface.
The link down detection process of the communication interface is executed, and
When a link down of any of the communication interfaces is detected, or when a link down occurs on the other side of the communication interface is notified from the other information processing device via one of the communication interfaces, the link down occurs. A control method of an interface control device that executes a recovery process of the linked link and transmits a recovery control instruction for recovering the link to the other information processing device via one of the communication interfaces.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020044409A JP2021144614A (en) | 2020-03-13 | 2020-03-13 | Interface control unit, information process system, and method of controlling interface control unit |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020044409A JP2021144614A (en) | 2020-03-13 | 2020-03-13 | Interface control unit, information process system, and method of controlling interface control unit |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021144614A true JP2021144614A (en) | 2021-09-24 |
Family
ID=77766813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020044409A Pending JP2021144614A (en) | 2020-03-13 | 2020-03-13 | Interface control unit, information process system, and method of controlling interface control unit |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021144614A (en) |
-
2020
- 2020-03-13 JP JP2020044409A patent/JP2021144614A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5073812B2 (en) | Distributed Ethernet system and method for detecting faults based on the system | |
JP3857317B2 (en) | Automatic negotiation progress monitor | |
US6425009B1 (en) | Monitoring redundant control buses to provide a high availability local area network for a telecommunications device | |
JP2002135359A (en) | Device state control circuit, and device state control method | |
JP2007129606A (en) | Transmission line system, frame transmitter therein, transmission line switching system and program | |
JPS6022846A (en) | Data communication system and device | |
JPH08331126A (en) | Method and equipment to test link between network and switch | |
JP2003348105A (en) | Can controller | |
CN113852529A (en) | Back board bus system for data communication of trackside equipment and data transmission method thereof | |
WO2008116399A1 (en) | Dynamically adjusting method and apparatus for link state and bundled link state | |
JP2011248814A (en) | Device having pci express link error detection and automatic restoration function | |
JP2007013980A (en) | Redundant three-wire communication system and method | |
CN111669220B (en) | RapidIO communication blockage repair method and system | |
CN117527653A (en) | Cluster heartbeat management method, system, equipment and medium | |
US10230625B2 (en) | Information processing apparatus, information processing system, and communication device | |
JP2021144614A (en) | Interface control unit, information process system, and method of controlling interface control unit | |
CN114095462B (en) | Fault-tolerant method and system for SRIO communication system of radar processor | |
EP2698949B1 (en) | METHOD AND SYSTEM FOR SETTING DETECTION FRAME TIMEOUT DURATION OF ETHERNET NODEs | |
EP1988469B1 (en) | Error control device | |
JP2014532236A (en) | Connection method | |
US7009969B1 (en) | Local area network and message packet for a telecommunications device | |
JP3266841B2 (en) | Communication control device | |
JP4315096B2 (en) | Network system | |
CN115277299B (en) | Synchronous loop communication system suitable for cascading converter topology | |
JP4423402B2 (en) | Redundant transmission device |