JP2012063828A - 耐故障システム、マスタft制御lsi、スレーブft制御lsiおよび耐故障制御方法 - Google Patents
耐故障システム、マスタft制御lsi、スレーブft制御lsiおよび耐故障制御方法 Download PDFInfo
- Publication number
- JP2012063828A JP2012063828A JP2010205378A JP2010205378A JP2012063828A JP 2012063828 A JP2012063828 A JP 2012063828A JP 2010205378 A JP2010205378 A JP 2010205378A JP 2010205378 A JP2010205378 A JP 2010205378A JP 2012063828 A JP2012063828 A JP 2012063828A
- Authority
- JP
- Japan
- Prior art keywords
- slave
- control lsi
- control
- subsystem
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2028—Failover techniques eliminating a faulty processor or activating a spare
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1629—Error detection by comparing the output of redundant processing systems
- G06F11/1654—Error detection by comparing the output of redundant processing systems where the output of only one of the redundant processing components can drive the attached hardware, e.g. memory or I/O
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1629—Error detection by comparing the output of redundant processing systems
- G06F11/1641—Error detection by comparing the output of redundant processing systems where the comparison is not performed by the redundant processing components
- G06F11/1645—Error detection by comparing the output of redundant processing systems where the comparison is not performed by the redundant processing components and the comparison itself uses redundant hardware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
Abstract
【解決手段】耐故障システム(FTサーバ1)が、多重化されたサブシステムの1つであるCPUシステム100とIOサブシステム300と、CPUシステム100やIOサブシステム300から故障情報を取得するスレーブFT制御LSI220および230と、スレーブFT制御LSI220と230とが取得する故障情報に基づいて、CPUサブシステム100またはIOサブシステム300が故障した際に切り離し制御を行うコマンドを決定するマスタFT制御LSI210とを具備し、スレーブFT制御LSI220および230は、マスタFT制御LSI210が決定したコマンドに基づいてCPUシステム100およびIOサブシステム300の切り離し制御を行う。
【選択図】図1
Description
ここで、FTシステムの基本構成は、CPUやメモリやI/Oデバイスなど、二重化されるハードウェア・モジュールと、これらのモジュールと接続され、同期動作処理や故障時の切り替え制御などの耐故障制御(フォールト・トレラント制御)を行うフォールト・トレラント制御部(以下、「FT制御部」と称する)からなる。
例えば、CPU1120やメインメモリ1110などを含むCPUサブシステム1100は、CPUサブシステム自体が、ソフトウェアを実行する基盤であることから、ハードウェアで切り離し制御される。CPUサブシステム1100内でエラーが発生した場合、正常動作している側のCPUサブシステム1600に影響を及ぼさないよう、ハードウェア(FT制御部1200)が、エラー発生側のCPUサブシステム1100をFTシステム1001から切り離す。
ここで、モジュール1010がアクティブ側のモジュールであり、モジュール1060がスタンバイ側のモジュールである場合、ルータ1210および1710は、ロックステップ動作して同一のI/O処理要求を同時にボータ1220に出力する。
また、I/Oデバイス1320から返されたレスポンスは、FT制御部1200によって2個に分岐され、それぞれ逆のルートを辿ってCPUサブシステム1120および1620に同じタイミングで出力される。
一般に、FT制御部は1つのLSIで構成され、CPUサブシステムから出力される全I/O処理要求がFT制御部を経由する。このため、接続されるI/Oデバイスの数が増えれば増えるほど、FTシステムのI/O性能のボトルネックがFT制御LSIで発生してしまう。そして、FTシステムのI/O性能を上げるためには、多数のPCI-Express(PCI-SIGによって策定されたシリアルインタフェース。以下では、16チャネルを有するx16 PCI-Expressを用いる場合を例として説明する)などのIOパスをFT制御部に接続する必要があり、さらに同様のバンド幅を有するクロスリンク(コミュニケーション・パス)にてモジュール間を接続する必要もある。その結果、FT制御LSIに多数の高速インタフェースが必要となり、LSIの規模が肥大化して高コストとなる問題がある。
なお、本発明の適用範囲は、図1に示す構成のCPUサブシステムを具備するFTシステムに限らない。例えば、各CPUサブシステムが複数のCPUを具備するマルチプロセッササブシステムであってもよい。
スレーブFT制御LSI220は、1本のPCI-ExpressL120にてCPUサブシステム100に接続され、1本のPCI-ExpressL150にてIOサブシステム300のI/Oスイッチ330に接続され、クロスリンクL20にて相手側モジュールのスレーブFT制御LSI720に接続されている。
スレーブFT制御LSI230は、1本のPCI-ExpressL130にてCPUサブシステム100に接続され、1本のPCI-ExpressL160にてIOサブシステム300のI/Oスイッチ340に接続され、クロスリンクL30にて相手側モジュールのスレーブFT制御LSI730に接続されている。
また、マスタFT制御LSIは、FT制御LSIとして動作する。具体的には、当該マスタFT制御LSIに接続されるIOサブシステムがアクティブ側に設定されているときは、当該マスタFT制御LSIに接続されるCPUサブシステムと他のモジュールとから同一のI/O処理要求が出力されると、当該I/O処理要求の1つを、当該マスタFT制御LSIに接続されるIOサブシステムに出力し、当該IOサブシステムからレスポンスが出力されると、当該マスタFT制御LSIに接続されるCPUサブシステムと他のモジュールとに前記レスポンスを出力する。一方、当該マスタFT制御LSIに接続されるIOサブシステムがスタンバイ側に設定されているときは、当該マスタFT制御LSIに接続されるCPUサブシステムからI/O処理要求が出力されると、当該I/O処理要求の1つを他のモジュールに出力し、他のモジュールからレスポンスが出力されると、当該マスタFT制御LSIに接続されるCPUサブシステムに当該レスポンスを出力する。
具体的には、スレーブFT制御LSIは、当該スレーブFT制御LSIに接続されるIOサブシステムがアクティブ側に設定されているときは、当該スレーブFT制御LSIに接続されるCPUサブシステムと他のモジュールとから同一のI/O処理要求が出力されると、当該I/O処理要求の1つを、当該スレーブFT制御LSIに接続されるIOサブシステムに出力し、当該IOサブシステムからレスポンスが出力されると、当該スレーブFT制御LSIに接続されるCPUサブシステムと他のモジュールとに前記レスポンスを出力する。また、当該スレーブFT制御LSIに接続されるIOサブシステムがスタンバイ側に設定されているときは、当該スレーブFT制御LSIに接続されるCPUサブシステムからI/O処理要求が出力されると、当該I/O処理要求の1つを他のモジュールに出力し、他のモジュールからレスポンスが出力されると、当該スレーブFT制御LSIに接続されるCPUサブシステムに当該レスポンスを出力する。
また、スレーブFT制御LSIは、当該スレーブFT制御LSIに接続されるCPUサブシステムまたは当該スレーブFT制御LSIに接続されるIOサブシステムから故障情報が出力されると故障情報取得を示すステータス情報をマスタFT制御LSIに出力する。
また、スレーブFT制御LSIは、マスタFT制御LSIから出力されるコマンドに基づいて、故障したサブシステムに対する切り離し制御を行う、
なお、図1では、1つのFT制御部が2つのスレーブFT制御LSIを備えるが、接続されるI/Oデバイス数に応じて更に多くのスレーブFT制御LSIを備えることも可能である。
例えば、IOサブシステム300がアクティブ側に設定され、IOサブシステム800がスタンバイ側に設定されている場合、正常動作時は、IOサブシステム300のIOデバイスが使用される。一方、IOサブシステム300に何らかの異常が発生すると、IOサブシステム800がアクティブ側に設定される。そして、IOサブシステム300は、FT制御部200の制御に基づいて、FTシステム1から論理的に切り離される。
また、マスタFTコントローラ213は、CPUサブシステムから出力されるI/O処理要求が、アクティブ側のIOサブシステムに出力され、IOサブシステムから出力されるレスポンスが、アクティブ側のCPUサブシステムに出力されるよう、ルータ211とボータ212とTxクロスリンク214aとを制御する。
Rxクロスリンク214bは、クロスリンクを介してマスタFT制御LSI710に接続され、マスタFT制御LSI710から出力されるトランザクションをルータ211に出力する。
シンクバス入力部217bは、スレーブFT制御LSIからSyncBusを介して出力されるステータス情報を取得する信号入力端であり、取得したステータス情報をマスタFTコントローラ213に出力する。
スレーブ数入力部218は、SyncBusを介してマスタFT制御LSIに接続されるスレーブFT制御LSIの数を示す信号の入力を受け付ける信号入力端(ストラップピン)であり、入力された信号をマスタFTコントローラ213に出力する。本実施形態では、マスタFT制御LSI210に、2つのスレーブFT制御LSIが接続されており、個数「2」を示す信号がスレーブ数入力部218に入力される。このスレーブFT制御LSIの数は、例えば、初期設定時にFTサーバ1の管理者によって設定される。
ここで、レガシーデバイスコントローラおよびインタラプトコントローラは、1つのモジュールに1つのみ含まれるべきコントローラである。そこで、マスタFT制御LSIがレガシーデバイスコントローラおよびインタラプトコントローラを備えることにより、モジュール内におけるレガシーデバイスコントローラやインタラプトコントローラの重複を回避している。
なお、マスタFT制御LSI710の構成はマスタFT制御LSI210の構成と同様であり、説明を省略する。
ルータ221の機能は、ルータ211(図6)の機能と同様であり、説明を省略する。また、ボータ222の機能は、ボータ212の機能と同様であり、説明を省略する。
Rxクロスリンク214bは、クロスリンクを介してスレーブFT制御LSI720に接続され、スレーブFT制御LSI720から出力されるI/O処理要求をルータ221に出力する。
シンクバス出力部227aは、スレーブFTコントローラ223から出力される、書き換えられた二重化関連パケットを、SyncBusを介してスレーブFT制御LSI230に出力する信号出力端である。
なお、スレーブFT制御LSI230、720および730の構成も同様であり、説明を省略する。
このように、同型のFT制御LSIを用いてマスタFT制御LSIおよびスレーブFT制御LSIを実装することにより、1つの型のLSIを設計・製造すればよく、設計負荷を軽減し、また、製造効率を高めることができる。
このようにSyncBusをリング型接続とすることにより、1つのFT制御部に含まれるスレーブFTコントローラの数にかかわらず、マスタFT制御LSIやスレーブFT制御LSIはシンクバス出力部とシンクバス入力部とを1つずつ具備すればよい。従って、スレーブFT制御LSIの数の変更が容易であり、FT制御部が具備するインタフェース数を柔軟に変更できる。
同図に示す「NULL」は、無命令を指示するコマンドであり、正常動作時など、実行すべき命令がない場合に出力される。「Shoot CPU」は、CPUサブシステムの切り離しを指示するコマンドであり、自モジュールのCPUサブシステムにエラーが検出された場合に出力される。「Shoot IO」は、IOサブシステムの切り離しを指示するコマンドであり、自モジュールのIOサブシステムにエラーが検出された場合に出力される。
「Bring-up CPU」は、CPUサブシステムの組み込みを指示するコマンドであり、FTサーバ1の起動時などに出力される。「Bring-up IO」は、IOサブシステムの組み込みを指示するコマンドであり、FTサーバ1の起動時などに出力される。
「Go CPU SMR」は、相手側モジュールのCPUサブシステムの切り離しを指示するコマンドであり、相手側モジュールのCPUサブシステムにエラーが検出された場合に出力される。「Go IO SMR」は、相手側IOサブシステムの切り離しを指示するコマンドであり、相手側モジュールのIOサブシステムにエラーが検出された場合に出力される。
「Voter Wait」は、ボータの一旦停止を指示するコマンドであり、CPUサブシステムのロックステップのずれによって異常が検出された際に、故障箇所が特定されるまでの間ボータの動作を停止させる。
同図に示す「DMR」は、CPUサブシステムおよびIOサブシステムが二重化(Double Module Redundancy;DMR)された状態にあることを示すステータス情報であり、正常動作時に出力される。
「CPU SMR」は、CPUサブシステムが一重化(Single Module Redundancy;SMR)され、IOサブシステムが二重化された状態にあることを示すステータス情報であり、相手側モジュールのCPUサブシステムが切り離されている場合に出力される。
「IO SMR」は、CPUサブシステムが二重化され、IOサブシステムが一重化された状態にあることを示すステータス情報であり、相手側モジュールのIOサブシステムが切り離されている場合に出力される。
「SMR」は、CPUサブシステムおよびIOサブシステムが一重化された状態にあることを示すステータス情報であり、相手側モジュールのCPUサブシステムおよび相手側モジュールのIOサブシステムが切り離されている場合に出力される。
「IO Broken」は、CPUサブシステムが二重化され、自モジュールのIOサブシステムが切り離された状態にあることを示すステータス情報であり、自モジュールのIOサブシステムが切り離されている場合に出力される。
「Broken」は、自モジュールのCPUサブシステムおよび自モジュールのIOサブシステムが切り離された状態にあることを示すステータス情報であり、自モジュールのCPUサブシステムおよび自モジュールのIOサブシステムが切り離された場合に出力される。
「IO Error」は、IOサブシステムのエラーを検出したことを示すステータス情報であり、当該エラー検出時に出力される。
「Unk Error」は、エラー発生箇所を特定できないエラーを検出したことを示すステータス情報であり、当該エラー検出時に出力される。
「DMR Violate」は、二重化状態を逸脱したこと、すなわち、ロックステップ動作が外れた状態にあることを示すステータス情報であり、自モジュールのI/O処理要求と相手側モジュールのI/O処理要求とのずれ検出時に出力される。
MasterCountフィールドは、各スレーブFT制御LSIが同期して動作するためのカウンタ値を格納するフィールドである。本実施形態では、マスタFT制御LSIから出力される二重化関連パケットは、デイジーチェーン構造のSyncBusにて伝達されるため、マスタFT制御LSIからの距離が遠い(間に介在するスレーブLSIの数が多い)スレーブFT制御LSIほど二重化関連パケットの到達時刻が遅くなる。例えば図4において、スレーブFT制御LSI230には、スレーブFT制御LSI220よりも遅れて二重化関連パケットが到達する。
そして、スレーブFT制御LSIは、全てのスレーブFT制御LSIに二重化関連パケットが到達する時刻を待ってコマンドを実行する。例えば、スレーブFT制御LSIは、
現在のカウンタ値=MasterCountの示すカウンタ値+LSI間の伝送に要する時間×スレーブFT制御LSI数
となったときにコマンドを実行する。
本実施形態では、FT制御部200が2つのスレーブFT制御LSI210および220を具備しており、二重化関連パケットにはCmd#1とCmd#2の2つのフィールドが含まれる。
MasterCountフィールドと、Numフィールドとは、マスタFT制御LSIが二重化関連パケットを出力する際の状態から変更されずに返送される。
なお、マスタFTコントローラは、MasterCountフィールドの値に基づいて、スレーブFT制御LSIにおける異常の有無を判断するようにしてもよい。例えば、マスタFTコントローラは、MasterCountフィールドの値に基づいて、二重化関連パケットが出力時と同じ順序で返送されているか否かを判定する。二重化関連パケットが出力時と同じ順序で返送されていない場合や、返送されない二重化関連パケットがある場合、マスタFTコントローラは、いずれかのスレーブFT制御LSIで異常が発生していると判定し、FTサーバ1の管理者に対してエラー表示を行う。
各スレーブFT制御LSIは、二重化関連パケットを受け取ると、Item#i(iは、SyncBusにおける当該スレーブFT制御LSIの、マスタFT制御LSIからの順番を示す、1≦i≦nの正整数)フィールドに格納されているコマンドを読み出し、Item#iフィールドの内容を、当該スレーブFT制御LSIの現在のステータス情報に書き換えて、次のスレーブFT制御LSIに出力する。従って、二重化関連パケットがマスタFT制御LSIに返送される際は、全てのスレーブFT制御LSIのステータス情報が二重化関連パケットに格納されている。
以上のように、マスタFT制御LSIからスレーブFT制御LSIに、コマンドと同期タイミングを示す情報とを出力し、スレーブFT制御LSIからマスタFT制御LSIに、ステータス情報を出力することによって、これらマスタFT制御LSIおよびスレーブFT制御LSIによりフォールト・トレラント制御を行うことができる。このように、複数の比較的小型のLSIにてFT制御部を構成することができるので、製造コストを低減することができる。また、スレーブFT制御LSIの数を増やすことでI/Oポート数を増やすことができるので、柔軟にI/O拡張を行うことができる。
図8は、FTサーバ1が行うフォールト・トレラント制御動作の例を示すシーケンス図である。同図の例では、初期設定により、モジュール10がアクティブ側に設定され、モジュール60がスタンバイ側に設定されている。また、上述したように、CPUサブシステム100および600は、ロックステップ動作により、同期して同一の処理を行っている。
これに対して、各スレーブFTコントローラ223および233は、CPUサブシステム100および600と、I/Oサブシステム300および800とが、いずれも二重化状態にあることを示すステータス情報「DMR」にて、二重化関連パケットのコマンドを書き換えて、マスタFTコントローラ213に返送する(シーケンスS102)。
このように、正常動作時は、コマンド「NULL」の出力(シーケンスS103)およびステータス情報「DMR」の返送が繰り返される。
図8では、IOハブ130の内部で故障が発生場合の動作例が示されている。IOハブ130の内部で故障が発生することにより、IOハブ130と630とは、異なる動作をするようになる。これにより、アクティブ側のモジュール10のスレーブFT制御LSI220において、ボータ222が、両CPUサブシステムからのI/O処理要求の差分を検出する(シーケンスS111)。
そして、スレーブFT制御LSI220のスレーブFTコントローラ223は、ロックステップ動作のずれを検出したことを示すステータス情報「DMR Violate」をマスタFT制御LSI210に返送する(シーケンスS121)。
この二重化関連パケットを受け取ったマスタFT制御LSI210は、クロスリンクを介して相手側モジュール60のマスタFT制御LSI710にエラーの通知を行う(シーケンスS341)。また、マスタFT制御LSI210は、自モジュール10のスレーブFT制御LSI220および230に、CPUサブシステム100を論理的に切り離すよう指示するコマンド「Shoot CPU」を含む二重化関連パケットを出力する(シーケンスS142)。ここで、切り離されるのはCPUサブシステム100だけであり、IOサブシステム300は、依然としてアクティブ側のIOサブシステムとして使用され続ける。
コマンド「Shoot CPU」を受け取ったスレーブFT制御LSI220および230は、CPUサブシステム100の切り離しを行い、切り離しが完了すると、CPUサブシステム100が切り離されている状態であることを示すステータス情報「CPU Broken」を含む二重化関連パケットを、マスタFT制御LSI210に返送する(シーケンスS143)。
以上により、CPUサブシステム100が、FTサーバ1から論理的に切り離され、FTサーバ1は、CPUサブシステム600を用いて動作を継続する。
具体的には、エラーが発生したI/Oデバイスに接続されているスレーブFT制御LSIが、ステータス情報「IO Error」を書き込んだ二重化関連パケットを、マスタFT制御LSIに返送する。この二重化関連パケットを受け取ったマスタFT制御LSIは、コマンド「Shoot IO」を含む二重化関連パケットを出力する。そして、各スレーブFT制御LSIは、コマンド「Shoot IO」に基づいて、エラーが発生したI/Oサブシステムを論理的に切り離してIO Broken状態となる。一方、スタンバイ側のモジュールでは、マスタFT制御LSIが、コマンド「Go IO SMR」の格納された二重化関連パケットをスレーブFT制御LSIに出力し、各スレーブFT制御LSIは、I/Oサブシステムが二重化されていないことを示すIO SMR状態となる。
ここで、本発明を適用してFT制御部を構成する場合、複数のFT制御LSIが必要となるものの、LSIの小型化によりLSI製造の際の歩留まりを上げることができ、トータルの製造コストを低減させることができる。また、スレーブFT制御LSIの数を増減させることによりI/Oバンド幅をフレキシブルに増減させることも可能となり、FTシステムに許容されるコストや要求仕様に応じて、様々なI/Oポート数のFTシステムを提供できる。
10、60 モジュール
100、600 CPUサブシステム
110、610 メインメモリ
120、620 CPU
130、630 IOハブ
200、700 FT制御部
210、710 マスタFT制御LSI
220、230、720、730 スレーブFT制御LSI
211、221 ルータ
212、222 ボータ
213 マスタFTコントローラ
223、233 スレーブFTコントローラ
214a、224a Txクロスリンク
214b、224b Rxクロスリンク
215 レガシーデバイスコントローラ
216 インタラプトコントローラ
217a、227a シンクバス出力部
217b、227b シンクバス入力部
218 スレーブ数入力部
228 スレーブID入力部
300、800 IOサブシステム
310、810 VGAチップ
320、820 サウスブリッジ
330、340、830、840 I/Oスイッチ
350、850 LANチップ
360、860 ストレージチップ
370、380、870、880 PCIeスロット
Claims (6)
- I/O処理要求を出力するCPUサブシステムと、前記I/O処理要求に応じてI/O処理を行うIOサブシステムと、前記CPUサブシステムおよび前記IOサブシステムに接続され、1つのマスタFT制御LSIと1つまたは複数のスレーブFT制御LSIと、を具備するFT制御部と、を具備するモジュールを複数具備する耐故障システムであって、
前記IOサブシステムのいずれか1つがアクティブ側に設定され、他のIOサブシステムはスタンバイ側に設定され、
前記スレーブFT制御LSIの各々は、当該スレーブFT制御LSIに接続される前記CPUサブシステムまたは当該スレーブFT制御LSIに接続される前記IOサブシステムから故障情報が出力されると故障情報取得を示すステータス情報をマスタFT制御LSIに出力し、また、当該スレーブFT制御LSIに接続されるIOサブシステムがアクティブ側に設定されているときは、当該スレーブFT制御LSIに接続されるCPUサブシステムと他のモジュールとから同一のI/O処理要求が出力されると、当該I/O処理要求の1つを、当該スレーブFT制御LSIに接続されるIOサブシステムに出力し、当該IOサブシステムからレスポンスが出力されると、当該スレーブFT制御LSIに接続されるCPUサブシステムと他のモジュールとに前記レスポンスを出力し、当該スレーブFT制御LSIに接続されるIOサブシステムがスタンバイ側に設定されているときは、当該スレーブFT制御LSIに接続されるCPUサブシステムからI/O処理要求が出力されると、当該I/O処理要求の1つを他のモジュールに出力し、他のモジュールからレスポンスが出力されると、当該スレーブFT制御LSIに接続されるCPUサブシステムに当該レスポンスを出力し、
前記マスタFT制御LSIは、前記スレーブFT制御LSIから出力される前記ステータス情報に基づいて、故障したサブシステムに対する切り離し制御を行うコマンドを決定して前記スレーブFT制御LSIに出力し、
前記スレーブFT制御LSIは、前記コマンドに基づいて、故障したサブシステムに対する切り離し制御を行う、
ことを特徴とする耐故障システム。 - 前記マスタFT制御LSIと複数の前記スレーブFT制御LSIとがリンク構造の経路にて接続され、
前記マスタFT制御LSIは、前記リンク構造の経路を介して前記コマンドを前記スレーブFT制御LSIに出力し、
前記スレーブFT制御LSIは、前記リンク構造の経路を介して前記故障情報を前記マスタFT制御LSIに出力する、
ことを特徴とする請求項1に記載の耐故障システム。 - 前記マスタFT制御LSIは、前記コマンドと当該コマンドを実行すべきタイミングを示す情報とを含むパケットを前記スレーブFT制御LSIに出力し、
前記スレーブFT制御LSIは、前記情報の示すタイミングにて前記コマンドを実行する、
ことを特徴とする請求項1または請求項2に記載の耐故障システム。 - 耐故障システムの耐故障制御を行うマスタFT制御LSIであって、
スレーブFT制御LSIに接続可能であり、接続されたスレーブFT制御LSIから出力される故障情報を取得するシンクバス入力部と、
シンクバス入力部が取得する故障情報に基づいて、故障したサブシステムに対する切り離し制御を行うコマンドを決定するマスタFTコントローラと、
接続する前記スレーブFT制御LSIに、前記マスタFTコントローラが決定した前記コマンドを出力するシンクバス出力部と、
を具備することを特徴とするマスタFT制御LSI。 - 耐故障システムの耐故障制御を行うスレーブFT制御LSIであって、
マスタFT制御LSIに接続可能であり、サブシステムから出力される故障情報を、接続する前記マスタFT制御LSIに出力するシンクバス出力部と、
前記マスタFT制御LSIから出力されるコマンドに基づいて、故障したサブシステムに対する切り離し制御を行うスレーブFTコントローラと、
を具備することを特徴とするスレーブFT制御LSI。 - I/O処理要求を出力するCPUサブシステムと、前記I/O処理要求に応じてI/O処理を行うIOサブシステムと、前記CPUサブシステムおよび前記IOサブシステムに接続され、1つのマスタFT制御LSIと1つまたは複数のスレーブFT制御LSIと、を具備するFT制御部と、を具備するモジュールを複数具備し、前記IOサブシステムのいずれか1つがアクティブ側に設定され、他のIOサブシステムはスタンバイ側に設定されている耐故障システムの耐故障制御方法であって、
前記スレーブFT制御LSIの各々が、当該スレーブFT制御LSIに接続されるIOサブシステムがアクティブ側に設定されているときは、当該スレーブFT制御LSIに接続されるCPUサブシステムと他のモジュールとから同一のI/O処理要求が出力されると、1つの当該I/O処理要求を、当該スレーブFT制御LSIに接続されるIOサブシステムに出力し、当該スレーブFT制御LSIに接続されるIOサブシステムがスタンバイ側に設定されているときは、当該スレーブFT制御LSIに接続されるCPUサブシステムからI/O処理要求が出力されると、当該I/O処理要求の1つを他のモジュールに出力するI/O処理要求転送ステップと、
前記スレーブFT制御LSIの各々が、当該スレーブFT制御LSIに接続されるIOサブシステムがアクティブ側に設定されているときは、当該IOサブシステムからレスポンスが出力されると、当該スレーブFT制御LSIに接続されるCPUサブシステムと他のモジュールとに前記レスポンスを出力し、当該スレーブFT制御LSIに接続されるIOサブシステムがスタンバイ側に設定されているときは、他のモジュールからレスポンスが出力されると、当該スレーブFT制御LSIに接続されるCPUサブシステムに当該レスポンスを出力するレスポンス転送ステップと、
前記スレーブFT制御LSIの各々が、当該スレーブFT制御LSIに接続される前記CPUサブシステムまたは当該スレーブFT制御LSIに接続される前記IOサブシステムから故障情報が出力されると故障情報取得を示すステータス情報をマスタFT制御LSIに出力するステータス情報出力ステップと、
前記マスタFT制御LSIが、前記スレーブFT制御LSIから出力される前記ステータス情報に基づいて、故障したサブシステムに対する切り離し制御を行うコマンドを決定して前記スレーブFT制御LSIに出力するコマンド出力ステップと、
前記スレーブFT制御LSIが、前記コマンドに基づいて、故障したサブシステムに対する切り離し制御を行う切り離し実行ステップと、
を具備することを特徴とする耐故障制御方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010205378A JP5585332B2 (ja) | 2010-09-14 | 2010-09-14 | 耐故障システム、マスタft制御lsi、スレーブft制御lsiおよび耐故障制御方法 |
US13/229,956 US8924772B2 (en) | 2010-09-14 | 2011-09-12 | Fault-tolerant system and fault-tolerant control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010205378A JP5585332B2 (ja) | 2010-09-14 | 2010-09-14 | 耐故障システム、マスタft制御lsi、スレーブft制御lsiおよび耐故障制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012063828A true JP2012063828A (ja) | 2012-03-29 |
JP5585332B2 JP5585332B2 (ja) | 2014-09-10 |
Family
ID=45807845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010205378A Expired - Fee Related JP5585332B2 (ja) | 2010-09-14 | 2010-09-14 | 耐故障システム、マスタft制御lsi、スレーブft制御lsiおよび耐故障制御方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8924772B2 (ja) |
JP (1) | JP5585332B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015179386A (ja) * | 2014-03-19 | 2015-10-08 | 三菱電機インフォメーションネットワーク株式会社 | フォールトトレラントサーバ装置及び通信制御装置の切替プログラム |
WO2016151674A1 (ja) * | 2015-03-20 | 2016-09-29 | ルネサスエレクトロニクス株式会社 | データ処理装置 |
JP2019165273A (ja) * | 2018-03-19 | 2019-09-26 | Necプラットフォームズ株式会社 | 通信システム、通信装置、通信装置のテスト制御方法、及び通信装置のテスト制御プログラム |
US10642782B2 (en) | 2016-12-08 | 2020-05-05 | Electronics And Telecommunications Research Institute | Multi-core processor and operation method thereof |
US10740167B2 (en) | 2016-12-07 | 2020-08-11 | Electronics And Telecommunications Research Institute | Multi-core processor and cache management method thereof |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014082713A (ja) * | 2012-10-18 | 2014-05-08 | Canon Inc | データ処理装置及びその制御方法 |
US9124339B2 (en) * | 2013-04-04 | 2015-09-01 | Maxlinear, Inc. | Loop-through for multi-chip communication systems |
US10002056B2 (en) | 2015-09-15 | 2018-06-19 | Texas Instruments Incorporated | Integrated circuit chip with cores asymmetrically oriented with respect to each other |
JP6436242B2 (ja) * | 2015-09-17 | 2018-12-12 | 株式会社安川電機 | 産業機器の通信システム、通信方法、及び産業機器 |
US11354449B2 (en) | 2018-04-27 | 2022-06-07 | Tesla, Inc. | Secure initial provisioning of a system on a chip |
US11423178B2 (en) * | 2018-04-27 | 2022-08-23 | Tesla, Inc. | Isolation of subsystems on a system on a chip |
CN109240841B (zh) * | 2018-07-02 | 2021-12-14 | 广东睿江云计算股份有限公司 | 一种联合文件系统故障发现与隔离方法及装置 |
CN111694304B (zh) * | 2020-06-12 | 2021-11-09 | 西安微电子技术研究所 | 一种面向空间飞行器的综合故障逻辑判决电路及方法 |
EP3936949A1 (de) * | 2020-07-09 | 2022-01-12 | Siemens Aktiengesellschaft | Verfahren zum betreiben eines redundanten automatisierungssystems und redundantes automatisierungssystem |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59225428A (ja) * | 1983-06-07 | 1984-12-18 | Fujitsu Ltd | 入出力処理装置 |
JPH09128354A (ja) * | 1995-11-07 | 1997-05-16 | Hitachi Ltd | 多重化コンピュータシステム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6708283B1 (en) * | 2000-04-13 | 2004-03-16 | Stratus Technologies, Bermuda Ltd. | System and method for operating a system with redundant peripheral bus controllers |
US7370239B2 (en) * | 2001-05-31 | 2008-05-06 | Fisher-Rosemount Systems, Inc. | Input/output device with configuration, fault isolation and redundant fault assist functionality |
US7069477B2 (en) * | 2002-10-30 | 2006-06-27 | International Business Machines Corporation | Methods and arrangements to enhance a bus |
JP4411602B2 (ja) | 2004-12-16 | 2010-02-10 | 日本電気株式会社 | フォールトトレラント・コンピュータシステム |
US7853821B2 (en) * | 2006-04-17 | 2010-12-14 | Hewlett-Packard Development Company, L.P. | Identifying one or more storage devices causing a failure condition during discovery of storage devices |
JP4884885B2 (ja) * | 2006-08-25 | 2012-02-29 | 株式会社日立製作所 | 記憶制御装置及び記憶制御装置の障害回復方法 |
US7647463B2 (en) * | 2006-11-16 | 2010-01-12 | International Business Machines Corporation | Apparatus, system and method for detection of mismatches in continuous remote copy using metadata |
-
2010
- 2010-09-14 JP JP2010205378A patent/JP5585332B2/ja not_active Expired - Fee Related
-
2011
- 2011-09-12 US US13/229,956 patent/US8924772B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59225428A (ja) * | 1983-06-07 | 1984-12-18 | Fujitsu Ltd | 入出力処理装置 |
JPH09128354A (ja) * | 1995-11-07 | 1997-05-16 | Hitachi Ltd | 多重化コンピュータシステム |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015179386A (ja) * | 2014-03-19 | 2015-10-08 | 三菱電機インフォメーションネットワーク株式会社 | フォールトトレラントサーバ装置及び通信制御装置の切替プログラム |
WO2016151674A1 (ja) * | 2015-03-20 | 2016-09-29 | ルネサスエレクトロニクス株式会社 | データ処理装置 |
CN106796541A (zh) * | 2015-03-20 | 2017-05-31 | 瑞萨电子株式会社 | 数据处理装置 |
JPWO2016151674A1 (ja) * | 2015-03-20 | 2017-06-15 | ルネサスエレクトロニクス株式会社 | データ処理装置 |
US10248156B2 (en) | 2015-03-20 | 2019-04-02 | Renesas Electronics Corporation | Data processing device |
CN106796541B (zh) * | 2015-03-20 | 2021-03-09 | 瑞萨电子株式会社 | 数据处理装置 |
US10740167B2 (en) | 2016-12-07 | 2020-08-11 | Electronics And Telecommunications Research Institute | Multi-core processor and cache management method thereof |
US10642782B2 (en) | 2016-12-08 | 2020-05-05 | Electronics And Telecommunications Research Institute | Multi-core processor and operation method thereof |
JP2019165273A (ja) * | 2018-03-19 | 2019-09-26 | Necプラットフォームズ株式会社 | 通信システム、通信装置、通信装置のテスト制御方法、及び通信装置のテスト制御プログラム |
JP7188895B2 (ja) | 2018-03-19 | 2022-12-13 | Necプラットフォームズ株式会社 | 通信システム |
Also Published As
Publication number | Publication date |
---|---|
US8924772B2 (en) | 2014-12-30 |
JP5585332B2 (ja) | 2014-09-10 |
US20120066545A1 (en) | 2012-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5585332B2 (ja) | 耐故障システム、マスタft制御lsi、スレーブft制御lsiおよび耐故障制御方法 | |
US6131169A (en) | Reliability of crossbar switches in an information processing system | |
US7441150B2 (en) | Fault tolerant computer system and interrupt control method for the same | |
US8880768B2 (en) | Storage controller system with data synchronization and method of operation thereof | |
JP2005505056A (ja) | モジュラーdmaアーキテクチャを用いた制御装置データ共有 | |
GB2425378A (en) | Redundant interfaces which appear to be a single interface | |
JP2013206278A (ja) | 冗長化システム、冗長化方法、冗長化システムの可用性向上方法、及びプログラム | |
JPH0934809A (ja) | 高信頼化コンピュータシステム | |
KR100258079B1 (ko) | 밀결합 결함 허용 시스템에서 메모리 버스 확장에 의한 동시 쓰기 이중화 장치 | |
JP2005293315A (ja) | データミラー型クラスタシステム及びデータミラー型クラスタシステムの同期制御方法 | |
WO2021012169A1 (zh) | 一种提高存储系统可靠性的方法和相关装置 | |
JP4755050B2 (ja) | データ処理装置、モード管理装置、及びモード管理方法 | |
WO2010100757A1 (ja) | 演算処理システム、再同期方法、およびファームプログラム | |
JPH08305592A (ja) | マルチプロセッサシステム | |
KR20040007310A (ko) | 정보 처리 장치 | |
JP4182486B2 (ja) | フォールト・トレラント・コンピュータ・リセット方法及びそのシステム | |
JP5511546B2 (ja) | フォールトトレラントの計算機システム、複数の物理サーバとストレージ装置とに接続されるスイッチ装置、及び、サーバ同期制御方法 | |
US7243257B2 (en) | Computer system for preventing inter-node fault propagation | |
JP5115075B2 (ja) | 転送装置、転送装置を有する情報処理装置及び制御方法 | |
JP3015537B2 (ja) | 電子計算機の二重化方式 | |
JP3015538B2 (ja) | 電子計算機の二重化方式 | |
CN113345495A (zh) | 伺服器及相关的控制方法 | |
CN113342260A (zh) | 伺服器与应用于伺服器的控制方法 | |
CN113342257A (zh) | 伺服器及相关的控制方法 | |
JPH09190416A (ja) | 二重化コンピュータシステム及び二重化i/o制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130710 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140618 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140624 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140707 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5585332 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |