JP2010218370A - フォールトトレラントシステム - Google Patents
フォールトトレラントシステム Download PDFInfo
- Publication number
- JP2010218370A JP2010218370A JP2009065988A JP2009065988A JP2010218370A JP 2010218370 A JP2010218370 A JP 2010218370A JP 2009065988 A JP2009065988 A JP 2009065988A JP 2009065988 A JP2009065988 A JP 2009065988A JP 2010218370 A JP2010218370 A JP 2010218370A
- Authority
- JP
- Japan
- Prior art keywords
- cpu
- bridge
- tolerant system
- error detection
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1629—Error detection by comparing the output of redundant processing systems
- G06F11/1641—Error detection by comparing the output of redundant processing systems where the comparison is not performed by the redundant processing components
- G06F11/1645—Error detection by comparing the output of redundant processing systems where the comparison is not performed by the redundant processing components and the comparison itself uses redundant hardware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1675—Temporal synchronisation or re-synchronisation of redundant processing components
- G06F11/1679—Temporal synchronisation or re-synchronisation of redundant processing components at clock signal level
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
Abstract
【解決手段】ロックステップ方式のフォールトトレラントシステム10において、各サブシステム1、2は、CPU21−メモリ11間、CPU22−メモリ12間、CPU21−ノースブリッジ31間、CPU22−ノースブリッジ31間、および、CPU21−CPU22間に配置され、中継するデータからチェックサムを作成するブリッジ71〜75と、作成したチェックサムをFTコントローラ41に送信するためのFTバス81とを有する。そして、FTコントローラ41は、ブリッジ71〜75から送信されたチェックサムと、クロスリンクを介して受信した他サブシステムから送信されたチェックサムとを比較して不一致を検出することで、サブシステム1、2間の処理の不一致を検知する。
【選択図】図1
Description
互いに同一のハードウェア及びソフトウェアで構成された複数のサブシステムを備え、ロックステップ方式により、各サブシステム間で同一の処理が実行されるフォールトトレラントシステムにおいて、
前記複数のサブシステムは、それぞれ、
ノースブリッジとIOブリッジ間の通信を中継するとともに他サブシステムに接続される制御部と、
少なくとも、CPU(中央演算処理装置)間、CPUとメモリ間、および、CPUとノースブリッジ間の何れかに配置され、配置された両者間で送受信されるデータからエラー検出用のデータを作成するエラー検出用データ作成部と、
前記エラー検出用データ作成部と前記制御部とを接続する信号伝送路と、を備え、
前記制御部は、
前記信号伝送路を介して受信した前記エラー検出用データ作成部が作成したエラー検出用のデータと他サブシステムから受信したエラー検出用のデータとを比較して不一致を検出することで、サブシステム間での処理の不一致を検出する、
ことを特徴とする。
図1は、本発明の第1の実施形態に係るフォールトトレラントシステム10の構成例を示すブロック図である。フォールトトレラントシステム10は、同一のハードウェア、ソフトウェアから構成され、且つ、同一クロックで動作するサブシステム1、2を備える。
メモリ11、12は、それぞれ、各ブリッジ71、72を介して各CPU21、22と接続され、データ等を記憶したり、各CPU21、22の作業領域となる。
具体的には、例えば、FTコントローラ41は、FTバス81を介して、自システム内の各ブリッジ71〜75から出力されるエラー検出用のデータ(チェックサム)を受信する。また、FTコントローラ41は、クロスリンクを介して、他方のサブシステムからも同様にチェックサムを受信する。そして、FTコントローラ41は、この2つのチェックサムを比較して不一致がある場合にエラー(サブシステム1、2間の同期外れ)が発生したものと判別し、サブシステム1、2の一方をシステムから切り離す処理等を行う。
IOデバイス61は、ハードディスクドライブや、LAN(Local Area Network)ポートなどの各種のデバイスであり、IOブリッジ51に接続される。
尚、ここでは、サブシステム1において、CPU21がCPU22に、ブリッジ75を介して、複数パケットからなるシリアルデータを送信する処理について説明する。なお、サブシステム2側においても、同一クロックで、同一のデータ送信処理が実行されている。
最後のパケットであると判別した場合(ステップS33;Yes)、計算部B9は、ステップS32で作成したチェックサムを出力ポートB11に送信し、出力ポートB11は、FTバス81を介して、FTコントローラ41にチェックサムを送信する(ステップS34)。そして、計算部B9は、送信したチェックサムをリセット(消去)する(ステップS35)。以上で、計算部B9による処理は終了する。
なお、サブシステム2のFTコントローラ41においても、FTバス81を介して受信したチェックサムと、サブシステム1から受信したチェックサムとを比較して、同様のエラーを検出する処理を実行してもよい。以上で、サブシステム1において、CPU21からCPU22にデータが送信された場合の処理は終了する。
第1の実施形態に係るフォールトトレラントシステム10では、CPU−メモリ間、CPU−CPU間、および、CPU−ノースブリッジ間のそれぞれにブリッジが配置され、両者間でやりとりされるデータ(パケット)からチェックサムを作成した。第2の実施形態では、このようなブリッジによる処理をスヌーパが代行することを特徴とする。
第2の実施形態に係るフォールトトレラントシステム100は、CPU21−メモリ11間、CPU22−メモリ12間、CPU21−ノースブリッジ31間、CPU22−ノースブリッジ31間、および、CPU21−CPU22間に、ブリッジ71〜75の代わりにスヌーパ91〜95がそれぞれ配置される。
受信部N1、N2と、内部バスN3、N4と、クロックバスN5、N6と、計算部N7、N8と、出力ポートN9とを備えて構成される。
11,12 メモリ
21,22 CPU
31 ノーズブリッジ
41 FTコントローラ
51 IOブリッジ
61 IOデバイス
71,72,73,74,75 ブリッジ
81 FTバス
91,92,93,94,95 スヌーパ
10,100 フォールトトレラントシステム
Claims (5)
- 互いに同一のハードウェア及びソフトウェアで構成された複数のサブシステムを備え、ロックステップ方式により、各サブシステム間で同一の処理が実行されるフォールトトレラントシステムにおいて、
前記複数のサブシステムは、それぞれ、
ノースブリッジとIOブリッジ間の通信を中継するとともに他サブシステムに接続される制御部と、
少なくとも、CPU(中央演算処理装置)間、CPUとメモリ間、および、CPUとノースブリッジ間の何れかに配置され、配置された両者間で送受信されるデータからエラー検出用のデータを作成するエラー検出用データ作成部と、
前記エラー検出用データ作成部と前記制御部とを接続する信号伝送路と、を備え、
前記制御部は、
前記信号伝送路を介して受信した前記エラー検出用データ作成部が作成したエラー検出用のデータと他サブシステムから受信したエラー検出用のデータとを比較して不一致を検出することで、サブシステム間での処理の不一致を検出する、
ことを特徴とするフォールトトレラントシステム。 - 前記エラー検出用データ作成部は、配置された両者間で送受信されるデータを中継するブリッジである、
ことを特徴とする請求項1に記載のフォールトトレラントシステム。 - 前記エラー検出用データ作成部は、配置された両者間で送受信されるデータを監視するスヌーパである、
ことを特徴とする請求項1又は2に記載のフォールトトレラントシステム。 - 前記エラー検出用データ作成部は、配置された両者間で送受信される複数パケット分のデータから1つのエラー検出用のデータを作成する、
ことを特徴とする請求項1乃至3の何れか1項に記載のフォールトトレラントシステム。 - 前記エラー検出用データ作成部は、配置された両者間で送受信されるデータを並列化し、並列化したデータからエラー検出用のデータを作成する、
ことを特徴とする請求項1乃至4の何れか1項に記載のフォールトトレラントシステム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009065988A JP5509637B2 (ja) | 2009-03-18 | 2009-03-18 | フォールトトレラントシステム |
US12/725,147 US8140893B2 (en) | 2009-03-18 | 2010-03-16 | Fault-tolerant system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009065988A JP5509637B2 (ja) | 2009-03-18 | 2009-03-18 | フォールトトレラントシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010218370A true JP2010218370A (ja) | 2010-09-30 |
JP5509637B2 JP5509637B2 (ja) | 2014-06-04 |
Family
ID=42738676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009065988A Expired - Fee Related JP5509637B2 (ja) | 2009-03-18 | 2009-03-18 | フォールトトレラントシステム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8140893B2 (ja) |
JP (1) | JP5509637B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013088826A (ja) * | 2011-10-13 | 2013-05-13 | Hitachi Ltd | 冗長系システムにおけるデータ入力方式 |
JP2014106862A (ja) * | 2012-11-29 | 2014-06-09 | Taiyo Nippon Sanso Corp | 冗長化システムおよび冗長化方法 |
JP2015069270A (ja) * | 2013-09-27 | 2015-04-13 | 日本電気株式会社 | フォールトトレラントシステム |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8032889B2 (en) | 2006-04-05 | 2011-10-04 | Maxwell Technologies, Inc. | Methods and apparatus for managing and controlling power consumption and heat generation in computer systems |
US8930753B2 (en) * | 2010-10-28 | 2015-01-06 | Maxwell Technologies, Inc. | System, method and apparatus for error correction in multi-processor systems |
US8516355B2 (en) | 2011-02-16 | 2013-08-20 | Invensys Systems, Inc. | System and method for fault tolerant computing using generic hardware |
US8745467B2 (en) | 2011-02-16 | 2014-06-03 | Invensys Systems, Inc. | System and method for fault tolerant computing using generic hardware |
JP5760847B2 (ja) * | 2011-08-22 | 2015-08-12 | 日本電気株式会社 | 情報処理装置、情報処理システム、情報処理装置の異常兆候検出方法、及び異常兆候検出プログラム |
WO2015016843A1 (en) * | 2013-07-30 | 2015-02-05 | Hewlett-Packard Development Company, L.P. | Connector for a computing assembly |
US10185633B2 (en) * | 2015-12-15 | 2019-01-22 | Intel Corporation | Processor state integrity protection using hash verification |
JP6083480B1 (ja) * | 2016-02-18 | 2017-02-22 | 日本電気株式会社 | 監視装置、フォールトトレラントシステムおよび方法 |
JP6554048B2 (ja) * | 2016-02-29 | 2019-07-31 | 株式会社日立製作所 | 表示装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02114337A (ja) * | 1988-10-25 | 1990-04-26 | Mitsubishi Electric Corp | 2重化計算機システム |
JPH09245008A (ja) * | 1996-03-05 | 1997-09-19 | Hitachi Ltd | 二重化データ一致化方法および二重化制御装置 |
JP2002049501A (ja) * | 2000-08-04 | 2002-02-15 | Nippon Telegr & Teleph Corp <Ntt> | 耐故障性システム及びその故障切り分け方法 |
JP2006172391A (ja) * | 2004-12-20 | 2006-06-29 | Nec Corp | フォールト・トレラント・コンピュータ・リセット方法及びそのシステム |
JP2006172220A (ja) * | 2004-12-16 | 2006-06-29 | Nec Corp | フォールトトレラント・コンピュータシステム |
JP2006178616A (ja) * | 2004-12-21 | 2006-07-06 | Nec Corp | フォールトトレラントシステム、これで用いる制御装置、動作方法、及び動作プログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6948092B2 (en) * | 1998-12-10 | 2005-09-20 | Hewlett-Packard Development Company, L.P. | System recovery from errors for processor and associated components |
US6633996B1 (en) * | 2000-04-13 | 2003-10-14 | Stratus Technologies Bermuda Ltd. | Fault-tolerant maintenance bus architecture |
US6874052B1 (en) * | 2000-09-29 | 2005-03-29 | Lucent Technologies Inc. | Expansion bridge apparatus and method for an I2C bus |
US6751749B2 (en) * | 2001-02-22 | 2004-06-15 | International Business Machines Corporation | Method and apparatus for computer system reliability |
US6862693B2 (en) * | 2001-04-13 | 2005-03-01 | Sun Microsystems, Inc. | Providing fault-tolerance by comparing addresses and data from redundant processors running in lock-step |
US6938183B2 (en) * | 2001-09-21 | 2005-08-30 | The Boeing Company | Fault tolerant processing architecture |
GB2399913B (en) * | 2002-03-19 | 2004-12-15 | Sun Microsystems Inc | Fault tolerant computer system |
US20060236168A1 (en) * | 2005-04-01 | 2006-10-19 | Honeywell International Inc. | System and method for dynamically optimizing performance and reliability of redundant processing systems |
US7272681B2 (en) * | 2005-08-05 | 2007-09-18 | Raytheon Company | System having parallel data processors which generate redundant effector date to detect errors |
US7797575B2 (en) * | 2007-04-04 | 2010-09-14 | International Business Machines Corporation | Triple voting cell processors for single event upset protection |
-
2009
- 2009-03-18 JP JP2009065988A patent/JP5509637B2/ja not_active Expired - Fee Related
-
2010
- 2010-03-16 US US12/725,147 patent/US8140893B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02114337A (ja) * | 1988-10-25 | 1990-04-26 | Mitsubishi Electric Corp | 2重化計算機システム |
JPH09245008A (ja) * | 1996-03-05 | 1997-09-19 | Hitachi Ltd | 二重化データ一致化方法および二重化制御装置 |
JP2002049501A (ja) * | 2000-08-04 | 2002-02-15 | Nippon Telegr & Teleph Corp <Ntt> | 耐故障性システム及びその故障切り分け方法 |
JP2006172220A (ja) * | 2004-12-16 | 2006-06-29 | Nec Corp | フォールトトレラント・コンピュータシステム |
JP2006172391A (ja) * | 2004-12-20 | 2006-06-29 | Nec Corp | フォールト・トレラント・コンピュータ・リセット方法及びそのシステム |
JP2006178616A (ja) * | 2004-12-21 | 2006-07-06 | Nec Corp | フォールトトレラントシステム、これで用いる制御装置、動作方法、及び動作プログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013088826A (ja) * | 2011-10-13 | 2013-05-13 | Hitachi Ltd | 冗長系システムにおけるデータ入力方式 |
JP2014106862A (ja) * | 2012-11-29 | 2014-06-09 | Taiyo Nippon Sanso Corp | 冗長化システムおよび冗長化方法 |
JP2015069270A (ja) * | 2013-09-27 | 2015-04-13 | 日本電気株式会社 | フォールトトレラントシステム |
US9477559B2 (en) | 2013-09-27 | 2016-10-25 | Nec Corporation | Control device, control method and recording medium storing program thereof |
Also Published As
Publication number | Publication date |
---|---|
JP5509637B2 (ja) | 2014-06-04 |
US8140893B2 (en) | 2012-03-20 |
US20100241909A1 (en) | 2010-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5509637B2 (ja) | フォールトトレラントシステム | |
US7237144B2 (en) | Off-chip lockstep checking | |
US7065672B2 (en) | Apparatus and methods for fault-tolerant computing using a switching fabric | |
CN110532117B (zh) | 针对在第一和第二时钟域之间传输的主信号的错误检查 | |
US7539897B2 (en) | Fault tolerant system and controller, access control method, and control program used in the fault tolerant system | |
US7821919B2 (en) | Data processing apparatus and data processing method | |
JP5772911B2 (ja) | フォールトトレラントシステム | |
JP6368034B2 (ja) | データ処理装置 | |
US20090307549A1 (en) | Processor test system utilizing functional redundancy | |
JP2006178730A (ja) | 安全信号i/f装置およびその二重化信号入力処理方法 | |
JP2013200616A (ja) | 情報処理装置及び情報処理装置の復旧回路 | |
JP3261014B2 (ja) | データ処理システムにおけるモジュール交換方法および自己診断方法 | |
JP5604799B2 (ja) | フォールトトレラントコンピュータ | |
US20230229131A1 (en) | Redundant Automation System and Method for Operating the Redundant Automation System | |
Proerzza et al. | A low-cost fail-safe circuit for fault-tolerant control systems | |
JP2018050172A (ja) | 情報処理装置、演算処理装置、及び情報処理装置の制御方法 | |
JP6653250B2 (ja) | 計算機システム | |
Cluster | Sergio Pertuz İD Cornelia Wulf, Najdet Charaf®, Lester Kalms, and Diana Göhringer İD Adaptive Dynamic Systems, TU Dresden, Dresden, Germany sergio. pertuz@ tu-dresden. de | |
JPH08190494A (ja) | 二重化処理装置を有する高信頼化コンピュータ | |
JPH09244909A (ja) | 情報処理システム | |
JPH1145189A (ja) | データ設定方法及びデータ処理装置 | |
JPWO2008050456A1 (ja) | コンピュータシステム、データ中継装置およびコンピュータシステム制御方法 | |
JPH04155535A (ja) | 情報処理装置の障害検出方式 | |
Jelemenska et al. | Progress in Transputer and Occam Research 155 R. Miles and A. Chalmers (Eds.) IOS Press, 1994 | |
JP2001102457A (ja) | 複数コントローラ内蔵のlsi及び同lsiを備えたlsi組み合わせシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140310 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5509637 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |