JP2009205362A - コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム - Google Patents
コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム Download PDFInfo
- Publication number
- JP2009205362A JP2009205362A JP2008046087A JP2008046087A JP2009205362A JP 2009205362 A JP2009205362 A JP 2009205362A JP 2008046087 A JP2008046087 A JP 2008046087A JP 2008046087 A JP2008046087 A JP 2008046087A JP 2009205362 A JP2009205362 A JP 2009205362A
- Authority
- JP
- Japan
- Prior art keywords
- processor
- memory
- processor board
- failure
- board
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/203—Failover techniques using migration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1658—Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
【解決手段】 プロセッサ、メモリ、チップセットを搭載する複数のプロセッサボード100、200を備えるコンピュータ装置で、運用中のプロセッサボード100のプロセッサ内部で訂正不可能な障害が発生した場合、障害によって不定となったキャッシュ上のデータを無効化する機能と、予備用のプロセッサボード200のプロセッサへ運用を動的に切り替えて、障害の発生時に実行していた命令を再実行する機能を含む。
【選択図】 図2
Description
本発明の目的は、訂正不可能な障害が発生した場合でも、コンピュータ装置を停止することなく継続運用を可能とするコンピュータ装置、コンピュータ装置の運用継続方法及びプログラムを提供することにある。
以上のように、プロセッサボード100上のBIOS(A)104と、予備プロセッサボード200上のBIOS(B)204が連携することによって、2Bitエラーによって不定となったデータを無効化すると共に、プロセッサの内部状態を示す情報とメモリ上の全てのデータを、プロセッサボード100から予備プロセッサボード200へコピーする。また、予備プロセッサボード200上のBIOS(B)204が、命令実効アドレスを2Bitエラーが検出された時点で実行していた命令のアドレスへ書き換え、命令を再実行することで、2Bitエラーとなったデータを再度メモリから読み出し、予備プロセッサボード200側でOS300の動作を再開する。
100:プロセッサボード
100−0〜100−n:CPU
101:バス
102:チップセット
103:メモリ
104:BIOS(A)
200:プロセッサボード
200−0〜200−n:CPU
201:バス
202:チップセット
203:メモリ
204:BIOS(B)
300:OS
Claims (18)
- プロセッサ、メモリ、チップセットを搭載する複数のプロセッサボードを備えるコンピュータ装置において、
運用中の前記プロセッサボードのプロセッサ内部で訂正不可能な障害が発生した場合、前記障害によって不定となったキャッシュ上のデータを無効化する機能と、予備用の前記プロセッサボードのプロセッサへ運用を動的に切り替えて、前記障害の発生時に実行していた命令を再実行する機能を備えることを特徴とするコンピュータ装置。 - 障害が発生した前記プロセッサボードが、前記キャッシュ上の有効なデータと、運用中の前記プロセッサの内部状態を示す情報を前記メモリに保存し、前記メモリに保存した有効なデータと前記プロセッサの内部状態を示す情報を、前記予備用のプロセッサボードのメモリにコピーし、
前記予備用のプロセッサボードが、前記メモリにコピーされたプロセッサの内部状態を示す情報を読み出して当該プロセッサへコピーし、前記命令を再実行することを特徴とする請求項1に記載のコンピュータ装置。 - 前記障害が発生した前記プロセッサボードが、前記チップセット内の設定値を、前記予備用のプロセッサボードの前記チップセットの設定値と入れ替えることを特徴とする請求項2に記載のコンピュータ装置。
- 前記障害が発生した前記プロセッサボードが、前記障害のログを解析することにより、前記キャッシュ上で前記障害によって不定となったデータを特定し、
特定したデータを無効化した後、前記キャッシュ上の全ての有効なデータを、前記メモリに書き出すことを特徴とする請求項2又は請求項3に記載のコンピュータ装置。 - 前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を読み出して当該プロセッサボードのプロセッサへコピーし、命令実行アドレスを前記障害の発生時に実行していた命令のアドレスへ書き換えることで、前記命令を再実行することを特徴とする請求項2から請求項4の何れかに記載のコンピュータ装置。
- 運用中の前記プロセッサボードが複数のプロセッサを搭載する場合、全てのプロセッサの内部状態を示す情報を、前記メモリ上に保存し、
前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を、全てのプロセッサへコピーすることを特徴とする請求項2から請求項5の何れかに記載のコンピュータ装置。 - プロセッサ、メモリ、チップセットを搭載する複数のプロセッサボードを備えるコンピュータ装置の運用継続方法であって、
運用中の前記プロセッサボードのプロセッサ内部で訂正不可能な障害が発生した場合、前記障害によって不定となったキャッシュ上のデータを無効化し、
予備用の前記プロセッサボードのプロセッサへ運用を動的に切り替えて、前記障害の発生時に実行していた命令を再実行することを特徴とするコンピュータ装置の運用継続方法。 - 障害が発生した前記プロセッサボードが、前記キャッシュ上の有効なデータと、運用中の前記プロセッサの内部状態を示す情報を前記メモリに保存し、前記メモリに保存した有効なデータと前記プロセッサの内部状態を示す情報を、前記予備用のプロセッサボードのメモリにコピーし、
前記予備用のプロセッサボードが、前記メモリにコピーされたプロセッサの内部状態を示す情報を読み出して当該プロセッサへコピーし、前記命令を再実行することを特徴とする請求項7に記載のコンピュータ装置の運用継続方法。 - 前記障害が発生した前記プロセッサボードが、前記チップセット内の設定値を、前記予備用のプロセッサボードの前記チップセットの設定値と入れ替えることを特徴とする請求項8に記載のコンピュータ装置の運用継続方法。
- 前記障害が発生した前記プロセッサボードが、前記障害のログを解析することにより、前記キャッシュ上で前記障害によって不定となったデータを特定し、
特定したデータを無効化した後、前記キャッシュ上の全ての有効なデータを、前記メモリに書き出すことを特徴とする請求項8又は請求項9に記載のコンピュータ装置の運用継続方法。 - 前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を読み出して当該プロセッサボードのプロセッサへコピーし、命令実行アドレスを前記障害の発生時に実行していた命令のアドレスへ書き換えることで、前記命令を再実行することを特徴とする請求項8から請求項10の何れかに記載のコンピュータ装置の運用継続方法。
- 運用中の前記プロセッサボードが複数のプロセッサを搭載する場合、全てのプロセッサの内部状態を示す情報を、前記メモリ上に保存し、
前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を、全てのプロセッサへコピーすることを特徴とする請求項8から請求項11の何れかに記載のコンピュータ装置の運用継続方法。 - プロセッサ、メモリ、チップセットを搭載する複数のプロセッサボードを備えるコンピュータ装置で実行され、前記コンピュータ装置の運用を継続するプログラムであって、
前記コンピュータ装置に、
運用中の前記プロセッサボードのプロセッサ内部で訂正不可能な障害が発生した場合、前記障害によって不定となったキャッシュ上のデータを無効化する処理と、
予備用の前記プロセッサボードのプロセッサへ運用を動的に切り替えて、前記障害の発生時に実行していた命令を再実行する処理を実行させることを特徴とするプログラム。 - 障害が発生した前記プロセッサボードにおいて、前記キャッシュ上の有効なデータと、運用中の前記プロセッサの内部状態を示す情報を前記メモリに保存し、前記メモリに保存した有効なデータと前記プロセッサの内部状態を示す情報を、前記予備用のプロセッサボードのメモリにコピーする処理と、
前記予備用のプロセッサボードにおいて、前記メモリにコピーされたプロセッサの内部状態を示す情報を読み出して当該プロセッサへコピーし、前記命令を再実行する処理を実行させることを特徴とする請求項13に記載のプログラム。 - 前記障害が発生した前記プロセッサボードにおいて、前記チップセット内の設定値を、前記予備用のプロセッサボードの前記チップセットの設定値と入れ替える処理を実行させることを特徴とする請求項13に記載のプログラム。
- 前記障害が発生した前記プロセッサボードにおいて、前記障害のログを解析することにより、前記キャッシュ上で前記障害によって不定となったデータを特定する処理と、特定したデータを無効化した後、前記キャッシュ上の全ての有効なデータを、前記メモリに書き出す処理を実行させることを特徴とする請求項14又は請求項15に記載のプログラム。
- 前記予備用のプロセッサボードにおいて、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を読み出して当該プロセッサボードのプロセッサへコピーし、命令実行アドレスを前記障害の発生時に実行していた命令のアドレスへ書き換えることで、前記命令を再実行する処理を実行させることを特徴とする請求項14から請求項16の何れかに記載のプログラム。
- 運用中の前記プロセッサボードが複数のプロセッサを搭載する場合、全てのプロセッサの内部状態を示す情報を、前記メモリ上に保存し、
前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を、全てのプロセッサへコピーすることを特徴とする請求項14から請求項17の何れかに記載のプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008046087A JP5224038B2 (ja) | 2008-02-27 | 2008-02-27 | コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム |
US12/391,576 US8181063B2 (en) | 2008-02-27 | 2009-02-24 | Computer device, continuing operation method for computer device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008046087A JP5224038B2 (ja) | 2008-02-27 | 2008-02-27 | コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009205362A true JP2009205362A (ja) | 2009-09-10 |
JP5224038B2 JP5224038B2 (ja) | 2013-07-03 |
Family
ID=40999528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008046087A Expired - Fee Related JP5224038B2 (ja) | 2008-02-27 | 2008-02-27 | コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8181063B2 (ja) |
JP (1) | JP5224038B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027610A (ja) * | 2010-07-21 | 2012-02-09 | Toyota Infotechnology Center Co Ltd | 自己回復コンピュータシステムのためのアーキテクチャ |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5403054B2 (ja) * | 2009-07-10 | 2014-01-29 | 富士通株式会社 | メモリダンプ機能を有するサーバおよびメモリダンプ取得方法 |
US8887012B2 (en) * | 2010-08-24 | 2014-11-11 | Advanced Micro Devices, Inc. | Method and apparatus for saving and restoring soft repair data |
EP2660724B1 (en) * | 2010-12-27 | 2020-07-29 | Fujitsu Limited | Information processing device having memory dump function, memory dump method, and memory dump program |
US10146615B2 (en) * | 2017-04-24 | 2018-12-04 | Arteris, Inc. | Recovery of a system directory after detection of uncorrectable error |
EP3699771A1 (en) * | 2019-02-21 | 2020-08-26 | CoreMedia AG | Method and apparatus for managing data in a content management system |
FR3118512B1 (fr) * | 2020-12-30 | 2023-02-24 | Thales Sa | Procédé de contrôle d’un ensemble de cartes de calcul d’un serveur multimédia embarqué à bord d’un aéronef, programme d’ordinateur, dispositif électronique de contrôle, et serveur multimédia associés |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1011319A (ja) * | 1996-06-25 | 1998-01-16 | Hitachi Ltd | マルチプロセッサシステムの保守方法 |
JP2000339218A (ja) * | 1999-05-26 | 2000-12-08 | Nec Soft Ltd | キャッシュメモリの障害処理装置、キャッシュメモリの障害処理方法、マルチプロセッサシステム |
JP2004234114A (ja) * | 2003-01-28 | 2004-08-19 | Toshiba Corp | 計算機システム、計算機装置、オペレーティングシステムの移送方法及びプログラム |
WO2006082657A1 (ja) * | 2005-02-07 | 2006-08-10 | Fujitsu Limited | マルチcpuコンピュータおよびシステム再起動方法 |
JP2008033598A (ja) * | 2006-07-28 | 2008-02-14 | Nec Corp | 動的置き換えシステム、動的置き換え方法およびプログラム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5649090A (en) * | 1991-05-31 | 1997-07-15 | Bull Hn Information Systems Inc. | Fault tolerant multiprocessor computer system |
JP2916421B2 (ja) * | 1996-09-09 | 1999-07-05 | 株式会社東芝 | キャッシュフラッシュ装置およびデータ処理方法 |
US6622263B1 (en) * | 1999-06-30 | 2003-09-16 | Jack Justin Stiffler | Method and apparatus for achieving system-directed checkpointing without specialized hardware assistance |
US6516429B1 (en) * | 1999-11-04 | 2003-02-04 | International Business Machines Corporation | Method and apparatus for run-time deconfiguration of a processor in a symmetrical multi-processing system |
US6681339B2 (en) * | 2001-01-16 | 2004-01-20 | International Business Machines Corporation | System and method for efficient failover/failback techniques for fault-tolerant data storage system |
US6832329B2 (en) * | 2001-02-08 | 2004-12-14 | International Business Machines Corporation | Cache thresholding method, apparatus, and program for predictive reporting of array bit line or driver failures |
US6851071B2 (en) * | 2001-10-11 | 2005-02-01 | International Business Machines Corporation | Apparatus and method of repairing a processor array for a failure detected at runtime |
US7032123B2 (en) * | 2001-10-19 | 2006-04-18 | Sun Microsystems, Inc. | Error recovery |
JP3891004B2 (ja) | 2002-02-26 | 2007-03-07 | 日本電気株式会社 | 情報処理システム及び該システムの制御方法並びにプログラム |
US7162587B2 (en) * | 2002-05-08 | 2007-01-09 | Hiken Michael S | Method and apparatus for recovering redundant cache data of a failed controller and reestablishing redundancy |
US7114095B2 (en) * | 2002-05-31 | 2006-09-26 | Hewlett-Packard Development Company, Lp. | Apparatus and methods for switching hardware operation configurations |
US7467326B2 (en) * | 2003-02-28 | 2008-12-16 | Maxwell Technologies, Inc. | Self-correcting computer |
US7139933B2 (en) * | 2003-06-20 | 2006-11-21 | International Business Machines Corporation | Preserving cache data against cluster reboot |
US7484118B2 (en) * | 2003-12-16 | 2009-01-27 | International Business Machines Corporation | Multi nodal computer system and method for handling check stops in the multi nodal computer system |
US7302608B1 (en) * | 2004-03-31 | 2007-11-27 | Google Inc. | Systems and methods for automatic repair and replacement of networked machines |
US7321986B2 (en) * | 2004-03-31 | 2008-01-22 | International Business Machines Corporation | Configuring cache memory from a storage controller |
US20060083102A1 (en) * | 2004-10-20 | 2006-04-20 | Seagate Technology Llc | Failover control of dual controllers in a redundant data storage system |
US7694174B2 (en) * | 2005-02-18 | 2010-04-06 | Hewlett-Packard Development Company, L.P. | Systems and methods for CPU repair |
US7263581B2 (en) * | 2005-03-31 | 2007-08-28 | Inventec Corporation | System and method for accessing and verifying the validity of data content stored in the cache memory on disk |
US20090177919A1 (en) * | 2008-01-04 | 2009-07-09 | International Business Machines Corporation | Dynamic redundancy for microprocessor components and circuits placed in nonoperational modes |
-
2008
- 2008-02-27 JP JP2008046087A patent/JP5224038B2/ja not_active Expired - Fee Related
-
2009
- 2009-02-24 US US12/391,576 patent/US8181063B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1011319A (ja) * | 1996-06-25 | 1998-01-16 | Hitachi Ltd | マルチプロセッサシステムの保守方法 |
JP2000339218A (ja) * | 1999-05-26 | 2000-12-08 | Nec Soft Ltd | キャッシュメモリの障害処理装置、キャッシュメモリの障害処理方法、マルチプロセッサシステム |
JP2004234114A (ja) * | 2003-01-28 | 2004-08-19 | Toshiba Corp | 計算機システム、計算機装置、オペレーティングシステムの移送方法及びプログラム |
WO2006082657A1 (ja) * | 2005-02-07 | 2006-08-10 | Fujitsu Limited | マルチcpuコンピュータおよびシステム再起動方法 |
JP2008033598A (ja) * | 2006-07-28 | 2008-02-14 | Nec Corp | 動的置き換えシステム、動的置き換え方法およびプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027610A (ja) * | 2010-07-21 | 2012-02-09 | Toyota Infotechnology Center Co Ltd | 自己回復コンピュータシステムのためのアーキテクチャ |
Also Published As
Publication number | Publication date |
---|---|
US8181063B2 (en) | 2012-05-15 |
JP5224038B2 (ja) | 2013-07-03 |
US20090217087A1 (en) | 2009-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5224038B2 (ja) | コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム | |
US8327188B2 (en) | Hardware transactional memory acceleration through multiple failure recovery | |
EP1966697B1 (en) | Software assisted nested hardware transactions | |
US20120266018A1 (en) | Fault-tolerant computer system, fault-tolerant computer system control method and recording medium storing control program for fault-tolerant computer system | |
US20080189570A1 (en) | I/o device fault processing method for use in virtual computer system | |
TWI510912B (zh) | 多核電路中之容錯 | |
WO2014105030A1 (en) | Handling of binary translated self modifying code and cross modifying code | |
US20190121689A1 (en) | Apparatus and method for increasing resilience to faults | |
TW201915761A (zh) | 在例外遮罩更新指令之後允許未中止的交易處理 | |
JP5212357B2 (ja) | マルチcpu異常検出復旧システム、方法及びプログラム | |
US8069309B1 (en) | Servicing memory in response to system failure | |
JP5287974B2 (ja) | 演算処理システム、再同期方法、およびファームプログラム | |
JP2009129101A (ja) | 情報処理装置の障害処理システム | |
JP6677021B2 (ja) | 情報処理装置、情報処理方法、プログラム | |
CN115576734B (zh) | 一种多核异构日志存储方法和系统 | |
JPH07141176A (ja) | コマンドリトライ制御方式 | |
WO2012137239A1 (ja) | 計算機システム | |
JP5163061B2 (ja) | マルチプロセッサシステム、マイクロプロセッサ、及びマイクロプロセッサの障害処理方法 | |
JP2968484B2 (ja) | マルチプロセッサ計算機及びマルチプロセッサ計算機における障害復旧方法 | |
JP2008171058A (ja) | システムコントローラ、プロセッサ、情報処理システムおよび情報処理プログラム | |
JP2002229811A (ja) | 論理分割システムの制御方法 | |
US20240069742A1 (en) | Chassis servicing and migration in a scale-up numa system | |
JP4788516B2 (ja) | 動的置き換えシステム、動的置き換え方法およびプログラム | |
JP6334969B2 (ja) | 演算処理装置、制御方法、及び、プログラム | |
JP5056487B2 (ja) | デバッグ支援機構およびプロセッサシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121119 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5224038 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |