JP5224038B2 - コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム - Google Patents
コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム Download PDFInfo
- Publication number
- JP5224038B2 JP5224038B2 JP2008046087A JP2008046087A JP5224038B2 JP 5224038 B2 JP5224038 B2 JP 5224038B2 JP 2008046087 A JP2008046087 A JP 2008046087A JP 2008046087 A JP2008046087 A JP 2008046087A JP 5224038 B2 JP5224038 B2 JP 5224038B2
- Authority
- JP
- Japan
- Prior art keywords
- processor
- memory
- failure
- processor board
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/203—Failover techniques using migration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1658—Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Memory System Of A Hierarchy Structure (AREA)
- Hardware Redundancy (AREA)
Description
本発明の目的は、訂正不可能な障害が発生した場合でも、コンピュータ装置を停止することなく継続運用を可能とするコンピュータ装置、コンピュータ装置の運用継続方法及びプログラムを提供することにある。
以上のように、プロセッサボード100上のBIOS(A)104と、予備プロセッサボード200上のBIOS(B)204が連携することによって、2Bitエラーによって不定となったデータを無効化すると共に、プロセッサの内部状態を示す情報とメモリ上の全てのデータを、プロセッサボード100から予備プロセッサボード200へコピーする。また、予備プロセッサボード200上のBIOS(B)204が、命令実効アドレスを2Bitエラーが検出された時点で実行していた命令のアドレスへ書き換え、命令を再実行することで、2Bitエラーとなったデータを再度メモリから読み出し、予備プロセッサボード200側でOS300の動作を再開する。
100:プロセッサボード
100−0〜100−n:CPU
101:バス
102:チップセット
103:メモリ
104:BIOS(A)
200:プロセッサボード
200−0〜200−n:CPU
201:バス
202:チップセット
203:メモリ
204:BIOS(B)
300:OS
Claims (15)
- プロセッサ、メモリ、チップセットを搭載する複数のプロセッサボードを備えるコンピュータ装置において、
運用中の前記プロセッサボードのプロセッサ内部で訂正不可能な障害が発生した場合、
障害が発生した前記プロセッサボードが、キャッシュ上のデータのうち、前記障害によって不定となったデータを無効化した後、それ以外の有効なデータと、運用中の前記プロセッサの内部状態を示す情報を前記メモリに保存し、前記メモリに保存した有効なデータと前記プロセッサの内部状態を示す情報を、予備用のプロセッサボードのメモリにコピーし、
前記予備用のプロセッサボードが、前記メモリにコピーされたプロセッサの内部状態を示す情報を読み出して当該プロセッサへコピーし、前記障害の発生時に実行していた命令を再実行する
ことを特徴とするコンピュータ装置。 - 前記障害が発生した前記プロセッサボードが、前記チップセット内の設定値を、前記予備用のプロセッサボードの前記チップセットの設定値と入れ替えることを特徴とする請求項1に記載のコンピュータ装置。
- 障害が発生した前記プロセッサボードが、前記障害のログを解析して、データ・キャッシュ、キャッシュ・レベル、ターゲット・アドレス、データサイズを特定し、これらの情報に基づいて、前記障害によって不定となったデータを特定する
ことを特徴とする請求項1又は請求項2に記載のコンピュータ装置。 - 前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を読み出して当該プロセッサボードのプロセッサへコピーし、命令実行アドレスを前記障害の発生時に実行していた命令のアドレスへ書き換えることで、前記命令を再実行することを特徴とする請求項1から請求項3の何れかに記載のコンピュータ装置。
- 運用中の前記プロセッサボードが複数のプロセッサを搭載する場合、全てのプロセッサの内部状態を示す情報を、前記メモリ上に保存し、
前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を、全てのプロセッサへコピーすることを特徴とする請求項1から請求項4の何れかに記載のコンピュータ装置。 - プロセッサ、メモリ、チップセットを搭載する複数のプロセッサボードを備えるコンピュータ装置の運用継続方法であって、
運用中の前記プロセッサボードのプロセッサ内部で訂正不可能な障害が発生した場合、
障害が発生した前記プロセッサボードが、キャッシュ上のデータのうち、前記障害によって不定となったデータを無効化した後、それ以外の有効なデータと、運用中の前記プロセッサの内部状態を示す情報を前記メモリに保存し、前記メモリに保存した有効なデータと前記プロセッサの内部状態を示す情報を、前記予備用のプロセッサボードのメモリにコピーし、
前記予備用のプロセッサボードが、前記メモリにコピーされたプロセッサの内部状態を示す情報を読み出して当該プロセッサへコピーし、前記障害の発生時に実行していた命令を再実行する
ことを特徴とするコンピュータ装置の運用継続方法。 - 前記障害が発生した前記プロセッサボードが、前記チップセット内の設定値を、前記予備用のプロセッサボードの前記チップセットの設定値と入れ替えることを特徴とする請求項6に記載のコンピュータ装置の運用継続方法。
- 障害が発生した前記プロセッサボードが、前記障害のログを解析し、データ・キャッシュ、キャッシュ・レベル、ターゲット・アドレス、データサイズを特定し、これらの情報に基づいて、前記障害によって不定となったデータを特定する
ことを特徴とする請求項6又は請求項7に記載のコンピュータ装置の運用継続方法。 - 前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を読み出して当該プロセッサボードのプロセッサへコピーし、命令実行アドレスを前記障害の発生時に実行していた命令のアドレスへ書き換えることで、前記命令を再実行することを特徴とする請求項6から請求項8の何れかに記載のコンピュータ装置の運用継続方法。
- 運用中の前記プロセッサボードが複数のプロセッサを搭載する場合、全てのプロセッサの内部状態を示す情報を、前記メモリ上に保存し、
前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を、全てのプロセッサへコピーすることを特徴とする請求項6から請求項9の何れかに記載のコンピュータ装置の運用継続方法。 - プロセッサ、メモリ、チップセットを搭載する複数のプロセッサボードを備えるコンピュータ装置で実行され、前記コンピュータ装置の運用を継続するプログラムであって、
運用中の前記プロセッサボードのプロセッサ内部で訂正不可能な障害が発生した場合、
障害が発生した前記プロセッサボードに、前記キャッシュ上のデータのうち、前記障害によって不定となったデータを無効化した後、それ以外の有効なデータと、運用中の前記プロセッサの内部状態を示す情報を前記メモリに保存し、前記メモリに保存した有効なデータと前記プロセッサの内部状態を示す情報を、前記予備用のプロセッサボードのメモリにコピーする処理を実行させ、
前記予備用のプロセッサボードに、前記メモリにコピーされたプロセッサの内部状態を示す情報を読み出して当該プロセッサへコピーし、前記障害の発生時に実行していた命令を再実行する処理を実行させる
ことを特徴とするプログラム。 - 前記障害が発生した前記プロセッサボードにおいて、前記チップセット内の設定値を、前記予備用のプロセッサボードの前記チップセットの設定値と入れ替える処理を実行させることを特徴とする請求項11に記載のプログラム。
- 障害が発生した前記プロセッサボードに、前記障害に基づくエラーログを解析し、データ・キャッシュ、キャッシュ・レベル、ターゲット・アドレス、データサイズを特定し、これらの情報に基づいて、前記障害によって不定となったデータを特定する処理を実行させる
ことを特徴とする請求項11又は請求項12に記載のプログラム。 - 前記予備用のプロセッサボードにおいて、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を読み出して当該プロセッサボードのプロセッサへコピーし、命令実行アドレスを前記障害の発生時に実行していた命令のアドレスへ書き換えることで、前記命令を再実行する処理を実行させることを特徴とする請求項11から請求項13の何れかに記載のプログラム。
- 運用中の前記プロセッサボードが複数のプロセッサを搭載する場合、全てのプロセッサの内部状態を示す情報を、前記メモリ上に保存し、
前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を、全てのプロセッサへコピーすることを特徴とする請求項11から請求項14の何れかに記載のプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008046087A JP5224038B2 (ja) | 2008-02-27 | 2008-02-27 | コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム |
US12/391,576 US8181063B2 (en) | 2008-02-27 | 2009-02-24 | Computer device, continuing operation method for computer device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008046087A JP5224038B2 (ja) | 2008-02-27 | 2008-02-27 | コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009205362A JP2009205362A (ja) | 2009-09-10 |
JP5224038B2 true JP5224038B2 (ja) | 2013-07-03 |
Family
ID=40999528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008046087A Expired - Fee Related JP5224038B2 (ja) | 2008-02-27 | 2008-02-27 | コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8181063B2 (ja) |
JP (1) | JP5224038B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5403054B2 (ja) * | 2009-07-10 | 2014-01-29 | 富士通株式会社 | メモリダンプ機能を有するサーバおよびメモリダンプ取得方法 |
JP5609363B2 (ja) * | 2010-07-21 | 2014-10-22 | トヨタ自動車株式会社 | 自己回復コンピュータシステムのためのアーキテクチャ |
US8887012B2 (en) * | 2010-08-24 | 2014-11-11 | Advanced Micro Devices, Inc. | Method and apparatus for saving and restoring soft repair data |
EP2660724B1 (en) * | 2010-12-27 | 2020-07-29 | Fujitsu Limited | Information processing device having memory dump function, memory dump method, and memory dump program |
US10146615B2 (en) * | 2017-04-24 | 2018-12-04 | Arteris, Inc. | Recovery of a system directory after detection of uncorrectable error |
EP3699771A1 (en) * | 2019-02-21 | 2020-08-26 | CoreMedia AG | Method and apparatus for managing data in a content management system |
FR3118512B1 (fr) * | 2020-12-30 | 2023-02-24 | Thales Sa | Procédé de contrôle d’un ensemble de cartes de calcul d’un serveur multimédia embarqué à bord d’un aéronef, programme d’ordinateur, dispositif électronique de contrôle, et serveur multimédia associés |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5649090A (en) * | 1991-05-31 | 1997-07-15 | Bull Hn Information Systems Inc. | Fault tolerant multiprocessor computer system |
JPH1011319A (ja) * | 1996-06-25 | 1998-01-16 | Hitachi Ltd | マルチプロセッサシステムの保守方法 |
JP2916421B2 (ja) * | 1996-09-09 | 1999-07-05 | 株式会社東芝 | キャッシュフラッシュ装置およびデータ処理方法 |
JP3555847B2 (ja) * | 1999-05-26 | 2004-08-18 | Necソフト株式会社 | キャッシュメモリの障害処理装置、キャッシュメモリの障害処理方法、マルチプロセッサシステム |
US6622263B1 (en) * | 1999-06-30 | 2003-09-16 | Jack Justin Stiffler | Method and apparatus for achieving system-directed checkpointing without specialized hardware assistance |
US6516429B1 (en) * | 1999-11-04 | 2003-02-04 | International Business Machines Corporation | Method and apparatus for run-time deconfiguration of a processor in a symmetrical multi-processing system |
US6681339B2 (en) * | 2001-01-16 | 2004-01-20 | International Business Machines Corporation | System and method for efficient failover/failback techniques for fault-tolerant data storage system |
US6832329B2 (en) * | 2001-02-08 | 2004-12-14 | International Business Machines Corporation | Cache thresholding method, apparatus, and program for predictive reporting of array bit line or driver failures |
US6851071B2 (en) * | 2001-10-11 | 2005-02-01 | International Business Machines Corporation | Apparatus and method of repairing a processor array for a failure detected at runtime |
US7032123B2 (en) * | 2001-10-19 | 2006-04-18 | Sun Microsystems, Inc. | Error recovery |
JP3891004B2 (ja) | 2002-02-26 | 2007-03-07 | 日本電気株式会社 | 情報処理システム及び該システムの制御方法並びにプログラム |
US7162587B2 (en) * | 2002-05-08 | 2007-01-09 | Hiken Michael S | Method and apparatus for recovering redundant cache data of a failed controller and reestablishing redundancy |
US7114095B2 (en) * | 2002-05-31 | 2006-09-26 | Hewlett-Packard Development Company, Lp. | Apparatus and methods for switching hardware operation configurations |
JP3933587B2 (ja) * | 2003-01-28 | 2007-06-20 | 株式会社東芝 | 計算機システム、計算機装置及びオペレーティングシステムの移送方法 |
US7467326B2 (en) * | 2003-02-28 | 2008-12-16 | Maxwell Technologies, Inc. | Self-correcting computer |
US7139933B2 (en) * | 2003-06-20 | 2006-11-21 | International Business Machines Corporation | Preserving cache data against cluster reboot |
US7484118B2 (en) * | 2003-12-16 | 2009-01-27 | International Business Machines Corporation | Multi nodal computer system and method for handling check stops in the multi nodal computer system |
US7321986B2 (en) * | 2004-03-31 | 2008-01-22 | International Business Machines Corporation | Configuring cache memory from a storage controller |
US7302608B1 (en) * | 2004-03-31 | 2007-11-27 | Google Inc. | Systems and methods for automatic repair and replacement of networked machines |
US20060083102A1 (en) * | 2004-10-20 | 2006-04-20 | Seagate Technology Llc | Failover control of dual controllers in a redundant data storage system |
JP4489802B2 (ja) * | 2005-02-07 | 2010-06-23 | 富士通株式会社 | マルチcpuコンピュータおよびシステム再起動方法 |
US7694174B2 (en) * | 2005-02-18 | 2010-04-06 | Hewlett-Packard Development Company, L.P. | Systems and methods for CPU repair |
US7263581B2 (en) * | 2005-03-31 | 2007-08-28 | Inventec Corporation | System and method for accessing and verifying the validity of data content stored in the cache memory on disk |
JP4788516B2 (ja) * | 2006-07-28 | 2011-10-05 | 日本電気株式会社 | 動的置き換えシステム、動的置き換え方法およびプログラム |
US20090177919A1 (en) * | 2008-01-04 | 2009-07-09 | International Business Machines Corporation | Dynamic redundancy for microprocessor components and circuits placed in nonoperational modes |
-
2008
- 2008-02-27 JP JP2008046087A patent/JP5224038B2/ja not_active Expired - Fee Related
-
2009
- 2009-02-24 US US12/391,576 patent/US8181063B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20090217087A1 (en) | 2009-08-27 |
US8181063B2 (en) | 2012-05-15 |
JP2009205362A (ja) | 2009-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5224038B2 (ja) | コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム | |
LaFrieda et al. | Utilizing dynamically coupled cores to form a resilient chip multiprocessor | |
US8327188B2 (en) | Hardware transactional memory acceleration through multiple failure recovery | |
CN101271417B (zh) | 修复数据处理系统的方法、数据处理系统及信息处置系统 | |
EP1966697B1 (en) | Software assisted nested hardware transactions | |
US7853825B2 (en) | Methods and apparatus for recovering from fatal errors in a system | |
US10713128B2 (en) | Error recovery in volatile memory regions | |
WO2018040494A1 (zh) | 一种扩展处理器指令集的方法及装置 | |
TWI510912B (zh) | 多核電路中之容錯 | |
JP2009211517A (ja) | 仮想計算機冗長化システム | |
CN104798059B (zh) | 在检查点外部处理写入数据的多个计算机系统 | |
US10817369B2 (en) | Apparatus and method for increasing resilience to faults | |
TW201915761A (zh) | 在例外遮罩更新指令之後允許未中止的交易處理 | |
US8069309B1 (en) | Servicing memory in response to system failure | |
JPWO2008111124A1 (ja) | マルチcpu異常検出復旧システム、方法及びプログラム | |
JP2017078998A (ja) | 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム | |
CN115576734B (zh) | 一种多核异构日志存储方法和系统 | |
JPH07141176A (ja) | コマンドリトライ制御方式 | |
WO2012137239A1 (ja) | 計算機システム | |
JP2009230479A (ja) | マイクロプロセッサ | |
JP5163061B2 (ja) | マルチプロセッサシステム、マイクロプロセッサ、及びマイクロプロセッサの障害処理方法 | |
JP2968484B2 (ja) | マルチプロセッサ計算機及びマルチプロセッサ計算機における障害復旧方法 | |
JP2002229811A (ja) | 論理分割システムの制御方法 | |
JP5056487B2 (ja) | デバッグ支援機構およびプロセッサシステム | |
JP2008171058A (ja) | システムコントローラ、プロセッサ、情報処理システムおよび情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121119 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5224038 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |