JP4489802B2 - マルチcpuコンピュータおよびシステム再起動方法 - Google Patents
マルチcpuコンピュータおよびシステム再起動方法 Download PDFInfo
- Publication number
- JP4489802B2 JP4489802B2 JP2007501491A JP2007501491A JP4489802B2 JP 4489802 B2 JP4489802 B2 JP 4489802B2 JP 2007501491 A JP2007501491 A JP 2007501491A JP 2007501491 A JP2007501491 A JP 2007501491A JP 4489802 B2 JP4489802 B2 JP 4489802B2
- Authority
- JP
- Japan
- Prior art keywords
- cpu
- error
- operating system
- processing
- error information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 64
- 238000012545 processing Methods 0.000 claims description 158
- 230000008569 process Effects 0.000 claims description 43
- 238000004891 communication Methods 0.000 claims description 11
- 239000000725 suspension Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 description 47
- 238000010586 diagram Methods 0.000 description 11
- 238000007726 management method Methods 0.000 description 6
- 230000006378 damage Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
- G06F11/0724—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0775—Content or structure details of the error report, e.g. specific table structure, specific error fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0778—Dumping, i.e. gathering error/state information after a fault for later diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0784—Routing of error reports, e.g. with a specific transmission path or data flow
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
- Retry When Errors Occur (AREA)
Description
エラー情報が表示されない場合は、再発防止のために交換すべきCPUが特定できない。この場合、問題発生後にシステムを手動で再起動しても、再度同じエラーによる問題が再発する可能性がある。
図1は、本実施の形態の概略を示す図である。図1には、本実施の形態に係るマルチCPUコンピュータの機能の概略が示されている。マルチCPUコンピュータは、記憶装置1、第1のCPU2、および第2のCPU3を有している。第1のCPU2と第2のCPU3とは、共通のオペレーティングシステム4で動作している。
第1のCPU2は、ハードウェアエラーが発生した場合に他のCPUにエラー情報を通知する第1のエラー通知回路2aが組み込まれている。ハードウェアエラーとしては、例えば、キャッシュメモリのマルチビットエラーがある。エラー情報には、例えば、エラー種別、エラーが発生したCPUのCPU番号、エラーが発生したデータのアドレスが含まれる。
図5は、エラー情報のデータ構造例を示す図である。エラー情報31には、エラー種別、CPU番号、アドレスなどが含まれる。エラー種別は、発生したエラーの種別を表す識別コードによって表される。CPU番号は、エラーが発生したCPUの識別番号である。アドレスは、エラーが発生したデータのアドレスである。
図6は、他のCPUで正常にエラー処理が実行された場合を示すシーケンス図である。CPU番号が「CPU#0」のCPU110でハードウェアエラーが発生すると、CPU110のエラー通知回路111において、正常な他のCPUの検索が行われる(ステップS11)。例えば、CPU110でキャッシュのマルチビットエラーなどの致命的なエラーが発生した場合に、エラー通知回路111が正常なCPUを検索する。具体的には、エラー通知回路111は、エラーを検出していないCPUの中で最もCPU番号の小さいものを正常なCPUとして選択する。なお、エラーを検出していないCPUは、共有メモリ101に格納されている各CPUのステータス(正常動作中か否かが設定されている)の情報を取得し、そのステータスを参照することで判断できる。
また、エラーの発生したCPUの処理を一時停止させることにより、正常なCPUの処理への影響を無くすことができ、確実、安全にトラップ処理、パニック処理を行うことができる。
2 第1のCPU
2a 第1のエラー通知回路
3 第2のCPU
3a 第2のエラー通知回路
4 オペレーティングシステム
Claims (5)
- 共通のオペレーティングシステムで動作する複数のCPUを搭載したマルチCPUコンピュータにおいて、
不揮発性の記憶装置と、
ハードウェアエラーが発生した場合に他のCPUにエラー情報を通知する第1のエラー通知回路が組み込まれた第1のCPUと、
前記第1のCPUから通知された前記エラー情報を取得し、前記エラー情報を前記オペレーティングシステムに通知する第2のエラー通知回路が組み込まれており、前記第2のエラー通知回路により前記オペレーティングシステムに対してエラー情報が通知された場合、前記オペレーティングシステムに従って、前記エラー情報を含む障害情報の前記記憶装置への格納処理、およびシステムの再起動処理を実行する第2のCPUと、
を有することを特徴とするマルチCPUコンピュータ。 - CPU間通信領域を有する共有メモリをさらに有し、
前記第1のCPUの前記第1のエラー通知回路は、前記エラー情報を前記共有メモリの前記CPU間通信領域に格納し、
前記第2のCPUの前記第2のエラー通知回路は、前記CPU間通信領域から前記エラー情報を取得することを特徴とする請求項1記載のマルチCPUコンピュータ。 - 前記第1のCPUには、前記エラー情報を前記オペレーティングシステムに通知する第3のエラー通知回路が組み込まれており、前記第3のエラー通知回路により前記オペレーティングシステムに対して前記エラー情報が通知された場合、前記第1のCPUは、前記オペレーティングシステムに従って処理を一時停止することを特徴とする請求項1記載のマルチCPUコンピュータ。
- 前記第1のCPUは、処理の一時停止中にシステムが再起動されない場合、前記オペレーティングシステムに従って、処理停止から所定期間経過後、前記エラー情報を含むデータの前記記憶装置への格納処理、およびシステムの再起動処理を実行することを特徴とする請求項3記載のマルチCPUコンピュータ。
- 共通のオペレーティングシステムで動作する複数のCPUを搭載したマルチCPUコンピュータのシステム再起動方法において、
第1のCPUにおいてハードウェアエラーが発生した場合に、前記第1のCPUに組み込まれた第1のエラー通知回路が第2のCPUにエラー情報を通知し、
前記第2のCPUに組み込まれた第2のエラー通知回路が、前記第1のCPUから通知された前記エラー情報を取得し、前記エラー情報を前記オペレーティングシステムに通知し、前記第2のエラー通知回路により前記オペレーティングシステムに対して前記エラー情報が通知された場合、前記第2のCPUが前記オペレーティングシステムに従って、前記エラー情報を含む障害情報の不揮発性の記憶装置への格納処理、およびシステムの再起動処理を実行する、
ことを特徴とするシステム再起動方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2005/001770 WO2006082657A1 (ja) | 2005-02-07 | 2005-02-07 | マルチcpuコンピュータおよびシステム再起動方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2006082657A1 JPWO2006082657A1 (ja) | 2008-06-26 |
JP4489802B2 true JP4489802B2 (ja) | 2010-06-23 |
Family
ID=36777052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007501491A Active JP4489802B2 (ja) | 2005-02-07 | 2005-02-07 | マルチcpuコンピュータおよびシステム再起動方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7716520B2 (ja) |
JP (1) | JP4489802B2 (ja) |
WO (1) | WO2006082657A1 (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004052576A1 (de) * | 2004-10-29 | 2006-05-04 | Advanced Micro Devices, Inc., Sunnyvale | Paralleler Verarbeitungsmechanismus für Multiprozessorsysteme |
JP5224038B2 (ja) * | 2008-02-27 | 2013-07-03 | 日本電気株式会社 | コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム |
US20100088542A1 (en) * | 2008-10-06 | 2010-04-08 | Texas Instruments Incorporated | Lockup recovery for processors |
JP2010231619A (ja) * | 2009-03-27 | 2010-10-14 | Renesas Electronics Corp | 情報処理装置 |
WO2012004854A1 (ja) * | 2010-07-06 | 2012-01-12 | 三菱電機株式会社 | プロセッサ装置及びプログラム |
US8850262B2 (en) | 2010-10-12 | 2014-09-30 | International Business Machines Corporation | Inter-processor failure detection and recovery |
US8645969B2 (en) | 2011-08-19 | 2014-02-04 | Qualcomm Incorporated | Method for dynamic discovery of processors and processor capabilities |
KR101581608B1 (ko) * | 2012-02-13 | 2015-12-30 | 미쓰비시덴키 가부시키가이샤 | 프로세서 시스템 |
US9104575B2 (en) | 2012-08-18 | 2015-08-11 | International Business Machines Corporation | Reduced-impact error recovery in multi-core storage-system components |
CN103839016A (zh) * | 2012-11-21 | 2014-06-04 | 鸿富锦精密工业(武汉)有限公司 | 具有cpu保护功能的计算机 |
WO2015070917A1 (en) * | 2013-11-15 | 2015-05-21 | Nokia Solutions And Networks Oy | Correlation of event reports |
US10613949B2 (en) | 2015-09-24 | 2020-04-07 | Hewlett Packard Enterprise Development Lp | Failure indication in shared memory |
US10387260B2 (en) * | 2015-11-26 | 2019-08-20 | Ricoh Company, Ltd. | Reboot system and reboot method |
WO2017158666A1 (ja) * | 2016-03-14 | 2017-09-21 | 株式会社日立製作所 | 計算機システム、計算機システムのエラー処理方法 |
US10536859B2 (en) | 2017-08-15 | 2020-01-14 | Charter Communications Operating, Llc | Methods and apparatus for dynamic control and utilization of quasi-licensed wireless spectrum |
US10459782B2 (en) * | 2017-08-31 | 2019-10-29 | Nxp Usa, Inc. | System and method of implementing heartbeats in a multicore system |
US10966073B2 (en) | 2017-11-22 | 2021-03-30 | Charter Communications Operating, Llc | Apparatus and methods for premises device existence and capability determination |
US11307921B2 (en) * | 2017-12-08 | 2022-04-19 | Apple Inc. | Coordinated panic flow |
US11475723B2 (en) * | 2017-12-29 | 2022-10-18 | Robert Bosch Gmbh | Determining a fault in an electronic controller |
US11129171B2 (en) | 2019-02-27 | 2021-09-21 | Charter Communications Operating, Llc | Methods and apparatus for wireless signal maximization and management in a quasi-licensed wireless system |
US11374779B2 (en) | 2019-06-30 | 2022-06-28 | Charter Communications Operating, Llc | Wireless enabled distributed data apparatus and methods |
US11182222B2 (en) * | 2019-07-26 | 2021-11-23 | Charter Communications Operating, Llc | Methods and apparatus for multi-processor device software development and operation |
US11528748B2 (en) | 2019-09-11 | 2022-12-13 | Charter Communications Operating, Llc | Apparatus and methods for multicarrier unlicensed heterogeneous channel access |
US11368552B2 (en) * | 2019-09-17 | 2022-06-21 | Charter Communications Operating, Llc | Methods and apparatus for supporting platform and application development and operation |
US11026205B2 (en) | 2019-10-23 | 2021-06-01 | Charter Communications Operating, Llc | Methods and apparatus for device registration in a quasi-licensed wireless system |
US11457485B2 (en) | 2019-11-06 | 2022-09-27 | Charter Communications Operating, Llc | Methods and apparatus for enhancing coverage in quasi-licensed wireless systems |
US11363466B2 (en) | 2020-01-22 | 2022-06-14 | Charter Communications Operating, Llc | Methods and apparatus for antenna optimization in a quasi-licensed wireless system |
US12089240B2 (en) | 2020-07-06 | 2024-09-10 | Charter Communications Operating, Llc | Methods and apparatus for access node selection and link optimization in quasi-licensed wireless systems |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0348940A (ja) * | 1989-07-18 | 1991-03-01 | Nec Corp | 電子計算機システム |
JPH04340631A (ja) * | 1991-05-17 | 1992-11-27 | Mitsubishi Electric Corp | 分散処理システム |
JP2000311155A (ja) * | 1999-04-27 | 2000-11-07 | Seiko Epson Corp | マルチプロセッサシステム及び電子機器 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0271336A (ja) | 1988-09-06 | 1990-03-09 | Nec Corp | プロセッサの障害状態監視方式 |
JPH06243101A (ja) | 1993-02-10 | 1994-09-02 | Fujitsu Ltd | マルチプロセッサシステムにおけるcpu間通信方式 |
JPH06243104A (ja) | 1993-02-10 | 1994-09-02 | Fujitsu Ltd | マルチプロセッサシステムにおけるcpu間通信方式 |
JPH06332864A (ja) | 1993-05-27 | 1994-12-02 | Fujitsu Ltd | マルチプロセッサシステムにおけるcpu間通信方式 |
US6199179B1 (en) * | 1998-06-10 | 2001-03-06 | Compaq Computer Corporation | Method and apparatus for failure recovery in a multi-processor computer system |
JPH11338838A (ja) | 1998-05-22 | 1999-12-10 | Nagano Nippon Denki Software Kk | マルチプロセッサシステムにおける障害情報のパラレルダンプ採取方法及び方式 |
US6675324B2 (en) * | 1999-09-27 | 2004-01-06 | Intel Corporation | Rendezvous of processors with OS coordination |
US6516429B1 (en) * | 1999-11-04 | 2003-02-04 | International Business Machines Corporation | Method and apparatus for run-time deconfiguration of a processor in a symmetrical multi-processing system |
US6622260B1 (en) * | 1999-12-30 | 2003-09-16 | Suresh Marisetty | System abstraction layer, processor abstraction layer, and operating system error handling |
US6725317B1 (en) * | 2000-04-29 | 2004-04-20 | Hewlett-Packard Development Company, L.P. | System and method for managing a computer system having a plurality of partitions |
US7082610B2 (en) * | 2001-06-02 | 2006-07-25 | Redback Networks, Inc. | Method and apparatus for exception handling in a multi-processing environment |
US6851071B2 (en) * | 2001-10-11 | 2005-02-01 | International Business Machines Corporation | Apparatus and method of repairing a processor array for a failure detected at runtime |
US7257734B2 (en) * | 2003-07-17 | 2007-08-14 | International Business Machines Corporation | Method and apparatus for managing processors in a multi-processor data processing system |
-
2005
- 2005-02-07 JP JP2007501491A patent/JP4489802B2/ja active Active
- 2005-02-07 WO PCT/JP2005/001770 patent/WO2006082657A1/ja not_active Application Discontinuation
-
2007
- 2007-07-17 US US11/879,390 patent/US7716520B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0348940A (ja) * | 1989-07-18 | 1991-03-01 | Nec Corp | 電子計算機システム |
JPH04340631A (ja) * | 1991-05-17 | 1992-11-27 | Mitsubishi Electric Corp | 分散処理システム |
JP2000311155A (ja) * | 1999-04-27 | 2000-11-07 | Seiko Epson Corp | マルチプロセッサシステム及び電子機器 |
Also Published As
Publication number | Publication date |
---|---|
WO2006082657A1 (ja) | 2006-08-10 |
US20080010506A1 (en) | 2008-01-10 |
JPWO2006082657A1 (ja) | 2008-06-26 |
US7716520B2 (en) | 2010-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4489802B2 (ja) | マルチcpuコンピュータおよびシステム再起動方法 | |
US7853825B2 (en) | Methods and apparatus for recovering from fatal errors in a system | |
US8413133B2 (en) | Software update management apparatus and software update management method | |
US6978398B2 (en) | Method and system for proactively reducing the outage time of a computer system | |
US7516361B2 (en) | Method for automatic checkpoint of system and application software | |
JP4117262B2 (ja) | 故障プロセッサを置き換える方法、媒体およびシステム | |
US8132057B2 (en) | Automated transition to a recovery kernel via firmware-assisted-dump flows providing automated operating system diagnosis and repair | |
TWI337304B (en) | Method for fast system recovery via degraded reboot | |
US9335998B2 (en) | Multi-core processor system, monitoring control method, and computer product | |
JP5423871B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20080209423A1 (en) | Job management device, cluster system, and computer-readable medium storing job management program | |
JPH0820991B2 (ja) | タイム・ゼロ・バックアップ・コピー・プロセスにおいて終了及び再開始を自動化する方法及びシステム | |
JP2010086364A (ja) | 情報処理装置、動作状態監視装置および方法 | |
JP2007133544A (ja) | 障害情報解析方法及びその実施装置 | |
JP4836732B2 (ja) | 情報処理装置 | |
JP4992740B2 (ja) | マルチプロセッサシステム、障害検出方法および障害検出プログラム | |
JPH06208477A (ja) | オンライン再組込及び遮断/再始動を備えた故障許容コンピュータ | |
JP2007080012A (ja) | 再起動方法、システム及びプログラム | |
US20070234114A1 (en) | Method, apparatus, and computer program product for implementing enhanced performance of a computer system with partially degraded hardware | |
JP3172007B2 (ja) | ディスク複写処理方式 | |
JP4945774B2 (ja) | ディスクアレイ装置およびトランスポート制御用プロセッサコアの障害情報データ採取方法 | |
JP2016076152A (ja) | エラー検出システム、エラー検出方法およびエラー検出プログラム | |
JP2006092055A (ja) | 計算機システム | |
JP2022107229A (ja) | 情報処理装置、制御方法及び制御プログラム | |
JP4878113B2 (ja) | Dasd故障時のリンクライブラリの復旧方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100330 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100331 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4489802 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140409 Year of fee payment: 4 |