JP2011014075A - サーバシステム及びクラッシュダンプ採取方法 - Google Patents
サーバシステム及びクラッシュダンプ採取方法 Download PDFInfo
- Publication number
- JP2011014075A JP2011014075A JP2009159717A JP2009159717A JP2011014075A JP 2011014075 A JP2011014075 A JP 2011014075A JP 2009159717 A JP2009159717 A JP 2009159717A JP 2009159717 A JP2009159717 A JP 2009159717A JP 2011014075 A JP2011014075 A JP 2011014075A
- Authority
- JP
- Japan
- Prior art keywords
- memory
- reset
- bmcfw
- stall
- area used
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0778—Dumping, i.e. gathering error/state information after a fault for later diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/073—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
- Stored Programmes (AREA)
Abstract
【解決手段】ハードウェアによるBMCFW302のストール監視を行い、ストール検出時にはリセットを行う。また、BMCFW302のブートローダー401が使用するメモリ領域とLinuxカーネル402が使用するメモリ領域を有するメモリ304を具備する。そして、PDL305に保持されているリセット要因に基づいて通常のリセットかストール検出によるリセットかを判別し、ストール検出によるリセットが発生した場合には、メモリ304のストール発生時のLinuxカーネルが使用していたメモリ領域の情報を採取する。
【選択図】図1
Description
(1)Linuxカーネル402のソースコードを改修し、Oops発生時はカーネルパニック扱いとする。
(2)カーネルパニック発生時に確実にPLD305がストールを検出できるようにするため、Linuxカーネル402のソースコードを改修し、完全停止状態にする。
(3)PLD305の機能実現によりストール検出時のリセットと通常のリセットを、リセット要因として区別できるようにする。
(4)PLD305によるストール検出時のリセットにおいてはメモリの内容が保持されるようにする。
(5)ブートローダー401によるクラッシュダンプ採取処理において、ブートローダー401自身が、ストール発生時のLinuxカーネル402のメモリ領域を破壊しないようにするため、ブートローダー401とLinuxカーネル402の使用するメモリ領域を分けている。
(6)ブートローダー401によるクラッシュダンプ採取処理において、SP303に直結されている外部FLASHROM306へストール発生時のメモリイメージを保存するようにする。
(7)クラッシュダンプ採取後にファームウェアの起動を行い、再度システムの運用を開始できるようにする。
301 MGMT
302 BMCFW
303 SP
304 メモリ
305 PLD
306 SPI FLASHROM
400 メモリマップ
401 ブートローダー
402 Linuxカーネル
500 PLD
501 SP
502 リセット要因
503 リセット線
504 PLDアクセスパス
Claims (10)
- ハードウェアによるファームウェアのストール監視を行い、前記ストール検出時にリセットを行う手段と、
前記ファームウェアのブートローダーが使用する領域とその他ファームウェアが使用する領域とを有するメモリと、
前記ストール検出時のリセットか通常のリセットかのリセット要因を判別し、前記ストール検出によるリセットが発生した場合には、前記メモリのその他ファームウェアが使用する領域の情報を採取する手段と、
を備えたことを特徴とするサーバシステム。 - CELL上に搭載されたMGMTと、
前記MCMT上にあって前記CELL上のハードウェアを制御する、ソフトウェア構造がブートローダーとLinuxカーネルに分けられたオペレーティングシステムとして組み込みLinuxを有するBMCFWと、
前記MGMTを制御する中核となるSPと、
前記ブートローダーが使用するメモリ領域と前記Linuxカーネルが使用するメモリ領域とを有するメモリと、
前記BMCFWのストール監視を行い、ストールを検出した場合には、リセットを行い、前記BMCFWを再起動するPLDと、
前記BMCFWの再起動時に前記PLDに保持されているリセット要因を読み取る手段と、
前記リセット要因に基づき前記PLDによるSPリセットが発生した場合には、前記ストール発生時における前記メモリの前記Linuxカーネルが使用していたメモリ領域の情報を採取する手段と、
を備えたことを特徴とするサーバシステム。 - 前記BMCFWは、不揮発性メモリ上に格納されていることを特徴とする請求項2に記載のサーバシステム。
- 前記PLDによるSPリセット時には前記メモリの情報は保持されていることを特徴とする請求項2又は3に記載のサーバシステム。
- 前記Linuxカーネルが使用していたメモリ領域から採取した情報は前記メモリとは異なる第2のメモリに格納することを特徴とする請求項2乃至4のいずれか1項に記載のサーバシステム。
- ストール監視手段により、ハードウェアによるファームウェアのストール監視を行い、前記ストール検出時にリセットを行う手段と、
前記ファームウェアのブートローダーが使用する領域とその他ファームウェアが使用する領域とを有するメモリとを備えたサーバシステムのクラッシュダンプ採取方法であって、
判別手段により、前記ストール検出時のリセットか通常のリセットかのリセット要因を判別する工程と、
採取手段により、前記ストール検出によるリセットが発生した場合には、前記メモリのその他ファームウェアが使用する領域の情報を採取する工程と、
を含むことを特徴とするクラッシュダンプ採取方法。 - CELL上に搭載されたMGMTと、
前記MCMT上にあって前記CELL上のハードウェアを制御する、ソフトウェア構造がブートローダーとLinuxカーネルに分けられたオペレーティングシステムとして組み込みLinuxを有するBMCFWと、
前記MGMTを制御する中核となるSPと、
前記ブートローダーが使用するメモリ領域と、前記Linuxカーネルが使用するメモリ領域とに分けられたメモリと、を有するサーバシステムのクラッシュダンプ採取方法であって、
PLDにより、前記BMCFWのストール監視を行い、ストールを検出した場合には、リセットを行い、前記BMCFWを再起動する工程と、
読み取り手段により、前記BMCFWの再起動時に前記PLDに保持されているリセット要因を読み取る工程と、
情報採取手段により、前記リセット要因に基づき前記PLDによるSPリセットが発生した場合には、前記ストール発生時における前記メモリの前記Linuxカーネルが使用していたメモリ領域の情報を採取する工程と、
を含むことを特徴とするクラッシュダンプ採取方法。 - 前記BMCFWは、不揮発性メモリ上に格納されていることを特徴とする請求項7に記載のクラッシュダンプ採取方法。
- 前記PLDによるSPリセット時には前記メモリの情報は保持されていることを特徴とする請求項7又は8に記載のクラッシュダンプ採取方法。
- 前記Linuxカーネルが使用していたメモリ領域から採取した情報は前記メモリとは異なる第2のメモリに格納することを特徴とする請求項7乃至9のいずれか1項に記載のクラッシュダンプ採取方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009159717A JP5120664B2 (ja) | 2009-07-06 | 2009-07-06 | サーバシステム及びクラッシュダンプ採取方法 |
US12/829,150 US8489932B2 (en) | 2009-07-06 | 2010-07-01 | Server system and crash dump collection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009159717A JP5120664B2 (ja) | 2009-07-06 | 2009-07-06 | サーバシステム及びクラッシュダンプ採取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011014075A true JP2011014075A (ja) | 2011-01-20 |
JP5120664B2 JP5120664B2 (ja) | 2013-01-16 |
Family
ID=43413257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009159717A Expired - Fee Related JP5120664B2 (ja) | 2009-07-06 | 2009-07-06 | サーバシステム及びクラッシュダンプ採取方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8489932B2 (ja) |
JP (1) | JP5120664B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013045163A (ja) * | 2011-08-22 | 2013-03-04 | Nec Corp | コンピュータシステム、情報処理システム、仮想メディア方法、および、プログラム |
JP2013182519A (ja) * | 2012-03-02 | 2013-09-12 | Nec Computertechno Ltd | コンピュータ、ファームウェア管理方法、及びbmc |
JP2018116677A (ja) * | 2017-01-19 | 2018-07-26 | 廣達電脳股▲ふん▼有限公司 | Wolを使用したシステムリカバリ |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483713A (zh) * | 2009-08-04 | 2012-05-30 | 富士通株式会社 | 复位方法以及监视装置 |
US9026860B2 (en) | 2012-07-31 | 2015-05-05 | International Business Machines Corpoation | Securing crash dump files |
CN102929747B (zh) * | 2012-11-05 | 2015-07-01 | 中标软件有限公司 | 基于龙芯服务器的Linux操作系统崩溃转储的处理方法 |
CN103809989B (zh) * | 2012-11-08 | 2017-07-11 | 英华达(南京)科技有限公司 | 操作系统发生核心崩溃情况下读取完整核心日志的方法 |
JP5949540B2 (ja) * | 2012-12-27 | 2016-07-06 | 富士通株式会社 | 情報処理装置、及び記憶情報解析方法 |
US20150006962A1 (en) * | 2013-06-27 | 2015-01-01 | Robert C. Swanson | Memory dump without error containment loss |
JP6094677B2 (ja) * | 2013-07-31 | 2017-03-15 | 富士通株式会社 | 情報処理装置、メモリダンプ方法、およびメモリダンププログラム |
GB2520712A (en) | 2013-11-28 | 2015-06-03 | Ibm | Data dump method for a memory in a data processing system |
US9852172B2 (en) | 2014-09-17 | 2017-12-26 | Oracle International Corporation | Facilitating handling of crashes in concurrent execution environments of server systems while processing user queries for data retrieval |
CN107368384A (zh) * | 2017-07-21 | 2017-11-21 | 郑州云海信息技术有限公司 | 一种Linux服务器异常信息转储系统及方法 |
US11226755B1 (en) * | 2017-09-28 | 2022-01-18 | Amazon Technologies, Inc. | Core dump in a storage device |
US10846160B2 (en) * | 2018-01-12 | 2020-11-24 | Quanta Computer Inc. | System and method for remote system recovery |
US11194589B2 (en) * | 2019-01-08 | 2021-12-07 | Dell Products L.P. | Information handling system adaptive component reset |
CN112463343B (zh) * | 2020-12-16 | 2023-09-26 | 广州博冠信息科技有限公司 | 业务进程的重启方法和装置、存储介质、电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH056295A (ja) * | 1991-06-27 | 1993-01-14 | Nec Eng Ltd | 情報処理装置のダンプ方式 |
JPH09223046A (ja) * | 1996-02-20 | 1997-08-26 | Nec Software Ltd | ダンプ収集機能を持つコンピュータシステム |
JP2007122552A (ja) * | 2005-10-31 | 2007-05-17 | Nec Corp | メモリダンプ方法、コンピュータシステム、およびプログラム |
JP2007334587A (ja) * | 2006-06-14 | 2007-12-27 | Denso Corp | 異常監視用プログラム、記録媒体及び電子装置 |
JP2008176682A (ja) * | 2007-01-22 | 2008-07-31 | Renesas Technology Corp | 半導体集積回路及びデータ処理システム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6252647A (ja) | 1985-08-30 | 1987-03-07 | Minolta Camera Co Ltd | マイクロプロセツサの暴走監視システム |
JP2004280538A (ja) | 2003-03-17 | 2004-10-07 | Nec Mobiling Ltd | 障害発生時の誤動作防止方法及び障害発生時の誤動作防止方式及び障害発生時の誤動作防止プログラム |
JP4528144B2 (ja) * | 2005-01-26 | 2010-08-18 | 富士通株式会社 | メモリダンププログラムのブート方法、機構及びプログラム |
WO2006127493A2 (en) | 2005-05-26 | 2006-11-30 | United Parcel Service Of America, Inc. | Software process monitor |
US20070050675A1 (en) * | 2005-08-29 | 2007-03-01 | Moxa Technologies Co., Ltd. | [method for restoring a booted system] |
JP2009075992A (ja) | 2007-09-25 | 2009-04-09 | Hitachi Ltd | 情報処理装置のメモリダンプ採取方法 |
-
2009
- 2009-07-06 JP JP2009159717A patent/JP5120664B2/ja not_active Expired - Fee Related
-
2010
- 2010-07-01 US US12/829,150 patent/US8489932B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH056295A (ja) * | 1991-06-27 | 1993-01-14 | Nec Eng Ltd | 情報処理装置のダンプ方式 |
JPH09223046A (ja) * | 1996-02-20 | 1997-08-26 | Nec Software Ltd | ダンプ収集機能を持つコンピュータシステム |
JP2007122552A (ja) * | 2005-10-31 | 2007-05-17 | Nec Corp | メモリダンプ方法、コンピュータシステム、およびプログラム |
JP2007334587A (ja) * | 2006-06-14 | 2007-12-27 | Denso Corp | 異常監視用プログラム、記録媒体及び電子装置 |
JP2008176682A (ja) * | 2007-01-22 | 2008-07-31 | Renesas Technology Corp | 半導体集積回路及びデータ処理システム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013045163A (ja) * | 2011-08-22 | 2013-03-04 | Nec Corp | コンピュータシステム、情報処理システム、仮想メディア方法、および、プログラム |
JP2013182519A (ja) * | 2012-03-02 | 2013-09-12 | Nec Computertechno Ltd | コンピュータ、ファームウェア管理方法、及びbmc |
JP2018116677A (ja) * | 2017-01-19 | 2018-07-26 | 廣達電脳股▲ふん▼有限公司 | Wolを使用したシステムリカバリ |
US10324800B2 (en) | 2017-01-19 | 2019-06-18 | Quanta Computer Inc. | System recovery using WoL |
Also Published As
Publication number | Publication date |
---|---|
JP5120664B2 (ja) | 2013-01-16 |
US8489932B2 (en) | 2013-07-16 |
US20110004780A1 (en) | 2011-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5120664B2 (ja) | サーバシステム及びクラッシュダンプ採取方法 | |
US9158628B2 (en) | Bios failover update with service processor having direct serial peripheral interface (SPI) access | |
TWI530790B (zh) | 系統啓動碼恢復方法、運算系統、及供於系統中使用之控制器 | |
US8468389B2 (en) | Firmware recovery system and method of baseboard management controller of computing device | |
US8135985B2 (en) | High availability support for virtual machines | |
JP6034990B2 (ja) | サーバ制御方法及びサーバ制御装置 | |
US7007192B2 (en) | Information processing system, and method and program for controlling the same | |
JP2010086364A (ja) | 情報処理装置、動作状態監視装置および方法 | |
JP5609242B2 (ja) | 情報処理装置及びメモリダンプ採取方法 | |
JP5403054B2 (ja) | メモリダンプ機能を有するサーバおよびメモリダンプ取得方法 | |
JP4886558B2 (ja) | 情報処理装置 | |
US20170262341A1 (en) | Flash memory-hosted local and remote out-of-service platform manageability | |
JP6599725B2 (ja) | 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム | |
JP6264879B2 (ja) | 情報処理装置、監視プログラム及び監視方法 | |
CN104360935A (zh) | 一种服务器系统崩溃转储收集的方法 | |
CN115904793B (zh) | 一种基于多核异构系统的内存转存方法、系统及芯片 | |
JP5818257B2 (ja) | 計算機システム、電源切断処理装置、電源切断処理方法およびプログラム | |
JP5949540B2 (ja) | 情報処理装置、及び記憶情報解析方法 | |
JP5348120B2 (ja) | パニックダンプ採取のためのプログラム、方法、機構 | |
JP2007094537A (ja) | メモリダンプ装置及びメモリダンプ採取方法 | |
JP4633553B2 (ja) | デバッグシステム、デバッグ方法およびプログラム | |
JP2010102441A (ja) | 情報処理装置、情報処理プログラム | |
JP2014182676A (ja) | ログ採取装置、演算装置、およびログ採取方法 | |
JP5884801B2 (ja) | パス切替装置、パス切替方法及びパス切替プログラム | |
JP6737701B2 (ja) | 周辺装置、ホスト装置、保守装置、情報処理システム、方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110516 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110701 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120207 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120403 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120703 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20120710 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120807 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120927 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121010 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151102 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5120664 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |