JP5120664B2 - サーバシステム及びクラッシュダンプ採取方法 - Google Patents
サーバシステム及びクラッシュダンプ採取方法 Download PDFInfo
- Publication number
- JP5120664B2 JP5120664B2 JP2009159717A JP2009159717A JP5120664B2 JP 5120664 B2 JP5120664 B2 JP 5120664B2 JP 2009159717 A JP2009159717 A JP 2009159717A JP 2009159717 A JP2009159717 A JP 2009159717A JP 5120664 B2 JP5120664 B2 JP 5120664B2
- Authority
- JP
- Japan
- Prior art keywords
- firmware
- memory
- stall
- reset
- service processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0778—Dumping, i.e. gathering error/state information after a fault for later diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/073—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
- Stored Programmes (AREA)
Description
即ち、本発明に係るサーバシステムは、ハードウェアによるファームウェアのストール監視を行い、前記ストール検出後にリセットを行うサーバシステムであって、前記ファームウェアの動作中に処理矛盾が発生した場合に、前記ハードウェアの割り込みを禁止し、前記ファームウェアをセルフ無限ループに陥らせることによって前記ハードウェアによるストール検出に導くための手段と、前記ファームウェアのブートローダーが使用する領域とその他ファームウェアが使用する領域とを有するメモリと、前記ストール検出時のリセットか通常のリセットかのリセット要因を判別し、前記ストール検出によるリセットが発生した場合には、前記メモリのその他ファームウェアが使用する領域の情報を採取する手段と、を備えたことを特徴とする。
また、本発明に係るサーバシステムは、システムのベースボード上に搭載された前記ベースボードを制御するためのマネジメントボードと、前記マネジメントボード上にあって前記ベースボード上のハードウェアを制御する、ソフトウェア構造がブートローダーとLinuxカーネルに分けられたオペレーティングシステムとして組み込みLinuxを有するファームウェアと、前記マネジメントボードを制御する中核となるサービスプロセッサと、前記ブートローダーが使用するメモリ領域と前記Linuxカーネルが使用するメモリ領域とに分けられたメモリと、前記ファームウェアの動作中に前記Linuxカーネルの処理矛盾が発生した場合に、前記ハードウェアの割り込みを禁止し、前記ファームウェアをセルフ無限ループに陥らせることによって前記ハードウェアによるストール検出に導くための手段と、前記ハードウェアによる前記ファームウェアのストール監視を行い、前記ファームウェアのストールを検出した場合には、前記サービスプロセッサのリセットを行い、前記ファームウェアを再起動するストール検出手段と、前記ファームウェアの再起動時に前記ストール検出手段に保持されている、当該ストール検出手段に因る前記サービスプロセッサのリセットが発生したのか、又は、当該ストール検出手段に因らない前記サービスプロセッサのリセットが発生したのかの何れであるかを示すリセット要因を読み取る手段と、前記リセット要因に基づき前記ストール検出手段に因る前記サービスプロセッサのリセットが発生した場合には、前記ストール発生時における前記メモリの前記Linuxカーネルが使用していたメモリ領域の情報を、前記ブートローダーが前記Linuxカーネル起動前に採取する手段と、を備えることを特徴とする。
(1)Linuxカーネル402のソースコードを改修し、Oops発生時はカーネルパニック扱いとする。
(2)カーネルパニック発生時に確実にPLD305がストールを検出できるようにするため、Linuxカーネル402のソースコードを改修し、完全停止状態にする。
(3)PLD305の機能実現によりストール検出時のリセットと通常のリセットを、リセット要因として区別できるようにする。
(4)PLD305によるストール検出時のリセットにおいてはメモリの内容が保持されるようにする。
(5)ブートローダー401によるクラッシュダンプ採取処理において、ブートローダー401自身が、ストール発生時のLinuxカーネル402のメモリ領域を破壊しないようにするため、ブートローダー401とLinuxカーネル402の使用するメモリ領域を分けている。
(6)ブートローダー401によるクラッシュダンプ採取処理において、SP303に直結されている外部FLASHROM306へストール発生時のメモリイメージを保存するようにする。
(7)クラッシュダンプ採取後にファームウェアの起動を行い、再度システムの運用を開始できるようにする。
301 MGMT
302 BMCFW
303 SP
304 メモリ
305 PLD
306 SPI FLASHROM
400 メモリマップ
401 ブートローダー
402 Linuxカーネル
500 PLD
501 SP
502 リセット要因
503 リセット線
504 PLDアクセスパス
Claims (8)
- システムのベースボード上に搭載された前記ベースボードを制御するためのマネジメントボードと、
前記マネジメントボード上にあって前記ベースボード上のハードウェアを制御する、ソフトウェア構造がブートローダーとLinux(登録商標)カーネルに分けられたオペレーティングシステムとして組み込みLinuxを有するファームウェアと、
前記マネジメントボードを制御する中核となるサービスプロセッサと、
前記ブートローダーが使用するメモリ領域と前記Linuxカーネルが使用するメモリ領域とに分けられたメモリと、
前記ファームウェアの動作中に前記Linuxカーネルの処理矛盾が発生した場合に、前記ハードウェアの割り込みを禁止し、前記ファームウェアをセルフ無限ループに陥らせることによって前記ハードウェアによるストール検出に導くための手段と、
前記ハードウェアによる前記ファームウェアのストール監視を行い、前記ファームウェアのストールを検出した場合には、前記サービスプロセッサのリセットを行い、前記ファームウェアを再起動するストール検出手段と、
前記ファームウェアの再起動時に前記ストール検出手段に保持されている、当該ストール検出手段に因る前記サービスプロセッサのリセットが発生したのか、又は、当該ストール検出手段に因らない前記サービスプロセッサのリセットが発生したのかの何れであるかを示すリセット要因を読み取る手段と、
前記リセット要因に基づき前記ストール検出手段に因る前記サービスプロセッサのリセットが発生した場合には、前記ストール発生時における前記メモリの前記Linuxカーネルが使用していたメモリ領域の情報を、前記ブートローダーが前記Linuxカーネル起動前に採取する手段と、
を備えることを特徴とするサーバシステム。 - 前記ファームウェアは、不揮発性メモリ上に格納されていることを特徴とする請求項1に記載のサーバシステム。
- 前記ストール検出手段による前記サービスプロセッサのリセット時には前記メモリの情報は保持されていることを特徴とする請求項1又は2に記載のサーバシステム。
- 前記Linuxカーネルが使用していたメモリ領域から採取した情報は前記メモリとは異なる第2のメモリに格納することを特徴とする請求項1乃至3のいずれか1項に記載のサーバシステム。
- システムのベースボード上に搭載された前記ベースボードを制御するためのマネジメントボードと、
前記マネジメントボード上にあって前記ベースボード上のハードウェアを制御する、ソフトウェア構造がブートローダーとLinux(登録商標)カーネルに分けられたオペレーティングシステムとして組み込みLinuxを有するファームウェアと、
前記マネジメントボードを制御する中核となるサービスプロセッサと、
前記ブートローダーが使用するメモリ領域と前記Linuxカーネルが使用するメモリ領域とに分けられたメモリと、を有するサーバシステムのクラッシュダンプ採取方法であって、
ストール検出導入手段により、前記ファームウェアの動作中に前記Linuxカーネルの処理矛盾が発生した場合に、前記ハードウェアの割り込みを禁止し、前記ファームウェアをセルフ無限ループに陥らせることによって前記ハードウェアによるストール検出に導くための工程と、
ストール検出手段により、前記ハードウェアによる前記ファームウェアのストール監視を行い、前記ファームウェアのストールを検出した場合には、前記サービスプロセッサのリセットを行い、前記ファームウェアを再起動する工程と、
読み取り手段により、前記ファームウェアの再起動時に前記ストール検出手段に保持されている、当該ストール検出手段に因る前記サービスプロセッサのリセットが発生したのか、又は、当該ストール検出手段に因らない前記サービスプロセッサのリセットが発生したのかの何れであるかを示すリセット要因を読み取る工程と、
情報採取手段により、前記リセット要因に基づき前記ストール検出手段に因る前記サービスプロセッサのリセットが発生した場合には、前記ストール発生時における前記メモリの前記Linuxカーネルが使用していたメモリ領域の情報を、前記ブートローダーが前記Linuxカーネル起動前に採取する工程と、
を含むことを特徴とするクラッシュダンプ採取方法。 - 前記ファームウェアは、不揮発性メモリ上に格納されていることを特徴とする請求項5に記載のクラッシュダンプ採取方法。
- 前記ストール検出手段による前記サービスプロセッサのリセット時には前記メモリの情報は保持されていることを特徴とする請求項5又は6に記載のクラッシュダンプ採取方法。
- 前記Linuxカーネルが使用していたメモリ領域から採取した情報は前記メモリとは異なる第2のメモリに格納することを特徴とする請求項5乃至7のいずれか1項に記載のクラッシュダンプ採取方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009159717A JP5120664B2 (ja) | 2009-07-06 | 2009-07-06 | サーバシステム及びクラッシュダンプ採取方法 |
US12/829,150 US8489932B2 (en) | 2009-07-06 | 2010-07-01 | Server system and crash dump collection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009159717A JP5120664B2 (ja) | 2009-07-06 | 2009-07-06 | サーバシステム及びクラッシュダンプ採取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011014075A JP2011014075A (ja) | 2011-01-20 |
JP5120664B2 true JP5120664B2 (ja) | 2013-01-16 |
Family
ID=43413257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009159717A Expired - Fee Related JP5120664B2 (ja) | 2009-07-06 | 2009-07-06 | サーバシステム及びクラッシュダンプ採取方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8489932B2 (ja) |
JP (1) | JP5120664B2 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483713A (zh) * | 2009-08-04 | 2012-05-30 | 富士通株式会社 | 复位方法以及监视装置 |
JP6035715B2 (ja) * | 2011-08-22 | 2016-11-30 | 日本電気株式会社 | コンピュータシステム、情報処理システム、仮想メディア方法、および、プログラム |
JP2013182519A (ja) * | 2012-03-02 | 2013-09-12 | Nec Computertechno Ltd | コンピュータ、ファームウェア管理方法、及びbmc |
US9026860B2 (en) | 2012-07-31 | 2015-05-05 | International Business Machines Corpoation | Securing crash dump files |
CN102929747B (zh) * | 2012-11-05 | 2015-07-01 | 中标软件有限公司 | 基于龙芯服务器的Linux操作系统崩溃转储的处理方法 |
CN103809989B (zh) * | 2012-11-08 | 2017-07-11 | 英华达(南京)科技有限公司 | 操作系统发生核心崩溃情况下读取完整核心日志的方法 |
JP5949540B2 (ja) * | 2012-12-27 | 2016-07-06 | 富士通株式会社 | 情報処理装置、及び記憶情報解析方法 |
US20150006962A1 (en) * | 2013-06-27 | 2015-01-01 | Robert C. Swanson | Memory dump without error containment loss |
JP6094677B2 (ja) * | 2013-07-31 | 2017-03-15 | 富士通株式会社 | 情報処理装置、メモリダンプ方法、およびメモリダンププログラム |
GB2520712A (en) | 2013-11-28 | 2015-06-03 | Ibm | Data dump method for a memory in a data processing system |
US9852172B2 (en) | 2014-09-17 | 2017-12-26 | Oracle International Corporation | Facilitating handling of crashes in concurrent execution environments of server systems while processing user queries for data retrieval |
US10324800B2 (en) * | 2017-01-19 | 2019-06-18 | Quanta Computer Inc. | System recovery using WoL |
CN107368384A (zh) * | 2017-07-21 | 2017-11-21 | 郑州云海信息技术有限公司 | 一种Linux服务器异常信息转储系统及方法 |
US11226755B1 (en) * | 2017-09-28 | 2022-01-18 | Amazon Technologies, Inc. | Core dump in a storage device |
US10846160B2 (en) * | 2018-01-12 | 2020-11-24 | Quanta Computer Inc. | System and method for remote system recovery |
US11194589B2 (en) * | 2019-01-08 | 2021-12-07 | Dell Products L.P. | Information handling system adaptive component reset |
CN112463343B (zh) * | 2020-12-16 | 2023-09-26 | 广州博冠信息科技有限公司 | 业务进程的重启方法和装置、存储介质、电子设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6252647A (ja) | 1985-08-30 | 1987-03-07 | Minolta Camera Co Ltd | マイクロプロセツサの暴走監視システム |
JPH056295A (ja) * | 1991-06-27 | 1993-01-14 | Nec Eng Ltd | 情報処理装置のダンプ方式 |
JPH09223046A (ja) * | 1996-02-20 | 1997-08-26 | Nec Software Ltd | ダンプ収集機能を持つコンピュータシステム |
JP2004280538A (ja) | 2003-03-17 | 2004-10-07 | Nec Mobiling Ltd | 障害発生時の誤動作防止方法及び障害発生時の誤動作防止方式及び障害発生時の誤動作防止プログラム |
JP4528144B2 (ja) * | 2005-01-26 | 2010-08-18 | 富士通株式会社 | メモリダンププログラムのブート方法、機構及びプログラム |
WO2006127493A2 (en) | 2005-05-26 | 2006-11-30 | United Parcel Service Of America, Inc. | Software process monitor |
US20070050675A1 (en) * | 2005-08-29 | 2007-03-01 | Moxa Technologies Co., Ltd. | [method for restoring a booted system] |
JP4645837B2 (ja) * | 2005-10-31 | 2011-03-09 | 日本電気株式会社 | メモリダンプ方法、コンピュータシステム、およびプログラム |
JP4609381B2 (ja) * | 2006-06-14 | 2011-01-12 | 株式会社デンソー | 異常監視用プログラム、記録媒体及び電子装置 |
JP2008176682A (ja) * | 2007-01-22 | 2008-07-31 | Renesas Technology Corp | 半導体集積回路及びデータ処理システム |
JP2009075992A (ja) | 2007-09-25 | 2009-04-09 | Hitachi Ltd | 情報処理装置のメモリダンプ採取方法 |
-
2009
- 2009-07-06 JP JP2009159717A patent/JP5120664B2/ja not_active Expired - Fee Related
-
2010
- 2010-07-01 US US12/829,150 patent/US8489932B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US8489932B2 (en) | 2013-07-16 |
US20110004780A1 (en) | 2011-01-06 |
JP2011014075A (ja) | 2011-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5120664B2 (ja) | サーバシステム及びクラッシュダンプ採取方法 | |
US9158628B2 (en) | Bios failover update with service processor having direct serial peripheral interface (SPI) access | |
CN107122321B (zh) | 硬件修复方法、硬件修复系统以及计算机可读取存储装置 | |
US9778844B2 (en) | Installation of operating system on host computer using virtual storage of BMC | |
US9367692B2 (en) | System and method for validating components during a booting process | |
US8468389B2 (en) | Firmware recovery system and method of baseboard management controller of computing device | |
US8135985B2 (en) | High availability support for virtual machines | |
JP6034990B2 (ja) | サーバ制御方法及びサーバ制御装置 | |
US7007192B2 (en) | Information processing system, and method and program for controlling the same | |
TW201502790A (zh) | 次級非依電性記憶體中之冗餘系統啓動碼 | |
EP2463779A1 (en) | Reset method and monitor | |
CN104778081B (zh) | 切换作业系统的方法及电子装置 | |
JP2010086364A (ja) | 情報処理装置、動作状態監視装置および方法 | |
US8489933B2 (en) | Data processing device and method for memory dump collection | |
JP5403054B2 (ja) | メモリダンプ機能を有するサーバおよびメモリダンプ取得方法 | |
JP2006072931A (ja) | パニックダンプ採取のためのプログラム、方法、及び機構 | |
JP4886558B2 (ja) | 情報処理装置 | |
JP6599725B2 (ja) | 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム | |
JP6264879B2 (ja) | 情報処理装置、監視プログラム及び監視方法 | |
CN104360935A (zh) | 一种服务器系统崩溃转储收集的方法 | |
CN115904793B (zh) | 一种基于多核异构系统的内存转存方法、系统及芯片 | |
JP5949540B2 (ja) | 情報処理装置、及び記憶情報解析方法 | |
JP5348120B2 (ja) | パニックダンプ採取のためのプログラム、方法、機構 | |
JP2007094537A (ja) | メモリダンプ装置及びメモリダンプ採取方法 | |
JP2010102441A (ja) | 情報処理装置、情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110516 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110701 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120207 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120403 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120703 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20120710 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120807 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120927 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121010 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151102 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5120664 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |