JPH10283214A - 検査停止エラー処理の方法及びコンピュータ・システム - Google Patents
検査停止エラー処理の方法及びコンピュータ・システムInfo
- Publication number
- JPH10283214A JPH10283214A JP10059494A JP5949498A JPH10283214A JP H10283214 A JPH10283214 A JP H10283214A JP 10059494 A JP10059494 A JP 10059494A JP 5949498 A JP5949498 A JP 5949498A JP H10283214 A JPH10283214 A JP H10283214A
- Authority
- JP
- Japan
- Prior art keywords
- error
- firmware
- computer system
- data
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 43
- 238000007689 inspection Methods 0.000 title abstract description 9
- 238000002955 isolation Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 6
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0772—Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0787—Storage of error reports, e.g. persistent data storage, storage using memory protection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1417—Boot up procedures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
- Retry When Errors Occur (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
(57)【要約】
【課題】 検査停止エラー処理のための方法及びシステ
ムの態様を提供する。 【解決手段】 オペレーティング・システム及びファー
ムウェアをサポートするプロセッサを含む複数の構成要
素を有するコンピュータ・システムにおける検査停止エ
ラー処理の方法の態様は、エラー・データ検索のために
検査停止エラーに追随するサービス・プロセッサを使用
することと、前記コンピュータ・システムのリブートを
試みることと、前記リブートが成功したとき前記エラー
・データ検索に基づいて障害報告のためのファームウェ
アを開始することとを含む。この方法はさらにリブート
が成功したときエラー・データ検索に基づいて障害報告
用のファームウェアを開始する。システムの態様では、
検査停止エラー処理を有するコンピュータ・システムが
処理機構を含み、処理機構はオペレーティング・システ
ムをサポートし、処理機構へ接続されたサービス・プロ
セッサが検査停止エラーに追随してエラー・データ検索
を実行する。
ムの態様を提供する。 【解決手段】 オペレーティング・システム及びファー
ムウェアをサポートするプロセッサを含む複数の構成要
素を有するコンピュータ・システムにおける検査停止エ
ラー処理の方法の態様は、エラー・データ検索のために
検査停止エラーに追随するサービス・プロセッサを使用
することと、前記コンピュータ・システムのリブートを
試みることと、前記リブートが成功したとき前記エラー
・データ検索に基づいて障害報告のためのファームウェ
アを開始することとを含む。この方法はさらにリブート
が成功したときエラー・データ検索に基づいて障害報告
用のファームウェアを開始する。システムの態様では、
検査停止エラー処理を有するコンピュータ・システムが
処理機構を含み、処理機構はオペレーティング・システ
ムをサポートし、処理機構へ接続されたサービス・プロ
セッサが検査停止エラーに追随してエラー・データ検索
を実行する。
Description
【0001】
【発明の属する技術分野】本発明は、一般的には、コン
ピュータ・システムにおけるエラー処理に関し、特に、
これらのシステムにおける検査停止エラー処理に関す
る。
ピュータ・システムにおけるエラー処理に関し、特に、
これらのシステムにおける検査停止エラー処理に関す
る。
【0002】
【従来の技術】デジタル・コンピュータ・システムにお
いてハードウェア障害が検出される場合、ときとしてそ
の障害が極めて深刻であったりデータ崩壊の危険が非常
に大きかったりすることから、エラーの検出は、それ以
降のオペレーションを即刻停止させるように設計されて
いる。完全なシステム・リセットを実行する以外にこの
状態から回復する手段はなく、通常、この状態は検査停
止状態と称される。エラーが深刻であるが故に、障害を
起こしている構成要素を速やかに取り替えかつシステム
を正常なオペレーションへと回復できるようにそのエラ
ーの発生源を決定できることが重要である。
いてハードウェア障害が検出される場合、ときとしてそ
の障害が極めて深刻であったりデータ崩壊の危険が非常
に大きかったりすることから、エラーの検出は、それ以
降のオペレーションを即刻停止させるように設計されて
いる。完全なシステム・リセットを実行する以外にこの
状態から回復する手段はなく、通常、この状態は検査停
止状態と称される。エラーが深刻であるが故に、障害を
起こしている構成要素を速やかに取り替えかつシステム
を正常なオペレーションへと回復できるようにそのエラ
ーの発生源を決定できることが重要である。
【0003】しかしながら、この条件においてはメイン
・プロセッサが停止させられるので、障害情報を把握す
るために別の処理機構が必要である。この機構は、普
通、サービス・プロセッサと称されており、組み込まれ
たコントローラ・オペレーションを提供し、検査停止障
害が発生したときであっても維持される。不都合な点
は、全ての正常機能パスが凍結されたときに障害要素か
ら障害情報を抽出しかつその情報の解析を行うために、
精密な処理機構が必要なことである。しかしながら、こ
のような精密な処理機構を含めると、システムのコスト
が増大する。
・プロセッサが停止させられるので、障害情報を把握す
るために別の処理機構が必要である。この機構は、普
通、サービス・プロセッサと称されており、組み込まれ
たコントローラ・オペレーションを提供し、検査停止障
害が発生したときであっても維持される。不都合な点
は、全ての正常機能パスが凍結されたときに障害要素か
ら障害情報を抽出しかつその情報の解析を行うために、
精密な処理機構が必要なことである。しかしながら、こ
のような精密な処理機構を含めると、システムのコスト
が増大する。
【0004】さらに、通常のシステムは、極めて大量の
エラー・データをラッチ・ビットの形態で含む。僅か1
つの新たなラッチ・ビットを追加する技術的変更でさ
え、データの走査ストリング全体のレイアウトを変更す
ることになり、抽出する必要のあるデータ量が増すこと
になる。増加したデータを保持するために十分な記憶空
間を設けると、さらにシステム全体のコストが増してし
まう。
エラー・データをラッチ・ビットの形態で含む。僅か1
つの新たなラッチ・ビットを追加する技術的変更でさ
え、データの走査ストリング全体のレイアウトを変更す
ることになり、抽出する必要のあるデータ量が増すこと
になる。増加したデータを保持するために十分な記憶空
間を設けると、さらにシステム全体のコストが増してし
まう。
【0005】
【発明が解決しようとする課題】従って、ローエンド・
コンピュータ・システム上で機能し、基本的で低コスト
なサービス・プロセッサを用い、かつ比較的小さな記憶
空間を要する、検査停止エラーの解析及び処理のための
有効なシステムが必要とされている。
コンピュータ・システム上で機能し、基本的で低コスト
なサービス・プロセッサを用い、かつ比較的小さな記憶
空間を要する、検査停止エラーの解析及び処理のための
有効なシステムが必要とされている。
【0006】
【課題を解決するための手段】これらの必要性は、検査
停止エラー処理のための方法及びシステムの態様を提供
する本発明により満足される。コンピュータ・システム
における検査停止エラー処理の方法の態様においては、
そのコンピュータ・システムがオペレーティング・シス
テム及びファームウェアをサポートするプロセッサを含
む複数の構成要素を具備する。本方法は、エラー・デー
タ検索のために検査停止エラーを追跡しかつコンピュー
タ・システムのリブートを試みるサービス・プロセッサ
を利用することを含む。さらに本方法は、リブートが成
功したとき、エラー・データ検索に基づいて障害報告す
るためのファームウェアを開始することを含む。別の方
法の態様においては、本方法は、検査停止エラーを追跡
するサービス・プロセッサを用いることにより複数の構
成要素の障害隔離レジスタからのエラー・データ検索を
実行すること、及び、リブート成功の後にファームウェ
アを介してそのエラー・データを要約されたエラー・ロ
グへ変換することを含む。
停止エラー処理のための方法及びシステムの態様を提供
する本発明により満足される。コンピュータ・システム
における検査停止エラー処理の方法の態様においては、
そのコンピュータ・システムがオペレーティング・シス
テム及びファームウェアをサポートするプロセッサを含
む複数の構成要素を具備する。本方法は、エラー・デー
タ検索のために検査停止エラーを追跡しかつコンピュー
タ・システムのリブートを試みるサービス・プロセッサ
を利用することを含む。さらに本方法は、リブートが成
功したとき、エラー・データ検索に基づいて障害報告す
るためのファームウェアを開始することを含む。別の方
法の態様においては、本方法は、検査停止エラーを追跡
するサービス・プロセッサを用いることにより複数の構
成要素の障害隔離レジスタからのエラー・データ検索を
実行すること、及び、リブート成功の後にファームウェ
アを介してそのエラー・データを要約されたエラー・ロ
グへ変換することを含む。
【0007】システムの態様においては、検査停止エラ
ー処理を用いるコンピュータ・システムが処理機構を含
み、その処理機構はオペレーティング・システムをサポ
ートする。さらに、処理機構へ接続されるサービス・プ
ロセッサを含み、サービス・プロセッサは検査停止エラ
ーを追跡してエラー・データ検索を行う。さらに、本シ
ステムは、処理機構によりサポートされるファームウェ
ア機構を含み、ファームウェア機構はエラー・データ検
索に基づいて障害報告を行う。
ー処理を用いるコンピュータ・システムが処理機構を含
み、その処理機構はオペレーティング・システムをサポ
ートする。さらに、処理機構へ接続されるサービス・プ
ロセッサを含み、サービス・プロセッサは検査停止エラ
ーを追跡してエラー・データ検索を行う。さらに、本シ
ステムは、処理機構によりサポートされるファームウェ
ア機構を含み、ファームウェア機構はエラー・データ検
索に基づいて障害報告を行う。
【0008】本発明は、多量の記憶空間を伴う高価なサ
ービス・プロセッサを必要とすることなく検査停止エラ
ー処理を効果的に実現する。さらに、メイン・プロセッ
サ上のファームウェアにおいて実行される実際の解析と
共に必要なエラー・レジスタのみが保存される。本発明
の態様のこれらの及び他の利点は、以下の詳細な説明及
び添付の図面と共にさらに完全に理解されるであろう。
ービス・プロセッサを必要とすることなく検査停止エラ
ー処理を効果的に実現する。さらに、メイン・プロセッ
サ上のファームウェアにおいて実行される実際の解析と
共に必要なエラー・レジスタのみが保存される。本発明
の態様のこれらの及び他の利点は、以下の詳細な説明及
び添付の図面と共にさらに完全に理解されるであろう。
【0009】
【発明の実施の形態】本発明は、コンピュータ・システ
ムにおける検査停止エラーの処理に関係する。以下の説
明は、当業者が本発明を実施しかつ使用することができ
るように提示され、本願及びその必要性に関連して提供
されている。好適な実施例に対する様々な応用は当業者
には自明であり、本発明の一般的な原理は他の実施例へ
も適用可能である。このように本発明は、示された実施
例に限定することは意図されておらず、ここに記載され
た原理及び特徴に沿う最も広い範囲に相当すべきであ
る。
ムにおける検査停止エラーの処理に関係する。以下の説
明は、当業者が本発明を実施しかつ使用することができ
るように提示され、本願及びその必要性に関連して提供
されている。好適な実施例に対する様々な応用は当業者
には自明であり、本発明の一般的な原理は他の実施例へ
も適用可能である。このように本発明は、示された実施
例に限定することは意図されておらず、ここに記載され
た原理及び特徴に沿う最も広い範囲に相当すべきであ
る。
【0010】図1は、本発明と共に用いる汎用的コンピ
ュータ・システムの基本構成図を示す。図示のようにコ
ンピュータ・システムは、メモリ・コントローラ12へ
接続されたプロセッサ10、例えばIBMコーポレーシ
ョン製のPowerPC(商標)等を含み、メモリ・コ
ントローラ12がシステム・メモリ13すなわちRAM
(ランダム・アクセス・メモリ)及びROM(読取り専
用メモリ)を制御する。オペレーティング・システム
(O/S)14は、通常、コンピュータ・システムにお
ける基本タスクを実行するべくプロセッサ上で稼働し、
アプリケーション・プログラムのためのプラットフォー
ムとして動作する。さらに、プロセッサ10上で動作す
るファームウェア16、及び、不揮発性RAM若しくは
EPROM(消去可能プログラマブル読取り専用メモ
リ)等の適宜のメモリに記憶されたコードも含まれる。
これらは当業者には周知である。
ュータ・システムの基本構成図を示す。図示のようにコ
ンピュータ・システムは、メモリ・コントローラ12へ
接続されたプロセッサ10、例えばIBMコーポレーシ
ョン製のPowerPC(商標)等を含み、メモリ・コ
ントローラ12がシステム・メモリ13すなわちRAM
(ランダム・アクセス・メモリ)及びROM(読取り専
用メモリ)を制御する。オペレーティング・システム
(O/S)14は、通常、コンピュータ・システムにお
ける基本タスクを実行するべくプロセッサ上で稼働し、
アプリケーション・プログラムのためのプラットフォー
ムとして動作する。さらに、プロセッサ10上で動作す
るファームウェア16、及び、不揮発性RAM若しくは
EPROM(消去可能プログラマブル読取り専用メモ
リ)等の適宜のメモリに記憶されたコードも含まれる。
これらは当業者には周知である。
【0011】さらに、プロセッサ10と副次的構成要素
との間の相互動作を制御するために、入出力(I/O)
コントローラ18がプロセッサ10へ接続される。副次
的構成要素は、例えば、PCI標準等の入出力標準へ取
り付けられるハード・ディスク・ドライブやモニタ等の
入出力装置19、及び、不揮発性RAM(NVRAM)
等のメモリ素子20等のサブ構成要素である。さらに、
組み込まれたコントローラすなわちサービス・プロセッ
サ(SP)22が含まれる。SP22は、走査ストリン
グ中の障害情報を抽出するために障害隔離レジスタ・デ
ータ用の構成要素へ適宜アクセスする。特定のエラー・
ビットが、専用のアクセス・コマンドを用いて直接的に
アクセスできる限定されたシリーズへ連結されることに
より、そのエラー・ビットはさらにアクセス容易とな
る。専用のアクセス・コマンドはIEEE標準1149.1に
より規定され、しばしば、創始者らの名称によりJTA
G(Joint Test Action Group)と称される。
との間の相互動作を制御するために、入出力(I/O)
コントローラ18がプロセッサ10へ接続される。副次
的構成要素は、例えば、PCI標準等の入出力標準へ取
り付けられるハード・ディスク・ドライブやモニタ等の
入出力装置19、及び、不揮発性RAM(NVRAM)
等のメモリ素子20等のサブ構成要素である。さらに、
組み込まれたコントローラすなわちサービス・プロセッ
サ(SP)22が含まれる。SP22は、走査ストリン
グ中の障害情報を抽出するために障害隔離レジスタ・デ
ータ用の構成要素へ適宜アクセスする。特定のエラー・
ビットが、専用のアクセス・コマンドを用いて直接的に
アクセスできる限定されたシリーズへ連結されることに
より、そのエラー・ビットはさらにアクセス容易とな
る。専用のアクセス・コマンドはIEEE標準1149.1に
より規定され、しばしば、創始者らの名称によりJTA
G(Joint Test Action Group)と称される。
【0012】障害情報を決定する際に、本発明は、Po
werPC(商標)のコモン・ハードウェア・リファレン
ス・プラットフォーム(CHRP)・アーキテクチャを
利用する。このアーキテクチャは、ランタイム・アブス
トラクション・サービス(RTAS)と称される専用の
ファームウェアを提供するためのハードウェア・プラッ
トフォーム用の機構を規定する。このファームウェアへ
は、稼働しているオペレーティング・システムからアク
セスすることができる。CHRPの特徴の説明について
は、「PowerPC Microprocessor Common Hardware Refer
ence Platform:A System Architecture」(1995年カリフォルニ
ア州サンフランシスコ所在、Morgan Kaufman Publishers, Inc.刊
行)等を参照されたい。専用のファームウェアは、Intel
システムにおけるBIOSに類似の特性を有する。特別
なファームウェアは、それが稼働する特定のハードウェ
ア用に作られるので、そのシステムにおける様々な構成
要素全体に亘って障害隔離レジスタで利用可能な障害情
報についての大量の知識の記憶をサポートする。本発明
は、検査停止条件に追随してコンピュータ・システム内
の障害隔離レジスタから障害情報の収集を行う機構を提
供し、この機構はシステム・リブートに成功した後の障
害識別を可能とする。
werPC(商標)のコモン・ハードウェア・リファレン
ス・プラットフォーム(CHRP)・アーキテクチャを
利用する。このアーキテクチャは、ランタイム・アブス
トラクション・サービス(RTAS)と称される専用の
ファームウェアを提供するためのハードウェア・プラッ
トフォーム用の機構を規定する。このファームウェアへ
は、稼働しているオペレーティング・システムからアク
セスすることができる。CHRPの特徴の説明について
は、「PowerPC Microprocessor Common Hardware Refer
ence Platform:A System Architecture」(1995年カリフォルニ
ア州サンフランシスコ所在、Morgan Kaufman Publishers, Inc.刊
行)等を参照されたい。専用のファームウェアは、Intel
システムにおけるBIOSに類似の特性を有する。特別
なファームウェアは、それが稼働する特定のハードウェ
ア用に作られるので、そのシステムにおける様々な構成
要素全体に亘って障害隔離レジスタで利用可能な障害情
報についての大量の知識の記憶をサポートする。本発明
は、検査停止条件に追随してコンピュータ・システム内
の障害隔離レジスタから障害情報の収集を行う機構を提
供し、この機構はシステム・リブートに成功した後の障
害識別を可能とする。
【0013】図2は、本発明による検査停止エラー処理
のための方法の流れ図を示す。検査停止が発生したと
き、プロセスは、SP22にエラー・データ検索を実行
させることにより開始される(ステップ30)。SP2
2は、エラー・データ検索を実行するために適宜信号を
与えられる。例えば、SP22はアテンション信号を受
信する。図3は、SP22によるエラー・データ検索の
実行を示しており、SP22は特定のエラー・レジスタ
・データを読み取る(ステップ32)。例えば、SP2
2は、JTAG障害隔離レジスタ(FIR(Fault Isol
ation Register))情報を集める。その後エラー・デー
タは、SP22により予め規定されフォーマットされた
形でメモリ素子/NVRAM20等の不揮発性の永久記
憶部に適切に配置される(ステップ34)。記憶素子2
0内のエラー・データの存在は、システムへ示されるこ
とが好ましい。例えば、検査停止用フラグをセットする
か又は制御カウントを増分することによる。
のための方法の流れ図を示す。検査停止が発生したと
き、プロセスは、SP22にエラー・データ検索を実行
させることにより開始される(ステップ30)。SP2
2は、エラー・データ検索を実行するために適宜信号を
与えられる。例えば、SP22はアテンション信号を受
信する。図3は、SP22によるエラー・データ検索の
実行を示しており、SP22は特定のエラー・レジスタ
・データを読み取る(ステップ32)。例えば、SP2
2は、JTAG障害隔離レジスタ(FIR(Fault Isol
ation Register))情報を集める。その後エラー・デー
タは、SP22により予め規定されフォーマットされた
形でメモリ素子/NVRAM20等の不揮発性の永久記
憶部に適切に配置される(ステップ34)。記憶素子2
0内のエラー・データの存在は、システムへ示されるこ
とが好ましい。例えば、検査停止用フラグをセットする
か又は制御カウントを増分することによる。
【0014】図2へ戻ると、SP22がエラー・データ
検索を終了すると、システム・リブートの試行を続ける
(ステップ38)。システムは、適宜、自動又は手動で
リブートすることができる。ステップ40において障害
条件が永久障害であると判断され、かつシステムがリブ
ートできない場合、好適には、システム対する故障の識
別を行う(ステップ42)。例えば、操作パネルすなわ
ちオペレータ・パネル上にエラー・コードを提示するフ
ァームウェアであるパワーオン・セルフ・テスト(PO
ST)等の正常なブート機構を通して報告することによ
る。障害条件が永久障害でない場合、すなわち障害が一
時停止や重要でないものであってシステム無事にリブー
トする場合、好適には、障害報告を実行するためにファ
ームウェア16が呼び出される(ステップ44)。例と
して、オペレーティング・システムが、プラットフォー
ムに障害を報告する常駐ファームウェア機能(CHRP
RTAS「イベントスキャン」等)に対する周期的呼
出しの実行をロードしかつ開始する。ファームウェア
が、例えばイベントスキャンに対する最初の呼出しに応
じて障害に関する報告を開始したならば、好適には、エ
ラー・データがファームウェア16により変換される
(ステップ46)。ファームウェア16は、適宜、記憶
されたエラー・レジスタ・データを読み取り、要約され
たエラー・ログをNVRAM20内に作成し、そして、
例えば記憶装置内のフラグ又は検査停止カウントをクリ
アすることにより検査停止の標示を除去する。ファーム
ウェア16による検査停止標示の除去により、正常シス
テム動作中におけるその後の常住ファームウェア機能に
対するいかなる呼出しも、再び検査停止障害を報告しな
い。変換することには、ファームウェア16が要約され
たエラー・ログをオペレーティング・システム14へ戻
すことが含まれる。これは、システム内の障害のある構
成要素の識別のためである。
検索を終了すると、システム・リブートの試行を続ける
(ステップ38)。システムは、適宜、自動又は手動で
リブートすることができる。ステップ40において障害
条件が永久障害であると判断され、かつシステムがリブ
ートできない場合、好適には、システム対する故障の識
別を行う(ステップ42)。例えば、操作パネルすなわ
ちオペレータ・パネル上にエラー・コードを提示するフ
ァームウェアであるパワーオン・セルフ・テスト(PO
ST)等の正常なブート機構を通して報告することによ
る。障害条件が永久障害でない場合、すなわち障害が一
時停止や重要でないものであってシステム無事にリブー
トする場合、好適には、障害報告を実行するためにファ
ームウェア16が呼び出される(ステップ44)。例と
して、オペレーティング・システムが、プラットフォー
ムに障害を報告する常駐ファームウェア機能(CHRP
RTAS「イベントスキャン」等)に対する周期的呼
出しの実行をロードしかつ開始する。ファームウェア
が、例えばイベントスキャンに対する最初の呼出しに応
じて障害に関する報告を開始したならば、好適には、エ
ラー・データがファームウェア16により変換される
(ステップ46)。ファームウェア16は、適宜、記憶
されたエラー・レジスタ・データを読み取り、要約され
たエラー・ログをNVRAM20内に作成し、そして、
例えば記憶装置内のフラグ又は検査停止カウントをクリ
アすることにより検査停止の標示を除去する。ファーム
ウェア16による検査停止標示の除去により、正常シス
テム動作中におけるその後の常住ファームウェア機能に
対するいかなる呼出しも、再び検査停止障害を報告しな
い。変換することには、ファームウェア16が要約され
たエラー・ログをオペレーティング・システム14へ戻
すことが含まれる。これは、システム内の障害のある構
成要素の識別のためである。
【0015】エラー・レジスタからデータを保存する際
には、システムの構造が、要約されたエラー・ログに似
せられることが好ましい。システムの構造を似せるため
に、適宜、レジスタ・データがプロセッサからI/Oブ
リッジへと出されて階層構造で保存される。これにより
再使用された構成要素間の区別を行う。例として、いく
つかのI/Oホスト・ブリッジがあり、かつ、いずれの
レジスタ・データがいずれのブリッジからきたのかをデ
ータ構造が反映することが好ましい。図4は、エラー・
データを記憶する要約されたエラー・ログの適切なデー
タ構造を示す。
には、システムの構造が、要約されたエラー・ログに似
せられることが好ましい。システムの構造を似せるため
に、適宜、レジスタ・データがプロセッサからI/Oブ
リッジへと出されて階層構造で保存される。これにより
再使用された構成要素間の区別を行う。例として、いく
つかのI/Oホスト・ブリッジがあり、かつ、いずれの
レジスタ・データがいずれのブリッジからきたのかをデ
ータ構造が反映することが好ましい。図4は、エラー・
データを記憶する要約されたエラー・ログの適切なデー
タ構造を示す。
【0016】図4に示すように、制御フラグ又は検査停
止カウントをサポートする制御フラグ・エントリ58に
加えて、エラー・ログが適宜エントリを含んでもよい。
例えばエントリ60〜63であり、これらは各デバイス
・タイプの番号及び各デバイスに対応するデータに対す
るオフセットを示す。例として、レジスタの実際のサイ
ズに依存するレジスタ・データ及びシステム固有レジス
タからのデータと共にオフセット又は番号が2バイト値
として与えられる。システム固有レジスタは、例えば、
基本CPU以外のチップ、メモリ・コントローラ又はI
/Oチップ、バス調停チップ等からのレジスタである。
止カウントをサポートする制御フラグ・エントリ58に
加えて、エラー・ログが適宜エントリを含んでもよい。
例えばエントリ60〜63であり、これらは各デバイス
・タイプの番号及び各デバイスに対応するデータに対す
るオフセットを示す。例として、レジスタの実際のサイ
ズに依存するレジスタ・データ及びシステム固有レジス
タからのデータと共にオフセット又は番号が2バイト値
として与えられる。システム固有レジスタは、例えば、
基本CPU以外のチップ、メモリ・コントローラ又はI
/Oチップ、バス調停チップ等からのレジスタである。
【0017】更なる例として、例えば、ネストされたバ
ス・ブリッジの3つのレベルを含むリモートI/Oサブ
システム等の、ネストされたI/Oサブシステム用のサ
ポートが、例えばエントリ70、71、72、74に含
まれる。好適には、I/Oサブシステム・データ領域
は、サブブリッジ・インスタンスについての更なる情報
に対するネストされた番号及びポインタを含む。もちろ
ん、必要であれば、この技術を他の形態のサブシステム
へ適用できる。
ス・ブリッジの3つのレベルを含むリモートI/Oサブ
システム等の、ネストされたI/Oサブシステム用のサ
ポートが、例えばエントリ70、71、72、74に含
まれる。好適には、I/Oサブシステム・データ領域
は、サブブリッジ・インスタンスについての更なる情報
に対するネストされた番号及びポインタを含む。もちろ
ん、必要であれば、この技術を他の形態のサブシステム
へ適用できる。
【0018】本発明の要約されたエラー・ログにより、
検査停止エラー・データが所定のフォーマットでの解析
のために与えられる。さらに本発明は、検査停止エラー
解析を完全に行う処理能力及び記憶空間のために非常に
大きくかつ高価なサービス・プロセッサを設けていた従
来の解決手段における問題点を克服する。本発明はさら
に、フルスキャンのストリング情報を不揮発性RAM領
域にダンプすることがほとんどないような比較的単純な
システムにおける不利益を避けることができ、そしてそ
の情報は、エンジニアリング解析用のベンダーへ戻され
るファイルへオペレーティング・システムにより複写さ
れなければならない。従って、基本サービス・プロセッ
サと連係するファームウェア機能の生産的利用により、
本発明は低コストでかつ効果的な方法で検査停止エラー
の処理を実現する。
検査停止エラー・データが所定のフォーマットでの解析
のために与えられる。さらに本発明は、検査停止エラー
解析を完全に行う処理能力及び記憶空間のために非常に
大きくかつ高価なサービス・プロセッサを設けていた従
来の解決手段における問題点を克服する。本発明はさら
に、フルスキャンのストリング情報を不揮発性RAM領
域にダンプすることがほとんどないような比較的単純な
システムにおける不利益を避けることができ、そしてそ
の情報は、エンジニアリング解析用のベンダーへ戻され
るファイルへオペレーティング・システムにより複写さ
れなければならない。従って、基本サービス・プロセッ
サと連係するファームウェア機能の生産的利用により、
本発明は低コストでかつ効果的な方法で検査停止エラー
の処理を実現する。
【0019】本発明は、示された実施例に従って説明さ
れたが、これらの実施例の変形が可能でありかつそれら
の変形が本発明の主旨及び範囲内に含まれることは当業
者であれば自明であろう。例えば、コンピュータ・シス
テムは単一プロセッサ・マシンに関して説明されたが、
本発明はマルチプロセッサ・コンピュータ・システムへ
も同様に適用可能である。従って、特許請求の範囲の主
旨及び範囲から逸脱することなく当業者による多くの変
形がなされ得るであろう。
れたが、これらの実施例の変形が可能でありかつそれら
の変形が本発明の主旨及び範囲内に含まれることは当業
者であれば自明であろう。例えば、コンピュータ・シス
テムは単一プロセッサ・マシンに関して説明されたが、
本発明はマルチプロセッサ・コンピュータ・システムへ
も同様に適用可能である。従って、特許請求の範囲の主
旨及び範囲から逸脱することなく当業者による多くの変
形がなされ得るであろう。
【0020】まとめとして、本発明の構成に関して以下
の事項を開示する。
の事項を開示する。
【0021】(1)オペレーティング・システム及びフ
ァームウェアをサポートするプロセッサを含む複数の構
成要素を有するコンピュータ・システムにおける検査停
止エラー処理の方法において、エラー・データ検索のた
めに検査停止エラーに応答してサービス・プロセッサを
使用するステップと、前記コンピュータ・システムのリ
ブートを試みるステップと、前記リブートが成功したと
き前記エラー・データ検索に基づいて障害報告のための
ファームウェアを開始するステップとを含む検査停止エ
ラー処理の方法。 (2)前記サービス・プロセッサを使用するステップ
が、前記複数の構成要素の障害隔離レジスタからエラー
・データ検索を実行するステップを含む上記(1)の方
法。 (3)前記サービス・プロセッサを使用するステップ
が、検索されたエラー・データの存在を前記コンピュー
タ・システムに対して標示するステップを含む上記
(1)の方法。 (4)前記標示するステップが、制御フラグをセットす
るステップを含む上記(3)の方法。 (5)前記ファームウェアを開始するステップが、常駐
ファームウェア機能に対する呼出しを実行するステップ
を含む上記(1)の方法。 (6)前記ファームウェアを介して前記エラー・データ
を要約されたエラー・ログへ変換するステップを含む上
記(2)の方法。 (7)前記要約されたエラー・ログを前記オペレーティ
ング・システムにより解析するステップを含む上記
(6)の方法。 (8)リブートの試みが成功しなかったとき、前記シス
テム内の障害条件を識別するステップを含む上記(1)
の方法。 (9)検査停止エラーを有するコンピュータ・システム
において、オペレーティング・システムをサポートする
処理手段と、前記処理手段へ接続され、検査停止エラー
に応答してエラー・データ検索を実行するサービス・プ
ロセッサと、前記処理手段によりサポートされ、前記エ
ラー・データ検索に基づいて障害報告を実行するファー
ムウェア手段とを有するコンピュータ・システム。 (10)前記処理手段及び前記サービス・プロセッサへ
接続された複数の構成要素を有し、前記複数の構成要素
が障害隔離レジスタを含み、前記サービス・プロセッサ
が該障害隔離レジスタから前記エラー・データを検索す
る上記(9)のコンピュータ・システム。 (11)前記ファームウェア手段が、前記エラー・デー
タを要約されたエラー・ログへ変換する上記(9)のコ
ンピュータ・システム。 (12)前記処理手段が、前記オペレーティング・シス
テムにより前記要約されたエラー・ログを解析する上記
(11)のコンピュータ・システム。 (13)前記ファームウェア及び前記サービス・プロセ
ッサへ接続され、前記要約されたエラー・ログを記憶す
るメモリ手段を有する上記(11)のコンピュータ・シ
ステム。 (14)前記メモリ手段が不揮発性ランダム・アクセス
・メモリ(NVRAM)を有する上記(13)のコンピュ
ータ・システム。 (15)オペレーティング・システム及びファームウェ
アをサポートするプロセッサを含む複数の構成要素を有
するコンピュータ・システムにおける検査停止エラー処
理のための方法において、検査停止エラーに応答してサ
ービス・プロセッサを用いて前記複数の構成要素の障害
隔離レジスタからエラー・データ検索を実行するステッ
プと、リブートが成功した後、前記ファームウェアを介
して前記エラー・データを要約されたエラー・ログへ変
換するステップとを含む検査停止エラー処理のための方
法。 (16)前記オペレーティング・システムにより前記要
約されたエラー・ログを解析するステップを含む上記
(15)の方法。 (17)リブートが成功しなかった後、前記コンピュー
タ・システム内の障害条件を識別するステップを含む上
記(15)の方法。 (18)前記変換するステップを起こさせるために常駐
機能に対する呼出しにより前記ファームウェアを開始す
るステップを含む上記(15)の方法。
ァームウェアをサポートするプロセッサを含む複数の構
成要素を有するコンピュータ・システムにおける検査停
止エラー処理の方法において、エラー・データ検索のた
めに検査停止エラーに応答してサービス・プロセッサを
使用するステップと、前記コンピュータ・システムのリ
ブートを試みるステップと、前記リブートが成功したと
き前記エラー・データ検索に基づいて障害報告のための
ファームウェアを開始するステップとを含む検査停止エ
ラー処理の方法。 (2)前記サービス・プロセッサを使用するステップ
が、前記複数の構成要素の障害隔離レジスタからエラー
・データ検索を実行するステップを含む上記(1)の方
法。 (3)前記サービス・プロセッサを使用するステップ
が、検索されたエラー・データの存在を前記コンピュー
タ・システムに対して標示するステップを含む上記
(1)の方法。 (4)前記標示するステップが、制御フラグをセットす
るステップを含む上記(3)の方法。 (5)前記ファームウェアを開始するステップが、常駐
ファームウェア機能に対する呼出しを実行するステップ
を含む上記(1)の方法。 (6)前記ファームウェアを介して前記エラー・データ
を要約されたエラー・ログへ変換するステップを含む上
記(2)の方法。 (7)前記要約されたエラー・ログを前記オペレーティ
ング・システムにより解析するステップを含む上記
(6)の方法。 (8)リブートの試みが成功しなかったとき、前記シス
テム内の障害条件を識別するステップを含む上記(1)
の方法。 (9)検査停止エラーを有するコンピュータ・システム
において、オペレーティング・システムをサポートする
処理手段と、前記処理手段へ接続され、検査停止エラー
に応答してエラー・データ検索を実行するサービス・プ
ロセッサと、前記処理手段によりサポートされ、前記エ
ラー・データ検索に基づいて障害報告を実行するファー
ムウェア手段とを有するコンピュータ・システム。 (10)前記処理手段及び前記サービス・プロセッサへ
接続された複数の構成要素を有し、前記複数の構成要素
が障害隔離レジスタを含み、前記サービス・プロセッサ
が該障害隔離レジスタから前記エラー・データを検索す
る上記(9)のコンピュータ・システム。 (11)前記ファームウェア手段が、前記エラー・デー
タを要約されたエラー・ログへ変換する上記(9)のコ
ンピュータ・システム。 (12)前記処理手段が、前記オペレーティング・シス
テムにより前記要約されたエラー・ログを解析する上記
(11)のコンピュータ・システム。 (13)前記ファームウェア及び前記サービス・プロセ
ッサへ接続され、前記要約されたエラー・ログを記憶す
るメモリ手段を有する上記(11)のコンピュータ・シ
ステム。 (14)前記メモリ手段が不揮発性ランダム・アクセス
・メモリ(NVRAM)を有する上記(13)のコンピュ
ータ・システム。 (15)オペレーティング・システム及びファームウェ
アをサポートするプロセッサを含む複数の構成要素を有
するコンピュータ・システムにおける検査停止エラー処
理のための方法において、検査停止エラーに応答してサ
ービス・プロセッサを用いて前記複数の構成要素の障害
隔離レジスタからエラー・データ検索を実行するステッ
プと、リブートが成功した後、前記ファームウェアを介
して前記エラー・データを要約されたエラー・ログへ変
換するステップとを含む検査停止エラー処理のための方
法。 (16)前記オペレーティング・システムにより前記要
約されたエラー・ログを解析するステップを含む上記
(15)の方法。 (17)リブートが成功しなかった後、前記コンピュー
タ・システム内の障害条件を識別するステップを含む上
記(15)の方法。 (18)前記変換するステップを起こさせるために常駐
機能に対する呼出しにより前記ファームウェアを開始す
るステップを含む上記(15)の方法。
【図1】本発明によるコンピュータ・システムの構成図
である。
である。
【図2】本発明による検査停止エラー処理の流れ図であ
る。
る。
【図3】図2のエラー・データ検索ステップを実行する
ためにサービス・プロセッサを使用するプロセスを詳細
に示す流れ図である。
ためにサービス・プロセッサを使用するプロセスを詳細
に示す流れ図である。
【図4】本発明によるエラー・データを記憶するデータ
構造を示す図である。
構造を示す図である。
10 プロセッサ 12 メモリ・コントローラ 13 システム・メモリ 14 オペレーティング・システム 16 ファームウェア 18 I/Oコントローラ 19 I/O装置 20 メモリ 22 サービス・プロセッサ
フロントページの続き (72)発明者 アロングコーン・キタモーン アメリカ合衆国78717、テキサス州、オー スチン、フリッシュ・コーブ 16104
Claims (18)
- 【請求項1】オペレーティング・システム及びファーム
ウェアをサポートするプロセッサを含む複数の構成要素
を有するコンピュータ・システムにおける検査停止エラ
ー処理の方法において、 エラー・データ検索のために検査停止エラーに応答して
サービス・プロセッサを使用するステップと、 前記コンピュータ・システムのリブートを試みるステッ
プと、 前記リブートが成功したとき前記エラー・データ検索に
基づいて障害報告のためのファームウェアを開始するス
テップとを含む検査停止エラー処理の方法。 - 【請求項2】前記サービス・プロセッサを使用するステ
ップが、前記複数の構成要素の障害隔離レジスタからエ
ラー・データ検索を実行するステップを含む請求項1の
方法。 - 【請求項3】前記サービス・プロセッサを使用するステ
ップが、検索されたエラー・データの存在を前記コンピ
ュータ・システムに対して標示するステップを含む請求
項1の方法。 - 【請求項4】前記標示するステップが、制御フラグをセ
ットするステップを含む請求項3の方法。 - 【請求項5】前記ファームウェアを開始するステップ
が、常駐ファームウェア機能に対する呼出しを実行する
ステップを含む請求項1の方法。 - 【請求項6】前記ファームウェアを介して前記エラー・
データを要約されたエラー・ログへ変換するステップを
含む請求項2の方法。 - 【請求項7】前記要約されたエラー・ログを前記オペレ
ーティング・システムにより解析するステップを含む請
求項6の方法。 - 【請求項8】リブートの試みが成功しなかったとき、前
記システム内の障害条件を識別するステップを含む請求
項1の方法。 - 【請求項9】検査停止エラーを有するコンピュータ・シ
ステムにおいて、 オペレーティング・システムをサポートする処理手段
と、 前記処理手段へ接続され、検査停止エラーに応答してエ
ラー・データ検索を実行するサービス・プロセッサと、 前記処理手段によりサポートされ、前記エラー・データ
検索に基づいて障害報告を実行するファームウェア手段
とを有するコンピュータ・システム。 - 【請求項10】前記処理手段及び前記サービス・プロセ
ッサへ接続された複数の構成要素を有し、前記複数の構
成要素が障害隔離レジスタを含み、前記サービス・プロ
セッサが該障害隔離レジスタから前記エラー・データを
検索する請求項9のコンピュータ・システム。 - 【請求項11】前記ファームウェア手段が、前記エラー
・データを要約されたエラー・ログへ変換する請求項9
のコンピュータ・システム。 - 【請求項12】前記処理手段が、前記オペレーティング
・システムにより前記要約されたエラー・ログを解析す
る請求項11のコンピュータ・システム。 - 【請求項13】前記ファームウェア及び前記サービス・
プロセッサへ接続され、前記要約されたエラー・ログを
記憶するメモリ手段を有する請求項11のコンピュータ
・システム。 - 【請求項14】前記メモリ手段が不揮発性ランダム・ア
クセス・メモリ(NVRAM)を有する請求項13のコン
ピュータ・システム。 - 【請求項15】オペレーティング・システム及びファー
ムウェアをサポートするプロセッサを含む複数の構成要
素を有するコンピュータ・システムにおける検査停止エ
ラー処理の方法において、 検査停止エラーに応答してサービス・プロセッサを用い
て前記複数の構成要素の障害隔離レジスタからエラー・
データ検索を実行するステップと、 リブートが成功した後、前記ファームウェアを介して前
記エラー・データを要約されたエラー・ログへ変換する
ステップとを含む検査停止エラー処理の方法。 - 【請求項16】前記オペレーティング・システムにより
前記要約されたエラー・ログを解析するステップを含む
請求項15の方法。 - 【請求項17】リブートが成功しなかった後、前記コン
ピュータ・システム内の障害条件を識別するステップを
含む請求項15の方法。 - 【請求項18】前記変換するステップを起こさせるため
に常駐機能に対する呼出しにより前記ファームウェアを
開始するステップを含む請求項15の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/829017 | 1997-03-31 | ||
US08/829,017 US6502208B1 (en) | 1997-03-31 | 1997-03-31 | Method and system for check stop error handling |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10283214A true JPH10283214A (ja) | 1998-10-23 |
Family
ID=25253306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10059494A Pending JPH10283214A (ja) | 1997-03-31 | 1998-03-11 | 検査停止エラー処理の方法及びコンピュータ・システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US6502208B1 (ja) |
JP (1) | JPH10283214A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009294881A (ja) * | 2008-06-04 | 2009-12-17 | Fujitsu Ltd | 情報処理装置および情報処理方法 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3474139B2 (ja) * | 2000-01-17 | 2003-12-08 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンピュータの電源制御方法、電源制御装置及びコンピュータ |
FR2810424B1 (fr) * | 2000-06-20 | 2006-06-16 | Bull Sa | Machine informatique avec systeme de gestion de fichiers sur disque tolerante aux arrets brutaux |
US6745343B1 (en) * | 2000-07-13 | 2004-06-01 | International Business Machines Corporation | Apparatus and method for performing surveillance prior to boot-up of an operating system |
US20020073359A1 (en) * | 2000-09-08 | 2002-06-13 | Wade Jennifer A. | System and method for high priority machine check analysis |
US6845470B2 (en) * | 2002-02-27 | 2005-01-18 | International Business Machines Corporation | Method and system to identify a memory corruption source within a multiprocessor system |
US6934888B2 (en) * | 2002-03-07 | 2005-08-23 | International Business Machines Corporation | Method and apparatus for enhancing input/output error analysis in hardware sub-systems |
US6976191B2 (en) * | 2002-03-07 | 2005-12-13 | International Business Machines Corporation | Method and apparatus for analyzing hardware errors in a logical partitioned data processing system |
US7315961B2 (en) * | 2002-06-27 | 2008-01-01 | Intel Corporation | Black box recorder using machine check architecture in system management mode |
US7370177B2 (en) * | 2003-04-25 | 2008-05-06 | International Business Machines Corporation | Mechanism for avoiding check stops in speculative accesses while operating in real mode |
US7308609B2 (en) * | 2004-04-08 | 2007-12-11 | International Business Machines Corporation | Method, data processing system, and computer program product for collecting first failure data capture information |
US7805629B2 (en) * | 2005-03-04 | 2010-09-28 | Netapp, Inc. | Protecting data transactions on an integrated circuit bus |
US8090810B1 (en) | 2005-03-04 | 2012-01-03 | Netapp, Inc. | Configuring a remote management module in a processing system |
US7899680B2 (en) * | 2005-03-04 | 2011-03-01 | Netapp, Inc. | Storage of administrative data on a remote management device |
US8291063B2 (en) * | 2005-03-04 | 2012-10-16 | Netapp, Inc. | Method and apparatus for communicating between an agent and a remote management module in a processing system |
US7788537B1 (en) * | 2006-01-31 | 2010-08-31 | Emc Corporation | Techniques for collecting critical information from a memory dump |
US20080235454A1 (en) * | 2007-03-22 | 2008-09-25 | Ibm Corporation | Method and Apparatus for Repairing a Processor Core During Run Time in a Multi-Processor Data Processing System |
GB2456618A (en) * | 2008-01-15 | 2009-07-22 | Ibm | Delaying the stop-clock signal of a chip by a set amount of time so that error handling and recovery can be performed before the clock is stopped |
US7966536B2 (en) * | 2008-04-11 | 2011-06-21 | International Business Machines Corporation | Method and apparatus for automatic scan completion in the event of a system checkstop |
US20100107148A1 (en) * | 2008-10-28 | 2010-04-29 | International Business Machines Corporation | Check-stopping firmware implemented virtual communication channels without disabling all firmware functions |
KR101674934B1 (ko) * | 2009-07-07 | 2016-11-10 | 엘지전자 주식회사 | 오류 보고 방법 및 장치 |
US8713350B2 (en) * | 2009-12-08 | 2014-04-29 | Hewlett-Packard Development Company, L.P. | Handling errors in a data processing system |
WO2011071490A1 (en) * | 2009-12-08 | 2011-06-16 | Hewlett-Packard Development Company, L.P. | Managing errors in a data processing system |
US8122291B2 (en) * | 2010-01-21 | 2012-02-21 | Hewlett-Packard Development Company, L.P. | Method and system of error logging |
US8438442B2 (en) * | 2010-03-26 | 2013-05-07 | Freescale Semiconductor, Inc. | Method and apparatus for testing a data processing system |
US8335881B2 (en) * | 2010-03-26 | 2012-12-18 | Freescale Semiconductor, Inc. | Method and apparatus for handling an interrupt during testing of a data processing system |
WO2013101111A1 (en) * | 2011-12-29 | 2013-07-04 | Intel Corporation | Machine check summary register |
US9690642B2 (en) * | 2012-12-18 | 2017-06-27 | Western Digital Technologies, Inc. | Salvaging event trace information in power loss interruption scenarios |
US10474618B2 (en) * | 2014-09-04 | 2019-11-12 | Western Digital Technologies, Inc. | Debug data saving in host memory on PCIE solid state drive |
US10545809B2 (en) * | 2017-04-27 | 2020-01-28 | Dell Products L.P. | Detection and storage of errors of an information handling system utilizing an embeded controller |
TWI693518B (zh) * | 2019-01-16 | 2020-05-11 | 慧榮科技股份有限公司 | 資料儲存裝置及避免韌體失效之方法 |
US11269729B1 (en) * | 2020-12-21 | 2022-03-08 | Microsoft Technology Licensing, Llc | Overloading a boot error signaling mechanism to enable error mitigation actions to be performed |
Family Cites Families (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5220735A (en) | 1975-08-08 | 1977-02-16 | Hitachi Ltd | Microprogram controlled computer system |
US4044337A (en) | 1975-12-23 | 1977-08-23 | International Business Machines Corporation | Instruction retry mechanism for a data processing system |
JPS556672A (en) | 1978-06-30 | 1980-01-18 | Fujitsu Ltd | Data processing system with service processor |
US4215397A (en) | 1978-08-24 | 1980-07-29 | Texas Instruments Incorporated | Automatic end-of-scan control system for a programmable process controller with expandable memory |
US4360917A (en) | 1979-02-07 | 1982-11-23 | The Warner & Swasey Company | Parity fault locating means |
JPS5717019A (en) | 1980-07-07 | 1982-01-28 | Fanuc Ltd | Numerical controller |
DE3379354D1 (en) | 1983-05-25 | 1989-04-13 | Ibm Deutschland | Test and diagnostic device for a digital computer |
JPS6334492A (ja) | 1986-07-29 | 1988-02-15 | Nippon Atom Ind Group Co Ltd | 復水熱交換器のリ−ク検出方法 |
JPS63255742A (ja) | 1987-04-14 | 1988-10-24 | Hitachi Ltd | デ−タ処理装置 |
CA1320276C (en) | 1987-09-04 | 1993-07-13 | William F. Bruckert | Dual rail processors with error checking on i/o reads |
US5267246A (en) | 1988-06-30 | 1993-11-30 | International Business Machines Corporation | Apparatus and method for simultaneously presenting error interrupt and error data to a support processor |
JPH02128267A (ja) | 1988-11-09 | 1990-05-16 | Fujitsu Ltd | 共有メモリによる通信方式 |
US4965717A (en) | 1988-12-09 | 1990-10-23 | Tandem Computers Incorporated | Multiple processor system having shared memory with private-write capability |
US5251227A (en) | 1989-08-01 | 1993-10-05 | Digital Equipment Corporation | Targeted resets in a data processor including a trace memory to store transactions |
JP2956849B2 (ja) | 1989-12-08 | 1999-10-04 | 株式会社日立製作所 | データ処理システム |
US5317752A (en) | 1989-12-22 | 1994-05-31 | Tandem Computers Incorporated | Fault-tolerant computer system with auto-restart after power-fall |
EP0449242A3 (en) | 1990-03-28 | 1992-10-28 | National Semiconductor Corporation | Method and structure for providing computer security and virus prevention |
US5142165A (en) | 1990-08-31 | 1992-08-25 | International Business Machines Corporation | Power off/on delay circuit to prevent lockout |
JP3098584B2 (ja) | 1990-09-28 | 2000-10-16 | ゼロックス コーポレイション | 電子複写システムにおける障害除去及び回復方法及び装置 |
US5193181A (en) | 1990-10-05 | 1993-03-09 | Bull Hn Information Systems Inc. | Recovery method and apparatus for a pipelined processing unit of a multiprocessor system |
US5245615A (en) | 1991-06-06 | 1993-09-14 | International Business Machines Corporation | Diagnostic system and interface for a personal computer |
JPH056344A (ja) | 1991-06-28 | 1993-01-14 | Fujitsu Ltd | プログラム走行情報採取処理方式 |
US5313625A (en) | 1991-07-30 | 1994-05-17 | Honeywell Inc. | Fault recoverable computer system |
DE69230306T2 (de) | 1991-09-09 | 2000-04-13 | Compaq Computer Corp., Houston | Fern-Urladessystem und Verfahren zum Urladen eines Computersystems |
US5291600A (en) | 1991-10-23 | 1994-03-01 | At&T Bell Laboratories | Recovery of in-core disk data |
US5313628A (en) | 1991-12-30 | 1994-05-17 | International Business Machines Corporation | Component replacement control for fault-tolerant data processing system |
US5307482A (en) | 1992-01-28 | 1994-04-26 | International Business Machines Corp. | Computer, non-maskable interrupt trace routine override |
US5471674A (en) | 1992-02-07 | 1995-11-28 | Dell Usa, L.P. | Computer system with plug-in override of system ROM |
US5421006A (en) | 1992-05-07 | 1995-05-30 | Compaq Computer Corp. | Method and apparatus for assessing integrity of computer system software |
US5444859A (en) | 1992-09-29 | 1995-08-22 | Amdahl Corporation | Method and apparatus for tracing multiple errors in a computer system subsequent to the first occurence and prior to the stopping of the clock in response thereto |
US5390324A (en) | 1992-10-02 | 1995-02-14 | Compaq Computer Corporation | Computer failure recovery and alert system |
GB9222282D0 (en) | 1992-10-22 | 1992-12-09 | Hewlett Packard Co | Monitoring network status |
US5758157A (en) | 1992-12-31 | 1998-05-26 | International Business Machines Corporation | Method and system for providing service processor capability in a data processing by transmitting service processor requests between processing complexes |
JPH06243064A (ja) | 1993-02-12 | 1994-09-02 | Honda Motor Co Ltd | コンピュータネットワークの障害検出システム |
US5530847A (en) * | 1993-03-22 | 1996-06-25 | Dell Usa, L.P. | System and method for loading compressed embedded diagnostics |
US5499346A (en) | 1993-05-28 | 1996-03-12 | International Business Machines Corporation | Bus-to-bus bridge for a multiple bus information handling system that optimizes data transfers between a system bus and a peripheral bus |
US5455933A (en) * | 1993-07-14 | 1995-10-03 | Dell Usa, L.P. | Circuit and method for remote diagnosis of personal computers |
JPH0793233A (ja) | 1993-09-20 | 1995-04-07 | Fujitsu Ltd | ファームウェア・トレースデータ取得方式 |
AUPM348794A0 (en) | 1994-01-20 | 1994-02-17 | Alcatel Australia Limited | Microprocessor fault log |
US5450579A (en) | 1994-03-24 | 1995-09-12 | International Business Machines Corporation | Method and apparatus for error recovery in computer peripheral devices |
US5488688A (en) | 1994-03-30 | 1996-01-30 | Motorola, Inc. | Data processor with real-time diagnostic capability |
BR9507958A (pt) | 1994-06-08 | 1998-05-26 | Intel Corp | Interface de conector de unidade de disco para uso em barramento de pci |
US5564054A (en) | 1994-08-25 | 1996-10-08 | International Business Machines Corporation | Fail-safe computer boot apparatus and method |
US5560033A (en) | 1994-08-29 | 1996-09-24 | Lucent Technologies Inc. | System for providing automatic power control for highly available n+k processors |
US5530946A (en) | 1994-10-28 | 1996-06-25 | Dell Usa, L.P. | Processor failure detection and recovery circuit in a dual processor computer system and method of operation thereof |
US5560018A (en) | 1994-12-16 | 1996-09-24 | International Business Machines Corporation | Providing external interrupt serialization compatibility in a multiprocessing environment for software written to run in a uniprocessor environment |
US5680537A (en) | 1995-03-01 | 1997-10-21 | Unisys Corporation | Method and apparatus for isolating an error within a computer system that transfers data via an interface device |
US5777549A (en) | 1995-03-29 | 1998-07-07 | Cabletron Systems, Inc. | Method and apparatus for policy-based alarm notification in a distributed network management environment |
JP2687927B2 (ja) | 1995-05-24 | 1997-12-08 | 日本電気株式会社 | 外部バスの障害検出方法 |
CN1137442C (zh) | 1995-06-15 | 2004-02-04 | 英特尔公司 | 集成pci至pci桥的i/o处理器的体系结构 |
US5619644A (en) | 1995-09-18 | 1997-04-08 | International Business Machines Corporation | Software directed microcode state save for distributed storage controller |
US5790870A (en) | 1995-12-15 | 1998-08-04 | Compaq Computer Corporation | Bus error handler for PERR# and SERR# on dual PCI bus system |
US5805785A (en) | 1996-02-27 | 1998-09-08 | International Business Machines Corporation | Method for monitoring and recovery of subsystems in a distributed/clustered system |
US5712967A (en) | 1996-04-22 | 1998-01-27 | Advanced Micro Devices, Inc. | Method and system for graceful recovery from a fault in peripheral devices using a variety of bus structures |
EP0811929A3 (en) | 1996-06-05 | 1999-02-10 | Compaq Computer Corporation | Bus device configuration in a bridge between two buses |
-
1997
- 1997-03-31 US US08/829,017 patent/US6502208B1/en not_active Expired - Lifetime
-
1998
- 1998-03-11 JP JP10059494A patent/JPH10283214A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009294881A (ja) * | 2008-06-04 | 2009-12-17 | Fujitsu Ltd | 情報処理装置および情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
US6502208B1 (en) | 2002-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH10283214A (ja) | 検査停止エラー処理の方法及びコンピュータ・システム | |
US7734945B1 (en) | Automated recovery of unbootable systems | |
US6119246A (en) | Error collection coordination for software-readable and non-software readable fault isolation registers in a computer system | |
US7831857B2 (en) | Method and system for recovering from operating system crash or failure | |
US6934879B2 (en) | Method and apparatus for backing up and restoring data from nonvolatile memory | |
US6167532A (en) | Automatic system recovery | |
US6738928B1 (en) | Method and expert system for analysis of crash dumps | |
US6014744A (en) | State governing the performance of optional booting operations | |
KR100704629B1 (ko) | 변경된 위치의 마스터 부트 레코드의 바이러스 감염 여부를판단하고 치료하는 장치 및 방법 | |
US8041936B2 (en) | Persisting value relevant to debugging of computer system during reset of computer system | |
US6272626B1 (en) | System for setting a flag indicating a boot failure of loading a procedure and aborting additional loading attempt thereof when the flag is detected | |
US6202174B1 (en) | Method for identifying and correcting errors in a central processing unit | |
US7941658B2 (en) | Computer system and method for updating program code | |
US8930761B2 (en) | Test case result processing | |
US20030070115A1 (en) | Logging and retrieving pre-boot error information | |
US11157349B2 (en) | Systems and methods for pre-boot BIOS healing of platform issues from operating system stop error code crashes | |
WO1997005547A1 (en) | Virus protection in computer systems | |
US6550019B1 (en) | Method and apparatus for problem identification during initial program load in a multiprocessor system | |
TWI441081B (zh) | 更新韌體方法與開機方法及使用其之電子裝置 | |
US6725396B2 (en) | Identifying field replaceable units responsible for faults detected with processor timeouts utilizing IPL boot progress indicator status | |
US10586048B2 (en) | Efficient reboot of an operating system | |
US7243222B2 (en) | Storing data related to system initialization in memory while determining and storing data if an exception has taken place during initialization | |
US20030046524A1 (en) | Method for dynamically designating initialization modules as recovery code | |
US7543168B1 (en) | Specifying an operating system level to use after reboot | |
US7650530B2 (en) | Initializing a processing system to ensure fail-safe boot when faulty PCI adapters are present |