JPH10283214A - 検査停止エラー処理の方法及びコンピュータ・システム - Google Patents

検査停止エラー処理の方法及びコンピュータ・システム

Info

Publication number
JPH10283214A
JPH10283214A JP10059494A JP5949498A JPH10283214A JP H10283214 A JPH10283214 A JP H10283214A JP 10059494 A JP10059494 A JP 10059494A JP 5949498 A JP5949498 A JP 5949498A JP H10283214 A JPH10283214 A JP H10283214A
Authority
JP
Japan
Prior art keywords
error
firmware
computer system
data
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10059494A
Other languages
English (en)
Inventor
Andrew Mcrollin Charles
チャールズ・アンドルー・マックローリン
Kitamohn Arongcohn
アロングコーン・キタモーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH10283214A publication Critical patent/JPH10283214A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Retry When Errors Occur (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

(57)【要約】 【課題】 検査停止エラー処理のための方法及びシステ
ムの態様を提供する。 【解決手段】 オペレーティング・システム及びファー
ムウェアをサポートするプロセッサを含む複数の構成要
素を有するコンピュータ・システムにおける検査停止エ
ラー処理の方法の態様は、エラー・データ検索のために
検査停止エラーに追随するサービス・プロセッサを使用
することと、前記コンピュータ・システムのリブートを
試みることと、前記リブートが成功したとき前記エラー
・データ検索に基づいて障害報告のためのファームウェ
アを開始することとを含む。この方法はさらにリブート
が成功したときエラー・データ検索に基づいて障害報告
用のファームウェアを開始する。システムの態様では、
検査停止エラー処理を有するコンピュータ・システムが
処理機構を含み、処理機構はオペレーティング・システ
ムをサポートし、処理機構へ接続されたサービス・プロ
セッサが検査停止エラーに追随してエラー・データ検索
を実行する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般的には、コン
ピュータ・システムにおけるエラー処理に関し、特に、
これらのシステムにおける検査停止エラー処理に関す
る。
【0002】
【従来の技術】デジタル・コンピュータ・システムにお
いてハードウェア障害が検出される場合、ときとしてそ
の障害が極めて深刻であったりデータ崩壊の危険が非常
に大きかったりすることから、エラーの検出は、それ以
降のオペレーションを即刻停止させるように設計されて
いる。完全なシステム・リセットを実行する以外にこの
状態から回復する手段はなく、通常、この状態は検査停
止状態と称される。エラーが深刻であるが故に、障害を
起こしている構成要素を速やかに取り替えかつシステム
を正常なオペレーションへと回復できるようにそのエラ
ーの発生源を決定できることが重要である。
【0003】しかしながら、この条件においてはメイン
・プロセッサが停止させられるので、障害情報を把握す
るために別の処理機構が必要である。この機構は、普
通、サービス・プロセッサと称されており、組み込まれ
たコントローラ・オペレーションを提供し、検査停止障
害が発生したときであっても維持される。不都合な点
は、全ての正常機能パスが凍結されたときに障害要素か
ら障害情報を抽出しかつその情報の解析を行うために、
精密な処理機構が必要なことである。しかしながら、こ
のような精密な処理機構を含めると、システムのコスト
が増大する。
【0004】さらに、通常のシステムは、極めて大量の
エラー・データをラッチ・ビットの形態で含む。僅か1
つの新たなラッチ・ビットを追加する技術的変更でさ
え、データの走査ストリング全体のレイアウトを変更す
ることになり、抽出する必要のあるデータ量が増すこと
になる。増加したデータを保持するために十分な記憶空
間を設けると、さらにシステム全体のコストが増してし
まう。
【0005】
【発明が解決しようとする課題】従って、ローエンド・
コンピュータ・システム上で機能し、基本的で低コスト
なサービス・プロセッサを用い、かつ比較的小さな記憶
空間を要する、検査停止エラーの解析及び処理のための
有効なシステムが必要とされている。
【0006】
【課題を解決するための手段】これらの必要性は、検査
停止エラー処理のための方法及びシステムの態様を提供
する本発明により満足される。コンピュータ・システム
における検査停止エラー処理の方法の態様においては、
そのコンピュータ・システムがオペレーティング・シス
テム及びファームウェアをサポートするプロセッサを含
む複数の構成要素を具備する。本方法は、エラー・デー
タ検索のために検査停止エラーを追跡しかつコンピュー
タ・システムのリブートを試みるサービス・プロセッサ
を利用することを含む。さらに本方法は、リブートが成
功したとき、エラー・データ検索に基づいて障害報告す
るためのファームウェアを開始することを含む。別の方
法の態様においては、本方法は、検査停止エラーを追跡
するサービス・プロセッサを用いることにより複数の構
成要素の障害隔離レジスタからのエラー・データ検索を
実行すること、及び、リブート成功の後にファームウェ
アを介してそのエラー・データを要約されたエラー・ロ
グへ変換することを含む。
【0007】システムの態様においては、検査停止エラ
ー処理を用いるコンピュータ・システムが処理機構を含
み、その処理機構はオペレーティング・システムをサポ
ートする。さらに、処理機構へ接続されるサービス・プ
ロセッサを含み、サービス・プロセッサは検査停止エラ
ーを追跡してエラー・データ検索を行う。さらに、本シ
ステムは、処理機構によりサポートされるファームウェ
ア機構を含み、ファームウェア機構はエラー・データ検
索に基づいて障害報告を行う。
【0008】本発明は、多量の記憶空間を伴う高価なサ
ービス・プロセッサを必要とすることなく検査停止エラ
ー処理を効果的に実現する。さらに、メイン・プロセッ
サ上のファームウェアにおいて実行される実際の解析と
共に必要なエラー・レジスタのみが保存される。本発明
の態様のこれらの及び他の利点は、以下の詳細な説明及
び添付の図面と共にさらに完全に理解されるであろう。
【0009】
【発明の実施の形態】本発明は、コンピュータ・システ
ムにおける検査停止エラーの処理に関係する。以下の説
明は、当業者が本発明を実施しかつ使用することができ
るように提示され、本願及びその必要性に関連して提供
されている。好適な実施例に対する様々な応用は当業者
には自明であり、本発明の一般的な原理は他の実施例へ
も適用可能である。このように本発明は、示された実施
例に限定することは意図されておらず、ここに記載され
た原理及び特徴に沿う最も広い範囲に相当すべきであ
る。
【0010】図1は、本発明と共に用いる汎用的コンピ
ュータ・システムの基本構成図を示す。図示のようにコ
ンピュータ・システムは、メモリ・コントローラ12へ
接続されたプロセッサ10、例えばIBMコーポレーシ
ョン製のPowerPC(商標)等を含み、メモリ・コ
ントローラ12がシステム・メモリ13すなわちRAM
(ランダム・アクセス・メモリ)及びROM(読取り専
用メモリ)を制御する。オペレーティング・システム
(O/S)14は、通常、コンピュータ・システムにお
ける基本タスクを実行するべくプロセッサ上で稼働し、
アプリケーション・プログラムのためのプラットフォー
ムとして動作する。さらに、プロセッサ10上で動作す
るファームウェア16、及び、不揮発性RAM若しくは
EPROM(消去可能プログラマブル読取り専用メモ
リ)等の適宜のメモリに記憶されたコードも含まれる。
これらは当業者には周知である。
【0011】さらに、プロセッサ10と副次的構成要素
との間の相互動作を制御するために、入出力(I/O)
コントローラ18がプロセッサ10へ接続される。副次
的構成要素は、例えば、PCI標準等の入出力標準へ取
り付けられるハード・ディスク・ドライブやモニタ等の
入出力装置19、及び、不揮発性RAM(NVRAM)
等のメモリ素子20等のサブ構成要素である。さらに、
組み込まれたコントローラすなわちサービス・プロセッ
サ(SP)22が含まれる。SP22は、走査ストリン
グ中の障害情報を抽出するために障害隔離レジスタ・デ
ータ用の構成要素へ適宜アクセスする。特定のエラー・
ビットが、専用のアクセス・コマンドを用いて直接的に
アクセスできる限定されたシリーズへ連結されることに
より、そのエラー・ビットはさらにアクセス容易とな
る。専用のアクセス・コマンドはIEEE標準1149.1に
より規定され、しばしば、創始者らの名称によりJTA
G(Joint Test Action Group)と称される。
【0012】障害情報を決定する際に、本発明は、Po
werPC(商標)のコモン・ハードウェア・リファレン
ス・プラットフォーム(CHRP)・アーキテクチャを
利用する。このアーキテクチャは、ランタイム・アブス
トラクション・サービス(RTAS)と称される専用の
ファームウェアを提供するためのハードウェア・プラッ
トフォーム用の機構を規定する。このファームウェアへ
は、稼働しているオペレーティング・システムからアク
セスすることができる。CHRPの特徴の説明について
は、「PowerPC Microprocessor Common Hardware Refer
ence Platform:A System Architecture」(1995年カリフォルニ
ア州サンフランシスコ所在、Morgan Kaufman Publishers, Inc.刊
行)等を参照されたい。専用のファームウェアは、Intel
システムにおけるBIOSに類似の特性を有する。特別
なファームウェアは、それが稼働する特定のハードウェ
ア用に作られるので、そのシステムにおける様々な構成
要素全体に亘って障害隔離レジスタで利用可能な障害情
報についての大量の知識の記憶をサポートする。本発明
は、検査停止条件に追随してコンピュータ・システム内
の障害隔離レジスタから障害情報の収集を行う機構を提
供し、この機構はシステム・リブートに成功した後の障
害識別を可能とする。
【0013】図2は、本発明による検査停止エラー処理
のための方法の流れ図を示す。検査停止が発生したと
き、プロセスは、SP22にエラー・データ検索を実行
させることにより開始される(ステップ30)。SP2
2は、エラー・データ検索を実行するために適宜信号を
与えられる。例えば、SP22はアテンション信号を受
信する。図3は、SP22によるエラー・データ検索の
実行を示しており、SP22は特定のエラー・レジスタ
・データを読み取る(ステップ32)。例えば、SP2
2は、JTAG障害隔離レジスタ(FIR(Fault Isol
ation Register))情報を集める。その後エラー・デー
タは、SP22により予め規定されフォーマットされた
形でメモリ素子/NVRAM20等の不揮発性の永久記
憶部に適切に配置される(ステップ34)。記憶素子2
0内のエラー・データの存在は、システムへ示されるこ
とが好ましい。例えば、検査停止用フラグをセットする
か又は制御カウントを増分することによる。
【0014】図2へ戻ると、SP22がエラー・データ
検索を終了すると、システム・リブートの試行を続ける
(ステップ38)。システムは、適宜、自動又は手動で
リブートすることができる。ステップ40において障害
条件が永久障害であると判断され、かつシステムがリブ
ートできない場合、好適には、システム対する故障の識
別を行う(ステップ42)。例えば、操作パネルすなわ
ちオペレータ・パネル上にエラー・コードを提示するフ
ァームウェアであるパワーオン・セルフ・テスト(PO
ST)等の正常なブート機構を通して報告することによ
る。障害条件が永久障害でない場合、すなわち障害が一
時停止や重要でないものであってシステム無事にリブー
トする場合、好適には、障害報告を実行するためにファ
ームウェア16が呼び出される(ステップ44)。例と
して、オペレーティング・システムが、プラットフォー
ムに障害を報告する常駐ファームウェア機能(CHRP
RTAS「イベントスキャン」等)に対する周期的呼
出しの実行をロードしかつ開始する。ファームウェア
が、例えばイベントスキャンに対する最初の呼出しに応
じて障害に関する報告を開始したならば、好適には、エ
ラー・データがファームウェア16により変換される
(ステップ46)。ファームウェア16は、適宜、記憶
されたエラー・レジスタ・データを読み取り、要約され
たエラー・ログをNVRAM20内に作成し、そして、
例えば記憶装置内のフラグ又は検査停止カウントをクリ
アすることにより検査停止の標示を除去する。ファーム
ウェア16による検査停止標示の除去により、正常シス
テム動作中におけるその後の常住ファームウェア機能に
対するいかなる呼出しも、再び検査停止障害を報告しな
い。変換することには、ファームウェア16が要約され
たエラー・ログをオペレーティング・システム14へ戻
すことが含まれる。これは、システム内の障害のある構
成要素の識別のためである。
【0015】エラー・レジスタからデータを保存する際
には、システムの構造が、要約されたエラー・ログに似
せられることが好ましい。システムの構造を似せるため
に、適宜、レジスタ・データがプロセッサからI/Oブ
リッジへと出されて階層構造で保存される。これにより
再使用された構成要素間の区別を行う。例として、いく
つかのI/Oホスト・ブリッジがあり、かつ、いずれの
レジスタ・データがいずれのブリッジからきたのかをデ
ータ構造が反映することが好ましい。図4は、エラー・
データを記憶する要約されたエラー・ログの適切なデー
タ構造を示す。
【0016】図4に示すように、制御フラグ又は検査停
止カウントをサポートする制御フラグ・エントリ58に
加えて、エラー・ログが適宜エントリを含んでもよい。
例えばエントリ60〜63であり、これらは各デバイス
・タイプの番号及び各デバイスに対応するデータに対す
るオフセットを示す。例として、レジスタの実際のサイ
ズに依存するレジスタ・データ及びシステム固有レジス
タからのデータと共にオフセット又は番号が2バイト値
として与えられる。システム固有レジスタは、例えば、
基本CPU以外のチップ、メモリ・コントローラ又はI
/Oチップ、バス調停チップ等からのレジスタである。
【0017】更なる例として、例えば、ネストされたバ
ス・ブリッジの3つのレベルを含むリモートI/Oサブ
システム等の、ネストされたI/Oサブシステム用のサ
ポートが、例えばエントリ70、71、72、74に含
まれる。好適には、I/Oサブシステム・データ領域
は、サブブリッジ・インスタンスについての更なる情報
に対するネストされた番号及びポインタを含む。もちろ
ん、必要であれば、この技術を他の形態のサブシステム
へ適用できる。
【0018】本発明の要約されたエラー・ログにより、
検査停止エラー・データが所定のフォーマットでの解析
のために与えられる。さらに本発明は、検査停止エラー
解析を完全に行う処理能力及び記憶空間のために非常に
大きくかつ高価なサービス・プロセッサを設けていた従
来の解決手段における問題点を克服する。本発明はさら
に、フルスキャンのストリング情報を不揮発性RAM領
域にダンプすることがほとんどないような比較的単純な
システムにおける不利益を避けることができ、そしてそ
の情報は、エンジニアリング解析用のベンダーへ戻され
るファイルへオペレーティング・システムにより複写さ
れなければならない。従って、基本サービス・プロセッ
サと連係するファームウェア機能の生産的利用により、
本発明は低コストでかつ効果的な方法で検査停止エラー
の処理を実現する。
【0019】本発明は、示された実施例に従って説明さ
れたが、これらの実施例の変形が可能でありかつそれら
の変形が本発明の主旨及び範囲内に含まれることは当業
者であれば自明であろう。例えば、コンピュータ・シス
テムは単一プロセッサ・マシンに関して説明されたが、
本発明はマルチプロセッサ・コンピュータ・システムへ
も同様に適用可能である。従って、特許請求の範囲の主
旨及び範囲から逸脱することなく当業者による多くの変
形がなされ得るであろう。
【0020】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0021】(1)オペレーティング・システム及びフ
ァームウェアをサポートするプロセッサを含む複数の構
成要素を有するコンピュータ・システムにおける検査停
止エラー処理の方法において、エラー・データ検索のた
めに検査停止エラーに応答してサービス・プロセッサを
使用するステップと、前記コンピュータ・システムのリ
ブートを試みるステップと、前記リブートが成功したと
き前記エラー・データ検索に基づいて障害報告のための
ファームウェアを開始するステップとを含む検査停止エ
ラー処理の方法。 (2)前記サービス・プロセッサを使用するステップ
が、前記複数の構成要素の障害隔離レジスタからエラー
・データ検索を実行するステップを含む上記(1)の方
法。 (3)前記サービス・プロセッサを使用するステップ
が、検索されたエラー・データの存在を前記コンピュー
タ・システムに対して標示するステップを含む上記
(1)の方法。 (4)前記標示するステップが、制御フラグをセットす
るステップを含む上記(3)の方法。 (5)前記ファームウェアを開始するステップが、常駐
ファームウェア機能に対する呼出しを実行するステップ
を含む上記(1)の方法。 (6)前記ファームウェアを介して前記エラー・データ
を要約されたエラー・ログへ変換するステップを含む上
記(2)の方法。 (7)前記要約されたエラー・ログを前記オペレーティ
ング・システムにより解析するステップを含む上記
(6)の方法。 (8)リブートの試みが成功しなかったとき、前記シス
テム内の障害条件を識別するステップを含む上記(1)
の方法。 (9)検査停止エラーを有するコンピュータ・システム
において、オペレーティング・システムをサポートする
処理手段と、前記処理手段へ接続され、検査停止エラー
に応答してエラー・データ検索を実行するサービス・プ
ロセッサと、前記処理手段によりサポートされ、前記エ
ラー・データ検索に基づいて障害報告を実行するファー
ムウェア手段とを有するコンピュータ・システム。 (10)前記処理手段及び前記サービス・プロセッサへ
接続された複数の構成要素を有し、前記複数の構成要素
が障害隔離レジスタを含み、前記サービス・プロセッサ
が該障害隔離レジスタから前記エラー・データを検索す
る上記(9)のコンピュータ・システム。 (11)前記ファームウェア手段が、前記エラー・デー
タを要約されたエラー・ログへ変換する上記(9)のコ
ンピュータ・システム。 (12)前記処理手段が、前記オペレーティング・シス
テムにより前記要約されたエラー・ログを解析する上記
(11)のコンピュータ・システム。 (13)前記ファームウェア及び前記サービス・プロセ
ッサへ接続され、前記要約されたエラー・ログを記憶す
るメモリ手段を有する上記(11)のコンピュータ・シ
ステム。 (14)前記メモリ手段が不揮発性ランダム・アクセス
・メモリ(NVRAM)を有する上記(13)のコンピュ
ータ・システム。 (15)オペレーティング・システム及びファームウェ
アをサポートするプロセッサを含む複数の構成要素を有
するコンピュータ・システムにおける検査停止エラー処
理のための方法において、検査停止エラーに応答してサ
ービス・プロセッサを用いて前記複数の構成要素の障害
隔離レジスタからエラー・データ検索を実行するステッ
プと、リブートが成功した後、前記ファームウェアを介
して前記エラー・データを要約されたエラー・ログへ変
換するステップとを含む検査停止エラー処理のための方
法。 (16)前記オペレーティング・システムにより前記要
約されたエラー・ログを解析するステップを含む上記
(15)の方法。 (17)リブートが成功しなかった後、前記コンピュー
タ・システム内の障害条件を識別するステップを含む上
記(15)の方法。 (18)前記変換するステップを起こさせるために常駐
機能に対する呼出しにより前記ファームウェアを開始す
るステップを含む上記(15)の方法。
【図面の簡単な説明】
【図1】本発明によるコンピュータ・システムの構成図
である。
【図2】本発明による検査停止エラー処理の流れ図であ
る。
【図3】図2のエラー・データ検索ステップを実行する
ためにサービス・プロセッサを使用するプロセスを詳細
に示す流れ図である。
【図4】本発明によるエラー・データを記憶するデータ
構造を示す図である。
【符号の説明】
10 プロセッサ 12 メモリ・コントローラ 13 システム・メモリ 14 オペレーティング・システム 16 ファームウェア 18 I/Oコントローラ 19 I/O装置 20 メモリ 22 サービス・プロセッサ
フロントページの続き (72)発明者 アロングコーン・キタモーン アメリカ合衆国78717、テキサス州、オー スチン、フリッシュ・コーブ 16104

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】オペレーティング・システム及びファーム
    ウェアをサポートするプロセッサを含む複数の構成要素
    を有するコンピュータ・システムにおける検査停止エラ
    ー処理の方法において、 エラー・データ検索のために検査停止エラーに応答して
    サービス・プロセッサを使用するステップと、 前記コンピュータ・システムのリブートを試みるステッ
    プと、 前記リブートが成功したとき前記エラー・データ検索に
    基づいて障害報告のためのファームウェアを開始するス
    テップとを含む検査停止エラー処理の方法。
  2. 【請求項2】前記サービス・プロセッサを使用するステ
    ップが、前記複数の構成要素の障害隔離レジスタからエ
    ラー・データ検索を実行するステップを含む請求項1の
    方法。
  3. 【請求項3】前記サービス・プロセッサを使用するステ
    ップが、検索されたエラー・データの存在を前記コンピ
    ュータ・システムに対して標示するステップを含む請求
    項1の方法。
  4. 【請求項4】前記標示するステップが、制御フラグをセ
    ットするステップを含む請求項3の方法。
  5. 【請求項5】前記ファームウェアを開始するステップ
    が、常駐ファームウェア機能に対する呼出しを実行する
    ステップを含む請求項1の方法。
  6. 【請求項6】前記ファームウェアを介して前記エラー・
    データを要約されたエラー・ログへ変換するステップを
    含む請求項2の方法。
  7. 【請求項7】前記要約されたエラー・ログを前記オペレ
    ーティング・システムにより解析するステップを含む請
    求項6の方法。
  8. 【請求項8】リブートの試みが成功しなかったとき、前
    記システム内の障害条件を識別するステップを含む請求
    項1の方法。
  9. 【請求項9】検査停止エラーを有するコンピュータ・シ
    ステムにおいて、 オペレーティング・システムをサポートする処理手段
    と、 前記処理手段へ接続され、検査停止エラーに応答してエ
    ラー・データ検索を実行するサービス・プロセッサと、 前記処理手段によりサポートされ、前記エラー・データ
    検索に基づいて障害報告を実行するファームウェア手段
    とを有するコンピュータ・システム。
  10. 【請求項10】前記処理手段及び前記サービス・プロセ
    ッサへ接続された複数の構成要素を有し、前記複数の構
    成要素が障害隔離レジスタを含み、前記サービス・プロ
    セッサが該障害隔離レジスタから前記エラー・データを
    検索する請求項9のコンピュータ・システム。
  11. 【請求項11】前記ファームウェア手段が、前記エラー
    ・データを要約されたエラー・ログへ変換する請求項9
    のコンピュータ・システム。
  12. 【請求項12】前記処理手段が、前記オペレーティング
    ・システムにより前記要約されたエラー・ログを解析す
    る請求項11のコンピュータ・システム。
  13. 【請求項13】前記ファームウェア及び前記サービス・
    プロセッサへ接続され、前記要約されたエラー・ログを
    記憶するメモリ手段を有する請求項11のコンピュータ
    ・システム。
  14. 【請求項14】前記メモリ手段が不揮発性ランダム・ア
    クセス・メモリ(NVRAM)を有する請求項13のコン
    ピュータ・システム。
  15. 【請求項15】オペレーティング・システム及びファー
    ムウェアをサポートするプロセッサを含む複数の構成要
    素を有するコンピュータ・システムにおける検査停止エ
    ラー処理の方法において、 検査停止エラーに応答してサービス・プロセッサを用い
    て前記複数の構成要素の障害隔離レジスタからエラー・
    データ検索を実行するステップと、 リブートが成功した後、前記ファームウェアを介して前
    記エラー・データを要約されたエラー・ログへ変換する
    ステップとを含む検査停止エラー処理の方法。
  16. 【請求項16】前記オペレーティング・システムにより
    前記要約されたエラー・ログを解析するステップを含む
    請求項15の方法。
  17. 【請求項17】リブートが成功しなかった後、前記コン
    ピュータ・システム内の障害条件を識別するステップを
    含む請求項15の方法。
  18. 【請求項18】前記変換するステップを起こさせるため
    に常駐機能に対する呼出しにより前記ファームウェアを
    開始するステップを含む請求項15の方法。
JP10059494A 1997-03-31 1998-03-11 検査停止エラー処理の方法及びコンピュータ・システム Pending JPH10283214A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/829017 1997-03-31
US08/829,017 US6502208B1 (en) 1997-03-31 1997-03-31 Method and system for check stop error handling

Publications (1)

Publication Number Publication Date
JPH10283214A true JPH10283214A (ja) 1998-10-23

Family

ID=25253306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10059494A Pending JPH10283214A (ja) 1997-03-31 1998-03-11 検査停止エラー処理の方法及びコンピュータ・システム

Country Status (2)

Country Link
US (1) US6502208B1 (ja)
JP (1) JPH10283214A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009294881A (ja) * 2008-06-04 2009-12-17 Fujitsu Ltd 情報処理装置および情報処理方法

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3474139B2 (ja) * 2000-01-17 2003-12-08 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータの電源制御方法、電源制御装置及びコンピュータ
FR2810424B1 (fr) * 2000-06-20 2006-06-16 Bull Sa Machine informatique avec systeme de gestion de fichiers sur disque tolerante aux arrets brutaux
US6745343B1 (en) * 2000-07-13 2004-06-01 International Business Machines Corporation Apparatus and method for performing surveillance prior to boot-up of an operating system
US20020073359A1 (en) * 2000-09-08 2002-06-13 Wade Jennifer A. System and method for high priority machine check analysis
US6845470B2 (en) * 2002-02-27 2005-01-18 International Business Machines Corporation Method and system to identify a memory corruption source within a multiprocessor system
US6934888B2 (en) * 2002-03-07 2005-08-23 International Business Machines Corporation Method and apparatus for enhancing input/output error analysis in hardware sub-systems
US6976191B2 (en) * 2002-03-07 2005-12-13 International Business Machines Corporation Method and apparatus for analyzing hardware errors in a logical partitioned data processing system
US7315961B2 (en) * 2002-06-27 2008-01-01 Intel Corporation Black box recorder using machine check architecture in system management mode
US7370177B2 (en) * 2003-04-25 2008-05-06 International Business Machines Corporation Mechanism for avoiding check stops in speculative accesses while operating in real mode
US7308609B2 (en) * 2004-04-08 2007-12-11 International Business Machines Corporation Method, data processing system, and computer program product for collecting first failure data capture information
US7805629B2 (en) * 2005-03-04 2010-09-28 Netapp, Inc. Protecting data transactions on an integrated circuit bus
US8090810B1 (en) 2005-03-04 2012-01-03 Netapp, Inc. Configuring a remote management module in a processing system
US7899680B2 (en) * 2005-03-04 2011-03-01 Netapp, Inc. Storage of administrative data on a remote management device
US8291063B2 (en) * 2005-03-04 2012-10-16 Netapp, Inc. Method and apparatus for communicating between an agent and a remote management module in a processing system
US7788537B1 (en) * 2006-01-31 2010-08-31 Emc Corporation Techniques for collecting critical information from a memory dump
US20080235454A1 (en) * 2007-03-22 2008-09-25 Ibm Corporation Method and Apparatus for Repairing a Processor Core During Run Time in a Multi-Processor Data Processing System
GB2456618A (en) * 2008-01-15 2009-07-22 Ibm Delaying the stop-clock signal of a chip by a set amount of time so that error handling and recovery can be performed before the clock is stopped
US7966536B2 (en) * 2008-04-11 2011-06-21 International Business Machines Corporation Method and apparatus for automatic scan completion in the event of a system checkstop
US20100107148A1 (en) * 2008-10-28 2010-04-29 International Business Machines Corporation Check-stopping firmware implemented virtual communication channels without disabling all firmware functions
KR101674934B1 (ko) * 2009-07-07 2016-11-10 엘지전자 주식회사 오류 보고 방법 및 장치
US8713350B2 (en) * 2009-12-08 2014-04-29 Hewlett-Packard Development Company, L.P. Handling errors in a data processing system
WO2011071490A1 (en) * 2009-12-08 2011-06-16 Hewlett-Packard Development Company, L.P. Managing errors in a data processing system
US8122291B2 (en) * 2010-01-21 2012-02-21 Hewlett-Packard Development Company, L.P. Method and system of error logging
US8438442B2 (en) * 2010-03-26 2013-05-07 Freescale Semiconductor, Inc. Method and apparatus for testing a data processing system
US8335881B2 (en) * 2010-03-26 2012-12-18 Freescale Semiconductor, Inc. Method and apparatus for handling an interrupt during testing of a data processing system
WO2013101111A1 (en) * 2011-12-29 2013-07-04 Intel Corporation Machine check summary register
US9690642B2 (en) * 2012-12-18 2017-06-27 Western Digital Technologies, Inc. Salvaging event trace information in power loss interruption scenarios
US10474618B2 (en) * 2014-09-04 2019-11-12 Western Digital Technologies, Inc. Debug data saving in host memory on PCIE solid state drive
US10545809B2 (en) * 2017-04-27 2020-01-28 Dell Products L.P. Detection and storage of errors of an information handling system utilizing an embeded controller
TWI693518B (zh) * 2019-01-16 2020-05-11 慧榮科技股份有限公司 資料儲存裝置及避免韌體失效之方法
US11269729B1 (en) * 2020-12-21 2022-03-08 Microsoft Technology Licensing, Llc Overloading a boot error signaling mechanism to enable error mitigation actions to be performed

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5220735A (en) 1975-08-08 1977-02-16 Hitachi Ltd Microprogram controlled computer system
US4044337A (en) 1975-12-23 1977-08-23 International Business Machines Corporation Instruction retry mechanism for a data processing system
JPS556672A (en) 1978-06-30 1980-01-18 Fujitsu Ltd Data processing system with service processor
US4215397A (en) 1978-08-24 1980-07-29 Texas Instruments Incorporated Automatic end-of-scan control system for a programmable process controller with expandable memory
US4360917A (en) 1979-02-07 1982-11-23 The Warner & Swasey Company Parity fault locating means
JPS5717019A (en) 1980-07-07 1982-01-28 Fanuc Ltd Numerical controller
DE3379354D1 (en) 1983-05-25 1989-04-13 Ibm Deutschland Test and diagnostic device for a digital computer
JPS6334492A (ja) 1986-07-29 1988-02-15 Nippon Atom Ind Group Co Ltd 復水熱交換器のリ−ク検出方法
JPS63255742A (ja) 1987-04-14 1988-10-24 Hitachi Ltd デ−タ処理装置
CA1320276C (en) 1987-09-04 1993-07-13 William F. Bruckert Dual rail processors with error checking on i/o reads
US5267246A (en) 1988-06-30 1993-11-30 International Business Machines Corporation Apparatus and method for simultaneously presenting error interrupt and error data to a support processor
JPH02128267A (ja) 1988-11-09 1990-05-16 Fujitsu Ltd 共有メモリによる通信方式
US4965717A (en) 1988-12-09 1990-10-23 Tandem Computers Incorporated Multiple processor system having shared memory with private-write capability
US5251227A (en) 1989-08-01 1993-10-05 Digital Equipment Corporation Targeted resets in a data processor including a trace memory to store transactions
JP2956849B2 (ja) 1989-12-08 1999-10-04 株式会社日立製作所 データ処理システム
US5317752A (en) 1989-12-22 1994-05-31 Tandem Computers Incorporated Fault-tolerant computer system with auto-restart after power-fall
EP0449242A3 (en) 1990-03-28 1992-10-28 National Semiconductor Corporation Method and structure for providing computer security and virus prevention
US5142165A (en) 1990-08-31 1992-08-25 International Business Machines Corporation Power off/on delay circuit to prevent lockout
JP3098584B2 (ja) 1990-09-28 2000-10-16 ゼロックス コーポレイション 電子複写システムにおける障害除去及び回復方法及び装置
US5193181A (en) 1990-10-05 1993-03-09 Bull Hn Information Systems Inc. Recovery method and apparatus for a pipelined processing unit of a multiprocessor system
US5245615A (en) 1991-06-06 1993-09-14 International Business Machines Corporation Diagnostic system and interface for a personal computer
JPH056344A (ja) 1991-06-28 1993-01-14 Fujitsu Ltd プログラム走行情報採取処理方式
US5313625A (en) 1991-07-30 1994-05-17 Honeywell Inc. Fault recoverable computer system
DE69230306T2 (de) 1991-09-09 2000-04-13 Compaq Computer Corp., Houston Fern-Urladessystem und Verfahren zum Urladen eines Computersystems
US5291600A (en) 1991-10-23 1994-03-01 At&T Bell Laboratories Recovery of in-core disk data
US5313628A (en) 1991-12-30 1994-05-17 International Business Machines Corporation Component replacement control for fault-tolerant data processing system
US5307482A (en) 1992-01-28 1994-04-26 International Business Machines Corp. Computer, non-maskable interrupt trace routine override
US5471674A (en) 1992-02-07 1995-11-28 Dell Usa, L.P. Computer system with plug-in override of system ROM
US5421006A (en) 1992-05-07 1995-05-30 Compaq Computer Corp. Method and apparatus for assessing integrity of computer system software
US5444859A (en) 1992-09-29 1995-08-22 Amdahl Corporation Method and apparatus for tracing multiple errors in a computer system subsequent to the first occurence and prior to the stopping of the clock in response thereto
US5390324A (en) 1992-10-02 1995-02-14 Compaq Computer Corporation Computer failure recovery and alert system
GB9222282D0 (en) 1992-10-22 1992-12-09 Hewlett Packard Co Monitoring network status
US5758157A (en) 1992-12-31 1998-05-26 International Business Machines Corporation Method and system for providing service processor capability in a data processing by transmitting service processor requests between processing complexes
JPH06243064A (ja) 1993-02-12 1994-09-02 Honda Motor Co Ltd コンピュータネットワークの障害検出システム
US5530847A (en) * 1993-03-22 1996-06-25 Dell Usa, L.P. System and method for loading compressed embedded diagnostics
US5499346A (en) 1993-05-28 1996-03-12 International Business Machines Corporation Bus-to-bus bridge for a multiple bus information handling system that optimizes data transfers between a system bus and a peripheral bus
US5455933A (en) * 1993-07-14 1995-10-03 Dell Usa, L.P. Circuit and method for remote diagnosis of personal computers
JPH0793233A (ja) 1993-09-20 1995-04-07 Fujitsu Ltd ファームウェア・トレースデータ取得方式
AUPM348794A0 (en) 1994-01-20 1994-02-17 Alcatel Australia Limited Microprocessor fault log
US5450579A (en) 1994-03-24 1995-09-12 International Business Machines Corporation Method and apparatus for error recovery in computer peripheral devices
US5488688A (en) 1994-03-30 1996-01-30 Motorola, Inc. Data processor with real-time diagnostic capability
BR9507958A (pt) 1994-06-08 1998-05-26 Intel Corp Interface de conector de unidade de disco para uso em barramento de pci
US5564054A (en) 1994-08-25 1996-10-08 International Business Machines Corporation Fail-safe computer boot apparatus and method
US5560033A (en) 1994-08-29 1996-09-24 Lucent Technologies Inc. System for providing automatic power control for highly available n+k processors
US5530946A (en) 1994-10-28 1996-06-25 Dell Usa, L.P. Processor failure detection and recovery circuit in a dual processor computer system and method of operation thereof
US5560018A (en) 1994-12-16 1996-09-24 International Business Machines Corporation Providing external interrupt serialization compatibility in a multiprocessing environment for software written to run in a uniprocessor environment
US5680537A (en) 1995-03-01 1997-10-21 Unisys Corporation Method and apparatus for isolating an error within a computer system that transfers data via an interface device
US5777549A (en) 1995-03-29 1998-07-07 Cabletron Systems, Inc. Method and apparatus for policy-based alarm notification in a distributed network management environment
JP2687927B2 (ja) 1995-05-24 1997-12-08 日本電気株式会社 外部バスの障害検出方法
CN1137442C (zh) 1995-06-15 2004-02-04 英特尔公司 集成pci至pci桥的i/o处理器的体系结构
US5619644A (en) 1995-09-18 1997-04-08 International Business Machines Corporation Software directed microcode state save for distributed storage controller
US5790870A (en) 1995-12-15 1998-08-04 Compaq Computer Corporation Bus error handler for PERR# and SERR# on dual PCI bus system
US5805785A (en) 1996-02-27 1998-09-08 International Business Machines Corporation Method for monitoring and recovery of subsystems in a distributed/clustered system
US5712967A (en) 1996-04-22 1998-01-27 Advanced Micro Devices, Inc. Method and system for graceful recovery from a fault in peripheral devices using a variety of bus structures
EP0811929A3 (en) 1996-06-05 1999-02-10 Compaq Computer Corporation Bus device configuration in a bridge between two buses

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009294881A (ja) * 2008-06-04 2009-12-17 Fujitsu Ltd 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
US6502208B1 (en) 2002-12-31

Similar Documents

Publication Publication Date Title
JPH10283214A (ja) 検査停止エラー処理の方法及びコンピュータ・システム
US7734945B1 (en) Automated recovery of unbootable systems
US6119246A (en) Error collection coordination for software-readable and non-software readable fault isolation registers in a computer system
US7831857B2 (en) Method and system for recovering from operating system crash or failure
US6934879B2 (en) Method and apparatus for backing up and restoring data from nonvolatile memory
US6167532A (en) Automatic system recovery
US6738928B1 (en) Method and expert system for analysis of crash dumps
US6014744A (en) State governing the performance of optional booting operations
KR100704629B1 (ko) 변경된 위치의 마스터 부트 레코드의 바이러스 감염 여부를판단하고 치료하는 장치 및 방법
US8041936B2 (en) Persisting value relevant to debugging of computer system during reset of computer system
US6272626B1 (en) System for setting a flag indicating a boot failure of loading a procedure and aborting additional loading attempt thereof when the flag is detected
US6202174B1 (en) Method for identifying and correcting errors in a central processing unit
US7941658B2 (en) Computer system and method for updating program code
US8930761B2 (en) Test case result processing
US20030070115A1 (en) Logging and retrieving pre-boot error information
US11157349B2 (en) Systems and methods for pre-boot BIOS healing of platform issues from operating system stop error code crashes
WO1997005547A1 (en) Virus protection in computer systems
US6550019B1 (en) Method and apparatus for problem identification during initial program load in a multiprocessor system
TWI441081B (zh) 更新韌體方法與開機方法及使用其之電子裝置
US6725396B2 (en) Identifying field replaceable units responsible for faults detected with processor timeouts utilizing IPL boot progress indicator status
US10586048B2 (en) Efficient reboot of an operating system
US7243222B2 (en) Storing data related to system initialization in memory while determining and storing data if an exception has taken place during initialization
US20030046524A1 (en) Method for dynamically designating initialization modules as recovery code
US7543168B1 (en) Specifying an operating system level to use after reboot
US7650530B2 (en) Initializing a processing system to ensure fail-safe boot when faulty PCI adapters are present