JPH10283214A

JPH10283214A - 検査停止エラー処理の方法及びコンピュータ・システム

Info

Publication number: JPH10283214A
Application number: JP10059494A
Authority: JP
Inventors: Andrew Mcrollin Charles; チャールズ・アンドルー・マックローリン; Kitamohn Arongcohn; アロングコーン・キタモーン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-03-31
Filing date: 1998-03-11
Publication date: 1998-10-23
Also published as: US6502208B1

Abstract

(57)【要約】【課題】検査停止エラー処理のための方法及びシステ
ムの態様を提供する。【解決手段】オペレーティング・システム及びファー
ムウェアをサポートするプロセッサを含む複数の構成要
素を有するコンピュータ・システムにおける検査停止エ
ラー処理の方法の態様は、エラー・データ検索のために
検査停止エラーに追随するサービス・プロセッサを使用
することと、前記コンピュータ・システムのリブートを
試みることと、前記リブートが成功したとき前記エラー
・データ検索に基づいて障害報告のためのファームウェ
アを開始することとを含む。この方法はさらにリブート
が成功したときエラー・データ検索に基づいて障害報告
用のファームウェアを開始する。システムの態様では、
検査停止エラー処理を有するコンピュータ・システムが
処理機構を含み、処理機構はオペレーティング・システ
ムをサポートし、処理機構へ接続されたサービス・プロ
セッサが検査停止エラーに追随してエラー・データ検索
を実行する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的には、コン
ピュータ・システムにおけるエラー処理に関し、特に、
これらのシステムにおける検査停止エラー処理に関す
る。

【０００２】

【従来の技術】デジタル・コンピュータ・システムにお
いてハードウェア障害が検出される場合、ときとしてそ
の障害が極めて深刻であったりデータ崩壊の危険が非常
に大きかったりすることから、エラーの検出は、それ以
降のオペレーションを即刻停止させるように設計されて
いる。完全なシステム・リセットを実行する以外にこの
状態から回復する手段はなく、通常、この状態は検査停
止状態と称される。エラーが深刻であるが故に、障害を
起こしている構成要素を速やかに取り替えかつシステム
を正常なオペレーションへと回復できるようにそのエラ
ーの発生源を決定できることが重要である。

【０００３】しかしながら、この条件においてはメイン
・プロセッサが停止させられるので、障害情報を把握す
るために別の処理機構が必要である。この機構は、普
通、サービス・プロセッサと称されており、組み込まれ
たコントローラ・オペレーションを提供し、検査停止障
害が発生したときであっても維持される。不都合な点
は、全ての正常機能パスが凍結されたときに障害要素か
ら障害情報を抽出しかつその情報の解析を行うために、
精密な処理機構が必要なことである。しかしながら、こ
のような精密な処理機構を含めると、システムのコスト
が増大する。

【０００４】さらに、通常のシステムは、極めて大量の
エラー・データをラッチ・ビットの形態で含む。僅か１
つの新たなラッチ・ビットを追加する技術的変更でさ
え、データの走査ストリング全体のレイアウトを変更す
ることになり、抽出する必要のあるデータ量が増すこと
になる。増加したデータを保持するために十分な記憶空
間を設けると、さらにシステム全体のコストが増してし
まう。

【０００５】

【発明が解決しようとする課題】従って、ローエンド・
コンピュータ・システム上で機能し、基本的で低コスト
なサービス・プロセッサを用い、かつ比較的小さな記憶
空間を要する、検査停止エラーの解析及び処理のための
有効なシステムが必要とされている。

【０００６】

【課題を解決するための手段】これらの必要性は、検査
停止エラー処理のための方法及びシステムの態様を提供
する本発明により満足される。コンピュータ・システム
における検査停止エラー処理の方法の態様においては、
そのコンピュータ・システムがオペレーティング・シス
テム及びファームウェアをサポートするプロセッサを含
む複数の構成要素を具備する。本方法は、エラー・デー
タ検索のために検査停止エラーを追跡しかつコンピュー
タ・システムのリブートを試みるサービス・プロセッサ
を利用することを含む。さらに本方法は、リブートが成
功したとき、エラー・データ検索に基づいて障害報告す
るためのファームウェアを開始することを含む。別の方
法の態様においては、本方法は、検査停止エラーを追跡
するサービス・プロセッサを用いることにより複数の構
成要素の障害隔離レジスタからのエラー・データ検索を
実行すること、及び、リブート成功の後にファームウェ
アを介してそのエラー・データを要約されたエラー・ロ
グへ変換することを含む。

【０００７】システムの態様においては、検査停止エラ
ー処理を用いるコンピュータ・システムが処理機構を含
み、その処理機構はオペレーティング・システムをサポ
ートする。さらに、処理機構へ接続されるサービス・プ
ロセッサを含み、サービス・プロセッサは検査停止エラ
ーを追跡してエラー・データ検索を行う。さらに、本シ
ステムは、処理機構によりサポートされるファームウェ
ア機構を含み、ファームウェア機構はエラー・データ検
索に基づいて障害報告を行う。

【０００８】本発明は、多量の記憶空間を伴う高価なサ
ービス・プロセッサを必要とすることなく検査停止エラ
ー処理を効果的に実現する。さらに、メイン・プロセッ
サ上のファームウェアにおいて実行される実際の解析と
共に必要なエラー・レジスタのみが保存される。本発明
の態様のこれらの及び他の利点は、以下の詳細な説明及
び添付の図面と共にさらに完全に理解されるであろう。

【０００９】

【発明の実施の形態】本発明は、コンピュータ・システ
ムにおける検査停止エラーの処理に関係する。以下の説
明は、当業者が本発明を実施しかつ使用することができ
るように提示され、本願及びその必要性に関連して提供
されている。好適な実施例に対する様々な応用は当業者
には自明であり、本発明の一般的な原理は他の実施例へ
も適用可能である。このように本発明は、示された実施
例に限定することは意図されておらず、ここに記載され
た原理及び特徴に沿う最も広い範囲に相当すべきであ
る。

【００１０】図１は、本発明と共に用いる汎用的コンピ
ュータ・システムの基本構成図を示す。図示のようにコ
ンピュータ・システムは、メモリ・コントローラ１２へ
接続されたプロセッサ１０、例えばＩＢＭコーポレーシ
ョン製のＰｏｗｅｒＰＣ（商標）等を含み、メモリ・コ
ントローラ１２がシステム・メモリ１３すなわちＲＡＭ
（ランダム・アクセス・メモリ）及びＲＯＭ（読取り専
用メモリ）を制御する。オペレーティング・システム
（Ｏ／Ｓ）１４は、通常、コンピュータ・システムにお
ける基本タスクを実行するべくプロセッサ上で稼働し、
アプリケーション・プログラムのためのプラットフォー
ムとして動作する。さらに、プロセッサ１０上で動作す
るファームウェア１６、及び、不揮発性ＲＡＭ若しくは
ＥＰＲＯＭ（消去可能プログラマブル読取り専用メモ
リ）等の適宜のメモリに記憶されたコードも含まれる。
これらは当業者には周知である。

【００１１】さらに、プロセッサ１０と副次的構成要素
との間の相互動作を制御するために、入出力（Ｉ／Ｏ）
コントローラ１８がプロセッサ１０へ接続される。副次
的構成要素は、例えば、ＰＣＩ標準等の入出力標準へ取
り付けられるハード・ディスク・ドライブやモニタ等の
入出力装置１９、及び、不揮発性ＲＡＭ（ＮＶＲＡＭ）
等のメモリ素子２０等のサブ構成要素である。さらに、
組み込まれたコントローラすなわちサービス・プロセッ
サ（ＳＰ）２２が含まれる。ＳＰ２２は、走査ストリン
グ中の障害情報を抽出するために障害隔離レジスタ・デ
ータ用の構成要素へ適宜アクセスする。特定のエラー・
ビットが、専用のアクセス・コマンドを用いて直接的に
アクセスできる限定されたシリーズへ連結されることに
より、そのエラー・ビットはさらにアクセス容易とな
る。専用のアクセス・コマンドはＩＥＥＥ標準1149.1に
より規定され、しばしば、創始者らの名称によりＪＴＡ
Ｇ（Joint Test Action Group）と称される。

【００１２】障害情報を決定する際に、本発明は、Ｐｏ
ｗｅｒＰＣ(商標)のコモン・ハードウェア・リファレン
ス・プラットフォーム（ＣＨＲＰ）・アーキテクチャを
利用する。このアーキテクチャは、ランタイム・アブス
トラクション・サービス（ＲＴＡＳ）と称される専用の
ファームウェアを提供するためのハードウェア・プラッ
トフォーム用の機構を規定する。このファームウェアへ
は、稼働しているオペレーティング・システムからアク
セスすることができる。ＣＨＲＰの特徴の説明について
は、「PowerPC Microprocessor Common Hardware Refer
ence Platform:A System Architecture」(1995年カリフォルニ
ア州サンフランシスコ所在、Morgan Kaufman Publishers, Inc.刊
行)等を参照されたい。専用のファームウェアは、Intel
システムにおけるＢＩＯＳに類似の特性を有する。特別
なファームウェアは、それが稼働する特定のハードウェ
ア用に作られるので、そのシステムにおける様々な構成
要素全体に亘って障害隔離レジスタで利用可能な障害情
報についての大量の知識の記憶をサポートする。本発明
は、検査停止条件に追随してコンピュータ・システム内
の障害隔離レジスタから障害情報の収集を行う機構を提
供し、この機構はシステム・リブートに成功した後の障
害識別を可能とする。

【００１３】図２は、本発明による検査停止エラー処理
のための方法の流れ図を示す。検査停止が発生したと
き、プロセスは、ＳＰ２２にエラー・データ検索を実行
させることにより開始される（ステップ３０）。ＳＰ２
２は、エラー・データ検索を実行するために適宜信号を
与えられる。例えば、ＳＰ２２はアテンション信号を受
信する。図３は、ＳＰ２２によるエラー・データ検索の
実行を示しており、ＳＰ２２は特定のエラー・レジスタ
・データを読み取る（ステップ３２）。例えば、ＳＰ２
２は、ＪＴＡＧ障害隔離レジスタ（ＦＩＲ（Fault Isol
ation Register）)情報を集める。その後エラー・デー
タは、ＳＰ２２により予め規定されフォーマットされた
形でメモリ素子／ＮＶＲＡＭ２０等の不揮発性の永久記
憶部に適切に配置される（ステップ３４）。記憶素子２
０内のエラー・データの存在は、システムへ示されるこ
とが好ましい。例えば、検査停止用フラグをセットする
か又は制御カウントを増分することによる。

【００１４】図２へ戻ると、ＳＰ２２がエラー・データ
検索を終了すると、システム・リブートの試行を続ける
（ステップ３８）。システムは、適宜、自動又は手動で
リブートすることができる。ステップ４０において障害
条件が永久障害であると判断され、かつシステムがリブ
ートできない場合、好適には、システム対する故障の識
別を行う（ステップ４２）。例えば、操作パネルすなわ
ちオペレータ・パネル上にエラー・コードを提示するフ
ァームウェアであるパワーオン・セルフ・テスト(ＰＯ
ＳＴ)等の正常なブート機構を通して報告することによ
る。障害条件が永久障害でない場合、すなわち障害が一
時停止や重要でないものであってシステム無事にリブー
トする場合、好適には、障害報告を実行するためにファ
ームウェア１６が呼び出される（ステップ４４）。例と
して、オペレーティング・システムが、プラットフォー
ムに障害を報告する常駐ファームウェア機能（ＣＨＲＰ
ＲＴＡＳ「イベントスキャン」等）に対する周期的呼
出しの実行をロードしかつ開始する。ファームウェア
が、例えばイベントスキャンに対する最初の呼出しに応
じて障害に関する報告を開始したならば、好適には、エ
ラー・データがファームウェア１６により変換される
（ステップ４６）。ファームウェア１６は、適宜、記憶
されたエラー・レジスタ・データを読み取り、要約され
たエラー・ログをＮＶＲＡＭ２０内に作成し、そして、
例えば記憶装置内のフラグ又は検査停止カウントをクリ
アすることにより検査停止の標示を除去する。ファーム
ウェア１６による検査停止標示の除去により、正常シス
テム動作中におけるその後の常住ファームウェア機能に
対するいかなる呼出しも、再び検査停止障害を報告しな
い。変換することには、ファームウェア１６が要約され
たエラー・ログをオペレーティング・システム１４へ戻
すことが含まれる。これは、システム内の障害のある構
成要素の識別のためである。

【００１５】エラー・レジスタからデータを保存する際
には、システムの構造が、要約されたエラー・ログに似
せられることが好ましい。システムの構造を似せるため
に、適宜、レジスタ・データがプロセッサからＩ／Ｏブ
リッジへと出されて階層構造で保存される。これにより
再使用された構成要素間の区別を行う。例として、いく
つかのＩ／Ｏホスト・ブリッジがあり、かつ、いずれの
レジスタ・データがいずれのブリッジからきたのかをデ
ータ構造が反映することが好ましい。図４は、エラー・
データを記憶する要約されたエラー・ログの適切なデー
タ構造を示す。

【００１６】図４に示すように、制御フラグ又は検査停
止カウントをサポートする制御フラグ・エントリ５８に
加えて、エラー・ログが適宜エントリを含んでもよい。
例えばエントリ６０〜６３であり、これらは各デバイス
・タイプの番号及び各デバイスに対応するデータに対す
るオフセットを示す。例として、レジスタの実際のサイ
ズに依存するレジスタ・データ及びシステム固有レジス
タからのデータと共にオフセット又は番号が２バイト値
として与えられる。システム固有レジスタは、例えば、
基本ＣＰＵ以外のチップ、メモリ・コントローラ又はＩ
／Ｏチップ、バス調停チップ等からのレジスタである。

【００１７】更なる例として、例えば、ネストされたバ
ス・ブリッジの３つのレベルを含むリモートＩ／Ｏサブ
システム等の、ネストされたＩ／Ｏサブシステム用のサ
ポートが、例えばエントリ７０、７１、７２、７４に含
まれる。好適には、Ｉ／Ｏサブシステム・データ領域
は、サブブリッジ・インスタンスについての更なる情報
に対するネストされた番号及びポインタを含む。もちろ
ん、必要であれば、この技術を他の形態のサブシステム
へ適用できる。

【００１８】本発明の要約されたエラー・ログにより、
検査停止エラー・データが所定のフォーマットでの解析
のために与えられる。さらに本発明は、検査停止エラー
解析を完全に行う処理能力及び記憶空間のために非常に
大きくかつ高価なサービス・プロセッサを設けていた従
来の解決手段における問題点を克服する。本発明はさら
に、フルスキャンのストリング情報を不揮発性ＲＡＭ領
域にダンプすることがほとんどないような比較的単純な
システムにおける不利益を避けることができ、そしてそ
の情報は、エンジニアリング解析用のベンダーへ戻され
るファイルへオペレーティング・システムにより複写さ
れなければならない。従って、基本サービス・プロセッ
サと連係するファームウェア機能の生産的利用により、
本発明は低コストでかつ効果的な方法で検査停止エラー
の処理を実現する。

【００１９】本発明は、示された実施例に従って説明さ
れたが、これらの実施例の変形が可能でありかつそれら
の変形が本発明の主旨及び範囲内に含まれることは当業
者であれば自明であろう。例えば、コンピュータ・シス
テムは単一プロセッサ・マシンに関して説明されたが、
本発明はマルチプロセッサ・コンピュータ・システムへ
も同様に適用可能である。従って、特許請求の範囲の主
旨及び範囲から逸脱することなく当業者による多くの変
形がなされ得るであろう。

【００２０】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００２１】（１）オペレーティング・システム及びフ
ァームウェアをサポートするプロセッサを含む複数の構
成要素を有するコンピュータ・システムにおける検査停
止エラー処理の方法において、エラー・データ検索のた
めに検査停止エラーに応答してサービス・プロセッサを
使用するステップと、前記コンピュータ・システムのリ
ブートを試みるステップと、前記リブートが成功したと
き前記エラー・データ検索に基づいて障害報告のための
ファームウェアを開始するステップとを含む検査停止エ
ラー処理の方法。（２）前記サービス・プロセッサを使用するステップ
が、前記複数の構成要素の障害隔離レジスタからエラー
・データ検索を実行するステップを含む上記（１）の方
法。（３）前記サービス・プロセッサを使用するステップ
が、検索されたエラー・データの存在を前記コンピュー
タ・システムに対して標示するステップを含む上記
（１）の方法。（４）前記標示するステップが、制御フラグをセットす
るステップを含む上記（３）の方法。（５）前記ファームウェアを開始するステップが、常駐
ファームウェア機能に対する呼出しを実行するステップ
を含む上記（１）の方法。（６）前記ファームウェアを介して前記エラー・データ
を要約されたエラー・ログへ変換するステップを含む上
記（２）の方法。（７）前記要約されたエラー・ログを前記オペレーティ
ング・システムにより解析するステップを含む上記
（６）の方法。（８）リブートの試みが成功しなかったとき、前記シス
テム内の障害条件を識別するステップを含む上記（１）
の方法。（９）検査停止エラーを有するコンピュータ・システム
において、オペレーティング・システムをサポートする
処理手段と、前記処理手段へ接続され、検査停止エラー
に応答してエラー・データ検索を実行するサービス・プ
ロセッサと、前記処理手段によりサポートされ、前記エ
ラー・データ検索に基づいて障害報告を実行するファー
ムウェア手段とを有するコンピュータ・システム。（１０）前記処理手段及び前記サービス・プロセッサへ
接続された複数の構成要素を有し、前記複数の構成要素
が障害隔離レジスタを含み、前記サービス・プロセッサ
が該障害隔離レジスタから前記エラー・データを検索す
る上記（９）のコンピュータ・システム。（１１）前記ファームウェア手段が、前記エラー・デー
タを要約されたエラー・ログへ変換する上記（９）のコ
ンピュータ・システム。（１２）前記処理手段が、前記オペレーティング・シス
テムにより前記要約されたエラー・ログを解析する上記
（１１）のコンピュータ・システム。（１３）前記ファームウェア及び前記サービス・プロセ
ッサへ接続され、前記要約されたエラー・ログを記憶す
るメモリ手段を有する上記（１１）のコンピュータ・シ
ステム。（１４）前記メモリ手段が不揮発性ランダム・アクセス
・メモリ(ＮＶＲＡＭ)を有する上記（１３）のコンピュ
ータ・システム。（１５）オペレーティング・システム及びファームウェ
アをサポートするプロセッサを含む複数の構成要素を有
するコンピュータ・システムにおける検査停止エラー処
理のための方法において、検査停止エラーに応答してサ
ービス・プロセッサを用いて前記複数の構成要素の障害
隔離レジスタからエラー・データ検索を実行するステッ
プと、リブートが成功した後、前記ファームウェアを介
して前記エラー・データを要約されたエラー・ログへ変
換するステップとを含む検査停止エラー処理のための方
法。（１６）前記オペレーティング・システムにより前記要
約されたエラー・ログを解析するステップを含む上記
（１５）の方法。（１７）リブートが成功しなかった後、前記コンピュー
タ・システム内の障害条件を識別するステップを含む上
記（１５）の方法。（１８）前記変換するステップを起こさせるために常駐
機能に対する呼出しにより前記ファームウェアを開始す
るステップを含む上記（１５）の方法。

【図面の簡単な説明】

【図１】本発明によるコンピュータ・システムの構成図
である。

【図２】本発明による検査停止エラー処理の流れ図であ
る。

【図３】図２のエラー・データ検索ステップを実行する
ためにサービス・プロセッサを使用するプロセスを詳細
に示す流れ図である。

【図４】本発明によるエラー・データを記憶するデータ
構造を示す図である。

【符号の説明】

１０プロセッサ１２メモリ・コントローラ１３システム・メモリ１４オペレーティング・システム１６ファームウェア１８Ｉ／Ｏコントローラ１９Ｉ／Ｏ装置２０メモリ２２サービス・プロセッサ

フロントページの続き (72)発明者アロングコーン・キタモーンアメリカ合衆国78717、テキサス州、オースチン、フリッシュ・コーブ 16104

Claims

【特許請求の範囲】

【請求項１】オペレーティング・システム及びファーム
ウェアをサポートするプロセッサを含む複数の構成要素
を有するコンピュータ・システムにおける検査停止エラ
ー処理の方法において、エラー・データ検索のために検査停止エラーに応答して
サービス・プロセッサを使用するステップと、前記コンピュータ・システムのリブートを試みるステッ
プと、前記リブートが成功したとき前記エラー・データ検索に
基づいて障害報告のためのファームウェアを開始するス
テップとを含む検査停止エラー処理の方法。
【請求項２】前記サービス・プロセッサを使用するステ
ップが、前記複数の構成要素の障害隔離レジスタからエ
ラー・データ検索を実行するステップを含む請求項１の
方法。
【請求項３】前記サービス・プロセッサを使用するステ
ップが、検索されたエラー・データの存在を前記コンピ
ュータ・システムに対して標示するステップを含む請求
項１の方法。
【請求項４】前記標示するステップが、制御フラグをセ
ットするステップを含む請求項３の方法。
【請求項５】前記ファームウェアを開始するステップ
が、常駐ファームウェア機能に対する呼出しを実行する
ステップを含む請求項１の方法。
【請求項６】前記ファームウェアを介して前記エラー・
データを要約されたエラー・ログへ変換するステップを
含む請求項２の方法。
【請求項７】前記要約されたエラー・ログを前記オペレ
ーティング・システムにより解析するステップを含む請
求項６の方法。
【請求項８】リブートの試みが成功しなかったとき、前
記システム内の障害条件を識別するステップを含む請求
項１の方法。
【請求項９】検査停止エラーを有するコンピュータ・シ
ステムにおいて、オペレーティング・システムをサポートする処理手段
と、前記処理手段へ接続され、検査停止エラーに応答してエ
ラー・データ検索を実行するサービス・プロセッサと、前記処理手段によりサポートされ、前記エラー・データ
検索に基づいて障害報告を実行するファームウェア手段
とを有するコンピュータ・システム。
【請求項１０】前記処理手段及び前記サービス・プロセ
ッサへ接続された複数の構成要素を有し、前記複数の構
成要素が障害隔離レジスタを含み、前記サービス・プロ
セッサが該障害隔離レジスタから前記エラー・データを
検索する請求項９のコンピュータ・システム。
【請求項１１】前記ファームウェア手段が、前記エラー
・データを要約されたエラー・ログへ変換する請求項９
のコンピュータ・システム。
【請求項１２】前記処理手段が、前記オペレーティング
・システムにより前記要約されたエラー・ログを解析す
る請求項１１のコンピュータ・システム。
【請求項１３】前記ファームウェア及び前記サービス・
プロセッサへ接続され、前記要約されたエラー・ログを
記憶するメモリ手段を有する請求項１１のコンピュータ
・システム。
【請求項１４】前記メモリ手段が不揮発性ランダム・ア
クセス・メモリ(ＮＶＲＡＭ)を有する請求項１３のコン
ピュータ・システム。
【請求項１５】オペレーティング・システム及びファー
ムウェアをサポートするプロセッサを含む複数の構成要
素を有するコンピュータ・システムにおける検査停止エ
ラー処理の方法において、検査停止エラーに応答してサービス・プロセッサを用い
て前記複数の構成要素の障害隔離レジスタからエラー・
データ検索を実行するステップと、リブートが成功した後、前記ファームウェアを介して前
記エラー・データを要約されたエラー・ログへ変換する
ステップとを含む検査停止エラー処理の方法。
【請求項１６】前記オペレーティング・システムにより
前記要約されたエラー・ログを解析するステップを含む
請求項１５の方法。
【請求項１７】リブートが成功しなかった後、前記コン
ピュータ・システム内の障害条件を識別するステップを
含む請求項１５の方法。
【請求項１８】前記変換するステップを起こさせるため
に常駐機能に対する呼出しにより前記ファームウェアを
開始するステップを含む請求項１５の方法。