JP2006244522A

JP2006244522A - 論理分割されたマルチプロセッシング・システム内で発生するエラー・イベントを報告する標準化されたフォーマット

Info

Publication number: JP2006244522A
Application number: JP2006126991A
Authority: JP
Inventors: George Henry Ahrens Jr; ジョージ・ヘンリー・アーレンズ・ジュニア; Douglas Marvin Benignus; ダグラス・マービン・ベニグナス; Leo C Mooney; レオ・シー・ムーニー; Arthur James Tysor; アーサー・ジェームズ・タイソー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-03-01
Filing date: 2006-04-28
Publication date: 2006-09-14
Also published as: KR20020070813A; JP2002312202A; KR100546972B1; US6792564B2; US20020124213A1; TWI225194B

Abstract

【課題】コンピュータ・システム内で発生するエラー・イベントを報告する、コンピュータ・システム内の方法、システム、および製品を提供すること。
【解決手段】コンピュータ・システムに、複数の論理区画が含まれる。論理区画のそれぞれに、複数の異なるオペレーティング・システムの異なる１つが含まれる。エラー・イベントを報告するフォーマットが指定される。論理区画の１つの中で発生するエラー・イベントが検出される。エラー・イベントに関する情報が、指定されたフォーマットに従ってフォーマットされる。各オペレーティング・システムは、このフォーマットを使用して、エラー・イベントを報告する。
【選択図】図６

Description

本発明は、全般的にはデータ処理システムに関し、具体的には、論理分割されたマルチプロセッシング・システムに関する。さらに具体的には、本発明は、論理分割されたマルチプロセッシング・システム内に含まれる複数の異なるオペレーティング・システム内で発生するエラー・イベントを報告するための標準化されたフォーマットに関する。

論理分割は、単一のマルチプロセッシング・システムを、複数の独立のシステムであるかのように稼動させる能力である。各論理区画は、システム内のリソースの分割を表し、独立の論理システムとして動作する。各区画が論理区画であるのは、リソースの分割を、物理的または仮想とすることができるからである。論理区画の例が、それぞれがそれ自体のプロセッサ、主記憶、および入出力装置を有する複数の独立のサーバへのマルチプロセッサ・コンピュータ・システムの分割である。ＡＩＸ、LINUX、または他のシステムなどの複数の異なるオペレーティング・システムの１つを、各区画内で稼動させることができる。

論理分割された（ＬＰＡＲ）マルチプロセッシング・システムには、割り当てられたまたは所有する区画のオペレーティング・システムにのみ報告されるクラスのエラー（ローカル）がある。単一の区画のオペレーティング・システムだけに割り当てられた入出力アダプタの障害が、これの１例である。潜在的に各区画の動作に影響する可能性があるので、各区画のオペレーティング・システムに報告される、もう１つのクラスのエラー（グローバル）もある。このタイプの例が、電源、ファン、メモリ、およびプロセッサの障害である。

サービス可能なイベントが、論理区画の１つの中で発生するか、その区画のオペレーティング・システムに報告される時に、その論理区画によって実行されるオペレーティング・システムが、診断ルーチンを実行して、そのイベントに関する情報を収集する。

各オペレーティング・システムは、異なる診断機能およびエラー・イベントを報告するための異なるフォーマットを有する可能性が高い。論理分割を有し、したがって、異なるオペレーティング・システムをサポートするシステムでは、エラー・イベントが、さまざまな異なるフォーマットで報告されることになる。これは、サービス専門家の混乱を引き起こすことによって、エラーの修理のために呼び出されたサービス専門家にとっての問題を引き起こす可能性がある。

そこで本発明は、論理分割されたマルチプロセッシング・システムによって実行されることができる複数の異なるオペレーティング・システムのどれであれ、それによるエラー・イベントの報告の標準化されたフォーマットを提供する方法、システム、および製品を提供することをその主たる目的とする。

コンピュータ・システム内で発生するエラー・イベントを報告する、コンピュータ・システム内の方法、システム、および製品を説明する。コンピュータ・システムに、複数の論理区画が含まれる。論理区画のそれぞれに、複数の異なるオペレーティング・システムの異なる１つを含めることができる。エラー・イベントを報告するフォーマットが指定される。論理区画の１つの中で発生するエラー・イベントが検出される。エラー・イベントに関する情報が、指定されたフォーマットに従ってフォーマットされる。各オペレーティング・システムは、このフォーマットを使用して、エラー・イベントを報告する。

上記ならびに追加の本発明の目的、特徴、および長所は、以下の詳細に記述された説明で明白になる。

本発明に特有と思われる新規の特徴を、添付の請求項に示す。しかし、本発明自体、ならびに本発明の好ましい形態、さらなる目的、および長所は、以下の例示的実施形態の詳細な説明を添付図面と共に併せ読めば最もよく理解されよう。

本発明の好ましい実施形態およびその長所は、図面を参照することによってよりよく理解されるが、図面では、類似する符号が、添付図面の類似し対応する部分に使用される。

本発明は、ＩＢＭＡＩＸオペレーティング・システムが稼動するＩＢＭＲＳ／６０００サーバなどの周知のコンピューティング・プラットフォームを使用して実現されることが好ましい。しかし、本発明は、本発明の趣旨および範囲から逸脱せずに、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ(R)オペレーティング・システムが稼動するＩＢＭパーソナル・コンピュータもしくはUNIX(R)またはLINUXなどのオペレーティング・システムが稼動するSun Microsystems社のワークステーションなど、他の一般的なコンピュータ・システム・プラットフォームで実現することができる。

本発明は、コンピュータ・システム内で発生するエラー・イベントを報告するための標準化されたフォーマットを提供する方法、システム、および製品である。コンピュータ・システムに、複数の論理区画が含まれる。論理区画のそれぞれに、複数の異なるオペレーティング・システムの異なる１つを含めることができる。

標準化されたフォーマットは、これらの異なるオペレーティング・システムのそれぞれによって、エラー・イベントの報告に使用される。この形で、同一のタイプのデータが、各異なるオペレーティング・システムによって一貫性のある形で報告される。

エラー・イベント・ログ・エントリが、エラー・イベントごとにオペレーティング・システムによって作成される。各エラー・イベント・ログ・エントリには、エラーを報告しているオペレーティング・システムの識別、診断フォーマット、診断モード、エラー・コード、シーケンス番号、エラー・タイムスタンプ、説明テキスト、ロケーション・コード、現場交換可能ユニット部品番号、区画識別子、計算機タイプ、リソース名、ホスト名、日付および時刻、サービス済みフラグ、およびオペレーティング・システム固有の情報を含めることができる。エラー・イベントごとに収集されるこの情報を、下で詳細に説明する。

図面、具体的には図１を参照すると、本発明を実施することができる分散データ処理システムの絵図が示されている。

分散データ処理システム１００は、本発明を実施することができるコンピュータのネットワークである。分散データ処理システム１００には、ネットワーク１０２が含まれ、ネットワーク１０２は、分散データ処理システム１００内で接続されたさまざまな装置およびコンピュータの間の通信リンクを提供するのに使用される媒体である。ネットワーク１０２には、ワイヤまたは光ファイバ・ケーブルなどの永久的接続または電話接続を介して行われる一時的接続を含めることができる。

図示の例では、サーバ１０４が、ハードウェア・システム・コンソール１５０に接続される。サーバ１０４は、記憶装置１０６と共に、ネットワーク１０２にも接続される。さらに、クライアント１０８、１１０、および１１２も、ネットワーク１０２に接続される。これらのクライアント１０８、１１０、および１１２は、たとえば、パーソナル・コンピュータまたはネットワーク・コンピュータとすることができる。本明細書において、ネットワーク・コンピュータとは、ネットワークに結合された別のコンピュータからプログラムまたは他のアプリケーションを受け取る、ネットワークに結合されたコンピュータである。図示の例では、サーバ１０４が、論理分割されたプラットフォームであり、ブート・ファイル、オペレーティング・システム・イメージ、およびアプリケーションなどのデータを、クライアント１０８、１１２に供給する。ハードウェア・システム・コンソール１５０は、ラップトップ・コンピュータとすることができ、サーバ１０４で稼動するオペレーティング・システム・イメージのそれぞれからのメッセージを操作員に表示するのに使用され、操作員から受け取った入力情報をサーバ１０４に送信するのに使用される。クライアント１０８、１１０、および１１２は、サーバ１０４に対するクライアントである。分散データ処理システム１００には、図示されていない、追加のサーバ、クライアント、および他の装置を含めることができる。分散データ処理システム１００には、プリンタ１１４、１１６、および１１８も含まれる。クライアント１１０などのクライアントが、プリンタ１１４に直接に印刷することができる。クライアント１０８およびクライアント１１２などのクライアントは、直接に接続されたプリンタを有しない。これらのクライアントは、サーバ１０４に接続されたプリンタ１１６、または、文書を印刷するためにコンピュータへの直接接続を必要としないネットワーク・プリンタであるプリンタ１１８に印刷することができる。クライアント１１０は、その代わりに、プリンタのタイプおよび文書要件に応じて、プリンタ１１６またはプリンタ１１８に印刷することができる。

図示の例では、分散データ処理システム１００が、インターネットであり、ネットワーク１０２が、互いに通信するのにＴＣＰ／ＩＰプロトコル・スイートを使用するネットワークおよびゲートウェイの全世界の集合を表す。インターネットの中心部には、データおよびメッセージをルーティングする、数千台の商用、政府、教育機関、および他のコンピュータ・システムからなる主要なノードまたはホスト・コンピュータの間の高速データ通信回線のバックボーンがある。もちろん、分散データ処理システム１００は、たとえばイントラネットまたはローカル・エリア・ネットワークなどの複数の異なるタイプのネットワークとして実施することもできる。

図１は、本発明の処理に関するアーキテクチャ的制限としてではなく、例として意図されている。

図２を参照すると、本発明を実施することができる、図１のサーバ１０４などの、論理分割されたサーバとして実施することができるデータ処理システムのブロック図が示されている。データ処理システム２００は、システム・バス２０６に接続された複数のプロセッサ２０１、２０２、２０３、および２０４を含む対称マルチプロセッサ（ＳＭＰ）システムとすることができる。たとえば、データ処理システム２００は、ネットワーク内のサーバとして実施された、米国ニューヨーク州アーモンクのInternational Business Machines Corporation社の製品であるＩＢＭＲＳ／６０００とすることができる。その代わりに、単一プロセッサ・システムを使用することができる。システム・バス２０６には、メモリ・コントローラ／キャッシュ２０８も接続され、このメモリ・コントローラ／キャッシュ２０８が、複数のローカル・メモリ２６０ないし２６３へのインターフェースを提供する。入出力バス・ブリッジ２１０が、システム・バス２０６に接続され、入出力バス２１２へのインターフェースを提供する。メモリ・コントローラ／キャッシュ２０８および入出力バス・ブリッジ２１０を、図示のように統合することができる。

データ処理システム２００は、論理分割されたデータ処理システムである。したがって、データ処理システム２００は、複数の異種オペレーティング・システム（または単一のオペレーティング・システムの複数のインスタンス）を同時に稼動させることができる。これらの複数のオペレーティング・システムのそれぞれが、任意の個数のソフトウェア・プログラムをその中で実行させることができる。データ処理システム２００は、異なる入出力アダプタ２２０、２２１、２２８、２２９、２３６、２４８、および２４９を異なる論理区画に割り当てることができるように論理分割される。

したがって、たとえば、データ処理システム２００が、３つの論理区画Ｐ１、Ｐ２、およびＰ３に分割されると想定されたい。入出力アダプタ２２０、２２１、２２８、２２９、２３６、２４８、および２４９のそれぞれと、プロセッサ２０１ないし２０４のそれぞれと、ローカル・メモリ２６０ないし２６３のそれぞれが、３つの区画の１つに割り当てられる。たとえば、プロセッサ２０１と、ローカル・メモリ２６０と、入出力アダプタ２２０、２２８および２２９を、論理区画Ｐ１に割り当てることができ、プロセッサ２０２および２０３と、メモリ２６１と、入出力アダプタ２２１および２３６を、区画Ｐ２に割り当てることができ、プロセッサ２０４と、ローカル・メモリ２６２および２６３と、入出力アダプタ２４８および２４９を、論理区画Ｐ３に割り当てることができる。

データ処理システム２００内で実行される各オペレーティング・システムは、異なる論理区画に割り当てられる。したがって、データ処理システム２００内で実行される各オペレーティング・システムは、その論理区画内にある入出力ユニットだけにアクセスすることができる。したがって、たとえば、拡張対話式エグゼクティブ（ＡＩＸ）オペレーティング・システムの１つのインスタンスを、区画Ｐ１内で実行されているものとすることができ、ＡＩＸオペレーティング・システムの第２のインスタンス（イメージ）を、区画Ｐ２内で実行されているものとすることができ、Windows(R)（登録商標） 2000オペレーティング・システムを、論理区画Ｐ３内で動作しているものとすることができる。Windows(R)（登録商標） 2000は、米国ワシントン州レッドモンドのMicrosoft Corporation社の製品であり、商標である。

入出力バス２１２に接続されたＰＣＩ（peripheral component interconnect）ホスト・ブリッジ２１４が、ＰＣＩローカル・バス２１５へのインターフェースを提供する。複数の入出力アダプタ２２０および２２１を、ＰＣＩバス２１５に接続することができる。通常のＰＣＩバス実施態様では、４つと８つの間の入出力アダプタ（すなわち、アドイン・コネクタ用の拡張スロット）がサポートされる。各入出力アダプタ２２０および２２１は、データ処理システム２００と、たとえば、データ処理システム２００に対するクライアントである他のネットワーク・コンピュータなどの入出力デバイスの間のインターフェースを提供する。

追加のＰＣＩホスト・ブリッジ２２２によって、追加のＰＣＩバス２２３のインターフェースが提供される。ＰＣＩバス２２３は、ＰＣＩバス２２６および２２７によって複数の入出力アダプタ２２８および２２９に接続される。したがって、たとえば、モデムまたはネットワーク・アダプタなどの追加の入出力装置を、入出力アダプタ２２８および２２９のそれぞれを介してサポートすることができる。この形で、データ処理システム２００を、複数のネットワーク・コンピュータに接続できるようになる。

メモリ・マップ・グラフィックス・アダプタである入出力アダプタ２４８を、図示のように、ＰＣＩホスト・ブリッジ２４０およびブリッジ・チップ２４２を介し、ＰＣＩバス２４１および２４４を介して、入出力バス２１２に接続することができる。また、ハード・ディスク２５０も、図示のように、ＰＣＩホスト・ブリッジ２４０およびＥＡＤＳ２４２を介し、ＰＣＩバス２４１および２４５を介して、入出力バス２１２に接続することができる。

ＰＣＩホスト・ブリッジ２３０は、ＰＣＩバス２３１を入出力バス２１２に接続するインターフェースを提供する。ＰＣＩバス２３１は、ＰＣＩホスト・ブリッジ２３０を、サービス・プロセッサ・メールボックス・インターフェースおよびＩＳＡバス・アクセス・パススルー論理２９４およびＥＡＤＳ２３２に接続する。サービス・プロセッサ・メールボックス・インターフェースおよびＩＳＡバス・アクセス・パススルー論理２９４は、ＰＣＩ／ＩＳＡブリッジ２９３に宛てられたＰＣＩアクセスを転送する。ＮＶ−ＲＡＭストレージが、ＩＳＡバス２９６に接続される。サービス・プロセッサ２３５は、そのローカルＰＣＩバス２９５を介してサービス・プロセッサ・メールボックス・インターフェースおよびＩＳＡバス・アクセス・パススルー論理２９４に結合される。サービス・プロセッサ２３５は、複数のＪＴＡＧ／Ｉ2Ｃバス２３４を介してプロセッサ２０１ないし２０４にも接続される。ＪＴＡＧ／Ｉ2Ｃバス２３４は、ＪＴＡＧ／ｓｃａｎバス（ＩＥＥＥ１１４９．１を参照されたい）とＰｈｉｌｌｉｐｓＩ2Ｃバスの組合せである。しかし、その代わりに、ＪＴＡＧ／Ｉ2Ｃバス２３４を、ＰｈｉｌｌｉｐｓＩ2ＣバスのみまたはＪＴＡＧ／ｓｃａｎバスのみによって置換することができる。プロセッサ２０１、２０２、２０３、および２０４のすべてのＳＰ−ＡＴＴＮ信号が、一緒に、サービス・プロセッサの割込み入力信号に接続される。サービス・プロセッサ２３５は、それ自体のローカル・メモリ２９１を有し、ハードウェア・オペレータ・パネル２９０へのアクセスを有する。

データ処理システム２００が、最初に電源投入される時に、サービス・プロセッサ２３５が、ＪＴＡＧ／Ｉ2Ｃバス２３４を使用して、システム（ホスト）プロセッサであるプロセッサ２０１ないし２０４、メモリ・コントローラ２０８、および入出力ブリッジ２１０に問い合わせる。このステップの完了時に、サービス・プロセッサ２３５が、データ処理システム２００のインベントリおよびトポロジの理解を有する。サービス・プロセッサ２３５は、システム・プロセッサ２０１ないし２０４、メモリ・コントローラ２０８、および入出力ブリッジ２１０に問い合わせることによって見つかったすべての要素に対して、組込み自己試験（ＢＩＳＴ）、基本検証テスト（ＢＡＴ）、およびメモリ・テストも実行する。ＢＩＳＴ、ＢＡＴ、およびメモリ・テスト中に検出された障害に関するエラー情報のすべてが、サービス・プロセッサ２３５によって集められ、報告される。

ＢＩＳＴ、ＢＡＴ、およびメモリ・テスト中に故障していることがわかった要素を除外した後に、システム・リソースの意味のある／有効な構成がまだ可能である場合には、データ処理システム２００が、ローカル（ホスト）・メモリ２６０ないし２６３への実行可能コードのロードに移ることが許可される。サービス・プロセッサ２３５は、その後、ホスト・メモリ２６０ないし２６３にロードされたコードの実行のためにホスト・プロセッサ２０１ないし２０４を解放する。ホスト・プロセッサ２０１ないし２０４が、データ処理システム２００内のそれぞれのオペレーティング・システムからのコードを実行している間に、サービス・プロセッサ２３５は、エラーの監視および報告のモードに入る。サービス・プロセッサによって監視されるタイプの項目には、たとえば、冷却ファンの速度および動作と、温度センサと、電源レギュレータと、プロセッサ２０１ないし２０４、メモリ２６０ないし２６３、およびバス・ブリッジ・コントローラ２１０によって報告される回復可能エラーおよび回復不能エラーが含まれる。

サービス・プロセッサ２３５は、データ処理システム２００内の監視されるすべての項目に関するエラー情報を保管し、報告する責任を負う。サービス・プロセッサ２３５は、エラーのタイプおよび定義された閾値に基づいて処置も講じる。たとえば、サービス・プロセッサ２３５は、プロセッサのキャッシュ・メモリでの過剰な回復可能エラーに注目し、これがハード障害の前兆であると判断することができる。この判定に基づいて、サービス・プロセッサ２３５は、現在稼働中のセッションおよび将来の初期プログラム・ロード（ＩＰＬ）中の構成解除に関してそのリソースをマークすることができる。ＩＰＬは、「ブート」、または「ブートストラップ」と呼ばれる場合もある。

当業者は、図２に示されたハードウェアを変更できることを理解するであろう。たとえば、光ディスク・ドライブおよび類似物などの他の周辺デバイスも、図示のハードウェアに加えてまたはその代わりに使用することができる。図示の例は、本発明に関するアーキテクチャ上の制限を暗示するものではない。

次に図３を参照すると、本発明を実施することができる例示的な論理分割されたプラットフォームのブロック図が示されている。論理分割されたプラットフォーム３００のハードウェアは、たとえば、図２のデータ処理システム２００として実施することができる。論理分割されたプラットフォーム３００には、分割されたハードウェア３３０、オープン・ファームウェア３１０、およびオペレーティング・システム３０２ないし３０８が含まれる。オペレーティング・システム３０２ないし３０８は、論理分割されたプラットフォーム３００上で同時に稼動する、単一のオペレーティング・システムの複数のコピーまたは複数の異種オペレーティング・システムとすることができる。

分割されたハードウェア３３０には、複数のプロセッサ３３２ないし３３８、複数のシステム・メモリ・ユニット３４０ないし３４６、複数の入出力アダプタ３４８ないし３６２、および記憶装置３７０が含まれる。プロセッサ３４２ないし３４８、メモリ・ユニット３４０ないし３４６、および入出力アダプタ３４８ないし３６２のそれぞれを、論理分割されたプラットフォーム３００内の、それぞれがオペレーティング・システム３０２ないし３０８の１つに対応する複数の区画の１つに割り当てることができる。ＮＶ−ＲＡＭは、区画のそれぞれの間で分割され、１特定の区画には割り当てられない。

オープン・ファームウェア３１０は、オペレーティング・システム３０２ないし３０８の複数の機能およびサービスを実行して、論理分割されたプラットフォーム３００の分割を作成し、実施する。ファームウェアとは、たとえば読取専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、消去プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、および不揮発性ランダム・アクセス・メモリ（不揮発性ＲＡＭ）などの、電力なしで内容を保持するメモリ・チップに保管された「ソフトウェア」である。

ＯＦ３１０は、複数の論理区画内で稼動するオペレーティング・システム３０２ないし３０８のイメージのそれぞれに、コンソールおよびオペレータ・パネルの仮想コピーを提供する。コンソールへのインターフェースは、従来技術の非同期テレタイプ・ポート・デバイス・ドライバから、ポート・デバイス・ドライバをエミュレートするオープン・ファームウェア呼出しの組に変更される。ＯＦ３１０は、さまざまなＯＳイメージからのデータを、ハードウェア・システム・コンソールと称するコンピュータ３８０に転送されるメッセージ・ストリームにカプセル化する。

ＯＦ３１０には、システム・ブート・ファームウェアが含まれる。プロセッサ３３２ないし３３８のそれぞれに設計済み命令として組み込まれた機構を用いて、ＯＦ３１０をいつでも実行できるようになる。したがって、システム・チェックポイントを、ハードウェア・システム・コンソール３８０のオペレータ・パネル・ウィンドウに即座に表示することができ、また、不揮発性ランダム・アクセス・メモリ（ＮＶ−ＲＡＭ）に即座にログ記録することができ、これは、これらの装置への入出力経路が、プログラム式入出力（ＰＩＯ）アクセスを受け入れるように構成される前であっても可能である。

ハードウェア・システム・コンソール３８０は、図３に示されているように論理分割されたプラットフォーム３００に直接に接続されるか、たとえば図１のネットワーク１０２などのネットワークを介して論理分割されたプラットフォームに接続することができる。ハードウェア・システム・コンソール３８０は、たとえば、デスクトップ・コンピュータまたはラップトップ・コンピュータとすることができる。ハードウェア・システム・コンソール３８０は、メッセージ・ストリームをデコードし、さまざまなオペレーティング・システム３０２ないし３０８のイメージからの情報を、ＯＳイメージごとに少なくとも１つの別々のウィンドウに表示する。同様に、操作員からのキーボード入力情報は、ハードウェア・システム・コンソールによってパッケージ化され、論理分割されたプラットフォーム３００に送られ、論理分割されたプラットフォーム３００で、デコードされ、ハードウェア・システム・コンソール３８０上のアクティブ・ウィンドウに関連する、ＯＦ３１０によってエミュレートされるポート・デバイス・ドライバを介して適当なＯＳイメージに送達される。

図４は、本発明による、図１および図２の論理分割されたマルチプロセッシング・サーバ・コンピュータ・システムおよびハードウェア・システム・コンソールのブロック図である。

サーバ１０４には、複数のオペレーティング・システム（ＯＳ）の区画４０２、４０４、４０６、および４０８が含まれる。これらの区画は、入出力装置と、電源、冷却供給、ファン、メモリ、およびプロセッサとすることができるベース・ハードウェアから入力を受け取る。ＡＩＸまたはLINUXなどの複数の異なるオペレーティング・システムの任意の１つを、任意の区画で稼働中にすることができる。たとえば、ＡＩＸが、区画４０２および４０６に図示されており、LINUXが、区画４０４および４０８に図示されている。４つのオペレーティング・システム区画が図示されているが、さまざまな異なるオペレーティング・システムのいずれかを有する任意の数の区画を使用することができる。

各区画に、エラー・ログおよびマネージャが含まれる。エラーが区画内で発生する時に、そのエラーが、その区画のエラー・ログにログ記録される。マネージャは、エラー情報を標準フォーマットにフォーマットし、エラー情報を、エラー・イベント・ログ・エントリの形でハードウェア・システム・コンソール３８０に転送する。たとえば、区画４０２に、エラー・ログ４１０およびマネージャ４１２が含まれ、区画４０４に、エラー・ログ４１４およびマネージャ４１６が含まれ、区画４０６に、エラー・ログ４１８およびマネージャ４２０が含まれ、区画４０８に、エラー・ログ４２２およびマネージャ４２４が含まれる。

図５は、本発明による、異なるオペレーティング・システムがエラー・イベントを報告するのに使用することができる標準化されたフォーマット５００を示すブロック図である。フォーマット５００には、複数のフィールド５０２ないし５３２が含まれる。フィールド５０２は、どのオペレーティング・システムが論理区画によって実行されつつあり、エラーを報告しているかを識別する、オペレーティング・システム識別子フィールドである。フィールド５０４は、オペレーティング・システムによって実行される診断ルーチンの種類を識別する診断フォーマット・フィールドである。フィールド５０６は、「concurrent（並列）」を示すことによって、エラーが発生した時にオペレーティング・システムが動作しており、カスタマ・アプリケーションを実行していたか、「service（サービス）」を示すことによって、その時にオペレーティング・システムがユーザから使用不能であったかを示す診断モード・フィールドである。フィールド５０８は、オペレーティング・システムが診断ルーチンを実行した時に判断された特定のエラー・コードを示すエラー・コード・フィールドである。エラー・コードによって、故障した現場交換可能ユニット（ＦＲＵ）が識別される。フィールド５１０は、エラー情報がエラー・ログから得られたかどうかを示すシーケンス番号フィールドである。フィールド５１２は、エラーが発生した日付および時刻を示すエラー・タイムスタンプ・フィールドである。フィールド５１４は、テキストによる説明を保管する説明テキスト・フィールドである。フィールド５１６は、故障したＦＲＵの物理位置を示すロケーション・コード・フィールドである。フィールド５１８は、コンピュータ・システム内の、交換されなければならない特定のユニットの部品番号または通し番号を保管するための、現場交換可能ユニット部品番号フィールドである。フィールド５２０は、区画を識別するための、区画識別子および区画名フィールドである。フィールド５２２は、エラー・イベントを生成した区画を含むコンピュータ・システムの計算機タイプおよびモデルまたは通し番号を保管するための、計算機タイプ／モデル／通し番号フィールドである。フィールド５２４は、故障した装置を識別するのに使用されるリソース名を示す、リソース名フィールドである。リソース名の例には、「fan0」、「processor2」、および他の一般的な名前が含まれる。フィールド５２６は、コンピュータ・システムのホスト名を識別するホスト名フィールドである。フィールド５２８は、エラーがコンピュータ・システム内でログ記録された日付および時刻を示す日付および時刻フィールドである。フィールド５３０は、このエラー・イベントがサービスされたかどうかを識別するサービス済みフラグ・フィールドである。フィールド５３２は、追加のオペレーティング・システム固有情報を保管するための、オペレーティング・システム固有情報フィールドである。

図６は、本発明による、標準化されたフォーマットでエラー・イベント情報を報告する異なるオペレーティング・システムを示す高水準流れ図である。この処理は、ブロック６００によって示されているように開始され、その後、ブロック６０２に進むが、ブロック６０２には、エラー・イベントが論理区画の１つの中で発生することが示されている。次に、ブロック６０４に、論理区画から実行されつつあるオペレーティング・システムが、エラー・イベントを検出するか、それに関して通知されることが示されている。その後、ブロック６０６に、オペレーティング・システムが、その診断テストを実行して、エラー・イベントを評価することが示されている。この処理は、その後、ブロック６０８に進むが、ブロック６０８には、オペレーティング・システムが、標準化されたフォーマットで配置されたイベント・データを含むイベント・ログ・エントリを生成することが示されている。

次に、ブロック６１０に、オペレーティング・システムが、イベント・ログ・エントリをサービス・プログラムに転送することが示されている。ブロック６１２に、サービス・プログラムが、イベント・ログ・エントリが既にこの特定のエラー・イベントについてログ記録されているかどうかを判断することが示されている。イベント・ログ・エントリが既にログ記録されている場合には、カウンタを増分して、エラー・ログ・エントリがこの特定のエラー・イベントについて受け取られた回数を示す。エラー・イベント・ログ・エントリがまだログ記録されていない場合には、このイベント・ログ・エントリをログ記録する。この処理は、その後、ブロック６１４に示されているように終了する。

完全に機能するデータ処理システムに関して本発明を説明してきたが、本発明の処理を、命令のコンピュータ可読媒体の形およびさまざまな形で配布することができること、および本発明が、配布の実行に実際に使用される信号担持媒体の特定の種類に無関係に同等にあてはまることを、当業者なら理解するであろうことに留意することが重要である。コンピュータ可読媒体の例には、フロッピ（登録商標）・ディスク、ハード・ディスク、ＲＡＭ、およびＣＤ−ＲＯＭなどの記録可能型媒体と、ディジタル通信リンクおよびアナログ通信リンクなどの伝送型媒体が含まれる。コンピュータ可読媒体の例には、フロッピ・ディスク、ハード・ディスク、ＲＡＭ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭなどの記録可能型媒体と、ディジタル通信リンク、アナログ通信リンク、たとえばラジオ周波数伝送および光波伝送などの伝送形態を使用する有線または無線の通信リンクなどの伝送型媒体が含まれる。コンピュータ可読媒体は、特定のデータ処理システムでの実際の使用のためにデコードされる、コード化されたフォーマットの形をとることができる。

本発明の説明は、例示および説明のために提示されたものであって、網羅的であることまたは開示された形態だけに本発明を制限するものではない。多数の修正形態および変形形態が、当業者には明らかであろう。この実施形態は、本発明の原理および実用的応用例を最もよく説明し、企図される特定の用途に適するさまざまな修正を有するさまざまな実施形態のために当業者が本発明を理解できるようにするために、選択して述べた。

本発明を実施することができる分散データ処理システムの絵図である。本発明を実施することができるデータ処理システムのブロック図である。本発明を実施することができる例示的な論理分割されたプラットフォームのブロック図である。本発明による、図１および図２の論理分割されたマルチプロセッシング・サーバ・コンピュータ・システムおよびハードウェア・システム・コンソールのブロック図である。本発明による、異なるオペレーティング・システムがエラー・イベントを報告するのに使用することができる標準化されたフォーマットを示すブロック図である。本発明による、標準化されたフォーマットでエラー・イベント情報を報告する異なるオペレーティング・システムを示す高水準流れ図である。

Claims

複数の論理区画に論理分割することが可能なコンピュータ・システムであって、前記複数の論理区画それぞれが複数のオペレーティング・システムのうちの１つまたは複数のオペレーティング・システムを含む、コンピュータ・システムにおいて、前記複数の論理区画のうちの１つの論理区画にて発生するエラー・イベントを、当該論理区画に含まれる１つのオペレーティング・システムによって実行させられて、前記コンピュータ・システムの当該論理区画に対応する部分が報告する方法であって、
前記１つの論理区画の中で発生するエラー・イベントを検出するステップと、
診断テスト（診断ルーチン）を実行して、前記エラー・イベントを評価するステップであって、
前記エラー・イベントを検出するステップを実行させた前記オペレーティング・システムの種類およびその固有情報を識別するステップと、
前記診断テストの種類を識別するステップと、
前記エラー・イベントが発生した時に、前記１つのオペレーティング・システムが動作し、その下でカスタマ・アプリケーションが実行される「並列」診断モード、または、前記１つのオペレーティング・システムがユーザから使用不能である「サービス」診断モードの、いずれの診断モードであるのかを識別するステップと、
前記エラー・イベントが発生した日付および時刻を識別するステップと
前記エラー・イベントが発生したのが現場交換可能ユニット（ＦＲＵ）においてであるかどうかを判断するステップと、
前記判断するステップにおいて、現場交換可能ユニット（ＦＲＵ）においてであると判断した場合に、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別するステップと
を含む、ステップと、
評価された前記エラー・イベントを標準フォーマットにフォーマットするステップであって、前記標準フォーマットは、前記オペレーティング・システムの種類およびその固有情報を識別する前記ステップと、前記診断テストの種類を識別する前記ステップと、前記いずれの診断モードであるのかを識別する前記ステップと、前記日付および時刻を識別する前記ステップと、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別する前記ステップとからそれぞれ得られる情報を含むフォーマットである、ステップと、
前記フォーマットで配置された前記エラー・イベントに関する情報を含むイベント・ログ・エントリを生成するステップと、
前記エラー・イベントに関するイベント・ログ・エントリ（エラー・ログ・エントリ）が既にログ記録されているかどうかを判断するステップと、
前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが既にログ記録されていると判断した場合には、前記エラー・イベントに関するカウンタを増分して、前記エラー・イベントに関するイベント・ログ・エントリが受け取られた回数を更新するステップと、
前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが未だログ記録されていないと判断した場合には、前記転送された前記イベント・ログ・エントリをログ記録するステップと
を有する方法。
前記エラー・イベントを検出する前記ステップは、ハードウェア・エラー・イベントを検出するステップをさらに含む、請求項１に記載の方法。
前記エラー・イベントを検出する前記ステップは、前記１つのオペレーティング・システムによって実行させられる前記コンピュータ・システムの前記論理区画に対応する前記部分が、前記コンピュータ・システムに含まれる１つのサービス・プログラムによって実行させられる前記コンピュータ・システムのサービス部から、前記エラー・イベントがあったことの通知を受けるステップを含む、請求項１に記載の方法。
複数の異なるコンピュータ・システムであって、そのそれぞれが複数のオペレーティング・システムのうちの１つまたは複数のオペレーティング・システムを含む、コンピュータ・システムにおいて、前記複数のコンピュータ・システムのうちの１つのコンピュータ・システムにて発生するエラー・イベントを、当該１つのコンピュータ・システムに含まれる１つのオペレーティング・システムによって実行させられて、当該１つのコンピュータ・システムが報告する方法であって、
前記１つのコンピュータ・システムの中で発生するエラー・イベントを検出するステップと、
診断テスト（診断ルーチン）を実行して、前記エラー・イベントを評価するステップであって、
前記エラー・イベントを検出するステップを実行させた前記オペレーティング・システムの種類およびその固有情報を識別するステップと、
前記診断テストの種類を識別するステップと、
前記エラー・イベントが発生した時に、前記１つのオペレーティング・システムが動作し、その下でカスタマ・アプリケーションが実行される「並列」診断モード、または、前記１つのオペレーティング・システムがユーザから使用不能である「サービス」診断モードの、いずれの診断モードであるのかを識別するステップと、
前記エラー・イベントが発生した日付および時刻を識別するステップと
前記エラー・イベントが発生したのが現場交換可能ユニット（ＦＲＵ）においてであるかどうかを判断するステップと、
前記判断するステップにおいて、現場交換可能ユニット（ＦＲＵ）においてであると判断した場合に、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別するステップと
を含む、ステップと、
評価された前記エラー・イベントを標準フォーマットにフォーマットするステップであって、前記標準フォーマットは、前記オペレーティング・システムの種類およびその固有情報を識別する前記ステップと、前記診断テストの種類を識別する前記ステップと、前記いずれの診断モードであるのかを識別する前記ステップと、前記日付および時刻を識別する前記ステップと、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別する前記ステップとからそれぞれ得られる情報を含むフォーマットである、ステップと、
前記フォーマットで配置された前記エラー・イベントに関する情報を含むイベント・ログ・エントリを生成するステップと、
前記エラー・イベントに関するイベント・ログ・エントリ（エラー・ログ・エントリ）が既にログ記録されているかどうかを判断するステップと、
前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが既にログ記録されていると判断した場合には、前記エラー・イベントに関するカウンタを増分して、前記エラー・イベントに関するイベント・ログ・エントリが受け取られた回数を更新するステップと、
前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが未だログ記録されていないと判断した場合には、前記転送された前記イベント・ログ・エントリをログ記録するステップと
を有する方法。
前記エラー・イベントを検出する前記ステップは、ハードウェア・エラー・イベントを検出するステップをさらに含む、請求項４に記載の方法。
前記エラー・イベントを検出する前記ステップは、前記１つのオペレーティング・システムによって実行させられて、前記１つのコンピュータ・システムが、前記エラー・イベントがあったことの通知を受けるステップを含む、請求項４に記載の方法。
前記エラー・イベントを検出する前記ステップは、前記１つのオペレーティング・システムによって実行させられる前記１つのコンピュータ・システムが、複数の異なるコンピュータ・システムのいずれか１つのコンピュータ・システムに含まれる１つのサービス・プログラムによって実行させられる前記いずれか１つのコンピュータ・システムから、前記エラー・イベントがあったことの通知を受けるステップを含む、請求項４に記載の方法。
複数の論理区画に論理分割することが可能なコンピュータ・システムのそれぞれの論理区画に含まれ、当該論理区画にて発生するエラー・イベントを、前記コンピュータ・システムの当該論理区画に対応する部分に報告させるためのコンピュータ・プログラムであって、
前記１つの論理区画の中で発生するエラー・イベントを検出するステップと、
診断テスト（診断ルーチン）を実行して、前記エラー・イベントを評価するステップであって、
前記エラー・イベントを検出するステップを実行させた前記オペレーティング・システムの種類およびその固有情報を識別するステップと、
前記診断テストの種類を識別するステップと、
前記エラー・イベントが発生した時に、前記１つのオペレーティング・システムが動作し、その下でカスタマ・アプリケーションが実行される「並列」診断モード、または、前記１つのオペレーティング・システムがユーザから使用不能である「サービス」診断モードの、いずれの診断モードであるのかを識別するステップと、
前記エラー・イベントが発生した日付および時刻を識別するステップと
前記エラー・イベントが発生したのが現場交換可能ユニット（ＦＲＵ）においてであるかどうかを判断するステップと、
前記判断するステップにおいて、現場交換可能ユニット（ＦＲＵ）においてであると判断した場合に、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別するステップと
を含む、ステップと、
評価された前記エラー・イベントを標準フォーマットにフォーマットするステップであって、前記標準フォーマットは、前記オペレーティング・システムの種類およびその固有情報を識別する前記ステップと、前記診断テストの種類を識別する前記ステップと、前記いずれの診断モードであるのかを識別する前記ステップと、前記日付および時刻を識別する前記ステップと、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別する前記ステップとからそれぞれ得られる情報を含むフォーマットである、ステップと、
前記フォーマットで配置された前記エラー・イベントに関する情報を含むイベント・ログ・エントリを生成するステップと、
前記エラー・イベントに関するイベント・ログ・エントリ（エラー・ログ・エントリ）が既にログ記録されているかどうかを判断するステップと、
前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが既にログ記録されていると判断した場合には、前記エラー・イベントに関するカウンタを増分して、前記エラー・イベントに関するイベント・ログ・エントリが受け取られた回数を更新するステップと、
前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが未だログ記録されていないと判断した場合には、前記転送された前記イベント・ログ・エントリをログ記録するステップと
を実行させるためのコンピュータ・プログラム。
前記エラー・イベントを検出する前記ステップは、ハードウェア・エラー・イベントを検出するステップをさらに含む、請求項１に記載のオペレーティング・システム。
複数の異なるコンピュータ・システムのうちのそれぞれのコンピュータ・システムに含まれ、当該コンピュータ・システムにて発生するエラー・イベントを、当該コンピュータ・システムに報告させるためのコンピュータ・プログラムであって、
前記１つのコンピュータ・システムの中で発生するエラー・イベントを検出するステップと、
診断テスト（診断ルーチン）を実行して、前記エラー・イベントを評価するステップであって、
前記エラー・イベントを検出するステップを実行させた前記オペレーティング・システムの種類およびその固有情報を識別するステップと、
前記診断テストの種類を識別するステップと、
前記エラー・イベントが発生した時に、前記１つのオペレーティング・システムが動作し、その下でカスタマ・アプリケーションが実行される「並列」診断モード、または、前記１つのオペレーティング・システムがユーザから使用不能である「サービス」診断モードの、いずれの診断モードであるのかを識別するステップと、
前記エラー・イベントが発生した日付および時刻を識別するステップと
前記エラー・イベントが発生したのが現場交換可能ユニット（ＦＲＵ）においてであるかどうかを判断するステップと、
前記判断するステップにおいて、現場交換可能ユニット（ＦＲＵ）においてであると判断した場合に、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別するステップと
を含む、ステップと、
評価された前記エラー・イベントを標準フォーマットにフォーマットするステップであって、前記標準フォーマットは、前記オペレーティング・システムの種類およびその固有情報を識別する前記ステップと、前記診断テストの種類を識別する前記ステップと、前記いずれの診断モードであるのかを識別する前記ステップと、前記日付および時刻を識別する前記ステップと、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別する前記ステップとからそれぞれ得られる情報を含むフォーマットである、ステップと、
前記フォーマットで配置された前記エラー・イベントに関する情報を含むイベント・ログ・エントリを生成するステップと、
前記エラー・イベントに関するイベント・ログ・エントリ（エラー・ログ・エントリ）が既にログ記録されているかどうかを判断するステップと、
前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが既にログ記録されていると判断した場合には、前記エラー・イベントに関するカウンタを増分して、前記エラー・イベントに関するイベント・ログ・エントリが受け取られた回数を更新するステップと、
前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが未だログ記録されていないと判断した場合には、前記転送された前記イベント・ログ・エントリをログ記録するステップと
を実行させるためのコンピュータ・プログラム。