JP2006244522A - 論理分割されたマルチプロセッシング・システム内で発生するエラー・イベントを報告する標準化されたフォーマット - Google Patents

論理分割されたマルチプロセッシング・システム内で発生するエラー・イベントを報告する標準化されたフォーマット Download PDF

Info

Publication number
JP2006244522A
JP2006244522A JP2006126991A JP2006126991A JP2006244522A JP 2006244522 A JP2006244522 A JP 2006244522A JP 2006126991 A JP2006126991 A JP 2006126991A JP 2006126991 A JP2006126991 A JP 2006126991A JP 2006244522 A JP2006244522 A JP 2006244522A
Authority
JP
Japan
Prior art keywords
error event
identifying
event
error
operating system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006126991A
Other languages
English (en)
Inventor
George Henry Ahrens Jr
ジョージ・ヘンリー・アーレンズ・ジュニア
Douglas Marvin Benignus
ダグラス・マービン・ベニグナス
Leo C Mooney
レオ・シー・ムーニー
Arthur James Tysor
アーサー・ジェームズ・タイソー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2006244522A publication Critical patent/JP2006244522A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】 コンピュータ・システム内で発生するエラー・イベントを報告する、コンピュータ・システム内の方法、システム、および製品を提供すること。
【解決手段】 コンピュータ・システムに、複数の論理区画が含まれる。論理区画のそれぞれに、複数の異なるオペレーティング・システムの異なる1つが含まれる。エラー・イベントを報告するフォーマットが指定される。論理区画の1つの中で発生するエラー・イベントが検出される。エラー・イベントに関する情報が、指定されたフォーマットに従ってフォーマットされる。各オペレーティング・システムは、このフォーマットを使用して、エラー・イベントを報告する。
【選択図】 図6

Description

本発明は、全般的にはデータ処理システムに関し、具体的には、論理分割されたマルチプロセッシング・システムに関する。さらに具体的には、本発明は、論理分割されたマルチプロセッシング・システム内に含まれる複数の異なるオペレーティング・システム内で発生するエラー・イベントを報告するための標準化されたフォーマットに関する。
論理分割は、単一のマルチプロセッシング・システムを、複数の独立のシステムであるかのように稼動させる能力である。各論理区画は、システム内のリソースの分割を表し、独立の論理システムとして動作する。各区画が論理区画であるのは、リソースの分割を、物理的または仮想とすることができるからである。論理区画の例が、それぞれがそれ自体のプロセッサ、主記憶、および入出力装置を有する複数の独立のサーバへのマルチプロセッサ・コンピュータ・システムの分割である。AIX、LINUX、または他のシステムなどの複数の異なるオペレーティング・システムの1つを、各区画内で稼動させることができる。
論理分割された(LPAR)マルチプロセッシング・システムには、割り当てられたまたは所有する区画のオペレーティング・システムにのみ報告されるクラスのエラー(ローカル)がある。単一の区画のオペレーティング・システムだけに割り当てられた入出力アダプタの障害が、これの1例である。潜在的に各区画の動作に影響する可能性があるので、各区画のオペレーティング・システムに報告される、もう1つのクラスのエラー(グローバル)もある。このタイプの例が、電源、ファン、メモリ、およびプロセッサの障害である。
サービス可能なイベントが、論理区画の1つの中で発生するか、その区画のオペレーティング・システムに報告される時に、その論理区画によって実行されるオペレーティング・システムが、診断ルーチンを実行して、そのイベントに関する情報を収集する。
各オペレーティング・システムは、異なる診断機能およびエラー・イベントを報告するための異なるフォーマットを有する可能性が高い。論理分割を有し、したがって、異なるオペレーティング・システムをサポートするシステムでは、エラー・イベントが、さまざまな異なるフォーマットで報告されることになる。これは、サービス専門家の混乱を引き起こすことによって、エラーの修理のために呼び出されたサービス専門家にとっての問題を引き起こす可能性がある。
そこで本発明は、論理分割されたマルチプロセッシング・システムによって実行されることができる複数の異なるオペレーティング・システムのどれであれ、それによるエラー・イベントの報告の標準化されたフォーマットを提供する方法、システム、および製品を提供することをその主たる目的とする。
コンピュータ・システム内で発生するエラー・イベントを報告する、コンピュータ・システム内の方法、システム、および製品を説明する。コンピュータ・システムに、複数の論理区画が含まれる。論理区画のそれぞれに、複数の異なるオペレーティング・システムの異なる1つを含めることができる。エラー・イベントを報告するフォーマットが指定される。論理区画の1つの中で発生するエラー・イベントが検出される。エラー・イベントに関する情報が、指定されたフォーマットに従ってフォーマットされる。各オペレーティング・システムは、このフォーマットを使用して、エラー・イベントを報告する。
上記ならびに追加の本発明の目的、特徴、および長所は、以下の詳細に記述された説明で明白になる。
本発明に特有と思われる新規の特徴を、添付の請求項に示す。しかし、本発明自体、ならびに本発明の好ましい形態、さらなる目的、および長所は、以下の例示的実施形態の詳細な説明を添付図面と共に併せ読めば最もよく理解されよう。
本発明の好ましい実施形態およびその長所は、図面を参照することによってよりよく理解されるが、図面では、類似する符号が、添付図面の類似し対応する部分に使用される。
本発明は、IBM AIXオペレーティング・システムが稼動するIBM RS/6000サーバなどの周知のコンピューティング・プラットフォームを使用して実現されることが好ましい。しかし、本発明は、本発明の趣旨および範囲から逸脱せずに、Microsoft Windows(R)オペレーティング・システムが稼動するIBMパーソナル・コンピュータもしくはUNIX(R)またはLINUXなどのオペレーティング・システムが稼動するSun Microsystems社のワークステーションなど、他の一般的なコンピュータ・システム・プラットフォームで実現することができる。
本発明は、コンピュータ・システム内で発生するエラー・イベントを報告するための標準化されたフォーマットを提供する方法、システム、および製品である。コンピュータ・システムに、複数の論理区画が含まれる。論理区画のそれぞれに、複数の異なるオペレーティング・システムの異なる1つを含めることができる。
標準化されたフォーマットは、これらの異なるオペレーティング・システムのそれぞれによって、エラー・イベントの報告に使用される。この形で、同一のタイプのデータが、各異なるオペレーティング・システムによって一貫性のある形で報告される。
エラー・イベント・ログ・エントリが、エラー・イベントごとにオペレーティング・システムによって作成される。各エラー・イベント・ログ・エントリには、エラーを報告しているオペレーティング・システムの識別、診断フォーマット、診断モード、エラー・コード、シーケンス番号、エラー・タイムスタンプ、説明テキスト、ロケーション・コード、現場交換可能ユニット部品番号、区画識別子、計算機タイプ、リソース名、ホスト名、日付および時刻、サービス済みフラグ、およびオペレーティング・システム固有の情報を含めることができる。エラー・イベントごとに収集されるこの情報を、下で詳細に説明する。
図面、具体的には図1を参照すると、本発明を実施することができる分散データ処理システムの絵図が示されている。
分散データ処理システム100は、本発明を実施することができるコンピュータのネットワークである。分散データ処理システム100には、ネットワーク102が含まれ、ネットワーク102は、分散データ処理システム100内で接続されたさまざまな装置およびコンピュータの間の通信リンクを提供するのに使用される媒体である。ネットワーク102には、ワイヤまたは光ファイバ・ケーブルなどの永久的接続または電話接続を介して行われる一時的接続を含めることができる。
図示の例では、サーバ104が、ハードウェア・システム・コンソール150に接続される。サーバ104は、記憶装置106と共に、ネットワーク102にも接続される。さらに、クライアント108、110、および112も、ネットワーク102に接続される。これらのクライアント108、110、および112は、たとえば、パーソナル・コンピュータまたはネットワーク・コンピュータとすることができる。本明細書において、ネットワーク・コンピュータとは、ネットワークに結合された別のコンピュータからプログラムまたは他のアプリケーションを受け取る、ネットワークに結合されたコンピュータである。図示の例では、サーバ104が、論理分割されたプラットフォームであり、ブート・ファイル、オペレーティング・システム・イメージ、およびアプリケーションなどのデータを、クライアント108、112に供給する。ハードウェア・システム・コンソール150は、ラップトップ・コンピュータとすることができ、サーバ104で稼動するオペレーティング・システム・イメージのそれぞれからのメッセージを操作員に表示するのに使用され、操作員から受け取った入力情報をサーバ104に送信するのに使用される。クライアント108、110、および112は、サーバ104に対するクライアントである。分散データ処理システム100には、図示されていない、追加のサーバ、クライアント、および他の装置を含めることができる。分散データ処理システム100には、プリンタ114、116、および118も含まれる。クライアント110などのクライアントが、プリンタ114に直接に印刷することができる。クライアント108およびクライアント112などのクライアントは、直接に接続されたプリンタを有しない。これらのクライアントは、サーバ104に接続されたプリンタ116、または、文書を印刷するためにコンピュータへの直接接続を必要としないネットワーク・プリンタであるプリンタ118に印刷することができる。クライアント110は、その代わりに、プリンタのタイプおよび文書要件に応じて、プリンタ116またはプリンタ118に印刷することができる。
図示の例では、分散データ処理システム100が、インターネットであり、ネットワーク102が、互いに通信するのにTCP/IPプロトコル・スイートを使用するネットワークおよびゲートウェイの全世界の集合を表す。インターネットの中心部には、データおよびメッセージをルーティングする、数千台の商用、政府、教育機関、および他のコンピュータ・システムからなる主要なノードまたはホスト・コンピュータの間の高速データ通信回線のバックボーンがある。もちろん、分散データ処理システム100は、たとえばイントラネットまたはローカル・エリア・ネットワークなどの複数の異なるタイプのネットワークとして実施することもできる。
図1は、本発明の処理に関するアーキテクチャ的制限としてではなく、例として意図されている。
図2を参照すると、本発明を実施することができる、図1のサーバ104などの、論理分割されたサーバとして実施することができるデータ処理システムのブロック図が示されている。データ処理システム200は、システム・バス206に接続された複数のプロセッサ201、202、203、および204を含む対称マルチプロセッサ(SMP)システムとすることができる。たとえば、データ処理システム200は、ネットワーク内のサーバとして実施された、米国ニューヨーク州アーモンクのInternational Business Machines Corporation社の製品であるIBM RS/6000とすることができる。その代わりに、単一プロセッサ・システムを使用することができる。システム・バス206には、メモリ・コントローラ/キャッシュ208も接続され、このメモリ・コントローラ/キャッシュ208が、複数のローカル・メモリ260ないし263へのインターフェースを提供する。入出力バス・ブリッジ210が、システム・バス206に接続され、入出力バス212へのインターフェースを提供する。メモリ・コントローラ/キャッシュ208および入出力バス・ブリッジ210を、図示のように統合することができる。
データ処理システム200は、論理分割されたデータ処理システムである。したがって、データ処理システム200は、複数の異種オペレーティング・システム(または単一のオペレーティング・システムの複数のインスタンス)を同時に稼動させることができる。これらの複数のオペレーティング・システムのそれぞれが、任意の個数のソフトウェア・プログラムをその中で実行させることができる。データ処理システム200は、異なる入出力アダプタ220、221、228、229、236、248、および249を異なる論理区画に割り当てることができるように論理分割される。
したがって、たとえば、データ処理システム200が、3つの論理区画P1、P2、およびP3に分割されると想定されたい。入出力アダプタ220、221、228、229、236、248、および249のそれぞれと、プロセッサ201ないし204のそれぞれと、ローカル・メモリ260ないし263のそれぞれが、3つの区画の1つに割り当てられる。たとえば、プロセッサ201と、ローカル・メモリ260と、入出力アダプタ220、228および229を、論理区画P1に割り当てることができ、プロセッサ202および203と、メモリ261と、入出力アダプタ221および236を、区画P2に割り当てることができ、プロセッサ204と、ローカル・メモリ262および263と、入出力アダプタ248および249を、論理区画P3に割り当てることができる。
データ処理システム200内で実行される各オペレーティング・システムは、異なる論理区画に割り当てられる。したがって、データ処理システム200内で実行される各オペレーティング・システムは、その論理区画内にある入出力ユニットだけにアクセスすることができる。したがって、たとえば、拡張対話式エグゼクティブ(AIX)オペレーティング・システムの1つのインスタンスを、区画P1内で実行されているものとすることができ、AIXオペレーティング・システムの第2のインスタンス(イメージ)を、区画P2内で実行されているものとすることができ、Windows(R)(登録商標) 2000オペレーティング・システムを、論理区画P3内で動作しているものとすることができる。Windows(R)(登録商標) 2000は、米国ワシントン州レッドモンドのMicrosoft Corporation社の製品であり、商標である。
入出力バス212に接続されたPCI(peripheral component interconnect)ホスト・ブリッジ214が、PCIローカル・バス215へのインターフェースを提供する。複数の入出力アダプタ220および221を、PCIバス215に接続することができる。通常のPCIバス実施態様では、4つと8つの間の入出力アダプタ(すなわち、アドイン・コネクタ用の拡張スロット)がサポートされる。各入出力アダプタ220および221は、データ処理システム200と、たとえば、データ処理システム200に対するクライアントである他のネットワーク・コンピュータなどの入出力デバイスの間のインターフェースを提供する。
追加のPCIホスト・ブリッジ222によって、追加のPCIバス223のインターフェースが提供される。PCIバス223は、PCIバス226および227によって複数の入出力アダプタ228および229に接続される。したがって、たとえば、モデムまたはネットワーク・アダプタなどの追加の入出力装置を、入出力アダプタ228および229のそれぞれを介してサポートすることができる。この形で、データ処理システム200を、複数のネットワーク・コンピュータに接続できるようになる。
メモリ・マップ・グラフィックス・アダプタである入出力アダプタ248を、図示のように、PCIホスト・ブリッジ240およびブリッジ・チップ242を介し、PCIバス241および244を介して、入出力バス212に接続することができる。また、ハード・ディスク250も、図示のように、PCIホスト・ブリッジ240およびEADS242を介し、PCIバス241および245を介して、入出力バス212に接続することができる。
PCIホスト・ブリッジ230は、PCIバス231を入出力バス212に接続するインターフェースを提供する。PCIバス231は、PCIホスト・ブリッジ230を、サービス・プロセッサ・メールボックス・インターフェースおよびISAバス・アクセス・パススルー論理294およびEADS232に接続する。サービス・プロセッサ・メールボックス・インターフェースおよびISAバス・アクセス・パススルー論理294は、PCI/ISAブリッジ293に宛てられたPCIアクセスを転送する。NV−RAMストレージが、ISAバス296に接続される。サービス・プロセッサ235は、そのローカルPCIバス295を介してサービス・プロセッサ・メールボックス・インターフェースおよびISAバス・アクセス・パススルー論理294に結合される。サービス・プロセッサ235は、複数のJTAG/I2Cバス234を介してプロセッサ201ないし204にも接続される。JTAG/I2Cバス234は、JTAG/scanバス(IEEE 1149.1を参照されたい)とPhillips I2Cバスの組合せである。しかし、その代わりに、JTAG/I2Cバス234を、Phillips I2CバスのみまたはJTAG/scanバスのみによって置換することができる。プロセッサ201、202、203、および204のすべてのSP−ATTN信号が、一緒に、サービス・プロセッサの割込み入力信号に接続される。サービス・プロセッサ235は、それ自体のローカル・メモリ291を有し、ハードウェア・オペレータ・パネル290へのアクセスを有する。
データ処理システム200が、最初に電源投入される時に、サービス・プロセッサ235が、JTAG/I2Cバス234を使用して、システム(ホスト)プロセッサであるプロセッサ201ないし204、メモリ・コントローラ208、および入出力ブリッジ210に問い合わせる。このステップの完了時に、サービス・プロセッサ235が、データ処理システム200のインベントリおよびトポロジの理解を有する。サービス・プロセッサ235は、システム・プロセッサ201ないし204、メモリ・コントローラ208、および入出力ブリッジ210に問い合わせることによって見つかったすべての要素に対して、組込み自己試験(BIST)、基本検証テスト(BAT)、およびメモリ・テストも実行する。BIST、BAT、およびメモリ・テスト中に検出された障害に関するエラー情報のすべてが、サービス・プロセッサ235によって集められ、報告される。
BIST、BAT、およびメモリ・テスト中に故障していることがわかった要素を除外した後に、システム・リソースの意味のある/有効な構成がまだ可能である場合には、データ処理システム200が、ローカル(ホスト)・メモリ260ないし263への実行可能コードのロードに移ることが許可される。サービス・プロセッサ235は、その後、ホスト・メモリ260ないし263にロードされたコードの実行のためにホスト・プロセッサ201ないし204を解放する。ホスト・プロセッサ201ないし204が、データ処理システム200内のそれぞれのオペレーティング・システムからのコードを実行している間に、サービス・プロセッサ235は、エラーの監視および報告のモードに入る。サービス・プロセッサによって監視されるタイプの項目には、たとえば、冷却ファンの速度および動作と、温度センサと、電源レギュレータと、プロセッサ201ないし204、メモリ260ないし263、およびバス・ブリッジ・コントローラ210によって報告される回復可能エラーおよび回復不能エラーが含まれる。
サービス・プロセッサ235は、データ処理システム200内の監視されるすべての項目に関するエラー情報を保管し、報告する責任を負う。サービス・プロセッサ235は、エラーのタイプおよび定義された閾値に基づいて処置も講じる。たとえば、サービス・プロセッサ235は、プロセッサのキャッシュ・メモリでの過剰な回復可能エラーに注目し、これがハード障害の前兆であると判断することができる。この判定に基づいて、サービス・プロセッサ235は、現在稼働中のセッションおよび将来の初期プログラム・ロード(IPL)中の構成解除に関してそのリソースをマークすることができる。IPLは、「ブート」、または「ブートストラップ」と呼ばれる場合もある。
当業者は、図2に示されたハードウェアを変更できることを理解するであろう。たとえば、光ディスク・ドライブおよび類似物などの他の周辺デバイスも、図示のハードウェアに加えてまたはその代わりに使用することができる。図示の例は、本発明に関するアーキテクチャ上の制限を暗示するものではない。
次に図3を参照すると、本発明を実施することができる例示的な論理分割されたプラットフォームのブロック図が示されている。論理分割されたプラットフォーム300のハードウェアは、たとえば、図2のデータ処理システム200として実施することができる。論理分割されたプラットフォーム300には、分割されたハードウェア330、オープン・ファームウェア310、およびオペレーティング・システム302ないし308が含まれる。オペレーティング・システム302ないし308は、論理分割されたプラットフォーム300上で同時に稼動する、単一のオペレーティング・システムの複数のコピーまたは複数の異種オペレーティング・システムとすることができる。
分割されたハードウェア330には、複数のプロセッサ332ないし338、複数のシステム・メモリ・ユニット340ないし346、複数の入出力アダプタ348ないし362、および記憶装置370が含まれる。プロセッサ342ないし348、メモリ・ユニット340ないし346、および入出力アダプタ348ないし362のそれぞれを、論理分割されたプラットフォーム300内の、それぞれがオペレーティング・システム302ないし308の1つに対応する複数の区画の1つに割り当てることができる。NV−RAMは、区画のそれぞれの間で分割され、1特定の区画には割り当てられない。
オープン・ファームウェア310は、オペレーティング・システム302ないし308の複数の機能およびサービスを実行して、論理分割されたプラットフォーム300の分割を作成し、実施する。ファームウェアとは、たとえば読取専用メモリ(ROM)、プログラマブルROM(PROM)、消去プログラマブルROM(EPROM)、電気消去可能プログラマブルROM(EEPROM)、および不揮発性ランダム・アクセス・メモリ(不揮発性RAM)などの、電力なしで内容を保持するメモリ・チップに保管された「ソフトウェア」である。
OF310は、複数の論理区画内で稼動するオペレーティング・システム302ないし308のイメージのそれぞれに、コンソールおよびオペレータ・パネルの仮想コピーを提供する。コンソールへのインターフェースは、従来技術の非同期テレタイプ・ポート・デバイス・ドライバから、ポート・デバイス・ドライバをエミュレートするオープン・ファームウェア呼出しの組に変更される。OF310は、さまざまなOSイメージからのデータを、ハードウェア・システム・コンソールと称するコンピュータ380に転送されるメッセージ・ストリームにカプセル化する。
OF310には、システム・ブート・ファームウェアが含まれる。プロセッサ332ないし338のそれぞれに設計済み命令として組み込まれた機構を用いて、OF310をいつでも実行できるようになる。したがって、システム・チェックポイントを、ハードウェア・システム・コンソール380のオペレータ・パネル・ウィンドウに即座に表示することができ、また、不揮発性ランダム・アクセス・メモリ(NV−RAM)に即座にログ記録することができ、これは、これらの装置への入出力経路が、プログラム式入出力(PIO)アクセスを受け入れるように構成される前であっても可能である。
ハードウェア・システム・コンソール380は、図3に示されているように論理分割されたプラットフォーム300に直接に接続されるか、たとえば図1のネットワーク102などのネットワークを介して論理分割されたプラットフォームに接続することができる。ハードウェア・システム・コンソール380は、たとえば、デスクトップ・コンピュータまたはラップトップ・コンピュータとすることができる。ハードウェア・システム・コンソール380は、メッセージ・ストリームをデコードし、さまざまなオペレーティング・システム302ないし308のイメージからの情報を、OSイメージごとに少なくとも1つの別々のウィンドウに表示する。同様に、操作員からのキーボード入力情報は、ハードウェア・システム・コンソールによってパッケージ化され、論理分割されたプラットフォーム300に送られ、論理分割されたプラットフォーム300で、デコードされ、ハードウェア・システム・コンソール380上のアクティブ・ウィンドウに関連する、OF310によってエミュレートされるポート・デバイス・ドライバを介して適当なOSイメージに送達される。
図4は、本発明による、図1および図2の論理分割されたマルチプロセッシング・サーバ・コンピュータ・システムおよびハードウェア・システム・コンソールのブロック図である。
サーバ104には、複数のオペレーティング・システム(OS)の区画402、404、406、および408が含まれる。これらの区画は、入出力装置と、電源、冷却供給、ファン、メモリ、およびプロセッサとすることができるベース・ハードウェアから入力を受け取る。AIXまたはLINUXなどの複数の異なるオペレーティング・システムの任意の1つを、任意の区画で稼働中にすることができる。たとえば、AIXが、区画402および406に図示されており、LINUXが、区画404および408に図示されている。4つのオペレーティング・システム区画が図示されているが、さまざまな異なるオペレーティング・システムのいずれかを有する任意の数の区画を使用することができる。
各区画に、エラー・ログおよびマネージャが含まれる。エラーが区画内で発生する時に、そのエラーが、その区画のエラー・ログにログ記録される。マネージャは、エラー情報を標準フォーマットにフォーマットし、エラー情報を、エラー・イベント・ログ・エントリの形でハードウェア・システム・コンソール380に転送する。たとえば、区画402に、エラー・ログ410およびマネージャ412が含まれ、区画404に、エラー・ログ414およびマネージャ416が含まれ、区画406に、エラー・ログ418およびマネージャ420が含まれ、区画408に、エラー・ログ422およびマネージャ424が含まれる。
図5は、本発明による、異なるオペレーティング・システムがエラー・イベントを報告するのに使用することができる標準化されたフォーマット500を示すブロック図である。フォーマット500には、複数のフィールド502ないし532が含まれる。フィールド502は、どのオペレーティング・システムが論理区画によって実行されつつあり、エラーを報告しているかを識別する、オペレーティング・システム識別子フィールドである。フィールド504は、オペレーティング・システムによって実行される診断ルーチンの種類を識別する診断フォーマット・フィールドである。フィールド506は、「concurrent(並列)」を示すことによって、エラーが発生した時にオペレーティング・システムが動作しており、カスタマ・アプリケーションを実行していたか、「service(サービス)」を示すことによって、その時にオペレーティング・システムがユーザから使用不能であったかを示す診断モード・フィールドである。フィールド508は、オペレーティング・システムが診断ルーチンを実行した時に判断された特定のエラー・コードを示すエラー・コード・フィールドである。エラー・コードによって、故障した現場交換可能ユニット(FRU)が識別される。フィールド510は、エラー情報がエラー・ログから得られたかどうかを示すシーケンス番号フィールドである。フィールド512は、エラーが発生した日付および時刻を示すエラー・タイムスタンプ・フィールドである。フィールド514は、テキストによる説明を保管する説明テキスト・フィールドである。フィールド516は、故障したFRUの物理位置を示すロケーション・コード・フィールドである。フィールド518は、コンピュータ・システム内の、交換されなければならない特定のユニットの部品番号または通し番号を保管するための、現場交換可能ユニット部品番号フィールドである。フィールド520は、区画を識別するための、区画識別子および区画名フィールドである。フィールド522は、エラー・イベントを生成した区画を含むコンピュータ・システムの計算機タイプおよびモデルまたは通し番号を保管するための、計算機タイプ/モデル/通し番号フィールドである。フィールド524は、故障した装置を識別するのに使用されるリソース名を示す、リソース名フィールドである。リソース名の例には、「fan0」、「processor2」、および他の一般的な名前が含まれる。フィールド526は、コンピュータ・システムのホスト名を識別するホスト名フィールドである。フィールド528は、エラーがコンピュータ・システム内でログ記録された日付および時刻を示す日付および時刻フィールドである。フィールド530は、このエラー・イベントがサービスされたかどうかを識別するサービス済みフラグ・フィールドである。フィールド532は、追加のオペレーティング・システム固有情報を保管するための、オペレーティング・システム固有情報フィールドである。
図6は、本発明による、標準化されたフォーマットでエラー・イベント情報を報告する異なるオペレーティング・システムを示す高水準流れ図である。この処理は、ブロック600によって示されているように開始され、その後、ブロック602に進むが、ブロック602には、エラー・イベントが論理区画の1つの中で発生することが示されている。次に、ブロック604に、論理区画から実行されつつあるオペレーティング・システムが、エラー・イベントを検出するか、それに関して通知されることが示されている。その後、ブロック606に、オペレーティング・システムが、その診断テストを実行して、エラー・イベントを評価することが示されている。この処理は、その後、ブロック608に進むが、ブロック608には、オペレーティング・システムが、標準化されたフォーマットで配置されたイベント・データを含むイベント・ログ・エントリを生成することが示されている。
次に、ブロック610に、オペレーティング・システムが、イベント・ログ・エントリをサービス・プログラムに転送することが示されている。ブロック612に、サービス・プログラムが、イベント・ログ・エントリが既にこの特定のエラー・イベントについてログ記録されているかどうかを判断することが示されている。イベント・ログ・エントリが既にログ記録されている場合には、カウンタを増分して、エラー・ログ・エントリがこの特定のエラー・イベントについて受け取られた回数を示す。エラー・イベント・ログ・エントリがまだログ記録されていない場合には、このイベント・ログ・エントリをログ記録する。この処理は、その後、ブロック614に示されているように終了する。
完全に機能するデータ処理システムに関して本発明を説明してきたが、本発明の処理を、命令のコンピュータ可読媒体の形およびさまざまな形で配布することができること、および本発明が、配布の実行に実際に使用される信号担持媒体の特定の種類に無関係に同等にあてはまることを、当業者なら理解するであろうことに留意することが重要である。コンピュータ可読媒体の例には、フロッピ(登録商標)・ディスク、ハード・ディスク、RAM、およびCD−ROMなどの記録可能型媒体と、ディジタル通信リンクおよびアナログ通信リンクなどの伝送型媒体が含まれる。コンピュータ可読媒体の例には、フロッピ・ディスク、ハード・ディスク、RAM、CD−ROM、DVD−ROMなどの記録可能型媒体と、ディジタル通信リンク、アナログ通信リンク、たとえばラジオ周波数伝送および光波伝送などの伝送形態を使用する有線または無線の通信リンクなどの伝送型媒体が含まれる。コンピュータ可読媒体は、特定のデータ処理システムでの実際の使用のためにデコードされる、コード化されたフォーマットの形をとることができる。
本発明の説明は、例示および説明のために提示されたものであって、網羅的であることまたは開示された形態だけに本発明を制限するものではない。多数の修正形態および変形形態が、当業者には明らかであろう。この実施形態は、本発明の原理および実用的応用例を最もよく説明し、企図される特定の用途に適するさまざまな修正を有するさまざまな実施形態のために当業者が本発明を理解できるようにするために、選択して述べた。
本発明を実施することができる分散データ処理システムの絵図である。 本発明を実施することができるデータ処理システムのブロック図である。 本発明を実施することができる例示的な論理分割されたプラットフォームのブロック図である。 本発明による、図1および図2の論理分割されたマルチプロセッシング・サーバ・コンピュータ・システムおよびハードウェア・システム・コンソールのブロック図である。 本発明による、異なるオペレーティング・システムがエラー・イベントを報告するのに使用することができる標準化されたフォーマットを示すブロック図である。 本発明による、標準化されたフォーマットでエラー・イベント情報を報告する異なるオペレーティング・システムを示す高水準流れ図である。

Claims (9)

  1. 複数の論理区画に論理分割することが可能なコンピュータ・システムであって、前記複数の論理区画それぞれが複数のオペレーティング・システムのうちの1つまたは複数のオペレーティング・システムを含む、コンピュータ・システムにおいて、前記複数の論理区画のうちの1つの論理区画にて発生するエラー・イベントを、当該論理区画に含まれる1つのオペレーティング・システムによって実行させられて、前記コンピュータ・システムの当該論理区画に対応する部分が報告する方法であって、
    前記1つの論理区画の中で発生するエラー・イベントを検出するステップと、
    診断テスト(診断ルーチン)を実行して、前記エラー・イベントを評価するステップであって、
    前記エラー・イベントを検出するステップを実行させた前記オペレーティング・システムの種類およびその固有情報を識別するステップと、
    前記診断テストの種類を識別するステップと、
    前記エラー・イベントが発生した時に、前記1つのオペレーティング・システムが動作し、その下でカスタマ・アプリケーションが実行される「並列」診断モード、または、前記1つのオペレーティング・システムがユーザから使用不能である「サービス」診断モードの、いずれの診断モードであるのかを識別するステップと、
    前記エラー・イベントが発生した日付および時刻を識別するステップと
    前記エラー・イベントが発生したのが現場交換可能ユニット(FRU)においてであるかどうかを判断するステップと、
    前記判断するステップにおいて、現場交換可能ユニット(FRU)においてであると判断した場合に、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別するステップと
    を含む、ステップと、
    評価された前記エラー・イベントを標準フォーマットにフォーマットするステップであって、前記標準フォーマットは、前記オペレーティング・システムの種類およびその固有情報を識別する前記ステップと、前記診断テストの種類を識別する前記ステップと、前記いずれの診断モードであるのかを識別する前記ステップと、前記日付および時刻を識別する前記ステップと、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別する前記ステップとからそれぞれ得られる情報を含むフォーマットである、ステップと、
    前記フォーマットで配置された前記エラー・イベントに関する情報を含むイベント・ログ・エントリを生成するステップと、
    前記エラー・イベントに関するイベント・ログ・エントリ(エラー・ログ・エントリ)が既にログ記録されているかどうかを判断するステップと、
    前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが既にログ記録されていると判断した場合には、前記エラー・イベントに関するカウンタを増分して、前記エラー・イベントに関するイベント・ログ・エントリが受け取られた回数を更新するステップと、
    前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが未だログ記録されていないと判断した場合には、前記転送された前記イベント・ログ・エントリをログ記録するステップと
    を有する方法。
  2. 前記エラー・イベントを検出する前記ステップは、ハードウェア・エラー・イベントを検出するステップをさらに含む、請求項1に記載の方法。
  3. 前記エラー・イベントを検出する前記ステップは、前記1つのオペレーティング・システムによって実行させられる前記コンピュータ・システムの前記論理区画に対応する前記部分が、前記コンピュータ・システムに含まれる1つのサービス・プログラムによって実行させられる前記コンピュータ・システムのサービス部から、前記エラー・イベントがあったことの通知を受けるステップを含む、請求項1に記載の方法。
  4. 複数の異なるコンピュータ・システムであって、そのそれぞれが複数のオペレーティング・システムのうちの1つまたは複数のオペレーティング・システムを含む、コンピュータ・システムにおいて、前記複数のコンピュータ・システムのうちの1つのコンピュータ・システムにて発生するエラー・イベントを、当該1つのコンピュータ・システムに含まれる1つのオペレーティング・システムによって実行させられて、当該1つのコンピュータ・システムが報告する方法であって、
    前記1つのコンピュータ・システムの中で発生するエラー・イベントを検出するステップと、
    診断テスト(診断ルーチン)を実行して、前記エラー・イベントを評価するステップであって、
    前記エラー・イベントを検出するステップを実行させた前記オペレーティング・システムの種類およびその固有情報を識別するステップと、
    前記診断テストの種類を識別するステップと、
    前記エラー・イベントが発生した時に、前記1つのオペレーティング・システムが動作し、その下でカスタマ・アプリケーションが実行される「並列」診断モード、または、前記1つのオペレーティング・システムがユーザから使用不能である「サービス」診断モードの、いずれの診断モードであるのかを識別するステップと、
    前記エラー・イベントが発生した日付および時刻を識別するステップと
    前記エラー・イベントが発生したのが現場交換可能ユニット(FRU)においてであるかどうかを判断するステップと、
    前記判断するステップにおいて、現場交換可能ユニット(FRU)においてであると判断した場合に、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別するステップと
    を含む、ステップと、
    評価された前記エラー・イベントを標準フォーマットにフォーマットするステップであって、前記標準フォーマットは、前記オペレーティング・システムの種類およびその固有情報を識別する前記ステップと、前記診断テストの種類を識別する前記ステップと、前記いずれの診断モードであるのかを識別する前記ステップと、前記日付および時刻を識別する前記ステップと、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別する前記ステップとからそれぞれ得られる情報を含むフォーマットである、ステップと、
    前記フォーマットで配置された前記エラー・イベントに関する情報を含むイベント・ログ・エントリを生成するステップと、
    前記エラー・イベントに関するイベント・ログ・エントリ(エラー・ログ・エントリ)が既にログ記録されているかどうかを判断するステップと、
    前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが既にログ記録されていると判断した場合には、前記エラー・イベントに関するカウンタを増分して、前記エラー・イベントに関するイベント・ログ・エントリが受け取られた回数を更新するステップと、
    前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが未だログ記録されていないと判断した場合には、前記転送された前記イベント・ログ・エントリをログ記録するステップと
    を有する方法。
  5. 前記エラー・イベントを検出する前記ステップは、ハードウェア・エラー・イベントを検出するステップをさらに含む、請求項4に記載の方法。
  6. 前記エラー・イベントを検出する前記ステップは、前記1つのオペレーティング・システムによって実行させられて、前記1つのコンピュータ・システムが、前記エラー・イベントがあったことの通知を受けるステップを含む、請求項4に記載の方法。
    前記エラー・イベントを検出する前記ステップは、前記1つのオペレーティング・システムによって実行させられる前記1つのコンピュータ・システムが、複数の異なるコンピュータ・システムのいずれか1つのコンピュータ・システムに含まれる1つのサービス・プログラムによって実行させられる前記いずれか1つのコンピュータ・システムから、前記エラー・イベントがあったことの通知を受けるステップを含む、請求項4に記載の方法。
  7. 複数の論理区画に論理分割することが可能なコンピュータ・システムのそれぞれの論理区画に含まれ、当該論理区画にて発生するエラー・イベントを、前記コンピュータ・システムの当該論理区画に対応する部分に報告させるためのコンピュータ・プログラムであって、
    前記1つの論理区画の中で発生するエラー・イベントを検出するステップと、
    診断テスト(診断ルーチン)を実行して、前記エラー・イベントを評価するステップであって、
    前記エラー・イベントを検出するステップを実行させた前記オペレーティング・システムの種類およびその固有情報を識別するステップと、
    前記診断テストの種類を識別するステップと、
    前記エラー・イベントが発生した時に、前記1つのオペレーティング・システムが動作し、その下でカスタマ・アプリケーションが実行される「並列」診断モード、または、前記1つのオペレーティング・システムがユーザから使用不能である「サービス」診断モードの、いずれの診断モードであるのかを識別するステップと、
    前記エラー・イベントが発生した日付および時刻を識別するステップと
    前記エラー・イベントが発生したのが現場交換可能ユニット(FRU)においてであるかどうかを判断するステップと、
    前記判断するステップにおいて、現場交換可能ユニット(FRU)においてであると判断した場合に、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別するステップと
    を含む、ステップと、
    評価された前記エラー・イベントを標準フォーマットにフォーマットするステップであって、前記標準フォーマットは、前記オペレーティング・システムの種類およびその固有情報を識別する前記ステップと、前記診断テストの種類を識別する前記ステップと、前記いずれの診断モードであるのかを識別する前記ステップと、前記日付および時刻を識別する前記ステップと、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別する前記ステップとからそれぞれ得られる情報を含むフォーマットである、ステップと、
    前記フォーマットで配置された前記エラー・イベントに関する情報を含むイベント・ログ・エントリを生成するステップと、
    前記エラー・イベントに関するイベント・ログ・エントリ(エラー・ログ・エントリ)が既にログ記録されているかどうかを判断するステップと、
    前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが既にログ記録されていると判断した場合には、前記エラー・イベントに関するカウンタを増分して、前記エラー・イベントに関するイベント・ログ・エントリが受け取られた回数を更新するステップと、
    前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが未だログ記録されていないと判断した場合には、前記転送された前記イベント・ログ・エントリをログ記録するステップと
    を実行させるためのコンピュータ・プログラム。
  8. 前記エラー・イベントを検出する前記ステップは、ハードウェア・エラー・イベントを検出するステップをさらに含む、請求項1に記載のオペレーティング・システム。
  9. 複数の異なるコンピュータ・システムのうちのそれぞれのコンピュータ・システムに含まれ、当該コンピュータ・システムにて発生するエラー・イベントを、当該コンピュータ・システムに報告させるためのコンピュータ・プログラムであって、
    前記1つのコンピュータ・システムの中で発生するエラー・イベントを検出するステップと、
    診断テスト(診断ルーチン)を実行して、前記エラー・イベントを評価するステップであって、
    前記エラー・イベントを検出するステップを実行させた前記オペレーティング・システムの種類およびその固有情報を識別するステップと、
    前記診断テストの種類を識別するステップと、
    前記エラー・イベントが発生した時に、前記1つのオペレーティング・システムが動作し、その下でカスタマ・アプリケーションが実行される「並列」診断モード、または、前記1つのオペレーティング・システムがユーザから使用不能である「サービス」診断モードの、いずれの診断モードであるのかを識別するステップと、
    前記エラー・イベントが発生した日付および時刻を識別するステップと
    前記エラー・イベントが発生したのが現場交換可能ユニット(FRU)においてであるかどうかを判断するステップと、
    前記判断するステップにおいて、現場交換可能ユニット(FRU)においてであると判断した場合に、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別するステップと
    を含む、ステップと、
    評価された前記エラー・イベントを標準フォーマットにフォーマットするステップであって、前記標準フォーマットは、前記オペレーティング・システムの種類およびその固有情報を識別する前記ステップと、前記診断テストの種類を識別する前記ステップと、前記いずれの診断モードであるのかを識別する前記ステップと、前記日付および時刻を識別する前記ステップと、前記現場交換可能ユニットの種類、物理位置、および部品番号または通し番号を識別する前記ステップとからそれぞれ得られる情報を含むフォーマットである、ステップと、
    前記フォーマットで配置された前記エラー・イベントに関する情報を含むイベント・ログ・エントリを生成するステップと、
    前記エラー・イベントに関するイベント・ログ・エントリ(エラー・ログ・エントリ)が既にログ記録されているかどうかを判断するステップと、
    前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが既にログ記録されていると判断した場合には、前記エラー・イベントに関するカウンタを増分して、前記エラー・イベントに関するイベント・ログ・エントリが受け取られた回数を更新するステップと、
    前記判断するステップにおいて、前記エラー・イベントに関するイベント・ログ・エントリが未だログ記録されていないと判断した場合には、前記転送された前記イベント・ログ・エントリをログ記録するステップと
    を実行させるためのコンピュータ・プログラム。
JP2006126991A 2001-03-01 2006-04-28 論理分割されたマルチプロセッシング・システム内で発生するエラー・イベントを報告する標準化されたフォーマット Pending JP2006244522A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/798,184 US6792564B2 (en) 2001-03-01 2001-03-01 Standardized format for reporting error events occurring within logically partitioned multiprocessing systems

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002049080A Division JP2002312202A (ja) 2001-03-01 2002-02-26 論理分割されたマルチプロセッシング・システム内で発生するエラー・イベントを報告する標準化されたフォーマット

Publications (1)

Publication Number Publication Date
JP2006244522A true JP2006244522A (ja) 2006-09-14

Family

ID=25172738

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2002049080A Pending JP2002312202A (ja) 2001-03-01 2002-02-26 論理分割されたマルチプロセッシング・システム内で発生するエラー・イベントを報告する標準化されたフォーマット
JP2006126991A Pending JP2006244522A (ja) 2001-03-01 2006-04-28 論理分割されたマルチプロセッシング・システム内で発生するエラー・イベントを報告する標準化されたフォーマット

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2002049080A Pending JP2002312202A (ja) 2001-03-01 2002-02-26 論理分割されたマルチプロセッシング・システム内で発生するエラー・イベントを報告する標準化されたフォーマット

Country Status (4)

Country Link
US (1) US6792564B2 (ja)
JP (2) JP2002312202A (ja)
KR (1) KR100546972B1 (ja)
TW (1) TWI225194B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013137425A1 (ja) * 2012-03-16 2013-09-19 株式会社デンソー Ecuの異常を監視する回路

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7607572B2 (en) * 1999-03-19 2009-10-27 Bigfix, Inc. Formalizing, diffusing, and enforcing policy advisories and monitoring policy compliance in the management of networks
JP2002229806A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd 計算機システム
US6823482B2 (en) * 2001-03-08 2004-11-23 International Business Machines Corporation System and method for reporting platform errors in partitioned systems
US6751758B1 (en) * 2001-06-20 2004-06-15 Emc Corporation Method and system for handling errors in a data storage environment
US9231827B2 (en) 2001-11-09 2016-01-05 International Business Machines Corporation Formalizing, diffusing and enforcing policy advisories and monitoring policy compliance in the management of networks
FR2835629B1 (fr) * 2002-02-07 2005-01-28 Bull Sa Procede et systeme de gestion d'un journal personnel d'evenements propre a une activite d'exploitation executee sur un perimetre materiel de ressources informatiques et memoire mise en oeuvre dans ce systeme
US6901537B2 (en) * 2002-02-27 2005-05-31 International Business Machines Corporation Method and apparatus for preventing the propagation of input/output errors in a logical partitioned data processing system
US6920587B2 (en) * 2002-04-25 2005-07-19 International Business Machines Corporation Handling multiple operating system capabilities in a logical partition data processing system
US20030236766A1 (en) * 2002-05-14 2003-12-25 Zenon Fortuna Identifying occurrences of selected events in a system
JP3983138B2 (ja) * 2002-08-29 2007-09-26 富士通株式会社 障害情報収集プログラムおよび障害情報収集装置
JP4130615B2 (ja) * 2003-07-02 2008-08-06 株式会社日立製作所 ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ
US20040158834A1 (en) * 2003-02-06 2004-08-12 International Business Machines Corporation Apparatus and method for dynamically allocating resources of a dead logical partition
US7139940B2 (en) 2003-04-10 2006-11-21 International Business Machines Corporation Method and apparatus for reporting global errors on heterogeneous partitioned systems
US7313717B2 (en) * 2003-04-17 2007-12-25 Sun Microsystems, Inc. Error management
US7168002B2 (en) * 2003-04-25 2007-01-23 International Business Machines Corporation Preservation of error data on a diskless platform
US7360114B2 (en) * 2003-06-17 2008-04-15 International Business Machines Corporation Logging of exception data
US7500152B2 (en) * 2003-12-05 2009-03-03 Freescale Semiconductor, Inc. Apparatus and method for time ordering events in a system having multiple time domains
US7260752B2 (en) * 2004-02-19 2007-08-21 International Business Machines Corporation Method and apparatus for responding to critical abstracted platform events in a data processing system
US7509538B2 (en) * 2004-04-21 2009-03-24 Microsoft Corporation Systems and methods for automated classification and analysis of large volumes of test result data
US7072787B1 (en) * 2004-09-01 2006-07-04 Emc Corporation Method for analyzing data storage system test data
JP4652090B2 (ja) * 2005-03-15 2011-03-16 富士通株式会社 事象通知管理プログラム、事象通知管理装置及び事象通知管理方法
WO2006110140A1 (en) * 2005-04-08 2006-10-19 Hewlett-Packard Development Company, L.P. System and method of reporting error codes in an electronically controlled device
US7487408B2 (en) * 2005-04-29 2009-02-03 International Business Machines Corporation Deferring error reporting for a storage device to align with staffing levels at a service center
JP2007323142A (ja) * 2006-05-30 2007-12-13 Toshiba Corp 情報処理装置およびその制御方法
US7934121B2 (en) 2006-11-21 2011-04-26 Microsoft Corporation Transparent replacement of a system processor
US8473460B2 (en) * 2006-11-21 2013-06-25 Microsoft Corporation Driver model for replacing core system hardware
US20080172571A1 (en) * 2007-01-11 2008-07-17 International Business Machines Corporation Method and system for providing backup storage capacity in disk array systems
US8086906B2 (en) * 2007-02-15 2011-12-27 Microsoft Corporation Correlating hardware devices between local operating system and global management entity
US20080221834A1 (en) * 2007-03-09 2008-09-11 General Electric Company Method and system for enhanced fault detection workflow
US8032795B2 (en) * 2008-02-12 2011-10-04 International Business Machines Corporation Method, system and computer program product for diagnosing communications
JP5251385B2 (ja) * 2008-09-16 2013-07-31 富士通株式会社 イベント検出システム、イベント検出方法、およびプログラム
TWI369623B (en) * 2008-11-07 2012-08-01 Chunghwa Telecom Co Ltd Control system and protection method for integrated information security service
US8392761B2 (en) * 2010-03-31 2013-03-05 Hewlett-Packard Development Company, L.P. Memory checkpointing using a co-located processor and service processor
US8850177B2 (en) * 2011-07-08 2014-09-30 Openpeak Inc. System and method for validating components during a booting process
US20130152081A1 (en) * 2011-12-13 2013-06-13 International Business Machines Corporation Selectable event reporting for highly virtualized partitioned systems
US9430117B2 (en) * 2012-01-11 2016-08-30 International Business Machines Corporation Triggering window conditions using exception handling
US9438656B2 (en) 2012-01-11 2016-09-06 International Business Machines Corporation Triggering window conditions by streaming features of an operator graph
US20140122930A1 (en) * 2012-10-25 2014-05-01 International Business Machines Corporation Performing diagnostic tests in a data center
US9483249B2 (en) 2014-01-06 2016-11-01 Apple Inc. On-board applet migration
US9436455B2 (en) 2014-01-06 2016-09-06 Apple Inc. Logging operating system updates of a secure element of an electronic device
JP6403463B2 (ja) * 2014-07-07 2018-10-10 キヤノン株式会社 画像形成装置および画像形成装置の制御方法
US9934014B2 (en) 2014-08-22 2018-04-03 Apple Inc. Automatic purposed-application creation
WO2016151626A1 (ja) * 2015-03-24 2016-09-29 三菱電機株式会社 情報処理装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5021949A (en) * 1988-02-29 1991-06-04 International Business Machines Corporation Method and apparatus for linking an SNA host to a remote SNA host over a packet switched communications network
GB9027630D0 (en) * 1990-12-20 1991-02-13 Ibm Dump analysis in data processing systems
JPH06236337A (ja) * 1993-02-08 1994-08-23 Honda Motor Co Ltd コンピュータ・システムの管理方法
US5761739A (en) * 1993-06-08 1998-06-02 International Business Machines Corporation Methods and systems for creating a storage dump within a coupling facility of a multisystem enviroment
US5625804A (en) * 1995-04-17 1997-04-29 International Business Machines Corporation Data conversion in a multiprocessing system usable while maintaining system operations
EP0830611A4 (en) * 1995-06-02 2007-05-09 Cisco Systems Inc TELECONTROL OF COMPUTER PROGRAMS
US5682470A (en) * 1995-09-01 1997-10-28 International Business Machines Corporation Method and system for achieving collective consistency in detecting failures in a distributed computing system
US5724516A (en) * 1995-09-06 1998-03-03 International Business Machines Corporation System for dynamically creating and retrieving formatted dump data by setting value in dump object indicating that the dump agent is to generate formatted dump data
JPH11212826A (ja) * 1998-01-30 1999-08-06 Hitachi Ltd 障害情報出力方式及び装置
US6601190B1 (en) * 1999-10-28 2003-07-29 Hewlett-Packard Development Company, L.P. Automatic capture and reporting of computer configuration data
US20010013108A1 (en) * 2000-01-24 2001-08-09 Wolfram Sturm Error indication independent of data format
US6643802B1 (en) * 2000-04-27 2003-11-04 Ncr Corporation Coordinated multinode dump collection in response to a fault
US6618823B1 (en) * 2000-08-15 2003-09-09 Storage Technology Corporation Method and system for automatically gathering information from different types of devices connected in a network when a device fails

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013137425A1 (ja) * 2012-03-16 2013-09-19 株式会社デンソー Ecuの異常を監視する回路
JP2013196084A (ja) * 2012-03-16 2013-09-30 Denso Corp Ecuの異常監視回路
US9779559B2 (en) 2012-03-16 2017-10-03 Denso Corporation Circuit for monitoring abnormality of ECU

Also Published As

Publication number Publication date
KR20020070813A (ko) 2002-09-11
JP2002312202A (ja) 2002-10-25
KR100546972B1 (ko) 2006-02-01
US6792564B2 (en) 2004-09-14
US20020124213A1 (en) 2002-09-05
TWI225194B (en) 2004-12-11

Similar Documents

Publication Publication Date Title
JP2006244522A (ja) 論理分割されたマルチプロセッシング・システム内で発生するエラー・イベントを報告する標準化されたフォーマット
JP3962393B2 (ja) グローバル・エラーを報告するための論理分割データ処理システム
US7802144B2 (en) Model-based system monitoring
US8489728B2 (en) Model-based system monitoring
US7797147B2 (en) Model-based system monitoring
US7721297B2 (en) Selective event registration
US7840846B2 (en) Point of sale system boot failure detection
US20070260910A1 (en) Method and apparatus for propagating physical device link status to virtual devices
JP2002342178A (ja) バス・エラーに優先順位を付ける方法、コンピュータ・プログラムおよびデータ処理システム
US7788520B2 (en) Administering a system dump on a redundant node controller in a computer system
JP2005339561A (ja) 関連アプリケーションに対するトラック・データ・クロスリファレンスを保存する方法及び装置
US6662318B1 (en) Timely error data acquistion
CN100375960C (zh) 用于调试输入/输出故障的方法和系统
JP2008293479A (ja) ゲスト処理システムの入出力処理を促進するための方法およびシステム
JP4366336B2 (ja) 論理パーティション・データ処理システムにおいてトレース・データを管理するための方法、トレース・データを管理するための論理パーティション・データ処理システム、コンピュータにトレース・データを管理させるためのコンピュータ・プログラム、論理パーティション・データ処理システム
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
US20070022427A1 (en) Hypervisor virtualization of OS console and operator panel
US7673082B2 (en) Method and system to determine device criticality for hot-plugging in computer configurations
US7565424B2 (en) Data processing system, method, and product for reporting loss of service application
US6658594B1 (en) Attention mechanism for immediately displaying/logging system checkpoints
US6898731B2 (en) System, method, and computer program product for preventing machine crashes due to hard errors in logically partitioned systems
JP3777146B2 (ja) Lparシステムにおいて装置をダイナミックに割り当てるための方法
CN114281353A (zh) 使用部署元数据避免平台和服务中断
US20050262335A1 (en) Performing resource analysis on one or more cards of a compute system
Rogers et al. Z/OS Diagnostic Data: Collection and Analysis

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060926

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061215

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080527

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080827

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080924

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081211

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090120

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090306

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101220