JP3910554B2 - 論理パーティション・データ処理システムでのエラーまたはイベントを処理する方法、コンピュータ・プログラム、データ処理システム - Google Patents

論理パーティション・データ処理システムでのエラーまたはイベントを処理する方法、コンピュータ・プログラム、データ処理システム Download PDF

Info

Publication number
JP3910554B2
JP3910554B2 JP2003100322A JP2003100322A JP3910554B2 JP 3910554 B2 JP3910554 B2 JP 3910554B2 JP 2003100322 A JP2003100322 A JP 2003100322A JP 2003100322 A JP2003100322 A JP 2003100322A JP 3910554 B2 JP3910554 B2 JP 3910554B2
Authority
JP
Japan
Prior art keywords
operating
error
events
processor
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2003100322A
Other languages
English (en)
Other versions
JP2003323306A (ja
Inventor
カニシャ・パテル
ゴードン・ディー・マッキントッシュ
ジョージ・ジョン・ドーキンス
プラカシュ・ヴィノドレイ・デサイ
Original Assignee
インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US10/132,136 priority Critical patent/US6920587B2/en
Priority to US10/132136 priority
Application filed by インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation filed Critical インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation
Publication of JP2003323306A publication Critical patent/JP2003323306A/ja
Application granted granted Critical
Publication of JP3910554B2 publication Critical patent/JP3910554B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level

Description

【0001】
【発明の属する技術分野】
本発明は、一般に論理パーティション・データ処理システムにおける複数のオペレーティング・システム・パーティションの管理に関し、特にエラーおよび他のイベントの処理に関する。
【0002】
【従来の技術】
データ処理システム(プラットフォーム)内の論理パーティション化された(logical partioned:LPAR)機能は、単一オペレーティング・システム(operating system:OS)の複数コピーまたは複数の異機種オペレーティング・システムが単一データ処理システム・プラットフォームで同時に動作することを可能にする。内部でオペレーティング・システム・イメージが動作するパーティションは、プラットフォームのリソースの非並行サブセットを割り当てられる。リソースを配分できるこれらのプラットフォームは、割り込み管理エリア、システム・メモリ領域および入出力(I/O)アダプタ・バス・スロットを有する1以上の構成的に別個のプロセッサを含む。パーティションのリソースは、OSイメージに対するプラットフォームのファームウエアによって表現される。
【0003】
プラットフォーム内の別個のOSまたはOS動作イメージのそれぞれは、1つの論理パーティションにおけるソフトウエア・エラーが、他のどのパーティションの正しいオペレーションに影響を与えることがないように互いに保護されている。これは、非結合の1セットのプラットフォーム・リソースに、各OSイメージによって直接管理されるように割り振ることによって、および種々のイメージが、イメージに割り振られなかったどのリソースも制御できないことを確実にする機構を用意することによって実現される。さらに、オペレーティング・システムの割り振られたリソースの制御におけるソフトウエア・エラーは、他の全てのイメージのリソースに影響を与えることを阻止される。したがって、OS(または各別個のOS)の各イメージは、プラットフォーム内の別個の1セットの配分可能なリソースを直接に制御する。
【0004】
LPARシステムにおけるハードウエア・リソースについては、これらのリソースは、種々のパーティション間で個別に共有されている。パーティションは、それ自体個別であるので、各パーティションは、スタンド−アローン・コンピュータのように見える。これらのリソースは、例えば入出力(I/O)アダプタ、メモリ・ディム(dimm)、不揮発性ランダム・アクセス・メモリおよびハード・ディスクを含むことができる。LPARシステム内の各パーティションは、システム全体のスイッチを切ったり入れたりすることなく、何度も繰り返してブートおよびシャットダウンが可能である。
【0005】
実際には、パーティション間で個別に共有されている入出力(I/O)装置の幾つかは、ハードウエアの共通部分、例えば、制御されまたはブリッジの下流に位置する多くの入出力(I/O)アダプタを持つことができるホストPCI(Peripheral Component Interface)ブリッジによってそれ自体を制御される。このブリッジは、スロットに割り当てられる全てのパーティションによって共有されていると考えることができる。したがって、ブリッジが作動不能になると、ブリッジは、ブリッジの下流に位置する装置を共有する全てのパーティションに影響を与える。実際は、問題自体は非常に厳しいので、いずれかのパーティションがブリッジを更に使用しようとするならば、LPARシステム全体はクラッシュするであろう。すなわち、クラッシュで、LPARシステム全体が故障する。通常の処理の方法は、ブリッジを共有する動作パーティションを終了することである。このことは、この故障のためにシステムがクラッシュするのを防ぐであろう。
【0006】
通常起こるのは、ブリッジを使用不可(エラー)状態にする入出力(I/O)アダプタ故障である。発生の時には、入出力(I/O)アダプタ故障は、マシン・チェック割り込み(machine check interrupt:MCI)ハンドラを呼び出す。これは、順に、エラーを報告し、次に、適切なパーティションを終了する。このプロセスは、この問題のためにLPARシステム全体がクラッシュするのを防ぐ通常の解決方法である。
【0007】
【発明が解決しようとする課題】
しかしながら、与えられたパーティションで動作する特定のオペレーティング・システムしだいで、いくつかのエラーは、オペレーティング・システムによって回復可能であり、他のエラーは回復不可能である。エラーが、特定のオペレーティング・システムによって回復できるならば、最善の処理の方法は、オペレーティング・システムにエラーを通知して、最適な処理を行うようにすることであろう。しかしながら、オペレーティング・システムが、エラーを回復する機能を有していないならば、オペレーティング・システムにエラーを通知することを試みることは、好ましくなく、エラー通知を解釈できないオペレーティング・システムは、クラッシュが発生するまで、一定の処理を単に続けるであろう。
【0008】
したがって、必要なことは、エラーが発生した時に、特定のエラーを処理できるオペレーティング・システムに通知し、特定のエラーを処理できないオペレーティング・システムを終了する方法である。
【0009】
【課題を解決するための手段】
本発明は、論理パーティション(LPAR)データ処理システムにおけるエラーまたは他のイベントを処理する方法、コンピュータ・プログラム、データ処理システムを提供する。オペレーティング・システムが論理パーティションで初期設定されると、オペレーティング・システムは、管理ソフトウエアを用いて特定のエラーまたは他のイベントを処理する機能を登録する。その論理パーティションに影響を与えるエラーまたは他のイベントが発生すると、管理ソフトウエアは検査して、特定のエラーまたはイベントが、オペレーティング・システムにより処理できるエラーまたはイベントであるかどうかを調べる。もし、オペレーティング・システムにより処理できるエラーまたはイベントであれば、オペレーティング・システムは、エラーまたはイベントを通知される。そうでなければ、管理ソフトウエアは、オペレーティング・システムに他の適切な処理、例えば、オペレーティング・システムおよび/またはパーティションの終了を行うことを命ずる。
【0010】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。図1を参照すると、本発明を実現できる、データ処理システムのブロック図が示されている。データ処理システム100は、システム・バス106に接続された複数のプロセッサ101,102,103,104を含む対称マルチプロセッサ(symmetric multiprocessor:SMP)システムとすることができる。例えば、データ処理システム100は、ネットワーク内のサーバとして構成されるIBM RS/6000(登録商標)(ニューヨーク州アーモンクのインターナショナル・ビジネス・マシーンズ・コーポレイションの製品)とすることができる。あるいはまた、単一プロセッサ・システムを用いることができる。また、システム・バス106には、複数のローカル・メモリ160〜163とのインターフェースを与えるメモリ・コントローラ/キャッシュ108が接続されている。I/Oバス・ブリッジ110は、システム・バス106に接続され、I/Oバス112とのインターフェースを与える。メモリ・コントローラ/キャッシュ108とI/Oバス・ブリッジ110は、図に示されているように、統合することができる。
【0011】
データ処理システム100は、論理的にパーティション化されたデータ処理システムである。したがって、データ処理システム100は、同時に動作する複数の異機種オペレーティング・システム(または単一オペレーティング・システムの複数のインスタンス)を有することができる。これらの複数のオペレーティング・システムのそれぞれは、その内部で実行される多数のソフトウエア・プログラムを有することができる。データ処理システム100は、別個のPCII/Oアダプタ120,121,128,129,136、グラフィック・アダプタ148およびハード・ディスク・アダプタ149を別個の論理パーティションに割り当てることができるように論理的にパーティション化されている。この場合、グラフィック・アダプタ148は、図示しないディスプレイ装置の接続部を与え、一方、ハード・ディスク・アダプタ149は、ハード・ディスク150の接続部を与え、ハード・ディスク150を制御する。
【0012】
したがって、例えば、データ処理システム100が、3つの論理区間P1,P2,P3に分割されているとすると、各PCII/Oアダプタ120,121,128,129,136、グラフィック・アダプタ148、ハード・ディスク・アダプタ149、各ホスト・プロセッサ101〜104および各ローカル・メモリ160〜163は、3つのパーティションの内の1つに割り当てられる。例えば、プロセッサ101、ローカル・メモリ160およびPCII/Oアダプタ120,128,129は、論理パーティションP1に割り当てることができ、プロセッサ102,103、ローカル・メモリ161およびPCII/Oアダプタ121,136は、論理パーティションP2に割り当てることができ、プロセッサ104、ローカルメモリ162,163、グラフィック・アダプタ148およびハード・ディスク・アダプタ149は、論理パーティションP3に割り当てることができる。
【0013】
データ処理システム100内で実行される各オペレーティング・システムは、別個の論理パーティションに割り当てられる。したがって、データ処理システム100内で実行される各オペレーティング・システムは、論理パーティション内にある入出力装置のみにアクセスすることができる。したがって、例えば、拡張対話式エグゼクティブ(Advanced Interactive Executive:AIX)オペレーティング・システムの第1のインスタンスは、パーティションP1内で実行でき、AIXオペレーティング・システムの第2のインスタンス(イメージ)は、パーティションP2内で実行でき、リナックス・オペレーティング・システムは、パーティションP3内で実行できる。
【0014】
I/Oバス112に接続されたPCIホスト・ブリッジ114は、PCIバス115とのインターフェースを与える。多数のPCII/Oアダプタ120,121は、PCI−to−PCIブリッジ116、PCIバス118、PCIバス119、I/Oスロット170およびI/Oスロット171を介してPCIバス115に接続できる。PCI−to−PCIブリッジ116は、PCIバス118およびPCIバス119とのインターフェースを与える。各PCII/Oアダプタ120,121は、I/Oスロット170,171にそれぞれ装着される。一般的なPCIバス実装は、4個から8個のアダプタ(すなわち、アドイン・コネクタのための拡張スロット)をサポートする。各PCII/Oアダプタ120,121は、データ処理システム100と、入出力装置、例えばデータ処理システム100のクライアントである他のネットワーク・コンピュータとの間のインターフェースを与える。
【0015】
追加のPCIホスト・ブリッジ122は、追加のPCIバス123のためのインターフェースを与える。PCIバス123は、多数のPCII/Oアダプタ128,129に接続される。PCII/Oアダプタ128,129は、PCI−to−PCIブリッジ124、PCIバス126、PCIバス127、I/Oスロット172およびI/Oスロット173を介してPCIバス123へ接続できる。PCI−to−PCIブリッジ124は、PCIバス126とPCIバス127との間のインターフェースを与える。各PCII/Oアダプタ128,129は、I/Oスロット172,173にそれぞれ装着される。このようにして、追加の入出力装置、例えばモデムまたはネットワーク・アダプタは、各PCII/Oアダプタ128,129を介してサポートできる。このようにして、データ処理システム100は、複数のネットワーク・コンピュータへの接続を可能にする。
【0016】
I/Oスロット174に挿入された、メモリ・マップ・グラフィックアダプタ148は、PCIバス144、PCI−to−PCIブリッジ142、PCIバス141およびPCIホスト・ブリッジ140を介してI/Oバス112に接続できる。ハード・ディスク・アダプタ149は、PCIバス145に接続されるI/Oスロット175に装着できる。順に、このPCIバス145は、PCI−to−PCIブリッジ142に接続され、PCI−to−PCIブリッジ142は、PCIバス141によってPCIホスト・ブリッジ140に接続される。
【0017】
PCIホスト・ブリッジ130は、PCIバス131のためのインターフェースを与え、I/Oバス112に接続する。PCII/Oアダプタ136は、I/Oスロット176に接続され、I/Oスロット176は、PCIバス133によってPCI−to−PCIブリッジ132に接続される。PCI−to−PCIブリッジ132は、PCIバス131に接続される。このPCIバスは、またPCIホスト・ブリッジ130を、サービス・プロセッサ・メールボックス・インターフェースおよびISAバス・アクセス・パススルー・ロジック194およびPCI−to−PCIブリッジ132に接続する。サービス・プロセッサ・メールボックス・インターフェースおよびISAバス・アクセス・パススルー・ロジック194は、PCI/ISAブリッジ193に向かうPCIアクセスを転送する。NVRAMストレージ192は、ISAバス196に接続される。サービス・プロセッサ135は、ローカルPCIバス195を介してサービス・プロセッサ・メールボックス・インターフェースおよびISAバス・アクセス・パススルー・ロジック194に接続されている。サービス・プロセッサ135は、また多数のJTAG/I2 Cバス134を経由してプロセッサ101〜104に接続されている。JTAG/I2 Cバス134は、JTAG/スキャン・バス(IEEE 1149.1参照)とフィリップス(Phillips)I2 Cバスとの組み合わせである。あるいはまた、JTAG/I2 Cバス134は、フィリップスI2 CバスまたはJTAG/スキャン・バスのみで置き換えることができる。ホスト・プロセッサ101,102,103,104の全てのSP−ATTN信号は、サービス・プロセッサの割り込み入力信号に一緒に接続される。サービス・プロセッサ135は、それ自体のローカル・メモリ191を有し、ハードウエア・OP−パネル190にアクセスする。
【0018】
データ処理システム100が最初に立ち上げられるとき、サービス・プロセッサ135は、JTAG/I2 Cバス134を使用し、システム(ホスト)プロセッサ101〜104、メモリ・コントローラ/キャッシュ108およびI/Oバス・ブリッジ110に問い合わせをする。このステップが完了すると、サービス・プロセッサ135は、データ処理システム100についてのインベントリおよびトポロジ理解を有している。サービス・プロセッサ135は、またホスト・プロセッサ101〜104、メモリ・コントローラ/キャッシュ108およびI/Oバス・ブリッジ110に問い合わせをすることによって発見される全てのエレメントに、組み込み自己テスト(Built−In−Self−Test:BIST)、基本検証テスト(Basic Assurance Test:BAT)およびメモリ・テストを実行する。BIST、BATおよびメモリ・テストの際に検出される障害の全てのエラー情報が、サービス・プロセッサ135によって集められ、報告される。
【0019】
BIST、BATおよびメモリ・テストの際に欠陥があることを分かったエレメントを取り出した後に、システム・リソースの意味のある/有効な構成が、依然として可能であるならば、データ処理システム100は、ローカル(ホスト)メモリ160〜163へ実行可能コードをロードすることができる。サービス・プロセッサ135は、次に、ローカル・メモリ160〜163へロードされたコードの実行のためにホスト・プロセッサ101〜104を解放する。ホスト・プロセッサ101〜104が、データ処理システム100内の各オペレーティング・システムからのコードを実行している間、サービス・プロセッサ135は、モニタおよびエラー報告のモードに入る。サービス・プロセッサ135によってモニタされる種類の項目には、例えば、冷却ファンの速度と動作、熱センサ、電源調整器、プロセッサ101〜104,ローカル・メモリ160〜163およびI/Oバス・ブリッジ110によって報告される回復可能および回復不可能エラーがある。サービス・プロセッサ135は、データ処理システム100における全てのモニタ項目に関係するエラー情報を保管し、報告しなければならない。また、サービス・プロセッサ135は、エラーの種類および定められたしきい値に基づいて処理を行う。例えば、サービス・プロセッサ135は、プロセッサのキャッシュ・メモリの過剰な回復可能エラーに注目し、ハード障害の前兆であると決定することが可能である。この決定に基づき、サービス・プロセッサ135は、現在動作しているセッションと将来のイニシャル・プログラム・ロード(Initial Program Load:IPL)との際に、構成解除のリソースをマークすることが可能である。IPLは、また“ブート”または“ブートストラップ”と呼ばれることがある。
【0020】
データ処理システム100は、種々の市販のコンピュータ・システムを用いて構成できる。例えば、データ処理システム100は、インターナショナル・ビジネス・マシーンズ・コーポレイションから入手可能なIBM(登録商標)eサーバ・iシリーズ・モデル840システムを用いて構成できる。このようなシステムは、これもまたインターナショナル・ビジネス・マシーンズ・コーポレイションから入手可能なOS/400オペレーティング・システムを用いて論理パーティション化することをサポートできる。
【0021】
当業者は、図1に示されたハードウエアが種々変化できることを理解するであろう。例えば、他の周辺装置、例えば光学ディスク・ドライブ等もまた、図示されたハードウエアに追加してまたは置き換えて用いることができる。図示された例は、本発明に関して、構成的な制限を意味するものではない。
【0022】
図2を参照すると、本発明を実現できる、代表的な論理パーティション化されたプラットフォームのブロック図が示されている。論理パーティション化されたプラットフォーム200のハードウエアは、例えば図1のデータ処理システム100のように構成できる。論理パーティション化されたプラットフォーム200は、パーティション化されたハードウエア230、オペレーティング・システム202,204,206,208およびハイパーバイザ210を備える。オペレーティング・システム202,204,206,208は、プラットフォーム200で同時に動作する単一オペレーティング・システムの複数コピーまたは複数の異機種オペレーティング・システムとすることが可能である。これらのオペレーティング・システムは、ハイパーバイザとインターフェースするために設計されているOS/400を用いて構成できる。オペレーティング・システム202,204,206,208は、パーティション203,205,207,209に配置される。さらに、これらのパーティションは、また、ファームウエア・ローダ211,213,215,217を備える。パーティション203,205,207,209がインスタンス化されると、オープン・ファームウエアのコピーが、ハイパーバイザのパーティション・マネージャによって各パーティションにロードされる。パーティションに関連付けられた、または割り当てられたプロセッサは、次に、パーティションのメモリにディスパッチされ、パーティション・ファームウエアを実行する。
【0023】
パーティション化されたハードウエア230は、複数のプロセッサ232〜238、複数のシステム・メモリ装置240〜246、複数の入出力(I/O)アダプタ248〜262およびストレージ装置270を備える。また、パーティション化されたハードウエア230は、種々のサービス、例えばパーティションでのエラー処理、を提供するために用いることができるサービス・プロセッサ290を備える。プロセッサ232〜238、メモリ装置240〜246、NVRAMストレージ298および入出力(I/O)アダプタ248〜262のそれぞれは、オペレーティング・システム202,204,206,208の1つにそれぞれ対応する、論理パーティション化されたプラットフォーム200内の複数パーティションの1つに割り当てが可能である。
【0024】
ハイパーバイザ(パーティション管理ファームウエア)210は、パーティション203,205,207,209のための多数の機能とサービスを実行して、論理パーティション化されたプラットフォーム200のパーティションを作り出し、実施する。ハイパーバイザ210は、基礎ハードウエアと同一の、ファームウエアで構成される仮想計算機である。ハイパーバイザ・ソフトウエアは、インターナショナル・ビジネス・マシーンズ・コーポレイションから入手可能である。ファームウエアは、電気的パワー無しに内容を保持するメモリ・チップ、例えば、読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的消去プログラマブルROM(EEPROM)および不揮発性ランダム・アクセス・メモリ(不揮発性RAM)に格納されたソフトウエアである。したがって、ハイパーバイザ210は、論理パーティション化されたプラットフォーム200の全てのハードウエア・リソースをバーチャライズすることによって、独立したオペレーティング・システム202,204,206,208のイメージの同時実行を可能にする。
【0025】
本発明は、論理パーティション・データ処理システム内の別個の論理パーティションで実行される別個のオペレーティング・システムによってエラーまたはイベントの処理を管理する方法、コンピュータ・プログラムおよびデータ処理システムに関する。本発明の好適な実施の形態において、ローカル・パーティションの中でオペレーティング・システムの実行が開始されると、オペレーティング・システム、すなわちオペレーティング・システムをロードするための適切なロード・プログラムは、特定のエラーまたはイベントを処理するためのオペレーティング・システムの機能を管理ソフトウエア(すなわちハイパーバイザ)を用いて登録する。管理ソフトウエアは、次に、その情報を用い、エラーまたはイベントが管理ソフトウエアによってオペレーティング・システムに関してどのように扱われるべきかを判別する。
【0026】
図3は、本発明の好適な実施の形態に従って、管理ソフトウエアを用いて特定のエラーまたはイベントを処理する機能を登録するオペレーティング・システムのプロセスを示すブロック図である。オペレーティング・システム300は、開始されており、論理パーティション302で実行されている。オペレーティング・システム300は、オペレーティング・システム300が処理できる1セットのエラーおよび/またはイベントを説明する情報304を送ることによって管理ソフトウエア306を用いて機能を登録する。1セットは、0以上のアイテムの集まりを意味する。この場合、1セット内の項目は、オペレーティング・システム300が処理できるエラーまたはイベントの識別である。エラーおよびイベントの例には、バス・エラー,セクタ・ルック・アサイド・バッファ・エラー(sector look aside buffer errors),トランスレーション・ルック・アサイド・バッファ・エラー(translation look aside buffer errors),入出力エラー,ユーザー入力,有用な新しいメッセージまたはコミュニケーション等が含まれるが、これらに制限されるものではない。図では、これらのエラーおよびイベントは、頭文字で示されている。
【0027】
管理ソフトウエア306は、メモリ中のデータ構造310に情報308を格納する。データ構造310は、データ処理システムのいずれかの論理パーティションで実行されるオペレーティング・システムに発せられる、どのエラーまたはイベントが処理できるか、管理ソフトウエア306が識別できるようにする。
【0028】
図4は、オペレーティング・システムが、エラーまたはイベントを処理することが可能であるときに、本発明の好適な実施の形態において、エラーまたはイベントを管理するプロセスを示すブロック図である。ハードウエア・コンポーネント400は、管理ソフトウエア306が認識するエラーまたはイベント402を知る。イベント402が、パーティション302で実行されるオペレーティング・システム300に影響を与えることを判別する管理ソフトウエア306は、データ構造310に照会404を行い、オペレーティング・システム300がエラーまたはイベントを処理することが可能であるかどうかを判別する。この場合、オペレーティング・システム300は、エラーまたはイベントを処理することが可能なので、照会404は、肯定的な結果406で応じられる。管理ソフトウエア306は、この肯定的な結果に応じて、オペレーティング・システム300にエラーまたはイベントの通知408を行う。オペレーティング・システム300は、次に、プログラミングに従って、エラーまたはイベントに対して適切な処理を行うことができる。
【0029】
図5は、オペレーティング・システムが、エラーまたはイベントを処理することが不可能であるときに、本発明の好適な実施の形態において、エラーまたはイベントを管理するプロセスを示すブロック図である。ハードウエア・コンポーネント400は、管理ソフトウエア306が認識するエラーまたはイベント500を知る。管理ソフトウエア306は、データ構造310に照会502を行い、オペレーティング・システム300がエラーまたはイベントを処理することが可能であるかどうかを判別する。このとき、オペレーティング・システム300は、発生した特定のエラーまたはイベントを処理することが不可能なので、否定的な結果504が返される。管理ソフトウエア306は、そのとき、エラーまたはイベントを処理する責任を負わなければならない。管理ソフトウエア306は、オペレーティング・システム300に適切な処理を行うこと命ずることによってこれを行う。例えば、エラーの場合、管理ソフトウエア306は、オペレーティング・システム300に致命的エラーを伝えることによって、オペレーティング・システム300にインスタンスの終了506を行うことを命ずることができる。言い換えれば、管理ソフトウエア306は、オペレーティング・システム300に安全なシャット・ダウンを行うことを命ずることができる。オペレーティング・システム300が、管理ソフトウエア306によって行うことを命じられたことが最後まで完全に実行できないならば、管理ソフトウエア306は、更なるエラーを避けるためにパーティション302を強制的に終了することができる。
【0030】
図6は、本発明の好適な実施の形態に従って、オペレーティング・システムから管理機能を受け取るプロセスを説明するフローチャートである。まず、管理ソフトウエアは、特定のエラーまたはイベントを処理するオペレーティング・システムの機能を受け取る(ステップ600)。管理ソフトウエアは、次に、これらの機能をメモリ中のデータ構造に書き込む(ステップ602)。次に、管理ソフトウエアは、発生するエラーまたはイベントを待つ(ステップ603)。
【0031】
図7は、本発明の好適な実施の形態に従って、論理パーティションで実行されるオペレーティング・システムに関して、イベントを管理するプロセスを説明するフローチャートである。まず、管理ソフトウエアは、イベント(エラーでも良い)を識別する(ステップ700)。次に、管理ソフトウエアは、特定のパーティションに常駐するオペレーティング・システムがそのイベントをサポートするかどうかを判別する(ステップ702)。言い換えれば、管理ソフトウエアは、そのオペレーティング・システムがそのイベントを処理することが可能かどうかを判別する。もし、そうであれば、管理ソフトウエアは、オペレーティング・システムによって処理することができるように、オペレーティング・システムにイベントを通知し(ステップ704)、そしてプロセスは終了する。もしそのプロセスがそのイベントをサポートしないならば、管理ソフトウエアは、オペレーティング・システムに適切な処理、例えば安全なシャットダウンを行うことを命じる(ステップ706)。次に、管理ソフトウエアは、オペレーティング・システムが命じられたタスクを完全に実行したかどうかを判別する(ステップ708)。もし、完全に実行していれば、そのプロセスは、単に終了する。しかしながら、完全に実行していないならば、管理ソフトウエアは、内部で実行されているオペレーティング・システムおよび/またはパーティションの実行を最終的に終了する(ステップ710)。
【0032】
本発明は、充分に機能するデータ処理システムについて記述したが、本発明のプロセスが、命令または他の機能記述要素からなるコンピュータ読み取り可能媒体の形態および種々の他の形態で配布できること、および本発明が、配布を行うために実際に用いられる信号保持媒体の特定のタイプに関係なく等しく適用可能であること、を当業者が理解するであろうことに注目することは重要である。コンピュータ読み取り可能媒体の例には、記録可能型媒体、例えばフロッピー(登録商標)ディスク,ハード・ディスク,RAM,CD−ROM,DVD−ROM、および伝送型媒体、例えば高周波および光波伝送の伝送形態を用いるデジタルおよびアナログ通信リンク,有線または無線通信リンクが含まれる。コンピュータ読み取り可能媒体は、特定のデータ処理システムにおいて実際の使用のためにデコードされる、コード化されたフォーマットの形式を取ることができる。機能記述要素は、機械に機能を与える情報である。機能記述要素には、コンピュータ・プログラム,命令,規則,事実,計算可能関数の定義,オブジェクトおよびデータ構造が含まれるが、これらに制限されるものではない。
【0033】
本発明の記述は、説明と記述のために提示されており、開示された形態の発明に制限されることを意図しない。多くの変更と変形が可能であることは当業者には明らかであろう。実施例は、本発明の原理および実際的な応用を最も良く説明し、意図された特定の使用に適しているような種々の変更を有する種々の実施例の発明を当業者に理解できるようにするために選択され、記述されている。
【0034】
まとめとして、本発明の構成に関して以下の事項を開示する。
(1)オペレーティング・システムが処理できる1セットのイベントを識別する情報をオペレーティング・システムから受け取り、
イベントの発生に応じて、イベントが前記1セットのイベントに含まれるかどうかを判別し、
イベントが前記1セットのイベントに含まれているという判別に応じて、オペレーティング・システムにそのイベントを通知し、
イベントが前記1セットのイベントに含まれていないという判別に応じて、オペレーティング・システムにオペレーションを行うことを命令する方法。
(2)前記イベントは、エラーである上記(1)に記載の方法。
(3)前記エラーは、ハードウエア・コンポーネントに発生したエラーである上記(2)に記載の方法。
(4)前記オペレーションは、オペレーティング・システムの実行を終了することである上記(1)に記載の方法。
(5)前記オペレーティング・システムは、データ処理システムの論理パーティション内で実行され、オペレーティング・システムの実行を終了することは、論理パーティションを終了することを含む上記(4)に記載の方法。
(6)前記オペレーションは、致命的エラーを処理することである上記(1)に記載の方法。
(7)前記オペレーティング・システムにオペレーションを行うことを命令することに応じて、前記オペレーティング・システムが、オペレーションを行ったかどうかを判別し、
前記オペレーティング・システムがオペレーションを行うことができなかったという判別に応じて、前記オペレーティング・システムの実行を終了する上記(1)に記載の方法。
(8)前記オペレーティング・システムは、データ処理システムの論理パーティション内で実行され、オペレーティング・システムの実行を終了することは、論理パーティションを終了することを含む上記(7)に記載の方法。
(9)データ処理システムの論理パーティション内でオペレーティング・システムを開始し、
前記オペレーティング・システムによって処理できる1セットのエラー状態をデータ処理システム内で実行を行う管理ソフトウエアを用いて登録する方法。
(10)前記管理ソフトウエアは、データ処理システムのファームウエアからなる上記(9)に記載の方法。
(11)前記管理ソフトウエアは、前記論理パーティションの外部にある環境で実行される上記(9)に記載の方法。
(12)機能記述要素からなるコンピューター読み取り可能媒体内のコンピュータ・プログラムであって、
コンピュータによって実行されたときに、
オペレーティング・システムが処理できる1セットのイベントを識別する情報をオペレーティング・システムから受け取り、
イベントの発生に応じて、イベントが前記1セットのイベントに含まれるかどうかを判別し、
イベントが前記1セットのイベントに含まれているという判別に応じて、オペレーティング・システムにそのイベントを通知し、
イベントが前記1セットのイベントに含まれていないという判別に応じて、オペレーティング・システムにオペレーションを行うことを命令する、ことを含む処理をコンピュータが行うことを可能にするコンピュータ・プログラム。
(13)前記イベントは、エラーである上記(12)に記載のコンピュータ・プログラム。
(14)前記エラーは、ハードウエア・コンポーネントに発生したエラーである上記(13)に記載のコンピュータ・プログラム。
(15)前記オペレーションは、オペレーティング・システムの実行を終了することである上記(12)に記載のコンピュータ・プログラム。
(16)前記オペレーティング・システムは、データ処理システムの論理パーティション内で実行され、オペレーティング・システムの実行を終了することは、論理パーティションを終了することを含む上記(15)に記載のコンピュータ・プログラム。
(17)前記オペレーションは、致命的エラーを処理することである上記(12)に記載のコンピュータ・プログラム。
(18)コンピュータによって実行されたときに、
前記オペレーティング・システムにオペレーションを行うことを命令することに応じて、前記オペレーティング・システムが、オペレーションを行ったかどうかを判別し、
前記オペレーティング・システムがオペレーションを行うことができなかったという判別に応じて、前記オペレーティング・システムの実行を終了する、ことを含む追加の処理をコンピュータが行うことを可能にする追加の機能記述要素からなる上記(12)に記載のコンピュータ・プログラム。
(19)前記オペレーティング・システムは、データ処理システムの論理パーティション内で実行され、オペレーティング・システムの実行を終了することは、論理パーティションを終了することを含む上記(18)に記載のコンピュータ・プログラム。
(20)機能記述要素を含むコンピュータ読み取り可能媒体内のコンピュータ・プログラムであって、
コンピュータによって実行されたときに、
データ処理システムの論理パーティション内でオペレーティング・システムを開始し、
前記オペレーティング・システムによって処理できる1セットのエラー状態をデータ処理システム内で実行を行う管理ソフトウエアを用いて登録する、ことを含む処理をコンピュータが行うことを可能にするコンピュータ・プログラム。
(21)前記機能記述要素は、オペレーティング・システムの一部を形成する上記(20)に記載のコンピュータ・プログラム。
(22)コンピュータによって実行されたときに、
ストレージ装置からオペレーティング・システムをロードすることを含む追加の処理をコンピュータが行うことを可能にする追加の機能記述要素からなる上記(20)に記載のコンピュータ・プログラム。
(23)少なくとも1つのプロセッサを有する処理装置と、
処理装置と通信するメモリと、
メモリに格納されたファームウエアとを備え、
処理装置がファームウエアを実行して、
オペレーティング・システムが処理できる1セットのイベントを識別する情報を前記オペレーティング・システムから受け取り、
イベントの発生に応じて、イベントが前記1セットのイベントに含まれるかどうかを判別し、
イベントが前記1セットのイベントに含まれているという判別に応じて、オペレーティング・システムにイベントを通知し、
イベントが前記1セットのイベントに含まれていないという判別に応じて、オペレーティング・システムにオペレーションを行うことを命令する、ことを含む処理を行うデータ処理システム。
(24)前記イベントは、エラーである上記(23)に記載のデータ処理システム。
(25)前記エラーは、ハードウエア・コンポーネントに発生したエラーである上記(24)に記載のデータ処理システム。
(26)前記オペレーションは、オペレーティング・システムの実行を終了することである上記(23)に記載のデータ処理システム。
(27)前記オペレーティング・システムは、データ処理システムの論理パーティション内で実行され、オペレーティング・システムの実行を終了することは、論理パーティションを終了することを含む上記(26)に記載のデータ処理システム。
(28)前記オペレーションは、致命的エラーを処理することである上記(23)に記載のデータ処理システム。
(29)前記処理装置がファームウエアを実行して、
前記オペレーティング・システムにオペレーションを行うことを命令することに応じて、前記オペレーティング・システムが、オペレーションを行ったかどうかを判別し、
前記オペレーティング・システムがオペレーションを行うことができなかったという判別に応じて、前記オペレーティング・システムの実行を終了する、追加の処理を行う上記(23)に記載のデータ処理システム。
(30)前記オペレーティング・システムは、データ処理システムの論理パーティション内で実行され、オペレーティング・システムの実行を終了することは、論理パーティションを終了することを含む上記(29)に記載のデータ処理システム。
(31)オペレーティング・システムが処理できる1セットのイベントを識別する情報をオペレーティング・システムから受け取る手段と、
イベントの発生に応じて、イベントが前記1セットのイベントに含まれるかどうかを判別する手段と、
イベントが前記1セットのイベントに含まれているという判別に応じて、オペレーティング・システムにイベントを通知する手段と、
イベントが前記1セットのイベントに含まれていないという判別に応じて、オペレーティング・システムにオペレーションを行うことを命令する手段と、
を有するデータ処理システム。
(32)データ処理システムの論理パーティション内でオペレーティング・システムを開始する手段と、
前記オペレーティング・システムによって処理できる1セットのエラー状態をデータ処理システム内で実行を行う管理ソフトウエアを用いて登録する手段と、を有するデータ処理システム。
【図面の簡単な説明】
【図1】本発明を実現できる、データ処理システムのブロック図である。
【図2】本発明を実現できる、代表的な論理パーティション化されたプラットフォームのブロック図である。
【図3】本発明の好適な実施の形態に従って、管理ソフトウエアを用いて特定のエラーまたはイベントを処理する機能を登録するオペレーティング・システムのプロセスを示すブロック図である。
【図4】オペレーティング・システムが、エラーまたはイベントを処理することが可能であるときに、本発明の好適な実施の形態において、エラーまたはイベントを管理するプロセスを示すブロック図である。
【図5】オペレーティング・システムが、エラーまたはイベントを処理することが不可能であるときに、本発明の好適な実施の形態において、エラーまたはイベントを管理するプロセスを示すブロック図である。
【図6】本発明の好適な実施の形態に従って、オペレーティング・システムから管理機能を受け取るプロセスを説明するフローチャートである。
【図7】本発明の好適な実施の形態に従って、論理パーティションで実行されるオペレーティング・システムに関して、イベントを管理するプロセスを説明するフローチャートである。
【符号の説明】
100 データ処理システム
101〜104,232,234,236,238 プロセッサ
106 システム・バス
108 メモリ・コントローラ/キャッシュ
110 I/Oバス・ブリッジ
112 I/Oバス
114,122,130,140 PCIホスト・ブリッジ
115,118,119,123,126,127,131,133,141,144,145 PCIバス
116,124,132,142 PCI−to−PCI
120,121,128,129,136 PCII/Oアダプタ
134 JTAG/I2 Cバス
135,290 サービス・プロセッサ
148 グラフィック・アダプタ
149 ハード・ディスク・アダプタ
150 ハード・ディスク
160〜163 ローカル・メモリ
170〜176 I/Oスロット
190 ハードウエア・OP−パネル
191 メモリ
192,298 NVRAMストレージ
193 PCI/ISAブリッジ
194 サービス・プロセッサ・メールボックス・インターフェースおよびISAバス・アクセス・パススルー・ロジック
195 ローカルPCIバス
196 ISAバス
200 論理パーティション化されたプラットフォーム
202,204,206,208,300 オペレーティング・システム
203,205,207,209,302 パーティション
210 ハイパーバイザ
211,213,215,217 ファームウエア・ローダ
230 パーティション化されたハードウエア
240,242,244,246 メモリ装置
248,250,252,254,256,258,260,262 入出力(I/O)アダプタ
270 ストレージ装置
304,308 情報
306 管理ソフトウエア
310 データ構造
400 ハードウエア・コンポーネント
402,500 エラーまたはイベント
404,502 照会
406,504 結果
408 通知
506 終了
600,602,604 処理ステップ
700,702,704,706,708,710 処理ステップ

Claims (8)

  1. プロセッサとメモリとオペレーティング・システムを管理する管理ソフトウエアとを有し論理パーティション機能を実装するデータ処理システムに適用される方法であり、
    当該管理ソフトウエアの命令に応じて、論理パーティション内で実行されるオペレーティング・システムが処理できる1セットのイベントを識別する情報を当該オペレーティング・システムから前記プロセッサが受け取るステップと、
    当該管理ソフトウエアの命令に応じて、当該識別する情報を前記メモリが記憶するステップと、
    エラーの発生に応じて、当該エラーが前記1セットのイベントに含まれるかどうかを前記プロセッサが判別するステップと、
    当該エラーが前記1セットのイベントに含まれているという判別に応じて、前記プロセッサが当該オペレーティング・システムへそのエラーを通知し、
    当該エラーが前記1セットのイベントに含まれていないという判別に応じて、前記プロセッサが当該オペレーティング・システムに当該オペレーティング・システムの実行を終了するオペレーションを行うことを命令するステップと、
    を含む方法。
  2. 前記オペレーティング・システムに前記オペレーションを行うことを命令することに応じて、当該オペレーティング・システムが、当該オペレーションを行ったかどうかを前記プロセッサが判別するステップと、
    当該オペレーティング・システムが当該オペレーションを行うことができなかったという判別に応じて、前記プロセッサが前記オペレーティング・システムの実行を終了するステップと
    を更に含む請求項1に記載の方法。
  3. 前記オペレーティング・システムの実行を終了することは、当該論理パーティションを終了することを含む請求項1又は2に記載の方法。
  4. 前記エラーは、前記論理パーティションに割り当てられるハードウエア・コンポーネントに発生したエラーである請求項1乃至3のいずれかに記載の方法。
  5. 前記オペレーションは、前記オペレーティング・システムが回復することができない致命的エラーを処理することである請求項1乃至4のいずれかに記載の方法。
  6. 前記管理ソフトウエアは、ファームウエアである請求項1乃至5のいずれかに記載の方法。
  7. プロセッサとメモリとを有し論理パーティション機能を実装するコンピュータに、
    論理パーティション内で実行されるオペレーティング・システムが処理できる1セットのイベントを識別する情報を当該オペレーティング・システムから前記プロセッサが受け取るステップと、
    当該識別する情報を前記メモリが記憶するステップと、
    エラーの発生に応じて、当該エラーが前記1セットのイベントに含まれるかどうかを前記プロセッサが判別するステップと、
    当該エラーが前記1セットのイベントに含まれているという判別に応じて、前記プロセッサが当該オペレーティング・システムへそのエラーを通知し、
    当該エラーが前記1セットのイベントに含まれていないという判別に応じて、前記プロセッサが当該オペレーティング・システムに当該オペレーティング・システムの実行を終了するオペレーションを行うことを命令するステップと、
    を実行させることで当該オペレーティング・システムを管理するコンピュータ・プログラム。
  8. 論理パーティション機能を実装するデータ処理システムであり、
    少なくとも1つのプロセッサを有する処理装置と、
    処理装置と通信するメモリと、
    メモリに格納されたファームウエアとを備え、
    当該ファームウエアは、
    論理パーティション内で実行されるオペレーティング・システムが処理できる1セットのイベントを識別する情報を当該オペレーティング・システムから前記プロセッサに受け取らせ、
    当該識別する情報を前記メモリに記憶させ、
    エラーの発生に応じて、当該エラーが前記1セットのイベントに含まれるかどうかを前記プロセッサに判別させ、
    当該エラーが前記1セットのイベントに含まれているという判別に応じて、前記プロセッサに当該オペレーティング・システムへそのイベントを通知させ、
    当該エラーが前記1セットのイベントに含まれていないという判別に応じて、前記プロセッサに当該オペレーティング・システムに当該オペレーティング・システムの実行を終了するオペレーションを行わせる
    データ処理システム。
JP2003100322A 2002-04-25 2003-04-03 論理パーティション・データ処理システムでのエラーまたはイベントを処理する方法、コンピュータ・プログラム、データ処理システム Active JP3910554B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/132,136 US6920587B2 (en) 2002-04-25 2002-04-25 Handling multiple operating system capabilities in a logical partition data processing system
US10/132136 2002-04-25

Publications (2)

Publication Number Publication Date
JP2003323306A JP2003323306A (ja) 2003-11-14
JP3910554B2 true JP3910554B2 (ja) 2007-04-25

Family

ID=29248695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003100322A Active JP3910554B2 (ja) 2002-04-25 2003-04-03 論理パーティション・データ処理システムでのエラーまたはイベントを処理する方法、コンピュータ・プログラム、データ処理システム

Country Status (3)

Country Link
US (1) US6920587B2 (ja)
JP (1) JP3910554B2 (ja)
TW (1) TWI241525B (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002251326A (ja) * 2001-02-22 2002-09-06 Hitachi Ltd 耐タンパ計算機システム
US8612992B2 (en) * 2003-04-09 2013-12-17 Jaluna Sa Operating systems
ES2315469T3 (es) * 2003-04-09 2009-04-01 Virtuallogix Sa Sistemas operativos.
US7117385B2 (en) * 2003-04-21 2006-10-03 International Business Machines Corporation Method and apparatus for recovery of partitions in a logical partitioned data processing system
EP1503286B1 (en) * 2003-07-30 2014-09-03 Jaluna SA Multiple operating system networking
CN1922576A (zh) * 2003-09-30 2007-02-28 扎鲁纳股份有限公司 操作系统
US20050182701A1 (en) * 2004-02-12 2005-08-18 International Business Machines Corporation Method, system, and service for tracking and billing for technology usage
US7260752B2 (en) * 2004-02-19 2007-08-21 International Business Machines Corporation Method and apparatus for responding to critical abstracted platform events in a data processing system
US7383555B2 (en) 2004-03-11 2008-06-03 International Business Machines Corporation Apparatus and method for sharing a network I/O adapter between logical partitions
US7509538B2 (en) * 2004-04-21 2009-03-24 Microsoft Corporation Systems and methods for automated classification and analysis of large volumes of test result data
US8028189B2 (en) * 2004-11-17 2011-09-27 International Business Machines Corporation Recoverable machine check handling
US7325163B2 (en) * 2005-01-04 2008-01-29 International Business Machines Corporation Error monitoring of partitions in a computer system using supervisor partitions
US7543305B2 (en) * 2005-03-24 2009-06-02 International Business Machines Corporation Selective event registration
JP2007226413A (ja) * 2006-02-22 2007-09-06 Hitachi Ltd メモリダンプ方法、メモリダンププログラム、及び、計算機システム
US8327008B2 (en) * 2006-06-20 2012-12-04 Lenovo (Singapore) Pte. Ltd. Methods and apparatus for maintaining network addresses
US8209668B2 (en) 2006-08-30 2012-06-26 International Business Machines Corporation Method and system for measuring the performance of a computer system on a per logical partition basis
US7979749B2 (en) * 2006-11-15 2011-07-12 International Business Machines Corporation Method and infrastructure for detecting and/or servicing a failing/failed operating system instance
US7783867B2 (en) * 2007-02-01 2010-08-24 International Business Machines Corporation Controlling instruction execution in a processing environment
US20090049456A1 (en) * 2007-08-13 2009-02-19 Ibm Corporation Limiting receipt of unsolicited events by a logical partition in a data storage system
US8352960B2 (en) * 2007-08-13 2013-01-08 International Business Machines Corporation Limiting receipt of unsolicited events by a logical partition in a data storage system
US8655868B2 (en) * 2007-09-12 2014-02-18 Ebay Inc. Inference of query relationships based on retrieved attributes
US7779305B2 (en) * 2007-12-28 2010-08-17 Intel Corporation Method and system for recovery from an error in a computing device by transferring control from a virtual machine monitor to separate firmware instructions
US8201029B2 (en) * 2008-01-31 2012-06-12 International Business Machines Corporation Method and apparatus for operating system event notification mechanism using file system interface
US8195981B2 (en) * 2008-06-03 2012-06-05 International Business Machines Corporation Memory metadata used to handle memory errors without process termination
US7953914B2 (en) * 2008-06-03 2011-05-31 International Business Machines Corporation Clearing interrupts raised while performing operating system critical tasks
US7743375B2 (en) * 2008-06-27 2010-06-22 International Business Machines Corporation Information handling system including dynamically merged physical partitions
JP5251385B2 (ja) * 2008-09-16 2013-07-31 富士通株式会社 イベント検出システム、イベント検出方法、およびプログラム
JP4888742B2 (ja) 2009-02-25 2012-02-29 ソニー株式会社 情報処理装置および方法、並びにプログラム
US8132057B2 (en) * 2009-08-07 2012-03-06 International Business Machines Corporation Automated transition to a recovery kernel via firmware-assisted-dump flows providing automated operating system diagnosis and repair
US8510599B2 (en) * 2010-06-23 2013-08-13 International Business Machines Corporation Managing processing associated with hardware events
US8793686B2 (en) 2011-06-08 2014-07-29 Microsoft Corporation Operating system decoupled heterogeneous computing
US8713378B2 (en) * 2011-07-07 2014-04-29 Microsoft Corporation Health monitoring of applications in a guest partition
US9270657B2 (en) 2011-12-22 2016-02-23 Intel Corporation Activation and monetization of features built into storage subsystems using a trusted connect service back end infrastructure
US9026865B2 (en) * 2012-06-11 2015-05-05 Unisys Corporation Software handling of hardware error handling in hypervisor-based systems
JP5933356B2 (ja) * 2012-06-12 2016-06-08 ルネサスエレクトロニクス株式会社 コンピュータシステム
EP2979183B1 (en) * 2013-03-28 2017-08-16 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for fault management in infrastructure as a service clouds
CN107203451B (zh) * 2016-03-18 2020-09-18 伊姆西Ip控股有限责任公司 用于在存储系统中处理故障的方法及设备

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4371930A (en) 1980-06-03 1983-02-01 Burroughs Corporation Apparatus for detecting, correcting and logging single bit memory read errors
JPS5755454A (en) 1980-09-19 1982-04-02 Hitachi Ltd Failure recovery system
US4535455A (en) 1983-03-11 1985-08-13 At&T Bell Laboratories Correction and monitoring of transient errors in a memory system
US4604751A (en) 1984-06-29 1986-08-05 International Business Machines Corporation Error logging memory system for avoiding miscorrection of triple errors
US5072450A (en) 1989-07-27 1991-12-10 Zenith Data Systems Corporation Method and apparatus for error detection and localization
US5245615A (en) 1991-06-06 1993-09-14 International Business Machines Corporation Diagnostic system and interface for a personal computer
US5263032A (en) 1991-06-27 1993-11-16 Digital Equipment Corporation Computer system operation with corrected read data function
JP2888401B2 (ja) 1992-08-03 1999-05-10 インターナショナル・ビジネス・マシーンズ・コーポレイション 冗長ディスクドライブアレイに対する同期方法
US5504859A (en) 1993-11-09 1996-04-02 International Business Machines Corporation Data processor with enhanced error recovery
US5729767A (en) 1994-10-07 1998-03-17 Dell Usa, L.P. System and method for accessing peripheral devices on a non-functional controller
JPH08137764A (ja) 1994-11-10 1996-05-31 Fujitsu Ltd 記憶装置のソフトエラー回復方法と固定障害検出方法
US5889933A (en) 1997-01-30 1999-03-30 Aiwa Co., Ltd. Adaptive power failure recovery
DE69827949T2 (de) 1997-07-28 2005-10-27 Intergraph Hardware Technologies Co., Las Vegas Gerät und verfahren um speicherfehler zu erkennen und zu berichten
US6269409B1 (en) * 1997-09-02 2001-07-31 Lsi Logic Corporation Method and apparatus for concurrent execution of operating systems
US6061788A (en) 1997-10-02 2000-05-09 Siemens Information And Communication Networks, Inc. System and method for intelligent and reliable booting
US6658486B2 (en) * 1998-02-25 2003-12-02 Hewlett-Packard Development Company, L.P. System and method for efficiently blocking event signals associated with an operating system
US6317848B1 (en) 1998-09-24 2001-11-13 Xerox Corporation System for tracking and automatically communicating printer failures and usage profile aspects
US6594774B1 (en) * 1999-09-07 2003-07-15 Microsoft Corporation Method and apparatus for monitoring computer system objects to improve system reliability
US6601188B1 (en) * 1999-10-28 2003-07-29 International Business Machines Corporation Method and apparatus for external crash analysis in a multitasking operating system
US6636991B1 (en) * 1999-12-23 2003-10-21 Intel Corporation Flexible method for satisfying complex system error handling requirements via error promotion/demotion
US6792564B2 (en) * 2001-03-01 2004-09-14 International Business Machines Corporation Standardized format for reporting error events occurring within logically partitioned multiprocessing systems

Also Published As

Publication number Publication date
TWI241525B (en) 2005-10-11
JP2003323306A (ja) 2003-11-14
US20030204780A1 (en) 2003-10-30
TW200400468A (en) 2004-01-01
US6920587B2 (en) 2005-07-19

Similar Documents

Publication Publication Date Title
US8688923B2 (en) Dynamic control of partition memory affinity in a shared memory partition data processing system
US8402462B2 (en) Detection and management of dynamic migration of virtual environments
US8271989B2 (en) Method and apparatus for virtual processor dispatching to a partition based on shared memory pages
US7426657B2 (en) System and method for predictive processor failure recovery
US9026860B2 (en) Securing crash dump files
TWI414943B (zh) 拖延dma操作以利用轉換控制項機制之遷移進展位元進行記憶體遷移
US5907689A (en) Master-target based arbitration priority
US8856776B2 (en) Updating firmware without disrupting service
JP5585844B2 (ja) 仮想計算機の制御方法及び計算機
US6834363B2 (en) Method for prioritizing bus errors
JP4123942B2 (ja) 情報処理装置
US6925421B2 (en) Method, system, and computer program product for estimating the number of consumers that place a load on an individual resource in a pool of physically distributed resources
US7865895B2 (en) Heuristic based affinity dispatching for shared processor partition dispatching
US6996828B1 (en) Multi-OS configuration method
US7594143B2 (en) Analysis engine for analyzing a computer system condition
US7133994B2 (en) Configuration size determination in logically partitioned environment
US7134052B2 (en) Autonomic recovery from hardware errors in an input/output fabric
US6675324B2 (en) Rendezvous of processors with OS coordination
US6918052B2 (en) Managing operations of a computer system having a plurality of partitions
CN102597962B (zh) 用于虚拟计算环境中的故障管理的方法和系统
US8782024B2 (en) Managing the sharing of logical resources among separate partitions of a logically partitioned computer system
US7243266B2 (en) Computer system and detecting method for detecting a sign of failure of the computer system
US7346809B2 (en) Bootable post crash analysis environment
JP4920391B2 (ja) 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
US7478272B2 (en) Replacing a failing physical processor

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060307

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060607

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060612

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061003

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070124

R150 Certificate of patent or registration of utility model

Ref document number: 3910554

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110202

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120202

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130202

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130202

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140202

Year of fee payment: 7