JP2010039987A

JP2010039987A - 計算機システム、ハードウェア障害の処理方法及びプログラム

Info

Publication number: JP2010039987A
Application number: JP2008205465A
Authority: JP
Inventors: Mitsuo Yamamoto; 三雄山本
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-08-08
Filing date: 2008-08-08
Publication date: 2010-02-18

Abstract

【課題】
仮想計算機システムにおいて、従来ハイパバイザで検知できなかったハードウェア障害に対してその障害のハードウェア部位を隔離する。
【解決手段】
ハードウェアから成る物理サーバ上に実現される複数の論理サーバ（ＬＰＡＲ）、及び論理サーバを管理するハイパバイザを有する計算機システムにおいて障害の発生したハードウェア部位を隔離する制御を行なう。そのために、ハードウェアの障害内容および障害部位を示すシステムイベントログ(ＳＥＬ)を逐次格納する、物理サーバのベースボードマネージメントコントローラ（ＢＭＣ）に設けられた記憶部と、記憶部に格納されたＳＥＬをハイパバイザに読み出す手段と、読み出されたＳＥＬを基に障害内容および障害部位を解析する手段と、この解析手段による解析に従って障害の在るハードウェア部位を隔離する隔離手段と、を有する。
【選択図】図１

Description

本発明は、計算機システム、ハードウェア障害の処理方法及びプログラムに係り、特に、実計算機システム上に構築される複数の仮想計算機（ＬＰＡＲ）を有する仮想計算機システムにおいてハードウェアの障害が発生した場合、その障害となったハードウェア部位を隔離する制御に関するものである。

基幹システムに利用される計算機システムには高い保守性、および可用性が要求される。計算機システムの高保守性に関しては、一般的に計算機システム内で発生した障害の障害内容および障害部位を示す障害情報を保持する機能を備えている。
例えば、特許文献１には、サーバタイプのコンピュータシステムにおいて、ＰＣＩバス上でエラーを検出したデバイスを特定して、エラー処理に伴う保守性を向上させるために、ＢＭＣ（Baseboard Management Controller）を用意し、障害情報をシステムイベントログ(System Event Log：以下ＳＥＬと略す)として管理する保守方法が開示されている。

また、計算機システムの高可用性に関しては、例えば１つの実計算機上で複数のＬＰＡＲが動作する仮想計算機システムにおいてハードウェア障害が発生した場合に、障害に対して影響の受けないＬＰＡＲが停止したり、仮想計算機システム全体が停止することを避けるために、そのハードウェア障害に対する影響を隔離する機能を備えている。

この種の技術に関して、特許文献２には、仮想計算機システムのハイパバイザに、ハードウェア障害の内容を示す障害情報を生成する障害検知手段と、障害情報の出力手段とを設け、出力手段が出力した障害情報に基いて、障害が発生したハードウェアが割り当てられているＬＰＡＲのゲストＯＳを用いて、障害処理を実行される仮想計算機システムが開示されている。

特開２００３−２２２２２号公報特開２００７−２３３６８７号公報

特許文献２に記載のハードウェア障害の処理において、ハイパバイザの障害検知手段はＣＰＵから得られる障害情報を元にハードウェア障害の発生を検知している。しかし、この障害検知手段は、仮想計算機システムに発生する全てのハードウェア障害が検知できるわけではない。

通常例えば、実計算機システムの温度異常障害および電源異常障害はＳＶＰ（Service Processor）が検知し、物理サーバの温度異常障害および電源異常障害はＢＭＣが検知し、ＮＭＩ（Non Maskable Interrupt）でハイパバイザに報告される障害はＣＰＵ上のファームウェアが検知し、Ｉ／Ｏデバイス障害はＬＰＡＲ上のデバイスドライバが検知する。これらの障害はいずれもハイパバイザが検知することが出来ないため、これらのハードウェア障害に対して、ハイパバイザはそのハードウェア部位を隔離することが出来ないという問題がある。

本発明の目的は、仮想計算機システムにおけるハードウェア障害を検知して、ハイパバイザの制御によって障害のあるハードウェア部位を隔離することにある。

本発明に係る仮想計算機システムは、好ましくは、ハードウェアから成る物理サーバ上に実現される複数の論理サーバ（ＬＰＡＲ）、及び該論理サーバを管理するハイパバイザを有する計算機システムにおいて、ハードウェアの障害内容および障害部位を示すシステムイベントログ(ＳＥＬ)を逐次格納する、該物理サーバのベースボードマネージメントコントローラ（ＢＭＣ）に設けられた記憶部と、該記憶部に格納された該ＳＥＬをハイパバイザに読み出す手段と、読み出された該ＳＥＬを基に障害内容および障害部位を解析する手段と、該解析手段による解析に従って障害の在るハードウェア部位を隔離する隔離手段と、を有することを特徴とする仮想計算機システムとして構成される。

前記記憶部は、例えば、該ＢＭＣ上で動作するファームウェアが検知したハードウェア障害の障害内容および障害部位を示すＳＥＬ、又は該物理サーバにあるＣＰＵ上で動作するファームウェアが検知したハードウェア障害の障害内容および障害部位を示すＳＥＬ、又はサービスプロセッサ（ＳＶＰ）上で動作するファームウェアが検知したハードウェア障害の障害内容および障害部位を示すＳＥＬ、又はハイパバイザにより実現されるＬＰＡＲ上で動作するＯＳ上のアプリケーションである障害検知ツールが検知したハードウェア障害の障害内容および障害部位を示すＳＥＬ、の少なくとも１つのＳＥＬを格納する。

また、好ましい例では、前記計算機システムは複数の物理サーバを有し、前記隔離手段は、障害の発生したハードウェア部位を含む前記物理サーバ上で動作するあるＬＰＡＲを、障害の発生していない他の物理サーバ上に移動する。

本発明に係るハードウェア障害処理方法は、好ましくは、ハードウェアから成る物理サーバ上に実現される複数の論理サーバ（ＬＰＡＲ）、及び該論理サーバを管理するハイパバイザを有する計算機システムにおけるハードウェア障害の処理方法であって、ハードウェアの障害内容および障害部位を示すシステムイベントログ(ＳＥＬ)を、該物理サーバのベースボードマネージメントコントローラ（ＢＭＣ）に設けられた記憶部に記憶するステップと、該記憶部に格納された該ＳＥＬをハイパバイザに読み出すステップと、読み出された該ＳＥＬを基に障害内容および障害部位を解析するステップと、該解析に従って障害の在るハードウェア部位を隔離するステップと、を有することを特徴とするハードウェア障害の処理方法として構成される。

また、本発明に係るプログラムは、好ましくは、ハードウェアから成る物理サーバ上に実現される複数の論理サーバ（ＬＰＡＲ）、及び該論理サーバを管理するハイパバイザを有する計算機システムにおけるハードウェア障害に対する制御を行なうための機能を該ハイパバイザで実現するためのプログラムであって、該物理サーバのベースボードマネージメントコントローラ（ＢＭＣ）に設けられた記憶部に格納された、ハードウェアの障害内容および障害部位を示すシステムイベントログ(ＳＥＬ)を読み出す機能と、読み出された該ＳＥＬを基に障害内容および障害部位を解析する機能と、該解析機能による解析に従って障害の在るハードウェア部位を隔離する隔離機能と、を実行することを特徴とするプログラムとして構成される。

本発明によれば、従来、ハイパバイザで検知出来なかった、ＢＭＣ上で動作するファームウェア、ＣＰＵ上で動作するファームウェア、ＳＶＰ上で動作するファームウェア、およびＬＰＡＲ上で動作するＯＳ上のアプリケーションである障害検知ツールが検知するハードウェア障害に対して、ハイパバイザで障害を検知してそのハードウェア部位を隔離することができ、仮想計算機システムの可用性を向上させることが可能である。

以下、図面を使用して本発明の実施形態を具体的に説明する。
図１は、一実施形態によるハードウェア障害隔離を実現する仮想計算機システムを示す。
実計算機システム１００は、ハードウェアとして物理サーバ３００及びＩ／Ｏデバイス５００、サービスプロサッサ（ＳＶＰ）４００を有し、更に複数の論理サーバ（ＬＰＡＲ）１１０〜１１２と、これらのＬＰＡＲを作成して管理するハイパバイザ２００と、を有して構成される。ＬＰＡＲ１１０〜１１２及びハイパバイザ２００は、物理サーバ３００上で制御プログラムを実行することで、各機能が実現される。
ＬＰＡＲ１１０〜１１２は、それぞれＯＳ（ゲストＯＳ）１４０〜１４２、Ｉ／Ｏデバイス５００をアクセスするデバイスドライバ１３０〜１３２、及び障害を検知する障害検知ツール１２０〜１２２、及びＯＳのログを記憶するログＤＢ１４７〜１４９を有する。

物理サーバ３００は、ＢＭＣ（Baseboard Management Controller）３１０、複数のプロセッサ３２０、複数のメモリ３３０、およびチップセット３４０等のハードウェアを有する。ＢＭＣ３１０内には実計算機システム内で発生した障害の障害情報を示すシステムイベントログ（ＳＥＬ）が格納されるＳＥＬ格納領域３１１が設けられる。ＳＥＬは、例えば障害の発生した部位（ハードウェア部位）、障害の内容、障害レベル、障害発生時刻、等の障害情報を示す１６バイトの情報である。

プロセッサ３２０上で動作するファームウェア３２８、ＢＭＣ３１０上で動作するファームウェア３１２、およびＳＶＰ４００上で動作するファームウェア４０８は、ハードウェア障害を検出すると、その障害部位および障害内容等を示すＳＥＬを作成してＢＭＣ３１０内のＳＥＬ格納領域３１１へ書き込む。

一方、デバイスドライバ１３０〜１３２はＩ／Ｏデバイス５００の障害を検知すると、Ｉ／Ｏデバイス５００で障害が発生した旨をＯＳ１４０〜１４２に通知し、ＯＳ１４０〜１４２はログ１４７〜１４９に障害情報を書き込む。ＯＳ１４０〜１４２上のアプリケーションである障害検知ツール１２０〜１２２は、それぞれＯＳのログ１４７〜１４９を定期的に監視し、Ｉ／Ｏデバイス５００の障害を示す障害情報が書き込まれたことを検知すると、障害情報を解析して障害部位、および障害内容等が示されているＳＥＬを作成しＢＭＣ３１０内のＳＥＬ格納領域３１１へ書き込む。

また、ハイパバイザ２００は、障害が発生したことを示す割り込みを受け付けた時、もしくは一定時間経過毎に、ＢＭＣ３１０内のＳＥＬ格納領域３１１に格納されたＳＥＬを、インタフェース２４０を介して読み出す。ＳＥＬ解析部２１０は、ＳＥＬ格納領域３１１から読み出されたＳＥＬからその障害内容および障害部位を解析する。障害隔離部２２０は、解析結果に従って障害のハードウェア部位を隔離する制御を行う。例えば、複数の物理サーバを有する計算機システムの場合、障害の発生したハードウェア部位を含む物理サーバ上で動作するあるＬＰＡＲを、障害の発生していない他の物理サーバ上に移動する制御を行なう。この障害隔離部２２０による隔離制御の例については、図２〜５を参照して、以下の実施例１〜４で詳細に説明する。

[実施例１]
図２は、ＳＶＰ４００上で動作するファームウェアが実計算機システムの温度異常障害を検知した場合の、ハイパバイザによる障害隔離する処理を示す。
実計算機システム１００において、冷却ファン６１０〜６１４は複数の物理サーバ３００〜３０３およびＩ／Ｏデバイス５００を冷却する。ＳＶＰ４００は温度センサ４１０〜４１４によって、各物理サーバ３００〜３０３およびＩ／Ｏデバイス５００の温度を監視している。ここで、４台の物理サーバ３００〜３０３はシンメトリックマルチプロセッサ（ＳＭＰ：Symmetric Multi Processor）構成で１つの物理サーバとして動作する。物理サーバ上でハイパバイザ２００が動作し、物理サーバ３００上で動作するＬＰＡＲ１１０及びＬＰＡＲ１１１、物理サーバ３０１上で動作するＬＰＡＲ１１２、物理サーバ３０２上で動作するＬＰＡＲ１１３、および物理サーバ３０３上で動作するＬＰＡＲ１１４を形成している。

この状態で、例えば冷却ファン６１０に異常が発生して物理サーバ３００の温度が上昇し、温度センサ４１０が閾値超えの異常を示したとする。ＳＶＰ４００上で動作するファームウェア４０８は物理サーバ３００を監視する温度センサ４１０の閾値超え異常を検知し、ＳＥＬを作成してＢＭＣ３１０内のＳＥＬ格納領域３１１に書き込む。ハイパバイザ２００のＳＥＬ解析部２１０はＳＥＬ格納領域３１１に、新しいＳＥＬが書き込まれたことを検出すると、そのＳＥＬを読み出してその障害内容を解析する。

障害の解析の結果、物理サーバ３００を監視する温度センサ４１０の閾値超え異常であると認識すると、障害隔離部２２０は、物理サーバ３００上で動作しているＬＰＡＲ１１０とＬＰＡＲ１１１を、障害の発生していない物理サーバ（図２ではＬＰＡＲ１１０を物理サーバ３０１へ、ＬＰＡＲ１１１を物理サーバ３０２へ）移動させて動作させるように制御する。これにより、冷却ファン６１０の異常による温度センサ４１０の閾値超え異常に対して、ハイパバイザ２００は障害のハードウェア部位を隔離することができ、引き続く温度上昇に伴う物理サーバ３００の障害停止によるＬＰＡＲの障害停止を未然に回避することが出来る。

なお、図２では、ＳＶＰ４００上で動作するファームウェアが検知した実計算機システムの温度異常をハイパバイザ２００が障害隔離する処理を示したが、ＳＶＰ４００上で動作するファームウェアが検知する実計算機システムの電源異常も同様な処理でハイパバイザが障害隔離することが可能である。

[実施例２]
図３は、ＢＭＣ上で動作するファームウェアがプロセッサの電圧異常の障害を検知した場合の、ハイパバイザによる障害隔離する処理を示す。
プロセッサ３２０、３２１には電源装置６００より電源が供給されており、それぞれ電源センサ４２０、４２１で各プロセッサに対する電源の供給値を監視している。プロセッサ３２０上でハイパバイザ２００が作成した仮想プロセッサ１５０および１５１が動作し、プロセッサ３２１上で仮想プロセッサ１５２および１５３が動作しているとする。

この状態で、電源装置６００に異常が発生し、プロセッサ３２０へ供給する電圧がプロセッサの許容範囲を超え、電源センサ４２０が閾値超え異常を示したとする。ＢＭＣ３１０上で動作するファームウェア３１２は電源センサ４２０の閾値超え異常を検知し、ＳＥＬを作成してＳＥＬ格納領域３１１に書き込む。ハイパバイザ２００は、インタフェース２４０を介してＳＥＬ格納領域３１１からそのＳＥＬを読み出し、ＳＥＬ解析部２１０はそのＳＥＬを解析する。解析の結果、プロセッサ３２０を監視する電源センサ４２０の閾値超え異常であると認識すると、障害隔離部２２０はプロセッサ３２０上で動作する仮想プロセッサ１５０および１５１を、プロセッサ３２１で動作するように構成の変更を行い、プロセッサ３２０を使わないようにする。

これにより、電源装置６００の異常による電源センサ４２０の閾値超え異常に対して、ハイパバイザ２００は隔離を行うことができ、引き続く電圧異常に伴うプロセッサ３２０の障害停止による仮想プロセッサの障害停止を未然に回避することが出来る。
なお、図３では、ＢＭＣ上で動作するファームウェアが検知したプロセッサの電源異常をハイパバイザが障害隔離する処理を示したが、ＢＭＣ上で動作するファームウェアが検知するプロセッサの温度異常も同様な処理でハイパバイザが障害隔離することが可能である。

[実施例３]
図４は、プロセッサ上のファームウェアがメモリの訂正不可能障害を検知した場合の、ハイパバイザによる障害隔離する処理を示す。
物理サーバ３００上のメモリ３３０にはＬＰＡＲ１１０のデータ、メモリ３３１にはＬＰＡＲ１１１のデータ、メモリ３３２にはＬＰＡＲ１１２のデータが格納されているとする。

この状態で、プロセッサ３２０がメモリ３３０にアクセスした時にメモリの訂正不可能障害が発生したとする。メモリの訂正不可能障害は、プロセッサ３２０に対してＳＭＩ（System Management Interrupt）により報告される。プロセッサ３２０上で動作するファームウェア３２８はＳＭＩを検知すると、障害要因が示されているプロセッサの障害要因レジスタを読み出して障害解析を行う。この障害解析によりメモリ＃０３３０で訂正不可能障害が発生したことを認識すると、ＳＥＬを作成してＢＭＣ３１０のＳＥＬ格納領域３１１に書き込む。その後、障害要因レジスタをクリアし、ハイパバイザ２００にＮＭＩを報告する。

ＮＭＩを受け付けたハイパバイザは、ＢＭＣ３１０のＳＥＬ格納領域３１１からＳＥＬをインタフェース２４０を介して読み出し、ＳＥＬ解析部２１０はそのＳＥＬを解析してメモリ３３０の訂正不可能障害が発生したことを認識する。そして、障害隔離部２２０は、ＬＰＡＲの構成を管理する構成情報２３０を読み出し、メモリ３３０にＬＰＡＲ１１０のデータが存在していることを認識すると、ＬＰＡＲ１１０に対してＮＭＩを報告し、ＬＰＡＲ１１０上で動作しているＯＳ１４０に対してＬＰＡＲ１１０が動作出来ない致命的な障害が発生したことを通知する。

ＮＭＩを受け付けたＬＰＡＲ１１０のＯＳ１４０は障害停止するが、メモリ３３０の訂正不可能障害に対して影響の受けないＬＰＡＲ１１１およびＬＰＡＲ１１２は正常に動作したままにすることができ、その結果、メモリの訂正不可能障害の影響範囲を最小限にすることが出来る。

また、ハイパバイザ２００はメモリ３３０で訂正不可能障害が発生したことを構成情報２３０に記録しておき、ＮＭＩにより障害停止したＬＰＡＲ１１０を再起動させる時には、訂正不可能障害が発生したメモリ３３０の使用を避け、他の正常なメモリ（図４ではメモリ３３３）にＬＰＡＲ１１０のデータを割り当てることにより、訂正不可能障害の再発を避けるようにする。これにより、メモリの訂正不可能障害の隔離を行うことが出来る。

なお、図４では、プロセッサ３２０上のファームウェアが検知したメモリの訂正不可能障害をハイパバイザが障害隔離する処理を示したが、プロセッサ３２０上のファームウェアが検知するチップセットの訂正不可能障害、プロセッサとメモリ間バスの訂正不可能障害、およびチップセットとＩ／Ｏデバイス間バスの訂正不可能障害も同様な処理でハイパバイザが障害隔離することが可能である。

[実施例４]
図５は、ＯＳ上の障害検知ツールがＩ／Ｏデバイス障害を検知した場合の、ハイパバイザによる障害隔離する処理を示す。
例えば、ＮＩＣ５１０に障害が発生したとする。ＬＰＡＲ１１０上のデバイスドライバ１３０は、ＮＩＣ５１０にアクセスした際に障害を検知すると、ＮＩＣ５１０に障害が発生した旨をＯＳ１４０に通知し、ＯＳ１４０はログＤＢ１４７にＮＩＣ５１０の障害を示すログを書き込むと共にＮＩＣ５１０の使用を抑止し、ＬＰＡＲ１１０上のＯＳ１４０からはＮＩＣ５１０の障害は隔離された状態となる。障害検知ツール１２０はＯＳ１４０のログ領域１４７を定期的に監視しており、ＮＩＣ５１０の障害を示すログが書き込まれたことを検知すると、ＳＥＬを作成しＢＭＣ３１０のＳＥＬ格納領域３１１に書き込む。
ハイパバイザ２００のＳＥＬ解析部２１０はＢＭＣ３１０内のＳＥＬ格納領域３１１に、新しいＳＥＬが書き込まれたことを検出すると、そのＳＥＬの内容を解析する。

これにより、ＮＩＣ５１０に障害が発生したことを認識し、ハイパバイザ２００が持つ構成情報２３０にＮＩＣ５１０でハードウェア障害が発生していることを記録する。この後、ＬＰＡＲ１１０を停止させて、新たに別のＬＰＡＲを作成した場合でも、構成情報２３０を元に障害が発生しているＮＩＣ５１０は新たに作成するＬＰＡＲには割り当てないようにする。これにより、障害が発生しているＮＩＣ５１０の再利用を避けることができ、ハイパバイザはＮＩＣ５１０の障害対して隔離を行うことが出来る。

なおここで、ＯＳ上の障害検知ツールが検知したＮＩＣ障害をハイパバイザが障害隔離する処理を示したが、図５に示したように、ファイバチャネル（ＦＣ）５１１、ＵＳＢ５１２、およびＳＣＳＩ５１３で発生した障害も同様な処理でハイパバイザが障害隔離を行うことが出来る。なおＩ／Ｏデバイスは図５に示したものに限定されるものではないことは勿論である。

一実施例による障害のハードウェア部位を隔離するための仮想計算機システムの構成例を示す図。物理サーバの温度異常の障害を隔離する処理の一例を示す図。プロセッサの電源異常の障害を隔離する処理の一例を示す図。メモリ訂正不可能障害を隔離する処理の一例を示す図。ＮＩＣ障害を隔離する処理の一例を示す図。

符号の説明

１００：実計算機システム１１０〜１１４：論理サーバ１２０〜１２２：障害検知ツール１３０〜１３２：デバイスドライバ１４０〜１４２：ＯＳ１４７〜１４９：ログＤＢ１５０〜１５３：仮想プロセッサ
２００：ハイパバイザ２１０：ＳＥＬ解析部２２０：障害隔離部２３０：構成情報３００〜３０３：物理サーバ３１０：ＢＭＣ３１１：ＳＥＬ格納領域
３１２：ＢＭＣ上で動作するファームウェア３２０、３２１：プロセッサ
３２８：プロセッサ上で動作するファームウェア３３０〜３３３：メモリ
３４０：チップセット４００：ＳＶＰ４０８：ＳＶＰ上で動作するファームウェア
４１０〜４１４：温度センサ４２０、４２１：電源センサ
５００：Ｉ／Ｏデバイス５１０：ＮＩＣ５１１：ファイバチャネル５１２：ＵＳＢ５１３：ＳＣＳＩ６００：電源装置６１０〜６１４：冷却ファン。

Claims

ハードウェアから成る物理サーバ上に実現される複数の論理サーバ（ＬＰＡＲ）、及び該論理サーバを管理するハイパバイザを有する計算機システムにおいて、
ハードウェアの障害内容および障害部位を示すシステムイベントログ(ＳＥＬ)を逐次格納する、該物理サーバのベースボードマネージメントコントローラ（ＢＭＣ）に設けられた記憶部と、該記憶部に格納された該ＳＥＬをハイパバイザに読み出す手段と、読み出された該ＳＥＬを基に障害内容および障害部位を解析する手段と、該解析手段による解析に従って障害の在るハードウェア部位を隔離する隔離手段と、を有することを特徴とする仮想計算機システム。
前記記憶部は、該ＢＭＣ上で動作するファームウェアが検知したハードウェア障害の障害内容および障害部位を示すＳＥＬ、又は該物理サーバにあるＣＰＵ上で動作するファームウェアが検知したハードウェア障害の障害内容および障害部位を示すＳＥＬ、又はサービスプロセッサ（ＳＶＰ）上で動作するファームウェアが検知したハードウェア障害の障害内容および障害部位を示すＳＥＬ、又はハイパバイザにより実現されるＬＰＡＲ上で動作するＯＳ上のアプリケーションである障害検知ツールが検知したハードウェア障害の障害内容および障害部位を示すＳＥＬ、の少なくとも１つのＳＥＬを格納することを特徴とする請求項１記載の計算機システム。
前記計算機システムは複数の物理サーバを有し、
前記隔離手段は、障害の発生したハードウェア部位を含む前記物理サーバ上で動作するあるＬＰＡＲを、障害の発生していない他の物理サーバ上に移動することを特徴とする請求項１又は２の計算機システム。
ハードウェアから成る物理サーバ上に実現される複数の論理サーバ（ＬＰＡＲ）、及び該論理サーバを管理するハイパバイザを有する計算機システムにおけるハードウェア障害の処理方法であって、
ハードウェアの障害内容および障害部位を示すシステムイベントログ(ＳＥＬ)を、該物理サーバのベースボードマネージメントコントローラ（ＢＭＣ）に設けられた記憶部に格納するステップと、該記憶部に格納された該ＳＥＬをハイパバイザに読み出すステップと、読み出された該ＳＥＬを基に障害内容および障害部位を解析するステップと、該解析に従って障害の在るハードウェア部位を隔離するステップと、を有することを特徴とするハードウェア障害の処理方法。
該ＢＭＣ上で動作するファームウェアがハードウェア障害を検知し、その検知したハードウェア障害の障害内容および障害部位を示す前記ＳＥＬ、
又は該物理サーバにあるＣＰＵ上で動作するファームウェアがハードウェア障害を検知し、その検知したハードウェア障害の障害内容および障害部位を示す前記ＳＥＬ、
又はサービスプロセッサ（ＳＶＰ）上で動作するファームウェアがハードウェア障害を検知し、その検知したハードウェア障害の障害内容および障害部位を示す前記ＳＥＬ、
又は該ハイパバイザにより実現されるＬＰＡＲ上で動作するＯＳ上のアプリケーションである障害検知ツールがハードウェア障害を検知し、その検知したハードウェア障害の障害内容および障害部位を示す前記ＳＥＬ、
の少なくとも１つのＳＥＬを前記記憶部に格納することを特徴とする請求項４のハードウェア障害の処理方法。
前記隔離の処理として、障害の発生したハードウェア部位を含む前記物理サーバ上で動作するあるＬＰＡＲを、障害の発生していない他の物理サーバ上に移動することを特徴とする請求項４又は５のハードウェア障害の処理方法。
ハードウェアから成る物理サーバ上に実現される複数の論理サーバ（ＬＰＡＲ）、及び該論理サーバを管理するハイパバイザを有する計算機システムにおけるハードウェア障害に対する制御を行なうための機能を該ハイパバイザで実現するためのプログラムであって、
該物理サーバのベースボードマネージメントコントローラ（ＢＭＣ）に設けられた記憶部に格納された、ハードウェアの障害内容および障害部位を示すシステムイベントログ(ＳＥＬ)を読み出す機能と、読み出された該ＳＥＬを基に障害内容および障害部位を解析する機能と、該解析機能による解析に従って障害の在るハードウェア部位を隔離する隔離機能と、を実行することを特徴とするプログラム。