JP2010039987A - 計算機システム、ハードウェア障害の処理方法及びプログラム - Google Patents
計算機システム、ハードウェア障害の処理方法及びプログラム Download PDFInfo
- Publication number
- JP2010039987A JP2010039987A JP2008205465A JP2008205465A JP2010039987A JP 2010039987 A JP2010039987 A JP 2010039987A JP 2008205465 A JP2008205465 A JP 2008205465A JP 2008205465 A JP2008205465 A JP 2008205465A JP 2010039987 A JP2010039987 A JP 2010039987A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- hardware
- sel
- physical server
- hypervisor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】
仮想計算機システムにおいて、従来ハイパバイザで検知できなかったハードウェア障害に対してその障害のハードウェア部位を隔離する。
【解決手段】
ハードウェアから成る物理サーバ上に実現される複数の論理サーバ(LPAR)、及び論理サーバを管理するハイパバイザを有する計算機システムにおいて障害の発生したハードウェア部位を隔離する制御を行なう。そのために、ハードウェアの障害内容および障害部位を示すシステムイベントログ(SEL)を逐次格納する、物理サーバのベースボードマネージメントコントローラ(BMC)に設けられた記憶部と、記憶部に格納されたSELをハイパバイザに読み出す手段と、読み出されたSELを基に障害内容および障害部位を解析する手段と、この解析手段による解析に従って障害の在るハードウェア部位を隔離する隔離手段と、を有する。
【選択図】図1
仮想計算機システムにおいて、従来ハイパバイザで検知できなかったハードウェア障害に対してその障害のハードウェア部位を隔離する。
【解決手段】
ハードウェアから成る物理サーバ上に実現される複数の論理サーバ(LPAR)、及び論理サーバを管理するハイパバイザを有する計算機システムにおいて障害の発生したハードウェア部位を隔離する制御を行なう。そのために、ハードウェアの障害内容および障害部位を示すシステムイベントログ(SEL)を逐次格納する、物理サーバのベースボードマネージメントコントローラ(BMC)に設けられた記憶部と、記憶部に格納されたSELをハイパバイザに読み出す手段と、読み出されたSELを基に障害内容および障害部位を解析する手段と、この解析手段による解析に従って障害の在るハードウェア部位を隔離する隔離手段と、を有する。
【選択図】図1
Description
本発明は、計算機システム、ハードウェア障害の処理方法及びプログラムに係り、特に、実計算機システム上に構築される複数の仮想計算機(LPAR)を有する仮想計算機システムにおいてハードウェアの障害が発生した場合、その障害となったハードウェア部位を隔離する制御に関するものである。
基幹システムに利用される計算機システムには高い保守性、および可用性が要求される。計算機システムの高保守性に関しては、一般的に計算機システム内で発生した障害の障害内容および障害部位を示す障害情報を保持する機能を備えている。
例えば、特許文献1には、サーバタイプのコンピュータシステムにおいて、PCIバス上でエラーを検出したデバイスを特定して、エラー処理に伴う保守性を向上させるために、BMC(Baseboard Management Controller)を用意し、障害情報をシステムイベントログ(System Event Log:以下SELと略す)として管理する保守方法が開示されている。
例えば、特許文献1には、サーバタイプのコンピュータシステムにおいて、PCIバス上でエラーを検出したデバイスを特定して、エラー処理に伴う保守性を向上させるために、BMC(Baseboard Management Controller)を用意し、障害情報をシステムイベントログ(System Event Log:以下SELと略す)として管理する保守方法が開示されている。
また、計算機システムの高可用性に関しては、例えば1つの実計算機上で複数のLPARが動作する仮想計算機システムにおいてハードウェア障害が発生した場合に、障害に対して影響の受けないLPARが停止したり、仮想計算機システム全体が停止することを避けるために、そのハードウェア障害に対する影響を隔離する機能を備えている。
この種の技術に関して、特許文献2には、仮想計算機システムのハイパバイザに、ハードウェア障害の内容を示す障害情報を生成する障害検知手段と、障害情報の出力手段とを設け、出力手段が出力した障害情報に基いて、障害が発生したハードウェアが割り当てられているLPARのゲストOSを用いて、障害処理を実行される仮想計算機システムが開示されている。
特許文献2に記載のハードウェア障害の処理において、ハイパバイザの障害検知手段はCPUから得られる障害情報を元にハードウェア障害の発生を検知している。しかし、この障害検知手段は、仮想計算機システムに発生する全てのハードウェア障害が検知できるわけではない。
通常例えば、実計算機システムの温度異常障害および電源異常障害はSVP(Service Processor)が検知し、物理サーバの温度異常障害および電源異常障害はBMCが検知し、NMI(Non Maskable Interrupt)でハイパバイザに報告される障害はCPU上のファームウェアが検知し、I/Oデバイス障害はLPAR上のデバイスドライバが検知する。これらの障害はいずれもハイパバイザが検知することが出来ないため、これらのハードウェア障害に対して、ハイパバイザはそのハードウェア部位を隔離することが出来ないという問題がある。
本発明の目的は、仮想計算機システムにおけるハードウェア障害を検知して、ハイパバイザの制御によって障害のあるハードウェア部位を隔離することにある。
本発明に係る仮想計算機システムは、好ましくは、ハードウェアから成る物理サーバ上に実現される複数の論理サーバ(LPAR)、及び該論理サーバを管理するハイパバイザを有する計算機システムにおいて、ハードウェアの障害内容および障害部位を示すシステムイベントログ(SEL)を逐次格納する、該物理サーバのベースボードマネージメントコントローラ(BMC)に設けられた記憶部と、該記憶部に格納された該SELをハイパバイザに読み出す手段と、読み出された該SELを基に障害内容および障害部位を解析する手段と、該解析手段による解析に従って障害の在るハードウェア部位を隔離する隔離手段と、を有することを特徴とする仮想計算機システムとして構成される。
前記記憶部は、例えば、該BMC上で動作するファームウェアが検知したハードウェア障害の障害内容および障害部位を示すSEL、又は該物理サーバにあるCPU上で動作するファームウェアが検知したハードウェア障害の障害内容および障害部位を示すSEL、又はサービスプロセッサ(SVP)上で動作するファームウェアが検知したハードウェア障害の障害内容および障害部位を示すSEL、又はハイパバイザにより実現されるLPAR上で動作するOS上のアプリケーションである障害検知ツールが検知したハードウェア障害の障害内容および障害部位を示すSEL、の少なくとも1つのSELを格納する。
また、好ましい例では、前記計算機システムは複数の物理サーバを有し、前記隔離手段は、障害の発生したハードウェア部位を含む前記物理サーバ上で動作するあるLPARを、障害の発生していない他の物理サーバ上に移動する。
本発明に係るハードウェア障害処理方法は、好ましくは、ハードウェアから成る物理サーバ上に実現される複数の論理サーバ(LPAR)、及び該論理サーバを管理するハイパバイザを有する計算機システムにおけるハードウェア障害の処理方法であって、ハードウェアの障害内容および障害部位を示すシステムイベントログ(SEL)を、該物理サーバのベースボードマネージメントコントローラ(BMC)に設けられた記憶部に記憶するステップと、該記憶部に格納された該SELをハイパバイザに読み出すステップと、読み出された該SELを基に障害内容および障害部位を解析するステップと、該解析に従って障害の在るハードウェア部位を隔離するステップと、を有することを特徴とするハードウェア障害の処理方法として構成される。
また、本発明に係るプログラムは、好ましくは、ハードウェアから成る物理サーバ上に実現される複数の論理サーバ(LPAR)、及び該論理サーバを管理するハイパバイザを有する計算機システムにおけるハードウェア障害に対する制御を行なうための機能を該ハイパバイザで実現するためのプログラムであって、該物理サーバのベースボードマネージメントコントローラ(BMC)に設けられた記憶部に格納された、ハードウェアの障害内容および障害部位を示すシステムイベントログ(SEL)を読み出す機能と、読み出された該SELを基に障害内容および障害部位を解析する機能と、該解析機能による解析に従って障害の在るハードウェア部位を隔離する隔離機能と、を実行することを特徴とするプログラムとして構成される。
本発明によれば、従来、ハイパバイザで検知出来なかった、BMC上で動作するファームウェア、CPU上で動作するファームウェア、SVP上で動作するファームウェア、およびLPAR上で動作するOS上のアプリケーションである障害検知ツールが検知するハードウェア障害に対して、ハイパバイザで障害を検知してそのハードウェア部位を隔離することができ、仮想計算機システムの可用性を向上させることが可能である。
以下、図面を使用して本発明の実施形態を具体的に説明する。
図1は、一実施形態によるハードウェア障害隔離を実現する仮想計算機システムを示す。
実計算機システム100は、ハードウェアとして物理サーバ300及びI/Oデバイス500、サービスプロサッサ(SVP)400を有し、更に複数の論理サーバ(LPAR)110〜112と、これらのLPARを作成して管理するハイパバイザ200と、を有して構成される。LPAR110〜112及びハイパバイザ200は、物理サーバ300上で制御プログラムを実行することで、各機能が実現される。
LPAR110〜112は、それぞれOS(ゲストOS)140〜142、I/Oデバイス500をアクセスするデバイスドライバ130〜132、及び障害を検知する障害検知ツール120〜122、及びOSのログを記憶するログDB147〜149を有する。
図1は、一実施形態によるハードウェア障害隔離を実現する仮想計算機システムを示す。
実計算機システム100は、ハードウェアとして物理サーバ300及びI/Oデバイス500、サービスプロサッサ(SVP)400を有し、更に複数の論理サーバ(LPAR)110〜112と、これらのLPARを作成して管理するハイパバイザ200と、を有して構成される。LPAR110〜112及びハイパバイザ200は、物理サーバ300上で制御プログラムを実行することで、各機能が実現される。
LPAR110〜112は、それぞれOS(ゲストOS)140〜142、I/Oデバイス500をアクセスするデバイスドライバ130〜132、及び障害を検知する障害検知ツール120〜122、及びOSのログを記憶するログDB147〜149を有する。
物理サーバ300は、BMC(Baseboard Management Controller)310、複数のプロセッサ320、複数のメモリ330、およびチップセット340等のハードウェアを有する。BMC310内には実計算機システム内で発生した障害の障害情報を示すシステムイベントログ(SEL)が格納されるSEL格納領域311が設けられる。SELは、例えば障害の発生した部位(ハードウェア部位)、障害の内容、障害レベル、障害発生時刻、等の障害情報を示す16バイトの情報である。
プロセッサ320上で動作するファームウェア328、BMC310上で動作するファームウェア312、およびSVP400上で動作するファームウェア408は、ハードウェア障害を検出すると、その障害部位および障害内容等を示すSELを作成してBMC310内のSEL格納領域311へ書き込む。
一方、デバイスドライバ130〜132はI/Oデバイス500の障害を検知すると、I/Oデバイス500で障害が発生した旨をOS140〜142に通知し、OS140〜142はログ147〜149に障害情報を書き込む。OS140〜142上のアプリケーションである障害検知ツール120〜122は、それぞれOSのログ147〜149を定期的に監視し、I/Oデバイス500の障害を示す障害情報が書き込まれたことを検知すると、障害情報を解析して障害部位、および障害内容等が示されているSELを作成しBMC310内のSEL格納領域311へ書き込む。
また、ハイパバイザ200は、障害が発生したことを示す割り込みを受け付けた時、もしくは一定時間経過毎に、BMC310内のSEL格納領域311に格納されたSELを、インタフェース240を介して読み出す。SEL解析部210は、SEL格納領域311から読み出されたSELからその障害内容および障害部位を解析する。障害隔離部220は、解析結果に従って障害のハードウェア部位を隔離する制御を行う。例えば、複数の物理サーバを有する計算機システムの場合、障害の発生したハードウェア部位を含む物理サーバ上で動作するあるLPARを、障害の発生していない他の物理サーバ上に移動する制御を行なう。この障害隔離部220による隔離制御の例については、図2〜5を参照して、以下の実施例1〜4で詳細に説明する。
[実施例1]
図2は、SVP400上で動作するファームウェアが実計算機システムの温度異常障害を検知した場合の、ハイパバイザによる障害隔離する処理を示す。
実計算機システム100において、冷却ファン610〜614は複数の物理サーバ300〜303およびI/Oデバイス500を冷却する。SVP400は温度センサ410〜414によって、各物理サーバ300〜303およびI/Oデバイス500の温度を監視している。ここで、4台の物理サーバ300〜303はシンメトリックマルチプロセッサ(SMP:Symmetric Multi Processor)構成で1つの物理サーバとして動作する。物理サーバ上でハイパバイザ200が動作し、物理サーバ300上で動作するLPAR110及びLPAR111、物理サーバ301上で動作するLPAR112、物理サーバ302上で動作するLPAR113、および物理サーバ303上で動作するLPAR114を形成している。
図2は、SVP400上で動作するファームウェアが実計算機システムの温度異常障害を検知した場合の、ハイパバイザによる障害隔離する処理を示す。
実計算機システム100において、冷却ファン610〜614は複数の物理サーバ300〜303およびI/Oデバイス500を冷却する。SVP400は温度センサ410〜414によって、各物理サーバ300〜303およびI/Oデバイス500の温度を監視している。ここで、4台の物理サーバ300〜303はシンメトリックマルチプロセッサ(SMP:Symmetric Multi Processor)構成で1つの物理サーバとして動作する。物理サーバ上でハイパバイザ200が動作し、物理サーバ300上で動作するLPAR110及びLPAR111、物理サーバ301上で動作するLPAR112、物理サーバ302上で動作するLPAR113、および物理サーバ303上で動作するLPAR114を形成している。
この状態で、例えば冷却ファン610に異常が発生して物理サーバ300の温度が上昇し、温度センサ410が閾値超えの異常を示したとする。SVP400上で動作するファームウェア408は物理サーバ300を監視する温度センサ410の閾値超え異常を検知し、SELを作成してBMC310内のSEL格納領域311に書き込む。ハイパバイザ200のSEL解析部210はSEL格納領域311に、新しいSELが書き込まれたことを検出すると、そのSELを読み出してその障害内容を解析する。
障害の解析の結果、物理サーバ300を監視する温度センサ410の閾値超え異常であると認識すると、障害隔離部220は、物理サーバ300上で動作しているLPAR110とLPAR111を、障害の発生していない物理サーバ(図2ではLPAR110を物理サーバ301へ、LPAR111を物理サーバ302へ)移動させて動作させるように制御する。これにより、冷却ファン610の異常による温度センサ410の閾値超え異常に対して、ハイパバイザ200は障害のハードウェア部位を隔離することができ、引き続く温度上昇に伴う物理サーバ300の障害停止によるLPARの障害停止を未然に回避することが出来る。
なお、図2では、SVP400上で動作するファームウェアが検知した実計算機システムの温度異常をハイパバイザ200が障害隔離する処理を示したが、SVP400上で動作するファームウェアが検知する実計算機システムの電源異常も同様な処理でハイパバイザが障害隔離することが可能である。
[実施例2]
図3は、BMC上で動作するファームウェアがプロセッサの電圧異常の障害を検知した場合の、ハイパバイザによる障害隔離する処理を示す。
プロセッサ320、321には電源装置600より電源が供給されており、それぞれ電源センサ420、421で各プロセッサに対する電源の供給値を監視している。プロセッサ320上でハイパバイザ200が作成した仮想プロセッサ150および151が動作し、プロセッサ321上で仮想プロセッサ152および153が動作しているとする。
図3は、BMC上で動作するファームウェアがプロセッサの電圧異常の障害を検知した場合の、ハイパバイザによる障害隔離する処理を示す。
プロセッサ320、321には電源装置600より電源が供給されており、それぞれ電源センサ420、421で各プロセッサに対する電源の供給値を監視している。プロセッサ320上でハイパバイザ200が作成した仮想プロセッサ150および151が動作し、プロセッサ321上で仮想プロセッサ152および153が動作しているとする。
この状態で、電源装置600に異常が発生し、プロセッサ320へ供給する電圧がプロセッサの許容範囲を超え、電源センサ420が閾値超え異常を示したとする。BMC310上で動作するファームウェア312は電源センサ420の閾値超え異常を検知し、SELを作成してSEL格納領域311に書き込む。ハイパバイザ200は、インタフェース240を介してSEL格納領域311からそのSELを読み出し、SEL解析部210はそのSELを解析する。解析の結果、プロセッサ320を監視する電源センサ420の閾値超え異常であると認識すると、障害隔離部220はプロセッサ320上で動作する仮想プロセッサ150および151を、プロセッサ321で動作するように構成の変更を行い、プロセッサ320を使わないようにする。
これにより、電源装置600の異常による電源センサ420の閾値超え異常に対して、ハイパバイザ200は隔離を行うことができ、引き続く電圧異常に伴うプロセッサ320の障害停止による仮想プロセッサの障害停止を未然に回避することが出来る。
なお、図3では、BMC上で動作するファームウェアが検知したプロセッサの電源異常をハイパバイザが障害隔離する処理を示したが、BMC上で動作するファームウェアが検知するプロセッサの温度異常も同様な処理でハイパバイザが障害隔離することが可能である。
なお、図3では、BMC上で動作するファームウェアが検知したプロセッサの電源異常をハイパバイザが障害隔離する処理を示したが、BMC上で動作するファームウェアが検知するプロセッサの温度異常も同様な処理でハイパバイザが障害隔離することが可能である。
[実施例3]
図4は、プロセッサ上のファームウェアがメモリの訂正不可能障害を検知した場合の、ハイパバイザによる障害隔離する処理を示す。
物理サーバ300上のメモリ330にはLPAR110のデータ、メモリ331にはLPAR111のデータ、メモリ332にはLPAR112のデータが格納されているとする。
図4は、プロセッサ上のファームウェアがメモリの訂正不可能障害を検知した場合の、ハイパバイザによる障害隔離する処理を示す。
物理サーバ300上のメモリ330にはLPAR110のデータ、メモリ331にはLPAR111のデータ、メモリ332にはLPAR112のデータが格納されているとする。
この状態で、プロセッサ320がメモリ330にアクセスした時にメモリの訂正不可能障害が発生したとする。メモリの訂正不可能障害は、プロセッサ320に対してSMI(System Management Interrupt)により報告される。プロセッサ320上で動作するファームウェア328はSMIを検知すると、障害要因が示されているプロセッサの障害要因レジスタを読み出して障害解析を行う。この障害解析によりメモリ#0330で訂正不可能障害が発生したことを認識すると、SELを作成してBMC310のSEL格納領域311に書き込む。その後、障害要因レジスタをクリアし、ハイパバイザ200にNMIを報告する。
NMIを受け付けたハイパバイザは、BMC310のSEL格納領域311からSELをインタフェース240を介して読み出し、SEL解析部210はそのSELを解析してメモリ330の訂正不可能障害が発生したことを認識する。そして、障害隔離部220は、LPARの構成を管理する構成情報230を読み出し、メモリ330にLPAR110のデータが存在していることを認識すると、LPAR110に対してNMIを報告し、LPAR110上で動作しているOS140に対してLPAR110が動作出来ない致命的な障害が発生したことを通知する。
NMIを受け付けたLPAR110のOS140は障害停止するが、メモリ330の訂正不可能障害に対して影響の受けないLPAR111およびLPAR112は正常に動作したままにすることができ、その結果、メモリの訂正不可能障害の影響範囲を最小限にすることが出来る。
また、ハイパバイザ200はメモリ330で訂正不可能障害が発生したことを構成情報230に記録しておき、NMIにより障害停止したLPAR110を再起動させる時には、訂正不可能障害が発生したメモリ330の使用を避け、他の正常なメモリ(図4ではメモリ333)にLPAR110のデータを割り当てることにより、訂正不可能障害の再発を避けるようにする。これにより、メモリの訂正不可能障害の隔離を行うことが出来る。
なお、図4では、プロセッサ320上のファームウェアが検知したメモリの訂正不可能障害をハイパバイザが障害隔離する処理を示したが、プロセッサ320上のファームウェアが検知するチップセットの訂正不可能障害、プロセッサとメモリ間バスの訂正不可能障害、およびチップセットとI/Oデバイス間バスの訂正不可能障害も同様な処理でハイパバイザが障害隔離することが可能である。
[実施例4]
図5は、OS上の障害検知ツールがI/Oデバイス障害を検知した場合の、ハイパバイザによる障害隔離する処理を示す。
例えば、NIC510に障害が発生したとする。LPAR110上のデバイスドライバ130は、NIC510にアクセスした際に障害を検知すると、NIC510に障害が発生した旨をOS140に通知し、OS140はログDB147にNIC510の障害を示すログを書き込むと共にNIC510の使用を抑止し、LPAR110上のOS140からはNIC510の障害は隔離された状態となる。障害検知ツール120はOS140のログ領域147を定期的に監視しており、NIC510の障害を示すログが書き込まれたことを検知すると、SELを作成しBMC310のSEL格納領域311に書き込む。
ハイパバイザ200のSEL解析部210はBMC310内のSEL格納領域311に、新しいSELが書き込まれたことを検出すると、そのSELの内容を解析する。
図5は、OS上の障害検知ツールがI/Oデバイス障害を検知した場合の、ハイパバイザによる障害隔離する処理を示す。
例えば、NIC510に障害が発生したとする。LPAR110上のデバイスドライバ130は、NIC510にアクセスした際に障害を検知すると、NIC510に障害が発生した旨をOS140に通知し、OS140はログDB147にNIC510の障害を示すログを書き込むと共にNIC510の使用を抑止し、LPAR110上のOS140からはNIC510の障害は隔離された状態となる。障害検知ツール120はOS140のログ領域147を定期的に監視しており、NIC510の障害を示すログが書き込まれたことを検知すると、SELを作成しBMC310のSEL格納領域311に書き込む。
ハイパバイザ200のSEL解析部210はBMC310内のSEL格納領域311に、新しいSELが書き込まれたことを検出すると、そのSELの内容を解析する。
これにより、NIC510に障害が発生したことを認識し、ハイパバイザ200が持つ構成情報230にNIC510でハードウェア障害が発生していることを記録する。この後、LPAR110を停止させて、新たに別のLPARを作成した場合でも、構成情報230を元に障害が発生しているNIC510は新たに作成するLPARには割り当てないようにする。これにより、障害が発生しているNIC510の再利用を避けることができ、ハイパバイザはNIC510の障害対して隔離を行うことが出来る。
なおここで、OS上の障害検知ツールが検知したNIC障害をハイパバイザが障害隔離する処理を示したが、図5に示したように、ファイバチャネル(FC)511、USB512、およびSCSI513で発生した障害も同様な処理でハイパバイザが障害隔離を行うことが出来る。なおI/Oデバイスは図5に示したものに限定されるものではないことは勿論である。
100:実計算機システム 110〜114:論理サーバ 120〜122:障害検知ツール 130〜132:デバイスドライバ 140〜142:OS 147〜149:ログDB 150〜153:仮想プロセッサ
200:ハイパバイザ 210:SEL解析部 220:障害隔離部 230:構成情報 300〜303:物理サーバ 310:BMC 311:SEL格納領域
312:BMC上で動作するファームウェア 320、321:プロセッサ
328:プロセッサ上で動作するファームウェア 330〜333:メモリ
340:チップセット 400:SVP 408:SVP上で動作するファームウェア
410〜414:温度センサ 420、421:電源センサ
500:I/Oデバイス 510:NIC 511:ファイバチャネル 512:USB 513:SCSI 600:電源装置 610〜614:冷却ファン。
200:ハイパバイザ 210:SEL解析部 220:障害隔離部 230:構成情報 300〜303:物理サーバ 310:BMC 311:SEL格納領域
312:BMC上で動作するファームウェア 320、321:プロセッサ
328:プロセッサ上で動作するファームウェア 330〜333:メモリ
340:チップセット 400:SVP 408:SVP上で動作するファームウェア
410〜414:温度センサ 420、421:電源センサ
500:I/Oデバイス 510:NIC 511:ファイバチャネル 512:USB 513:SCSI 600:電源装置 610〜614:冷却ファン。
Claims (7)
- ハードウェアから成る物理サーバ上に実現される複数の論理サーバ(LPAR)、及び該論理サーバを管理するハイパバイザを有する計算機システムにおいて、
ハードウェアの障害内容および障害部位を示すシステムイベントログ(SEL)を逐次格納する、該物理サーバのベースボードマネージメントコントローラ(BMC)に設けられた記憶部と、該記憶部に格納された該SELをハイパバイザに読み出す手段と、読み出された該SELを基に障害内容および障害部位を解析する手段と、該解析手段による解析に従って障害の在るハードウェア部位を隔離する隔離手段と、を有することを特徴とする仮想計算機システム。 - 前記記憶部は、該BMC上で動作するファームウェアが検知したハードウェア障害の障害内容および障害部位を示すSEL、又は該物理サーバにあるCPU上で動作するファームウェアが検知したハードウェア障害の障害内容および障害部位を示すSEL、又はサービスプロセッサ(SVP)上で動作するファームウェアが検知したハードウェア障害の障害内容および障害部位を示すSEL、又はハイパバイザにより実現されるLPAR上で動作するOS上のアプリケーションである障害検知ツールが検知したハードウェア障害の障害内容および障害部位を示すSEL、の少なくとも1つのSELを格納することを特徴とする請求項1記載の計算機システム。
- 前記計算機システムは複数の物理サーバを有し、
前記隔離手段は、障害の発生したハードウェア部位を含む前記物理サーバ上で動作するあるLPARを、障害の発生していない他の物理サーバ上に移動することを特徴とする請求項1又は2の計算機システム。 - ハードウェアから成る物理サーバ上に実現される複数の論理サーバ(LPAR)、及び該論理サーバを管理するハイパバイザを有する計算機システムにおけるハードウェア障害の処理方法であって、
ハードウェアの障害内容および障害部位を示すシステムイベントログ(SEL)を、該物理サーバのベースボードマネージメントコントローラ(BMC)に設けられた記憶部に格納するステップと、該記憶部に格納された該SELをハイパバイザに読み出すステップと、読み出された該SELを基に障害内容および障害部位を解析するステップと、該解析に従って障害の在るハードウェア部位を隔離するステップと、を有することを特徴とするハードウェア障害の処理方法。 - 該BMC上で動作するファームウェアがハードウェア障害を検知し、その検知したハードウェア障害の障害内容および障害部位を示す前記SEL、
又は該物理サーバにあるCPU上で動作するファームウェアがハードウェア障害を検知し、その検知したハードウェア障害の障害内容および障害部位を示す前記SEL、
又はサービスプロセッサ(SVP)上で動作するファームウェアがハードウェア障害を検知し、その検知したハードウェア障害の障害内容および障害部位を示す前記SEL、
又は該ハイパバイザにより実現されるLPAR上で動作するOS上のアプリケーションである障害検知ツールがハードウェア障害を検知し、その検知したハードウェア障害の障害内容および障害部位を示す前記SEL、
の少なくとも1つのSELを前記記憶部に格納することを特徴とする請求項4のハードウェア障害の処理方法。 - 前記隔離の処理として、障害の発生したハードウェア部位を含む前記物理サーバ上で動作するあるLPARを、障害の発生していない他の物理サーバ上に移動することを特徴とする請求項4又は5のハードウェア障害の処理方法。
- ハードウェアから成る物理サーバ上に実現される複数の論理サーバ(LPAR)、及び該論理サーバを管理するハイパバイザを有する計算機システムにおけるハードウェア障害に対する制御を行なうための機能を該ハイパバイザで実現するためのプログラムであって、
該物理サーバのベースボードマネージメントコントローラ(BMC)に設けられた記憶部に格納された、ハードウェアの障害内容および障害部位を示すシステムイベントログ(SEL)を読み出す機能と、読み出された該SELを基に障害内容および障害部位を解析する機能と、該解析機能による解析に従って障害の在るハードウェア部位を隔離する隔離機能と、を実行することを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008205465A JP2010039987A (ja) | 2008-08-08 | 2008-08-08 | 計算機システム、ハードウェア障害の処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008205465A JP2010039987A (ja) | 2008-08-08 | 2008-08-08 | 計算機システム、ハードウェア障害の処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010039987A true JP2010039987A (ja) | 2010-02-18 |
Family
ID=42012422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008205465A Pending JP2010039987A (ja) | 2008-08-08 | 2008-08-08 | 計算機システム、ハードウェア障害の処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010039987A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013140473A (ja) * | 2012-01-04 | 2013-07-18 | Nec Corp | 障害監視システム及び障害監視方法 |
WO2013121531A1 (ja) * | 2012-02-15 | 2013-08-22 | 株式会社日立製作所 | 仮想計算機システム及び仮想計算機の障害予兆回復方法 |
WO2014141593A1 (ja) * | 2013-03-15 | 2014-09-18 | 日本電気株式会社 | 情報処理装置 |
US10176035B2 (en) | 2015-07-29 | 2019-01-08 | Fujitsu Limited | System, information processing device, and non-transitory medium for storing program for migration of virtual machine |
JP7436060B2 (ja) | 2022-02-24 | 2024-02-21 | Necプラットフォームズ株式会社 | 管理装置、制御方法、及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233687A (ja) * | 2006-03-01 | 2007-09-13 | Nec Corp | 仮想計算機システム、仮想計算機の制御方法、および仮想計算機プログラム |
JP2008140198A (ja) * | 2006-12-04 | 2008-06-19 | Hitachi Ltd | フェイルオーバ方法、およびその計算機システム。 |
JP2008176708A (ja) * | 2007-01-22 | 2008-07-31 | Hitachi Ltd | 情報処理装置 |
-
2008
- 2008-08-08 JP JP2008205465A patent/JP2010039987A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233687A (ja) * | 2006-03-01 | 2007-09-13 | Nec Corp | 仮想計算機システム、仮想計算機の制御方法、および仮想計算機プログラム |
JP2008140198A (ja) * | 2006-12-04 | 2008-06-19 | Hitachi Ltd | フェイルオーバ方法、およびその計算機システム。 |
JP2008176708A (ja) * | 2007-01-22 | 2008-07-31 | Hitachi Ltd | 情報処理装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013140473A (ja) * | 2012-01-04 | 2013-07-18 | Nec Corp | 障害監視システム及び障害監視方法 |
WO2013121531A1 (ja) * | 2012-02-15 | 2013-08-22 | 株式会社日立製作所 | 仮想計算機システム及び仮想計算機の障害予兆回復方法 |
WO2014141593A1 (ja) * | 2013-03-15 | 2014-09-18 | 日本電気株式会社 | 情報処理装置 |
KR20150122173A (ko) * | 2013-03-15 | 2015-10-30 | 닛본 덴끼 가부시끼가이샤 | 정보 처리 장치 |
CN105210043A (zh) * | 2013-03-15 | 2015-12-30 | 日本电气株式会社 | 信息处理装置 |
JPWO2014141593A1 (ja) * | 2013-03-15 | 2017-02-16 | 日本電気株式会社 | 情報処理装置 |
KR101709632B1 (ko) * | 2013-03-15 | 2017-02-23 | 닛본 덴끼 가부시끼가이샤 | 정보 처리 장치 |
US9720755B2 (en) | 2013-03-15 | 2017-08-01 | Nec Corporation | Information processing device |
US10176035B2 (en) | 2015-07-29 | 2019-01-08 | Fujitsu Limited | System, information processing device, and non-transitory medium for storing program for migration of virtual machine |
JP7436060B2 (ja) | 2022-02-24 | 2024-02-21 | Necプラットフォームズ株式会社 | 管理装置、制御方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4882845B2 (ja) | 仮想計算機システム | |
EP2813949B1 (en) | Multicore processor fault detection for safety critical software applications | |
US8135985B2 (en) | High availability support for virtual machines | |
TWI528172B (zh) | 機器檢查摘要暫存器 | |
US8627140B2 (en) | Failure management method and computer | |
US20090307538A1 (en) | Managing Paging I/O Errors During Hypervisor Page Fault Processing | |
US7257734B2 (en) | Method and apparatus for managing processors in a multi-processor data processing system | |
JP4651127B2 (ja) | 仮想マシンコンピュータシステム及び仮想マシンコンピュータシステムのフェールセーフ方法 | |
US20130080625A1 (en) | Monitoring apparatus, control method, and computer-readable recording medium | |
US10275330B2 (en) | Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus | |
JP2010039987A (ja) | 計算機システム、ハードウェア障害の処理方法及びプログラム | |
CN104636221A (zh) | 一种计算机系统故障处理方法和装置 | |
JP2010186242A (ja) | 計算機システム | |
JP2011076344A (ja) | 情報処理装置,情報処理装置の制御方法および制御プログラム | |
US9411666B2 (en) | Anticipatory protection of critical jobs in a computing system | |
JP5689783B2 (ja) | コンピュータ、コンピュータシステム、および障害情報管理方法 | |
CN115576734B (zh) | 一种多核异构日志存储方法和系统 | |
US7260752B2 (en) | Method and apparatus for responding to critical abstracted platform events in a data processing system | |
JP5452336B2 (ja) | 周辺機器障害模擬システム、周辺機器障害模擬方法および周辺機器障害模擬プログラム | |
JP2007087088A (ja) | 情報処理装置、情報処理復旧方法及び情報処理復旧プログラム | |
JP2007323142A (ja) | 情報処理装置およびその制御方法 | |
KR101268290B1 (ko) | 가상화 시스템에서 디바이스 드라이버의 오류를 탐지하고 복구하는 장치 및 방법 | |
JPWO2011051999A1 (ja) | 情報処理装置及び情報処理装置の制御方法 | |
US9176806B2 (en) | Computer and memory inspection method | |
JP5832408B2 (ja) | 仮想計算機システム及びその制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101101 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120228 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120703 |