JP2008165347A - 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 - Google Patents

情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
JP2008165347A
JP2008165347A JP2006352001A JP2006352001A JP2008165347A JP 2008165347 A JP2008165347 A JP 2008165347A JP 2006352001 A JP2006352001 A JP 2006352001A JP 2006352001 A JP2006352001 A JP 2006352001A JP 2008165347 A JP2008165347 A JP 2008165347A
Authority
JP
Japan
Prior art keywords
failure
hardware resource
mode
shared
notification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006352001A
Other languages
English (en)
Other versions
JP4882736B2 (ja
Inventor
Hiroshi Murakami
大士 村上
Original Assignee
Fujitsu Ltd
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, 富士通株式会社 filed Critical Fujitsu Ltd
Priority to JP2006352001A priority Critical patent/JP4882736B2/ja
Publication of JP2008165347A publication Critical patent/JP2008165347A/ja
Application granted granted Critical
Publication of JP4882736B2 publication Critical patent/JP4882736B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines

Abstract

【課題】共有ハードウェア資源において障害が発生した場合においても障害が過剰に報告されることがなく正確な障害発生回数の管理を行なうことが出来る他、低い製造コストで実現する。
【解決手段】分割モード情報保持部30と、ハードウェア資源管理情報保持部51と、障害通知部103と、動作モード検出部13と、共有ハードウェア資源判断部14と、パーティショニングモードであることが検出され、且つ、障害発生が検知された該ハードウェア資源が共有ハードウェア資源であると判断された場合に、その共有ハードウェア資源を共有する複数の物理パーティションにそなえられた障害通知部103からそれぞれ通知される障害検知通知に基づいて、一の共通障害報告を生成する共通障害報告生成部15とをそなえて構成する。
【選択図】図1

Description

本発明は、例えばパーティショニング機能をそなえたサーバシステム等において、複数の物理パーティションで分割して共有されたハードウェア資源で発生した障害を処理する技術に関する。

基幹システムで運用されるサーバシステムでは高い可用性や柔軟なリソース(ハードウェア資源)の運用が要求される。このような高い可用性や柔軟なリソース運用を実現するための手法として、従来のサーバシステムにおいては、例えば、ハードウェアリソースを複数の物理パーティションで分割して共有する物理分割機能や、この物理分割機能によって分割して生成した複数の物理パーティションを任意に組み合わせて、複数の独立したパーティションを形成するパーティショニング機能により、ハードウェアに制限されない柔軟なリソース運用を実現している。

図6は従来のサーバシステムにおける物理分割機能およびパーティショニング機能を説明するための図であり、ハードウェアリソースの配分や情報の振り分け機能をASIC(Application Specific Integrated Circuit)およびファームウェアのそれぞれの特性に合わせて実装し、連携させる例を示している。
この図6に示す例においては、サーバ200は、筐体管理装置201をそなえるとともに、メモリやPCI(Peripheral Component Interconnect)カード,チップセット等のハードウェアリソースを、物理分割機能により複数(図6に示す例ではm個;mは自然数)のXPAR(Extended Partitioning)202−1,202−2・・・202−mに分割可能に構成されている。

これらのXPAR202−1,202−2・・・202−mは、SB(System Board)/IOU(Input Output Unit)等のハードウェアリソース(モジュール)を分割してパーティション構成を組むことにより形成される物理パーティションであって、以下、XPARを示す符号としては、複数のXPARのうち1つを特定する必要があるときには符号202−1,202−2・・・202−mを用いるが、任意のXPARを指すときには符号202を用いる。

なお、図6に示す例においては、ASIC203等のハードウェアリソースがXPAR202によって分割されている。
また、図6に示す例においては、複数のXPAR202を複数(図6に示す例ではP0〜Pnのn+1個;nは整数)のパーティション(Partition)によって使用しており、上述したパーティショニング機能により、例えば、パーティションP0はXPAR202−1,202−2を束ねて用いており、又、パーティションPnはXPAR202−mを用いている。

なお、以下、パーティションを示す符号としては、複数のパーティションのうち1つを特定する必要があるときには符号P0〜Pnを用いるが、任意のパーティションを指すときには符号Pを用いる。
パーティションは、OS(Operating System)205が稼動する単位であり、1のパーティションには少なくとも1つのプロセッサが用いられる。

筐体管理装置201は、サーバ200における電源のオン/オフやエラー情報を管理するものであり、例えば、サービスプロセッサをそなえて構成されている。
さて、この図6に示すような物理分割機能およびパーティショニング機能を使用して構成されたサーバ200においても、物理分割機能を使用しない場合と同様に、ハードウェアリソースにおいて生じた障害について、正確な障害情報解析やその通知機能が必要とされる。

このような物理分割機能使用時においては、信頼性、実装、コスト、および他機能との融合性を考慮して、例えば、ASIC203によりハードウェアを管理してハードウェアリソースを物理分割し、その障害情報を含むリソース管理情報をファームウェア204に提供するとともに、各パーティションP毎に実行されるファームウェア(F/W)204により、そのリソース管理情報を必要に応じて解析し、OS205等の上位のレイヤに障害情報を提供するようにハードウェアリソースの障害管理を行なうことにより、ハードウェアの障害のパーティションへの影響を少なくするとともに、より柔軟に機能拡張を実現することができる。

また、上述した物理分割機能においては、分割されたハードウェア単位において、専用で割り当てられるハードウェアリソース(以下、占有リソースという場合がある)と共通で使用されるハードウェアリソース(以下、共有リソースという場合がある)とが存在する。
特開2002−229806号公報 特開2004−62535号公報

しかしながら、上述の如く、ASIC203とファームウェア204を連携させた物理分割機能においては、ASICレベルで障害検出を行なう場合に、例えば、図6のパーティションP0のように、あるASIC203配下で分割した物理パーティション(XPAR202)をs個(sは2以上の整数;図6に示す例では、XPAR202−1,202−2の2個)束ねて、一つのパーティションPとして使用する場合に、XPAR202−1とXPAR202−2とで共有しているハードウェアリソース(共有リソース)で障害が発生したり、これらのXPAR202−1およびXPAR202−2に他の占有リソース等で発生した障害が伝播してきた場合に、これらのXPAR202−1およびXPAR202−2から、それぞれ障害報告が行なわれ、これによりASIC203に重複した障害報告が記録される。

すなわち、従来の物理分割機能使用時における障害処理手法によれば、ASIC203において、分割された物理パーティションに相当する回数、つまりs回の重複した障害が記録され、ファームウェア204がこの記録された障害情報に基づいて障害解析を行ない、OSや筐体管理装置201に障害が過剰に報告を行なう。これにより、OS205や筐体管理装置201において正確な障害発生回数の管理を行なうことが出来ず、メンテナンス等を正確に行なうことができないという課題がある。又、ファームウェア204においても正確な障害発生の管理を行なうことが出来ないという課題がある。

例えば、特許文献1には、複数のOSを稼動させるオープン系計算機において、OS上で実行する管理エージェントや管理コンソールによりハードウェア,ソフトウェアの障害管理を行なう技術が開示されている。
しかしながら、この特許文献1に開示された手法は、ハードウェアリソースの配分や情報の振り分け機能をファームウェア等のソフトウェアによって全て行なう仮想化技術に関するものであって、サーバのハードウェアリソースをソフトウェアレベルで分割する仮想化に関する手法であり、ハードウェアリソースを物理的に分割する物理分割機能に適用できるものではない。又、この特許文献1に開示された手法では、ファームウェアの負荷が増大したり、仮想化を実現するためのゲストOS等を新たにそなえたりする必要もあるという課題もある。

また、この特許文献1に開示された手法においては、OS上で実行する管理エージェントや管理コンソールにより障害発生時の管理等を行なうので、OSの負荷が増大する他、管理コンソールを備える必要があり、サーバの製造コストが増大するという課題もある。
さらに、OS上においてユーザが管理エージェントをきちんと実行させるか等、サーバを提供するベンダ側において管理することができないという課題もある。

また、特許文献2には、ノード群が複数集まって形成された大規模プラットフォームを用いたマルチプロセッサシステムにおける障害処理方法に関する発明であって、いずれかのノードにおいて障害が発生すると、その障害ノードがサービスプロセッサに障害の発生を通知し、このサービスプロセッサが更にサービスプロセッサマネージャに通知を行なう技術が開示されている。

しかしながら、この特許文献2に開示された手法においては、各ノード群にサービスプロセッサをそなえ、更に、これらのサービスプロセッサを取りまとめるサービスプロセッサマネージャをそなえる必要があり、製造コストが増大するという課題がある。
本発明は、このような課題に鑑み創案されたもので、ハードウェア資源を複数の物理パーティションに分割する物理分割モードで動作可能であるとともに、前記複数の物理パーティションのうち少なくとも2以上の該物理パーティションを独立したパーティションとして分割するパーティショニングモードで動作可能なサーバにおいて、共有ハードウェア資源において障害が発生した場合においても障害が過剰に報告されることがなく正確な障害発生回数の管理を行なうことが出来る他、低い製造コストで実現することができるようにすることを目的とする。

このため、本発明の情報処理装置(請求項1)は、ハードウェア資源を複数の物理パーティションに分割する物理分割モードで動作可能であるとともに、前記複数の物理パーティションのうち少なくとも2以上の該物理パーティションを独立したパーティションとして分割するパーティショニングモードで動作可能な情報処理装置において、該パーティショニングモードで実行中であるか否かの情報を分割モード情報として保持する分割モード情報保持部と、該ハードウェア資源の該パーティションモードに基づく共有状態に関するハードウェア資源管理情報を保持するハードウェア資源管理情報保持部と、
該物理パーティション毎にそなえられ、該ハードウェア資源における障害発生を検知し、障害検知通知を行なう障害通知部と、該分割モード情報保持部に保持された該分割モード情報に基づいて、該パーティショニングモードであることを検出する動作モード検出部と、該障害通知部により該障害発生が検知された該ハードウェア資源が、前記複数の物理パーティションにより分割して共有された共有ハードウェア資源であるか否かを、該ハードウェア資源管理情報保持部に保持された該ハードウェア資源管理情報に基づいて判断する、共有ハードウェア資源判断部と、前記パーティショニングモードであることが該動作モード検出部により検出され、且つ、該障害通知部によって該障害発生が検知された該ハードウェア資源が該共有ハードウェア資源であると該共有ハードウェア資源判断部により判断された場合に、当該共有ハードウェア資源を共有する前記複数の物理パーティションにそなえられた各障害通知部からそれぞれ通知される該障害検知通知に基づいて、一の共通障害報告を生成する共通障害報告生成部とをそなえることを特徴としている。

また、本発明の障害処理方法(請求項2)は、ハードウェア資源を複数の物理パーティションに分割する物理分割モードで動作可能であるとともに、前記複数の物理パーティションのうち少なくとも2以上の該物理パーティションを独立したパーティションとして分割するパーティショニングモードで動作可能な情報処理装置における障害処理方法であって、該ハードウェア資源における障害発生を検知し、該物理パーティション単位で障害検知通知を行なう障害通知ステップと、該パーティショニングモードで実行中であるか否かの分割モード情報に基づいて、該パーティショニングモードであることを検出する動作モード検出ステップと、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が、前記複数の物理パーティションにより分割して共有された共有ハードウェア資源であるか否かを、該ハードウェア資源の該パーティションモードに基づく共有状態に関するハードウェア資源管理情報に基づいて判断する、共有ハードウェア資源判断ステップと、前記パーティショニングモードであることが該動作モード検出ステップにおいて検出され、且つ、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が該共有ハードウェア資源であると該共有ハードウェア資源判断ステップにおいて判断された場合に、該障害通知ステップにおいて、当該共有ハードウェア資源を共有する前記複数の物理パーティション単位でそれぞれ通知される該障害検知通知に基づいて、一の共通障害報告を生成する共通障害報告生成ステップとをそなえることを特徴としている。

さらに、本発明の障害処理プログラム(請求項3)は、ハードウェア資源を複数の物理パーティションに分割する物理分割モードで動作可能であるとともに、前記複数の物理パーティションのうち少なくとも2以上の該物理パーティションを独立したパーティションとして分割するパーティショニングモードで動作可能なコンピュータに障害処理機能を実行させるための障害処理プログラムであって、該ハードウェア資源における障害発生を検知し、該物理パーティション単位で障害検知通知を行なう障害通知ステップと、該パーティショニングモードで実行中であるか否かの分割モード情報に基づいて、該パーティショニングモードであることを検出する動作モード検出ステップと、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が、前記複数の物理パーティションにより分割して共有された共有ハードウェア資源であるか否かを、該ハードウェア資源の該パーティションモードに基づく共有状態に関するハードウェア資源管理情報に基づいて判断する、共有ハードウェア資源判断ステップと、前記パーティショニングモードであることが該動作モード検出ステップにおいて検出され、且つ、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が該共有ハードウェア資源であると該共有ハードウェア資源判断ステップにおいて判断された場合に、該障害通知ステップにおいて、当該共有ハードウェア資源を共有する前記複数の物理パーティション単位でそれぞれ通知される該障害検知通知に基づいて、一の共通障害報告を生成する共通障害報告生成ステップとを、該コンピュータに実行させることを特徴としている。

また、本発明のコンピュータ読取可能な記録媒体(請求項4)は、上述した障害処理プログラムを記録したものである。

本発明によれば、以下の少なくともいずれか1つの効果ないし利点が得られる。
(1)パーティショニングモードであることが検出され、且つ、障害発生が検知されたハードウェア資源が共有ハードウェア資源であると判断された場合に、その共有ハードウェア資源を共有する複数の物理パーティション単位でそれぞれ通知される障害検知通知に基づいて、一の共通障害報告を生成することにより、重複した障害通知が行なわれることがなく、実際にハードウェア資源において生じた障害の回数に応じた障害報告が行なわれるので、正確の障害発生頻度を管理を行なうことができ、信頼性を向上させることができる(請求項1〜請求項4)。

(2)専用の機器や部品をそなえることなく実現することができるので、製造コストが上昇することがなく経済的である(請求項1〜請求項4)。

以下、図面を参照して本発明の実施の形態を説明する。
図1は本発明の一実施形態としてのサーバ(情報処理装置)における障害処理手法にかかる機能ブロック図、図2はそのハードウェア構成例を示す論理ブロック図である。
本サーバ100は、例えば、基幹システムで運用される情報処理装置(コンピュータ)であって、CPU53(図2参照)がOS20やファームウェア(F/W)10,その他のプログラムを実行することにより、サーバ100としての各種機能を実現するようになっている。

そして、本サーバ100は、メモリやPCI(Peripheral Component Interconnect)カード,チップセット等のハードウェアリソース(ハードウェア資源)を複数(図1に示す例ではm個;mは自然数)のXPAR(Extended Partitioning;物理パーティション)102−1,102−2・・・102−mに分割可能な物理分割機能や、この物理分割機能によって分割した複数の物理パーティションを任意に組み合わせて、複数の独立したパーティションを形成するパーティショニング機能をそなえている。

これらのXPAR102−1,102−2・・・102−mは、SB(System Board)やIOU(Input Output Unit)等の、本サーバ100にそなえられたハードウェアリソース(ハードウェア資源)を分割してパーティション構成を組むことにより形成される物理パーティションであって、図1に示すように、例えばASIC(Application Specific Integrated Circuit)30等のハードウェアリソースを物理的に分割することにより構成されている。なお、以下、XPARを示す符号としては、複数のXPARのうち1つを特定する必要があるときには符号102−1,102−2・・・102−mを用いるが、任意のXPARを指すときには符号102を用いる。

また、本サーバ100は、上述したパーティショニング機能により、複数のXPAR102を任意に組み合わせて複数(図1に示す例ではP0〜Pnのn+1個;nは整数)のパーティション(Partition)が構成されており、例えば、パーティションP0はXPAR102−1,102−2を束ねて用いており、又、パーティションPnはXPAR102−mを用いている。

また、本サーバ100においては、上述のごときパーティショニング機能の有効/無効を任意に設定することができるようになっており、以下、パーティショニング機能が有効であり、複数のXPAR102(例えば、図1に示す例では、XPAR102−1,102−2)を束ねて独立したパーティション(パーティションP0)として分割された状態を、パーティショニングモードで動作しているという場合がある。

さらに、このパーティショニング機能の有効/無効は、後述するように、分割モード情報として、ASIC30により管理・保持されるようになっている。
そして、本サーバ100においては、上述した物理分割機能やパーティショニング機能は、ASIC30やファームウェア10の機能により実現されるようになっている。
なお、以下、パーティションを示す符号としては、複数のパーティションのうち1つを特定する必要があるときには符号P0〜Pnを用いるが、任意のパーティションを指すときには符号Pを用いる。

パーティションは、OS20が稼動する単位であり、1のパーティションPには少なくとも1つのCPU53がそなえられる。
また、本サーバ100は、図1に示すように、筐体管理装置101をそなえて構成されている。この筐体管理装置101は、サーバ100の筐体内の各ユニットの電源制御,筐体内の温度,電圧等の環境監視等のシステム管理を行なうものであり、図示しないサービスプロセッサ等をそなえて構成されている。又、この筐体管理装置101は、本サーバ100における障害の発生も管理しており、例えば、一部のSB(System Board;詳細は後述)50(図2参照)において故障が検出された場合に、故障したSB50に代えて代理のSB50を用いて再起動を行なったりする制御を行なうようになっている。

ASIC30は、本サーバ100にサーバとしての機能を実現させるために構成された集積回路であって、本実施形態においては、便宜上、本サーバ100にそなえられる種々のASIC(Application Specific Integrated Circuit;図2参照)を総称して表している。
さて、本サーバ100は、図2に示すように、複数のSB50と複数のIOU70とをそなえ、これらのSB50とIOU70とがクロスバー60により相互結合されている。

SB50は、CPU(Central Processing Unit)53a,53bとDIMM51a,51bとを搭載するユニットであり、図2に示すように、複数(図2に示す例では2つ)のCPU53a,53bや複数(図2に示す例では2つ)のDIMM(Dual Inline Memory Module)51a,51bをそなえ、更にNB(North Bridge)54およびMLDS(Memory and Logical data Switch)52をそなえて構成されている。

なお、この図2中においては、便宜上、複数のSB50やIOU70のうち一部のSB50や一部のIOU70についてのみ詳細なハードウェア構成を示し、他のSB50やIOU70におけるハードウェア構成の図示を省略している。
CPU53a,53bはそれぞれプログラムを実行・演算することにより本サーバ100としての機能を実現するものであり、DIMM51a,51bはCPU53a,53bがプログラムを実行するに際して、各種プログラム(コマンド)やデータを一時的に格納・展開するためのメモリである。

なお、以下、CPUを示す符号としては、複数のCPUのうち1つを特定する必要があるときには符号53a,53bを用いるが、任意のCPUを指すときには符号53を用いる。
同様に、以下、DIMMを示す符号としては、複数のDIMMのうち1つを特定する必要があるときには符号51a,51bを用いるが、任意のDIMMを指すときには符号51を用いる。

NB54およびMLDS52は、CPU53a,53bやDIMM51a,51bおよびIOコントローラを結合してサーバ100としての制御を行なうチップセットである。NB54は、CPU53a,53bを制御するASICであり、ノースブリッジ(North - Bridge)として機能するものであり、インターフェースであるFSB(Front Side Bus)55を介してCPU53a,53bがそれぞれ接続されている。

MLDS52はDIMM51a,51bを制御するASICであり、図2に示す例においては、4つのMLDS52がそなえられ、それぞれ、DIMM51a,51b又はクロスバー60とNB54とのデータの交換を行なうようになっている。
IOU70は、LANやハードディスク等の周辺装置(図示省略)を接続するためのユニットであり、図2に示すように、SBRG(South Bridge)71,PCIEPL(PCI Express Physical Layer)72,78,IOC(Input Output Controller)73a,73b,PHX74a,74b,SCSI/GbLAN76a,76b,PCIカード77およびPCI Box79をそなえて構成されている。

SBRG71,PCIEPL72,78は、それぞれ高速IO(Input Output)制御インタフェース(PCI-Express)を制御するASICであり、SBRG71は、サウスブリッジ(South - Bridge)として機能するものであって、CPU53a,53bから周辺装置へのアクセスと周辺装置からDIMM51a,51bへの転送(DMA;Direct Memory Access)を制御するようになっている。又、PCIEPL72,78は、PCL-E physical Layerとして機能するものである。

IOC73a,73bは、それぞれIO制御チップであり、管理LANやタイマ等の機能を提供するものである。又、PXH74a,74bは、PCI-ExpressからPCIバスブリッジへ変換するものであり、PCI Express HUBとして機能するようになっている。
SCSI/GbLAN76a,76bは、SCSI(Small Computer System Interface)カードやLAN(ギガビットLAN)カード等のIOインタフェースであり、ハードディスク等のSCSI規格の機器や、LANケーブル等が接続されるようになっている。なお、この図2に示す例においては、便宜上、これらのSCSIインタフェースとLANインタフェースとを一のIOインタフェース機器として表示しているが、これに限定されるものではなく、別々にそなえる等、種々変形して用いることができる。

PCIカード77は、PCI規格に基づくIOインタフェースであり、PCI規格に準じる各種機器が接続されるようになっている。又、PCI Box79は、接続可能なPCI機器数を増加させるための拡張ボックスである。
クロスバー60は、SB50とIOU70とを相互接続するものであり、アドレスクロスバーとデータクロスバー(いずれも図示省略)をそなえて構成されている。

そして、図2に示す例においては、上述した物理分割機能により、SB50がXSB501aとXSB501bと分割され、DIMM51aとCPU53aとがXSB501aに、又、DIMM51bとCPU53bとがXSB501bにそれぞれそなえられるように分割(物理分割)されている。又、MLDS52およびNB54は、XSB501aとXSB501bとで共有(共用)されるようになっている。

すなわち、SB50においては、DIMM51aとCPU53aとがXSB501aに占有される占有リソース(占有ハードウェア資源)であり、同様に、DIMM51bとCPU53bとがXSB501bに占有される占有リソースである。そして、MLDS52およびNB54が、XSB501aとXSB501bとによって共有される共有リソース(共有ハードウェア資源)である。

なお、XSBとは、SBをXPARして2つのLSB(2LSB)として使用する場合における、1のLSBの呼称である。以下、XSBを示す符号としては、複数のXSBのうち1つを特定する必要があるときには符号501a,501bを用いるが、任意のXSBを指すときには符号501を用いる。
一方、IOU70は、上述した物理分割機能により、LIOU701aとLIOU701bとに分割され、IOC73a,PHX74aおよびSCSI/GbLAN76aがLIOU701aに、IOC73b,PHX74bおよびSCSI/GbLAN76bがLIOU701bに、それぞれそなえられるように物理分割されている。又、SBRG71,PCIEPL72,78,PCIカード77およびPCI Box79は、LIOU701aとLIOU701bとで共有(共用)されるようになっている。

すなわち、IOU70においては、IOC73a,PHX74aおよびSCSI/GbLAN76aがLIOU701aに占有される占有リソースであり、同様に、IOC73b,PHX74bおよびSCSI/GbLAN76bがLIOU701bに占有される占有リソースである。
なお、LIOUとは、IOUのパーティション粒度である。以下、LIOUを示す符号としては、複数のLIOUのうち1つを特定する必要があるときには符号701a,701bを用いるが、任意のLIOUを指すときには符号701を用いる。

また、本実施形態中においては、便宜上、分割しない場合におけるIOUのことをIOUと表現することにより、IOUを分割して形成されるLIOUと区別するものとする。
そして、例えば、図2中におけるMLDS52,NB54,SBRG71,およびPCIEPL72が、図1中におけるASIC30として総称されるものである。
また、ASIC30は、ハードウェアリソースにおける障害(図1の点E参照)の発生を検知し、その通知(障害検知通知)を行なう障害通知機能をそなえており、配下のハードウェアリソースにおいて障害が発生すると、その障害に関する障害情報(発生場所や内容(エラーコード)等)を記録するとともに、そのXSBもしくはLIOUが属するパーティションPのCPU53にトラップを入力することにより、障害発生を通知するようになっている。

さらに、ASIC30は、Home LSBのNB54のレジスタ(図示省略)にエラー強度や部位情報を格納し、ファームウェア10に対して割り込みを入力するようになっている。
なお、Home LSBとは、パーティションの先頭アドレスが割り当てられたLSBであって、エラー原因であるハードウェアリソースの上位のLSBである。又、LSBとはSB50のパーティション粒度を示しており、XPAR分割時(物理分割機能で動作時)はLSB=XSBであり、非分割時(物理分割機能が非動作時)は、LSB=PSBである。又、PSBとは、SB50をXPAR分割せずに、1つのLSBとして使用する場合におけるSB50の呼び方を示す。

また、ASIC30は、この障害通知をXPAR102毎に行なうようになっており、これにより、ASIC30は、XPAR102毎にそなえられハードウェアリソースにおける障害発生を検知し、障害検知通知を行なう障害通知部103として機能するようになっている。
なお、このASIC30が検出する、ハードウェアリソースにおける障害には、そのハードウェアリソースで発生した障害(原発)の他、他のハードウェアリソースにおいて発生し、そのハードウェアリソースに伝播してきた障害(伝播)を含むものであり、ASIC30は、これらのいずれの障害についても、検知を行ないファームウェア10に通知するようになっている。

ファームウェア10は、各種機能を実現するためのプログラムであって、SB50に搭載されたROM(Read Only Memory)チップ等に格納され、各XSB501にそなえられたCPU53により実行されるようになっている。
そして、このファームウェア10は、上述の如き物理分割機能やパーティショニング機能を実現させる他、本サーバ100において、後述するハードウェア資源管理情報管理部12,動作モード検出部13,共有ハードウェア資源判断部14および共通障害報告生成部15としての各機能を実現するためのプログラムであって、サーバ100の各CPU53が、ファームウェア10をそれぞれ実行することにより、図1に示すように、これらのハードウェア資源管理情報管理部12,動作モード検出部13,共有ハードウェア資源判断部14および共通障害報告生成部15としてそれぞれ機能するようになっている。

なお、この図1中においては、便宜上、パーティションPnにおける、ファームウェア10のハードウェア資源管理情報管理部12,動作モード検出部13,共有ハードウェア資源判断部14および共通障害報告生成部15としての各機能や、XPAR102における障害通知部103としての機能の図示を省略している。
なお、このファームウェア10は、上述の如くASIC30上のROMチップに格納して提供する他、例えばフレキシブルディスク,CD(CD−ROM,CD−R,CD−RW等),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD+R,DVD−RW,DVD+RW等),磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供してもよい。そして、サーバ100はその記録媒体からファームウェア10を読み取って内部記憶装置または外部記憶装置に転送し格納して用いてもよい。又、そのファームウェア10を、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信経路を介してサーバ100に提供するようにしてもよい。

ハードウェア資源管理情報管理部12,動作モード検出部13,共有ハードウェア資源判断部14および共通障害報告生成部15としての機能を実現する際には、内部記憶装置(本実施形態ではROMチップ)に格納されたファームウェア10がサーバ100のマイクロプロセッサ(本実施形態ではCPU53)によって実行される。このとき、記録媒体に記録されたファームウェア10をサーバ100が読み取って実行するようにしてもよい。

なお、本実施形態において、コンピュータ(サーバ100)とは、ハードウェアとオペレーティングシステムとを含む概念であり、オペレーティングシステムの制御の下で動作するハードウェアを意味している。又、オペレーティングシステムが不要でアプリケーションプログラム単独でハードウェアを動作させるような場合には、そのハードウェア自体がコンピュータに相当する。ハードウェアは、少なくとも、CPU等のマイクロプロセッサと、記録媒体に記録されたコンピュータプログラムを読み取るための手段とをそなえており、本実施形態においては、サーバ100がコンピュータとしての機能を有しているのである。

さらに、本実施形態における記録媒体としては、上述したフレキシブルディスク,CD(CD−ROM,CD−R,CD−RW等),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD+R,DVD−RW,DVD+RW等),磁気ディスク,光ディスク,光磁気ディスクのほか、ICカード,ROMカートリッジ,磁気テープ,パンチカード,コンピュータの内部記憶装置(RAMやROMなどのメモリ),外部記憶装置等や、バーコードなどの符号が印刷された印刷物等のコンピュータ読取可能な種々の媒体を利用することができる。

動作モード検出部13は、ASIC30のレジスタ等(分割モード情報保持部)に保持された分割モード情報に基づいて、本サーバ100がパーティショニングモードであることを検出するものであり、XPAR102から障害発生の通知が行なわれると、ASIC30に保持された分割モード情報を確認することにより、本サーバ100がパーティショニングモードで実行中であるか否かを検出するようになっている。

ここで、分割モード情報は、パーティショニングモードで実行中であるか否かを示す情報であり、ASIC(分割モード情報管理部)30によって管理・設定されるようになっており、例えば、本サーバ100がパーティショニングモードである場合には“1”を、又、パーティショニングモードではない場合には“0”を、それぞれビットとして、ASIC30におけるレジスタ等の所定の記憶領域(分割モード情報保持部)に設定・格納することにより保持されるようになっている。又、この分割モード情報は、例えば、各ハードウェアリソース毎に設定されるようになっている。

そして、動作モード検出部13は、このASIC30に設定されたビットを確認することにより分割モード情報を取得し、パーティショニングモードであるか否かを判断することができるようになっている。又、分割モード情報には、そのハードウェアリソースがどのパーティションに属するか等の属性情報をそなえてもよい。
ハードウェア資源管理情報管理部12は、ハードウェア資源のパーティションモードに基づく共有状態に関するリソース情報(ハードウェア資源管理情報)を管理するものであり、例えば、DIMM51等の予め設定された所定の記憶領域(ハードウェア資源管理情報保持部)にリソース情報を記録し、管理するようになっている。

図3は本発明の一実施形態としてのサーバ100におけるリソース情報の例を示す図である。この図3に示すように、リソース情報は、本サーバ100における各ハードウェアリソースについて、それぞれ共有リソース(共有)であるか占有リソース(占有)であるかの状態を示す情報であり、例えば、配下のハードウェアリソースを特定する情報に対して、占有である場合には“0”を、又、共有である場合には“1”をそれぞれビットとして設定することによって、後述する共有ハードウェア資源判断部14がこのビットの値を確認することにより、各ハードウェアリソースが共有リソースであるか占有リソースであるかを確認することができるようになっている。

なお、このリソース情報は、例えば、ファームウェア10やASIC30が、前述した物理分割機能やパーティショニング機能を実現する際に、その設定の情報に基づいて生成・設定するようになっている。
そして、本サーバ100においては、DIMM51等のファームウェア10によって管理・利用されている所定の記憶領域が、リソース情報(ハードウェア資源管理情報)を保持するハードウェア資源管理情報保持部として機能するようになっている。なお、以下、ファームウェア10によって利用・管理されているDIMM51等の所定の記憶領域に情報を保持することを、単にファームウェア10が保持すると表現する場合がある。

共有ハードウェア資源判断部14は、ASIC30により障害発生が検知されたハードウェアリソースが、共有リソースであるか否かを、リソース情報に基づいて判断するものであり、発生した障害にかかる障害情報(発生場所等)に基づいて、リソース情報に保存された情報を検索し、障害発生にかかるハードウェアリソースが共有リソースであるか否かを判断するようになっている。

なお、障害情報は、例えば、ASIC30の記憶領域やファームウェア10に保存されるようになっている。
共通障害報告生成部15は、動作モード検出部13がパーティショニングモードであることを検出し、且つ、ASIC30によって障害発生が検知されたハードウェアリソース(障害源)が共有リソースであると共有ハードウェア資源判断部14により判断された場合に、その障害源の共有リソースを共有する複数のXPAR102からそれぞれ通知される障害検知通知に基づいて、一の共通障害報告を生成するものである。

この共通障害報告生成部15は、ASIC30から取得した共有リソースにかかる障害情報をASIC30の管理単位でマージするようになっている。
ハードウェアリソースにおいて障害が発生した場合には、対応するASIC30のレジスタ(所定の物理位置)にビット(障害報告ビット)が立つようになっており、ファームウェア10は、このビットを確認することにより、障害情報を取得するようになっている。

そして、そのハードウェアリソースが物理分割された共有リソースである場合には、各対応するASIC30のレジスタのそれぞれの位置にビット(障害報告ビット)が立つようになっており、共通障害報告生成部15は、これらの物理的に異なる位置に設定された各障害報告ビットについて、これらの全ての障害報告ビットを読みに行くようになっており、この際に、全ての障害報告ビットの論理和をとることにより1の情報にマージするようになっている。

すなわち、共通障害報告生成部15は、障害報告ビットを取得時にマージすることにより、1の情報として取得した情報に基づいて障害報告を生成することにより、一の共通障害報告を生成するようになっている。
また、ASIC30のレジスタに設定された障害報告ビットをファームウェア10が読み取った後には、この障害報告ビットのクリアを行なうのであるが、共通障害報告生成部15が複数の障害報告ビットを1の情報にマージを行なった際の情報に基づいて、全ての障害報告ビットのクリアが行なわれる。

そして、パーティショニングモードではない場合には、上述のごとき共通障害報告生成部15によるマージは行なわれないようになっている。
また、ファームウェア10は、XPAR102から通知された障害発生報告に基づき、その障害が検出されたハードウェアリソースが原発であるか伝播であるかを判断するようになっており、伝播にかかる障害については障害が発生したと判断せずに、処理を行なないようになっている。すなわち、ファームウェア10においては、原発にかかる障害についてのみ、処理を行なうようになっている。

なお、このファームウェア(障害判定部)10による、障害が原発であるか伝播であるかの判断は、ファームウェア10が、ASIC30において保持されているエラービットに基づいてマスクがけ処理を行なうことにより行なわれる。又、ファームウェア10は、このマスクがけ処理だけでは、原発か伝播かを判断できない場合には、必要に応じて、他の追加情報を解析することも行なうようになっている。

そして、ファームウェア10は、XPAR102から障害通知が行なわれ、その障害が原発にかかるものである場合に、共通障害報告を生成し、この生成した共通障害報告をOS20や筐体管理装置101に通知するようになっている。
OS20や筐体管理装置101は、ファームウェア10から共通障害報告や障害報告を受信すると、これらに基づいて、所定の処理を行なうようになっている。

例えば、筐体管理装置101は、一部のSB50において故障が検出された場合に、故障したSB50に代えて代理のSB50を用いて再起動を行なったりする制御を行なう。又、OS20においても、例えば、ユーザに対するエラー通知や再起動等の処理を行なう。なお、OSは特別な管理ソフトウェアを用いることなく、ファームウェアから通知された情報を受け取ることができるようになっている。

上述の如く構成された、本発明の一実施形態としてのサーバ100における、障害発生時における処理を、図4に示すフローチャート(ステップS10〜S60)に従って説明する。
本サーバ100のハードウェアリソースにおいて障害が生じると、その障害が発生したXSB501もしくはLIOU701が属するCPU53にトラップが入る。又、Home LSBのNB54のレジスタにエラー強度や部位情報等の障害情報が記録され(ステップS10)、ファームウェア10は割り込みを受け付ける。

ファームウェア10において、動作モード検出部13が、ASIC30によって保持された分割モード情報を取得し(ステップS20)、この取得した分割モード情報に基づいて、本サーバ100がパーティショニングモードであるか否かを確認する(ステップS30)。
ここで、パーティショニングモードである場合には(ステップS30のYESルート参照)、共有ハードウェア資源判断部14が、ASIC30により障害発生が検知されたハードウェアリソースが、共有リソースであるか否かをリソース情報に基づいて判断し、共有リソースの障害情報をASIC30の管理単位でマージして、一のエラー情報(共通障害報告)に生成する(ステップS40)。

例えば、FSB55やDIMM51は占有リソースであることが明確であるので、これらのFSB55やDIMM51にかかる障害情報以外は共有リソースとみなして全てマージしてもよい。
その後、ファームウェア10は、マージして生成したエラー情報を解析し、必要な倍には、更に、MLDS52/SBRG71/PCIEPL72/PXH74の情報を追加で採取/解析する(ステップS50)。一方、本サーバ100がパーティショニングモードではない場合には(ステップS30のNOルート参照)、ステップS50に移行する。

そして、ファームウェア10は、その解析結果(障害解析結果)を、OS20や筐体管理装置101に受け渡して(ステップS60)、処理を終了する。
図5は本発明の一実施形態としてのサーバ100におけるパーティションPの構成例を示す図であり、物理分割機能およびパーティショニング機能を用いて、4つのパーティションP0〜P3を形成した例を示している。

この図5に示す例においては、4つのSB50(50−1,50−2,50−3,50−4)がそなえられ、SB50−2,50−3がそれぞれ物理分割機能により、XSB501a,501bに分割されるとともに、SB50−1,50−4がそれぞれ非分割の状態(SB=LSB)を示している。なお、この図5中においては、便宜上、クロスバ60の図示を省略している。

また、この図5に示す例においては、4つのIOU70(70−1,70−2,70−3,70−4)がそなえられ、IOU70−1,70−3がそれぞれ物理分割機能によりLIOU701a,701bに分割されるとともに、IOU70−2,70−4がそれぞれ非分割の状態を示している。
そして、パーティショニング機能により、パーティションP0には、PSB50−1とIOU70−1のLIOU701aとがそなえられ、パーティションP1には、SB50−2のXSB501aとIOU70−1のLIOU701bがそなえられている。同様に、パーティションP2には、SB50−2のXSB501bとIOU70−2がそなえられている。更に、パーティションP3には、SB50−3のXSB501a,XSB501b,IOU70−3のLIOU701a,701b,PSB50−4およびIOU70−4がそなえられている。

すなわち、この図5に示す例においては、IOU50−1を物理分割して形成されたLIOU701a,701bにおいては、LIOU701aはパーティションP0で、LIOU701bはパーティションP1でそれぞれ使用されている。つまり、IOU50−1を物理分割して形成されたLIOU701a,701bは、互いに異なるパーティションP0,P1で使用されており、同様に、SB50−2を物理分割して形成されたXSB501a,501bは、互いに異なるパーティションP1,P2で使用されているのである。

そして、この図5に示すような、複数のパーティションP0〜P3が形成されたサーバ100において、パーティションP1のXSB501aおよびLIOU701bのように、物理分割され、互いに異なるパーティションP0,P1で使用されているモジュール(ハードウェアリソース)で障害が発生すると(図5中の点A参照)、それぞれのパーティションP0,P1に対して障害処理され、OS20や筐体管理装置101への報告が行なわれる。

また、SB50−3のように、物理分割されたXSB501a,501bが、同一のパーティションで使用されているモジュール(共有リソース)において障害が発生すると(図5中の点B参照)、ASICレベルではそれぞれのXSB501a,501bについてエラー報告が行なわれるが、ファームウェア10において、共通障害報告生成部15が、一の共通障害報告を生成して重複するエラー報告の出力を抑止するので、1の障害として処理され、OS20や筐体管理装置101に対して1の障害報告が行なわれる。

なお、パーティションP3においては、障害情報は各SB50−3,50−4,IOU70−3,70−4でそれぞれ独立しており、これらのSB50−3,50−4,IOU70−3,70−4内において障害が発生した場合には、その障害の波及(伝播)は、それぞれSB50−3,50−4,IOU70−3,70−4の内部で収まるようになっている。そして、SB50−3,50−4,IOU70−3,70−4のいずれかにおいて障害が発生した場合には、各SB50−3,50−4,IOU70−3,70−4は、それぞれHome LSBであるXSB501aに障害報告を行なうようになっている。

そして、ファームウェア10は、Home LSBであるXSB501aのNB54を経由したCPU53からの割り込みを受け、情報収集・解析を開始する。
一方、占有リソースで障害が発生した場合には、その占有リソースに対応するそれぞれのPSB50−1,50−4,SXB501a,501b,IOU70−2,70−4,LIOU701a,701bに対してのみ障害報告が行なわれるので、障害発生回数は正しく取り扱われるのである。

このように、本発明のサーバ100によれば、パーティショニングモードにおいて、障害発生が検知されたハードウェアリソースが共有ハードウェア資源である場合には、ファームウェア10が、障害報告ビット(障害報告)のマージを行なって1の情報として取得した情報に基づいて障害報告を生成することにより、一の共通障害報告を生成するので、OS20や筐体管理装置101に重複した障害通知が行なわれることがなく、実際にハードウェアリソースにおいて生じた障害の回数に応じた障害報告が行なわれるので、正確の障害発生頻度を管理を行なうことができ、本サーバ100の信頼性を向上させることができる。

また、ファームウェア10により障害処理を実現することにより、専用の機器や部品をそなえることなく実現することができるので、サーバ100の製造コストが上昇することがなく経済的であり、又、OS20上で可能するソフトウェアではないので、本サーバ100のユーザに使用を意識させることがなく使用することができ、その機能を提供するベンダにおいても、実行させ易く管理が行ない易い。

また、物理分割機能はパーティショニング機能をそなえているので、本サーバ100において柔軟に機能拡張を実現することができる。
なお、上述した実施形態に関わらず、本発明の趣旨を逸脱しない範囲で種々変形して実施することができる。
例えば、本サーバ100のハードウェア構成は、図2に示す構成に限定されるものではなく、本発明の主旨を逸脱しない範囲で種々変形して実施することができる。

そして、本発明の各実施形態が開示されていれば、本発明を当業者によって実施・製造することが可能である。

本発明の一実施形態としてのサーバにおける障害処理手法にかかる機能ブロック図である。 本発明の一実施形態としてのサーバのハードウェア構成例を示す論理ブロック図である。 本発明の一実施形態としてのサーバにおけるリソース情報の例を示す図である。 本発明の一実施形態としてのサーバにおける、障害発生時における処理を説明するためのフローチャートである。 本発明の一実施形態としてのサーバにおけるパーティションの構成例を示す図である。 従来のサーバシステムにおける物理分割機能およびパーティショニング機能を説明するための図である。

符号の説明

10 ファームウェア
12 ハードウェア資源管理情報管理部
13 動作モード検出部
14 共有ハードウェア資源判断部
15 共通障害報告生成部
20 OS
30 ASIC(分割モード情報保持部)
50,50−1,50−2,50−3,50−4 SB(PSB)
53,53a,53b CPU
51,51a,51b DIMM(ハードウェア資源管理情報保持部)
54 NB
52 MLDS
60 クロスバー
70 IOU
71 SBRG
72,78 PCIEPL
73,73a,73b IOC
74,74a,74b PHX
76a,76b SCSI/GbLAN
77 PCIカード
79 PCI Box
100 サーバ(情報処理装置)
101 筐体管理装置
102,102−1〜102−m XPAR(物理パーティション)
501,501a,501b XSB
701,701a,701b LIOU
P,P0〜Pn パーティション

Claims (4)

  1. ハードウェア資源を複数の物理パーティションに分割する物理分割モードで動作可能であるとともに、前記複数の物理パーティションのうち少なくとも2以上の該物理パーティションを独立したパーティションとして分割するパーティショニングモードで動作可能な情報処理装置において、
    該パーティショニングモードで実行中であるか否かの情報を分割モード情報として保持する分割モード情報保持部と、
    該ハードウェア資源の該パーティションモードに基づく共有状態に関するハードウェア資源管理情報を保持するハードウェア資源管理情報保持部と、
    該物理パーティション毎にそなえられ、該ハードウェア資源における障害発生を検知し、障害検知通知を行なう障害通知部と、
    該分割モード情報保持部に保持された該分割モード情報に基づいて、該パーティショニングモードであることを検出する動作モード検出部と、
    該障害通知部により該障害発生が検知された該ハードウェア資源が、前記複数の物理パーティションにより分割して共有された共有ハードウェア資源であるか否かを、該ハードウェア資源管理情報保持部に保持された該ハードウェア資源管理情報に基づいて判断する、共有ハードウェア資源判断部と、
    前記パーティショニングモードであることが該動作モード検出部により検出され、且つ、該障害通知部によって該障害発生が検知された該ハードウェア資源が該共有ハードウェア資源であると該共有ハードウェア資源判断部により判断された場合に、当該共有ハードウェア資源を共有する前記複数の物理パーティションにそなえられた各障害通知部からそれぞれ通知される該障害検知通知に基づいて、一の共通障害報告を生成する共通障害報告生成部とをそなえることを特徴とする、情報処理装置。
  2. ハードウェア資源を複数の物理パーティションに分割する物理分割モードで動作可能であるとともに、前記複数の物理パーティションのうち少なくとも2以上の該物理パーティションを独立したパーティションとして分割するパーティショニングモードで動作可能な情報処理装置における障害処理方法であって、
    該ハードウェア資源における障害発生を検知し、該物理パーティション単位で障害検知通知を行なう障害通知ステップと、
    該パーティショニングモードで実行中であるか否かの分割モード情報に基づいて、該パーティショニングモードであることを検出する動作モード検出ステップと、
    該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が、前記複数の物理パーティションにより分割して共有された共有ハードウェア資源であるか否かを、該ハードウェア資源の該パーティションモードに基づく共有状態に関するハードウェア資源管理情報に基づいて判断する、共有ハードウェア資源判断ステップと、
    前記パーティショニングモードであることが該動作モード検出ステップにおいて検出され、且つ、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が該共有ハードウェア資源であると該共有ハードウェア資源判断ステップにおいて判断された場合に、該障害通知ステップにおいて、当該共有ハードウェア資源を共有する前記複数の物理パーティション単位でそれぞれ通知される該障害検知通知に基づいて、一の共通障害報告を生成する共通障害報告生成ステップとをそなえることを特徴とする、障害処理方法。
  3. ハードウェア資源を複数の物理パーティションに分割する物理分割モードで動作可能であるとともに、前記複数の物理パーティションのうち少なくとも2以上の該物理パーティションを独立したパーティションとして分割するパーティショニングモードで動作可能なコンピュータに障害処理機能を実行させるための障害処理プログラムであって、
    該ハードウェア資源における障害発生を検知し、該物理パーティション単位で障害検知通知を行なう障害通知ステップと、
    該パーティショニングモードで実行中であるか否かの分割モード情報に基づいて、該パーティショニングモードであることを検出する動作モード検出ステップと、
    該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が、前記複数の物理パーティションにより分割して共有された共有ハードウェア資源であるか否かを、該ハードウェア資源の該パーティションモードに基づく共有状態に関するハードウェア資源管理情報に基づいて判断する、共有ハードウェア資源判断ステップと、
    前記パーティショニングモードであることが該動作モード検出ステップにおいて検出され、且つ、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が該共有ハードウェア資源であると該共有ハードウェア資源判断ステップにおいて判断された場合に、該障害通知ステップにおいて、当該共有ハードウェア資源を共有する前記複数の物理パーティション単位でそれぞれ通知される該障害検知通知に基づいて、一の共通障害報告を生成する共通障害報告生成ステップとを、該コンピュータに実行させることを特徴とする、障害処理プログラム。
  4. ハードウェア資源を複数の物理パーティションに分割する物理分割モードで動作可能であるとともに、前記複数の物理パーティションのうち少なくとも2以上の該物理パーティションを独立したパーティションとして分割するパーティショニングモードで動作可能なコンピュータに障害処理機能を実行させるための障害処理プログラムを記録したコンピュータ読取可能な記録媒体であって、
    該障害処理プログラムが、
    該ハードウェア資源における障害発生を検知し、該物理パーティション単位で障害検知通知を行なう障害通知ステップと、
    該パーティショニングモードで実行中であるか否かの分割モード情報に基づいて、該パーティショニングモードであることを検出する動作モード検出ステップと、
    該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が、前記複数の物理パーティションにより分割して共有された共有ハードウェア資源であるか否かを、該ハードウェア資源の該パーティションモードに基づく共有状態に関するハードウェア資源管理情報に基づいて判断する、共有ハードウェア資源判断ステップと、
    前記パーティショニングモードであることが該動作モード検出ステップにおいて検出され、且つ、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が該共有ハードウェア資源であると該共有ハードウェア資源判断ステップにおいて判断された場合に、該障害通知ステップにおいて、当該共有ハードウェア資源を共有する前記複数の物理パーティション単位でそれぞれ通知される該障害検知通知に基づいて、一の共通障害報告を生成する共通障害報告生成ステップとを、該コンピュータに実行させることを特徴とする、障害処理プログラムを記録したコンピュータ読取可能な記録媒体。
JP2006352001A 2006-12-27 2006-12-27 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 Active JP4882736B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006352001A JP4882736B2 (ja) 2006-12-27 2006-12-27 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2006352001A JP4882736B2 (ja) 2006-12-27 2006-12-27 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体
US11/876,098 US8145956B2 (en) 2006-12-27 2007-10-22 Information processing apparatus, failure processing method, and recording medium in which failure processing program is recorded
EP07119624.0A EP1956486B1 (en) 2006-12-27 2007-10-30 Failure processing in a partitioned computer system
KR20070117901A KR100990700B1 (ko) 2006-12-27 2007-11-19 정보 처리 장치, 장해 처리 방법, 및 장해 처리 프로그램을기록한 컴퓨터 판독 가능한 기록 매체
CN2007101870261A CN101211283B (zh) 2006-12-27 2007-11-19 信息处理装置和故障处理方法

Publications (2)

Publication Number Publication Date
JP2008165347A true JP2008165347A (ja) 2008-07-17
JP4882736B2 JP4882736B2 (ja) 2012-02-22

Family

ID=39509624

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006352001A Active JP4882736B2 (ja) 2006-12-27 2006-12-27 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体

Country Status (5)

Country Link
US (1) US8145956B2 (ja)
EP (1) EP1956486B1 (ja)
JP (1) JP4882736B2 (ja)
KR (1) KR100990700B1 (ja)
CN (1) CN101211283B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194790A (ja) * 2011-03-16 2012-10-11 Nec Computertechno Ltd 障害検出方法、制御装置、マルチプロセッサシステム
JPWO2012056561A1 (ja) * 2010-10-29 2014-03-20 富士通株式会社 装置監視システム,方法およびプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008120383A1 (ja) * 2007-03-29 2008-10-09 Fujitsu Limited 情報処理装置、障害処理方法
US8998710B2 (en) * 2008-09-24 2015-04-07 Keith Atkinson Marketing system and methods for use with electronic gaming machines
US8151147B2 (en) * 2009-12-17 2012-04-03 Hewlett-Packard Development Company, L.P. Synchronize error handling for a plurality of partitions
CN102819464B (zh) * 2012-01-13 2015-08-19 金蝶软件(中国)有限公司 单据临时存储的方法和装置
CN104572417B (zh) * 2015-01-20 2018-02-23 天津市英贝特航天科技有限公司 基于cmos存储器的操作系统故障跟踪分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229806A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd 計算機システム
US20020129305A1 (en) * 2001-03-08 2002-09-12 International Business Machines Corporation System and method for reporting platform errors in partitioned systems
JP2004318873A (ja) * 2003-04-10 2004-11-11 Internatl Business Mach Corp <Ibm> 異種分割システムにおけるグローバル・エラーを報告するための方法および装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6842870B2 (en) * 2001-09-20 2005-01-11 International Business Machines Corporation Method and apparatus for filtering error logs in a logically partitioned data processing system
JP3640187B2 (ja) 2002-07-29 2005-04-20 日本電気株式会社 マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
JP4357433B2 (ja) * 2005-02-15 2009-11-04 株式会社日立製作所 ストレージシステム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229806A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd 計算機システム
US20020129305A1 (en) * 2001-03-08 2002-09-12 International Business Machines Corporation System and method for reporting platform errors in partitioned systems
JP2004318873A (ja) * 2003-04-10 2004-11-11 Internatl Business Mach Corp <Ibm> 異種分割システムにおけるグローバル・エラーを報告するための方法および装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2012056561A1 (ja) * 2010-10-29 2014-03-20 富士通株式会社 装置監視システム,方法およびプログラム
JP2012194790A (ja) * 2011-03-16 2012-10-11 Nec Computertechno Ltd 障害検出方法、制御装置、マルチプロセッサシステム

Also Published As

Publication number Publication date
US20100100776A1 (en) 2010-04-22
EP1956486A3 (en) 2009-12-02
US8145956B2 (en) 2012-03-27
CN101211283B (zh) 2011-07-20
CN101211283A (zh) 2008-07-02
KR100990700B1 (ko) 2010-10-29
EP1956486A2 (en) 2008-08-13
EP1956486B1 (en) 2018-09-26
JP4882736B2 (ja) 2012-02-22
KR20080061258A (ko) 2008-07-02

Similar Documents

Publication Publication Date Title
US9619311B2 (en) Error identification and handling in storage area networks
US9697147B2 (en) Stacked memory device with metadata management
US10725692B2 (en) Data storage method and apparatus
US8700959B2 (en) Scalable I/O adapter function level error detection, isolation, and reporting
CN100592271C (zh) 使用集成dma引擎进行高性能易失性磁盘驱动器存储器访问的装置和方法
TWI317868B (en) System and method to detect errors and predict potential failures
TWI528172B (zh) 機器檢查摘要暫存器
CN1799034B (zh) 利用基于树的结构的设备、系统和方法
US8713350B2 (en) Handling errors in a data processing system
US20160019131A1 (en) Methods and Arrangements to Collect Data
Do et al. Limplock: Understanding the impact of limpware on scale-out cloud systems
US8145840B2 (en) Method and system for storing excess data in a redundant array of independent disk level 6
US7660912B2 (en) I/O adapter LPAR isolation in a hypertransport environment
EP1119806B1 (en) Configuring system units
US7363434B2 (en) Method, system, and computer-readable medium for updating memory devices in a multi-processor computer system
US6658599B1 (en) Method for recovering from a machine check interrupt during runtime
US8839032B2 (en) Managing errors in a data processing system
US7516025B1 (en) System and method for providing a data structure representative of a fault tree
JP3943998B2 (ja) ロジカル・パーティショニングの実施をテストする方法、その方法をコンピュータに実行させるためのプログラムを記録したコンピューター可読記録媒体及びロジカル・パーティショニング・テスト・システム
US6081865A (en) Isolation of PCI and EISA masters by masking control and interrupt lines
US7631050B2 (en) Method for confirming identity of a master node selected to control I/O fabric configuration in a multi-host environment
TW567410B (en) Method and system for log repair action handling on a logically partitioned multiprocessing system
US7313717B2 (en) Error management
US8656228B2 (en) Memory error isolation and recovery in a multiprocessor computer system
US8166254B2 (en) Hypervisor page fault processing in a shared memory partition data processing system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111108

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4882736

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150