JP2006285384A

JP2006285384A - プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法

Info

Publication number: JP2006285384A
Application number: JP2005101253A
Authority: JP
Inventors: Kiyoshi Shinomiya; 潔四宮
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-03-31
Filing date: 2005-03-31
Publication date: 2006-10-19

Abstract

【課題】システムの運営への影響を最小限に抑えながら、管理プロセッサを障害から復旧できるようにする。
【解決手段】管理プロセッサ２２０は、管理プロセッサ１２０の障害を検出すると、ノード間管理パス３００を介して、ＮＭＩによる割り込み信号を管理プロセッサ１２０に発行する。すると、管理プロセッサ１２０は、所定の障害復旧処理を実行し、自力で障害の復旧を試みる。また、管理プロセッサ２２０は、ＮＭＩによる割り込みによって管理プロセッサ１２０の障害を復旧できなかったと判断すると、ノード間管理パス３００を介して管理プロセッサ１２０を外部リセットする。また、管理プロセッサ２２０は、管理プロセッサ１２０の障害復旧が不可能であると判断すると、管理プロセッサ１２０に代わって、処理ノード１００の制御を開始する。
【選択図】図１

Description

本発明は、複数の処理ノードを含むシステムにおける、各処理ノードが搭載する管理プロセッサの障害を処理するプロセッサ障害処理方式及びプロセッサ障害処理方法に関する。また、本発明は、処理ノードが搭載する管理プロセッサに関する。

近年、プロセッサ単体での性能の向上に限界があるため、装置（システム）全体としての性能を向上させる方法として、複数のサーバをクラスタ接続し装置全体としての処理能力を高めるクラスタ・コンピューティングが用いられる。クラスタ・コンピューティングを用いると、管理すべきノード数が増加するので、各ノードを個別に人手を用いて管理することは負担が大きい。従って、各サーバに管理プロセッサを搭載し、管理プロセッサがノードを管理する方法が、ハイエンドサーバだけでなく、ミドルレンジサーバやローエンドサーバにおいても採用されつつある。

しかし、管理プロセッサも他のプロセッサと同様に、障害を発生する場合がある。この場合、管理プロセッサの障害が発生すると、管理プロセッサだけの障害であるにもかかわらず、ノード全体の障害として扱われてしまうことになる。そのため、ノード内の管理プロセッサ以外の装置が正常に動作しいている（すなわち、ノード自体は正常に動作している）にもかかわらず、ノードを使用できないという問題が発生する。従って、管理プロセッサ自体の障害の影響を受けずに、サーバを運営できるようにすることが望ましい。

複数のプロセッサを用いたシステムにおいて各プロセッサを監視できる方法として、例えば、特許文献１には、複数のマイクロプロセッサが相互に診断を行うマイクロプロセッサシステムの相互診断方式が記載されている。また、例えば、特許文献２には、マスタユニットとスレーブユニットとが相互に監視を行い、各ユニットがそれぞれ内部異常表示及び外部異常表示を行える異常表示システムが記載されている。

特開平０３−０１４１３６号公報（第３頁、図１−３）特開平０９−１２８２６９号公報（段落００２３−００４４、図１−４）

多重化された複数のプロセッサが存在するシステムにおいて、障害を生じた障害発生プロセッサを他のプロセッサがリセットすることにより、障害発生プロセッサを復旧することが考えられる。しかし、外部のプロセッサから障害発生プロセッサの強制的なリセットを行うと、処理装置の運営に影響を及ぼしたり、装置の継続性維持に影響を及ぼす可能性がある。また、強制的なリセットを行うと、プロセッサの内部情報を採取できず、障害要因を究明することが困難となる。従って、処理装置の運営に影響を与えずに管理プロセッサを障害から復旧させ、且つ障害時に装置内部の情報を採取して障害要因の特定を行えるようにすることが求められる。

また、装置外部からのリセット以外の自己障害検出方法や、他の装置からの定期的な割り込みによる方法も考えられるが、障害発生プロセッサの復旧が不可能な場合もある。従って、自己障害検出方法や定期的な割り込みによる方法では障害復旧ができない場合であっても、障害を復旧できるようにすることが求められる。また、重障害等の発生時にはリセットを行っても、プロセッサが復旧しない可能性がある。従って、リセットによる障害復旧が不可能な場合であっても、装置の運営を継続できるようにすることが求められる。更に、障害発生時にプロセッサが設定情報等の書き込みを行っていた場合、障害によって設定情報が破壊される可能性がある。従って、設定情報が破壊されることにより障害復旧が不可能となったり、プロセッサが不正動作を行ったりすることを防止することが求められる。

また、特許文献１に記載された相互診断方式や特許文献２に記載された異常表示システムを用いれば、複数のプロセッサ間で障害の発生を相互に監視し、障害の発生をシステム管理者に通知（表示）することができる。しかし、障害を生じたプロセッサを自動復旧することはできず、障害復旧のためのシステム管理者の作業負担が大きい。

そこで、本発明は、システムの運営への影響を最小限に抑えながら、管理プロセッサを障害から復旧できるプロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法を提供することを目的とする。

本発明によるプロセッサ障害処理方式は、複数の処理ノードを含むシステムにおける、各処理ノードが搭載する管理プロセッサの障害を処理するプロセッサ障害処理方式であって、管理プロセッサは、システムに含まれる、管理プロセッサを搭載する処理ノードとは別の処理ノードが搭載する管理プロセッサである外部管理プロセッサの障害の発生を検出する障害検出手段（例えば、各管理プロセッサ１２０，２２０の制御部及び入出力部によって実現される）と、障害検出手段がいずれかの外部管理プロセッサの障害の発生を検出すると、所定の割り込み信号（例えば、ＮＭＩによる割り込み信号）を障害を発生した外部管理プロセッサに送信する割込手段（例えば、各管理プロセッサ１２０，２２０の制御部及び入出力部によって実現される）と、いずれかの外部管理プロセッサから所定の割り込み信号を受信すると、管理プロセッサの障害を復旧するための障害復旧処理を実行する障害復旧手段（例えば、各管理プロセッサ１２０，２２０の制御部によって実現される）とを含むことを特徴とする。

また、プロセッサ障害処理方式において、管理プロセッサは、割込手段が所定の割り込み信号を送信すると、障害を発生した外部管理プロセッサの障害が復旧したか否かを判断する割込復旧判定手段（例えば、各管理プロセッサ１２０，２２０の制御部及び入出力部によって実現される）と、割込復旧判定手段が外部管理プロセッサの障害が復旧していないと判断すると、外部管理プロセッサをリセットするリセット手段（例えば、各管理プロセッサ１２０，２２０の制御部及び入出力部によって実現される）とを含むものであってもよい。

また、プロセッサ障害処理方式において、管理プロセッサは、障害復旧手段の障害復旧処理によって管理プロセッサの障害が復旧すると、管理プロセッサの障害が復旧した旨を通知するための障害復旧通知情報（例えば、障害処理完了通知）を送信する障害復旧通知手段（例えば、各管理プロセッサ１２０，２２０の制御部及び入出力部によって実現される）を含み、割込復旧判定手段は、障害を発生した外部管理プロセッサから所定時間内に障害復旧通知情報を受信していないと判断すると、外部管理プロセッサの障害が復旧していないと判断するものであってもよい。

また、プロセッサ障害処理方式において、管理プロセッサは、障害を発生した外部管理プロセッサの障害の復旧が可能であるか否かを判断する障害復旧可否判断手段（例えば、各管理プロセッサ１２０，２２０の制御部によって実現される）と、障害復旧可否判断手段が障害を発生した外部管理プロセッサの障害の復旧が不可能であると判断すると、障害を発生した外部管理プロセッサに代わって、障害を発生した外部管理プロセッサが制御すべき処理ノードを制御する代替制御手段（例えば、各管理プロセッサ１２０，２２０の制御部及び入出力部によって実現される）とを含むものであってもよい。

また、プロセッサ障害処理方式において、管理プロセッサは、リセット手段によるリセットによって、障害を発生した外部管理プロセッサの障害が復旧したか否かを判断するリセット復旧判定手段（例えば、各管理プロセッサ１２０，２２０の制御部及び入出力部によって実現される）を含み、障害復旧可否判断手段は、リセット復旧判定手段が障害を発生した外部管理プロセッサの障害が復旧していないと判断すると、障害を発生した外部管理プロセッサの障害の復旧が不可能であると判断するものであってもよい。

また、プロセッサ障害処理方式は、処理ノード毎に、管理プロセッサの接続を切り替えるための切替手段（例えば、切替器１４０，２４０によって実現される）を備え、管理プロセッサは、障害を発生した外部管理プロセッサを搭載する処理ノードの切替手段に、管理プロセッサの接続の切り替えを指示する切替指示手段（例えば、各管理プロセッサ１２０，２２０の制御部及び入出力部によって実現される）を含み、切替手段は、いずれかの外部管理プロセッサからの切り替え指示に従って、切替手段を備えた処理ノードが搭載する管理プロセッサから、切り替え指示された外部管理プロセッサに接続を切り替えるものであってもよい。

また、プロセッサ障害処理方式において、障害復旧手段は、障害要因を特定するための障害要因特定情報を生成し保存するものであってもよい。

また、プロセッサ障害処理方式において、管理プロセッサは、各外部管理プロセッサから受信した設定情報を、管理プロセッサに対応付けて記憶する設定情報記憶手段（例えば、各処理ノード１００，２００のメモリによって実現される）と、いずれかの外部管理プロセッサからの要求に応じて、要求のあった外部管理プロセッサに対応する設定情報を設定情報記憶手段から抽出し、要求のあった外部管理プロセッサに抽出した設定情報を送信する設定情報送信手段（例えば、各管理プロセッサ１２０，２２０の制御部及び入出力部によって実現される）とを含むものであってもよい。

本発明による管理プロセッサは、複数の処理ノードを含むシステムにおける、各処理ノードが搭載する管理プロセッサであって、システムに含まれる、管理プロセッサを搭載する処理ノードとは別の処理ノードが搭載する管理プロセッサである外部管理プロセッサの障害の発生を検出する障害検出手段と、障害検出手段がいずれかの外部管理プロセッサの障害の発生を検出すると、所定の割り込み信号を障害を発生した外部管理プロセッサに送信する割込手段と、いずれかの外部管理プロセッサから所定の割り込み信号を受信すると、管理プロセッサの障害を復旧するための障害復旧処理を実行する障害復旧手段とを備えたことを特徴とする。

本発明によるプロセッサ障害処理方法は、複数の処理ノードを含むシステムにおける、各処理ノードが搭載する管理プロセッサの障害を処理するプロセッサ障害処理方法であって、システムに含まれるいずれかの管理プロセッサが、管理プロセッサを搭載する処理ノードとは別の処理ノードが搭載する管理プロセッサの障害の発生を検出するステップと、障害の発生を検出した管理プロセッサが、所定の割り込み信号を障害を発生した管理プロセッサに送信するステップと、障害を発生した管理プロセッサが、障害の発生を検出した管理プロセッサから所定の割り込み信号を受信すると、管理プロセッサの障害を復旧するための障害復旧処理を実行するステップとを含むことを特徴とする。

また、プロセッサ障害処理方法は、障害の発生を検出した管理プロセッサが、所定の割り込み信号を送信すると、障害を発生した管理プロセッサの障害が復旧したか否かを判断するステップと、障害の発生を検出した管理プロセッサが、障害を発生した管理プロセッサの障害が復旧していないと判断すると、障害を発生した管理プロセッサをリセットするステップとを含むものであってもよい。

また、プロセッサ障害処理方法は、障害の発生を検出した管理プロセッサが、障害を発生した管理プロセッサの障害の復旧が可能であるか否かを判断するステップと、障害の発生を検出した管理プロセッサが、障害を発生した管理プロセッサの復旧が不可能であると判断すると、障害を発生した管理プロセッサに代わって、障害を発生した管理プロセッサが制御すべき処理ノードを制御するステップとを含むものであってもよい。

本発明によれば、システムに含まれる各管理プロセッサが相互に障害発生の有無を監視し、障害を発生した管理プロセッサに所定の割り込み信号を送信する。そして、各管理プロセッサは、システム内の他の管理プロセッサから所定の割り込み信号を受信すると、障害復旧処理を実行し、自力で障害の復旧を試みる。そのため、管理プロセッサが自己検出困難な障害が発生した場合であっても、他のプロセッサからの障害通知によって、各管理プロセッサが自己の障害の発生を知ることができる。そして、各管理プロセッサは、自力で障害復旧処理を実行することができ、障害による影響を最小限に抑えることができる。従って、システムの運営への影響を最小限に抑えながら、管理プロセッサを障害から復旧することができる。

また、本発明によれば、障害を発生した管理プロセッサが自力で障害を復旧できないと判断すると、システム内の他の管理プロセッサが外部リセットを行うことによって、管理プロセッサを障害から復旧する。従って、割り込みによる方法では障害復旧ができない場合であっても、管理プロセッサを障害から復旧することができる。

また、本発明によれば、障害を発生した管理プロセッサの障害の復旧が不可能な場合、システム内の他の管理プロセッサが、障害を発生した管理プロセッサが制御すべき処理ノードを代替して制御する。そのため、管理プロセッサの障害の復旧が不可能な場合であっても、ノード制御に影響を与えずに、処理ノードの制御を継続することができる。

また、本発明によれば、障害要因特定情報を生成し保存するので、障害要因特定情報に基づいて、管理プロセッサの障害原因の特定を容易に行うことができる。

また、本発明によれば、管理プロセッサが保持する設定情報を、各管理プロセッサが相互に交換しあい保持する。そして、各管理プロセッサは、要求に応じて、保持する設定情報を、障害を発生した管理プロセッサに送信する。そのため、障害発生後に再度人手を用いて設定し直さなくても、処理ノードの設定情報を復旧させることができる。

以下、本発明の実施の形態を図面を参照して説明する。まず、本発明によるプロセッサ障害処理方式の概念を説明する。本実施の形態では、プロセッサ障害処理方式は、複数の処理装置（サーバ）がそれぞれ管理プロセッサを搭載し、複数の管理プロセッサ間を通信パスで接続した装置（システム）に適用される。例えば、プロセッサ障害処理方式は、複数のサーバをクラスタ接続した情報処理システムに適用される。

プロセッサ障害処理方式において、各処理ノード（サーバ）の管理プロセッサは、装置（システム）内の他の処理ノードの管理プロセッサの障害を検出する。すなわち、各サーバの管理プロセッサは、相互に障害の発生を監視する。また、プロセッサ障害処理方式において、複数の障害復旧手段を備え、処理装置の運営に影響の少ない手段から障害復旧の処理を実行し、障害を生じた管理プロセッサを復旧させる。

本実施の形態では、プロセッサ障害処理方式において、複数の障害復旧手段として、障害を発生した管理プロセッサに外部から割り込むための割り込み手段と、外部からのリセット手段と、外部の管理プロセッサを用いて処理装置の制御を代替する手段とを備える。そして、プロセッサ障害処理方式において、障害を発生した管理プロセッサが復旧するまでそれらの障害復旧手段を順に適用することによって、処理装置の運営に最も影響の少ない手段による障害復旧を実現する。

次に、プロセッサ障害処理方式を用いた情報処理システムの構成を説明する。図１は、プロセッサ障害処理方式を用いた情報処理システムの構成の一例を示すブロック図である。図１に示すように、情報処理システムは、２つの処理ノード１００，２００を含む。また、図１に示すように、情報処理システムにおいて、処理ノード１００と処理ノード２００とは、ノード間管理パス３００を介して接続される。

処理ノード１００，２００は、具体的には、各種処理を実行するサーバによって実現される。図１に示すように、処理ノード１００は、ホスト１１０、管理プロセッサ１２０、診断制御部１３０及び切替器１４０を含む。

ホスト１１０は、具体的には、プログラムに従って動作するサーバのＣＰＵ等のプロセッサである。ホスト１１０は、処理ノード１００に割り当てられた各種処理を実行する機能を備える。

管理プロセッサ１２０は、ホスト１１０を管理する機能を備える。本実施の形態では、管理プロセッサ１２０は、内部管理パス１５０を介して各種制御信号を出力し、ホスト１１０の診断や制御を行う。また、管理プロセッサ１２０は、処理ノード１００以外の他の処理ノードの管理プロセッサを監視する機能を備える。本実施の形態では、管理プロセッサ１２０は、ノード間管理パス３００を介して、処理ノード２００の管理プロセッサ２２０と定期通信を行う。そして、管理プロセッサ１２０は、所定時間毎に所定信号を受信したか否かを判断することによって、管理プロセッサ２２０に障害が発生したか否かを判断する。

また、管理プロセッサ１２０は、管理プロセッサ２２０の障害が発生すると、ノード間管理パス３００を介して各種信号を送信し、管理プロセッサ２２０の障害を復旧させる機能を備える。本実施の形態では、管理プロセッサ１２０は、ノード間管理パス３００を介して所定の割り込み信号を診断制御部２３０に送信し、管理プロセッサ２２０に、障害を復旧させるための障害復旧処理の実行を指示する。また、管理プロセッサ１２０は、ノード間管理パス３００を介して管理プロセッサ２２０を外部リセットし、管理プロセッサ２２０の障害を復旧させる。

また、管理プロセッサ１２０は、管理プロセッサ２２０の障害復旧が不可能である場合、ノード間管理パス３００を介して、管理プロセッサ２２０に代替してホスト２１０の管理を行う機能を備える。この場合、管理プロセッサ１２０は、ノード間管理パス３００を介して各種制御信号を送信し、ホスト２１０の診断や制御を行う。

また、管理プロセッサ１２０は、管理プロセッサ１２０自身の障害発生時に、管理プロセッサ２２０から、ノード間管理パス３００及び診断制御部１３０を介して、所定の割り込み信号を受信する機能を備える。また、管理プロセッサ１２０は、割り込み信号を受信すると、所定の障害復旧処理を実行し、自力で管理プロセッサ１２０自身の障害の復旧を試みる機能を備える。

また、管理プロセッサ１２０は、所定時間毎に、ノード間管理パス３００を介して、管理プロセッサ２２０から各種設定情報を受信する機能を備える。また、管理プロセッサ１２０は、受信した設定情報を、処理ノード１００のメモリ等の記憶装置に記憶させ管理する機能を備える。なお、２以上の管理プロセッサから設定情報を受信する場合、管理プロセッサ１２０は、受信した設定情報を、管理プロセッサに対応付けて記憶装置に記憶させる。また、管理プロセッサ１２０は、管理プロセッサ２２０からの要求に応じて、管理プロセッサ２２０の設定情報を記憶装置から抽出し、ノード間管理パス３００を介して管理プロセッサ２２０に送信する機能を備える。

診断制御部１３０は、管理プロセッサ１２０の障害時に、障害を復旧させるために管理プロセッサ１２０の制御を行う機能を備える。切替器１４０は、管理プロセッサの接続を切り替える機能を備える。本実施の形態では、切替器１４０は、通常、ホスト１１０を管理プロセッサ１２０に接続している。そして、切替器１４０は、管理プロセッサ１２０の障害時には、管理プロセッサ１２０からノード間管理パス３００側に接続を切り替え、ホスト１１０をノード間管理パス３００を介して管理プロセッサ２２０に接続する。

図１に示すように、処理ノード２００は、ホスト２１０、管理プロセッサ２２０、診断制御部２３０及び切替器２４０を含む。なお、ホスト２１０、管理プロセッサ２２０、診断制御部２３０及び切替器２４０の機能は、それぞれホスト１１０、管理プロセッサ１２０、診断制御部１３０及び切替器１４０の機能と同様である。

図２は、診断制御部１３０の構成の一例を示すブロック図である。図２に示すように、診断制御部１３０は、ＮＭＩレジスタ１３１、Ｒｅｓｅｔレジスタ１３２、切替レジスタ１３３及び排他レジスタ１３４を含む。

ＮＭＩレジスタ１３１は、管理プロセッサ１２０にＮＭＩ（Non Maskable Interrupt；抑止不可割り込み）による割り込み信号を発行するための所定の設定値を記憶する。本実施の形態では、診断制御部１３０は、ＮＭＩレジスタ１３１の設定値に基づいて、管理プロセッサ１２０にＮＭＩ信号を出力する。Ｒｅｓｅｔレジスタ１３２は、管理プロセッサ１２０にリセット信号を発行するための所定の設定値を記憶する。本実施の形態では、診断制御部１３０は、Ｒｅｓｅｔレジスタ１３２の設定値に基づいて、管理プロセッサ１２０にリセット信号を出力する。

切替レジスタ１３３は、切替器１４０の内部管理パス１５０の接続先を選択するするための所定の設定値を記憶する。本実施の形態では、診断制御部１３０は、切替レジスタ１３３の設定値に基づいて、内部管理パス１５０の接続先の切り替えを切替器１４０に指示する。排他レジスタ１３４は、処理ノード１００の外部の複数の管理プロセッサからのアクセスを調整するための所定の設定値を記憶する。本実施の形態では、排他レジスタ１３４は、処理ノード２００の管理プロセッサ２２０からのアクセスを調整するための設定値を記憶する。また、診断制御部１３０は、排他レジスタ１３４の設定値に基づいて、管理プロセッサ２２０からのアクセスを制御する。

なお、各レジスタ１３１，１３２，１３３，１３４は、ノード間管理パス３００を介して、処理ノード１００の外部の管理プロセッサ２２０からの指示によって設定される。また、処理ノード２００の診断制御部２３０の構成は、図２に示す診断制御部１３０の構成と同様である。

また、図１では、２つの処理ノード１００，２００を示しているが、情報処理システムは、３以上の処理ノードを含んでもよい。例えば、本実施の形態では２つの処理ノード１００，２００がノード間管理パス３００を介して接続されているが、３以上の処理ノードを含む場合であっても、各処理ノードの管理プロセッサがノード間管理パス３００を介して接続される。

次に、動作について説明する。本実施の形態では、各管理プロセッサ１２０，２２０は、電源オンの直後には、ＮＭＩ信号及びリセット信号をともに発行しないものとする。また、各処理ノード１００，２００において、電源オンの直後には、切替器１４０，２４０は、それぞれ処理ノード１００，２００内の管理プロセッサ１２０，２２０側に、ノード内管理パス１５０，２５０を介してホスト１１０，２１０を接続しているものとする。また、電源オンの直後には、排他レジスタは、どの外部の管理プロセッサについても、レジスタアクセス要求のための設定値を設定されていない（診断制御部１３０，２３０へのアクセス権を設定していない）状態であるものとする。

また、本実施の形態では、管理プロセッサ１２０は、所定時間毎に、各種設定情報をノード間管理パス３００を介して管理プロセッサ２２０に送信し、管理プロセッサ２２０は、管理プロセッサ１２０が管理する処理ノード１００の設定情報を管理している。また、管理プロセッサ２２０は、所定時間毎に、各種設定情報をノード間管理パス３００を介して管理プロセッサ１２０に送信し、管理プロセッサ１２０は、管理プロセッサ２２０が管理する処理ノード２００の設定情報を管理している。すなわち、管理プロセッサ１２０と管理プロセッサ２２０とは、所定時間毎に設定情報を相互に交換しあい相互管理している。

また、本実施の形態では、情報処理システムが含む各管理プロセッサのうち、障害を発生した管理プロセッサを障害発生プロセッサともいう。また、本実施の形態では、システム内のいずれかの管理プロセッサが障害を発生した場合に、その障害発生プロセッサを含む処理ノードの外部から障害発生プロセッサの障害を検出する管理プロセッサを外部障害検出プロセッサともいう。本実施の形態では、説明を分かりやすくするため、障害発生プロセッサが処理ノード１００の管理プロセッサ１２０であり、外部障害検出プロセッサが処理ノード２００の管理プロセッサ２２０である場合を説明する。

図３は、管理プロセッサ２２０が管理プロセッサ１２０を監視し、管理プロセッサ１２０の障害を復旧する処理の一例を示す流れ図である。なお、本実施の形態では、管理プロセッサ２２０が管理プロセッサ１２０を監視する動作を説明するが、管理プロセッサ１２０も、管理プロセッサ２２０と同様の処理に従って、管理プロセッサ２２０を監視する。

管理プロセッサ１２０は、処理ノード１００内のホスト１１０が各種処理を実行している間、内部管理パス１５０を介して各種制御信号を出力し、ホスト１１０の障害の有無を検出したり制御を行ったりしている。また、管理プロセッサ１２０は、ホスト１１０の診断や制御を行っている間、所定時間毎に、ノード間管理パス３００を介して管理プロセッサ２２０に所定信号を送信し、管理プロセッサ２２０と定期通信を行っている。管理プロセッサ１２０は、障害が発生すると、定期通信を行えず、外部障害検出プロセッサ２２０に所定の制御信号を発行（送信）できない状態になる（ステップＳ１０１，Ｓ１０２）。

外部障害検出プロセッサ２２０は、所定時間毎に、管理プロセッサ１２０から定期通信があったか否かを監視している（ステップＳ１０３）。本実施の形態では、管理プロセッサ２２０は、所定時間毎に、管理プロセッサ１２０からノード間管理パス３００を介して所定信号を受信したか否かを判断する。

管理プロセッサ１２０からの定期通信があった（所定信号を受信した）と判断すると、外部障害検出プロセッサ２２０は、管理プロセッサ１２０が正常に動作しいている（障害が発生していない）と判断する。そして、外部障害検出プロセッサ２２０は、次回の定期通信まで待ち、所定時間毎にステップＳ１０３の処理を繰り返し実行する。

所定時間を経過しても定期通信がない（所定信号を受信していない）と判断すると、管理プロセッサ２２０は、管理プロセッサ１２０が障害を発生したと判断する。また、定期通信があっても、不正な定期通信である（正しい信号を受信してない）と判断すると、管理プロセッサ２２０は、管理プロセッサ１２０が故障（障害）を発生したと判断する。

管理プロセッサ１２０が障害を発生したと判断すると、管理プロセッサ２２０は、障害発生プロセッサ１２０の処理ノード１００の診断制御部１３０に、診断制御部１３０へのアクセス権を要求する。この場合、管理プロセッサ２２０は、診断制御部１３０の排他レジスタ１３４を用いて、ノード間管理パス３００を介して設定値の書き込みを試みることによって、診断制御部１３０へのアクセス権の獲得を試みる。

診断制御部１３０は、管理プロセッサ２２０にアクセス権を許可する場合、管理プロセッサ２２０からの指示に従って排他レジスタ１３４に所定の設定値を設定する。排他レジスタ１３４が設定されることによって、管理プロセッサ２２０は、診断制御部１３０へのアクセス権を取得する。なお、例えば、既に他の処理ノードの管理プロセッサにアクセス権を許可している場合、診断制御部１３０は、管理プロセッサ２２０へのアクセス権設定を拒否する。

管理プロセッサ２２０は、診断制御部１３０へのアクセス権の獲得に成功したか否かを判断する（ステップＳ１０４）。例えば、管理プロセッサ２２０は、ノード間管理パス３００を介して診断制御部１３０の排他レジスタ１３４の設定値を読み込み、読み込んだ設定値に基づいて診断制御部１３０へのアクセス権の取得に成功したか否かを判断する。

アクセス権の獲得に失敗したと判断すると、管理プロセッサ２２０は、そのまま障害発生プロセッサ１２０の障害処理を終了する（ステップＳ１２１）。診断制御部１３０へのアクセス権の獲得に成功したと判断すると、管理プロセッサ２２０は、次のステップＳ１０５の処理を実行する。

本実施の形態において、排他レジスタ１３４は、複数の外部障害検出プロセッサがある場合に、同時に複数の外部障害検出プロセッサに診断制御部１３０のアクセス権が設定されないようにするためのレジスタである。すなわち、排他レジスタ１３４は、いずれか１つの外部障害検出プロセッサだけが、診断制御部１３０の排他レジスタ１３４以外の各レジスタ１３１，１３２，１３３にアクセス可能となるように設定される。

排他レジスタ１３４の実装方法について説明する。各管理プロセッサは、それぞれ予め１以上ノードリミット（NODELIMIT ）未満のユニークなノード番号が付与されている。診断制御部１３０の排他レジスタ１３４の値が「０」である場合、情報処理システム内のいずれの管理プロセッサも、ノード間管理パス３００を介して排他レジスタ１３４に書き込みを行うことが可能であるが、排他レジスタ１３４以外のレジスタ１３１，１３２，１３３への書き込みを行うことはできない。

排他レジスタ１３４の値が「０」以外であり、且つその排他レジスタ１３４の書き込み値がノードリミット未満である場合、排他レジスタ１３４の値にノード番号が一致する管理プロセッサだけが、診断制御部１３０内の任意のレジスタ１３１，１３２，１３３に値を書き込むことができる。すなわち、この場合、排他レジスタ１３４の値にノード番号が一致する管理プロセッサに、診断制御部１３０へのアクセス権が設定されている。

排他レジスタ１３４の値が「０」以外であり、且つその排他レジスタ１３４の書き込み値がノードリミット以上の値「Ｋ」である場合、強制的な書き込みを意味し、排他レジスタ１３４の値（書き込み前の値）に関わらず、排他レジスタ１３４に「K-NODELIMIT」の値が書き込まれる。本実施の形態では、例えば、いずれかの外部障害検出プロセッサにアクセス権を設定したまま管理プロセッサ１２０が障害により動作不能となってしまった場合に、外部障害検出プロセッサ２２０は、排他レジスタ１３４を強制的に書き換える。

診断制御部１３０へのアクセス権を獲得したい外部障害検出プロセッサは、排他レジスタ１３４への自ノードのノード番号の書き込みを試みる。そして、外部障害検出プロセッサは、排他レジスタ１３４の設定値を読み込み、排他レジスタ１３４の値が自ノードの番号に書き換えられていれば、アクセス権の獲得に成功したと判断する。また、外部障害検出プロセッサは、排他レジスタ１３４の値が自ノードの番号と異っている（自ノードの番号に書き換えられなかった）場合、アクセス権の獲得に失敗したと判断する。

また、診断制御部１３０のアクセス権を獲得した外部障害検出プロセッサは、障害発生プロセッサの障害復旧を完了すると、排他レジスタ１３４に「０」を書き込み、処理を完了する。また、排他レジスタ１３４に「０」以外の値を設定したまま管理プロセッサが障害等により動作不可になった場合、外部障害検出プロセッサは、ノードリミット以上の値を書き込むことによって、排他レジスタ１３４を強制的に書き換えることができる。

なお、排他レジスタ１３４は、本実施の形態で示した実装方法に限らず、例えば、Test&Set（テストアンドセット）やCompare&Swap（コンペアアンドスワップ）等の実装方法を用いて実現されてもよい。

診断制御部１３０へのアクセス権を獲得すると、外部障害検出プロセッサ２２０は、ノード間管理パス３００を介して、診断制御部１３０のＮＭＩレジスタ１３１に所定のＮＭＩ発行要求値を書き込むことによって、障害発生プロセッサ１２０にＮＭＩを発行する（ステップＳ１０５）。また、ＮＭＩレジスタ１３１に値が書き込まれると、診断制御部１３０は、ＮＭＩレジスタ１３１の設定値に基づいて、ＮＭＩによる割り込み信号を障害発生プロセッサ１２０に出力する。

障害発生プロセッサ１２０は、外部障害検出プロセッサ２２０からのＮＭＩを正常に受け付けたか否かを判断する（ステップＳ１０６）。例えば、障害発生プロセッサ１２０は、所定時間毎に、診断制御部１３０からＮＭＩ信号が入力されたか否かを判断する。

ＮＭＩを正常に受け付けたと判断すると、障害発生プロセッサ１２０は、ＮＭＩによる障害処理開始通知を、ノード間管理パス３００を介して外部障害検出プロセッサに発行（送信）し、ＮＭＩによる障害復旧処理を開始する（ステップＳ１０７）。そして、障害発生プロセッサ１２０は、所定の障害復旧処理を実行することによって、自力で障害の復旧を試みる。なお、ステップＳ１０６において、ＮＭＩを正常に受け付けられなかったと判断した場合、障害発生プロセッサ１２０は、ステップＳ１１２に処理を移行する。

ステップＳ１０７において、障害発生プロセッサ１２０は、ＮＭＩによる障害復旧処理として、ホスト１１０との通信状態の復旧や実行中の処理の正常終了、障害発生時のログの採取（作成）及び保存の処理を実行する。そして、障害発生プロセッサ１２０は、障害要因を特定するための障害要因特定情報の生成及び保存を行い、処理ノード１００の継続運営が可能な状態への復旧を試みる。更に、障害発生プロセッサ１２０が管理するホスト１１０の構成情報等の設定情報に障害（例えば、データの破壊）が検出された場合、障害発生プロセッサ１２０は、障害復旧時の処理ノード１００の状態を正常に保つため、ノード間管理パス３００を介して、外部障害検出プロセッサ２２０に設定情報を要求し入手（受信）する。この場合、外部障害検出プロセッサ２２０は、要求に応じて、障害発生プロセッサ１２０に対応する設定情報を記憶装置から抽出し、抽出した設定情報をノード間管理パス３００を介して障害発生プロセッサ１２０に送信する。

障害発生プロセッサ１２０は、ＮＭＩによる障害復旧処理を正常に完了したか否かを判断する（ステップＳ１０８）。ＮＭＩによる障害復旧処理を正常に完了したと判断すると、障害発生プロセッサ１２０は、ステップＳ１０９の処理を実行する。ＮＭＩによる障害復旧処理を実行しても、管理プロセッサ１２０の障害を復旧できなかった場合、障害発生プロセッサ１２０は、ステップＳ１１２の処理を実行する。例えば、障害発生プロセッサ１２０は、障害発生プロセッサ１２０の復旧不可能なストールや、割り込みベクタ不正、スタック不正、割り込み時の処理情報の破壊等によって、ＮＭＩ処理も正常に受け付けられない障害であった場合、ステップＳ１１２に処理を移行する。

ＮＭＩによる障害復旧処理を正常に完了したと判断すると、管理プロセッサ１２０は、ノード間管理パス３００を介して、障害処理完了通知を外部障害検出プロセッサ２２０に発行（送信）する（ステップＳ１０９）。

外部障害検出プロセッサ２２０は、ＮＭＩを発行してから所定時間以内に、障害発生プロセッサ１２０から障害処理開始通知及び障害処理完了通知を受信したか否かを判断する（ステップＳ１１０）。障害処理開始通知及び障害処理完了通知を受け取ったと判断すると、外部障害検出プロセッサ２２０は、管理プロセッサ１２０の障害復旧が完了したと判断し、障害処理を終了してステップＳ１２０の処理に移行する。

所定期間内に障害処理開始通知及び障害処理完了通知を受信できなかったと判断すると、外部障害検出プロセッサ２２０は、障害発生プロセッサ１２０をリセットするために、リセットの発行処理を実行する（ステップＳ１１１）。ステップＳ１１１において、外部障害検出プロセッサ２２０は、診断制御部１３０のＲｅｓｅｔレジスタ１３２に、ノード間管理パス３００を介してリセット発行要求値を書き込むことによって、障害発生プロセッサ１２０をリセットする。また、外部障害検出プロセッサ２２０は、再度ノード間管理パス３００を介してＲｅｓｅｔレジスタ１３２にリセット解除要求値を書き込むことによって、障害発生プロセッサ１２０のリセットを解除する。

障害発生プロセッサ１２０は、ＮＭＩを正常に受け付けられなかった場合、又はＮＭＩによる障害復旧処理に成功しなかった場合、外部障害検出プロセッサ２２０からリセットを指示された（診断制御部１３０からリセット信号を入力した）か否かを判断する（ステップＳ１１２）。この場合、障害発生プロセッサ１２０は、診断制御部１３０を介して、外部障害検出プロセッサ２２０による外部リセットを受け付けるまで待ち続ける。

外部リセットを受け付ける（リセット信号を入力する）と、障害発生プロセッサ１２０は、リセット解除後に初期化処理を実行する（ステップＳ１１３）。なお、ステップＳ１１３の初期化処理において、障害発生プロセッサ１２０は、チェックサム等により設定情報の異常を検出し初期設定情報（ノード情報）の破壊を検出した場合、外部障害検出プロセッサ２２０に、ノード間管理パス３００を介して初期設定情報を要求し入手（受信）する。この場合、外部障害検出プロセッサ２２０は、要求に応じて、障害発生プロセッサ１２０に対応する初期設定情報を記憶装置から抽出し、抽出した初期設定情報をノード間管理パス３００を介して障害発生プロセッサ１２０に送信する。

障害発生プロセッサ１２０は、初期化処理を正常に終了したか否かを判断する（ステップＳ１１４）。初期化処理が正常に終了しなかったと判断すると、障害発生プロセッサ１２０は、ステップＳ１１３に戻り再度初期化処理を実行する。

初期化処理が正常に終了したと判断すると、障害発生プロセッサ１２０は、初期化完了通知を、ノード間管理パス３００を介して外部障害検出プロセッサ２２０に発行（送信）し、障害／初期化処理を終了する（ステップＳ１１５，Ｓ１１６）。

外部障害検出プロセッサ２２０は、外部リセットを発行してから所定期間内に、障害発生プロセッサ１２０から初期化完了通知を受信したか否かを判断する（ステップＳ１１７）。所定期間内に初期化完了通知を受信したと判断すると、外部障害検出プロセッサ２２０は、障害発生プロセッサ１２０の初期化が正常に完了したと判断し、障害復旧処理を完了するためステップＳ１２０の処理に移行する。

所定期間内に初期化完了通知を受信しなかったと判断すると、外部障害検出プロセッサ２２０は、リセットによる障害復旧が不可能であると判断し、障害発生プロセッサ１２０へのリセット発行及びパス切り替え処理を実行する（ステップＳ１１８）。すなわち、外部障害検出プロセッサ２２０は、障害発生プロセッサ１２０の障害の復旧が不可能であると判断し、ステップＳ１１８のパス切り替え処理に移行する。

ステップＳ１１８において、外部障害検出プロセッサ２２０は、Ｒｅｓｅｔレジスタ１３２に、ノード間管理パス３００を介してリセット発行要求値を書き込むことによって、障害発生プロセッサ１２０をリセットする。また、外部障害検出プロセッサ２２０は、リセットを解除せずに、ノード間管理パス３００を介して、切替レジスタ１３３に値を書き込むことによって、切替器１４０に、ノード内管理パス１５０の接続を管理プロセッサ１２０側からノード間管理パス３００側に切り替えさせる。

管理パスの切り替え処理を実行すると、以後、外部障害検出プロセッサ２２０は、本来障害発生プロセッサ１２０が制御していた処理ノード１００を、障害発生プロセッサ１２０に代替して制御する（ステップＳ１１９）。

また、外部障害検出プロセッサ２２０は、障害発生プロセッサ１２０が制御していた全ての処理ノードを制御するため、ノード間管理パス３００を介して、全ての診断制御部の排他レジスタの値を読み込む。この場合、外部障害検出プロセッサ２２０は、読み込んだ値が障害発生プロセッサ１２０のノード番号「FNODE 」と一致すると判断すると、外部障害検出プロセッサ２２０のノード番号を「ENODE 」とし、排他レジスタに「NODELIMIT＋ENODE」の値を書き込む。また、外部障害検出プロセッサ２２０は、切替レジスタ１３３を用いて、ノード内管理バス１５０の接続を管理プロセッサ１２０側からノード間管理パス３００側に切り替えさせ、処理ノード１００の制御を開始する。

ステップＳ１１９で代替制御を開始すると、外部障害検出プロセッサ２２０は、障害発生プロセッサ１２０の障害処理を終了する（ステップＳ１２１）。

なお、ステップＳ１１０で障害処理開始通知及び障害完了通知を受信したと判断した場合、又はステップＳ１１７で初期化完了通知を受信したと判断した場合、外部障害検出プロセッサ２２０は、ステップＳ１０４でアクセス権を獲得した診断制御部１３０を開放する（ステップＳ１２０）。この場合、外部障害検出プロセッサ２２０は、ノード間管理パス３００を介して、診断制御部１３０の排他レジスタ１３４に値「０」を書き込むことによって、診断制御部１３０を開放する。そして、外部障害検出プロセッサ２２０は、障害発生プロセッサ１２０の障害処理を完了する（ステップＳ１２１）。

以上のように、本実施の形態によれば、情報処理システムに含まれる各管理プロセッサが相互に障害発生の有無を監視し、障害を発生した管理プロセッサにＮＭＩによる割り込み信号を送信する。そして、各管理プロセッサは、情報処理システム内の他の管理プロセッサからＮＭＩによる割り込み信号を受信すると、所定の障害復旧処理を実行し、自力で障害の復旧を試みる。そのため、管理プロセッサが自己検出困難な障害が発生した場合であっても、他のプロセッサからの障害通知によって、各管理プロセッサが自己の障害の発生を知ることができる。そして、各管理プロセッサは、障害の後処理を実行した後に、復旧処理を実施することが可能になり、障害による影響を最小限に抑えることができる。従って、情報処理システムの運営への影響を最小限に抑えながら、管理プロセッサを障害から復旧することができる。

また、本実施の形態によれば、障害を発生した管理プロセッサが自力で障害を復旧できない場合であっても、情報処理システム内の他の管理プロセッサが外部リセットを行うことによって、管理プロセッサを障害から復旧することができる。従って、割り込みによる方法では障害復旧ができない場合であっても、管理プロセッサを障害から復旧することができる。

また、本実施の形態によれば、障害を発生した管理プロセッサの障害の自己後処理が不可能で、管理プロセッサの障害の復旧が不可能な場合、情報処理システム内の他の管理プロセッサが、代替パス（ノード間管理パス３００）を介して、障害を発生した管理プロセッサのノード制御を代替する。そのため、管理プロセッサの障害の復旧が不可能な場合であっても、ノード制御に影響を与えずに、処理ノードの制御を継続することができる。また、情報処理システム内の他の管理プロセッサが代替パスを介して処理ノードを制御している間に、障害を発生した管理プロセッサを交換することができる。そのため、処理ノードの制御に影響を与えずに、管理プロセッサのオンライン保守を行うことができる。

また、本実施の形態によれば、障害を発生した管理プロセッサが自己障害処理を実施できるので、障害時の管理プロセッサの内部情報を収集することができ、障害要因を特定するための障害要因特定情報を保存することができる。そのため、障害要因特定情報に基づいて、管理プロセッサの障害原因の特定を容易に行うことができる。

また、本実施の形態によれば、管理プロセッサが保持するノードの設定情報を、各管理プロセッサが相互に交換しあい保持する。そして、各管理プロセッサは、要求に応じて、保持する設定情報を、障害を発生した管理プロセッサに送信する。そのため、障害発生後に再度人手を用いて設定し直さなくても、処理ノードの設定情報を復旧させることができる。

本発明は、複数のプロセッサを含む情報処理システムにおいて、プロセッサの障害を処理する用途に適用できる。例えば、クラスタコンピューティングを用いたシステムにおいて、管理プロセッサの障害を処理する用途に適用できる。

プロセッサ障害処理方式を用いた情報処理システムの構成の一例を示すブロック図である。診断制御部１３０の構成の一例を示すブロック図である。管理プロセッサ２２０が管理プロセッサ１２０を監視し、管理プロセッサ１２０の障害を復旧する処理の一例を示す流れ図である。

符号の説明

１００，２００処理ノード
１１０，２１０ホスト
１２０，２２０管理プロセッサ
１３０，２３０診断制御部
１３１ＮＭＩレジスタ
１３２Ｒｅｓｅｔレジスタ
１３３切替レジスタ
１３４排他レジスタ
１４０，２４０切替器
１５０，２５０内部管理パス
３００ノード間管理パス

Claims

複数の処理ノードを含むシステムにおける、前記各処理ノードが搭載する管理プロセッサの障害を処理するプロセッサ障害処理方式であって、
前記管理プロセッサは、
前記システムに含まれる、当該管理プロセッサを搭載する処理ノードとは別の処理ノードが搭載する管理プロセッサである外部管理プロセッサの障害の発生を検出する障害検出手段と、
前記障害検出手段がいずれかの外部管理プロセッサの障害の発生を検出すると、所定の割り込み信号を前記障害を発生した外部管理プロセッサに送信する割込手段と、
いずれかの外部管理プロセッサから所定の割り込み信号を受信すると、当該管理プロセッサの障害を復旧するための障害復旧処理を実行する障害復旧手段とを含む
ことを特徴とするプロセッサ障害処理方式。
管理プロセッサは、
割込手段が所定の割り込み信号を送信すると、障害を発生した外部管理プロセッサの障害が復旧したか否かを判断する割込復旧判定手段と、
前記割込復旧判定手段が前記外部管理プロセッサの障害が復旧していないと判断すると、前記外部管理プロセッサをリセットするリセット手段とを含む
請求項１記載のプロセッサ障害処理方式。
管理プロセッサは、障害復旧手段の障害復旧処理によって当該管理プロセッサの障害が復旧すると、当該管理プロセッサの障害が復旧した旨を通知するための障害復旧通知情報を送信する障害復旧通知手段を含み、
割込復旧判定手段は、障害を発生した外部管理プロセッサから所定時間内に障害復旧通知情報を受信していないと判断すると、前記外部管理プロセッサの障害が復旧していないと判断する
請求項２記載のプロセッサ障害処理方式。
管理プロセッサは、
障害を発生した外部管理プロセッサの障害の復旧が可能であるか否かを判断する障害復旧可否判断手段と、
前記障害復旧可否判断手段が前記障害を発生した外部管理プロセッサの障害の復旧が不可能であると判断すると、前記障害を発生した外部管理プロセッサに代わって、前記障害を発生した外部管理プロセッサが制御すべき処理ノードを制御する代替制御手段とを含む
請求項２又は請求項３記載のプロセッサ障害処理方式。
管理プロセッサは、リセット手段によるリセットによって、障害を発生した外部管理プロセッサの障害が復旧したか否かを判断するリセット復旧判定手段を含み、
障害復旧可否判断手段は、前記リセット復旧判定手段が前記障害を発生した外部管理プロセッサの障害が復旧していないと判断すると、前記障害を発生した外部管理プロセッサの障害の復旧が不可能であると判断する
請求項４記載のプロセッサ障害処理方式。
処理ノード毎に、管理プロセッサの接続を切り替えるための切替手段を備え、
管理プロセッサは、障害を発生した外部管理プロセッサを搭載する処理ノードの切替手段に、管理プロセッサの接続の切り替えを指示する切替指示手段を含み、
前記切替手段は、いずれかの外部管理プロセッサからの切り替え指示に従って、当該切替手段を備えた処理ノードが搭載する管理プロセッサから、前記切り替え指示された外部管理プロセッサに接続を切り替える
請求項４又は請求項５記載のプロセッサ障害処理方式。
障害復旧手段は、障害要因を特定するための障害要因特定情報を生成し保存する請求項１から請求項６のうちのいずれか１項に記載のプロセッサ障害処理方式。
管理プロセッサは、
各外部管理プロセッサから受信した設定情報を、管理プロセッサに対応付けて記憶する設定情報記憶手段と、
いずれかの外部管理プロセッサからの要求に応じて、前記要求のあった外部管理プロセッサに対応する設定情報を前記設定情報記憶手段から抽出し、前記要求のあった外部管理プロセッサに前記抽出した設定情報を送信する設定情報送信手段とを含む
請求項１から請求項７のうちのいずれか１項に記載のプロセッサ障害処理方式。
複数の処理ノードを含むシステムにおける、前記各処理ノードが搭載する管理プロセッサであって、
前記システムに含まれる、当該管理プロセッサを搭載する処理ノードとは別の処理ノードが搭載する管理プロセッサである外部管理プロセッサの障害の発生を検出する障害検出手段と、
前記障害検出手段がいずれかの外部管理プロセッサの障害の発生を検出すると、所定の割り込み信号を前記障害を発生した外部管理プロセッサに送信する割込手段と、
いずれかの外部管理プロセッサから所定の割り込み信号を受信すると、当該管理プロセッサの障害を復旧するための障害復旧処理を実行する障害復旧手段とを
備えたことを特徴とする管理プロセッサ。
複数の処理ノードを含むシステムにおける、前記各処理ノードが搭載する管理プロセッサの障害を処理するプロセッサ障害処理方法であって、
前記システムに含まれるいずれかの管理プロセッサが、当該管理プロセッサを搭載する処理ノードとは別の処理ノードが搭載する管理プロセッサの障害の発生を検出するステップと、
前記障害の発生を検出した管理プロセッサが、所定の割り込み信号を前記障害を発生した管理プロセッサに送信するステップと、
前記障害を発生した管理プロセッサが、前記障害の発生を検出した管理プロセッサから所定の割り込み信号を受信すると、管理プロセッサの障害を復旧するための障害復旧処理を実行するステップとを
含むことを特徴とするプロセッサ障害処理方法。
障害の発生を検出した管理プロセッサが、所定の割り込み信号を送信すると、障害を発生した管理プロセッサの障害が復旧したか否かを判断するステップと、
前記障害の発生を検出した管理プロセッサが、前記障害を発生した管理プロセッサの障害が復旧していないと判断すると、前記障害を発生した管理プロセッサをリセットするステップとを含む
請求項１０記載のプロセッサ障害処理方法。
障害の発生を検出した管理プロセッサが、障害を発生した管理プロセッサの障害の復旧が可能であるか否かを判断するステップと、
前記障害の発生を検出した管理プロセッサが、前記障害を発生した管理プロセッサの復旧が不可能であると判断すると、前記障害を発生した管理プロセッサに代わって、前記障害を発生した管理プロセッサが制御すべき処理ノードを制御するステップとを含む
請求項１１記載のプロセッサ障害処理方法。