JP3640187B2

JP3640187B2 - マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード

Info

Publication number: JP3640187B2
Application number: JP2002220125A
Authority: JP
Inventors: 忠茂門井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-07-29
Filing date: 2002-07-29
Publication date: 2005-04-20
Anticipated expiration: 2022-07-29
Also published as: US7171590B2; US20040153888A1; EP1391822A2; JP2004062535A

Description

【０００１】
【発明の属する技術分野】
本発明は、マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノードに関する。
【０００２】
【従来の技術】
近年、マルチプロセッサシステム、特にＷｉｎｄｏｗｓ（登録商標）やＵＮＩＸ（登録商標）等のオープンシステムにおいて、プラットフォームがＯＳ（Operating System）、ドライバ、アプリケーションと協力して、システムの構成制御、電源制御、エラーロギング、障害処理等をおこなうＲＡＳ（Remote Access Service）機能を強化する傾向にある。
【０００３】
また、システム基盤であるプラットフォームは、ユーザニーズの多様化に対応するため大規模化しており、特に、複数のプロセッサを有するマルチプロセッサシステムを独立して運用可能なシステム（パーティション）に分割して、複数のＯＳを運用可能とする機能が要求されている。
【０００４】
このような状況から今後、大規模プラットフォームを複数のパーティションに分割し、それぞれのパーティションの負荷状態に応じて柔軟にリソースの追加又は削除をおこなう機能、予備リソースを用意しておき障害発生時に即座に自動リプレースする機能等への要求に応えることができ、また、システム統合によるコスト削減を実現できる、統合プラットフォームへのニーズが高まることが予想される。
【０００５】
ところで、マルチプロセッサシステムを用いた場合は、システム障害に対する復旧処理を的確におこなうことが重要となる。例えば、複数のノードを１つのサービスプロセッサで制御しておこなうマルチプロセッサシステムに対しての障害処理方法が開示されている（特開２００１−１３４５４６公報）。
【０００６】
【発明が解決しようとする課題】
しかし、複数のノードをサービスプロセッサで制御してなるノード群が複数集まって構成されたシステムで、異なるノード群に属する複数のノードを選択して独立のシステムとして運用するマルチプロセッサシステムにおいては、障害が複数のノード群に渡って発生する可能性があり、上記の障害処理手段では的確に障害処理をおこなうことができない。
【０００７】
本発明はこのような問題点に鑑みて提案されたものであり、複数のノードが該ノードを制御するサービスプロセッサに接続されてなるノード群が複数集まって形成された大規模プラットフォームを用いたマルチプロセッサシステムにおいて、障害処理を迅速かつ的確におこなうことができる障害処理方法、マルチプロセッサシステム及びノードを提供することを目的とする。
【０００８】
【課題を解決するための手段】
上記課題を解決するため、請求項１に記載の発明は、複数のノードと前記複数のノードを制御するサービスプロセッサとを有するノード群が複数集まって構成され、前記複数のノード群からなる複数の前記ノードは相互接続網により相互に接続され、複数の前記サービスプロセッサは該サービスプロセッサを制御するサービスプロセッサマネージャに接続され、複数の前記ノード群から選択された複数の前記ノードでパーティションを構成したマルチプロセッサシステムにおける障害処理方法であって、いずれかの前記ノードで障害が発生した場合に、その障害ノードは、該ノードを制御する前記サービスプロセッサに障害の発生を通知し、この通知により、該サービスプロセッサは、該ノードから障害情報を取得して、該障害情報を前記サービスプロセッサマネージャに送信する工程と、前記障害ノードは、前記障害ノードと同一のパーティションに属する他のノードに障害情報を伝達する工程と、前記障害ノードと同一のパーティションに属する他のノードは、該ノードを制御する前記サービスプロセッサに障害の発生を通知し、この通知により、該サービスプロセッサは、該ノードから障害情報を取得して、該障害情報を前記サービスプロセッサマネージャに送信する工程と、前記サービスプロセッサマネージャは、前記障害情報に基づいて前記それぞれのサービスプロセッサに障害処理を指示し、この指示を受けた前記サービスプロセッサは、該指示に従って障害処理をおこなう工程と、を含むことを特徴とする。
【０００９】
請求項１に記載の発明によれば、障害ノードと同一パーティション内のノードから各ノードの障害情報を入手して、それに基づいて障害処理をおこなうので、被疑部の特定を迅速かつ的確におこなえ、ひいては障害処理を迅速かつ的確におこなうことができる。なお、パーティションとはシステムの一部分であり、独立して運用可能ものをいう。また、障害情報とは障害がある旨の情報、または、エラーログなどの障害内容を示す情報をいう。
【００１０】
請求項２に記載の発明は、請求項１に記載のマルチプロセッサシステムにおける障害処理方法において、前記障害ノードは、前記相互接続網を用いて障害通知パケットを他のノードに送信して、前記障害ノードと同一のパーティションに属する他のノードに前記他のノードに障害情報を伝達することを特徴とする。
【００１１】
請求項２に記載の発明によれば、障害情報を障害パケットの送信でおこなうので、通常のトランザクションにおけるパケット送信と同じ環境を用いて障害処理が可能となる。
【００１２】
請求項３に記載の発明は、請求項１に記載のマルチプロセッサシステムにおける障害処理方法において、前記障害ノードは、前記相互通信網を用いて障害通知パケットを前記障害ノードと同一のパーティションに属する他のノードを宛先として送信して、前記障害ノードと同一のパーティションに属する他のノードに障害情報を伝達することを特徴とする。
【００１３】
請求項３に記載の発明によれば、障害パケットを前記障害ノードと同一のパーティションに属する他のノードを宛先として送信するので、不要なパケットを相互接続網に送信せずに済み、効率的な障害処理が可能となる。
【００１４】
請求項４に記載の発明は、請求項１に記載のマルチプロセッサシステムにおける障害処理方法において、前記障害ノードは、前記相互通信網を用いて障害通知パケットをブロードキャストで送信し、障害通知パケットを受信したノードが前記障害ノードと同一パーティションに属する場合のみ前記障害情報を該ノードに取り込むことで前記障害ノードと同一のパーティションに属する他のノードに障害情報を伝達することを特徴とする。
【００１５】
請求項４に記載の発明によれば、障害ノードで障害通知パケットの宛先を特定しないので障害ノードでの処理負荷を低減でき、障害ノードの処理負荷が大きいときに有利である。
【００１６】
請求項５に記載の発明は、請求項２乃至４のいずれかに記載のマルチプロセッサシステムにおける障害処理方法において、
前記障害ノードは、前記相互接続網を用いて障害通知パケットを送信する際に、通常のトランザクションで用いるチャンネルとは異なるチャンネルを用いて障害通知パケットを送信して、前記障害ノードと同一のパーティションに属する他のノードに障害情報を伝達することを特徴とする。
【００１７】
請求項５に記載の発明によれば、障害の影響等で通常のトランザクションに用いられるチャンネルが渋滞していたり、性能が低下していたりしても迅速、かつ、確実に障害通知パケットを送信することが可能となる。
【００１８】
請求項６に記載の発明は、複数のノードが該ノードを制御するサービスプロセッサに接続されてなるノード群が複数集まって構成され、複数の前記ノードは相互接続網により相互に接続され、前記サービスプロセッサおよびサービスプロセッサを制御するサービスプロセッサマネージャが専用線で接続され、複数の前記ノード群から選択された複数の前記ノードでパーティションを構成したマルチプロセッサシステムであって、いずれかの前記ノードで障害が発生した場合に、その障害ノードは、該ノードを制御する前記サービスプロセッサに障害の発生を通知し、この通知により、該サービスプロセッサは、該ノードから障害情報を取得して、該障害情報を前記サービスプロセッサマネージャに送信する障害ノード通知手段と、前記障害ノードは、前記障害ノードと同一のパーティションに属する他のノードに障害情報を伝達するパーティション内通知手段と、前記障害ノードと同一のパーティションに属する他のノードは、該ノードを制御する前記サービスプロセッサに障害の発生を通知し、この通知により、該サービスプロセッサは、該ノードから障害情報を取得して、該障害情報を前記サービスプロセッサマネージャに送信する他ノード通知手段と、前記サービスプロセッサマネージャは、前記障害情報に基づいて前記サービスプロセッサに障害処理を指示し、この指示を受けた前記サービスプロセッサは、該指示に従って障害処理をおこなう障害処理手段と、を備えたことを特徴とする。
【００１９】
請求項７に記載の発明は、複数のノードが該ノードを制御するサービスプロセッサに接続されてなるノード群が複数集まって構成され、複数の前記ノードは相互接続網により相互に接続され、前記サービスプロセッサおよびサービスプロセッサを制御するサービスプロセッサマネージャが専用線で接続され、複数の前記ノード群から選択された複数の前記ノードでパーティションを構成したマルチプロセッサシステムに含まれるノードであって、該ノードに障害が発生した場合に、該ノードと同一のパーティションに属する他のノードに障害情報を通知するとともに、該ノードを制御する前記サービスプロセッサに障害発生を通知することを特徴とする。
【００２０】
請求項６または７に記載の発明によれば、何れかのノードで障害が発生した場合、相互接続網を用いて同一パーティションに属する他のノードに障害情報を通知して、該障害情報に基づいて障害処理をおこなえるので、また、サービスプロセッサマネージャが各サービスプロセッサを制御して障害処理をおこなえるので迅速かつ的確な障害処理を可能となる。
【００２１】
【発明の実施の形態】
以下、本発明の好適な実施の形態について、添付図面を参照して説明する。
≪システム構成≫
図１は、本発明の実施形態にかかるマルチプロセッサシステムの一例を示すシステム構成図である。
【００２２】
図１において、１はマルチプロセッサシステムを、２はノード群を、３はノードを、４はサービスプロセッサを、５はプロセッサを、６メモリを、７はノースブリッジを、８はＩ／Ｏホストブリッジを、９はクロスバーを、１０は相互接続網を、１１はサービスプロセッサマネージャを、１２は専用線を示している。
【００２３】
マルチプロセッサシステム１はノード群Ａ〜Ｄの４つのノード群２で構成されている。マルチプロセッサシステム１を構成するノード群２の数は本実施形態では４つであるが、これに限定されず、本発明は２つ以上のノード群２で構成される場合に適用が可能である。各ノード群２はそれぞれ遠隔していても良いし、隣接していても良いが、遠隔して設置されている場合には、遠隔して設置されたノード３を用いてマルチプロセッサシステム１を構成できるという特徴を有する。
【００２４】
ノード群ＡはノードＡａ〜Ａｈの８つのノード３およびノードＡａ〜Ａｈを管轄するサービスプロセッサＡ（図において、ＳＰＡ）で構成されている。同様にノード群Ｂ〜ＣはノードＢａ〜Ｂｈ，ノードＣａ〜Ｃｈ，ノードＤａ〜Ｄｈとそれぞれを管轄するサービスプロセッサＢ〜Ｄ（図において、ＳＰＢ，ＳＰＣ，ＳＰＤ）で構成されている。１つのノード群２が有するノード２の数は本実施形態では８つであるが、これに限定されず、本発明は２つ以上のノード３を有するノード群２で構成されるマルチプロセッサシステム１に対して適用が可能である。また、本実施形態において、ノード３は、Ｐ／Ｍノード３ａとＩ／Ｏノード３ｂの２種類のノードを有するが、特にこれに限定されることなく、例えばＰ／Ｍノード３ａのみでもよいし、その他の種類のノード３で構成しても良い。
【００２５】
Ｐ／Ｍノード３ａは主に演算処理をおこなうノードで、少なくともプロセッサ５とメモリ６とを備えている。また、プロセッサ５とノード３内の各パーツ間を結ぶバスを接続するノースブリッジ７を備えている。なお、本実施形態ではプロセッサ５の数は２で、メモリ６の数は１であるが、プロセッサ５、メモリ６などの数は特にこれに限定されるものではない。また、Ｉ／Ｏノード３ｂは主に入出力をおこなうノードで、Ｉ／Ｏホストブリッジ８と配下にＩ／Ｏデバイス（図示せず）を備えている。
【００２６】
サービスプロセッサ４は、ノード群２内のノード３を接続しており、これらノード３のマネージメントをおこなっている。
【００２７】
ノード群Ａ〜Ｄに属する計３２個のノード３は、それぞれクロスバー９を介して相互接続網１０によって相互に連結されている。なお、クロスバー９は、複数のプロセッサやメモリの間でデータをやり取りする際に、経路を動的に選択する機能を備えた装置である。
【００２８】
サービスプロセッサマネージャ１１は、各サービスプロセッサ４を専用線１２で接続しており、これらサービスプロセッサ４のマネージメントをおこなっている。
【００２９】
このようなハードウェアプラットフォームにおいて、複数のノード群２から複数のノード３を選択して独立して運用可能なシステムであるパーティションを形成している。具体的には、ノード群Ａに属するノードＡｅ〜Ａｈ，ノード群Ｂに属するノードＢａ〜Ｂｄ，ノード群Ｃに属するノードＣａ〜Ｃｈの全１２個のノードを選択してパーティション１３を形成している。なお、本実施形態では１つのパーティションのみを定義したが、当然に複数のパーティションを形成してもよい。
【００３０】
≪障害処理方法≫
次に、以上のマルチプロセッサシステムにおける障害処理方法の一例について、図２〜９を参照して説明する。
【００３１】
図２〜７は各障害処理工程の説明図、図８は障害処理のフロー図、図９は障害通知パケットの説明図である。以下、図８のフロー図中のステップ１〜ステップ６のそれぞれのステップに分けて説明する。なお、ステップ１〜ステップ６は、それぞれ図２〜図７に対応する。
【００３２】
＜ステップ１＞
障害ノードが、障害ノードを管轄するサービスプロセッサに、障害を通知するステップである。
【００３３】
図２に示すように、ノード群Ａに属するノードＡｅのＩ／Ｏホストブリッジ８でデータ転送中に重障害、例えば内部ＥＣＣエラー等が発生したとして、以下説明する。ノードＡｅは、障害を検知したら、まず内部のトレース情報、レジスタ情報などのエラーログ情報（障害情報）をホールドする。次に、ノードＡｅは、続いておこなう予定であったデータ転送を中止するとともに、ノードＡｅを管轄するサービスプロセッサＡ（ＳＰＡ）に障害発生を送信し、ＳＰＡはノードＡｅの障害情報を取得する。障害情報を受け取ったＳＰＡは、害障害の処理がノードＡｅの切り離しで済むか、または、パーティションリセットが必要かを判断する。ＳＰＡは、パーティションリセットが必要と判断した場合は、即座にノードＡｅをリセットし、サービスプロセッサマネージャ１１に障害情報を送信してパーティションリセットのリクエストをおこなう。
【００３４】
＜ステップ２＞
障害ノードが、同一パーティションに属する他のノードに、障害を通知するステップである。ステップ２は、ステップ１と並行しておこなわれる。
【００３５】
障害ノードであるノードＡｅは、他のノードに障害発生を通知するため、障害通知パケットを作成する。図９に示すように、障害パケットは、エラーコード、宛先ノードコード、送信元ノードコード、重障害フラグ、エラー情報で構成される。エラーコードは、障害通知パケットであること示す符号である。宛先ノードコードは、障害通知パケットの宛先を示す符号で、ブロードキャストアドレスが指定されている。送信元ノードコードは、障害通知パケットの送信元を示す符号で、障害ノードであるノードＡｅのアドレスが指定されている。重障害フラグは、障害が重度か否かを示す符号で、ノードＡｅでは重障害が発生しているので、フラグは立っている。エラー情報は、ノードＡｅでの障害情報を示している。
【００３６】
図３に示すように、障害通知パケットは、相互接続網を介して他のすべてのノードにブロードキャストで送信される。このとき通常のトランザクションに用いられるチャンネルとは異なるチャンネルを用いて送信される。したがって、通常のトランザクションに用いられるチャンネルが障害により渋滞していたり、性能が低下していたりしても迅速、確実に障害通知パケットを送信するためである。
【００３７】
障害通知パケットを受信したノードは、ノースブリッジ７またはＩ／Ｏホストブリッジ８に設定されているパーティション情報で、自己ノードが障害パケットの送信元ノードであるノードＡｅと同一パーティションに属しているかを判断し、属していると判断した場合のみ障害通知パケットを自己ノードのエラーログ情報の一部として保存する。したがって、障害ノードＡｅと同一パーティションに属するノードＡｆ〜Ａｈ、ノードＢａ〜Ｂｄ、ノードＣａ〜Ｃｈは、それぞれのノードのエラーログ情報の一部として、障害通知パケットを保存する。
【００３８】
＜ステップ３＞
障害ノードと同一のパーティションに属するノードが、該ノードを管轄するサービスプロセッサに障害を通知する工程である。
【００３９】
図４に示すように、障害ノードＡｅと同一パーティションに属し、障害通知パケットをエラーログ情報の一部として保存した、ノードＡｆ〜Ａｈ、ノードＢａ〜Ｂｄ、ノードＣａ〜Ｃｈは、障害通知パケットの内容を確認し、重障害フラグが立っていることを認識すると、自己のエラーログ情報をホールドするとともに、管轄のサービスプロセッサであるＳＰＡ、ＳＰＢ、ＳＰＣにそれぞれ障害発生を通知する。
【００４０】
通知を受けたＳＰＡ、ＳＰＢ、ＳＰＣは、管轄下のノードのエラーログ情報を取得し、障害通知パケットの内容に基づいて、関連するノードをリセットする。
【００４１】
＜ステップ４＞
障害ノードと同一パーティションに属するノードを管轄するサービスプロセッサが、サービスプロセッサマネージャに障害を通知する工程である。
【００４２】
図５に示すように、障害の通知を受けたＳＰＡ、ＳＰＢ、ＳＰＣは、管轄下のノード（それぞれ、ノードＡｆ〜Ａｈ、ノードＢａ〜Ｂｄ、ノードＣａ〜Ｃｈ）の障害情報をサービスプロセッサマネージャ１１に送信する。
【００４３】
＜ステップ５＞
サービスプロセッサマネージャが、障害被疑部の特定をおこなう工程である。
【００４４】
図６に示すように、関連するそれぞれのノード（ノードＡｅ〜Ａｈ、ノードＢａ〜Ｂｄ、ノードＣａ〜Ｃｈ）の障害情報を取得したサービスプロセッサマネージャ１１は、障害通知パケット情報が一致していることにより、それぞれが同一原因であることを認識する。そして、サービスプロセッサマネージャ１１が保有する故障解析辞書に基づいて、障害被疑部の特定をおこなう。また、障害被疑部の特定と並行して、障害情報を論理パーミッション情報、物理ロケーション情報などのシステム構成情報と組合せてログ情報管理をおこなう。
【００４５】
＜ステップ６＞
障害回復処理をおこなう工程である。
【００４６】
図７に示すように、パーティションリセットが必要であると判断された場合、サービスプロセッサマネージャ１１は、ＳＰＡ、ＳＰＢ、ＳＰＣにパーティションのリセットの指示をおこなう。ＳＰＡ、ＳＰＢ、ＳＰＣは、相互に同期を取りながらリセットを実現する。なお、パーティションリセットは、サービスプロセッサマネージャ１１の完全従属制御により、サービスプロセッサマネージャ１１からの一連のリセット手順に基づいておこなっても良い。
【００４７】
この他にも、障害回復処理の方法は様々であり、障害の状況に応じて回復処理がなされる。例えば、ミッションクリティカルな運用下では、サービスプロセッサマネージャ１１と保守センター（図示せず）を回線で接続して、保守センターが障害処理をサポートすることが通常なされる。保守センターの保守員は、サービスプロセッサマネージャ１１からリモートで障害情報を採取し、これらの障害情報に基づいて、最小ロスで、迅速かつ正確な部品交換などをおこなうことが可能である。
【００４８】
また、障害ノードの代替リソースがシステム内に用意されている場合は、パーティションリセット時に、障害ノードの変えて代替リソースを組み込んでリセットをおこなえば、リソースの減少によるシステムの高負荷運用を防止することができる。
【００４９】
さらに、ＯＳのＲＡＳ機能が強化されている場合は、障害ノードの切り離しで障害回復がおこなえるときに、パーティションリセットをおこなわずに、障害ノードを代替リソースと置き換えて処理することで、システムのロバストネスを実現することができる。
【００５０】
以上説明したように、本実施形態によると、複数のノードが該ノードを制御するサービスプロセッサに接続されてなるノード群が複数集まって形成された大規模プラットフォームを用いたマルチプロセッサシステムにおいて障害が発生した場合に、障害箇所を迅速かつ的確に特定することができ、他のパーティションに障害を波及させることなく、また、障害が発生したパーティションの障害処理を迅速かつ的確におこなうことができる。さらに、これによりミッションクリティカルな分野への、大規模なオープンシステムの適用を可能にする。
【００５１】
≪他の実施形態≫
上記実施形態のステップ２において、障害ノードは、障害ノードと同一パーティションに属するノードにのみ、障害通知パケットを送信しても良い。この場合、障害通知パケットの宛先ノードコードには、障害ノードと同一パーティションに属するノードのアドレスが定義される。このようにして、障害ノードと同一パーティションに属するノードにのみに障害通知パケットを送信した場合は、受信ノードでパーティションの確認をする必要がなく、即座に続く処理をおこなうことができる。
【００５２】
また、同ステップ２において、障害ノードは、障害ノードと同一のノード群に属するノードに対しておこなう障害通知を、障害通知パケットの送信によりおこなうのに変えて、管轄するサービスプロセッサでの折り返しや、クロスバーでの折り返しによっておこなっても良い。
【００５３】
【発明の効果】
以上の説明した通り、本発明によれば、障害ノードと同一パーティション内のノードから各ノードの障害情報を入手して、それに基づいて障害処理をおこなうので、被疑部の特定を迅速かつ的確におこなえ、ひいては障害処理を迅速かつ的確におこなうことができる。
【図面の簡単な説明】
【図１】本発明の実施形態にかかるマルチプロセッサシステムの一例を示すシステム構成図である。
【図２】本発明の実施形態にかかるマルチプロセッサシステムおける障害処理の一工程を示す図である。
【図３】本発明の実施形態にかかるマルチプロセッサシステムおける障害処理の一工程を示す図である。
【図４】本発明の実施形態にかかるマルチプロセッサシステムおける障害処理の一工程を示す図である。
【図５】本発明の実施形態にかかるマルチプロセッサシステムおける障害処理の一工程を示す図である。
【図６】本発明の実施形態にかかるマルチプロセッサシステムおける障害処理の一工程を示す図である。
【図７】本発明の実施形態にかかるマルチプロセッサシステムおける障害処理の一工程を示す図である。
【図８】本発明の実施形態にかかるマルチプロセッサシステムおける障害処理方法の一例の処理フローを示す図である。
【図９】障害通知パケットの一例を示す図である。
【符号の説明】
１マルチプロセッサシステム
２ノード群
３ノード
４サービスプロセッサ
５プロセッサ
６メモリ
７ノースブリッジ
８Ｉ／Ｏホストブリッジ
９クロスバー
１０相互接続網
１１サービスプロセッサマネージャ
１２専用線

Claims

複数のノードと前記複数のノードを制御するサービスプロセッサとを有するノード群が複数集まって構成され、前記複数のノード群における複数の前記ノードは相互接続網により相互に接続され、複数の前記サービスプロセッサは該サービスプロセッサを制御するサービスプロセッサマネージャに接続され、複数の前記ノード群から選択された複数の前記ノードでパーティションを構成したマルチプロセッサシステムにおける障害処理方法であって、
いずれかの前記ノードで障害が発生した場合に、その障害ノードは、該ノードを制御する前記サービスプロセッサに障害の発生を通知し、この通知により、該サービスプロセッサは、該ノードから障害情報を取得して、該障害情報を前記サービスプロセッサマネージャに送信する工程と、
前記障害ノードは、前記障害ノードと同一のパーティションに属する他のノードに障害情報を伝達する工程と、
前記障害ノードと同一のパーティションに属する他のノードは、該ノードを制御する前記サービスプロセッサに障害の発生を通知し、この通知により、該サービスプロセッサは、該ノードから障害情報を取得して、該障害情報を前記サービスプロセッサマネージャに送信する工程と、
前記サービスプロセッサマネージャは、前記障害情報に基づいて前記それぞれのサービスプロセッサに障害処理を指示し、この指示を受けた前記サービスプロセッサは、該指示に従って障害処理をおこなう工程と、を含むことを特徴とするマルチプロセッサシステムの障害処理方法。
請求項１に記載のマルチプロセッサシステムにおける障害処理方法において、
前記障害ノードは、前記相互接続網を用いて障害通知パケットを他のノードに送信して、前記障害ノードと同一のパーティションに属する他のノードに前記他のノードに障害情報を伝達することを特徴とするマルチプロセッサシステムの障害処理方法。
請求項１に記載のマルチプロセッサシステムにおける障害処理方法において、
前記障害ノードは、前記相互通信網を用いて障害通知パケットを前記障害ノードと同一のパーティションに属する他のノードを宛先として送信して、前記障害ノードと同一のパーティションに属する他のノードに障害情報を伝達することを特徴とするマルチプロセッサシステムの障害処理方法。
請求項１に記載のマルチプロセッサシステムにおける障害処理方法において、
前記障害ノードは、前記相互通信網を用いて障害通知パケットをブロードキャストで送信し、障害通知パケットを受信したノードが前記障害ノードと同一パーティションに属する場合のみ前記障害情報を該ノードに取り込むことで前記障害ノードと同一のパーティションに属する他のノードに障害情報を伝達することを特徴とするマルチプロセッサシステムの障害処理方法。
請求項２乃至４のいずれかに記載のマルチプロセッサシステムにおける障害処理方法において、
前記障害ノードは、前記相互接続網を用いて障害通知パケットを送信する際に、通常のトランザクションで用いるチャンネルとは異なるチャンネルを用いて障害通知パケットを送信して、前記障害ノードと同一のパーティションに属する他のノードに障害情報を伝達することを特徴とするマルチプロセッサシステムの障害処理方法。
複数のノードが該ノードを制御するサービスプロセッサに接続されてなるノード群が複数集まって構成され、複数の前記ノードは相互接続網により相互に接続され、前記サービスプロセッサおよびサービスプロセッサを制御するサービスプロセッサマネージャが専用線で接続され、複数の前記ノード群から選択された複数の前記ノードでパーティションを構成したマルチプロセッサシステムであって、
いずれかの前記ノードで障害が発生した場合に、その障害ノードは、該ノードを制御する前記サービスプロセッサに障害の発生を通知し、この通知により、該サービスプロセッサは、該ノードから障害情報を取得して、該障害情報を前記サービスプロセッサマネージャに送信する障害ノード通知手段と、
前記障害ノードは、前記障害ノードと同一のパーティションに属する他のノードに障害情報を伝達するパーティション内通知手段と、
前記障害ノードと同一のパーティションに属する他のノードは、該ノードを制御する前記サービスプロセッサに障害の発生を通知し、この通知により、該サービスプロセッサは、該ノードから障害情報を取得して、該障害情報を前記サービスプロセッサマネージャに送信する他ノード通知手段と、
前記サービスプロセッサマネージャは、前記障害情報に基づいて前記サービスプロセッサに障害処理を指示し、この指示を受けた前記サービスプロセッサは、該指示に従って障害処理をおこなう障害処理手段と、を備えたことを特徴とするマルチプロセッサシステム。
複数のノードが該ノードを制御するサービスプロセッサに接続されてなるノード群が複数集まって構成され、複数の前記ノードは相互接続網により相互に接続され、前記サービスプロセッサおよびサービスプロセッサを制御するサービスプロセッサマネージャが専用線で接続され、複数の前記ノード群から選択された複数の前記ノードでパーティションを構成したマルチプロセッサシステムに含まれるノードであって、
該ノードに障害が発生した場合に、該ノードと同一のパーティションに属する他のノードに障害情報を通知するとともに、該ノードを制御する前記サービスプロセッサに障害発生を通知することを特徴とするノード。