JP2001509291A

JP2001509291A - 多重プロセッサシステムにおけるプロセッサメンバーシップの分散形取り決め

Info

Publication number: JP2001509291A
Application number: JP53214598A
Authority: JP
Inventors: ロバートエルジャーディーン; ムラリーバサヴァイアー; カルールエスクリシュナクマー; スリニヴァサディーマーティー
Original assignee: Tandem Computers Inc
Current assignee: Tandem Computers Inc
Priority date: 1997-01-28
Filing date: 1998-01-23
Publication date: 2001-07-10
Also published as: EP0954783A4; JP2001511922A; US6002851A; EP1012717A4; CA2279185A1; EP1012728A4; WO1998033121A1; EP1012717A1; CA2279175A1; JP2001511278A; CA2275241A1; EP1012728A2; WO1998033120A1; US5884018A; WO1998034457A2; WO1998034457A3; US5991518A; EP0954783A1

Abstract

(57)【要約】多重プロセッサシステム（１００）における通信障害及び／又は定期的事象故障で残存するプロセッサ群を決定するためのシステム。プロセッサ（１１２）は、それぞれメモリ（１１８）を有しかつプロセッサ間通信ネットワーク（１１４）に接続され、プロセッサが通信できる一組のプロセッサが変化したということを検出する。そして、プロセッサは、プロセッサの切断群が再編成動作（６２２ｂ）の開始で独立したシステムとして動作することを継続するという可能性を最小化することに基づいて動作を停止するか又は継続することを選択する。プロセッサは、他のプロセッサがプロセッサ（６８２）からの周期的メッセージの欠落を検出した場合に、故障したことを疑われる。これが起きた場合には、プロセッサの全ては、プロセッサがプロセッサの状態及び連結性を互いに繰り返し放送する一連のステージの対象になる。疑問をもたれたプロセッサは、打ち切られた動作を有しているか又はそのタイマ機構が故障している場合には再編成のためにステージを通って進行しない。

Description

【発明の詳細な説明】多重プロセッサシステムにおけるプロセッサメンバーシップの分散形取り決め発明の分野本発明は、一般に、故障許容（フォールトトレラント）多重プロセッサシステムに関する。特に、本発明は、部分的及び全体的通信故障シナリオにおけるかつ構成プロセッサ上の周期的又は定期的事象の故障にもかかわらず多重プロセッサシステムの障害許容力を改良する方法に関する。関連特許出願１９９４年６月２３日に出願され、発明者がロバートＬ．ヤーディン、リチャードＭ．コリンズ及びラリーＤ．リーブズであり、本発明の譲受人に譲渡された「停電又はドロップアウトからの欠陥許容マルチプロセッサシステムの回復方法及び装置(Method and Apparatus for Fault-Tolerant Multi-processing System Recovery from Power Failure or Drop-Outs)」と題する米国特許出願第０８／２６５，５８５号；１９９５年６月７日に出願され、発明者がロバートＬ．ヤーディン、リチャードＭ．コリンズ及びＡ．リチャードザッチャーであり、本発明の譲受人に譲渡された「非均一な停電の許容範囲を改善する方法(A Method to Improve Tolerance of Non-Homogeneous Power Outages)」と題する米国特許出願第０８／４８７，９４１号；本発明と同日に出願され、発明者がロバートＬ．ヤーディン、ムラリバサバイア及びカローラＳ．クリシナクマーであり、本発明の譲受人に譲渡された「マルチプロセッサシステムにおける知能分割回避方法及び装置(Method and Apparatu s for Split-Brain Avoidancein a Multi-Processor System)」と題する米国特許出願；本発明と同日に出願され、発明者がムラリバサバイア及びカローラＳ．クリシナクマーであり、本発明の譲受人に譲渡された「回復中に最大限の全接続に対しマルチプロセッサシステムをノード剪定する方法及び装置(Method and Apparatu s for Node Pruning a Multi-Processor System for Maximal，Full Connecti on During Recovery)」と題する米国特許出願；及び本発明と同日に出願され、発明者かムラリバサバイア，カローラＳ．クリシナクマー及びスリニバサＤ．ムーシーであり、本発明の譲受人に譲渡された「マルチプロセッサシステムの回復中に失われたタイマーチックを許容する方法及び装置(Method and Apparatus for Toleration of Lost Timer Ticks During Recove ry of a Multi-Processor System)」と題する米国特許出願。先行技術の説明分散型で、何も共用しないマルチプロセッサアーキテクチャー、及びプロセス対を使用する欠陥許容（フォールトトレラント）のソフトウェアは、システムの全てのプロセッサが、そのシステムを作り上げるプロセッサの一貫したイメージをもつことを必要とする。（本発明の譲受人から入手できるＮｏｎＳｔｏｐＫｅｒｎｅｌ（登録商標）は、このような欠陥許容ソフトウェアの一例である。）この一貫したシステムイメージは、システムオペレーションに必要なグローバルシステムテーブルを維持し、そしてデュアルポートＩ／Ｏコントローラ又は共用バス（ＳＣＳＩのような）を経て同じＩ／Ｏデバイスにアクセスする異なるプロセッサにおいて例えば一次及びバックアッププロセスの入力／出力プロセス対（ＩＯＰ）により生じるデータ崩壊を防止するために必要である。プロセッサ欠陥の検出は、「ＩａｍＡｌｉｖｅ」メッセージ形態で迅速に行なわれる。各プロセッサは、「ＩａｍＡｌｉｖｅ」パケットをシステム内の他の各プロセッサに周期的に送信する。システム内のプロセッサは、別のプロセッサが動作するかどうかを、そこからのタイミングパケットにより決定する。所与のプロセッサからパケットを受信せずに時間インターバルが経過したときには、第１のプロセッサは、第２のプロセッサが故障したと判断する。古いシステムでは、再グルーピングが実施される前に、第２のプロセッサが第１のプロセッサにパケットを送信するときに次のことが生じ得る。第１のプロセッサは、第２のプロセッサの機能が不適切であると判断し、ポイゾンパケットで応答する。第１のプロセッサは、第２のプロセッサからのパケットの内容を無視する。最終的に、他のプロセッサの多く又は全部が終了となり、その影響を受けるプロセッサを無視する（それを停止するよう試みる以外は）。この影響を受けるプロセッサは、実際には、システムの外部にあり、あたかも独立したシステムであるかのように機能する。この状態は、知能分割(split-brain)問題とも称される。再グルーピングを伴わない状態では、次の状態が生じ得る。異なるプロセッサで実行されるプロセス対の両プロセスがそれら自体を一次とみなし、バックアップ機能を遂行する能力を破壊し、そしておそらく、ファイルを崩壊することになる。全てのシステムプロセッサは、無限ループに捕獲された状態となり、共通のリソースに対して競合する。システムテーブルは、崩壊状態となる。再グルーピングは、「ＩａｍＡｌｉｖｅ」／ポイゾンパケット方法を補足する。再グルーピングは、投票アルゴリズムを使用して、システム内の各プロセッサの真の状態を決定する。各プロセッサは、他の全プロセッサの状態の記録を志願し、その記録を他のプロセッサからの記録と比較し、そしてそれに応じてその記録を更新する。投票が完了すると、全てのプロセッサは、システム状態の同じ記録を有することになる。プロセッサは、機能するが既に分離されたプロセッサを再統合すると共に、機能しないプロセッサを正しく識別しそして分離するために、それら自体の間で整合を行う。再グルーピングは、プロセッサ間の物理的な通信が可能に保たれるときだけ、プロセッサの論理的な状態に関わりなく機能する。プロセッサが他のプロセッサとの全ての通信経路を失った場合に、そのプロセッサは再グルーピングできなくなる。このプロセッサは、通信が回復しそしてシステムがコールドロードされるまで分離されたままとなる。（このようなプロセッサは、通常、それ自体停止する。というのは、その自己チェックコードがメッセージシステムパケットをそれ自身との間でやり取りできないからである。）プロセッサの論理状態とその条件は区別される。プロセッサは、適切に構成されたシステムにおいて２つの論理状態、即ちアップ又はダウンを有する。しかしながら、プロセッサは、３つの条件、即ち論理状態ダウンと同じであるデッド、論理状態アップと同じである健全、及び以下に詳細に述べるマラトス(malatose) を有する。プロセッサは、システムの他部分と通信しない場合にデッドである。デッドのプロセッサは、例えば、停止又はシステム凍結命令を実行するプロセッサ、内部レジスタパリティエラーのような低レベルの自己チェックエラーに遭遇するプロセッサ、全ての割り込みがディスエーブルされた状態で無限ループを実行するプロセッサ、データ崩壊のために非終了命令を実行するプロセッサ、又はリセット状態にあるプロセッサを含む。デッドのプロセッサは有害であるが、再グルーピングアルゴリズムは、それらをシステム構成から除去する。他のプロセッサは、デッドのプロセッサを検出し、そしてそれらをダウンと宣言する。プロセッサは、そのオペレーティングシステム（好ましくは、本発明の譲受人から入手できるＮｏｎＳｔｏｐＫｅｒｎｅｌ（登録商標）オペレーティングシステム）を実行し、そして適度な時間内に他のプロセッサとパケットを交換できる（好ましくは、冗長な高速バス又はスイッチングファブリックを経て）場合には健全である。再グルーピングアルゴリズムは、プロセッサが健全なプロセッサをダウンと宣言するのを防止する。マラトスのプロセッサは、デッドでも健全でもない。このようなプロセッサは、適時に応答しない（おそらくはタイマーチックの欠落のために）か、ある低レベルアクティビティにおいて一時的に凍結状態となる。マラトスのプロセッサは、例えば、最も高い優先順位の割り込みで溢れていてプロセッサが低い優先順位の割り込みを実行できないか、又は低い優先順位の割り込みで溢れていて、「ＩａｍＡｌｉｖｅ」パケットの発生が遅れるようなものである。マラトスプロセッサは、クロックが停止した欠陥ハードウェアデバイスを待機するか、又は相互に排他的なメカニズムにより割り込みがディスエイブルされた状態で長時間動作する。再グルーピングアルゴリズムは、マラトスプロセッサを検出し、そしてそれを強制的に健全又はデッド、即ちアップ又はダウンにする。対応的に、プロセッサは、ダウンと宣言していない別のプロセッサがダウンと宣言するときには、それ自身停止する。再グルーピングに関しては、システムの各プロセッサは、安定（即ち、動作の必要性を待機する）であるか、又は以下に述べる多数の状態を含む混乱状態である。プロセッサが安定であるときには、「ＩａｍＡｌｉｖｅ」メッセージ機構が動作し続ける。別のプロセッサからの「ＩａｍＡｌｉｖｅ」メッセージがない状態で、所定長さの時間、例えば、２．４秒が経過した場合には、プロセッサは混乱状態となる。混乱状態である間に、プロセッサは、特別にマークされたパケットを他の混乱状態のプロセッサと交換して、システムの現在プロセッサ構成を決定する。その構成に合意するときには、プロセッサは、再び安定状態となる。プロセッサは、ほとんどの時間を安定状態に費やす。再グルーピング事象は、プロセッサが混乱状態になったときに開始し、そして全てのプロセッサが再び安定状態になったときに終了する。各再グルーピング事象は、最後のシステムコールドロード以来の再グルーピング事象の数であるシーケンス番号を有する。又、各プロセッサは、１つは古い構成でそして１つは新しい構成である２つの構成を記憶するための変数も維持する。プロセッサが安定である間には、ＯＵＴＥＲ＿ＳＣＲＥＥＮ及びＩＮＮＥＲ＿ＳＣＲＥＥＮと称する両ビットマップ変数は、古い構成を含む。プロセッサが安定である間には、古い構成である各プロセッサがアップであり、そして古い構成でない各プロセッサがダウンであることが知られている。古い構成にある各プロセッサは、同じ再グルーピングシーケンス番号を有する。プロセッサが混乱である間には、構成の展望（及びそれ自身の状態）をそのバス又はファブリックにブロードキャストする。プロセッサは、この展望を周期的に、例えば、０．３秒ごとに、古い構成の他の全てのプロセッサに送信する。このような送信を受け取ると、その構成にあるいかなる安定なプロセッサも混乱する。以下に述べる再グルーピングプロトコルの４つの段階は、混乱状態にある全てのプロセッサがシステム構成について同じ展望を形成するようにさせる。再グルーピングが完了したときには、システム内の全てのプロセッサが安定となり、同じ新たな構成を含む。又、新たな構成にある各プロセッサは、古い構成の番号より大きな同じ再グループシーケンス番号を有する。新たな構成は、古い構成になかったプロセッサを含まない。事象全体にわたって健全に保持された全てのプロセッサは、新たな構成にある。事象が開始したときにデッドであるか又は事象中にデッドとなったプロセッサは、新たな構成にない。プロセッサが事象中にデッドとなった場合には再グルーピングが再スタートする。対応的に、事象が開始したときにマラトスであったプロセッサは、完了した事象にそれらが関与している場合には新たな構成において健全なプロセッサとして存在する。再グルーピング方法は、新たな構成にある全てのプロセッサが同じプロセッサを包含し及び除外するように確保する。既存の再グループのプロセッサ段階既存のアルゴリズムに基づく各プロセッサ再グルーピングは、ＥＶＥＮＴ＿ＨＡＮＤＬＥＲ（）手順と、図７に示された再グループ制御テンプレート＃＿７００とここで称するデータ構造体とを維持する。ＳＥＱＵＥＮＣＥ＿ＮＵＭＢＥＲとここで称する変数は、現在再グループシーケンス番号を含む。各プロセッサは、動作中に次の段階、即ち段階０、段階５及び段階１ないし４を通過する。段階０は、システム形成時にプロセス制御ブロックにおいて定義された特殊な段階である。段階５は、上記の安定状態である。段階１ないし４は、上記の混乱状態を作り上げる。プロセッサは、変数ＳＴＡＧＥに現在段階を維持する。又、プロセッサは、段階１ないし４の各々に対し変数ＫＮＯＷＮ＿ＳＴＡＧＥ＿１ないしＫＮＯＷＮ＿ＳＴＡＧＥ＿４を維持する。これら変数の各々は、その変数に対応する段階において再グループ事象に参加すべき維持プロセッサに知られた全てのプロセッサのプロセッサ番号を記録するビットマスクである。プロセッサは、それがコールドロードされるときに段階０に入る。プロセッサは、それが段階０にある間は、再グルーピングに参加しない。この状態においてプロセッサを混乱させる試みは、プロセッサを停止させる。プロセッサは、プロセス間及びプロセッサ間メッセージシステムへの統合が完了するまで段階０に留まる。次いで、プロセッサは、段階５に入る。図８Ａ及び８Ｂは、その後の動作を要約するものである。再グルーピング事象は、通常、プロセッサが「ＩａｍＡｌｉｖｅ」メッセージを時間内に送信し損なったときに開始する（ステップ＃＿８１０）。この欠陥は、欠陥を検出するプロセッサを混乱させる。プロセッサが混乱されると（ステップ＃＿８０５）、段階１に入る。段階１は、参加する全てのプロセッサを同じ再グルーピング事象の一部分として同期させる（ステップ＃＿８３０）。古い事象が終了する前に新たな事象がスタートし得るので、参加するプロセッサが最新の事象のみを処理するよう確保するための方法が必要となる。図９は、段階５から段階１への移行を要約するものである。プロセッサは、ＳＥＱＵＥＮＣＥ＿ＮＵＭＢＥＲ＃＿７１０を増加し、段階＃＿７２０を１にセットし、ＫＮＯＷＮ＿ＳＴＡＧＥ＿ｎ変数を０にセットし、そしてＫＮＯＷＮ＿ＳＴＡＧＥ＿１＃＿７５０ａにおけるそれ自身のビットを１にセットする。（プロセッサは、自分以外のどのプロセッサが健全であるかまだ知らない。）メッセージシステムは、プロセッサを周期的に、１つの実施形態では０．３秒ごとに、目覚めさせ、従って、プロセッサは、許容し得る入力を受け取るために３ないし６回の試みをすることができる。古い構成の２つ以上のプロセッサが未確認のままであるか、パワーアップが生じたか、又はアルゴリズムが新たな事象としいて再スタートした場合に、４つ以上の試みが生じる。プロセッサは、目覚めたときに、その状態を古い構成のプロセッサヘブロードキャストする（ステップ＃＿８３０）。その状態は、その再グループ制御テンプレート＃＿７００を含む。通常、他の混乱状態のプロセッサからの状態パケットが最終的に到着する。ＯＵＴＥＲ＿ＳＣＲＥＥＮ＃＿７３０により定められるように古い構成でなかったプロセッサからパケットが到着する場合には、このプロセッサはパケットを無視し、そしてポイゾンパケットで応答する。プロセッサは、それが無視しないパケットについては、パケットのシーケンス番号をＳＥＱＵＥＮＣＥ＿ＮＵＭＢＥＲ＃＿７１０と比較する。パケットシーケンス番号が小さい場合には、送信者は、現在事象に参加しない。パケットの他のデータは、現在のものではなく、無視される。プロセッサは、新たな状態パケットをそのプロセッサに送信して、それに同期させ、現在事象に参加させる。パケットのシーケンス番号がＳＥＱＵＥＮＣＥ＿ＮＵＭＢＥＲ＃＿７１０より大きい場合には、新たな事象がスタートしている。ＳＥＱＵＥＮＣＥ＿ＮＵＭＢＥＲ＃＿７１０は、パケットのシーケンス番号にセットされる。プロセッサは、そのデータ構造休を再初期化し、そしてパケットデータの残りを受け入れる。パケットのシーケンス番号がＳＥＱＵＥＮＣＥ＿ＮＵＭＢＥＲ＃＿７１０と同じである場合には、プロセッサは、単にパケットデータを受け入れる。データの受け入れは、パケットのＫＮＯＷＮ＿ＳＴＡＧＥ＿ｎフィールドをそれに対応するプロセッサ変数＃＿７５０と論理オアして、２つのプロセッサの知識を１つの構成へ合体することより成る。段階１は、２つの方法のいずれかで終了する。第１に、全てのプロセッサがそれ自体を考慮する。即ち、プロセッサが、そのＫＮＯＷＮ＿ＳＴＡＧＥ＿１変数＃＿７５０ａが全ての既知のプロセッサを含む（即ちＯＵＴＥＲ＿ＳＣＲＥＥＮ＃＿７３０に等しい）ことに気付いたときに、プロセッサは段階２へ進む。しかしながら、プロセッサ欠陥の場合には、プロセッサは、それら自体を全て考慮するのではない。それ故、段階１は、時間切れで終了となる。時間限界は、警告及び非警告モードで異なるが、全てのプロセッサがそれら自体を考慮するかどうかに関わりなくその時間が経過したときにプロセッサは段階２へ進む。図１０は、段階１の始めから段階１の終りまでの移行を要約するものである。段階１の終わりに、ＫＮＯＷＮ＿ＳＴＡＧＥ＿１＃＿７５０ａは、このプロセッサが現在事象中に通信すべきところの有効プロセッサとして確認するプロセッサを識別する。その後の段階で、プロセッサは、確認されたプロセッサからのパケットのみを受け入れる。段階２は、プロセッサにより確認されたプロセッサのセットに、その確認されたプロセッサにより確認された全てのプロセッサを追加することにより、新たな構成を作り上げる（ステップ＃＿８５０）。実際に、新たな構成は、通信仲間の間の合意である。図１１は、段階２の終わりの条件を要約するものである。プロセッサは、段階＃＿７２０を２にセットし、その状態をＫＮＯＷＮ＿ＳＴＡＧＥ＿２に記録し、そしてＫＮＯＷＮ＿ＳＴＡＧＥ＿１をＩＮＮＥＲ＿ＳＣＲＥＥＮ＿＃７４０にコピーする。プロセッサは、入力をチェックし続け、状態を周期的にブロードキャストし、到来するパケットをＯＵＴＥＲ＿ＳＣＲＥＥＮ及びＩＮＮＥＲ＿ＳＣＲＥＥＮ＃＿７３０、＃＿７４０に対して受け入れられるかどうかテストする（ステップ＃＿８５０）。段階１に参加していない古い構成のプロセッサからのパケットは、ＩＮＮＥＲ＿ＳＣＲＥＥＮ＃＿７４０により識別され、そして無視される。確認されたプロセッサからのパケットは、受け入れられ、そしてそれらの構成データは、ＮＫＯＷＮ＿ＳＴＡＧＥ＿ｎ変数と合体される。確認されたプロセッサからのパケットがまだ確認されていないプロセッサを識別するときには、ＩＮＮＥＲ＿ＳＣＲＥＥＮ＃＿７４０に新たなプロセッサも追加される。従って、段階１において現在再グループ事象に参加するには低速過ぎたマラトスプロセッサでも段階２に参加することはできる。ＫＮＯＷＮ＿ＳＴＡＧＥ＿２＃＿７５０ｂ＿ｂＳＫＮＯＷＮ＿ＳＴＡＧＥ＿１＃７５０ａに等しくなったときには、構成に対してそれ以上の変化は生じない。図１２は、段階２の終了における条件を要約するものである。ここで、段階３が始まる。段階３の始めに、図１３に示すように、プロセッサは、段階＃＿７２０を増加し、そして新たな構成をＩＮＮＥＲ＿ＳＣＲＥＥＮ及びＯＵＴＥＲ＿ＳＣＲＥＥＮ＃＿７４０、＃７３０の両方にコピーする。マラトスプロセッサは、もはや、健全なプロセッサとして新たな構成に参加することができない。メッセージシステムのクリーンアップ（ステップ＃＿８６０）は、次のように行なわれる。新たな構成にあるプロセッサは、新たな構成にないプロセッサへのメッセージシステムを遮断する。それらは、除外されたプロセッサへの保留中の送信を破棄し、そしてそこから到来する送信も破棄する。プロセッサ間トラフィック待ち行列は、除外されたプロセッサにおいて要求者／リンカーから待ち行列処理されたが打ち消されていないメッセージに対してサーチされる。それにより見つかった打ち消されていないメッセージは破棄される。プロセッサ間トラフィック待ち行列は、除外されたプロセッサにおいてサーバ／聴取者から待ち行列処理されたが打ち消されていないメッセージに対してサーチされる。これにより見つかった打ち消されていないメッセージは、段階４の間に処理するために据え置き打ち消し待ち行列に添付される。このクリーンアップは、新たな構成にあるプロセッサにおいてサーバ／聴取者アプリケーションにより開始されたメッセージ交換が、新たな構成からの他のプロセッサの除外により、未解決のままとならないように確保する。除外されたプロセッサに送ることができた全てのメッセージが送信され、そしてそこから受け取ることのできた全てのメッセージが受信される。ほとんどのプロセッサ機能は、バス又はタイマー割り込みハンドラー動作として生じる。あるクリーンアップアクティビティは、長時間を要するので、割り込みがディスエイブルされた状態で行うことができない。むしろ、これらのアクティビティは、同じ段階に対して他のものから分離され、そして据え置かれる。据え置かれたクリーンアップは、ディスパッチャー（プロセススケジューラー）により呼び出されたメッセージシステムＳＥＮＤ＿ＱＵＥＵＥＤ＿ＭＥＳＳＡＧＥ手順により実行される。据え置かれたアクティビティは、次いで、ほとんどの時間イネーブルされるディスパッチャー以外の割り込みで実行される。入力の周期的なチェック及び状態のブロードキャスト動作が続けられる。前記した据え置かれたクリーンアップが終了するときには、プロセッサは、その状態をＫＮＯＷＮ＿ＳＴＡＧＥ＿３＃７５０ｃに記録する。ＩＮＮＥＲ＿ＳＣＲＥＥＮ及びＯＵＴＥＲ＿ＳＣＲＥＥＮ＃＿７４０及び＃＿７３０を越えたパケットは、ＫＮＯＷＮ＿ＳＴＡＧＥ＿ｎ変数＃＿７５０に合体される。ＫＮＯＷＮ＿ＳＴＡＧＥ＿３＃＿７５０ｃｂＳＫＮＯＷＮ＿ＳＴＡＧＥ＿２＃＿７５０ｂに等しいときには、新たな構成にある全てのプロセッサが同様のクリーンアップを完了し、そして全て段階３に存在する。図１４は、段階３の終りの条件を示す。段階４において、プロセッサは、段階３のクリーンアップ動作を終了し、１つ以上のプロセッサ欠陥が生じたことをプロセスに通知する（ステップ＃＿８７０）。プロセッサは、段階＃＿７２０を４に増加し、そして次のことを行う。即ち、ダウン状態にある除外されたプロセッサを示すようにプロセッサ状態変数をセットし、ここに述べるＧＬＵＰプロトコルに使用するように必要に応じてロッカープロセッサを変更し、段階３から据え置かれたメッセージを処理し、Ｉ／Ｏコントローラテーブルを必要に応じて操作してオーナーシップを得、そして要求者／リンカーに通知する。段階４は、別のプロセッサの欠陥を現在プロセッサにおいてメッセージシステムユーザにより知ることのできる第１のポイントである。この遅延は、他のプロセスがアクティビティを開始して、欠陥プロセッサとの打ち消されないメッセージの交換のために誤った結果を生じるのを防止する。再グルーピングプロセッサは、入力をチェックしそして状態をブロードキャストし続ける（ステップ＃＿８７０）。据え置かれたクリーンアップが終了すると、プロセッサは、その状態をＫＮＯＷＮ＿ＳＴＡＧＥ＿４＃＿７５０ｄに記録する。図１５は、この動作を示す。ＩＮＮＥＲ＿ＳＣＲＥＥＮ及びＯＵＴＥＲ＿ＳＣＲＥＥＮ＃＿７４０、＃＿７３０を越えるパケットは、ＫＮＯＷＮ＿ＳＴＡＧＥ＿ｎ変数＃＿７５０に合体される。ＫＮＯＷＮ＿ＳＴＡＧＥ＿４＃＿７５０ｄがＫＮＯＷＮ＿ＳＴＡＧＥ＿３＃＿７５０ｃに等しいときには、新たな構成にある全てのプロセッサが同様のクリーンアップを完了し、そして全て段階４に存在する。図１６は、段階４の終りの条件を要約するものである。段階５の始めに、段階＃＿７２０は、５となる。１つの最終的なブロードキャスト及び更新が生じる。ＯＵＴＥＲ＿ＳＣＲＥＥＮ＃＿７３０は、次の再グルーピング事象に対し何が古い構成となったかを含む。図１７は、この状態を示す。最終的に、高レベルのオペレーティングシステムクリーンアップをここで開始することができる。グローバルな更新回復は、ロッカープロセッサにおいてスタートする。プロセッサは、それ自身のクリーンアップ処理を行う。ここで、欠陥プロセッサを再スタートする試みを開始することができる。事象の停止及び再開プロセッサは、段階２ないし４を所定時間内に、１つの実施形態では３秒以内に完了しなければならない。これらの段階をその時間内に完了しない場合には、他のプロセッサか再グルーピング中におそらく欠陥となる。それ故、事象は停止し、そして新たな事象が開始し、プロセッサが段階１の始めへ戻る。再スタート時に末完了のままであったクリーンアップは、新たな事象の状態中に完了する。クリーンアップ動作は、シーケンス要求も、明確に制御されるシーケンスも有しておらず、従って、それらは、アルゴリズムの再スタートにより影響されない。再スタート中に、ＩＮＮＥＲ＿ＳＣＲＥＥＮ及びＯＵＴＥＲ＿ＳＣＲＥＥＮ＃＿７４０、＃＿７３０は、再初期化されない。これらの変数を変更しないことにより、プロセッサは、既に健全でないと診断されたプロセッサを新たな構成から除外し続ける。デッドであると分かっているプロセッサは、ＯＵＴＥＲ＿ＳＣＲＥＥＮ＃＿７４０２より除外される。既に健全であると確認されたプロセッサは、ＩＮＮＥＲ＿ＳＣＲＥＥＮ＃＿７３０がプロセッサの通信を許すところのプロセッサだけである。プロセッサは、確認されたプロセッサからの状態のみを受け入れる。それ故、確認されたプロセッサのみが、段階２の終了前に別のプロセッサを構成に追加することができる。段階２が終了しそして段階３が開始するときに、再グルーピングプロセッサは、ＫＮＯＷＮ＿ＳＴＡＧＥ＿２＃＿７５０ｂがＯＵＴＥＲ＿ＳＣＲＥＥＮ及びＩＮＮＥＲ＿ＳＣＲＥＥＮ＃＿７４０、＃＿７３０にコピーされたときに新たな構成から再スタートを生じさせた欠陥プロセッサを除外する。段階２が終了した後に、新たな事象がスタートするまで構成は変化しない。停電及び回復再グルーピングプロセッサは、パワーアップ時に、新たな事象をスタートさせる。ブロードキャスト状態パケットのワードは、停電の発生を指示し、従って、受信側プロセッサは、バスエラーカウンタをクリアし、そして再起動したプロセッサのバス又はファブリックへのアクセスの遮断を差し控えることができる。プロセッサ間通信ハードウェア（バス又はファブリック）の特性に基づき、停電の直後に若干異なる時間に部品が通電するときにエラーが生じ易い。プロセッサ間通信経路欠陥の影響プロセッサ間通信経路（ＩＰＣＰ）の欠陥が再グルーピングに及ぼす影響は、欠陥が過渡的なものか永久的なものかによって左右される。過渡的な欠陥とは、パケットを送信するためにＩＰＣＰを時々使用できるものである。永久的な欠陥は、部品が交換されるまでその部品を通していかなるパケットも送ることができない。段階１の間の過渡的なＩＰＣＰ欠陥は、通常、再グルーピングに影響を及ぼさない。状態パケットを送信するために２回以上の試みがなされ、各パケットごとに冗長な通信経路が使用される。送信は、ほとんど常時成功する。冗長経路の送信が失敗する場合には、アルゴリズムが再スタートするか、又はプロセッサが停止する。首尾良く送信されたパケットは、３つの形式の１つとして受信することができる。即ち、それらは、過渡的なＩＰＣＰ欠陥が生じそしてパケットの他のコピーを送信できないための「独特」；冗長なＩＰＣＰを経て受信されたための「複写」；又はプロセッサが状態パケットを送信し、その状態を変更し、そして新たな状態パケットを送信したが、１つ以上の経路が状態パケットを順序ずれして供給したための「旧式」である。再グループ制御テンプレート変数は、ビットを１にセットするがそれらを決して０にセットしないことにより更新される。複写、旧式又は紛失パケットは、新たな事象がスタートするまでその後の更新によってビットがクリアされないので、新たな構成の精度を変更するものではない。順序ずれしたパケットの受信により何ら影響は生じない。永久的なＩＰＣＰ欠陥の取り扱いは異なる。プロセッサが少なくとも１つの経路を経てそれ自身と通信できないときには、そのプロセッサは、エラーで停止となる。この動作は、全ての冗長なＩＰＣＰが欠陥となったときに、システムが全てのプロセッサを自動的に停止することを意味する。再グルーピングは無関係となる。ＩＰＣＰエレメント又はＩＰＣＰアクセスエレメントの欠陥は、２つのプロセッサ間に１つの両方向通信経路が保持される限り、再グルーピングに影響しない。少なくとも１つの他のプロセッサと通信できないプロセッサは、再グルーピングプロセッサの監視機能によりそれ自身を停止する。少なくとも１つの他のプロセッサと通信できるプロセッサは、新たな構成に含まれる。というのは、新たな構成が合意によって達成されるからである。各プロセッサは、状態パケットを受け取ると、報告された構成を追加して、それ自身の状態記録を更新する。この合成された構成は、更新プロセッサから状態パケットを受け取るために次のプロセッサへ自動的に送られる。例えば、次の状態について考える。冗長なＩＰＣＰＸ及びＹが与えられると、プロセッサ０及び２は、ＩＰＣＰＸでのみ送信し、そしてＩＰＣＰＹでのみ受信することしかできない。一方、プロセッサ１は、ＩＰＣＰＸでのみ受信し、そしてＩＰＣＰＹでのみ送信することしかできない。従って、プロセッサ０及び２は、プロセッサ１との通信経路を有する。最終的に、３つの全プロセッサは、同じ新たな構成をもつことになる。両プロセッサ０及び２からのプロセッサ状態情報は、プロセッサ１を経て中継される。未解決の欠陥状態既存の再グループアルゴリズムは、プロセッサ欠陥及びマラトスプロセッサに対して良好に機能する。しかしながら、良好に機能しない幾つかの通信欠陥状態が存在する。これらの状態を理解するために、ワーキングマルチプロセッサシステム（ＮｏｎＳｔｏｐＫｅｒｎｅｌ（登録商標）システム）を、頂点が機能中のプロセッサを表しそして縁が互いに直接通信する２つのプロセッサの能力を表す接続グラフとして論理的に考える。システムが正常に動作するためには、グラフは、完全に接続されねばならず、即ち全てのプロセッサは、他の全てのプロセッサと直接通信できねばならない。各対のプロセッサ間には論理的な接続がなければならない。（このグラフは、論理的な相互接続モデルである。物理的な相互接続は、各対のプロセッサ間に異なる物理的相互接続が存在しない共用バスを含む種々の異なるトポロジーでよい。）第１の状態においては、システムの２つのプロセッサが、システムで動作しているプロセッサについて一貫性のない展望をもつことになる。それらは、システムのグラフを構成する頂点の組に関して合意しない。「知能分割」状態が生じたと言える。この知能分割状態は、分割した知能にわたって存在するＩ／Ｏプロセス対の一次及びバックアップの各々が、データ崩壊により、それが一次プロセスであると考える事態を招く。一般に、知能分割状態は、通信欠陥がシステムを、互いに切断された２つ以上の個別のプロセッサクラスターに分割する場合に生じ得る。従って、システムの接続性グラフが２つ以上の解体接続グラフに分離する。第２の状態においては、通信欠陥により接続性グラフが部分的に接続されただけとなる。これは、一対のプロセッサ間の通信が冗長な経路にも関わらず完全に欠陥となるときに起きる。プロセッサの１つが、他のプロセッサからある時間中ＩａｍＡｌｉｖｅメッセージを受信していないことに気付いたときに、再グループオペレーションをアクチベートする。しかしながら、その２つが通信できる第３のプロセッサがある場合には、既存の再グループオペレーションは、全てのプロセッサが健全であると判断し、何ら処置を行なわずに終了となる。いずれかのプロセッサで発信して他のプロセッサへ向けられるメッセージは、永久的に保留となり、即ち２つのプロセッサは健全であり、そして欠陥許容メッセージシステムは、行先プロセッサ又はプロセスがダウンでない限りメッセージが供給されるように保証する。再グループオペレーションが行先プロセッサのダウンを宣言するまで、メッセージシステムは、メッセージの再試みを維持するが、プロセッサ間に通信経路がないために何の進行もない。この第２の状態において、全システムは、次の環境の１つ以上により保留となる。即ち、複写されたカーネルテーブルを更新するのに使用されるグローバル更新（ＧＬＵＰ）プロトコル（参考としてここに取り上げる米国特許第４，７１８，００２号（１９８８年）に説明されている）は、プロセッサがシステム内の全ての健全なプロセッサと通信できると仮定している。健全なプロセッサの１つと通信できないプロセッサにおいてＧＬＵＰがスタートする場合には、ＧＬＵＰプロトコルが全システムにおいて保留となり、名前付けされたプロセスの形成及び削除のようなアクティビティの完了を妨げる。又、システムは、重要なシステムプロセスが保留メッセージの完了を待機して保留となる場合にも、保留となる。このようなシステム保留は、メッセージシステムがリソース以外で動作するためにプロセッサの停止を招くことになる。プロセッサ間通信経路が欠陥許容（例えば、二重バス）である一方、プロセッサがフェイル・ファースト（例えば、単一の欠陥検出プロセッサ又はロックステッププロセッサが同じコード流を実行し、自己欠陥を検出した際にプロセッサが直ちに停止する）である場合には、一対のプロセッサ間の通信遮断のおそれが、プロセッサの故障よりも遥かに低くなる。しかしながら、エラーにより信号経路をダウンさせるソフトウェアポリシーは、この状態の確率を高める。更に、複雑なクラスターマルチプロセッサトポロジーの導入に伴い、接続欠陥状態がより起き易くなると思われる。これらは、ルータの故障、システムソフトウェアの欠陥、オペレータエラー等によるものである。第３の状態においては、プロセッサが周期的なＩａｍＡｌｉｖｅメッセージを送信できなくなるが、プロセッサ間通信メッセージは受信及び送信することができる。（このような状態は、例えば、時間リストの崩壊から生じ、オペレーティングシステムへのタイマー時間切れの報告を妨げる。）他のプロセッサの１つは、プロセッサのこの欠陥を容易に検出し、再グループ事象をスタートする。しかしながら、見掛け上マラトスのプロセッサは、再グループパケットを受信しそして再グループパケットをブロードキャストすることができるので、欠陥プロセッサが再グループ事象に完全に参加する。この参加は、見掛け上マラトスのプロセッサが実際に健全であることを他のプロセッサに確信させるに充分である。プロセッサは、再グループ事象に偽のスタートを迅速にダビングし、プロセッサダウンがないと宣言する。それにも関わらず、プロセッサがＩａｍＡｌｉｖｅの欠落を次に検出するときに新たな再グループ事象がスタートする。従って、システムは、ＩａｍＡｌｉｖｅチェック頻度（例えば、２．４秒に一度）で周期的な再グループ事象を通り、欠陥を検出することなく、ほとんど即座に終了となる。従って、これらの知能分割、部分的接続及びタイマー欠陥状態を回避するマルチプロセッサ再グループオペレーションが要望されている。本発明の目的は、構成要素プロセッサがシステムを構成するプロセッサの一貫したイメージを維持するマルチプロセッサコンピユータシステムを提供することである。本発明の別の目的は、システムが安定であるときに構成要素プロセッサが完全に接続されるマルチプロセッサコンピユータシステムを提供することである。本発明の更に別の目的は、タイマーの時間切れを受け取るプロセッサの欠陥が検出されそしてプロセッサがダウンと宣言するマルチプロセッサコンピュータシステムを提供することである。本発明の更に別の目的は、システムが安定であるときに上記プロセッサが最大限に完全に接続されるマルチプロセッサシステムを提供することである。本発明の更に別の目的は、一体化及び接続要件を満足するのに必要なシステムリソース（特に、プロセッサ）が最小限に除外されるマルチプロセッサシステムを提供することである。本発明の更に別の目的は、再グルーピング時に、瞬間的に非応答のプロセッサをシステムが考慮するようなマルチプロセッサシステムを提供することである。本発明のこれら及び他の目的は、上記先行技術及び以下の説明から当業者に容易に明らかであろう。発明の要旨ここに、多重プロセッサシステムにおける通信障害及び／又は定期的事象故障に残存するプロセッサ群を決定するための装置及びプロトコルを開示する。プロセッサは、各々メモリを有し、かつプロセッサは、プロセッサ間通信ネットワークにより結合される。プロセッサは、それらが通信することができる一組のプロセッサが変化したということを検出する。そして、それらは、プロセッサの切断群が独立システムとして動作することを継続するという可能性を最小化することに基づいて動作を停止するか又は継続することを選択する。プロセッサは、再編成動作の開始で連結性マトリックスを構築する。連結性情報は、残存する最終群における全てのプロセッサが群における全ての他のプロセッサと通信することができるということを確実にするために用いられる。一つ以上のプロセッサがこの特性を達成することを停止しうる。プロセッサは、他のプロセッサがプロセッサからの周期的メッセージの欠落を検出した場合に、打ち切られた動作を有していること又は故障したタイマ機構を有していることを疑われる。これが起きた場合には、プロセッサの全ては、それらがそれらの状態及び連結性を互いに繰り返し放送する一連のステージの対象になる。疑問をもたれたプロセッサは、打ち切られた動作を有しているか又はそのタイマ機構が故障している場合にはステージを通って進まない。図面の簡単な説明図１は、マルチプロセッサシステムの簡単なブロック図である。図２は、５プロセッサのマルチプロセッサシステムを示すグラフである。図３は、２プロセッサのマルチプロセッサシステムを示すグラフである。図４は、通信欠陥を受けたときの図２のグラフである。図５は、通信欠陥を受けたときの図３のグラフである。図６は、本発明の１つの実施形態による再グループオペレーションの段階１を示すフローチャートである。図７は、再グループ制御テンプレートを示す図である。図８Ａ及び８Ｂは、再グループオペレーションの段階を要約する図である。図９は、本発明の１つの実施形態により段階５から段階１への移行を示す図である。図１０は、本発明の１つの実施形態により段階１の始めから段階１の終りへの移行を示す図である。図１１は、本発明の１つの実施形態により段階２の始めにおける条件を要約する図である。図１２は、本発明の１つの実施形態により段階２の終りにおける条件を要約する図である。図１３は、本発明の１つの実施形態により段階３の始めにおける状態を示す図である。図１４は、本発明の１つの実施形態により段階３の終りにおける状態を示す図である。図１５は、本発明の１つの実施形態により段階４の始めにおける状態を示す図である。図１６は、本発明の１つの実施形態により段階４の終りにおける状態を示す図である。図１７は、本発明の１つの実施形態により段階５の始めにおける条件を示す図である。図１８Ａ及び１８Ｂは、本発明の１つの実施形態による知能分割回避プロトコルを示すフローチャートである。好ましい実施形態の詳細な説明目次定義全体の概要データ構造プロトコルタイーブレーカ・プロセッサ選択リグループおよびスプリットーブレーン回避ステージ１ステージ２リグループ及びノード・プルニング（枝刈り）ステージ３ステージ４ステージ５及び６リスタートリグループ及びタイマー故障の検出再訪問したシナリオ定義カノニカル・マトリックス：連結性マトリックスＣが、下記の場合に、及び下記のみの場合に、カノニカル・フォームにあることをいう。（１）プロセッサｉが不動作状態（以下デッド）であり、行Ｃ（ｉ，ｘ）がFA LSEであり、列Ｃ（ｘ，ｉ）がFALSEである場合；及び（２）Ｃ（ｉ，ｊ）がFALSEであり、Ｃ（ｊ，ｉ）がFALSEである場合：これは、対称性すなわち双方向性の連結性を確保する。連結グラフ：グラフ中においてどのプロセッサも他のプロセッサからは絶縁されていないグラフ。連結性マトリックス：以下のようなＮ×Ｎマトリックス。Ｎはプロセッサの数。各プロセッサには、１からＮ（又は、ゼロインデックスが使用される場合には０からＮ−１）の間の特定の番号が付されている。プロセッサｉが健康である場合には、Ｃ（ｉ，ｊ）はTRUEである。プロセッサｉがデッド又は不存在である場合には、Ｃ（ｉ，ｊ）はFALSEである。プロセッサｉがプロセッサｊ（ｉ≠ｊ）に接続されていない場合には、Ｃ（ｉ，ｊ）はFALSEである。連結解除：グラフ中における、２つのプロセッサ間のエッジの欠如；グラフ内のミッシング（喪失）・エッジ；プロセッサ間にエッジのない一対のプロセッサ；およびＣ（ｉ，ｊ）がFALSEで且つＣ（ｊ，ｉ）がFALSEである一対（ｉ、ｊ）。完全連結グラフ：各プロセッサが他の全てのプロセッサについてのエッジを有するグラフ。グラフ：マルチプロセッサシステム内の複数のプロセッサの表示であって、それらのプロセッサ中の通信リンクの表示。これらのグラフの頂点がプロセッサであり、エッジが通信リンクである。エッジは双方向性である。用語「頂点」および「プロセッサ」は、用語「通信リンク」および「リンク」および「エッジ」であるとして互換的に用いられる。（一対のプロセッサ間の冗長リンクは、一緒にして一つのリンクとして考慮される。本実施例では、通信ネットワークは、本願の出願人から入手可能なServer Net（商標）であり、通信リンクは、ServerNet（商標）パスである。ServerNet （商標）パスは、一連のServerNetリンクとルータである。）グループ：マルチプロセッサ中のプロセッサの適当なサブセット（小さな組）。プロセッサのサブセットは、相互に通信可能に連結されている。完全に連結されたマルチプロセッサシステムが複数グループに分かれると、そのグループは、ばらばらになり、必ずしも完全な連結にならない。最大限に、完全に連結されたサブグラフ：完全に連結されたサブグラフであって、同じグラフの別の完全連結されたサブグラフの適当なサブセットではない、サブグラフ。全体の概要本発明のマルチプロセッサシステムは、米国特許第４，８１７，０９１号および米国特許出願第０８／４８６，２１７号（１９９５年６月７日出願）の教示を用いて、構成され得る。これらの米国特許および米国特許出願は、必要な範囲において、参照文献として組み込まれる。図１は、本発明を組み込んだマルチプロセッサシステムの、簡単にしたブロック図である。プロセッサ１１２は、ネットワーク１１４および接続１１６によって相互に連結されて、プロセッサ１１２に、トランシーバ１１７を介してプロセッサ間通信を提供する。ネットワーク１１４は、イーサネットＬＡＮのような標準通信接続によって実施され得るし、プロセッサ１１２を並列に接続するバスシステムによっても実施され得る。そのネットワークは、来国特許第４，８１７，０９１号に教示されるようにプロセッサが持っている入力／出力（Ｉ／Ｏ）システムからは独立している。上記の代わりとして、ネットワーク１１４は、プロセッサ１１２に種々のＩ／Ｏユニット（プリンタや二次記憶装置等（図示せず））へのアクセスだけでなく該プロセッサ１１２のためのプロセッサ間通信の通信パスをも提供する結合Ｉ／Ｏシステムの一部として実施してもよい。ネットワーク１１４は、リングや完全連結スターおよびツリー等のポイント・ツー・ポイントネットワークであってもよい。プロセッサ１１２の各々の内側に、または各プロセッサ１１２に関連するように、メモリ１１８が、他のプロセッサのメモリ１１８とは独立に設けられ、他のプロセッサの時間及び日付クロックとは独立に、時間及び日付クロック（図示せず）が設けられている。また、各プロセッサ１１２に関連するように、一次電源（例えば、交流電源（図示せず））を受ける電源１２０が設けられ、この電源から必要な電力（例えば直流電力）が関連のプロセッサ１１２の動作のために供給される。１つの実施形態において、プロセッサ＃＿１１２の各々に関連した内部、或いはその他の点は、形状が任意のレジスタ＃＿１１９である。形状が任意のレジスタ＃＿１１９は、アト＿ニードケットNo.010577-033000で、本発明の譲渡人への譲渡の義務下にあり、発明者Robert L．Jardine，Richard N．Collins及びA.Ric hard Zacherによる"Method to Improve Tolerance Of Non-Homogeneous Power O utages"の米国特許出願No．08/487,941に開示されている。米国特許出願No．08/ 487,941は、リファレンスによってここに取りこまれる。ネットワーク＃＿１１４は、プロセッサ＃＿１１２がメッセージを、それぞれの間でデータ、ステータス及び他の情報を伝えるために、一方から他方へ、又他方から一方へメッセージを送り、又受信することができるようにする媒体を形成する。この媒体は、一対のプロセッサごとの間で少なくとも２つのパスを有する冗長なネットワークであることが好ましい。図＃＿２は、５−プロセッサのマルチプロセッサシステム＃＿２００を表すグラフ＃＿２００である。図＃＿２のグラフ＃＿２００は完全に接続されている。５つのプロセッサ１−５の各々は、他のプロセッサ１−５の全てとコミュニケーションリンクを有する。図＃＿３は、２−プロセッサのマルチプロセッサシステム＃＿３００を表すグラフ＃＿３００である。図＃＿３のシステム＃＿３００も完全に接続されている。２つのプロセッサ１，２は互いに通信している。いま、システム＃＿２００を図＃＿４のグラフ＃＿４００に分割する事故が発生と仮定する。グラフ＃＿４００において、プロセッサ１，３，４と５のグループは完全に接続されており、又プロセッサ１，２と５のグループは完全に接続されている。グラフ＃＿４００のプロセッサは、全てコミュニケーションの失敗の検出に関する再グループ動作に入る。本発明によると、スプリット−ブレイン問題を避けるために、又完全に接続されたマルチプロセッサシステムを維持するために、プロセッサ１，３，４と５の各々が動作しつづけている間、プロセッサ２は、動作を停止する。同様に、コミュニケーションの失敗がシステム＃＿３００をプロセッサ１だけの、および図＃＿５のシステム＃＿５００のプロセッサ２だけのサブグループに分割する場合、これらのプロセッサは、再グループ動作を行なう。本発明によると、スプリット−ブレイン問題を避けるために、又完全に接続されたマルチプロセッサシステムを維持するために、プロセッサ１が動作を続ける間、プロセッサ２は停止する。データ構造本発明による、スプリット−ブレイン問題、部分接続及びタイマー失敗を避けるために、好適な実施形態に用いられたデータ構造及びプロトコルが以下に説明される。本発明に組み込まれているマルチプロセッサシステムにおける各々のプロセッサ＃＿１１２は、接続マトリックスＣを維持する。この接続マトリックスは、コミュニケーションの失敗を乗り切る、グラフにおけるエッジを追跡するために用いられる。接続マトリックスは、又最大の、完全に接続されたサブグループを決定するためにも用いられ、コミュニケーションの失敗を乗り越え、各プロセッサ＃＿１１２がその動作を続けるか、停止するかを決定する。接続まトリックＣのサイズは、Ｎをマルチプロセッサシステムのプロセッサ＃＿１１２の数とした場合、Ｎ×Ｎである。１つの実施形態において、マトリックスの各エントリは、ビットであり、各プロセッサ＃＿１１２は、１とＮ間の特定の数である。エントリＣ(ｉ，ｊ)は、プロセッサｊからのメッセージを受信するプロセッサｉの能力を示す。ここで、もし、能力があるならば、エントリは、１ (或いは論理真)にセットされる。もし、能力がないならば、エントリは、０(或いは論理偽)にセットされる。もし、プロセッサｉがヘルシーであれば、エントリＣ(ｉ，ｊ)は、真にセットされる。プロセッサｉが死んでいるか、存在しないならば、エントリＣ(ｉ，ｊ) は、偽である。もし、プロセッサがそれ自身から再グループメッセージを受けないならば、そのプロセッサは停止する。もし、プロセッサｊ(ｉがｊに等しくない）に通信可能に接続されているならば、エントリＣ(ｊ，ｊ)は、真にセットされる。もし、プロセッサｊ(ｉがｊに等しくない)に通信可能に接続されていないならば、エントリＣ(ｊ，ｊ)は、偽にセットされる。各プロセッサ＃＿１１２は、ノードのプルーニング結果変数も維持する。プルーニング結果変数もビット構造で、どのマルチプロセッサシステムのノードが以下に説明されるノードプルーニングプロトコルをサバイブするかを示している。他のデータ構造は、IamAliveメッセージである。１つの実施形態において、Ia mAliveメッセージは、他の情報間で、放送プロセッサ＃＿１１２のアイデンティフィケーションを含む。首尾よく通信されると、IamAliveメッセージは、受信プロセッサ＃＿１１２へ放送プロセッサ＃＿１１２の連続した動作を示す。更に他のデータ構造は、再グループメッセージである。再グループメッセージは、放送プロセッサ＃＿１１２を識別し、そのプロセッサの通信マトリックスを含む。したがって、再グループメッセージは、それが信じるこれらのプロセッサ＃＿１１２のアイデンティフィケーションがシステムを形成することを示す、システムのプロセッサの見解を含む。再グループメッセージは、プルーニング結果変数と注意ビットも同様に含む本発明の１つの実施形態によるマルチプロセッサシステムは、到達することができないプロセッサのマスクを含む。このマスクは、Ｎビットである。ここで、Ｎは、マルチプロセッサシステムのプロセッサ＃＿１１２の数である。又、マスクにおける各エントリは、ビットであり、各プロセッサ＃＿１１２は、１とＮ間の特定の数である。このマスクのメンテナンス及び使用を以下に説明する。プロトコルタイブレーカープロセッサの選択プロセッサ＃＿１１２の１つは本発明の再編成プロセスにおいて特別の役割を有している。このプロセッサ＃＿１１２はタイブレーカーを指定する。後述するように、分割脳回避プロセスはタイの場合のこのプロセッサ＃＿１１２の方を好む。さらに、残存しているすべてのプロセッサの間の十分な結合を確実にするために使用される（後述する）ノードプルーニングプロセスはタイブレーカープロセッサ＃＿１１２上で実行される。また、このプロセスは非常に多くの結合故障の場合にはタイブレーカーの方を好む。１実施例では、グループで最低の番号を付けられたプロセッサ＃＿１１２はタイブレーカーとして選択される。この単純な選択プロセスは、グループ内のすべてのプロセッサ＃＿１１２が同一のタイブレーカーを選択することを保証する。再編成及び分割脳回避本発明によるマルチプロセッサシステムのプロセッサ＃＿１１２のそれぞれは周期的な間隔でIamAliveメッセージを広めるためネットワーク＃＿１１４を使用する。１実施例では、ほぼ１．２秒毎にそれぞれのプロセッサ＃＿１１２は、各他のプロセッサ＃＿１１２への各冗長経路上の各他のプロセッサへIamAliveメッセージを広める。ほぼ２．４秒毎に各プロセッサ＃＿１１２は、その仲間のプロセッサ＃＿１１２から受け取ったIamAliveメッセージを調べるため検査する。プロセッサ＃＿１１２は、最終検査でシステムの一部であったことを知るプロセッサ（例えば、＃＿１１２ｂ）からIamAliveメッセージを受け取り損なう時、検査プロセッサ＃１１２は再編成メッセージを広めることにより再編成動作を開始する。事実上、再編成動作は、IamAliveメッセージが受け取られなかったプロセッサ＃＿１１２ｂのための１セットのチャンスであり、事実上、健全である他のプロセッサ＃＿１１２を確信させる。再編成動作に正確に関係するプロセッサ＃＿１１２ｂの故障は現存するプロセッサ＃＿１１２となり、それが送信する場合には、プロセッサ＃＿１１２ｂからの更なるメッセージトラヒックを無視する。他のプロセッサ＃＿１１２は一度応答しないプロセッサ＃＿１１２ｂをシステムから追放する。ステージＩ図＃＿６に戻ると、フロー図は再編成動作のステージＩを示し、通常、参照番号＃＿６００で示されいる。プロセッサ＃＿１１２のそれぞれは再編成グループのステージＩを実行する。事実上、プロセッサ＃＿１１２は必ずしもそれらの動作を同期させる必要はないので、一定のプロセッサは他よりも早くIamAliveメッセージを検討し、他よりも前に再編成動作に入る。また、プロセッサ＃＿１１２はたとえIamAliveメッセージの欠如を検出しなくても、IamAliveメッセージの欠如を検出したプロセッサ＃＿１１２から再編成メッセージを最初に受け取る場合には、再編成動作のステージＩに入ってもよい。従って、仲間のプロセッサがその周期的なIamAliveメッセージを送信し損なったことをプロセッサ＃＿１１２が示す時（ステップ＃＿６６２ｂ）、またはプロセッサ＃＿１１２がプロセッサ＃＿１１２の別のものから再編成メッセージを受け取る時（ステップ＃＿６６２ｂ）に、ステージＩが始まる。プロセッサ＃＿１１２がこれらの発生のいずれかを表わすと、それは再編成動作のステージＩを開始する。次に、予め存在する再編成動作のステージＩの動作に加えて、再編成動作に関係するプロセッサ＃＿１１２はそれぞれ、ステージＩ動作のための最大時間を決定する内部タイマ（図示せず）を開始する（ステップ＃＿６６４）。また、各プロセッサ＃＿１１２はそのメモリレジデント結合マトリックスＣをすべての故障に再設定する（すなわち、Ｃ（ｉ，ｊ）はすべてのｉ，ｊのためゼロである）。また、ステップ＃＿６６４では、各プロセッサ＃＿１２２はすべてのＩ／Ｏ動作を中断する。（１実施例では、サービスルーチンはネットワーク＃＿１１４上にすべての次のＩ／Ｏ要求を出すよりむしろ要求キューにそれらを保持する。）この期間の間、再編成メッセージだけがネットワーク＃＿１１４を通って流れてもよい。プロセッサ＃＿１１２は、再編成動作が残存するプロセッサのセットを完結した後（すなわち、ステージIIIの後）にのみＩ／Ｏ動作を再開する。ステップ＃＿６６６では、プロセッサ＃＿１１２のそれぞれは、完全なプロセッサ、完全な冗長経路の再編成メッセージを送り、システムのプロセッサのビューを含み、それ自身の識別、結合マトリックスＣ、及び光学上の警告ビットを含んでいる。（「停電またはドロップアウトからフォウルトトレラントなマルチプロセッシングシステムのための方法及び装置」という表題で、1994年６月23日に出願され、発明者がRobert L.Jardine,Richard M.Collins,Larry D.Reevesで、この発明の譲受人に譲渡する義務を負わせた、代理人文書No．010577-031900/TA 271の米国特許出願No.08/265,585の教示によると、プロセッサ＃＿１２２は警告ビットを設定し使用している。米国特許出願No.08/265,585はここにインコーポレイテッドバイリファレンスされている。）この再編成メッセージは、プロセッサ＃＿１１２の故障を示して既にそのように行われず、IamAliveメッセージを送り、また再編成動作に入る場合には、すべての他のプロセッサ＃＿１１２を促す。ステップ＃＿６６８では、プロセッサ＃＿１１２はそれが受け取った再編成メッセージを検査しメッセージに含まれる結合マトリックスＣをプロセッサ＃＿１１２がそのメモリ＃＿１１８に保持するものと比較する。もし相違点がある場合には、メモリ１８に保持されたシステムビューはそれに応じて更新される。１実施例では、再編成メッセージの連結性マトリックスは、ＮｘＮビットのマトリックスである。このビットマトリックスは、再編成メッセージを受取るプロセッサー＃１１２がメモリー＃１１８に保持するＮｘＮビットマトリックスと論理和をとられる。従って、どのようなプロセッサーでも再編成メッセージでｉがあるとマークされた、即ち再編成メッセージ連結性マトリックスでＣ（ｉ，ｉ）がＴＲＵＥとセットされれば、プロセッサー＃１１２は、そのプロセッサーｉをメモリー在駐マトリックスにあるとマークする、即ちメモリー在駐連結性マトリックスで、Ｃ（ｉ，ｉ）がＴＲＵＥとセットされる。従って、連結性マトリックスは、上述したＫＮＯＷＮ−ＳＴＡＧＥ＿ｎ変数＃＿７５０を含むことができる。さらに、プロセッサーｉが（どのようなパス上の）プロセッサーｊから再編成メッセージを受取るとき、プロセッサーｉは、メモリー在駐連結性マトリックスのＣ（ｉ，ｊ）エントリをＴＲＵＥとセットし、プロセッサーｉは、プロセッサーｊからメッセージを受取ることができることを示す。上述したように、一対のプロセッサーｉとｊ、Ｃ（ｉ，ｊ）とＣ（ｊ，ｉ）に２つのエントリが存在する。プロセッサーｉは、プロセッサーｊから再編成メッセージを受取るとき、エントリＣ（ｉ，ｊ）をＴＲＵＥとセットし、一方プロセッサーｊは、プロセッサーｉから再編成メッセージを受取るとき、エントリＣ（ｊ，ｉ）をＴＲＵＥとセットする。この２重エントリシステムにより、マルチプロセッサーシステムが対称性を壊す故障を検出することができる、即ち、プロセッサーｉはプロセッサーｊから受取ることができるが、プロセッサーｊはプロセッサーｉから受取ることができない。全ての知られているプロセッサー＃１１２が健全であるとわかれば、又は所定の時間が経過すれば、ステージＩは完了する。ステージII 連結性マトリックスを使用して、ステージＩで知られたプロセッサーを追跡し、ステージIIで知られたプロセッサーがステージＩからのものといつ同じになるか求める。以前にある再編成オペレーションで、プロセッサー＃１１２がステージIIに関係しているときステージIIを出たプロセッサーは、システム＃＿１００の見方について同意する。本発明の再編成オペレーションで、プロセッサーがシステムの見方について同意した後、ステージIIは継続する。連結性マトリックスはまた、再編成オペレーションの最初のステージを耐えたプロセッサーのグループで完全な連結性を欠くことの検出にも使用される。再編成オペレーションのステージＩとステージII（の初め）に、連結したサブグラフ内に存在するプロセッサーの組を求めた後、各プロセッサーは、後述され図＃＿１８Ａと＃＿１８Ｂに示される脳分割回避方法を行い、プロセッサーの１つのサブグラフのみが残っていることを確認する。この方法は、ステップ＃＿１８０５でタイブレーカープロセッサーを選択することを含む。完全に結合したサブグラフを選択するために、ノードプルーニングプロトコルをランすることもできる。１実施例では、各プロセッサー＃＿１１２が、(1)最後の再編成オペレーションが完了する終わりに、(又は再編成オペレーションが完了していなければシステムの始動時に)システムの一部であった、また(2)最も低い独自の識別数を有するプロセッサー＃＿１１２をタイブレーカープロセッサーとして選択する。。より緩やかには、プロセッサー＃＿１１２は、現在の再編成オペレーションが始まる直前に最も低い独自識別数を有するプロセッサー＃＿１１２をタイブレーカープロセッサーとして選択する。上述したのに関連して、現在の再編成オペレーションが進行中の再編成オペレーションの中間で始まっても良いという点で、この定義はより緩やかである。本発明のスプリットブレイン回避方法を行うのに、各プロセッサー＃＿１１２は、次の決定を行う：１．この再編成オペレーションが開始する前に、そのグループが、上述したＯＵＴＥＲ＿ＳＣＲＥＥＮ変数＃＿７４０で与えられる存在するプロセッサーの半分以上を有すれば、プロセッサーは、ステップ＃＿１８２０と＃＿１８２５でオペレーションを継続する。２．この再編成オペレーションが開始する前に、そのグループが、存在するプロセッサーの半分より少なくしか有さなければ、ステップ＃＿１８１０と＃＿１８１５で直ちに停止する。３．この再編成の前に、そのグループが存在するプロセッサーのちょうど半分を有し、そのグループが少なくとも2つのプロセッサーを有すれば、ステップ＃＿１８３０で、タイブレーカープロセッサーを使用して次のようにタイを壊す。・３．１そのグループがタイブレーカープロセッサーを含むなら、プロセッサーは、ステップ＃＿１８４０と＃−１８２５でオペレーションを継続する。・３．２そのグループがタイブレーカープロセッサーを含まないなら、プロセッサーは、ステップ＃＿１８５０で直ちに停止する。４．そのグループが正確に1つのプロセッサーを有し、この再編成オペレーションが始まる前に、正確に2つのプロセッサーが存在すれば、・４．１そのプロセッサーがタイブレーカープロセッサーであれば、プロセッサーは、ステップ＃＿１８６０と＃＿１８６５でオペレーションを継続する。・４．２そのプロセッサーがタイブレーカープロセッサーでなければ、プロセッサーは残存しようとする：プロセッサーは最初に、ステップ＃＿１８７０でタイブレーカープロセッサーの状態をチェックする。（１実施例では、プロセッサーはサービスプロセッサー（ＳＰ）にタイブレーカーの状態を得るように要求する。ＳＰは、タイブレーカーの状態について独立の知識を有し、この状態を戻すことができるかもしれない。戻された状態は、次の5つの値の1つである。プロセッサーが停止した（又は非オペレーションのコードをランする）；プロセッサーはハードウェアのエラー（セルフチェック）のフリーズ状態である；プロセッサーはＮｏｎＳｔｏｐＫｅｒｎｅｌをランしている；ＳＰはプロセッサーと通信しているが、何等かの理由によりプロセッサーの状態を得ることができない；状態要求の通信が何等かの理由により失敗した。）もし、タイブレーカーが停止したか、又はハードウェアエラーのフリーズ状態にあれば、プロセッサーは、ステップ＃＿１８８０と＃＿１８６５で残存する。もし、タイブレーカーとうまく通信している状態が得られなければ（例えば、ＳＰ接続の失敗によりＳＰの要求が失敗した、ＳＰがＮｏｎＳｔｏｐＫｅｒｎｅｌの状態を求めることができないと回答した、又はマルチプロセッサーシステムがサービスプロセッサーの等価物を含んでいない。）、ステップ＃＿１８９０で、プロセッサーは達し得ないプロセッサーのマスクをチェックする。タイブレーカーが達し得ないとマークされなければ、ステップ＃＿１８９５と＃＿１８６５で、タイブレーカーがマラトスで残存したと、プロセッサーは想定する。しかし、タイブレーカーが達し得ないとマークされれば、タイブレーカーが健全でこの方法を行うと想定する。それは、ステップ＃＿１８９５と＃＿１８９７で停止する。このスプリット−ブレイン回避方法論は、プロセッサ＃＿１１２を、それ自身を機能停止させるように導くことができる。それどころか、タイ−ブレーカー・プロセッサ＃＿１１２でさえ、自身を機能停止させることができる。故に、プロセッサ＃＿１１２がスプリット−ブレイン回避方法論のアプリケーションを生き残らせている場合、それは、タイ−ブレーカー・プロセッサ＃＿１１２を再び選択する。好ましい実施形態では、各プロセッサ＃＿１１２は、他のタイ・ブレーカーが本明細書に記載されているように選択されるまでは、ステージＩＩの残りのための、また、再グループ・オペレーションのその後のステージのための、更に、ポスト−再グループ・オペレーションにおける、タイ・ブレーカーとして、最も小さな番号が付された生き残りプロセッサを選択する。スプリット−ブレイン回避方法論のアプリケーションを生き残らせている全てのプロセッサ＃＿１１２は、同じタイ−ブレーカー・プロセッサ＃＿１１２を選び取る。プロセッサがタイ・ブレーカーでない場合、このプロセッサは、自身がタイ− ブレーカー・プロセッサ＃＿１１２からメッセージを得る（若しくは、機能停止検出がタイムアウトした後に再グループが再開する）までは、ステージＩＩにとどまる。これはスプリット−ブレイン回避プロトコルを完了する。ノード・プルーニング（刈り込み）・プロトコル無しでスプリット−ブレイン回避方法諭を実施するマルチ−プロセッサ・システムについては、上述したようにステージＩＩＩ乃至Ｖを完了する。しかしながら、それ自身を最大の完全に接続されたマルチ−プロセッサとして形成しようとしている、若しくは、それ自身をそのようなマルチ− プロセッサとして維持しようとしているようなシステムは、ステージＩＩを完了し、以下に述べるように続行する。（勿論、マルチ−プロセッサ・システムは、スプリット−ブレイン回避方法論とは独立して、ノード・プルーニング方法論を適用することができる。） −再グループおよびノード・プルーニングプロセッサがタイ・ブレーカーでない場合、このプロセッサは、タイ−ブレーカー・プロセッサ＃＿１１２、若しくは、自身のプルーニング結果変数セットを有したステージＩＩＩにおける他のプロセッサ＃＿１１２から、自身がメッセージを得る（若しくは、機能停止検出がタイムアウトした後に再グループが再開する）までは、ステージＩＩにとどまる。プロセッサ＃＿１１２がそのようなステージＩＩＩパケットを手に入れるとすぐに、このプロセッサ＃＿１１２はステージＩＩＩにエンターし、自身の局部プルーニング結果変数を自身が受け取ったステージＩＩＩパケットで見つけた値に設定する。タイ・ブレーカーは、再グループ・オペレーションを生き残らせているプロセッサ＃＿１１２の最終グループを判断するため、連結性情報の収集、この情報の収集をいつ中止するかの決定、および、連結性グラフのプルーニング、に関する付加的なステージＩＩ責任を有する。ステージＩＮ、ＩＩでは、プロセッサ＃＿１１２がメモリ常駐マトリックスＣのコピーを含んだ再グループメッセージを交換したときは、連結性情報が、全てのプロセッサ＃＿１１２上でそれら各々のメモリ常駐連結性マトリックスＣにて構築される。タイ・ブレーカーは、他の全てのプロセッサ＃＿１１２とともに、連結性情報を収集する。タイ・ブレーカーは連結性情報の収集をいつ中止するのかを決定する。タイ・ブレーカーは、全てのプロセッサ＃＿１１２に妥当な時間量を与えて、再グループ・メッセージを送り、これによって、連結性を確立する。タイ・ブレーカーが情報の収集をあまりにも直ちに中止すべき場合には、構築された連結性グラフが不完全になってしまうこともあり、この結果、利用可能なプロセッサ＃＿１１２は、完全連結性の要求を満足させるため、デクレア・ダウンされ（宣言が取り下げられ）、また、プルーニング・アウトされる（刈り出される）。不完全な連結性情報は、最終の生き残りグループが全てのプロセッサ＃＿１１２上で矛盾せず、また、完全に接続されているといった要求を妨害はしないが、セーブすることができたプロセッサ＃＿１１２を取り出すことができる。ある実施形態では、タイ・ブレーカーは、スプリット−ブレイン方法論を完了した（更に、それ自身をタイ・ブレーカーとして選択した）後、ノード−プルーニング方法論の適用に移る前に、３つの再グループ・チック（３００ミリ秒離間されている）分だけ待つ。各プロセッサ＃＿１１２は、再グループ・チック毎に、また、その再グループ・ステージが変化したときはいつでも、全てのプロセッサ＃＿１１２に再グループ・メッセージを伝送することから、この３チック遅延は、各プロセッサ＃＿１１２に対して、連結性情報を含んだメッセージを送るために少なくとも４つの機会を可能とする、即ち、ステージＩにエンターしたときに１つ、ステージＩＩにエンターしたときに１つ、および、タイ・ブレーカーが待つている間に更に２つである。更に、メッセージは全ての常駐経路上に送られる。このように、タイ・ブレーカーは、以下の２つの事象のうちの最初のものが生じたときに、連結性情報の収集を停止する、即ち、（１）そのメモリ常駐連結性マトリックスＣが、全ての経路がアップであること（つまり、完全連結性が存在すること）を表示すること、又は、（２ａ）スプリット−ブレイン回避方法論の適用が完了したために、所定数の再グループ・チックが経過したこと、若しくは、（２ｂ）スプリット−ブレイン回避プロトコルを実施していないマルチ−プロセッサ・システムについては、全てのステージＩプロセッサがステージＩＩにエンターさせられたと判断したために、所定数の再グループ・チックが経過したこと、である。タイ−ブレーカー・プロセッサ＃＿１１２が連結性情報の収集を中止した後に、タイ−ブレーカーは、プルーニング・プロセスを適用し、生き残りプロセッサ＃＿１１２の最終グループを提案する。タイ・ブレーカーは、プルーニング方法論の効力に影響を与えることなく、それ自身をプルーニング・アウトすること（刈り出すこと）ができることに注意してもらいたい。タイ・ブレーカーは、常に、他のプロセッサ＃＿１１２に対してその決定を報告する責任を持つ。プルーニングされた（刈り込まれた）プロセッサ＃＿１１２（タイ・ブレーカーを含む）は、それらがステージＩＶにエンターされるまでは機能停止しない。潜在的且つ部分的に接続された生き残りプロセッサのグラフから完全に接続されたグラフを手に入れるため、タイ・ブレーカー・プロセッサ＃＿１１２は、先ず、全ての最大の完全に接続されたサブグラフを掲げるプロセスを実行する。それはその後、代替物のセットから１つを選び取るために選択プロセスを使用する。一態様において、これらのプロセスは、タイブレーカ・プロセッサ#_112上の割込みコンテキストにおいて実行され、実行時間及びメモリ要求の上限は低い。候補となる全てのサブグラフを列挙するプロセスは、切断の数が大きい場合には、大量のメモリ及び実行サイクルを必要とする。したがって、切断の数が定数（一態様では８）よりも大きい場合には、必ずしも最適でない完全に接続されたグラフを抽出する比較的単純なスキームが好ましい。接続性マトリクスにより表わされたグラフにおける、最大で、完全に接続されたサブグラフの完全なリストを生成するための方法を、以下に記載する。入力は、上記Ｎ×Ｎの接続性マトリクスＣである。出力は、最大で、完全に接続されたサブグラフを形成する１組のプロセッサのアレーである。方法論は、次のような特徴を利用している。すなわち、頂点ｉ及びｊを含む完全に接続されたグラフから、（切断（ｉ，ｊ）を形成する）エッジ（ｉ，ｊ）が除去されると、２個の最大で、完全に接続されたサブグラフが形成される。一方のサブグラフは元のグラフから頂点ｉ（及びこれに接続されたエッジ）が除去されたものであり、他方のサブグラフは元のグラフから頂点ｊ（及びそのエッジ）が除去されたものである。部分的に接続されたグラフは、１組の切断が適用された、完全に接続されたグラフとして見ることができる。全ての最大で、完全に接続されたサブグラフの組を計算するため、プロセッサ#＿112はまず、接続性マトリクスＣにおける切断のリストを作成する。次に、プロセッサ#＿112は、１個のメンバ、すなわち元のグラフの全ての頂点を伴う完全に接続されたグラフを有する、最初の解の組を作成する。プロセッサ#＿112は、次いで切断を一つずつ適用することにより、解の組を連続的に改良する。該方法は、次のステップを有する。１．全てのデッド・プロセッサの組、すなわち、Ｃ（ｉ，ｉ）が偽となるような全てのプロセッサｉの組を計算する。２．接続性マトリクスを正準形に変換する。すなわち、デッド・プロセッサに対応する行及び列を除去し、マトリクスを対称にする。３．全ての〃切断の組、すなわち、Ｃ（ｉ，ｉ）が真、Ｃ（ｊ，ｊ）が真（すなわち、プロセッサｉ及びｊはアライブである）、かつＣ（ｉ，ｊ）が偽となるような全ての対（ｉ，ｊ）の組を計算する。Ｄを切断の組のサイズにする。４．変数groupsは解のアレーであり、変数numgroupsは解のアレー中のエントリの数である。ライブ・プロセッサの組に等しい１個のグループを含む最初の解から開始する。 groups：＝live_processors; /*groupsはSETのアレーである*/ numgroups：=１; /*アレー中の要素の数*/ 全てのライブ・プロセッサ#_112は、最初は完全に接続されていると仮定する。各切断を順に適用し、アレー中のグループを完全に接続されたサブグループに分断する。５．各切断を、groups中の現在の要素に適用することにより、加工する。切断（ｉ，ｊ）を、プロセッサｉ又はｊを含まないプロセッサ#_11 2のグループに適用しても、何の影響もない。切断（ｉ，ｊ）を、プロセッサｉ及びｊを共に含むグループに適用すると、該グループは２個の完全に接続されたサブグループに分割され、ここで、該サブグループの一つは元のものからプロセッサｉが除去されたものであり、もう一つは元のものからプロセッサｊが除去されたものである。グループがこのように２個のサブグループに分割された場合、プロセッサ#_11 2は新たなサブグループの各々を調べ、それが既に存在するか、あるいは既存のグループのサブセットであるかを判断する。新規かつ最大のサブグループのみが、グループのアレーに追加される。以下に示すのは、この方法論を実行するためのサンプルＣコードである。該サンプルコードは、関数group_-exists_or_is_subset ()が、所定のグループが、現在のグループの組のメンバであるか、又は既存のグループのサブセットであるかどうかを調べるものと仮定している。また、該サンプルコードは、セットの型（型SET及び関数SetMember()、SetCopy()、SetDelete()並びにSetSwap())を実行する関数ライブラリを仮定している。ここで、numgoupsは最大で、完全に接続されたサブグラフであり、またgroups はこれらのサブグラフを含む。このようにして見出されたサブグループから、１個のグループが生き残る。１個が全てのプロセッサを同様に処理する場合には、生き残りの最も有力な候補は、最大のメンバ数を伴うものとして定義し得る。同等の場合には、任意のものを抽出してよい。一実施例では、プロセッサは、各々が提供するサービスの種類に基づく異なる残存プライオリティを有する。例えば、本発明の譲受人から提供されるノンーストウェアでは、主もしくはバックアップ＄システムプロセス（システム−ワイドサービスを提供するプロセス）を有するプロセッサは、より高い残存プライオリティを有する。別の例として、上述したように、最小に番号付けられたプロセッサは最高の残存プライオリティを有することができる。ノード−枝刈りプロセスの実行速度は、切断Ｄの数及び完全に接続されたグループＧの数に依存する。所与のＤに対して、順序はＤ*２^Dに近い。明らかに、最悪の場合の順序は、例示の１６−プロセッサシステムに対して試みるには大き過ぎるが、これは、Ｄの値が非常に小さい場合には小さい。実際には、もしあったとしても、切断は非常に少ないと予想される。好ましい実施例では、Ｎ（稼働中のノード数）もしくはＤ（稼働中のノード間の切断数）のどちらか一方が、例えば８よりも小さい場合には、グループのリスティングの上記プロセスが使用される。これは、生成され、調べられるグループ数を２５６までに制限する。しかしながら、切断及び完全に接続されたサブグループの数が大きい（例えば８よりも大きい）場合には、前グループのリスティングのプロセスは、割込みコンテキスト中で実行するには時間がかかり過ぎる。切断はまれな多重の障害から生じるので、多数の切断にも関わらず、サブ−最適グループを残存グループとして選択することは受入れ可能である。従って、Ｎ及びＤの両方が、例えば８よりも大きい場合には、タイブレーカ一は、１つの完全に接続されたサブグループを無作為にもしくは他の簡単な方法で選択する。＄システムプロセッサはクリティカルなリソースと考えられ、タイブレーカーは、＄システムプロセッサの内の１つを含む１グループを選択することを試みる。もし、主＄システムプロセスを実行するプロセッサが正常であるならば、タイブレーカーは、そのプロセッサを含む１グループを選択する。しかしながら、もし、主＄システムプロセスを実行するプロセッサが止まってしまっているが、バックアップ＄システムプロセスを実行するプロセッサが稼動しているならば、後者のプロセッサを含む１グループが選択される。もし、どちらの＄システムプロセッサも止まっているならば、タイブレーカーは、それ自体を含む１グループを選択する。上述の選択は以下のように進行する。１．選択されたプロセッサを含む１グループから始めよ。もし、正常ならば、主＄システムプロセッサを選択せよ。もし、主＄システムプロセッサが止まっているが、バックアップ＄システムプロセッサが正常ならば、バックアップ＄システムプロセッサを選択せよ。さもなければ、タイブレーカーを選択せよ。２．各々の稼働中のプロセッサを調べよ。もし、それが現グループの全ての構成要素に接続されているならば、そのプロセッサをグループに加えよ。（このプロセスは、先に調べられたプロセッサに、より高いプライオリティを与える。何故ならば、それらは、そのグループに加えられるプロセッサに対する接続性を有する必要が殆どないからである。）３．全プロセッサが調べられたら、そのグループは完成である。このグループは、この再グループ化事件から残存する。そして、タイブレーカーは再グループ化オペレーションの次のステージ（ステージIII）に入る。 -- ステージIII タイブレーカーがステージIIIに入る場合、ノード枝刈りプロトコルに従って、それは、更に、再グループ化メッセージ枝刈り結果変数を、残存するように選択されたグループにセットする。それから、タイブレーカーは、全ての他のプロセッサ＃＿１１２にその枝刈り結果変数を送ることによって、それがステージII Iに入ったことをそれらのプロセッサに通知する。ステージIIIでは、各々のプロセッサ＃＿１１２は、それがステージIIIにあることを全プロセッサ（取り除かれたものを含む）に通知し、タイブレーカーの枝刈り決定を中継する。もし、プロセッサ＃＿１１２が、それ自体が取り除かれたと分かったならば、それがステージIVに入るまで、それは停止しない。全プロセッサ＃＿１１２がタイブレーカーの枝刈り決定を知らされることを保証するために、取り除かれたプロセッサ＃＿１１２は、枝刈り結果の決定の中継に参加する。 -- ステージIV ステージIIIのプロセッサ＃＿１１２は、ステージIIにおいて使用可能であると分かった全プロセッサ＃＿１１２がステージIIIに入ったと判断すると、ステージIVに入る。これは、接続されたグループ中の全プロセッサ＃＿１１２が、枝刈り決定を通知されたことを意味する。そして、プロセッサ＃＿１１２は、新しい残存するグループにコミットできる。それ自体が取り除かれたと分かったプロセッサ＃＿１１２は、取り除かれなかったプロセッサ＃＿１１２がステージIVに入ったと聞くまでステージIIIにとどまる。それから、取り除かれたプロセッサ＃＿１１２は停止する。何故ならば、ステージIVの残存プロセッサ＃＿１１２は、全ての他の残存がステージIVに入ることを確実にできるからである。（そして、もし、ノード枝刈りを実行したタイ−ブレーカープロセッサ＃＿１１２が残存中にないならば、そのプロセッサは停止可能である。現再グループ化オペレーションにおけるタイブレーカーの役割は完了である。）残存しているプロセッサがステージIVに入る時、それは、そのＯＵＴＥＲ＿ＳＣＲＥＥＮ及びＩＮＮＥＲ＿ＳＣＲＥＥＮ＃７３０及び＃７４０をセットして、枝刈り結果を反映し、枝刈り結果変数によって指示されるように最小に番号付けられた残存しているプロセッサ＃＿１１２を、次の再グループ化オペレーションで使用するためのタイブレーカーとして選択し、残存しなかったプロセッサ＃＿１１２に対して出入りする全てのメッセージを一掃する。もし、再グループ化オペレーションがステージIIIで再開されるならば、プロセッサ＃＿１１２は枝刈り結果変数を調べる。もし、プロセッサ＃＿１１２が、それ自体か取り除かれたと分かったならば、それは停止する。もし、いずれかのプロセッサ＃＿１１２が新しい残存するグループにコミットし、ステージIVに入ったならば、取り除かれたプロセッサ＃＿１１２は、再グループ化オペレーションの再開始から残存しない。もし、接続性が非常に劣悪であるならば、取り除かれたプロセッサ（例えばプロセッサ＃＿１１２ｂ）はステージIIIで機能を停止できる。これは、例えば、もし、プロセッサ＃＿１１２ｂが通信できる全プロセッサ＃＿１１２も取り除かれ、プロセッサ＃＿１１２ｂがステージIVに入る前に停止するならば起こり得る。プロセッサ＃＿１１２ｂが、それがある時間が経過した後に進行していないことを検知すると、再グループ化オペレーションが再開する。上述のように、この再開により、プロセッサ＃＿１１２ｂはそれ自体をすぐに強制終了する。取り除かれたプロセッサ＃＿１１２がステージIIIで機能を停止している間に、迅速に、残存しているプロセッサ＃＿１１２は再グループ化を完了し、取り除かれたプロセッサ＃＿１１２が停止していることを示すので、切り離されてしまった取り除かれたプロセッサ＃＿１１２を有するシステムは、スプリット−ブレーン状態を一時的に体験する。しかしながら、これはデータの破損を引き起こさない。何故ならば、これらのプロセッサ＃＿１１２は、再グループ化オペレーションのステージＩからIIIまでの間、全Ｉ／Ｏトラフィックを中断するからである。上述のような事前に存在するステージIIIは、本発明の再グループ化オペレーション中の本ステージIVのリマインダーを成す。ステージＶ及びＶＩ本発明の再編成操作のため、前から存在するステージＩＶ及びＶが、Ｖ及びＶＩに番号を付け替えられる。到達不能プロセッサのマスクの維持もし、プロセッサ＃＿１１２が、他のプロセッサ＃＿１１２へのどの冗長な経路も通過しているパケットがないことを検出すると、それは、他のプロセッサ＃＿１１２に対応する到達不能プロセッサの遮蔽のビットを論理的ＴＲＵＥに設定する。しかし、新しい再編成動作は開始しない。再編成動作は、一般的なＩ／Ｏを一時停止させるので、マルチプロセッサシステムは、そのような再コンフィグレーションを行う、最小の時間だけを費やすべきである。再編成動作は、リンク失敗によるＩａｍＡｌｉｖｅｓの欠如を検出するために十分早めに開始するであろう。到達不能プロセッサの遮蔽は、上述のようにステージＩＩで使用される。その遮蔽はステージＩＩＩまで維持される。再編成がステージＩＩＩにあるとき、いずれかのノード枝刈り(node pruning) は既に発生しており、従って新しいグループは自己刈り捨て(self-pruned)を行った。その遮蔽は検査される。新しいグループがローカルプロセッサ＃＿１１２及び到達不能プロセッサ＃＿１１２の両方を含むならば、再編成動作が再開始される。この複雑そうに見える方法は、リンク失敗が検出されたそれぞれのときに再編成を再開始させるのに好適であるが、それは前者が、再編成パケットの送出のために検出されるものの、実際には再編成動作が開始された前に発生していた複数のリンク失敗により、再編成動作が多くの回数再開始することを防止するからである。好適な実施形態では、再編成が進行するにつれてますます悪化する深刻な連結性(connectivity)の問題だけでなく再編成ソフトウェアのバグも検出するために、再編成動作が一度も完了することなく３回より多く再開始したならば、プロセッサ＃＿１１２は停止する。再編成動作が開始した後にリンクが確立されると、手順へのそれの効果は、その手順がどこまで進行していたかに依存する。リンクが時間内に確立され、連結ブレーカ(tie breaker)がリンクは動作していると判断したなら、そのリンクは ”残存(survive)”する（すなわち、該リンクが接続されたプロセッサ＃＿１１２の１つは、確実な死を免れる）。再編成パケットは両方向に進まなくてはならず、またこの事実は、連結ブレーカがリンクは良好であると判断する前に、連結ブレーカに伝達されなくはならない。再編成動作でリンクの状態の変化が発生するのが非常に遅く、連結ブレーカがそれを検出できない場合は、該リンクはダウンしていると判断され、該リンクに接続されるプロセッサ＃＿１１２の少なくとも１つは殺される。この排除は容認できる。そのため、リンク失敗の結果とは異なり、リンクを確立した結果は再編成とは言えない。再開始再編成動作のステージを進行させるため、プロセッサ＃＿１１２は、それが以前に受けていたプロセッサ＃＿１１２から受ける必要がある。再編成動作が開始した後に、もしプロセッサ＃＿１１２又は通信リンクが作動しなくなった場合は、該プロセッサ＃＿１１２は、ステージＩの後の任意のステージで停止することができる。そのため、タイマ（図示せず）は進行の停止を検出する。プロセッサ＃＿１１２は、それが再編成動作のステージＩＩに入るときにタイマを開始させ、再編成動作が安定したときステージＶＩに入る際に該タイマをクリアする。もし該タイマが、アルゴリズムが終了する前に満了すると、プロセッサ＃＿１１２は再編成動作を再開始する（すなわち、ステージＩに再び入る）。プロセッサ＃＿１１２が新しいグループに入り、他のプロセッサ＃＿１１２が死んでいることを表明した後は、再編成動作が再開したとき、追放されたプロセッサ＃＿１１２が戻ることは許されない。プロセッサ＃＿１１２は、それがステージＩＶに入るとき、新しいグループに入る。ステージＩＩで知られたプロセッサの接続されたグラフ中のすべてのプロセッサ＃＿１１２がステージＩＩＩに入つて、枝刈り結果変数をその関わるグループに設定した後のみに、それは行われる。再編成動作が今開始したなら、すべての枝刈り除外されたプロセッサ＃＿１１２は、枝刈り結果変数がそれらは除外されたことを示すため、それら自身を殺す。連結されたグラフ中にない（ステージＩＩで）プロセッサ＃＿１１２は、ステージＩＩで知られたプロセッサ＃＿１１２の中にないため、グループに加わることはできない。メッセージ消去動作は、アルゴリズムが何回再開始を通過するかに関わらず、正確に遂行されなくてはならない。再編成及びタイマ不全の検出スプリットブレーン回避(split-brain avoidance)及び／又はノード枝刈りプロトコルと、独立して又はそれと共に、複数プロセッサシステムは、タイマ満了がないことを、以下のようにして検出できる。再編成アルゴリズムを走らせているプロセッサ＃＿１１２は、該プロセッサ＃＿１１２がタイマの動作(tick)を受けるまでは、ステージＩを通して前進しない。もしプロセッサが、オペレーティングシステムデータ構造（例えば、時間リスト）にエラーを持ち込んだとしたら、再編成エンジンは、それの周期的動作を受けず、またステージＩより先に前進しないであろう。malatoseプロセッサ＃＿１１２は、それがステージＩに入ったことを示さないため、他のプロセッサはそれがダウンしていることを表明するであろう。ステージＩＩの再編成メッセージ、又はプロセッサが除外されたことを示す有害なパケットを受信すると、その欠陥のあるプロセッサは停止する。スプリットブレーンの回避(split-brain avoidance)及びノード枝刈りシナリオでは、連結性マトリックス(connectivity matrix)は、好適にはＫＮＯＷＮ＿ＳＴＡＧＥ＿ｎ変数＃＿７５０を含む。これらの実施形態では、プロセッサ＃＿１１２は、それがタイマ動作を受けるまでは、それの連結性マトリックスＣを更新しない。訂正されたシナリオ上述の５プロセッサ及び２プロセッサシナリオへの本発明の適応が以下に記載される。図２は、５プロセッサマルチプロセッサシステム２００を論理的に表現しているグラフ２００である。図２のグラフ２００は、完全に接続されている。システム２００を図４のグラフ４００に分ける通信障害か発生すると、各プロセッサ１１２は、上述のスプリット−ブレイン回避方法論を適用する。例えば、プロセッサ２は、例えば、プロセッサ３からのＩａｍＡｌｉｖｅ（私は生きている）メッセージを受け取ることに失敗したことに気づく場合がある。すると、プロセッサ２は再グループオプレーションを開始する。この再グループオペレーションのステージＩにおいて、プロセッサ２は、内部タイマーを始動し、その連結性マトリッククＣをリセットし、Ｉ／Ｏ動作を中断する。次に、プロセッサ２は再グループメッセージを送り、再グループメッセージを受信し且つ比較し、よって、その連結性マトリックスＣを更新する。プロセッサ２は、プロセッサ１及び５からの再グループメッセージを受信する。これらの再グループメッセージはプロセッサ３及び４の存在を示す。適当な制限時間に到達すると、プロセッサ２はステージＩＩに進む。ステージＩＩにおいて、完了した直前の再グループオペレーションの終了時にプロセッサ１が最小番号プロセッサ１１２であったという理由から、プロセッサ２はプロセッサ１をタイブレーカー（ｔｉｅ−ｂｒｅａｋｅｒ）プロセッサ１１２に選択する。プロセッサ２は次にスプリット−ブレイン回避方法論を適用する。プロセッサ２は、それが属するプロセッサ１１２のグループが、この再グループオペレーションが始まる以前に存在したプロセッサの半分以上を有することを認識する。従って、プロセッサ２はオペレーションを続行する。実際、そのグループは、システム４００内のプロセッサ１−５の５つ全てを有する。プロセッサ１−５の５つ全てがこの時点でオペレーションを続行する。プロセッサ１−５の５つ全てがプロセッサ１をタイブレーカーに選択する。このタイブレーカープロセッサ１は、再グループメッセージを送るために合理的な時間が経過する迄、又は連結性マトリックＣが全ての経路が切断していることを示すまで、ステージＩＩで待機する。ここで、仮定として、全ての経路が切断していなく、タイブレーカープロセッサ１が合理的な時間ステージＩＩで待機するとする。次に、このプロセッサ１は、ノード枝刈り方法諭を用いて、再グループオペレーションに生き残るために、プロセッサ１１２の最終グループを決定する。次に、プロセッサ１は、この決定を反映するノード枝刈り結果変数セットを有するステージＩＩＩ再グループメッセージで前記決定を分配する。プロセッサ２−５は、枝刈り結果変数セットを有するこの再グループメッセージを受信するまでステージＩＩで待機する。メモリ駐在連結性マトリックスＣを入力として使用して、タイブレーカーは、全ての停止プロセッサの組を計算する。この組は、ヌルセットである。マトリックスＣの正準形式への変換は、このマトリックスを不変に保つ。タイブレーカーは、切断の組を｛（２，３）、（２，４）、（３，２）、（４，２）｝であり、Ｄ＝４であると算出し、これらの切断を生きているプロセッサ｛１，２，３，４，５｝の組に適用する。従って、完全に接続したサブグラフの最大の数は２である。生き残りの基準に依存して、２つのグループの何れかが生き残ることができる。この基準が最大のグループであれば、タイブレーカーは生き残りのためにグループ｛１，３，４，５｝を選択する。この基準が最小番号のプロセッサであれば、（例えば、タイブレーカーを選ぶのに使用された前の基準により、又は一つのグループをランダムに選択することにより）何れかのグループが生き残ることができる。プロセッサ２が最高優先順位プロセスを実行する場合、タイブレーカーは生き残りのためのグループ｛１，２，５｝を選択することがてきる。これらは、上述された関連特許出願に開示される基準の幾つかの単に幾つかの例であるか、又は当分野で良く知られている。グループ｛１，３，４，５｝が生き残ると仮定する。タイブレーカープロセッサは、それが送り出す次の再グループメッセージ内のノード枝刈り変数をセットすることによりこの決定を通信する。このメッセージの送りは、タイブレークがステージＩＩＩにあることを示す。メッセージの受信は（直接的又は間接的に）他のプロセッサ２−５をステージＩＩＩに同様に入れる。ステージＩＩＩ内の全てのプロセッサ２−５の枝刈り結果変数は、同じ値を保持し、プロセッサ１，３，４及び５がオペレーションを続行すべきであり、プロセッサは２はオペレーションを停止すべきであることを示す。プロセッサ１− ５の各々は、それぞれが発生する再グループメッセージ内でこの枝刈り結果を中継する。プロセッサ１−５の各々は、ステージＩＩで、各プロセッサに知られているプロセッサ１１２の全てがステージＩＩＩに入ったことを示す再グループメッセージを集め、次に、プロセッサはステージＩＶに入り、枝刈り結果に到達する。このステージで、プロセッサ２はオペレーションを停止する。再グループオペレーションは完了するまで続行する。プロセッサ１，３，４及び５の最大の完全に接続されたグループは、新たに再構成されたシステムとして、オペレーションを続行する。図３は、２プロセッサマルチプロセッサシステム３００を論理的に表現しているグラフ３００である。図３のグラフ３００は、完全に接続されている。システム３００を図５のグラフ５００に分ける通信障害か発生すると、各プロセッサ１１２は、他のコンピュータに、到達可能なプロセッサのマスク内に到達不可能であるとマークして、上述のスプリット−ブレイン回避方法論を適用する。例えば、プロセッサ１は、例えば、プロセッサ２からのＩａｍＡｌｉｖｅ（私は生きている）メッセージを受け取ることに失敗したことに気づく場合がある。すると、プロセッサ１は再グループオプレーションを開始する。この再グループオペレーシヨンのステージＩにおいて、プロセッサ１は、内部タイマーを始動し、その連結性マトリッククＣをリセットし、Ｉ／Ｏ動作を中断する。次に、プロセッサ１は再グループメッセージを送り、再グループメッセージを受信し且つ比較し、よって、その連結性マトリックスＣを更新する。このシナリオにおいて、しかしながら、プロセッサ１はこの様な再グループメッセージを受信しない。適当な制限時間が経過した時に（且つプロセッサ１自体がオペレーションを続行するのに十分なリソースを有し、適当な場合）、プロセッサ１は、ステージＩＩに進む。ステージＩＩにおいて、完了した直前の再グループオペレーションの終了時にプロセッサ１が最小番号プロセッサ１１２であったという理由から、プロセッサ１はプロセッサ１自身をタイブレーカー（ｔｉｅ−ｂｒｅａｋｅｒ）プロセッサ１１２に選択する。プロセッサ１は、その後、スプリットブレイン回避方法論を適用する。プロセッサ１は、それがその一部であるプロセッサ＃＿１１２のグループが、リグループオペレーションが始まる前に存在していたプロセッサ＃＿１１２の１／２よりも大きくもなく小さくもないことを認識する。そのグループは、前に存在していたプロセッサ＃＿１１２の正確に１／２であり、そのプロセッサは、それ自体がオペレーションを続行するための決定点としてのタイブレーカプロセッサ＃＿１１２である事実を使用する。タイブレーカでなければ、プロセッサ２は、タイブレーカプロセッサ１の状態をチェックするように試みる（或る実施例では、サービスプロセッサを使用して）タイプレーカの状態が決定される場合には、プロセッサ２がタイブレーカが健全であることを認識する。プロセッサ２は、停止する。タイブレーカプロセッサ１の状態が決定されない場合には、プロセッサ２がアンリーチャブルプロセッサのマスクをチェックする。タイブレーカがアンリーチャブルとマークされることに留意して、プロセッサ２はタイブレーカが健全に停止したと仮定する。そこで、タイブレーカプロセッサ１は、プロセッサが停止している間オペレーションを続行する。プロセッサ１は、それ自身をタイブレーカプロセッサ＃＿１１２として選択し適当な時間が経過するまでステージIIに留まる。（プロセッサ２は、通信故障が発生しプロセッサが停止したときにRegroupメッセージを送ることができないし実際送らない。）プロセッサ１は、枝刈りプロセスを適用し、リグープオペレーション後も生き残るプロセッサ＃＿１１２のグループを決定する。メモリレジデント連結性マトリックスＣを入力として使用することにより、タイブレーカは、全ての死んだプロセッサのセット｛２｝を計算し、そのマトリックスＣをカノニカルフォームに変換する。この変換は、プロセッサ１だけを含む１×１マトリックスを残す。タイブレーカは、切断のセットをD＝２の場合、セット｛（１、２）、（２、１）｝として計算する。しかしながら、生きているプロセッサ｛１｝のセットは、プロセッサ２を含まないので、そのセットにこれらの切断を適用するのは何の効果もない。最大限の完全に接続されたグラフの数は１であり、タイブレーカは、それだけか生き残るであろうことを示すその枝刈り結果変数をセットする。タイブレーカは、この結果をその後続のRegroupメッセージで通信し、したがって、Sta geIIIおよびIVを通過する。システム＃＿５００はリグループオペレーションを完了し、プロセッサ１だけを実行しながらオペレーションを続行する。最後に、再び論理マルチ−プロセッサシステム＃＿２００について考えよう。今、プロセッサ２は、その時間リストの破損を経験し、タイマー満了割り込みを受け取ることに失敗し、必要なIamAliveメッセージを送る能力を失っている。失われたIamAliveメッセージを他のプロセッサ１または３〜５のいずれかにより検出することにより、リグループオペレーションが開始される。上記したようなリグループオペレーションのStageＩでは、本発明の一実施例に従って動作するプロセッサ１〜５は、それぞれ、タイマー満了割り込みを受け取るまでそれぞれのStageＩRegroupメッセージを送ることを控える。従って、プロセッサ１及び３〜５は、StageＩRegroupメッセージを容易に送り続ける。仮説により、プロセッサ２はタイマー割り込みを受け取らず、従って、Stage ＩRegroupメッセージを決して送らない。他のプロセッサ１及び３〜５は、それらのそれぞれのKNOWN＿STAGE＿１変数＃＿７５０ａ（及び／又はそれらのそれぞれの連結性マトリックスＣ）を更新し、プロセッサ１及び３〜５の健全性及びプロセッサ２の明らかな死を表示する。或る所定時間だけプロセッサ２を待った後、プロセッサ１及び３〜５はStageIIへ進む。 StageIIでは、プロセッサ１及び３〜５は、今、StageIIRegroupメッセージを通信している。プロセッサ１及び３〜５は、健全であり、プロセッサ２は、依然としてマラトス（malatose）であり、StageIIRegroupメッセージは、最終的にこの状態を表す。KNOWN＿STAGE＿２変数＃＿７５０ｂは、KNOWN＿STAGE＿１変数＃＿７５０ａに等しくなる。仮定により、プロセッサ２は依然としてプロセッサ１及び３〜５からRegroup メッセージを受け取っている。それは、最終的に、KNOWN＿STAGE＿１及び＿２変数＃＿７５０ａ、＃＿７５０ｂが等しく、プロセッサ２を除外するStageIIRegro upメッセージを受け取る。プロセッサ２はこのタイプのStageIIRegroupメッセージを通知して停止する。プロセッサ１及び３〜５はリグループオペレーションの残りに進み、システム N＿２００’を形成する。今、システムＮ＿２００を周期的に混乱させるプロセッサ２から失われたIamAlivesの代わりに、システムN＿２００’はプロセッサ２を共に除外する。（また、プロセッサ２は死んでおり、従って無害である。）もちろん、ここで開示した発明を組み込んだソフトウェアのプログラムテキストは、磁気的、光学的または他のディスク；ＲＯＭ、ＲＡＭＮ又は別の集積回路；磁気テープ、又は別のデータ記憶媒体に、その静的な形態で存在してもよい。そのデータ記憶媒体は、コンピユータシステムと一体であってもよいし挿入可能であってもよい。

───────────────────────────────────────────────────── フロントページの続き (72)発明者バサヴァイアームラリーアメリカ合衆国カリフォルニア州 94086 サニーヴェイルイーストエヴリンアベニュー 825―＃216 (72)発明者クリシュナクマーカルールエスアメリカ合衆国カリフォルニア州 95111 サンホセイーストブラーナムレーン 341 (72)発明者マーティースリニヴァサディーアメリカ合衆国カリフォルニア州 95131 サンホセゴールデンレイクロード 1410

Claims

【特許請求の範囲】１．複数のプロセッサを有している多重プロセッサシステムにおいて、各前記複数のプロセッサは、それぞれメモリを有しており、前記多重プロセッサシステムにおけるプロセッサメンバーシップに分散的に同意する方法であって、前記複数のプロセッサを通信的に接続し；次いで通信故障を検出し；次いで前記複数のプロセッサのいずれがまだ動作しておりかつまだ通信的に接続されているかをまだ動作している該複数のプロセッサのそれぞれで第1に決定することを試みて、前記多重プロセッサシステムの前記各プロセッサのそれぞれのビューを決定し；次いでまだ動作している前記各プロセッサが動作を継続するか又は動作を停止するかをまだ動作している前記各プロセッサで第２に決定し、前記第２の決定は、前記多重プロセッサシステムの前記各プロセッサのそれぞれのビューに基づくものであり；次いで前記第2の決定により前記各プロセッサの動作を継続又は停止し；前記複数のプロセッサの第1のプロセッサの連結性情報を収集し；かつ次いで収集した前記連結性情報に基づいて、動作を打ち切るべく前記複数のプロセッサのあるものを前記第1のプロセッサで選択する段階を具備することを特徴とする方法。２．複数のプロセッサを有している多重プロセッサシステムにおいて、各前記複数のプロセッサは、それぞれメモリを有しており、前記多重プロセッサシステムにおけるプロセッサメンバーシップに分散的に同意する方法であって、前記複数のプロセッサを通信的に接続し；次いで通信故障を検出し；次いで前記複数のプロセッサのいずれがまだ動作しておりかつまだ通信的に接続されているかをまだ動作している該複数のプロセッサのそれぞれで第１に決定することを試みて、前記各プロセッサを第1から第2のステージへのそれぞれの進行を含んでいる方法の対象とし、前記各プロセッサを前記第1のステージに最初に配置することを含んでいる、前記多重プロセッサシステムの前記各プロセッサのそれぞれのビューを決定し；次いで前記複数のプロセッサの一つのプロセッサの進行の状態を送り；前記一つのプロセッサの前記進行の状態を前記複数のプロセッサの第2のプロセッサで受け取り；前記受け取りの後、時間満了の通知が前記第2のプロセッサで発生したならば当該第2のプロセッサの状態を更新し；その状態が更新された各プロセッサを前記第2のステージにそれぞれ進行させ；前記第2のプロセッサが前記第1のステージから進行することに失敗した場合にタイマの時間満了が前記第2のプロセッサで故障したことそれゆえに前記第2 のプロセッサが動作することを効果的に打ち切ったことを決定し；かつ次いでまだ動作している前記各プロセッサが動作を継続するか又は動作を停止するかをまだ動作している前記各プロセッサで第２に決定し、前記第2の決定は、前記多重プロセッサシステムの前記各プロセッサのそれぞれのビューに基づくものであり；次いで前記第2の決定により前記各プロセッサにおける動作を継続又は停止する段階を具備することを特徴とする方法。３．複数のプロセッサを有している多重プロセッサシステムにおいて、各前記複数のプロセッサは、それぞれメモリを有しており、前記多重プロセッサシステムにおけるプロセッサメンバーシップに分散的に同意する方法であって、前記複数のプロセッサを通信的に接続し；前記複数のプロセッサのそれぞれを第1から第2のステージへのそれぞれの進行を含んでいる方法の対象とし、前記各プロセッサを前記第1のステージに最初に配置し；前記複数のプロセッサの第1のプロセッサの進行の状態を送り；前記第1のプロセッサの前記進行の状態を前記複数のプロセッサの第2のプロセッサで受け取り；前記受け取りの後、時間満了の通知が前記第2のプロセッサで発生したならば当該第2のプロセッサの状態を更新し；その状態が更新された各プロセッサを前記第2のステージにそれぞれ進行させ；前記第2のプロセッサが前記第1のステージから進行することに失敗した場合に連結性情報を送ることを失敗しかつ前記第2のプロセッサが動作することを効果的に打ち切ったことを決定し；前記複数のプロセッサの第３のプロセッサの連結性情報を収集し；かつ収集した前記連結性情報に基づいて、動作を打ち切るべく前記複数のプロセッサのあるものを前記第３のプロセッサで選択する段階を具備することを特徴とする方法。４．複数のプロセッサを有している多重プロセッサシステムにおいて、各前記複数のプロセッサは、それぞれメモリを有しており、前記多重プロセッサシステムにおけるプロセッサメンバーシップに分散的に同意する方法であって、前記複数のプロセッサを通信的に接続し；次いで通信故障を検出し；次いで前記複数のプロセッサのいずれがまだ動作しておりかつまだ通信的に接続されているかをまだ動作している該複数のプロセッサのそれぞれで第1に決定することを試みて、前記各プロセッサを第1から第2のステージへのそれぞれの進行を含んでいる方法の対象とすること、前記各プロセッサを前記第1のステージに最初に配置することを含んでいる、前記多重プロセッサシステムの前記各プロセッサのそれぞれのビューを決定し、；次いで前記複数のプロセッサの一つのプロセッサの進行の状態を送り；前記一つのプロセッサの前記進行の状態を前記複数のプロセッサの第2のプロセッサで受け取り；前記受け取りの後、時間満了の通知が前記第2のプロセッサで発生したならば当該第2のプロセッサの状態を更新し；その状態が更新された各プロセッサを前記第2のステージにそれぞれ進行させ；前記第2のプロセッサが前記第1のステージから進行することに失敗した場合にタイマの時間満了が前記第2のプロセッサで故障したことそれゆえに前記第2のプロセッサが動作することを効果的に打ち切ったことを決定し；かつ次いでまだ動作している前記各プロセッサが動作を継続するか又は動作を停止するかをまだ動作している前記各プロセッサで第２に決定し、前記第2の決定は、前記多重プロセッサシステムの前記各プロセッサのそれぞれのビューに基づくものであり；次いで前記第2の決定により前記各プロセッサにおける動作を継続又は停止し；前記複数のプロセッサの第３のプロセッサの連結性情報を収集し；かつ収集した前記連結性情報に基づいて、動作を打ち切るべく前記複数のプロセッサのあるものを前記第３のプロセッサで選択する段階を具備することを特徴とする方法。