JPH1078944A

JPH1078944A - 分散コンピュータ環境におけるプロセッサ・ドメインのメンバー管理方法及び装置

Info

Publication number: JPH1078944A
Application number: JP9182167A
Authority: JP
Inventors: Richard Badobinatsutsu Peter; ピーター・リチャード・バドビナッツ; Bart Brenner Larry; ラリー・バート・ブレンナー; Deipaku Chandora Tsushaaru; ツシャール・ディパク・チャンドラ; Theodore Kilby Oobaru; オーバル・テオドール・キルビー; Arthur Pershing John Jr; ジョン・アーサー・パーシング、ジュニア
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1996-07-23
Filing date: 1997-07-08
Publication date: 1998-03-24
Anticipated expiration: 2017-07-08
Also published as: US5896503A; JP3554472B2

Abstract

(57)【要約】【課題】分散コンピュータ環境におけるプロセッサ・
ドメインのメンバーを管理する方法を提供する。【解決手段】ドメイン内の使用可能な最小番号ノード
を決定し、そのノードへ他のノードから追従メッセージ
を周期的に送信する。全ての追従メッセージを受信した
ならば、最小番号ノードが２段階コミットを実行するこ
とによりそのドメイン内のプロセッサを管理するネーム
・サーバとなる。２段階コミットは、最小番号ノードか
ら他のノードへ第１段階(Ｐ１)挿入メッセージを送信
し、それに応答して他のノードから最小番号ノードへ肯
定(ＡＣＫ)メッセージが送信される。肯定メッセージに
対して、最小番号ノードがネーム・サーバとなったこと
を通知するコミット・メッセージが他のノードへ送信さ
れる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、分散コンピュータ
環境に関し、特に、分散コンピュータ環境における１又
は複数のプロセッサからなるドメインのメンバーを管理
することに関する。

【０００２】

【従来の技術】分散コンピュータ環境におけるコンピュ
ータは、並行にデータを処理する複数のコンピュータ・
ノードを含む。このようなシステムの多くは、これらの
ノードを複数の区画へと組織化することができ、各区画
が１又は複数のドメインを有する。各ドメインは、異な
るコンピュータ・プログラムを同時に実行することがで
きる。これらのシステムの多くにおいては、１つのノー
ドが各ドメインを制御する。各ノードがラインに加わる
か若しくは立ち上がることにより使用可能となると、そ
のノードはドメインへ割り当てられなければならず、そ
してそのドメイン内の他のノードはその新しいノードを
認知しなければならない。それにより、その区画内で実
行中のプログラムのタスクを共有することができる。こ
のことは、所与のシステムにおいては、各ノードがその
システム内の他の各ノードへメッセージを送っていずれ
のノードがそのドメインを制御しているかそしていずれ
のタスクがいずれのノードへ割り当てられているか等の
情報を判断することにより行われる。

【０００３】利用度の高いアプリケーションにおいて、
故障したノードを回復させる回復プロセスのある場合、
回復しようとしているその故障したノードは、初めてラ
インに加わる（作動中となる）新しいノードと同じ情報
を見出すことが必要となる。さらに、その故障したノー
ドがそのドメインを制御するノードである場合には、区
画内においてそのドメインの制御を代わりに行う新しい
ノードを指示する必要もある。多くの場合、各ノードか
らそのドメイン内の他の各ノードへメッセージを送り、
いずれのノードが未だ使用可能であるかを判断して新し
い制御ノードを割り当てることにより行われる。このよ
うな方式によると結果的に、ノードが新たに加わったり
回復されたりする毎に大量のメッセージ・トラフィック
が送られることとなる。

【０００４】

【発明が解決しようとする課題】本発明の目的は、ノー
ドが初めてライン上に加わる際にドメイン内の全てのノ
ードについてのネーム・サーバ・ノードを構築すること
である。

【０００５】本発明の更なる目的は、ノードがフリッカ
ーを生じているとき、そのノードが立ち上がろうとする
のか若しくは停止しようとするのかを確認するプロトコ
ルを提供することである。

【０００６】本発明の更なる目的は、古いネーム・サー
バ・ノードが故障しまたは停止してしまったとき、新し
いネーム・サーバ・ノードを選択することができるよう
な回復のプロトコルを提供することである。

【０００７】

【課題を解決するための手段】本発明は、ドメインに参
加しようとする新しいノードが、新しいノードの参加を
制御するネーム・サーバ・ノードに対してメッセージを
送るのみでよいようなＰＲＯＣＬＡＩＭプロトコルを提
供する。

【０００８】本発明は、既に参加しているノードと新し
いノードとの間でのみ送られるメッセージによりその新
しいノードがネーム・サーバとなることができるＰＲＯ
ＣＬＡＩＭプロトコルを提供する。

【０００９】本発明は、停止すると報告されたノードが
実際に停止するのか否か、又は停止しそうに見えるだけ
なのか否かを確認するＦＬＩＣＫＥＲプロトコルを提供
する。

【００１０】本発明は、故障したノードの回復を実行す
るために、ネーム・サーバ・ノードへメッセージを送る
のみでよいＲＥＣＯＶＥＲプロトコルを提供する。

【００１１】本発明は、古いネーム・サーバが故障した
ときに新しいネーム・サーバを決定でき、その際、ＲＥ
ＣＯＶＥＲプロトコルが新しいネーム・サーバとそのド
メイン内の他のノードとの間でメッセージを送るのみで
よいようなＲＥＣＯＶＥＲプロトコルを提供する。

【００１２】本発明は、ＲＩＣＯＶＥＲプロトコルが完
了する前に古いネーム・サーバが使用可能となった場合
に、回復プロセスを終了させて古いネーム・サーバがそ
の役割を復活できるようなＲＥＣＯＶＥＲプロトコルを
提供する。

【００１３】本発明における上記及び他の目的、特徴並
びに利点は、図面に示された本発明の好適な実施例のよ
り詳細な説明により明らかとされるであろう。

【００１４】

【発明の実施の形態】図１は、本発明により使用可能な
分散コンピュータ・システム１００の概略的構成図であ
る。分散コンピュータ・システム１００としては、Inte
rnational Business Machines Corporationから市販さ
れているIBM RISC System/6000 Scalable POWERparalle
l System（ＳＰ）分散コンピュータ・システムがある。
図１に開示された実施例は、全部で８フレームを有する
ＳＰコンピュータであり、各フレームが１６個までのノ
ードを有し、全部で１２８のノードが可能である。全て
のノード１０６は、ローカル・エリア・ネットワーク
（ＬＡＮ）１０２により結合される。当業者には周知の
通り、各ノード１０６はコンピュータそのものであり、
RISC System/6000ワークステーションとすることができ
る。

【００１５】ＳＰコンピュータ１００のフレーム内の全
てのノードはＬＡＮセグメントに含まれ、ＬＡＮセグメ
ントは、ＬＡＮゲート１０４を介して他のＬＡＮセグメ
ントと結合される。さらに、ＬＡＮ１０２には制御ワー
クステーション（ＣＷＳ）１１２が接続され、これは、
ＳＰコンピュータのオペレーションを制御する。制御ワ
ークステーションは、直接アクセス記憶装置（ＤＡＳ
Ｄ）１１４を有し、ここにシステム・データ・リポジト
リー・ファイル（ＳＤＲ）が記憶される。ＳＤＲファイ
ルは、システム内のノードのリスト及びそれらの設定等
の情報を含む。各ノード１０６もまた、ＳＰコンピュー
タ１００により処理されたデータを記憶するＤＡＳＤ装
置１０７を含む。

【００１６】一実施例においては、各フレーム内のノー
ドがさらに、IBM Scalable POWERparallel switch（Ｓ
ＰＳ）１０５へ接続される。各フレームのＳＰＳスイッ
チ１０５の各々は、バス１１０により他のフレームの隣
のＳＰＳスイッチ１０５へ接続される。

【００１７】周知の通り、ＣＷＳノード１１２が、ＬＡ
Ｎ１０２を用いてノード１０６へメッセージ及びデータ
を送る一方、ノード１０６は、ＳＰスイッチ１０５を用
いて互いにメッセージ及びデータを送ることができる。

【００１８】ＳＰコンピュータ・システムの各ノード１
０６及びＣＷＳ１１２は、米国特許第０８／６４０４１
２号「A Method for Managing Membership of a Group
of Processors in a Distributed Computing Environme
nt」に記載されたグループ・サービス・デーモンを含
む。各ノード１０６は、ソフトウェア若しくはハードウ
ェア、又はこれらの組合せによるものを含んでおり、い
ずれのノードが立ち上がり使用可能となったかを他の全
てのノードに対して報告する。いずれかのノード１０６
が故障した場合、ハートビート機能として知られるプロ
セスによりその識別が他のノードへ知らされる。周知の
通り、ＳＰコンピュータ・システム１００のノード１０
６は、複数の区画へ分けることができる。

【００１９】図２は、ノード１０６の区画２００を示す
構成図である。区画２００は、さらに１又は複数のドメ
インへと小さく分けられる。例えば、図２の区画２００
は、４個のドメイン２０１Ａ〜２０１Ｄへと分けられて
いる。各ドメイン２０１は、ネーム・サーバ２０２を含
む。例えば、図２の例では、ドメイン２０１Ａ〜２０１
Ｄが各々ネーム・サーバ（ＮＳ）２０２Ａ〜２０２Ｄを
有している。ドメイン２０１内のノードは、１又は複数
のグループのメンバーとなることができ、各グループは
グループ・リーダー（ＧＬ）により支援される。例え
ば、ドメイン２０１Ａ内のノードは、３つのグループの
メンバーであり、各グループはグループ・リーダー２０
４、２０５及び２０６により支援される。ドメイン２０
１Ｂ内のノードは、２つのグループのメンバーであり、
各グループはグループ・リーダー２０８及び２０９によ
り支援される。同様に、ドメイン２０１Ｃ内のノード
は、４つのグループのメンバーであり、各グループはグ
ループ・リーダー２１０、２１１、２１２及び２１３に
より支援される。ドメイン２０１Ｄ内のノードは、１つ
のグループのメンバーであり、このグループはグループ
・リーダー２１５により支援される。ネーム・サーバの
主な機能は、そのドメイン内のグループに加わろうとす
る各ノードをそのグループのグループ・リーダー（Ｇ
Ｌ）へ知らせ、そしてグループ・ネームがそのドメイン
内で固有であるように保証することである。プロセッサ
のグループのメンバーを管理すること及びグループ・リ
ーダーの機能は、前述の米国特許出願第０８／６４０４
１２号に詳細に開示されている。あるグループに参加し
ようとしているノードをそのグループのグループ・リー
ダーに教えるために必要な情報は、そのドメイン内のグ
ループのために各ネーム・サーバにより保持されるテー
ブルＴに記憶されている。テーブルＴ及びそのエントリ
については、米国特許出願第０８／６８４２４６号「MA
NAGING GROUP EVENTS BYA NAME SERVER FOR A GROUP OF
PROCESSORS IN A DISTRIBUTED COMPUTING ENVIRONMEN
T」に開示されている。

【００２０】本発明の目的の中に、ドメインへ新しいノ
ードを追加し、ノードが故障したときドメインからその
ノードを取り除き、そしてそのネーム・サーバ・ノード
が故障したときドメインを回復させることがある。本発
明におけるネーム・サーバの機能は、次の通りである。１．新しいノードがネーム・サーバ・ノードを識別でき
るように、全ての新しいノードに対して宣言する。２．ノードが故障した場合、米国特許出願第０８／６４
０４１２号に記載のグループからノードを取り除く方法
と同様に、その故障したノードをドメインから削除す
る。３．新しいノードから追従メッセージを収集した後、ド
メインへ追従するノードを挿入する。

【００２１】一実施例においては、ドメインが互いを見
出すと、小さい方のドメインのネーム・サーバ（あるい
は、大きさが同じ場合は、より大きい番号のネーム・サ
ーバ）が自分のドメインを解散する。その結果、全ての
ノードが他のドメインに加わることとなる。

【００２２】図３は、新ノードがドメインに追加される
場合のＰＲＯＣＬＡＩＭプロトコルのプロトコル状態図
である。各ノード１０６は、ただ１つのドメインに追加
される。以下の説明においては、簡単とするためにただ
１つのドメインについて説明する。新ノードが最初に使
用可能となるとき、未確定状態３０１に入る。その後、
新ノードはそのローカル・ハートビート機能を調べるこ
とにより、最小番号のノード（ＬＮＮ）であるか否かを
判断する。本発明では、ドメイン内の最小番号ノードに
対してネーム・サーバを割り当てるようにしている。

【００２３】新ノードが最小番号のノードである場合、
アセンド(ascend)状態３０２へ移行する。アセンド状態
にあるノードが、より小さい番号をもつ新ノードが使用
可能となったことを見出した場合、このノードは、自分
が最小番号のノードではないことを認識し、矢印３０３
に示すように未確定状態３０１へ戻る。アセンド状態に
あるノードが、このドメインには既にネーム・サーバ・
ノードが存在することを示すＰＲＯＣＬＡＩＭメッセー
ジを受信した場合、このノードは挿入保留状態３０５へ
移行する。この状態３０５については後述する。アセン
ド状態３０２にあるノードが使用可能な他の全てのノー
ドから追従メッセージを受信した場合、後述するよう
に、このコードはアセンディング(ascending)状態３０
６に移行する。アセンディング状態３０６にあるとき、
ノードは、そのノードに追従した他の全てのノードに対
して第１段階(Ｐ１)挿入メッセージを送る。ドメインへ
の新ノードの挿入は、グループへのノードの挿入と同じ
であり、上記の米国特許出願第０８／６４０４１２号に
開示されている。

【００２４】他のノードの各々が第１段階挿入メッセー
ジを受信すると、各ノードはそのアクションに同意する
ことを示す肯定(ＡＣＫ)メッセージにより応答するか、
又は、そのアクションに同意しないことを示す否定（Ｎ
ＡＣＫ）メッセージにより応答する。ノードがネーム・
サーバであるときは、ＮＡＣＫメッセージを送ることが
できる。アセンディング状態３０６にあるノードが、自
分が最小番号のノードでないことを認識した場合又はＮ
ＡＣＫメッセージを受信した場合、他のノードに対して
挿入プロセスを中止することを示す中止メッセージを同
報通信し、そして矢印３０７を経て未確定状態３０１へ
戻る。アセンディング状態３０６にあるノードが、ネー
ム・サーバ・ノードからＰＲＯＣＬＡＩＭメッセージを
受信した場合、そのノードは中止メッセージを同報通信
し、矢印３０９を経て挿入保留状態３０５へ移行する。

【００２５】アセンディング状態３０６にあるノード
が、他の全てのノードから肯定メッセージを受信した場
合、自分が現在ネーム・サーバであることを示すコミッ
ト(commit)・メッセージを他の全てのノードに対して送
信し、ネーム・サーバ成立状態３１０へ移行する。この
時点で、ドメインが形成されたことになり、全てのドメ
イン・ノードが確定状態３１７又は状態３１０にある。
そして、全てのノードが、いずれのノードがネーム・サ
ーバであるかを認知している。

【００２６】未確定状態３０１において、新ノードが、
自分が最小番号ではないと判断した場合、矢印３１３を
経て追従状態３１２へと移行する。追従状態３１２にあ
るノードは、最小番号ノードに対して周期的に追従メッ
セージを送信する。最小番号ノードに対するこの追従メ
ッセージは、新ノードがそのドメインに参加しようとし
ていることを示しかつ新ノードがそのノードを最小番号
ノードとして認識していることを示す。最小番号ノード
が既にそのドメインのメンバーでありかつ別のノードを
ネーム・サーバとして認識している場合、最小番号ノー
ドは、いずれがネーム・サーバであるかを示すマイリー
ダー(ＭＬＩ)・メッセージをその新ノードに対して送り
返す。ＭＬＩメッセージによりネーム・サーバとして識
別されたノードは、みなし(reputed)ネーム・サーバ(Ｒ
ＮＳ)として認知される。

【００２７】追従状態３１２にある新ノードは、他のノ
ードがネーム・サーバとして設定されていることを示す
ＰＲＯＣＬＡＩＭメッセージを受信することができる。
追従状態３１２にある新ノードが、適切な挿入Ｐ１メッ
セージを受信した場合、矢印３１７を経て挿入状態３１
６へ移行する。挿入状態３１６にある新ノードは、挿入
Ｐ１メッセージを送信しているノードに対して肯定Ｐ１
メッセージを送信する。挿入状態３１６にあるノードが
中止メッセージを受信した場合、新ノードは、矢印３１
９を経て未確定状態３０１へ移行する。挿入状態３１６
にある新ノードが、その肯定Ｐ１メッセージに応答する
コミット・メッセージを受信した場合、新ノードは確定
状態３１７へ移行する。この時点で、新ノードはそのド
メインへ受け入れられ、いずれがネーム・サーバ・ノー
ドであるかを認知している。

【００２８】挿入保留状態３０５にあるとき新ノード
は、みなしネーム・サーバ(ＲＮＳ)・ノードに対して周
期的に追従メッセージを送信する。ＲＭＳノードは、Ｍ
ＬＩメッセージ若しくはＰＲＯＣＬＡＩＭメッセージの
いずれかをより早く受信することにより識別されたノー
ドである。挿入保留状態３０５にあるノードがそのロー
カル・ハートビート機能を介してＲＮＳノードが故障し
たことを発見した場合、新ノードは矢印３２０を経て未
確定状態３０１へ戻る。一方、挿入保留状態３０５にあ
る新ノードが適切なＲＭＳノードから挿入Ｐ１メッセー
ジを受信した場合、前述のように、挿入状態３１６へ移
行して肯定Ｐ１メッセージを送信する。挿入状態３１６
にあるノードが、そのローカル・ハートビート機能を介
してＲＮＳノードが故障したことを発見した場合、後述
するように、そのノードは矢印３３０を経て未確定状態
５０２へ移行する。

【００２９】新ノードが未確定状態３０１へ戻ったなら
ば必然的に、その新ノードが状態３１０においてネーム
・サーバとなるか又は確定状態３１７においてドメイン
へ受け入れられるかするまで、状態から状態へと移行す
るプロセス全体を再び開始することとなる。

【００３０】アセンド状態３０２において、ハートビー
ト機能が他の使用可能なノードを発見できるようにコロ
ナ・タイマー３５０が含まれている。これにより可能な
限り大きな単一ドメインが形成される。コロナ・タイマ
ーは、アセンド状態３０２に入るときセットされる。全
ての使用可能なノードから追従メッセージが受信されか
つアセンド状態３０２においてコロナ・タイマーが時間
切れとなった場合にのみ、発見された使用可能に立ち上
がったノードが立ち上がり使用可能なノードとみなさ
れ、そして前述のように、状態はアセンディング状態３
０６へ続く。コロナ・タイマーは、全ての立ち上がりノ
ードを配置するべく、ＳＰコンピュータ・システム１０
０内の全てのネットワークを探索するために十分な時間
をハートビート機能に対して与える。コロナ・タイマー
が長すぎる場合、サービス・プロバイダ使用グループ
は、それらのサービスをドメインに提供することが不必
要に遅延させられる。従って、双方の関係を満足するた
めに、合理的な中間値が選ばれる。実施例においては、
コロナ・タイマーは２０秒にセットされる。

【００３１】図４は、ＦＬＩＣＫＥＲプロトコルのプロ
トコル状態図を示しており、そこでは、可用性がフリッ
カ方式に起動、停止、再び起動するように、ノードが故
障（停止）し、そして使用可能（起動）となるように見
える。故障のように見える場合、実際に故障しているこ
ともあるし、あるいは、ノードが故障したかのように見
える区画化若しくは一時的ネットワーク状態等の結果で
あるかもしれない。前述のように、ハートビート機能
は、ドメイン内の全てのノードの状態を継続的にモニタ
している。ノードの通常状態すなわち起動状態は、図４
のブロック４０１に示されている。ノードが停止したこ
とをハードビート機能が報告したとき、ノードの状態が
矢印４０９を経てブロック４０２の推定停止状態へ移行
する。続いて、ノードが復帰したことをハートビート機
能が報告したとき、グループ・サービスは、ノードが実
際に再び使用可能となったことを確認しようとする。こ
うして、矢印４０７を経てノードの状態は、非停止状態
４０３へ移行する。これは過渡的状態である。非停止状
態４０３にあるとき、その故障したノードに対してメッ
セージが送られ、そしてそのノードが実際に起動してい
るのか停止しているのかを調べるために応答を待つ。こ
のプロセスは、ＰＩＮＧプロトコルとして知られてい
る。ＰＩＮＧメッセージに対する応答としてそのノード
から適宜の肯定応答が受信された場合には、そのノード
が起動状態にあると確認される結果、矢印４０４を経て
起動状態４０１へと戻る。各ノード間のＰＩＮＧメッセ
ージについては周知の技術であり、ここでは詳細に説明
しない。ＰＩＮＧメッセージに対する応答として故障し
たノードから否定応答が受信された場合には、そのノー
ドが停止したと確認され、そのノードは矢印４０６を経
て確認停止状態４０５へ移行する。応答が受信されない
場合は、ノードは非停止状態４０３のまま維持され、そ
して応答が受信されるまでＰＩＮＧメッセージが周期的
に送信される。非停止状態４０５にあるノードが故障し
たことをハートビート機能が報告した場合、このノード
は、矢印４０８を経て推定停止状態４０２へと戻され
る。

【００３２】図５は、ネーム・サーバ・ノードが故障し
た様子がある場合におけるＲＥＣＯＶＥＲプロトコルに
ついてのプロトコル状態図である。ネーム・サーバ・ノ
ードが故障したとき、回復プロセスを介して新しいネー
ム・サーバ・ノードが選択される必要があることは自明
であろう。回復プロセスは、ドメイン内のノードを適切
に操作するためにドメイン内で生き残っているノードへ
ネーム・サーバの役割を渡すことができる。ノードが故
障したとき、この事実は、前述のようにハートビート機
能を介して全てのノードへ報告される。各ノードにおけ
るグループ・サービス・デーモンが、ネーム・サーバが
故障したことを判断したとき、各ノードにおけるグルー
プ・サービス・デーモンの各々が、図５の回復プロトコ
ルを通して進行する。このプロトコルの最初において、
ノードは、図３における所与の状態３１７と同じ所与の
状態５０１にある。ネーム・サーバが故障したとき、ノ
ードの状態は所与の状態５０１から矢印５３３を経て未
確定状態５０２へ移行する。未確定状態５０２において
グループ・サービス・デーモンは、メンバシップ・リス
トを調べることにより、いずれのノードが次のネーム・
サーバとしてリスト上に載っているかを判断する。これ
については、前述の米国特許出願第０８／６４０４１２
号に記載されている。この次のネーム・サーバは、クラ
ウン・プリンス(crown prince)すなわちＣＰとして識別
される。ノードがクラウン・プリンスである場合、その
ノードが矢印５３４を経てアセンド状態５０３へ移行す
る。そのノードが現在起動していると認識する他のノー
ドから全ての回復メッセージを受信したならば、そのノ
ードはアセンディング状態５０４へ移行する。コロナ・
タイマー５５０もまたアセンド状態５０３にあり、これ
は前述のコロナ・タイマー３５０と同じである。回復メ
ッセージについては、追従状態５１０に関連して詳細に
後述する。アセンディング状態５０４にあるＣＰノード
は、第１段階引継メッセージをそのドメインの他の全て
のノードへ送信する。メンバシップ・リスト中のさらに
古いＣＰノードが起動したためにそのノードがＣＰノー
ドではないことがそのローカル・ハートビート機能を介
して判明したり、あるいは、第１段階引継(ＴＯＰ１)否
定メッセージを受信したりした場合には、そのノードは
他の全てのノードに対して中止メッセージを同報通信
し、そして矢印５０５を介して未確定状態５０２へ戻
る。他の全てのノードから第１段階引継肯定メッセージ
を受信したならば、ＣＰノードは、第２段階引継(ＴＯ
Ｐ２)メッセージを他のノードへ同報通信し、矢印５０
７を介してネーム・サーバ成立状態５０６へ移行する。
ＴＯＰ２メッセージに応答して、他のノードは、新しい
ネーム・サーバ用のテーブルＴを再構築するために必要
なデータを送信する。これにより新しいネーム・サーバ
はネーム・サーバの役割を引き継ぐことができる。ある
ノードがそのテーブルＴデータを送信する前に故障した
場合、そのノードはネーム・サーバにより通常通りにド
メインから除かれ、そしてそのノードの欠如は何の影響
も及ぼさない。新たなネーム・サーバがテーブルＴにつ
いての全データを取得した後、自らが新しいネーム・サ
ーバであることを示すためにコミット引継メッセージを
他の全てのノードに対して通信し、そして矢印５４５を
経て完了状態５４０へ移行する。完了状態５４０におい
ては、ネーム・サーバはいつでも前述の米国特許出願第
０８／６８４２４６号に開示されたルックアップを処理
することができる。

【００３３】未確定状態５０２にあるノードが、自身が
ＣＰノードではないと判断した場合、矢印５１１を経て
追従状態５１０へ移行する。追従状態にあるノードは、
前述のように、メンバシップ・リストで識別されたＣＰ
ノードに対して周期的に回復メッセージを送信する。こ
の時点で、ドメイン内の他の全てのノードが同じ回復プ
ロトコルを行っており、かつそれらのノードもＣＰノー
ドに対して周期的な回復メッセージを送っていることは
自明であろう。こうすることにより、前述の通り、ＣＰ
ノードがアセンド状態５０３に達したとき、他の全ての
ノードから全ての回復ノードを集めることができ、アセ
ンディング状態５０４に移行することができる。追従状
態５１０にあるノードが、アセンディング状態５０４に
あるＣＰノードから第１段階引継(ＴＯＰ１)メッセージ
を取得すると、存在しているノードは矢印５１３を経て
引き継ぎ状態５１２へ移行し、ＴＯＰ１メッセージに応
答して肯定メッセージを送信する。これにより、アセン
ディング状態５０４にあるＣＰノードは、そのドメイン
内の全てのノードから肯定メッセージを受信した後、ネ
ーム・サーバ成立状態５０６へ移行する。

【００３４】追従状態５１０にあるノードが、自身がＣ
Ｐノードであると判断した場合、矢印５１５を経てアセ
ンド状態５０３へと移行する。また、アセンド状態５０
３にあるノードが、メンバシップ・リスト中のより上位
のＣＰノードが起動したために自身がＣＰノード出ない
と判断した場合も、アセンド状態５０３から矢印５１６
を経て追従状態５１０へと移行する。追従状態５１０に
あるノードが、ＣＰノードが故障したと判断した場合、
このノードは矢印５１７を経て未確定状態５０２へと戻
る。引継状態５１２にあるノードが、ＣＰノードが故障
したか若しくはＴＯＰ１中止メッセージを取得したと判
断した場合、そのノードは、引継状態５１２から矢印５
２０を経て未確定状態５０２へと戻る。引継状態にある
ノードが第２段階引継(ＴＯＰ２)メッセージを受信した
場合、そのノードは、新しいネーム・サーバに対してＴ
テーブルを再構築するために必要なデータを送信し、矢
印５２１を経て未確定状態５０１へと移行する。こうし
てノードが未確定状態５０１へ移行すると、そのノード
は、自身がネーム・サーバでないことを再び認知する
が、いずれがネーム・サーバであるかすなわち成立状態
５０６となったノードを認知している。

【００３５】ノードが追従状態５１０にあり、かつ、故
障の回復プロセスを開始しているネーム・サーバが図４
に関して述べた確認状態へ戻るとき、「王の帰還」とし
て知られる条件が検知されている。この場合、そのノー
ドは追従状態５１０から矢印５２２を経て確定状態５０
１移行し、回復が停止し、そして古いネーム・サーバが
ネーム・サーバ・ノードに留まる。

【００３６】ＰＲＯＣＬＡＩＭプロトコル又はＲＥＣＯ
ＶＥＲプロトコルの間にいずれかのルックアップ・メッ
セージが発生された場合、そのノードがＰＲＯＣＬＡＩ
Ｍ確定状態３１７若しくはＲＥＣＯＶＥＲ確定状態５０
１のいずれかになるまでは、ルックアップ・メッセージ
がローカルにキューされる。ＰＲＯＣＬＡＩＭプロトコ
ルにおいては、ルックアップ・キュー内にローカルに記
憶されたメッセージは、そのノードが確定状態３１７に
入ったときそのメッセージをネーム・サーバへ送ること
により、３６０で処理される。ＲＥＣＯＶＥＲプロトコ
ルにおいては、ノードが確定状態５０１にありかつ新し
いネーム・サーバからコミット引継(ＴＯＣ)メッセージ
を受信したとき、５７０に示すように、そのノードは、
ネーム・サーバに対してメッセージを送ることによりル
ックアップ・キュー内にローカルに記憶されたメッセー
ジを処理する。そして、矢印５７５を経て確定状態５０
１に戻るすなわち留まる。

【００３７】図３のＰＲＯＣＬＡＩＭプロトコルの挿入
状態３１６へ戻って、ＲＮＳノードが故障したとノード
が判断した場合、そのノードは、いずれが新しいネーム
・サーバであるかを判断するために探さなければならな
いが、そのドメイン内にいずれかのノードが残っている
か否かについては定かでない。従ってそのノードは、未
確認フラグをセットして、矢印３０３を経て図５のＲＥ
ＣＯＶＥＲプロトコルの未確定状態５０２へと移行す
る。

【００３８】図５に戻って、アセンド状態５０３にある
ノードが、未確認フラグがセットされておりそして他の
全てのノードが故障したと判断した場合、そのノード
は、矢印５６０を経て図３のＰＲＯＣＬＡＩＭプロトコ
ルの未確定状態３０１へ移行する。同様に、追従状態５
１０にあるノードが、未確認フラグがセットされており
かつそのドメイン内の他の全てのノード故障したと判断
した場合、そのノードは、矢印５６５を経て図３のＰＲ
ＯＣＬＡＩＭプロトコルの未確定状態３０１へ移行す
る。これらの最後の２つの条件は、ネーム・サーバが故
障しかつそのドメイン内に他のノードがないときに生じ
る可能性がある。その場合、そのノードは、ドメインを
設立するためにＰＲＯＣＬＡＩＭプロトコルへ進まなけ
ればならない。

【００３９】ＲＥＣＯＶＥＲプロトコルの確定状態５０
１又はＰＲＯＣＬＡＩＭプロトコルの未確定状態３０１
に達したとき、未確認フラグはクリアされる。

【００４０】このようにして本発明は、ドメイン内の全
てのノードが最初にライン上に出現するときにこれらの
ノードのためにネーム・サーバ・ノードを設定する。さ
らに、ノードにフリッカが生じたとき、そのノードが起
動するのか停止するのかを確認するプロトコルを提供す
る。またさらに、元のネーム・サーバ・ノードが故障す
るか停止したとき新しいネーム・サーバを選択すること
ができるプロトコルを提供する。以上、本発明の好適例
について説明したが、開示された構成に限定する意図で
ないことは自明であろう。全ての変形及び修正は本発明
の範囲内に含まれる。

【００４１】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００４２】（１）分散コンピュータ環境におけるプロ
セッサ・ドメインのメンバーを管理する方法であって、
前記ドメイン内の使用可能な最小番号ノードを決定する
ステップと、前記ドメイン内の前記最小番号ノードに対
して他の使用可能なノードから追従メッセージを周期的
に送信するステップと、全ての前記追従メッセージを前
記最小番号ノードが受信したことに応答して、前記ドメ
イン内の前記プロセッサを管理するために前記最小番号
ノードがネーム・サーバとなるべく２段階コミット・プ
ロトコルを実行するステップとを含むプロセッサ・ドメ
インのメンバー管理方法。（２）前記２段階コミット・プロトコルが、前記最小番
号ノードから前記他の使用可能なノードに対して第１段
階(Ｐ１)挿入メッセージを送信するステップと、前記第
１段階挿入メッセージに応答して、前記他の使用可能な
ノードから前記最小番号ノードに対して肯定(ＡＣＫ)メ
ッセージを送信するステップと、前記最小番号ノードが
前記ネーム・サーバとなったことを前記他の使用可能な
ノードに対して通知するコミット・メッセージを送信す
るステップとを含む上記（１）に記載の方法。（３）設定された時間間隔において前記追従メッセージ
の受信時を計るステップと、前記時間間隔の間でのみ前
記追従メッセージを受信するステップとを含む上記
（１）に記載の方法。（４）前記最小番号ノードをみなしネーム・サーバ(Ｒ
ＮＳ)とした場合、該最小番号ノードによる追従メッセ
ージの受信に応答して、該最小番号ノードから該追従メ
ッセージを送信しているノードに対して該みなしネーム
・サーバを識別するマイリーダー(ＭＬＩ)・メッセージ
を送信するステップと、前記マイリーダー・メッセージ
の受信に応答して、前記マイリーダー・メッセージを受
信した前記ノードから前記みなしネーム・サーバに対し
て追従メッセージを周期的に送信するステップと、前記
追従メッセージに応答して前記みなしネーム・サーバ
が、該みなしネーム・サーバを前記ネーム・サーバとし
て成立させるための前記２段階コミット・プロトコルを
実行するステップとを含む上記（２）に記載の方法。（５）分散コンピュータ環境におけるプロセッサ・ドメ
インのメンバーを管理する装置であって、前記ドメイン
内の使用可能な最小番号ノードを決定する手段と、前記
ドメイン内の前記最小番号ノードに対して他の使用可能
なノードから追従メッセージを周期的に送信する追従メ
ッセージ手段と、全ての前記追従メッセージを前記最小
番号ノードが受信したことに応答して、前記ドメイン内
の前記プロセッサを管理するために前記最小番号ノード
がネーム・サーバとなるべく２段階コミットを実行する
２段階コミット手段とを含むプロセッサ・ドメインのメ
ンバー管理装置。（６）前記２段階コミット手段が、前記最小番号ノード
から前記他の使用可能なノードに対して第１段階(Ｐ１)
挿入メッセージを送信する手段と、前記第１段階挿入メ
ッセージに応答して、前記他の使用可能なノードから前
記最小番号ノードに対して肯定メッセージ(ＡＣＫ)を送
信する肯定手段と、前記最小番号ノードが前記ネーム・
サーバとなったことを前記他の使用可能なノードに対し
て通知するコミット・メッセージを送信するコミット・
メッセージ手段とを含む上記（５）に記載の装置。（７）設定された時間間隔において前記追従メッセージ
の受信時を計るタイマーを有し、前記２段階コミット手
段が前記時間間隔の間でのみ前記追従メッセージを受信
する上記（５）に記載の装置。（８）前記最小番号ノードをみなしネーム・サーバ(Ｒ
ＮＳ)とした場合、該最小番号ノードによる追従メッセ
ージの受信に応答して、該最小番号ノードから該追従メ
ッセージを送信しているノードに対して該みなしネーム
・サーバを識別するマイリーダー・メッセージを送信す
るマイリーダー(ＭＬＩ)・メッセージ手段と、前記マイ
リーダー・メッセージの受信に応答して、前記マイリー
ダー・メッセージを受信した前記ノードから前記みなし
ネーム・サーバに対して追従メッセージを周期的に送信
する第２の追従メッセージ手段と、前記追従メッセージ
に応答して、前記みなしネーム・サーバにおいて該みな
しネーム・サーバを前記ネーム・サーバとして成立させ
るために前記２段階コミットを実行する第２の２段階コ
ミット手段とを含む上記（６）に記載の装置。（９）分散コンピュータ環境におけるプロセッサ・ドメ
インのメンバーを管理するためのコンピュータ読取り可
能な媒体上に記録されたプログラム製品であって、前記
ドメイン内の使用可能な最小番号ノードを決定するステ
ップと、前記ドメイン内の前記最小番号ノードに対して
他の使用可能なノードから追従メッセージを周期的に送
信するステップと、全ての前記追従メッセージを前記最
小番号ノードが受信したことに応答して、前記ドメイン
内の前記プロセッサを管理するために前記最小番号ノー
ドがネーム・サーバとなるべく２段階コミット・プロト
コルを実行するステップとを有するプログラム製品。（１０）前記２段階コミット・プロトコルが、前記最小
番号ノードから前記他の使用可能なノードに対して第１
段階(Ｐ１)挿入メッセージを送信するステップと、前記
第１段階挿入メッセージに応答して、前記他の使用可能
なノードから前記最小番号ノードに対して肯定メッセー
ジ(ＡＣＫ)を送信するステップと、前記最小番号ノード
が前記ネーム・サーバとなったことを前記他の使用可能
なノードに対して通知するコミット・メッセージを送信
するステップとを含む上記（９）に記載のプログラム製
品。（１１）設定された時間間隔において前記追従メッセー
ジの受信時を計るステップと、前記時間間隔の間でのみ
前記追従メッセージを受信するステップとを含む上記
（９）に記載のプログラム製品。（１２）前記最小番号ノードをみなしネーム・サーバ
(ＲＮＳ)とした場合、該最小番号ノードによる追従メッ
セージの受信に応答して、該最小番号ノードから該追従
メッセージを送信しているノードに対して該みなしネー
ム・サーバを識別するマイリーダー(ＭＬＩ)・メッセー
ジを送信するステップと、前記マイリーダー・メッセー
ジの受信に応答して、前記マイリーダー・メッセージを
受信した前記ノードから前記みなしネーム・サーバに対
して追従メッセージを周期的に送信するステップと、前
記追従メッセージに応答して前記みなしネーム・サーバ
が、該みなしネーム・サーバを前記ネーム・サーバとし
て成立させるための前記２段階コミット・プロトコルを
実行するステップとを含む上記（１０）に記載のプログ
ラム製品。

【図面の簡単な説明】

【図１】本発明の分散コンピュータ・システムの概略構
成図である。

【図２】図１の分散コンピュータ・システムにおけるプ
ロセッサ・ドメインの構成図である。

【図３】プロセッサが図２のドメインを結合させるため
のＰＲＯＣＬＡＩＭプロトコルのプロトコル状態図であ
る。

【図４】図２のドメイン内においてフリッカーを生じて
いるノードについてのノード状態を取得するためのＦＬ
ＩＣＫＥＲプロトコルのプロトコル状態図である。

【図５】図２のドメイン内において故障した後に回復さ
れようとしているノードについてのＲＥＣＯＶＥＲプロ
トコルのプロトコル状態図である。

【符合の説明】

１００分散コンピュータ・システム１０２ローカル・エリア・ネットワーク(ＬＡＮ) １０４ＬＡＮゲート１０５ＳＰスイッチ１０６ノード１１２制御ワークステーション１１４直接アクセス記憶装置２００区画２０１ドメイン２０２ネーム・サーバ２０４、２０５、２０６グループ・リーダー

───────────────────────────────────────────────────── フロントページの続き (72)発明者ラリー・バート・ブレンナーアメリカ合衆国78759、テキサス州、オースチン、バケロ・コーブ 8405 (72)発明者ツシャール・ディパク・チャンドラアメリカ合衆国10523、ニューヨーク州、エルムスフォード、ノブ・ヒル・ドライブ 215 (72)発明者オーバル・テオドール・キルビーアメリカ合衆国12569、ニューヨーク州、プレザント・バレイ、デイビッド・ドライブ 32 (72)発明者ジョン・アーサー・パーシング、ジュニアアメリカ合衆国10511、ニューヨーク州、ブキャナン、コートランド・ストリート 162

Claims

【特許請求の範囲】

【請求項１】分散コンピュータ環境におけるプロセッサ
・ドメインのメンバーを管理する方法であって、前記ドメイン内の使用可能な最小番号ノードを決定する
ステップと、前記ドメイン内の前記最小番号ノードに対して他の使用
可能なノードから追従メッセージを周期的に送信するス
テップと、全ての前記追従メッセージを前記最小番号ノードが受信
したことに応答して、前記ドメイン内の前記プロセッサ
を管理するために前記最小番号ノードがネーム・サーバ
となるべく２段階コミット・プロトコルを実行するステ
ップとを含むプロセッサ・ドメインのメンバー管理方
法。
【請求項２】前記２段階コミット・プロトコルが、前記最小番号ノードから前記他の使用可能なノードに対
して第１段階(Ｐ１)挿入メッセージを送信するステップ
と、前記第１段階挿入メッセージに応答して、前記他の使用
可能なノードから前記最小番号ノードに対して肯定(Ａ
ＣＫ)メッセージを送信するステップと、前記最小番号ノードが前記ネーム・サーバとなったこと
を前記他の使用可能なノードに対して通知するコミット
・メッセージを送信するステップとを含む請求項１に記
載の方法。
【請求項３】設定された時間間隔において前記追従メッ
セージの受信時を計るステップと、前記時間間隔の間でのみ前記追従メッセージを受信する
ステップとを含む請求項１に記載の方法。
【請求項４】前記最小番号ノードをみなしネーム・サー
バ(ＲＮＳ)とした場合、該最小番号ノードによる追従メ
ッセージの受信に応答して、該最小番号ノードから該追
従メッセージを送信しているノードに対して該みなしネ
ーム・サーバを識別するマイリーダー(ＭＬＩ)・メッセ
ージを送信するステップと、前記マイリーダー・メッセージの受信に応答して、前記
マイリーダー・メッセージを受信した前記ノードから前
記みなしネーム・サーバに対して追従メッセージを周期
的に送信するステップと、前記追従メッセージに応答して前記みなしネーム・サー
バが、該みなしネーム・サーバを前記ネーム・サーバと
して成立させるための前記２段階コミット・プロトコル
を実行するステップとを含む請求項２に記載の方法。
【請求項５】分散コンピュータ環境におけるプロセッサ
・ドメインのメンバーを管理する装置であって、前記ドメイン内の使用可能な最小番号ノードを決定する
手段と、前記ドメイン内の前記最小番号ノードに対して他の使用
可能なノードから追従メッセージを周期的に送信する追
従メッセージ手段と、全ての前記追従メッセージを前記最小番号ノードが受信
したことに応答して、前記ドメイン内の前記プロセッサ
を管理するために前記最小番号ノードがネーム・サーバ
となるべく２段階コミットを実行する２段階コミット手
段とを含むプロセッサ・ドメインのメンバー管理装置。
【請求項６】前記２段階コミット手段が、前記最小番号ノードから前記他の使用可能なノードに対
して第１段階(Ｐ１)挿入メッセージを送信する手段と、前記第１段階挿入メッセージに応答して、前記他の使用
可能なノードから前記最小番号ノードに対して肯定メッ
セージ(ＡＣＫ)を送信する肯定手段と、前記最小番号ノードが前記ネーム・サーバとなったこと
を前記他の使用可能なノードに対して通知するコミット
・メッセージを送信するコミット・メッセージ手段とを
含む請求項５に記載の装置。
【請求項７】設定された時間間隔において前記追従メッ
セージの受信時を計るタイマーを有し、前記２段階コミ
ット手段が前記時間間隔の間でのみ前記追従メッセージ
を受信する請求項５に記載の装置。
【請求項８】前記最小番号ノードをみなしネーム・サー
バ(ＲＮＳ)とした場合、該最小番号ノードによる追従メ
ッセージの受信に応答して、該最小番号ノードから該追
従メッセージを送信しているノードに対して該みなしネ
ーム・サーバを識別するマイリーダー・メッセージを送
信するマイリーダー(ＭＬＩ)・メッセージ手段と、前記マイリーダー・メッセージの受信に応答して、前記
マイリーダー・メッセージを受信した前記ノードから前
記みなしネーム・サーバに対して追従メッセージを周期
的に送信する第２の追従メッセージ手段と、前記追従メッセージに応答して、前記みなしネーム・サ
ーバにおいて該みなしネーム・サーバを前記ネーム・サ
ーバとして成立させるために前記２段階コミットを実行
する第２の２段階コミット手段とを含む請求項６に記載
の装置。
【請求項９】分散コンピュータ環境におけるプロセッサ
・ドメインのメンバーを管理するためのコンピュータ読
取り可能な媒体上に記録されたプログラム製品であっ
て、前記ドメイン内の使用可能な最小番号ノードを決定する
ステップと、前記ドメイン内の前記最小番号ノードに対して他の使用
可能なノードから追従メッセージを周期的に送信するス
テップと、全ての前記追従メッセージを前記最小番号ノードが受信
したことに応答して、前記ドメイン内の前記プロセッサ
を管理するために前記最小番号ノードがネーム・サーバ
となるべく２段階コミット・プロトコルを実行するステ
ップとを有するプログラム製品。
【請求項１０】前記２段階コミット・プロトコルが、前記最小番号ノードから前記他の使用可能なノードに対
して第１段階(Ｐ１)挿入メッセージを送信するステップ
と、前記第１段階挿入メッセージに応答して、前記他の使用
可能なノードから前記最小番号ノードに対して肯定メッ
セージ(ＡＣＫ)を送信するステップと、前記最小番号ノードが前記ネーム・サーバとなったこと
を前記他の使用可能なノードに対して通知するコミット
・メッセージを送信するステップとを含む請求項９に記
載のプログラム製品。
【請求項１１】設定された時間間隔において前記追従メ
ッセージの受信時を計るステップと、前記時間間隔の間でのみ前記追従メッセージを受信する
ステップとを含む請求項９に記載のプログラム製品。
【請求項１２】前記最小番号ノードをみなしネーム・サ
ーバ(ＲＮＳ)とした場合、該最小番号ノードによる追従
メッセージの受信に応答して、該最小番号ノードから該
追従メッセージを送信しているノードに対して該みなし
ネーム・サーバを識別するマイリーダー(ＭＬＩ)・メッ
セージを送信するステップと、前記マイリーダー・メッセージの受信に応答して、前記
マイリーダー・メッセージを受信した前記ノードから前
記みなしネーム・サーバに対して追従メッセージを周期
的に送信するステップと、前記追従メッセージに応答して前記みなしネーム・サー
バが、該みなしネーム・サーバを前記ネーム・サーバと
して成立させるための前記２段階コミット・プロトコル
を実行するステップとを含む請求項１０に記載のプログ
ラム製品。