JP2001521222A

JP2001521222A - 分散型コンピュータ・システムにおいてクラスタ・メンバーシップを決定する方法

Info

Publication number: JP2001521222A
Application number: JP2000517348A
Authority: JP
Inventors: モイン，ホセイン; ウィディヨノ，ロナルド; モディリ，ラミン
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1997-10-21
Filing date: 1998-10-20
Publication date: 2001-11-06
Also published as: WO1999021098A2; US5999712A; US6449641B1; CA2306718A1; WO1999021098A3; AU1105499A; EP1025506A2

Abstract

(57)【要約】分散型コンピュータ・システムにおけるクラスタ・メンバーシップは、各ノードが通信している他のノードを決定することにより、且つ、その接続性情報をシステムのノードを介して配信することにより決定される。従って、各ノードは、接続性情報に基づいて、最適化された新しいクラスタを決定できる。特に、各ノードは、自己が通信しているノードに関する情報を有し、かつシステムの各他のノードに対する同様の情報を有している。したがって、各ノードは直接的に又は間接的に接続される全てのノードの接続性に関する完全な情報を有している。各ノードは、その接続性情報に最適化基準を適用して最適な新しいクラスタを決定する。最適な新しいクラスタを表すデータがそれぞれのノードによって同報通信される。さらに、多くのノードで決められたその最適な新しいクラスタがそれぞれのノードで集められる。各ノードによって最適であると認められたプロポーズされた新しいクラスタを表すデータを各ノードが持つことになる。各ノードはその情報を用いて多くのプロポーズされた新しいクラスタから新しいクラスタを選出する。例えば、他のクラスタより、より多くプロポーズされた新しいクラスタが新しいクラスタとして選出される。各ノードは、新しいクラスタの潜在的なメンバーのノードから同じプロポーズされた新しいクラスタを受け取るので、新しいクラスタ・メンバーシップは全員一致に達する。各ノードは新しいクラスタの潜在的なメンバーのノードに関する完全なより情報を持っているので、得られたクラスタは疑いなく相対的に最適な構成となる。

Description

【発明の詳細な説明】

【０００１】発明の背景本発明は、分散型コンピュータ・システムの欠陥許容に関し、特に故障してい
る分散型コンピュータ・システムにおいてどのノードがクラスターを形成し、共
用資源へアクセスしているかを決定する、特に強固なメカニズムに関する。

【０００２】分散型コンピュータ・システムにおいてメンバーシップ・サービスを与えるこ
とに関する問題は学術的にも工業的にも非常に興味ある問題となってきた。分散
システムである、カリフォルニア州パロアルトのサンマイクロシステムズ社から
入手できる平行データベース（ＰＤＢ）システムが、クラスタ・メンバーシップ
・モニタを用いて、クラスター・メンバーシップを変えるときに、メンバーのノ
ードのトラックを維持し、かつクラスタ・アプリケーションとサービスの再構成
を調整するメカニズムを提供している。ここで、コンピュータのクラスタにおけ
るメンバーシップの一般的な問題をクラスタのいくつかのノードが完全には接続
されていないことと定義し、ここでその解を提案する。

【０００３】メンバーシップの一般的な問題は、以下に概略を示すメンバーシップ・アルゴ
リズムに対する設計ゴールによってカプセル化される。それらのゴールを述べた
後アドレスを試みる問題をさらに述べる。

【０００４】１．ノード、リンク、記憶デバイスまたは通信媒体の連続的な欠陥を許容で
きるシステム・アーキテクチャに係わらない均一なかつ強固なメンバーシップ・
アルゴリズム。言い換えると、一つの欠陥でクラスタが使用不可になることはな
い。２．データの完全性は多数の同期した欠陥によっても損なわれない。これは以
下の点によって達成される。（ａ）所定の時にいつでも動作するマジョリティ・クオーラム（majority quo
rum）を備えたたった一つのクラスタを持つこと。（ｂ）マジョリティ・クオーラムを備えたクラスタは一致していないアグリー
メントに達することはない。（ｃ）一定の時間内にクラスタから孤立した、かつ欠陥ノードを除去する。（ｄ）共用資源からメンバーでないノードをタイムリーに遮蔽する。

【０００５】従来のある分散型コンピュータ・システムのハードウエア・アーキテクチャは
メンバーシップ・アルゴリズムに対する特有の問題に混乱した。例えば、図１に
示す構成を考える。この図では、各ノード１００Ａ−Ｄは二つの交換機１０１−
１０２に接続されている。しかし、二つのリンクが故障し、ノード１００Ａと１
００Ｄが互いに通信できないようになっている。従来のメンバーシップ・アルゴ
リズムではこのような欠陥を処理する能力が無く、生き残っているマジョリティ
・クオーラムに関するアグリーメントに達することはないであろう。これらのア
ルゴリズムは、ノードは全て接続されていることを想定し、区切られたネットワ
ークの問題を処理することができない。区切られていないネットワークと同様に
区切られたネットワークの問題を処理する一般的なアルゴリズムが必要である。

【０００６】スプリットブレイン（split-brain）または可能なスプリットブレインの状況について決定することが必要なときに複雑さが生じる。例えば、図２に示す構成
を考える。この構成において、同じ数のノードのサブクラスタがあるように、ノ
ード｛２００Ａ、２００Ｂ｝とノード｛２００Ｃ、２００Ｄ｝の間の通信がなく
なると、現在のクオーラム・アルゴリズムは全体のクラスタをシャットダウンさ
せることになる。現在のアルゴリズムが処理できない他の状況は、システムの中
に二つのノードがあり、それらが外部デバイスを共用できない時も含む。

【０００７】上記例は、ネットワークが完全に接続されていることを仮定している従来の分
散型コンピュータ・システムのより簡単なアーキテクチャの元で不可能であるメ
ンバーシップ及びクオーラム・アルゴリズムに関する問題の新しい組み合わせを
説明している。この新しい問題を解くやり方は、メンバーシップ及びクオーラム
・アルゴリズムをより近くなるように統合し、ユーザに見えるようにクラスタの
適用性と性能を最大にした柔軟性のあるアルゴリズムを提供することである。

【０００８】外部デバイスの構成のインパクトは遮蔽することの失敗の問題である。クラス
タ化されたシステムにおける共用資源（多くはディスク）はクラスタの一部でな
いノードが介在することから遮られる。いくつかの分散型コンピュータ・システ
ムでは、この遮る問題は、クラスタには二つのノードしかなく、それらが全ての
共用資源に接続されているという事実によって簡単である。クラスタの中に残っ
たノードは全ての共用資源を維持し、メンバーでないノードがそれらの資源にア
クセスするのを、そのノードがクラスタの一部になるまで許さない。このような
簡単な動作は、全てのディスクが全てのノードに接続されているわけではないア
ーキテクチャに対しては行えない。ＳＰＡＲＣ格納アレイ（ＳＳＡ）は二重にポ
ートされているとして、メンバーでないノードを共用資源から効果的に遮る新し
い方法が必要である。

【０００９】メンバーシップ、クオーラム、アルゴリズムの遮蔽の失敗に責任のあるクラス
タ・メンバーシップ・モニタすなわちＣＭＭは、メンバーシップの変更に導く状
態遷移を処理する。それらの遷移を以下にリストする。

【００１０】・ノードの欠陥：ノードが故障すると、メンバーシップにその欠陥ノードを
含まないようなクラスタ再構成を開始する。・ノードの加入：再構成の後、ノードが再開始し、クラスタの他のメンバー
が新メンバーとして受け入れた後クラスタに加入することができる。・自発離脱：ノードはいつでもクラスタから離脱することができ、クラスタ
の残りのメンバーはクラスタの次の世代を再構成する。・通信欠陥：クラスタ・メンバーシップ・モニタが一つ又はそれ以上のノー
ドをマジョリティ・クオーラムを備えたノードから分離する通信欠陥を処理する
。通信欠陥の検出、すなわち通信グラフが完全に接続されていないということの
検出はメンバーシップ・モニタの一部ではない通信モニタの責任である。通信モ
ニタはメンバーシップ・モニタに通信の欠陥を知らせ、メンバーシップ・モニタ
が再構成を介してそれを処理する。

【００１１】システム全体が健全であることをＣＭＭが保証しないこと並びにアプリケーシ
ョンがいずれかの所定のノードに与えられているかを知ることは重要である。Ｃ
ＭＭによってなされる唯一の保証はシステム・ハードウエアが起動され、動作し
ていること並びに動作しているシステムが存在して、機能していることである。

【００１２】どんな欠陥が本システムの設計で考慮されているかを正確に定義する。考慮し
ている欠陥は三つである。ノード欠陥、通信欠陥、デバイス欠陥である。クライ
アント・ノード、ターミナル・コネクタ、管理ワークステーションの欠陥は本誌
ステムでは欠陥とは考えていないということを注意すべきである。

【００１３】・ノード欠陥：ノードが周期的なハートビート・メッセージ（heart-beat m
essage）（ＳＣＩ又はＣＭＭ）をクラスタの他のメンバーに送るのを中止したと
そのノードは故障したとする。さらに、ノードは悪意がないように振る舞うと考
えられており、システムによって欠陥であるとされたノードは、クラスタの他の
メンバーに衝突する情報を送らないであろうと考えられている。一次的なデッド
ロックのケースの場合のように、ノードが間欠的に故障することもあり、アダプ
タやスイッチに欠陥のあるケースのように、システムに残っている部分によって
欠陥と見られることもある。クラスタ・メンバー・モニタはそれらの全てのケー
スを処理できなければならず、所定の時間でシステムから欠陥ノードを除去しな
ければならない。・通信欠陥：プライベートな通信媒体は、交換機の欠陥、アダプター・カー
ドの欠陥、ケーブルの欠陥、多くのソフトウエア層の欠陥によって故障する。こ
れらの欠陥は、クラスタ・メンバーシップモニタが特定の欠陥を処理しないよう
に、クラスタ通信モニタ（ＣＣＭ又はＣＩＳ）によってマスクされる。さらに、
クラスタ・メンバーシップ・モニタは媒体の使用可能なリンクを通してそのメッ
セージを送る。個々のリンクの欠陥はＣＭＭの正しい動作に影響を与えない。Ｃ
ＭＭの動作に影響を与える唯一の通信欠陥はメンバーのノードとの通信の全体的
な減損である。これはプライベート通信媒体を介してのハートビート・メッセー
ジを送る物理的な経路がないので、ノードの欠陥と実質的に同じである。Ｅｎｅ
ｒｇｉｚｅｒの２リリースのような交換機アーキテクチャにおいては、全ての交
換機の故障は論理的にｎ−１のノードの同時故障と論理的に等価である。ただし
、ｎはシステムのノードの数である。・デバイス欠陥：クラスタ・メンバーシップ・モニタの動作に影響するデバ
イスはクオーラム・デバイスである。従来は、それらは、ＳｐａｒｃＳｔｐｔ
ａｇｅＡｒｒａｙ（ＳＳＡ）に関するディスク・コントローラであった。しか
し、いくつかの分散型コンピュータ・システムにおいては、ディスクをクオーラ
ム・デバイスとして用いることができる。クオーラム・デバイスの欠陥はノード
の欠陥と等価であり、いくつかの従来のシステムにおけるＣＭＭは二つのノード
・クラスタ上で実行されない限り、クオーラム・デバイスを用いることができな
いということに注目する必要がある。

【００１４】ある分散型コンピュータ・システムは欠陥の単一点を持たないとされている。
従って、システムのｎ−１のノードの連続した欠陥と同様に単一のノードの欠陥
を許容しなければならない。通信欠陥に関する上記議論を想定すると、本明細書
はそのシステムにおける通信媒体の全体的な減損を許容できないということを示
している。通信媒体の全体的な減損を許容することがありえないか、又はそれが
望ましいとすると、いかなる時も単一欠陥より多くの欠陥を許容することが可能
であるべきである。第１に、クラスタとは何であり、以下に様々な欠陥がそれに
影響を与えるかを定義する。

【００１５】クラスタはＮノード、プライベート通信媒体、クオーラム・メカニズムを持つ
と定義され、プライベート通信媒体の全体的な欠陥はＮ−１のノードの欠陥と等
価であり、クオーラム・メカニズムの欠陥は一つのノードの欠陥と等価である。

【００１６】クラスタ・メンバーシップ・モニタに対する以下の故障許容ゴールを示す。Ｎ
≧３でＮ個のノードのクラスタ、しかし、部分的に［Ｎ／２］−１のノードが欠
、プライベート通信媒体、クオーラム・メカニズムはサービスを提供できかつデ
ータへアクセスできるべきである。二つのクラスタに対して、クラスタは次の欠
陥の一つだけを許容できる。

【００１７】・ノードの一つの減損。・プライベート通信媒体の減損。この場合は論理的には一つのノードの減損と等価である。・クオーラム・デバイスの減損。・ノードの一つとプライベート通信媒体の減損。この場合は論理的には一つのノードの減損と等価である。

【００１８】三つ以上のノードを有するシステムでの通信媒体の全損は（双方の交換機が不
動作状態になるので）二重欠陥であり、システムはそのような欠陥を許容するこ
とを要求されない。

【００１９】発明の要旨本発明によれば、各ノードが通信している他のノードを決定することにより、
かつその接続性情報をシステムのノードを介して配信することにより、分散型コ
ンピュータ・システムにおけるクラスタ・メンバーシップが決定される。したが
って、各ノードは接続性情報に基づいて最適化された新しいクラスタを決定でき
る。各ノードは、自己が通信しているノードに関する情報とシステムのそれぞれ
の他のノードに対する同様の情報を持っている。したがって、各ノードは、直接
に又は関節に接続されている全てのノードの接続性に関する完全な情報を持って
いる。

【００２０】各ノードは接続性情報に最適化基準を適用して、最適な新しいクラスタを決定
する。最適な新しいクラスタを表しているデータは各ノードに同報通信される。
様々なクラスタによって決定された最適な新クラスタは各ノードによって収集さ
れる。各ノードは、それぞれのノードで最適と認められたプロポーズされた新ク
ラスを表すデータを有する。各ノードはそのデータを使用して、様々なプロポー
ズされた新クラスタから新クラスタを選出する。例えば、プロポーズされたある
新クラスタが他よりもより多ければそれが新しいクラスタとして選出される。各
ノードは、新しいクラスタの潜在的なメンバーのノードから同じプロポーズされ
た新しいクラスタを受け取るので、新しいクラスタ・メンバーシップが満場一致
に達する。さらに、各ノードは新クラスタの潜在的なメンバーのノードに関する
より完全な情報を持っているので、得られた新しいクラスタはまぎれもなく相対
的に最適な構成である。

【００２１】プロセッサがメンバーとなっている分散型システムのプロセッサの間のアグリ
ーメントは、高度に有用な分散型システムの設計における基本的な問題である。
プロセッサがシャット・ダウンし、欠陥があり、復活し、新しいプロセッサが追
加されたときメンバーシップに変更が生じる。現在プロセッサ・メンバーシップ
問題の同意された定義は存在しない。そして、既存のメンバーシップ・プロトコ
ルはそれらのサービスに実質的に異なった保証を与えている。興味のあるプロト
コルは、現在のメンバーシップのプロセッサがメンバーのノードのセットに関し
て合意し、メンバーシップの変更が異なったノードで論理的に等価なときに起き
る。

【００２２】上述した欠陥によって、クラスタ・メンバーシップは、二つ又はそれ以上の完
全に接続された、投票のマジョリティ、投票のマイノリティ又は投票の正確な半
分を有するノードのサブセットに区切られる。最初の二つの場合は、クラスタの
次世代の形成するマジョリティ投票を持つサブセットが許可されることによって
解決される。最後の場合は、タイブレーク・メカニズムが採用されなければなら
ない。いくつかのクラスタ・メンバーシップ・アルゴリズムは、それらの問題を
解決する二つのノード・アーキテクチャによって課される制限の利点がある。三
つ以上のノードを含むアーキテクチャに対して一般化すると、次の新しい問題が
本発明によるアルゴリズムによって解決される。

【００２３】１．ノードの全ての対が共通の外部デバイスを共用しているわけでない時にク
オーラムとメンバーシップを解決する。

【００２４】クオーラム・アルゴリズムとメンバーシップ・アルゴリズムの統合が三つ以上
のノードを備えたシステムに必要になることがある。分散型システムに三つ以上
のノードがあると外部デバイスはメンバーシップとクオーラム問題を解決する必
要は実際にはない。二つのノードしかないシステムは、外部クオーラム・メカニ
ズムを必要としない。

【００２５】ある分散型コンピュータ・システムでは、この外部デバイスはディスクかＳＳ
Ａに存在するコントローラである。このクオーラム・デバイスの選択は、特にデ
ィスクに対してはクラスタの全体的な能力に逆に影響する好ましくない特性を持
っている。

【００２６】全てのノードが全ての外部デバイスに接続されるのを許されていないアーキテ
クチャを備えた四つのノードのシステムの場合は、より複雑になる。そのアーキ
テクチャにおいては、クラスタを形成しているノードのある組み合わせは、通信
媒体以外あらゆる外部デバイスを共用しておらず、したがって、そのようなクラ
スタが存在することを許すと、他のクオーラム・メカニズムを必要とする。公衆
ネットワークは重大なセキュリティの欠点があるので、最後の手段、すなわち人
手の介在が残されているだけである。投票の多数による勝者が自動的に決まらな
かった場合には、以下に完全に述べるようにこの手段を用いる。新しいユーザ・
インターフェースは以下に詳細に述べられる。

【００２７】２．メンバーシップを変更するために採用されたマジョリティ・クオーラム
要求の許可。三つ以上のノードで構成されたときには、マジョリティ・クオーラムに対して
は構成された投票全体の半分以上を要求することはユーザに対して柔軟性を制限
することになる。４つのノード・システムにおいては等しくない二つのノードが
クラスタを形成する。変形されたアルゴリズムは現在のメンバーシップと加入ノ
ードの投票に関するクオーラム要求に基づく。

【００２８】３．マジョリティ・クオーラム要求が低くなることをヒントとしてクラスタ
・メンバーの「自発離脱」を取り扱う。元のアルゴリズムは、半分を越すノードの同時クラスタ・シャットダウンはそ
れらのノードを除外した部分になると考えていた。結果としてのクオーラムの損
失と完全なクラスタのシャットダウンとを避けるために、新しいアルゴリズムは
、クオーラム要求を減少させるためにノードによる明確なシャットダウンの通知
が用いられる。

【００２９】４．ノードが区分されたときの加入の処理二つのノード構成とタイブレイク・クオーラム・デバイスでは、二つのノード
間の通信が壊れたときには二つのノードが独立のクラスタを形成することは不可
能である。三つ以上のノードと項目２における動的なクオーラム要求では、すべ
ての完全に接続されたノードのサブセットがクオーラムとともにクラスタを形成
するので、それとは相反する状態（二つまたはそれ以上の独立のクラスタ）が可
能である。本発明によるアルゴリズムは、クラスタの最初の生成とその後の加入
の間を区別する。この最初の加入を除き、加入は独立にクラスタを形成すること
はできず、ノードは既存のクラスタに加入するだけである。そのためのユーザ・
インターフェースは以下で論ずる。

【００３０】５．メンバーシップ・アルゴリズムの間に生じる欠陥の処理動的クオーラム要求では、クオーラムに対して要求された投票の数におけるノ
ードの間の不整合は欠陥が再構成の間に起こった時に起こることがある。二つま
たはそれ以上のサブセットがクオーラムを持ち、かつ独立のクラスタを形成する
可能性を避けるため、変形アルゴリズムは、加入するものに制限を課す。加入す
るものは既存のクラスタに完全にそのまま加入する。

【００３１】６．図１に示された部分的な接続状況の処理そのようなシナリオにおいて、元のアルゴリズムはアグリーメントに達しない
。アルゴリズムは、ノードのセットが同じメンバーシップ・プロポーザルに関し
て合意したとき収斂するが、その条件は決して満たされない。本発明に係わるア
ルゴリズムにおいては、この条件が（タイムアウトを用いて）疑われるとき、あ
るノードはそれらのメンバーシップ・プロポーザルを最大に接続されたサブセッ
トへ変形する。

【００３２】以下の区分において、クラスタ・デーモンが交換するメッセージのフォーマッ
トを議論し、なにが最適メンバーシップであるか、及びいかにしてそれを選択す
るかを決定し、上記でなされたことに加えてメンバーシップ・アルゴリズムでな
された仮定を特定し、メンバーシップにおける変化がいかにして生じたかを記述
し、メンバーシップ・アルゴリズムを記述し、ＣＭＭが登録されたプロセスのセ
ットをいかにして一時停止させて再開させるかを説明し、ＣＭＭが構成データベ
ースの一貫性をいかにしてチェックするかを論じ、必要とされる新しいユーザ・
インターフェースを特定する。

【００３３】４．１ＣＭＭメッセージクラスタの異なったノードに関するメンバーシップ・モニターは、それらが生
きていることを示すために互いにメッセージを交換し、すなわちハートビートを
交換し、クラスタ再構成を開始する。メッセージのそれらの二つのタイプを区別
することができるが、実際にはそれらは同じメッセージであり、ＲＥＣＯＮＦ＿
ｍｓｇメッセージと呼ばれ、受信ノードで再構成させる。

【００３４】各ＲＥＣＯＮＦ＿ｍｓｇは、以下のフィールドを含む。・異なった再構成を区別するシーケンス番号、ｓｅｑ＿ｎｕｍ。・ノードｉのメンバーシップ投票を含むベクタ、Ｍ_i。・最も最近の安定したメンバーシップのノードｉのビューを含むベクタＳ_i 。・ノードｉの接続性情報を含むベクタＶ_i。・最も最近の安定したメンバーシップが確立された時のクラスタを自発離脱
したノードのノードｉのビューを含むベクタＳＤ。・ノードＳｔ_iの状態。・オリジナルのノードのノードｉｄ。・加入を試みているノードのノードｉのビューを含むベクタＪ_i。・元のノードがそれ自身加入ノードと見られるかどうかを示すフラグ。

【００３５】４．２定義と仮定メンバーシップ・アルゴリズムはクラスターが同じ価値のノード、すなわち同
質のクラスタであると仮定している。メンバーシップ・アルゴリズムは以下の優
先順位で述べられた及びメンバーシップ・アルゴリズムの開発に用いられた一組
のルールに基づいている。１．ノードはプロポーズされたセットに自分自身を含む。２．ノードは加入しようと試みているノードに関してクラスタにすでにあるノ
ードに対して投票する。３．ノードはそれ自身を含み完全に接続されたノードを最も多く持っているセ
ットをプロポーズする。４．すべてのノードは、ノードの間で静的に決められた優先順位に同意する。
すなわち、低い数字のノードは高い数字のノードに優先する。

【００３６】上記ルールのセットは、階層の底部に静的に決めた優先権を備えたルールの階
層を定義する。上記でルールのセットは最適メンバーシップ・セット、すなわち

【数１】を定義する。

【００３７】一つ以上の欠陥を備えたクラスタの中で最適メンバーシップ・セット、

【数２】を見つけることはコンピュータ的に高価なタスクである。この問題は上記ルール
から導き出される最適の定義に従って、ノードのセットの最適なサブセットを選
択する立場から述べられる。クラスタがＮ個のノードからなる仮定すると、

【数３】を見つけることはＮｘＮサイズのマトリックスからＭｘＭの最適なマトリックス
・サイズを見つけることと等価である。ここでＭ＜Ｎである。この問題は、二項
係数としてよく知られた「Ｎ選択Ｍ」のよく知られた問題である。この問題に対
する解は、システムが均質であり、各ノードが０，１または−１のいずれかで表
すことができると仮定すると、０（２^N）複素数である。最適サブセットを見つけるコストはＮが大きいと止めなければならないほど高いが、Ｎ＜２０であれば
、このコストは止めるほどでもない。したがって、１６かそれ以下のノードのシ
ステムに対しては、網羅的なサーチ方法で最適セットを見つけることが推奨され
る。２０を越すノードを有するシステムに対しては、最適解に適切な発見的アル
ゴリズムが望ましい。

【００３８】失敗したノードがＲＥＣＯＮＦ＿ｍｓｇを現在のクラスタの他のすべてのメン
バーに同報通信すると仮定している。また、クラスタに加入しようとするノード
は最初の状態でそれを行い、そのシーケンス番号が０にリセットされると仮定す
る。同様に、自身のシーケンス番号より高いか等しいシーケンス番号を持った、
かつ順位値でせいぜい１だけ後ろの状態のメッセージが処理される。しかしなが
ら、重大な例外がある。メッセージが‘加入するもの’フラグがットされたノー
ドから来ると、その状態が新鮮でなく（２以上後ろ）ても処理される。それらは
、クラスタに加入しようとするノードであり、それらの初期メッセージを受けな
ければならない。これらのすべての仮定は、本発明によるメンバーシップ・アル
ゴリズムの実施態様によって実施される。

【００３９】４．３メンバーシップの変更次の区分で提供されるアルゴリズムに従ってメンバーシップが変更される結果
となるようにノードが再構成される方法はいくつかある。以下はそれらのリスト
である。１．加入：これはノードが新しいクラスタを形成するか、既存のクラスタに参
加するときである。（ａ）最初の加入：クラスタの最初のノードに対してのみ行われ、新しいコ
マンドｐｄｂａｄｍｉｎｓｔａｒｔｃｌｕｓｔｅｒを介して実施される。その
コマンドはノードで実行しているＣＭＭへ信号を送る。クラスタにはノードがな
いので、他のノードに聞かれることは予定していない。このコマンドはクラスタ
の一生のはじめに一度だけ発行される。クラスタの一生とはｐｄｂａｄｍｉｎ
ｓｔａｒｔｃｌｕｓｔｅｒが発行されてからクラスタにメンバーがいなくなるま
での期間である。もし、追加のｐｄｂａｄｍｉｎｓｔａｒｔｃｌｕｓｔｅｒコ
マンドが発行されると、最悪でシステムにデータ一貫性を妥協させ、ノードが分
離され、または最もありそうなケースは、エラーを発生し、かつこのコマンドが
間違って発行されたとしてノードを中断させることである。（ｂ）最初の加入に続く加入：この加入は共通のｐｄｂａｄｍｉｎｓｔａ
ｒｔｎｏｄｅコマンドによってなされ、一つのノードまたはノードのセットがク
ラスタに加入される。クラスタに加入しようとするノードはすでにクラスタのメ
ンバーになっているノードと通信し、それらがメンバーシップ・アルゴリズムで
加入できるかどうか知るようにつとめる。

【００４０】２．離脱：クラスタのメンバーであったノードが自発的か又は非自発的にク
ラスタから離れるときになされる。（ａ）自発離脱：オペレータはｐｄｂａｄｍｉｎｓｔｏｐｎｏｄｅコマンド
をノードへ発行する。これにより、そのノードは停止シーケンスを終える。その
結果ノードはクラスタを形成している全てのノードにそのクラスタが離脱しよう
としていることを示すメッセージを送る。この情報はメンバーシップの最適化の
ためにメンバーシップ・アルゴリズムによって使用されることができ、かつ使用
される。（ｂ）非自発離脱：これには異なった二つのケースがある。ｉ．ノードはその中止又は停止シーケンスを完了することができ、か
つその後「クリーンアップ」できる。より重要なことは、ＣＭＭに関する限り、
ノードが自発離脱の時と同じメッセージ、すなわち、そのノードがクラスタに属
しなくなるということをクラスタの他のメンバーに知らせるメッセージを送るこ
とができることである。ノードの自発離脱に対して実行された最適化がここでも
実際に実施される。ノードは固有の特権を持つアプリケーション・プログラムか
らの要求でクラスタから離れる。 ii．ノードが中止シーケンスを完結しないとシステムはパニックを起
こす。これは処理するのに最も困難な欠陥であり、通常、欠陥ノードからのハー
トビート・メッセージが無くなることを検出する。この欠陥は非同期分散型シス
テムではネットワーク欠陥と区別できない。

【００４１】４．４アルゴリズムこのセクションでは、メンバーシップ・アルゴリズムを、次の前提および定義
に基づいて説明する。このアルゴリズムで使用されるユーザ・インターフェイス
については後で説明し、アルゴリズムのフローを「クリーン」にする。アルゴリ
ズムの説明に入る前に、メンバーシップ・アルゴリズムの実現に必要とされるル
ールを記載する。

【００４２】・各ノードは、既にクラスタの一員であるかクラスタに加わろうとしているか
にかかわらず、ただ１つの投票ができる。

【００４３】・各ノードｉは、その「接続性状態マトリクスＣｉ」を、他のノードからの受
け取ると直ちに更新する。マトリクスＣｉは、システムのすべての接続性に関し
てのノードｉの理解である。もし、ノードｉは、ノードｊから受け取らないか、
又は、ノードｊがダウンしているか若しくはノードｊに到達され得ないとすると
、Ｃｉの要素ｅ_ijをゼロにマークする。さらに、ｊ番目の行のすべての要素を『
ＮＵＬＬ』マークする。これは、ノードｉには、ノードｊの接続性に関する情報
がないことを暗示する。マトリクスの他の行については、ノードｉは、その接続
性マトリクスのｋ番目の行を接続性ベクトルＶ_kで置換することによって、更新を行う。

【００４４】・各ノードｉは、当初、その「ＲＥＣＯＮＦ＿ｍｓｇ」におけるＣ_iのｉ番目の行を、投票しているプロポーズド・メンバーシップ・セット

【数４】として含む。ノードｉによりプロポーズされているセット

【数５】は、ベクトルＶ_iとは異なることに留意されたい。

【数６】は、プロポーズされたセットであって、他のノードへの投票をバイナリ・フォー
ムで記述し、一方、Ｖ_iは、「状態」ベクトルであって、システムにおけるノードの接続性を扱う。

【数７】は、ノードが安定なメンバーシップに同意できず且つＶ_iのサブセットが新しいメンバーシップ・セットとしてプロポーズされる必要があるときには、Ｖ_iではなくてそれぞれノードｉｄおよびバイナリ投票値である、異なる要素を有してい
る。

【００４５】・各ノードｉは、クラスタ・メンバーシップのカレント・ビュー中に、同意さ
れているかプロポーズされているかにかかわらず、存在するノードの全数を、ロ
ーカル変数Ｎ_i中に維持する。ローカル変数Ｎ_iは、メンバーシップ・アルゴリズ
ムの実行中、次のルールに従う。（ａ）Ｎ_iは、

【数８】の個数(cardinality)に初期化される。（ｂ）Ｎ_iは、クラスタに加わろうとするノード毎にインクリメント（増分）される（メッセージに埋め込まれているノードｉｄが、レシーバ・スレッドに
よってチェックされる毎に、ノード毎に１のインクリメントが強制される。）（ｃ）Ｎ_iは、セクション４．３の２（ｂ）ｉに定義されているような各ノードの中止、または、自発的離脱に対して、デクレメント（減分）される。（レ
シーバ・スレッドによる実行）（ｄ）メンバーシップ・アルゴリズムの終わりでクオーラム(quorum)が、Ｎ _i のこの概念について決定される。

【００４６】・メンバーシップ・アルゴリズムの終了時に、クラスタを形成しているノード
はメンバー・ノードの新しいセット

【数９】に同意する。このセットは、メンバーシップ・アルゴリズムの次のランにおいて
使用され、その際には、前回に構成部分をなしていたすべてのノードは、一致し
た

【数１０】のセットを持っていると仮定される。

【００４７】・各ノードｉは、メンバーシップ・アルゴリズムに入る前に、カレント・クラ
スタ中の全てのノードに同一のシーケンス・ナンバーｓｅｑ＿ｎｕｍを持つこと
になる。加えて、各ノードは、その接続性状態マトリクスＣ_iを持つことになる。Ｃ_iはｎ×ｎのマトリクスであり、ｎは、カレント・クラスタ構成ファイル（即ち、カレントｃｄｂファイル）によって定義されるノードの最大数である。

【００４８】・加入する各ノードは、変数ｊｏｉｎｉｎｇ＿ｎｏｄｅを真（ＴＲＵＥ）にセ
ットする。ノードは、一度、

【数１１】のメンバーになると、加入するもの（joiner)ではなくなり、ｊｏｉｎｉｎｇ＿ｎｏｄｅは偽（ＦＡＬＳＥ）にセットされる。

【００４９】・最初の加入を達成中のノードは、変数ｓｔａｒｔ＿ｃｌｕｓｔｅｒを真（Ｔ
ＲＵＥ）にセットする。クラスタに加入しようとしているノードは、変数ｓｔａ
ｒｔ＿ｃｌｕｓｔｅｒを偽（ＦＡＬＳＥ）にセットする。

【００５０】クラスタの全てのノードは、種々のタイムアウト値に関する情報を、構成ファ
イルから入手する。記号Ｔ１，Ｔ２，．．．．が、可能な異なるタイムアウト値
を示すのに使用される。これらの値のすべては、全てのノードについて一致して
いなければならず、通信およびキューの遅れを導入するために妥当な値にセット
される。

【００５１】アルゴリズムは、各ノードｉについて次のように記述できる。

【表１】

【表２】

【表３】

【表４】

【表５】

【表６】

【００５２】上記のアルゴリズムにおいて、クラスタの部分である全てのノードに対してメ
ッセージを送る手だてがあると仮定している。もし、ノードがダウンしているか
、到達され得ないとすると、以前の構成によって処理されたと考えられて、マト
リクス

【数１２】中に反映される。

【００５３】上記のアルゴリズムにおいて、関数ｍｅｍｂｅｒｓｈｉｐ＿ｐｒｏｐｏｓａｌ
（）は、ダウン（ＤＯＷＮ）状態にない全てのノードを含むＣ_iに基づくメンバーシップ・プロポーザルを返す。その関数は、プロポーザルに、

【数１３】の全てが含まれていないときは、プロポーザルから全ての加入希望者を排除する
。重要な関数は、ｓｔａｂｌｅ＿ｐｒｏｐｏｓａｌ（）関数である。この関数は
、プロポーズド・セット

【数１４】が、当該セットの他の全てのメンバーによって同意されているか否かを、決定す
る。投票数をカウントするために、ノードｉは、他のノードからのプロポーズさ
れたセット（すなわち、

【数１５】と、自己のセット

【数１６】（但し、ｊ≠ｉ）とを比較する必要がある。関数ｓｈａｒｅ＿ｑｕｏｒｕｍ＿ｄｅｖ（）は、ＣＣ
Ｄダイナミック・ファイルの利用によって実現され、メンバーシップ・アルゴリ
ズムに、２つのノードのクラスタのような、２つのノードがクオーラム・デバイ
スを共有する場合を知らせる。バイナリ関数ｒｅｓｅｒｖｅ＿ｑｕｏｒｕｍ（）
は、デバイスが既に他の１つのノードによって確保されている場合に限って、偽
（フォールス）を返す。関数ｗａｉｔ＿ｆｏｒ＿ｕｓｅｒ＿ｉｎｐｕｔ（）につ
いては以下に詳述する。

【００５４】関数ｐｒｏｐｏｓｅ＿ｎｅｗ＿ｍｅｍｂｅｒｓｈｉｐ（）は、呼び出され、上
に記述した最適性条件に従って最適なサブセット

【数１７】を見いだす。その関数は、

【数１８】のサブセットの組み合わせを、最初の十分に接続されたセットが見つかるまで、
徹底的にテストする。ｆｕｌｌｙ＿ｃｏｎｎｅｃｔｅｄ（ｐｒｏｐ）関数は、も
し、候補のプロポーザルｐｒｏｐが、ｐｒｏｐのメンバーのプロポーザルの全て
に含まれているならば、真（トゥルー）を返す。もし、

【数１９】が既に十分に接続されているなら、プロポーザルは変化しないことに留意された
い。もし、

【数２０】が十分に接続されていなければ、加入希望者（joiner)はプロポーザル中に存在しないと言うことにも留意されたい。最後に、ｆｉｎｄ＿ｏｐｔｉｍａｌ＿ｐｒ
ｏｐｏｓａｌ（）関数およびｇｅｔ＿ｎｅｘｔ＿ｐｒｏｐｏｓａｌ（）関数は、
徹底的なサーチを行う。

【００５５】４．５ユーザ・インターフェイスこれまで、潜在的なスプリット・ブレイン状況にあるときに、どのようにして
ユーザ・インプットとのタイ・ブレークをするかについての説明は、まだ行って
いない。このサブセクションでは、タイ・ブレークを如何にして実現するかを明
らかにする。

【００５６】ノードのセットＸおよびこれとは異なるノードのセットＹの双方が丁度Ｎ／２
（Ｎは以前のクラスタ中のノード数）の投票を有しているという状況が、オペレ
ータの補助を必要とする場合である。もし、ＸおよびＹの双方の候補性が１（ｏ
ｎｅ）であって、それらがクオーラム・デバイスを共有しているならば、オペレ
ータからの入力を求める必要はない。双方の状況において、ノードは、メンバー
シップ・アルゴリズムにおいてｗａｉｔ＿ｆｏｒ＿ｕｓｅｒ＿ｉｎｐｕｔ（）呼
び出し実行によってユーザ入力を待機する。ｗａｉｔ＿ｆｏｒ＿ｕｓｅｒ＿ｉｎ
ｐｕｔ（）へのコールは、オペレータに対して潜在的タイのブレークをなすべき
ことを知らせるメッセージを継続的にプリントすることになる「ｐｒｉｎｔ」ス
レッドを生成する。メッセージは、適切なノードに対して、シャット・ダウンさ
れねばならないか又は生かしておくとの通知をされねばならないセットＸまたは
Ｙを特定する。オペレータは、ｐｄｂａｄｍｉｎｓｔｏｐｎｏｄｅコマンドを
ノードの１セットに対して発生し、新しいコマンドｐｄｂａｄｍｉｎｃｏｎｔ
ｉｎｕｅを他のセットに対して発生することによって、タイ・ブレークを行う。
ストップ・コマンドを受けるセットはアボートし、他のセットはメッセージのプ
リントを停止し且つその再構成を継続する。他のやり方として、オペレータは、
ｃｌｕｓｔｍｒｅｃｏｎｆｉｇｕｒｅコマンドを発生することができる。この
コマンドは、通信のブレーク・ダウンが生じたがオペレータが修復をした場合に
、有効なオプションである。ｃｌｕｓｔｍｒｅｃｏｎｆｉｇｕｒｅコマンドの
発生は、新しい再構成の生成を生じさせる。もし、オペレータが、ｐｄｂａｄｍ
ｉｎｓｔｏｐｎｏｄｅ，ｃｌｕｓｔｍｒｅｃｏｎｆｉｇｕｒｅまたはｐｄｂ
ａｄｍｉｎｃｏｎｔｉｎｕｅに加えて、この時、何か他のコマンドを発生させ
ると、コマンド・リーダー・スレッドは、それらのコマンドの１つを待機してい
るトランジションズ・スレッドに信号を送らず、コマンドを単に無視する。一方
、プリント・スレッドは、それらのメッセージを数秒に１回プリントし続けて、
何らかのアクションを即時に行うべきであることをオペレータに知らせる。

【００５７】トランジションズ・スレッドによって実行されている関数ｗａｉｔ＿ｆｏｒ＿
ｕｓｅｒ＿ｉｎｐｕｔ（）は、次のように実行される。

【００５８】

【表７】

【００５９】アクションの上記のシーケンスは、トランジションズ・スレッドを条件変数ｓ
ｔａｔｅ＿ｃｈａｎｇｅ＿ｃｖ上でスリープさせる。その条件変数は以下の条件
下でフラッグ付けをされる。・ユーザが、ｃｏｎｔｉｎｕｅコマンドを発生させる。・ユーザが、ｓｔｏｐｎｏｄｅコマンドを発生させる。・ユーザが、再構成を強制する。・ノードが、そのカレント・メンバーシップ・セット内のリモート・ノードの
ダウンを示すメッセージを受ける。・ノードが、そのカレント・メンバーシップ・セット内のリモート・ノードか
ら、ｎｏｄｅ＿ｄｏｗｎ＿ｔｉｍｅｏｕｔのためのメッセージを受けていない。

【００６０】これらのアクションは全て、トランジションズ・スレッドにフラッグ付けをす
るのに適切であり、ユーザがコマンドの正しいセットを発生することを許容され
て、ただ１つの主たるグループがクラスタ内でオペレーション状態に確実にとど
まらせるようにできる。

【００６１】５．欠陥遮蔽（Failure Fencing）および資源移転（Resource Migration）新しいアーキテクチャーに由来して修正が必要となる、システムの他のコンポ
ーネントの１つは、分散型コンピュータ・システムにおいて場合により採用され
る欠陥遮蔽メカニズムである。このセクションでは、資源移転の一般的問題およ
び欠陥遮蔽の特定の問題に対する解を論じる。得られる解は、種々のアレイのト
ポロジー（カスケードされた、ｎ＋１の、交差接続の（クロス−接続）、その他
のトポロジー）、ならびに、異なるソフトウエアの構成（Ｎｅｔｄｉｓｋを持つ
ＣＶＭ、スタンド・アローンのＶｘＶＭ、またはその他の構成）を扱うと言う意
味で一般的である。その解は、２ノードの交差に接続されたアレイ構成をも、特
別のケースとしてではなく取り扱うものである。

【００６２】仮定および一般解を次に論じる。続けて、資源移転問題（大いに利用可能なデ
ィスク・グループ、ＨＦ／ＮＦＳファイル・システム、パブリック・ネットワー
ク上の論理ＩＰアドレス）を如何に解決するかについての短い注解が付される。

【００６３】５．１仮定ＣＶＭおよびＮｅｔｄｉｓｋを持つ共有のディスク・コンフィギュレーション
（構成）では、すべてのＮｅｔＤｉｓｋデバイスのためのマスタ・ノードおよび
そのバックアップ・ノードは、直接的物理アクセスを、基礎にある物理デバイス
に対して行う。

【００６４】ＶｘＶＭを持つ非共有の構成の場合には、ディスク・グループのセットの主（
プライマリイ）オーナシップを有する各ノードは、それらのディスク・グループ
に属するデバイスに対して直接的物理アクセスをすると仮定される。より具体的
には、もし、ノードＮがディスク・グループＧの主オーナシップを有するならば
、ディスク・グループＧに属するディスクの全ては、Ｎに接続されていてＤと表
記されるストレージ・デバイスのセット中に見いだされ得る。

【００６５】ＮｅｔＤｉｓｋデバイスまたは他の資源の主オーナシップおよびバックアップ
・オーナシップに関する情報が、クラスタ構成データベース（Ｃｌｕｓｔｅｒ
ＣｏｎｆｉｇｕｒａｔｉｏｎＤａｔａｂａｓｅすなわちＣＣＤ）に維持されて
、全てのノードから一貫性をもって利用可能である、と仮定される。この仮定は
、ＣＣＤのダイナミック部分の使用によって強制化できる。特に、欠陥遮蔽およ
び資源移転のためのステップが次のサブセクションで概説する再構成プロセス中
で実行される時、ＣＣＤは、上の情報を得るために質問を受け得る。それらのス
テップは、クラスタ・メンバーシップが決定され且つクオーラムが得られた後に
おいてのみ、実行される。

【００６６】５．２欠陥遮蔽分散型コンピュータ・システムによっては、すべてのノードにバックアップ・
ノードが設けられる。ノード（主）およびそのバックアップ・ノードは、それら
が接続されている共通のデバイス・セットを共用する。これは、Ｂ（Ｎ_i）＝Ｎ_j によって示される。ＣＶＭプラスＮｅｔｄｉｓｋの構成では、バックアップ・ノ
ードは、欠陥ノードにより所有されていたＮｅｔＤｉｓｋデバイスのセットのマ
スターとなる。ＶｘＶＭ構成の場合には、バックアップ・ノードは、欠陥ノード
により所有されていたディスク・グループ資源のセットの主オーナとなる。

【００６７】Ｎｉでクラスタのノードを示し、Ｄ_iで（１以上のＳＳＡ及び／又はＭｕｌｔｉｐａｃｋｓで構成される）ストレージ・デバイスを示すものとする。クラスタ
に４つのノードが存在すると仮定し、カスケードされた構成について次の関係が
あると仮定する。すなわち、Ｂ（Ｎ1）＝Ｎ4，Ｂ（Ｎ2）＝Ｎ1，Ｂ（Ｎ3）＝Ｎ
2，Ｂ（Ｎ4）＝Ｎ3の関係を仮定する。ｎ＋１の構成については、Ｂ（Ｎ1）＝Ｎ4, Ｂ（Ｎ2）＝Ｎ4, Ｂ（Ｎ3）＝Ｎ4の関係が与えられる。これでは、Ｎ4 はバックアップ・ノードを持たない。最後に、交差接続では、バックアップと主（
プライマリイ）との関係は、Ｂ（Ｎ1）＝Ｎ2，Ｂ（Ｎ2）＝Ｎ1，Ｂ（Ｎ3）＝Ｎ
4，Ｂ（Ｎ4）＝Ｎ3で与えられる。２ノードの交差接続の場合には、単にＢ（Ｎ
1）＝Ｎ2, Ｂ（Ｎ2）＝Ｎ1に単純化される。

【００６８】５．３一般解ノードｉが欠陥となり、この欠陥の結果、他の全てのノードが再構成されると
仮定する。生き残っているノードｊは、メンバーシップおよびクオーラムが決定
された後で、次の簡単なステップを実行する。

【００６９】

【表８】

【００７０】「ｔａｋｅｏｖｅｒｔｈｅｓｅｄｅｖｉｃｅｓ」は、ＮｅｔＤｉｓｋデバ
イスのオーナシップ取得のためにＮｅｔＤｉｓｋから与えられるインターフェイ
スの何れかを、それの達成に使用できる、と言うことを含意する。

【００７１】欠陥ノードをマスターにしていたＮｅｔＤｉｓｋデバイスが何れであるかを、
どのようにして正確にノードが決定するかについては、シンタックスの詳細に言
及することなく、次の記述をすれば十分であろう。すなわち、ＣＣＤが、そのデ
ータベースに情報を保有し、その情報と、現在再構成中のノードが欠陥ノードの
バックアップであるか否かとを引き出す質問を受ける、との記述すれば十分であ
ろう。

【００７２】分散型コンピュータ・システムによっては、ディスク・グループの主オーナシ
ップに関する情報が、次のフォーマットのｃｄｂファイルに保持される。

【００７３】ｃｌｕｓｔｅｒ．ｎｏｄｅ．（）．ｃｄｇ：ｄｇ１ｄｇ２ｃｌｕｓｔｅｒ．ｎｏｄｃ．（）．ｃｄｇ：ｄｇ３ｄｇ４

【００７４】ＣＣＤにおいて、ＮｅｔＤｉｓｋデバイス構成と全く同じやり方ですべてのノ
ードから利用可能とするために、この情報の等価な表現を見つけだすことは単純
であるべきである。各ノードのために付加すべき予備の表現は、勿論、ＮｅｔＤ
ｉｓｋデバイス構成と同じやり方のバックアップ・ノードである。例えば：ｃｄｇ：ｄｇ１，ｄｇ２：０．１．クラスタ・ディスク−グループｄｇ１およびｄｇ２の主オーナは、ノード０及
びそのバックアップ・ノード１である。

【００７５】ＣＣＤまたはボリューム・マネージャに質問して、特定のＮｅｔＤｉｓｋ仮想
デバイスまたは特定のディスク・グループそれぞれに付随の物理デバイスのセッ
トを見つけだすこともできる。

【００７６】最後に、これらは、欠陥ノードｉがクラスタに加入希望を出せるようになった
ときに実行されるステップである。他のノードｊ≠ｉのそれぞれは、このシーケ
ンスを、再構成プロセスのある未決定のステップｋにおいて、実行する。

【００７７】

【表９】

【００７８】次のシーケンスが、加入希望を出しているＮｏｄｅＮｉによって、再構成プ
ロセスのステップｋ＋１において実行される。

【００７９】

【表１０】

【００８０】ノードｊ≠ｉにおいて、ｉがクラスタに加入しようとしているのか再構成をま
さに受けようとしているのかどうか、および、既にクラスタの一部であったか否
かの判断をすることはできない。これは問題ではない。なぜなら、ノードＮｊが
、それに適切なアクションをとらせる、クラスタ・メンバーシップの一部を主オ
ーナとして持つ資源を、所有しているか否か、についての判断は単純な事項だか
らである。もし、アルゴリズムが正しく実装されているなら、

【００８１】このセクションのアプローチを使用して、一定の分散型コンピュータ・システ
ムでの一般的な資源移転の問題を解決できる。高度に利用可能であるべき資源は
、欠陥ノードから生き残っているノードへと移転される。そのような資源の一例
は、非共用のデータベース環境におけるディスク・グループ，ＨＡ−ＮＦＳファ
イル・システムや論理ＩＰアドレス用のディスク・グループである。任意の資源
をＣＣＤにおいて、マスターおよびバックアップ・ノードと指定できる。例えば
、論理ＩＰアドレスを、欠陥ノードから生き残っているノードへと移転できる。
切換え実行のために、バックアップ・ノードは、加入ノードがその資源を引き取
るワンステップ前に、加入ノードの資源を解放しなければならない。

【００８２】５．４ディスク・グループに対する制限（レストリクション）分散型コンピュータ・システムによっては、クラスタのノードからアレイへの
接続を任意に行うことができない。なぜなら、幾つかのアレイにわたって分布し
ているディスク・グループは、クラスタの他の複数のノードへは移転できず、全
体として１つのノードへ移転されねばならないからである。例を挙げると、４つ
のノードＮ１，・・・Ｎ４および４つのアレイ・デバイスＤ１・・・Ｄ４が存在
する構成を考え、ノードＮｉがアレイＤｊへの物理接続を有していると仮定する
。さらに、Ｎ２がＤ１およびＤ３へ、Ｎ３がＤ２およびＤ４へ物理的に接続して
いるとし、Ｎ１およびＮ４には他の接続がないとする。

【００８３】ノードＮ２が、アレイＤ１およびＤ３中の複数ディスクに分布されているディ
スク・グループＧを有するとする。もし、Ｎ２が欠陥となると、Ｇは、そのディ
スクの全てがＮ１またはＮ３上で可視的であるわけでないので、その全体を、Ｎ
１またはＮ３にインポートできない。このような構成は、分散型コンピュータ・
システムによっては、サポートされていない。もし、ノードがディスク・グルー
プを所有していて、且つ、そのノードが欠陥になるとすると、ディスク・グルー
プの全体が、生き残っているノードの１つによって引き取られるべきである。こ
のことによって、アレイのトポロジーは制限を受けないが、データをどのように
アレイにわたっち分布させるかに対して制限が課される。

【００８４】５．５最小の負担での移転システムにおいて、最も時間を要する動作の１つは、データのレイアウトであ
る。これを、現に存在している２ノードのクラスタから３ノードのクラスタへの
アップグレードや、現存の３ノードのクラスタから４ノードのクラスタへのアッ
プグレードのために、最小化することを提案する。動的にこれを行うのではない
。クラスタはシャット・ダウンされて、再スタートされる。唯一の基準は、同一
ノードからのデータのミラーおよびプライマリイ・コピーに対して、そのボリュ
ームおよび／またはディスク・グループの全体を中継することなしに、アクセス
することを可能とすることである。これにはアダプタ・カードの追加が必要とな
る。

【００８５】以上の記述は、例示の目的のもので限定を意図するものではない。本発明は、
それ故、請求の範囲の記載およびそれに均等の事項によってのみ記述される。

【図面の簡単な説明】

【図１】二つのノードの間の通信と二つのそれぞれの交換機が故障した分
散型コンピュータ・システムのブロック図である。

【図２】二重ポートデバイスを含む分散型コンピュータ・システムのブロ
ック図である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ) ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＷ (71)出願人 901 ＳＡＮＡＮＴＯＮＩＯＲＯＡＤＰＡＬＯＡＬＴＯ，ＣＡ 94303，Ｕ．Ｓ．Ａ． (72)発明者ウィディヨノ，ロナルドアメリカ合衆国・94043・カリフォルニア州・マウンテンビュー・ライトアベニュ・1117 (72)発明者モディリ，ラミンアメリカ合衆国・95148・カリフォルニア州・サンホゼ・ティンバーレイクアベニュ・3459 【要約の続き】ば、他のクラスタより、より多くプロポーズされた新しいクラスタが新しいクラスタとして選出される。各ノードは、新しいクラスタの潜在的なメンバーのノードから同じプロポーズされた新しいクラスタを受け取るので、新しいクラスタ・メンバーシップは全員一致に達する。各ノードは新しいクラスタの潜在的なメンバーのノードに関する完全なより情報を持っているので、得られたクラスタは疑いなく相対的に最適な構成となる。

Claims

【特許請求の範囲】

【請求項１】分散型コンピュータ・システムにおけるノードのメンバーシ
ップを決定する方法において、（ａ）分散型コンピュータ・システムのノードの接続性を表す接続データを
決定するステップと、（ｂ）プロポーズされた新しいクラスタのプロポーズされたメンバーシップ
・リストを形成するために接続データに最適化基準を適用するステップと、（ｃ）プロポーズされたメンバーシップ・リストを接続されているノードに
同報通信するステップと、（ｄ）接続されているノードから他のプロポーズされたメンバーシップ・リ
ストを受け取るステップと、（ｅ）他のプロポーズされたメンバーシップ・リストから選出されたプロポ
ーズされたメンバーシップ・リストを選択するステップとを有する方法。
【請求項２】接続データを決定する（ａ）ステップが選択されたノードが分散型コンピュータ・システムの他のノードのどのノード
と通信しているかを決定するステップと、接続されているノードを特定するデータを他のノードに同報通信するステップ
と、接続されているノードからノード接続データを受け取るステップと、接続されているノードからのノード接続データと接続されているノードを特定
するデータを接続データを形成するために組み合わせるステップとを有する請求項１記載の方法。
【請求項３】選出されたプロポーズされたメンバーシップ・リストを選択
する（ｅ）ステップがプロポーズされたメンバーシップ・リストと他の全てのプロポーズされたメン
バーシップ・リストとが一致すことを確認するステップを含む請求項１記載の方法。
【請求項４】選出されたプロポーズされたメンバーシップ・リストを選択
する（ｅ）ステップがさらにプロポーズされたメンバーシップ・リストと他の全てのプロポーズされたメン
バーシップ・リストとの間の不一致を検出するステップを有し、その不一致に応じて（ａ）〜（ｄ）を繰り返す請求項１記載の方法。
【請求項５】選出されたプロポーズされたメンバーシップ・リストを選択
する（ｅ）ステップが選出されたプロポーズされたメンバーシップ・リストがまとまってクオーラム
を形成するノードを表すことを決定するステップを含む請求項１記載の方法。
【請求項６】選出されたプロポーズされたメンバーシップ・リストがまと
まってクオーラムを形成するノードを表すことを決定するステップが、分散型コンピュータ・システムの動作しているノードの数を推測するステップ
を含む請求項５記載の方法。
【請求項７】分散型コンピュータ・システムの動作しているノードの数を
推測するステップが最初に述べたプロポーズされたメンバーシップ・リストに表されているノード
の数を決定するステップと、加入ノードの数を追加するステップと、自発に離脱するノードの数を減算するステップとを有する請求項６記載の方法。
【請求項８】プロセッサとメモリを含むコンピュータで使用するコンピュ
ータ可読媒体であって、（ａ）分散型コンピュータ・システムのノードの接続性を表す接続データを
決定し、（ｂ）プロポーズされた新しいクラスタのプロポーズされたメンバーシップ
・リストを形成するために接続データに最適化基準を適用し、（ｃ）プロポーズされたメンバーシップ・リストを接続されているノードに
同報通信し、（ｄ）接続されているノードから他のプロポーズされたメンバーシップ・リ
ストを受け取り、（ｅ）他のプロポーズされたメンバーシップ・リストから選出されたプロポ
ーズされたメンバーシップ・リストを選択することによって、分散型コンピュータ・システムのノードのメンバーシップをコン
ピュータに決めさせるコンピュータ命令を含むコンピュータ可読媒体。
【請求項９】接続データを決定（ａ）する際に選択されたノードがｂｐの他のノードのどのノードと通信しているかを決定し
、接続されているノードを特定するデータを他のノードに同報通信し、接続されているノードからノード接続データを受け取り、接続されているノードからのノード接続データと接続されているノードを特定
するデータを接続データを形成するために組み合わせる請求項８記載のコンピュータ可読媒体。
【請求項１０】選出されたプロポーズされたメンバーシップ・リストを選
択する（ｅ）際にプロポーズされたメンバーシップ・リストと他の全てのプロポーズされたメン
バーシップ・リストとが一致すことを確認し、を含む請求項８記載のコンピュータ可読媒体。
【請求項１１】選出されたプロポーズされたメンバーシップ・リストを選
択する（ｅ）際に、さらにプロポーズされたメンバーシップ・リストと他の全てのプロポーズされたメン
バーシップ・リストとの間の不一致を検出し、その不一致に応じて（ａ）〜（ｄ）を繰り返す請求項８記載のコンピュータ可
読媒体。
【請求項１２】選出されたプロポーズされたメンバーシップ・リストを選
択する（ｅ）際に選出されたプロポーズされたメンバーシップ・リストがまとまってクオーラム
を形成するノードを表すことを決定する請求項８記載のコンピュータ可読媒体。
【請求項１３】選出されたプロポーズされたメンバーシップ・リストがま
とまってクオーラムを形成するノードを表すことを決定する際に、分散型コンピュータ・システムの動作しているノードの数を推測する請求項１
２記載のコンピュータ可読媒体。
【請求項１４】分散型コンピュータ・システムの動作しているノードの数
を推測する際に最初に述べたプロポーズされたメンバーシップ・リストに表されているノード
の数を決定し、加入ノードの数を追加し、自発に離脱するノードの数を減算する請求項１３記載のコンピュータ可読媒体。
【請求項１５】プロセッサと、プロセッサに接続されたメモリと、（ｉ）メモリーからプロセッサで実行し、かつ（ii）プロセッサによって実行
されたとき、コンピュータに分散型コンピュータ・システムのノードのメンバー
シップをであって（ａ）分散型コンピュータ・システムのノードの接続性を表す接続データ
を決定し、（ｂ）プロポーズされた新しいクラスタのプロポーズされたメンバーシッ
プ・リストを形成するために接続データに最適化基準を適用し、（ｃ）プロポーズされたメンバーシップ・リストを接続されているノード
に同報通信し（ｄ）接続されているノードから他のプロポーズされたメンバーシップ・
リストを受け取り、（ｅ）他のプロポーズされたメンバーシップ・リストから選出されたプロ
ポーズされたメンバーシップ・リストを選択することによって決定させる欠陥検出モジュールとを有するコンピュータ・システム。
【請求項１６】接続データを決定（ａ）する際に選択されたノードがｂｐの他のノードのどのノードと通信しているかを決定し
、接続されているノードを特定するデータを他のノードに同報通信し、接続されているノードからノード接続データを受け取り、接続されているノードからのノード接続データと接続されているノードを特定
するデータを接続データを形成するために組み合わせる請求項１５記載のコンピュータ・システム。
【請求項１７】選出されたプロポーズされたメンバーシップ・リストを選
択する（ｅ）際にプロポーズされたメンバーシップ・リストと他の全てのプロポーズされたメン
バーシップ・リストとが一致すことを確認し、を含む請求項１５記載のコンピュータ・システム。
【請求項１８】選出されたプロポーズされたメンバーシップ・リストを選
択する（ｅ）際に、さらにプロポーズされたメンバーシップ・リストと他の全てのプロポーズされたメン
バーシップ・リストとの間の不一致を検出し、その不一致に応じて（ａ）〜（ｄ）を繰り返す請求項１５記載のコンピュータ
可読媒体。
【請求項１９】選出されたプロポーズされたメンバーシップ・リストを選
択する（ｅ）際に選出されたプロポーズされたメンバーシップ・リストがまとまってクオーラム
を形成するノードを表すことを決定する請求項１５記載のコンピュータ・システ
ム。
【請求項２０】選出されたプロポーズされたメンバーシップ・リストがま
とまってクオーラムを形成するノードを表すことを決定する際に、分散型コンピュータ・システムの動作しているノードの数を推測する請求項１
９記載のコンピュータ・システム。
【請求項２１】分散型コンピュータ・システムの動作しているノードの数
を推測する際に最初に述べたプロポーズされたメンバーシップ・リストに表されているノード
の数を決定し、加入ノードの数を追加し、自発に離脱するノードの数を減算する請求項２０記載のコンピュータ・システム。