JPH10116259A

JPH10116259A - ２ノード分散型コンピュータ・システムにおけるクオラム機構

Info

Publication number: JPH10116259A
Application number: JP9144026A
Authority: JP
Inventors: Hossein Moiin; ホセイン・モイイン; Ottalingam Satyanarayanan; オッタリンガム・ティー・サトヤナラヤナン; Angelo Pruscino; アンジェロ・プルスチーノ
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1996-05-31
Filing date: 1997-06-02
Publication date: 1998-05-06
Also published as: DE69715967D1; EP0810526B1; EP0810526A1; DE69715967T2; US5828889A; US5948109A

Abstract

(57)【要約】（修正有）【課題】２ノード分散型コンピュータ・システムにお
いて障害を発生したノードが共有資源の予約を放棄する
ことを必要としないクオラム機構を提供する。【解決手段】障害を発生した分散型コンピュータ・シ
ステムの各ノードは、クオラム・コントローラとして指
定された２つの共有記憶装置の予約を成功させることに
よるクオラムを達成する競争を行う。分散型コンピュー
タ・システムの正常動作の間、クオラム・コントローラ
の各々は、各ノードに関連付けられ、これによって予約
されている。分散型コンピュータ・システムの障害検出
に応答したクオラムのための競争の間、障害を発生して
いない各ノードは、他のノードに関連するクオラム・コ
ントローラを強制的に予約する。１つのノードが双方の
クオラム・コントローラに対する予約を保持した場合、
このノードはクオラムを獲得したことになる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、分散型コンピュー
タ・システムにおけるフォールト・トレランス(fault t
olerance)に関し、更に特定すれば、障害を発生した分
散型コンピュータ・システムにおいて、２つのノードの
どちらが共有資源に対する排他的アクセスを有するのか
を判定するための特に堅牢な(robust)機構に関するもの
である。

【０００２】

【従来の技術】今日のコンピュータによって実行される
タスクの複雑性は急速な成長を続けている。したがっ
て、コンピュータ・アプリケーションやデータベースが
多数のコンピュータに分散される分散型コンピュータ・
システムの重要性が、劇的に高まりつつある。

【０００３】分散型コンピュータ・システムでは、当該
分散型コンピュータ・システムを構成する通常「ノー
ド」または「ホスト」と呼ばれる多数のコンピュータ
が、分散型データベースを集合的に格納する記憶装置へ
のアクセスを共有する。分散型コンピュータ・システム
の構成物が障害を発生すると、分散型データベースの信
頼性の低下、劣化(corruption)を生じ、したがって分散
型データベースに格納されている貴重で恐らくは交換が
できない情報を失うという潜在的な危険性を生ずる可能
性がある。以下にその代表的な例をあげる。

【０００４】分散型コンピュータ・システムの２つのノ
ードが正常に動作し続けているが、これら２つのノード
間で共有記憶装置へのアクセスを調整する通信リンクが
障害を発生したと仮定する。データベースへの共用アク
セスは調整できないにも拘わらず、２つのノードの各々
は分散型データベースへのアクセスを継続する可能性が
ある。双方のノードが分散型データベースにアクセスし
つづける場合、分散型データベースは劣化する可能性が
非常に高くなり、その結果貴重な情報が簡単に失われる
可能性がある。これは、一般的に「スプリット・ブレイ
ン(split-brain)」問題として知られている。

【０００５】以下の例は、スプリット・ブレインの問題
をより詳細に例示するものである。２台の別個のコンピ
ュータを用いて、分散型データベースにおける銀行の記
録を維持すると仮定する。更に、単一の口座へのアクセ
スを有する２人の人がその口座にほぼ同時に預金すると
仮定する。この場合、各預金トランザクションは、２台
のコンピュータの各々によって分散型データベースに記
録される。更にまた、これら２台のコンピュータ間の通
信が全て不可能になっていると仮定する。各コンピュー
タは口座の現残高、例えば、２００ドルを探し出し、次
いで以前の残高と預金額、例えば、一方の人によって５
００ドル、他方の人によって１００ドル、との和を新た
な残高として格納する。これらのコンピュータが異なる
時点において分散型データベースにアクセスするのであ
れば、各預金が正確に分散型データベースに記録される
可能性がある。しかしながら、各コンピュータがほぼ同
時に現残高を探し出すとすると、各々が現残高を２００
ドルと判定し、記録されている残高を７００ドルまたは
３００ドルのいずれかと置き換える。したがって、新た
な残高は、どちらのコンピュータが最後に新たな残高を
記録したかに応じて、７００ドルまたは３００ドルのい
ずれかとなり、預金の損失は検出されないままとなる。
しかしながら、これらのコンピュータの内一方のみが分
散型データベースへのアクセスを許可されている場合、
いずれかの預金が記録されなかったことがわかり、矯正
動作を取ることができる。

【０００６】以上に示した例では、単一のトランザクシ
ョンに関する実際の情報が失われたことになる。状況に
よっては、例えば、分散型データベースの様々なレコー
ドの位置に関する情報のような、分散型データベースに
格納されている情報の相互関係に関する情報を失う可能
性もある。このような情報が失われた場合、分散型デー
タベースの大部分が検索不能となる。したがって、スプ
リット・ブレインの問題は、分散型データベースでは重
要な問題であり、回避しなければならない。

【０００７】スプリット・ブレインの問題には、一般的
に２種類の解決法がある。即ち、２ノード分散型コンピ
ュータ・システムに関わる解決法と、２つよりも多いノ
ードを有する分散型コンピュータ・システムに関わる解
決法である。後者の部類では、通信リンクが障害を発生
すると、結果として、互いに通信が不可能となる２群の
ノードが生じる。従来の解決法の１つに、共有資源、例
えば、共有記憶装置へのアクセスを、分散型コンピュー
タ・システムのノードの単純過半数(simple majority)
を含む群に付与するというものがある。共有記憶装置に
対してこのようなアクセスを有する群のことを、一般的
に「クオラム(quorum)：議決定数を有するもの」と呼ん
でいる。各群は、当該群のノード数を判定することがで
き、一方の群のみが、分散型コンピュータ・システムの
単純過半数を有することができる。過半数未満しか含ま
ない群は、自発的に共有資源のアクセスを放棄する。各
群が正確に分散型コンピュータ・システムのノードの半
分ずつを有する場合、問題は２ノード分散型コンピュー
タ・システムに関わるスプリット・ブレイン問題と類似
したものとなり、それに対する解決法が通常用いられ
る。

【０００８】２ノード分散型コンピュータ・システムで
は、スプリット・ブレイン問題は、２つのノードにでき
るだけ多くの共有資源を予約する競争を行わせることに
よって解決することができる。この競争のことを、一般
的に、クオラムのための競争(race for quorum)と呼ん
でいる。各ノードは共有記憶装置全てを予約しようとす
る。あるノードが全共有記憶装置の単純過半数を予約す
ることに成功した場合、そのノードはクオラムを獲得
し、全共有装置へのアクセスを獲得する。逆に、あるノ
ードが全共有記憶装置の単純過半数を予約できなかった
場合、そのノードは自発的にいずれの共有記憶装置への
アクセスをも放棄する。このように、２ノード分散型コ
ンピュータ・システムの一方のノードが障害を発生した
場合、残りのノードは共有記憶装置の過半数を首尾良く
予約し、この共有記憶装置にアクセスすることによっ
て、分散型データベースの管理を継続する。加えて、２
ノード分散型コンピュータ・システムの２つのノード間
の全通信リンクが障害を発生した場合、これら２つのノ
ードは共有記憶装置を予約する競争を行い、クオラムの
ための競争に勝利したノードが、共有記憶装置にアクセ
スすることによって、分散型データベースの管理を継続
し、クオラムのための競争に負けたノードは自発的にあ
らゆる共有記憶装置へのアクセスをも放棄することによ
り、分散型データベースの劣化を回避する。

【０００９】

【発明が解決しようとする課題】共有記憶装置の予約を
競争パラメータとして使用することは、このような共有
記憶装置の予約が、このような共有記憶装置に対するア
クセスの必要な部分である場合、現実が不可能となる。
例えば、２ノード分散型コンピュータ・システムの一方
のノードが障害を発生した場合、障害ノードによって保
持されていた予約が放棄されない場合がある。その結
果、障害を発生していない残りのノードが共有記憶装置
の過半数を予約できず、したがって通常に動作を継続で
きない、即ち、残りのノードがクオラムのための競争に
敗れたとの誤解の下に、共有記憶装置へのアクセスを自
発的に放棄する可能性がある。このような問題は、単一
の共有記憶装置をクオラム・コントローラとして指定
し、それを予約することがクオラムための競争に勝利す
ることを意味する、従来の分散型コンピュータ・システ
ムにおいては更に可能性が高くなる。障害を発生したノ
ードがクオラム・コントローラの予約を保持し、放棄し
損なう可能性がある。障害を発生していないノードがク
オラムを達成できないと、分散型コンピュータ・システ
ムが障害を発生するが、残りのノードはこのようなこと
が起こらなければ通常では正常に動作を続けることがで
きるので、このような障害は不要である。障害がソフト
ウエア関連である場合、例えば、ノードのオペレーティ
ング・システムが障害を発生したり、あるいは分散型デ
ータベースにアクセスしたり管理するコンピュータ・プ
ロセスが障害を発生した場合、障害を発生したノードが
装置の予約を維持する可能性がある。オペレーティング
・システムが障害を発生した場合、保持されている装置
の予約を放棄した状態にノードを修復するには、通常人
間の相互作用が必要となる。オペレーティング・システ
ム以外のコンピュータ・プロセスが障害を起こした場
合、この障害はオペレーティング・システムによって検
出されないままになる可能性がある。

【００１０】したがって、当業界において未解決の課題
として残っているのは、障害を発生したノードが共有記
憶装置の予約を放棄することを必要としないクオラム機
構である。

【００１１】

【課題を解決するための手段】本発明によれば、障害を
発生した分散型コンピュータ・システムの各ノードは、
クオラム・コントローラとして指定された２つの共有記
憶装置の予約を成功させることによってクオラムを達成
しようとする競争を行う。分散型コンピュータ・システ
ムの正常動作の間、各クオラム・コントローラはそれぞ
れのノードに関連付けられ、それによって予約されてい
る。分散型コンピュータ・システムにおいて障害が検出
されたことに応答してクオラムのための競争が行われる
と、障害を発生していない各ノードは強制的に、他方の
ノードに対応するクオラム・コントローラを予約する。
１つのノードが双方のクオラム・コントローラの予約を
同時に保持した場合、そのノードはクオラムを獲得した
ことになる。他のノードが同一の記憶装置に対して有効
な予約を保持していても、共有記憶装置の強制的予約は
必ず行われる。したがって、障害を発生したノードが当
該ノードのクオラム・コントローラに対する予約を放棄
しなくても、他方のノードがクオラムを獲得する妨げに
はならない。

【００１２】強制的に他方のノードのクオラム・コント
ローラを予約する前に、各ノードは、そのノード自体に
対応するクオラム・コントローラの予約を保持し続けて
いることを確認する。あるノードが当該ノード自体に関
連するクオラム・コントローラの予約をもはや保持して
いない場合、そのノードはクオラムのための競争に敗れ
たことになる。なぜなら、他方のノードが既に前者のノ
ードに関連するクオラム・コントローラを強制的に予約
しているからである。このように、本発明によれば、障
害発生ノードによって保持されている共有記憶装置の予
約を当該障害発生ノードが放棄しなくとも、障害を発生
した分散型コンピュータ・システムの独立したノードに
よって、クオラムが効率的かつ効果的に決定される。

【００１３】あるノードが他方のノードのクオラム・コ
ントローラを強制的に予約したが、当該ノード自体のク
オラム・コントローラに対する有効な予約をもはや保持
していない場合、クオラムのための競争は引き分けに終
わる。引き分けという結果に対しては、分散型コンピュ
ータ・システムのノード双方が動作状態であるに相違な
い。したがって、一方のノードが共有記憶装置の予約を
放棄し損なうという可能性はない。このために、第２の
クオラムのための競争を用いて分散型コンピュータ・シ
ステムのノード間の引き分けを解決する。この第２のク
オラムのための競争の前に、各ノードはあらゆるクオラ
ム・コントローラに対する全ての予約を放棄し、いずれ
のノードもクオラム・コントローラを予約していない状
態とする。第２のクオラムのための競争では、各ノード
は所定のシーケンスでクオラム・コントローラの内選択
された一方を予約しようとする。選択されたクオラム・
コントローラの予約に成功したノードが第２のクオラム
のための競争に勝利し、共有記憶装置のいずれにもアク
セスすることが可能となる。他方のノードはクオラムを
獲得できなかったと判断し、あらゆる共有記憶装置への
アクセスを自発的に放棄する。

【００１４】第２のクオラムのための競争では強制予約
を使用するので、一方のノードがクオラム・コントロー
ラに対する予約を放棄しなくとも、他方のノードがクオ
ラムを獲得する妨げにはならず、したがって、分散型コ
ンピュータ・システムの共有記憶装置へのその後のアク
セスの妨げにもならない。したがって、本発明は、障害
を発生した分散型コンピュータ・システムにおいて、従
来技術の機構と比較して、格段にロバスト性を高めかつ
障害に強い機構を提示するものである。加えて、各ノー
ドは正常動作の間クオラム・コントローラを予約してい
るので、クオラムのための競争の間にこのような予約を
失うことは、他方のノードが強制的にそのクオラム・コ
ントローラを予約しており、したがって動作状態にある
ことを示す。その結果、第１のクオラムのための競争が
引き分けに終わった場合、クオラムを解決するために、
各ノードがクオラム・コントローラの予約を放棄するこ
とを必要とする第２のクオラムのための競争を用いるこ
とができる。

【００１５】

【発明の実施の形態】本発明によれば、２ノード分散型
コンピュータ・システム１００の２台の共有記憶装置、
例えば、共有記憶装置１１２Ａ，１１２Ｂ（図２）がク
オラム・コントローラに指定され、新規なクオラム獲得
プロセスにおいて使用される。これについては以下でよ
り詳細に説明する。端的に言えば、分散型コンピュータ
・システム１００のノード１００Ａ，１００Ｂの各々
は、他方のノードの障害を検出し、クオラム獲得プロ
セスを実行して、ノード１００Ａ，１００Ｂのどちらが
クオラムを獲得したか、したがってどちらが共有記憶装
置１１２Ａ〜１１２Ｄに対するアクセスを得て動作し続
けることができるのかについての同意を形成する。各ノ
ードは、正常動作の間、クオラム・コントローラの各１
つを予約している。ノードは双方のクオラム・コントロ
ーラを予約することによって１つのクオラムを獲得す
る。また、ノードは強制予約を用いることによって、通
常は他方のノードに予約されているクオラム・コントロ
ーラを予約する。これについては以下でより詳細に説明
する。一方のノードが同一記憶装置に対して有効な予約
を保持している場合でも、共有記憶装置の強制予約は必
ず行われるので、障害発生ノードが他方のノードのクオ
ラム獲得を妨げるのを防止する。

【００１６】本発明の評価は、２ノード分散型コンピュ
ータ・システム１００（図１）のハードウエアおよびソ
フトウエア構成物についての以下の説明によって、容易
に得られよう。分散型コンピュータ・システム１００
は、ノード１００Ａ，１００Ｂを含む。ノード１００
Ａ，１００Ｂは直接的に互いに類似しているので、以下
のノード１００Ａに関する説明はノード１００Ｂにも等
しく適用可能である。

【００１７】ノード１００Ａは、１つ以上のプロセッサ
１０２Ａを含み、これらの各々は、バス１０６Ａを通じ
てメモリ１０４Ａからコンピュータ命令を読み出し、読
み出したコンピュータ命令を実行する。読み出したコン
ピュータ命令を実行する際、各プロセッサ１０２Ａは、
バス１０６を通じて、メモリ１０４ならびに共有記憶装
置１１２Ａ〜１１２Ｄのいずれかおよび全てに対して、
データの読み出しおよびデータの書き込みを行う。メモ
リ１０４は、あらゆるタイプのコンピュータ・メモリを
含むことができ、限定する訳ではないが、ランダムにア
クセス可能なメモリ（ＲＡＭ）、リード・オンリ・メモ
リ（ＲＯＭ）、ならびに磁気および／または光ディスク
のような磁気および／または光記憶媒体を使用する記憶
装置を含む。共有記憶装置１１２Ａ〜１１２Ｄは各々記
憶装置または記憶装置のアレイであり、同時に２台以上
のコンピュータに結合することができる。図１に示すよ
うに、共有記憶装置１１２Ａ〜１１２Ｄは、ノード１０
０Ａのバス１０６Ａおよびノード１００Ｂのバス１０６
Ｂに結合されている。共有記憶装置１１２Ａ〜１１２Ｄ
の各々は、ノード１１０Ａ，１１０Ｂの各々によって単
一装置としてアクセスされるが、共有記憶装置１１２Ａ
〜１１２Ｄの各々は記憶装置のアレイとすることができ
る。例えば、共有記憶装置１１２Ａ〜１１２Ｄのいずれ
かは、カリフォルニア州マウンテン・ビューのSun Micr
osystems社から入手可能なSPARC記憶アレイとすること
ができる。

【００１８】共有記憶装置１１２Ａ〜１１２Ｄの各々
は、ノード１００ＡまたはノードＢのいずれかによって
予約することができる。例えば、プロセッサ１０２Ａの
いずれかはバス１０６を通じて共有記憶装置１１２Ｃに
制御信号を発行し、これによって記憶装置１１２Ｃを予
約することができる。制御信号に応答して、共有記憶装
置１１２Ｃは、共有記憶装置１１２Ｃが既に予約されて
いるか否かについて判定を行う。これは、共有記憶装置
１１２Ｃの物理状態、例えば、共有記憶装置１１２Ｃの
レジスタ内において表わされる、現予約ホルダーのフラ
グまたは識別状態で表わされる。共有記憶装置１１２Ｃ
が現在予約されていない場合、共有記憶装置１１２Ｃは
その物理的状態を変化させて、共有記憶装置１１２Ｃが
現在ノード１００Ａによって予約されていることを示
す。逆に、共有記憶装置１１２Ｃが現在予約されている
場合、共有記憶装置１１２Ｃはバス１０６を通じてプロ
セッサ１０２Ａに、試行された予約は拒絶されたことを
示す信号を送る。

【００１９】加えて、各プロセッサ１０２Ａは、ネット
ワーク・アクセス装置１０８Ａに制御信号を発行し、ネ
ットワーク１１０を通じてノード１００Ａのネットワー
ク・アクセス装置１０８Ａとノード１００Ｂのネットワ
ーク・アクセス装置１０８Ｂとの間で、ネットワーク・
アクセス装置１０８Ａに従来のようにデータを転送させ
ることができる。一実施例では、ネットワーク１１０は
公知のイーサネット(Ethernet)ネットワークであり、ネ
ットワークアクセス装置１０８Ａ，１０８Ｂは従来のイ
ーサネット・コントローラ回路である。

【００２０】図２に分散型コンピュータ・システム１０
０を簡略化した形態で示す。ノード１００Ａ内部で実行
されるのは次のコンピュータ・プロセスである。(i)分
散型データベース・スーパバイザ(distributed databas
e supervisor)２０２Ａ、(ii)オペレーティング・シス
テム２０４Ａ、(iii)分散型アプリケーション２０６
Ａ。同様に、分散型データベース・スーパバイザ２０２
Ｂ、オペレーティング・システム２０４Ｂ、および分散
型アプリケーション２０６Ｂはノード１００Ｂ内部で実
行され、それぞれ、分散型データベース・スーパバイザ
２０２Ａ、オペレーティング・システム２０４Ａ、およ
び分散型アプリケーション２０６Ａと直接的に類似す
る。したがって、分散型データベース・スーパバイザ２
０２Ａ、オペレーティング・システム２０４Ａ、および
分散型アプリケーション２０６Ａに関する以下の説明
は、それぞれ、分散型データベース・スーパバイザ２０
２Ｂ，オペレーティング・システム２０４Ｂ、および分
散型アプリケーション２０６Ｂにも等しく適用可能であ
る。

【００２１】分散型アプリケーション２０６Ａは分散型
アプリケーション２０６Ｂと協同して、共有メモリ装置
１１２Ａ〜１１２Ｄの１つ以上に格納されている分散型
データベースを管理する。分散型アプリケーション２０
６Ａは、分散型データベースに対してデータの格納およ
びデータの読み出しを行うことによって、更にデータベ
ース内のメタデータを維持することによって、分散型デ
ータベースを管理する。メタデータとは、一般的に、デ
ータベース内の実データ(substantive data)の構造を表
わす、データベース内のデータのことを意味し、多くの
場合、データベースに格納されている実データ間の相互
関係を表わす。一実施例では、分散型データベース２０
６Ａは、カリフォルニア州、レッドウッド・ショアのOr
acle社から入手可能なOracle Parallel Serverである。

【００２２】分散型データベースのいずれかのデータ、
例えば、分散型データベースの特定のデータ・ブロック
にアクセスする前に、分散型アプリケーション２０６Ａ
は、分散型データベース・スーパバイザ２０２Ａから、
この特定のデータ・ブロックに対する排他的アクセスを
要求する。分散型データベース・スーパバイザ２０２Ａ
は、この特定のデータ・ブロックに対する排他的アクセ
スを獲得するために分散型データベース・スーパバイザ
２０２Ｂと調整を行い、分散型アプリケーション２０６
Ａへの回答信号を通じて、分散型アプリケーション２０
６Ａがこの特定のデータ・ブロックに対して排他的アク
セスが得られるか否かを標示する。分散型アプリケーシ
ョン２０６Ａが特定のデータ・ブロックに対する排他的
アクセスの獲得に成功した場合、分散型アプリケーショ
ン２０６Ａは特定のデータ・ブロックにデータを格納す
ることができ、したがってノード１００Ｂによる同時ア
クセスや分散型データベースの劣化の危険性はない。

【００２３】分散型データベース・スーパバイザ２０２
Ａは、分散型データベース・スーパバイザ２０２Ｂと通
信および協同して、分散型アプリケーション２０６Ａに
対して、共有記憶装置１１２Ａ〜１１２Ｄに格納されて
いる指定のデータ・ブロックに対する排他的アクセスを
獲得および放棄させる。分散型データベース・スーパバ
イザ２０２Ａ，２０２Ｂは通信リンク２１０を通じて通
信する。通信リンク２１０は、ネットワーク・アクセス
装置１０８Ａ〜１０８Ｂ（図１）およびネットワーク１
１０を含む。ノード１００Ｂ（図２）または通信リンク
２１０が障害を発生した場合、分散型データベース・ス
ーパバイザ２０２Ａ（図２）はその障害を検出し、その
障害をオペレーティング・システム２０４Ａに報告す
る。分散型データベース・スーパバイザ２０２Ａによる
障害検出については、以下で詳細に説明する。

【００２４】通信リンク２１０またはノード１００Ｂの
障害検出に応答して、分散型データベース・スーパバイ
ザ２０２Ａは、論理流れ図３００（図３）に示すステッ
プにしたがって、クオラムを獲得しようとする。分散型
データベース・スーパバイザ２０２Ａ（図２）が論理流
れ図３００（図３）にしたがってクオラムの獲得に成功
した場合、分散型データベース・スーパバイザ２０２Ａ
（図２）は、(i)分散型データベース・スーパバイザ２
０２Ｂはもはや共有記憶装置１１２Ａ〜１１２Ｄのいず
れにもアクセスできないと仮定し、(ii)分散型アプリケ
ーション２０６Ａに共有記憶装置１１２Ａ〜１１２Ｄに
アクセスし続けることを許す。逆に、分散型データベー
ス・スーパバイザ２０２Ａが論理流れ図３００（図３）
にしたがってクオラムを獲得できなかった場合、分散型
データベース・スーパバイザ２０２Ａ（図２）は、(i)
ノード１００Ｂは障害を発生しておらず、クオラムを獲
得したと仮定し、(ii)排他的アクセスを保証することが
できないので、共有記憶装置１１２Ａ〜１１２Ｄに対す
るアクセスを分散型アプリケーション２０６Ａに付与す
ることを自発的に放棄する。

【００２５】論理流れ図３００（図３）による処理は、
共有記憶装置１１２Ａ〜１１２Ｄ（図２）の各１つが、
ノード１００Ａ，１００Ｂの各々に対して、クオラム・
コントローラとして指定されていることを想定してい
る。例えば、共有記憶装置１１２Ａはノード１００Ａの
クオラム・コントローラとして指定することができ、共
有記憶装置１１２Ｂはノード１００Ｂのクオラム・コン
トローラとして指定することができる。通常、以下の基
準を満たす限り、あらゆる共有記憶装置を分散型コンピ
ュータ・システム１００（図１）の１つのノードのクオ
ラム・コントローラとして指定することができる。第１
に、物理的に異なる共有記憶装置を、各ノードに対する
クオラム・コントローラとして指定しなければならな
い。第２に、特定のノードに対するクオラム・コントロ
ーラは、当該ノードの正常動作の間、このノードに予約
されなくてはならない。第３に、各ノードに対するクオ
ラム・コントローラは、分散型コンピュータ・システム
１００のノードによって物理的に共有されなければなら
ない。ここに記載する代表例では、(i)共有記憶装置１
１２Ａ，１１２Ｂは物理的に異なる装置であり、(ii)共
有記憶装置１１２Ａ，１１２Ｂは、ノード１００Ａ，１
００Ｂの正常動作の間、夫々ノード１００Ａ，１００Ｂ
によって予約され、(iii)共有記憶装置１１２Ａ，１１
２Ｂは、物理的にノード１００Ａ，１００Ｂによって共
有される。したがって、共有記憶装置１１２Ａ，１１２
Ｂをそれぞれノード１００Ａ，１００Ｂに対するクオラ
ム・コントローラとして指定することは、適切な指定で
ある。

【００２６】更に、論理流れ図３００（図３）による処
理は、ノード１００Ａ（図２），１００Ｂのクオラム・
コントローラが順序付けられていることを想定してい
る。ノード１００Ａ，１００Ｂ双方がクオラム・コント
ローラの特定の順序付けに対して同意している限り、ク
オラム・コントローラの特定の順序は特に重要ではな
い。この代表例では、共有記憶装置１１２Ａが最初のク
オラム・コントローラであり、共有記憶装置１１２Ｂは
２番目のクオラム・コントローラである。クオラム・コ
ントローラの順序付けは、クオラムのための最初の競争
が引き分けに終わった場合に、クオラムのための第２の
競争を行うために用いられるが、これについては以下で
より詳細に説明する。

【００２７】通信リンク２１０の障害の場合、ノード１
００Ａ，１００Ｂ各々が障害を検出した際に、これら双
方が独立して論理流れ図３００（図３）のステップを実
行することを覚えておくと、論理流れ図３００（図３）
の以下の説明を理解する上で役立つであろう。論理流れ
図３００（図３）は、ノード１００Ａに関して説明す
る。ノード１００Ｂによる論理流れ図３００（図３）の
処理は、以下に説明するノード１００Ａ（図２）による
論理流れ図３００（図３）の処理と直接類似するもので
ある。

【００２８】ステップ３０２ないし３０８（図３）は、
ノード１００Ａ（図２）と１００Ｂ間のクオラムのため
の競争を表わす。ステップ３０２（図３）において、論
理流れ図３００による処理が開始される。ステップ３０
２において、分散型データベース・スーパバイザ２０２
Ａ（図２）は、ノード１００Ａに代わって、分散型デー
タベース・スーパバイザ２０２Ａが実行されるノード、
即ち、ノード１００Ａのクオラム・コントローラを予約
する。分散型データベース・スーパバイザ２０２Ａによ
る共有記憶装置の予約は、従来からのものであり公知で
あるが、完全な理解のために簡単に説明する。

【００２９】分散型データベース・スーパバイザ２０２
Ａは、プロセッサ１０２Ａ（図１）を通じてコンピュー
タ命令を発行することによって、共有記憶装置１１２Ａ
〜１１２Ｄのいずれか１つ、例えば、共有記憶装置１１
２Ｃを予約する。このコンピュータ命令を実行すること
によって、共有記憶装置１１２Ｃに、ノード１００Ａに
よる共有記憶装置１１２Ｃの予約を要求する信号を送
る。共有記憶装置１１２Ｃが予約されていない場合、共
有記憶装置１１２Ｃはその物理的状態を予約状態に変化
させ、この予約状態において、記憶装置１１２Ｃは、プ
ロセッサ１０２Ａを通じて、共有記憶装置１１２Ｃがノ
ード１００Ａによって予約されることを示す信号を分散
型データベース・スーパバイザ２０２Ａに送る。逆に、
予約要求信号がプロセッサ１０２Ａから受信されたとき
に共有記憶装置１１２Ｃが予約されている場合、共有記
憶装置１１２Ｃは、プロセッサ１０２Ａを通じて、共有
記憶装置１１２Ｃに要求された予約が拒絶されたことを
示す信号を分散型データベース・スーパバイザ２０２Ａ
に送る。本実施例では、予約はノードによって保持され
るので、分散型データベース・スーパバイザ２０２Ａは
ノード１００Ａに代わって予約を要求する。

【００３０】分散型データベース・スーパバイザ２０２
Ａとの関係において、ノード１００Ａのクオラム・コン
トローラを「ローカル・クオラム・コントローラ」と呼
ぶ。この代表例では、ローカル・クオラム・コントロー
ラは共有記憶装置１１２Ａである。多くの場合、ステッ
プ３０２（図３）は無処理(null operation)である。即
ち、プロセッサ１０２Ａ（図１）が何も行わないステッ
プである。なぜなら、ノード１００Ａ（図２）は通常ロ
ーカル・クオラム・コントローラを予約してあるからで
ある。ステップ３０２（図３）から、処理は検査ステッ
プ３０４に移り、分散型データベース・スーパバイザ２
０２Ａ（図２）は、ローカル・クオラム・コントローラ
の予約が成功したか否かについて判定を行う。以下でよ
り詳細に論ずるが、分散型データベース・スーパバイザ
２０２Ａ（図２）がステップ３０２（図３）を実行する
前に、分散型データベース・スーパバイザ２０２Ｂが後
に説明するステップ３０８（図３）を実行した場合、ロ
ーカル・クオラム・コントローラの予約ができない可能
性がある。このような状況の下では、分散型データベー
ス・スーパバイザ２０２Ｂ（図２）がクオラムのための
競争に勝利し、共有記憶装置１１２Ａ〜１１２Ｄにアク
セスすることができる。

【００３１】分散型データベース・スーパバイザ２０２
Ａがローカル・クオラム・コントローラの予約に失敗し
た場合、処理は検査ステップ３０４（図３）からステッ
プ３０６に移り、分散型データベース・スーパバイザ２
０２Ａ（図２）は処理を中断する。ステップ３０６（図
３）を論理流れ図４００（図４）としてより詳細に示
す。この論理流れ図はステップ４０２において開始され
る。ステップ４０２において、分散型データベース・ス
ーパバイザ２０２Ａ（図２）は、ノード１００Ａによっ
て保持されている、共有記憶装置１１２Ａ〜１１２Ｄの
予約を全て放棄する。処理はステップ４０４（図４）に
移り、分散型データベース・スーパバイザ２０２Ａ（図
４）は、分散型アプリケーション２０６Ａ（図２）から
の共有記憶装置１１２Ａ〜１１２Ｄのいずれへのアクセ
スも拒否する。ステップ４０４（図４）の後、論理流れ
図４００による処理、即ち、ステップ３０６（図３）は
終了する。ステップ３０６の後、論理流れ図３００によ
る処理は終了し、分散型データベース・スーパバイザ２
０２Ａ（図２）はクオラムのための競争に敗れたことに
なる。

【００３２】検査ステップ３０４（図３）において、分
散型データベース・スーパバイザ２０２Ａ（図２）が、
ノード１００Ａによるローカル・クオラム・コントロー
ラ即ちこの代表例では共有記憶装置１１２Ａの予約が成
功したと判定した場合、処理はステップ３０８（図３）
に移る。ステップ３０８において、分散型データベース
・スーパバイザ２０２Ａ（図２）は、ノード１００Ａに
代わって、分散型データベース・スーパバイザ２０２Ａ
が実行していないノード、即ち、ノード１００Ｂのクオ
ラム・コントローラを強制的に予約する。分散型データ
ベース・スーパバイザ２０２Ａとの関係において、ノー
ド１００Ｂのクオラム・コントローラを「リモート・ク
オラム・コントローラ」と呼ぶ。この代表例では、リモ
ート・クオラム・コントローラは共有記憶装置１１２Ｂ
のことである。通常、既に他のコンピュータ・プロセス
によって予約されている装置を予約しようとしても、不
可能である。しかしながら、強制予約は、他のノードに
よって保持され続けている装置の以前の予約には無関係
に、達成される予約である。強制予約は公知であり、共
通アクセス方法(CAM:Common Access Method)委員会によ
って確立された小型コンピュータ直列インターフェース
３(SCSI-3)標準の一部である。

【００３３】このように、ノード１００Ｂ自体または分
散型データベース・スーパバイザ２０２Ｂが障害を発生
した場合、即ち、ノード１００Ｂまたは分散型データベ
ース・スーパバイザ２０２Ｂが現在動作不能の場合、分
散型データベース・スーパバイザ２０２Ａは、ステップ
３０２（図３）および３０８において、ノード１００Ａ
のために双方のクオラム・コントローラを予約する。分
散型データベース・スーパバイザ２０２Ｂ（図２）がそ
のローカル・クオラム・コントローラ、例えば、共有記
憶装置１１２Ｂのノード１００Ｂの予約を放棄し損ねた
場合でも、これは行われる。その理由は、分散型データ
ベース・スーパバイザ２０２Ａは、ノード１００Ａに代
わって、ノード１００Ｂのローカル・クオラム・コント
ローラを強制的に予約するからである。したがって、分
散型コンピュータ・システム１００（図１）の一方のノ
ードが障害を発生したときに、共有記憶装置の予約を放
棄できなくても、分散型コンピュータ・システム１００
が障害を発生するという結果には至らず、残りの動作状
態にあるノードがクオラムを獲得することができる。分
散型データベース・スーパバイザ２０２Ｂ（図２）のロ
ーカル・クオラム・コントローラは分散型データベース
２０２Ａのリモート・クオラム・コントローラであり、
分散型データベース・スーパバイザ２０２Ｂのリモート
・クオラム・コントローラは分散型データベース・スー
パバイザ２０２Ａのローカル・クオラム・コントローラ
であることは認められよう。

【００３４】ノード１００Ｂおよび分散型データベース
・スーパバイザ２０２Ｂが動作し続ける場合、ステップ
３０２ないし３０８（図３）は、双方のクオラム・コン
トローラの予約の競争を表わす。検査ステップ３０４に
関して既に述べたように、分散型データベース・スーパ
バイザ２０２Ａ（図２）がノード１００Ａの代わりにそ
のローカル・クオラム・コントローラの予約に失敗する
可能性がある。このような予約に失敗するのは、分散型
データベース・スーパバイザ２０２Ａ（図２）によるス
テップ３０２の実行の前に、分散型データベース・スー
パバイザ２０２Ｂ（図２）がステップ３０８（図３）を
実行し、強制的にそのリモート・クオラム・コントロー
ラ、即ち、分散型データベース・スーパバイザ２０２Ａ
（図２）のローカル・クオラム・コントローラを予約す
る場合である。このような状況では、先により詳細に説
明したように、分散型データベース・スーパバイザ２０
２Ｂがクオラムのための競争に勝利し、分散型データベ
ース・スーパバイザ２０２Ａはステップ３０６（図３）
において処理を中断する(abort)。

【００３５】分散型データベース・スーパバイザ２０２
Ａ（図２）がステップ３０２（図３）ないし３０８にお
けるクオラムのための競争に勝利した場合、ノード１０
０Ａ（図２）は、ローカル・クオラム・コントローラお
よびリモート・クオラム・コントローラの双方、例え
ば、共有記憶装置１１２Ａ，１１２Ｂ双方を予約したこ
とになる。逆に、分散型データベース・スーパバイザ２
０２Ａがクオラムのための競争に敗れた場合、ノード１
００Ｂはローカルおよびリモート・クオラム・コントロ
ーラ双方を予約し、分散型データベース・スーパバイザ
２０２Ａによる処理は、ステップ３０６（図３）の実行
の後終了する。

【００３６】分散型データベース・スーパバイザ２０２
Ａ（図２），２０２Ｂ間のクオラムのための競争が引き
分けに終わった場合、即ち、分散型データベース・スー
パバイザ２０２Ａ，２０２Ｂがステップ３０２ないし３
０８（図３）、特にステップ３０８、をほぼ同時に実行
した場合、ノード１００Ａ，１００Ｂの各々はリモート
・クオラム・コントローラは予約してあるが、ローカル
・クオラム・コントローラは予約していない。この代表
例では、このような引き分けの結果、共有記憶装置１１
２Ｂ（図２）はノード１００Ａによって予約され、共有
記憶装置１１２Ａはノード１００Ｂによって予約され
る。ステップ３１０ないし３１２（図３）において、分
散型データベース・スーパバイザ２０２Ａ（図２）はこ
のような引き分けを検査し、分散型データベース・スー
パバイザ２０２Ｂも別個に独立してステップ３１０ない
し３１２（図３）を実行する。

【００３７】ステップ３１０において、分散型データベ
ース・スーパバイザ２０２Ａ（図２）は、ノード１００
Ａに代わって、そのローカル・クオラム・コントローラ
を予約しようとする。検査ステップ３１２（図３）にお
いて、分散型データベース・スーパバイザ２０２Ａ（図
２）は、ステップ３１０（図３）で試行した予約が成功
したか否かについて判定を行う。ローカル・クオラム・
コントローラの予約が成功した場合、分散型データベー
ス・スーパバイザ２０２Ａ（図２）は、クオラムのため
の競争に勝利したことになり、論理流れ図３００（図
３）による処理は終了する。分散型データベース・スー
パバイザ２０２Ａ（図２）がクオラムのための競争に勝
利した場合、分散型データベース・スーパバイザ２０２
Ａは、分散型アプリケーション２０６Ａによる共有記憶
装置１１２Ａ〜１１２Ｄのいずれかへのアクセス要求を
付与することができる。検査ステップ３１２（図３）に
おいて、分散型データベース・スーパバイザ２０２Ａ
（図２）が、ステップ３１０（図３）で試行した予約が
失敗であったと判定した場合、分散型データベース・ス
ーパバイザ２０２Ａ（図２）は、ステップ３０２ないし
３０８（図３）のクオラムのための競争が引き分けに終
わったと判定し、処理は検査ステップ３１２からステッ
プ３１４に移る。

【００３８】ステップ３１４ないし３２４は、分散型デ
ータベース・スーパバイザ２０２Ａ（図２），２０２Ｂ
がクオラムのための第２の競争に参加する、引き分け解
消機構(tie-breaking mechanism)を表わす。ステップ３
１４（図３）が実行されるのは、クオラムのための最初
の競争が引き分けに終わったときのみであるので、分散
型データベース・スーパバイザ２０２Ａ（図２），２０
２Ｂは、分散型データベース・スーパバイザ２０２Ａ，
２０２Ｂ双方が動作状態にあり、検出された障害は通信
リンク２１０にあると仮定する。したがって、クオラム
のための第２の競争は、共有記憶装置１１２Ａ〜１１２
Ｄの予約機構を、クオラムのための第２の競争の仲裁機
構(arbitration mechanism)として使用することができ
る。ステップ３１４（図３）において、分散型データベ
ース・スーパバイザ２０２Ａ（図２）は、ノード１００
Ａにリモート・クオラム・コントローラに対する予約を
放棄させて、ノード１００Ａがもはやいずれのクオラム
・コントローラも予約していない状態にする。同様に分
散型データベース・スーパバイザ２０２Ｂによる独立し
たステップ３１４（図３）の実行により、分散型データ
ベース・スーパバイザ２０２Ｂは、ノード１００Ｂにそ
のリモート・クオラム・コントローラを放棄させ、ノー
ド１００Ｂがもはやいずれのクオラム・コントローラも
予約していない状態にする。処理はステップ３１４（図
３）からステップ３１６に移る。

【００３９】ステップ３１６において、分散型データベ
ース・スーパバイザ２０２Ａ（図２）は、ランダムに選
択された量の時間だけ待つ。具体的には、分散型データ
ベース・スーパバイザ２０２Ａは、所定の時間範囲内の
時間量を表わす乱数を発生し、分散型データベース・ス
ーパバイザ２０２Ａは、そのランダムに選択された量の
時間の間動作不能状態となる。待つべき時間量は不規則
に発生される数に従うので、分散型データベース・スー
パバイザ２０２Ａ，２０２Ｂが待つ時間量は異なる可能
性があり、したがって、それぞれ独立して実行するステ
ップ３１６（図３）が異なる時点で終了する可能性があ
る。

【００４０】処理はステップ３１８に移り、分散型デー
タベース・スーパバイザ２０２Ａ（図２）は、ノード１
００Ａの代わりに、第１クオラム・コントローラを予約
しようとする。上述のように、クオラム・コントローラ
は順序付けられており、双方の分散型データベース・ス
ーパバイザ２０２Ａ，２０２Ｂにおいて同じ順序付けを
有する。したがって、分散型データベース・スーパバイ
ザ２０２Ａ（図２），２０２Ｂによって同様にかつ別個
に実行されるステップ３１８（図３）において、分散型
データベース・スーパバイザ２０２Ａおよび分散型デー
タベース・スーパバイザ２０２Ｂ双方は、同じクオラム
・コントローラ、即ち、同じ共有記憶装置を予約しよう
とする。この例では、共有記憶装置１１２Ａが第１クオ
ラム・コントローラである。

【００４１】ステップ３１８（図３）から、処理はステ
ップ３２０に移り、分散型データベース・スーパバイザ
２０２Ａ（図２）は、ステップ３１８（図３）において
試行した予約が成功であったか否かについて判定を行
う。試行した予約が失敗であった場合、分散型データベ
ース・スーパバイザ２０２Ａ（図２）はクオラムのため
の第２の競争に敗れたことになり、処理はステップ３０
６（図３）に移り、先により詳細に説明したように、分
散型データベース・スーパバイザ２０２Ａ（図２）は処
理を中断する。逆に、分散型データベース・スーパバイ
ザ２０２Ａが検査ステップ３２０（図３）において、ス
テップ３１８において試行した予約が成功したと判定し
た場合、処理はステップ３２２に移る。この時点では、
分散型データベース・スーパバイザ２０２Ａ（図２）
は、分散型データベース・スーパバイザ２０２Ａがクオ
ラムを獲得したことを確認することができない。分散型
データベース・スーパバイザ２０２Ａ，２０２Ｂは独立
して、しかも恐らく異なる速度で実行するので、分散型
データベース・スーパバイザ２０２Ａは、以下で説明す
る、分散型データベース・スーパバイザ２０２Ｂによる
ステップ３２２の実行よりも前に、ステップ３０８（図
３）を実行する可能性がある。このような状況では、ノ
ード１００Ｂは第２クオラム・コントローラ、例えば、
共有記憶装置１１２Ｂを予約してあり、したがって分散
型データベース・スーパバイザ２０２Ａは、ノード１０
０Ａに代わって、双方のクオラム・コントローラを予約
することができず、そのためクオラムを獲得することが
できない。

【００４２】ステップ３２２において、分散型データベ
ース・スーパバイザ２０２Ａ（図２）は、第２のクオラ
ム・コントローラを予約しようとする。この代表例の場
合、第２のクオラム・コントローラとは、共有記憶装置
１１２Ｂのことである。ステップ３２２（図３）から、
処理は検査ステップ３２４に移り、分散型データベース
・スーパバイザ２０２Ａ（図２）はステップ３２２（図
３）で試行した予約が成功したか否かについて判定を行
う。試行した予約が失敗した場合、分散型データベース
・スーパバイザ２０２Ａ（図２）はクオラムのための第
２の競争に敗れたことになり、処理はステップ３０６
（図３）に移り、先により詳細に説明したように、分散
型データベース・スーパバイザ２０２Ａ（図２）はその
処理を中断する。このような状況では、分散型データベ
ース・スーパバイザ２０２Ｂは、ステップ３１６ないし
３２４（図３）の処理実行を進め、クオラムの獲得に成
功する。逆に、分散型データベース・スーパバイザ２０
２Ａ（図２）が検査ステップ３２４（図３）において、
ステップ３２２で試行した予約が成功であったと判断し
た場合、分散型データベース・スーパバイザ２０２Ａ
（図２）はクオラムのための第２の競争に勝利したこと
になり、論理流れ図３００（図３）による処理は終了す
る。上述のように、分散型データベース・スーパバイザ
２０２Ａ（図２）がクオラムのための競争に勝利した場
合、分散型データベース・スーパバイザ２０２Ａは、共
有記憶装置１１２Ａないし１１２Ｄのいずれかへのアク
セスを分散型アプリケーション２０６Ａに付与する。

【００４３】このように、論理流れ図３００（図３）の
ステップによって、分散型データベース・スーパバイザ
２０２Ａ（図２），２０２Ｂは分散型データベース・ス
ーパバイザ２０２Ａ，２０２Ｂのどちらがクオラムを獲
得するのかに関して、独立して同意に達することができ
るため、障害を起こしたノードが障害の間の予約を放棄
しなくても、共有記憶装置１１２Ａ〜１１２Ｄへのアク
セスを得ることができる。したがって、本発明は、従来
技術の機構に対して、２ノード分散型コンピュータ・シ
ステムのフォールト・トレランスの大幅な改善を表わす
ものである。

【００４４】障害検出上述のように、分散型データベース・スーパバイザ２０
２Ａ（図２）は、ノード１００Ｂまたは通信リンク２１
０のいずれかの障害を検出する。完全な理解のために、
分散型データベース・スーパバイザ２０２Ａによる分散
型コンピュータ・システム１００の障害発見について簡
単に説明する。分散型データベース・スーパバイザ２０
２Ａは、通常従来の方法で、例えば、所定の時間量の間
分散型データベース・スーパバイザ２０２Ｂからメッセ
ージが受信されないことを観察することによって、障害
を検出する。例えば、分散型データベース・スーパバイ
ザ２０２Ａは、分散型データベース・スーパバイザ２０
２Ｂに、分散型データベース・スーパバイザ２０２Ｂの
ステータスを表わすデータを含む信号を用いて応答する
ように、分散型データベース・スーパバイザ２０２Ｂに
命令するステータス要求信号を送るように構成される。
分散型データベース・スーパバイザ２０２Ａがステータ
ス要求信号を送ってから所定の時間量以内、例えば、１
秒以内に分散型データベース・スーパバイザ２０２Ｂか
らこのようなデータを受信しない場合、分散型データベ
ース・スーパバイザ２０２Ａによって障害が想定され
る。あるいは、分散型データベース・スーパバイザ２０
２Ｂは、所定間隔例えば１秒毎に、分散型データベース
・スーパバイザ２０２Ｂのステータスを表わす信号を分
散型データベース・スーパバイザ２０２Ａに送るように
構成することも可能である。所定の時間期間、例えば、
所定間隔の２ないし３倍の期間にこのような信号を受信
しなかった場合、分散型データベース・スーパバイザ２
０２Ａは、通信リンク２１０またはノード１００Ｂの障
害として解釈する。

【００４５】これまでの記載は例示的なものであり、限
定を意味するのではない。したがって、本発明は、特許
請求の範囲およびその均等物の全範囲によってのみ完全
に規定されるものである。

【図面の簡単な説明】

【図１】本発明による２ノード分散型コンピュータ・シ
ステムのブロック図。

【図２】図１の２ノード分散型コンピュータシステムの
ブロック図であり、分散型コンピュータ・システムの各
ノードにおいて実行するコンピュータ・プロセスを示す
図。

【図３】障害状態においてどちらのノードがクオラムを
獲得するのかについて、各ノードによって行われる判定
を示す論理流れ図。

【図４】クオラムが獲得されないと判定された場合に、
図１および図２の分散型コンピュータ・システムのノー
ドが実行する処理の論理流れ図。

【符号の説明】

１００２ノード分散型コンピュータ・システム１００Ａ，１００Ｂノード１０２Ａ，１０２Ｂプロセッサ１０６Ａ，１０６Ｂバス１０４Ａ，１０４Ｂメモリ１０８Ａ，１０８Ｂネットワーク・アクセス装置１１０ネットワーク１１２Ａ〜１１２Ｄ共有記憶装置２０２Ａ，２０２Ｂ分散型データベース・スーパバ
イザ２０４Ａ，２０４Ｂオペレーティング・システム２０６Ａ，２０６Ｂ分散型アプリケーション２１０通信リンク

───────────────────────────────────────────────────── フロントページの続き (71)出願人 597004720 2550 ＧａｒｃｉａＡｖｅｎｕｅ，ＭＳＰＡＬ１−521，ＭｏｕｎｔａｉｎＶｉｅｗ，Ｃａｌｉｆｏｒｎｉａ 94043− 1100，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ (72)発明者オッタリンガム・ティー・サトヤナラヤナンアメリカ合衆国カリフォルニア州94539, フレモント，サウス・モーレイ・ストリート 43919 (72)発明者アンジェロ・プルスチーノアメリカ合衆国カリフォルニア州94040, マウンテン・ヴュー，オルテガ・アヴェニュー 550，アパートメントエイ106

Claims

【特許請求の範囲】

【請求項１】分散型コンピュータ・システムの少なくと
も２つのノードの内一方に、該分散型コンピュータ・シ
ステムの共有資源への排他的アクセスを付与する方法で
あって、前記分散型コンピュータ・システムは、少なく
とも２つの予め選択された共有装置を含み、各ノードは
障害処理手段(fault handler)を含み、かつ当該ノード
が前記共有資源への排他的アクセスを有するか否かを特
定する状態を有し、前記方法は、前記分散型コンピュータ・システムにおいて障害状態を
検出するステップと、障害状態を検出した場合、障害状態がない場合に前記障害処理手段の前記ノードに
よって少なくとも１つが予約されていない、前記予め選
択された共有装置の全てを予約しようとするステップ
と、前記障害処理手段が前記予め選択された共有装置全ての
予約に成功した場合、前記ノードが前記共有資源に対す
る排他的アクセスを有することを前記ノードの状態に指
定させるステップと、前記障害処理手段が前記予め選択
された共有装置の全ての予約に失敗した場合、前記ノー
ドは前記共有資源への排他的アクセスを有していないこ
とを前記ノードの状態に指定させるステップと、を前記
障害処理手段の各々に実行させるステップと、から成る
ことを特徴とする方法。
【請求項２】請求項１記載の方法において、前記障害処
理手段の各々は、前記障害状態が検出されたとき、更
に、前記ノードが前記予め選択された共有装置の少なくとも
１つの共有装置の予約に成功し、前記予め選択された共
有装置の少なくとも１つの他の共有装置の予約に失敗し
た場合、引き分け状態を検出するステップを実行するこ
とを特徴とする方法。
【請求項３】請求項２記載の方法において、前記分散型
コンピュータ・システムは、引き分け解消装置として予
め決められている共有装置を含み、前記障害処理手段は、引き分け状態が検出されたとき、
更に、前記引き分け解消装置を予約しようとするステップと、前記障害処理手段が前記引き分け解消装置の予約に成功
した場合、前記ノードが前記共有資源に対する排他的ア
クセスを有することを、前記ノードの状態に指定させる
ステップと、前記障害処理手段が前記引き分け解消装置の予約に失敗
した場合、前記ノードは前記共有資源に対する排他的ア
クセスを有さないことを、前記ノードの状態に指定させ
るステップと、を実行することを特徴とする方法。
【請求項４】請求項３記載の方法において、前記引き分
け解消装置は前記予め選択された共有装置の１つである
ことを特徴とする方法。
【請求項５】請求項３記載の方法において、前記分散型
コンピュータ・システムは、前記第１の引き分け解消装
置とは異なる、第２の引き分け解消装置として予め決め
られている共有装置を含み、前記障害処理手段の各々は、前記障害処理手段による前
記第１の引き分け解消装置の予約が成功したとき、更
に、前記第２の引き分け解消装置を予約しようとするステッ
プと、前記障害処理手段が前記第２の引き分け解消装置の予約
に成功した場合、前記ノードが前記共有資源に対して排
他的アクセスを有することを、前記ノードの状態に指定
させるステップと、前記障害処理手段が前記第２の引き分け解消装置の予約
に失敗した場合、前記ノードは前記共有資源に対する排
他的アクセスを有さないことを、前記ノードの状態に指
定させるステップと、を実行することを特徴とする方
法。
【請求項６】請求項５記載の方法において、前記第２の
引き分け解消装置は、前記予め選択された共有装置の１
つであることを特徴とする方法。
【請求項７】請求項１記載の方法であって、更に、前記２ノード分散型コンピュータ・システムの各ノード
に対して、前記予め選択された共有装置のローカル共有
装置を指定するステップを含み、前記予約しようとするステップは、前記障害処理手段の前記ノードのローカル共有装置を予
約しようとするステップと、前記障害処理手段が前記障害処理手段の前記ノードのロ
ーカル共有装置の予約に成功した場合、前記障害処理手
段の前記ノードのローカル共有装置以外の少なくとも１
つの予め選択された共有装置を強制的に予約するステッ
プと、から成ることを特徴とする方法。
【請求項８】コンピュータ・プログラム生産物であっ
て、分散型コンピュータ・システムの少なくとも２つのノー
ドの内の一方に、該分散型コンピュータ・システムの共
有資源に対する排他的アクセスを付与するためのコンピ
ュータ読み取り可能なコードが埋め込まれたコンピュー
タ使用可能媒体であって、前記分散型コンピュータ・シ
ステムは少なくとも２つの予め選択された共有装置を含
み、各ノードは障害処理手段(fault handler)を含み、
該ノードが前記共有資源への排他的アクセスを有するか
否かを特定する状態を有し、前記コンピュータ使用可能
媒体は、前記分散型コンピュータ・システムにおいて障害状態を
検出するように構成された障害検出モジュールと、前記障害検出モジュールに動作的に結合された障害処理
モジュールであって、障害状態を検出した場合、障害状態がない場合に前記障害処理手段の前記ノードに
よって少なくとも１つが予約されていない、前記予め選
択された共有装置の全てを予約しようとするステップ
と、前記障害処理モジュールが前記予め選択された共有装置
全ての予約に成功した場合、前記ノードが前記共有資源
に対する排他的アクセスを有することを前記ノードの状
態に指定させるステップと、前記障害処理手段が前記予
め選択された共有装置の全ての予約に失敗した場合、前
記ノードは前記共有資源への排他的アクセスを有してい
ないことを前記ノードの状態に指定させるステップと、
を実行するように構成された前記障害処理モジュール
と、から成ることを特徴とするコンピュータ・プログラ
ム生産物。
【請求項９】請求項８記載のコンピュータ・プログラム
生産物において、前記障害処理モジュールは、前記障害
状態が検出されたとき、更に、前記ノードが前記予め選択された共有装置の少なくとも
１つの共有装置の予約に成功し、前記予め選択された共
有装置の少なくとも１つの他の共有装置の予約に失敗し
た場合、引き分け状態を検出するステップを実行するよ
うに構成されていることを特徴とするコンピュータ・プ
ログラム生産物。
【請求項１０】請求項９記載のコンピュータ・プログラ
ム生産物において、前記障害処理モジュールは、引き分
け状態が検出されたとき、更に、前記分散型コンピュータ・システムの共有引き分け解消
装置を予約しようとするステップと、前記障害処理モジュールが前記共有引き分け解消装置の
予約に成功した場合、前記ノードが前記共有資源に対す
る排他的アクセスを有することを、前記ノードの状態に
指定させるステップと、前記障害処理モジュールが前記共有引き分け解消装置の
予約に失敗した場合、前記ノードは前記共有資源に対す
る排他的アクセスを有さないことを、前記ノードの状態
に指定させるステップと、を実行するように構成されて
いることを特徴とするコンピュータ・プログラム生産
物。
【請求項１１】請求項１０記載のコンピュータ・プログ
ラム生産物において、前記共有引き分け解消装置は前記
予め選択された共有装置の１つであることを特徴とする
コンピュータ・プログラム生産物。
【請求項１２】請求項１０記載のコンピュータ・プログ
ラム生産物において、前記障害処理モジュールは、前記障害処理モジュールに
よる前記共有引き分け解消装置の予約が成功したとき、
更に、前記第１の共有引き分け解消装置とは異なる第２の共有
引き分け解消装置を予約しようとするステップと、前記障害処理モジュールが前記第２の引き分け解消装置
の予約に成功した場合、前記障害処理手段の前記ノード
が前記共有資源に対して排他的アクセスを有すること
を、前記障害処理手段の前記ノードに指定させるステッ
プと、前記障害処理モジュールが前記第２の引き分け解消装置
の予約に失敗した場合、前記障害処理手段の前記ノード
は前記共有資源に対する排他的アクセスを有さないこと
を、前記障害処理手段の前記ノードに指定させるステッ
プと、を実行することを特徴とするコンピュータ・プロ
グラム生産物。
【請求項１３】請求項１２記載のコンピュータ・プログ
ラム生産物において、前記第２の引き分け解消装置は、
前記予め選択された共有装置の１つであることを特徴と
するコンピュータ・プログラム生産物。
【請求項１４】請求項８記載のコンピュータ・プログラ
ム生産物において、前記障害処理モジュールは、少なく
とも、前記予め選択された共有装置のローカル共有装置を予約
しようとするステップと、前記障害処理モジュールが前記ローカル共有装置の予約
に成功した場合、前記ローカル共有装置以外の少なくと
も１つの予め選択された共有装置を強制的に予約するス
テップと、を実行することによって、前記予約しようと
するステップを実行するように構成されていることを特
徴とするコンピュータ・プログラム生産物。
【請求項１５】共有資源と少なくとも２つのノードとを
含む分散型コンピュータ・システムにおいて障害から回
復するための装置であって、前記分散型コンピュータ・システムの前記ノードの選択
された１つに対応し、該分散型コンピュータ・システム
の障害状態を検出する障害検出器と、 (i)前記障害検出器に動作的に結合され、(ii)前記選択
されたノードが前記共有資源に対する排他的アクセスを
有するか否かを指定する状態を有する障害処理手段であ
って、(iii)前記障害状態の検出時に、（ａ）障害状態
がない場合に前記選択されたノードによって少なくとも
１つが予約されていない、前記予め選択された共有装置
の全てを予約しようとし、（ｂ）前記障害処理手段が前
記予め選択された共有装置全ての予約に成功した場合、
前記選択されたノードが前記共有資源に対する排他的ア
クセスを有することを前記障害処理手段の状態に指定さ
せ、（ｃ）前記障害処理手段が前記予め選択された共有
装置の全ての予約に失敗した場合、前記ノードは前記共
有資源への排他的アクセスを有していないことを前記障
害処理手段の状態に指定させる前記障害処理手段と、か
ら成ることを特徴とする装置。
【請求項１６】請求項１５記載の装置において、前記障
害状態時に、前記障害処理手段が前記予め選択された共
有装置の少なくとも１つの予約に成功し、前記予め選択
された共有装置の少なくとも１つの他の共有装置の予約
に失敗した場合、前記障害処理手段は引き分け状態を検
出することを特徴とする装置。
【請求項１７】請求項１６記載の装置において、該障害
処理手段は、前記障害処理手段が引き分け状態を検出し
たとき、(i) 前記分散型コンピュータ・システムの共有
引き分け解消装置を予約しようとし、(ii)(a) 前記障害
処理手段が前記共有引き分け解消装置の予約に成功した
場合、前記選択されたノードが前記共有資源に対する排
他的アクセスを有することを、前記障害処理手段の状態
に指定させ、(b)前記障害処理手段が前記共有引き分け
解消装置の予約に失敗した場合、前記選択されたノード
は前記共有資源に対する排他的アクセスを有さないこと
を、前記障害処理手段の状態に指定させることを特徴と
する装置。
【請求項１８】請求項１７記載の装置において、前記共
有引き分け解消装置は前記予め選択された共有装置の１
つであることを特徴とする装置。
【請求項１９】請求項１７記載の装置において、前記障
害処理モジュールは、前記障害処理手段による前記共有
引き分け解消装置の予約が成功したとき、(i) 前記第１
の共有引き分け解消装置とは異なる第２の共有引き分け
解消装置を予約しようとし、(ii)(a)前記障害処理手段
が前記第２の引き分け解消装置の予約に成功した場合、
前記選択されたノードが前記共有資源に対して排他的ア
クセスを有することを、前記障害処理手段の状態に指定
させ、(b)前記障害処理手段が前記第２の引き分け解消
装置の予約に失敗した場合、前記選択されたノードは前
記共有資源に対する排他的アクセスを有さないことを、
前記障害処理手段の状態に指定させることを特徴とする
装置。
【請求項２０】請求項１９記載の装置において、前記第
２の引き分け解消装置は、前記予め選択された共有装置
の１つであることを特徴とする装置。
【請求項２１】請求項１５記載の装置において、前記障
害処理手段は、(i)前記予め選択された共有装置のロー
カル共有装置を予約しようとし、(ii)前記障害処理手段
が前記ローカル共有装置の予約に成功した場合、少なく
とも１つの前記ローカル共有装置を強制的に予約するこ
とによって、前記予め選択された共有装置の全てを予約
しようとすることを特徴とする装置。
【請求項２２】分散型コンピュータ・システムであっ
て、少なくとも２つの予め選択された共有装置を含む共有資
源と、少なくとも２つのノードであって、各々前記予め選択さ
れた共有装置の各々と動作的に結合され、前記各ノード
は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに動作的に結合された
ネットワーク・アクセス装置であって、これを通じて、
前記少なくとも１つのプロセッサが前記少なくとも２つ
のノードの他方の少なくとも１つのプロセッサとの通信
を可能にする前記ネットワークアクセス装置と、前記ノードが前記少なくとも２つのノードの少なくとも
１つの他のノードとの通信がもはや不可能となった障害
状態を検出する障害検出器と、 (i)前記障害検出器に動作的に結合され、(ii)前記ノー
ドが前記共有資源に対する排他的アクセスを有するか否
かを指定する状態を有する障害処理手段であって、(ii
i)前記障害状態の検出時に、（ａ）障害状態がない場合
に前記選択されたノードによって少なくとも１つが予約
されていない、前記予め選択された共有装置の全てを予
約しようとし、（ｂ）前記障害処理手段が前記予め選択
された共有装置全ての予約に成功した場合、前記ノード
が前記共有資源に対する排他的アクセスを有することを
前記障害処理手段の状態に指定させ、（ｃ）前記障害処
理手段が前記予め選択された共有装置全ての予約に失敗
した場合、前記ノードは前記共有資源への排他的アクセ
スを有していないことを前記障害処理手段の状態に指定
させる前記障害処理手段と、から成ることを特徴とする
分散型コンピュータ・システム。
【請求項２３】請求項２２記載の分散型コンピュータ・
システムにおいて、前記障害状態時に、前記障害処理手
段が前記予め選択された共有装置の少なくとも１つの予
約に成功し、前記予め選択された共有装置の少なくとも
１つの他の共有装置の予約に失敗した場合、各ノードの
前記障害処理手段は引き分け状態を検出することを特徴
とする分散型コンピュータ・システム。
【請求項２４】請求項２３記載の分散型コンピュータ・
システムにおいて、該障害処理手段は、前記障害処理手
段が引き分け状態を検出したとき、(i) 前記分散型コン
ピュータ・システムの共有引き分け解消装置を予約しよ
うとし、(ii)(a) 前記障害処理手段が前記共有引き分け
解消装置の予約に成功した場合、前記ノードが前記共有
資源に対する排他的アクセスを有することを、前記障害
処理手段の状態に指定させ、(b)前記障害処理手段が前
記共有引き分け解消装置の予約に失敗した場合、前記ノ
ードは前記共有資源に対する排他的アクセスを有さない
ことを、前記障害処理手段の状態に指定させることを特
徴とする分散型コンピュータ・システム。
【請求項２５】請求項２４記載の分散型コンピュータ・
システムにおいて、前記共有引き分け解消装置は前記予
め選択された共有装置の１つであることを特徴とする分
散型コンピュータ・システム。
【請求項２６】請求項２４記載の分散型コンピュータ・
システムにおいて、前記ノードの１つの前記障害処理手
段による前記共有引き分け解消装置の予約が成功したと
き、前記ノードの前記障害処理手段は、(i) 前記第１の
共有引き分け解消装置とは異なる第２の共有引き分け解
消装置を予約しようとし、(ii)(a)前記ノードの前記障
害処理手段が前記第２の引き分け解消装置の予約に成功
した場合、前記ノードが前記共有資源に対して排他的ア
クセスを有することを、前記障害処理手段の状態に指定
させ、(b)前記ノードの前記障害処理手段が前記第２の
引き分け解消装置の予約に失敗した場合、前記ノードは
前記共有資源に対する排他的アクセスを有さないこと
を、前記障害処理手段の状態に指定させることを特徴と
する分散型コンピュータ・システム。
【請求項２７】請求項２６記載の分散型コンピュータ・
システムにおいて、前記第２の引き分け解消装置は、前
記予め選択された共有装置の１つであることを特徴とす
る分散型コンピュータ・システム。
【請求項２８】請求項２２記載の分散型コンピュータ・
システムにおいて、各ノードの前記障害処理手段は、
(i)前記ノードに対してローカルである前記予め選択さ
れた共有装置の選択された１つを予約しようとし、(ii)
前記障害処理手段が前記選択された共有装置の予約に成
功した場合、前記選択された共有装置以外の前記予め選
択された共有装置の少なくとも１つを強制的に予約する
ことによって、前記予め選択された共有装置の全てを予
約しようとすることを特徴とする分散型コンピュータ・
システム。
【請求項２９】(i)コンピュータ読み取り可能媒体上に
記憶され、(ii)コンピュータにより実行可能であり、(i
ii)少なくとも１つのモジュールを含み、一方該モジュ
ールの各々は前記コンピュータによって実行される少な
くとも１つの機能を遂行するように構成されている前記
モジュールを含むコード分散システムであって、少なくとも２つのノードと、少なくとも２つの予め選択
された共有装置を含む共有資源とを含む分散型コンピュ
ータ・システムにおいて障害状態を検出するように構成
された障害検出モジュールと、 (i)前記少なくとも２つのノードの選択された１つに対
応し、(ii)前記障害検出モジュールに動作的に結合され
た障害処理モジュールであって、(iii)障害状態が検出
されたときに、障害状態がない場合に前記障害処理モジュールの前記ノ
ードによって少なくとも１つが予約されていない、前記
予め選択された共有装置の全てを予約しようとし、前記障害処理モジュールが前記予め選択された共有装置
全ての予約に成功した場合、前記選択されたノードが前
記共有資源に対する排他的アクセスを有することを前記
選択されたノードの状態に指定させ、前記障害処理モジュールが前記予め選択された共有装置
全ての予約に失敗した場合、前記選択されたノードは前
記共有資源への排他的アクセスを有していないことを前
記選択されたノードの状態に指定させる前記障害処理モ
ジュールと、から成ることを特徴とするシステム。
【請求項３０】請求項２９記載のシステムにおいて、前
記障害処理モジュールは、障害状態が検出されたとき、前記障害処理モジュールが、前記選択されたノードに対
して、前記予め選択された共有装置の少なくとも１つの
予約に成功し、前記選択されたノードに対して、前記予
め選択された共有装置の少なくとも１つの他の共有装置
の予約に失敗した場合、引き分け状態を検出することを
特徴とするシステム。
【請求項３１】請求項３０記載のシステムにおいて、前
記障害処理モジュールは、引き分け状態が検出されたと
き、更に、前記選択されたノードに対して、前記分散型コンピュー
タ・システムの共有引き分け解消装置を予約しようとす
るステップと、前記障害処理モジュールが前記共有引き分け解消装置の
予約に成功した場合、前記選択されたノードが前記共有
資源に対する排他的アクセスを有することを、前記選択
されたノードの状態に指定させるステップと、前記障害処理モジュールが前記共有引き分け解消装置の
予約に失敗した場合、前記選択されたノードは前記共有
資源に対する排他的アクセスを有さないことを、前記選
択されたノードの状態に指定させるステップと、を実行
するように構成されていることを特徴とするシステム。
【請求項３２】請求項３１記載のシステムにおいて、前
記共有引き分け解消装置は前記予め選択された共有装置
の１つであることを特徴とするシステム。
【請求項３３】請求項３１記載のシステムにおいて、前
記障害処理モジュールは、前記障害処理モジュールによ
る前記共有引き分け解消装置の予約が成功したとき、更
に、前記選択されたノードに対して、前記第１の共有引き分
け解消装置とは異なる第２の共有引き分け解消装置を予
約しようとするステップと、前記障害処理モジュールが前記第２の引き分け解消装置
の予約に成功した場合、前記障害処理手段の前記選択さ
れたノードが前記共有資源に対して排他的アクセスを有
することを、前記障害処理手段の前記選択されたノード
の状態に指定させるステップと、前記障害処理モジュールが前記第２の引き分け解消装置
の予約に失敗した場合、前記障害処理手段の前記選択さ
れたノードは前記共有資源に対する排他的アクセスを有
さないことを、前記障害処理手段の前記選択されたノー
ドの状態に指定させるステップと、を実行するように構
成されていることを特徴とするシステム。
【請求項３４】請求項３３記載のシステムにおいて、前
記第２の引き分け解消装置は、前記予め選択された共有
装置の１つであることを特徴とするシステム。
【請求項３５】請求項２９記載のシステムにおいて、前
記障害処理モジュールは、少なくとも、前記選択されたノードに対して、前記予め選択された共
有装置のローカル共有装置を予約しようとするステップ
と、前記障害処理モジュールが前記ローカル共有装置の予約
に成功した場合、前記選択されたノードに対して、前記
ローカル共有装置以外の少なくとも１つの前記予め選択
された共有装置を強制的に予約するステップと、を実行
することによって、前記予約しようとするステップを実
行することを特徴とするシステム。