JPH11328139A

JPH11328139A - 高度利用可能オブジェクト用トランスペアレントサ―バフェイルオ―バ―のための方法および装置

Info

Publication number: JPH11328139A
Application number: JP11101887A
Authority: JP
Inventors: Declan J Murphy; ジェイ．マーフィーデクラン; Madhusudhan Talluri; タルーリマドゥスハン; Vladimir Matena; マテナブラディミール; Yousef A Khalidi; エイ．カリディヨセフ; Jose M Bernabeu-Auban; エム．ベルナボウ−オウバンホセ; Andrew G Tucker; ジー．タッカーアンドリュー
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1998-04-09
Filing date: 1999-04-08
Publication date: 1999-11-30
Also published as: CA2267444A1; DE69908017D1; US6185695B1; EP0950954A1; EP0950954B1

Abstract

(57)【要約】【課題】第１のサーバから第２のサーバへのトランス
ペアレントフェイルオーバを容易にする方法および装置
を提供する。【解決手段】オブジェクトのアクティブな呼び出しに
対する第１のサーバから第２のサーバにトランスペアレ
ントフェイルオーバーを提供する方法であって、オブジ
ェクトに対する呼び出しのための一次サーバとして第１
のサーバが機能し、第１のサーバの故障によりオブジェ
クトに対する新しい一次サーバとして第２のサーバを選
択する工程と、第２のサーバがオブジェクトに対する新
しい一次サーバとして機能するように再設定する工程
と、不完全であるアクティブな呼び出しを第２のサーバ
上のオブジェクトに対して自動的に再試行する工程と、
を含む方法。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、概して分散オブジ
ェクトオペレーティングシステムに関し、より詳細に
は、遠隔オブジェクトへのアクセス中に第１のサーバか
ら第２のサーバへのトランスペアレントフェイルオーバ
ー（failover)を支持するシステムおよび方法に関す
る。

【０００２】

【従来の技術】本出願は以下に示す譲受人が同一の米国
特許出願に関する：１９９７年３月３１日に出願された
Ｍａｔｅｎａらによる係属中のシリアル番号第０８／８
２９，１５６号、１９９７年６月３０日に出願されたＭ
ｕｒｐｈｙらによる係属中のシリアル番号第０８／８８
４，９７８号、１９９７年６月１９日に出願されたＴｕ
ｃｋｅｒらによる係属中のシリアル番号第０８／８７
９，１５０号、１９９７年６月１９日に出願された係属
中のＴｕｃｋｅｒらによるシリアル番号第０８／８７
９，１５１号。これらの開示は、全文に記載して全ての
目的に対して参考として援用する。

【０００３】コンピュータシステムをリンクするために
コンピュータネットワークが増加して使用されるように
なるにしたがい、コンピュータネットワークにわたって
コンピュータシステム間の相互作用を制御するために分
散オペレーティングシステムが開発されてきた。いくつ
かの分散オペレーティングシステムでは、クライアント
コンピュータシステムは、サーバコンピュータシステム
上のリソースにアクセスすることが可能になる。例え
ば、クライアントコンピュータシステムは、サーバコン
ピュータシステム上のデータベースに含まれる情報にア
クセスすることが可能であり得る。サーバが故障する
際、分散オペレーティングシステムがこの故障から自動
的に復帰することが望ましい。このようなサーバの故障
から復帰する能力を処理する分散オペレーティングシス
テムを有する分散コンピュータシステムは、「高度利用
可能システム(highly available system)」と呼ばれ
る。このように高度利用可能システム上に格納されるデ
ータオブジェクトは、「高度利用可能データオブジェク
ト」と呼ばれる。

【０００４】高度利用可能システムが適切に機能するた
めには、高度利用可能システムはサーバの故障を検出し
てシステム自身を再設定し、故障したサーバ上のオブジ
ェクトに対するアクセスを他のサーバのバックアップコ
ピーに再指示することができなくてはならない。別のサ
ーバのバックアップコピーに切り換えるプロセスを「フ
ェイルオーバー」と呼ぶ。

【０００５】

【発明が解決しようとする課題】現存するクライアント
サーバシステムは、典型的にサーバの故障をはっきり検
出して復帰するためのクライアントアプリケーションプ
ログラムに依存する。例えば、典型的にクライアントア
プリケーションプログラムは、タイムアウトおよび再試
行の手順を明白に特定するコードを含む。この追加のコ
ードは、クライアントのアプリケーションプログラミン
グをより複雑かつ煩雑にする。また、このコードはクラ
イアントアプリケーションプログラムに対して検査およ
びデバッグするのを難しくする。なぜなら、クライアン
トコンピュータシステムとサーバのコンピュータシステ
ムの間の相互作用の無数の潜在的非同期性を系統的に再
形成することが困難だからである。さらに、各クライア
ントアプリケーションプログラムは、サーバの高度利用
可能オブジェクトにアクセスする度にこのようなフェイ
ルオーバーコードを提供しなくてはならない。

【０００６】よって、クライアントアプリケーションプ
ログラムにはトランスペアレントな方法でサーバの故障
から復帰する分散オブジェクトオペレーティングシステ
ムが必要である。このような分散システムは、クライア
ントアプリケーションプログラムが故障検出と再試行コ
ードを提供し且つ検査する負担なしに書き込まれること
が可能になる。

【０００７】本発明は上記の課題に鑑みてなされたもの
であり、その目的は上記のような問題点を克服して、第
１のサーバから第２のサーバへのトランスペアレントフ
ェイルオーバを容易にする方法および装置を提供するこ
とである。

【０００８】

【課題を解決するための手段】本発明の１つの局面によ
れば、オブジェクトのアクティブな呼び出しに対する第
１のサーバから第２のサーバにトランスペアレントフェ
イルオーバーを提供する方法は、該オブジェクトに対す
る呼び出しのための一次サーバとして該第１のサーバが
機能し、該第１のサーバの故障により該オブジェクトに
対する新しい一次サーバとして該第２のサーバを選択す
る工程と、該第２のサーバが該オブジェクトに対する該
新しい一次サーバとして機能するように再設定する工程
と、不完全である該アクティブな呼び出しを該第２のサ
ーバ上の該オブジェクトに対して自動的に再試行する工
程と、を含む。これにより、上記目的が達成される。

【０００９】前記第２のサーバを選択する動作および前
記第２のサーバを再設定する動作が自動的に実施されて
もよい。

【００１０】前記第２のサーバを再設定する工程の前
に、前記オブジェクトに対する前記アクティブな呼び出
しを終了する工程を更に含んでもよい。

【００１１】前記アクティブな呼び出しを終了する工程
は、非応答ノードに対する任意の該アクティブな呼び出
しが障害を取り除き、完了させる工程を含んでもよい。

【００１２】前記第１のサーバの故障の後に前記オブジ
ェクトに対する任意の新しいアクティブな呼び出しを遮
断する工程と、前記第２のサーバを再設定する工程の後
に該オブジェクトに対する該新しいアクティブな呼び出
しから障害を取り除く工程と、を更に含んでもよい。

【００１３】前記第１のサーバの故障を検出する工程を
更に含んでもよい。

【００１４】前記故障を検出する動作が前記第１のサー
バ、前記第２のサーバ、および複数の追加のコンピュー
タシステムのうちの少なくとも２つにわたって分散され
るシステムマネージャによって実行されることによっ
て、該システムマネージャがサーバの故障に対して耐性
を有してもよい。

【００１５】前記第１のサーバのクライアントに該第１
のサーバが故障したことを知らせる工程を更に含んでも
よい。

【００１６】前記オブジェクトが前記第１のサーバ上の
一次コピーおよび前記第２のサーバ上の二次コピーを有
し、該一次コピーが該第１のサーバ上で更新されたと
き、該第２のサーバ上で該二次コピーを更新する工程を
更に含んでもよい。

【００１７】前記オブジェクトが、オブジェクトのグル
ープを含んでもよい。

【００１８】本発明の別の局面によれば、オブジェクト
のアクティブな呼び出しに対する第１のサーバから第２
のサーバにトランスペアレントフェイルオーバーを提供
する方法は、該オブジェクトに対する呼び出しのための
一次サーバとして該第１のサーバが機能し、該第１のサ
ーバの故障を検出する工程と、該第１のサーバの故障を
検出する工程の後に、該オブジェクトに対する任意の新
しいアクティブな呼び出しを遮断する工程と、非応答ノ
ードに対する任意のアクティブな呼び出しが障害を取り
除き完了させる工程を含む、該オブジェクトに対する該
アクティブな呼び出しを終了する工程と、該オブジェク
トに対する新しい一次サーバとして機能するように該第
２のサーバを選択する工程と、該オブジェクトに対する
該新しい一次サーバとして該第２のサーバを再設定する
工程と、該第２のサーバを再設定する工程の後に、該オ
ブジェクトに対する該新しいアクティブな呼び出しから
障害を取り除く工程と、不完全である該アクティブな呼
び出しを該第２のサーバ上の該オブジェクトに対して自
動的に再試行する工程と、を含む。これにより、上記目
的が達成される。

【００１９】前記故障を検出する動作が前記第１のサー
バ、前記第２のサーバ、および複数の追加のコンピュー
タシステムのうちの少なくとも２つにわたって分散され
るシステムマネージャによって実行されることによっ
て、該システムマネージャがサーバの故障に対して耐性
を有してもよい。

【００２０】前記第１のサーバのクライアントに該第１
のサーバが故障したことを知らせる工程を更に含んでも
よい。

【００２１】前記オブジェクトが前記第１のサーバ上の
一次コピーおよび前記第２のサーバ上の二次コピーを有
し、該一次コピーが該第１のサーバ上で更新されたと
き、該第２のサーバ上で該二次コピーを更新する工程を
更に含んでもよい。

【００２２】前記オブジェクトが、オブジェクトのグル
ープを含んでもよい。

【００２３】本発明の別の局面によれば、オブジェクト
のアクティブな呼び出しに対して第１のサーバから第２
のサーバへのトランスペアレントなフェイルオーバーを
提供する装置は、該第１のサーバが該オブジェクトに対
する呼び出しの一次サーバとして機能し、ネットワーク
と結合された該第１のサーバと、該ネットワークと結合
された該第２のサーバと、該第１のサーバの故障を検出
し、該オブジェクトに対する新しい一次サーバとして機
能するように該第２のサーバを選択する該ネットワーク
上の少なくとも１つのノード上に常駐するシステムマネ
ージャと、該システムマネージャと通信し、該オブジェ
クトに対する該新しい一次サーバとして機能するように
該第２のサーバを再設定する、再設定メカニズムと、該
第２のサーバと通信し、該第２のサーバが再設定された
後に、該オブジェクトに対する不完全である該アクティ
ブな呼び出しを該第２のサーバに自動的に再試行する、
再試行メカニズムと、を含む。これにより、上記目的が
達成される。

【００２４】前記システムマネージャおよび前記再設定
メカニズムが、クライアントアプリケーションプログラ
ムからの明白な再試行命令を必要とせずに動作してもよ
い。

【００２５】前記第２のサーバが再設定される前に、前
記オブジェクトに対する前記アクティブな呼び出しを終
了する、終了メカニズムを更に含んでもよい。

【００２６】前記終了メカニズムは、非反応ノードに対
する呼び出しが障害を取り除き、完了させるように設定
してもよい。

【００２７】前記第１のサーバの故障が検出された時に
前記オブジェクトに対する新しいアクティブな呼び出し
を遮断し、前記第２のサーバが再設定された後にオブジ
ェクトに対する該新しいアクティブな呼び出しから障害
を取り除く、遮断メカニズムを更に含んでもよい。

【００２８】前記オブジェクトがオブジェクトのグルー
プを含んでもよい。

【００２９】前記システムマネージャが前記ネットワー
ク上の複数ノードにわたって分散されることにより該シ
ステムマネージャがノードの故障に耐性を有してもよ
い。

【００３０】前記システムマネージャが、前記第１のサ
ーバが故障したことを該第１のサーバのクライアントに
知らせるように設定してもよい。

【００３１】前記システムマネージャが前記オブジェク
トに対する前記新しい一次サーバとして機能するように
前記第２のサーバを選択する選択メカニズムを含んでも
よい。

【００３２】前記オブジェクトに対する一次サーバと通
信し、該オブジェクトに対する少なくとも１つの二次サ
ーバと通信する更新メカニズムであって、該更新メカニ
ズムは、該オブジェクトの一次コピーが該オブジェクト
に対する一次サーバで更新されたとき、該オブジェクト
の少なくとも１つの二次コピーが該オブジェクトに対す
る少なくとも１つの二次サーバ上で更新されることを確
認してもよい。

【００３３】本発明の別の局面によれば、オブジェクト
のアクティブな呼び出しに対して第１のサーバから第２
のサーバへのトランスペアレントなフェイルオーバーを
提供する装置は、該第１のサーバが該オブジェクトに対
する呼び出しの一次サーバとして機能し、ネットワーク
と結合された該第１のサーバと、該ネットワークと結合
された該第２のサーバと、該第１のサーバの故障を検出
し、該オブジェクトに対する一次サーバとして機能する
ように該第２のサーバを選択する該ネットワーク上の少
なくとも１つのノード上に常駐するシステムマネージャ
と、該第２のサーバが該オブジェクトに対する新しい一
次サーバとして機能するように再設定される前に、該オ
ブジェクトに対する該アクティブな呼び出しを終了する
終了メカニズムと、該第１のサーバの故障が検出された
時に該オブジェクトに対する新しい呼び出しを遮断し、
該第２のサーバが再設定された後に該オブジェクトに対
する該新しい呼び出しから障害を取り除く遮断メカニズ
ムと、該システムマネージャと通信し、該オブジェクト
に対する該新しい一次サーバとして機能するように該第
２のサーバを再設定する再設定メカニズムと、該第２の
サーバと通信し、該第２のサーバが再設定された後に該
オブジェクトに対する不完全な呼び出しを自動的に再試
行する再試行メカニズムと、を含む。これにより、上記
目的が達成される。

【００３４】前記終了メカニズムは、非応答ノードに対
する呼び出しが障害を取り除き、完了させるように設定
されてもよい。

【００３５】前記システムマネージャは、前記ネットワ
ーク上の複数ノードにわったって分散されることから該
システムマネージャがノードの故障に耐性を有してもよ
い。

【００３６】前記システムマネージャが、前記第１のサ
ーバが故障したことを該第１のサーバのクライアントに
知らせるように設定されてもよい。

【００３７】前記システムマネージャが前記オブジェク
トに対する前記新しい一次サーバとして機能するように
前記第２のサーバを選択する選択メカニズムを含んでも
よい。

【００３８】前記オブジェクトがオブジェクトのグルー
プを含んでもよい。

【００３９】前記オブジェクトに対する一次サーバと通
信し、該オブジェクトに対する少なくとも１つの二次サ
ーバと通信する更新メカニズムであって、該更新メカニ
ズムは、該オブジェクトの一次コピーが該オブジェクト
に対する一次サーバで更新されたとき、該オブジェクト
の少なくとも１つの二次コピーが該オブジェクトに対す
る少なくとも１つの二次サーバ上で更新されることを確
認してもよい。

【００４０】本発明の更に別の局面では、命令を格納す
るプログラム記憶装置は、コンピュータによって実行さ
れる時、オブジェクトのアクティブな呼び出しに対して
第１のサーバから第２のサーバへのトランスペアレント
なフェイルオーバーを提供する方法を実施し、該第１の
サーバが該オブジェクトに対する呼び出しのための一次
サーバとして機能し、該方法が該第１のサーバが故障し
た際にオブジェクトに対する新しい一次サーバとして該
第２のサーバを選択する工程と、該第２のサーバを該オ
ブジェクトに対する該新しい一次サーバとして機能する
ように再設定する工程と、不完全である該アクティブな
呼び出しを該第２のサーバ上の該オブジェクトに対して
自動的に再試行する工程と、を含む。これにより、上記
目的が達成される。

【００４１】本発明の更に別の局面によれば、コンピュ
ータによって実行される時、命令を搬送する搬送波で具
体化されるコンピュータ命令信号は、オブジェクトのア
クティブな呼び出しに対して第１のサーバから第２のサ
ーバへのトランスペアレントなフェイルオーバーを提供
する方法を実施し、該第１のサーバが該オブジェクトに
対する呼び出しのための一次サーバとして機能し、該方
法が、該第１のサーバが故障した際にオブジェクトに対
する新しい一次サーバとして該第２のサーバを選択する
工程と、該第２のサーバを該オブジェクトに対する該新
しい一次サーバとして機能するように再設定する工程
と、不完全である該アクティブな呼び出しを該第２のサ
ーバ上の該オブジェクトに対して自動的に再試行する工
程と、を含む。これにより、上記目的が達成される。

【００４２】本発明の更に別の実施形態は、以下の詳細
な説明から当業者に容易に明白になる。詳細な説明にお
いて、本発明の実施形態は本発明を実施するために考え
られる最良のモードを示す目的でのみ示され、説明され
る。理解されるように、本発明の精神および範囲から逸
脱することなく本発明は他のおよび別の実施形態も可能
であり、その詳細も、多くの明白な点で改変が可能であ
る。よって、図面および詳細な説明は、本質的に例示的
であり、制限的ではないとみなされる。

【００４３】

【発明の実施の形態】定義フェイルオーバー−第１のサーバが故障した際に、第１
のサーバ上のオブジェクトの一次コピーから第２のサー
バ上のオブジェクトの二次コピーに切り換えるプロセ
ス。

【００４４】サーバの故障−サーバがクライアントから
の要求に適時な方法で反応することに失敗する際に起こ
る状態。

【００４５】オブジェクト−任意のデータオブジェク
ト、またはより狭い定義では、オブジェクト指向のプロ
グラミング環境内で規定されるオブジェクト。

【００４６】レプリカマネージャ（replica manager）
−様々なサーバにおけるオブジェクトの多様な一次およ
び二次コピーの記録を取るプロセスまたはメカニズム。

【００４７】トランスペアレントに再試行する−クライ
アントアプリケーションプログラムの明白な再試行無し
にオブジェクトに対する呼び出しを再試行すること。

【００４８】トランスペアレントフェイルオーバー−ク
ライアントアプリケーションプログラムからの明白な故
障検出および再試行の命令無しで自動的に起こるフェイ
ルオーバーオブジェクトに対する呼び出しを終了する−
オブジェクトに対する任意のアクティブな呼び出しが完
了するのを待つこと。これは、オブジェクトに対する呼
び出しに関するデータ構造を分解することを追加的に含
み得る。

【００４９】分散システムの説明図１は、本発明の実施形態によるクライアントのシステ
ムおよび／またはサーバシステムとして機能できる複数
のノード１０２、１０６、１１０、および１１４を含む
分散コンピューティングシステムを示す図である。図１
に示すシステムは、ネットワーク１００を含み、ノード
１０２、１０６、１１０および１１４に結合される。ネ
ットワーク１００は一般に、以下に制限はされないが、
ローカルエリアネットワーク、ワイドエリアネットワー
ク、またはネットワークの組合せを含むコンピュータ間
の任意のタイプの配線またはワイヤレスのリンクであ
る。ノード１０２、１０６、１１０および１１４はネッ
トワーク１００を用いて互いに通信する。ノード１０
４、１０６、１１０および１１４の各々は、独立のクラ
イアント／サーバコンピュータシステムを示し、ここで
各ノードは、クライアントコンピュータシステムおよび
／またはサーバコンピュータシステムとして機能し得
る。クライアントコンピュータシステムはオブジェクト
を呼び出すノードに関連する。サーバコンピュータシス
テムは、オブジェクトの方法を格納するノードに関連す
る。特定の場合では、オブジェクトに対するクライアン
トおよびサーバは、同一ノード上に存在する。他の場合
では、クライアントおよびサーバは、異なるノード上に
存在する。

【００５０】図１は、記憶装置１１８および１２０を含
む。ノード１０２および１０６は、記憶装置１１８に結
合される。ノード１１０および１１４は、記憶装置１２
０に結合される。記憶装置１１８および１２０は、ノー
ド１０２、１０６、１１０および１１４からのデータの
ための不揮発性記憶装置を含む。

【００５１】各ノード１０２、１０６、１１０、および
１１４は、１つ以上のドメインを有する。ドメインは、
それ自身のアドレス空間を有するプロセスであると規定
される。ドメインは、実行の複数スレッドを有し得、ユ
ーザまたはカーネルアプリケーション手順を実行し得
る。カーネルドメインは、オペレーティングシステムに
関連し、ユーザドメインは、オペレーティングシステム
以外のプロセスに関連する。ユーザドメインは、典型的
に１つ以上のアプリケーション手順を実行する。各ドメ
インは、それに関連する１つ以上のオブジェクトを有す
る。

【００５２】１つの実施形態において、オペレーティン
グシステムは、Ｃａｌｉｆｏｒｎｉａ，ＰａｌｏＡｌ
ｔｏのＳｕｎＭｉｃｒｏｓｙｓｔｅｍｓ，Ｉｎｃ．
の製品であるＳｏｌａｒｉｓＭＣｏｐｅｒａｔｉｎ
ｇｓｙｓｔｅｍである。ＳｏｌａｒｉｓＭＣｏｐ
ｅｒａｔｉｎｇｓｙｓｔｅｍは、ＵＮＩＸベースのオ
ペレーティングシステムである。よって、本願の技術を
説明するにあたって、ＵＮＩＸ用語および概念が頻繁に
使用される。しかし、この使用は説明の目的であり、こ
の特定のオペレーティングシステムに本発明を制限する
と解釈されるべきではない。

【００５３】各スレッドは、オブジェクトの実行（すな
わち、オブジェクトの方法）を要求し得る。オブジェク
トのロケーションは、スレッドに対してトランスペアレ
ントである。オブジェクトは、複数のロケーションのう
ちの１つに常駐し得る。それは、要求スレッドとして同
一のドメイン内、要求スレッドとして同一のノード内で
あるが異なるドメインに、または遠隔ノードのドメイン
に常駐し得る。

【００５４】カーネルドメインは、カーネルアプリケー
ションを実行し得る複数のスレッドを有する。各カーネ
ルドメインは、それに関連する１つ以上のカーネルオブ
ジェクトを有し得る。カーネルオブジェクトは、ドメイ
ン内のスレッドによって、または別のノードにおけるド
メイン内のスレッドによって呼び出され得る。

【００５５】要求アプリケーションのドメイン内のオブ
ジェクトのための方法の実行は、ローカルの手順呼び出
しとして取り扱われる。ローカルの手順呼び出しは、典
型的に、アプリケーションからオブジェクトの方法へ制
御を転送し、最終的に制御をアプリケーションに戻す機
能またはサブルーチン呼び出しである。オブジェクトに
関する引数（argument)は、ローカルの手順呼び出しを
通過する。

【００５６】遠隔ドメインに常駐するオブジェクトのた
めの方法の実行は、遠隔手順呼び出しとして取り扱われ
る。遠隔手順呼び出しは、遠隔手順呼び出しを扱う分散
メカニズムであるオブジェクト要求ブローカー（ＯＲ
Ｂ）によって処理（handle)される。よって、ＯＲＢ
は、異なるドメインに常駐するオブジェクトのための方
法を要求アプリケーションから呼び出す。これらの遠隔
オブジェクトは、要求アプリケーションとして同一のノ
ードに、または異なるノードに置かれ得る。

【００５７】クライアント−サーバ相互作用の説明図２Ａは、非高度利用可能システムのオブジェクト２０
６に対する呼び出しに関する従来技術のクライアント−
サーバ相互作用を示す。この実施形態において、クライ
アント２００は、サーバ２０２上でオブジェクト２０６
に対するリファレンスを作成する。概して、このリファ
レンスは、オブジェクト２０６の呼び出しの形式であ
る。

【００５８】本実施形態において、クライアント２００
は以下のように呼び出しを行う。クライアント２００
は、サーバ２０２上のオブジェクト２０６に対して呼び
出し２０４を作成する。これにより、ネットワーク１０
０をわたってサーバ２０２に要求２０８が発生される。
要求２０８に応答して、サーバ２０２はオブジェクト２
０６上の具体的な機能を呼び出す。この機能呼び出しが
完了した後、サーバ２０２はネットワーク１００をわた
ってクライアント２００に応答２１０を返す。オブジェ
クト呼び出し２０４がこれで完了する。

【００５９】図２Ｂは、本発明の実施形態による高度利
用可能サーバ２１１上の高度利用可能オブジェクト２０
６に対する呼び出しに関するクライアント−サーバの相
互作用を示す。高度利用可能サーバ２１１は、一次サー
バ２１２および二次サーバ２１３を含む。一次サーバ２
１２は、高度利用可能オブジェクトの一次コピーを含
み、二次サーバ２１３は、高度利用可能オブジェクトの
二次コピーを含む。チェックポイントインタフェース
（checkpointing interface)２１４にわたる通信を介し
て高度利用可能オブジェクトの一次コピーと二次コピー
との間で一貫性が維持される。

【００６０】クライアント−サーバ相互作用は、一次サ
ーバ２１２が非応答になったり、または他の故障が生じ
たりしても高度利用可能サーバ２１１が機能し続ける以
外は、図２Ａと本質的に同一の方法で進行する。まず、
クライアント２００はオブジェクトに対する呼び出し２
０４を作成する。これにより、ネットワーク１００にわ
たって一次サーバ２１２に要求２０８が発生される。何
らかの理由で一次サーバ２１２が非応答になった場合、
応答２１０が失敗する。これを図２Ｂにおける十字記号
で示す。

【００６１】故障が生じた時、この故障はレプリカマネ
ージャ５００と呼ばれるシステムプロセスによって最終
的に検出される。レプリカマネージャ５００について図
５を参照に以下で詳細に説明する。レプリカマネージャ
５００は、クライアント２００内のソフトウェアが二次
サーバ２１３に対して呼び出しを自動的に再試行させる
イベントの連鎖を開始する。これにより、二次サーバ２
１３に再試行要求２１８が発生される。再試行要求２１
８に応答して、サーバ２１３は、オブジェクト２１６の
二次コピー上の具体的な機能を呼び出す。機能呼び出し
が完了した後、サーバ２１３はネットワーク１００を介
してクライアント２００に応答２２０を返す。オブジェ
クト呼び出し２０４がここで完了する。

【００６２】システム層の説明図３は、本発明の実施形態によるクライアント２００、
一次サーバ２１２、および二次サーバ２１３の間の通信
に関する様々なシステム層を示す。クライアントシステ
ム２００において、オブジェクトに対する呼び出し２０
４は、レプリカハンドラ３０２にリファレンスを転送す
るプロキシによって処理される。レプリカハンドラ３０
２等のレプリカハンドラは、オブジェクト呼び出しの基
礎メカニズム、および引数通過を制御する。レプリカハ
ンドラは、オブジェクト呼び出しがどのように実行され
るか、オブジェクトリファレンスがアドレス空間の間で
どのように伝送されるか、オブジェクトリファレンスが
どのように解除されるか、および同様のオブジェクトラ
ンタイム動作を制御する。

【００６３】レプリカハンドラ３０２は、ｈｘｄｏｏｒ
３０８にリファレンスを転送する。１つの実施形態にお
いて、このリファレンス通過は機能呼び出しを介して達
成される。ｈｘｄｏｏｒ３０８はレプリカハンドラ３０
２とクライアントｘｄｏｏｒ３１４との間に挟まれた中
間層である。ｈｘｄｏｏｒ３０８の下にあるデータ構造
は、図４を参照して以下に更なる詳細を説明する。ｈｘ
ｄｏｏｒ３０８はリファレンスをクライアントｘｄｏｏ
ｒ３１４に渡す。

【００６４】クライアントｘｄｏｏｒ３１４は、輸送メ
カニズム３２０にリファレンスを転送する。これは、リ
ファレンスを要求の形態でネットワーク１００を介して
一次サーバ２１２上の輸送メカニズム３２２に転送す
る。一次サーバ２１２内において、この要求はサーバｘ
ｄｏｏｒ３１６およびｈｘｄｏｏｒ３１０を介して逆の
順番でレプリカハンドラ３０４の方に上向きに伝搬す
る。最後に、レプリカハンドラ３０４は高度利用可能オ
ブジェクト２０６の一次コピーに要求を付与することに
よって、高度利用可能オブジェクト２０６上で呼び出し
が行われる。次に、同じ経路に沿って応答がクライアン
ト２００に返送される。

【００６５】次に、二次サーバ２１３上の高度利用可能
オブジェクトの二次コピー２１６の状態は、チェックポ
イントインタフェース２１４を介して更新される。この
更新プロセスは、発明者Ｍａｔｅｎａらによる、シリア
ル番号０８／８２９，１５６を有する「Ｍｅｔｈｏｄ
ａｎｄＳｙｓｔｅｍｆｏｒＡｃｈｉｅｖｉｎｇＨ
ｉｇｈＡｖａｉｌａｂｉｌｉｔｙｉｎＮｅｔｗｏ
ｒｋｅｄＣｏｍｐｕｔｅｒＳｙｓｔｅｍｓ」と題さ
れた関連出願により詳細に説明されている。これは、上
記の関連出願の部分で参考のために援用される。二次サ
ーバ２１３がレプリカハンドラ３０６、ｈｘｄｏｏｒ３
１２、サーバｘｄｏｏｒ３１８および輸送メカニズム３
２４を含むことに留意されたい。示される実施形態にお
いて、サーバｘｄｏｏｒ３１８（点線で表す）は、フェ
イルオーバーが生じるまで作成されない。このように、
必要になるまでサーバｘｄｏｏｒ３１８の作成が遅延さ
れる。

【００６６】データ構造の説明図４は、本発明の実施形態による遠隔オブジェクトに対
する呼び出しに関するデータ構造のいくつかを示す。遠
隔ノードによってアクセス可能なオブジェクトは、特定
のノード内のオブジェクトを独自に識別するために使用
されるグローバルｘｄｏｏｒ識別子４４０によって識別
されるｘｄｏｏｒ４７０を有する。更に、各ノードは、
分散システム内のノードを独自に識別するノード識別子
４４２によって独自に示される。グローバルｘｄｏｏｒ
識別子４４０は、ノード識別子４４２と結合され、分散
システム内のオブジェクトを独自に識別する識別子を生
成する。

【００６７】アプリケーションは、ローカルｘｄｏｏｒ
識別子またはファイル記述子を利用するオブジェクトを
参照する。遠隔オブジェクト呼び出しを実行するため
に、ＯＲＢはそのオブジェクトに対するサーバのファイ
ル記述子を使用するオブジェクトを参照する。よって、
ＯＲＢは、クライアントオブジェクトリファレンス（す
なわち、ローカルｘｄｏｏｒ識別子）をサーバのローカ
ルｘｄｏｏｒ識別子にマッピングする。このマッピング
は、ユーザおよびカーネルドメインに常駐する多数の手
順およびデータ構造を利用して実行される。

【００６８】ＯＲＢは、このマッピングを実行するため
に複数のメカニズムを利用する。ＯＲＢは、以下の手順
を含む：ハンドラ手順、ｘｄｏｏｒ手順、およびゲート
ウェイハンドラ手順。ｘｄｏｏｒ手順は、ユーザおよび
カーネルドメインの両方に常駐する。これらのメカニズ
ムに対する簡単な説明は、図４を参照して以下に提供さ
れる。

【００６９】オブジェクトは、ハンドラ手順４２２によ
って参照される。レプリカハンドラ３０２、３０４、お
よび３０６は、このようなハンドラの例である。ハンド
ラ手順４２２は、オブジェクト呼び出しおよび引数通過
の基本メカニズムを制御する。ハンドラ手順４２２は、
オブジェクト呼び出しがどのように実行されるか、オブ
ジェクトリファレンスがアドレス空間の間をどのように
伝送されるか、オブジェクトリファレンスがどのように
解放されるか、および同様のオブジェクトランタイムオ
ペレーションを制御する。ローカルオブジェクト呼び出
しに対して、ハンドラ４２２はローカル手順呼び出しを
オブジェクトの方法４５０に対して実行する。

【００７０】ハンドラテーブル４２２は、ｈｘｄｏｏｒ
テーブル４８０を指示する。ｈｘｄｏｏｒテーブル４８
０は、対応ｈｘｄｏｏｒによって使用される。上述のよ
うに、ｈｘｄｏｏｒは、高度利用可能を容易にする間接
化技法のレベルを提供するレプリカハンドラとｘｄｏｏ
ｒとの間の中間層である。レプリカハンドラに対してｈ
ｘｄｏｏｒはｘｄｏｏｒのように見え、ｘｄｏｏｒに対
してｈｘｄｏｏｒはレプリカハンドラのように見える。

【００７１】ｈｘｄｏｏｒテーブル４８０は、ｈｘｄｏ
ｏｒＩＤ４８６、サービスＩＤ４９０、呼び出し数４９
２、およびフラグ４９４を含む。ｈｘｄｏｏｒＩＤは、
特定のｈｘｄｏｏｒを識別する。サービスＩＤ４９０
は、特定のサービスを識別する。ここで、サービスとは
オブジェクトのグループであると規定される。呼び出し
数４９２は、サービスに対して現在目立つ不完全な呼び
出し数の記録を取る。最後にフラグ４９４はｈｘｄｏｏ
ｒがクライアント上、一次サーバ上または二次サーバ上
のいずれにあるかを示す。

【００７２】遠隔ユーザオブジェクト呼び出しに対し
て、オブジェクトは、ユーザレベルｘｄｏｏｒ４５２に
よってそのドメインで示される。ユーザレベルｘｄｏｏ
ｒ４５２は、ローカルｘｄｏｏｒ識別子４５３、適切な
ハンドラへのポインタ４５６、ｄｏｏｒ識別子４５８、
および他の情報からなる。本発明の１つの実施形態にお
いて、ローカルｘｄｏｏｒ識別子４５３はファイル記述
子である。ｄｏｏｒ識別子４５８は、オブジェクトを示
すｄｏｏｒに対応し、カーネルレベルｄｏｏｒテーブル
４３２に格納される。

【００７３】カーネルレベルｘｄｏｏｒ４７０は、分散
システムの全体にわたってオブジェクトを示すために使
用されるカーネル状態のエンティティである。カーネル
レベルｘｄｏｏｒ４７０は、グローバルｘｄｏｏｒ識別
子４４０、ハンドラポインタ４４４（これには、サーバ
ハンドラポインタ４４１およびクライアントハンドラポ
インタ４４３が含まれる）、およびｄｏｏｒ識別子４４
６を含み得る。グローバルｘｄｏｏｒ識別子４４０は、
分散システム内のオブジェクトを独自に識別するために
使用される。これは、ノード内のｘｄｏｏｒを参照する
ノード識別子４４２およびローカルｘｄｏｏｒ識別子４
４７を含む。ｄｏｏｒ識別子４４６は、対応するｄｏｏ
ｒ４６２を識別するために使用される。

【００７４】ｘｄｏｏｒには、クライアントｘｄｏｏｒ
とサーバｘｄｏｏｒとの２種類がある。クライアントｘ
ｄｏｏｒのみがノード識別子４４２等のノード識別子を
含み、サーバｘｄｏｏｒのみが、サーバハンドラポイン
タ４４１によって指示されるサーバハンドラ等のサーバ
ハンドラを含む。

【００７５】ｄｏｏｒはカーネル状態エンティティであ
る。これは、ノード内遠隔ユーザオブジェクトに対して
のみ存在する（すなわち、ノード内遠隔ユーザオブジェ
クトは、要求ドメインとして同一のノード内の異なるド
メインに常駐するオブジェクトのことである）。ｄｏｏ
ｒは、ファイル記述子によって示される。各ユーザドメ
インは、ドメインに関連するスレッドによってアクセス
可能なオブジェクトのファイル記述子を格納するユーザ
ｘｄｏｏｒテーブルを有する。ユーザドメインは、ドメ
インのユーザｘｄｏｏｒテーブルに配設された、実際の
ｄｏｏｒにマッピングされたファイル記述子を介する遠
隔オブジェクトを参照する。ｄｏｏｒは、ユーザのアク
セス可能ドメインのアドレス空間ではなく、カーネルド
メインに常駐する。

【００７６】ｄｏｏｒを示すためのファイル記述子を使
用することによってユーザが呼び出せるオブジェクトを
制御するための安全なメカニズムが提供される。ファイ
ル記述子は、保護されたカーネル状態であり、ユーザに
よって偽造され得ない。ファイル記述子を所有すること
は、アプリケーションがオブジェクトに対する許容可能
なアクセスを有することを示す。オブジェクトを発生す
るドメインは、オブジェクトおよびそのｄｏｏｒに対す
るサーバになる。サーバは、サーバがオブジェクトに対
するアクセスを望むアプリケーションに対してオブジェ
クトリファレンスを書き出す。この方式には、分散シス
テム内のオブジェクトにアクセスし得るアプリケーショ
ンを選択的に制御するための安全なメカニズムがある。

【００７７】オブジェクトは、オブジェクトに関連する
多数のファイル記述子を有し得る。これらのファイル記
述子は、オブジェクトとして同一のドメインに常駐し得
るか、あるいは、オブジェクトにアクセスを有する異な
るドメインに常駐し得る。遠隔オブジェクトを参照する
各クライアントドメインは、オブジェクトを示す１つ以
上のファイル記述子を有する。本質的に、ファイル記述
子は、特定のユーザドメイン内のオブジェクトに対する
ローカル識別子である。

【００７８】カーネルオブジェクトは、カーネルレベル
ｘｄｏｏｒ４７０によってカーネルドメインで示され
る。カーネルオブジェクトのｘｄｏｏｒ４７０は、カー
ネルドメインでカーネルオブジェクトを示すローカルｘ
ｄｏｏｒ識別子４４７を含む追加のフィールドを含む。
典型的に、ローカルｘｄｏｏｒ識別子４４７は、ファイ
ル記述子４５４である。

【００７９】カーネルレベルファイル記述子テーブル４
３０は、ノード４０２内に存在する各ファイル記述子４
５４を格納するために使用される。ファイル記述子テー
ブル４３０は、セグメント４５５に分割される。各セグ
メントは、特定のドメインに関するファイル記述子４５
４を示す。各ファイル記述子エントリ４５４は、カーネ
ルレベルｄｏｏｒテーブル４３２に格納されるｄｏｏｒ
を参照する。ｄｏｏｒ４６２は、ｄｏｏｒ識別子４６
４、プロセス位置ポインタ４６６、および他の情報を含
む。プロセス位置ポインタ４６６は、呼び出しを行うた
めに使用されるサーバのアドレス空間における手順に対
するエントリ点を示す。ノード内遠隔ユーザオブジェク
ト呼び出しの場合では、プロセス位置ポインタ４６６は
サーバのｘｄｏｏｒ手順４２８にアクセスするために使
用される。ノード間遠隔オブジェクト呼び出しまたは遠
隔カーネルオブジェクト呼び出しの場合では、プロセス
位置ポインタ４６６はオブジェクトに関するゲートウェ
イハンドラ４６８にアクセスするために使用される。ゲ
ートウェイハンドラ４６８は、遠隔オブジェクト呼び出
し要求を対応ノードに輸送することを容易にするために
使用される。ゲートウェイハンドラ４６８は、ファイル
記述子４５４を利用してオブジェクト呼び出しをそれぞ
れのシステムワイド識別子（system-wide identifier)
に変換する。

【００８０】レプリカマネージャの説明図５は、レプリカマネージャ５００がどのように本発明
の実施形態による様々なサービスに対する一次サーバお
よび二次サーバの記録を取るのかを示す。各サービスに
対して、レプリカマネージャ５００は、分散システム内
のどのノードが一次サーバとして機能し、どのノードが
二次サーバとして機能するのかの記録を取る。（但し、
サービスは、オブジェクトの関連コレクションであ
る。）例えば、図５において、レプリカマネージャ５０
０はサービス５０２、５０４、５０６および５０８の記
録を取る。サービス５０２に対する一次サーバはノード
１０６であり、二次サーバはノード１１０および１１４
である。サービス５０４に対する一次サーバは、ノード
１１０であり、二次サーバはノード１０６および１１４
である。サービス５０６に対する一次サーバはノード１
０２であり、二次サーバはノード１１０および１１４で
ある。サービス５０８に対する一次サーバは、ノード１
０６であり、二次サーバはノード１０２、１１０および
１１４である。

【００８１】本発明の１つの実施形態において、レプリ
カマネージャ５００はネットワークの複数ノードにわた
って分散されるので、レプリカマネージャ５００はネッ
トワーク上のノードの１つが故障した場合でも機能し続
ける。

【００８２】動作の説明図６から図９は、本発明の実施形態によって高度利用可
能を容易にすることに関する多数の動作を示す。これら
の動作は、オブジェクト作成、オブジェクト呼び出し、
およびフェイルオーバーを含む。それぞれは、図６から
図９を参照して以下に更に詳細に説明する。

【００８３】オブジェクト作成の説明図６は、本発明の実施形態によるオブジェクトの作成に
関連する動作のいくつかを示すフローチャートである。
このフローチャートは、左側の列と右側の列に分割され
る。左側の列は、一次サーバ２１２の動作を示し、右側
の列はクライアント２００の動作を示す（図２Ｂを参
照）。

【００８４】システムは、状態６００で開始し、状態６
０２に進む。状態６０２において、一次サーバ２１２は
オブジェクトを割り当てる。これにより、オブジェクト
に関するデータ構造に対してメモリが割り当てられる。
これは、オブジェクトに対するレプリカハンドラを割り
当て、オブジェクトに対するサービスＩＤを特定化する
ことも含む。但し、サービスは、関連するオブジェクト
のコレクションを参照する。よって、サービスＩＤはサ
ービスに対する識別子である。システムは、次に、状態
６０４に進む。状態６０４において、システムはオブジ
ェクトにリファレンスを渡す。これは、いくつかの他の
オブジェクト上の呼び出しの入力または出力のいずれか
として起こり得る。システムは、次に、状態６０６に進
む。状態６０６において、一次サーバ２１２は図３のｈ
ｘｄｏｏｒ３１０等のｈｘｄｏｏｒを割り当てる。この
ｈｘｄｏｏｒは、ｈｘｄｏｏｒ識別子（ＩＤ）を含む。
システムは、次に、状態６０８に進む。状態６０８にお
いて、一次サーバ２１２は、図３のサーバｘｄｏｏｒ３
１６等のサーバｘｄｏｏｒを割り当てる。このサーバｘ
ｄｏｏｒは、サーバｘｄｏｏｒＩＤを含む。システム
は、次に、状態６１０に進む。前述の状態６０６および
６０８は、リファレンスがオブジェクトに最初に渡され
た時にのみ実行されることに留意されたい。後に続くリ
ファレンスに対して、ｈｘｄｏｏｒ３１０構造およびサ
ーバｘｄｏｏｒ３１６構造は既に存在し、システムは状
態６０６および６０８を単にスキップすることができ
る。状態６１０において、一次サーバ２１２は、ｈｘｄ
ｏｏｒＩＤおよびサーバｘｄｏｏｒＩＤを整理し（mars
hal)、それらをメッセージ中にパッケージングする。シ
ステムは、次に、状態６１２に進む。状態６１２におい
て、一次サーバ２１２はオブジェクトリファレンスを含
むメッセージをクライアント２００に送信する。次に、
システムは状態６１４に進む。

【００８５】状態６１４において、クライアント２００
はオブジェクトリファレンスを含むメッセージを受け取
る。次に、システムは状態６１６に進む。状態６１６に
おいて、クライアント２００はｈｘｄｏｏｒＩＤを逆整
理し（unmarshal)、ｈｘｄｏｏｒＩＤをメッセージから
読み出す。次に、システムは状態６１８に進む。状態６
１８は、クライアントｘｄｏｏｒを逆整理し、必要であ
れば、クライアント２００は図３のクライアントｘｄｏ
ｏｒ３１４等の新しいクライアントｘｄｏｏｒを作成す
る。システムは、次に、状態６２０に進む。状態６２０
において、必要であれば、クライアント２００は図３の
ｈｘｄｏｏｒ３０８等のｈｘｄｏｏｒを作成する。次
に、システムは状態６２２に進む。状態６２２におい
て、それらが既に存在しない場合、クライアント２００
は図３のレプリカハンドラ２０３等のレプリカハンドラ
およびプロキシを作成する。システムは、次に、終了状
態である状態６２４に進む。この時点で、オブジェクト
が作成され、オブジェクトに対する呼び出しを容易にす
るデータ構造が一次サーバ２１２およびクライアント２
００の両方において作成される。高度利用可能を提供す
るために、少なくとも１つのオブジェクトの二次コピー
が、図２Ｂの二次サーバ２１３等の二次サーバ上で作成
されなくてはならない。

【００８６】図７は、本発明の実施形態による二次サー
バ上にオブジェクトを作成することに関する動作のいく
つかを示すフローチャートである。システムは、状態７
００で開始し、状態７０２に進む。状態７０２におい
て、一次サーバ２１２がオブジェクトを割り当てた後の
ある時点で、一次サーバ２１２は、二次サーバ２１３上
のオブジェクト（図２Ｂを参照）を呼び出すことによっ
て二次サーバ２１３上にオブジェクトを作成し始める。
これによりリファレンスがチェックポイントインタフェ
ース２１４（図２Ｂを参照）を介して一次サーバ２１２
から二次サーバ２１３に渡される。システムは、次に状
態７０４に進む。状態７０４において、二次サーバ２１
３は、二次サーバ２１３上のオブジェクトに対して連結
を作成する。この連結は、図３に示すように、レプリカ
ハンドラ３０６およびｈｘｄｏｏｒ３１２を含む。この
連結は、図６を参照してクライアント２００上のオブジ
ェクトに対して類似の連結を作成することについて上述
したものと同一のプロセスを用いて作成されるが、サー
バｘｄｏｏｒ３１８が最初に作成されるのではなく、フ
ェイルオーバーの間に必要な時にのみ作成される点で異
なる。システムは、次に状態７０６に進む。状態７０６
において、二次サーバ２１３は、二次サーバ２１３内の
チェックポイントオブジェクトを呼び出す。これによ
り、オブジェクトの二次コピーが二次サーバ２１３上で
割り当てられる。また、二次サーバ２１３は、ｈｘｄｏ
ｏｒ３１２およびレプリカハンドラ３０６（図３から）
上の機能を呼び出し、それらがオブジェクトに対する二
次サーバに関連することを知らせる。システムは、次に
状態７０８に進む。状態７０８において、フラグがｈｘ
ｄｏｏｒ３１２およびレプリカハンドラ３０６において
設定され、それらが、オブジェクトの二次コピーに関連
することを示す。これらのフラグのコンテンツは、上述
の図６で概要を説明したクライアント２００上にデータ
構造を作成するプロセスと、二次サーバ２１３上にデー
タ構造を作成するプロセスとの唯一の顕著な違いであ
る。これらフラグは、同一のメカニズムが、クライアン
トデータ構造作成と、二次サーバデータ構造作成の両方
で使用されることを可能にする。チェックポイントオブ
ジェクトの呼び出しが完了した時、クライアントｘｄｏ
ｏｒは二次サーバ２１３上で削除される。上述したよう
に、サーバｘｄｏｏｒ３１８は、フェイルオーバー中に
必要となるまで作成されない。システムは、最後に、終
了状態である状態７１０に進む。二次サーバ２１３上で
データ構造を作成するプロセスが、これで完了する。図
７に概要が示されるプロセスは、他の二次サーバで繰り
返され、そのような二次サーバが望まれる場合にオブジ
ェクトに対する追加の二次サーバを作成する。

【００８７】この開示で、用語「オブジェクト」および
「サービス」は相互転換可能に使用されていることに留
意されたい。サービスは、関連オブジェクトのコレクシ
ョンであると規定される。概念的に、サービスはオブジ
ェクトの一般化である。なぜなら、サービスが１つのオ
ブジェクトのみを含む場合、サービスはオブジェクトと
本質的に類似するからである。１つの実施形態におい
て、オブジェクト上で実施されるように特定化された上
述の動作の全ては、サービス上で実施される。

【００８８】オブジェクトの呼び出しの説明図８は、本発明の実施形態による高度利用可能オブジェ
クトを呼び出すことに関連する動作のいくつかを示すフ
ローチャートである。システムは状態８００で開始し、
状態８０２に進む。状態８０２において、クライアント
２００は、オブジェクトに対する呼び出しを有するロー
カルプロキシを呼ぶ。次に、システムは状態８０４に進
む。状態８０４において、クライアント２００上のプロ
キシは、クライアント２００上のレプリカハンドラ３０
２に呼び出しを転送する。呼び出しを転送することは、
機能呼び出しを実施することによって達成され得る。次
に、システムは状態８０６に進む。状態８０６におい
て、レプリカハンドラ３０２は、呼び出しに付随する引
数を整理する（コレクションする）。次に、システムは
状態８０８に進む。状態８０８において、レプリカハン
ドラ３０２は、呼び出しをｈｘｄｏｏｒ３０８に転送す
る。次に、システムは状態８１０に進む。状態８１０に
おいて、ｈｘｄｏｏｒ３０８はオブジェクトに関する呼
び出しカウントを増加させ、オブジェクトに対する追加
の呼び出しが進行中であることを表示する。次に、ｈｘ
ｄｏｏｒ３０８は、呼び出しをクライアントｘｄｏｏｒ
３１４に転送する。次に、システムは状態８１２に進
む。

【００８９】状態８１２において、クライアントｘｄｏ
ｏｒ３１４は一次サーバ２１２上（図３を参照）のサー
バｘｄｏｏｒ３１６に呼び出しを転送する。これは、ク
ライアント２００上の輸送メカニズム３２０を介してネ
ットワーク１００を渡り、次に一次サーバ２１２上の輸
送メカニズム３２２を介して最後にサーバｘｄｏｏｒ３
１６（図３を参照）に呼び出しを転送する事によって達
成される。次に、システムは状態８１４に進む。

【００９０】状態８１４において、サーバｘｄｏｏｒ３
１６は、一次サーバ２１２上のレプリカハンドラ３０４
に呼び出しを転送する。次に、システムは状態８１６に
進む。状態８１６において、レプリカハンドラ３０４
は、一次サーバ２１２上のオブジェクト２０６の一次コ
ピー上の特定された機能を呼び出す。次に、システムは
状態８１８に進む。

【００９１】状態８１８において、一次サーバ２１２
は、同一の経路を逆方向に引き返して、呼び出しに対す
る応答を送信する。この応答は、呼び出しと本質的に同
一の方法で転送される。途中で、ｈｘｄｏｏｒ３０８は
オブジェクトに対する呼び出しカウントを減少させ、呼
び出しがもはや進行中ではないことを表示する。次に、
システムは、最終状態である状態８２０に進む。

【００９２】フェイルオーバーの説明図９は、本発明の実施形態による一次サーバから二次サ
ーバにオブジェクトのためのフェイルオーバーを実施す
ることに関する動作のいくつかを示すフローチャートで
ある。システムは、状態９００から開始し、状態９０２
に進む。状態９０２において、システムは一次サーバ２
１２の故障を検出する（図２および図３を参照）。この
故障は、一次サーバ２１２が機能を中断したり、または
クライアント要求を適時に処理することを中断した場合
に生じ得る。本発明の１つの実施形態において、この故
障検出は、図５を参照して上述したレプリカマネージャ
５００等のレプリカマネージャによって実施される。次
に、システムは状態９０４に進む。状態９０４におい
て、レプリカマネージャ５００は、一次サーバ２１２に
関連するクライアントに一次サーバ２１２がもはや適切
に機能していないことを伝える。次にシステムは状態９
０６に進む。

【００９３】状態９０６において、一次サーバ２１２に
対する進行中呼び出しを有する全てのｈｘｄｏｏｒは、
進行中呼び出しが完了するのを待つ。これは、デッドノ
ード(dead node)に対する進行中呼び出しを強制して障
害を取り除き、完了することを含む。デッドノードに対
するこれら進行中の呼び出しが返ると、それらは、典型
的に、呼び出しが不完全であることを示すエラーコード
と共に返す。ｈｘｄｏｏｒは、これらのエラーコードを
別のエラーコードに変換し、クライアント２００上のク
ライアントアプリケーションプログラムにエラーを返さ
ずに、プロキシによって要求が再試行されるべきである
ことを示す。これにより、再試行が自動的に起こり、ク
ライアントアプリケーションプログラムは一次サーバ２
１２の故障によるエラー条件に対処する必要がなくな
る。次に、システムは状態９０８に進む。

【００９４】状態９０８において、ｈｘｄｏｏｒはフラ
グを設定し、フェイルオーバーが完了するまで一次サー
バ２１２に対する新しい呼び出しが遮断されるべきこと
を示す。これは、新しい呼び出しがフェイルオーバープ
ロセスを妨害しないように行われる。次に、システムは
状態９１０に進む。状態９１０において、一次サーバ２
１２上のオブジェクトに対する呼び出しが完了した時、
関連するクライアントｘｄｏｏｒは、故障した一次サー
バ２１２用に設定されているために廃棄される。次に、
システムは状態９１２に進む。

【００９５】状態９１２において、システムは一次サー
バ２１２を置換するための二次サーバを選択する。本発
明の１つの実施形態において、この二次サーバはレプリ
カマネージャ５００によって選択される（図５を参
照）。次に、システムは状態９１４に進む。状態９１４
において、レプリカマネージャ５００は、全てのクライ
アントに新しい一次サーバに接続するよう命令する。次
に、システムは状態９１６に進む。状態９１６におい
て、クライアントは新しい一次サーバ上でオブジェクト
を呼び出す。これは、新しい一次サーバに再接続される
必要のあるｈｘｄｏｏｒ識別子のリストを渡すことを含
む。応答を整列することが新しい一次サーバ上にサーバ
ｘｄｏｏｒを作成するきっかけとなる。次に、システム
は状態９１８に進む。

【００９６】状態９１８において、ｈｘｄｏｏｒ識別子
によって特定されたオブジェクトに対するリファレンス
のリストは、クライアントに返却される。次に、システ
ムは状態９２０に進む。状態９２０において、応答が受
け取られた時、クライアントは対応するクライアントｘ
ｄｏｏｒに接続するために通常の逆整理メカニズムを用
いる。次にシステムは９２２に進む。状態９２２におい
て、システムは、故障した一次サーバ２１２上のオブジ
ェクトに対する呼び出しついての障害を取り除くように
クライアントに命令する。これにより、遮断された呼び
出しが新しい一次サーバに進むことが可能になる。次
に、システムは、最終状態である状態９２４に進む。こ
の時点でフェイルオーバープロセスは完了する。

【００９７】本発明の１つの実施形態は、第１のサーバ
が故障した際、または非応答になった際、第１のサーバ
上のオブジェクトの一次コピーから第２のサーバ上のオ
ブジェクトの二次コピーへのトランスペアレントなフェ
イルオーバーを容易にする方法および装置を提供する。
方法は、第１のサーバの故障を検出する工程と、第２の
サーバを選択する工程と、第２のサーバをオブジェクト
に対する新しい一次サーバとして機能するように再設定
する工程と、を含む。更に、方法はクライアントアプリ
ケーションプログラムからの明白な再試行命令を必要と
せずにオブジェクトに対する不完全な呼び出しを第２の
サーバにトランスペアレントに再試行する工程を含む。
この実施形態の変形は、第２のサーバを新しい一次サー
バとして機能するように再設定する前にオブジェクトに
対するアクティブな呼び出しを終了する工程を含む。こ
の終了プロセスは、非反応ノードに対する呼び出しが障
害を取り除き完了させる工程をさらに含み得る。別の変
形は、第１のサーバの故障を検出した後にオブジェクト
に対する新しい呼び出しを遮断する工程と、第２のサー
バを新しい一次サーバとして機能するように再設定した
後にこれらの新しい呼び出しの障害を取り除く工程と、
を含む。よって、本発明は、高度利用可能システムのた
めのクライアントアプリケーションプログラムのプログ
ラミングを非常に単純化し得る。また、非高度利用可能
システム用に書き込まれたクライアントアプリケーショ
ンプログラムを高度利用可能システムで使用することが
可能になる。

【００９８】本発明は、本発明の実施形態を参照して具
体的に示され、説明されたが、当業者は、形態および詳
細の前述および他の変更が本発明の精神および範囲から
逸脱する事なく成され得ることを理解する。

【００９９】

【発明の効果】本発明により第１のサーバが故障した
時、または非応答になった際、第１のサーバ上のオブジ
ェクトの一次コピーから第２のサーバ上のオブジェクト
の二次コピーへのトランスペアレントフェイルオーバー
を容易にする方法および装置を提供する。本発明の方法
は、第１のサーバの故障を検出する工程と、第２のサー
バを選択する工程と、オブジェクトのための新しい一次
サーバとして機能するように第２のサーバを再設定する
工程とを含む。更に、本発明の方法は、クライアントア
プリケーションプログラムからの明白な再試行の命令な
しにオブジェクトに対する不完全な呼び出しをトランス
ペアレントに第２のサーバに再試行する工程を含む。本
発明の変形例は、第２のサーバを新しい一次サーバとし
て機能するように再設定する前に、オブジェクトのアク
ティブな呼び出しを終了する工程を更に含む。この終了
プロセスは、非応答ノードに対する呼び出しに対する障
害を取り除き、完了させる工程を含み得る。別の変形例
は、第１のサーバの故障を検出した後にオブジェクトに
対する新しい呼び出しを遮断し、新しい一次サーバとし
て機能するように第２のサーバを再設定した後に、これ
らの新しい呼び出しに対する障害を取り除く。よって、
本発明により、高度利用可能システムに対するクライア
ントアプリケーションプログラムのプログラミングを大
いに単純化し得る。また、非高度利用可能システム用に
書き込まれたクライアントアプリケーションプログラム
を、高度利用可能システムで使用することが可能にな
る。

【図面の簡単な説明】

【図１】本発明の実施形態によるクライアントおよび／
またはサーバシステムのいずれかとして機能することが
できる、複数のノード１０２、１０６、１１０および１
１４を含む分散コンピューティングシステムを示す図で
ある。

【図２Ａ】非高度利用可能システムにおけるオブジェク
ト２０６に対する呼び出しに関する従来のクライアント
−サーバ相互作用を示す。

【図２Ｂ】本発明の実施形態による高度利用可能サーバ
２１１上の高度利用可能オブジェクト２０６に対する呼
び出しに関するクライアント−サーバ相互作用を示す。

【図３】本発明の実施形態によるクライアント２００、
一次サーバ２１２、および二次サーバ２１３の間の通信
に関する様々なシステム層を示す。

【図４】本発明の実施形態による遠隔オブジェクトに対
する呼び出しに関するデータ構造のいくつかを示す。

【図５】本発明の実施形態による様々なサービスに対す
る一次および二次サーバの記録をレプリカマネージャ５
００がどのように取るのかを示す。

【図６】本発明の実施形態によるオブジェクトの作成に
関する動作のいくつかを示すフローチャートである。

【図７】本発明の実施形態による二次サーバ上のオブジ
ェクトの作成に関する動作のいくつかを示すフローチャ
ートである。

【図８】本発明の実施形態による高度利用可能オブジェ
クトの呼び出しに関する動作のいくつかを示すフローチ
ャートである。

【図９】本発明の実施形態による一次から二次サーバへ
のオブジェクトのフェイルオーバーを実施することに関
する動作のいくつかを示すフローチャートである。

【符号の説明】

２００クライアント２０４呼び出し２０６一次コピー２０８要求２１０、２２０応答２１１高度利用可能サーバ２１２一次サーバ２１３二次サーバ２１４チェックポイントインタフェース２１６二次コピー

───────────────────────────────────────────────────── フロントページの続き (72)発明者マドゥスハンタルーリアメリカ合衆国カリフォルニア 94538, フレモント，ブッシュサークル 4466 (72)発明者ブラディミールマテナアメリカ合衆国カリフォルニア 94061, レッドウッドシティ，ケントフィールドアベニュー 1322 (72)発明者ヨセフエイ．カリディアメリカ合衆国カリフォルニア 95014, クパチーノ，バリントンブリッジコート 10831 (72)発明者ホセエム．ベルナボウ−オウバンスペイン国バレンシア 46021，ピーティーエイ 18，ピーゼットエイ．フレイルイスコロメール９ (72)発明者アンドリュージー．タッカーアメリカ合衆国カリフォルニア 94025, メンロパーク，マッケンドリードライブ 214

Claims

【特許請求の範囲】

【請求項１】オブジェクトのアクティブな呼び出しに
対する第１のサーバから第２のサーバにトランスペアレ
ントフェイルオーバーを提供する方法であって、該オブ
ジェクトに対する呼び出しのための一次サーバとして該
第１のサーバが機能し、該第１のサーバの故障により該オブジェクトに対する新
しい一次サーバとして該第２のサーバを選択する工程
と、該第２のサーバが該オブジェクトに対する該新しい一次
サーバとして機能するように再設定する工程と、不完全である該アクティブな呼び出しを該第２のサーバ
上の該オブジェクトに対して自動的に再試行する工程
と、を含む方法。
【請求項２】前記第２のサーバを選択する動作および
前記第２のサーバを再設定する動作が自動的に実施され
る、請求項１に記載の方法。
【請求項３】前記第２のサーバを再設定する工程の前
に、前記オブジェクトに対する前記アクティブな呼び出
しを終了する工程を更に含む、請求項１に記載の方法。
【請求項４】前記アクティブな呼び出しを終了する工
程は、非応答ノードに対する任意の該アクティブな呼び
出しが障害を取り除き、完了させる工程を含む、請求項
３に記載の方法。
【請求項５】前記第１のサーバの故障の後に前記オブ
ジェクトに対する任意の新しいアクティブな呼び出しを
遮断する工程と、前記第２のサーバを再設定する工程の後に該オブジェク
トに対する該新しいアクティブな呼び出しから障害を取
り除く工程と、を更に含む、請求項１に記載の方法。
【請求項６】前記第１のサーバの故障を検出する工程
を更に含む、請求項１に記載の方法。
【請求項７】前記故障を検出する動作が前記第１のサ
ーバ、前記第２のサーバ、および複数の追加のコンピュ
ータシステムのうちの少なくとも２つにわたって分散さ
れるシステムマネージャによって実行されることによっ
て、該システムマネージャがサーバの故障に対して耐性
を有する、請求項６に記載の方法。
【請求項８】前記第１のサーバのクライアントに該第
１のサーバが故障したことを知らせる工程を更に含む、
請求項１に記載の方法。
【請求項９】前記オブジェクトが前記第１のサーバ上
の一次コピーおよび前記第２のサーバ上の二次コピーを
有し、該一次コピーが該第１のサーバ上で更新されたと
き、該第２のサーバ上で該二次コピーを更新する工程を
更に含む、請求項１に記載の方法。
【請求項１０】前記オブジェクトが、オブジェクトの
グループを含む、請求項１に記載の方法。
【請求項１１】オブジェクトのアクティブな呼び出し
に対する第１のサーバから第２のサーバにトランスペア
レントフェイルオーバーを提供する方法であって、該オ
ブジェクトに対する呼び出しのための一次サーバとして
該第１のサーバが機能し、該第１のサーバの故障を検出する工程と、該第１のサーバの故障を検出する工程の後に、該オブジ
ェクトに対する任意の新しいアクティブな呼び出しを遮
断する工程と、非応答ノードに対する任意のアクティブな呼び出しが障
害を取り除き完了させる工程を含む、該オブジェクトに
対する該アクティブな呼び出しを終了する工程と、該オブジェクトに対する新しい一次サーバとして機能す
るように該第２のサーバを選択する工程と、該オブジェクトに対する該新しい一次サーバとして該第
２のサーバを再設定する工程と、該第２のサーバを再設定する工程の後に、該オブジェク
トに対する該新しいアクティブな呼び出しから障害を取
り除く工程と、不完全である該アクティブな呼び出しを該第２のサーバ
上の該オブジェクトに対して自動的に再試行する工程
と、を含む方法。
【請求項１２】前記故障を検出する動作が前記第１の
サーバ、前記第２のサーバ、および複数の追加のコンピ
ュータシステムのうちの少なくとも２つにわたって分散
されるシステムマネージャによって実行されることによ
って、該システムマネージャがサーバの故障に対して耐
性を有する、請求項１１に記載の方法。
【請求項１３】前記第１のサーバのクライアントに該
第１のサーバが故障したことを知らせる工程を更に含
む、請求項１１に記載の方法。
【請求項１４】前記オブジェクトが前記第１のサーバ
上の一次コピーおよび前記第２のサーバ上の二次コピー
を有し、該一次コピーが該第１のサーバ上で更新された
とき、該第２のサーバ上で該二次コピーを更新する工程
を更に含む、請求項１１に記載の方法。
【請求項１５】前記オブジェクトが、オブジェクトの
グループを含む、請求項１１に記載の方法。
【請求項１６】オブジェクトのアクティブな呼び出し
に対して第１のサーバから第２のサーバへのトランスペ
アレントなフェイルオーバーを提供する装置であって、
該第１のサーバが該オブジェクトに対する呼び出しの一
次サーバとして機能し、ネットワークと結合された該第１のサーバと、該ネットワークと結合された該第２のサーバと、該第１のサーバの故障を検出し、該オブジェクトに対す
る新しい一次サーバとして機能するように該第２のサー
バを選択する該ネットワーク上の少なくとも１つのノー
ド上に常駐するシステムマネージャと、該システムマネージャと通信し、該オブジェクトに対す
る該新しい一次サーバとして機能するように該第２のサ
ーバを再設定する、再設定メカニズムと、該第２のサーバと通信し、該第２のサーバが再設定され
た後に、該オブジェクトに対する不完全である該アクテ
ィブな呼び出しを該第２のサーバに自動的に再試行す
る、再試行メカニズムと、を含む装置。
【請求項１７】前記システムマネージャおよび前記再
設定メカニズムが、クライアントアプリケーションプロ
グラムからの明白な再試行命令を必要とせずに動作す
る、請求項１６に記載の装置。
【請求項１８】前記第２のサーバが再設定される前
に、前記オブジェクトに対する前記アクティブな呼び出
しを終了する、終了メカニズムを更に含む、請求項１６
に記載の装置。
【請求項１９】前記終了メカニズムは、非反応ノード
に対する呼び出しが障害を取り除き、完了させるように
設定する、請求項１８に記載の装置。
【請求項２０】前記第１のサーバの故障が検出された
時に前記オブジェクトに対する新しいアクティブな呼び
出しを遮断し、前記第２のサーバが再設定された後にオ
ブジェクトに対する該新しいアクティブな呼び出しから
障害を取り除く、遮断メカニズムを更に含む、請求項１
６に記載の装置。
【請求項２１】前記オブジェクトがオブジェクトのグ
ループを含む、請求項１６に記載の装置。
【請求項２２】前記システムマネージャが前記ネット
ワーク上の複数ノードにわたって分散されることにより
該システムマネージャがノードの故障に耐性を有する、
請求項１６に記載の装置。
【請求項２３】前記システムマネージャが、前記第１
のサーバが故障したことを該第１のサーバのクライアン
トに知らせるように設定される、請求項１６に記載の装
置。
【請求項２４】前記システムマネージャが前記オブジ
ェクトに対する前記新しい一次サーバとして機能するよ
うに前記第２のサーバを選択する選択メカニズムを含
む、請求項１６に記載の装置。
【請求項２５】前記オブジェクトに対する一次サーバ
と通信し、該オブジェクトに対する少なくとも１つの二
次サーバと通信する更新メカニズムであって、該更新メ
カニズムは、該オブジェクトの一次コピーが該オブジェ
クトに対する一次サーバで更新されたとき、該オブジェ
クトの少なくとも１つの二次コピーが該オブジェクトに
対する少なくとも１つの二次サーバ上で更新されること
を確認する、請求項１６に記載の装置。
【請求項２６】オブジェクトのアクティブな呼び出し
に対して第１のサーバから第２のサーバへのトランスペ
アレントなフェイルオーバーを提供する装置であって、
該第１のサーバが該オブジェクトに対する呼び出しの一
次サーバとして機能し、ネットワークと結合された該第１のサーバと、該ネットワークと結合された該第２のサーバと、該第１のサーバの故障を検出し、該オブジェクトに対す
る一次サーバとして機能するように該第２のサーバを選
択する該ネットワーク上の少なくとも１つのノード上に
常駐するシステムマネージャと、該第２のサーバが該オブジェクトに対する新しい一次サ
ーバとして機能するように再設定される前に、該オブジ
ェクトに対する該アクティブな呼び出しを終了する終了
メカニズムと、該第１のサーバの故障が検出された時に該オブジェクト
に対する新しい呼び出しを遮断し、該第２のサーバが再
設定された後に該オブジェクトに対する該新しい呼び出
しから障害を取り除く遮断メカニズムと、該システムマネージャと通信し、該オブジェクトに対す
る該新しい一次サーバとして機能するように該第２のサ
ーバを再設定する再設定メカニズムと、該第２のサーバと通信し、該第２のサーバが再設定され
た後に該オブジェクトに対する不完全な呼び出しを自動
的に再試行する再試行メカニズムと、を含む、装置。
【請求項２７】前記終了メカニズムは、非応答ノード
に対する呼び出しが障害を取り除き、完了させるように
設定される、請求項２６に記載の装置。
【請求項２８】前記システムマネージャは、前記ネッ
トワーク上の複数ノードにわたって分散されることから
該システムマネージャがノードの故障に耐性を有する、
請求項２６に記載の装置。
【請求項２９】前記システムマネージャが、前記第１
のサーバが故障したことを該第１のサーバのクライアン
トに知らせるように設定される、請求項２６に記載の装
置。
【請求項３０】前記システムマネージャが前記オブジ
ェクトに対する前記新しい一次サーバとして機能するよ
うに前記第２のサーバを選択する選択メカニズムを含
む、請求項２６に記載の装置。
【請求項３１】前記オブジェクトがオブジェクトのグ
ループを含む、請求項２６に記載の装置。
【請求項３２】前記オブジェクトに対する一次サーバ
と通信し、該オブジェクトに対する少なくとも１つの二
次サーバと通信する更新メカニズムであって、該更新メ
カニズムは、該オブジェクトの一次コピーが該オブジェ
クトに対する一次サーバで更新されたとき、該オブジェ
クトの少なくとも１つの二次コピーが該オブジェクトに
対する少なくとも１つの二次サーバ上で更新されること
を確認する、請求項２６に記載の装置。
【請求項３３】命令を格納するプログラム記憶装置で
あって、コンピュータによって実行される時、オブジェ
クトのアクティブな呼び出しに対して第１のサーバから
第２のサーバへのトランスペアレントなフェイルオーバ
ーを提供する方法を実施し、該第１のサーバが該オブジ
ェクトに対する呼び出しのための一次サーバとして機能
し、該方法が該第１のサーバが故障した際にオブジェク
トに対する新しい一次サーバとして該第２のサーバを選
択する工程と、該第２のサーバを該オブジェクトに対する該新しい一次
サーバとして機能するように再設定する工程と、不完全である該アクティブな呼び出しを該第２のサーバ
上の該オブジェクトに対して自動的に再試行する工程
と、を含む、プログラム記憶装置。
【請求項３４】コンピュータによって実行される時、
命令を搬送する搬送波で具体化されるコンピュータ命令
信号であって、オブジェクトのアクティブな呼び出しに
対して第１のサーバから第２のサーバへのトランスペア
レントなフェイルオーバーを提供する方法を実施し、該
第１のサーバが該オブジェクトに対する呼び出しのため
の一次サーバとして機能し、該方法が、該第１のサーバが故障した際にオブジェクトに対する新
しい一次サーバとして該第２のサーバを選択する工程
と、該第２のサーバを該オブジェクトに対する該新しい一次
サーバとして機能するように再設定する工程と、不完全である該アクティブな呼び出しを該第２のサーバ
上の該オブジェクトに対して自動的に再試行する工程
と、を含む、コンピュータ命令信号。