JP2002514813A

JP2002514813A - 高可用性クラスタ仮想ディスク・システム

Info

Publication number: JP2002514813A
Application number: JP2000548806A
Authority: JP
Inventors: スローター，グレゴリー・エル; トラバーサット，ベルナルド・エイ; ハーンドン，ロバート; ジェン，シャオヤン; ブロック，ロバート・ジェイ
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1998-05-12
Filing date: 1999-05-07
Publication date: 2002-05-21
Anticipated expiration: 2019-05-07
Also published as: EP1084471A1; DE69902267D1; AU765501B2; CA2331467A1; DE69902267T2; EP1197862A1; WO1999059064A1; AU4070999A; EP1084471B1; EP1197863A1; JP4501096B2

Abstract

(57)【要約】クラスタは、そのクラスタの各記憶装置へのアクセス権をそのクラスタの各ノードに与える仮想ディスク・システムを実現する。この仮想ディスク・システムは、障害が存在する状態で記憶装置にアクセスすることができ、データ・アクセス要求が確実に完了するような高い可用性を有する。ノード間で一貫したマッピングおよびファイル許可データを保証するために、データは高可用性クラスタ・データベースで記憶される。クラスタ・データベースは障害が存在する状態でもノードに一貫したデータを提供するので、各ノードは一貫したマッピングおよびファイル許可データを有することになる。ノード間のリンクを確立し、そのリンクを管理するクラスタ・トランスポート・インタフェースが提供される。クラスタ・トランスポート・インタフェースが受け取るメッセージは１つまたは複数のリンクを介して宛先ノードに運搬される。クラスタの構成は動作中に変更することができる。構成を変更する前に、再構成手順はデータ・アクセス要求を中断し、保留中のデータ・アクセス要求が完了するのを待つ。新しい構成を反映するために、再構成が実行され、マッピングが変更される。次にそのノードはマッピングの内部表現を更新し、データ・アクセス要求の発行を再開する。

Description

【発明の詳細な説明】

【０００１】（発明の背景）（１．発明の分野）本発明は、分散コンピューティング・システムの分野に関し、より詳細には分
散仮想記憶装置に関する。

【０００２】（２．関連技術の説明）クラスタなどの分散コンピューティング・システムは２つまたはそれ以上のノ
ードを含むことがあり、それらのノードはコンピューティング・タスクを実行す
るために使用される。一般的に言えば、ノードとは、１つまたは複数のコンピュ
ーティング・タスクを実行するように設計された１つの回路グループである。１
つのノードは、１つまたは複数のプロセッサと、１つのメモリと、インタフェー
ス回路とを含むことができる。一般的に言えば、クラスタとは、ノード間でデー
タを交換する能力を有する２つまたはそれ以上のノードからなるグループである
。あるノードで特定のコンピューティング・タスクを実行することができるが、
他のノードは無関係のコンピューティング・タスクを実行する。あるいは、特定
のコンピューティング・タスクを全体として実行するのに必要な時間を削減する
ために、そのコンピューティング・タスクのコンポーネントをノード間に分散す
ることができる。一般的に言えば、プロセッサとは、１つまたは複数のオペラン
ドの演算を実行して結果を生成するように構成されたデバイスである。演算は、
プロセッサによって実行される命令に応答して実行することができる。

【０００３】１つのクラスタ内のノードは、そのノードに結合された１つまたは複数の記憶
装置を有することができる。一般的に言えば、記憶装置とは、大量のデータを格
納することができる持続性装置である。たとえば、記憶装置は、ディスク装置な
どの磁気記憶装置またはコンパクト・ディスク装置などの光学記憶装置にするこ
とができる。ディスク装置は記憶装置の一例に過ぎないが、「ディスク」という
用語は本明細書全体を通して「記憶装置」と交換して使用することができる。記
憶装置に物理的に接続されたノードは記憶装置に直接アクセスすることができる
。記憶装置はあるクラスタの１つまたは複数のノードに物理的に接続することが
できるが、その記憶装置はあるクラスタのすべてのノードに物理的に接続できる
わけではない。ある記憶装置に物理的に接続されていないノードはその記憶装置
に直接アクセスすることはできない。クラスタによっては、記憶装置に物理的に
接続されていないノードは、ノード同士を接続するデータ通信リンクを介してそ
の記憶装置に間接的にアクセスすることができる。

【０００４】あるノードがクラスタ内のどの記憶装置にもアクセスできる、すなわちそのノ
ードに記憶装置が物理的に接続されているかのようにすることは有利である。た
とえば、ＯｒａｃｌｅＰａｒａｌｌｅｌＳｅｒｖｅｒなどの一部のアプリケ
ーションでは、ＵＮＩＸデバイス・セマンティクスにより１つのクラスタ内のす
べての記憶装置にアクセスしなければならない場合がある。あるノードに物理的
に接続されていないが、あるノードに物理的に接続されているように見える記憶
装置は、仮想装置または仮想ディスクと呼ばれる。一般的に言えば、分散仮想デ
ィスク・システムとは、２つまたはそれ以上のノード上で動作するソフトウェア
・プログラムであり、クライアントと１つまたは複数の記憶装置とのインタフェ
ースとなり、その１つまたは複数の記憶装置がそのノードに直接接続されている
というように見えるソフトウェア・プログラムである。一般的に言えば、クライ
アントとは、あるアクションを開始するためにプログラムにアクセスするプログ
ラムまたはサブルーチンである。クライアントは、アプリケーション・プルグラ
ムである場合もあれば、オペレーティング・システム・サブルーチンである場合
もある。

【０００５】残念ながら、従来の仮想ディスク・システムは、一貫した仮想ディスク・マッ
ピングを保証していない。一般的に言えば、記憶装置マッピングは、ある記憶装
置がどのノードに物理的に接続されるか、ならびにこれらのノード上のどのディ
スク装置がその記憶装置に対応するかを識別するものである。ある仮想装置をあ
る記憶装置にマッピングするノードとディスク・デバイスは、ノード／ディスク
対と呼ぶ場合もある。仮想装置マッピングは、許可およびその他の情報を含むこ
ともある。ノード障害などの障害が発生した場合にマッピングが持続性のもので
あることが望ましい。あるノードが他のノードの支援なしにある装置と通信でき
る場合、そのノードはその装置に物理的に接続される。

【０００６】クラスタは、ボリューム・マネージャを実装することができる。ボリューム・
マネージャとは、そのクラスタの記憶資源を管理するツールである。たとえば、
ボリューム・マネージャは、２つの記憶装置をミラーして１つの高可用性ボリュ
ームを作成することができる。他の実施形態では、ボリューム・マネージャは、
複数の記憶装置にわたるファイルの部分を記憶するストライピングを実施するこ
とができる。従来の仮想ディスク・システムは、記憶装置の上下いずれかに層状
に重ねたボリューム・マネージャをサポートすることができない。

【０００７】他の望ましい特徴としては、ノード障害または記憶装置経路障害などの障害が
存在する状態でデータ・アクセス要求が確実に実行されるような高可用性のデー
タ・アクセス要求を含む。一般的に言えば、記憶装置経路とは、あるノードから
ある記憶装置への直接接続部である。一般的に言えば、データ・アクセス要求と
は、データを読み書きするための記憶装置への要求である。

【０００８】仮想ディスク・システムでは、複数のノードが１つの記憶装置の多くの表現を
持つことがある。残念ながら、従来のシステムは、各ノード上の表現が一貫した
許可データを有することを保証する確実な手段を提供しない。一般的に言えば、
許可データは、どのユーザが装置、ディレクトリ、またはファイルにアクセスす
るための許可を有するかを識別するものである。許可としては、読取り許可、書
込み許可、実行許可を含むことができる。

【０００９】さらに、あるクラスタのノードを追加または除去する能力を有するか、または
そのクラスタが動作している間に既存のノードと記憶装置との接続を変更するこ
とが望ましい。この能力は、そのクラスタを低下させることができないクリティ
カル・アプリケーションで使用するクラスタでは特に重要である。この能力によ
り、物理的資源（ノードと記憶装置など）をシステムに追加するか、あるいはク
ラスタ内のデータ・アクセス要求を損なわずに修理および交換を実施することが
できる。

【００１０】（発明の概要）上記で概要を示した問題は、本発明による高可用性仮想ディスク・システムに
よって大部分が解決される。一実施態様における高可用性仮想ディスク・システ
ムは、各記憶装置とクラスタ内の各ノードとのインタフェースを提供する。ノー
ドの見地からすると、各記憶装置がそのノードに物理的に接続されているとみる
ことができる。あるノードがある記憶装置に物理的に接続されている場合、仮想
ディスク・システムはその記憶装置に直接アクセスできる。あるいは、そのノー
ドがある記憶装置に物理的に接続されていない場合、仮想ディスク・システムは
そのクラスタ内にあってその記憶装置に物理的に接続されている他のノードを通
ってその記憶装置にアクセスできる。一実施態様では、すべてのノードが１つの
データ通信リンクを介して通信する。ある記憶装置が直接アクセスされるかまた
は他のノードを介してアクセスされるかは、その記憶装置にアクセスするクライ
アントにとってトランスペアレントなものである。

【００１１】一実施態様では、ノードは仮想ディスクのマッピングを記憶装置に記憶する。
たとえば、各アクティブ・ノードは、各仮想装置用の一次ノード／ディスク対と
二次ノード／ディスク対を識別するマッピングを記憶することができる。各ノー
ド／ディスク対は、その記憶装置に物理的に結合されたノードと、その記憶装置
に対応するそのノード上のディスク装置を識別する。二次ノード／ディスク対は
、代替ノード／ディスク対ともいう場合がある。そのノードが一次ノード／ディ
スク対を介してある記憶装置にアクセスできない場合、そのノードは二次ノード
／ディスク対を介してデータ・アクセス要求を再試行することができる。障害が
存在する状態でノード間の一貫したマッピングを維持するために、そのマッピン
グを高可用性データベースに記憶することができる。高可用性データベースは障
害が存在する状態でも１つの一貫したデータ・コピーを維持するので、高可用性
データベースに照会する各ノードは、同じマッピングを取得することになる。ま
た、高可用性データベースを使用して、仮想装置へのアクセスを制御するための
許可データを記憶することもできる。高可用性データベースは障害が存在する状
態でも１つの一貫した許可データ・コピーを維持するので、そのデータベースに
照会する各ノードは、同じ許可データを取得することになる。

【００１２】本発明による仮想ディスク・システムの特徴の１つは、システムの高い可用性
である。一実施態様では、仮想ディスク・システムは、それが受け取ったすべて
のデータ・アクセス要求を記憶し、エラーが発生した場合にその要求を再試行す
る。たとえば、データ・アクセス要求を開始し、要求側ノードと呼ばれるノード
の仮想ディスク・システムは、すべての未処理のデータ要求を記憶することがで
きる。宛先ノード、すなわち、そのデータ・アクセス要求が向けられるノードが
そのデータ・アクセス要求を完了できない場合、要求側ノードに対してエラー表
示を返すことができ、要求側ノードはその記憶装置に接続されている代替ノード
にそのデータ・アクセス要求を再送することができる。このエラー検出および再
試行は自動的に実行され、クライアントにとってトランスペアレントなものであ
る。他の例では、ノード障害が発生した場合、仮想ディスク・システムは、アク
ティブ・ノードの変更済みリストを受け取り、その記憶装置に結合されたアクテ
ィブ・ノードに不完全なデータ・アクセス要求を再送することができる。この再
構成および再試行もクライアントにとってトランスペアレントなものである。

【００１３】本発明による仮想ディスク・システムの他の特徴は、クラスタが動作している
間にそのクラスタを再構成できる能力である。あるクラスタを再構成すると、記
憶装置に対する仮想ディスクのマッピングを更新することができる。エラーを防
止するため、マッピングを更新する前にそのクラスタのすべてのノードに対して
同期コマンドを実行または操作することができる。この同期コマンドにより、ノ
ードはデータ・アクセス要求の発行を停止する。マッピングを更新した後、他の
同期コマンドにより、そのノードはデータ・アクセス要求の発行を再開する。

【００１４】仮想ディスク・システムは、ボリューム・マネージャと記憶装置とのインタフ
ェースまたはクライアントとボリューム・マネージャとのインタフェースとして
機能するように設計することができる。前者の構成では、クライアントはボリュ
ーム・マネージャにインタフェースし、ボリューム・マネージャは仮想ディスク
・システムにインタフェースする。後者の構成では、クライアントは仮想ディス
ク・システムにインタフェースし、仮想ディスク・システムはボリューム・マネ
ージャにインタフェースする。

【００１５】本発明の他の目的および利点は、以下に示す詳細説明を読み、添付図面を参照
すると明らかになるだろう。

【００１６】本発明は様々な変更および代替形式が可能であるが、その具体的な実施形態を
例証として添付図面に示し、本明細書に詳細に説明する。しかし、図面およびそ
れに対する詳細な説明は開示した特定の形式に本発明を限定するためのものでは
なく、むしろ、その意図は特許請求の範囲によって定義した本発明の精神および
範囲に含まれるすべての変更態様、同等態様、代替態様を含むことである。

【００１７】（発明の詳細な説明）次に図１に移行すると、本発明の一実施形態によるクラスタ構成のブロック図
が示されている。クラスタ１００は、データ通信リンク１０２と、３つのノード
１０４Ａ〜１０４Ｃと、３つの記憶装置１０８、１１０、１１２とを含む。デー
タ通信リンク１０２は、ノード間でデータを転送するためのデータ通信経路であ
る。データ通信リンク１０２は、マルチドロップ・リンクまたはポイントツーポ
イント・リンクを企図している。たとえば、データ通信リンク１０２は３つのポ
イントツーポイント・リンクを含むことができる。第１のリンクはノード１０４
Ａと１０４Ｂとの間の通信経路で、第２のリンクはノード１０４Ａと１０４Ｃと
の間の通信経路で、第３のリンクはノード１０４Ｂと１０４Ｃとの間の通信経路
である。一実施形態のデータ通信リンク１０２はスケーラブル・コヒーレント・
インタフェース（scalable coherent interface:ＳＣＩ）を実装する。特定の一
実施形態のクラスタは、ＳＣＩによりデータを転送するためにＴＣＰ／ＩＰプロ
トコルを実装している。例示のためにのみ３つのノードを示していることに留意
されたい。他の実施形態ではそれより多いかまたは少ないノードを使用すること
もできる。

【００１８】図示の実施形態では、記憶装置１０８がノード１０４Ａに物理的に接続され、
記憶装置１１０がノード１０４Ｂに物理的に接続され、記憶装置１１２がノード
１０４Ｃに物理的に接続されている。記憶装置１０８〜１１２は一般に、それが
接続されているノードのメモリの記憶容量を上回る記憶容量を有する。データは
、ノードによって現在使用されていない記憶装置１０８〜１１２に記憶され、そ
の記憶装置からのデータがそのデータが必要になったときにそのノードのメモリ
に記憶またはキャッシュされる。図示の実施形態では、記憶装置が１つのノード
のみに物理的に接続されている。代替実施形態では、１つの記憶装置を複数のノ
ードに物理的に接続することができる。複数の物理接続により、ある記憶装置に
物理的に接続された１つのノードが故障した場合または記憶装置経路が故障した
場合でもその記憶装置にアクセスすることができる。

【００１９】同じ分散プログラムの複数のインスタンスが各ノード上で動作することができ
る。たとえば、ボリューム・マネージャ１０５Ａとボリューム・マネージャ１０
５Ｂは同じ分散ボリューム・マネージャ・プログラムの異なるインスタンスであ
る。これらのインスタンスは、データ通信リンク１０２を介して互いに通信する
ことができる。各インスタンスには、同じ参照番号とそれに続く固有に英字、た
とえば、１０５Ａまたは１０５Ｂが付与される。簡潔にするため、分散プログラ
ムは、まとめて参照番号のみを使用する、たとえば、ボリューム・マネージャ１
０５ということができる。

【００２０】ノード１０４Ａは、ボリューム・マネージャ１０５Ａと仮想ディスク・システ
ム１０６Ａとを含む。図示の実施形態の仮想ディスク・システム１０６Ａは、ボ
リューム・マネージャ１０５と記憶装置１０８〜１１２とのインタフェースとな
っている。ボリューム・マネージャ１０５Ａの見地からすると、各記憶装置はノ
ード１０４Ａに物理的に接続されているように見える。仮想ディスク・システム
１０６は複数のノード上で動作する分散プログラムである。図示の実施形態では
、仮想ディスク・システム１０６の１つのインスタンスが各ノードで動作してい
る。仮想ディスク・システム１０６Ａは、ノード１０４Ａで動作する仮想ディス
ク・システム１０６のインスタンスであり、記憶装置１０８〜１１２をそれぞれ
表す３つの仮想装置（ＶＤ１、ＶＤ２、ＶＤ３）を含む。ボリューム・マネージ
ャ１０５は、自身のノードに物理的に接続された記憶装置に伝達するのと同じよ
うに仮想装置に伝達する。一実施形態では、ボリューム・マネージャ１０５はＵ
ＮＩＸデバイス・ドライバ・セマンティクスを使用する。記憶装置１０８（すな
わち、ＶＤ１）へのデータ・アクセス要求は仮想ディスク・システム１０６Ａか
ら記憶装置１０８に直接運搬される。記憶装置１１０および１１２（すなわち、
ＶＤ２およびＶＤ３）へのデータ・アクセス要求はデータ通信リンク１０２によ
りこれらの装置に物理的に接続されたそれぞれのノードに運搬される。

【００２１】各ノードの仮想ディスクは別個の装置であることに留意されたい。たとえば、
ノード１０４Ａ、１０４Ｂ、１０４ＣのＶＤ１は、それぞれ固有のデバイス・ド
ライバによって管理される固有の装置である。装置は固有であるが、各ＶＤ１装
置は同じ物理記憶装置にマッピングする。換言すれば、ノード１０４ＡのＶＤ１
にデータを書き込むことは、ノード１０４Ｂまたは１０４ＣのＶＤ１にデータを
書き込むのと同様に、記憶装置１０８にデータを記憶する。各記憶装置が複数の
ノードに物理的に接続できることにさらに留意されたい。この場合、その装置に
物理的に接続された各ノードは、記憶装置にインタフェースする異なるデバイス
・ドライバを有する。

【００２２】図示の実施形態では、ボリューム・マネージャ１０５Ａのボリューム１（Ｖ１
）がＶＤ１およびＶＤ２に結合されている。一実施形態では、ボリューム・マネ
ージャ１０５Ａがこれらの装置をミラーすることもできる。代替実施形態では、
ボリューム・マネージャ１０５Ａが他の仮想装置に結合された他のボリュームを
含むこともできる。たとえば、第２のボリューム・マネージャ１０５ＡはＶＤ２
およびＶＤ３に結合することができる。

【００２３】ノード１０４Ｂおよび１０４Ｃでは、ボリューム・マネージャ（１０５Ｂおよ
び１０５Ｃ）および仮想ディスク・システム（１０６Ｂおよび１０６Ｃ）がボリ
ューム・マネージャ１０５Ａおよび仮想ディスク・システム１０６Ａと実質的に
同じように動作する。図示の実施形態では、ボリューム・マネージャ１０５Ｂの
ボリューム２（Ｖ２）が仮想ディスク・システム１０６ＢのＶＤ２およびＶＤ３
に結合されている。仮想ディスク・システム１０６Ｂは、記憶装置１１０に直接
アクセスし、通信インタフェース１０２およびノード１０４Ｃを介して記憶装置
１１２にアクセスする。ボリューム・マネージャ１０５Ｃのボリューム３（Ｖ３
）は仮想ディスク・システム１０６ＣのＶＤ２およびＶＤ３に結合されている。
仮想ディスク・システム１０６Ｃは、記憶装置１１２に直接アクセスし、通信イ
ンタフェース１０２およびノード１０４Ｂを介して記憶装置１１０にアクセスす
る。

【００２４】次に図２に移行すると、本発明の一実施形態による代替クラスタ構成のブロッ
ク図が示されている。クラスタ２００は、データ通信リンク１０２と、３つのノ
ード１０４Ａ〜１０４Ｃと、３つの記憶装置１０８、１１０、１１２とを含む。
簡潔にするため、図１の構成要素と同様の構成要素には同じ参照番号が付与され
ている。図２においては、クライアントは、ボリューム・マネージャ１０５では
なく仮想ディスク・システム１０６にインタフェースする。仮想ディスク・シス
テムがボリューム・マネージャにインタフェースし、ボリューム・マネージャは
１つまたは複数の記憶装置にインタフェースする。この構成では、ボリューム・
マネージャ１０５は仮想ディスク・システム１０６の下に層状に重ねられている
。簡潔にするため、ノード１０４Ａの動作についてのみ以下に説明する。ノード
１０４Ｂおよび１０４Ｃは実質的に同じように動作する。

【００２５】ノード１０４Ａでは、クライアントは仮想ディスク・システム１０６Ａにイン
タフェースする。クライアントの見地からすると、仮想ディスク・システム１０
６Ａは３つの別々の記憶装置として現れる。図２の３つの仮想装置は、ボリュー
ム・マネージャが仮想ディスク・システムの下に層状に重ねられていることを反
映するように仮想ボリューム（ＶＶ１、ＶＶ２、ＶＶ３）として表示されている
。クライアントの見地からすると、仮想ボリュームは記憶装置のように動作する
。たとえば、仮想ボリュームはＵＮＩＸデバイス・ドライバ・セマンティクスを
使用することができる。クライアントは、仮想ディスク・システム１０６Ａから
クラスタの３つのボリュームのいずれにもアクセスすることができる。ボリュー
ム・マネージャ１０５Ａは記憶装置にインタフェースする。図示の実施形態では
、ボリューム・マネージャ１０５Ａのボリューム１（Ｖ１）が記憶装置１０８お
よび１１０に結合されている。一実施形態では、ボリューム１は記憶装置１０８
および１１０にデータをミラーすることができる。仮想ディスク・システム１０
６Ａの見地からすると、ボリューム・マネージャ１０５Ａのボリューム１は記憶
装置のように動作する。たとえば、そのボリュームはＵＮＩＸデバイス・ドライ
バのように動作することができる。

【００２６】仮想ディスク・システム１０６Ｂの仮想ボリューム２（ＶＶ２）はボリューム
・マネージャ１０５Ｂのボリューム２（Ｖ２）に直接インタフェースする。仮想
ボリューム１および３は、データ通信リンク１０２を介してノード１０４Ａのボ
リューム１およびノード１０５Ｃのボリューム３と通信する。同様に、仮想ディ
スク・システム１０６Ｃの仮想ボリューム３はボリューム・マネージャ１０５Ｃ
のボリューム３に直接インタフェースする。仮想ボリューム１および２は、デー
タ通信リンク１０２を介してノード１０４Ａのボリューム１およびノード１０５
Ｂのボリューム２と通信する。図示の実施形態では、ボリューム・マネージャ１
０５Ｂのボリューム２およびボリューム・マネージャ１０５Ｃのボリューム３は
どちらも記憶装置１１０および１１２に物理的に接続されている。

【００２７】ボリューム・マネージャと仮想ディスク・システムはどちらも記憶装置のよう
に動作するので、ボリューム・マネージャは仮想ディスク・システムの上または
下のいずれかに層状に重ねることができる。したがって、それがボリューム・マ
ネージャにインタフェースするかまたは仮想ディスク・システムにインタフェー
スするかはクライアントにとってトランスペアレントなものである。どちらの実
施形態でも、クライアントは３つの信頼できる記憶装置に直接アクセスすること
ができるように見える。ボリューム・マネージャと仮想ディスク・システムはど
ちらも記憶装置に直接インタフェースすることができる。ボリューム・マネージ
ャによっては、仮想ディスク装置の上に層状に重ねられたときにより良好に動作
できるものもある。たとえば、ベリタスＣＶＭなどのクラスタ・ボリューム・マ
ネージャは仮想ディスク・システムの上に層状に重ねられたときに最も良好に動
作するが、ソルスティス・ディスク・スイート（ＳＤＳ）などの非分散ボリュー
ム・マネージャは仮想ディスク・システムの下で動作しなければならない場合も
ある。ボリューム・マネージャは仮想ディスク・システムの下で動作するために
分散しなければならないことに留意されたい。仮想ディスク・システムがそれら
が１つの装置であるかのようにノードの仮想ディスクを管理するのと同様に、Ｃ
ＶＭなどの分散ボリューム・マネージャは、それらが１つのボリュームであるか
のようにボリューム（Ｖ１、Ｖ２、Ｖ３）を管理できることにさらに留意された
い。

【００２８】次に図３に移行すると、本発明の一実施形態によるクラスタの２つのノードで
動作する仮想ディスク・システムのブロック図が示されている。図示の実施形態
では、各ノードはユーザ部分とカーネルとを含む。ノード１０４Ａのユーザ部分
は、クラスタ・メンバシップ・モニタ（ＣＭＭ）３１０Ａと、クラスタ構成デー
タベース（ＣＣＤ）３１１Ａと、クライアント３１２Ａと、ネットディスク・デ
ーモン（ＮＤＤ）３１４Ａと、クラスタ・トランスポート・インタフェース・デ
ーモン（ＣＴＩＤ）３１６Ａとを含む。ノード１０４Ａのカーネルは、ネットデ
ィスク・ドライバ（ＮＤ）３１８Ａと、ネットディスク・マスタ（ＮＭ）３２０
Ａと、クラスタ・トランスポート・インタフェース（ＣＴＩ）３２２Ａ、クラス
タ接続性モニタ（ＣＣＭ）３２４Ａと、ディスク・ドライバ３２６Ａと、ネット
ワーク・トランスポート３２８Ａとを含む。ノード１０４Ｂのユーザ部分は、ク
ラスタ・メンバシップ・モニタ（ＣＭＭ）３１０Ｂと、クラスタ構成データベー
ス（ＣＣＤ）３１１Ｂと、ネットディスク・デーモン（ＮＤＤ）３１４Ｂと、ク
ラスタ・トランスポート・インタフェース・デーモン（ＣＴＩＤ）３１６Ｂとを
含む。ノード１０４Ｂのカーネルは、ネットディスク・ドライバ（ＮＤ）３１８
Ｂと、ネットディスク・マスタ（ＮＭ）３２０Ｂと、クラスタ・トランスポート
・インタフェース（ＣＴＩ）３２２Ｂ、クラスタ接続性モニタ（ＣＣＭ）３２４
Ｂと、ネットディスク・ドライバ３２６Ｂと、ネットワーク・トランスポート３
２８Ｂとを含む。

【００２９】図示の実施形態ではボリューム・マネージャが含まれていない。図１および図
２に関連して前述したように、ボリューム・マネージャは仮想ディスク・システ
ムの上または下のいずれかに実装することができる。ボリューム・マネージャが
仮想ディスク・システムの上に実装される場合、クライアント３１２Ａがボリュ
ーム・マネージャにインタフェースし、次にそのボリューム・マネージャがＮＤ
３１８Ａにインタフェースする。反面、ボリューム・マネージャが仮想ディスク
・システムの下に実装される場合、ＮＭ３２０Ａがボリューム・マネージャにイ
ンタフェースし、次にそのボリューム・マネージャがディスク・ドライバ３２６
Ａにインタフェースする。

【００３０】ＣＴＩＤ３１６Ａという構成モジュールは、ＣＴＩ３２２Ａという接続モジュ
ールを初期設定するデーモンである。クラスタの構成が変更されると、ノード３
１６Ａは初期設定される。ＣＴＩＤ３１６ＡはＣＣＤ３１１Ａに照会して構成情
報を入手する。一実施形態の構成情報は、そのクラスタのノード間のリンクの数
と、リンクに関連するプロトコルとを示す。一実施形態では、ＣＴＩＤ３１６Ａ
がＣＭＭ３１０Ａをさらに照会し、クラスタ内のアクティブ・ノードのリストな
どのメンバシップ情報を入手する。ＣＴＩＤ３１６Ａは、ノード間のリンクによ
り接続を確立し、メンバシップ情報とリンク情報をＣＴＩ３２２Ａに送る。ＣＴ
ＩＤ３１６Ａは、プライベート相互接続によりＣＴＩ３２２Ａに連絡することが
でき、入出力制御要求を使用することができる。

【００３１】ＣＣＤ３１１Ａによって識別されるリンクは、物理リンクの場合もあれば、仮
想リンクの場合もある。たとえば、ＣＣＭ３２４Ａは、ＣＴＩ３２２Ａによって
アクセス可能な１つの仮想リンクとして一対の物理リンクを管理することができ
る。ＣＣＭ３２４については図９に関連して以下に詳述する。

【００３２】ＣＣＤ３１１Ａは、分散高可用性クラスタ・データベースのインスタンスの１
つである。ＣＣＤ３１１は障害が存在する状態でも一貫したデータを記憶する。
ＣＣＤ３１１にマッピング・データを記憶することにより、各ノードは障害が存
在する状態でも同じマッピング情報を入手する。ＣＣＤ３１１については、Ｓｌ
ａｕｇｈｔｅｒ他により１９９７年１０月２１日に出願され、「Ｈｉｇｈｌｙ
ａｖａｉｌａｂｌｅＤｉｓｔｒｉｂｕｔｅｄＣｌｕｓｔｅｒＣｏｎｆｉｇ
ｕｒａｔｉｏｎＤａｔａｂａｓｅ」という名称で本願譲受人に譲渡された同時
係属特許出願第０８／９５４７９６号に詳述されている。

【００３３】ＣＭＭ３１０は、クラスタ・メンバシップを監視する分散プログラムである。
メンバシップが変更されると、ＣＭＭ３１０はその変更を検出し、ＣＴＩＤ３１
６ＡおよびＮＤＤ３１４Ａなどクラスタ内の他の資源に新しいメンバシップ情報
を送る。メンバシップ変更の例としては、そのクラスタに加わるノードまたはそ
のクラスタを離れるノードを含む。一実施形態のＣＭＭ３１０は各構成に固有の
構成番号を出力する。

【００３４】ＮＤＤ３１４Ａは、新しい装置をオープンしたときまたは再構成中にＮＤ３１
８Ａを初期設定するデーモンである。再構成は、ノードがそのクラスタに加わっ
たときまたはそのクラスタを離れるとき、あるいはノードが故障したときに行わ
れる。一実施形態では、各仮想ディスク装置は個別に初期設定される。特定の一
実施形態の仮想ディスク装置は、そのクラスタがその装置をオープンしたときに
クラスタによって初期設定されるか、または再構成の前に仮想ディスク・ドライ
バをオープンした場合は再構成後にクラスタによって初期設定される。このため
、すべての仮想ディスク装置がそれぞれの再構成後に初期設定されるわけではな
い。

【００３５】一実施形態のＮＤ３１８Ａは、オープンすべき装置のリストと、オープンした
装置のリストを記憶する。クライアントがある装置をオープンするよう要求する
と、ＮＤ３１８Ａはオープンすべき装置のリストにその装置を追加する。ＮＤＤ
３１４Ａはオープンすべき装置のリストに照会する。そのリストがオープンすべ
き装置を含む場合、ＮＤＤ３１４ＡはＣＣＤ３１１Ａに照会し、識別した装置に
関するマッピング情報を入手する。ＮＤＤ３１４Ａは、ＣＭＭ３１０Ａにも照会
して、アクティブ・ノードのリストなどのメンバシップ情報を入手することもで
きる。ＮＤＤ３１４Ａは、マッピング情報とメンバシップ情報をＮＤ３１８Ａに
送る。ＮＤＤ３１４Ａはプライベート相互接続によりＮＤ３１８Ａに連絡するこ
とができ、入出力制御要求を使用することができる。

【００３６】一実施形態では、ある装置に関するマッピング情報は、ある記憶装置に物理的
に接続された一次および二次ノードと、その記憶装置に対応するこれらのノード
のディスク装置とを識別する。ノードとディスクの各対はノード／ディスク対と
もいう場合がある。一次および二次ノード／ディスク対とメンバシップ情報とに
基づいて、ＮＤ３１８Ａは、ある装置に関するデータ・アクセス要求を経路指定
するためのノードを選択することができる。ＮＤ３１４ＡとＣＴＩ３２２Ａが初
期設定されると、仮想ディスク・システムはクライアント３１２Ａからデータ・
アクセス要求を受け入れる準備が整っている。

【００３７】クライアント３１２Ａは、それが記憶装置にアクセスするのと同じように仮想
ディスク・システムの仮想装置にアクセスする。クライアントの見地からすると
、各記憶装置またはボリュームはそのノードに物理的に接続されているように見
える。図示の実施形態では、クライアント３１２Ａがある記憶装置からのデータ
にアクセスする場合、クライアントはデータ・アクセス要求をＮＤ３１８Ａに送
る。一実施形態では、クライアント３１２Ａは、宛先記憶装置と、動作のタイプ
と、データを検索または記憶するための位置とをＮＤ３１２Ａに対して指定する
。残りの動作はクライアント３１２Ａにとってトランスペアレントなものになる
。ＮＤ３１８Ａは、マッピングおよび現行メンバシップ情報に基づいて、どのノ
ードにデータ・アクセス要求を送るかを決定する。一実施形態では、ＣＣＤ３１
１Ａから入手したマッピング情報は、その記憶装置に物理的に接続された一次お
よび二次ノードを含む。ＮＤ３１８Ａは、一次ノードがアクティブである場合、
そのデータ・アクセス要求を一次ノードに経路指定することができる。あるいは
、一次ノードがアクティブではない場合、ＮＤ３１８Ａはそのデータ・アクセス
要求を二次ノードに経路指定する。その記憶装置にアクセスするためにどのノー
ドを使用するかは、クライアント３１２Ａにとってトランスペアレントなものに
なる。

【００３８】ＮＤ３１８Ａは、ＣＴＩ３２２Ａにデータ・アクセス要求を送り、どのノード
にデータ・アクセス要求を送るかを指定する。ＣＴＩ３２２Ａがどのようにデー
タ・アクセス要求を宛先ノードに転送するかは、ＮＤ３１８Ａおよびクライアン
ト３１２Ａにとってトランスペアレントなものになる。一実施形態では、その記
憶装置がノード１０４Ａに直接結合されている場合、ＮＤ３１８ＡはＣＴＩ３２
２ＡではなくＮＭ３２０Ａにデータ・アクセス要求を送る。ＮＭ３２０Ａはデー
タ・アクセス要求をディスク・ドライバ３２６Ａに送り、次にそのディスク・ド
ライバはその記憶装置にアクセスする。一実施形態のＮＭ３２０Ａは、ＮＤ３１
８Ａのうち、ディスク・ドライバ３２６Ａにインタフェースする部分である。デ
ィスク・ドライバ３２６Ａは、ノード１０４Ａに物理的に接続された１つまたは
複数の記憶装置にインタフェースする。

【００３９】ＣＴＩ３２２Ａは複数のリンクを管理する。ＣＴＩ３２２Ａは分散プログラム
ＣＴＩ３２２のインスタンスの１つである。ＣＴＩ３２２Ａは、あるデータ・ア
クセス要求の宛先ノードへの１つまたは複数のリンクを管理することができる。
たとえば、そのデータ・アクセス要求の宛先ノードがノード１０４Ｂである場合
、ＣＴＩ３２２Ａはそのノードへの３つのリンクを管理することができる。ＣＴ
Ｉ３２２Ａは、１つのリンクを介してノード１０４Ｂにすべてのデータを移送す
る場合もあれば、３つのリンクによりデータを分散する場合もある。ＣＴＩ３２
２Ａは、宛先ノードで宛先クライアントを識別するためのフィールドをデータ・
アクセス要求に付加することができる。ノード１０４ＢのＣＴＩ３２２Ｂは複数
のクライアントに対応することができる。ＣＴＩ３２２Ａによってメッセージに
付加されたフィールドは、ＣＴＩ３２２Ｂがどのクライアントにそのデータを経
路指定するべきかを識別するものである。たとえば、ＣＴＩ３２２Ａは、宛先ク
ライアントをＮＤ３１８Ｂとして指定するデータを、ＮＤ３１８Ａが受け取るデ
ータ要求に付加することができる。

【００４０】一実施形態のＣＣＭ３２４Ａは、２つまたはそれ以上の冗長物理リンクを管理
する。ＣＴＩ３２２Ａの見地からすると、冗長物理リンクは１つの論理リンクと
して現れる。ＣＣＭ３２４Ａは、物理リンクによりＣＣＭ３２４Ｂとメッセージ
を交換する。ＣＣＭ３２４の２つのインスタンスは、冗長リンクのうちのどちら
が動作可能であるかに関して合意に達する。ＣＭＭ３２４は、データを転送する
ために１つの動作可能な物理リンクを選ぶことができる。そのリンクが故障した
場合、ＣＣＭ３２４は、その故障を検出し、代替リンク上でデータを転送するこ
とができる。ＣＴＩ３２２の見地からすると、各論理リンクは１つの高可用性リ
ンクとして現れる。一実施形態のＣＣＭ３２４Ａはそのクラスタ内の各ノードへ
のリンクを管理する。たとえば、ＣＭＭ３２４Ａはノード１０４Ｂおよび１０４
Ｃへのリンクを管理することができる。

【００４１】ネットワーク・トランスポート３２８Ａは、データ通信リンク１１２のリンク
によりプロトコル機能を実行する。一実施形態では、データ通信リンク１１２に
よりＴＣＰ／ＩＰプロトコルを使用する。他の実施形態では、他のプロトコルを
実装することができる。たとえば、低待ち時間接続性層（ＬＬＣＬ）、メッセー
ジ受渡しインタフェース（ＭＰＩ）、低オーバヘッド通信（ＬＯＣＯ）などの高
速プロトコルを使用することができる。

【００４２】ノード１０４Ｂでは、ネットワーク・トランスポート３２８Ｂがデータ・アク
セス要求を受け取り、適切なプロトコルを使用してデータをＣＴＩ３２２Ｂに移
送する。ＣＴＩ３２２Ｂは、データ・アクセス要求を部分的にデコードし、その
宛先クライアントを決定することができる。図示の実施形態では、データはＮＤ
３１８Ｂに経路指定される。ＮＤ３１８Ｂは、データ・アクセス要求を部分的に
デコードし、宛先記憶装置を決定することができる。その記憶装置がノード１０
４Ｂに物理的に結合されている場合、ＮＤ３１８Ｂは要求をＮＭ３２０Ｂに送り
、ＮＭ３２０Ｂはその要求をディスク・ドライバ３２６Ｂに送る。ディスク・ド
ライバ３２６Ｂはその記憶装置にアクセスする。データ・アクセス要求が読取り
トランザクションである場合、要求されたデータはＮＤ３１８、ＣＴＩ３２２、
データ通信リンク１１２を介してクライアント３１２Ａに戻される。

【００４３】本発明の一実施形態による仮想ディスク・システムの特徴の１つは高い可用性
である。この仮想ディスク・システムは、ノード障害などの障害が存在する状態
でデータ・アクセス要求が確実に実行されるように設計されている。この目的に
向かって、ＮＤ３１８Ａは保留データ・アクセス要求のリストを記憶する。デー
タ・アクセス要求が正常に完了しない場合、仮想ディスク・システムは他のノー
ドへのデータ・アクセス要求を再試行する。要求側ノードは、否定応答信号を受
け取ることによって不完全なデータ・アクセス要求を検出する場合もあれば、宛
先ノードがアクティブではないことを示す再構成データを受け取る場合もある。
データ・アクセス要求が正常に完了した場合、それは保留データ・アクセス要求
のリストから除去される。

【００４４】たとえば、ノード１０４Ｂがある記憶装置の一次ノードであり、ノード１０４
Ｃがその記憶装置の二次ノードである場合が考えられる。ＮＤ３１８Ａがその記
憶装置にデータ・アクセス要求を送ると、それはそのデータ・アクセス要求を一
次ノードに送ることができ、そのノードはノード１０４Ｂである。ノード１０４
Ｂがデータ・アクセス要求を正常に完了できない場合、たとえば、ディスク・ド
ライバ３２６Ｂと記憶装置との間の記憶装置経路が機能しない場合、ノード１０
４Ａは、そのデータ・アクセス要求が正常に完了しなかったことを示す否定応答
信号を受け取ることができる。次にノード１０４Ａはデータ・アクセス要求を二
次ノードに再送することができる。そのノードはノード１０４Ｃである。ノード
１０４Ａは、ノード１０４Ｂがその記憶装置と通信できないことを示す情報を記
憶し、その後、新しいデータ・アクセス要求を他のノードに送ることができる。

【００４５】代替例では、ノード１０４Ｂを動作不能にすることができる。一実施形態では
、ノード１０４ＡがＣＭＭ３１０Ａから取得したクラスタ・メンバシップ・デー
タは、そのノードが動作不能であることを示す場合もある。したがって、ＮＤ３
１８Ａは、データ・アクセス要求を二次ノードに経路指定することができる。上
記のように、障害が存在する状態でもデータ・アクセス要求が正常に完了する。

【００４６】次に図４に移行すると、本発明の一実施形態によるネットディスク・ドライバ
の初期設定を示すブロック図が示されている。図４はノード１０４ＡにおけるＮ
Ｄ３１８Ａの初期設定を示している。そのクラスタ内の他のネットディスク・ド
ライバの初期設定は実質的に同じように実行することができる。

【００４７】一実施形態では、記憶装置にアクセスする前にその記憶装置をオープンする。
たとえば、記憶装置を初期設定させるオープン・コマンドを実行することができ
る。同様に、各ノードの各仮想装置はそれにアクセスする前にオープンすること
ができる。クライアント３１２Ａは、ＮＤ３１８Ａにコマンドを出力して仮想装
置をオープンする。ＮＤ３１８Ａはオープンすべき装置をリストに記憶する。一
実施形態のＮＤＤ３１４Ａは、定期的にそのリストに照会して、どの装置を初期
設定するかを決定する。代替実施形態のＮＤ３１８Ａは、装置を初期設定する必
要があることを示す信号をＮＤＤ３１４Ａに出力することができる。ＮＤＤ３１
４Ａは、オープンすべき装置に関するマッピング情報を入手するためにＣＣＤ３
１１Ａに照会し、現行メンバシップ情報についてはＣＭＭ３１０Ａに照会する。
ＮＤＤ３１４Ａはマッピングおよびメンバシップ情報をＮＤ３１８Ａに送る。Ｎ
Ｄ３１８Ａはマッピングおよびメンバシップ情報を構成ファイルに記憶する。Ｎ
Ｄ３１８Ａは、構成ファイルに記憶したマッピングおよびメンバシップ・データ
を使用して、ノードへのデータ・アクセス要求の経路指定を決定する。次にＮＤ
３１８Ａは、その装置がオープンされたことをクライアント３１２Ａに通知する
。

【００４８】一実施形態では、各仮想装置に関するマッピング情報としては、仮想装置の名
前と、一次ノードと、その一次ノードの記憶装置の名前（すなわち、その記憶装
置に対応する装置の名前）と、二次ノードと、その二次ノードの記憶装置の名前
とを含む。そのうえ、マッピング情報は、仮想装置の識別番号と、記憶装置のク
ラスタ特有の名前とを含むこともできる。

【００４９】そのうえ、ＮＤ３１８Ａは、マッピングおよびメンバシップ・データに関連す
る再構成番号を記憶する。再構成番号はＣＣＭ３１０Ａから入手される。ＮＤ３
１８Ａは再構成番号を使用して、その現行メンバシップ・データが最近の構成に
関して最新のものであるかどうかを判定する。

【００５０】一実施形態では、クラスタの構成が変更されると、ＣＭＭ３１０Ａは、新しい
メンバシップ情報をＮＤＤ３１４Ａに通知する。たとえば、ノード障害が検出さ
れた場合、ＣＭＭ３１４Ａは、再構成が行われたことをＮＤＤ３１４Ａに通知し
、新しいメンバシップ・データをＮＤＤ３１４Ａに送る。ＮＤＤ３１４Ａは新し
いメンバシップ情報をＮＤ３１８Ａに送り、そのＮＤ３１８Ａはマッピング情報
とともに新しいメンバシップ情報を使用して将来のデータ・アクセス要求を経路
指定する。

【００５１】一実施形態では、ファイルシステムがノードの仮想ディスクを管理する。この
ファイルシステムはネットディスク・ファイルシステム（ＮＤＦＳ）と呼ぶこと
もできる。ＮＤＦＳはあるノードが仮想ディスクをオープンしたときにその仮想
ディスク用の特殊装置ファイルを作成するように構成されている。この特殊装置
ファイルは、オペレーティング・システム内で仮想ディスクを表すものである。

【００５２】ＵＮＩＸオペレーティング・システムなどのオペレーティング・システムでは
、装置をファイルとして扱うことができる。ある装置に関連するファイル（装置
ファイルまたは特殊装置ファイルという）は、通常、オペレーティング・システ
ムのブートアップ・フェーズ中に実行される初期設定プログラムによって作成さ
れる。初期設定プログラムは、コンピュータ・システムに接続された物理装置を
決定し、その物理装置に対応する装置ファイルを作成する。一実施形態では、ブ
ートアップ中ではなく、最初にアクセスされたときに仮想装置が初期設定される
。この状況ならびにその仮想ディスクをノードに物理的に接続できないことは、
初期設定中に仮想ディスク用の装置ファイルを作成できないことを意味する。好
ましくは仮想ディスクは他の装置のようにアクセス可能なので、ＮＤＦＳは、最
初にオープンされたときに仮想装置の装置ファイルを作成するように構成されて
いる。一実施形態では、あるノードがある仮想装置を最初にオープンしたときに
のみ、装置ファイルが作成される。その後、その仮想装置をオープンしても、装
置ファイルは作成されない。

【００５３】一実施形態のＮＤＦＳは仮想装置をオープンするコマンドを検出する。これが
その仮想装置がオープンされた最初の場合であれば、ＮＤＦＳは作成要求をＮＤ
３１８Ａに送る。一実施形態のＮＤＦＳは、ＮＤ３１８Ａへのプライベート・イ
ンタフェースを有する。ＮＤ３１８Ａはリストとして作成するためにその仮想装
置を記憶する。このリストは、オープンすべき装置を記憶するために使用するの
と同じリストである場合もあれば、作成すべき装置用の個別のリストである場合
もある。ＮＤＤ３１４Ａが定期的にそのリストに照会してどの装置を作成すべき
かを決定する場合もあれば、ある装置を作成する必要があることを示す信号をＮ
Ｄ３１８ＡがＮＤＤ３１４Ａに出力する場合もある。ＮＤＤ３１４ＡはＣＣＤ３
１１Ａに照会し、オープンすべき装置に関する許可データを入手する。ＮＤＤ３
１４ＡはＮＤ３１８Ａに許可データを送り、次にそのＮＤ３１８Ａが許可データ
をＮＤＦＳに送る。ＮＤＦＳは、ＣＣＤ３１１Ａから受け取った許可データによ
ってその装置に関する装置ファイルを作成することになる。一実施形態では、前
述のように通常の装置オープン手順を使用して装置ファイルが作成されたあとで
装置がオープンされる。その後、同じノードによって同じ装置をオープンすると
、ＮＤＦＳがかかわる必要なしに通常のオープン動作が行われる。したがって、
性能上のハンディは装置を最初にオープンしたときにだけ発生する。その装置を
オープンするためのその後のコマンドは、他のどの装置のオープンとも同じよう
に実行される。

【００５４】次に図５に移行すると、本発明の一実施形態によるクラスタ・トランスポート
・インタフェースの初期設定を示すブロック図が示されている。図５はノード１
０４ＡにおけるＣＴＩ３１６Ａの初期設定を示している。そのクラスタ内の他の
クラスタ・トランスポート・インタフェースの初期設定は実質的に同じように実
行することができる。

【００５５】一実施形態では、データ通信リンク１０２によりデータを転送する前に、ＣＴ
ＩＤ３１６Ａは使用可能なリンクにより接続を確立する。初期設定中にＣＴＩＤ
３１６Ａは、現行クラスタ・メンバシップを識別するデータを求めてＣＭＭ３１
０Ａに照会し、どのリンクがどのノードに接続されるかを識別するデータを求め
てＣＣＤ３１１Ａに照会する。一実施形態のＣＣＤ３１１Ａは、リンクの転送プ
ロトコルなど、そのリンクに関する追加情報を記憶する。ＣＴＩＤ３１６Ａは、
使用可能なリンクにより接続を確立し、リンク情報およびメンバシップ・データ
をＣＴＩ３２２Ａに渡す。一実施形態のＣＴＩＤ３１６Ａは使用可能なリンクに
よりＴＣＰ／ＩＰ接続を確立する。

【００５６】ＣＴＩ３２２Ａはネットワーク・トランスポート３２８Ａにインタフェースし
、ＣＴＩ３２２の他のインスタンスへのデータを交換する。一実施形態のネット
ワーク・トランスポート３２８ＡはＣＣＭ３２４Ａにインタフェースし、それが
１つまたは複数の冗長リンクを管理する。ＣＴＩ３２２Ａは、特定のノード宛て
のデータ・アクセス要求を受け取ると、どの接続が要求側ノードを宛先ノードに
接続するかを決定する。ＣＴＩ３２２Ａは、どの接続（複数も可）上で宛先ノー
ドにデータを移送するかを決定する。たとえば、ＣＴＩ３２２Ａがノード１０４
Ｂへの３つのリンクによる接続を管理し、それがそのノード宛てのデータ・アク
セス要求を受け取る場合、ＣＴＩ３２２Ａは１つの接続を介してすべてのデータ
を転送する場合もあれば、３つの接続のそれぞれによりデータの一部分を転送す
る場合もある。

【００５７】クラスタが再構成されると、ＣＭＭ３１０Ａはその事象をＣＴＩＤ３１６Ａに
通知する。ＣＴＩＤ３１６ＡはＣＣＤ３１１Ａから新しいメンバシップ・データ
を入手し、その新しいメンバシップ・データと新しい構成番号をＣＴＩ３２２Ａ
に送る。そのうえ、ＣＴＩＤ３１６ＡはＣＣＤ３１１Ａからリンク・データを入
手することができ、そのデータをＣＴＩ３２２Ａに送る。ＣＴＩＤ３２２Ａは、
再構成が行われたときに接続を変更することができる。たとえば、ＣＴＩＤ３２
２Ａは、クラスタ内の新しいノードに対してリンクにより接続を確立する場合も
あれば、そのクラスタを離れるノードへの接続を放棄する場合もある。

【００５８】次に図６に移行すると、本発明の一実施形態による仮想ディスク・システムの
動作を示す流れ図が示されている。ステップ６１２では、ネットディスク・ドラ
イバを初期設定する。ネットディスク・ドライバの初期設定については図７に関
連して詳述する。ステップ６１４では、クラスタ・トランスポート・ネットワー
クを初期設定する。クラスタ・トランスポート・インタフェースの初期設定につ
いては図８に関連して詳述する。ステップ６１６では、ネットディスク・ドライ
バがクライアントからデータ・アクセス要求を受け取る。ステップ６１７では、
ネットディスク・ドライバは、データ・アクセス要求と、それが正常に完了して
いない場合にデータ・アクセス要求を再発行するために必要な他のデータを記憶
する。

【００５９】ステップ６１８では、データ・アクセス要求を受け取るネットディスク・ドラ
イバは、宛先装置が要求側ノードに物理的に接続されているかどうかを判定する
。宛先装置が要求側ノードに物理的に接続されている場合、ネットディスク・ド
ライバはステップ６２０で記憶装置上でデータ・アクセス要求を実行する。ある
いは、記憶装置が要求側ノードに物理的に接続されていない場合、ネットディス
ク・ドライバはステップ６２０でデータ・アクセス要求を送るべきノードを検出
する。一実施形態のネットディスク・ドライバは、各記憶装置ごとに一次および
二次ノードを識別するマッピング情報を記憶する。特定の一実施形態では、ネッ
トディスク・ドライバは、メンバシップ・データおよび／または前の不成功に終
わったデータ・アクセス要求に基づいて、一次または二次ノードを選択する。ス
テップ６２４では、ネットディスク・ドライバは、クラスタ・トランスポート・
インタフェースを介して選択した宛先ノードにデータ・アクセス要求を送る。

【００６０】ステップ６２６では、クラスタ・トランスポート・インタフェースは、ネット
ディスク・ドライバにより宛先ノードにデータを転送するために１つまたは複数
の接続を選択する。ステップ６２８では、クラスタ・トランスポート・インタフ
ェースは、選択した接続（複数も可）を介して宛先ノードにデータ・アクセス要
求を送る。ステップ６３０では、宛先ノード側のクラスタ・トランスポート・イ
ンタフェースは、データ・アクセス要求を受け取って宛先クライアントを決定す
るが、その宛先クライアントはこの例ではネットディスク・ドライバ、またはよ
り詳細にはネットディスク・マスタである。ステップ６３２では、ネットディス
ク・マスタがデータ・アクセス要求を受け取り、宛先記憶装置にアクセスする。
ステップ６３４では、宛先ノードのクラスタ・トランスポート・インタフェース
が肯定応答または否定応答信号を要求側ノードに返す。データ・アクセス要求が
読取り要求である場合、要求されたデータも要求側ノードに返されるであろう。

【００６１】データ・アクセス要求の転送と並行して、ステップ６３８では、要求側ノード
が宛先ノードからの状況信号を待つ。この状況信号は肯定応答または否定応答信
号の形を取ることができる。ステップ６４０では、肯定応答が受け取られたかど
うかを判定する。肯定応答信号が受け取られた場合、動作はステップ６１６に継
続する。あるいは、否定応答信号が受け取られた場合、ステップ６４２では、デ
ータ・アクセス要求を送るための代替ノードを選択し、動作はステップ６２４に
継続する。

【００６２】次に図７に移行すると、本発明の一実施形態によるネットディスク・ドライバ
の初期設定を示す流れ図が示されている。ステップ７１２では、ネットディスク
・デーモンは、オープンすべき装置を求めてネットディスク・ドライバに照会す
る。判断ステップ７１４では、オープンする必要がある装置があるかどうかを判
定する。どの装置もオープンする必要がない場合、実行はステップ７１２に継続
する。あるいは、ネットディスク・デーモンがオープンすべき装置を検出した場
合、ステップ７１６でネットディスク・デーモンがマッピング・データを求めて
クラスタ構成データベースに照会する。このマッピング・データは仮想装置にマ
ッピングされたノード／ディスク対を識別することができる。ステップ７１８で
は、ネットディスク・デーモンはメンバシップ・データを求めてクラスタ・メン
バシップ・モニタに照会する。

【００６３】ステップ７２０では、ネットディスク・デーモンはマッピングおよびメンバシ
ップ・データをネットディスク・ドライバに送る。ステップ７２２では、ネット
ディスク・ドライバは、その装置に関するマッピング情報を更新し、そのメンバ
シップ情報を更新し、再構成番号を記録する。ステップ７２４では、ネットディ
スク・ドライバは、要求された装置がオープンされていることをクライアントに
通知する。

【００６４】次に図８に移行すると、本発明の一実施形態によるクラスタ・トランスポート
・インタフェースの初期設定を示す流れ図が示されている。ステップ８１２では
、クラスタ・トランスポート・インタフェース・デーモンは構成変更の表示を受
け取る。あるいは、クラスタ・トランスポート・デーモンは、システム初期設定
の表示を受け取る場合もある。ステップ８１４では、クラスタ・トランスポート
・インタフェース・デーモンは、リンク情報を求めてクラスタ構成データベース
に照会する。一実施形態では、リンク情報は、あるクラスタ内のノード間のリン
クの数と、どのリンクがどのノードに結合されているかということ、そのリンク
が使用するプロトコルなどの情報とを含むことができる。ステップ８１６では、
クラスタ・トランスポート・インタフェース・デーモンはメンバシップ情報を求
めてクラスタ・メンバシップ・モニタに照会する。

【００６５】ステップ８１８では、クラスタ・トランスポート・インタフェースがリンクに
より接続を確立する。ステップ８２０では、クラスタ・トランスポート・インタ
フェース・デーモンがクラスタ・トランスポート・インタフェースにリンクおよ
びメンバシップ情報を送る。その場合、クラスタ・トランスポート・インタフェ
ースはデータ・アクセス要求またはその他のメッセージを受け入れる準備が整っ
ている。

【００６６】次に図９に移行すると、本発明の一実施形態によるクラスタ・トランスポート
・インタフェースのブロック図が示されている。クラスタ・トランスポート・イ
ンタフェースはデータ・トランスポート・システムの一例である。図９は、クラ
スタ・トランスポート・インタフェースの３つのインスタンス（３２２Ａ〜３２
２Ｃ）と、３つのＴＣＰ／ＩＰインタフェース（９１２Ａ〜９１２Ｃ）と、８つ
のクラスタ接続モニタ（９１４Ａ〜９１４Ｈ）とを含む。ＣＴＩ３２２は、ノー
ド間でメッセージを受け渡すための機能を備えた分散ソフトウェア・プログラム
である。そのメッセージとしては、制御メッセージとデータ・ブロックを含むこ
とができる。

【００６７】クラスタ・トランスポート・インタフェース３２２のインスタンスは、クライ
アント・プログラム間でデータを受け渡す。たとえば、ＣＴＩ３２２Ａは、ＣＴ
Ｉ３２２Ａにとってクライアントであるネットディスク・ドライバからメッセー
ジを受け取ることができる。一実施形態のメッセージは、その宛先ノードと、そ
のノードのディスク装置を指定するものである。ＣＴＩ３２２Ａは、どのリンク
が宛先ノードに接続されるかを決定し、そのリンクのうちの１つによりメッセー
ジを送る。宛先ノード側のクラスタ・トランスポート・インタフェースは、デー
タ・アクセス要求を受け取り、宛先クライアントを決定し、宛先クライアントに
データを送る。たとえば、ＣＴＩ３２２Ａは、ノード１０４Ａ内のネットディス
ク・ドライバからノード１０４Ｂ内のネットディスク・ドライバにデータ・アク
セス要求を経路指定することができる。ＣＴＩ３２２Ｂは、データ・アクセス要
求を受け取り、宛先クライアントを決定し、ノード１０４Ｂ内のネットディスク
・ドライバにデータ・アクセス要求を送る。クライアントの見地からすると、Ｃ
ＴＩ３２２Ａは宛先ノードへの仮想リンクの１つとして現れる。

【００６８】図示の実施形態では、ＣＴＩ３２２は、他のノードにデータを転送するために
ＴＣＰ／ＩＰを使用する。ＣＴＩＤ３１６Ａは、初期設定中に各リンクによりＴ
ＣＰ／ＩＰ接続を自動的に確立する。ＣＴＩ３２２は、ＣＣＭ９１４の適切なイ
ンスタンスにメッセージを転送するＴＣＰ／ＩＰ９１２Ａにメッセージを送る。
しかし、ＣＴＩ３２２Ａは、特定のデータ転送プロトコルに依存していない。Ｔ
ＣＰ／ＩＰ９１２および／またはＣＣＭ９１４を変更することにより、ＣＴＩ３
２２はどのようなデータ・トランスポート・インタフェースまたは転送プロトコ
ルにもインタフェースすることができる。

【００６９】一実施形態のＣＴＩ３２２Ａは、他のノードから受け取ったメッセージおよび
データを記憶するためのメモリを割り振り、クライアントがもはやそのデータを
必要としなくなったときにそのメモリの割振りを解除する。一実施形態のＣＴＩ
３２２は、コールバック機能を使用して、そのデータを受け取ったことをクライ
アントに示す。たとえば、ＣＴＩ３２２Ａはノード１０４Ｂに読取り要求を送る
ことができる。ＣＴＩ３２２Ａは、要求されたデータを受け取ると、要求側クラ
イアントへのコールバック機能を使用して、そのデータが使用可能であることを
示す。

【００７０】クラスタ接続モニタ（ＣＣＭ）９１４は、２つまたはそれ以上の物理リンクを
１つの論理リンクとして管理する。図示の実施形態では、ＣＣＭ９１４の一対の
インスタンスが２つのリンクを管理する。代替実施形態では、ＣＣＭ９１４の一
対のインスタンスがそれ以上のリンクを管理することができる。複数対の物理リ
ンクはそのクラスタ内のあるノードを他のノードに接続する。たとえば、リンク
９１６Ａはノード１０４Ａをノード１０４Ｂに結合し、リンク９１６Ｂはノード
１０４Ａをノード１０４Ｃに結合する。一実施形態では、ＣＭＭ９１４によって
リンクが冗長リンクとして扱われる。データは一方のリンクの障害が検出される
までそのリンク上で転送され、その後、データはもう一方のリンク上で転送され
る。

【００７１】ＣＣＭ９１４は、どのリンクが動作可能であるかを決定し、両方の物理リンク
により、ときにはハートビート・メッセージと呼ばれるメッセージを交換するこ
とで障害を検出する。たとえば、ＣＣＭ９１４ＡとＣＣＭ９１４Ｅは、ハートビ
ート・メッセージを交換して、物理リンク９１６Ａが動作可能であるかどうかを
判定する。ＣＣＭ９１４の２つのインスタンスは物理リンクのうちの一方を一次
リンクとして選択する。一次リンクが故障した場合、ＣＣＭ９１６はその障害を
検出し、もう一方の物理リンク上でデータの転送を開始する。特定の一実施形態
では、ＣＣＭ９１６は、物理リンクを越えて不信頼データ・プロトコル（ＵＤＰ
）メッセージを交換して、そのリンクが動作可能であるかどうかを判定する。

【００７２】ＣＴＩ３２２の見地からすると、ＣＣＭ９１４によって管理される各対の物理
リンクは１つの論理リンクとして現れる。したがって、ＣＴＩ３２２Ａによって
転送されるデータは、ＣＴＩ３２２Ａにとってトランスペアレントな２つの物理
リンクのうちの一方で転送することができる。

【００７３】図示の実施形態では、３つの論理リンク（９１６Ｂ〜９１６Ｄ）がノード１０
４Ａをノード１０４Ｃに接続する。ＣＴＩ３２２Ａは、３つのリンクのうちのど
のリンク上でデータを転送するかを決定する。一実施形態のＣＴＩ３２２Ａは１
つの論理リンク上ですべてのデータを転送することができる。代替実施形態のＣ
ＴＩ３２２Ａは各論理リンク上でデータの一部分を転送することができる。上記
のように、どの論理リンク上またはいくつの論理リンク上でデータを転送するか
はクライアントにとってトランスペアレントなものである。

【００７４】次に図１０に移行すると、本発明の一実施形態による装置許可を示す図が示さ
れている。許可データはディレクトリのリストに関連して示されている。同様の
リストは、生の仮想ディスク装置をリストするディレクトリで「ｌｓ−ｌ」コマ
ンドを実行することによって入手することができる。装置許可は装置そのものに
関するものであって、その装置上のファイルまたはディレクトリに関するもので
はないことに留意されたい。生の装置（すなわち、その上にファイルシステムま
たはファイルが一切置かれていない装置）は許可目的のためのファイルとして扱
われる。

【００７５】フィールド１０１２は１０個の文字を含む。第１の文字は、ディレクトリを識
別する「ｄ」または装置を識別する「−」のいずれかである。次の９つの文字は
、３文字ずつ３つのグループである。各グループは、所有者、グループ、その他
のための許可モードをそれぞれ表している。許可モードとしては、読取り（ｒ）
、書込み（ｗ）、実行（ｘ）を含む。各グループ内の１つの文字は各許可モード
を表す。許可モードを表す英字が存在する場合、関連ユーザはその許可を得てい
る。あるいは、「−」が存在する場合、関連ユーザはその許可を得ていない。た
とえば、あるユーザが「ｒｗｘ」という許可を得ている場合、そのユーザは、読
取り、書込み、実行の各許可を得ていることになる。あるいは、ユーザが「ｒ−
−」という許可を得ている場合、そのユーザは読取り許可を得ているが、書込み
または実行の各許可を得ていないことになる。第１のグループの３つの文字はそ
の装置の所有者ための許可を表している。第２のグループの３つの文字はその装
置に関連するグループのための許可を表している。最後のグループの３つの文字
は他のユーザのための許可を表している。所有者とグループについては以下に詳
述する。たとえば、フィールド１０１２内の許可が「ｄｒｗｘ−−ｘ−ｘ−」で
ある場合、そのフィールドはディレクトリを表し、所有者が読取り、書込み、実
行の各許可を得ており、グループとその他が実行許可のみを得ていることになる
。

【００７６】フィールド１０１６はその項目の所有者を識別する。所有者はその装置を作成
したユーザである。フィールド１０１８は関連ユーザのグループを識別する。グ
ループはオペレーティング・システム内で定義される。フィールド１０１８は定
義済みグループの１つを装置に関連付けるものである。他のユーザは所有者では
なく、選択したグループ内にも含まれない。前述のように、所有者、グループ、
その他のユーザのために、それぞれ異なる許可を定義することができる。

【００７７】フィールド１０２２はその装置の最後の変更の日付と時刻を識別する。最後の
変更が現行暦年の範囲内である場合、月、日、時刻が指定される。あるいは、最
後の変更が現行暦年の範囲内ではない場合、月、日、年が指定される。フィール
ド１０２４は装置の名前を識別する。

【００７８】クラスタのノード間で一貫した許可データを保証するため、許可データは高可
用性データベースに記憶することができる。一実施形態では、あるクラスタ内の
複数のノードがある装置の表現を有する。障害が存在する状態でもノード間で一
貫した許可データを維持するため、許可データはクラスタ構成データベース（Ｃ
ＣＤ）に記憶される。

【００７９】一実施形態では、あるノードが最初に仮想装置をオープンすると、その装置の
ための許可データがＣＣＤから読み取られ、その許可データによって装置ファイ
ルが作成される。一実施形態の装置ファイルは、仮想装置があるノードによって
最初にオープンされたときにのみ作成される。一実施形態では、各ノード上で動
作するファイルシステムは、その装置の許可データを求めてＣＣＤに照会するデ
ーモンを含む。このデーモンは許可データをファイルシステムに返し、そのファ
イルシステムがその許可によって特殊装置ファイルを作成する。ＣＣＤはそのク
ラスタのどのノードでも照会することができ、障害が存在する状態でも一貫した
情報を返すので、すべてのノードが一貫した許可データを有することになる。

【００８０】次に図１１に移行すると、本発明の一実施形態による一貫した許可データの記
憶およびアクセスを示す流れ図が示されている。ステップ１１１２では、許可デ
ータを高可用性データベースに記憶する。一実施形態の許可データは、装置許可
と、装置の所有者と、装置に関連するグループとを含む。ステップ１１１４では
、第１のノードは第１のノードの装置をオープンし、高可用性データベースから
の許可データにアクセスする。ステップ１１１５では、そのノードは、許可デー
タを含む、その装置に関する特殊装置ファイルをオープンする。ステップ１１１
６では、第２のノードは、第２のノード上にあって同じ物理装置に対応する装置
をオープンし、許可データにアクセスする。ステップ１１１７では、そのノード
は、第２のノードの許可データを含む、その装置に関する特殊装置ファイルをオ
ープンする。高可用性データベースは一貫したデータを返すので、ノードは一貫
した許可データを受け取る。

【００８１】次に図１２に移行すると、本発明の一実施形態による構成マッピングの更新を
示す流れ図が示されている。ステップ１２１２では、更新が保留中であるという
表示をノードに提供する。ステップ１２１４では、ノードは記憶装置へのデータ
・アクセス要求を中断する。ステップ１２１６では、ノードは未処理のデータ・
アクセス要求が完了するのを待つ。ステップ１２１８では、ノードは記憶装置に
対する仮想ディスクのマッピングの内部表現を無効にする。ステップ１２２０で
は、ノードは、内部マッピング表現が無効になり、データ・アクセス要求が中断
され、未処理のデータ・アクセス要求が完了したことを示す肯定応答信号を出力
する。ステップ１２２２では、システムはすべてのアクティブ・ノードからの肯
定応答信号を待つ。ステップ１２２４では、システムはそのマッピングを更新す
る。ステップ１２２６では、システムは、その更新が完了したという表示を出力
する。ステップ１２２８では、ノードはマッピングの更新済みバージョンを要求
する。ステップ１２３０では、ノードは、記憶装置へのデータ・アクセス要求の
送信を再開する。

【００８２】一実施形態での更新手順は、クラスタ構成データベース（ＣＣＤ）によって調
整される。エラーを防止するため、マッピングはすべてのノード間で一貫して更
新しなければならない。ＣＣＤは、保留中の更新をノードに通知し、その更新が
完了したことを同期コマンドによりノードに通知する。一実施形態の同期コマン
ドは、ＣＣＤ内の行が変更されるたびに必ず実行される。ＣＣＤ内の行の変更中
に実行すべきコマンドは、ＣＣＤに記憶されたデータに関連するフォーマット行
で指定することができる。同期コマンドは、そのクラスタのすべてのノード上で
並行して実行することができる。一実施形態のネットディスク同期コマンドは、
ネットディスク・マッピングが変更されたときに実行される。ネットディスク同
期コマンドの異なる呼出しは、変更のタイプに応じて実行することができる。Ｃ
ＣＤは、マッピングを変更する前に第１の同期コマンドを出力する。第２の同期
コマンドは、データベースを更新したあとで実行することができる。

【００８３】一実施形態では、すべてのノードから肯定応答信号を受け取ったわけではない
場合、クラスタはその更新を中断し、取消し信号を出力することになる。一実施
形態では、取消し信号によりノードが内部マッピング表現を再確認し、動作を続
行する。

【００８４】上記のように、クラスタの構成は、データを失わずにクラスタが動作している
間に変更することができる。システム内のデータ・アクセス要求は遅延する可能
性があるが、エラーなしで続行される。上記の再構成手順では、データを失わず
に接続を再構成することもできる。たとえば、記憶装置はあるノードから切断し
て、他のノードに再接続することができる。物理的な再構成はステップ１２２２
と１２２４の間で行うことができる。さらに、この再構成は、遅延を除き、クラ
イアントにとってトランスペアレントなものである。上記の再構成の他の応用例
としては、動作中にボリューム・マネージャのマッピング（または管理）を変更
することがある。

【００８５】上記の開示内容を完全に理解すると、当業者には多数の変形形態および修正形
態が明らかになるだろう。特許請求の範囲はこのような変形形態および修正形態
をすべて包含するものと解釈することを意図するものである。

【図面の簡単な説明】

【図１】本発明の一実施形態によるクラスタ構成のブロック図である。

【図２】本発明の一実施形態による代替クラスタ構成のブロック図である。

【図３】本発明の一実施形態によるクラスタの２つのノード上で動作する仮想ディスク
・システムのブロック図である。

【図４】本発明の一実施形態によるネットディスク・ドライバの初期設定を示すブロッ
ク図である。

【図５】本発明の一実施形態によるクラスタ・トランスポート・インタフェースの初期
設定を示すブロック図である。

【図６ａ】本発明の一実施形態による仮想ディスク・システムの動作を示す流れ図である
。

【図６ｂ】本発明の一実施形態による仮想ディスク・システムの動作を示す流れ図である
。

【図７】本発明の一実施形態によるネットディスク・ドライバの開始を示す流れ図であ
る。

【図８】本発明の一実施形態によるクラスタ・トランスポート・インタフェースの開始
を示す流れ図である。

【図９】本発明の一実施形態によるクラスタ・トランスポート・インタフェースのブロ
ック図である。

【図１０】本発明の一実施形態による許可データを示す図である。

【図１１】本発明の一実施形態による一貫した許可データの記憶およびアクセスを示す流
れ図である。

【図１２】本発明の一実施形態による構成マッピングの更新を示す流れ図である。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１２年６月２６日（２０００．６．２６）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 13/10 ３４０Ｇ０６Ｆ 13/10 ３４０Ｂ (31)優先権主張番号０９／０７６，３４６ (32)優先日平成10年５月12日(1998．5．12) (33)優先権主張国米国（ＵＳ） (31)優先権主張番号０９／０７６，２７４ (32)優先日平成10年５月12日(1998．5．12) (33)優先権主張国米国（ＵＳ） (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (71)出願人 901 ＳＡＮＡＮＴＯＮＩＯＲＯＡＤＰＡＬＯＡＬＴＯ，ＣＡ 94303，Ｕ．Ｓ．Ａ． (72)発明者トラバーサット，ベルナルド・エイアメリカ合衆国・94109・カリフォルニア州・サンフランシスコ・カリフォルニアストリート・2055・アパートメント 402 (72)発明者ハーンドン，ロバートアメリカ合衆国・80906・コロラド州・コロラドスプリングス・サウスネバダアベニュ 137番・1837 (72)発明者ジェン，シャオヤンアメリカ合衆国・94555・カリフォルニア州・フレモント・ゴルービンコモン・ 5454 (72)発明者ブロック，ロバート・ジェイアメリカ合衆国・94043・カリフォルニア州・マウンテンビュー・ノースレングストーフ 29番・265 Ｆターム(参考） 5B014 EA04 HC02 HC15 5B027 AA00 BB06 BB07 5B034 BB11 CC05 5B082 DA01 DE01 DE02 DE04 FA07 HA05 JA01 5B083 AA09 BB03 CD06 CE01 DD13 EE11 GG04 【要約の続き】実行され、マッピングが変更される。次にそのノードはマッピングの内部表現を更新し、データ・アクセス要求の発行を再開する。

Claims

【特許請求の範囲】

【請求項１】第１のノードと、第２のノードと、前記第１のノードと前記
第２のノードとの間に結合された通信リンクと、前記第１のノードに結合された記憶装置であって、前記記憶装置が前記第２の
ノードに結合されているように見えるように構成された仮想ディスク・システム
を使用して前記記憶装置にアクセスするように前記第２のノードが構成される記
憶装置とを含み、前記仮想ディスク・システムが前記第２のノード上で動作するドライバと前記
第１のノード上で動作するマスタとを含み、前記第２のノードが前記仮想ディス
ク・システムの仮想ディスクにアクセスすると、前記ドライバは前記マスタにデ
ータ要求を送るように構成され、前記マスタは前記記憶装置からのデータにアク
セスするように構成され、前記マスタは前記通信リンクを介して前記ドライバに
応答を送るように構成され、前記ドライバは前記ドライバが前記応答を受け取るまで前記データ要求のコピ
ーを記憶するように構成され、前記ドライバは前記ドライバが前記応答を受け取
り損なった場合に前記要求を再送するように構成される、分散コンピューティン
グ・システム。
【請求項２】前記データ通信インタフェースおよび前記記憶装置に結合さ
れた第３のノードをさらに含み、前記ドライバは前記ドライバが前記応答を受け
取り損なった場合に前記第３のノード上の第２のマスタに前記データ要求を再送
するように構成され、前記第２のマスタは前記記憶装置に関するデータにアクセ
スするように構成される、請求項１に記載の分散コンピューティング・システム
。
【請求項３】前記ドライバが前記第１のノードまたは通信リンクの障害の
ために前記データを受け取り損なった場合、前記ドライバは前記分散コンピュー
ティング・システムが再構成したあとで前記データ要求を再送するように構成さ
れる、請求項１に記載の分散コンピューティング・システム。
【請求項４】前記再送データ要求が、前記記憶装置に結合された第３のノ
ードに送られる、請求項３に記載の分散コンピューティング・システム。
【請求項５】前記仮想ディスク・システムが前記記憶装置と通信するため
に一次ノードと代替ノードとを維持し、前記第２のノードは前記第２のノードが
応答を受け取り損なった場合に前記一次ノードに前記データ要求を送り、前記代
替ノードに前記データ要求を再送するように構成される、請求項４に記載の分散
コンピューティング・システム。
【請求項６】前記第１のノードが前記一次ノードであり、前記第３のノー
ドが前記代替ノードである、請求項５に記載の分散コンピューティング・システ
ム。
【請求項７】第１のノードと、第２のノードと、前記第１のノードと前記
第２のノードとの間に結合された通信リンクと、前記第１のノードに結合された記憶装置であって、前記記憶装置が前記第２の
ノードに結合されているように見えるように構成された仮想ディスク・システム
を使用して前記記憶装置にアクセスするように前記第２のノードが構成される記
憶装置とを含み、前記仮想ディスク・システムは前記記憶装置に対する仮想ディスクのマッピン
グを含むように構成され、前記第１のノードと前記第２のノードは一貫したマッ
ピング・データを受け取るように構成される、分散コンピューティング・システ
ム。
【請求項８】前記マッピングが、前記記憶装置に結合されたノードと、前
記記憶装置に対応する前記ノード上のディスク装置とを識別し、前記マッピング
が前記第１のノードおよび前記第２のノードによってアクセスされる高可用性デ
ータベースに記憶される、請求項７に記載の分散コンピューティング・システム
。
【請求項９】前記高可用性データベースがクラスタ構成データベースであ
る、請求項８に記載の分散コンピューティング・システム。
【請求項１０】前記マッピングが、前記記憶装置に結合された一次ノード
と前記記憶装置に結合された代替ノードとを示すデータを含む、請求項７に記載
の分散コンピューティング・システム。
【請求項１１】データ・アクセス要求は前記マッピングが更新されたとき
に中断されるように構成される、請求項７に記載の分散コンピューティング・シ
ステム。
【請求項１２】前記マッピングは、ノードがクラスタに加わるかまたはク
ラスタを離れるときに更新されるように構成される、請求項１１に記載の分散コ
ンピューティング・システム。
【請求項１３】データ・アクセス要求が再開されたときにノードが新しい
マッピングを求めてデータベースに照会する、請求項１２に記載の分散コンピュ
ーティング・システム。
【請求項１４】動作中に分散コンピューティング・システムの構成を更新
することができる、請求項１３に記載の分散コンピューティング・システム。
【請求項１５】第１のノードと、第２のノードと、前記第１のノードと前
記第２のノードとの間に結合された通信リンクと、前記第１のノードに結合された記憶装置であって、前記記憶装置が前記第２の
ノードに結合されているように見えるように構成された仮想ディスク・システム
を使用して前記記憶装置にアクセスするように前記第２のノードが構成される記
憶装置とを含み、前記記憶装置の許可データが前記第１のノードと前記第２のノードとの間で一
貫している、分散コンピューティング・システム。
【請求項１６】前記許可データは、前記第１のノードおよび前記第２のノ
ードによってアクセスされる高可用性データベースに記憶されるように構成され
る、請求項１５に記載の分散コンピューティング・システム。
【請求項１７】前記高可用性データベースがクラスタ構成データベースで
ある、請求項１６に記載の分散コンピューティング・システム。
【請求項１８】第１のノードと、第２のノードと、前記第１のノードと前
記第２のノードとの間に結合された通信リンクと、前記第１のノードに結合された第１の記憶装置であって、前記第１の記憶装置
が前記第２のノードに結合されているように見えるように構成された仮想ディス
ク・システムを使用して前記第１の記憶装置にアクセスするように前記第２のノ
ードが構成される第１の記憶装置と、前記第２のノードに結合された第２の記憶装置であって、前記第２の記憶装置
が前記第１のノードに結合されているように見えるように構成された仮想ディス
ク・システムを使用して前記第２の記憶装置にアクセスするように前記第１のノ
ードが構成される第２の記憶装置と、前記仮想ディスク・システムの上または前記仮想ディスク・システムの下に層
状に重ねたボリューム・マネージャとを含む、分散コンピューティング・システ
ム。
【請求項１９】前記ボリューム・マネージャが前記仮想ディスク・システ
ムの下に層状に重ねられ、前記仮想ディスク・システムはボリュームにアクセス
するように構成され、前記ボリュームは前記第１の記憶装置または前記第２の記
憶装置にアクセスするように構成される、請求項１８に記載の分散コンピューテ
ィング・システム。
【請求項２０】前記ボリュームが前記仮想ディスク・システムにとって記
憶システムとして現れる、請求項１９に記載の分散コンピューティング・システ
ム。
【請求項２１】前記ボリュームが高可用性記憶装置である、請求項２０に
記載の分散コンピューティング・システム。
【請求項２２】前記ボリューム・マネージャが前記仮想ディスク・システ
ムの上に層状に重ねられ、クライアントが前記仮想ディスク・システムの仮想デ
ィスクにアクセスするように構成されたボリュームにアクセスすることができる
、請求項１８に記載の分散コンピューティング・システム。
【請求項２３】前記ボリュームは２つまたはそれ以上の仮想ディスクにア
クセスするように構成される、請求項２２に記載の分散コンピューティング・シ
ステム。
【請求項２４】第１のノードと、第２のノードと、前記第１のノードと前
記第２のノードとの間に結合された通信リンクと、前記第１のノードに結合された記憶装置であって、前記記憶装置が前記第２の
ノードに結合されているように見えるように構成された仮想ディスク・システム
を使用して前記記憶装置にアクセスするように前記第２のノードが構成される記
憶装置とを含み、前記仮想ディスク・システムが前記第２のノード上で動作するドライバと前記
第１のノード上で動作するマスタとを含み、前記第２のノードが前記記憶装置に
対応する仮想ディスクにアクセスすると、前記ドライバは前記マスタにデータ要
求を送るように構成され、前記マスタは前記記憶装置からのデータにアクセスす
るように構成され、前記マスタは前記通信インタフェースを介して前記ドライバ
に前記データを送るように構成され、前記ドライバは前記ドライバが前記データを受け取るまで前記データ要求のコ
ピーを記憶するように構成され、前記ドライバは前記ドライバが前記データを受
け取り損なった場合に前記データ要求を再送するように構成され、前記仮想ディ
スク・システムは前記記憶装置に対する仮想ディスクのマッピングを含むように
構成され、前記第１のノードと前記第２のノードはノード障害が発生した場合に
一貫したマッピング・データを受け取るように構成され、前記記憶装置の許可デ
ータが前記第１のノードと前記第２のノードとの間で一貫している、分散コンピ
ューティング・システム。
【請求項２５】前記データ通信インタフェースおよび前記記憶装置に結合
された第３のノードをさらに含み、前記ドライバは前記ドライバが前記データを
受け取り損なった場合に前記第３のノードに前記データ要求を再送するように構
成される、請求項２４に記載の分散コンピューティング・システム。
【請求項２６】前記マッピングが、前記記憶装置に結合された一次ノード
と前記記憶装置に結合された二次ノードとを示すデータを含む、請求項２５に記
載の分散コンピューティング・システム。
【請求項２７】前記マッピングおよび前記許可データは、前記第１のノー
ドおよび前記第２のノードによってアクセス可能な高可用性データベースに記憶
されるように構成される、請求項２６に記載の分散コンピューティング・システ
ム。
【請求項２８】第１のノードと、第２のノードと、前記第１のノードおよ
び前記第２のノードに結合された通信リンクとを含み、前記第１のノードおよび
前記第２のノードが前記記憶装置にアクセスし、前記記憶装置が前記記憶装置に関連する許可データを有し、前記許可データが
前記第１のノードおよび前記第２のノードによってアクセス可能な高可用性分散
データベースに記憶され、特定のノードが前記記憶装置をオープンすると、前記
特定のノードが前記記憶装置に関する前記許可データによって装置ファイルを作
成し、それにより、ノード障害が存在する状態で前記第１のノードと前記第２の
ノードが一貫した許可データを入手する、分散コンピューティング・システム。
【請求項２９】前記許可データが、所有者と、グループと、前記所有者お
よび前記グループのための許可モードとを含む、請求項２８に記載の分散コンピ
ューティング・システム。
【請求項３０】前記許可モードが、読取りと、書込みと、実行とを含む、
請求項２９に記載の分散コンピューティング・システム。
【請求項３１】前記高可用性データベースがクラスタ構成データベースで
ある、請求項２８に記載の分散コンピューティング・システム。
【請求項３２】前記記憶装置がディスク装置である、請求項２８に記載の
分散コンピューティング・システム。
【請求項３３】前記第１のノードが前記記憶装置に直接アクセスし、前記
第２のノードが前記通信リンクを介して前記記憶装置にアクセスする、請求項２
８に記載の分散コンピューティング・システム。
【請求項３４】前記記憶装置が特定のノードによって最初にオープンされ
たときに前記装置ファイルが作成される、請求項２８に記載の分散コンピューテ
ィング・システム。
【請求項３５】記憶装置を含む分散コンピューティング・システム内の複
数のノード間で一貫した許可データを維持する方法であって、高可用性分散データベースに前記許可データを記憶するステップと、前記複数のノードのうちの第１のノードが装置をオープンし、前記高可用性デ
ータベースにアクセスして前記装置に関する許可データを入手するステップと、前記複数のノードのうちの第２のノードが前記装置をオープンし、前記高可用
性データベースにアクセスして前記装置に関する前記許可データを入手するステ
ップとを含み、それにより、障害が存在する状態で前記第１のノードと前記第２のノードが一
貫した許可データを入手する方法。
【請求項３６】前記装置をオープンする前記ノードが前記記憶装置に関す
る装置ファイルを作成し、前記装置ファイルが前記許可データを含む、請求項３
５に記載の方法。
【請求項３７】前記許可データが、所有者と、グループと、前記所有者お
よび前記グループのための許可モードとを含む、請求項３６に記載の方法。
【請求項３８】前記許可モードが、読取りと、書込みと、実行とを含む、
請求項３７に記載の方法。
【請求項３９】前記高可用性データベースがクラスタ構成データベースで
ある、請求項３５に記載の方法。
【請求項４０】前記記憶装置がディスク装置である、請求項３５に記載の
方法。
【請求項４１】前記第１のノードが前記記憶装置に直接アクセスし、前記
第２のノードが前記データ通信リンクを介して前記記憶装置にアクセスする、請
求項３５に記載の方法。
【請求項４２】前記記憶装置が特定のノードによって最初にオープンされ
たときに前記装置ファイルが作成される、請求項３６に記載の方法。
【請求項４３】分散コンピューティング・システム内の複数のノード間で
一貫した許可データを維持するためのプログラム命令を含むコンピュータ可読記
憶媒体であって、前記プログラム命令が前記分散コンピューティング・システム
の前記複数のノード上で実行され、前記プログラム命令が、高可用性コヒーレント・データベースに前記許可データを記憶するステップと
、前記複数のノードのうちの第１のノードが装置をオープンし、前記高可用性デ
ータベースにアクセスして前記装置に関する許可データを入手するステップと、前記複数のノードのうちの第２のノードが前記装置をオープンし、前記高可用
性データベースにアクセスして前記装置に関する前記許可データを入手するステ
ップとを実施するように動作可能であり、それにより、障害が存在する状態で前記第１のノードと前記第２のノードが一
貫した許可データを入手する、コンピュータ可読記憶媒体。
【請求項４４】前記ファイルが前記記憶装置に関するものであり、前記装
置ファイルが前記許可データを含む、請求項４３に記載の媒体。
【請求項４５】前記許可データが、所有者と、グループと、前記所有者お
よび前記グループのための許可モードとを含む、請求項４４に記載の媒体。
【請求項４６】前記許可モードが、読取りと、書込みと、実行とを含む、
請求項４５に記載の媒体。
【請求項４７】前記高可用性データベースがクラスタ構成データベースで
ある、請求項４３に記載の媒体。
【請求項４８】前記記憶装置が特定のノードによって最初にオープンされ
たときに前記装置ファイルが作成される、請求項４４に記載の媒体。
【請求項４９】１つの通信リンクに結合された１つまたは複数のノードで
あって、１つまたは複数の装置を含む１つまたは複数のノードと、前記１つまた
は複数のノードに結合された１つまたは複数の記憶装置と、前記１つまたは複数のノードによってアクセス可能な高可用性データベースで
あって、障害が存在する状態で前記１つまたは複数のノードにコヒーレント・デ
ータを提供する高可用性データベースとを含み、前記１つまたは複数の記憶装置に対する前記１つまたは複数の装置のマッピン
グが前記高可用性データベースに記憶され、前記マッピングが更新されると、前記高可用性データベースが前記マッピング
を更新する前に前記１つまたは複数のノードが前記１つまたは複数の記憶装置へ
のデータ要求の発行を停止し、前記マッピングが更新されたときに前記１つまた
は複数のノードがデータ要求の発行を再開する、分散コンピューティング・シス
テム。
【請求項５０】前記ノードがデータ要求の発行を停止したときに前記ノー
ドが前記高可用性データベースに肯定応答信号を送る、請求項４９に記載の分散
コンピューティング・システム。
【請求項５１】前記１つまたは複数のノードが、前記肯定応答信号を送る
前に未処理のデータ要求が完了するのを待つ、請求項５０に記載の分散コンピュ
ーティング・システム。
【請求項５２】前記高可用性データベースが、前記肯定応答信号を受け取
ったあとで前記マッピングを更新する、請求項５１に記載の分散コンピューティ
ング・システム。
【請求項５３】前記高可用性データベースが第１の同期信号を出力して、
前記マッピングの保留中の更新を示す、請求項５２に記載の分散コンピューティ
ング・システム。
【請求項５４】前記高可用性データベースが第２の同期信号を出力して、
前記マッピングが更新されることを示す、請求項５３に記載の分散コンピューテ
ィング・システム。
【請求項５５】前記第１の同期コマンドと前記第２の同期コマンドが前記
１つまたは複数のノードに同時に発行される、請求項５４に記載の分散コンピュ
ーティング・システム。
【請求項５６】前記高可用性データベースが、前記マッピングを更新する
前に各アクティブ・ノードからの肯定応答信号を待つ、請求項５５に記載の分散
コンピューティング・システム。
【請求項５７】前記コンピュータ・システムが、データを失うかまたは破
損することなしに前記１つまたは複数のノードと前記１つまたは複数の記憶装置
との間の前記接続を再構成する、請求項５６に記載の分散コンピューティング・
システム。
【請求項５８】記憶装置に対するノードのマッピングを更新する方法であ
って、前記マッピングを高可用性データベースに記憶するステップであって、前記デ
ータベースが前記ノードによってアクセス可能であり、障害が存在する状態で前
記ノードにコヒーレント・データを提供するステップと、前記データベースが更新済みマッピングが保留中であるという表示を前記ノー
ドに出力するステップと、前記ノードが前記記憶装置へのデータ要求を中断するステップと、前記ノードが未処理のデータ要求が完了するのを待つステップと、前記ノードが前記マッピングの内部表現を無効にするステップと、前記ノードが前記データベースに肯定応答信号を出力するステップと、前記データベースがアクティブ・ノードからの前記肯定応答信号を待つステッ
プと、前記データベースが前記マッピングを更新するステップと、前記データベースが前記更新が完了したという表示を前記ノードに出力するス
テップと、前記ノードが前記データベースから前記マッピングの更新済みバージョンを要
求するステップと、前記ノードが前記記憶装置への前記データ要求の送信を再開するステップとを
含む方法。
【請求項５９】前記データベースがアクティブ・ノードから肯定応答信号
を受け取らない場合、前記データベースが前記ノードに取消し表示を出力して、
前記マッピングの前記内部表現を再活動化する、請求項５８に記載の方法。
【請求項６０】前記ノードへの前記表示が前記データベースからの同期信
号である、請求項５８に記載の方法。
【請求項６１】前記同期信号が前記１つまたは複数のノードに同時に発行
される、請求項６０に記載の方法。
【請求項６２】データを失うかまたは破損することなしに前記マッピング
が更新される、請求項６１に記載の方法。
【請求項６３】記憶装置に対するノードのマッピングを更新する方法であ
って、前記マッピングを高可用性データベースに記憶するステップであって、前記デ
ータベースが前記ノードによってアクセス可能であり、障害が存在する状態で前
記ノードにコヒーレント・データを提供するステップと、前記データベースが更新済みマッピングが保留中であるという表示を前記ノー
ドに出力するステップと、前記ノードが前記記憶装置へのデータ要求を中断するステップと前記データベースが前記マッピングを更新するステップと、前記データベースが前記更新が完了したという表示を前記ノードに出力するス
テップと、前記ノードが前記記憶装置への前記データ要求の送信を再開するステップとを
含む方法。
【請求項６４】前記データベースが前記マッピングを更新する前に、前記ノードが前記データベースに肯定応答信号を出力するステップと、前記データベースが前記アクティブ・ノードからの前記肯定応答信号を待つス
テップとをさらに含む、請求項６３に記載の方法。
【請求項６５】前記ノードが前記データベースに肯定応答信号を出力する
前に、前記ノードが未処理のデータ要求が完了するのを待つステップと、前記ノードが前記マッピングの内部表現を無効にするステップとをさらに含む
、請求項６４に記載の方法。
【請求項６６】前記ノードが前記記憶装置への前記データ要求の送信を再
開する前に、前記ノードが前記データベースから前記マッピングの更新済みバー
ジョンを要求するステップをさらに含む、請求項６５に記載の方法。
【請求項６７】前記データベースがアクティブ・ノードから肯定応答信号
を受け取らない場合、前記データベースが前記ノードに取消し表示を出力して、
前記マッピングの前記内部表現を再活動化する、請求項６３に記載の方法。
【請求項６８】前記ノードへの前記表示が前記データベースからの同期コ
マンドである、請求項６７に記載の方法。
【請求項６９】前記同期信号が前記１つまたは複数のノードに同時に発行
される、請求項６８に記載の方法。
【請求項７０】データを失うかまたは破損することなしに前記マッピング
が更新される、請求項６９に記載の方法。
【請求項７１】記憶装置に対するノードのマッピングを更新するためのプ
ログラム命令を含むコンピュータ可読記憶媒体であって、前記プログラム命令が
分散コンピューティング・システムの複数のノード上で実行され、前記プログラ
ム命令が、前記マッピングを高可用性データベースに記憶するステップであって、前記デ
ータベースが前記ノードによってアクセス可能であり、障害が存在する状態で前
記ノードにコヒーレント・データを提供するステップと、前記データベースが更新済みマッピングが保留中であるという表示を前記ノー
ドに出力するステップと、前記ノードが前記記憶装置へのデータ要求を中断するステップと、前記ノードが未処理のデータ要求が完了するのを待つステップと、前記ノードが前記マッピングの内部表現を無効にするステップと、前記ノードが前記データベースに肯定応答信号を出力するステップと、前記データベースがアクティブ・ノードからの前記肯定応答信号を待つステッ
プと、前記データベースが前記マッピングを更新するステップと、前記データベースが前記更新が完了したという表示を前記ノードに出力するス
テップと、前記ノードが前記データベースから前記マッピングの更新済みバージョンを要
求するステップと、前記ノードが前記記憶装置への前記データ要求の送信を再開するステップとを
実施するように動作可能である、コンピュータ可読記憶媒体。
【請求項７２】第１のノードと、第２のノードと、第３のノードと、デー
タ通信リンクとを含む分散コンピューティング・システムのデータ・トランスポ
ート・システムであって、前記分散コンピューティング・システムのアクティブ・ノードの数と、前記ア
クティブ・ノード間のリンクの数を決定し、前記リンクにより接続を確立するよ
うに構成された構成モジュールと、前記構成モジュールから前記アクティブ・ノードの数と前記リンクの数を示す
データを受け取り、第１のアクティブ・ノードにデータを転送するための要求を
クライアントから受け取り、１つまたは複数の前記リンクを介して前記第１のア
クティブ・ノードに前記データを送るように構成された接続モジュールとを含み
、前記アクティブ・ノードの数が変更されると、前記構成モジュールが前記変更
を前記接続モジュールに通知し、前記接続モジュールは前記クライアントにとっ
てトランスペアレントな前記アクティブノードへの前記接続を再確立するように
構成される、データ・トランスポート・システム。
【請求項７３】前記構成モジュールが高可用性データベースから前記リン
クの数を示すデータを受け取る、請求項７２に記載のデータ・トランスポート・
システム。
【請求項７４】前記高可用性データベースが前記ノードのすべてによって
アクセス可能であり、各ノードが一貫したデータを受け取る、請求項７３に記載
のデータ・トランスポート・システム。
【請求項７５】ノード障害が存在する状態で前記高可用性データベースが
一貫したデータを記憶する、請求項７４に記載のデータ・トランスポート・シス
テム。
【請求項７６】前記構成モジュールがデーモンである、請求項７２に記載
のデータ・トランスポート・システム。
【請求項７７】前記接続モジュールがカーネル・モジュールである、請求
項７６に記載のデータ・トランスポート・システム。
【請求項７８】前記構成モジュールと前記接続モジュールがプライベート
・インタフェースを介して通信する、請求項７２に記載のデータ・トランスポー
ト・システム。
【請求項７９】前記データ通信リンクが、前記第１のノード上で実行され
る前記接続モジュールのインスタンスと前記第２のノード上で実行される前記接
続モジュールのインスタンスとのインタフェースを提供する、請求項７２に記載
のデータ・トランスポート・システム。
【請求項８０】前記データ通信リンクが前記第１のノードと前記第２のノ
ードとの間の複数の物理リンクを含み、前記構成モジュールが前記複数の物理リ
ンクを１つの仮想リンクとして管理する、請求項７９に記載のデータ・トランス
ポート・システム。
【請求項８１】前記データ・トランスポート・システムが複数のクライア
ントに対応する、請求項７２に記載のデータ・トランスポート・システム。
【請求項８２】前記複数のクライアントが前記ノード間でメッセージを送
受する、請求項８１に記載のデータ・トランスポート・システム。
【請求項８３】前記構成モジュールがコールバック機能を介して他のアク
ティブ・ノードから受け取ったメッセージをクライアントに通知する、請求項８
２に記載のデータ・トランスポート・システム。
【請求項８４】前記データ・トランスポート・システムによって転送され
たデータがメッセージを含む、請求項７２に記載のデータ・トランスポート・シ
ステム。
【請求項８５】１つのメッセージが制御メッセージとデータ部分の両方を
含む、請求項８４に記載のデータ・トランスポート・システム。
【請求項８６】前記接続モジュールがメッセージ用の記憶空間を割り振り
、解放する、請求項７２に記載のデータ・トランスポート・システム。
【請求項８７】あるメッセージからのデータがもはや不要になったときに
クライアントが前記接続モジュールに通知し、前記接続モジュールが前記メッセ
ージに関連する記憶空間を解放する、請求項８６に記載のデータ・トランスポー
ト・システム。
【請求項８８】複数のノードと１つのデータ通信バスとを含む分散コンピ
ューティング・システム内でデータを移送する方法であって、前記分散コンピューティング・システム内の物理資源を決定するステップであ
って、前記物理資源が前記分散コンピューティング・システムのアクティブ・ノ
ードと、前記アクティブ・ノード間のアクティブ・リンクとを含むステップと、前記アクティブ・リンクにより接続を確立するステップと、前記アクティブ・ノードのうちの第１のノードにデータを送るためのデータ・
アクセス要求を受け取るステップと、前記アクティブ・リンクのうちの１つまたは複数により前記第１のアクティブ
・ノードに前記データを送るステップと、前記物理資源が変更されたことを決定するステップと、前記変更済み物理資源への接続を再確立するステップとを含み、前記変更済み資源の決定と前記リンクの再確立がクライアントにとってトラン
スペアレントなものである方法。
【請求項８９】アクティブ・ノード間の複数のリンクが１つの論理リンク
として扱われる、請求項８８に記載の方法。
【請求項９０】前記物理資源の決定がデーモン・モジュールによって実行
される、請求項８８に記載の方法。
【請求項９１】前記アクティブ・リンクによる接続の確立がデーモン・モ
ジュールによって実行される、請求項９０に記載の方法。
【請求項９２】前記アクティブ・ノードへの前記データの運搬がカーネル
・モジュールによって実行される、請求項９１に記載の方法。
【請求項９３】複数のクライアントがサポートされ、前記アクティブ・ノ
ードに運搬される前記データが、データ・アクセス要求を要求したクライアント
の識別を含む、請求項８８に記載の方法。
【請求項９４】前記運搬されたデータが制御部分とデータ部分とを含む、
請求項８８に記載の方法。
【請求項９５】アクティブ・ノードに運搬される前記データを記憶するた
めのメモリ空間を割り振るステップと、前記メモリ空間を解放するステップとをさらに含む、請求項８８に記載の方法
。
【請求項９６】前記クライアントに向けられるデータの受取りを宛先ノー
ド側のクライアントに通知するステップをさらに含む、請求項８９に記載の方法
。
【請求項９７】物理資源の決定が、物理資源のリストを記憶する高可用性
データベースにアクセスすることを含む、請求項８９に記載の方法。
【請求項９８】前記高可用性データベースが前記アクティブ・ノードによ
ってアクセス可能であり、前記アクティブ・ノードが一貫した構成データを有す
る、請求項９７に記載の方法。
【請求項９９】複数のノードと１つのデータ通信リンクとを含む分散コン
ピューティング・システム内でデータを移送するためのプログラム命令を含むコ
ンピュータ可読記憶媒体であって、前記プログラム命令が前記分散コンピューテ
ィング・システムの前記複数のノード上で実行され、前記プログラム命令が、前記分散コンピューティング・システム内の物理資源を決定するステップであ
って、前記物理資源が前記分散コンピューティング・システムのアクティブ・ノ
ードと、前記アクティブ・ノード間のアクティブ・リンクとを含むステップと、前記アクティブ・リンクにより接続を確立するステップと、前記アクティブ・ノードのうちの第１のノードにデータを送るためのデータ・
アクセス要求を受け取るステップと、前記アクティブ・リンクのうちの１つまたは複数により前記第１のアクティブ
・ノードに前記データを送るステップと、前記物理資源が変更されたことを決定するステップと、前記変更済み物理資源への接続を再確立するステップとを実施するように動作
可能であり、前記変更済み資源の決定と前記接続の再確立がクライアントにとってトランス
ペアレントなものである、コンピュータ可読記憶媒体。
【請求項１００】アクティブ・ノード間の複数のリンクが１つの論理リン
クとして扱われる、請求項９９に記載のコンピュータ可読記憶媒体。
【請求項１０１】前記物理資源の決定がデーモン・モジュールによって実
行される、請求項９９に記載のコンピュータ可読記憶媒体。
【請求項１０２】前記アクティブ・リンクによる接続の確立がデーモン・
モジュールによって実行される、請求項１０１に記載のコンピュータ可読記憶媒
体。
【請求項１０３】前記アクティブ・ノードへの前記データの運搬がカーネ
ル・モジュールによって実行される、請求項１０２に記載のコンピュータ可読記
憶媒体。
【請求項１０４】アクティブ・ノードに運搬される前記データを記憶する
ためのメモリ空間を割り振るステップと、前記メモリ空間を解放するステップとをさらに含む、請求項９９に記載のコン
ピュータ可読記憶媒体。
【請求項１０５】前記クライアントに向けられるデータの受取りを宛先ノ
ード側のクライアントに通知するステップをさらに含む、請求項９９に記載のコ
ンピュータ可読記憶媒体。
【請求項１０６】物理資源の決定が、物理資源のリストを記憶する高可用
性データベースにアクセスすることを含む、請求項１００に記載のコンピュータ
可読記憶媒体。
【請求項１０７】前記高可用性データベースが前記アクティブ・ノードに
よってアクセス可能であり、前記アクティブ・ノードが一貫した構成データを有
する、請求項１０６に記載のコンピュータ可読記憶媒体。