JP2002503846A

JP2002503846A - あるノードのキャッシュから別のノードのキャッシュへデータを転送するための方法および装置

Info

Publication number: JP2002503846A
Application number: JP2000531781A
Authority: JP
Inventors: バンフォード，ロジャー・ジェイ; クロッツ，ボリス
Original assignee: オラクルコーポレーション
Priority date: 1998-02-13
Filing date: 1999-02-12
Publication date: 2002-02-05
Anticipated expiration: 2019-02-12
Also published as: HK1032642A1; US20010037342A1; US20020016795A1; EP1055173A1; US20010037326A1; AU768747B2; DE69918470T2; DE69917333D1; DE69901291D1; WO1999041664A1; HK1039812B; US20010042066A1; CA2320240C; HK1041534A1; US6567827B2; CA2320240A1; HK1041535A1; DE69917342T2; HK1039812A1; DE69901291T2

Abstract

(57)【要約】資源をディスクに最初に書込むことなしにあるデータベースサーバのキャッシュから別のデータベースサーバのキャッシュへ資源を転送するための方法および装置を提供する。データベースサーバ（要求者）が資源を変更したい場合、要求者は資源のカレントバージョンを要求する。カレントバージョンを有するデータベースサーバ（ホルダ）は、カレントバージョンを要求者に直接発送する。バージョンを発送すると、ホルダは資源を変更する許可を失うが、引続きメモリ内に資源を保持する。資源の保持されたバージョンまたはその後のバージョンがディスクに書込まれると、ホルダは資源の保持されたバージョンを廃棄することができる。他の態様では、ホルダは保持されたバージョンを廃棄しない。この技術を用いて、単一サーバの障害は、資源へアクセスしたさまざまなデータベースサーバの復旧ログをマージする必要なしに復旧される。

Description

【発明の詳細な説明】

【０００１】

【発明の分野】

この発明は、あるノードがデータストアからデータを要求するとき要求された
データの最も最近のバージョンが別のノードのキャッシュ内にあるときことに関
連付けられるペナルティを低減するための技術に関する。

【０００２】

【発明の背景】

スケーラビリティを向上させるため、データベースシステムの中には、（各々
が別個に稼動する）２つ以上のデータベースサーバがディスクメディア上に記憶
されるなど、共有の記憶装置に同時にアクセスすることを可能にするものがある
。各データベースサーバは、ディスクブロックなどの、共有資源をキャッシュす
るためのキャッシュを有する。そのようなシステムをここではパラレルサーバシ
ステムと呼ぶ。

【０００３】パラレルサーバシステムに関連付けられる問題の１つに、「ピング」と呼ばれ
るものの可能性がある。あるサーバのキャッシュ内にある資源のバージョンが異
なったサーバのキャッシュに与えられなければならないとき、ピングは起きる。
したがって、ピングが起きるのは、データベースサーバＡがそのキャッシュ内の
資源ｘを変更した後、データベースサーバＢが資源ｘの変更を要求するときであ
る。データベースサーバＡおよびＢは、典型的には、異なったノード上で稼動す
るが、場合によっては同じノード上で稼動することもあり得る。

【０００４】ピングを処理するアプローチの１つを、ここでは「ディスク介入」アプローチ
と呼ぶ。ディスク介入アプローチは、中間的記憶装置としてディスクを使用して
２つのキャッシュ間で資源の最新バージョンを転送する。したがって、上記の例
では、ディスク介入アプローチは、データベースサーバ１が資源Ｘのそのキャッ
シュバージョンをディスクに書込み、データベースサーバ２がこのバージョンを
ディスクからそのキャッシュへと検索することを必要とする。ディスク介入アプ
ローチは、資源のサーバ間転送ごとに２ディスクＩ／Ｏを必要とするので、パラ
レルサーバシステムのスケーラビリティが制限される。具体的には、ピングを処
理するために必要とされるディスクＩ／Ｏは、比較的不経済で時間がかかり、シ
ステムに加えられるデータベースサーバの数が多ければ多いほど、ピングの数も
多くなる。

【０００５】しかしながら、ディスク介入アプローチは、単一のデータベースサーバの障害
からの比較的効率よい復旧を提供する、というのもそのような復旧が必要とする
のは障害の発生したデータベースサーバの復旧（再実行）ログを適用するだけで
あるからである。障害の発生したデータベースサーバの再実行ログを適用すると
、障害の発生したデータベースサーバ上のトランザクションが障害の発生したサ
ーバのキャッシュ内の資源に加えた、かかわった変更はすべて確実に復旧される
。復旧の間の再実行ログの使用は、１９９７年１月２１日出願の「復旧可能オブ
ジェクト内のキャッシングデータ」（“CACHING DATA IN RECOVERABLE OBJECTS ”）と題する米国特許出願連続番号第０８／７８４，６１１号に詳細に記載され
、その内容はここに引用により援用される。

【０００６】ディスク介入アプローチを採用するパラレルサーバシステムは、典型的には、
資源アクセスおよび変更に関するグローバルな調停のすべてが分散ロックマネー
ジャー（ＤＬＭ）によって行なわれる場合のプロトコルを使用する。例示的ＤＬ
Ｍの動作は、１９９６年６月２４日出願の「ロックキャッシングのための方法お
よび装置」（“METHOD AND APPARATUS FOR LOCK CACHING”）と題する米国特許出願連続番号第０８／６６９，６８９号に詳細に記載され、その内容はここに引
用により援用される。

【０００７】典型的な分散ロックマネージャーシステムでは、任意の所与の資源に属する情
報は、資源に対応するロックオブジェクト内に記憶される。各ロックオブジェク
トは、単一のノードのメモリ内に記憶される。ロックオブジェクトが記憶されて
いるノード上にあるロックマネージャーは、そのロックオブジェクトおよびそれ
がカバーする資源のマスタと呼ばれる。

【０００８】ピングを処理するためにディスク介入アプローチを採用するシステムでは、ピ
ングは、さまざまなロックが関係する通信においてＤＬＭを必要とする。具体的
には、データベースサーバ（「要求サーバ」）が資源のアクセスを必要とすると
き、データベースサーバは、それが適切なモード、すなわち、読出の場合には共
有され、書込の場合には排他的であるモードにロックされた所望の資源を有する
かどうかをチェックする。もし要求データベースサーバが正しいモードにロック
された所望の資源を有していなければ、または、資源に全くロックがされていな
ければ、要求サーバは、資源のマスタに要求を送信して特定のモードのロックを
獲得する。

【０００９】要求データベースサーバによってなされた要求は、資源の現在の状態と競合す
ることがある（たとえば、別のデータベースサーバが資源に対する排他的なロッ
クを現在保持している可能性がある）。もし競合がなければ、資源のマスタは、
ロックを許可し許可を登録する。競合の場合には、資源のマスタは、競合解決プ
ロトコルを開始する。資源のマスタは、競合するロックを保持するデータベース
サーバ（「ホルダ」）に、下位の互換性のあるモードにそのロックをダウングレ
ードするよう命令する。

【００１０】不幸にも、もしホルダ（たとえば、データベースサーバＡ）が所望の資源の更
新された（「ダーティ」）バージョンをそのキャッシュ内に現在持っていなけれ
ば、それはそのロックを即座にダウングレードできない。そのロックをダウング
レードするために、データベースサーバＡは、「ハードピング」プロトコルと呼
ばれるものを経る。ハードピングプロトコルに従って、データベースサーバＡは
、ディスクに書込まれるべき更新に関連付けられる再実行ログを強制し、資源を
ディスクに書込み、そのロックをダウングレードし、データベースサーバＡが完
了したことをマスタに通知する。通知を受取ると、マスタは、ロック許可を登録
し、要求されたロックが許可されたことを要求サーバに通知する。この時点で、
要求サーバＢは、ディスクからそのキャッシュ内に資源を読出す。

【００１１】上述したとおり、ディスク介入アプローチによっては、あるデータベースサー
バによって更新された資源（「ダーティ資源」）を別のデータベースサーバに直
接発送することはできない。そのような直接発送は、復旧に関連する問題のため
に、実行可能性がないと考えられる。たとえば、資源がデータベースサーバＡで
変更されてから、データベースサーバＢに直接発送されたと仮定する。データベ
ースサーバＢでも、資源は変更され、データベースサーバＡに発送し返される。
データベースサーバＡで、資源は３度目に変更される。各サーバが、別のサーバ
に資源を送る前にすべての再実行ログをディスクに記憶することによって、受信
側が先の変更可能となると仮定する。

【００１２】３度目の更新の後に、データベースサーバＡがだめになったと仮定する。デー
タベースサーバＡのログは、穴のあいた資源への変更のレコードを含む。具体的
には、サーバＡのログは、データベースサーバＢによってなされたこれらの変更
を含んでいない。正確には、サーバＢによってなされた変更は、データベースサ
ーバＢのログ内に記憶されている。この時点で、資源を復旧するために、２つの
ログは適用される前にマージされなければならない。このログマージ動作は、も
し実現されれば、障害の発生しなかったデータベースサーバを含む、データベー
スサーバの総数に比例して時間および資源を必要とするであろう。

【００１３】上述したディスク介入アプローチは、障害の後の復旧ログのマージに関連付け
られる問題を回避するが、簡単で効率のよい復旧を支持する定常状態のパラレル
サーバシステムの性能にペナルティを科す。直接発送アプローチは、ディスク介
入アプローチに関連付けられるオーバーヘッドを回避するが、障害の発生した場
合に複雑で非スケーラブルな復旧動作を伴う。

【００１４】以上に基づいて、復旧動作の複雑性または持続時間を激しく増大させることな
しに、ピングに関連付けられるオーバーヘッドを低減するためのシステムおよび
方法を提供することが明らかに望まれる。

【００１５】

【発明の概要】

最初に資源をディスクに書込むことなしに、あるデータベースサーバのキャッ
シュから別のデータベースサーバのキャッシュへと資源を転送するための方法お
よび装置が提供される。データベースサーバ（要求者）が資源を変更したい場合
、要求者は資源の現在のバージョンを要求する。現在のバージョンを有するデー
タベースサーバ（ホルダ）は現在のバージョンを要求者に直接発送する。バージ
ョンを発送すると、ホルダは資源を変更する許可を失うが、メモリ内に資源のコ
ピーを引続き保持する。資源の保持されたバージョンまたはその後のバージョン
がディスクに書込まれると、ホルダは資源の保持されたバージョンを廃棄するこ
とができる。他の態様では、ホルダは保持されたバージョンを廃棄しない。サー
バ障害の場合には、障害の発生したサーバの再実行ログ内の変更のあったすべて
の資源の先のコピーを、必要に応じて、障害の発生したサーバの再実行ログを適
用するための開始点として使用する。この技術を用いて、単一のサーバ障害（障
害の最もよくある形態）は、資源へアクセスしていなかったさまざまなデータベ
ースサーバの復旧ログをマージする必要なしに、復旧される。

【００１６】この発明は、同じ参照番号が同様の要素を指している添付の図面に例として示
されるが、これに限定されるものでない。

【００１７】

【好ましい発明の詳細な説明】

ピングに関連付けられるオーバーヘッドを低減するための方法および装置を記
載する。以下の記載では、説明のため、この発明を完全に理解するために、多く
の具体的な詳細を述べる。しかしながら、この発明がこれらの具体的な詳細なし
に実施可能であることは当業者には明らかであろう。他のデータベースサーバで
は、この発明を不要にわかりにくくすることを避けるために、周知の構造および
装置がブロック図の形で示される。

【００１８】機能概要この発明のある局面に従うと、最初にディスクに記憶することなしに、データ
ベースサーバ間で直接資源の更新されたバージョンを発送することによってピン
グを処理し、これによってディスク介入アプローチに関連付けられるＩ／Ｏオー
バーヘッドを回避する。さらに、単一の場合の障害復旧に関連付けられる問題は
、資源が別のキャッシュに転送されたとしても、変更された資源またはその何ら
かのサクセサがディスクに書込まれるまで資源の変更されたバージョンがキャッ
シュ内で置換されることを防ぐことによって、回避される。

【００１９】説明のため、キャッシュ内で置換不可能である資源のコピーを、ここでは「留
められた」資源と呼ぶ。留められた資源を置換可能にする動作を、資源を「解放
する」と呼ぶ。

【００２０】ＭおよびＷロックアプローチこの発明のある局面に従うと、資源に対する変更許可とディスクへの書込許可
とは分離される。したがって、キャッシュからディスクへ資源の更新されたバー
ジョンを書込む許可を有するデータベースサーバが、必ずしも資源を更新する許
可を有するとは限らない。逆に、資源のキャッシュされたバージョンを変更する
許可を有するデータベースサーバが、そのキャッシュされたバージョンをディス
クに書込む許可を有するとは限らない。

【００２１】ある実施例に従うと、許可のこの分離は、特殊なロックを使用することによっ
て実施される。具体的には、資源を変更する許可は、「Ｍ」ロックによって与え
られるであろうし、ディスクに資源を書込む許可は、「Ｗ」ロックによって与え
られるであろう。しかしながら、ここに記載するようなＭロックおよびＷロック
の使用は、資源の転送されたバージョンが、その資源またはそのサクセサがディ
スクに書込まれるまでキャッシュ内で置換されることを防ぐためのメカニズムの
１つにすぎないことが注目される。

【００２２】図２を参照すると、この発明のある実施例に従って、ＭロックおよびＷロック
を使用するデータシステムにおいてピングに応答して実行されるステップを示す
。ステップ２００で、資源を変更したいデータベースサーバは、資源のマスタ（
すなわち、資源のロックを管理するデータベースサーバ）にＭロックを要求する
。ステップ２０２で、マスタは、資源のＭロックを現在保持するデータベースサ
ーバ（「ホルダ」）に、２つのサーバを接続する通信チャネル（「相互接続」）
を介する直接転送によって、Ｍロックを資源のそのキャッシュされたバージョン
とともに転送するよう命令する。

【００２３】ステップ２０４で、ホルダは、資源の現在のバージョンおよびＭロックを要求
者に送る。ステップ２０６で、ホルダは、Ｍロックの転送をマスタに通知する。
ステップ２０８で、マスタは、資源のロック情報を更新して要求者がＭロックを
現在保持していることを示す。

【００２４】ＰＩ資源Ｍロックのホルダは、必ずしもＷロックを有しているとは限らず、このためそ
のキャッシュ内に含まれる資源のバージョンをディスクに書出す許可を有してい
ない可能性がある。したがって、転送データベースサーバ（すなわち、Ｍロック
を最後に保持していたデータベースサーバ）は、未来のある時点でそのバージョ
ンをディスクに書出すよう要求される可能性があるので、資源のそのバージョン
をダイナミックメモリに留め続ける。転送データベースサーバ内に留まる資源の
バージョンは、もし受信データベースサーバが資源のそのコピーを変更すれば、
古くなる。転送データベースサーバは、受信データベースサーバ（またはそのサ
クセサ）が資源をいつ変更するかわかっているとは限らないので、転送データベ
ースサーバは資源のコピーを送信した時点から、その保持されたバージョンを「
古い可能性のあるデータ」として扱う。資源のそのような古い可能性のあるバー
ジョンを、ここではパストイメージ資源（ＰＩ資源）と呼ぶ。

【００２５】ＰＩ資源の解放資源のキャッシュされたバージョンが解放された後、これは新しいデータで上
書される可能性がある。典型的には、資源のダーティバージョンは、資源をディ
スクに書込むことによって解放され得る。しかしながら、キャッシュ内にＰＩ資
源を有するデータベースサーバが必ずしも、ＰＩ資源をディスクに記憶する権利
を持っているとは限らない。これらの状況下でＰＩ資源を解放するためのある技
術が、図３に示される。

【００２６】図３を参照すると、データベースサーバがそのキャッシュ内のＰＩ資源を解放
したいとき、これはＷロックの要求を分散ロックマネージャー（ＤＬＭ）に送信
する。ステップ３０２で、ＤＬＭは次に、要求データベースサーバ、または、資
源のより新しいバージョン（サクセサ）をそのキャッシュ内に有する何らかのデ
ータベースサーバに、資源をディスクに書出すよう命令する。こうして、資源を
ディスクに書込むよう命令されたデータベースサーバは、ダブルロックを許可さ
れる。ダブルロックを許可されたデータベースサーバか資源をディスクに書込ん
だ後、データベースサーバはＷロックを解放する。

【００２７】次に、ＤＬＭは、すべてのデータベースサーバにメッセージを送信して書出さ
れた資源のバージョンを示し（ステップ３０４）、この結果、資源のこれ以前の
ＰＩバージョンはすべて解放可能となる（ステップ３０６）。たとえば、ディス
クに書込まれたバージョンが時間Ｔ１０で変更されたと仮定する。それより前の
時間Ｔ５で最後に変更された資源のバージョンを有するデータベースサーバは、
ここで、これが記憶されているバッファを他のデータのために使用することがで
きるであろう。しかしながら、それより後の時間Ｔ１１で変更されたバージョン
を有するデータベースサーバは、資源のそのバージョンをそのメモリ内に保持し
続けなければならないであろう。

【００２８】ＭおよびＷロックアプローチの下でのピング管理この発明のある実施例に従って、図１を参照して記載するように、ＭおよびＷ
ロックアプローチを実現化してピングを処理してもよい。図１を参照すると、４
つのデータベースサーバＡ、Ｂ、ＣおよびＤのブロック図が示され、これらのサ
ーバはすべて特定の資源を含むデータベースへのアクセスを有している。例示さ
れる時点では、データベースサーバＡ、ＢおよびＣはすべて、資源のバージョン
を有する。データベースサーバＡのキャッシュ内に保持されるバージョンは、資
源の最も最近に変更されたバージョンである（時間Ｔ１０で変更された）。デー
タベースサーバＢおよびＣに保持されるバージョンは、資源のＰＩバージョンで
ある。データベースサーバＤは、資源のマスタである。

【００２９】この時点で、別のデータベースサーバ（「要求者」）が資源を変更したいと仮
定する。要求者は、マスタに変更ロックを要求する。マスタは、要求者からの競
合する要求のために、データベースサーバＡにコマンドを送信してロック（「Ｂ
ＡＳＴ」）をダウンコンバートする。ダウンコンバートコマンドに応答して、資
源の現在のイメージ（クリーンまたはダーティのいずれでも）が、データベース
サーバＡから要求者に、資源を変更する許可とともに発送される。こうして発送
された許可は、資源をディスクに書込む許可を含んでいない。

【００３０】データベースサーバＡがＭロックを要求者に送ると、データベースサーバＡは
そのＭロックを「保持」ロック（「Ｈロック」）にダウングレードする。Ｈロッ
クは、データベースサーバＡが留められたＰＩコピーを保持していることを示す
。Ｈロックの所有権は、オーナーにＰＩコピーをそのバッファキャッシュ内に維
持することを強制するが、ＰＩコピーをディスクに書込むいかなる権利もそのデ
ータベースサーバに与えない。同じ資源に対して複数の同時的Ｈホルダがあり得
るが、一度に資源の書込ができるデータベースサーバは１以下であり、したがっ
て資源のＷロックを保持することのできるデータベースサーバはたった１つであ
る。

【００３１】資源を発送するより前に、データベースサーバＡはログが確実に強制されるよ
うにする（すなわち、データベースサーバＡによって資源になされた変更につい
て生成された復旧ログが永続的に記憶されるようにする）。変更許可を送ること
によって、データベースサーバＡは、資源を変更する自らの権利を失う。資源の
コピー（発送の時点ではそうであったような）は、発送データベースサーバＡに
なおも維持されている。資源の発送の後に、データベースサーバＡ内に保持され
る資源のコピーは、ＰＩ資源である。

【００３２】優遇書込データベースサーバがダーティ資源を別のデータサーバに直接発送した後、資
源の保持されたコピーは留められたＰＩ資源となり、解放されるまでそのバッフ
ァを別の資源に使用することはできない。ＰＩ資源を含むバッファをここでは、
ＰＩバッファと呼ぶ。これらのバッファは、データベースサーバのキャッシュ内
に有効な空間を占有しており、やがては他のデータのために再利用されなければ
ならない。

【００３３】バッファキャッシュ内のＰＩバッファ（古くなったまたはチェックポイントさ
れた）を置換するために、ここでは「優遇書込」と呼ぶ新しいディスク書込プロ
トコルを採用する。優遇書込プロトコルに従って、データベースサーバが資源を
ディスクに書込む必要があるとき、データベースサーバは要求をＤＬＭに送信す
る。ＤＬＭは、ディスクに書込まれるべき資源のバージョンを選択し、選択され
たバージョンを有するデータベースサーバを見つけ、書込要求を開始したデータ
ベースサーバに代わって、そのデータベースサーバにディスクへの資源の書込を
させる。資源をディスクに実際に書込むデータベースサーバは、資源の最新の軌
跡に依存して、書込を要求したデータベースサーバであっても、または、らかの
他のデータベースサーバであってもよい。

【００３４】資源の選択されたバージョンをディスクに書込むことによって、ディスクに書
込まれた選択されたバージョンと同じ古さまたはそれよりも古い、クラスタのす
べてのバッファキャッシュ内の資源のＰＩバージョンはすべて解放される。ディ
スクに書込まれるべきバージョンを選択するために使用される規準を、以下によ
り詳細に記載する。しかしながら、選択されたバージョンは、マスタに知られて
いる最新のＰＩバージョンか、または、資源のカレントバージョン（「ＣＵＲＲ
」）のいずれかであり得る。カレントバージョン以外のバージョンを選択する利
点の１つは、この別のバージョンの選択によって現在のコピーが妨害されること
なく変更可能となることである。

【００３５】ＰＩ資源を保持しているデータベースサーバは、資源のＷロックを獲得してい
るならば、そのＰＩコピーを書出すことができる。資源の書込は、さまざまなデ
ータベースサーバ間でのＣＵＲＲ資源イメージの移動から切離される。

【００３６】効率的要因資源を別のデータベースサーバに発送するたびにＰＩコピーを書込む必要はな
い。したがって、資源を永続的に記憶する目的は、ディスクコピーを十分最近の
ものにしておくことと、バッファキャッシュ内の置換不可能な資源の数を妥当な
ものにしておくこととである。さまざまな要因が、上述した優遇書込プロトコル
を採用するシステムの効率性を決定する。具体的には、（１）ディスクにダーティ資源を書込むことによって起きるＩ／Ｏ動作を最
低限にすることと、（２）資源のディスクバージョンを十分に現在のものにしておくことによっ
て障害後の復旧動作を迅速化することと、（３）留められたＰＩ資源でバッファキャッシュがオーバーフローすること
を防ぐこととが望まれる。

【００３７】第１の規準を最大化すると第２および第３の規準に否定的影響が及び、その逆
もまたある。したがって、トレードオフが必要である。この発明のある実施例に
従うと、総ＩＯ経費に対する制御と併せてチェックポイントのさまざまな技術（
臨時的継続的チェックポイントと混合されたＬＲＵ）を組合せるセルフチューニ
ングアルゴリズムを使用してもよい。

【００３８】最新書込アプローチ上述した優遇書込プロトコルの代替を、ここでは最新書込アプローチと呼ぶ。
最新書込アプローチに従うと、すべてのデータベースサーバが、そのＰＩ資源を
ディスクに書込む許可を有する。しかしながら、そうする前に、データベースサ
ーバは資源のディスクベースのコピーに対するロックを獲得する。ロックを獲得
した後、データベースサーバは、ディスクバージョンを、これが書込みたいＰＩ
バージョンと比較する。もしディスクバージョンの方が古ければ、ＰＩバージョ
ンがディスクに書込まれる。もしディスクバージョンの方が新しければ、ＰＩバ
ージョンは廃棄されてもよく、それが占有していたバッファは再利用可能である
。

【００３９】優遇書込プロトコルと違って、最新書込アプローチは、データベースサーバが
、自己のＰＩバージョンをディスクに書込むことによって、またはディスクバー
ジョンの方がより新しいことを決定することによって、自己のＰＩバージョンを
解放可能にする。しかしながら、最新書込アプローチは、ディスクベースのコピ
ーのロックに対する競合を増大させ、優遇書込アプローチでは起きなかったであ
ろうディスクＩ／Ｏを招く可能性がある。

【００４０】許可ストリング典型的なＤＬＭは、限られた数のロックモードを使用することによって資源へ
のアクセスを管理し、ここではモードは互換性があるか競合しているかのいずれ
かである。ある実施例に従うと、資源へのアクセスを管理するメカニズムは、ロ
ックモードを異なった種の許可および義務の集合と代用するよう拡張される。許
可および義務は、たとえば、資源を書込み、資源を変更し、キャッシュ内の資源
を維持するなどの許可を含んでもよい。具体的な許可および義務を以下により詳
細に記載する。

【００４１】ある実施例に従うと、許可および義務は、許可ストリングに符号化される。多
くの許可は資源自体にではなく資源のバージョンに相関するので、許可ストリン
グは資源バージョン数によって増大するであろう。もし２つの異なった許可スト
リングが、資源の同じバージョン（たとえば、変更のための現在バージョンまた
は書込のためのディスクアクセス）に対する同じ排他的許可を要求するならば、
これらは競合する。そうでなければこれらは互換性がある。

【００４２】許可転送を使用する同時実行性上述したとおり、資源があるデータベースサーバで変更され、別のデータベー
スサーバによってさらなる変更を要求されると、マスタは、資源のカレントコピ
ー（ＣＵＲＲコピー）を保持するデータベースサーバに、そのＭロック（変更す
る権利）を資源のＣＵＲＲコピーとともに他のデータベースサーバに送るように
命令する。重要なことには、Ｍロックの要求はマスタに送信されるが、許可は何
らかの他のデータベースサーバ（先のＭロックホルダ）によってなされる。この
三者間メッセージングモデルは、ロック要求が最初にアドレスされたロックマネ
ージャーを含むデータベースサーバからロック要求に対する応答が期待される、
従来の双方向通信とはかなり異なる。

【００４３】この発明のある実施例に従うと、資源のＣＵＲＲコピーのホルダ（たとえば、
データベースサーバＡ）がＭロックを別のデータサーバに送ると、データベース
サーバＡは、Ｍロックが転送されたことをマスタに通知する。しかしながら、デ
ータベースサーバＡは、マスタが通知を受取ったという確認を待つことなく、そ
のような確認を受取る前にＣＵＲＲコピーおよびＭロックを送信する。待たない
ことによって、マスタとデータベースサーバＡとの間の往復通信は転送に遅延を
もたらすことなく、これによってプロトコルレイテンシがかなり節約される。

【００４４】許可は許可の現在ホルダから許可の要求者に直接転送されるので、マスタが常
に、ロック許可の正確な全体像を知っているとは限らない。むしろ、マスタは、
任意の所与の時間でのロックの正確な位置についてではなく、Ｍロックの軌跡に
ついてのみ、「これを最近保持した」データベースサーバについてのみ知ってい
る。ある実施例に従うと、この「レージーな」通知方式は、Ｍロックに適用可能
であるが、Ｗロック、Ｘロック、またはＳロック（またはその対応物）には適用
可能でない。ロック方式のさまざまな実施例を以下により詳細に記載する。

【００４５】障害復旧この発明のコンテクストにおいては、サーバに関連付けられるキャッシュがア
クセス不可能となった場合、データベースサーバに障害が発生したという。ここ
に記載する技術を用いるダーティ資源の直接のサーバ間発送を採用するデータシ
ステムは、単一サーバの障害に応答して復旧ログをマージする必要性を回避する
。ある実施例に従って、単一のサーバの障害は、図４に示すとおり処理される。
図４を参照して、単一のデータベースサーバに障害が発生すると、復旧プロセス
は、障害の発生したデータベースサーバのキャッシュ内に保持される各資源につ
いて、以下のステップを実行する。

【００４６】（ステップ４００）資源の最新バージョンを保持するデータベースサーバを
を決定し、（ステップ４０２）ステップ４００で決定されたデータベースサーバが障害
の発生したデータベースサーバでなければ、（ステップ４０４）決定されたデー
タベースサーバは資源のそのキャッシュされたバージョンをディスクに書込み、
（ステップ４０６）資源のＰＩバージョンはすべて解放される。このバージョン
は、資源に加えられた、かかわった変更（障害の発生したデータベースサーバに
よってなされたものを含む）を有するため、いかなるデータベースサーバの復旧
ログも適用される必要がない。

【００４７】もしステップ４０２で決定されたデータベースサーバが障害の発生したデータ
ベースサーバであれば、（ステップ４０８）資源の最新ＰＩバージョンを保持す
るデータベースサーバは、資源のそのキャッシュされたバージョンをディスクに
書出し、（ステップ４１０）先のＰＩバージョンはすべて解放される。ディスク
に書出されたバージョンは、障害の発生したデータベースサーバ以外のすべての
データサーバによって資源に加えられたかかわった変更を有する。障害の発生し
たデータベースサーバの復旧ログを適用して（ステップ４１２）障害の発生した
データベースサーバによって加えられたかかわった変更を復旧する。

【００４８】代替的に、資源の最新ＰＩバージョンを、ディスク上ではなくキャッシュ内の
現在のバージョンを復旧するための開始点として使用してもよい。具体的には、
障害の発生したデータベースサーバの復旧ログから適切なレコードを、キャッシ
ュ内にある最新ＰＩバージョンに直接適用して、最新ＰＩバージョンを保持する
データベースサーバのキャッシュ内のカレントバージョンを再構築してもよい。

【００４９】複数のデータベースサーバの障害複数のサーバ障害の場合に、最新ＰＩコピーもいかなるＣＵＲＲコピーも生き
残らなかったとき、資源になされた変更が障害の発生したデータベースサーバの
複数のログにわたって広がっていることが起こり得る。この状況下では、障害の
発生したデータベースサーバのログはマージされなければならない。しかしなが
ら、すべてのデータベースサーバのログではなく、障害の発生したデータベース
サーバのログのみがマージされなければならない。したがって、復旧のために必
要とされる作業量は、構成全体のサイズにではなく障害の程度に比例する。

【００５０】どの障害の発生したデータベースサーバが資源を更新したかを決定することが
可能なシステムにおいては、資源を更新した障害の発生したデータベースサーバ
のログのみがマージされ適用される必要がある。同様に、どの障害の発生したデ
ータベースサーバが、資源の永続的に記憶されたバージョンの後に資源を更新し
たかを決定することのできるシステムにおいては、資源の永続的に記憶されたバ
ージョンの後に資源を更新した、障害の発生したデータベースサーバのログのみ
がマージされ適用される必要がある。

【００５１】例示的動作説明のために、例示的な一連の資源転送を図１を参照して記載する。一連の転
送の間、資源は複数のデータベースサーバでアクセスされる。具体的には、資源
がクラスタノードに沿って発送され変更されると、データベースサーバの１つで
のチェックポイントによってこの資源の物理的Ｉ／Ｏが起こる。

【００５２】再び図１を参照すると、４つのデータベースサーバ、Ａ、Ｂ、ＣおよびＤがあ
る。データベースサーバＤが資源のマスタである。まずデータベースサーバＣが
資源を変更する。データベースサーバＣは資源バージョン８を有する。この時点
で、データベースサーバＣは、この資源に対するＭロック（排他的変更権）も有
する。

【００５３】この時点で、データベースサーバＢが、データベースサーバＣが現在保持して
いる資源を変更したいと仮定する。データベースサーバＢは、資源のＭロックの
要求（１）を送信する。データベースサーバＤは、資源に関連付けられるモディ
ファィアキュー上に要求を置き、（ａ）変更許可（Ｍロック）をデータベースサーバＢに送り、（ｂ）資源の現在イメージをデータベースサーバＢに送信し、（ｃ）データベースサーバＣのＭロックをＨロックにダウングレードするよ
う、データベースサーバＣに命令する（メッセージ２：ＢＡＳＴ）。

【００５４】このダウングレード動作の後に、Ｃは、そのバッファキャッシュ内に資源のそ
のバージョン（ＰＩコピー）を維持させられる。

【００５５】データベースサーバＣは、要求された動作を実行し、新しい変更に対してログ
をさらに強制してもよい。加えて、データベースサーバＣは、これが動作を実行
したこと（ＡＳＴ）をマスタにレージーに通知する（３ＡｃｋＭ）。この通知は
、データベースサーバＣがバージョン８を維持していることもマスタに知らせる
。データベースサーバＣは、マスタからの確認を待たない。従って、データベー
スサーバＢは、マスタがそれを知る前に、Ｍロックを得ることが可能である。

【００５６】一方で、データベースサーバＡもまた資源を変更することを決定したとする。
データベースサーバＡは、メッセージ（４）をデータベースサーバＤに送信する
。このメッセージは、データベースサーバＣからデータベースサーバＤへの非同
期の通知の前に、到着し得る。

【００５７】データベースサーバＤ（マスタ）は、（Ｂがこれを得て変更した後に）資源を
データベースサーバＡに送るよう、データベースサーバＢ、すなわちこの資源の
最新と知られているモディファィアにメッセージ（５）を送信する。なお、デー
タベースサーバＤは、資源がそこにあるのかまだなのかを知らない。しかし、デ
ータベースサーバＤは、資源がやがてＢに到着することは知っている。

【００５８】データベースサーバＢが資源を得て意図された変更をした後（現在Ｂは資源の
バージョン９を有している）、これは自己のロックをＨにダウングレードし、デ
ータベースサーバＡに、資源のカレントバージョン（「ＣＵＲＲ資源」）をＭロ
ックとともに送信する（６）。データベースサーバＢはまた、レージーな通知（
６ＡｃｋＭ）をマスタに送信する。

【００５９】この資源はデータベースサーバＡで変更されつつあるが、データベースサーバ
Ｃでのチェックポイントメカニズムが、資源をディスクに書込むことを決定した
とする。上記の非同期の事象に関しては、３ＡｃｋＭおよび６ＡｃｋＭの両方が
既にマスタに到着していると仮定する。チェックポイント動作に応答して実行さ
れた動作を図５を参照して示す。

【００６０】図５を参照すると、データベースサーバＣは、書込権限を含まない、バージョ
ン８に対するＨロックを保持しているので、データベースサーバＣは、メッセー
ジ１をマスタ（Ｄ）に送信してそのバージョンについてのＷ（書込）ロックを要
求する。この時点ではもう、マスタは、（確認が到着したと仮定して）資源がデ
ータベースサーバＡに発送されたことを知っている。データベースサーバＤは、
資源書込の命令とともに、（非請求の）ＷロックをデータベースサーバＡに送信
する（２ＢａｓｔＷ）。

【００６１】一般的な場合においては、この命令は、送信通知が到着している最新のデータ
ベースサーバへ（または、最新であると知られている送信者から資源を受取ると
考えられるデータベースサーバへ）送られる。データベースサーバＡは、資源の
そのバージョンを書込む（３）。データベースサーバによって書込まれた資源は
、資源のバージョン１０である。このときまでに、もしさらなる要求者が資源を
要求していれば、資源のカレントコピーはどこか他にあるであろう。ディスクは
、書込が完了したとき確認する（４ＡｃｋＷ）。

【００６２】書込が完了すると、データベースサーバＡは、データベースサーバＤに、バー
ジョン１０が現在ディスク上にあるという情報を与える（５ＡｃｋＷ）。データ
ベースサーバＡは、（これは最初には要求していなかった）そのＷロックを自発
的にダウングレードする。

【００６３】マスタ（Ｄ）はデータベースサーバＣに行って、要求されたＷロックを許可す
る代わりに、書込が完成したことをＣに通知する（６）。マスタは、現在のディ
スクバージョン数を全てのＰＩコピーのホルダに知らせ、これによってＣでのこ
れ以前のＰＩコピーはすべて解放可能となる。このシナリオでは、データベース
サーバＣは、１０より古いＰＩコピーを有していないので、これはデータベース
サーバＣのロックをＮＵＬＬにダウンコンバートする。

【００６４】マスタはまた、確認メッセージをデータベースサーバＢに送信してデータベー
スサーバＢに１０より以前のそのＰＩコピーを解放するよう命令する（７Ａｃｋ
Ｗ（１０））。

【００６５】分散ロックマネージャ従来のＤＬＭ論理と対照的に、ここに記載する直接発送技術を実現するシステ
ムでのマスタは、データベースサーバでのロック状態について不完全な情報を有
することがある。ある実施例に従うと、資源のマスタは、以下の情報およびデー
タ構造を維持する。

【００６６】（１）（変更または共有アクセスのいずれかのための）ＣＵＲＲコピー要求
者のキュー（キューの長さの上限は、クラスタ内のデータベースサーバの数であ
る）。このキューをここでは、カレント要求キュー（ＣＱ）と呼ぶ。

【００６７】（２）資源が別のＣＵＲＲ要求者に送信されると、送信側はレージーに（こ
れが確認を待たないという意味では非同期に）マスタに事象について通知する。
マスタは、最新のいくつかの送信者を追跡し続ける。これがＣＱ上のポインタで
ある。

【００６８】（３）ディスク上の最新資源バージョンのバージョン数。（４）Ｗロック許可およびＷ要求キュー。

【００６９】ある実施例に従うと、Ｗ許可は同期する。すなわち、これはマスタによっての
み許可され、マスタは、この資源についてのクラスタ内の書込要求者が１以下で
あることを確実にする。マスタが次の許可を出すことができるのは、先の書込が
完了しＷロックが解放されたと通知された後のみである。もし２以上のモディフ
ァィアがあれば、Ｗロックは書込の持続時間の間与えられ、書込の後に自発的に
解放される。もしモディファィアが１つだけであれば、モディファィアはＷ許可
を維持可能である。

【００７０】（５）そのそれぞれの資源バージョン数を備えるＨロックホルダのリスト。
これは、バッファキャッシュ内のＰＩコピーについての情報を（おそらく不完全
であるが）与える。

【００７１】ディスクウォームアップここに記載する直接発送は、資源のバッファキャッシュイメージとディスクイ
メージとのライフサイクルを大きく引き離すので、復旧の際にこのギャップを埋
める必要がある。ある実施例に従うと、ＤＬＭ復旧とバッファキャッシュ復旧と
の間に、復旧の新しいステップが加えられる。この新しい復旧ステップをここで
は「ディスクウォームアップ」と呼ぶ。

【００７２】通常のキャッシュ動作の間、資源のマスタは、（キャッシュ復旧に先行する）
ＤＬＭ復旧の際に、資源の位置とＰＩコピーおよびＣＵＲＲコピーの利用可能性
とについておおよそしか知らないが、資源のマスタは、生き残ったデータベース
サーバのバッファキャッシュ内の最新ＰＩおよびＣＵＲＲコピーの利用可能性に
ついて完全な情報を収集する。資源のマスタが、（もし障害より前に資源が障害
の発生したデータベースサーバ上にマスタされていれば）新しいマスタであって
も生き残ったマスタであっても、これは当てはまる。

【００７３】情報を収集した後、マスタは、どのデータベースサーバが資源の最新コピーを
所有しているかを知る。「ディスクウォームアップ」段では、マスタは、資源の
この最新コピー（もし利用可能であればＣＵＲＲ、および、もしＣＵＲＲコピー
が障害の発生したデータベースサーバとともに消失していれば最新ＰＩコピー）
のオーナーにＷロックを発行する。次に、マスタは、このデータベースサーバに
、資源をディスクに書込むよう命令する。書込が完了すると、すべての他のデー
タベースサーバは、そのＨロックをＮＵＬＬロックに変換する（なぜなら書込ま
れたコピーが最新の利用可能なものであるからである）。これらのロックがコン
バートされた後、キャッシュ復旧は通常通り続行可能である。

【００７４】ディスクウォームアップ段の間、いくつかの最適化が可能である。たとえば、
もし最新イメージが復旧を実行するデータベースサーバのバッファキャッシュ内
にあれば、資源は必ずしもディスクに書込まれる必要はない。

【００７５】ロックベース方式の代替データベースサーバ間での資源のダーティコピーを直接発送するためのさまざ
まな技術を、特殊なタイプのロック（Ｍロック、ＷロックおよびＨロック）使用
するロッキング方式をコンテクストとして記載した。具体的には、これらの特殊
ロックを使用して、（１）資源のカレントバージョンを有するサーバのみが資源
を変更することと、（２）資源の同じバージョンまたはより新しいバージョンが
ディスクに書込まれるまで、すべてのサーバが資源のそのＰＩバージョンを維持
することと、（３）資源のディスクベースのバージョンが資源のより古いバージ
ョンによって重ね書きされないこととを確実にする。

【００７６】しかしながら、ロックベースのアクセス制御方式は、この発明が実施可能であ
るコンテクストの１つにすぎない。たとえば、任意のさまざまなアクセス制御方
式を用いてこれらの同じ３つの規則を実施してもよい。したがって、この発明は
、特定のタイプのアクセス制御方式に限定されるものではない。

【００７７】たとえば、ロックをベースとして資源へのアクセスを管理する代わりに、アク
セスは、トークンによって管理されてもよく、この場合各トークンが特定のタイ
プの許可を表わす。特定の資源のためのトークンが、上述した３つの規則が確実
に実施されるように、パラレルサーバ間で転送されてもよい。

【００７８】同様に、規則は、状態ベースの方式を用いて実施され得る。状態ベースの方式
では、資源のバージョンは、事象に応答して状態を変化させ、バージョンの状態
がそのバージョンに対して実行可能である動作のタイプを決定する。たとえば、
データベースサーバは、その「現在の」状態での資源のカレントバージョンを受
取る。現在の状態は、資源の変更および資源のディスクへの書込を可能とする。
データベースサーバが資源のカレントバージョンを別のノードに転送すると、保
持されているバージョンは「ＰＩ書込可能」状態に変る。ＰＩ書込可能状態では
、バージョンは、（１）変更不可能であり、（２）量ね書き不可能であるが、（
３）ディスクへの書込は可能である。資源の任意のバージョンがディスクに書込
まれると、ディスクに書込まれたバージョンと同じまたはそれよりも古い、ＰＩ
書込可能状態にあるバージョンのすべてが、「ＰＩ解放」状態に置かれる。ＰＩ
解放状態では、バージョンは量ね書き可能であるが、ディスクへの書込または変
更は不可能である。

【００７９】ハードウェア概要図６は、この発明の実施例が実現可能であるコンピュータシステム６００を示
すブロック図である。コンピュータシステム６００は、情報を受け渡しするため
のバス６０２または他の通信メカニズムと、バス６０２に結合され情報を処理す
るためのプロセッサ６０４とを含む。コンピュータシステム６００はまた、ラン
ダムアクセスメモリ（ＲＡＭ）または他のダイナミック記憶装置などの主メモリ
６０６を含み、これはバス６０２に結合されプロセッサ６０４によって実行され
るべき命令および情報を記憶する。主メモリ６０６はまた、プロセッサ６０４に
よって実行されるべき命令の実行の間、一時的変数または他の中間情報を記憶す
るために使用され得る。コンピュータシステム６００は、リードオンリメモリ（
ＲＯＭ）６０８または他の静的記憶装置をさらに含み、これはバス６０２に結合
され静的情報およびプロセッサ６０４のための命令を記憶する。磁気ディスクま
たは光学ディスクなどの記憶装置６１０が設けられこれはバス６０２に結合され
情報および命令を記憶する。

【００８０】コンピュータシステム６００は、バス６０２を介して陰極線管（ＣＲＴ）など
のディスプレイ６１２に結合されもよく、これはコンピュータユーザに情報を表
示する。英数字および他のキーを含む入力デバイス６１４は、バス６０２に結合
されプロセッサ６０４に情報およびコマンド選択を与える。ユーザ入力デバイス
の別のタイプは、マウス、トラックボールまたはカーソル方向キーなどのカーソ
ルコントロール６１６であって、これは方向情報およびコマンド選択をプロセッ
サ６０４に与え、かつ、ディスプレイ６１２上のカーソルの動きを制御する。こ
の入力デバイスは典型的には、第１の軸（たとえばｘ）および第２の軸（たとえ
ばｙ）の、２軸での２自由度を有し、これによってデバイスは画面での位置を特
定することが可能となる。

【００８１】この発明は、ピングに関連付けられるオーバーヘッドを低減するコンピュータ
システム６００の使用に関する。この発明のある実施例に従うと、ピングに関連
付けられるオーバーヘッドは、プロセッサ６０４が主メモリ６０６に含まれる１
つ以上の命令の１つ以上のシーケンスを実行することに応答して、コンピュータ
システム６００によって低減される。そのような命令は、記憶装置６１０などの
、別のコンピュータ読出可能媒体から主メモリ６０６に読出されてもよい。主メ
モリ６０６内に含まれる命令のシーケンスを実行することによって、プロセッサ
６０４はここに記載するプロセスステップを実行する。代替の実施例では、ハー
ドワイア回路をソフトウェア命令の代わりにまたはこれと組合せて使用してこの
発明を実現してもよい。したがって、この発明の実施例は、ハードウェア回路お
よびソフトウェアの特定の組合せに限定されない。

【００８２】ここに用いる「コンピュータ読出可能媒体」という言葉は、プロセッサ６０４
に命令を与えて実行させることに関与する任意の媒体を指す。そのような媒体は
、不揮発性媒体、揮発性媒体および伝送媒体を含むがこれに限られるものではな
い、多くの形態を取ってもよい。不揮発性媒体は、たとえば、記憶装置６１０な
どの、光学ディスクまたは磁気ディスクを含む。揮発性媒体は、主メモリ６０６
などの、ダイナミックメモリを含む。伝送媒体は、バス６０２を含むワイアを含
む、同軸ケーブル、銅線および光ファイバを含む。伝送媒体はまた、電波および
赤外データ通信の間生成されるものなど、音波または光波の形態を取ってもよい
。

【００８３】コンピュータ読出可能媒体の通常の形態は、たとえば、フロッピー、フレキシ
ブルディスク、ハードディスク、磁気テープ、またはその他の磁気媒体、ＣＤ−
ＲＯＭ、その他の光学媒体、パンチカード、紙テープ、孔のパターンを備えるそ
の他の物理的媒体、ＲＡＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯ
Ｍ、その他のメモリチップまたはカートリッジ、以下に記載する搬送波、または
コンピュータが読出可能なその他の媒体の形態を含む。

【００８４】コンピュータ読出可能媒体のさまざまな形態は、１つ以上の命令の１つ以上の
シーケンスをプロセッサ６０４に搬送して実行することにかかわり得る。たとえ
ば、命令は最初に、遠隔コンピュータの磁気ディスク上に担持されてもよい。遠
隔コンピュータは、命令をそのダイナミックメモリにロードし、モデムを使用し
て電話線を介して命令を送信することができる。コンピュータシステム６００に
ローカルなモデムは、電話線上のデータを受信し、赤外送信器を使用してデータ
を赤外信号に変換することができる。赤外検出器は赤外信号で搬送されるデータ
を受信可能であり、適切な回路がデータをバス６０２上に与えることができる。
バス６０２は、データを主メモリ６０６に搬送し、プロセッサ６０４はそこから
命令を検索し実行する。主メモリ６０６によって受取られた命令は、プロセッサ
６０４によって実行される前またはその後に、記憶装置６１０上にオプションと
して記憶されてもよい。

【００８５】コンピュータシステム６００は、１つ以上の記憶装置（たとえばディスクドラ
イブ６５５）がコンピュータシステム６００と１つ以上の他のＣＰＵ（たとえば
ＣＰＵ６５１）の両方にアクセス可能である、共有ディスクシステムに属する。
例示のシステムでは、ディスクドライブ６５５への共有アクセスは、システムエ
リアネットワーク６５３によって与えられる。しかしながら、さまざまなメカニ
ズムを代替的に使用して共有アクセスを与えてもよい。

【００８６】コンピュータシステム６００はまた、バス６０２に結合される通信インターフ
ェイス６１８を含む。通信インターフェイス６１８は、双方向のデータ通信を与
え、これはネットワークリンク６２０に結合し、ネットワークリンクはローカル
ネットワーク６２２に接続される。たとえば、通信インターフェイス６１８は、
統合サービスデジタル網（ＩＳＤＮ）カードまたはモデムであってもよく対応す
るタイプの電話線にデータ通信接続を与える。別の例として、通信インターフェ
イス６１８は、互換性のあるＬＡＮにデータ通信接続を与えるローカルエリアネ
ットワーク（ＬＡＮ）カードであってもよい。ワイアレスリンクが実現されても
よい。いかなるそのような実現化例でも、通信インターフェイス６１８は、さま
ざまなタイプの情報を表わすデジタルデータストリームを搬送する電気信号、電
磁波信号または光学信号を送信し受信する。

【００８７】ネットワークリンク６２０は、典型的には、１つ以上のネットワークを介して
他のデータデバイスにデータ通信を与える。たとえば、ネットワークリンク６２
０は、ローカルネットワーク６２２を介してホストコンピュータ６２４またはイ
ンターネットサービスプロバイダ（ＩＳＰ）６２６によって動作するデータ装置
に接続してもよい。ＩＳＰ６２６は、現在通常「インターネット」６２８と呼ば
れるワールドワイドパケットデータ通信ネットワークを介して、データ通信サー
ビスを提供する。ローカルネットワーク６２２とインターネット６２８とはどち
らも、デジタルデータストリームを搬送する電気信号、電磁波信号または光学信
号を使用する。さまざまなネットワークを通る信号と、ネットワークリンク６２
０上および通信インターネット６１８を通る信号とは、デジタルデータをコンピ
ュータシステム６００へかつそこから搬送するものであるが、情報を転送する搬
送波の例示的形態である。

【００８８】コンピュータシステム６００は、ネットワーク、ネットワークリンク６２０お
よび通信インターフェイス６１８を介して、プログラムコードを含め、メッセー
ジを送信しデータを受信することが可能である。インターネットの例では、サー
バ６３０は、インターネット６２８、ＩＳＰ６２６、ローカルネットワーク６２
２および通信インターフェイス６１８を介して、アプリケーションプログラムの
ために要求されたコードを伝送可能である。

【００８９】受信されたコードは、受信されたときにプロセッサ６０４によって実行されて
もよいし、かつ／または記憶装置６１０または他の不揮発性装置に記憶されて後
に実行されてもよい。このようにして、コンピュータシステム６００は、搬送波
の形でアプリケーションコードを獲得可能である。

【００９０】複数のデータベースサーバが共通の永続性記憶装置へのアクセスを有するとき
に生じるピングを参照してピングを処理するための技術が記載されるが、この技
術はこのコンテクストに限定されるのではない。具体的には、これらの技術は、
あるキャッシュに関連付けられるプロセスが現在のバージョンが他のキャッシュ
内に位置する資源を要求する可能性のあるいかなる環境に適用されてもよい。そ
のような環境は、たとえば、異なったノード上のテキストサーバが同じテキスト
材料へのアクセスを有するような環境、異なったノード上のメディアサーバが同
じビデオデータへのアクセスを有するような環境、などを含む。

【００９１】ここに記載する技術を用いてピングを処理すれば、資源のデータベースサーバ
間の転送は効率よくなるので、動作可能時間性能は、データベースサーバの数お
よびデータベースサーバあたりのユーザの増加にあわせて増大する。加えて、こ
の技術によって、データベースサーバの数の増加にあわせて増大する単一のデー
タベースサーバの障害（障害の最もよくあるタイプ）からの効率的な復旧が得ら
れる。

【００９２】重要なことには、ここに記載する技術は、ディスク介入によってではなく、Ｉ
ＰＣトランスポートを介して資源を送信することによってピングを処理する。し
たがって、ピングをもたらす、資源についてのディスクＩ／Ｏは、かなり解消さ
れる。同期Ｉ／Ｏを伴うのは、これがログ強制のために必要とされる場合におい
てのみである。加えて、ディスクＩ／Ｏはチェックポイントおよびバッファキャ
ッシュ置換のために生じるが、そのようなＩ／Ｏは、クラスタにわたるバッファ
発送を減速させることはない。

【００９３】ここに記載する直接発送技術はまた、ピングによって生じるコンテクスト切換
の数を低減させるようにもなる。具体的には、プロトコルの関与者（要求者およ
びホルダ）とマスタとの間の往復メッセージのシーケンスは、要求者、マスタ、
ホルダ、要求者からなる通信トライアングルによって代用される。

【００９４】前の明細書では、この発明は、その特定の実施例を参照して記載された。しか
しながら、この発明のより広い精神および範囲から逸脱することなしに、これに
さまざまな変形および変更をなし得ることは明らかであろう。したがって、この
明細書および図面は、限定的ではなく例示的なものとして見なされるべきである
。

【図面の簡単な説明】

【図１】資源の最新バージョンのキャッシュからキャッシュへの転送を例
示するブロック図である。

【図２】この発明の実施例に従ってディスク介入なしにあるキャッシュか
ら別のキャッシュへ資源を伝送するステップを例示するフローチャートである。

【図３】この発明の実施例に従って、資源のパストイメージを解放するス
テップを例示するフローチャートである。

【図４】この発明の実施例に従って単一のデータベースサーバの障害の後
に復旧するステップを例示するフローチャートである。

【図５】この発明の実施例に従ってチェックポイントサイクルを例示する
ブロック図である。

【図６】この発明の実施例が実現可能であるコンピュータシステムのブロ
ック図である。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１２年２月１７日（２０００．２．１７）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】０００５

【補正方法】変更

【補正内容】

【０００５】しかしながら、ディスク介入アプローチは、単一のデータベースサーバの障害
からの比較的効率よい復旧を提供する、というのもそのような復旧が必要とする
のは障害の発生したデータベースサーバの復旧（再実行）ログを適用するだけで
あるからである。障害の発生したデータベースサーバの再実行ログを適用すると
、障害の発生したデータベースサーバ上のトランザクションが障害の発生したサ
ーバのキャッシュ内の資源に加えた、かかわった変更はすべて確実に復旧される
。復旧の間の再実行ログの使用は、１９９７年１月２１日出願の「復旧可能オブ
ジェクト内のキャッシングデータ」（“CACHING DATA IN RECOVERABLE OBJECTS ”）と題する米国特許出願連続番号第０８／７８４，６１１号に詳細に記載され
る。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】００９４

【補正方法】削除

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ) ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＷＦターム(参考） 5B075 KK03 KK54 NR02 5B082 DC05 FA17 GA14 GA18 HA03

Claims

【特許請求の範囲】

【請求項１】第１のキャッシュから第２のキャッシュへ資源を転送するた
めの方法であって、前記第１のキャッシュから永続的記憶装置に前記資源を最初に永続的に記憶す
ることなしに、前記第１のキャッシュ内に資源の第１のコピーを保持する一方で
資源の第２のコピーを第１のキャッシュから第２のキャッシュへと転送するステ
ップと、資源の前記第１のコピーまたはそのサクセサが永続的に記憶されるまで前記第
１のコピーが前記第１のキャッシュ内で置換されることを防ぐステップとを含む
、方法。
【請求項２】前記第１のキャッシュは第１のデータベースサーバによって
維持されるキャッシュであり、前記第２のキャッシュは第２のデータベースサー
バによって維持されるキャッシュである、請求項１に記載の方法。
【請求項３】前記第２のコピーを前記第２のキャッシュに転送するよりも
前に前記資源の前記第１のコピーが前記第１のキャッシュ内で変更されることを
可能にするステップと、前記第２のコピーを前記第２のキャッシュに転送した後に前記資源の前記第１
のコピーが変更されることを防ぐステップとをさらに含む、請求項１に記載の方
法。
【請求項４】前記第２のコピーを前記第２のキャッシュに転送した後に、
許可の要求を送信して前記第１のコピーを解放するステップと、前記要求に応答して、前記第１のコピーまたはそのサクセサが永続的に記憶さ
れるようにするステップと、前記サクセサが永続的に記憶されたことに応答して、前記第１のコピーが解放
可能であることを示すメッセージを送信するステップとをさらに含む、請求項１
に記載の方法。
【請求項５】許可の要求を送信して前記第１のコピーを解放するステップ
は、送信側プロセスによって実行され、前記第１のコピーまたはそのサクセサが永続的に記憶されるようにするステッ
プは、送信側プロセス以外のプロセスが前記資源の前記第１のコピーのサクセサ
を記憶するようにするステップを含む、請求項４に記載の方法。
【請求項６】前記第１のコピーが置換されることを防ぐステップは、前記第１のコピーを永続的に記憶しようとするより前に、前記資源の永続的に
記憶されたコピーが前記第１のコピーよりも最近のものであったかどうかを決定
するステップと、もし前記永続的に記憶されたコピーが前記第１のコピーよりもより最近のもの
であれば、前記第１のコピーを永続的に記憶することなしに前記第１のコピーを
解放するステップと、もし前記永続的に記憶されたコピーが前記第１のコピーよりもより最近のもの
でなければ、前記第１のコピーを永続的に記憶するステップとを含む、請求項１
に記載の方法。
【請求項７】第１のキャッシュに関連付けられる送信側プロセスから第２
のキャッシュに関連付けられる受信側プロセスに前記資源の前記第２のコピーと
ともに変更許可を転送するステップをさらに含む、請求項３に記載の方法。
【請求項８】前記資源にアクセスする許可はマスタによって管理され、前記変更許可を受信側プロセスに転送するステップは、前記マスタから前記変
更許可の前記受信側プロセスへの転送についての確認を受信するより前に実行さ
れる、請求項７に記載の方法。
【請求項９】前記第２のキャッシュに関連付けられる受信側プロセスが前
記資源の要求を前記資源のマスタに送信するステップと、前記受信側プロセスからの前記要求に応答して、前記資源の前記マスタが前記
第１のキャッシュに関連付けられる受信側プロセスにメッセージを送信するステ
ップと、前記送信側プロセスは前記マスタからの前記メッセージに応答して前記第２の
コピーを前記受信側プロセスに転送するステップとをさらに含む、請求項１に記
載の方法。
【請求項１０】前記第２のコピーを前記第２のキャッシュに転送するステ
ップの後に、前記第１のキャッシュに関連付けられる送信側プロセスがロックマネージャに
ロックを要求するステップを実行し、前記ロックは前記資源をディスクに書込む
許可は与えるが前記資源を変更する許可は与えず、さらに、前記ロックマネージャは前記第１のコピーと少なくとも同じほど最近である前
記資源のバージョンを有するプロセスを選択するステップと、前記ロックマネージャは前記ロックを前記選択されたプロセスに与えるステッ
プと、前記選択されたプロセスは前記資源の前記バージョンをディスクに書込むステ
ップとを実行するステップをさらに含む、請求項１に記載の方法。
【請求項１１】前記資源の前記バージョンがディスクに書込まれるのに応
答して、前記ロックマネージャは前記バージョンよりもより古い前記資源のすべ
てのバージョンが解放されるようにするステップをさらに含む、請求項１０に記
載の方法。
【請求項１２】前記資源のダーティコピーを保持するキャッシュの障害の
後に、障害の発生したキャッシュが資源の最新バージョンを保持していたかどうかを
決定するステップと、もし障害の発生したキャッシュが資源の最新バージョンを保持していれば、資源の最新パストイメージをディスクに書込むステップと、資源のすべての先のパストイメージを解放するステップと、前記障害の発生したキャッシュの復旧ログを適用して資源の最新バージョンを
再構築するステップとをさらに含む、請求項１に記載の方法。
【請求項１３】もし障害の発生したキャッシュが資源の最新バージョンを
保持していなかったとすれば、資源の最新バージョンをディスクに書込むステップと、資源のすべてのパストイメージを解放するステップとをさらに含む、請求項１
２に記載の方法。
【請求項１４】前記資源のダーティバージョンを保持する複数個のキャッ
シュの障害の後に、障害の発生したキャッシュのいずれかが資源の最新バージョンを保持していた
かどうかを決定するステップと、もし障害の発生したキャッシュのいずれかが資源の最新バージョンを保持して
いたとすれば、前記障害の発生したキャッシュの復旧ログをマージし適用して資源の最新バー
ジョンを再構築するステップをさらに含む、請求項１に記載の方法。
【請求項１５】命令の１つ以上のシーケンスを搬送して第１のキャッシュ
から第２のキャッシュへと資源を転送するコンピュータ読出可能媒体であって、
命令の１つ以上のシーケンスが１つ以上のプロセッサによって実行されると、１
つ以上のプロセッサは、前記第１のキャッシュから永続的記憶装置に前記資源を最初に永続的に記憶す
ることなしに、前記第１のキャッシュ内に資源の第１のコピーを保持する一方で
資源の第２のコピーを第１のキャッシュから第２のキャッシュへと転送するステ
ップと、資源の前記第１のコピーまたはそのサクセサが永続的に記憶されるまで前記第
１のコピーが前記第１のキャッシュ内で置換されることを防ぐステップとを実行
するようになる、コンピュータ読出可能媒体。
【請求項１６】前記第２のコピーを前記第２のキャッシュに転送するより
前に、前記資源の前記第１のコピーが前記第１のキャッシュ内で変更されること
を可能にするステップと、前記第２のコピーが前記第２のキャッシュに転送された後に前記資源の前記第
１のコピーが変更されることを防ぐステップとを実行する命令のシーケンスをさ
らに含む、請求項１５に記載のコンピュータ読出可能媒体。
【請求項１７】前記第２のコピーを前記第２のキャッシュに転送した後に
、許可の要求を送信して前記第１のコピーを解放するステップと、前記要求に応答して、前記第１のコピーまたはそのサクセサが永続的に記憶さ
れるようにするステップと、前記サクセサが永続的に記憶されたことに応答して、前記第１のコピーが置換
可能であることを示すメッセージを送信するステップとを実行する命令のシーケ
ンスをさらに含む、請求項１５に記載のコンピュータ読出可能媒体。
【請求項１８】許可の要求を送信して前記第１のコピーを解放するステッ
プは送信側プロセスによって実行され、前記第１のコピーまたはそのサクセサが永続的に記憶されるようにするステッ
プは、前記送信側プロセス以外のプロセスが前記資源の前記第１のコピーのサク
セサを記憶するようにするステップを含む、請求項１７に記載のコンピュータ読
出可能媒体。
【請求項１９】前記第１のコピーが置換されることを防ぐステップは、前記第１のコピーを永続的に記憶しようとするより前に、前記資源の永続的に
記憶されたコピーが前記第１のコピーよりもより最近のものであるかどうかを決
定するステップと、もし前記永続的に記憶されたコピーが前記第１のコピーよりもより最近のもの
であれば、前記第１のコピーを永続的に記憶することなしに前記第１のコピーを
解放するステップと、もし前記永続的に記憶されたコピーが前記第１のコピーよりもより最近のもの
でなければ、前記第１のコピーを永続的に記憶するステップを含む、請求項１５
に記載のコンピュータ読出可能媒体。
【請求項２０】前記第１のキャッシュに関連付けられる送信側プロセスか
ら前記第２のキャッシュに関連付けられる受信側プロセスに前記資源の前記第２
のコピーとともに変更許可を転送するステップを実行する命令をさらに含む、請
求項１６に記載のコンピュータ読出可能媒体。
【請求項２１】前記資源にアクセスする許可はマスタによって管理され、
前記変更許可を受信側プロセスに転送するステップは、前記マスタから前記変更
許可の前記受信側プロセスへの転送についての確認を受信するより前に実行され
る、請求項２０に記載のコンピュータ読出可能媒体。
【請求項２２】前記第２のキャッシュに関連付けられる受信側プロセスが
前記資源の要求を前記資源のマスタに送信するステップと、前記受信側プロセスからの前記要求に応答して、前記資源の前記マスタは前記
第１のキャッシュに関連付けられる送信側プロセスにメッセージを送信するステ
ップと、前記送信側プロセスは前記マスタからの前記メッセージに応答して前記第２の
コピーを前記受信側プロセスに転送するステップとを実行する命令のシーケンス
をさらに含む、請求項１５に記載のコンピュータ読出可能媒体。
【請求項２３】前記第２のコピーを前記第２のキャッシュに転送するステ
ップより後に、前記第１のキャッシュに関連付けられる送信側プロセスがロックマネージャに
ロックを要求するステップを実行し、前記ロックは前記資源をディスクに書込む
許可を与えるが前記資源を変更する許可は与えず、さらに、前記ロックマネージャは前記第１のコピーと少なくとも同じほど最近である前
記資源のバージョンを有するプロセスを選択するステップと、前記ロックマネージャは前記選択されたプロセスに前記ロックを与えるステッ
プと、前記選択されたプロセスは前記資源の前記バージョンをディスクに書込むステ
ップとを実行する命令をさらに含む、請求項１５に記載のコンピュータ読出可能
媒体。
【請求項２４】前記資源の前記バージョンがディスクに書込まれたことに
応答して、前記ロックマネージャは前記バージョンよりもより古い前記資源のす
べてのバージョンが解放されるようになるステップを実行する命令をさらに含む
、請求項２３に記載のコンピュータ読出可能媒体。
【請求項２５】前記資源のダーティコピーを保持するキャッシュの障害の
後に、障害の発生したキャッシュが資源の最新バージョンを保持していたかどうかを
決定するステップと、もし障害の発生したプロセスが資源の最新バージョンを保持していたとすれば
、資源の最新パストイメージをディスクに書込むステップと、資源のすべての先のパストイメージを解放するステップと、前記障害の発生したキャッシュの復旧ログを適用して資源の最新バージョンを
再構築するステップとを実行する命令のシーケンスをさらに含む、請求項１５に
記載のコンピュータ読出可能媒体。
【請求項２６】もし障害の発生したキャッシュが資源の最新バージョンを
保持していなかったとすれば、資源の最新バージョンをディスクに書込むステップと、資源のすべてのパストイメージを解放するステップとを実行する命令のシーケ
ンスをさらに含む、請求項２５に記載のコンピュータ読出可能媒体。
【請求項２７】前記資源のダーティバージョンを保持する複数個のキャッ
シュの障害の後に、もし障害の発生したキャッシュのいずれかが資源の最新バージョンを保持して
いたかどうかを決定するステップと、もし障害の発生したキャッシュのいずれかが資源の最新バージョンを保持して
いたとすれば、前記障害の発生したキャッシュの復旧ログをマージし適用して資源の最新バー
ジョンを再構築するステップとを実行する命令のシーケンスをさらに含む、請求
項１５に記載のコンピュータ読出可能媒体。