JPH11327991A

JPH11327991A - ホットスペアシステムおよびデ―タベ―ス管理システム

Info

Publication number: JPH11327991A
Application number: JP11078188A
Authority: JP
Inventors: Rajeev Rastogi; ラストジーラジーフ; Abraham Silberschatz; シルバーシャッツアブラハム
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1998-03-20
Filing date: 1999-03-23
Publication date: 1999-11-30
Also published as: CA2263034A1; US6205449B1; EP0943997A3; EP0943997A2

Abstract

(57)【要約】【課題】非常に大きなデータベース管理システムにホ
ットスペア冗長性および回復を提供する。【解決手段】プライマリコンピュータ上のプライマリ
データベースにおいて、プライマリコンピュータとセカ
ンダリデータベースを有するセカンダリコンピュータは
接続可能であり、プライマリコンピュータのホットスペ
アとしてセカンダリコンピュータを動作することを可能
にするようなデータベース管理システムを提供する。プ
ライマリデータベースに対応づけられ、トランザクショ
ンのログレコードを維持するトランザクションロガーを
具備し、プライマリデータベースにおけるデータの一貫
性（整合性）を保つ。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータシス
テムに関し、特に、非常に大きなデータベース管理シス
テムにホットスペア冗長性および回復を提供するシステ
ムおよび方法に関する。

【０００２】

【従来の技術】データベースは、有用に統合されたデー
タの集合であり、ソフトウェアアプリケーション（情報
管理システムなど）には基本的なものである。データベ
ースには対応するデータベースマネージャー（ＤＢＭ）
がある。これはソフトウェアベースであり、（通常ソフ
トウェアアプリケーションのために）データベース上の
所定のタスクを実行し、その所定のタスクはデータベー
スの利用目的やＤＢＭの洗練性によって大きく変わる。

【０００３】データベースは伝統的に、非揮発性（ディ
スク）メモリに記憶されていて、データベースやソフト
ウェアアプリケーションは（少なくとも部分的に）、揮
発性（メイン）メモリに配置させられている。ＤＢＭは
関係するデータを処理し動作する方法によって区別され
ている。例えば、特定のＤＢＭは一時に１つのデータフ
ァイルしか操作せず（フラットファイルＤＢＭ）、他の
ＤＢＭは一時に複数のデータファイルを処理し、いくつ
かの異なるデータファイルからのデータを関連づける
（リレーショナルＤＢＭ）。

【０００４】基本的なＤＢＭ動作には、データを記憶す
ること、データの取り出しを可能とするインデックスを
作ること、異なるファイル（リレーショナルＤＢＭ）か
らデータをリンクすることなどを含む。ＤＢＭが実行
し、最も重要な（従って最も洗練された）動作のうちの
２つとして、データ保全性（data integrity）およびデ
ータベース回復（database recovery）がある。

【０００５】データ保全性は、非常に簡単に説明する
と、別のソフトウェアアプリケーションが特定のデータ
ファイルの内容に頼っている間はその特定のソフトウェ
アアプリケーションがその特定のデータファイルを変更
することができなくすることを確実にする。これに対し
データベース回復は、データベースのデータの一部ない
し全てが壊れた場合にそのデータベースを再構築するこ
とを伴う。データが壊れるのは、電源不良、プログラム
動作不良などによって起こり、ＤＢＭは記憶されたデー
タが少なくとも部分的に損失ないし壊れたことを疑う。

【０００６】今日の多くのソフトウェアアプリケーショ
ンは、数ミリ秒ないし数十ミリ秒のオーダーのレスポン
スタイムでデータにアクセスするような高性能を必要と
される。伝統的な非揮発性（ディスク）メモリＤＢＭは
このような必要条件を満たすことができていない。これ
は、非揮発性メモリの特性によりデータアクセスに遅れ
が発生してしまうからである。

【０００７】性能を上げるため、データベース全体を揮
発性（メイン）メモリに直接マッピングする方法があ
る。仮想メモリポインタによって直接に、あるいは位置
独立データベースオフセット（これはメモリアドレスへ
速く変換する）を介して間接的にデータはアクセスされ
る。メインメモリデータベースを用いるデータアクセス
はディスクベースのストレージマネージャよりもかなり
速い。通常の処理において他のページに空きを作るため
にページをディスクに書き込まなくてもよいからであ
る。

【０００８】

【発明が解決しようとする課題】しかし、もしメインメ
モリデータベースの一部ないし全てが壊れると、非常に
危険であり、非揮発性（ディスク）メモリデータベース
とは対照的に、全体のデータベースを回復する必要が発
生する。回復アプローチとして、何らかの方法でデータ
ベースを変更したトランザクションの進行を追跡するの
に用いるUndo（アンドゥー：やりなおしのための取り消
し）ログレコードを用いる方法がある。伝統的な回復方
式は、ライトアヘッドロッキング（ＷＡＬ：write-ahea
d logging）を用いる。これは、ページの更新のUndoロ
グ全てをそのページがディスクにフラッシュされる前に
ディスクにフラッシュする。正確さ、ＷＡＬ特性、そし
て回復方法を確実にするため、ページをディスクにコピ
ーする間にページ（あるいは何らかのシステムログ上
に）上にラッチを設ける。従って、ディスクメモリ処理
を再び導入することは、このようなラッチングは非揮発
性メモリへのアクセスをかなり増やし、プログラムを複
雑にし、通常の処理の邪魔をするためコストが高くなっ
てしまう。

【０００９】

【課題を解決するための手段】上述の課題を解決するた
め、本発明は、プライマリコンピュータ上のプライマリ
データベースにおいて、プライマリコンピュータとセカ
ンダリデータベースを有するセカンダリコンピュータは
接続可能であり、プライマリコンピュータのホットスペ
アとしてセカンダリコンピュータを動作することを可能
にするようなデータベース管理システムを提供する。一
実施例において、本システムは、プライマリデータベー
スに対応づけられ、トランザクションのログレコードを
維持するトランザクションロガーを具備し、プライマリ
データベースにおけるデータの一貫性（整合性）を保
つ。本システムはさらに、プライマリデータベースに対
応づけられ、セカンダリコンピュータにログレコードの
少なくとも一部を送るトランザクションプロセッサを具
備する。ログの一部の伝送により、セカンダリコンピュ
ータはセカンダリデータベースに対しログレコードの少
なくとも一部に関わることができ、少なくとも部分的な
データ冗長性を提供する。本発明はまた、プライマリお
よびセカンダリデータベースに対応づけられ、プライマ
リおよびセカンダリコンピュータの状態を指定しプライ
マリおよびセカンダリデータベースの相対的な同期を示
すパラメータをさらに具備する。これらのパラメータは
（もしあれば）データベースの置き換え、システム故障
(failure)の場合の回復を助けることができる。

【００１０】従って、本発明は、プライマリおよびセカ
ンダリ（ホットスペア）データベースを同期するような
データベースログを用いる概念を導入する。ログのメカ
ニズムは、ログに含まれる送られたトランザクションが
プライマリおよびセカンダリデータベース両方に供給さ
れることを確実にする。

【００１１】

【発明の実施の形態】図１において、本発明の原理に従
うホットスペアサポートを備えるシステム１００を示し
てある。ホットスペアは、プライマリシステム１１０と
並列に動作するセカンダリシステム１２０である。プラ
イマリシステム１１０とセカンダリシステム１２０両方
は別々であり独立なマシンである。プライマリシステム
１１０とセカンダリシステム１２０のそれぞれは自分の
ＣＰＵ１１１、１２１、ランダムアクセスメモリ（ＲＡ
Ｍ）１１２、１２２、ディスクストレージ１１３、１２
３を有する。しかしいずれのシステムも他のシステムの
ＲＡＭないしディスクストレージに直接アクセスしてい
るものはない。プライマリおよびセカンダリシステムは
ＬＡＮ、ＷＡＮなどのネットワーク１３０を介して接続
されている。

【００１２】図１において、プライマリシステム１１０
はトランザクションのログレコードを保持するトランザ
クションロガーを備え、プライマリデータベース内のデ
ータの一貫性を保つ。トランザクションロガーは、ＣＰ
Ｕ１１１が実行可能なプロセス、専用ハードウェアおよ
び／またはソフトウェアとすることができる。プライマ
リシステム１１０は、セカンダリシステムへとログレコ
ードの少なくとも一部を送るトランザクションプロセッ
サ、ないしコンピュータ１２０を備える。トランザクシ
ョンプロセッサは、ＣＰＵ１１１が実行可能なプロセ
ス、専用ハードウェアおよび／またはソフトウェアとす
ることができる。ログの一部の送信により、セカンダリ
システム１２０がログレコードの少なくとも一部をセカ
ンダリデータベースへと関連させることができ、少なく
とも部分的なデータ冗長性を提供することができる。

【００１３】セカンダリシステム１２０は、プライマリ
システム１１０からセカンダリシステム１２０へとネッ
トワーク１３０を通って通信するログレコードなどによ
ってプライマリシステム１１０と同期する。従ってセカ
ンダリシステム１２０は、もしプライマリシステム１１
０が故障ないし切断（故障の一種）された場合に直ちに
処理を置き換わることができる（プライマリデータベー
スモードにおける機能を自動的に再指定される）。従っ
て、ホットスペアを利用できることにより、システム全
体の可用性を改善させ、ダウン時間を減らすことができ
る。ホットスペアなしでは、プライマリシステム１１０
が回復してないしオンラインに戻る（故障を解決する）
までは処理がサスペンドしてしまう。

【００１４】基本的な考えは、セカンダリシステム１２
０をプライマリシステム１１０と継続的な同期状態に維
持することである。プライマリシステム１１０とセカン
ダリシステム１２０はシステムログを保持して確実に同
期させる。一実施例では、永続性データ(persistent da
ta)への更新全てはシステムログ内のログレコードによ
り記録される。プライマリシステム１１０のディスクに
システムログをフラッシュするたびに、システムログは
セカンダリシステム１２０と通信する。次にセカンダリ
システム１２０は、自分のバージョンのデータベースに
ログレコードを適用する。一実施例では、各ログに対し
てセカンダリシステム１２０が行う動作は、システム故
障からの回復時にログレコードを適用した場合の動作と
同一に行われる。参考のため、システム故障後の回復の
詳細は、米国特許出願"System and Method for Restori
ng a Multiple Checkpointed Database in View of los
sof Volatile Memory"、"System and Method for Resto
ring a Distributed Checkpointed Database"（ともに
１９９６年１２月１６日出願、Lucent Technologies In
c.譲受人、発明者：Bohannon他）、に記載されている。

【００１５】本発明の原理に従って、コミット(commit)
処理を２つの例示的な方法のうちの１つの方法でプライ
マリシステム１１０にて取扱うことができる。それらを
「１セーフ」、「２セーフ」のアプローチと呼ぶ。１セ
ーフアプローチを用いると、プライマリシステム１１０
はセカンダリシステム１２０からそのセカンダリシステ
ム１２０がそのサイトにてトランザクションをコミット
（委任）したことの確認を待たずにトランザクションを
ローカルにコミットする。結果として、セカンダリシス
テム１２０ではなくプライマリシステム１１０にてトラ
ンザクションがコミットされることが発生する。従っ
て、セカンダリシステム１２０がプライマリシステム１
１０から奪うことが必要となると、特定のコミットされ
たトランザクションをロールバックする必要が発生す
る。２セーフアプローチを用いると、プライマリシステ
ム１１０はセカンダリシステム１２０からそれがトラン
ザクションをコミットしたことの確認を受け取った後に
のみローカルにトランザクションをコミットする。結果
として、プライマリシステム１１０ではなくセカンダリ
システム１２０にて特定のトランザクションをコミット
することが発生する。従って、プライマリシステム１１
０にてアボートされうる特定のトランザクションであっ
ても、セカンダリシステム１２０にてコミットされう
る。

【００１６】１セーフアプローチを用いるとシステムユ
ーザは、システムがコミットしているトランザクション
が後でロールバックされるような状況を経験することが
できることを専門家は認識できるであろう。結果とし
て、１セーフアプローチでは「耐久性(durability)」特
性を満足できない。しかし２セーフアプローチでは、耐
久性特性を常に満足させる。なぜなら、システムはトラ
ンザクションがプライマリシステム１１０とセカンダリ
システム１２０の両方でコミットされるまでコミットさ
れた指示情報を戻さないからである。しかし、２セーフ
アプローチでは、オーバーヘッドが大きくなってしま
う。なぜなら、ユーザへのコミットに対する応答は、コ
ミットレコードがプライマリシステム１１０とセカンダ
リシステム１２０の両方でステーブルストレージにヒッ
トするまで遅延してしまうからである。

【００１７】トランザクションがプライマリシステム１
１０またはセカンダリシステム１２０の一方だけでコミ
ットされ他方ではコミットされないという現象は、１セ
ーフおよび２セーフアプローチを用いる２つの方式で示
したようにプライマリシステム１１０とセカンダリシス
テム１２０の両方を同期状態に保持するのにいくつかの
重大な問題を発生させてしまう。１セーフアプローチを
用いる第１の方式では、プライマリシステム１１０はト
ランザクションＴをコミットされ、セカンダリシステム
１２０がログレコードを受け取る前に故障する。結果と
して、セカンダリシステム１２０はトランザクションＴ
がコミットされることなしに任される。ＣＰＵ１１１は
復帰すると（故障を直すと）、セカンダリデータベース
モードで機能するように自動的にされ、２システムとし
てアタッチするように試みる。そして、２つのシステム
の間を同期状態を保持するためにＴの影響をUndoする必
要が発生する。２セーフアプローチを用いる第２方式で
は、トランザクションＴは、プライマリシステム１１０
ではなくセカンダリシステム１２０にて、そして、Ｔを
プライマリシステム１１０にてコミットすることができ
る前にプライマリシステム１１０とセカンダリシステム
１２０の両方の故障をコミットされる。この状況におい
て、プライマリシステム１１０とセカンダリシステム１
２０の両方が復帰するとき、Ｔの影響はセカンダリシス
テム１２０のログから消されることに留意することが重
要である。

【００１８】以下の説明において、（１）セカンダリシ
ステムのプライマリシステムへのアタッチ、（２）プラ
イマリシステムから任されるセカンダリシステム、
（３）システム故障からのプライマリシステムとセカン
ダリシステムの回復、に対するプロトコルを説明する。
ここで説明するプロトコルは非常に汎用的であり、プラ
イマリシステムがセカンダリシステムとして回復するこ
と、あるいはその反対を回復することを可能にする。従
って、もしプライマリシステムがプライマリシステムと
セカンダリシステムとの両方の故障によって可用(avail
able)でなければ、セカンダリシステムはプライマリシ
ステムとして回復することができ、プライマリシステム
は、可用となれば、セカンダリシステムとして回復する
ことができる。以下で説明するプロトコルが受ける唯一
の制約は、ユーザは両方のシステムを同じプライマリモ
ードまたはセカンダリモードでスタートオフしないよう
に注意しなければならないということである。例えば、
もしシステムがプライマリモードですでに動作していれ
ば、他方のシステムをもプライマリモードでスタートア
ップしてはならないということである。

【００１９】一実施例では、state、sec_syncd、eol_be
fore_syncという３つの変数が両方のシステムに永続的
に記憶される。state変数はシステムの最も現在(curren
t)の状態を記憶する。システムの状態は、「プライマ
リ」、「セカンダリ」または「空」のいずれかとなりう
る。sec_syncd変数はセカンダリシステム１２０がプラ
イマリシステム１１０と同期しているかどうかを追跡す
るのに用いる。sec_syncd変数はもしセカンダリシステ
ム１２０がプライマリシステム１１０といまだ同期して
いなければ「０」であり、同期していれば「１」であ
る。eol_before_sync変数は、プライマリシステム１１
０における「ステーブルログ」の終端を追跡するのに用
いる。ステーブルログの終端は、プライマリシステム１
１０が制御をコミットされた最も早い時間に対応し、そ
の時間の後ではセカンダリシステム１２０はプライマリ
システム１１０と同期していないこととなる。sec_sync
d変数は、システムの状態が「プライマリ」であるとき
にのみ意味があり、eol_before_sync変数はsec_syncが
「０」でありシステムの状態が「プライマリ」であると
きにのみ意味がある。

【００２０】一実施例において、もしプライマリシステ
ム１１０が故障しセカンダリシステム１２０が故障を検
出すると、セカンダリシステム１２０は回復処理の最終
段階の時に通常行う動作を単に行う。例えば、アクティ
ブトランザクションのロールバック、コミットされたト
ランザクションに対するコミット後動作の実行である。
次に、セカンダリシステム１２０は自身をプライマリシ
ステムとして登録する。これは、セカンダリシステム１
２０のstate変数を「プライマリ」、sec_syncdを
「０」、eol_before_syncをテイクオーバーする前にプ
ライマリシステム１１０から受け取った（ステーブルロ
グ内の）最後のログレコードの終端の位置に、自動的に
変えることにより行う。代わりに、変数を自動的に書き
込む代わりに、（１）eol_before_sync、（２）sec_syn
cd、（３）stateの順番で書き込めばいいようにしても
よい。そしてセカンダリシステム１２０は通常の処理を
始める。

【００２１】システムのスタートアップでは、オプショ
ン的なパラメータを用いて、システムが初期に「プライ
マリ」または「セカンダリ」のいずれかで構成すべきか
を指定することができる。パラメータが指定されていな
い場合は、システムが最後に故障したモードと同じモー
ドとすることができる。この最後の状態は、システムに
永続的に記憶された状態変数から得ることができる。関
連する実施例において、「空」状態のシステムは、プラ
イマリシステムとしてスタートアップすることができな
い。セカンダリシステムとしてのみスタートアップする
ことができる。

【００２２】システムがプライマリモードでスタートア
ップすると、以下の条件のいずれかが真であるかを判断
する。（１）システムのstateは「セカンダリ」か？すなわ
ち、システムは最後にセカンダリモードであったか？（２）システムのstateは「プライマリ」でありsec_syn
cdは「１」か？もし上記条件のいずれかが真であれば、stateは「プラ
イマリ」、sec_syncdは「０」、eol_before_syncはシス
テムがデータベースを回復する前のサイトにおけるステ
ーブルログの終端の位置、に永続的かつ自動的にセット
される。上の更新はサイトにおけるデータベースが回復
した後に行う。

【００２３】システムプライマリシステム１１０、セカ
ンダリシステム１２０のいずれかがプライマリシステム
またはセカンダリシステムとして構成するかもしれない
ので、それらシステムをそれぞれｓ₁、ｓ₂として表す。
もしｓ₂をセカンダリモード、stateを「空」でスタート
アップすれば、下で説明するようにシステムｓ₂は単に
「再初期化(reinitialize)」される。そうでない場合
は、システムはプライマリシステム（例えば、システム
ｓ₁）へ接続してmin_eol_iを得る。min_eol_iは以下のよ
うに定義される。（１）もしstateが「プライマリ」、sec_syncd_iが
「０」であれば、min_eol_iはeol_before_synciであり、
（２）そうでない場合、min_eol_iは単に、eol_i（すなわ
ち、サイトｉにおけるステーブルログの終端）である。
ここで、下付表現は変数を収容するサイトを表す。次に
システムｓ₂はtrunc_eolをmin(min_eol₁, min_eol₂)に
セットし、そのステーブルログをプライマリシステムの
ステーブルログと同期させる。

【００２４】システムｓ₂のステーブルログをプライマ
リのステーブルログと同期させるには、以下の操作を行
う。（１）もしtrunc_eolがｓ₂のeolよりも小さくtrunc_eol
の後のステーブルログの部分を切り捨てる(truncate)こ
とができなければ、ｓ₂の状態変数は「空」に変えら
れ、下で説明するようにｓ₂は「再初期化」される。tru
nc_eolの後のログの前記部分は、もしアクティブトラン
ザクションテーブル（ＡＴＴ：下で説明する）がチェッ
クポイントされた後で記録されたeolがtrunc_eol以下で
あれば、ｓ₂にて削除／切り捨てられる。もしtrunc_eol
の後のログの前記部分を削除できると判断すれば、ｓ₂
はそのログを切り捨てtrunc_eolをｓ₁（プライマリシス
テム）へと送る。（２）次に、プライマリシステムは、そのサイトでtrun
c_eolの後のログの部分が切り捨てられていないかを検
査する。もし切り捨てられていれば、プライマリシステ
ムはログレコードをtrunc_eolからセカンダリシステム
ｓ₂へと前方に単に送り始める。またプライマリシステ
ムはsec_syncdを「１」に永続的にセットする。すると
セカンダリシステムは、trunc_eolまでそのステーブル
ログにおけるログレコードを適用(apply)することによ
りデータベースを回復し、プライマリシステムから受け
取るログレコードを適用し始める。またセカンダリシス
テムはそのstateを「セカンダリ」として永続的に留め
る。（３）しかしもしプライマリシステムｓ₁におけるtrunc
_eolの後の特定のログレコードが切り捨てられていれ
ば、セカンダリシステムはそのstateを「空」にセット
した後に再初期化される。セカンダリシステムを再初期
化するには、プライマリシステムはデータベース全体、
そしてstart_eolの後のログレコードのみ（アーカイブ
から回復するのに最小限必要なログスタートポイントで
ある）をセカンダリシステムへ送る。これは従来のアー
カイブ操作で行える。セカンダリシステムはそのデータ
ベース全体（ＡＴＴを含む）をアーカイブから回復さ
せ、プライマリシステムにより送られたログレコードを
適用し始める。ログレコードはstart_eolから始まるよ
うにセカンダリシステムのステーブルログへとアペンド
（追加）される。ＡＴＴとともに記憶されたstart_eol
とeolの間の全てのログレコードがセカンダリシステム
のステーブルストレージに転送されると、セカンダリシ
ステムにて再初期化が完成する。再初期化が完成する
と、セカンダリシステムはそのstateを「セカンダリ」
へとセットし、プライマリシステムはsec_syncdを
「１」にセットする。

【００２５】上の記載から、システム実行時の全ての時
点で成立するいくつかの単純な観測をすることができ
る。（１）２つのシステムの少なくとも１つではstateが
「プライマリ」である。（２）両方のシステムにおいてstateが「プライマリ」
であってsec_syncdが「１」であることはまったくな
い。（３）いずれのシステムもstateが「空」でなければ、
両方のシステムにおけるログの部分はmin(min_eol₁, mi
n_eol₂)までは同一である。

【００２６】２セーフアプローチでは、コミットされた
トランザクションのいずれもロールバックせずにすむた
めに満たさなければならない条件は以下である。（１）２つのシステムのうちstateが「プライマリ」でs
ec_syncdが「０」であるシステムは常にプライマリモー
ドでスタートアップしたシステムである。（２）２つのシステムのうちstateが「プライマリ」でs
ec_syncdが「１」であるシステムは、他方のシステムの
stateが「セカンダリ」であるかあるいは他方のシステ
ムのstateが「プライマリ」ではなくsec_syncdが「０」
であるかのいずれかである場合に限って、プライマリモ
ードでスタートアップすることができる。

【００２７】上の条件は、stateが「プライマリ」であ
りsec_syncdが「０」である２つのサイトが存在しない
ということを確実にする。

【００２８】完全さを求めるため、下にマルチレベル回
復のコンセプトとシングルサイトメインメモリ回復方式
の説明をする。下で説明する中央化方式は上記米国特許
出願"System and Method for Restoring a Distributed
Checkpointed Database"で示した方式の概要となる。
この方式はまた、ダーティーページのみを記したマルチ
レベル回復およびファジーチェックポイント方法を記載
している。

【００２９】このマルチレベル回復方式を用いると、デ
ータはいくつかの「領域」へと論理的に組織される。１
つの領域は１つの要素からなったり、１つのオブジェク
トであったり、あるいはリストやツリーのような任意の
データ構造であってもよい。各領域は、排他モード
（Ｘ）および共有モード（Ｓ）となる関連づけられた１
つのロックを有する。これは「領域ロック」と呼び、領
域へのアクセスや更新をガードする。

【００３０】マルチレベル回復は、操作のセマンテック
に基づく増強した整合性(concurrency)の回復サポート
を提供する。マルチレベル回復は、強い共有／排他領域
ロックがある場合のより弱い「操作」ロックの利用を可
能にする。領域ロックの一般的な例として、インデック
ス管理がある。ここではトランザクションコミットまで
物理的ロックを保持すると、許容できない程度の低いレ
ベルの整合性となってしまう。もしUndoロギングを物理
的にした場合（例えば、インデックスへとキーを挿入す
るためにどのバイトが変更されたかを正確に記録するこ
と）、トランザクション管理システムは、物理的Undo記
述トランザクションコミットまで有効であることを確実
にしなければならない。それら記述は特定の位置におけ
る特定の更新に関するので、このことは典型的には、イ
ンデックスへの整合性アクセスに対する考慮に加えて、
更新されたインデックスノード上の領域ロックが正確な
回復を確実にするために保持されることを示唆する。

【００３１】マルチレベル回復アプローチは、低レベル
物理的Undoログレコードを、操作レベルにおけるUndo記
述を含むより高いレベルの論理的Undoログレコードへと
置き換える。従って、挿入操作では、物理的Undoレコー
ドは、挿入されたキーは削除されなければならないこと
を示す論理的Undoレコードで置き換える。この置き換え
を行うと、領域ロックは解放され、制約がより弱い操作
のロックのみが残る。例えば、挿入に関わる特定のノー
ド上の領域ロックが解放され、キーをアクセスや削除か
ら防ぐ新しく挿入されたキー上の操作ロックを保持され
る。

【００３２】図２は、回復に用いるデータ構造のアーキ
テクチャーである。データベース２１０は、固定サイズ
のページのシーケンスでよく、各プロセスのアドレスス
ペースへとマッピングされ、２つのチェックポイントイ
メージCkpt_A、Ckpt_Bをディスク２０２上に配置してメ
インメモリ２０１内に配置される。ディスク２０２には
またcur_ckpt、データベースのために最も最近の有効チ
ェックポイントイメージへとポイントする「アンカー(a
nchor)」、ディスク２０２にステーブルシステムログ部
分２０５を有しメインメモリ２０１にテール２２０を有
するRedo（リドゥー：繰り返し）情報を含む単一のシス
テムログを記憶する。変数end_of_stable_log２３０
は、システムログ内にポインタを記憶し、そのポインタ
の前の全てのレコードがステーブルシステムログ２０５
へとフラッシュされるようにされる。

【００３３】単一のＡＴＴ２４０はアクティブトランザ
クションに対してUndoログ２５５とRedoログ２５０を記
憶する。ダーティーページテーブル（ｄｐｔ）２６０
は、メインメモリ２０１に保持され、最後のチェックポ
イントから更新されたページを記録する。Undoログを有
するＡＴＴおよびｄｐｔもまた、各チェックポイントと
ともに記憶される。チェックポイントにおけるｄｐｔ
は、ckpt_dptと呼ぶ。

【００３４】このモデルにおける「トランザクション」
は、一連の操作からなる。各操作にはレベルＬ_iが関連
づけられているとする。レベルＬ_iにおける操作は、レ
ベルＬ _i-1の一連の操作からなることができる。レベル
Ｌ_nのトランザクションは、レベルＬ_n-1の操作を呼び出
す。領域への物理的な更新は、レベルＬ₀の操作であ
る。各トランザクションは「コミット前」（例えば、コ
ミットレコードがメモリ内のシステムログに入って連続
的順序でポイントを設定するとき）と「コミット後」
（例えば、コミットレコードがステーブルログをヒット
したとき）とで区別することができる。コミット前ポイ
ントのみが意味あるような操作に対しても同じ用語定義
を用いることができるが、この場合はまた「操作コミッ
ト」とも呼ばれる。

【００３５】各トランザクションは、操作が実行する前
に「操作」ロックを獲得し（このロックはアクティブト
ランザクションが保持する他の操作ロックの代わりとな
る場合に操作に対して認められる）、Ｌ₀操作は領域ロ
ックを獲得しなければならない。Ｌ₁操作がプレコミッ
ト（前コミット）すると領域上のロックは解放される。
しかしレベルＬ_iの操作ロックは、トランザクションな
いし含まれる操作（レベルＬ_i+1）がプレコミットする
まで保持される。従って、トランザクションが獲得する
ロック全ては、そのトランザクションがプレコミットす
ると解放される。

【００３６】回復アルゴリズムは、各トランザクション
に対してメインメモリ２０１内に別々のUndoログ２５５
およびRedoログ２５０を保持する。一実施例において、
ＡＴＴ２４０におけるトランザクションに対するエント
リーから外れるリンクされたリストとして記憶される。
各更新（領域の一部への）は、トランザクションのUndo
およびRedoログへとそれぞれアペンドされたUndoおよび
Redoログレコードを生成する。トランザクション操作が
プレコミットすると、そのRedoログ内のトランザクショ
ンに対する全てのRedoログレコードは、システムログに
アペンドされ、操作の論理的Undo記述は、システムログ
内の操作コミットログレコード内に含まれる。従って、
論理的Undo記述子を例外として、Redoレコードのみが通
常処理時にシステムログに書き込まれる。

【００３７】また、操作がプレコミットすると、そのサ
ブ操作／更新に対するUndoログレコードはトランザクシ
ョンのUndoログから削除され、操作のUndo記述を含む論
理的Undoログレコードはアペンドされる。プレコミット
したトランザクションのメモリ内Undoログは、再び必要
とされないので削除される。操作／トランザクションに
よって獲得したロックはその操作／トランザクションが
プレコミットすると解放される。

【００３８】トランザクションがコミットするとシステ
ムログはディスクにフラッシュされる。ディスクに書き
込まれる各Redoログレコードにより更新されるページ
は、フラッシュプロシージャーによりダーティーページ
テーブル２６０内にダーティーとしてマークされる。こ
の回復方式において、更新動作はページにラッチを獲得
しない。代わりに、領域ロックにより、各更新がお互い
干渉しないことが確実になる。領域サイズが変化する場
合は、ストレージ配置構造上の特定の付加的な領域ロッ
クを獲得する必要がある。例えば、ページベースのシス
テムでは、もし更新によって１つの要素の大きさが変化
すると、その要素に対する領域ロックに加えて、ページ
上のストレージ配置構造上のＸモード領域ロックを得な
ければならない。また、ページラッチングにおいて通常
行われない動作（例えば、ページにダーティービットを
セットすること）は、Redoログ２５０に書き込まれたロ
グレコードに基づいてここで行われる。Redoログ２５０
は単一の統一資源として用い、回復システムとのアプリ
ケーションのやりとりを調整する。

【００３９】メインメモリデータベースにおける用語定
義と同様に、「チェックポイント」は、ディスク２０２
上に記憶されるメインメモリ２０１のコピーを意味し、
「チェックポイントする」とは、チェックポイントを作
る動作を表す。

【００４０】多くの伝統的な回復方式は、ライトアヘッ
ドロギング（ＷＡＬ:write-ahead logging）を用いる。
ここではページの更新に対する全てのUndoログは、その
ページがディスクにフラッシュされる前にディスクにフ
ラッシュされる。このＷＡＬの特性を保証するため、ペ
ージをディスクにコピーするときにページ上の（あるい
はシステムログ上の）ラッチを保持する。本発明におい
ては、更新中のページに対してラッチを排除している。
なぜならラッチングは、メインメモリにおけるアクセス
コストを相当に増やしてしまうからである。またラッチ
ングは通常の処理と干渉してしまい、さらに、プログラ
ミングの複雑さを相当に増やしてしまう。結果として、
ＷＡＬのポリシーは貫徹することはできなくなる。なぜ
ならページが書き込まれたにもかかわらずページが更新
されてしまうからである。

【００４１】正確さのため、ＷＡＬを用いない場合、デ
ータベースイメージの２つのコピーがディスク上に記憶
され、交互のチェックポイントが交互のコピーにダーテ
ィーページを書き込む。この戦略は「ピンポンチェック
ポインティング」と呼ばれ、作られるチェックポイント
が一時的に不整合状態であることを許容する。すなわ
ち、対応するUndoレコードが書き込まれることなしに更
新が書き込まれうる。

【００４２】ピンポンチェックポインティングのために
ディスク上にメインメモリデータベースの２つのコピー
を保持することがそれほどは大きなスペース上の問題が
ないことを認識できるであろう。なぜなら、メインメモ
リーのコストよりもディスクスペースのコストの方がか
なり安いからである。しかし下で説明するように入出力
の問題が発生する。なぜなら、ページに１つの更新しか
ない場合であってもダーティーページを両方のチェック
ポイントに書き込まなければならないからである。しか
しこの問題はホットページにとっては微々たるもので通
常のメインメモリデータベースアプリケーションでは入
出力コストよりも利益の方が大きくなる。

【００４３】ダーディーデータのいずれをもディスクに
書き込む前に、ステーブルログの現在の終端を変数end_
of_stable_log（これはチェックポイントとともに記憶
される）に設定する。これは、このチェックポイントを
用いて故障から回復する場合に、システムログをスキャ
ンする開始点となる。次に、（メモリ内）Ckpt_dptの内
容をdptのものにセットし、dptはゼロにされる。end_of
_stable_logの設定およびdptのゼロ化は、フラッシュに
関して自動的に行われる。書き込まれるページは、最後
に完了したチェックポイントのckpt_dptにおけるダーテ
ィー、現在の（メモリ内）ckpt_dptにおけるダーティ
ー、あるいは上記両方におけるダーティー、のいずれか
のページである。言い換えると、現在のチェックポイン
トイメージが最後に書き込まれてから変更されたページ
全て、すなわち、１つを除いて最後であるチェックポイ
ント以降にダーティー化されたページが書き込まれる。
このことは、現在のチェックポイントのend_of_stable_
logに先行するログレコードに記述された更新が現在の
チェックポイントにおけるデータベースイメージへと達
成されることを確実にするために必要である。

【００４４】チェックポイントは、ラッチをいずれも獲
得することなしに、従って、通常の動作と干渉すること
なしにダーティーページを書き込む。この「ファジー」
チェックポインティングは、物理的Redoログレコードが
全ての更新により生成されるので可能となる。これらは
リスタート回復時に用いられ、これらの影響はべき等(i
dempotent)的である。チェックポイントイメージに影響
を与えたコミットされていない更新のいずれに対して
も、データベースイメージが書き込まれた後にUndoログ
レコードがディスクに書き込まれる。これは、データを
チェックポイントした後にＡＴＴをチェックポイントす
ることにより行われる。ＡＴＴのチェックポイントは、
Undoログレコードを他のstate情報とともに書き込む。

【００４５】チェックポインティングの終端において、
cur_ckcpが新しいチェックポイントをポイントするよう
にすることにより、チェックポイントの完了（および整
合性）を宣言する前にログフラッシュを行わなければな
らない。これは、トランザクション／操作のプレコミッ
トでUndoログが削除されるためで、これはＡＴＴのチェ
ックポイントの前に起こりうる。もしチェックポイント
が完了しログフラッシュの前にシステムが故障すると、
チェックポイントはUndo情報を持たない非コミット更新
を含みうる。ログフラッシュにより、トランザクション
／操作がコミットされることを確実にし、更新がUndoさ
れなければならないということはなくなる。（ただし、
Undo情報がログに存在するような補償操作のような場合
を除く。）

【００４６】トランザクションがアボートとなると（実
行が成功裏に完了しない場合）、そのトランザクション
のUndoログにおけるログレコードが記述する更新／操作
は、終端からUndoログを順次横断することによりUndoさ
れる。トランザクションアボートは、全てのUndoレコー
ドを逆順でそのトランザクションの一部であるかのよう
に実行することにより行われる。

【００４７】「履歴の繰り返し(repeating history)」
の原理に従って、新しい物理的Redoログレコードが、ア
ボート時に遭遇した各物理的Undoレコードに対して作ら
れる。同様に、遭遇した各論理的Undoレコードに対し
て、新しい「補償」ないし「プロキシ（代理）」操作を
Undo記述に基づいて実行する。操作により行われる更新
に対するログレコードは、通常の処理時のログレコード
と同様に生成される。また、プロキシ操作を補償する場
合、そのUndoログレコード全てはUndoされた操作に対す
る論理的Undoレコードとともに削除される。プロキシ操
作に対するコミットレコードは、「補償ログレコード
（ＣＬＲ:compensation log record）」という用語によ
って表される目的を果たす。例えば、リスタート回復時
にコミットレコードに遭遇した場合、Undoされた操作に
対する論理的UndoログレコードはトランザクションのUn
doログから削除され、従って、その操作を再びUndoされ
ることから防ぐ。

【００４８】最後に、回復について説明する。リスター
ト回復においては、ＡＴＴとトランザクションUndoログ
を最も最近のチェックポイントにて記憶されているもの
で初期化した後、データベースがロードされｄｐｔはゼ
ロ化される。チェックポイント操作の一部として、ディ
スク上のシステムログの終端がデータベースイメージが
チェックポイントされる前に留められ、チェックポイン
トが終わるとこのチェックポイントに対して「回復開始
点」となる。この点に先行するログレコードにより記述
される全ての更新は、チェックポイントされたデータベ
ースイメージに反映されることが確実である。従って、
リスタート回復時には、データベースの最後に完了した
チェックポイントに対する回復開始点に続くRedoログレ
コードのみが、ｄｐｔにおける適切なページが各ログレ
コードに対してダーティーにセットされて、適用され
る。Redoログレコードの適用時において、ＡＴＴのチェ
ックポイントされたイメージをそれが適用されたログと
整合性を保つように必要な動作が行われる。例えば、操
作コミットログレコードに遭遇した場合、操作に対する
トランザクションのUndoログにおけるより低いレベルの
ログレコードがより高いレベルのUndo記述により置き換
えられる。

【００４９】全てのRedoログレコードを適用すると、ア
クティブトランザクションがロールバックされる。これ
を行うため、トランザクションが直接呼び出した、ある
いは完了していない操作が直接呼び出した、完了した操
作全てはロールバックされなければならない。異なるト
ランザクションの操作がロールバックされる順序は非常
に重要であり、レベルＬ_iのUndoは整合性のあるデータ
構造を見るようにする。まず、ロールバックされるべき
Ｌ₀の全てのトランザクションはロールバックされ、そ
の後に、レベルＬ₁の全ての操作、そして、Ｌ₂等々と続
く。

【００５０】Redoログにおいて特定のコミットされない
更新が存在すると、チェックポイント時にUndoログレコ
ードは記録されないこともある。これは、例えば、操作
が実行されチェックポイントの後にコミットした場合で
あって含まれるトランザクションがコミットされていな
い場合などに起こりうる。しかしこれは問題ではない。
なぜなら、操作のUndo記述はシステムログ上の順方向渡
し時の操作コミットログレコードにおける回復時に早く
見つかるからである。システムログにコミットログレコ
ードが見つからない操作が行う更新に対するRedoログレ
コードのいずれも無視される。なぜなら、これらレコー
ドは、フラッシュ時の故障によるものに違いなく、シス
テムログの終端にあるからである。

【図面の簡単な説明】

【図１】本発明の原理に従い、ホットスペアサポートを
備えるシステムのブロック図。

【図２】回復のために用いるデータ構造のアーキテクチ
ャー。

【符号の説明】

１００ホットスペアシステム１１０プライマリシステム１１１、１２１ＣＰＵ１１２、１２２ＲＡＭ１２０セカンダリシステム１３０ネットワーク２０１メインメモリ２０２ディスク２０５ステーブルシステムログ２１０データベース２２０システムログのテール部２３０ end_of_stable_log ２４０アクティブトランザクションテーブル（ＡＴ
Ｔ）２５０ Redoログ２５５ Undoログ２６０ダーティーページテーブル

───────────────────────────────────────────────────── フロントページの続き (71)出願人 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ. (72)発明者アブラハムシルバーシャッツアメリカ合衆国，07059 ニュージャージー，ウォーレン，ウルフヒルドライブ 48

Claims

【特許請求の範囲】

【請求項１】プライマリコンピュータのホットスペア
としてセカンダリコンピュータを動作させるホットスペ
アシステムであって、プライマリコンピュータは、プライマリデータベースを
有し、セカンダリデータベースを有するセカンダリコン
ピュータと接続することができ、（Ａ）プライマリデータベースと関連づけられ、プライ
マリデータベース内の永続性データに関わるトランザク
ションのログレコードを保持するトランザクションロガ
ーと、（Ｂ）プライマリデータベースと関連づけられ、２コン
ピュータへログレコードの少なくとも一部を送り、セカ
ンダリデータベースにログレコードのその少なくとも一
部をコミットさせることをセカンダリコンピュータに可
能にさせるトランザクションプロセッサとからなること
を特徴とするホットスペアシステム。
【請求項２】トランザクションプロセッサは、ログレ
コードの全てをセカンダリコンピュータへ送り、セカン
ダリコンピュータがセカンダリデータベースへそのログ
レコードの全てをコミットさせ、セカンダリデータベー
スにプライマリデータベースをミラーリングさせること
を特徴とする請求項１記載のホットスペアシステム。
【請求項３】トランザクションプロセッサは、ログレ
コードの一部を、それをセカンダリコンピュータがコミ
ットしたことの確認をすることを待たずにコミットする
ことを特徴とする請求項１記載のホットスペアシステ
ム。
【請求項４】トランザクションプロセッサは、ログレ
コードの一部を、それをセカンダリコンピュータがコミ
ットしたことの確認をすることを待ってコミットするこ
とを特徴とする請求項１記載のホットスペアシステム。
【請求項５】プライマリデータベースの故障の際に、
セカンダリデータベースは、プライマリデータベースモ
ードで機能するように自動的にされることを特徴とする
請求項１記載のホットスペアシステム。
【請求項６】前記故障の解決の際に、プライマリデー
タベースは、セカンダリデータベースモードで機能する
ように自動的にされることを特徴とする請求項５記載の
ホットスペアシステム。
【請求項７】トランザクションロガーは、プライマリ
ステーブルログにログレコードを保持し、セカンダリコ
ンピュータは、プライマリステーブルログと同期するこ
とができることを特徴とする請求項１記載のホットスペ
アシステム。
【請求項８】プライマリコンピュータとセカンダリコ
ンピュータとをコンピュータネットワークが接続するこ
とを特徴とする請求項１記載のホットスペアシステム。
【請求項９】プライマリコンピュータのホットスペア
としてセカンダリコンピュータを動作させるホットスペ
ア方法であって、プライマリコンピュータは、プライマリデータベースを
有し、セカンダリデータベースを有するセカンダリコン
ピュータと接続することができ、（Ａ）永続性データに関わるトランザクションのログレ
コードをプライマリデータベースに保持するステップ
と、（Ｂ）ログレコードの少なくとも一部をセカンダリコン
ピュータへと送り、セカンダリデータベースにログレコ
ードのその少なくとも一部をコミットさせることをセカ
ンダリコンピュータに可能にさせるステップと、（Ｃ）プライマリコンピュータとセカンダリコンピュー
タの状態をプライマリデータベースとセカンダリデータ
ベースに関連づけられた第１パラメータとするステップ
とからなることを特徴とするホットスペア方法。
【請求項１０】ステップ（Ｂ）は、ログレコードの全
てをセカンダリコンピュータへ送り、セカンダリコンピ
ュータがセカンダリデータベースへそのログレコードの
全てをコミットさせ、セカンダリデータベースにプライ
マリデータベースをミラーリングさせるステップからな
ることを特徴とする請求項９記載の方法。
【請求項１１】ログレコードの一部を、それをセカン
ダリコンピュータがコミットしたことの確認をすること
を待たずにコミットするステップをさらに有することを
特徴とする請求項９記載の方法。
【請求項１２】ログレコードの一部を、それをセカン
ダリコンピュータがコミットしたことの確認をすること
を待ってコミットするステップをさらに有することを特
徴とする請求項９記載の方法。
【請求項１３】プライマリデータベースの故障の際
に、セカンダリデータベースがプライマリデータベース
モードで機能するように自動的にすることを特徴とする
請求項９記載の方法。
【請求項１４】前記故障の解決の際に、プライマリデ
ータベースがセカンダリデータベースモードで機能する
ように自動的にすることを特徴とする請求項１３記載の
方法。
【請求項１５】トランザクションロガーは、プライマ
リステーブルログにログレコードを保持し、セカンダリ
コンピュータは、プライマリステーブルログと同期する
ことができることを特徴とする請求項９記載の方法。
【請求項１６】ステップ（Ｂ）は、プライマリコンピ
ュータとセカンダリコンピュータとを接続するコンピュ
ータネットワークにて行うことを特徴とする請求項９記
載の方法。
【請求項１７】（Ａ）プライマリコンピュータにある
プライマリデータベースと、（Ｂ）プライマリコンピュータに接続するセカンダリコ
ンピュータにあるセカンダリデータベースと、（Ｃ）（ａ）プライマリデータベースと関連づけられ、
プライマリデータベース内の永続性データに関わるトラ
ンザクションのログレコードを保持するトランザクショ
ンロガーと、（ｂ）プライマリデータベースと関連づけられ、２コン
ピュータへログレコードを送り、セカンダリデータベー
スにログレコードをコミットさせることをセカンダリコ
ンピュータに可能にさせるトランザクションプロセッサ
とを有する、セカンダリデータベースにプライマリデー
タベースをミラーリングさせるシステムからなることを
特徴とするデータベース管理システム。
【請求項１８】トランザクションプロセッサは、ログ
レコードの一部を、それをセカンダリコンピュータがコ
ミットしたことの確認をすることを待たずにコミットす
ることを特徴とする請求項１７記載のデータベース管理
システム。
【請求項１９】トランザクションプロセッサは、ログ
レコードの一部を、それをセカンダリコンピュータがコ
ミットしたことの確認をすることを待ってコミットする
ことを特徴とする請求項１７記載のデータベース管理シ
ステム。
【請求項２０】プライマリデータベースの故障の際
に、セカンダリデータベースは、プライマリデータベー
スモードで機能するように自動的にされることを特徴と
する請求項１７記載のデータベース管理システム。
【請求項２１】前記故障の解決の際に、プライマリデ
ータベースは、セカンダリデータベースモードで機能す
るように自動的にされることを特徴とする請求項２０記
載のデータベース管理システム。
【請求項２２】トランザクションロガーは、プライマ
リステーブルログにログレコードを保持し、セカンダリ
コンピュータは、プライマリステーブルログと同期する
ことができることを特徴とする請求項１７記載のデータ
ベース管理システム。
【請求項２３】プライマリコンピュータとセカンダリ
コンピュータとをコンピュータネットワークが接続する
ことを特徴とする請求項１７記載のデータベース管理シ
ステム。