JP2002504249A

JP2002504249A - 複製されたデータ対象の初期化

Info

Publication number: JP2002504249A
Application number: JP50425399A
Authority: JP
Inventors: ウイクストロム、クラエス
Original assignee: テレフオンアクチーボラゲツトエルエムエリクソン
Priority date: 1997-06-16
Filing date: 1998-05-29
Publication date: 2002-02-05
Also published as: US5995981A; DE69804099D1; DE69804099T2; EP0988597B1; WO1998058316A1; BR9810132A; EP0988597A1; AU8045298A; CA2294035A1; KR20010013779A; CA2294035C

Abstract

(57)【要約】複製されたデータベース環境において、全部のノード（３０）は、ネットワーク（２０）を通じてノード状態メッセージを受信することにより相互の安泰をモニタする。一つのノードが最早生きていないと検出されると、他のノードは、この様なノードは故障したと推定する。ノード故障が検出されると、ノードダウン値を持つノード状態記録が、故障しているノードに関してノードログ（８０）に書込まれる。同様に、ノードが生きて現れ又は新しいノードがネットワークに知られるようになると、ノードアップ値を持つノード状態記録がノードログに書込まれる。一つの局所ノードが故障し、次に再始動すると、この局所ノードは、複製されたデータ対象の値をどの様に初期化するかを決定するため、そのノードログの内容を使用する。そのノードログを読出すことにより、局所ノードは、データ対象がそのデイスク（３２）から初期化出来るかどうかを決めることが出来る。

Description

【発明の詳細な説明】複製されたデータ対象の初期化この発明は、同時に出願された「複製されたデータ対象のための残存クロック」と題する米国特許出願一連番号第０８／，，号（代理人整理番号１４１０−３１７）に記載された発明に関する。前記出願の内容は、ここに引用することにより、本明細書の一部として取り込むこととする。背景 1. 発明の分野この発明は、分散形又は複製形データベース（ｄｉｓｔｒｉｂｕｔｅｄｏｒｒｅｐｌｉｃａｔｅｄｄａｔａｂａｓｅ）に関し、特にこの様なデータベースに保存されたデータ対象（ｄａｔａｏｂｊｅｃｔ）の初期化に関する。 2. 関連技術及び他の考察アプリケーションプログラムを実行する時、計算機はしばしばデータ対象の値を割当て及び／又は変更する。多くの場合において、データ対象は。データベースの一部として記憶される。複数の計算機が一緒にネットワーク形成されるより複雑なシステムにおいては、１つより多い計算機が一つのあるデータ対象にアクセスすることを要求するかも知れず、またそのデータ対象の値を変更又は更新するかも知れない。この様な多重計算機がネットワーク形成される環境を賄うために、複製されたデータベースシステムを確立することが出来る。複製されたデータベースシステムにおいては、複製されたデータベース間の一貫性を維持するため全部の他の計算機にデータ対象の変更が通知される限りにおいて各計算機はそれ自身のデータベースのバージョンを維持することが出来る。複製されたデータベースは、２つの主要な利点をもつている。第１の利点はフオールトトレランスである。第２の利点は、複製されたデータベースへの局所アクセスが、別の計算機におけるデータベースへの遠隔アクセスより速く且つ安価であることである。これらの利点にも拘らず。複製されたデータベースにおけるデータ対象の初期化は複雑となり得る。例えば、一緒にネットワーク形成される２つの計算機Ｎ１とＮ２を含む簡単な情況を仮定する。各計算機Ｎ１、Ｎ２は、そのデータベースのバージョンを持ち、計算機Ｎ１におけるデータベースのバージョンはＤＢ１であり、また計算機Ｎ２におけるデータベースのバージョンはＤＢ２である。両方の計算機Ｎ１及びＮ２が正常に機能していると、一方の計算機によるデータ対象のいかなる変更もネットワークを通じて他方の計算機に通信され、そのためデータベースＤＢ１、ＤＢ２は同一に保持される。この様な変更及びデータ対象の更新の交渉は、従来技術において、バーンシュタイン、Ｐ．Ａ等のデータベースシステムにおける同時性制御及び回復、アデイソンウエスレイ、１９８７に述べられている様に２相コミット（ｔｗｏ−ｐｈａｓｅｃｏｍｍｉｔ）プロトコルを使用して（例えば）一般に行われる。計算機Ｎ１は故障し、しかし計算機Ｎ２は動作し続け、そのデータベース内のデータ対象の値を更新する情況を考える。それから計算機Ｎ２も引き続いて故障し、結果として両方の計算機Ｎ１及びＮ２がダウンすると仮定する。データベースＤＢ２内のデータ対象の内容は、データベースＤＢ１内の同じデータ対象の内容より新しい。計算機Ｎ１が再始動した時、計算機Ｎ１に対して、データベースＤＢ１内に記憶されているそのバージョンを使用してデータ対象に対する値を初期化しようと試みることは誤りであろうし、その理由はより新しいデータは計算機Ｎ２により保存されるデータベースＤＢ２に存在するからである。しかし、計算機Ｎ１は、計算機Ｎ１に利用出来る局所的情報のみに基づいてどのようにしてデータ対象を初期化するか決定しなければならない。従って、計算機Ｎ１は、データ対象のより新しい値がデータベースＤＢ１ではなくてデータベースＤＢ２に存在することを知らない。更に、この事を計算機Ｎ２について調査し又は交渉することは可能ではなく、それは計算機Ｎ２は現在動作していないからである。分散形データベースの初期化は、アッタＲ．等の「分散形データベースにおけるサイトでの初期化、回復及びバックアップ」、ソフトウエア工学についてのＩＥＥＥトランザクション、Ｖｏｌ、１０（６）、１９８３年１１月、ｐｐ．６４５−６５０、及びスキーンＤ．等の「分散形システムにおける破壊回復の形式的モデル」、ソフトウエア工学についてのＩＥＥＥトランザクション、１９８３年５月、ＳＥ−９（３）：２１９−２２８に詳しく説明されている。現在の初期化計画は、一般に計算機間の協力と通信を要求するが、これは（前述の様に）常に実行可能で現実的とは限らない。とくに問題なのは、複製されたデータベース環境において、複製されたデータベースシステムの他の計算機が動作していない時に第１の計算機においてどのようにしてデータ対象を初期化するかを決めることである。電気通信の分野において、ダウン時間を最少にすることは極めて重要である。従って、複製されたデータベースを使用して計算機システムを迅速に再始動することは最も重要である。必要とされるもの、従って、また本発明の目的は、局所的情報のみを使用して複製されたデータベースのデータ対象を初期化する方法及び装置である。概要複製されたデータベース環境において、全部のノードは、ネットワークを通じてのノード状態メッセージの受信により相互の安泰をモニタする。一つのノードが最早生きていないことが検出されると、他のノードは、この様なノードは故障したと推定する。ノード故障が検出されると、ノードダウン値を持つノード状態記録が故障しているノードに関してノードログに書込まれる。同様に、一つのノードが生きになり又は新しいノードがネットワークに知られるようになると、ノードアップ（ｎｏｄｅｕｐ）値を持つノード状態記録がノードログ（ｎｏｄｅｌｏｇ）に書込まれる。局所ノードが故障し、次に再始動すると、その局所ノードは、複製されたデータ対象の値をどのようにして初期化するかを決定するためそのノードログの内容を使用する。そのノードログを読出すことにより局所ノードは、データ対象はそのデイスクから初期化出来るかどうかを決定出来る。図面の簡単な説明本発明の前述及び他の目的、特徴、及び利点は、付随する図面に示される様な好ましい実施例のより特定した以下の記載から明らかになり、この図面において参照符号は種々の図を通じて同じ部品を指す。図面は必ずしも縮尺で描いたものではなく、強調は代わりに発明の原理を示すことに置いている。図１は、複製されたデータ対象が存在する２つのノードを含むネットワークの概略図である。図２は、図１のネットワークの一つのノードの概略図である。図３は、本発明のデータ対象初期化手順において実行されるステップを示す流れ図である。図面の詳細な説明以下の記載は、説明の目的で、限定のためではなく、本発明の完全な理解を提供するため特別のアーキテクチャ、インタフェース、技術等の特定の詳細が述べられている。しかし当業者には、本発明はこれらの詳細から逸脱する他の実施例において実施できることは明白であろう。他の場合においては、周知の装置、回路、及び方法の詳細な記載は、本発明の記載が不必要な詳細により不明確にならないように省略した。図１は、２つの例示的ノード３０Ａ及び３０Ｂを含むネットワーク２０を示し、これらノードはまた別々にノード「Ａ」及び「Ｂ」、また総称して「ノード３０」として呼ばれる。各ノード３０は、データ対象Ｘのそれ自身のバージョンを持っている。特定的には、ノード３０Ａは、ハードデイスク３２Ａを持ち、その中にデータ対象Ｘのバージョン、Ｘ−Ａと呼ばれるものが記憶される。同様に、ノード３０Ｂは、ハードデイスク３２Ｂを持ち、その中にデータ対象Ｘのバージョン、Ｘ−Ｂと呼ばれるものが記憶される。ここに採用されている様に、「データ対象」は、単一のデータ値を指し、又はしばしばデータベースにおいて起こるようにデータの集合又はテーブルを指すことが出来る。データ対象Ｘのバージョンは、ノード３０Ａ及び３０Ｂの両方に記憶されるので、一方のノードがデータ対象Ｘの値を更新すると、更新された値は他方のノードへ通信され、それで他方のノードも同様に更新された値を持つことが出来、これによりデータ対象Ｘの値の調整を維持する。この様な調整は、例えば２相コミットプロトコルの様な、分散形データベースに対する適切な更新又は交渉技術により行うことが出来る。各ノード３０は、処理装置又はＣＰＵ４０を含み、これは内部バス４２により多くの素子に接続される。内部バス４２に接続される素子の示されたものは、リードオンリメモリ（ＲＯＭ）４３、ランダムアクセスメモリ（ＲＡＭ）、デイスク駆動機構（ディスクドライブ）インタフェース４５、及びネットワークインタフェース４６を含む。デイスク駆動機構インタフェース４５はデイスク駆動機構５０に接続される。ネットワークインタフェース４６はネットワークリンク６０に接続され、これを通じてノード３０Ａ及び３０Ｂが通信する。ハードデイスク３２は、ノード状態不可侵メモリ又は記憶媒体の１例である。「ノード状態不可侵」により、メモリの内容は、ノードが故障し又は「ダウン」状態になる時、影響されずに残ることを意味する。ノード状態不可侵メモリは、１つの実施例においてハード磁気デイスクとして示されるが、他の形式のメモリ、例えば光デイスク、磁気テープ等も含まれることを理解すべきである。処理装置４０は、オペレーテイングシステムにおける一組の命令を実行し、これは次に処理装置４０が好ましくはハードデイスク３２に記憶される種々のアプリケーションプログラム７０の実行を可能にする。本発明に対し特に関心のあるのは、計算機製品において具体化され、データベース管理プログラム（ＤＡＭＡＰ）７２として知られる一組の命令である。データベース管理プログラム（ＤＡＭＡＰ）７２の動作の効果は、以下に述べる。データベース管理プログラム（ＤＡＭＡＰ）７２の顕著な面は、デイスク３２に保存されるログ８０の保守と利用である。図２は、ノード３０Ａをより詳細に且つ機能的見方から示している。これに匹敵する構造及び機能性がネットワーク３０の他のノード、例えばノード３０Ｂにも存在することは理解されるであろう。ノード３０Ａの処理装置４０Ａは、データベース管理プログラム（ＤＡＭＡＰ）７２Ａを実行している時、メッセージエンコーダ／デコーダ１００、状態メッセージ発生器１０２、ログ更新器１０６、及びログ打切り器１０８の機能を遂行する。メッセージエンコーダ／デコーダ１００は、ネットワークインタフェース４６に接続され、ネットワークリンク６０から受けたメッセージをデコードし、ネットワークリンク６０に向けられたメッセージをエンコードする。状態メッセージ発生器１０２は、第１のクロック信号を第１クロック１２０から受け、チャネルテーブルモニタ１０４は、第２のクロック信号を第２クロック１２２から受ける。ノード３０Ａは、それが首尾良く起動（ｂｏｏｔｅｄｕｐ）され、全部のデータ対象が初期化された後は「アップ」状態にあり、正常に実行する過程にある。アップ状態にある時、そして各クロック信号を第１クロック１２０から受けると、状態メッセージ発生器は状態質問メッセージをネットワーク２０のノードの各々へ出す。これに応じて、「アップ」状態にあるネットワーク２０のノード（例えば、破壊又はダウンでない）は、従来のＴＣＰ／ＩＰプロトコルを使用して「生き」メッセージ（“ａｌｉｖｅ”ｍｅｓｓａｇｅ）で応答する。夫々の他のノードからの「生き」メッセージはメッセージエンコーダ／デコーダ１００によりデコードされ、そのノードに対する生きビットがチャネルテーブル１３０内にセットされる。チャネルテーブル１３０は、ネットワークのノードに関する情報を記憶するために使用され、各ノードは異なるチャネルに対応し、それ故チャネルテーブル１３０内の異なるチャネルスロットに対応する。チャネルテーブル１３０は、５つのノードに対して５つの潜在的スロットが示されるが、本実施例においては簡単化のため唯１つの他のノード、即ちノード３０Ｂ（「Ｂ」）が示される。チャネルテーブル１３０内の各チャネルスロットに記憶される情報は、そのノードに対するネットワークアドレスを含む。従って、チャネルテーブル１３０内のアドレスを使用して各クロック信号がクロック１２０から受信されると、状態メッセージ発生器１０２は状態質問メッセージを作成し、これはエンコードされ、ネットワークインタフェース４６Ａを経由してネットワークリンク６０へ印加される。チャネルテーブル１３０内の各チャネルスロットに記憶される情報はまた、夫々のノードに対する復帰状態（ｒｅｔｕｒｎｅｄｓｔａｔｕｓ）ビットを含む。前述の様に、このビットは、夫々のノードからの「生き」メッセージの受信に従ってセットされる。チャネルテーブル１３０は、ＲＯＭ４３の中に維持することが出来る。代わりに、チャネルテーブル１３０の少なくとも復帰状態ビットは、処理装置４０のレジスタの中に記憶できる。クロック１２２により出される各クロック信号を使用して、チャネルテーブルモニタ１０４は、チャネルテーブル１３０の復帰ビット内容を取り出し、ノードのその状態を確認するため復帰ビットを読出し、テーブル１３０内のビットの各各をリセットする。クロック１２２からのクロック信号の周波数は、クロック１２０からのクロック信号のそれよりもかなり低い。もしチャネルテーブルモニタ１０４が、クロック１２２からのクロック信号を受けて、一つのノードに対する復帰ビットが、そのリセットからセット状態へ変更されていないことを決定すると、その対応するノードはダウン（ｄｏｗｎ）であると宣言される。例えば、もしチャネルテーブル１３０内のチャネルスロットＢが、ノード３０Ｂからの状態質問メッセージに応じて未だセットされていないならば、ノード３０Ｂは死んでいる（ｄｅａｄ）と宣言される。一つのノードがダウンであると決定されると、ログ更新器１０６は、ノード状態記録（そのノードがダウンである事を示す）をログ８０Ａへ書き込む。ログ更新器１０６により作成されるノード状態記録は、ノードの識別とノードの状態を含む。１つの実施例において、ノード状態記録は、形式「｛Ｂ、ノード状態｝」を持ち、そこに「Ｂ」はノードの識別子（即ち、ノードＢ［３０Ｂ］）、また「ノード状態」は識別されたノードの状態を示す。例えば、もしノード３０Ｂがダウンと宣言されると、「ノードダウン」ノード状態記録が、次の様にデイスク３２Ａに書き込まれる、即ち、｛Ｂ、ノードダウン｝。テーブルモニタ１０４が、一つのノードが死んでいると宣言すると、それは更に、その死んだノードの識別を死にノードテーブル１４０に記録する。死にノードテーブル１４０は好ましくはＲＡＭ４４の中に記憶される。死にノードテーブル１４０が、ダウンノードを示す値をその中に記憶している時は、テーブルモニタ１０４が死にノードテーブル１４０を調べ、チャネルテーブル１３０から復帰ビットを受信すると、死にノードテーブル１４０にリストされているどれかのノードがアップ状態に復帰したかどうかを決定する。もしチャネルテーブル１３０から拾った情報が、一つのノードがダウン状態からアップ状態へ変化したことを示していれば、対応するノードの識別は死にノードテーブル１４０から除去され、ノードアップ値を持つノード状態記録がログ８０Ａに書込まれる。周期的に、ログ打切り器（ｌｏｇｔｒｕｎｃａｔｏｒ）１０８はログ８０Ａの内容を読出し、ログ８０Ａの記録がどれかのノードに関して除去出来るかどうかを決定する。例えば、もしログ８０Ａが、ある与えられたノードに対して同じ数のノードダウンとノードアップ記録を持っていれば、ログ打切り器１０８はこの様なノードに対する全部の記録を除去出来る。ログ打切り器１０８は従ってログ８０Ａに対する記憶を節約するのに役立つ。前述は、ノード３０Ａの正常な動作について記載し、そこにノード３０Ａはモニタしており、適当な場合には、ネットワーク２０の他のログの状態、特にノード３０Ｂをログしている。ここでは特定して記載しないが、ノード４０Ａの処理装置４０Ａにより実行される他のアプリケーションプログラムが値を取り出し、修正し、そしてデータ対象Ｘ−Ａを回復し、また値の修正をノード３０Ｂへ通信し、そのため更新された（修正された）データ対象Ｘの値がＸ−Ｂとしてデイスク３２Ｂ上へ記憶できることを理解すべきである。さて、ノード３０Ａが破壊し、例えばダウン状態になり、次に、引き続いて再始動する（例えば、アップ状態に復帰する）情況について説明する。この様な情況において、処理装置４０が直面する困難は、データ対象Ｘがアプリケーションプログラムにより次に要求される時に、どの値をデータ対象Ｘのために利用するかである。処理装置４０は、データ対象ｘのそのバージョン、即ちＸ−Ａが最も最近のものであるか、又はデータ対象Ｘのためその値は、ネットワーク２０の別のノードから入手すべきであるかを決定することである。初期化手順として知られる、この様な情況において遂行される手順は、図３に示すステップに反映されている。ステップ３−１は、再始動されている、例えば、リセット又は再ブート（ｒｅｂｏｏｔｅｄ）されるノード３０Ａを表す。再始動の後、処理装置４０Ａは、デイスク３２Ａからログ８０ＡをＲＡＭ４４Ａの中に読込む（ステップ３−２）。上に示した様に、ログ８０Ａは、ネットワーク２０の夫々のノードのためのノード状態記録を含み、これはノード３０Ａの死に先立って状態を変化させた（例えばダウンがらアップへ又はアップからダウンへ）。ログ８０Ａは、ノード３０Ａがダウンであった間に、ネットワーク２０の他のノードにどの様な状態変化が発生したかを知らない。ステップ３−３において、処理装置４０はノード３０Ｂが死んでいる（ダウン）か又は生きている（アップ）かを決定する。この決定は、メッセージをノード３０Ｂへ送ることにより遂行され、ノード３０Ｂが活動しているとしてデータ対象Ｘを持つかどうかを問合わせる。「活動している（ａｃｔｉｖｅ）」とは、データ対象Ｘのノードのバージョンが、現在の使用のためにノード状態不可侵メモリからＲＡＭの様なメモリの中へロードされたことを意味する。もしノード３０Ｂが答えなければ、処理装置４０はノード３０Ｂが死んでいると結論する。さもなければ、ノード３０Ｂは、肯定的（即ち、データ対象Ｘは活動している）か、又は否定的（即ち、データ対象Ｘは活動していない）かいずれかで答える。この問合わせに対する答えは、ステップ３−４において採用され、データ対象Ｘがノード３０Ｂにおいて活動している場合のステップ３−５への分岐か、又はデータ対象Ｘがノード３０Ｂにおいて活動していない場合のステップ３−６への分岐となる。もしデータ対象Ｘがノード３０Ｂにおいて活動しているならば、処理装置４０Ａは、データ対象Ｘの活動しているバージョンをノード３０Ｂからステップ３− ５において、データ対象のコピーを複製されたデータベースにおいて入手する通常の実行に従い入手する。もしデータ対象Ｘがノード３０Ｂにおいて活動していなければ、ステップ３− ６において処理装置４０は、ノードＢがログ８０Ａにおいて「ダウン」のログされた状態を持つかどうかを調べる。この様な場合が在り得るが、例えば、ノードＢが最初に死に、ノードＡが更にデータ対象Ｘを操作し、ノードＡがそこで死に、そしてノードΛが再始動された前にノードＢが再始動されたというシナリオである。もしノードＢが、ログ８０Ａにおいて「ダウン」のログされた状態を持つならば、そこで処理装置は、データ対象Ｘの値として使用するためデータ対象ＸのバージョンＸ−Ａをそれ自身のデイスク３２Ａから入手する（ステップ３−７）。処理装置４０はそこでノード３０Ｂにデータ対象Ｘの初期化されたバージョンを通知するが（ステップ３−８）、これは特に、ノード３０Ｂが最初に再始動されたが、データ対象の最も最近の値を入手するためノードＡの再始動を待たなければならない情況において利益がある。もしステップ３−６において、ノード３０Ｂはログ８０Ａ内にログされた「ダウン」状態を持たないと決定され、しかもノード３０Ｂは生きており、データ対象Ｘを待ちかまえているならば、処理装置４０Ａは、ノードＡとＢの死は実質的に同時に発生したと結論する。この様な事情のため、ステップ３−９において処理装置４０Ａは、データ対象のコピーを、２つのノードＡ、Ｂのどちらでもそれが好む方から入手する。大抵の情況において、データ対象のコピーを、ステップ３−７に対して上に述べた方法の様に、それ自身のデイスクに記憶されるバージョンＸ−Ａから入手するのがより容易であろう。次に処理装置４０Ａはノード３０Ｂに通知する（ステップ３−８）。もしステップ３−３において、ノード３０Ｂは生きていない（例えば、ノードＢはダウン）と決定されると、処理装置４０Ａはステップ３−１０において、ノードＢはログ８０Ａにおいてダウンであると示されているかどうかを調べる。もしノードＢが「ダウン」とログされた状態を持っていると、ステップ３−１１において処理装置４０Ａは、ステップ３−７と同じ方法で、データ対象の初期化された値として使用するためバージョンＸ−Ａをそのデイスク３２Ａから入手する。ノードＢはダウンであるので、データ対象の初期化された値をノードＢへ通信する必要はない。もし、他方、ノード３０Ｂはログ８０Ａ内でダウンであると示されていないならば、処理装置４０Ａは、データ対象Ｘは未だロード可能ではないことを示さなければならない（ステップ３−１２）。この様なことは、以下のシナリオにおいて発生し、即ち、ノードＡが死ぬ最初のもので、ノードＢがその後データ対象の値を変更したかも知れず、ノードＢがそこで死に（例えば、死ぬ２番目のもの）、ノードＡが最初に再始動され、そして次に（引き続いて）ノードＢが再始動された。この様な場合、ノードＡは、ステップ３−８においてノードＡにより発生するメッセージと類似したノードＢからのメッセージを待たなければならなかったであろう。簡単のために本発明は、２つのノード、即ちノード３０Ａと３０Ｂを含むネットワークに関して上に説明したが、本発明は、より多くのノードを持つネットワークに容易に適用出来る。これに関して、以下に述べるのは、どの様な大きさのネットワークにおいてもノードＡにおいて本発明に従いデータ対称Ｘを初期化するための一般化した論理である。ここで使用される用語「ＲＥＰＳ」は、データ対称Ｘの複製が存在する一組のノード（ノード３０Ａ以外）を指す。「ＡＣＴＩＶＥ」は、現在走行している、即ち生きている一組の全部のノードである。「ＡＲＥＰＳ」は、現在走行しており且つまたデータ対称Ｘの複製を持つ一組のノードである。「ＤＯＷＮＳ」は、ノード３０Ａのログ８０Ａに従い、ノード３０Ａが死ぬ前に死んだ一組のノードである。「Ｄ２」は、組ＤＯＷＮＳと組ＲＥＰＳの共通部分である。ＡＣＴＩＶＥ情報は、初期化前に、チャネルテーブル１３０に関して上に述べた方法でネットワークＩ／Ｏを使用して全部のノードの状態を調べることにより入手される。上述の手順は、ＡＣＴＩＶＥ組が空であっても動作する。もしデータ対称Ｘが既に、組ＡＲＥＰＳ内に含まれる一つのノードへロードされていれば、処理装置４０Ａは、ネットワークを通じてこの様なノードからデータ対称Ｘのコピーを入手しさえすればよい。もし、しかし、組Ｄ２が組ＲＥＰＳと同じであれば、処理装置４０Ａは、そのログ８０Ａが、データ対称Ｘの複製を保持する全部の他のノードに対する最後の記録としてノードダウン記録を持っていることに気が付く。この場合、ノード３０Ａの処理装置４０Ａは、それがデータ対称Ｘを操作する最後であったことを了解し、データ対称Ｘのための値をデイスク３２Ａに記憶されているそのバージョンからロード出来る。処理装置４０Ａはまた、ＡＲＥＰＳの組内の全部の他のノードにネットフークを通じてデータ対称Ｘの初期化された値を通知する。もし組ＲＥＰＳが組ＡＲＥＰＳと同じであれば、処理装置４０は、それらノードが同時に故障したと仮定する。どのノードも彼等の夫々のログの中に必要なノードダウンメッセージを発見することは出来ないであろう。この様なことは、（ａ）データ対象がネットワーク上で利用出来ないか、又は（ｂ）データ対象の複製を持つと想像される全部の他のノードが走行しているが、これらノードのどれもロードされたデータ対象を持たないとき発生し得る。この様な情況において、処理装置４０Ａは、同時の故障が発生したと結論することが出来、データ対象Ｘをデイスクからロードするためどちらのノードも選ぶことが出来る。ノードの選ばれた１つは、しかし、残りにノードに、彼等は今やデータ対象をネットワークを通じてコピー出来ることを知らせる。組ＲＥＰＳが組ＡＲＥＰＳと同じでない情況においては、処理装置４０Ａはデータ対象を未だロードすることは出来ず、しかし代わりにどれか他のノードがデータ対象を彼等の夫々のデイスクから読出すことを決めるまで待たねばならない。処理装置４０Ａは差し当たり単にデータ対象は未だロードされていないことを示し、そして継続する。本発明は、単純性と応用性の両方を持つ。本発明は、同時性制御アルゴリズムを採用しないデータ管理システムのために実施出来、またデータベースの多重複製を維持するデータベースシステムに適用出来る。本発明は、例えば、そのデータを複製するフォールトトレラント世界的ウエブ（ＷＷＷ）サーバに適用出来る。データ対象がＷＷＷサーバに書込まれると何時でも、それは２つのノードに書込まれる。この形式の応用において、全部の複製が、他のノードの走行を要求することなく、始動できることが重要である。更に、２つのノードがデータ対象を複製している情況において、一方のノードが故障すると、他方のノードがその（いまや単一で）複製を更新することを継続する。更新は安全に継続できるが、その理由は本発明は、譬えこの最後のノードが故障するとしても、正しいバージョンがそれにも拘らずロードされることを保証するからである。本発明は、その好ましい実施例に関し特別に示し且つ記載したが、発明の精神及び範囲を逸脱することなく形式及び詳細において種々の変更がなされ得ることは当業者により理解されるであろう。

【手続補正書】特許法第１８４条の８第１項【提出日】平成１１年７月２日（１９９９．７．２）【補正内容】明細書複製されたデータ対象の初期化この発明は、同時に出願された「複製されたデータ対象のための残存クロック」と題する米国特許出願一連番号第０８／８７６，５８８号に記載された発明に関する。前記出願の内容は、ここに引用することにより、本明細書の一部として取り込むこととする。背景 1. 発明の分野この発明は、分散形又は複製形データベース（ｄｉｓｔｒｉｂｕｔｅｄｏｒｒｅｐｌｉｃａｔｅｄｄａｔａｂａｓｅ）に関し、特にこの様なデータベースに保存されたデータ対象（ｄａｔａｏｂｊｅｃｔ）の初期化に関する。 2. 関連技術及び他の考察アプリケーションプログラムを実行する時、計算機はしばしばデータ対象の値を割当て及び／又は変更する。多くの場合において、データ対象は。データベースの一部として記億される。複数の計算機が一緒にネットワーク形成されるより複雑なシステムにおいては、１つより多い計算機が一つのあるデータ対象にアクセスすることを要求するかも知れず、またそのデータ対象の値を変更又は更新するかも知れない。この様な多重計算機がネットワーク形成される環境を賄うために、複製されたデータベースシステムを確立することが出来る。複製されたデータベースシステムにおいては、複製されたデータベース間の一貫性を維持するため全部の他の計算機にデータ対象の変更が通知される限りにおいて各計算機はそれ自身のデータベースのバージョンを維持することが出来る。複製されたデータベースは、２つの主要な利点をもつている。第１の利点はフォールトトレランスである。第２の利点は、複製されたデータベースへの局所アクセスが、別の計算機におけるデータベースへの遠隔アクセスより速く且つ安価であることである。これらの利点にも拘らず。複製されたデータベースにおけるデータ対象の初期化は複雑となり得る。例えば、一緒にネットワーク形成される２つの計算機Ｎ１とＮ２を含む簡単な情況を仮定する。各計算機Ｎ１、Ｎ２は、そのデータベースのバージョンを持ち、計算機Ｎ１におけるデータベースのバージョンはＤＢ１であり、また計算機Ｎ２におけるデータベースのバージョンはＤＢ２である。両方の計算機Ｎ１及びＮ２が正常に機能していると、一方の計算機によるデータ対象のいかなる変更もネットワークを通じて他方の計算機に通信され、そのためデータベースＤＢ１、ＤＢ２は同一に保持される。この様な変更及びデータ対象の更新の交渉は、従来技術において、バーンシュタイン、Ｐ．Ａ等のデータベースシステムにおける同時性制御及び回復、アデイソンウエスレイ、１９８７に述べられている様に２相コミット（ｔｗｏ−ｐｈａｓｅｃｏｍｍｉｔ）プロトコルを使用して（例えば）一般に行われる。計算機Ｎ１は故障し、しかし計算機Ｎ２は動作し続け、そのデータベース内のデータ対象の値を更新する情況を考える。それから計算機Ｎ２も引き続いて故障し、結果として両方の計算機Ｎ１及びＮ２がダウンすると仮定する。データベースＤＢ２内のデータ対象の内容は、データベースＤＢ１内の同じデータ対象の内容より新しい。計算機Ｎ１が再始動した時、計算機Ｎ１に対して、データベースＤＢ１内に記憶されているそのバージョンを使用してデータ対象に対する値を初期化しようと試みることは誤りであろうし、その理由はより新しいデータは計算機Ｎ２により保存されるデータベースＤＢ２に存在するからである。しかし、計算機Ｎ１は、計算機Ｎ１に利用出来る局所的情報のみに基づいてどのようにしてデータ対象を初期化するか決定しなければならない。従って、計算機Ｎ１は、データ対象のより新しい値がデータベースＤＢ１ではなくてデータベースＤＢ２に存在することを知らない。更に、この事を計算機Ｎ２について調査し又は交渉することは可能ではなく、それは計算機Ｎ２は現在動作していないからである。分散形データベースの初期化は、アッタＲ．等の「分散形データベースにおけるサイトでの初期化、回復及びバックアップ」、ソフトウエア工学についてのＩＥＥＥトランザクション、Ｖｏｌ、１０（６）、１９８３年１１月、ｐｐ．６４５−６５０、及びスキーンＤ．等の「分散形システムにおける破壊回復の形式的モデル」、ソフトウエア工学についてのＩＥＥＥトランザクション、１９８３年５月、ＳＥ−９（３）：２１９−２２８に詳しく説明されている。現在の初期化計画は、一般に計算機間の協力と通信を要求するが、これは（前述の様に）常に実行可能で現実的とは限らない。とくに問題なのは、複製されたデータベース環境において、複製されたデータベースシステムの他の計算機が動作していない時に第１の計算機においてどのようにしてデータ対象を初期化するかを決めることである。ＪＰ−Ａ−０２０５９９４２は、分散形データベースのためのノード接続状態管理システムを開示し、そこでは各ノードの接続状態は回復可能記憶装置内に別のノードと共に記憶される。電気通信の分野において、ダウン時間を最少にすることは極めて重要である。従って、複製されたデータベースを使用して計算機システムを迅速に再始動することは最も重要である。必要とされるもの、従つて、また本発明の目的は、局所的情報のみを使用して複製されたデータベースのデータ対象を初期化する方法及び装置である。概要複製されたデータベース環境において、全部のノードは、ネットワークを通じてのノード状態メッセージの受信により相互の安泰をモニタする。一つのノードが最早生きていないことが検出されると、他のノードは、この様なノードは故障したと推定する。ノード故障が検出されると、ノードダウン値を持つノード状態記録が故障しているノードに関してノードログ（ｎｏｄｅｌｏｇ）に書込まれる。同様に、一つのノードが生きになり又は新しいノードがネットワークに知られるようになると、ノードアップ（ｎｏｄｅｕｐ）値を持つノード状態記録がノードログに書込まれる。更新は安全に継続できるが、その理由は本発明は、譬えこの最後のノードが故障するとしても、正しいバージョンがそれにも拘らずロードされることを保証するからである。本発明は、その好ましい実施例に関し特別に示し且つ記載したが、形式及び詳細において種々の変更がなされ得ることは当業者により理解されるであろう。請求の範囲独占的所有権又は特権が請求される発明の実施例は以下の様に定義される。 1. データ対象の値、及びネットワークの第２のノード（３０Ｂ）のログされた第２ノード状態を表すログ（８０Ａ）が維持され、前記データ対象は第２のノードにおいて複製されるようになつている、ノードに関して不可侵であるメモリ（３２Ａ）を含む、ネットワークのノード（３０Ａ）であって、（１）前記ログを維持し、（２）データ対象に対する値がノードにおいて変化すると、データ対象に対する更新された値を第２のノードへ送り、（３）第２のノードの状態を知らせる周期的メッセージを第２のノードから受け取り、（４）ノードの状態がダウン状態からアップ状態へ変化する時は、どの様にしてノードにおけるデータ対象を初期化するかを決定するため、前記ログされた第２ノード状態を使用する処理装置（４０Ａ）を備えることを特徴とする、ネットワークのノード。 2. 請求項１に記載の装置において、第２ノード状態がダウン状態であり、またログされた第２ノード状態がダウン状態であり、前記処理装置はデータ対象をメモリに維持された値を使用して初期化する、装置。 3. 請求項１に記載の装置において、第２ノード状態がダウン状態であり、またログされた第２ノード状態がアップ状態であり。前記処理装置はデータ対象を初期化することが出来ない、装置。 4. 請求項１に記載の装置において、第２ノード状態がアップ状態であり、またログされた第２ノード状態がダウン状態であり、前記処理装置はデータ対象をメモリに維持された値を使用して初期化する、装置。 5. 請求項１に記載の装置において、第２ノード状態がアップ状態であり、またログされた第２ノード状態がアップ状態であり、前記装置はデータ対象のための初期化値を第２のノードから入手する、装置。 6. 少なくとも２つのノード（３０Ａ、３０Ｂ）を持つネットワークであって、前記ネットワークは第１ノード（３０Ａ）及び第２ノード（３０Ｂ）を有し、前記第１ノードは、複製されたデータ対象のための第１ノード値（Ｘ−Ａ）、及びネットワークの第２ノードの第２ノードログ状態を表す第１ノードログ（８０Ａ）が維持され、ノードの状態に関して不可侵である第１ノードメモリ（３２Ａ）を備え、前記第２ノードは、複製されたデータ対象のための第２ノード値（Ｘ−Ｂ）、及びネットワークの第１ノードの第１ノードログ状態を表す第２ノードログ（８０Ｂ）が維持され、ノードの状態に関して不可侵である第２ノードメモリ（３２Ｂ）を備え、前記ネットワークは、（１）前記第１ノードログを維持し、（２）データ対象に対する値が第１ノードにおいて変化した時は、データ対象に対する更新された値を第２ノードへ送り、（３）第１ノードのアップ状態を通知する周期的メッセージを第２ノードへ送り、（４）第１ノードの状態がダウン状態からアップ状態へ変化する時は、データ対象の第１ノード値をどのように初期化するかを決定するためログされた第２ノード状態を使用する、第１ノード処理装置（４０Ａ）と、（１）前記第２ノードログを維持し、（２）データ対象に対する値が第２ノードにおいて変化した時は、データ対象に対する更新された値を第１ノードへ送り、（３）第２ノードのアップ状態を通知する周期的メッセージを第１ノードへ送り、（４）第２ノードの状態がダウン状態からアップ状態へ変化する時は、データ対象の第２ノード値をどのように初期化するかを決定するためログされた第１ノード状態を使用する、第２ノード処理装置（４０Ｂ）とを備えることを特徴とする、ネットワーク。 7. プログラムメモリ（７０Ａ）内に記憶される一組のプログラムされた命令を含む計算機プロダクト（ＤＡＭＡＰ）であって、前記一組の命令は、ネットワークの第１ノード（３０Ａ）の処理装置（４０Ａ）により実行されると、第１ノードがアップ状態を持つ間、前記ネットワークの第２ノード（３０Ｂ）の第２ノード状態から周期的アップ状態メッセージを受信して、ログされた第２ノード状態を第１ノードの状態に関して不可侵であるメモリ（８０Ａ）内に維持するため前記周期的アップ状態メッセージを使用するステップと、第１ノードの状態がダウン状態からアップ状態へ変化する時は、どの様に前記第１ノードの不可侵メモリに維持された、前記第１ノードにおけるデータ対象（Ｘ−Ａ）を初期化するかを決定するため前記ログされた第２ノード状態を使用するステップと、データ対象に対する値が第１ノードにおいて変化する時は、データ対象に対する更新された値を第１ノードから第２ノードへ送るステップとを実行する、計算機プロダクト。 8. 請求項７に記載の計算機プロダクトにおいて、前記一組のプログラムされた命令の実行は、その結果として、第２ノード状態がダウン状態であり且つログされた第２ノード状態がダウン状態である時は、データ対象を不可侵メモリに維持された値を使用して初期化するステップを更に実行する、計算機プロダクト。 9. 請求項７に記載の計算機プロダクトにおいて、前記一組のプログラムされた命令の実行は、その結果として、第２ノード状態がダウン状態であり且つログされた第２ノード状態がアップ状態である時は、データ対象を初期化しないようにするステップを更に実行する、計算機プロダクト。 10．請求項７に記載の計算機プロダクトにおいて、前記一組のプログラムされた命令の実行は、その結果として、第２ノード状態がアップ状態であり且つログされた第２ノード状態がダウン状態である時は、データ対象を不可侵メモリに維持された値を使用して初期化するステップを更に実行する、計算機プロダクト。 11．請求項７に記載の計算機プロダクトにおいて、前記一組のプログラムされた命令の実行は、その結果として、第２ノード状態がアップ状態であり且つログされた第２ノード状態がアップ状態である時は、データ対象のための初期化値は第２ノードから入手するステップを更に実行する、計算機プロダクト。 12．データ対象を複製されたデータベースシステム内に維持する方法であって、データ対象の調整された値（Ｘ−Ａ、Ｘ−Ｂ）を第１ノード（３０Ａ）及び第２ノード（３０Ｂ）のノード状態不可侵メモリ内に維持するステップと、第１ノード及び第２ノードのアップ状態を夫々示すメッセージを第１ノード及び第２ノードにおいて周期的に発生してこれらメッセージを第１ノードと第２ノードの間で送信するステップと、第１ノード及び第２ノードの各々の不可侵メモリ内にログ（８０Ａ、８０Ｂ）を維持するステップにして、第１ノードのノードログにはログされた第２ノード状態が記憶され、第２ノードのノードログにはログされた第１ノード状態が記憶されるようにするステップと、第１ノード及び第２ノードの一方がダウン状態を取得し且つその後ダウン状態からアップ状態へ変化した時は、そのノードログを、どの様にデータ対象を初期化するかを決定するために使用するステップと、データ対象に対する値が第１ノード及び第２ノードの一方において変化した時は、データ対象に対する更新された値を他方のノードへ送るステップとを有する、データ対象を複製されたデータベースシステム内に維持する方法。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＧＨ，ＧＭ，ＧＷ，ＨＵ，ＩＤ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＷ

Claims

【特許請求の範囲】独占的所有権又は特権が請求される発明の実施例は以下の様に定義される。 1. ネットワークのノードであって、データ対象の値、及びネットワークの第２のノードのログされた第２ノード状態を表すログが記憶され、前記データ対象は第２のノードにおいて複製されるようになっている、ノードに関して不可侵であるメモリと、前記ログを維持し、ノードの状態がダウン状態からアップ状態へ変化すると、前記ログされた第２ノード状態を使用してどの様にしてデータ対象を初期化するかを決定する処理装置と、を包含するネットワークのノード。 2. 請求項１に記載の装置において、第２ノード状態がダウン状態であり、またログされた第２ノード状態がダウン状態であり、処理装置はデータ対象をメモリに記憶された値を使用して初期化する、装置。 3. 請求項１に記載の装置において、第２ノード状態がダウン状態であり、またログされた第２ノード状態がアップ状態であり、処理装置はデータ対象を初期化することが出来ない、装置。 4. 請求項１に記載の装置において、第２ノード状態がアップ状態であり、またログされた第２ノード状態がダウン状態であり、処理装置はデータ対象をメモリに記憶された値を使用して初期化する、装置。 5. 請求項１に記載の装置において、第２ノード状態がアップ状態であり、またログされた第２ノード状態がアップ状態であり。処理装置はデータ対象のための初期化値を第２のノードから入手する、装置。 6. 少なくとも２つのノードを持つネットフークであって、前記ネットワークは第１ノード及び第２ノードを有し、前記第１ノードは、複製されたデータ対象のための第１ノード値、及びネットワークの第２ノードの第２ノードログ状態を表す第１ノードログが記憶され、ノードの状態に関して不可侵である第１ノードメモリと、前記第１ノードログを維持し、第１ノードの状態がダウン状態からアップ状態へ変化すると、前記ログされた第２ノード状態を使用してデータ対象の第１ノード値をどのように初期化するかを決定する第１ノード処理装置とを有し、前記第２ノードは、複製されたデータ対象のための第２ノード値、及びネットワークの第１ノードの第１ノードログ状態を表す第２ノードログが記憶され、ノードの状態に関して不可侵である、第２ノードメモリと、前記第２ノードログを維持し、第２ノードの状態がダウン状態からアップ状態へ変化すると、前記ログされた第１ノード状態を使用してデータ対象の第２ノード値をどのように初期化するかを決定する第２ノード処理装置とを有する、ネットワーク。 7. プログラムメモリ内に記憶される一組のプログラムされた命令を含む、計算機プロダクトであって、前記一組の命令は、ネットワークの第１ノードの処理装置により実行されると、前記ネットワークの第２ノードの第２ノード状態を確認し、前記第１ノードがアップ状態にある間に、ログされた第２ノード状態を、第１ノードの状態に関して不可侵であるメモリ内に記憶するステップと、前記ノードの状態がダウン状態からアップ状態へ変化する時、どの様にデータ対象を初期化するかを決定するため、前記ログされた第２ノード状態を使用するステップとを実行し、前記データ対象もまた前記不可侵メモリに記憶される、計算機プロダクト。 8. 請求項７に記載の計算機プロダクトにおいて、前記一組のプログラムされた命令の実行は、その結果として第２ノード状態がダウン状態であり且つログされた第２ノード状態がダウン状態である時は、データ対象を不可侵メモリに記憶された値を使用して初期化するステップを更に実行する、計算機プロダクト。 9. 請求項７に記載の計算機プロダクトにおいて、前記一組のプログラムされた命令の実行は、その結果として、第２ノード状態がダウン状態であり且つログされた第２ノード状態がアップ状態である時は、データ対象を初期化しないようにするステップを更に実行する計算機プロダクト。 10．請求項７に記載の計算機プロダクトにおいて、前記一組のプログラムされた命令の実行は、その結果として、第２ノード状態がアップ状態であり且つログされた第２ノード状態がダウン状態である時は、データ対象を不可侵メモリに記憶された値を使用して初期化するステップを更に実行する、計算機プロダクト。 11．請求項７に記載の計算機プロダクトにおいて、前記一組のプログラムされた命令の実行は、その結果として、第２ノード状態がアップ状態であり且つログされた第２ノード状態がアップ状態である時は、データ対象のための初期化値は第２ノードから入手するステップを更に実行する、計算機プロダクト。 12．データ対象を複製されたデータベースシステム内に維持する方法であって、データ対象の調整された値を第１ノード及び第２ノードのノード状態不可侵メモリ内に維持するステップと、第１ノード及び第２ノードのアップ状態を夫々示すメッセージを第１ノード及び第２ノードにおいて周期的に発生するステップと、第１ノード及び第２ノードの各々の不可侵メモリ内にログを維持し、第１ノードのノードログにはログされた第２ノード状態が記憶され、第２ノードのノードログにはログされた第１ノード状態が記憶されるようにするステップと、第１ノード及び第２ノードの一方がダウン状態を取得し且つその後ダウン状態からアップ状態へ変化した時は、そのノードログを、どの様にデータ対象を初期化するかを決定するために使用するステップとを有する、データ対象を複製されたデータベースシステム内に維持する方法。