JP2726001B2

JP2726001B2 - コンピユータ・システムにおける誤り回復方法

Info

Publication number: JP2726001B2
Application number: JP6102395A
Authority: JP
Inventors: イラ・リチャード・フォーマン; ハリ・ハラナス・マッドウリイ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-06-14
Filing date: 1994-05-17
Publication date: 1998-03-11
Anticipated expiration: 2013-03-11
Also published as: JPH0713839A; EP0629949A3; EP0629949A2

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、分散処理を行なうコン
ピユータ・システム（以下、分散コンピユータ・システ
ムという）の動作に関する。より詳細に言えば、本発明
は、夫々のノードが少なくとも１つの複製されたデータ
・オブジエクトのコピーにアクセスする複数個の処理ノ
ードを有する分散コンピユータ・システムにおいて、複
製されたデータ・オブジエクトへのアクセスを管理する
方法及び装置を必要とする分散コンピユータ・システム
に関する。更に詳細に言えば、本発明は、分散された複
数のプロセス（処理ノード）の１つに対して、データ項
目の更新処理の許可を与える書き込みロツクの管理に関
する。

【０００２】

【従来の技術】分散コンピユータ・システムは、通信ネ
ツトワークを用いて複数個のコンピユータ・システムを
リンクすることによつて作られている。分散コンピユー
タ・システムは、しばしば、独立したコンピユータ・シ
ステムの中に常駐するデータを共有する能力を持つてい
る。複製されたデータのコンピユータ・システムは、そ
のデータ・オブジエクトを用いた各処理ノードを対象と
するデータの複製データのコピーを与えることによつて
データの共有を行なつている。複製されたデータのコン
ピユータ・システムは、必要なデータを検索し、あるい
は供給するためにネツトワークを介してメツセージを送
る必要を無くすことによつて、各プロセツサに対するア
クセスの時間を小さくすることができる。複製されたデ
ータ・オブジエクトは、複数個の分散コンピユータ・シ
ステムのために物理的に複製されたものであつて、複数
のコンピユータ・システムの１つに存在するデータの論
理的単位である。通常、複製されたデータ・オブジエク
トのコピーは、分散コンピユータ・システムのメモリ中
に保持されている。

【０００３】また、複製されたデータ・オブジエクト
は、データ・オブジエクトをローカルで（局所的に）直
接に更新するのを可能とすることによつて更新処理速度
を向上する。然しながら、複製されたデータのコンピユ
ータ・システムは、多数のデータ・オブジエクトのコピ
ーを作ることになるから、制御に関して問題を生じる。
分散コンピユータ・システムは、データのすべてのコピ
ーが一貫性を保つていることを保証するために、データ
の更新を制御するための何らかの手段を持たなければな
らない。

【０００４】従来のシステムは、分散コンピユータ・シ
ステムの１つのコンピユータ・システムの中に、マスタ
（親の）データ・オブジエクト・コピーを設定すること
によつてデータの一貫性を制御している。マスタ・デー
タ・オブジエクト・コピーは、常に有効であると見做さ
れる。マスタ・データ・オブジエクト・コピーの更新以
外の、システムによるデータ・オブジエクトの更新は、
データ・オブジエクトを更新し、かつ、それをすべての
複製処理装置に転送するために、マスタ処理ノードに更
新要求を送ることが必要である。この方法は、マスタ・
データ・オブジエクトの更新及びその更新データの転送
が行なわれるので、ローカルの応答時間を低下する短所
を持つている。

【０００５】複製されたデータを制御する他の手段は、
例えば、１９９２年１０月１６日に出願され、「複製さ
れたオブジエクト用の移動書込みロツク（Moving Write
Lock for Riplicated Objects）」と題する発明の名称
を付された米国特許出願第０７／９６１７５７号（特願
平５−２４００１２号）に記載されている。この米国特
許出願の発明は、ただ１つの「書込みロツク」が分散コ
ンピユータ・システム中に存在することと、要求時に各
プロセスに書込みロツクを渡すこととが要求される。デ
ータ・オブジエクトの更新は、「書込みロツク」を保持
しているプロセスだけしか遂行することができない。
「書込みロツク」を保持しているプロセスは、ローカル
のデータ・オブジエクト・コピーを更新することができ
る。従つて、「書込みロツク」を保持しているプロセス
は、データ・オブジエクト・コピーを更新して、他のプ
ロセスに転送するために、マスタ・プロセツサにその更
新されたデータ・オブジエクト・コピーを送る。

【０００６】複数個の分散プロセスのうち、どのプロセ
スをマスタにするかを決める方法の１例は、１９９２年
１０月１６日に出願され、「データ処理システムにおけ
る競争の勝利者の決定（Determining a Winner of a Ra
ce in a Data Processing System）」と題する発明の名
称を付された米国特許出願第０７／９６１７５０号に記
載されている。リソースを将来的に制御する各処理ノー
ドの間で起きる「競争（race）」は、「共有制御フアイ
ル（share control file）」中において、書込み制御を
最先に設定するプロセスをマスタ・プロセスの地位に任
命することになる。１つの処理ノードによつてこの共有
制御フアイルが設定された後には、他のプロセスは「影
の（shadow）」地位に任命される。マスタ処理ノードの
エラーはマスタ処理ノードを再評価する動作を生じる。

【０００７】本発明が対象としている技術課題は、複製
されたデータ・オブジエクトの書き込みロツク管理を用
いた分散コンピユータ・システムにエラーを許容する特
性（フオールトトレラント特性）を与えることである。
フオールトトレラント特性は、マスタ・プロセスのエラ
ーに起因して、データ、または更新データが喪失しない
ことを保証することが要求される。上記したような特性
を持つ従来のシステムは、再初期化されなければならな
いマスタ・プロセスの決定処理動作と、書込みロツク制
御とを必要とする。この方法は、若しローカルに更新さ
れたデータ・オブジエクトの複製がマスタ・プロセス、
または他の複製プロセスに転送されなければ、データの
喪失を生じることになる。

【０００８】

【発明が解決しようとする課題】本発明の目的は、複製
されたデータ・オブジエクトを持ち、フオールトトレラ
ントな分散コンピユータ・システムを提供することにあ
る。

【０００９】本発明の他の目的は、マスタ・プロセスの
誤りによつてデータの喪失を惹起しないことを保証する
ことにある。

【００１０】本発明の他の目的は、現在、書き込みロツ
クを保持しているプロセスがマスタ・プロセスになるた
めの最先の順位を保証することである。

【００１１】

【課題を解決するための手段】本発明は分散コンピユー
タ・システム中の書き込みロツクを管理する方法及び装
置に向けられている。

【００１２】本発明は書き込みロツク制御システムにお
けるマスタ・プロセスの誤りを回復する改良された装置
及び方法を与える。本発明は、どの影のプロセス（shad
ow process）が最も新しいデータ・オブジエクトを持つ
ているかを決定することと、最も新しいデータを持つて
いる影のプロセスをマスタにする試みとによつて、新し
いマスタ・プロセスを指定することがデータの一貫性を
喪失しないことを保証する装置及び方法をその目的とし
ている。

【００１３】本発明は、複数個のデータ・オブジエクト
の各データ・オブジエクトが複数個のアドレス空間中に
複製されており、複数個のプロセスのうちの１つはデー
タ・オブジエクトのマスタ・プロセスに、残りのすべて
のプロセスは影のプロセスに指定されてアクセスを求
め、当該マスタ・プロセスは、最大１つのプロセスに複
製されたデータを更新させることを許可する書き込みロ
ツクの共有を制御するようなコンピユータ・システムで
あつて、メモリを持つ少なくとも１つのコンピユータ・
プロセツサを有するコンピユータ・システムにおいて、
プロセスの誤りを回復する方法である。この方法は、マ
スタ・プロセスの誤りの指標を、影のプロセスの少なく
とも１つにおいて受け取り、影のプロセスの１つが書き
込みロツクを現在保持しているか否かを決定するテスト
を行い、若しそのプロセスが書き込みロツクを現在保持
しているならば、影のプロセスのうちの１つへ、マスタ
・プロセスの制御を転送し、若しそのプロセスが書き込
みロツクを現在保持していなければ、影のプロセスのう
ちのどのプロセスが書き込みロツクを保持しているかを
決定するテストを行なうとともに、書き込みロツクを保
持しているその影のプロセスに、それ自身をマスタ・プ
ロセスとして設定する要求を行なう。

【００１４】

【実施例】本発明は分散処理を行なうコンピユータ・シ
ステムの環境において実行される。この環境は通信ネツ
トワークによつてリンクされた複数個のコンピユータを
含んでいる。他の実施例として、本発明は、夫々のプロ
セス（処理ノード）が独立したアドレス空間を持つてい
る複数個のプロセスの実行を、単一のコンピユータ（例
えば単一のＣＰＵ）がサポートするマルチプログラミン
グ・システムにおいても適用することができる。

【００１５】本発明の良好な実施例はリンクされた複数
のコンピユータにより実施される。各コンピユータ・シ
ステムは図１に示したコンピユータ・システム１００を
構成するために示された装置を持つている。処理ノード
は中央処理装置、即ちＣＰＵ１０２により与えられる。
ＣＰＵ１０２はランダム・アクセス・メモリ（ＲＡＭ）
１０４の中にストアされたインストラクシヨン及びデー
タを用いて動作する。長いデータ項目をストアするスト
レージ装置はデイスク制御装置１２０によつて制御され
る１台、またはそれ以上のデイスク・ストレージ装置１
２２で与えられる。ストレージ媒体の他の種類として、
テープ、ＣＤ−ＲＯＭ、またはＷＯＲＭ（write once,
Read Many）装置を含む他のストレージ装置を用いるこ
とができる。また、データ、またはコンピユータを動作
するインストラクシヨンをストアするために、交換可能
なストレージ媒体を用いることができる。システムの操
作者はＩ／Ｏ制御装置１１２によつて制御されるＩ／Ｏ
装置を介してシステムと対話することができる。表示装
置１１４は操作者にデータを表示し、他方、キーボード
及び指示装置１１８によつて、システムの操作者はコン
ピユータ・システムを管理することができる。通信アダ
プタ１０６はこの処理装置と、ネツトワーク・インター
フエース１０８によつて接続されているネツトワーク中
の他のシステムとの間の通信を制御する。

【００１６】コンピユータ・システム１００は、マイク
ロコンピユータ、ミニコンピユータ及びメインフレーム
・コンピユータを含む任意の公知のコンピユータ・シス
テムであつてよい。本発明の良好な実施例において、Ｉ
ＢＭ社のパーソナル・コンピユータ・システム、PS/2、
またはＩＢＭ社のRISC SYSTEM/6000のフアミリー（PS/
2、RISC SYSTEM/6000はＩＢＭ社の商標）等のコンピユ
ータ・システムの使用を想定している。然しながら、サ
ン社（Sun）、またはヒユーレツト・パツカード社など
の他の会社のワークステーシヨン及びコンパツク社（Co
mpaq）、またはアツプル社のコンピユータも使用するこ
とができる。

【００１７】分散処理システムは図２に示されている。
各処理ノード２０２、２０４、２０６、２０８、２１０
は、プロセツサ間の通信を行なうネツトワーク２００に
接続されている。図２のデイスク・ストレージ装置２１
２によつて示されたように、付加的な不揮発性ストレー
ジ装置をネツトワークに関連付けることができる。他の
例として、処理ノードの１つの中の不揮発性ストレージ
装置をネツトワークの不揮発性ストレージ装置として使
用することもできる。

【００１８】ネツトワーク２００はＬＡＮ、ＷＡＮ、Ａ
ＴＭ等を含む任意の型式のネツトワークであつてよい。
物理的ネツトワークのプロトコルは、イーサネツト、ま
たはトークン・リング等のプロトコルを用いることがで
き、そして、ＴＣＰ／ＩＰ、またはＮｅｔｂｉｏｓ、ま
たはＮｏｖｅｌｌＮｅｔｗａｒｅ等の通信プロトコル
がネツトワークを制御することができる。サン・マイク
ロシステムズのＮＦＳ技術、またはＣＭＵＡＦＳ技術
に基づくプログラムによつて、ネツトワーク・フアイル
・システムの管理を与えることができる。これらのフア
イル・システムの各プログラムは、分散されたプロセス
によつて、遠隔システム中に常駐するデータにアクセス
し、これらのデータを管理することを可能にする。これ
らのネツトワーク・フアイル・システムは、個々のフア
イルの物理的なロケーシヨンとは無関係に、各プロセツ
サ用に単一の論理的フアイル・システムを創設する。Ｎ
ＦＳ技術は例えば、ＩＢＭ社の刊行物「Communication
Concepts and Procedures」（注文番号ＳＣ２３−２２
０３−００）等の中で詳細に説明されている。

【００１９】本発明の適用可能なネツトワークは、処理
ノードが屋内全体に分散され、または遠隔地に分散さ
れ、あるいは国境に跨がつて分散され得るネツトワーク
であることを意味する。

【００２０】本発明の良好な実施例は、対等のノード
（node）、即ち、ピア（peer）ノードの分散ネツトワー
クにおいて実施されている。ピア・ノードとは、各ノー
ドのどれもがマスタ・ノードではなく、かつ、どれもが
スレーブ・ノードでもないノードを持つネツトワークに
おいて、同等の地位を持つ対等のノードを意味する。ピ
ア・ノードを使用することは、要求が通過しなければな
らない唯１つのボトルネツクを持たないから、ネツトワ
ークの効率を改善する。従来の装置とは異なつて、各ノ
ードは各ノードの機能を遂行するために独立して動作す
ることができる。他の利点として、任意特定のノードの
エラーは、マスタ・プロセツサが存在する場合に生じる
ようなネツトワーク全体のエラーを生じない。ピア・ネ
ツトワークの欠点は、複製されたデータのデータ保全性
を制御する中心がないことである。

【００２１】上述の米国特許出願第０７／９６１７５０
号は、リソースの制御に関する「競争」のプロシージヤ
を教示している。図３はこの処理のステツプを示す流れ
図である。この処理は、共通のリソースの要求を発生す
るステツプ１５０において開始する。ステツプ１５２に
おいて、リソースを必要とするプロセスは、共有リソー
ス制御フアイルが存在するか否かを決定するテストを行
なう。若し共有リソース制御フアイルが存在しなけれ
ば、プロセスは共有リソース制御フアイル（ＳＣＦ）を
作成する処理ステツプ１５４に進む。上述のテストの結
果がイエスの場合も、ノーである場合にも、プロセスは
排他的書込みアクセス獲得を試行するステツプ１５６に
進む。ステツプ１５８において、若しこの試行が成功裡
に終了したならば、ステツプ１６０において、このプロ
セスは共有リソース制御フアイルを更新し、そして、ス
テツプ１６２において、マスタ・プロセスとなる。若し
排他的書込みロツクを獲得する試行が不成功に終つたな
らば、そのプロセスはマスタ・プロセスではない（ステ
ツプ１６４）ので、ステツプ１６６において、共有リソ
ース制御フアイルからマスタ・プロセスの名称を読取
り、競争の勝者の情報を読み取るために共有リソース制
御フアイルをオープンする。そして、ステツプ１６８に
おいて、マスタ・プロセスに接続し、ステツプ１７０に
おいて、影のプロセスとなる。若しこの要求プロセスが
マスタ・プロセスであれば、そのプロセスは、そのリソ
ースを直接にアクセスすることができるが、そうでなけ
れば、要求プロセスは影のプロセスであり、ステツプ１
７６において、アクセスのマスタと交渉（協議）しなけ
ればならない。

【００２２】本発明の良好な実施例の共有リソース制御
フアイルは論理的フアイル・システム中のストレージ・
フアイルである。従つて、共有リソース制御フアイルは
分散コンピユータ・システム中の不揮発性ストレージ装
置の１つの中に常駐している。然しながら、本発明は分
散コンピユータ・システムの間で共有されている揮発性
メモリ（ＲＡＭ）において管理されている共有リソース
の制御フアイルにも同じように適用することができる。

【００２３】マスタ・プロセスは、書き込みロツクを保
持するプロセスに対してデータ・オブジエクトのコピー
の更新を許可する、書き込みロツクの管理責任を持つて
いる。データ・オブジエクトの更新を望むすべてのプロ
セスは、先ず、マスタ・プロセスから書き込みロツクを
要求する。若しマスタ・プロセスが書き込みロツクを持
つていなければ、どの処理ノードがその書き込みロツク
を持つているのかを決定し、次に、要求したプロセスに
書き込みロツクを転送するメツセージを、その要求プロ
セスに送る。

【００２４】マスタ・プロセスの誤りは下記の２つの有
害な影響を与える。第１の影響は、影のプロセスがマス
タ・プロセスの誤りを検出し、その影のプロセスがそれ
自身を新しいマスタ・プロセスに設定すべく競争に参加
し、そして、その影のプロセスが新しい書き込みロツク
を作成した場合に生じる（何故なら、その影のプロセス
は前の書き込みロツクについての知識を持つていないか
らである）。この結果は、同じデータ・オブジエクトに
対して２つの書き込みロツクを存在させることになる。
つまり、古い書き込みロツクと新しい書き込みロツクが
存在することになる。従つて、２つのプロセスが同期す
ることなく同じデータ・オブジエクトを更新することに
なる。

【００２５】第２の影響は、データ・オブジエクトの古
い、不用のコピーを持つているプロセスをマスタ・プロ
セスとして指定する場合に生じる。この影響は、影のプ
ロセスが更新を開始したが、これを伝播させるためのマ
スタ・プロセスへの更新コピーの転送処理が完了してい
ない場合とか、あるいは、データを転送する前にマスタ
・プロセスが誤りをした場合に生じる。若し最後に更新
したプロセス以外のプロセスがマスタになつたならば、
そのプロセスは、それ自身のコピーを、データ・オブジ
エクトの現在値のコピーとして主張し、他のプロセスに
よつて提出された更新データ・オブジエクトのコピーは
失われるであろう。

【００２６】上述の２つの有害な影響は本発明によつて
克服することができる。本発明はデータ・オブジエクト
の最も新しいコピーを有するプロセスをマスタにさせる
よう試行する。これは通常、書き込みロツクを保持して
いるプロセスである。

【００２７】本発明の処理においては、書き込みロツク
を再度割り当てる動作が行なわれるまで競争の開始を遅
延する点が、上述の米国特許出願に記載された処理とは
異なつている。

【００２８】本発明の処理は図４を参照して説明する。
先ず、ステツプ２００において、誤りを生じたマスタ・
プロセス以外の残りのプロセスの１つがマスタ・プロセ
スの誤りを検出しなければならない。ＮＦＳのような共
有フアイル・システムにおいては、他のプロセスの誤り
を、リンクされたプロセス（複数）に通知する。他のタ
イプの共有フアイル・システムにおいては、メツセージ
がマスタ・プロセスに応答なく送られるまで、誤りの検
出は生じない場合がある。次に、ステツプ２０２におい
て、マスタ・プロセスの誤りを検出したプロセス（検出
プロセス）は、誤りを生じたマスタ・プロセスにより制
御されているリソースの書き込みロツクを、当該検出プ
ロセスが保持しているか否かを決定するテストを行な
う。若し検出プロセスが書き込みロツクを保持している
ならば、ステツプ２０４において、この検出プロセス
が、そのリソースについての共有制御フアイルの制御を
設定することによつてマスタ・プロセスの義務を引き受
ける。若し検出プロセスが書き込みロツクを保持してい
なければ、ステツプ２０６において、どのプロセスが書
き込みロツクを保持しているかを決定するために共有リ
ソース制御フアイルを読み取る。ステツプ２０８におい
て、検出プロセスによつて、マスタ・プロセスの義務を
引き受けることを要求するメツセージが、書き込みロツ
クを保持しているプロセスへ送られる。

【００２９】ステツプ２１０において、書き込みロツク
を保持しているプロセスは、上述の要求メツセージを受
け取り、そのプロセス自身をマスタ・プロセスとして設
定するよう試みる。

【００３０】次に、システムは、誤りを生じたプロセス
のリソースに対して、新しいマスタ・プロセスが指定さ
れたか否かを決定するテストを行なう。若し指定されて
いれば、処理は通常の状態に戻る。若しマスタ・プロセ
スが設定されていなければ、現在のシステムで行なわれ
ているのと同じように、すべての影のプロセス間で競争
が行なわれる。

【００３１】本発明の良好な実施例に従つた共有リソー
ス制御フアイルは、プロセス識別と、書き込みロツクを
保持するプロセスの通信アドレスとを含んでいる。他の
実施例において、この情報は、共有リソース制御フアイ
ルとは別のフアイル、または、別のストレージ装置の中
に含ませることができる。

【００３２】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００３３】（１）メモリを具備する少なくとも１つの
コンピユータ・プロセツサを有するとともに、複数個の
データ・オブジエクトの各データ・オブジエクトが複数
個のアドレス空間中に複製されており、複数個のプロセ
スのうちの１つは上記データ・オブジエクトのマスタ・
プロセスに、残りのすべてのプロセスは影のプロセスに
指定されてアクセスを求め、上記マスタ・プロセスが、
最大１つのプロセスに複製されたデータ・オブジエクト
を更新させることを許可する書き込みロツクの共有を制
御するコンピユータ・システムにおいて、上記プロセス
の誤りを回復する方法であつて、上記マスタ・プロセス
の誤りの指標を、上記影のプロセスの少なくとも１つに
おいて受け取るステツプと、上記影のプロセスの１つが
上記書き込みロツクを現在保持しているか否かを決定す
るテストを行なうステツプと、若し上記影のプロセスが
上記書き込みロツクを現在保持しているならば、該プロ
セスヘマスタ・プロセス制御を転送するステツプと、若
し上記影のプロセスが保持していなければ、上記影のプ
ロセスのうちのどのプロセスが書き込みロツクを保持し
ているかを決定するテストを行なうステツプと、書き込
みロツクを保持している上記影のプロセスをマスタ・プ
ロセスとして設定する要求を行なうステツプとを含む、
プロセスの誤りを回復する方法。

【００３４】

【発明の効果】本発明は、分散コンピユータ・システム
におけるマスタ・プロセスの誤りによるデータの喪失の
問題を解決する。

【図面の簡単な説明】

【図１】本発明を実行するコンピユータ・システムを示
すブロツク図である。

【図２】本発明に従つた分散ネツトワークのブロツク図
である。

【図３】従来のシステムのマスタ処理のエラー回復論理
を説明するための流れ図である。

【図４】本発明の実施例を説明するための流れ図であ
る。

【符号の説明】

１００コンピユータ・システム１０２中央処理装置（ＣＰＵ）１０４ランダム・アクセス・メモリ１０６通信アダプタ１０８ネツトワーク・インターフエース１１２Ｉ／Ｏ制御装置１１４表示装置１１６キーボード１１８指示装置１２０デイスク制御装置１２２、２１２デイスク・ストレージ装置２００ネツトワーク２０２乃至２１０処理ノード

───────────────────────────────────────────────────── フロントページの続き (72)発明者ハリ・ハラナス・マッドウリイアメリカ合衆国テキサス州、オースチン、アククゥア 7004 (56)参考文献実開平４−102139（ＪＰ，Ｕ) 国際公開91／4532（ＷＯ，Ａ)

Claims

(57)【特許請求の範囲】

【請求項１】メモリを具備する少なくとも１つのコンピ
ュータ・プロセッサを有するとともに、複数個のデータ
・オブジェクトの各データ・オブジェクトが複数個のア
ドレス空間中に複製されており、複数個のプロセスのう
ちの１つは上記データ・オブジェクトのマスタ・プロセ
スに、残りのすべてのプロセスは影のプロセスに指定さ
れてアクセスを求め、上記マスタ・プロセスが、最大１
つのプロセスに複製されたデータ・オブジェクトを更新
させることを許可する書き込みロックの共有を制御する
コンピユータ・システムにおいて、上記プロセスの誤り
を回復する方法であって、上記マスタ・プロセスの誤りの指標を、上記影のプロセ
スの少なくとも１つにおいて受け取るステップと、上記影のプロセスの１つが上記書き込みロックを現在保
持しているか否かを決定するテストを行なうステップ
と、もし上記影のプロセスが上記書き込みロックを現在保持
しているならば、該プロセスヘマスタ・プロセス制御を
転送するステップと、もし上記影のプロセスが保持していなければ、上記影の
プロセスのうちのどのプロセスが書き込みロックを保持
しているかを決定するテストを行なうステップと、書き込みロックを保持している上記影のプロセスをマス
タ・プロセスとして設定する要求を行なうステップとを
含む、プロセスの誤りを回復する方法。