JP2002229837A

JP2002229837A - 共有ディスク・パラレル・データ・ファイル内のデータに対するアクセスを制御する方法

Info

Publication number: JP2002229837A
Application number: JP2001357196A
Authority: JP
Inventors: Kuei-Yu Wang-Knop; クエイ−ユ・ウォン−ノップ; Robert J Curran; ロバート・ジェイ・カラン; Radha R Kandadai; ラダハ・アール・カンダダイ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-12-15
Filing date: 2001-11-22
Publication date: 2002-08-16
Also published as: US20020078312A1; TWI278749B; US6915391B2

Abstract

(57)【要約】【課題】クォーラムに基づくプロトコルにおいてノード
動作を継続するための方法を提供。【解決手段】方法は、特に複数のノードからなるグルー
プがたった２つのノードしか含まず、一つのノードに対
する通信が損なわれている状況で特に有用である。単一
ノード・クォーラム動作がイネーブルであるかどうかを
示す追加の状態指示を各ノードに対して加えるための手
段が設けられる。また、タイム・アウト応答を目的とし
て一方のノードが第１のノードとして指名し、他方のノ
ードが第２のノードとして指名するための手段が設けら
れる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に共有ディス
ク・パラレル・ファイル・データ処理システムでのデー
タ・アクセスを制御する方法に関する。本発明は、特に
２ノード・クォーラムをベースとするシステムにおい
て、さもなければ調和したデータ・アクセスを妨げるノ
ード間の通信障害の結果として起こるシステム遮断を防
止するデータ・アクセス制御方法に関する。

【０００２】

【従来の技術】共有ディスク・ファイル・システムは、
ストレージ・エリア・ネットワーク（ＳＡＮ）によって
連結された複数のディスクに含まれるデータに対する同
時共有アクセスを可能とする。ＳＡＮは、多くのシステ
ムに対してディスク上のデータへの物理的レベルのアク
セスを提供する。複数の共有ディスクは複数のパーティ
ションに区切られ、これらのパーティションによって、
共通のアクセス無しに、又は共有ディスク・ファイル・
システム又はデータベース・マネージャの支援により物
理的ストレージの共有プールが提供される。したがっ
て、全てのシステムからのデータ全てに対する整合のと
れたアクセスがＳＡＮによって与えられる。ＩＢＭのゼ
ネラル・パラレル・ファイル・システム（ＧＰＦＳ）
は、多数のシステムをまたがる複数のディスク及びディ
スク・パーティションからなるプールを管理して任意の
システムからの高速直接アクセスを可能とし、また単一
システムから管理された任意のファイル・システムから
利用可能なパフォーマンスを上回る単一ファイル・シス
テム全体の集約的パフォーマンスを提供するファイル・
システムである。本発明は、ファイル・システム・オペ
レーションの局面に影響を与えるようにそのようなマル
チ・システム・パワーをもたらす局面を扱う。

【０００３】ＧＰＦＳ共有ディスク・ファイル・システ
ムでは、各ノード（各々がプロセッサを１つ以上有す
る）がディスクへのアクセスを個々に行い、またデータ
及びメタデータ一貫性が分散ロック・マネージャ（又は
トークン・マネージャ）の使用を通して保たれる。この
ことは、関係しているノード全てがロッキング・プロト
コルで通信及び参加することが可能であることを要求す
る。ロッキング・プロトコルで参加することができない
ノードはデータへアクセスしてはならない。障害が生じ
たノード又はノード間で通信する能力が喪失したノード
で修正済みのメタデータの制御を再現すべきメカニズム
が他のノードになければならない。ＧＰＦＳは、クォー
ラム・メカニズムを用いて１つ以上のノードからなるク
ラスタでそのような能力を提供する。もし２つのノード
が特定の動作条件を満足するものであるならば、これら
２つのノード間でのデータ共有能力が求められる。ま
た、他のノードに障害が生じた場合、又は２つのノード
間のネットワーク通信が失われた場合、一つのノードが
動作継続可能であることも求められる。より多くの背景
技術に関する情報は、"Parallel File System and Meth
od for Independent Metadata Loggin"と題された 2000
年２月１日公布の米国特許第6,021,508号を参照せよ。

【０００４】「ノードのクォーラム」というコンセプト
は、同一オブジェクトのトークンを処理するか、又はコ
ンフリクトするロッキング決定を行うトークン・マネー
ジャの重複インスタンスを避ける既存のＧＰＦＳリカバ
リ・モデルの一部である。ＧＰＦＳは、任意のデータ・
アクセス動作が受け付けられる前に一群の構成要素とし
てアクティブとなるノード・クォーラム（通常、ＧＰＦ
Ｓノードセットを構成するノード数の１と１／２）を一
般に要求する。この要求は、各ＧＰＦＳファイル・シス
テムに対して正当な単一トークン管理ドメインが存在す
ることを保証する。クォーラムの存在に先立って、クォ
ーラムが存在しないことを示すメッセージによって殆ど
の要求が拒絶される。もし既存のクォーラムが喪失する
ならば、ＧＰＦＳは、データの完全性を守るために全て
のノードを終了する。

【０００５】２つのノードからなるシステム（すなわ
ち、２ノード・システム）において、マルチ・ノード・
クォーラム要求が２であることは、関係するノードが共
にＧＰＦＳファイル・システム動作が受け付けられる前
に群の構成要素でなければならないことを意味する。一
つのノードが利用可能である場合に動作が許可されるよ
うにこの要求を緩めるために、ＧＰＦＳは２つのノード
からなるノードセットにおいて単一ノード・クォーラム
動作に対するサポートを提供する。２つのノードからな
るノードセットでの単一ノード・クォーラム動作の主な
問題は、共有ディスク・ファイル・システムに対してロ
ック・マネージャが一つしかないことである（すなわ
ち、トークン管理ドメインが一つしかない）。そのた
め、データの一貫性及び安全性が保護される。

【０００６】このことを行う単純な方法は、１つのノー
ドがダウンするように思われる状況を審判する第３のノ
ード（タイ・ブレイク・ノード）の生成を介する。この
ことは容易にインプリメントされるが、クォーラムは両
方のノード又は一方のノードとタイ・ブレイク・ノード
とを必要とする。しかし、それは利用可能な第３のノー
ドが存在しない真に２つのノードからなるノードセット
が抱える真の問題を解決するものではない。

【０００７】ここに記載した解決策は、２つのノードか
らなるノードセットにおける単一ノード・クォーラム挙
動をサポートするために３ノード又はより多くのノード
セットに対する既存のクォーラム挙動を修正する。それ
はいずれかのノードに障害が生ずることを許す一方で他
方のノードがファイル・システム内のデータにアクセス
し続けることを許し続けるという望ましい目的を満た
す。

【０００８】データ共有の必要性を解決するために用い
られる方法が２つだけある。一つは、基本的なＧＰＦＳ
デザインに類似している何らかのタイプのクォーラムで
ある。他の方法は、１つのノードが「特権を与えられて
いる」と指名されるアプローチであり、このノードを含
んでいるどんなグループでも継続することができる。こ
の２番目の方法は、データを共有するノードからなるク
ラスタ全体に対する障害の単一ポイントか、特権が与え
られたノードを移動させ、何らかの高度に利用可能な記
憶装置での移動を追跡することに対する手動介入のため
の必要条件のいずれかを生成する。本発明は、これらの
問題全てを避ける。

【０００９】

【発明が解決しようとする課題】本発明の目的はデータ
処理システムの可用性を保証することである。本発明の
別の目的は、共有ディスク・パラレル・ファイル・シス
テムにおいて全ての関連したデータ・ファイルのデータ
完全性及び一貫性を保証することである。本発明の別の
目的は、クォーラムに基づいたアクセス・プロトコルで
データに対する継続的なアクセスを提供することであ
る。本発明のさらに別の目的は、動作時間を延ばし、か
つ特に２つのノードからなる識別されたグループが同一
のデータ及びデータ・ファイルにアクセスするマルチ・
ノード・コンピュータ・システムの特徴を拡大すること
である。本発明の別の目的は、通信障害によって孤立し
たノードに有用な動作を提供することである。本発明の
さらに別の目的は、通信障害に関連した問題がよりいっ
そう都合が良い時に扱われることができるように、孤立
したノードの継続的な動作を提供することである。最後
に、限定されるものではないが、本発明のさらに別の目
的は、必要に応じて、データ・アクセスのためのクォー
ラム・プロトコルにおける単一モードの動作を許すグル
ープ内のノードの新たな状態を提供することである。

【００１０】

【課題を解決するための手段】本発明の一実施形態によ
れば、共有ディスク・パラレル・ファイル・システムに
おいてデータに対するアクセスを制御するための方法
は、２モード・システムで、１つのノードに対する通信
に障害が生じたかどうかを判断する第１のステップを有
する。次に、影響を受けていないノードによって、該ノ
ードが単一ノード・クォーラム動作のためにイネーブル
であったかどうかについて判断が下される。もし、単一
ノード・クォーラム動作がイネーブルとなった決定され
たならば、影響を受けたノードへのデータ・アクセスが
制限される。この動作モードは、残っているシステム・
ノードの継続的な動作を可能とし、通信障害の問題に対
処するためにシステム全体をシャット・ダウンするのを
避ける。

【００１１】

【発明の実施形態】本発明の動作の完全な理解は、本発
明が機能する状況をより良く理解することを助ける一定
の背景技術を最初に検討することによって最もよく達成
される。ファイル・システム２２０は、ディスク・ドラ
イブ１５０等の媒体上で他のアプリケーション・プログ
ラムが格納及び検索を行うことを可能とするコンピュー
タ・プログラムである。ファイルは、名前が付けられた
任意の大きさのデータ・オブジェクトである。ファイル
・システム２２０は、アプリケーション・プログラムに
よるファイルの生成、該ファイルの命名、該ファイルへ
のデータの格納（又は書込み）、該ファイルからのデー
タの読取り、該ファイルからのデータの削除、及び他の
動作の実行を可能とする。ファイル構造１６０は、ディ
スク・ドライブ１５０上のデータ編成である。

【００１２】共有ディスク・ファイル・システムは、１
つ以上のディスクにあるファイル構造１６０が別々のコ
ンピュータ（又はノード１００）上で実行される多ファ
イル・システムによってアクセスされる。共有ディスク
・ファイル・システムは、複数のノード上で平行に実行
される複数の部分に分解されるファイル構造を用いる演
算を可能とする。

【００１３】ファイル・データそのものに加えて、ファ
イル構造１６０は、対応のファイルに対してファイル名
をマップするメタデータ１７０、ファイルに関する情
報、最も重要なことはディスク上のファイル・データの
位置（すなわち、どのディスク・ブロックがファイル・
データを保持するか）に関する情報を含むファイル・メ
タフェーズ１８０（イノード１９０及び間接ブロック２
００が含まれる）、どのディスク・ブロックがメタデー
タ及びファイル・データの格納に現在使用されているか
を記録するアロケーション・マップ１７３、さらにファ
イル構造（例えば、ディレクトリ、アロケーション・マ
ップ、及び他のメタデータ構造の位置）についての全体
的な情報を含むスーパー・ブロック１７４を有する。図
３を参照せよ。

【００１４】本発明の好ましい実施形態におけるファイ
ル・システムは、ＡＩＸのＧＰＦＳ汎用パラレル・ファ
イル・システムである。ＧＰＦＳは、複数のＲＳ／６０
００コンピュータ上の複数のディスク・ドライブをまた
がるファイルに対する共有アクセスを可能とする。メタ
データ更新は以下の様式で処理される。ノードは、もし
読取り及び書込みが行われるセクションに対する適当な
ロックを最初に表すならば、ファイルの異なる領域に対
して読取り及び書込みを行うが、全てのノードが同一の
メタデータ１７０にアクセスすることを必要とする。メ
タデータ１７０は、ファイルの大きさ１９１、ファイル
・アクセス時間１９２、ファイル更新時間１９３、及び
ファイルのデータ・ブロック・アドレス１９４を含む。
図４を参照せよ。ＧＰＦＳでは、共有ディスク環境で並
行して読取り及び書込みを行うファイル・メタデータの
管理に利用されるメタデータ・モード（又はメタモー
ド）の構成体が存在する。各ファイルに対して、単一の
ノードが該ファイルのメタノードとして選択される。メ
タノードは、ファイルのメタデータについての情報を保
持し、該メタデータがある１つ又は複数のディスク１５
０に対する全ての入出力（Ｉ／Ｏ）アクティビティの処
理を担う。他のノード全てがメタデータ情報をフェッチ
又は更新するためにメタノードと通信する。しかし、そ
れらのノードはディスク上のメタデータ情報に対して直
接アクセスするものではない。このことは、パラレル・
ファイル・システムに対する著しい性能改善となるディ
スク・アクティビティのかなりの部分を妨げる。書込み
共有は、以下のようにして生ずる。特に、ＧＰＦＳは、
２つの動作がファイルの互いに異なるバイト範囲を更新
する限り、それらは並行して処理することが可能とな
る。

【００１５】ＧＰＦＳ２２０のリカバリ・モデルは以下
の概念をインプリメントする（図５参照）。グループ・
モニタリング・サービス２３０（例えば、ＩＢＭのＲＳ
／６０００クラスタ・テクノロジー（ＲＳＣＴ）グルー
プ・サービス）が全てのノード上のプロセスをモニタ
し、かつノード及び通信の障害を検出する。このサービ
スは、複数の「プロセス・グループ」を結合させること
によって提供される。すなわち、構成要素の障害が生じ
た場合、又は新たなプロセスがグループへの参加を試み
た場合に、１つのグループの全ての構成要素が伝えられ
る。開始時、全てのノードがプロセス・グループへの参
加を強要される。全てのディスク・アクセスは、共用デ
ィスク上のデータ及び／又はメタデータの特定の部分を
読取り又は変更する前に１つの構成要素がロックを得る
分散ロッキング２４０を介して、グループ構成要素間で
調整される。グループの１つの構成要素は、ロック・マ
ネージャであり、該ロック・マネージャは、どのロック
がどのノードに保持されるかを知る。フェールオーバ性
能があり、ここで関係する２つのノード・シナリオにお
いてさえ効果的であり続ける存続ノードへのロック・マ
ネージャの移動を可能とする。

【００１６】システム起動中の信頼性及び利用性を保証
するためにクォーラム規則も用いられ、通信障害が生じ
た場合、複数のグループを形成することが可能である。
このことは、結果として異なるグループのマネージャを
ロックすることになり、ロッキング決定の競合が生ず
る。このことを防ぐために、もしディスクへアクセスす
ることが可能なプロセッサの過半数が「プロセス・グル
ープ」の構成要素であると言えないならば、又は本発明
の特別な２ノード要求が生ずるならば、ファイル・シス
テム動作は許可されない。トランザクションのロギング
２６０も同じく利用される。例えば、障害が生じた後に
不整合性をもたらすデータ／メタデータ更新のすべてが
ログ・ファイルに書かれる。各ノードはそれ自身のログ
を有しているが、障害が生じた場合に全てのノードがア
クセス可能となるように他のログもまた共有ディスク上
に格納される。問題を経験しているシステムの制限２７
０も同様に加えられる。したがって、所定のプロセッサ
から所定のディスクへのアクセスをブロックする能力が
存在する。ノードがスモール・コンピュータ・システム
・インタフェース（ＳＣＳＩ）リザーブ又は逐次記憶装
置アーキテクチャ（ＳＳＡ）等のディスクの制御を止め
ることを許す多くのディスク・タイプ特異的能力があ
る。リカバリを支援するためにバリヤ２８０が用いられ
る。リカバリ・ステップは本質的に連続的であり、また
一定のリカバリ・ステップが全てのノードで実行される
ことを必要とすることから、バリヤ２８０はどこかで次
のステップが実行される前に全てのノードでステップが
完了することを保証するために一時的に使われる。

【００１７】クォーラム２５０動作の使用に対して特に
検討が加えられる。ノードセット毎に１つの環境設定マ
ネージャが存在する。環境設定マネージャは、ファイル
・システム・マネージャを選択し、かつノードのクォー
ラムが存在するかどうかを判断する。ノードの低速数
は、ファイル・システム（ＧＰＦＳ）ノードセットの最
小ノード数であり、ファイル・システム・デーモンが開
始されるために、またファイル・システム動作使用法が
継続するために実行されていなければならない。クォー
ラムは、ファイル・システム・マネージャの役割を複数
のノードが想定することを防ぐためにノードセット内で
実施される。この役割を想定する複数のノードは、トー
クン管理機能が一般にファイル・システム・マネージャ
・ノードにあることから、可能性あるデータ破壊の問題
を引き起すと思われる。

【００１８】クォーラム状態は、グループ・モニタリン
グ・サービス（例えば、ＩＢＭのＲＳＣＴグループ・サ
ービス）によって追跡される。１つのノードがＧＰＦＳ
グループに参加する場合、もしまだクォーラムがなけれ
ば、グループ状態は「イニシャル（ＩＮＩＴＩＡＬ）」
に設定される。クォーラム要求が満たされるようにグル
ープ内に十分なノードがある場合、グループ状態は、
「アクティブ（ＡＣＴＩＶＥ）」状態に変わる。ＡＣＴ
ＩＶＥ状態にある場合、ＧＰＦＳノードはデータを取り
扱うことができる。１つのノードに通信障害が生じる
と、その状態がフェールド「ＦＡＩＬＥＤ」状態い設定
され、残っているノードの全てがそのノードに対する通
信を停止する。ファイル・システム・マネージャは、障
害が生じたノードを制限する。障害が生じたノードは、
ディスク・サブシステムに対して該障害が生じたノード
からのディスク要求の受付をやめさせる。障害が生じた
ノードは、たとえ通信障害を検出していなくとも、共有
ディスクへのアクセスができない。

【００１９】ここで、本発明の具体的な内容について注
目する。なぜなら、クォーラム機能がイネーブルである
単一のノードからなるノードセット動作という結果とな
るシナリオに特に関わる。ＧＰＦＳは、ノードセット内
にクォーラムを実現し、２つのノードが共に、結果とし
て生ずるデータ破壊によってファイル・システムのトー
クン・サーバとして動作する可能性を妨げる。クォーラ
ムは、３つ以上のノードを持つ全てのノードセットに対
して何ら変化をもたらすことなく実施される。２つのノ
ードからなるノードセットでは、ここでマルチ・ノード
・クォーラム動作又は単一ノード・クォーラム動作を可
能とするオプションが与えられる。単一ノード・クォー
ラムの挙動の選択は、２つのノードからなるノードセッ
トの残存ノードが同位ノードに障害が生じた場合でさえ
作用し続けることを可能とする。

【００２０】もしマルチ・ノード・クォーラム動作が実
施中であるならば、クォーラムは、障害が生じたノード
をリカバするために保たれる必要がある。もしマルチ・
ノード・クォーラム動作がノード障害のために保守され
ていなければ、全てのＧＰＧＦＳノードが再始動され、
リカバリ処理がなされ、再びクォーラム動作状態を達成
しようと試みられる。したがって、３ノード・システム
では、１つのノードの障害が２つの残存ノードのリカバ
リ及び継続動作を可能とする。これは、ノードの障害に
よって継続的な動作が可能である最小構成である。すな
わち、単一ノード・クォーラム動作状態がイネーブルで
なかった２ノード・システムでは、１つのノードの障害
は両方のノードが再始動し、リカバリ処理がなされ、再
びクォーラムの達成が試みられることを意味する。ここ
で、障害は必ずしもノード全体の障害を意味するもので
はなく、単にノードにリンクした通信の障害を意味する
ことができる。

【００２１】しかし、もし単一ノード・クォーラム動作
がイネーブルであるならば、１つのノードの障害によっ
てＧＰＦＳが障害ノードを制限することになる。目的
は、たった１つのノードが動作を継続し、第２のノード
はリカバリが完了し、両方のノードが協同することがで
きる場合のみ、動作を再開するということである。残存
ノードは、制限動作が成功している限り、処理を続け
る。

【００２２】単一ノード・クォーラム動作では、ノード
はそのグループ状態がＡＣＴＩＶＥ又はＳＩＮＧＬＥＮ
ＯＤＥのいずれかである場合にデータを取り扱う。先行
するシステムは、ＳＩＮＧＬＥＮＯＤＥ状態を保つこと
の可能性を用いなかった。両方のノードが利用可能であ
る挙動は、変化していない。ここで、１つのノードのみ
が利用可能である挙動は、どのように問題が生じたかに
依存する。もしグループ・モニタリング・サービス２３
０がＧＰＦグループの構成要素に生じた障害を報告する
ならば、ＧＰＦＳは該グループの状態をＳＩＮＧＬＥＮ
ＯＤＥに変更するプロトコルを開始する。そのプロトコ
ルが成功した時、それは他のノードを制限し、かつ継続
する。ＳＩＮＧＬＥＮＯＤＥ状態からＡＣＴＩＶＥ状態
への転換は、他のＧＰＦＳが復帰するときに起こる。こ
の状況は、障害が生じたノード上の他のソフトウェアと
の通信があるＧＰＦＳソフトウェアの障害をカバーす
る。本発明の好ましい実施形態では、ノードセットを構
成するノードの１つが第１のノードとして指名され、他
のノードが第２のノードと指名される。もしグループ・
モニタリング・サービス２３０がノードの障害を含むＧ
ＰＦＳグループの構成要素の障害を報告するならば、Ｇ
ＰＦＳは成功する第１のノード上のＳＩＮＧＬＥＮＯＤ
Ｅへの状態変化を提案する。次に、第１のモードは第２
のモードを制限し、制限動作が成功する限り継続する。
もしいくつかの動作が成功し、他が失敗したならば、完
全には制限されていないファイル・システムがアンマウ
ントされる。第２のモードは一定の時間（例えば、３
分。好ましくは選択可能な任意の数）待機し、もし制限
されたかどうかを判断する。制限に対するチェックは、
首尾一貫した判断がなされるように両方ノードに対して
同位に行われる。第２のノードでの遅れは、一連の通信
経路が障害を受け、両方のノードが実際に立ち上がり、
どれも供給されないように、各々が両方のノードを制限
するために動作している。もし第２のノードが制限され
ると、全てのファイル・システムがアンマウントされ、
２ノード動作を再開するのに必要とされる通信の可用性
を待つ。もしそれが制限されていなければ、上記した第
１の役割を仮定し、他のノードを制限する。両方のノー
ドが制限される時の同一待ち時間にわたって遅れる場合
に生ずる小さな時間窓が存在するが、可能性は非常に小
さい。

【００２３】ＧＰＦＳがノード上で開始される時、通常
はクォーラムを待つ。もし、単一ノードの挙動が許され
るならば、３分後に待ち時間が切れる。もしＧＰＦＳが
自動的にマウントされるファイル・システムのいずれか
で制限されていなければ、他のノードを制限し、ＳＩＧ
ＬＥＮＯＤＥモードでの動作に入る。もしそれが制限さ
れると、クォーラムを待つ。このことによって、通信経
路がダウンした場合に一つのノードを持ち出す方法がシ
ステム・アドミニストレータに対して与えられる。アド
ミニストレータは、ノードの一つを手動で制限解除させ
てＧＰＦＳを再起動することができる。制限は、両方の
ノードが立ち上がると通常はなくなる。

【００２４】ＧＰＦＳが一つのノード上で起動する時、
それが２つのノードからなるグループを形成することが
できる場合にのみ制限が取り除かれる。そのことは、Ｇ
ＰＦＳの起動は、両方のノードが利用可能であること、
又は事前にノードに対する制限が取り除かれていること
のいずれかを要求する。もし、一つのノードが立ち上が
り、パートナーを見いださなくて、そして制限がないと
するならば、ノードは一定の時間遅れて、他のノードを
制限して単一ノード動作を開始する。マルチ・ノード・
クォーラムの挙動における３つの状態、すなわちＩＮＩ
ＴＩＡＬ、ＡＣＴＩＶＥ、及びＦＡＩＬＥＤの代わり
に、新たなグループ状態であるＳＩＮＧＬＥＮＯＤＥが
加わって単一ノード・クォーラム動作をサポートする。
マルチ・ノード・クォーラム動作では、ＡＣＴＩＶＥ状
態にある場合、ノードは安全にデータを取り扱うことが
できる。一方、単一ノード・クォーラム動作では、ノー
ドはＡＣＴＩＶＥ状態（両方のノードが利用可能であ
る）及びＳＩＮＧＬＥＮＯＤＥ状態（一つのノードが利
用可能である）の両方でデータを取り扱うことができ
る。単一ノード・クォーラム動作では、２つのノードか
らなるノードセットは、これらのノードが最初にグルー
プに加わる時にＩＮＩＴＩＡＬ状態に入る。もし、クォ
ーラムが前もって定められた遅れの範囲内で達成される
ならば、ＡＣＴＩＶＥ状態、さもなければＳＩＮＧＬＥ
ＮＯＤＥ状態への状態の変更が試みられる。

【００２５】ノードは、パートナー・ノードによるディ
スクのアクセスを制限することが可能であるならば、成
功裏にＡＣＴＩＶＥ状態（パートナー・ノードを失う場
合）又はＩＮＩＴＩＡＬ状態（初期時間切れ後）からＳ
ＩＮＧＬＥＮＯＤＥモードへ転換する。もしノードがＧ
ＰＦＳグループから出る（自発的に、又は何らかの障害
により）とノード状態がＡＣＴＩＶＥ状態からＦＡＩＬ
ＥＤ状態に変わり、単一ノード・クォーラム・プロトコ
ルをインプリメントすることができずパートナー・ノー
ドの制限に失敗した場合はノード状態がＳＩＮＧＬＥＮ
ＯＤＥ状態からＦＡＩＬＥＤ状態に変わる。また、パー
トナー・ノードが成功裏にグループに加わるとノードが
ＳＩＮＧＬＥＮＯＤＥ状態からＡＣＴＩＶＥ状態に変わ
る。

【００２６】２ノード・ノードセットでは、参加してい
るノードそれぞれが異なる役割を持つ。一方のノードが
第１のノードと指名され、他方のノードが第２のノード
と指名される。このような指定によって、もし両方のノ
ードが互いに制限を加えようとする場合に各ノードに対
して別々に遅延のインプリメンテーションが可能とな
る。第１のノードは、第２のノードがパートナーの制限
を試みる前に一定の時間にわたって遅延するのに対し
て、他のノードが到達不可能（グループ・サービス通知
又は通信時間切れによって）であることを悟った後で直
ちにパートナー・ノードを制限する。

【００２７】本発明は、ある特定の好ましい実施形態に
基づいて詳細に説明したが、多くの修飾及び変更が当業
者によって行うことが可能である。したがって、特許請
求の範囲は、そのような修飾及び変更が全て本発明の真
の精神及び範囲から逸脱するものではないことを意味し
ている。

【００２８】まとめとして。本発明の構成に関して以下
の事項を開示する。（１）共有ディスク・パラレル・データ・ファイル内の
データに対するアクセスを制御する方法であって、２つ
のノードからなるシステムで、１つのノードに対する通
信に障害が生じたことを決定するステップと、前記通信
に障害が生じた前記ノードが単一ノード・クォーラム動
作に対してイネーブルであったかどうかを決定するステ
ップと、単一ノード・イネーブル状態を検出次第、前記
通信に障害が生じたノードへのデータ・アクセス及び前
記失敗したノードからのデータ・アクセスを制限するス
テップと、を有することを特徴とするデータ・アクセス
制御方法。（２）前記１つのノードに対する通信に障害が生じたこ
とを決定するステップと前記通信に障害が生じた前記ノ
ードが単一ノード・クォーラム動作に対してイネーブル
であったかどうかを決定するステップとの間で、影響を
受けていないノードのファイル状態標識が単一ノード動
作を示すように切り替えられることを特徴とする上記
（１）に記載の方法。（３）前記２つのノードは、第１のノード及び第２のノ
ードとして別々に示され、前記第２のノードは切り離さ
れたことを検出し、前記第２のノードは所定の時間待ち
状態にあり、前記第２のノードが制限されたことを示す
データ・ビットを設定することを特徴とする上記（１）
に記載の方法。（４）前記第２のノードが制限されたことを示すデータ
・ビットが設定され次第、前記第２のノードは全てのフ
ァイル・システムをアンマウントし、２ノード動作が可
能であることを示す信号を待つことを特徴とする上記
（３）に記載の方法。

【図面の簡単な説明】

【図１】通信スイッチによって接続されたマルチ・ノー
ド・システムを説明するためのブロック図である。

【図２】マルチ・ノード・データ処理システムを構成す
るノードの１つの内部構造を説明するためのブロック図
である。

【図３】メタデータ・データ構造を説明するためのブロ
ック図である。

【図４】モード・データ構造を説明するためのブロック
図である。

【図５】ファイル・システム構成要素を説明するための
ブロック図である。

【符号の説明】

１００ノード１０５スイッチ１１０プロセッサ１２０アダプタ１３０メモリ１３５ＤＭＡ１５０ディスク・ドライブ１６０ファイル構造１７０メタデータ１７２位置１７３アロケーション・マップ１７４スーパーブロック１８０ファイル・メタデータ１９０イノード１９１ファイル・サイズ１９２ファイル・アクセス時間１９３ファイル更新時間１９４ファイルのデータ・ブロック・アドレス２２０ファイル・システム（ＧＰＦＳリカバリ・
モデル）２４０分散ロッキング２６０ロギング２７０制限２８０バリヤ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１１Ｂ 20/10 Ｇ１１Ｂ 20/10 Ｄ (72)発明者クエイ−ユ・ウォン−ノップアメリカ合衆国12601 ニューヨーク州、ポケプシィ、ラファイエット・コート９ (72)発明者ロバート・ジェイ・カランアメリカ合衆国12491 ニューヨーク州、ウェスト・ハーレィ、ヘッジロウ・コート８ (72)発明者ラダハ・アール・カンダダイアメリカ合衆国12449 ニューヨーク州、レイク・キャトリーンジャネット・レーン 26 Ｆターム(参考） 5B045 DD16 JJ02 JJ14 JJ38 5B082 DA00 DE02 FA16 5D044 AB01 BC01 CC05 GK12 GK19 HH17 HL02 HL12

Claims

【特許請求の範囲】

【請求項１】共有ディスク・パラレル・データ・ファイ
ル内のデータに対するアクセスを制御する方法であっ
て、２つのノードからなるシステムで、１つのノードに対す
る通信に障害が生じたことを決定するステップと、前記通信に障害が生じた前記ノードが単一ノード・クォ
ーラム動作に対してイネーブルであったかどうかを決定
するステップと、単一ノード・イネーブル状態を検出次第、前記通信に障
害が生じたノードへのデータ・アクセス及び前記失敗し
たノードからのデータ・アクセスを制限するステップ
と、を有することを特徴とするデータ・アクセス制御方法。
【請求項２】前記１つのノードに対する通信に障害が生
じたことを決定するステップと前記通信に障害が生じた
前記ノードが単一ノード・クォーラム動作に対してイネ
ーブルであったかどうかを決定するステップとの間で、
影響を受けていないノードのファイル状態標識が単一ノ
ード動作を示すように切り替えられることを特徴とする
請求項１に記載の方法。
【請求項３】前記２つのノードは、第１のノード及び第
２のノードとして別々に示され、前記第２のノードは切
り離されたことを検出し、前記第２のノードは所定の時
間待ち状態にあり、前記第２のノードが制限されたこと
を示すデータ・ビットを設定することを特徴とする請求
項１に記載の方法。
【請求項４】前記第２のノードが制限されたことを示す
データ・ビットが設定され次第、前記第２のノードは全
てのファイル・システムをアンマウントし、２ノード動
作が可能であることを示す信号を待つことを特徴とする
請求項３に記載の方法。