JP2002229837A - 共有ディスク・パラレル・データ・ファイル内のデータに対するアクセスを制御する方法 - Google Patents

共有ディスク・パラレル・データ・ファイル内のデータに対するアクセスを制御する方法

Info

Publication number
JP2002229837A
JP2002229837A JP2001357196A JP2001357196A JP2002229837A JP 2002229837 A JP2002229837 A JP 2002229837A JP 2001357196 A JP2001357196 A JP 2001357196A JP 2001357196 A JP2001357196 A JP 2001357196A JP 2002229837 A JP2002229837 A JP 2002229837A
Authority
JP
Japan
Prior art keywords
node
nodes
data
quorum
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001357196A
Other languages
English (en)
Inventor
Kuei-Yu Wang-Knop
クエイ−ユ・ウォン−ノップ
Robert J Curran
ロバート・ジェイ・カラン
Radha R Kandadai
ラダハ・アール・カンダダイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2002229837A publication Critical patent/JP2002229837A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/1425Reconfiguring to eliminate the error by reconfiguration of node membership
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers

Abstract

(57)【要約】 【課題】クォーラムに基づくプロトコルにおいてノード
動作を継続するための方法を提供。 【解決手段】方法は、特に複数のノードからなるグルー
プがたった2つのノードしか含まず、一つのノードに対
する通信が損なわれている状況で特に有用である。単一
ノード・クォーラム動作がイネーブルであるかどうかを
示す追加の状態指示を各ノードに対して加えるための手
段が設けられる。また、タイム・アウト応答を目的とし
て一方のノードが第1のノードとして指名し、他方のノ
ードが第2のノードとして指名するための手段が設けら
れる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般に共有ディス
ク・パラレル・ファイル・データ処理システムでのデー
タ・アクセスを制御する方法に関する。本発明は、特に
2ノード・クォーラムをベースとするシステムにおい
て、さもなければ調和したデータ・アクセスを妨げるノ
ード間の通信障害の結果として起こるシステム遮断を防
止するデータ・アクセス制御方法に関する。
【0002】
【従来の技術】共有ディスク・ファイル・システムは、
ストレージ・エリア・ネットワーク(SAN)によって
連結された複数のディスクに含まれるデータに対する同
時共有アクセスを可能とする。SANは、多くのシステ
ムに対してディスク上のデータへの物理的レベルのアク
セスを提供する。複数の共有ディスクは複数のパーティ
ションに区切られ、これらのパーティションによって、
共通のアクセス無しに、又は共有ディスク・ファイル・
システム又はデータベース・マネージャの支援により物
理的ストレージの共有プールが提供される。したがっ
て、全てのシステムからのデータ全てに対する整合のと
れたアクセスがSANによって与えられる。IBMのゼ
ネラル・パラレル・ファイル・システム(GPFS)
は、多数のシステムをまたがる複数のディスク及びディ
スク・パーティションからなるプールを管理して任意の
システムからの高速直接アクセスを可能とし、また単一
システムから管理された任意のファイル・システムから
利用可能なパフォーマンスを上回る単一ファイル・シス
テム全体の集約的パフォーマンスを提供するファイル・
システムである。本発明は、ファイル・システム・オペ
レーションの局面に影響を与えるようにそのようなマル
チ・システム・パワーをもたらす局面を扱う。
【0003】GPFS共有ディスク・ファイル・システ
ムでは、各ノード(各々がプロセッサを1つ以上有す
る)がディスクへのアクセスを個々に行い、またデータ
及びメタデータ一貫性が分散ロック・マネージャ(又は
トークン・マネージャ)の使用を通して保たれる。この
ことは、関係しているノード全てがロッキング・プロト
コルで通信及び参加することが可能であることを要求す
る。ロッキング・プロトコルで参加することができない
ノードはデータへアクセスしてはならない。障害が生じ
たノード又はノード間で通信する能力が喪失したノード
で修正済みのメタデータの制御を再現すべきメカニズム
が他のノードになければならない。GPFSは、クォー
ラム・メカニズムを用いて1つ以上のノードからなるク
ラスタでそのような能力を提供する。もし2つのノード
が特定の動作条件を満足するものであるならば、これら
2つのノード間でのデータ共有能力が求められる。ま
た、他のノードに障害が生じた場合、又は2つのノード
間のネットワーク通信が失われた場合、一つのノードが
動作継続可能であることも求められる。より多くの背景
技術に関する情報は、"Parallel File System and Meth
od for Independent Metadata Loggin"と題された 2000
年2月1日公布の米国特許第6,021,508号を参照せよ。
【0004】「ノードのクォーラム」というコンセプト
は、同一オブジェクトのトークンを処理するか、又はコ
ンフリクトするロッキング決定を行うトークン・マネー
ジャの重複インスタンスを避ける既存のGPFSリカバ
リ・モデルの一部である。GPFSは、任意のデータ・
アクセス動作が受け付けられる前に一群の構成要素とし
てアクティブとなるノード・クォーラム(通常、GPF
Sノードセットを構成するノード数の1と1/2)を一
般に要求する。この要求は、各GPFSファイル・シス
テムに対して正当な単一トークン管理ドメインが存在す
ることを保証する。クォーラムの存在に先立って、クォ
ーラムが存在しないことを示すメッセージによって殆ど
の要求が拒絶される。もし既存のクォーラムが喪失する
ならば、GPFSは、データの完全性を守るために全て
のノードを終了する。
【0005】2つのノードからなるシステム(すなわ
ち、2ノード・システム)において、マルチ・ノード・
クォーラム要求が2であることは、関係するノードが共
にGPFSファイル・システム動作が受け付けられる前
に群の構成要素でなければならないことを意味する。一
つのノードが利用可能である場合に動作が許可されるよ
うにこの要求を緩めるために、GPFSは2つのノード
からなるノードセットにおいて単一ノード・クォーラム
動作に対するサポートを提供する。2つのノードからな
るノードセットでの単一ノード・クォーラム動作の主な
問題は、共有ディスク・ファイル・システムに対してロ
ック・マネージャが一つしかないことである(すなわ
ち、トークン管理ドメインが一つしかない)。そのた
め、データの一貫性及び安全性が保護される。
【0006】このことを行う単純な方法は、1つのノー
ドがダウンするように思われる状況を審判する第3のノ
ード(タイ・ブレイク・ノード)の生成を介する。この
ことは容易にインプリメントされるが、クォーラムは両
方のノード又は一方のノードとタイ・ブレイク・ノード
とを必要とする。しかし、それは利用可能な第3のノー
ドが存在しない真に2つのノードからなるノードセット
が抱える真の問題を解決するものではない。
【0007】ここに記載した解決策は、2つのノードか
らなるノードセットにおける単一ノード・クォーラム挙
動をサポートするために3ノード又はより多くのノード
セットに対する既存のクォーラム挙動を修正する。それ
はいずれかのノードに障害が生ずることを許す一方で他
方のノードがファイル・システム内のデータにアクセス
し続けることを許し続けるという望ましい目的を満た
す。
【0008】データ共有の必要性を解決するために用い
られる方法が2つだけある。一つは、基本的なGPFS
デザインに類似している何らかのタイプのクォーラムで
ある。他の方法は、1つのノードが「特権を与えられて
いる」と指名されるアプローチであり、このノードを含
んでいるどんなグループでも継続することができる。こ
の2番目の方法は、データを共有するノードからなるク
ラスタ全体に対する障害の単一ポイントか、特権が与え
られたノードを移動させ、何らかの高度に利用可能な記
憶装置での移動を追跡することに対する手動介入のため
の必要条件のいずれかを生成する。本発明は、これらの
問題全てを避ける。
【0009】
【発明が解決しようとする課題】本発明の目的はデータ
処理システムの可用性を保証することである。本発明の
別の目的は、共有ディスク・パラレル・ファイル・シス
テムにおいて全ての関連したデータ・ファイルのデータ
完全性及び一貫性を保証することである。本発明の別の
目的は、クォーラムに基づいたアクセス・プロトコルで
データに対する継続的なアクセスを提供することであ
る。本発明のさらに別の目的は、動作時間を延ばし、か
つ特に2つのノードからなる識別されたグループが同一
のデータ及びデータ・ファイルにアクセスするマルチ・
ノード・コンピュータ・システムの特徴を拡大すること
である。本発明の別の目的は、通信障害によって孤立し
たノードに有用な動作を提供することである。本発明の
さらに別の目的は、通信障害に関連した問題がよりいっ
そう都合が良い時に扱われることができるように、孤立
したノードの継続的な動作を提供することである。最後
に、限定されるものではないが、本発明のさらに別の目
的は、必要に応じて、データ・アクセスのためのクォー
ラム・プロトコルにおける単一モードの動作を許すグル
ープ内のノードの新たな状態を提供することである。
【0010】
【課題を解決するための手段】本発明の一実施形態によ
れば、共有ディスク・パラレル・ファイル・システムに
おいてデータに対するアクセスを制御するための方法
は、2モード・システムで、1つのノードに対する通信
に障害が生じたかどうかを判断する第1のステップを有
する。次に、影響を受けていないノードによって、該ノ
ードが単一ノード・クォーラム動作のためにイネーブル
であったかどうかについて判断が下される。もし、単一
ノード・クォーラム動作がイネーブルとなった決定され
たならば、影響を受けたノードへのデータ・アクセスが
制限される。この動作モードは、残っているシステム・
ノードの継続的な動作を可能とし、通信障害の問題に対
処するためにシステム全体をシャット・ダウンするのを
避ける。
【0011】
【発明の実施形態】本発明の動作の完全な理解は、本発
明が機能する状況をより良く理解することを助ける一定
の背景技術を最初に検討することによって最もよく達成
される。ファイル・システム220は、ディスク・ドラ
イブ150等の媒体上で他のアプリケーション・プログ
ラムが格納及び検索を行うことを可能とするコンピュー
タ・プログラムである。ファイルは、名前が付けられた
任意の大きさのデータ・オブジェクトである。ファイル
・システム220は、アプリケーション・プログラムに
よるファイルの生成、該ファイルの命名、該ファイルへ
のデータの格納(又は書込み)、該ファイルからのデー
タの読取り、該ファイルからのデータの削除、及び他の
動作の実行を可能とする。ファイル構造160は、ディ
スク・ドライブ150上のデータ編成である。
【0012】共有ディスク・ファイル・システムは、1
つ以上のディスクにあるファイル構造160が別々のコ
ンピュータ(又はノード100)上で実行される多ファ
イル・システムによってアクセスされる。共有ディスク
・ファイル・システムは、複数のノード上で平行に実行
される複数の部分に分解されるファイル構造を用いる演
算を可能とする。
【0013】ファイル・データそのものに加えて、ファ
イル構造160は、対応のファイルに対してファイル名
をマップするメタデータ170、ファイルに関する情
報、最も重要なことはディスク上のファイル・データの
位置(すなわち、どのディスク・ブロックがファイル・
データを保持するか)に関する情報を含むファイル・メ
タフェーズ180(イノード190及び間接ブロック2
00が含まれる)、どのディスク・ブロックがメタデー
タ及びファイル・データの格納に現在使用されているか
を記録するアロケーション・マップ173、さらにファ
イル構造(例えば、ディレクトリ、アロケーション・マ
ップ、及び他のメタデータ構造の位置)についての全体
的な情報を含むスーパー・ブロック174を有する。図
3を参照せよ。
【0014】本発明の好ましい実施形態におけるファイ
ル・システムは、AIXのGPFS汎用パラレル・ファ
イル・システムである。GPFSは、複数のRS/60
00コンピュータ上の複数のディスク・ドライブをまた
がるファイルに対する共有アクセスを可能とする。メタ
データ更新は以下の様式で処理される。ノードは、もし
読取り及び書込みが行われるセクションに対する適当な
ロックを最初に表すならば、ファイルの異なる領域に対
して読取り及び書込みを行うが、全てのノードが同一の
メタデータ170にアクセスすることを必要とする。メ
タデータ170は、ファイルの大きさ191、ファイル
・アクセス時間192、ファイル更新時間193、及び
ファイルのデータ・ブロック・アドレス194を含む。
図4を参照せよ。GPFSでは、共有ディスク環境で並
行して読取り及び書込みを行うファイル・メタデータの
管理に利用されるメタデータ・モード(又はメタモー
ド)の構成体が存在する。各ファイルに対して、単一の
ノードが該ファイルのメタノードとして選択される。メ
タノードは、ファイルのメタデータについての情報を保
持し、該メタデータがある1つ又は複数のディスク15
0に対する全ての入出力(I/O)アクティビティの処
理を担う。他のノード全てがメタデータ情報をフェッチ
又は更新するためにメタノードと通信する。しかし、そ
れらのノードはディスク上のメタデータ情報に対して直
接アクセスするものではない。このことは、パラレル・
ファイル・システムに対する著しい性能改善となるディ
スク・アクティビティのかなりの部分を妨げる。書込み
共有は、以下のようにして生ずる。特に、GPFSは、
2つの動作がファイルの互いに異なるバイト範囲を更新
する限り、それらは並行して処理することが可能とな
る。
【0015】GPFS220のリカバリ・モデルは以下
の概念をインプリメントする(図5参照)。グループ・
モニタリング・サービス230(例えば、IBMのRS
/6000クラスタ・テクノロジー(RSCT)グルー
プ・サービス)が全てのノード上のプロセスをモニタ
し、かつノード及び通信の障害を検出する。このサービ
スは、複数の「プロセス・グループ」を結合させること
によって提供される。すなわち、構成要素の障害が生じ
た場合、又は新たなプロセスがグループへの参加を試み
た場合に、1つのグループの全ての構成要素が伝えられ
る。開始時、全てのノードがプロセス・グループへの参
加を強要される。全てのディスク・アクセスは、共用デ
ィスク上のデータ及び/又はメタデータの特定の部分を
読取り又は変更する前に1つの構成要素がロックを得る
分散ロッキング240を介して、グループ構成要素間で
調整される。グループの1つの構成要素は、ロック・マ
ネージャであり、該ロック・マネージャは、どのロック
がどのノードに保持されるかを知る。フェールオーバ性
能があり、ここで関係する2つのノード・シナリオにお
いてさえ効果的であり続ける存続ノードへのロック・マ
ネージャの移動を可能とする。
【0016】システム起動中の信頼性及び利用性を保証
するためにクォーラム規則も用いられ、通信障害が生じ
た場合、複数のグループを形成することが可能である。
このことは、結果として異なるグループのマネージャを
ロックすることになり、ロッキング決定の競合が生ず
る。このことを防ぐために、もしディスクへアクセスす
ることが可能なプロセッサの過半数が「プロセス・グル
ープ」の構成要素であると言えないならば、又は本発明
の特別な2ノード要求が生ずるならば、ファイル・シス
テム動作は許可されない。トランザクションのロギング
260も同じく利用される。例えば、障害が生じた後に
不整合性をもたらすデータ/メタデータ更新のすべてが
ログ・ファイルに書かれる。各ノードはそれ自身のログ
を有しているが、障害が生じた場合に全てのノードがア
クセス可能となるように他のログもまた共有ディスク上
に格納される。問題を経験しているシステムの制限27
0も同様に加えられる。したがって、所定のプロセッサ
から所定のディスクへのアクセスをブロックする能力が
存在する。ノードがスモール・コンピュータ・システム
・インタフェース(SCSI)リザーブ又は逐次記憶装
置アーキテクチャ(SSA)等のディスクの制御を止め
ることを許す多くのディスク・タイプ特異的能力があ
る。リカバリを支援するためにバリヤ280が用いられ
る。リカバリ・ステップは本質的に連続的であり、また
一定のリカバリ・ステップが全てのノードで実行される
ことを必要とすることから、バリヤ280はどこかで次
のステップが実行される前に全てのノードでステップが
完了することを保証するために一時的に使われる。
【0017】クォーラム250動作の使用に対して特に
検討が加えられる。ノードセット毎に1つの環境設定マ
ネージャが存在する。環境設定マネージャは、ファイル
・システム・マネージャを選択し、かつノードのクォー
ラムが存在するかどうかを判断する。ノードの低速数
は、ファイル・システム(GPFS)ノードセットの最
小ノード数であり、ファイル・システム・デーモンが開
始されるために、またファイル・システム動作使用法が
継続するために実行されていなければならない。クォー
ラムは、ファイル・システム・マネージャの役割を複数
のノードが想定することを防ぐためにノードセット内で
実施される。この役割を想定する複数のノードは、トー
クン管理機能が一般にファイル・システム・マネージャ
・ノードにあることから、可能性あるデータ破壊の問題
を引き起すと思われる。
【0018】クォーラム状態は、グループ・モニタリン
グ・サービス(例えば、IBMのRSCTグループ・サ
ービス)によって追跡される。1つのノードがGPFS
グループに参加する場合、もしまだクォーラムがなけれ
ば、グループ状態は「イニシャル(INITIAL)」
に設定される。クォーラム要求が満たされるようにグル
ープ内に十分なノードがある場合、グループ状態は、
「アクティブ(ACTIVE)」状態に変わる。ACT
IVE状態にある場合、GPFSノードはデータを取り
扱うことができる。1つのノードに通信障害が生じる
と、その状態がフェールド「FAILED」状態い設定
され、残っているノードの全てがそのノードに対する通
信を停止する。ファイル・システム・マネージャは、障
害が生じたノードを制限する。障害が生じたノードは、
ディスク・サブシステムに対して該障害が生じたノード
からのディスク要求の受付をやめさせる。障害が生じた
ノードは、たとえ通信障害を検出していなくとも、共有
ディスクへのアクセスができない。
【0019】ここで、本発明の具体的な内容について注
目する。なぜなら、クォーラム機能がイネーブルである
単一のノードからなるノードセット動作という結果とな
るシナリオに特に関わる。GPFSは、ノードセット内
にクォーラムを実現し、2つのノードが共に、結果とし
て生ずるデータ破壊によってファイル・システムのトー
クン・サーバとして動作する可能性を妨げる。クォーラ
ムは、3つ以上のノードを持つ全てのノードセットに対
して何ら変化をもたらすことなく実施される。2つのノ
ードからなるノードセットでは、ここでマルチ・ノード
・クォーラム動作又は単一ノード・クォーラム動作を可
能とするオプションが与えられる。単一ノード・クォー
ラムの挙動の選択は、2つのノードからなるノードセッ
トの残存ノードが同位ノードに障害が生じた場合でさえ
作用し続けることを可能とする。
【0020】もしマルチ・ノード・クォーラム動作が実
施中であるならば、クォーラムは、障害が生じたノード
をリカバするために保たれる必要がある。もしマルチ・
ノード・クォーラム動作がノード障害のために保守され
ていなければ、全てのGPGFSノードが再始動され、
リカバリ処理がなされ、再びクォーラム動作状態を達成
しようと試みられる。したがって、3ノード・システム
では、1つのノードの障害が2つの残存ノードのリカバ
リ及び継続動作を可能とする。これは、ノードの障害に
よって継続的な動作が可能である最小構成である。すな
わち、単一ノード・クォーラム動作状態がイネーブルで
なかった2ノード・システムでは、1つのノードの障害
は両方のノードが再始動し、リカバリ処理がなされ、再
びクォーラムの達成が試みられることを意味する。ここ
で、障害は必ずしもノード全体の障害を意味するもので
はなく、単にノードにリンクした通信の障害を意味する
ことができる。
【0021】しかし、もし単一ノード・クォーラム動作
がイネーブルであるならば、1つのノードの障害によっ
てGPFSが障害ノードを制限することになる。目的
は、たった1つのノードが動作を継続し、第2のノード
はリカバリが完了し、両方のノードが協同することがで
きる場合のみ、動作を再開するということである。残存
ノードは、制限動作が成功している限り、処理を続け
る。
【0022】単一ノード・クォーラム動作では、ノード
はそのグループ状態がACTIVE又はSINGLEN
ODEのいずれかである場合にデータを取り扱う。先行
するシステムは、SINGLENODE状態を保つこと
の可能性を用いなかった。両方のノードが利用可能であ
る挙動は、変化していない。ここで、1つのノードのみ
が利用可能である挙動は、どのように問題が生じたかに
依存する。もしグループ・モニタリング・サービス23
0がGPFグループの構成要素に生じた障害を報告する
ならば、GPFSは該グループの状態をSINGLEN
ODEに変更するプロトコルを開始する。そのプロトコ
ルが成功した時、それは他のノードを制限し、かつ継続
する。SINGLENODE状態からACTIVE状態
への転換は、他のGPFSが復帰するときに起こる。こ
の状況は、障害が生じたノード上の他のソフトウェアと
の通信があるGPFSソフトウェアの障害をカバーす
る。本発明の好ましい実施形態では、ノードセットを構
成するノードの1つが第1のノードとして指名され、他
のノードが第2のノードと指名される。もしグループ・
モニタリング・サービス230がノードの障害を含むG
PFSグループの構成要素の障害を報告するならば、G
PFSは成功する第1のノード上のSINGLENOD
Eへの状態変化を提案する。次に、第1のモードは第2
のモードを制限し、制限動作が成功する限り継続する。
もしいくつかの動作が成功し、他が失敗したならば、完
全には制限されていないファイル・システムがアンマウ
ントされる。第2のモードは一定の時間(例えば、3
分。好ましくは選択可能な任意の数)待機し、もし制限
されたかどうかを判断する。制限に対するチェックは、
首尾一貫した判断がなされるように両方ノードに対して
同位に行われる。第2のノードでの遅れは、一連の通信
経路が障害を受け、両方のノードが実際に立ち上がり、
どれも供給されないように、各々が両方のノードを制限
するために動作している。もし第2のノードが制限され
ると、全てのファイル・システムがアンマウントされ、
2ノード動作を再開するのに必要とされる通信の可用性
を待つ。もしそれが制限されていなければ、上記した第
1の役割を仮定し、他のノードを制限する。両方のノー
ドが制限される時の同一待ち時間にわたって遅れる場合
に生ずる小さな時間窓が存在するが、可能性は非常に小
さい。
【0023】GPFSがノード上で開始される時、通常
はクォーラムを待つ。もし、単一ノードの挙動が許され
るならば、3分後に待ち時間が切れる。もしGPFSが
自動的にマウントされるファイル・システムのいずれか
で制限されていなければ、他のノードを制限し、SIG
LENODEモードでの動作に入る。もしそれが制限さ
れると、クォーラムを待つ。このことによって、通信経
路がダウンした場合に一つのノードを持ち出す方法がシ
ステム・アドミニストレータに対して与えられる。アド
ミニストレータは、ノードの一つを手動で制限解除させ
てGPFSを再起動することができる。制限は、両方の
ノードが立ち上がると通常はなくなる。
【0024】GPFSが一つのノード上で起動する時、
それが2つのノードからなるグループを形成することが
できる場合にのみ制限が取り除かれる。そのことは、G
PFSの起動は、両方のノードが利用可能であること、
又は事前にノードに対する制限が取り除かれていること
のいずれかを要求する。もし、一つのノードが立ち上が
り、パートナーを見いださなくて、そして制限がないと
するならば、ノードは一定の時間遅れて、他のノードを
制限して単一ノード動作を開始する。マルチ・ノード・
クォーラムの挙動における3つの状態、すなわちINI
TIAL、ACTIVE、及びFAILEDの代わり
に、新たなグループ状態であるSINGLENODEが
加わって単一ノード・クォーラム動作をサポートする。
マルチ・ノード・クォーラム動作では、ACTIVE状
態にある場合、ノードは安全にデータを取り扱うことが
できる。一方、単一ノード・クォーラム動作では、ノー
ドはACTIVE状態(両方のノードが利用可能であ
る)及びSINGLENODE状態(一つのノードが利
用可能である)の両方でデータを取り扱うことができ
る。単一ノード・クォーラム動作では、2つのノードか
らなるノードセットは、これらのノードが最初にグルー
プに加わる時にINITIAL状態に入る。もし、クォ
ーラムが前もって定められた遅れの範囲内で達成される
ならば、ACTIVE状態、さもなければSINGLE
NODE状態への状態の変更が試みられる。
【0025】ノードは、パートナー・ノードによるディ
スクのアクセスを制限することが可能であるならば、成
功裏にACTIVE状態(パートナー・ノードを失う場
合)又はINITIAL状態(初期時間切れ後)からS
INGLENODEモードへ転換する。もしノードがG
PFSグループから出る(自発的に、又は何らかの障害
により)とノード状態がACTIVE状態からFAIL
ED状態に変わり、単一ノード・クォーラム・プロトコ
ルをインプリメントすることができずパートナー・ノー
ドの制限に失敗した場合はノード状態がSINGLEN
ODE状態からFAILED状態に変わる。また、パー
トナー・ノードが成功裏にグループに加わるとノードが
SINGLENODE状態からACTIVE状態に変わ
る。
【0026】2ノード・ノードセットでは、参加してい
るノードそれぞれが異なる役割を持つ。一方のノードが
第1のノードと指名され、他方のノードが第2のノード
と指名される。このような指定によって、もし両方のノ
ードが互いに制限を加えようとする場合に各ノードに対
して別々に遅延のインプリメンテーションが可能とな
る。第1のノードは、第2のノードがパートナーの制限
を試みる前に一定の時間にわたって遅延するのに対し
て、他のノードが到達不可能(グループ・サービス通知
又は通信時間切れによって)であることを悟った後で直
ちにパートナー・ノードを制限する。
【0027】本発明は、ある特定の好ましい実施形態に
基づいて詳細に説明したが、多くの修飾及び変更が当業
者によって行うことが可能である。したがって、特許請
求の範囲は、そのような修飾及び変更が全て本発明の真
の精神及び範囲から逸脱するものではないことを意味し
ている。
【0028】まとめとして。本発明の構成に関して以下
の事項を開示する。 (1)共有ディスク・パラレル・データ・ファイル内の
データに対するアクセスを制御する方法であって、2つ
のノードからなるシステムで、1つのノードに対する通
信に障害が生じたことを決定するステップと、前記通信
に障害が生じた前記ノードが単一ノード・クォーラム動
作に対してイネーブルであったかどうかを決定するステ
ップと、単一ノード・イネーブル状態を検出次第、前記
通信に障害が生じたノードへのデータ・アクセス及び前
記失敗したノードからのデータ・アクセスを制限するス
テップと、を有することを特徴とするデータ・アクセス
制御方法。 (2)前記1つのノードに対する通信に障害が生じたこ
とを決定するステップと前記通信に障害が生じた前記ノ
ードが単一ノード・クォーラム動作に対してイネーブル
であったかどうかを決定するステップとの間で、影響を
受けていないノードのファイル状態標識が単一ノード動
作を示すように切り替えられることを特徴とする上記
(1)に記載の方法。 (3)前記2つのノードは、第1のノード及び第2のノ
ードとして別々に示され、前記第2のノードは切り離さ
れたことを検出し、前記第2のノードは所定の時間待ち
状態にあり、前記第2のノードが制限されたことを示す
データ・ビットを設定することを特徴とする上記(1)
に記載の方法。 (4)前記第2のノードが制限されたことを示すデータ
・ビットが設定され次第、前記第2のノードは全てのフ
ァイル・システムをアンマウントし、2ノード動作が可
能であることを示す信号を待つことを特徴とする上記
(3)に記載の方法。
【図面の簡単な説明】
【図1】通信スイッチによって接続されたマルチ・ノー
ド・システムを説明するためのブロック図である。
【図2】マルチ・ノード・データ処理システムを構成す
るノードの1つの内部構造を説明するためのブロック図
である。
【図3】メタデータ・データ構造を説明するためのブロ
ック図である。
【図4】モード・データ構造を説明するためのブロック
図である。
【図5】ファイル・システム構成要素を説明するための
ブロック図である。
【符号の説明】
100 ノード 105 スイッチ 110 プロセッサ 120 アダプタ 130 メモリ 135 DMA 150 ディスク・ドライブ 160 ファイル構造 170 メタデータ 172 位置 173 アロケーション・マップ 174 スーパーブロック 180 ファイル・メタデータ 190 イノード 191 ファイル・サイズ 192 ファイル・アクセス時間 193 ファイル更新時間 194 ファイルのデータ・ブロック・アドレス 220 ファイル・システム(GPFSリカバリ・
モデル) 240 分散ロッキング 260 ロギング 270 制限 280 バリヤ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G11B 20/10 G11B 20/10 D (72)発明者 クエイ−ユ・ウォン−ノップ アメリカ合衆国12601 ニューヨーク州、 ポケプシィ、 ラファイエット・コート 9 (72)発明者 ロバート・ジェイ・カラン アメリカ合衆国12491 ニューヨーク州、 ウェスト・ハーレィ、 ヘッジロウ・コ ート 8 (72)発明者 ラダハ・アール・カンダダイ アメリカ合衆国12449 ニューヨーク州、 レイク・キャトリーン ジャネット・レ ーン 26 Fターム(参考) 5B045 DD16 JJ02 JJ14 JJ38 5B082 DA00 DE02 FA16 5D044 AB01 BC01 CC05 GK12 GK19 HH17 HL02 HL12

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】共有ディスク・パラレル・データ・ファイ
    ル内のデータに対するアクセスを制御する方法であっ
    て、 2つのノードからなるシステムで、1つのノードに対す
    る通信に障害が生じたことを決定するステップと、 前記通信に障害が生じた前記ノードが単一ノード・クォ
    ーラム動作に対してイネーブルであったかどうかを決定
    するステップと、 単一ノード・イネーブル状態を検出次第、前記通信に障
    害が生じたノードへのデータ・アクセス及び前記失敗し
    たノードからのデータ・アクセスを制限するステップ
    と、 を有することを特徴とするデータ・アクセス制御方法。
  2. 【請求項2】前記1つのノードに対する通信に障害が生
    じたことを決定するステップと前記通信に障害が生じた
    前記ノードが単一ノード・クォーラム動作に対してイネ
    ーブルであったかどうかを決定するステップとの間で、
    影響を受けていないノードのファイル状態標識が単一ノ
    ード動作を示すように切り替えられることを特徴とする
    請求項1に記載の方法。
  3. 【請求項3】前記2つのノードは、第1のノード及び第
    2のノードとして別々に示され、前記第2のノードは切
    り離されたことを検出し、前記第2のノードは所定の時
    間待ち状態にあり、前記第2のノードが制限されたこと
    を示すデータ・ビットを設定することを特徴とする請求
    項1に記載の方法。
  4. 【請求項4】前記第2のノードが制限されたことを示す
    データ・ビットが設定され次第、前記第2のノードは全
    てのファイル・システムをアンマウントし、2ノード動
    作が可能であることを示す信号を待つことを特徴とする
    請求項3に記載の方法。
JP2001357196A 2000-12-15 2001-11-22 共有ディスク・パラレル・データ・ファイル内のデータに対するアクセスを制御する方法 Pending JP2002229837A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/737,393 US6915391B2 (en) 2000-12-15 2000-12-15 Support for single-node quorum in a two-node nodeset for a shared disk parallel file system
US09/737393 2000-12-15

Publications (1)

Publication Number Publication Date
JP2002229837A true JP2002229837A (ja) 2002-08-16

Family

ID=24963738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001357196A Pending JP2002229837A (ja) 2000-12-15 2001-11-22 共有ディスク・パラレル・データ・ファイル内のデータに対するアクセスを制御する方法

Country Status (3)

Country Link
US (1) US6915391B2 (ja)
JP (1) JP2002229837A (ja)
TW (1) TWI278749B (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016531348A (ja) * 2013-08-26 2016-10-06 ヴイエムウェア インコーポレイテッドVMware,Inc. クラスタメンバーシップ管理における分断耐性
US10855602B2 (en) 2013-08-26 2020-12-01 Vmware, Inc. Distributed policy-based provisioning and enforcement for quality of service
US11016820B2 (en) 2013-08-26 2021-05-25 Vmware, Inc. Load balancing of resources
US11210035B2 (en) 2013-08-26 2021-12-28 Vmware, Inc. Creating, by host computers, respective object of virtual disk based on virtual disk blueprint
US11249956B2 (en) 2013-08-26 2022-02-15 Vmware, Inc. Scalable distributed storage architecture

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003645B2 (en) * 2002-12-18 2006-02-21 International Business Machines Corporation Use of a storage medium as a communications network for liveness determination in a high-availability cluster
JP2008503011A (ja) * 2004-06-08 2008-01-31 ダートデバイセズ コーポレーション ユニバーサルデバイスインタオペラビリティプラットフォームのためのデバイスチームリクルートメントおよびコンテンツレンディションのアーキテクチャ装置および方法
US7644305B2 (en) * 2006-05-18 2010-01-05 Microsoft Corporation Quorum establishment based on a vote from a voting device
US20080022120A1 (en) * 2006-06-05 2008-01-24 Michael Factor System, Method and Computer Program Product for Secure Access Control to a Storage Device
US7676687B2 (en) * 2006-09-28 2010-03-09 International Business Machines Corporation Method, computer program product, and system for limiting access by a failed node
US7613947B1 (en) * 2006-11-30 2009-11-03 Netapp, Inc. System and method for storage takeover
US7890555B2 (en) * 2007-07-10 2011-02-15 International Business Machines Corporation File system mounting in a clustered file system
US7921324B2 (en) * 2007-07-12 2011-04-05 International Business Machines Corporation Providing file system availability during local path failure of a non-server node
US8381017B2 (en) 2010-05-20 2013-02-19 International Business Machines Corporation Automated node fencing integrated within a quorum service of a cluster infrastructure
US20120124009A1 (en) * 2010-11-12 2012-05-17 Internation Business Machines Corporation Automatic expiration of data in file systems under certain scenarios
US9164806B2 (en) 2011-01-28 2015-10-20 Oracle International Corporation Processing pattern framework for dispatching and executing tasks in a distributed computing grid
US9201685B2 (en) 2011-01-28 2015-12-01 Oracle International Corporation Transactional cache versioning and storage in a distributed data grid
US9081839B2 (en) 2011-01-28 2015-07-14 Oracle International Corporation Push replication for use with a distributed data grid
US9262229B2 (en) * 2011-01-28 2016-02-16 Oracle International Corporation System and method for supporting service level quorum in a data grid cluster
US9063852B2 (en) 2011-01-28 2015-06-23 Oracle International Corporation System and method for use with a data grid cluster to support death detection
US10706021B2 (en) 2012-01-17 2020-07-07 Oracle International Corporation System and method for supporting persistence partition discovery in a distributed data grid
US10664495B2 (en) 2014-09-25 2020-05-26 Oracle International Corporation System and method for supporting data grid snapshot and federation
US11163498B2 (en) 2015-07-01 2021-11-02 Oracle International Corporation System and method for rare copy-on-write in a distributed computing environment
US10798146B2 (en) 2015-07-01 2020-10-06 Oracle International Corporation System and method for universal timeout in a distributed computing environment
US10860378B2 (en) 2015-07-01 2020-12-08 Oracle International Corporation System and method for association aware executor service in a distributed computing environment
US10585599B2 (en) 2015-07-01 2020-03-10 Oracle International Corporation System and method for distributed persistent store archival and retrieval in a distributed computing environment
US11550820B2 (en) 2017-04-28 2023-01-10 Oracle International Corporation System and method for partition-scoped snapshot creation in a distributed data computing environment
JP6934754B2 (ja) * 2017-06-15 2021-09-15 株式会社日立製作所 分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム
US10769019B2 (en) 2017-07-19 2020-09-08 Oracle International Corporation System and method for data recovery in a distributed data computing environment implementing active persistence
US10721095B2 (en) 2017-09-26 2020-07-21 Oracle International Corporation Virtual interface system and method for multi-tenant cloud networking
US10862965B2 (en) 2017-10-01 2020-12-08 Oracle International Corporation System and method for topics implementation in a distributed data computing environment
CN107947976B (zh) * 2017-11-20 2020-02-18 新华三云计算技术有限公司 故障节点隔离方法及集群系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6349392B1 (en) * 1987-06-02 2002-02-19 Texas Instruments Incorporated Devices, systems and methods for mode driven stops
US5459857A (en) 1992-05-15 1995-10-17 Storage Technology Corporation Fault tolerant disk array data storage subsystem
US5504861A (en) 1994-02-22 1996-04-02 International Business Machines Corporation Remote data duplexing
US5682470A (en) 1995-09-01 1997-10-28 International Business Machines Corporation Method and system for achieving collective consistency in detecting failures in a distributed computing system
US5673384A (en) 1995-10-06 1997-09-30 Hewlett-Packard Company Dual disk lock arbitration between equal sized partition of a cluster
US5996075A (en) * 1995-11-02 1999-11-30 Sun Microsystems, Inc. Method and apparatus for reliable disk fencing in a multicomputer system
US5978933A (en) 1996-01-11 1999-11-02 Hewlett-Packard Company Generic fault tolerant platform
US5828889A (en) * 1996-05-31 1998-10-27 Sun Microsystems, Inc. Quorum mechanism in a two-node distributed computer system
US5740348A (en) 1996-07-01 1998-04-14 Sun Microsystems, Inc. System and method for selecting the correct group of replicas in a replicated computer database system
US5917998A (en) 1996-07-26 1999-06-29 International Business Machines Corporation Method and apparatus for establishing and maintaining the status of membership sets used in mirrored read and write input/output without logging
US5727206A (en) * 1996-07-31 1998-03-10 Ncr Corporation On-line file system correction within a clustered processing system
US5941999A (en) 1997-03-31 1999-08-24 Sun Microsystems Method and system for achieving high availability in networked computer systems
US6021508A (en) * 1997-07-11 2000-02-01 International Business Machines Corporation Parallel file system and method for independent metadata loggin

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016531348A (ja) * 2013-08-26 2016-10-06 ヴイエムウェア インコーポレイテッドVMware,Inc. クラスタメンバーシップ管理における分断耐性
US10855602B2 (en) 2013-08-26 2020-12-01 Vmware, Inc. Distributed policy-based provisioning and enforcement for quality of service
US11016820B2 (en) 2013-08-26 2021-05-25 Vmware, Inc. Load balancing of resources
US11210035B2 (en) 2013-08-26 2021-12-28 Vmware, Inc. Creating, by host computers, respective object of virtual disk based on virtual disk blueprint
US11249956B2 (en) 2013-08-26 2022-02-15 Vmware, Inc. Scalable distributed storage architecture
US11704166B2 (en) 2013-08-26 2023-07-18 Vmware, Inc. Load balancing of resources
US11809753B2 (en) 2013-08-26 2023-11-07 Vmware, Inc. Virtual disk blueprints for a virtualized storage area network utilizing physical storage devices located in host computers

Also Published As

Publication number Publication date
US20020078312A1 (en) 2002-06-20
TWI278749B (en) 2007-04-11
US6915391B2 (en) 2005-07-05

Similar Documents

Publication Publication Date Title
JP2002229837A (ja) 共有ディスク・パラレル・データ・ファイル内のデータに対するアクセスを制御する方法
US8560747B1 (en) Associating heartbeat data with access to shared resources of a computer system
US9130821B2 (en) Hybrid locking using network and on-disk based schemes
JP2703479B2 (ja) タイム・ゼロ・バックアップ・セッションの安全保護機能を有するデータ処理方法及びシステム
US6360306B1 (en) Relocation of suspended data to a remote site in a distributed storage system
JP4249622B2 (ja) 共有ストレージを備えたマルチノード環境のためのシステムおよび方法
US7739541B1 (en) System and method for resolving cluster partitions in out-of-band storage virtualization environments
US6757695B1 (en) System and method for mounting and unmounting storage volumes in a network storage environment
US6708175B2 (en) Program support for disk fencing in a shared disk parallel file system across storage area network
US7069465B2 (en) Method and apparatus for reliable failover involving incomplete raid disk writes in a clustering system
US6360331B2 (en) Method and system for transparently failing over application configuration information in a server cluster
US7668876B1 (en) Snapshot-based replication infrastructure for efficient logging with minimal performance effect
US7631214B2 (en) Failover processing in multi-tier distributed data-handling systems
US6968425B2 (en) Computer systems, disk systems, and method for controlling disk cache
US8533171B2 (en) Method and system for restarting file lock services at an adoptive node during a network filesystem server migration or failover
US7702757B2 (en) Method, apparatus and program storage device for providing control to a networked storage architecture
US20090248756A1 (en) Systems and methods for a read only mode for a portion of a storage system
CN110998562A (zh) 在分布式集群系统中隔开节点
JPWO2009069326A1 (ja) ネットワークブートシステム
US7401081B2 (en) Method and apparatus for providing storage control in a network of storage controllers
US10656867B2 (en) Computer system, data management method, and data management program
US8850132B1 (en) Method and system for providing a shared data resource coordinator within a storage virtualizing data processing system
JP4693867B2 (ja) 計算機システム
JP2001014201A (ja) 共有ファイルシステム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060209

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060512

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060704