JP2002229837A - 共有ディスク・パラレル・データ・ファイル内のデータに対するアクセスを制御する方法 - Google Patents
共有ディスク・パラレル・データ・ファイル内のデータに対するアクセスを制御する方法Info
- Publication number
- JP2002229837A JP2002229837A JP2001357196A JP2001357196A JP2002229837A JP 2002229837 A JP2002229837 A JP 2002229837A JP 2001357196 A JP2001357196 A JP 2001357196A JP 2001357196 A JP2001357196 A JP 2001357196A JP 2002229837 A JP2002229837 A JP 2002229837A
- Authority
- JP
- Japan
- Prior art keywords
- node
- nodes
- data
- quorum
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/142—Reconfiguring to eliminate the error
- G06F11/1425—Reconfiguring to eliminate the error by reconfiguration of node membership
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
Abstract
動作を継続するための方法を提供。 【解決手段】方法は、特に複数のノードからなるグルー
プがたった2つのノードしか含まず、一つのノードに対
する通信が損なわれている状況で特に有用である。単一
ノード・クォーラム動作がイネーブルであるかどうかを
示す追加の状態指示を各ノードに対して加えるための手
段が設けられる。また、タイム・アウト応答を目的とし
て一方のノードが第1のノードとして指名し、他方のノ
ードが第2のノードとして指名するための手段が設けら
れる。
Description
ク・パラレル・ファイル・データ処理システムでのデー
タ・アクセスを制御する方法に関する。本発明は、特に
2ノード・クォーラムをベースとするシステムにおい
て、さもなければ調和したデータ・アクセスを妨げるノ
ード間の通信障害の結果として起こるシステム遮断を防
止するデータ・アクセス制御方法に関する。
ストレージ・エリア・ネットワーク(SAN)によって
連結された複数のディスクに含まれるデータに対する同
時共有アクセスを可能とする。SANは、多くのシステ
ムに対してディスク上のデータへの物理的レベルのアク
セスを提供する。複数の共有ディスクは複数のパーティ
ションに区切られ、これらのパーティションによって、
共通のアクセス無しに、又は共有ディスク・ファイル・
システム又はデータベース・マネージャの支援により物
理的ストレージの共有プールが提供される。したがっ
て、全てのシステムからのデータ全てに対する整合のと
れたアクセスがSANによって与えられる。IBMのゼ
ネラル・パラレル・ファイル・システム(GPFS)
は、多数のシステムをまたがる複数のディスク及びディ
スク・パーティションからなるプールを管理して任意の
システムからの高速直接アクセスを可能とし、また単一
システムから管理された任意のファイル・システムから
利用可能なパフォーマンスを上回る単一ファイル・シス
テム全体の集約的パフォーマンスを提供するファイル・
システムである。本発明は、ファイル・システム・オペ
レーションの局面に影響を与えるようにそのようなマル
チ・システム・パワーをもたらす局面を扱う。
ムでは、各ノード(各々がプロセッサを1つ以上有す
る)がディスクへのアクセスを個々に行い、またデータ
及びメタデータ一貫性が分散ロック・マネージャ(又は
トークン・マネージャ)の使用を通して保たれる。この
ことは、関係しているノード全てがロッキング・プロト
コルで通信及び参加することが可能であることを要求す
る。ロッキング・プロトコルで参加することができない
ノードはデータへアクセスしてはならない。障害が生じ
たノード又はノード間で通信する能力が喪失したノード
で修正済みのメタデータの制御を再現すべきメカニズム
が他のノードになければならない。GPFSは、クォー
ラム・メカニズムを用いて1つ以上のノードからなるク
ラスタでそのような能力を提供する。もし2つのノード
が特定の動作条件を満足するものであるならば、これら
2つのノード間でのデータ共有能力が求められる。ま
た、他のノードに障害が生じた場合、又は2つのノード
間のネットワーク通信が失われた場合、一つのノードが
動作継続可能であることも求められる。より多くの背景
技術に関する情報は、"Parallel File System and Meth
od for Independent Metadata Loggin"と題された 2000
年2月1日公布の米国特許第6,021,508号を参照せよ。
は、同一オブジェクトのトークンを処理するか、又はコ
ンフリクトするロッキング決定を行うトークン・マネー
ジャの重複インスタンスを避ける既存のGPFSリカバ
リ・モデルの一部である。GPFSは、任意のデータ・
アクセス動作が受け付けられる前に一群の構成要素とし
てアクティブとなるノード・クォーラム(通常、GPF
Sノードセットを構成するノード数の1と1/2)を一
般に要求する。この要求は、各GPFSファイル・シス
テムに対して正当な単一トークン管理ドメインが存在す
ることを保証する。クォーラムの存在に先立って、クォ
ーラムが存在しないことを示すメッセージによって殆ど
の要求が拒絶される。もし既存のクォーラムが喪失する
ならば、GPFSは、データの完全性を守るために全て
のノードを終了する。
ち、2ノード・システム)において、マルチ・ノード・
クォーラム要求が2であることは、関係するノードが共
にGPFSファイル・システム動作が受け付けられる前
に群の構成要素でなければならないことを意味する。一
つのノードが利用可能である場合に動作が許可されるよ
うにこの要求を緩めるために、GPFSは2つのノード
からなるノードセットにおいて単一ノード・クォーラム
動作に対するサポートを提供する。2つのノードからな
るノードセットでの単一ノード・クォーラム動作の主な
問題は、共有ディスク・ファイル・システムに対してロ
ック・マネージャが一つしかないことである(すなわ
ち、トークン管理ドメインが一つしかない)。そのた
め、データの一貫性及び安全性が保護される。
ドがダウンするように思われる状況を審判する第3のノ
ード(タイ・ブレイク・ノード)の生成を介する。この
ことは容易にインプリメントされるが、クォーラムは両
方のノード又は一方のノードとタイ・ブレイク・ノード
とを必要とする。しかし、それは利用可能な第3のノー
ドが存在しない真に2つのノードからなるノードセット
が抱える真の問題を解決するものではない。
らなるノードセットにおける単一ノード・クォーラム挙
動をサポートするために3ノード又はより多くのノード
セットに対する既存のクォーラム挙動を修正する。それ
はいずれかのノードに障害が生ずることを許す一方で他
方のノードがファイル・システム内のデータにアクセス
し続けることを許し続けるという望ましい目的を満た
す。
られる方法が2つだけある。一つは、基本的なGPFS
デザインに類似している何らかのタイプのクォーラムで
ある。他の方法は、1つのノードが「特権を与えられて
いる」と指名されるアプローチであり、このノードを含
んでいるどんなグループでも継続することができる。こ
の2番目の方法は、データを共有するノードからなるク
ラスタ全体に対する障害の単一ポイントか、特権が与え
られたノードを移動させ、何らかの高度に利用可能な記
憶装置での移動を追跡することに対する手動介入のため
の必要条件のいずれかを生成する。本発明は、これらの
問題全てを避ける。
処理システムの可用性を保証することである。本発明の
別の目的は、共有ディスク・パラレル・ファイル・シス
テムにおいて全ての関連したデータ・ファイルのデータ
完全性及び一貫性を保証することである。本発明の別の
目的は、クォーラムに基づいたアクセス・プロトコルで
データに対する継続的なアクセスを提供することであ
る。本発明のさらに別の目的は、動作時間を延ばし、か
つ特に2つのノードからなる識別されたグループが同一
のデータ及びデータ・ファイルにアクセスするマルチ・
ノード・コンピュータ・システムの特徴を拡大すること
である。本発明の別の目的は、通信障害によって孤立し
たノードに有用な動作を提供することである。本発明の
さらに別の目的は、通信障害に関連した問題がよりいっ
そう都合が良い時に扱われることができるように、孤立
したノードの継続的な動作を提供することである。最後
に、限定されるものではないが、本発明のさらに別の目
的は、必要に応じて、データ・アクセスのためのクォー
ラム・プロトコルにおける単一モードの動作を許すグル
ープ内のノードの新たな状態を提供することである。
れば、共有ディスク・パラレル・ファイル・システムに
おいてデータに対するアクセスを制御するための方法
は、2モード・システムで、1つのノードに対する通信
に障害が生じたかどうかを判断する第1のステップを有
する。次に、影響を受けていないノードによって、該ノ
ードが単一ノード・クォーラム動作のためにイネーブル
であったかどうかについて判断が下される。もし、単一
ノード・クォーラム動作がイネーブルとなった決定され
たならば、影響を受けたノードへのデータ・アクセスが
制限される。この動作モードは、残っているシステム・
ノードの継続的な動作を可能とし、通信障害の問題に対
処するためにシステム全体をシャット・ダウンするのを
避ける。
明が機能する状況をより良く理解することを助ける一定
の背景技術を最初に検討することによって最もよく達成
される。ファイル・システム220は、ディスク・ドラ
イブ150等の媒体上で他のアプリケーション・プログ
ラムが格納及び検索を行うことを可能とするコンピュー
タ・プログラムである。ファイルは、名前が付けられた
任意の大きさのデータ・オブジェクトである。ファイル
・システム220は、アプリケーション・プログラムに
よるファイルの生成、該ファイルの命名、該ファイルへ
のデータの格納(又は書込み)、該ファイルからのデー
タの読取り、該ファイルからのデータの削除、及び他の
動作の実行を可能とする。ファイル構造160は、ディ
スク・ドライブ150上のデータ編成である。
つ以上のディスクにあるファイル構造160が別々のコ
ンピュータ(又はノード100)上で実行される多ファ
イル・システムによってアクセスされる。共有ディスク
・ファイル・システムは、複数のノード上で平行に実行
される複数の部分に分解されるファイル構造を用いる演
算を可能とする。
イル構造160は、対応のファイルに対してファイル名
をマップするメタデータ170、ファイルに関する情
報、最も重要なことはディスク上のファイル・データの
位置(すなわち、どのディスク・ブロックがファイル・
データを保持するか)に関する情報を含むファイル・メ
タフェーズ180(イノード190及び間接ブロック2
00が含まれる)、どのディスク・ブロックがメタデー
タ及びファイル・データの格納に現在使用されているか
を記録するアロケーション・マップ173、さらにファ
イル構造(例えば、ディレクトリ、アロケーション・マ
ップ、及び他のメタデータ構造の位置)についての全体
的な情報を含むスーパー・ブロック174を有する。図
3を参照せよ。
ル・システムは、AIXのGPFS汎用パラレル・ファ
イル・システムである。GPFSは、複数のRS/60
00コンピュータ上の複数のディスク・ドライブをまた
がるファイルに対する共有アクセスを可能とする。メタ
データ更新は以下の様式で処理される。ノードは、もし
読取り及び書込みが行われるセクションに対する適当な
ロックを最初に表すならば、ファイルの異なる領域に対
して読取り及び書込みを行うが、全てのノードが同一の
メタデータ170にアクセスすることを必要とする。メ
タデータ170は、ファイルの大きさ191、ファイル
・アクセス時間192、ファイル更新時間193、及び
ファイルのデータ・ブロック・アドレス194を含む。
図4を参照せよ。GPFSでは、共有ディスク環境で並
行して読取り及び書込みを行うファイル・メタデータの
管理に利用されるメタデータ・モード(又はメタモー
ド)の構成体が存在する。各ファイルに対して、単一の
ノードが該ファイルのメタノードとして選択される。メ
タノードは、ファイルのメタデータについての情報を保
持し、該メタデータがある1つ又は複数のディスク15
0に対する全ての入出力(I/O)アクティビティの処
理を担う。他のノード全てがメタデータ情報をフェッチ
又は更新するためにメタノードと通信する。しかし、そ
れらのノードはディスク上のメタデータ情報に対して直
接アクセスするものではない。このことは、パラレル・
ファイル・システムに対する著しい性能改善となるディ
スク・アクティビティのかなりの部分を妨げる。書込み
共有は、以下のようにして生ずる。特に、GPFSは、
2つの動作がファイルの互いに異なるバイト範囲を更新
する限り、それらは並行して処理することが可能とな
る。
の概念をインプリメントする(図5参照)。グループ・
モニタリング・サービス230(例えば、IBMのRS
/6000クラスタ・テクノロジー(RSCT)グルー
プ・サービス)が全てのノード上のプロセスをモニタ
し、かつノード及び通信の障害を検出する。このサービ
スは、複数の「プロセス・グループ」を結合させること
によって提供される。すなわち、構成要素の障害が生じ
た場合、又は新たなプロセスがグループへの参加を試み
た場合に、1つのグループの全ての構成要素が伝えられ
る。開始時、全てのノードがプロセス・グループへの参
加を強要される。全てのディスク・アクセスは、共用デ
ィスク上のデータ及び/又はメタデータの特定の部分を
読取り又は変更する前に1つの構成要素がロックを得る
分散ロッキング240を介して、グループ構成要素間で
調整される。グループの1つの構成要素は、ロック・マ
ネージャであり、該ロック・マネージャは、どのロック
がどのノードに保持されるかを知る。フェールオーバ性
能があり、ここで関係する2つのノード・シナリオにお
いてさえ効果的であり続ける存続ノードへのロック・マ
ネージャの移動を可能とする。
するためにクォーラム規則も用いられ、通信障害が生じ
た場合、複数のグループを形成することが可能である。
このことは、結果として異なるグループのマネージャを
ロックすることになり、ロッキング決定の競合が生ず
る。このことを防ぐために、もしディスクへアクセスす
ることが可能なプロセッサの過半数が「プロセス・グル
ープ」の構成要素であると言えないならば、又は本発明
の特別な2ノード要求が生ずるならば、ファイル・シス
テム動作は許可されない。トランザクションのロギング
260も同じく利用される。例えば、障害が生じた後に
不整合性をもたらすデータ/メタデータ更新のすべてが
ログ・ファイルに書かれる。各ノードはそれ自身のログ
を有しているが、障害が生じた場合に全てのノードがア
クセス可能となるように他のログもまた共有ディスク上
に格納される。問題を経験しているシステムの制限27
0も同様に加えられる。したがって、所定のプロセッサ
から所定のディスクへのアクセスをブロックする能力が
存在する。ノードがスモール・コンピュータ・システム
・インタフェース(SCSI)リザーブ又は逐次記憶装
置アーキテクチャ(SSA)等のディスクの制御を止め
ることを許す多くのディスク・タイプ特異的能力があ
る。リカバリを支援するためにバリヤ280が用いられ
る。リカバリ・ステップは本質的に連続的であり、また
一定のリカバリ・ステップが全てのノードで実行される
ことを必要とすることから、バリヤ280はどこかで次
のステップが実行される前に全てのノードでステップが
完了することを保証するために一時的に使われる。
検討が加えられる。ノードセット毎に1つの環境設定マ
ネージャが存在する。環境設定マネージャは、ファイル
・システム・マネージャを選択し、かつノードのクォー
ラムが存在するかどうかを判断する。ノードの低速数
は、ファイル・システム(GPFS)ノードセットの最
小ノード数であり、ファイル・システム・デーモンが開
始されるために、またファイル・システム動作使用法が
継続するために実行されていなければならない。クォー
ラムは、ファイル・システム・マネージャの役割を複数
のノードが想定することを防ぐためにノードセット内で
実施される。この役割を想定する複数のノードは、トー
クン管理機能が一般にファイル・システム・マネージャ
・ノードにあることから、可能性あるデータ破壊の問題
を引き起すと思われる。
グ・サービス(例えば、IBMのRSCTグループ・サ
ービス)によって追跡される。1つのノードがGPFS
グループに参加する場合、もしまだクォーラムがなけれ
ば、グループ状態は「イニシャル(INITIAL)」
に設定される。クォーラム要求が満たされるようにグル
ープ内に十分なノードがある場合、グループ状態は、
「アクティブ(ACTIVE)」状態に変わる。ACT
IVE状態にある場合、GPFSノードはデータを取り
扱うことができる。1つのノードに通信障害が生じる
と、その状態がフェールド「FAILED」状態い設定
され、残っているノードの全てがそのノードに対する通
信を停止する。ファイル・システム・マネージャは、障
害が生じたノードを制限する。障害が生じたノードは、
ディスク・サブシステムに対して該障害が生じたノード
からのディスク要求の受付をやめさせる。障害が生じた
ノードは、たとえ通信障害を検出していなくとも、共有
ディスクへのアクセスができない。
目する。なぜなら、クォーラム機能がイネーブルである
単一のノードからなるノードセット動作という結果とな
るシナリオに特に関わる。GPFSは、ノードセット内
にクォーラムを実現し、2つのノードが共に、結果とし
て生ずるデータ破壊によってファイル・システムのトー
クン・サーバとして動作する可能性を妨げる。クォーラ
ムは、3つ以上のノードを持つ全てのノードセットに対
して何ら変化をもたらすことなく実施される。2つのノ
ードからなるノードセットでは、ここでマルチ・ノード
・クォーラム動作又は単一ノード・クォーラム動作を可
能とするオプションが与えられる。単一ノード・クォー
ラムの挙動の選択は、2つのノードからなるノードセッ
トの残存ノードが同位ノードに障害が生じた場合でさえ
作用し続けることを可能とする。
施中であるならば、クォーラムは、障害が生じたノード
をリカバするために保たれる必要がある。もしマルチ・
ノード・クォーラム動作がノード障害のために保守され
ていなければ、全てのGPGFSノードが再始動され、
リカバリ処理がなされ、再びクォーラム動作状態を達成
しようと試みられる。したがって、3ノード・システム
では、1つのノードの障害が2つの残存ノードのリカバ
リ及び継続動作を可能とする。これは、ノードの障害に
よって継続的な動作が可能である最小構成である。すな
わち、単一ノード・クォーラム動作状態がイネーブルで
なかった2ノード・システムでは、1つのノードの障害
は両方のノードが再始動し、リカバリ処理がなされ、再
びクォーラムの達成が試みられることを意味する。ここ
で、障害は必ずしもノード全体の障害を意味するもので
はなく、単にノードにリンクした通信の障害を意味する
ことができる。
がイネーブルであるならば、1つのノードの障害によっ
てGPFSが障害ノードを制限することになる。目的
は、たった1つのノードが動作を継続し、第2のノード
はリカバリが完了し、両方のノードが協同することがで
きる場合のみ、動作を再開するということである。残存
ノードは、制限動作が成功している限り、処理を続け
る。
はそのグループ状態がACTIVE又はSINGLEN
ODEのいずれかである場合にデータを取り扱う。先行
するシステムは、SINGLENODE状態を保つこと
の可能性を用いなかった。両方のノードが利用可能であ
る挙動は、変化していない。ここで、1つのノードのみ
が利用可能である挙動は、どのように問題が生じたかに
依存する。もしグループ・モニタリング・サービス23
0がGPFグループの構成要素に生じた障害を報告する
ならば、GPFSは該グループの状態をSINGLEN
ODEに変更するプロトコルを開始する。そのプロトコ
ルが成功した時、それは他のノードを制限し、かつ継続
する。SINGLENODE状態からACTIVE状態
への転換は、他のGPFSが復帰するときに起こる。こ
の状況は、障害が生じたノード上の他のソフトウェアと
の通信があるGPFSソフトウェアの障害をカバーす
る。本発明の好ましい実施形態では、ノードセットを構
成するノードの1つが第1のノードとして指名され、他
のノードが第2のノードと指名される。もしグループ・
モニタリング・サービス230がノードの障害を含むG
PFSグループの構成要素の障害を報告するならば、G
PFSは成功する第1のノード上のSINGLENOD
Eへの状態変化を提案する。次に、第1のモードは第2
のモードを制限し、制限動作が成功する限り継続する。
もしいくつかの動作が成功し、他が失敗したならば、完
全には制限されていないファイル・システムがアンマウ
ントされる。第2のモードは一定の時間(例えば、3
分。好ましくは選択可能な任意の数)待機し、もし制限
されたかどうかを判断する。制限に対するチェックは、
首尾一貫した判断がなされるように両方ノードに対して
同位に行われる。第2のノードでの遅れは、一連の通信
経路が障害を受け、両方のノードが実際に立ち上がり、
どれも供給されないように、各々が両方のノードを制限
するために動作している。もし第2のノードが制限され
ると、全てのファイル・システムがアンマウントされ、
2ノード動作を再開するのに必要とされる通信の可用性
を待つ。もしそれが制限されていなければ、上記した第
1の役割を仮定し、他のノードを制限する。両方のノー
ドが制限される時の同一待ち時間にわたって遅れる場合
に生ずる小さな時間窓が存在するが、可能性は非常に小
さい。
はクォーラムを待つ。もし、単一ノードの挙動が許され
るならば、3分後に待ち時間が切れる。もしGPFSが
自動的にマウントされるファイル・システムのいずれか
で制限されていなければ、他のノードを制限し、SIG
LENODEモードでの動作に入る。もしそれが制限さ
れると、クォーラムを待つ。このことによって、通信経
路がダウンした場合に一つのノードを持ち出す方法がシ
ステム・アドミニストレータに対して与えられる。アド
ミニストレータは、ノードの一つを手動で制限解除させ
てGPFSを再起動することができる。制限は、両方の
ノードが立ち上がると通常はなくなる。
それが2つのノードからなるグループを形成することが
できる場合にのみ制限が取り除かれる。そのことは、G
PFSの起動は、両方のノードが利用可能であること、
又は事前にノードに対する制限が取り除かれていること
のいずれかを要求する。もし、一つのノードが立ち上が
り、パートナーを見いださなくて、そして制限がないと
するならば、ノードは一定の時間遅れて、他のノードを
制限して単一ノード動作を開始する。マルチ・ノード・
クォーラムの挙動における3つの状態、すなわちINI
TIAL、ACTIVE、及びFAILEDの代わり
に、新たなグループ状態であるSINGLENODEが
加わって単一ノード・クォーラム動作をサポートする。
マルチ・ノード・クォーラム動作では、ACTIVE状
態にある場合、ノードは安全にデータを取り扱うことが
できる。一方、単一ノード・クォーラム動作では、ノー
ドはACTIVE状態(両方のノードが利用可能であ
る)及びSINGLENODE状態(一つのノードが利
用可能である)の両方でデータを取り扱うことができ
る。単一ノード・クォーラム動作では、2つのノードか
らなるノードセットは、これらのノードが最初にグルー
プに加わる時にINITIAL状態に入る。もし、クォ
ーラムが前もって定められた遅れの範囲内で達成される
ならば、ACTIVE状態、さもなければSINGLE
NODE状態への状態の変更が試みられる。
スクのアクセスを制限することが可能であるならば、成
功裏にACTIVE状態(パートナー・ノードを失う場
合)又はINITIAL状態(初期時間切れ後)からS
INGLENODEモードへ転換する。もしノードがG
PFSグループから出る(自発的に、又は何らかの障害
により)とノード状態がACTIVE状態からFAIL
ED状態に変わり、単一ノード・クォーラム・プロトコ
ルをインプリメントすることができずパートナー・ノー
ドの制限に失敗した場合はノード状態がSINGLEN
ODE状態からFAILED状態に変わる。また、パー
トナー・ノードが成功裏にグループに加わるとノードが
SINGLENODE状態からACTIVE状態に変わ
る。
るノードそれぞれが異なる役割を持つ。一方のノードが
第1のノードと指名され、他方のノードが第2のノード
と指名される。このような指定によって、もし両方のノ
ードが互いに制限を加えようとする場合に各ノードに対
して別々に遅延のインプリメンテーションが可能とな
る。第1のノードは、第2のノードがパートナーの制限
を試みる前に一定の時間にわたって遅延するのに対し
て、他のノードが到達不可能(グループ・サービス通知
又は通信時間切れによって)であることを悟った後で直
ちにパートナー・ノードを制限する。
基づいて詳細に説明したが、多くの修飾及び変更が当業
者によって行うことが可能である。したがって、特許請
求の範囲は、そのような修飾及び変更が全て本発明の真
の精神及び範囲から逸脱するものではないことを意味し
ている。
の事項を開示する。 (1)共有ディスク・パラレル・データ・ファイル内の
データに対するアクセスを制御する方法であって、2つ
のノードからなるシステムで、1つのノードに対する通
信に障害が生じたことを決定するステップと、前記通信
に障害が生じた前記ノードが単一ノード・クォーラム動
作に対してイネーブルであったかどうかを決定するステ
ップと、単一ノード・イネーブル状態を検出次第、前記
通信に障害が生じたノードへのデータ・アクセス及び前
記失敗したノードからのデータ・アクセスを制限するス
テップと、を有することを特徴とするデータ・アクセス
制御方法。 (2)前記1つのノードに対する通信に障害が生じたこ
とを決定するステップと前記通信に障害が生じた前記ノ
ードが単一ノード・クォーラム動作に対してイネーブル
であったかどうかを決定するステップとの間で、影響を
受けていないノードのファイル状態標識が単一ノード動
作を示すように切り替えられることを特徴とする上記
(1)に記載の方法。 (3)前記2つのノードは、第1のノード及び第2のノ
ードとして別々に示され、前記第2のノードは切り離さ
れたことを検出し、前記第2のノードは所定の時間待ち
状態にあり、前記第2のノードが制限されたことを示す
データ・ビットを設定することを特徴とする上記(1)
に記載の方法。 (4)前記第2のノードが制限されたことを示すデータ
・ビットが設定され次第、前記第2のノードは全てのフ
ァイル・システムをアンマウントし、2ノード動作が可
能であることを示す信号を待つことを特徴とする上記
(3)に記載の方法。
ド・システムを説明するためのブロック図である。
るノードの1つの内部構造を説明するためのブロック図
である。
ック図である。
図である。
ブロック図である。
モデル) 240 分散ロッキング 260 ロギング 270 制限 280 バリヤ
Claims (4)
- 【請求項1】共有ディスク・パラレル・データ・ファイ
ル内のデータに対するアクセスを制御する方法であっ
て、 2つのノードからなるシステムで、1つのノードに対す
る通信に障害が生じたことを決定するステップと、 前記通信に障害が生じた前記ノードが単一ノード・クォ
ーラム動作に対してイネーブルであったかどうかを決定
するステップと、 単一ノード・イネーブル状態を検出次第、前記通信に障
害が生じたノードへのデータ・アクセス及び前記失敗し
たノードからのデータ・アクセスを制限するステップ
と、 を有することを特徴とするデータ・アクセス制御方法。 - 【請求項2】前記1つのノードに対する通信に障害が生
じたことを決定するステップと前記通信に障害が生じた
前記ノードが単一ノード・クォーラム動作に対してイネ
ーブルであったかどうかを決定するステップとの間で、
影響を受けていないノードのファイル状態標識が単一ノ
ード動作を示すように切り替えられることを特徴とする
請求項1に記載の方法。 - 【請求項3】前記2つのノードは、第1のノード及び第
2のノードとして別々に示され、前記第2のノードは切
り離されたことを検出し、前記第2のノードは所定の時
間待ち状態にあり、前記第2のノードが制限されたこと
を示すデータ・ビットを設定することを特徴とする請求
項1に記載の方法。 - 【請求項4】前記第2のノードが制限されたことを示す
データ・ビットが設定され次第、前記第2のノードは全
てのファイル・システムをアンマウントし、2ノード動
作が可能であることを示す信号を待つことを特徴とする
請求項3に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/737,393 US6915391B2 (en) | 2000-12-15 | 2000-12-15 | Support for single-node quorum in a two-node nodeset for a shared disk parallel file system |
US09/737393 | 2000-12-15 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002229837A true JP2002229837A (ja) | 2002-08-16 |
Family
ID=24963738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001357196A Pending JP2002229837A (ja) | 2000-12-15 | 2001-11-22 | 共有ディスク・パラレル・データ・ファイル内のデータに対するアクセスを制御する方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6915391B2 (ja) |
JP (1) | JP2002229837A (ja) |
TW (1) | TWI278749B (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016531348A (ja) * | 2013-08-26 | 2016-10-06 | ヴイエムウェア インコーポレイテッドVMware,Inc. | クラスタメンバーシップ管理における分断耐性 |
US10855602B2 (en) | 2013-08-26 | 2020-12-01 | Vmware, Inc. | Distributed policy-based provisioning and enforcement for quality of service |
US11016820B2 (en) | 2013-08-26 | 2021-05-25 | Vmware, Inc. | Load balancing of resources |
US11210035B2 (en) | 2013-08-26 | 2021-12-28 | Vmware, Inc. | Creating, by host computers, respective object of virtual disk based on virtual disk blueprint |
US11249956B2 (en) | 2013-08-26 | 2022-02-15 | Vmware, Inc. | Scalable distributed storage architecture |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003645B2 (en) * | 2002-12-18 | 2006-02-21 | International Business Machines Corporation | Use of a storage medium as a communications network for liveness determination in a high-availability cluster |
JP2008503011A (ja) * | 2004-06-08 | 2008-01-31 | ダートデバイセズ コーポレーション | ユニバーサルデバイスインタオペラビリティプラットフォームのためのデバイスチームリクルートメントおよびコンテンツレンディションのアーキテクチャ装置および方法 |
US7644305B2 (en) * | 2006-05-18 | 2010-01-05 | Microsoft Corporation | Quorum establishment based on a vote from a voting device |
US20080022120A1 (en) * | 2006-06-05 | 2008-01-24 | Michael Factor | System, Method and Computer Program Product for Secure Access Control to a Storage Device |
US7676687B2 (en) * | 2006-09-28 | 2010-03-09 | International Business Machines Corporation | Method, computer program product, and system for limiting access by a failed node |
US7613947B1 (en) * | 2006-11-30 | 2009-11-03 | Netapp, Inc. | System and method for storage takeover |
US7890555B2 (en) * | 2007-07-10 | 2011-02-15 | International Business Machines Corporation | File system mounting in a clustered file system |
US7921324B2 (en) * | 2007-07-12 | 2011-04-05 | International Business Machines Corporation | Providing file system availability during local path failure of a non-server node |
US8381017B2 (en) | 2010-05-20 | 2013-02-19 | International Business Machines Corporation | Automated node fencing integrated within a quorum service of a cluster infrastructure |
US20120124009A1 (en) * | 2010-11-12 | 2012-05-17 | Internation Business Machines Corporation | Automatic expiration of data in file systems under certain scenarios |
US9164806B2 (en) | 2011-01-28 | 2015-10-20 | Oracle International Corporation | Processing pattern framework for dispatching and executing tasks in a distributed computing grid |
US9201685B2 (en) | 2011-01-28 | 2015-12-01 | Oracle International Corporation | Transactional cache versioning and storage in a distributed data grid |
US9081839B2 (en) | 2011-01-28 | 2015-07-14 | Oracle International Corporation | Push replication for use with a distributed data grid |
US9262229B2 (en) * | 2011-01-28 | 2016-02-16 | Oracle International Corporation | System and method for supporting service level quorum in a data grid cluster |
US9063852B2 (en) | 2011-01-28 | 2015-06-23 | Oracle International Corporation | System and method for use with a data grid cluster to support death detection |
US10706021B2 (en) | 2012-01-17 | 2020-07-07 | Oracle International Corporation | System and method for supporting persistence partition discovery in a distributed data grid |
US10664495B2 (en) | 2014-09-25 | 2020-05-26 | Oracle International Corporation | System and method for supporting data grid snapshot and federation |
US11163498B2 (en) | 2015-07-01 | 2021-11-02 | Oracle International Corporation | System and method for rare copy-on-write in a distributed computing environment |
US10798146B2 (en) | 2015-07-01 | 2020-10-06 | Oracle International Corporation | System and method for universal timeout in a distributed computing environment |
US10860378B2 (en) | 2015-07-01 | 2020-12-08 | Oracle International Corporation | System and method for association aware executor service in a distributed computing environment |
US10585599B2 (en) | 2015-07-01 | 2020-03-10 | Oracle International Corporation | System and method for distributed persistent store archival and retrieval in a distributed computing environment |
US11550820B2 (en) | 2017-04-28 | 2023-01-10 | Oracle International Corporation | System and method for partition-scoped snapshot creation in a distributed data computing environment |
JP6934754B2 (ja) * | 2017-06-15 | 2021-09-15 | 株式会社日立製作所 | 分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム |
US10769019B2 (en) | 2017-07-19 | 2020-09-08 | Oracle International Corporation | System and method for data recovery in a distributed data computing environment implementing active persistence |
US10721095B2 (en) | 2017-09-26 | 2020-07-21 | Oracle International Corporation | Virtual interface system and method for multi-tenant cloud networking |
US10862965B2 (en) | 2017-10-01 | 2020-12-08 | Oracle International Corporation | System and method for topics implementation in a distributed data computing environment |
CN107947976B (zh) * | 2017-11-20 | 2020-02-18 | 新华三云计算技术有限公司 | 故障节点隔离方法及集群系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6349392B1 (en) * | 1987-06-02 | 2002-02-19 | Texas Instruments Incorporated | Devices, systems and methods for mode driven stops |
US5459857A (en) | 1992-05-15 | 1995-10-17 | Storage Technology Corporation | Fault tolerant disk array data storage subsystem |
US5504861A (en) | 1994-02-22 | 1996-04-02 | International Business Machines Corporation | Remote data duplexing |
US5682470A (en) | 1995-09-01 | 1997-10-28 | International Business Machines Corporation | Method and system for achieving collective consistency in detecting failures in a distributed computing system |
US5673384A (en) | 1995-10-06 | 1997-09-30 | Hewlett-Packard Company | Dual disk lock arbitration between equal sized partition of a cluster |
US5996075A (en) * | 1995-11-02 | 1999-11-30 | Sun Microsystems, Inc. | Method and apparatus for reliable disk fencing in a multicomputer system |
US5978933A (en) | 1996-01-11 | 1999-11-02 | Hewlett-Packard Company | Generic fault tolerant platform |
US5828889A (en) * | 1996-05-31 | 1998-10-27 | Sun Microsystems, Inc. | Quorum mechanism in a two-node distributed computer system |
US5740348A (en) | 1996-07-01 | 1998-04-14 | Sun Microsystems, Inc. | System and method for selecting the correct group of replicas in a replicated computer database system |
US5917998A (en) | 1996-07-26 | 1999-06-29 | International Business Machines Corporation | Method and apparatus for establishing and maintaining the status of membership sets used in mirrored read and write input/output without logging |
US5727206A (en) * | 1996-07-31 | 1998-03-10 | Ncr Corporation | On-line file system correction within a clustered processing system |
US5941999A (en) | 1997-03-31 | 1999-08-24 | Sun Microsystems | Method and system for achieving high availability in networked computer systems |
US6021508A (en) * | 1997-07-11 | 2000-02-01 | International Business Machines Corporation | Parallel file system and method for independent metadata loggin |
-
2000
- 2000-12-15 US US09/737,393 patent/US6915391B2/en not_active Expired - Fee Related
-
2001
- 2001-11-22 JP JP2001357196A patent/JP2002229837A/ja active Pending
- 2001-12-12 TW TW090130776A patent/TWI278749B/zh not_active IP Right Cessation
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016531348A (ja) * | 2013-08-26 | 2016-10-06 | ヴイエムウェア インコーポレイテッドVMware,Inc. | クラスタメンバーシップ管理における分断耐性 |
US10855602B2 (en) | 2013-08-26 | 2020-12-01 | Vmware, Inc. | Distributed policy-based provisioning and enforcement for quality of service |
US11016820B2 (en) | 2013-08-26 | 2021-05-25 | Vmware, Inc. | Load balancing of resources |
US11210035B2 (en) | 2013-08-26 | 2021-12-28 | Vmware, Inc. | Creating, by host computers, respective object of virtual disk based on virtual disk blueprint |
US11249956B2 (en) | 2013-08-26 | 2022-02-15 | Vmware, Inc. | Scalable distributed storage architecture |
US11704166B2 (en) | 2013-08-26 | 2023-07-18 | Vmware, Inc. | Load balancing of resources |
US11809753B2 (en) | 2013-08-26 | 2023-11-07 | Vmware, Inc. | Virtual disk blueprints for a virtualized storage area network utilizing physical storage devices located in host computers |
Also Published As
Publication number | Publication date |
---|---|
US20020078312A1 (en) | 2002-06-20 |
TWI278749B (en) | 2007-04-11 |
US6915391B2 (en) | 2005-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002229837A (ja) | 共有ディスク・パラレル・データ・ファイル内のデータに対するアクセスを制御する方法 | |
US8560747B1 (en) | Associating heartbeat data with access to shared resources of a computer system | |
US9130821B2 (en) | Hybrid locking using network and on-disk based schemes | |
JP2703479B2 (ja) | タイム・ゼロ・バックアップ・セッションの安全保護機能を有するデータ処理方法及びシステム | |
US6360306B1 (en) | Relocation of suspended data to a remote site in a distributed storage system | |
JP4249622B2 (ja) | 共有ストレージを備えたマルチノード環境のためのシステムおよび方法 | |
US7739541B1 (en) | System and method for resolving cluster partitions in out-of-band storage virtualization environments | |
US6757695B1 (en) | System and method for mounting and unmounting storage volumes in a network storage environment | |
US6708175B2 (en) | Program support for disk fencing in a shared disk parallel file system across storage area network | |
US7069465B2 (en) | Method and apparatus for reliable failover involving incomplete raid disk writes in a clustering system | |
US6360331B2 (en) | Method and system for transparently failing over application configuration information in a server cluster | |
US7668876B1 (en) | Snapshot-based replication infrastructure for efficient logging with minimal performance effect | |
US7631214B2 (en) | Failover processing in multi-tier distributed data-handling systems | |
US6968425B2 (en) | Computer systems, disk systems, and method for controlling disk cache | |
US8533171B2 (en) | Method and system for restarting file lock services at an adoptive node during a network filesystem server migration or failover | |
US7702757B2 (en) | Method, apparatus and program storage device for providing control to a networked storage architecture | |
US20090248756A1 (en) | Systems and methods for a read only mode for a portion of a storage system | |
CN110998562A (zh) | 在分布式集群系统中隔开节点 | |
JPWO2009069326A1 (ja) | ネットワークブートシステム | |
US7401081B2 (en) | Method and apparatus for providing storage control in a network of storage controllers | |
US10656867B2 (en) | Computer system, data management method, and data management program | |
US8850132B1 (en) | Method and system for providing a shared data resource coordinator within a storage virtualizing data processing system | |
JP4693867B2 (ja) | 計算機システム | |
JP2001014201A (ja) | 共有ファイルシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051115 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060209 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060214 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060512 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060704 |