JP2004246892A

JP2004246892A - マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法

Info

Publication number: JP2004246892A
Application number: JP2004032673A
Authority: JP
Inventors: Myung M Bae; ミュング・エム・ビー; Ramendra K Sahoo; ラメンドラ・ケイ・サフー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2003-02-12
Filing date: 2004-02-09
Publication date: 2004-09-02
Also published as: US20040158777A1; US20060242454A1; US7401265B2; KR100658913B1; US20070277058A1; US7296191B2; JP4721195B2; KR20040073273A; US7137040B2; JP2008210412A; US7814373B2; US20080313333A1

Abstract

【課題】プロキシ・リソース・マネージャおよびエージェントの使用によって分散データ処理システム内のリモート・リソースをコントロールし、使用し、そしてモニタするという概念を拡張して、一時的あるいはより長い期間のノード障害の場合であってもリソース・カバレッジが保存され維持されるようなフェイルオーバ機能を提供する。
【解決手段】リソース・ステータスの一貫した決定のためのメカニズムを提供する。リモート・リソース１３０のオペレーションを保持しながらノードのグループ１００に対するノードの参加を促進するメカニズムも提供する。障害がノード１１０または１２０のリセットをもたらした場合であっても、前にフェイルしたが現在はリカバリしたノードのコントロールへリモート・リソースの管理を戻すための追加のメカニズムも提供する。
【選択図】図１

Description

本発明は、分散マルチノード・データ処理システムに関する。特に、本発明は、リモート外部データ処理ノード上の複数の様々なリソースの存在が、それらのステータスが、変化している，不明である，あるいは十分に定義されていないといういずれかの状態を引き起こす可能性がある、このような複数の様々なリソースを管理するメカニズムに関する。さらに詳細には、本発明は、管理ノードの障害に対してトレラントであり、かつ、極めて多数のノードを有するシステムにおいて特に有用であるような、リモート・ノード上のリソースのためのスケーラブル・リソース管理方法に関する。

本発明は、“A Monitoring Method of the Remotely Accessible Resources to Provide the Persistent and Consistent Resource States”と称される先に提出された特許出願（特許出願番号１０／２２７，２５４，特許出願日２００２年８月２０日）に対する改良であり、この先の出願は、モニタ・ノードのうちの１つにおける障害の可能性に対して、分散マルチノード・データ処理システムにおいてオペレーションを継続的にモニタしコントロールする方法を提供する。システム内の他のノードへのリソース・マネージャ機能のフェイルオーバ・メカニズムを与えることによって本発明が障害に対する保護を与えるという点において、本発明は、上述した方法の機能拡張である。

分散システムにおいては、多くの物理的および論理的エンティティが、システム内の他のノードへ密に接続されてもよくまたは密に接続されなくてもよいリモート・ノードとして最も良く特徴づけられるノードを含むシステム内のノード中にくまなく配置される。これは、分散システムにおいて確認される典型的な特性のうちの１つである。この状況において、これらの物理的および論理的エンティティは、リソースと呼ばれる。この用語“リソース”は、ソフトウェア・エンティティおよびハードウェア・エンティティを指示するために本明細書において広く用いられる。このようなリソースの例は、ノード１４上のイーサネット（登録商標）・デバイスｅｔｈ０，データベース・テーブル“カスタマ”，ＩＰアドレス９．１１７．７．２１などを含む。これらの少数の例から判断して、用語“リソース”が、分散マルチノード・データ処理システムにおいて見られる多数の極めて異なったエンティティを指示することを意図されていることが分かる。一方、それぞれのリソースは、当該リソースの特性を少なくとも部分的に定義する少なくとも１つの属性を有する。さらに、当該属性の一部は、リソースのステータスまたは条件を通して反映される。一例として、ネットワーク・イーサネット・デバイスは、ネーム（name）（例えばｅｔｈ０），OpState（例えばUp，Down，フェイルなど）、そのアドレス（address）（例えば９．１１７．７．２１）などのような属性を典型的に含む。したがって、ネーム，OpState，およびアドレスは、リソース属性と呼ばれる。リソースのステータスを反映するリソース属性（上述のOpStateのような）は、動的属性に分類される。

これらのリソースは、分散データ処理システムの他のコンポーネント（例えば、システム管理ツールまたはユーザ・アプリケーションなど）へサービスを提供するので、これらのリソースは、本明細書において、“リソース・マネージャ・インフラストラクチャ”または“ＲＭＩ”と典型的に呼ばれるエンティティによってシステム・レベルでモニタされおよび／またはコントロールされる必要がある。大部分のＲＭＩは、上述したリソースとこのＲＭＩとが同一のノードに含まれるかまたは限定されるということを前提とする。しかしながら、所定のシステムが、ソフトウェア制約，ハードウェア制約および／またはアーキテクチャ制約のために、リソースおよびＲＭＩの双方を有することもあり有さないこともある異なるタイプのノードを有する場合には、同一ノードのリソースおよびＲＭＩというこの前提は当てはまらない。本明細書において用いられる用語リソース・マネージャ・インフラストラクチャは、データ処理ノードのクラスタ内部のリソースに対してモニタ，照会，変更，およびコントロール機能を実行するサブシステムを含むソフトウェア・コンポーネントのシステムを指す。これらのサブシステムは、典型的に、ノード間通信，リソースの登録などのような共通アクティビティを処理するためにクラスタ・リソース・マネージャによって用いられる共用コンポーネントを含む。ＲＭＩはまた、リソースにオペレートする方法を提供するリソース・マネージャ（ＲＭ）を含み、これらのオペレーションは、リソース状態のモニタと、リソース・コンフィグレーションおよびリソースの振る舞いのコントロールとを含む。典型的には、所定のＲＭは、一組の同種のタイプのリソースを処理する。

上述した先に提出した出願は、プロキシ・リソース・マネージャおよびプロキシ・リソース・エージェントの概念によって、ＲＭＩがないノード上に存在するリモート・アクセス可能なリソースをモニタしコントロールするメカニズムを提供し、さらに、当該プロキシ・リソース・マネージャがフェイルしリスタートされた後であっても永続的かつ一貫した動的属性を提供する。しかしながら、プロキシ・リソース・マネージャまたはそのノードの（比較的）永続的な障害の場合には、リモート・リソースが依然として稼働中でありアクティブであっても、リモート・リソースを継続的にモニタし、コントロールすることはできない。

本発明は、一貫しておりかつ永続的なリソース属性を提供することに加えて、（プロキシ・リソース・マネージャを実行する）プロキシ・ノードの障害の場合でさえ、これらのリモート・リソースをモニタしコントロールする継続的なサービスを提供する。

さらに、望ましくはリソース管理の対象となる分散データ処理クラスタのサイズが大規模（例えば１０００個以上のノード）である場合には、特に、大規模システム内のノードの全ての間でメッセージを交換すべきときには、フェイルオーバ・システムは適切にスケーラブルである必要もある。本発明は、フェイルオーバ・リソース管理機能を提供してノードの大規模クラスタをサポートする効率的なメカニズムを提案する。

本発明を用いることにより、以下の代表的な利点が提供される。

（１）プロキシ・リソース・マネージャ（ＰｘＲＭ）を他のノードへ透過的に移動させて、リモート・リソースを中断なしに継続的にモニタしコントロールする。

（２）フェイルしたノードが修復された場合、プロキシ・リソース・マネージャを最初にフェイルしたノードへ戻すことができる。

（３）本方法は、ロード・バランシング，リカバリ・スピード，およびノードの数の点から見て、効率的でありスケーラブルである。

（４）したがって、“A Monitoring Method of the Remotely Accessible Resources to Provide the Persistent and Consistent Resource States”と称する上述の特許出願において与えられた上述の方法と組み合わせて、リモート・リソースを本明細書において永続的にモニタし、スケーラブルで効率的な方法で、プロキシ・リソース・マネージャすなわちリソース管理インフラストラクチャ（ＲＭＩ）サブシステム，および／または他のノードを含む全ての障害に対して一貫した属性値を保持する。

したがって、本発明の目的は、様々なコンピュータ・リソースが分散データ処理システムのリモート・ノード上に存在する場合であっても、これらのコンピュータ・リソースを常に管理することである。

本発明の他の目的は、リモート・データ処理ノード上に位置するリソースに関するステータス情報を追跡し保持することである。

本発明のさらなる目的は、データ処理システムのインテリジェント自律オペレーションのためのメカニズムを提供することである。

また、本発明の他の目的は、ノードの障害またはノードとの通信障害が不測の事態であり、このような事態においてもなおリモート・リソース・ステータスが保持され、かつシステムのフェイルしてない部分にとって利用可能にされるメカニズムを提供することである。

本発明の他の目的は、分散データ処理システムにおけるフェイルオーバ機能を提供することである。

また、本発明の目的は、現在割り当てられているリモート・リソースの数に基づいてフェイルオーバ・グループ内のノードを選択することにより、ロード・バランシングの範囲を提供することである。リモート・リソースの数は管理のために割り当てられる。

本発明の他の目的は、リカバリしたフェイル・ノードが当該システム内の他のノードに対するリモート・リソース・マネージャとしての役割を回復することができるメカニズムを提供することである。

本発明のさらに他の目的は、分散データ処理システムの信頼性と可用性とを拡張することである。

最後に、この点に限定されないが、本発明の目的は、分散データ処理システムの性能と効率とを向上させ、当該システムの自律オペレーションを向上させることである。

本発明の第１の好適な態様によれば、マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法およびシステムが与えられる。プロキシ・リソース・マネージャが、当該分散システム内の複数のノード上で実行され、これらのノードのうちのそれぞれのノードに接続された永続ストレージ・デバイス内に、シーケンシャルなリソース世代番号（ＲＧＮ）（あるいは同等の識別子）がストアされる。ＲＧＮはリモート・リソースに関係する。プロキシ・リソース・エージェントが１つ以上の他の（リモート）ノード上で実行される。ＲＧＮのローカル・バージョンがリモート・ノード上で保持され、このローカル・バージョンは当該ノードに属する特定のリソースに関係する。当該システム・ノードのうちの１つのリセットまたはリスタートと同時に、ＲＧＮがインクリメントされる。ＲＧＮはまた、リソースのステータスの変更と同時にプロキシ・リソース・エージェントを介してインクリメントされる。リモートＲＧＮとシステムＲＧＮとを比較して、リモート・リソースのステータスに基づいてオペレーションの一貫性を保証する。

本発明の第２の好適な態様において、マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法が与えられる。この方法において、ノードがノードのグループに参加するための要求を処理するステップは、当該グループについてのフェイルオーバ・カバレッジ情報を参加ノードに与えるステップを含み、ここにおいてメンバーシップが求められ、（フェイルオーバ）グループによってモニタされているリモート・リソースとしてフェイルオーバ・カバレッジ情報によって指示されているリモート・リソースについてのステータス情報を参加ノードに提供する。この態様は、ノードが協働ノードのグループに参加する方法であるともみなされる。

本発明の第３の好適な態様において、上記で用いられたプロキシ・リソース・マネージャをフェイルしたノードからフェイルしてないノードへ効果的に移動させてオペレーションの継続性を拡張するメカニズムが与えられる。この方法において、ノードがフェイルしたこと、そして、フェイルしたノードがリモート・リソースを管理していたということを最初に判別する。事前定義されたフェイルオーバ・グループ内のノードのうちの１つにおいて、当該リモート・リソースの管理を引き継ぐべきフェイルオーバ・グループ内のノードを選択する。リモート・ノード上に存在するリソースに対して適切なステータス情報を、事前に設定されたカバレッジ情報を用いて判別する。このカバレッジ情報を用いて、リモート・ノードのプロキシ・リソース・エージェントと通信して対象リソースについての現行のステータスを判別する。リモートに配置されたリソースの現行マネージャとなるべきプロキシ・リソース・マネージャを、次に、選択されたノード上に設定する。この機能を実行するために、当該プロキシ・マネージャは、前に判別された現行のリモート・リソース・ステータスを用いる。

本発明の第４の好適な態様において、フェイルしたノードがリスタートされた後、あるいはそのオペレーション・ステータスが正常に復帰した後で、当該フェイルしたノードにプロキシ・リソース・マネージャを戻すためのメカニズムが与えられる。この方法において、前にフェイルしたノードが現在は作動していることを示す情報が、当該フェイルしたノードと、ノードのフェイルオーバ・グループ内の他のノードとへ提供される。これは、グループ・サービスによって提供される。次に、前にフェイルしたノードにおいて、リモート・リソース・カバレッジがフェイルオーバ・グループ内の他のノードによって現在処理されているということが判別される。前にフェイルしたノードの要求時に、現行のカバレッジ情報が、フェイルオーバ・グループ内のノードから前にフェイルしたノードへ送信される。この時点において、当該リモート・リソースの現行の管理が、当該フェイルオーバ・グループ・ノードから前にフェイルしたが現在はリカバリしたノードへ変更される。

本発明の好適な実施形態において、ＲＳＣＴ／ＲＭＣのようなリソース管理インフラストラクチャが存在すると仮定される。ＲＳＣＴ／ＲＭＣインフラストラクチャは、リソースのモニタおよびコントロール（ＲＭＣ）のためのコンポーネントを含む。一般に、ノード上のＲＭＩは、多数のリソース・マネージャ（ＲＭ），１つのＲＭＣおよび他のＲＳＣＴサブシステム・コンポーネントとノード上の複数のリソース・マネージャを含む。ＲＳＣＴ（Reliable Scalable Cluster Technology）は本発明の譲受人によって市場で販売される公に入手可能なプログラム・プロダクトである。ＲＭＣサブシステムは、データ処理システム内部かまたはノードのクラスタ内部のリソースを管理し操作するためのフレームワークを与える。このフレームワークは、クラスタのいずれかのノード上のプロセスが、当該クラスタ内の他の場所の１つ以上のリソースに対するオペレーションを実行するのを可能にする。

クライアント・プログラムは、実行されるべきオペレーションを特定し、ＲＭＣＡＰＩと呼ばれるプログラミング・インターフェースを通じてクライアント・プログラムが適用される必要があるリソースを特定する。ＲＭＣサブシステムは、次に、オペレートされるべきリソースを含むノードを決定し、それらのノードへ要求されたオペレーションを送信し、それらのノード上の適切なコードを起動してリソースに対してオペレーションを実行する。起動されてオペレーションを実行するコードは、リソース・マネージャと呼ばれるプロセス内に含まれる。

リソース・マネージャ（図１の参照符号２００．１，２００．２，２１０．１，２１０．２，２１０．３および２１０．４を参照）は、リソース・タイプ・アブストラクション（abstraction）を１つ以上の特定のタイプのリソースについてのコールおよびコマンドへマップするプロセスである。リソース・マネージャは、自身のリソースが存在し得るクラスタの全てのノード上で実行することが可能である。様々なノード上で実行されるリソース・マネージャ・プロセスのインスタンスが協働し、上述したアブストラクションを与える。

ＲＭＩノードの外側に位置するリモート・リソースをモニタしコントロールするために、ＰｘＲＭと呼ばれるリソース・マネージャ（図４の参照符号３３０．ｘを参照）がＲＭＩノード（図２の参照符号１１０および１２０を参照）上に配置され、ＰｘＲＡと呼ばれるそのピア・エージェント（図５の参照符号４３０．ｘを参照）が外部エンティティ上（すなわち、非ＲＭＩノード上または図５のノード４０５．ｘのようなデバイス上）に配置される。

ＰｘＲＭ３３０．ｘ（図４参照）は、ＲＭＣサブシステムおよびＰｘＲＡ４３０．ｘ双方へ接続する（図１および２においてフェイルオーバ・グループ１１００から下方へ延びる矢印によって示される）リソース・マネージャである。ＰｘＲＭ３３０．ｘによって用いられるリソースは、ＰｘＲＡからのリソースの表現（representation）である。ＰｘＲＡ４３０．ｘは、それがリソースの経過を追い、現行のＰｘＲＭへ変化を報告する限り、どのようなもの、例えば中間プロセスまたはサービス・ルーチン、であってもよい。

永続的かつ一貫したリソースの属性値を与えるために、ＰｘＲＭがリスタートされた後であっても、プロキシ・リソース・マネージャはＰｘＲＡからステータスを与えられる。このアクティビティを処理するために、リソース世代番号（ＲＧＮ）と呼ばれるインジケータが与えられる。リモート・ノード上のそれぞれのリソースはＲＧＮを有する。ＰｘＲＭがリソース属性の現行ステータスを知ることができるように、ＲＧＮは正確に変更され、ＰｘＲＭとそのＰｘＲＡとによって追跡される。ＲＧＮは、上述の特許出願においてより詳細に説明される。

ここで、ＲＧＮはそれぞれのリソースごとに時刻に関して固有であり、単調にインクリメントされる。言い換えれば、２つのＲＧＮが異なった時刻において作成された場合には、それらは異なる。この特性は、ＲＧＮが変更されたか否かを決定する際に、状態のあいまいさがないことを保証する。したがって、適切なＲＧＮは、タイム・スタンプとして簡単に実施することができる。

本発明は、リソース・マネージャがフェイルオーバ・グループ内で協力して共に動作するメカニズムを提供する。フェイルオーバ・グループとは、ノードが処理するよう要求され得るリソースの全てに関連する一貫したデータのセットが含まれるノードのセットである。フェイルオーバ機能を与えるために、本発明は、グループ・サービス・プロダクト（本発明の譲受人であるインターナショナル・ビジネス・マシーンズ・コーポレーションによって市場で販売されるプログラム）によって与えられるようなソフトウェア・サービスを用いる。グループ・サービスによって提供される機能を用いて、それぞれのプロキシ・リソース・マネージャは、他のプロキシ・リソース・マネージャの障害を確実に検出し、リモート・ノード間のアクションを調整する。さらに、ノードの大規模クラスタを調整するために、ノードはここで、上述したようにグループ化される。フェイルオーバは同一のフェイルオーバ・ノード・グループ内のノード間でのみ発生する。これは、効率およびスケーラビリティを与えるためだけでなく、フェイルオーバの過度の連鎖が発生するのを阻止するためにも有用である。例えば、一部のシステムにおいて、電力および多くの内部接続は、ノードの特定のグループに限定される。したがって、他のグループ内のノードへのフェイルオーバは望ましくない。例えば、複数のノードに影響を与える電源障害の場合には、同一の電源グループ内の他のノードへのフェイルオーバは無益である。ノードの同様のグループ化は、汎用コンピュータのクラスタにも適用できる。したがって、それぞれのノードは、好ましくは、グループ・サービスのフェイルオーバ・グループ指定を用いてノード・グループへ割り当てられ、ここにおいてノードのグループは“フェイルオーバ・グループ（FailoverGroup）＜＃＞”と称され、＜＃＞はノード・グループ番号を示す。

それぞれのＰｘＲＭはＰｘＲＡのリソースとフェイルオーバ・グループのうちの１つのメンバとを表すリソース・マネージャであることにも留意されたい。したがって、以下の説明は、特に所定のフェイルオーバ・グループにおけるアクティビティおよびリアクションに関連して、フェイルオーバがどのように実行されるかという点に主に集中する。

（前提）
以下の説明においては、本発明を適切な状況に位置づけ、その構造とオペレーションとの完全な理解をより適切に確保するために、所定の条件を最初に検討する。特に、以下の事項が仮定される。（１）クラスタは、リソース・マネージャ（ＲＭ）を実行する複数のノードから構成される。（２）特定のロケーション（例えばミッドプレーンまたはフレーム）におけるリソースのセットはカバレッジと呼ばれ、全システム内のリソースは複数のカバレッジに分割され、それぞれのカバレッジは固有の識別子（ＩＤ）を用いて識別される（図１の参照符号１３０．１，１３０．２，１３０．３および１３０．４を参照）。（例えば、固有のＩＤはフレーム番号であってもよい。言い換えれば、固有のＩＤはリソースをホストする特定のロケーションのセットを識別する。）（３）平易さのために、本明細書においては、それぞれのＲＭエンティティは、１つのカバレッジに対する責任を有することに限定されている。（しかしながら、本発明のより一般的な実施形態においては、実際のＲＭプロセスは、複数のカバレッジについての複数のＲＭエンティティ（すなわちスレッド）を有することができることに留意されたい。）したがって、ここでは、カバレッジの識別子は、その関連したＲＭのＩＤと交換可能に用いられる。（４）それぞれのノードは、１つ以上のカバレッジ（１３０．１〜１３０．４）も表す１つ以上のＲＭを実行することができる。（したがって、上述の項目（３）と共に項目（４）を組み合わせると、単一のノード（図１のノード１１０および１２０を参照）は、複数のＲＭ（図１の参照符号２１０．１〜２１０．４）をホストしてもよく、あるいは、インプリメンテーションに従って、複数のカバレッジをカバーする複数のスレッドを備える１つのＲＭをホストしてもよいことに留意されたい。）（５）カバレッジ（またはＲＭ），フェイルオーバ・グループ１００，およびノード（例えば図１の１１０および１２０）の間に存在するマッピング・コンフィグレーションが存在する。（このコンフィグレーションを用いて、ＲＭは、フェイルオーバのためにどのノードを使用できるかということ、そして、それぞれのノードへ最初に割り当てられるべきカバレッジはどれかということを“知る”。言い換えれば、それぞれのＲＭのランタイムの間に用いられるノードは、当該コンフィグレーション内のノードと異なってもよい。それは、また、複数のＲＭが単一ノード内に存在することを可能にする。）（６）グループ・サービス（またはマルチノード環境において同様の機能を提供するプログラム）は、フォールトトレラントで高度に可用なクラスタワイド・グループ・メンバーシップ・サービスおよび同期サービスのために用いられる。このサービスを用いて、ＲＭをホストするそれぞれのノードは、他のノードのステータスを確実に“知り”、加えて、ノードとワーキング・カバレッジとの間の現行のアクティブ・マッピング情報を保持する。

（フェイルオーバ・グループの形成）
ノード上のそれぞれのＲＭが開始されるとき、それぞれのＲＭはコンフィグレーションを読み取り、構成されたフェイルオーバ・グループに参加することを試みる。参加要求が受諾された場合、続いて、参加ＲＭがカバレッジに関して、リモート・リソース（図５および図４の上位レベルにおける４１１．ｘ，４１２．ｘ，…，４１ｍ．ｘ、同様に図４および５の符号Ｃ₁ ，Ｃ₂ ，…，Ｃ_m を参照）へのコンタクトを開始する。他の既に参加しているメンバが意図したカバレッジを既に処理しているために参加オペレーションが失敗した場合、ＲＭは当該グループにサブスクライブして当該グループのアクティビティをモニタする。参加ノードは当該グループのメンバになり、メンバがメンバーシップ・リストにリストされる。さらに、本明細書で用いられるとき、用語“サブスクライブ”は、参加ノードが、当該ノード・グループにおいて他のノードがどのような状態であるかの確認を実行するオペレーションを指す。サブスクライブの理由は、どのノードが参加しており、またはフェイルしているかをモニタするためである。

したがって、フェイルオーバ・グループ（例えば図１および２のフェイルオーバ・グループ１１００）に参加するとは、ＲＭがアクティブになって意図したリソースをカバーすることを意味する。それぞれのフェイルオーバ・グループ・メンバーシップは、リソース・マネージャのリストを表すメンバＩＤのリストを含む。メンバＩＤはノード番号とグループ・サービスによって与えられる番号との組み合わせである。例えば、（図２を参照すると、フェイルオーバの前の）上述のケースは、以下のメンバーシップになる。

これを判別するために、ＲＭは、自身が属する関連フェイルオーバ・グループ１００に参加し、次に、アクティブ・ノードをリストする現行のＲＭメンバーシップを受け取る。グループ・サービスの機能により、ＲＭは、要求ノードＮ２内の他のノードによって現在処理されているカバレッジを取得し、現行のマッピング情報を更新する。一例として、新たに追加されたＲＭがノードＮ２上にあり、Cover３（図１の１３０．３）およびCover４（図１の１３０．４）のカバレッジを処理するノードがない場合には、フェイルオーバの現行メンバーシップとアクティブ・カバレッジとは以下のようになる。

意図したカバレッジが他のノードへフェイルオーバされているか否か判別した後、ＲＭは構成されたカバレッジをカバーすることを開始し、マッピング（Ｎ２，Cover３），（Ｎ２，Cover４）を現行のアクティブ・マッピングに追加する。後続のマッピングは以下の通りである。

他方、意図したカバレッジが他のノードによって既に処理されており、コンフィグレーション・ノードへ戻す要求がある場合には、ＲＭは、既にカバーしているノードすなわちＮ_x にコンタクトする。要求と同時に、ノードＮ_x は現行カバレッジ関連情報のコピーを要求ノードＮ２に送付し、現行のマッピング情報を更新する。

（リソースのモニタ／コントロール）
リソースのモニタおよびコントロールは、上述の特許出願（“A Monitoring Method of the Remotely Accessible Resources to Provide the Persistent and Consistent Resource States”と称された２００２年８月２３日出願の特許出願番号１０／２２７，２５４）に記載されたのと同じ方法で行われる。

（ＲＭの障害の検出とフェイルしたカバレッジの引き継ぎ）
ノードすなわちノードＮ１がフェイルする場合、グループ・サービスは他のノードにノードＮ１の障害について通知する。障害通知の受信と同時に、同じフェイルオーバ・グループ内の他のノードのうちの１つが当該カバレッジを引き継ぐ。ロードが同じ場合、ノードの選択はロードとノード番号とに基づく。ここで、ロードは、それぞれのノードによって処理されるように指定されたカバレッジの個数として示される。選択は、ノード間の通信を伴わずにローカルに行われてもよい。

上述の例（図１）において、ノードＮ２に対するロードすなわち“ロード（Ｎ２）”は２であり、ノードＮ２がカバレッジCover１およびCover２を引き継ぐ、というのは、Ｎ２のロードが、同じフェイルオーバ・グループ（フェイルオーバ・グループ１）内のノードの間で最小のロードであるからである。ノードＮ１はフェイルしたノードであるとみなされているので、ノードＮ２は現行のカバレッジ情報をノードＮ１から取得することができない。この状況において、Cover１およびCover２についての現行のカバレッジ情報は、当該カバレッジに現在責任のあるカバーＰｘＲＭにコンタクトすることによって再構成される。上述した特許出願において述べられた永続的リソース・モニタ方法を用いて、再構成が確実に行われる。

（フェイルしたカバレッジのリカバリ（フォールバック））
任意で、本プロセスはまた、オリジナル・ノードが使用可能になったとき、当該オリジナル・ノードへのカバレッジのフォールバックを提供する。例えば、図１において、ノードＮ１が障害の後に再び使用可能になった場合、カバレッジCover１およびCover２を以下の方法で再びノードＮ１へ戻してもよい。

（１）Ｎ１（１１０）が再び使用可能になったとき、グループ・サービスはこのイベントの通知をノードＮ２（１２０）とＮ１とに与える。

（２）Ｎ１が、“フェイルオーバ・グループの形成”において述べたようにフェイルオーバ・グループに参加を試みるとき、ノードＮ１は、グループ・サービスによって提供され保持されるグループ・メンバーシップ・リストを読み取ることにより、Ｎ１用のカバレッジがＮ２へフェイルオーバされたことを発見する。このリストは、当該グループ内のノード上に存在するＲＭ（例えば、図２に見られるように、それぞれがノード３，ノード４，ノード５およびノード６と識別されるノード上に存在するＲＭ２００．１ａ，２００．２ａ，２００．３および２００．４）を識別する。

（３）この状態の認識と同時に、Ｎ１は、現行のCover１およびCover２の情報を送信するようノードＮ２に対して要求を発行する。これは、グループ・サービスのメッセージング・サービスによって行われる。

（４）この情報の受信と同時に、ノードＮ１はCover１およびCover２についてのメンバーシップに参加し、Ｎ２はCover１およびCover２についてのメンバーシップをリリースする。

（５）Cover１およびCover２についてのメンバーシップの成功した変更の直後に、カバレッジはオリジナル・ノードへ戻される。

図３は、参照符号３１０．１〜３１０．４によって集合的に指示され、あるいは図４の符号３１０．ｘによってより一般的に指示される接続されたコンポーネント間の関係を説明する。ここで、説明の便宜のために、３１０．ｘの“ｘ”は、１〜４の範囲であると仮定することができ、３２０．ｘ，３２５．ｘ，３３０．ｘ，３４０．ｘおよび３５０．ｘについても同様であり、本明細書の他の箇所でも同様である。特に、３１０．ｘは、フェイルオーバ・グループ内のノードを指示する。これらのノードは、リモート・ノード４００．ｘ上のプロキシ・リソース・エージェント４３０．ｘと通信するプロキシ・リソース・マネージャ３３０．ｘを含む。本発明の重要な側面は、図４に示されるように、それぞれのリモート管理リソースＣ_i についてのエントリのテーブル３２５．ｘに関する永続メモリ３２０．ｘの保持力である。テーブル３２５．ｘは、（本図示の例において）ノード３〜５に存在するプロキシ・リソース・マネージャ（ＰｘＲＭ）３３０．ｘと、リモート・ノード４００．１〜４００．ｘ（ここでは、説明の便宜だけのためにｘは４とする）に存在するプロキシ・リソース・エージェント（ＰｘＲＡ）との間の通信の間中同期状態に保持される。リソース世代番号（ＲＧＮ）の使用によって同期が可能になる。ＲＧＮの変更と特性は本明細書の他の箇所で述べられる。テーブル３２５．ｘは、それぞれのリモート管理リソースについてのエントリを含む。ネームによってリソースを識別するエントリが存在し、自身の現在割り当てられたＲＧＮを示すエントリが存在する。リソース・ステータスを示し、（必要に応じて）リソース特定情報を示すさらなるエントリがテーブル３２５．ｘに与えられる。テーブル３２５．ｘおよび４２５．ｘ（図５参照）の構造は本質的に同一である。しかしながら、フェイルしたノードがサービスに戻るときに生じるようなＲＧＮエントリの差異が、時々存在し得る。管理ノードが自身のサポート・エントリのリストからリモート・リソースを落とすことを選ぶときに存在する差異も存在し得る。管理ノードにおいて、プロキシ・リソース・マネージャ（ＰｘＲＭ）３３０．ｘは、一貫して定義されたリソース管理インターフェース３４０．ｘを通してローカル・リソース・マネージャ３５０．ｘと通信する。また管理ノードにおいて、永続ストレージ３２０．ｘは、ディスク・ドライブ，光ディスク・ドライブ，磁気テープ・ドライブ，あるいはさらにランダム・アクセス・メモリを含むことができることに留意されたい。不揮発性の厳しい基準とは対照的に、最も重要な特徴は永続性である。

リモート・リソースＣ₁ ，Ｃ₂ ，…，Ｃ_m （それぞれ４１１．ｘ，４１２．ｘ，…，４１ｍ．ｘ）と共にリモート・ノード４０５．ｘを含む４００．ｘのようなリモート・ノード複合体において、プロキシ・リソース・エージェント（ＰｘＲＡ）４３０．ｘはテーブル４２５．ｘを保持する。テーブル４２５．ｘは、理想的な状況下では、ローカルに保持されるテーブル３２５．ｘの複製物である。ＰｘＲＡ４３０．ｘは、ＲＧＮエントリを伝送し、そしてそれらを比較してリモート・リソース・ステータスの一貫性を確保するためにＰｘＲＭ３３０．ｘと直接通信する。リモート・リソースＣ₁ ，Ｃ₂ ，…，Ｃ_m はノード・インターフェース４３５．ｘを通してノード４０５．ｘと通信する。ノード・インターフェース４３５．ｘは、また、リソースと通信するためにプロキシ・リソース・エージェントＰｘＲＡ４３０．ｘによって使用される。ノード・インターフェース４３５．ｘは、リモート・リソースと、ノード・インターフェース４３５．ｘが直接付加されたノードとの間の通信のためのメカニズムを指すことのみを意図する。これは、本発明の一部を形成するものではない。

たとえ図面と本明細書の説明とが、単一のフェイルオーバ・ノード・グループに関連した動作と機能とに主に傾注していても、全ての合理的な数のフェイルオーバ・グループを定義して用いることができること、そして、好ましくは、ＲＧＮ情報および関連したステータス情報をプロキシ・リソース・マネージャへ伝えるプロキシ・リソース・エージェントの使用によってリモート・ノードにおいてストアされ保持されるこのＲＧＮ情報への参照が成される限り重複するカバレッジが許容されることを、本発明は意図し、許容し、そして提案する。

リソース世代番号は、リソースごとに時刻に関して固有である。言い換えれば、２つのＲＧＮが異なった時刻において作成された場合にはそれらは異なる。この特性は、リソース世代番号が変化したか否か判別する際に状態のあいまいさがないことを保証する。したがって、リソース世代番号は、好ましくは、タイム・スタンプと同程度単純なものである。一方、リソース世代“番号”は、一般的には、リソース世代番号に関する定義された順序関係を有することができる印を含んでもよいことに留意されたい。整数およびタイム・スタンプ（日付とタイム・スタンプを含む）は、明らかに、このような印の最も明白で容易に実施される例である。したがって、“番号”であるＲＧＮへの本明細書における言及は、１つ以上の形態の数表現へ当該印を限定するものと解釈すべきではないことに留意されたい。また、本明細書においてＲＧＮがインクリメントされることを示す場合には、インクリメントが正の数であるという特定の要件は存在せず、印の順序付けまたは更新が特定の方向に生じなければならないという暗示も存在しないことに留意されたい。順序と比較可能性とが、当該印についての望ましい特性である。タイム・スタンプは、好適な実施例においてのみ用いられる。

本明細書で用いられる場合、ノードがフェイルしたことが示されるとき、これは、ノードへの通信および／またはノードからの通信がもはや生じないということ、あるいは、内部ノード問題が存在するということを意味する。通信問題によるノードの障害は、より一時的である、および／または継続期間が短い傾向がある。これらの障害は、通信アダプタに関する問題によって発生しやすい。一方、通信問題は、代わりの通信パスの識別と使用によって時に解決可能である。事実上より重大になりやすい内部ノード問題に関しては、ノードのリスタートまたはノードのリブートが多くの場合問題を解決するが、このような場合においては、ＲＧＮがゼロ（または等価）にリセットされる。これらのステータスの変化は、本発明のＰｘＲＭによって確認される。

まとめとして、本発明の構成に関して以下の事項を開示する。
（１）マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法であって、前記分散データ処理システムの複数のノード上でプロキシ・リソース・マネージャを実行し、前記リモート・アクセス可能なリソースに関するシーケンシャルなリソース世代識別子を、前記複数のノードのそれぞれのノードに接続された永続ストレージ・デバイスにストアするステップと、少なくとも１つの他のノード上でプロキシ・リソース・エージェントを実行し、前記リソースのステータスと共に前記リソースに関する前記シーケンシャルなリソース世代識別子のローカル・バージョンを保持するステップと、前記複数のノードのうちの対応するノードのリスタートと同時に、前記永続的にストアされた識別子をインクリメントするステップと、リソース・ステータスの変更と同時に、前記プロキシ・リソース・エージェントを介して、前記ローカル識別子バージョンをインクリメントするステップと、前記リソースについて前記ローカル識別子と前記永続的識別子とを比較して、前記リソースの前記ステータスの一貫性を確保するステップと、を含む方法。
（２）マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法であって、ノードがノードのグループに参加するための要求を処理するステップであって、前記グループについてのフェイルオーバ・カバレッジ情報を前記参加ノードへ提供するステップを含むステップと、前記グループによってモニタされているリモート・リソースとして前記フェイルオーバ・カバレッジ情報によって指示されるリモート・リソースについてのステータス情報を、前記参加ノードへ提供するステップと、を含む方法。
（３）前記ステータス情報は、単調に変化するステータス順序インジケータを含む上記（２）に記載の方法。
（４）前記インジケータは、単調に増加する数字である上記（３）に記載の方法。
（５）前記インジケータは、タイム・スタンプである上記（３）に記載の方法。
（６）マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法であって、ノードがフェイルしたこと、そして、前記フェイルしたノードがリモート・リソースを管理していたことを判別するステップと、フェイルオーバ・グループ内のノードにおいて、前記グループ内のどのノードが前記リモート・リソースの管理を引き継ぐべきであるか選択するステップと、事前に設定されたカバレッジ情報を用いてリモート・ノード上に存在するリソースについてのステータス情報を判別し、前記リモート・ノードのプロキシ・リソース・エージェントと通信して前記リソースについての現行のステータスを判別するステップと、前記判別された現行のステータスを用いて、前記リソースの現行のマネージャとして、前記選択したノード上にプロキシ・リソース・マネージャを設定するステップと、を含む方法。
（７）前記選択するステップにおいて、ノードの選択は、前記フェイルオーバ・グループ内のノードに対して現在割り当てられているカバレッジ・ロードに基づく上記（６）に記載の方法。
（８）フェイルしてリカバリしたノードへリソース・マネージャ・コントロールを戻す方法であって、前記前にフェイルしたノードが現在は作動していることを示す情報を、前記フェイルしたノードと、ノードのフェイルオーバ・グループ内の他のノードとへ提供するステップと、前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップと、前記前にフェイルしたが現在はリカバリしたノードの要求時に、前記他のノードから前記フェイルしたノードへ現行のカバレッジ情報を送信するステップと、前記リモート・リソースの現行の管理を、前記他のノードから前記前にフェイルしたが現在はリカバリしたノードへ変更するステップと、を含む方法。
（９）前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップは、グループ・メンバーシップ・リストを読み取ることによって実行される上記（８）に記載の方法。
（１０）マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースをデータ・プロセッサに管理させるコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、前記分散データ処理システムの複数のノード上でプロキシ・リソース・マネージャを実行し、前記リモート・アクセス可能なリソースに関するシーケンシャルなリソース世代識別子を、前記複数のノードのそれぞれのノードに接続された永続ストレージ・デバイスにストアするステップと、少なくとも１つの他のノード上でプロキシ・リソース・エージェントを実行し、前記リソースのステータスと共に前記リソースに関する前記シーケンシャルなリソース世代識別子のローカル・バージョンを保持するステップと、前記複数のノードのうちの対応するノードのリスタートと同時に、前記永続的にストアされた識別子をインクリメントするステップと、リソース・ステータスの変更と同時に、前記プロキシ・リソース・エージェントを介して、前記ローカル識別子バージョンをインクリメントするステップと、前記リソースについて前記ローカル識別子と前記永続識別子とを比較して、前記リソースの前記ステータスの一貫性を確保するステップと、を含むコンピュータ可読媒体。
（１１）マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースをデータ・プロセッサに管理させるコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、ノードがノードのグループに参加するための要求を処理するステップであって、前記グループについてのフェイルオーバ・カバレッジ情報を前記参加ノードへ提供するステップを含むステップと、前記グループによってモニタされているリモート・リソースとして前記フェイルオーバ・カバレッジ情報によって指示されるリモート・リソースについてのステータス情報を、前記参加ノードへ提供するステップと、を含むコンピュータ可読媒体。
（１２）マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースをデータ・プロセッサに管理させるコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、ノードがフェイルしたこと、そして、前記フェイルしたノードがリモート・リソースを管理していたことを判別するステップと、フェイルオーバ・グループ内のノードにおいて、前記グループ内のどのノードが前記リモート・リソースの管理を引き継ぐべきか選択するステップと、事前に設定されたカバレッジ情報を用いてリモート・ノード上に存在するリソースについてのステータス情報を判別し、前記リモート・ノードのプロキシ・リソース・エージェントと通信して前記リソースについての現行ステータスを判別するステップと、前記判別した現行ステータスを用いて、前記リソースの現行のマネージャとして、前記選択したノード上にプロキシ・リソース・マネージャを設定するステップと、を含むコンピュータ可読媒体。
（１３）マルチノード分散データ処理システムにおいてフェイルしてリカバリしたノードへリソース・マネージャ・コントロールを戻すコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、前記前にフェイルしたノードが現在は作動していることを示す情報を、前記フェイルしたノードと、ノードのフェイルオーバ・グループ内の他のノードとに提供するステップと、前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップと、前記前にフェイルしたが現在はリカバリしたノードの要求時に、前記他のノードから前記フェイルしたノードへ現行のカバレッジ情報を送信するステップと、前記リモート・リソースの現行の管理を、前記他のノードから前記前にフェイルしたが現在はリカバリしたノードへ変更するステップと、を含むコンピュータ可読媒体。
（１４）複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、前記分散データ処理システムの複数のノード上でプロキシ・リソース・マネージャを実行し、前記リモート・アクセス可能なリソースに関するシーケンシャルなリソース世代識別子を、前記複数のノードのそれぞれのノードに接続された永続ストレージ・デバイスにストアするステップと、少なくとも１つの他のノード上でプロキシ・リソース・エージェントを実行し、前記リソースのステータスと共に前記リソースに関する前記シーケンシャルなリソース世代識別子のローカル・バージョンを保持するステップと、前記複数のノードのうちの対応するノードのリスタートと同時に、前記永続的にストアされた識別子をインクリメントするステップと、リソース・ステータスの変更と同時に、前記プロキシ・リソース・エージェントを介して、前記ローカル識別子バージョンをインクリメントするステップと、前記リソースについて前記ローカル識別子と前記永続識別子とを比較して、前記リソースの前記ステータスの一貫性を確保するステップと、を含む分散データ処理システム。
（１５）複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、ノードがノードのグループに参加するための要求を処理するステップであって、前記グループについてのフェイルオーバ・カバレッジ情報を前記参加ノードへ提供するステップを含むステップと、前記グループによってモニタされているリモート・リソースとして前記フェイルオーバ・カバレッジ情報によって指示されるリモート・リソースについてのステータス情報を、前記参加ノードへ提供するステップと、を含む分散データ処理システム。
（１６）複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、ノードがフェイルしたこと、そして、前記フェイルしたノードがリモート・リソースを管理していたことを判別するステップと、フェイルオーバ・グループ内のノードにおいて、前記グループ内のどのノードが前記リモート・リソースの管理を引き継ぐべきか選択するステップと、事前に設定されたカバレッジ情報を用いてリモート・ノード上に存在するリソースについてのステータス情報を判別し、前記リモート・ノードのプロキシ・リソース・エージェントと通信して前記リソースについての現行のステータスを判別するステップと、前記判別された現行のステータスを用いて、前記リソースの現行のマネージャとして、前記選択したノード上にプロキシ・リソース・マネージャを設定するステップと、を含む分散データ処理システム。
（１７）複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、前記前にフェイルしたノードが現在は作動していることを示す情報を、前記フェイルしたノードと、ノードのフェイルオーバ・グループ内の他のノードとへ提供するステップと、前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップと、前記前にフェイルしたが現在はリカバリしたノードの要求時に、前記他のノードから前記フェイルしたノードへ現行のカバレッジ情報を送信するステップと、前記リモート・リソースの現行の管理を、前記他のノードから前記前にフェイルしたが現在はリカバリしたノードへ変更するステップと、を含む分散データ処理システム。

本発明が用いられるオペレーティング環境と、本発明のオペレーションの全体構造とを説明するブロック図である。図１と同種のより詳細なブロック図であるが、典型的なオペレーションの際に生じる本発明の様々なコンポーネントのステータスをより具体的に説明し、リモート・ノード上に保持されるデータの構造をさらに具体的に説明する。非リモート・ノード、すなわち、ＲＭＩを含みリモート・リソースについてのプロキシ・リソース・マネージャを実行する中間ノード、において保持される情報の構造をより詳細に説明する図２の拡大部分を示す図である。プロキシ・リソース・マネージャＰｘＲＭの役割と、システムの他の部分との対話とを説明する図２の一部の拡大部分を示す図である。プロキシ・リソース・エージェントＰｘＲＡの役割と、分散データ処理システムのリモート部分のうちの他の部分との対話とを説明する図２の拡大部分を示す図である。

符号の説明

１００フェイルオーバ・グループ
１１０，１２０ＲＭＩノード
１３０．１，１３０．２，１３０．３，１３０．４カバレッジ
２００．１，２００．２，２００．３，２００．４，２１０．１，２１０．２，２１０．３，２１０．４リソース・マネージャ
３００．１，３００．２，３１０．１，３１０．２，３１０．３，３１０．４ノード
４００．１，４００．２，４００．３，４００．４リモート・ノード
３１０．ｘノード
３２０．ｘ永続メモリ
３２５．ｘエントリ・テーブル
３３０．ｘプロキシ・リソース・マネージャ
３４０．ｘリソース管理インターフェース
３５０．ｘローカル・リソース・マネージャ
４００．ｘリモート・ノード
４０５．ｘリモート・ノード
４１１．ｘ，４１２．ｘ，４１ｍ．ｘリモート・リソース
４２５．ｘテーブル
４３０．ｘプロキシ・リソース・エージェント
４３５．ｘノード・インターフェース

Claims

マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法であって、
前記分散データ処理システムの複数のノード上でプロキシ・リソース・マネージャを実行し、前記リモート・アクセス可能なリソースに関するシーケンシャルなリソース世代識別子を、前記複数のノードのそれぞれのノードに接続された永続ストレージ・デバイスにストアするステップと、
少なくとも１つの他のノード上でプロキシ・リソース・エージェントを実行し、前記リソースのステータスと共に前記リソースに関する前記シーケンシャルなリソース世代識別子のローカル・バージョンを保持するステップと、
前記複数のノードのうちの対応するノードのリスタートと同時に、前記永続的にストアされた識別子をインクリメントするステップと、
リソース・ステータスの変更と同時に、前記プロキシ・リソース・エージェントを介して、前記ローカル識別子バージョンをインクリメントするステップと、
前記リソースについて前記ローカル識別子と前記永続的識別子とを比較して、前記リソースの前記ステータスの一貫性を確保するステップと、を含む方法。
マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法であって、
ノードがノードのグループに参加するための要求を処理するステップであって、前記グループについてのフェイルオーバ・カバレッジ情報を前記参加ノードへ提供するステップを含むステップと、
前記グループによってモニタされているリモート・リソースとして前記フェイルオーバ・カバレッジ情報によって指示されるリモート・リソースについてのステータス情報を、前記参加ノードへ提供するステップと、を含む方法。
前記ステータス情報は、単調に変化するステータス順序インジケータを含む請求項２に記載の方法。
前記インジケータは、単調に増加する数字である請求項３に記載の方法。
前記インジケータは、タイム・スタンプである請求項３に記載の方法。
マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法であって、
ノードがフェイルしたこと、そして、前記フェイルしたノードがリモート・リソースを管理していたことを判別するステップと、
フェイルオーバ・グループ内のノードにおいて、前記グループ内のどのノードが前記リモート・リソースの管理を引き継ぐべきであるか選択するステップと、
事前に設定されたカバレッジ情報を用いてリモート・ノード上に存在するリソースについてのステータス情報を判別し、前記リモート・ノードのプロキシ・リソース・エージェントと通信して前記リソースについての現行のステータスを判別するステップと、
前記判別された現行のステータスを用いて、前記リソースの現行のマネージャとして、前記選択したノード上にプロキシ・リソース・マネージャを設定するステップと、を含む方法。
前記選択するステップにおいて、ノードの選択は、前記フェイルオーバ・グループ内のノードに対して現在割り当てられているカバレッジ・ロードに基づく請求項６に記載の方法。
フェイルしてリカバリしたノードへリソース・マネージャ・コントロールを戻す方法であって、
前記前にフェイルしたノードが現在は作動していることを示す情報を、前記フェイルしたノードと、ノードのフェイルオーバ・グループ内の他のノードとへ提供するステップと、
前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップと、
前記前にフェイルしたが現在はリカバリしたノードの要求時に、前記他のノードから前記フェイルしたノードへ現行のカバレッジ情報を送信するステップと、
前記リモート・リソースの現行の管理を、前記他のノードから前記前にフェイルしたが現在はリカバリしたノードへ変更するステップと、を含む方法。
前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップは、グループ・メンバーシップ・リストを読み取ることによって実行される請求項８に記載の方法。
マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースをデータ・プロセッサに管理させるコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
前記分散データ処理システムの複数のノード上でプロキシ・リソース・マネージャを実行し、前記リモート・アクセス可能なリソースに関するシーケンシャルなリソース世代識別子を、前記複数のノードのそれぞれのノードに接続された永続ストレージ・デバイスにストアするステップと、
少なくとも１つの他のノード上でプロキシ・リソース・エージェントを実行し、前記リソースのステータスと共に前記リソースに関する前記シーケンシャルなリソース世代識別子のローカル・バージョンを保持するステップと、
前記複数のノードのうちの対応するノードのリスタートと同時に、前記永続的にストアされた識別子をインクリメントするステップと、
リソース・ステータスの変更と同時に、前記プロキシ・リソース・エージェントを介して、前記ローカル識別子バージョンをインクリメントするステップと、
前記リソースについて前記ローカル識別子と前記永続識別子とを比較して、前記リソースの前記ステータスの一貫性を確保するステップと、を含むコンピュータ可読媒体。
マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースをデータ・プロセッサに管理させるコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
ノードがノードのグループに参加するための要求を処理するステップであって、前記グループについてのフェイルオーバ・カバレッジ情報を前記参加ノードへ提供するステップを含むステップと、
前記グループによってモニタされているリモート・リソースとして前記フェイルオーバ・カバレッジ情報によって指示されるリモート・リソースについてのステータス情報を、前記参加ノードへ提供するステップと、を含むコンピュータ可読媒体。
マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースをデータ・プロセッサに管理させるコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
ノードがフェイルしたこと、そして、前記フェイルしたノードがリモート・リソースを管理していたことを判別するステップと、
フェイルオーバ・グループ内のノードにおいて、前記グループ内のどのノードが前記リモート・リソースの管理を引き継ぐべきか選択するステップと、
事前に設定されたカバレッジ情報を用いてリモート・ノード上に存在するリソースについてのステータス情報を判別し、前記リモート・ノードのプロキシ・リソース・エージェントと通信して前記リソースについての現行ステータスを判別するステップと、
前記判別した現行ステータスを用いて、前記リソースの現行のマネージャとして、前記選択したノード上にプロキシ・リソース・マネージャを設定するステップと、を含むコンピュータ可読媒体。
マルチノード分散データ処理システムにおいてフェイルしてリカバリしたノードへリソース・マネージャ・コントロールを戻すコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
前記前にフェイルしたノードが現在は作動していることを示す情報を、前記フェイルしたノードと、ノードのフェイルオーバ・グループ内の他のノードとに提供するステップと、
前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップと、
前記前にフェイルしたが現在はリカバリしたノードの要求時に、前記他のノードから前記フェイルしたノードへ現行のカバレッジ情報を送信するステップと、
前記リモート・リソースの現行の管理を、前記他のノードから前記前にフェイルしたが現在はリカバリしたノードへ変更するステップと、を含むコンピュータ可読媒体。
複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、
前記分散データ処理システムの複数のノード上でプロキシ・リソース・マネージャを実行し、前記リモート・アクセス可能なリソースに関するシーケンシャルなリソース世代識別子を、前記複数のノードのそれぞれのノードに接続された永続ストレージ・デバイスにストアするステップと、
少なくとも１つの他のノード上でプロキシ・リソース・エージェントを実行し、前記リソースのステータスと共に前記リソースに関する前記シーケンシャルなリソース世代識別子のローカル・バージョンを保持するステップと、
前記複数のノードのうちの対応するノードのリスタートと同時に、前記永続的にストアされた識別子をインクリメントするステップと、
リソース・ステータスの変更と同時に、前記プロキシ・リソース・エージェントを介して、前記ローカル識別子バージョンをインクリメントするステップと、
前記リソースについて前記ローカル識別子と前記永続識別子とを比較して、前記リソースの前記ステータスの一貫性を確保するステップと、を含む分散データ処理システム。
複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、
ノードがノードのグループに参加するための要求を処理するステップであって、前記グループについてのフェイルオーバ・カバレッジ情報を前記参加ノードへ提供するステップを含むステップと、
前記グループによってモニタされているリモート・リソースとして前記フェイルオーバ・カバレッジ情報によって指示されるリモート・リソースについてのステータス情報を、前記参加ノードへ提供するステップと、を含む分散データ処理システム。
複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、
ノードがフェイルしたこと、そして、前記フェイルしたノードがリモート・リソースを管理していたことを判別するステップと、
フェイルオーバ・グループ内のノードにおいて、前記グループ内のどのノードが前記リモート・リソースの管理を引き継ぐべきか選択するステップと、
事前に設定されたカバレッジ情報を用いてリモート・ノード上に存在するリソースについてのステータス情報を判別し、前記リモート・ノードのプロキシ・リソース・エージェントと通信して前記リソースについての現行のステータスを判別するステップと、
前記判別された現行のステータスを用いて、前記リソースの現行のマネージャとして、前記選択したノード上にプロキシ・リソース・マネージャを設定するステップと、を含む分散データ処理システム。
複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、
前記前にフェイルしたノードが現在は作動していることを示す情報を、前記フェイルしたノードと、ノードのフェイルオーバ・グループ内の他のノードとへ提供するステップと、
前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップと、
前記前にフェイルしたが現在はリカバリしたノードの要求時に、前記他のノードから前記フェイルしたノードへ現行のカバレッジ情報を送信するステップと、
前記リモート・リソースの現行の管理を、前記他のノードから前記前にフェイルしたが現在はリカバリしたノードへ変更するステップと、を含む分散データ処理システム。