JP2004246892A - マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法 - Google Patents

マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法 Download PDF

Info

Publication number
JP2004246892A
JP2004246892A JP2004032673A JP2004032673A JP2004246892A JP 2004246892 A JP2004246892 A JP 2004246892A JP 2004032673 A JP2004032673 A JP 2004032673A JP 2004032673 A JP2004032673 A JP 2004032673A JP 2004246892 A JP2004246892 A JP 2004246892A
Authority
JP
Japan
Prior art keywords
node
resource
nodes
remote
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004032673A
Other languages
English (en)
Inventor
Myung M Bae
ミュング・エム・ビー
Ramendra K Sahoo
ラメンドラ・ケイ・サフー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2004246892A publication Critical patent/JP2004246892A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/22Arrangements for detecting or preventing errors in the information received using redundant apparatus to increase reliability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)

Abstract

【課題】プロキシ・リソース・マネージャおよびエージェントの使用によって分散データ処理システム内のリモート・リソースをコントロールし、使用し、そしてモニタするという概念を拡張して、一時的あるいはより長い期間のノード障害の場合であってもリソース・カバレッジが保存され維持されるようなフェイルオーバ機能を提供する。
【解決手段】リソース・ステータスの一貫した決定のためのメカニズムを提供する。リモート・リソース130のオペレーションを保持しながらノードのグループ100に対するノードの参加を促進するメカニズムも提供する。障害がノード110または120のリセットをもたらした場合であっても、前にフェイルしたが現在はリカバリしたノードのコントロールへリモート・リソースの管理を戻すための追加のメカニズムも提供する。
【選択図】図1

Description

本発明は、分散マルチノード・データ処理システムに関する。特に、本発明は、リモート外部データ処理ノード上の複数の様々なリソースの存在が、それらのステータスが、変化している,不明である,あるいは十分に定義されていないといういずれかの状態を引き起こす可能性がある、このような複数の様々なリソースを管理するメカニズムに関する。さらに詳細には、本発明は、管理ノードの障害に対してトレラントであり、かつ、極めて多数のノードを有するシステムにおいて特に有用であるような、リモート・ノード上のリソースのためのスケーラブル・リソース管理方法に関する。
本発明は、“A Monitoring Method of the Remotely Accessible Resources to Provide the Persistent and Consistent Resource States”と称される先に提出された特許出願(特許出願番号10/227,254,特許出願日2002年8月20日)に対する改良であり、この先の出願は、モニタ・ノードのうちの1つにおける障害の可能性に対して、分散マルチノード・データ処理システムにおいてオペレーションを継続的にモニタしコントロールする方法を提供する。システム内の他のノードへのリソース・マネージャ機能のフェイルオーバ・メカニズムを与えることによって本発明が障害に対する保護を与えるという点において、本発明は、上述した方法の機能拡張である。
分散システムにおいては、多くの物理的および論理的エンティティが、システム内の他のノードへ密に接続されてもよくまたは密に接続されなくてもよいリモート・ノードとして最も良く特徴づけられるノードを含むシステム内のノード中にくまなく配置される。これは、分散システムにおいて確認される典型的な特性のうちの1つである。この状況において、これらの物理的および論理的エンティティは、リソースと呼ばれる。この用語“リソース”は、ソフトウェア・エンティティおよびハードウェア・エンティティを指示するために本明細書において広く用いられる。このようなリソースの例は、ノード14上のイーサネット(登録商標)・デバイスeth0,データベース・テーブル“カスタマ”,IPアドレス9.117.7.21などを含む。これらの少数の例から判断して、用語“リソース”が、分散マルチノード・データ処理システムにおいて見られる多数の極めて異なったエンティティを指示することを意図されていることが分かる。一方、それぞれのリソースは、当該リソースの特性を少なくとも部分的に定義する少なくとも1つの属性を有する。さらに、当該属性の一部は、リソースのステータスまたは条件を通して反映される。一例として、ネットワーク・イーサネット・デバイスは、ネーム(name)(例えばeth0),OpState(例えばUp,Down,フェイルなど)、そのアドレス(address)(例えば9.117.7.21)などのような属性を典型的に含む。したがって、ネーム,OpState,およびアドレスは、リソース属性と呼ばれる。リソースのステータスを反映するリソース属性(上述のOpStateのような)は、動的属性に分類される。
これらのリソースは、分散データ処理システムの他のコンポーネント(例えば、システム管理ツールまたはユーザ・アプリケーションなど)へサービスを提供するので、これらのリソースは、本明細書において、“リソース・マネージャ・インフラストラクチャ”または“RMI”と典型的に呼ばれるエンティティによってシステム・レベルでモニタされおよび/またはコントロールされる必要がある。大部分のRMIは、上述したリソースとこのRMIとが同一のノードに含まれるかまたは限定されるということを前提とする。しかしながら、所定のシステムが、ソフトウェア制約,ハードウェア制約および/またはアーキテクチャ制約のために、リソースおよびRMIの双方を有することもあり有さないこともある異なるタイプのノードを有する場合には、同一ノードのリソースおよびRMIというこの前提は当てはまらない。本明細書において用いられる用語リソース・マネージャ・インフラストラクチャは、データ処理ノードのクラスタ内部のリソースに対してモニタ,照会,変更,およびコントロール機能を実行するサブシステムを含むソフトウェア・コンポーネントのシステムを指す。これらのサブシステムは、典型的に、ノード間通信,リソースの登録などのような共通アクティビティを処理するためにクラスタ・リソース・マネージャによって用いられる共用コンポーネントを含む。RMIはまた、リソースにオペレートする方法を提供するリソース・マネージャ(RM)を含み、これらのオペレーションは、リソース状態のモニタと、リソース・コンフィグレーションおよびリソースの振る舞いのコントロールとを含む。典型的には、所定のRMは、一組の同種のタイプのリソースを処理する。
上述した先に提出した出願は、プロキシ・リソース・マネージャおよびプロキシ・リソース・エージェントの概念によって、RMIがないノード上に存在するリモート・アクセス可能なリソースをモニタしコントロールするメカニズムを提供し、さらに、当該プロキシ・リソース・マネージャがフェイルしリスタートされた後であっても永続的かつ一貫した動的属性を提供する。しかしながら、プロキシ・リソース・マネージャまたはそのノードの(比較的)永続的な障害の場合には、リモート・リソースが依然として稼働中でありアクティブであっても、リモート・リソースを継続的にモニタし、コントロールすることはできない。
本発明は、一貫しておりかつ永続的なリソース属性を提供することに加えて、(プロキシ・リソース・マネージャを実行する)プロキシ・ノードの障害の場合でさえ、これらのリモート・リソースをモニタしコントロールする継続的なサービスを提供する。
さらに、望ましくはリソース管理の対象となる分散データ処理クラスタのサイズが大規模(例えば1000個以上のノード)である場合には、特に、大規模システム内のノードの全ての間でメッセージを交換すべきときには、フェイルオーバ・システムは適切にスケーラブルである必要もある。本発明は、フェイルオーバ・リソース管理機能を提供してノードの大規模クラスタをサポートする効率的なメカニズムを提案する。
本発明を用いることにより、以下の代表的な利点が提供される。
(1)プロキシ・リソース・マネージャ(PxRM)を他のノードへ透過的に移動させて、リモート・リソースを中断なしに継続的にモニタしコントロールする。
(2)フェイルしたノードが修復された場合、プロキシ・リソース・マネージャを最初にフェイルしたノードへ戻すことができる。
(3)本方法は、ロード・バランシング,リカバリ・スピード,およびノードの数の点から見て、効率的でありスケーラブルである。
(4)したがって、“A Monitoring Method of the Remotely Accessible Resources to Provide the Persistent and Consistent Resource States”と称する上述の特許出願において与えられた上述の方法と組み合わせて、リモート・リソースを本明細書において永続的にモニタし、スケーラブルで効率的な方法で、プロキシ・リソース・マネージャすなわちリソース管理インフラストラクチャ(RMI)サブシステム,および/または他のノードを含む全ての障害に対して一貫した属性値を保持する。
したがって、本発明の目的は、様々なコンピュータ・リソースが分散データ処理システムのリモート・ノード上に存在する場合であっても、これらのコンピュータ・リソースを常に管理することである。
本発明の他の目的は、リモート・データ処理ノード上に位置するリソースに関するステータス情報を追跡し保持することである。
本発明のさらなる目的は、データ処理システムのインテリジェント自律オペレーションのためのメカニズムを提供することである。
また、本発明の他の目的は、ノードの障害またはノードとの通信障害が不測の事態であり、このような事態においてもなおリモート・リソース・ステータスが保持され、かつシステムのフェイルしてない部分にとって利用可能にされるメカニズムを提供することである。
本発明の他の目的は、分散データ処理システムにおけるフェイルオーバ機能を提供することである。
また、本発明の目的は、現在割り当てられているリモート・リソースの数に基づいてフェイルオーバ・グループ内のノードを選択することにより、ロード・バランシングの範囲を提供することである。リモート・リソースの数は管理のために割り当てられる。
本発明の他の目的は、リカバリしたフェイル・ノードが当該システム内の他のノードに対するリモート・リソース・マネージャとしての役割を回復することができるメカニズムを提供することである。
本発明のさらに他の目的は、分散データ処理システムの信頼性と可用性とを拡張することである。
最後に、この点に限定されないが、本発明の目的は、分散データ処理システムの性能と効率とを向上させ、当該システムの自律オペレーションを向上させることである。
本発明の第1の好適な態様によれば、マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法およびシステムが与えられる。プロキシ・リソース・マネージャが、当該分散システム内の複数のノード上で実行され、これらのノードのうちのそれぞれのノードに接続された永続ストレージ・デバイス内に、シーケンシャルなリソース世代番号(RGN)(あるいは同等の識別子)がストアされる。RGNはリモート・リソースに関係する。プロキシ・リソース・エージェントが1つ以上の他の(リモート)ノード上で実行される。RGNのローカル・バージョンがリモート・ノード上で保持され、このローカル・バージョンは当該ノードに属する特定のリソースに関係する。当該システム・ノードのうちの1つのリセットまたはリスタートと同時に、RGNがインクリメントされる。RGNはまた、リソースのステータスの変更と同時にプロキシ・リソース・エージェントを介してインクリメントされる。リモートRGNとシステムRGNとを比較して、リモート・リソースのステータスに基づいてオペレーションの一貫性を保証する。
本発明の第2の好適な態様において、マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法が与えられる。この方法において、ノードがノードのグループに参加するための要求を処理するステップは、当該グループについてのフェイルオーバ・カバレッジ情報を参加ノードに与えるステップを含み、ここにおいてメンバーシップが求められ、(フェイルオーバ)グループによってモニタされているリモート・リソースとしてフェイルオーバ・カバレッジ情報によって指示されているリモート・リソースについてのステータス情報を参加ノードに提供する。この態様は、ノードが協働ノードのグループに参加する方法であるともみなされる。
本発明の第3の好適な態様において、上記で用いられたプロキシ・リソース・マネージャをフェイルしたノードからフェイルしてないノードへ効果的に移動させてオペレーションの継続性を拡張するメカニズムが与えられる。この方法において、ノードがフェイルしたこと、そして、フェイルしたノードがリモート・リソースを管理していたということを最初に判別する。事前定義されたフェイルオーバ・グループ内のノードのうちの1つにおいて、当該リモート・リソースの管理を引き継ぐべきフェイルオーバ・グループ内のノードを選択する。リモート・ノード上に存在するリソースに対して適切なステータス情報を、事前に設定されたカバレッジ情報を用いて判別する。このカバレッジ情報を用いて、リモート・ノードのプロキシ・リソース・エージェントと通信して対象リソースについての現行のステータスを判別する。リモートに配置されたリソースの現行マネージャとなるべきプロキシ・リソース・マネージャを、次に、選択されたノード上に設定する。この機能を実行するために、当該プロキシ・マネージャは、前に判別された現行のリモート・リソース・ステータスを用いる。
本発明の第4の好適な態様において、フェイルしたノードがリスタートされた後、あるいはそのオペレーション・ステータスが正常に復帰した後で、当該フェイルしたノードにプロキシ・リソース・マネージャを戻すためのメカニズムが与えられる。この方法において、前にフェイルしたノードが現在は作動していることを示す情報が、当該フェイルしたノードと、ノードのフェイルオーバ・グループ内の他のノードとへ提供される。これは、グループ・サービスによって提供される。次に、前にフェイルしたノードにおいて、リモート・リソース・カバレッジがフェイルオーバ・グループ内の他のノードによって現在処理されているということが判別される。前にフェイルしたノードの要求時に、現行のカバレッジ情報が、フェイルオーバ・グループ内のノードから前にフェイルしたノードへ送信される。この時点において、当該リモート・リソースの現行の管理が、当該フェイルオーバ・グループ・ノードから前にフェイルしたが現在はリカバリしたノードへ変更される。
本発明の好適な実施形態において、RSCT/RMCのようなリソース管理インフラストラクチャが存在すると仮定される。RSCT/RMCインフラストラクチャは、リソースのモニタおよびコントロール(RMC)のためのコンポーネントを含む。一般に、ノード上のRMIは、多数のリソース・マネージャ(RM),1つのRMCおよび他のRSCTサブシステム・コンポーネントとノード上の複数のリソース・マネージャを含む。RSCT(Reliable Scalable Cluster Technology)は本発明の譲受人によって市場で販売される公に入手可能なプログラム・プロダクトである。RMCサブシステムは、データ処理システム内部かまたはノードのクラスタ内部のリソースを管理し操作するためのフレームワークを与える。このフレームワークは、クラスタのいずれかのノード上のプロセスが、当該クラスタ内の他の場所の1つ以上のリソースに対するオペレーションを実行するのを可能にする。
クライアント・プログラムは、実行されるべきオペレーションを特定し、RMCAPIと呼ばれるプログラミング・インターフェースを通じてクライアント・プログラムが適用される必要があるリソースを特定する。RMCサブシステムは、次に、オペレートされるべきリソースを含むノードを決定し、それらのノードへ要求されたオペレーションを送信し、それらのノード上の適切なコードを起動してリソースに対してオペレーションを実行する。起動されてオペレーションを実行するコードは、リソース・マネージャと呼ばれるプロセス内に含まれる。
リソース・マネージャ(図1の参照符号200.1,200.2,210.1,210.2,210.3および210.4を参照)は、リソース・タイプ・アブストラクション(abstraction)を1つ以上の特定のタイプのリソースについてのコールおよびコマンドへマップするプロセスである。リソース・マネージャは、自身のリソースが存在し得るクラスタの全てのノード上で実行することが可能である。様々なノード上で実行されるリソース・マネージャ・プロセスのインスタンスが協働し、上述したアブストラクションを与える。
RMIノードの外側に位置するリモート・リソースをモニタしコントロールするために、PxRMと呼ばれるリソース・マネージャ(図4の参照符号330.xを参照)がRMIノード(図2の参照符号110および120を参照)上に配置され、PxRAと呼ばれるそのピア・エージェント(図5の参照符号430.xを参照)が外部エンティティ上(すなわち、非RMIノード上または図5のノード405.xのようなデバイス上)に配置される。
PxRM330.x(図4参照)は、RMCサブシステムおよびPxRA430.x双方へ接続する(図1および2においてフェイルオーバ・グループ1 100から下方へ延びる矢印によって示される)リソース・マネージャである。PxRM330.xによって用いられるリソースは、PxRAからのリソースの表現(representation)である。PxRA430.xは、それがリソースの経過を追い、現行のPxRMへ変化を報告する限り、どのようなもの、例えば中間プロセスまたはサービス・ルーチン、であってもよい。
永続的かつ一貫したリソースの属性値を与えるために、PxRMがリスタートされた後であっても、プロキシ・リソース・マネージャはPxRAからステータスを与えられる。このアクティビティを処理するために、リソース世代番号(RGN)と呼ばれるインジケータが与えられる。リモート・ノード上のそれぞれのリソースはRGNを有する。PxRMがリソース属性の現行ステータスを知ることができるように、RGNは正確に変更され、PxRMとそのPxRAとによって追跡される。RGNは、上述の特許出願においてより詳細に説明される。
ここで、RGNはそれぞれのリソースごとに時刻に関して固有であり、単調にインクリメントされる。言い換えれば、2つのRGNが異なった時刻において作成された場合には、それらは異なる。この特性は、RGNが変更されたか否かを決定する際に、状態のあいまいさがないことを保証する。したがって、適切なRGNは、タイム・スタンプとして簡単に実施することができる。
本発明は、リソース・マネージャがフェイルオーバ・グループ内で協力して共に動作するメカニズムを提供する。フェイルオーバ・グループとは、ノードが処理するよう要求され得るリソースの全てに関連する一貫したデータのセットが含まれるノードのセットである。フェイルオーバ機能を与えるために、本発明は、グループ・サービス・プロダクト(本発明の譲受人であるインターナショナル・ビジネス・マシーンズ・コーポレーションによって市場で販売されるプログラム)によって与えられるようなソフトウェア・サービスを用いる。グループ・サービスによって提供される機能を用いて、それぞれのプロキシ・リソース・マネージャは、他のプロキシ・リソース・マネージャの障害を確実に検出し、リモート・ノード間のアクションを調整する。さらに、ノードの大規模クラスタを調整するために、ノードはここで、上述したようにグループ化される。フェイルオーバは同一のフェイルオーバ・ノード・グループ内のノード間でのみ発生する。これは、効率およびスケーラビリティを与えるためだけでなく、フェイルオーバの過度の連鎖が発生するのを阻止するためにも有用である。例えば、一部のシステムにおいて、電力および多くの内部接続は、ノードの特定のグループに限定される。したがって、他のグループ内のノードへのフェイルオーバは望ましくない。例えば、複数のノードに影響を与える電源障害の場合には、同一の電源グループ内の他のノードへのフェイルオーバは無益である。ノードの同様のグループ化は、汎用コンピュータのクラスタにも適用できる。したがって、それぞれのノードは、好ましくは、グループ・サービスのフェイルオーバ・グループ指定を用いてノード・グループへ割り当てられ、ここにおいてノードのグループは“フェイルオーバ・グループ(FailoverGroup)<#>”と称され、<#>はノード・グループ番号を示す。
それぞれのPxRMはPxRAのリソースとフェイルオーバ・グループのうちの1つのメンバとを表すリソース・マネージャであることにも留意されたい。したがって、以下の説明は、特に所定のフェイルオーバ・グループにおけるアクティビティおよびリアクションに関連して、フェイルオーバがどのように実行されるかという点に主に集中する。
(前提)
以下の説明においては、本発明を適切な状況に位置づけ、その構造とオペレーションとの完全な理解をより適切に確保するために、所定の条件を最初に検討する。特に、以下の事項が仮定される。(1)クラスタは、リソース・マネージャ(RM)を実行する複数のノードから構成される。(2)特定のロケーション(例えばミッドプレーンまたはフレーム)におけるリソースのセットはカバレッジと呼ばれ、全システム内のリソースは複数のカバレッジに分割され、それぞれのカバレッジは固有の識別子(ID)を用いて識別される(図1の参照符号130.1,130.2,130.3および130.4を参照)。(例えば、固有のIDはフレーム番号であってもよい。言い換えれば、固有のIDはリソースをホストする特定のロケーションのセットを識別する。)(3)平易さのために、本明細書においては、それぞれのRMエンティティは、1つのカバレッジに対する責任を有することに限定されている。(しかしながら、本発明のより一般的な実施形態においては、実際のRMプロセスは、複数のカバレッジについての複数のRMエンティティ(すなわちスレッド)を有することができることに留意されたい。)したがって、ここでは、カバレッジの識別子は、その関連したRMのIDと交換可能に用いられる。(4)それぞれのノードは、1つ以上のカバレッジ(130.1〜130.4)も表す1つ以上のRMを実行することができる。(したがって、上述の項目(3)と共に項目(4)を組み合わせると、単一のノード(図1のノード110および120を参照)は、複数のRM(図1の参照符号210.1〜210.4)をホストしてもよく、あるいは、インプリメンテーションに従って、複数のカバレッジをカバーする複数のスレッドを備える1つのRMをホストしてもよいことに留意されたい。)(5)カバレッジ(またはRM),フェイルオーバ・グループ100,およびノード(例えば図1の110および120)の間に存在するマッピング・コンフィグレーションが存在する。(このコンフィグレーションを用いて、RMは、フェイルオーバのためにどのノードを使用できるかということ、そして、それぞれのノードへ最初に割り当てられるべきカバレッジはどれかということを“知る”。言い換えれば、それぞれのRMのランタイムの間に用いられるノードは、当該コンフィグレーション内のノードと異なってもよい。それは、また、複数のRMが単一ノード内に存在することを可能にする。)(6)グループ・サービス(またはマルチノード環境において同様の機能を提供するプログラム)は、フォールトトレラントで高度に可用なクラスタワイド・グループ・メンバーシップ・サービスおよび同期サービスのために用いられる。このサービスを用いて、RMをホストするそれぞれのノードは、他のノードのステータスを確実に“知り”、加えて、ノードとワーキング・カバレッジとの間の現行のアクティブ・マッピング情報を保持する。
Figure 2004246892
(フェイルオーバ・グループの形成)
ノード上のそれぞれのRMが開始されるとき、それぞれのRMはコンフィグレーションを読み取り、構成されたフェイルオーバ・グループに参加することを試みる。参加要求が受諾された場合、続いて、参加RMがカバレッジに関して、リモート・リソース(図5および図4の上位レベルにおける411.x,412.x,…,41m.x、同様に図4および5の符号C1 ,C2 ,…,Cm を参照)へのコンタクトを開始する。他の既に参加しているメンバが意図したカバレッジを既に処理しているために参加オペレーションが失敗した場合、RMは当該グループにサブスクライブして当該グループのアクティビティをモニタする。参加ノードは当該グループのメンバになり、メンバがメンバーシップ・リストにリストされる。さらに、本明細書で用いられるとき、用語“サブスクライブ”は、参加ノードが、当該ノード・グループにおいて他のノードがどのような状態であるかの確認を実行するオペレーションを指す。サブスクライブの理由は、どのノードが参加しており、またはフェイルしているかをモニタするためである。
したがって、フェイルオーバ・グループ(例えば図1および2のフェイルオーバ・グループ1 100)に参加するとは、RMがアクティブになって意図したリソースをカバーすることを意味する。それぞれのフェイルオーバ・グループ・メンバーシップは、リソース・マネージャのリストを表すメンバIDのリストを含む。メンバIDはノード番号とグループ・サービスによって与えられる番号との組み合わせである。例えば、(図2を参照すると、フェイルオーバの前の)上述のケースは、以下のメンバーシップになる。
Figure 2004246892
これを判別するために、RMは、自身が属する関連フェイルオーバ・グループ100に参加し、次に、アクティブ・ノードをリストする現行のRMメンバーシップを受け取る。グループ・サービスの機能により、RMは、要求ノードN2内の他のノードによって現在処理されているカバレッジを取得し、現行のマッピング情報を更新する。一例として、新たに追加されたRMがノードN2上にあり、Cover3(図1の130.3)およびCover4(図1の130.4)のカバレッジを処理するノードがない場合には、フェイルオーバの現行メンバーシップとアクティブ・カバレッジとは以下のようになる。
Figure 2004246892
意図したカバレッジが他のノードへフェイルオーバされているか否か判別した後、RMは構成されたカバレッジをカバーすることを開始し、マッピング(N2,Cover3),(N2,Cover4)を現行のアクティブ・マッピングに追加する。後続のマッピングは以下の通りである。
Figure 2004246892
他方、意図したカバレッジが他のノードによって既に処理されており、コンフィグレーション・ノードへ戻す要求がある場合には、RMは、既にカバーしているノードすなわちNx にコンタクトする。要求と同時に、ノードNx は現行カバレッジ関連情報のコピーを要求ノードN2に送付し、現行のマッピング情報を更新する。
(リソースのモニタ/コントロール)
リソースのモニタおよびコントロールは、上述の特許出願(“A Monitoring Method of the Remotely Accessible Resources to Provide the Persistent and Consistent Resource States”と称された2002年8月23日出願の特許出願番号10/227,254)に記載されたのと同じ方法で行われる。
(RMの障害の検出とフェイルしたカバレッジの引き継ぎ)
ノードすなわちノードN1がフェイルする場合、グループ・サービスは他のノードにノードN1の障害について通知する。障害通知の受信と同時に、同じフェイルオーバ・グループ内の他のノードのうちの1つが当該カバレッジを引き継ぐ。ロードが同じ場合、ノードの選択はロードとノード番号とに基づく。ここで、ロードは、それぞれのノードによって処理されるように指定されたカバレッジの個数として示される。選択は、ノード間の通信を伴わずにローカルに行われてもよい。
上述の例(図1)において、ノードN2に対するロードすなわち“ロード(N2)”は2であり、ノードN2がカバレッジCover1およびCover2を引き継ぐ、というのは、N2のロードが、同じフェイルオーバ・グループ(フェイルオーバ・グループ1)内のノードの間で最小のロードであるからである。ノードN1はフェイルしたノードであるとみなされているので、ノードN2は現行のカバレッジ情報をノードN1から取得することができない。この状況において、Cover1およびCover2についての現行のカバレッジ情報は、当該カバレッジに現在責任のあるカバーPxRMにコンタクトすることによって再構成される。上述した特許出願において述べられた永続的リソース・モニタ方法を用いて、再構成が確実に行われる。
(フェイルしたカバレッジのリカバリ(フォールバック))
任意で、本プロセスはまた、オリジナル・ノードが使用可能になったとき、当該オリジナル・ノードへのカバレッジのフォールバックを提供する。例えば、図1において、ノードN1が障害の後に再び使用可能になった場合、カバレッジCover1およびCover2を以下の方法で再びノードN1へ戻してもよい。
(1)N1(110)が再び使用可能になったとき、グループ・サービスはこのイベントの通知をノードN2(120)とN1とに与える。
(2)N1が、“フェイルオーバ・グループの形成”において述べたようにフェイルオーバ・グループに参加を試みるとき、ノードN1は、グループ・サービスによって提供され保持されるグループ・メンバーシップ・リストを読み取ることにより、N1用のカバレッジがN2へフェイルオーバされたことを発見する。このリストは、当該グループ内のノード上に存在するRM(例えば、図2に見られるように、それぞれがノード3,ノード4,ノード5およびノード6と識別されるノード上に存在するRM200.1a,200.2a,200.3および200.4)を識別する。
(3)この状態の認識と同時に、N1は、現行のCover1およびCover2の情報を送信するようノードN2に対して要求を発行する。これは、グループ・サービスのメッセージング・サービスによって行われる。
(4)この情報の受信と同時に、ノードN1はCover1およびCover2についてのメンバーシップに参加し、N2はCover1およびCover2についてのメンバーシップをリリースする。
(5)Cover1およびCover2についてのメンバーシップの成功した変更の直後に、カバレッジはオリジナル・ノードへ戻される。
図3は、参照符号310.1〜310.4によって集合的に指示され、あるいは図4の符号310.xによってより一般的に指示される接続されたコンポーネント間の関係を説明する。ここで、説明の便宜のために、310.xの“x”は、1〜4の範囲であると仮定することができ、320.x,325.x,330.x,340.xおよび350.xについても同様であり、本明細書の他の箇所でも同様である。特に、310.xは、フェイルオーバ・グループ内のノードを指示する。これらのノードは、リモート・ノード400.x上のプロキシ・リソース・エージェント430.xと通信するプロキシ・リソース・マネージャ330.xを含む。本発明の重要な側面は、図4に示されるように、それぞれのリモート管理リソースCi についてのエントリのテーブル325.xに関する永続メモリ320.xの保持力である。テーブル325.xは、(本図示の例において)ノード3〜5に存在するプロキシ・リソース・マネージャ(PxRM)330.xと、リモート・ノード400.1〜400.x(ここでは、説明の便宜だけのためにxは4とする)に存在するプロキシ・リソース・エージェント(PxRA)との間の通信の間中同期状態に保持される。リソース世代番号(RGN)の使用によって同期が可能になる。RGNの変更と特性は本明細書の他の箇所で述べられる。テーブル325.xは、それぞれのリモート管理リソースについてのエントリを含む。ネームによってリソースを識別するエントリが存在し、自身の現在割り当てられたRGNを示すエントリが存在する。リソース・ステータスを示し、(必要に応じて)リソース特定情報を示すさらなるエントリがテーブル325.xに与えられる。テーブル325.xおよび425.x(図5参照)の構造は本質的に同一である。しかしながら、フェイルしたノードがサービスに戻るときに生じるようなRGNエントリの差異が、時々存在し得る。管理ノードが自身のサポート・エントリのリストからリモート・リソースを落とすことを選ぶときに存在する差異も存在し得る。管理ノードにおいて、プロキシ・リソース・マネージャ(PxRM)330.xは、一貫して定義されたリソース管理インターフェース340.xを通してローカル・リソース・マネージャ350.xと通信する。また管理ノードにおいて、永続ストレージ320.xは、ディスク・ドライブ,光ディスク・ドライブ,磁気テープ・ドライブ,あるいはさらにランダム・アクセス・メモリを含むことができることに留意されたい。不揮発性の厳しい基準とは対照的に、最も重要な特徴は永続性である。
リモート・リソースC1 ,C2 ,…,Cm (それぞれ411.x,412.x,…,41m.x)と共にリモート・ノード405.xを含む400.xのようなリモート・ノード複合体において、プロキシ・リソース・エージェント(PxRA)430.xはテーブル425.xを保持する。テーブル425.xは、理想的な状況下では、ローカルに保持されるテーブル325.xの複製物である。PxRA430.xは、RGNエントリを伝送し、そしてそれらを比較してリモート・リソース・ステータスの一貫性を確保するためにPxRM330.xと直接通信する。リモート・リソースC1 ,C2 ,…,Cm はノード・インターフェース435.xを通してノード405.xと通信する。ノード・インターフェース435.xは、また、リソースと通信するためにプロキシ・リソース・エージェントPxRA430.xによって使用される。ノード・インターフェース435.xは、リモート・リソースと、ノード・インターフェース435.xが直接付加されたノードとの間の通信のためのメカニズムを指すことのみを意図する。これは、本発明の一部を形成するものではない。
たとえ図面と本明細書の説明とが、単一のフェイルオーバ・ノード・グループに関連した動作と機能とに主に傾注していても、全ての合理的な数のフェイルオーバ・グループを定義して用いることができること、そして、好ましくは、RGN情報および関連したステータス情報をプロキシ・リソース・マネージャへ伝えるプロキシ・リソース・エージェントの使用によってリモート・ノードにおいてストアされ保持されるこのRGN情報への参照が成される限り重複するカバレッジが許容されることを、本発明は意図し、許容し、そして提案する。
リソース世代番号は、リソースごとに時刻に関して固有である。言い換えれば、2つのRGNが異なった時刻において作成された場合にはそれらは異なる。この特性は、リソース世代番号が変化したか否か判別する際に状態のあいまいさがないことを保証する。したがって、リソース世代番号は、好ましくは、タイム・スタンプと同程度単純なものである。一方、リソース世代“番号”は、一般的には、リソース世代番号に関する定義された順序関係を有することができる印を含んでもよいことに留意されたい。整数およびタイム・スタンプ(日付とタイム・スタンプを含む)は、明らかに、このような印の最も明白で容易に実施される例である。したがって、“番号”であるRGNへの本明細書における言及は、1つ以上の形態の数表現へ当該印を限定するものと解釈すべきではないことに留意されたい。また、本明細書においてRGNがインクリメントされることを示す場合には、インクリメントが正の数であるという特定の要件は存在せず、印の順序付けまたは更新が特定の方向に生じなければならないという暗示も存在しないことに留意されたい。順序と比較可能性とが、当該印についての望ましい特性である。タイム・スタンプは、好適な実施例においてのみ用いられる。
本明細書で用いられる場合、ノードがフェイルしたことが示されるとき、これは、ノードへの通信および/またはノードからの通信がもはや生じないということ、あるいは、内部ノード問題が存在するということを意味する。通信問題によるノードの障害は、より一時的である、および/または継続期間が短い傾向がある。これらの障害は、通信アダプタに関する問題によって発生しやすい。一方、通信問題は、代わりの通信パスの識別と使用によって時に解決可能である。事実上より重大になりやすい内部ノード問題に関しては、ノードのリスタートまたはノードのリブートが多くの場合問題を解決するが、このような場合においては、RGNがゼロ(または等価)にリセットされる。これらのステータスの変化は、本発明のPxRMによって確認される。
まとめとして、本発明の構成に関して以下の事項を開示する。
(1)マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法であって、前記分散データ処理システムの複数のノード上でプロキシ・リソース・マネージャを実行し、前記リモート・アクセス可能なリソースに関するシーケンシャルなリソース世代識別子を、前記複数のノードのそれぞれのノードに接続された永続ストレージ・デバイスにストアするステップと、少なくとも1つの他のノード上でプロキシ・リソース・エージェントを実行し、前記リソースのステータスと共に前記リソースに関する前記シーケンシャルなリソース世代識別子のローカル・バージョンを保持するステップと、前記複数のノードのうちの対応するノードのリスタートと同時に、前記永続的にストアされた識別子をインクリメントするステップと、リソース・ステータスの変更と同時に、前記プロキシ・リソース・エージェントを介して、前記ローカル識別子バージョンをインクリメントするステップと、前記リソースについて前記ローカル識別子と前記永続的識別子とを比較して、前記リソースの前記ステータスの一貫性を確保するステップと、を含む方法。
(2)マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法であって、ノードがノードのグループに参加するための要求を処理するステップであって、前記グループについてのフェイルオーバ・カバレッジ情報を前記参加ノードへ提供するステップを含むステップと、前記グループによってモニタされているリモート・リソースとして前記フェイルオーバ・カバレッジ情報によって指示されるリモート・リソースについてのステータス情報を、前記参加ノードへ提供するステップと、を含む方法。
(3)前記ステータス情報は、単調に変化するステータス順序インジケータを含む上記(2)に記載の方法。
(4)前記インジケータは、単調に増加する数字である上記(3)に記載の方法。
(5)前記インジケータは、タイム・スタンプである上記(3)に記載の方法。
(6)マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法であって、ノードがフェイルしたこと、そして、前記フェイルしたノードがリモート・リソースを管理していたことを判別するステップと、フェイルオーバ・グループ内のノードにおいて、前記グループ内のどのノードが前記リモート・リソースの管理を引き継ぐべきであるか選択するステップと、事前に設定されたカバレッジ情報を用いてリモート・ノード上に存在するリソースについてのステータス情報を判別し、前記リモート・ノードのプロキシ・リソース・エージェントと通信して前記リソースについての現行のステータスを判別するステップと、前記判別された現行のステータスを用いて、前記リソースの現行のマネージャとして、前記選択したノード上にプロキシ・リソース・マネージャを設定するステップと、を含む方法。
(7)前記選択するステップにおいて、ノードの選択は、前記フェイルオーバ・グループ内のノードに対して現在割り当てられているカバレッジ・ロードに基づく上記(6)に記載の方法。
(8)フェイルしてリカバリしたノードへリソース・マネージャ・コントロールを戻す方法であって、前記前にフェイルしたノードが現在は作動していることを示す情報を、前記フェイルしたノードと、ノードのフェイルオーバ・グループ内の他のノードとへ提供するステップと、前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップと、前記前にフェイルしたが現在はリカバリしたノードの要求時に、前記他のノードから前記フェイルしたノードへ現行のカバレッジ情報を送信するステップと、前記リモート・リソースの現行の管理を、前記他のノードから前記前にフェイルしたが現在はリカバリしたノードへ変更するステップと、を含む方法。
(9)前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップは、グループ・メンバーシップ・リストを読み取ることによって実行される上記(8)に記載の方法。
(10)マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースをデータ・プロセッサに管理させるコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、前記分散データ処理システムの複数のノード上でプロキシ・リソース・マネージャを実行し、前記リモート・アクセス可能なリソースに関するシーケンシャルなリソース世代識別子を、前記複数のノードのそれぞれのノードに接続された永続ストレージ・デバイスにストアするステップと、少なくとも1つの他のノード上でプロキシ・リソース・エージェントを実行し、前記リソースのステータスと共に前記リソースに関する前記シーケンシャルなリソース世代識別子のローカル・バージョンを保持するステップと、前記複数のノードのうちの対応するノードのリスタートと同時に、前記永続的にストアされた識別子をインクリメントするステップと、リソース・ステータスの変更と同時に、前記プロキシ・リソース・エージェントを介して、前記ローカル識別子バージョンをインクリメントするステップと、前記リソースについて前記ローカル識別子と前記永続識別子とを比較して、前記リソースの前記ステータスの一貫性を確保するステップと、を含むコンピュータ可読媒体。
(11)マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースをデータ・プロセッサに管理させるコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、ノードがノードのグループに参加するための要求を処理するステップであって、前記グループについてのフェイルオーバ・カバレッジ情報を前記参加ノードへ提供するステップを含むステップと、前記グループによってモニタされているリモート・リソースとして前記フェイルオーバ・カバレッジ情報によって指示されるリモート・リソースについてのステータス情報を、前記参加ノードへ提供するステップと、を含むコンピュータ可読媒体。
(12)マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースをデータ・プロセッサに管理させるコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、ノードがフェイルしたこと、そして、前記フェイルしたノードがリモート・リソースを管理していたことを判別するステップと、フェイルオーバ・グループ内のノードにおいて、前記グループ内のどのノードが前記リモート・リソースの管理を引き継ぐべきか選択するステップと、事前に設定されたカバレッジ情報を用いてリモート・ノード上に存在するリソースについてのステータス情報を判別し、前記リモート・ノードのプロキシ・リソース・エージェントと通信して前記リソースについての現行ステータスを判別するステップと、前記判別した現行ステータスを用いて、前記リソースの現行のマネージャとして、前記選択したノード上にプロキシ・リソース・マネージャを設定するステップと、を含むコンピュータ可読媒体。
(13)マルチノード分散データ処理システムにおいてフェイルしてリカバリしたノードへリソース・マネージャ・コントロールを戻すコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、前記前にフェイルしたノードが現在は作動していることを示す情報を、前記フェイルしたノードと、ノードのフェイルオーバ・グループ内の他のノードとに提供するステップと、前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップと、前記前にフェイルしたが現在はリカバリしたノードの要求時に、前記他のノードから前記フェイルしたノードへ現行のカバレッジ情報を送信するステップと、前記リモート・リソースの現行の管理を、前記他のノードから前記前にフェイルしたが現在はリカバリしたノードへ変更するステップと、を含むコンピュータ可読媒体。
(14)複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、前記分散データ処理システムの複数のノード上でプロキシ・リソース・マネージャを実行し、前記リモート・アクセス可能なリソースに関するシーケンシャルなリソース世代識別子を、前記複数のノードのそれぞれのノードに接続された永続ストレージ・デバイスにストアするステップと、少なくとも1つの他のノード上でプロキシ・リソース・エージェントを実行し、前記リソースのステータスと共に前記リソースに関する前記シーケンシャルなリソース世代識別子のローカル・バージョンを保持するステップと、前記複数のノードのうちの対応するノードのリスタートと同時に、前記永続的にストアされた識別子をインクリメントするステップと、リソース・ステータスの変更と同時に、前記プロキシ・リソース・エージェントを介して、前記ローカル識別子バージョンをインクリメントするステップと、前記リソースについて前記ローカル識別子と前記永続識別子とを比較して、前記リソースの前記ステータスの一貫性を確保するステップと、を含む分散データ処理システム。
(15)複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、ノードがノードのグループに参加するための要求を処理するステップであって、前記グループについてのフェイルオーバ・カバレッジ情報を前記参加ノードへ提供するステップを含むステップと、前記グループによってモニタされているリモート・リソースとして前記フェイルオーバ・カバレッジ情報によって指示されるリモート・リソースについてのステータス情報を、前記参加ノードへ提供するステップと、を含む分散データ処理システム。
(16)複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、ノードがフェイルしたこと、そして、前記フェイルしたノードがリモート・リソースを管理していたことを判別するステップと、フェイルオーバ・グループ内のノードにおいて、前記グループ内のどのノードが前記リモート・リソースの管理を引き継ぐべきか選択するステップと、事前に設定されたカバレッジ情報を用いてリモート・ノード上に存在するリソースについてのステータス情報を判別し、前記リモート・ノードのプロキシ・リソース・エージェントと通信して前記リソースについての現行のステータスを判別するステップと、前記判別された現行のステータスを用いて、前記リソースの現行のマネージャとして、前記選択したノード上にプロキシ・リソース・マネージャを設定するステップと、を含む分散データ処理システム。
(17)複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、前記前にフェイルしたノードが現在は作動していることを示す情報を、前記フェイルしたノードと、ノードのフェイルオーバ・グループ内の他のノードとへ提供するステップと、前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップと、前記前にフェイルしたが現在はリカバリしたノードの要求時に、前記他のノードから前記フェイルしたノードへ現行のカバレッジ情報を送信するステップと、前記リモート・リソースの現行の管理を、前記他のノードから前記前にフェイルしたが現在はリカバリしたノードへ変更するステップと、を含む分散データ処理システム。
本発明が用いられるオペレーティング環境と、本発明のオペレーションの全体構造とを説明するブロック図である。 図1と同種のより詳細なブロック図であるが、典型的なオペレーションの際に生じる本発明の様々なコンポーネントのステータスをより具体的に説明し、リモート・ノード上に保持されるデータの構造をさらに具体的に説明する。 非リモート・ノード、すなわち、RMIを含みリモート・リソースについてのプロキシ・リソース・マネージャを実行する中間ノード、において保持される情報の構造をより詳細に説明する図2の拡大部分を示す図である。 プロキシ・リソース・マネージャPxRMの役割と、システムの他の部分との対話とを説明する図2の一部の拡大部分を示す図である。 プロキシ・リソース・エージェントPxRAの役割と、分散データ処理システムのリモート部分のうちの他の部分との対話とを説明する図2の拡大部分を示す図である。
符号の説明
100 フェイルオーバ・グループ
110,120 RMIノード
130.1,130.2,130.3,130.4 カバレッジ
200.1,200.2,200.3,200.4,210.1,210.2,210.3,210.4 リソース・マネージャ
300.1,300.2,310.1,310.2,310.3,310.4 ノード
400.1,400.2,400.3,400.4 リモート・ノード
310.x ノード
320.x 永続メモリ
325.x エントリ・テーブル
330.x プロキシ・リソース・マネージャ
340.x リソース管理インターフェース
350.x ローカル・リソース・マネージャ
400.x リモート・ノード
405.x リモート・ノード
411.x,412.x,41m.x リモート・リソース
425.x テーブル
430.x プロキシ・リソース・エージェント
435.x ノード・インターフェース

Claims (17)

  1. マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法であって、
    前記分散データ処理システムの複数のノード上でプロキシ・リソース・マネージャを実行し、前記リモート・アクセス可能なリソースに関するシーケンシャルなリソース世代識別子を、前記複数のノードのそれぞれのノードに接続された永続ストレージ・デバイスにストアするステップと、
    少なくとも1つの他のノード上でプロキシ・リソース・エージェントを実行し、前記リソースのステータスと共に前記リソースに関する前記シーケンシャルなリソース世代識別子のローカル・バージョンを保持するステップと、
    前記複数のノードのうちの対応するノードのリスタートと同時に、前記永続的にストアされた識別子をインクリメントするステップと、
    リソース・ステータスの変更と同時に、前記プロキシ・リソース・エージェントを介して、前記ローカル識別子バージョンをインクリメントするステップと、
    前記リソースについて前記ローカル識別子と前記永続的識別子とを比較して、前記リソースの前記ステータスの一貫性を確保するステップと、を含む方法。
  2. マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法であって、
    ノードがノードのグループに参加するための要求を処理するステップであって、前記グループについてのフェイルオーバ・カバレッジ情報を前記参加ノードへ提供するステップを含むステップと、
    前記グループによってモニタされているリモート・リソースとして前記フェイルオーバ・カバレッジ情報によって指示されるリモート・リソースについてのステータス情報を、前記参加ノードへ提供するステップと、を含む方法。
  3. 前記ステータス情報は、単調に変化するステータス順序インジケータを含む請求項2に記載の方法。
  4. 前記インジケータは、単調に増加する数字である請求項3に記載の方法。
  5. 前記インジケータは、タイム・スタンプである請求項3に記載の方法。
  6. マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法であって、
    ノードがフェイルしたこと、そして、前記フェイルしたノードがリモート・リソースを管理していたことを判別するステップと、
    フェイルオーバ・グループ内のノードにおいて、前記グループ内のどのノードが前記リモート・リソースの管理を引き継ぐべきであるか選択するステップと、
    事前に設定されたカバレッジ情報を用いてリモート・ノード上に存在するリソースについてのステータス情報を判別し、前記リモート・ノードのプロキシ・リソース・エージェントと通信して前記リソースについての現行のステータスを判別するステップと、
    前記判別された現行のステータスを用いて、前記リソースの現行のマネージャとして、前記選択したノード上にプロキシ・リソース・マネージャを設定するステップと、を含む方法。
  7. 前記選択するステップにおいて、ノードの選択は、前記フェイルオーバ・グループ内のノードに対して現在割り当てられているカバレッジ・ロードに基づく請求項6に記載の方法。
  8. フェイルしてリカバリしたノードへリソース・マネージャ・コントロールを戻す方法であって、
    前記前にフェイルしたノードが現在は作動していることを示す情報を、前記フェイルしたノードと、ノードのフェイルオーバ・グループ内の他のノードとへ提供するステップと、
    前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップと、
    前記前にフェイルしたが現在はリカバリしたノードの要求時に、前記他のノードから前記フェイルしたノードへ現行のカバレッジ情報を送信するステップと、
    前記リモート・リソースの現行の管理を、前記他のノードから前記前にフェイルしたが現在はリカバリしたノードへ変更するステップと、を含む方法。
  9. 前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップは、グループ・メンバーシップ・リストを読み取ることによって実行される請求項8に記載の方法。
  10. マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースをデータ・プロセッサに管理させるコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
    前記分散データ処理システムの複数のノード上でプロキシ・リソース・マネージャを実行し、前記リモート・アクセス可能なリソースに関するシーケンシャルなリソース世代識別子を、前記複数のノードのそれぞれのノードに接続された永続ストレージ・デバイスにストアするステップと、
    少なくとも1つの他のノード上でプロキシ・リソース・エージェントを実行し、前記リソースのステータスと共に前記リソースに関する前記シーケンシャルなリソース世代識別子のローカル・バージョンを保持するステップと、
    前記複数のノードのうちの対応するノードのリスタートと同時に、前記永続的にストアされた識別子をインクリメントするステップと、
    リソース・ステータスの変更と同時に、前記プロキシ・リソース・エージェントを介して、前記ローカル識別子バージョンをインクリメントするステップと、
    前記リソースについて前記ローカル識別子と前記永続識別子とを比較して、前記リソースの前記ステータスの一貫性を確保するステップと、を含むコンピュータ可読媒体。
  11. マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースをデータ・プロセッサに管理させるコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
    ノードがノードのグループに参加するための要求を処理するステップであって、前記グループについてのフェイルオーバ・カバレッジ情報を前記参加ノードへ提供するステップを含むステップと、
    前記グループによってモニタされているリモート・リソースとして前記フェイルオーバ・カバレッジ情報によって指示されるリモート・リソースについてのステータス情報を、前記参加ノードへ提供するステップと、を含むコンピュータ可読媒体。
  12. マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースをデータ・プロセッサに管理させるコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
    ノードがフェイルしたこと、そして、前記フェイルしたノードがリモート・リソースを管理していたことを判別するステップと、
    フェイルオーバ・グループ内のノードにおいて、前記グループ内のどのノードが前記リモート・リソースの管理を引き継ぐべきか選択するステップと、
    事前に設定されたカバレッジ情報を用いてリモート・ノード上に存在するリソースについてのステータス情報を判別し、前記リモート・ノードのプロキシ・リソース・エージェントと通信して前記リソースについての現行ステータスを判別するステップと、
    前記判別した現行ステータスを用いて、前記リソースの現行のマネージャとして、前記選択したノード上にプロキシ・リソース・マネージャを設定するステップと、を含むコンピュータ可読媒体。
  13. マルチノード分散データ処理システムにおいてフェイルしてリカバリしたノードへリソース・マネージャ・コントロールを戻すコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
    前記前にフェイルしたノードが現在は作動していることを示す情報を、前記フェイルしたノードと、ノードのフェイルオーバ・グループ内の他のノードとに提供するステップと、
    前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップと、
    前記前にフェイルしたが現在はリカバリしたノードの要求時に、前記他のノードから前記フェイルしたノードへ現行のカバレッジ情報を送信するステップと、
    前記リモート・リソースの現行の管理を、前記他のノードから前記前にフェイルしたが現在はリカバリしたノードへ変更するステップと、を含むコンピュータ可読媒体。
  14. 複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、
    前記分散データ処理システムの複数のノード上でプロキシ・リソース・マネージャを実行し、前記リモート・アクセス可能なリソースに関するシーケンシャルなリソース世代識別子を、前記複数のノードのそれぞれのノードに接続された永続ストレージ・デバイスにストアするステップと、
    少なくとも1つの他のノード上でプロキシ・リソース・エージェントを実行し、前記リソースのステータスと共に前記リソースに関する前記シーケンシャルなリソース世代識別子のローカル・バージョンを保持するステップと、
    前記複数のノードのうちの対応するノードのリスタートと同時に、前記永続的にストアされた識別子をインクリメントするステップと、
    リソース・ステータスの変更と同時に、前記プロキシ・リソース・エージェントを介して、前記ローカル識別子バージョンをインクリメントするステップと、
    前記リソースについて前記ローカル識別子と前記永続識別子とを比較して、前記リソースの前記ステータスの一貫性を確保するステップと、を含む分散データ処理システム。
  15. 複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、
    ノードがノードのグループに参加するための要求を処理するステップであって、前記グループについてのフェイルオーバ・カバレッジ情報を前記参加ノードへ提供するステップを含むステップと、
    前記グループによってモニタされているリモート・リソースとして前記フェイルオーバ・カバレッジ情報によって指示されるリモート・リソースについてのステータス情報を、前記参加ノードへ提供するステップと、を含む分散データ処理システム。
  16. 複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、
    ノードがフェイルしたこと、そして、前記フェイルしたノードがリモート・リソースを管理していたことを判別するステップと、
    フェイルオーバ・グループ内のノードにおいて、前記グループ内のどのノードが前記リモート・リソースの管理を引き継ぐべきか選択するステップと、
    事前に設定されたカバレッジ情報を用いてリモート・ノード上に存在するリソースについてのステータス情報を判別し、前記リモート・ノードのプロキシ・リソース・エージェントと通信して前記リソースについての現行のステータスを判別するステップと、
    前記判別された現行のステータスを用いて、前記リソースの現行のマネージャとして、前記選択したノード上にプロキシ・リソース・マネージャを設定するステップと、を含む分散データ処理システム。
  17. 複数のノードを有する分散データ処理システムであって、前記複数のノードは前記分散データ処理システムのノード内部のメモリ・ロケーションに実行可能な命令を含み、前記実行可能な命令が前記分散データ処理システム内のノードに実行させるステップは、
    前記前にフェイルしたノードが現在は作動していることを示す情報を、前記フェイルしたノードと、ノードのフェイルオーバ・グループ内の他のノードとへ提供するステップと、
    前記フェイルしたノードにおいて、リモート・リソース・カバレッジが前記他のノードによって現在処理されていることを判別するステップと、
    前記前にフェイルしたが現在はリカバリしたノードの要求時に、前記他のノードから前記フェイルしたノードへ現行のカバレッジ情報を送信するステップと、
    前記リモート・リソースの現行の管理を、前記他のノードから前記前にフェイルしたが現在はリカバリしたノードへ変更するステップと、を含む分散データ処理システム。
JP2004032673A 2003-02-12 2004-02-09 マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法 Pending JP2004246892A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/365,193 US7137040B2 (en) 2003-02-12 2003-02-12 Scalable method of continuous monitoring the remotely accessible resources against the node failures for very large clusters

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2008138214A Division JP4721195B2 (ja) 2003-02-12 2008-05-27 マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法

Publications (1)

Publication Number Publication Date
JP2004246892A true JP2004246892A (ja) 2004-09-02

Family

ID=32824583

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2004032673A Pending JP2004246892A (ja) 2003-02-12 2004-02-09 マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法
JP2008138214A Expired - Fee Related JP4721195B2 (ja) 2003-02-12 2008-05-27 マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2008138214A Expired - Fee Related JP4721195B2 (ja) 2003-02-12 2008-05-27 マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法

Country Status (3)

Country Link
US (4) US7137040B2 (ja)
JP (2) JP2004246892A (ja)
KR (1) KR100658913B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006114040A (ja) * 2004-10-08 2006-04-27 Microsoft Corp コンピュータクラスタのノードのフェールオーバー範囲

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6951020B2 (en) * 2001-08-28 2005-09-27 Kayak Interactive Corporation Method for handling transitions in grouped services in a distributed computing application
US8015303B2 (en) 2002-08-02 2011-09-06 Astute Networks Inc. High data rate stateful protocol processing
US20040039816A1 (en) * 2002-08-23 2004-02-26 International Business Machines Corporation Monitoring method of the remotely accessible resources to provide the persistent and consistent resource states
US7814218B1 (en) 2002-10-17 2010-10-12 Astute Networks, Inc. Multi-protocol and multi-format stateful processing
US8151278B1 (en) 2002-10-17 2012-04-03 Astute Networks, Inc. System and method for timer management in a stateful protocol processing system
US7137040B2 (en) * 2003-02-12 2006-11-14 International Business Machines Corporation Scalable method of continuous monitoring the remotely accessible resources against the node failures for very large clusters
US8307112B2 (en) * 2003-07-31 2012-11-06 Cloudsoft Corporation Limited Mediated information flow
US9525566B2 (en) * 2003-07-31 2016-12-20 Cloudsoft Corporation Limited Self-managed mediated information flow
US7302607B2 (en) * 2003-08-29 2007-11-27 International Business Machines Corporation Two node virtual shared disk cluster recovery
US7539760B1 (en) * 2003-09-12 2009-05-26 Astute Networks, Inc. System and method for facilitating failover of stateful connections
US7558192B1 (en) * 2004-05-03 2009-07-07 Cisco Technology, Inc. Method to increase system availability of critical hardware components
US7409576B2 (en) * 2004-09-08 2008-08-05 Hewlett-Packard Development Company, L.P. High-availability cluster with proactive maintenance
DE602005009353D1 (de) * 2005-07-22 2008-10-09 Alcatel Lucent Rückgewinnung von Netzelementenkonfiguration
US8082468B1 (en) 2008-12-15 2011-12-20 Open Invention Networks, Llc Method and system for providing coordinated checkpointing to a group of independent computer applications
US7966514B2 (en) * 2005-09-19 2011-06-21 Millennium It (Usa), Inc. Scalable fault tolerant system
US7509535B1 (en) * 2005-09-29 2009-03-24 Emc Corporation System and method for managing failover in a data storage environment
WO2007144611A1 (en) 2006-06-12 2007-12-21 Enigmatec Corporation Self-managed distributed mediation networks
US7913105B1 (en) * 2006-09-29 2011-03-22 Symantec Operating Corporation High availability cluster with notification of resource state changes
US8495157B2 (en) * 2007-03-07 2013-07-23 International Business Machines Corporation Method and apparatus for distributed policy-based management and computed relevance messaging with remote attributes
WO2008109848A2 (en) 2007-03-07 2008-09-12 Bigfix, Inc. Pseudo-agent
US8219654B2 (en) * 2007-05-17 2012-07-10 Microsoft Corporation Highly available central controller to store and enforce valid state transitions of distributed components
US7870557B2 (en) 2007-06-11 2011-01-11 International Business Machines Corporation Apparatus, system, and method for autonomously maintaining a single system image in a parallel systems complex
US7756888B2 (en) * 2007-07-03 2010-07-13 Oracle America, Inc. Method and apparatus for providing heterogeneous resources for client systems
US7945773B2 (en) * 2007-09-18 2011-05-17 International Business Machines Corporation Failover of blade servers in a data center
JP2009122873A (ja) * 2007-11-13 2009-06-04 Hitachi Ltd ストレージシステム間でのリモートコピーを管理する装置
RU2470484C2 (ru) * 2007-12-17 2012-12-20 Телефонактиеболагет Лм Эрикссон (Пабл) Избыточность мобильных узлов базовой сети
US8365185B2 (en) * 2007-12-28 2013-01-29 International Business Machines Corporation Preventing execution of processes responsive to changes in the environment
US8868441B2 (en) 2007-12-28 2014-10-21 International Business Machines Corporation Non-disruptively changing a computing environment
US8751283B2 (en) 2007-12-28 2014-06-10 International Business Machines Corporation Defining and using templates in configuring information technology environments
US8782662B2 (en) 2007-12-28 2014-07-15 International Business Machines Corporation Adaptive computer sequencing of actions
US8826077B2 (en) 2007-12-28 2014-09-02 International Business Machines Corporation Defining a computer recovery process that matches the scope of outage including determining a root cause and performing escalated recovery operations
US8375244B2 (en) * 2007-12-28 2013-02-12 International Business Machines Corporation Managing processing of a computing environment during failures of the environment
US7958393B2 (en) * 2007-12-28 2011-06-07 International Business Machines Corporation Conditional actions based on runtime conditions of a computer system environment
US8990810B2 (en) * 2007-12-28 2015-03-24 International Business Machines Corporation Projecting an effect, using a pairing construct, of execution of a proposed action on a computing environment
US20090172149A1 (en) 2007-12-28 2009-07-02 International Business Machines Corporation Real-time information technology environments
US8682705B2 (en) 2007-12-28 2014-03-25 International Business Machines Corporation Information technology management based on computer dynamically adjusted discrete phases of event correlation
US9558459B2 (en) 2007-12-28 2017-01-31 International Business Machines Corporation Dynamic selection of actions in an information technology environment
US8428983B2 (en) 2007-12-28 2013-04-23 International Business Machines Corporation Facilitating availability of information technology resources based on pattern system environments
US8763006B2 (en) 2007-12-28 2014-06-24 International Business Machines Corporation Dynamic generation of processes in computing environments
US8677174B2 (en) 2007-12-28 2014-03-18 International Business Machines Corporation Management of runtime events in a computer environment using a containment region
US8326910B2 (en) 2007-12-28 2012-12-04 International Business Machines Corporation Programmatic validation in an information technology environment
US8447859B2 (en) * 2007-12-28 2013-05-21 International Business Machines Corporation Adaptive business resiliency computer system for information technology environments
US8341014B2 (en) 2007-12-28 2012-12-25 International Business Machines Corporation Recovery segments for computer business applications
US8346931B2 (en) 2007-12-28 2013-01-01 International Business Machines Corporation Conditional computer runtime control of an information technology environment based on pairing constructs
US7506025B1 (en) * 2008-03-27 2009-03-17 International Business Machines Corporation Using a proxy to redirect downloads
DE102008022221A1 (de) * 2008-05-06 2009-11-12 Universität des Saarlandes Inhibitoren der humanen Aldosteronsynthase CYP11B2
JP5217988B2 (ja) * 2008-12-08 2013-06-19 富士通株式会社 情報処理装置、プログラムおよび情報処理装置の制御方法
US9454444B1 (en) 2009-03-19 2016-09-27 Veritas Technologies Llc Using location tracking of cluster nodes to avoid single points of failure
WO2010136699A2 (fr) * 2009-05-29 2010-12-02 France Telecom Technique de distribution d'un contenu vers un utilisateur
US8966110B2 (en) 2009-09-14 2015-02-24 International Business Machines Corporation Dynamic bandwidth throttling
US8458515B1 (en) 2009-11-16 2013-06-04 Symantec Corporation Raid5 recovery in a high availability object based file system
US8132043B2 (en) * 2009-12-17 2012-03-06 Symantec Corporation Multistage system recovery framework
US8823536B2 (en) 2010-04-21 2014-09-02 Microsoft Corporation Automated recovery and escalation in complex distributed applications
WO2012004872A1 (ja) * 2010-07-07 2012-01-12 富士通株式会社 管理装置、管理プログラムおよび管理方法
US8738961B2 (en) * 2010-08-17 2014-05-27 International Business Machines Corporation High-availability computer cluster with failover support based on a resource map
EP2442228A1 (en) 2010-10-13 2012-04-18 Thomas Lippert A computer cluster arrangement for processing a computaton task and method for operation thereof
US9600315B2 (en) * 2010-10-22 2017-03-21 Netapp, Inc. Seamless takeover of a stateful protocol session in a virtual machine environment
US8495323B1 (en) 2010-12-07 2013-07-23 Symantec Corporation Method and system of providing exclusive and secure access to virtual storage objects in a virtual machine cluster
CN103731461B (zh) * 2012-10-16 2018-09-04 百度在线网络技术(北京)有限公司 一种基于代理的分布式系统状态控制方法和系统
US9659078B2 (en) * 2013-08-29 2017-05-23 Oracle International Corporation System and method for supporting failover during synchronization between clusters in a distributed data grid
US20150100826A1 (en) * 2013-10-03 2015-04-09 Microsoft Corporation Fault domains on modern hardware
US9348713B2 (en) 2013-12-13 2016-05-24 Netapp, Inc. Techniques for importation of information to a storage system
CN104980296B (zh) * 2014-04-11 2018-06-19 华为技术有限公司 OpenFlow多控制器系统及其管理方法
US10324953B1 (en) * 2014-06-26 2019-06-18 EMC IP Holding Company LLC Managing remote data center from another data center
CN107301092B (zh) * 2016-04-15 2020-11-10 中移(苏州)软件技术有限公司 一种云计算资源池系统节能方法、装置及系统
CN107402820A (zh) * 2017-08-10 2017-11-28 郑州云海信息技术有限公司 云计算系统中资源的管理方法和装置
CN111367659B (zh) * 2020-02-24 2022-07-12 苏州浪潮智能科技有限公司 一种Kubernetes中节点的资源管理方法、设备以及介质
CN112055068B (zh) * 2020-08-28 2022-09-16 合肥工业大学 多代理系统主控节点的分配方法、装置、终端及存储介质
CN112202617B (zh) * 2020-10-09 2024-02-23 腾讯云计算(北京)有限责任公司 资源管理系统监控方法、装置、计算机设备和存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2785998B2 (ja) * 1990-05-18 1998-08-13 富士通株式会社 計算機システム
JPH06197112A (ja) * 1992-12-25 1994-07-15 Fuji Xerox Co Ltd 管理システム
US6094680A (en) * 1996-06-27 2000-07-25 Microsoft Corporation System and method for managing distributed resources on networks
US5960066A (en) * 1996-11-07 1999-09-28 Lucent Technologies, Inc. Method and apparatus for using telephone house wiring for voice/data network
US6151688A (en) * 1997-02-21 2000-11-21 Novell, Inc. Resource management in a clustered computer system
US6138251A (en) * 1997-06-30 2000-10-24 Sun Microsystems, Inc. Method and system for reliable remote object reference management
US6393485B1 (en) * 1998-10-27 2002-05-21 International Business Machines Corporation Method and apparatus for managing clustered computer systems
US6438705B1 (en) * 1999-01-29 2002-08-20 International Business Machines Corporation Method and apparatus for building and managing multi-clustered computer systems
WO2001035278A1 (en) 1999-11-10 2001-05-17 Fakhouri Sameh A A decision based system for managing distributed resources and modeling the global optimization problem
US20020198996A1 (en) * 2000-03-16 2002-12-26 Padmanabhan Sreenivasan Flexible failover policies in high availability computing systems
US7627694B2 (en) * 2000-03-16 2009-12-01 Silicon Graphics, Inc. Maintaining process group membership for node clusters in high availability computing systems
US6738345B1 (en) * 2000-06-21 2004-05-18 Motorola, Inc. Method for failover management in a synchronous optical network using standard protocols
US6990606B2 (en) * 2000-07-28 2006-01-24 International Business Machines Corporation Cascading failover of a data management application for shared disk file systems in loosely coupled node clusters
US6971044B2 (en) * 2001-04-20 2005-11-29 Egenera, Inc. Service clusters and method in a processing system with failover capability
US7120693B2 (en) * 2001-05-08 2006-10-10 International Business Machines Corporation Method using two different programs to determine state of a network node to eliminate message response delays in system processing
JP3542980B2 (ja) * 2001-06-19 2004-07-14 日本電気株式会社 ネットワークシステム、ネットワークエンティティ監視方法、記録媒体
US6944786B2 (en) * 2001-07-27 2005-09-13 International Business Machines Corporation Network node failover using multicast address or port
US7043550B2 (en) * 2002-02-15 2006-05-09 International Business Machines Corporation Method for controlling group membership in a distributed multinode data processing system to assure mutually symmetric liveness status indications
US7203748B2 (en) * 2002-02-15 2007-04-10 International Business Machines Corporation Method for detecting the quick restart of liveness daemons in a distributed multinode data processing system
US20040122944A1 (en) * 2002-06-28 2004-06-24 Didier Poirot Method and system of locating computers in distributed computer system
US20040039816A1 (en) * 2002-08-23 2004-02-26 International Business Machines Corporation Monitoring method of the remotely accessible resources to provide the persistent and consistent resource states
US20040123183A1 (en) * 2002-12-23 2004-06-24 Ashutosh Tripathi Method and apparatus for recovering from a failure in a distributed event notification system
US7137040B2 (en) * 2003-02-12 2006-11-14 International Business Machines Corporation Scalable method of continuous monitoring the remotely accessible resources against the node failures for very large clusters

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006114040A (ja) * 2004-10-08 2006-04-27 Microsoft Corp コンピュータクラスタのノードのフェールオーバー範囲

Also Published As

Publication number Publication date
KR100658913B1 (ko) 2006-12-15
KR20040073273A (ko) 2004-08-19
US20060242454A1 (en) 2006-10-26
JP4721195B2 (ja) 2011-07-13
US20040158777A1 (en) 2004-08-12
JP2008210412A (ja) 2008-09-11
US7401265B2 (en) 2008-07-15
US20080313333A1 (en) 2008-12-18
US20070277058A1 (en) 2007-11-29
US7137040B2 (en) 2006-11-14
US7296191B2 (en) 2007-11-13
US7814373B2 (en) 2010-10-12

Similar Documents

Publication Publication Date Title
JP4721195B2 (ja) マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法
CA2467813C (en) Real composite objects for providing high availability of resources on networked systems
US6847993B1 (en) Method, system and program products for managing cluster configurations
JP3707728B2 (ja) コンピューティング環境のクラスタを自動的に構成するための方法、システム、およびプログラム製品
US6801937B1 (en) Method, system and program products for defining nodes to a cluster
US7185076B1 (en) Method, system and program products for managing a clustered computing environment
US7103664B1 (en) Method, system and program products for ordering lists of service addresses to provide load balancing of a clustered environment
US7512668B2 (en) Message-oriented middleware server instance failover
WO2001093017A2 (en) Method, system and program products for controlling system traffic of a clustered computing environment
GB2368681A (en) Managing identifiers of components of a clustered environment
US8082344B2 (en) Transaction manager virtualization
JP2007503628A (ja) クラスタ化されたコンピューティングシステムにおける高速なアプリケーション通知
CN112860386A (zh) 分布式主从系统中节点的切换方法
US20040039816A1 (en) Monitoring method of the remotely accessible resources to provide the persistent and consistent resource states
Vieira et al. Treplica: ubiquitous replication
US7769844B2 (en) Peer protocol status query in clustered computer system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070222

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070227

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080226

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080526

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080529

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080819