JP3870174B2 - 遠隔的にアクセス可能な資源を管理するための方法 - Google Patents
遠隔的にアクセス可能な資源を管理するための方法 Download PDFInfo
- Publication number
- JP3870174B2 JP3870174B2 JP2003184439A JP2003184439A JP3870174B2 JP 3870174 B2 JP3870174 B2 JP 3870174B2 JP 2003184439 A JP2003184439 A JP 2003184439A JP 2003184439 A JP2003184439 A JP 2003184439A JP 3870174 B2 JP3870174 B2 JP 3870174B2
- Authority
- JP
- Japan
- Prior art keywords
- resource
- proxy
- node
- resources
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/04—Network management architectures or arrangements
- H04L41/046—Network management architectures or arrangements comprising network management agents or mobile agents therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/288—Distributed intermediate devices, i.e. intermediate devices for interaction with other intermediate devices on the same level
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/2885—Hierarchically arranged intermediate devices, e.g. for hierarchical caching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/2895—Intermediate processing functionally located close to the data provider application, e.g. reverse proxies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
- H04L67/5682—Policies or rules for updating, deleting or replacing the stored data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/30—Definitions, standards or architectural aspects of layered protocol stacks
- H04L69/32—Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
- H04L69/322—Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
- H04L69/329—Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the application layer [OSI layer 7]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
- Multi Processors (AREA)
Description
【0002】
【従来の技術】
分散システムでは、多くの物理または論理エンティティは、ノードの全体にわたって配置されている。これらのエンティティが資源である場合、当該資源の使用は、他のノードによって、または他のノードから求められることがある。しかし、分散システムには、異なるノード上に存在している広範囲の種々の資源に関して、かなり不均質な構造を呈するという性質がある。システムの構成および使用における最大限の柔軟性を提供するために、しばしば遠隔ノードに対してアクセスがなされる。これらの遠隔ノードは、そこに存在する資源に対する所望のレベルのサポートを含んでもよいし、含まなくてもよい。それにもかかわらず、これらの資源の状態は、ノード上で実行しているプログラムのための重要な情報を含んでおり、これらのノードは、事実上、より拡張レベルの資源管理のための所望のインフラストラクチャのサポートを含んでいる。
【0003】
本明細書では、これらの遠隔エンティティは、「資源」と呼ばれる。本明細書では、この「資源」という用語は、広範囲のソフトウェアおよびハードウェア・エンティティを参照するように、非常に広い意味で使用される。資源の例には、「ノード14上のイーサネット(登録商標)デバイス eth0」、「顧客」と呼ばれるデータベース表、「インターネットプロトコル(IP)アドレス 9.117.7.21」などがある。各資源は、この資源の特性を定義する、少なくとも1つの属性を有している。さらに、属性の幾つかは、資源状態を通して反映されている。1例として、イーサネット・デバイスは、「name」(たとえば、eth0)、「OpState」(たとえば、Up、Down、Failed、Idle、Busy、Waiting、Off line )、その「address」(たとえば、9.117.7.21)などの属性を含んでいる。したがって、「name」、「OpState」および「address」は、資源属性と呼ばれる。資源属性の多くは、動的である。すなわち、これらの資源属性は、分散システム内の他のノードにはしばしば知られていない種々の理由で、資源状態の変化が頻繁に発生するという事実を反映している。たとえば、前述のイーサネット・デバイスの場合、「Opstate」は、動的属性として類別される。
【0004】
多数のこれらの遠隔資源が、分散システムの幾つかの他の構成要素(たとえば、システム管理ツールまたはエンド・ユーザ・アプリケーション)にそのサービスを提供することをしばしば必要とするので、これらの遠隔資源を監視および制御する必要がある。本明細書では、この機能を実施するシステムは、一般に、資源管理インフラストラクチャ(RMI)と呼ばれる。動作中、RMIは、前述の資源が(RMIを実行中の)同じノード内に含まれているか、または当該ノードに制約されているものと「仮定」する。しかし、ソフトウェア、ハードウェアまたはアーキテクチャ上の制限があるので、RMIの障害発生時に、この資源は、前述の同じノード上で使用可能であると仮定される。このことは、幾つかの分散システムが異なるタイプのノードを有し、これらのノードが前述の資源およびRMIを含んでいても、含んでいなくても、該当することになる。
【0005】
本発明は、「プロキシ資源マネージャ」(PxRM)および「プロキシ資源エージェント」(PxRA)の概念を通して、遠隔ノード上に存在する遠隔的にアクセス可能な資源を、監視および制御するための機構を提案する。プロキシ資源マネージャは、(資源管理サポートの適切なレベルを有する)RMIを実行中のローカル・ノード上に位置し、遠隔ノード上に提供されるプロキシ資源エージェントと通信する。
【0006】
前述の「プロキシ資源マネージャ/プロキシ資源エージェント」機構は、遠隔資源の制御および監視をサポートするが、この機構は、幾つかの制約を有する。すなわち、この機構は、それ自体によって、前述の動的属性(たとえば、資源の「up/down」状態など)の幾つかに関する、整合したレベルの情報を常に提供することはできない。たとえば、この欠陥がノード上で発生することがあるのは、当該ノード上のプロキシ資源マネージャが、ノード障害のために再始動される場合である。指示されたインフラストラクチャは、この資源マネージャが再始動した場合でさえ、資源の属性を、「障害あり(failed)」、「未知(unknown)」のいずれかとして報告することがある。というのは、この再始動したプロキシ資源マネージャは、以前の資源状態を「知る」ことはないばかりか、プロキシ資源マネージャの障害の間に、この資源が「up」または「down」のいずれかであったかも「知る」ことはないからである。さらに、指示されたインフラストラクチャの下で動作しているプロキシ資源マネージャは、このプロキシ資源マネージャおよびプロキシ資源エージェントが切断され且つその後に再接続される場合は、正しい属性値を提供できないことがある。したがって、本発明は、プロキシ資源マネージャの障害時または再始動時にさえ、永続的で且つ整合性のある、属性および状態情報を提供するための、より安全でより信頼できる方法を提供する。この目標は、プロキシ資源エージェント内で、「資源生成番号」を使用することにより、少なくとも部分的に達成することができる。このことは、以下の詳細な説明において、より完全に説明されている。
【0007】
本発明は、以下に例示した多数の利点を提供する。
(1)遠隔ノード上に位置する資源は、より信頼できる形で監視および制御されること。
(2)使用されている方法は、インフラストラクチャ・コードの再書き込み無しに、既存のRMIを依然として使用できること。
(3)本発明は、ノード障害が存在するか、プロキシ資源マネージャが1回以上再始動されるか、またはプロキシ資源マネージャとプロキシ資源エージェントとの間の接続に障害がある場合でさえ、資源属性を整合性のある態様で監視するための手段を提供すること。また、本発明の方法は、(PxRAを実行する)遠隔ノードに所要の作業を委託することによって、クラスタ・システム内の非常に多くの資源を扱うための手段を提供する。
【0008】
【発明が解決しようとする課題】
従って、本発明の目的は、分散データ処理システムにおいて、遠隔ノード上の資源を管理する方法を提供することである。
【0009】
本発明の他の目的は、多重ノードの分散データ処理システムを通して、資源状態の整合性のある標識を提供することである。
【0010】
本発明の他の目的は、遠隔ノード上に、複雑な資源管理インフラストラクチャおよびそのためのコードを提供するという必要性を、回避することである。
【0011】
本発明の他の目的は、分散データ処理システム内の計算資源およびその他の資源の信頼性と使用可能性を高めることである。
【0012】
本発明の他の目的は、分散データ処理システム内のノード障害および通信障害からの一層良好な回復を提供することである。
【0013】
本発明の他の目的は、分散データ処理システム内の遠隔ノード上に位置する資源の監視および制御を改善することである。
【0014】
本発明の他の目的は、遠隔資源を制御するために、プロキシ資源マネージャ/プロキシ資源エージェント機構の使用を促進すること、具体的には、分散システムの全体にわたって資源特性の整合性を保証するために、資源生成番号(または同様の標識)を使用することである。
【0015】
本発明の他の目的は、多様な資源を、できるだけ多くの時間に、システムの全体にわたって、できるだけ広範囲に利用できるようにする、分散データ処理システムにおいて使用するための制御機能および監視機能を提供することである。
【0016】
本発明の前記目的は、本発明の様々な実施形態によって達成されるが、このことは、前記目的のいずれかまたは全てが、本発明の最も一般的な実施形態またはその特定の実施形態において、本質的特徴として、個別にまたは集合的に存在することを暗示するものではない。
【0017】
【課題を解決するための手段】
本発明の好ましい実施形態によれば、多重ノード分散データ処理システムにおいて、遠隔的にアクセス可能な資源を管理するための方法が提供される。分散データ処理システムの第1のノード上で、プロキシ資源マネージャを実行する。第1のノードは、永続的記憶装置に結合され、この永続的記憶装置上には、順次資源生成ID(資源生成番号)を保持する表が維持され、この順次資源生成IDは遠隔的にアクセス可能なノード上にある資源と関連付けられ、その遠隔ノードは、資源管理インフラストラクチャを含んでいても、含んでいなくてもよい。プロキシ資源マネージャは、遠隔ノード上で実行中のプロキシ資源エージェントと通信する。このプロキシ資源エージェントは、その内部に、遠隔ノード上にある資源に関係する属性情報または状態情報をさらに含む、前述の表のローカル・バージョンを維持している。また、この後者の表は、資源のための状態標識とともに、資源に関連付けられた、順次資源生成IDのローカルに生成されたバージョンも含んでいる。永続的記憶装置内に記憶された順次資源生成IDは、第1のノードが(たとえばノード障害後に)再始動したときに、増分される。これに対し、遠隔的に記憶された順次資源生成IDのローカル・バージョンは、資源状態が変化するときに、増分される。この資源のための、永続的記憶装置内に記憶された順次資源生成IDとそのローカル・バージョンは、分散システム中のノード間の整合性を保証するために、所望時に、比較される。
【0018】
本発明の主題は、特許請求の範囲に明示されている。しかし、本発明の構成、実施方法、更なる目的および利点は、添付の図面に関係する以下の詳細な説明を参照することにより最もよく理解されよう。
【0019】
【発明の実施の形態】
図1は、本発明の構造および動作を示す。具体的には、ノード100は、資源管理インフラストラクチャ(RMI)190と呼ばれる、既存レベルを含んでいるのがわかる。ノード100上には、RMI190と通信する、プロキシ資源マネージャ(PxRM)150も含まれる。プロキシ資源マネージャ150は、表165を作成するとともに、この表165を(ノード100に直接的に結合されているか、または他のノードを介してノード100に間接的に結合されている)永続的記憶装置160上に維持する。表165は、資源生成番号(RGN1、RGN2・・・)と、複数の遠隔資源(Res1、Res2、・・・)との間の関連を提供する。これらの遠隔資源は、資源#1(Res1、参照番号201)、資源#2(Res2、参照番号202)、・・・、資源#M(ResM、参照番号209)として、遠隔ノード200上に存在する。遠隔ノード200は、ノード100上に提供されているRMI190のような資源管理機能を、含んでもよいし、含まなくてもよい。しかし、本発明の利点は、この機能が、ノード200などの遠隔ノードで必要ではないことである。図1は、図を見やすくし、理解しやすくする目的で、ローカル・ノード100および1つの遠隔ノード200のみを示すことに、留意されたい。実際には、通常は複数の遠隔ノードが存在し、これらの遠隔ノードは、所与の時間に、分散システムを形成するノードの組に接続されたり、または当該ノードの組から切り離すことができる。同様に、複数のローカル・ノードがあってもよい。資源の使用可能性および状態に関係する、ローカル・ノードと遠隔ノードとの間の通信は、プロキシ資源マネージャ150と遠隔ノード200上に常駐するプロキシ資源エージェント(PxRA)250との間で行われる。プロキシ資源エージェント250は、複数の資源を管理および制御する。これらの資源の性質は、その範囲がポートからファイル、デバイスにまで及んでいるという点で、非常に異なっているのが普通である。プロキシ資源エージェント250は、表265を作成および維持する。遠隔ノード200上の複数の資源Res1(参照番号201)〜ResM(参照番号209)の各々ごとに、プロキシ資源エージェント250は、表265のエントリを提供する。各資源エントリごとに、資源生成番号(RGN1、RGN2、・・・、RGNm)、または他の標識も提供される。この標識のためのより詳細な説明は、以下に記述する。さらに、表265内には、リストされている各資源ごとに、属性値または状態値も提供される。一方、表165は、資源生成番号(RGN)と資源との間の関連のみしか保持していない。プロキシ資源エージェント250は、表265が適時に更新されることを保証するために、遠隔資源と対話する。
【0020】
本発明の好ましい実施形態では、プロキシ資源マネージャ150は、資源管理のために、既存のソフトウェア・インフラストラクチャと対話するように設計されている。本発明の好ましい実施形態は、(前身はRS/6000シリーズと呼ばれていた)IBM pSeries データ処理システム上で、実現されている。これらのシステムは、RMC(Resource Management and Control)サブシステムを含む、RSCT(Reliable Scalable Cluster Technology)を含んでいる。RSCT/RMCインフラストラクチャは、1つのRMCサブシステムおよび1つ以上のノード上に位置する複数の資源マネージャから成る。RMCサブシステムは、システムまたはクラスタ内の諸資源を管理および操作するためのフレームワークを提供する。このフレームワークは、クラスタの任意のノード上のプロセスが、当該クラスタ内の全ての場所に位置する、1つ以上の資源に対して動作を実行することを可能にする。
【0021】
クライアント・プログラムは、実行されるべき動作を指定するとともに、RMCAPIと呼ばれるプログラミング・インタフェースを介して適用されなければならない資源を指定する。これは、前述の pSeries データ処理システム上に、既に存在している構成要素である。次いで、RMCサブシステムは、操作されるべき資源を含んでいる1つ以上のノードを決定し、要求された動作をこれらのノードへ伝送し、これらの資源に対して要求された動作を実行するために、これらのノード上の適切なコードを呼び出す。要求された動作を実行するために呼び出されるコードは、資源マネージャと呼ばれるプロセス内に含まれる。
【0022】
本明細書では、資源マネージャとは、資源タイプのアブストラクションを1つ以上の特定タイプの資源用のコールおよびコマンドにマップする、プロセスを意味する。資源マネージャは、その資源が存在するクラスタの全てのノード上で実行することができる。種々のノード上で実行中の資源管理プロセスのインスタンスは、前述のコールおよびコマンドのためのマッピングおよび翻訳を提供するために、協調して動作する。資源管理インフラストラクチャを含んでいないノード上に位置する遠隔資源を監視および制御するために、本発明は、(RMIサポートを有する)RMIノード100上に位置するプロキシ資源マネージャ(PxRM)150を使用する。そのピア・エージェントであるプロキシ資源エージェント(PxRA)250は、遠隔ノード200上に位置する。プロキシ資源マネージャ150は、資源マネージャであって、RMCサブシステムおよびプロキシ資源エージェント250の両方に接続される。プロキシ資源マネージャ150によって監視されるのは、プロキシ資源エージェント250から提供される資源表記である。プロキシ資源エージェント250は、幾つかの形式を取ることができる。たとえば、プロキシ資源エージェント250は、中間プロセスでもよく、サービス・ルーチンでもよい。その機能は、資源201〜209を追跡し、変化をプロキシ資源マネージャ150に報告することである。
【0023】
資源201〜209のための永続的で且つ整合性のある属性値を提供するために、プロキシ資源マネージャ150は、それ自体が再始動した後でさえ、プロキシ資源エージェント250の状態を追跡する。このような活動を処理するために、資源生成番号(RGN)と呼ばれる標識が導入される。遠隔ノード200上の各資源は、資源生成番号を有する。この資源生成番号は、適当な時点に変更され(以下を参照)、プロキシ資源マネージャ150が資源属性の現在の状態を「知る」ことができるように、プロキシ資源マネージャ150およびプロキシ資源エージェント250の両方によって追跡される。
【0024】
資源生成番号は、資源ごとに、時間的に一意のものである。換言すると、2つの資源生成番号は、それらが異なる時点に生成された場合は、互いに異なっている。この特性は、資源生成番号が変化したか否かを決定する際に、状態の曖昧さがないことを保証する。したがって、資源生成番号は、タイムスタンプのようにできるだけ簡単なものであることが好ましい。しかし、この資源生成番号は、一般に、そのために定義された順序関係を有することのできる、任意の標識を含んでもよいことに留意されたい。整数およびタイムスタンプ(日付およびタイムスタンプを含んでいる)は、このような標識のうち最も簡単で且 つ容易に実現できるものであることは明らかである。したがって、本明細書における「資源生成番号」という標識は、1つ以上の数表現の形式に制限されるように解釈すべきではないことに留意されたい。さらに、本明細書で資源生成番号が増分するように示してある場合、その増分量は必ずしも正の数である必要はない。すなわち、資源生成番号の順序付けまたは更新方向は、任意の特定方向に制限されない。順序および比較可能という性質は、資源生成番号にとって望ましい特性である。タイムスタンプは、好ましい実施形態において、単に使用されているに過ぎない。
【0025】
以下の記述は、所望のケースにおいて、本発明がどのように動作するかを示したものである。図1は、本発明の種々の構成要素間の関係および対話を示す、概略図である。以下の記述は、種々の動作状況および条件の下で、これらの構成要素の動作を説明する。
【0026】
プロキシ資源エージェントの開始(遠隔ノード)
各資源に対する資源生成番号は、資源がアクティブとなるときは常に、各資源ごとに生成される。可能であれば、各資源は、遠隔ノード200上に、それ自体の資源生成番号を維持するための責任を負うことが好ましい。さらに、(プロキシ資源エージェント250を含む)遠隔ノード200がブートするときには、新しい資源生成番号が生成される。どちらの場合でも、新しい資源生成番号が、遠隔ノード200上の全ての資源に対して割り当てられる。この資源生成番号は、プロキシ資源エージェント250の動作によって、他のノードへ提供される。このプロセスは、プロキシ資源マネージャ150が、遠隔ノード200の障害および遠隔ノード200における障害を検出できることを保証する。新しい資源生成番号が生成されるときは、プロキシ資源エージェント250は、表265内のエントリを維持することによって、この事実を追跡する。このため、プロキシ資源エージェント250は、資源を監視することが可能であり、それにより、プロキシ資源マネージャ150からプロキシ資源エージェント250に送られた、資源に関係する要求にサービスすることが可能になる。
【0027】
遠隔ノードにおける資源ダウン
もし、プロキシ資源エージェント250が依然として動作している間に、遠隔ノード200上の資源自体がダウンすれば、プロキシ資源エージェント250は、単にその OpState を変化させる。
【0028】
遠隔ノードにおける資源回復
前述の「プロキシ資源エージェントの開始」の項で説明したように、資源のために新しい資源生成番号が割り当てられる。このステップを実行する理由は、以下の通りである。もし、新しい資源生成番号が生成されず、そしてプロキシ資源マネージャ150がダウンしている間に、遠隔ノード200上の資源がダウンし、その後に回復すれば、遠隔ノード200上のこの資源生成番号は、プロキシ資源マネージャ150が回復した後でさえも、同じ番号のままに留まることになる。その場合、プロキシ資源マネージャ150は、この資源が稼働中であったと見なすことになろう。しかし、このことは正しくない。したがって、新しい資源生成番号を生成することになる。
【0029】
プロキシ資源エージェントのサービス(遠隔ノード)
もし、プロキシ資源エージェント250が、プロキシ資源マネージャ150から接続要求を受信すれば、プロキシ資源エージェント250は、最初にプロキシ資源マネージャ150に現在の資源生成番号を送信することによって応答し、次いで、資源の属性の現在値を送信する。そうすることによって、この両方を、同期のためにチェックできる。プロキシ資源マネージャ150とプロキシ資源エージェント250との間のセッション(接続)が確立された後、プロキシ資源エージェント250は、プロキシ資源マネージャ150に、変更された属性値のみを送信する。この接続が中断される場合は、プロキシ資源エージ ェント250は、プロキシ資源マネージャ150に変更情報を送信することを停止する。
【0030】
プロキシ資源マネージャの始動(ローカル・ノード)、またはプロキシ資源エージェントへのプロキシ資源マネージャの再接続
ノード100上のプロキシ資源マネージャ150が始動するとき、または遠隔ノード250上のプロキシ資源エージェント250に再接続するとき、プロキシ資源マネージャ150は、最初に、ローカルの永続的記憶装置160上に維持された表165から、資源生成番号を読み取る。この資源生成番号は、プロキシ資源エージェント250から通信された最後の時点で、プロキシ資源マネージャ150に知られた最後の資源生成番号である。もし、これが、プロキシ資源マネージャ150の最初の始動であれば、ローカルの資源生成番号は、ヌル(またはゼロ)に設定される。その後、プロキシ資源マネージャ150は、遠隔ノード200上のプロキシ資源エージェント250との接触を試みる。成功する場合、プロキシ資源マネージャ150は、プロキシ資源エージェント250から各資源ごとに現在の資源生成番号を受信し、2つの資源生成番号(ローカルの資源生成番号および新たに受信した資源生成番号)を比較する。もし、これらの資源生成番号が互いに異なっていれば、プロキシ資源エージェント250が再始動したことが決定されるか、またはプロキシ資源マネージャ150が非アクティブであった間に、遠隔ノード200上の資源がダウンしたかもしくはこの資源に障害が発生したことが決定され、従って、この関連する資源は、down_or_failed(または down_or_failed がサポートされていない場合は stale(失効))とマークされる。一方、これらの資源生成番号が同じ場合は、プロキシ資源エージェント250が稼働中であり、従って、資源の状態が依然として有効であると決定される。
【0031】
新しい資源生成番号を受信した後、この資源生成番号は、永続的記憶装置160に記憶される。もし、プロキシ資源マネージャ150とプロキシ資源エージェント250との接続が成功しなければ、プロキシ資源マネージャ150は、所定の期間、たとえば10秒の間、待機する。しかし、この期間の値は重要ではなく、実装に依存する。この期間の値が影響するのは、遠隔ノード200の準備ができておらず、しかも遠隔ノード200が再接続を再び試みるというケースにおける、一番最初の初期接続の後であるに過ぎない。この待機期間が3秒ほどの短いものであっても、重大ではない。前述の接続後、プロキシ資源マネージャ150は、遠隔ノード200から変更された資源属性値を受信し、ローカルの資源属性を更新する。これらの更新済みの資源属性は、RMIインフラストラクチャ190を介してアプリケーションへ報告される。もし、プロキシ資源マネージャ150が、プロキシ資源エージェント250からの切断を検出すれば、プロキシ資源マネージャ150は、前述のように、再接続を試みる。このステップは、どの資源属性も変更しないことに留意されたい。また、新しい資源生成番号が受信されたときは常に、この資源生成番号が永続的記憶装置160内に記憶されることに留意されたい。このようにして、ボトムの資源、プロキシ資源エージェント250、またはプロキシ資源マネージャ150のどの障害も、整合性のある属性値を提供することによって、適切に扱われることになる。
【0032】
図2は、本発明に特に有用な環境を示す。図2に示されている環境は、本質的には、図1に示すシステムを複数個並列に接続したものである。RMIサポートを有する複数のノードとともに、RMIサポートを有していない遠隔ノードがあるということは、プロキシ資源マネージャ150.1〜150.nおよびプロキシ資源エージェント250.1〜250.nの使用を通して、使用可能性が強化される複数の資源があることを意味する。図2に示されたシステムは、RMIサポート(190.1〜190.n)を有する多数のRMIノード(100.1〜100.n)と、各RMIノード(100.1〜100.n)に接続された1つの遠隔ノードを含んでいる。多数の特殊資源(計算ノード211.1〜219.n)は、遠隔ノード200.1〜200.nを介して、監視される。このようなデータ処理システムは、本発明に従って、各RMIノード上にプロキシ資源マネージャを配置するとともに、各遠隔ノード上にプロキシ資源エージェントを配置することにより、拡張される。プロキシ資源エージェントは、図示のように、計算ノード211.1〜219.nを含む、関連資源を維持する。各遠隔ノード200.1〜200.nは、それに接続された計算ノード211.1〜219.nを監視し、当該遠隔ノードに接続された資源および計算ノードのための、プロキシ資源エージェントとして働く。
【図面の簡単な説明】
【図1】 本発明が使用される環境とあわせて、本発明の構成要素の位置および構成要素間の対話を示す、概略図である。
【図2】 図1と同様であるが、本発明の有用性がより完全に実現される、より複雑で拡張された環境内で、本発明およびその構成要素の存在および使用をより具体的に示す、概略図である。
Claims (5)
- 多重ノード分散データ処理システムにおいて、遠隔的にアクセス可能な資源を管理するための方法であって、
(a)前記システムの第1のノード上でプロキシ資源マネージャを実行し、前記第1のノードに結合された永続的記憶装置内に、前記資源に関連する順次資源生成IDを記憶するステップと、
(b)前記システムの少なくとも1つの他のノード上でプロキシ資源エージェントを実行し、前記資源に関連する前記順次資源生成IDのローカル・バージョンを、前記資源についての状態とともに維持するステップと、
(c)前記資源の状態が変化するときに、前記プロキシ資源エージェントを介して、前記順次資源生成IDの前記ローカル・バージョンを増分するとともに、当該増分された順次資源生成IDのローカル・バージョンを前記プロキシ資源マネージャに送信するステップと、
(d)前記増分された順次資源生成IDのローカル・バージョンを受信するときに、前記プロキシ資源マネージャを介して、当該受信した順次資源生成IDのローカル・バージョンと前記永続的記憶装置から読み取られた前記順次資源生成IDを比較し、前記資源の前記状態の整合性を保証するステップと、
を含む方法。 - 前記資源が、ポート、データベース、実行可能プログラム、記憶装置およびファイルを含むグループから選択される、請求項1に記載の方法。
- 前記順次資源生成IDが、番号である、請求項1に記載の方法。
- 前記ステップ(a)〜(d)が、複数の資源のために実行される、請求項1に記載の方法。
- 他のノードが複数存在する、請求項1に記載の方法。
【0001】
【発明の属する技術分野】
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/227,254 US20040039816A1 (en) | 2002-08-23 | 2002-08-23 | Monitoring method of the remotely accessible resources to provide the persistent and consistent resource states |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004086879A JP2004086879A (ja) | 2004-03-18 |
JP3870174B2 true JP3870174B2 (ja) | 2007-01-17 |
Family
ID=31887428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003184439A Expired - Fee Related JP3870174B2 (ja) | 2002-08-23 | 2003-06-27 | 遠隔的にアクセス可能な資源を管理するための方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20040039816A1 (ja) |
JP (1) | JP3870174B2 (ja) |
TW (1) | TWI224912B (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7137040B2 (en) * | 2003-02-12 | 2006-11-14 | International Business Machines Corporation | Scalable method of continuous monitoring the remotely accessible resources against the node failures for very large clusters |
GB2412754B (en) * | 2004-03-30 | 2007-07-11 | Hewlett Packard Development Co | Provision of resource allocation information |
US7461102B2 (en) | 2004-12-09 | 2008-12-02 | International Business Machines Corporation | Method for performing scheduled backups of a backup node associated with a plurality of agent nodes |
US7730122B2 (en) * | 2004-12-09 | 2010-06-01 | International Business Machines Corporation | Authenticating a node requesting another node to perform work on behalf of yet another node |
WO2008109848A2 (en) | 2007-03-07 | 2008-09-12 | Bigfix, Inc. | Pseudo-agent |
US8495157B2 (en) * | 2007-03-07 | 2013-07-23 | International Business Machines Corporation | Method and apparatus for distributed policy-based management and computed relevance messaging with remote attributes |
JP2009122873A (ja) * | 2007-11-13 | 2009-06-04 | Hitachi Ltd | ストレージシステム間でのリモートコピーを管理する装置 |
US8966110B2 (en) | 2009-09-14 | 2015-02-24 | International Business Machines Corporation | Dynamic bandwidth throttling |
WO2023181424A1 (ja) * | 2022-03-25 | 2023-09-28 | 株式会社Nttドコモ | ネットワークノード及び通信方法 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4410889A (en) * | 1981-08-27 | 1983-10-18 | Burroughs Corporation | System and method for synchronizing variable-length messages in a local area network data communication system |
US5109486A (en) * | 1989-01-06 | 1992-04-28 | Motorola, Inc. | Distributed computer system with network and resource status monitoring |
US5748985A (en) * | 1993-06-15 | 1998-05-05 | Hitachi, Ltd. | Cache control method and cache controller |
EP0668564A1 (en) * | 1994-02-22 | 1995-08-23 | International Business Machines Corporation | Resource measurement facility in a multiple operating system complex |
US5956715A (en) * | 1994-12-13 | 1999-09-21 | Microsoft Corporation | Method and system for controlling user access to a resource in a networked computing environment |
US5996075A (en) * | 1995-11-02 | 1999-11-30 | Sun Microsystems, Inc. | Method and apparatus for reliable disk fencing in a multicomputer system |
US5961594A (en) * | 1996-09-26 | 1999-10-05 | International Business Machines Corporation | Remote node maintenance and management method and system in communication networks using multiprotocol agents |
US6151688A (en) * | 1997-02-21 | 2000-11-21 | Novell, Inc. | Resource management in a clustered computer system |
US6446125B1 (en) * | 1997-03-28 | 2002-09-03 | Honeywell International Inc. | Ripple scheduling for end-to-end global resource management |
US5999947A (en) * | 1997-05-27 | 1999-12-07 | Arkona, Llc | Distributing database differences corresponding to database change events made to a database table located on a server computer |
US6418461B1 (en) * | 1997-10-06 | 2002-07-09 | Mci Communications Corporation | Intelligent call switching node in an intelligent distributed network architecture |
US6038651A (en) * | 1998-03-23 | 2000-03-14 | International Business Machines Corporation | SMP clusters with remote resource managers for distributing work to other clusters while reducing bus traffic to a minimum |
US6185663B1 (en) * | 1998-06-15 | 2001-02-06 | Compaq Computer Corporation | Computer method and apparatus for file system block allocation with multiple redo |
US6970925B1 (en) * | 1999-02-03 | 2005-11-29 | William H. Gates, III | Method and system for property notification |
US6714948B1 (en) * | 1999-04-29 | 2004-03-30 | Charles Schwab & Co., Inc. | Method and system for rapidly generating identifiers for records of a database |
US6751634B1 (en) * | 1999-08-26 | 2004-06-15 | Microsoft Corporation | Method and system for detecting object inconsistency in a loosely consistent replicated directory service |
US6578069B1 (en) * | 1999-10-04 | 2003-06-10 | Microsoft Corporation | Method, data structure, and computer program product for identifying a network resource |
US6694335B1 (en) * | 1999-10-04 | 2004-02-17 | Microsoft Corporation | Method, computer readable medium, and system for monitoring the state of a collection of resources |
US6944642B1 (en) * | 1999-10-04 | 2005-09-13 | Microsoft Corporation | Systems and methods for detecting and resolving resource conflicts |
US20020049841A1 (en) * | 2000-03-03 | 2002-04-25 | Johnson Scott C | Systems and methods for providing differentiated service in information management environments |
US6799209B1 (en) * | 2000-05-25 | 2004-09-28 | Citrix Systems, Inc. | Activity monitor and resource manager in a network environment |
US6856999B2 (en) * | 2000-10-02 | 2005-02-15 | Microsoft Corporation | Synchronizing a store with write generations |
US6950820B2 (en) * | 2001-02-23 | 2005-09-27 | International Business Machines Corporation | Maintaining consistency of a global resource in a distributed peer process environment |
US6959373B2 (en) * | 2001-12-10 | 2005-10-25 | Incipient, Inc. | Dynamic and variable length extents |
US7007042B2 (en) * | 2002-03-28 | 2006-02-28 | Hewlett-Packard Development Company, L.P. | System and method for automatic site failover in a storage area network |
WO2003088142A2 (en) * | 2002-04-10 | 2003-10-23 | Instasolv, Inc. | Method and system for managing computer systems |
US20040123183A1 (en) * | 2002-12-23 | 2004-06-24 | Ashutosh Tripathi | Method and apparatus for recovering from a failure in a distributed event notification system |
US7137040B2 (en) * | 2003-02-12 | 2006-11-14 | International Business Machines Corporation | Scalable method of continuous monitoring the remotely accessible resources against the node failures for very large clusters |
-
2002
- 2002-08-23 US US10/227,254 patent/US20040039816A1/en not_active Abandoned
-
2003
- 2003-06-27 JP JP2003184439A patent/JP3870174B2/ja not_active Expired - Fee Related
- 2003-06-27 TW TW092117585A patent/TWI224912B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
TW200404434A (en) | 2004-03-16 |
US20040039816A1 (en) | 2004-02-26 |
JP2004086879A (ja) | 2004-03-18 |
TWI224912B (en) | 2004-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6314512B1 (en) | Automatic notification of connection or system failure in asynchronous multi-tiered system by monitoring connection status using connection objects | |
US7076691B1 (en) | Robust indication processing failure mode handling | |
JP4342441B2 (ja) | Opcサーバリダイレクションマネージャ | |
US7475127B2 (en) | Real composite objects for providing high availability of resources on networked systems | |
US8700760B2 (en) | Method and systems for redundant server automatic failover | |
US6868442B1 (en) | Methods and apparatus for processing administrative requests of a distributed network application executing in a clustered computing environment | |
US7739391B2 (en) | Gateway for wireless mobile clients | |
US20070130324A1 (en) | Method for detecting non-responsive applications in a TCP-based network | |
JP3870174B2 (ja) | 遠隔的にアクセス可能な資源を管理するための方法 | |
CN114764380A (zh) | 一种基于etcd的分布式集群控制方法和装置 | |
CN113783961A (zh) | 远程终端管理方法、装置、计算机设备及存储介质 | |
JP2003233512A (ja) | 保守機能付きクライアント監視システム及び監視サーバ及びプログラム並びにクライアント監視・保守方法 | |
EP2456163B1 (en) | Registering an internet protocol phone in a dual-link architecture | |
JP2012014674A (ja) | 仮想環境における故障復旧方法及びサーバ及びプログラム | |
US5583986A (en) | Apparatus for and method of duplex operation and management for signalling message exchange no. 1 system | |
CN112787868B (zh) | 一种信息同步的方法和装置 | |
JP2007141129A (ja) | システム切替方法、その計算機システム及びプログラム | |
JP2002149509A (ja) | ネットワーク管理システム | |
JP2003298624A (ja) | サービス制御アプリケーション実行システムにおける通信路確保方法 | |
JP2000112801A (ja) | データベースバックアップシステム及びバックアップ方法 | |
CN115426250A (zh) | 一种用于靶场指控的双机热备切换方法及装置 | |
CN112084074A (zh) | 远程连线控制方法 | |
JPH10334009A (ja) | クライアント障害検出方法 | |
JPH09160875A (ja) | マルチエージェント相互バックアップ方式 | |
JP2002077155A (ja) | 通信機器監視制御方法及びアソシエーションリフレッシュシステム装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060314 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060609 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060815 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061016 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091020 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101020 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |