JP2003030165A

JP2003030165A - 複数の連結したデータ処理ノードからなるネットワークでのノード状態を決定するための方法及び／又はノード活性を決定する方法

Info

Publication number: JP2003030165A
Application number: JP2002124292A
Authority: JP
Inventors: Chun-Shi Chang; チュン−シ・チャン; Felipe Knop; フェリペ・ノップ; Tseng-Hui Lin; テン−フィ・リン; Frank B Schmuck; フランク・ビー・シュムック
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-05-08
Filing date: 2002-04-25
Publication date: 2003-01-31
Anticipated expiration: 2022-04-25
Also published as: US7747756B2; US20080288645A1; JP2006146913A; JP4174057B2; US7412499B2; JP3818647B2; US7409453B2; US20020169861A1; US20080291837A1; US20060259619A1; US20050128960A1; US7120693B2

Abstract

(57)【要約】【課題】分散データ処理ネットワークでのノード「活
性」状態を決定するためのシステム及び方法を提供。【解決手段】分散ネットワーク・データ処理システム
においてノード及び／又はアダプタ活性の決定は、第２
のメッセージ・プロトコルによって補助された第１のメ
ッセージ・プロトコルを介して実行される。第２のメッ
セージ・プロトコルは、第１のメッセージ・婦吐露こる
よりも遅延、特に他のノード上で実行されるデーモンに
よって遭遇するメモリ阻害による遅延の影響を受けるこ
とが少ない。プロトコルの切り換えは、必要とする応答
の制御された猶予期間によって達成される。このメッセ
ージ・プロトコルの柔軟性は、ノードの追加（バース）
及びノードの削除（デス）の意図的なアクティビティを
制御するためのメカニズムとしての使用にも適してい
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、異なるプライオリ
ティ及び／又は異なる特性応答制限で、異なるレベルで
動作するメッセージ・プロトコルを用いることが可能な
分散データ処理システムにおけるアダプタ及びノード・
デスの決定方法に関する。本発明の重要な利点は、デー
モン阻害によって生ずる偽りの障害通知に対する優れた
障害許容力である。

【０００２】

【従来の技術】アダプタ及びノード活性の決定は、特定
のアプリケーション上で動作させるために一般に用いら
れる複数のクラスタにノードを分割することが可能であ
る任意の高度に利用可能な分散データ処理ネットワーク
の核心的事項である。高可用性サービスを提供するため
に、クラスタ・システムは、どのノード、ネットワー
ク、及びシステム内のネットワーク・アダプタが働いて
いるかを決定することができなければならない。そのよ
うな任意のコンポーネントにおける障害は、早く検出し
なければならず、結果として生ずる情報は、より高水準
なソフトウェア・サブシステムに伝えられ、もし可能で
あるならば、回復動作がクラスタ回復マネージャ及びア
プリケーション・レベル・ソフトウェアによって開始さ
れなければならない。

【０００３】ノード、ネットワーク、及びネットワーク
・アダプタ活性の決定は、しばしば分散システムの各ノ
ードで実行されるデーモン・プロセスの利用を介してな
される。デーモンは、分散プロトコルを実行し、システ
ムにおいて異なるネットワーク経路を通して強制される
活性メッセージを交換する。もし、そのような活性メッ
セージが所定の間隔内で受信されるならば、送信ノード
又はネットワーク・アダプタが他のものによって作動し
ていない（「デス」）と仮定される。

【０００４】この活性決定方法は、対応するデーモンに
対してリアル・タイム制約を課する。すなわち、もしデ
ーモンがいずれにせよ遅れるならば、このことは誤って
デスとして検出される上位ノードで終わるかもしれない
（「誤りダウン」イベント）。誤りダウン・イベント
は、不要で、しばしば高くつく、クラスタの動作を中断
させることができる回復手順に帰着する。

【０００５】しかし、基礎をなすオペレーティング・シ
ステムはめったにリアル・タイムとならないことから、
デーモンをこれらのリアル・タイム制約に従わせること
はしばしば決して取るに足らないことではない。リアル
・タイム・オペレーティング・システムはどんな状態下
でも有限の応答時間を保証することができる。

【０００６】システムの複数のノードのうちの一つにあ
る負荷が、現在のメモリの量を物理的メモリが大きく上
回ることを必要とするほどのものならば、重いページン
グが起こり始め、それは時折、ほとんど進行しないプロ
セスに至る。活性決定デーモンに関しては、これらのペ
ージング動作は、時宜を得た様式で活性メッセージの送
信を防止するために作用することができる。

【０００７】いくつかのオペレーション・システムは、
他のアプリケーションによって該システムのページを
「盗まれない」ようにするプロセスを可能とする基本命
令を提供するが、実際にはこの解決策は完璧ではない。
すなわち、全体のアドレス空間で働かない基本命令（例
えば、共有ライブラリと連携しない）又はオペレーティ
ング・システムそのもののいずれかがしばしばページ可
能である。

【０００８】メモリ枯渇の他に、他の原因はプロセスが
取るに足らない進行となるのを防ぐことが知られてお
り、すなわち高い割り込み率、システム内での任意のプ
ロセスの実行を阻止すること、ＣＰＵ利用を独占する優
先度の高いプロセスの存在である。

【０００９】プロセス阻害によって引き起こされるそれ
らの「誤りダウン」を防ぐために、異なるアプローチが
使用される。すなわち、以下のアプローチが挙げられ
る。（１）リモート・エンティティが「ダウン」を宣言する
前に失われた受信活性メッセージの数の閾値を増加させ
ること。（２）リアル・タイム・スケジューリング優先度及びペ
ージングを防ぐオペレーティング・システム基本命令を
用いることで、可能な限りリアル・タイムでデーモンを
行わせること。（３）活性メッセージを送信するためのコードをカーネ
ルに取り込むこと。

【００１０】しかし、上記（１）〜（３）のアプローチ
は、以下のような解決すべき課題を有する。すなわち、
上記（１）は、真の障害を検出するのに時間がかかると
いう欠点を有することで、そのため長時間にわたって障
害（真の）が生じている間、クラスタによって提供され
たエンド・ユーザ・サービスが利用不可能となる。

【００１１】上記（２）は、部分的に効果があるのみで
ある。オペレーティング・システムによって提供される
多数のリアル・タイム基本命令の使用を必要とするのみ
ならず、通信及びＩ／Ｏ等、知られている障害の原因を
避けるように注意深く設計することも必要である。それ
でも、オペレーティング・システムはプロセスが常に進
行することを約束することができないかもしれない。

【００１２】上記（３）は良好な結果をもたらすが、オ
ペレーティング・システム・カーネルにコードを導入す
る必要があることから、しばしば法外な開発費がかか
り、携帯性及び便利さを著しく損なう。このアプローチ
に伴う微妙な問題は、状態を検出するのに不適当な「カ
ーネル活性」を提供することしかできないということで
あり、カーネルを実行することができるが、ユーザ・プ
ログラムではない。そのような状態下では、ノードは役
に立たなくなり、該ノードがデスを宣言することが正し
い決断となる。

【００１３】

【発明が解決しようとする課題】本発明は、データ処理
ノードの接続ネットワークにおいて、「デス」であると
の宣言を該データ処理ノードが早すぎて、及び／又は誤
って行うことを防ぐメカニズムを提供する。

【００１４】

【課題を解決するための手段】具体的には、本発明の好
ましい実施形態によれば、連続した複数のデータ処理ノ
ードからなるネットワークにおいてノード及び／又はノ
ード／アダプタの状態を決定する方法が提供される。複
数のノードはグループとして存在し、好ましくは特定の
機能及び権限を持つグループ・リーダが設けられる（し
かし、ここで注意すべき点は、グループ・リーダの存在
は本発明の最も広い範囲内において本発明の作用にとっ
て必須なものではないことである）。周期的に、該グル
ープの各ノードは、状態メッセージをそのグループ内の
所定のノードに対して送る。このことは、ハート・ビー
ト又はハート・ビートを伝えるメッセージに言い換えら
れ、くだけた言い方をすれば「私は生きている」という
メッセージに当てはまる。もしそれらの複数のノードが
一つの環状トポロジで連結されているならば（ここでは
好ましいインプリメンテーションである）、各ノードは
そのハート・ビートを伝えるメッセージを上記環におい
て下流に位置する隣接ノードに対して送信する。送信さ
れたメッセージは、「私は生きている」（ハート・ビー
ト）メッセージに対する応答を与える目的で指定ノード
（又は非環状トポロジのノード）上で走るデーモン・プ
ログラムに向けられる。デーモンは、所定の一つのノー
ド又は所定の複数のノードに対してハート・ビート・メ
ッセージを転送することによって応答するものではな
い。むしろ、それ自身のハート・ビート・メッセージを
指定された受信者（又は非環状トポロジのノード相互接
続が用いられるイベント内の指定された受信者）に対し
て周期的に送る。しかし、好ましくはないが、ハート・
ビート・メッセージを転送することは、このサービスを
提供する代替方法を提供するものである。各ノードは、
周期的に、ハート・ビート信号が指定した送信ノードか
ら送られたかどうかを決定する。もしいくつかのハート
・ビート信号が予想通りに受信されなければ、送信ノー
ドにおけるメモリ制約条件の問題によってその伝達に責
任あるデーモンが遅れる。このデーモンの応答を遅らす
原因は数多くあり、ローカル・オペレーション・システ
ムによってノードで実行される他のアプリケーションが
より高い実行優先度を割り当てられる状態もそのような
原因の一つとして含まれる。このような遅延現象は、単
にメモリ制約条件の問題に限られているわけではない。
本発明のメカニズムが「有利な立場にたっている」こと
を保証するために、好ましくはそれが無条件に必須なも
のとなる前に、すなわち上記したように、他のアプロー
チがすでにノードの「デス」を宣言する前に、第２のメ
ッセージを設定する。この第２のメッセージは、非応答
ノードへ送られる。しかし、上記第２のメッセージはデ
ーモンには送られないが、むしろ同一のメモリ制約条件
問題を持たないメッセージ受信ノード上で実行されるプ
ログラムへ送られる。特に、第２のメッセージは、好ま
しくは優先度処理が利用可能であるオペレーティング・
システム・カーネル部分に向けられる。さらに具体的に
は、本発明の好ましし実施形態は、Ｕｎｉｘ(R)系オペ
レーティング・システムで用いられるような「ピング」
機能を用いる。

【００１５】本発明の別の実施形態にもとづいて、ノー
ドをグループに加えるプロセス、又はノード「デス」を
操作するプロセスもまた、この２段階のメッセージ送信
メカニズムが与えられる。このことは、メッセージ通信
での遅れ、特にローカル・メモリ制約問題で生ずる遅れ
が課されることなく、グループのトポロジ又は構造の修
飾が効率的な方法で変化させることができることを保証
する。特に、本発明は上記の「私は生きている」（I am
Alive: ＩＡＡ）メッセージと同様に処理される「コミ
ット準備」（Prepare to Commit: ＰＴＣ）メッセージ
も用いる。本発明で用いた概念を使用することで、生ず
る若干の遅れを減らす効果が得られ、その一方で主な利
点はその使用によってノードが早まって「デス」と宣告
されることを防ぐことである。

【００１６】したがって、本発明の目的は、分散データ
処理ネットワークでのノード「活性」状態を決定するた
めのシステム及び方法を提供することである。

【００１７】また、本発明の目的は、ノード状態、特に
ノードが生きていて機能しているかどうかを反映するメ
ッセージ処理要求で使用される阻害されたデーモンの問
題を避けることである。

【００１８】本発明のさらに別の目的は、ノードが早ま
って「デス」であると宣告される状態で生じたオーバヘ
ッド及びシステム処理における遅れを取り除くことを可
能とする。

【００１９】本発明のさらに別の目的は、ネットワーク
・グループに対するノードの追加を処理し、また不必要
な遅れなしにネットワーク・グループからのノード除去
を処理することである。

【００２０】本発明の別の目的は、リモート・ノードに
あるメモリ制約条件の問題によって生じたメッセージ応
答遅延を取り除くことである。

【００２１】本発明のさらに別の目的は、完全なネット
ワーク・システム利用を確実にすることであり、また所
望のノード全てによる完全なプロセス参加が欠けている
状態を避けることである。

【００２２】本発明のさらに別の目的は、ノード及び／
又はノード・アダプタのデスを検出し、グループ・メン
バーシップの適切な再構成を与えるメカニズムを提供す
ることである。

【００２３】最後に、ここでは限定されないが、メモリ
・ページング、メモリー割り当て、又は同様の遅延によ
って生ずる制約条件によっては妨げられないオペレーテ
ィング・システム・カーネル機能を利用することであ
る。

【００２４】本発明の種々の実施形態に合致する一連の
所望の目的をここで列挙したことは、本発明の最も普遍
的な実施形態、又はそのより特徴的な実施形態のいずれ
かで、個々に、又は集合的のいずれにおいても、それら
の目的のいずれか、又は全てが必須事項として存在する
ことを暗に意味又は示唆するものではない。

【００２５】本発明として見なされる主題は、発明の詳
細な説明の中で詳しく指摘し、また明細書の記述に加え
て特許請求の範囲において明瞭にクレームされている。
しかし、本発明は、さらなる目的とその利点と共に、構
造及び実施方法の両方に関して、添付図面と関連して以
下の記載を参照することで、最も良く理解されるだろ
う。

【００２６】

【発明の実施の形態】本発明にもとづくメカニズムは、
ストレス負荷のもとで、またプロセスが阻害される他の
条件のものでのデーモン阻害によって起こる「誤りダウ
ン」を防ぐために提供される。このメカニズムは、ダウ
ンしていると疑われるノード／アダプタへ送られるイン
ターネット制御メッセージ・プロトコル（ＩＣＭＰ）エ
コー要求メッセージを使用する。割り込みモードにある
カーネルによってそのようなメッセージが応答されるた
め、たとえピア・デーモンが一時的に阻害されたとして
も応答される。もし「デスであると疑われた」ノード又
はアダプタからＩＣＭＰエコー応答の応答受信がなされ
ると、ノード又はアダプタは、少なくとも初めのうちは
デスであることを宣言しない。

【００２７】本発明にもとづくメカニズムは、すでに説
明した従来の３通りのアプローチを上回る利点を提供す
る。上記した第１の代替アプローチとは異なり、真のア
ダプタ及び／又はノード障害の検出時間は増加しない。
本発明にもとづくメカニズムは、上記した第２の代替ア
プローチよりも有効である。なぜなら、オペレーション
・システム・カーネルは、ユーザ・レベル・プロセスの
実行を許可するよりも素早くＩＣＭＰエコー要求メッセ
ージに応答することができそうである。最後に、本発明
にもとづくメカニズムは、上記した第３の代替アプロー
チで行われるような書き込みカーネル・コードを必要と
するものではない。

【００２８】ここで提案するメカニズムは、ＩＢＭのリ
ライアブル・スケーラブル・クラスタ・テクノロジ（Ｒ
ＳＣＴ）インフラストラクチャの一部であるトポロジ・
サービス・サブシステムでのその使用のコンテキストの
中に導入される。トポロジ・サービスは、稼働している
複数のノードからなるセットを決定する役割を担うこと
から、システムの「活性層」を提供する。

【００２９】ハート・ビートプロトコルメカニズムをより良く説明するために、またそれがどの
ようにしてトポロジ・サービスで使用されるかをより良
く説明するために、ここでサブシステムのアダプタ・メ
ンバーシップ（「ハート・ビート」）プロトコルを詳細
に説明する。

【００３０】各ネットワークのアダプタの健全性及び連
結性をモニタするために、該ネットワークの全てのアダ
プタが「アダプタ・メンバーシップ・グループ」（ＡＭ
Ｇ）を形成することを試みる。ここで、ＡＭＯは、ネッ
トワーク内で互いに通信することができる全てのネット
ワーク・アダプタが含まれるグループである。ＡＭＧの
アダプタは、互いの「活性」をモニタする。ＡＭＧが形
成されると、全てのグループ・メンバは、独自にＡＭＧ
を識別する「ＡＭＧｉｄ」を受信する。故障したアダプ
タは、そのグループから追放され、パワー・アップされ
た新しいアダプタがグループへの参加を求められる。ど
ちらの場合も、新しいＡＭＧを有する新しいＡＭＯが形
成される。各ＡＭＧは、グループ・リーダ（ＧＬ）であ
る一つのメンバを有し、さらに全てのメンバはどのノー
ドがグループ・リーダであるかを知る。ここで注目すべ
き点は、一つのノードがいくつかのＡＭＧ（その複数の
ネットワーク・アダプタの各々に対応）に属していても
よいことである。

【００３１】各ネットワークで活きている複数のアダプ
タからなるセットを決定するために、アダプタ・メンバ
シップ・プロトコルはネットワークの各々で実行する。
このプロトコルのメッセージは、ＵＤ／ＩＰ（ユーザ・
データグラム・プロトコル／インターネット・プロトコ
ル）を用いて送信される。このプロトコルをインターネ
ット・プロトコルと呼ぶが、この語の用法はここではい
かなるインターネット接続の存在も意味するものではな
く、またどんな形ではあれインターネットに対する依存
性を意味するものではない。それは単にデータ処理ノー
ドの通信接続ネットワーク内で有用な通信プロトコルで
あり、該プロトコルは好都合に使用され、かつ十分に特
徴づけられたものである。

【００３２】活きているアダプタは、好ましくはバーチ
ャル環状トポロジにメンバが組織化されるＡＭＧを形成
する。すべてのグループ・メンバが活きていることを確
かめるために、各メンバは周期的に「ハート・ビート」
メッセージをその「下流の隣人」へ送信し、その「上流
の隣人」からの「ハート・ビート」メッセージをモニタ
する。「ハート・ビート」メッセージは、ここでは「私
は生きている」（ＡＹＡ）メッセージとも呼ばれる。デ
ス・プロトコル及び参加プロトコルは、アダプタ故障の
場合、又は新しいアダプタが機能的になり始めた時、そ
れぞれ実行される。そのようなプロトコルの目標は、保
証することである。メンバーシップ・グループは、各時
点で、互いに通信することができるネットワーク内のア
ダプタ（しかし、クラスタに属するものだけ）全て（及
びのみ）を含む。

【００３３】グループ・リーダに加えて、各グループは
「クラウン・プリンス」（バックアップ・グループ・リ
ーダ）を有する。「クラウン・プリンス」モデルの詳細
については米国特許第５，８０５，７８６号及び第５，
９２６，６１９号を参照せよ。グループ・リーダは、グ
ループ・プロトコルを調整する役割を担っている。一
方、クラウン・プリンスは、もしグループ・リーダであ
るアダプタが故障した場合に該グループ・リーダに取っ
て代わる役割を担う。グループ・リーダ及びクラウン・
プリンスの選択と環内でのアダプタの位置とがともに所
定のアダプタ優先度規則によって決定される。ここで、
所定のアダプタ優先度規則は、好ましくはアダプタのＩ
Ｐアドレスとなるように選択される。このアドレスは、
好都合に入手可能で、かつ独自の識別子を提供するもの
で、その特徴のすべてによってこの規則に対して高度に
適したものとなる。

【００３４】各ネットワークにおける全ての可能なアダ
プタからなるリストが構成ファイルに含まれる。この構
成ファイルは、開始時及び再構成時にノードの全てによ
って読み込まれる。

【００３５】参加プロトコル新しいメンバをグループに引きつけるために、各グルー
プのグループ・リーダは周期的に「プロクレーム」メッ
セージを、現在のところ該グループには属さないがアダ
プタ構成にあるアダプタへ送る。メッセージは、送信元
のＩＰアドレスよりも低いＩＰアドレスを有するアダプ
タへ送られる。注意すべき点は、ＩＰアドレスの使用が
「プロクレーム」メッセージを適切に向けるための好ま
しいメカニズムである一方で、任意の他の簡便な方法も
また適用可能である。すなわち、唯一必要なものは、グ
ループ・リーダを有する複数のノードからなる十分に定
義されたセットへの送信である。

【００３６】「プロクレーム」メッセージは、グループ
・リーダではない全てのアダプタによって無視される。
より高い優先度（より高いＩＰアドレス）ノードからの
「プロクレーム」メッセージを受信するグループ・リー
ダ・ノードは、そのグループに代わって「参加」メッセ
ージで応答する。メッセージは、「参加するグループ」
のメンバーシップ・リストを含む。

【００３７】ノード（例えばＧＬ１）は、別のノード
（例えばＧＬ２）から「参加」メッセージを受信する
と、参加しようとするグループ内の全てのメンバに加え
て今までのメンバを含む新たなグループの形成を試み
る。

【００３８】「コミット準備」メッセージを受信したノ
ードは、「ＰＴＣ＿ＡＣＫ」（コミット準備承認）メッ
セージによって応答する。「ＰＴＣ＿ＡＣＫ」メッセー
ジが受信されるノードの全てが新しいグループに含まれ
る。グループ・リーダ（ノードＧＬ１）は、新たに形成
されたグループのメンバに対して、グループ・メンバー
シップ・リスト全体を含んでいる「コミット」メッセー
ジを送信する。

【００３９】「コミット」メッセージを受信すること
で、新たなグループへの移行が記される。このメッセー
ジを受信した後に、グループ・メンバは該メンバの（た
ぶん新しい）下流側の隣り合うメンバへ「ハート・ビー
ト」メッセージの送信を開始し、また該メンバの上流側
の隣り合うメンバからの「ハート・ビート」メッセージ
のモニタリングを開始する。

【００４０】「コミット準備」メッセージ及び「コミッ
ト」メッセージは、それらのメッセージが受信されたこ
とを確認するための承認を必要とする。もし、何ら承認
が受信されなければ、再試行が限定された回数だけ行わ
れる。再試行が全回数行われた後、「コミット準備」メ
ッセージに対する応答の失敗は、対応するアダプタが新
たなグループに含まれていないことになる。もし、「Ｐ
ＴＣ＿ＡＣＫ」メッセージの再試行が全回数行われた後
に、デーモンが「コミット」メッセージの受信に失敗す
ると、ローカル・アダプタは新たなグループの形成をあ
きらめ、それ自身を単一のグループに再初期化する。こ
の現象は、グループ・リーダが「コミット準備」メッセ
ージの送信と「コミット」メッセージの送信との間の短
いウィンドウで失敗するという相対的にまれな事例での
み生ずるべきである。

【００４１】トポロジ・サービス・デーモンが初期化さ
れる場合、該デーモンが複数のアダプタの各々において
単一のアダプタ・グループ（ノードがグループ・リー
ダ）を形成する。そして、ノードは「プロクレーム」メ
ッセージの送信及び受信を開始する。

【００４２】デス・プロトコルアノード又はアダプタ・モニタは、その「上流側の隣
人」（グループ・メンバの中で次に最も高いＩＰアドレ
スを有するグループのアダプタ）をモニタする。所定の
時間内に「ハート・ビート」メッセージが受信されない
と、「上流側の隣人」は故障が生じたと想定する。そし
て、「デス」メッセージをグループ・リーダに送信し、
新たなグループの形成を求める。

【００４３】「デス」メッセージを受信すると、グルー
プ・リーダは、故障として検出されたアダプタをのぞく
現在のグループ内の全アダプタが含まれる新たなグルー
プの形成を試みる。グループ・リーダは、「コミット準
備」メッセージを上記新たなグループの全アダプタへ送
信する。続いて、プロトコルは、参加プロトコルに関し
てすでに記載したシーケンスと同じシーケンスに従う。

【００４４】「デス」メッセージを送信した後、デーモ
ンは「コミット準備」メッセージをまもなく受け取るこ
とを予測する。再試行が数多く繰り返されるが、「コミ
ット準備」メッセージが受信されなければ、グループ・
リーダ・アダプタ（又はその上位ノード）がデス状態で
あり、また「クラウン・プリンス」アダプタもまたデス
状態であるため、グループ・リーダはグループ・リーダ
シップを取ることができないと解釈される。この場合、
アダプタはそれ自身を単一のグループに再初期化すると
ともに「解消」メッセージを送信し、グループ・メンバ
全てが同様のことを行うように促す。このことによっ
て、グループの全メンバがグループ・リーダとクラウン
・プリンスメンバとが同時にデス状態となったことを知
る。

【００４５】基本メカニズムひとたびＡＭＧが形成されると、「上流側の隣人」によ
って送信された周期的な「ハート・ビート」メッセージ
をモニタする「下流側の隣人」によって、好ましくは
「ハート・ビート」メッセージが環状トポロジに送信さ
れる。なお、特許請求の範囲の１つ以上の請求項におい
て、「ハート・ビート」メッセージは「第１のメッセー
ジ」と呼ばれている。下流側の隣人は、その上流側の隣
人から最近「ハート・ビート」メッセージを受信したか
どうかを見るために、定期的にチェックを行う。もし、
最終チェックからメッセージの受信がなければ、「ハー
ト・ビート見落とし」カウンタがインクリメントされ
る。もし、ハート・ビート見落としカウンタが所定の閾
値Ｓ（「感度」）に達すると、精度の落ちるプロトコル
でリモート・アダプタがデス状態であると見なされ、そ
のデス状態が報告される。

【００４６】本発明の範囲及び精神の範囲内で、環状で
はない形態のトポロジを用いることも可能である。任意
の簡便なトポロジを使用することができる。しかし、環
状トポロジが好ましい。その理由は、環状トポロジがイ
ンプリメントする上で単純であるということ、またノー
ドの数を増やした時により優れたスケーラビリティを示
すということからである。他のトポロジは、ここで他の
どこかに記載されているように、構造的リンクの記述が
メンバ・リストの通信に伴ってグループのメンバ又は将
来のグループ・メンバにも伝えられることを必要とす
る。このことは、一般的に望ましくない複雑化をもたら
すが、それは、それでもなお、現在の発明が基礎をなす
大まかな原則からそれることなくさらに可能である。

【００４７】しかし、カウンタが値Ｘ（Ｂよりも小さ
い）に達すると、モニタされているアダプタに対してＩ
ＣＭＰ（インターネット制御メッセージ・プロトコル）
エコー要求パケットが送られるように、プロトコルが変
更される。もし、リモート・ノード及びアダプタが活き
ているならば、たとえピア・デーモンが阻害されていた
としても、宛先ＯＳカーネル、及び最も好ましくはその
割り込みハンドラがＩＣＭＰ「エコー応答」メッセージ
によって応答する。カウンタの値がＸ＋１等に達する
と、その手順が繰り返される。もしモニタしたアダプタ
からＩＣＭＰ「エコー応答」メッセージが受信される
と、このことが「モニタしているアダプタがおそらく機
能してはいるが、対応するデーモンは阻害又はデス状態
のいずれかであるかもしれない」と解釈される。もう一
方の側で何が起きているかを知る直接的な方法がないこ
とから、猶予期間が設けられる。値Ｓよりも著しく大き
い値Ｓ１に達するまで、ハート・ビート見落としカウン
タがＳを過ぎることを許可される。その時点で、もしモ
ニタしたアダプタから「ハート・ビート」メッセージが
受信されなければ、アダプタは最終的にデス状態である
ことを宣言する。

【００４８】もし「ハート・ビート」メッセージがカウ
ントＸとＳｉとの間のある点で再び受信されると、猶予
期間が不活性化され、カウンタはゼロにリセットされ
る。猶予期間の目的は、メモリ枯渇又は何らかの他の要
因によって阻害されているリモート・デーモンを償うこ
とである。もし、リモート・アダプタ又はノードが実際
にデス状態であるならば、ＩＣＭＰ「エコー応答」パケ
ットが受信されなければならず、それによって猶予期間
の設定がなされない。その結果、正当な「アダプタがデ
ス状態となるイベント」が猶予期間によって遅れるとい
う概念があてはならない。そのような遅れが生ずる唯一
の機械は、対応するデーモンがデス状態になるか、もし
くは漠然と阻害された場合であり、そのような問題は、
過剰な負荷によってデーモンが一時的に阻害されるとい
うことよりも、比較的希である問題でなければならな
い。

【００４９】Ｓｉの値は、大きな負荷状態にあるシステ
ムでデーモンが阻害される「最も大きい適当な期間」を
占めるように選択される。

【００５０】Ｕｎｉｘ(R)システムの異なる「フレーバ
ーズ」上では、ＩＣＭＰメッセージの送受信は「生ソケ
ット」を開くプログラムが必要である。生ソケットの挙
動は、ローカル・アダプタによって受信されたＩＣＭＰ
パケットの全てに対して生ソケットを開く各プラグラム
が与えられるようなものである。これらのパケットを処
理するために、ＣＰＵリソースが著しく費やされ、その
多くが送信された「エコー」メッセージとは関係ないも
のである。この問題を軽減するために、猶予期間を適用
するかどうかを決定する間、「生ソケット」はただ開い
たままにする。もし受信された「ハート・ビート」が見
失われていなければ、又はもし猶予期間がすでに所定の
位置にあるならば、生ソケットが閉じられる。

【００５１】コミット準備（ＰＴＣ）メッセージの猶予
期間基本ハート・ビートメカニズムと同様に、グループの改
編もまたリアルタイム制約である。すなわち、もしノー
ドが時宜を得た方法で、すなわち「コミット準備＿ＡＣ
Ｋ」メッセージを待つことをグループ・リーダが諦める
までに、「コミット準備」パケットへ応答し損なうなら
ば、グループ・リーダによって対応するアダプタがデス
状態であると宣言される。したがって、「コミット準
備」メッセージを送信又は該メッセージに応答しながら
デーモンが阻害される場合にメカニズムが必要とされ
る。

【００５２】「コミット準備」メッセージに応答しなが
らデーモンが阻害されるノードを償うために、同様の
「ピング及び猶予期間」メカニズムが導入される。も
し、グループ・リーダが全ての再試行の後にでさえアダ
プタからの応答をいっさい得られないならば、グループ
・リーダはＩＣＭＰ（インターネット制御メッセージ・
プロトコル）エコー要求メッセージをアダプタへ送信す
る。もし、「エコー応答」メッセージが受信されるなら
ば、グループ・リーダは、リモート・デーモンが阻害さ
れていると推測し、そのための猶予期間を設定する。し
かし、このメカニズムは単独で問題を提示する。すなわ
ち、「コミット」メッセージを待っている間に他のアダ
プタの全て（猶予期間については知らない）が「タイム
・アウト」し、新しいグループを諦める。この問題を打
ち消すために、他のアダプタも「ピング及び猶予期間」
メカニズムをグループ・リーダに適用する。グループ・
リーダがＩＣＭＰエコー要求メッセージに応答し、かつ
猶予期間が切れていない限り、他のアダプタは「コミッ
ト」メッセージを待ち続ける。注目すべきことは、非グ
ループ・リーダ・ノードによってインプリメントされた
猶予期間もまた、グループ・リーダ・ノードにあるデー
モンがそれ自身を阻害し始める状態を取り扱うというこ
とである。異なるノードが異なる再試行で「コミット準
備」命令を受け取る「コミット準備」再試行を非グルー
プ・リーダ・ノードによって適用された猶予期間が考慮
に入れる。

【００５３】「デス」メッセージを送信するデーモンに
ついても上記と同じ方法が用いられる。「コミット準
備」メッセージが到着するにはあまりにも長い（グルー
プ・リーダ・ノードにあるデーモンが阻害されたためと
考えられる）場合に、ＩＣＭＰエコー要求メッセージが
グループ・リーダに送られる。

【００５４】上記メカニズムが成し遂げるものは、たと
えプロトコルが実行されている間にデーモンが阻害され
たとしても、新しいプロトコル・メッセージを生成する
ことなく新しいＡＭＯにアダプタを含む能力である。

【００５５】どれが本発明の構造、環境、及び動作の完
全な説明を提供するかを示すために注意が向けられる。
特に、図１が発明で使用される環境を理解する上で有用
である。環境は、ネットワーク・アダプタ１１０〜１１
７によって相互接続（図に示すように、一般に多経路を
介して）複数のデータ処理ノード１００、１０１、１０
２、１０３から構成される。本発明が適用される典型的
なノードは、もともとＲＳ／６０００ＳＰ（スケーラブ
ル・パラレル用）と呼ばれるＩＢＭのｐシリーズのサー
バ製品である。一般に、各ノードは少なくとも１つの中
央処理装置、共用メモリ、ローカル・メモリ・キャッシ
ュ、及び内蔵の不揮発性記憶装置（一般にハード・ディ
スクＤＡＳＤユニット）との接続を含む。各ノードの典
型的なオペレーティング・システムは、本発明の譲受人
によって供給されるようなＡＩＸオペレーティング・シ
ステムである。各ノードは、ＡＩＸであってもなくても
よいがそれ自身のオペレーティング・システムで走るこ
とができる。ＡＩＸは、ＵＮＩＸ(R)に類似したプログ
ラムであり、オペレーティング・システムのカーネル
（又はコア）に向けられ、かつ基本的な「あなたはそこ
にいますか」のようなサービスを提供するために基本的
には低いレベルで動作する「ピング」等の命令に基づい
たエコー要求をサポートする。明らかに、ノードに障害
がある場合、又は複数のネットワーク・アダプタの一つ
に障害がある場合でも、通信上の問題が生ずる。

【００５６】ネットワーク・アダプタのうちの障害また
は障害さえあるとき、コミュニケーション問題は起こる
ことができる。図２は、２つのノード・グループ、すな
わち一方のグループはノード２００、２０１、及び２０
２によって構成され、他方のグループはノード３００、
３０１、及び３０２によって構成される）が存在する場
合について説明する。ノード２００及び３００は、それ
ぞれのグループのグループ・リーダである。グループ・
リーダ＃１（ノード２００）から「プロクレーム」メッ
セージが右端に示したグループに送られる。このメッセ
ージは、それ自身の現在のグループ内にあるノードに送
られる必要はない。それは、ネットワーク内の全ての既
知のノードへ送信される。しかし、そのようなメッセー
ジは、グループ・リーダによってのみ応答されるため、
図２では「プロクレーム」メッセージの送信を実線及び
破線を用いて示している。グループ・リーダのみが「プ
ロクレーム」メッセージに対して応答する。グループ・
リーダが既存のグループに参加を望む場合、該「プロク
レーム」メッセージを送信したグループ・リーダへの
「参加」メッセージの送信が応答となる。図２を参照せ
よ。グループ参加のためのプロトコルは、図４に示すよ
うに、関与する全てのノードに対して「コミット準備」
メッセージを送信することも含まれる。ＰＴＣ信号に対
する通常の応答は、ＰＴＣメッセージの受信を認めるメ
ッセージの送信、すなわち図４に示すように同一ノード
からのＰＴＣ＿ＡＣＫ信号の送信である。この後者の信
号の送信は、とりわけ図５に示されている。

【００５７】図６は、「コミット」オペレーションに
関するさらなる送信を処理するためにグループ・リーダ
２００から「メイア・ノード」２００への「コミット同
報通信」メッセージ送信を使用することについて説明す
るためのものである。メイア・ノードの概念は、グルー
プ・リーダからの通信負担の一部を軽減するために好ま
しくは使われる。このことは、とりわけ図７に示されて
いる。図７は、メイア・ノード２０２からグループ・リ
ーダ２００へ「コミット同報通信承認」メッセージを返
信することも示されている。また、図７は、「コミッ
ト」メッセージの送信プロトコルも示されている。特
に、「メイア」ノードの使用は、グループ・リーダ、特
に通信負担から負荷仕事を取り除く有用なメカニズムと
して用いられるように示されている。一般に、各サブネ
ット上に一つの「メイア」があり、またメイアはグルー
プ・リーダから特定の割り当てられたメッセージをその
サブネットへ中継する役割を担う。どれに対しても出力
される必要があるいくつかのメッセージに関して、グル
ープ・リーダは各サブユニットからメイア・ノードを選
択し、そのようなメイアに対してメッセージをポイント
・ツー・ポイントで送る。次に、各メイア・ノードは、
メッセージ同報通信又はポイント・ツー・ポイント（メ
ッセージの種類及びグループの大きさに応じて）をその
サブセット上の各アダプタに送信する。グループ・リー
ダからメイア及びメイアからサブセット・メッセージ
は、承認及び再試行の対象となる。もし、メイア・ノー
ドがメッセージの承認に失敗すると、グループ・リーダ
は失敗したメイアのサブセット上で新しいメイアを選択
してプロセスを繰り返す。いずれのものに対しても到達
する必要がある全てのメッセージがメイア・ノードを中
継として用いて送られはしない。例えば、「コミット準
備」（ＰＴＣ）メッセージは、「グループ・リーダ・ワ
ント・ツー・ビー」からポイント・ツー・ポイントで各
及び全ての潜在的グループ・メンバに対して送られる。
この種のメッセージ送信では、メイア・ノードは用いら
れない。

【００５８】ノードを加えるために確立されたプロトコ
ルの終わりで、グループ・リーダ２００は、新しいグル
ープにあるノードの全てを新しいトポロジに組織する。
図８に示すように、このトポロジは、上記した理由（特
に、簡潔性及びスケーラビリティ）により、好ましくは
環状トッポロジである。本発明の好ましい実施形態で
は、新しいグループ・リーダが最も高いＩＰアドレスを
持つノードとなるように選択される。しかし、プロセス
が他のものと重複しない限り、任意の他の簡便なメカニ
ズムもまたこの目的のために用いられてもよい。例え
ば、最も長い時間働いていたノードが選択されてもよ
い。また、注目すべき点は、ノードのデス状態もまた新
しいグループ・トポロジの形成を招くということであ
る。ノード及び／又はグループ負荷のための新しいトポ
ロジの構築とともに使用可能である同じメカニズムもま
たノード・デス状態のイベントで使用可能である。しか
し、ノード・デス状態の場合、リング・トポロジ状況
は、事実上、消滅したノードを単にバイパスする特に新
しいトポロジによって組み立てることが容易である。

【００５９】本発明が用いる基本的なオペレーション
は、上記したハート・ビートメカニズムである。これも
また図９、図１０、及び図１１でより詳細に示されてい
る。図９は、ハート・ビート・メッセージが環状トポロ
ジ・グループを順に回ることを示している。図１０は、
ノード２０１でノード又はアダプタの障害が生ずること
を示している。ハート・ビート・メッセージが周期的で
あり、かつ特定の時間に予測されることから、ノード３
００でのその存在が見失われる。このようなことが生じ
た場合、ノード「デス・メッセージ」がノード３００か
らグループ・リーダ２００へ送信される。そして、グル
ープ・リーダ２００は、消失したノード２０１をのぞく
新しいグループの形成を試みることによって応答する。
そうすることで、「コミット準備」（ＰＴＣ）メッセー
ジが先のグループに残るノードの全てに送られ、実際の
ところ、グループ・リーダであるノード２００に対する
ＰＴＣメッセージが含まれる。新たなグループ形成が上
記した方法で進行する。

【００６０】図１２は、ノード＃２からノード＃１での
ハート・ビート・メッセージの最初の受信を模式的に示
したものである。もし所定の数のそのようなメッセージ
が受信されなければ、ＩＣＭＰエコー要求メッセージが
ノード＃１からノード＃２へ送信される。そのようなエ
コー要求メッセージは、優先度操作が利用可能であるポ
ート及び／又はソフトウェアに向けられる。そのような
メッセージが一般に非常に単純に設計され、かつ受信側
（又は送信側でも）リソース又はプロセッサ時間を著し
く長くする必要がないことから、その優先度が提供され
る。そのようなメッセージは単純で、かつ可能な限り素
早く応答する。したがって、たとえメモリ制約条件問題
等によって、特定の予測されたメッセージがホルド・ア
ップされても、ＩＣＰＭ要求及びＩＣＭＰエコー応答は
素早く処理され、ノードのデス状態の早まった報告及び
誤った報告を防止できる。実際、ノードは「一時的な病
気」に被るだけである。

【００６１】図１３は、「短期間のノードの病気」では
なく、正真正銘のノード又はアダプタの障害が存在する
イベントでのハート・ビートとメッセージとの交換を示
す。特に、方法が特定の数の見失ったハート・ビート・
メッセージを許容することがわかる。特定の数のハート
・ビート・メッセージ（好ましくは２）が見失われた場
合、ＩＣＭＰエコー要求メッセージを送信するためにい
くつかの試みがなされる。もしそのような試みを所定の
回数（好ましくは２回）行った場合、ノード＃２はデス
を宣言する。

【００６２】図１４は、図１３と類似しているが、ノー
ドがほんとうに「デス」ではなく、短期間の問題にさら
されているだけである場合に生ずる本発明の利点を説明
する。そのような場合、疑わしいノードがＩＣＭＰエコ
ー要求メッセージを送られ、このメッセージに対する応
答が送信ノード（ここではノード＃１）へ送られる。こ
のことによって、ハート・ビート・メッセージの再設定
のための猶予期間の設定を可能とする。示した例では、
閾値はそのようなハート・ビート数が５から８までの範
囲である。ここで、短期間の病気は、ノード＃２上のデ
ーモンを阻害することによって、好ましくはメモリ制約
問題によって生ずる。しかし、同様に本発明が性能及び
安定性の恩恵を与える他の原因もあると思われる。

【００６３】図１５は、ハート・ビート・メッセージか
ら「コミット準備」（ＰＣＴ）メッセージ送信への上記
方法の拡張を説明する。この例では、かかわっているノ
ードが３つしかない（図示を簡単にするため）。すなわ
ち、ノード＃１、ノード＃２、及びノード＃３である。
シーケンスは、ノード＃１からの「コミット準備」メッ
セージの送信（他のノードの全てに対して）によって開
始する。また、このメッセージは、ＰＴＣメッセージへ
の応答が期待される時期を決定するためのメカニズムと
して「ＰＴＣ再試行タイマ」を開始させる。ノード＃３
からの承認メッセージの欠如によって（デス状態のノー
ド又はアダプタとは対照的に阻害されたデーモンによ
る）ノード＃３に第２のＰＴＣメッセージの送信が引き
起こされる。ＰＣＴ再試行＃１に対する応答の欠如によ
ってノード＃３に対する低いレベルでのＩＣＭＰエコー
要求の送信が引き起こされる。ＰＴＣメッセージに対す
る応答の欠如は、一時的なデーモン阻害によるのみであ
ることから、ノード＃１へ送信されたＩＣＭＰエコー応
答メッセージによって、ノード＃３は依然としてエコー
要求メッセージに対する応答が可能である。ノード＃１
でのＩＣＭＰエコー応答メッセージの受信は、ノード＃
３が一時的に阻害されただけであり、「デス」状態とな
ったわけではないことを意味している。このことによっ
て、ノード＃３でのデーモン阻害にもかかわらず、ＰＴ
Ｃメッセージの承認の時間を延ばすことが可能となる。
この例では、ＰＴＣメッセージはノード＃２及びノード
＃３に送られる。ノード＃２はＰＴＣ＿ＡＣＫ（承認）
メッセージによって応答する。ノード＃３から元のＰＴ
Ｃ＿ＡＣＫメッセージへの応答の欠如は、ノード＃３に
対するＩＣＭＰエコー要求メッセージの送信を引き起こ
す。上記したように、このメッセージは、単純で、より
いっそう直接的であり、さらにノード及びそのアダプタ
・ユニットが活きているか、さもなければビジー状態で
あるイベントにいて応答する可能性がよりいっそう高
い。このメッセージ交換が最初にノード＃１とノード＃
３との間で起きている間、一時的に、ノード＃２は元の
ＰＴＣメッセージを承認し、ノード＃１からの「コミッ
ト」メッセージを待つ。もし、ノード＃２が「コミッ
ト」メッセージを受信せず、その予定到着時間が過ぎた
場合、ノード＃２は問題があるとまた考え、好ましくは
ＩＣＭＰエコー要求メッセージをノード＃１へ送信す
る。図１５によれば、ノード＃２から送られたＩＣＭＰ
エコー要求メッセージに対する応答（すなわち、ＩＣＭ
Ｐエコー応答メッセージ）はノード＃１で受信されるこ
とがわかる。したがって、認識及び延長についての類似
のデフォルト初期設定によって、コミット・メッセージ
を受信するための通常の最終期限が実質的に上記と同様
の方法で延長される。このことは、すべてのノードが最
終的にコミット・メッセージを受信し、かつ応答するこ
とを保証する。

【００６４】上記のことから、上記した目的の全てが本
発明の１つ以上の実施形態において達成されることを理
解すべきである。また、ほとんどがその機能性に対して
の相対的に低い優先度のメッセージ送信に基づき、また
取って代わりうるメカニズムとして猶予期間と組み合わ
せてエコー要求メッセージを用いることで、より低い、
より高い優先度のメッセージ送信に反転することができ
るリモート・アダプタ及び／又はノード障害を検出する
ためのメカニズムが提供されることも理解すべきであ
る。特に、本発明は分散プロトコルの実行中に阻害され
たデーモンを処理するためのメカニズムを提供すること
がわかる。さらに、本発明は新たなメッセージをプロト
コルに導入する必要がないこともわかる。

【００６５】以上、本発明の特定の好ましい実施形態に
もとづいて本発明を詳細に説明してきたが、当業者によ
って多くの変更及び改良が加えられるかもしれない。し
かし、それらの変更及び改良は、特許請求の範囲によっ
て明らかなように、本発明の精神及び範囲内に含まれる
ことは言うまでもない。

【００６６】まとめとして、本発明の構成に関して以下
の事項を開示する。（１）複数の連結したデータ処理ノードからなるネット
ワークでのノード状態を決定するための方法であって、
周期的に、前記少なくとも１つの他のノード上で実行さ
れるデーモン・プログラムに向けて、前記ネットワーク
内の前記ノードの１つから少なくとも１つの他のノード
へ第１のメッセージを送信するステップと、送信された
所定数の第１のメッセージが受信されていないことを前
記少なくとも１つの他のノードで決定するステップと、
前記デーモンよりも応答の遅れが生じにくい前記ノード
の１つで実行される他のプログラムに向けられた第２の
メッセージを、前記少なくとも１つの他のノードから前
記ノードの１つへ送信するステップと、を有することを
特徴とする方法。（２）前記他のプログラムは、潜在的に障害が起こった
ノード上で実行されるオペレーティング・システム・カ
ーネルの一部分であることを特徴とする上記（１）に記
載の方法。（３）前記デーモンは、前記ノードの１つ内でのメモリ
割り当て制約によって前記第１の所定の時間内で応答す
ることが妨げられていることを特徴とする上記（１）に
記載の方法。（４）前記デーモンは、前記ノードの１つ内でのプログ
ラム優先度制約によって前記第１の所定の時間内で応答
することが妨げられていることを特徴とする上記（１）
に記載の方法。（５）前記第２のメッセージに対する応答がない場合、
前記ノードの１つがデス状態であることを報告するステ
ップをさらに有することを特徴とする上記（１）に記載
の方法。（６）前記特定の数は、２であることを特徴とする上記
（２）に記載の方法。（７）前記第２のメッセージに対する応答がない場合、
前記第１のメッセージの応答するための猶予期間を設定
するステップをさらに有することを特徴とする上記
（１）に記載の方法。（８）前記猶予期間の終わりで前記第１のメッセージの
続いて起こる送信に対する応答がない場合、前記少なく
とも１つのノードはデス状態であることを報告するステ
ップをさらに有することを特徴とする上記（７）に記載
の方法。（９）連結データ処理ネットワーク内の複数のノードか
らなるグループに対して新しいメンバを加えるための方
法であって、現在のところ前記グループの一部ではない
前記ネットワーク構成の選択ノードに対して、第１のグ
ループ・リーダ・ノードからプロクレーム・メッセージ
を周期的に送信するステップと、前記第１のグループ・
リーダ・ノードからの前記プロクレーム・メッセージに
対する応答を、低いネットワーク・アドレスを持つ他の
グループのグループ・リーダから、任意の参加している
グループのメンバシップ・リストを含む参加メッセージ
によって行うステップと、前記参加しているグループの
いずれかにある前記ノードに対してコミット準備メッセ
ージを送信するステップと、前記第１のグループ・リー
ダ・ノードで、少なくとも１つのノードから、前記コミ
ット準備メッセージの承認を受信するステップと、更新
されたメンバーシップ・リストとともにコミット・メッ
セージを前記更新されたリスト上の全てのノードに対し
て送信するステップと、前記周期的な送信に続いて、所
定数の前記コミット準備メッセージが潜在的に障害が起
こったノードから受信されていないことを決定するステ
ップと、前記コミット準備メッセージよりも遅延が生じ
にくい前記潜在的に障害がおきるノード上で実行される
他のプログラムに対して向けられるエコー要求メッセー
ジを前記潜在的に障害がおきるノードに対して送信する
ステップと、を有することを特徴とする方法。（１０）前記他のプログラムは、前記潜在的に障害が起
こったノード上で実行されるオペレーティング・システ
ム・カーネルの一部であることを特徴とする上記（９）
の方法。（１１）前記潜在的に障害が起こったノードは、前記潜
在的に障害が起こったノード内のメモリ割り当て制約に
よる前記第１の特定時間内で応答することが妨げられる
ことを特徴とする上記（９）の方法。（１２）前記潜在的に障害が起こったノードは、前記潜
在的に障害が起こったノード内のプログラム優先度制約
による前記第１の特定時間内で応答することが妨げられ
ることを特徴とする上記（９）の方法。（１３）前記エコー要求メッセージに対する応答がない
場合に前記潜在的に障害が起こったノードがデス状態で
あることを報告するステップをさらに有することを特徴
とする上記（９）に記載の方法。（１４）前記エコー要求メッセージが送信される前に応
答なしで、前記プロクレーム・メッセージが３回送信さ
れることを特徴とする上記（９）に記載の方法。（１５）前記エコー要求メッセージに対する応答を受信
した場合に前記コミット準備メッセージに対する応答の
猶予期間を設定するステップをさらに有することを特徴
とする上記（９）の方法。（１６）前記猶予期間の終わりに前記コミット準備メッ
セージに対する応答がない場合に、前記潜在的に障害が
起こったノードがデス状態となっていることを報告する
ステップをさらに有することを特徴とする上記（１４）
に記載の方法。（１７）データ処理のための装置であって、複数のデー
タ処理ノードからなるグループへの前記ノードの相互接
続を制御するための各ノードにおけるプログラムによる
前記ノードを一緒に制御のためのオペレーティング・シ
ステムを有する前記ノードからなる接続ネットワーク
と、前記ネットワークの少なくとも１つの他のノードに
対して、前記少なくとも１つの他のノードで周期的に受
信されることが期待され、かつ前記ノードの１つ上で実
行されるデーモン・プログラムによって送信される第１
のメッセージを、前記ノードの１つから周期的に送信す
るための前記ノードの１つ内の第１のプログラム手段
と、所定数の前記周期内で前記第１のメッセージの受信
に失敗した後に、前記ノードの１つに対して第２のメッ
セージを送信するとともに、前記ノードの１つ上で実行
され、かつ前記第１のプログラムよりも応答の遅れが生
じにくい他のプログラムに向けられた前記少なくとも１
つの他のノード内の第２のプログラムと、を有すること
を特徴とする方法。（１８）複数のデータ処理ノードからなる相互接続ネッ
トワークで使用されるプログラム手段を含む機械可読媒
体内又は該機械可読媒体上に格納されたコンピュータ・
プログラム製品であって、前記プログラム手段は、周期
的に、前記少なくとも１つの他のノード上で実行される
デーモン・プログラムに向けて、前記ネットワーク内の
前記ノードの１つから少なくとも１つの他のノードへ第
１のメッセージを送信すること、送信された所定数の第
１のメッセージが受信されていないことを前記少なくと
も１つの他のノードで決定すること、前記デーモンより
も応答の遅れが生じにくい前記ノードの１つで実行され
る他のプログラムに向けられた第２のメッセージを、前
記少なくとも１つの他のノードから前記ノードの１つへ
送信すること、に対して作用することを特徴とするコン
ピュータ・プログラム製品。

【図面の簡単な説明】

【図１】本発明が適用される環境、すなわち複数のデー
タ処理ノードからなる相互通信ネットワーク内の環境を
説明するためのブロック図である。

【図２】「プロクレーム」メッセージの送信で使用され
たノードの範囲を説明する信号フロー図である。

【図３】図２に類似した図であって、特に、「プロクレ
ーム」メッセージに対する「参加」応答に関係したノー
ドを説明するための信号フロー図である。

【図４】図２及び図３に類似した図あって、特に、新し
いノードをグループに参加させることに関係したプロト
コルの「コミット準備」（ＰＴＣ）メッセージの送信を
説明するための信号フロー図である。

【図５】図４に類似した図であって、特に、「コミット
準備」メッセージ送信の承認（ＰＴＣ＿ＡＣＫ）を説明
するための信号フロー図である。

【図６】「コミット」同報通信メッセージに関係してい
るノードを説明するための信号フロー図である。

【図７】図６に類似した図であって、特に、「コミッ
ト」メッセージの送信におけるノードの範囲を説明する
ための信号フロー図である。

【図８】複数のノードからなる新たなグループの形成に
続いて現れる環状接続を説明するためのノード・トポロ
ジ図である。

【図９】ノード・グループ内でのハート・ビート・メッ
セージの伝わる方向を説明するための信号フロー図であ
る。

【図１０】図９に類似した図であって、特に、ノード・
デスのイベントにおける「デス」メッセージ送信を説明
するための信号フロー図である。

【図１１】図９及び図１０に類似した図であって、特
に、「コミット準備」メッセージが送信されるノードの
範囲を説明するための信号フロー図である。

【図１２】より低いレベル及び／又はより高い優先度エ
コー要求メッセージが送られる前にいくつかのハート・
ビート・メッセージが見逃される概念を説明するための
時系列図である。

【図１３】ノード２のトポロジ・サービス・デーモンが
一時的に阻害されている状態でのメッセージ送信を説明
するためのイベント時系列図である。

【図１４】ノード２がデスとなった状態でのメッセージ
送信を説明するためのイベント時系列図である。

【図１５】「コミット準備」メッセージ及びそれに対応
する承認メッセージの送信を説明するためのイベント時
系列図である。

【符号の説明】

１００、１０１、１０２、１０３データ処理ノード１１０、１１１、１１２、１１３、１１４、１１５、１
１６、１１７ネットワーク・アダプタ２００ノード（グループ・リーダ）２０１、２０２ノード３００ノード（グループ・リーダ）３０１、３０２ノード

フロントページの続き (72)発明者チュン−シ・チャンアメリカ合衆国12603 ニューヨーク州、ポウケプシィ、サドル・ロック・ドライブ６ (72)発明者フェリペ・ノップアメリカ合衆国12603−6333 ニューヨーク州、ポウケプシィ、ラファイエット・コート９ (72)発明者テン−フィ・リンアメリカ合衆国12601 ニューヨーク州、ポウケプシィ、ハドソン・ハーバー・ドライブ 10 ＃イー (72)発明者フランク・ビー・シュムックアメリカ合衆国95008 カリフォリニア州キャンプベル、ユニオン・アヴェニュー 406−エーＦターム(参考） 5B045 BB28 BB42 GG01 JJ02 JJ07 JJ13 JJ48 5B089 GB01 GB02 KA12 MC07 MD02 ME17 5B098 AA10 GA01 GC16

Claims

【特許請求の範囲】

【請求項１】複数の連結したデータ処理ノードからなる
ネットワークでのノード状態を決定するための方法であ
って、周期的に、前記少なくとも１つの他のノード上で実行さ
れるデーモン・プログラムに向けて、前記ネットワーク
内の前記ノードの１つから少なくとも１つの他のノード
へ第１のメッセージを送信するステップと、送信された所定数の第１のメッセージが受信されていな
いことを前記少なくとも１つの他のノードで決定するス
テップと、前記デーモンよりも応答の遅れが生じにくい前記ノード
の１つで実行される他のプログラムに向けられた第２の
メッセージを、前記少なくとも１つの他のノードから前
記ノードの１つへ送信するステップと、を有することを特徴とする方法。
【請求項２】前記他のプログラムは、潜在的に障害が起
こったノード上で実行されるオペレーティング・システ
ム・カーネルの一部分であることを特徴とする請求項１
に記載の方法。
【請求項３】前記デーモンは、前記ノードの１つ内での
メモリ割り当て制約によって前記第１の所定の時間内で
応答することが妨げられていることを特徴とする請求項
１に記載の方法。
【請求項４】前記デーモンは、前記ノードの１つ内での
プログラム優先度制約によって前記第１の所定の時間内
で応答することが妨げられていることを特徴とする請求
項１に記載の方法。
【請求項５】前記第２のメッセージに対する応答がない
場合、前記ノードの１つがデス状態であることを報告す
るステップをさらに有することを特徴とする請求項１に
記載の方法。
【請求項６】前記特定の数は、２であることを特徴とす
る請求項２に記載の方法。
【請求項７】前記第２のメッセージに対する応答がない
場合、前記第１のメッセージの応答するための猶予期間
を設定するステップをさらに有することを特徴とする請
求項１に記載の方法。
【請求項８】前記猶予期間の終わりで前記第１のメッセ
ージの続いて起こる送信に対する応答がない場合、前記
少なくとも１つのノードはデス状態であることを報告す
るステップをさらに有することを特徴とする請求項７に
記載の方法。
【請求項９】連結データ処理ネットワーク内の複数のノ
ードからなるグループに対して新しいメンバを加えるた
めの方法であって、現在のところ前記グループの一部ではない前記ネットワ
ーク構成の選択ノードに対して、第１のグループ・リー
ダ・ノードからプロクレーム・メッセージを周期的に送
信するステップと、前記第１のグループ・リーダ・ノードからの前記プロク
レーム・メッセージに対する応答を、低いネットワーク
・アドレスを持つ他のグループのグループ・リーダか
ら、任意の参加しているグループのメンバシップ・リス
トを含む参加メッセージによって行うステップと、前記参加しているグループのいずれかにある前記ノード
に対してコミット準備メッセージを送信するステップ
と、前記第１のグループ・リーダ・ノードで、少なくとも１
つのノードから、前記コミット準備メッセージの承認を
受信するステップと、更新されたメンバーシップ・リストとともにコミット・
メッセージを前記更新されたリスト上の全てのノードに
対して送信するステップと、前記周期的な送信に続いて、所定数の前記コミット準備
メッセージが潜在的に障害が起こったノードから受信さ
れていないことを決定するステップと、前記コミット準備メッセージよりも遅延が生じにくい前
記潜在的に障害がおきるノード上で実行される他のプロ
グラムに対して向けられるエコー要求メッセージを前記
潜在的に障害がおきるノードに対して送信するステップ
と、を有することを特徴とする方法。
【請求項１０】前記他のプログラムは、前記潜在的に障
害が起こったノード上で実行されるオペレーティング・
システム・カーネルの一部であることを特徴とする請求
項９の方法。
【請求項１１】前記潜在的に障害が起こったノードは、
前記潜在的に障害が起こったノード内のメモリ割り当て
制約による前記第１の特定時間内で応答することが妨げ
られることを特徴とする請求項９の方法。
【請求項１２】前記潜在的に障害が起こったノードは、
前記潜在的に障害が起こったノード内のプログラム優先
度制約による前記第１の特定時間内で応答することが妨
げられることを特徴とする請求項９の方法。
【請求項１３】前記エコー要求メッセージに対する応答
がない場合に前記潜在的に障害が起こったノードがデス
状態であることを報告するステップをさらに有すること
を特徴とする請求項９に記載の方法。
【請求項１４】前記エコー要求メッセージが送信される
前に応答なしで、前記プロクレーム・メッセージが３回
送信されることを特徴とする請求項９に記載の方法。
【請求項１５】前記エコー要求メッセージに対する応答
を受信した場合に前記コミット準備メッセージに対する
応答の猶予期間を設定するステップをさらに有すること
を特徴とする請求項９の方法。
【請求項１６】前記猶予期間の終わりに前記コミット準
備メッセージに対する応答がない場合に、前記潜在的に
障害が起こったノードがデス状態となっていることを報
告するステップをさらに有することを特徴とする請求項
１４に記載の方法。
【請求項１７】データ処理のための装置であって、複数のデータ処理ノードからなるグループへの前記ノー
ドの相互接続を制御するための各ノードにおけるプログ
ラムによる前記ノードを一緒に制御のためのオペレーテ
ィング・システムを有する前記ノードからなる接続ネッ
トワークと、前記ネットワークの少なくとも１つの他のノードに対し
て、前記少なくとも１つの他のノードで周期的に受信さ
れることが期待され、かつ前記ノードの１つ上で実行さ
れるデーモン・プログラムによって送信される第１のメ
ッセージを、前記ノードの１つから周期的に送信するた
めの前記ノードの１つ内の第１のプログラム手段と、所定数の前記周期内で前記第１のメッセージの受信に失
敗した後に、前記ノードの１つに対して第２のメッセー
ジを送信するとともに、前記ノードの１つ上で実行さ
れ、かつ前記第１のプログラムよりも応答の遅れが生じ
にくい他のプログラムに向けられた前記少なくとも１つ
の他のノード内の第２のプログラムと、を有することを特徴とする方法。
【請求項１８】複数のデータ処理ノードからなる相互接
続ネットワークで使用されるプログラム手段を含む機械
可読媒体内又は該機械可読媒体上に格納されたコンピュ
ータ・プログラム製品であって、前記プログラム手段は、周期的に、前記少なくとも１つの他のノード上で実行さ
れるデーモン・プログラムに向けて、前記ネットワーク
内の前記ノードの１つから少なくとも１つの他のノード
へ第１のメッセージを送信すること、送信された所定数の第１のメッセージが受信されていな
いことを前記少なくとも１つの他のノードで決定するこ
と、前記デーモンよりも応答の遅れが生じにくい前記ノード
の１つで実行される他のプログラムに向けられた第２の
メッセージを、前記少なくとも１つの他のノードから前
記ノードの１つへ送信すること、に対して作用することを特徴とするコンピュータ・プロ
グラム製品。