JP2000105754A

JP2000105754A - 網内の分散アプリケ―ションの故障を検出し、故障を指定のリプリケ―ションスタイルに従って回復するための方法および装置

Info

Publication number: JP2000105754A
Application number: JP11204121A
Authority: JP
Inventors: Pi-Yu Chung; チュンピー−ユー; Yennun Huang; ファンエンナン; Deron Liang; リアンデロン; Chia-Yen Shih; シチア−イエン; Shalini Yajnik; ヤニクシャリニ
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1998-07-20
Filing date: 1999-07-19
Publication date: 2000-04-11
Also published as: US6266781B1; KR20000011835A; DE69907818D1; AU752844B2; EP0974903B1; EP0974903A2; DE69907818T2; CA2273523C; CA2273523A1; EP0974903A3; AU4020299A

Abstract

(57)【要約】（修正有）【課題】網内の分散アプリケーションの故障を検出
し、故障を指定のリプリケーションスタイルに従って回
復する。【解決手段】コンピュータ網内のコンピュータの上で
ランしているアプリケーションモジュール（Ａ）は、網
内の他の複数のコンピュータの上で動作できる一つある
いは複数のバックアップコピーを用いて故障保護され
る。故障保護を遂行するためには、アプリケーションモ
ジュールは、自身を、リプリカマネージャダイモンプロ
セス（１１２）に登録メッセージを送信することで登録
する。この登録メッセージは、そのアプリケーションモ
ジュールに対して用いられるべき特定のリプリケーショ
ン戦略および程度を指定し、その戦略に従って故障回復
状態が維持される。

Description

【発明の詳細な説明】

【０００１】

【関連する特許出願】本発明は、本発明と同時に出願さ
れた本発明と同時係属している合衆国特許出願“METHOD
AND APPARATUS FOR PROVIDING FAILURE DETECTION AND
RECOVERY WITH PREDETERMUNED DEGREE OF REPLICATION
FOR DISTRIBUTED APPLICATIONS IN ANETWORK（網内の
分散アプリケーションに関する故障を検出し、この故障
を指定されるリプリケーションの程度に従って回復する
ための方法および装置）",Serial No.
、とも関連するために、これについても参照された
い。

【０００２】

【発明の属する技術分野】本発明は、網の上でランして
いるあるアプリケーションモジュールの故障の検出およ
び故障からの回復に関する。

【０００３】

【従来の技術】網内のあるホストコンピュータの上でラ
ンしているあるアプリケーションモジュールが、それに
アクセスするクライアントに対して許容できる性能を提
供するためには、そのアプリケーションモジュールは、
高信頼度であり、かつ、アベイラブル（利用可能）であ
るという両方の要件が必要とされる。許容できる性能を
提供するためには、あるアプリケーションモジュールの
故障、あるいはそのアプリケーションモジュールをラン
しているホストコンピュータ全体の故障を検出し、検出
された故障から速やかに回復するためのスキームが必要
とされる。良く知られている方法として、網内の他の複
数のホストコンピュータの上にアプリケーションモジュ
ールを複製（リプリケーション）しておく方法がアプリ
ケーションモジュールの信頼度とアベイラビリィティの
両方を向上させるために用いられている。

【０００４】当分野においては、アプリケーションモジ
ュールのリプリカ（複製）、すなわち、バックアップコ
ピーを形成するため、あるいは、バックアップコピーの
備えの状態（state of preparedness）を定義するため
に用いることができる故障回復プロセスを動作および構
成するための３つの戦略が知られている。“コールドバ
ックアップ（cold backup ）”スタイルと呼ばれる第一
の戦略においては、あるアプリケーションモジュールの
一次コピーのみがあるホストコンピュータの上でランし
ており、他の複数のバックアップコピーは、網内の他の
複数のホストコンピュータの上でアイドルな状態に維持
される。このアプリケーションモジュールの一次コピー
の故障が検出されたとき、このアプリケーションモジュ
ールの一次コピーが同一のホストコンピュータの上で再
開されるか、あるいはそのアプリケーションモジュール
の他の複数のバックアップコピーの一つが、他の複数の
ホストコンピュータの一つの上で始動され、そのバック
アップコピーが新たな一次コピーとなる。チェックポイ
ンティング技法を用いて一次アプリケーションモジュー
ルの実行状態の“スナップショット（snapshots）”が
定期的に撮られ、この状態が安定な記憶媒体の中に格納
される。そして、一次アプリケーションモジュールの故
障が検出されると、故障した一次アプリケーションモジ
ュールの最後に格納された状態のチェックポイントデー
タが、バックアップアプリケーションモジュールに供給
され、バックアップアプリケーションモジュールは一次
アプリケーションモジュールの仕事を引き継ぎ、処理
を、故障した一次アプリケーションモジュールの最後に
格納された状態から継続する。

【０００５】第二の戦略は、“ウォームバックアップ
（warm backup）”スタイルとして知られている。コー
ルドバックアップスタイルの場合は、上述のように、あ
るアプリケーションモジュールのバックアップコピーが
一次アプリケーションモジュールがランしているとき同
時にランされることはないが、対照的に、ウォームバッ
クアップスタイルの場合は、一つあるいは複数のバック
アップアプリケーションモジュールが、一次アプリケー
ションモジュールと同時にランされる。ただし、これら
バックアップアプリケーションモジュールは、クライア
ントのリクエストを受信し、これに応答することは可能
ではなく、単に、一次アプリケーションモジュールから
の状態更新データを定期的に受信するのみである。いっ
たん一次アプリケーションモジュールの故障が検出され
ると、これら複数のバックアップアプリケーションモジ
ュールの一つが直ちに起動され、一次アプリケーション
モジュールの役割を引き継ぐ。ウォームバックアップス
タイルの場合は、初期化あるいは再開は必要とされず、
このため、故障した一次アプリケーションモジュールの
処理機能を引き継ぐために要求される時間はコールドバ
ックアップと比較して短くなる。

【０００６】第三の戦略は、“ホットバックアップ（ho
t backup ）”スタイルとして知られている。ホットバ
ックスタイルにおいては、あるアプリケーションモジュ
ールの２個あるいはそれ以上のコピーが同時にランされ
る（アクティブとなる）。ウォームバックアップの場合
と異なり、ランしている各コピーは、クライアントのリ
クエストを処理することができ、処理の状態は複数のコ
ピーの間で同期される。いったんこれら複数のランして
いるアプリケーションモジュールの一つの故障が検出さ
れると、他の複数のランしている任意のコピーが直ちに
故障したコピーの負荷を引き継ぎ、動作を継続すること
ができる。

【０００７】ある任意の時間において、たった一つの一
次アプリケーションモジュールがランしているコールド
バックアップ戦略の場合とは対照的に、ウォームおよび
ホットバックアップ戦略は、両方とも、長所として、網
内でランしている特定のアプリケーションモジュールの
一つ以上のコピーが同時に故障した場合にも、そのタイ
プのアプリケーションモジュールの複数のコピーが網の
上で同時にランしているために、これに耐えることがで
きる。

【０００８】これら３つのリプリケーション戦略は、お
のおの、異なるラン時間オーバヘッドおよび異なる回復
時間を持つ。網の上でランしているあるアプリケーショ
ンモジュールは、網内の同一のホストコンピュータの上
であるいは異なるホストコンピュータの上でランしてい
る別のアプリケーションモジュールとは、アベイラビリ
ィティ要求およびラン時間環境が異なるために、異なる
リプリケーション戦略を必要とする。分散型のアプリケ
ーションは、しばしば、異質なハードウエアおよびオペ
レーティングシステムプラットホームの上でランするた
めに、アプリケーションモジュールの信頼度およびアベ
イラビリィティを改善するための技法は、上述の全ての
可能なリプリケーションスキームを収容できることを要
求される。

【０００９】本発明の共同発明者であるY．Ｈｕａｎｇ
に、１９９８年５月５日付けで付与された合衆国特許第
５，７４８，８８２号には、耐故障コンピューティング
のために装置および方法が開示されているため、これに
関しても参照されたい。この特許によると、アプリケー
ションあるいはプロセスは、“ウォッチドッグ（watchd
og）”ダイモンに登録され、ウォッチドッグは、そのア
プリケーションあるいはプロセスを故障あるいはハング
アップ故障が発生しないか“見張る（watches）”。見
張られていたアプリケーションの故障あるいはハングア
ップ故障が検出されると、ウォッチドッグは、そのアプ
リケーションあるいはプロセスを再開する。網上にマル
チホスト分散システムが構築されている場合は、あるホ
ストコンピュータの所のウォッチドッグダイモンは、自
身のホストコンピュータの上の登録されたアプリケーシ
ョンあるいはプロセスばかりでなく、別のホストコンピ
ュータの上の複数のアプリケーションあるいはプロセス
も監視する。見張られていたホストコンピュータが故障
した場合、その故障したホストコンピュータを見張って
いたウォッチドッグダイモンは、見張られていた故障し
たノード（ホストコンピュータ）の上でランしていた登
録されたプロセスあるいはアプリケーションを、自身の
ノード（ホストコンピュータ）の上で再開する。単一ノ
ード（ホスト）、マルチノード（ホスト）いずれの実現
においても、故障したプロセスあるいはアプリケーショ
ンを再開するためのリプリケーション戦略としては、新
たなリプリカ（複製）プロセスあるいはアプリケーショ
ンが一次プロセスあるいはアプリケーションが故障した
とき初めて始動されるコールドバックアップスタイルが
用いられる。

【００１０】

【発明が解決しようとする課題】従来の技術による耐故
障方法論では、短所として、複数の異なるリプリケーシ
ョン戦略、例えば、上述のコールド、ウォーム、および
ホットバックアップスタイルの中から、網内の一つある
いは複数のマシーンの上でランしている複数の異なるア
プリケーションの個々に最も適したスタイルを選択する
ことは考慮されてない。さらに、従来の技術において
は、網内でランしているアプリケーションの数を、ウォ
ームおよびホットバックアップリプリケーションスタイ
ルに対して、一定数に維持するための方法論は存在しな
い。

【００１１】

【課題を解決するための手段】本発明によるホストコン
ピュータの上でランしているアプリケーションモジュー
ルの信頼度を向上させるための方法においては、最初
に、アプリケーションモジュールは、自身を、自身の故
障検出および回復プロセスに対して登録する。すると、
そのアプリケーションモジュールがその上でランしてい
るのと同一のホストコンピュータの上であるいはそのア
プリケーションモジュールのマシーンが接続されている
網に接続されている別のホストコンピュータの上でラン
しているリプリカマネージャダイモンプロセス（Replic
aMagager daemon process）が、そのアプリケーション
モジュールからその登録メッセージを受信する。この登
録メッセージは、登録したアプリケーションモジュール
と、それがその上でランしているホストマシーンを識別
することに加えて、その登録したアプリケーションモジ
ュールに対して用いられるべき特定のリプリケーション
戦略（コールド、ウォームあるいはホットバックアップ
スタイル）、およびリプリケーションの程度（複製の個
数）を指定する。リプリカマネージャは、登録されたリ
プリケーション戦略を用いて、そのアプリケーションモ
ジュールの各バックアップコピーの動作状態を設定し、
加えて、バックアップコピーの数を登録されたリプリケ
ーションの程度（複製の個数）に従って維持する。次
に、登録したアプリケーションモジュールと同一のホス
トコンピュータの上でランしているウォッチドッグダイ
モンプロセス（Watchdog daemon process）が、登録さ
れたアプリケーションモジュールを定期的に監視し、故
障を検出する。ウォッチドッグダイモンが監視されてい
るアプリケーションモジュールがクラッシュあるいはハ
ングアップしたことを検出すると、ウォッチドッグダイ
モンは、その故障をリプリカマネージャに報告し、リプ
リカマネージャは故障回復プロセスを遂行する。すなわ
ち、指定されるリプリケーションスタイルがウォームあ
るいはホットであり、故障したアプリケーションモジュ
ールが自身のホストコンピュータの上で再開できない場
合は、一次アプリケーションモジュールのランしている
複数のバックアップコピーの一つが、新たな一次アプリ
ケーションモジュールとして指定され、次に、そのアプ
リケーションモジュールのアイドルなコピーがその上に
常駐するホストコンピュータが、網を通じて、そのアイ
ドルなアプリケーションを実行するように指令され、こ
うして、指定されるリプリケーションの程度（複製の個
数）が維持され、そのアプリケーションモジュールが複
数の箇所で故障した場合に備えて保護される。リプリケ
ーションスタイルがコールドであり、故障したアプリケ
ーションが自身のホストコンピュータの上で再開できな
い場合は、そのアプリケーションモジュールのアイドル
なコピーがその上に常駐するホストコンピュータが、網
を通じて、そのアイドルなコピーを実行するように指令
される。あるホストコンピュータの故障あるいはあるホ
ストコンピュータの上でランしているウォッチドッグダ
イモンの故障を検出するためには、リプリカマネージャ
と同一のホストコンピュータの上でランするスーパーウ
ォッチドッグダイモンプロセス（SuperWatchdogdaemon
process）が各ホストコンピュータからの入力を検出す
る。スーパーウォッチドッグダイモンによって、ホスト
コンピュータの故障がそのホストコンピュータからの入
力の不在によって検出されると、リプリカマネージャに
アクセスすることで、そのホストコンピュータの上でラ
ンしていたアプリケーションモジュールが決定され、こ
れらアプリケーションモジュールが、個別に、リプリカ
マネージャ内に格納されている指定される方法に従って
故障保護される。

【００１２】

【発明の実施の形態】図１には、複数のホストコンピュ
ータが接続されている網１００が示される。網１００
は、イーサネット、ＡＴＭ網、あるいは他の任意のタイ
プのデータ網である得る。単に説明の目的のために、こ
こでは、網１００には、６個のホストコンピュータＨ
１、Ｈ２、Ｈ３、Ｈ４、Ｈ５、Ｈ６が接続されており、
これらには、それぞれ、１０１、１０２、１０３、１０
４、１０５、１０６なる参照符号が付けられている。各
ホストコンピュータは、そのメモリ内に常駐する複数の
異なるアプリケーションモジュールを持つ。図１におい
て、タイプＡ、Ｂ、Ｃとして示されるこれらアプリケー
ションモジュールは、おのおの、実行されており、これ
ら６個のホストコンピュータの少なくとも一つの上でラ
ンしている一次コピーを持つ。より詳細には、ここで説
明の実施例においては、タイプＡのアプリケーションモ
ジュールの一次コピー、つまり、アプリケーションモジ
ュールＡ₁ がホストコンピュータＨ１の上でランしてお
り、タイプＢのアプリケーションモジュールの一次コピ
ー、つまり、アプリケーションモジュールＢ₁がホスト
コンピュータＨ４の上でランしており、タイプＣのアプ
リケーションモジュールの一次コピー、つまり、アプリ
ケーションモジュールＣ₁ がホストコンピュータＨ３の
上でランしている。後に説明するように、各タイプのア
プリケーションモジュールの他のコピーが、他の複数の
ホストコンピュータの少なくとも一つのメモリ内に、後
に実行されることを待ってアイドルな状態で格納されて
いる。すなわち、複数のアプリケーションモジュールの
複数のバックアップコピーあるいは複数の第二の一次コ
ピーとしてランしており、必要なとき利用できる。

【００１３】上述のように、あるホストコンピュータの
上でランしているあるアプリケーションモジュールは、
そのアプリケーションモジュールの１つあるいはそれ以
上のバックアップコピーによって故障保護される。つま
り、各アプリケーションモジュールは、３つ周知のリプ
リケーションスタイルの一つによって定義（指定）され
る備えの状態（state of preparedness）にて動作し、
各リプリケーションスタイルは、クラッシュあるいはハ
ングアップなどの故障を示したあるアプリケーションモ
ジュールに、あるいはそれ自体が故障したホストコンピ
ュータの上に常駐する複数の全てのアプリケーションモ
ジュールに、バックアップを提供するための固有の方法
を持つ。本発明によると、各タイプのアプリケーション
モジュールは、自身の処理要求に最も適した特定のリプ
リケーションスタイル（コールドバックアップ、ウォー
ムバックアップ、ホットバックアップ）にて故障保護さ
れる。さらに、本発明によると、各タイプのアプリケー
ションモジュールは、そのアプリケーションモジュール
に対して指定されるリプリケーションの程度（個数）
（degree of replication）に従って故障保護される。
つまり、あるタイプのアプリケーションモジュールが複
数箇所で故障するような状況を保護するために、そのア
プリケーションモジュールの（リプリケーションの程度
によって指定される）一定数のコピーがランしている状
態に維持される。

【００１４】故障が検出されたとき、処理への影響を最
小限に押さえながらアイドルあるいはバックアップアプ
リケーションモジュールが故障した一次アプリケーショ
ンモジュールの機能を引き継ぐためには、バックアップ
あるいはアイドルアプリケーションモジュールに、それ
がアイドル状態から実行状態に移る際に、すなわち新た
な一次アプリケーションモジュールとして指定された際
に、故障したアプリケーションモジュールの最後の動作
状態を供給する必要がある。これを実現するために、網
１００に接続されているチェックポイントサーバ（Chec
kpoint Server）１１０が、定期的に、網の上でランし
ている各故障保護されているアプリケーションモジュー
ルから、そのアプリケーションの最も新しい状態を受信
し、この状態をそのメモリに格納する。あるアプリケー
ションモジュールの故障が検出されたとき、その故障し
たアプリケーションモジュールの最後に格納された状態
がチェックポイントサーバ１１０のメモリから取り出さ
れ、新たな一次アプリケーションモジュールに供給さ
れ、処理が継続される。

【００１５】本発明によると、あるアプリケーションモ
ジュールは、自身の故障検出及び回復のために自身を登
録することにより、高信頼化される。このために、より
具体的には、網内の複数のホストコンピュータの一つ
（図１においてはホストコンピュータＨ２）の上でラン
している中央リプリカマネージャダイモンプロセス（ce
ntralized ReplicaManager daemon process）１１２
が、各故障保護されるアプリケーションモジュールから
登録リクエストを受信する。この登録リクエストは、特
定のアプリケーションモジュールに対して、リプリケー
ションのスタイル（つまり、ホット、ウォーム、および
コールド）、リプリケーションの程度（個数）、そのア
プリケーションモジュールがどのホストコンピュータに
常駐し、それらホストコンピュータのどこに実行可能な
プログラムを見つけることができるかのリスト、および
スイッチングスタイルを指定する情報を含む。ここで、
リプリケーションの程度（個数）は、あるアプリケーシ
ョンモジュールのコピーの総数を指定する。より詳細に
は、ホットあるいはウォームリプリケーションスタイル
に対しては、リプリケーションの程度は、網内にランし
ている状態で維持されるべきあるアプリケーションモジ
ュールのコピーの総数を指定し；コールドリプリケーシ
ョンスタイルに対しては、リプリケーションの程度は、
網内のそれからそのアプリケーションモジュールをラン
することができるホストコンピュータの数を指定する。
スイッチングスタイルは、あるアプリケーションモジュ
ールが、あるホストコンピュータから別のホストコンピ
ュータに、いつ引き渡されるべきかを決定する故障回復
戦略を指定する。これと関連して、あるアプリケーショ
ンモジュールの故障が検出されたとき、そのモジュール
の処理は、その故障が発生したのと同一のホストコンピ
ュータ上で再開されることも、アイドルなあるいはラン
しているバックアップコピーがその上に常駐する別のホ
ストコンピュータに引き渡されることもある。アプリケ
ーションモジュールをリプリカマネージャに登録する際
に、２つの故障回復戦略を指定することができる。OnOv
erThreshold（閾値を超えた場合にオン）として知られ
る第一の戦略においては、あるアプリケーションモジュ
ールの動作は、別のホストコンピュータに、ある与えら
れたホストコンピュータの上でそのアプリケーションモ
ジュールが故障した回数がある与えられた閾値を超えた
ときに初めて引き渡される。こうして、この戦略におい
ては、故障したアプリケーションモジュールは、そのア
プリケーションモジュールが故障した回数が閾値回数に
達するまで、自身のホストコンピュータ上で再開され、
故障した回数が閾値を超えると、故障したアプリケーシ
ョンモジュールの動作は、別のホストコンピュータに引
き渡される。OnEachFailure（各故障の度にオン）とし
て知られている第二の故障回復戦略においては、失敗が
発生すると直ちに失敗したアプリケーションモジュール
の動作は、別のホストコンピュータに引き渡される。

【００１６】リプリカマネージャダイモンプロセス１１
２は、そのメモリ内に、網内の全ての登録されたアプリ
ケーションモジュールに対するリプリケーション情報
を、整理統合して維持する。網内にランしている各タイ
プのアプリケーションモジュールに対して、リプリカマ
ネージャは、あるランしているアプリケーションモジュ
ールを、あるいは複数の異なるアプリケーションモジュ
ールをランしているホストコンピュータ全体を回復する
ために必要な情報を格納する。図２には、テーブル２０
０の形式にて、図１の６個のホストコンピュータの上で
ランしている３つのタイプのアプリケーションモジュー
ルに対して格納されるタイプの情報が示される。一例と
して、タイプＡのアプリケーションモジュールが、エン
トリ２０１内に、バックアップスタイルはウォームであ
り、リプリケーションの程度（個数）は３であることを
示す情報とともに登録されている。こうして、タイプＡ
の場合は、１個の一次アプリケーションモジュールが、
常に、２個のバックアップコピーと共にランし、一次コ
ピーが故障したときは、これらバックアップコピーのい
ずれか一つが、一次アプリケーションモジュールとして
機能することを指定される。より詳細には、説明の実施
例では、図１および２からわかるように、一次コピーＡ
₁ （ブロック２０２内に“Ｐ”にて示される）は、ホス
トコンピュータＨ１の上でランしており、バックアップ
コピーＡ₂、Ａ₃（ブロック２０３、２０４内に“Ｂ”に
て示される）は、それぞれ、ホストコンピュータＨ２、
Ｈ３上でランしている。さらに、タイプＡのアプリケー
ションモジュールの追加のコピーＡ₄ が、ホストコンピ
ュータＨ４のメモリ内にアイドルな状態（ブロック２０
５内に“Ｉ”にて示される）にて常駐する。ホストコン
ピュータ上のアプリケーションモジュールの各コピーの
パス名位置（pathname location）も示される。タイプ
Ｂのアプリケーションモジュールは、リプリカマネージ
ャによって、エントリ２０６内に、バックアップスタイ
ルはホットであり、リプリケーションの程度は２である
ことを示す情報とともに登録および格納されている。こ
うして、タイプＢの場合は、アプリケーションモジュー
ルの２個の一次コピーがアクティブでランしている状態
に維持される。各処理クライアントは、互いに状態をリ
クエストし、互いに状態を同期する。テーブル２００か
らわかるように、第一の一次コピーＢ₁ は、ホストコン
ピュータＨ４の上に常駐し、第二の一次コピーＢ₂ は、
ホストコンピュータＨ１の上に常駐する。さらに、アイ
ドルなコピーＢ₃ がホストコンピュータＨ５の上に常駐
する。第三のタイプ、つまり、タイプＣのアプリケーシ
ョンモジュールは、エントリ２０７に、バックアップス
タイルはコールドであり、リプリケーションの程度は２
であることを指定する情報とともに、登録されている。
そして、一次コピーＣ₁ は、ホストコンピュータＨ３の
上でランしており、単一のアイドルのコピーがホストコ
ンピュータＨ６の上に常駐する。後に説明するように、
一次アプリケーションモジュールの故障が検出される
と、そのモジュールがOnEachFailure スイッチングスタ
イルを指定する場合は、直ちに、OnOverThreshold スイ
ッチングスタイルを指定する場合は、故障の回数が閾値
に達した後に、テーブル２００内で、バックアップアプ
リケーションモジュールが、新たな一次アプリケーショ
ンモジュールとして指定され、故障したアプリケーショ
ンモジュールが、ウォームあるいはホットバックアップ
スタイルを指定する場合は、網内のリプリケーションの
レベル（複製モジュールの個数）を同一に維持するため
に、そのタイプのアプリケーションモジュールのアイド
ルなコピーが、そのホストコンピュータ上で実行され
る。同様に、アプリケーションモジュールのランしてい
るバックアップコピーが故障したことが検出されたとき
は、網内でランしているコピーの数を登録されているリ
プリケーションの程度によって指定されるのと同数に維
持するために、そのアプリケーションモジュールのアイ
ドルなコピーが、別のホストコンピュータの上で再開さ
れる。さらに、後に説明するように、ホストコンピュー
タの故障が検出されたときは、テーブル２００にアクセ
スすることで、その故障したコンピュータ上で一次コピ
ーあるいはバックアップコピーとしてランしているアプ
リケーションモジュールの同一性が判定され、次に、故
障したホストコンピュータの上のこれら一次あるいはバ
ックアップコピーが、おのおのが個別に故障した場合と
同様なやり方で故障保護される。

【００１７】図１に戻り、故障の検出は、各ホストコン
ピュータの上でランしているウォッチドッグダイモンプ
ロセス（WatchDog daemon process）によって実行され
る。これらの各ウォッチドッグダイモンは、いったんア
プリケーションモジュールがリプリカマネージャ１１２
に登録されると、登録されたランしているアプリケーシ
ョンモジュール、およびそのホストコンピュータ上に既
に登録されておりランしている全ての他のアプリケーシ
ョンモジュールを監視する。より詳細には、ウォッチド
ッグダイモン１１３−１は、ホストコンピュータＨ１の
上でランしている登録されたアプリケーションモジュー
ルＡ₁ 、Ｂ₂ を監視し；ウォッチドッグダイモン１１３
−２は、ホストコンピュータＨ２の上でランしている登
録されたアプリケーションモジュールＡ₂ を監視し；ウ
ォッチドッグダイモン１１３−３は、ホストコンピュー
タＨ３の上でランしている登録されたアプリケーション
モジュールＡ₃ 、Ｃ₁ を監視し；ウォッチドッグダイモ
ン１１３−４は、ホストコンピュータＨ４の上でランし
ている登録されたアプリケーションモジュールＢ₁を監
視する。ただし、ホストコンピュータＨ４のメモリ内の
アプリケーションモジュールＡ₄ は（テーブル２００に
示すように）アイドルであるために、ウォッチドッグダ
イモン１１３−４は、このモジュールＡ₄ は、これが後
にアクティブにされるまでは監視しない。同様に、ホス
トコンピュータＨ５の上のアイドルなアプリケーション
モジュールＢ₃ と、ホストコンピュータＨ６の上のアイ
ドルなアプリケーションモジュールＣ₂ も、それらが実
行された後に初めて、それぞれ、ウォッチドッグダイモ
ン１１３−５、１１３−６によって監視される。

【００１８】各ホストコンピュータの上でランしている
ウォッチドッグダイモン１１３は、２つの故障検出機
構、つまり、ポーリング機構と、ハートビート機構をサ
ポートする。ポーリング機構においては、ウォッチドッ
グダイモンは、定期的に、ピンメッセージ（ping messa
ge）を、それが監視しているアプリケーションモジュー
ルに送信する。このピンが失敗した場合、ウォッチドッ
グダイモンは、そのアプリケーションモジュールがクラ
ッシュしたものとみなす。加えて、ポーリング機構を用
いることで、アプリケーションモジュールの衛生チェッ
クを行なうこと、つまり、アプリケーションモジュール
内部の衛生チェッキング機構を喚起することもできる。
ハートビート機構においては、アプリケーションモジュ
ールは、能動的に、例えば、周期的に、あるいはリクエ
ストがあった場合に、ウォッチドッグダイモンにハート
ビートを送信する。ウォッチドッグダイモンが所定の時
間期間内にハートビートを受信しない場合は、そのアプ
リケーションモジュールは、ハングアップしたものとみ
なされる。ハートビート機構は、アプリケーションモジ
ュールあるいはホストコンピュータのクラッシュ故障
と、ハング故障の両方を検出することができるのに対し
て、ポーリング機構は、クラッシュ故障を検出できるの
みである。アプリケーションモジュールは、これら２つ
のアプローチの一つを、その信頼性に対する必要性に基
づいて選択する。

【００１９】ウォッチドッグダイモンが、それが“見張
っている（watching）”アプリケーションモジュールの
クラッシュあるいはハング故障を検出すると、ウォッチ
ドッグは、故障をリプリカマネージャ１１２に、故障回
復動作のために報告する。上述のように、故障したアプ
リケーションモジュールが、OnEachFailure 故障回復戦
略を用いるものとして登録されている場合は、故障した
アプリケーションモジュールの動作は、直ちに、別のホ
ストに引き渡される。故障したアプリケーションモジュ
ールが一次コピーである場合は、バックアップアプリケ
ーションモジュールの一つが新たな一次アプリケーショ
ンモジュールとして指定され、次に、アイドルなアプリ
ケーションモジュールが、そのタイプのアプリケーショ
ンモジュールに対して登録されているのと同一のリプリ
ケーションの程度（複製の個数）を維持するために実行
される。催促により、アプリケーションモジュールがバ
ックアップ状態から一次状態に変更された時点で、テー
ブル２００内のその指定、並びに、新たな実行されたア
イドルなアプリケーションモジュールの指定が修正され
る。故障したアプリケーションモジュールがバックアッ
プコピーである場合は、アイドルなコピーが実行され、
テーブル２００内のその指定がその変更を反映するよう
に修正される。

【００２０】図１に示すように、リプリカマネージャ１
１２は中央化される。つまり、網内でランしているリプ
リカマネージャのコピーは一つしか存在しない。網内で
ランしている各アプリケーションモジュールのリプリケ
ーション情報は、テーブル２００に示すように整理統合
され、リプリカマネージャ１１２のメモリ内に維持され
る。この情報が、故障などにより失われることを防止す
るために、このリプリカマネージャのテーブルが、チェ
ックポイントサーバ１１０を用いてチェックポインティ
ングされる。

【００２１】各ホストコンピュータの上でランしている
ウォッチドッグダイモンの機能に加えて、中央スーパー
ウォッチドッグダイモンプロセス（centralized SuperW
atchDog daemon process）１１５−１が、ホストのクラ
ッシュ故障を検出し、これから回復するために用いられ
る。全てのウォッチドッグダイモンは、スーパーウォッ
チドッグダイモンに、ホストの故障を検出する目的で登
録される。故障の保護は、ハートビート検出戦略を用い
て実現される。より詳細には、各ウォッチドッグダイモ
ン１１３は、定期的に、ハートビートを、スーパーウォ
ッチドッグダイモン１１５−１に送信し、スーパーウォ
ッチドッグダイモン１１５−１が、任意のウォッチドッ
グ１１３からハートビートを受信しない場合は、スーパ
ーウォッチドッグダイモン１１５−１は、そのウォッチ
ドッグおよびそのウォッチドッグがその上でランしてい
るホストコンピュータが故障したものとみなす。する
と、スーパーウォッチドッグダイモン１１５−１は、故
障の回復を開始するために、リプリカマネージャ１１２
に、そのホストコンピュータが故障したことを通知す
る。ただし、中央スーパーウォッチドッグダイモン自身
も、単一故障点（一点の故障で他に重大な影響を及ぼす
故障点）となる危険があるために、これ自身も複製（リ
プリケーション）され、これら複製（リプリカ）がウォ
ームリプリケーションスタイルにて維持される。図１に
おいては、スーパーウォッチドッグ１１５−１のスーパ
ーウォッチドッグバックアップコピー１１５−２、１１
５−３が、それぞれ、ホストコンピュータＨ５、Ｈ６に
常駐するように示される。これら３個のスーパーウォッ
チドッグダイモンは論理リング構造を形成し、各スーパ
ーウォッチドッグダイモンは、定期的に、ハートビート
を、隣のスーパーウォッチドッグに送信する。こうし
て、図１においては、一次スーパーウォッチドッグ１１
５−１は、定期的に、ハートビートをスーパーウォッチ
ドッグ１１５−２に送信し、スーパーウォッチドッグ１
１５−２は、定期的に、ハートビートをスーパーウォッ
チドッグ１１５−３に送信し、スーパーウォッチドッグ
１１５−３は、定期的に、ハートビートをスーパーウォ
ッチドッグ１１５−１に送り返す。あるスーパーウォッ
チドッグがこのリング上の隣接するスーパーウォッチド
ッグからハートビートを受信するのに失敗した場合、そ
のスーパーウォッチドッグに故障が発生したものとみな
される。故障したスーパーウォッチドッグに対する故障
回復手続きについては、後に説明する。

【００２２】以下では、クラッシュあるいはハングした
アプリケーションモジュールの回復について説明するた
めに、一例として、リプリカマネージャ１１２に登録さ
れており、リプリケーションスタイルとしてウォーム、
リプリケーションの程度として３、スイッチングスタイ
ルとしてOnEachFailure を指定するアプリケーションモ
ジュールＡとの関連で説明を行なう。最初、アプリケー
ションモジュールＡ₁は、ホストコンピュータＨ１の上
でランしており、バックアップＡ₂ 、Ａ₃ が、それぞ
れ、ホストコンピュータＨ２、Ｈ３の上でランしてい
る。アプリケーションモジュールＡ₁ は、そのローカル
ウォッチドッグ１１３−１に登録されており、検出スタ
イルとしてポーリングを指定する。このため、ウォッチ
ドッグ１１３−１は、定期的に、アプリケーションモジ
ュールＡ₁ をポーリングする。ある時点で、ホストコン
ピュータＨ１の上のアプリケーションモジュールＡ₁
が、クラッシュしたものと想定すると、この故障がウォ
ッチドッグ１１３−１によって検出される。すると、ウ
ォッチドッグ１１３−１は、この故障をリプリカマネー
ジャ１１２に報告する。すると、リプリカマネージャ１
１２は、その内部テーブル２００を検索することで、タ
イプＡの一次アプリケーションモジュールが故障したこ
と、および、バックアップアプリケーションがホストコ
ンピュータＨ２とＨ３の上でランしていることを知る。
次に、リプリカマネージャ１１２は、これらバックアッ
プの一つ（例えば、Ａ₂ ）に対して、一次状態となるよ
うに催促した後、テーブル２００内のＡ₂ の状態を、バ
ックアップ状態からから一次状態に変更する。リプリカ
マネージャ１１２は、次に、アイドルなコピーＡ₄ がホ
ストコンピュータＡ₄ の上の/home/chung/A.exe なるパ
ス名位置の所に常駐することを知り、その新たなバック
アップコピーを、ホストコンピュータＨ４の上のウォッ
チドッグ１１３−４に対して、そのコピーを実行するよ
うに通知することで、始動させる。こうして、ホストコ
ンピュータＨ１の上のアプリケーションモジュールＡ₁
の故障が検出され、その故障から回復された後に、網内
でランしているアプリケーションモジュールＡのコピー
の総数は３個に維持され、結果として、網内でランして
いるアプリケーションモジュールの数が登録されたリプ
リケーションの程度（複製の個数）と同一の３個に維持
される。アプリケーションモジュールがハングしたとき
も、この場合は、故障検出のための手段としてポーリン
グの代わりにハートビートが用いられる点を除いて、故
障の検出およびこれからの回復は全く同様に遂行され
る。

【００２３】各ホストコンピュータの上でランしている
ウォッチドッグは、網内の一次スーパーウォッチドッグ
にハートビートを送信する。より詳細には、ウォッチド
ッグ１１３−１〜１１３−６は、ハートビートをスーパ
ーウォッチドッグ１１５−１に送信する。ホストにクラ
ッシュが発生すると、その上でランしているウォッチド
ッグがクラッシュし、スーパーウォッチドッグ１１５−
１は、そのウォッチドッグからハートビートを受信する
ことに失敗する。例えば、ホストＨ１がクラッシュする
と、スーパーウォッチドッグ１１５−１は、ウォッチド
ッグ１１３−１からハートビートを受信しなくなる。す
ると、スーパーウォッチドッグ１１５−１は、ホストコ
ンピュータＨ１が動作状態にないことを宣言し、その故
障を、リプリカマネージャ１１２に報告する。すると、
リプリカマネージャ１１２は、テーブル２００にアクセ
スし、ホストコンピュータＨ１の上ではアプリケーショ
ンモジュールＡ₁ とＢ₂ がランしていたことを知る。ア
プリケーションモジュールＡ₁ の回復は上述のように行
なわれる。テーブルには、アプリケーションモジュール
Ｂ₂ が、一次コピーであることが示される。このため、
ホストコンピュータＨ５の上に駐在するアイドルなコピ
ーＢ₃ が実行され、これによって、網内でタイプＢのア
プリケーションモジュールの２つの一次コピーがランす
ることが維持される。ホストコンピュータの上でランし
ているウォッチドッグダイモンの故障も、ホストの故障
の場合と同様に扱われる。

【００２４】その上でスーパーウォッチドッグダイモン
がランしているホストコンピュータがクラッシュした場
合は、論理リングの上で次のホストコンピュータの上に
常駐するスーパーウォッチドッグがハートビートを受信
することに失敗する。より詳細には、ホストコンピュー
タＨ６が故障した場合、あるいはホストコンピュータＨ
６上のスーパーウォッチドッグ１１３−５がクラッシュ
した場合、ホストコンピュータＨ２上のスーパーウォッ
チドッグ１１５−１は、スーパーウォッチドッグ１１５
−３からハートビートを受信することに失敗する。する
と、スーパーウォッチドッグ１１５−１は、スーパーウ
ォッチドッグ１１５−３が動作状態にないことを宣言
し、動作状態にないスーパーウォッチドッグ１１５−３
が一次スーパーウォッチドッグであったかチェックす
る。ここでは、スーパーウォッチドッグ１１５−３はバ
ックアップであるために、スーパーウォッチドッグ１１
５−１は、スーパーウォッチドッグ１１５−３に代わっ
てどのような動作を遂行することも必要とされない。次
に、スーパーウォッチドッグ１１５−２が、ハートビー
トをホストコンピュータＨ６の上のスーパーウォッチド
ッグ１１５−３に送信することを試みたとき、例外（ex
ception）を受信する。例外の取り扱いの一部分とし
て、スーパーウォッチドッグ１１５−２は、ホストＨ１
の上に常駐するスーパーウォッチドッグ１１５−１に対
するハンドルを決定し、自身をこれに登録し、ハートビ
ートをこれに送信することを開始する。

【００２５】ホストコンピュータＨ２が故障した場合、
あるいはスーパーウォッチドッグ１１５−１がクラッシ
ュした場合は、ホストコンピュータＨ５の上のスーパー
ウォッチドッグ１１５−２がこの故障を検出し、一次ス
ーパーウォッチドッグが故障したことを知る。すると、
バックアップスーパーウォッチドッグ１１５−２は、一
次スーパーウォッチドッグの役割を引き継ぎ、ホストコ
ンピュータＨ５の上のリプリカマネージャダイモンを始
動する。ホストコンピュータＨ１からＨ６の上のウォッ
チドッグ１１３−１〜１１３−６は、それらが、ホスト
コンピュータＨ２の上の（以前一次スーパーウォッチド
ッグであった）スーパーウォッチドッグ１１５−１にハ
ートビートを送信しようと試みたとき、例外を受信す
る。この例外ハンドリングルーチンの一部分として、各
ウォッチドッグダイモンは、新たな一次スーパーウォッ
チドッグを見つけ、リプリカマネージャ１１２は、自身
を、新たな一次スーパーウォッチドッグ１１５−２に登
録し、これに、定期的にハートビートを送信することを
開始する。この網内にはリプリカマネージャダイモンの
コピーは一つしかランしてないために、リプリカマネー
ジャの状態は、チェックポイントサーバ１１０のテーブ
ル２００内に格納され、ここに、常に維持される。こう
して、リプリカマネージャの機能が新たな一次スーパー
ウォッチドッグが常駐するホストコンピュータＨ５に引
き渡された場合、ホストコンピュータＨ５上で始動され
たリプリカマネージャは、自身の状態をチェックポイン
トサーバ１１０からロードし、自身の内部テーブルを、
格納されていた状態にて再初期化する。同様に、リプリ
カマネージャ１１２が故障した場合は、この故障がスー
パーウォッチドッグ１１５−１によってハートビートの
不在を通じて検出され、スーパーウォッチドッグ１１５
−１は、同じホストコンピュータＨ２の上のリプリカマ
ネージャ１１２を、その状態をチェックポイントサーバ
１１０からロードし、その内部テーブル２００を格納さ
れていた状態にて再初期化することで再開する。

【００２６】上述の実施例は、もっぱら、本発明の原理
を解説するためのものであり、当業者においては、本発
明の精神および範囲から逸脱することなく、他の実施例
も考えられるものである。

【図面の簡単な説明】

【図１】コンピュータ網のブロック図であり、本発明に
よる故障保護されたアプリケーションモジュールをラン
する複数のホストコンピュータを示す図である。

【図２】図１の網内のホストコンピュータの上でランす
るリプリカマネージャダイモン内に格納されたテーブル
を示す。このテーブルは、各タイプのアプリケーション
モジュールと対応させて、本発明による故障保護を遂行
するために用いられる情報を格納する。

【符号の説明】

１００コンピュータ網Ｈ１〜Ｈ６ホストコンピュータ１１０チェックポイントサーバ１１２中央リプリカマネージャダイモンプロセス１１３ウォッチドッグダイモン１１５中央スーパーウォッチドッグダイモンプロセス

───────────────────────────────────────────────────── フロントページの続き (72)発明者エンナンファンアメリカ合衆国 08807 ニュージャーシィ，ブリッジウォーター，リンバーガードライヴ 33 (72)発明者デロンリアン台湾 11529，インステチュートオブインフォーメーションサイエンスアカデミアシニカ (72)発明者チア−イエンシアメリカ合衆国 07974 ニュージャーシィ，マレイヒル，ジョンストンドライヴ 30 (72)発明者シャリニヤニクアメリカ合衆国 07076 ニュージャーシィ，スコッチプレインズ，カントリークラブレーン 222

Claims

【特許請求の範囲】

【請求項１】耐故障コンピューティングのためのコン
ピュータシステムであって、このシステムが：網の上に
相互接続されている複数のホストコンピュータ；前記ホ
ストコンピュータの中の第一のホストコンピュータの上
でランしているあるアプリケーションモジュールの第一
のコピー；前記ホストコンピュータの中の第二のホスト
コンピュータの上で動作する前記アプリケーションモジ
ュールの第二のコピー；および前記複数のホストコンピ
ュータの中の一つのホストコンピュータの上でランして
いるマネージャダイモンプロセスを含み、このマネージ
ャダイモンプロセスが前記アプリケーションモジュール
の前記第一のコピーが故障した指標を受信し、前記アプ
リケーションモジュールの前記第二のコピーを用いて故
障回復を始動し；このシステムがさらに前記マネージャ
ダイモンプロセスに登録メッセージを供給するための手
段を含み、この登録メッセージが、前記アプリケーショ
ンモジュールと、前記マネージャダイモンプロセスによ
って前記アプリケーションモジュールに対して維持され
るべきリプリケーションのスタイルを複数の異なるリプ
リケーションスタイルの中から指定し；前記第二のコピ
ーが前記アプリケーションモジュールの前記第一のコピ
ーが故障した際に、故障保護のために、前記登録された
リプリケーションスタイルに従って動作状態に維持され
ることを特徴とする耐故障コンピューティングのために
コンピュータシステム。
【請求項２】前記異なるリプリケーションスタイル
が、前記アプリケーションモジュールの前記第二のコピ
ーが前記第二のホストコンピュータの上で、前記第一の
ホストコンピュータの上でランしている前記アプリケー
ションモジュールの前記第一のコピーと同時にランする
ことが可能か否か、および前記第二のコピーが同時にラ
ンすることが可能である場合は、前記第二のコピーがク
ライアントのリクエストを受信し、それに応答すること
が可能か否かを示すことを特徴とする請求項１のコンピ
ュータシステム。
【請求項３】前記異なるリプリケーションスタイル
が、コールドバッアップ、ウォームバックアップ、ある
いはホットバックアップであり、コールドバッアップス
タイルである場合は、前記第二のコピーは前記アプリケ
ーションモジュールの前記第一のコピーがランしている
際はランせず；ウォームバックアップスタイルである場
合は、前記第二のコピーは前記アプリケーションモジュ
ールの前記第一のコピーと同時にランするが、クライア
ントのリクエストを受信し、これに応答することはでき
ず；ホットバックアップスタイルである場合は、前記第
二のコピーは前記アプリケーションモジュールの前記第
一のコピーと同時にランし、クライアントのリクエスト
を受信し、これに応答することができることを特徴とす
る請求項２のコンピュータシステム。
【請求項４】前記第一のホストコンピュータの上でラ
ンしている第一の故障検出ダイモンプロセスをさらに含
み、この第一の故障検出ダイモンプロセスが前記アプリ
ケーションモジュールの前記第一のコピーが継続してラ
ンする能力を監視し、この第一の故障検出ダイモンプロ
セスが、故障が検出されたとき、前記第一のコピーの故
障を示すメッセージを前記マネージャダイモンプロセス
に送信することを特徴とする請求項１のコンピュータシ
ステム。
【請求項５】前記網に接続されたチェックポイントサ
ーバをさらに含み、このチェックポイントサーバが、前
記アプリケーションモジュールの前記第一のコピーおよ
び前記マネージャダイモンプロセスの状態を定期的に格
納することを特徴とする請求項４のコンピュータシステ
ム。
【請求項６】前記アプリケーションモジュールの前記
第一のコピーの故障が検出されたとき、前記第二のホス
トコンピュータに、前記第二のコピーが前記第一のコピ
ーの処理機能を引き継ぐことが通知され、前記第二のコ
ピーが前記チェックポイントサーバから前記第一のコピ
ーの最後に格納された状態を取り出すことを特徴とする
請求項６のシステム。
【請求項７】前記マネージャダイモンプロセスと同一
のホストコンピュータの上でランする第二の故障検出ダ
イモンプロセスをさらに含み、この第二の故障検出プロ
セスが前記第一のホストコンピュータを故障が発生しな
いか監視することを特徴とする請求項５のコンピュータ
システム。
【請求項８】前記第一のホストコンピュータの故障が
検出されたとき、前記アプリケーションモジュールの前
記第二のコピーに、前記第一のコピーの処理機能を引き
継ぐことが通知され、前記第二のコピーが前記チェック
ポイントサーバから前記アプリケーションモジュールの
前記第一のコピーの最後に格納された状態を取り出すこ
とを特徴とする請求項７のコンピュータシステム。
【請求項９】前記第二の故障検出ダイモンプロセスが
ランしているのとは異なる前記複数のホストコンピュー
タのうちのもう一つのホストコンピュータの上でランし
ている前記第二の故障検出ダイモンプロセスのバックア
ップコピーをさらに含み、この前記第二の故障検出ダイ
モンプロセスのバックアップコピーが前記第二のホスト
コンピュータを故障が発生しないか監視することを特徴
とする請求項７のコンピュータシステム。
【請求項１０】前記第二のホストコンピュータの故障
が検出されたとき、前記第二の故障検出ダイモンプロセ
スの前記バックアップコピーが前記第二の故障検出ダイ
モンプロセスの処理機能を引き継ぎ、前記マネージャダ
イモンプロセスのコピーが前記ホストコンピュータの中
の前記同一のもう一つのホストコンピュータの上でラン
することを始動し、前記マネージャダイモンプロセスの
前記コピーは、前記チェックポイントサーバから、前記
マネージャダイモンプロセスのコピーが前記ホストコン
ピュータの上でランしていたときに前記マネージャダイ
モンプロセスの格納された状態を取り出すことを特徴と
する請求項９のコンピュータシステム。
【請求項１１】前記アプリケーションモジュールに対
する登録メッセージが、リプリケーションの程度をさら
に指定し、この程度が、ホットあるいはウォームリプリ
ケーションスタイルに対して、網内の前記複数のホスト
コンピュータの上でランしている状態に維持されるべき
前記アプリケーションモジュールのコピーの数を示すこ
とを特徴とする請求項３のコンピュータシステム。
【請求項１２】前記アプリケーションモジュールに対
する登録メッセージが、故障回復戦略をさらに指定し、
前記故障回復戦略が、前記第二のコピーが前記アプリケ
ーションモジュールの前記第一のコピーの処理機能を、
前記第一のコピーの故障が前記第一の故障検出プロセス
によって検出される毎に引き継ぐべきか、あるいは、前
記第二のコピーが前記コピーの処理機能を、前記第一の
ホストコンピュータの上の前記第一のコピーの故障の回
数が所定の閾値に達した後に引き継ぐべきかを示すこと
を特徴とする請求項６のコンピュータシステム。
【請求項１３】コンピュータシステム内のホストコン
ピュータ上の故障管理コンピュータ装置であって、この
装置が：マネージャダイモンプロセスを含み、このマネ
ージャダイモンプロセスが、前記コンピュータシステム
内の第一のホストコンピュータの上でランしているある
アプリケーションモジュールの第一のコピーの故障の指
標を受信し、第二のホストコンピュータの上の前記アプ
リケーションモジュールの第二のコピーを用いて故障回
復を始動し；この装置がさらに前記アプリケーションモ
ジュールの前記第一のコピーから登録メッセージを受信
するための手段を含み、この登録メッセージが、前記ア
プリケーションモジュールと、前記アプリケーションモ
ジュールに対して維持されるべきリプリケーションのス
タイルを複数の異なるリプリケーションスタイルの中か
ら指定し；前記アプリケーションモジュールの前記第一
のコピーが故障した際に、前記第二のコピーが、故障保
護のために、前記登録されたリプリケーションスタイル
に従って動作状態に維持されることを特徴とする故障管
理コンピュータ装置。
【請求項１４】前記異なるリプリケーションスタイル
が、コールドバッアップ、ウォームバックアップ、ある
いはホットバックアップを指定することを特徴とする請
求項１３の装置。
【請求項１５】前記アプリケーションモジュールの前
記第一のコピーが故障した指標を受信したとき、前記マ
ネージャダイモンプロセスが前記第二のホストコンピュ
ータに、前記第二のコピーが前記アプリケーションモジ
ュールの前記第一のコピーの処理機能を引き継ぐことを
通知することを特徴とする請求項１３の装置。
【請求項１６】故障検出ダイモンプロセスをさらに含
み、これが前記第一のホストコンピュータを故障が発生
しないか監視することを特徴とする請求項１３の装置。
【請求項１７】前記故障検出ダイモンプロセスが前記
第一のホストコンピュータが故障したのを検出したと
き、前記マネージャダイモンプロセスが前記第二のホス
トコンピュータに、前記第二のコピーが前記アプリケー
ションモジュールの前記第一のコピーの処理機能を引き
継ぐことを通知することを特徴とする請求項１６の装
置。
【請求項１８】登録メッセージが、リプリケーション
の程度をさらに指定し、この程度が、ホットあるいはウ
ォームバックアップリプリケーションスタイルに対し
て、前記コンピュータシステム内でランしている状態に
維持されるべき前記アプリケーションモジュールのコピ
ーの数を示すことを特徴とする請求項１４の装置。
【請求項１９】コンピュータシステム内で使用するた
めの耐故障コンピューティング装置であって、この装置
が：前記装置の上でランしている故障検出ダイモンプロ
セスを含み、この故障検出ダイモンプロセスが、あるア
プリケーションモジュールの第一のコピーがこの装置の
上で継続してランする能力を監視し、この装置がさらに
登録メッセージをマネージャダイモンプロセスに送信す
るための手段を含み、この登録メッセージが、前記アプ
リケーションモジュールと、前記マネージャダイモンプ
ロセスによって前記アプリケーションモジュールに対し
て維持されるべきリプリケーションのスタイルを複数の
異なるリプリケーションスタイルの中から、このコンピ
ュータシステム内のもう一つのコンピュータ装置の上で
動作する前記アプリケーションモジュールの第二のコピ
ーとの関連で指定し；前記第二のコピーが、前記アプリ
ケーションモジュールの前記第一のコピーが故障した際
に、故障保護のために、前記登録されたリプリケーショ
ンスタイルに従って動作状態に維持されることを特徴と
する耐故障コンピューティング装置。
【請求項２０】前記異なるリプリケーションスタイル
が、コールドバッアップ、ウォームバックアップ、ある
いはホットバックアップであることを特徴とする請求項
１９の装置。
【請求項２１】前記コンピュータシステム内の前記ア
プリケーションモジュールの前記第二のコピーが、前記
アプリケーションモジュールの前記第一のコピーの故障
が検出されたとき、前記アプリケーションモジュールの
前記第一のコピーの処理機能を引き継ぐことを特徴とす
る請求項１９の装置。
【請求項２２】登録メッセージが、リプリケーション
の程度をさらに指定し、この程度が、ホットあるいはウ
ォームバックアップリプリケーションスタイルに対し
て、前記コンピュータシステム内でランしている状態に
維持されるべき前記アプリケーションモジュールのコピ
ーの数を示すことを特徴とする請求項１９の装置。
【請求項２３】耐故障コンピュータシステムを動作さ
せる方法であって、このシステムが、網の上で相互接続
されている複数のホストコンピュータ、前記複数のホス
トコンピュータの中の第一のホストコンピュータの上で
ランしているアプリケーションモジュールの第一のコピ
ー、および前記複数のホストコンピュータの中の第二の
ホストコンピュータの上の前記第一のアプリケーション
モジュールの第二のコピーを含み、この方法が：前記ア
プリケーションモジュールと、前記アプリケーションモ
ジュールに対して維持されるべきリプリケーションのス
タイルを複数の異なるリプリケーションスタイルの中か
ら指定する登録メッセージを受信するステップ；および
前記アプリケーションモジュールの前記第一のコピーが
故障したとき、前記第二のコピーを、故障保護のため
に、前記登録されたリプリケーションスタイルに従って
動作状態に維持するステップを含むことを特徴とする方
法。
【請求項２４】前記アプリケーションモジュールの前
記第一のコピーが故障した指標を受信するステップ；お
よび前記故障した第一のコピーに対する故障回復を、前
記第二のホストコンピュータの上の前記第二のコピーを
用いて始動するステップをさらに含むことを特徴とする
請求項２３の方法。
【請求項２５】前記異なるリプリケーションスタイル
が、前記第二のコピーが前記第一のホストコンピュータ
の上でランしている前記アプリケーションモジュールの
前記第一のコピーと同時にランすることが可能か否か、
および前記第二のコピーが同時にランすることが可能で
ある場合は、前記第二のコピーがクライアントのリクエ
ストを受信し、それに応答することが可能か否かを指定
することを特徴とする請求項２３の方法。
【請求項２６】前記異なるリプリケーションスタイル
が、コールドバッアップ、ウォームバックアップ、ある
いはホットバックアップであることを特徴とする請求項
２３の方法。
【請求項２７】前記第一のホストコンピュータを故障
が発生しないか監視するステップ；および前記第一のホ
ストコンピュータの故障が検出されたとき、前記アプリ
ケーションモジュールの前記第一のコピーに対する故障
回復を前記第二のホストコンピュータの上の前記第二の
コピーを用いて始動するステップをさらに含むことを特
徴とする請求項２３の方法。
【請求項２８】前記第一のアプリケーションモジュー
ルに対する登録メッセージが、リプリケーションの程度
をさらに指定し、この程度が、ホットあるいはウォーム
バックアップリプリケーションスタイルに対して、前記
複数のホストコンピュータの上でランしている状態に維
持されるべき前記アプリケーションモジュールのコピー
の数を示すことを特徴とする請求項２６の方法。
【請求項２９】前記アプリケーションモジュールに対
する登録メッセージが、故障回復戦略をさらに指定し、
この故障回復戦略が、前記第二のコピーが前記アプリケ
ーションモジュールの前記第一のコピーの処理機能を前
記第一のコピーの故障が検出される毎に引き継ぐかどう
か、あるいは、前記第二のコピーが前記第一のアプリケ
ーションモジュールの処理機能を前記アプリケーション
モジュールの前記第一のコピーの故障の回数が所定の閾
値に達した後にはじめて引き継ぐかどうかを示すことを
特徴とする請求項２４の方法。