JPH11508070A

JPH11508070A - 実行制御のためのチェックポイント復旧システム

Info

Publication number: JPH11508070A
Application number: JP9503018A
Authority: JP
Inventors: チュン、ピー−ユー．; フアン、イェンヌン; キンタラ、チャンドラ; ヴォー、キエム−フォン; ワン、イー−ミン
Original assignee: ルーセントテクノロジーズ
Priority date: 1995-06-16
Filing date: 1995-06-16
Publication date: 1999-07-13
Also published as: WO1997000477A1

Abstract

(57)【要約】チェックポイント復旧システムは、ユーザアプリケーションプロセスに対して、正常実行中に、揮発性状態と、持続性状態の所望の部分とを含むプロセス状態を保存し、その後、保存された状態を復旧する。遅延チェックポイント技術により、チェックポイント実行された揮発性状態と、持続性状態の一部との間の不整合が生じるまで、持続性状態チェックポイントの設定が遅延される。本発明のチェックポイント復旧システムにより、ユーザアプリケーションプロセスは、持続性状態のうち指定した部分をチェックポイントから除外することができる。返値引数のような、復旧前プロセス状態の選択された部分を、チェックポイント実行された状態にユーザアプリケーションプロセスを復旧する前に保護して、保護された状態の復旧前の値をチェックポイントの復旧後も保持することが可能である。保持された返値は、復旧コードのセグメントが復旧後に実行されることを可能にするとともに、正常実行モードを復旧モードから区別することも可能にする。

Description

【発明の詳細な説明】実行制御のためのチェックポイント復旧システム発明の属する技術分野本発明は、プロセスの状態をチェックポイント実行および復旧するシステムに関し、特に、持続するプロセス状態の遅延チェックポイントを含む、プロセス状態を中断および復旧するシステムに関する。従来の技術ますます、ソフトウェアアプリケーションのユーザは、ソフトウェアがソフトウェア故障（フォルト）を起こしにくいこと、あるいは少なくとも故障に対して耐性があることを要求している。例えば、通信交換システムのユーザは、交換システムが連続して利用可能であることを要求する。さらに、通信が、銀行の自動預払機の場合のような金融取引の場合、あるいはその他の重要なデータの場合、顧客は最高度のデータ整合性をも要求する。こうして、ユーザアプリケーションプロセスに結果を引き起こす可能性のある多くのプログラミングエラーを検出するためのさまざまなソフトウェア検査デバッグツールが開発されている。例えば、米国カリフォルニア州SunnyvaleのPure Software，Inc.から市販されており、米国特許第５，１９３，１８０号に記載されている、Purify^TMソフトウェア検査ツールは、メモリアクセスエラーおよびメモリリークを検出するシステムを提供している。Purify^TMシステムは、メモリの各バイトのアロケーションおよび初期化ステータスをモニタする。さらに、メモリにアクセスする各ソフトウェア命令ごとに、Purify^TMシステムはテストを実行し、プログラムが未割当てメモリに書き込みをしていないこと、および、未初期化あるいは未割当てのメモリから読み出しをしていないことを保証する。 Purify^TMシステムのようなソフトウェア検査デバッグツールは、ユーザアプリケーションプロセスにおける故障につながる可能性のある多くのプログラミングエラーを検出するための有効な基礎を提供するが、ソフトウェアデバッグプロセス中に確認、検証あるいは検査をいくら実行しても、すべてのソフトウェア故障を検出して除去し、ユーザアプリケーションプログラムにおける完全な信頼性を与えることはできない。従って、未検査の境界条件による残留故障、予測しない例外、および、予期しない実行環境が、検査およびでバッグのプロセスを免れることが観察されており、プログラム実行中にトリガされるとこれらは表面化して、アプリケーションプロセスのクラッシュあるいはハングを引き起こすことにより、サービス中断を引き起こすことになる。従って、ユーザアプリケーションが、損失する情報の量を最小にして、故障から回復することができる機構を提供することが所望される。そこで、ハードウェアおよびソフトウェアの障害から効果的に回復して、損失する情報量を最小にするために、いくつかのチェックポイント実行および復旧の方法が提案されている。チェックポイント実行およびロールバック（後退復帰）回復の技術に関して一般的には、R．Koo and S．Toueg,″Checkpointing and Rollback-Recovery for Distributed Systems″，IEEE Trans．Software Eng.，Vol.SE-13，No.1，pp.23 -31（１９８７年１月）に記載されている。一般に、チェックポイントおよび復旧の技術は、正常実行中にプロセスの状態を定期的に保存し、その後、障害後に、保存した状態を復旧する。このようにして、損失する作業の量は、復旧したチェックポイント以降にユーザアプリケーションによってなされた進展へと最小化される。注意すべき点であるが、プロセスの状態には、揮発性の状態と、持続性の状態が含まれる。揮発性状態には、障害があると通常は失われてしまうプロセス情報が含まれる。持続性状態には、ユーザアプリケーションプロセスの現在の実行に関連するすべてのユーザファイルが含まれる。持続性状態は一般に障害があっても失われないが、データ整合性を維持するために、復旧した揮発性状態と同じポイントに、持続性状態を復旧する必要がある。既存のチェックポイント実行および復旧の技術は、揮発性状態のチェックポイント実行には十分に対処しているが、これらの方法は、持続性状態のチェックポイント実行には十分に対処していない。１つのアプローチによれば、すべての持続性状態、換言すれば、すべてのユーザファイルは、揮発性状態の各チェックポイントでチェックポイント実行される。明らかに、この方法に伴うオーバーヘッドは、ほとんどのアプリケーションで非常に大きくなる。既存のUnix^TMのチェックポイントライブラリのような別の方法は、揮発性状態のチェックポイントがとられるときにアクティブあるいはオープンしているユーザファイルのファイルディスクリプタのみをチェックポイント実行する。しかし、この方法では、チェックポイントがとられた後にユーザファイルが作成されあるいはアクティブになった場合、整合性の問題に遭遇する。その理由は、プロセスが最後のチェックポイントに復旧される場合、最後のチェックポイント以降に新たに作成されあるいはアクティブにされたファイルに対する変更はもとに戻されないためである。このような不整合状態は、検出されない破損ファイルを生じることがしばしば起こり得る。このようなチェックポイント実行および復旧の技術は多くのアプリケーション環境で有効に機能するが、いくつかの制限がある。これらの制限は、克服されれば、チェックポイント実行システムの整合性および透明性を拡大するとともに、これまで考えられなかった他のアプリケーションへの有用性も拡大する。特に、ほとんどの従来のチェックポイント実行および復旧の技術は、障害回復に関すること以外のチェックポイント実行および回復の利点を活用していない。上記の説明から明らかなように、持続性状態全体、あるいはその必要な部分が、各チェックポイントに含まれることを可能にするチェックポイント実行および復旧の技術が必要とされている。さらに、不整合が生じるまで持続性状態のチェックポイント実行を遅延させる遅延チェックポイント実行および復旧の技術が必要とされている。さらに、新しいタスクを実行するための開始点として、保存された中間状態を使用することができるように、持続性状態のうちの選択した部分を、与えられたチェックポイントから除外することも可能な、チェックポイント実行および復旧のシステムが必要とされている。さらに、保護された状態の復旧前の値がチェックポイントの復旧後に維持されるように、復旧前に、現在のプロセス状態のうちの選択した部分を保護することが可能なチェックポイントおよび復旧のシステムが必要とされている。発明の概要一般に、本発明の１つの特徴によれば、チェックポイントおよび復旧のシステムは、正常実行中にプロセス状態を保存し、その後で、例えば障害後の回復モード中に、保存された状態を復旧するために、ユーザアプリケーションプロセスにおいてチェックポイントおよび復旧の技術を実装する。本発明の特徴によれば、チェックポイントおよび復旧のシステムは、揮発性および持続性の両方の状態のチェックポイントを実行する。本発明のもう１つの特徴によれば、チェックポイントおよび復旧のシステムにより、ユーザあるいはユーザアプリケーションプロセスは、持続性状態のうちの選択した部分を、チェックポイントから除外すべきであるとして指定することができる。このようにして、所望の中間状態をチェックポイント実行して、新たな処理タスクを実行するための開始点として使用することができる。別の実施例では、本発明のチェックポイントおよび復旧のシステムは、持続性状態全体、換言すれば、すべてのユーザファイルを、チェックポイント実行されるプロセス状態の部分から除外するために利用することが可能である。こうして、「クリーン」なメモリ状態のみをチェックポイント実行されるデータに含め、好ましくないメモリ状態が徐々に生じることを避けるためにときどきそれを復旧することが可能である。本発明のさらにもう１つの特徴によれば、チェックポイント復旧システムによれば、チェックポイント実行された状態にユーザアプリケーションプロセスを復旧する前に、現在のプロセス状態のうちの選択された部分を保護して、保護された状態の復旧前の値をチェックポイントの復旧後も保持することが可能である。一実施例では、ユーザあるいはユーザアプリケーションプロセスは、復旧後に返されるべき返値を指定することができる。この返値は、復旧後に実行される復旧コードのセグメントを識別するために利用することができる。注意すべき点であるが、復旧後には、実行は、復旧されたチェックポイントが設定された点から進行する。従って、この返値は、正常実行モードを復旧モードから区別することも可能である。本発明のもう１つの特徴によれば、チェックポイント実行された状態の復旧後にユーザアプリケーションプロセスの実行を制御する方法が実現される。この方法において、ユーザアプリケーションプロセスは、対応するプロセス状態を有する。本発明の方法は、第１実行ポイントでプロセス状態の少なくとも一部をチェックポイント実行するステップと、少なくとも１つの変数の復旧前の値を保持して、第２実行ポイントでプロセス状態をチェックポイント実行された状態に復旧するステップと、復旧されたプロセス状態を用いてユーザアプリケーションプロセスの実行を再開するステップと、保持された復旧前の値に基づいてユーザアプリケーションプロセス中の命令を実行するステップとからなる。本発明のさらにもう１つの特徴によれば、ソフトウェア途中終了を引き起こす例外状態を迂回するためにユーザアプリケーションによって使用される方法が実現される。本発明の方法は、アプリケーションプロセスにおいて例外状態をモニタするステップと、例外状態の検出後、プロセスを途中終了する前に、チェックポイント位置において、ユーザアプリケーションプロセスのチェックポイントを開始するステップと、プロセスを終了するステップと、遅延期間後に、回復モードを示す返値引数とともにプロセスをチェックポイント位置に復旧するステップと、復旧後に返値を検査し、返値が回復モードを示す場合、例外状態を迂回することを試みるステップとからなる。本発明のもう１つの特徴によれば、ユーザアプリケーションプロセスにインポートされたソフトウェアコンポーネント中の欠陥を許容する方法が実現される。ユーザアプリケーションプロセスは、関連するユーザファイルを含むプロセス状態を有し、カウンタ値によって識別される少なくとも２回の繰り返し回数だけ、処理タスクを実行する。本発明の方法は、ユーザアプリケーションプロセスを初期化して初期化状態を形成するステップと、ユーザファイルをプロセス状態のチェックポイントから除外するように指定するステップと、プロセス状態のうち除外されなかった部分をチェックポイント実行するステップと、初期化状態およびカウンタ値に基づいて処理タスクを実行する実行ステップと、カウンタ値をインクリメントするステップと、あらかじめ定義されたカウンタ値の値に対して、カウンタ値の現在の値を保持して、プロセス状態のうちチェックポイントされた部分を復旧するステップと、実行ステップを繰り返すステップとからなる。本発明のさらに完全な理解は、本発明のさらに多くの特徴および利点についての理解とともに、詳細な説明および図面を参照して得られる。図面の簡単な説明図１は、本発明によるチェックポイント実行および復旧のシステムを示す概略ブロック図である。図２は、ユーザアプリケーションプロセスの実行グラフであり、揮発性チェックポイント、持続性チェックポイントおよび代替マシンへのプロセスマイグレーションを示す。図３は、ユーザアプリケーションプロセスとオペレーティングシステムの間のファイルシステムコールをモニタして、持続性状態と揮発性状態の間の不整合を生じることになる持続性状態に対する変更を検出する割込みルーチンを示す。図４は、最後の揮発性チェックポイント以降に変更されたファイルごとに持続性状態のチェックポイント情報を保持する持続性チェックポイントテーブルを示す。図５は、ユーザアプリケーションプロセスの実行前に呼び出される例示的な実行前チェックポイントサブルーチンを記述する流れ図である。図６は、揮発性状態をチェックポイント実行するために呼び出される例示的な揮発性状態チェックポイントサブルーチンを記述する流れ図である。図７は、図３のファイルシステムコール割込みサブルーチンの例示的な実装を記述する流れ図である。これは、変更が揮発性状態と持続性状態の間の不整合を生じる前にユーザファイルをチェックポイント実行するために呼び出される。図８Ａおよび図８Ｂは、まとめて、復旧後の処理を制御することが可能な返値とともに、指定されたチェックポイントにプロセス状態を復旧するために利用される例示的な復旧サブルーチンを記述する流れ図である。図９は、ユーザアプリケーションプロセスの実行後に呼び出されることが可能な例示的なクリーンアップサブルーチンを記述する流れ図である。図１０は、リソース不足状態によって引き起こされるソフトウェアの途中終了を迂回するために、本発明の機能を組み込んだサンプルソースコードを示す。図１１は、追加の入力ファイルおよびパラメータのセットの初期化状態をチェックポイント実行しその初期化状態にプロセス状態を復旧するために、本発明の機能を組み込んだ、長い初期化を迂回する例示的なルーチンを記述する流れ図である。図１２は、クリーンなメモリ状態をチェックポイント実行し、そのクリーンなメモリ状態にプロセス状態を復旧するために、本発明の機能を組み込んだ、例示的なメモリ再設定サブルーチンを記述する流れ図である。詳細な説明本発明によるチェックポイント復旧システム１０を図１に示す。以下でさらに説明するように、チェックポイント復旧システム１０によれば、正常実行中にプロセス状態を保存し、その後で、例えば障害後の回復モード中に、保存された状態を復旧するために、ユーザアプリケーションプロセスにおいてチェックポイントおよび復旧の技術を実装することが可能となる。このようにして、アプリケーションプロセスによって失われる作業量は、最後のチェックポイント以降に生成されたものに限定される。システムアーキテクチャ図１に示すように、ここに開示するチェックポイント復旧システム１０は、ミニコンピュータ、ワークステーションまたはその他の汎用コンピュータ装置のような処理ノード２０上に実装することが可能である。処理ノード２０は、少なくとも１つの処理ユニット２５およびメモリ記憶デバイス３０を有する。処理ノード２０の処理ユニット２５およびメモリ記憶デバイス３０は、既知のように、バス６０によって、または、ノード内通信のためのローカル処理ノード２０上のプロセス間通信（ＩＰＣ）設備によって、相互接続されることが可能である。さらに、各ノード２０は、既知のように、シリアルまたはパラレルのノード間通信のための通信リンク７５へのネットワークインタフェース７０によって、他のノードあるいはリモート集中回復コーディネータ（図示せず）と相互接続されることも可能である。ネットワークインタフェース７０は、例えば、米国ペンシルヴェニア州ピッツバーグのFore Systems，Inc.から市販されているＡＴＭホストアダプタカードである。このようにして、ユーザアプリケーションプロセスが、例えば永久的なあるいは長期間のハードウェア障害により、ローカルノード２０上で回復することができない場合、ユーザアプリケーションプロセスは、リモートの処理ノードにエクスポートされることが可能である。この技術はしばしばプロセスマイグレーションと呼ばれる。処理ユニット２５は、単一のプロセッサとして、あるいは、並列に動作するいくつかのプロセッサとして実現することが可能である。メモリ記憶デバイス３０は、一般に不安定な揮発性メモリの領域であるが、処理ユニット２５が取得、解釈および実行することが可能な命令を格納することができる。一実施例では、揮発性メモリ記憶デバイス３０は、処理ユニット２５によって実行されるプロセス４０のような各ユーザアプリケーションプロセスに関連するソフトウェアコードとともに、ユーザプロセス４０によって呼び出されるチェックポイントライブラリ関数５０を格納する。さらに、揮発性メモリ記憶デバイス３０は、既知のように、ユーザアプリケーションプロセス４０、および、チェックポイント復旧ライブラリ関数５０のそれぞれに関連するデータを記憶するデータセグメントセクション５５を含む。ユーザアプリケーションプロセス４０によって呼び出されるチェックポイントライブラリ関数５０は、チェックポイント復旧ライブラリ１５０から選択される。チェックポイント復旧ライブラリ１５０は、ローカルに格納することも可能であり、あるいは、ファイルシステム１２０のように集中ファイルシステム上に格納することも可能である。ファイルシステム１２０のようなファイルシステムは、ユーザがアクセス可能なファイルを格納するための集中倉庫を提供する。一般に、集中ファイルシステム１２０は、不揮発性すなわち持続性メモリの領域であり、電源がなくても情報を保持することができる。以下でさらに説明するように、チェックポイント復旧ライブラリ１５０に含まれる関数は、Ｃプログラミング言語のような高水準プログラミング言語で書かれたユーザレベルのライブラリ関数である。チェックポイント復旧ライブラリ１５０内の関数は、正常実行中にプロセス状態を保存するために、あるいは、例えば障害後の回復モード中に、保存された状態を復旧するために、ユーザアプリケーションプロセスが読み出すことができる。一実施例では、チェックポイント復旧ライブラリ１５０から関数を呼び出すユーザプロセス４０はは、コンパイル中に、あるいは、ダイナミックリンキングプロセスによって、呼び出される関数のコードとバインドされる。図１に示すように、チェックポイント復旧ライブラリ１５０は、実行前チェックポイントサブルーチン１５２を有する。実行前チェックポイントサブルーチン１５２はユーザアプリケーションプロセスの実行前に呼び出される。実行前チェックポイントサブルーチン１５２についてさらに詳細には図５に関して後述する。さらに、チェックポイント復旧ライブラリ１５０は、揮発性状態チェックポイントサブルーチン１５４を有する。揮発性状態チェックポイントサブルーチン１５４は、ユーザアプリケーションプロセス４０によって呼び出されると、揮発性メモリ３０から、ディスク１００のような不揮発性メモリの領域に、揮発性状態のコピーを格納する。チェックポイントディスク１００は、処理ノード２０上にローカルに存在することも可能であり、あるいは、通信ネットワークのリモートノード上に存在することも可能である。揮発性状態チェックポイントサブルーチン１５４についてさらに詳細には図６に関して後述する。さらに、チェックポイント復旧ライブラリ１５０は、ファイルシステムコール割込みサブルーチン１５６を有する。ファイルシステムコール割込みサブルーチン１５６は、持続性状態の所望の部分をチェックポイント実行するための遅延技術を提供する。ファイルシステムコール割込みサブルーチン１５６についてはさらに図３および図７に関して後述する。また、ライブラリ１５０は、復旧サブルーチン１５８を有する。復旧サブルーチン１５８は、ユーザアプリケーションプロセスを所望のチェックポイントに復旧するために呼び出される。復旧サブルーチン１５８についてはさらに図８Ａおよび図８Ｂに関して後述する。既に指摘したように、復旧サブルーチン１５８は、持続性状態チェックポイントから除外されるユーザファイルをユーザが指定することを可能にする機構を提供して、ユーザアプリケーションプロセスが所望のあるいは予測可能な状態から将来の入力を処理することを可能にする。最後に、チェックポイント復旧ライブラリ１５０は、クリーンアップサブルーチン１６０を有する。クリーンアップサブルーチン１６０は、必要な場合に、作成されたチェックポイントファイルを削除するために、ユーザアプリケーションプロセスの実行後に呼び出される。さまざまな実装において、復旧サブルーチン１５８は、当業者には明らかなように、検出された故障に応じて自動的に開始されることも可能であり、あるいは、例えばコマンドライン入力によって、ユーザによりマニュアルで開始されることも可能である。自動実装では、図１に示すように、ノード２０のような各ノードはウォッチドッグ８０を有することが可能である。ウォッチドッグ８０は、それぞれのノード上で実行されているプロセスをモニタするエラー検出モニタ８５を含む。エラー検出モニタ８５は、プロセスがハングしているかあるいはクラッシュしたかどうかを判定するために、プロセス４０のような、ノード２０上で実行されているアプリケーションプロセスを連続してモニタする。エラー検出モニタ８５によって実行されるモニタリングは、能動的であることも受動的であることも可能である。能動的モニタリング構成では、ウォッチドッグ８０は、ローカルノード２０上のプロセス間通信（ＩＰＣ）設備を用いてプロセスにメッセージを定期的に送り、その返値を評価することによって、モニタされる各アプリケーションプロセスをポーリングしてそのプロセスの状態を判定し、プロセスがまだアクティブであるかどうかを判断する。受動的モニタリング構成では、各アプリケーションプロセスはライブラリ１５０からの関数を含み、この関数は、プロセス４０のようなユーザアプリケーションプロセスによって呼び出されると、指定された間隔で、ウォッチドッグ８０へ、プロセス４０がまだアクティブであることを示すハートビート（鼓動）メッセージを送る。指定された間隔の終了前にウォッチドッグ８０がアプリケーションプロセス４０からシグナルを受信しない場合、ウォッチドッグ８０は、アプリケーションプロセスがハングしているかあるいはクラッシュしたと推定する。後でさらに説明するが、エラー検出モニタ８５によってユーザアプリケーションプロセス４０における故障が検出されると、再開始サブシステム９０が、後述のように、最後のチェックポイントから、故障したアプリケーションプロセスの再開始を行うことによって、故障したアプリケーションプロセスの回復を試みる。再開始サブシステム９０は、障害が検出されたときに復旧サブルーチン１５８を呼び出して、故障したユーザアプリケーションプロセスの再開始を行う。チェックポイントおよび復旧の概念および定義チェックポイントおよび復旧の概念および定義に関する一般的に説明は、例えば、Yi-Min Wang et al.,″Progressive Retry Technique for Software Error Recovery in Distributed Systems″,Proc. of 23rd IEEE Conf．on Fault-Tole rant Computing Systems(FTCS),pp.138-144（１９９３年６月）、あるいは、R.K oo and S．Toueg,″Checkpointing and Rollback-Recovery for Distributed Sy stems″,IEEE Trans．Software Eng.，Vol.SE-13，No.1，pp.23-31（１９８７年１月）に記載されている。一般に、チェックポイントおよび復旧の技術は、損失する作業の量を最小にするために、正常なプログラム実行中にときどきプロセス状態を保存し、その後、例えば障害後に、保存されている状態を復旧する。図２に、プロセス４０のようなユーザアプリケーションプロセスの実行を示す。ユーザアプリケーションプロセス４０が実行を続ける間に、揮発性チェックポイントＶＣ₁、ＶＣ₂およびＶＣ₃のように、揮発性状態のチェックポイントが呼び出される。ここで、揮発性状態という用語には、プログラムスタック、オープンファイルディスクリプタ、スタティック（静的）およびダイナミック（動的）データセグメントのような、障害時に通常は失われてしまう情報と、オペレーティングシステムレジスタ、プログラムカウンタおよびスタックポインタのような、現在のプログラム実行に本質的なオペレーティングシステムカーネルに関連するデータ構造体が含まれる。さらに、本発明の特徴によれば、ユーザアプリケーションプロセス４０が、ユーザファイルの属性のような、持続性状態を変更するファイル操作を実行しようとする場合、影響されるファイルは、後述のようにして、所望のファイル操作が実行される前に、持続性チェックポイントＰＣ_3'およびＰＣ₃ _″によって示されるように、チェックポイント実行される。ここで、持続性状態という用語には、ユーザアプリケーションプロセスの現在の実行に関連するすべてのユーザファイルが含まれる。持続性状態は一般に障害時に失われないが、持続性チェックポイントは、例えば障害が検出されたときにプロセスがその最後の揮発性チェックポイントまでロールバックした場合に、持続性状態が揮発性状態と整合することを保証する。注意すべき点であるが、持続性状態は、与えられたファイルへの更新が、最後のチェックポイントに関連する揮発性状態と不整合になるまでは、記録されない。後述のように、持続性チェックポイントＰＣ_3'およびＰＣ₃ _″によって、最後の揮発性チェックポイント以降の持続性状態へのすべての変更はもとに戻される。このようにして、「Ｆ₁」で示される点で障害が検出されると、プロセスの揮発性状態は、最後の揮発性チェックポイントＶＣ₃に関連するチェックポイントデータを復旧することによって、チェックポイントＶＣ₃までロールバックすることができる。さらに、持続性チェックポイントＰＣ_3'およびＰＣ₃ _″によって、最後の揮発性チェックポイントＶＣ₃以降の持続性状態への変更はそれぞれもとに戻される。こうして、ロールバック後、持続性状態全体は、最後の揮発性チェックポイントＶＣ₃のときに存在したとおり、揮発性状態と整合する。注意すべき点であるが、プロセスがマシンＡで再開始することができない場合、図２に示すように、プロセスマイグレーションによって、プロセスは、マシンＢのような代替マシン上で再開始することが可能である。ファイルシステムコールに割り込むことによる持続性状態のモニタリング既に指摘したように、持続性状態には、ユーザアプリケーションプロセスの現在の実行に関連するすべてのユーザファイルが含まれる。一般に、ユーザアプリケーションプロセスがユーザファイルにアクセスし、それを変更することが可能な唯一の方法は、オペレーティングシステムカーネルに送られるファイルシステムコールによるものである。従って、ユーザアプリケーションプロセスによって生成される各ファイルシステムコールに割り込み、チェックポイント復旧システム１０によって評価すれば、持続性状態への可能なすべての変更を識別することが可能である。こうして、図３に概念的に示したように、プロセス４０のようなユーザアプリケーションプロセスによって生成されるすべてのファイルシステムコールは、所望のファイル操作が実際にオペレーティングシステム３００によって実行される前に、割込みルーチン１５６によって割り込まれモニタされる。これについては図７に関して後述する。このようにして、ファイル操作が持続性状態に関連するファイルを変更しようとしている場合、影響されるファイルの情態は整合性を保証するために記録することができる。一実施例では、持続性状態チェックポイントは、図４に示す持続性チェックポイントテーブル４００に記録される。持続性チェックポイントテーブル４００は、ディスクのような持続性メモリに格納され、テーブル４００が変更されるごとにディスクに格納される。各持続性チェックポイントテーブル４００は、特定のユーザアプリケーションプロセスに関連するとともに、checkpoint_idによって識別される特定の揮発性チェックポイントに関連し、行４０５および４１０のような複数の行を有する。各行は、関連する揮発性チェックポイント以降に何らかの変更を受けたユーザファイルに対応する。「ファイル名」によって示される各ファイルごとに、持続性チェックポイントテーブル４００は、変更される可能性のある各ファイル属性ごとのエントリを有する。例えば、持続性チェックポイントテーブル４００は、各ファイルの「変更時刻」を記録するための列４３５と、各ファイルの「アクセスモード」を記録するための列４４０と、各ファイルの現在の「サイズ」を記録するための列４４５を含む。一実施例では、テーブル４００の各エントリは、与えられたファイルに対して行が作成されるときに、「−１」のようなデフォルト値で初期化される。その後、ファイルの属性が変更されると、現在の属性値を、変更前に記録することができる。このようにして、復旧されるファイルの与えられた属性が「−１」という値である場合、その属性は変更されておらず、復旧の必要がない。図７に関して後述するように、エントリは、ファイルシステムコール割込みサブルーチン１５６によって、持続性チェックポイントテーブル４００内に作成される。さらに、図８Ａおよび図８Ｂに関して後述するように、checkpoint_idの値によって識別される特定のチェックポイントの復旧中に、復旧サブルーチン１５８は持続性チェックポイントテーブル４００にアクセスし、それに含まれる情報を利用して持続性状態を復旧する。チェックポイント復旧ライブラリ関数実行前チェックポイントサブルーチン既に指摘したように、チェックポイント復旧ライブラリ１５０は、実行前チェックポイントサブルーチン１５２を含む。実行前チェックポイントサブルーチン１５２は、ユーザアプリケーションプロセス４０の実行前に実行される。例えば、Ｃプログラミング言語で書かれたプログラムは、通常、″main″ルーチンを有する最初の行から実行を開始する。従って、実行前チェックポイントサブルーチン１５２の実行は、″main″ルーチンの実行前に呼び出されるべきである。チェックポイント復旧システム１０は、挿入モードと透過モードという、チェックポイントを実行するための２つの動作モードを提供する。挿入モードは、ソースコードの所望の位置にチェックポイント関数を挿入することによって、ユーザアプリケーションプロセスがチェックポイント機構を実装することを可能にする。透過モードは、指定された時間間隔で自動的にチェックポイントを実行する機構を提供する。透過モードによれば、ユーザアプリケーションプロセスは、ユーザアプリケーションプロセスへの変更や再コンパイルを必要とすることなく、チェックポイント機構を組み込むことが可能となる。後述のように、透過モードでは、あらかじめ定義された間隔でチェックポイントを開始するために、実行前チェックポイントサブルーチン１５２によってクロックデーモンプロセスが生成される。後述のように、それぞれの指定された間隔の終了時に、チェックポイントを開始するために、生成されたクロックデーモンプロセスの指示により、システム割込みコールがオペレーティングシステムによって関連するユーザアプリケーションプロセスに送信される。図５に示すように、実行前チェックポイントサブルーチン１５２は、ステップ５００から開始し、その後、ステップ５０５で、チェックポイント復旧システム１０によって要求される、オープンファイルテーブルおよび持続性チェックポイントテーブル４００のようなデータ構造体を初期化する。その後、ステップ５２０で、例えばコマンドライン上のユーザによる指定から、あるいは、環境変数の設定から、ユーザアプリケーションプロセスが挿入モードで実行されているかそれとも透過モードで実行されているかを判定するテストを実行する。ステップ５２０で、ユーザアプリケーションプロセスが透過モードで実行されていると判定された場合、ステップ５２５で、例えばforkシステムコールによって、クロックデーモンプロセスが生成される。既に指摘したように、クロックデーモンプロセスは、指定された間隔でユーザアプリケーションプロセスのチェックポイントを開始するチェックポイントタイマとして作用する。一実施例では、チェックポイントは、谷間隔が指定されていなければ、３０分ごとのようなデフォルト間隔で開始される。一方、ステップ５２０で、ユーザアプリケーションプロセスが挿入モードで実行されていると判定された場合は、ユーザアプリケーションプロセスの実行によって呼び出されるときにのみチェックポイントは開始される。ステップ５４０で、ユーザアプリケーションプロセスに対する正しいチェックポイントファイルが既に存在するかどうかを判定するテストが実行される。換言すれば、このテストは、現在の実行が通常実行モードであるかそれとも回復モードであるかを判定する。注意すべき点であるが、ユーザアプリケーションプロセスが正常終了すると、特に指定しない限り、図９に関して後述するように、クリーンアップサブルーチン１６０が、そのユーザアプリケーションプロセスに関連するチェックポイントファイルを削除する。こうして、ユーザアプリケーションプロセスの開始時にチェックポイントファイルが存在する場合、例えば障害により前の実行が正常終了しなかったか、あるいは、ユーザアプリケーションプロセスが、後の復旧のためにチェックポイントファイルを格納するよう要求したかのいずれかである。ステップ５４０で、ユーザアプリケーションプロセスに対する正しいチェックポイントファイルが存在すると判定された場合、実行前チェックポイントサブルーチン１５２は復帰し、図８Ａおよび図８Ｂに関して後述するように、存在するチェックポイントファイルに関連するデータを復旧し、復旧したチェックポイントの時点からユーザアプリケーションプロセスの実行を開始するために、ステップ５５０で、復旧サブルーチン１５８の実行が開始される。一方、ステップ５４０で、ユーザアプリケーションプロセスに対する正しいチェックポイントファイルが存在しないと判定された場合、実行前チェックポイントサブルーチン１５２は復帰し、ステップ５６０で、ユーザアプリケーションプロセスの実行が開始される。揮発性状態チェックポイントサブルーチン既に指摘したように、チェックポイント復旧ライブラリ１５０は、揮発性状態チェックポイントサブルーチン１５４を有する。揮発性状態チェックポイントサブルーチン１５４は、透過モードでは、チェックポイントを開始すべきであるというクロックデーモンからの割込みシグナルによって、あるいは、挿入モードでは、ユーザアプリケーションプロセスのソースコードに挿入されたチェックポイント関数コールが実行されるときに、呼び出される。さらに、後述のように、揮発性状態チェックポイントサブルーチン１５４は、プログラムカウンタの値が復旧された後に間接的に復旧サブルーチン１５８から呼び出される。揮発性状態チェックポイントサブルーチン１５４は、ユーザアプリケーションプロセスを復旧するために必要な、障害時に失われてしまうすべての情報を保存する。一実施例では、揮発性状態チェックポイントサブルーチン１５４は、各チェックポイント間隔を識別するために利用可能なcheckpoint_id引数を渡される。揮発性状態チェックポイントサブルーチン１５４がcheckpoint_id引数を渡されない場合、以前のチェックポイントデータが上書きされる。checkpoint_id引数はグローバル変数とすることにより、後で、持続性状態のチェックポイントを実装するファイルシステムコール割込みサブルーチン１５６が、適当な（現在の）揮発性チェックポイントに持続性状態チェックポイントを関連づけるために、アクセスすることができる。既に指摘したように、中央処理ユニット内での値の一時記憶のためのハードウェアレジスタ、スタックポインタおよびプログラムカウンタのような、ユーザアプリケーションプロセスの現在の実行に関連するいくつかの揮発性情報は、オペレーティングシステムカーネルによって管理される。これらのメモリ要素は通常はユーザアプリケーションプロセスによってアクセス可能ではないが、オペレーティングシステムは一般に、特定のユーザアプリケーションプロセスによって要求されるオペレーティングシステム情報をチェックポイント実行することを可能にするルーチンを提供している。このタスクを実行するためにオペレーティングシステムによって提供されるルーチンは、ステップ６１０で、レジスタ、スタックポインタおよびプログラムカウンタの内容を保存するために実行される。例えば、Unixオペレーティングシステムは、これらのオペレーティングシステムデータ構造体にアクセスし、宣言したグローバルデータ構造体にそれらを保存するse tjmpコールを提供している。それらのグローバルデータ構造体は、その後、揮発性状態の一部としてチェックポイント実行することができる。setjmpシステムコールの動作の詳細については、例えば、W.R.Stevens,″Advanced Programming i n the Unix Environment″，pp.174-180(Addison Wesley，1992)に記載されている。その後、プログラム制御はステップ６２０に進む。注意すべき点であるが、復旧サブルーチン１５８（図８Ａおよび図８Ｂ）の実行中、所望のチェックポイントの復旧後、プログラムカウンタの値は、復旧したチェックポイントに対応する値に復旧される。従って、プログラムカウンタの値が変更されることにより、復旧サブルーチン１５８は、ステップ６１０の実行の直後の位置にジャンプすることになる。さらに注意すべき点であるが、復旧サブルーチン１５８は、０より大きい返値を返す。これは、復旧後の実行のフローを制御するために利用可能である。例えば、あるあらかじめ定義された返値の場合にはあるコードが実行され、別のあらかじめ定義された返値の場合には別のコードのシーケンスが実行される。こうして、ステップ６２０で、setjmpシステムコールのようなオペレーティングシステムルーチンからの返値が０という値であるかどうかを判定するテストが実行される。既に指摘したように、復旧サブルーチン１５８により、０より大きい返値を、回復モードで利用することが可能である。ステップ６２０で、返値が０でないと判定された場合、挿発性状態チェックポイントサブルーチン１５４の現在の実行が、回復モードで復旧サブルーチン１５８から呼び出されており、プログラム制御は、チェックポイント実行を行うことなく直接ステップ６７０に進む。一方、ステップ６２０で、返値が０に等しいと判定された場合、揮発性状態チェックポイントサブルーチン１５４の現在の実行は復旧サブルーチン１５８から呼び出されたものではなく、揮発性状態チェックポイントサブルーチン１５４は揮発性チェックポイントを続ける。すなわち、ステップ６３０で、揮発性チェックポイントの時点でオープンしているすべてのファイルのファイルディスクリプタが、そのファイルのファイル名および現在の位置とともに、オープンファイルテーブルに格納される。オープンファイルテーブルは、各オープンファイルのファイルディスクリプタ、ファイル名および位置を含む。その後、ステップ６４０で、ユーザアプリケーションプロセスに関連するデータセグメントが、グローバル変数およびスタティック変数のようなすべての動的および静的に割り当てられたメモリと、オープンファイルテーブルを含めて、保存される。最後に、ステップ６５０で、スタックの現在の内容が保存される。揮発性状態チェックポイントサブルーチン１５４の実行はステップ６７０で終了し、その後、指示された返値とともに復帰する。揮発性状態チェックポイントサブルーチン１５４が０の値を返す場合、これは、チェックポイントをとることに成功したことを示す。さらに、揮発性状態チェックポイントサブルーチン１５４が０より大きい値を返す場合、これは、実行のフローを制御するために利用可能な返値とともに復旧サブルーチン１５８から間接的に実行が復帰していることを示す。ファイルシステムコール割込みサブルーチン既に指摘したように、チェックポイント復旧ライブラリ１５０は、持続性状態チェックポイントを実装するファイルシステムコール割込みサブルーチン１５６を含む。ファイルシステムコール割込みサブルーチン１５６は、ファイルの特定の属性を変更する可能性のあるファイルシステムコールに割り込み、必要な場合には、持続性状態のうちの変更される部分の遅延チェックポイントを実行する。ファイルシステムコール割込みサブルーチン１５６は、要求されるファイル操作を実際に実行する前に、持続性状態チェックポイントを実行する。さらに、ファイルシステムコール割込みサブルーチン１５６は、必要な限りにおいてのみ、持続性状態のチェックポイントを実行する。ファイルシステムコール割込みサブルーチン１５６は、それぞれの割り込まれるファイルシステムコールの受信時に、ステップ７００から開始する。ステップ７１０で、割り込まれるファイル操作が、チェックポイントの設定を開始すべきファイル属性を変更するかどうかを判定するテストが実行される。ステップ７１０で、割り込まれるファイル操作がチェックポイントの設定を開始すべきファイル属性を変更しないと判定された場合、プログラム制御はステップ７５０に進み、後述のようにして所望のファイル操作を実行する。一方、ステップ７１０で、割り込まれるファイル操作がチェックポイントの設定を開始すべきファイル属性を変更すると判定された場合、ステップ７２０で、ユーザが例えば関数コールを実行すること、コマンドライン引数を入力すること、あるいは環境変数を設定することによって、現在のファイルはチェックポイントから除外すべきであると指定したかどうかを判定するテストが実行される。このようにして、ユーザあるいはユーザアプリケーションプロセスは、与えられたファイルが持続性状態チェックポイントに含まれるべきかどうかを、ファイルごとに選択的に指定することができる。ステップ７２０で、現在のファイルはチェックポイントから除外すべきであると判定された場合、プログラム制御はステップ７５０に進み、後述のようにして所望のファイル操作を実行する。一方、ステップ７２０で、現在のファイルはチェックポイントから除外すべきでないと判定された場合、ステップ７３０で、グローバル変数checkpoint_idの現在の値によって識別される最後の揮発性チェックポイント以降にこのファイルは既にチェックポイント実行されたかどうかを判定するテストが実行される。ステップ７３０で、最後の揮発性チェックポイント以降にこのファイルは既にチェックポイント実行されたと判定された場合、プログラム制御はステップ７５０に進み、後述のようにして所望のファイル操作を実行する。一方、ステップ７３０で、最後の揮発性チェックポイント以降にこのファイルは既にチェックポイント実行されてはいないと判定された場合、ステップ７４０で、このファイルのシャドウコピーを作成し、ファイル名と、変更される属性の以前の値を、checkpoint_idの現在の値に対応する持続性チェックポイントテーブル４００に追加することによって、このファイルはチェックポイント実行される。代替実施例では、持続性状態チェックポイントは、属性ごとに各ファイルをチェックポイント実行し、現在のファイルシステムコールによって影響される属性のみをチェックポイント実行することによって、さらに最適化することが可能である。換言すれば、ファイル操作は全属性のうちのサブセットのみに影響し、ファイル操作がステップ７５０で実行される前に、影響される属性のサブセットのみをチェックポイント実行すればよい。例えば、writeシステムコールが既存のファイルの終端にデータを追加するのみである場合、そのファイルの、揮発性チェックポイントにおいて存在したファイル内容は変更されないため、ファイル内容をチェックポイント実行せず、ファイルサイズをチェックポイント実行すれば十分である。復旧後、このファイルは適当なサイズに切り詰めることが可能である。ステップ７４０でファイルをチェックポイント実行した後、必要であれば、ステップ７５０で、所望のファイル操作を実行することが可能である。持続性状態チェックポイントは、ファイル操作が実行される前に記録されるため、持続性チェックポイントテーブル４００に格納される情報は、最後の挿発性チェックポイント以降に各ユーザファイルになされた変更をもとに戻すために使用することが可能である。ステップ７５０で、所望のファイル操作が実行された後、ファイルシステムコール割込みサブルーチン１５６の実行はステップ７６０で終了し、ユーザアプリケーションプロセスの実行に復帰する。復旧サブルーチン既に指摘したように、チェックポイント復旧ライブラリ１５０は、図８Ａおよび図８Ｂに示す復旧サブルーチン１５８を含む。復旧サブルーチン１５８は、例えば障害が検出された後にウォッチドッグ８０によってアプリケーションプロセスが正しいチェックポイントから再開始されるときに、あるいは、ユーザアプリケーションプロセスに対応するソースコードにロールバック関数コールが挿入されているときに、呼び出される。ここで、ロールバックという用語は、ユーザあるいはユーザアプリケーションプロセスによって開始される復旧を示し、回復という用語は、正しいチェックポイントファイルによる障害後の復旧を示すために用いられる。一実施例では、復旧サブルーチン１５８には以下の引数が渡される。・mode（モード）の値は、現在の実行が回復モードであるかそれともロールバックモードであるかを示す。・checkpoint_id（チェックポイントＩＤ）の値およびreturn_value（返値）は保持され復旧サブルーチン１５８の実行後に返される。・protected_variables（保護変数）のリストは、プロセスがチェックポイントに復旧された後であっても、復旧前の値を維持する。注意すべき点であるが、checkpoint_idの値が指定されない場合、プロセスは最後のチェックポイントに復旧される。さらに、return_valueが指定されない場合、正の返値（例えば１）が用いられる。復旧サブルーチン１５８は、指示されるチェックポイントに対応する揮発性および持続性の状態を復旧するように作用する。後述のように、復旧サブルーチン１５８は、挿発性チェックポイントを復旧し、復旧した揮発性チェックポイント以降に持続性状態になされた変更をもとに戻すことによって、揮発性状態と持続性状態の間の整合性を保証する。本発明の特徴によれば、復旧サブルーチン１５８がユーザアプリケーションプロセスによって呼び出されるときに、return_valueおよびprotected_variables 配列が指定される。一実施例では、復旧サブルーチン１５８が指示されたチェックポイントにロールバックするときには、protected_variables配列によって指示される変数の現在の値が、return_value変数の現在の値とともに、保護される。こうして、特定のチェックポイントへの復旧後、復旧の前に指定されたreturn _valueが維持され、復旧後の実行のフローを制御するために利用することが可能である。さらに、ユーザあるいはユーザアプリケーションプロセスがすべての変数を特定のチェックポイントにロールバックすることを望まない場合、pr otected_variablesの機構を利用して、復旧後にも現在の値を維持すべき変数を指定することができる。return_valueが指定されない場合、デフォルト値として１が用いられる。図８Ａに示すように、呼び出されると、復旧サブルーチン１５８はステップ８００から開始される。その後、ステップ８１０で、checkpoint_id引数で指示される値に対応する持続性チェックポイントテーブル４００（図４）が読み出される。ステップ８１５で、ユーザが、例えばコマンドライン入力によってあるいは環境変数の設定によって、持続性チェックポイントテーブル４００にリストされたシャドウファイルを復旧してはならないことを示すように、持続性チェックポイントテーブル４００が変更されるべきことを指示したかどうかを判定するテストが実行される。ステップ８１５でユーザが持続性チェックポイントテーブル４００を変更すべきであることを指示したと判定された場合、ステップ８２０で、テーブル４００は、指示された変更に従って変更される。持続性チェックポイントテーブル４００が変更された後、必要であれば、ステップ８２５で、テーブル４００にリストされた各ファイルに対応するシャドウファイルを適当なチェックポイントデータから検索し、そのシャドウファイルを現在のファイル上にコピーすることによって、持続性チェックポイントテーブル４００に従って持続性状態が復旧される。さらに、持続性チェックポイントテーブル４００にリストされた各ファイルの属性が、テーブル４００内のそれぞれのエントリに記録された値に従って変更される。その後、ステップ８３０で、復旧サブルーチン１５８の現在の実行モードが、障害後の回復モードであるか、それとも、ユーザが開始したロールバックモードであるか、および、protected_variables配列の値が正しいかどうかを判定するテストが実行される。ステップ８３０で、復旧サブルーチン１５８の現在の実行モードがロールバックモードであり、protected_variables配列の値が正しいと判定された場合、ステップ８３５で、チェックポイント実行されるデータセグメントが復旧される間にprotected_variables配列によって指定された変数を保護するために、これらの変数がデータセグメントから一時ファイルにコピーされる。その後、ステップ８４０で、checkpoint_id引数によって識別される揮発性チェックポイントファイルが読み出される。ステップ８４５で、前のステップで取得した揮発性チェックポイントファイルを用いて、オープンファイルテーブルを含むデータセグメントが復旧される。その後、ステップ８５０で、復旧サブルーチン１５８の現在の実行モードがロールバックモードであるかどうか、および、protected_variables配列の値が正しいかどうかを判定するテストが再び実行される。ステップ８５０で、復旧サブルーチン１５８の現在の実行モードがロールバックモードであり、protected_va riables配列の値が正しいと判定された場合、ステップ８５５で、protected_var iables配列によって指定された変数は、一時ファイル内の保護された位置からデータセグメントにコピーされて戻される。このようにして、protected_variable s配列で指定される各変数は復旧前の値を維持する。ステップ８６５で、ユーザが、例えばコマンドライン入力によってあるいは環境変数の設定によって、オープンファイルテーブルを変更すべきであると指示したかどうかを判定するテストが実行される。ステップ８６５で、ユーザが、オープンファイルを変更すべきであると指示したと判定された場合、指示された変更がステップ８７０で実行される。例えば、後で「長い初期化の迂回」と題する節で説明する、本発明の特徴を含む１つのアプリケーションでは、復旧されるオープンファイルテーブルは、以前に処理された入力ファイルの第１のセットをリストする。処理すべき入力の後続の各セットごとに、入力ファイルの第１のセットを、現在の実行に適した入力ファイルのセットで置き換えるために、オープンファイルテーブルを変更する。オープンファイルテーブルが変更された後、必要であれば、ステップ８７５で、オープンファイルテーブルに指示されるファイルディスクリプタが復旧される。換言すれば、オープンファイルテーブル内の各エントリごとに、ファイルがオープンされ、ファイル名は指示されたファイルディスクリプタに関連づけられ、ファイルの現在位置がオープンファイルテーブルエントリに記録された位置に調整される。その後、ステップ８８０で、スタックスペースが割り当てられ、ステップ８８５で、スタックが、ステップ８４０で読み出された揮発性チェックポイントファイル内の情報に従って復旧される。既に指摘したように、中央処理ユニット内での値の一時記憶のためのハードウェアレジスタ、スタックポインタおよびプログラムカウンタのような、ユーザアプリケーションプロセスの実行に関連するいくつかの揮発性情報は、オペレーティングシステムカーネルによって管理される。これらのメモリ要素は通常はユーザアプリケーションプロセスによってアクセス可能ではないが、オペレーティングシステムは一般に、特定のユーザアプリケーションプロセスによって要求されるオペレーティングシステム情報を復旧することを可能にするルーチンを提供している。このタスクを実行するためにオペレーティングシステムによって提供されるルーチンは、ステップ８９０で、レジスタ、スタックポインタおよびプログラムカウンタの内容を復旧するために実行される。例えば、Unixオペレーティングシステムは、これらのオペレーティングシステムデータ構造体を復旧するlong jmpコールを提供している。longjmpシステムコールの動作の詳細については、例えば、W．R．Stevensの前掲書に記載されている。既に指摘したように、プログラムカウンタの値が、チェックポイントが復旧されるときに記録された値に復旧されると、復旧サブルーチンの実行は、揮発性状態チェックポイントサブルーチン１５４（図６）のステップ６２０にジャンプする。こうして、復旧サブルーチン１５８は、揮発性状態チェックポイントサブルーチン１５４から効果的に復帰することになる。さらに、復旧サブルーチン１５８は、指示されたreturn_valueおよびprotected_variables配列に指示された変数を復旧前の値に維持したまま復帰する。クリーンアップサブルーチン既に指摘したように、チェックポイント復旧ライブラリ１５０は、ユーザアプリケーションプロセスの実行後に実行されるクリーンアップサブルーチン１６０を含む。図９に示すように、クリーンアップサブルーチン１６０は、ユーザアプリケーションプロセスが終了したときにステップ９００から開始される。ステップ９１０で、ユーザアプリケーションプロセスの現在の実行モードが透過モードであるかどうかを判定するテストが実行される。ステップ９１０で、現在の実行モードが透過モードであると判定された場合、ステップ９３０で、実行前チェックポイントサブルーチン１５２によって生成されたクロックデーモンプロセスが削除(kill)される。その後、ステップ９５０で、ユーザアプリケーションプロセスに関連するチェックポイントファイルを維持すべきかどうかを判定するテストが実行される。ステップ９５０で、チェックポイントファイルを保持すべきでないと判定された場合、ステップ９７０で、ユーザアプリケーションプロセスに関連するチェックポイントファイルは削除される。ステップ９８０で、クリーンアップサブルーチン１６０は実行を終了する。チェックポイント復旧アプリケーションソフトウェアの途中終了の迂回ユーザアプリケーションプロセスは、実行の継続に必要なリソースを割り当てることができないために途中で終了することがある。ソフトウェア障害とは異なり、プロセスがリソース不足状態あるいは例外状態により途中終了するときは、プロセスは依然として、プログラムが終了する直前の時点での制御下にある。ここで、例外状態とは、ユーザアプリケーションプロセスによって規定される正常な実行フロー以外の実行であると定義される。一般に、プロセスが必要なリソース（例えば動的メモリ）を割り当てることができないときには、プロセスは、「リソース割当て不能」状態を示すエラーメッセージを印字し、プログラムは途中終了する。このようなソフトウェア途中終了は、多くの有用な処理が浪費されるため、特に長時間動作したアプリケーションでは、もちろん好ましくない。一般に、プロセスは、最初から、あるいは、おそらくは、透過チェックポイントモードで指定された間隔で設定された最後のチェックポイントから、再開始しなければならない。しかし、本発明によるチェックポイント復旧システム１０によれば、プロセスが終了する時点の直前で、ソースコードにチェックポイント関数コールを挿入することが可能である。このようにして、プロセス状態は、後で、途中終了に対応する位置の直前の点に復旧することができる。さらに、本発明によれば、ユーザアプリケーションプロセスが最後のチェックポイントに復旧した後の実行制御機能を利用することによって、復旧サブルーチン１５８の返値は、必要であれば、現在の実行が特殊な回復処理を開始する回復モードであることを示すことが可能である。図１０に、例えば動的メモリを割り当てることの障害によって引き起こされたソフトウェア途中終了を迂回するために利用可能な本発明の機能を含むソースコードのセグメントを示す。第１０１５〜１０５０行に示されるコード列は、第１０１０行でプロセスが動的メモリを割り当てることができない限り実行される。第１０１０行で実行されるmalloc関数コールは、通常Ｃプログラミング言語の関数ライブラリにあるメモリ割当て関数であり、要求されたサイズのメモリブロックを割り当て、宣言されたポインタptrに、割り当てたメモリの開始アドレスの値を返す。例えば他のプロセスが残りのスワップスペースを使い尽くしてしまった場合のように、プロセスが、所望の動的メモリを割り当てることができないとき、プロセスは、変数MAX_RETRY_COUNTによって指定される再試行の最大回数を超えるまで、割当てを再試行する。注意すべき点であるが、再試行の規定の最大回数は０に設定することも可能である。MAX_RETRY_COUNTを超過すると、ステップ１０２５でchkpnt()（チェックポイント）が実行された後、ステップ１０３５でプロセスは終了する。既に指摘したように、プロセスが復旧されるとき、復旧サブルーチン１５８（図８Ａおよび図８Ｂ）が呼び出され、揮発性状態および持続性状態を最後のチェックポイント（換言すれば、終了の直前に実行されたチェックポイント）に復旧する。注意すべき点であるが、復旧サブルーチン１５８の実行時にプログラムカウンタの値が復旧されると、実行は、復旧サブルーチン１５８から揮発性状態チェックポイントサブルーチン１５４にジャンプする。復旧サブルーチン１５８は揮発性状態チェックポイントサブルーチン１５４へ、回復モードを示す正の返値とともに復帰する。このように、図１０の実施例では、正の返値によって、プログラム制御は、回復コードを実行する第１０４０行に進む。この例では、回復コードは、retry_countを０にリセットして、所望の動的メモリの割当てを再試行することからなる。しかし、当業者には明らかなように、他の回復コードを実行することも可能である。注意すべき点であるが、リソース不足状態は過渡的である可能性があり、プロセスが環境の変化により復旧されるときには、同じプロセスが別の条件下で実行されて、リソース不足状態が迂回されることがある。しかし、リソース不足状態が持続性の場合、例えば、現在のマシンが単に、ユーザアプリケーションプロセスの要求を満たすには与えられたリソースでは十分ではない場合、途中終了を迂回するには、より大きい容量を有する別の処理ノードへのプロセスマイグレーションが必要なこともある。本発明の技術は、プロセスをあるワークステーション上で開始した後で、リソース不足状態に遭遇した後にのみ、より大きい容量の所望のリソースを有する別のマシンへプロセスを移動することが可能である。長い初期化の迂回多くのソフトウェアプログラムは、しばしば時間のかかる初期化ルーチンを含む。さらに、同じプログラムが相異なる入力データのセットに対して再実行される場合、各実行において、時間のかかる初期化ルーチンを繰り返す必要があることが多い。しかし、多くの場合、処理ルーチンの多くの実行が、同じ初期化された状態を、相異なる入力データで再使用することが可能である。この場合、初期化状態を保存し、対応するソフトウェアプログラムの将来の実行により異なる入力データのセットで使用するために復旧することにより、ソフトウェアプログラムの効率は大幅に改善される。本発明の特徴によれば、図１１に示すように、与えられたソフトウェアプログラムに関連する初期化状態をチェックポイント実行し、後で異なる入力データに対して実行するために復旧することができる。それぞれの異なる実行ごとに置換される入力ファイルはチェックポイントから除外して、新しい入力ファイルをそれぞれの新しい実行ごとに処理することが可能である。図１１に示すように、長い初期化を迂回する初期化迂回ルーチン１１００はステップ１１０５から開始される。まず、ステップ１１１０で、初期化迂回ルーチン１１００は、例えばコマンドライン、または、入力ファイル名のセットを含むデータファイルから、第１の入力パラメータのセットを読み出す。その後、ステップ１１１５で、与えられたユーザアプリケーションプロセスに適する初期化ルーチンが実行される。ステップ１１２０で、チェックポイントから除外すべきファイル、換言すれば、後のそれぞれの実行で置換すべきファイルが指定される。その後、ステップ１１３０で、揮発性状態と、前のステップで指定されなかった持続性状態の部分とがチェックポイント実行される。チェックポイント関数から制御が戻ると、ステップ１１３５で、チェックポイント関数からの返値が０より大きい（回復モードを示す）かどうかを判定するテストが実行される。ステップ１１３５で、返値が０より大きいと判定された場合、これは、初期化迂回ルーチン１１００の最初の実行であり、ステップ１１５０で、初期化状態と、第１の入力ファイルおよびパラメータのセットとに従って第１のデータのセットが処理される。ステップ１１６０で、さらに処理すべき入力ファイルおよびパラメータのセットがあるかどうかを判定するテストが実行される。ステップ１１６０で、さらに処理すべき入力ファイルおよびパラメータのセットがあると判定された場合、プログラム制御はステップ１１７０に進み、復旧サブルーチン１５８が正の返値で実行される。復旧サブルーチン１５８は、ステップ１１３０で設定されたチェックポイントにプロセス状態を復旧する。注意すべき点であるが、ステップ１１３０でチェックポイント実行されたオープンファイルテーブルは、第１の入力のセットに関連する各入力ファイルをリストしている。しかし、後続の実行では、オープンファイルテーブルにリストされた同じファイルディスクリプタのセットが、それぞれの実行に関連する入力ファイルに関連づけられる。こうして、既に指摘したように、復旧サブルーチン１５８は、ユーザがオープンファイルテーブルを変更しその変更を反映することを可能にする機構を有している。注意すべき点であるが、ステップ１１７０で、プロセス状態が最後のチェックポイントに復旧されると、プログラムカウンタも、そのチェックポイントに対応する値に復旧され、それにより、プログラム制御は、ステップ１１３０で実行されるチェックポイント関数にジャンプする。ステップ１１３０で、プログラム制御が、上記のように、正の返値でチェックポイントから復帰すると、ステップ１１３５で実行されるテストの結果、プログラム制御はステップ１１４０に進む。こうして、入力ファイル名のリストを含む次の入力パラメータのセットは、初期化ルーチンの再実行を必要とせずに、上記のようなステップ１１５０での実行のために、ステップ１１４０で読み出される。しかし、ステップ１１６０で、さらに処理すべき入力ファイルおよびパラメータのセットがないと判定されると、ステップ１１８０で、初期化迂回ルーチン１１００の実行は終了する。メモリ再設定時間が経つと、好ましくないメモリ状態が生じ、ソフトウェアプロセスの効率的実行を妨げるとともに、システム性能を徐々に劣化して、最終的にソフトウェア障害を引き起こすことがある。例えば、ソフトウェアプログラムは、多くの成功した市販品を含めて、ある実行パスに対して正しいメモリ解放を行わない場合に、メモリリークが起こることがある。割り当てられたメモリスペースが、メモリリークの結果、どのポインタからも参照されていないために、アクセスすることができなくなる。一般に、メモリリークは、割り当てられたメモリの第１ブロックを指すポインタが、第１ブロックを解放せずに、割当てメモリの第２ブロックを指すように再割当てされるときに起こる。メモリリークの結果、全体性能の累積的な劣化が生じ、理論的には、時間が経つと、プロセスはメモリを使い果たす。さらに、いくつかの市販のメモリマネージャによって提供されているメモリキャッシュおよび弱いメモリ再使用機構は、マシンが需要を満たす十分な物理的容量を有している場合でも、メモリ不足状態を生じることがある。例えば、ユーザアプリケーションプロセスが繰り返し小さいメモリブロック（例えば、３２バイト以下のブロック）を要求すると、メモリマネージャは、それらの小さいブロックを、解放後、別のリストで、あるいは、メモリキャッシュで、小さいメモリブロックに対する将来の予想される要求に対して管理する。こうして、これらの小さいブロックは、より大きいメモリ要求には利用できなくなる。小さいブロックに対する十分多くの要求があった場合、より大きいメモリ要求は、たとえ十分な物理的容量がある場合でも、拒否されることになる。弱いメモリ再使用機構とは、例えば３０メガバイトのメモリを有するマシンが、例えば１５メガバイトのメモリをまず割り当ててから解放するような場合に関するものである。その後、ユーザアプリケーションプロセスが１６メガバイトの割当てを要求すると、メモリ不足状態に遭遇する。その理由は、解放された１５メガバイトに１メガバイトを追加するのではなく、このメモリマネージャは解放された１５メガバイトを予約し、１６メガバイトを割り当てようとする。この場合、実際には十分な物理的容量があるのに、マシンのメモリ限界を超えるようにみえる。本発明の特徴によれば、図１２に示すメモリ再設定サブルーチン１２００は、プロセスのメモリを、揮発性状態の一部としての「クリーン」状態においてチェックポイント実行し、ソフトウェア障害を防ぐために、ときどきプロセスをそのクリーン状態にロールバックする。ステップ１２１０で、メモリ再設定サブルーチン１２００は、ループインデックスｉを０にセットする。その後、ステップ１２１５で、適当な初期化ルーチンを実行する。注意すべき点であるが、初期化された状態は、チェックポイント実行される揮発性状態の一部である。ステップ１２２０で、すべてのユーザファイルをチェックポイントから除外するように指定する。こうして、チェックポイントが設定され、後で復旧されるときに、クリーンなメモリ状態のみが復旧されることになる。さらに、すべての持続性状態、換言すれば、すべての入力ファイルをチェックポイントから除外することによって、ユーザファイルの現在の内容が復旧後に維持される。ステップ１２３０で、揮発性状態チェックポイントサブルーチン１５４（図６）を実行することによって、揮発性状態がチェックポイント実行される。その後、ステップ１２４０で、初期化状態およびループインデックスｉの現在の値に基づいて、所望の処理タスクが実行される。ステップ１２４５で、前のステップで実行された処理タスクの結果が、周知のようにして、出力バッファに書き込まれる。出力バッファの内容は、バッファがフルになるまで、あるいは、flushシステムコールが実行されるまでは、ディスクのような目的とする宛先に送られない。ステップ１２５０で、さらに処理すべきループインデックスｉの値があるかどうかを判定するテストが実行される。ステップ１２５０で、さらに処理すべきループインデックスｉの値があると判定された場合、ステップ１２５５で、ループインデックスがインクリメントされる。その後、ステップ１２７０で、ループインデックスｉの現在の値が、指定された再設定周期の倍数であるかどうがを判定するテストが実行される。換言すれば、１５回の実行ごとにクリーンなメモリ状態を復旧すべきである場合、ループインデックスの現在の値が１５の倍数であるかどうかを判定するテストが実行される。ステップ１２７０で、ループインデックスｉの現在の値が、指定された再設定周期の倍数でないと判定された場合、プログラム制御はステップ１２４０に戻り、上記のようにして処理を継続する。しかし、ステップ１２７０で、ループインデックスｉの現在の値が、指定された再設定周期の倍数であると判定された場合、ステップ１２７５で、出力バッファがフラッシュされた後、メモリはクリーン状態に復旧される。その後、ステップ１２８０で、返値をループインデックスｉの現在の値に等しくして、復旧サブルーチン１５８を実行することによって、挿発性状態にロールバックする。チェックポイントはユーザファイルを含まないため、クリーンなメモリ状態のみが復旧される。既に指摘したように、復旧サブルーチン１５８は、ステップ１２３０で、チェックポイント関数から返値とともに復帰する。そこで、この返値（ループインデックスに等しい）を保持することによって、ユーザアプリケーションプロセスの正しい進行が保証される。復旧サブルーチン１５８がチェックポイント関数から復帰すると、プログラム制御はステップ１２４０に進み、上記の通り継続する。ステップ１２５０で、さらに処理すべきループインデックスｉの値がないと判定された場合、プログラム制御はステップ１２９０に進み、メモリ再設定サブルーチン１２００の実行は終了する。理解されるように、ここで説明した実施例およびその変形例は本発明の単なる例示であり、当業者であれば、本発明の技術的範囲を離れることなく、さまざまな変形例を実施することが可能である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者フアン、イェンヌンアメリカ合衆国 08807 ニュージャージー、サマセットカウンティ、ブリッジウォーター、リンバーガードライヴ 33 (72)発明者キンタラ、チャンドラアメリカ合衆国 07059 ニュージャージー、サマセットカウンティ、ウォーレン、マウンテンアヴェニュー 29 (72)発明者ヴォー、キエム−フォンアメリカ合衆国 07922 ニュージャージー、ユニオンカウンティ、バークレーハイツ、スウェンソンサークル 80 (72)発明者ワン、イー−ミンアメリカ合衆国 07922 ニュージャージー、ユニオンカウンティ、バークレーハイツ、パインウッドクレセント 10

Claims

【特許請求の範囲】１．チェックポイント実行された状態の復旧後に、プロセス状態を有するユーザアプリケーションプロセスの実行を制御する方法において、第１実行ポイントでプロセス状態の少なくとも一部をチェックポイント実行するステップと、少なくとも１つの変数の復旧前の値を保持して、第２実行ポイントでプロセス状態をチェックポイント実行された状態に復旧するステップと、復旧されたプロセス状態を用いてユーザアプリケーションプロセスの実行を再開するステップと、保持された復旧前の値に基づいてユーザアプリケーションプロセス中の命令を実行するステップとからなることを特徴とする、復旧後にユーザアプリケーションプロセスの実行を制御する方法。２．前記保持された復旧前の値は回復モードを示すことを特徴とする請求項１の方法。３．前記命令は、前記回復モード中にのみ実行される命令であることを特徴とする請求項２の方法。４．ソフトウェア途中終了を引き起こす例外状態を迂回するためにユーザアプリケーションによって使用される方法において、アプリケーションプロセスにおいて例外状態をモニタするステップと、例外状態の検出後、プロセスを途中終了する前に、チェックポイント位置において、ユーザアプリケーションプロセスのチェックポイントを開始するステップと、プロセスを終了するステップと、遅延期間後に、回復モードを示す返値引数とともにプロセスをチェックポイント位置に復旧する復旧ステップと、復旧後に返値を検査し、該返値が回復モードを示す場合、例外状態を迂回することを試みるステップとからなることを特徴とする、ソフトウェア途中終了を引き起こす例外状態を迂回する方法。５．前記例外状態を迂回する試みがあらかじめ定義された回数だけ失敗した後にのみ、チェックポイントが開始されることを特徴とする請求項４の方法。６．遅延された復旧により、過渡的な例外状態を迂回するのに適した環境変化が提供されることを特徴とする請求項４の方法。７．前記例外状態はリソース不足状態であることを特徴とする請求項４の方法。８．前記例外状態は所望のリソースの割当ての失敗であることを特徴とする請求項４の方法。９．あらかじめ定義された再試行回数だけ前記復旧ステップを再試行するステップと、前記あらかじめ定義された再試行回数を超えた場合、前記プロセスを別のマシンに移動するステップとをさらに有することを特徴とする請求項４の方法。１０．リソース不足状態によるフトウェア途中終了を迂回するためにユーザアプリケーションによって使用される方法において、アプリケーションプロセスにおいてリソース不足状態をモニタするステップと、リソース不足状態の検出後、プロセスを途中終了する前に、チェックポイント位置において、ユーザアプリケーションプロセスのチェックポイントを開始するステップと、プロセスを終了するステップと、遅延期間後に、回復モードを示す返値引数とともにプロセスをチェックポイント位置に復旧する復旧ステップと、復旧後に返値を検査し、該返値が回復モードを示す場合、リソースの割当てを試みるステップとからなることを特徴とする、リソース不足状態によるフトウェア途中終了を迂回する方法。１１．前記リソースの割当ての試みがあらかじめ定義された回数だけ失敗した後にのみ、チェックポイントが開始されることを特徴とする請求項１０の方法。１２．遅延された復旧により、過渡的なリソース不足状態を迂回するのに適した環境変化が提供されることを特徴とする請求項１０の方法。１３．あらかじめ定義された再試行回数だけ前記復旧ステップを再試行するステップと、前記あらかじめ定義された再試行回数を超えた場合、前記プロセスを別のマシンに移動するステップとをさらに有することを特徴とする請求項１０の方法。１４．ユーザアプリケーションプロセスにインポートされたソフトウェアコンポーネント中の欠陥を許容する方法において、ユーザアプリケーションプロセスは、関連するユーザファイルを含むプロセス状態を有し、ユーザアプリケーションプロセスは、カウンタ値によって識別される少なくとも２回の繰り返し回数だけ、処理タスクを実行し、前記方法は、（ａ）ユーザアプリケーションプロセスを初期化して初期化状態を形成するステップと、（ｂ）ユーザファイルをプロセス状態のチェックポイントから除外するように指定するステップと、（ｃ）プロセス状態のうち除外されなかった部分をチェックポイント実行するステップと、（ｄ）前記初期化状態および前記カウンタ値に基づいて処理タスクを実行するステップと、（ｅ）前記カウンタ値をインクリメントするステップと、（ｆ）あらかじめ定義されたカウンタ値の値に対して、カウンタ値の現在の値を保持して、プロセス状態のうちチェックポイントされた部分を復旧するステップと、（ｇ）前記ステップｄを繰り返すステップとからなることを特徴とする、ユーザアプリケーションプロセスにインポートされたソフトウェアコンポーネント中の欠陥を許容する方法。１５．前記欠陥は、好ましくないメモリ状態を導入し、前記ステップｃは、前記好ましくないメモリ状態が導入される前に、メモリ状態のチェックポイントを実行することを特徴とする請求項１４の方法。１６．コンピュータシステム上で連続実行中にコンピュータプロセスをチェックポイント実行し復旧する方法において、コンピュータプロセスは、関連するユーザファイルを含むプロセス状態を有し、前記方法は、（ａ）チェックポイント実行されるプロセス状態からユーザファイルを除外するステップと、（ｂ）プロセス状態のうち除外されなかった部分を、第１実行ポイントにおいてチェックポイント実行するステップと、（ｃ）少なくとも１つの復旧前の値を保持して、プロセス状態をチェックポイント実行された状態に、第２実行ポイントにおいて復旧するステップと、（ｄ）復旧されたプロセス状態を用いてプロセスの実行を再開するステップとからなることを特徴とする、コンピュータプロセスをチェックポイント実行し復旧する方法。１７．前記ステップｂは、前記コンピュータプロセス中の欠陥が好ましくないメモリ状態を導入する前に実行され、前記ステップｃは、メモリをクリーン状態に復旧することを特徴とする請求項１６の方法。１８．前記ステップｃの前に、出力バッファをフラッシュするステップをさらに有することを特徴とする請求項１６の方法。１９．コンピュータシステム上で連続実行中にコンピュータプロセスをチェックポイント実行し復旧する方法において、コンピュータプロセスは、変数を使用し、関連するユーザファイルを含むプロセス状態を有し、前記方法は、チェックポイント実行されるプロセス状態からユーザファイルを除外するステップと、復旧後に保護されるべき変数を識別するステップと、プロセス状態のうち除外されなかった部分を、第１実行ポイントにおいてチェックポイント実行するステップと、識別された保護される変数の復旧前の値を保持して、プロセス状態をチェックポイント実行された状態に、第２実行ポイントにおいて復旧するステップと、復旧されたプロセス状態を用いてプロセスの実行を再開するステップとからなることを特徴とする、コンピュータプロセスをチェックポイント実行し復旧する方法。２０．コンピュータシステム上で連続実行中にコンピュータプロセスをチェックポイント実行し復旧するシステムにおいて、コンピュータプロセスは、変数を使用し、関連するユーザファイルを含むプロセス状態を有し、前記システムは、チェックポイント実行されるプロセス状態からユーザファイルを除外する手段と、復旧後に保護されるべき変数を識別する手段と、プロセス状態の少なくとも一部のチェックポイントを記憶するメモリデバイスと、プロセス状態のうち除外されなかった部分を、第１実行ポイントにおいてチェックポイント実行する手段と、識別された保護される変数の復旧前の値を保持して、プロセス状態をチェックポイント実行された状態に、第２実行ポイントにおいて復旧する処理手段と、復旧されたプロセス状態を用いてプロセスの実行を再開するプロセッサとからなることを特徴とする、コンピュータプロセスをチェックポイント実行し復旧するシステム。