JP2002522845A

JP2002522845A - フォールトトレラント・コンピュータシステム

Info

Publication number: JP2002522845A
Application number: JP2000565464A
Authority: JP
Inventors: ロンストロム、ミカエル
Original assignee: テレフオンアクチーボラゲツトエルエムエリクソン（パブル）
Priority date: 1998-08-11
Filing date: 1999-08-09
Publication date: 2002-07-23
Also published as: US6438707B1; EP1110148B1; AU5731699A; CN1312922A; CA2339783A1; CN1137439C; KR20010072379A; EP1110148A1; DE19836347A1; DE19836347C2; BR9912879A; KR100575497B1; WO2000010087A1; CA2339783C

Abstract

(57)【要約】装置間通信を削減したフォールトトレラント・コンピュータシステム及び方法。生システムは、受け取られたコマンドに応答してイベントプロセスを実行すべく配置される。イベントプロセスの実行が、正常な終了又は割込みによりホールトされるたびに、イベント生成器は、イベントプロセスの種類及びイベントプロセスのホールト理由を示すイベントメッセージを生成する。このイベントメッセージを使用して、バックアップシステムが同じイベントプロセスを確実に行えるようにする。イベントメッセージはイベントプロセスをホールトする理由とタイミングも指定するので、バックアップシステムにおいて、イベントプロセスを再現することができる。このように、生システムと少なくとも１つのバックアップシステムは同期される。少なくとも１つのスタンバイシステムを備え、イベントメッセージのシーケンスをイベントログに記録し、生システムのメモリ内容のアーカイブコピーを記録することができる。アーカイブコピーを持つイベントログを使用して、生システムのシステム状態を再現することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

本発明は、フォールトトレラント・コンピュータシステム及びコンピュータシ
ステムのフォールトトレラント動作の方法に関する。

【０００２】

【従来の技術】

コンピュータあるいはコンピュータシステムは、バンキングシステムや通信ネ
ットワークのような障害に敏感な業務に益々使用されるようになってきている。
コンピュータが故障すると、あるいは、間違った動作を１つ行うだけで、深刻な
問題が生じる可能性がある。例えば、バンキングシステムにおいて、取引間で間
違った金額が送金されることがあり、通信システムにおいては、通信ラインが予
告なしに中断されたり、所望しない接続が行われたり、あるいは長時間システム
が動作しないということもある。当然、このような問題は、避けなければならな
い。

【０００３】上記問題に対処するための一般に知られた方法として、１対１対応でコンピュ
ータシステムを複写し(replicate)、両方のコンピュータシステムに同じ命令シ
ーケンスを行わせる方法がある。しかしながら、これは、２つのコンピュータシ
ステム間で高いユニット間（inter-unit）通信負荷を必要とする。何故なら、動
作をチェックし、非常に詳細なレベルで同期させなければならないからである。
更に、より高い頻度でのユニット間通信の処理は重要なコスト要因となる。

【０００４】ユニット間通信負荷を減らす１つのアプローチが米国特許第５，５４４，３０
４号に記載されている。アクティブユニットとスタンバイユニットの両方によっ
てコマンドが受信されてキューイングされる。そして、アクティブユニットだけ
がコマンドを処理する。システムは、短いメッセージを提供し、それがアクティ
ブユニットとスタンバイユニットの間で送られ、特定のコマンドの状態について
質問したり、あるいは特定のコマンドの状態を提供する。アクティブユニットと
スタンバイユニットのコントローラの間で交換される短い信号を含む周期的ハン
ドシェイクが２つのユニットの間で行われる。

【０００５】しかしながら、故障が生じた場合、このシステムは、スタンバイユニットを使
用して動作を再開するのに長時間を必要とする。何故なら、ユニット間で行われ
る周期的ハンドシェイクでは、高レベルの同期を維持するのは不可能だからであ
る。

【０００６】（発明の要約）従って、本発明の目的は、生システムとバックアップシステムとの間での通信
負荷が低いにもかかわらず高レベルの同期を可能とするフォールトトレラント・
コンピュータシステム及びフォールトトレラント・コンピュータシステムを動作
させる方法を提供することである。

【０００７】本発明のこの目的は、請求項１記載の特徴を備えたフォルトトレラント・コン
ピュータシステム及び請求項１３記載の特徴を備えたコンピュータシステムのフ
ォールトトレラント動作の方法によって達成される。

【０００８】本発明によれば、生システムは、生中央演算装置と、システムデータとアプリ
ケーションデータとを記憶するための生メモリ手段と、生中央演算装置がイベン
トプロセスの実行をホールトする(halts)ごとにイベントメッセージを発生する
ためのイベント生成器とを備える。イベントメッセージは、少なくとも、イベン
トプロセスの種類と、イベントプロセスの実行をホールトさせるための理由につ
いての情報を含む。少なくとも１つのバックアップシステムが備えられ、これは
、バックアップ中央演算装置と、バックアップメモリ手段と、生システムから受
け取られる一連のイベントメッセージを一時的に記憶するためのバッファとを備
える。バックアップ制御手段は、各イベントメッセージに対応するイベントプロ
セスの実行をスケジュールする。イベントプロセスは、生システムとバックアッ
プシステムとにおいて、同じように実行される。

【０００９】生演算装置は、イベントプロセスの実行がホールトされる場合にのみ、イベン
トメッセージをバックアップシステムへ報告するのが有利である。これにより、
ユニット間通信をかなり削減することができ、生システムによる少なくとも１つ
のバックアップシステムの状態の詳細なチェックは、もはや、不用となる。

【００１０】少なくとも１つのバックアップシステムにおいて、イベントプロセス及びイベ
ントプロセスの実行をホールトする理由についてのすべての必要な情報は、イベ
ントメッセージを介して知ることができるので、その少なくとも１つのバックア
ップシステムは、生システムにおけるイベントプロセスの実行の様子を複写する
ことができる。これは、アクセスされたデータ、生成されたデータ、その他の変
化を受けたデータを含み、また、生システムにおけるのと時間的に同一の位置で
、即ち、同数の命令の後に、イベントをホールトさせることを含む。

【００１１】生システムと少なくとも１つのバックアップシステムにおいて、イベントプロ
セスを全く等しく行うことによって、生システムの状態と少なくとも１つのバッ
クアップシステムの状態との間に、メモリ内容も含めて、高レベルの同期を達成
することができる。このようにすれば、例えば、詳細なレベルでのメモリ手段の
チェックや、メモリ手段への変化の報告が不用となる。少なくとも１つのバック
アップシステムは、生システムに適用されたのと全く同じ変更をデータベースあ
るいはシステムデータに適用する。

【００１２】本発明の有利な実施の形態において、イベントプロセスをホールトさせる可能
性のある２つの理由がある。まず第１に、イベントプロセスは、正常に終了する
ことができる、即ち、対応するコマンドの実行が完了することを条件に終了する
ことができる。第２に、イベントプロセスは、例えば、別のイベントプロセスの
実行を要求する、より高い優先度を持つ更なるコマンドによって割込まれること
がある。このように、イベントプロセスが正常な終了によりホールトしたのか、
あるいは割込みによってホールトされたのかについての情報がイベントメッセー
ジに含まれる。

【００１３】本発明の更に有利な実施の形態において、生システムと少なくとも１つのバッ
クアップシステムの両方におけるイベントプロセスの実行を示すイベントデータ
を生成するための手段が備えられる。更に、生システムと少なくとも１つのバッ
クアップシステムにおいて生成されたイベントデータの比較に基づいて、システ
ム障害(fault)を検出するための手段が備えられる。このように、コンピュータ
システムの動作に障害があるか否かを判定することができる。生システムに障害
が生じたということが検出された場合、バックアップシステムが新規生システム
としての機能を引き受けるべく選択することができる。障害には、生システムに
おけるソフトウェアの障害あるいはハードウェアの障害、あるいはバックアップ
システムにおけるハードウェア障害などが含まれる。

【００１４】バックアップシステムの数は、システムのフォールトトレランスを更に高める
べく、任意であり、例えば、複数のバックアップシステムを使用することによっ
て、障害がどこにあるかを簡単に見つけることができる。

【００１５】更に、システムデータとアプリケーションデータとのアーカイブコピーを受け
取り記憶するための少なくとも１つのスタンバイシステムを備えるのが有利であ
る。このスタンバイシステムは、イベントログにおいて、生システムで生成され
たイベントメッセージのシーケンスをも記録することができる。スタンバイシス
テムは、システム及びアプリケーションデータのアーカイブコピーを使用して、
イベントログに記憶されたイベントメッセージに対応するイベントプロセスを実
行するように配置することができる。このように、アーカイブコピーを生成した
後のすべてのイベントがスタンバイシステムにおいて知られていれば、システム
及びアプリケーションデータのアーカイブコピーは、データあるいはイベントプ
ロセスを１つも失うことなく、現在の版に更新することができる。スタンバイシ
ステムは、更なるフォールトトレランス能力を付け加える。何故なら、任意の時
点で、生システムの状態を回復することができるからである。

【００１６】生システムは、複数の外部装置に接続することができ、それは、コンピュータ
システムの区域内プロセッサ(regional processors)又は分散中央プロセッサ(di
stributed central processors)であってよい。イベントプロセスは、区域内プ
ロセッサからの信号を実行することによって、あるいは分散中央プロセッサから
の信号を実行することによって構成することができる。更に、イベントプロセス
は、内部タイマー割込みによるプロセッサジョブテーブルのスキャン動作、及び
生システムの内部機能によって構成することができる。区域内プロセッサ又は分
散中央プロセッサからのコマンドによって生起される外部イベントプロセスを定
義することによって、また、タイマー割込み又はその他のシステム機能によって
生起される内部イベントプロセスを定義することによって、生システムのシステ
ム状態のすべての可能な変化を記述することができる。

【００１７】イベントメッセージは、イベントプロセスの実行シーケンスを示すシーケンス
数を含むと、例えば、イベントプロセスのシーケンスが、少なくとも１つのバッ
クアップシステムにおいてイベントメッセージの受け取りシーケンスによって定
義されていない場合に、有利である。更に、イベントプロセスホールト条件を指
定するためにイベントメッセージには、例えば実行される命令の数を含ませるこ
とができる。また、イベントメッセージは、割込みが生じた際の生システムにお
けるレジスタ状態や、イベントプロセスによって定義あるいはアクセスされたデ
ータを備えることができる。イベントメッセージにおいてこの情報を組み合わせ
ることによって、イベントプロセスを更に完全に記述することができるようにな
り、少なくとも１つのバックアップシステムにおいて完全に同じ方法で実行した
りホールトしたりすることができるようになる。

【００１８】ソフトウェアホールトが生システムにおいて検出された場合、イベントメッセ
ージは、そのソフトウェアホールトを指定する情報と、バックアップシステムが
ソフトウェアフォールトを回避するのを可能にする情報を含むことができる。次
に、バックアップシステムが、動作を引き継ぐ。

【００１９】本発明の他の有利な実施の形態によれば、複数の処理ノードを備えることがで
き、それぞれは第１処理ノード用の生システムと第２処理ノード用のバックアッ
プシステムを含む。更に、各処理ノードは、第３処理ノード用のスタンバイシス
テムを含むことができる。このように、各ノードは、同時に、生システム及び/
又はバックアップシステム及び/又はスタンバイシステムとして機能することが
できる。好ましくは、すべてのノードの間の通信用の手段が備えられる。生処理
ユニット、バックアップ処理ユニット、及びスタンバイ処理ユニットは、単一デ
ータ処理ユニットにより構成することが可能である。

【００２０】更に、本発明の有利な実施の形態は、従属クレームに記載されている。本発明は、添付図面を参照しながら、以下の好ましい実施の形態の説明を読む
ことによって、より良く理解することができる。

【００２１】以下、図１乃至図７を参照しながら、本発明の好ましい実施の形態について説
明する。図面において、同じ参照番号は、同じ構成要素を示す。

【００２２】図１は、本発明によるフォールトトレラント・コンピュータシステムの第１の
実施の形態を示す。図１のフォールトトレラント・コンピュータシステムは、生
システム１００（ＰＳ）と、バックアップシステム１１０（ＢＳ）と、故障(フ
ォールト)検出手段１２０（ＦＤ）と、複数の外部装置１４１，１４２，１４３
，１４４を備える。中央通信手段１３０が備えられ、各システム構成要素は、相
互に通信することができる。

【００２３】図１による本発明の実施の形態のフォールトトレラント・コンピュータシステ
ムは、バンキングシステム、ブッキングシステム、通信ネットワークなどの障害
に敏感な業務に使用することができる。

【００２４】本発明によると、生システムは、動作に対して責任がある。即ち、生システム
は、業務に必要なすべての動作を実行する。この場合、生システムは、例えば、
通信ネットワークにおいて、通信リンクに対する要求を受け取る責任があり、通
信を設定する(establish)責任があり、加入者サービスデータ、加入者ロケーシ
ョンデータなどを扱う責任がある。

【００２５】バックアップシステムは、システムの機能あるいは動作を直接実行はしないが
、コンピュータシステムのフォールトトレラント動作を可能にするための生資源
を提供する。

【００２６】外部装置１４１乃至１４４は、生システム１００と通信できるように配置され
、生システムにおいてコマンドを発行したり、あるいはイベントを生成すること
ができるようにすると良い。通信ネットワークにおいて、外部装置は、スイッチ
、分散通信ネットワークの区域内プロセッサ(regional processors)によって構
成することができるが、あるいは、例えば、通信ネットワークの移動切り替えセ
ンターにおける分散中央演算システムの装置であってもよい。外部装置は、通信
に対する要求、加入者サービスについての情報を要求するコマンドを発行したり
、あるいは、外部装置などによって行われるアクションについての知らせを送る
。

【００２７】外部装置との相互作用、例えば、コマンドは、すべて、生システム１００によ
って扱われるのが好ましい。バックアップシステム１１０もコマンドを受信する
ことができるが、バックアップシステムは、コマンドを直接的に処理しない方が
好ましい。

【００２８】図１の内部通信手段１３０の構造に依存して、フォールトトレラント・コンピ
ュータシステムのすべての構成要素は、通信手段１３０を介して、相互に接続さ
れているが、他の実施の形態においては、外部装置１４１乃至１４４は、生シス
テム１００にのみ接続することができる。フォールトトレラント・コンピュータ
システムの動作に依存して、例えば、生システムにおいてシステム故障が生じた
場合、外部装置１４１乃至１４４は、生システムから切り離してバックアップシ
ステム１１０に接続することができる。この目的のために、切り替え手段を備え
ることができるが、これは本発明を構成するものではないので、これ以上は説明
しない。

【００２９】生システム１００は、本発明によるコンピュータシステムを動作させるための
いくつかの構成要素を備える。好ましくは、生システムは、コマンドを受信し処
理し、外部装置１４１乃至１４４との通信を扱うための生中央演算装置１０１（
Ｐ−ＣＰＵ）を備える。

【００３０】更に、生システム１００は、生システムのシステム状態に関するシステムデー
タや、アプリケーションに関するアプリケーションデータを記憶するための生メ
モリ手段１０２（ＰＭ）を備える。本実施の形態において、加入者データ及び内
部データは、生メモリ手段内に記憶することができる。図１において、生メモリ
手段は、単一装置として示されているが、生メモリ手段１０２は、別々の装置に
分割することもできる。第１の装置は生システムのシステム状態に関するシステ
ムデータを記憶し、生メモリ手段の第２の装置は、加入者データを記憶するため
のデータベースによって構成することができる。

【００３１】生中央演算装置１０１の動作は従来行われているようにコマンドにより制御さ
れる。生中央演算装置１０１の動作は、例えば、システム状態や生メモリ手段の
内容に影響を与える。

【００３２】コマンドは、外部装置１４１乃至１４４の１つによって発行することができる
が、あるいは、生システム１００の何らかのシステム状態に従って、内部的に生
成することもできる。いずれの場合においても、生中央演算装置１０１は、コマ
ンドあるいはイベントを受け取ると、アクションを起こし、イベントプロセスに
おいてそのコマンドを実行する。イベントプロセスは、生メモリ手段１０２内に
記憶されたデータを変化させ、外部装置１４１乃至１４４の１つと通信すること
になる可能性がある。イベントプロセスの実行の際、更なるイベントプロセスを
実行するためのコマンドあるいは命令が生成されることがある。好ましくは、１
つのコマンドが、生システムにおけるシステム動作のシーケンスをもたらし、そ
こには、生中央演算装置の動作が含まれ、また、アプリケーションデータやシス
テムデータなど、生メモリ手段に記憶されたデータに対する変化も含むことがで
きる。

【００３３】デジタル信号処理において一般的に行われているように、コマンド又はイベン
トを受け取った際のイベントプロセスの実行は、正常な終了によって終わること
もあれば、例えば、より高い優先度を持つ更なるコマンド又はイベントによって
割込まれることもある。この場合、生中央演算装置１０１の現在の動作はホール
トされ、高い優先度を持つコマンドが実行され、その後、第１のコマンドの実行
が再開される。割込みは、例えば、内部タイミング手段により知らせを受けた際
に生じることもあれば、外界から受け取られることもある。割込み発生は、外界
との相互作用に依存するだけでなく、生システム内の内部イベントにより発生す
ることもある。従って、生システム内でのコマンド又はイベント又は割込みの正
確なタイミングは、簡単には決められず、例えば、コマンド又は割込みの発生を
知らせるだけでは充分でなく、割込みが発生したときのすべての状況及び正確な
タイミングを正確に記述することが必要である。

【００３４】バックアップシステムが生システムと全く同じ状態及びメモリ内容を持つこと
を確実にすべく、本発明により、イベント生成器１０３（ＥＧ）が備えられ、生
中央演算装置１０１に接続され、生中央演算装置がイベントプロセス（コマンド
の実行）をホールトするたびに、イベントメッセージを生成する。以上に概略を
述べたように、バックアップシステムと生システムとの間の同期については、コ
マンド又はイベントを報告するだけでは不充分であり、イベントプロセスの実行
の状況についての更なる情報を送信することが必要である。従って、イベントメ
ッセージは、少なくとも、生システムにおいて実行されるイベントプロセスの種
類についての情報を含み、更に、イベントプロセスの実行をホールトする理由及
び状況についての情報を含む。

【００３５】バックアップシステム１１０は、生システムと同様に、好ましくは、バックア
ップ中央演算装置１１１（Ｂ−ＣＰＵ）と、バックアップメモリ手段１１２（Ｂ
Ｍ）とを備える。生メモリ手段として、バックアップメモリ手段が配置され、バ
ックアップシステムのシステム状態に関するシステムデータ及びアプリケーショ
ンデータを記憶する。

【００３６】更に、バックアップシステムは、生システム１００において生成された一連の
イベントメッセージを受け取り中間的に(intermediately)記憶するためのバッフ
ァ１１３（Ｂ）を備え、また、バックアップ中央演算装置に接続されたバックア
ップ制御手段１１４を備え、イベントプロセスの実行のスケジューリングを行い
、例えば、生システムからバッファで受け取られたイベントメッセージの受信順
序で、あるいは、生システムにおけるイベントプロセスの実行シーケンスを示す
イベントプロセスインジケータに従ってスケジューリングを行う。

【００３７】尚、図１では単一のバックアップシステムが示されているが、複数のバックア
ップシステムを備えて、それらに対して、生システムに対応するイベントプロセ
スシーケンスを実行させることもできる。

【００３８】従って、短い遅延を持って、例えば、０．５乃至１ｍｓの遅延を持って、バッ
クアップシステムは、生システムにおいて実行されたのと全く同じイベントプロ
セスシーケンスを実行することになり、生メモリ手段１０２とバックアップメモ
リ手段１１２とが同期される。

【００３９】生システムにおいてコマンドが受信されるか、あるいは生システム内でコマン
ドが生成されると、即ち、生システム１００においてイベントが生じると、中央
演算装置１０１は、スケジューリング政策に従って、コマンドに従うイベントプ
ロセスを実行する。ある時点において、イベントは、正常なイベントプロセス実
行により、あるいは割込みにより、ホールトされる。どちらの場合においても、
イベントプロセス実行をホールトした時点で、イベント生成器は、イベントプロ
セスを示す情報及びその処理をホールトする理由を示す情報を備えるイベントメ
ッセージを生成する。処理をホールトする理由は、先に簡単に述べたように、イ
ベントプロセスの実行が完了したことによる正常な終了、あるいは割込み発生で
ある。

【００４０】好ましくは、生システムにおけるイベントプロセスをホールトした後、イベン
トメッセージはバックアップシステムに送信され、バックアップ制御手段１１４
により制御されて、対応のイベントプロセスが、生システムと比較してわずかな
遅延を持って、実行される。

【００４１】イベントメッセージは、また、生システムにおけるイベントプロセスの実行シ
ーケンスを示すシーケンス番号を備えることができ、生システムにおいてイベン
トプロセスがホールトされるまでに実行された命令の数を含むことができる。更
に、イベントメッセージは、イベントが生じた際の生システムのレジスタ状態及
びイベントプロセスにより定義された又はアクセスされたデータを備えることが
できる。

【００４２】尚、生システム内のすべての起りうる処理は、イベントプロセスによって適切
に定義されている必要があり、これにより、未定義の処理が生システムとバック
アップシステムにおいて異なる実行が生じることを防止する。従って、例えば外
部Ｉ／Ｏシステムとの通信は、完全に定義されたイベントプロセスのコンセプト
内で行われることが確保される。ファイルシステムとの未構成の(unstructured)
直接的通信ＴＣＰ／ＩＰなどは許可されない。通信は、イベントプロセスを介し
て、生中央演算装置により扱われる完全に定義された信号によって行わなければ
ならない。これらの前提条件が満たされれば、イベントメッセージを使用して、
システム状態又は生メモリ手段に記憶されたデータに影響を与える、生システム
内のすべての遷移を充分に記述することができる。

【００４３】本発明の重要な特徴として、イベントプロセスがホールト又は終了されると、
イベントメッセージが生成され、これにより、イベントプロセスの実行について
の正確な情報をバックアップシステムに伝えることができ、ここには、イベント
プロセス及びイベントプロセスをホールトする理由についてのデータが含まれる
。イベントプロセスは、外部装置、例えば、区域内プロセッサ又は分散中央プロ
セッサからの信号を実行することによって構成することができる。また、イベン
トプロセスは、生システム内の内部タイマーのタイマー割込みによるジョブテー
ブルのスキャン命令によっても構成することができる。更に、イベントプロセス
は、生システムの内部機能又は生システム内の内部機能を実行することによって
も構成することができる。従って、イベントプロセスが終了すると、生システム
のイベント生成器１０３がイベントメッセージを生成し、そこには、少なくとも
イベントプロセスの種類、及びイベントプロセスのホールト理由が含まれる。イベントが、スキャンジョブテーブルを行うことであれば、スキャンが行われ
、そのスキャンジョブテーブルイベントプロセスが正常に終了した際に、あるい
はそのスキャンジョブテーブル処理が割込まれた際に、イベント生成器がイベン
トメッセージを生成する。

【００４４】更に、例えば、区域内プロセッサ又は分散中央プロセッサのような外部装置か
らコマンド又は信号を受け取ると、イベントメッセージが生成される。

【００４５】先に概略を述べたように、イベントメッセージはバックアップシステム１１０
に送られ、そこで中間的に(intermediately)バッファ１１３に記憶されるのが好
ましい。次に、バックアップ制御手段１１４は、バッファで受け取られたイベン
トメッセージに従って、あるいはイベントメッセージに含まれるシーケンス番号
に従って、イベントプロセスの実行をスケジュールする。

【００４６】各イベントメッセージは、イベントプロセスの実行に必要なすべての情報を備
え、バックアップ制御手段１１４は、バックアップ中央演算装置１１１に、生中
央演算装置において以前に実行されたと同じイベントプロセスを実行するよう指
示することができる。更に、送られたメッセージは各々イベントプロセスのホー
ルトの理由についての情報を備えるので、バックアップ制御手段は、バックアッ
プ中央演算装置１１１に、生中央演算装置１０１でホールトされたのと全く同じ
位置でそのイベントプロセスの実行をホールトするように指示することができる
。この文脈における位置とは、対応のイベントプロセスがホールトされたときに
生中央演算装置において達成されたのと同じイベントプロセス実行レベルがバッ
クアップ中央演算装置によって達成されたときの実行中のポイントである。この
ように、生システムにおけるイベントプロセスが正常な実行により終了した場合
は、バックアップシステムにおける対応のイベントプロセスも、正常な実行によ
り終了する。また、生システムにおけるイベントプロセスが割込みによりホール
トされた場合は、バックアップシステムにおける対応のイベントプロセスも、イ
ベントプロセスの全く同じ実行段階において割込まれる。

【００４７】生システム及び/又は少なくとも１つのバックアップシステムにおいて間違っ
た動作が生じるまで、生システムと１つのバックアップシステムとの間の厳格な
対応あるいは同期は成功する。従って、生システムとバックアップシステムから
の実行パラメータを比較することによって、システムフォールトを検出すること
ができる。

【００４８】本発明によるフォールトトレラント・コンピュータシステムは、システムフォ
ールトを検出するためのフォールト検出手段１２０を備えることができる。フォ
ールト検出手段１２０は、別個の装置で、データ通信手段１３０に接続されたも
のであってもよいし、あるいはバックアップシステム１１０又は生システム内に
含めてもよいし、あるいは、その他のフォールトトレラント・コンピュータシス
テムに含めてもよい。

【００４９】好ましくは、フォールト検出手段１２０は、生システムにおけるイベントプロ
セスの実行について記録されたデータを、対応のイベントプロセスとバックアッ
プシステムの実行について記録されたデータと比較する。フォールトトレラント
・コンピュータシステムは、好ましくは、生システムにおけるイベントプロセス
の実行を示すイベントデータを生成するための第１手段と、少なくとも１つのバ
ックアップシステムにおける同じイベントプロセスの実行を示すイベントデータ
を生成するための第２手段とを備える。

【００５０】生システムとバックアップシステムで生成されたイベントデータは、好ましく
は、フォールト検出手段に送られ、フォールト検出手段は、イベントデータの比
較に基づいて、システムフォールトを検出する。生システムからのイベントデー
タとバックアップシステムからのイベントデータが完全に一致すれば、システム
フォールトは生じない。生システムとバックアップシステムにおけるイベントプ
ロセスの実行についてのイベントデータが一致しない場合は、システムフォール
トが示される。生システムと少なくとも１つのバックアップシステムにおけるシ
ステムデータの比較に基づくシステムフォールトの検出は、従来公知であるから
、ここでは説明しない。例えば、フォールトが生じた位置を決定するのに多数決
(majority vote)を使用することができる。

【００５１】生システムのシステムフォールトが検出されると、バックアップシステムが新
規生システムとしてのシステム機能を引き受けるべく選択される。この場合、コ
ンピュータシステムの動作は生システムによって実行されるのではなく、バック
アップシステムに受け継がれる。コンピュータシステムの構成、特に通信手段１
３０によって、これは、外部装置１４１乃至１４４の間の通信リンクを、生シス
テムからバックアップシステムの選択された１つへ切り替えることを含む。

【００５２】生システムとバックアップシステムとの間には、常に、高レベルの同期、即ち
、非常に短時間の遅延、例えば０．５乃至１ｍｓの遅延で動作するため、選択さ
れたバックアップシステムは、データやコマンドを失うことなく、またダウン時
間を延長することなく、即座に生システムの機能を引き継ぐことができる。

【００５３】以下、図２を参照し、本発明のフォールトトレラント・コンピュータシステム
の第２の実施の形態について説明する。

【００５４】図２は、図１に示されたのと同様なフォールトトレラント・コンピュータシス
テムの１例を示す。

【００５５】生システム１００とバックアップシステム１１０とに加えて、第２の実施の形
態においては、スタンバイシステム１５０が備えられる。また、図１に示された
本発明の第１の実施の形態とは対照的に、フォールト検出手段１２０は、バック
アップシステム１１０に内蔵される。外部装置１４５及び１４６が備えられる。
通信手段１３０は、生システム１００と、バックアップシステム１１０と、スタ
ンバイシステム１５０と、外部装置１４５，１４６とを接続する。

【００５６】図１について述べた例におけると同様に、本発明の第２の実施の形態において
、バックアップシステムは、生システムと全く同じイベントプロセスシーケンス
を実行し、また前述と同様、生メモリ手段とバックアップメモリ手段に記憶され
たデータは同期される。

【００５７】イベント生成器１０３は、生システムにおいてイベントプロセスの実行がホー
ルトされるたびに、例えば、イベントプロセスが正常に終了した場合、あるいは
割込みが生じた場合、イベントメッセージを生成する。前述と同様、イベントメ
ッセージは、イベントプロセスの実行シーケンスを示すシーケンス番号を備える
ことができ、実行された命令の数、レジスタの状態、例えば、割込みが生じた場
合、イベントプロセスによって定義あるいはアクセスされたデータを備えること
ができる。また、イベントメッセージは、生システムにおける対応のイベントプ
ロセスの実行を示すイベントデータを備えることができ、これにより、バックア
ップシステムにおけるイベントプロセスの実行に対応するイベントデータとの比
較が可能となる。

【００５８】この第２の実施の形態において、イベントメッセージは、バックアップシステ
ムに送信されるだけでなく、スタンバイシステム１５０にも送信される。

【００５９】尚、スタンバイステムは、図２においては１つしか示されてないが、複数備え
ることができる。スタンバイシステムは、好ましくは、イベントプロセスを実行
せず、受け取ったイベントメッセージをイベントログ１５３（ＥＬ）にログする
だけである。図の例において、スタンバイシステム１５０は、スタンバイメモリ
手段１５２を備え、生メモリ手段１０２で記憶されたデータのアーカイブコピー
を記憶する。好ましくは、本発明によれば、生メモリ手段１０２に記憶されたシ
ステム及びアプリケーションデータのアーカイブコピーは、何らかの時間間隔で
スタンバイメモリ手段に転送される。例えば、アーカイブコピーは、１時間に１
回、１日１回などのように生成することができる。

【００６０】生システムのシステム状態を再現できるようにするためには、アーカイブコピ
ー生成の後のすべてのイベントメッセージを考慮に入れる必要がある。従って、
アーカイブコピーをスタンバイシステムに転送した後に、生システムから受け取
られたすべてのイベントメッセージがイベントログに記録される。このように、
イベントメッセージは、生システム１００におけるイベントプロセスの実行状況
を明確に定義し、そこにはイベントの種類、イベントプロセスの実行のホールト
理由やタイミングなども含まれるので、イベントログは、スタンバイメモリ手段
１５２に記憶されたアーカイブコピーと共に、生システムのシステム状態を回復
するのに使用することができる。

【００６１】また、スタンバイシステム１５０は、スタンバイ中央演算装置１５１及びスタ
ンバイコマンド手段１５４を備える。例えば、生システムがホールトした際の生
システムのシステム状態を回復しなければならない場合、スタンバイ制御手段１
５４は、イベントログに記憶されたイベントメッセージのシーケンスに従って、
命令を生成し、スタンバイ中央演算装置に対して、生システムにおいて実行され
たときと全く同様に全く同じイベントプロセスシーケンスを実行させることがで
きる。従って、時間的遅延はあるものの、同じ変化が、スタンバイメモリ手段１
５２に記憶されたアーカイブコピーのデータに適用される。

【００６２】スタンバイシステムは、図１を参照しながら簡単に述べたように、バックアッ
プシステムによく似ているが、スタンバイシステムの主な目的は、イベントログ
にイベントメッセージを記録し、生システムのメモリ内容のアーカイブコピーを
記録して、後の時点で生システムのシステム状態を回復できるようにすることで
ある。

【００６３】例えば、バックアップシステムにおいてシステムフォールトが検出されると、
スタンバイシステムが、バックアップシステムの動作を引き継ぐことができる。

【００６４】更に、生システムにおいてソフトウェアフォールトが検出され、例えば、生シ
ステムが動作を続けることができなくなると、バックアップシステムに送信され
るイベントメッセージは、そのソフトウェアフォールトを特定する情報、及びバ
ックアップシステムにソフトウェアフォールトを回避させることのできる情報を
備えることができる。この場合、バックアップシステムは、例えば、ソフトウェ
アフォールトの原因となるイベントの実行をスキップしたり、あるいは、そのイ
ベントの実行中、何らかの通信又はソフトウェアルーチンをスキップすることが
できる。ソフトウェアフォールトは、スタンバイシステムにも報告することがで
きる。勿論、生システムにおけるフォールトの後には、先に述べたように、バッ
クアップシステムが生システムの動作を引き継ぐことができる。このように、前
向き(forward)エラー訂正を達成することができる。

【００６５】図３は、本発明によるコンピュータシステムのフォールトトレラント動作の方
法の一例を示すフローチャートである。先に述べた例におけると同様、コンピュ
ータシステムは、生システムと、バックアップシステムと、また所望するなら、
スタンバイシステムとを備える。以下、図３を参照しながら、コンピュータシス
テムのフォールトトレラント動作中の生システムの動作について説明する。

【００６６】システムは、図１及び図２の第１及び第２の実施の形態のように配置すること
ができる。特に、バックアップシステムは、生システムにおけるイベントプロセ
スが実行されるときに生成されるイベントメッセージを受け取るように配置され
る。しかしながら、図３のフローは、主として、生システムにおける動作を記述
する。

【００６７】ステップ３０１において、生中央演算装置は、イベントプロセスの実行、例え
ば、スケジューリング政策に基づいて、次に実行すべきコマンドに従って次の処
理を行う。イベントプロセスは、外部装置から受け取られたコマンドにより指示
された、生システムにおいて実行されるイベントプロセスのシーケンスにおける
次のイベントプロセスであってもよい。また、イベントプロセスは、生システム
に対して内部であるタイミング手段により知らされたときに実行されてもよい。
例えば、ジョブテーブルをスキャンするための内部タイマー割込みによる命令で
あってもよい。また、イベントプロセスは、生システムの内部機能に関連して実
行されてもよい。

【００６８】イベントプロセスが実行されている間に、更なるイベントプロセスの実行のた
めのコマンド又は命令が生成されることがある。コマンドは、好ましくは、生シ
ステムにおけるシステム動作のシーケンス内で終わり、生中央演算装置の動作や
、アプリケーションデータあるいはシステムデータのような生メモリ手段に記憶
されたデータへの変更を含む。繰り返しになるが、先に述べた実施の形態におけ
ると同様、生システムのすべての可能な動作は、イベントプロセスの一部でなけ
ればならない。生中央演算装置はイベントプロセス以外の動作を実行することは
できない。

【００６９】何らかの時点において、現在のイベントプロセスの実行が終了する。例えば、
正常な実行完了によることもあるし、あるいは割込みによりイベントプロセス実
行が強制的にホールトされることもある。このように、ステップ３０２において
、イベントプロセスのホールトの際、現在のイベントプロセスの正常な実行が行
われたのか、即ち、正常な実行が行われたのかどうかを決定すべく、イベントプ
ロセスがスーパーヴァイズされたかどうかがチェックされる。

【００７０】現在のイベントプロセスの正常な実行が検出されると、ステップ３０４におい
て、現在のイベントプロセスの正常な完了を示すイベントメッセージが生成され
る。このイベントメッセージは、少なくとも、現在のイベントプロセスの種類に
ついての情報、即ち、現在のイベントプロセスが正常な実行により終了したとい
う情報を含むことができる。更に、イベントメッセージは、イベントプロセスの
実行シーケンスを示すシーケンス番号を含むことができ、このようにしておけば
、イベントプロセスの好ましいシーケンスが対応のイベントメッセージの受け取
りシーケンスだけで、例えば、バックアップシステムにおいて、決定できない場
合に有利である。また、イベントメッセージは、イベントプロセスにより定義又
はアクセスされたデータについての情報を備えることができ、特にシステム状態
に関するデータ又は生メモリ手段に記憶されたアプリケーションデータについて
の情報を含むことができる。

【００７１】換言すると、イベントメッセージは、対応の現在のイベントプロセスを記述す
るのに必要なすべてのデータを備えることによって、バックアップシステムにお
いて完全に同じイベントプロセスを行うことができるようにしなければならない
。一般に、実行されるイベントプロセスの種類を示す識別子と、イベントプロセ
スの実行環境を特定するパラメータ、例えば、通信システムの場合なら加入者、
通信ラインなどを特定するパラメータとを送れば充分である。

【００７２】ステップ３０４において、割込みが生じたからどうかがチェックされる。ステ
ップ３０４において割込みが検出されないと、フローはステップ３０２に戻る。
割込みが検出されると、ステップ３０５において、イベントメッセージが生成さ
れ、これは、現在のイベントプロセスが割込まれたことを示すメッセージである
。好ましくは、対応のイベントメッセージは、現在のイベントプロセスの実行中
に生じた割込みの正確な時点についての情報を含む。イベントメッセージは、命
令の数、例えば、割込みが生じるまでに実行されたアセンブラ命令の数を含むこ
とができる。更に、イベントメッセージは、生システム、特に、割込みの時点で
の生中央演算装置のレジスタ状態を備えることができる。更に、ステップ３０４
で生成されるイベントメッセージと同様に、イベントプロセスの実行シーケンス
を示すシーケンス番号や、イベントプロセスにより定義又はアクセスされるデー
タについての情報を含むこともできる。

【００７３】ステップ３０６において、生システムにおける現在のイベントプロセスの実行
状況を示すイベントデータが生成される。好ましくは、このイベントデータは、
イベントプロセスがフォールトなしに実行されたかどうかを決定することのでき
る情報を含む。例えば、当業者には知られているように、システム状態、何らか
のキーデータ、あるいはチェック信号についての情報である。

【００７４】イベントデータは、ステップ３０７において、フォールト検出手段１２０に送
信される。フォールト検出手段がバックアップシステムに組み込まれている場合
、イベントデータはイベントメッセージに含まれて、それと一緒に、ステップ３
０８において、バックアップシステム及び/又はスタンバイシステムへ送信され
ても良い。

【００７５】ステップ３０９において、現在のイベントプロセスが実行される際に、外部装
置への通信が必要かどうかが判定される。外部装置への通信は、例えば、別のプ
ロセッサなどの他の装置への通信を含む。この判定ステップは、フォールト(fau
lty)動作が生システムにおいて生じた場合に、外部装置への通信と一緒にそのフ
ォールトがコンピュータシステム全体に伝播するのを回避するためである。

【００７６】ステップ３０９において、外部装置への通信が必要ない場合、フローは直接ス
テップ３０１に戻り、次のイベントプロセスが実行される。

【００７７】ステップ３０９において、イベントプロセスの実行に際し外部装置への通信が
必要な場合、ステップ３１０において、生システムは、生システムとバックアッ
プシステムにおいて生成されたイベントデータがフォールト検出手段により比較
された比較結果を示すメッセージを待つことができる。比較結果を待つ間に、生
システムは、更なるイベントプロセス、例えば、外部装置への通信を必要としな
いイベントプロセスを中間的に(intermediately)実行することができる。しかし
ながら、外部的通信を要求するイベントプロセスも中間的に実行することができ
る。この場合、複数の比較メッセージが同時に待たれることになる。

【００７８】ステップ３１１において、生システムとバックアップシステムからのイベント
データの比較についてのメッセージが届くと、生システムの動作にフォールトが
なかったかどうかが判定される。もしなければ、ステップ３１２において、外部
装置への必要な通信が行われ、フローはステップ３０１に戻り、スケジューリン
グ政策に基づく次のイベントプロセスが実行される。

【００７９】ステップ３１１において、生システムが実行した現在のイベントプロセスの動
作にフォールトがあると判定されると、ステップ３１３において、回復手順が開
始される。回復手順は、少なくとも１つ存在するバックアップシステムの１つを
新規の生システムとして指定することを備え、また更に、外部装置への通信リン
クを生システムからバックアップシステムへ切り替えることを備える。フォール
トトレラント・コンピュータシステムがスタンバイシステムを備える場合には、
回復手順は、スタンバイシステムに記録されているイベントメッセージログを、
それ以前にスタンバイシステムに転送されているアーカイブコピーに適用するこ
とを含むことができる。この回復手順の後、生システムの動作は終了させられ、
例えば、修理が行われる。

【００８０】尚、ステップのシーケンスは、必ずしも図３のフローと同じなくてもよく、更
なる実施の形態において異なるものでもよい。例えば、イベントデータは、イベ
ントメッセージより前に生成されてもよい。

【００８１】以下、図４を参照しながら、コンピュータシステムのフォールトトレラント動
作の方法の第２の実施の形態について説明する。図４は、コマンド処理、及びイ
ベントプロセスの実行について、より詳細に例を示す。ここでも、フローは、生
システムの動作を中心とするものである。

【００８２】生システムにおいて動作を開始した後、ステップ４０１で、生演算装置におい
てタイマー割込みに基づきジョブテーブルをスキャンすべきか否かが判定される
。ジョブテーブルは、実行されるべきジョブのシーケンスを含むことができる。
ジョブテーブルのスキャンは、ジョブのシーケンスが正しいか否かを判定し、ど
のジョブが次に実行されるべきかを決定するなどを含むことができる。ステップ
４０１において、別の内部システム機能が実行されるべきか否かも判定すること
ができる。換言すると、ステップ４０１において、イベントプロセスの実行を要
求する内部コマンドが生じたか否かが判定される。

【００８３】この例において、生システムは、プロセッサネットワークの区域内プロセッサ
と分散中央プロセッサとに接続されているものとする。コンピュータシステムは
、例えば、通信システムを動作させる。

【００８４】ステップ４０１において、内部コマンドが検出されない場合、ステップ４０２
において、区域内プロセッサ信号が受信されたか否かが判定される。これらの区
域内プロセッサ信号は、イベントプロセスの実行を要求するコマンドであること
もある。そのような信号又はコマンドがステップ４０２において検出されない場
合、ステップ４０３において、分散中央プロセッサ信号が生システムに到着して
いるか否かが判定される。分散中央プロセッサ信号は、イベントプロセスの実行
を要求するコマンドであることもある。また、イベントプロセスは、通信ネット
ワークにおけるサービス機能のようなシステム機能又は外部機能の実行開始によ
り構成されることもある。生システムはイベントプロセスを実行するだけであり
、システム状態、システムデータ、あるいはアプリケーションデータに影響を与
えるアクションは許可されない。

【００８５】ステップ４０３において、分散中央プロセッサ信号が検出されない場合、フロ
ーはステップ４０１に戻る。

【００８６】ステップ４０１，４０２，４０３のいずれかで、イベントプロセスの実行を要
求するコマンド又はイベントの受信が検出されると、ステップ４０４において、
スケジューリング政策に基づいて、どの信号が次に実行されるべきかが決定され
る。ステップ４０１，４０２，４０３で検出されるコマンドの他に、ジョブバッ
ファが、イベントプロセスの実行に対する要求を受けることもでき、これにより
、ステップ４０４で、優先権の判定が適用される。

【００８７】次に実行されるべきイベントが選択された後、ステップ４０５において、イベ
ントプロセスが、正常な終了まで、あるいは割込み発生まで実行される。

【００８８】次に、ステップ４０６において、イベントプロセスのホールトまでのイベント
プロセスの実行状況を示すイベントデータが記録される。イベントデータは、そ
れより後の時点において、生システム及び/又はバックアップシステム及び/又は
スダントバイシステムにおけるフォールト(faulty)動作を検出するのに使用する
ことができる。更に、ステップ４０６において、少なくともイベントプロセスの
修理とイベントプロセスのホールト理由を示すイベントメッセージが生成される
。

【００８９】次に、ステップ４０７において、生成されたイベントデータ及び/又は生成さ
れたイベントメッセージが少なくとも１つのバックアップシステム及び/又はス
タンバイシステムへ送信される。その後、フローはステップ４０１に戻る。

【００９０】図５は、コンピュータシステムのフォールトトレラント動作の方法の実行の更
なる例を示す。以下、図５を参照しながら、バックアップシステムにおける動作
を説明する。システム構成は、先に説明した実施の形態について説明したものと同様である
。

【００９１】図１及び図２を参照して具体的に説明したように、バックアップシステムは、
イベントプロセスの種類及び生システムにおける実行明細を示すイベントメッセ
ージを受け取るべく配置されており、バックアップシステムは同じイベントプロ
セスを生システムで実行されたと同じ方法で実行することができ、ここには、イ
ベントプロセスを中間的にホールトすること、又はイベントプロセスを終了させ
ることも含まれる。

【００９２】ステップ５０１において、バックアップシステムは、生システムからイベント
メッセージを受け取る。イベントメッセージのバックログの場合、即ち、以前の
イベントメッセージに対応するイベントプロセスであってバックアップシステム
においてまだ実行されていないイベントプロセスのバックログ(backlog)の場合
、バックアップシステムは、そのイベントメッセージをバッファに中間的に記憶
することができる。

【００９３】ステップ５０２において、ステップ５０１で先に受け取られたイベントメッセ
ージに対応して、バックアップ中央演算装置がイベントプロセスの実行に使用で
きるかどうかが判定される。イベントメッセージがバッファ、例えばＦＩＦＯに
中間的に記憶されてた場合、最初に受け取られたイベントメッセージが実行用に
スケジュールされる。しかしながら、所望の実行シーケンスがイベントメッセー
ジの受け取り順序から決定できない場合、実行順序は、例えば、イベントメッセ
ージに含められることのできるシーケンス番号に従うこともできる。シーケンス
番号は、好ましくは、生システムにおけるイベントメッセージの実行シーケンス
を示す。実行用スケジューリングは、図１について説明したように、バックアッ
プ制御装置によって行うことができる。

【００９４】プロセッサが使用できない場合は、ステップ５０３において、バックアップ制
御手段は、プロセッサが使用可能になるまで待機することができる。

【００９５】ステップ５０４において、バックアップ制御手段は、次のイベントメッセージ
を読み、イベントメッセージに応じた制御信号を生成する。制御信号は、バック
アップ中央演算装置に送信されて、バックアップシステムにおいて対応のイベン
トプロセスの実行をさせる。これは、例えば、バックアップメモリ手段に記憶さ
れているシステムデータ又はアプリケーションデータの変更などである。制御信
号は、イベントメッセージに応じて、生システムにおけるイベントプロセスの以
前のホールトと同様にイベントプロセスをホールトさせることもする。これは、
生システムにおいて先に生成された割込みと同様の割込み生成を含むことができ
る。

【００９６】イベントプロセスをホールトさせた後、ステップ５０６において、バックアッ
プシステムにおけるイベントプロセスの実行状況を示すイベントデータが生成さ
れる。

【００９７】ステップ５０７において、フォールト検出手段がバックアップシステムに内蔵
されていれば、バックアップシステムにおいて生成されたイベントデータは、容
易に、生システムにおいて生成されたイベントデータ、即ち、バックアップシス
テムにおいてイベントメッセージと共に受け取られたイベントデータと比較され
る。比較結果は、生システムに送信することができる。

【００９８】ステップ５０８において、生システムとバックアップシステムのイベントデー
タが一致すると判定されれば、フローはステップ５０１に戻り、次のイベントプ
ロセスが実行用にスケジュールされる。

【００９９】ステップ５０８において、生システムとバックアップシステムのイベントデー
タが一致しないと判定されれば、ステップ５０９において回復手順が行われる。
回復手順は、好ましくは、関与しているシステムのどちらが、つまり生システム
とバックアップシステムのどちらにおいてフォールトが生じたかの検出を含む。
回復手順は、バックアップシステムの選択を含むことができるが、複数のバック
アップシステムが存在する場合は、バックアップシステムの１つを選択して、新
規の生システムとしての機能を引き継がせる。また、これには、生システムにお
いて最後に正しく実行されたイベントプロセスがどれであるかを判定することも
含むことができ、例えば、生システムにおいて生成されたイベントデータに基づ
いて行われ、また、最後に正しく実行されたイベントプロセスについての情報を
すべての関係バックアップシステム及び/又はスタンバイシステムに送信するこ
とも含むことができる。更に、引継ぎメッセージをすべての残りのバックアップ
システムとスタンバイシステム、及びフォールトトレラント・コンピュータシス
テムのすべての他の装置へ送ることができる。

【０１００】以下、図６を参照して、生システムとバックアップシステムを備える本発明に
基づくフォールトトレラント・コンピュータシステムによるイベントプロセスの
シーケンスの具体的実行例を説明する。

【０１０１】イベントプロセスＡ，Ｂ，Ｃ，Ｄが実行されるとする。これらの実行は、先の
例で概略を述べたように、行うことができる。特に、生システムにおいて１つの
イベントプロセスを実行した後、生システムにおいて、そのイベントプロセスの
終了理由を含むイベントメッセージが生成される。バックアップシステムにおい
て、そのイベントメッセージを受け取った後、その他のイベントプロセスが現時
点で行われていなければ、受け取られたイベントメッセージに対応するイベント
プロセスがバックアップシステムにおいて実行される。更に、生システムにおい
て外部装置への通信要求が検出されると、外部装置との通信動作が行われる前に
、好ましくは、生システムは、生システムにおけるフォールトなしの動作を示す
信号を待つ。この期間中、生システムにおいて他のイベントを実行することがで
きる。

【０１０２】ステップ６０１において、生システムにおいてイベントプロセスＡが実行され
る。イベントプロセスＡの実行が正常に終了する、即ち、生システムにおいて正
常な終了が検出されるとする。従って、ステップ６０２において、先に述べたよ
うに、イベントメッセージＥＡがバックアップシステムに送信される。このイベ
ントメッセージは、例えば、イベントプロセスの種類、影響を受けたシステムデ
ータ及び／又はアプリケーションデータ、イベントプロセスのホールト理由につ
いての情報を含む。イベントメッセージは、生システムにおけるイベントプロセ
スＡの種類及び実行に関するすべての必要な情報を含むので、イベントメッセー
ジＥＡはバックアップシステムで受け取られると、それに続いて、バックアップ
システムにおいて全く同様な方法でイベントプロセスＡを実行することができる
。ここには、生システムにおけるイベントプロセスＡの実行中に生システムにお
いてアクセスされたのと同じデータをバックアップシステムにおいてアクセスす
ることが含まれる。

【０１０３】イベントプロセスＡがバックアップシステムにおいて実行されると、第２のイ
ベントプロセスＢ（１）（第１部）が、ステップ６０４において、生システムで
実行される。

【０１０４】今度は、イベントプロセスＢ（第１部）の実行中に、イベントプロセスＣの実
行を要求するコマンドＣが割込みを発生し、イベントプロセスＢ（１）（第１部
）の実行を中断させるとする。本発明によると、ステップ６０５において、イベ
ントメッセージＥＢ１が生システムにおいて生成され、バックアップシステムに
送信される。

【０１０５】イベントプロセスＡの実行が正常に終了したので、イベントメッセージＥＢ１
がバックアップシステムで受け取られる前に、バックアップシステムでは短い待
機時間が生じて、それから、バックアップシステムにおいて対応のイベントプロ
セスＢ（１）（第１部）を実行することができる。ステップ６０６において、バ
クアップシステムでは、イベントプロセスＢ（１）（第１部）が実行され、コマ
ンドＣによる割込みについての情報もイベントメッセージＥＢ１に含まれていた
ので、イベントプロセスＢは、バックアップシステムにおいて、実行中の全く同
じ時点で割込まれる。バックアップシステムにおいて正確な割込みを可能とすべ
く、実行された命令の数をイベントメッセージに含めることができる。バックア
ップシステムにおける割込み生成は、参照番号６０７で示されている。

【０１０６】イベントプロセスＢ（１）がバックアップシステムで実行されているとき、生
システムにおいては、割込みを発生させたイベントプロセスＣがステップ６０８
において実行される。

【０１０７】この例において、イベントプロセスＣは正常に終了し、対応のイベントメッセ
ージＥＣが、ステップ６０９で、バックアッププロセッサへ送信される。しかし
ながら、イベントメッセージＣがバックアップシステムで受け取られる時点で、
バックアップシステムはイベントプロセスＢ（１）の第１部を実行中である。と
いうのは、その時点で割込みが生じるようにスケジュールされていないからであ
る。従って、イベントメッセージＥＣは、スケジュールされた割り込みがバック
アップシステムにおいて生じるまで、例えば、中間的バッファに記憶される。

【０１０８】バックアップシステムにおけるイベントプロセスＢの誘発された割り込みの後
、中間的に記憶されたイベントメッセージＥＣに指定されたイベントプロセスＣ
を実行する（ステップ６１０）。

【０１０９】これと同時に、ステップ６１１において、イベントプロセスＣが生システムに
おいて正常に終了しているので、生システムは、中断されたイベントプロセスの
実行を再開する。イベントプロセスＢ（２）の第２部が正常に終了した後、生シ
ステムは、ステップ６１２で、イベントメッセージＥ２をバックアップシステム
へ送信する。

【０１１０】イベントメッセージＥＢ１により、バックアップシステムではコマンドＣによ
り割込み時点での生システムの正確な状態がわかっているので、バックアップシ
ステムは、ステップ６１３で、イベントプロセスＢ２の実行を再開し、それが正
常に終了するまで続ける。尚、バックアップシステムにおける人工割込み（arti
ficial interrupt）が生成された際にであっても、生システムのレジスタ状態が
バックアップシステムに既に送信されている可能性があるので、バックアップシ
ステムにおけるレジスタ状態は、コマンドＣにより生システムにおいて割込みが
発生した時のものと同じはずである。

【０１１１】イベントプロセスＢ（２）の第２部の実行中、イベントプロセスの実行を再開
した後、ステップ６１４において、外部コマンドＤが外部装置から受け取られた
とする。この外部装置は、通信システムの場合、区域内プロセッサ又は分散中央
プロセッサである。イベントプロセスＢの正常な終了の後、生システムにおいて、ステップ６１５
で、イベントプロセスＤを実行することができる。

【０１１２】また、イベントプロセスＢが外部装置に対して通信要求を行うとする。しかし
ながら、生システムにおけるフォールト(faulty)動作が伝播するのを防止するた
めに、生システムにおいてフォールトなしの動作が判定されるまで、その通信要
求は延期される（ホールドされる）。このように、外部装置へ通信を実行する前
に、生システムは、生システムにおいてイベントプロセスＢが実行された際に生
成されたイベントデータと、バックアップシステムにおいてイベントプロセスＢ
が実行された際に生成されたイベントデータが一致することを示す信号が出るま
で待機する。ステップ６１６において、同期チェックが、生システムにおいてフ
ォールトが生じてないということを示せば、ステップ６１７において、外部装置
への通信を行うことができる。

【０１１３】尚、ここに示した例はフォールトトレラント・コンピュータシステムの動作の
あり得る状況を記述するにすぎない。例えば、通信要求がホールドされるとは限
らず、例えば、非クリティカル(non-critical)通信や時刻/クリティカル通信は
、前述の同期チェックを待たずに行うことができる。

【０１１４】以下、図７を参照して、本発明によるフォールトトレラント・コンピュータシ
ステムの動作の更なる例について説明する。この場合、主として、生システムと
スタンバイシステムの通信と動作について説明する。

【０１１５】スタンバイシステムは、生システムからのメモリ内容のアーカイブコピーを記
憶すべく配置される。アーカイブコピーは、所定の時間間隔で生成されるのが好
ましい。さらに、スタンバイシステムはイベントログにイベントメッセージを記
録し、フォールトが検出された場合に、生システムのシステム状態又はバックア
ップシステムのシステム状態を回復できるようにする。

【０１１６】システムの動作について、例として、イベントプロセスＥ，Ｆ，Ｇを使用して
説明する。

【０１１７】最初のステップ７０１において、第１のアーカイブコピーが生システムのメモ
リ手段からスタンバイシステムのメモリ手段へ転送される。好ましくは、このア
ーカイブコピーは、すべての関連アプリケーションデータ及び/又はすべての関
連システムデータを含む。このように、スタンバイメモリ手段のメモリ内容は、
アーカイブコピーが生成された時点での生システムのメモリ状態を表す。

【０１１８】次に、ステップ７０２において、先に簡単に述べたように、生システムにおい
てイベントプロセスＥが実行され、イベントプロセスＥが正常に終了した場合、
イベントメッセージＥＥが、ステップ７０３において、スタンバイシステムへ転
送される。スタンバイシステムでは、ステップ７０４において、イベントメッセ
ージＥがイベントログに記録される。

【０１１９】これとほぼ同時に、生システムにおいて、ステップ７０５として、イベントプ
ロセスＦが実行され、それが、ある時点において、中断される（割込まれる）。
従って、ステップ７０６において、イベントプロセスＦを指定するすべての必要
なデータを含むイベントメッセージＥＦ、そして割込みがスタンバイシステムへ
転送される。

【０１２０】スタンバイシステムにおいては、ステップ７０７として、イベントメッセージ
ＥＦがイベントログに記録される。同様に、ステップ７０８において、イベント
プロセスＧが実行され、イベントプロセスＧが正常に終了すると、イベントメッ
セージＥＧが、ステップ７０９で、バックアップシステムへ転送される。イベン
トメッセージＥＧは、ステップ７１０で、イベントログに記録される。

【０１２１】ステップ７０１でスタンバイシステムにおいて生成されたアーカイブコピー、
及び生システムから転送されたすべてのイベントメッセージのシーケンスを備え
ている、イベントログで記録されたイベントメッセージによって、先に簡単に述
べたように、生システムのシステム状態を再現することができる。

【０１２２】アーカイブコピーは、ある時間間隔で生成される。ステップ７１１で新規アー
カイブコピーを転送した後、イベントログのすべての先に記録されているイベン
トメッセージを消去することができ、新規イベントログを開始することができる
。従って、スタンバイシステムにおいてイベントログ内に最後に記録されたイベ
ントメッセージに対応するイベントプロセスまでの、生システムのシステム状態
を常に再現することができる。

【０１２３】以下、図８を参照して、本発明によるフォールトトレラント・コンピュータシ
ステムの他の実施の形態について説明する。

【０１２４】図８は、本発明によるフォールトトレラント・コンピュータシステムの処理ノ
ード８００，８１０，８２０，８３０を示す。これらの処理ノードは、ネットワ
ーク８４０を介して接続され、これはクラスタ接続であってもよい。

【０１２５】各処理ノードは、生システムと、バックアップシステムと、スタンバイシステ
ムとを備える。尚、スタンバイシステムはなくてもよく、他の実施の形態におい
て、処理ノードは生システムとバックアップシステムだけを備えるものであって
もよい。

【０１２６】図８に示されるように、第１処理ノード８００は、第１処理ノード８００用の
生システム８０１と、第２処理ノード８１０用のバックアップシステム８０２と
、第３処理ノード８２０用のスタンバイシステム８０３を備える。

【０１２７】同様に、第２処理ノード８１０は、第２処理ノード８１０用の生システム８１
１と、第３処理ノード８２０用のバックアップシステム８１２と、第４処理ノー
ド８３０用のスタンバイシステム８１３を備える。

【０１２８】第３処理ノード８２０は、第３処理ノード８２０の生システムと、第４処理ノ
ード８３０のバックアップシステムと、第１処理ノード８００のスタンバイシス
テムを備える。最後に、第４処理ノード８３０は、第４処理ノード８３０の生システム８３１
と、第１処理ノード８００のバックアップシステム８３２と、第２処理ノード８
１０のスタンバイシステム８３３を備える。

【０１２９】生バックアップ機能とスタンバイ機能とを相互に指定することによって、フォ
ールトトレランスが改善される。尚、処理ノードの数は任意であり、それぞれが
生システムと、バックアップ及び／又はスタンバイシステムとを備える。生演算
装置、バックアップ演算装置、スタンバイ演算装置は、図８において独立してい
るように示されているが、これらは、単一のプロセッサにより構成することもで
きる。即ち、生システムの機能と、バックアップシステム及び/又はスタンバイ
システムの機能は、単一の演算装置によって実行することができる。

【図面の簡単な説明】

【図１】本発明によるフォールトトレラント・コンピュータシステムの１実施の形態を
示す。

【図２】本発明によるフォールトトレラント・コンピュータシステムの他の実施の形態
を示す。

【図３】本発明によるコンピュータシステムのフォールトトレラント動作の方法の１例
を示すフローチャートである。

【図４】本発明によるコンピュータシステムのフォールトトレラント動作の方法の第２
の例を示すフローチャートである。

【図５】本発明によるコンピュータシステムのフォールトトレラント動作の方法の第３
の例を示すフローチャートである。

【図６】生システムとバックアップシステムとを含む本発明によるシステムの動作の１
例を示す時間/フローダイグラムである。

【図７】生システムとスタンバイシステムとを含む本発明によるシステムの１実施の形
態の動作の１例を示す。

【図８】それぞれが生システムと、バックアップシステムと、スタンバイシステムとを
含む複数の処理ノードを示す。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１２年６月２１日（２０００．６．２１）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】請求項１

【補正方法】変更

【補正内容】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】０００５

【補正方法】変更

【補正内容】

【０００５】しかしながら、故障が生じた場合、このシステムは、スタンバイユニットを使
用して動作を再開するのに長時間を必要とする。何故なら、ユニット間で行われ
る周期的ハンドシェイクでは、高レベルの同期を維持するのは不可能だからであ
る。米国特許５，４７３，７７１号に記載されているフォールトトレラント・処理
システムアーキテクチャは、それぞれが地域(local area)ネットワークに接続さ
れている複数のサービスユニット(service units)及びサービスを受けるユニッ
ト(served units)を備えた冗長性を採用している。各サービスユニットは、アク
ティブ構成での動作により継続的に行われるクリティカル(critical)情報の複写
コピーを生成し記憶する。両方のユニットが交代でネットワークを使用すること
によって、サービスを受けるユニットに対してクリティカル情報の独立複写資源
を提供する。すべてのユニットが同じ情報にアクセスするので、それらはデータ
の処理を同じものにすることができる。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】００２１

【補正方法】変更

【補正内容】

【００２１】（発明の詳細な説明）以下、図１乃至図８を参照しながら、本発明の好ましい実施の形態について説
明する。図面において、同じ参照番号は、同じ構成要素を示す。

【手続補正４】

【補正対象書類名】図面

【補正対象項目名】図１

【補正方法】変更

【補正内容】

【図１】

【手続補正５】

【補正対象書類名】図面

【補正対象項目名】図４

【補正方法】変更

【補正内容】

【図４】

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ

Claims

【特許請求の範囲】

【請求項１】フォールトトレラント・コンピュータシステムであって、外部装置（１４１乃至１４６）に接続された生システム（１００）と、生シス
テム（１００）に接続された少なくとも１つのバックアップシステム（１１０）
とを備え、生システム（１００）は、生システム（１００）においてコマンドが生じたときに実行されるイベントプ
ロセスを実行するための生中央演算装置（１０１）と、生中央演算装置（１０１）に接続され、システムデータとアプリケーションデ
ータとを記憶するための生メモリ手段（１０２）と、生中央演算装置（１０１）に接続され、生中央演算装置（１０１）がイベント
プロセスをホールトするたびに、少なくともイベントプロセスの種類とイベント
プロセス実行のホールト理由についての情報を含むイベントメッセージを生成す
るイベント生成器（１０３）とを備え、バックアップシステム（１１０）は、イベントプロセスを実行するためのバックアップ中央演算装置（１１１）と、バックアップ中央演算装置（１１１）に接続され、システムデータとアプリケ
ーションデータとを記憶するバックアップメモリ手段（１１２）と、生システム（１００）からのイベントメッセージのシーケンスを受け取り中間
的に記憶するためのバッファ（１１３）と、バックアップ中央演算装置（１１０）に接続され、イベントメッセージに従っ
てイベントプロセスの実行をスケジュールするためのバックアップ制御手段（１
１４）とを備えることを特徴とするフォールトトレラント・コンピュータシステム。
【請求項２】請求項１記載のフォールトトレラント・コンピュータシステ
ムであって、イベント生成器（１０３）がイベントメッセージを生成するのは、イベントプロセスの割込みが発生した場合、及びイベントプロセスが正常に終了した場合であることを特徴とするフォールトトレラント・コンピュータシステム。
【請求項３】請求項１及び２のいずれかに記載のフォールトトレラント・
コンピュータシステムであって、生システムにおけるイベントプロセスの実行を示すイベントデータを生成する
ための第１手段と、少なくとも１つのバックアップシステム（１１０）における同じイベントプロ
セス実行を示すイベントデータを生成するための第２手段と、イベントデータを比較してシステムフォールトを検出するための手段（１１０
）であって、生システムにおいてシステムフォールトが検出された場合、少なく
とも１つのバックアップシステムの１つを選択して新規生システムとしての機能
を引き継がせる手段とを特徴とするフォールトトレラント・コンピュータシステム。
【請求項４】請求項１乃至３のいずれかに記載のフォールトトレラント・
コンピュータシステムであって、生システム（１００）におけるイベントプロセ
スの実行についてのイベントデータが対応のイベントメッセージに含まれること
を特徴とするフォールトトレラント・コンピュータシステム。
【請求項５】請求項１乃至４のいずれかに記載のフォールトトレラント・
コンピュータシステムであって、少なくとも１つのスタンバイシステム（１５０
）を備え、このスタンバイシステム（１５０）は、システムデータとアプリケーションデータのアーカイブコピーを受け取り記憶
するための第１スタンバイメモリ手段（１５２）と、前記アーカイブコピーを受け取った後、イベントログ内のイベントメッセージ
のシーケンスを記録するための第２スタンバイメモリ手段（１５３）とを備えることを特徴とするフォールトトレラント・コンピュータシステム。
【請求項６】請求項１乃至５のいずれかに記載のフォールトトレラント・
コンピュータシステムであって、スタンバイシステム（１５０）が更に、第１スタンバイメモリ手段（１５２）と第２スタンバイメモリ手段（１５３）
とに接続されたスタンバイ中央演算装置（１５１）と、スタンバイ中央演算装置（１５１）に接続され、イベントログに記憶されたイ
ベントメッセージのシーケンスに対応したイベントプロセスのシーケンスの実行
をスケジュールするスタンバイ制御手段（１５４）とを備えることを特徴とするフォールトトレラント・コンピュータシステム。
【請求項７】請求項１乃至６のいずれかに記載のフォールトトレラント・
コンピュータシステムであって、外部装置（１４１乃至１４６）が分散システム
の区域内プロセッサ又は分散中央プロセッサであることを特徴とするフォールト
トレラント・コンピュータシステム。
【請求項８】請求項１乃至７のいずれかに記載のフォールトトレラント・
コンピュータシステムであって、イベントプロセスが、区域内プロセッサからのコマンドの実行と、分散中央プロセッサからのコマンドの実行と、タイマー割込みによるジョブテーブルスキャンと、生システムの内部コマンドの実行とから成るグループの中から少なくとも１つによって構成されることを特徴とする
フォールトトレラント・コンピュータシステム。
【請求項９】請求項１乃至８のいずれかに記載のフォールトトレラント・
コンピュータシステムであって、イベントメッセージが、更に、イベントプロセッサの実行シーケンスを示すシーケンス番号と、実行された命令の数と、割込みが生じた際のレジスタ状態と、イベントプロセスによって定義又はアクセスされたデータに関する情報とから成るグループの中から少なくとも１つによって構成されることを特徴とする
フォールトトレラント・コンピュータシステム。
【請求項１０】請求項１乃至９のいずれかに記載のフォールトトレラント
・コンピュータシステムであって、生システム（１００）においてソフトウェア
フォールトが検出された場合、イベントメッセージは、そのソフトウェアフォー
ルトを特定する情報を含み、バックアップシステム（１１０）は、対応のイベン
トプロセスの少なくとも一部の実行をスキップすることを特徴とするフォールト
トレラント・コンピュータシステム。
【請求項１１】請求項１乃至１０のいずれかに記載のフォールトトレラン
ト・コンピュータシステムであって、複数の処理ノード（８００、８１０、８２
０，８３０）を備え、そのそれぞれが、第１処理ノードの生システムと、第２処理ノードのバックアップシステムと、第３処理ノードのスタンバイシステムと、すべての処理ノードを相互接続する手段とを備えることを特徴とするフォールトトレラント・コンピュータシステム。
【請求項１２】請求項１１記載のフォールトトレラント・コンピュータシ
ステムであって、前記複数の処理ノードの少なくとも１つの生演算装置と、バッ
クアップ演算装置と、スタンバイ演算装置とが単一プロセッサにより構成される
ことを特徴とするフォールトトレラント・コンピュータシステム。
【請求項１３】生システム（１００）と少なくとも１つのバックアップシ
ステム（１１０）とを備えるコンピュータシステムのフォールトトレラント動作
の方法であって、生システム（１００）において、生システム（１００）においてコマンドが発生した際に実行されるプロセスで
あるイベントプロセスを、生中央演算装置（１０１）により実行するステップと
、生中央演算装置（１０１）がイベントプロセスをホールトするたびに、少なく
ともイベントプロセスの種類とイベントプロセス実行のホールト理由についての
情報を含むイベントメッセージを生成するステップと、各イベントメッセージを少なくとも１つのバックアップシステム（１１０）に
送信するステップとが備えられ、少なくとも１つのバックアップシステム（１１０）においては、生システム（１００）からのイベントメッセージを中間的にバッファ（１１３
）に記録するステップと、バッファ（１１３）における対応のイベントメッセージの実行をスケジュール
するステップと、イベントメッセージに従って、バックアップ中央演算装置（１１１）によりイ
ベントプロセスを実行するステップとを備えることを特徴とする方法。
【請求項１４】請求項１３記載のコンピュータシステムのフォールトトレ
ラント動作の方法であって、イベントプロセスの割込みが発生した場合、及びイ
ベントプロセスが正常に終了した場合にイベントメッセージが生成されることを
特徴とする方法。
【請求項１５】請求項１３及び１４時３４分のいずれかに記載のコンピュ
ータシステムのフォールトトレラント動作の方法であって、生システム（１００）においてイベントプロセスの実行を示すイベントデータ
を生成するステップと、少なくとも１つのバックアップシステム（１１０）において同じイベントプロ
セスの実行を示すイベントデータを生成するステップと、イベントデータの比較に基づいてシステムフォールトを検出し、生システムの
システムフォールトが検出された場合、少なくとも１つのバックアップシステム
の１つを選択して新規生システムとしての機能を引き継がせるステップとを備えることを特徴とする方法。
【請求項１６】請求項１３乃至１５のいずれかに記載のコンピュータシス
テムのフォールトトレラント動作の方法であって、少なくとも１つのスタンバイシステム（１５０）において、生システム（１０
０）からのシステムデータとアプリケーションデータのアーカイブコピーを受け
取るステップと、少なくとも１つのスタンバイシステム（１５０）のイベントログに、前記アー
カイブコピーが生成された後に生システムで生成されたイベントメッセージのシ
ーケンスを記録するステップとを備えることを特徴とする方法。
【請求項１７】請求項１６記載のコンピュータシステムのフォールトトレ
ラント動作の方法であって、少なくともとも１つのスタンバイシステムがバックアップシステムとしての機
能を引き継がなければならない場合、イベントログに記憶されたイベントメッセ
ージに対応したイベントプロセスのシーケンスを実行するステップと、スタンバイ中央演算装置においてイベントメッセージにより指定されたイベン
トプロセスを実行し、対応の変化をアーカイブコピーに適用するステップとを備えることを特徴とする方法。
【請求項１８】請求項１３乃至１７のいずれかに記載のコンピュータシス
テムのフォールトトレラント動作の方法であって、イベントプロセスが、区域内プロセッサからのコマンドの実行と、分散中央プロセッサからのコマンドの実行と、タイマー割込みによるジョブテーブルスキャンと、生システムの内部コマンドの実行とから成るグループの中から少なくとも１つによって構成されることを特徴とする
方法。
【請求項１９】請求項１３乃至１８のいずれかに記載のコンピュータシス
テムのフォールトトレラント動作の方法であって、イベントメッセージが、更に
、イベントプロセッサの実行シーケンスを示すシーケンス番号と、実行された命令の数と、割込みが生じた際のレジスタ状態と、イベントプロセスによって定義又はアクセスされたデータに関する情報とから成るグループの中から少なくとも１つによって構成されることを特徴とする
方法。
【請求項２０】請求項１３乃至１９のいずれかに記載のコンピュータシス
テムのフォールトトレラント動作の方法であって、生システム（１００）におい
てソフトウェアフォールトが検出された場合、イベントメッセージは、そのソフ
トウェアフォールトを特定する情報を含み、バックアップシステム（１１０）は
、対応のイベントプロセスの少なくとも一部の実行をスキップすることを特徴と
する方法。
【請求項２１】請求項１３乃至２０のいずれかに記載のコンピュータシス
テムのフォールトトレラント動作の方法であって、少なくとも１つのバックアッ
プシステム（１１０）がイベントプロセスを実行する順序が、バッファにおいて
対応のイベントメッセージが受け取られた順序であるか、又は生システム（１０
０）におけるイベントプロセスの実行シーケンスを示すシーケンス番号により指
定された順序であることを特徴とする方法。
【請求項２２】請求項１３乃至２１のいずれかに記載のコンピュータシス
テムのフォールトトレラント動作の方法であって、新規生システムとしての機能
を引き継ぐべきバックアップシステムの選択が、連続的に実行された最後のイベントプロセスがどれであるかを判定するステッ
プと、最後に実行されたイベントプロセスについての情報を、すべてのバックアップ
システム（１１０）とスタンバイシステム（１５０）とへ送信するステップと、引継ぎメッセージをすべての残りのバックアップとスタンバイシステム、及び
すべての外部装置に送るステップとを備えることを特徴とする方法。
【請求項２３】請求項１３乃至２２のいずれかに記載のコンピュータシス
テムのフォールトトレラント動作の方法であって、生システムが外部装置（１４
１乃至１４４）と交信するのは、少なくとも１つのバックアップシステムが前の
イベントの実行を完了しシステムフォールトが検出されなかった場合だけである
ことを特徴とする方法。