JPH04213736A

JPH04213736A - フォールト・トレラント・システムのためのチェックポイント機構

Info

Publication number: JPH04213736A
Application number: JP3021470A
Authority: JP
Inventors: Haissam Alaiwan; エサム・アレワン; Jean Calvignac; ジャン・カルヴァニャック; Louis Combes Jacques; ジャック・ルイ・コンブ; Andre Pauporte; アンドレ・ポポルト; Claude Basso; クロード・バッソ; Kermarec Francois; フランソワ・カルマレック
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1990-02-08
Filing date: 1991-01-23
Publication date: 1992-08-04
Anticipated expiration: 2011-06-12
Also published as: EP0441087B1; DE69021712D1; DE69021712T2; JP2505928B2; EP0441087A1; US5235700A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、情報処理システムにフ
ォールト・トレランス能力を与えるためのチェックポイ
ント機構に関する。

【０００２】

【従来の技術】フォールト・トレランスは、プロセッサ
や通信制御装置などの情報処理システムにおいて緊急に
必要とされている。これらのマシンは、故障率が最小に
なるように設計し、修理時間が最小になるように故障の
診断及び位置決定を改善しなければならない。しかし、
ハードウェア及びソフトウェアの故障は、大抵の場合マ
シンの停止をもたらす。

【０００３】通信制御装置などのマシンの可用性要件は
、ますます厳しくなっている。というのは、これらのマ
シンは、ユーザから見て１日２４時間中断なく、所期の
サービスを提供しなければならないからである。ハード
ウェアの故障を防止する手段はないので、このような故
障でサービスが停止しないようにマシンを設計しなけれ
ばならない。このように設計されたマシンは、フォール
ト・トレラントであると言われる。

【０００４】このようなマシンはすでに存在する。それ
らは、本質的に２つの異なる概念に基づいている。

【０００５】第１の概念に基づくマシンは、同じプログ
ラム命令を同期的に実行する緊密に結合した装置を利用
するものである。このようなマシンの例は、米国特許第
４６５４８５７号及び欧州特許出願第２８６８５６号に
記述されている。

【０００６】このタイプのマシンの大きな欠点は、重複
した装置間で完全な同期を維持しなければならないこと
から生ずる。さらに、故障の即時的検出が必要とされる
。

【０００７】これとは対照的に、第２の概念に基づくマ
シンは、バックアップ装置と連動する活動装置を利用す
るものである。バックアップ装置は休眠しており、活動
装置が故障した場合にその代役を果たす。

【０００８】このようなマシンの例は、フランス特許第
２２６１５６８号に記述されている。これは、一部の非
停止システムでも使用されている。

【０００９】フランス特許２２６１５６８号は、障害を
起こしたプロセッサの代わりにバックアップ・プロセッ
サを使用できる、マルチプロセッサ構成を記述している
。故障が検出されると、制御装置が情報をセーブし、他
方のプロセッサがその情報を使って故障したプロセッサ
のタスクを実行することができる。このシステムは、故
障検出前にバックアップ・プロセッサを活動プロセッサ
の状態にする手段を提供しない。さらに、ある種の故障
によって、故障したプロセッサの状態をセーブできなく
なることがある。

【００１０】上記非停止システムでは、活動状態の主プ
ロセッサが実行するタスクのデータのコピーがバックア
ップ・プロセッサに提供される。バックアップ・プロセ
ッサは、周期的に主プロセッサの状態を示すメッセージ
を受け取る。バックアップ・プロセッサが主プロセッサ
の実行するタスクのデータのコピーを受け取るには、主
プロセッサで実行されるタスクがその扱ったデータをソ
ートし、ソートされたデータをバックアップ・プロセッ
サに送ることが必要である。このソート処理は、複雑で
あり、通信制御装置などのリアル・タイム・システムで
は容認できないオーバヘッドを生ずる。

【００１１】

【発明が解決しようとする課題】本発明の一目的は、活
動装置とバックアップ装置からなるフォールト・トレラ
ント・システム用の、活動装置の性能を低下させない、
改良されたチェックポイント機構を提供することである
。

【００１２】本発明の他の目的は、活動装置で実行され
るタスクにとってトランスペアレントな前記の機構を提
供することである。

【００１３】本発明の他の目的は、システム・ソフトウ
ェアの複雑さを増加させない、前記の機構を提供するこ
とである。

【００１４】

【課題を解決するための手段】本発明によるチェックポ
イント機構は、活動プロセッサが故障したとき、活動プ
ロセッサの作業処理をバックアップ・プロセッサによっ
て再開させる。この機構は、第１及び第２の情報処理装
置を含む少なくとも１対の情報処理装置と連動する。各
情報処理装置は、メモリに記憶されたプログラムを走ら
せるためのプロセッサを含む。このメモリは、データ線
、アドレス線、及び制御線を含むメモリ・バスを介して
プロセッサに接続されている。あるいは、このメモリは
、共用メモリから構成され、この共用メモリに複数のプ
ロセッサのすべてが相互接続ネットワークによって接続
されている。これらのプロセッサは、各プロセッサに関
連する故障検出手段に応答して、関連するプロセッサが
故障しているか否かを検出する構成制御装置の制御下で
、活動状態、バックアップ状態、または故障状態にセッ
トすることができる。チェックポイント機構は、

【００
１５】構成制御装置によって最初に活動状態にセットさ
れたプロセッサを有する情報処理装置と少なくとも関連
する、メモリ内容を変化させるアドレス及びデータをメ
モリ・バス上で受け取り、それからメモリ変化レコード
を生成する、第１のメモリ変化検出手段と、

【００１６
】構成制御装置によって最初に活動状態にセットされる
プロセッサを有する前記情報処理装置内の、プログラム
の選択された点で前記プロセッサによって提供される信
号に応答して、回復点確立信号を発生する、第１の信号
発生手段と、

【００１７】通信制御装置によって最初にバックアップ
状態にセットされたプロセッサを有する情報処理装置と
少なくとも関連する、前記第１メモリ変化検出手段から
受け取ったメモリ変化レコードを記憶するように前記第
１メモリ変化検出手段に結合された第１の記憶手段と、

【００１８】前記第１記憶手段に関連し、分離レコード
が第１記憶手段に記憶されている限り、第１信号手段か
ら受け取った回復点確立信号に応答して、分離レコード
を第１記憶手段に記憶させ、メモリ変化レコードを第１
記憶手段から読み出させて、最初にバックアップ状態に
セットされたプロセッサを有する情報処理装置のメモリ
に書き込ませる第１制御手段とを含み、

【００１９】バ
ックアップ・プロセッサが活動状態にセットされると、
活動状態のプロセッサの状態が活動状態から故障状態に
切り換わったとき、バックアップ・プロセッサが活動状
態のプロセッサの作業処理を再開することができる。

【００２０】

【実施例】本発明をよりよく理解するために、まず図１
ないし図６に関してそれぞれがプロセッサ及び専用メモ
リを含み、互いにバックアップし合う２つの処理装置を
含む構成で、チェックポイント機構の完全な説明を行な
う。次いで、本発明を一般化して、相互接続ネットワー
ク（図７）を介して接続された複数のプロセッサ対に適
用し、さらに共通のインテリジェント・メモリ（図８）
を共用する複数のプロセッサに適用する。

【００２１】本発明によるチェックポイント機構は、相
互接続された複数の同一プロセッサを含むマルチプロセ
ッサ・システムでフォールト・トレランスを実施するこ
とができる。このチェックポイント機構は、２重冗長構
成を利用する、すなわちこのシステムはプロセッサ対を
含む。各対において、一方のプロセッサが活動状態であ
り、すなわち処理作業を有効に実行するが、このときバ
ックアップ・プロセッサと呼ばれる他方のプロセッサは
休眠しており、相手のプロセッサが故障した場合だけ活
動状態になる。その切り替えは、動的に行なわれるもの
と仮定する。

【００２２】本発明によれば、プログラム・ロールバッ
ク技法を使用する。この技法は、以前に到達した点から
バックアップ・プロセッサで処理作業を再開することに
より、活動プロセッサの故障からシステムを回復させる
ことができる。回復点は、処理経路に沿って分散され、
これらの回復点におけるプロセッサの状態がセーブされ
る。プロセッサの状態は、プロセッサ・メモリとレジス
タとさらにハードウェアのある部分とに存在する、将来
のプロセッサの挙動に影響を与えるすべての変数からな
る集合を含む。

【００２３】プロセッサの状態は、その故障が活動プロ
セッサの故障とは相関しないメモリ装置にセーブされる
。したがって、その状態をバックアップ・プロセッサが
検索することができる。したがって、処理は、連続する
２つの回復点で区切られた連続した計算ステージにスラ
イスされる。

【００２４】これらのプロセッサは、フェイルストップ
設計を有する。すなわち、故障が発生するとプロセッサ
が作業を停止し、すべての外部活動を中断する。

【００２５】このような環境において、解決しなければ
ならない大きな問題は、活動プロセッサとバックアップ
・プロセッサの間の同期点の確立である。

【００２６】また、故障の検出及びバックアップ・プロ
セッサによる引継ぎも実行しなければならない。活動プ
ロセッサが実際に稼働を停止して、バックアップ・プロ
セッサが確実に動作を再開できるようにするには、いく
つかの条件を満たさなければならない。

【００２７】図１は、ただ１対のデータ処理装置１０−
１と１０−２を含むシステム内で実施されたときの本発
明のチェックポイント機構を表す。

【００２８】各装置は、メモリ１４に内蔵された制御プ
ログラムの制御下で働くプロセッサ１２を含む。プロセ
ッサ及びメモリは、装置１０−１では１２−１及び１４
−１、装置１０−２では１２−２及び１４−２の参照番
号で表してある。同じ制御プログラムが、メモリ１４−
１及び１４−２にロードされている。

【００２９】メモリ１４−１及び１４−２は、それぞれ
メモリ・バス１６−１及び１６−２を介してプロセッサ
１２−１及び１２−２に接続されている。メモリ・バス
は、通常通りアドレス線、データ線、及び制御線を含む
。

【００３０】故障検出器１８−１及び１８−２は、周知
のどのタイプのものでよいが、プロセッサの故障を検出
し、プロセッサ１２−１または１２−２内で故障を検出
したとき、それぞれＦＡＩＬ１線２０−１またはＦＡＩ
Ｌ２線２０−２上に活動信号を発生するように配置され
ている。

【００３１】図１で、故障検出回路は、説明のためにプ
ロセッサの外部に表してある。実際には、これらの故障
検出回路は、プロセッサ内部の選択された点に位置する
、パリティ・チェッカ、電力故障検出器などの複数のチ
ェッカを含む。

【００３２】各プロセッサは、ＡＣＴＩＶＥ状態、ＢＡ
ＣＫＵＰ状態、またはＦＡＩＬ状態と呼ばれるどの状態
にもなることができ、その状態は構成制御装置２２によ
って割り当てられる。構成制御装置は、線２０−１及び
２０−２から受け取ったＦＡＩＬ信号の状態からプロセ
ッサの状態を決定する。これらの信号に応答して、構成
制御装置は、バス２４−１及び２４−２上に状態制御信
号を発生する。これらの状態制御信号は、それぞれシス
テム１０−１及び１０−２内の状態ハンドラ回路２６−
１及び２６−２に供給され、前記の両システムを、バス
２７−１及び２７−２上のプロセッサ制御信号によって
所定の状態に設定させる。

【００３３】検出された故障が構成制御装置２２に報告
されると、故障したプロセッサの状態がＡＣＴＩＶＥ状
態からＦＡＩＬ状態へ切り替わり、相手プロセッサがＢ
ＡＣＫＵＰ状態からＡＣＴＩＶＥ状態へ切り替わる。

【００３４】ＦＡＩＬ−１線２０−１及びＦＡＩＬ−２
線２０−２の状態に応じて、構成制御装置２２は、バス
２４−１及び２４−２のうちの１本を活動化する。線２
４−１Ａまたは２４−２Ａ上の活動信号は、プロセッサ
１２−１または１２−２をＡＣＴＩＶＥ状態にセットす
るためのものである。線２４−１Ｂまたは２４−２Ｂ上
の活動信号は、プロセッサ１２−１または１２−２をＢ
ＡＣＫＵＰ状態にセットするためのものである。線２４
−１Ｆ及び／または２４−２Ｆ上の活動信号は、プロセ
ッサ１２−１及び／または１２−２をＦＡＩＬ状態にセ
ットするためのものである。

【００３５】本発明によるチェックポイント機構は、装
置１０−１及び１０−２内にそれぞれメモリ変化検出器
２８−１及び２８−２とミラーリング制御回路３０−１
及び３０−２を含む。このチェックポイント機構はまた
、装置１０−１と１０−２の間の専用経路であるミラー
・バス３４を含む。このミラー・バスは、後に説明する
ように、活動プロセッサとそのバックアップ・プロセッ
サの間で状態データを転送するためのものである。

【００３６】装置１０−１が活動装置であり、装置１０
−２がバックアップ装置であると仮定して、チェックポ
イント機構の動作を説明する。プロセッサ１２−１をＡ
ＣＴＩＶＥ状態にセットする線２４−１Ａからの制御信
号が、メモリ変化検出器２８−１に供給され、プロセッ
サ１２−１をＢＡＣＫＵＰ状態にセットする線２４−１
Ｂからの制御信号が、ミラーリング制御回路３０−１に
供給されて、装置１０−１が活動状態のときメモリ変化
検出器２８−１を活動化させ、ミラーリング制御回路３
０−１を非活動化させる。

【００３７】逆に、装置１０−２では、線２４−２Ｂ及
び２４−２Ａ上の状態制御信号がメモリ変化検出器２８
−２を非活動化させ、ミラーリング制御回路３０−２を
活動化させる。

【００３８】状態データは、メモリ変化検出器２８−１
によって装置１０−１内でセットアップされる。このメ
モリ変化検出器は、バス１６−１上の書込み信号に応答
して、書込み動作が実行されたとき、少なくともバス１
６−１上にあるメモリ・アドレスとデータを含むメモリ
変化のレコードを生成する。

【００３９】これらのレコードは、ミラー・バス３４の
ＳＴＡＴＥ　　ＤＡＴＡ線４０−１を介してバックアッ
プ装置１０−２内のライトアヘッド待ち行列ＷＡＱメモ
リ３２−２に供給され、そこに蓄積される。プロセッサ
１２−１内で走っている活動プログラムは、この過程に
は関与しない。

【００４０】メモリ変化は、活動メモリ状態とバックア
ップ・メモリ状態の違いである。今後は、プロセッサ状
態はメモリ状態に等しいと仮定する。言い換えると、あ
る時点以降のプロセッサの挙動を決定する変数は、専ら
メモリ内に常駐しなければならない。

【００４１】その結果、活動メモリ変化をバックアップ
・メモリに適用することにより、バックアップ・プロセ
ッサと活動プロセッサを同期させることができる。

【００４２】メモリ１４−１内に記憶されたプログラム
によって実行される作業処理の適当な時点で、たとえば
、各タスクの終了時点で、活動プログラムは、ＥＳＴＡ
ＢＬＩＳＨ　　ＲＥＣＯＶＥＲＹ　　ＰＯＩＮＴ（ＥＲ
Ｐ、回復点確立）命令を出す。この命令は、新しいプロ
セッサ命令ではない。この命令は、たとえば、メモリ・
アドレス範囲外のメモリ・アドレス、またはＥＲＰ命令
専用のメモリ・アドレスを指定するＲＥＡＤメモリ命令
である。このアドレスを、今後ＥＲＰアドレスと呼ぶこ
とにする。このアドレスは、検出器２８−１によって検
出され、検出器２８−１はそれに応答してＥＲＰ線４２
−１を活動化する。

【００４３】線４２−１上の活動ＥＲＰ信号が、ミラー
リング制御回路３０−２に供給される。制御回路３０−
２は、ＳＥＰＡＲＡＴＯＲレコードを生成し、それがバ
ス４３−２を介してライトアヘッド待ち行列ＷＡＱ３２
−２に書き込まれる。また、ミラーリング制御回路３０
−２は、後で説明するように、読取り制御線４４−２を
活動化して、最も新しく到達した回復点までの待ち行列
内のすべてのレコードをバックアップ装置１０−２のメ
モリ１４−２にダンプさせる。

【００４４】各計算ステージ中で、ＥＲＰ命令が出され
る前に、活動プロセッサの制御プログラムが次の計算ス
テージの入口点のアドレスを決定するとき、その制御プ
ログラムはＳＴＯＲＥ命令を出す。この命令によって、
次の計算ステージのｉ入口点（すなわち、次の計算ステ
ージの最初の命令のアドレス）が、Ｎｅｘｔ　　Ｅｎｔ
ｒｙ　　Ｐｏｉｎｔ（次の入口点）アドレスと呼ばれる
固定したメモリ・アドレスに記憶される。

【００４５】このＳＴＯＲＥ動作は、メモリ変化検出器
２８−１によってメモリ変化として検出され、対応する
メモリ変化レコードが、バックアップ装置１０−２のメ
モリ１４−２にロードすべく、ライトアヘッド待ち行列
ＷＡＱ３２−２に入れられる。

【００４６】プログラムが回復点に達した場合、計算ス
テージは活動プロセッサ１２−１によって成功裡に実行
を終える。バックアップ・メモリ１４−２内のプロセッ
サ状態が更新される。プログラムが回復点に達する前に
活動プロセッサ１２−１が故障した場合は、バックアッ
プ・プロセッサの状態は更新されず、最も新しく到達し
た回復点でセットアップされた値が、メモリ１４−２内
のＮｅｘｔＥｎｔｒｙ　　Ｐｏｉｎｔアドレスに保持さ
れる。

【００４７】装置１０−２の状態が、構成制御装置２２
及び状態ハンドラ２６−２の制御下でバックアップ状態
から活動状態に切り替わるとき、メモリ１４−２に常駐
するプロセッサ・プログラムは、メモリ１４−２への現
在のダンプ動作の完了を待ち、固定したＮｅｘｔ　　Ｅ
ｎｔｒｙ　　Ｐｏｉｎｔメモリ・アドレスから読み出さ
れた命令アドレスからそのプログラムの実行を開始する
。

【００４８】ミラー・バス３４は、２つの装置１０−１
と１０−２をリンクする。

【００４９】ミラー・バス３４は、専ら活動プロセッサ
をしてそのメモリ変化をバックアップ・プロセッサのメ
モリにミラーさせるために使用される。以下の能力を提
供するものであればどのような種類のバスでも使用でき
る。

【００５０】１．ミラー・バスは、装置１０−１及び１
０−２の機能的データ経路から独立していなければなら
ない。

【００５１】２．ミラー・バスは方向性を持ち、その方
向が、２つのプロセッサの諸状態の制御下になければな
らない。図１では、この能力を模式的に示すため、メモ
リ変化検出器２８−１からライトアヘッド待ち行列ＷＡ
Ｑ３２−２及びミラーリング制御回路３０−２へのＳＴ
ＡＴＥ　　ＤＡＴＡ線４０−１及びＥＲＰ線４２−１を
設け、メモリ変化検出器２８−２からライトアヘッド待
ち行列ＷＡＱ３２−１及びミラーリング制御回路３０−
１へのＳＴＡＴＥ　　ＤＡＴＡ線４０−２及びＥＲＰ線
４２−２を設けてある。活動プロセッサからバックアッ
プ・プロセッサへの線だけが活動状態である。他のどん
な状態の組合せについても、他方の方向は阻止される。したがって、故障プロセッサは、活動プロセッサと干渉
しない。

【００５２】この機能は、図１でバス・ドライブ・ボッ
クス４６−１及び４６−２によって模式的に示されてい
る。これらのバス・ドライブ・ボックスは線２４−１Ａ
及び２４−２Ａ上の信号に応答し、プロセッサ１２−１
と１２−２のどちらのプロセッサが活動状態であるかに
応じて、ミラー・バス３４上の転送の方向を制御する。

【００５３】装置１０−１及び１０−２内で使用できる
メモリ変化検出回路２８が、図２に示されている。この
回路は、活動装置１０−１内にあるものと仮定し、した
がって参照番号に接尾数字１をつけてある。

【００５４】メモリ・バス１６−１は、アドレス線５０
−１、データ線５２−１、バイト・セレクト線ＢＳ５４
−１、及び読み書き（Ｒ／Ｗ）制御線５６−１を含む。アドレス線は３バイトを搬送することができ、データ線
は４バイトを搬送することができ、メモリはメモリ・ア
ドレスされた位置の選択されたバイトだけを更新できる
バイト選択能力を備えているものと仮定する。

【００５５】バス１６−１のアドレス線、データ線、バ
イト選択線、及び読み書き制御線は、メモリ変化レコー
ド生成機構５８−１に接続されている。メモリ変化レコ
ード生成機構は、プロセッサ１２−１が活動状態のとき
活動状態となる。このレコード生成機構は、メモリ書込
み動作を指示するＲ／Ｗ制御線５６−１上の信号に応答
して、アドレス線５０−１及びデータ線５２−１上に存
在するアドレス・ビット及びデータ・ビットをレジスタ
６０−１にゲートし、制御フィールドを生成する。この
制御フィールドもレジスタ６０−１に供給される。この
制御フィールドは、このレコードをメモリ変化レコード
として識別する情報と、バイト選択信号から取り出され
た情報とを含み、メモリ・アドレスされた位置で変更さ
れるバイトを指定する。

【００５６】レジスタ６０−１内で生成されたメモリ変
化レコードは、バス・ドライブ・ボックス４６−１を介
して供給され、ライトアヘッド待ち行列３２−２に書き
込まれる。

【００５７】ＥＲＰ検出器６２−１は、読取り動作を指
示するＲ／Ｗ制御線上の信号、及び（プログラムがＥＲ
Ｐ命令を出すことを意味する）ＥＲＰアドレスに等しい
バス５０−１内のメモリ・アドレスに応答して、バス・
ドライブ４６−１を介してＥＲＰ線４２−１を活動化す
る。これによって、その時点まで記憶されたメモリ変化
レコードがライトアヘッド待ち行列３２−２に入る（ｃ
ｏｍｍｉｔ）。

【００５８】メモリ変化検出器の動作は、リアル・タイ
ムで実行される。

【００５９】ライトアヘッド待ち行列３２及びミラーリ
ング制御回路３０は、図３に示されている。これらはバ
ックアップ装置１０−２内に位置するものと仮定する。したがって、図３では参照番号に接尾数字２がつけてあ
る。

【００６０】ライトアヘッド待ち行列ＷＡＱは、書込み
ポート、読出しポート、及び先入れ先出し（ＦＩＦＯ）
アクセスを有する２重ポート・メモリである。ＷＡＱは
、バス４０−１から受け取ったメモリ変化レコードを一
時的に待ち行列に入れるために使用される。待ち行列に
入れたレコードは、後で説明するように、ミラーリング
制御回路３２−２の制御下で待ち行列から外し、すなわ
ちＷＡＱ待ち行列から読み出し、消去することができる
。ＷＡＱ待ち行列メモリが２重ポート式であるため、同
時並行の読出しアクセスと書込みアクセスが許可される
。このようなメモリは通常のものである。

【００６１】ミラーリング制御回路３０−２の機能は、
ＷＡＱ待ち行列３２−２内に蓄積されたメモリ変化がＥ
ＲＰ線４２−１からのＥＲＰ信号によって待ち行列に入
れられたときに、これらの変化をバックアップ・メモリ
１４−２に入れることである。

【００６２】ミラーリング制御回路３０−２は、有限状
態マシン７０−２、カウンタ７２−２、レジスタ７４−
２、及びゲート回路７６−２を含み、レジスタ７４−２
は、メモリ変化レコードと同じフォーマットをもち、制
御フィールド内の特定のコードによってそうであると識
別される、セパレータ・パターンを含む。

【００６３】有限状態マシン７０−２の状態図は、図４
及び図５に示されている。線２４−２Ｂからの信号で装
置１０−２がバックアップ状態にセットされると、有限
状態マシンは作業を開始する。最初の動作（動作９０）
で、ＥＲＰ線４２−１をテストする。それが活動状態（
ＯＮ）であると判定された場合、有限状態マシン７０−
２は線７８−２を活動化し、それによって、レジスタ７
４−２に含まれるセパレータ・パターンをライトアヘッ
ド待ち行列３２−２に書き込ませる（動作９２）。次に
、有限状態マシン７０−２は増分線８０−２を活動化し
、それによって、カウンタ７２−２を１だけ増分させる
（動作９４）。

【００６４】カウンタ値は、ミラーリング制御回路によ
ってサービスされる待ち行列に入れられた回復点の番号
を反映する。

【００６５】次に、ＥＲＰ線４２−１を再びテストし、
非活動状態であると判定された場合は、動作９０から処
理を再開する。非活動状態であると判定されなかった場
合は、ＥＲＰ信号の下降を待つために動作９６から処理
が再開される。

【００６６】ＷＡＱ待ち行列３２−２に入れられたメモ
リ変化レコードがある限り、有限状態マシン７２−２は
読出し制御信号を線４４−２上に発生し、バス８２−２
を介してＷＡＱ待ち行列から読み出されたレコードを受
け取って、それらのレコードを適当なアドレス、データ
、及びバイト選択情報に変換する。これらの情報がメモ
リ・バス１６−２に供給されて、バックアップ・メモリ
１４−２を更新する。ミラーリング制御回路３０−２は
、直接メモリ・アクセス能力をもつ。すなわち、ミラー
リング制御回路はプロセッサ１２−２から援助を受けず
にメモリにアクセスすることができる。

【００６７】これらの動作を記述したマシン７０−２の
状態図が、図５に示されている。

【００６８】まず、有限状態マシン７２−２は、カウン
タ７２−２内の値をテストし（動作１００）、この値が
０以外になるまで、すなわち計算ステージ中に生成され
記憶されたメモリ変化レコードが蓄積されるまで待つ。カウンタ値が０ではないとき、読出し線４３−２が活動
化され、ＷＡＱ待ち行列からレコードが読み出される（
動作１０２）。

【００６９】次に、有限状態マシン７０−２は、このレ
コードがメモリ変化であるか否かテストする（動作１０
４）。メモリ変化である場合は、有限状態マシン７０−
２は、そのレコードを変換し、対応するメモリ変化をメ
モリ１４−２に書き込む（動作１０６）。次いで、動作
１００を再開する。

【００７０】読み出されたレコードがメモリ変化でない
場合は、有限状態マシンは、このレコードがセパレータ
・レコードであるか否かテストする（動作１０６）。セ
パレータ・レコードである場合は、有限状態マシンは、
線８４−２を活動化し、それによってカウンタ７２−２
の内容を減分させる（動作１０８）。というのは、計算
段に対応するメモリ変化データが、バックアップ・メモ
リ１４−２内にダンプされたからである。

【００７１】セパレータ・レコードでない場合は、エラ
ー信号が線８６−２上で立ち上がる。

【００７２】これらの動作９０−１０８はバックアップ
・プロセッサ内で実行することもできるが、メモリ変化
が発生する速度に合わせるため、ハードワイヤ式論理回
路である有限状態マシンによって実行することが好まし
い。

【００７３】プロセッサ１２−２の状態がバックアップ
状態から活動状態に切り替わるとき、プロセッサは、Ｗ
ＡＱ待ち行列に入れられたすべての記憶されたメモリ変
化がサービスされたか否かを判定するための入出力命令
ＲＥＡＤ　　ＲＰ　　ＣＯＵＮＴＥＲ７２−２を出す。ＲＰカウンタ７２−２の読み取り、及びそれに続くゼロ
か否かのテストによって、その動作を行なうことが可能
になる。ＲＰカウンタが０でない場合、プロセッサはモ
ニタリング制御回路３０−２がメモリ１４−２内でメモ
リ変化のコピーを完了するのを待つ。カウンタが０のと
き、プロセッサ１２−２はＲＥＡＤ命令をＮｅｘｔ　　
Ｅｎｔｒｙ　　Ｐｏｉｎｔメモリ・アドレスに出す。こ
の命令は、プロセッサ１２−２によって実行される最初
の命令のアドレスを得て、プロセッサ１２−１の故障に
よって中断された作業処理を再開するためのものである
。

【００７４】図１の状態ハンドラ２６−１及び２６−２
は、構成制御装置２２から状態制御信号を受け取る。

【００７５】これらの状態ハンドラは、状態制御バス２
４−１及び２４−２上の状態制御信号によって指示され
る、ＦＡＩＬ状態からＢＡＣＫＵＰ状態へ、またはＢＡ
ＣＫＵＰ状態からＡＣＴＩＶＥ状態へ、またはＦＡＩＬ
状態からＡＣＴＩＶＥ状態への切り替え副指令に応答し
て、プロセッサに割り込みをかける。これらの割り込み
は、プロセッサがＢＡＣＫＵＰ状態にセットされるとき
はプログラムが遊休状態にセットされ、またプロセッサ
がＡＣＴＩＶＥ状態にセットされるときはランを開始す
るように、プロセッサ・プログラムに割り込みの原因を
通知する。

【００７６】構成制御装置２２はまた、図６に示すよう
な、バス２４−１及び２４−２の線を活動化する有限状
態マシンを含む。

【００７７】構成制御装置２２によってセットされるプ
ロセッサ１２−１及び１２−２の可能な状態は５つある
。これらの状態は、図６でボックス１０２、１０４、１
０６、１０８、及び１１０内に示されている。表１は、
プロセッサ１２−１及び１２−２を５つの状態にセット
するための線２４−１Ａ、２４−１Ｂ、２４−１Ｆ、２
４−２Ａ、２４−２Ｂ、２４−２Ｆの状態を示す。

【００７８】

【表１】

【００７９】ある状態から別の状態への切り替えを生じ
させる事象は、図６に矢印で示されている。たとえば、
プロセッサが状態１０２にあるとき、すなわちプロセッ
サ１２−１が活動プロセッサであり、プロセッサ１２−
２がバックアップ・プロセッサであるとき、プロセッサ
１２−２が故障した場合、構成制御装置は状態１１０を
セットする。

【００８０】状態１０２から状態１１０への切り替えを
生じさせる事象は、線２０−２がＯＦＦ状態からＯＮ状
態へ切り替わり、線２０−１はＯＦＦであることである
。

【００８１】状態の切り替えを生じさせるすべての可能
な事象を、表２に示す。

【００８２】

【表２】

【００８３】任意の装置（１０−１または１０−２）が
最初に活動状態またはバックアップ状態にセットされる
ようにするために、メモリ変化検出器、ミラーリング制
御回路、及びライトアヘッド待ち行列が各装置に関連付
けられている。これによってシステムにフレキシビリテ
ィが与えられる。

【００８４】明らかに、このフレキシビリティが必要で
ない場合、すなわち一方の装置が常時活動装置であり、
もう一方の装置１０−２が常時バックアップ装置である
場合は、ただ１つのメモリ変化検出器２８−１、ライト
アヘッド待ち行列３２−２、及びミラーリング制御回路
３０−２で充分である。

【００８５】プロセッサの利用を最適化するために、バ
ックアップ・プロセッサを使って、メモリ内の、バック
アップ機能専用のアドレス空間とは異なるアドレス空間
に記憶された別のプログラムを実行することができる。

【００８６】上述のように、図１−図６に関して説明し
たチェックポイント機構は、図７に示すようなマルチプ
ロセッサ・システム内で実施することができる。この図
には２つのプロセッサ対１２０及び１２２が表されてい
る。図７に概略的に示すように、各対のプロセッサ、メ
モリ、チェックポイント機構、故障検出回路、状態ハン
ドラ、及び構成制御装置は、図１に示すように配置され
ている。

【００８７】これらのプロセッサ対は、故障がないと仮
定される相互接続ネットワーク１２４を介して相互接続
されている。

【００８８】プロセッサ同士は、相互接続ネットワーク
を経由して交換されるメッセージを用いて交信する。交
信メッセージは、ソース対の活動プロセッサによって生
成され、宛先対の活動プロセッサに送られる。

【００８９】これらのメッセージは、活動ソース・プロ
セッサのメモリから相互接続アダプタを介して活動宛先
プロセッサのメモリに交換される。相互接続アダプタは
、メモリ・バスと相互接続ネットワークの間のインター
フェースを行ない、ボックス１２６、１２８、１３０、
及び１３２として模式的に示されている。

【００９０】宛先対のバックアップ・プロセッサは、相
互接続ネットワークを介してメッセージを直接受け取る
ことはなく、チェックポイント機構を介してメッセージ
を得る。

【００９１】このマルチプロセッサ環境におけるチェッ
クポイント機構の実施態様は、相互接続ネットワークが
、プロセッサ対を識別するが、個々のプロセッサは識別
しないアドレス方式をもち、したがって送信側は、宛先
対内のどの特定のプロセッサが活動状態であるかを知る
必要がないことを暗示している。

【００９２】プロセッサ間交信は、適当なエラー回復プ
ロトコルによって、プロセッサの故障から生ずるメッセ
ージ・ロスまたは重複から保護されていなければならな
い。

【００９３】メッセージ・イン動作またはメッセージ・
アウト動作の進行中にプログラムによって”Ｅｓｔａｂ
ｌｉｓｈ　　Ｒｅｃｏｖｅｒｙ　　Ｐｏｉｎｔ”アクシ
ョンが出されてはならない。したがって、メッセージ・
イン動作またはメッセージ・アウト動作は、複数の計算
ステージにまたがることができず、活動プロセッサの故
障は次のような結果をもたらす。

【００９４】−　　打ち切られた計算ステージ中にメッ
セージ・アウト動作が実行された場合、そのメッセージ
・アウト動作は、最後の回復点におけるメモリ状態に基
づいて新しい活動プロセッサによって再発行される。

【００９５】−　　打ち切られた計算ステージ中にメッ
セージ・イン動作が実行された場合、そのメッセージ・
インは新しいバックアップ・プロセッサによって無視さ
れ、送信側から再び送られる。

【００９６】上述したように、図１−図６に関して説明
したチェックポイント機構は、さらに図８に示すような
マルチプロセッサ・システムにおいて実施可能である。

【００９７】図８は、共用メモリ１４０に接続された複
数のプロセッサ１２−１、１２−２、．．．、１２−ｎ
を示す。この共用メモリは、同じ出願人の欧州特許出願
ＥＰ８８４８０１０２．８号に記載されたタイプの共用
メモリである。この出願を、引用により本明細書に合体
する。プロセッサは、相互接続ネットワーク１４２を介
して共用メモリに接続されている。共用メモリ１４０は
、２つのサイド、すなわちサイドＡ１４４及びサイドＢ
１４６を含み、記憶を強化してデータ保全性を得るため
に同じ情報が重複される。

【００９８】上記の欧州特許出願に詳細に記載されてい
るように、互いに交信するために、プロセッサ１２−１
、１２−２、．．．、１２−ｎは、適当なハイ・レベル
・コマンドを用い、共用メモリ内にあるレコードの待ち
行列を使ってメッセージを交換する。プロセッサから送
られたハイ・レベル・コマンドＰＵＴ、ＧＥＴ、ＥＮＱ
、ＤＥＱは、前記プロセッサに接続されたメモリ・イン
ターフェース１５６によって構築され、相互接続ネット
ワーク１４２を介して共用メモリ内に組み込まれたメモ
リ・コマンド実行機構（ＰＭＣＥ、図示せず）に送られ
て実行される。前記のハイ・レベル・コマンドは、プロ
セッサが知る論理レコード・アドレス（ＬＲＡ）によっ
て識別されるデータ・レコードを使って作業する。ＰＭ
ＣＥによるハイ・レベル・コマンドの実行中に、論理レ
コード・アドレスは、共用メモリの両サイド内の物理ア
ドレス空間に対応する物理アドレスに変換される。

【００９９】図８に示すように、メモリ１４０内の重複
されたレコード１４８、１５０によって概略的に示され
るすべてのデータ構造は、記憶装置またはアクセス・シ
ステム内のすべての単一ハードウェア障害をサポートす
るために重複される。具体的には、本発明に関連して定
義するような、あるタスクに対して確立された回復点は
、図１−図６に関して説明したように、プロセッサに到
達するため専用の単一メモリのアドレス空間としてでは
なく、重複されたレコードとして常にメモリ内にセーブ
される。このように、回復点は、メモリ１４０構造の２
重構成によって提供される保護を利用する。

【０１００】同様に、図８に示された実施態様は、図１
−図６に関して説明したように、各プロセッサ専用のラ
イトアヘッド待ち行列（ＷＡＱ）に影響を与えるのでは
なく、メモリ１４０の両サイド１４４、１４６にある重
複されたライトアヘッド待ち行列レコード１５２、１５
４を提供する。本発明によるチェックポイント機構の残
りの特徴、すなわち故障検出器、状態ハンドラ、及び構
成制御装置の機能は、各プロセッサ１２−１、１２−４
専用であり、前述のように動作する。

【０１０１】しかし、すべてのプロセッサに接続された
共用メモリを使用するので、パケット・メモリ内にある
回復点の確立は、メモリ・サイド１４４、１４６が専用
であるために多少特殊である。

【０１０２】最低レベルでは、あるタスクに対する回復
点は、２重アドレス空間内に位置するデータ・レコード
１４８、１５０の集合である。回復点の更新が両サイド
１４４、１４６内で並行して行なわれるなら、ＰＵＴ動
作中にプロセッサがクラッシュした場合、同じ偽の値が
両サイド内に記憶されるはずである。たとえば、回復点
が８ビットで定義される場合、ＰＵＴ動作中にクラッシ
ュが起こると、新しい回復点として偽の値ｎｎｎｎｎ０
００がパケット・メモリの両サイド内に残るはずである
（ここで、ｎは新しい回復点値のビットを表し、０は古
い回復点値のビットを表す）。

【０１０３】したがって、共用メモリを使ってチェック
ポイント機構を実施するとき、この問題を解決するには
、メモリ・サイド１４４、１４６の少なくとも一方のサ
イド内に一貫した回復点を常にもつように、共用メモリ
の２つのサイドの更新を同期化解除することが必要にな
る。

【０１０４】上に説明したように共用メモリを使用する
環境では、２つの回復点間で作成されたデータ状態を一
種のキャッシュ内にセーブすることからなるコミット（
入力ないしは記憶）・フェーズ、またはライトアヘッド
待ち行列によって実施されるコミット・リストは、次の
ステップを含む。

【０１０５】１．コミット・リストを共用メモリ１４０
のレコード内に位置するライトアヘッド待ち行列内にセ
ーブするステップ。

【０１０６】２．共用メモリ１４０のサイドＡ１４４を
最新の回復点で更新するステップ。

【０１０７】３．共用メモリのサイドＢ１４６を最新の
回復点で更新するステップ。

【０１０８】最新回復点が共用メモリの両サイドにセー
ブされていない限り、プロセッサによるタスクの実行で
、このプロセッサの外部のデータ状態が変更されてはな
らないことに留意されたい。したがって、そのタスク実
行によって生成されるすべての外部アクションは、すで
に説明したようにコミット・リスト内にセーブされるか
、あるいはただちに実行されるが、共用メモリ内にセー
ブされたアンドゥー・リストにログされる。したがって
、すべての外部動作及びその結果は、そのタスクがその
プロセッサ内で実行中に故障が発生した場合、無効にな
ることがある。このような状況では、タスクの作業を消
去するためにアンドゥー・リストを実行する後に、パケ
ット・メモリから前の回復点を得るステップ、及び図１
−図６に関して説明したチェックポイント機構に従って
前記の前の回復点によって提供されたデータを使用して
タスクを再開するステップが続くことになる。共用メモ
リの２つのサイド内に前の回復点を２重にセーブするた
め、回復手順は、コミット・フェーズのステップに関す
る、プロセッサ故障発生の瞬間に応じて僅かに変わるこ
とに留意されたい。

【０１０９】したがって、前に定義したようにフェーズ
１または２で故障が発生した場合、新しい回復点はまだ
パケット・メモリのサイドＡにはないので、回復手順は
古い回復点から出発しなければならず、次のステップを
実行することになる。

【０１１０】ａ）サイドＢに記憶された古い回復点をサ
イドＡにコピーするステップ。

【０１１１】ｂ）アンドゥー・リストを実行して、新し
い回復点を使って先に実行された外部セクションを消去
するステップ。

【０１１２】そして、前に定義したようにフェーズ３で
故障が発生した場合は、新しい回復点はすでにパケット
・メモリのサイドＡにセーブされているので、回復手順
はこの新しい回復点から出発しなければならず、次のス
テップを実行することになる。

【０１１３】ａ）サイドＡにある新しい回復点をサイド
Ｂにコピーするステップ。

【０１１４】ｂ）コミット・リストを実行するステップ
。

【０１１５】回復手順がバックアップ・プロセッサによ
って実行されるので、主プロセッサが故障したときにそ
のプロセッサがあったフェーズに対応する情報を、共用
メモリ内にセーブすることが不可欠であることに留意さ
れたい。

【０１１６】

【発明の効果】以上説明したように、本発明によれば、
活動装置の性能を低下させることなく、活動装置で実行
されるタスクによってトランスペアレントであり、しか
もシステム・ソフトウェアの複雑さを増加させないフォ
ールト・トレラント・システム用のチェック・ポイント
機構を提供することができる。

【図面の簡単な説明】

【図１】２つの装置を含むシステム内で実施されたとき
の本発明によるチェックポイント機構のブロック図であ
る。

【図２】メモリ変化検出回路の図である。

【図３】ミラーリング制御回路の図である。

【図４】ミラーリング制御回路内の有限状態マシンの状
態図である。

【図５】ミラーリング制御回路内の有限状態マシンの状
態図である。

【図６】構成制御装置の状態図である。

【図７】相互接続ネットワークを介して互いに接続され
たプロセッサ対を有するマルチプロセッサ・システム内
で実施されたときのチェックポイント機構を表す図であ
る。

【図８】いくつかの単一プロセッサが共用インテリジェ
ント・メモリを介して相互接続された場合のチェックポ
イント機構の別の実施態様を表す図である。

【符号の説明】

１０　　データ処理装置１２　　プロセッサ１４　　メモリ１８　　故障検出器２２　　構成制御装置２６　　状態ハンドラ２８　　メモリ変化検出器３０　　ミラーリング制御回路３２　　ライトアヘッド待ち行列

Claims

【特許請求の範囲】

【請求項１】第１及び第２の情報処理装置を含む少なく
とも１対の情報処理装置と連動し、上記の各情報処理装
置がデータ線、アドレス線、及び制御線を含むメモリ・
バスを介してプロセッサに接続されたメモリ内に記憶さ
れたプログラムを実行するプロセッサを含み、上記各プ
ロセッサが、関連するプロセッサが故障しているか否か
を検出する、各プロセッサに関連する故障検出手段に応
答する構成制御装置の制御下で、活動状態、バックアッ
プ状態、または故障状態にセットすることができるとい
う、活動プロセッサが故障したとき、その活動プロセッ
サの作業プロセスがバックアップ・プロセッサによって
再開されるようにするフォールト・トレラント・システ
ムのためのチェックポイント機構であって、メモリ・バ
ス上でアドレスと、メモリ内容を変化させるデータとを
受け取って、それからメモリ変化レコードを生成するよ
うに、構成制御装置によって情報処理装置が最初に活動
状態にセットされるプロセッサを有する情報処理装置と
少なくとも連動する第１のメモリ変化検出手段と、構成
制御装置によって最初に活動状態にセットされるプロセ
ッサを有する前記情報処理装置内の、プログラムの選択
された点で前記プロセッサから提供される信号に応答し
て回復点確立信号を発生するための第１の信号手段と、
通信制御装置によって最初にバックアップ状態にセット
されるプロセッサを有する情報処理装置と少なくとも連
動する前記第１メモリ変化検出手段に結合された、前記
第１メモリ変化検出手段から受け取ったメモリ変化レコ
ードを記憶するための第１記憶手段と、分離レコードが
第１記憶手段内に記憶されている限り、第１信号手段か
ら受け取った回復点確立信号に応答して、分離レコード
を第１記憶手段内に記憶させ、メモリ変化レコードを第
１記憶手段から読み出させて、最初にバックアップ状態
にセットされたプロセッサを有する情報処理装置のメモ
リ内に書き込ませ、それによってバックアップ・プロセ
ッサが活動状態にセットされ、活動プロセッサの状態が
活動状態から故障状態に切り換えられたときに、バック
アップ・プロセッサが活動状態プロセッサの作業プロセ
スを再開できるようにする、前記第１記憶手段に関連す
る第１制御手段とを含むことを特徴とする前記チェック
ポイント機構。
【請求項２】構成制御装置によって最初にバックアップ
状態にセットされ、メモリ・バス上でアドレスとメモリ
内容を変化させるデータとを受け取って、それからメモ
リ変化レコードを生成することができるプロセッサを有
する、情報処理装置と連動する第２のメモリ変化検出手
段と、構成制御装置によって最初にバックアップ状態に
セットされ、前記構成制御装置がプログラムの選択され
た点で前記プロセッサから提供される信号に応答して回
復点確立信号を発生することができるプロセッサを有す
る、前記情報処理装置内の第２信号手段と、通信制御装
置によって最初に活動状態にセットされたプロセッサを
有する情報処理装置と連動する前記第２メモリ変化検出
手段に結合された、前記第２メモリ変化検出手段から受
け取ったメモリ変化レコードを記憶するための第２記憶
手段と、第２信号手段から受け取った回復点確立信号に
応答して、分離レコードを第２記憶手段内に記憶させ、
メモリ変化レコードを第２記憶手段から読み出させて、
最初に活動状態にセットされたプロセッサを有する情報
処理装置のメモリ内に書き込ませ、それによって第１及
び第２情報処理装置内の前記プロセッサのいずれか１つ
が構成制御装置によって最初に活動状態またはバックア
ップ状態にセットできるようにする、前記第２記憶手段
と関連する第２制御手段とを含むことを特徴とする、請
求項１に記載のチェックポイント機構。
【請求項３】前記メモリならびに前記の第１及び第２記
憶手段が、前記の活動プロセッサとバックアップ・プロ
セッサによって共用されるメモリの２つのサイドで重複
された２重共用レコードによって構成されることを特徴
とする、請求項２に記載のチェックポイント機構。
【請求項４】関連するプロセッサが構成制御装置によっ
て活動状態にセットされたとき、第１または第２メモリ
変化検出手段及び第１または第２信号手段が動作中にセ
ットされること、及び関連するプロセッサが構成制御装
置によってバックアップ状態にセットされたとき、第１
または第２記憶手段及び第１または第２制御手段が動作
中にセットされることを特徴とする、請求項２に記載の
チェックポイント機構。
【請求項５】第１記憶手段が２重ポート先入れ先出しメ
モリを含み、第１メモリ変化検出手段から受け取ったメ
モリ変化レコードが待ち行列に入れられることを特徴と
する、請求項１に記載のチェックポイント機構。
【請求項６】第１記憶手段が２重ポート先入れ先出しメ
モリを含み、第１メモリ変化検出手段から受け取ったメ
モリ変化レコードが待ち行列に入れられること、及び第
２記憶手段が２重ポート先入れ先出しメモリを含み、第
２メモリ変化検出手段から受け取ったメモリ変化レコー
ドが待ち行列に入れられることを特徴とする、請求項４
または５に記載のチェックポイント機構。
【請求項７】第１制御手段が、カウント手段と、回復点
確立信号に応答して、カウント手段を初期値から第１の
固定値だけ変化させ、第１記憶手段に書き込まれる分離
レコードを生成し、カウンタの値に応答して、カウンタ
の値が初期値と異なる場合に第１記憶手段を読み取らせ
、読み取ったレコードをテストして、このレコードがメ
モリ変化レコードである場合は情報処理装置のメモリに
送らせ、またこのレコードが分離レコードである場合は
カウンタ値を第１固定値の反対である第２固定値だけ変
化させる、論理回路手段とを含むことを特徴とする、請
求項１または５に記載のチェックポイント機構。
【請求項８】第１及び第２制御手段が、カウント手段と
、回復点確立信号に応答して、カウント手段を初期値か
ら第１固定値だけ変化させ、第１記憶手段に書き込まれ
る分離レコードを生成し、カウンタの値に応答して、カ
ウンタの値が初期値と異なる場合に関連する記憶手段を
読み取らせ、読み取ったレコードをテストして、このレ
コードがメモリ変化レコードである場合は関連する情報
処理装置のメモリに送らせ、またこのレコードが分離レ
コードである場合はカウンタ値を第１固定値の反対であ
る第２固定値だけ変化させる、論理回路手段とを含むこ
とを特徴とする、請求項２、４、または６に記載のチェ
ックポイント機構。
【請求項９】活動プロセッサが、バックアップ・プロセ
ッサがそこで作業プロセスを再開しなければならないプ
ログラム命令のアドレスをメモリ・バスを介して送り、
このアドレスが、バックアップ状態にセットされたバッ
クアップ・プロセッサのメモリの固定アドレスに書き込
まれるメモリ変化レコードを構成するようにすることを
特徴とする、請求項１ないし７のいずれか一つに記載の
チェックポイント機構。