JP3120033B2

JP3120033B2 - 分散メモリ型マルチプロセッサシステム及び故障回復方法

Info

Publication number: JP3120033B2
Application number: JP08063407A
Authority: JP
Inventors: 秀昭平山; 浩酒井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1996-03-19
Filing date: 1996-03-19
Publication date: 2000-12-25
Anticipated expiration: 2016-03-19
Also published as: CN1225709C; CN1164710A; US5922078A; JPH09259098A; KR100238926B1; KR970066900A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、大規模な科学技術
計算やデータベース処理等で使用される分散メモリ型マ
ルチプロセッサシステムに係り、特にシステム全体が高
信頼化された分散メモリ型マルチプロセッサシステムに
関する。

【０００２】

【従来の技術】計算機を高信頼化する技術のひとつとし
て、チェックポイント／ロールバック方式があり、例え
ば計算機ネットワークで使用されるサーバ計算機を高信
頼化する技術として採用されている。

【０００３】図２７は、チェックポイント／ロールバッ
ク方式の計算機の動作の基本原理を示した概念図であ
る。チェックポイント／ロールバック方式の計算機で
は、通常のデータ処理の合間に、通常では定期的にチェ
ックポイントを取得している。ここで言うチェックポイ
ントとは、リスタート可能な状態のことである。

【０００４】そして、もしハードウェア（ＨＷ）の故障
が発生した場合、例えば、故障したＨＷ機器をリセット
する等して、故障原因を除去した上で、最後に取得した
チェックポイントにシステムをロールバックし、その
後、システムをリスタートさせる。これが、チェックポ
イント／ロールバック方式の計算機の基本原理である。
計算機を完全に初期化するのと比較して、サービスの中
断がほとんど無いというメリットがある。

【０００５】ところで、複数のノードを高速な通信路で
結合し、大規模な科学技術計算やデータベース処理を各
計算機に分散させて実行させる分散メモリ型のマルチプ
ロセッサシステムが普及しつつある。この種のシステム
では、ノードの数が数１００〜数１０００になることも
あり、何れかのノードで故障が発生すると、全体システ
ムを停止させてシステムの初期化からやり直すか、ある
いは例えば故障したノードが担っていた機能を一時的に
せよ使用不可とする必要がある。

【０００６】分散メモリ型のマルチプロセッサシステム
全体の信頼性（稼働率）は、あるノードの故障が他のノ
ードの信頼性に影響を及ぼすことがないと仮定すると、
各ノードの信頼性（稼働率）の積で表わされる。例え
ば、各ノードの稼働率を９９．９９％とし、ノード数を
１０２４とすると、システムとしての稼働率は、９０．
２７％となり、ノード数が増加すると、全体の信頼性
（稼働率）の劣化が無視できなくなる。

【０００７】そこで、分散メモリ型のマルチプロセッサ
システムの信頼性（稼働率）を向上させる方法の一つと
して、各ノードとして、チェックポイント／ロールバッ
ク方式の計算機を採用し、各ノードの信頼性（稼働率）
を向上させることが考えられる。例えば、各ノードの稼
働率を９９．９９９％とし、ノード数を１０２４とする
と、システムとしての稼働率は、９８．９８％となる。

【０００８】

【発明が解決しようとする課題】このように、分散メモ
リ型のマルチプロセッサシステム中の各ノードとして、
チェックポイント／ロールバック方式の計算機を採用す
る場合、通信路を使用したノード間のデータ通信（以
後、「ノード間通信」という）が遅くなるという問題が
ある。すなわち、チェックポイント／ロールバック方式
の計算機では、一般に計算機外部に対する出力要求につ
いて、それを実際に出力するのを次のチェックポイント
取得後まで遅延させるためである。

【０００９】以下、従来のチェックポイント／ロールバ
ック方式の分散メモリ型マルチプロセッサシステムにお
けるノード間のデータ通信の動作について説明する。

【００１０】図２８には２つのノード（計算機Ａ、計算
機Ｂ）との間でデータ通信を行なう場合の処理経過を示
している。図２８に示すように、時刻ＣＫＰ１において
チェックポイント取得後、他の計算機Ｂが発行した処理
要求（ａ）を、チェックポイント／ロールバック方式の
計算機Ａが受信して、直ちに要求に対する処理を行な
い、応答を計算機Ｂに返した後に、故障が発生する場合
を考える。

【００１１】計算機Ａは、時刻ＦＬＴ１において故障が
発生すると、直前の時刻ＣＫＰ１のチェックポイントに
戻る。一方、計算機Ｂは、計算機Ａが計算機Ｂからの処
理要求（ａ）を受信していない状態に戻っているにもか
かわらず、計算機Ａからの処理要求（ａ）に対する応答
を受け取っているので、両者の間で矛盾が生じてしま
う。

【００１２】従来のチェックポイント／ロールバック方
式の計算機では、このような不具合を避けるため、通信
出力など外部に影響を及ぼす処理に関しては、そのよう
な処理要求を直ちに実行するのではなく、次のチェック
ポイントの取得が完了するまで待たせた後、通信出力処
理を開始するようになっている。

【００１３】すなわち、図２９に示すように、計算機Ａ
は、計算機Ｂからの処理要求（ａ）に対する処理を行な
い、計算機Ｂに返すための要求ブロックを作成したとこ
ろで通信処理要求を遅延させる。計算機Ａは、次のチェ
ックポイントの取得が完了した時点まで待たされ、チェ
ックポイント後に計算機Ｂに対して実際に応答を返す。

【００１４】この結果、図３０に示すように、時刻ＣＫ
Ｐ２で、新しいチェックポイントを取得した場合には、
その後、ＨＷの故障が発生しても、時刻ＣＫＰ２で取得
したチェックポイントからのリスタートとなり、その時
点で作成されていた計算機Ｂに対する応答は、確実に計
算機Ｂに渡される。

【００１５】また、図３１に示すように、計算機Ａは、
時刻ＣＫＰ２になる前に、時刻ＦＬＴ１においてＨＷの
故障が発生した場合、時刻ＣＫＰ１で取得したチェック
ポイントからのリスタートとなる。この場合、計算機Ａ
は、計算機Ｂから処理要求（ａ）を受信したことも消し
去られているのに対し、計算機Ｂは処理要求（ａ）を送
り、計算機Ａが受信したことを記憶している。しかし、
この場合には、計算機Ｂは、ある一定時間を経過して
も、処理要求（ａ）に対する応答が計算機Ａから返って
こないことから、計算機Ａの異常を検出することができ
る。つまり、計算機Ｂは、処理要求（ａ）を再度送信す
るなどの処理により、正常な状態に復帰することができ
る。

【００１６】従って、分散メモリ型マルチプロセッサシ
ステムの各ノードに、従来のチェックポイント／ロール
バック方式の計算機を採用すると、ノード間通信に関し
て、平均してチェックポイント取得の間隔の半分の時間
だけ遅延させられる。

【００１７】チェックポイント取得の間隔は、システム
によって様々であるが、チェックポイント取得自体にあ
る程度の時間がかかるため、短い場合でも数ミリ秒より
短くするのは実際的ではない。従って、一般には、控え
目に見積っても、ノート間通信は平均して１ミリ秒以上
の遅延時間をともなう。

【００１８】一方、分散メモリ型のマルチプロセッサシ
ステムにおけるノード間通信の遅延時間は、アプリケー
ションプログラムがハードウェアを直接制御する場合、
数１０マイクロ秒程度である。

【００１９】従って、チェックポイント／ロールバック
方式の計算機を単純にノードとして採用すると、本来、
数１０マイクロ秒程度のデータ通信に１ミリ秒以上の遅
延時間を伴うことになり、ノード間でデータ通信が頻繁
に発生する場合には、システム全体の著しい性能低下を
もたらす。

【００２０】本発明は前記のような事情を考慮してなさ
れたもので、ノードにチェックポイント／ロールバック
方式の計算機を用いた際のノード間通信を高速化するこ
とが可能な分散メモリ型マルチプロセッサシステムを提
供することを目的とする。

【００２１】

【課題を解決するための手段】本発明は、少なくともプ
ロセッサとメインメモリとを含むノードが通信路を介し
て２個以上接続され、前記通信路を経由してノード間通
信を行なう分散メモリ型マルチプロセッサシステムにお
いて、前記ノードは、故障発生時の再実行を可能にする
ために、ある時点で自ノードに関するチェックポイント
を取得し、故障発生時には直前に取得したチェックポイ
ントからデータ処理を再開する機能を有し、前記機能に
よるチェックポイントの取得の開始を、前記通信路を介
した他のノードに対するデータ送信を抑止し、前記通信
路を経由して送信されるデータの受信を完了させて、前
記通信路に送信中のデータが存在しない状態で、他の全
てのノードと同期して行なうことを特徴とする。

【００２２】これにより、チェックポイントを取得する
時、通信路を介して転送中のデータが存在しない状態で
分散メモリ型マルチプロセッサシステムを構成する全て
のノードについて、チェックポイントを同期して取得す
る。そして、何等かの故障が発生した場合には、通信路
に関しては、転送中のデータが存在しない状態を再現
し、各ノードについて直前に取得したチェックポイント
にロールバックした後、データ処理を再スタートする。

【００２３】すなわち、分散メモリ型マルチプロセッサ
システム全体でチェックポイントを取得する間、通信路
を介したノード間の通信を行なわないことにより、通信
路の状態を保存する必要をなくすことができる。

【００２４】また、前記ノードは、前記通信路を介した
他のノードに対するデータ送信を、次のチェックポイン
トの取得後まで遅延させることなく実行することを特徴
とする。

【００２５】これにより、各ノードは、ノード間のデー
タ転送を次のチェックポイントまで遅延させずに行なう
が、それ以外のデータ送信は次のチェックポイントの取
得後まで遅延させるので、ノード間で転送されるデータ
が、故障発生前のデータ処理の場合と、故障発生にとも
なうロールバック後のデータ処理の場合で異なったとし
ても、その影響は次のチェックポイントの取得が終了し
ないうちは分散メモリ型マルチプロセッサシステムを構
成するノード内にとどまっている。

【００２６】従って、通信路を介したノード間の通信
は、遅延させることなく行なうことができる。

【００２７】また、前記ノードのプロセッサにコピーバ
ック型のキャッシュメモリが設けられ、前記チェックポ
イントが前記メインメモリ上に取得されるものであっ
て、前記ノードは、全ての他のノードと同期して行なう
チェックポイントの取得の前に、通常のデータ処理と並
行して全ての他のノードと同期して、前記キャッシュメ
モリ中に存在するダーティなデータの一部を強制的に前
記メインメモリに書き戻すことを特徴とする。

【００２８】一般に、コピーバック型のキャッシュメモ
リを有するプロセッサで、チェックポイントをメインメ
モリ上に取得する方式のチェックポイント／ロールバッ
ク方式の分散メモリ型マルチプロセッサシステムの場
合、チェックポイント時間の大半がキャッシュメモリ中
に存在するダーティなデータをメインメモリに書き戻す
処理に費やされている。これを短縮するために、通常の
データ処理中にキャッシュメモリ中に存在するダーティ
なデータをメインメモリに強制的に書き戻すことによ
り、チェックポイントの取得を行なう前に、キャッシュ
メモリ中に存在するダーティなデータの量が減らされ
る。

【００２９】また、前記ノードのそれぞれは、ある時刻
になった時点で前記チェックポイントの取得を開始し
て、他の全てのノードと前記チェックポイントの取得を
同期させることを特徴とする。

【００３０】このようにして、各ノードは、ある時刻に
なった時点で同時にチェックポイントの取得を開始する
ことを予め定めておくことにより、チェックポイントの
取得の開始を互いに通知し合う必要がなく、それによっ
て全てのノードが同期をとるオーバヘッドを軽減するこ
とができる。

【００３１】また、前記ノードのそれぞれは、木構造の
何れかのノードと対応づけられ、この対応づけに基づく
関係のあるノードに対してチェックポイントの取得開始
の同期をとるためのデータ送信を行なうもので、チェッ
クポイントの取得を開始すべきことを検出したノード
は、親ノードに対して前記チェックポイント取得開始要
求を送信し、前記チェックポイント取得開始要求を子ノ
ードから受信したノードは、親ノードに前記チェックポ
イント取得開始要求を送信することで、根ノードにまで
順次、前記チェックポイント取得開始要求を送信し、前
記チェックポイント取得開始要求を子ノードから受信し
た根ノードは、全ての子ノードに対してチェックポイン
ト取得指示を送信し、前記チェックポイント取得指示を
親ノードから受信したノードは、子ノードに前記チェッ
クポイント取得指示を送信することで、全てのノードに
対してチェックポイント取得指示を与えて、全てのノー
ドでチェックポイントの取得の開始の同期をとることを
特徴とする。

【００３２】これにより、あるノードでチェックポイン
トの取得を開始すべきことを検出すると、チェックポイ
ント取得の開始要求が木構造の経路を通じて、まず根ノ
ードに通知され、その後、根ノードから子ノードに対し
てチェックポイント取得指示を与えることで、順次、全
てのノードにチェックポイント取得指示が通知される。

【００３３】また、前記ノードのそれぞれは、木構造の
何れかのノードと対応づけられ、この対応づけに基づく
関係のあるノードに対してチェックポイントの取得開始
の同期をとるためのデータ送信を行なうもので、チェッ
クポイントの取得を開始すべきことを検出したノード
は、親ノード及び全ての子ノードに対してチェックポイ
ント取得指示を送信し、前記チェックポイント取得指示
を受信したノードは、親ノード及び全ての子ノードのう
ち、前記チェックポイント取得指示を送信してきたノー
ドを除く全てノードに対して前記チェックポイント取得
指示を送信することで、全てのノードでチェックポイン
トの取得の開始の同期をとることを特徴とする。

【００３４】これにより、あるノードでチェックポイン
トの取得を開始すべきことを検出すると、チェックポイ
ント取得の開始指示要求が木構造の経路を通じて、全て
のノードに伝えられる。この時、２つ以上のノードから
チェックポイント取得の開始指示要求が出された場合で
も、２つ以上のノードからチェックポイント取得の開始
指示要求を受けたノードは、遅れて受信した方を捨てる
ことにより、要求を重複して送ることを回避することが
できる。

【００３５】

【００３６】

【００３７】また、少なくともプロセッサとメインメモ
リとを含むノードが通信路を介して２個以上接続され、
前記通信路を経由してノード間通信を行なう分散メモリ
型マルチプロセッサシステムにおいて、前記ノードは、
故障発生時の再実行を可能にするために、ある時点で自
ノードに関するチェックポイントを取得し、故障発生時
には直前に取得したチェックポイントからデータ処理を
再開する機能を有し、全ての他のノードと同期して取得
したチェックポイントを、全てのノードで次のチェック
ポイントの取得が完了するまで保持し、何れかのノード
に故障が発生した場合に、次のチェックポイントの取得
までに他の全てのノードと同期して故障発生が通知され
るものであって、前記機能によってチェックポイントの
取得を開始した後、他のノードから通常のデータ処理に
ともなうノード間のデータ送信を受信した場合に、故障
発生を通知するものである場合には、直前に取得したチ
ェックポイントからデータ処理を再開し、その他の通知
である場合には、チェックポイントの取得をやり直すこ
とを特徴とする。

【００３８】これにより、全ノードにチェックポイント
取得の開始要求が届いたことを確認した後、自ノードに
おけるチェックポイント取得を開始する必要が必ずしも
なく、開始要求を確認せずにチェックポイント取得を開
始することができる。

【００３９】また、前記ノードのそれぞれは、木構造の
何れかのノードと対応づけられ、この対応づけに基づく
関係のあるノードに対してチェックポイントの取得完了
の同期についてデータ送信を行なうもので、全ての子ノ
ードからチェックポイント完了準備完の通知を受信した
ノードは、親ノードにチェックポイント完了準備完を送
信し、全ての子ノードからチェックポイント完了準備完
の通知を受信した根ノードは、全ての子ノードに対して
チェックポイント完了指示を送信すると共にチェックポ
イント取得を完了させ、通常のデータ処理を再開し、親
ノードからチェックポイント完了指示を受けとった時、
あるいは既に通常のデータ処理を再開したノードから通
常のデータ通信を受け取った時、ノードは、全ての子ノ
ードに対してチェックポイント完了指示を送ると共にチ
ェックポイント取得を完了させ、通常のデータ処理を再
開することを特徴とする。

【００４０】このように、チェックポイント完了準備完
の通知は「木」の葉ノードから根ノードに伝わる。そし
て、根ノードが全ての子ノードからチェックポイント完
了準備完の通知を受け取った時点でシステム全体のチェ
ックポイントが取得できたことになる。ついで、根ノー
ドからチェックポイント完了指示が葉ノードに向かって
伝えられることにより、各ノードにおいて通常のデータ
処理を再開する。

【００４１】また、前記ノードのそれぞれは、木構造の
何れかのノードと対応づけられ、この対応づけに基づく
関係のあるノードに対してチェックポイントの取得完了
の同期をとるためのデータ送信を行なうもので、前記各
ノードは、チェックポイントの取得を開始した時点で、
他のノードからのデータ受信を不可とし、チェックポイ
ントの取得が完了する直前で、他のノードからのデータ
受信を可能とすると共に通常のデータ処理を再開するも
ので、全ての子ノードからチェックポイント完了準備完
の通知を受信したノードは、親ノードにチェックポイン
ト完了準備完を送信し、全ての子ノードからチェックポ
イント完了準備完の通知を受信した根ノードは、全ての
子ノードに対してチェックポイント完了指示を送信する
と共にチェックポイント取得を完了させ、以前のチェッ
クポイントを破棄し、親ノードからチェックポイント完
了指示を受けとった時、あるいは既に通常のデータ処理
を再開したノードから通常のデータ通信を受け取った
時、ノードは、全ての子ノードに対してチェックポイン
ト完了指示を送ると共にチェックポイント取得を完了さ
せ、以前のチェックポイントを破棄することを特徴とす
る。

【００４２】このように、通常のデータ処理を前倒しで
再開できることから、より効果的にシステム全体の性能
向上を実現できる。

【００４３】また、前記全てのノードにおいてチェック
ポイントの取得が終了したことを検出するためのバリア
同期機構を有することを特徴とする。

【００４４】こうして、通信路を使用して、各ノードが
一斉に通常のデータ処理の再開あるいは直前のチェック
ポイントのデータの破棄を行なうのではなく、通信路と
は別のバリア同期機構を設けることで、同期のためのノ
ード間通信を行なう必要が無くなり、より性能を向上さ
せることができる。

【００４５】また、前記親ノードにおいて全ての子ノー
ドからのチェックポイント取得の完了準備完が一定時刻
までに受け取れたか否かによって故障を検出することを
特徴とする。

【００４６】こうして、ノードに関する故障には、その
ノードが他のノードからみて無応答状態となることも含
まれる。その場合、ある定められた時間を経過しても根
ノードには、全ての子ノードからチェックポイント取得
の終了通知を受け取れないことになる。そこで、全ての
ノードに対して、必要ならばプロセッサ（ＣＰＵ）の初
期化を行なうことにより、このような無応答状態から抜
け出させると共に、直前のチェックポイントへのロール
バックを指示することにより、システム全体として故障
発生前の状態から通常のデータ処理を再開することがで
きる。

【００４７】また、前記各ノードは、前記機能によりチ
ェックポイントを取得する取得ノードか、チェックポイ
ントの取得を行なわない非取得ノードかを設定する手段
を有し、前記手段によって前記取得ノードに設定された
ノードは、チェックポイントの取得の時は、前記通信路
を介した他のノードに対するデータ送信を抑止し、前記
通信路を経由して送信されるデータの受信を完了し、前
記手段によって前記非取得ノードに設定されたノード
は、前記通信路を介した取得ノードに対するデータ送信
を抑止して、前記通信路に取得ノードに対して送信中の
データが存在しない状態で、他の全てのノードと同期し
て行ない、何れかの前記取得ノードに故障が発生した
際、前記非取得ノードは、前記通信路へのデータ送信を
抑止し、前記通信路を経由して送信されるデータの受信
を完了させて、前記通信路に通信中のデータが無いよう
にした状態で、前記取得ノードは、直前に取得したチェ
ックポイントからデータ処理を再開することを特徴とす
る。

【００４８】これにより、分散メモリ型マルチプロセッ
サシステム内の複数のノードをグループ化して、各グル
ープ毎に異なるアプリケーション（例えばデータベース
システム、意思決定支援システム等）を実行する場合
に、ノード単位で実行するアプリケーションに応じたチ
ェックポイント取得の有無（取得ノード、非取得ノー
ド）を選択、設定することができる。その際、ノード間
通信が、取得ノードあるいは非取得ノードの何れの間に
おいて行なわれるかに応じてデータ転送が制御される。

【００４９】また、前記ノードがグループ化されてグル
ープ毎に異なるアプリケーションを実行し、各グループ
に属するノード毎にチェックポイントを取得するもので
あって、あるグループに属する各ノードがチェックポイ
ントを取得してる際、他のグループに属するノードは、
前記通信路を介して他のノードへのデータ送信を行な
い、異なるグループに属するノード間のデータ間通信
は、次のチェックポイントの取得後まで遅延させ、ある
グループに属するあるノードで故障が発生した際は、他
のグループに属する全てのノードは、前記通信路へのデ
ータ送信を抑止し、前記通信路を経由して送信している
データの受信を完了させて、前記通信路に通信中のデー
タが無いようにし、故障が発生したグループに属する全
てのノードは、それぞれ直前に取得したチェックポイン
トからデータ処理を再開することを特徴とする。

【００５０】これにより、分散メモリ型マルチプロセッ
サシステム内の複数のノードを、実行するアプリケーシ
ョン毎にグループ化することで、チェックポイント取得
に関する他のノードとの同期制御がグループ毎に行なわ
れるので、チェックポイントに要する処理負担（オーバ
ヘッド）が軽減される。ただし、異なるグループのノー
ド間での通信路を介したデータ送信は、グループ間で不
整合が生じ無いように制御される。

【００５１】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について説明する。図１は第１の実施形態に係
わるチェックポイント／ロールバック方式の分散メモリ
型のマルチプロセッサシステムの構成を示すブロック図
である。図１に示す分散メモリ型のマルチプロセッサシ
ステムは、複数個（Ｎ個）のノード（計算機）１，２，
…，Ｎを有し、通信スイッチ１０（通信路）によって相
互に接続されている。

【００５２】各ノード１，２，…，Ｎは、ＣＰＵ１−
１，２−１，…，Ｎ−１と、通信アダプタ１−２，２−
２，…，Ｎ−２と、メインメモリ１−３，２−３，…，
Ｎ−３と、ＢＩＢ（ＢｅｆｏｒｅＩｍａｇｅＢｕｆ
ｆｅｒ）１−４，２−４，…，Ｎ−４と、キャッシュ１
−５，２−５，…，Ｎ−５を持っている。各ノードの通
信アダプタ２−１，２−２，…，Ｎ−２は、通信スイッ
チ１０と接続されている。

【００５３】各ノード１，２，…，Ｎは、故障発生時の
再実行を可能にするために、定期的に自ノードに関する
チェックポイントを取得し、故障発生時には直前に取得
したチェックポイントからデータ処理を再開する機能を
有し、この機能を実現するためにＢＩＢ１−４，２−
４，…，Ｎ−４と呼ばれる、特殊なハードウェア機構が
設けられている。ＢＩＢ１−４，２−４，…，Ｎ−４、
及びＢＩＢ１−４，２−４，…，Ｎ−４を用いたチェッ
クポイント／ロールバック方式の機構の動作については
後述する。

【００５４】なお、図１に示す第１の実施形態における
構成では、各ノード１，２，…，Ｎが有するＣＰＵの数
はそれぞれ一つとしているが、一つのノードが有するＣ
ＰＵの数が２以上のマルチプロセッサ構成でも良い。ま
た、ＢＩＢは、チェックポイント／ロールバック方式の
計算機を実現する一手段であり、他の実現法を適用して
も差障りない。

【００５５】また、ノードによってＣＰＵの数やＣＰＵ
の種類、メインメモリの容量、オペレーティングシステ
ムの種類などが異なっていても構わない。ただし、シス
テムを管理する観点からは、各ノードが同様のハードウ
ェア構成で同一のオペレーティングシステムである方が
望ましい。

【００５６】最初に、ノード１，２，…，Ｎのチェック
ポイント／ロールバック方式の機構について説明する。

【００５７】図２は、ノード１，２，…，Ｎにおいて、
ＢＩＢ（ＢｅｆｏｒｅＩｍａｇｅＢｕｆｆｅｒ）と呼
ばれるハードウェア機構を使用するデータの保存とロー
ルバックを説明する図である。なお、本出願人は先に特
願平７−３４１８３９号でＢＩＢ（ログメモリ）に関す
る発明について出願している。

【００５８】図２は、メインメモリのデータが更新され
る時に、更新が発生したアドレスと更新前のデータをＢ
ＩＢに保存し（図２（ａ））、ＢＩＢを使ってメインメ
モリを元の状態に戻す（ロールバック）様子を表わして
いる（図２（ｂ））。

【００５９】まず、ＢＩＢは、ＣＰＵがキャッシュメモ
リ中でデータを更新した時、システムバスに出されるキ
ャッシュメモリの一貫性（コヒーレンシ）を維持するた
めのバスコマンドをモニタリングすることで、どのアド
レスのデータが書き換えられたかを検知する。ＢＩＢ
は、メインメモリ中の書き替え要求のあったアドレスの
データ（未だ更新される前のデータ）を読み出し、それ
らアドレスとデータの組をバッファに保存する。

【００６０】例えば、図２（ａ）において、ＣＰＵがキ
ャッシュメモリ上で１００番地にＸを書き込む時、ＢＩ
Ｂは、１００番地に書き込みが行なわれたことを検知し
て、メインメモリから１００番地の内容（Ａ）を読み出
し、ＢＩＢ内に１００番地の内容が元はＡであったこと
を記憶する。

【００６１】その後、故障が発生する等して、メインメ
モリを元の状態にロールバックする場合、図２（ｂ）に
示すように、キャッシュメモリの内容を無効化し、ＢＩ
Ｂに保存されているアドレスと元の値を使って、メイン
メモリの内容を元の状態に戻す。メインメモリの内容が
直前のチェックポイントの状態に戻るとＢＩＢをクリア
して通常のデータ処理に戻る。

【００６２】ノード１，２，…，Ｎは、チェックポイン
トを、それぞれのメインメモリ１−３，２−３，…，Ｎ
−３上に取得する。そして、ＢＩＢにチェックポイント
からのメインメモリ１−３，２−３，…，Ｎ−３に対す
る更新履歴を保存することにより、故障が発生した場合
のメインメモリのロールバックを可能としている。

【００６３】ノード１，２，…，Ｎにおいて、新しいチ
ェックポイントをメインメモリ上に取得する手順は，次
のとおりである。

【００６４】（Ａ１）ＣＰＵのコンテクスト（レジスタ
の値等）をメインメモリ上に保存する。

【００６５】（Ａ２）キャッシュメモリ上で更新された
データをメインメモリに書き戻す（フラッシュする）。

【００６６】（Ａ３）ＢＩＢの内容をクリアし、チェッ
クポイント処理を終了し、通常のデータ処理に戻る。

【００６７】ここで、（Ａ３）の処理は、チェックポイ
ト取得の完了を意味し、（３）を実行しないうちに、故
障が発生した場合は、ひとつ手前（直前）のチェックポ
イントへロールバックされる。一方、（３）を実行した
後に、故障が発生した場合は、このチェックポイント
（すなわち（３）が完了した時点）ヘロールバックされ
る。

【００６８】システムに故障が発生した場合に、直前の
チェックポイントへロールバックして、リスタートする
手順は次のとおりである。

【００６９】（Ｂ１）キャッシュメモリをインバリデー
ト（無効化）する。

【００７０】（Ｂ２）ＢＩＢに記録されているアドレス
と更新前のデータの値を使って、メインメモリを直前の
チェックポイントに戻す。

【００７１】（Ｂ３）メモリ上に保存されたＣＰＵのコ
ンテクストを、ＣＰＵに復元することにより、リスター
トする。

【００７２】次に、ノード間通信について説明する。第
１の実施形態において、あるノード（送信ノード）から
他のノード（受信ノード）へのメッセージ転送は次のよ
うな手順で行われる。

【００７３】（Ｃ１）送信ノードのメインメモリ上にメ
ッセージを作成。

【００７４】（Ｃ２）送信ノードの通信アダプタの起
動。

【００７５】（Ｃ３）通信スイッチ１０によるルーティ
ング。

【００７６】（Ｃ４）受信ノードの通信アダプタの起
動。

【００７７】（Ｃ５）受信ノードのメインメモリ上にメ
ッセージを格納。

【００７８】ここで、アプリケーションプログラムとノ
ード間通信制御部（第１の実施形態では、システムプロ
グラムの一部として実現される）の連係について説明す
る。ここでは、説明を簡単にするためにノード１を送信
側ノード、ノードＮを受信側ノードとして説明する。

【００７９】図３は、ノード間通信の送信側の動作を示
すフローチャートである。アプリケーションプログラム
が、他のノードＮに送信する送信メッセージをメインメ
モリ１−３上に作成すると（ステップＡ１）、システム
コールを実行し、システムプログラム中のノード間通信
制御部をコールする（ステップＡ２）。

【００８０】ノード間通信制御部は、ＣＰＵ１−１を割
り込み禁止にして（ステップＡ３）、通信アダプタ１−
２の制御レジスタに、送信メッセージを指定されたノー
ドＮに送るための制御情報をセットし、通信アダプタを
起動する（ステップＡ４）。その後、ＣＰＵの割り込み
禁止を解除する（ステップＡ５）。

【００８１】ＣＰＵを割り込み禁止にするのは、一般の
Ｉ／Ｏ機器の制御において、正しい動作を行なわせるた
めに広く行なわれていることである。しかし、本発明の
ようにチェックポイント／ロールバック方式の計算機を
用いる構成においては、通信アダプタを操作している途
中という中途半端な状態で、チェックポイントが取得さ
れるのを防ぐためという意味も有する。

【００８２】一般に、Ｉ／Ｏ機器のレジスタを操作中に
チェックポイント処理を行うと、故障が発生して、その
Ｉ／Ｏ機器のレジスタ操作の途中からリスタートするこ
とになり、動作を保証することができない。Ｉ／Ｏ機器
のレジスタ操作の途中でチェックポイント処理を開始し
ないこと自体は、本発明の特徴ではなく、従来のチェッ
クポイント／リスタート方式の計算機で採用されてい
る。

【００８３】最後に通信アダプタ１−２の送信終了によ
り、他のノードＮに対する送信処理の終了を確認し（ス
テップＡ６）、ノード間通信制御部は、メッセージの送
信を要求したアプリケーションプログラム（送信要求プ
ロセス）を実行可能状態とする（ステップＡ７）。

【００８４】図４は、ノード間通信の受信側の動作を示
すフローチャートである。まず、他のノード１からメッ
セージの受信要求を通信アダプタＮ−２が検出すると、
割り込みが発生し、ノード間通信制御部での処理が始ま
る（ステップＢ１）。

【００８５】ノード間通信制御部は、メッセージ格納用
領域である受信バッファをメインメモリＮ−３上に割り
当て（ステップＢ２）、通信アダプタＮ−２によって受
信したメッセージを受信バッファに格納するよう制御レ
ジスタに制御情報をセットした後、通信アダプタを起動
する（ステップＢ３）。

【００８６】通信アダプタＮ−２での受信が終了すると
（ステップＢ４）、ノード間通信制御部は、受信したメ
ッセージが他のノードでの故障発生を通知するメッセー
ジであるか調べる（ステップＢ５））。

【００８７】ここで、受信したメッセージが、他のノー
ドでの故障発生を通知するメッセージである場合（ステ
ップＢ５のＹｅｓ）、障害処理部にジャンプして、全て
のノードが一つ手前のチェックポイントにロールバック
して、リスタートするための処理を行なう。これについ
ては後で詳しく説明する。

【００８８】一方、受信したメッセージが故障発生を通
知するメッセージ以外である場合、すなわち通常のデー
タ処理に関するメッセージである場合には（ステップＢ
５のＮｏ）、そのメッセージを受信すべきアプリケーシ
ョンプログラムがメッセージ受信待ちになっていれば、
そのアプリケーションプログラムを実行可能状態とす
る。

【００８９】本発明による分散メモリ型マルチプロセッ
サシステムでは、ノード間通信の要求が発生すると、次
のチェックポイント取得完了まで待つことなく即座にノ
ード間通信を実行することにより、ノード間通信を高速
化する。

【００９０】これを可能とするには、故障が発生した場
合への対処が必要となる。

【００９１】本発明の第１の実施形態では、次のような
構成または方法（Ｄ１）〜（Ｄ４）を設けることによっ
て、チェックポイント取得完了まで待つことなく即座に
ノード間通信ができるようにしている。

【００９２】（Ｄ１）全てのノードが同期してチェック
ポイントを取得する（不完全な同期により実現する方法
については後述する第３の実施形態、第４の実施形態に
おいて説明する）。

【００９３】（Ｄ２）あるノードで故障が発生した場
合、全てのノードが、次のチェックポイントの取得を完
了する（ＢＩＢをクリアする前）までに、その障害が発
生したことを知り、全てのノードが直前のチェックポイ
ントにロールバックする。

【００９４】（Ｄ３）ノード間通信以外のＩ／Ｏ機器へ
の入出力や他の計算機（例えば、異なるアプリケーショ
ンを実行する別のノードグループ中の計算機）との通信
の要求は、次のチェックポイントを取得する後まで、そ
の実行を遅延させる。

【００９５】（Ｄ４）チェックポイントの取得中は、通
信路に転送中のデータが存在しない状態にする。すなわ
ち、チェックポイントを取得する際、通信スイッチ１０
を介した他ノードに対するデータ送信を抑止し、また通
信スイッチ１０を経由する他のノードからのデータ受信
を完了させる。

【００９６】（Ｄ４）の方法により、あるノードで故障
が発生して、全てのノードが同期して、それぞれ一つ手
前のチェックポイントにロールバックする場合でも、通
信スイッチ１０に関しては、何ら特別の処理を必要とし
ない、もしくは通信スイッチ１０をリセットする程度で
済むようにする。

【００９７】次に、前述した（Ｄ１）〜（Ｄ４）の構成
によって、ノード間通信の要求を即座に実行することに
より、ノード間通信を高速化する例について説明する。
ここでは２つの例（第１の例、第２の例）を使って、ノ
ード間通信を遅延なく実行しても問題がないことを説明
する。

【００９８】第１の例は、図５に示すように、時刻ＣＫ
Ｐ０において、全てのノード１，２，３がチェックポイ
ントを取得した後、故障発生前のノード間通信で、ノー
ド１からノード２にメッセージが送られ、ノード２にお
いて、そのメッセージに基づいて、ノード２からノード
３へメッセージが送られた場合である。

【００９９】ノード２からノード３へメッセージ送信し
た後、時刻ＦＬＴ０でノード１において故障が発生した
ものとする。この場合、各ノード１，２，３がチェック
ポイント取得を完了する前、すなわち、ＢＩＢの内容を
クリアする前に、各ノードがノード１において故障が発
生したことを検知し、時刻ＣＫＰ０の時点のチェックポ
イントへロールバックする。

【０１００】つまり、全てのノード１，２，３におい
て、同期してチェックポイントを取得し、かつ、何れか
のノードで故障が発生した場合には、全てのノードが同
じ時刻に取得したチェックポイントにロールバックする
ことによって、時刻ＣＫＰ０の後にノード間通信があっ
てもノード間で矛盾が生じない。従って、ノード間通信
を待たせることなく、ノード間通信ができる。

【０１０１】第２の例は、図６に示すように、故障発生
前のノード間通信で、ノード１からノード２にメッセー
ジが送られ、ノード２において、そのメッセージに基づ
いて、Ｉ／Ｏ機器（ここではディスク装置）への書き込
みが行なわれる場合である。

【０１０２】本発明ではノード間通信は即時に行われる
ものの、ディスクへの書き込みは、チェックポイントの
処理が完了するまで待たされる。ここで、何れかのノー
ドで故障が発生した場合には、全てのノードが同じ時刻
に取得したチェックポイントにロールバックすることに
よって、ノード１からメッセージ送信しておらず、また
ノード２ではディスクへの書き込みは行なわれていない
状態であるのでノード間で矛盾が生じない。

【０１０３】このように、本発明の第１実施形態では、
ノード間通信、及びノード間通信に伴う各ノードでの通
常のデータ処理は遅滞なく実行されるが、外部記憶装置
等のＩ／Ｏ機器に対する入出力要求や、他の計算機（例
えば異なるアプリケーションを実行する別のノードグル
ープ中の計算機）との通信に関しては、その処理要求を
全てのノードで同期してチェックポイントを取得した後
に実行する。これにより、ノード間通信と、このノード
間通信によるメッセージに基づく通常のデータ処理は、
前述した第１の例、第２の例に示すように、遅滞無く実
行することができる。

【０１０４】次に、第１の実施形態において、全ノード
で同期して、一斉にチェックポイントを取得する方法に
ついて説明する。

【０１０５】チェックポイントの取得が開始されるタイ
ミングは、一般的に、（Ｅ１）一定時間経過した場合。

【０１０６】（Ｅ２）ＢＩＢの残容量がある定められた
値を下回った場合。

【０１０７】（Ｅ３）遅延させられているＩ／Ｏ要求の
数がある定められた値を上回った場合。

【０１０８】などである。何れの方式を採用するか、あ
るいは、複数の方式を併用するかは、システムの使われ
方やＢＩＢの容量に応じて決めることができる。

【０１０９】第１の実施形態では、（Ｅ１）一定時間経
過した場合にのみ、各ノードが一斉にチェックポイント
取得を開始するものとする。これにより、チェックポイ
ントの開始に関して、各ノード間で同期をとるためのノ
ード間通信を行なう必要がなくなる。

【０１１０】図７は、各ノードのＣＰＵ１−１，２−
１，…，Ｎ−１が、一斉にチェックポイント取得を行な
う動作を説明するためのフローチャートである。また、
図８は、複数のノード１，２，Ｎにおける通常のデータ
処理とチェックポイント取得のタイミングを示すタイム
チャートである。

【０１１１】各ノードは、時刻Ｔ１までは、通常のデー
タ処理を行なう（ステップＣ１）。その間、各ノード間
で発生するノード間通信要求は、遅延されることなく即
座に実行される。また、他ノードから受信したメッセー
ジは、遅滞なくアプリケーションプログラムに渡され
る。

【０１１２】各ノードは、時刻Ｔ１に達すると、通常の
データ処理の実行を停止する（ステップＣ２）。なお、
時刻Ｔ１は、先に決定されたある時刻を基準とする所定
の時間後の時点である。

【０１１３】時刻Ｔ１〜Ｔ２では、他ノードへのメッセ
ージ送信は、原則的には行なわれないが、通信アダプタ
の起動（図３におけるステップＡ４）は、ＣＰＵの割り
込み禁止状態で実行されるので、時刻Ｔ１の直前に要求
のあった他ノードからのメッセージ送信が、時刻Ｔ１を
過ぎて受信されることもあり得る（ステップＣ３）。し
かし、そのようなメッセージ送信も時刻Ｔ２の前には終
了する。また、他ノードから受信したメッセージは、メ
インメモリ上の受信バッファに格納されるが、それを受
けたアプリケーションプログラムにＣＰＵを与えないこ
とで、通常のデータ処理が始まるのを防ぐ。

【０１１４】時刻Ｔ２になると、ＣＰＵを割り込み禁止
にする（ステップＣ５）。これは、ＣＰＵが何等かの割
り込み処理をするのを防ぎ、キャッシュメモリのフラッ
シュを確実に行なわせるためである。

【０１１５】時刻Ｔ２に到達すると、各ノードは、一斉
にチェックポイント取得の一環として、ＣＰＵのコンテ
クスト（レジスタの内容）をメインメモリに保存し、キ
ャッシュメモリをフラッシュする（ステップＣ６，Ｃ
７）。この後、ＣＰＵを割り込み許可にする（ステップ
Ｃ８）。

【０１１６】最後に、全てのノードでチェックポイント
処理の終了（ＢＩＢの内容のクリア）を同期的に行なう
必要がある。すなわち、チェックポイントの取得に要す
る時間は全てのノードで同じではないため、各ノードが
ＢＩＢの内容のクリアを各自に行なった場合、全てのノ
ードがＢＩＢの内容のクリアする前に障害等が発生する
と、全てのノードが同じチェックポイントにロールバッ
クできなくなるためである。

【０１１７】第１の実施形態では、分散メモリ型マルチ
プロセッサシステム内の各ノードを木構造の各節（ノー
ド）に対応づけ、この対応による親ノードと子ノードの
関係にあるノード間で、チェックポイント完了準備完と
チェックポイント完了の通知（メッセージ）をノード間
通信によって送受信することで同期をとる。なお、チェ
ックポイント完了準備完は、キャッシュフラッシュが完
了しＢＩＢの内容をクリアできる直前の状態となったこ
とを表わす。

【０１１８】ここでは、論理的に２進木（Ｂｉｎａｒｙ
Ｔｒｅｅ）の各ノード（節）と、システム中の各ノー
ド（計算機）と１：１に対応させる。

【０１１９】図９（ａ）に示すように、ノード１を２進
木のルートノード（根ノード）と対応づけ、ノード２，
３をノード１の子ノードとなるように対応づける。一般
に、ノード２ｎ、及びノード２ｎ＋１が、ノードｎの子
ノードとして対応づけられる。この対応づけは、ノード
の識別番号をもとに各ノード間を論理的に対応づけるも
のであり、特別なハードウェアは必要無い。

【０１２０】あるノードでキャッシュメモリのフラッシ
ュが終了すると、ＣＰＵ割り込み許可にして（ステップ
Ｃ８）、２進木上の子ノードからのチェックポイント完
了準備完の通知の受信待ちとなる（ステップＣ９）。た
だし、２進木上の子ノードを持たない場合には、この処
理は行なわない。

【０１２１】子ノードからのチェックポイント完了準備
完の通知を受けると、次に、ノードは、２進木上の親ノ
ードへのチェックポイント完了準備完の通知を送信する
（ステップＣ１０）。ただし、ノード１に関しては、２
進木上の親ノードを持たないため、この処理は行なわな
い。

【０１２２】図９（ｂ）に示すように、チェックポイン
ト完了準備完の通知は、２進木の子ノードから親ノード
に向かって順に送信が行なわれ、ノード１が、ノード２
及び３からチェックポイント完了準備完の通知を受信し
た時点で、全てのノードでキャッシュフラッシュが完了
したことを保証できる。

【０１２３】次に、ノード１は、全ての子ノード、すな
わちノード２及びノード３にチェックポイント完了指示
の通知を送り、そのメッセージが、図９（ｃ）に示すよ
うに、今度は２進木の親ノードから子ノードに向かって
順に送信が行なわれる。

【０１２４】あるノードは、親ノードへのチェックポイ
ント完了準備完の通知を送信すると、親ノードからのチ
ェックポイント完了指示の通知の受信待ちとなる。ここ
で、親ノードからのチェックポイント完了指示の通知を
受けたノードは、子ノードへのチェックポイント完了の
通知を送信する（ステップＣ１１，Ｃ１２）。

【０１２５】なお、次のチェックポイント取得を同期し
て開始するために、時刻Ｔ１及び時刻Ｔ２を決める必要
がある。これらの時刻はノード１が、図８における時刻
Ｔ３を基準に、そこから所定の時間後を、次のチェック
ポイント取得における時刻Ｔ１，Ｔ２であると決定し、
チェックポイント完了指示のパラメータとして各ノード
に伝えることができる。

【０１２６】チェックポイント完了指示を受信したノー
ドは、ＢＩＢの内容をクリアして（ステップＣ１３）、
通常のデータ処理を再開する。

【０１２７】こうして、第１の実施形態では、各ノード
を２進木のノードと論理的に対応させて、チェックポイ
ント完了準備完またはチェックポイント完了の通知を決
められた順序、すなわち親ノードと子ノードの関係に応
じて順次、受け渡すことによって、全てのノードについ
てチェックポイント取得の完了同期を効果的に行なうこ
とができる。

【０１２８】例えば、ノード数が１０２３の場合、上向
きのメッセージ転送９段と下向きのメッセージ転送９段
で実現することができる。

【０１２９】また、各ノードを２進木の木構造のノード
と対応させる代わりに、子ノードが３つ以上あるような
一般の木のノードと対応させることも可能である。

【０１３０】また、より性能を向上させるため、各ノー
ドは、図７中のステップＣ８が終了した時点で、ステッ
プＣ９〜Ｃ１２の処理を行ないながら通常のデータ処理
を再開することも可能である。

【０１３１】このためには、チェックポイント取得を完
了させないうちに、通常のデータ処理を再開する機構が
必要である。

【０１３２】例えば、ノードが、マルチプロセッサ構成
の場合には、２つのＢＩＢを設けた構成により実現でき
る。２つのＢＩＢ（ログメモリ）を設けた構成の発明に
ついて、本出願人が先に特願平７−３４１８３９号によ
って出願している。本構成の概略については後述する。

【０１３３】また、シングルプロセッサの時は、ロール
バックの時に、ＢＩＢの適当な範囲の内容をメインメモ
リに書き戻すせば良い。

【０１３４】また、全てのノードにおいて、チェックポ
イント取得が完了した時点で、それぞれのプロセッサが
一斉に通常のデータ処理を開始するような同期は、一般
にバリア同期と呼ばれる。ハードウェアでバリア同期を
とる機構は、例えば「ワイアード・ＡＮＤ」で実現する
ことができる。「ワイアード・ＡＮＤ」を使うハードウ
ェアを備えることで、前述したようなノード間通信を使
って同期をとる方法に代えることができる。

【０１３５】図１０（ａ）には、通信スイッチ１０とは
別に、ワイアード・ＡＮＤ１２を備えた分散メモリ型マ
ルチプロセッサシステムの概略構成を示している。ま
た、図１０（ｂ）には、ワイアード・ＡＮＤ１２と各ノ
ードとの論理的な関係について示している。

【０１３６】この構成の場合、各ノードのＣＰＵがチェ
ックポイント取得完了の直前（チェックポイント準備完
了完）の状態となった時、対応するＡＮＤ入力を“１”
にすると共に、ワイアード・ＡＮＤ１２の出力を参照す
る。

【０１３７】そして、出力が“０”から“１”に変化し
た時に、全てのノードにおいてチェックポイント取得が
完了したと判断し、各ノードは、ＢＩＢの内容をクリア
してチェックポイントを完了し、通常のデータ処理を再
開する。

【０１３８】ここで、ノードがマルチプロセッサの場合
に、２つのＢＩＢを設けた構成の概略について、図１１
〜図１４を用いて説明する。各ＣＰＵがどのＢＩＢを使
うべきかを決定するために、図１１に示すようなＢＩＢ
（ログ）テーブルが使用される。ＢＩＢテーブルは、例
えばバスコントローラ（図示せず）に設けられる。

【０１３９】図１１に示すように、ＢＩＢテーブルは、
ＣＰＵそれぞれのＣＰＵ番号と、それらＣＰＵが現在使
用しているＢＩＢの番号（カレントＢＩＢ番号）との関
係を保持している。

【０１４０】ここで、カレントＢＩＢ番号“０”はＢＩ
Ｂ６ａを使用することを示し、カレントＢＩＢ番号
“１”はＢＩＢ６ｂを使用することを示す。このシステ
ムのスタートアップ時においては、全てのＣＰＵのカレ
ントＢＩＢ番号は“０”を示しており、すべてのＣＰＵ
はＢＩＢ６ａを使うように設定される。

【０１４１】図１２には、２つのＢＩＢカウンタ５２
ａ，５２ｂと２つのＢＩＢ６ａ，６ｂとの関係が示され
ている。ＢＩＢカウンタ５２ａは、ＢＩＢ６ａの更新履
歴情報格納位置を指定するポインタを保持しており、そ
のポインタ値は更新履歴情報がＢＩＢ６ａに書き込まれ
る度に、ＢＩＢ６ａの先頭番地から最終番地に向けて＋
１ずつインクリメントされる。ＢＩＢカウンタ５２ｂ
は、ＢＩＢ６ｂの更新履歴情報格納位置を指定するポイ
ンタを保持しており、そのポインタ値は更新履歴情報が
ＢＩＢ６ｂに書き込まれる度に、ＢＩＢ６ｂの先頭番地
から最終番地に向けて＋１ずつインクリメントされる。

【０１４２】通常のプログラム実行処理の期間において
は、各ＣＰＵは、メインメモリへの書き込みが必要とな
った時に、バスコントローラに対し、（１）ＣＰＵのＩＤ（２）メモリのアドレス（３）メモリのデータを渡す。バスコントローラは、この書き込み要求を検出
すると、ＣＰＵのＩＤ（ＣＰＵ番号）から、どのＢＩＢ
を使うか決定し（ここではＢＩＢ６ａを使用するものと
する）、そのＢＩＢ６ａに対応したＢＩＢカウンタ５２
ａの値を得て、そのカウンタに対応したＢＩＢ６ａの位
置に、メモリアドレスとそのメモリアドレスの更新前デ
ータとを更新履歴情報として記録する。そして、メイン
メモリを更新する。

【０１４３】その後、各ＣＰＵは、所定の時間が経過し
たこと、あるいはＢＩＢ６ａの残容量が所定の量を下回
ったことをバスコントローラからの割り込み信号やポー
リング処理によって検知したとき、チェックポイント取
得処理を開始する。チェックポイント取得処理では、各
ＣＰＵの内部状態復元のために必要なレジスタの値、及
びキャッシュメモリ内のデータのうち、まだメインメモ
リに反映されていないデータが、バスコントローラを介
して、メインメモリに書き込まれる。この場合の更新履
歴についても、前述と同様にＢＩＢ６ａに記録される。

【０１４４】ここまで終了した各ＣＰＵは、使用するＢ
ＩＢを切り替えるためにＢＩＢテーブルのカレントＢＩ
Ｂ番号を“０”から“１”に書き換え（ここではＢＩＢ
６ｂを次に使用するものとする）、その後、即座に通常
のプログラム処理を再開する。

【０１４５】この様にチェックポイント取得処理を完了
したＣＰＵの順で、使用するＢＩＢをそれまで使用して
いたＢＩＢから他方のＢＩＢに切り替えることにより、
それまで使用していたＢＩＢの内容を破壊することな
く、通常のプログラム実行処理を再開することができ
る。よって、各ＣＰＵが自身のチェックポイント取得処
理を完了した時点で即座に通常のプログラム実行処理を
再開できるようになり、システム全体の待機時間を大幅
に減少させることができる。

【０１４６】次に、図１３を参照して、チェックポイン
ト取得処理全体の流れについて説明する。

【０１４７】いま、図１３に示すように、ＣＰＵ２ａ〜
２ｃが並列に稼働しているものと、すなわち、各ＣＰＵ
２ａ〜２ｃが、通常のデータ処理をそれぞれ行なってい
るものとする（図１３の（１））。そして、このときに
使用されているＢＩＢはＢＩＢ６ａであるとする（図１
３の（２））。

【０１４８】その後、各ＣＰＵ２ａ〜２ｃの稼働中にＢ
ＩＢ６ａの残容量が予め設定された所定量を下回ったと
きに（図１３の（３））、ＣＰＵ２ａ〜２ｃそれぞれ
は、その旨を検知して、チェックポイント処理を開始す
る（図１３の（４））。

【０１４９】このチェックポイント取得処理の開始及び
所要時間は、上述したように、その検知タイミングや、
検知したときに処理中のプログラムの種類、キャッシュ
メモリの状態などにより異なる。

【０１５０】しかし、各ＣＰＵ２ａ〜２ｃそれぞれは自
身のチェックポイント処理が終了した際に、使用するＢ
ＩＢを切り替えて、即座に通常処理を再開する（図１３
の（５））。これにより、通常のデータ処理を再開した
ＣＰＵについては、ＢＩＢ６ｂへの更新履歴の採取が開
始される（図１３の（６））。

【０１５１】一方、すべてのＣＰＵ２ａ〜２ｃのチェッ
クポイント処理が終了した際に（図１３の（７））、Ｂ
ＩＢ６ａのリセット、すなわち、ＢＩＢ６ａに記録され
た更新履歴の破棄が行なわれる。

【０１５２】次に、図１４のフローチャートを参照し
て、各ＣＰＵが実行するチェックポイント取得処理の手
順について説明する。

【０１５３】各ＣＰＵは、通常のデータ処理を行なって
いるときに（ステップＳ１）、記録中のＢＩＢの残容量
が予め設定された所定量を下回ったことを検知した場合
（ステップＳ２）、チェックポイント取得処理を開始す
る（ステップＳ３）。このチェックポイント取得処理で
は、ＣＰＵの各種レジスタを含むそのＣＰＵの内部状態
（コンテキスト）と、メインメモリに反映されてないキ
ャッシュメモリの内容がメインメモリに書き込まれる。
次に、そのＣＰＵは、使用するＢＩＢを切り替えるため
にＢＩＢテーブルの該当するカレントＢＩＢ番号を
“０”から“１”に、書き換える（ステップＳ４）。

【０１５４】この後、そのＣＰＵは、自身がチェックポ
イント取得処理を完了した最後のＣＰＵであるか否かを
判断する（ステップＳ５）。これは、ＢＩＢテーブルを
参照して、カレントＢＩＢ番号を書き換えてないＣＰＵ
が存在するかどうかを調べることによって行われる。全
てのＣＰＵのカレントＢＩＢ番号が新たな番号に書き換
えられていれば、そのＣＰＵがチェックポイント取得処
理を完了した最後のＣＰＵである。この場合、そのＣＰ
Ｕは、今まで使用していたＢＩＢの内容を破棄するため
に、そのＢＩＢをクリアする（ステップＳ６）。このク
リア処理では、そのＢＩＢに対応するＢＩＢカウンタの
ポインタ値が“０”に戻される。この後、そのＣＰＵ
は、チェックポイント取得処理で中断した通常のプログ
ラム実行処理を再開する（ステップＳ７）。

【０１５５】なお、必ずしも、物理的に２つのメモリを
ＢＩＢとして用いる必要はなく、１つの物理メモリを２
つの論理的なメモリ（ＢＩＢ）としても用いることも可
能である。

【０１５６】以上、第１の実施形態において、全てのノ
ードで同期してチェックポイントを取得する方法、チェ
ックポイント取得の際、ノード間通信を行なわないこと
により、通信路に関するチェックポイントを取得する必
要がないことを説明した。

【０１５７】次に、第１の実施形態において、あるノー
ドで故障が発生した場合、全てのノードが一つ手前（直
前）のチェックポイントへロールバックして、リスター
トする方法について、図１５に示すフローチャートを参
照しながら説明する。

【０１５８】ここでの前提は、故障が発生したノードに
関しては、手前のチェックポイントにロールバックする
ことにより、通常のデータ処理をリスタートできるとい
うことである。あるノードで故障が発生し、そのノード
が完全に動作しない状態に陥った場合については、分散
メモリ型のマルチプロセッサ全体をリセットするのが適
当である。

【０１５９】あるノードで故障の発生を検出した時、あ
るいは、他のノードから故障の発生通知を受信した時
（図４の障害処理部（ステップＢ６））、図１５に示す
フローチャートに実行される障害処理部を起動して回復
処理を始める。

【０１６０】まず、本ノードで故障が発生した場合に
は、故障したＨＷのリセット等、必要な故障回復処理を
行なう（ステップＤ１）。

【０１６１】次に、２進木上の親ノードへ、故障発生通
知を送信する（ステップＤ２）。

【０１６２】図１６（ａ）に示すように、障害発生通知
は、故障が発生したノードから、次々と親ノードに伝え
られ、最終的にノード１に到達する。

【０１６３】図１６（ｂ）に示すように、もし、複数の
ノードでほぼ同時に故障が発生した場合は、２進木上の
何れかのノードは、ほぼ同時に、あるいは、時間をおい
て２つの子ノードから故障発生通知を受信することにな
る。その場合、親ノードには、故障発生通知を１つだけ
送信すれば良い。

【０１６４】ノード１は、故障発生通知を受信すると、
子ノードに対して、ロールバック指示を送る。２進木上
の親ノードからのロールバック指示を受信したノードは
（ステップＤ３）、２進木上の子ノードへ、ロールバッ
ク指示を送信するステップＤ４）。こうして、図１６
（ｃ）に示すように、ロールバック指示は、ノード１か
ら子ノードへ次々と伝えられる。

【０１６５】ロールバック指示を受信したノードでは、
キャッシュメモリの無効化（ステップＤ５）、ＢＩＢの
内容を参照することによるメインメモリのロールバック
（ステップＤ６）を行ない、チェックポイントから通常
のデータ処理をリスタートする。

【０１６６】なお、チェックポイントを取得中に、ある
ノードで故障が発生した場合、その故障発生通知は、チ
ェックポイント完了準備完を送受信するタイミングで他
のノードに伝えられることになる。この場合、最終的に
ノード１に故障発生が通知される。そして、ノード１か
ら子ノードに向かってロールバック指示が伝えられ、Ｂ
ＩＢの内容をクリアする直前のノードについても一つ手
前のチェックポイントへのロールバックが行なわれる。

【０１６７】また、故障の種類によっては、故障が発生
したノードにおいて、一切のデータ処理が続けられない
ことも有り得る。このような場合、そのノードからはチ
ェックポイント取得完了準備完の通知が、その親ノード
に伝えられないので、親ノードで子ノードからのチェッ
クポイント取得完了準備完の通知受信に関するタイムア
ウトを監視することにより故障発生を検出できる。

【０１６８】そして、親ノードから故障の発生した子ノ
ードにリセットをかける等の方法で、上記子ノードりＣ
ＰＵが再び動作する場合には、上記に述べた回復処理を
適用できる。

【０１６９】以上、第１の実施例において、全てのノー
ドが同期してチェックポイントを取得する構成及び方法
について説明し、その際、他のノードへの送信を抑止す
ることにより、通信スイッチ１０や通信アダプタ１−
２，２−２，…，Ｎ−２に中途半端な状態ができるのを
回避すること、何れかのノードで故障が発生した時に、
全てのノードがひとつ手前のチェックポイントにロール
バックして通常のデータ処理をリスタートすること、こ
れらの仕掛けにより、ノード間通信は遅延無く実行でき
ることを示した。

【０１７０】次に、第２の実施形態について説明する。

【０１７１】第１の実施形態では、一定時間経過した場
合にのみ、各ノード１，２，…，Ｎが一斉にチェックポ
イント取得を開始する場合について説明した。

【０１７２】第２の実施形態では、あるノードで、ＢＩ
Ｂの残容量が、ある定められた値を下回った場合に、全
てのノードで同期してチェックポイント取得を開始する
方法について説明する。ここで、ＢＩＢの残容量が、あ
る定められた値を下回ったノードを、チェックポイント
処理開始要求ノードと呼ぶことにする。

【０１７３】第２の実施形態は、第１の実施形態と近い
ので、相違する部分を中心に説明する。第２の実施形態
においても、第１の実施形態と同じく、各ノードは、論
理的に２進木のノードと１対１に対応づけられている。

【０１７４】図１７（ａ）に示すように、チェックポイ
ント処理開始要求ノード（ノード５）は、親ノード（ノ
ード２）に対してチェックポイント取得の開始指示要求
を送り、それを受け取った親ノード（ノード２）はその
要求を自分の親ノード（ノード１）に送ることでノード
にチェックポイント取得の開始指示要求を伝える。

【０１７５】２進木の形状に沿って伝えるのは、多数の
ノードがノード１に対してチェックポイント取得の開始
指示要求を送るのを防ぐためである。

【０１７６】ノード１が、ノード２とノード３に対して
チェックポイント取得指示を送り、図１７（ｂ）に示す
ように、２進木の形状に沿って全てのノードにチェック
ポイント取得指示が伝えられる。

【０１７７】各ノードは、ＢＩＢの残容量がある閾値を
下回った場合、あるいは、子ノードからチェックポイン
ト取得の開始指示要求を受信すると、図１８のフローチ
ャートに示す処理を行なう。

【０１７８】まず、条件に該当したノードは、親ノード
へチェックポイント取得開始要求を送る（ステップＥ
１）。ただし、ノード１に関しては、親ノードは無いの
でこのステップは行なわれない。

【０１７９】チェックポイント取得開始要求がノード１
まで伝わると、ノード１は、子ノード、すなわちノード
２，３へチェックポイント取得指示を送る（ステップＥ
２）。ノード１は、親ノードを持たないため、ステップ
Ｅ２は実行されない。

【０１８０】ノード２，３は、ノード１から送られてき
たチェックポイント取得指示を自分の子ノードへ送る
（ステップＥ３）。各ノードがステップＥ２、及びステ
ップＥ３のステップを実行することにより、全てのノー
ドにチェックポイント取得指示が伝えられる。

【０１８１】各ノードは、通常のデータ処理を中断し、
ノード間通信の受信処理を時刻Ｔ４まで実行する（ステ
ップＥ４，Ｅ５）。これは、チェックポイント取得指示
が２進木の葉に対応するノードに達するまでの間、通常
のデータ処理にともなうノード間通信が起こり得るた
め、それを全部受信する必要があるためである。

【０１８２】なお、時刻Ｔ４は、ノード１がステップＥ
３を実行する際に決定するのが望ましい。

【０１８３】時刻Ｔ４になると、通信路（通信スイッチ
１０）上にノード間通信のデータがなくなるので、図７
のステップＣ５〜Ｃ１３と同じように、チェックポイン
ト取得および取得完了の同期処理を行なう（ステップＥ
６〜Ｅ１４）。詳細な説明については、前述した図７に
示すフローチャートにおけるステップＣ５〜Ｃ１３と同
じ手順で実行されるものとして省略する。

【０１８４】なお、第２の実施形態では、あるノードに
おいて、ＢＩＢの残容量がある閾値を下回った場合、ま
ず図１７（ａ）に示すように、チェックポイント取得の
開始指示要求を根ノード（ノード１）まで伝達させて、
図１７（ｂ）に示すように、根ノードからチェックポイ
ント取得指示を出すものとして説明したが、別の方法も
可能である。

【０１８５】望ましい方法としては、図１７（ｃ）に示
すように、ＢＩＢの残容量がある閾値を下回ったことを
検出したチェックポイント処理開始要求ノード（図１７
（ｃ）ではノード５）から、親ノード及び全ての子ノー
ドにチェックポイント取得指示を送り、チェックポイン
ト取得指示を受信したノードは、自分の親ノード及び全
ての子ノードにチェックポイント取得指示を送ることに
より、全てのノードにチェックポイント取得指示を送る
方法を用いることもできる。

【０１８６】この場合、あるノードからチェックポイン
ト取得指示を受信した場合、（Ｆ１）チェックポイント取得指示を送信してきたノー
ドに対して、チェックポイント取得指示を送らない、（Ｆ２）２つ以上のチェックポイント取得指示を受信し
た場合、２番目以降に受信したチェックポイント取得指
示を捨て去る、ことが必要である。

【０１８７】以上で、第２の実施形態において、あるノ
ードにおいてチェックポイント取得開始の必要が生じた
場合、すなわちＢＩＢの残容量が、ある定められた値を
下回った場合に、チェックポイント処理開始要求を全て
のノードに伝えて、ノード間通信のない状態で、全ての
ノードが同期してチェックポイントを取得する方法につ
いて説明した。

【０１８８】次に、第３の実施形態について説明する。

【０１８９】第２の実施形態では、図１８のステップＥ
５において、チェックポイント取得指示が２進木の葉に
対応するノードに達するまでに起こり得るノード間通信
の受信処理を行なうために、時刻Ｔ４になるまで待つも
のとした。第３の実施形態では、時刻Ｔ４まで待たない
ようにすることで、よりノード間通信を高速化する方法
について示す。

【０１９０】第３の実施形態では、通信アダプタ１−
２，２−２，…，Ｎ−２に関して、下記の機能を仮定す
る。

【０１９１】（Ｇ１）各ノードのＣＰＵは、そのノード
の通信アダプタに対して、受信拒否モードを設定でき
る。

【０１９２】（Ｇ２）ノードＡからノードＢにデータを
送信するため、ノードＡの通信アダプタを起動し、か
つ、ノードＢの通信アダプタが受信拒否モードに設定さ
れている場合、実際には通信が行なわれず、ノードＡの
通信アダプタは、ノードＡのＣＰＵに割り込むことで、
異常終了したこと、及び異常終了の原因を伝える。

【０１９３】通信アダプタ１−２，２−２，…，Ｎ−２
が前述の（Ｇ１）（Ｇ２）の機能を有する場合、図１８
のフローチャートに示したチェックポイント取得の開始
をノード間で同期させる方法、及び図３のフローチャー
トに示すノード間通信の送信側（送信制御部）の動作方
法を、それぞれ図１９、図２０のように変更することに
より、親ノードからチェックポイント取得指示をしてか
らの待ち時間を省くことができる。

【０１９４】各ノードは、チェックポイントを開始する
際（ステップＦ１）、通信アダプタを受信拒否モードに
設定する（ステップＦ２）。

【０１９５】ここで、ノードＡは、送信メッセージを作
成し（ステップＧ１）、通信アダプタを起動して（ステ
ップＧ２〜Ｇ４）、ノードＢに対してデータ送信を行な
おうとしたものとする（ステップＧ５〜Ｇ６）。一方、
ノードＢは、チェックポイント取得を開始するため、通
信アダプタを受信拒否モードに設定する（ステップＦ
２）。

【０１９６】この場合、ノードＡでは、図２０のステッ
プＧ６において相手側の通信アダプタが受信拒否モード
に設定されていることを検知し、ノードＡに対するメッ
セージの送信は一定期間行なわない（ステップＧ９）。

【０１９７】通常は、この待ちの期間中に、ノードＡに
対してもチェックポイント取得指示が送られてくるの
で、通常のデータ処理が中断され、チェックポイント取
得が開始されることになる。

【０１９８】以上、通信アダプタが受信拒否モードを設
定できる場合には、チェックポイント取得の開始に関し
て、通常のデータ処理にともなうノード間通信が無くな
るまで、一定時間待つ必要がないことを説明した。

【０１９９】なお、第３の実施形態における方法は、第
１の実施形態についても適用可能であり、その場合に
は、図７のステップＣ３，Ｃ４において、時刻Ｔ２が経
過するまでノード間通信の受信処理を続ける必要がなく
なる。

【０２００】次に、第４の実施形態について説明する。

【０２０１】第３の実施形態では、通信アダプタが受信
拒否モードを設定できる場合に、チェックポイント取得
の開始に関して、通常のデータ処理にともなうノード間
通信が無くなるまで、一定時間待つ必要がないことを説
明した。第４の実施形態では、通信アダプタに受信拒否
モードを設定できる機能が無くても、一定時間待たない
ようにすることができる方法について示す。

【０２０２】図２１のフローチャートに示すように、チ
ェックポイントを開始する際（ステップＨ１）、ＣＰＵ
のコンテクストをメインメモリ上に保存する処理（ステ
ップＨ２）と、キャッシュメモリフラッシュ１（ステッ
プＨ３）を、ＣＰＵ割り込みを許可した状態で行なう。
ただし、キャッシュメモリフラッシュ１というのは、キ
ャッシュメモリの一部についてのみフラッシュする処理
である。

【０２０３】これにより、ステップＨ２またはＨ３の実
行中に、他のノードからデータ送信があった場合には、
通信アダプタからの割り込みとして、データ受信要求が
ＣＰＵに伝えられる。

【０２０４】この場合、受信側ノードのＣＰＵは、図２
２のフローチャートに示すノード間通信の受信処理を実
行する。受信側ノードのＣＰＵは、キャッシュメモリフ
ラッシュの途中で、通信アダプタからの割り込みを処理
することにより（ステップＩ２〜Ｉ４）、キャッシュメ
モリフラッシュ１によりキャッシュメモリのフラッシュ
が終わった部分にも、書き換えられたデータが存在する
可能性ができる。

【０２０５】このため、受信側ノードは、メッセージ受
信処理の後（ステップＩ５，Ｉ７，Ｉ８）、ステップＩ
９において、受信要求割り込みが発生した時ににチェッ
クポイント取得中であったかチェックする。チェックポ
イント取得中であった場合には、図２１のステップＨ２
の処理に戻ってチェックポイント取得をやり直す。

【０２０６】この方法は、メッセージの到着があるか否
か不明な状態で待つよりは、到着がないものとしてキャ
ッシュメモリのフラッシュをある程度実行し、その間に
到着があれば、キャッシュメモリのフラッシュを再度実
行すれば良いという考え方に基づいている。これによ
り、システム全体の性能向上が期待できる。

【０２０７】なお、第４の実施形態では、メッセージ到
着があった場合、ステップＨ２において、ＣＰＵのコン
テクストをメインメモリ上に保存する処理も再度実行す
ると説明しているが、ＣＰＵのコンテクストの保存方法
によっては、メッセージ到着前に保存したものを変更す
る必要はない。すなわち、どの時点でコンテクストを保
存するかによるが、例えばチェックポイント取得メッセ
ージを受信すると、通信アタプタからの割り込みがあっ
てチェックポイント取得を開始するが、その際、それま
で行なってデータ通常のデータ処理でのレジスタの内容
が保存されいるならば、あらためてコンテクストを保存
して先のデータを変更するのではなく、先のデータをそ
のまま利用することもできる。

【０２０８】次に、第５実施形態について説明する。

【０２０９】チェックポイント／ロールバック方式の計
算機では、チェックポイント取得に要する時間の大半を
キャッシュメモリのフラッシュに要しているため、その
時間を実効的に低減させる方式として、２フェーズチェ
ックポイントを用いる。この場合、ノード中のキャッシ
ュメモリは、コピーバック型であるものとする。２フェ
ーズチェックポイントについては、本出願人は先に特願
平７−１５１７３９号において出願している。

【０２１０】従来のチェックポイント方式では、図２３
（ａ）に示すように、通常処理、チェックポイント処
理、通常処理、チェックポイント処理、…という繰り返
しを行なっており、ここでのオーバヘッドは、チェックポイント処理／（通常処理＋チェックポイント
処理）となる。このチェックポイント処理の中で、時間的に最
も大きな割合を占めるのがキャッシュ上の更新データを
メインメモリに書き戻す（フラッシュする）時間であ
る。

【０２１１】従来のチェックポイント処理のオーバヘッ
ドのうちで最も大きな割合を占める「キャッシュ上の更
新データをメインメモリに書き戻す（フラッシュする）
時間」を短縮するために、以下の様な手順によって、２
フェーズチェックポイント処理を行なう。図２３（ｂ）
には２フェーズチェックポイント方式の動作のタイムチ
ャートを示している。

【０２１２】（Ｈ１）通常のデータ処理。

【０２１３】（Ｈ２）第１フェーズ：通常のデータ処理
と並行して、フラッシュするための専用のハードウェア
であるキャッシュフラッシュ装置（例えば、本出願人が
先に特願平７−１５１７３２号によって出願した）でキ
ャッシュフラッシュを実行する。

【０２１４】（Ｈ３）第２フェーズ：通常のデータ処理
を行なわず、ＣＰＵのコンテキストをメインメモリ上に
保存した後、キャッシュメモリのキャッシュフラッシュ
をキャッシュフラッシュ装置で実行する。

【０２１５】第１フェーズの中で、通常のデータ処理を
行ないながら、キャッシュフラッシュを実行すること
で、第２フェーズ開始時点では、キャッシュメモリから
メインメモリに書き戻すべきデータの量がかなり減る。
従って、通常のデータ処理を実行することができない、
第２フェーズの所要時間を減らすことができる。

【０２１６】第５実施形態では、この２フェーズチェッ
クポイント方式を採用した計算機を分散メモリ型マルチ
プロセッサシステムにおける各ノードとして採用する場
合について説明する。

【０２１７】図２４には、各ノードが２フェーズチェッ
クポイントを行なうための、キャッシュフラッシュ装置
の制御方法を示している。

【０２１８】まず、通常のデータ処理を実行している際
に第１フェーズを開始すべき要因が発生すると（ステッ
プＪ１，Ｊ２）、キャッシュフラッシュハードウェア、
すなわちキャッシュフラッシュ装置が起動される（ステ
ップＪ３）。これにより、キャッシュフラッシュ装置に
よりキャッシュフラッシュを行なう一方で、並行して通
常のデータ処理を行なうことができる（ステップＪ
４）。

【０２１９】ここで、第２フェーズを開始すべき要因が
発生すると（ステップＪ５）、通常のデータ処理は行な
わず、ＣＰＵ割り込み禁止にして、ＣＰＵのコンテクス
トをメインメモリ上に保存する（ステップＪ６，Ｊ
７）。この後、キャッシュフラッシュ装置を止め、再起
動して、キャッシュフラッシュの対象をキャッシュメモ
リ全体に戻し、キャッシュフラッシュ装置により第２フ
ェーズにおけるキャッシュフラッシュを実行する（ステ
ップＪ８，Ｊ９）。第２フェーズでは、キャッシュメモ
リ全体を対象としても、第１フェーズで書き戻しが完了
しなかった分と、第１フェーズの実行中に更新されたデ
ータのみであるので、書き戻すデータ量が少ない。従っ
て、通常のデータ処理を実行できない時間を短縮するこ
とができる。

【０２２０】キャッシュフラッシュ装置によるキャッシ
ュフラッシュが終了すると、ＣＰＵ割り込み許可にし
て、ノード間での完了同期を行なった後、ＢＩＢをクリ
アし、通常のデータ処理に戻る（ステップＪ１０〜Ｊ１
２）。

【０２２１】なお、ステップＪ１１におけるノード間で
のチェックポイント完了同期は、前述した第１実施形態
において説明した方法を用いることができる。これによ
り、チェックポイントの取得自体に要する時間を短縮す
ることにより、通常のデータ処理を実行できない時間、
すなわちノード間通信を行なうことができない時間を短
縮すると共に、全てのノードで同期してチェックポイン
トを取得することでノード間通信の要求を即座に実行で
きる本発明を適用して、ノード間通信を高速化すること
ができる。

【０２２２】なお、第１フェーズ及び第２フェーズヘ移
行するタイミング、すなわちステップＪ２及びステップ
Ｊ５における判定条件には種々の候補があり得る。

【０２２３】ステップＪ２に関しては、各ノードが下記
の何れかの条件（Ｉ１）〜（Ｉ３）が成立したか否かを
独立して判定する方法と、何れかのノードで下記の条件
（Ｉ１）〜（Ｉ３）が成立したことを検出した時、それ
をノード間通信で他のノードに伝える方法がある。

【０２２４】（Ｉ１）各ノードが通常のデータ処理を再
開してから一定時間が経過した。

【０２２５】（Ｉ２）キャッシュメモリ中の書き戻しが
必要なデータの量が閾値を越えた。

【０２２６】（Ｉ３）ＢＩＢの残容量が閾値を下回っ
た。

【０２２７】また、ステップＪ５に関しては、各ノード
が下記の条件（Ｊ１）〜（Ｊ３）が成立したか否か独立
して判定する方法と、何れかのノードで下記の条件（Ｊ
１）〜（Ｊ３）が成立したのを検出した時、それをノー
ド間通信で他のノードに伝える方法がある。

【０２２８】（Ｊ１）各ノードが第１フェーズを開始し
てから一定時間が経過した。

【０２２９】（Ｊ２）キャッシュフラッシユ装置が全て
のキャッシュブロックの検査及びそれに伴うデータのメ
インメモリへの書き戻しを終了した。

【０２３０】これらの候補のうち、いずれが最適である
かは、各ノードでのデータ処理の内容によって異なるの
で、試行錯誤的に選択できることが望ましい。

【０２３１】また、条件（Ｉ１）〜（Ｉ３），（Ｊ１）
〜（Ｊ２）をノード間通信で他のノードに通知する方法
は、前述した第１の実施形態乃至第４の実施形態におい
て説明した方法を用いることができる。

【０２３２】以上、２フェーズチェックポイント方式の
計算機を用いる場合について説明した。

【０２３３】次に、分散メモリ型マルチプロセッサシス
テム中のノードをグループ化する場合に本発明を適用す
る例について説明する。分散メモリ型マルチプロセッサ
システムにおいて、複数のアプリケーションを実行させ
る場合、システム中に存在する複数のノードを論理的な
いくつかのグループに分け、各グループ毎に異なるアプ
リケーションを実行させることがある。

【０２３４】図２５には複数のノードをグループ化した
状況を概念的に示している。各ノードは、通信路を介し
て接続されており（図示せず）、相互にデータ送受信が
可能である。

【０２３５】例えば、多くの遠隔端末からの照会業務を
受け付ける大規模なデータベースシステムと、そのデー
タベースも参照する意思決定支援システムを例に考え
る。この場合、データベースシステムは、計算機のダウ
ンによりサービスが停止するのを回避すべきであるが、
意思決定支援システムは計算機のダウンがあり最初から
再実行することがあっても、さぼど深刻な影響はないと
考えられる。

【０２３６】そこで、分散メモリ型マルチプロセッサシ
ステムがチェックポイントを取得する場合、データベー
スシステムを実行するグループに属するノードではチェ
ックポイントを取得するが、意思決定支援システムを実
行するノード（少数であるとの前提）ではチェックポイ
ントを取得しないようにする。

【０２３７】ここで、チェックポイント取得を指示され
るノードを取得ノード、チェックポイント取得を指示さ
れないノードを非取得ノードとする。図２５において
は、チェックポイント採取グループ（データベースシス
テム）に含まれるノード（例えばノードＢ，Ｆ）が取得
ノード、チェックポイント非採取グループ（意思決定支
援システム）に含まれるノード（例えばノードＣ，Ｈ）
が非取得ノードとなる。

【０２３８】本実施形態では、各ノードに、自ノードに
チェックポイントを取得させるか否か、すなわちチェッ
クポイント取得ノードあるいは非取得ノードの何れであ
るかを設定する手段を設け、チェックポイント取得の有
無をノード単位に選択するものとする。

【０２３９】このような、チェックポイント取得ノード
と非取得ノードが混在した構成の分散メモリ型マルチプ
ロセッサシステムの場合、次のようなノード間通信が発
生する。

【０２４０】（Ｋ１）データベースシステムを実行する
グループ（チェックポイント採取グループ）に属するノ
ード間通信。

【０２４１】（Ｋ２）意思決定支援システム（チェック
ポイント非採取グループ）からデータベースへ問い合わ
せ送信に伴うノード間通信。

【０２４２】（Ｋ３）データベースから意思決定支援シ
ステムへの結果送信に伴うノード間通信である。

【０２４３】（Ｋ１）は、例えば図２５中のノードＢか
らノードＦへのデータ通信（１）であり、チェックポイ
ント取得の時はデータ送信を抑止するが、チェックポイ
ント採取グループ内で同期してチェックポイント採取を
行なうので、遅延なしのデータ通信が可能である。チェ
ックポイント取得の時はデータ送信を抑止することで、
通信路に転送中のデータが存在しない状態でチェックポ
イントを取得できる。

【０２４４】（Ｋ２）は、例えば２５図中ノードＣから
ノードＧへのデータ通信（２）であり、データベース実
行可能側で、チェックポイント取得中だけはデータ送信
を抑止する。

【０２４５】（Ｋ３）は、例えば２５図中ノードＧから
ノードＣへのデータ通信（３）であり、チェックポイン
ト採取グループのみがロールバックされる、あるいはチ
ェックポイント非採取グループのみがリブートされる場
合があり、両グループ間で状態に矛盾が生じることもあ
るので、データ送信は次のチェックポイント取得後まで
遅延させられる。

【０２４６】また、データベースシステムを実行するグ
ループに属するノード（取得ノード）で故障が発生した
場合、そのグループに属する全てのノードが直前のチェ
ックポイントまで戻って通常のデータ処理を再開する
が、意思決定支援システムを実行するノード（非取得ノ
ード）については通常の処理を続ける。

【０２４７】一方、意思決定支援システムを実行するノ
ード（非取得ノード）で故障が発生した場合、リブート
を行ない、通常、意思決定支援システムを最初から実行
しなおす。データベースシステムを実行するグループに
属するノード（取得ノード）については通常の処理を続
ける。

【０２４８】こうして、分散メモリ型マルチプロセッサ
システム中に、ノード単位で設定されたチェックポイン
ト取得ノードと非取得ノードを混在させて、効果的なチ
ェックポイント／ロールバック方式の分散メモリ型マル
チプロセッサシステムを構築できる。

【０２４９】次に、前述した大規模なデータベースシス
テムと、そのデータベースも参照する受発注管理システ
ムにそれぞれノードグループを割り当て、各ノードグル
ープ毎でチェックポイントを取得しながらチェックポイ
ント処理を実行する場合について説明する。

【０２５０】例えば、図２６に示すように、通信路を介
して相互に接続された複数のノードが３つのグループに
グループ化され、例えば一方のチェックポイント採取グ
ループＸのノードグループで大規模なデータベースシス
テムを実現し、他方のチェックポイント採取グループＹ
のノードグループで受発注管理システムを実現している
ものとする。また、チェックポイント非採取グループも
存在する。ここでは、ノードグループごとに同期してチ
ェックポイント取得を行なう。

【０２５１】この場合、データベースシステムを実行す
るグループ内、及び受発注管理システムを実行するグル
ープ内では頻繁にデータ通信が発生するが、両グループ
に属するノード間でのデータ通信は少ないと予想され
る。そこで、両グループに属する全てのノード間で同期
してチェックポイントを取得する代わりに、それぞれの
グループ内では同期してチェックポイントを取得し、両
グループ間では同期させない。

【０２５２】例えば、図２６中においては、あるグルー
プに属する各ノードがチェックポイントを取得している
際、他のグループに属するノードは、通信路を介して他
のノードへのデータ送信を行なう。例えば、チェックポ
イント採取グループＸにおいてチェックポイントを取得
している際、チェックポイント採取グループＹのノード
ＭはノードＮにデータ送信（１）を行なう。

【０２５３】一方、異なるグループに属するノード間、
例えばノードＫとノードＯでのデータ送信（２）は、次
のチェックポイント取得後まで遅延させる。

【０２５４】あるグループに属するあるノードに故障が
発生した場合は、他のグループに属する全てのノード
は、通信路へのデータ送信を抑止し、通信路を経由して
転送しているデータについては受信を完了させた後、通
信路上に通信中のデータが無いように、必要ならば初期
化する。

【０２５５】また、故障が発生したノードを含むグルー
プに属する全てのノードは、それぞれ直前のチェックポ
イントにロールバックした後、通常のデータ処理を再開
する。こうして、ノードグループごとに同期してチェッ
クポイントを取得することができる。

【０２５６】こうしてノードグループ単位で同期してチ
ェックポイントを取得することにより、ノード間でのチ
ェックポイントチェックポイント取得の開始の同期、及
びチェックポイント取得後の通常のデータ処理開始に関
する処理に関するオーバヘッドを低減することができ
る。

【０２５７】なお、図２５、図２６において説明した構
成においては、必要に応じて、チェックポイント取得に
係わるデータ間通信の方法を、前述した第１実施形態〜
第４実施形態において説明した方法を用いることができ
る。

【０２５８】なお、本発明は、従来の分散メモリ型マル
チプロセッサシステムにおけるノードをチェックポイン
ト／ロールバック機構を備えたものに変更しなければな
らないが、ノード間を接続する通信路（通信スイッチ１
０）はそのまま使用できるので、分散メモリ型マルチプ
ロセッサシステムに広く応用できる。また、本発明を適
用した分散メモリ型マルチプロセッサシステムは、大規
模な科学技術計算やデータベース処理をはじめ、広い用
途に適用でき、その高信頼性を享受できる。

【０２５９】

【発明の効果】以上詳述したように本発明によれば、ノ
ードにチェックポイント／ロールバック方式の計算機を
用いた際であっても、ノード間通信を即時に実行するこ
とで、ノード間通信を高速化することが可能となるもの
である。

【図面の簡単な説明】

【図１】本発明の実施の形態に係わるチェックポイント
／ロールバック方式の分散メモリ型のマルチプロセッサ
システムの構成を示すブロック図。

【図２】ＢＩＢ（ＢｅｆｏｒｅＩｍａｇｅＢｕｆｆ
ｅｒ）を用いたデータの保存とロールバックを説明する
ための図。

【図３】実施形態におけるノード間通信の送信側の動作
を示すフローチャート。

【図４】実施形態におけるノード間通信の受信側の動作
を示すフローチャート。

【図５】実施形態におけるノード間通信を遅延なく実行
しても問題がないことを説明するための図。

【図６】実施形態におけるノード間通信を遅延なく実行
しても問題がないことを説明するための図。

【図７】各ノードのＣＰＵ１−１，２−１，…，Ｎ−１
が、一斉にチェックポイント取得を行なう動作を説明す
るためのフローチャート。

【図８】複数のノード１，２，…，Ｎにおける通常のデ
ータ処理とチェックポイント取得のタイムチャートを示
す図。

【図９】各ノードを論理的に対応づける２進木（Ｂｉｎ
ａｒｙＴｒｅｅ）を示す図。

【図１０】ワイアード・ＡＮＤ１２を備えた分散メモリ
型マルチプロセッサシステムの概略構成を示す図。

【図１１】ＢＩＢテーブルの一例を示す図。

【図１２】２つのＢＩＢカウンタと２つのＢＩＢとの対
応関係を示す図。

【図１３】マルチプロセッサシステムで実行されるチェ
ックポイント取得処理全体の流れを示す図。

【図１４】チェックポイント取得処理の手順を示すフロ
ーチャート。

【図１５】チェックポイントへロールバックしてリスタ
ートする方法を説明するためのフローチャート。

【図１６】障害発生時のノード間通信を説明するための
２進木を示す図。

【図１７】チェックポイント取得の開始を同期させるた
めのノード間通信を説明するための２進木を示す図。

【図１８】チェックポイント取得の開始指示要求を受信
した際のノードの動作を説明するためのフローチャー
ト。

【図１９】チェックポイント取得の開始をノード間で同
期させる動作を説明するためのフローチャート。

【図２０】ノード間通信の送信側の動作を示すフローチ
ャート。

【図２１】チェックポイント取得の開始をノード間で同
期させる動作を説明するためのフローチャート。

【図２２】ノード間通信の受信処理を説明するためのフ
ローチャート。

【図２３】２フェーズチェックポイント方式の動作を示
すタイムチャート。

【図２４】ノードが２フェーズチェックポイントを行な
うためのキャッシュフラッシュ装置の制御方法を示すフ
ローチャート。

【図２５】複数のノードＡ〜Ｐに対するグループ化の概
念を示す図。

【図２６】複数のノードＡ〜Ｐに対するグループ化の概
念を示す図。

【図２７】チェックポイント／ロールバック方式の計算
機の動作の基本原理を示した概念図。

【図２８】２つのノード（計算機Ａ、計算機Ｂ）との間
でデータ通信を行なう際の通信処理要求を即座に実行し
た場合の不具合の例を示す図。

【図２９】２つのノード（計算機Ａ、計算機Ｂ）との間
でデータ通信を行なう際の通信処理要求を遅延させる例
を示す図。

【図３０】２つのノード（計算機Ａ、計算機Ｂ）との間
でデータ通信を行なう際の通信処理要求を遅延させた後
の新しいチェックポイントを採取した例を示す図。

【図３１】２つのノード（計算機Ａ、計算機Ｂ）との間
でデータ通信を行なう際の通信処理要求を遅延させた後
に故障が発生した場合の例を示す図。

【符号の説明】

１，２，…，Ｎ…ノード１−１，２−１，…，Ｎ−１…ＣＰＵ１−２，２−２，…，Ｎ−２…通信アダプタ１−３，２−３，…，Ｎ−３…メインメモリ１−４，２−４，…，Ｎ−４…ＢＩＢ１−５，２−５，…，Ｎ−５…キャッシュ

フロントページの続き (56)参考文献特開平２−140841（ＪＰ，Ａ) 特開昭64−106653（ＪＰ，Ａ) 特開昭63−40959（ＪＰ，Ａ) 特開平８−130498（ＪＰ，Ａ) 特開平７−13835（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 15/177 678 G06F 15/177 681 ＥＰＡＴ（ＱＵＥＳＴＥＬ) ＪＩＣＳＴファイル（ＪＯＩＳ) ＷＰＩ（ＤＩＡＬＯＧ)

Claims

(57)【特許請求の範囲】

【請求項１】少なくともプロセッサとメインメモリと
を含むノードが通信路を介して２個以上接続され、前記
通信路を経由してノード間通信を行なう分散メモリ型マ
ルチプロセッサシステムにおいて、前記ノードは、故障発生時の再実行を可能にするために、ある時点で自
ノードに関するチェックポイントを取得し、故障発生時
には直前に取得したチェックポイントからデータ処理を
再開する機能を有し、前記機能によるチェックポイントの取得の開始を、前記
通信路を介した他のノードに対するデータ送信を抑止
し、前記通信路を経由して送信されるデータの受信を完
了させて、前記通信路に送信中のデータが存在しない状
態で、他の全てのノードと同期して行なうことを特徴と
する分散メモリ型マルチプロセッサシステム。
【請求項２】前記ノードは、前記通信路を介した他の
ノードに対するデータ送信を、次のチェックポイントの
取得後まで遅延させることなく実行することを特徴とす
る請求項１記載の分散メモリ型マルチプロセッサシステ
ム。
【請求項３】前記ノードのプロセッサにコピーバック
型のキャッシュメモリが設けられ、前記チェックポイン
トが前記メインメモリ上に取得されるものであって、前記ノードは、全ての他のノードと同期して行なうチェ
ックポイントの取得の前に、通常のデータ処理と並行し
て全ての他のノードと同期して、前記キャッシュメモリ
中に存在するダーティなデータの一部を強制的に前記メ
インメモリに書き戻すことを特徴とする請求項２記載の
分散メモリ型マルチプロセッサシステム。
【請求項４】前記ノードのそれぞれは、ある時刻にな
った時点で前記チェックポイントの取得を開始して、他
の全てのノードと前記チェックポイントの取得を同期さ
せることを特徴とする請求項１または請求項２記載の分
散メモリ型マルチプロセッサシステム。
【請求項５】前記ノードのそれぞれは、木構造の何れ
かのノードと対応づけられ、この対応づけに基づく関係
のあるノードに対してチェックポイントの取得開始の同
期をとるためのデータ送信を行なうもので、チェックポイントの取得を開始すべきことを検出したノ
ードは、親ノードに対して前記チェックポイント取得開
始要求を送信し、前記チェックポイント取得開始要求を子ノードから受信
したノードは、親ノードに前記チェックポイント取得開
始要求を送信することで、根ノードにまで順次、前記チ
ェックポイント取得開始要求を送信し、前記チェックポイント取得開始要求を子ノードから受信
した根ノードは、全ての子ノードに対してチェックポイ
ント取得指示を送信し、前記チェックポイント取得指示を親ノードから受信した
ノードは、子ノードに前記チェックポイント取得指示を
送信することで、全てのノードに対してチェックポイン
ト取得指示を与えて、全てのノードでチェックポイント
の取得の開始の同期をとることを特徴とする請求項１ま
たは請求項２または請求項３記載の分散メモリ型マルチ
プロセッサシステム。
【請求項６】前記ノードのそれぞれは、木構造の何れ
かのノードと対応づけられ、この対応づけに基づく関係
のあるノードに対してチェックポイントの取得開始の同
期をとるためのデータ送信を行なうもので、チェックポイントの取得を開始すべきことを検出したノ
ードは、親ノード及び全ての子ノードに対してチェック
ポイント取得指示を送信し、前記チェックポイント取得指示を受信したノードは、親
ノード及び全ての子ノードのうち、前記チェックポイン
ト取得指示を送信してきたノードを除く全てノードに対
して前記チェックポイント取得指示を送信することで、
全てのノードでチェックポイントの取得の開始の同期を
とることを特徴とする請求項１または請求項２記載の分
散メモリ型マルチプロセッサシステム。
【請求項７】少なくともプロセッサとメインメモリと
を含むノードが通信路を介して２個以上接続され、前記
通信路を経由してノード間通信を行なう分散メモリ型マ
ルチプロセッサシステムにおいて、前記ノードは、故障発生時の再実行を可能にするために、ある時点で自
ノードに関するチェックポイントを取得し、故障発生時
には直前に取得したチェックポイントからデータ処理を
再開する機能を有し、全ての他のノードと同期して取得したチェックポイント
を、全てのノードで次のチェックポイントの取得が完了
するまで保持し、何れかのノードに故障が発生した場合
に、次のチェックポイントの取得までに他の全てのノー
ドと同期して故障発生が通知されるものであって、前記機能によってチェックポイントの取得を開始した
後、他のノードから通常のデータ処理にともなうノード
間のデータ送信を受信した場合に、故障発生を通知する
ものである場合には、直前に取得したチェックポイント
からデータ処理を再開し、その他の通知である場合に
は、チェックポイントの取得をやり直すことを特徴とす
る分散メモリ型マルチプロセッサシステム。
【請求項８】前記ノードのそれぞれは、木構造の何れ
かのノードと対応づけられ、この対応づけに基づく関係
のあるノードに対してチェックポイントの取得完了の同
期をとるためのデータ送信を行なうもので、全ての子ノードからチェックポイント完了準備完の通知
を受信したノードは、親ノードにチェックポイント完了
準備完を送信し、全ての子ノードからチェックポイント完了準備完の通知
を受信した根ノードは、全ての子ノードに対してチェッ
クポイント完了指示を送信すると共にチェックポイント
取得を完了させ、通常のデータ処理を再開し、親ノードからチェックポイント完了指示を受けとった
時、あるいは既に通常のデータ処理を再開したノードか
ら通常のデータ通信を受け取った時、ノードは、全ての
子ノードに対してチェックポイント完了指示を送ると共
にチェックポイント取得を完了させ、通常のデータ処理
を再開することを特徴とする請求項１または請求項２に
記載の分散メモリ型マルチプロセッサシステム。
【請求項９】前記ノードのそれぞれは、木構造の何れ
かのノードと対応づけられ、この対応づけに基づく関係
のあるノードに対してチェックポイントの取得完了の同
期をとるためのデータ送信を行なうもので、前記各ノードは、チェックポイントの取得を開始した時
点で、他のノードからのデータ受信を不可とし、チェッ
クポイントの取得が完了する直前で、他のノードからの
データ受信を可能とすると共に通常のデータ処理を再開
するもので、全ての子ノードからチェックポイント完了準備完の通知
を受信したノードは、親ノードにチェックポイント完了
準備完を送信し、全ての子ノードからチェックポイント完了準備完の通知
を受信した根ノードは、全ての子ノードに対してチェッ
クポイント完了指示を送信すると共にチェックポイント
取得を完了させ、以前のチェックポイントを破棄し、親ノードからチェックポイント完了指示を受け取った
時、あるいは既に通常のデータ処理を再開したノードか
ら通常のデータ通信を受け取った時、ノードは、全ての
子ノードに対してチェックポイント完了指示を送ると共
にチェックポイント取得を完了させ、以前のチェックポ
イントを破棄することを特徴とする請求項１乃至請求項
６の何れかに記載の分散メモリ型マルチプロセッサシス
テム。
【請求項１０】前記全てのノードにおいてチェックポ
イントの取得が終了したことを検出するためのバリア同
期機構を有することを特徴とする請求項１または請求項
２記載の分散メモリ型マルチプロセッサシステム。
【請求項１１】前記親ノードにおいて全ての子ノード
からのチェックポイント取得の完了準備完が一定時刻ま
でに受け取れたか否かによって故障を検出することを特
徴とする請求項８または請求項９記載のチェックポイン
ト／ロールバック方式の分散メモリ型マルチプロセッサ
システム。
【請求項１２】前記各ノードは、前記機能によりチェ
ックポイントを取得する取得ノードか、チェックポイン
トの取得を行なわない非取得ノードかを設定する手段を
有し、前記手段によって前記取得ノードに設定されたノード
は、チェックポイントの取得の時は、前記通信路を介し
た他のノードに対するデータ送信を抑止し、前記通信路
を経由して送信されるデータの受信を完了し、前記手段によって前記非取得ノードに設定されたノード
は、前記通信路を介した取得ノードに対するデータ送信
を抑止して、前記通信路に取得ノードに対して送信中のデータが存在
しない状態で、他の全てのノードと同期して行ない、何れかの前記取得ノードに故障が発生した際、前記非取得ノードは、前記通信路へのデータ送信を抑止
し、前記通信路を経由して送信されるデータの受信を完
了させて、前記通信路に通信中のデータが無いようにし
た状態で、前記取得ノードは、直前に取得したチェックポイントか
らデータ処理を再開することを特徴とする請求項１また
は請求項２記載の分散メモリ型マルチプロセッサシステ
ム。
【請求項１３】前記ノードがグループ化されてグルー
プ毎に異なるアプリケーションを実行し、各グループに
属するノード毎にチェックポイントを取得するものであ
って、あるグループに属する各ノードがチェックポイントを取
得する際、他のグループに属するノードは、前記通信路
を介して他のノードへのデータ送信を行ない、異なるグループに属するノード間のデータ間通信は、次
のチェックポイントの取得後まで遅延させ、あるグループに属するあるノードで故障が発生した際
は、他のグループに属する全てのノードは、前記通信路への
データ送信を抑止し、前記通信路を経由して送信してい
るデータの受信を完了させて、前記通信路に通信中のデ
ータが無いようにし、故障が発生したグループに属する全てのノードは、それ
ぞれ直前に取得したチェックポイントからデータ処理を
再開することを特徴とする請求項１または請求項２記載
の分散メモリ型マルチプロセッサシステム。