JPH09204318A

JPH09204318A - 計算機ネットワークにおけるチェックポイント取得時期決定方法

Info

Publication number: JPH09204318A
Application number: JP8013036A
Authority: JP
Inventors: Yasuko Horiuchi; 谷州子堀内
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1996-01-29
Filing date: 1996-01-29
Publication date: 1997-08-05

Abstract

(57)【要約】【課題】フォールトトレラントコンピュータ相互間で発
生する通信処理の効率を飛躍的に向上させるチェックポ
イント取得時期決定方法を提供する。【解決手段】計算機（Ａ）は、自己のチェックポイント
取得時刻を計算機（Ｂ）に通知するステップ（ステップ
Ａ２）を具備し、計算機（Ｂ）は、計算機（Ａ）が通知
する計算機（Ａ）のチェックポイント取得時刻を受信す
るステップ（ステップＢ１）と、この受信した計算機
（Ａ）のチェックポイント取得時刻に基づいて、自己の
チェックポイント取得時刻を決定するステップ（ステッ
プＢ２）とを具備してなる。これにより双方のチェック
ポイントの取得時刻を適切な時間幅でスライドさせるこ
とができるため、計算機相互間で発生する通信処理の効
率を飛躍的に向上させることが可能となる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、たとえばチェッ
クポイントリスタート機能を有するフォールトトレラン
トコンピュータを複数台接続してなる計算機ネットワー
クに適用して好適なチェックポイント取得時期決定方法
に係り、特にこのフォールトトレラントコンピュータ相
互間で発生する通信処理の効率を飛躍的に向上させるこ
とのできるチェックポイント取得時期決定方法に関す
る。

【０００２】

【従来の技術】近年、コンピュータ技術と通信技術の発
展は目覚ましく、コンピュータを有機的に結合させた様
々な形態の分散処理システムが構築されてきている。ま
た、これらの技術の発展に伴なって、信頼性に対する要
求も高くなってきており、分散処理システムを複数のフ
ォールトトレラントコンピュータで構成するといったこ
とが行なわれてきている。

【０００３】このようなフォールトトレラントコンピュ
ータの中には、プロセッサがキャッシュ内のデータを定
期的に主記憶装置に書き戻しておき（チェックポイン
ト）、障害が発生したときに、直前に書き戻されたキャ
ッシュの状態から、そのプロセッサ上で実行中であった
プロセスを再起動する（ロールバック）といった特徴を
もつものがある。

【０００４】このようなコンピュータにおいては、障害
が発生した後、ロールバックによってＣＰＵとメモリと
が直前のチェックポイントにおける状態に戻って再実行
されるので、ディスクへのライト要求を、次のチェック
ポイントまで到達し、それ以上後戻りすることがなくな
ってから実行している。

【０００５】また、同様に、コンピュータ相互間の通信
処理における送信処理要求も、受信した他のコンピュー
タが直前のチェックポイントにおける状態に戻ることが
できないため、チェックポイントを待ってから実行して
いる。

【０００６】したがって、チェックポイントの間隔が長
いと、前述したＩ／Ｏ処理を遅延させてしまうため、応
答性能を悪化させてしまう。一方、チェックポイントの
間隔を短くすると、チェックポイントの処理が全体の処
理に占める比率が大きくなり、やはり性能が劣化するの
で、あまりチェックポイントの間隔を短くできない。

【０００７】

【発明が解決しようとする課題】このように、チェック
ポイントを定期的に取得しながら処理を続けるコンピュ
ータをネットワークを介して複数台接続して構成される
計算機システムにおいては、たとえば相互にメッセージ
を授受して処理を進めるといった場合に、送信処理の実
行がそれぞれの計算機でのチェックポイントまで待機さ
せられるため、メッセージの送受信が効率的に実行され
ない。

【０００８】たとえば、いま４台の計算機が同一のネッ
トワークシステム上に存在し、これら４台の計算機が、
図８に示したような手順でメッセージの転送を行なって
いるものとする。すなわち、計算機（Ａ）から計算機
（Ｂ）にメッセージが転送されると、このメッセージを
計算機（Ｂ）が加工した後、さらに計算機（Ｃ）に転送
し、同様に計算機（Ｃ）から計算機（Ｄ）へと転送され
た後、最後に計算機（Ｄ）から計算機（Ａ）へ処理結果
となるメッセージが返送されるものとする。また、これ
らの計算機（計算機（Ａ），（Ｂ），（Ｃ），（Ｄ））
は、すべて同時期にチェックポイントを取得しているも
のとする。

【０００９】このシステムにおいて、計算機（Ａ）から
計算機（Ｂ）、計算機（Ｂ）から計算機（Ｃ）、計算機
（Ｃ）から計算機（Ｄ）、および計算機（Ｄ）から計算
機（Ａ）へとデータが転送されていく際の手順を考えて
みると、図９に示すように、計算機（Ａ）が送信要求３
を発行した後（図９の（１））、１回目のチェックポイ
ント２で計算機（Ａ）から計算機（Ｂ）にデータが転送
され（図９の（１）´）、また、計算機（Ｂ）が送信要
求３を発行した後（図９の（２））、２回目のチェック
ポイント２で計算機（Ｂ）から計算機（Ｃ）にデータが
転送される（図９の（２）´）。同様に、計算機（Ｃ）
が送信要求３を発行した後（図９の（３））、３回目の
チェックポイント２で計算機（Ｃ）から計算機（Ｄ）に
データが転送され（図９の（３）´）、さらに計算機
（Ｄ）が送信要求３を発行した後（図９の（４））、４
回目のチェックポイント２で計算機（Ｄ）から計算機
（Ａ）にデータが転送されることになる（図９の（４）
´）。

【００１０】すなわち、計算機（Ａ）が送信要求３を発
行してから計算機（Ｄ）からの応答を受信して処理を完
了させるまでに、４回のチェックポイント２を経ること
になり、かつ、この間の多くの時間がチェックポイント
２の待機に費やされていることを鑑みれば、このチェッ
クポイント２の取得時期によっては、システム全体の通
信処理効率を著しく低下させてしまうこととなる。

【００１１】この発明はこのような実情に鑑みてなされ
たものであり、コンピュータ相互間で発生する通信処理
の効率を飛躍的に向上させることのできるチェックポイ
ント取得時期決定方法を提供することを目的とする。

【００１２】

【課題を解決するための手段】この発明は、複数の計算
機が有機的に結合された計算機ネットワークであって、
前記計算機それぞれが、故障などによって処理が中断さ
れた場合に備え、その中断された処理を再開始するため
のチェックポイントを定期的に取得するチェックポイン
ト取得機能を有してなる計算機ネットワークにおけるチ
ェックポイント取得時期決定方法において、前記複数の
計算機の中の少なくとも一つである第１の計算機は、自
己のチェックポイント取得時刻を他の計算機に通知する
ステップを具備し、前記複数の計算機の中の少なくとも
一つである第２の計算機は、前記第１の計算機が通知す
る前記第１の計算機のチェックポイント取得時刻を受信
するステップと、この受信した前記第１の計算機のチェ
ックポイント取得時刻に基づき、自己のチェックポイン
ト取得時刻を決定するステップとを具備してなることを
特徴とする。

【００１３】この発明においては、たとえば第１の計算
機が第２の計算機に対してメッセージを送信し、第２の
計算機が、受信したメッセージに基づいて処理を行な
い、その処理結果を第１のコンピュータに返送するとい
った場合に、第２の計算機が、たとえば第１の計算機が
取得する２つの連続するチェックポイントの中間点とな
る時刻を自己のチェックポイント取得時期と決定する。
これにより、たとえば第１の計算機と同時期にチェック
ポイントを取得するのと比較して、場合によっては（チ
ェックポイント取得の間隔が第２の計算機のデータ処理
時間と比較して十分に大きい場合など）、第１の計算機
への応答時間を１／２に短縮することができる。

【００１４】この場合、第２の計算機は、第１の計算機
のチェックポイント取得時刻を知得して、自己のチェッ
クポイント取得時刻を決定してもよいし、予め第１およ
び第２の計算機のチェックポイント取得時期を１／２間
隔だけスライドさせて決定しておいてもよい。

【００１５】また、この発明は、第１の計算機が送信し
たメッセージを第２の計算機が受信し加工して第３の計
算機に送信するといった形態で複数の計算機が有機的に
結合された計算機ネットワークであって、前記計算機そ
れぞれが、故障などによって処理が中断された場合に備
え、その中断された処理を再開始するためのチェックポ
イントを定期的に取得するチェックポイント取得機能を
有してなる計算機ネットワークにおけるチェックポイン
ト取得時期決定方法において、前記計算機それぞれは、
他の計算機よりメッセージを受信してから次の計算機へ
のメッセージ送信要求が出されるまでの所要時間を知得
するステップと、この知得した所要時間に基づき、前記
要求が出された直後にチェックポイントを取得するよう
に自己のチェックポイントの取得時刻を決定するステッ
プとを具備してなることを特徴とする。

【００１６】この発明においては、たとえばモニタシス
テムなどによって取得された、各計算機の通信データ処
理時間（他の計算機よりメッセージを受信してから次の
計算機へのメッセージ送信要求が出されるまでの所要時
間など）に基づいて、各計算機のチェックポイントの取
得時刻を決定する。たとえば、メッセージの送信元とな
る他の計算機のチェックポイント取得時刻から、自己の
計算機の通信データ処理時間（マージンを含む）分スラ
イドさせた時刻を自己の計算機のチェックポイントの取
得時刻と決定するなどである。

【００１７】この発明によれば、自己のメッセージ送信
要求を早期に処理することができるため、システム全体
として、通信処理の効率を飛躍的に向上させることが可
能となる。

【００１８】また、この発明は、複数の計算機が有機的
に結合された計算機ネットワークであって、前記計算機
それぞれが、故障などによって処理が中断された場合に
備え、その中断された処理を再開始するためのチェック
ポイントを定期的に取得するチェックポイント取得機能
を有してなる計算機ネットワークにおけるチェックポイ
ント取得時期決定方法において、メッセージの送信経路
によって構成される閉路上に介在するＮ台の計算機それ
ぞれが、予め設定された間隔Ｔで取得するチェックポイ
ントの取得時刻を前記閉路上で隣接する計算機との間で
Ｔ／Ｎ時間またはその整数倍の時間スライドさせて決定
するステップを具備してなることを特徴とする。

【００１９】この発明によれば、メッセージの送信経路
によって構成される閉路上に介在するＮ台の計算機すべ
てが同時期にチェックポイントを取得するのと比較し
て、たとえば応答時間をＴ（チェックポイント取得間
隔）×ＮからＴまたはその整数倍まで短縮することが可
能となる。なお、このチェックポイント取得間隔とスラ
イド幅とは、いずれか一つの計算機が最適値を求めて他
の計算機に通知してもよいし、オペレータによる指示で
あってもよい。

【００２０】このとき、たとえばシステム全体としての
通信出力待ちの要求数が多くなった場合にチェックポイ
ント取得の間隔Ｔを短縮させ、少なくなった場合に伸長
させるといったことを動的に行なうことが好ましく、さ
らにこの間隔Ｔの変化に同期して各計算機で自己のチェ
ックポイント取得時刻のスライド幅を設定し直すといっ
たことを行なうことが好ましい。このような処理を行な
うことにより、一方では、そのときの通信状況に関わら
ず、所定のスループットを確保することができ、他方で
は、チェックポイント取得に費やす労力（オーバーヘッ
ド）を制御できるといった、より柔軟な運用が実現でき
ることになる。

【００２１】

【発明の実施の形態】以下、図面を参照してこの発明の
実施形態を説明する。（第１実施形態）まず、図１乃至図３を参照してこの発
明の第１実施形態を説明する。

【００２２】本実施形態では、計算機（Ａ）および計算
機（Ｂ）の２台の計算機が、チェックポイントを取得し
ながら処理を実行しており、かつこの計算機（Ａ）およ
び計算機（Ｂ）相互間でメッセージの授受が行なわれる
ことを前提とする。そして、このときの計算機（Ａ）お
よび計算機（Ｂ）のチェックポイント取得手順を図１を
参照して説明する。

【００２３】計算機（Ａ）は、チェックポイントを取得
すると（ステップＡ１）、このチェックポイント取得時
刻を計算機（Ｂ）に通知する（ステップＡ２）。一方、
この通知を受け取った計算機（Ｂ）は（ステップＢ
１）、今回受信した計算機（Ａ）のチェックポイント取
得時刻と、前回受信した計算機（Ａ）のチェックポイン
ト取得時刻とから、自己の次回のチェックポイント取得
時刻を算出する（ステップＢ２）。そして、計算機
（Ｂ）は、この算出した時刻が到来したときに、自己の
チェックポイントを取得する（ステップＢ３）。このと
き、たとえば計算機（Ｂ）が、計算機（Ａ）の取得する
２つの連続するチェックポイントの中間点となる時刻を
自己のチェックポイント取得時刻として算出するといっ
た場合の動作原理を図２を参照して説明する。

【００２４】計算機（Ａ）は、チェックポイントを取得
すると（図２の（１））、このチェックポイント取得時
刻を計算機（Ｂ）に通知する（図２の（２））。一方、
この通知を受け取った計算機（Ｂ）は、今回受信した計
算機（Ａ）のチェックポイント取得時刻と、前回受信し
た計算機（Ａ）のチェックポイント取得時刻とから、自
己の次回のチェックポイント取得時刻を算出し、この算
出した時刻が到来したときに、自己のチェックポイント
を取得する（図２の（３））。

【００２５】この算出する時刻は、たとえば今回受信し
た計算機（Ａ）のチェックポイント取得時刻と、前回受
信した計算機（Ａ）のチェックポイント取得時刻との差
を２分して、この求めた時間分だけ今回受信した計算機
（Ａ）のチェックポイント取得時刻からスライドさせた
時刻などでよい。

【００２６】このような手順により決定したチェックポ
イント取得時刻でチェックポイントを取得し続けると、
たとえば図３に示したような効果が生じる。すなわち、
たとえば、図３（ａ）に示したように、計算機（Ａ）が
まず計算機（Ｂ）に対してメッセージを送信し（１）、
計算機（Ｂ）が、この受信したメッセージに基づいて処
理を行なった後、その処理結果を計算機（Ａ）に返送す
る（２）といった場合に、図３（ｂ）に示したように、
計算機（Ａ）と計算機（Ｂ）とが同時期にチェックポイ
ント２を取得したのでは、計算機（Ａ）が送信要求３を
発行した後（１）、１回目のチェックポイント２で計算
機（Ａ）から計算機（Ｂ）にデータが転送され（１）
´、また、計算機（Ｂ）が送信要求３を発行した後
（２）、２回目のチェックポイント２で計算機（Ｂ）か
ら計算機（Ａ）にデータが実際に転送される（２）´と
いったように、２回のチェックポイントを経てしまう。

【００２７】これに対し、図３（ｃ）に示したように、
計算機（Ｂ）が計算機（Ａ）とチェックポイント取得時
刻をスライドさせた場合には、計算機（Ｂ）から計算機
（Ａ）へのデータ転送（２）´が、計算機（Ａ）の次の
チェックポイント取得までの間の中間点（計算機（Ｂ）
のチェックポイント取得時刻）で行なわれることとなる
ため、その通信処理効率を飛躍的に向上させることがで
きる。

【００２８】なお、このスライド幅は、毎回算出しても
よいし、また、最初に算出したスライド幅や所定の期間
中に複数回算出して平均して得たスライド幅を以降で採
用するなどによってもよい。

【００２９】（第２実施形態）次に、図４を参照して第
２実施形態を説明する。第１実施形態と第２実施形態と
の違いは、第２実施形態では、図４（ａ）に示すよう
に、計算機（Ｂ）が計算機（Ａ）から受信したデータを
（１）、さらに計算機（Ｃ）に送信し（２）、同様に計
算機（Ｃ）が計算機（Ｄ）に送信した後（３）、計算機
（Ｄ）から計算機（Ａ）に返送されるといった（４）、
送信経路によって構成される閉路に着目したという点に
ある。

【００３０】また、本実施形態の計算機（Ａ）は、チェ
ックポイントを取得すると、そのチェックポイント取得
時刻を計算機（Ｂ）のみならず、計算機（Ｃ）および計
算機（Ｄ）にも通知する。

【００３１】一方、この通知を受けた計算機（Ｂ），
（Ｃ），（Ｄ）は、それぞれ今回受信した計算機（Ａ）
のチェックポイント取得時刻と、前回受信した計算機
（Ａ）のチェックポイント取得時刻とから、自己の次回
のチェックポイント取得時刻を以下に示すように算出す
る。（１）計算機（Ｂ）今回受信した計算機（Ａ）のチェックポイント取得時刻
と、前回受信した計算機（Ａ）のチェックポイント取得
時刻との差を１／４し、この求めた時間分だけ今回受信
した計算機（Ａ）のチェックポイント取得時刻からスラ
イドさせた時刻を自己のチェックポイント取得時刻とす
る。（２）計算機（Ｃ）今回受信した計算機（Ａ）のチェックポイント取得時刻
と、前回受信した計算機（Ａ）のチェックポイント取得
時刻との差を１／２し、この求めた時間分だけ今回受信
した計算機（Ａ）のチェックポイント取得時刻からスラ
イドさせた時刻を自己のチェックポイント取得時刻とす
る。（３）計算機（Ｄ）今回受信した計算機（Ａ）のチェックポイント取得時刻
と、前回受信した計算機（Ａ）のチェックポイント取得
時刻との差を３／４し、この求めた時間分だけ今回受信
した計算機（Ａ）のチェックポイント取得時刻からスラ
イドさせた時刻を自己のチェックポイント取得時刻とす
る。

【００３２】このように決定したチェックポイント取得
時刻でチェックポイントを取得し続けると、たとえば図
４（ｂ）に示したような効果が生じる。すなわち、計算
機（Ａ），（Ｂ），（Ｃ），（Ｄ）が同時期にチェック
ポイント２を取得した場合、計算機（Ａ）は、送信要求
を発行した後、チェックポイントを４回経なければ、デ
ータを返送されないが、前述したスライド幅でそれぞれ
がチェックポイント取得時刻をスライドさせれば、計算
機（Ａ）は、次回のチェックポイントを経ずに返送デー
タを受信することができる。

【００３３】なお、これら計算機それぞれの受信データ
に対する処理が、前述のように算出したスライド幅の時
間内で完了しないような場合には、この閉路上の計算機
すべてが算出したスライド幅の整数倍の時間で自己のチ
ェックポイント取得時刻をスライドさせるように設定す
る。この場合であっても、同時期にチェックポイントを
取得した場合と比較して、通信処理効率を飛躍的に向上
させることに変わりはない。

【００３４】また、たとえば計算機（Ａ）が、計算機全
体における通信出力待ちの要求数が第１の値を上回った
ときにチェックポイント取得の間隔を短縮させ、第２の
値を下回ったときに伸長させるといったことを行なえ
ば、この計算機（Ａ）からの通知を基に自己のチェック
ポイント取得時刻を決定する計算機（Ｂ），（Ｃ），
（Ｄ）のチェックポイント取得間隔もこの変更に同期し
て更新される。

【００３５】これによって、通信状況に関わらず、所定
のスループットを確保することができ、一方では、チェ
ックポイント取得に費やす労力（オーバーヘッド）を制
御できることとなり、より柔軟な運用が実現できること
になる。

【００３６】なお、本実施形態においても、第１実施形
態と同様、スライド幅を毎回算出してもよいし、また、
最初に算出したスライド幅や所定の期間中に複数回算出
して平均して得たスライド幅を以降で採用するなどによ
ってもよい。

【００３７】（第３実施形態）次に、図５乃至図７を参
照してこの発明の第３実施形態を説明する。第１および
第２実施形態と、第３実施形態との違いは、第３実施形
態では、自己のチェックポイント取得時刻を計算機
（Ａ）からの通知のみにより決定するのではなく、自己
の通信処理時間（メッセージを受信してから他の計算機
へのメッセージ送信要求が出されるまでの所要時間な
ど）を加味して決定する点にある。

【００３８】ここでは、計算機（Ａ）および計算機
（Ｂ）間でのチェックポイント取得手順を図５を参照し
て説明する。計算機（Ａ）は、チェックポイントを取得
すると（ステップＣ１）、このチェックポイント取得時
刻を計算機（Ｂ）に通知する（ステップＣ２）。一方、
この通知を受け取った計算機（Ｂ）は（ステップＤ
１）、この受信した計算機（Ａ）のチェックポイント取
得時刻と、予め設定された遅延時間（スライド幅）とか
ら、自己の次回のチェックポイント取得時刻を算出する
（ステップＤ２）。そして、計算機（Ｂ）は、この算出
した時刻が到来したときに、自己のチェックポイントを
取得する（ステップＤ３）。

【００３９】この遅延時間は、たとえばモニタシステム
などによって取得された、自己の通信データ処理時間に
マージンを付加した時間とし、通知を受けてからこの時
間分スライドさせた時刻を自己のチェックポイント取得
時刻として算出する。このときの動作原理を図６を参照
して説明する。

【００４０】計算機（Ａ）は、チェックポイントを取得
すると（図６の（１））、このチェックポイント取得時
刻を計算機（Ｂ）に通知する（図６の（２））。一方、
この通知を受け取った計算機（Ｂ）は、この受信した計
算機（Ａ）のチェックポイント取得時刻と、予め設定さ
れた遅延時間（スライド幅）とから、自己の次回のチェ
ックポイント取得時刻を算出し、この算出した時刻が到
来したときに、自己のチェックポイントを取得する（図
６の（３））。

【００４１】このような手順により決定したチェックポ
イント取得時刻でチェックポイントを取得し続けると、
自己のメッセージ送信要求を早期に処理することができ
ることになり、システム全体として、通信処理の効率を
飛躍的に向上させることが可能となる。

【００４２】また、たとえば、図７（ａ）に示したよう
に、計算機（Ｂ）が計算機（Ａ）から受信したデータを
（１）、さらに計算機（Ｃ）に送信し（２）、同様に計
算機（Ｃ）が計算機（Ｄ）に送信した後（３）、計算機
（Ｄ）から計算機（Ａ）に返送されるといった（４）、
送信経路によって閉路が構成されている場合であって
も、各計算機は、自己のメッセージ送信要求を早期に処
理することができるため、図７（ｂ）に示すように、同
時期にチェックポイントを取得した場合と比較して（４
回のチェックポイント取得を待機）、通信処理効率を飛
躍的に向上させることができる。

【００４３】

【発明の効果】以上詳述したように、この発明によれ
ば、同一ネットワーク上に存在する計算機それぞれが、
チェックポイントの取得時刻を他の計算機と適切な時間
幅でスライドさせて決定するために、計算機相互間で発
生する通信処理の効率を飛躍的に向上させることが可能
となる。

【００４４】また、そのときの通信状況に応じてチェッ
クポイントの取得間隔を更新するため、通信状況に関わ
らず、所定のスループットを確保することができ、か
つ、チェックポイント取得に費やす労力（オーバーヘッ
ド）を制御できるといった、より柔軟な運用が実現でき
ることになる。

【図面の簡単な説明】

【図１】この発明の第１実施形態に係るチェックポイン
ト取得手順を説明するためのフローチャート。

【図２】この発明の第１実施形態に係るチェックポイン
ト取得原理を説明するための概念図。

【図３】この発明の第１実施形態の効果を説明するため
の概念図。

【図４】この発明の第２実施形態に係るチェックポイン
ト取得原理を説明するための概念図。

【図５】この発明の第３実施形態に係るチェックポイン
ト取得手順を説明するためのフローチャート。

【図６】この発明の第３実施形態に係るチェックポイン
ト取得原理を説明するための概念図。

【図７】この発明の第３実施形態の効果を説明するため
の概念図。

【図８】従来のチェックポイント取得原理を説明するた
めの概念図。

【図９】従来のチェックポイント取得原理を説明するた
めの概念図。

【符号の説明】

１…計算機、２…チェックポイント（ＣＰ）、３…送信
要求。

Claims

【特許請求の範囲】

【請求項１】複数の計算機が有機的に結合された計算
機ネットワークであって、前記計算機それぞれが、故障
などによって処理が中断された場合に備え、その中断さ
れた処理を再開始するためのチェックポイントを定期的
に取得するチェックポイント取得機能を有してなる計算
機ネットワークにおけるチェックポイント取得時期決定
方法において、前記複数の計算機の中の少なくとも一つである第１の計
算機は、自己のチェックポイント取得時刻を他の計算機
に通知するステップを具備し、前記複数の計算機の中の少なくとも一つである第２の計
算機は、前記第１の計算機が通知する前記第１の計算機
のチェックポイント取得時刻を受信するステップと、こ
の受信した前記第１の計算機のチェックポイント取得時
刻に基づき、自己のチェックポイント取得時刻を決定す
るステップとを具備してなることを特徴とする計算機ネ
ットワークにおけるチェックポイント取得時期決定方
法。
【請求項２】前記第２の計算機は、前記第１の計算機
が取得する２つの連続するチェックポイントの中間点と
なる時刻を前記受信した前記第１の計算機のチェックポ
イント取得時刻から算出するステップをさらに具備し、
この算出した中間点となる時刻を自己のチェックポイン
ト取得時刻として決定することを特徴とする請求項１記
載のチェックポイント取得時期決定方法。
【請求項３】複数の計算機が有機的に結合された計算
機ネットワークであって、前記計算機それぞれが、故障
などによって処理が中断された場合に備え、その中断さ
れた処理を再開始するためのチェックポイントを定期的
に取得するチェックポイント取得機能を有してなる計算
機ネットワークにおけるチェックポイント取得時期決定
方法において、前記複数の計算機の中の少なくとも一つである第１の計
算機は、予め設定された間隔Ｔでチェックポイント取得
時刻を決定するステップを具備し、前記複数の計算機の中の少なくとも一つである第２の計
算機は、予め設定された間隔Ｔで前記第１の計算機のチ
ェックポイント取得時刻からＴ／２時間スライドさせた
時刻を自己のチェックポイント取得時刻に決定するステ
ップを具備してなることを特徴とする計算機ネットワー
クにおけるチェックポイント取得時期決定方法。
【請求項４】第１の計算機が送信したメッセージを第
２の計算機が受信し加工して第３の計算機に送信すると
いった形態で複数の計算機が有機的に結合された計算機
ネットワークであって、前記計算機それぞれが、故障な
どによって処理が中断された場合に備え、その中断され
た処理を再開始するためのチェックポイントを定期的に
取得するチェックポイント取得機能を有してなる計算機
ネットワークにおけるチェックポイント取得時期決定方
法において、前記計算機それぞれは、他の計算機よりメッセージを受
信してから次の計算機へのメッセージ送信要求が出され
るまでの所要時間を知得するステップと、この知得した
所要時間に基づき、前記要求が出された直後にチェック
ポイントを取得するように自己のチェックポイントの取
得時刻を決定するステップとを具備してなることを特徴
とするチェックポイント取得時期決定方法。
【請求項５】複数の計算機が有機的に結合された計算
機ネットワークであって、前記計算機それぞれが、故障
などによって処理が中断された場合に備え、その中断さ
れた処理を再開始するためのチェックポイントを定期的
に取得するチェックポイント取得機能を有してなる計算
機ネットワークにおけるチェックポイント取得時期決定
方法において、メッセージの送信経路によって構成される閉路上に介在
するＮ台の計算機それぞれが、予め設定された間隔Ｔで
取得するチェックポイントの取得時刻を前記閉路上で隣
接する計算機との間でＴ／Ｎ時間またはその整数倍の時
間スライドさせて決定するステップを具備してなること
を特徴とするチェックポイント取得時期決定方法。
【請求項６】前記閉路上に介在する計算機それそれ
が、チェックポイント取得間隔Ｔが変化したときに、前
記閉路上で隣接する計算機との間のチェックポイント取
得時刻のスライド幅を設定し直すステップをさらに具備
してなることを特徴とする請求項５記載のチェックポイ
ント取得時期決定方法。
【請求項７】前記閉路上に介在する計算機の少なくと
も一つは、前記計算機ネットワーク上の計算機全体にお
ける通信出力待ちの要求数が第１の値を上回ったときに
チェックポイント取得の間隔Ｔを短縮させ、第２の値を
下回ったときに伸長させるステップをさらに具備してな
ることを特徴とする請求項６記載のチェックポイント取
得時期決定方法。