JPH09204318A - 計算機ネットワークにおけるチェックポイント取得時期決定方法 - Google Patents

計算機ネットワークにおけるチェックポイント取得時期決定方法

Info

Publication number
JPH09204318A
JPH09204318A JP8013036A JP1303696A JPH09204318A JP H09204318 A JPH09204318 A JP H09204318A JP 8013036 A JP8013036 A JP 8013036A JP 1303696 A JP1303696 A JP 1303696A JP H09204318 A JPH09204318 A JP H09204318A
Authority
JP
Japan
Prior art keywords
computer
checkpoint
time
computers
checkpoint acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8013036A
Other languages
English (en)
Inventor
Yasuko Horiuchi
谷州子 堀内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP8013036A priority Critical patent/JPH09204318A/ja
Publication of JPH09204318A publication Critical patent/JPH09204318A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】フォールトトレラントコンピュータ相互間で発
生する通信処理の効率を飛躍的に向上させるチェックポ
イント取得時期決定方法を提供する。 【解決手段】計算機(A)は、自己のチェックポイント
取得時刻を計算機(B)に通知するステップ(ステップ
A2)を具備し、計算機(B)は、計算機(A)が通知
する計算機(A)のチェックポイント取得時刻を受信す
るステップ(ステップB1)と、この受信した計算機
(A)のチェックポイント取得時刻に基づいて、自己の
チェックポイント取得時刻を決定するステップ(ステッ
プB2)とを具備してなる。これにより双方のチェック
ポイントの取得時刻を適切な時間幅でスライドさせるこ
とができるため、計算機相互間で発生する通信処理の効
率を飛躍的に向上させることが可能となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、たとえばチェッ
クポイントリスタート機能を有するフォールトトレラン
トコンピュータを複数台接続してなる計算機ネットワー
クに適用して好適なチェックポイント取得時期決定方法
に係り、特にこのフォールトトレラントコンピュータ相
互間で発生する通信処理の効率を飛躍的に向上させるこ
とのできるチェックポイント取得時期決定方法に関す
る。
【0002】
【従来の技術】近年、コンピュータ技術と通信技術の発
展は目覚ましく、コンピュータを有機的に結合させた様
々な形態の分散処理システムが構築されてきている。ま
た、これらの技術の発展に伴なって、信頼性に対する要
求も高くなってきており、分散処理システムを複数のフ
ォールトトレラントコンピュータで構成するといったこ
とが行なわれてきている。
【0003】このようなフォールトトレラントコンピュ
ータの中には、プロセッサがキャッシュ内のデータを定
期的に主記憶装置に書き戻しておき(チェックポイン
ト)、障害が発生したときに、直前に書き戻されたキャ
ッシュの状態から、そのプロセッサ上で実行中であった
プロセスを再起動する(ロールバック)といった特徴を
もつものがある。
【0004】このようなコンピュータにおいては、障害
が発生した後、ロールバックによってCPUとメモリと
が直前のチェックポイントにおける状態に戻って再実行
されるので、ディスクへのライト要求を、次のチェック
ポイントまで到達し、それ以上後戻りすることがなくな
ってから実行している。
【0005】また、同様に、コンピュータ相互間の通信
処理における送信処理要求も、受信した他のコンピュー
タが直前のチェックポイントにおける状態に戻ることが
できないため、チェックポイントを待ってから実行して
いる。
【0006】したがって、チェックポイントの間隔が長
いと、前述したI/O処理を遅延させてしまうため、応
答性能を悪化させてしまう。一方、チェックポイントの
間隔を短くすると、チェックポイントの処理が全体の処
理に占める比率が大きくなり、やはり性能が劣化するの
で、あまりチェックポイントの間隔を短くできない。
【0007】
【発明が解決しようとする課題】このように、チェック
ポイントを定期的に取得しながら処理を続けるコンピュ
ータをネットワークを介して複数台接続して構成される
計算機システムにおいては、たとえば相互にメッセージ
を授受して処理を進めるといった場合に、送信処理の実
行がそれぞれの計算機でのチェックポイントまで待機さ
せられるため、メッセージの送受信が効率的に実行され
ない。
【0008】たとえば、いま4台の計算機が同一のネッ
トワークシステム上に存在し、これら4台の計算機が、
図8に示したような手順でメッセージの転送を行なって
いるものとする。すなわち、計算機(A)から計算機
(B)にメッセージが転送されると、このメッセージを
計算機(B)が加工した後、さらに計算機(C)に転送
し、同様に計算機(C)から計算機(D)へと転送され
た後、最後に計算機(D)から計算機(A)へ処理結果
となるメッセージが返送されるものとする。また、これ
らの計算機(計算機(A),(B),(C),(D))
は、すべて同時期にチェックポイントを取得しているも
のとする。
【0009】このシステムにおいて、計算機(A)から
計算機(B)、計算機(B)から計算機(C)、計算機
(C)から計算機(D)、および計算機(D)から計算
機(A)へとデータが転送されていく際の手順を考えて
みると、図9に示すように、計算機(A)が送信要求3
を発行した後(図9の(1))、1回目のチェックポイ
ント2で計算機(A)から計算機(B)にデータが転送
され(図9の(1)´)、また、計算機(B)が送信要
求3を発行した後(図9の(2))、2回目のチェック
ポイント2で計算機(B)から計算機(C)にデータが
転送される(図9の(2)´)。同様に、計算機(C)
が送信要求3を発行した後(図9の(3))、3回目の
チェックポイント2で計算機(C)から計算機(D)に
データが転送され(図9の(3)´)、さらに計算機
(D)が送信要求3を発行した後(図9の(4))、4
回目のチェックポイント2で計算機(D)から計算機
(A)にデータが転送されることになる(図9の(4)
´)。
【0010】すなわち、計算機(A)が送信要求3を発
行してから計算機(D)からの応答を受信して処理を完
了させるまでに、4回のチェックポイント2を経ること
になり、かつ、この間の多くの時間がチェックポイント
2の待機に費やされていることを鑑みれば、このチェッ
クポイント2の取得時期によっては、システム全体の通
信処理効率を著しく低下させてしまうこととなる。
【0011】この発明はこのような実情に鑑みてなされ
たものであり、コンピュータ相互間で発生する通信処理
の効率を飛躍的に向上させることのできるチェックポイ
ント取得時期決定方法を提供することを目的とする。
【0012】
【課題を解決するための手段】この発明は、複数の計算
機が有機的に結合された計算機ネットワークであって、
前記計算機それぞれが、故障などによって処理が中断さ
れた場合に備え、その中断された処理を再開始するため
のチェックポイントを定期的に取得するチェックポイン
ト取得機能を有してなる計算機ネットワークにおけるチ
ェックポイント取得時期決定方法において、前記複数の
計算機の中の少なくとも一つである第1の計算機は、自
己のチェックポイント取得時刻を他の計算機に通知する
ステップを具備し、前記複数の計算機の中の少なくとも
一つである第2の計算機は、前記第1の計算機が通知す
る前記第1の計算機のチェックポイント取得時刻を受信
するステップと、この受信した前記第1の計算機のチェ
ックポイント取得時刻に基づき、自己のチェックポイン
ト取得時刻を決定するステップとを具備してなることを
特徴とする。
【0013】この発明においては、たとえば第1の計算
機が第2の計算機に対してメッセージを送信し、第2の
計算機が、受信したメッセージに基づいて処理を行な
い、その処理結果を第1のコンピュータに返送するとい
った場合に、第2の計算機が、たとえば第1の計算機が
取得する2つの連続するチェックポイントの中間点とな
る時刻を自己のチェックポイント取得時期と決定する。
これにより、たとえば第1の計算機と同時期にチェック
ポイントを取得するのと比較して、場合によっては(チ
ェックポイント取得の間隔が第2の計算機のデータ処理
時間と比較して十分に大きい場合など)、第1の計算機
への応答時間を1/2に短縮することができる。
【0014】この場合、第2の計算機は、第1の計算機
のチェックポイント取得時刻を知得して、自己のチェッ
クポイント取得時刻を決定してもよいし、予め第1およ
び第2の計算機のチェックポイント取得時期を1/2間
隔だけスライドさせて決定しておいてもよい。
【0015】また、この発明は、第1の計算機が送信し
たメッセージを第2の計算機が受信し加工して第3の計
算機に送信するといった形態で複数の計算機が有機的に
結合された計算機ネットワークであって、前記計算機そ
れぞれが、故障などによって処理が中断された場合に備
え、その中断された処理を再開始するためのチェックポ
イントを定期的に取得するチェックポイント取得機能を
有してなる計算機ネットワークにおけるチェックポイン
ト取得時期決定方法において、前記計算機それぞれは、
他の計算機よりメッセージを受信してから次の計算機へ
のメッセージ送信要求が出されるまでの所要時間を知得
するステップと、この知得した所要時間に基づき、前記
要求が出された直後にチェックポイントを取得するよう
に自己のチェックポイントの取得時刻を決定するステッ
プとを具備してなることを特徴とする。
【0016】この発明においては、たとえばモニタシス
テムなどによって取得された、各計算機の通信データ処
理時間(他の計算機よりメッセージを受信してから次の
計算機へのメッセージ送信要求が出されるまでの所要時
間など)に基づいて、各計算機のチェックポイントの取
得時刻を決定する。たとえば、メッセージの送信元とな
る他の計算機のチェックポイント取得時刻から、自己の
計算機の通信データ処理時間(マージンを含む)分スラ
イドさせた時刻を自己の計算機のチェックポイントの取
得時刻と決定するなどである。
【0017】この発明によれば、自己のメッセージ送信
要求を早期に処理することができるため、システム全体
として、通信処理の効率を飛躍的に向上させることが可
能となる。
【0018】また、この発明は、複数の計算機が有機的
に結合された計算機ネットワークであって、前記計算機
それぞれが、故障などによって処理が中断された場合に
備え、その中断された処理を再開始するためのチェック
ポイントを定期的に取得するチェックポイント取得機能
を有してなる計算機ネットワークにおけるチェックポイ
ント取得時期決定方法において、メッセージの送信経路
によって構成される閉路上に介在するN台の計算機それ
ぞれが、予め設定された間隔Tで取得するチェックポイ
ントの取得時刻を前記閉路上で隣接する計算機との間で
T/N時間またはその整数倍の時間スライドさせて決定
するステップを具備してなることを特徴とする。
【0019】この発明によれば、メッセージの送信経路
によって構成される閉路上に介在するN台の計算機すべ
てが同時期にチェックポイントを取得するのと比較し
て、たとえば応答時間をT(チェックポイント取得間
隔)×NからTまたはその整数倍まで短縮することが可
能となる。なお、このチェックポイント取得間隔とスラ
イド幅とは、いずれか一つの計算機が最適値を求めて他
の計算機に通知してもよいし、オペレータによる指示で
あってもよい。
【0020】このとき、たとえばシステム全体としての
通信出力待ちの要求数が多くなった場合にチェックポイ
ント取得の間隔Tを短縮させ、少なくなった場合に伸長
させるといったことを動的に行なうことが好ましく、さ
らにこの間隔Tの変化に同期して各計算機で自己のチェ
ックポイント取得時刻のスライド幅を設定し直すといっ
たことを行なうことが好ましい。このような処理を行な
うことにより、一方では、そのときの通信状況に関わら
ず、所定のスループットを確保することができ、他方で
は、チェックポイント取得に費やす労力(オーバーヘッ
ド)を制御できるといった、より柔軟な運用が実現でき
ることになる。
【0021】
【発明の実施の形態】以下、図面を参照してこの発明の
実施形態を説明する。 (第1実施形態)まず、図1乃至図3を参照してこの発
明の第1実施形態を説明する。
【0022】本実施形態では、計算機(A)および計算
機(B)の2台の計算機が、チェックポイントを取得し
ながら処理を実行しており、かつこの計算機(A)およ
び計算機(B)相互間でメッセージの授受が行なわれる
ことを前提とする。そして、このときの計算機(A)お
よび計算機(B)のチェックポイント取得手順を図1を
参照して説明する。
【0023】計算機(A)は、チェックポイントを取得
すると(ステップA1)、このチェックポイント取得時
刻を計算機(B)に通知する(ステップA2)。一方、
この通知を受け取った計算機(B)は(ステップB
1)、今回受信した計算機(A)のチェックポイント取
得時刻と、前回受信した計算機(A)のチェックポイン
ト取得時刻とから、自己の次回のチェックポイント取得
時刻を算出する(ステップB2)。そして、計算機
(B)は、この算出した時刻が到来したときに、自己の
チェックポイントを取得する(ステップB3)。このと
き、たとえば計算機(B)が、計算機(A)の取得する
2つの連続するチェックポイントの中間点となる時刻を
自己のチェックポイント取得時刻として算出するといっ
た場合の動作原理を図2を参照して説明する。
【0024】計算機(A)は、チェックポイントを取得
すると(図2の(1))、このチェックポイント取得時
刻を計算機(B)に通知する(図2の(2))。一方、
この通知を受け取った計算機(B)は、今回受信した計
算機(A)のチェックポイント取得時刻と、前回受信し
た計算機(A)のチェックポイント取得時刻とから、自
己の次回のチェックポイント取得時刻を算出し、この算
出した時刻が到来したときに、自己のチェックポイント
を取得する(図2の(3))。
【0025】この算出する時刻は、たとえば今回受信し
た計算機(A)のチェックポイント取得時刻と、前回受
信した計算機(A)のチェックポイント取得時刻との差
を2分して、この求めた時間分だけ今回受信した計算機
(A)のチェックポイント取得時刻からスライドさせた
時刻などでよい。
【0026】このような手順により決定したチェックポ
イント取得時刻でチェックポイントを取得し続けると、
たとえば図3に示したような効果が生じる。すなわち、
たとえば、図3(a)に示したように、計算機(A)が
まず計算機(B)に対してメッセージを送信し(1)、
計算機(B)が、この受信したメッセージに基づいて処
理を行なった後、その処理結果を計算機(A)に返送す
る(2)といった場合に、図3(b)に示したように、
計算機(A)と計算機(B)とが同時期にチェックポイ
ント2を取得したのでは、計算機(A)が送信要求3を
発行した後(1)、1回目のチェックポイント2で計算
機(A)から計算機(B)にデータが転送され(1)
´、また、計算機(B)が送信要求3を発行した後
(2)、2回目のチェックポイント2で計算機(B)か
ら計算機(A)にデータが実際に転送される(2)´と
いったように、2回のチェックポイントを経てしまう。
【0027】これに対し、図3(c)に示したように、
計算機(B)が計算機(A)とチェックポイント取得時
刻をスライドさせた場合には、計算機(B)から計算機
(A)へのデータ転送(2)´が、計算機(A)の次の
チェックポイント取得までの間の中間点(計算機(B)
のチェックポイント取得時刻)で行なわれることとなる
ため、その通信処理効率を飛躍的に向上させることがで
きる。
【0028】なお、このスライド幅は、毎回算出しても
よいし、また、最初に算出したスライド幅や所定の期間
中に複数回算出して平均して得たスライド幅を以降で採
用するなどによってもよい。
【0029】(第2実施形態)次に、図4を参照して第
2実施形態を説明する。第1実施形態と第2実施形態と
の違いは、第2実施形態では、図4(a)に示すよう
に、計算機(B)が計算機(A)から受信したデータを
(1)、さらに計算機(C)に送信し(2)、同様に計
算機(C)が計算機(D)に送信した後(3)、計算機
(D)から計算機(A)に返送されるといった(4)、
送信経路によって構成される閉路に着目したという点に
ある。
【0030】また、本実施形態の計算機(A)は、チェ
ックポイントを取得すると、そのチェックポイント取得
時刻を計算機(B)のみならず、計算機(C)および計
算機(D)にも通知する。
【0031】一方、この通知を受けた計算機(B),
(C),(D)は、それぞれ今回受信した計算機(A)
のチェックポイント取得時刻と、前回受信した計算機
(A)のチェックポイント取得時刻とから、自己の次回
のチェックポイント取得時刻を以下に示すように算出す
る。 (1)計算機(B) 今回受信した計算機(A)のチェックポイント取得時刻
と、前回受信した計算機(A)のチェックポイント取得
時刻との差を1/4し、この求めた時間分だけ今回受信
した計算機(A)のチェックポイント取得時刻からスラ
イドさせた時刻を自己のチェックポイント取得時刻とす
る。 (2)計算機(C) 今回受信した計算機(A)のチェックポイント取得時刻
と、前回受信した計算機(A)のチェックポイント取得
時刻との差を1/2し、この求めた時間分だけ今回受信
した計算機(A)のチェックポイント取得時刻からスラ
イドさせた時刻を自己のチェックポイント取得時刻とす
る。 (3)計算機(D) 今回受信した計算機(A)のチェックポイント取得時刻
と、前回受信した計算機(A)のチェックポイント取得
時刻との差を3/4し、この求めた時間分だけ今回受信
した計算機(A)のチェックポイント取得時刻からスラ
イドさせた時刻を自己のチェックポイント取得時刻とす
る。
【0032】このように決定したチェックポイント取得
時刻でチェックポイントを取得し続けると、たとえば図
4(b)に示したような効果が生じる。すなわち、計算
機(A),(B),(C),(D)が同時期にチェック
ポイント2を取得した場合、計算機(A)は、送信要求
を発行した後、チェックポイントを4回経なければ、デ
ータを返送されないが、前述したスライド幅でそれぞれ
がチェックポイント取得時刻をスライドさせれば、計算
機(A)は、次回のチェックポイントを経ずに返送デー
タを受信することができる。
【0033】なお、これら計算機それぞれの受信データ
に対する処理が、前述のように算出したスライド幅の時
間内で完了しないような場合には、この閉路上の計算機
すべてが算出したスライド幅の整数倍の時間で自己のチ
ェックポイント取得時刻をスライドさせるように設定す
る。この場合であっても、同時期にチェックポイントを
取得した場合と比較して、通信処理効率を飛躍的に向上
させることに変わりはない。
【0034】また、たとえば計算機(A)が、計算機全
体における通信出力待ちの要求数が第1の値を上回った
ときにチェックポイント取得の間隔を短縮させ、第2の
値を下回ったときに伸長させるといったことを行なえ
ば、この計算機(A)からの通知を基に自己のチェック
ポイント取得時刻を決定する計算機(B),(C),
(D)のチェックポイント取得間隔もこの変更に同期し
て更新される。
【0035】これによって、通信状況に関わらず、所定
のスループットを確保することができ、一方では、チェ
ックポイント取得に費やす労力(オーバーヘッド)を制
御できることとなり、より柔軟な運用が実現できること
になる。
【0036】なお、本実施形態においても、第1実施形
態と同様、スライド幅を毎回算出してもよいし、また、
最初に算出したスライド幅や所定の期間中に複数回算出
して平均して得たスライド幅を以降で採用するなどによ
ってもよい。
【0037】(第3実施形態)次に、図5乃至図7を参
照してこの発明の第3実施形態を説明する。第1および
第2実施形態と、第3実施形態との違いは、第3実施形
態では、自己のチェックポイント取得時刻を計算機
(A)からの通知のみにより決定するのではなく、自己
の通信処理時間(メッセージを受信してから他の計算機
へのメッセージ送信要求が出されるまでの所要時間な
ど)を加味して決定する点にある。
【0038】ここでは、計算機(A)および計算機
(B)間でのチェックポイント取得手順を図5を参照し
て説明する。計算機(A)は、チェックポイントを取得
すると(ステップC1)、このチェックポイント取得時
刻を計算機(B)に通知する(ステップC2)。一方、
この通知を受け取った計算機(B)は(ステップD
1)、この受信した計算機(A)のチェックポイント取
得時刻と、予め設定された遅延時間(スライド幅)とか
ら、自己の次回のチェックポイント取得時刻を算出する
(ステップD2)。そして、計算機(B)は、この算出
した時刻が到来したときに、自己のチェックポイントを
取得する(ステップD3)。
【0039】この遅延時間は、たとえばモニタシステム
などによって取得された、自己の通信データ処理時間に
マージンを付加した時間とし、通知を受けてからこの時
間分スライドさせた時刻を自己のチェックポイント取得
時刻として算出する。このときの動作原理を図6を参照
して説明する。
【0040】計算機(A)は、チェックポイントを取得
すると(図6の(1))、このチェックポイント取得時
刻を計算機(B)に通知する(図6の(2))。一方、
この通知を受け取った計算機(B)は、この受信した計
算機(A)のチェックポイント取得時刻と、予め設定さ
れた遅延時間(スライド幅)とから、自己の次回のチェ
ックポイント取得時刻を算出し、この算出した時刻が到
来したときに、自己のチェックポイントを取得する(図
6の(3))。
【0041】このような手順により決定したチェックポ
イント取得時刻でチェックポイントを取得し続けると、
自己のメッセージ送信要求を早期に処理することができ
ることになり、システム全体として、通信処理の効率を
飛躍的に向上させることが可能となる。
【0042】また、たとえば、図7(a)に示したよう
に、計算機(B)が計算機(A)から受信したデータを
(1)、さらに計算機(C)に送信し(2)、同様に計
算機(C)が計算機(D)に送信した後(3)、計算機
(D)から計算機(A)に返送されるといった(4)、
送信経路によって閉路が構成されている場合であって
も、各計算機は、自己のメッセージ送信要求を早期に処
理することができるため、図7(b)に示すように、同
時期にチェックポイントを取得した場合と比較して(4
回のチェックポイント取得を待機)、通信処理効率を飛
躍的に向上させることができる。
【0043】
【発明の効果】以上詳述したように、この発明によれ
ば、同一ネットワーク上に存在する計算機それぞれが、
チェックポイントの取得時刻を他の計算機と適切な時間
幅でスライドさせて決定するために、計算機相互間で発
生する通信処理の効率を飛躍的に向上させることが可能
となる。
【0044】また、そのときの通信状況に応じてチェッ
クポイントの取得間隔を更新するため、通信状況に関わ
らず、所定のスループットを確保することができ、か
つ、チェックポイント取得に費やす労力(オーバーヘッ
ド)を制御できるといった、より柔軟な運用が実現でき
ることになる。
【図面の簡単な説明】
【図1】この発明の第1実施形態に係るチェックポイン
ト取得手順を説明するためのフローチャート。
【図2】この発明の第1実施形態に係るチェックポイン
ト取得原理を説明するための概念図。
【図3】この発明の第1実施形態の効果を説明するため
の概念図。
【図4】この発明の第2実施形態に係るチェックポイン
ト取得原理を説明するための概念図。
【図5】この発明の第3実施形態に係るチェックポイン
ト取得手順を説明するためのフローチャート。
【図6】この発明の第3実施形態に係るチェックポイン
ト取得原理を説明するための概念図。
【図7】この発明の第3実施形態の効果を説明するため
の概念図。
【図8】従来のチェックポイント取得原理を説明するた
めの概念図。
【図9】従来のチェックポイント取得原理を説明するた
めの概念図。
【符号の説明】
1…計算機、2…チェックポイント(CP)、3…送信
要求。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 複数の計算機が有機的に結合された計算
    機ネットワークであって、前記計算機それぞれが、故障
    などによって処理が中断された場合に備え、その中断さ
    れた処理を再開始するためのチェックポイントを定期的
    に取得するチェックポイント取得機能を有してなる計算
    機ネットワークにおけるチェックポイント取得時期決定
    方法において、 前記複数の計算機の中の少なくとも一つである第1の計
    算機は、自己のチェックポイント取得時刻を他の計算機
    に通知するステップを具備し、 前記複数の計算機の中の少なくとも一つである第2の計
    算機は、前記第1の計算機が通知する前記第1の計算機
    のチェックポイント取得時刻を受信するステップと、こ
    の受信した前記第1の計算機のチェックポイント取得時
    刻に基づき、自己のチェックポイント取得時刻を決定す
    るステップとを具備してなることを特徴とする計算機ネ
    ットワークにおけるチェックポイント取得時期決定方
    法。
  2. 【請求項2】 前記第2の計算機は、前記第1の計算機
    が取得する2つの連続するチェックポイントの中間点と
    なる時刻を前記受信した前記第1の計算機のチェックポ
    イント取得時刻から算出するステップをさらに具備し、
    この算出した中間点となる時刻を自己のチェックポイン
    ト取得時刻として決定することを特徴とする請求項1記
    載のチェックポイント取得時期決定方法。
  3. 【請求項3】 複数の計算機が有機的に結合された計算
    機ネットワークであって、前記計算機それぞれが、故障
    などによって処理が中断された場合に備え、その中断さ
    れた処理を再開始するためのチェックポイントを定期的
    に取得するチェックポイント取得機能を有してなる計算
    機ネットワークにおけるチェックポイント取得時期決定
    方法において、 前記複数の計算機の中の少なくとも一つである第1の計
    算機は、予め設定された間隔Tでチェックポイント取得
    時刻を決定するステップを具備し、 前記複数の計算機の中の少なくとも一つである第2の計
    算機は、予め設定された間隔Tで前記第1の計算機のチ
    ェックポイント取得時刻からT/2時間スライドさせた
    時刻を自己のチェックポイント取得時刻に決定するステ
    ップを具備してなることを特徴とする計算機ネットワー
    クにおけるチェックポイント取得時期決定方法。
  4. 【請求項4】 第1の計算機が送信したメッセージを第
    2の計算機が受信し加工して第3の計算機に送信すると
    いった形態で複数の計算機が有機的に結合された計算機
    ネットワークであって、前記計算機それぞれが、故障な
    どによって処理が中断された場合に備え、その中断され
    た処理を再開始するためのチェックポイントを定期的に
    取得するチェックポイント取得機能を有してなる計算機
    ネットワークにおけるチェックポイント取得時期決定方
    法において、 前記計算機それぞれは、他の計算機よりメッセージを受
    信してから次の計算機へのメッセージ送信要求が出され
    るまでの所要時間を知得するステップと、この知得した
    所要時間に基づき、前記要求が出された直後にチェック
    ポイントを取得するように自己のチェックポイントの取
    得時刻を決定するステップとを具備してなることを特徴
    とするチェックポイント取得時期決定方法。
  5. 【請求項5】 複数の計算機が有機的に結合された計算
    機ネットワークであって、前記計算機それぞれが、故障
    などによって処理が中断された場合に備え、その中断さ
    れた処理を再開始するためのチェックポイントを定期的
    に取得するチェックポイント取得機能を有してなる計算
    機ネットワークにおけるチェックポイント取得時期決定
    方法において、 メッセージの送信経路によって構成される閉路上に介在
    するN台の計算機それぞれが、予め設定された間隔Tで
    取得するチェックポイントの取得時刻を前記閉路上で隣
    接する計算機との間でT/N時間またはその整数倍の時
    間スライドさせて決定するステップを具備してなること
    を特徴とするチェックポイント取得時期決定方法。
  6. 【請求項6】 前記閉路上に介在する計算機それそれ
    が、チェックポイント取得間隔Tが変化したときに、前
    記閉路上で隣接する計算機との間のチェックポイント取
    得時刻のスライド幅を設定し直すステップをさらに具備
    してなることを特徴とする請求項5記載のチェックポイ
    ント取得時期決定方法。
  7. 【請求項7】 前記閉路上に介在する計算機の少なくと
    も一つは、前記計算機ネットワーク上の計算機全体にお
    ける通信出力待ちの要求数が第1の値を上回ったときに
    チェックポイント取得の間隔Tを短縮させ、第2の値を
    下回ったときに伸長させるステップをさらに具備してな
    ることを特徴とする請求項6記載のチェックポイント取
    得時期決定方法。
JP8013036A 1996-01-29 1996-01-29 計算機ネットワークにおけるチェックポイント取得時期決定方法 Pending JPH09204318A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8013036A JPH09204318A (ja) 1996-01-29 1996-01-29 計算機ネットワークにおけるチェックポイント取得時期決定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8013036A JPH09204318A (ja) 1996-01-29 1996-01-29 計算機ネットワークにおけるチェックポイント取得時期決定方法

Publications (1)

Publication Number Publication Date
JPH09204318A true JPH09204318A (ja) 1997-08-05

Family

ID=11821902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8013036A Pending JPH09204318A (ja) 1996-01-29 1996-01-29 計算機ネットワークにおけるチェックポイント取得時期決定方法

Country Status (1)

Country Link
JP (1) JPH09204318A (ja)

Similar Documents

Publication Publication Date Title
EP1116115B1 (en) Protocol for replicated servers
US8868492B2 (en) Method for maximizing throughput and minimizing transactions response times on the primary system in the presence of a zero data loss standby replica
JP6316211B2 (ja) 間隔制御複製
US7793060B2 (en) System method and circuit for differential mirroring of data
JP5191062B2 (ja) ストレージ制御システム、ストレージ制御システムに関する操作方法、データ・キャリア及びコンピュータ・プログラム
US20170315886A1 (en) Locality based quorum eligibility
US20060143497A1 (en) System, method and circuit for mirroring data
US9798639B2 (en) Failover system and method replicating client message to backup server from primary server
KR20050071358A (ko) 간략화된 팩소스 알고리즘을 이용한 분산 컴퓨팅 시스템의동작 방법, 컴퓨터 판독가능 매체 및 컴퓨팅 장치
JP2002522845A (ja) フォールトトレラント・コンピュータシステム
US20230333945A1 (en) Scalable Low-Loss Disaster Recovery for Data Stores
US10049021B2 (en) Redundant system and redundancy method
JP3891994B2 (ja) 順番のある(in−order)キューをドレインする(drain)システムおよび方法
US20120191645A1 (en) Information processing apparatus and database system
JP3447347B2 (ja) 障害検出方法
US20090106781A1 (en) Remote call handling methods and systems
US10853297B2 (en) Method for maintaining memory sharing in a computer cluster
JP7164175B2 (ja) 分散ファイル装置、フェイルオーバ方法、プログラム及び記録媒体
JPH09204318A (ja) 計算機ネットワークにおけるチェックポイント取得時期決定方法
US20090077553A1 (en) Parallel processing of platform level changes during system quiesce
US20180307564A1 (en) Non-transitory computer-readable storage medium and transmission control device
Chandel NOBLER: Non Blocking Reconfiguration Protocol For Linearizable Distributed Data Store
US10542127B2 (en) Fault tolerant communication in a distributed system
JP2004334713A (ja) 計算機システム、サービス継続制御プログラム
JP2007156590A (ja) 障害回復方法、情報管理サーバおよび計算機システム