JPH10116261A

JPH10116261A - 並列計算機システムのチェックポイントリスタート方法

Info

Publication number: JPH10116261A
Application number: JP8270874A
Authority: JP
Inventors: Yukiko Aoyanagi; 由紀子青柳; Yoshimichi Saito; 喜道斉藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1996-10-14
Filing date: 1996-10-14
Publication date: 1998-05-06

Abstract

(57)【要約】【課題】並列ジョブを実行する任意の計算機で障害が
発生した時に、リスタート後の並列ジョブ全体の実行時
間を短縮する。【解決手段】並列ジョブ実行制御マスタ１１は、計算
機１０−３の障害報告を受けると、それを障害の発生し
ていない計算機１０−２に通知する。計算機１０−２
は、ジョブの実行をそのまま継続し、障害の発生した計
算機１０−３に対して通信要求が発生すると、当該ジョ
ブの実行を中断する。その後、計算機１０−３の障害が
回復すると、並列ジョブ実行制御マスタ１１は、それを
計算機１０−２に通知する。これを受けて、計算機１０
−２は、中断していた当該ジョブの実行を再開する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は並列計算機システム
におけるジョブの実行制御方法に係り、特に障害発生時
の並列ジョブのチェックポイントリスタート方法に関す
る。

【０００２】

【従来の技術】一般に計算機システムでは、処理の過程
で障害が発生し、続けて処理ができなくなった場合に備
えて、所定の時点、時点でジョブの実行情報を外部記憶
装置に格納し、障害が発生した場合、該格納した情報を
元に、ジョブの状態を障害発生前の当該格納した時点に
回復してジョブの実行を再開する機能を備えている。こ
のジョブの実行情報を外部記憶装置に格納する時点をチ
ェックポイントと称し、障害が発生した場合に、その直
前のチェックポイントで格納した情報を元に、当該チェ
ックポイントからジョブの実行を再開することをチェッ
クポイントリスタートと称す。

【０００３】従来、複数の計算機がネットワークで結合
され、並列ジョブを各計算機に振り分けて実行する並列
計算機システムにおけるチェックポイントリスタートで
は、並列ジョブが実行する任意の計算機で障害が発生す
ると、そのジョブに関わる他の計算機上の並列ジョブも
異常終了し、障害が発生した計算機で障害を取り除いて
運用が再開すると、各々の計算機は、当該計算機の具備
する外部記憶装置に格納した当該ジョブに対応する実行
情報を元に、格納時の実行状態に回復して並列ジョブの
実行を再開していた。

【０００４】

【発明が解決しようとする課題】従来技術では、並列ジ
ョブ実行中の任意の計算機で障害が発生すると、障害の
起きていない他の計算機上の並列ジョブも直ちに異常終
了して処理を中断するので、障害が発生してから処理を
再開するまでの間、障害の起きていない計算機に無駄な
空き時間が生じる問題があった。また、障害のない計算
機上の並列ジョブの処理に時間がかかるような場合、障
害が回復してから処理を再開すると、回復後の並列ジョ
ブ全体の処理実行時間が長くなる問題があった。さら
に、アベンドしたジョブをリスタートする場合、外部記
憶装置から該当するジョブの実行情報を取得して回復す
るので、その分、処理時間が長くかかる問題があった。

【０００５】本発明の主たる目的は、並列計算機システ
ムにおける並列ジョブのチェックポイントリスタートに
おいて、障害の起きていない計算機の無駄な空き時間を
なくし、障害回復後の並列ジョブ全体の実行時間の短縮
を図ることにある。

【０００６】

【課題を解決するための手段】請求項１の発明は、並列
ジョブを実行する任意の計算機で障害が発生した時に、
障害の発生していない計算機は、ジョブを引き続いて実
行し、前記障害の発生した計算機と通信要求や資源アク
セス要求（以下、通信要求で総称する）が生じた時点で
ジョブの実行をサスペンド状態（中断）にし、障害の発
生した計算機が障害を回復したなら、前記障害の発生し
ていない計算機はサスペンド状態を解除して、当該ジョ
ブの実行を再開するようにしたことである。

【０００７】これにより、ある計算機で障害が発生した
時に、障害の発生していない計算機上のジョブを出来る
限り停止させずに処理を継続させることができ、障害回
復後の並列ジョブ全体の実行時間を短縮することができ
る。特に、障害のない計算機上の並列ジョブの処理に時
間がかかる場合に有効である。さらに、該請求項１の発
明では、障害が回復した時、障害のない計算機では、ジ
ョブのサスペンド状態を解除して当該ジョブの処理を再
開するだけでよく、外部記憶装置からジョブ実行情報を
取得する必要がなく、その分の処理時間も短縮できる。

【０００８】請求項２の発明は、並列ジョブを実行する
任意の計算機で障害が発生した時に、障害の発生してい
ない計算機は、ジョブを引き続いて実行して、前記障害
の発生した計算機に対して通信要求が生じた時点で異常
終了とし、障害の発生した計算機が障害を回復したな
ら、前記障害の発生していない計算機は、異常終了させ
たジョブに対応する実行情報を外部記憶装置から読み出
し、ジョブの状態を異常終了前の時点（チェックポイン
ト）に回復してジョブの実行を再開するようのしたこと
である。

【０００９】これにより、請求項１の発明と同様に、あ
る計算機で障害が発生した時に、障害の発生していない
計算機上のジョブを出来る限り停止させずに継続させる
ことができ、障害の回復後の並列ジョブ全体の実行時間
を短縮することができる。さらに、該請求項２の発明で
は、障害の発生していない計算機は、障害の発生した計
算機に対して通信要求が生じた時点で異常終了とするこ
とで、障害の回復が長びくような場合に、該障害の発生
していない計算機を一旦、電源オフとし、障害回復の報
告を受けて再立上げする（この時、異常終了直前のチェ
ックポイントから処理が再開する）ことが可能になり、
障害の発生していない計算機の無駄な稼動状態を回避で
きる。また、この間、障害の発生していない計算機の保
守・診断も可能になる。

【００１０】請求項３の発明は、請求項１の発明の障害
の発生していない計算機のサスペンド状態の解除や請求
項２の発明の障害の発生していない計算機の異常終了の
回復処理を、障害の発生した計算機が障害を回復し、並
列ジョブの実行を再開して、障害の発生していない計算
機に通信要求を出したことを契機に行うとしたことであ
る。これにより、障害の発生していない計算機では、障
害の発生した計算機から通信要求を受け取るまで、他の
ジョブの処理に専念することが可能になる。

【００１１】

【発明の実施の形態】以下、本発明の一実施例について
図面により詳細に説明する。図１は本発明を適用した並
列計算機システムの概略構成を示すブロック図である。
図において、複数台の計算機１０がネットワーク１００
にそれぞれ接続され、並列計算機システムを構成してい
る。図１では、計算機１０は４台だけを示しているが、
計算機１０の台数は任意である。各計算機１０は、図示
しないＣＰＵやメモリなどから構成され、それぞれ外部
記憶装置２０を具備している。なお、ＣＰＵは、各計算
機１０に一つあるいはそれ以上あってもよい。計算機監
視装置３０は各計算機１０の稼働状態を監視するもので
ある。図１では、該計算機監視装置３０は、各計算機１
０と同様にネットワーク１００に接続されるとしたが、
それぞれ個別の信号線で各計算機１０と接続してもよ
い。

【００１２】初めに、図２により、このような並列計算
機システムにおける並列ジョブの一般的な実行制御につ
いて説明する。なお、図２では、１台の計算機に対応す
る外部記憶装置しか示していないが、図１に示したよう
に、各計算機毎に外部記憶装置が存在することは云うま
でもない。

【００１３】並列計算機システムを構成する各計算機１
０には、図２に示すように、並列ジョブ実行制御部１２
とジョブ実行制御部１３がある。ジョブ実行制御部１３
は、当該計算機上で動作するジョブのスケジューリング
やスワッピング、割込み処理等といったジョブの実行制
御を行なう。並列ジョブ実行制御部１２は、当該計算機
上で動作する並列ジョブの管理を行い、ジョブ実行制御
部１３の下で実行するように制御する。また、並列ジョ
ブ実行制御部１２は、他の計算機上で動作する並列ジョ
ブとの通信や、同期等の制御手段を提供する。並列ジョ
ブ実行制御マスタ１１は、各計算機上で動作する並列ジ
ョブ実行制御部１２を一括して管理し、並列ジョブの起
動や、並列ジョブの分割、並列ジョブの振り分けを行
う。該並列ジョブ実行制御マスタ１１は、並列計算機シ
ステムを構成する複数の計算機１０上の何れかで動作す
る。図２では、１つの計算機１０で並列ジョブ実行制御
部に替えて、専用に並列ジョブ実行制御マスタ１１が動
作している場合を示している。他には、ひとつの計算機
１０上に並列ジョブ実行制御部１２と並列ジョブ実行制
御マスタ１１があってもよい。

【００１４】並列計算機システムを構成する各計算機１
０のジョブ実行制御部１３は、並列ジョブの実行の途中
で、チェックポイント毎に、当該計算機のレジスタ値や
スタック情報、データ情報などといったジョブのリスタ
ートに必要な情報（ジョブ実行情報２１）を外部記憶装
置２０に格納する。チェックポイントの契機は、並列ジ
ョブ実行制御部１２により与えられても、ジョブ自身が
ジョブ中に設定したコードにより与えてもよい。ジョブ
をリスタートする場合、ジョブ実行制御部１３は、当該
計算機の外部記憶装置２０に格納されている当該ジョブ
に対応するジョブ実行情報２１を読み出して、その情報
からジョブを当該チェックポイントの時点の状態に回復
し、処理を再開する。

【００１５】計算機監視装置３０は、各計算機１０の稼
動状態を監視し、いずれかの計算機で障害が発生する
と、当該装置３０より並列ジョブ実行制御マスタ１１に
通知する。また、逆に並列ジョブ実行制御マスタ１１が
計算機監視装置３０に、所定時間隔で各計算機１０の稼
動状態を問い合わせてもよい。並列ジョブ実行制御マス
タ１１は、計算機監視装置３０により障害の発生した計
算機を知ると、当該並列ジョブ実行制御マスタ１１が管
理する各計算機１０の並列ジョブ実行制御部１２に障害
の発生した計算機を通知する。本発明は、この後のジョ
ブ実行制御にかかわる。

【００１６】次に、図３乃至図５により、本発明の並列
ジョブチェックポイントリスタート制御の二、三の実施
例について説明する。なお、以下の説明では、並列ジョ
ブ実行制御マスタのある計算機を１０−１、障害の発生
していない計算機を１０−２、障害の発生した計算機を
１０−３とする。同様に、障害の発生していない計算機
１０−２の並列ジョブ実列制御部を１２−２、ジョブ実
行制御部を１３−２とし、また、障害の発生した計算機
１０−３の並列ジョブ実行制御部を１２−３、ジョブ実
行制御部を１３−３とする。

【００１７】図３は、本発明の並列ジョブにおけるチェ
ックポイントリスタートの処理の第１の実施例を示すフ
ローチャートで、請求項１の発明に対応するものであ
る。並列ジョブを実行中にある計算機１０−３で障害が
発生し、運用が不可能になると、計算機１０−１の並列
ジョブ実行制御マスタ１１は、計算機監視装置３０によ
り該障害の発生した計算機１０−３を知る（ステップＳ
３０１）。並列ジョブ実行制御マスタ１１は、該障害が
発生して運用が不可能になった計算機１０−３を、該並
列ジョブ実行制御マスタ１１が管理する各並列ジョブ実
行制御部１２に通知する（ステップＳ３０２）。障害の
発生していない計算機１０−２の並列ジョブ実行制御部
１２−２は、該並列ジョブ実行制御マスタ１１からの障
害の報告を受け取る（ステップＳ３０３）。この間、障
害の発生した計算機１０−３では、障害の回復を試みて
いる。一方、障害の発生していない計算機１０−２のジ
ョブ実行制御部１３−２は、ジョブの処理を継続する。
そして、当該ジョブが障害の発生した計算機１０−３と
通信を行なうために、ジョブ実行制御部１３−２が並列
ジョブ実行制御部１２−２に通信要求を出すと（ステッ
プＳ３０４）、並列ジョブ実行制御部１２−２は、ステ
ップＳ３０３で通信対象である計算機１０−３の障害報
告を受け付けているので、通信要求のあったジョブのサ
スペンド要求をジョブ実行制御部１３−２に依頼する
（ステップＳ３０５）。これを受けて、ジョブ実行制御
部１３−２は当該ジョブをサスペンド状態（一時停止状
態）にする（ステップＳ３０６）。

【００１８】その後、障害の発生した計算機１０−３で
障害が取り除かれると、並列ジョブ実行制御部１２−３
は障害の回復を計算機１０−１の並列ジョブ実行制御マ
スタ１１に報告する（ステップＳ３０７）。並列ジョブ
実行制御マスタ１１は、計算機１０−３の障害回復報告
を受け取ると（ステップＳ３０８）、該並列ジョブ実行
制御マスタ１１が管理する各並列ジョブ実行制御部１２
に障害回復を通知する（ステップＳ３０９）。なお、ス
テップ３０８では、並列ジョブ実行制御マスタ１１が計
算機監視装置３０により計算機１０−３の障害回復を知
ってもよい。障害の発生していない計算機１０−２の並
列ジョブ実行制御部１２−２は、並列ジョブ実行制御マ
スタ１１から計算機１０−３の障害回復の通知を受け取
ると、サスペンドした並列ジョブを再開するように、ジ
ョブ実行制御部１３−２に依頼する（ステップＳ３１
０）。これにより、ジョブ実行制御部１３−２は、当該
ジョブのサスペンドを解除し、該ジョブの実行を再開す
る（ステップ３１１）。一方、障害が回復した計算機１
０−３の並列ジョブ実行制御部１２−３では、ステップ
３０９で並列ジョブ実行制御マスタ１１から、障害回復
報告を受け取ると、障害発生直前の当該ジョブで実行し
ていた並列ジョブに対応するジョブ実行情報を外部記憶
装置２０から読み込み、当該ジョブ実行情報を格納した
チェックポイント時点からジョブをリスタートするよう
にジョブ実行制御部１３−３に依頼する（ステップＳ３
１２）。これにより、ジョブ実行制御部１３−３はジョ
ブのリスタートを行なう（ステップＳ３１３）。

【００１９】図４は、本発明の並列ジョブにおけるチェ
ックポイントリスタートの処理の第２の実施例を示すフ
ローチャートで、請求項２の発明に対応するものであ
る。障害の発生していない計算機１０−２の並列ジョブ
実行制御部１２−２が、並列ジョブ実行制御マスタ１１
から計算機１０−３の障害発生の報告を受け取り、ジョ
ブ実行制御部１３−２がジョブの処理を継続するところ
までは、図３の第１の実施例と同様である。該障害の発
生していない計算機１０−２のジョブ実行制御部１３−
２上で実行する並列ジョブが、障害の発生した計算機１
０−３と通信を行なうために通信要求を出した時（ステ
ップＳ４０１）、当該計算機上の並列ジョブ実行制御部
１２−２は、当該ジョブの異常終了の要求をジョブ実行
制御部１２−２に出す（ステップＳ４０２）。これを受
けて、ジョブ実行制御部１３−２は当該ジョブを異常終
了させる（ステップＳ４０３）。その後、障害の発生し
た計算機１０−３の障害が取り除かれて、並列ジョブ実
行制御部１２−３から障害回復が報告され（ステップＳ
４０４）、並列ジョブ実行制御マスタ１１で受け付られ
ると（ステップＳ４０５）、並列ジョブ実行制御マスタ
１１は、当該並列ジョブ実行制御マスタ１１が管理する
各並列ジョブ実行制御部１２に障害回復を通知する（ス
テップＳ４０６）。この通知を受けて、障害の発生して
いない計算機１０−２の並列ジョブ実行制御部１２−２
および障害の発生した計算機１０−３の並列ジョブ実行
制御部１２−３は、各々、当該ジョブで実行していた並
列ジョブに対応するジョブ実行情報を自外部記憶装置２
０から読み込み、当該情報を格納したチェックポイント
時点からジョブをリスタートするようにジョブ実行制御
部１３−２、１３−３に依頼する（ステップＳ４０
７）。これを受けて、ジョブ実行制御部１３−２、１３
−３は、各々ジョブのリスタートを行う（ステップＳ４
０８）。これにより、障害の発生していない計算機１０
−２の並列ジョブは、ステップＳ４０３で異常終了した
直前のチェックポイントから処理を再開し、障害の発生
した計算機１０−３の並列ジョブは、障害発生の直前の
チェックポイントから処理を再開する。

【００２０】図５は、本発明の並列ジョブにおけるチェ
ックポイントリスタートの処理の第３の実施例を示すフ
ローチャートである。これは、並列ジョブを実行中にあ
る計算機１０−３で障害が発生し、障害の発生していな
い計算機１０−２上で実行している並列ジョブが、障害
の発生している計算機１０−３と通信を行なうために通
信要求を出し、当該障害の発生していない計算機１０−
２がサスペンド状態或は異常終了した後の、ジョブ再開
処理の他の実施例を示したフローで、請求項３の発明に
対応するものである。

【００２１】障害の発生した計算機１０−３で障害が取
り除かれ、計算機１０−１の並列ジョブ実行制御マスタ
１１に障害回復の報告が通知されると（ステップＳ５０
１、Ｓ５０２）、並列ジョブ実行制御マスタ１１は、障
害があった計算機１０−３上で動作する並列実行制御部
１２−３に、障害回復を通知する（ステップＳ５０
３）。なお、並列ジョブ実行制御マスタ１１は、該ステ
ップＳ５０３で、当該並列実行制御マスタ１１が管理す
る各並列ジョブ実行制御部１２に障害回復の通知をし、
該障害回復の通知を受け取った並列ジョブ実行制御部１
２は、自計算機の障害回復かどうか判断して、自計算機
でない場合は障害回復通知を無視するようにしてもよ
い。障害の発生した計算機１０−３の並列ジョブ実行制
御部１２−３は、障害回復を通知されると、当該計算機
１０−３で実行していた並列ジョブに対応するジョブ実
行情報を自外部記憶装置２０から読み込み、当該情報を
格納したチェックポイント時点からジョブをリスタート
するようにジョブ実行制御部１３−３に依頼する（ステ
ップＳ５０４）。これを受けてジョブ実行制御部１３−
３はジョブのリスタートを行う（ステップＳ５０５）。

【００２２】リスタート後、当該ジョブが他の計算機１
０−２上の並列ジョブと通信を行なうために、ジョブ実
行制御部１３−３が並列ジョブ実行制御部１２−３に通
信要求を出すと（ステップＳ５０６）、これを受けた並
列ジョブ実行制御部１２−３は、並列実行制御マスタ１
１に並列ジョブの通信要求を出す（ステップＳ５０
７）。これを受けて、並列ジョブ実行制御マスタ１１
は、通信対象となる計算機１０−２上の並列ジョブ実行
制御部１２−２にジョブの再実行を要求する（ステップ
５０８）。これにより、並列ジョブ実行制御部１２−２
はジョブ実行制御部１３−２にジョブの再実行を指示し
（ステップＳ５０９）、ジョブの実行を再開する（ステ
ップＳ５１０）。この場合、ジョブ実行制御部１３−２
は、並列ジョブがサスペンドして中断中の場合は、図３
に示したように、サスペンド状態を解除して当該ジョブ
の実行を再実行する。また、当該ジョブが異常終了して
停止している場合は、図４に示したように、当該ジョブ
に対応するジョブ実行情報を自外部記憶装置２０から読
み込み、当該情報を格納したチェックポイント時点から
ジョブをリスタートする。

【００２３】以上、本発明の並列ジョブチェックポイン
トリスタート処理の二、三の実施例について説明した
が、これらの実施例は障害の種類や度合等で使い分けて
もよい。例えば、障害が軽微で比較的短時間に回復する
場合には図３に示す第１の実施例を適用し、致命的な障
害で、回復に長時間かかる場合には図４に示す第２の実
施例を適用すればよい。この場合、計算機監視装置３０
が、障害発生した計算機とともに、その障害の種類や度
合等を並列ジョブ実行制御マスタに通知し、これを並列
ジョブ実行制御マスタが自分の管理する各並列ジョブ実
行制御部に連絡し、当該並列ジョブ実行制御部がいずれ
のケースを選択するか判断すればよい。

【００２４】なお、本発明では、並列ジョブを実行する
任意の計算機で障害が発生した場合、障害の発生してい
ない計算機では、ジョブの実行をそのまま継続し、該障
害の発生した計算機に対して通信要求が生じた時点で、
当該ジョブをサスペンドあるいは異常終了とするため、
当該ジョブの実行が再開されると、障害の回復した計算
機に対して、あらためて通信要求を出すことになる。一
方、障害の回復した計算機では、障害発生前のチェック
ポイントからジョブの実行が再開されるため、障害の発
生していない計算機より処理が遅れ、通信要求に対して
正しい応答を返せない場合がある。このような場合に
は、障害の発生していない計算機は、正しい応答が返る
まで通信要求を繰り返すようにすればよい。これによ
り、障害の発生していない計算機では、後続の処理が待
たされることとなるが、このようなケース（正しい応答
を返せないケース）は頻繁にある訳ではなく、ほとんど
支障はない。

【００２５】

【発明の効果】以上説明したように、本発明によれば、
並列計算機システムにおける並列ジョブのチェックポイ
ントリスタート処理において、障害の発生した計算機の
障害を取り除いている間に、障害の発生していない計算
機のジョブを、障害の発生した計算機と通信や資源のア
クセスを行なうまで継続して処理することで、障害回復
後の並列ジョブ全体の実行時間を短縮することができ
る。さらに、請求項１の発明では、障害が回復した時、
障害の発生していない計算機は、ジョブのサスペンド状
態を解除して当該ジョブの処理を再開するだけでよく、
外部記憶装置から当該ジョブの実行情報を取得する必要
がなく、その分の処理時も短縮できる。また、請求項２
の発明では、障害の発生していない計算機は、障害の発
生した計算機に対して通信要求等が生じた時点で異常終
了とすることで、障害の回復が長びくような場合には、
一旦、電源オフとして、障害回復の報告をまって再立上
げすることが可能になり、無駄な稼動状態を回避でき、
また、この間、当該計算機の保守・診断も可能になる。
また、請求項３の発明では、障害の発生していない計算
機のジョブの再開を、障害の発生した計算機が障害を回
復して、並列ジョブの実行を再開し、当該障害の発生し
ていない計算機に通信要求を出したことを契機とするこ
とで、その間、障害の発生していない計算機は他のジョ
ブの処理に専念することができ、計算機のさらなる有効
利用が可能になる。

【図面の簡単な説明】

【図１】本発明の一実施例を示すシステム構成のブロッ
ク図である。

【図２】並列計算機システムにおける並列ジョブの実行
制御を説明する図である。

【図３】本発明の並列ジョブにおけるチェックポイント
リスタート処理の第１の実施例を示すフローチャートで
ある。

【図４】本発明の並列ジョブにおけるチェックポイント
リスタート処理の第２の実施例を示すフローチャートで
ある。

【図５】本発明の並列ジョブにおけるチェックポイント
リスタート処理の第３の実施例を示すフローチャートで
ある。

【符号の説明】

１０計算機１１並列ジョブ実行制御マスタ１２並列ジョブ実行制御部１３ジョブ実行制御部２０外部記憶装置３０計算機監視装置

Claims

【特許請求の範囲】

【請求項１】複数の計算機がネットワークで結合さ
れ、ジョブを複数の計算機に振り分けて実行する並列計
算機システムにおいて、各々の計算機が所定の時点毎に
ジョブの実行情報を当該計算機の具備する外部記憶装置
に格納し、障害が発生した時に、前記格納した情報を元
にジョブの状態を障害発生前の時点に回復してジョブの
実行を再開するチェックポイントリスタート方法であっ
て、任意の計算機で障害が発生した時に、障害の発生してい
ない計算機は、ジョブを引き続いて実行して、前記障害
の発生した計算機に対して通信要求や当該計算機資源に
対するアクセス要求（以下、通信要求で総称する）が生
じた時点でジョブの実行をサスペンド状態にし、前記障害の発生した計算機が障害を回復すると、前記障
害の発生していない計算機は、前記サスペンド状態を解
除してジョブの実行を再開する、ことを特徴とする並列
計算機システムのチェックポイントリスタート方法。
【請求項２】複数の計算機がネットワークで結合さ
れ、ジョブを複数の計算機に振り分けて実行する並列計
算機システムにおいて、各々の計算機が所定の時点毎に
ジョブの実行情報を当該計算機の具備する外部記憶装置
に格納し、障害が発生した時に、前記格納した情報を元
にジョブの状態を障害発生前の時点に回復してジョブの
実行を再開するチェックポイントリスタート方法であっ
て、任意の計算機で障害が発生した時に、障害の発生してい
ない計算機は、ショブを引き続いて実行して、前記障害
の発生した計算機に対して通信要求が生じた時点で異常
終了とし、前記障害の発生した計算機が障害を回復すると、前記障
害の発生していない計算機は、前記異常終了させたジョ
ブに対応する実行情報を外部記憶装置から読み出し、ジ
ョブの状態を異常終了前の時点に回復してジョブの実行
を再開する、ことを特徴とする並列計算機システムのチ
ェックポイントリスタート方法。
【請求項３】請求項１もしくは２記載の並列計算機シ
ステムのチェックポイントリスタート方法において、障
害の発生した計算機が障害を回復し、ジョブの実行を再
開して、障害の発生していない計算機に通信要求を出す
と、当該障害の発生していない計算機が、サスペンド状
態の解除もしくは異常終了の回復処理を行うことを特徴
とする並列計算機システムのチェックポイントリスター
ト方法。