JPH10116261A - 並列計算機システムのチェックポイントリスタート方法 - Google Patents

並列計算機システムのチェックポイントリスタート方法

Info

Publication number
JPH10116261A
JPH10116261A JP8270874A JP27087496A JPH10116261A JP H10116261 A JPH10116261 A JP H10116261A JP 8270874 A JP8270874 A JP 8270874A JP 27087496 A JP27087496 A JP 27087496A JP H10116261 A JPH10116261 A JP H10116261A
Authority
JP
Japan
Prior art keywords
computer
job
failure
parallel
execution control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8270874A
Other languages
English (en)
Inventor
Yukiko Aoyanagi
由紀子 青柳
Yoshimichi Saito
喜道 斉藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8270874A priority Critical patent/JPH10116261A/ja
Publication of JPH10116261A publication Critical patent/JPH10116261A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 並列ジョブを実行する任意の計算機で障害が
発生した時に、リスタート後の並列ジョブ全体の実行時
間を短縮する。 【解決手段】 並列ジョブ実行制御マスタ11は、計算
機10−3の障害報告を受けると、それを障害の発生し
ていない計算機10−2に通知する。計算機10−2
は、ジョブの実行をそのまま継続し、障害の発生した計
算機10−3に対して通信要求が発生すると、当該ジョ
ブの実行を中断する。その後、計算機10−3の障害が
回復すると、並列ジョブ実行制御マスタ11は、それを
計算機10−2に通知する。これを受けて、計算機10
−2は、中断していた当該ジョブの実行を再開する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は並列計算機システム
におけるジョブの実行制御方法に係り、特に障害発生時
の並列ジョブのチェックポイントリスタート方法に関す
る。
【0002】
【従来の技術】一般に計算機システムでは、処理の過程
で障害が発生し、続けて処理ができなくなった場合に備
えて、所定の時点、時点でジョブの実行情報を外部記憶
装置に格納し、障害が発生した場合、該格納した情報を
元に、ジョブの状態を障害発生前の当該格納した時点に
回復してジョブの実行を再開する機能を備えている。こ
のジョブの実行情報を外部記憶装置に格納する時点をチ
ェックポイントと称し、障害が発生した場合に、その直
前のチェックポイントで格納した情報を元に、当該チェ
ックポイントからジョブの実行を再開することをチェッ
クポイントリスタートと称す。
【0003】従来、複数の計算機がネットワークで結合
され、並列ジョブを各計算機に振り分けて実行する並列
計算機システムにおけるチェックポイントリスタートで
は、並列ジョブが実行する任意の計算機で障害が発生す
ると、そのジョブに関わる他の計算機上の並列ジョブも
異常終了し、障害が発生した計算機で障害を取り除いて
運用が再開すると、各々の計算機は、当該計算機の具備
する外部記憶装置に格納した当該ジョブに対応する実行
情報を元に、格納時の実行状態に回復して並列ジョブの
実行を再開していた。
【0004】
【発明が解決しようとする課題】従来技術では、並列ジ
ョブ実行中の任意の計算機で障害が発生すると、障害の
起きていない他の計算機上の並列ジョブも直ちに異常終
了して処理を中断するので、障害が発生してから処理を
再開するまでの間、障害の起きていない計算機に無駄な
空き時間が生じる問題があった。また、障害のない計算
機上の並列ジョブの処理に時間がかかるような場合、障
害が回復してから処理を再開すると、回復後の並列ジョ
ブ全体の処理実行時間が長くなる問題があった。さら
に、アベンドしたジョブをリスタートする場合、外部記
憶装置から該当するジョブの実行情報を取得して回復す
るので、その分、処理時間が長くかかる問題があった。
【0005】本発明の主たる目的は、並列計算機システ
ムにおける並列ジョブのチェックポイントリスタートに
おいて、障害の起きていない計算機の無駄な空き時間を
なくし、障害回復後の並列ジョブ全体の実行時間の短縮
を図ることにある。
【0006】
【課題を解決するための手段】請求項1の発明は、並列
ジョブを実行する任意の計算機で障害が発生した時に、
障害の発生していない計算機は、ジョブを引き続いて実
行し、前記障害の発生した計算機と通信要求や資源アク
セス要求(以下、通信要求で総称する)が生じた時点で
ジョブの実行をサスペンド状態(中断)にし、障害の発
生した計算機が障害を回復したなら、前記障害の発生し
ていない計算機はサスペンド状態を解除して、当該ジョ
ブの実行を再開するようにしたことである。
【0007】これにより、ある計算機で障害が発生した
時に、障害の発生していない計算機上のジョブを出来る
限り停止させずに処理を継続させることができ、障害回
復後の並列ジョブ全体の実行時間を短縮することができ
る。特に、障害のない計算機上の並列ジョブの処理に時
間がかかる場合に有効である。さらに、該請求項1の発
明では、障害が回復した時、障害のない計算機では、ジ
ョブのサスペンド状態を解除して当該ジョブの処理を再
開するだけでよく、外部記憶装置からジョブ実行情報を
取得する必要がなく、その分の処理時間も短縮できる。
【0008】請求項2の発明は、並列ジョブを実行する
任意の計算機で障害が発生した時に、障害の発生してい
ない計算機は、ジョブを引き続いて実行して、前記障害
の発生した計算機に対して通信要求が生じた時点で異常
終了とし、障害の発生した計算機が障害を回復したな
ら、前記障害の発生していない計算機は、異常終了させ
たジョブに対応する実行情報を外部記憶装置から読み出
し、ジョブの状態を異常終了前の時点(チェックポイン
ト)に回復してジョブの実行を再開するようのしたこと
である。
【0009】これにより、請求項1の発明と同様に、あ
る計算機で障害が発生した時に、障害の発生していない
計算機上のジョブを出来る限り停止させずに継続させる
ことができ、障害の回復後の並列ジョブ全体の実行時間
を短縮することができる。さらに、該請求項2の発明で
は、障害の発生していない計算機は、障害の発生した計
算機に対して通信要求が生じた時点で異常終了とするこ
とで、障害の回復が長びくような場合に、該障害の発生
していない計算機を一旦、電源オフとし、障害回復の報
告を受けて再立上げする(この時、異常終了直前のチェ
ックポイントから処理が再開する)ことが可能になり、
障害の発生していない計算機の無駄な稼動状態を回避で
きる。また、この間、障害の発生していない計算機の保
守・診断も可能になる。
【0010】請求項3の発明は、請求項1の発明の障害
の発生していない計算機のサスペンド状態の解除や請求
項2の発明の障害の発生していない計算機の異常終了の
回復処理を、障害の発生した計算機が障害を回復し、並
列ジョブの実行を再開して、障害の発生していない計算
機に通信要求を出したことを契機に行うとしたことであ
る。これにより、障害の発生していない計算機では、障
害の発生した計算機から通信要求を受け取るまで、他の
ジョブの処理に専念することが可能になる。
【0011】
【発明の実施の形態】以下、本発明の一実施例について
図面により詳細に説明する。図1は本発明を適用した並
列計算機システムの概略構成を示すブロック図である。
図において、複数台の計算機10がネットワーク100
にそれぞれ接続され、並列計算機システムを構成してい
る。図1では、計算機10は4台だけを示しているが、
計算機10の台数は任意である。各計算機10は、図示
しないCPUやメモリなどから構成され、それぞれ外部
記憶装置20を具備している。なお、CPUは、各計算
機10に一つあるいはそれ以上あってもよい。計算機監
視装置30は各計算機10の稼働状態を監視するもので
ある。図1では、該計算機監視装置30は、各計算機1
0と同様にネットワーク100に接続されるとしたが、
それぞれ個別の信号線で各計算機10と接続してもよ
い。
【0012】初めに、図2により、このような並列計算
機システムにおける並列ジョブの一般的な実行制御につ
いて説明する。なお、図2では、1台の計算機に対応す
る外部記憶装置しか示していないが、図1に示したよう
に、各計算機毎に外部記憶装置が存在することは云うま
でもない。
【0013】並列計算機システムを構成する各計算機1
0には、図2に示すように、並列ジョブ実行制御部12
とジョブ実行制御部13がある。ジョブ実行制御部13
は、当該計算機上で動作するジョブのスケジューリング
やスワッピング、割込み処理等といったジョブの実行制
御を行なう。並列ジョブ実行制御部12は、当該計算機
上で動作する並列ジョブの管理を行い、ジョブ実行制御
部13の下で実行するように制御する。また、並列ジョ
ブ実行制御部12は、他の計算機上で動作する並列ジョ
ブとの通信や、同期等の制御手段を提供する。並列ジョ
ブ実行制御マスタ11は、各計算機上で動作する並列ジ
ョブ実行制御部12を一括して管理し、並列ジョブの起
動や、並列ジョブの分割、並列ジョブの振り分けを行
う。該並列ジョブ実行制御マスタ11は、並列計算機シ
ステムを構成する複数の計算機10上の何れかで動作す
る。図2では、1つの計算機10で並列ジョブ実行制御
部に替えて、専用に並列ジョブ実行制御マスタ11が動
作している場合を示している。他には、ひとつの計算機
10上に並列ジョブ実行制御部12と並列ジョブ実行制
御マスタ11があってもよい。
【0014】並列計算機システムを構成する各計算機1
0のジョブ実行制御部13は、並列ジョブの実行の途中
で、チェックポイント毎に、当該計算機のレジスタ値や
スタック情報、データ情報などといったジョブのリスタ
ートに必要な情報(ジョブ実行情報21)を外部記憶装
置20に格納する。チェックポイントの契機は、並列ジ
ョブ実行制御部12により与えられても、ジョブ自身が
ジョブ中に設定したコードにより与えてもよい。ジョブ
をリスタートする場合、ジョブ実行制御部13は、当該
計算機の外部記憶装置20に格納されている当該ジョブ
に対応するジョブ実行情報21を読み出して、その情報
からジョブを当該チェックポイントの時点の状態に回復
し、処理を再開する。
【0015】計算機監視装置30は、各計算機10の稼
動状態を監視し、いずれかの計算機で障害が発生する
と、当該装置30より並列ジョブ実行制御マスタ11に
通知する。また、逆に並列ジョブ実行制御マスタ11が
計算機監視装置30に、所定時間隔で各計算機10の稼
動状態を問い合わせてもよい。並列ジョブ実行制御マス
タ11は、計算機監視装置30により障害の発生した計
算機を知ると、当該並列ジョブ実行制御マスタ11が管
理する各計算機10の並列ジョブ実行制御部12に障害
の発生した計算機を通知する。本発明は、この後のジョ
ブ実行制御にかかわる。
【0016】次に、図3乃至図5により、本発明の並列
ジョブチェックポイントリスタート制御の二、三の実施
例について説明する。なお、以下の説明では、並列ジョ
ブ実行制御マスタのある計算機を10−1、障害の発生
していない計算機を10−2、障害の発生した計算機を
10−3とする。同様に、障害の発生していない計算機
10−2の並列ジョブ実列制御部を12−2、ジョブ実
行制御部を13−2とし、また、障害の発生した計算機
10−3の並列ジョブ実行制御部を12−3、ジョブ実
行制御部を13−3とする。
【0017】図3は、本発明の並列ジョブにおけるチェ
ックポイントリスタートの処理の第1の実施例を示すフ
ローチャートで、請求項1の発明に対応するものであ
る。並列ジョブを実行中にある計算機10−3で障害が
発生し、運用が不可能になると、計算機10−1の並列
ジョブ実行制御マスタ11は、計算機監視装置30によ
り該障害の発生した計算機10−3を知る(ステップS
301)。並列ジョブ実行制御マスタ11は、該障害が
発生して運用が不可能になった計算機10−3を、該並
列ジョブ実行制御マスタ11が管理する各並列ジョブ実
行制御部12に通知する(ステップS302)。障害の
発生していない計算機10−2の並列ジョブ実行制御部
12−2は、該並列ジョブ実行制御マスタ11からの障
害の報告を受け取る(ステップS303)。この間、障
害の発生した計算機10−3では、障害の回復を試みて
いる。一方、障害の発生していない計算機10−2のジ
ョブ実行制御部13−2は、ジョブの処理を継続する。
そして、当該ジョブが障害の発生した計算機10−3と
通信を行なうために、ジョブ実行制御部13−2が並列
ジョブ実行制御部12−2に通信要求を出すと(ステッ
プS304)、並列ジョブ実行制御部12−2は、ステ
ップS303で通信対象である計算機10−3の障害報
告を受け付けているので、通信要求のあったジョブのサ
スペンド要求をジョブ実行制御部13−2に依頼する
(ステップS305)。これを受けて、ジョブ実行制御
部13−2は当該ジョブをサスペンド状態(一時停止状
態)にする(ステップS306)。
【0018】その後、障害の発生した計算機10−3で
障害が取り除かれると、並列ジョブ実行制御部12−3
は障害の回復を計算機10−1の並列ジョブ実行制御マ
スタ11に報告する(ステップS307)。並列ジョブ
実行制御マスタ11は、計算機10−3の障害回復報告
を受け取ると(ステップS308)、該並列ジョブ実行
制御マスタ11が管理する各並列ジョブ実行制御部12
に障害回復を通知する(ステップS309)。なお、ス
テップ308では、並列ジョブ実行制御マスタ11が計
算機監視装置30により計算機10−3の障害回復を知
ってもよい。障害の発生していない計算機10−2の並
列ジョブ実行制御部12−2は、並列ジョブ実行制御マ
スタ11から計算機10−3の障害回復の通知を受け取
ると、サスペンドした並列ジョブを再開するように、ジ
ョブ実行制御部13−2に依頼する(ステップS31
0)。これにより、ジョブ実行制御部13−2は、当該
ジョブのサスペンドを解除し、該ジョブの実行を再開す
る(ステップ311)。一方、障害が回復した計算機1
0−3の並列ジョブ実行制御部12−3では、ステップ
309で並列ジョブ実行制御マスタ11から、障害回復
報告を受け取ると、障害発生直前の当該ジョブで実行し
ていた並列ジョブに対応するジョブ実行情報を外部記憶
装置20から読み込み、当該ジョブ実行情報を格納した
チェックポイント時点からジョブをリスタートするよう
にジョブ実行制御部13−3に依頼する(ステップS3
12)。これにより、ジョブ実行制御部13−3はジョ
ブのリスタートを行なう(ステップS313)。
【0019】図4は、本発明の並列ジョブにおけるチェ
ックポイントリスタートの処理の第2の実施例を示すフ
ローチャートで、請求項2の発明に対応するものであ
る。障害の発生していない計算機10−2の並列ジョブ
実行制御部12−2が、並列ジョブ実行制御マスタ11
から計算機10−3の障害発生の報告を受け取り、ジョ
ブ実行制御部13−2がジョブの処理を継続するところ
までは、図3の第1の実施例と同様である。該障害の発
生していない計算機10−2のジョブ実行制御部13−
2上で実行する並列ジョブが、障害の発生した計算機1
0−3と通信を行なうために通信要求を出した時(ステ
ップS401)、当該計算機上の並列ジョブ実行制御部
12−2は、当該ジョブの異常終了の要求をジョブ実行
制御部12−2に出す(ステップS402)。これを受
けて、ジョブ実行制御部13−2は当該ジョブを異常終
了させる(ステップS403)。その後、障害の発生し
た計算機10−3の障害が取り除かれて、並列ジョブ実
行制御部12−3から障害回復が報告され(ステップS
404)、並列ジョブ実行制御マスタ11で受け付られ
ると(ステップS405)、並列ジョブ実行制御マスタ
11は、当該並列ジョブ実行制御マスタ11が管理する
各並列ジョブ実行制御部12に障害回復を通知する(ス
テップS406)。この通知を受けて、障害の発生して
いない計算機10−2の並列ジョブ実行制御部12−2
および障害の発生した計算機10−3の並列ジョブ実行
制御部12−3は、各々、当該ジョブで実行していた並
列ジョブに対応するジョブ実行情報を自外部記憶装置2
0から読み込み、当該情報を格納したチェックポイント
時点からジョブをリスタートするようにジョブ実行制御
部13−2、13−3に依頼する(ステップS40
7)。これを受けて、ジョブ実行制御部13−2、13
−3は、各々ジョブのリスタートを行う(ステップS4
08)。これにより、障害の発生していない計算機10
−2の並列ジョブは、ステップS403で異常終了した
直前のチェックポイントから処理を再開し、障害の発生
した計算機10−3の並列ジョブは、障害発生の直前の
チェックポイントから処理を再開する。
【0020】図5は、本発明の並列ジョブにおけるチェ
ックポイントリスタートの処理の第3の実施例を示すフ
ローチャートである。これは、並列ジョブを実行中にあ
る計算機10−3で障害が発生し、障害の発生していな
い計算機10−2上で実行している並列ジョブが、障害
の発生している計算機10−3と通信を行なうために通
信要求を出し、当該障害の発生していない計算機10−
2がサスペンド状態或は異常終了した後の、ジョブ再開
処理の他の実施例を示したフローで、請求項3の発明に
対応するものである。
【0021】障害の発生した計算機10−3で障害が取
り除かれ、計算機10−1の並列ジョブ実行制御マスタ
11に障害回復の報告が通知されると(ステップS50
1、S502)、並列ジョブ実行制御マスタ11は、障
害があった計算機10−3上で動作する並列実行制御部
12−3に、障害回復を通知する(ステップS50
3)。なお、並列ジョブ実行制御マスタ11は、該ステ
ップS503で、当該並列実行制御マスタ11が管理す
る各並列ジョブ実行制御部12に障害回復の通知をし、
該障害回復の通知を受け取った並列ジョブ実行制御部1
2は、自計算機の障害回復かどうか判断して、自計算機
でない場合は障害回復通知を無視するようにしてもよ
い。障害の発生した計算機10−3の並列ジョブ実行制
御部12−3は、障害回復を通知されると、当該計算機
10−3で実行していた並列ジョブに対応するジョブ実
行情報を自外部記憶装置20から読み込み、当該情報を
格納したチェックポイント時点からジョブをリスタート
するようにジョブ実行制御部13−3に依頼する(ステ
ップS504)。これを受けてジョブ実行制御部13−
3はジョブのリスタートを行う(ステップS505)。
【0022】リスタート後、当該ジョブが他の計算機1
0−2上の並列ジョブと通信を行なうために、ジョブ実
行制御部13−3が並列ジョブ実行制御部12−3に通
信要求を出すと(ステップS506)、これを受けた並
列ジョブ実行制御部12−3は、並列実行制御マスタ1
1に並列ジョブの通信要求を出す(ステップS50
7)。これを受けて、並列ジョブ実行制御マスタ11
は、通信対象となる計算機10−2上の並列ジョブ実行
制御部12−2にジョブの再実行を要求する(ステップ
508)。これにより、並列ジョブ実行制御部12−2
はジョブ実行制御部13−2にジョブの再実行を指示し
(ステップS509)、ジョブの実行を再開する(ステ
ップS510)。この場合、ジョブ実行制御部13−2
は、並列ジョブがサスペンドして中断中の場合は、図3
に示したように、サスペンド状態を解除して当該ジョブ
の実行を再実行する。また、当該ジョブが異常終了して
停止している場合は、図4に示したように、当該ジョブ
に対応するジョブ実行情報を自外部記憶装置20から読
み込み、当該情報を格納したチェックポイント時点から
ジョブをリスタートする。
【0023】以上、本発明の並列ジョブチェックポイン
トリスタート処理の二、三の実施例について説明した
が、これらの実施例は障害の種類や度合等で使い分けて
もよい。例えば、障害が軽微で比較的短時間に回復する
場合には図3に示す第1の実施例を適用し、致命的な障
害で、回復に長時間かかる場合には図4に示す第2の実
施例を適用すればよい。この場合、計算機監視装置30
が、障害発生した計算機とともに、その障害の種類や度
合等を並列ジョブ実行制御マスタに通知し、これを並列
ジョブ実行制御マスタが自分の管理する各並列ジョブ実
行制御部に連絡し、当該並列ジョブ実行制御部がいずれ
のケースを選択するか判断すればよい。
【0024】なお、本発明では、並列ジョブを実行する
任意の計算機で障害が発生した場合、障害の発生してい
ない計算機では、ジョブの実行をそのまま継続し、該障
害の発生した計算機に対して通信要求が生じた時点で、
当該ジョブをサスペンドあるいは異常終了とするため、
当該ジョブの実行が再開されると、障害の回復した計算
機に対して、あらためて通信要求を出すことになる。一
方、障害の回復した計算機では、障害発生前のチェック
ポイントからジョブの実行が再開されるため、障害の発
生していない計算機より処理が遅れ、通信要求に対して
正しい応答を返せない場合がある。このような場合に
は、障害の発生していない計算機は、正しい応答が返る
まで通信要求を繰り返すようにすればよい。これによ
り、障害の発生していない計算機では、後続の処理が待
たされることとなるが、このようなケース(正しい応答
を返せないケース)は頻繁にある訳ではなく、ほとんど
支障はない。
【0025】
【発明の効果】以上説明したように、本発明によれば、
並列計算機システムにおける並列ジョブのチェックポイ
ントリスタート処理において、障害の発生した計算機の
障害を取り除いている間に、障害の発生していない計算
機のジョブを、障害の発生した計算機と通信や資源のア
クセスを行なうまで継続して処理することで、障害回復
後の並列ジョブ全体の実行時間を短縮することができ
る。さらに、請求項1の発明では、障害が回復した時、
障害の発生していない計算機は、ジョブのサスペンド状
態を解除して当該ジョブの処理を再開するだけでよく、
外部記憶装置から当該ジョブの実行情報を取得する必要
がなく、その分の処理時も短縮できる。また、請求項2
の発明では、障害の発生していない計算機は、障害の発
生した計算機に対して通信要求等が生じた時点で異常終
了とすることで、障害の回復が長びくような場合には、
一旦、電源オフとして、障害回復の報告をまって再立上
げすることが可能になり、無駄な稼動状態を回避でき、
また、この間、当該計算機の保守・診断も可能になる。
また、請求項3の発明では、障害の発生していない計算
機のジョブの再開を、障害の発生した計算機が障害を回
復して、並列ジョブの実行を再開し、当該障害の発生し
ていない計算機に通信要求を出したことを契機とするこ
とで、その間、障害の発生していない計算機は他のジョ
ブの処理に専念することができ、計算機のさらなる有効
利用が可能になる。
【図面の簡単な説明】
【図1】本発明の一実施例を示すシステム構成のブロッ
ク図である。
【図2】並列計算機システムにおける並列ジョブの実行
制御を説明する図である。
【図3】本発明の並列ジョブにおけるチェックポイント
リスタート処理の第1の実施例を示すフローチャートで
ある。
【図4】本発明の並列ジョブにおけるチェックポイント
リスタート処理の第2の実施例を示すフローチャートで
ある。
【図5】本発明の並列ジョブにおけるチェックポイント
リスタート処理の第3の実施例を示すフローチャートで
ある。
【符号の説明】
10 計算機 11 並列ジョブ実行制御マスタ 12 並列ジョブ実行制御部 13 ジョブ実行制御部 20 外部記憶装置 30 計算機監視装置

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数の計算機がネットワークで結合さ
    れ、ジョブを複数の計算機に振り分けて実行する並列計
    算機システムにおいて、各々の計算機が所定の時点毎に
    ジョブの実行情報を当該計算機の具備する外部記憶装置
    に格納し、障害が発生した時に、前記格納した情報を元
    にジョブの状態を障害発生前の時点に回復してジョブの
    実行を再開するチェックポイントリスタート方法であっ
    て、 任意の計算機で障害が発生した時に、障害の発生してい
    ない計算機は、ジョブを引き続いて実行して、前記障害
    の発生した計算機に対して通信要求や当該計算機資源に
    対するアクセス要求(以下、通信要求で総称する)が生
    じた時点でジョブの実行をサスペンド状態にし、 前記障害の発生した計算機が障害を回復すると、前記障
    害の発生していない計算機は、前記サスペンド状態を解
    除してジョブの実行を再開する、ことを特徴とする並列
    計算機システムのチェックポイントリスタート方法。
  2. 【請求項2】 複数の計算機がネットワークで結合さ
    れ、ジョブを複数の計算機に振り分けて実行する並列計
    算機システムにおいて、各々の計算機が所定の時点毎に
    ジョブの実行情報を当該計算機の具備する外部記憶装置
    に格納し、障害が発生した時に、前記格納した情報を元
    にジョブの状態を障害発生前の時点に回復してジョブの
    実行を再開するチェックポイントリスタート方法であっ
    て、 任意の計算機で障害が発生した時に、障害の発生してい
    ない計算機は、ショブを引き続いて実行して、前記障害
    の発生した計算機に対して通信要求が生じた時点で異常
    終了とし、 前記障害の発生した計算機が障害を回復すると、前記障
    害の発生していない計算機は、前記異常終了させたジョ
    ブに対応する実行情報を外部記憶装置から読み出し、ジ
    ョブの状態を異常終了前の時点に回復してジョブの実行
    を再開する、ことを特徴とする並列計算機システムのチ
    ェックポイントリスタート方法。
  3. 【請求項3】 請求項1もしくは2記載の並列計算機シ
    ステムのチェックポイントリスタート方法において、障
    害の発生した計算機が障害を回復し、ジョブの実行を再
    開して、障害の発生していない計算機に通信要求を出す
    と、当該障害の発生していない計算機が、サスペンド状
    態の解除もしくは異常終了の回復処理を行うことを特徴
    とする並列計算機システムのチェックポイントリスター
    ト方法。
JP8270874A 1996-10-14 1996-10-14 並列計算機システムのチェックポイントリスタート方法 Pending JPH10116261A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8270874A JPH10116261A (ja) 1996-10-14 1996-10-14 並列計算機システムのチェックポイントリスタート方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8270874A JPH10116261A (ja) 1996-10-14 1996-10-14 並列計算機システムのチェックポイントリスタート方法

Publications (1)

Publication Number Publication Date
JPH10116261A true JPH10116261A (ja) 1998-05-06

Family

ID=17492176

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8270874A Pending JPH10116261A (ja) 1996-10-14 1996-10-14 並列計算機システムのチェックポイントリスタート方法

Country Status (1)

Country Link
JP (1) JPH10116261A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139621A (ja) * 2004-11-12 2006-06-01 Nec Electronics Corp マルチプロセッシングシステム及びマルチプロセッシング方法
JP2007533031A (ja) * 2004-04-15 2007-11-15 レイセオン カンパニー Hpcノード障害の検出及び管理を行うシステム及び方法
JP2008123357A (ja) * 2006-11-14 2008-05-29 Honda Motor Co Ltd 並列計算機システム、並列計算方法および並列計算機用プログラム
US8190714B2 (en) 2004-04-15 2012-05-29 Raytheon Company System and method for computer cluster virtualization using dynamic boot images and virtual disk
US8910175B2 (en) 2004-04-15 2014-12-09 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US9037833B2 (en) 2004-04-15 2015-05-19 Raytheon Company High performance computing (HPC) node having a plurality of switch coupled processors
US9178784B2 (en) 2004-04-15 2015-11-03 Raytheon Company System and method for cluster management based on HPC architecture

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9189278B2 (en) 2004-04-15 2015-11-17 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US10621009B2 (en) 2004-04-15 2020-04-14 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US9037833B2 (en) 2004-04-15 2015-05-19 Raytheon Company High performance computing (HPC) node having a plurality of switch coupled processors
US10769088B2 (en) 2004-04-15 2020-09-08 Raytheon Company High performance computing (HPC) node having a plurality of switch coupled processors
US9178784B2 (en) 2004-04-15 2015-11-03 Raytheon Company System and method for cluster management based on HPC architecture
US8190714B2 (en) 2004-04-15 2012-05-29 Raytheon Company System and method for computer cluster virtualization using dynamic boot images and virtual disk
US8910175B2 (en) 2004-04-15 2014-12-09 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US10289586B2 (en) 2004-04-15 2019-05-14 Raytheon Company High performance computing (HPC) node having a plurality of switch coupled processors
US11093298B2 (en) 2004-04-15 2021-08-17 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
JP2007533031A (ja) * 2004-04-15 2007-11-15 レイセオン カンパニー Hpcノード障害の検出及び管理を行うシステム及び方法
US8984525B2 (en) 2004-04-15 2015-03-17 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US9189275B2 (en) 2004-04-15 2015-11-17 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US9594600B2 (en) 2004-04-15 2017-03-14 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US9832077B2 (en) 2004-04-15 2017-11-28 Raytheon Company System and method for cluster management based on HPC architecture
US9904583B2 (en) 2004-04-15 2018-02-27 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US9928114B2 (en) 2004-04-15 2018-03-27 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
JP2006139621A (ja) * 2004-11-12 2006-06-01 Nec Electronics Corp マルチプロセッシングシステム及びマルチプロセッシング方法
US7627782B2 (en) 2004-11-12 2009-12-01 Nec Electronics Corporation Multi-processing system and multi-processing method
US7870424B2 (en) 2006-11-14 2011-01-11 Honda Motor Co., Ltd. Parallel computer system
JP2008123357A (ja) * 2006-11-14 2008-05-29 Honda Motor Co Ltd 並列計算機システム、並列計算方法および並列計算機用プログラム

Similar Documents

Publication Publication Date Title
KR100557399B1 (ko) 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법
JP3737695B2 (ja) 透過的時間ベースの選択的ソフトウェア若返りのためのシステム及び方法
JP3982353B2 (ja) フォルトトレラントコンピュータ装置、その再同期化方法及び再同期化プログラム
KR920003497B1 (ko) 억세스 손실 처리용 시스템 및 그 보호방법
US6195760B1 (en) Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
US6266781B1 (en) Method and apparatus for providing failure detection and recovery with predetermined replication style for distributed applications in a network
JP5548647B2 (ja) 計算機システムでの部分障害処理方法
US20080229158A1 (en) Restoration device for bios stall failures and method and computer program product for the same
US7428660B2 (en) Starting control method, duplex platform system, and information processor
JPH10116261A (ja) 並列計算機システムのチェックポイントリスタート方法
JPH05314075A (ja) オンラインコンピュータ装置
JPH0764930A (ja) Cpu間相互監視方法
JP3536293B2 (ja) 二重化コンピュータ装置
JP2004046658A (ja) データ転送方法
JPH07141308A (ja) 情報処理システムにおけるバックアップ方法
JP2000066913A (ja) 任意プロセッサのプログラム・データ無中断更新システム
JP2003256399A (ja) ホットスタンバイシステム切り替え制御方式
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JPS6128141B2 (ja)
JPH05216855A (ja) マルチcpu制御方式
JP2517895B2 (ja) マルチシステム用ジョブスケジュ―リング装置
JPH07200334A (ja) 二重化同期運転方式
JP2002244885A (ja) コンピュータシステム監視システム
JP2795246B2 (ja) メモリ二重化システムにおける割り込み処理時の障害リカバリ装置
JP2000353104A (ja) データバックアップ方式及びその方法