JPH11353284A - ジョブ再実行方法 - Google Patents

ジョブ再実行方法

Info

Publication number
JPH11353284A
JPH11353284A JP10161808A JP16180898A JPH11353284A JP H11353284 A JPH11353284 A JP H11353284A JP 10161808 A JP10161808 A JP 10161808A JP 16180898 A JP16180898 A JP 16180898A JP H11353284 A JPH11353284 A JP H11353284A
Authority
JP
Japan
Prior art keywords
job
computer
executed
information
execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10161808A
Other languages
English (en)
Inventor
Yuri Hondo
友理 本堂
Hirofumi Nagasuga
弘文 長須賀
Chieko Akiba
千江子 秋葉
Yoshiyuki Iwakura
義之 岩倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP10161808A priority Critical patent/JPH11353284A/ja
Publication of JPH11353284A publication Critical patent/JPH11353284A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】複数の計算機から構成される計算機システムに
おける計算機障害時にジョブを再実行させる場合の、負
荷分散機能を用いた効率的なジョブ再実行技術を提供す
る。 【解決手段】障害の発生した計算機で実行中であったジ
ョブを再実行させる際に、再実行を行う候補となる計算
機の負荷情報と、被再実行ジョブの中断されるまでの実
行状況の情報から、再実行させる計算機を判定すること
で効率的な実行と計算機障害の影響の早期解決を実現す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数計算機からな
り、各々の計算機の負荷情報が相互に取得可能な手段を
有する計算機システムでのジョブ再実行方法に関し、特
にジョブ実行中の計算機の障害発生時におけるジョブ再
実行方法に関するものである。
【0002】
【従来の技術】大規模システムでは、その社会的用途か
ら高性能及び高信頼性が求められており、その要求から
生まれた機能の一つに、システム障害時におけるジョブ
の自動再実行機能がある。複数計算機から成る計算機シ
ステムにおいて、ある計算機に障害が発生し実行継続が
不可能となったジョブの再実行方式の一例として特開平
7−175766号公報の「疎結合多重システムのジョ
ブ再実行制御方式」がある。
【0003】これは、ジョブを投入する場合は予め再実
行させる計算機を定義しておき、ある計算機に障害が発
生した場合は、その計算機の回復を待たずに、上記の予
め定義しておいた別計算機にスケジューリングすること
で、速やかに再実行が行えるような手段を提供するもの
である。
【0004】
【発明が解決しようとする課題】大規模システムでは、
複数の計算機をノードとして接続することで構成される
クラスタ型計算機システム上で業務実施するのが主流に
なりつつある。このようなクラスタ型計算機システム上
で効率よく業務処理を遂行するためには、各ノードの計
算機資源を有効に活用する必要がある。そのためには、
特定の計算機ノードに業務処理が集中することがないよ
うに、各計算機ノードに処理を分散させている。
【0005】上記従来技術は、障害により再実行する必
要の生じたジョブをスケジュールする計算機は、予めジ
ョブ制御言語や特定の情報格納領域に記述されているこ
とが前提となっている。従って、上記のようなクラスタ
型計算機システムで上記従来技術を実現した場合は、障
害が発生した場合は特定の計算機に処理が集中し、効率
よい業務処理遂行が妨げられる可能性がある。
【0006】また、上記従来技術では、障害が発生した
場合には、特定の計算機がマスタ計算機としてジョブの
再スケジューリングを行うことになっている。従って、
そのマスタ計算機自体に障害が発生した場合は回復作業
に支障をきたす可能性がある。上記クラスタ型計算機シ
ステムは、従来のマスタスレーブ構成をとる疎結合マル
チプロセサシステムとは異なり、特定の計算機をマスタ
として固定することなく自律的に処理を行い耐障害性を
高めることを特徴とするシステムである。従って固定的
な特定のマスタ計算機の存在を前提とする上記従来技術
ではこのクラスタ型計算機システムの利点を損なう恐れ
があった。
【0007】本発明は複数計算機から成りシステムを構
成する各計算機の負荷情報を取得する手段を有する計算
機システムにおけるジョブの再実行方法に関するもので
あり、以下の二つの目的を持つ。
【0008】本発明の第一の目的は、この負荷情報取得
手段を利用し、再実行するべきジョブの特性をふまえた
再スケジューリングすることで、計算機障害の影響を抑
えた効率的なクラスタ型計算機システムの運用を実現す
ることにある。
【0009】本発明の第二の目的は、複数の計算機ノー
ドがジョブの回復手段を有することで、特定の計算機ノ
ードの障害によるジョブ再実行不能状態を回避し、シス
テム全体の耐障害性を向上させることにある。
【0010】
【課題を解決するための手段】効率よく業務処理を遂行
するためには、特定の計算機ノードに業務処理が集中す
ることがないように、各計算機ノードに処理を分散させ
なければならない。そのために、クラスタ型計算機シス
テムでは各々の計算機の負荷を収集し、その情報をシス
テム全体の処理状況として各計算機ノードで実行される
処理が取得できる負荷情報取得手段が具備されているも
のが多い。本発明ではこの負荷情報取得手段を利用し、
再実行するべきジョブをその特性に見合った計算機に再
スケジューリングすることで、計算機障害の影響を抑え
たクラスタ型計算機システムの運用を実現する。
【0011】ジョブを実行する複数の計算機とそれらの
負荷情報等を格納するために上記複数の計算機各々から
書き込み・参照可能な領域を保持する1つの高速結合装
置、または共有拡張記憶装置、または特定計算機の記憶
装置、またはその他の記憶装置から成り、上記複数の計
算機が自計算機の負荷情報を収集しシステム全体の負荷
情報を格納する領域に対する更新を行う負荷情報更新処
理機能と、上記格納された負荷情報を要求に応じて通知
する負荷情報通知処理機能からなる負荷情報制御手段を
有し、ジョブの実行内容を定義したジョブ制御文を格納
した記憶装置と、ジョブの実行順序を登録するジョブ登
録簿を格納した記憶装置と、各計算機で実行しているジ
ョブの実行履歴を格納した記憶装置がシステム内の計算
機各々から共通して参照及び更新可能である計算機シス
テムで、上記第一の目的を達成するために、上記各計算
機からアクセス可能な領域におかれた計算機システムの
稼働情報からシステム内の計算機に発生した障害を検知
するステップと、上記検知ステップにおいて障害が発生
した場合は、発生した計算機とそこで実行されていたジ
ョブの情報を取得し、そのジョブを再実行する準備をす
るステップと、上記準備をするステップの通知により、
障害の発生した計算機での実行履歴から再実行するジョ
ブの情報を取得するステップと、ジョブを再実行する際
のシステムの各計算機ノードの負荷情報を取得するステ
ップと、上記ジョブの情報と計算機ノードの負荷情報か
ら、上記ジョブを再実行する計算機を決定するステップ
と、上記決定により自計算機が上記ジョブを再実行する
に適した計算機であると判定された場合は、そのジョブ
を自計算機に再投入し実行を行うステップを設ける。こ
こで、上記障害の発生した計算機での実行履歴から得る
ジョブの情報は、ジョブの中断までの実行時間、実行時
間に占めるCPU使用時間、前記CPU使用時間と前記
実行時間の比率、使用した入出力装置台数等が挙げられ
る。
【0012】上記第二の目的を達成するために、上記計
算機システム内の各々の計算機が、上記第一の目的を達
成するための上記複数のステップを具備し、ある計算機
に障害が発生した場合は、他の計算機上の上記複数のス
テップが実行されるものとする。
【0013】上記各計算機からアクセス可能な領域にお
かれた計算機システムの稼働情報からシステム内の計算
機に発生した障害を検知するステップと、上記検知ステ
ップにおいて障害が発生した場合は、発生した計算機と
そこで実行されていたジョブの情報を取得し、そのジョ
ブを再実行する準備をするステップにより、ジョブの再
実行を行う計算機が自律的に中断したジョブの再投入を
行うことができる。
【0014】上記準備をするステップの通知により、障
害の発生した計算機での実行履歴から再実行するジョブ
の情報を取得するステップと、ジョブを再実行する際の
システムの各計算機ノードの負荷情報を取得するステッ
プにより、自計算機で再実行するためのジョブの情報
と、計算機システム内での自計算機の負荷情報を把握す
るための情報を取得することができる。
【0015】上記ジョブの情報とノードの負荷情報か
ら、上記ジョブを再実行する計算機を決定するステップ
と、上記決定により自計算機が上記ジョブを再実行する
に適した計算機であると判定された場合は、そのジョブ
を自計算機に再投入し実行を行うステップにより、再実
行すべきジョブの特性に合わせた計算機での再実行が可
能となる。
【0016】
【発明の実施の形態】本発明の実施形態を図を用いて詳
細に説明する。
【0017】まず第一の実施形態について図1〜図4を
用いて説明する。
【0018】本実施形態では、一つ以上の複数の計算機
により構成されるシステムを対象とする。複数の計算機
は相互に通信を行う手段として、各計算機から更新・参
照可能である領域を保持する高速結合装置により各計算
機が接続されているものとする。また、ジョブの実行内
容を定義したジョブ制御文を格納した記憶装置と、ジョ
ブの実行順序を登録するジョブ登録簿を格納した記憶装
置と、各計算機で実行しているジョブの実行履歴を格納
した記憶装置が各計算機から共通して更新・参照可能で
あるものとする。
【0019】図1は、本実施形態の基本的な構成を表し
ている。CPU102およびメモリ103から構成され
る高速結合装置101により接続された複数の計算機1
06は各々がCPU107およびメモリ108から構成
される。
【0020】システム内の各計算機の負荷情報を管理す
る負荷情報制御部800は計算機106のメモリ108
上に置かれ、負荷情報更新部802と負荷情報通知部8
01から構成される。負荷情報更新部802は一定時間
毎に自計算機の負荷情報を収集し、その内容を高速結合
装置101のメモリ103上の負荷情報105の領域に
書き込む処理を行う。負荷情報通知部801は、本発明
のジョブ再実行部300やその他のプログラムの要求に
より、負荷情報105の情報を通知したり、負荷情報1
05の内容から最も負荷の低い計算機を判定し結果を通
知したりする処理を行う。
【0021】各計算機106は自計算機が稼働している
という情報をシステム稼働情報104に置き、他計算機
に障害が発生したか否かという情報を取得できるように
なっている。
【0022】各々の計算機106のメモリ108上には
障害により中断されたジョブを再実行するジョブ再実行
部300が設置されている。ジョブ再実行部300は、
システム稼働情報104から他計算機の障害を認識する
障害認識部400と、再実行すべきジョブの情報をジョ
ブ実行履歴200とジョブ制御文112から取得して再
実行の準備を行うジョブジョブ再実行情報取得部500
と、取得したジョブの情報と負荷情報通知部801から
取得した負荷情報105からジョブの特性を判定し、再
実行するのに適した計算機を選択する再実行情報判定部
700と、再実行するのに適した計算機が自計算機であ
った場合は自計算機に対してジョブの再投入を行うジョ
ブ再投入部600から構成される。ここでは、中断した
ジョブの情報として、そのジョブの中断するまでの平均
CPU使用率を用いて説明を行う。
【0023】各々の計算機106のメモリ108上に
は、ジョブ再投入部600からの通知でジョブの起動を
行うジョブ起動プログラム109と、ジョブの実行を行
うジョブ実行プログラム110が設置されている。
【0024】ジョブ実行履歴200の構造を図2に示
す。ジョブ実行履歴200は計算機106のジョブ実行
単位である空間に対応した複数のレコードから構成され
る。その空間で実行されていたジョブ名、実行を開始し
た日付、開始した時刻、そのジョブの障害が発生した時
刻までのCPU使用時間等が含まれている。
【0025】障害により実行が中断されたジョブの再実
行を行うジョブ再実行部300の処理の流れを図3によ
り説明する。
【0026】他計算機に障害が発生したか否かの情報を
取得し、障害が発生した場合は他計算機で実行が中断さ
れたジョブの回復処理を開始する(ステップ400)。
【0027】障害の発生した計算機の障害が発生した時
刻等の情報を含むシステム稼働情報104と、障害の発
生した計算機で実行されていたジョブの情報を含むジョ
ブ実行履歴200と、ジョブの処理内容を定義したジョ
ブ制御文112からジョブの情報を取得する(ステップ
500)。
【0028】再実行すべきジョブが存在するかを判定す
る(ステップ301)。上記判定が偽であった場合、処
理を終了する。上記判定が真であった場合、取得した情
報から再実行情報判定処理700により、再実行するに
適した計算機を求める(ステップ302)。
【0029】上記判定から得られた再実行に適した計算
機が自計算機であるか判定を行う(ステップ303)。
上記判定が偽であった場合、ステップ304から処理を
行う。上記判定が真であった場合、自計算機のジョブ起
動プログラム109に対し、ジョブの起動要求を行う
(ステップ600)。
【0030】まだ再実行すべきジョブがあるかを判定す
る(ステップ304)。上記判定が真であった場合、ス
テップ302から次の処理を行う。上記判定が偽であっ
た場合、処理を終了する。
【0031】再実行情報判定部の処理の流れを図4によ
り説明する。
【0032】ジョブ再実行プログラムから再実行すべき
ジョブの情報を取得する。システム稼働情報104に含
まれる障害が発生した時刻の情報と、ジョブ実行履歴2
00に含まれるジョブが実行開始した時刻の情報から、
中断するまでの経過時間が取得できる。また、ジョブ実
行履歴200からそのジョブの中断するまでのCPU使
用時間が取得できる。ここから対象となるジョブの平均
したCPU使用率が求められる(ステップ701)。
【0033】次に負荷情報通知部801から、再実行す
るジョブが実行可能な計算機の現時点での負荷情報を取
得する(ステップ701)。
【0034】ステップ701で求めたジョブが消費する
CPU使用率を割り当て可能な計算機を判定する(ステ
ップ703)。
【0035】ステップ703により求めたジョブを再実
行するのに適した計算機の判定結果を戻す(ステップ7
04)。
【0036】以上、第一の実施形態を具体的に説明した
が、前記実施形態において再実行するジョブから得られ
る情報をジョブの中断するまでの平均CPU使用率とし
たが、これを中断するまでのジョブの実行時間としても
よい。その場合は、長大な実行時間がかかるジョブを特
定計算機に分担させるといったシステムの形態が実現で
きる。
【0037】また、再実行するジョブから得られる情報
を、ジョブ制御文112から得られる入出力装置の台数
としてもよい。その場合は、入出力装置の台数に比較的
余裕のある計算機に振り分けることが可能となる。
【0038】以上、本発明の実施形態において各計算機
が接続される装置を高速結合装置として説明したが、そ
の装置を共有拡張記憶装置としてもよい。その場合の基
本的な構成を図5に示す。システムを構成する全ての計
算機106−nと接続されている共有拡張記憶装置11
3上にシステム稼働情報104と負荷情報105が設置
されるものとする。
【0039】また、上記の領域を保持する装置をディス
ク装置としてもよい。その場合の基本的な構成を図6に
示す。システムを構成する全ての計算機106−nと接
続されているディスク装置114上にシステム稼働情報
104と負荷情報105が設置されるものとする。
【0040】
【発明の効果】本発明によれば、システム内の計算機の
障害によって再実行しなければならないジョブが短時間
に大量に発生しても、効率的に処理できるようにジョブ
の特性にあわせてシステム内に分散させ再実行すること
ができる。
【0041】さらに、障害のため実行が中断したジョブ
を再実行するため分散させる機能を特定計算機に偏らせ
ることなく、その時の計算機システムの運用状況に合わ
せて分散することが可能となり、高性能化、高信頼化で
きる。
【図面の簡単な説明】
【図1】本発明のジョブ再実行方法の第一の実施例を示
した計算機システムの構成図である。
【図2】本発明の入力情報となるジョブ実行履歴の説明
図である。
【図3】ジョブ再実行部の処理を説明したフローチャー
トである。
【図4】再実行情報判定部の処理を説明したフローチャ
ートである。
【図5】本発明のジョブ再実行方法を実現した計算機シ
ステムの別の構成図である。
【図6】本発明のジョブ再実行方法を実現した計算機シ
ステムの別の構成図である。
【符号の説明】
101…高速結合装置、 102…高速結合装置
のCPU、103…高速結合装置のメモリ、104…シ
ステム稼働情報管理テーブル、105…負荷情報、
106−n…計算機、107−n…計算機のC
PU、 108−n…計算機のメモリ、300−n…再
実行部、 400−n…障害認識部、500−n
…ジョブ再実行情報取得部、 600−n…ジョブ再
投入部、700−n…再実行情報判定部、800−n…
負荷情報制御部、109−n…ジョブ起動プログラム、
110−n…ジョブ実行プログラム、 200−n
…ジョブ実行履歴、111−n…ジョブ登録簿、
112−n…ジョブ制御文。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 岩倉 義之 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】複数の計算機から構成される計算機システ
    ムに、上記計算機システム上で動作している全てのジョ
    ブが使用する計算機資源と稼働状況に関する情報を収集
    し、上記システム内の全ての計算機ノードが上記収集し
    た情報を参照することを可能とするステップを有する計
    算機システムのジョブの再実行方法において、 第一の上記計算機ノードに障害が発生した場合に、上記
    計算機システム内の当該第一の計算機を除いた計算機か
    ら成る第二の計算機群の各々は、上記収集した情報から
    上記第一の計算機上で実行していたジョブの特性を解析
    し、判断基準に基づいて自計算機ノードで再実行させる
    ジョブを上記第一の計算機上で実行していたジョブの中
    から求め、求めたジョブを自計算機ノード上で再実行さ
    せるステップを有することを特徴とするジョブ再実行方
    法。
  2. 【請求項2】請求項1記載のジョブ再実行方法におい
    て、上記判定基準としてCPU使用率を用い、自計算機
    のCPU負荷が他計算機に対して低く、自計算機のCP
    U負荷から得るCPU使用率の閾値を越えないCPU使
    用率であることが上記収集した情報から得られるジョブ
    を求めて再実行を行うことを特徴とするジョブ再実行方
    法。
  3. 【請求項3】請求項1記載のジョブ再実行方法におい
    て、上記判定基準として上記中断したジョブがCPUを
    多く使用するジョブであるか又は入出力処理を多く行う
    ジョブであるかを用い、自計算機のCPU負荷が低い場
    合はCPUを多く使用するジョブを求め、自計算機の入
    出力装置の使用率が低い場合は入出力処理を多く行うジ
    ョブを求めて再実行を行うことを特徴とするジョブ再実
    行方法。
  4. 【請求項4】請求項1記載のジョブ再実行方法におい
    て、上記判定基準として上記中断したジョブの中断する
    までの実行時間を用い、自計算機の予め指定された閾値
    を越えない実行時間を持つジョブを求めて再実行を行う
    ことを特徴とするジョブ再実行方法。
JP10161808A 1998-06-10 1998-06-10 ジョブ再実行方法 Pending JPH11353284A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10161808A JPH11353284A (ja) 1998-06-10 1998-06-10 ジョブ再実行方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10161808A JPH11353284A (ja) 1998-06-10 1998-06-10 ジョブ再実行方法

Publications (1)

Publication Number Publication Date
JPH11353284A true JPH11353284A (ja) 1999-12-24

Family

ID=15742315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10161808A Pending JPH11353284A (ja) 1998-06-10 1998-06-10 ジョブ再実行方法

Country Status (1)

Country Link
JP (1) JPH11353284A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421613B2 (en) 2004-05-26 2008-09-02 Hitachi, Ltd. Method and system for managing of job execution
JP2009003923A (ja) * 2007-05-18 2009-01-08 Nec Infrontia Corp スロットインターフェースアクセス装置、その方法及びそのプログラム並びに主装置の冗長構成及び代替方法
JP2009217474A (ja) * 2008-03-10 2009-09-24 Fujitsu Ltd ジョブ管理プログラム、情報処理装置およびジョブ管理方法
US8473774B2 (en) 2007-05-18 2013-06-25 Nec Infrontia Corporation Main device redundancy configuration and main device replacing method
JP2018049395A (ja) * 2016-09-20 2018-03-29 株式会社東芝 ジョブ実行制御装置およびプログラム
US10346262B2 (en) 2015-09-18 2019-07-09 Mitsubishi Electric Corporation Job management apparatus, job management method and computer readable medium to generate and execute a retry job when an error occurs during a job step

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421613B2 (en) 2004-05-26 2008-09-02 Hitachi, Ltd. Method and system for managing of job execution
JP2009003923A (ja) * 2007-05-18 2009-01-08 Nec Infrontia Corp スロットインターフェースアクセス装置、その方法及びそのプログラム並びに主装置の冗長構成及び代替方法
US8473774B2 (en) 2007-05-18 2013-06-25 Nec Infrontia Corporation Main device redundancy configuration and main device replacing method
JP2009217474A (ja) * 2008-03-10 2009-09-24 Fujitsu Ltd ジョブ管理プログラム、情報処理装置およびジョブ管理方法
US8584127B2 (en) 2008-03-10 2013-11-12 Fujitsu Limited Storage medium storing job management program, information processing apparatus, and job management method
US10346262B2 (en) 2015-09-18 2019-07-09 Mitsubishi Electric Corporation Job management apparatus, job management method and computer readable medium to generate and execute a retry job when an error occurs during a job step
JP2018049395A (ja) * 2016-09-20 2018-03-29 株式会社東芝 ジョブ実行制御装置およびプログラム

Similar Documents

Publication Publication Date Title
CN110941502B (zh) 消息处理方法、装置、存储介质及设备
US8549536B2 (en) Performing a workflow having a set of dependancy-related predefined activities on a plurality of task servers
US8560889B2 (en) Adding scalability and fault tolerance to generic finite state machine frameworks for use in automated incident management of cloud computing infrastructures
US9798595B2 (en) Transparent user mode scheduling on traditional threading systems
US7810099B2 (en) Optimizing workflow execution against a heterogeneous grid computing topology
US8874961B2 (en) Method and system for automatic failover of distributed query processing using distributed shared memory
US8332443B2 (en) Masterless distributed batch scheduling engine
US6834358B2 (en) Restartable database loads using parallel data streams
JPH10214199A (ja) プロセスリスタート方法およびプロセスリスタートを実現するためのシステム
CN112162841B (zh) 面向大数据处理的分布式调度系统、方法及存储介质
US10162713B2 (en) Persistent application activation and timer notifications
US20100251248A1 (en) Job processing method, computer-readable recording medium having stored job processing program and job processing system
JP2000137692A (ja) 分散ノード間負荷分散方式
JP4992740B2 (ja) マルチプロセッサシステム、障害検出方法および障害検出プログラム
JPH11259326A (ja) ホットスタンバイシステムおよびホットスタンバイシステムにおける自動再実行方法およびその記録媒体
JPH11353284A (ja) ジョブ再実行方法
US9355117B1 (en) Techniques for backing up replicated data
CN102915257B (zh) 基于torque的并行检查点执行方法
JPH117431A (ja) 複数コンピュータで実行する業務の障害回復システム
CN113342511A (zh) 一种分布式任务管理系统及方法
US20240256551A1 (en) Execution tracing for node cluster
CN115269151A (zh) 用于调度作业的方法
JPWO2007108065A1 (ja) サーバ管理方法、プログラム及び装置
CN112860413A (zh) 一种集中式作业调度系统、装置、电子设备及计算机可读存储介质
Hussain et al. Fault Tolerance using" Parallel Shadow Image Servers (PSIS)" in Grid Based Computing Environment