JPH10326201A - 分散バッチジョブ処理システムおよびその障害時におけるジョブの自動再起動方法 - Google Patents

分散バッチジョブ処理システムおよびその障害時におけるジョブの自動再起動方法

Info

Publication number
JPH10326201A
JPH10326201A JP9135039A JP13503997A JPH10326201A JP H10326201 A JPH10326201 A JP H10326201A JP 9135039 A JP9135039 A JP 9135039A JP 13503997 A JP13503997 A JP 13503997A JP H10326201 A JPH10326201 A JP H10326201A
Authority
JP
Japan
Prior art keywords
job
computer
shared disk
disk device
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9135039A
Other languages
English (en)
Other versions
JP3139536B2 (ja
Inventor
Hiroshi Tabuchi
公士 田淵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP09135039A priority Critical patent/JP3139536B2/ja
Publication of JPH10326201A publication Critical patent/JPH10326201A/ja
Application granted granted Critical
Publication of JP3139536B2 publication Critical patent/JP3139536B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】 コンピュータのうちの一つに障害が発生した
とき、そのコンピュータに登録されていたジョブを二重
起動することなしに別のコンピュータで自動的に再起動
する。 【解決手段】 共有ディスク装置4は、障害検出手段4
1と接続切替手段42をもつ外部記憶装置であり、その
接続は複数のコンピュータに対して行われるが、接続切
替手段42は常時一つのコンピュータからの接続のみを
受け付ける。障害検出手段41はバッチを処理するコン
ピュータ2の障害を検出し、接続切替手段42の接続を
切替える。平時、共有ディスク装置4はコンピュータ2
のジョブ情報31−2とジョブ実行結果32−2の記録
を行っているが、障害発生時はコンピュータ1に接続が
切替えられ、ジョブ再投入手段群20を用いてコンピュ
ータ1に再投入することで、自動的に再実行を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、各々がバッチジョ
ブ処理機能を有する複数台のコンピュータから構成され
る分散バッチジョブ処理システムに関し、特に、障害発
生時に自動的に再起動を行う方法に関する。
【0002】
【従来の技術】従来、この種の分散バッチジョブ処理シ
ステムにおいては、ジョブの自動再実行を次のようにし
て行っている。すなわち、分散バッチジョブ処理システ
ムは、各々がバッチジョブを実行する複数台のコンピュ
ータと、バッチジョブのスケジュールと投入を行う再投
入用コンピュータとを備えている。そして、バッチジョ
ブを実行するある1つのコンピュータに障害が発生した
とき、再投入用コンピュータが当該障害コンピュータで
処理中であったバッチジョブを障害の発生していない別
の実行用のコンピュータに再投入することによって、自
動再起動を実現している。
【0003】このような従来の分散バッチジョブ処理シ
ステムの一例としては、特開平7−175766号公報
(以下、先行技術1と呼ぶ。)に開示された「疎結合多
重システムのジョブ再実行制御方式」がある。この先行
技術1では、第nのホストコンピュータに障害が発生し
た場合に、指定された第mのホストコンピュータにより
速やかに実行中のジョブの再実行を行っている。すなわ
ち、第1のホストコンピュータで、ジョブ制御言語翻訳
手段は、ジョブ制御言語を翻訳して、第nのホストコン
ピュータのジョブを再実行する第mのホストコンピュー
タの指定をジョブ管理情報保持手段に登録する。ホスト
障害認識手段は、ホスト監視装置からの障害通知を認識
する。ジョブ再実行準備手段は、ジョブ管理情報保持手
段のジョブ制御情報を更新し、障害の第nのホストコン
ピュータで実行中のジョブに対する再実行を要求する。
ジョブスケジュール手段は、そのジョブの再スケジュー
リングを行い、そのジョブの再実行を第mのホストコン
ピュータに要求する。ジョブ起動手段は、実行を要求さ
れたジョブの実行プログラムを起動する。
【0004】また、特開平8−227368号公報(以
下、先行技術2と呼ぶ。)には、障害の発生した処理単
位の検出を容易にし、効率的なジョブの再実行を行うこ
とを可能とする「ジョブ再実行方式」が開示されてい
る。この先行技術2では、コンピュータシステム上で動
作するバッチ処理的なジョブの構成と実行状態とを個々
に処理単位レべルで監視するためのログ実行制御部およ
びログファイルと、前記ジョブと各処理単位の実行状態
を表示画面に表示する状態表示制御部および表示装置
と、前記表示装置の表示画面から前記ジョブと処理とを
指定して再実行を指示するコマンドを入力することによ
り、該ジョブの指定された処理以降の処理を再実行する
再実行制御部、プロセス実行制御部及びジョブ構成管理
テーブルとを備える。
【0005】さらに、特開平2−253441号公報
(以下、先行技術3と呼ぶ。)には、装置障害が発生し
たときに自動的に装置を切換え、再実行させることがで
きる「計算機システムの装置切換方式」が開示されてい
る。この先行技術3では、ジョブ実行中に装置障害が発
生すると、装置障害受信手段が障害の通知を受け、装置
復旧可能不可能判断手段が復旧が可能であるか不可能で
あるかを判断する。装置の復旧が可能であると判断され
たときには、装置復旧指示出力手段が装置の復旧を指示
し、この指示により復旧作業が行われ、ジョブ再実行手
段がジョブを自動的に再実行する。また、装置の復旧が
不可能であると判断されたときには、装置自動切換手段
が他装置へ実行中のジョブの割り当てを自動的に切り換
え、媒体マウントメッセージ出力手段が切り換えた装置
に媒体をセットするメッセージを出力して作業を行わ
せ、ジョブ再実行手段が実行中であったジョブを自動的
に再実行する。これにより、装置障害が発生したもジョ
ブがエラーになることなく、自動的に装置を切り換えて
ジョブを再実行させることができ、復旧できる場合は復
旧後自動的にジョブを再実行させることができる。
【0006】
【発明が解決しようとする課題】上述した従来(先行技
術1)のジョブ自動再実行方法では、次に述べるような
問題点を有している。ジョブを実行するコンピュータ
に加えて、再投入処理を行う再投入用コンピュータが必
要になる。再投入処理を行う再投入用コンピュータに
障害が発生した場合は再起動処理が行われない。コン
ピュータの異常を正しく検出することは技術的に困難で
あり、誤って異常を検出した場合には、ジョブが二重に
処理される危険性を有している。
【0007】したがって、本発明の目的は、バッチジョ
ブ処理を行う複数台のコンピュータからなる分散バッチ
ジョブ処理システムにおいて、あるコンピュータに障害
が発生したときに、二重起動することなく自動的にバッ
チジョブの再実行を行うことができる、単純な構成の分
散バッチジョブ処理システムを提供することにある。
【0008】なお、先行技術2および3は、いずれも複
数台のコンピュータからなる分散バッチジョブ処理シス
テムではない。
【0009】
【課題を解決するための手段】本発明の第1の態様によ
れば、正常時にバッチジョブ処理を行う少なくとも1台
の現用コンピュータと、前記現用コンピュータに障害が
発生したときに代替して処理を行う少なくとも1台の代
替コンピュータと、前記現用コンピュータの障害を検出
するための障害検出手段と、前記現用コンピュータの障
害発生時に前記現用コンピュータから前記代替コンピュ
ータへの接続の変更を行う接続切替手段を有する共有デ
ィスク装置とを備え、前記代替コンピュータは、前記現
用コンピュータで障害が発生した場合に前記共有ディス
ク装置から情報を取り出して前記代替コンピュータへ再
度ジョブの投入を行うためのジョブ再投入手段群を備え
ることを特徴とする分散バッチジョブ処理システムが得
られる。
【0010】また、本発明の第2の態様によれば、バッ
チ処理を行う複数台のコンピュータを有する分散バッチ
ジョブ処理システムであって、前記コンピュータの障害
を検出するための障害検出手段を含み、前記複数台のコ
ンピュータには、それぞれ、当該コンピュータのジョブ
情報を保存する共有ディスク装置が接続されており、前
記共有ディスク装置の各々は、障害発生時に平常のバッ
チ処理を行うコンピュータからジョブ交替するコンピュ
ータへの接続の変更を接続切替手段を有する、前記分散
バッチジョブ処理システムにおいて、前記複数台のコン
ピュータの各々は、前記平常のバッチ処理を行うコンピ
ュータで障害が発生した場合に前記共有ディスク装置か
ら情報を取り出して前記代替コンピュータへ再度ジョブ
の投入を行うためのジョブ再投入手段群を備えることを
特徴とする分散バッチジョブ処理システムが得られる。
【0011】
【作用】共有ディスク装置は、常時一方のコンピュータ
としか接続されない。接続の切替えは、障害検出手段
が、現在の接続先のコンピュータの障害を検出したとき
に、あらかじめ定義されている他方のコンピュータに対
して行われる。共有ディスク装置上にはジョブ情報が記
録される。正常運用時はそのまま処理が行われ、ジョブ
実行の終了と共にジョブ情報が共有ディスク装置から削
除される。ジョブ実行のコンピュータの一方に障害が発
生した時は、正常に稼働しているコンピュータが共有デ
ィスク装置上からジョブ情報を取り出し、自コンピュー
タに再投入すると同時に共有ディスク装置上に残された
ジョブ情報を削除する。
【0012】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して詳細に説明する。
【0013】図1を参照して、本発明の第1の実施の形
態に係る分散バッチジョブ処理システムについて説明す
る。なお、分散バッチジョブ処理システムを構成するコ
ンピュータで実行されるプログラムは、記録媒体(図示
せず)に記録されていても良い。ここで、「記録媒体」
とは、プログラムを記録したコンピュータ読み取り可能
な記録媒体のことをいい。具体的には、CD−ROM、
プレキシブル・ディスクなどの磁気ディスク、半導体メ
モリなどを含む。さらに、記録媒体はプログラムを記録
した紙でも良い。この場合には、コンピュータはOCR
(光学的文字読取装置)のような読取装置と、この読取
装置で読み取った文字(コード)をコンピュータが認識
できる機械言語に翻訳するコンパイラとを備えていれば
良い。とにかく、記録媒体に記録されたプログラムをコ
ンピュータにインストールすることによって、コンピュ
ータに所定の処理を行わせることができる。
【0014】図示の分散バッチジョブ処理システムは、
常時、バッチジョブの処理を行う第1および第2のコン
ピュータ1および2と、第1のコンピュータ1に接続さ
れた外部記憶装置3と、第1および第2のコンピュータ
1および2に接続された共有ディスク装置4とから構成
されている。この共有ディスク装置4は外部記憶装置の
一種である。
【0015】第1のコンピュータ1は第1のジョブ処理
手段群10−1とジョブ再投入手段群20とを有する。
ジョブ処理手段群10−1は通常にバッチジョブの処理
を行うためものである。ジョブ再投入手段群20は第2
のコンピュータ2で障害が発生した場合に共有ディスク
装置4から情報を取り出してジョブ処理手段群10へ再
度ジョブの投入の行うためのものである。
【0016】第2のコンピュータ2は第1のコンピュー
タ1に実装されている第1のジョブ処理手段群10−1
と同様な第2のジョブ処理手段群10−2を有する。
【0017】外部記憶装置3は第1のコンピュータ1に
投入された第1のジョブ情報31−1と、第1のコンピ
ュータ1によってジョブが実行された場合にジョブによ
って生成される第1のジョブ実行結果32−1とを保存
する。
【0018】共有ディスク装置4は、上記外部記憶装置
3とほぼ同様に、第2のコンピュータに投入された第2
のジョブ情報31−2と、第2のコンピュータ2によっ
てジョブが実行された場合にジョブによって生成される
第2のジョブ実行結果32−2とを保存する。さらに、
共有ディスク装置4は、障害検出手段41と接続切替手
段42とを有する。障害検出手段41は、第1および第
2のコンピュータ1および2の動作を監視し、異常時に
は、接続切替手段42に対し切替え変更を指示し、上記
ジョブ再投入手段群20に対して再投入実施を指示す
る。接続切替手段42は、第1のコンピュータ1と第2
のコンピュータ2の接続を切替え、同時に一方からしか
接続できないようにする。
【0019】この第1の実施の形態において、第2のコ
ンピュータ2は現用コンピュータと呼ばれ、第1のコン
ピュータ1は代替コンピュータと呼ばれる。
【0020】第1のジョブ処理手段群10−1は、第1
のジョブ入力手段101−1と、第1のジョブ受理手段
102−1と、第1のジョブ情報記録手段103−1
と、第1のジョブ実行手段104−1と、第1のジョブ
終了処理手段105−1と、第1の操作員通知手段10
6−1とを有する。
【0021】第1のジョブ入力手段101−1は操作員
などからのジョブ入力を受け付ける。第2のジョブ受理
手段102−1は、第1のジョブ入力手段101−1に
よって入力されたジョブを実際に受理するか否かを判断
する。第1のジョブ情報記録手段103−1は、第1の
ジョブ受理手段102−1によって受理されたジョブを
第1のジョブ情報31−1として外部記憶装置3に格納
する。第1のジョブ実行手段104−1は外部記憶装置
3に記録された第1のジョブ情報31−1を取り出しジ
ョブの実行を行う。第1のジョブ終了処理手段105−
1は、第1のジョブ実行終了をまって外部記憶装置3に
格納された第1のジョブ情報31−1を消去する処理を
行う。第1の操作員通知手段106−1は、第1のジョ
ブ終了処理手段105−1の動作完了をまってをのジョ
ブが終了したことを操作員に通知する。また、第1の操
作員通知手段106−1は、第1のジョブ受理手段10
2−1によってジョブの受理が拒絶されたことを操作員
に通知する。
【0022】同様に、第2のジョブ処理手段群10−2
は、第2のジョブ入力手段101−2と、第2のジョブ
受理手段102−2と、第2のジョブ情報記録手段10
3−2と、第2のジョブ実行手段104−2と、第2の
ジョブ終了処理手段105−2と、第2の操作員通知手
段106−2とを有する。
【0023】第2のジョブ入力手段101−2は操作員
などからのジョブ入力を受け付ける。第2のジョブ受理
手段102−2は、第2のジョブ入力手段101−2に
よって入力されたジョブを実際に受理するか否かを判断
する。第2のジョブ情報記録手段103−2は、第2の
ジョブ受理手段102−2によって受理されたジョブを
第2のジョブ情報31−2として共有ディスク装置4に
格納する。第2のジョブ実行手段104−2は共有ディ
スク装置4に記録された第2のジョブ情報31−2を取
り出しジョブの実行を行う。第2のジョブ終了処理手段
105−2は、第2のジョブ実行終了をまって共有ディ
スク装置4に格納された第2のジョブ情報31−2を消
去する処理を行う。第2の操作員通知手段106−2
は、第2のジョブ終了処理手段105−2の動作完了を
まってをのジョブが終了したことを操作員に通知する。
また、第2の操作員通知手段106−2は、第2のジョ
ブ受理手段102−2によってジョブの受理が拒絶され
たことを操作員に通知する。
【0024】ジョブ再投入手段群20は、ジョブ情報読
出し手段201と、ジョブ再投入手段202と、ジョブ
削除手段203とを有する。ジョブ情報読出し手段20
1は、共有ディスク装置4から第2のジョブ情報31−
2を読み出すためのものである。ジョブ再投入手段20
2は、ジョブ情報読出し手段201によって読み出され
た第2のジョブ情報31−2を適切な情報に修正し、第
1のジョブ受理手段102−1によってジョブの再投入
を試みる。ジョブ削除手段203は、共有ディスク装置
4から再投入されることによって不要になった第2のジ
ョブ情報31−2を削除する。
【0025】次に、図1および図2を参照して、第1の
実施の形態に係る分散バッチジョブ処理システムについ
て説明する。
【0026】正常時は、第1のコンピュータ1および第
2のコンピュータ2は、それぞれ、第1および第2のジ
ョブ処理手段群10−1および10−2を使用してフロ
ーF3の動作を行っている。また、共有ディスク装置4
は初期状態で第2のコンピュータ2と接続されている。
【0027】まず、コンピュータの操作員が第1および
第2のジョブ入力手段101−1および101−2を使
用してジョブの入力を行う(ステップS31)。入力さ
れたジョブは属性や操作員の権限等のジョブ情報の異常
の有無を検査される(ステップS32)。
【0028】ジョブの投入を許可するならば、第1のコ
ンピュータ1では第1のジョブ情報31−1を外部記憶
装置3へ第1のジョブ情報記憶手段103−1によって
記録し、第2のコンピュータ2では第2のジョブ情報3
1−2を共有ディスク装置4へ第2のジョブ情報記憶手
段103−2によって記録する(ステップS33)。ジ
ョブの投入を否認するならば、否認された旨を、第1の
コンピュータ1では第1の操作員通知手段106−1を
使用して、第2のコンピュータ2では第2の操作員通知
手段106−2を使用して通知する(ステップS3
6)。
【0029】ジョブ情報が記録された後、第1のコンピ
ュータ1では記録された第1のジョブ情報31−1をも
とに第1のジョブ実行手段104−1はジョブを実行
し、第2のコンピュータ2では記録された第2のジョブ
情報31−2をもとに第2のジョブ実行手段104−2
はジョブを実行する(ステップS34)。このときジョ
ブは、第1のコンピュータ1ではその実行結果を外部記
憶装置3上に出力し、第2のコンピュータ2ではその実
行結果を共有ディスク装置4上に出力する。
【0030】ジョブ実行終了をまって、第1のコンピュ
ータ1では第1のジョブ終了処理手段105−1は外部
記憶装置3の第1のジョブ情報31−1を削除し、第2
のコンピュータ2では第2のジョブ終了処理手段105
−2は共有ディスク装置4の第2のジョブ情報31−2
を削除する(ステップS35)。
【0031】ジョブ情報削除完了後、第1のコンピュー
タ1では第1の操作員通知手段106−1を用いてジョ
ブの実行が正常に完了したことを通知して終了し、第2
のコンピュータ2では第2の操作員通知手段106−2
を用いてジョブの実行が正常に完了したことを通知して
終了する(ステップS36)。
【0032】次に、第2のコンピュータ2で障害が発生
した時の動作について説明する。まず、共有ディスク装
置4が障害検出手段41によって障害を検出する(ステ
ップS11)。つぎに、障害検出手段41は接続切替手
段42に対して第2のコンピュータ2から第1のコンピ
ュータ1に対して接続切替えを指示する(ステップS1
2)。
【0033】障害検出手段41は、さらに、正常に稼働
している第1のコンピュータ1上のジョブ情報読出し手
段201に対して、共有ディスク装置4上にある第2の
ジョブ情報31−2を再投入するように指示を出す(ス
テップS13)。
【0034】指示を受けたジョブ情報読出し手段201
は、共有ディスク装置4から第2のジョブ情報31−2
を読み出す(ステップS21)。読み出した第2のジョ
ブ情報31−2をジョブ再投入手段202を用いて、ジ
ョブの再投入を行う(ステップS22)。再投入後以降
のジョブの処理は第1のジョブ処理手段群10−1によ
って正常時と同様に処理される(フローF3のポイント
2)。
【0035】ジョブ処理の流れとは別に、つぎのステッ
プS23で、共有ディスク装置4上の第2のコンピュー
タ2が作成した第2のジョブ情報31−2の削除をジョ
ブ情報削除手段42によって行う。
【0036】次に、図1に示した分散バッチジョブ処理
システムの動作について詳細に詳細に説明する。
【0037】初期状態で共有ディスク装置4の回線は第
2のコンピュータ2と接続されている。まず第2のコン
ピュータ2に対し、操作員がジョブAを投入する。この
投入処理は第2のコンピュータ2上の第2のジョブ投入
手段101−2によって行われる。このジョブの属性や
権限の判断が第2のジョブ受理手段102−2によって
行われ、結果的に投入は正常に行われることになったと
する。次に、第2のジョブ情報記録手段103−2によ
って共有ディスク装置4に第2のジョブ情報31−2の
形態でジョブAが記録される。この時点で、ジョブAの
投入処理が完了したことになる。つぎに第2のジョブ実
行手段104−2によってジョブAの情報を取り出し、
第2のコンピュータ2上でジョブAの実行を行う。ジョ
ブAは実行結果の出力ファイルを第2のコンピュータ2
の外部記憶装置でもある共有ディスク装置4上に第2の
ジョブ実行結果32−2として作成していく。
【0038】この時点で第2のコンピュータ2に障害が
発生したとする。そして共有ディスク装置4上の障害検
出手段41がその事象を検出する。障害検出手段41は
接続切替手段42に対し切替えの指示を出す。この指示
により接続切替手段42は第2のコンピュータ2との接
続を停止し、第1のコンピュータ1との接続を開始す
る。この第2のコンピュータ2との接続が切断されたこ
とにより、第2のコンピュータ2で動作していたジョブ
Aは実行結果を更新することができなくなり、ジョブの
実行を継続することが実質的にできなくなる。また、第
2のコンピュータ2から第2のジョブ情報31−2が参
照できないため、新規のジョブも投入されない。
【0039】また、障害検出手段41は正常に動作して
いる第1のコンピュータ1上のジョブ情報読出し手段2
01に対して動作を始めるように指示を出す。
【0040】第1のコンピュータ1では、ジョブ情報読
出し手段201が、共有ディスク装置4上からジョブA
の第2のジョブ情報31−2を採取する。このジョブA
を第1のコンピュータ1の第1のジョブ受理手段102
−1に対して投入する。ここで受理処理が正常に行われ
たとする。ジョブAの情報は今度は第1のコンピュータ
1の外部記憶装置3の第1のジョブ情報31−1として
記録される。つぎに第1のコンピュータ1の第1のジョ
ブ実行手段104−1がジョブAの情報を取り出しジョ
ブを実行する。このときジョブAは共有ディスク装置4
上に残っている前回の途中の実行結果を参照することも
可能で、継続してジョブの実行を行うこともジョブの実
装によっては不可能ではない。参照しない場合は、全く
新規にジョブAが実行される。
【0041】ジョブAの実行が完了すると、第1のジョ
ブ終了処理手段105−1によって外部記憶装置3上の
ジョブAの第1のジョブ情報31−1を削除する。以上
でジョブAの処理が完了したことにより、第1の操作員
通信手段106−1を用いて操作員にジョブの実行完了
を通知する。
【0042】もし、ジョブAを第1のコンピュータ1の
第1のジョブ受理手段102−1に対して投入したとき
に、第2のジョブ情報31−2のジョブAの情報が不完
全であった場合などには、ジョブAの処理が不可能なこ
とがある。この場合、第1のジョブ受理手段102−1
がその異常を検出し、ジョブの受理を拒否し、操作員に
第1の操作員通知手段106−1を用いてその旨を通知
する。
【0043】図3を参照して、本発明の第2の実施の形
態に係る分散バッチジョブ処理システムについて説明す
る。この第2の実施の形態に係る分散バッチジョブ処理
システムでは、上記第1の実施の形態における第1のコ
ンピュータ1用の外部記憶装置3に置き換えて、第2の
コンピュータ2用の同様の共有ディスク装置を使用して
いることである。ここでは、第1のコンピュータ1用の
共有ディスク装置に参照符号4−1を付して第1の共有
ディスク装置と呼び、第2のコンピュータ2用の共有デ
ィスク装置に参照符号4−2を付して第2の共有ディス
ク装置と呼ぶことにする。そして、第2のコンピュータ
2は、第1の実施の形態における第1のコンピュータ1
と同様にジョブ再投入手段群を有する。ここでは、第1
のコンピュータ1のジョブ再投入手段群に参照符号20
−1を付して第1のジョブ再投入手段群と呼び、第2の
コンピュータ2のジョブ再投入手段群に参照符号20−
2を付して第2のジョブ再投入手段群と呼ぶことにす
る。つまり、第1のコンピュータ1と第1のコンピュー
タ2の構成は全く同一となる。
【0044】このとき、2つの共有ディスク装置4−1
および4−2の初期接続は、第1の共有ディスク装置4
−1は第1のコンピュータ1に、第2の共有ディスク装
置4−2は第2のコンピュータ2に接続されているとす
る。また、2つの共有ディスク装置4−1および4−2
の障害検出手段41−1および41−2は、障害に関す
る情報を共有し、同期して動作する。つまし、第1の共
有ディスク装置4−1の第1の障害検出手段41−1が
障害を検出すると、その障害を検出した旨が同時に第2
の共有ディスク装置4−2の第2の障害検出手段41−
2にも通知される。また、その逆も行われる。
【0045】次に、第2のコンピュータ2で障害が発生
したときの動作について説明する。第1の実施の形態と
異なることは、第2の共有ディスク装置4−2ばかりで
なく、第1の共有ディスク装置4−1も障害を検出する
ことである。ただし、第1の共有ディスク装置4−1は
初期接続で第1のコンピュータ1に接続されているの
で、接続変更は行われない。よって、このときの動作は
前述した第1の実施の形態と同様になる。
【0046】第1のコンピュータ1で障害が発生したと
きは、逆に第1の共有ディスク装置4−1の接続切替え
が行われ、第2の共有ディスク装置4−2の接続変更は
行われない。このあと、第1の共有ディスク装置4−1
の第1の障害検出手段41−1によって第2のコンピュ
ータ2上の第2のジョブ再投入手段群20−2が起動さ
れ再投入処理が行われる。
【0047】これにより、第1のコンピュータ1、第2
のコンピュータ2のいずれで障害が発生した場合でも、
相互にジョブの自動的な再実行を実現することができ
る。
【0048】本発明は上述した実施形態に限定せず、本
発明の趣旨を逸脱しない範囲内で種々の変更・変形が可
能である。例えば、上述した実施の形態では、コンピュ
ータが2台の場合について述べているが、3台以上ある
場合にも同様に適用できる。また、上述した実施の形態
では、共有ディスク装置が障害検出手段を備えている
が、共有ディスク装置とは別に障害検出手段を設けても
良い。
【0049】
【発明の効果】以上説明したように、本発明では、次に
述べるような効果を奏する。
【0050】第1の効果は、障害検出時に、ジョブの再
投入を行うときにジョブの二重起動の危険性を回避する
ことができることである。その理由は、障害検出時に、
障害の発生したコンピュータで使用していたジョブ情報
とジョブ実行結果を記録した共有ディスク装置の接続を
強制的に切替えることにより、障害の発生したコンピュ
ータで実行されているジョブは共有ディスク装置上のジ
ョブ実行結果を更新することができなくなるからであ
る。よって実質的に障害の発生したコンピュータによる
ジョブの実行は停止することになる。さらに、障害の発
生したコンピュータは共有ディスク装置上のジョブ情報
を参照できなくなるため、新規のジョブも実行できなく
なる。
【0051】第2の効果は、障害の発生したコンピュー
タが復旧したとき、または共有ディスク装置が再接続さ
れたときに、そのコンピュータは共有ディスク装置から
ジョブ情報を取り出すことができないため、ジョブの二
重起動を防止することができることである。その理由
は、ジョブの再投入の処理が完了したとき、障害の発生
したコンピュータで使用していた共有ディスク装置か
ら、取り出したジョブに関するジョブ情報を削除してい
るからである。
【0052】第3の効果は、ジョブの再投入を行うため
の再投入用コンピュータを余分に用意する必要がないこ
とである。その理由は、ジョブの再投入処理をジョブの
実行を行うコンピュータで行っているからである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る分散バッチジ
ョブ処理システムを示すブロック図である。
【図2】図1に示した分散バッチジョブ処理システムの
動作を説明するためのフロー図である。
【図3】本発明の第2の実施の形態に係る分散バッチジ
ョブ処理システムを示すブロック図である。
【符号の説明】
1,2 コンピュータ 3 外部記憶装置 4,4−1,4−2 共有ディスク装置 10−1,10−2 ジョブ処理手段群 20−1,20−2 ジョブ再投入手段群 31−1,31−2 ジョブ情報 32−1,32−2 ジョブ実行結果 41,41−1,41−2 障害検出手段 42,42−1,42−2 接続切替手段 101−1,101−2 ジョブ入力手段 102−1,102−2 ジョブ受理手段 103−1,103−2 ジョブ情報記録手段 104−1,104−2 ジョブ実行手段 105−1,105−2 ジョブ終了処理手段 106−1,106−2 操作員通知手段 201,201−1,201−2 ジョブ情報読出し
手段 202,202−1,202−2 ジョブ再投入手段 203,203−1,203−2 ジョブ削除手段

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 正常時にバッチジョブ処理を行う少なく
    とも1台の現用コンピュータ(2)と、前記現用コンピ
    ュータに障害が発生したときに代替して処理を行う少な
    くとも1台の代替コンピュータ(1)と、前記現用コン
    ピュータの障害を検出するための障害検出手段(41)
    と、前記現用コンピュータの障害発生時に前記現用コン
    ピュータから前記代替コンピュータへの接続の変更を行
    う接続切替手段(42)を有する共有ディスク装置
    (4)とを備え、 前記代替コンピュータ(1)は、前記現用コンピュータ
    で障害が発生した場合に前記共有ディスク装置から情報
    を取り出して前記代替コンピュータへ再度ジョブの投入
    を行うためのジョブ再投入手段群(20)を備えること
    を特徴とする分散バッチジョブ処理システム。
  2. 【請求項2】 前記ジョブ再投入手段群(20)は、前
    記共有ディスク装置に記憶されたジョブ情報を取り出す
    ためのジョブ情報読出し手段(201)と、該ジョブ情
    報読出し手段によって取り出されたジョブ情報によって
    示されるジョブを前記代替コンピュータに再投入するた
    めのジョブ再投入手段(202)と、投入したジョブ情
    報を前記共有ディスク装置上から削除するジョブ削除手
    段(203)とを備えることを特徴とする請求項1に記
    載の分散バッチジョブ処理システム。
  3. 【請求項3】 正常時にバッチジョブ処理を行う少なく
    とも1台の現用コンピュータ(2)と、前記現用コンピ
    ュータに障害が発生したときに代替して処理を行う少な
    くとも1台の代替コンピュータ(1)と、前記現用コン
    ピュータのジョブ情報を保存する共有ディスク装置
    (4)と、前記現用コンピュータの障害を検出するため
    の障害検出手段(41)とを備える分散バッチジョブ処
    理システムであって、前記共有ディスク装置は、前記現
    用コンピュータの障害発生時に前記現用コンピュータか
    ら前記代替コンピュータへの接続の変更を行う接続切替
    手段(42)を有する、前記分散バッチジョブ処理シス
    テムの障害時におけるジョブの自動再起動方法におい
    て、 前記代替コンピュータで、前記共有ディスク装置に記憶
    されたジョブ情報を取り出するステップと、 前記代替コンピュータで、その取り出されたジョブ情報
    によって示されるジョブを前記代替コンピュータに再投
    入するステップと、 前記代替コンピュータで、投入したジョブ情報を前記共
    有ディスク装置上から削除するステップとを含むことを
    特徴とする分散バッチジョブ処理システムの障害時にお
    けるジョブの自動再起動方法。
  4. 【請求項4】 共有ディスク装置に記憶されたジョブ情
    報を取り出す処理と、 該取り出されたジョブ情報によって示されるジョブを代
    替コンピュータに再投入する処理と、 投入したジョブ情報を前記共有ディスク装置上から削除
    する処理とを前記代替コンピュータに実行させるプログ
    ラムを記録したことを特徴とする記録媒体。
  5. 【請求項5】 バッチ処理を行う複数台のコンピュータ
    (1,2)を有する分散バッチジョブ処理システムであ
    って、前記コンピュータの障害を検出するための障害検
    出手段(42−1,42−2)を含み、前記複数台のコ
    ンピュータには、それぞれ、当該コンピュータのジョブ
    情報を保存する共有ディスク装置(4−1,4−2)が
    接続されており、前記共有ディスク装置の各々は、障害
    発生時に平常のバッチ処理を行うコンピュータからジョ
    ブ交替するコンピュータへの接続の変更を接続切替手段
    (42−1,42−2)を有する、前記分散バッチジョ
    ブ処理システムにおいて、 前記複数台のコンピュータの各々は、前記平常のバッチ
    処理を行うコンピュータで障害が発生した場合に前記共
    有ディスク装置から情報を取り出して前記代替コンピュ
    ータへ再度ジョブの投入を行うためのジョブ再投入手段
    群(20−1,20−2)を備えることを特徴とする分
    散バッチジョブ処理システム。
  6. 【請求項6】 前記ジョブ再投入手段群(20−1,2
    0−2)は、別のコンピュータに接続された共有ディス
    ク装置に記憶されたジョブ情報を取り出すためのジョブ
    情報読出し手段(201−1、201−2)と、該ジョ
    ブ情報読出し手段によって取り出されたジョブ情報によ
    って示されるジョブを前記代替コンピュータに再投入す
    るためのジョブ再投入手段(202−1,202−2)
    と、投入したジョブ情報を前記共有ディスク装置上から
    削除するジョブ削除手段(203−1,203−2)と
    を備えることを特徴とする請求項5に記載の分散バッチ
    ジョブ処理システム。
  7. 【請求項7】 バッチ処理を行う複数台のコンピュータ
    (1,2)を有する分散バッチジョブ処理システムであ
    って、前記コンピュータの障害を検出するための障害検
    出手段(41−1,41−2)を含み、前記複数台のコ
    ンピュータには、それぞれ、当該コンピュータのジョブ
    情報を保存する共有ディスク装置(4−1,4−2)が
    接続されており、前記共有ディスク装置の各々は、障害
    発生時に平常のバッチ処理を行うコンピュータからジョ
    ブ交替するコンピュータへの接続の変更を接続切替手段
    (42−1,42−2)を有する、前記分散バッチジョ
    ブ処理システムの障害時におけるジョブの自動再起動方
    法において、 前記各コンピュータで、別のコンピュータに接続された
    共有ディスク装置に記憶されたジョブ情報を取り出すス
    テップと、 前記各コンピュータで、その取り出されたジョブ情報に
    よって示されるジョブを前記代替コンピュータに再投入
    するステップと、 前記各コンピュータで、投入したジョブ情報を前記共有
    ディスク装置上から削除するステップとを含むことを特
    徴とする分散バッチジョブ処理システムの障害時におけ
    るジョブの自動再起動方法。
  8. 【請求項8】 共有ディスク装置に記憶されたジョブ情
    報を取り出す処理と、 該取り出されたジョブ情報によって示されるジョブを代
    替コンピュータに再投入する処理と、 投入したジョブ情報を前記共有ディスク装置上から削除
    する処理とをコンピュータに実行させるプログラムを記
    録したことを特徴とする記録媒体。
JP09135039A 1997-05-26 1997-05-26 分散バッチジョブ処理システムおよびその障害時におけるジョブの自動再起動方法 Expired - Fee Related JP3139536B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09135039A JP3139536B2 (ja) 1997-05-26 1997-05-26 分散バッチジョブ処理システムおよびその障害時におけるジョブの自動再起動方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09135039A JP3139536B2 (ja) 1997-05-26 1997-05-26 分散バッチジョブ処理システムおよびその障害時におけるジョブの自動再起動方法

Publications (2)

Publication Number Publication Date
JPH10326201A true JPH10326201A (ja) 1998-12-08
JP3139536B2 JP3139536B2 (ja) 2001-03-05

Family

ID=15142522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09135039A Expired - Fee Related JP3139536B2 (ja) 1997-05-26 1997-05-26 分散バッチジョブ処理システムおよびその障害時におけるジョブの自動再起動方法

Country Status (1)

Country Link
JP (1) JP3139536B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352708A (ja) * 2004-06-10 2005-12-22 Hitachi Ltd オンライン同期スケジュール回復システムおよびその処理方法
JP2006277696A (ja) * 2005-03-30 2006-10-12 Nec Corp ジョブ実行監視システム、ジョブ制御装置、ジョブ実行方法及びジョブ制御プログラム
JP2010140106A (ja) * 2008-12-09 2010-06-24 Nec Corp ジョブ実行システム、該システムに用いられるジョブフロー引継ぎ方法及びジョブフロー引継ぎ制御プログラム
US8826291B2 (en) 2012-03-08 2014-09-02 Fuji Xerox Co., Ltd. Processing system
US9218210B2 (en) 2013-03-27 2015-12-22 Nec Corporation Distributed processing system
US9244719B2 (en) 2012-03-19 2016-01-26 Nec Corporation Batch processing system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04167142A (ja) * 1990-10-31 1992-06-15 Nec Corp 情報処理装置の障害検出方式
JPH06124214A (ja) * 1992-10-09 1994-05-06 Nec Corp 障害ホストジョブの継続制御方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04167142A (ja) * 1990-10-31 1992-06-15 Nec Corp 情報処理装置の障害検出方式
JPH06124214A (ja) * 1992-10-09 1994-05-06 Nec Corp 障害ホストジョブの継続制御方式

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352708A (ja) * 2004-06-10 2005-12-22 Hitachi Ltd オンライン同期スケジュール回復システムおよびその処理方法
JP2006277696A (ja) * 2005-03-30 2006-10-12 Nec Corp ジョブ実行監視システム、ジョブ制御装置、ジョブ実行方法及びジョブ制御プログラム
JP4538736B2 (ja) * 2005-03-30 2010-09-08 日本電気株式会社 ジョブ実行監視システム、ジョブ制御装置、ジョブ実行方法及びジョブ制御プログラム
JP2010140106A (ja) * 2008-12-09 2010-06-24 Nec Corp ジョブ実行システム、該システムに用いられるジョブフロー引継ぎ方法及びジョブフロー引継ぎ制御プログラム
US8826291B2 (en) 2012-03-08 2014-09-02 Fuji Xerox Co., Ltd. Processing system
US9244719B2 (en) 2012-03-19 2016-01-26 Nec Corporation Batch processing system
US9218210B2 (en) 2013-03-27 2015-12-22 Nec Corporation Distributed processing system

Also Published As

Publication number Publication date
JP3139536B2 (ja) 2001-03-05

Similar Documents

Publication Publication Date Title
US7266815B2 (en) Automated control of a licensed internal code update on a storage controller
US7565565B2 (en) Automated error recovery of a licensed internal code update on a storage controller
JP2723068B2 (ja) ジョブ再実行方式
JP3901060B2 (ja) アプリケーションの更新処理方法、更新処理システム及び更新処理プログラム
JP3139536B2 (ja) 分散バッチジョブ処理システムおよびその障害時におけるジョブの自動再起動方法
JP3967499B2 (ja) マルチコンピュータ・システムでの復元
JP2004164046A (ja) 階層型バックアップシステムにおけるバックアップ方法
JPH11259326A (ja) ホットスタンバイシステムおよびホットスタンバイシステムにおける自動再実行方法およびその記録媒体
JP2000099359A5 (ja)
JP5359234B2 (ja) ジョブ実行システム、及びジョブフロー引継ぎ制御プログラム
JPH0879246A (ja) 分散型通信システムおよびその障害回復方法
JP2004046658A (ja) データ転送方法
JP2000330778A (ja) 修正ロードモジュール置換後の復旧方法ならびに装置
JPH05314075A (ja) オンラインコンピュータ装置
JPH10116261A (ja) 並列計算機システムのチェックポイントリスタート方法
JP2003256399A (ja) ホットスタンバイシステム切り替え制御方式
JPH0287235A (ja) 情報処理装置
JPH07281933A (ja) 計算機システム
JPH1040123A (ja) ジョブ管理方式と方法
JPH09297692A (ja) 多重化システム
JP2513122B2 (ja) ホットスタンバイ切り替えシステム
JPH07271561A (ja) 情報処理装置
JP2007073069A (ja) 計算機、資源自動適用処理プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001229033A (ja) ファイル障害時のジョブネット再実行装置
JPH04291628A (ja) 複合サブシステム形オンラインシステムの障害回復方式

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20001115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071215

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081215

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091215

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091215

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111215

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111215

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121215

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121215

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131215

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees