JP3139536B2 - Distributed batch job processing system and automatic job restart method in the event of failure - Google Patents

Distributed batch job processing system and automatic job restart method in the event of failure

Info

Publication number
JP3139536B2
JP3139536B2 JP09135039A JP13503997A JP3139536B2 JP 3139536 B2 JP3139536 B2 JP 3139536B2 JP 09135039 A JP09135039 A JP 09135039A JP 13503997 A JP13503997 A JP 13503997A JP 3139536 B2 JP3139536 B2 JP 3139536B2
Authority
JP
Japan
Prior art keywords
job
computer
shared disk
disk device
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP09135039A
Other languages
Japanese (ja)
Other versions
JPH10326201A (en
Inventor
公士 田淵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP09135039A priority Critical patent/JP3139536B2/en
Publication of JPH10326201A publication Critical patent/JPH10326201A/en
Application granted granted Critical
Publication of JP3139536B2 publication Critical patent/JP3139536B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、各々がバッチジョ
ブ処理機能を有する複数台のコンピュータから構成され
る分散バッチジョブ処理システムに関し、特に、障害発
生時に自動的に再起動を行う方法に関する。
[0001] 1. Field of the Invention [0002] The present invention relates to a distributed batch job processing system comprising a plurality of computers each having a batch job processing function, and more particularly to a method for automatically restarting when a failure occurs.

【0002】[0002]

【従来の技術】従来、この種の分散バッチジョブ処理シ
ステムにおいては、ジョブの自動再実行を次のようにし
て行っている。すなわち、分散バッチジョブ処理システ
ムは、各々がバッチジョブを実行する複数台のコンピュ
ータと、バッチジョブのスケジュールと投入を行う再投
入用コンピュータとを備えている。そして、バッチジョ
ブを実行するある1つのコンピュータに障害が発生した
とき、再投入用コンピュータが当該障害コンピュータで
処理中であったバッチジョブを障害の発生していない別
の実行用のコンピュータに再投入することによって、自
動再起動を実現している。
2. Description of the Related Art Conventionally, in this type of distributed batch job processing system, automatic re-execution of a job is performed as follows. That is, the distributed batch job processing system includes a plurality of computers each of which executes a batch job, and a re-input computer which schedules and inputs the batch job. Then, when a failure occurs in one computer that executes the batch job, the re-submission computer re-submits the batch job being processed by the failed computer to another non-failed execution computer. By doing so, automatic restart is realized.

【0003】このような従来の分散バッチジョブ処理シ
ステムの一例としては、特開平7−175766号公報
(以下、先行技術1と呼ぶ。)に開示された「疎結合多
重システムのジョブ再実行制御方式」がある。この先行
技術1では、第nのホストコンピュータに障害が発生し
た場合に、指定された第mのホストコンピュータにより
速やかに実行中のジョブの再実行を行っている。すなわ
ち、第1のホストコンピュータで、ジョブ制御言語翻訳
手段は、ジョブ制御言語を翻訳して、第nのホストコン
ピュータのジョブを再実行する第mのホストコンピュー
タの指定をジョブ管理情報保持手段に登録する。ホスト
障害認識手段は、ホスト監視装置からの障害通知を認識
する。ジョブ再実行準備手段は、ジョブ管理情報保持手
段のジョブ制御情報を更新し、障害の第nのホストコン
ピュータで実行中のジョブに対する再実行を要求する。
ジョブスケジュール手段は、そのジョブの再スケジュー
リングを行い、そのジョブの再実行を第mのホストコン
ピュータに要求する。ジョブ起動手段は、実行を要求さ
れたジョブの実行プログラムを起動する。
An example of such a conventional distributed batch job processing system is disclosed in JP-A-7-175766 (hereinafter, referred to as prior art 1). There is. In the prior art 1, when a failure occurs in the n-th host computer, the job being executed is immediately re-executed by the designated m-th host computer. That is, in the first host computer, the job control language translating means translates the job control language and registers the designation of the m-th host computer for re-executing the job of the n-th host computer in the job management information holding means. I do. The host failure recognition unit recognizes a failure notification from the host monitoring device. The job re-execution preparation unit updates the job control information of the job management information holding unit, and requests re-execution of the job being executed on the failed n-th host computer.
The job scheduler reschedules the job and requests the mth host computer to re-execute the job. The job activating means activates an execution program of the job requested to be executed.

【0004】また、特開平8−227368号公報(以
下、先行技術2と呼ぶ。)には、障害の発生した処理単
位の検出を容易にし、効率的なジョブの再実行を行うこ
とを可能とする「ジョブ再実行方式」が開示されてい
る。この先行技術2では、コンピュータシステム上で動
作するバッチ処理的なジョブの構成と実行状態とを個々
に処理単位レべルで監視するためのログ実行制御部およ
びログファイルと、前記ジョブと各処理単位の実行状態
を表示画面に表示する状態表示制御部および表示装置
と、前記表示装置の表示画面から前記ジョブと処理とを
指定して再実行を指示するコマンドを入力することによ
り、該ジョブの指定された処理以降の処理を再実行する
再実行制御部、プロセス実行制御部及びジョブ構成管理
テーブルとを備える。
Japanese Patent Application Laid-Open No. Hei 8-227368 (hereinafter referred to as Prior Art 2) discloses that a processing unit in which a failure has occurred can be easily detected, and a job can be efficiently re-executed. A “job re-execution method” is disclosed. In the prior art 2, a log execution control unit and a log file for individually monitoring, at a processing unit level, the configuration and execution state of a batch processing job operating on a computer system; A state display control unit and a display device for displaying the execution state of a unit on a display screen, and a command for designating the job and the process and instructing re-execution from the display screen of the display device, and It includes a re-execution control unit for re-executing the process after the designated process, a process execution control unit, and a job configuration management table.

【0005】さらに、特開平2−253441号公報
(以下、先行技術3と呼ぶ。)には、装置障害が発生し
たときに自動的に装置を切換え、再実行させることがで
きる「計算機システムの装置切換方式」が開示されてい
る。この先行技術3では、ジョブ実行中に装置障害が発
生すると、装置障害受信手段が障害の通知を受け、装置
復旧可能不可能判断手段が復旧が可能であるか不可能で
あるかを判断する。装置の復旧が可能であると判断され
たときには、装置復旧指示出力手段が装置の復旧を指示
し、この指示により復旧作業が行われ、ジョブ再実行手
段がジョブを自動的に再実行する。また、装置の復旧が
不可能であると判断されたときには、装置自動切換手段
が他装置へ実行中のジョブの割り当てを自動的に切り換
え、媒体マウントメッセージ出力手段が切り換えた装置
に媒体をセットするメッセージを出力して作業を行わ
せ、ジョブ再実行手段が実行中であったジョブを自動的
に再実行する。これにより、装置障害が発生したもジョ
ブがエラーになることなく、自動的に装置を切り換えて
ジョブを再実行させることができ、復旧できる場合は復
旧後自動的にジョブを再実行させることができる。
[0005] Further, Japanese Patent Application Laid-Open No. 2-253441 (hereinafter referred to as Prior Art 3) discloses a "computer system device" which can automatically switch and re-execute when a device failure occurs. Switching system "is disclosed. In the prior art 3, when a device failure occurs during job execution, the device failure receiving unit receives a notification of the failure, and the device restoration impossible determination unit determines whether restoration is possible or impossible. When it is determined that the device can be recovered, the device recovery instruction output means instructs the recovery of the device, the recovery work is performed by this instruction, and the job re-execution means automatically re-executes the job. When it is determined that the apparatus cannot be restored, the automatic apparatus switching means automatically switches the assignment of the job being executed to another apparatus, and the medium mount message output means sets the medium in the switched apparatus. A job is output and a job is performed, and the job re-executing unit automatically re-executes the job being executed. Thus, even if a device failure occurs, the job can be automatically switched and the job can be re-executed without causing an error in the job. If the job can be restored, the job can be automatically re-executed after the restoration. .

【0006】[0006]

【発明が解決しようとする課題】上述した従来(先行技
術1)のジョブ自動再実行方法では、次に述べるような
問題点を有している。ジョブを実行するコンピュータ
に加えて、再投入処理を行う再投入用コンピュータが必
要になる。再投入処理を行う再投入用コンピュータに
障害が発生した場合は再起動処理が行われない。コン
ピュータの異常を正しく検出することは技術的に困難で
あり、誤って異常を検出した場合には、ジョブが二重に
処理される危険性を有している。
The conventional (prior art 1) automatic job re-execution method described above has the following problems. In addition to the computer that executes the job, a re-entry computer that performs the re-entry processing is required. If a failure occurs in the re-entry computer that performs the re-entry processing, the restart processing is not performed. It is technically difficult to correctly detect an abnormality in a computer, and there is a risk that a job will be processed twice if an abnormality is detected by mistake.

【0007】したがって、本発明の目的は、バッチジョ
ブ処理を行う複数台のコンピュータからなる分散バッチ
ジョブ処理システムにおいて、あるコンピュータに障害
が発生したときに、二重起動することなく自動的にバッ
チジョブの再実行を行うことができる、単純な構成の分
散バッチジョブ処理システムを提供することにある。
SUMMARY OF THE INVENTION Accordingly, an object of the present invention is to provide a distributed batch job processing system comprising a plurality of computers for performing batch job processing. Of the present invention is to provide a distributed batch job processing system having a simple configuration capable of re-execution.

【0008】なお、先行技術2および3は、いずれも複
数台のコンピュータからなる分散バッチジョブ処理シス
テムではない。
Note that none of the prior arts 2 and 3 is a distributed batch job processing system including a plurality of computers.

【0009】[0009]

【課題を解決するための手段】本発明の第1の態様によ
れば、正常時にバッチジョブ処理を行う少なくとも1台
の現用コンピュータと、前記現用コンピュータに障害が
発生したときに代替して処理を行う少なくとも1台の代
替コンピュータと、前記現用コンピュータの障害を検出
するための障害検出手段と、前記現用コンピュータの障
害発生時に前記現用コンピュータから前記代替コンピュ
ータへの接続の変更を行う接続切替手段を有する共有デ
ィスク装置とを備え、前記代替コンピュータは、前記現
用コンピュータで障害が発生した場合に前記共有ディス
ク装置から情報を取り出して前記代替コンピュータへ再
度ジョブの投入を行うためのジョブ再投入手段群を備
え、前記ジョブ再投入手段群は、前記共有ディスク装置
に記憶されたジョブ情報を取り出すためのジョブ情報読
出し手段と、該ジョブ情報読出し手段によって取り出さ
れたジョブ情報によって示されるジョブを前記代替コン
ピュータに再投入するためのジョブ再投入手段と、投入
したジョブ情報を前記共有ディスク装置上から削除する
ジョブ削除手段とを備えることを特徴とする分散バッチ
ジョブ処理システムが得られる。
According to a first aspect of the present invention, at least one active computer that performs batch job processing in a normal state, and performs processing in place of a failure in the active computer. At least one alternative computer to be performed, failure detection means for detecting a failure of the active computer, and connection switching means for changing a connection from the active computer to the alternative computer when a failure of the active computer occurs A shared disk device, wherein the substitute computer has a job resubmitting means group for taking out information from the shared disk device and resubmitting a job to the substitute computer when a failure occurs in the active computer.
The job re-submitting means group includes the shared disk device.
Job information to retrieve the job information stored in the
Output means and the job information reading means.
The job indicated by the job information
Job re-submission means for re-submission to the computer and submission
Deleted job information from the shared disk device
Distributed batch job processing system according to claim Rukoto a job deletion means is obtained.

【0010】また、本発明の第2の態様によれば、バッ
チ処理を行う複数台のコンピュータを有する分散バッチ
ジョブ処理システムであって、前記コンピュータの障害
を検出するための障害検出手段を含み、前記複数台のコ
ンピュータには、それぞれ、当該コンピュータのジョブ
情報を保存する共有ディスク装置が接続されており、前
記共有ディスク装置の各々は、障害発生時に平常のバッ
チ処理を行うコンピュータからジョブ交替するコンピュ
ータへの接続の変更を接続切替手段を有する、前記分散
バッチジョブ処理システムにおいて、前記複数台のコン
ピュータの各々は、前記平常のバッチ処理を行うコンピ
ュータで障害が発生した場合に前記共有ディスク装置か
ら情報を取り出して前記代替コンピュータへ再度ジョブ
の投入を行うためのジョブ再投入手段群を備え、前記ジ
ョブ再投入手段群は、別のコンピュータに接続された共
有ディスク装置に記憶されたジョブ情報を取り出すため
のジョブ情報読出し手段と、該ジョブ情報読出し手段に
よって取り出されたジョブ情報によって示されるジョブ
を前記代替コンピュータに再投入するためのジョブ再投
入手段と、投入したジョブ情報を前記共有ディスク装置
上から削除するジョブ削除手段とを備えることを特徴と
する分散バッチジョブ処理システムが得られる。
According to a second aspect of the present invention, there is provided a distributed batch job processing system having a plurality of computers for performing a batch process, the system comprising a failure detecting means for detecting a failure of the computer, Each of the plurality of computers is connected to a shared disk device that stores job information of the computer, and each of the shared disk devices is a computer that switches jobs from a computer that performs normal batch processing when a failure occurs. In the distributed batch job processing system having a connection switching unit for changing the connection to the server, each of the plurality of computers receives information from the shared disk device when a failure occurs in the computer performing the normal batch processing. To take out the job and submit the job to the alternative computer again E Bei job reintroduction means group, the di
The job re-entry means are shared by another computer.
To retrieve job information stored in a disk drive
Job information reading means, and the job information reading means
The job indicated by the retrieved job information
Job to re-enter the substitute computer
Input means and the input job information to the shared disk device.
Distributed batch job processing system according to claim Rukoto a job deletion means for deleting from above is obtained.

【0011】[0011]

【作用】共有ディスク装置は、常時一方のコンピュータ
としか接続されない。接続の切替えは、障害検出手段
が、現在の接続先のコンピュータの障害を検出したとき
に、あらかじめ定義されている他方のコンピュータに対
して行われる。共有ディスク装置上にはジョブ情報が記
録される。正常運用時はそのまま処理が行われ、ジョブ
実行の終了と共にジョブ情報が共有ディスク装置から削
除される。ジョブ実行のコンピュータの一方に障害が発
生した時は、正常に稼働しているコンピュータが共有デ
ィスク装置上からジョブ情報を取り出し、自コンピュー
タに再投入すると同時に共有ディスク装置上に残された
ジョブ情報を削除する。
The shared disk device is always connected to only one computer. The connection is switched to another predefined computer when the failure detection unit detects a failure in the currently connected computer. Job information is recorded on the shared disk device. During normal operation, the process is performed as it is, and the job information is deleted from the shared disk device when the job execution ends. If a failure occurs on one of the computers executing the job, a normally operating computer retrieves the job information from the shared disk device, re-enters it on its own computer, and simultaneously deletes the job information remaining on the shared disk device. delete.

【0012】[0012]

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して詳細に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0013】図1を参照して、本発明の第1の実施の形
態に係る分散バッチジョブ処理システムについて説明す
る。なお、分散バッチジョブ処理システムを構成するコ
ンピュータで実行されるプログラムは、記録媒体(図示
せず)に記録されていても良い。ここで、「記録媒体」
とは、プログラムを記録したコンピュータ読み取り可能
な記録媒体のことをいい。具体的には、CD−ROM、
プレキシブル・ディスクなどの磁気ディスク、半導体メ
モリなどを含む。さらに、記録媒体はプログラムを記録
した紙でも良い。この場合には、コンピュータはOCR
(光学的文字読取装置)のような読取装置と、この読取
装置で読み取った文字(コード)をコンピュータが認識
できる機械言語に翻訳するコンパイラとを備えていれば
良い。とにかく、記録媒体に記録されたプログラムをコ
ンピュータにインストールすることによって、コンピュ
ータに所定の処理を行わせることができる。
Referring to FIG. 1, a distributed batch job processing system according to a first embodiment of the present invention will be described. Note that the program executed by the computer constituting the distributed batch job processing system may be recorded on a recording medium (not shown). Here, "recording medium"
The term "computer" refers to a computer-readable recording medium on which a program is recorded. Specifically, CD-ROM,
Includes magnetic disks such as plexible disks, semiconductor memories, and the like. Further, the recording medium may be paper on which a program is recorded. In this case, the computer
It is only necessary to have a reading device such as an (optical character reading device) and a compiler that translates characters (codes) read by the reading device into a machine language that can be recognized by a computer. Anyway, by installing the program recorded on the recording medium into the computer, the computer can perform a predetermined process.

【0014】図示の分散バッチジョブ処理システムは、
常時、バッチジョブの処理を行う第1および第2のコン
ピュータ1および2と、第1のコンピュータ1に接続さ
れた外部記憶装置3と、第1および第2のコンピュータ
1および2に接続された共有ディスク装置4とから構成
されている。この共有ディスク装置4は外部記憶装置の
一種である。
The illustrated distributed batch job processing system comprises:
First and second computers 1 and 2 that always perform batch job processing, an external storage device 3 connected to the first computer 1, and a shared device connected to the first and second computers 1 and 2. And a disk device 4. This shared disk device 4 is a type of external storage device.

【0015】第1のコンピュータ1は第1のジョブ処理
手段群10−1とジョブ再投入手段群20とを有する。
ジョブ処理手段群10−1は通常にバッチジョブの処理
を行うためものである。ジョブ再投入手段群20は第2
のコンピュータ2で障害が発生した場合に共有ディスク
装置4から情報を取り出してジョブ処理手段群10へ再
度ジョブの投入の行うためのものである。
The first computer 1 has a first job processing means group 10-1 and a job re-submission means group 20.
The job processing means group 10-1 is for normally processing a batch job. The job re-submitting means group 20 is the second
When a failure occurs in the computer 2, information is taken out from the shared disk device 4 and a job is input to the job processing means group 10 again.

【0016】第2のコンピュータ2は第1のコンピュー
タ1に実装されている第1のジョブ処理手段群10−1
と同様な第2のジョブ処理手段群10−2を有する。
The second computer 2 is a first job processing means group 10-1 mounted on the first computer 1.
Has the same second job processing means group 10-2.

【0017】外部記憶装置3は第1のコンピュータ1に
投入された第1のジョブ情報31−1と、第1のコンピ
ュータ1によってジョブが実行された場合にジョブによ
って生成される第1のジョブ実行結果32−1とを保存
する。
The external storage device 3 stores the first job information 31-1 input to the first computer 1 and the first job execution generated by the job when the first computer 1 executes the job. Save the result 32-1.

【0018】共有ディスク装置4は、上記外部記憶装置
3とほぼ同様に、第2のコンピュータに投入された第2
のジョブ情報31−2と、第2のコンピュータ2によっ
てジョブが実行された場合にジョブによって生成される
第2のジョブ実行結果32−2とを保存する。さらに、
共有ディスク装置4は、障害検出手段41と接続切替手
段42とを有する。障害検出手段41は、第1および第
2のコンピュータ1および2の動作を監視し、異常時に
は、接続切替手段42に対し切替え変更を指示し、上記
ジョブ再投入手段群20に対して再投入実施を指示す
る。接続切替手段42は、第1のコンピュータ1と第2
のコンピュータ2の接続を切替え、同時に一方からしか
接続できないようにする。
The shared disk device 4 stores the second computer input to the second computer almost in the same manner as the external storage device 3.
And the second job execution result 32-2 generated by the job when the job is executed by the second computer 2. further,
The shared disk device 4 includes a failure detection unit 41 and a connection switching unit 42. The failure detecting means 41 monitors the operations of the first and second computers 1 and 2 and, in the event of an abnormality, instructs the connection switching means 42 to change the switching, and re-executes the job re-entering means group 20. Instruct. The connection switching unit 42 is connected to the first computer 1 and the second
Of the computer 2 so that only one of them can be connected at the same time.

【0019】この第1の実施の形態において、第2のコ
ンピュータ2は現用コンピュータと呼ばれ、第1のコン
ピュータ1は代替コンピュータと呼ばれる。
In the first embodiment, the second computer 2 is called an active computer, and the first computer 1 is called an alternative computer.

【0020】第1のジョブ処理手段群10−1は、第1
のジョブ入力手段101−1と、第1のジョブ受理手段
102−1と、第1のジョブ情報記録手段103−1
と、第1のジョブ実行手段104−1と、第1のジョブ
終了処理手段105−1と、第1の操作員通知手段10
6−1とを有する。
The first group of job processing means 10-1
Job input means 101-1, first job receiving means 102-1 and first job information recording means 103-1
A first job execution unit 104-1, a first job end processing unit 105-1, and a first operator notification unit 10.
6-1.

【0021】第1のジョブ入力手段101−1は操作員
などからのジョブ入力を受け付ける。第2のジョブ受理
手段102−1は、第1のジョブ入力手段101−1に
よって入力されたジョブを実際に受理するか否かを判断
する。第1のジョブ情報記録手段103−1は、第1の
ジョブ受理手段102−1によって受理されたジョブを
第1のジョブ情報31−1として外部記憶装置3に格納
する。第1のジョブ実行手段104−1は外部記憶装置
3に記録された第1のジョブ情報31−1を取り出しジ
ョブの実行を行う。第1のジョブ終了処理手段105−
1は、第1のジョブ実行終了をまって外部記憶装置3に
格納された第1のジョブ情報31−1を消去する処理を
行う。第1の操作員通知手段106−1は、第1のジョ
ブ終了処理手段105−1の動作完了をまってをのジョ
ブが終了したことを操作員に通知する。また、第1の操
作員通知手段106−1は、第1のジョブ受理手段10
2−1によってジョブの受理が拒絶されたことを操作員
に通知する。
The first job input means 101-1 accepts a job input from an operator or the like. The second job receiving unit 102-1 determines whether to actually receive the job input by the first job input unit 101-1. The first job information recording unit 103-1 stores the job received by the first job receiving unit 102-1 in the external storage device 3 as first job information 31-1. The first job execution unit 104-1 retrieves the first job information 31-1 recorded in the external storage device 3 and executes the job. First job end processing means 105-
1 performs a process of deleting the first job information 31-1 stored in the external storage device 3 after finishing the first job execution. The first operator notifying unit 106-1 notifies the operator that the job after the completion of the operation of the first job end processing unit 105-1 has ended. Further, the first operator notifying unit 106-1 is provided with the first job receiving unit 10-1.
The operator is notified that the acceptance of the job has been rejected according to 2-1.

【0022】同様に、第2のジョブ処理手段群10−2
は、第2のジョブ入力手段101−2と、第2のジョブ
受理手段102−2と、第2のジョブ情報記録手段10
3−2と、第2のジョブ実行手段104−2と、第2の
ジョブ終了処理手段105−2と、第2の操作員通知手
段106−2とを有する。
Similarly, the second job processing means group 10-2
Is a second job input unit 101-2, a second job receiving unit 102-2, and a second job information recording unit 10-2.
3-2, a second job execution unit 104-2, a second job end processing unit 105-2, and a second operator notification unit 106-2.

【0023】第2のジョブ入力手段101−2は操作員
などからのジョブ入力を受け付ける。第2のジョブ受理
手段102−2は、第2のジョブ入力手段101−2に
よって入力されたジョブを実際に受理するか否かを判断
する。第2のジョブ情報記録手段103−2は、第2の
ジョブ受理手段102−2によって受理されたジョブを
第2のジョブ情報31−2として共有ディスク装置4に
格納する。第2のジョブ実行手段104−2は共有ディ
スク装置4に記録された第2のジョブ情報31−2を取
り出しジョブの実行を行う。第2のジョブ終了処理手段
105−2は、第2のジョブ実行終了をまって共有ディ
スク装置4に格納された第2のジョブ情報31−2を消
去する処理を行う。第2の操作員通知手段106−2
は、第2のジョブ終了処理手段105−2の動作完了を
まってをのジョブが終了したことを操作員に通知する。
また、第2の操作員通知手段106−2は、第2のジョ
ブ受理手段102−2によってジョブの受理が拒絶され
たことを操作員に通知する。
The second job input means 101-2 receives a job input from an operator or the like. The second job receiving unit 102-2 determines whether or not to actually receive the job input by the second job input unit 101-2. The second job information recording unit 103-2 stores the job received by the second job receiving unit 102-2 as the second job information 31-2 in the shared disk device 4. The second job executing unit 104-2 extracts the second job information 31-2 recorded on the shared disk device 4 and executes the job. The second job end processing unit 105-2 performs a process of erasing the second job information 31-2 stored in the shared disk device 4 after the end of the second job execution. Second operator notification means 106-2
Notifies the operator of the completion of the job after the completion of the operation of the second job end processing means 105-2.
Further, the second operator notifying unit 106-2 notifies the operator that the second job receiving unit 102-2 has refused to accept the job.

【0024】ジョブ再投入手段群20は、ジョブ情報読
出し手段201と、ジョブ再投入手段202と、ジョブ
削除手段203とを有する。ジョブ情報読出し手段20
1は、共有ディスク装置4から第2のジョブ情報31−
2を読み出すためのものである。ジョブ再投入手段20
2は、ジョブ情報読出し手段201によって読み出され
た第2のジョブ情報31−2を適切な情報に修正し、第
1のジョブ受理手段102−1によってジョブの再投入
を試みる。ジョブ削除手段203は、共有ディスク装置
4から再投入されることによって不要になった第2のジ
ョブ情報31−2を削除する。
The job re-submitting unit group 20 includes a job information reading unit 201, a job re-submitting unit 202, and a job deleting unit 203. Job information reading means 20
1 indicates the second job information 31-from the shared disk device 4.
2 is to be read. Job resubmitting means 20
2 corrects the second job information 31-2 read by the job information reading means 201 into appropriate information, and attempts to resubmit the job by the first job receiving means 102-1. The job deletion unit 203 deletes the unnecessary second job information 31-2 by being re-input from the shared disk device 4.

【0025】次に、図1および図2を参照して、第1の
実施の形態に係る分散バッチジョブ処理システムについ
て説明する。
Next, a distributed batch job processing system according to the first embodiment will be described with reference to FIGS.

【0026】正常時は、第1のコンピュータ1および第
2のコンピュータ2は、それぞれ、第1および第2のジ
ョブ処理手段群10−1および10−2を使用してフロ
ーF3の動作を行っている。また、共有ディスク装置4
は初期状態で第2のコンピュータ2と接続されている。
In a normal state, the first computer 1 and the second computer 2 perform the operation of the flow F3 using the first and second job processing means groups 10-1 and 10-2, respectively. I have. Also, the shared disk device 4
Are connected to the second computer 2 in the initial state.

【0027】まず、コンピュータの操作員が第1および
第2のジョブ入力手段101−1および101−2を使
用してジョブの入力を行う(ステップS31)。入力さ
れたジョブは属性や操作員の権限等のジョブ情報の異常
の有無を検査される(ステップS32)。
First, a computer operator inputs a job using the first and second job input means 101-1 and 101-2 (step S31). The input job is inspected for abnormalities in job information such as attributes and authority of the operator (step S32).

【0028】ジョブの投入を許可するならば、第1のコ
ンピュータ1では第1のジョブ情報31−1を外部記憶
装置3へ第1のジョブ情報記憶手段103−1によって
記録し、第2のコンピュータ2では第2のジョブ情報3
1−2を共有ディスク装置4へ第2のジョブ情報記憶手
段103−2によって記録する(ステップS33)。ジ
ョブの投入を否認するならば、否認された旨を、第1の
コンピュータ1では第1の操作員通知手段106−1を
使用して、第2のコンピュータ2では第2の操作員通知
手段106−2を使用して通知する(ステップS3
6)。
If the input of the job is permitted, the first computer 1 records the first job information 31-1 in the external storage device 3 by the first job information storage means 103-1. 2 is the second job information 3
1-2 is recorded in the shared disk device 4 by the second job information storage unit 103-2 (step S33). If the job submission is denied, the first computer 1 uses the first operator notification means 106-1 and the second computer 2 uses the second operator notification means 106 (Step S3)
6).

【0029】ジョブ情報が記録された後、第1のコンピ
ュータ1では記録された第1のジョブ情報31−1をも
とに第1のジョブ実行手段104−1はジョブを実行
し、第2のコンピュータ2では記録された第2のジョブ
情報31−2をもとに第2のジョブ実行手段104−2
はジョブを実行する(ステップS34)。このときジョ
ブは、第1のコンピュータ1ではその実行結果を外部記
憶装置3上に出力し、第2のコンピュータ2ではその実
行結果を共有ディスク装置4上に出力する。
After the job information is recorded, in the first computer 1, the first job execution means 104-1 executes the job based on the recorded first job information 31-1, and the second computer executes the second job. In the computer 2, based on the recorded second job information 31-2, the second job execution unit 104-2
Executes the job (step S34). At this time, the first computer 1 outputs the execution result to the external storage device 3, and the second computer 2 outputs the execution result to the shared disk device 4.

【0030】ジョブ実行終了をまって、第1のコンピュ
ータ1では第1のジョブ終了処理手段105−1は外部
記憶装置3の第1のジョブ情報31−1を削除し、第2
のコンピュータ2では第2のジョブ終了処理手段105
−2は共有ディスク装置4の第2のジョブ情報31−2
を削除する(ステップS35)。
When the job execution ends, the first job end processing means 105-1 in the first computer 1 deletes the first job information 31-1 in the external storage device 3, and
The second job end processing means 105
-2 is the second job information 31-2 of the shared disk device 4
Is deleted (step S35).

【0031】ジョブ情報削除完了後、第1のコンピュー
タ1では第1の操作員通知手段106−1を用いてジョ
ブの実行が正常に完了したことを通知して終了し、第2
のコンピュータ2では第2の操作員通知手段106−2
を用いてジョブの実行が正常に完了したことを通知して
終了する(ステップS36)。
After the job information deletion is completed, the first computer 1 notifies the user of the normal completion of the job execution using the first operator notifying means 106-1, and ends the processing.
Second computer notification means 106-2
To notify that the execution of the job has been completed normally, and terminate the process (step S36).

【0032】次に、第2のコンピュータ2で障害が発生
した時の動作について説明する。まず、共有ディスク装
置4が障害検出手段41によって障害を検出する(ステ
ップS11)。つぎに、障害検出手段41は接続切替手
段42に対して第2のコンピュータ2から第1のコンピ
ュータ1に対して接続切替えを指示する(ステップS1
2)。
Next, the operation when a failure occurs in the second computer 2 will be described. First, the shared disk device 4 detects a failure by the failure detecting means 41 (step S11). Next, the failure detection unit 41 instructs the connection switching unit 42 to switch the connection from the second computer 2 to the first computer 1 (step S1).
2).

【0033】障害検出手段41は、さらに、正常に稼働
している第1のコンピュータ1上のジョブ情報読出し手
段201に対して、共有ディスク装置4上にある第2の
ジョブ情報31−2を再投入するように指示を出す(ス
テップS13)。
The failure detecting means 41 further transmits the second job information 31-2 on the shared disk device 4 to the job information reading means 201 on the normally operating first computer 1. An instruction is given to insert the battery (step S13).

【0034】指示を受けたジョブ情報読出し手段201
は、共有ディスク装置4から第2のジョブ情報31−2
を読み出す(ステップS21)。読み出した第2のジョ
ブ情報31−2をジョブ再投入手段202を用いて、ジ
ョブの再投入を行う(ステップS22)。再投入後以降
のジョブの処理は第1のジョブ処理手段群10−1によ
って正常時と同様に処理される(フローF3のポイント
2)。
Job information reading means 201 receiving the instruction
Is the second job information 31-2 from the shared disk device 4.
Is read (step S21). The job is resubmitted using the read second job information 31-2 using the job resubmitting means 202 (step S22). The job processing after the re-submission is processed by the first job processing means group 10-1 in the same manner as in the normal state (point 2 in flow F3).

【0035】ジョブ処理の流れとは別に、つぎのステッ
プS23で、共有ディスク装置4上の第2のコンピュー
タ2が作成した第2のジョブ情報31−2の削除をジョ
ブ情報削除手段42によって行う。
Apart from the flow of the job processing, the job information deleting means 42 deletes the second job information 31-2 created by the second computer 2 on the shared disk device 4 in the next step S23.

【0036】次に、図1に示した分散バッチジョブ処理
システムの動作について詳細に詳細に説明する。
Next, the operation of the distributed batch job processing system shown in FIG. 1 will be described in detail.

【0037】初期状態で共有ディスク装置4の回線は第
2のコンピュータ2と接続されている。まず第2のコン
ピュータ2に対し、操作員がジョブAを投入する。この
投入処理は第2のコンピュータ2上の第2のジョブ投入
手段101−2によって行われる。このジョブの属性や
権限の判断が第2のジョブ受理手段102−2によって
行われ、結果的に投入は正常に行われることになったと
する。次に、第2のジョブ情報記録手段103−2によ
って共有ディスク装置4に第2のジョブ情報31−2の
形態でジョブAが記録される。この時点で、ジョブAの
投入処理が完了したことになる。つぎに第2のジョブ実
行手段104−2によってジョブAの情報を取り出し、
第2のコンピュータ2上でジョブAの実行を行う。ジョ
ブAは実行結果の出力ファイルを第2のコンピュータ2
の外部記憶装置でもある共有ディスク装置4上に第2の
ジョブ実行結果32−2として作成していく。
In the initial state, the line of the shared disk device 4 is connected to the second computer 2. First, an operator submits a job A to the second computer 2. This input processing is performed by the second job input unit 101-2 on the second computer 2. It is assumed that the determination of the job attributes and the authority is performed by the second job receiving unit 102-2, and as a result, the job is normally input. Next, the job A is recorded on the shared disk device 4 in the form of the second job information 31-2 by the second job information recording unit 103-2. At this point, the input processing of job A has been completed. Next, the information of job A is extracted by the second job execution unit 104-2,
The job A is executed on the second computer 2. The job A outputs the execution result output file to the second computer 2.
The second job execution result 32-2 is created on the shared disk device 4 which is also an external storage device.

【0038】この時点で第2のコンピュータ2に障害が
発生したとする。そして共有ディスク装置4上の障害検
出手段41がその事象を検出する。障害検出手段41は
接続切替手段42に対し切替えの指示を出す。この指示
により接続切替手段42は第2のコンピュータ2との接
続を停止し、第1のコンピュータ1との接続を開始す
る。この第2のコンピュータ2との接続が切断されたこ
とにより、第2のコンピュータ2で動作していたジョブ
Aは実行結果を更新することができなくなり、ジョブの
実行を継続することが実質的にできなくなる。また、第
2のコンピュータ2から第2のジョブ情報31−2が参
照できないため、新規のジョブも投入されない。
Assume that a failure has occurred in the second computer 2 at this point. Then, the failure detection means 41 on the shared disk device 4 detects the event. The failure detecting unit 41 issues a switching instruction to the connection switching unit 42. In response to this instruction, the connection switching unit 42 stops the connection with the second computer 2 and starts the connection with the first computer 1. Since the connection with the second computer 2 is disconnected, the execution result of the job A operating on the second computer 2 cannot be updated, and the execution of the job is substantially continued. become unable. Also, since the second job information 31-2 cannot be referred to from the second computer 2, a new job is not input.

【0039】また、障害検出手段41は正常に動作して
いる第1のコンピュータ1上のジョブ情報読出し手段2
01に対して動作を始めるように指示を出す。
Further, the failure detecting means 41 is a means for reading job information on the first computer 1 which is operating normally.
01 is instructed to start the operation.

【0040】第1のコンピュータ1では、ジョブ情報読
出し手段201が、共有ディスク装置4上からジョブA
の第2のジョブ情報31−2を採取する。このジョブA
を第1のコンピュータ1の第1のジョブ受理手段102
−1に対して投入する。ここで受理処理が正常に行われ
たとする。ジョブAの情報は今度は第1のコンピュータ
1の外部記憶装置3の第1のジョブ情報31−1として
記録される。つぎに第1のコンピュータ1の第1のジョ
ブ実行手段104−1がジョブAの情報を取り出しジョ
ブを実行する。このときジョブAは共有ディスク装置4
上に残っている前回の途中の実行結果を参照することも
可能で、継続してジョブの実行を行うこともジョブの実
装によっては不可能ではない。参照しない場合は、全く
新規にジョブAが実行される。
In the first computer 1, the job information reading means 201 transmits the job A from the shared disk device 4.
Of the second job information 31-2. This job A
To the first job receiving means 102 of the first computer 1
Input for -1. Here, it is assumed that the reception processing has been performed normally. The information of the job A is recorded as the first job information 31-1 in the external storage device 3 of the first computer 1 this time. Next, the first job executing means 104-1 of the first computer 1 extracts the information of the job A and executes the job. At this time, job A is shared disk device 4
It is also possible to refer to the previous execution result remaining on the upper part, and it is not impossible to execute the job continuously depending on the implementation of the job. If no reference is made, a completely new job A is executed.

【0041】ジョブAの実行が完了すると、第1のジョ
ブ終了処理手段105−1によって外部記憶装置3上の
ジョブAの第1のジョブ情報31−1を削除する。以上
でジョブAの処理が完了したことにより、第1の操作員
通信手段106−1を用いて操作員にジョブの実行完了
を通知する。
When the execution of the job A is completed, the first job end processing means 105-1 deletes the first job information 31-1 of the job A on the external storage device 3. When the processing of the job A is completed as described above, the operator is notified of the completion of the job execution using the first operator communication unit 106-1.

【0042】もし、ジョブAを第1のコンピュータ1の
第1のジョブ受理手段102−1に対して投入したとき
に、第2のジョブ情報31−2のジョブAの情報が不完
全であった場合などには、ジョブAの処理が不可能なこ
とがある。この場合、第1のジョブ受理手段102−1
がその異常を検出し、ジョブの受理を拒否し、操作員に
第1の操作員通知手段106−1を用いてその旨を通知
する。
If the job A is submitted to the first job receiving means 102-1 of the first computer 1, the information of the job A in the second job information 31-2 is incomplete. In some cases, processing of job A may not be possible. In this case, the first job receiving unit 102-1
Detects the abnormality, refuses to accept the job, and notifies the operator using the first operator notification means 106-1.

【0043】図3を参照して、本発明の第2の実施の形
態に係る分散バッチジョブ処理システムについて説明す
る。この第2の実施の形態に係る分散バッチジョブ処理
システムでは、上記第1の実施の形態における第1のコ
ンピュータ1用の外部記憶装置3に置き換えて、第2の
コンピュータ2用の同様の共有ディスク装置を使用して
いることである。ここでは、第1のコンピュータ1用の
共有ディスク装置に参照符号4−1を付して第1の共有
ディスク装置と呼び、第2のコンピュータ2用の共有デ
ィスク装置に参照符号4−2を付して第2の共有ディス
ク装置と呼ぶことにする。そして、第2のコンピュータ
2は、第1の実施の形態における第1のコンピュータ1
と同様にジョブ再投入手段群を有する。ここでは、第1
のコンピュータ1のジョブ再投入手段群に参照符号20
−1を付して第1のジョブ再投入手段群と呼び、第2の
コンピュータ2のジョブ再投入手段群に参照符号20−
2を付して第2のジョブ再投入手段群と呼ぶことにす
る。つまり、第1のコンピュータ1と第2のコンピュー
タ2の構成は全く同一となる。
A distributed batch job processing system according to a second embodiment of the present invention will be described with reference to FIG. In the distributed batch job processing system according to the second embodiment, the external storage device 3 for the first computer 1 in the first embodiment is replaced with a similar shared disk for the second computer 2. The use of the device. Here, the shared disk device for the first computer 1 is denoted by reference numeral 4-1 to be referred to as a first shared disk device, and the shared disk device for the second computer 2 is denoted by reference numeral 4-2. Then, it is referred to as a second shared disk device. Then, the second computer 2 is the first computer 1 in the first embodiment.
And a job re-submitting means group. Here, the first
Reference numeral 20 denotes the job re-submitting means group of the computer 1
-1 is referred to as a first job re-submitting unit group, and the job re-submitting unit group of the second computer 2 is denoted by reference numeral 20-.
2 will be referred to as a second job re-submitting means group. That is, the first computer 1 and the second computer
The configuration of the data 2 is exactly the same.

【0044】このとき、2つの共有ディスク装置4−1
および4−2の初期接続は、第1の共有ディスク装置4
−1は第1のコンピュータ1に、第2の共有ディスク装
置4−2は第2のコンピュータ2に接続されているとす
る。また、2つの共有ディスク装置4−1および4−2
の障害検出手段41−1および41−2は、障害に関す
る情報を共有し、同期して動作する。つまり、第1の共
有ディスク装置4−1の第1の障害検出手段41−1が
障害を検出すると、その障害を検出した旨が同時に第2
の共有ディスク装置4−2の第2の障害検出手段41−
2にも通知される。また、その逆も行われる。
At this time, the two shared disk devices 4-1
And 4-2 are initially connected to the first shared disk device 4
-1 is connected to the first computer 1, and the second shared disk device 4-2 is connected to the second computer 2. Further, the two shared disk devices 4-1 and 4-2
The fault detecting means 41-1 and 41-2 share information about faults and operate synchronously. In other words , when the first failure detection unit 41-1 of the first shared disk device 4-1 detects a failure, the fact that the failure has been detected is simultaneously notified to the second failure detection unit 41-1.
Second failure detecting means 41- of the shared disk device 4-2 of FIG.
2 is also notified. The reverse is also true.

【0045】次に、第2のコンピュータ2で障害が発生
したときの動作について説明する。第1の実施の形態と
異なることは、第2の共有ディスク装置4−2ばかりで
なく、第1の共有ディスク装置4−1も障害を検出する
ことである。ただし、第1の共有ディスク装置4−1は
初期接続で第1のコンピュータ1に接続されているの
で、接続変更は行われない。よって、このときの動作は
前述した第1の実施の形態と同様になる。
Next, the operation when a failure occurs in the second computer 2 will be described. The difference from the first embodiment is that not only the second shared disk device 4-2 but also the first shared disk device 4-1 detects a failure. However, since the first shared disk device 4-1 is connected to the first computer 1 by the initial connection, the connection is not changed. Therefore, the operation at this time is similar to that of the first embodiment.

【0046】第1のコンピュータ1で障害が発生したと
きは、逆に第1の共有ディスク装置4−1の接続切替え
が行われ、第2の共有ディスク装置4−2の接続変更は
行われない。このあと、第1の共有ディスク装置4−1
の第1の障害検出手段41−1によって第2のコンピュ
ータ2上の第2のジョブ再投入手段群20−2が起動さ
れ再投入処理が行われる。
When a failure occurs in the first computer 1, the connection of the first shared disk device 4-1 is switched, and the connection of the second shared disk device 4-2 is not changed. . Thereafter, the first shared disk device 4-1
The second job re-entry means group 20-2 on the second computer 2 is activated by the first failure detection means 41-1 to perform the re-entry processing.

【0047】これにより、第1のコンピュータ1、第2
のコンピュータ2のいずれで障害が発生した場合でも、
相互にジョブの自動的な再実行を実現することができ
る。
Thus, the first computer 1 and the second computer 1
If any of the computers 2 fails,
Mutual automatic re-execution of jobs can be realized.

【0048】本発明は上述した実施形態に限定せず、本
発明の趣旨を逸脱しない範囲内で種々の変更・変形が可
能である。例えば、上述した実施の形態では、コンピュ
ータが2台の場合について述べているが、3台以上ある
場合にも同様に適用できる。また、上述した実施の形態
では、共有ディスク装置が障害検出手段を備えている
が、共有ディスク装置とは別に障害検出手段を設けても
良い。
The present invention is not limited to the above-described embodiment, and various changes and modifications can be made without departing from the spirit of the present invention. For example, in the above-described embodiment, the case where there are two computers is described. However, the present invention can be similarly applied to a case where there are three or more computers. Further, in the above-described embodiment, the shared disk device includes the failure detection unit. However, a failure detection unit may be provided separately from the shared disk device.

【0049】[0049]

【発明の効果】以上説明したように、本発明では、次に
述べるような効果を奏する。
As described above, the present invention has the following effects.

【0050】第1の効果は、障害検出時に、ジョブの再
投入を行うときにジョブの二重起動の危険性を回避する
ことができることである。その理由は、障害検出時に、
障害の発生したコンピュータで使用していたジョブ情報
とジョブ実行結果を記録した共有ディスク装置の接続を
強制的に切替えることにより、障害の発生したコンピュ
ータで実行されているジョブは共有ディスク装置上のジ
ョブ実行結果を更新することができなくなるからであ
る。よって実質的に障害の発生したコンピュータによる
ジョブの実行は停止することになる。さらに、障害の発
生したコンピュータは共有ディスク装置上のジョブ情報
を参照できなくなるため、新規のジョブも実行できなく
なる。
The first effect is that, when a failure is detected, the risk of double start of a job can be avoided when the job is resubmitted. The reason is that when a failure is detected,
By forcibly switching the connection between the job information used by the failed computer and the shared disk device that records the job execution results, the jobs running on the failed computer can be executed on the shared disk device. This is because the execution result cannot be updated. Therefore, the execution of the job by the computer in which the failure has occurred is substantially stopped. Further, the failed computer cannot refer to the job information on the shared disk device, and cannot execute a new job.

【0051】第2の効果は、障害の発生したコンピュー
タが復旧したとき、または共有ディスク装置が再接続さ
れたときに、そのコンピュータは共有ディスク装置から
ジョブ情報を取り出すことができないため、ジョブの二
重起動を防止することができることである。その理由
は、ジョブの再投入の処理が完了したとき、障害の発生
したコンピュータで使用していた共有ディスク装置か
ら、取り出したジョブに関するジョブ情報を削除してい
るからである。
The second effect is that when the failed computer is recovered or when the shared disk device is reconnected, the computer cannot retrieve job information from the shared disk device. This is to prevent double activation. The reason is that, when the job re-input processing is completed, the job information relating to the extracted job is deleted from the shared disk device used by the failed computer.

【0052】第3の効果は、ジョブの再投入を行うため
の再投入用コンピュータを余分に用意する必要がないこ
とである。その理由は、ジョブの再投入処理をジョブの
実行を行うコンピュータで行っているからである。
The third effect is that it is not necessary to prepare an extra computer for re-submitting a job. The reason is that the job re-input processing is performed by the computer that executes the job.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態に係る分散バッチジ
ョブ処理システムを示すブロック図である。
FIG. 1 is a block diagram showing a distributed batch job processing system according to a first embodiment of the present invention.

【図2】図1に示した分散バッチジョブ処理システムの
動作を説明するためのフロー図である。
FIG. 2 is a flowchart for explaining the operation of the distributed batch job processing system shown in FIG. 1;

【図3】本発明の第2の実施の形態に係る分散バッチジ
ョブ処理システムを示すブロック図である。
FIG. 3 is a block diagram showing a distributed batch job processing system according to a second embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1,2 コンピュータ 3 外部記憶装置 4,4−1,4−2 共有ディスク装置 10−1,10−2 ジョブ処理手段群 20−1,20−2 ジョブ再投入手段群 31−1,31−2 ジョブ情報 32−1,32−2 ジョブ実行結果 41,41−1,41−2 障害検出手段 42,42−1,42−2 接続切替手段 101−1,101−2 ジョブ入力手段 102−1,102−2 ジョブ受理手段 103−1,103−2 ジョブ情報記録手段 104−1,104−2 ジョブ実行手段 105−1,105−2 ジョブ終了処理手段 106−1,106−2 操作員通知手段 201,201−1,201−2 ジョブ情報読出し
手段 202,202−1,202−2 ジョブ再投入手段 203,203−1,203−2 ジョブ削除手段
1, 2 Computer 3 External storage device 4, 4-1, 4-2 Shared disk device 10-1, 10-2 Job processing means group 20-1, 20-2 Job re-submission means group 31-1, 31-2 Job information 32-1, 32-2 Job execution results 41, 41-1, 41-2 Failure detection means 42, 42-1, 42-2 Connection switching means 101-1 and 101-2 Job input means 102-1, 102-2 Job receiving means 103-1 and 103-2 Job information recording means 104-1, 104-2 Job execution means 105-1, 105-2 Job end processing means 106-1, 106-2 Operator notification means 201 , 201-1, 201-2 Job information reading means 202, 202-1, 202-2 Job re-submission means 203, 203-1, 203-2 Job deleting means

Claims (5)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 正常時にバッチジョブ処理を行う少なく
とも1台の現用コンピュータ(2)と、前記現用コンピ
ュータに障害が発生したときに代替して処理を行う少な
くとも1台の代替コンピュータ(1)と、前記現用コン
ピュータの障害を検出するための障害検出手段(41)
と、前記現用コンピュータの障害発生時に前記現用コン
ピュータから前記代替コンピュータへの接続の変更を行
う接続切替手段(42)を有する共有ディスク装置
(4)とを備え、 前記代替コンピュータ(1)は、前記現用コンピュータ
で障害が発生した場合に前記共有ディスク装置から情報
を取り出して前記代替コンピュータへ再度ジョブの投入
を行うためのジョブ再投入手段群(20)を備え、 前記ジョブ再投入手段群(20)は、前記共有ディスク
装置に記憶されたジョブ情報を取り出すためのジョブ情
報読出し手段(201)と、該ジョブ情報読出し手段に
よって取り出されたジョブ情報によって示されるジョブ
を前記代替コンピュータに再投入するためのジョブ再投
入手段(202)と、投入したジョブ情報を前記共有デ
ィスク装置上から削除するジョブ削除手段(203)と
を備え ることを特徴とする分散バッチジョブ処理システ
ム。
1. At least one active computer (2) that performs batch job processing during normal operation, and at least one alternative computer (1) that performs processing when the active computer fails. Failure detection means (41) for detecting a failure of the active computer
And a shared disk device (4) having connection switching means (42) for changing a connection from the active computer to the alternative computer when a failure occurs in the active computer. e Bei job reintroduction means group for the retrieving information from the shared disk device when a failure occurs on the working computer performs the insertion of job again to the alternative computer (20), the job cycling means group (20 ) Is the shared disk
Job information for retrieving job information stored in the device
Information reading means (201) and the job information reading means.
The job indicated by the retrieved job information
Job to re-enter the substitute computer
Input means (202), and the input job information
Job deletion means (203) for deleting from the disk device;
Distributed batch job processing system according to claim Rukoto equipped with.
【請求項2】 正常時にバッチジョブ処理を行う少なく
とも1台の現用コンピュータ(2)と、前記現用コンピ
ュータに障害が発生したときに代替して処理を行う少な
くとも1台の代替コンピュータ(1)と、前記現用コン
ピュータのジョブ情報を保存する共有ディスク装置
(4)と、前記現用コンピュータの障害を検出するため
の障害検出手段(41)とを備える分散バッチジョブ処
理システムであって、前記共有ディスク装置は、前記現
用コンピュータの障害発生時に前記現用コンピュータか
ら前記代替コンピュータへの接続の変更を行う接続切替
手段(42)を有する、前記分散バッチジョブ処理シス
テムの障害時におけるジョブの自動再起動方法におい
て、 前記代替コンピュータで、前記共有ディスク装置に記憶
されたジョブ情報を取り出すステップと、 前記代替コンピュータで、その取り出されたジョブ情報
によって示されるジョブを前記代替コンピュータに再投
入するステップと、 前記代替コンピュータで、投入したジョブ情報を前記共
有ディスク装置上から削除するステップとを含むことを
特徴とする分散バッチジョブ処理システムの障害時にお
けるジョブの自動再起動方法。
2. An at least one active computer (2) that performs batch job processing in a normal state, and at least one alternative computer (1) that performs processing when a failure occurs in the active computer. A distributed batch job processing system comprising: a shared disk device (4) for storing job information of the active computer; and a failure detection unit (41) for detecting a failure of the active computer. A method of automatically restarting a job when a failure occurs in the distributed batch job processing system, comprising: a connection switching unit (42) configured to change a connection from the active computer to the substitute computer when a failure occurs in the active computer. On the alternative computer, the job information stored in the shared disk device is A step of issuing Ri, in the alternative computer, the step of deleting and re-submit the job indicated by the retrieved job information to the alternative computer, in the alternative computer, a submitted job information from the shared disk device on And a method for automatically restarting a job when a failure occurs in the distributed batch job processing system.
【請求項3】 共有ディスク装置に記憶されたジョブ情
報を取り出す処理と、 該取り出されたジョブ情報によって示されるジョブを代
替コンピュータに再投入する処理と、該再投入されたジョブを示す ジョブ情報を前記共有ディ
スク装置から削除する処理とを前記代替コンピュータに
実行させるプログラムを記録したことを特徴とする記録
媒体。
3. A retrieving job information stored in the shared disk device process, a process of re-submit the job indicated by the retrieved job information to an alternate computer, the job information indicating a job that is該再turned A recording medium storing a program for causing the alternative computer to execute the process of deleting from the shared disk device.
【請求項4】 バッチ処理を行う複数台のコンピュータ
(1,2)を有する分散バッチジョブ処理システムであ
って、前記コンピュータの障害を検出するための障害検
出手段(42−1,42−2)を含み、前記複数台のコ
ンピュータには、それぞれ、当該コンピュータのジョブ
情報を保存する共有ディスク装置(4−1,4−2)が
接続されており、前記共有ディスク装置の各々は、障害
発生時に平常のバッチ処理を行うコンピュータからジョ
ブ交替するコンピュータへの接続の変更を接続切替手段
(42−1,42−2)を有する、前記分散バッチジョ
ブ処理システムにおいて、 前記複数台のコンピュータの各々は、前記平常のバッチ
処理を行うコンピュータで障害が発生した場合に前記共
有ディスク装置から情報を取り出して前記代替コンピュ
ータへ再度ジョブの投入を行うためのジョブ再投入手段
群(20−1,20−2)を備え、 前記ジョブ再投入手段群(20−1,20−2)は、別
のコンピュータに接続された共有ディスク装置に記憶さ
れたジョブ情報を取り出すためのジョブ情報読出し手段
(201−1,201−2)と、該ジョブ情報読出し手
段によって取り出されたジョブ情報によって示されるジ
ョブを前記代替コンピュータに再投入するためのジョブ
再投入手段(202−1,202−2)と、投入したジ
ョブ情報 を前記共有ディスク装置上から削除するジョブ
削除手段(203−1,203−2)とを備え ることを
特徴とする分散バッチジョブ処理システム。
4. A distributed batch job processing system having a plurality of computers (1, 2) for performing batch processing, wherein failure detecting means (42-1 and 42-2) for detecting a failure of the computers. And a shared disk device (4-1, 4-2) for storing job information of the computer is connected to each of the plurality of computers, and each of the shared disk devices is In the distributed batch job processing system having connection switching means (42-1 and 42-2) for changing a connection from a computer that performs normal batch processing to a computer that replaces a job, each of the plurality of computers includes: When a failure occurs in the computer that performs the normal batch processing, information is taken out from the shared disk device and the replacement is performed. Job cycling group of means for performing the insertion of job again to computer (20-1, 20-2) Bei example, said job cycling means group (20-1, 20-2) is another
On a shared disk device connected to another computer
Job information reading means for retrieving selected job information
(201-1, 201-2) and the job information reading
The job indicated by the job information retrieved by the column
Job to re-submit the job to the alternative computer
Re-charging means (202-1 and 202-2) and
Job for deleting job information from the shared disk device
Distributed batch job processing system according to claim Rukoto a deletion means (203-1, 203-2).
【請求項5】 バッチ処理を行う複数台のコンピュータ
(1,2)を有する分散バッチジョブ処理システムであ
って、前記コンピュータの障害を検出するための障害検
出手段(42−1,42−2)を含み、前記複数台のコ
ンピュータには、それぞれ、当該コンピュータのジョブ
情報を保存する共有ディスク装置(4−1,4−2)が
接続されており、前記共有ディスク装置の各々は、障害
発生時に平常のバッチ処理を行うコンピュータからジョ
ブ交替するコンピュータへの接続の変更を接続切替手段
(42−1,42−2)を有する、前記分散バッチジョ
ブ処理システムの障害時におけるジョブの自動再起動方
法において、 前記各コンピュータで、別のコンピュータに接続された
共有ディスク装置に記憶されたジョブ情報を取り出すス
テップと、 前記各コンピュータで、その取り出されたジョブ情報に
よって示されるジョブを前記代替コンピュータに再投入
するステップと、 前記各コンピュータで、投入したジョブ情報を前記共有
ディスク装置上から削除するステップとを含むことを特
徴とする分散バッチジョブ処理システムの障害時におけ
るジョブの自動再起動方法。
5. A distributed batch job processing system having a plurality of computers (1, 2) for performing batch processing, wherein failure detecting means (42-1 and 42-2) for detecting a failure of the computers. And a shared disk device (4-1, 4-2) for storing job information of the computer is connected to each of the plurality of computers, and each of the shared disk devices is The method of automatically restarting a job when a failure occurs in the distributed batch job processing system, comprising a connection switching unit (42-1 and 42-2) for changing a connection from a computer that performs normal batch processing to a computer that replaces jobs. A step in which each computer retrieves job information stored in a shared disk device connected to another computer. In each of the computers, a step of re-submitting the job indicated by the extracted job information to the substitute computer, and a step of deleting the input job information from the shared disk device in each of the computers A method for automatically restarting a job when a failure occurs in a distributed batch job processing system.
JP09135039A 1997-05-26 1997-05-26 Distributed batch job processing system and automatic job restart method in the event of failure Expired - Fee Related JP3139536B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09135039A JP3139536B2 (en) 1997-05-26 1997-05-26 Distributed batch job processing system and automatic job restart method in the event of failure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09135039A JP3139536B2 (en) 1997-05-26 1997-05-26 Distributed batch job processing system and automatic job restart method in the event of failure

Publications (2)

Publication Number Publication Date
JPH10326201A JPH10326201A (en) 1998-12-08
JP3139536B2 true JP3139536B2 (en) 2001-03-05

Family

ID=15142522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09135039A Expired - Fee Related JP3139536B2 (en) 1997-05-26 1997-05-26 Distributed batch job processing system and automatic job restart method in the event of failure

Country Status (1)

Country Link
JP (1) JP3139536B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352708A (en) * 2004-06-10 2005-12-22 Hitachi Ltd On-line synchronous schedule recovery system and processing method therefor
JP4538736B2 (en) * 2005-03-30 2010-09-08 日本電気株式会社 Job execution monitoring system, job control apparatus, job execution method, and job control program
JP5359234B2 (en) * 2008-12-09 2013-12-04 日本電気株式会社 Job execution system and job flow takeover control program
JP2013186745A (en) 2012-03-08 2013-09-19 Fuji Xerox Co Ltd Processing system and program
JP5942509B2 (en) 2012-03-19 2016-06-29 日本電気株式会社 Batch processing system
JP6083290B2 (en) 2013-03-27 2017-02-22 日本電気株式会社 Distributed processing system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04167142A (en) * 1990-10-31 1992-06-15 Nec Corp Fault detection system for information processor
JPH06124214A (en) * 1992-10-09 1994-05-06 Nec Corp Continuation control system for fault hot job

Also Published As

Publication number Publication date
JPH10326201A (en) 1998-12-08

Similar Documents

Publication Publication Date Title
KR100604242B1 (en) File server storage arrangement
JP4526329B2 (en) Information processing system for recovery snapshots of multiple generations
JP3938475B2 (en) Backup processing method, its execution system, and its processing program
US7266815B2 (en) Automated control of a licensed internal code update on a storage controller
US7565565B2 (en) Automated error recovery of a licensed internal code update on a storage controller
US7530000B2 (en) Early detection of storage device degradation
JP3139536B2 (en) Distributed batch job processing system and automatic job restart method in the event of failure
EP0987630B1 (en) Resilience in a multi-computer system
JP2004164046A (en) Backup method in hierarchical backup system
JP2000099359A5 (en)
JP2002358170A (en) Disk storage device, computer system equipped with the same device and error notification method at retry processing in the same system
JP5359234B2 (en) Job execution system and job flow takeover control program
JP2823230B2 (en) How to continue processing
US20040010490A1 (en) Data transfer method
JPH0879246A (en) Distributed communication system and fault recovery method therefor
JPH05314075A (en) On-line computer system
JP2003256399A (en) Control method for switching in hot standby system
JPH0287235A (en) Information processor
JPH1040123A (en) System and method for job management
JPH07281933A (en) Computer system
JPH09297692A (en) Multiplexing system
JPH07271561A (en) Information processor
JP2513122B2 (en) Hot standby switching system
JP2001229033A (en) Device for re-executing job net in file failure
JP4575739B2 (en) Network RAID system

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20001115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071215

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081215

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091215

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091215

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111215

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111215

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121215

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121215

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131215

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees