JPH1078894A - 計算機システムの障害回復支援方法 - Google Patents

計算機システムの障害回復支援方法

Info

Publication number
JPH1078894A
JPH1078894A JP8252487A JP25248796A JPH1078894A JP H1078894 A JPH1078894 A JP H1078894A JP 8252487 A JP8252487 A JP 8252487A JP 25248796 A JP25248796 A JP 25248796A JP H1078894 A JPH1078894 A JP H1078894A
Authority
JP
Japan
Prior art keywords
job
failure
execution
time
computer system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8252487A
Other languages
English (en)
Inventor
Motohide Kuninishi
元英 国西
Hiroshi Kato
拓 加藤
Tsutomu Ito
伊藤  勉
Toshio Hirozawa
敏夫 廣澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8252487A priority Critical patent/JPH1078894A/ja
Priority to US08/921,572 priority patent/US6041425A/en
Publication of JPH1078894A publication Critical patent/JPH1078894A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1435Saving, restoring, recovering or retrying at system level using file system or storage system metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0715Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a system implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/88Monitoring involving counting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Debugging And Monitoring (AREA)
  • Retry When Errors Occur (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

(57)【要約】 【課題】 計算機システムにおける障害の発生に対し、
回復時間の短縮を狙い、障害の原因となったジョブを見
つけ出し、障害回復の支援を行なう。 【解決手段】 ジョブ実行制御102におけるジョブの実
行開始時、実行終了時、またファイル入出力処理のクロ
ーズ処理に設けられた入出力情報取得処理103時にイベ
ント発生処理107を呼出し、ジョブ開始イベント、ジョ
ブ終了イベント、クローズイベントを発生させ、監視処
理151はこれらイベントに基づき各ジョブにつき終了コ
ード、開始時刻、終了時刻、実行時間、入出力履歴等か
らなる実行履歴163を作成し、障害発生時に障害支援処
理152を起動し、実行履歴163と正常な実行に基づく標準
履歴164を比較し、入出力回数、実行時間、終了コード
の異常を調べ、異常フラグを実行履歴に格納し、異常の
発生したジョブを障害原因ジョブとし、ファイルの回
復、再割り当てを行った後、再実行指示を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、計算機システムに
おいてジョブ群の実行を複数回繰り返し行う場合におい
て、ジョブが異常終了したときの計算機システムの回復
支援方法に関する。
【0002】
【従来の技術】従来、大規模なジョブネット(多数のジ
ョブの実行順序を規定して順次実行するジョブ群)の監
視は、監視用端末装置にジョブネットを表示して行なう
方法が知られている(はいたっく1995.11 pp.1-
4)。しかし、障害発生後の回復は、人手により、経験的
な回復と実行結果を順次出力して原因を検出する方法が
取られていた。
【0003】
【発明が解決しようとする課題】上記従来技術では、障
害回復は人手による原因解析が必要であり、回復作業者
の経験、直感によるところが多いため、回復時間に多量
の時間を費やすことがあった。そこで、本発明の目的
は、回復時間の短縮を狙い、障害の原因となったジョブ
を見つけだし、障害回復の支援を行なうことにある。
【0004】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、計算機システムでジョブ群を複数回実行
する場合、該ジョブ群を実行するとき該ジョブ群に含ま
れるジョブ毎の実行履歴を蓄積し、該ジョブ群のジョブ
実行において障害が発生した際に、該ジョブ群の障害発
生時の実行履歴と正常終了時の実行履歴を比較し、該比
較結果に基づき障害の原因を検出するようにしている。
また、前記ジョブ毎の実行履歴としてジョブの終了コー
ドを蓄積し、該ジョブ群のジョブ実行において障害が発
生した際に、該ジョブ群のジョブについて障害発生時と
正常終了時の終了コードを比較し、終了コードが異なる
ジョブを障害の原因として検出するようにしている。ま
た、前記ジョブ毎の実行履歴としてジョブにおける入出
力回数を蓄積し、該ジョブ群のジョブ実行において障害
が発生した際に、該ジョブ群のジョブについて障害発生
時と正常終了時の入出力回数を比較し、実行したジョブ
のうち入出力回数が正常終了時の最高値と最低値の範囲
外にあるジョブを障害の原因として検出するようにして
いる。また、前記ジョブ毎の実行履歴としてジョブの実
行時間を蓄積し、該ジョブ群のジョブ実行において障害
が発生した際に、該ジョブ群のジョブについて障害発生
時と正常終了時の実行時間を比較し、実行したジョブの
うち実行時間が正常終了時の最高値と最低値の範囲外に
あるジョブを障害の原因として検出するようにしてい
る。また、前記ジョブ毎の実行履歴としてジョブの実行
時間と入出力回数を蓄積し、該ジョブ群のジョブ実行に
おいて障害が発生した際に、該ジョブ群のジョブについ
て障害発生時と正常終了時の入出力1回当りの実行時間
を比較し、実行したジョブのうち入出力1回当りの実行
時間が正常終了時の最高値と最低値の範囲外にあるジョ
ブを障害の原因として検出するようにしている。また、
前記ジョブ群の障害発生時の実行履歴と正常終了時の実
行履歴を比較し、正常終了時の実行履歴が障害発生時の
実行履歴と一致しないジョブを障害の原因として検出す
るようにしている。また、前記ジョブ毎の実行履歴とし
てジョブの実行時間と入出力回数を蓄積し、該ジョブ群
のジョブ実行において障害が発生した際に、該ジョブ群
のジョブについて障害発生時と正常終了時の入出力1回
当りの実行時間を比較し、一致しないジョブを障害の原
因として検出するようにしている。また、障害が発生し
たジョブを実行する条件となった先行ジョブの正常終了
時の実行履歴と障害発生時の実行履歴を比較して一致し
ないジョブを障害の原因として検出するようにしてい
る。
【0005】
【発明の実施の形態】本発明の実施の形態を図1等によ
り説明する。図1は、本発明の実施形態の構成である。
図1において、符号100は、ジョブ群106を実行す
る大型計算機、符号120は、障害回復支援を行なうパ
ーソナルコンピュータ(以下パソコンと記す)、符号1
30は、大型計算機101とパソコン120を接続する
Ethernetである。符号111は、ジョブ実行制御102
が制御するジョブ群106のJCL(JobControl Langua
ge)を格納したファイル、符号112は、ジョブ群10
6の実行順序を定義したファイル、である。符号10
1、102、103、104、105、106、107
は、大型計算機100で実行するプログラムである。符
号101は、大型計算機100で動作するOS(Operati
ng System)、符号102は、ジョブ群106の実行を制
御するジョブ実行制御である。符号103は、ジョブ1
06のファイル入出力取得処理である。符号104は、
スプールファイル110に格納されるジョブ実行結果を
取り出すジョブ実行結果取り出し処理である。符号10
5は、JCL群111の情報とジョブフロー定義情報1
12とファイル入出力取得処理103が取得した入出力
回数をパソコン120に転送するファイル転送処理であ
る。符号106は、ジョブ群、符号107は、ジョブ実
行制御102と入出力回数取得処理103から呼び出さ
れイベントを発生する処理である。
【0006】パソコン120は、符号121、122、
123、124、125、126、127で構成する。
符号121はメモリ、符号122はディスク装置、符号
123は命令を実行するCPU、符号125はディスプ
レイ装置、符号126はキーボード、符号127はマウ
スである。メモリ121、ディスク装置122、CPU
123、ディスプレイ装置125、キーボード126、
マウス127は、内部バス124で接続されている。符
号151、152、153は、パソコン120のメモリ
121にローディングされCPU123で実行するプロ
グラムである。符号151はジョブ群106を監視する
監視処理、符号152はジョブ106で障害発生時に起
動する回復支援処理、符号153は監視処理151と回
復支援処理152を制御するOSである。符号161、
162、163、164はディスク装置122に格納す
るデ−タである。符号161は、ジョブDB(Database)
であり、JCLと、イベント発生処理107で発生され
たジョブ終了イベントおよびクローズイベントを基に作
成される。符号162は、ジョブフロー定義情報112
をファイル転送105でパソコン120にダウンロード
して、表示情報を付加したデ−タである。符号163
は、監視処理151および回復支援処理152で採取し
たジョブ群106の実行履歴である。符号164は、標
準履歴である。標準履歴164の内容はジョブ群106
が正常に動作した際の実行履歴である。各デ−タの形式
は後で記す。
【0007】以下に、図1を用いて本発明の動作の概要
を示した後、図2以降の図を用いて詳細な動作を説明す
る。本実施形態では、あらかじめ、ジョブフロー定義情
報112、JCL群111をファイル転送105により
パソコン120に転送し、ディスク装置122にジョブ
DB161、ジョブフロー162の形式で格納してお
く。ジョブ実行制御は、ジョブをジョブフロー定義情報
に従って実行する。具体的には、次の手順で実施する。
大型計算機100で動作するジョブ実行制御102は、
ジョブフロー定義情報112から実行するジョブ名称を
読み込み、JCL群111から実行するジョブのJCL
を取り出し、ジョブを起動した後、イベント発生107
を呼出し、実行開始イベントをパソコン120の監視処
理151に送る。さらに、ジョブ実行制御102は、ジ
ョブが終了すると同様に、実行終了イベントを監視処理
151に送る。さらに、大型計算機100では、ジョブ
群106のクローズ処理の延長で入出力回数取得処理1
03が呼び出され、イベント発生107によりクローズ
イベントをパソコン120の監視処理151に転送す
る。パソコン120の監視処理151は、実行開始イベ
ント、実行終了イベント、クローズイベントを受け取る
と、実行開始時刻、実行終了時刻、ファイル入出力回数
を実行履歴163に設定する。各イベントの形式は後に
記す。
【0008】ここで、大型計算機100で動作するジョ
ブ群106で障害が発生した場合、監視処理151は、
回復支援処理152を呼び出す。回復支援処理152
は、まず、ディスク装置122の実行履歴163と標準
履歴164を比較して障害の原因となったジョブの候補
を検出する。検出方法は後で説明する。次に、ジョブD
B161とジョブフロー162から障害の原因となった
障害原因候補ジョブと障害の発生した障害発生ジョブと
の関連を調査し、障害の原因ジョブを検出する。さら
に、回復支援処理152は、検出した障害の原因ジョブ
とジョブルート(障害原因候補ジョブと障害発生ジョブ
間のジョブと関連)、をディスプレイ装置125に表示
する。操作者は、表示したジョブの入出力ファイルの再
割当などの回復処理を行なった後、キーボード126と
マウス127で選択してジョブを再実行する。操作者の
指示に応じてジョブDB161を参照して、ジョブがア
クセスしたファイルの一覧表とファイルをアクセスした
ジョブの一覧表の表示も行なう。
【0009】図2は実行履歴163の構成である。図2
の符号200は、ジョブ名称を格納するジョブ名称フィ
ールド、符号210はジョブ名称200の終了コードフ
ィールド、符号220はジョブ名称200の開始時刻フ
ィールド、符号230はジョブ名称200の終了時刻フ
ィールド、符号240はジョブ名称200の実行時間フ
ィールド、但し、実行時間=開始時刻−終了時刻、符号
250は、ジョブ名称200のファイル入出力履歴フィ
ールド、符号260は、回復支援処理152がセットす
る異常フラグフィールドである。ファイル入出力履歴フ
ィールド250は、ジョブ名称200で示されるジョブ
がアクセスしたファイルのファイル名称フィールド25
1、ジョブ名称200で示されるジョブがファイル名称
251で示されるファイルから入力した回数を格納する
入力回数フィールド252、ジョブ名称200で示され
るジョブがファイル名称251にで示されるファイルか
ら出力した回数を格納する出力回数フィールド253で
構成される。符号261は、入出力回数ビット、符号2
62は、実行時間ビット、符号263は、終了コードビ
ットである。符号261、262、263の意味と用途
は後で図10を用いて記す。上記のジョブ名称200フ
ィールドないしファイル入出力履歴フィールド250に
格納されるデータは、後述する図8の監視処理151に
より得られる。また、異常フラグフィールドのデータ
は、図9の回復支援処理におけるステップ901の処
理、すなわち図10に示す処理によって得られる。
【0010】図3は、ジョブフロー定義情報112の構
成である。ジョブフロー定義情報は、ジョブ定義310
と先行ジョブ定義320からなる。ジョブ定義310
は、識別子フィールド311、ジョブ名フィールド31
2、からなる。識別子フィールド311は、当該レコー
ドがジョブ定義であることを示す文字列 MJJ0 を格納す
る。ジョブ名フィールド312は、ジョブ実行制御10
2が制御するジョブ名を格納する。先行ジョブ定義32
0は、識別子フィールド321、ジョブ名フィールド3
22、先行ジョブ名フィールド323、からなる。識別
子フィールド321は、当該レコードがジョブ定義であ
ることを示す文字列 MJW0 を格納する。ジョブ名フィー
ルド322は、先行ジョブ名フィールド323に格納し
たジョブ終了時に起動するジョブ名を格納する。図3の
例は、次の通りジョブ実行制御102がジョブを制御す
ることを示す。
【0011】(1)ジョブ1からジョブ4の4件のジョ
ブを制御する。 (2)ジョブ1とジョブ2が終了した時ジョブ3を起動
する。 (3)ジョブ3が終了したときジョブ4を起動する。
【0012】図4は、ジョブフロー162の構成を示す
図である。ジョブフロー162には、ジョブ毎に図4の
テーブルを格納する。図4の符号410は、ジョブ番号
である。ジョブ番号410は、ジョブフロー定義情報1
12内に定義したジョブの通し番号である。符号420
はジョブ名称、符号430はジョブを示すノードの配置
位置であり、符号431はX座標、符号432はY座標
である。440はジョブの状態(実行待、実行中、実行
終了)を示す。この状態は色表示にしてもよい。符号4
50は先行ジョブリスト、符号460は後続ジョブリス
トである。先行ジョブリスト450はジョブ数451、
ジョブ番号452で構成する。同様に後続ジョブリスト
460は、ジョブ数461、ジョブ番号462で構成す
る。図4の例は、図3に示した例のジョブ3のテーブル
である。先行ジョブはジョブ番号が001と002の2
件であり、後続ジョブはジョブ番号が004の1件であ
ることを示す。ジョブフロー162は、ジョブフロー定
義情報112に基づき作成される。
【0013】図5は、ジョブDB161の構成を示す。
ジョブDB161は、ジョブ毎に作成するジョブ情報5
00とファイル毎に作成するファイル情報550からな
る。ジョブ情報500は、図4のジョブ番号410を格
納するジョブ番号フィールド501、図4のジョブ名称
420を格納するジョブ名称フィールド502、当該ジ
ョブのジョブステップの数を格納するステップ数フィー
ルド503、およびステップ数フィールド503に格納
した数のステップ情報510からなる。ステップ情報5
10は、ステップ名称フィールド511、当該ステップ
で参照するファイルの数を格納するファイル数フィール
ド512、ファイル数フィールド512に格納した数の
入出力ファイル情報520からなる。入出力ファイル情
報520は、当該ファイルのdd名称フィールド52
1、ファイル番号フィールド522、入出力種別フィー
ルド523、エラーフラグフィールド524からなる。
ファイル情報550は、ファイル番号フィールド55
1、ファイル名称フィールド552、ボリューム通し番
号フィールド553、入出力ジョブ数フィールド55
4、および入出力ジョブ数フィールドに格納した入出力
ジョブ数の入出力ジョブ情報560からなる。入出力ジ
ョブ情報560は、ジョブ名称フィールド561、時刻
フィールド562、入出力種別フィールド563からな
る。上記ジョブ情報500はJCLを基に作成され、但
し、エラーフラグは図7のジョブ終了イベント721に
おける終了コードを基に作成される。また、ファイル情
報550はJCLを基に作成され、但し、入出力ジョブ
情報560は図7のクローズイベントを基に作成され
る。
【0014】図6は、入出力回数取得処理103の処理
フローである。図6の符号601、602、603は、
ジョブ群106の各ジョブのファイル入出力処理の処理
フローを示す。ジョブ群106がファイル入出力処理を
実施する場合、まず、処理601でファイルのオープン
を行ない、処理602でファイル入出力を行なう。ファ
イル入出力が終了すると処理603によりファイルのク
ローズ処理を呼び出す。本実施例では、ファイルのクロ
ーズ処理の延長で呼び出されるユーザ出口ルーチンに入
出力回数取得処理を追加する。具体的には、通常のクロ
ーズ処理611終了後、入出力情報取得処理612とイ
ベント発生呼出し処理613を行なう。
【0015】図7に、呼出されたイベント発生107に
より発生されるイベントの種類と形式を示す。イベント
の種類は図7に示す3種類である。符号710はジョブ
開始イベント、符号720はジョブ終了イベント、符号
730はクローズイベントである。ジョブ開始イベント
710は、ジョブ群106のジョブの実行開始時にジョ
ブ実行制御102がイベント発生107を呼出しパソコ
ン120に出力される。ジョブ終了イベント720は、
同様に、ジョブ群106の実行終了時にパソコン120
に出力される。クローズイベント730は、ジョブ群1
06のファイル・クローズ処理でイベント発生107を
呼出すことによりパソコン120に出力される。ジョブ
開始イベント710の符号711は、イベントの識別
子、符号712は、実行開始したジョブ名、符号713
は、実行開始時刻である。ジョブ終了イベント720の
符号712はイベントの識別子、符号722は実行終了
したジョブ名、符号723は実行終了時刻、符号724
は終了コードである。クローズイベント730の符号7
31はイベントの識別子、符号732はファイルをクロ
ーズしたジョブの名称、符号733はクローズした時
刻、符号734はクローズしたファイル名称、符号73
5は入力回数、符号736は出力回数である。
【0016】図8は、監視処理151の処理フローであ
る。監視処理151は起動後、処理ステップ801でイ
ベントの発生と終了指示を待つ。終了指示があると処理
を終了する。イベントが発生すると、処理ステップ80
2に制御を移し、イベントの種別を調べる。イベント
が、ジョブ開始イベント710であれば処理803へ、
ジョブ終了イベント720であれば処理804へ、クロ
ーズイベント730であれば処理805へ制御を移す。
処理803では、開始時刻712を図2の開始時刻フィ
ールド220に格納する。処理804は、終了時刻72
3を図2の終了時刻フィールド230へ、終了コード7
24を終了コードフィールド210へ各々格納する。処
理805は、ファイル名734と入力回数735と出力
回数736を入出力履歴250へ格納する。イベントが
ジョブ終了イベントの場合、処理804で次の式により
実行時間を算出し、算出した実行時間を実行時間フィー
ルド240に格納し、処理806に制御を移す。実行時
間 = 終了時刻 − 開始時刻処理806は、終了コ
ード724(図7)によりジョブにおける障害の有無を
検査する。障害が発生していれば、このジョブを障害発
生ジョブとし、処理807によりジョブの実行履歴16
3を取得して、処理810により障害回復支援を起動す
る。処理803、805、810終了後再び処理801
でイベントの発生と終了指示を待つ。
【0017】図9は、回復支援処理152の処理フロー
である。回復支援処理152は、まず、ジョブ実行制御
102が制御するジョブに対して処理901から処理9
03を実施する。処理901は障害原因候補ジョブの検
出である。検出方法は、図10を用いて後で記す。処理
901により検出したジョブは、候補ジョブテーブル
(図示省略)に登録する。次に、処理902で障害原因
候補ジョブが障害発生ジョブが存在するネット上にある
か否か検査して、無い場合、処理903により該当ジョ
ブを候補ジョブテーブルから削除して、障害原因候補か
ら除く。次に、処理904により障害原因候補ジョブを
ディスプレイ装置125に表示した後、処理905によ
り指示を待つ。操作者は、キーボード126あるいはマ
ウス127によりファイル一覧表示指示、ジョブ一覧表
示指示あるいは再実行指示を行う。ファイル一覧表示指
示の場合、処理906により、図5のジョブDB161
のジョブ情報500を参照して、当該ジョブの入出力フ
ァイル情報をディスプレイ装置125に表示する。同様
に、ジョブ一覧表示指示の場合、処理907により、図
5のジョブDB161のファイル情報550を参照し
て、ファイルをアクセスするジョブ情報の一覧をディス
プレイ装置125に表示する。操作者は、ファイル一覧
表示906とジョブ一覧表示907の表示を参照して、
ファイルの回復や再割当てを行った後、再実行指示を行
う。回復支援処理152は、再実行指示を受け取ると、
処理908によりジョブネットに従い再実行コマンドを
大型計算機100に投入し、障害ジョブと障害原因候補
ジョブ間のジョブを順次再実行する。
【0018】図10は、図9の符号901処理の詳細フ
ローである。本処理は、実行が終了した全てのジョブに
対して実施する。処理1001で標準履歴と実行履歴を
比較し、その結果により次の処理を実施する。処理10
02は、入出力回数が標準範囲内か否か検査する。標準
範囲外の場合、処理1003で図2の実行履歴163の
異常フラグ260の入出力回数ビット261へ1をセッ
トする。次に処理1004で実行時間が標準範囲内か否
か検査して、標準範囲外の場合、処理1005で異常フ
ラグ260の実行時間ビット262へ1をセットする。
次に処理処理1006で終了コードが一致するか否か検
査して、不一致の場合、異常フラグ260の終了コード
ビット263へ1をセットする。最後に処理1008で
異常フラグを検査して異常があれば処理1009により
候補ジョブテーブルに異常フラグを出力する。
【0019】なお、障害原因候補ジョブを検出する際
に、ジョブ毎の実行履歴としてのジョブの実行時間と入
出力回数に基づき入出力1回当りの実行時間を求め、ジ
ョブ群のジョブについて障害発生時と正常終了時の上記
求めた入出力1回当りの実行時間を比較し、実行したジ
ョブのうち入出力1回当りの実行時間が正常終了時の最
高値と最低値の範囲外にあるジョブを障害の原因とする
ようにしてもよい。また、障害原因候補ジョブを検出す
る際に、ジョブ毎の実行履歴としてのジョブの実行時間
と入出力回数に基づき入出力1回当りの実行時間を求
め、ジョブ群のジョブについて障害発生時と正常終了時
の上記求めた入出力1回当りの実行時間を比較し、一致
しないジョブを障害の原因とするようにしてもよい。さ
らに、障害が発生したジョブを実行するための条件とな
った先行ジョブでの正常終了時の実行履歴と障害発生時
の実行履歴を比較し、これら両実行履歴が一致しないと
き、該先行ジョブを障害の原因とするようにしてもよ
い。
【0020】最後に、図11〜図13を用いて障害発生
後の回復手順の具体例を説明する。図11(a)は、本
具体例で扱うジョブフロ−の概念図である。符号110
1、1102、1103、1104はジョブ群を、符号
1125、1126、1127はジョブル−トを示す。
ジョブ1101、1102、1103、1104を結ぶ
実線はジョブの実行順序を示す。この例では、ジョブA
1101とジョブB1102の実行終了時にジョブC1
103が実行を開始し、ジョブB1102とジョブC1
103の実行終了時にジョブD1104が実行を開始す
ることを示す。このジョブフロ−は図3のジョブフロ−
定義で定義する。図11(b)は、図11(a)に示す
ジョブと各ジョブがアクセスするファイルの関連を示す
図である。符号1111、1112、1113、111
4は、ファイルを示す。この例では、ジョブA1101
は、ファイルa1111に出力し、同様に、ジョブB1
102は、符号1112のファイルb1と符号1113
のファイルb2に出力する。ジョブC1103は、符号
1111のファイルaと符号1112のファイルb1を
入力し符号1114のファイルcを出力する。ジョブD
1104は、符号1113のファイルb1と符号111
4のファイルcを入力する。このジョブとファイルの関
連は図5のジョブDBで定義する。
【0021】図12は、図11に示すジョブの実行履歴
の例である。符号1201は実行履歴、符号1202、
1203、1204、1205は、各々ジョブA、ジョ
ブB、ジョブC、ジョブDの入出力履歴の詳細である。
ここで、具体例では(1)ジョブD実行時に障害が発生
し、(2)ジョブA、B、C、D、各々の標準履歴は、
図13に示す通り、(3)ファイル入出力回数の標準範
囲は±10回、とする。本実施例では、ジョブDの障害
を図7の符号720のジョブ終了イベントにより、図8
の符号806で認識し、符号811で図9に処理フロ−
を示す障害回復支援を起動する。障害回復支援は、実行
履歴と標準履歴を比較して障害原因ジョブを表示する。
ジョブA、B、Dの実行履歴の終了コ−ドが標準履歴と
異なり、かつ、障害が発生したジョブDへのジョブル−
ト上のジョブであり、さらに、ジョブBのファイルb2
に対する入出力回数が、標準範囲外であるのでジョブ
A、B、Dが障害原因候補ジョブであると判断し、ディ
スプレイに表示する。
【0022】操作者は、ジョブBが終了コードと入出力
回数で標準履歴と異なっているため、ジョブBがアクセ
スしたファイル一覧の表示指示を行ない、ジヨブBがフ
ァイルb1とファイルb2に出力したことを知る。次
に、入出力回数が標準範囲外であったファイルb2をア
クセスしたジョブ一覧の表示指示を行い、ジョブDがフ
ァイルb2を入力することを知る。これにより、ジョブ
Dで発生した障害の原因はジヨブBであると判断し、障
害の回復にはジョブBとジョブDの再実行が必要である
と分かる。そこで、操作者はジョブBの処理を確認し、
ファイルb1とファイルb2あるいはファイルb2を再
割当てしてジョブBとジョブDの再実行指示を行う。
【0023】以上で、障害回復が完了する。
【0024】
【発明の効果】本発明によれば、大規模なジョブネット
で障害が発生したときに障害の原因となったジョブを容
易に検出できる効果がある。さらに、ジョブがアクセス
したファイルの一覧、ファイルをアクセスしたジョブの
一覧を表示することにより、ジョブを再実行する際に回
復が必要なファイルを容易に検出できる効果がある。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示すブロック図であ
る。
【図2】ジョブの実行履歴の構成を示す図である。
【図3】ジョブの実行制御を行なうジョブフロー定義情
報の構成を示す図である。
【図4】ジョブの監視に使用するジョブフローのファイ
ルの構成を示す図である。
【図5】ジョブDBの構成を示す図である。
【図6】ジョブごとのファイル入出力回数を取得する処
理フローを示す図である。
【図7】ジョブを実行する計算機システムからジョブを
監視する計算機システムに送るイベントの形式を示す図
である。
【図8】ジョブの監視処理の処理フローを示す図であ
る。
【図9】障害の回復支援処理の処理フローを示す図であ
る。
【図10】障害の回復支援処理の障害原因候補ジョブの
検出処理のフローを示す図である。
【図11】ジョブフローの具体例の概念図である。
【図12】図11に示すジョブの実行履歴の例である。
【図13】図11に示すジョブの標準履歴の例である。
【符号の説明】
100 大型計算機 101 オペレーティングシステム(OS) 102 ジョブ実行制御処 103 入出力回数取得処理 104 実行結果取り出し処理 105 ファイル転送処理 106 ジョブ群 107 イベント発生処理 111 JCL群 112 ジョブフロー定義情報 113 スプールファイル 120 パーソナルコンピュータ 121 メモリ 122 ディスク装置 123 CPU 124 内部バス 125 ディスプレイ装置 126 キーボード 127 マウス 151 監視処理 152 回復支援処理 153 オペレーティングシステム(OS) 161 ジョブDB 162 ジョブフロー 163 実行履歴 164 標準履歴 130 イーサネット(Ethernet)
フロントページの続き (72)発明者 廣澤 敏夫 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 計算機システムでジョブ群を複数回実行
    する場合、該ジョブ群を実行するとき該ジョブ群に含ま
    れるジョブ毎の実行履歴を蓄積し、該ジョブ群のジョブ
    実行において障害が発生した際に、該ジョブ群の障害発
    生時の実行履歴と正常終了時の実行履歴を比較し、該比
    較結果に基づき障害の原因を検出することを特徴とする
    計算機システムの障害回復支援方法。
  2. 【請求項2】 請求項1記載の計算機システムの障害回
    復支援方法において、 前記ジョブ毎の実行履歴としてジョブの終了コードを蓄
    積し、該ジョブ群のジョブ実行において障害が発生した
    際に、該ジョブ群のジョブについて障害発生時と正常終
    了時の終了コードを比較し、終了コードが異なるジョブ
    を障害の原因として検出することを特徴とする計算機シ
    ステムの障害回復支援方法。
  3. 【請求項3】 請求項1記載の計算機システムの障害回
    復支援方法において、 前記ジョブ毎の実行履歴としてジョブにおける入出力回
    数を蓄積し、該ジョブ群のジョブ実行において障害が発
    生した際に、該ジョブ群のジョブについて障害発生時と
    正常終了時の入出力回数を比較し、実行したジョブのう
    ち入出力回数が正常終了時の最高値と最低値の範囲外に
    あるジョブを障害の原因として検出することを特徴とす
    る計算機システムの障害回復支援方法。
  4. 【請求項4】 請求項1記載の計算機システムの障害回
    復支援方法において、 前記ジョブ毎の実行履歴としてジョブの実行時間を蓄積
    し、該ジョブ群のジョブ実行において障害が発生した際
    に、該ジョブ群のジョブについて障害発生時と正常終了
    時の実行時間を比較し、実行したジョブのうち実行時間
    が正常終了時の最高値と最低値の範囲外にあるジョブを
    障害の原因として検出することを特徴とする計算機シス
    テムの障害回復支援方法。
  5. 【請求項5】 請求項1記載の計算機システムの障害回
    復支援方法において、 前記ジョブ毎の実行履歴としてジョブの実行時間と入出
    力回数を蓄積し、該ジョブ群のジョブ実行において障害
    が発生した際に、該ジョブ群のジョブについて障害発生
    時と正常終了時の入出力1回当りの実行時間を比較し、
    実行したジョブのうち入出力1回当りの実行時間が正常
    終了時の最高値と最低値の範囲外にあるジョブを障害の
    原因として検出することを特徴とする計算機システムの
    障害回復支援方法。
  6. 【請求項6】 請求項1記載の計算機システムの障害回
    復支援方法において、 前記ジョブ群の障害発生時の実行履歴と正常終了時の実
    行履歴を比較し、正常終了時の実行履歴が障害発生時の
    実行履歴と一致しないジョブを障害の原因として検出す
    ることを特徴とする計算機システムの障害回復支援方
    法。
  7. 【請求項7】 請求項1記載の計算機システムの障害回
    復支援方法において、 前記ジョブ毎の実行履歴としてジョブの実行時間と入出
    力回数を蓄積し、該ジョブ群のジョブ実行において障害
    が発生した際に、該ジョブ群のジョブについて障害発生
    時と正常終了時の入出力1回当りの実行時間を比較し、
    一致しないジョブを障害の原因として検出することを特
    徴とする計算機システムの障害回復支援方法。
  8. 【請求項8】 請求項1記載の計算機システムの障害回
    復支援方法において、 障害が発生したジョブを実行する条件となった先行ジョ
    ブの正常終了時の実行履歴と障害発生時の実行履歴を比
    較して一致しないジョブを障害の原因として検出するこ
    とを特徴とする計算機システムの障害回復支援方法。
JP8252487A 1996-09-03 1996-09-03 計算機システムの障害回復支援方法 Pending JPH1078894A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP8252487A JPH1078894A (ja) 1996-09-03 1996-09-03 計算機システムの障害回復支援方法
US08/921,572 US6041425A (en) 1996-09-03 1997-09-02 Error recovery method and apparatus in a computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8252487A JPH1078894A (ja) 1996-09-03 1996-09-03 計算機システムの障害回復支援方法

Publications (1)

Publication Number Publication Date
JPH1078894A true JPH1078894A (ja) 1998-03-24

Family

ID=17238063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8252487A Pending JPH1078894A (ja) 1996-09-03 1996-09-03 計算機システムの障害回復支援方法

Country Status (2)

Country Link
US (1) US6041425A (ja)
JP (1) JPH1078894A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1008938A2 (en) * 1998-12-09 2000-06-14 Hitachi, Ltd. Method of analysing delay factor in job system
JP2006202076A (ja) * 2005-01-21 2006-08-03 Internatl Business Mach Corp <Ibm> トレース情報収集システム、トレース情報収集方法、及びトレース情報収集プログラム
JP2006277696A (ja) * 2005-03-30 2006-10-12 Nec Corp ジョブ実行監視システム、ジョブ制御装置、ジョブ実行方法及びジョブ制御プログラム
JP2008134705A (ja) * 2006-11-27 2008-06-12 Hitachi Ltd データ処理方法及びデータ分析装置
JP2009163633A (ja) * 2008-01-09 2009-07-23 Ricoh Co Ltd 情報処理装置およびデータ通信方法
US7756425B2 (en) 2005-08-25 2010-07-13 Konica Minolta Business Technologies, Inc. Error notification device notifying of occurrence of error
US8760685B2 (en) 2008-09-26 2014-06-24 Brother Kogyo Kabushiki Kaisha Image forming device and management system for image forming
US10346262B2 (en) 2015-09-18 2019-07-09 Mitsubishi Electric Corporation Job management apparatus, job management method and computer readable medium to generate and execute a retry job when an error occurs during a job step

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6212653B1 (en) * 1998-02-18 2001-04-03 Telefonaktiebolaget Lm Ericsson (Publ) Logging of events for a state driven machine
FR2789502B1 (fr) * 1999-02-08 2001-08-10 Bull Sa Procede et outil d'analyse et de localisation de pannes materielles dans une machine informatique
US6571270B1 (en) * 1999-03-15 2003-05-27 International Business Machines Corporation Timeout detection facility
US6634000B1 (en) * 2000-02-01 2003-10-14 General Electric Company Analyzing fault logs and continuous data for diagnostics for a locomotive
US6915342B1 (en) * 2000-02-04 2005-07-05 Ricoh Company Limited Method and system for maintaining the business office appliance through log files
JP4157294B2 (ja) * 2001-11-08 2008-10-01 富士通株式会社 欠陥ファイルの修復を可能とするファイルシステム
US7058666B1 (en) * 2002-05-02 2006-06-06 Taiwan Semiconductor Manufacturing Company, Ltd. Automatic database monitoring system
EP1367488B1 (en) * 2002-05-31 2006-04-26 Sap Ag Method and computer system for network-job management
JP4045991B2 (ja) * 2003-03-27 2008-02-13 株式会社日立製作所 ポリシールールの生成方法およびそれを用いたジョブ運用管理方法
GB0324961D0 (en) * 2003-10-25 2003-11-26 Ibm Invocation of a follow on unit of work
US8572616B2 (en) * 2006-05-25 2013-10-29 International Business Machines Corporation Apparatus, system, and method for managing z/OS batch jobs with prerequisites
US8381187B2 (en) * 2006-09-21 2013-02-19 International Business Machines Corporation Graphical user interface for job output retrieval based on errors
JP5422342B2 (ja) * 2009-11-10 2014-02-19 株式会社日立製作所 インシデント管理方法および運用管理サーバ
US8751872B2 (en) * 2011-05-27 2014-06-10 Microsoft Corporation Separation of error information from error propagation information
CN103886399A (zh) * 2012-12-24 2014-06-25 鸿富锦精密工业(深圳)有限公司 任务分配系统及方法
US8977907B2 (en) * 2013-01-28 2015-03-10 Electro-Motive Diesel, Inc. Control system to identify faulty code modules
CN106155770B (zh) * 2015-03-30 2019-11-26 联想(北京)有限公司 任务调度方法和电子设备
CN104965776B (zh) * 2015-07-29 2018-03-09 广东欧珀移动通信有限公司 移动终端在恢复模式下查看日志的方法和系统
BE1025127B1 (de) * 2017-04-10 2018-11-16 Phoenix Contact Gmbh & Co Kommunikationssystem zur seriellen Kommunikation zwischen Kommunikationsgeräten
US11429101B2 (en) * 2018-04-19 2022-08-30 Aurora Flight Sciences Corporation Adaptive autonomy system architecture
JP2022091350A (ja) * 2020-12-09 2022-06-21 富士通株式会社 集計プログラム及び集計方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4333144A (en) * 1980-02-05 1982-06-01 The Bendix Corporation Task communicator for multiple computer system
JPH03144831A (ja) * 1989-10-31 1991-06-20 Matsushita Electric Ind Co Ltd システム復旧方法
JP3084807B2 (ja) * 1991-07-10 2000-09-04 ブラザー工業株式会社 印字装置
JPH05265775A (ja) * 1992-03-19 1993-10-15 Hitachi Ltd ジョブ実行予測制御方法およびジョブ実行状況表示方法
US5557736A (en) * 1992-03-19 1996-09-17 Hitachi Electronics Services Co., Ltd. Computer system and job transfer method using electronic mail system
US5758053A (en) * 1992-07-22 1998-05-26 Hitachi, Ltd. Fault handling and recovery for system having plural processors
JPH07311691A (ja) * 1994-05-18 1995-11-28 Matsushita Electric Ind Co Ltd 障害原因発見装置、障害原因対策装置、及びそれらの方法
JP2723068B2 (ja) * 1995-02-20 1998-03-09 日本電気株式会社 ジョブ再実行方式

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1008938A2 (en) * 1998-12-09 2000-06-14 Hitachi, Ltd. Method of analysing delay factor in job system
EP1008938A3 (en) * 1998-12-09 2005-10-26 Hitachi, Ltd. Method of analysing delay factor in job system
JP2006202076A (ja) * 2005-01-21 2006-08-03 Internatl Business Mach Corp <Ibm> トレース情報収集システム、トレース情報収集方法、及びトレース情報収集プログラム
US7574626B2 (en) 2005-01-21 2009-08-11 International Business Machines Corporation Trace information collecting system, method and program
JP2006277696A (ja) * 2005-03-30 2006-10-12 Nec Corp ジョブ実行監視システム、ジョブ制御装置、ジョブ実行方法及びジョブ制御プログラム
JP4538736B2 (ja) * 2005-03-30 2010-09-08 日本電気株式会社 ジョブ実行監視システム、ジョブ制御装置、ジョブ実行方法及びジョブ制御プログラム
US7756425B2 (en) 2005-08-25 2010-07-13 Konica Minolta Business Technologies, Inc. Error notification device notifying of occurrence of error
JP2008134705A (ja) * 2006-11-27 2008-06-12 Hitachi Ltd データ処理方法及びデータ分析装置
US8219548B2 (en) 2006-11-27 2012-07-10 Hitachi, Ltd. Data processing method and data analysis apparatus
JP2009163633A (ja) * 2008-01-09 2009-07-23 Ricoh Co Ltd 情報処理装置およびデータ通信方法
US8760685B2 (en) 2008-09-26 2014-06-24 Brother Kogyo Kabushiki Kaisha Image forming device and management system for image forming
US10346262B2 (en) 2015-09-18 2019-07-09 Mitsubishi Electric Corporation Job management apparatus, job management method and computer readable medium to generate and execute a retry job when an error occurs during a job step

Also Published As

Publication number Publication date
US6041425A (en) 2000-03-21

Similar Documents

Publication Publication Date Title
JPH1078894A (ja) 計算機システムの障害回復支援方法
US6272626B1 (en) System for setting a flag indicating a boot failure of loading a procedure and aborting additional loading attempt thereof when the flag is detected
US8239854B2 (en) Bookmark and configuration file for installation sequence
US7734956B2 (en) Process management system
JPH11134235A (ja) 外部記憶装置故障時の回復支援方法
US5826078A (en) Job re-execution system and controlling method thereof
JPH10275093A (ja) プログラムテスト支援装置
US20030131146A1 (en) Interactive monitoring and control of computer script commands in a network environment
WO2009009090A1 (en) Exception-based error handling in an array-based language
EP0452080B1 (en) System for controlling restoration from failure in a queue structure of control data
JP2001255929A (ja) プラント運転支援装置
JPH11224186A (ja) ソフトウェア解析装置及びソフトウェア解析方法
JP6036089B2 (ja) データ遷移トレース装置、データ遷移トレース方法、及び、データ遷移トレースプログラム
JP6795646B2 (ja) リカバリー支援システム、リカバリー支援方法及びリカバリー支援プログラム
JP3179353B2 (ja) プログラムテスト自動化システム
CN112783617B (zh) 一种适用于轨道交通监控应用的带虚拟执行的顺序控制方法
JP2902769B2 (ja) ロボットのシーケンス制御方式
JPH0659913A (ja) バッチジョブスケジューリングシステム
JPH08335206A (ja) 疎結合多重計算機システムにおけるトランザクション自動復旧システム
CN116303794A (zh) 基于cdc同步的数据冲突处理方法、装置及计算机设备
JPH0247728A (ja) フォルト処理管理方式
JPH05143422A (ja) 更新後ジヤーナル管理方式
JPH0431933A (ja) 原始プログラム解析装置
JPH0756793A (ja) ファイル障害自動復旧システム
JPH0434626A (ja) エラーロギング方法