JPH04291628A - 複合サブシステム形オンラインシステムの障害回復方式 - Google Patents

複合サブシステム形オンラインシステムの障害回復方式

Info

Publication number
JPH04291628A
JPH04291628A JP3056505A JP5650591A JPH04291628A JP H04291628 A JPH04291628 A JP H04291628A JP 3056505 A JP3056505 A JP 3056505A JP 5650591 A JP5650591 A JP 5650591A JP H04291628 A JPH04291628 A JP H04291628A
Authority
JP
Japan
Prior art keywords
controller
subsystem
composite
fault
job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3056505A
Other languages
English (en)
Inventor
Akio Igarashi
明夫 五十嵐
Shozo Yano
省三 矢野
Hiromichi Ogata
緒方 博通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP3056505A priority Critical patent/JPH04291628A/ja
Publication of JPH04291628A publication Critical patent/JPH04291628A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複合サブシステム形オ
ンラインシステムの障害回復方式に係り、特に各サブシ
ステムを制御する複合サブシステムコントローラに障害
が発生した場合に好適な複合サブシステム形オンライン
システムの障害回復方式に関する。
【0002】
【従来の技術】従来の複合サブシステム形オンラインシ
ステムの障害回復方式は特開昭63−261437号公
報に記載のように、トランザクションごとに障害回復時
に必要とするジャーナルを退避するジャーナル退避ファ
イルを設けることにより、一部サブシステムに障害が発
生した時でも他のサブシステムの運転を続行し、その後
障害サブシステムが遅れて立ち上がった時にも容易に障
害回復が行えるようになっていた。
【0003】また、複合サブシステム形オンラインシス
テムにおける障害回復方式としては、一部サブシステム
に障害が発生した時でも、その障害がハード的な原因に
よるものでなく一時的なタイミング的な原因によるもの
である場合は、もう一度処理を試みる(これをリトライ
という)ことによって、障害を回復することがある。
【0004】さらにまた、システム構成がホットスタン
バイ構成である場合はホットスタンバイ再開始を行うこ
とにより、一部サブシステムに障害が発生した場合の障
害回復を行なっていた。
【0005】ここでホットスタンバイ構成におけるホッ
トスタンバイ再開始について図3を用いて説明する。
【0006】実行系のプロセッサ30は、複数のサブシ
ステムを制御する複合サブシステムのコントローラ31
(以下、コントローラと呼ぶ)を有している。そしてこ
のコントローラ31の配下にはフロントエンド形サブシ
ステム32(以下、FEと呼ぶ)とバックエンド形サブ
システム33(以下、BEと呼ぶ)の2種類のサブシス
テムがある。
【0007】FE32はオンライン端末34を有し、業
務処理の単位であるトランザクションを発生させる。B
E33はデータベース35を有し、FE32の発生させ
たトランザクションによる要求に従ってデータベース3
5をアクセスする。
【0008】待機系のプロセッサ40はコントローラ3
1′、FE32′、BE33′、オンライン端末34′
、データベース35′から成る。FE32′、BE33
′は実行系のプロセッサ30のFE32、BE33がダ
ウンした時に、FE32、BE33が実行していた処理
を続行するための待機ジョブである。この待機ジョブは
データセットのオープン処理などのイニシャライズ処理
を終えた状態にある。
【0009】そして実行系のプロセッサ30と待機系の
プロセッサ40は制御情報連絡回線36によって接続さ
れている。
【0010】このような構成をホットスタンバイ構成と
呼び、このホットスタンバイ構成において、実行系のプ
ロセッサ30のサブシステムがダウンした場合は待機系
のプロセッサ40が、ダウンした実行系のプロセッサ3
0のサブシステムが実行していた処理を続行する。この
ことをホットスタンバイ再開始という。
【0011】また、障害がサブシステムを統合制御する
複合サブシステムコントローラに発生した場合は、オペ
レータが複合サブシステムコントローラを再起動して障
害発生後の処理を続行するようにしていた。
【0012】ここで、障害が複合サブシステムコントロ
ーラに発生した場合であっても、そのシステムがホット
スタンバイ構成をとっている場合は、上記同様ホットス
タンバイ再開始を行うことにより障害発生後の処理を続
行するようにしていた。
【0013】
【発明が解決しようとする課題】上記従来技術の自動障
害回復方法は、サブシステムに障害が発生した場合を対
象としたものであり、複合サブシステムコントローラに
障害が発生した場合の自動障害回復方法については考慮
されていなかった。
【0014】従って上記従来技術によれば、複合サブシ
ステムコントローラに障害が発生した時には自動的に障
害回復されず、この場合にはオペレータによる再起動操
作が必要で、回復時間が長大化することによりシステム
の信頼性が劣化するという問題があった。
【0015】また上記従来技術によれば、ハード的な原
因によるものでなく一時的なタイミング的な原因による
障害が複合サブシステムコントローラに発生した場合に
、単にリトライを試みてもサブシステム間の統制制御が
とれず不具合が生じるという問題があった。
【0016】本発明の目的は、複合サブシステム形オン
ラインシステムにおいて、複合サブシステムコントロー
ラにハード的な原因によるものでなく一時的なタイミン
グ的な原因による障害が発生した場合に、オペレータに
よる再起動操作を必要としないで自動的に障害を回復し
処理の続行を可能にすることにある。
【0017】
【課題を解決するための手段】本発明は上記目的を達成
するために、複数のデータコミュニケーションシステム
やデータベースシステムをサブシステムとして持ち、各
サブシステムを統合制御する複合サブシステムコントロ
ーラが存在する複合サブシステム形オンラインシステム
において、一時的な障害が複合サブシステムコントロー
ラに発生し待機ジョブが存在する場合、この待機ジョブ
を実行し、一時的な障害が複合サブシステムコントロー
ラに発生し待機ジョブが存在しない場合、障害が発生し
た複合サブシステムコントローラ配下のサブシステムを
すべて停止した後、複合サブシステムコントローラの再
起動を行なうようにしたものである。
【0018】
【作用】複合サブシステムコントローラに障害が発生し
た場合、この複合サブシステムコントローラは複合サブ
システムコントローラモニタに対して障害が発生したこ
とを連絡する。これにより複合サブシステムコントロー
ラモニタは障害がサブシステムではなく複合サブシステ
ムコントローラに発生したことを認識する。
【0019】そして複合サブシステムコントローラモニ
タは障害が発生した複合サブシステムコントローラの配
下にあるサブシステムに対する待機ジョブが存在するか
を判断する。その結果待機ジョブがある場合、即ちホッ
トスタンバイ構成をとっている場合は、ホットスタンバ
イ再開始を指示する。待機ジョブがない場合は、複合サ
ブシステムコントローラ下のすべてのサブシステムを停
止させた後、複合サブシステムコントローラを再起動す
る。
【0020】こうすることによって複合サブシステムコ
ントローラに発生した障害がハード的な原因によるもの
でなく一時的なタイミング的な原因によるものである時
は、複合サブシステムコントローラ下のすべてのサブシ
ステムを統制制御できるので、オペレータによる再起動
操作を必要としないで自動的に障害を回復し処理を続行
することができる。
【0021】
【実施例】以下、本発明の一実施例を図面を用いて詳細
に説明する。
【0022】図1は本発明が適用される複合サブシステ
ム形オンラインシステムの一構成例を示す図である。
【0023】図1においては、実行系のプロセッサ10
と待機系のプロセッサ20が制御情報連絡回線7によっ
て接続されており、実行系のプロセッサ10がダウンし
た場合待機系のプロセッサ20が処理を続行するような
構成、即ちホットスタンバイ構成を示している。
【0024】実行系のプロセッサ10は、複数のサブシ
ステムを制御する複合サブシステムのコントローラ2(
以下、コントローラと呼ぶ)を有し、このコントローラ
2の配下にはフロントエンド形サブシステム3(以下、
FEと呼ぶ)とバックエンド形サブシステム4(以下、
BEと呼ぶ)の2種類のサブシステムがある。
【0025】FE3はオンライン端末5を有し、業務処
理の単位であるトランザクションを発生させる。BE4
はデータベース6を有し、FE3の発生させたトランザ
クションによる要求に従ってデータベース6をアクセス
する。
【0026】また、コントローラ2には、コントローラ
2の障害監視を行なう複合サブシステムコントローラモ
ニタ1(以下、コントローラモニタと呼ぶ)が接続され
ている。
【0027】一方待機系のプロセッサ20はコントロー
ラモニタ1′コントローラ2′、FE3′、BE4′、
オンライン端末5′、データベース6′から成り、FE
3′、BE4′は実行系のプロセッサ10のFE3、B
E4がダウンした時に、FE3、BE4が実行していた
処理を続行するための待機ジョブである。そしてこの待
機ジョブ(FE3′、BE4′)はデータセットのオー
プン処理などのイニシャライズ処理を終えた状態にある
【0028】実行系10のコントローラモニタ1と待機
系20のコントローラモニタ1′は制御情報連絡回線7
によりお互いの状態を監視し合っている。
【0029】コントローラモニタ1が行うコントローラ
2の自動障害回復の処理の流れを図2を用いて説明する
【0030】本実施例において自動回復の対象としてい
る障害は、ハード的な原因によるものでなく一時的なタ
イミング的な原因による障害を対象とする。
【0031】障害が発生したらコントローラモニタ1は
、その障害がコントローラ2に発生したものであるか、
あるいはFE3、BE4のサブシステムに発生したもの
であるかを判断する(101)。ここではコントローラ
2に障害が発生した場合は、コントローラ2がコントロ
ーラモニタ1に対して障害が発生したことを連絡するこ
とにより、コントローラモニタ1はその障害がサブシス
テムではなくコントローラ2に発生したと判断する。
【0032】上記ステップ101でコントローラモニタ
1がその障害はコントローラ2に発生したものであると
判断した場合、コントローラモニタ1は、待機ジョブが
存在するか否かを判断する、即ちホットスタンバイ構成
をとっているか否かを判断する(102)。
【0033】待機ジョブが存在する場合は、ホットスタ
ンバイ再開始を指示する(105)。即ち、実行系のコ
ントローラモニタ1が制御情報連絡回線7を介して待機
系のコントローラモニタ1′に対し、実行系のプロセッ
サ10内で障害が発生したことを通知する。これにより
、待機系のプロセッサ20で、複合サブシステムオンラ
インシステムの再開始処理を行う。
【0034】待機ジョブが存在しない場合は、障害が発
生したコントローラ2の配下の全サブシステム(FE3
、BE4)を停止させる(103)。ここでいう「停止
」とはコントローラ2の配下の全サブシステム(FE3
、BE4)で実行中の処理を途中で終了させることでは
なく、完結させることを意味する。
【0035】その後コントローラ2を再起動する(10
4)。そして最新のチェックポイントとそのチェックポ
イント以降にとられたジャーナル情報を統合し、実行系
のプロセッサ10がダウンした状況まで戻して、その状
況から処理を続行する。
【0036】本実施例によればコントローラ2にハード
的な原因によるものでなく一時的なタイミング的な原因
による障害が発生した場合、オペレータによる再起動操
作を必要としないで自動的に障害を回復し処理を続行す
ることができる。
【0037】
【発明の効果】複合サブシステム形オンラインシステム
において、複合サブシステムコントローラにハード的な
原因によるものでなく一時的なタイミング的な原因によ
る障害が発生した場合、オペレータによる再起動操作を
必要としないで自動的に障害を回復することにより障害
回復時間が長大化することを防止できるためシステムの
信頼性が向上するという効果がある。
【図面の簡単な説明】
【図1】本発明が適用される複合サブシステム形オンラ
インシステムの一構成例を示す図である。
【図2】複合サブシステムコントローラモニタによる自
動障害回復処理を説明するためのフローチャートである
【図3】従来のホットスタンバイ構成におけるホットス
タンバイ再開始を説明するための図である。
【符号の説明】
1……実行系の複合サブシステムコントローラモニタ1
′…待機系の複合サブシステムコントローラモニタ2…
…実行系のコントローラ 2′…待機系のコントローラ 3……実行系のフロントエンド形サブシステム3′…待
機系のフロントエンド形サブシステム4……実行系のバ
ックエンド形サブシステム4′…待機系のバックエンド
形サブシステム5……実行系のオンライン端末 5′…待機系のオンライン端末 6……実行系のデータベース 6′…待機系のデータベース 7……制御情報連絡回線 10…実行系のプロセッサ 20…待機系のプロセッサ

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】複数のデータコミュニケーションシステム
    やデータベースシステムをサブシステムとして持ち、各
    サブシステムを統合制御する複合サブシステムコントロ
    ーラが存在する複合サブシステム形オンラインシステム
    において、一時的な障害が複合サブシステムコントロー
    ラに発生し待機ジョブが存在する場合、当該待機ジョブ
    を実行し、一時的な障害が複合サブシステムコントロー
    ラに発生し待機ジョブが存在しない場合、前記一時的な
    障害が発生した複合サブシステムコントローラ配下のサ
    ブシステムをすべて停止した後、当該複合サブシステム
    コントローラの再起動を行なうことを特徴とする複合サ
    ブシステム形オンラインシステムの障害回復方式。
JP3056505A 1991-03-20 1991-03-20 複合サブシステム形オンラインシステムの障害回復方式 Pending JPH04291628A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3056505A JPH04291628A (ja) 1991-03-20 1991-03-20 複合サブシステム形オンラインシステムの障害回復方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3056505A JPH04291628A (ja) 1991-03-20 1991-03-20 複合サブシステム形オンラインシステムの障害回復方式

Publications (1)

Publication Number Publication Date
JPH04291628A true JPH04291628A (ja) 1992-10-15

Family

ID=13028983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3056505A Pending JPH04291628A (ja) 1991-03-20 1991-03-20 複合サブシステム形オンラインシステムの障害回復方式

Country Status (1)

Country Link
JP (1) JPH04291628A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332506B2 (en) 2005-11-11 2012-12-11 Fujitsu Limited Network monitor program executed in a computer of cluster system, information processing method and computer
WO2013102812A1 (en) * 2012-01-05 2013-07-11 International Business Machines Corporation A fault tolerant system in a loosely-coupled cluster environment

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332506B2 (en) 2005-11-11 2012-12-11 Fujitsu Limited Network monitor program executed in a computer of cluster system, information processing method and computer
WO2013102812A1 (en) * 2012-01-05 2013-07-11 International Business Machines Corporation A fault tolerant system in a loosely-coupled cluster environment
US9098439B2 (en) 2012-01-05 2015-08-04 International Business Machines Corporation Providing a fault tolerant system in a loosely-coupled cluster environment using application checkpoints and logs

Similar Documents

Publication Publication Date Title
US20050283504A1 (en) Disaster recovery system suitable for database system
US20150212891A1 (en) Restarting processes
US20060089975A1 (en) Online system recovery system, method and program
JP4315016B2 (ja) コンピュータシステムの系切替方法
KR19990082867A (ko) 갱신 트랜잭션 완성 방법 및 장치
JPH04291628A (ja) 複合サブシステム形オンラインシステムの障害回復方式
US20110082959A1 (en) Timeout preventing device, a timeout preventing method and a program thereof
JPH01224846A (ja) プロセス空間切り換え制御方式
JP3139536B2 (ja) 分散バッチジョブ処理システムおよびその障害時におけるジョブの自動再起動方法
JP2002049509A (ja) データ処理システム
JPH0879246A (ja) 分散型通信システムおよびその障害回復方法
JPH117431A (ja) 複数コンピュータで実行する業務の障害回復システム
JPH05314075A (ja) オンラインコンピュータ装置
JP3022768B2 (ja) 仮想計算機システム
JP2004046658A (ja) データ転送方法
US20060156210A1 (en) Apparatus, system, and method for providing parallel access to a data set configured for automatic recovery
US20070038849A1 (en) Computing system and method
JP3483901B2 (ja) システムの構成変更方法およびその実施計算機システム
JP2001229033A (ja) ファイル障害時のジョブネット再実行装置
JPH06266478A (ja) 計算機システム
JP2001344191A (ja) 二重化入出力制御方式および二重化入出力制御方法
JP3729573B2 (ja) 並列処理システムの処理引き継ぎ方法
JPH04330531A (ja) チェックポイント処理方式
JPH06250865A (ja) ウインドウシステムの障害時対応方法
JP2513122B2 (ja) ホットスタンバイ切り替えシステム