JPH0157825B2 - - Google Patents

Info

Publication number
JPH0157825B2
JPH0157825B2 JP57005963A JP596382A JPH0157825B2 JP H0157825 B2 JPH0157825 B2 JP H0157825B2 JP 57005963 A JP57005963 A JP 57005963A JP 596382 A JP596382 A JP 596382A JP H0157825 B2 JPH0157825 B2 JP H0157825B2
Authority
JP
Japan
Prior art keywords
cpu
data
cpu2
cpu1
recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57005963A
Other languages
English (en)
Other versions
JPS58125103A (ja
Inventor
Akio Ito
Hirohisa Hayakawa
Hideo Kanzaki
Tsutomu Mizoguchi
Koichi Kimura
Hiroaki Aotsu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP57005963A priority Critical patent/JPS58125103A/ja
Priority to DE8282111353T priority patent/DE3279941D1/de
Priority to EP82111353A priority patent/EP0081238B1/en
Publication of JPS58125103A publication Critical patent/JPS58125103A/ja
Publication of JPH0157825B2 publication Critical patent/JPH0157825B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Safety Devices In Control Systems (AREA)

Description

【発明の詳細な説明】 本発明は多重系演算処理システムにおいて障害
を起こした計算機を復旧する際、復旧した計算機
を自動的に他の正常な計算機と同期した状態と
し、多重系演算処理全体の同期処理の継続を図る
ことに関する。
近年、情報処理装置のオンラインでの使用が盛
んになり、システムの信頼性、実時間性の要求が
増々高まつている。たとえばプラントの制御装置
については、従来のハードウエアのみで構成され
た制御装置に代わり、計算機(以下CPUという)
を利用した制御装置を用いてより高度な制御を実
現しているが、このようなCPUを応用した制御
装置ではシステムの信頼性を上げるため、同一機
能の制御装置を複数台設けた多重化の演算処理シ
ステムをとることが多い。多重系制御装置は同一
の入力信号を同じ条件のもとで得、同一の処理を
行うものである。したがつて複数のCPUからは
同一の出力が得られ、この一致した出力を多重系
演算制御装置の出力信号として制御対象へと出力
する。更に、極めて高度の信頼性、実時間性の要
求されるシステムや、CPUを利用して誤動作防
止システムを構成したいという要望が強い分野に
おいてはデユアルアンド方式を採用しており、こ
のシステムを実現するためには多重化システムの
同期化が必要となる。
第1図に従来のシステム構成例を示す。なお本
例では二重系の例を示す。第1図においてCPU
1,CPU2は同一の処理を行う演算処理装置、
3は両系CPUからの演算出力を監視し、不一致
が発生すると外部に表示する不一致検出回路、4
は両系CPUの演算出力を照合し、デユアルアン
ドをとつて外部制御対象に対し出力をする出力照
合装置である。またCPU1,CPU2は演算中の
データを各々のメモリのワークエリア及びバツフ
アエリアに保存して毎回の演算ごとに更新してい
る。本装置が正常に動作している場合は両系の照
合出力を、また片系に障害が発生した場合は片系
の出力を外部に対して出力し、その切り換えスイ
ツチが5である。ここで片系が障害より正常状態
に戻り、演算処理を開始した場合、再び出力照合
装置4はデユアルアンドを行うが、各回の演算は
それ以前のワーク、バツフアエリアのデータも演
算に使用しているため、復旧系のCPUのメモリ
の内容は正常系と異なつていることにより、それ
らを用いて演算を行うと演算結果が異なり、不一
致検出回路1において不一致が検出されてしま
う。
この現象を防ぐため、他の例ではCPU1と
CPU2がワーク、バツフアエリアのデータを処
理終了と同時に外部に設置されたもう1つのバツ
クアツプのためのメモリへ転送するという方法も
ある。しかしながらこのような復旧方法では毎回
の演算ごとに外部メモリへもデータ転送をすると
いうCPUに対する負担の増加、また情報伝送す
る量が多いため、情報伝送時のノイズ等によるビ
ツト誤りチエツクや誤りが発生した場合の再送処
理等、通信回線を利用したデータ伝送における複
雑な伝送制御方式をプログラムに組み込む必要が
あり、本来の目的であるデータ処理機能に影響を
与え、システムの応答性を悪くする欠点を有す
る。
また、外部メモリはシステム構成上重要な位置
を占めるものだが、CPUに比べ故障率が高く、
バツクアツプに用いる装置がシステム全体の信頼
性を低下させるという重大な欠点を有している。
本発明の目的は上記した従来技術の欠点を除去
し、システム構成の簡素化により共通ハードウエ
アによる信頼性の低下を防ぐとともに、復旧後、
即座にシステム全体が同期状態に入ることを可能
とした多重系演算処理同期システムの復旧方法を
提供することにある。
この目的を達成するために本発明は、多重系演
算処理システムにおいて情報交換手段を設け、こ
れを利用してコマンド送受信を行い、お互いの
CPUの動作/ダウンを検出し、また復旧を確認
すると即座に演算に必要なデータを全転送し、復
旧側のCPUを同期状態に並入することを可能と
したことを特徴とする。
以下、本発明の一実施例として二重系を例にと
り、説明する。第2図は本実施例の構成を示して
おり、6は両系CPUの間で情報交換を行う情報
交換手段(以下バスという)である。
また、第3図は両系のCPUが正常に動作して
いる際のCPUのブロツクフローチヤートである。
第3図においてCPU1は図示せぬタイマにより
一定の周期でプログラムの起動がかかるが、これ
は一定の周期を有する外部割り込みでも同様の役
割を果たす。まず、CPU1はバス6を介して
CPU2に対しコマンドC1を送信し、相手系に
対し、CPU1が正常であることを知らせる。
CPU2はこのコマンドC1受信によりプログラ
ムの起動がかかり、自系CPU2が正常であれば
レスポンス信号R1をC1に対してバス6を介し
て返信する。CPU1はレスポンス信号R1を受
信したことによりCPU2の正常動作を確認し、
データ入力処理を行う。CPU2もR1送信後、
データ入力処理を行う。この一連のコマンド送受
信により、CPU1,CPU2とも相手系CPUの動
作状態を確認しながら演算を行うとともにバス6
は二重系のCPUの演算同期用のバスとして用い
られている。
次に片系のCPUがダウンした場合に残りの
CPUが正常な動作を行い、処理を継続してゆく
過程を第4図、第5図を用いて示す。第4図は
CPU2がダウンした場合のCPU1の動作フロー
チヤート、第5図はCPU1がダウンした場合の
CPU2の動作フローチヤートである。第4図に
おいてCPU1は第3図と同様に例えば図示せぬ
タイマによりプログラムの起動がかかり、コマン
ド信号C1をバス6を介して送信する。CPU1
はこのレスポンス信号を受信しようとするが
CPU2がダウンしているのでレスポンス受信は
できない。CPU1はレスポンス信号をある一定
時間経過後も受信できない場合はCPU2がダウ
ンしていると判断し、自走モードへ移行し、デー
タ入力処理へと処理を進める。以下、CPU1は
プログラムの起動がかかる度にCPU2が復帰し
たかどうかをチエツクしながら自走している(レ
スポンス受信を確認すればCPU2が復帰したこ
とを示す)。
一方、CPU2のプログラムは正常時は第3図
に示したようにCPU1からのC1受信により起
動がかかる。しかしCPU1がダウンし、C1が
送信されない場合には、CPU2のプログラムの
起動がかからないことになる。このためCPU2
は正常時でも自走用のタイマまたは外部割り込み
で第5図に示すプログラムの起動をかけている。
ここでこのプログラム起動周期は第3図のCPU
1のプログラムを起動するタイマの周期と等しく
とられている。
第5図においてCPU2のプログラムの起動が
かかると、演算一周期内にC1受信があつたかど
うかを判断し、受信していた場合は正常モードと
判定し、CPU2のタイマによるプログラムを終
了し、第3図の様にCPU1からのC1受信によ
るプログラム起動のモードとなる。一周期内にC
1受信がなかつた場合はCPU1とCPU2のタイ
マカウントの差を考え、一定時間、C1を待つ。
それでもC1を受信できない場合はCPU1がダ
ウンしたと判定し、CPU2の片系自走へと移行
する。以下、CPU1がダウンしている間はこの
タイマによりプログラムの起動がかかるが、第5
図のフローチヤートに示した様に、CPU2の自
走モードの場合も常にCPU1の復帰を監視しな
がら自走運転をしている。このように片系自走モ
ードの場合、バス6は相手系のダウンの発見及び
復帰の監視として使われている。
次に第6図、第7図で故障CPUの復旧モード
について説明する。自走しているCPUは演算を
実行しているため演算結果データ及びワークデー
タなどは復旧したCPUのデータとは異なつたも
のとなつており、これを用いて演算した場合、二
重系からの出力は異なる結果が得られ、DO不一
致となる。このためそれまで自走していたCPU
のメモリデータを復旧したCPUへ伝送し、デー
タの同一性を保つ(オートバランス機能)必要が
ある。第6図はCPU1がダウンから復旧した場
合の両系CPUの動作モードを、第7図はCPU2
がダウンから復旧した場合の両系CPUの動作モ
ードを示す。第6図においてCPU1は復旧する
と、自系CPUが復旧したことを知らせるために
コマンドC2を送信する。CPU2はC2を受信
したことにより自系は自走していたのでオートバ
ランスが必要なことを認識し、レスポンス信号R
2を送信する。CPU1もR2を受信したことに
よりオートバランスを開始し、オートバランスデ
ータの格納先頭アドレスをCPU2に知らせるコ
マンドC3をバス6を介して再び送信する。
CPU2はこのアドレスのデータをバス6を介し
て送信し、CPU1はこれを該当アドレスに格納
し、オートバランスの1ステツプを終了する。
CPU1はその後オートバランスデータアドレス
を更新し、オートバランス終了アドレスに到達し
たかどうかをチエツクする。終了アドレスになれ
ば次の演算周期でオートバランス終了コマンドC
6を送信できるようにC6を設定する。C6は次
の演算周期の先頭で送信され、CPU2にオート
バランスが終了したことを知らせ、正常モードで
ある第3図の処理へ移行する。また、CPU2は
C6を受信するまでオートバランスをくり返す。
第7図ではCPU1がC1を送信し、復旧した
CPU2はC1を受信すると、自系が復旧したこ
とをCPU1に知らせるためにC1に対し、レス
ポンス信号R4を送信する。これによりCPU1
はCPU2が復旧したことを認識し、オートバラ
ンスを開始する。CPU1はオートバランスデー
タ格納アドレスとともにデータをCPU2へバス
6を介して送信し、CPU2はそのアドレスに受
信したデータを格納した後レスポンス信号R5を
送信する。CPU1はR5を受信したことにより、
オートバランスの1ステツプが正常に終了したこ
とを認識し、第6図と同様にオートバランス終了
チエツク処理を行う。
このオートバランスの期間は、お互いのバツフ
ア、ワークデータの同一性を確保するために行う
ので演算処理は中断しておき、また伝送エラーを
厳しくチエツクするために、反転二連送チエツ
ク、定マークコードチエツク、ウオツチドグタイ
マ監視などを行い、誤り発生時には再送処理など
を行う。
このようにして復旧したCPUの動作を確認し、
またデータの同一性を保つために復旧時だけにデ
ータの全転送を行うオートバランス機能を備えた
ことにより両系のメモリ内容はすべて同一とな
り、演算結果も同一のものとなる。またその手段
として正常時には同期用バスとして使用している
バス6を用いることができ、ハード面の追加は必
要ない。また、正常時におけるCPUはコマンド
送受信だけを行えばよく、本来の演算処理を行う
時間が増し、従来の方法のように共通のメモリへ
のデータ転送や相手系へのデータ転送などは必要
がなく、CPUの負荷は従来の方法より軽減され
る。なお、バス6は1本だけでデータ伝送を行う
双方向性のバスのため、CPU1からの情報と
CPU2からの情報とがいかなる場合も衝突しな
いように必ずCPU1からの伝送を先に行い、
CPU2からの情報伝送にはその返信伝送を利用
している。
本実施例によれば、片系のみの電源瞬停や誤動
作による片系ダウンにおいてCPU復旧後、自動
的に正常なCPUが相手系CPUの復旧を認識し、
データ伝送を行い、即座に同期運転が再開でき、
そのためのハードの追加も必要ない。また正常時
は本来の演算処理に係わる時間が多く、バツクア
ツプのための特別なタスクを実行しなくてもよ
く、システム全体の応答性は速くなる。
なお、本例では二重系の例について説明した
が、多重系CPUに関しても応用できる。
本発明によれば、多重系演算処理装置において
一つあるいは多数のCPUの障害よりの復旧に関
し、演算に必要なメモリデータの全転送を実行す
ることにより、即座に復旧したCPUをシステム
同期の状態に戻すことが可能となる。
また、メモリ全転送に必要なハードウエアは情
報交換手段のみでよく、信頼性の低下をひきおこ
さず、高信頼性のシステムを実現できた。
また、正常二重系運転時には情報交換手段を介
してコマンド送受信を行うだけで演算処理に移行
できるためCPUの負荷は軽減された上に、この
コマンド送受信により、相手CPUの動作/ダウ
ンが検出できるため、相手CPUのダウン及び復
旧の監視が可能となる。
本発明ではコマンド送受信により相手CPUの
動作状態を監視しているが、同一ハードウエア構
成でコマンド種類を使い分けることだけで、入力
データ取り込み時刻の同期化、出力データ出力時
刻の同期化、演算開始時刻の同期化などを行うこ
とが可能となる。
また、転送メモリデータ領域内に例えば障害時
のデータ記憶エリアなどがある場合、正常系から
のデータ転送により消去されてしまうため、転送
メモリアドレスを指定したり、データ記憶エリア
の他メモリ領域への退避などを行うことは可能で
ある。
【図面の簡単な説明】
第1図は従来の多重系演算処理同期システム構
成図であり、出力はデユアル、デユープレツクス
方式を用いている。第2図は本発明による多重系
演算処理同期システム構成図である。第3図は正
常時におけるCPUの動作フローチヤート、第4、
第5図は片系自走におけるCPU動作フローチヤ
ート、第6図、第7図は片系復旧時における両
CPUの動作フローチヤートである。 1……CPU1、2……CPU2、3……不一致
検出回路、4……出力照合装置、5……切換スイ
ツチ、6……情報交換手段、C1……CPU1正
常コマンド、R1……CPU2正常レスポンス、
C2……CPU1復旧コマンド、R2……CPU2
自走レスポンス、C3……オートバランス要求コ
マンド、R4……CPU2復旧レスポンス、R5
……オートバランスデータ受信正常レスポンス、
C6……オートバランス終了コマンド。

Claims (1)

    【特許請求の範囲】
  1. 1 同一処理を実行する複数の計算機群より成る
    多重系演算処理同期システムにおいて該計算機間
    に演算開始を報知するタイミング情報の授受を行
    う情報交換手段を設け、該計算機群の1つあるい
    は複数の系の計算機が障害から復旧した際、該情
    報交換手段のタイミング情報の有無により復旧を
    検出し、復旧した計算機へ必要データを送信する
    ことで複数計算機を並行稼動状態にすることを特
    徴とする多重系演算処理同期システムの復旧方
    法。
JP57005963A 1981-12-09 1982-01-20 多重系演算処理同期システムの復旧方法 Granted JPS58125103A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP57005963A JPS58125103A (ja) 1982-01-20 1982-01-20 多重系演算処理同期システムの復旧方法
DE8282111353T DE3279941D1 (en) 1981-12-09 1982-12-08 Multi-computer system
EP82111353A EP0081238B1 (en) 1981-12-09 1982-12-08 Multi-computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57005963A JPS58125103A (ja) 1982-01-20 1982-01-20 多重系演算処理同期システムの復旧方法

Publications (2)

Publication Number Publication Date
JPS58125103A JPS58125103A (ja) 1983-07-26
JPH0157825B2 true JPH0157825B2 (ja) 1989-12-07

Family

ID=11625532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57005963A Granted JPS58125103A (ja) 1981-12-09 1982-01-20 多重系演算処理同期システムの復旧方法

Country Status (1)

Country Link
JP (1) JPS58125103A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140424A (ja) * 2007-12-10 2009-06-25 Hitachi Ltd フォールトトレラントコンピュータシステム、並びに再同期稼働化処理方法、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6056801B2 (ja) * 2014-03-31 2017-01-11 日本電気株式会社 フォールトトレラントサーバ、同期化方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140424A (ja) * 2007-12-10 2009-06-25 Hitachi Ltd フォールトトレラントコンピュータシステム、並びに再同期稼働化処理方法、及びプログラム

Also Published As

Publication number Publication date
JPS58125103A (ja) 1983-07-26

Similar Documents

Publication Publication Date Title
US6321346B1 (en) External storage
US6148415A (en) Backup switching control system and method
US4941087A (en) System for bumpless changeover between active units and backup units by establishing rollback points and logging write and read operations
US7793060B2 (en) System method and circuit for differential mirroring of data
JPH02287858A (ja) 分散処理システムのリスタート方式
US20010016919A1 (en) Storage system
WO1999026138A1 (fr) Procede de permutation dans un systeme multiplex
JPH0157825B2 (ja)
US5737509A (en) Method and apparatus for restoring data coherency in a duplex shared memory subsystem
JPH10116261A (ja) 並列計算機システムのチェックポイントリスタート方法
JPH04360242A (ja) 二重化システムの系切替装置およびその方法
JP3313667B2 (ja) 二重化システムの障害検出方式及びその方法
JP3471913B2 (ja) コンピュータシステム
JP2879480B2 (ja) 冗長計算機システムの同期外れ時の切替方式
JP2002108640A (ja) デュープレックスシステム、シングルプロセッサシステム、及びサブボード
JP2004013723A (ja) 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法
JPS6214859B2 (ja)
JP3176945B2 (ja) 情報処理装置、待機冗長型システムおよび待機冗長型システムの主系と待機系との間でチェックポイントをとる方法
JPS5917467B2 (ja) 制御用計算機のバツクアツプ方式
JPH07182297A (ja) サーバクライアント型ネットワークシステム
JP2000207373A (ja) プロセス入出力装置およびその制御方法
JPH10232704A (ja) 二重化プログラマブルコントローラ
JPH0427239A (ja) Lan接続装置の制御方法
JP3137970B2 (ja) 共用記憶制御システム
JPH08202570A (ja) 二重化プロセス制御装置