JPS58125103A - 多重系演算処理同期システムの復旧方法 - Google Patents

多重系演算処理同期システムの復旧方法

Info

Publication number
JPS58125103A
JPS58125103A JP57005963A JP596382A JPS58125103A JP S58125103 A JPS58125103 A JP S58125103A JP 57005963 A JP57005963 A JP 57005963A JP 596382 A JP596382 A JP 596382A JP S58125103 A JPS58125103 A JP S58125103A
Authority
JP
Japan
Prior art keywords
cpu
data
autobalance
cpu2
recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57005963A
Other languages
English (en)
Other versions
JPH0157825B2 (ja
Inventor
Akio Ito
明男 伊藤
Hirohisa Hayakawa
博久 早川
Hideo Kanzaki
神崎 秀郎
Tsutomu Mizoguchi
溝口 勉
Koichi Kimura
光一 木村
Hiroaki Aotsu
青津 広明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP57005963A priority Critical patent/JPS58125103A/ja
Priority to DE8282111353T priority patent/DE3279941D1/de
Priority to EP82111353A priority patent/EP0081238B1/en
Publication of JPS58125103A publication Critical patent/JPS58125103A/ja
Publication of JPH0157825B2 publication Critical patent/JPH0157825B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Safety Devices In Control Systems (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は多重系演算処理システムにおいて障害を起こし
た可1算機を復旧する際、復旧した計算機を自動的に他
の正常な計算機と同期し次状態とし、多重系演算処理全
体の同期処理の継続を図ることに関する。
近年、情報処理装置のオンラインでの使用が盛んになり
、システムの信頼性、実時間性の要求が増々萬まってい
る。たとえばプラントの制御装置については、従来のハ
ードフェアのみで構成された制御装置に代わシ、計算機
(以下CPUという)を利用した制御装置を用いてより
i%度な制御を実現しているが、このようなCPUを利
用した制御装置ではシステムの信頼性を上げるため、同
一機能の制御装置を複数台設けた多重化の演算処理シス
テムをとることが多い。多重系制御装置は同一の入力信
号を同じ粂件のもとで得、同一の処理を行うものである
。したがって複数のCPUからは同一の出力が得られ、
この一致した出力を多重系演算制御装置の出力信号とし
て制御対象へと出力する。更に、極めて高度の信頼性、
東時間性の要求されるシステムや、CPUを利用して誤
動作防止システムを構成したいという要望が強い分野に
おいてはデュアルアンド方式を採用しておシ、このシス
テムを実現するためには多重化システムの同期化が必要
となる。
第1図に従来のシステム構成例を示す。なお本例では二
重系の例を示す。第1図においてCPUI。
CPU2は同一の処理を行う演算処理装置、3は両糸C
PUからの演算出力を監視し、不一致が発生すると外部
に表示する不一致検出回路、4は両系CPUの演算出力
を照合し、デュアルアンドをとって外部制御対象に対し
出力をする出力照合装置でめる。またCPUI、CPU
2は演算中のデータ含各々のメモリのワークエリア及び
バッファエリアに保存して毎回の演算ごとに更新してい
る。
本装置が正常に動作している場合は両系の照合出力を、
ま友片系に障害が発生した場合は片系の出力を外部に対
して出力し、その切り換えスイッチが5である。ここで
片系が障害より正常状態に戻り、演算処理を開始した場
合、再び出力照合装置4はデュアルアンドを行うが、各
回の演算はそれ以前のワーク、バッファエリアのデータ
も演算に使用しているため、復旧系のCP Uのメモリ
の自答は正常系と異なっていることにより、それらを用
いて〆算を行うと演算結果が異層り、不一致検出回路1
において不一致が検出されてしまう。
この現象を防ぐため、他のガではCPU1とCPU2が
ワーク、バッファエリアのデータを処理終了と同時に外
部に設置されたもう1つのバックアップのためのメモリ
へ転送するという方法もめる。しかしながらこのような
復旧方法では毎回の演算ごとに外部メモリへもデータ転
送をするというCPUに対する負担の増加、また情報伝
送する量が多いため、情報伝送時のノイズ等によるビッ
ト誤シチェックや誤りが発生した場合の再送処m−1、
通信回線を利用したデータ伝送における複雑な伝送制御
方式をプログラムに組み込む必要かめ9、本来の目的で
るるデータ処理機能に影響を与え、システムの応答性を
悪くする欠点を有する。
また、外部メモリはシステム構成上重要な位置を占める
ものだが、CPUに比べ故障率が高く、バックアップに
用いる装置がシステム全体の信頼性を低下させるという
重大な欠点を有している。
本発明の目的は上記し九従来技術の欠点を除去し、シス
テム構成の簡素化によシ共通ハードウェアによる信頼性
の低下を防ぐとともに、復旧後、即座にシステム全体が
同期状態に入ることを可能とした多重系演算処理同期シ
ステムの復旧方法を提供することにるる。
この目的を達成するために本発明は、多重系演算処理シ
ステムにおいて情報交換手段を設け、これを利用してコ
マンド送受信を行い、お互いのCPUの動作/ダウンを
検出し、また復旧を確認すると即座に演算に必要なデー
タを全転送し、復旧側のCPUt−同期状態に並入する
ことを可能としたことを%徴とする。
以下、本発明の一実施例として二重系を例にとり、説明
する。第2図は本夾施例の構成を示しており、6は両系
CPUの間で情報交換を行う情報交換手段(以下バスと
いう)である。
筐た、第3図は両系のCPUが正常に動作している際の
CPUのブロックフローチャートでめる。
第3図においてCPUIは図示せぬタイマによシ一定の
周期でプログラムの起動がかかるが、これは一定の周期
を有する外部割り込みでも同様の役割を来たす。−まず
、CPUIはバス6を介してCPU2に対しコマンドC
1を送信し、相手系に対し、CPUIが正常でおること
を知らせる。
CPU2はこのコマンドC1受信によシブログラムの起
動がかが9、自系CPU2が正常であればレスポンス信
号几1c1に対してバス6を介して返信する。CPUI
はレスポンス信号几1を受信し次ことによりCPU2の
正常動作を確認し、データ入力処理を行う。CPU2も
几l送信後、データ入力処理を行う。この一連のコマン
ド送受信により、CPU1.CPUZとも相手系CPU
の動作状態を確認しながら演算を行うとともにバス6は
二重系のCPUの演算同期用のバスとして用いられてい
る。
次に片系のCPUがダウンした場合に残りのCPUが正
常な動作を行い、処理を継続してゆく過程をwJ4図、
第5図を用いて示す。第4図はCPU2がダウンした場
合のCPUIの動作フローチャート、第5図はCPUI
がダウンした場合のCPU2の動作フローチャートでる
る。第4図においてCPUIは第3図と同様に例えば図
示せぬタイマによシブログラムの起動がかかシ、コマン
ド(1号C1をバス6を介して送信する。CPUIはこ
のレスポンス信号を受信しようとするがCPU2がダウ
ンしているのでレスボ/ス受信はできない。CPUIは
レスポンス1d号をある一定時間経過後も受信できない
場合はCPU2がダウンしていると判断し、自走モード
へ移行し、データ人力処理へと処理を進める。以下、C
PUIはプログラムの起動がかかる度にCPU2が復帰
したかどうかをチェックしながら自走している(レスポ
ンス受信を確認すればCPU2が復帰したことを示す)
一方、CPU2のプログラムは正常時は第3図にボし次
ようにCPUIからのC1受信によシ起動がかかる。し
かしCPUIがダウンし、C1が込1dされない場合に
は、CPU2のプログラムの起動がかからないことにな
る。このためCPU2は正常時でも自走用のタイマまた
は外部割シ込みで第5図に示すプログラムの起動をかけ
ている。
ここでこのプログラム起動周期は第3図のCPUIのプ
ログラムを起動するタイマの周期と等しくとられている
第5図においてCPU2のプログラムの起動がかかると
、演算−周期内に01受信がめったかどうかを判断し、
受信していた場合は正常モードと判定し、CPU2のタ
イマによるプログラムを終了し、第3図の様にCPUI
からのCI受信によるプログラム起動のモードとなる。
−周期内に01受信がなかった場合はCPUIとCPU
2のタイマカタントの差を考え、一定時間、C1を待つ
。それでもC1を受信できない場合はCPUIがダウン
したと判定し、CPU2の片系自走へと移行する。以下
、CPU1がダウンしている間はこのタイマによシブロ
グラムの起動がかかるが、第5図のフローチャートに示
した様に、CPU2の自走モードの場合も常にCPUI
の復帰を監視しながら自走運転をしている。このように
片系自走モードの場合、バス6は相手系のダウンの発見
及び復帰の監視として使われている。
次に186図、第7図で故障CPUの復旧モードについ
て説明する。自走しているC P Uは演算を実行して
いるため演算結果データ及びワークデータなどは復旧し
たCrUのデータとは異なったものとなっており、これ
を用いて演算しfC場合、二重糸からの出力は異なる結
果が得られ、DO不一致となる。このためそれまで自走
してい7’jCPUのメモリデータを復旧したCPUへ
伝送し、データの同一性を保つ(オートバランス機能)
必要がおる。第6図はCPUIがダウンから復旧した場
合の両系CI) Uの動作モードを、第7図はCPU2
がダウンから復旧した場合の両系CPUの動作モードを
示す。第6図においてCPUIは復旧すると、白糸CP
 Uが復旧し友ことを知らせるためにコマンドC2を送
1呂する。CPU2はC2を受信したこと(・こより自
系は自走していたのでオートバランスが必要なことを認
識し、レスポンス信号R2を送信する。CPUIもR2
を受信したことによりオートバランスを開始シ、オート
バランスデータの格納先頭アドレスをCPU2に知らせ
るコマンドC3をバス6を介して杏び送信する。
CPU2はこのアドレスのデータをバス6t−介して送
信し、CPU1はこれを該当アドレスに格納し、オート
バランスの1ステツプを終了する。
CPUIはその後オートバランスデータアドレスを更新
し、オートバランス終了アドレスに到達したかどうかを
チェックする。終了アドレスになれば次の演算周期でオ
ートバランス終了コマンドC6を送信できるようにC6
を設定する。C6は次の演算周期の先頭で送信され、C
PU2にオートバランスが終了したことを知らせ、正常
モードでるる第3図の処理へ移行する。また、CPU2
はC6を受信するまでオートバランスをくす返ス。
第7図ではCPUIがC1t−送信し、復旧したCPU
2はC1を受信すると、自系が復旧したことをCPUI
に知らせるために01に対し、レスポンス匿号R4を送
信する。これによりCPUIはCPU2が復旧したこと
を認識し、オートバランスを開始する。CPUIはオー
トバランスデータ格納アドレスとともにデータをCPU
2ヘバス6を介して送偏し、CPU2はそのアドレスに
受1ぎしたデータを格納した後レスポンス信号R5を送
1dする。CPUIはR5を受(iまたことにより、オ
ートバランスの1ステツプが正常に終了したことを1誠
し、第6図と同様にオートバランス終了チェック処理を
行う。
このオートバランスの期間は、お互いのバッファ、ワー
クデータの同一性を確保する九めに行うので演鋒処理は
中断しておき、また伝送エラーを厳しくチェックするた
めに、反転二連送チェック、定マークコードチェック、
ウオッチドグタイマ監視などを行い、誤9発生時には再
送処理などを行う。
このようにして復旧したCPUの動作を確認し、またデ
ータの同一性を保つために復旧時だけにデータの全転送
を行うオートバランス機能を備えたことにより両系のメ
モリ自答はすべて同一となり、演算結果も同一のものと
邊る。ま次その手段として正常時には同期用バスとして
使用しているバス6を用いることができ、ハード面の追
加は必要ない。ま九、正常時におけるCPUはコマンド
送受信だけを行えばよく、本来の演算処理を行う時間が
増し、従来の方法のように共通のメモリへのデータ転送
や相手系へのデータ転送などは必要なく、CPUの負荷
は便米の方法よシ軽減される。なお、バス6は1本だけ
でデータ伝送を行う双方向性のバスのため、CPU1か
らの情報とCPU2からの情報とがいかなる場合も衝突
しないように必ずCPUIからの伝送ヲ先に行い、CP
U2からの情報伝送にはその返信伝送を利用している。
本実施例によれば、片系のみの電源瞬停や一動作による
片系ダウンにおいてCPU復旧後、自動的に正常なCP
Uが相手系CPUの復旧を認識し、データ伝送を行い、
即座に同期運転が再開でき、そのためのハードの追加も
必JRない6また正常時は本来の演算処理に係わる時間
が多く、バックアップのための特別なタスクを実行しな
くてもよく、システム全体の応答性は速くなる。
なお、本例では二重系の例について説明したが、多重系
CPUに関しても応用できる。
本発明によれば、多重系演算処理装置において一つめる
いは多数のCPUの障害よシの復旧に関し、演算に必要
なメモリデータの全転送t−実行することにより、即座
に復旧したCPUをシステム同期の状態に戻すことが可
能となる。
また、メモリ全転送に必要なハードウェアは情報交換手
段のみでよく、信頼性の低下をひきおこ烙ず、^情幀性
のシステムを実現でさた。
また、正常二重系運転時には情報交換手段を介してコマ
ンド送受信を行うだけで演算処理に移行できるためCP
Uの負荷は軽減された上に、このコマンド送受信により
、相手CPUの動作/ダウンが検出できるため、相手C
PUのダウン及び復旧の監視が可能となる。
本発明ではコマンド送受信によシ相十CPUの動作状!
!!4を監視しているが、同一ハードウェア構成でコマ
ンド種類、を使い分けることだけで、人力データ収り込
み時刻の同期化、出力データ出力時刻の同ル」化、演算
開始時刻の同期化などを行うことがijJロヒとなる。
また、転送メモリデータ領域内に例えば障害時のデータ
記憶エリアなどがある場合、正常系からのデータ転送に
より消去されてしまうため、転送メモリアドレスを指定
したり、データ記憶エリアの他メモリ領域への退避など
を行うことは可能である。
【図面の簡単な説明】
第1図は従来の多重系演算処理同期システム構成図であ
り、出力はデュアル、デユープレックス方式を用いてい
る。第2図は本発明による多重系演算処理同期システム
構成図でるる。第3図は正常時におけるCPUの動作フ
ローチャート、第4図、第5図は片系自走におけるCP
U動作フローチャート、第6図、第7図は片系復旧時に
おける両CPUの動作フローチャートでおる。 1・・・CPUI、2・・・CPU2.3・・・不一致
検出回路、4・・・出力照合装置、5・・・切換ス・イ
ソチ、6・・・情報交換手段、C1・・・CPUI正常
コマンド、R1・・・CPU2正常レスポンス、C2・
・・CPUI復旧コマンド、几2・・・CPU2自走レ
スポンス、C3・・・オートバランス要求コマン)”、
R4・・・CPU2復IE3レスポンス、R5・・・オ
ートノ(ランスデータ受溝正常レスボ/ス、C6・・・
オートバラン第1図 第2図 学 3 図 第4図 賞5図 慄6区 燦7図 第1頁の続き 会社日立製作所日立研究所内

Claims (1)

    【特許請求の範囲】
  1. 1、同一処理を実行する複数のir′i31機群よ構成
    る多重系演算処理同期システムにおいて該計算機間に演
    算開始を報知するタイミング情報の授受を行う情報交換
    手段を設け、該計算機群の1つあるいは複数の系の計算
    機が障害から復旧した際、該情報交換手段のタイミング
    情報の有無により復旧を検出し、復旧した!1算機へ必
    要データを送信することで複数^1°算磯全並行稼動状
    態にすることを特徴とする多重系演算処理同期システム
    の復旧方法。
JP57005963A 1981-12-09 1982-01-20 多重系演算処理同期システムの復旧方法 Granted JPS58125103A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP57005963A JPS58125103A (ja) 1982-01-20 1982-01-20 多重系演算処理同期システムの復旧方法
DE8282111353T DE3279941D1 (en) 1981-12-09 1982-12-08 Multi-computer system
EP82111353A EP0081238B1 (en) 1981-12-09 1982-12-08 Multi-computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57005963A JPS58125103A (ja) 1982-01-20 1982-01-20 多重系演算処理同期システムの復旧方法

Publications (2)

Publication Number Publication Date
JPS58125103A true JPS58125103A (ja) 1983-07-26
JPH0157825B2 JPH0157825B2 (ja) 1989-12-07

Family

ID=11625532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57005963A Granted JPS58125103A (ja) 1981-12-09 1982-01-20 多重系演算処理同期システムの復旧方法

Country Status (1)

Country Link
JP (1) JPS58125103A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015194847A (ja) * 2014-03-31 2015-11-05 日本電気株式会社 フォールトトレラントサーバ、同期化方法、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5153310B2 (ja) * 2007-12-10 2013-02-27 株式会社日立製作所 フォールトトレラントコンピュータシステム、並びに再同期稼働化処理方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015194847A (ja) * 2014-03-31 2015-11-05 日本電気株式会社 フォールトトレラントサーバ、同期化方法、及びプログラム

Also Published As

Publication number Publication date
JPH0157825B2 (ja) 1989-12-07

Similar Documents

Publication Publication Date Title
US4941087A (en) System for bumpless changeover between active units and backup units by establishing rollback points and logging write and read operations
JPH02287858A (ja) 分散処理システムのリスタート方式
CN103262044A (zh) 虚拟机失效转移管理的方法及其支持系统
US20220100607A1 (en) Method and system for managing fault recovery in system-on-chips
CN103678031A (zh) 二乘二取二冗余系统及方法
JPH086910A (ja) クラスタ型計算機システム
JPS58125103A (ja) 多重系演算処理同期システムの復旧方法
JPH09114507A (ja) プログラマブルロジックコントローラの二重化装置
JP3471913B2 (ja) コンピュータシステム
JP2000207373A (ja) プロセス入出力装置およびその制御方法
JPH0462081B2 (ja)
JP2004013723A (ja) 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法
JPH04360242A (ja) 二重化システムの系切替装置およびその方法
JPH0652130A (ja) マルチプロセッサシステム
JPH07182297A (ja) サーバクライアント型ネットワークシステム
JPS63279646A (ja) 網管理装置の自動再開処理方式
KR100418472B1 (ko) 교환 시스템의 멀티 씨 피 유 장애 복구장치 및 방법
JP3105025B2 (ja) 二重化制御装置
JPH0250737A (ja) 二重化システム
JP3396946B2 (ja) 2重化システムにおける切り替え装置
JP3093546B2 (ja) システム運用情報を復旧できるシステム運用情報管理機構
JPS60247760A (ja) デ−タ通信システム
JPH06152570A (ja) 二重化データ処理装置における系切替え処理方式
JP2645134B2 (ja) 復旧信号リンクへのメッセージ送出制御方式
CN118331026A (zh) 一种双机冗余通讯方法及系统