JPH0157825B2

JPH0157825B2 -

Info

Publication number: JPH0157825B2
Application number: JP57005963A
Authority: JP
Inventors: Akio Ito; Hirohisa Hayakawa; Hideo Kanzaki; Tsutomu Mizoguchi; Koichi Kimura; Hiroaki Aotsu
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1982-01-20
Filing date: 1982-01-20
Publication date: 1989-12-07
Also published as: JPS58125103A

Description

【発明の詳細な説明】本発明は多重系演算処理システムにおいて障害
を起こした計算機を復旧する際、復旧した計算機
を自動的に他の正常な計算機と同期した状態と
し、多重系演算処理全体の同期処理の継続を図る
ことに関する。

近年、情報処理装置のオンラインでの使用が盛
んになり、システムの信頼性、実時間性の要求が
増々高まつている。たとえばプラントの制御装置
については、従来のハードウエアのみで構成され
た制御装置に代わり、計算機（以下CPUという）
を利用した制御装置を用いてより高度な制御を実
現しているが、このようなCPUを応用した制御
装置ではシステムの信頼性を上げるため、同一機
能の制御装置を複数台設けた多重化の演算処理シ
ステムをとることが多い。多重系制御装置は同一
の入力信号を同じ条件のもとで得、同一の処理を
行うものである。したがつて複数のCPUからは
同一の出力が得られ、この一致した出力を多重系
演算制御装置の出力信号として制御対象へと出力
する。更に、極めて高度の信頼性、実時間性の要
求されるシステムや、CPUを利用して誤動作防
止システムを構成したいという要望が強い分野に
おいてはデユアルアンド方式を採用しており、こ
のシステムを実現するためには多重化システムの
同期化が必要となる。

第１図に従来のシステム構成例を示す。なお本
例では二重系の例を示す。第１図においてCPU
１，CPU２は同一の処理を行う演算処理装置、
３は両系CPUからの演算出力を監視し、不一致
が発生すると外部に表示する不一致検出回路、４
は両系CPUの演算出力を照合し、デユアルアン
ドをとつて外部制御対象に対し出力をする出力照
合装置である。またCPU１，CPU２は演算中の
データを各々のメモリのワークエリア及びバツフ
アエリアに保存して毎回の演算ごとに更新してい
る。本装置が正常に動作している場合は両系の照
合出力を、また片系に障害が発生した場合は片系
の出力を外部に対して出力し、その切り換えスイ
ツチが５である。ここで片系が障害より正常状態
に戻り、演算処理を開始した場合、再び出力照合
装置４はデユアルアンドを行うが、各回の演算は
それ以前のワーク、バツフアエリアのデータも演
算に使用しているため、復旧系のCPUのメモリ
の内容は正常系と異なつていることにより、それ
らを用いて演算を行うと演算結果が異なり、不一
致検出回路１において不一致が検出されてしま
う。

この現象を防ぐため、他の例ではCPU１と
CPU２がワーク、バツフアエリアのデータを処
理終了と同時に外部に設置されたもう１つのバツ
クアツプのためのメモリへ転送するという方法も
ある。しかしながらこのような復旧方法では毎回
の演算ごとに外部メモリへもデータ転送をすると
いうCPUに対する負担の増加、また情報伝送す
る量が多いため、情報伝送時のノイズ等によるビ
ツト誤りチエツクや誤りが発生した場合の再送処
理等、通信回線を利用したデータ伝送における複
雑な伝送制御方式をプログラムに組み込む必要が
あり、本来の目的であるデータ処理機能に影響を
与え、システムの応答性を悪くする欠点を有す
る。

また、外部メモリはシステム構成上重要な位置
を占めるものだが、CPUに比べ故障率が高く、
バツクアツプに用いる装置がシステム全体の信頼
性を低下させるという重大な欠点を有している。

本発明の目的は上記した従来技術の欠点を除去
し、システム構成の簡素化により共通ハードウエ
アによる信頼性の低下を防ぐとともに、復旧後、
即座にシステム全体が同期状態に入ることを可能
とした多重系演算処理同期システムの復旧方法を
提供することにある。

この目的を達成するために本発明は、多重系演
算処理システムにおいて情報交換手段を設け、こ
れを利用してコマンド送受信を行い、お互いの
CPUの動作／ダウンを検出し、また復旧を確認
すると即座に演算に必要なデータを全転送し、復
旧側のCPUを同期状態に並入することを可能と
したことを特徴とする。

以下、本発明の一実施例として二重系を例にと
り、説明する。第２図は本実施例の構成を示して
おり、６は両系CPUの間で情報交換を行う情報
交換手段（以下バスという）である。

また、第３図は両系のCPUが正常に動作して
いる際のCPUのブロツクフローチヤートである。
第３図においてCPU１は図示せぬタイマにより
一定の周期でプログラムの起動がかかるが、これ
は一定の周期を有する外部割り込みでも同様の役
割を果たす。まず、CPU１はバス６を介して
CPU２に対しコマンドＣ１を送信し、相手系に
対し、CPU１が正常であることを知らせる。
CPU２はこのコマンドＣ１受信によりプログラ
ムの起動がかかり、自系CPU２が正常であれば
レスポンス信号Ｒ１をＣ１に対してバス６を介し
て返信する。CPU１はレスポンス信号Ｒ１を受
信したことによりCPU２の正常動作を確認し、
データ入力処理を行う。CPU２もＲ１送信後、
データ入力処理を行う。この一連のコマンド送受
信により、CPU１，CPU２とも相手系CPUの動
作状態を確認しながら演算を行うとともにバス６
は二重系のCPUの演算同期用のバスとして用い
られている。

次に片系のCPUがダウンした場合に残りの
CPUが正常な動作を行い、処理を継続してゆく
過程を第４図、第５図を用いて示す。第４図は
CPU２がダウンした場合のCPU１の動作フロー
チヤート、第５図はCPU１がダウンした場合の
CPU２の動作フローチヤートである。第４図に
おいてCPU１は第３図と同様に例えば図示せぬ
タイマによりプログラムの起動がかかり、コマン
ド信号Ｃ１をバス６を介して送信する。CPU１
はこのレスポンス信号を受信しようとするが
CPU２がダウンしているのでレスポンス受信は
できない。CPU１はレスポンス信号をある一定
時間経過後も受信できない場合はCPU２がダウ
ンしていると判断し、自走モードへ移行し、デー
タ入力処理へと処理を進める。以下、CPU１は
プログラムの起動がかかる度にCPU２が復帰し
たかどうかをチエツクしながら自走している（レ
スポンス受信を確認すればCPU２が復帰したこ
とを示す）。

一方、CPU２のプログラムは正常時は第３図
に示したようにCPU１からのＣ１受信により起
動がかかる。しかしCPU１がダウンし、Ｃ１が
送信されない場合には、CPU２のプログラムの
起動がかからないことになる。このためCPU２
は正常時でも自走用のタイマまたは外部割り込み
で第５図に示すプログラムの起動をかけている。
ここでこのプログラム起動周期は第３図のCPU
１のプログラムを起動するタイマの周期と等しく
とられている。

第５図においてCPU２のプログラムの起動が
かかると、演算一周期内にＣ１受信があつたかど
うかを判断し、受信していた場合は正常モードと
判定し、CPU２のタイマによるプログラムを終
了し、第３図の様にCPU１からのＣ１受信によ
るプログラム起動のモードとなる。一周期内にＣ
１受信がなかつた場合はCPU１とCPU２のタイ
マカウントの差を考え、一定時間、Ｃ１を待つ。
それでもＣ１を受信できない場合はCPU１がダ
ウンしたと判定し、CPU２の片系自走へと移行
する。以下、CPU１がダウンしている間はこの
タイマによりプログラムの起動がかかるが、第５
図のフローチヤートに示した様に、CPU２の自
走モードの場合も常にCPU１の復帰を監視しな
がら自走運転をしている。このように片系自走モ
ードの場合、バス６は相手系のダウンの発見及び
復帰の監視として使われている。

次に第６図、第７図で故障CPUの復旧モード
について説明する。自走しているCPUは演算を
実行しているため演算結果データ及びワークデー
タなどは復旧したCPUのデータとは異なつたも
のとなつており、これを用いて演算した場合、二
重系からの出力は異なる結果が得られ、DO不一
致となる。このためそれまで自走していたCPU
のメモリデータを復旧したCPUへ伝送し、デー
タの同一性を保つ（オートバランス機能）必要が
ある。第６図はCPU１がダウンから復旧した場
合の両系CPUの動作モードを、第７図はCPU２
がダウンから復旧した場合の両系CPUの動作モ
ードを示す。第６図においてCPU１は復旧する
と、自系CPUが復旧したことを知らせるために
コマンドＣ２を送信する。CPU２はＣ２を受信
したことにより自系は自走していたのでオートバ
ランスが必要なことを認識し、レスポンス信号Ｒ
２を送信する。CPU１もＲ２を受信したことに
よりオートバランスを開始し、オートバランスデ
ータの格納先頭アドレスをCPU２に知らせるコ
マンドＣ３をバス６を介して再び送信する。
CPU２はこのアドレスのデータをバス６を介し
て送信し、CPU１はこれを該当アドレスに格納
し、オートバランスの１ステツプを終了する。
CPU１はその後オートバランスデータアドレス
を更新し、オートバランス終了アドレスに到達し
たかどうかをチエツクする。終了アドレスになれ
ば次の演算周期でオートバランス終了コマンドＣ
６を送信できるようにＣ６を設定する。Ｃ６は次
の演算周期の先頭で送信され、CPU２にオート
バランスが終了したことを知らせ、正常モードで
ある第３図の処理へ移行する。また、CPU２は
Ｃ６を受信するまでオートバランスをくり返す。

第７図ではCPU１がＣ１を送信し、復旧した
CPU２はＣ１を受信すると、自系が復旧したこ
とをCPU１に知らせるためにＣ１に対し、レス
ポンス信号Ｒ４を送信する。これによりCPU１
はCPU２が復旧したことを認識し、オートバラ
ンスを開始する。CPU１はオートバランスデー
タ格納アドレスとともにデータをCPU２へバス
６を介して送信し、CPU２はそのアドレスに受
信したデータを格納した後レスポンス信号Ｒ５を
送信する。CPU１はＲ５を受信したことにより、
オートバランスの１ステツプが正常に終了したこ
とを認識し、第６図と同様にオートバランス終了
チエツク処理を行う。

このオートバランスの期間は、お互いのバツフ
ア、ワークデータの同一性を確保するために行う
ので演算処理は中断しておき、また伝送エラーを
厳しくチエツクするために、反転二連送チエツ
ク、定マークコードチエツク、ウオツチドグタイ
マ監視などを行い、誤り発生時には再送処理など
を行う。

このようにして復旧したCPUの動作を確認し、
またデータの同一性を保つために復旧時だけにデ
ータの全転送を行うオートバランス機能を備えた
ことにより両系のメモリ内容はすべて同一とな
り、演算結果も同一のものとなる。またその手段
として正常時には同期用バスとして使用している
バス６を用いることができ、ハード面の追加は必
要ない。また、正常時におけるCPUはコマンド
送受信だけを行えばよく、本来の演算処理を行う
時間が増し、従来の方法のように共通のメモリへ
のデータ転送や相手系へのデータ転送などは必要
がなく、CPUの負荷は従来の方法より軽減され
る。なお、バス６は１本だけでデータ伝送を行う
双方向性のバスのため、CPU１からの情報と
CPU２からの情報とがいかなる場合も衝突しな
いように必ずCPU１からの伝送を先に行い、
CPU２からの情報伝送にはその返信伝送を利用
している。

本実施例によれば、片系のみの電源瞬停や誤動
作による片系ダウンにおいてCPU復旧後、自動
的に正常なCPUが相手系CPUの復旧を認識し、
データ伝送を行い、即座に同期運転が再開でき、
そのためのハードの追加も必要ない。また正常時
は本来の演算処理に係わる時間が多く、バツクア
ツプのための特別なタスクを実行しなくてもよ
く、システム全体の応答性は速くなる。

なお、本例では二重系の例について説明した
が、多重系CPUに関しても応用できる。

本発明によれば、多重系演算処理装置において
一つあるいは多数のCPUの障害よりの復旧に関
し、演算に必要なメモリデータの全転送を実行す
ることにより、即座に復旧したCPUをシステム
同期の状態に戻すことが可能となる。

また、メモリ全転送に必要なハードウエアは情
報交換手段のみでよく、信頼性の低下をひきおこ
さず、高信頼性のシステムを実現できた。

また、正常二重系運転時には情報交換手段を介
してコマンド送受信を行うだけで演算処理に移行
できるためCPUの負荷は軽減された上に、この
コマンド送受信により、相手CPUの動作／ダウ
ンが検出できるため、相手CPUのダウン及び復
旧の監視が可能となる。

本発明ではコマンド送受信により相手CPUの
動作状態を監視しているが、同一ハードウエア構
成でコマンド種類を使い分けることだけで、入力
データ取り込み時刻の同期化、出力データ出力時
刻の同期化、演算開始時刻の同期化などを行うこ
とが可能となる。

また、転送メモリデータ領域内に例えば障害時
のデータ記憶エリアなどがある場合、正常系から
のデータ転送により消去されてしまうため、転送
メモリアドレスを指定したり、データ記憶エリア
の他メモリ領域への退避などを行うことは可能で
ある。

【図面の簡単な説明】

第１図は従来の多重系演算処理同期システム構
成図であり、出力はデユアル、デユープレツクス
方式を用いている。第２図は本発明による多重系
演算処理同期システム構成図である。第３図は正
常時におけるCPUの動作フローチヤート、第４、
第５図は片系自走におけるCPU動作フローチヤ
ート、第６図、第７図は片系復旧時における両
CPUの動作フローチヤートである。１……CPU１、２……CPU２、３……不一致
検出回路、４……出力照合装置、５……切換スイ
ツチ、６……情報交換手段、Ｃ１……CPU１正
常コマンド、Ｒ１……CPU２正常レスポンス、
Ｃ２……CPU１復旧コマンド、Ｒ２……CPU２
自走レスポンス、Ｃ３……オートバランス要求コ
マンド、Ｒ４……CPU２復旧レスポンス、Ｒ５
……オートバランスデータ受信正常レスポンス、
Ｃ６……オートバランス終了コマンド。

Claims

【特許請求の範囲】

１同一処理を実行する複数の計算機群より成る
多重系演算処理同期システムにおいて該計算機間
に演算開始を報知するタイミング情報の授受を行
う情報交換手段を設け、該計算機群の１つあるい
は複数の系の計算機が障害から復旧した際、該情
報交換手段のタイミング情報の有無により復旧を
検出し、復旧した計算機へ必要データを送信する
ことで複数計算機を並行稼動状態にすることを特
徴とする多重系演算処理同期システムの復旧方
法。