JPH10326202A - 高信頼化コンピュータシステム及び高信頼化コンピュータシステムの復旧方法 - Google Patents

高信頼化コンピュータシステム及び高信頼化コンピュータシステムの復旧方法

Info

Publication number
JPH10326202A
JPH10326202A JP10174332A JP17433298A JPH10326202A JP H10326202 A JPH10326202 A JP H10326202A JP 10174332 A JP10174332 A JP 10174332A JP 17433298 A JP17433298 A JP 17433298A JP H10326202 A JPH10326202 A JP H10326202A
Authority
JP
Japan
Prior art keywords
board
bpu
basic processor
old
processor board
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10174332A
Other languages
English (en)
Other versions
JP3256181B2 (ja
Inventor
Takeshi Miyao
宮尾  健
Manabu Araoka
学 荒岡
Tomoaki Nakamura
智明 中村
Masayuki Tanji
雅行 丹治
Shigenori Kaneko
茂則 金子
Koji Masui
晃二 桝井
Saburo Iijima
三朗 飯島
Shinichiro Yamaguchi
伸一朗 山口
Nobuyasu Kanekawa
信康 金川
Yoshiki Kobayashi
小林  芳樹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information and Control Systems Inc
Original Assignee
Hitachi Ltd
Hitachi Process Computer Engineering Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Process Computer Engineering Inc filed Critical Hitachi Ltd
Priority to JP17433298A priority Critical patent/JP3256181B2/ja
Publication of JPH10326202A publication Critical patent/JPH10326202A/ja
Application granted granted Critical
Publication of JP3256181B2 publication Critical patent/JP3256181B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】システムを停止することなく容易にプロセッサ
ボードの交換を実現できる高信頼化コンピュータシステ
ムの復旧方法を提供することを目的とする。 【解決手段】本発明の高信頼化コンピュータシステムに
おいては、システムバス上の複数スロットに主記憶装置
のボードと、同一演算を実行する複数プロセッサで構成
され複数のベーシックプロセッサボードとが挿入されて
作動し、障害発生の後も一部回路で運転継続している旧
ベーシックプロセッサボードの処理は主記憶装置に退避
後、新ベーシックプロセッサボードに移して稼働せし
め、旧ベーシックプロセッサボードを停止してスロット
から除去せしめる。 【効果】プロセッサボードが複数装着されている場合で
も、システムを停止することなくプロセッサボードの交
換を実現できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は高信頼化コンピュー
タシステムにかかり、特に障害発生時に運転継続できる
ことは勿論、その後の復旧策について工夫された高信頼
化コンピュータシステムの復旧方法に関する。
【0002】
【従来の技術】例えば交通管制システムや、金融,証券
システムは情報化社会の浸透に伴い、社会生活の根幹を
占めるようになってきており、これらに使用されるコン
ピュータシステムは障害が発生しないように工夫される
とともに、仮に障害が発生したとしてもデータの一貫性
を保持したまま処理を続行するように構成される必要が
ある。
【0003】これらの要求に応えるため、従来より、障
害許容コンピュータもしくは、耐故障,耐欠陥コンピュ
ータシステムが種々提案されており、障害が発生しても
データ処理を継続できるように同じ機能を有する複数の
システムないし、部品で構成し、各部で冗長性を持たせ
ることにより障害の発生したシステムないし部品を検出
し、データ処理を続行するようにされている。
【0004】具体的な従来例として、米国特許第465485
7 号は、通称ペアアンドスペア法と呼ばれる方式を採用
し、自己診断機能のあるメモリ,プロセッサ,入出力制
御装置などからなるプロセッサボード2枚を1組にして
動作する。どのプロセッサボードも内部には2個のマイ
クロプロセッサを持ち、マイクロプロセッサの出力を照
合し、不一致の場合はボード故障と見なすことにより、
障害を検出している。また、プロセッサボードからバス
に出された出力はもう一方のプロセッサボードとバスク
ロック毎に照合、同期するロックステップ方式を採用し
ており、片方のプロセッサボードで障害が発生してもそ
のバスクロック内で検出し、切り離し処理が行われ、正
常なプロセッサボードの出力のみが使用される。
【0005】また、特開昭59−160899 号では、米国特
許第4654857号と同様に二重のシステムバスの夫々に接
続され、その内部に2つのプロセッサを有する2つのプ
ロセッサボードを有し、その同期化のためにキャッシュ
メモリに着目し、キャッシュメモリから主記憶装置への
フラッシュ動作をOS制御の下で行うことにより、ロッ
クステップ動作による性能制限を避けている。そして、
プロセッサボード内の2個のマイクロプロセッサの照合
により障害が検出された場合、前回のフラッシュポイン
トから代替プロセッサボードで処理を再実行する。
【0006】上記システムではプロセッサボード上の2
台と別のプロセッサボード上の2台の計4台のマイクロ
プロセッサを使用するが、特開平1−258057 号では、T
MR(Triple Modular Redundancy )技法を採用し、プ
ロセッサ3台の出力結果を多数決回路を介して二重化シ
ステムバスに出力する。
【0007】
【発明が解決しようとする課題】上記従来例は、1つの
プロセッサボ−ド上に何台のプロセッサを配置するかと
言ったことは別にして、いずれの場合も3台乃至4台の
プロセッサを使用するシステムであり、そのいずれかの
プロセッサに障害を発生したときにはこのプロセッサを
切り離して2台運転にシステムを縮小し、その後新たな
別の1台または2台のプロセッサを組み込んで元のシス
テム構成に再構成されるものである。
【0008】これらのシステムでは障害発生前のプロセ
ッサの組と、復旧後のプロセッサの組とは全く相違す
る。つまり、前2者の従来例では当初A,B,C,Dの
4つのプロセッサで運転していたとすると、復旧後のプ
ロセッサ構成はE,FC,Dにて運転されることにな
る。また最後の従来例では当初A,B,Cのものが、
D,B,Cとなる。このように従来のものでは障害発生
後の復旧時にプロセッサの組替えが必要であり、このた
め従来例のものではそのシステムを構成する他のプロセ
ッサとの間での特別な接続,切り離しハードウェア,同
期機構が必要である。また、プロセッサあるいはプロセ
ッサボードは徐々にバージョンアップされ、あるいはレ
ビジョンされるのが通例であるが、システムの一部であ
るプロセッサあるいはプロセッサボードを交換する上記
従来例では復旧後のミスマッチを防ぐための十分な事前
対応が不可欠である。また、プロセッサボードを交換す
るものでは常に高価な交換ボードを準備しておく必要が
ある。さらに、プロセッサ間での同期化が困難である。
【0009】以上のことから本発明では、プロセッサボ
ードを交換する際に、システムを停止することなく容易
にプロセッサボードの交換を実現できる高信頼化コンピ
ュータシステムの復旧方法を提供することを目的とす
る。
【0010】
【課題を解決するための手段】本発明の高信頼化コンピ
ュータシステムにおいては、システムバス上にボードを
挿入するための複数スロットを備え、当該スロットに主
記憶装置のボードと、同一演算を実行する複数プロセッ
サで構成され複数のベーシックプロセッサボードとが挿
入されて作動し、障害が発生して一部回路で運転継続し
ている旧ベーシックプロセッサボードの処理は主記憶装
置に待避後、新ベーシックプロセッサボードに移して稼
働せしめ、旧ベーシックプロセッサボードを停止してス
ロットから除去せしめ、一部プロセッサの故障による縮
退運転状態から復旧させる。
【0011】本発明では、プロセッサボードが複数装着
されている場合でも、システムを停止することなく、ま
たシステム性能を低下させることなくプロセッサボード
の交換を実現できる。
【0012】
【発明の実施の形態】以下本発明について詳細に説明す
るが、本明細書での説明はその理解を容易にするために
以下の項目に分けて行う。
【0013】I. システムの概略全体構成 II. BPU2の構成 III. 異常検出手法 IV. 異常時の構成変更制御 V. 内部バス接続時の信号処理 VI. 異常発生後の復旧策 VII. 各部回路の代案変形例 I. システムの概略全体構成 図1に本発明のフォルトトレーラントシステムの概略全
体構成を示す。このシステムは2組のシステムバス1−
1と1−2を有しており、このバス上には1つまたは複
数のベーシックプロセッシングユニット(以下単にBP
Uという)2−1,2−2……2−nがシステムバス1
−1と1−2に夫々接続されている。またシステムバス
1−1には主記憶装置3−1が、1−2には主記憶装置
3−2が夫々個別に接続され、入出力装置(以下単にI
OUという)4−1,4−2が夫々システムバスの何れ
にも接続される。主記憶装置3及びIOU4は、夫々2
台を1組として使用され、図1の例では各1組ずつ使用
する例を示しているが、これはシステムの拡張に応じて
適宜組数を増加して使用することができる。図示のn組
のBPUは、通常は夫々別の処理を実行しているが、何
れも同じ構成とされているのでここでの説明は特に必要
のないかぎりBPU2−1を例にとってその構成及び作
用について説明する。
【0014】BPU2は、複数のマイクロプロセッシン
グユニット20(以下単にMPUという。図の例では3
台),複数のMPU出力チェック回路23(図の例では
3台)、3ステートバッファ29等、複数のキャッシュ
メモリ220,221,複数のバスインタフェース回路
27(以下単にBIUという)等を主要な構成要件とし
ている。ここで図1回路の概略の動作を説明しておく
と、3台のMPU20により演算が実行され、このMP
Uの出力がチェック回路23においてチェックされ、正
常と判断された2つのMPUの出力が夫々バスインタフ
ェース回路27を介して2組のシステムバス1、あるい
は2組のキャッシュメモリ220,221に夫々出力さ
れる。MPUの1つに異常が発見された場合、このMP
Uは除外されて残りの2つの正常なMPUによりその出
力が夫々バスインタフェース回路27を介して2組のシ
ステムバス1に、あるいは2組のキャッシュメモリ22
0,221に夫々出力される。3台のMPU20の一部
に異常が発見された後は、適宜のタイミングで3台のM
PU20が全く別の新たな3台のMPU20に切替えら
れて演算を実行する。
【0015】II.BPU2の構成 BPU2のより詳細な構成は図2に示されている。なお
後述するように、BPUは1枚のプリント板上に図示の機
能を搭載されるのが良い。
【0016】図2において、3台のMPU20−1,2
0−2,20−3は図示せぬクロックにより同期演算が
実行され、その結果がアドレスラインAとデータライン
Dに夫々出力される。MPU20−1,20−2,20
−3のアドレスラインA上のアドレスとデータラインD
上のデータには、パリティ生成/検査照合回路10乃至
15から適宜のパリティ信号が付与されてMPU出力チ
ェック回路23に与えられる。MPU出力チェック回路
23は、MPUA(20−1)からの出力(パリティ信
号が付与されたアドレス,データ)とMPUB(20−
2)からの出力とを比較する第1のチェック回路CHK
AB(23−1)と、MPUA(20−1)からの出力
とMPUC(20−3)からの出力とを比較する第2の
チェック回路CHKCA(23−2)と、MPUB(2
0−2)からの出力とMPUC(20−3)からの出力
とを比較する第3のチェック回路CHKBC(23−3)
と、3つのチェック回路CHKからの比較結果に応じて
MPUのいずれの故障であるかを特定するエラーチェッ
ク回路234,235から構成される。このMPU出力チ
ェック回路23はいわゆる多数決回路であり、この判定
結果に応じて3ステートバッファ200,201,20
3,204,29の開閉状態が制御される。この判定結
果と3ステートバッファ回路の状態の関係については後
述するが、要するに異常と判定されたMPUを以後使用
せず、正常とされたMPUの出力を2つのキャッシュメ
モリ220,221に与えて二重系として運用するもの
である。なお、以下の説明においては3ステートバッフ
ァ回路のイネーブル状態を単に開状態と称し、ディセー
ブル状態を閉状態ということにする。
【0017】3ステートバッファ200,201,20
3,204を介して得られたアドレス,データは2つの
キャッシュメモリ220,221に夫々与えられ、その
際パリティチェック回路250においてパリティ生成/
検査照合回路10乃至15で付与したパリティのチェッ
クが行われる。またMPU出力は、同期回路290,2
91において2つのMPU出力の同期が図られ、バスイ
ンタフェースユニットBIUを介してシステムバスに送
出される。その際パリティチェック回路30,31にお
いてパリティ生成/検査照合回路10乃至15で付与し
たパリティのチェックが行われる。以上の構成は、MP
Uからのライトアクセスを主体に述べたものであるが、
このようにMPUからのライトアクセスのときはMPU
出力チェック回路23とパリティチェック回路30,3
1においてチェックが行われる。これに対し、キャッシ
ュリードアクセス時は、各キャッシュメモリ220,2
21,3ステートバッファ202,205,MPUのル
−トで信号伝送が行われ、この場合にはパリティ生成/
検査照合回路10乃至15でキャッシュメモリからのア
ドレス,データのチェックが行われる。なお、26,2
7も3ステートバッファであり、キャッシュリードアク
セス時にパリティ生成/検査照合回路10乃至15での
アドレス,データのチェック結果に応じて開閉状態が制
御される。
【0018】図2の構成から明らかなように、本発明の
BPUシステムでは少なくとも3台のMPUと、多数決
回路による異常MPU検出回路と、二重化されたキャッ
シュメモリと、二重化された出力回路部分とを有する。
【0019】III.異常検出手法 図2のBPU内部には、その異常検出部としてMPU出
力チェック回路23と、多くのパリティチェック回路を
採用している。この項では、これらの異常検出手法につ
いて説明する。
【0020】《MPU出力回路による異常検出》このう
ち、MPU出力チェック部分について図3に示す。図3
において第1のチェック回路CHKABの出力をAB,
第2のチェック回路CHKCAの出力をCA,第3のチ
ェック回路CHKBCの出力をBC,エラーチェック回
路231の出力を夫々Ag,Cg,29gとして、3つ
のチェック回路の出力とそのときの3ステートバッファ
回路の開閉状態との関係について説明する。なお、この
図においてCは図2では記述しない制御線である。
【0021】まず、第1乃至第3のチェック回路CHK
は、その夫々の2組の入力(アドレス,データ,制御信
号)を得て、第1のチェック回路CHKABはMPUA
の出力とMPUBの出力との比較結果ABを、第2のチ
ェック回路CHKCAはMPUAの出力とMPUCの出力と
の比較結果CAを、第3のチェック回路CHKBCはM
PUBの出力とMPUCの出力との比較結果BCを出力
する。この比較結果は一致するか、しないかのいずれか
の状態信号である。
【0022】エラーチェック回路231は、3つのチェ
ック回路CHKの出力AB,BC,CAから、(1),
(2),(3)式に従いMPUA,MPUB,MPUC
の正常を表す出力Ag,Bg,Cgを得る。なお、図
2,図3においてエラーチェック回路は二重化されてい
る。
【0023】 Ag=「AB・「CA+「AB・BC・CA+AB・BC・「CA……(1) Bg=「AB・「BC+「AB・BC・CA+AB・「BC・CA……(2) Cg=「BC・「CA+AB・「BC・CA+AB・BC・「CA……(3) 但し、AB:MPUAとMPUBの出力不一致の事象
(23−1で確認) BC:MPUBとMPUCの出力不一致の事象(23−
3で確認) CA:MPUAとMPUCの出力不一致の事象(23−
2で確認) ・:論理積(AND) +:論理和(OR) 「:否定(NOT) (1),(2),(3)式演算の結果に応じて3ステートバ
ッファ200,201,204,205,29の開閉状
態が制御されるが、この説明は次の項で行う。表1は、
3つのチェック回路CHKAB,CHKBC、CHKC
Aの出力(一致,不一致)と、このときの異常MPUの
判定結果Ag,Bg,Cgと、その結果としての3ステ
ートバッファ回路の開閉状態を纏めた表である。なお、
表1中の判定結果の項において、1はMPU正常,0は
異常または不明を意味する。
【0024】表2は表1の一致,不一致のチェック回路
出力を生じる原因として想定される事例の一部を述べた
ものであるが(本発明は、異常の際にBPU内の回路構
成を如何に変更し運転継続させるかに主眼があり、異常
発生原因を特定することは本旨ではないので)、ここで
の詳細説明を省略する。
【0025】
【表1】
【0026】
【表2】
【0027】図3,図2,表1,表2を参照して説明し
たように、本発明においては、MPU出力チェック回路2
3で以上の論理でMPUの正常,異常を判断する。
【0028】次に、BPU内各部にその他の異常検出手
法として採用したパリティチェック回路による異常検出
手法について説明する。但し、パリティチェック回路自
体は周知であり任意のものが採用できるので回路につい
ての詳細説明を省略し、ここではパリティエラー検出し
たときの異常箇所特定手法について説明する。
【0029】図2に示すように、ライトアクセス時には
パリティ生成/検査照合回路10乃至15から適宜のパ
リティ信号が付与されてアドレスラインA,データライ
ンDに情報送出され、この異常をパリティチェック回路
250,30,31にて検知する。またリードアクセス
時には、パリティ生成/検査照合回路10乃至15,パ
リティチェック回路250,30,31にて情報の異常
を検知する。これらのパリティチェックは基本的にアド
レスとデータに分けて個別に実施される。そしてアドレ
スについてみると、アドレス情報にパリティエラーを検
出したときの異常箇所はこのアドレス信号を送出してい
るバスマスタであり、図2の内部バスの使用権を与える
バスアービタ(図示していない)からのバスグラント信
号を監視することでバスマスタとなっている機器(MP
U,キャッシュメモリ,BIU)を特定することができ
る。次にデータについてみると、ライトアクセス時にデ
ータ情報のパリティエラーを検出したときの異常箇所は
このデータ信号を送出しているバスマスタである。バス
マスタの特定は、バスアービタのバスグラント信号監視
により行われる。最後に、リードアクセス時にデータ情
報のパリティエラーを検出したときの異常箇所はこのデ
ータ信号の出力元であり、この特定はこのデータに付属
するアドレスが指し示しているデバイスをアドレスをデ
コードすることで特定できる。
【0030】この異常箇所特定の考え方を論理式にて示
すと以下のようになる。
【0031】 《パリティチェックによる異常検出》 PTYGEN/NG=APE・MPU/MST+DPE(WT・MPU/MST +RD・MPU/SND) ……(4) Cach/NG=APE・Cach/MST+DPE(WT・Cach/MST +RD・Cach/SND) ……(5) BIU/NG=APE・BIU/MST+DPE(WT・BIU/MST +RD・BIU/SND) ……(6) SYSBUS/NG=BIU/NG ……(7) 但し、(4)乃至(7)式において、 PTYGEN:パリティ生成/検査照合回路10乃至15 /NG:パリティ異常 APE:アドレスパリティ異常 ・:論理積 /MST:バスマスタ +:論理和 DPE:データパリティ異常 WT:バスマスタがデータ出力 Cach:キャッシュメモリ RD:バスマスタがデータ入力 /SND:データ出力元 IV.異常時の構成変更制御 BPU内の異常には、MPUからのライトアクセス時に
MPU出力チェック回路で検知されるものと、ライトア
クセス時あるいはキャッシュリードアクセス時にパリテ
ィチェック回路で発見されるものとがある。
【0032】〔MPU出力チェック回路による異常検出
時の構成変更〕前記MPU出力チェック回路23のエラ
ーチェック回路231の出力Agに応じて3ステートバ
ッファ200,201が、Cgに応じて203,204
が、29gに応じて29の開閉状態が、夫々表1のよう
に制御される。なお、表1において、MPU判定結果A
g=1は200,201開、Ag=0は200,201閉
に基本的に対応し、Cg=1は203,204開、Cg
=0は203,204閉に基本的に対応するが、Bgと
29gは対応関係にはない。29gに従って、29の開
閉状態は、Ag=1かつCg=1のときに閉、AgとC
gのいずれかが1のときは0となった3ステートバッフ
ァ回路に向かう方向の3ステートバッファ29のみが開
放される。以下、表1の各ケースについて、図4の系統
構成を参照してより詳細に説明する。
【0033】ケース1:全てのMPU出力が一致し、全
MPU正常である。3ステートバッファ200,20
1,203,204が開状態,29が閉状態とされ、図
4(a)のようにMPUAとキャッシュメモリ220によ
る系統と、MPUCとキャッシュメモリ221による系
統とが独立して二重化運用される。
【0034】ケース2:チェック回路CHKCAのみが
不一致出力を与えており、MPUBのみが正常と判断さ
れる。図2に示すようにMPUBは他のMPUの参照用
として使用され、キャッシュメモリに出力を与えるよう
に構成されていないので構成変更しての運転継続不可能
であり、この場合システムダウンとなる。
【0035】ケース3:チェック回路CHKBCのみが
不一致出力を与えており、MPUAのみが正常と判断さ
れる。この場合には3ステートバッファ200,201
が開状態,203,204が閉状態,29はキャッシュ
メモリ221方向への3ステートバッファ回路のみが開
状態とされる。MPUBとMPUCは停止され、図4
(b)のようにMPUAのみによる単独系統による運転
とされる。キャッシュメモリ221方向への3ステート
バッファ回路29のみが開状態とされるのは、キャッシ
ュメモリ記憶内容の同一性保持のためである。
【0036】ケース4:チェック回路CHKABのみが
一致出力を与えており、MPUAとMPUBが正常と判
断される。この場合には3ステートバッファ200,2
01が開状態,203,204が閉状態、29はキャッ
シュメモリ221方向への3ステートバッファ回路のみ
が開状態とされる。この場合にはMPUCを停止し、図
4(c)のようにMPUAとMPUBで二重系を構成し
て、MPUBによりMPUAの出力を監視する二重化運
転とされる。キャッシュメモリ221方向への3ステー
トバッファ回路29のみが開状態とされるのは、キャッ
シュメモリ記憶内容の同一性保持のためである。
【0037】ケース5:チェック回路CHKABのみが
不一致出力を与えており、MPUAとMPUBが異常,
MPUAのみが正常と判断される。この場合には3ステ
ートバッファ200,201が閉状態,203,204
が開状態,29はキャッシュメモリ220方向への3ス
テートバッファ回路のみが開状態とされる。この場合に
はMPUAとMPUBを停止し、図4(d)のようにM
PUCのみによる単独運転とされる。キャッシュメモリ
220方向への3ステートバッファ回路29のみが開状
態とされるのは、キャッシュメモリ記憶内容の同一性保
持のためである。
【0038】ケース6:チェック回路CHKBCのみが
一致出力を与えており、MPUCとMPUBが正常と判
断される。この場合には3ステートバッファ200,2
01が閉状態,203,204が開状態,29はキャッ
シュメモリ220方向への3ステートバッファ回路のみ
が開状態とされる。この場合には基本的にケース4と同
様に運用される。
【0039】ケース7:チェック回路CHKCAのみが
一致出力を与えており、MPUCとMPUAが正常と判
断される。この場合には参照用MPUの異常なので、図
4(e)ケース7のように、MPUBのみを切り離し、
3ステートバッファ回路は何等の変更もせずにMPUC
とMPUAによる二重化運転を継続する。
【0040】ケース8:いずれのチェック回路CHKも
不一致を検出しており、全MPUが異常であることから
以後の運転継続が不可能である。
【0041】以上のようにして、3台のMPUとその周
辺回路(例えばパリティ生成/検査照合回路)の正常性
が確認され、適宜構成変更制御が実施されるが、この表
1はあくまでも照合結果の考え得る組合わせを述べたに
すぎず、実際問題としてはケース2から8の7つの異常
事象が同一確率で発生するわけではない。つまり、この
うち単一故障のケースは4,6,7の3事例、二重故障
は2,3,5の3事例、三重故障は8のケースであり、
良く知られているように運転継続不能となるケース2,
8を含む多重故障の同時発生確率は単一故障に比べて極
めて低い。しかも、実際には単一故障が進展して多重故
障に至ることが殆どであり、従って単一故障の時点で何
等かの回復対策を施すことで事実上運転継続に支障のな
いシステム構成とすることができる。なお、本発明では
仮に二重故障が発生したとしても多くの場合に支障なく
運転継続可能であり、この意味においては非常に信頼性
の高いシステムであるといえる。
【0042】なお、以上の異常事象発生の際に図2には
図示がないが、異常MPUを停止する信号がMPU出力
チェック回路23から発生されてこれを停止し、あるい
は外部出力されて運転員に異常の発生を報知し、以後の
対策の必要性を報知せしめることは当然のこととして行
われる。
【0043】〔パリティチェックによる異常検出時の構
成変更〕前記のIII項で述べたようにして、ライトアク
セス時あるいはキャッシュリードアクセス時に、キャッ
シュメモリ220,221,BIU27−1,27−2
の異常箇所が特定できる。次に各異常の時のBPU内部
の構成変更制御について説明する。なお、表3はキャッ
シュリードアクセス時の各部異常の際にキャッシュメモ
リ220,221,BIU27−1,27−2,3ステ
ートバッファ29,26,27をどのように制御するの
かを一覧表にしたものである。
【0044】
【表3】
【0045】図5は各ケースの時の回路構成を図示した
ものであり、以下表3と図5を参照して説明する。図5
(a)は正常時の信号の流れを示している。この場合、
3ステートバッファ29,26は閉、27は開とされて
おり、従ってBIU27−1またはキャッシュメモリ2
20からの情報がMPUA20−1と、MPUB20−
1に供給され、BIU27−2またはキャッシュメモリ
221からの情報がMPUC20−3に供給される。こ
のように、通常はBIU27−1,キャッシュメモリ2
20,MPUA20−1,MPUB20−1が1つの組
を構成し、BIU27−2,キャッシュメモリ221,
MPUC20−3が別の1組を構成するように運用され
る。
【0046】ケース1:キャッシュメモリ220の異常
である。図5(b)のように、キャッシュメモリ220
の出力が停止され、3ステートバッファ29はMPUA
20−1側への信号のみが通過するように制御され、3
ステートバッファ26は開、27は閉とされる。これに
より、全てのMPUはキャッシュメモリ221からの共
通情報を受け取るように構成されて異常発見後も運転継
続される。なお、3ステートバッファ26を開、27を
閉のように正常状態から切替える理由は、論理的にはキ
ャッシュメモリ220の異常と特定していても、キャッ
シュメモリ220が接続された内部バスの異常の可能性も
否定できず、念のためにキャッシュメモリ221側に切
替えるものである。もし、キャッシュメモリ220が接
続された内部バスの異常のときは、3ステートバッファ
29が一方向通信となっているためにMPUC側にはそ
の影響が現れない。
【0047】ケース2:キャッシュメモリ221の異常
である。図5(c)のように、キャッシュメモリ221
の出力が停止され、3ステートバッファ29はMPUC
20−3側への信号のみが通過するように制御され、こ
れにより全てのMPUはキャッシュメモリ220からの
共通情報を受取るように構成されて異常発見後も運転継
続される。
【0048】ケース3,5:BIU270あるいはその
接続されたシステムバス1−1側の異常である。図5
(d),(e)のように、BIU270あるいはその接
続されたシステムバス1−1側を停止し、ケース1と同
様に運用する。
【0049】以上のようにして、パリティエラーによる
異常検知されたときは構成変更とともに異常の旨、外部
報知される。
【0050】以上詳細に述べたように、本発明によれば
BPUの内部に異常が発生したとしても、その回路構成
の一部を切り離しあるいは情報の流れを変更することに
よって、正常時と同様に運転継続が可能である。このた
めデータ処理の途中で異常が発生した場合には、(1)
切りの良い時点または、修理保守時期まで当該BPUで
の動作を継続させ、(2)切りの良い時点または、修理
保守時期に当該BPUで実行していた処理を他の正常な
BPUに引き継がせれば良い。
【0051】この結果、異常発生時のチェックポイント
リスタートに備えてのバックアップ動作が不要となり、
処理性能を向上させることができる。
【0052】V.内部バス接続時の信号処理 以上説明したように、各部異常の際に内部バスの切替え
を3ステートバッファ29を用いて行うが、3ステート
バッファ29の開閉操作は、通常の経路でのライトアク
セスに比べて切替えに時間がかかり、しかもバス間で迂
回するために時間がかかる。この改善策としては、図6
のように異常発生時にのみリトライによりバスサイクル
を延長するのがバスサイクルの遅延を生じず有効であ
る。
【0053】つまり、異常が発見された(ステップS
1,S2)ときには、ステップS4においてリトライを
させる信号をアサートし、ステップS5において異常出
力の停止(異常MPUの切り離し操作等),正常出力の
迂回処理を実施した後で、ステップS6においてこのバ
スサイクルを終了させる信号をアサートして一連の処理
を終了する。なお、正常であるときにはステップS3に
おいてこのバスサイクルを終了させる信号をアサートす
るのみでよい。MPUにバスサイクルを終了させたり、
リトライをさせたりするための信号線はMPUの種類に
より名称が異なるが、多くのMPUではリトライ信号を
MPUに入力することでMPUが自動的に実行する。表
4に代表的なMPUの信号名を示す。
【0054】
【表4】
【0055】図7,図8は図6のリトライ方式をライト
アクセス時に採用したときの信号の流れを示したもので
あり、図7は正常時、図8は異常時を示す。同図におい
て、縦軸は時間の経過を示し、横軸はMPU出力がキャ
ッシュメモリに至るまでの各部回路を示している。通
常、MPUからはデータ信号に先立って、アドレス信号
が出力される。図7では、アドレス信号,データ信号が
ともに正常であるためにMPU出力チェック回路23,
パリティチェック回路250では正常と判断され、MP
Uには終了信号が返され、キャッシュメモリ220では
データを格納しバスサイクルが終了する。
【0056】図8では、MPUAが異常でアドレス信
号,データ信号がともにMPU出力チェック回路23に
より異常と判定され、各MPUに終了信号とともにリト
ライ信号が返されリトライ動作に入る。リトライ動作時
には3ステートバッファ200,201を閉状態として
MPUAから内部バスへの信号伝達を阻止し、3ステー
トバッファ29を一方向のみ開としてMPUCの出力信
号をキャッシュメモリ250にも供給する。その後、各
MPUには終了信号が返され、動作が終了する。
【0057】図9,図10,図11は図6のリトライ方
式をキャッシュリードアクセス時に採用したときの信号
の流れを示したものであり、図9は正常時、図10はア
ドレス信号異常時、図11はデータ信号異常時を夫々示
す。図9では、アドレス信号、データ信号がともに正常
であり異常が見られないために、MPUには終了信号が
返され、MPUはキャッシュメモリ250からのデータ
を格納してバスサイクルを終了する。図10では、MP
UAからのアドレス信号が他と一致せずに異常と判断さ
れ、各MPUに終了信号とともにリトライ信号が返され
リトライ動作に入る。リトライ動作時には3ステートバ
ッファ201を閉状態としてMPUAから内部バスへの
信号伝達を阻止し、3ステートバッファ29を一方向の
み開としてMPUCのアドレス出力信号をキャッシュメ
モリ220に供給し、キャッシュメモリ220は与えら
れたアドレスに格納されているデータをMPUAとMPUB
に供給する。その後、各MPUに終了信号を返して、リ
トライ動作が終了する。
【0058】図11では、キャッシュメモリ220から
のデータに異常があり、パリティ生成/照合検査回路1
0,12,パリティチェック回路250でのパリティチ
ェックにより正常と判断され、各MPUに終了信号とと
もにリトライ信号が返されリトライ動作に入る。リトラ
イ動作時にはキャッシュメモリ220の出力が阻止さ
れ、3ステートバッファ29を一方向のみ開としてキャ
ッシュメモリ221の出力をMPUAとMPUBに供給
する。なおこの場合、3ステートバッファ26を閉、2
7を開のように正常状態から切替え、3ステートバッフ
ァ26を通じてキャッシュメモリ221の出力をMPU
Bに供給することにより、キャッシュメモリ220から
MPUBへのデータ信号の経路の異常により誤ったデー
タがMPUBへ供給されるのを防ぐことができる。
【0059】VI.異常発生後の復旧策 このように本発明装置は異常発生後も運転継続できる
が、この構成のまま永続的に運転することは二次的故障
の可能性を考慮すると、早急に初期の状態に復旧させる
べきであり、次に、以上発生したBPUの機能を正常に
復旧させるための復旧策について説明する。その方法
は、図1のBPUを1つのプリント板上に形成してお
き、異常BPUプリント板を正常BPUプリント板に交
換することで達成される。
【0060】図12は、計算機盤構成を示しており、そ
の扉を開放するとその内部にプリント板を収納するスロ
ット部が形成され、更に各スロットには図1の主記憶装
置3,BPU2,入出力制御装置BIU4を構成する各
プリント板が挿入され、挿入された状態で図11には図
示せぬシステムバスに接続されるようになっている。図
示の例ではスロットSLは12個あり、このうちSL
1,SL3〜SL6にプリント板が挿入され、他のSL
2,SL7〜SL12が空きスロットとなっている。ス
ロットSLに挿入されるプリント板PLは通常知られた
もので良いが、本発明のものではこのプリント板をスロ
ットSLに固定するためのレバー282,プリント板が
停止中か否かを表わす表示ランプ280を備え、必要に
応じて適宜プリント板の取り外し要求ボタン281が備
えられる。以下、BPUプリント板の交換手順について
説明する。
【0061】《BPUプリント板が1枚のときの交換》
図13は、システムバス(説明の都合上一重系で示す)
1にプリント板PLが接続可能なn個のスロットSLの
うち、SL1にその内部で異常発生したBPU,SL2
に主記憶装置3,SLnにIOU4のプリントが夫々挿
入されており、SL3が空きスロットとなっている例を
示す。ここでは、異常BPUに代わり機能すべき新BP
Uは未だスロットに挿入されていない。そしてプリント
板上の表示ランプ280は稼働中のために消灯してい
る。
【0062】この状態で、旧BPU2Aの機能を正常な
新BPU2Bに引き継ぐには、まず、空きスロットを用
意する。図13の例の場合は、スロットSL3が空きス
ロットとなっているので、次に新BPU2Bを空きスロ
ットSL3に挿入する。
【0063】BPU2AはBPU2Bの挿入を検知し、
そのオペレーティングシステム(以下OSと略す)の処
理により、旧BPUAで実行中のタスクを新BPU2B
に移管し、旧BPU2Aのプリント板上の表示ランプ2
80を点灯する。以降、オンラインの業務は新BPU2
Bにより実行される。旧BPU2Aから新BPU2Bへ
の業務移管は瞬時に行われる。その後、旧BPUプリン
ト板上の表示ランプ280が点灯し、該BPUが停止状態
であることを確認した上で、旧BPU2Aを取り外す。
以上の手順により、旧BPU2Aを抜く前に、オンライ
ン業務を新BPU2Bに移管完了されているため、システム
を停止することなく、またシステム性能を低下させるこ
となくBPUの交換を実現できる。
【0064】図14は,図13で示した例についてBP
U交換手順を人による動作と計算機内部の処理に分けて
処理の内容を示したBPU交換手順処理フローである。
BPUを交換する場合、まず空きスロットを用意(St
1)する。空きスロットは、既に未使用の空きスロット
があればそれを用いればよく、また空きスロットがない
場合も、一時的に取り外し可能なハードウェアボードが
あれば、そのボードを抜き、一時的に空きスロットを作
り出し、目的のBPU交換後に、再び該ボードを戻すこ
とにより空きスロットを準備することも可能である。次
に、空きスロットに新BPUを挿入(St5)する。そ
のBPU挿入を、旧BPU2Aは割込等の手段で認識
(St4)する。すると、旧BPU2Aは現在実行中の
タスクを主記憶装置上に退避(St3)し、新BPU2
Bが該タスクの処理を続行できるようにする。新BPU
2Bはそれを受けて、該タスクを実行(St5)し、オ
ンライン業務を開始する。旧BPU2Aは自らBPU上
のボード停止ランプを点灯(St6)し、処理を停止
(St7)する。その後、旧BPU上のボード停止ラン
プが点灯しているのを人間が確認(St8)後、旧BP
Uを取り外す(St9)。これで、BPU交換は完了で
ある。
【0065】図15は、上記実施例における、旧BPU
2A上で実行中のタスクを新BPU2Bに引き継ぎする
手段を詳細に説明した図である。システムバスに旧BP
U2A,新BPU2B、さらに主記憶装置3の各々プリ
ント板が装着されている。旧BPU2A上では、あるタ
スク920−1が実行中である。その時に、新BPU2Bが
挿入されたことの連絡が旧BPU2Aに入ったとする
と、旧BPU2Aは、処理を中断し、実行中のタスク9
20−1を主記憶装置3上に退避する。一方、新BPU
2Bは主記憶装置3上に退避されたタスク920−1に
続くタスク920−2を回復して、中断したポイントか
らタスクの処理を続行する。以上の方式を用いて、交換
したBPU間の業務の引き継ぎを行う。
【0066】以上が、BPUが1つの場合のBPUの交
換の例である。上記実施例では、BPUが1つの場合で
も、システムを停止することなくBPUの交換が可能で
ある。
【0067】《BPUプリント板が複数のときの交換》
次にBPUが複数の場合、あるいは挿入したBPUが正
しく動作しなかった場合の対応について説明する。図1
6の本実施例では、BPUが複数装着されている。それ
ぞれのBPUは交換されるべきBPUを指定する手段と
して、ボード取り外し要求ボタン281と、プリント板
番号282を具備している。
【0068】システムバス1にプリント板を接続するた
めの、スロットSL1からSL3にはBPU2A,2
B,2Cがそれぞれ装着されている。スロットSL4に
は主記憶装置が接続されている。スロットSL5は空き
スロットである。また、各BPUは、BPUが停止したと
きに点灯する表示ランプ280と、取り外すべきBPU
を指定するために用いるプリント板取り外し要求ボタン
281と、プリント板番号282を有する。ここで、プ
リント板番号はBPU2Aが1、BPU2Bが2,BP
U2Cが3と約束されている。今、新BPU2Dをスロ
ットSL2に装着されている旧BPU2Bと交換する場
合には、まず、新BPU2Dを空きスロットであるスロ
ットSL5に挿入する。それから、スロットSL1〜S
L3に装着されているBPUのうち、交換したいスロッ
トSL2のBPU2Bの取り外し要求ボタン281を押
す。そうすると、旧BPU2Bは実行中のタスクと自身
のプリント板番号を主記憶装置3上に退避し、新BPU
2Dが主記憶装置3上に退避されたプリント板番号を取
り込み、退避中タスクを実行する。旧BPU2Bは、表
示280を点灯し自ら停止する。その後、旧BPU2B
のボード停止ランプ280が点灯しているのを確認後、
該BPU2Bを取り外す。
【0069】図17は、図16で示した例についてのB
PU交換手順を人による動作と計算機内部の処理に分け
て処理の内容を示したBPU交換手順処理フローであ
る。
【0070】BPU交換する場合、まず空きスロットを
用意(St1)する。空きスロットは、既に未使用の空
きスロットがあればそれを用いればよく、また空きスロ
ットがない場合も、一時的に取り外し可能なハードウェ
アボードがあれば、そのボードを抜き、一時的に空きス
ロットを作り出し、目的のBPU交換後に、再び該ボー
ドを戻すことにより空きスロットを準備することも可能
である。
【0071】次に、空きスロットに新BPU2Dを挿入
(St2)する。その後、取り外したい旧BPU2Bの
プリント板取り外し要求ボタンを押す(St3)。する
と、旧BPU2Bは現在実行中のタスクと自プリント板
番号を主記憶装置3上に退避(St4)し、新BPU2
Dが該タスクの処理を続行できるようにする。新BPU
2Dはそれを受けて、該タスクを実行(St5)し、オ
ンライン業務を開始する。旧BPU2Bは自らBPU上
の表示ランプを点灯(St6)し、処理を停止(St
7)する。その後、旧BPU2B上の表示ランプが点灯
しているのを確認(St8)後、旧BPU2Bを取り外
す(St9)。これで、BPU交換は完了である。
【0072】図18は、上記実施例における、旧BPU
上で実行中のタスクとプリント板番号を新BPUに引き
継ぐ手段を詳細に説明した図である。システムバスに旧
BPUが3台(2A,2B,2C)、新BPU2D、さら
に主記憶装置が装着されている。旧BPU2A,2B,
2C上では、夫々タスク1,2,3、旧BPU2C上で
はタスク2が実行中である。また、旧BPU2A,2
B,2Cのプリント板番号282は夫々1,2,3であ
る。その時に、取り外しBPUを指定するために、旧B
PU2Bのプリント板取り外し要求ボタンが押されたと
すると、旧BPU2Bは、処理を中断し、実行中のタスク2
と自プリント板番号2を主記憶装置3上に退避する。一
方、新BPU2Dは主記憶装置3上に退避されたプリン
ト板番号2とタスク2を回復し、中断ポイントからタス
クの処理を続行する。以上の方式を用いて、交換したB
PU間の業務の引き継ぎを行う。
【0073】本実施例によれば、交換されるべきBPU
を指定する手段であるプリント板取り外し要求ボタンを
設けることにより、BPUが複数装着されている場合で
も、システムを停止することなく、さらにはシステム性
能を低下させることなくBPUを交換できるという長所が
ある。
【0074】また、交換するBPUに割当てているプリ
ント板番号を交換BPU間で引き継ぐことにより、ユー
ザプログラムにより動作プリント板番号が指定されてい
る場合でも、ユーザプログラムを変更することなくBP
Uを交換できるという長所がある。
【0075】《挿入されたBPUが正しく作動しなかっ
た場合》一方、交換された新BPUが万一正常に動作し
ない場合に、システムに重大な影響を及ぼすという短所
がある。図19,図20によれば、挿入されたBPUの
動作チェックを実行する手段を有し、新しく挿入した新
BPUが万一正常に動作しない場合にもシステムへの影
響を与えることがない。
【0076】図19は、新BPU2Bが挿入された状態
を示す図であり、このとき旧BPU2Aではあるタスクが実
行中である。新BPU2Bが挿入されると、該BPU上
で動作チェックを行うため、BPU自己診断プログラム
925を実行する。診断プログラムが正常に終了するま
では旧BPUAにはボード挿入の連絡はしない。該診断
プログラム925により新BPUに故障箇所が発見され
ると旧BPUへは連絡せず、自BPU2Bの表示ランプ
280を点灯し、処理を停止する。旧BPUでは、新B
PU挿入タイミングでタスク1を中断することなく、何
事もなかったかのようにタスクの処理を続行する。
【0077】図20は、上記実施例における、BPU交
換手順を人による動作と計算機内部の処理に分けて処理
の内容を示したBPU交換手順処理フローである。St
1,St2,St4〜St8,St11〜St13の処
理については、図21と全く同一の処理であるためここ
では説明を省略し、本実施例に特有の処理につき説明す
る。
【0078】新BPUが挿入されると、まず該BPUの
動作チェックを実施するため診断プログラムを実行(S
t3)する。該診断プログラムの結果、正常と判定され
た場合には、前実施例と同じく処理St4に移る。しか
し、故障と判定された場合には、挿入された新BPU上
の表示ランプを点灯(St9)し、新BPUの処理を停止
(St10)する。その後、新BPU上の表示ランプの
点灯を確認(St14)し、新BPUを再度取り外す(S
t15)。この結果、BPUの交換は失敗に終ったもの
の、旧BPUが処理を継続しているため、オンラインシ
ステムには影響を与えることはない。交換が成功したか
否かは、BPU挿入後,新旧BPUのどちらの表示ラン
プが点灯するかにより判定する。
【0079】以上、本実施例の方式により、挿入された
BPUが正常に動作しない場合にも、オンラインシステ
ムには影響を排除することが可能となった。
【0080】《異常発生前後の構成と処理》以上述べた
旧BPU2Aと新BPU2B内のMPUの処理並びに構
成を時系列的に示したものが図21であり、正常運転時
にはBPU2Aの3台のMPUが運転しており、その多
数決結果が出力されている。そして処理Bの実行中にMP
UCに障害が発生するとこれを切り離し、MPUAとMP
UBによる多重化回路構成により運転が正常に継続され
る。他方MPUAの異常報知により新BPU2Bのプリ
ント板を空きスロットに挿入すると、新BPU2B内の
各MPUは自己診断を実施し、適宜の時点で処理を旧B
PU2Aから新BPU2Bに移してBPU2Bの3台の
MPU(MPUD,MPUE,MPUF)の多数決結果に
よる処理Dを実行する。この処理引き継ぎは、切りの良
い時点または、修理保守時期まで、当該BPUでの動作
を継続させ、切りの良い時点または、修理保守時期に当
該BPUで実行した処理を他の正常なBPUに引き継が
せれば良く、実際にはソフトウェアの都合で最も性能上
望ましい時点で行うことができる。このようなタイミン
グとしては、タスク切替えのタイミングが一般的にはふ
さわしいことは明らかである。なんとなれば、マルチプ
ロセッサシステムにおけるプロセッサの切替えとまった
く同一手順でBPUの切替えが可能であり、引き継ぎに
伴う余分な性能上のオーバーヘッドを0にすることが可
能であるからである。このため本発明によれば、フォー
ルト発生時のチェックポイントリスタートに備えてのバ
ックアップ動作が不要となり、処理性能を向上させるこ
とができる。
【0081】なお、フォールトが発生した場合には、ハ
ードウェアはフォールトの発生状況をレジスタに記録
し、オペレーティングシステムはコンテクストスイッチ
時や修理保守のための割込み処理時にレジスタを参照
し、処理の引き継ぎが必要な場合には、処理引き継ぎ先
のBPUに割込みなどで通知し、自BPUでの処理を終
了する。BPU2を構成する要素(MPU,キャッシュ
メモリなど)の一部で故障が発生した場合、他の要素は
正常であっても、本方式では処理引き継ぎ後には、他の
正常な要素も含めてBPU2全体の使用を中止する。
【0082】図22に、フォールトトレランスの為に冗
長化したMPUA,MPUB,MPUCが故障などの原因で
障害を受けた場合の引き継ぎ時の本発明方式と公知例と
の構成の相違を模式的に示す。従来の方法では、障害を
受けたMPUAのみを正常なMPUDと交換する方法を
採っていた。これに対し、本発明による方法では、障害
を受けたMPUAだけでなく、正常なMPUB,MPU
Cも新たにMPUD,MPUE,MPUFと交換してい
る。以上の様にすることにより、フォールトトレランス
の為に冗長化したMPUの組合わせ、すなわちMPU
A,MPUB,MPUCの組合わせを固定化することが
できる。従ってMPUの組合わせを交換単位にすれば、
それぞれの組合わせを構成するMPU間を高速のクロッ
クで結合することができ、高速のフォールトトレラント
コンピュータを実現することができる。また従来のよう
に、MPUの組替えに伴う種々のハードウェア,ソフト
ウェアが不要である。
【0083】なお、BPUは単一故障の場合には動作を
継続することができるので、この処理引き継ぎは故障発
生後直ちに行う必要はなく、処理の切りの良い時点また
は、修理保守時に処理引き継ぎを行えばよい。
【0084】本実施例により処理を継続しながら、故障
の発生したBPU20−1の配線基板を引き抜き、正常
な配線基板に交換することができる。
【0085】VII.各部回路の代案変形例以上、本発明
について説明したが、本発明の各部回路等は適宜変更し
て実現することができる。以下、これらの代案,変形例
について説明する。
【0086】《多数決論理部》図23は、図2の多数決
論理回路部の組方と切替えの様子を、他の構成要件を省
いて簡略化し理解しやすい形にして示したものであり、
MPUAとMPUCを出力専用に固定化して用い、MP
UBをMPUAとMPUCの健全性確認の参照用として
のみ用いるとともに、MPUAあるいはMPUCの異常
時には健全性の確認された方の1つの出力を共通に用い
て2組のキャッシュメモリに供給するようにしたもので
ある。この方式の場合、MPUの出力が多数決回路を通
らずに直接キャッシュメモリに入力されるので、多数決
回路での遅延時間の分キャッシュメモリアクセス時間を
短縮できる。
【0087】本発明においては、以上のようにして多数
決論理を用いて三重系を二重系に切替えて運転継続する
ものであり、本発明の変形例としてはこの方式以外にも
種々のものとすることができる。例えば、図25では3
つのMPUの出力を多数決選択回路210と211に夫
々与え、3つのMPUの中から健全性の確認された1つ
の出力を選択する。この場合、故障した方の多数決選択
回路に接続されているキャッシュメモリのデータが破壊
されるが、正常な多数決選択回路に接続されているキャ
ッシュメモリのデータを用いて運転継続できる。
【0088】また、図24のようにMPUの出力をゲー
ト回路,切替回路等を通さずに直接キャッシュメモリに
入力し、異常となったMPUから信号を受けるキャッシ
ュメモリの動作を停止して以降そのデータを使用しない
ようにすれば、さらにゲート回路,切替回路等の遅延時
間の分キャッシュメモリアクセス時間を短縮することが
できる。しかも多くの信号線からなるアドレスバス,デ
ータバスの切替手段が不要となるのでハード量を減少さ
せることができる。
【0089】図26は4台のMPUを備え、MPUAと
MPUCを出力専用に固定し、MPUBとMPUDをそれら
の参照用に用い、2組の出力一致により出力専用MPU
の出力を夫々与えるものである。なお、MPUの異常時
には、健全側のものに切替えて使用する方法とか、異常
となったMPUから信号を受けるキャッシュメモリの動
作を停止して以降そのデータを使用しないようにする方
法等で対応できる。
【0090】《キャッシュデータのリードアクセス部》
また、キャッシュメモリについてみると、キャッシュメ
モリ220,221の出力(データ)はパリティチェッ
クにより正常/異常が判断できるので、図27のように
パリティチェック250により正常と判断されたキャッ
シュメモリの出力を切替手段260を通じてMPUA,
MPUB,MPUCに入力する。また、両方のキャッシ
ュメモリが正常である場合には、キャッシュメモリの主
系,従系を予め決めておき、主系の出力を選択すればよ
い。
【0091】又、図28のようにMPUA,MPUBは
接続するキャッシュをそれぞれキャッシュメモリを22
0,221に固定しておきMPUBのみに選択したキャ
ッシュメモリの出力を入力してもよい。この場合、いず
れかのキャッシュメモリが故障しても3つのうちの2つ
のMPUに正常な動作をさせることができ、しかもハー
ド量を削減することができる。
【0092】
【発明の効果】本発明では、プロセッサボードが複数装
着されている場合でも、システムを停止することなく、
またシステム性能の低下を抑えてプロセッサボードの交
換を実現できる。
【図面の簡単な説明】
【図1】本発明の全体システム構成を示す図。
【図2】本発明のBPUの構成を示す図。
【図3】MPU出力チェック回路の一実施例図。
【図4】ライトアクセスでの異常時のBPUの構成を示
す図。
【図5】リードアクセスでの異常時のBPUの構成を示
す図。
【図6】バスサイクル制御フロー図。
【図7】MPU正常時のBPU内の信号の流れを示す
図。
【図8】MPU異常時のBPU内の信号の流れを示す
図。
【図9】MPU正常時のBPU内の信号の流れを示す
図。
【図10】アドレス信号異常時のBPU内の信号の流れ
を示す図。
【図11】データ信号異常時のBPU内の信号の流れを
示す図。
【図12】計算機盤構成を示す図。
【図13】BPU交換原理説明図。
【図14】BPU交換手順を示す図。
【図15】新旧BPUの処理引き継ぎを示す図。
【図16】マルチプロセッサ時のBPU交換原理説明
図。
【図17】マルチプロセッサ時のBPU交換手順を示す
図。
【図18】マルチプロセッサ時の新旧BPU処理引き継
ぎを示す図。
【図19】挿入BPU故障時のBPU交換処理を示す
図。
【図20】挿入BPU故障時のBPU交換処理フロー
図。
【図21】BPU故障時の処理の引き継ぎを示す図。
【図22】BPU故障時の処理の引き継ぎを示す図。
【図23】3MPUによる比較照合の実施例図。
【図24】3MPUによる比較照合の他の実施例図。
【図25】多数決方式の他の実施例図。
【図26】4MPUによる比較照合の実施例図。
【図27】キャッシュデータのリードアクセスを示す
図。
【図28】キャッシュデータのリードアクセスの他の実
施例図。
【符号の説明】
1…システムバス、2…BPU、10,11,12,1
3,14,15…パリティ生成/検査照合回路、20…
MPU、23…MPU出力チェック回路、27…BIU
(バスインタフェースユニット)、30,31…パリテ
ィチェック回路、26,27,29,200乃至205
…3ステートバッファ、220,221…キャッシュメ
モリ、234,235…エラーチェック回路。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 荒岡 学 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか工場内 (72)発明者 中村 智明 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか工場内 (72)発明者 丹治 雅行 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか工場内 (72)発明者 金子 茂則 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか工場内 (72)発明者 桝井 晃二 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか工場内 (72)発明者 飯島 三朗 茨城県日立市大みか町五丁目2番1号 日 立プロセスコンピュータエンジニアリング 株式会社内 (72)発明者 山口 伸一朗 茨城県日立市大みか町七丁目1番1号 株 式会社日立製作所日立研究所内 (72)発明者 金川 信康 茨城県日立市大みか町七丁目1番1号 株 式会社日立製作所日立研究所内 (72)発明者 小林 芳樹 茨城県日立市大みか町七丁目1番1号 株 式会社日立製作所日立研究所内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】システムバス上にボードを挿入するための
    複数スロットを備え、当該スロットに主記憶装置のボー
    ドと、同一演算を実行する複数プロセッサで構成される
    ベーシックプロセッサボードとが挿入されて作動する高
    信頼化コンピュータシステムにおいて、 一部プロセッサの故障による縮退運転状態からの復旧が
    以下のようにして行われる高信頼化コンピュータシステ
    ムの復旧方法。 a.旧ベーシックプロセッサボードが、空きスロットに
    新ベーシックプロセッサボードが挿入され作動可能状態
    であることを検知し、実行中のタスクを主記憶装置に退
    避する。 b.新ベーシックプロセッサボードは、自己診断を実行
    し、正常な場合のみ主記憶装置に退避されたタスクを実
    行する。 c.旧ベーシックプロセッサボードを停止する。
  2. 【請求項2】システムバス上にボードを挿入するための
    複数スロットを備え、当該スロットに主記憶装置のボー
    ドと、同一演算を実行する複数プロセッサで構成される
    複数のベーシックプロセッサボードとが挿入されて作動
    する高信頼化コンピュータシステムにおいて、 ベーシックプロセッサボードはその一部にボード取り外
    し要求手段を有しており、一部プロセッサの故障による
    縮退運転状態からの復旧が以下のようにして行われる高
    信頼化コンピュータシステムの復旧方法。 a.旧ベーシックプロセッサボードは、自己に備えられ
    たボード取り外し要求手段からの信号によって、実行中
    のタスクと自己のボードを示す識別番号とを主記憶装置
    に退避する。 b.新ベーシックプロセッサボードは、主記憶装置に退
    避されたタスクと識別番号とを入力し、旧ベーシックプ
    ロセッサボードの実行すべき処理を引続いて実行する。 c.旧ベーシックプロセッサボードを停止する。
  3. 【請求項3】システムバス上にボードを挿入するための
    複数スロットを備え、当該スロットに主記憶装置のボー
    ドと、同一演算を実行する複数プロセッサで構成される
    複数のベーシックプロセッサボードとが挿入されて作動
    する高信頼化コンピュータシステムにおいて、 ベーシックプロセッサボードはその一部にボード取り外
    し要求手段を有しており、一部プロセッサの故障による
    縮退運転状態からの復旧が以下のようにして行われる高
    信頼化コンピュータシステムの復旧方法。 a.旧ベーシックプロセッサボードは、自己に備えられ
    たボード取り外し要求手段からの信号によって、実行中
    のタスクと自己のボードを示す識別番号とを主記憶装置
    に退避する。 b.新ベーシックプロセッサボードは、自己診断を実施
    し、正常である場合のみ主記憶装置に退避されたタスク
    と識別番号とを入力し、旧ベーシックプロセッサボード
    の実行すべき処理を引続いて実行する。 c.旧ベーシックプロセッサボードを停止する。
  4. 【請求項4】システムバス上にボードを挿入するための
    複数スロットを備え、当該スロットに主記憶装置のボー
    ドと、同一演算を実行する複数プロセッサで構成され、
    その一部回路に障害が発生したとき障害部位を除いた残
    りの構成で運転継続する複数のベーシックプロセッサボ
    ードとが挿入されて作動する高信頼化コンピュータシス
    テムにおいて、 複数スロットの全てに稼働状態のボードが挿入されてい
    るときに任意のボードを取り外し、代わりに新ベーシッ
    クプロセッサボードを挿入し、障害が発生して一部回路
    で運転継続している旧ベーシックプロセッサボードの処
    理を新ベーシックプロセッサボードに移して稼働せし
    め、旧ベーシックプロセッサボードを停止してスロット
    から除去し、除去後のスロット位置に前記取り外した任
    意のボードを挿入して稼働せしめることを特徴とする高
    信頼化コンピュータシステムの復旧方法。
JP17433298A 1998-06-22 1998-06-22 高信頼化コンピュータシステムの復旧方法 Expired - Lifetime JP3256181B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17433298A JP3256181B2 (ja) 1998-06-22 1998-06-22 高信頼化コンピュータシステムの復旧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17433298A JP3256181B2 (ja) 1998-06-22 1998-06-22 高信頼化コンピュータシステムの復旧方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP00752091A Division JP3246751B2 (ja) 1991-01-25 1991-01-25 高信頼化コンピュータシステム及びその復旧方法並びにプロセッサボード及びその交換方法

Publications (2)

Publication Number Publication Date
JPH10326202A true JPH10326202A (ja) 1998-12-08
JP3256181B2 JP3256181B2 (ja) 2002-02-12

Family

ID=15976799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17433298A Expired - Lifetime JP3256181B2 (ja) 1998-06-22 1998-06-22 高信頼化コンピュータシステムの復旧方法

Country Status (1)

Country Link
JP (1) JP3256181B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059585A (ja) * 2006-08-30 2008-03-13 Internatl Business Mach Corp <Ibm> 破壊的なファームウェア更新を非破壊で適用するための方法、システム、および媒体(破壊的なファームウェア更新を非破壊で適用するためのシステムおよび方法)
KR100883156B1 (ko) 2006-08-16 2009-02-10 후지쯔 가부시끼가이샤 데이터 처리 시스템 및 정보 처리 장치
WO2013108386A1 (ja) * 2012-01-19 2013-07-25 株式会社日立製作所 計算機システムの管理方法、計算機システム及び記憶媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100883156B1 (ko) 2006-08-16 2009-02-10 후지쯔 가부시끼가이샤 데이터 처리 시스템 및 정보 처리 장치
JP2008059585A (ja) * 2006-08-30 2008-03-13 Internatl Business Mach Corp <Ibm> 破壊的なファームウェア更新を非破壊で適用するための方法、システム、および媒体(破壊的なファームウェア更新を非破壊で適用するためのシステムおよび方法)
WO2013108386A1 (ja) * 2012-01-19 2013-07-25 株式会社日立製作所 計算機システムの管理方法、計算機システム及び記憶媒体
JPWO2013108386A1 (ja) * 2012-01-19 2015-05-11 株式会社日立製作所 計算機システムの管理方法、計算機システム及び記憶媒体
US9400761B2 (en) 2012-01-19 2016-07-26 Hitachi, Ltd. Management method for computer system, computer system, and non-transitory computer-readable storage medium

Also Published As

Publication number Publication date
JP3256181B2 (ja) 2002-02-12

Similar Documents

Publication Publication Date Title
US6073251A (en) Fault-tolerant computer system with online recovery and reintegration of redundant components
EP0496506B1 (en) Fault tolerant computer system incorporating processing units which have at least three processors
EP0433979A2 (en) Fault-tolerant computer system with/config filesystem
EP1980943B1 (en) System monitor device control method, program, and computer system
US5317752A (en) Fault-tolerant computer system with auto-restart after power-fall
JPS61502223A (ja) 再構成可能なデュアル・プロセッサ・システム
JP3595033B2 (ja) 高信頼化コンピュータシステム
EP0683456B1 (en) Fault-tolerant computer system with online reintegration and shutdown/restart
US5905875A (en) Multiprocessor system connected by a duplicated system bus having a bus status notification line
JP3255934B2 (ja) ベーシックプロセッシングユニット及び高信頼化コンピュータシステム
JP3256181B2 (ja) 高信頼化コンピュータシステムの復旧方法
JP3325836B2 (ja) 計算機盤
JP3424968B2 (ja) 計算機システム及びプロセッサチップ及び障害復旧方法
JP3246751B2 (ja) 高信頼化コンピュータシステム及びその復旧方法並びにプロセッサボード及びその交換方法
JP3085917B2 (ja) 耐ソフトウェア障害構成を有したデータ処理装置
JP3180737B2 (ja) システムの冗長化方法
JPH0916535A (ja) マルチプロセッサ計算機
JPS5931738B2 (ja) 計算機システムの並列三重系構成方法
JPS62115555A (ja) 計算機システムの補助記憶装置2重化管理方法
JP3055906B2 (ja) 緊急動作方式
JPS62296264A (ja) デ−タ処理システムの構成制御方式
JPH06259270A (ja) プロセッサ異常判定回路
JPH0436857A (ja) マルチプロセッサシステムにおけるバス診断方式
Lee et al. Fault Treatment and Continued Service
JPH05189392A (ja) 多重化計算機システムおよび多重化計算機システムのプログラム入替方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071130

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081130

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081130

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091130

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 10

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 10