JP3246751B2

JP3246751B2 - 高信頼化コンピュータシステム及びその復旧方法並びにプロセッサボード及びその交換方法

Info

Publication number: JP3246751B2
Application number: JP00752091A
Authority: JP
Inventors: 宮尾　　健; 学荒岡; 智明中村; 雅行丹治; 茂則金子; 晃二桝井; 三朗飯島; 信康金川; 伸一朗山口; 小林　　芳樹
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1991-01-25
Filing date: 1991-01-25
Publication date: 2002-01-15
Anticipated expiration: 2017-01-15
Also published as: JPH04241038A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は高信頼化コンピュータシ
ステムにかかり、特に障害発生時に運転継続できること
は勿論、その後の復旧策について工夫された高信頼化コ
ンピュータシステムの復旧方法に関する。

【０００２】

【従来の技術】例えば交通管制システムや、金融，証券
システムは情報化社会の浸透に伴い、社会生活の根幹を
占めるようになってきており、これらに使用されるコン
ピュータシステムは障害が発生しないように工夫される
とともに、仮に障害が発生したとしてもデータの一貫性
を保持したまま処理を続行するように構成される必要が
ある。

【０００３】これらの要求に応えるため、従来より、障
害許容コンピュータもしくは、耐故障，耐欠陥コンピュ
ータシステムが種々提案されており、障害が発生しても
データ処理を継続できるように同じ機能を有する複数の
システムないし、部品で構成し、各部で冗長性を持たせ
ることにより障害の発生したシステムないし部品を検出
し、データ処理を続行するようにされている。

【０００４】具体的な従来例として、米国特許第465485
7 号は、通称ペアアンドスペア法と呼ばれる方式を採用
し、自己診断機能のあるメモリ，プロセッサ，入出力制
御装置などからなるプロセッサボード２枚を１組にして
動作する。どのプロセッサボードも内部には２個のマイ
クロプロセッサを持ち、マイクロプロセッサの出力を照
合し、不一致の場合はボード故障と見なすことにより、
障害を検出している。また、プロセッサボードからバス
にだされた出力はもう一方のプロセッサボードとバスク
ロック毎に照合、同期するロックステップ方式を採用し
ており、片方のプロセッサボードで障害が発生してもそ
のバスクロック内で検出し、切り離し処理が行われ、正
常なプロセッサボードの出力のみが使用される。

【０００５】また、特開昭59−160899号では、米国特許
第4654857 号と同様に二重のシステムバスの夫々に接続
され、その内部に２つのプロセッサを有する２つのプロ
セッサボードを有し、その同期化のためにキャッシュメ
モリに着目し、キャッシュメモリから主記憶装置へのフ
ラッシュ動作をＯＳ制御の下で行うことにより、ロック
ステップ動作による性能制限を避けている。そして、プ
ロセッサボード内の２個のマイクロプロセッサの照合に
より障害が検出された場合、前回のフラッシュポイント
から代替プロセッサボードで処理を再実行する。

【０００６】上記システムではプロセッサボード上の２
台と別のプロセッサボード上の２台の計４台のマイクロ
プロセッサを使用するが、特開平1−258057 号では、Ｔ
ＭＲ（Triple Modular Redundancy ）技法を採用し、プ
ロセッサ３台の出力結果を多数決回路を介して二重化シ
ステムバスに出力する。

【０００７】

【発明が解決しようとする課題】上記従来例は、一つの
プロセッサボ−ド上に何台のプロセッサを配置するかと
言ったことは別にして、いずれの場合も３台乃至４台の
プロセッサを使用するシステムであり、そのいずれかの
プロセッサに障害を発生したときにはこのプロセッサを
切り離して２台運転にシステムを縮小し、その後新たな
別の１台または２台のプロセッサを組み込んで元のシス
テム構成に再構成されるものである。

【０００８】これらのシステムでは障害発生前のプロセ
ッサの組と、復旧後のプロセッサの組とは全く相違す
る。つまり、前２者の従来例では当初Ａ，Ｂ，Ｃ，Ｄの
４つのプロセッサで運転していたとすると、復旧後のプ
ロセッサ構成はＥ，ＦＣ，Ｄにて運転されることにな
る。また最後の従来例では当初Ａ，Ｂ，Ｃのものが、
Ｄ，Ｂ，Ｃとなる。このように従来のものでは障害発生
後の復旧時にプロセッサの組替えが必要であり、このた
め従来例のものではそのシステムを構成する他のプロセ
ッサとの間での特別な接続、切離しハードウエア、同期
機構が必要である。また、プロセッサあるいはプロセッ
サボードは徐々にバージョンアップされ、あるいはレビ
ジョンされるのが通例であるが、システムの一部である
プロセッサあるいはプロセッサボードを交換する上記従
来例では復旧後のミスマッチを防ぐための十分な事前対
応が不可欠である。また、プロセッサボードを交換する
ものでは常に高価な交換ボードを準備しておく必要があ
る。さらに、プロセッサ間での同期化が困難である。

【０００９】以上のことから本発明では、障害発生後の
復旧時にプロセッサの交換を容易に行うことのできる高
信頼化コンピュータシステムの復旧方法を提供すること
を目的とする。

【００１０】

【課題を解決するための手段】同一演算を行う少なくと
も３つのプロセッサと入出力用インタフェイスユニット
を備えたプロセッサボードを複数備えた高信頼化コンピ
ュータシステムにおいて、各プロセッサの出力をお互い
に他のプロセッサと比較した結果、他のプロセッサと同
じ処理を行っていないプロセッサに障害が発生したもの
とし、障害プロセッサ以外の健全性が確認されたプロセ
ッサの出力を選択してインタフェイスユニットに接続し
て出力することにより、プロセッサボードの処理を残り
のプロセッサで継続し、プロセッサボードを交換する際
には、障害が発生したプロセッサボードで行われていた
処理を交換用のプロセッサボードの全てのプロセッサに
転送して引き継ぐことにより実現される。なお、処理の
引き継ぎ時に、交換用のプロセッサボードを挿入する余
地が無い場合は、一旦他のプロセッサボードを抜去した
後、交換用プロセッサボードを挿入して障害が発生した
プロセッサボードからの処理を引き継いだ後、先に抜去
したプロセッサボードを再度挿入する。

【００１１】

【作用】本発明では、障害発生時にその一部を速やかに
切り離し、また必要に応じて復旧時にプロセッサの全て
を新たな別のプロセッサ群に切替ることにより、プロセ
ッサの組替えに伴う種々の障害が排除される。

【００１２】

【実施例】以下本発明について詳細に説明するが、本明
細書での説明はその理解を容易にするために以下の項目
に分けて行う。

【００１３】Ｉ．システムの概略全体構成 II. ＢＰＵ２の構成 III. 異常検出手法 IV．異常時の構成変更制御Ｖ．内部バス接続時の信号処理 VI．異常発生後の復旧策 VII. 各部回路の代案変形例Ｉ．システムの概略全体構成図１に本発明のフォルトトレーラントシステムの概略全
体構成を示す。このシステムは２組のシステムバス１−
１と１−２を有しており、このバス上には一つまたは複
数のベーシックプロセッシングユニット（以下単にＢＰ
Ｕという）２−１，２−２……２−ｎがシステムバス１
−１と１−２に夫々接続されている。またシステムバス
１−１には主記憶装置３−１が、１−２には主記憶装置
３−２が夫々個別に接続され、入出力装置（以下単にＩ
ＯＵという）４−１，４−２が夫々システムバスの何れ
にも接続される。主記憶装置３及びＩＯＵ４は、夫々２
台を一組として使用され、図１の例では各一組づつ使用
する例を示しているが、これはシステムの拡張に応じて
適宜組数を増加して使用することができる。図示のｎ組
のＢＰＵは、通常は夫々別の処理を実行しているが、何
れも同じ構成とされているのでここでの説明は特に必要
のないかぎりＢＰＵ２−１を例にとってその構成及び作
用について説明する。

【００１４】ＢＰＵ２は、複数のマイクロプロセッシン
グユニット２０（以下単にＭＰＵという。図の例では３
台)、複数のＭＰＵ出力チェック回路２３(図の例では３
台）、３ステートバッファ回路２９等、複数のキャッシ
ュメモリ２２０，２２１，複数のバスインターフェイス
回路２７（以下単にＢＩＵという）等を主要な構成要件
としている。ここで図１回路の概略の動作を説明してお
くと、３台のＭＰＵ２０により演算が実行され、このＭ
ＰＵの出力がチェック回路２３においてチェックされ、
正常と判断された２つのＭＰＵの出力が夫々バスインタ
ーフェイス回路２７を介して２組のシステムバス１、あ
るいは２組のキャッシュメモリ２２０，２２１に夫々出
力される。ＭＰＵの１つに異常が発見された場合、この
ＭＰＵは除外されて残りの２つの正常なＭＰＵによりそ
の出力が夫々バスインターフェイス回路２７を介して２
組のシステムバス１に、あるいは２組のキャッシュメモ
リ２２０，２２１に夫々出力される。３台のＭＰＵ２０
の一部に異常が発見された後は、適宜のタイミングで３
台のＭＰＵ２０が全く別の新たな３台のＭＰＵ２０に切
替られて演算を実行する。

【００１５】II．ＢＰＵ２の構成ＢＰＵ２のより詳細な構成は図２に示されている。なお
後述するように、BPUは一枚のプリント板上に図示の機
能を搭載されるのが良い。

【００１６】図２において、３台のＭＰＵ２０−１，２
０−２，２０−３は図示せぬクロックにより同期演算が
実行され、その結果がアドレスラインＡとデータライン
Ｄに夫々出力される。ＭＰＵ２０−１，２０−２，２０
−３のアドレスラインＡ上のアドレスとデータラインＤ
上のデータには、パリティ生成／検査照合回路１０乃至
１５から適宜のパリティ信号が付与されてＭＰＵ出力チ
ェック回路２３に与えられる。ＭＰＵ出力チェック回路
２３は、ＭＰＵＡ(２０−１）からの出力（パリティ信
号が付与されたアドレス，データ）とＭＰＵＢ（２０−
２）からの出力とを比較する第１のチェック回路ＣＨＫ
ＡＢ（２３−１）と、ＭＰＵＡ（２０−１）からの出力
とＭＰＵＣ（２０−３）からの出力とを比較する第２の
チェック回路CHKCA （２３−２）と、ＭＰＵＢ（２０−
２）からの出力とＭＰＵＣ（２０−３）からの出力とを
比較する第３のチェック回路CHKBC （２３−３）と、３
つのチェック回路ＣＨＫからの比較結果に応じてＭＰＵ
のいずれの故障であるかを特定するエラーチェック回路
２３４，２３５から構成される。このＭＰＵ出力チェッ
ク回路２３はいわゆる多数決回路であり、この判定結果
に応じて３ステートバッファ回路２００，２０１，２０
３，２０４，２９の開閉状態が制御される。この判定結
果と３ステートバッファ回路の状態の関係については後
述するが、要するに異常と判定されたＭＰＵを以後使用
せず、正常とされたＭＰＵの出力を２つのキャッシュメ
モリ２２０，２２１に与えて２重系として運用するもの
である。なお、以下の説明においては３ステートバッフ
ァ回路のイネーブル状態を単に開状態と称し、ディセー
ブル状態を閉状態ということにする。

【００１７】３ステートバッファ回路２００，２０１，
２０３，２０４を介して得られたアドレス、データは２
つのキャッシュメモリ２２０，２２１に夫々与えられ、
その際パリティチェック回路２５０においてパリティ生
成／検査照合回路１０乃至１５で付与したパリティのチ
ェックが行われる。またＭＰＵ出力は、同期回路２９
０，２９１において２つのＭＰＵ出力の同期が図られ、
バスインターフェイスユニットＢＩＵを介してシステム
バスに送出される。その際パリティチェック回路３０，
３１においてパリティ生成／検査照合回路１０乃至１５
で付与したパリティのチェックが行われる。以上の構成
は、ＭＰＵからのライトアクセスを主体に述べたもので
あるが、このようにＭＰＵからのライトアクセスのとき
はMPU出力チェック回路２３とパリティチェック回路３
０，３１においてチェックが行われる。

【００１８】これに対し、キャッシュリードアクセス時
は、各キャッシュメモリ２２０，２２１，３ステートバ
ッファ回路２０２，２０５，ＭＰＵのル−トで信号伝送
が行われ、この場合にはパリティ生成／検査照合回路１
０乃至１５でキャッシュメモリからのアドレス，データ
のチェックが行われる。なお、２６，２７も３ステート
バッファ回路であり、キャッシュリードアクセス時にパ
リティ生成／検査照合回路１０乃至１５でのアドレス，
データのチェック結果に応じて開閉状態が制御される。

【００１９】図２の構成から明らかなように、本発明の
ＢＰＵシステムでは少なくとも３台のＭＰＵと、多数決
回路による異常ＭＰＵ検出回路と、二重化されたキャッ
シュメモリと、二重化された出力回路部分とを有する。

【００２０】III．異常検出手法図２のＢＰＵ内部には、その異常検出部としてＭＰＵ出
力チェック回路２３と、多くのパリティチェック回路を
採用している。この項では、これらの異常検出手法につ
いて説明する。

【００２１】《ＭＰＵ出力回路による異常検出》このうち、ＭＰＵ出力チェック部分について図３に示
す。図３において第１のチェック回路CHKAB の出力をＡ
Ｂ，第２のチェック回路CHKCA の出力をＣＡ，第３のチ
ェック回路CHKBC の出力をＢＣ，エラーチェック回路２
３１の出力を夫々Ａｇ，Ｃｇ，２９ｇとして、３つのチ
ェック回路の出力とそのときの３ステートバッファ回路
の開閉状態との関係について説明する。なお、この図に
おいてＣは図２では記述しない制御線である。

【００２２】まず、第１乃至第３のチェック回路ＣＨＫ
は、その夫々の２組の入力（アドレス，データ，制御信
号）を得て、第１のチェック回路CHKAB はＭＰＵＡの出
力とＭＰＵＢの出力との比較結果ＡＢを、第２のチェッ
ク回路CHKCA はＭＰＵＡの出力とＭＰＵＣの出力との比
較結果ＣＡを、第３のチェック回路CHKBC はＭＰＵＢの
出力とＭＰＵＣの出力との比較結果ＢＣを出力する。こ
の比較結果は一致するか、しないかのいずれかの状態信
号である。

【００２３】エラーチェック回路２３１は、３つのチェ
ック回路ＣＨＫの出力ＡＢ，ＢＣ，ＣＡから、(１)，
(２)，(３)式に従いＭＰＵＡ，ＭＰＵＢ，ＭＰＵＣの正
常を表す出力Ａｇ，Ｂｇ，Ｃｇを得る。なお、図２，図
３においてエラーチェック回路は二重化されている。

【００２４】Ａｇ＝「ＡＢ・「ＣＡ＋「ＡＢ・ＢＣ・ＣＡ＋ＡＢ・ＢＣ・「ＣＡ……（１）Ｂｇ＝「ＡＢ・「ＢＣ＋「ＡＢ・ＢＣ・ＣＡ＋ＡＢ・「ＢＣ・ＣＡ……（２）Ｃｇ＝「ＢＣ・「ＣＡ＋ＡＢ・「ＢＣ・ＣＡ＋ＡＢ・ＢＣ・「ＣＡ……（３）但し、ＡＢ：ＭＰＵＡとＭＰＵＢの出力不一致の事象（２３−１で確認）ＢＣ：ＭＰＵＢとＭＰＵＣの出力不一致の事象（２３−３で確認）ＣＡ：ＭＰＵＡとＭＰＵＣの出力不一致の事象（２３−２で確認）・：論理積（ＡＮＤ）＋：論理和（ＯＲ）「：否定（ＮＯＴ） (１)，(２)，(３)式演算の結果に応じて３ステートバッ
ファ回路２００，201，２０４，２０５，２９の開閉状
態が制御されるが、この説明は次の項で行う。表１は、
３つのチェック回路CHKAB，CHKBC 、CHKCA の出力(一
致，不一致）と、このときの異常ＭＰＵの判定結果Ａ
ｇ，Ｂｇ，Ｃｇと、その結果としての３ステートバッフ
ァ回路の開閉状態を纏めた表である。なお、表１中の判
定結果の項において、１はＭＰＵ正常，０は異常または
不明を意味する。

【００２５】表２は表１の一致，不一致のチェック回路
出力を生じる原因として想定される事例の一部を述べた
ものであるが、（本発明は、異常の際にＢＰＵ内の回路
構成を如何に変更し運転継続させるかに主眼があり、異
常発生原因を特定することは本旨ではないので）ここで
の詳細説明を省略する。

【００２６】

【表１】

【００２７】

【表２】

【００２８】図３，図２，表１，表２を参照して説明し
たように、本発明においては、MPU出力チェック回路２
３で以上の論理でＭＰＵの正常，異常を判断する。

【００２９】次に、ＢＰＵ内各部にその他の異常検出手
法として採用したパリティチェック回路による異常検出
手法について説明する。但し、パリティチェック回路自
体は周知であり任意のものが採用できるので回路につい
ての詳細説明を省略し、ここではパリティエラー検出し
たときの異常個所特定手法について説明する。

【００３０】図２に示すように、ライトアクセス時には
パリティ生成／検査照合回路１０乃至１５から適宜のパ
リティ信号が付与されてアドレスラインＡ，データライ
ンＤに情報送出され、この異常をパリティチェック回路
２５０，３０，３１にて検知する。またリードアクセス
時には、パリティ生成／検査照合回路１０乃至１５，パ
リティチェック回路２５０，３０，３１にて情報の異常
を検知する。これらのパリティチェックは基本的にアド
レスとデータに分けて個別に実施される。そしてアドレ
スについてみると、アドレス情報にパリティエラー検出
したときの異常個所はこのアドレス信号を送出している
バスマスタであり、図２の内部バスの使用権を与えるバ
スアービタ（図示していない）からのバスグラント信号
を監視することでバスマスタとなっている機器（ＭＰ
Ｕ，キャッシュメモリ，ＢＩＵ）を特定することができ
る。次にデータについてみると、ライトアクセス時にデ
ータ情報のパリティエラー検出したときの異常個所はこ
のデータ信号を送出しているバスマスタである。バスマ
スタの特定は、バスアービタのバスグラント信号監視に
より行われる。最後に、リードアクセス時にデータ情報
のパリティエラー検出したときの異常個所はこのデータ
信号の出力元であり、この特定はこのデータに付属する
アドレスが指し示しているデバイスをアドレスをデコー
ドすることで特定できる。

【００３１】この異常個所特定の考え方を論理式にて示
すと以下のようになる。

【００３２】《パリティチェックによる異常検出》 PTYGEN／ＮＧ＝ＡＰＥ・ＭＰＵ／ＭＳＴ＋ＤＰＥ（ＷＴ・ＭＰＵ／ＭＳＴ＋ＲＤ・ＭＰＵ／ＳＮＤ） ……（４）Ｃａｃｈ／ＮＧ＝ＡＰＥ・Ｃａｃｈ／ＭＳＴ＋ＤＰＥ（ＷＴ・Ｃａｃｈ／ＭＳＴ＋ＲＤ・Ｃａｃｈ／ＳＮＤ） ……（５）ＢＩＵ／ＮＧ＝ＡＰＥ・ＢＩＵ／ＭＳＴ＋ＤＰＥ（ＷＴ・ＢＩＵ／ＭＳＴ＋ＲＤ・ＢＩＵ／ＳＮＤ） ……（６） SYSBUS／ＮＧ＝ＢＩＵ／ＮＧ ……（７）但し、（４）乃至（７）式において、 PTYGEN：パリティ生成／検査照合回路１０乃至１５／ＮＧ：パリティ異常ＡＰＥ：アドレスパリティ異常・：論理積／ＭＳＴ：バスマスタ＋：論理和ＤＰＥ：データパリティ異常ＷＴ：バスマスタがデータ出力Ｃａｃｈ：キャッシュメモリＲＤ：バスマスタがデータ入力／ＳＮＤ：データ出力元 IV．異常時の構成変更制御ＢＰＵ内の異常には、ＭＰＵからのライトアクセス時に
ＭＰＵ出力チェック回路で検知されるものと、ライトア
クセス時あるいはキャッシュリードアクセス時にパリテ
ィチェック回路で発見されるものとがある。

【００３３】〔ＭＰＵ出力チェック回路による異常検出時の構成変
更〕前記ＭＰＵ出力チェック回路２３のエラーチェック回路
２３１の出力Ａｇに応じて３ステートバッファ回路２０
０，２０１が、Ｃｇに応じて２０３，２０４が、２９ｇ
に応じて２９の開閉状態が、夫々表１のように制御され
る。なお、表１において、ＭＰＵ判定結果Ａｇ＝１は２
００，２０１開、Ａｇ＝０は２００，２０１閉に基本的
に対応し、Ｃｇ＝１は２０３，２０４開、Ｃｇ＝０は２
０３，２０４閉に基本的に対応するが、Ｂｇと２９ｇは
対応関係にはない。２９ｇ従って、２９の開閉状態は、
Ａｇ＝１かつＣｇ＝１のときに閉、ＡｇとＣｇのいずれ
かが１のときは０となった３ステートバッファ回路に向
かう方向の３ステートバッファ回路２９のみが開放され
る。以下、表１の各ケースについて、図４の系統構成を
参照してより詳細に説明する。

【００３４】ケース１：全てのＭＰＵ出力が一致し、全
ＭＰＵ正常である。３ステートバッファ回路２００，２
０１，２０３，２０４が開状態，２９が閉状態とされ、
図４（ａ）のようにＭＰＵＡとキャッシュメモリ２２０
による系統と、ＭＰＵＣとキャッシュメモリ２２１によ
る系統とが独立して二重化運用される。

【００３５】ケース２：チェック回路CHKCA のみが不一
致出力を与えており、ＭＰＵＢのみが正常と判断され
る。図２に示すようにＭＰＵＢは他のＭＰＵの参照用と
して使用され、キャッシュメモリに出力を与えるように
構成されていないので構成変更しての運転継続不可能で
あり、この場合システムダウンとなる。

【００３６】ケース３：チェック回路CHKBC のみが不一
致出力を与えており、ＭＰＵＡのみが正常と判断され
る。この場合には３ステートバッファ回路２００，２０
１が開状態，２０３，２０４が閉状態，２９はキャッシ
ュメモリ２２１方向への３ステートバッファ回路のみが
開状態とされる。ＭＰＵＢとＭＰＵＣは停止され、図４
（ｂ）のようにＭＰＵＡのみによる単独系統による運転
とされる。キャッシュメモリ２２１方向への３ステート
バッファ回路２９のみが開状態とされるのは、キャッシ
ュメモリ記憶内容の同一性保持のためである。

【００３７】ケース４：チェック回路CHKAB のみが一致
出力を与えており、ＭＰＵＡとMPUBが正常と判断され
る。この場合には３ステートバッファ回路２００，２０
１が開状態，２０３，２０４が閉状態、２９はキャッシ
ュメモリ２２１方向への３ステートバッファ回路のみが
開状態とされる。この場合にはＭＰＵＣを停止し、図４
（ｃ）のようにＭＰＵＡとＭＰＵＢで二重系を構成し
て、ＭＰＵＢによりMPUAの出力を監視する二重化運転と
される。キャッシュメモリ２２１方向への３ステートバ
ッファ回路２９のみが開状態とされるのは、キャッシュ
メモリ記憶内容の同一性保持のためである。

【００３８】ケース５：チェック回路CHKAB のみが不一
致出力を与えており、ＭＰＵＡとＭＰＵＢが異常，ＭＰ
ＵＡのみが正常と判断される。この場合には３ステート
バッファ回路２００，２０１が閉状態，２０３，２０４
が開状態，２９はキャッシュメモリ２２０方向への３ス
テートバッファ回路のみが開状態とされる。この場合に
はＭＰＵＡとＭＰＵＢを停止し、図４（ｄ）のようにＭ
ＰＵＣのみによる単独運転とされる。キャッシュメモリ
２２０方向への３ステートバッファ回路２９のみが開状
態とされるのは、キャッシュメモリ記憶内容の同一性保
持のためである。

【００３９】ケース６：チェック回路CHKBC のみが一致
出力を与えており、ＭＰＵＣとMPUBが正常と判断され
る。この場合には３ステートバッファ回路２００，２０
１が閉状態，２０３，２０４が開状態，２９はキャッシ
ュメモリ２２０方向への３ステートバッファ回路のみが
開状態とされる。この場合には基本的にケース４と同様
に運用される。

【００４０】ケース７：チェック回路CHKCA のみが一致
出力を与えており、ＭＰＵＣとMPUAが正常と判断され
る。この場合には参照用ＭＰＵの異常なので、図４
（ｅ）ケース７のように、ＭＰＵＢのみを切離し、３ス
テートバッファ回路は何等の変更もせずにＭＰＵＣとＭ
ＰＵＡによる二重化運転を継続する。

【００４１】ケース８：いずれのチェック回路ＣＨＫも
不一致を検出しており、全ＭＰＵ異常であることから以
後の運転継続不可能である。

【００４２】以上のようにして、３台のＭＰＵとその周
辺回路（例えばパリティ生成／検査照合回路）の正常性
が確認され、適宜構成変更制御が実施されるが、この表
１はあくまでも照合結果の考え得る組合せを述べたにす
ぎず、実際問題としてはケース２から８の７つの異常事
象が同一確率で発生するわけではない。つまり、このう
ち単一故障のケースは４，６，７の３事例、二重故障は
２，３，５の３事例、三重故障は８のケースであり、良
く知られているように運転継続不能となるケース２，８
を含む多重故障の同時発生確率は単一故障に比べて極め
て低い。しかも、実際には単一故障が進展して多重故障
に至ることが殆どであり、従って単一故障の時点で何等
かの回復対策を施すことで事実上運転継続に支障のない
システム構成とすることができる。なお、本発明では仮
に二重故障が発生したとしても多くの場合に支障無く運
転継続可能であり、この意味においては非常に信頼性の
高いシステムであるといえる。

【００４３】なお、以上の異常事象発生の際に図２には
図示がないが、異常ＭＰＵを停止する信号がＭＰＵ出力
チェック回路２３から発生されてこれを停止し、あるい
は外部出力されて運転員に異常の発生を報知し、以後の
対策の必要性を報知せしめることは当然のこととして行
われる。

【００４４】〔パリティチェックによる異常検出時の構成変更〕前記のIII 項で述べたようにして、ライトアクセス時あ
るいはキャッシュリードアクセス時に、キャッシュメモ
リ２２０，２２１，ＢＩＵ２７−１，２７−２の異常個
所が特定できる。次に各異常の時のＢＰＵ内部の構成変
更制御について説明する。なお、表３はキャッシュリー
ドアクセス時の各部異常の際にキャッシュメモリ２２
０，２２１，ＢＩＵ２７−１，２７−２，３ステートバ
ッファ回路２９，２６，２７をどのように制御するのか
を一覧表にしたものである。

【００４５】

【表３】

【００４６】図５は各ケースの時の回路構成を図示した
ものであり、以下表３と図５を参照して説明する。図５
（ａ）は正常時の信号の流れを示している。この場合、
３ステートバッファ回路２９，２６は閉、２７は開とさ
れており、従ってＢＩＵ２７−１またはキャッシュメモ
リ２２０からの情報がＭＰＵＡ２０−１と、ＭＰＵＢ２
０−１に供給され、ＢＩＵ２７−２またはキャッシュメ
モリ２２１からの情報がＭＰＵＣ２０−３に供給され
る。このように、通常はＢＩＵ２７−１、キャッシュメ
モリ２２０，ＭＰＵＡ２０−１，ＭＰＵＢ２０−１が一
つの組を構成し、ＢＩＵ２７−２，キャッシュメモリ２
２１，ＭＰＵＣ２０−３が別の一組を構成するように運
用される。

【００４７】ケース１：キャッシュメモリ２２０の異常
である。図５（ｂ）のように、キャッシュメモリ２２０
の出力が停止され、３ステートバッファ回路２９はＭＰ
ＵＡ２０−１側への信号のみが通過するように制御さ
れ、３ステートバッファ回路２６は開、２７は閉とされ
る。これにより、全てのＭＰＵはキャッシュメモリ２２
１からの共通情報を受け取るように構成されて異常発見
後も運転継続される。なお、３ステートバッファ回路２
６を開、２７を閉のように正常状態から切替る理由は、
論理的にはキャッシュメモリ２２０の異常と特定してい
ても、キャッシュメモリ２２０が接続された内部バスの
異常の可能性も否定できず、念のためにキャッシュメモ
リ２２１側に切替るものである。もし、キャッシュメモ
リ220が接続された内部バスの異常のときは、３ステー
トバッファ回路２９が一方向通信となっているためにＭ
ＰＵＣ側にはその影響が現れない。

【００４８】ケース２：キャッシュメモリ２２１の異常
である。図５（ｃ）のように、キャッシュメモリ２２１
の出力が停止され、３ステートバッファ回路２９はＭＰ
ＵＣ２０−３側への信号のみが通過するように制御さ
れ、これにより全てのＭＰＵはキャッシュメモリ２２０
からの共通情報を受取るように構成されて異常発見後も
運転継続される。

【００４９】ケース３，５：ＢＩＵ２７０あるいはその
接続されたシステムバス１−１側の異常である。図５
（ｄ），（ｅ）のように、ＢＩＵ２７０あるいはその接
続されたシステムバス１−１側を停止し、ケース１と同
様に運用する。

【００５０】以上のようにして、パリティエラーによる
異常検知されたときは構成変更とともに異常の旨、外部
報知される。

【００５１】以上詳細に述べたように、本発明によれば
ＢＰＵの内部に異常が発生したとしても、その回路構成
の一部を切離しあるいは情報の流れを変更することによ
って、正常時と同様に運転継続が可能である。このため
データ処理の途中で異常が発生した場合には、 (１)切りの良い時点または、修理保守時期まで当該ＢＰ
Ｕでの動作を継続させ、 (２)切りの良い時点または、修理保守時期に当該ＢＰＵ
で実行していた処理を他の正常なＢＰＵに引き継がせれ
ば良い。

【００５２】この結果、異常発生時のチェックポイント
リスタートに備えてのバックアップ動作が不要となり、
処理性能を向上させることができる。

【００５３】Ｖ．内部バス接続時の信号処理以上説明したように、各部異常の際に内部バスの切替を
３ステートバッファ２９を用いて行うが、３ステートバ
ッファ２９の開閉操作は、通常の経路でのライトアクセ
スに比べて切替に時間がかかり、しかもバス間で迂回す
るために時間がかかる。この改善策としては、図６のよ
うに異常発生時にのみリトライによりバスサイクルを延
長するのがバスサイクルの遅延を生じず有効である。

【００５４】つまり、異常が発見された（ステップＳ
１，Ｓ２）ときには、ステップＳ４においてリトライを
させる信号をアサートし、ステップＳ５において異常出
力の停止（異常ＭＰＵの切離し操作等），正常出力の迂
回処理を実施した後で、ステップＳ６においてこのバス
サイクルを終了させる信号をアサ−トして一連の処理を
終了する。なお、正常であるときにはステップＳ３にお
いてこのバスサイクルを終了させる信号をアサ−トする
のみでよい。ＭＰＵにバスサイクルを終了させたり、リ
トライをさせたりするための信号線はＭＰＵの種類によ
り名称が異なるが、多くのＭＰＵではリトライ信号をＭ
ＰＵに入力することでＭＰＵが自動的に実行する。表４
に代表的なＭＰＵの信号名を示す。

【００５５】

【表４】

【００５６】図７，図８は図６のリトライ方式をライト
アクセス時に採用したときの信号の流れを示したもので
あり、図７は正常時、図８は異常時を示す。同図におい
て、縦軸は時間の経過を示し、横軸はＭＰＵ出力がキャ
ッシュメモリに至るまでの各部回路を示している。通
常、ＭＰＵからはデータ信号に先立って、アドレス信号
が出力される。図７では、アドレス信号，データ信号が
ともに正常であるためにＭＰＵ出力チェック回路２３，
パリティチェック回路２５０では正常と判断され、ＭＰ
Ｕには終了信号が返され、キャッシュメモリ２２０では
データを格納しバスサイクルが終了する。

【００５７】図８では、ＭＰＵＡが異常でアドレス信
号，データ信号がともにＭＰＵ出力チェック回路２３に
より異常と判定され、各ＭＰＵに終了信号とともにリト
ライ信号が返されリトライ動作に入る。リトライ動作時
には３ステートバッファ２００、２０１を閉状態として
ＭＰＵＡから内部バスへの信号伝達を阻止し、３ステー
トバッファ２９を一方向のみ開としてＭＰＵＣの出力信
号をキャッシュメモリ２５０にも供給する。その後、各
ＭＰＵには終了信号が返され、動作が終了する。

【００５８】図９，図１０，図１１は図６のリトライ方
式をキャッシュリードアクセス時に採用したときの信号
の流れを示したものであり、図９は正常時、図１０はア
ドレス信号異常時、図１１はデータ信号異常時を夫々示
す。図９では、アドレス信号、データ信号がともに正常
であり異常が見られないために、ＭＰＵには終了信号が
返され、ＭＰＵはキャッシュメモリ２５０からのデータ
を格納してバスサイクルを終了する。図１０では、ＭＰ
ＵＡからのアドレス信号が他と一致せずに異常と判断さ
れ、各ＭＰＵに終了信号とともにリトライ信号が返され
リトライ動作に入る。リトライ動作時には３ステートバ
ッファ２０１を閉状態としてＭＰＵＡから内部バスへの
信号伝達を阻止し、３ステートバッファ２９を一方向の
み開としてＭＰＵＣのアドレス出力信号をキャッシュメ
モリ２２０に供給し、キャッシュメモリ２２０は与えら
れたアドレスに格納されているデータをＭＰＵＡとMPUB
に供給する。その後、各ＭＰＵに終了信号を返して、リ
トライ動作が終了する。

【００５９】図１１では、キャッシュメモリ２２０から
のデータに異常があり、パリティ生成照合検査回路１
０，１２，パリティチェック回路２５０でのパリティチ
ェックにより各常と判断され、各ＭＰＵに終了信号とと
もにリトライ信号が返されリトライ動作に入る。リトラ
イ動作時にはキャッシュメモリ２２０の出力が阻止さ
れ、３ステートバッファ２９を一方向のみ開としてキャ
ッシュメモリ２２１の出力をＭＰＵＡとＭＰＵＢに供給
する。なおこの場合、３ステートバッファ回路２６を
閉、２７を開のように正常状態から切替え、３ステート
バッファ回路２７を通じてキャッシュメモリ２２１の出
力をＭＰＵＢに供給することにより、キャッシュメモリ
２２０からＭＰＵＢへのデータ信号の経路の異常により
誤ったデータがＭＰＵＢへ供給されるのを防ぐことがで
きる。

【００６０】VI．異常発生後の復旧策このように本発明装置は異常発生後も運転継続できる
が、この構成のまま永続的に運転することは二次的故障
の可能性を考慮すると、早急に初期の状態に復旧させる
べきであり、次に、以上発生したＢＰＵの機能を正常に
復旧させるための復旧策について説明する。その方法
は、図１のＢＰＵを１つのプリント板上に形成してお
き、異常ＢＰＵプリント板を正常ＢＰＵプリント板に交
換することで達成される。すなわち、本発明の高信頼化
コンピュータシステムは、同一演算を行う少なくとも３
つのプロセッサを設けたプロセッサボードと、主記憶装
置を設けた主記憶ボードと、プロセッサボード及び主記
憶ボードを収納するスロット部と、該スロット部に収納
したボードの各種装置が接続されるシステムバスとを備
え、そして、障害発生時に、障害とされたプロセッサを
有するプロセッサボードの他の健全なプロセッサによる
運転を継続する手段と、スロット部に新たなプロセッサ
ボードが障害発生後に挿入されたことを検知する手段
と、新たなプロセッサボードの挿入を検知して障害とさ
れたプロセッサを有するプロセッサボードのタスクを主
記憶装置に退避する手段とを備えている。そして、障害
発生時に、障害とされたプロセッサを有するプロセッサ
ボードの他の健全なプロセッサによる運転を継続し、次
に、新たなプロセッサボードをスロット部に挿入し、障
害とされたプロセッサを有するプロセッサボードは、新
たなプロセッサボードの挿入を検知してプロセッサのタ
スクを主記憶装置に退避し、そして、挿入した新たなプ
ロセッサボードのプロセッサが主記憶装置に退避した処
理を実行することにより、復旧することができる。

【００６１】図１２は、計算機盤構成を示しており、そ
の扉を開放するとその内部にプリント板を収納するスロ
ット部が形成され、更に各スロットには図１の主記憶装
置３、ＢＰＵ２，入出力制御装置ＢＩＵ４を構成する各
プリント板が挿入され、挿入された状態で図１１には図
示せぬシステムバスに接続されるようになっている。図
示の例ではスロットＳＬは１２個あり、このうちＳＬ
１，ＳＬ３〜ＳＬ６にプリント板が挿入され、他のＳＬ
２，ＳＬ７〜ＳＬ１２が空スロットとなっている。スロ
ットＳＬに挿入されるプリント板ＰＬは通常知られたも
ので良いが、本発明のものではこのプリント板をスロッ
トＳＬに固定するためのレバー２８２，プリント板が停
止中か否かを表わす表示ランプ２８０を備え、必要に応
じて適宜プリント板の取外し要求ボタン２８１が備えら
れる。以下、ＢＰＵプリント板の交換手順について説明
する。

【００６２】《ＢＰＵプリント板が１枚のときの交換》図１３は、システムバス（説明の都合上一重系で示す）
１にプリント板ＰＬが接続可能なｎ個のスロットＳＬの
うち、ＳＬ１にその内部で異常発生したＢＰＵ，ＳＬ２
に主記憶装置３、ＳＬｎにＩＯＵ４のプリントが夫々挿
入されており、ＳＬ３が空きスロットとなっている例を
示す。ここでは、異常ＢＰＵに代わり機能すべき新ＢＰ
Ｕは未だスロットに挿入されていない。そしてプリント
板上の表示ランプ２８０は稼働中のために消灯してい
る。

【００６３】この状態で、旧ＢＰＵ２Ａの機能を正常な
新ＢＰＵ２Ｂに引き継ぐには、まず、空きスロットを用
意する。図１３の例の場合は、スロットＳＬ３が空きス
ロットとなっているので、次に新ＢＰＵ２Ｂを空きスロ
ットＳＬ３に挿入する。

【００６４】BPU2AはBPU2Bの挿入を検知し、そのオペレ
ーティングシステム(以下OSと略す）の処理により、旧
ＢＰＵＡで実行中のタスクを新BPU2Bに移管し、旧BPU2A
のプリント板上の表示ランプ２８０を点灯する。以降、
オンラインの業務は新BPU2B により実行される。旧BPU2
Aから新BPU2Bへの業務移管は瞬時に行われる。その後、
旧ＢＰＵプリント板上の表示ランプ２８０が点灯し、該
ＢＰＵが停止状態であることを確認した上で、旧BPU2A
を取外す。以上の手順により、旧BPU2Aを抜く前に、オ
ンライン業務を新BPU2B に移管完了されているため、シ
ステムを停止することなく、またシステム性能を低下さ
せることなくＢＰＵの交換を実現できる。

【００６５】図１４は，図１３で示した例についてＢＰ
Ｕ交換手順を人による動作と計算機内部の処理に分けて
処理の内容を示したＢＰＵ交換手順処理フローである。
BPUを交換する場合、まず空きスロットを用意（Ｓｔ
１）する。空きスロットは、既に未使用の空きスロット
があればそれを用いればよく、また空きスロットがない
場合も、一時的に取り外し可能なハードウェアボードが
あれば、そのボードを抜き、一時的に空きスロットを作
り出し、目的のＢＰＵ交換後に、再び該ボードを戻すこ
とにより空スロットを準備することも可能である。次
に、空きスロットに新ＢＰＵを挿入（Ｓｔ５）する。そ
のＢＰＵ挿入を、旧BPU2A は割込等の手段で認識（Ｓｔ
４）する。すると、旧BPU2A は現在実行中のタスクを主
記憶装置上に退避（Ｓｔ３）し、新BPU2B が該タスクの
処理を続行できるようにする。新BPU2B はそれを受け
て、該タスクを実行（Ｓｔ５）し、オンライン業務を開
始する。旧BPU2A は自らＢＰＵ上のボード停止ランプを
点灯（Ｓｔ６）し、処理を停止（Ｓｔ７）する。その
後、旧ＢＰＵ上のボード停止ランプが点灯しているのを
人間が確認（Ｓｔ８）後、旧ＢＰＵを取り外す（Ｓｔ
９）。これで、ＢＰＵ交換は完了である。

【００６６】図１５は、上記実施例における、旧BPU2A
上で実行中のタスクを新BPU2B に引き継ぎする手段を詳
細に説明した図である。システムバスに旧BPU2A ，新Ｂ
ＰＵ２Ｂ、さらに主記憶装置３の各々プリント板が装着
されている。旧ＢＰＵ２Ａ上では、あるタスク９２０
ー１が実行中である。その時に、新BPU2B が挿入された
ことの連絡が旧BPU2A に入ったとすると、旧BPU2A は、
処理を中断し、実行中のタスク９２０ー１を主記憶装置
３上に退避する。一方、新BPU2B は主記憶装置３上に退
避されたタスク９２０−１に続くタスク９２０ー２を回
復して、中断したポイントからタスクの処理を続行す
る。以上の方式を用いて、交換したＢＰＵ間の業務の引
き継ぎを行う。

【００６７】以上が、ＢＰＵが１つの場合のＢＰＵの交
換の例である。上記実施例では、ＢＰＵが１つの場合で
も、システムを停止することなくＢＰＵの交換が可能で
ある。

【００６８】《ＢＰＵプリント板が複数のときの交換》次にＢＰＵが複数の場合、あるいは挿入したＢＰＵが正
しく動作しなかった場合の対応について説明する。図１
６の本実施例では、ＢＰＵが複数装着されている。それ
ぞれのＢＰＵは交換されるべきＢＰＵを指定する手段と
して、ボード取外し要求ボタン２８１と、プリント板番
号２８２を具備している。

【００６９】システムバス１にプリント板を接続するた
めの、スロットＳＬ１からＳＬ３にはＢＰＵ２Ａ，２
Ｂ，２Ｃがそれぞれ装着されている。スロットＳＬ４に
は主記憶装置が接続されている。スロットＳＬ５は空き
スロットである。また、各BPUは、ＢＰＵが停止したと
きに点灯する表示ランプ２８０と、取り外すべきＢＰＵ
を指定するために用いるプリント板取外し要求ボタン２
８１と、プリント板番号２８２を有する。ここで、プリ
ント板番号はBPU2A が１、BPU2B が２、BPU2C が３と約
束されている。今、新BPU2D をスロットＳＬ２に装着さ
れている旧BPU2Bと交換する場合には、まず、新BPU2D
を空きスロットであるスロットＳＬ５に挿入する。それ
から、スロットＳＬ１〜ＳＬ３に装着されているＢＰＵ
のうち、交換したいスロットＳＬ２のBPU2Bの取外し要
求ボタン２８１を押す。そうすると、旧BPU2B は実行中
のタスクと自身のプリント板番号を主記憶装置３上に退
避し、新BPU2D が主記憶装置３上に退避されたプリント
板番号を取り込み、退避中タスクを実行する。旧BPU2B
は、表示２８０を点灯し自ら停止する。その後、旧BPU2
B のボード停止ランプ２８０が点灯しているのを確認
後、該BPU2B を取り外す。

【００７０】図１７は、図１６で示した例についてのＢ
ＰＵ交換手順を人による動作と計算機内部の処理に分け
て処理の内容を示したＢＰＵ交換手順処理フローであ
る。

【００７１】ＢＰＵ交換する場合、まず空きスロットを
用意（Ｓｔ１）する。空きスロットは、既に未使用の空
きスロットがあればそれを用いればよく、また空きスロ
ットがない場合も、一時的に取り外し可能なハードウェ
アボードがあれば、そのボードを抜き、一時的に空きス
ロットを作り出し、目的のＢＰＵ交換後に、再び該ボー
ドを戻すことにより空スロットを準備することも可能で
ある。

【００７２】次に、空きスロットに新BPU2D を挿入（Ｓ
ｔ２）する。その後、取り外したい旧BPU2B のプリント
板取り外し要求ボタンを押す（Ｓｔ３）。すると、旧BP
U2Bは現在実行中のタスクと自プリント板番号を主記憶
装置３上に退避（Ｓｔ４）し、新BPU2Dが該タスクの処
理を続行できるようにする。新BPU2Dはそれを受けて、
該タスクを実行（Ｓｔ５）し、オンライン業務を開始す
る。旧BPU2B は自らBPU上の表示ランプを点灯（Ｓｔ
６）し、処理を停止（Ｓｔ７）する。その後、旧ＢＰＵ
２Ｂ上の表示ランプが点灯しているのを確認（Ｓｔ８）
後、旧BPU2Bを取り外す（Ｓｔ９）。これで、ＢＰＵ交
換は完了である。

【００７３】図１８は、上記実施例における、旧ＢＰＵ
上で実行中のタスクとプリント板番号を新ＢＰＵに引継
ぐ手段を詳細に説明した図である。システムバスに旧Ｂ
ＰＵが３台（２Ａ，２Ｂ，２Ｃ）、新BPU2D 、さらに主
記憶装置が装着されている。旧BPU2A，２Ｂ，２Ｃ上で
は、夫々タスク１，２，３、旧BPU2C上ではタスク２が
実行中である。また、旧BPU2A，２Ｂ，２Ｃのプリント
板番号２８２は夫々１，２，３である。その時に、取り
外しＢＰＵを指定するために、旧BPU2Bのプリント板取
り外し要求ボタンが押されたとすると、旧BPU2Bは、処
理を中断し、実行中のタスク２と自プリント板番号２を
主記憶装置３上に退避する。一方、新BPU2D は主記憶装
置３上に退避されたプリント板番号２とタスク２を回復
し、中断ポイントからタスクの処理を続行する。以上の
方式を用いて、交換したＢＰＵ間の業務の引き継ぎを行
う。

【００７４】本実施例によれば、交換されるべきＢＰＵ
を指定する手段であるプリント板取外し要求ボタンを設
けることにより、ＢＰＵが複数装着されている場合で
も、システムを停止することなく、さらにはシステム性
能を低下させることなくＢＰＵを交換できるという長所
がある。

【００７５】また、交換するＢＰＵに割当てているプリ
ント板番号を交換ＢＰＵ間で引継ぐことにより、ユーザ
プログラムにより動作プリント板番号が指定されている
場合でも、ユーザプログラムを変更することなくＢＰＵ
を交換できるという長所がある。

【００７６】《挿入されたＢＰＵが正しく作動しなかった場合》一方、交換された新ＢＰＵが万一正常に動作しない場合
に、システムに重大な影響を及ぼすという短所がある。
図１９。図２０によれば、挿入されたＢＰＵの動作チェ
ックを実行する手段を有し、新しく挿入した新ＢＰＵが
万一正常に動作しない場合にもシステムへの影響を与え
ることがない。

【００７７】図１９は、新BPU2Bが挿入された状態を示
す図であり、このとき旧BPU2Aではあるタスクが実行中
である。新BPU2Bが挿入されると、該ＢＰＵ上で動作チ
ェックを行うため、ＢＰＵ自己診断プログラム９２５を
実行する。診断プログラムが正常に終了するまでは旧Ｂ
ＰＵＡにはボード挿入の連絡はしない。該診断プログラ
ム９２５により新ＢＰＵに故障箇所が発見されると旧Ｂ
ＰＵへは連絡せず、自BPU2B の表示ランプ２８０を点灯
し、処理を停止する。旧ＢＰＵでは、新ＢＰＵ挿入タイ
ミングでタスク１を中断することなく、何事もなかった
かのようにタスクの処理を続行する。

【００７８】図２０は、上記実施例における、ＢＰＵ交
換手順を人による動作と計算機内部の処理に分けて処理
の内容を示したＢＰＵ交換手順処理フローである。Ｓｔ
１，Ｓｔ２，Ｓｔ４〜Ｓｔ８，Ｓｔ１１〜Ｓｔ１３の処
理については、図２１と全く同一の処理であるためここ
では説明を省略し、本実施例に特有の処理につき説明す
る。

【００７９】新ＢＰＵが挿入されると、まず該ＢＰＵの
動作チェックを実施するため診断プログラムを実行（Ｓ
ｔ３）する。該診断プログラムの結果、正常と判定され
た場合には、前実施例と同じく処理Ｓｔ４に移る。しか
し、故障と判定された場合には、挿入された新ＢＰＵ上
の表示ランプを点灯（Ｓｔ９）し、新ＢＰＵの処理を停
止（Ｓｔ１０）する。その後、新ＢＰＵ上の表示ランプ
の点灯を確認（Ｓｔ１４）し、新ＢＰＵを再度取り外す
（Ｓｔ１５）。この結果、ＢＰＵの交換は失敗に終った
ものの、旧ＢＰＵが処理を継続しているため、オンライ
ンシステムには影響を与えることはない。交換が成功し
たか否かは、ＢＰＵ挿入後，新旧BPUのどちらの表示ラ
ンプが点灯するかにより判定する。

【００８０】以上、本実施例の方式により、挿入された
ＢＰＵが正常に動作しない場合にも、オンラインシステ
ムには影響を排除することが可能となった。

【００８１】《異常発生前後の構成と処理》以上述べた旧BPU2Aと新BPU2B内のＭＰＵの処理並びに構
成を時系列的に示したものが図２１であり、正常運転時
にはBPU2A の３台のＭＰＵが運転しており、その多数決
結果が出力されている。そして処理Ｂの実行中にＭＰＵ
Ｃに障害が発生するとこれを切離し、ＭＰＵＡとＭＰＵ
Ｂによる多重化回路構成により運転が正常に継続され
る。他方ＭＰＵＡの異常報知により新BPU2B のプリント
板を空スロットに挿入すると、新BPU2B 内の各ＭＰＵは
自己診断を実施し、適宜の時点で処理を旧BPU2Aから新B
PU2Bに移してBPU2B の３台のＭＰＵ（ＭＰＵＤ，ＭＰＵ
Ｅ，ＭＰＵＦ）の多数決結果による処理Ｄを実行する。
この処理引継ぎは、切りの良い時点または、修理保守時
期まで、当該ＢＰＵでの動作を継続させ、切りの良い時
点または、修理保守時期に当該ＢＰＵで実行した処理を
他の正常なＢＰＵに引き継がせれば良く、実際にはソフ
トウェアの都合で最も性能上望ましい時点で行うことが
できる。このようなタイミングとしては、タスク切替の
タイミングが一般的にはふさわしいことは明らかであ
る。なんとなれば、マルチプロセッサシステムにおける
プロセッサの切替とまったく同一手順でＢＰＵの切替が
可能であり、引き継ぎに伴う余分な性能上のオーバーヘ
ッドを０にすることが可能であるからである。このため
本発明によれば、フォールト発生時のチェックポイント
リスタートに備えてのバックアップ動作が不要となり、
処理性能を向上させることができる。

【００８２】なお、フォールトが発生した場合には、ハ
ードウェアはフォールトの発生状況をレジスタに記録
し、オペレーティングシステムはコンテクストスイッチ
時や修理保守のための割込み処理時にレジスタを参照
し、処理の引継ぎが必要な場合には、処理引継ぎ先のＢ
ＰＵに割込みなどで通知し、自ＢＰＵでの処理を終了す
る。ＢＰＵ２を構成する要素（ＭＰＵ，キャッシュメモ
リなど）の一部で故障が発生した場合、他の要素は正常
であっても、本方式では処理引継ぎ後には、他の正常な
要素も含めてＢＰＵ２全体の使用を中止する。

【００８３】図２２に、フォールトトレランスの為に冗
長化したＭＰＵＡ，ＭＰＵＢ，MPUCが故障などの原因で
障害をうけた場合の引継ぎ時の本発明方式と公知例との
構成の相違を模式的に示す。従来の方法では、障害をう
けたＭＰＵＡのみを正常なＭＰＵＤと交換する方法を採
っていた。これに対し、本発明による方法では、障害を
うけたＭＰＵＡだけでなく、正常なＭＰＵＢ，ＭＰＵＣ
も新たにＭＰＵＤ，ＭＰＵＥ，ＭＰＵＦと交換してい
る。以上の様にすることにより、フォールトトレランス
の為に冗長化したMPUの組合わせ、すなわちＭＰＵＡ，
ＭＰＵＢ，MPUCの組合わせを固定化することができる。
従ってＭＰＵの組合わせを交換単位にすれば、それぞれ
の組合わせを構成するＭＰＵ間を高速のクロックで結合
することができ、高速のフォールトトレラントコンピュ
ータを実現することができる。また従来のように、ＭＰ
Ｕの組替えに伴う種々のハードウェア，ソフトウェアが
不要である。

【００８４】なお、ＢＰＵは単一故障の場合には動作を
継続することができるので、この処理引継ぎは故障発生
後直ちに行う必要は無く、処理の切りの良い時点また
は、修理保守時に処理引継ぎを行えばよい。

【００８５】本実施例により処理を継続しながら、故障
の発生したＢＰＵ２０−１の配線基板を引き抜き正常な
配線基板を交換することができる。

【００８６】VII．各部回路の代案変形例以上、本発明について説明したが、本発明の各部回路等
は適宜変更して実現することができる。以下、これらの
代案，変形例について説明する。

【００８７】《多数決論理部》図２３は、図２の多数決論理回路部の組方と切替の様子
を、他の構成要件を省いて簡略化し理解しやすい形にし
て示したものであり、ＭＰＵＡとＭＰＵＣを出力専用に
固定化して用い、ＭＰＵＢをＭＰＵＡとＭＰＵＣの健全
性確認の参照用としてのみ用いるとともに、ＭＰＵＡあ
るいはＭＰＵＣの異常時には健全性の確認された方の一
つの出力を共通に用いて２組のキャッシュメモリに供給
するようにしたものである。この方式の場合、ＭＰＵの
出力が多数決回路を通らずに直接キャッシュメモリに入
力されるので、多数決回路での遅延時間の分キャッシュ
メモリアクセス時間を短縮できる。

【００８８】本発明においては、以上のようにして多数
決論理を用いて３重系を２重系に切替て運転継続するも
のであり、本発明の変形例としてはこの方式以外にも種
々のものとすることができる。例えば、図２５では３つ
のＭＰＵの出力を多数決選択回路２１０と２１１に夫々
与え、３つのＭＰＵの中から健全性の確認された１つの
出力を選択する。この場合、故障した方の多数決選択回
路に接続されているキャッシュメモリのデータが破壊さ
れるが、正常な多数決選択回路に接続されているキャッ
シュメモリのデータを用いて運転継続できる。

【００８９】また、図２４のようにＭＰＵの出力をゲー
ト回路，切替回路等を通さずに直接キャッシュメモリに
入力し、異常となったＭＰＵから信号を受けるキャッシ
ュメモリの動作を停止して以降そのデータを使用しない
ようにすれば、さらにゲート回路，切替回路等の遅延時
間の分キャッシュメモリアクセス時間を短縮することが
できる。しかも多くの信号線からなるアドレスバス，デ
ータバスの切替手段が不要となるのでハード量を減少さ
せることができる。

【００９０】図２６は４台のＭＰＵを備え、ＭＰＵＡと
ＭＰＵＣを出力専用に固定し、MPUBとＭＰＵＤをそれら
の参照用に用い、２組の出力一致により出力専用ＭＰＵ
の出力を夫々与えるものである。なお、ＭＰＵの異常時
には、健全側のものに切替て使用する方法とか、異常と
なったＭＰＵから信号を受けるキャッシュメモリの動作
を停止して以降そのデータを使用しないようにする方法
等で対応できる。

【００９１】《キャッシュデータのリードアクセス部》また、キャッシュメモリについてみると、キャッシュメ
モリ２２０，２２１の出力（データ）はパリティチェッ
クにより正常／異常が判断できるので、図２７のように
パリティチェック２５０により正常と判断されたキャッ
シュメモリの出力を切替手段２６０を通じてＭＰＵＡ，
ＭＰＵＢ，ＭＰＵＣに入力する。また、両方のキャッシ
ュメモリが正常である場合には、キャッシュメモリの主
系，従系を予め決めておき、主系の出力を選択すればよ
い。

【００９２】又、図２８のようにＭＰＵＡ，ＭＰＵＢは
接続するキャッシュをそれぞれキャッシュメモリを２２
０，２２１に固定しておきＭＰＵＢのみに選択したキャ
ッシュメモリの出力を入力してもよい。この場合、いず
れかのキャッシュメモリが故障しても３つのうちの２つ
のＭＰＵに正常な動作をさせることができ、しかもハー
ド量を削減することができる。

【００９３】

【発明の効果】本発明では、障害発生時にその一部を速
やかに切り離し、また必要に応じて復旧時にプロセッサ
の全てを新たな別のプロセッサ群に切替ることにより、
プロセッサの組替えに伴う種々の障害が排除される。

【図面の簡単な説明】

【図１】本発明の全体システム構成を示す図。

【図２】本発明のＢＰＵの構成を示す図。

【図３】ＭＰＵ出力チェック回路の一実施例図。

【図４】ライトアクセスでの異常時のＢＰＵの構成を示
す図。

【図５】リードアクセスでの異常時のＢＰＵの構成を示
す図。

【図６】バスサイクル制御フロー図。

【図７】ＭＰＵ正常時のＢＰＵ内の信号の流れを示す
図。

【図８】ＭＰＵ異常時のＢＰＵ内の信号の流れを示す
図。

【図９】ＭＰＵ正常時のＢＰＵ内の信号の流れを示す
図。

【図１０】アドレス信号異常時のＢＰＵ内の信号の流れ
を示す図。

【図１１】データ信号異常時のＢＰＵ内の信号の流れを
示す図。

【図１２】計算機盤構成を示す図。

【図１３】ＢＰＵ交換原理説明図。

【図１４】ＢＰＵ交換手順を示す図。

【図１５】新旧ＢＰＵの処理引継を示す図。

【図１６】マルチプロセッサ時のＢＰＵ交換原理説明
図。

【図１７】マルチプロセッサ時のＢＰＵ交換手順を示す
図。

【図１８】マルチプロセッサ時の新旧ＢＰＵ処理引継を
示す図。

【図１９】挿入ＢＰＵ故障時のＢＰＵ交換処理を示す
図。

【図２０】挿入ＢＰＵ故障時のＢＰＵ交換処理フロー
図。

【図２１】ＢＰＵ故障時の処理の引継ぎを示す図。

【図２２】ＢＰＵ故障時の処理の引継ぎを示す図。

【図２３】３ＭＰＵによる比較照合の実施例図。

【図２４】３ＭＰＵによる比較照合の他の実施例図。

【図２５】多数決方式の他の実施例図。

【図２６】４ＭＰＵによる比較照合の実施例図。

【図２７】キャッシュデータのリードアクセスを示す
図。

【図２８】キャッシュデータのリードアクセスの他の実
施例図。

【符号の説明】

１…システムバス、２…ＢＰＵ、１０，１１，１２，１
３，１４，１５…パリティ生成／照合回路、２０…ＭＰ
Ｕ、２３…ＭＰＵ出力チェック回路、２７…ＢＩＵ（バ
スインタフェースユニット）、３０，３１…パリティチ
ェック回路、２００乃至２０５，２６，２７，２９…３
ステートバッファ、２２０，２２１…キャッシュメモ
リ、２３４，２３５…エラーチェック回路。

───────────────────────────────────────────────────── フロントページの続き (72)発明者中村智明茨城県日立市大みか町五丁目２番１号株式会社日立製作所大みか工場内 (72)発明者丹治雅行茨城県日立市大みか町五丁目２番１号株式会社日立製作所大みか工場内 (72)発明者金子茂則茨城県日立市大みか町五丁目２番１号株式会社日立製作所大みか工場内 (72)発明者桝井晃二茨城県日立市大みか町五丁目２番１号株式会社日立製作所大みか工場内 (72)発明者飯島三朗茨城県日立市大みか町五丁目２番１号日立プロセスコンピュータエンジニアリング株式会社内 (72)発明者金川信康茨城県日立市久慈町4026番地株式会社日立製作所日立研究所内 (72)発明者山口伸一朗茨城県日立市久慈町4026番地株式会社日立製作所日立研究所内 (72)発明者小林芳樹茨城県日立市久慈町4026番地株式会社日立製作所日立研究所内 (56)参考文献特開昭57−182262（ＪＰ，Ａ) 特開昭63−298613（ＪＰ，Ａ) 特開平１−279331（ＪＰ，Ａ) 特開平２−202636（ＪＰ，Ａ) Ｙ．Ｙａｎｏ、外２名，“Ｖ60／70 ＭｉｃｒｏｐｒｏｃｅｓｓｏｒａｎｄｉｔｓＳｙｓｔｅｍｓＳｕｐｐｏｒｔＦｕｎｃｔｉｏｎｓ”，ＤｉｄｅｓｔｏｆＰａｐｅｒｓＣＯＭＰＣＯＮ，1988 Ｓｐｒｉｎｇ，ｐ．36−42 Ａ．Ｌ．Ｈｏｐｋｉｎｓ，Ｊｒ．、外２名，“ＦＴＭＰ−ＡＨｉｇｈｌｙＲｅｌｉａｂｌｅＦａｕｌｔ−ＴｏｌｅｒａｎｔＭｕｌｔｉｐｒｏｃｅｓｓｏｒｆｏｒＡｉｒｃｒａｆｔ”，ＰＲＯＣＥＥＤＩＮＧＳＯＦＴＨＥＩＥＥＥ，1978，第66巻，第10号，ｐ. 1221−1239 真島俊明、外１名，”デュアル構成密結合マルチプロセッサ”，電子情報通信学会誌，1990年11月，第73巻，第11号, ｐ．1179−1184 古城隆、外１名，“汎用マイクロプロセッサチップ”，電子情報通信学会誌, 1990年11月，第73巻，第11号，Ｐ．1222 −1227 河本恭彦、外４名，“Ｖ60／70マイクロプロセッサと高信頼化システム”，情報処理学会論文誌，1989年１月，第30 巻，第１号，ｐ．58−71 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 11/16 - 11/20 G06F 15/16 - 15/177

Claims

(57)【特許請求の範囲】

【請求項１】同一演算を行う少なくとも３つのプロセ
ッサを設けたプロセッサボードと、主記憶装置を設けた
主記憶ボードと、プロセッサボード及び主記憶ボードを
収納するスロット部と、該スロット部に収納したボード
の各種装置が接続されるシステムバスとを備えた高信頼
化コンピュータシステムの復旧方法において、障害発生時に、障害とされたプロセッサを有するプロセ
ッサボードの他の健全なプロセッサによる運転を継続
し、次に、新たなプロセッサボードをスロット部に挿入し、障害とされたプロセッサを有するプロセッサボードは、
新たなプロセッサボードの挿入を検知してプロセッサの
タスクを主記憶装置に退避し、挿入した新たなプロセッサボードのプロセッサが主記憶
装置に退避したタスクを実行することを特徴とする高信
頼化コンピュータシステムの復旧方法。
【請求項２】請求項１記載の高信頼化コンピュータシ
ステムの復旧方法において、上記高信頼化コンピュータシステムは、障害とされたプ
ロセッサを有するプロセッサボードのプロセッサのタス
クが主記憶装置に退避した後に、該プロセッサボードは
停止することを特徴とする高信頼化コンピュータシステ
ムの復旧方法。
【請求項３】システムバス上にボードを挿入する複数
スロットを備え、該スロットに主記憶装置のボードと、
同一演算を行う少なくとも３つのプロセッサを設けたプ
ロセッサボードとが挿入されて作動する高信頼化コンピ
ュータシステムの復旧方法において、一部プロセッサの故障による縮退運転状態からの復旧が
以下のようにして行われる高信頼化コンピュータシステ
ムの復旧方法。ａ．旧プロセッサボードが、空きスロットに新プロセッ
サボードの挿入を検知して実行中のタスクを主記憶装置
に退避する。ｂ．新プロセッサボードは、自己診断を実行し、正常な
場合のみ主記憶装置に退避されたタスクを実行する。ｃ．旧プロセッサボードを停止する。
【請求項４】同一の演算を行う少なくとも３つのプロ
セッサと、該プロセッサの出力の健全性を確認する確認
回路と、外部との入出力を行う複数のインタフェイスユ
ニットと、プロセッサでの演算に必要な情報を記憶する
複数のキャッシュメモリと、これらの間に設けられた内
部バスとが、一つのプロセッサボード上に設けられたプ
ロセッサボードの交換方法であって、障害発生時に、障害とされたプロセッサを有するプロセ
ッサボードの他の健全なプロセッサによる運転を継続
し、次に、新たなプロセッサボードを挿入し、障害とされたプロセッサを有するプロセッサボードは、
新たなプロセッサボードの挿入を検知してプロセッサの
タスクを外部に退避し、挿入した新たなプロセッサボードのプロセッサが退避し
たタスクを実行し、障害とされたプロセッサを有するプロセッサボードを抜
くことにより、プロセッサボードを単位として交換する
ことを特徴とするプロセッサボードの交換方法。
【請求項５】主記憶装置を設けた主記憶ボードと、プ
ロセッサボード及び主記憶ボードを収納するスロット部
と、該スロット部に収納したボードの各種装置が接続さ
れるシステムバスとで高信頼化コンピュータシステムを
構成するプロセッサボードであって、同一演算を行う少なくとも３つのプロセッサを搭載し、
障害発生時に、障害とされたプロセッサを有するプロセ
ッサボードの他の健全なプロセッサによる運転を継続
し、かつ、スロット部に新たなプロセッサボードが障害
発生後に挿入されたことを検知する手段と、新たなプロ
セッサボードの挿入を検知してプロセッサのタスクを外
部に退避させる手段とを備えることを特徴とするプロセ
ッサボード。
【請求項６】請求項５記載のプロセッサボードにおい
て、一のプロセッサの出力の健全性を確認できないと、障害
とされたプロセッサを除く他の健全なプロセッサの出力
を選択することにより運転を継続する手段を備えること
を特徴とするプロセッサボード。
【請求項７】請求項５又は６に記載のプロセッサボー
ドにおいて、タスクが外部に退避した後に、プロセッサボードを停止
する手段を備えることを特徴とするプロセッサボード。
【請求項８】同一演算を行う少なくとも３つのプロセ
ッサを設けたプロセッサボードと、主記憶装置を設けた
主記憶ボードと、プロセッサボード及び主記憶ボードを
収納するスロット部と、該スロット部に収納したボード
の各種装置が接続されるシステムバスとを備えた高信頼
化コンピュータシステムにおいて、障害発生時に、障害とされたプロセッサを有するプロセ
ッサボードの他の健全なプロセッサによる運転を継続す
る手段と、スロット部に新たなプロセッサボードが障害
発生後に挿入されたことを検知する手段と、新たなプロ
セッサボードの挿入を検知して障害とされたプロセッサ
を有するプロセッサボードのプロセッサのタスクを主記
憶装置に退避する手段とを備えることを特徴とする高信
頼化コンピュータシステム。
【請求項９】請求項８記載の高信頼化コンピュータシ
ステムにおいて、障害とされたプロセッサボードのタスクが主記憶装置に
退避した後に、障害が発生したプロセッサを有するプロ
セッサボードを停止する手段を備えることを特徴とする
高信頼化コンピュータシステム。