JPH07105037A - プロセッシングボード及び計算機及び障害復旧方法 - Google Patents
プロセッシングボード及び計算機及び障害復旧方法Info
- Publication number
- JPH07105037A JPH07105037A JP5253281A JP25328193A JPH07105037A JP H07105037 A JPH07105037 A JP H07105037A JP 5253281 A JP5253281 A JP 5253281A JP 25328193 A JP25328193 A JP 25328193A JP H07105037 A JPH07105037 A JP H07105037A
- Authority
- JP
- Japan
- Prior art keywords
- processing unit
- processing
- unit
- circuit
- majority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Hardware Redundancy (AREA)
Abstract
(57)【要約】
【目的】 計算機内の1つのモジュールに障害が発生し
ても、計算機として動作し続けるというフォールトトレ
ラント性を有しつつ、高い周波数で動作することを目的
とする。 【構成】 同一の命令を実行し、各々キャッシュメモリ
をもつ少なくとも3台のプロセッシングユニットと、該
プロセッシングユニットのうち1つを選択し、かつ外部
と入出力のインタフェースをとる多数決ユニットと、全
てのプロセッシングユニットと多数決ユニットを接続す
るプロセッサバスとを備えたプロセッシングボードをも
つ高信頼化計算機。また、上記プロセッシングユニット
と、システムバスと、システムバスに接続された主記憶
と、同じくシステムバスに接続された入出力バスアダプ
タと、各入出力バスアダプタに接続されるI/Oバス
と、各I/Oバスに接続されるI/O装置を備えた高信
頼化計算機。
ても、計算機として動作し続けるというフォールトトレ
ラント性を有しつつ、高い周波数で動作することを目的
とする。 【構成】 同一の命令を実行し、各々キャッシュメモリ
をもつ少なくとも3台のプロセッシングユニットと、該
プロセッシングユニットのうち1つを選択し、かつ外部
と入出力のインタフェースをとる多数決ユニットと、全
てのプロセッシングユニットと多数決ユニットを接続す
るプロセッサバスとを備えたプロセッシングボードをも
つ高信頼化計算機。また、上記プロセッシングユニット
と、システムバスと、システムバスに接続された主記憶
と、同じくシステムバスに接続された入出力バスアダプ
タと、各入出力バスアダプタに接続されるI/Oバス
と、各I/Oバスに接続されるI/O装置を備えた高信
頼化計算機。
Description
【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、多重化による高信頼
化計算機において、障害発生時に、システムとして処理
を続行可能ならしめるフォールトトレラント計算機に関
するものである。なお、この発明に関係する特許出願と
して同一出願人による特願平5−130724号の「多
数決回路」がある。
化計算機において、障害発生時に、システムとして処理
を続行可能ならしめるフォールトトレラント計算機に関
するものである。なお、この発明に関係する特許出願と
して同一出願人による特願平5−130724号の「多
数決回路」がある。
【0002】
【従来の技術】フォールトトレラント計算機の分野にお
いて、計算機の信頼性を高める方法として、故障率の高
いモジュールを多重化し、あるモジュールが故障しても
残りのモジュールで正しい動作を行う方式が一般的にと
られている。この、多重化の範囲はCPU、メモリ、バ
スなどであり、これらに種々のエラーチェック機能を付
加して、高信頼化を行っている。
いて、計算機の信頼性を高める方法として、故障率の高
いモジュールを多重化し、あるモジュールが故障しても
残りのモジュールで正しい動作を行う方式が一般的にと
られている。この、多重化の範囲はCPU、メモリ、バ
スなどであり、これらに種々のエラーチェック機能を付
加して、高信頼化を行っている。
【0003】従来例として、例えば、図27に示すよう
に特開昭58−137054号に示す「高信頼性ディジ
タルデータプロセッサ」(USP No.465485
7に対応する日本出願)では、プロセッシングボード、
主記憶、入出力制御装置が、通称ペア&スペアとよばれ
る二重化された2枚のボードで構成され(プロセッシン
グユニットとしては、全体で4個のプロセッサを必要と
する)、完全に同期動作を行う。各ボード内では、出力
段の比較照合を行い、一致しなければ、そのボードは故
障したものとみなし、外部バスへのアクセスをしない。
故障したボードの情報はスペア側に伝えられ、スペア側
のみでシステムは動作を実行し続けることができる。
に特開昭58−137054号に示す「高信頼性ディジ
タルデータプロセッサ」(USP No.465485
7に対応する日本出願)では、プロセッシングボード、
主記憶、入出力制御装置が、通称ペア&スペアとよばれ
る二重化された2枚のボードで構成され(プロセッシン
グユニットとしては、全体で4個のプロセッサを必要と
する)、完全に同期動作を行う。各ボード内では、出力
段の比較照合を行い、一致しなければ、そのボードは故
障したものとみなし、外部バスへのアクセスをしない。
故障したボードの情報はスペア側に伝えられ、スペア側
のみでシステムは動作を実行し続けることができる。
【0004】以下にこのシステムの構成上の特徴につい
て記述する。 (1)ペア&スペア方式 ・各機能装置はバックアップ冗長パートナを持ってい
る。 ・各機能装置は自分自身での故障検出能力がある。 (2)バス構成 ・各機能装置は二重化バス(A及びB)と、共通バス
(X)で接続される。 ・各機能装置は共通バス(X)から供給される同一のク
ロックで完全同期動作を行う。 ・各機能装置はパートナと一緒に二重化バスに同じ信号
を同時にドライブする。 (3)バス監視機構 ・記憶装置上で二重化バスの監視(データの比較及び、
パリティチェック)を行っている。 (4)電源 ・電源は二重化され、それぞれ別の経路で二重化された
CPUやメモリに供給される。 ・それぞれのCPU、メモリやIOCは独立したDC/
DCコンパータを搭載している。 ・また電源検出回路及びクランプ回路を持っており、電
圧が規定値以下になるとそれぞれのバス出力を抑止す
る。
て記述する。 (1)ペア&スペア方式 ・各機能装置はバックアップ冗長パートナを持ってい
る。 ・各機能装置は自分自身での故障検出能力がある。 (2)バス構成 ・各機能装置は二重化バス(A及びB)と、共通バス
(X)で接続される。 ・各機能装置は共通バス(X)から供給される同一のク
ロックで完全同期動作を行う。 ・各機能装置はパートナと一緒に二重化バスに同じ信号
を同時にドライブする。 (3)バス監視機構 ・記憶装置上で二重化バスの監視(データの比較及び、
パリティチェック)を行っている。 (4)電源 ・電源は二重化され、それぞれ別の経路で二重化された
CPUやメモリに供給される。 ・それぞれのCPU、メモリやIOCは独立したDC/
DCコンパータを搭載している。 ・また電源検出回路及びクランプ回路を持っており、電
圧が規定値以下になるとそれぞれのバス出力を抑止す
る。
【0005】図28はこのシステムにおける障害回復処
理の流れを示す図である。ST901においては、正常
動作の場合を示している。即ち、各パートナどうしは完
全同期動作を行っている。その結果、二重化されたバス
には各パートナ双方からデータの入出力が行われる。次
に、ST902においては、各パートナの内部の二重化
モジュールが比較回路によて比較され、正常動作を行っ
ているかどうかがチェックされる。この正常動作のチェ
ックにより異常が発見された場合、ST903において
故障したパートナはバスへの出力を停止する。その結
果、ST904に示すように一方の正常に動作するパー
トナによる動作が継続される。次に、ST905におい
ては、故障したモジュールの交換が行われる。ST90
6においては、正常動作を行っているモジュールから交
換された新しいモジュールへ状態コピーが行われ、その
後2つのパートナは完全同期動作する。即ち、ST90
1の状態に戻る。
理の流れを示す図である。ST901においては、正常
動作の場合を示している。即ち、各パートナどうしは完
全同期動作を行っている。その結果、二重化されたバス
には各パートナ双方からデータの入出力が行われる。次
に、ST902においては、各パートナの内部の二重化
モジュールが比較回路によて比較され、正常動作を行っ
ているかどうかがチェックされる。この正常動作のチェ
ックにより異常が発見された場合、ST903において
故障したパートナはバスへの出力を停止する。その結
果、ST904に示すように一方の正常に動作するパー
トナによる動作が継続される。次に、ST905におい
ては、故障したモジュールの交換が行われる。ST90
6においては、正常動作を行っているモジュールから交
換された新しいモジュールへ状態コピーが行われ、その
後2つのパートナは完全同期動作する。即ち、ST90
1の状態に戻る。
【0006】また、図29に示すように特開平2−20
2636号に示す「フォールトトレラントが機能を備え
たコンピュータ」(USP No.5193175に対
応する日本出願)では、同一周波数だが位相が異なるク
ロックで各々動作する3つの独立したプロセッシングボ
ードで構成され、各プロセッシングボードは、プロセッ
サ、キャッシュメモリ、ローカルメモリから成る。各プ
ロセッシングボードは、グローバルメモリへのアクセス
時、及びサイクルカウンタと称するカウンタのオーバフ
ロー時に同期をとりながら動作する。
2636号に示す「フォールトトレラントが機能を備え
たコンピュータ」(USP No.5193175に対
応する日本出願)では、同一周波数だが位相が異なるク
ロックで各々動作する3つの独立したプロセッシングボ
ードで構成され、各プロセッシングボードは、プロセッ
サ、キャッシュメモリ、ローカルメモリから成る。各プ
ロセッシングボードは、グローバルメモリへのアクセス
時、及びサイクルカウンタと称するカウンタのオーバフ
ロー時に同期をとりながら動作する。
【0007】次に、このシステムの構成上の特徴につい
て以下に説明する。 (1)TMR(Triple Modular Red
undancy)方式 ・CPU、キャッシュ、ローカルメモリを1枚のCPU
ボードにし、3枚のCPUボードで1つのBPU(Ba
sic Processing Unit)を構成して
いる。 ・それぞれのCPUボードは独立クロックで動作する。 (2)バス構成 ・CPUボードとグローバルメモリを接続するバスを備
えている。 ・グローバルメモリとIOプロセッサを接続する二重化
入出力バスを備えている。 (3)多数決回路 ・グローバルメモリボードの中に多数決回路があり、グ
ローバルメモリアクセス時にCPUの動作がチェックさ
れる。 (4)同期化の方法が特徴的 ・CPU、グローバルメモリは非同期(別々のクロック
を持つ)で動作する。 ・緩やかな同期方式を実現している。例えば、グローバ
ルメモリのアクセス時やサイクルカウンタのオーバフロ
ー時に進んでいるCPUをストールさせる。
て以下に説明する。 (1)TMR(Triple Modular Red
undancy)方式 ・CPU、キャッシュ、ローカルメモリを1枚のCPU
ボードにし、3枚のCPUボードで1つのBPU(Ba
sic Processing Unit)を構成して
いる。 ・それぞれのCPUボードは独立クロックで動作する。 (2)バス構成 ・CPUボードとグローバルメモリを接続するバスを備
えている。 ・グローバルメモリとIOプロセッサを接続する二重化
入出力バスを備えている。 (3)多数決回路 ・グローバルメモリボードの中に多数決回路があり、グ
ローバルメモリアクセス時にCPUの動作がチェックさ
れる。 (4)同期化の方法が特徴的 ・CPU、グローバルメモリは非同期(別々のクロック
を持つ)で動作する。 ・緩やかな同期方式を実現している。例えば、グローバ
ルメモリのアクセス時やサイクルカウンタのオーバフロ
ー時に進んでいるCPUをストールさせる。
【0008】図30はこのシステムにおける障害回復処
理の流れを示す図である。ST911においては、3つ
のCPUがそれぞれ別なプロセッシングボードでそれぞ
れローカルメモリを用いて動作する。それぞれのプロセ
ッシングボードは、同一周波数であるが位相が異なるク
ロックで各々動作し、緩やかな同期動作を行う。ST9
12においては、これらCPUが外部にあるグローバル
メモリへのアクセス時に多数決回路で故障しているプロ
セッシングボードが存在するかどうかを判定する。も
し、多数決回路により故障しているプロセッシングボー
ドが存在していることが判明した場合には、ST913
において故障したCPUボードを切り離す。次に、ST
914において残りの2つのCPUボードを用いて運転
を継続する。次に、ST915において故障を起こした
CPUボードを交換する。次に、ST916において正
常に動作しているCPUにより自己のCPUボードのロ
ーカルメモリにあるデータをグローバルメモリへコピー
する。さらに、ST917において全てのCPUに対し
てソフトリセットをかけ、3つのCPUの命令の同期化
を行う。このソフトリセットにより、全てのCPUはグ
ローバルメモリから必要なデータをローカルメモリへコ
ピーする。そして、グローバルメモリから得た共通のデ
ータを用いて、3つのCPUが処理を続行する。
理の流れを示す図である。ST911においては、3つ
のCPUがそれぞれ別なプロセッシングボードでそれぞ
れローカルメモリを用いて動作する。それぞれのプロセ
ッシングボードは、同一周波数であるが位相が異なるク
ロックで各々動作し、緩やかな同期動作を行う。ST9
12においては、これらCPUが外部にあるグローバル
メモリへのアクセス時に多数決回路で故障しているプロ
セッシングボードが存在するかどうかを判定する。も
し、多数決回路により故障しているプロセッシングボー
ドが存在していることが判明した場合には、ST913
において故障したCPUボードを切り離す。次に、ST
914において残りの2つのCPUボードを用いて運転
を継続する。次に、ST915において故障を起こした
CPUボードを交換する。次に、ST916において正
常に動作しているCPUにより自己のCPUボードのロ
ーカルメモリにあるデータをグローバルメモリへコピー
する。さらに、ST917において全てのCPUに対し
てソフトリセットをかけ、3つのCPUの命令の同期化
を行う。このソフトリセットにより、全てのCPUはグ
ローバルメモリから必要なデータをローカルメモリへコ
ピーする。そして、グローバルメモリから得た共通のデ
ータを用いて、3つのCPUが処理を続行する。
【0009】さらに、図31に示すように特開平4−2
41039号に示す「高信頼化コンピュータシステム」
及び特開平4−241038号に示す「高信頼化コンピ
ュータシステムの復旧方法」では、同一プロセッシング
ボードに3つのプロセッサを実装し、同一クロックで完
全同期して動作する。該プロセッサのうち、選択回路に
より選択された2つの出力をそれぞれ外部に出力する。
プロセッサからキャッシュメモリや外部へのアクセス経
路は、選択回路の判定結果に従って内部バスのゲートの
開閉することで決定される。
41039号に示す「高信頼化コンピュータシステム」
及び特開平4−241038号に示す「高信頼化コンピ
ュータシステムの復旧方法」では、同一プロセッシング
ボードに3つのプロセッサを実装し、同一クロックで完
全同期して動作する。該プロセッサのうち、選択回路に
より選択された2つの出力をそれぞれ外部に出力する。
プロセッサからキャッシュメモリや外部へのアクセス経
路は、選択回路の判定結果に従って内部バスのゲートの
開閉することで決定される。
【0010】次に、このシステムにおける構成上の特徴
について以下に記述する。 (1)TPR方式 ・3つのCPUと2つのキャッシュをBPUと呼ぶ1つ
のボードに実装する。 ・真中のCPUはチェッカ用として動作する。 ・多数決により正常な2CPUの出力を選択する。 (2)バス構成 ・CPU、キャッシュ、入出力インタフェースを接続す
る内部バスを備えている。 ・BPUボード、主記憶、IOCを接続する二重化シス
テムバスを備えている。 (3)復旧方法が特徴 ・故障BPUの処理の引継ぎの為にマルチプロセッサ構
成が基本となっている。 ・復旧時にBPUボード単位で交換し、CPUの組替え
による障害を排除する。
について以下に記述する。 (1)TPR方式 ・3つのCPUと2つのキャッシュをBPUと呼ぶ1つ
のボードに実装する。 ・真中のCPUはチェッカ用として動作する。 ・多数決により正常な2CPUの出力を選択する。 (2)バス構成 ・CPU、キャッシュ、入出力インタフェースを接続す
る内部バスを備えている。 ・BPUボード、主記憶、IOCを接続する二重化シス
テムバスを備えている。 (3)復旧方法が特徴 ・故障BPUの処理の引継ぎの為にマルチプロセッサ構
成が基本となっている。 ・復旧時にBPUボード単位で交換し、CPUの組替え
による障害を排除する。
【0011】次に、図32はこのシステムにおける障害
の回復処理の流れを示す図である。ST921におい
て、3つのCPUが一枚のボード上で完全同期動作をし
ている。このシステムにおいては、多数決回路が2つの
CPUの出力を選択し外部に出力する。次に、ST92
2においては、多数決回路とパリティチェックに基づい
て、正常に動作しているCPUの判定を行う。ST92
2において故障したCPUが存在することが判明した場
合には、ST923において故障を起こしたCPU及び
/あるいは故障を起こしたキャッシュを切り離す。ST
924においては、残りの構成を用いて運転を継続す
る。次に、ST925において、現在実行中のタスクを
主記憶に退避させる。さらに、ST926においては、
新しいCPUボードを追加し、この新しいCPUボード
により、ST925で主記憶に退避した実行中のタスク
の継続処理を行う。次に、ST927において故障を起
こしたCPUボードの動作を停止させ取り外す。
の回復処理の流れを示す図である。ST921におい
て、3つのCPUが一枚のボード上で完全同期動作をし
ている。このシステムにおいては、多数決回路が2つの
CPUの出力を選択し外部に出力する。次に、ST92
2においては、多数決回路とパリティチェックに基づい
て、正常に動作しているCPUの判定を行う。ST92
2において故障したCPUが存在することが判明した場
合には、ST923において故障を起こしたCPU及び
/あるいは故障を起こしたキャッシュを切り離す。ST
924においては、残りの構成を用いて運転を継続す
る。次に、ST925において、現在実行中のタスクを
主記憶に退避させる。さらに、ST926においては、
新しいCPUボードを追加し、この新しいCPUボード
により、ST925で主記憶に退避した実行中のタスク
の継続処理を行う。次に、ST927において故障を起
こしたCPUボードの動作を停止させ取り外す。
【0012】次に、図33は前述した3つの従来例によ
るシステムの障害の復旧前と復旧後の状態を示す図であ
る。図において、A,B,・・・,Fは、CPUを示し
ている。また、太い実線で示されたブロックはCPUを
搭載したボードを示している。図33(a)は第1番目
の従来例の場合を示しており、図33(b)は第2番目
の従来例を示しており、図33(c)は第3番目の従来
例の場合を示している。いずれの場合においてもCPU
Aが故障した場合を示している。図33(a)の場合
には、CPUAを搭載したプロセッシングボードを取り
替えることにより、CPU E,Fを搭載したプロセッ
シングボードを用いることになる。図33(b)の場合
には、CPU Aを搭載したボードの代わりにCPU
Dを搭載したボードが用いられる。図33(c)の場合
には、CPU Aを搭載したボードの代わりにCPU
D,E,Fを搭載した新しいプロセッシングボードが用
いられる。
るシステムの障害の復旧前と復旧後の状態を示す図であ
る。図において、A,B,・・・,Fは、CPUを示し
ている。また、太い実線で示されたブロックはCPUを
搭載したボードを示している。図33(a)は第1番目
の従来例の場合を示しており、図33(b)は第2番目
の従来例を示しており、図33(c)は第3番目の従来
例の場合を示している。いずれの場合においてもCPU
Aが故障した場合を示している。図33(a)の場合
には、CPUAを搭載したプロセッシングボードを取り
替えることにより、CPU E,Fを搭載したプロセッ
シングボードを用いることになる。図33(b)の場合
には、CPU Aを搭載したボードの代わりにCPU
Dを搭載したボードが用いられる。図33(c)の場合
には、CPU Aを搭載したボードの代わりにCPU
D,E,Fを搭載した新しいプロセッシングボードが用
いられる。
【0013】また、図34に示すように特開昭59−1
60899号に示された「メモリバックアップシステ
ム」(US Patent Application
No.282629に対応する日本出願)では、前記特
開昭58−137054号と同様のプロセッシングボー
ド2台から構成され、ボードPEには2つのプロセッシ
ングユニットを備えており、同一のクロックに同期して
出力段の比較照合を行っている。比較結果が一致しなけ
れば、そのボードは故障とみなし、外部バスと隔離し
て、前回のキャッシュメモリのフラッシュポイントから
別のプロセッシングボードが処理を再実行する。
60899号に示された「メモリバックアップシステ
ム」(US Patent Application
No.282629に対応する日本出願)では、前記特
開昭58−137054号と同様のプロセッシングボー
ド2台から構成され、ボードPEには2つのプロセッシ
ングユニットを備えており、同一のクロックに同期して
出力段の比較照合を行っている。比較結果が一致しなけ
れば、そのボードは故障とみなし、外部バスと隔離し
て、前回のキャッシュメモリのフラッシュポイントから
別のプロセッシングボードが処理を再実行する。
【0014】以下にこのシステムの構成上の特徴を記述
する。 (1)ペア&バックアップ方式 ・PEは2CPUとキャッシュメモリで構成され、2つ
のインタフェース部をもつ。 ・それぞれのCPUは同一クロックで同期動作を行い、
出力結果を比較している。 ・PEは故障を検出すると停止する。 (2)チェックポイントセーブ ・各PEは定期的(100mS)にメモリの状態ブロッ
クを更新する。 ・各タスクはタスクの切り替わり時にPE内部の全ての
状態を、メモリに退避している。 (3)メモリの状態 ・メモリバス及びメモリは二重化されており、それぞれ
エラー検出できるが、1つのトランザクションでは片側
のバスを使用し、片側のメモリのみアクセスする。 ・片側の書き込みが正常に終了するともう一方にも書き
込む。 ・従ってどちらか片方は常に正しい状態を保持してい
る。
する。 (1)ペア&バックアップ方式 ・PEは2CPUとキャッシュメモリで構成され、2つ
のインタフェース部をもつ。 ・それぞれのCPUは同一クロックで同期動作を行い、
出力結果を比較している。 ・PEは故障を検出すると停止する。 (2)チェックポイントセーブ ・各PEは定期的(100mS)にメモリの状態ブロッ
クを更新する。 ・各タスクはタスクの切り替わり時にPE内部の全ての
状態を、メモリに退避している。 (3)メモリの状態 ・メモリバス及びメモリは二重化されており、それぞれ
エラー検出できるが、1つのトランザクションでは片側
のバスを使用し、片側のメモリのみアクセスする。 ・片側の書き込みが正常に終了するともう一方にも書き
込む。 ・従ってどちらか片方は常に正しい状態を保持してい
る。
【0015】次に、図35はこのシステムの障害回復処
理の流れを示す図である。ST931においては、2つ
のCPU(PE)が同期動作を行い、前述した用に定期
的にチェックポイントセーブを行っている。次に、ST
932において、比較結果が一致しないPEが存在した
場合には、そのPEの動作を停止させる。次に、ST9
33において、正常に動作しているPEが故障起こして
動作を停止しているPEを発見する。ST934におい
ては、正常なPEは故障したPEがチェックポイントセ
ーブによりメモリに記憶した状態を取り出し、その状態
から再実行を行う。その後ST935においては、故障
を起こしたCPUボードを交換する。
理の流れを示す図である。ST931においては、2つ
のCPU(PE)が同期動作を行い、前述した用に定期
的にチェックポイントセーブを行っている。次に、ST
932において、比較結果が一致しないPEが存在した
場合には、そのPEの動作を停止させる。次に、ST9
33において、正常に動作しているPEが故障起こして
動作を停止しているPEを発見する。ST934におい
ては、正常なPEは故障したPEがチェックポイントセ
ーブによりメモリに記憶した状態を取り出し、その状態
から再実行を行う。その後ST935においては、故障
を起こしたCPUボードを交換する。
【0016】
【発明が解決しようとする課題】従来の技術によると、
1つの箇所が故障しても、正常に動作を続けるフォール
トトレラント計算機を実現するために、さまざまな方式
が考えられているが、以下の問題点があった。
1つの箇所が故障しても、正常に動作を続けるフォール
トトレラント計算機を実現するために、さまざまな方式
が考えられているが、以下の問題点があった。
【0017】上記従来例の特開昭58−137054号
では、故障CPUの交換時に引継ぎ処理が不要である
(S/Wのインパクトがほとんど無い)という長所があ
る。一方、プロセッシングボードがペア&スペアの2枚
で構成され(全体で4個のプロセッサが動作する)、完
全に同期動作を行うため、ボード間をクロックが渡り、
動作周波数を向上させることは困難であるという欠点が
ある。また、各プロセッシングボードに2個のCPUが
必要であり、合計で4個のプロセッサが必要であるとい
う欠点がある。
では、故障CPUの交換時に引継ぎ処理が不要である
(S/Wのインパクトがほとんど無い)という長所があ
る。一方、プロセッシングボードがペア&スペアの2枚
で構成され(全体で4個のプロセッサが動作する)、完
全に同期動作を行うため、ボード間をクロックが渡り、
動作周波数を向上させることは困難であるという欠点が
ある。また、各プロセッシングボードに2個のCPUが
必要であり、合計で4個のプロセッサが必要であるとい
う欠点がある。
【0018】また、上記従来例の特開平2−20263
6号では、同一周波数だが位相が異なるクロックで動作
する3つの独立したプロセッシングボードで構成され、
各CPUが疎同期で動作するため高速化に対応し易い。
また、CPU単位で交換可能であるという長所がある。
一方、お互いにメモリアクセス時に同期をとる必要があ
り、ロジックが複雑になり、メモリアクセスにオーバヘ
ッドがかかってしまうという欠点がある。また、これを
防ぐために各CPUボードにローカルメモリを実装する
のでメモリの部品数が多くなる。また、グローバルメモ
リに多数決回路が入っており、CPUと密接に接続され
ているため、グローバルメモリを増設することができな
い。また、CPUのH/W量が多いため故障CPUの復
帰に時間がかかる。さらに、マルチプロセッサ構成を実
現することができない(キャッシュのコヒーレンシが取
れない)という欠点がある。
6号では、同一周波数だが位相が異なるクロックで動作
する3つの独立したプロセッシングボードで構成され、
各CPUが疎同期で動作するため高速化に対応し易い。
また、CPU単位で交換可能であるという長所がある。
一方、お互いにメモリアクセス時に同期をとる必要があ
り、ロジックが複雑になり、メモリアクセスにオーバヘ
ッドがかかってしまうという欠点がある。また、これを
防ぐために各CPUボードにローカルメモリを実装する
のでメモリの部品数が多くなる。また、グローバルメモ
リに多数決回路が入っており、CPUと密接に接続され
ているため、グローバルメモリを増設することができな
い。また、CPUのH/W量が多いため故障CPUの復
帰に時間がかかる。さらに、マルチプロセッサ構成を実
現することができない(キャッシュのコヒーレンシが取
れない)という欠点がある。
【0019】さらに、上記従来例の特開平4−2410
39号では、キャッシュメモリが2つでよいという長所
がある。一方、同一プロセッシングボードに3つのプロ
セッサを実装し、同一クロックで完全同期して動作する
が、キャッシュメモリが2つしかないため、キャッシュ
メモリの2ビット以上のエラーが発生するとシステムの
誤動作につながるという欠点がある。また、キャッシュ
メモリへのアクセスの際、多数決結果とバス切り替えの
オーバヘッドのため、CPUの動作速度を上げた場合、
キャッシュヒット時でもウェイト動作が必要となるとい
う欠点がある。チェッカ用のCPUが故障した時動作は
続行可能だが、正常動作の保証は無い。
39号では、キャッシュメモリが2つでよいという長所
がある。一方、同一プロセッシングボードに3つのプロ
セッサを実装し、同一クロックで完全同期して動作する
が、キャッシュメモリが2つしかないため、キャッシュ
メモリの2ビット以上のエラーが発生するとシステムの
誤動作につながるという欠点がある。また、キャッシュ
メモリへのアクセスの際、多数決結果とバス切り替えの
オーバヘッドのため、CPUの動作速度を上げた場合、
キャッシュヒット時でもウェイト動作が必要となるとい
う欠点がある。チェッカ用のCPUが故障した時動作は
続行可能だが、正常動作の保証は無い。
【0020】また、上記従来例の特開昭59−1608
99号は、プロセッシングボードは独立クロックで動作
し、内部は2つのプロセッサで構成され、プロセッサ故
障時は、前回のキャッシュメモリのフラッシュタイミン
グで主記憶に格納された内容から別のプロセッシングボ
ードが処理を再実行するチェックポイント方式である。
この方式によれば、自己による故障検出能力があればよ
くH/Wは単純な構成でよい。一方、処理のオーバヘッ
ドがあるとともに、チェックポイントまで処理が後戻り
する欠点がある。また、S/W(特にOSの書換えが必
要)に負担が大きい。また、停止したPEを他のPEが
プログラムにより100mS間隔で検出するので、リア
ルタイム処理には向かない。
99号は、プロセッシングボードは独立クロックで動作
し、内部は2つのプロセッサで構成され、プロセッサ故
障時は、前回のキャッシュメモリのフラッシュタイミン
グで主記憶に格納された内容から別のプロセッシングボ
ードが処理を再実行するチェックポイント方式である。
この方式によれば、自己による故障検出能力があればよ
くH/Wは単純な構成でよい。一方、処理のオーバヘッ
ドがあるとともに、チェックポイントまで処理が後戻り
する欠点がある。また、S/W(特にOSの書換えが必
要)に負担が大きい。また、停止したPEを他のPEが
プログラムにより100mS間隔で検出するので、リア
ルタイム処理には向かない。
【0021】この発明は、上記のような問題点を解消す
るためになされたものであり、計算機内の1つのモジュ
ールに障害が発生しても、計算機として動作し続けると
いうフォールトトレラント性を有しつつ、高い周波数で
動作することを目的としており、さらに、プロセッシン
グユニット間の同期をとるための複雑なロジックを持た
ずにすむことを目的とし、さらに、キャッシュメモリを
含めたプロセッシングユニット全体の信頼性を向上させ
ることを目的とする。
るためになされたものであり、計算機内の1つのモジュ
ールに障害が発生しても、計算機として動作し続けると
いうフォールトトレラント性を有しつつ、高い周波数で
動作することを目的としており、さらに、プロセッシン
グユニット間の同期をとるための複雑なロジックを持た
ずにすむことを目的とし、さらに、キャッシュメモリを
含めたプロセッシングユニット全体の信頼性を向上させ
ることを目的とする。
【0022】
【課題を解決するための手段】第1の発明に係るプロセ
ッシングボードは、同一の命令を実行し、各々プロセッ
サとキャッシュメモリとをもつX個(X≧3)以上のプ
ロセッシングユニットと、該プロセッシングユニットの
うち1つを選択し、かつ外部と入出力のインタフェース
をとる多数決ユニットと、プロセッシングユニットと多
数決ユニットを接続するプロセッサバスとを備えたこと
を特徴とする。
ッシングボードは、同一の命令を実行し、各々プロセッ
サとキャッシュメモリとをもつX個(X≧3)以上のプ
ロセッシングユニットと、該プロセッシングユニットの
うち1つを選択し、かつ外部と入出力のインタフェース
をとる多数決ユニットと、プロセッシングユニットと多
数決ユニットを接続するプロセッサバスとを備えたこと
を特徴とする。
【0023】第2の発明に係るプロセッシングボード
は、さらに、同一クロック信号を各プロセッシングユニ
ットに供給するクロックを備えたことを特徴とする。
は、さらに、同一クロック信号を各プロセッシングユニ
ットに供給するクロックを備えたことを特徴とする。
【0024】第3の発明に係るプロセッシングボード
は、多数決ユニットを二重化したことを特徴とする。
は、多数決ユニットを二重化したことを特徴とする。
【0025】また、上記多数決ユニットは、プロセッシ
ングユニットからの信号を比較して1つの信号を多数決
信号として選択する多数決回路と、多数決回路により選
択された多数決信号と外部とのインタフェース機能をも
つ機能回路を備えていることを特徴とする。
ングユニットからの信号を比較して1つの信号を多数決
信号として選択する多数決回路と、多数決回路により選
択された多数決信号と外部とのインタフェース機能をも
つ機能回路を備えていることを特徴とする。
【0026】また、上記多数決ユニットは、さらに、上
記機能回路が上記多数決回路から次の多数決信号を受け
付け可能な場合に、上記プロセッシングユニットに応答
信号を出力する凍結回路を備えていることを特徴とす
る。
記機能回路が上記多数決回路から次の多数決信号を受け
付け可能な場合に、上記プロセッシングユニットに応答
信号を出力する凍結回路を備えていることを特徴とす
る。
【0027】また、上記多数決回路は、X個(X≧3)
のプロセッシングユニットからそれぞれ出力されるnビ
ット(n≧1)の信号を入力信号として入力し、異なる
Y個(X>Y≧2)のプロセッシングユニットを組み合
せ、各組み合せでそれぞれ入力信号を比較する比較手段
と、上記比較手段の比較結果に基づいて、上記X個のプ
ロセッシングユニットの信号の中から1個のプロセッシ
ングユニットの入力信号を選択して多数決信号として出
力する選択手段を備えたことを特徴とする。
のプロセッシングユニットからそれぞれ出力されるnビ
ット(n≧1)の信号を入力信号として入力し、異なる
Y個(X>Y≧2)のプロセッシングユニットを組み合
せ、各組み合せでそれぞれ入力信号を比較する比較手段
と、上記比較手段の比較結果に基づいて、上記X個のプ
ロセッシングユニットの信号の中から1個のプロセッシ
ングユニットの入力信号を選択して多数決信号として出
力する選択手段を備えたことを特徴とする。
【0028】また、上記多数決回路は、さらに、上記比
較手段の比較結果に基づいて、上記X個のプロセッシン
グユニットの中に故障したプロセッシングユニットが存
在することを判別するエラー判別手段を備えたことを特
徴とする。
較手段の比較結果に基づいて、上記X個のプロセッシン
グユニットの中に故障したプロセッシングユニットが存
在することを判別するエラー判別手段を備えたことを特
徴とする。
【0029】また、上記比較手段は、Y個のnビットで
構成される入力信号の対応する各ビットの一致を判定す
ることにより、Y個のプロセッシングユニットからの入
力信号の一致を示す比較結果を出力する複数の比較回路
を備えたことを特徴とする。
構成される入力信号の対応する各ビットの一致を判定す
ることにより、Y個のプロセッシングユニットからの入
力信号の一致を示す比較結果を出力する複数の比較回路
を備えたことを特徴とする。
【0030】また、上記凍結回路は、多数決回路による
プロセッシングユニットの信号の比較結果から故障のあ
るプロセッシングユニットを検出する障害検出回路と、
故障と判定されたプロセッシングユニットに対して応答
信号を返さないことにより、故障したプロセッシングユ
ニットの動作を一時的に凍結させる接続制御手段と、正
常なプロセッシングユニットに対して故障が発生したこ
とを伝える伝達手段を備えることを特徴とする。
プロセッシングユニットの信号の比較結果から故障のあ
るプロセッシングユニットを検出する障害検出回路と、
故障と判定されたプロセッシングユニットに対して応答
信号を返さないことにより、故障したプロセッシングユ
ニットの動作を一時的に凍結させる接続制御手段と、正
常なプロセッシングユニットに対して故障が発生したこ
とを伝える伝達手段を備えることを特徴とする。
【0031】また、上記凍結回路は、各プロセッシング
ユニットの接続を指定する接続レジスタを有し、1つの
プロセッシングユニットを単独で動作させる隔離動作手
段を備えたことを特徴とする。
ユニットの接続を指定する接続レジスタを有し、1つの
プロセッシングユニットを単独で動作させる隔離動作手
段を備えたことを特徴とする。
【0032】また、上記故障したプロセッシングユニッ
トは、上記隔離動作手段により単独で操作しながら自己
診断を行いその自己診断結果を保存する診断手段と、正
常なプロセッシングユニットは、保存された自己診断を
解析する解析手段を備えたことを特徴とする。
トは、上記隔離動作手段により単独で操作しながら自己
診断を行いその自己診断結果を保存する診断手段と、正
常なプロセッシングユニットは、保存された自己診断を
解析する解析手段を備えたことを特徴とする。
【0033】また、上記プロセッシングユニットは、上
記解析手段による解析結果に基づいて、故障したプロセ
ッシングユニットを正常なプロセッシングユニットに同
期させる同期手段をもつことを特徴とする。
記解析手段による解析結果に基づいて、故障したプロセ
ッシングユニットを正常なプロセッシングユニットに同
期させる同期手段をもつことを特徴とする。
【0034】また、上記プロセッシングボードは、上記
隔離動作手段により、リセット時のプロセッシングユニ
ットの自己診断をプロセッシングユニットごとに実施す
るセルフテスト手段を備えたことを特徴とする。
隔離動作手段により、リセット時のプロセッシングユニ
ットの自己診断をプロセッシングユニットごとに実施す
るセルフテスト手段を備えたことを特徴とする。
【0035】また、上記凍結回路は、上記診断手段によ
る故障したプロセッシングユニットの自己診断が一定時
間以内に終了しなかった場合、隔離動作手段による単独
動作をキャンセルすることにより故障したプロセッシン
グユニットの自己診断を終了させる診断監視手段を備え
たことを特徴とする。
る故障したプロセッシングユニットの自己診断が一定時
間以内に終了しなかった場合、隔離動作手段による単独
動作をキャンセルすることにより故障したプロセッシン
グユニットの自己診断を終了させる診断監視手段を備え
たことを特徴とする。
【0036】また、上記機能回路は、情報を記憶するメ
モリ空間を有する外部に接続された記憶部とのインタフ
ェースをとるとともに、上記診断手段が故障したプロセ
ッシングユニットの自己診断結果を記憶部へ書き込む場
合、書き込み先のメモリ空間を限定するチェック回路を
備えたことを特徴とする。
モリ空間を有する外部に接続された記憶部とのインタフ
ェースをとるとともに、上記診断手段が故障したプロセ
ッシングユニットの自己診断結果を記憶部へ書き込む場
合、書き込み先のメモリ空間を限定するチェック回路を
備えたことを特徴とする。
【0037】また、上記凍結回路は、上記診断処理によ
る故障したプロセッシングユニットの自己診断処理を時
分割して動作させることにより、正常なプロセッシング
ユニットの動作を一定時間以上停止させない診断分割手
段を備えたことを特徴とする。
る故障したプロセッシングユニットの自己診断処理を時
分割して動作させることにより、正常なプロセッシング
ユニットの動作を一定時間以上停止させない診断分割手
段を備えたことを特徴とする。
【0038】第17の発明に係る計算機は、上記プロセ
ッシングボードと、多数決ユニットに接続されるシステ
ムバスと、システムバスに接続される記憶部と、同じく
システムバスに接続される入出力バスアダプタと、入出
力バスアダプタに接続されるI/Oバスと、各I/Oバ
スに接続されるI/O装置を備えたことを特徴とする。
ッシングボードと、多数決ユニットに接続されるシステ
ムバスと、システムバスに接続される記憶部と、同じく
システムバスに接続される入出力バスアダプタと、入出
力バスアダプタに接続されるI/Oバスと、各I/Oバ
スに接続されるI/O装置を備えたことを特徴とする。
【0039】第18の発明に係るプロセッシングボード
は、さらに、多数決ユニットに接続され二重化されたシ
ステムバスと、各システムバスに接続される記憶部と、
同じく各システムバスに接続され外部と入出力のインタ
フェースをとるための二重化された入出力バスアダプタ
とを備えたことを特徴とする。
は、さらに、多数決ユニットに接続され二重化されたシ
ステムバスと、各システムバスに接続される記憶部と、
同じく各システムバスに接続され外部と入出力のインタ
フェースをとるための二重化された入出力バスアダプタ
とを備えたことを特徴とする。
【0040】第19の発明に係る計算機は、上記第18
の発明に係るプロセッシングボードと、入出力バスアダ
プタに接続されるI/Oバスと、I/Oバスに接続され
るI/O装置を備えたことを特徴とする。
の発明に係るプロセッシングボードと、入出力バスアダ
プタに接続されるI/Oバスと、I/Oバスに接続され
るI/O装置を備えたことを特徴とする。
【0041】第20の発明に係る障害復旧方法は、以下
の工程を有するものである。 (a)上記多数決ユニットによりプロセッシングユニッ
トの故障を検出し、故障したプロセッシングユニットの
動作を停止させる故障検出工程、(b)故障したプロセ
ッシングユニットを単独で動作させ自己診断を行わせる
故障診断工程、(c)故障診断工程による自己診断結果
に基づいて、上記故障したプロセッシングユニットを正
常なプロセッシングユニットに同期させて動作を再開さ
せる同期工程。
の工程を有するものである。 (a)上記多数決ユニットによりプロセッシングユニッ
トの故障を検出し、故障したプロセッシングユニットの
動作を停止させる故障検出工程、(b)故障したプロセ
ッシングユニットを単独で動作させ自己診断を行わせる
故障診断工程、(c)故障診断工程による自己診断結果
に基づいて、上記故障したプロセッシングユニットを正
常なプロセッシングユニットに同期させて動作を再開さ
せる同期工程。
【0042】また、上記プロセッシングボードは、プロ
セッシングユニットの接続を指定する制御レジスタを有
し、上記故障検出工程は上記制御レジスタに所定の値を
設定することにより、故障したプロセッシングユニット
の動作を停止させるレジスタ設定工程を有することを特
徴とする。
セッシングユニットの接続を指定する制御レジスタを有
し、上記故障検出工程は上記制御レジスタに所定の値を
設定することにより、故障したプロセッシングユニット
の動作を停止させるレジスタ設定工程を有することを特
徴とする。
【0043】また、上記プロセッシングボードは、プロ
セッシングユニットの接続を指定する制御レジスタを有
し、上記故障診断工程は上記制御レジスタに所定の値を
設定することにより、故障したプロセッシングユニット
を単独で動作させるレジスタ設定工程を有することを特
徴とする。
セッシングユニットの接続を指定する制御レジスタを有
し、上記故障診断工程は上記制御レジスタに所定の値を
設定することにより、故障したプロセッシングユニット
を単独で動作させるレジスタ設定工程を有することを特
徴とする。
【0044】また、上記プロセッシングボードは、プロ
セッシングユニットの接続を指定する制御レジスタを有
し、上記同期工程は上記制御レジスタに所定の値を設定
することにより、故障したプロセッシングユニットと正
常なプロセッシングユニットの同期をとるレジスタ設定
工程を有することを特徴とする。
セッシングユニットの接続を指定する制御レジスタを有
し、上記同期工程は上記制御レジスタに所定の値を設定
することにより、故障したプロセッシングユニットと正
常なプロセッシングユニットの同期をとるレジスタ設定
工程を有することを特徴とする。
【0045】
【作用】この発明に係るプロセッシングユニットは、高
い周波数で動作させるために、複数のプロセッシングユ
ニットを1枚のプロセッシングボードに実装したもので
ある。また、キャシュメモリの内容を含めた動作結果の
多数決による比較照合を可能にし、計算機の信頼性を向
上させるものである。また、比較照合結果によるキャシ
ュメモリへのバス切り替えのオーバヘッドをなくし、高
い周波数で動作させるために、複数のプロセッシングユ
ニットごとにキャッシュメモリを持つものである。さら
に、同一のクロックでボード間をクロックが渡ることな
く、動作するものである。
い周波数で動作させるために、複数のプロセッシングユ
ニットを1枚のプロセッシングボードに実装したもので
ある。また、キャシュメモリの内容を含めた動作結果の
多数決による比較照合を可能にし、計算機の信頼性を向
上させるものである。また、比較照合結果によるキャシ
ュメモリへのバス切り替えのオーバヘッドをなくし、高
い周波数で動作させるために、複数のプロセッシングユ
ニットごとにキャッシュメモリを持つものである。さら
に、同一のクロックでボード間をクロックが渡ることな
く、動作するものである。
【0046】上記多数決ユニットは、多数決の結果不一
致を検出した場合、故障したプロセッシングユニットを
以後の多数決の対象から切り離すと同時に、対応するプ
ロセッシングユニットに応答信号を返さないことによ
り、故障したプロセッシングユニットの動作を一時的に
凍結させる。
致を検出した場合、故障したプロセッシングユニットを
以後の多数決の対象から切り離すと同時に、対応するプ
ロセッシングユニットに応答信号を返さないことによ
り、故障したプロセッシングユニットの動作を一時的に
凍結させる。
【0047】故障したプロセッシングユニットの障害原
因を知るために、また修理箇所の特定、あるいは再度同
期動作に復旧可能か否かを知るために、接続レジスタに
プロセッシングユニットの接続を指定することにより、
故障したプロセッシングユニットを隔離動作させる。
因を知るために、また修理箇所の特定、あるいは再度同
期動作に復旧可能か否かを知るために、接続レジスタに
プロセッシングユニットの接続を指定することにより、
故障したプロセッシングユニットを隔離動作させる。
【0048】故障したプロセッシングの処理が完了する
と、接続レジスタへの書き込み動作を行うことにより、
自動的に接続セーブフラグの状態に戻り、確実に正常な
プロセッシングユニットの動作状態に戻る。
と、接続レジスタへの書き込み動作を行うことにより、
自動的に接続セーブフラグの状態に戻り、確実に正常な
プロセッシングユニットの動作状態に戻る。
【0049】また、隔離動作を監視し、自動的に正常な
プロセッシングユニットの凍結状態を解除し、計算機全
体がロック状態になることを防止する。
プロセッシングユニットの凍結状態を解除し、計算機全
体がロック状態になることを防止する。
【0050】また、故障したプロセッシングユニット
が、隔離動作中にアクセスすることができるアドレス空
間を制限し、故障したプロセッシングユニットの誤動作
による正常なプロセッシングユニットの計算機資源(主
メモリなど)の破壊を防止する。
が、隔離動作中にアクセスすることができるアドレス空
間を制限し、故障したプロセッシングユニットの誤動作
による正常なプロセッシングユニットの計算機資源(主
メモリなど)の破壊を防止する。
【0051】また、故障したプロセッシングユニットの
動作を分割して一定間隔ごとに一定時間許可することに
より、故障したプロセッシングユニットの動作による、
正常なプロセッシングユニットの動作停止時間を、一定
時間以下に限定する。
動作を分割して一定間隔ごとに一定時間許可することに
より、故障したプロセッシングユニットの動作による、
正常なプロセッシングユニットの動作停止時間を、一定
時間以下に限定する。
【0052】また、故障したプロセッシングユニットな
らびに正常なプロセッシングユニットを共に論理的に接
続し、しかも制御レジスタのセットを、故障したプロセ
ッシングユニットと正常なプロセッシングユニットの同
期処理の最後で、同一命令列を実行することにより、故
障したプロセッシングユニットを再同期させる。
らびに正常なプロセッシングユニットを共に論理的に接
続し、しかも制御レジスタのセットを、故障したプロセ
ッシングユニットと正常なプロセッシングユニットの同
期処理の最後で、同一命令列を実行することにより、故
障したプロセッシングユニットを再同期させる。
【0053】また、電源投入時の自己診断処理を隔離モ
ードで実行させることにより、電源投入時に計算機がハ
ングアップすることを防止する。
ードで実行させることにより、電源投入時に計算機がハ
ングアップすることを防止する。
【0054】以上のように、プロセッシングボード単体
を十分な信頼性を持たせ、これを既存のI/Oバスにそ
のまま挿入することで、I/Oを除いた部分を二重化す
ることができる。
を十分な信頼性を持たせ、これを既存のI/Oバスにそ
のまま挿入することで、I/Oを除いた部分を二重化す
ることができる。
【0055】
実施例1. [全体構成]図1は、本発明の第1実施例に係る高信頼
化計算機の全体構成を示すブロック図である。
化計算機の全体構成を示すブロック図である。
【0056】このブロック図において、プロセッシング
ボード125は、3個の同一のプロセッサ104を実装
している。3個のプロセッサ104は同一クロック11
3で完全同期して動作する。3個のプロセッサ104と
3個のキャッシュメモリ107は、それぞれ専用バス1
10で接続されている。プロセッサ104とキャッシュ
メモリ107と専用バス110の組み合せにより、各
々、プロセッシングユニット1−1(CPU#A、また
はプロセッシングユニットAと称する)、プロセッシン
グユニット1−2(CPU#B、またはプロセッシング
ユニットBと称する)、プロセッシングユニット1−3
(CPU#C、またはプロセッシングユニットCと称す
る)を構成する。各プロセッシングユニットは、プロセ
ッサバス121を介して、2重化された多数決ユニット
135と接続される。多数決ユニット135は、キャッ
シュメモリ107を含めたプロセッシングユニットから
の出力の多数決をとる。また、2重化されたシステムバ
ス141とのインタフェースを司り、プロセッシングユ
ニットに対する応答制御を行う。2つのシステムバス1
41には、それぞれ主記憶装置143と入出力バスアダ
プタ145が接続されている。2つの入出力バスアダプ
タ145には、それぞれI/Oバス147が接続され、
各I/Oバス147にはI/O装置149が接続され
る。このようにこのシステムでは、2重化構成をとる。
ボード125は、3個の同一のプロセッサ104を実装
している。3個のプロセッサ104は同一クロック11
3で完全同期して動作する。3個のプロセッサ104と
3個のキャッシュメモリ107は、それぞれ専用バス1
10で接続されている。プロセッサ104とキャッシュ
メモリ107と専用バス110の組み合せにより、各
々、プロセッシングユニット1−1(CPU#A、また
はプロセッシングユニットAと称する)、プロセッシン
グユニット1−2(CPU#B、またはプロセッシング
ユニットBと称する)、プロセッシングユニット1−3
(CPU#C、またはプロセッシングユニットCと称す
る)を構成する。各プロセッシングユニットは、プロセ
ッサバス121を介して、2重化された多数決ユニット
135と接続される。多数決ユニット135は、キャッ
シュメモリ107を含めたプロセッシングユニットから
の出力の多数決をとる。また、2重化されたシステムバ
ス141とのインタフェースを司り、プロセッシングユ
ニットに対する応答制御を行う。2つのシステムバス1
41には、それぞれ主記憶装置143と入出力バスアダ
プタ145が接続されている。2つの入出力バスアダプ
タ145には、それぞれI/Oバス147が接続され、
各I/Oバス147にはI/O装置149が接続され
る。このようにこのシステムでは、2重化構成をとる。
【0057】[書き込み動作]3個のプロセッシングユ
ニットは、主記憶装置への書き込み動作を行う時、多数
決ユニット135−1ないし135−2に対して書き込
み先のアドレスと書き込みデータを送出し、多数決ユニ
ット135−1ないし135−2で比較照合される。プ
ロセッシングユニット1−1ないし1−3のうち、多数
決ユニット135−1にて正しい動作であることが保証
された1つのプロセッシングユニットが選択される。こ
の選択されたプロセッシングユニットのアドレスとデー
タが、システムバス141−1を経由して、主記憶装置
143−1に出力される。同様に、プロセッシングユニ
ット1−1ないし1−3のうち、多数決ユニット135
−2にて正しい動作であることが保証された1つのプロ
セッシングユニットが選択される。この選択されたプロ
セッシングユニットのアドレスとデータが、システムバ
ス141−2を経由して、主記憶装置143−2に対し
て出力され、主記憶装置143−1と同一データが書き
込まれる。
ニットは、主記憶装置への書き込み動作を行う時、多数
決ユニット135−1ないし135−2に対して書き込
み先のアドレスと書き込みデータを送出し、多数決ユニ
ット135−1ないし135−2で比較照合される。プ
ロセッシングユニット1−1ないし1−3のうち、多数
決ユニット135−1にて正しい動作であることが保証
された1つのプロセッシングユニットが選択される。こ
の選択されたプロセッシングユニットのアドレスとデー
タが、システムバス141−1を経由して、主記憶装置
143−1に出力される。同様に、プロセッシングユニ
ット1−1ないし1−3のうち、多数決ユニット135
−2にて正しい動作であることが保証された1つのプロ
セッシングユニットが選択される。この選択されたプロ
セッシングユニットのアドレスとデータが、システムバ
ス141−2を経由して、主記憶装置143−2に対し
て出力され、主記憶装置143−1と同一データが書き
込まれる。
【0058】[読み込み動作]3個のプロセッシングユ
ニット1は、主記憶装置から読み込み動作を行う時、多
数決ユニット135−1ないし135−2に対して読み
込み先のアドレスを送出する。送出された読み込み先の
アドレスは、多数決ユニット135−1ないし135−
2で比較照合される。プロセッシングユニット1−1な
いし1−3のうち、多数決ユニット135−1にて正し
い動作であることが保証された1つのプロセッシングユ
ニットが選択される。この選択されたプロセッシングユ
ニットのアドレスが、システムバス141−1を経由し
て、主記憶装置143−1に送出され、主記憶装置14
3−1の該当データが多数決ユニット135−1に返送
される。同様に、プロセッシングユニット1−1ないし
1−3のうち、多数決ユニット135−2にて正しい動
作であることが保証された1つのプロセッシングユニッ
トが選択される。この選択されたプロセッシングユニッ
トのアドレスが、システムバス141−2を経由して、
主記憶装置143−2に送出され、主記憶装置143−
2の該当データが多数決ユニット135−1に返送され
る。この時、多数決ユニット135−1及び135−2
のどちらがプロセッシングユニット1−1ないし1−3
に該当データを返送するかという選択は、電源投入時に
あらかじめどちらか一方に固定されているものとする。
その後選択されている多数決ユニットにて障害が発生し
た場合、他方の多数決ユニットが選択され、処理を継続
することができる。このように、2つの主記憶装置14
3−1ないし143−2はともに同一データをそれぞれ
システムバス141−1ないし141−2経由で、2つ
の多数決ユニット135−1ないし135−2にそれぞ
れ返送し、選択されたどちらか一方の多数決ユニットか
らのデータが、プロセッサバス121を経て各プロセッ
シングユニットに読み込まれる。
ニット1は、主記憶装置から読み込み動作を行う時、多
数決ユニット135−1ないし135−2に対して読み
込み先のアドレスを送出する。送出された読み込み先の
アドレスは、多数決ユニット135−1ないし135−
2で比較照合される。プロセッシングユニット1−1な
いし1−3のうち、多数決ユニット135−1にて正し
い動作であることが保証された1つのプロセッシングユ
ニットが選択される。この選択されたプロセッシングユ
ニットのアドレスが、システムバス141−1を経由し
て、主記憶装置143−1に送出され、主記憶装置14
3−1の該当データが多数決ユニット135−1に返送
される。同様に、プロセッシングユニット1−1ないし
1−3のうち、多数決ユニット135−2にて正しい動
作であることが保証された1つのプロセッシングユニッ
トが選択される。この選択されたプロセッシングユニッ
トのアドレスが、システムバス141−2を経由して、
主記憶装置143−2に送出され、主記憶装置143−
2の該当データが多数決ユニット135−1に返送され
る。この時、多数決ユニット135−1及び135−2
のどちらがプロセッシングユニット1−1ないし1−3
に該当データを返送するかという選択は、電源投入時に
あらかじめどちらか一方に固定されているものとする。
その後選択されている多数決ユニットにて障害が発生し
た場合、他方の多数決ユニットが選択され、処理を継続
することができる。このように、2つの主記憶装置14
3−1ないし143−2はともに同一データをそれぞれ
システムバス141−1ないし141−2経由で、2つ
の多数決ユニット135−1ないし135−2にそれぞ
れ返送し、選択されたどちらか一方の多数決ユニットか
らのデータが、プロセッサバス121を経て各プロセッ
シングユニットに読み込まれる。
【0059】[通常動作]図2は、本発明の第1実施例
に係る高信頼化計算機において、多数決ユニットの内部
構成を示す図である。
に係る高信頼化計算機において、多数決ユニットの内部
構成を示す図である。
【0060】プロセッサバス121は、入力信号31な
いし33と出力信号171ないし173と応答信号16
1ないし163等を転送する。入力信号31ないし33
は、プロセッシングユニットから多数決ユニット135
に送られる入力信号である。入力信号は、例えばアドレ
ス信号、データ信号、リードライト信号等から構成され
ている。出力信号171ないし173は、多数決ユニッ
ト135から、プロセッシングユニットに送られる出力
信号である。応答信号161ないし163は、多数決ユ
ニット135が処理を終了した時、プロセッシングユニ
ットに対して返す応答される信号である。
いし33と出力信号171ないし173と応答信号16
1ないし163等を転送する。入力信号31ないし33
は、プロセッシングユニットから多数決ユニット135
に送られる入力信号である。入力信号は、例えばアドレ
ス信号、データ信号、リードライト信号等から構成され
ている。出力信号171ないし173は、多数決ユニッ
ト135から、プロセッシングユニットに送られる出力
信号である。応答信号161ないし163は、多数決ユ
ニット135が処理を終了した時、プロセッシングユニ
ットに対して返す応答される信号である。
【0061】3個のプロセッシングユニットからの入力
信号31ないし33は、多数決回路2にて比較照合され
る。多数決回路2にて正しい動作であることが保証され
た1つの入力信号が多数決信号7として選択される。多
数決信号7はシステムバスとのインタフェース機能をも
つ機能回路14に送られる。機能回路14は、多数決信
号7の情報をもとに、処理の内容を解読し、主記憶装置
143や、I/O装置149に対して書き込み動作また
は読み込み動作を行う。また、機能回路14は、プロセ
ッシングユニットに対して、次の処理の受け付け可能な
状態になった時、内部応答信号254を凍結回路202
に送る。内部応答信号254を受信した凍結回路202
は、プロセッシングユニット1−1ないし1−3に対し
て、それぞれ応答信号161ないし163を送る。プロ
セッシングユニットは応答信号161ないし163の受
信により1つの処理を完結する。
信号31ないし33は、多数決回路2にて比較照合され
る。多数決回路2にて正しい動作であることが保証され
た1つの入力信号が多数決信号7として選択される。多
数決信号7はシステムバスとのインタフェース機能をも
つ機能回路14に送られる。機能回路14は、多数決信
号7の情報をもとに、処理の内容を解読し、主記憶装置
143や、I/O装置149に対して書き込み動作また
は読み込み動作を行う。また、機能回路14は、プロセ
ッシングユニットに対して、次の処理の受け付け可能な
状態になった時、内部応答信号254を凍結回路202
に送る。内部応答信号254を受信した凍結回路202
は、プロセッシングユニット1−1ないし1−3に対し
て、それぞれ応答信号161ないし163を送る。プロ
セッシングユニットは応答信号161ないし163の受
信により1つの処理を完結する。
【0062】[多数決回路]図3は、本発明の第1実施
例に係る多数決回路の全体構成を示すブロック図であ
る。
例に係る多数決回路の全体構成を示すブロック図であ
る。
【0063】プロセッシングユニット1−1ないし1−
3から多数決回路2へ入力される入力信号31ないし3
3は、比較回路41ないし43と選択手段6に供給され
る。選択回路6は比較回路41ないし43の比較結果信
号51ないし53により入力信号31ないし33のいず
れかを多数決信号7として選択する。さらにエラー判別
回路8は比較結果信号51ないし53を評価して故障を
検出する。
3から多数決回路2へ入力される入力信号31ないし3
3は、比較回路41ないし43と選択手段6に供給され
る。選択回路6は比較回路41ないし43の比較結果信
号51ないし53により入力信号31ないし33のいず
れかを多数決信号7として選択する。さらにエラー判別
回路8は比較結果信号51ないし53を評価して故障を
検出する。
【0064】図4は、図3中の比較回路41の構成を示
す図である。図中入力信号31−1ないし31−nはプ
ロセッシングユニット1−1から多数決回路2へ入力さ
れる入力信号31をビット対応に表現した信号である。
同様に入力信号32−1ないし32−nはプロセッシン
グユニット1−2から多数決回路2へ入力される入力信
号32をビット対応に表現した信号である。反転型排他
的論理和回路(EXNOR回路)44−1ないし44−
nはプロセッシングユニットの入力信号31及び32を
ビット単位で比較する。反転型排他的論理和回路(EX
NOR回路)において、入力信号が一致すると出力は
“1”になる。また論理積回路(AND回路)45はn
ビットの論理積をとる。論理積回路(AND回路)でn
ビットの全ての入力信号が“1”の時出力は“1”とな
る。この出力は比較結果信号51として出力される。こ
のように比較回路41はプロセッシングユニット1−1
からのnビットの入力信号31とプロセッシングユニッ
ト1−2からのnビットの入力信号32を比較し比較結
果信号51を出力する。同様に比較回路42はプロセッ
シングユニット1−2からのnビットの入力信号32と
プロセッシングユニット1−3のnビットの入力信号3
3を比較し比較結果信号52を出力する。比較回路43
はプロセッシングユニット1−3からのnビットの入力
信号33とプロセッシングユニット1−1からのnビッ
トの入力信号31を比較し比較信号53を出力する。
す図である。図中入力信号31−1ないし31−nはプ
ロセッシングユニット1−1から多数決回路2へ入力さ
れる入力信号31をビット対応に表現した信号である。
同様に入力信号32−1ないし32−nはプロセッシン
グユニット1−2から多数決回路2へ入力される入力信
号32をビット対応に表現した信号である。反転型排他
的論理和回路(EXNOR回路)44−1ないし44−
nはプロセッシングユニットの入力信号31及び32を
ビット単位で比較する。反転型排他的論理和回路(EX
NOR回路)において、入力信号が一致すると出力は
“1”になる。また論理積回路(AND回路)45はn
ビットの論理積をとる。論理積回路(AND回路)でn
ビットの全ての入力信号が“1”の時出力は“1”とな
る。この出力は比較結果信号51として出力される。こ
のように比較回路41はプロセッシングユニット1−1
からのnビットの入力信号31とプロセッシングユニッ
ト1−2からのnビットの入力信号32を比較し比較結
果信号51を出力する。同様に比較回路42はプロセッ
シングユニット1−2からのnビットの入力信号32と
プロセッシングユニット1−3のnビットの入力信号3
3を比較し比較結果信号52を出力する。比較回路43
はプロセッシングユニット1−3からのnビットの入力
信号33とプロセッシングユニット1−1からのnビッ
トの入力信号31を比較し比較信号53を出力する。
【0065】図5は、図3中のエラー判別回路8の構成
を示す図である。3入力反転型論理和回路(NOR回
路)81は比較結果信号51ないし53が全て“0”の
時二重故障信号10を“1”にして出力する。また3入
力論理積回路82は比較結果信号51ないし53のいず
れかが“0”の時に“0”を出力する。さらに2入力N
OR回路83は、二重故障信号10が“0”でかつ3入
力AND回路82の出力が“0”の時に、単一故障信号
9を“1”にして出力する。
を示す図である。3入力反転型論理和回路(NOR回
路)81は比較結果信号51ないし53が全て“0”の
時二重故障信号10を“1”にして出力する。また3入
力論理積回路82は比較結果信号51ないし53のいず
れかが“0”の時に“0”を出力する。さらに2入力N
OR回路83は、二重故障信号10が“0”でかつ3入
力AND回路82の出力が“0”の時に、単一故障信号
9を“1”にして出力する。
【0066】図6は、図3中の選択回路6の構成を示す
図である。2入力AND回路61ないし63の片方の入
力には3つのプロセッシングユニットからの出力がそれ
ぞれ入力され、もう一方の入力には比較結果信号51な
いし53が入力される。比較結果信号51ないし53が
“1”であれば対応するプロセッシングユニットの出力
信号が、3入力OR回路64を介して多数決信号7とし
て出力される。
図である。2入力AND回路61ないし63の片方の入
力には3つのプロセッシングユニットからの出力がそれ
ぞれ入力され、もう一方の入力には比較結果信号51な
いし53が入力される。比較結果信号51ないし53が
“1”であれば対応するプロセッシングユニットの出力
信号が、3入力OR回路64を介して多数決信号7とし
て出力される。
【0067】図7は、図3の多数決回路における入力信
号と比較結果信号及び出力信号を表わすものである。こ
こでは、説明を簡単にするため、プロセッシングユニッ
トの出力信号が2ビット(n=2)で構成されている場
合を示している。AないしCはそれぞれプロセッシング
ユニット1−1ないし1−3の出力信号すなわち多数決
回路2への入力信号31ないし33を示している。A
B,BC,CAは比較結果信号51ないし53を示して
いる。Vは多数決信号7を示している。ESは単一故障
信号9を示している。EMは二重故障信号10を示して
いる。
号と比較結果信号及び出力信号を表わすものである。こ
こでは、説明を簡単にするため、プロセッシングユニッ
トの出力信号が2ビット(n=2)で構成されている場
合を示している。AないしCはそれぞれプロセッシング
ユニット1−1ないし1−3の出力信号すなわち多数決
回路2への入力信号31ないし33を示している。A
B,BC,CAは比較結果信号51ないし53を示して
いる。Vは多数決信号7を示している。ESは単一故障
信号9を示している。EMは二重故障信号10を示して
いる。
【0068】次に、以上のように構成された多数決回路
の動作について説明する。主に比較回路41、選択回路
6、エラー判別回路8の動作について図7を参照しなが
ら、図4、図5、図6を用いて説明する。
の動作について説明する。主に比較回路41、選択回路
6、エラー判別回路8の動作について図7を参照しなが
ら、図4、図5、図6を用いて説明する。
【0069】図7における第1列及び第2列は、3つの
プロセッシングユニットの出力が全て等しい場合であ
る。この場合、比較回路41の内部にある2入力EXN
OR回路44−1ないし44−nの出力は全て“1”に
なる。従ってAND回路45の出力信号すなわち比較結
果信号51は“1”を出力する。同様に比較結果信号5
2及び比較結果信号53も“1”を出力する。
プロセッシングユニットの出力が全て等しい場合であ
る。この場合、比較回路41の内部にある2入力EXN
OR回路44−1ないし44−nの出力は全て“1”に
なる。従ってAND回路45の出力信号すなわち比較結
果信号51は“1”を出力する。同様に比較結果信号5
2及び比較結果信号53も“1”を出力する。
【0070】また、選択回路6に入力される比較結果信
号51ないし53は前述のように全て“1”であるか
ら、2入力AND回路61−1ないし61−n,62−
1ないし62−n,63−1ないし63−nは、入力信
号31−1ないし31−n,32−1ないし32−n,
33−1ないし33−nをそのまま出力信号として出力
する。これらの出力信号は3入力OR回路64−1ない
し64−nを介して多数決信号7−1ないし7−nとし
て出力される。
号51ないし53は前述のように全て“1”であるか
ら、2入力AND回路61−1ないし61−n,62−
1ないし62−n,63−1ないし63−nは、入力信
号31−1ないし31−n,32−1ないし32−n,
33−1ないし33−nをそのまま出力信号として出力
する。これらの出力信号は3入力OR回路64−1ない
し64−nを介して多数決信号7−1ないし7−nとし
て出力される。
【0071】また、エラー判別回路8において3入力N
OR回路81の出力信号(すなわち二重故障信号10)
は“0”になる。また、3入力AND回路82の出力信
号は“1”になる。このため2入力NOR回路83の出
力信号(すなわち単一故障信号9)は“0”になる。
OR回路81の出力信号(すなわち二重故障信号10)
は“0”になる。また、3入力AND回路82の出力信
号は“1”になる。このため2入力NOR回路83の出
力信号(すなわち単一故障信号9)は“0”になる。
【0072】次に、図7における第3列は、3つのプロ
セッシングユニットの出力の中で1つのプロセッシング
ユニット1−1の出力だけが異なる場合である。この場
合、比較回路41の比較結果信号51及び比較回路43
の比較結果信号53が“0”になる。比較回路42の比
較結果信号52は“1”になる。この時、選択回路6は
2入力AND回路62−1ないし62−nに入力されて
いる入力信号32−1ないし32−nをそのまま出力す
る。2入力AND回路61及び63からは常に“0”が
出力される。従って3入力OR回路64−1ないし64
−nの出力信号としては、入力信号32−1ないし32
−nがそのまま出力される。すなわち、プロセッシング
ユニット1−2の出力が多数決信号7−1ないし7−n
として選択される。
セッシングユニットの出力の中で1つのプロセッシング
ユニット1−1の出力だけが異なる場合である。この場
合、比較回路41の比較結果信号51及び比較回路43
の比較結果信号53が“0”になる。比較回路42の比
較結果信号52は“1”になる。この時、選択回路6は
2入力AND回路62−1ないし62−nに入力されて
いる入力信号32−1ないし32−nをそのまま出力す
る。2入力AND回路61及び63からは常に“0”が
出力される。従って3入力OR回路64−1ないし64
−nの出力信号としては、入力信号32−1ないし32
−nがそのまま出力される。すなわち、プロセッシング
ユニット1−2の出力が多数決信号7−1ないし7−n
として選択される。
【0073】また、エラー判別回路8では3入力NOR
回路81の出力信号(すなわち二重故障信号10)は
“0”になる。3入力AND回路82の出力信号は
“0”になる。このため2入力NOR回路83の出力信
号(すなわち単一故障信号9)は“1”になる。
回路81の出力信号(すなわち二重故障信号10)は
“0”になる。3入力AND回路82の出力信号は
“0”になる。このため2入力NOR回路83の出力信
号(すなわち単一故障信号9)は“1”になる。
【0074】なお、図7における第6列は3つのプロセ
ッシングユニットの出力の中で1つのプロセッシングユ
ニット1−3の出力だけが異なる場合である。この場合
は、プロセッシングユニット1−3の出力が多数決信号
7−1ないし7−nとして選択される。その他の点につ
いては、第3列の場合と同様である。
ッシングユニットの出力の中で1つのプロセッシングユ
ニット1−3の出力だけが異なる場合である。この場合
は、プロセッシングユニット1−3の出力が多数決信号
7−1ないし7−nとして選択される。その他の点につ
いては、第3列の場合と同様である。
【0075】次に、図7における第4列、5列及び7列
は、3つのプロセッシングユニットからの入力信号31
ないし33が全て異なる場合である。この場合、比較回
路41ないし43の比較結果信号は51ないし53が全
て“0”になる。この比較結果信号51ないし53は選
択回路6に入力される。比較結果信号51ないし53は
全て“0”であるから、2AND回路61−1ないし6
1−n,62−1ないし62−n,63−1ないし63
−nは、入力信号31−1ないし31−n,32−1な
いし32−n,33−1ないし33−nの内容にかかわ
らず全て“0”を出力する。従って、3入力OR回路6
4−1ないし64−nから出力される多数決信号7−1
ないし7−nは全て“0”として出力される。
は、3つのプロセッシングユニットからの入力信号31
ないし33が全て異なる場合である。この場合、比較回
路41ないし43の比較結果信号は51ないし53が全
て“0”になる。この比較結果信号51ないし53は選
択回路6に入力される。比較結果信号51ないし53は
全て“0”であるから、2AND回路61−1ないし6
1−n,62−1ないし62−n,63−1ないし63
−nは、入力信号31−1ないし31−n,32−1な
いし32−n,33−1ないし33−nの内容にかかわ
らず全て“0”を出力する。従って、3入力OR回路6
4−1ないし64−nから出力される多数決信号7−1
ないし7−nは全て“0”として出力される。
【0076】また、エラー判別回路8では3入力NOR
回路81の出力信号(すなわち二重故障信号10)は
“1”になる。3入力AND回路82の出力信号は
“0”になる。このため2入力NOR回路83の出力信
号(すなわち単一故障信号9)は“0”になる。
回路81の出力信号(すなわち二重故障信号10)は
“1”になる。3入力AND回路82の出力信号は
“0”になる。このため2入力NOR回路83の出力信
号(すなわち単一故障信号9)は“0”になる。
【0077】このように、比較回路で3つのプロセッシ
ングユニット出力の中から2つずつのプロセッシングユ
ニットの組み合わせで比較し、その比較結果信号を選択
回路及びエラー判別回路に入力する。選択回路では比較
結果信号に従って出力すべきプロセッシングユニットの
信号を選択する。全てのプロセッシングユニットの出力
が異なる時、選択回路は信号を出力しない。エラー判別
回路では比較結果信号を解析し該プロセッシングユニッ
トの故障状況を出力することによりプロセッシングユニ
ット二重故障の検出ができる。
ングユニット出力の中から2つずつのプロセッシングユ
ニットの組み合わせで比較し、その比較結果信号を選択
回路及びエラー判別回路に入力する。選択回路では比較
結果信号に従って出力すべきプロセッシングユニットの
信号を選択する。全てのプロセッシングユニットの出力
が異なる時、選択回路は信号を出力しない。エラー判別
回路では比較結果信号を解析し該プロセッシングユニッ
トの故障状況を出力することによりプロセッシングユニ
ット二重故障の検出ができる。
【0078】従って、1つのプロセッシングユニットが
故障した場合は正しいプロセッシングユニットを特定し
てその出力を選択出力できる。また、複数のプロセッシ
ングユニットが故障した場合は二重故障として検出でき
る。なお、二重故障信号10は図2に示す例においては
使用しないため、図2に示した多数決回路2からの出力
信号の中には記載していない。
故障した場合は正しいプロセッシングユニットを特定し
てその出力を選択出力できる。また、複数のプロセッシ
ングユニットが故障した場合は二重故障として検出でき
る。なお、二重故障信号10は図2に示す例においては
使用しないため、図2に示した多数決回路2からの出力
信号の中には記載していない。
【0079】[障害検出/切り離し]多数決回路2に
て、誤動作していると判定されたプロセッシングユニッ
トは、一時的に処理が凍結される。凍結されたプロセッ
シングユニットシステム全体の処理の中で影響の無い時
に、故障原因を特定するための自己診断処理を実行す
る。自己診断の結果が良好であり復旧可能と考えられる
場合は、復帰のための処理を実行し再度3つのプロセッ
シングユニットによる同期動作が再開する。
て、誤動作していると判定されたプロセッシングユニッ
トは、一時的に処理が凍結される。凍結されたプロセッ
シングユニットシステム全体の処理の中で影響の無い時
に、故障原因を特定するための自己診断処理を実行す
る。自己診断の結果が良好であり復旧可能と考えられる
場合は、復帰のための処理を実行し再度3つのプロセッ
シングユニットによる同期動作が再開する。
【0080】このようにして、1個のプロセッシングユ
ニットが誤動作しても、プロセッシングボード125と
しては正常動作が継続される。
ニットが誤動作しても、プロセッシングボード125と
しては正常動作が継続される。
【0081】図2において、1つの入力信号が他の2つ
の入力信号と異なった時、多数決回路2により故障した
プロセッシングユニットを特定し、このプロセッシング
ユニットを以後の多数決の対象から切り離すと同時に、
凍結回路202は、故障したプロセッシングユニットへ
の応答信号を返さないことにより、故障したプロセッシ
ングユニットの動作を一時的に凍結させる。
の入力信号と異なった時、多数決回路2により故障した
プロセッシングユニットを特定し、このプロセッシング
ユニットを以後の多数決の対象から切り離すと同時に、
凍結回路202は、故障したプロセッシングユニットへ
の応答信号を返さないことにより、故障したプロセッシ
ングユニットの動作を一時的に凍結させる。
【0082】この時、多数決回路2は、単一故障が発生
したことを、単一故障信号9にて機能回路14に伝え
る。
したことを、単一故障信号9にて機能回路14に伝え
る。
【0083】図8に機能回路14の内部構造を示す。機
能回路14は割込制御回路180を備えている。割込制
御回路180は凍結回路202によって、故障している
と判定されたプロセッシングユニットが凍結されたこと
を他の正常動作を行っているプロセッシングユニットに
伝えるものである。割込制御回路180はドライブ回路
181を経由して、出力信号171ないし173に割込
情報を出力し、プロセッシングユニットに割り込みを発
生させる。このようにして、故障したプロセッシングユ
ニットが多数決回路から切り離され、凍結されたこと
を、正常動作を続行している他の2個のプロセッシング
ユニットに伝えることができる。
能回路14は割込制御回路180を備えている。割込制
御回路180は凍結回路202によって、故障している
と判定されたプロセッシングユニットが凍結されたこと
を他の正常動作を行っているプロセッシングユニットに
伝えるものである。割込制御回路180はドライブ回路
181を経由して、出力信号171ないし173に割込
情報を出力し、プロセッシングユニットに割り込みを発
生させる。このようにして、故障したプロセッシングユ
ニットが多数決回路から切り離され、凍結されたこと
を、正常動作を続行している他の2個のプロセッシング
ユニットに伝えることができる。
【0084】また、機能回路14は、アドレスラッチ回
路128とストローブ信号生成回路183を備えてい
る。アドレスラッチ回路128は、多数決信号7に含ま
れているアドレスをラッチする回路である。ストローブ
信号生成回路183は、凍結回路に設けられたフラグに
割り当てられたアドレスに対する書き込み指示が合った
場合に、制御書き込み信号256を生成する。即ち、ス
トローブ信号生成回路183は、アドレスラッチ回路1
28がラッチしたアドレスが凍結回路202に存在する
フラグに割り当てられたアドレスであり、かつ、そのア
ドレスへの書き込み指示の場合に多数決信号7に含まれ
ているデータを用いて、フラグセットを指示するストロ
ーブ信号256を生成する。
路128とストローブ信号生成回路183を備えてい
る。アドレスラッチ回路128は、多数決信号7に含ま
れているアドレスをラッチする回路である。ストローブ
信号生成回路183は、凍結回路に設けられたフラグに
割り当てられたアドレスに対する書き込み指示が合った
場合に、制御書き込み信号256を生成する。即ち、ス
トローブ信号生成回路183は、アドレスラッチ回路1
28がラッチしたアドレスが凍結回路202に存在する
フラグに割り当てられたアドレスであり、かつ、そのア
ドレスへの書き込み指示の場合に多数決信号7に含まれ
ているデータを用いて、フラグセットを指示するストロ
ーブ信号256を生成する。
【0085】さらに、機能回路14は、システムバス制
御回路184を備えている。システムバス104を備え
ている。システムバス制御回路184は、システムバス
141とのインタフェースを司るものである。システム
バス制御回路は、システムバス141を介して、主記憶
装置143あるいは入出力バスアダプタに対して、入出
力処理を実行することを指示する。そして、これら主記
憶装置143あるいは入出力バスアダプタ145からの
処理終了をシステムバス141を介して認識すると、内
部応答信号254を生成して凍結回路202に出力す
る。この内部応答信号254は、次の処理の受け付けが
可能な状態になったことを示す信号であり、凍結回路2
02により応答信号として、各プロセッシングユニット
1−1ないし1−3に対して送られる。
御回路184を備えている。システムバス104を備え
ている。システムバス制御回路184は、システムバス
141とのインタフェースを司るものである。システム
バス制御回路は、システムバス141を介して、主記憶
装置143あるいは入出力バスアダプタに対して、入出
力処理を実行することを指示する。そして、これら主記
憶装置143あるいは入出力バスアダプタ145からの
処理終了をシステムバス141を介して認識すると、内
部応答信号254を生成して凍結回路202に出力す
る。この内部応答信号254は、次の処理の受け付けが
可能な状態になったことを示す信号であり、凍結回路2
02により応答信号として、各プロセッシングユニット
1−1ないし1−3に対して送られる。
【0086】[切り離し/隔離動作]図9は、凍結回路
202の内部構造を示す図である。凍結回路202にお
いて、接続フラグ70は論理的に、どのプロセッシング
ユニットが接続されているかを示す3ビットのフラグで
ある。接続フラグ70の各ビットは、それぞれプロセッ
シングユニット1−1ないし1−3が多数決ユニット1
35に論理的に接続されているか否かを示している。接
続フラグ70−n(n=1ないし3)は、それぞれプロ
セッシングユニット1−n(n=1ないし3)に対応す
る接続フラグを示す。接続セーブフラグ240は、接続
フラグにデータが書き込まれるたびに、直前の接続フラ
グの内容を保持しておく3ビットのフラグである。接続
セーブフラグ240−n(n=1ないし3)は、それぞ
れプロセッシングユニット1−n(n=1ないし3)に
対応する接続フラグを示す。隔離フラグ213は、2つ
以上のプロセッシングユニットが同期して動作している
(同期モードと呼ぶ)のではなく、1つのプロセッシン
グユニットが単独で動作しているモード(隔離モードと
呼ぶ)であることを示す1ビットのフラグである。AN
D回路251は、図8におけるシステムバスとのインタ
フェースを司るシステムバス制御回路184から出力さ
れ、プロセッシングユニットに対して、次の処理の受け
付け可能な状態になったことを示す内部応答信号254
と、接続フラグ70の出力とのAND条件をとり、プロ
セッサバス121における3本の応答信号161ないし
163を出力する。各応答信号161ないし163は、
それぞれプロセッシングユニットA、プロセッシングユ
ニットB、及びプロセッシングユニットCに出力され
る。データ信号220−nは、図8における多数決回路
2の出力である多数決信号7のうち、データを転送する
ために用いるデータ信号220を、ビット対応に表現し
た信号である。選択回路255は、接続セーブフラグ2
40−n(n=1ないし3)の出力と、データ信号22
0−n(n=1ないし3)のいずれかを隔離フラグ21
3の出力により選択する。AND回路257は、隔離フ
ラグ213の出力とプロセッシングユニットからのデー
タ信号220−4とのAND条件をとる。制御書き込み
信号256は、接続フラグ70、接続セーブフラグ24
0及び隔離フラグ213への書き込みを指示する。制御
書き込み信号は、図8におけるアドレスラッチ回路18
2の出力であるアドレス情報をデコードして生成される
ストローブ信号である。リセット信号258は、電源投
入時など、システムリセットが発生した時出力される。
強制割込フラグ214は、プロセッシングユニット1−
1ないし1−3のそれぞれに対してマスク不可能な強制
割込を発生させるフラグである。強制割込フラグは機能
回路14を経由して、各プロセッシングユニットそれぞ
れに対して強制割込を発生させる強制割込信号221を
出力する。強制割込信号221−n(n=1ないし3)
は、それぞれ割込を発生させる対象となるプロセッシン
グユニット1−n(n=1ないし3)に対応する強制割
込信号を示す。障害検出回路260は、図3における多
数決回路2からの出力である比較結果信号51ないし5
3を入力とし、プロセッシングユニットAに対するエラ
ー検出信号(EA*:負論理)261、プロセッシング
ユニットBに対するエラー検出信号(EB*:負論理)
262、及びプロセッシングユニットCに対するエラー
検出信号(EC*:負論理)263を出力する。図10
に、障害検出回路260の真理値表を示す。例えば、第
6列について説明すると、入力として、プロセッシング
ユニットBとCの比較結果のみが一致しているため、プ
ロセッシングユニットAが故障していると考えられる。
よって、プロセッシングユニットAに対するエラー検出
信号(EA*)261のみが“0”(負論理)となり、
他のプロセッシングユニットBに対するエラー検出信号
(EB*)262、及びプロセッシングユニットCに対
するエラー検出信号(EC*)263はともに“1”
(負論理)となって出力される。
202の内部構造を示す図である。凍結回路202にお
いて、接続フラグ70は論理的に、どのプロセッシング
ユニットが接続されているかを示す3ビットのフラグで
ある。接続フラグ70の各ビットは、それぞれプロセッ
シングユニット1−1ないし1−3が多数決ユニット1
35に論理的に接続されているか否かを示している。接
続フラグ70−n(n=1ないし3)は、それぞれプロ
セッシングユニット1−n(n=1ないし3)に対応す
る接続フラグを示す。接続セーブフラグ240は、接続
フラグにデータが書き込まれるたびに、直前の接続フラ
グの内容を保持しておく3ビットのフラグである。接続
セーブフラグ240−n(n=1ないし3)は、それぞ
れプロセッシングユニット1−n(n=1ないし3)に
対応する接続フラグを示す。隔離フラグ213は、2つ
以上のプロセッシングユニットが同期して動作している
(同期モードと呼ぶ)のではなく、1つのプロセッシン
グユニットが単独で動作しているモード(隔離モードと
呼ぶ)であることを示す1ビットのフラグである。AN
D回路251は、図8におけるシステムバスとのインタ
フェースを司るシステムバス制御回路184から出力さ
れ、プロセッシングユニットに対して、次の処理の受け
付け可能な状態になったことを示す内部応答信号254
と、接続フラグ70の出力とのAND条件をとり、プロ
セッサバス121における3本の応答信号161ないし
163を出力する。各応答信号161ないし163は、
それぞれプロセッシングユニットA、プロセッシングユ
ニットB、及びプロセッシングユニットCに出力され
る。データ信号220−nは、図8における多数決回路
2の出力である多数決信号7のうち、データを転送する
ために用いるデータ信号220を、ビット対応に表現し
た信号である。選択回路255は、接続セーブフラグ2
40−n(n=1ないし3)の出力と、データ信号22
0−n(n=1ないし3)のいずれかを隔離フラグ21
3の出力により選択する。AND回路257は、隔離フ
ラグ213の出力とプロセッシングユニットからのデー
タ信号220−4とのAND条件をとる。制御書き込み
信号256は、接続フラグ70、接続セーブフラグ24
0及び隔離フラグ213への書き込みを指示する。制御
書き込み信号は、図8におけるアドレスラッチ回路18
2の出力であるアドレス情報をデコードして生成される
ストローブ信号である。リセット信号258は、電源投
入時など、システムリセットが発生した時出力される。
強制割込フラグ214は、プロセッシングユニット1−
1ないし1−3のそれぞれに対してマスク不可能な強制
割込を発生させるフラグである。強制割込フラグは機能
回路14を経由して、各プロセッシングユニットそれぞ
れに対して強制割込を発生させる強制割込信号221を
出力する。強制割込信号221−n(n=1ないし3)
は、それぞれ割込を発生させる対象となるプロセッシン
グユニット1−n(n=1ないし3)に対応する強制割
込信号を示す。障害検出回路260は、図3における多
数決回路2からの出力である比較結果信号51ないし5
3を入力とし、プロセッシングユニットAに対するエラ
ー検出信号(EA*:負論理)261、プロセッシング
ユニットBに対するエラー検出信号(EB*:負論理)
262、及びプロセッシングユニットCに対するエラー
検出信号(EC*:負論理)263を出力する。図10
に、障害検出回路260の真理値表を示す。例えば、第
6列について説明すると、入力として、プロセッシング
ユニットBとCの比較結果のみが一致しているため、プ
ロセッシングユニットAが故障していると考えられる。
よって、プロセッシングユニットAに対するエラー検出
信号(EA*)261のみが“0”(負論理)となり、
他のプロセッシングユニットBに対するエラー検出信号
(EB*)262、及びプロセッシングユニットCに対
するエラー検出信号(EC*)263はともに“1”
(負論理)となって出力される。
【0087】以下、接続フラグ70、隔離フラグ21
3、及び強制割込発生フラグ214をまとめて、制御レ
ジスタ271と称する。この制御レジスタ271は、所
定のアドレスを有しているものとする。図11は、凍結
回路202に関する、プロセッシングユニットからみた
7ビットの制御レジスタ271のビット割り付けを示
す。ビット1からビット3は、3ビットの接続フラグ7
0の各ビットに対応し、それぞれ、プロセッシングユニ
ット1−1ないし1−3を論理的接続状態にするときに
プロセッシングユニットが“1”を設定する。ビット4
は、1ビットの隔離フラグ213に対応し、あるプロセ
ッシングユニットを隔離状態で動作させる時にプロセッ
シングユニットが“1”を設定する。ビット5からビッ
ト7は、プロセッシングユニット1−1ないし1−3の
それぞれに対して、強制割込を発生させる時にプロセッ
シングユニットが“1”を設定する。
3、及び強制割込発生フラグ214をまとめて、制御レ
ジスタ271と称する。この制御レジスタ271は、所
定のアドレスを有しているものとする。図11は、凍結
回路202に関する、プロセッシングユニットからみた
7ビットの制御レジスタ271のビット割り付けを示
す。ビット1からビット3は、3ビットの接続フラグ7
0の各ビットに対応し、それぞれ、プロセッシングユニ
ット1−1ないし1−3を論理的接続状態にするときに
プロセッシングユニットが“1”を設定する。ビット4
は、1ビットの隔離フラグ213に対応し、あるプロセ
ッシングユニットを隔離状態で動作させる時にプロセッ
シングユニットが“1”を設定する。ビット5からビッ
ト7は、プロセッシングユニット1−1ないし1−3の
それぞれに対して、強制割込を発生させる時にプロセッ
シングユニットが“1”を設定する。
【0088】プロセッシングユニットが制御レジスタ2
71を設定する場合は、制御レジスタ271に割り当て
られた所定のアドレスに対して書き込み命令を発生させ
ることによって行う。プロセッシングユニットより出力
されたアドレスと、リード/ライト信号による書き込み
命令は図8に示すアドレスラッチ回路182及びストロ
ーブ信号生成回路183により、制御レジスタ271に
対する書き込み命令であることが判定される。ストロー
ブ信号生成回路183は、ストローブ信号256を制御
書き込み信号として発生させる。凍結回路202の接続
フラグ70、隔離フラグ213及び強制割込フラグ21
4は、このストローブ信号256に基づき、プロセッシ
ングユニットが出力したデータを制御レジスタ271に
設定する。なお、隔離フラグ213が“1”にセットさ
れている状態で、制御レジスタ271に書き込みを行う
と、接続フラグ70は接続セーブフラグ240の内容に
セットされ、隔離フラグ213は“0”にリセットされ
る。
71を設定する場合は、制御レジスタ271に割り当て
られた所定のアドレスに対して書き込み命令を発生させ
ることによって行う。プロセッシングユニットより出力
されたアドレスと、リード/ライト信号による書き込み
命令は図8に示すアドレスラッチ回路182及びストロ
ーブ信号生成回路183により、制御レジスタ271に
対する書き込み命令であることが判定される。ストロー
ブ信号生成回路183は、ストローブ信号256を制御
書き込み信号として発生させる。凍結回路202の接続
フラグ70、隔離フラグ213及び強制割込フラグ21
4は、このストローブ信号256に基づき、プロセッシ
ングユニットが出力したデータを制御レジスタ271に
設定する。なお、隔離フラグ213が“1”にセットさ
れている状態で、制御レジスタ271に書き込みを行う
と、接続フラグ70は接続セーブフラグ240の内容に
セットされ、隔離フラグ213は“0”にリセットされ
る。
【0089】図12は、本発明の第1実施例に係る高信
頼化計算機の故障が発生したプロセッシングユニットの
復旧動作を示すフローチャートである。また、図13
は、同じく復旧動作を示すタイミングチャートである。
頼化計算機の故障が発生したプロセッシングユニットの
復旧動作を示すフローチャートである。また、図13
は、同じく復旧動作を示すタイミングチャートである。
【0090】以下、3個のプロセッシングユニット1の
内、1個のプロセッシングユニット(仮にプロセッシン
グユニットAとする)が故障した時の動作を説明する。
初期状態及び通常同期動作状態ではリセット信号258
により、接続フラグ70、接続セーブフラグ240はと
もに“111”に、隔離フラグ213は“0”になって
いる(ST1、ST2)。
内、1個のプロセッシングユニット(仮にプロセッシン
グユニットAとする)が故障した時の動作を説明する。
初期状態及び通常同期動作状態ではリセット信号258
により、接続フラグ70、接続セーブフラグ240はと
もに“111”に、隔離フラグ213は“0”になって
いる(ST1、ST2)。
【0091】まず、障害検出工程100について説明す
る。障害が発生したプロセッシングユニットAは、多数
決回路2で検出され、対応するエラー検出信号261が
出力される。これにより、3ビットの接続フラグ70が
“011”となり、プロセッシングユニットAに対する
応答信号161が多数決回路2から出力されなくなり、
プロセッシングユニットAが凍結状態になる。
る。障害が発生したプロセッシングユニットAは、多数
決回路2で検出され、対応するエラー検出信号261が
出力される。これにより、3ビットの接続フラグ70が
“011”となり、プロセッシングユニットAに対する
応答信号161が多数決回路2から出力されなくなり、
プロセッシングユニットAが凍結状態になる。
【0092】いずれかのプロセッシングユニットが故障
したことは、前述の通り単一故障信号9により、図8に
示す機能回路14における割込制御回路180に伝えら
れる。割込制御回路180は、正常動作しているプロセ
ッシングユニットB,Cに割込を発生させる。こうし
て、プロセッシングユニットB,Cはプロセッシングユ
ニットAが故障したことを検知することができる(ST
7)。
したことは、前述の通り単一故障信号9により、図8に
示す機能回路14における割込制御回路180に伝えら
れる。割込制御回路180は、正常動作しているプロセ
ッシングユニットB,Cに割込を発生させる。こうし
て、プロセッシングユニットB,Cはプロセッシングユ
ニットAが故障したことを検知することができる(ST
7)。
【0093】次に、故障診断工程200について説明す
る。故障を検地したプロセッシングユニットB,Cは制
御レジスタを用いてプロセッシングユニットAを単独動
作させる。即ち、プロセッシングユニットB,Cが制御
レジスタに“1001100”を書き込むことにより
(図12、図13、ST8)、プロセッシングユニット
B,Cは凍結状態になり、プロセッシングユニットAは
凍結状態から解除され、隔離動作モードによる動作を開
始する。また、プロセッシングユニットB,Cが制御レ
ジスタに“1001100”を書き込む時、接続フラグ
70の以前の設定値“011”が接続セーブフラグ24
0にセーブされる。また、この時、プロセッシングユニ
ットB及びCは、プロセッシングユニットAに対する、
強制割込フラグ(ビット4)をセットする。このため最
高レベルの割込が発生し、プロセッシングユニットA
は、あらかじめ用意されたエラー解析及び自己診断用の
特別処理ルーチンを実行する(図12、ST2)。プロ
セッシングユニットAは、自らのエラー情報及び自己診
断結果を、図14に示すように、プロセッシングユニッ
トA,B,Cごとにあらかじめ決められた主記憶装置1
43の退避領域(A)291に書きだす(292は、プ
ロセッシングユニットBの退避領域(B)、293は、
プロセッシングユニットCの退避領域(C)である)。
また、故障したプロセッシングユニットAは、制御レジ
スタ271をセットする前にキャッシュメモリ107を
無効化(パージ)しておく。故障したプロセッシングユ
ニットAによる主記憶装置143の書き込みが終了する
と、制御レジスタ271に書き込み処理を行う(図1
2、ST3)。前述したように、隔離フラグ213がセ
ットされている状態での制御レジスタ271への書き込
みは、書き込みデータによらず、接続フラグ70には接
続セーブフラグ240にセットされていた情報“01
1”が書き戻されるので、プロセッシングユニットB,
Cは再度動作を開始する。
る。故障を検地したプロセッシングユニットB,Cは制
御レジスタを用いてプロセッシングユニットAを単独動
作させる。即ち、プロセッシングユニットB,Cが制御
レジスタに“1001100”を書き込むことにより
(図12、図13、ST8)、プロセッシングユニット
B,Cは凍結状態になり、プロセッシングユニットAは
凍結状態から解除され、隔離動作モードによる動作を開
始する。また、プロセッシングユニットB,Cが制御レ
ジスタに“1001100”を書き込む時、接続フラグ
70の以前の設定値“011”が接続セーブフラグ24
0にセーブされる。また、この時、プロセッシングユニ
ットB及びCは、プロセッシングユニットAに対する、
強制割込フラグ(ビット4)をセットする。このため最
高レベルの割込が発生し、プロセッシングユニットA
は、あらかじめ用意されたエラー解析及び自己診断用の
特別処理ルーチンを実行する(図12、ST2)。プロ
セッシングユニットAは、自らのエラー情報及び自己診
断結果を、図14に示すように、プロセッシングユニッ
トA,B,Cごとにあらかじめ決められた主記憶装置1
43の退避領域(A)291に書きだす(292は、プ
ロセッシングユニットBの退避領域(B)、293は、
プロセッシングユニットCの退避領域(C)である)。
また、故障したプロセッシングユニットAは、制御レジ
スタ271をセットする前にキャッシュメモリ107を
無効化(パージ)しておく。故障したプロセッシングユ
ニットAによる主記憶装置143の書き込みが終了する
と、制御レジスタ271に書き込み処理を行う(図1
2、ST3)。前述したように、隔離フラグ213がセ
ットされている状態での制御レジスタ271への書き込
みは、書き込みデータによらず、接続フラグ70には接
続セーブフラグ240にセットされていた情報“01
1”が書き戻されるので、プロセッシングユニットB,
Cは再度動作を開始する。
【0094】次に、同期工程300について説明する。
再度動作を再開したプロセッシングユニットB,Cは、
プロセッシングユニット内の全レジスタの内容を、主記
憶装置143の予め決められたレジスタ退避領域294
に退避する(図12、ST9)。次にプロセッシングユ
ニットB,Cは、障害の発生したプロセッシングユニッ
トAが主記憶装置143に書き出した内容の解析を行
い、プロセッシングユニットAの自己診断結果に基づ
き、プロセッシングユニットAが復旧可能かどうかの判
断を行う(図12、ST10)。もし、自己診断結果が
良好であり、一時的な故障と判断すると、正常なプロセ
ッシングユニットB,Cは、キャッシュメモリ107の
フラッシュを行い(図12、ST11)、制御レジスタ
271に“1110000”をセットする(図12、図
13、ST12)。次に、プロセッシングユニットA,
B,Cは、ST9においてレジスタ退避領域294に退
避しておいたプロセッシングユニットの全レジスタの内
容をリストアする。このようにして動作を再開したプロ
セッシングユニットAは、正常動作を行っているプロセ
ッシングユニットB,Cと全レジスタ内容が同一となる
(図12ST4、ST13)。こうして、プロセッシン
グユニットA,B,Cは、障害発生の特別処理ルーチン
を終了する(図12ST5、ST14)。ところで、S
T3とST12のライト命令、ST4とST13のリス
トア命令、ST5とST14のリターン命令は、それぞ
れ主記憶装置143上では、同一アドレスに格納されて
いる命令である。ST3とST12のライト命令は、故
障したプロセッシングユニットAと正常なプロセッシン
グユニットB,Cが別々のタイミングで実行する。故障
したプロセッシングユニットAは、ST3の実行直後に
凍結される。凍結されたプロセッシングユニットAは正
常なプロセッシングユニットB,CがST12の命令を
実行した時点で凍結状態が解除される。それ以降は3個
のプロセッシングユニットA,B,Cが同じ命令列を同
じタイミングで同期して実行するようになる。もし、自
己診断の結果も不良であり、復旧不可能な故障と判断す
ると(ST10)、制御レジスタ271のセットは行わ
ず、ST13の命令実行にジャンプし、故障したプロセ
ッシングユニットAを切り離したままで処理を続行する
ことになる。
再度動作を再開したプロセッシングユニットB,Cは、
プロセッシングユニット内の全レジスタの内容を、主記
憶装置143の予め決められたレジスタ退避領域294
に退避する(図12、ST9)。次にプロセッシングユ
ニットB,Cは、障害の発生したプロセッシングユニッ
トAが主記憶装置143に書き出した内容の解析を行
い、プロセッシングユニットAの自己診断結果に基づ
き、プロセッシングユニットAが復旧可能かどうかの判
断を行う(図12、ST10)。もし、自己診断結果が
良好であり、一時的な故障と判断すると、正常なプロセ
ッシングユニットB,Cは、キャッシュメモリ107の
フラッシュを行い(図12、ST11)、制御レジスタ
271に“1110000”をセットする(図12、図
13、ST12)。次に、プロセッシングユニットA,
B,Cは、ST9においてレジスタ退避領域294に退
避しておいたプロセッシングユニットの全レジスタの内
容をリストアする。このようにして動作を再開したプロ
セッシングユニットAは、正常動作を行っているプロセ
ッシングユニットB,Cと全レジスタ内容が同一となる
(図12ST4、ST13)。こうして、プロセッシン
グユニットA,B,Cは、障害発生の特別処理ルーチン
を終了する(図12ST5、ST14)。ところで、S
T3とST12のライト命令、ST4とST13のリス
トア命令、ST5とST14のリターン命令は、それぞ
れ主記憶装置143上では、同一アドレスに格納されて
いる命令である。ST3とST12のライト命令は、故
障したプロセッシングユニットAと正常なプロセッシン
グユニットB,Cが別々のタイミングで実行する。故障
したプロセッシングユニットAは、ST3の実行直後に
凍結される。凍結されたプロセッシングユニットAは正
常なプロセッシングユニットB,CがST12の命令を
実行した時点で凍結状態が解除される。それ以降は3個
のプロセッシングユニットA,B,Cが同じ命令列を同
じタイミングで同期して実行するようになる。もし、自
己診断の結果も不良であり、復旧不可能な故障と判断す
ると(ST10)、制御レジスタ271のセットは行わ
ず、ST13の命令実行にジャンプし、故障したプロセ
ッシングユニットAを切り離したままで処理を続行する
ことになる。
【0095】[電源投入時の自己診断]図15は、電源
投入時における自己診断のシーケンスを示すフローチャ
ートである。電源投入時は、3個のプロセッシングユニ
ットによる同期動作をまず開始し、例えば、プロセッシ
ングユニットAを隔離モードで動作させ、自己診断を実
行させる。プロセッシングユニットAの自己診断が終了
すると、一旦3個のプロセッシングユニットの同期動作
に戻る。次にプロセッシングユニットBを隔離モードの
動作で自己診断をさせるといったように、順次自己診断
を実施する。すべての自己診断が完了すると3個の自己
診断の結果を判定し、もしエラーを発生したプロセッシ
ングユニットがあれば、接続フラグ70の対応するビッ
トを“0”にすることで切り離しを行う。上記の処理が
完了すると、3個のプロセッシングユニットによる同期
動作で、通常の処理を開始する。
投入時における自己診断のシーケンスを示すフローチャ
ートである。電源投入時は、3個のプロセッシングユニ
ットによる同期動作をまず開始し、例えば、プロセッシ
ングユニットAを隔離モードで動作させ、自己診断を実
行させる。プロセッシングユニットAの自己診断が終了
すると、一旦3個のプロセッシングユニットの同期動作
に戻る。次にプロセッシングユニットBを隔離モードの
動作で自己診断をさせるといったように、順次自己診断
を実施する。すべての自己診断が完了すると3個の自己
診断の結果を判定し、もしエラーを発生したプロセッシ
ングユニットがあれば、接続フラグ70の対応するビッ
トを“0”にすることで切り離しを行う。上記の処理が
完了すると、3個のプロセッシングユニットによる同期
動作で、通常の処理を開始する。
【0096】次に、図16(a)、(b)はこの実施例
における障害回復処理の流れを示す図である。ST80
1において、3つのCPUが完全に同期して動作してお
り、多数決回路は1つのCPUの出力を選択し外部に出
力する。ST802においては、多数決回路により故障
したCPUの検出が行われる。次に、ST803におい
ては、補償したCPUを一時的に切り離す。ST804
においては、正常なCPUにより処理が継続される。S
T805においては、隔離動作により故障したCPUの
自己診断を行う。ST806においては、正常なCPU
により診断の結果故障したCPUが再び動作できると判
定した場合に再同期処理を行う。再同期処理により故障
したCPUが再び動作した場合には、ST801に戻り
3つのCPUが完全に同期をとりながら動作する。ST
806において、再同期処理がとられなかった場合に
は、ST807において新たなCPUボードが追加さ
れ、そのCPUボードが他の正常なCPUボードと同期
した処理ができるように内部状態がコピーされ、故障を
起こしたCPUの処理を引き継ぐ。次に、ST808に
おいて故障したCPUボードを取り外す。
における障害回復処理の流れを示す図である。ST80
1において、3つのCPUが完全に同期して動作してお
り、多数決回路は1つのCPUの出力を選択し外部に出
力する。ST802においては、多数決回路により故障
したCPUの検出が行われる。次に、ST803におい
ては、補償したCPUを一時的に切り離す。ST804
においては、正常なCPUにより処理が継続される。S
T805においては、隔離動作により故障したCPUの
自己診断を行う。ST806においては、正常なCPU
により診断の結果故障したCPUが再び動作できると判
定した場合に再同期処理を行う。再同期処理により故障
したCPUが再び動作した場合には、ST801に戻り
3つのCPUが完全に同期をとりながら動作する。ST
806において、再同期処理がとられなかった場合に
は、ST807において新たなCPUボードが追加さ
れ、そのCPUボードが他の正常なCPUボードと同期
した処理ができるように内部状態がコピーされ、故障を
起こしたCPUの処理を引き継ぐ。次に、ST808に
おいて故障したCPUボードを取り外す。
【0097】次に、この実施例の構成上の特徴を以下に
記述する。 (1)TMR方式 ・CPUとキャッシュで構成されるCPUモジュール3
個を、1ボードに実装している。 ・多数決により正常な1CPUの出力を選択する。 (2)バス構成 ・入出力バスアダプタによりシステムバスと既存のI/
Oバスを接続している。 ・CPUボード、主記憶装置、入出力バスアダプタを接
続する二重化システムバスを備えている。 (3)一時的故障の自動修復が特徴 ・キャッシュを含めたCPUモジュールの一時的故障は
全てH/W交換無しに修復可能である。 ・主記憶装置のエラーも修復可能である。 (4)故障CPUボードの引継ぎ ・S/Wに全くインパクトを与えないでH/W、F/W
レベルで故障CPUボードの引継ぎを行う。
記述する。 (1)TMR方式 ・CPUとキャッシュで構成されるCPUモジュール3
個を、1ボードに実装している。 ・多数決により正常な1CPUの出力を選択する。 (2)バス構成 ・入出力バスアダプタによりシステムバスと既存のI/
Oバスを接続している。 ・CPUボード、主記憶装置、入出力バスアダプタを接
続する二重化システムバスを備えている。 (3)一時的故障の自動修復が特徴 ・キャッシュを含めたCPUモジュールの一時的故障は
全てH/W交換無しに修復可能である。 ・主記憶装置のエラーも修復可能である。 (4)故障CPUボードの引継ぎ ・S/Wに全くインパクトを与えないでH/W、F/W
レベルで故障CPUボードの引継ぎを行う。
【0098】この構成によれば、以下の利点である。 (1)キャッシュがCPUに直接接続されるため性能向
上が容易である。 (2)キャッシュを含めた多数決が行えるので信頼性が
向上する。 (3)IOCは従来のものをそのまま使用することがで
きる。
上が容易である。 (2)キャッシュを含めた多数決が行えるので信頼性が
向上する。 (3)IOCは従来のものをそのまま使用することがで
きる。
【0099】以上のように、この実施例は、同一プロセ
ッシングボードに実装された複数のプロセッサと、各プ
ロセッサごとに接続されるキャッシュメモリ(プロセッ
サとキャッシュメモリを合わせてプロセッシングユニッ
トと呼ぶ)と、各プロセッシングユニットの出力の多数
決を行う多数決ユニットと、多数決ユニットに接続され
るシステムバスと、システムバスに接続された主記憶装
置及び入出力バスアダプタと、入出力バスに接続された
I/Oバスと、I/Oバスに接続されたI/O装置とを
備えたものである。
ッシングボードに実装された複数のプロセッサと、各プ
ロセッサごとに接続されるキャッシュメモリ(プロセッ
サとキャッシュメモリを合わせてプロセッシングユニッ
トと呼ぶ)と、各プロセッシングユニットの出力の多数
決を行う多数決ユニットと、多数決ユニットに接続され
るシステムバスと、システムバスに接続された主記憶装
置及び入出力バスアダプタと、入出力バスに接続された
I/Oバスと、I/Oバスに接続されたI/O装置とを
備えたものである。
【0100】また、この実施例では、前記多数決ユニッ
トにおいて、多数決の結果、不一致を検出した場合、故
障したプロセッシングユニットを以後の多数決の対象か
ら切り離すと同時に、対応するプロセッシングユニット
の動作を凍結させる応答信号を備えたものである。
トにおいて、多数決の結果、不一致を検出した場合、故
障したプロセッシングユニットを以後の多数決の対象か
ら切り離すと同時に、対応するプロセッシングユニット
の動作を凍結させる応答信号を備えたものである。
【0101】また、高い信頼性のあるプロセッシングボ
ードを得るために、二重化した多数決ユニットを備えた
ものである。
ードを得るために、二重化した多数決ユニットを備えた
ものである。
【0102】また、故障したプロセッシングユニットの
障害原因を知り、自己診断による修理箇所の特定、ある
いは再度同期動作に復旧可能か否かを知ることができる
ために、故障したプロセッシングユニットのみが動作す
る隔離モードを備えたものである。
障害原因を知り、自己診断による修理箇所の特定、ある
いは再度同期動作に復旧可能か否かを知ることができる
ために、故障したプロセッシングユニットのみが動作す
る隔離モードを備えたものである。
【0103】また、故障したプロセッシングユニットの
処理が完了すると確実に正常なプロセッシングユニット
の動作状態に戻れるように、接続フラグを自動的に退避
する接続フラグを備えたものである。
処理が完了すると確実に正常なプロセッシングユニット
の動作状態に戻れるように、接続フラグを自動的に退避
する接続フラグを備えたものである。
【0104】また、故障したプロセッシングユニットを
再同期させるために、故障したプロセッシングユニット
ならびに正常なプロセッシングユニットを共に接続し、
しかも故障したプロセッシングユニットと正常なプロセ
ッシングユニットの同期処理の最後で、同一命令列を実
行するようにしたものである。
再同期させるために、故障したプロセッシングユニット
ならびに正常なプロセッシングユニットを共に接続し、
しかも故障したプロセッシングユニットと正常なプロセ
ッシングユニットの同期処理の最後で、同一命令列を実
行するようにしたものである。
【0105】この実施例によれば、複数のプロセッシン
グユニットが同一のプロセッシングボード上にあるた
め、ボード間をクロックが渡ることがなく、動作周波数
を向上させることができる。
グユニットが同一のプロセッシングボード上にあるた
め、ボード間をクロックが渡ることがなく、動作周波数
を向上させることができる。
【0106】また、複数のプロセッシングユニットが同
一クロックで同期して動作するため、お互いにメモリア
クセス時に同期をとる必要がなく、ロジックが簡単にな
り、メモリアクセスにオーバヘッドがかからない。
一クロックで同期して動作するため、お互いにメモリア
クセス時に同期をとる必要がなく、ロジックが簡単にな
り、メモリアクセスにオーバヘッドがかからない。
【0107】また、複数のプロセッシングユニットごと
にキャッシュメモリを持つため、キャシュメモリの内容
を含めた動作結果の多数決による比較照合が可能とな
り、計算機の信頼性を向上させる。
にキャッシュメモリを持つため、キャシュメモリの内容
を含めた動作結果の多数決による比較照合が可能とな
り、計算機の信頼性を向上させる。
【0108】また、複数のプロセッシングユニットごと
にキャッシュメモリを持つため、キャッシュメモリの内
容を含めた動作結果の比較照合が可能となり、計算機の
信頼性を向上させる。
にキャッシュメモリを持つため、キャッシュメモリの内
容を含めた動作結果の比較照合が可能となり、計算機の
信頼性を向上させる。
【0109】また、複数のプロセッシングユニットごと
にキャッシュメモリを持ち、その出力にて複数プロセッ
シングユニットの比較照合を行うため、比較照合結果に
よるキャシュメモリへのバス切り替えのオーバヘッドが
なく、高速動作の実現が可能となる。
にキャッシュメモリを持ち、その出力にて複数プロセッ
シングユニットの比較照合を行うため、比較照合結果に
よるキャシュメモリへのバス切り替えのオーバヘッドが
なく、高速動作の実現が可能となる。
【0110】また、多数決ユニットを二重化することに
より、高い信頼性のあるプロセッシングボードを得るこ
とができる。
より、高い信頼性のあるプロセッシングボードを得るこ
とができる。
【0111】また、故障したプロセッシングユニットに
対して応答信号を返さないことで故障したプロセッシン
グユニットの動作を凍結することにより、故障したプロ
セッシングユニットが勝手な動作を行い、プロセッシン
グボード及び計算機の内部レジスタなどを破壊すること
を防止する。
対して応答信号を返さないことで故障したプロセッシン
グユニットの動作を凍結することにより、故障したプロ
セッシングユニットが勝手な動作を行い、プロセッシン
グボード及び計算機の内部レジスタなどを破壊すること
を防止する。
【0112】また、故障したプロセッシングユニットに
対して応答信号を返さないことで故障したプロセッシン
グユニットの動作を凍結することにより、故障したプロ
セッシングユニットの障害発生時の状態を可能な限り破
壊せず、その後の故障原因の解析を容易にする。
対して応答信号を返さないことで故障したプロセッシン
グユニットの動作を凍結することにより、故障したプロ
セッシングユニットの障害発生時の状態を可能な限り破
壊せず、その後の故障原因の解析を容易にする。
【0113】また、正常なプロセッシングの判断で、故
障したプロセッシングユニットを隔離モードで動作させ
ることにより、故障したプロセッシングユニットの障害
原因を知ることができ、修理箇所の特定、あるいは再度
同期動作に復旧可能か否かを知ることができる。
障したプロセッシングユニットを隔離モードで動作させ
ることにより、故障したプロセッシングユニットの障害
原因を知ることができ、修理箇所の特定、あるいは再度
同期動作に復旧可能か否かを知ることができる。
【0114】また、故障したプロセッシングユニットか
ら接続フラグへの書き込みは、故障したプロセッシング
ユニットによって明示的に行うことができず、接続フラ
グへの書き込み動作のみで接続フラグの内容が自動的に
接続セーブフラグの内容に戻るようにするため、故障し
たプロセッシングの処理が完了すると確実に正常なプロ
セッシングユニットの動作状態に戻ることが出来る。
ら接続フラグへの書き込みは、故障したプロセッシング
ユニットによって明示的に行うことができず、接続フラ
グへの書き込み動作のみで接続フラグの内容が自動的に
接続セーブフラグの内容に戻るようにするため、故障し
たプロセッシングの処理が完了すると確実に正常なプロ
セッシングユニットの動作状態に戻ることが出来る。
【0115】また、正常なプロセッシングユニットが故
障したプロセッシングユニットならびに正常なプロセッ
シングユニットをともに接続するように制御レジスタを
セットし、しかも制御レジスタのセットを、故障したプ
ロセッシングユニットと正常なプロセッシングユニット
の同期処理の最後で、同一命令列を実行することによ
り、故障したプロセッシングユニットを再同期させるこ
とが可能となる。
障したプロセッシングユニットならびに正常なプロセッ
シングユニットをともに接続するように制御レジスタを
セットし、しかも制御レジスタのセットを、故障したプ
ロセッシングユニットと正常なプロセッシングユニット
の同期処理の最後で、同一命令列を実行することによ
り、故障したプロセッシングユニットを再同期させるこ
とが可能となる。
【0116】実施例2.図17は、実施例1における図
9の凍結回路202の内部に、隔離監視タイマ280を
設けた凍結回路202aを示す。この実施例では、故障
したプロセッシングユニットAは、正常なプロセッシン
グユニットB,Cにより設定された時間内においてのみ
動作可能とする。そして、正常なプロセッシングユニッ
トB,Cが凍結状態でロックされるのを防ぐようにす
る。また、図18は、実施例1における図8の機能回路
の割込制御回路の入力に隔離監視割込信号423を追加
した機能回路14aを示す。
9の凍結回路202の内部に、隔離監視タイマ280を
設けた凍結回路202aを示す。この実施例では、故障
したプロセッシングユニットAは、正常なプロセッシン
グユニットB,Cにより設定された時間内においてのみ
動作可能とする。そして、正常なプロセッシングユニッ
トB,Cが凍結状態でロックされるのを防ぐようにす
る。また、図18は、実施例1における図8の機能回路
の割込制御回路の入力に隔離監視割込信号423を追加
した機能回路14aを示す。
【0117】故障したプロセッシングユニットAを隔離
モードで動作させる時、マスク不可能な強制割込信号2
21−1により、それまでプロセッシングユニットAが
実行していたプログラムは強制的に中断させられ、エラ
ー解析ルーチンが実行されるので、ある程度はエラー発
生の状態から隔離されるが、故障の程度によっては、プ
ロセッシングユニットAが正常なプロセッシングユニッ
トB,Cの凍結状態を解除して元の状態に戻すための制
御レジスタ271の書き込みができない可能性がある。
モードで動作させる時、マスク不可能な強制割込信号2
21−1により、それまでプロセッシングユニットAが
実行していたプログラムは強制的に中断させられ、エラ
ー解析ルーチンが実行されるので、ある程度はエラー発
生の状態から隔離されるが、故障の程度によっては、プ
ロセッシングユニットAが正常なプロセッシングユニッ
トB,Cの凍結状態を解除して元の状態に戻すための制
御レジスタ271の書き込みができない可能性がある。
【0118】これを防止するために、隔離モード(隔離
フラグが“1”)になると、自動的に隔離監視タイマ2
80が動作を開始する。隔離監視タイマ280はある一
定時間(T1)が経過すると、隔離監視タイマの出力で
ある隔離監視割込信号423を“1”にする。隔離監視
割込信号423が発生すると凍結回路は、接続フラグ7
0の内容を接続セーブフラグ240の内容に戻すととも
に、隔離モードをリセットする。故障したプロセッシン
グユニットAは再び凍結状態になり、凍結状態であった
正常なプロセッシングユニットB,Cは動作を開始す
る。正常なプロセッシングユニットB,Cは、隔離監視
タイマの出力が“1”となったことを、図18における
割込制御回路180aからの割込により知ることができ
る。正常なプロセッシングユニットB,Cは、故障した
プロセッシングユニットAが凍結解除が不可能なくらい
致命的な故障をおこしていると判断し、故障したプロセ
ッシングユニットAを今後の動作に参加させない(完全
に切り離す)。
フラグが“1”)になると、自動的に隔離監視タイマ2
80が動作を開始する。隔離監視タイマ280はある一
定時間(T1)が経過すると、隔離監視タイマの出力で
ある隔離監視割込信号423を“1”にする。隔離監視
割込信号423が発生すると凍結回路は、接続フラグ7
0の内容を接続セーブフラグ240の内容に戻すととも
に、隔離モードをリセットする。故障したプロセッシン
グユニットAは再び凍結状態になり、凍結状態であった
正常なプロセッシングユニットB,Cは動作を開始す
る。正常なプロセッシングユニットB,Cは、隔離監視
タイマの出力が“1”となったことを、図18における
割込制御回路180aからの割込により知ることができ
る。正常なプロセッシングユニットB,Cは、故障した
プロセッシングユニットAが凍結解除が不可能なくらい
致命的な故障をおこしていると判断し、故障したプロセ
ッシングユニットAを今後の動作に参加させない(完全
に切り離す)。
【0119】以上のようにこの実施例は、計算機全体が
ロック状態になることを防止するために、隔離監視タイ
マを設けたものである。また、電源投入時に計算機をハ
ングアップさせないために、隔離監視タイマを用いるこ
とができる。前述した隔離監視タイマを用いて電源投入
時の自己診断処理が正しく動作しない場合、計算機を元
の正常動作状態に戻すことができる。
ロック状態になることを防止するために、隔離監視タイ
マを設けたものである。また、電源投入時に計算機をハ
ングアップさせないために、隔離監視タイマを用いるこ
とができる。前述した隔離監視タイマを用いて電源投入
時の自己診断処理が正しく動作しない場合、計算機を元
の正常動作状態に戻すことができる。
【0120】この実施例によれば、正常なプロセッシン
グユニットを凍結した状態で、故障したプロセッシング
ユニットによる動作が完了しない場合でも、隔離監視タ
イマにより、自動的に正常なプロセッシングユニットの
凍結状態は解除されるため、計算機全体がロック状態に
なることを防止する。また、電源投入時の自己診断処理
が正しく動作しない場合、タイマ監視により元の正常動
作状態に戻るため、電源投入時に計算機がハングアップ
しない。
グユニットを凍結した状態で、故障したプロセッシング
ユニットによる動作が完了しない場合でも、隔離監視タ
イマにより、自動的に正常なプロセッシングユニットの
凍結状態は解除されるため、計算機全体がロック状態に
なることを防止する。また、電源投入時の自己診断処理
が正しく動作しない場合、タイマ監視により元の正常動
作状態に戻るため、電源投入時に計算機がハングアップ
しない。
【0121】実施例3.実施例2において、故障したプ
ロセッシングユニットを隔離モードで動作させる時、タ
イムアウト機能により、自動的に元の状態に戻すことは
可能であるが、誤動作により正常なプロセッシングユニ
ットのアクセス対象である主記憶装置や外部の制御回路
のレジスタ内容などを破壊する可能性があった。図19
は、図18における機能回路において、書き込み許可開
始アドレスを格納する下限フェンスレジスタ301、書
き込み許可終了アドレスを格納する上限フェンスレジス
タ302を備え、下限フェンスレジスタ301と、上限
フェンスレジスタ302と、隔離フラグ213と、アド
レス信号303と、リード/ライト信号305の内容を
入力とし、主記憶装置のメモリアドレス空間及びI/O
装置のI/Oアドレス空間へのアクセスを許可するイネ
ーブル信号307を出力するチェック回路306とを追
加した機能回路14bを示す。チェック回路306は、
隔離フラグ213の出力が“1”の状態では、主記憶装
置のメモリアドレス空間及びI/Oアドレス空間に対す
る書き込み(リード/ライト信号305がライトを示し
ている時)は、下限フェンスレジスタ301、上限フェ
ンスレジスタ302にて指定されるアドレス空間のみア
クセスを許可するようにハードウェアで制御するための
イネーブル信号307を出力する。なお、このチェック
回路306は、隔離モードから凍結状態に戻るための制
御レジスタ271(データの値は無視される)のアクセ
スを妨げない。また、書き込み許可範囲は、正常なプロ
セッシングユニットB,Cが通常の動作では使用しない
領域を設定する。なお、読み出しに関しては、全ての空
間にたいしてアクセス可能とする。
ロセッシングユニットを隔離モードで動作させる時、タ
イムアウト機能により、自動的に元の状態に戻すことは
可能であるが、誤動作により正常なプロセッシングユニ
ットのアクセス対象である主記憶装置や外部の制御回路
のレジスタ内容などを破壊する可能性があった。図19
は、図18における機能回路において、書き込み許可開
始アドレスを格納する下限フェンスレジスタ301、書
き込み許可終了アドレスを格納する上限フェンスレジス
タ302を備え、下限フェンスレジスタ301と、上限
フェンスレジスタ302と、隔離フラグ213と、アド
レス信号303と、リード/ライト信号305の内容を
入力とし、主記憶装置のメモリアドレス空間及びI/O
装置のI/Oアドレス空間へのアクセスを許可するイネ
ーブル信号307を出力するチェック回路306とを追
加した機能回路14bを示す。チェック回路306は、
隔離フラグ213の出力が“1”の状態では、主記憶装
置のメモリアドレス空間及びI/Oアドレス空間に対す
る書き込み(リード/ライト信号305がライトを示し
ている時)は、下限フェンスレジスタ301、上限フェ
ンスレジスタ302にて指定されるアドレス空間のみア
クセスを許可するようにハードウェアで制御するための
イネーブル信号307を出力する。なお、このチェック
回路306は、隔離モードから凍結状態に戻るための制
御レジスタ271(データの値は無視される)のアクセ
スを妨げない。また、書き込み許可範囲は、正常なプロ
セッシングユニットB,Cが通常の動作では使用しない
領域を設定する。なお、読み出しに関しては、全ての空
間にたいしてアクセス可能とする。
【0122】以上のようにこの実施例は、故障したプロ
セッシングユニットの誤動作による正常なプロセッシン
グユニットからアクセス可能な主記憶装置などの内容の
破壊を防止するために、故障したプロセッシングユニッ
トが、隔離動作中にアクセスすることができるアドレス
空間を設定する下限フェンスレジスタ、及び上限フェン
スレジスタを備えたものである。
セッシングユニットの誤動作による正常なプロセッシン
グユニットからアクセス可能な主記憶装置などの内容の
破壊を防止するために、故障したプロセッシングユニッ
トが、隔離動作中にアクセスすることができるアドレス
空間を設定する下限フェンスレジスタ、及び上限フェン
スレジスタを備えたものである。
【0123】この実施例によれば、故障したプロセッシ
ングユニットが、隔離動作中にアクセスすることができ
るアドレス空間を、正常なプロセッシングユニットによ
りあらかじめ設定しておくことにより、故障したプロセ
ッシングユニットの誤動作による正常なプロセッシング
ユニットの計算機資源の破壊を防止することができる。
ングユニットが、隔離動作中にアクセスすることができ
るアドレス空間を、正常なプロセッシングユニットによ
りあらかじめ設定しておくことにより、故障したプロセ
ッシングユニットの誤動作による正常なプロセッシング
ユニットの計算機資源の破壊を防止することができる。
【0124】実施例4.実施例2において、故障したプ
ロセッシングユニットAが、自らのエラーの情報及び自
己診断結果を主記憶装置143に書き出す処理に長い時
間を要する場合、正常なプロセッシングユニットB,C
が実行しているプログラムは、プロセッシングユニット
Aが実行している間、停止することになる。そこで、正
常なプロセッシングユニットB,Cと、故障したプロセ
ッシングユニットAを交互に動作させることにより、本
来のプログラムの実行停止時間を一定時間以下におさえ
ながら復旧処理を実行することが望ましい。
ロセッシングユニットAが、自らのエラーの情報及び自
己診断結果を主記憶装置143に書き出す処理に長い時
間を要する場合、正常なプロセッシングユニットB,C
が実行しているプログラムは、プロセッシングユニット
Aが実行している間、停止することになる。そこで、正
常なプロセッシングユニットB,Cと、故障したプロセ
ッシングユニットAを交互に動作させることにより、本
来のプログラムの実行停止時間を一定時間以下におさえ
ながら復旧処理を実行することが望ましい。
【0125】図20は、図17において、隔離モードの
実行時間を設定する隔離時間タイマ381(タイマ設定
値=T2とする)と、隔離モードを実行する時間間隔を
設定する隔離間隔タイマ382(タイマ設定値=T3と
する)と、障害の生じたプロセッシングユニットAの主
記憶装置143への書き出しが終了したことを示す1ビ
ットの同期フラグ217とを追加した凍結回路202b
を示す。また、図21は、実施例2における図18の機
能回路の割込制御回路の入力に隔離時間割込信号421
及び隔離間隔割込信号422を追加した機能回路14c
を示す。タイマ設定時間が経過すると、隔離時間タイマ
381及び隔離間隔タイマ382は、それぞれ隔離時間
割込信号421、隔離間隔割込信号422を出力する。
隔離監視タイマ280は、図16における隔離監視タイ
マと同一であり、タイマ設定値をT1とする。なお、タ
イマ設定値T1、T2、T3は、図22に示すようにT
2<T1<T3の関係になるようにプロセッシングユニ
ットより設定する。
実行時間を設定する隔離時間タイマ381(タイマ設定
値=T2とする)と、隔離モードを実行する時間間隔を
設定する隔離間隔タイマ382(タイマ設定値=T3と
する)と、障害の生じたプロセッシングユニットAの主
記憶装置143への書き出しが終了したことを示す1ビ
ットの同期フラグ217とを追加した凍結回路202b
を示す。また、図21は、実施例2における図18の機
能回路の割込制御回路の入力に隔離時間割込信号421
及び隔離間隔割込信号422を追加した機能回路14c
を示す。タイマ設定時間が経過すると、隔離時間タイマ
381及び隔離間隔タイマ382は、それぞれ隔離時間
割込信号421、隔離間隔割込信号422を出力する。
隔離監視タイマ280は、図16における隔離監視タイ
マと同一であり、タイマ設定値をT1とする。なお、タ
イマ設定値T1、T2、T3は、図22に示すようにT
2<T1<T3の関係になるようにプロセッシングユニ
ットより設定する。
【0126】この実施例では、図22(a)に示すよう
に隔離間隔タイマ382に設定されたタイマ設定値T3
毎に隔離モードを実行する。この隔離モードの実行時間
は、隔離時間タイマ381に設定されたタイマ設定値T
2の期間である。もし故障したプロセッサが正常に動作
する場合には、このタイマ設定値T2の期間だけ隔離モ
ードを実行し、その後正常なプロセッシングユニットを
動作させる。このようにして、故障したプロセッシング
ユニットは、期間T3毎に隔離モードを期間T2ずつ実
行することになる。もし故障したプロセッシングユニッ
トが致命的なエラーを起こしており、正常なプロセッシ
ングユニットを動作させることができない場合には、期
間T2を経過してしまう。この場合には、隔離監視タイ
マ201に設定されたタイマ設定値T1が経過し、期間
T1の経過により隔離モードが強制終了させられ、正常
なプロセッシングユニットB,Cを再び動作させること
が可能になる。それぞれのタイマの起動/停止/設定時
間経過後の処置を、図23に示す。同期フラグ217
は、障害の生じたプロセッシングユニットAの主記憶装
置143への書き出しが終了したことを示す1ビットの
フラグである。同期フラグ217は、プロセッシングユ
ニットによりデータ信号220−8を経由してセットさ
れ、隔離フラグ213が“1”(隔離モード)の時でも
プロセッシングユニットから書き込みが可能である。図
24に同期レジスタ217をビット8に追加した制御レ
ジスタ271aのビットアサインを示す。
に隔離間隔タイマ382に設定されたタイマ設定値T3
毎に隔離モードを実行する。この隔離モードの実行時間
は、隔離時間タイマ381に設定されたタイマ設定値T
2の期間である。もし故障したプロセッサが正常に動作
する場合には、このタイマ設定値T2の期間だけ隔離モ
ードを実行し、その後正常なプロセッシングユニットを
動作させる。このようにして、故障したプロセッシング
ユニットは、期間T3毎に隔離モードを期間T2ずつ実
行することになる。もし故障したプロセッシングユニッ
トが致命的なエラーを起こしており、正常なプロセッシ
ングユニットを動作させることができない場合には、期
間T2を経過してしまう。この場合には、隔離監視タイ
マ201に設定されたタイマ設定値T1が経過し、期間
T1の経過により隔離モードが強制終了させられ、正常
なプロセッシングユニットB,Cを再び動作させること
が可能になる。それぞれのタイマの起動/停止/設定時
間経過後の処置を、図23に示す。同期フラグ217
は、障害の生じたプロセッシングユニットAの主記憶装
置143への書き出しが終了したことを示す1ビットの
フラグである。同期フラグ217は、プロセッシングユ
ニットによりデータ信号220−8を経由してセットさ
れ、隔離フラグ213が“1”(隔離モード)の時でも
プロセッシングユニットから書き込みが可能である。図
24に同期レジスタ217をビット8に追加した制御レ
ジスタ271aのビットアサインを示す。
【0127】以下、動作について説明する。正常なプロ
セッシングユニットB,Cによる隔離フラグ213のセ
ットにより、故障したプロセッシングユニットAによる
隔離モード動作が開始し、この時、隔離監視タイマ28
0、隔離時間タイマ381、隔離間隔タイマ382の3
個のタイマが起動される。プロセッシングユニットAに
よるエラー情報の主記憶装置143への書き出しが正常
に動作していると、隔離時間タイマ381の設定時間T
2が経過し、隔離フラグ213がリセットされ(隔離監
視タイマ280は停止する)、凍結状態の正常なプロセ
ッシングユニットB,Cが動作を開始する。この時、障
害が発生したプロセッシングユニットAのエラー情報が
すべて主記憶装置143に書き出されていないならば、
故障したプロセッシングユニットAは同期フラグ217
をセットしない。凍結状態から動作を再開した正常なプ
ロセッシングユニットB,Cは、同期フラグ217の内
容がセットされていないことにより、故障したプロセッ
シングユニットAの処理がすべて完了していないことを
知るとともに、通常のプログラム実行を行う。隔離間隔
タイマ382の設定時間T3が経過すると、正常なプロ
セッシングユニットB,Cに割込が発生する。正常なプ
ロセッシングユニットB,Cは再度隔離フラグ213を
セットして制御レジスタ271に書き込みを行い、自ら
は凍結状態になるとともに、障害を発生したプロセッシ
ングユニットAはエラー情報の主記憶装置143への書
き出し動作を実行する。また、このとき隔離監視タイマ
280は動作を再開する。この動作を故障したプロセッ
シングユニットAのエラー情報書き出しが終了するまで
繰り返す。もし、故障したプロセッシングユニットA
が、エラー情報の書き出しを完了した場合、制御レジス
タ271に書き込む時に、同期フラグ217を“1”に
セットする。このことにより、正常なプロセッシングユ
ニットB,Cは故障したプロセッシングユニットAの主
記憶装置143への書き出し動作が完了したことを知
り、全レジスタを予め決められた主記憶装置143に退
避するといった復旧処理に移行する。以後の動作は、図
12にて示した動作と同一である。
セッシングユニットB,Cによる隔離フラグ213のセ
ットにより、故障したプロセッシングユニットAによる
隔離モード動作が開始し、この時、隔離監視タイマ28
0、隔離時間タイマ381、隔離間隔タイマ382の3
個のタイマが起動される。プロセッシングユニットAに
よるエラー情報の主記憶装置143への書き出しが正常
に動作していると、隔離時間タイマ381の設定時間T
2が経過し、隔離フラグ213がリセットされ(隔離監
視タイマ280は停止する)、凍結状態の正常なプロセ
ッシングユニットB,Cが動作を開始する。この時、障
害が発生したプロセッシングユニットAのエラー情報が
すべて主記憶装置143に書き出されていないならば、
故障したプロセッシングユニットAは同期フラグ217
をセットしない。凍結状態から動作を再開した正常なプ
ロセッシングユニットB,Cは、同期フラグ217の内
容がセットされていないことにより、故障したプロセッ
シングユニットAの処理がすべて完了していないことを
知るとともに、通常のプログラム実行を行う。隔離間隔
タイマ382の設定時間T3が経過すると、正常なプロ
セッシングユニットB,Cに割込が発生する。正常なプ
ロセッシングユニットB,Cは再度隔離フラグ213を
セットして制御レジスタ271に書き込みを行い、自ら
は凍結状態になるとともに、障害を発生したプロセッシ
ングユニットAはエラー情報の主記憶装置143への書
き出し動作を実行する。また、このとき隔離監視タイマ
280は動作を再開する。この動作を故障したプロセッ
シングユニットAのエラー情報書き出しが終了するまで
繰り返す。もし、故障したプロセッシングユニットA
が、エラー情報の書き出しを完了した場合、制御レジス
タ271に書き込む時に、同期フラグ217を“1”に
セットする。このことにより、正常なプロセッシングユ
ニットB,Cは故障したプロセッシングユニットAの主
記憶装置143への書き出し動作が完了したことを知
り、全レジスタを予め決められた主記憶装置143に退
避するといった復旧処理に移行する。以後の動作は、図
12にて示した動作と同一である。
【0128】なお、図22(a)に示したように、隔離
監視タイマ280は動作を停止再開することによりタイ
マ設定値T1までカウントするのではなく、図22
(b)に示すように、故障したプロセッシングユニット
Aが動作するたびにリセットされて、新たにタイマ設定
値T1までカウントするようにしてもよい。この場合の
タイマ設定値T1は、タイマ設定値T2よりわずかに大
きな値であればよい。
監視タイマ280は動作を停止再開することによりタイ
マ設定値T1までカウントするのではなく、図22
(b)に示すように、故障したプロセッシングユニット
Aが動作するたびにリセットされて、新たにタイマ設定
値T1までカウントするようにしてもよい。この場合の
タイマ設定値T1は、タイマ設定値T2よりわずかに大
きな値であればよい。
【0129】以上のようにこの実施例は、正常なプロセ
ッシングユニットの動作停止時間を一定時間以下に限定
するために、故障したプロセッシングユニットの動作時
間を分割し1回の動作時間を限定する隔離間隔タイマ、
及び隔離時間タイマを備えたものである。
ッシングユニットの動作停止時間を一定時間以下に限定
するために、故障したプロセッシングユニットの動作時
間を分割し1回の動作時間を限定する隔離間隔タイマ、
及び隔離時間タイマを備えたものである。
【0130】この実施例によれば、隔離間隔タイマの設
定値の時間間隔で、隔離時間タイマの設定値の時間の間
でしか隔離故障したプロセッシングユニットの動作時間
を許可しないことにより、故障したプロセッシングユニ
ットの動作による、正常なプロセッシングユニットの動
作停止時間を、一定時間以下に限定することができる。
定値の時間間隔で、隔離時間タイマの設定値の時間の間
でしか隔離故障したプロセッシングユニットの動作時間
を許可しないことにより、故障したプロセッシングユニ
ットの動作による、正常なプロセッシングユニットの動
作停止時間を、一定時間以下に限定することができる。
【0131】実施例5.図25は、実施例1における図
1の多数決を行う多数決ユニット135を一重化構成に
したもので、多数決ユニット135を簡略化することに
より低コストにて高い信頼性を得るようにしたものであ
る。
1の多数決を行う多数決ユニット135を一重化構成に
したもので、多数決ユニット135を簡略化することに
より低コストにて高い信頼性を得るようにしたものであ
る。
【0132】実施例6.図26は、実施例1における図
1において、2つの入出力バスアダプタの接続先を1つ
のI/Oバス147とするために、入出力バスアダプタ
が同時にI/Oバスをアクセスしないようにした入出力
バスアダプタ145aに変更したプロセッシングボード
125bを示す。図26に示す1枚のプロセッシングボ
ード125bを、従来の計算機のI/Oバス147にそ
のまま接続可能にすることにより、従来の計算機を容易
にフォールトトレラント化することができる。
1において、2つの入出力バスアダプタの接続先を1つ
のI/Oバス147とするために、入出力バスアダプタ
が同時にI/Oバスをアクセスしないようにした入出力
バスアダプタ145aに変更したプロセッシングボード
125bを示す。図26に示す1枚のプロセッシングボ
ード125bを、従来の計算機のI/Oバス147にそ
のまま接続可能にすることにより、従来の計算機を容易
にフォールトトレラント化することができる。
【0133】以上のようにこの実施例は、既存の計算機
のI/Oバスにそのまま挿入し、I/Oを除いた部分を
二重化するために、1枚のプロセッシングボード上に、
上記プロセッシングユニットと、該プロセッシングユニ
ットのうち1つを選択する多数決ユニットと、全てのプ
ロセッシングユニットと多数決ユニットを接続するプロ
セッサバスと、多数決ユニットに接続され二重化された
システムバスと、各システムバスに接続される主記憶装
置と、同じく各システムバスに接続され外部と入出力の
インタフェースをとるための二重化された入出力バスア
ダプタとを備えたものである。
のI/Oバスにそのまま挿入し、I/Oを除いた部分を
二重化するために、1枚のプロセッシングボード上に、
上記プロセッシングユニットと、該プロセッシングユニ
ットのうち1つを選択する多数決ユニットと、全てのプ
ロセッシングユニットと多数決ユニットを接続するプロ
セッサバスと、多数決ユニットに接続され二重化された
システムバスと、各システムバスに接続される主記憶装
置と、同じく各システムバスに接続され外部と入出力の
インタフェースをとるための二重化された入出力バスア
ダプタとを備えたものである。
【0134】また、上記の構成により、プロセッシング
ボード単体を十分な信頼性を持たせることができ、これ
を既存のI/Oバスにそのまま挿入することで、I/O
を除いた部分を二重化することができるという効果があ
る。
ボード単体を十分な信頼性を持たせることができ、これ
を既存のI/Oバスにそのまま挿入することで、I/O
を除いた部分を二重化することができるという効果があ
る。
【0135】
【発明の効果】以上のようにこの発明によれば、キャッ
シュメモリを含めたプロセッシングユニット全体の信頼
性を向上させるとともに、高速動作が可能なシステムを
提供することができる。
シュメモリを含めたプロセッシングユニット全体の信頼
性を向上させるとともに、高速動作が可能なシステムを
提供することができる。
【図1】本発明の実施例1の全体構成を示すブロック図
である。
である。
【図2】本発明の実施例1の多数決ユニットを示すブロ
ック図である。
ック図である。
【図3】本発明の実施例1の多数決回路を示す図であ
る。
る。
【図4】本発明の実施例1の多数決回路内にある比較回
路を示す図である。
路を示す図である。
【図5】本発明の実施例1の多数決回路内にあるエラー
判別回路を示す図である。
判別回路を示す図である。
【図6】本発明の実施例1の多数決回路内にある選択回
路を示す図である。
路を示す図である。
【図7】本発明の実施例1の多数決回路の動作を示す図
である。
である。
【図8】本発明の実施例1の機能回路を示す図である。
【図9】本発明の実施例1の凍結回路を示す図である。
【図10】本発明の実施例1の障害検出回路の真理値表
を示す図である。
を示す図である。
【図11】本発明の実施例1の制御レジスタのビットア
サインを示す図である。
サインを示す図である。
【図12】本発明の実施例1の故障が発生したプロセッ
シングユニットの復旧動作を示すフローチャート図であ
る。
シングユニットの復旧動作を示すフローチャート図であ
る。
【図13】本発明の実施例1の故障が発生したプロセッ
シングユニットの復旧動作を示すタイミングチャート図
である。
シングユニットの復旧動作を示すタイミングチャート図
である。
【図14】本発明の実施例1の主記憶装置の退避領域を
示す図である。
示す図である。
【図15】本発明の実施例1の電源投入時における自己
診断のシーケンスを示すフローチャート図である。
診断のシーケンスを示すフローチャート図である。
【図16】本発明の実施例1の動作フローチャート図で
ある。
ある。
【図17】本発明の実施例2の凍結回路を示すブロック
図である。
図である。
【図18】本発明の実施例2の機能回路を示すブロック
図である。
図である。
【図19】本発明の実施例3の機能回路を示すブロック
図である。
図である。
【図20】本発明の実施例4の凍結回路を示すブロック
図である。
図である。
【図21】本発明の実施例4の機能回路を示すブロック
図である。
図である。
【図22】本発明の実施例4のタイマの関係図である。
【図23】本発明の実施例4のタイマの起動/停止/設
定時間経過後の処置を示すブロック図である。
定時間経過後の処置を示すブロック図である。
【図24】本発明の実施例4の制御レジスタのビットア
サインを示す図である。
サインを示す図である。
【図25】本発明の実施例5の全体構成を示すブロック
図である。
図である。
【図26】本発明の実施例6の全体構成を示すブロック
図である。
図である。
【図27】従来の高信頼性ディジタルデータプロセッサ
のブロック図である。
のブロック図である。
【図28】従来の障害回復動作を示すフローチャート図
である。
である。
【図29】従来のフォールトトレラントな機能を備えた
コンピュータを示すブロック図である。
コンピュータを示すブロック図である。
【図30】従来の障害回復動作を示すフローチャート図
である。
である。
【図31】従来の高信頼化コンピュータシステムを示す
ブロック図である。
ブロック図である。
【図32】従来の障害回復動作を示すフローチャート図
である。
である。
【図33】従来の障害回復方式を示す図である。
【図34】従来のメモリバックアップシステムを示すブ
ロック図である。
ロック図である。
【図35】従来の障害回復動作を示すフローチャート図
である。
である。
1 プロセッシングユニット 2 多数決回路 7 多数決信号 9 単一故障信号 14 機能回路 70 接続フラグ 125 プロセッシングボード 135 多数決ユニット 141 システムバス 143 主記憶装置 145 入出力バスアダプタ 147 I/Oバス 149 I/O装置 161 応答信号(A) 162 応答信号(B) 163 応答信号(C) 202 凍結回路 213 隔離フラグ 214 強制割込フラグ 217 同期フラグ 240 接続セーブフラグ 271 制御レジスタ 280 隔離監視タイマ 301 下限フェンスレジスタ 302 上限フェンスレジスタ 381 隔離時間タイマ 382 隔離間隔タイマ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 大野 次彦 鎌倉市大船五丁目1番1号 三菱電機株式 会社情報システム研究所内 (72)発明者 畑下 豊仁 鎌倉市大船五丁目1番1号 三菱電機株式 会社情報システム研究所内 (72)発明者 亀丸 敏久 鎌倉市上町屋325番地 三菱電機株式会社 コンピュータ製作所内 (72)発明者 金田 典久 鎌倉市上町屋325番地 三菱電機株式会社 コンピュータ製作所内 (72)発明者 加藤 守 鎌倉市上町屋325番地 三菱電機株式会社 コンピュータ製作所内
Claims (23)
- 【請求項1】 同一の命令を実行し、各々プロセッサと
キャッシュメモリとをもつX個(X≧3)以上のプロセ
ッシングユニットと、該プロセッシングユニットのうち
1つを選択し、かつ外部と入出力のインタフェースをと
る多数決ユニットと、プロセッシングユニットと多数決
ユニットを接続するプロセッサバスとを備えたことを特
徴とするプロセッシングボード。 - 【請求項2】 上記プロセッシングボードは、さらに、
同一クロック信号を各プロセッシングユニットに供給す
るクロックを備えたことを特徴とする請求項1記載のプ
ロセッシングボード。 - 【請求項3】 上記プロセッシングボードにおいて、多
数決ユニットを二重化したことを特徴とする請求項1記
載のプロセッシングボード。 - 【請求項4】 上記多数決ユニットは、プロセッシング
ユニットからの信号を比較して1つの信号を多数決信号
として選択する多数決回路と、多数決回路により選択さ
れた多数決信号と外部とのインタフェース機能をもつ機
能回路を備えていることを特徴とする請求項1記載のプ
ロセッシングボード。 - 【請求項5】 上記多数決ユニットは、さらに、上記機
能回路が上記多数決回路から次の多数決信号を受け付け
可能な場合に、上記プロセッシングユニットに応答信号
を出力する凍結回路を備えていることを特徴とする請求
項4記載のプロセッシングボード。 - 【請求項6】 上記多数決回路は、X個(X≧3)のプ
ロセッシングユニットからそれぞれ出力されるnビット
(n≧1)の信号を入力信号として入力し、異なるY個
(X>Y≧2)のプロセッシングユニットを組み合せ、
各組み合せでそれぞれ入力信号を比較する比較手段と、
上記比較手段の比較結果に基づいて、上記X個のプロセ
ッシングユニットの信号の中から1個のプロセッシング
ユニットの入力信号を選択して多数決信号として出力す
る選択手段を備えたことを特徴とする請求項5記載のプ
ロセッシングボード。 - 【請求項7】 上記多数決回路は、さらに、上記比較手
段の比較結果に基づいて、上記X個のプロセッシングユ
ニットの中に故障したプロセッシングユニットが存在す
ることを判別するエラー判別手段を備えたことを特徴と
する請求項6記載のプロセッシングボード。 - 【請求項8】 上記比較手段は、Y個のnビットで構成
される入力信号の対応する各ビットの一致を判定するこ
とにより、Y個のプロセッシングユニットからの入力信
号の一致を示す比較結果を出力する複数の比較回路を備
えたことを特徴とする請求項6記載のプロセッシングボ
ード。 - 【請求項9】 上記凍結回路は、多数決回路によるプロ
セッシングユニットの信号の比較結果から故障のあるプ
ロセッシングユニットを検出する障害検出回路と、故障
と判定されたプロセッシングユニットに対して応答信号
を返さないことにより、故障したプロセッシングユニッ
トの動作を一時的に凍結させる接続制御手段と、正常な
プロセッシングユニットに対して故障が発生したことを
伝える伝達手段を備えることを特徴とする請求項5記載
のプロセッシングボード。 - 【請求項10】 上記凍結回路は、各プロセッシングユ
ニットの接続を指定する接続レジスタを有し、1つのプ
ロセッシングユニットを単独で動作させる隔離動作手段
を備えたことを特徴とする請求項9記載のプロセッシン
グボード。 - 【請求項11】 上記故障したプロセッシングユニット
は、上記隔離動作手段により単独で操作しながら自己診
断を行いその自己診断結果を保存する診断手段と、正常
なプロセッシングユニットは、保存された自己診断を解
析する解析手段を備えたことを特徴とする請求項10記
載のプロセッシングボード。 - 【請求項12】 上記プロセッシングユニットは、上記
解析手段による解析結果に基づいて、故障したプロセッ
シングユニットを正常なプロセッシングユニットに同期
させる同期手段をもつことを特徴とする請求項11記載
のプロセッシングボード。 - 【請求項13】 上記プロセッシングボードは、上記隔
離動作手段により、リセット時のプロセッシングユニッ
トの自己診断をプロセッシングユニットごとに実施する
セルフテスト手段を備えたことを特徴とする請求項10
記載のプロセッシングボード。 - 【請求項14】 上記凍結回路は、上記診断手段による
故障したプロセッシングユニットの自己診断が一定時間
以内に終了しなかった場合、隔離動作手段による単独動
作をキャンセルすることにより故障したプロセッシング
ユニットの自己診断を終了させる診断監視手段を備えた
ことを特徴とする請求項11記載のプロセッシングボー
ド。 - 【請求項15】 上記機能回路は、情報を記憶するメモ
リ空間を有する外部に接続された記憶部とのインタフェ
ースをとるとともに、上記診断手段が故障したプロセッ
シングユニットの自己診断結果を記憶部へ書き込む場
合、書き込み先のメモリ空間を限定するチェック回路を
備えたことを特徴とする請求項11記載のプロセッシン
グボード。 - 【請求項16】 上記凍結回路は、上記診断処理による
故障したプロセッシングユニットの自己診断処理を時分
割して動作させることにより、正常なプロセッシングユ
ニットの動作を一定時間以上停止させない診断分割手段
を備えたことを特徴とする請求項11記載のプロセッシ
ングボード。 - 【請求項17】 請求項1〜14又は15記載のプロセ
ッシングボードと、多数決ユニットに接続されるシステ
ムバスと、システムバスに接続される記憶部と、同じく
システムバスに接続される入出力バスアダプタと、入出
力バスアダプタに接続されるI/Oバスと、各I/Oバ
スに接続されるI/O装置を備えたことを特徴とする計
算機。 - 【請求項18】 上記プロセッシングボードは、さら
に、多数決ユニットに接続され二重化されたシステムバ
スと、各システムバスに接続される記憶部と、同じく各
システムバスに接続され外部と入出力のインタフェース
をとるための二重化された入出力バスアダプタとを備え
たことを特徴とする請求項1〜14又は15記載のプロ
セッシングボード。 - 【請求項19】 請求項18記載のプロセッシングボー
ドと、入出力バスアダプタに接続されるI/Oバスと、
I/Oバスに接続されるI/O装置を備えたことを特徴
とする計算機。 - 【請求項20】 同一の命令を実行し、各々プロセッサ
とキャッシュメモリとをもつX個(X≧3)以上ののプ
ロセッシングユニットと、該プロセッシングユニットの
うち1つを選択し、かつ外部と入出力のインタフェース
をとる多数決ユニットとを有するプロセッシングボード
の障害復旧方法において、以下の工程を有する障害復旧
方法 (a)上記多数決ユニットによりプロセッシングユニッ
トの故障を検出し、故障したプロセッシングユニットの
動作を停止させる故障検出工程、(b)故障したプロセ
ッシングユニットを単独で動作させ自己診断を行わせる
故障診断工程、(c)故障診断工程による自己診断結果
に基づいて、上記故障したプロセッシングユニットを正
常なプロセッシングユニットに同期させて動作を再開さ
せる同期工程。 - 【請求項21】 上記プロセッシングボードは、プロセ
ッシングユニットの接続を指定する制御レジスタを有
し、上記故障検出工程は上記制御レジスタに所定の値を
設定することにより、故障したプロセッシングユニット
の動作を停止させるレジスタ設定工程を有することを特
徴とする請求項20記載の障害復旧方法。 - 【請求項22】 上記プロセッシングボードは、プロセ
ッシングユニットの接続を指定する制御レジスタを有
し、上記故障診断工程は上記制御レジスタに所定の値を
設定することにより、故障したプロセッシングユニット
を単独で動作させるレジスタ設定工程を有することを特
徴とする請求項20記載の障害復旧方法。 - 【請求項23】 上記プロセッシングボードは、プロセ
ッシングユニットの接続を指定する制御レジスタを有
し、上記同期工程は上記制御レジスタに所定の値を設定
することにより、故障したプロセッシングユニットと正
常なプロセッシングユニットの同期をとるレジスタ設定
工程を有することを特徴とする請求項20記載の障害復
旧方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5253281A JPH07105037A (ja) | 1993-10-08 | 1993-10-08 | プロセッシングボード及び計算機及び障害復旧方法 |
US08/675,951 US5812757A (en) | 1993-10-08 | 1996-07-05 | Processing board, a computer, and a fault recovery method for the computer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5253281A JPH07105037A (ja) | 1993-10-08 | 1993-10-08 | プロセッシングボード及び計算機及び障害復旧方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH07105037A true JPH07105037A (ja) | 1995-04-21 |
Family
ID=17249105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5253281A Pending JPH07105037A (ja) | 1993-10-08 | 1993-10-08 | プロセッシングボード及び計算機及び障害復旧方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH07105037A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016031657A (ja) * | 2014-07-29 | 2016-03-07 | 三菱重工業株式会社 | システム管理装置およびシステム |
CN110196550A (zh) * | 2018-02-26 | 2019-09-03 | Arm有限公司 | 电路 |
-
1993
- 1993-10-08 JP JP5253281A patent/JPH07105037A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016031657A (ja) * | 2014-07-29 | 2016-03-07 | 三菱重工業株式会社 | システム管理装置およびシステム |
CN110196550A (zh) * | 2018-02-26 | 2019-09-03 | Arm有限公司 | 电路 |
JP2019149158A (ja) * | 2018-02-26 | 2019-09-05 | エイアールエム リミテッド | 回路機器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8234521B2 (en) | Systems and methods for maintaining lock step operation | |
US5295258A (en) | Fault-tolerant computer system with online recovery and reintegration of redundant components | |
EP1573544B1 (en) | On-die mechanism for high-reliability processor | |
US5812757A (en) | Processing board, a computer, and a fault recovery method for the computer | |
JP4275771B2 (ja) | ミラー化ライトバックキャッシュモジュールのウォームスワップ | |
EP0817053B1 (en) | Memory management in fault tolerant computer systems | |
EP0433979A2 (en) | Fault-tolerant computer system with/config filesystem | |
JPH079625B2 (ja) | フォールトトレラントな能力を備えたコンピュータ | |
JPS63113638A (ja) | エラ−・チエツク装置 | |
US6785763B2 (en) | Efficient memory modification tracking with hierarchical dirty indicators | |
JPH0934809A (ja) | 高信頼化コンピュータシステム | |
JP3301992B2 (ja) | 電源故障対策を備えたコンピュータシステム及びその動作方法 | |
EP1380950B1 (en) | Fault tolerant information processing apparatus | |
US20020065996A1 (en) | Processor state reintegration | |
US6950907B2 (en) | Enhanced protection for memory modification tracking with redundant dirty indicators | |
JPH07175765A (ja) | 計算機の障害回復方法 | |
JP3774826B2 (ja) | 情報処理装置 | |
US6785777B2 (en) | Control logic for memory modification tracking with hierarchical dirty indicators | |
JP3424968B2 (ja) | 計算機システム及びプロセッサチップ及び障害復旧方法 | |
JPH07105037A (ja) | プロセッシングボード及び計算機及び障害復旧方法 | |
US6981172B2 (en) | Protection for memory modification tracking | |
JPH05313930A (ja) | 高信頼度化情報処理装置 | |
JPH0695902A (ja) | プロセッサ二重化方式の情報処理装置 | |
JPH04241038A (ja) | 高信頼化コンピュータシステム及びその復旧方法並びにプロセッサボード及びその交換方法 | |
JPH06139091A (ja) | 高信頼度化情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20010619 |