JPH07175765A - 計算機の障害回復方法 - Google Patents

計算機の障害回復方法

Info

Publication number
JPH07175765A
JPH07175765A JP5332662A JP33266293A JPH07175765A JP H07175765 A JPH07175765 A JP H07175765A JP 5332662 A JP5332662 A JP 5332662A JP 33266293 A JP33266293 A JP 33266293A JP H07175765 A JPH07175765 A JP H07175765A
Authority
JP
Japan
Prior art keywords
processing
processing board
board
failed
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5332662A
Other languages
English (en)
Inventor
Tsuguhiko Ono
次彦 大野
Takashi Tanabe
隆司 田辺
Hiroshi Okamoto
弘 岡本
Toyohito Hatashita
豊仁 畑下
Kaoru Abe
薫 阿部
Toshihisa Kamemaru
敏久 亀丸
Masakazu Soga
正和 曽我
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP5332662A priority Critical patent/JPH07175765A/ja
Publication of JPH07175765A publication Critical patent/JPH07175765A/ja
Priority to US08/675,951 priority patent/US5812757A/en
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

(57)【要約】 【目的】 プロセッシングボード故障時に、早期にシス
テムから故障を取り除き、二次故障の発生を最小限にと
どめ、システムとしての可用性を高める。 【構成】 システムバスと該システムバスに接続される
主記憶装置、およびシステムバスに接続されるプロセッ
シングボードを複数台備えられる高信頼化計算機におい
て、前記プロセッシングボード125(1),125
(2),・・・,125(n+1)は各々にキャッシュ
メモリをもつ少なくとも3台のプロセッシングユニット
により同一命令を実行しており、プロセッシングボード
125(1)のいずれかのプロセッシングユニットの故
障時には、残りのプロセッシングユニットでプロセス
a,dを継続実行し、他の複数台のプロセッシングボー
ド125(2),125(n+1)にプロセスh,iを
移行する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、多重化による高信頼
化計算機において、障害発生時に、システムとして処理
を続行可能ならしめるフォールトトレラント計算機に関
するものである。特にこの発明は、障害発生時のシステ
ムとして処理を続行可能ならしめるプロセッシングボー
ドの回復方法に関するものである。なお、この発明に関
係する特許出願として同一出願人による特願平5−13
0724号の「多数決回路」がある。
【0002】
【従来の技術】フォールトトレラント計算機の分野にお
いて、計算機の信頼性を高める方法として、故障率の高
いモジュールを多重化し、あるモジュールが故障しても
残りのモジュールで正しい動作を行う方式が一般的にと
られている。この、多重化の範囲はCプロセッシングユ
ニット、メモリ、バスなどであり、これらに種々のエラ
ーチェック機能を付加して、高信頼化を行っている。
【0003】従来例として、例えば、図43に示すよう
に特開昭58−137054号に示す「高信頼性ディジ
タルデータプロセッサ」(USP No.465485
7に対応する日本出願)では、プロセッシングボード、
主記憶、入出力制御装置が、通称ペア&スペアとよばれ
る二重化された2枚のボードで構成され(プロセッシン
グユニットとしては、全体で4個のプロセッサを必要と
する)、完全に同期動作を行う。各ボード内では、出力
段の比較照合を行い、一致しなければ、そのボードは故
障したものとみなし、外部バスへのアクセスをしない。
故障したボードの情報はスペア側に伝えられ、スペア側
のみでシステムは動作を実行し続けることができる。
【0004】以下にこのシステムの構成上の特徴につい
て記述する。 (1)ペア&スペア方式 ・各機能装置はバックアップ冗長パートナを持ってい
る。 ・各機能装置は自分自身での故障検出能力がある。 (2)バス構成 ・各機能装置は二重化バス(A及びB)と、共通バス
(X)で接続される。 ・各機能装置は共通バス(X)から供給される同一のク
ロックで完全同期動作を行う。 ・各機能装置はパートナと一緒に二重化バスに同じ信号
を同時にドライブする。 (3)バス監視機構 ・記憶装置上で二重化バスの監視(データの比較及び、
パリティチェック)を行っている。 (4)電源 ・電源は二重化され、それぞれ別の経路で二重化された
CPUやメモリに供給される。 ・それぞれのCPU、メモリやIOCは独立したDC/
DCコンパータを搭載している。 ・また電源検出回路及びクランプ回路を持っており、電
圧が規定値以下になるとそれぞれのバス出力を抑止す
る。
【0005】図44はこのシステムにおける障害回復処
理の流れを示す図である。ST901においては、正常
動作の場合を示している。即ち、各パートナどうしは完
全同期動作を行っている。その結果、二重化されたバス
には各パートナ双方からデータの入出力が行われる。次
に、ST902においては、各パートナの内部の二重化
モジュールが比較回路によって比較され、正常動作を行
っているかどうかがチェックされる。この正常動作のチ
ェックにより異常が発見された場合、ST903におい
て故障したパートナはバスへの出力を停止する。その結
果、ST904に示すように一方の正常に動作するパー
トナによる動作が継続される。次に、ST905におい
ては、故障したモジュールの交換が行われる。ST90
6においては、正常動作を行っているモジュールから交
換された新しいモジュールへ状態コピーが行われ、その
後2つのパートナは完全同期動作する。即ち、ST90
1の状態に戻る。
【0006】また、図45に示すように特開平2−20
2636号に示す「フォールトトレラントが機能を備え
たコンピュータ」(USP No.5193175に対
応する日本出願)では、同一周波数だが位相が異なるク
ロックで各々動作する3つの独立したプロセッシングボ
ードで構成され、各プロセッシングボードは、プロセッ
サ、キャッシュメモリ、ローカルメモリから成る。各プ
ロセッシングボードは、グローバルメモリへのアクセス
時、及びサイクルカウンタと称するカウンタのオーバフ
ロー時に同期をとりながら動作する。プロセッシングボ
ード故障時には、そのボードを外部バスと切り離し、残
りのプロセッシングボードで縮退運転する。
【0007】次に、このシステムの構成上の特徴につい
て以下に説明する。 (1)TMR(Triple Modular Red
undancy)方式 ・CPU、キャッシュ、ローカルメモリを1枚のCPU
ボードにし、3枚のCPUボードで1つのBPU(Ba
sic ProcessingUnit)を構成してい
る。 ・それぞれのCPUボードは独立クロックで動作する。 (2)バス構成 ・CPUボードとグローバルメモリを接続するバスを備
えている。 ・グローバルメモリとIOプロセッサを接続する二重化
入出力バスを備えている。 (3)多数決回路 ・グローバルメモリボードの中に多数決回路があり、グ
ローバルメモリアクセス時にCPUの動作がチェックさ
れる。 (4)同期化の方法が特徴的 ・CPU、グローバルメモリは非同期(別々のクロック
を持つ)で動作する。 ・緩やかな同期方式を実現している。例えば、グローバ
ルメモリのアクセス時やサイクルカウンタのオーバフロ
ー時に進んでいるCPUをストールさせる。
【0008】図46はこのシステムにおける障害回復処
理の流れを示す図である。ST911においては、3つ
のCPUがそれぞれ別なプロセッシングボードでそれぞ
れローカルメモリを用いて動作する。それぞれのプロセ
ッシングボードは、同一周波数であるが位相が異なるク
ロックで各々動作し、緩やかな同期動作を行う。ST9
12においては、これらCPUが外部にあるグローバル
メモリへのアクセス時に多数決回路で故障しているプロ
セッシングボードが存在するかどうかを判定する。も
し、多数決回路により故障しているプロセッシングボー
ドが存在していることが判明した場合には、ST913
において故障したCPUボードを切り離す。次に、ST
914において残りの2つのCPUボードを用いて運転
を継続する。次に、ST915において故障を起こした
CPUボードを交換する。次に、ST916において正
常に動作しているCPUにより自己のCPUボードのロ
ーカルメモリにあるデータをグローバルメモリへコピー
する。更に、ST917において全てのCPUに対して
ソフトリセットをかけ、3つのCPUの命令の同期化を
行う。このソフトリセットにより、全てのCPUはグロ
ーバルメモリから必要なデータをローカルメモリへコピ
ーする。そして、グローバルメモリから得た共通のデー
タを用いて、3つのCPUが処理を続行する。
【0009】更に、図47に示すように特開平4−24
1039号に示す「高信頼化コンピュータシステム」及
び特開平4−241038号に示す「高信頼化コンピュ
ータシステムの復旧方法」では、同一プロセッシングボ
ードに3つのプロセッサを実装し、同一クロックで完全
同期して動作する。該プロセッサのうち、選択回路によ
り選択された2つの出力をそれぞれ外部に出力する。プ
ロセッサからキャッシュメモリや外部へのアクセス経路
は、選択回路の判定結果に従って内部バスのゲートの開
閉することで決定される。プロセッシングボード故障時
には、残りの構成で動作を継続し、その後新たなる交換
ボードを挿入して処理を移行する。
【0010】次に、このシステムにおける構成上の特徴
について以下に記述する。 (1)TPR方式 ・3つのCPUと2つのキャッシュをBPUと呼ぶ1つ
のボードに実装する。 ・真中のCPUはチェッカ用として動作する。 ・多数決により正常な2CPUの出力を選択する。 (2)バス構成 ・CPU、キャッシュ、入出力インタフェースを接続す
る内部バスを備えている。 ・BPUボード、主記憶、IOCを接続する二重化シス
テムバスを備えている。 (3)復旧方法が特徴 ・故障BPUの処理の引継ぎの為にマルチプロセッサ構
成が基本となっている。 ・復旧時にBPUボード単位で交換し、CPUの組替え
による障害を排除する。
【0011】次に、図48はこのシステムにおける障害
の回復処理の流れを示す図である。ST921におい
て、3つのCPUが一枚のボード上で完全同期動作をし
ている。このシステムにおいては、多数決回路が2つの
CPUの出力を選択し外部に出力する。次に、ST92
2においては、多数決回路とパリティチェックに基づい
て、正常に動作しているCPUの判定を行う。ST92
2において故障したCPUが存在することが判明した場
合には、ST923において故障を起こしたCPU及び
/あるいは故障を起こしたキャッシュを切り離す。ST
924においては、残りの構成を用いて運転を継続す
る。次に、ST925において、現在実行中のタスクを
主記憶に退避させる。更に、ST926においては、新
しいCPUボードを追加し、この新しいCPUボードに
より、ST925で主記憶に退避した実行中のタスクの
継続処理を行う。次に、ST927において故障を起こ
したCPUボードの動作を停止させ取り外す。
【0012】次に、図49は前述した3つの従来例によ
るシステムの障害の復旧前と復旧後の状態を示す図であ
る。図において、A,B,・・・,Fは、CPUを示し
ている。また、太い実線で示されたブロックはCPUを
搭載したボードを示している。図49(a)は第1番目
の従来例の場合を示しており、図49(b)は第2番目
の従来例を示しており、図49(c)は第3番目の従来
例の場合を示している。いずれの場合においてもCPU
Aが故障した場合を示している。図49(a)の場合
には、CPUAを搭載したプロセッシングボードを取り
替えることにより、CPU E,Fを搭載したプロセッ
シングボードを用いることになる。図49(b)の場合
には、CPU Aを搭載したボードの代わりにCPU
Dを搭載したボードが用いられる。図49(c)の場合
には、CPU Aを搭載したボードの代わりにCPU
D,E,Fを搭載した新しいプロセッシングボードが用
いられる。
【0013】また、図50に示すように特開昭59−1
60899号に示された「メモリバックアップシステ
ム」(US Patent Application
No.282629に対応する日本出願)では、前記特
開昭58−137054号と同様のプロセッシングボー
ド2台から構成され、ボードPEには2つのプロセッシ
ングユニットを備えており、同一のクロックに同期して
出力段の比較照合を行っている。比較結果が一致しなけ
れば、そのボードは故障とみなし、外部バスと隔離し
て、前回のキャッシュメモリのフラッシュポイントから
別のプロセッシングボードが処理を再実行する。
【0014】以下にこのシステムの構成上の特徴を記述
する。 (1)ペア&バックアップ方式 ・PEは2CPUとキャッシュメモリで構成され、2つ
のインタフェース部をもつ。 ・それぞれのCPUは同一クロックで同期動作を行い、
出力結果を比較している。 ・PEは故障を検出すると停止する。 (2)チェックポイントセーブ ・各PEは定期的(100mS)にメモリの状態ブロッ
クを更新する。 ・各タスクはタスクの切り替わり時にPE内部の全ての
状態を、メモリに退避している。 (3)メモリの状態 ・メモリバス及びメモリは二重化されており、それぞれ
エラー検出できるが、1つのトランザクションでは片側
のバスを使用し、片側のメモリのみアクセスする。 ・片側の書き込みが正常に終了するともう一方にも書き
込む。 ・従ってどちらか片方は常に正しい状態を保持してい
る。
【0015】次に、図51はこのシステムの障害回復処
理の流れを示す図である。ST931においては、2つ
のCPU(PE)が同期動作を行い、前述した用に定期
的にチェックポイントセーブを行っている。次に、ST
932において、比較結果が一致しないPEが存在した
場合には、そのPEの動作を停止させる。次に、ST9
33において、正常に動作しているPEが故障起こして
動作を停止しているPEを発見する。ST934におい
ては、正常なPEは故障したPEがチェックポイントセ
ーブによりメモリに記憶した状態を取り出し、その状態
から再実行を行う。その後ST935においては、故障
を起こしたCPUボードを交換する。
【0016】
【発明が解決しようとする課題】従来の技術によると、
1つの箇所が故障しても、正常に動作を続けるフォール
トトレラント計算機を実現するために、さまざまな方式
がなされているが、以下の問題点があった。
【0017】上記従来例の特開昭58−137054号
では、プロセッシングボードがペア&スペアの2枚で構
成され(全体で4個のプロセッサが動作する)、ペアボ
ードの故障時には、スペアボードで縮退動作するが、そ
の後のペアボードと新たなボードとの交換時間がシステ
ムの可用性を低下させるものとなっていた。
【0018】また、上記従来例の特開平2−20263
6号では、3つの独立したプロセッシングボード(同一
周波数だが位相が異なるクロックで動作する)で構成さ
れ、いづれかのプロセッシングボード故障時には、残り
のボードで縮退動作するが、前述同様に、その後の新た
なるボードとの交換時間がシステムの可用性を低下させ
るものとなっていた。
【0019】また、上記従来例の特開平4−24103
8、特開平4−241039号では、同一プロセッシン
グボードに3つのプロセッサを実装し、同一クロックで
完全同期して動作するもので、プロセッシングボードの
一部故障時には、残りの構成により縮退動作するが、前
述同様に、その後の新たなるボードとの交換時間がシス
テムの可用性を低下させるものとなっていた。
【0020】また、上記従来例の特開昭59−1608
99号では、プロセッシングボードは独立クロックで動
作し、内部は2つのプロセッサで構成され、プロセッサ
故障時は、前回のキャッシュメモリのフラッシュタイミ
ングで主記憶に格納された内容から別のプロセッシング
ボードが処理を再実行するチェックポイント方式で、処
理のオーバヘッドがあるとともに、チェックポイントま
で処理が後戻りする欠点がある。また、上記従来例で
は、プロセッシングユニットの故障時にも、ボード全体
を交換しなければならず、予備品として高価なボードを
準備する必要があった。
【0021】この発明は、上記のような問題点を解消す
るためになされたもので、システムの可用性をより高め
るために、構成要素を多重化するだけでなく、故障から
回復までの時間を実質的により小さくすることが望まれ
ているが、特にプロセッシングボード故障時において、
できるだけ早期にシステムから故障を取り除き、二次故
障の発生を最小限にとどめ、システムとしての可用性を
高める回復方法を提供することを目的とする。
【0022】また、プロセッシングユニットの故障時に
は、できるだけ保守費用を下げるために、ユニット単位
の交換もできる方法を提供することを目的とする。
【0023】
【課題を解決するための手段】第1の発明は、同一命令
を実行する3台以上のプロセッシングユニットを有しオ
ペレーティングシステムによりスケジュールされた処理
を実行するプロセッシングボードを複数備えた計算機の
障害回復方法において、以下の工程を備えたことを特徴
とする。 (a)プロセッシングユニットの故障を検出し、故障し
たプロセッシングユニットの動作を停止させる故障検出
工程、(b)故障したプロセッシングユニットを単独で
動作させ自己診断を行わせる故障診断工程、(c)故障
診断工程による自己診断結果により、故障が一時的なも
のである場合、上記故障したプロセッシングユニットを
正常なプロセッシングユニットに同期させて動作を再開
させる同期工程、(d)故障診断工程による自己診断結
果により、故障が固定的なものである場合、残りの正常
なプロセッシングユニットで処理を継続し、その後故障
したプロセッシングユニットを有するプロセッシングボ
ードの処理を他のプロセッシングボードに移行する故障
回避工程。
【0024】第2の発明は、同一命令を実行する3台以
上のプロセッシングユニットを有しオペレーティングシ
ステムによりスケジュールされた処理を実行するプロセ
ッシングボードを複数備えた計算機の障害回復方法にお
いて、以下の工程を備えたことを特徴とする。 (a)いずれかのプロセッシングユニットの故障時に、
故障したプロセッシングユニットを有するプロセッシン
グボードの他の正常なプロセッシングユニットを用いて
命令を継続して実行する継続実行工程、(b)故障した
プロセッシングユニットを有するプロセッシングボード
が実行すべき処理であって継続実行工程により実行され
る処理以外の処理を他のプロセッシングボードに移行す
る移行工程。
【0025】第3の発明は、同一命令を実行する脱着可
能な3台以上のプロセッシングユニットを有し、スケジ
ュールされた処理を実行する脱着可能なプロセッシング
ボードを複数備えた計算機の障害回復方法において、以
下の工程を備えたことを特徴とする。 (a)いずれかのプロセッシングユニットの故障時に、
故障したプロセッシングユニットを有するプロセッシン
グボードの他の正常なプロセッシングユニットを用いて
命令を継続して実行する継続実行工程、(b)故障した
プロセッシングユニットを有するプロセッシングボード
にスケジュールされた処理を他のプロセッシングボード
に移行する移行工程、(c)上記移行工程後、故障した
プロセッシングユニットを有するプロセッシングボード
を抜去し、故障したプロセッシングユニットを新たなプ
ロセッシングユニットと交換し、そのプロセッシングボ
ードを再び装着する脱着工程、(d)上記脱着工程後、
再び装着されたプロセッシングボードを動作させる動作
工程。
【0026】第4の発明は、同一命令を実行する脱着可
能な3台以上のプロセッシングユニットを有するプロセ
ッシングボードを備えた計算機の障害回復方法におい
て、以下の工程を備えたことを特徴とする。 (a)いずれかのプロセッシングユニットの故障時に、
故障したプロセッシングユニットを有するプロセッシン
グボードの他の正常なプロセッシングユニットを用いて
命令を継続して実行する継続実行工程、(b)命令の継
続実行中に、故障したプロセッシングユニットを新たな
プロセッシングユニットと交換する交換工程、(c)交
換した新たなプロセッシングユニットを他のプロセッシ
ングユニットとともに動作させる同期工程。
【0027】第5の発明は、同一命令を実行する3台以
上のプロセッシングユニットとこれらプロセッシングユ
ニットの出力をそれぞれ入力して多数決をとりその多数
決結果に基づいて動作する複数の独立系とを有するプロ
セッシングボードを複数備えた計算機の障害回復方法に
おいて、以下の工程を備えたことを特徴とする。 (a)いずれかのプロセッシングユニットの故障時に、
いずれの独立系においても他の正常なプロセッシングユ
ニットの出力により多数決をとり処理を継続して実行す
る継続実行工程、(b)故障したプロセッシングユニッ
トを有するプロセッシングボードが実行すべき処理であ
って継続実行工程により実行される処理以外の処理を他
のプロセッシングボードに移行する移行工程。
【0028】第6の発明は、同一命令を実行する3台以
上のプロセッシングユニットとこれらプロセッシングユ
ニットの出力をそれぞれ入力して多数決をとりその多数
決結果に基づいて動作する複数の独立系とを有するプロ
セッシングボードを複数備えた計算機の障害回復方法に
おいて、以下の工程を備えたことを特徴とする。 (a)いずれかの独立系の故障時に、他の独立系を用い
て処理を継続して実行する継続実行工程、(b)上記故
障した独立系を有するプロセッシングボードが実行すべ
き処理であって、上記継続実行工程により実行される処
理以外の処理を他のプロセッシングボードに移行する移
行工程。
【0029】第7の発明は、処理を実行する2台のプロ
セッシングボードを組にした論理プロセッシングボード
を備えた計算機の障害回復方法において、以下の工程を
備えたことを特徴とする。 (a)論理プロセッシングボードの一方のプロセッシン
グボードを用いて処理を実行する通常実行工程、(b)
上記通常実行工程で動作するプロセッシングボードの故
障時に、通常実行工程で動作するプロセッシングボード
の他の正常な部分により処理を継続する継続実行工程、
(c)上記継続実行工程後、論理プロセッシングボード
の他方のプロセッシングボードに処理を移行する移行工
程。
【0030】第8の発明では、上記継続実行工程は、
(a)故障したプロセッシングボードに対して、既にス
ケジュールされた処理を故障したプロセッシングボード
で実行する実行工程、(b)既にスケジュールされた処
理を故障したプロセッシングボードで実行した後、故障
したプロセッシングボードの動作を停止する停止工程を
備えたことを特徴とする。
【0031】第9の発明では、上記移行工程は、(a)
プロセッシングボードに故障が発生したことをオペレー
ティングシステムに通知する故障通知工程、(b)通知
を受けたオペレーティングシステムが故障したプロセッ
シングボードへ新たな処理のスケジュールを中止し、新
たな処理を他のプロセッシングボードへスケジュールす
るスケジュール工程を備えたことを特徴とする。
【0032】第10の発明では、上記継続実行工程は、
(a)故障したプロセッシングボードが既に実行中の処
理を故障したプロセッシングボードで実行する実行工
程、(b)既に実行中の処理を故障したプロセッシング
ボードで実行した後、故障したプロセッシングボードの
動作を停止する停止工程を備えたことを特徴とする。
【0033】第11の発明では、上記移行工程は、
(a)プロセッシングボードに故障が発生したことをオ
ペレーティングシステムに通知する故障通知工程、
(b)通知を受けたオペレーティングシステムが故障し
たプロセッシングボードに対して既にスケジュールされ
た処理を他のプロセッシングボードへスケジュールしな
おすとともに、故障したプロセッシングボードへ新たな
処理のスケジュールを中止し、新たな処理を他のプロセ
ッシングボードへスケジュールするスケジュール工程を
備えたことを特徴とする。
【0034】第12の発明では、上記スケジュール工程
は、他のプロセッシングボードへ処理を割り当てる場
合、特定のプロセッシングボードに対して処理を割り当
てる工程を備えたことを特徴とする。
【0035】第13の発明では、上記スケジュール工程
は、更に、処理を割り当てられる特定のプロセッシング
ボードに対して既にスケジュールされた処理を他のプロ
セッシングボードに割り当てる工程を備えたことを特徴
とする。
【0036】第14の発明では、上記脱着工程の前に、
故障したプロセッシングユニットを有するプロセッシン
グボードが抜去可能な状態にあることをオペレータに通
知するボード交換通知工程を備えたことを特徴とする。
【0037】第15の発明では、上記交換工程の前に、
故障したプロセッシングユニットが交換可能な状態にあ
ることをオペレータに通知するユニット交換通知工程を
備えたことを特徴とする。
【0038】第16の発明では、上記同期工程は、
(a)交換した新たなプロセッシングユニットに対して
自己診断を行なわせる工程、(b)その診断結果に基づ
いて新たなプロセッシングユニットを他のプロセッシン
グユニットと同期させて動作させる工程を備えたことを
特徴とする。
【0039】第17の発明では、上記プロセッシングボ
ードは、プロセッシングボードを識別する識別子を有し
ており、識別子をもとに処理を各プロセッシングボード
に割り当てて命令を実行していくとともに、上記移行工
程は、いずれかのプロセッシングボードの故障時に、他
の正常なプロセッシングボードの識別子を故障したプロ
セッシングボードの識別子に変更する識別子変更工程を
備えたことを特徴とする。
【0040】第18の発明では、上記識別子はプロセッ
シングボードがI/O割り込みを受け付けるための割り
込みベクタであり、上記識別子変更工程は、割り込みベ
クタを変更する工程を備えたことを特徴とする。
【0041】第19の発明では、上記移行工程は、
(a)故障した一方のプロセッシングボードにより引き
継ぎデータを主記憶装置に転送する工程、(b)他方の
プロセッシングボードにより主記憶装置から引き継ぎデ
ータを受け取る工程、(c)故障したプロセッシングボ
ードのI/O割り込みベクタを他方のプロセッシングボ
ードに移行する工程、(d)他方のプロセッシングボー
ドにより処理を開始する工程、(e)故障したプロセッ
シングボードを交換する工程を備えたことを特徴とす
る。
【0042】第20の発明では、上記計算機は、N台
(N≧1)のプロセッシングボードで処理可能な処理量
に対してN+1台のプロセッシングボードを備え、
(a)通常、N+1台のプロセッシングボードを動作さ
せる工程、(b)上記継続実行工程実行中はN+1台の
プロセッシングボードを動作させる工程、(c)上記移
行工程実行後は、N台のプロセッシングボードを動作さ
せる工程を備えたことを特徴とする。
【0043】第21の発明では、上記計算機は、N台
(N≧1)のプロセッシングボードで処理可能な処理量
に対してN台のプロセッシングボードを備え、(a)通
常、N台のプロセッシングボードを動作させる工程、
(b)上記継続実行工程実行中は、新たなプロセッシン
グボードを追加してN+1台のプロセッシングボードを
動作させる工程、(c)上記移行工程実行後は、N台の
プロセッシングボードを動作させる工程を備えたことを
特徴とする。
【0044】第22の発明は、同一命令を実行する脱着
可能な3台以上のプロセッシングユニットを有するプロ
セッシングボードを備え、プロセッシングボードが障害
の有無にかかわりなく、各プロセッシングユニット毎に
各プロセッシングユニットに対して、そのプロセッシン
グユニットの抜去要求を通知するユニット抜去通知手段
を備えた計算機の障害回復方法において、以下の工程を
備えたことを特徴とする。 (a)上記ユニット抜去通知手段によりプロセッシング
ユニットの抜去要求を通知する要求工程、(b)上記要
求工程後、そのプロセッシングユニットの動作を停止さ
せる停止工程、(c)上記停止工程後、そのプロセッシ
ングユニットが抜去可能であることを通知するユニット
変換通知工程、(d)上記ユニット変換通知工程後、そ
のプロセッシングユニットを抜去する抜去工程。
【0045】第23の発明は、着脱可能なプロセッシン
グボードを備え、プロセッシングボードが障害の有無に
かかわりなくプロセッシングボードの抜去要求するボー
ド抜去通知手段を備えた計算機の障害回復方法におい
て、以下の工程を備えたことを特徴とする。 (a)上記ボード抜去通知手段によりプロセッシングボ
ードの抜去要求を通知する要求工程、(b)上記要求工
程後、そのプロセッシングボードの動作を停止させる停
止工程、(c)上記停止工程後、そのプロセッシングボ
ードが抜去可能であることを通知するボード変換通知工
程、(d)上記ボード変換通知工程後、そのプロセッシ
ングボードを抜去する抜去工程。
【0046】第24の発明は、同一命令を実行する3台
以上のプロセッシングユニットを有し、オペレーティン
グシステムによりスケジュールされた処理を実行するプ
ロセッシングボードを複数備えた計算機の障害回復方法
において、以下の工程を備えたことを特徴とする。 (a)故障発生後、故障したプロセッシングボードが、
オペレーティングシステムにその故障を通知する工程、
(b)オペレーティングシステムにより、故障したプロ
セッシングボードに対して新たな処理の割り付けを禁止
する工程、(c)故障したプロセッシングボードは、す
でにスケジュールされた処理を実行し、その後キャッシ
ュメモリをフラッシュし、オペレータにボード交換可能
状態を通知して故障したプロセッシングボードの動作を
停止する工程、(d)故障したプロセッシングボードを
新しいプロセッシングボードに交換する工程、(e)新
しいプロセッシングボードが、正常な設置状態であるこ
とをオペレータに通知し、自己診断を実行して、自己診
断が正常終了のとき、オペレーティングシステムにその
結果を通知する工程、(f)オペレーティングシステム
により、新しいプロセッシングボードに処理を割り当
て、故障前と同じ構成により処理を開始する工程。
【0047】第25の発明は、同一命令を実行する3台
以上のプロセッシングユニットを有し、オペレーティン
グシステムによりスケジュールされた処理を実行するプ
ロセッシングボードを複数備えた計算機の障害回復方法
において、上記プロセッシングボードは、I/O割り込
みを受け付けて他のプロセッシングボードに分配する割
り込みマスタ型プロセッシングボードと、割り込みマス
タ型プロセッシングボードから分配されたI/O割り込
みを受け付ける割り込みスレーブ型プロセッシングボー
ドがあり、各プロセッシングボードは各プロセッシング
ボードに割り当てられた割り込みベクタによりI/O割
り込みを受け付けるものであり、故障したプロセッシン
グボードが割り込みマスタ型プロセッシングボードの場
合、以下の工程を備えたことを特徴とする。 (a)故障発生後、故障したプロセッシングボードが、
オペレーティングシステムにその故障を通知する工程、
(b)オペレーティングシステムにより、故障したプロ
セッシングボードに対して新たな処理の割り付けを禁止
する工程、(c)オペレーティングシステムにより、故
障したプロセッシングボードに対する新たな処理を、他
のプロセッシングボードに移行する工程、(d)処理の
移行を受けたプロセッシングボードがその処理を開始す
る工程、(e)故障したプロセッシングボードにより、
故障したプロセッシングボードの割り込みベクタを他の
プロセッシングボードに移行し、その動作完了後オペレ
ーティングシステムにその旨を通知する工程、(f)故
障したプロセッシングボードがキャッシュメモリをフラ
ッシュする工程、(g)キャッシュメモリのフラッシュ
完了後、オペレータにボード交換可能状態を通知する工
程、(h)故障したプロセッシングボードを新しいプロ
セッシングボードに交換する工程、(i)新しいプロセ
ッシングボードが、正常な設置状態であることをオペレ
ータに通知し、自己診断を実行して、自己診断が正常終
了のとき、オペレーティングシステムにその結果を通知
する工程、(j)オペレーティングシステムにより、新
しいプロセッシングボードに処理を割り当て、故障前と
同じ構成により処理を開始する工程。
【0048】第26の発明は、同一命令を実行する3台
以上のプロセッシングユニットを有し、オペレーティン
グシステムによりスケジュールされた処理を実行するプ
ロセッシングボードを複数備えた計算機の障害回復方法
において、上記プロセッシングボードは、I/O割り込
みを受け付けて他のプロセッシングボードに分配する割
り込みマスタ型プロセッシングボードと、割り込みマス
タ型プロセッシングボードから分配されたI/O割り込
みを受け付ける割り込みスレーブ型プロセッシングボー
ドがあり、各プロセッシングボードは各プロセッシング
ボードに割り当てられた割り込みベクタによりI/O割
り込みを受け付けるものであり、故障したプロセッシン
グボードが割り込みスレーブ型プロセッシングボードの
場合、以下の工程を備えたことを特徴とする。 (a)故障発生後、故障したプロセッシングボードが、
オペレーティングシステムにその故障を通知する工程、
(b)オペレーティングシステムにより、故障したプロ
セッシングボードに対して新たな処理の割り付けを禁止
する工程、(c)オペレーティングシステムにより、故
障したプロセッシングボードに対する新たな処理を、他
のプロセッシングボードに移行する工程、(d)処理の
移行を受けたプロセッシングボードがその処理を開始す
る工程、(e)オペレーティングシステムにより、故障
したプロセッシングボードのI/O割り込み受付を停止
する工程、(f)故障したプロセッシングボードがキャ
ッシュメモリをフラッシュする工程、(g)キャッシュ
メモリのフラッシュ完了後、オペレータにボード交換可
能状態を通知する工程、(h)故障したプロセッシング
ボードを新しいプロセッシングボードに交換する工程、
(i)新しいプロセッシングボードが、正常な設置状態
であることをオペレータに通知し、自己診断を実行し
て、自己診断が正常終了のとき、オペレーティングシス
テムにその結果を通知する工程、(j)オペレーティン
グシステムにより、新しいプロセッシングボードに処理
を割り当て、故障前と同じ構成により処理を開始する工
程。
【0049】第27の発明は、同一命令を実行する3台
以上のプロセッシングユニットを有し、オペレーティン
グシステムによりスケジュールされた処理を実行するプ
ロセッシングボードを複数備えた計算機の障害回復方法
において、上記プロセッシングボードは、I/O割り込
みを受け付けて他のプロセッシングボードに分配する割
り込みマスタ型プロセッシングボードと、割り込みマス
タ型プロセッシングボードから分配されたI/O割り込
みを受け付ける割り込みスレーブ型プロセッシングボー
ドがあり、各プロセッシングボードは各プロセッシング
ボードに割り当てられた割り込みベクタによりI/O割
り込みを受け付けるものであり、故障したプロセッシン
グボードが割り込みマスタ型プロセッシングボードの場
合、以下の工程を備えたことを特徴とする。 (a)故障発生後、故障したプロセッシングボードが、
オペレーティングシステムにその故障を通知する工程、
(b)故障したプロセッシングボードにより、新しいプ
ロセッシングボードの挿入まで処理を継続する工程、
(c)新しいプロセッシングボードを挿入する工程、
(d)新しいプロセッシングボードが、正常な設置状態
であることをオペレータに通知し、自己診断を実行し
て、自己診断が正常終了のとき、オペレーティングシス
テムにその旨を通知する工程、(e)オペレーティング
システムが、新しいプロセッシングボードに処理を割り
当てる工程、(f)オペレーティングシステムにより、
故障したプロセッシングボードに対して新たな処理の割
り付けを禁止する工程、(g)オペレーティングシステ
ムにより、故障したプロセッシングボードに対する新た
な処理を、他のプロセッシングボードに移行する工程、
(h)処理の移行を受けたプロセッシングボードがその
処理を開始する工程、(i)故障したプロセッシングボ
ードにより、割り込みベクタを他のプロセッシングボー
ドに移行し、その動作完了後、オペレーティングシステ
ムにその旨を通知する工程、(j)故障したプロセッシ
ングボードはキャッシュメモリをフラッシュする工程、
(k)キャッシュメモリのフラッシュ完了後、オペレー
タにボード交換可能状態を通知する工程、(l)故障し
たプロセッシングボードを抜去する工程。
【0050】第28の発明は、同一命令を実行する3台
以上のプロセッシングユニットを有し、オペレーティン
グシステムによりスケジュールされた処理を実行するプ
ロセッシングボードを複数備えた計算機の障害回復方法
において、上記プロセッシングボードは、I/O割り込
みを受け付けて他のプロセッシングボードに分配する割
り込みマスタ型プロセッシングボードと、割り込みマス
タ型プロセッシングボードから分配されたI/O割り込
みを受け付ける割り込みスレーブ型プロセッシングボー
ドがあり、各プロセッシングボードは各プロセッシング
ボードに割り当てられた割り込みベクタによりI/O割
り込みを受け付けるものであり、故障したプロセッシン
グボードが割り込みスレーブ型プロセッシングボードの
場合、以下の工程を備えたことを特徴とする。 (a)故障発生後、故障したプロセッシングボードが、
オペレーティングシステムにその故障を通知する工程、
(b)故障したプロセッシングボードにより、新しいプ
ロセッシングボードの挿入まで処理を継続する工程、
(c)新しいプロセッシングボードを挿入する工程、
(d)新しいプロセッシングボードが、正常な設置状態
であることをオペレータに通知し、自己診断を実行し
て、自己診断が正常終了のとき、オペレーティングシス
テムにその旨を通知する工程、(e)オペレーティング
システムが、新しいプロセッシングボードに処理を割り
当てる工程、(f)オペレーティングシステムにより、
故障したプロセッシングボードに、新たな処理の割り付
けを禁止する工程、(g)オペレーティングシステムに
より、故障したプロセッシングボードに対する新たな処
理を、他のプロセッシングボードに移行する工程、
(h)処理の移行を受けたプロセッシングボードがその
処理を開始する工程、(i)オペレーティングシステム
により、故障したプロセッシングボードの割り込み受付
を停止する工程、(j)故障したプロセッシングボード
はキャッシュメモリをフラッシュする工程、(k)キャ
ッシュメモリのフラッシュ完了後、オペレータにボード
交換可能状態を通知する工程、(l)故障したプロセッ
シングボードを抜去する工程。
【0051】第29の発明は、同一命令を実行する3台
以上のプロセッシングユニットを有しオペレーティング
システムによりスケジュールされた処理を実行するプロ
セッシングボードを複数備え、これら複数のプロセッシ
ングボードに対してプロセスをスケジュールするひとつ
のプロセスキューを備えた計算機の障害回復方法におい
て、以下の工程を備えたことを特徴とする。 (a)いずれかのプロセッシングユニットの故障時に、
故障したプロセッシングユニットを有するプロセッシン
グボードの他の正常なプロセッシングユニットを用いて
命令を継続して実行する継続実行工程、(b)プロセッ
シングボードに故障が発生したことをオペレーティング
システムに通知する故障通知工程、(c)通知を受けた
オペレーティングシステムがプロセスキューからの故障
したプロセッシングボードへ新たな処理のスケジュール
を中止し、プロセスキューからの新たな処理を他のプロ
セッシングボードへスケジュールするスケジュール工
程。
【0052】第30の発明は、同一命令を実行する3台
以上のプロセッシングユニットを有し、オペレーティン
グシステムによりスケジュールされた処理を実行するプ
ロセッシングボードを複数備えた計算機の障害回復方法
において、上記プロセッシングボードは、共通の割り込
みベクタによりI/O割り込みを受け付けるものであ
り、いずれかのプロセッシングボードが故障した場合、
以下の工程を備えたことを特徴とする。 (a)故障発生後、故障したプロセッシングボードが、
オペレーティングシステムにその故障を通知する工程、
(b)オペレーティングシステムにより、故障したプロ
セッシングボードに対して新たな処理の割り付けを禁止
するとともに、故障したプロセッシングボードのI/O
割り込み受付を停止する工程、(c)オペレーティング
システムにより、故障したプロセッシングボードに対す
る新たな処理を、他のプロセッシングボードに移行する
工程、(d)処理の移行を受けたプロセッシングボード
がその処理を開始する工程、(e)故障したプロセッシ
ングボードがキャッシュメモリをフラッシュする工程、
(f)キャッシュメモリのフラッシュ完了後、オペレー
タにボード交換可能状態を通知する工程、(g)故障し
たプロセッシングボードを新しいプロセッシングボード
に交換する工程、(h)新しいプロセッシングボード
が、正常な設置状態であることをオペレータに通知し、
自己診断を実行して、自己診断が正常終了のとき、オペ
レーティングシステムにその結果を通知する工程、
(i)オペレーティングシステムにより、新しいプロセ
ッシングボードに処理を割り当て、故障前と同じ構成に
より処理を開始する工程。
【0053】第31の発明は、同一命令を実行する3台
以上のプロセッシングユニットを有し、オペレーティン
グシステムによりスケジュールされた処理を実行するプ
ロセッシングボードを複数備えた計算機の障害回復方法
において、上記プロセッシングボードは、共通の割り込
みベクタによりI/O割り込みを受け付けるものであ
り、いずれかのプロセッシングボードが故障した場合、
以下の工程を備えたことを特徴とする。 (a)故障発生後、故障したプロセッシングボードが、
オペレーティングシステムにその故障を通知する工程、
(b)故障したプロセッシングボードにより、新しいプ
ロセッシングボードの挿入まで処理を継続する工程、
(c)新しいプロセッシングボードを挿入する工程、
(d)新しいプロセッシングボードが、正常な設置状態
であることをオペレータに通知し、自己診断を実行し
て、自己診断が正常終了のとき、オペレーティングシス
テムにその旨を通知する工程、(e)オペレーティング
システムが、新しいプロセッシングボードに処理を割り
当てる工程、(f)オペレーティングシステムにより、
故障したプロセッシングボードに、新たな処理の割り付
けを禁止するとともに、故障したプロセッシングボード
のI/O割り込み受付を停止する工程、(g)オペレー
ティングシステムにより、故障したプロセッシングボー
ドに対する新たな処理を、他のプロセッシングボードに
移行する工程、(h)処理の移行を受けたプロセッシン
グボードがその処理を開始する工程、(i)故障したプ
ロセッシングボードはキャッシュメモリをフラッシュす
る工程、(j)キャッシュメモリのフラッシュ完了後、
オペレータにボード交換可能状態を通知する工程、
(k)故障したプロセッシングボードを抜去する工程。
【0054】第32の発明は、プロセッシングユニット
がキャッシュメモリとプロセッサを備え、上記移行工程
は、故障したプロセッシングボードのキャッシュメモリ
をフラッシュするフラッシュ工程を備えたことを特徴と
する。
【0055】
【作用】本発明では、前記プロセッシングボードにおい
て、いずれかのプロセッシングユニットの瞬時故障時に
は、そのプロセッシングユニットを他のプロセッシング
ユニットから一旦切り離し、残りのプロセッシングユニ
ットで同一命令を継続実行し、その後、再度接続して、
元の構成による処理を実行できる。
【0056】このように、プロセッシングユニットが故
障しても、他のプロセッシングユニットと再同期動作す
ることができるため、瞬時的なプロセッシングユニット
の故障時には、ボード交換の必要がない。
【0057】また、本発明では、プロセッシングボード
の固定故障時には、残りの構成により処理を継続実行
し、その後、直ちに処理を異にする別の1台又は複数台
のプロセッシングボードに処理を移行する。従って、プ
ロセッシングボードの一次故障時には、その残りの構成
で処理を継続させ、その後直ちに別のプロセッシングボ
ードに処理を移行するため、二次故障によるシステム障
害を最小限にとどめ、システムの可用性を高める。
【0058】また、本発明では、前記プロセッシングボ
ードにおいて、いずれかのプロセッシングユニットの故
障時には、残りのプロセッシングユニットで同一命令を
継続実行し、その後、故障したプロセッシングユニット
を交換して、通常の処理に移行する。
【0059】また、本発明では、前記プロセッシングボ
ードにおいて、2台のプロセッシングボードを1組とし
て、通常は1台のプロセッシングボードが処理を実行
し、該プロセッシングボードの故障時には、故障部位を
除いた残りの構成で処理を継続し、その後直ちにもう一
方のプロセッシングボードに処理を移行するようにし
た。
【0060】本発明で特に特徴となる点は、プロセッシ
ングボードに故障が発生しても、そのプロセッシングボ
ードが継続して処理を実行できる場合には、処理の継続
実行を行わせる点にある。このように、一時故障が発生
したプロセッシングボードに処理を継続して実行させる
ことにより、処理を中断することがなくなる。一時故障
が発生したプロセッシングボードがこのように処理を継
続できるのは、プロセッシングボードが少なくとも3台
のプロセッシングユニットを有したエラーフリーの構成
となっているためである。また更に、一時故障を起こし
たプロセッシングボードが継続実行できるのは、3台以
上のプロセッシングユニットからの出力を、それぞれ独
自の処理系に入力して処理する複数の独立系を有してい
るからである。一方の独立系が故障しても他方の独立系
が動作できるため、一時故障を起こしたプロセッシング
ボードは継続実行を行なうことができる。
【0061】このようにプロセッシングボードが故障し
た場合でも、そのプロセッシングボードが実行中の処理
あるいはそのプロセッシングボードに予約された処理を
継続して実行するため、故障したプロセッシングボード
の処理を他のプロセッシングボードに割り振る場合には
プロセス単位に行なうことができる。従ってプロセスの
移行処理は非常に容易なものとなる。
【0062】また、故障したプロセッシングボードを交
換する場合であっても前述したように、プロセス単位の
引き継ぎ処理を行なうことにより、プロセッシングボー
ドの交換のタイミングがプロセスの終了単位で行われ
る。
【0063】また、この発明においては、プロセッシン
グボード自身の交換を可能としているばかりでなく、プ
ロセッシングボードに設けられたプロセッシングユニッ
トの交換も可能になっている。このように、プロセッシ
ングボード単位の交換だけでなく、プロセッシングユニ
ット単位の交換により、交換部品がより安価となる。
【0064】特に第1の発明においては、故障したプロ
セッシングユニットに自己診断を行わせ、自己診断結果
により、故障が一時的なものである場合には、再び正常
な動作をさせる。
【0065】また、第2の発明においては、故障が固定
的なものである場合にも、処理を継続実行させ、その後
他のプロセッシングボードに処理を移行させる。
【0066】また、第3の発明においては、故障したプ
ロセッシングボードの処理を他のプロセッシングボード
に移行した後、プロセッシングボードを抜き、故障した
プロセッシングユニットを交換した後、再びそのプロセ
ッシングボードを装着する。
【0067】また、第4の発明においては、故障したプ
ロセッシングボードのプロセッシングユニットを処理の
実行中に交換する。
【0068】また、第5の発明においては、プロセッシ
ングユニットが故障しても、多重化された多数決回路が
存在することにより、継続して処理を実行し、その後故
障したプロセッシングボードの処理を他のプロセッシン
グボードに移行する。
【0069】また、第6の発明においては、いずれかの
独立系の故障時には、一方の正常な独立系を用いて処理
を実行し、その後他のプロセッシングボードに処理を移
行する。
【0070】また、第7の発明においては、2台のプロ
セッシングボードを組にしているので、一方のプロセッ
シングボードの故障により他方のプロセッシングボード
に処理を移行する。
【0071】また、第8の発明においては、あらかじめ
スケジュールされた処理を実行してから、故障したプロ
セッシングボードの動作を停止する。
【0072】また、第9の発明においては、新たな処理
のスケジュールを他の正常なプロセッシングボードへス
ケジュールする。
【0073】また、第10の発明においては、故障した
プロセッシングボードが現在実行中の処理を実行した
後、その動作を停止する。
【0074】また、第11の発明においては、故障した
プロセッシングボードに対してすでにスケジュールされ
た処理を他のプロセッシングボードへスケジュールし直
す。
【0075】また、第12の発明においては、他のプロ
セッシングボードへ処理をスケジュールし直す場合、特
定のプロセッシングボードに対して処理の割り当てを行
う。
【0076】また、第13の発明においては、前述した
特定のプロセッシングボードにすでに割り当てられた処
理をさらに他のプロセッシングボードに割り当てる。
【0077】また、第14の発明においては、プロセッ
シングボードが抜去可能な状態にあることをオペレータ
に通知する。
【0078】また、第15の発明においては、プロセッ
シングユニットが交換可能な状態にあることをオペレー
タに通知する。
【0079】また、第16の発明においては、新たなプ
ロセッシングユニットが挿入された場合、自己診断を行
わせる。
【0080】また、第17の発明においては、プロセッ
シングボードが識別子を有しており、故障したプロセッ
シングボードを他の正常なプロセッシングボードの識別
子とする。
【0081】また、第18の発明においては、識別子が
I/O割り込みを受け付けるための割り込みベクタであ
り、故障したプロセッシングボードの割り込みベクタを
他の正常なプロセッシングボードに割り当てる。
【0082】また、第19の発明においては、ふたつの
プロセッシングボードが対になった論理プロセッシング
ボードを構成している場合、主記憶装置を介してデータ
を引き継ぐとともに、割り込みベクタを対になった一方
の正常なプロセッシングボードに移行する。
【0083】また、第20の発明においては、N台で処
理する処理量に対して、故障が生じる場合のことを考慮
してあらかじめN+1台のプロセッシングボードを備え
ている。
【0084】また、第21の発明においては、プロセッ
シングボードが故障したことにより新たなプロセッシン
グボードを追加し、その後故障したボードを抜去する。
【0085】また、第22の発明においては、故障の有
無にかかわらず、プロセッシングボードにあるプロセッ
シングユニットをそれぞれ個別に抜去することができ
る。
【0086】また、第23の発明においては、故障の有
無にかかわらず、プロセッシングボードを抜去すること
ができる。
【0087】また、第24の発明においては、プロセッ
シングボードを交換するための具体的な手順を示してい
る。
【0088】また、第25の発明においては、割り込み
マスタ型プロセッシングボードが故障した場合の障害回
復方法を示しており、処理の移行を行ってからプロセッ
シングボードを交換する場合を示している。
【0089】また、第26の発明においては、割り込み
スレーブ型プロセッシングボードの障害回復方法を示し
ており、処理の移行を行ってからプロセッシングボード
を交換する場合を示している。
【0090】また、第27の発明においては、割り込み
マスタ型プロセッシングボードの障害回復方法を示して
おり、新しいプロセッシングボードを挿入してから処理
の移行を行い、最後に故障したプロセッシングボードを
抜去する場合を示している。
【0091】また、第28の発明においては、割り込み
スレーブ型プロセッシングボードの障害回復方法を示し
ており、新しいプロセッシングボードを挿入してから処
理の移行を行い、最後に故障したプロセッシングボード
を抜去する場合を示している。
【0092】また、第29の発明においては、複数のプ
ロセッシングボードに対して一つのプロセスキューが存
在する場合の障害回復方法を示しており、プロセッシン
グボードの故障により移行しなければならない処理とい
うものが発生しない場合を示している。
【0093】また、第30の発明においては、割り込み
同報型プロセッシングボードの障害回復方法を示してお
り、処理の移行を行った後にプロセッシングボードを交
換する場合を示している。
【0094】また、第31の発明においては、割り込み
同報型プロセッシングボードの障害回復方法を示してお
り、新たなプロセッシングボードを挿入した後、処理移
行を行い、最後に故障したプロセッシングボードを抜去
する場合を示している。
【0095】また、第32の発明においては、プロセッ
シングユニットはキャッシュメモリのプロセッサを対に
して備えているため、移行工程はキャッシュメモリをフ
ラッシュすることにより故障したプロセッシングボード
のデータをメモリにセーブする。したがって、データの
整合性を保つことができる。
【0096】
【実施例】以下本発明の実施例について詳細な説明をす
るが、本実施例では以下の項目に分けて説明する。 I.プロセッシングボードの基本動作 II.プロセッシングボードの回復方式 III.プロセッシングユニットの回復方式 I.プロセッシングボードの基本動作 実施例1. [全体構成]図1は、本発明の第1実施例に係る高信頼
化計算機の全体構成を示すブロック図である。
【0097】このブロック図において、プロセッシング
ボード125は、3個の同一のプロセッサ104を実装
している。3個のプロセッサ104は同一クロック11
3で完全同期して動作する。3個のプロセッサ104と
3個のキャッシュメモリ107は、それぞれ専用バス1
10で接続されている。プロセッサ104とキャッシュ
メモリ107と専用バス110の組み合せにより、各
々、プロセッシングユニット1−1(CPU#A、又は
プロセッシングユニットAと称する)、プロセッシング
ユニット1−2(CPU#B、又はプロセッシングユニ
ットBと称する)、プロセッシングユニット1−3(C
PU#C、又はプロセッシングユニットCと称する)を
構成する。各プロセッシングユニットは、プロセッサバ
ス121を介して、二重化された多数決ユニット135
と接続される。多数決ユニット135は、キャッシュメ
モリ107を含めたプロセッシングユニットからの出力
の多数決をとる。また、二重化されたシステムバス14
1とのインタフェースを司り、プロセッシングユニット
に対する応答制御を行う。2つのシステムバス141に
は、それぞれ主記憶装置143と入出力バスアダプタ1
45が接続されている。2つの入出力バスアダプタ14
5には、それぞれI/Oバス147が接続され、各I/
Oバス147にはI/O装置149が接続される。この
ようにこのシステムでは、二重化構成をとる。
【0098】[書き込み動作]3個のプロセッシングユ
ニットは、主記憶装置への書き込み動作を行う時、多数
決ユニット135−1ないし135−2に対して書き込
み先のアドレスと書き込みデータを送出し、多数決ユニ
ット135−1ないし135−2で比較照合される。プ
ロセッシングユニット1−1ないし1−3のうち、多数
決ユニット135−1にて正しい動作であることが保証
された1つのプロセッシングユニットが選択される。こ
の選択されたプロセッシングユニットのアドレスとデー
タが、システムバス141−1を経由して、主記憶装置
143−1に出力される。同様に、プロセッシングユニ
ット1−1ないし1−3のうち、多数決ユニット135
−2にて正しい動作であることが保証された1つのプロ
セッシングユニットが選択される。この選択されたプロ
セッシングユニットのアドレスとデータが、システムバ
ス141−2を経由して、主記憶装置143−2に対し
て出力され、主記憶装置143−1と同一データが書き
込まれる。
【0099】[読み込み動作]3個のプロセッシングユ
ニット1は、主記憶装置から読み込み動作を行う時、多
数決ユニット135−1ないし135−2に対して読み
込み先のアドレスを送出する。送出された読み込み先の
アドレスは、多数決ユニット135−1ないし135−
2で比較照合される。プロセッシングユニット1−1な
いし1−3のうち、多数決ユニット135−1にて正し
い動作であることが保証された1つのプロセッシングユ
ニットが選択される。この選択されたプロセッシングユ
ニットのアドレスが、システムバス141−1を経由し
て、主記憶装置143−1に送出され、主記憶装置14
3−1の該当データが多数決ユニット135−1に返送
される。同様に、プロセッシングユニット1−1ないし
1−3のうち、多数決ユニット135−2にて正しい動
作であることが保証された1つのプロセッシングユニッ
トが選択される。この選択されたプロセッシングユニッ
トのアドレスが、システムバス141−2を経由して、
主記憶装置143−2に送出され、主記憶装置143−
2の該当データが多数決ユニット135−2に返送され
る。この時、多数決ユニット135−1及び135−2
のどちらがプロセッシングユニット1−1ないし1−3
に該当データを返送するかという選択は、電源投入時に
予めどちらか一方に固定されているものとする。その後
選択されている多数決ユニットにて障害が発生した場
合、他方の多数決ユニットが選択され、処理を継続する
ことができる。このように、2つの主記憶装置143−
1ないし143−2はともに同一データをそれぞれシス
テムバス141−1ないし141−2経由で、2つの多
数決ユニット135−1ないし135−2にそれぞれ返
送し、選択されたどちらか一方の多数決ユニットからの
データが、プロセッサバス121を経て各プロセッシン
グユニットに読み込まれる。
【0100】[通常動作]図2は、本発明の第1実施例
に係る高信頼化計算機において、多数決ユニットの内部
構成を示す図である。
【0101】プロセッサバス121は、入力信号31な
いし33と出力信号171ないし173と応答信号16
1ないし163等を転送する。入力信号31ないし33
は、プロセッシングユニットから多数決ユニット135
に送られる入力信号である。入力信号は、例えばアドレ
ス信号、データ信号、リードライト信号等から構成され
ている。出力信号171ないし173は、多数決ユニッ
ト135から、プロセッシングユニットに送られる出力
信号である。応答信号161ないし163は、多数決ユ
ニット135が処理を終了した時、プロセッシングユニ
ットに対して返す応答される信号である。
【0102】3個のプロセッシングユニットからの入力
信号31ないし33は、多数決回路2にて比較照合され
る。多数決回路2にて正しい動作であることが保証され
た1つの入力信号が多数決信号7として選択される。多
数決信号7はシステムバスとのインタフェース機能をも
つ機能回路14に送られる。機能回路14は、多数決信
号7の情報をもとに、処理の内容を解読し、主記憶装置
143や、I/O装置149に対して書き込み動作又は
読み込み動作を行う。また、機能回路14は、プロセッ
シングユニットに対して、次の処理の受け付け可能な状
態になった時、内部応答信号254を凍結回路202に
送る。内部応答信号254を受信した凍結回路202
は、プロセッシングユニット1−1ないし1−3に対し
て、それぞれ応答信号161ないし163を送る。プロ
セッシングユニットは応答信号161ないし163の受
信により1つの処理を完結する。
【0103】[多数決回路]図3は、本発明の第1実施
例に係る多数決回路の全体構成を示すブロック図であ
る。
【0104】プロセッシングユニット1−1ないし1−
3から多数決回路2へ入力される入力信号31ないし3
3は、比較回路41ないし43と選択手段6に供給され
る。選択回路6は比較回路41ないし43の比較結果信
号51ないし53により入力信号31ないし33のいず
れかを多数決信号7として選択する。更にエラー判別回
路8は比較結果信号51ないし53を評価して故障を検
出する。
【0105】図4は、図3中の比較回路41の構成を示
す図である。図中入力信号31−1ないし31−nはプ
ロセッシングユニット1−1から多数決回路2へ入力さ
れる入力信号31をビット対応に表現した信号である。
同様に入力信号32−1ないし32−nはプロセッシン
グユニット1−2から多数決回路2へ入力される入力信
号32をビット対応に表現した信号である。反転型排他
的論理和回路(EXNOR回路)44−1ないし44−
nはプロセッシングユニットの入力信号31及び32を
ビット単位で比較する。反転型排他的論理和回路(EX
NOR回路)において、入力信号が一致すると出力は
“1”になる。また論理積回路(AND回路)45はn
ビットの論理積をとる。論理積回路(AND回路)でn
ビットの全ての入力信号が“1”の時出力は“1”とな
る。この出力は比較結果信号51として出力される。こ
のように比較回路41はプロセッシングユニット1−1
からのnビットの入力信号31とプロセッシングユニッ
ト1−2からのnビットの入力信号32を比較し比較結
果信号51を出力する。同様に比較回路42はプロセッ
シングユニット1−2からのnビットの入力信号32と
プロセッシングユニット1−3のnビットの入力信号3
3を比較し比較結果信号52を出力する。比較回路43
はプロセッシングユニット1−3からのnビットの入力
信号33とプロセッシングユニット1−1からのnビッ
トの入力信号31を比較し比較信号53を出力する。
【0106】図5は、図3中のエラー判別回路8の構成
を示す図である。3入力反転型論理和回路(NOR回
路)81は比較結果信号51ないし53が全て“0”の
時二重故障信号10を“1”にして出力する。また3入
力論理積回路82は比較結果信号51ないし53のいず
れかが“0”の時に“0”を出力する。更に2入力NO
R回路83は、二重故障信号10が“0”でかつ3入力
AND回路82の出力が“0”の時に、単一故障信号9
を“1”にして出力する。
【0107】図6は、図3中の選択回路6の構成を示す
図である。2入力AND回路61ないし63の片方の入
力には3つのプロセッシングユニットからの出力がそれ
ぞれ入力され、もう一方の入力には比較結果信号51な
いし53が入力される。比較結果信号51ないし53が
“1”であれば対応するプロセッシングユニットの出力
信号が、3入力OR回路64を介して多数決信号7とし
て出力される。
【0108】図7は、図3の多数決回路における入力信
号と比較結果信号及び出力信号を表わすものである。こ
こでは、説明を簡単にするため、プロセッシングユニッ
トの出力信号が2ビット(n=2)で構成されている場
合を示している。AないしCはそれぞれプロセッシング
ユニット1−1ないし1−3の出力信号すなわち多数決
回路2への入力信号31ないし33を示している。A
B,BC,CAは比較結果信号51ないし53を示して
いる。Vは多数決信号7を示している。ESは単一故障
信号9を示している。EMは二重故障信号10を示して
いる。
【0109】次に、以上のように構成された多数決回路
の動作について説明する。主に比較回路41、選択回路
6、エラー判別回路8の動作について図7を参照しなが
ら、図4、図5、図6を用いて説明する。
【0110】図7における第1列及び第2列は、3つの
プロセッシングユニットの出力が全て等しい場合であ
る。この場合、比較回路41の内部にある2入力EXN
OR回路44−1ないし44−nの出力は全て“1”に
なる。従ってAND回路45の出力信号すなわち比較結
果信号51は“1”を出力する。同様に比較結果信号5
2及び比較結果信号53も“1”を出力する。
【0111】また、選択回路6に入力される比較結果信
号51ないし53は前述のように全て“1”であるか
ら、2入力AND回路61−1ないし61−n,62−
1ないし62−n,63−1ないし63−nは、入力信
号31−1ないし31−n,32−1ないし32−n,
33−1ないし33−nをそのまま出力信号として出力
する。これらの出力信号は3入力OR回路64−1ない
し64−nを介して多数決信号7−1ないし7−nとし
て出力される。
【0112】また、エラー判別回路8において3入力N
OR回路81の出力信号(すなわち二重故障信号10)
は“0”になる。また、3入力AND回路82の出力信
号は“1”になる。このため2入力NOR回路83の出
力信号(すなわち単一故障信号9)は“0”になる。
【0113】次に、図7における第3列は、3つのプロ
セッシングユニットの出力の中で1つのプロセッシング
ユニット1−3の出力だけが異なる場合である。この場
合、比較回路41の比較結果信号51及び比較回路43
の比較結果信号53が“0”になる。比較回路42の比
較結果信号52は“1”になる。この時、選択回路6は
2入力AND回路62−1ないし62−nに入力されて
いる入力信号32−1ないし32−nをそのまま出力す
る。2入力AND回路61及び63からは常に“0”が
出力される。従って3入力OR回路64−1ないし64
−nの出力信号としては、入力信号32−1ないし32
−nがそのまま出力される。すなわち、プロセッシング
ユニット1−2の出力が多数決信号7−1ないし7−n
として選択される。
【0114】また、エラー判別回路8では3入力NOR
回路81の出力信号(すなわち二重故障信号10)は
“0”になる。3入力AND回路82の出力信号は
“0”になる。このため2入力NOR回路83の出力信
号(すなわち単一故障信号9)は“1”になる。
【0115】なお、図7における第6列は3つのプロセ
ッシングユニットの出力の中で1つのプロセッシングユ
ニット1−3の出力だけが異なる場合である。この場合
は、プロセッシングユニット1−1の出力が多数決信号
7−1ないし7−nとして選択される。その他の点につ
いては、第3列の場合と同様である。
【0116】次に、図7における第4列、5列及び7列
は、3つのプロセッシングユニットからの入力信号31
ないし33が全て異なる場合である。この場合、比較回
路41ないし43の比較結果信号は51ないし53が全
て“0”になる。この比較結果信号51ないし53は選
択回路6に入力される。比較結果信号51ないし53は
全て“0”であるから、2AND回路61−1ないし6
1−n,62−1ないし62−n,63−1ないし63
−nは、入力信号31−1ないし31−n,32−1な
いし32−n,33−1ないし33−nの内容にかかわ
らず全て“0”を出力する。従って、3入力OR回路6
4−1ないし64−nから出力される多数決信号7−1
ないし7−nは全て“0”として出力される。
【0117】また、エラー判別回路8では3入力NOR
回路81の出力信号(すなわち二重故障信号10)は
“1”になる。3入力AND回路82の出力信号は
“0”になる。このため2入力NOR回路83の出力信
号(すなわち単一故障信号9)は“0”になる。
【0118】このように、比較回路で3つのプロセッシ
ングユニット出力の中から2つずつのプロセッシングユ
ニットの組み合わせで比較し、その比較結果信号を選択
回路及びエラー判別回路に入力する。選択回路では比較
結果信号に従って出力すべきプロセッシングユニットの
信号を選択する。全てのプロセッシングユニットの出力
が異なる時、選択回路は信号を出力しない。エラー判別
回路では比較結果信号を解析し該プロセッシングユニッ
トの故障状況を出力することによりプロセッシングユニ
ット二重故障の検出ができる。
【0119】従って、1つのプロセッシングユニットが
故障した場合は正しいプロセッシングユニットを特定し
てその出力を選択出力できる。また、複数のプロセッシ
ングユニットが故障した場合は二重故障として検出でき
る。なお、二重故障信号10は図2に示す例においては
使用しないため、図2に示した多数決回路2からの出力
信号の中には記載していない。
【0120】[障害検出/切り離し]多数決回路2に
て、誤動作していると判定されたプロセッシングユニッ
トは、一時的に処理が凍結される。凍結されたプロセッ
シングユニットシステム全体の処理の中で影響の無い時
に、故障原因を特定するための自己診断処理を実行す
る。自己診断の結果が良好であり復旧可能と考えられる
場合は、復帰のための処理を実行し再度3つのプロセッ
シングユニットによる同期動作が再開する。
【0121】このようにして、1個のプロセッシングユ
ニットが誤動作しても、プロセッシングボード125と
しては正常動作が継続される。
【0122】図2において、1つの入力信号が他の2つ
の入力信号と異なった時、多数決回路2により故障した
プロセッシングユニットを特定し、このプロセッシング
ユニットを以後の多数決の対象から切り離すと同時に、
凍結回路202は、故障したプロセッシングユニットへ
の応答信号を返さないことにより、故障したプロセッシ
ングユニットの動作を一時的に凍結させる。
【0123】この時、多数決回路2は、単一故障が発生
したことを、単一故障信号9にて機能回路14に伝え
る。
【0124】図8に機能回路14の内部構造を示す。機
能回路14は割込制御回路180を備えている。割込制
御回路180は凍結回路202によって、故障している
と判定されたプロセッシングユニットが凍結されたこと
を他の正常動作を行っているプロセッシングユニットに
伝えるものである。割込制御回路180はドライブ回路
181を経由して、出力信号171ないし173に割込
情報を出力し、プロセッシングユニットに割り込みを発
生させる。このようにして、故障したプロセッシングユ
ニットが多数決回路から切り離され、凍結されたこと
を、正常動作を続行している他の2個のプロセッシング
ユニットに伝えることができる。
【0125】また、機能回路14は、アドレスラッチ回
路182とストローブ信号生成回路183を備えてい
る。アドレスラッチ回路182は、多数決信号7に含ま
れているアドレスをラッチする回路である。ストローブ
信号生成回路183は、凍結回路に設けられたフラグに
割り当てられたアドレスに対する書き込み指示が合った
場合に、制御書き込み信号256を生成する。即ち、ス
トローブ信号生成回路183は、アドレスラッチ回路1
82がラッチしたアドレスが凍結回路202に存在する
フラグに割り当てられたアドレスであり、かつ、そのア
ドレスへの書き込み指示の場合に多数決信号7に含まれ
ているデータを用いて、フラグセットを指示するストロ
ーブ信号256を生成する。
【0126】更に、機能回路14は、システムバス制御
回路184を備えている。システムバス制御回路184
は、システムバス141とのインタフェースを司るもの
である。システムバス制御回路は、システムバス141
を介して、主記憶装置143あるいは入出力バスアダプ
タに対して、入出力処理を実行することを指示する。そ
して、これら主記憶装置143あるいは入出力バスアダ
プタ145からの処理終了をシステムバス141を介し
て認識すると、内部応答信号254を生成して凍結回路
202に出力する。この内部応答信号254は、次の処
理の受け付けが可能な状態になったことを示す信号であ
り、凍結回路202により応答信号として、各プロセッ
シングユニット1−1ないし1−3に対して送られる。
【0127】[切り離し/隔離動作]図9は、凍結回路
202の内部構造を示す図である。凍結回路202にお
いて、接続フラグ70は論理的に、どのプロセッシング
ユニットが接続されているかを示す3ビットのフラグで
ある。接続フラグ70の各ビットは、それぞれプロセッ
シングユニット1−1ないし1−3が多数決ユニット1
35に論理的に接続されているか否かを示している。接
続フラグ70−n(n=1ないし3)は、それぞれプロ
セッシングユニット1−n(n=1ないし3)に対応す
る接続フラグを示す。接続セーブフラグ240は、接続
フラグにデータが書き込まれるたびに、直前の接続フラ
グの内容を保持しておく3ビットのフラグである。接続
セーブフラグ240−n(n=1ないし3)は、それぞ
れプロセッシングユニット1−n(n=1ないし3)に
対応する接続フラグを示す。隔離フラグ213は、2つ
以上のプロセッシングユニットが同期して動作している
(同期モードと呼ぶ)のではなく、1つのプロセッシン
グユニットが単独で動作しているモード(隔離モードと
呼ぶ)であることを示す1ビットのフラグである。AN
D回路251は、図8におけるシステムバスとのインタ
フェースを司るシステムバス制御回路184から出力さ
れ、プロセッシングユニットに対して、次の処理の受け
付け可能な状態になったことを示す内部応答信号254
と、接続フラグ70の出力とのAND条件をとり、プロ
セッサバス121における3本の応答信号161ないし
163を出力する。各応答信号161ないし163は、
それぞれプロセッシングユニットA、プロセッシングユ
ニットB、及びプロセッシングユニットCに出力され
る。データ信号220−nは、図8における多数決回路
2の出力である多数決信号7のうち、データを転送する
ために用いるデータ信号220を、ビット対応に表現し
た信号である。選択回路255は、接続セーブフラグ2
40−n(n=1ないし3)の出力と、データ信号22
0−n(n=1ないし3)のいずれかを隔離フラグ21
3の出力により選択する。AND回路257は、隔離フ
ラグ213の出力とプロセッシングユニットからのデー
タ信号220−4とのAND条件をとる。制御書き込み
信号256は、接続フラグ70、接続セーブフラグ24
0及び隔離フラグ213への書き込みを指示する。制御
書き込み信号は、図8におけるアドレスラッチ回路18
2の出力であるアドレス情報をデコードして生成される
ストローブ信号である。リセット信号258は、電源投
入時など、システムリセットが発生した時出力される。
強制割込フラグ214は、プロセッシングユニット1−
1ないし1−3のそれぞれに対してマスク不可能な強制
割込を発生させるフラグである。強制割込フラグは機能
回路14を経由して、各プロセッシングユニットそれぞ
れに対して強制割込を発生させる強制割込信号221を
出力する。強制割込信号221−n(n=1ないし3)
は、それぞれ割込を発生させる対象となるプロセッシン
グユニット1−n(n=1ないし3)に対応する強制割
込信号を示す。障害検出回路260は、図3における多
数決回路2からの出力である比較結果信号51ないし5
3を入力とし、プロセッシングユニットAに対するエラ
ー検出信号(EA*:負論理)261、プロセッシング
ユニットBに対するエラー検出信号(EB*:負論理)
262、及びプロセッシングユニットCに対するエラー
検出信号(EC*:負論理)263を出力する。図10
に、障害検出回路260の真理値表を示す。例えば、第
6列について説明すると、入力として、プロセッシング
ユニットBとCの比較結果のみが一致しているため、プ
ロセッシングユニットAが故障していると考えられる。
よって、プロセッシングユニットAに対するエラー検出
信号(EA*)261のみが“0”(負論理)となり、
他のプロセッシングユニットBに対するエラー検出信号
(EB*)262、及びプロセッシングユニットCに対
するエラー検出信号(EC*)263はともに“1”
(負論理)となって出力される。
【0128】以下、接続フラグ70、隔離フラグ21
3、及び強制割込発生フラグ214をまとめて、制御レ
ジスタ271と称する。この制御レジスタ271は、所
定のアドレスを有しているものとする。図11は、凍結
回路202に関する、プロセッシングユニットからみた
7ビットの制御レジスタ271のビット割り付けを示
す。ビット1からビット3は、3ビットの接続フラグ7
0の各ビットに対応し、それぞれ、プロセッシングユニ
ット1−1ないし1−3を論理的接続状態にするときに
プロセッシングユニットが“1”を設定する。ビット4
は、1ビットの隔離フラグ213に対応し、あるプロセ
ッシングユニットを隔離状態で動作させる時にプロセッ
シングユニットが“1”を設定する。ビット5からビッ
ト7は、プロセッシングユニット1−1ないし1−3の
それぞれに対して、強制割込を発生させる時にプロセッ
シングユニットが“1”を設定する。
【0129】プロセッシングユニットが制御レジスタ2
71を設定する場合は、制御レジスタ271に割り当て
られた所定のアドレスに対して書き込み命令を発生させ
ることによって行う。プロセッシングユニットより出力
されたアドレスと、リード/ライト信号による書き込み
命令は図8に示すアドレスラッチ回路182及びストロ
ーブ信号生成回路183により、制御レジスタ271に
対する書き込み命令であることが判定される。ストロー
ブ信号生成回路183は、ストローブ信号256を制御
書き込み信号として発生させる。凍結回路202の接続
フラグ70、隔離フラグ213及び強制割込フラグ21
4は、このストローブ信号256に基づき、プロセッシ
ングユニットが出力したデータを制御レジスタ271に
設定する。なお、隔離フラグ213が“1”にセットさ
れている状態で、制御レジスタ271に書き込みを行う
と、接続フラグ70は接続セーブフラグ240の内容に
セットされ、隔離フラグ213は“0”にリセットされ
る。
【0130】図12は、本発明の第1実施例に係る高信
頼化計算機の故障が発生したプロセッシングユニットの
復旧動作を示すフローチャートである。また、図13
は、同じく復旧動作を示すタイミングチャートである。
【0131】以下、3個のプロセッシングユニット1の
内、1個のプロセッシングユニット(仮にプロセッシン
グユニットAとする)が故障した時の動作を説明する。
初期状態及び通常同期動作状態ではリセット信号258
により、接続フラグ70、接続セーブフラグ240はと
もに“111”に、隔離フラグ213は“0”になって
いる(ST1、ST2)。
【0132】まず、障害検出工程100について説明す
る。障害が発生したプロセッシングユニットAは、多数
決回路2で検出され、対応するエラー検出信号261が
出力される。これにより、3ビットの接続フラグ70が
“011”となり、プロセッシングユニットAに対する
応答信号161が多数決回路2から出力されなくなり、
プロセッシングユニットAが凍結状態になる。
【0133】いずれかのプロセッシングユニットが故障
したことは、前述の通り単一故障信号9により、図8に
示す機能回路14における割込制御回路180に伝えら
れる。割込制御回路180は、正常動作しているプロセ
ッシングユニットB,Cに割込を発生させる。こうし
て、プロセッシングユニットB,Cはプロセッシングユ
ニットAが故障したことを検知することができる(ST
7)。
【0134】次に、故障診断工程200について説明す
る。故障を検知したプロセッシングユニットB,Cは制
御レジスタを用いてプロセッシングユニットAを単独動
作させる。即ち、プロセッシングユニットB,Cが制御
レジスタに“1001100”を書き込むことにより
(図12、図13、ST8)、プロセッシングユニット
B,Cは凍結状態になり、プロセッシングユニットAは
凍結状態から解除され、隔離動作モードによる動作を開
始する。また、プロセッシングユニットB,Cが制御レ
ジスタに“1001100”を書き込む時、接続フラグ
70の以前の設定値“011”が接続セーブフラグ24
0にセーブされる。また、この時、プロセッシングユニ
ットB及びCは、プロセッシングユニットAに対する、
強制割込フラグ(ビット4)をセットする。このため最
高レベルの割込が発生し、プロセッシングユニットA
は、予め用意されたエラー解析及び自己診断用の特別処
理ルーチンを実行する(図12、ST2)。プロセッシ
ングユニットAは、自らのエラー情報及び自己診断結果
を、図14に示すように、プロセッシングユニットA,
B,Cごとに予め決められた主記憶装置143の退避領
域(A)291に書きだす(292は、プロセッシング
ユニットBの退避領域(B)、293は、プロセッシン
グユニットCの退避領域(C)である)。また、故障し
たプロセッシングユニットAは、制御レジスタ271を
セットする前にキャッシュメモリ107を無効化(パー
ジ)しておく。故障したプロセッシングユニットAによ
る主記憶装置143の書き込みが終了すると、制御レジ
スタ271に書き込み処理を行う(図12、ST3)。
前述したように、隔離フラグ213がセットされている
状態での制御レジスタ271への書き込みは、書き込み
データによらず、接続フラグ70には接続セーブフラグ
240にセットされていた情報“011”が書き戻され
るので、プロセッシングユニットB,Cは再度動作を開
始する。
【0135】次に、同期工程300について説明する。
再度動作を再開したプロセッシングユニットB,Cは、
プロセッシングユニット内の全レジスタの内容を、主記
憶装置143の予め決められたレジスタ退避領域294
に退避する(図12、ST9)。次にプロセッシングユ
ニットB,Cは、障害の発生したプロセッシングユニッ
トAが主記憶装置143に書き出した内容の解析を行
い、プロセッシングユニットAの自己診断結果に基づ
き、プロセッシングユニットAが復旧可能かどうかの判
断を行う(図12、ST10)。もし、自己診断結果が
良好であり、一時的な故障と判断すると、正常なプロセ
ッシングユニットB,Cは、キャッシュメモリ107の
フラッシュを行い(図12、ST11)、制御レジスタ
271に“1110000”をセットする(図12、図
13、ST12)。次に、プロセッシングユニットA,
B,Cは、ST9においてレジスタ退避領域294に退
避しておいたプロセッシングユニットの全レジスタの内
容をリストアする。このようにして動作を再開したプロ
セッシングユニットAは、正常動作を行っているプロセ
ッシングユニットB,Cと全レジスタ内容が同一となる
(図12ST4、ST13)。こうして、プロセッシン
グユニットA,B,Cは、障害発生の特別処理ルーチン
を終了する(図12ST5、ST14)。ところで、S
T3とST12のライト命令、ST4とST13のリス
トア命令、ST5とST14のリターン命令は、それぞ
れ主記憶装置143上では、同一アドレスに格納されて
いる命令である。ST3とST12のライト命令は、故
障したプロセッシングユニットAと正常なプロセッシン
グユニットB,Cが別々のタイミングで実行する。故障
したプロセッシングユニットAは、ST3の実行直後に
凍結される。凍結されたプロセッシングユニットAは正
常なプロセッシングユニットB,CがST12の命令を
実行した時点で凍結状態が解除される。それ以降は3個
のプロセッシングユニットA,B,Cが同じ命令列を同
じタイミングで同期して実行するようになる。もし、自
己診断の結果も不良であり、復旧不可能な故障と判断す
ると(ST10)、制御レジスタ271のセットは行わ
ず、ST13の命令実行にジャンプし、故障したプロセ
ッシングユニットAを切り離したままで処理を続行する
ことになる。
【0136】[電源投入時の自己診断]図15は、電源
投入時における自己診断のシーケンスを示すフローチャ
ートである。電源投入時は、3個のプロセッシングユニ
ットによる同期動作をまず開始し、例えば、プロセッシ
ングユニットAを隔離モードで動作させ、自己診断を実
行させる。プロセッシングユニットAの自己診断が終了
すると、一旦3個のプロセッシングユニットの同期動作
に戻る。次にプロセッシングユニットBを隔離モードの
動作で自己診断をさせるといったように、順次自己診断
を実施する。すべての自己診断が完了すると3個の自己
診断の結果を判定し、もしエラーを発生したプロセッシ
ングユニットがあれば、接続フラグ70の対応するビッ
トを“0”にすることで切り離しを行う。上記の処理が
完了すると、3個のプロセッシングユニットによる同期
動作で、通常の処理を開始する。
【0137】次に、図16(a)、(b)はこの実施例
における障害回復処理の流れを示す図である。ST80
1において、3つのCPUが完全に同期して動作してお
り、多数決回路は1つのCPUの出力を選択し外部に出
力する。ST802においては、多数決回路により故障
したCPUの検出が行われる。次に、ST803におい
ては、故障したCPUを一時的に切り離す。ST804
においては、正常なCPUにより処理が継続される。S
T805においては、隔離動作により故障したCPUの
自己診断を行う。ST806においては、正常なCPU
により診断の結果故障したCPUが再び動作できると判
定した場合に再同期処理を行う。再同期処理により故障
したCPUが再び動作した場合には、ST801に戻り
3つのCPUが完全に同期をとりながら動作する。ST
806において、再同期処理がとられなかった場合に
は、ST807において新たなCPUボードが追加さ
れ、そのCPUボードが他の正常なCPUボードと同期
した処理ができるように内部状態がコピーされ、故障を
起こしたCPUの処理を引き継ぐ。次に、ST808に
おいて故障したCPUボードを取り外す。
【0138】次に、この実施例の構成上の特徴を以下に
記述する。 (1)TMR方式 ・CPUとキャッシュで構成されるCPUモジュール3
個を、1ボードに実装している。 ・多数決により正常な1CPUの出力を選択する。 (2)バス構成 ・入出力バスアダプタによりシステムバスと既存のI/
Oバスを接続している。 ・CPUボード、主記憶装置、入出力バスアダプタを接
続する二重化システムバスを備えている。 (3)一時的故障の自動修復が特徴 ・キャッシュを含めたCPUモジュールの一時的故障は
全てH/W交換なしに修復可能である。 ・主記憶装置のエラーも修復可能である。 (4)故障CPUボードの引継ぎ ・S/Wに全くインパクトを与えないでH/W、F/W
レベルで故障CPUボードの引継ぎを行う。
【0139】この構成によれば、以下の利点である。 (1)キャッシュがCPUに直接接続されるため性能向
上が容易である。 (2)キャッシュを含めた多数決が行えるので信頼性が
向上する。 (3)IOCは従来のものをそのまま使用することがで
きる。
【0140】以上のように、この実施例は、同一プロセ
ッシングボードに実装された複数のプロセッサと、各プ
ロセッサごとに接続されるキャッシュメモリ(プロセッ
サとキャッシュメモリを合わせてプロセッシングユニッ
トと呼ぶ)と、各プロセッシングユニットの出力の多数
決を行う多数決ユニットと、多数決ユニットに接続され
るシステムバスと、システムバスに接続された主記憶装
置及び入出力バスアダプタと、入出力バスに接続された
I/Oバスと、I/Oバスに接続されたI/O装置とを
備えたものである。
【0141】また、この実施例では、前記多数決ユニッ
トにおいて、多数決の結果、不一致を検出した場合、故
障したプロセッシングユニットを以後の多数決の対象か
ら切り離すと同時に、対応するプロセッシングユニット
の動作を凍結させる応答信号を備えたものである。
【0142】また、高い信頼性のあるプロセッシングボ
ードを得るために、二重化した多数決ユニットを備えた
ものである。
【0143】また、故障したプロセッシングユニットの
障害原因を知り、自己診断による修理箇所の特定、ある
いは再度同期動作に復旧可能か否かを知ることができる
ために、故障したプロセッシングユニットのみが動作す
る隔離モードを備えたものである。
【0144】また、故障したプロセッシングユニットの
処理が完了すると確実に正常なプロセッシングユニット
の動作状態に戻れるように、接続フラグを自動的に退避
する接続セーブフラグを備えたものである。
【0145】また、故障したプロセッシングユニットを
再同期させるために、故障したプロセッシングユニット
ならびに正常なプロセッシングユニットを共に接続し、
しかも故障したプロセッシングユニットと正常なプロセ
ッシングユニットの同期処理の最後で、同一命令列を実
行するようにしたものである。
【0146】この実施例によれば、複数のプロセッシン
グユニットが同一のプロセッシングボード上にあるた
め、ボード間をクロックが渡ることがなく、動作周波数
を向上させることができる。
【0147】また、複数のプロセッシングユニットが同
一クロックで同期して動作するため、お互いにメモリア
クセス時に同期をとる必要がなく、ロジックが簡単にな
り、メモリアクセスにオーバヘッドがかからない。
【0148】また、複数のプロセッシングユニットごと
にキャッシュメモリを持つため、キャシュメモリの内容
を含めた動作結果の多数決による比較照合が可能とな
り、計算機の信頼性を向上させる。
【0149】また、複数のプロセッシングユニットごと
にキャッシュメモリを持つため、キャッシュメモリの内
容を含めた動作結果の比較照合が可能となり、計算機の
信頼性を向上させる。
【0150】また、複数のプロセッシングユニットごと
にキャッシュメモリを持ち、その出力にて複数プロセッ
シングユニットの比較照合を行うため、比較照合結果に
よるキャシュメモリへのバス切り替えのオーバヘッドが
なく、高速動作の実現が可能となる。
【0151】また、多数決ユニットを二重化することに
より、高い信頼性のあるプロセッシングボードを得るこ
とができる。
【0152】また、故障したプロセッシングユニットに
対して応答信号を返さないことで故障したプロセッシン
グユニットの動作を凍結することにより、故障したプロ
セッシングユニットが勝手な動作を行い、プロセッシン
グボード及び計算機の内部レジスタなどを破壊すること
を防止する。
【0153】また、故障したプロセッシングユニットに
対して応答信号を返さないことで故障したプロセッシン
グユニットの動作を凍結することにより、故障したプロ
セッシングユニットの障害発生時の状態を可能な限り破
壊せず、その後の故障原因の解析を容易にする。
【0154】また、正常なプロセッシングユニットの判
断で、故障したプロセッシングユニットを隔離モードで
動作させることにより、故障したプロセッシングユニッ
トの障害原因を知ることができ、修理箇所の特定、ある
いは再度同期動作に復旧可能か否かを知ることができ
る。
【0155】また、故障したプロセッシングユニットか
ら接続フラグへの書き込みは、故障したプロセッシング
ユニットによって明示的に行うことができず、接続フラ
グへの書き込み動作のみで接続フラグの内容が自動的に
接続セーブフラグの内容に戻るようにするため、故障し
たプロセッシングユニットの処理が完了すると確実に正
常なプロセッシングユニットの動作状態に戻ることがで
きる。
【0156】また、正常なプロセッシングユニットが故
障したプロセッシングユニットならびに正常なプロセッ
シングユニットをともに接続するように制御レジスタを
セットし、しかも制御レジスタのセットを、故障したプ
ロセッシングユニットと正常なプロセッシングユニット
の同期処理の最後で、同一命令列を実行することによ
り、故障したプロセッシングユニットを再同期させるこ
とが可能となる。
【0157】実施例2.図17は、実施例1における図
9の凍結回路202の内部に、隔離監視タイマ280を
設けた凍結回路202aを示す。この実施例では、故障
したプロセッシングユニットAは、正常なプロセッシン
グユニットB,Cにより設定された時間内においてのみ
動作可能とする。そして、正常なプロセッシングユニッ
トB,Cが凍結状態でロックされるのを防ぐようにす
る。また、図18は、実施例1における図8の機能回路
の割込制御回路の入力に隔離監視割込信号423を追加
した機能回路14aを示す。
【0158】故障したプロセッシングユニットAを隔離
モードで動作させる時、マスク不可能な強制割込信号2
21−1により、それまでプロセッシングユニットAが
実行していたプログラムは強制的に中断させられ、エラ
ー解析ルーチンが実行されるので、ある程度はエラー発
生の状態から隔離されるが、故障の程度によっては、プ
ロセッシングユニットAが正常なプロセッシングユニッ
トB,Cの凍結状態を解除して元の状態に戻すための制
御レジスタ271の書き込みができない可能性がある。
【0159】これを防止するために、隔離モード(隔離
フラグが“1”)になると、自動的に隔離監視タイマ2
80が動作を開始する。隔離監視タイマ280はある一
定時間(T1)が経過すると、隔離監視タイマの出力で
ある隔離監視割込信号423を“1”にする。隔離監視
割込信号423が発生すると凍結回路は、接続フラグ7
0の内容を接続セーブフラグ240の内容に戻すととも
に、隔離モードをリセットする。故障したプロセッシン
グユニットAは再び凍結状態になり、凍結状態であった
正常なプロセッシングユニットB,Cは動作を開始す
る。正常なプロセッシングユニットB,Cは、隔離監視
タイマの出力が“1”となったことを、図18における
割込制御回路180aからの割込により知ることができ
る。正常なプロセッシングユニットB,Cは、故障した
プロセッシングユニットAが凍結解除が不可能なくらい
致命的な故障をおこしていると判断し、故障したプロセ
ッシングユニットAを今後の動作に参加させない(完全
に切り離す)。
【0160】以上のようにこの実施例は、計算機全体が
ロック状態になることを防止するために、隔離監視タイ
マを設けたものである。また、電源投入時に計算機をハ
ングアップさせないために、隔離監視タイマを用いるこ
とができる。前述した隔離監視タイマを用いて電源投入
時の自己診断処理が正しく動作しない場合、計算機を元
の正常動作状態に戻すことができる。
【0161】この実施例によれば、正常なプロセッシン
グユニットを凍結した状態で、故障したプロセッシング
ユニットによる動作が完了しない場合でも、隔離監視タ
イマにより、自動的に正常なプロセッシングユニットの
凍結状態は解除されるため、計算機全体がロック状態に
なることを防止する。また、電源投入時の自己診断処理
が正しく動作しない場合、タイマ監視により元の正常動
作状態に戻るため、電源投入時に計算機がハングアップ
しない。
【0162】実施例3.実施例2において、故障したプ
ロセッシングユニットを隔離モードで動作させる時、タ
イムアウト機能により、自動的に元の状態に戻すことは
可能であるが、誤動作により正常なプロセッシングユニ
ットのアクセス対象である主記憶装置や外部の制御回路
のレジスタ内容などを破壊する可能性があった。図19
は、図18における機能回路において、書き込み許可開
始アドレスを格納する下限フェンスレジスタ301、書
き込み許可終了アドレスを格納する上限フェンスレジス
タ302を備え、下限フェンスレジスタ301と、上限
フェンスレジスタ302と、隔離フラグ213と、アド
レス信号303と、リード/ライト信号305の内容を
入力とし、主記憶装置のメモリアドレス空間及びI/O
装置のI/Oアドレス空間へのアクセスを許可するイネ
ーブル信号307を出力するチェック回路306とを追
加した機能回路14bを示す。チェック回路306は、
隔離フラグ213の出力が“1”の状態では、主記憶装
置のメモリアドレス空間及びI/Oアドレス空間に対す
る書き込み(リード/ライト信号305がライトを示し
ている時)は、下限フェンスレジスタ301、上限フェ
ンスレジスタ302にて指定されるアドレス空間のみア
クセスを許可するようにハードウェアで制御するための
イネーブル信号307を出力する。なお、このチェック
回路306は、隔離モードから凍結状態に戻るための制
御レジスタ271(データの値は無視される)のアクセ
スを妨げない。また、書き込み許可範囲は、正常なプロ
セッシングユニットB,Cが通常の動作では使用しない
領域を設定する。なお、読み出しに関しては、全ての空
間にたいしてアクセス可能とする。
【0163】以上のようにこの実施例は、故障したプロ
セッシングユニットの誤動作による正常なプロセッシン
グユニットからアクセス可能な主記憶装置などの内容の
破壊を防止するために、故障したプロセッシングユニッ
トが、隔離動作中にアクセスすることができるアドレス
空間を設定する下限フェンスレジスタ、及び上限フェン
スレジスタを備えたものである。
【0164】この実施例によれば、故障したプロセッシ
ングユニットが、隔離動作中にアクセスすることができ
るアドレス空間を、正常なプロセッシングユニットによ
り予め設定しておくことにより、故障したプロセッシン
グユニットの誤動作による正常なプロセッシングユニッ
トの計算機資源の破壊を防止することができる。
【0165】実施例4.実施例2において、故障したプ
ロセッシングユニットAが、自らのエラーの情報及び自
己診断結果を主記憶装置143に書き出す処理に長い時
間を要する場合、正常なプロセッシングユニットB,C
が実行しているプログラムは、プロセッシングユニット
Aが実行している間、停止することになる。そこで、正
常なプロセッシングユニットB,Cと、故障したプロセ
ッシングユニットAを交互に動作させることにより、本
来のプログラムの実行停止時間を一定時間以下におさえ
ながら復旧処理を実行することが望ましい。
【0166】図20は、図17において、隔離モードの
実行時間を設定する隔離時間タイマ381(タイマ設定
値=T2とする)と、隔離モードを実行する時間間隔を
設定する隔離間隔タイマ382(タイマ設定値=T3と
する)と、障害の生じたプロセッシングユニットAの主
記憶装置143への書き出しが終了したことを示す1ビ
ットの同期フラグ217とを追加した凍結回路202b
を示す。また、図21は、実施例2における図18の機
能回路の割込制御回路の入力に隔離時間割込信号421
及び隔離間隔割込信号422を追加した機能回路14c
を示す。タイマ設定時間が経過すると、隔離時間タイマ
381及び隔離間隔タイマ382は、それぞれ隔離時間
割込信号421、隔離間隔割込信号422を出力する。
隔離監視タイマ280は、図17における隔離監視タイ
マと同一であり、タイマ設定値をT1とする。なお、タ
イマ設定値T1,T2,T3は、図22に示すようにT
2<T1<T3の関係になるようにプロセッシングユニ
ットより設定する。
【0167】この実施例では、図22(a)に示すよう
に隔離間隔タイマ382に設定されたタイマ設定値T3
毎に隔離モードを実行する。この隔離モードの実行時間
は、隔離時間タイマ381に設定されたタイマ設定値T
2の期間である。もし故障したプロセッサが正常に動作
する場合には、このタイマ設定値T2の期間だけ隔離モ
ードを実行し、その後正常なプロセッシングユニットを
動作させる。このようにして、故障したプロセッシング
ユニットは、期間T3毎に隔離モードを期間T2ずつ実
行することになる。もし故障したプロセッシングユニッ
トが致命的なエラーを起こしており、正常なプロセッシ
ングユニットを動作させることができない場合には、期
間T2を経過してしまう。この場合には、隔離監視タイ
マ201に設定されたタイマ設定値T1が経過し、期間
T1の経過により隔離モードが強制終了させられ、正常
なプロセッシングユニットB,Cを再び動作させること
が可能になる。それぞれのタイマの起動/停止/設定時
間経過後の処置を、図23に示す。同期フラグ217
は、障害の生じたプロセッシングユニットAの主記憶装
置143への書き出しが終了したことを示す1ビットの
フラグである。同期フラグ217は、プロセッシングユ
ニットによりデータ信号220−8を経由してセットさ
れ、隔離フラグ213が“1”(隔離モード)の時でも
プロセッシングユニットから書き込みが可能である。図
24に同期レジスタ217をビット8に追加した制御レ
ジスタ271aのビットアサインを示す。
【0168】以下、動作について説明する。正常なプロ
セッシングユニットB,Cによる隔離フラグ213のセ
ットにより、故障したプロセッシングユニットAによる
隔離モード動作が開始し、この時、隔離監視タイマ28
0、隔離時間タイマ381、隔離間隔タイマ382の3
個のタイマが起動される。プロセッシングユニットAに
よるエラー情報の主記憶装置143への書き出しが正常
に動作していると、隔離時間タイマ381の設定時間T
2が経過し、隔離フラグ213がリセットされ(隔離監
視タイマ280は停止する)、凍結状態の正常なプロセ
ッシングユニットB,Cが動作を開始する。この時、障
害が発生したプロセッシングユニットAのエラー情報が
すべて主記憶装置143に書き出されていないならば、
故障したプロセッシングユニットAは同期フラグ217
をセットしない。凍結状態から動作を再開した正常なプ
ロセッシングユニットB,Cは、同期フラグ217の内
容がセットされていないことにより、故障したプロセッ
シングユニットAの処理がすべて完了していないことを
知るとともに、通常のプログラム実行を行う。隔離間隔
タイマ382の設定時間T3が経過すると、正常なプロ
セッシングユニットB,Cに割込が発生する。正常なプ
ロセッシングユニットB,Cは再度隔離フラグ213を
セットして制御レジスタ271に書き込みを行い、自ら
は凍結状態になるとともに、障害を発生したプロセッシ
ングユニットAはエラー情報の主記憶装置143への書
き出し動作を実行する。また、このとき隔離監視タイマ
280は動作を再開する。この動作を故障したプロセッ
シングユニットAのエラー情報書き出しが終了するまで
繰り返す。もし、故障したプロセッシングユニットA
が、エラー情報の書き出しを完了した場合、制御レジス
タ271に書き込む時に、同期フラグ217を“1”に
セットする。このことにより、正常なプロセッシングユ
ニットB,Cは故障したプロセッシングユニットAの主
記憶装置143への書き出し動作が完了したことを知
り、全レジスタを予め決められた主記憶装置143に退
避するといった復旧処理に移行する。以後の動作は、図
12にて示した動作と同一である。
【0169】なお、図22(a)に示したように、隔離
監視タイマ280は動作を停止再開することによりタイ
マ設定値T1までカウントするのではなく、図22
(b)に示すように、故障したプロセッシングユニット
Aが動作するたびにリセットされて、新たにタイマ設定
値T1までカウントするようにしてもよい。この場合の
タイマ設定値T1は、タイマ設定値T2よりわずかに大
きな値であればよい。
【0170】以上のようにこの実施例は、正常なプロセ
ッシングユニットの動作停止時間を一定時間以下に限定
するために、故障したプロセッシングユニットの動作時
間を分割し1回の動作時間を限定する隔離間隔タイマ、
及び隔離時間タイマを備えたものである。
【0171】この実施例によれば、隔離間隔タイマの設
定値の時間間隔で、隔離時間タイマの設定値の時間の間
でしか隔離故障したプロセッシングユニットの動作時間
を許可しないことにより、故障したプロセッシングユニ
ットの動作による、正常なプロセッシングユニットの動
作停止時間を、一定時間以下に限定することができる。
【0172】実施例5.図25は、実施例1における図
1の多数決を行う多数決ユニット135を一重化構成に
したもので、多数決ユニット135を簡略化することに
より低コストにて高い信頼性を得るようにしたものであ
る。
【0173】実施例6.図26は、実施例1における図
1において、2つの入出力バスアダプタの接続先を1つ
のI/Oバス147とするために、入出力バスアダプタ
が同時にI/Oバスをアクセスしないようにした入出力
バスアダプタ145aに変更したプロセッシングボード
125bを示す。図26に示す1枚のプロセッシングボ
ード125bを、従来の計算機のI/Oバス147にそ
のまま接続可能にすることにより、従来の計算機を容易
にフォールトトレラント化することができる。
【0174】以上のようにこの実施例は、既存の計算機
のI/Oバスにそのまま挿入し、I/Oを除いた部分を
二重化するために、1枚のプロセッシングボード上に、
上記プロセッシングユニットと、該プロセッシングユニ
ットのうち1つを選択する多数決ユニットと、全てのプ
ロセッシングユニットと多数決ユニットを接続するプロ
セッサバスと、多数決ユニットに接続され二重化された
システムバスと、各システムバスに接続される主記憶装
置と、同じく各システムバスに接続され外部と入出力の
インタフェースをとるための二重化された入出力バスア
ダプタとを備えたものである。
【0175】また、上記の構成により、プロセッシング
ボード単体を十分な信頼性を持たせることができ、これ
を既存のI/Oバスにそのまま挿入することで、I/O
を除いた部分を二重化することができるという効果があ
る。
【0176】II.プロセッシングボードの回復方式 「I.プロセッシングボードの基本動作」で説明したよ
うに、プロセッシングボード125は一部故障時(以後
一次故障と呼ぶ)にも継続動作するが、システムの可用
性から見ても、できるだけ速やかにその故障をシステム
から取り除くことが望ましい。ここでは一次故障発生
後、更に二次故障によるシステム障害を最小限にとどめ
るよう直ちに別のプロセッシングボードに引き継ぎを完
了するとともに、故障したプロセッシングボードの交換
によって通常運転に復帰するまでの回復方式について説
明する。なお、以下の実施例において故障したプロセッ
シングボードとは、プロセッシングユニットが故障した
プロセッシングボードまたは、一つの独立系が故障した
プロセッシングボードである。
【0177】実施例7.プロセッシングボード125
は、例えば図27で示すIEEEstd896ー199
1のFuturebus+で規定されるようなフロント
パネル600、及び表示ランプ601a,601b,6
01c、及び活線挿抜スイッチ602を備えている。フ
ロントパネル600は各プロセッシングボードに付属す
るパネルである。活線挿抜スイッチ602はプロセッシ
ングボードを活線挿抜するためのスイッチである。
【0178】以下に表示ランプの動作について説明す
る。図27の表示ランプ601a,601b,601c
はプロセッシングボードの稼働状態を示すもので、正常
動作中、故障動作中、プロセッシングボード交換可能を
識別できるようになっている。正常動作ランプ601a
は、計算機の電源投入後から直ちに点灯し、プロセッシ
ングボードの故障がない通常運転状態の間点灯を続け
る。また活線挿入によりプロセッシングボードが正常挿
入されたときからも点灯を開始する。故障動作ランプ6
01bは、プロセッシングボードの内部故障により、故
障部位を除いた残りの構成で継続運転しているときに点
灯する。正常動作ランプ601aは、この故障動作ラン
プ601bの点灯中であっても、点灯し続ける。ボード
交換ランプ601cは、故障したプロセッシングボード
から他のプロセッシングボードへの引き継ぎ処理(後
述)が完了し、プロセッシングボードが交換可能な状態
になったときに点灯する。ボード交換ランプ601cの
点灯により、その他の表示ランプ601a,601bは
消灯する。なお、万一故障したプロセッシングボードが
継続運転できない故障を検知した場合は、故障動作ラン
プ601bのみを点灯させる。その際の引き継ぎ処理は
実施しない。
【0179】活線挿抜スイッチ602は、正常に動作中
の保守点検時や、プロセッシングボードのアップグレー
ド時など、プロセッシングボード交換の必要性のある場
合に用いるものである。プロセッシングボードを抜去す
る場合は、活線挿抜スイッチ602の”0”側に倒すこ
とにより、オペレーティングシステムに抜去指示が通知
される。オペレーティングシステムは、一連のプロセッ
シングボードの引き継ぎ処理を開始する。実際のプロセ
ッシングボードの抜去は、この引き継ぎ処理が完了し
て、該プロセッシングボードがボード交換ランプ601
cを点灯させた後に行なう。なお、オペレーティングシ
ステムが引き継ぎを実施しない場合には、又はプロセッ
シングボードの運転継続ができない故障のプロセッシン
グボードを交換可能状態にするか否かを、オペレーティ
ングシステムに予め設定しておくようにする。またプロ
セッシングボード挿入後に活線挿抜スイッチ602を”
1”側に倒すことにより、プロセッシングボードの自己
診断が開始される。その結果が正常の場合には、オペレ
ーティングシステムに挿入指示が通知され、プロセッシ
ングボード挿入によるシステムの再構築処理が開始され
て、通常の運転に復帰する。一方、自己診断に失敗した
場合は、故障動作ランプ601bが点灯し、交換プロセ
ッシングボードに異常があることを示す。この場合は、
再びプロセッシングボードを抜去して、新しいプロセッ
シングボードと交換する。なお、プロセッシングボード
挿入後に活線挿抜スイッチ602を”1”側に倒すこと
なく、ソフトウェア等によりプロセッシングボード挿入
動作の完了を通知する手段によって、活線挿抜スイッチ
602を”1”側に倒す動作と同等な動作をさせてもよ
い。
【0180】[マルチプロセッサの回復方式]ここで
は、共有メモリをもつマルチプロセッサタイプの場合の
回復方式について説明する。図28は本実施例のシステ
ム構成を示している。このシステム構成では、システム
バス141にプロセッシングボード125、主記憶14
3、入出力バスアダプタ145が接続されている。ま
た、プロセッシングボード125は複数台あり、図28
中括弧内の添字はプロセッシングボードの番号を示して
いる。
【0181】各プロセッシングボード125には、その
プロセッシングボードに割り振られた割り込みベクタが
付されている。例えばプロセッシングボード125
(1)には、割り込みベクタ=1が割り振られ、プロセ
ッシングボード125(2)には割り込みベクタ=2が
割り振られ、プロセッシングボード125(n+1)に
は割り込みベクタ=n+1が付されている。この割り込
みベクタは入出力アダプタ145等から出力されるI/
O割り込みがどのプロセッシングボードで受け付けられ
るべきものかを示す識別子である。入出力アダプタ14
5からシステムバス141に出力されるI/O割り込み
にはこの割り込みベクタが付加されている。この割り込
みベクタが付加されたI/O割り込みをその割り込みベ
クタを持つプロセッシングボードで受け付けるようにし
ている。
【0182】また、本実施例におけるシステムでは、あ
る仕事量を処理するN台(N≧1)のプロセッシングボ
ード125に、更に1台のプロセッシングボード125
を加えたN+1台のプロセッシングボード125で処理
を実行する構成から成るものとする。各プロセッシング
ボード125はシャーシに設けられたスロットに収めら
れる。
【0183】以下に、故障時のプロセッシングボード1
25の処理の移行手順について説明する。ここで、プロ
セッシングボード125(1)は、3つのうち1つのプ
ロセッシングユニットが故障を引き起こしている故障状
態にあり、故障部位を除いた残りの構成で運転を継続し
ている状態にあるものとする。プロセッシングボード1
25(1)は、この状態の間、正常動作ランプ601a
と故障動作ランプ601bを点灯している。そして、こ
のプロセッシングボード125(1)の故障は、オペレ
ーティングシステムに通知され、そこで故障の状況が調
べられ、固定故障と判定されたら、処理の引き継ぎを開
始する。
【0184】各プロセッシングボード125が担当する
処理は、オペレーティングシステムによって管理され
る。プロセッシングボード125が担当する処理は、一
般にその処理の管理単位(以後プロセスと呼ぶ)でオペ
レーティングシステムによって割り付けられる。そし
て、プロセッシングボード125には、現在実行中のプ
ロセス以外に、通常は予め幾つかのプロセスが予約され
ている。この予約されたプロセスはプロセッシングボー
ド毎に定められるプロセスキューに登録される。このプ
ロセスキューに登録されたプロセスに従ってプロセッシ
ングボードの処理が進められている。
【0185】オペレーティングシステムは、故障発生
後、直ちに故障したプロセッシングボードのプロセスキ
ューへの新たなプロセスの登録を中止する。そして、オ
ペレーティングシステムは、以降故障したプロセッシン
グボードにより実行されるべきプロセスを別のプロセッ
シングボードのプロセスキューに割り付けることにより
処理の引き継ぎを行なう。
【0186】実際の処理の引き継ぎは、故障したプロセ
ッシングボード125(1)から、故障の通知を受けた
オペレーティングシステムによって、できるだけ早期に
プロセスの切り替わるタイミングで開始される。オペレ
ーティングシステムは、故障したプロセッシングボード
125(1)への新たなプロセスの割り付けを中止し
て、故障したプロセッシングボード125(1)が以降
実行する予定であったプロセスを、別の正常なプロセッ
シングボード125(2)を始めとする複数のプロセッ
シングボード125に移行する。なお、この引き継ぎ処
理を実行するオペレーティングシステムは、一般に割り
込みマスタ(後述)の機能を備えるプロセッシングボー
ド上で稼動する。
【0187】この処理の移行により複数台のプロセッシ
ングボード125は、故障したプロセッシングボード1
25(1)の処理を引き継ぐことになる。故障したプロ
セッシングボードの交換が完了するまでの間、一時的に
それらの複数台のプロセッシングボードに負荷が集まる
ことになり、思わぬ性能低下につながることがある。し
かしながら、本実施例では前述したようにN台で実行す
る仕事を、予めN+1台のプロセッシングボード125
で実行している。従って、引き継ぎ後もプロセッシング
ボードの数はN台となるだけで、予め想定していたN台
の負荷分散により、処理の引き継ぎができる。なお、処
理を移行しようとする移行先のプロセッシングボードが
万一ない場合には、引き継ぎは行なわず、故障したプロ
セッシングボードはそのままの故障状態で処理を継続
し、後述するシングルプロセッサの移行処理を行なう。
【0188】次に、この引き継ぎ処理の完了後の説明を
する。引き継ぎ処理が終了すると故障したプロセッシン
グボード125(1)は直ちに交換可能状態になる。故
障したプロセッシングボード125(1)はそのことを
示すためのボード交換ランプ601cを点灯する。そし
て、正常動作ランプ601aと故障動作ランプ601b
を消灯する。その後、故障したプロセッシングボード1
25(1)を正常なプロセッシングボードと交換する。
プロセッシングボード125は活線交換でき、システム
動作に影響を与えることはない。故障したプロセッシン
グボード125(1)は、完全にシステムから故障を切
り離す意味において、できるかぎり早期に交換すること
が望ましい。こうして、システムはプロセッシングボー
ドの交換後オペレーティングシステムにより元の構成に
復帰する。
【0189】復帰する場合は、プロセッシングボードの
挿入後、プロセッシングボードが正常動作ランプ601
aを点灯させ、自己診断が正常に完了した時点で、割り
込みによりオペレーティングシステムに自己診断が正常
に完了したことを通知する。オペレーティングシステム
はシステムを再構築するプロセスのもとに、新しいプロ
セッシングボードへのスケジュールを開始する。こうし
てシステムは通常の運転状態に復帰する。
【0190】図29、図30は引き継ぎから交換までの
手順を示した処理フローを示したものである。故障した
プロセッシングボードからの処理の引き継ぎ手順は、マ
ルチプロセッサ構成時におけるI/Oからの割り込み
を、どのように受け付けるかによって異なる。図28に
おいて説明したように、プロセッシングボード125は
それぞれI/O割り込みを識別するための割り込みベク
タを付されている。システムバス141を介して送られ
てくるI/O割り込みを受け付ける方法として、複数の
プロセッシングボードの中からひとつのプロセッシング
ボードを割り込みマスタ型プロセッシングボードとし、
他の残りのプロセッシングボードを割り込みスレーブ型
プロセッシングボードとする方法がある。割り込みマス
タ型プロセッシングボードは、すべてのI/O割り込み
を、割り込みマスタ型プロセッシングボードがもつ割り
込みベクタで一旦受け付けるプロセッシングボードであ
る。また、割り込みスレーブ型プロセッシングボード
は、割り込みマスタ型プロセッシングボードが一旦受け
付けた割り込みを割り込みマスタ型プロセッシングボー
ドにより各々の割り込みスレーブ型プロセッシングボー
ドがもつ割り込みベクタに分配してもらうことにより割
り込みを受け付けるプロセッシングボードである。以下
に割り込みマスタ型プロセッシングボードと割り込みス
レーブ型プロセッシングボードが故障した場合について
説明する。
【0191】図29は割り込みマスタ型プロセッシング
ボードの障害回復処理フローを示したものである。まず
故障発生の通知を受けたオペレーティングシステムは、
新しいプロセスを故障したプロセッシングボードのプロ
セスキューに今後登録することを止める(st10
0)。故障したプロセッシングボードは、既にプロセス
キューに登録済みのプロセスを実行し、オペレーティン
グシステムは、以後実行すべきプロセスを同時に稼働す
る他の1台又は複数台のプロセッシングボードのプロセ
スキューに登録する(st101)。
【0192】次に故障したプロセッシングボードの割り
込みベクタを予め決められた優先度に従ったプロセッシ
ングボードに移行する(st102)。例えば図28に
おいて、プロセッシングボード125(1)が割り込み
マスタ型プロセッシングボードであり、この割り込みマ
スタ型プロセッシングボードが故障した場合について説
明する。割り込みベクタを移行する場合に、予め移行す
るプロセッシングボードの優先度を決めておく。ここで
は、故障したプロセッシングボードの番号よりも、ひと
つ大きい番号を持つプロセッシングボードに処理を移行
し、更にそのプロセッシングボードに処理を移行できな
い場合には、次に番号が大きいプロセッシングボードに
処理を移行するような優先度を付けるものとする。プロ
セッシングボード125(1)が故障した場合には、次
の番号を持つプロセッシングボード125(2)が、優
先的に引き継ぎをするプロセッシングボードとなる。従
って、プロセッシングボード125(1)の割り込みベ
クタ=1がプロセッシングボード125(2)の割り込
みベクタとなる。プロセッシングボード125(2)の
オリジナルな割り込みベクタ=2は、新たな割り込みベ
クタ=1によって上書きされる。
【0193】割り込みベクタの移行は、アトミック性が
要求される。このため、すべてのI/O割り込みをマス
クすることにより、どのI/Oアダプタ145からも割
り込みを発効できないようにしておき、その間に割り込
みベクタを移行させる。
【0194】移行が完了しだい、故障したプロセッシン
グボードは、オペレーティングシステムにその旨を通知
する。新しい割り込みマスタ型プロセッシングボード
は、その割り込みベクタを引き継ぎ、以後の割り込みの
受け付けを開始する。例えば前述した例においてはプロ
セッシングボード125(2)が、新しい割り込みマス
タ型プロセッシングボードとなる。この新しい割り込み
マスタ型プロセッシングボード125(2)には、割り
込みベクタ=1が移行されたため、それ以降システムバ
ス141を介して送られてくるI/O割り込みを受け付
ける。
【0195】次に、移行の完了を受けたオペレーティン
グシステムは、故障したプロセッシングボードのキャッ
シュメモリをフラッシュする(st103)。これによ
り、キャッシュメモリのデータを主記憶にコピーバック
させ、システム内のキャッシュメモリのコヒーレンシを
保証する。そしてフラッシュ動作の完了によって、ボー
ド交換ランプを点灯させる(st104)。プロセッシ
ングボード交換は、そのランプ点灯を確認してから実施
する。
【0196】新しいプロセッシングボードは、プロセッ
シングボード挿入後スロットへの正常設置の場合、正常
動作ランプ601aを点灯させ、自己診断を実行し、正
常終了の場合、オペレーティングシステムにその旨を通
知する。オペレーティングシステムは、これにより新し
いプロセッシングボードに新たなプロセスを割り付け、
元の構成状態により処理を開始する(st105)。
【0197】図30は割り込みスレーブ型プロセッシン
グボードの障害回復処理フローを示したものである。割
り込みマスタプロセッシングボード型と同様に、故障発
生の通知を受けたオペレーティングシステムは、新しい
プロセスを故障したプロセッシングボードのプロセスキ
ューに今後登録することを止める(st100)。ま
た、オペレーティングシステムは、故障したプロセッシ
ングボードをI/O割り込みスケジュールから削除する
(st100)。オペレーティングシステムには、割り
込みマスタ型プロセッシングボードで受け付けたI/O
割り込みを空いている割り込みスレーブ型プロセッシン
グボードに割り付ける割り込みスケジューラが存在す
る。この割り込みスケジューラは故障したプロセッシン
グボードが割り込みスレーブ型プロセッシングボードで
ある場合に、I/O割り込みを分配する対象から除外す
る。
【0198】そして故障したプロセッシングボードは既
にプロセスキューに登録済みのプロセスを実行する。オ
ペレーティングシステムは、故障したプロセッシングボ
ードが以後実行すべきプロセスを同時に稼働する他の1
台又は複数台のプロセッシングボードのプロセスキュー
に登録する(st101)。
【0199】その後、故障したプロセッシングボード
は、自身のキャッシュメモリをフラッシュする(st1
03)。そのフラッシュが完了しだいボード交換ランプ
を点灯させる(st104)。オペレータは、その点灯
を確認してプロセッシングボードを交換する。挿入した
新しいプロセッシングボードは、スロットへの正常設置
を示す正常動作ランプ601aを点灯させ、自己診断を
実行した後に、オペレーティングシステムにその旨を通
知する。オペレーティングシステムは、以降新たなプロ
セスを割り付ける。システムはこのようにして、元の構
成状態により処理を開始する(st105)。
【0200】以上のように割り込みスレーブ型プロセッ
シングボードの障害回復処理は割り込みマスタ型プロセ
ッシングボードの障害回復処理と一部異なる。割り込み
スレーブ型プロセッシングボードの障害回復処理では、
割り込みマスタ型プロセッシングボードの障害回復処理
のような割り込みベクタの移動がない。しかし、プロセ
ッシングボードのハードウェア面から見ると割り込みマ
スタ型プロセッシングボードの機能で割り込みスレーブ
型プロセッシングボードの機能を包含しているため、す
べてのプロセッシングボードを割り込みマスタ型プロセ
ッシングボードで構成すればよく、割り込みマスタ型プ
ロセッシングボードを割り込みスレーブ型プロセッシン
グボードとしても用いることができる。
【0201】図31及び図32は、前述した割り込みマ
スタ型プロセッシングボードと割り込みスレーブ型プロ
セッシングボードに障害が発生した場合の障害回復処理
フローを示す図である。図31は、割り込みマスタ型プ
ロセッシングボードの障害回復処理フローを示してい
る。前述した図29においては、プロセッシングボード
の交換を最後に行う点が特徴であるが、図31に示す場
合は、新しいプロセッシングボードを早期に挿入し(s
t131)、新しく挿入したプロセッシングボードに対
して処理を割り当て(st132)、その後故障したプ
ロセッシングボードから正常に動作しているプロセッシ
ングボードへの引継ぎ処理を行い(st133〜st1
04)、最後に故障したプロセッシングボードを抜去す
る(st134)点が特徴である。一方、図32は、割
り込みスレーブ型プロセッシングボードの障害回復処理
フローを示す図である。図32においても、図31に示
した特徴を有している。すなわち、プロセッシングボー
ドの故障により新しいプロセッシングボードを早期に挿
入し(st131)、この挿入した新しいプロセッシン
グボードに処理を割り当て(st132)、その後故障
したプロセッシングボードにスケジュールされた処理を
他のプロセッシングボードに割り当てる一連の処理を行
い(st140〜st104)、最後に故障したプロセ
ッシングボードを抜去する(st134)点が特徴であ
る。図31及び図32に示すように、早期に新しいプロ
セッシングボードを挿入することにより、もともとN台
で動作していたシステムがN+1台のプロセッシングボ
ードで動作することになり、処理の負荷分散が図れる。
このように、負荷分散を測りながら、交渉したボードを
抜去するので、システムの性能を低下させることなくプ
ロセッシングボードの交換を行うことができる。
【0202】前述した例においては、マルチプロセッサ
構成時におけるI/Oからの割り込みを割り込みマスタ
型プロセッシングボードと割り込みスレーブ型プロセッ
シングボードで処理する場合について説明したが、マス
タ型及びスレーブ型という主従の関係にあるのではな
く、全てのプロセッシングボードが共通にI/O割り込
みを受け付ける場合がある。以下、このようにマルチプ
ロセッサ構成時におけるI/Oからの割り込み全てをプ
ロセッシングボードが共通に受け付ける場合について説
明する。ここでは、I/O割り込みを識別するために割
り込みベクタを用いるとともに、いずれかのプロセッシ
ングボードが割り込みベクタを認識することによりI/
O割り込みを受け付ける場合を以下に説明する。
【0203】以下、このようなプロセッシングボードを
割り込み同報型プロセッシングボードとして説明する。
割り込み同報型プロセッシングボードはI/O割り込み
に付されている割り込みベクタを識別することにより、
そのI/O割り込みが自己のプロセッシングボードに対
するものであるかどうかを判定する。自己のプロセッシ
ングボードに対するものである場合には、そのI/O割
り込みの処理を実行する。自己のプロセッシングボード
に対するI/O割り込みでない場合には、そのI/O割
り込みを無視する。このような割り込み同報型プロセッ
シングボードに障害が生じた場合のその障害回復処理は
前述した割り込みスレーブ型プロセッシングボードの場
合と同様のものを用いることができる。すなわち、図3
0に示した割り込みスレーブ型プロセッシングボードの
障害回復処理フローを割り込み同報型プロセッシングボ
ードの障害回復処理フローとして用いることができる。
同様に、他の例として図32に示した割り込みスレーブ
型プロセッシングボードの障害回復処理フローを割り込
み同報型プロセッシングボードの障害回復処理フローと
して用いることができる。図30及び図32の処理フロ
ーの動作は、すでに説明したので、ここではその説明を
省略する。
【0204】次に、図33から図36はプロセスキュー
の動作について説明したものである。ここでは、図33
から図36を用いて故障したプロセッシングボードから
他のプロセッシングボードにプロセスを引き継ぐ場合の
いくつかの例について説明する。
【0205】このプロセスの引き継ぎ処理は前述した割
り込みマスタ型プロセッシングボード及び割り込みスレ
ーブ型プロセッシングボードの何れの場合にも共通して
いるものである。従って、以下に述べる引き継ぎ例にお
いては、プロセッシングボードの種類については特別に
分けて説明を行わない。各図において、500はプロセ
スキューを示しており、括弧内の添字は各プロセッシン
グボードに対応したプロセスキューの番号である。
【0206】図33は代表的な引き継ぎ例1を示す図で
ある。プロセスの引き継ぎ処理は、オペレーティングシ
ステムのプロセススケジューラにより実施される。プロ
セスの引き継ぎは故障したプロセッシングボードのプロ
セスキューへの新たなプロセスの登録を中止し、未だキ
ュー登録されてないが、以降実行するはずであったプロ
セスを別のプロセッシングボードにスケジュールしなお
すことによってなされる。また故障したプロセッシング
ボードはすでに予約されているプロセスキュー500の
内容(矢印510が示すところまでのプロセス)をすべ
て実行する。この例では故障したプロセッシングボード
125(1)が、すでにキュー500(1)に予約され
ているプロセスa、プロセスdを実行し、プロセススケ
ジューラが、故障したプロセッシングボードにより以降
実行するはずであったプロセスh、プロセスiを別のプ
ロセッシングボードのプロセスキュー500(2)、5
00(n+1)に分配している。
【0207】図34は引き継ぎ例2を示す図である。こ
の引き継ぎ処理は、オペレーティングシステムにより、
故障したプロセッシングボードのプロセスキューへの新
たなプロセスの登録を中止するとともに、すでに予約さ
れているプロセスキュー500の内容を別のプロセッシ
ングボードにスケジュールしなおすことによって成され
るようにしたものである。ここでは故障したプロセッシ
ングボード125(1)が、すでにキュー500(1)
に予約されているプロセスa、プロセスdを別のプロセ
ッシングボードのプロセスキュー500(2)、500
(n+1)に分配している。なお、この例では故障した
プロセッシングボードにすでに予約されているプロセス
を別のプロセッシングボードにスケジュールしなおすも
のであり、故障したプロセッシングボードが既に実行中
のプロセスを他のプロセッシングボードにスケジュール
しなおすものではない。従って、故障したプロセッシン
グボードが故障した時点で実行中のプロセスはそのまま
故障したプロセッシングボードにより実行される。この
例の場合は、予約されていたプロセスを他のプロセッシ
ングボードに分配してしまうので、上記引き継ぎ例1に
比べて故障したプロセッシングボードがより早い時点で
動作を停止することができる。
【0208】図35は引き継ぎ例3を示す図である。こ
の引き継ぎ処理は、オペレーティングシステムにより、
新たなプロセスの登録を中止するとともに、故障したプ
ロセッシングボード125(1)に予約されているプロ
セスを特定のプロセッシングボードに割り付け、引き継
いだプロセッシングボードに既に予約されているプロセ
スを更に別のプロセッシングボードに移行するものであ
る。
【0209】このような多段階にわたる引き継ぎ処理
は、予めオペレーティングシステムに引き継ぎ条件を設
定しておくことにより達成できる。例えば、プロセスキ
ュー500(1)に予約されているプロセスをプロセス
キュー500(2)に移動させ、プロセスキュー500
(2)に予約されているキーをプロセスキュー500
(n+1)に移行させるということを予め、オペレーテ
ィングシステムに設定しておくことにより、図35に示
すように、すでにプロセスキュー500(1)に予約さ
れているプロセスa,d,g,hをプロセスキュー50
0(2)に移行させ、そしてプロセスキュー500
(2)の予約されているプロセスbをプロセスキュー5
00(n+1)に移行させることができる。その結果プ
ロセスキュー500(2)にプロセスキュー500
(1)のプロセスが引き継がれる。
【0210】この多段階の引き継ぎ処理は故障したプロ
セッシングボードに割り付けられた複数の処理を複数の
プロセッシングボードで実行したくない場合に有効であ
る。例えば、この引き継ぎ処理はリアルタイム応答性を
より確定的にするため、予め決められた複数のプロセス
をひとつのプロセッシングボードで順に実行させたい場
合などに有効である。
【0211】図36は引き継ぎ例4を示す図である。こ
の引き継ぎ処理はオペレーティングシステムにより、故
障したプロセッシングボード125(1)に予約されて
いるプロセスを特定のプロセッシングボードに割り付け
るものである。但しこの場合は上記引き継ぎ例3のよう
にプロセスの移行を受けるプロセッシングボードに対し
て予約済みのプロセスを他のキュー500に移行するこ
とはなく、プロセスを特定のプロセッシングボードにの
み移行する。
【0212】この引き継ぎ処理も、予めオペレーティン
グシステムに引き継ぎ条件を設定しておくことにより達
成できる。オペレーティングシステムに処理分散を行う
プロセッシングボードを特定しておけばよい。この引き
継ぎ処理は引き継ぎを受けるプロセッシングボードを限
定する場合に有効である。
【0213】なお、前記引き継ぎ例3及び引き継ぎ例4
では、故障したプロセッシングボードのすでに予約済み
のプロセスを移行するのではなく、引き継ぎ例1と同様
に、予約済みのプロセスは故障したプロセッシングボー
ドに実行させ、その後実行するはずであったプロセスを
他のプロセッシングボードに移行するようにしてもよ
い。
【0214】このように、故障したプロセッシングボー
ドは、引き継ぎ処理をオペレーティングシステムと連携
して行なう。故障したプロセッシングボードとオペレー
ティングシステムは処理を中断することなく、別のプロ
セッシングボードに処理を引き継がせる。故障したプロ
セッシングボードはその後新しいプロセッシングボード
と交換される。
【0215】図37は、他の形式のプロセスキューを用
いた場合の動作を示す図である。前述した引き継ぎ例1
〜4では、プロセッシングボード毎にプロセスキューが
あるが、この例ではシステムで1つの共通のプロセスキ
ュー500しか存在しない。各プロセッシングボードで
実行されるプロセスは、この1つのプロセスキュー50
0で管理される。プロセッシングボードで実行すべきプ
ロセスはプロセッシングボードの処理が空きしだい、こ
のプロセスキューから順に決定される。プロセスキュー
の構造はFIFO構造になっていて、先に登録されたプ
ロセスが先に出される。このような方式にすると、引き
継ぎ例1〜4で述べたような故障したプロセッシングボ
ードに対して予めプロセスキューに登録され、予定され
ていたプロセス(たとえば、図33のプロセスa、プロ
セスd)というものがなくなる。従って、図37のよう
にプロセッシングボードが空きになった順番にプロセス
がプロセスキューから取り出されて実行される。故障し
たプロセッシングボードは、プロセッシングボードに故
障が発生したことをオペレーティングシステムに通知す
る。通知を受けたオペレーティングシステムがプロセス
キューからの故障したプロセッシングボードへ新たな処
理のスケジュールを中止し、プロセスキューから新たな
処理を他のプロセッシングボードへスケジュールする。
たとえば、プロセッシングボード125(1)→125
(2)→125(3)→125(4)→125(5)の
順に処理が終了して空きになり、プロセスaがプロセッ
シングボード125(1)で実行され、プロセスbがプ
ロセッシングボード125(2)で実行され、プロセス
cがプロセッシングボード125(3)で実行され、プ
ロセスdがプロセッシングボード125(4)で実行さ
れるはずであった場合、プロセッシングボード125
(1)が故障したことにより、プロセスaがプロセッシ
ングボード125(2)で実行され、プロセスbがプロ
セッシングボード125(3)で実行され、プロセスc
がプロセッシングボード125(4)で実行され、プロ
セスdがプロセッシングボード125(5)で実行され
る。この例によれば、複数のプロセッシングボードに対
して、ひとつのプロセスキューしかなく、プロセッシン
グボードに対してすでに予約されたプロセスというもの
が存在せず、プロセッシングボードの故障の際のプロセ
スの引き継ぎ処理が発生しない。この例によれば、プロ
セスキューがひとつしかないので、プロセスキューの管
理が容易になる。また、プロセッシングボードの故障時
も引き継ぎ処理がなく、故障したプロセッシングボード
とオペレーティングシステムの負荷が増加しない。
【0216】以上のように、この実施例は、システムバ
スと該システムバスに接続される主記憶装置、及びシス
テムバスに接続されるプロセッシングボードを複数台備
えられる高信頼化計算機において、前記プロセッシング
ボードは各々にキャッシュメモリをもつ少なくとも3台
のプロセッシングユニットにより同一命令を実行してお
り、いずれかのプロセッシングユニットの故障時には、
残りのプロセッシングユニットで同一命令を継続実行
し、その後、同時に稼働する他の複数台のプロセッシン
グボードに処理を移行することを特徴とする。
【0217】また、故障発生をオペレーティングシステ
ムに通知し、その後オペレーティングシステムが処理を
管理する区切りで故障したプロセッシングボードへの新
たな処理の投入を中止し、自己の処理がすべて完了した
ところで、故障したプロセッシングボードを停止するこ
とを特徴とする。
【0218】また、その後、故障したプロセッシングユ
ニットを交換して、故障前の構成に復帰することを特徴
とする。
【0219】更に、この実施例は、プロセッシングボー
ドが故障を通知する割り込みを発生させ、プロセッシン
グボードがI/O割り込みを受け付けるための割り込み
ベクタを変更することにより、前記割り込み発生後、予
め決められた優先度に従って定められた他のプロセッシ
ングボードに割り込みベクタを移行することを特徴とす
る。
【0220】また、前記プロセッシングボードは、正常
動作ランプ、故障動作ランプ及びボード交換ランプを備
えており、オペレータにその稼働状態を通知し、故障時
には通常時と異なる状態を通知し、その後、他のプロセ
ッシングボードに処理の移行を行い、I/O割り込みベ
クタの移行完了後に、オペレータにプロセッシングボー
ド交換可能状態を通知することを特徴とする。
【0221】以上のように、この実施例によれば、故障
したプロセッシングボードで処理を継続するとともに、
故障したプロセッシングボードの処理を他のプロセッシ
ングボードに直ちに移行するため、一次故障及び二次故
障からのシステム障害を最小限にとどめることができ、
システムの信頼性をより一層向上させる効果がある。
【0222】また、プロセッシングボードの処理を停止
させずに処理の移行を自動的に行なうので、チェックポ
イントのような手段が不要となる。また、処理の引き継
ぎはプロセス単位で行なわれるので、途中まで実行した
プロセスを再び始めから実行しなおすというような処理
の引き継ぎの際に発生する処理の後戻りもなく処理を継
続できる。
【0223】また、この実施例は、システムバスと該シ
ステムバスに接続される主記憶装置、及びシステムバス
に接続され、同一命令を実行する少なくとも3台のプロ
セッシングユニットを備える前記プロセッシングボード
を複数台備えられる高信頼化計算機において、ある仕事
量を処理するN台のプロセッシングボードに、更に1台
のプロセッシングボードを追加し、通常はN+1台のプ
ロセッシングボードでその処理を実行し、プロセッシン
グボードの故障時には、故障部位を除いた残りの構成で
処理を継続実行し、その後、他のN台のプロセッシング
ボードに処理を移行させることを特徴とする。
【0224】このように、システムとしてN台で実行す
る仕事を、予めN+1台のプロセッシングボードで実行
していることから、引き継ぎ後もN台となるだけで、予
め想定していたN台の負荷分散により、処理の引き継ぎ
ができる。
【0225】[シングルプロセッサの回復方式] 実施例8.図38はシングルプロセッサ(N=1)の場
合のシステム構成を示している。図28と同様に、シス
テムバス141には、プロセッシングボード125、主
記憶143、入出力バスアダプタ145が接続され、プ
ロセッシングボード125が1台ある構成である。本シ
ステムは、通常1台のプロセッシングボード125で処
理を実行する。プロセッシングボード125はシャーシ
に設けられたスロットに収められる。このようにプロセ
ッシングボード125が1台の場合は、前述したマルチ
プロセッサの場合においてN=1の場合である。プロセ
ッシングボードの機能はマルチプロセッサのものとなん
ら変更がない。ここでは、シングルプロセッサ時におけ
るマルチプロセッサとの違いだけを説明する。
【0226】以下、故障時のプロセッシングボード12
5の移行処理について説明する。シングルプロセッサの
システムでは、プロセッシングボード故障時に、移行を
行なうプロセッシングボードがないことから、できるだ
け早期に新たなるプロセッシングボードを挿入して、そ
の後故障したプロセッシングボードの引き継ぎを実施
し、故障したプロセッシングボードを抜去してプロセッ
シングボードの交換を完了することが望ましい。
【0227】図39は、シングルプロセッサの場合の引
き継ぎ処理フローを示したものである。まず、プロセッ
シングボード125(1)が、故障を引き起こしている
状態とする。故障が発生している間は、正常動作ランプ
601aと故障動作ランプ601bが点灯する。オペレ
ーティングシステムは、故障したプロセッシングボード
からの故障の通知を受けた後、故障の内容を判断する。
固定故障と判定された場合、故障したプロセッシングボ
ードは新しいプロセッシングボードの挿入まで処理を継
続する(st120)。
【0228】次に、新しいプロセッシングボード125
(2)を挿入する。新しいプロセッシングボード125
(2)はプロセッシングボード挿入後、スロットへの正
常設置を示す正常動作ランプ601aを点灯させ、自己
診断を実行して、オペレーティングシステムにその旨を
通知する。オペレーティングシステムにより新しいプロ
セスの割り付けが新しいプロセッシングボード125
(2)に行なわれる(st121)。その後、オペレー
ティングシステムは、新しいプロセスを故障したプロセ
ッシングボードのプロセスキューに今後登録することを
止める(st100)。故障したプロセッシングボード
は、既にプロセスキューに登録済みのプロセスを実行
し、オペレーティングシステムは、以後実行すべきプロ
セスを新しいプロセッシングボードのプロセスキューに
登録する(st101)。
【0229】次に故障したプロセッシングボードの割り
込みベクタを新しいプロセッシングボードに移行する
(st102)。故障したプロセッシングボードは割り
込みベクタの移行完了後オペレーティングシステムにそ
の旨を通知する。
【0230】新しいプロセッシングボードは、その割り
込みベクタを引き継ぎ、以後の割り込みの受け付けを開
始する。
【0231】次に、ベクタ移行完了を受けたオペレーテ
ィングシステムは、故障したプロセッシングボード自身
のキャッシュメモリをフラッシュする(st103)。
そしてフラッシュ動作の完了によって、故障したプロセ
ッシングボードはボード交換ランプを点灯させる(st
104)。故障したプロセッシングボードの抜去は、ボ
ード交換ランプのランプ点灯を確認してから実施する
(st122)。故障したプロセッシングボードの抜去
により、故障したプロセッシングボード125(1)と
新しいプロセッシングボード125(2)との交換が完
了する。
【0232】前述した例においては、シングルプロセッ
サ(N=1)の場合に、そのプロセッシングボードの故
障により新たなプロセッシングボードを追加する場合に
ついて説明した。
【0233】実施例9.新たなボードを追加する場合
は、シングルプロセッサ(N=1)の場合ばかりでな
く、マルチプロセッサ(N≧2)の場合であってもかま
わない。マルチプロセッサの場合であっても、故障した
プロセッシングボードに対して新たなプロセッシングボ
ードを追加して交換する手順はシングルプロセッサの場
合と同様である。
【0234】以上のように、実施例8及び実施例9は、
通常はN台の前記プロセッシングボードでその処理を実
行し、プロセッシングボードの故障時には、故障部位を
除いた残りの構成で処理を継続実行し、その後1台のプ
ロセッシングボードを新たに追加し、全体でN+1台の
プロセッシングボードで処理を実行した後に、故障した
プロセッシングボードの処理を他のN台のプロセッシン
グボードに移行させることを特徴とする。
【0235】実施例10.次に図40はシングルプロセ
ッサ(N=1)の場合の他のシステム構成を示してい
る。システムバス141には2台のプロセッシングボー
ド125p,125s、主記憶143、入出力バスアダ
プタ145が接続される。プロセッシングボードは、2
台を1組として、1つの論理プロセッシングボード12
5rを構成している。通常は1台のプロセッシングボー
ド125pで処理を実行している。もう1台の予備のプ
ロセッシングボード125sは、プロセッシングボード
の自己診断をある周期で実施しているホットスタンバイ
状態にある。予備のプロセッシングボード125sは、
この時点ではいずれの表示ランプ601a,601b,
601cも点灯していない。
【0236】以下、プロセッシングボード125r故障
時の処理の移行手順について説明する。図40に示す論
理プロセッシングボード125rのうち、一方のプロセ
ッシングボード125pは故障状態にあり、故障部位を
除いた残りの構成で運転を継続しているものとする。こ
の状態の間、故障したプロセッシングボード125pは
正常動作ランプ601aと故障動作ランプ601bを点
灯している。プロセッシングボード125pの故障は、
オペレーティングシステムに通知される。オペレーティ
ングシステムで故障の状況が判定され、固定故障と判断
されたら、処理の引き継ぎが開始される。
【0237】処理の引き継ぎは、オペレーティングシス
テムにより、その仕事の処理を管理する単位(プロセ
ス)の切り替わるタイミングで開始され、故障したプロ
セッシングボード125pが以降受け付ける予定であっ
たプロセスを、予備の正常なプロセッシングボード12
5sに移行する。
【0238】この移行により、予備のプロセッシングボ
ード125sは故障したプロセッシングボード125p
の処理を引き継ぎ、その処理を開始する。この開始によ
り予備のプロセッシングボード125sは正常動作ラン
プが点灯する。これら一連の動作は、システムの中断や
性能低下を引き起こすことなく行なわれる。
【0239】そして移行処理が完了しだい、故障したプ
ロセッシングボード125pは直ちに交換可能状態にな
り、それを示すボード交換ランプ601cが点灯する。
しかる後に故障したプロセッシングボード125pを交
換して通常の構成に復帰する。プロセッシングボード1
25は活線交換でき、システム動作に影響を与えること
はない。
【0240】図41は論理プロセッシングボードの場合
の引き継ぎから交換までの処理フローを示したものであ
る。まずオペレーティングシステムは、プロセスの切り
替えタイミングなどで故障したプロセッシングボード1
25pが保有するデータを主記憶に送出する(st20
0)。予備のプロセッシングボード125sは主記憶か
ら順次データを入力する(st201)。故障したプロ
セッシングボードは、次にキャッシュメモリをフラッシ
ュする(st202)。そしてキャッシュメモリのフラ
ッシュが完了しだい、I/O割り込みベクタを予備のプ
ロセッシングボード125sに移行する(st20
3)。予備のプロセッシングボード125sは、そのベ
クタを引き継ぐとともに、処理を再開する。故障したプ
ロセッシングボードはその交換ランプ601cを点灯さ
せる(st204)。その後、オペレータは交換ランプ
601cの点灯を確認してプロセッシングボードを交換
する。
【0241】以上のように上記実施例は、システムバス
と該システムバスに接続される主記憶装置、及びシステ
ムバスに接続され、同一命令を実行する複数台のプロセ
ッシングユニットを備え、プロセッシングボード2台を
1組とする論理プロセッシングボードを備える高信頼化
計算機において、通常は一方のプロセッシングボードが
処理を実行し、プロセッシングボードの故障時には、故
障部位を除いた残りの構成で処理を継続実行し、その
後、他方のプロセッシングボードに処理を移行すること
を特徴とする。
【0242】また、前記プロセッシングボードは、プロ
セッシングボード間で引き継ぎデータを送受し、キャッ
シュメモリをフラッシュし、プロセッシングボード間で
I/O割り込みベクタを交換又は移動することを特徴と
する。
【0243】また、前記プロセッシングボードは、正常
動作ランプ、故障動作ランプ及びボード交換ランプを備
えており、オペレータにその稼働状態を通知し、故障時
には通常時と異なる状態を通知し、その後、他のプロセ
ッシングボードに処理の移行を行い、I/O割り込みベ
クタの移行完了後に、オペレータにプロセッシングボー
ド交換可能状態を通知することを特徴とする。
【0244】実施例11.次に、多数決ユニットにより
多重系を構成している場合について説明する。ここで
は、プロセッシングボードが、3台以上のプロセッシン
グユニットと各プロセッシングユニットの結果を入力す
る複数の多数決ユニットを備えており、それぞれの多数
決ユニットにより、独立に処理を行なう複数の独立系が
存在することにより、プロセッシングボードが処理をそ
れぞれの独立系で多重化させて行なう場合について説明
する。3台のプロセッシングユニットのうち1台のプロ
セッシングユニットが故障した際は、残りのプロセッシ
ングユニットで処理を継続実行し、多数決ユニットによ
り構成された複数の独立系それぞれで処理を続行する。
また、そのプロセッシングボードが他のプロセッシング
ボードに処理を移行する場合は、複数の独立系がそれぞ
れ対応するプロセッシングボードの独立系に処理を移行
する。
【0245】また、多数決ユニットが故障することによ
り、1つの独立系が故障してしまう場合が考えられる。
この場合には、残りの独立系で処理を実行し、その後他
の複数台のプロセッシングボードに処理を移行する。ま
た、何れかの独立系の故障時には、その故障した系を一
旦切り離し、残りの系で同一処理を継続実行させ、その
後故障した系を再度接続して故障前の構成に復帰させ
る。
【0246】以上のように、この実施例は、同一命令を
実行する少なくとも3台のプロセッシングユニットを備
えるプロセッシングボードにおいて、前記プロセッシン
グユニットのうち1つを選択する多数決ユニットと全て
のプロセッシングユニットと多数決ユニットを接続する
プロセッサバスと多数決ユニットに接続され外部と入出
力のインタフェースをとるためのバスを有する独立系が
複数組あるプロセッシングボードであって、プロセッシ
ングユニットの故障の際は、残りのプロセッシングユニ
ットで継続実行し、その後、他の複数台のプロセッシン
グボードに処理を移行することを特徴とする。
【0247】また、通常は、複数の独立系により多重化
で処理を行い、いずれかの独立系が故障した場合、残り
の独立系で継続実行し、その後、他の複数台のプロセッ
シングボードに処理を移行することを特徴とする。
【0248】また、いずれかの独立系の故障時には、そ
の故障した系を一旦切り離し、残りの系で同一処理を継
続実行し、その後故障した系を再度接続して、故障前の
構成に復帰させることを特徴とする。
【0249】以上のように、プロセッシングボードに複
数の独立系がそれぞれ多重化されて処理を実行する場合
であっても、前述した例と同様の手順により故障の回復
を図ることができる。
【0250】このように、マルチプロセッサ及びシング
ルプロセッサのいずれの場合でも、故障したプロセッシ
ングボードは、移行処理をオペレーティングシステムと
連携して行なう。故障したプロセッシングボードとオペ
レーティングシステムは処理を中断することなく、新し
いプロセッシングボードもしくは予備のプロセッシング
ボードに処理を引き継ぐことができる。また、故障した
プロセッシングボードを抜去して新しい予備のプロセッ
シングボードも設置できる。
【0251】III.プロセッシングユニットの回復方
式 実施例12.次にプロセッシングユニットが故障した場
合の回復方法について説明する。プロセッシングボード
125は3台のプロセッシングユニットを実装してい
る。プロセッシングボード125上のひとつのプロセッ
シングユニットの故障時に、その故障プロセッシングユ
ニットだけを交換する。この場合には、他のプロセッシ
ングボードへの処理の移行はない。また、プロセッシン
グユニットの故障時には、ボード交換ランプ601cは
点灯はせずに、ドータボード交換ランプが点灯する。そ
の他の動作は、前述の実施例と変わらない。
【0252】図42は1台の前記プロセッシングボード
に3台のプロセッシングユニット1−1,1−2,1−
3を実装したものである。700−1,700−2,7
00−3は個々のプロセッシングユニット1−1,1−
2,1−3が実装されるドータボード、800−1,8
00−2,800−3はドータボードの活線挿抜の可能
を示すドータボード交換ランプ、801−1,801−
2,801−3はドータボード毎にあるドータボード活
線挿抜スイッチで、機能は活線挿抜スイッチ602と同
一である。ドータボード700−1,700−2,70
0−3はコネクタによりプロセッシングボードと接続さ
れている。従って、いずれかのプロセッシングユニット
1−1,1−2,1−3の故障時には、このプロセッシ
ングユニットが実装されているドータボードを交換す
る。
【0253】以下、ドータボードの交換動作について説
明する。ドータボード700−1,700−2,700
−3の交換は通常のプロセッシングボード交換同様で、
該ドータボードを他のドータボード(プロセッシングユ
ニット)が動作中に活線挿抜できるようになっている。
交換対象ユニットはドータボード交換ランプ800−
1,800−2,800−3で知らされ、それを確認後
にドータボード700−1,700−2,700−3の
交換を実施する。
【0254】ドータボードの挿入後の動作は、「I.プ
ロセッシングボードの基本動作」の実施例1で述べてい
る故障プロセッシングユニットの復旧動作と同じであ
る。この復旧動作はオペレーティングシステムの指示の
もとにより行なわれる。すなわちドータボードの挿入に
より割り込みが発生して、オペレーティングシステムに
ドータボードの挿入が通知される。オペレーティングシ
ステムはドータボードの挿入かどうかを判定し、ドータ
ボードの挿入であれば、前述の復旧動作を行なう。すな
わち最初に隔離動作をさせながら自己診断を実施させ、
診断の結果異常のないことを確認した後に、他の正常な
プロセッシングユニットと同一クロックにより挿入され
たドータボードのプロセッシングユニットを同期実行さ
せる。
【0255】なお、ドータボード個々に対応して設けら
れたドータボード活線挿抜スイッチ801からも、保守
などの用途として、ドータボードの活線交換ができる。
ドータボード活線挿抜スイッチ801−1,801−
2,801−3の抜去要求はオペレーティングシステム
に通知され、オペレーティングシステムがそのプロセッ
シングユニットを切り離して、ドータボード交換ランプ
800−1,800−2,800−3を点灯させる。
【0256】このように、オペレーティングシステムの
復旧動作により、システムとして処理を中断することな
く、プロセッシングユニットの交換を行なうことができ
る。
【0257】以上のように、この実施例は、同一命令を
実行する少なくとも3台の脱着可能なプロセッシングユ
ニットを備えるプロセッシングボードにおいて、いずれ
かのプロセッシングユニットの故障時には、残りのプロ
セッシングユニットで同一命令を継続実行することを特
徴とする。
【0258】また、前記プロセッシングボードは、ドー
タボード交換ランプを備え、プロセッシングユニットが
ドータボード交換ランプによりオペレータに交換可能状
態を通知し、故障したプロセッシングユニットをユニッ
ト単位で交換することを特徴とする。
【0259】また、プロセッシングユニット抜去要求を
通知する手段と該抜去要求を検知する手段を有し、該抜
去要求を検知したときに、プロセッシングユニットを他
のプロセッシングユニットから隔離し、隔離完了後、オ
ペレータに交換可能状態を通知し、該ユニットを交換し
た後、プロセッシングユニットが正常挿入されたとき、
オペレータに通常状態を通知し、プロセッシングユニッ
トの自己診断が正常終了したときにオペレーティングシ
ステムにその旨を通知し、オペレーティングシステムに
より元の構成に復旧することを特徴とする。
【0260】また、故障したプロセッシングボードが実
行すべき処理を異なる処理を実行している別のプロセッ
シングボードに移行させ、その後、故障したプロセッシ
ングボードを抜去し、故障したプロセッシングユニット
を交換した後、前記プロセッシングボードを挿入して、
故障前の構成に復帰するようにしてもよい。
【0261】また、この実施例によれば、プロセッシン
グユニットの故障時には、プロセッシングボードの交換
に加え、故障したプロセッシングユニットの交換も可能
になり、ボード単位よりも、より安価なユニット単位の
交換部品を提供できる。
【0262】
【発明の効果】以上のようにこの発明によれば、プロセ
ッシングユニットの瞬時故障に対して、他の正常プロセ
ッシングユニットと再度同期動作できるため故障のつど
プロセッシングボード交換する必要がなく、直ちに元の
構成に復旧できる。また、固定故障に対して、処理の継
続実行後にプロセス単位で処理を移行するため障害回復
が容易かつ迅速なシステムを提供することができる。
【0263】特に第1の発明によれば、故障したプロセ
ッシングユニットに自己診断を行わせ、自己診断結果に
より、故障が一時的なものである場合には、再び正常な
動作をさせるので、一時的な故障が発生した場合には、
プロセッシングユニットは正常動作に復帰することがで
きる。
【0264】また、第2の発明によれば、故障が固定的
なものである場合にも、処理を継続実行させ、その後他
のプロセッシングボードに処理を移行させるので、故障
したプロセッシングボードが実行中の処理を故障したプ
ロセッシングボードで終了させることができる。
【0265】また、第3の発明によれば、故障したプロ
セッシングボードの処理を他のプロセッシングボードに
移行した後、プロセッシングボードを抜き、故障したプ
ロセッシングユニットを交換した後、再びそのボードを
装着するので、故障したプロセッシングユニットのみの
交換が可能になり、障害復旧のコストを低減することが
できる。
【0266】また、第4の発明によれば、こうしたプロ
セッシングボードのプロセッシングユニットを処理の実
行中に交換するので、障害回復作用中においてもプロセ
ッシングボードの処理が実行され、処理性能が低下しな
い。また、故障単位、復旧単位がプロセッシングユニッ
ト単位で行われるため、障害復旧のコストをおさえるこ
とができる。
【0267】また、第5の発明によれば、プロセッシン
グユニットが故障しても、多重化された多数決回路が存
在することにより、継続して処理を実行し、その後故障
したプロセッシングボードの処理を他のプロセッシング
ボードに移行するので、プロセッシングボードに複数の
独立系が存在する場合にいずれかのプロセッシングユニ
ットが故障した場合でも継続実行ができるとともに、正
常なプロセッシングユニットに処理を移行することがで
きる。
【0268】また、第6の発明によれば、いずれかの独
立系の故障時には、一方の正常な独立系を用いて処理を
実行し、その後他のプロセッシングボードに処理を移行
するので、複数の独立系を有する場合、一方の独立系の
故障があっても他の独立系を用いて処理を継続できると
ともに、他の正常な独立系に処理を移行することができ
る。
【0269】また、第7の発明によれば、2台のプロセ
ッシングボードを組にしており、一方のプロセッシング
ボードの故障により他方のプロセッシングボードに処理
を移行するので、一方のプロセッシングボードが故障し
た場合でも常に他のプロセッシングボードに処理を移行
できるので、システムの性能を低下させることがない。
【0270】また、第8の発明によれば、あらかじめス
ケジュールされた処理を実行してから、故障したプロセ
ッシングボードの動作を停止するので、すでにスケジュ
ールされた処理を他のプロセッシングボードに割り当て
る必要がなく、オペレーティングシステムの負荷が少な
くなる。
【0271】また、第9の発明によれば、新たな処理の
スケジュールを他の正常なプロセッシングボードへスケ
ジュールするので、故障したプロセッシングボードへの
新たな処理を中止するという簡単な処理により、処理の
移行を行うことができる。
【0272】また、第10の発明によれば、故障したプ
ロセッシングボードが現在実行中の処理を実行した後、
その動作を停止するので、故障したプロセッシングボー
ドの処理が最小限のもので済み、システムの信頼性が向
上する。
【0273】また、第11の発明によれば、故障したプ
ロセッシングボードに対してすでにスケジュールされた
処理を他のプロセッシングボードへスケジュールし直す
ので、故障したプロセッシングボードの処理を早期に停
止することができる。
【0274】また、第12の発明によれば、他のプロセ
ッシングボードへ処理をスケジュールし直す場合、特定
のプロセッシングボードに対して割り当てを行うので、
処理の移行に対して優先度を持たせることができる。
【0275】また、第13の発明によれば、前述した特
定のプロセッシングボードにすでに割り当てられた処理
をさらに他のプロセッシングボードに割り当てるので、
特定のプロセッシングボードに対して処理が偏ってしま
うという不都合を排除することができる。
【0276】また、第14の発明によれば、プロセッシ
ングボードが抜去可能な状態をオペレータに通知するの
で、プロセッシングボードを誤って抜去してしまうこと
がなくなる。
【0277】また、第15の発明によれば、プロセッシ
ングユニットが交換可能な状態にあることをオペレータ
に通知するので、プロセッシングユニットを誤って交換
してしまうことがなくなる。
【0278】また、第16の発明によれば、新たなプロ
セッシングユニットが挿入された場合、自己診断を行わ
せるので、新たなプロセッシングユニットが正常である
ことを確かめてから動作させることができる。
【0279】また、第17の発明によれば、プロセッシ
ングボードが識別子を有しており、故障したプロセッシ
ングボードを他の正常なプロセッシングボードの識別子
とするので、識別子を変更するたけで処理の移行を行う
ことができる。
【0280】また、第18の発明によれば、識別子がI
/O割り込みを受け付けるための割り込みベクタであ
り、故障したプロセッシングボードの割り込みベクタを
他の正常なプロセッシングボードに割り当てるので、I
/O割り込みには何等変更を加えず、処理の移行を行う
ことができる。
【0281】また、第19の発明によれば、ふたつのプ
ロセッシングボードが対になった論理プロセッシングボ
ードを構成している場合、主記憶装置介してデータを引
き継ぐとともに、割り込みベクタを正常なプロセッシン
グボードに移行するので、一方のプロセッシングボード
から他方のプロセッシングボードへの処理の引継ぎを容
易に行うことができる。
【0282】また、第20の発明によれば、N台で処理
する処理量に対して、故障が生じる場合のことを考慮し
てあらかじめN+1台のプロセッシングボードを備えて
いるので、ひとつのプロセッシングボードが故障した場
合でもシステムの性能に影響することなく処理を継続す
ることができる。
【0283】また、第21の発明によれば、プロセッシ
ングボードが故障したことにより新たなプロセッシング
ボードを追加し、その後故障したボードを抜去するの
で、常にN台以上のプロセッシングボードが動作してお
り、システムの性能を低下させない。
【0284】また、第22の発明によれば、障害の有無
に係わりなくプロセッシングボードにあるプロセッシン
グユニットをそれぞれ個別に抜去することができるの
で、プロセッシングユニットを任意の時点で交換するこ
とが可能になる。
【0285】また、第23の発明によれば、障害の有無
に係わりなくプロセッシングボードを抜去することがで
きるので、プロセッシングボードを任意の時点で交換す
ることが可能になる。
【0286】また、第24の発明においては、プロセッ
シングボードを交換するための具体的な手順を示してお
り、故障したプロセッシングボードの障害回復が正しく
行われる。
【0287】また、第25の発明においては、割り込み
マスタ型プロセッシングボードが故障した場合の障害回
復方法として、処理の移行を行ってからプロセッシング
ボードを交換する場合を示しており、割り込みマスタ型
プロセッシングボードの交換が正しく行われる。
【0288】また、第26の発明においては、割り込み
スレーブ型プロセッシングボードの障害回復方法とし
て、処理の移行を行ってからプロセッシングボードを交
換する場合を示しており、割り込みスレーブ型プロセッ
シングボードの交換が正しく行われる。
【0289】また、第27の発明においては、割り込み
マスタ型プロセッシングボードの障害回復方法として、
新しいプロセッシングボードを挿入してから処理の移行
を行い、最後に故障したプロセッシングボードを抜去す
る場合を示しており、割り込みマスタ型プロセッシング
ボードの交換が正しく行われるとともに、新しいプロセ
ッシングボードを先に挿入するのでシステムの性能を落
とさずにボードの交換ができる。
【0290】また、第28の発明においては、割り込み
スレーブ型プロセッシングボードの障害回復方法とし
て、新しいプロセッシングボードを挿入してから処理の
移行を行い、最後に故障したプロセッシングボードを抜
去する場合を示しており、割り込みスレーブ型プロセッ
シングボードを正しく交換できるとともに、新しいボー
ドを早期に挿入するのでシステムの性能を落とさずにプ
ロセッシングボードの交換をすることができる。
【0291】また、第29の発明においては、複数のプ
ロセッシングボードに対して一つのプロセスキューが存
在する場合の障害回復方法として、プロセッシングボー
ドの故障により移行しなければならない処理というもの
が発生しない場合を示しており、各プロセッシングユニ
ットにプロセスキューを備えている場合に比べて、故障
したプロセッシングユニットにすでに予約されたプロセ
スをスケジュールするという手続きが存在せず、故障時
の処理が簡単になる。
【0292】また、第30の発明においては、割り込み
同報型プロセッシングボードの障害回復方法として、処
理の移行を行った後にプロセッシングボードを交換する
場合を示しており、割り込み同報型プロセッシングボー
ドの交換が正しく行われる。
【0293】また、第31の発明においては、割り込み
同報型プロセッシングボードの障害回復方法として、新
たなプロセッシングボードを挿入した後、処理移行を行
い、最後に故障したプロセッシングボードを抜去する場
合を示しており、割り込み同報型プロセッシングボード
の交換が正しく行われるとともに、新しいボードを早期
に挿入するのでシステムの性能を落とすことなくプロセ
ッシングボードの交換を行うことができる。
【0294】また、第32の発明によれば、故障したプ
ロセッシングボードのキャッシュメモリをフラッシュす
るので、データの整合性を確保して故障の復旧を行うこ
とができる。
【図面の簡単な説明】
【図1】本発明の実施例1の全体構成を示すブロック図
である。
【図2】本発明の実施例1の多数決ユニットを示すブロ
ック図である。
【図3】本発明の実施例1の多数決回路を示す図であ
る。
【図4】本発明の実施例1の多数決回路内にある比較回
路を示す図である。
【図5】本発明の実施例1の多数決回路内にあるエラー
判別回路を示す図である。
【図6】本発明の実施例1の多数決回路内にある選択回
路を示す図である。
【図7】本発明の実施例1の多数決回路の動作を示す図
である。
【図8】本発明の実施例1の機能回路を示す図である。
【図9】本発明の実施例1の凍結回路を示す図である。
【図10】本発明の実施例1の障害検出回路の真理値表
を示す図である。
【図11】本発明の実施例1の制御レジスタのビットア
サインを示す図である。
【図12】本発明の実施例1の故障が発生したプロセッ
シングユニットの復旧動作を示すフローチャート図であ
る。
【図13】本発明の実施例1の故障が発生したプロセッ
シングユニットの復旧動作を示すタイミングチャート図
である。
【図14】本発明の実施例1の主記憶装置の退避領域を
示す図である。
【図15】本発明の実施例1の電源投入時における自己
診断のシーケンスを示すフローチャート図である。
【図16】本発明の実施例1の動作フローチャート図で
ある。
【図17】本発明の実施例2の凍結回路を示すブロック
図である。
【図18】本発明の実施例2の機能回路を示すブロック
図である。
【図19】本発明の実施例3の機能回路を示すブロック
図である。
【図20】本発明の実施例4の凍結回路を示すブロック
図である。
【図21】本発明の実施例4の機能回路を示すブロック
図である。
【図22】本発明の実施例4のタイマの関係図である。
【図23】本発明の実施例4のタイマの起動/停止/設
定時間経過後の処置を示すブロック図である。
【図24】本発明の実施例4の制御レジスタのビットア
サインを示す図である。
【図25】本発明の実施例5の全体構成を示すブロック
図である。
【図26】本発明の実施例6の全体構成を示すブロック
図である。
【図27】本発明の故障したプロセッシングボードの表
示ランプ例を示す図である。
【図28】本発明のマルチプロセッサの実施例のシステ
ム構成図である。
【図29】本発明のマルチプロセッサの実施例の割り込
みマスタ型の処理フローを示す図である。
【図30】本発明のマルチプロセッサの実施例の割り込
みスレーブ型及び割り込み同報型の処理フローを示す図
である。
【図31】本発明のマルチプロセッサの実施例の割り込
みマスタ型の処理フローを示す図である。
【図32】本発明のマルチプロセッサの実施例の割り込
みスレーブ型及び割り込み同報型の処理フローを示す図
である。
【図33】本発明のマルチプロセッサの引き継ぎ例1の
処理の移行を示す図である。
【図34】本発明のマルチプロセッサの引き継ぎ例2の
処理の移行を示す図である。
【図35】本発明のマルチプロセッサの引き継ぎ例3の
処理の移行を示す図である。
【図36】本発明のマルチプロセッサの引き継ぎ例4の
処理の移行を示す図である。
【図37】本発明のマルチプロセッサの他の引き継ぎ例
を示す図である。
【図38】本発明のシングルプロセッサの実施例のシス
テム構成図である。
【図39】本発明のシングルプロセッサの実施例の処理
フローを示す図である。
【図40】本発明のシングルプロセッサの実施例のシス
テム構成図である。
【図41】本発明のシングルプロセッサの実施例の処理
フローを示す図である。
【図42】本発明のプロセッシングユニット交換の実施
例のプロセッシングボード図である。
【図43】従来の高信頼性ディジタルデータプロセッサ
のブロック図である。
【図44】従来の障害回復動作を示すフローチャート図
である。
【図45】従来のフォールトトレラントな機能を備えた
コンピュータを示すブロック図である。
【図46】従来の障害回復動作を示すフローチャート図
である。
【図47】従来の高信頼化コンピュータシステムを示す
ブロック図である。
【図48】従来の障害回復動作を示すフローチャート図
である。
【図49】従来の障害回復方式を示す図である。
【図50】従来のメモリバックアップシステムを示すブ
ロック図である。
【図51】従来の障害回復動作を示すフローチャート図
である。
【符号の説明】
1 プロセッシングユニット 2 多数決回路 7 多数決信号 9 単一故障信号 14 機能回路 70 接続フラグ 125 プロセッシングボード 135 多数決ユニット 141 システムバス 143 主記憶装置 145 入出力バスアダプタ 147 I/Oバス 149 I/O装置 161 応答信号(A) 162 応答信号(B) 163 応答信号(C) 202 凍結回路 213 隔離フラグ 214 強制割込フラグ 217 同期フラグ 240 接続セーブフラグ 271 制御レジスタ 280 隔離監視タイマ 301 下限フェンスレジスタ 302 上限フェンスレジスタ 381 隔離時間タイマ 382 隔離間隔タイマ 500 プロセスキュー 600 フロントパネル 601a 正常動作ランプ 601b 故障動作ランプ 601c ボード交換ランプ 602 活線挿抜スイッチ 700 ドータボード 800 ドータボード交換ランプ 801 ドータボード活線挿抜スイッチ
フロントページの続き (72)発明者 畑下 豊仁 鎌倉市大船五丁目1番1号 三菱電機株式 会社情報システム研究所内 (72)発明者 阿部 薫 鎌倉市大船五丁目1番1号 三菱電機株式 会社情報システム研究所内 (72)発明者 亀丸 敏久 鎌倉市上町屋325番地 三菱電機株式会社 コンピュータ製作所内 (72)発明者 曽我 正和 鎌倉市大船五丁目1番1号 三菱電機株式 会社情報システム研究所内

Claims (32)

    【特許請求の範囲】
  1. 【請求項1】 同一命令を実行する3台以上のプロセッ
    シングユニットを有しオペレーティングシステムにより
    スケジュールされた処理を実行するプロセッシングボー
    ドを複数備えた計算機の障害回復方法において、以下の
    工程を備えたことを特徴とする計算機の障害回復方法 (a)プロセッシングユニットの故障を検出し、故障し
    たプロセッシングユニットの動作を停止させる故障検出
    工程、(b)故障したプロセッシングユニットを単独で
    動作させ自己診断を行わせる故障診断工程、(c)故障
    診断工程による自己診断結果により、故障が一時的なも
    のである場合、上記故障したプロセッシングユニットを
    正常なプロセッシングユニットに同期させて動作を再開
    させる同期工程、(d)故障診断工程による自己診断結
    果により、故障が固定的なものである場合、残りの正常
    なプロセッシングユニットで処理を継続し、その後故障
    したプロセッシングユニットを有するプロセッシングボ
    ードの処理を他のプロセッシングボードに移行する故障
    回避工程。
  2. 【請求項2】 同一命令を実行する3台以上のプロセッ
    シングユニットを有しオペレーティングシステムにより
    スケジュールされた処理を実行するプロセッシングボー
    ドを複数備えた計算機の障害回復方法において、以下の
    工程を備えたことを特徴とする計算機の障害回復方法 (a)いずれかのプロセッシングユニットの故障時に、
    故障したプロセッシングユニットを有するプロセッシン
    グボードの他の正常なプロセッシングユニットを用いて
    命令を継続して実行する継続実行工程、(b)故障した
    プロセッシングユニットを有するプロセッシングボード
    に対してスケジュールされた処理であって継続実行工程
    により実行される処理以外の処理を他のプロセッシング
    ボードに移行する移行工程。
  3. 【請求項3】 同一命令を実行する脱着可能な3台以上
    のプロセッシングユニットを有し、オペレ−ティングシ
    ステムによりスケジュールされた処理を実行する脱着可
    能なプロセッシングボードを複数備えた計算機の障害回
    復方法において、以下の工程を備えたことを特徴とする
    計算機の障害回復方法 (a)いずれかのプロセッシングユニットの故障時に、
    故障したプロセッシングユニットを有するプロセッシン
    グボードの他の正常なプロセッシングユニットを用いて
    命令を継続して実行する継続実行工程、(b)故障した
    プロセッシングユニットを有するプロセッシングボード
    にスケジュールされた処理を他のプロセッシングボード
    に移行する移行工程、(c)上記移行工程後、故障した
    プロセッシングユニットを有するプロセッシングボード
    を抜去し、故障したプロセッシングユニットを新たなプ
    ロセッシングユニットと交換し、そのプロセッシングボ
    ードを再び装着する脱着工程、(d)上記脱着工程後、
    再び装着されたプロセッシングボードを動作させる動作
    工程。
  4. 【請求項4】 同一命令を実行する脱着可能な3台以上
    のプロセッシングユニットを有するプロセッシングボー
    ドを備えた計算機の障害回復方法において、以下の工程
    を備えたことを特徴とする計算機の障害回復方法 (a)いずれかのプロセッシングユニットの故障時に、
    故障したプロセッシングユニットを有するプロセッシン
    グボードの他の正常なプロセッシングユニットを用いて
    命令を継続して実行する継続実行工程、(b)命令の継
    続実行中に、故障したプロセッシングユニットを新たな
    プロセッシングユニットと交換する交換工程、(c)交
    換した新たなプロセッシングユニットを他のプロセッシ
    ングユニットとともに動作させる同期工程。
  5. 【請求項5】 同一命令を実行する3台以上のプロセッ
    シングユニットとこれらプロセッシングユニットの出力
    をそれぞれ入力して多数決をとりその多数決結果に基づ
    いて動作する複数の独立系とを有するプロセッシングボ
    ードを複数備えた計算機の障害回復方法において、以下
    の工程を備えたことを特徴とする計算機の障害回復方法 (a)いずれかのプロセッシングユニットの故障時に、
    いずれの独立系においても他の正常なプロセッシングユ
    ニットの出力により多数決をとり処理を継続して実行す
    る継続実行工程、(b)故障したプロセッシングユニッ
    トを有するプロセッシングボードに対してスケジュール
    された処理であって継続実行工程により実行される処理
    以外の処理を他のプロセッシングボードに移行する移行
    工程。
  6. 【請求項6】 同一命令を実行する3台以上のプロセッ
    シングユニットとこれらプロセッシングユニットの出力
    をそれぞれ入力して多数決をとりその多数決結果に基づ
    いて動作する複数の独立系とを有するプロセッシングボ
    ードを複数備えた計算機の障害回復方法において、以下
    の工程を備えたことを特徴とする計算機の障害回復方法 (a)いずれかの独立系の故障時に、他の独立系を用い
    て処理を継続して実行する継続実行工程、(b)上記故
    障した独立系を有するプロセッシングボードに対してス
    ケジュールされた処理であって上記継続実行工程により
    実行される処理以外の処理を他のプロセッシングボード
    に移行する移行工程。
  7. 【請求項7】 処理を実行する2台のプロセッシングボ
    ードを組にした論理プロセッシングボードを備えた計算
    機の障害回復方法において、以下の工程を備えたことを
    特徴とする計算機の障害回復方法 (a)論理プロセッシングボードの一方のプロセッシン
    グボードを用いて処理を実行する通常実行工程、(b)
    上記通常実行工程で動作するプロセッシングボードの故
    障時に、通常実行工程で動作するプロセッシングボード
    の他の正常な部分により処理を継続する継続実行工程、
    (c)上記継続実行工程後、論理プロセッシングボード
    の他方のプロセッシングボードに処理を移行する移行工
    程。
  8. 【請求項8】 上記継続実行工程は、(a)故障したプ
    ロセッシングボードに対して、既にスケジュールされた
    処理を故障したプロセッシングボードで実行する実行工
    程、(b)既にスケジュールされた処理を故障したプロ
    セッシングボードで実行した後、故障したプロセッシン
    グボードの動作を停止する停止工程を備えたことを特徴
    とする請求項2〜6又は7記載の計算機の障害回復方
    法。
  9. 【請求項9】 上記移行工程は、(a)プロセッシング
    ボードに故障が発生したことをオペレーティングシステ
    ムに通知する故障通知工程、(b)通知を受けたオペレ
    ーティングシステムが故障したプロセッシングボードへ
    新たな処理のスケジュールを中止し、新たな処理を他の
    プロセッシングボードへスケジュールするスケジュール
    工程を備えたことを特徴とする請求項8記載の計算機の
    障害回復方法。
  10. 【請求項10】 上記継続実行工程は、(a)故障した
    プロセッシングボードが既に実行中の処理を故障したプ
    ロセッシングボードで実行する実行工程、(b)既に実
    行中の処理を故障したプロセッシングボードで実行した
    後、故障したプロセッシングボードの動作を停止する停
    止工程を備えたことを特徴とする請求項2〜6又は7記
    載の計算機の障害回復方法。
  11. 【請求項11】 上記移行工程は、(a)プロセッシン
    グボードに故障が発生したことをオペレーティングシス
    テムに通知する故障通知工程、(b)通知を受けたオペ
    レーティングシステムが故障したプロセッシングボード
    に対して既にスケジュールされた処理を他のプロセッシ
    ングボードへスケジュールしなおすとともに、故障した
    プロセッシングボードへ新たな処理のスケジュールを中
    止し、新たな処理を他のプロセッシングボードへスケジ
    ュールするスケジュール工程を備えたことを特徴とする
    請求項10記載の計算機の障害回復方法。
  12. 【請求項12】 上記スケジュール工程は、他のプロセ
    ッシングボードへ処理を割り当てる場合、特定のプロセ
    ッシングボードに対して処理を割り当てる工程を備えた
    ことを特徴とする請求項9又は11記載の計算機の障害
    回復方法。
  13. 【請求項13】 上記スケジュール工程は、更に、処理
    を割り当てられる特定のプロセッシングボードに対して
    既にスケジュールされた処理を他のプロセッシングボー
    ドに割り当てる工程を備えたことを特徴とする請求項1
    2記載の計算機の障害回復方法。
  14. 【請求項14】 上記脱着工程の前に、故障したプロセ
    ッシングユニットを有するプロセッシングボードが抜去
    可能な状態にあることをオペレータに通知するボード交
    換通知工程を備えたことを特徴とする請求項3記載の計
    算機の障害回復方法。
  15. 【請求項15】 上記交換工程の前に、故障したプロセ
    ッシングユニットが交換可能な状態にあることをオペレ
    ータに通知するユニット交換通知工程を備えたことを特
    徴とする請求項4記載の計算機の障害回復方法。
  16. 【請求項16】 上記同期工程は、(a)交換した新た
    なプロセッシングユニットに対して自己診断を行なわせ
    る工程、(b)自己判断の結果により新たなプロセッシ
    ングユニットが正常であると判定された場合、新たなプ
    ロセッシングユニットを他のプロセッシングユニットと
    同期させて動作させる工程を備えたことを特徴とする請
    求項4記載の計算機の障害回復方法。
  17. 【請求項17】 上記プロセッシングボードは、プロセ
    ッシングボードを識別する識別子を有しており、上記計
    算機は、識別子をもとに処理を各プロセッシングボード
    に割り当てて命令を実行していくとともに、上記移行工
    程は、 いずれかのプロセッシングボードの故障時に、他の正常
    なプロセッシングボードの識別子を故障したプロセッシ
    ングボードの識別子に変更する識別子変更工程を備えた
    ことを特徴とする請求項2〜5又は6記載の計算機の障
    害回復方法。
  18. 【請求項18】 上記識別子はプロセッシングボードが
    I/O割り込みを受け付けるための割り込みベクタであ
    り、上記識別子変更工程は、プロセッシングボードが有
    する割り込みベクタを変更する工程を備えたことを特徴
    とする請求項17記載の計算機の障害回復方法。
  19. 【請求項19】 上記移行工程は、(a)故障した一方
    のプロセッシングボードにより引き継ぎデータを主記憶
    装置に転送する工程、(b)他方のプロセッシングボー
    ドにより主記憶装置から引き継ぎデータを受け取る工
    程、(c)故障したプロセッシングボードの割り込みベ
    クタを他方のプロセッシングボードに移行する工程、
    (d)他方のプロセッシングボードにより処理を開始す
    る工程、(e)故障したプロセッシングボードを交換す
    る工程を備えたことを特徴とする請求項7記載の計算機
    の障害回復方法。
  20. 【請求項20】 上記計算機は、N台(N≧1)のプロ
    セッシングボードで処理する処理量に対してN+1台の
    プロセッシングボードを備え、(a)通常、N+1台の
    プロセッシングボードを動作させる工程、(b)上記継
    続実行工程実行中はN+1台のプロセッシングボードを
    動作させる工程、(c)上記移行工程実行後は、N台の
    プロセッシングボードを動作させる工程を備えたことを
    特徴とする請求項2〜5又は6記載の計算機の障害回復
    方法。
  21. 【請求項21】 上記計算機は、N台(N≧1)のプロ
    セッシングボードで処理する処理量に対してN台のプロ
    セッシングボードを備え、(a)通常、N台のプロセッ
    シングボードを動作させる工程、(b)上記継続実行工
    程実行中は、新たなプロセッシングボードを追加してN
    +1台のプロセッシングボードを動作させる工程、
    (c)上記移行工程実行後は、N台のプロセッシングボ
    ードを動作させる工程を備えたことを特徴とする請求項
    2〜5又は6記載の計算機の障害回復方法。
  22. 【請求項22】 同一命令を実行する脱着可能な3台以
    上のプロセッシングユニットを有するプロセッシングボ
    ードを備え、プロセッシングボードが、障害の有無にか
    かわりなく、各プロセッシングユニット毎に各プロセッ
    シングユニットに対して、そのプロセッシングユニット
    の抜去要求を通知するユニット抜去通知手段を備えた計
    算機の障害回復方法において、以下の工程を備えたこと
    を特徴とする計算機の障害回復方法 (a)上記ユニット抜去通知手段によりプロセッシング
    ユニットの抜去要求をプロセッシングボードに通知する
    要求工程、(b)上記要求工程後、そのプロセッシング
    ユニットの動作を停止させる停止工程、(c)上記停止
    工程後、そのプロセッシングユニットが抜去可能である
    ことを通知するユニット変換通知工程、(d)上記ユニ
    ット変換通知工程後、そのプロセッシングユニットを抜
    去する抜去工程。
  23. 【請求項23】 同一命令を実行する脱着可能な3台以
    上のプロセッシングユニットを有する着脱可能なプロセ
    ッシングボードを備え、プロセッシングボードが、障害
    の有無にかかわりなく、プロセッシングボードの抜去要
    求を通知するボード抜去通知手段を備えた計算機の障害
    回復方法において、以下の工程を備えたことを特徴とす
    る計算機の障害回復方法 (a)上記ボード抜去通知手段によりプロセッシングボ
    ードの抜去要求を通知する要求工程、(b)上記要求工
    程後、プロセッシングボードで既に実行中の処理を実行
    した後、そのプロセッシングボードの動作を停止させる
    停止工程、(c)上記停止工程後、そのプロセッシング
    ボードが抜去可能であることを通知するボード変換通知
    工程、(d)上記ボード変換通知工程後、そのプロセッ
    シングボードを抜去する抜去工程。
  24. 【請求項24】 同一命令を実行する3台以上のプロセ
    ッシングユニットを有しオペレーティングシステムによ
    りスケジュールされた処理を実行するプロセッシングボ
    ードを複数備えた計算機の障害回復方法において、以下
    の工程を備えたことを特徴とする計算機の障害回復方法 (a)故障発生後、故障したプロセッシングボードが、
    オペレーティングシステムにその故障を通知する工程、
    (b)オペレーティングシステムにより、故障したプロ
    セッシングボードに対して新たな処理の割り付けを禁止
    する工程、(c)故障したプロセッシングボードは、す
    でにスケジュールされた処理を実行し、その後キャッシ
    ュメモリをフラッシュし、オペレータにボード交換可能
    状態を通知して故障したプロセッシングボードの動作を
    停止する工程、(d)故障したプロセッシングボードを
    新しいプロセッシングボードに交換する工程、(e)新
    しいプロセッシングボードが、正常な設置状態であるこ
    とをオペレータに通知し、自己診断を実行して、自己診
    断が正常終了のとき、オペレーティングシステムにその
    結果を通知する工程、(f)オペレーティングシステム
    により、新しいプロセッシングボードに処理を割り当
    て、故障前と同じ構成により処理を開始する工程。
  25. 【請求項25】 同一命令を実行する3台以上のプロセ
    ッシングユニットを有し、オペレーティングシステムに
    よりスケジュールされた処理を実行するプロセッシング
    ボードを複数備えた計算機の障害回復方法において、上
    記プロセッシングボードは、I/O割り込みを受け付け
    て他のプロセッシングボードに分配する割り込みマスタ
    型プロセッシングボードと、割り込みマスタ型プロセッ
    シングボードから分配されたI/O割り込みを受け付け
    る割り込みスレーブ型プロセッシングボードがあり、各
    プロセッシングボードは各プロセッシングボードに割り
    当てられた割り込みベクタによりI/O割り込みを受け
    付けるものであり、故障したプロセッシングボードが割
    り込みマスタ型プロセッシングボードの場合、以下の工
    程を備えたことを特徴とする計算機の障害回復方法 (a)故障発生後、故障したプロセッシングボードが、
    オペレーティングシステムにその故障を通知する工程、
    (b)オペレーティングシステムにより、故障したプロ
    セッシングボードに対して新たな処理の割り付けを禁止
    する工程、(c)オペレーティングシステムにより、故
    障したプロセッシングボードに対する新たな処理を、他
    のプロセッシングボードに移行する工程、(d)処理の
    移行を受けたプロセッシングボードがその処理を開始す
    る工程、(e)故障したプロセッシングボードにより、
    故障したプロセッシングボードの割り込みベクタを他の
    プロセッシングボードに移行し、その動作完了後オペレ
    ーティングシステムにその旨を通知する工程、(f)故
    障したプロセッシングボードがキャッシュメモリをフラ
    ッシュする工程、(g)キャッシュメモリのフラッシュ
    完了後、オペレータにボード交換可能状態を通知する工
    程、(h)故障したプロセッシングボードを新しいプロ
    セッシングボードに交換する工程、(i)新しいプロセ
    ッシングボードが、正常な設置状態であることをオペレ
    ータに通知し、自己診断を実行して、自己診断が正常終
    了のとき、オペレーティングシステムにその結果を通知
    する工程、(j)オペレーティングシステムにより、新
    しいプロセッシングボードに処理を割り当て、故障前と
    同じ構成により処理を開始する工程。
  26. 【請求項26】 同一命令を実行する3台以上のプロセ
    ッシングユニットを有し、オペレーティングシステムに
    よりスケジュールされた処理を実行するプロセッシング
    ボードを複数備えた計算機の障害回復方法において、上
    記プロセッシングボードは、I/O割り込みを受け付け
    て他のプロセッシングボードに分配する割り込みマスタ
    型プロセッシングボードと、割り込みマスタ型プロセッ
    シングボードから分配されたI/O割り込みを受け付け
    る割り込みスレーブ型プロセッシングボードがあり、各
    プロセッシングボードは各プロセッシングボードに割り
    当てられた割り込みベクタによりI/O割り込みを受け
    付けるものであり、故障したプロセッシングボードが割
    り込みスレーブ型プロセッシングボードの場合、以下の
    工程を備えたことを特徴とする計算機の障害回復方法 (a)故障発生後、故障したプロセッシングボードが、
    オペレーティングシステムにその故障を通知する工程、
    (b)オペレーティングシステムにより、故障したプロ
    セッシングボードに対して新たな処理の割り付けを禁止
    するとともに、故障したプロセッシングボードのI/O
    割り込み受付を停止する工程、(c)オペレーティング
    システムにより、故障したプロセッシングボードに対す
    る新たな処理を、他のプロセッシングボードに移行する
    工程、(d)処理の移行を受けたプロセッシングボード
    がその処理を開始する工程、(e)故障したプロセッシ
    ングボードがキャッシュメモリをフラッシュする工程、
    (f)キャッシュメモリのフラッシュ完了後、オペレー
    タにボード交換可能状態を通知する工程、(g)故障し
    たプロセッシングボードを新しいプロセッシングボード
    に交換する工程、(h)新しいプロセッシングボード
    が、正常な設置状態であることをオペレータに通知し、
    自己診断を実行して、自己診断が正常終了のとき、オペ
    レーティングシステムにその結果を通知する工程、
    (i)オペレーティングシステムにより、新しいプロセ
    ッシングボードに処理を割り当て、故障前と同じ構成に
    より処理を開始する工程。
  27. 【請求項27】 同一命令を実行する3台以上のプロセ
    ッシングユニットを有し、オペレーティングシステムに
    よりスケジュールされた処理を実行するプロセッシング
    ボードを複数備えた計算機の障害回復方法において、上
    記プロセッシングボードは、I/O割り込みを受け付け
    て他のプロセッシングボードに分配する割り込みマスタ
    型プロセッシングボードと、割り込みマスタ型プロセッ
    シングボードから分配されたI/O割り込みを受け付け
    る割り込みスレーブ型プロセッシングボードがあり、各
    プロセッシングボードは各プロセッシングボードに割り
    当てられた割り込みベクタによりI/O割り込みを受け
    付けるものであり、故障したプロセッシングボードが割
    り込みマスタ型プロセッシングボードの場合、以下の工
    程を備えたことを特徴とする計算機の障害回復方法 (a)故障発生後、故障したプロセッシングボードが、
    オペレーティングシステムにその故障を通知する工程、
    (b)故障したプロセッシングボードにより、新しいプ
    ロセッシングボードの挿入まで処理を継続する工程、
    (c)新しいプロセッシングボードを挿入する工程、
    (d)新しいプロセッシングボードが、正常な設置状態
    であることをオペレータに通知し、自己診断を実行し
    て、自己診断が正常終了のとき、オペレーティングシス
    テムにその旨を通知する工程、(e)オペレーティング
    システムが、新しいプロセッシングボードに処理を割り
    当てる工程、(f)オペレーティングシステムにより、
    故障したプロセッシングボードに対して新たな処理の割
    り付けを禁止する工程、(g)オペレーティングシステ
    ムにより、故障したプロセッシングボードに対する新た
    な処理を、他のプロセッシングボードに移行する工程、
    (h)処理の移行を受けたプロセッシングボードがその
    処理を開始する工程、(i)故障したプロセッシングボ
    ードにより、割り込みベクタを他のプロセッシングボー
    ドに移行し、その動作完了後、オペレーティングシステ
    ムにその旨を通知する工程、(j)故障したプロセッシ
    ングボードはキャッシュメモリをフラッシュする工程、
    (k)キャッシュメモリのフラッシュ完了後、オペレー
    タにボード交換可能状態を通知する工程、(l)故障し
    たプロセッシングボードを抜去する工程。
  28. 【請求項28】 同一命令を実行する3台以上のプロセ
    ッシングユニットを有し、オペレーティングシステムに
    よりスケジュールされた処理を実行するプロセッシング
    ボードを複数備えた計算機の障害回復方法において、上
    記プロセッシングボードは、I/O割り込みを受け付け
    て他のプロセッシングボードに分配する割り込みマスタ
    型プロセッシングボードと、割り込みマスタ型プロセッ
    シングボードから分配されたI/O割り込みを受け付け
    る割り込みスレーブ型プロセッシングボードがあり、各
    プロセッシングボードは各プロセッシングボードに割り
    当てられた割り込みベクタによりI/O割り込みを受け
    付けるものであり、故障したプロセッシングボードが割
    り込みスレーブ型プロセッシングボードの場合、以下の
    工程を備えたことを特徴とする計算機の障害回復方法 (a)故障発生後、故障したプロセッシングボードが、
    オペレーティングシステムにその故障を通知する工程、
    (b)故障したプロセッシングボードにより、新しいプ
    ロセッシングボードの挿入まで処理を継続する工程、
    (c)新しいプロセッシングボードを挿入する工程、
    (d)新しいプロセッシングボードが、正常な設置状態
    であることをオペレータに通知し、自己診断を実行し
    て、自己診断が正常終了のとき、オペレーティングシス
    テムにその旨を通知する工程、(e)オペレーティング
    システムが、新しいプロセッシングボードに処理を割り
    当てる工程、(f)オペレーティングシステムにより、
    故障したプロセッシングボードに、新たな処理の割り付
    けを禁止するとともに、故障したプロセッシングボード
    のI/O割り込み受付を停止する工程、(g)オペレー
    ティングシステムにより、故障したプロセッシングボー
    ドに対する新たな処理を、他のプロセッシングボードに
    移行する工程、(h)処理の移行を受けたプロセッシン
    グボードがその処理を開始する工程、(i)故障したプ
    ロセッシングボードはキャッシュメモリをフラッシュす
    る工程、(j)キャッシュメモリのフラッシュ完了後、
    オペレータにボード交換可能状態を通知する工程、
    (k)故障したプロセッシングボードを抜去する工程。
  29. 【請求項29】 同一命令を実行する3台以上のプロセ
    ッシングユニットを有しオペレーティングシステムによ
    りスケジュールされた処理を実行するプロセッシングボ
    ードを複数備え、これら複数のプロセッシングボードに
    対してプロセスをスケジュールするひとつのプロセスキ
    ューを備えた計算機の障害回復方法において、以下の工
    程を備えたことを特徴とする計算機の障害回復方法 (a)いずれかのプロセッシングユニットの故障時に、
    故障したプロセッシングユニットを有するプロセッシン
    グボードの他の正常なプロセッシングユニットを用いて
    命令を継続して実行する継続実行工程、(b)プロセッ
    シングボードに故障が発生したことをオペレーティング
    システムに通知する故障通知工程、(c)通知を受けた
    オペレーティングシステムがプロセスキューからの故障
    したプロセッシングボードへ新たな処理のスケジュール
    を中止し、プロセスキューからの新たな処理を他のプロ
    セッシングボードへスケジュールするスケジュール工
    程。
  30. 【請求項30】 同一命令を実行する3台以上のプロセ
    ッシングユニットを有し、オペレーティングシステムに
    よりスケジュールされた処理を実行するプロセッシング
    ボードを複数備えた計算機の障害回復方法において、上
    記プロセッシングボードは、共通の割り込みベクタによ
    りI/O割り込みを受け付けるものであり、いずれかの
    プロセッシングボードが故障した場合、以下の工程を備
    えたことを特徴とする計算機の障害回復方法 (a)故障発生後、故障したプロセッシングボードが、
    オペレーティングシステムにその故障を通知する工程、
    (b)オペレーティングシステムにより、故障したプロ
    セッシングボードに対して新たな処理の割り付けを禁止
    するとともに、故障したプロセッシングボードのI/O
    割り込み受付を停止する工程、(c)オペレーティング
    システムにより、故障したプロセッシングボードに対す
    る新たな処理を、他のプロセッシングボードに移行する
    工程、(d)処理の移行を受けたプロセッシングボード
    がその処理を開始する工程、(e)故障したプロセッシ
    ングボードがキャッシュメモリをフラッシュする工程、
    (f)キャッシュメモリのフラッシュ完了後、オペレー
    タにボード交換可能状態を通知する工程、(g)故障し
    たプロセッシングボードを新しいプロセッシングボード
    に交換する工程、(h)新しいプロセッシングボード
    が、正常な設置状態であることをオペレータに通知し、
    自己診断を実行して、自己診断が正常終了のとき、オペ
    レーティングシステムにその結果を通知する工程、
    (i)オペレーティングシステムにより、新しいプロセ
    ッシングボードに処理を割り当て、故障前と同じ構成に
    より処理を開始する工程。
  31. 【請求項31】 同一命令を実行する3台以上のプロセ
    ッシングユニットを有し、オペレーティングシステムに
    よりスケジュールされた処理を実行するプロセッシング
    ボードを複数備えた計算機の障害回復方法において、上
    記プロセッシングボードは、共通の割り込みベクタによ
    りI/O割り込みを受け付けるものであり、いずれかの
    プロセッシングボードが故障した場合、以下の工程を備
    えたことを特徴とする計算機の障害回復方法 (a)故障発生後、故障したプロセッシングボードが、
    オペレーティングシステムにその故障を通知する工程、
    (b)故障したプロセッシングボードにより、新しいプ
    ロセッシングボードの挿入まで処理を継続する工程、
    (c)新しいプロセッシングボードを挿入する工程、
    (d)新しいプロセッシングボードが、正常な設置状態
    であることをオペレータに通知し、自己診断を実行し
    て、自己診断が正常終了のとき、オペレーティングシス
    テムにその旨を通知する工程、(e)オペレーティング
    システムが、新しいプロセッシングボードに処理を割り
    当てる工程、(f)オペレーティングシステムにより、
    故障したプロセッシングボードに、新たな処理の割り付
    けを禁止するとともに、故障したプロセッシングボード
    のI/O割り込み受付を停止する工程、(g)オペレー
    ティングシステムにより、故障したプロセッシングボー
    ドに対する新たな処理を、他のプロセッシングボードに
    移行する工程、(h)処理の移行を受けたプロセッシン
    グボードがその処理を開始する工程、(i)故障したプ
    ロセッシングボードはキャッシュメモリをフラッシュす
    る工程、(j)キャッシュメモリのフラッシュ完了後、
    オペレータにボード交換可能状態を通知する工程、
    (k)故障したプロセッシングボードを抜去する工程。
  32. 【請求項32】 上記プロセッシングユニットは、キャ
    ッシュメモリとプロセッサを備え、上記移行工程は、故
    障したプロセッシングボードのキャッシュメモリをフラ
    ッシュするフラッシュ工程を備えたことを特徴とする請
    求項2、3、5、6又は7記載の計算機の障害回復方
    法。
JP5332662A 1993-10-08 1993-12-27 計算機の障害回復方法 Pending JPH07175765A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP5332662A JPH07175765A (ja) 1993-10-25 1993-12-27 計算機の障害回復方法
US08/675,951 US5812757A (en) 1993-10-08 1996-07-05 Processing board, a computer, and a fault recovery method for the computer

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP26662293 1993-10-25
JP5-266622 1993-10-25
JP5332662A JPH07175765A (ja) 1993-10-25 1993-12-27 計算機の障害回復方法

Publications (1)

Publication Number Publication Date
JPH07175765A true JPH07175765A (ja) 1995-07-14

Family

ID=26547513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5332662A Pending JPH07175765A (ja) 1993-10-08 1993-12-27 計算機の障害回復方法

Country Status (1)

Country Link
JP (1) JPH07175765A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007128285A (ja) * 2005-11-04 2007-05-24 Nec Corp マルチノードコンピュータシステム、統合サービスプロセッサ、ステータス管理方法及びプログラム
WO2007096999A1 (ja) * 2006-02-24 2007-08-30 Fujitsu Limited 切り離し装置および切り離し方法
WO2008044423A1 (fr) * 2006-10-13 2008-04-17 Nec Corporation Processeur d'informations et procédé de couverture de panne
US7502956B2 (en) 2004-07-22 2009-03-10 Fujitsu Limited Information processing apparatus and error detecting method
JP2009534738A (ja) * 2006-04-21 2009-09-24 ハネウェル・インターナショナル・インコーポレーテッド フォールト・トレランス・コンピューティング・システムにおけるエラー・フィルタリング
JP2009276983A (ja) * 2008-05-14 2009-11-26 Toshiba Corp 多重化計算機システム、及びその処理方法
JP2010170355A (ja) * 2009-01-23 2010-08-05 Nec Computertechno Ltd コンピュータシステム及びcpuの再組み込み方法
US8090982B2 (en) 2007-06-11 2012-01-03 Toyota Jidosha Kabushiki Kaisha Multiprocessor system enabling controlling with specific processor under abnormal operation and control method thereof
JP2014059870A (ja) * 2012-09-14 2014-04-03 General Electric Co <Ge> プロセッサの命令実行の同期システムおよび方法
JP2016170521A (ja) * 2015-03-11 2016-09-23 富士通株式会社 正常なプロセッサの抽出方法及びプログラム、情報処理装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502956B2 (en) 2004-07-22 2009-03-10 Fujitsu Limited Information processing apparatus and error detecting method
JP2007128285A (ja) * 2005-11-04 2007-05-24 Nec Corp マルチノードコンピュータシステム、統合サービスプロセッサ、ステータス管理方法及びプログラム
WO2007096999A1 (ja) * 2006-02-24 2007-08-30 Fujitsu Limited 切り離し装置および切り離し方法
JPWO2007096999A1 (ja) * 2006-02-24 2009-07-09 富士通株式会社 切り離し装置および切り離し方法
US8185699B2 (en) 2006-02-24 2012-05-22 Fujitsu Limited Cache memory controller and cache memory controlling method
JP4576453B2 (ja) * 2006-02-24 2010-11-10 富士通株式会社 キャッシュ制御回路、情報処理装置および切り離し方法
JP2009534738A (ja) * 2006-04-21 2009-09-24 ハネウェル・インターナショナル・インコーポレーテッド フォールト・トレランス・コンピューティング・システムにおけるエラー・フィルタリング
US8108719B2 (en) 2006-10-13 2012-01-31 Nec Corporation Information processing device and failure concealing method therefor
WO2008044423A1 (fr) * 2006-10-13 2008-04-17 Nec Corporation Processeur d'informations et procédé de couverture de panne
JP5277961B2 (ja) * 2006-10-13 2013-08-28 日本電気株式会社 情報処理装置及びその故障隠蔽方法
US8090982B2 (en) 2007-06-11 2012-01-03 Toyota Jidosha Kabushiki Kaisha Multiprocessor system enabling controlling with specific processor under abnormal operation and control method thereof
JP2009276983A (ja) * 2008-05-14 2009-11-26 Toshiba Corp 多重化計算機システム、及びその処理方法
JP2010170355A (ja) * 2009-01-23 2010-08-05 Nec Computertechno Ltd コンピュータシステム及びcpuの再組み込み方法
JP2014059870A (ja) * 2012-09-14 2014-04-03 General Electric Co <Ge> プロセッサの命令実行の同期システムおよび方法
JP2016170521A (ja) * 2015-03-11 2016-09-23 富士通株式会社 正常なプロセッサの抽出方法及びプログラム、情報処理装置

Similar Documents

Publication Publication Date Title
US5812757A (en) Processing board, a computer, and a fault recovery method for the computer
EP1573544B1 (en) On-die mechanism for high-reliability processor
JP2505928B2 (ja) フォ―ルト・トレラント・システムのためのチェックポイント機構
US6574748B1 (en) Fast relief swapping of processors in a data processing system
US5317752A (en) Fault-tolerant computer system with auto-restart after power-fall
US6122756A (en) High availability computer system and methods related thereto
EP0433979A2 (en) Fault-tolerant computer system with/config filesystem
US7496786B2 (en) Systems and methods for maintaining lock step operation
US5295258A (en) Fault-tolerant computer system with online recovery and reintegration of redundant components
US5958070A (en) Remote checkpoint memory system and protocol for fault-tolerant computer system
US20050240806A1 (en) Diagnostic memory dump method in a redundant processor
EP0372578A2 (en) Memory management in high-performance fault-tolerant computer system
CN101714108B (zh) 同步控制设备、信息处理设备以及同步管理方法
US7493517B2 (en) Fault tolerant computer system and a synchronization method for the same
JPH079626B2 (ja) 多重プロセッサを備えたフォールトトレラントなコンピュータシステム
EP1675006A2 (en) Fault tolerant computer system and interrupt control method for the same
JPH07175765A (ja) 計算機の障害回復方法
JP3301992B2 (ja) 電源故障対策を備えたコンピュータシステム及びその動作方法
EP1380950B1 (en) Fault tolerant information processing apparatus
JP5287974B2 (ja) 演算処理システム、再同期方法、およびファームプログラム
CA2498592A1 (en) Method and circuit arrangement for synchronization of synchronously or asynchronously clocked processing units
JP3774826B2 (ja) 情報処理装置
JPH07105037A (ja) プロセッシングボード及び計算機及び障害復旧方法
JPH02266457A (ja) 処理の継続実行方法
JP3255934B2 (ja) ベーシックプロセッシングユニット及び高信頼化コンピュータシステム