JPH06250867A

JPH06250867A - 耐故障計算機および耐故障計算処理方法

Info

Publication number: JPH06250867A
Application number: JP5039852A
Authority: JP
Inventors: Michihiro Yamane; 道広山根
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1993-03-01
Filing date: 1993-03-01
Publication date: 1994-09-09

Abstract

(57)【要約】【目的】ＣＰＵ使用効率の高い、かつある特定下で発
生するタイミング故障を受ける確立の少ない、多数決に
より確実に故障計算機を特定することができる高信頼な
耐故障計算機および耐故障計算処理方法を実現する。【構成】３個のＣＰＵで２回ずつ並列処理を行い、１
個が故障しても残りの２個で処理結果を比較し、処理の
信頼度を低下させない。また、２個の計算機が共に正常
終了しても、比較結果が不一致のときには、第３の計算
機の処理の結果と比較して、確実に故障計算機を特定す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、２重計算機に比べて故
障の検出および予備の計算機の比率を大きくせずに、タ
イミング故障を検出することができる高信頼な耐故障計
算機および耐故障計算処理方法に関する。

【０００２】

【従来の技術】従来より、耐故障性を持った高信頼な計
算機を実現するために、ＣＰＵやメモリ等を多重化して
相互比較により故障を検出するとともに、予備機を具備
した方法が提案されていた（例えば、『電子情報通信ハ
ンドブック』第２分冊、昭和63年3月30日(株)オ−ム社
発行、pp.1813〜1815参照)。図８は、従来の比較回路を
備え、かつＣＰＵとメモリを２重化した計算機の構成図
である。図８においては、計算機１がＣＰＵ装置５−１
とＣＰＵ装置５−２から構成され、各々のＣＰＵ装置は
ＣＰＵ３とメモリ２とがメモリバス４で接続されてい
る。これらＣＰＵ装置５−１と５−２とは、比較回路６
を介して相互接続されており、かつＣＰＵ３間にはＣＰ
Ｕ間通信線７が接続されている。この例では、ＣＰＵ３
の故障は、２重化されたＣＰＵ３の比較により行われ
る。比較回路６は、ＣＰＵ装置５−１のＣＰＵ３とＣＰ
Ｕ装置５−２のＣＰＵ３の処理結果を受け取り、それら
の値を比較して、予め定められた方のＣＰＵ３に報告す
る。ＣＰＵ間通信線７は、ＣＰＵ装置５−１と５−２と
の間で故障の有無等、ＣＰＵ装置の状態を相互に連絡す
る。

【０００３】図９は、従来のＣＰＵとメモリを２重化
し、かつ２重照合を行う計算機の構成図である。図９に
おいて、（ｂ）は２重化されたＣＰＵ装置５−１と５−
２の構成を示し、（ａ）は各ＣＰＵ装置５−１，５−２
のＣＰＵ３の内部構成を示している。すなわち、各ＣＰ
Ｕ装置５−１，５−２内のＣＰＵ３は、それぞれ２個の
ＣＰＵ３−１とＣＰＵ３−２と比較回路８で構成されて
おり、２重化された各々のＣＰＵ３の内部で２個のＣＰ
Ｕの比較を行うことにより２重照合の２重化を行ってい
る。図９の方法によれば、図８の方法に比べてさ己にＣ
ＰＵの故障検出を強化することができる。図１０は、従
来のＣＰＵを３重化して多数決により故障検出を行う計
算機の構成図である。図１０においては、計算機１がＣ
ＰＵ装置５−１、５−２、および５−３で３重化されて
おり、３個のＣＰＵ装置の出力は３個の比較回路９−
１，９−２，および９−３に入力されてそれぞれ比較さ
れる。比較の結果、３個のうちの２個の比較回路で一致
した出力を正しい結果として出力する。図８、図９およ
び図１０の方法において、図８の２重化構成は広く交換
機の制御用計算機に適用されている。また、図９の２重
照合の２重化構成は、無中断運転を目的とするトランザ
クション処理用の計算機に適用されている。また、図１
０の３重化多数決構成は、最近の無中断運転を目的とす
る汎用計算機に適用されている。

【０００４】以下、図８の計算機に故障が生じた場合の
動作について述べる。図８の計算機１は、ＣＰＵ３、メ
モリ２およびメモリバス４がそれぞれ２重化されている
ので、ＣＰＵ３、メモリ２およびメモリバス４の各々に
おける一重故障に対して計算を連続して実行することが
できる。（ａ）ＣＰＵの故障の場合には、ＣＰＵ装置５−１とＣ
ＰＵ装置５−２とを比較回路６により比較して、ＣＰＵ
装置５−１内のＣＰＵ３に故障が発生したことが検出さ
れると、ＣＰＵ装置５−１は自動的に処理を停止して、
ＣＰＵ間通信線７を介してＣＰＵ装置５−２に対して自
装置（５−１）の停止を通報する。一方、ＣＰＵ装置５
−２は、ＣＰＵ装置５−１の停止には影響されずに、計
算機１としての処理を継続する。（ｂ）メモリの故障の場合には、ＣＰＵ装置５−１内の
メモリ２の故障検出回路によりメモリにビットエラ−等
の故障が発生したことが検出されると、ＣＰＵ装置５−
１内のメモリ２からＣＰＵ装置５−１内のＣＰＵ３にメ
モリバス４を介してメモリエラ−が発生したことを通知
する。このエラ−信号を受けると、ＣＰＵ装置５−１は
動作を停止して、ＣＰＵ装置５−２に対してＣＰＵ間通
信線７を介して自装置（５−１）の停止を通報する。一
方、ＣＰＵ装置５−２はその影響を受けることなく、制
御の中断も発生させずにそのまま処理を継続する。（ｃ）メモリバスの故障の場合には、メモリ２とＣＰＵ
３内に配置されたメモリバスの故障検出回路により検出
される。例えば、ＣＰＵ装置５−１内のメモリバス４に
ビットエラ−等の故障が発生したことが、ＣＰＵ装置５
−１内のＣＰＵ３で検出された場合、ＣＰＵ装置５−１
が停止して、ＣＰＵ装置５−２に対してＣＰＵ間通信線
７を介して自装置（５−１）の停止を通報する。一方、
ＣＰＵ装置５−２は、ＣＰＵ装置５−１の停止に影響さ
れず、従って制御の中断は発生しない。

【０００５】図７は、従来のウォッチドッグ・タイマに
よるＣＰＵの監視状態を示す図である。従来、図８〜図
１０による比較によるＣＰＵ故障検出方法の他に、図７
に示すようなウォッチドッグ・タイマによる監視手段が
用いられていた。図７において、ＣＰＵ３０は正常に動
作しているときには、常に動作が正常であることの証と
して周期的に外部にリセット信号を発生する。この周期
信号をウォッチドッグ・タイマ３１がリセット信号とし
て受け取り、周期的にリセットされる。ＣＰＵ３０が何
等かの原因により異常／故障が発生した場合には、ウォ
ッチドッグ・タイマ３１は周期的にリセットされないた
めオ−バフロ−する。その結果、ＣＰＵ３０の異常／故
障が検出される。この方法は簡明であるが、ソフトウェ
アの暴走による異常検出の場合には、検出は可能である
が、故障によりウォッチドッグ・タイマ３１がオ−バフ
ロ−するまでの時間が長いという問題がある。次に、Ｃ
ＰＵ以外のメモリ、メモリバスの故障検出の場合を述べ
る。（ａ）メモリの故障検出の場合には、パリティビット、
あるいはＥＣＣ（エラ−修正符号）を付加する方法が実
用化されている。一般の計算機には、特にＥＣＣ符号を
付加する方法が広く用いられている。例えば、１ビット
のエラ修正符号は、１ビットだけのエラ−であれば、こ
れを検出して修正することができる。また、２ビット以
上のエラ−については検出することだけが可能である。（ｂ）メモリバスの故障検出の場合には、パリティビッ
トを付加する方法、または転送時の定められた信号手順
や応答時間のチェックによる方法等、種々の故障検出方
法が実用化されている。

【０００６】

【発明が解決しようとする課題】このように、従来にお
いては、ＣＰＵ、メモリバスとメモリを２重化した計算
機を用いることにより、ＣＰＵ、メモリバスあるいはメ
モリ内に１重の故障が発生した場合には、処理を中断す
ることなく処理を続行することができる。しかしなが
ら、従来の２重化、３重化された計算機においては、Ｃ
ＰＵの故障検出のためにハ−ドウェアを多く付加する必
要があり、少ないハ−ドウェア量だけを付加するだけで
故障検出は不可能であった。すなわち、２重化、３重化
して高信頼化を図った従来の計算機では、次のような問
題点があった。（１）第１番目の問題点は、ＣＰＵの故障検出のため
に、多重化して比較し、かつ予備機を備えるので、多く
のハ−ドウェア量が必要であった。具体的に、ＣＰＵの
使用率は２重化の場合で１．５、３重化多数決の場合で
０．３、また２重照合の２重化では０．２５である。（２）第２番目の問題点は、単純な２重化構成では片側
故障時に片肺運転となり、ＣＰＵの比較対象がなくなる
ために、故障検出能力が低くなることである。（３）第３番目の問題点は、１個の処理を同時に２個の
ＣＰＵで実行するため、ある特定の条件下で発生するタ
イミング故障が同時に発生に発生する可能性の高いこと
である。つまり、多重化したＣＰＵの比較により故障を
検出するため、同時に故障すると検出できない場合があ
る。本発明の目的は、これら従来の課題を解決し、ＣＰ
Ｕの使用効率が高く、また１個のＣＰＵが故障した後の
故障検出能力が低下せず、同時にタイミング故障を受け
る確立が少なく、確実に故障計算機を特定することが可
能な高信頼な耐故障計算機および耐故障計算処理方法を
提供することにある。

【０００７】

【課題を解決するための手段】上記目的を達成するた
め、本発明の耐故障計算機は、（イ）ＣＰＵ故障検出器
およびメモリバス故障検出器を備えたＣＰＵ（１３）、
メモリ故障検出器およびメモリバス故障検出器を備えた
メモリ（１２）、ならびにＣＰＵ（１３）とメモリ（１
２）とを接続するメモリバス（１４）からそれぞれ構成
される第１、第２および第３の計算機（１５，１６，１
７）と、第１、第２および第３の計算機（１５，１６，
１７）の処理結果を比較する第１、第２および第３の比
較回路（１８，１９，２０）と、比較回路をそれぞれ計
算機に接続し、かつ比較回路の比較結果を計算機に通知
する専用バス（２２）と、計算機相互間を接続し、互い
に故障の有無等、各計算機の状態を連絡するＣＰＵ間通
信線（２１）とを具備することを特徴としている。ま
た、本発明の耐故障計算処理方法では、（ロ）第１、第
２および第３の計算機（１５，１６，１７）は、各計算
機での処理の正常または異常終了を相互に通信するＣＰ
Ｕ通信線（２１）で接続され、第１、第２および第３の
計算機（１５，１６，１７）は、それぞれ別個の処理を
並列に実行し、互いに他の２個の計算機の処理結果が正
常であれば、第１の計算機（１５）は第３の計算機（１
７）が実行した処理を、第２の計算機（１６）は第１の
計算機（１５）が実行した処理を、第３の計算機（１
７）は第１の計算機（１５）が実行した処理をそれぞれ
再度実行し、２回の処理が共に正常に終了したならば処
理を完了し、いずれか１個の計算機で１回目あるいは２
回目の処理結果が異常終了したならば、異常終了した計
算機が再度同一の処理を実行して、その処理結果が正常
であれば、計算機は一時的な故障であったと判断し、処
理結果が再度異常であれば計算機は固定的な故障である
と判断して、修理／交換要求を指示することを特徴とし
ている。

【０００８】

【作用】本発明においては、従来の２重化等に多重化し
た計算機に比べて、動作タイミングを異ならせている。
すなわち、３個のＣＰＵにより同一の処理を２回ずつ時
間をずらせて実行するので、ＣＰＵの使用効率が高い。
また、３個のＣＰＵのうちの１個が故障しても、残りの
２個で処理結果の比較を行うので、処理性能は低下する
が、処理の信頼性は低下しない。さらに、１個の処理を
異なる２個のＣＰＵで時間をずらして実行し、その結果
を比較するので、特定の条件で生じるタイミング故障を
受ける確率が少ない。さらに、２個の計算機が共に正常
に終了したが、それらの処理結果の比較が一致しない場
合には、第３の計算機で３回目の同一処理を行わせて、
前の２つの結果と比較することにより、多数決が行える
ので、確実に故障計算機を特定することができる。これ
により、故障の検出や予備の計算機の比率を大幅に増加
せず、かつタイミング故障の検出が可能な耐故障計算機
および耐故障計算処理方法を実現する。

【０００９】

【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図１は、本発明の第１の実施例を示す耐故障
計算機の構成図である。本実施例では、図１に示すよう
に、ＣＰＵ１３とメモリ１２とメモリバス１４とからな
るＣＰＵ装置１５，１６，１７を３個以上並列に配置
し、それら相互間を専用バス２２で接続する。そして、
ＣＰＵ装置１５と１６間に比較回路１８、ＣＰＵ装置１
６と１７間に比較回路１９、ＣＰＵ装置１７と１５間に
比較回路２０を設ける。３個のＣＰＵ装置と３個の比較
回路１８，１９，２０を接続する専用バス２２は、比較
の結果も各ＣＰＵに通知する。また、各ＣＰＵ１３相互
間には、ＣＰＵ装置１５，１６および１７の間で故障の
有無等の計算機の状態を相互に連絡するためのＣＰＵ間
通信線２１が接続されている。メモリ１２、ＣＰＵ１３
およびメモリバス１４は、従来の構成と同じように、そ
れぞれＣＰＵ、メモリおよびメモリバスの故障検出回路
を備えている。

【００１０】図２は、図１における動作タイミングチャ
−トである。図６に示すように、ＣＰＵ装置１５、ＣＰ
Ｕ装置１６およびＣＰＵ装置１７の３個のＣＰＵ装置は
同一時刻にはそれぞれ異なった処理を並列に実行してい
る。この処理ｎ−３，処理ｎ−２，処理ｎ−１等は、あ
るまとまった命令群の実行である。あるＣＰＵ装置で処
理が正常に終了した後に、他のＣＰＵ装置で同一の処理
を再実行し、これら２回の処理が共に正常で結果が一致
した場合にその処理を完了するのである。図２では、Ｃ
ＰＵ装置１５が処理ｎ−３を実行した後、正常に終了し
たので、次のサイクルにＣＰＵ装置１６が処理ｎ−３を
実行する。そして、ＣＰＵ装置１５の処理結果とＣＰＵ
装置１６の処理結果とを比較し、一致すれば処理を完了
する。処理ｎ−１、処理ｎ、処理ｎ＋１、処理ｎ＋２、
・・・についても全く同じようにして、同一処理を別の
ＣＰＵ装置が再実行した後、２つの処理の結果が一致し
たときに処理を終了する。例えば、銀行のオンライン預
金管理システムの処理の場合に、２個の処理の結果が一
致した時点で、預金の台帳であるデ−タベ−スを書き換
えることになる。図２の使用効率を考えると、正常時に
は、３個のＣＰＵ装置を用いて２サイクルで３命令を処
理しているので、ＣＰＵ装置の使用効率は３命令／（３
ＣＰＵ×２サイクル）＝０．５となる。すなわち、本実
施例のＣＰＵ構成では、従来の３重化プロセッサの使用
効率（０．３）に比べて、ＣＰＵ装置の使用効率を高く
することができる。

【００１１】図２において、３個のＣＰＵ装置における
処理の繰り返し実行順序は、以下のような基本的方法に
より制御する。（イ）３個のＣＰＵ装置は、共に処理が正常／異常に終
了したことが判別できるまで、次の処理を開始しない。（ロ）処理結果が正常に見える特殊な故障を避けるため
に、一時的な故障の切り分けのための再試行を除き、１
個のＣＰＵで連続して２回同一の処理は行わない。（ハ）何等かの原因で、処理の実行順序が乱れた場合、
若番のＣＰＵが若番の処理を実行する。また、故障ＣＰ
Ｕが明確な場合には、当該ＣＰＵを削除して番号をつめ
る。なお、本実施例においては、必ず並列動作を行わせ
るために、予め各ＣＰＵ装置の処理は、同時実行による
競合等が発生しないよう分割して配置されているものと
する。並列処理による競合回避についての説明は、本発
明の目的から外れるので、これを省略する。

【００１２】以下、図２、図３および図４により、正常
時の動作、固定故障時の動作、および間欠故障時の動作
について述べる。（ａ）正常時の動作、図２の処理ｎ−３に着目して、正常時の処理の流れを述
べる。時刻ｔｎ−２では、（１）ＣＰＵ装置１５は処理
ｎ−３、ＣＰＵ装置１６は処理ｎ−２、ＣＰＵ装置１７
は処理ｎ−１の各１回目の実行を開始する。（２）ＣＰＵ装置１５は処理ｎ−３の処理が正常に終了
したことをＣＰＵ間通信線２１を介して他の２個のＣＰ
Ｕ装置１６、ＣＰＵ装置１７に通知する。処理ｎ−３の
処理結果は、他のＣＰＵ装置（ここでは、ＣＰＵ装置１
６）での２回目の処理結果と比較され、比較の結果が一
致して、処理結果が処理ｎ−３の指定通りに転送されて
格納されるまで、ＣＰＵ装置１５で保持される。他のＣ
ＰＵ装置１６およびＣＰＵ装置１７も、全く同じ動作を
行う。（３）ＣＰＵ装置１６およびＣＰＵ装置１７も、この時
点では、それぞれ処理ｎ−２および処理ｎ−１を正常に
終了しており、次の処理が開始可能な状態である。次
に、時刻ｔｎ−１では、（４）ＣＰＵ装置１５は処理ｎ
−１、ＣＰＵ装置１６は処理ｎ−３、ＣＰＵ装置１７は
処理ｎ−２の２回目の処理をそれぞれ開始する。（５）ＣＰＵ装置１６は、処理ｎ−３の処理が正常に終
了したので、処理ｎ−３の１回目の処理を行ったＣＰＵ
装置１５に、１回目の処理結果と２回目の処理結果とを
比較するために、１回目の処理結果を比較回路１８に転
送するように、ＣＰＵ間通信線２１を介して通知する。

【００１３】（６）ＣＰＵ装置１５は、１回目の処理結
果を比較回路１８に転送する。（７）同時に、ＣＰＵ装置１６は２回目の処理結果を比
較回路１８に転送する。（８）比較回路１８は、ＣＰＵ装置１５で実行した処理
ｎ−３の１回目の処理結果と、ＣＰＵ装置１６で実行し
た処理ｎ−３の２回目の処理結果とを比較する。比較結
果が一致しているならば、一致したことをＣＰＵ装置１
５とＣＰＵ装置１６に専用バス２２を介して通知する。（９）ＣＰＵ装置１６は、処理ｎ−３に指定された方法
で処理結果を共通メモリに転送し、あるいはこれを格納
する。ＣＰＵ装置１６は、転送／格納が正常に終了した
ことをＣＰＵ間通信線２１を介してＣＰＵ装置１５に通
知する。（１０）ＣＰＵ装置１５は、ＣＰＵ装置１６が処理ｎ−
３の処理結果を正常に転送／格納できたことを確認した
後に、ＣＰＵ装置１５に保存されている処理ｎ−３の処
理結果を削除する。

【００１４】（ｂ）固定故障時の動作、図３は、図１における計算機の固定故障時の動作タイミ
ングチャ−トである。以下、主として処理ｎ−３に着目
したときに、ＣＰＵ装置１６が時刻ｔｎ−１以降に故障
して固定故障が検出された場合を説明する。時刻ｔｎ−
２では、（１）ＣＰＵ装置１５は処理ｎ−３、ＣＰＵ装
置１６は処理ｎ−２、ＣＰＵ装置１７は処理ｎ−１の各
１回目の実行を開始する。（２）ＣＰＵ装置１５は、処理ｎ−３の処理が正常に終
了したことを、ＣＰＵ間通信線２１を介して他の２個の
ＣＰＵ装置１６，１７に通知する。ＣＰＵ装置１５にお
ける処理ｎ−３の処理結果は、他のＣＰＵ装置で２回目
の処理が行われ、その結果との比較が行われて、両者が
一致し、その処理結果が処理ｎ−３の指定通りにメモリ
に転送／格納されるまでの期間、ＣＰＵ装置１５で一時
保存される。（３）ＣＰＵ装置１５の他の２個のＣＰＵ装置１６，１
７も、それぞれ処理ｎ−２，処理ｎ−１の処理を正常に
終了して、次の処理を開始することが可能な状態にあ
る。時刻ｔｎ−２では、（４）ＣＰＵ装置１５は処理ｎ
−１、ＣＰＵ装置１６は処理ｎ−３、ＣＰＵ装置１７は
処理ｎ−２の各２回目の処理を開始する。（５）ＣＰＵ装置１６は、処理ｎ−３の実行中にウォッ
チドッグ・タイマによりＣＰＵ装置１６の故障が検出さ
れて、処理は異常終了となる。ＣＰＵ装置１６は、異常
終了したことをＣＰＵ間通信線２１を介して他の２個の
ＣＰＵ装置１５，１７に通知する。なお、ＣＰＵ装置１
６の故障を他の２個のＣＰＵ装置１５，１７が判別でき
る理由は、例えば、ＣＰＵ故障検出回路からの故障検出
信号がＣＰＵ装置１６内のＣＰＵ１３の処理を経由せず
に直接ＣＰＵ間通信線２１に出力されるからである。

【００１５】次に、時刻ｔｎでは、（６）２個のＣＰＵ
装置１５、ＣＰＵ装置１７は共に前の処理を正常に終了
しているので、ＣＰＵ装置１５は処理ｎを、ＣＰＵ装置
１７は処理ｎ＋１の２回目をそれぞれ実行する。（７）ＣＰＵ装置１６は、故障が一時的のものか、固定
的なものかを切り分けるため、再度処理ｎ−３の実行を
開始する。その結果、再度の故障を検出したので、この
故障は固定的な故障であると判断し、ＣＰＵ装置１６は
交換修理されて復旧するまで動作を停止する。ＣＰＵ装
置１６の故障が固定的な故障であることを、ＣＰＵ間通
信線２１を介して他の２個のＣＰＵ装置１５，１７に通
知する。なお、再実行の起動が不可能な故障で停止する
場合も考えられる。このような場合には、他の２個のＣ
ＰＵ装置１５および１７は、常時、時間監視を行って再
起動後一定の時間でＣＰＵ装置１６の無応答から固定故
障を判定する。次に、時刻ｔｎ＋１では、（８）ＣＰＵ
装置１５は前に処理ｎ−３の１回目の処理を行っている
ので、連続して２回目を処理することはできない。従っ
て、ＣＰＵ装置１７が処理ｎ−３の２回目の処理を開始
する。ＣＰＵ装置１５は、処理ｎ＋１の２回目の処理を
開始する。また、ＣＰＵ装置１５が前に処理した処理ｎ
は、そのまま保持されている（ここでは、入力順序と出
力順序が逆転されても問題がない場合であるとする）。
ＣＰＵ装置１７は、処理ｎ−３が正常終了した場合に
は、処理ｎ−３の１回目の処理を実行したＣＰＵ装置１
５に対して、１回目の処理結果を比較回路２０に転送す
るように、ＣＰＵ間通信線２１を介して通知するととも
に、自装置１７も比較回路２０に２回目の処理結果を転
送して、比較回路２０で両結果を比較させる。

【００１６】（９）ＣＰＵ装置１５は、通知を受けたの
で、処理ｎ−３の１回目の処理結果を比較回路２０に転
送する。（１０）同時に、ＣＰＵ装置１７は、処理ｎ＋１の１回
目の処理結果を一時保存する。（１１）比較回路２０は、ＣＰＵ装置１５で実行された
処理ｎ−３の１回目の処理結果と、ＣＰＵ１７で実行さ
れた処理ｎ−３の２回目の処理結果とを比較する。比較
結果が一致すれば、一致したことをＣＰＵ装置１５と１
７に専用バス２２を介して通知する。（１２）ＣＰＵ装置１７は、処理ｎ−３に指定された方
法で処理結果を共通メモリに転送し、あるいはこれを格
納する。ＣＰＵ装置１７は、転送／格納が正常に終了し
たことをＣＰＵ間通信線２１を介してＣＰＵ装置１５に
通知する。（１３）ＣＰＵ装置１５は、ＣＰＵ装置１７が処理ｎ−
３の処理結果を正常に転送／格納できたことを確認した
後、ＣＰＵ装置１５に保存されていた処理ｎ−３の処理
結果を廃棄する。次に、時刻ｔｎ＋２では、（１４）ＣＰＵ装置１６が交
換等により回復するまでの間、ＣＰＵ装置１５とＣＰＵ
装置１７の２個のＣＰＵ装置で運転を継続するために、
ＣＰＵ装置１７が処理ｎの２回目の処理を開始し、ＣＰ
Ｕ装置１５は待機して処理順序を回復する。

【００１７】（ｃ）一時的故障時の動作、図４は、図１の計算機における間欠故障時の動作タイミ
ングチャ−トである。以下、処理ｎ−３に着目して、Ｃ
ＰＵ装置１６が時刻ｔｎ−１以降に一時的に故障した場
合の処理の流れを、図４により説明する。時刻ｔｎ−２
では、（１）ＣＰＵ装置１５は処理ｎ−３、ＣＰＵ装置
１６は処理ｎ−２、ＣＰＵ装置１７は処理ｎ−１の１回
目の実行をそれぞれ開始する。（２）ＣＰＵ装置１５は、処理ｎ−３の処理が正常に終
了したことをＣＰＵ間通信線２１を介して他の２個のＣ
ＰＵ装置１６，１７に通知する。処理ｎ−３の処理結果
は、他のＣＰＵ装置で実行された２回目の処理結果と比
較され、その結果が一致して、処理ｎ−３の指定通りに
転送／格納されるまでは、ＣＰＵ装置１５に一時保存さ
れる。（３）ＣＰＵ装置１５の他の２個のＣＰＵ装置１６，１
７も、この時点ではそれぞれ処理ｎ−２と処理ｎ−１の
処理が正常に終了したので、次の処理の開始が可能な状
態にある。次に、時刻ｔｎ−１では、（４）ＣＰＵ装置
１５は処理ｎ−１、ＣＰＵ装置１６は処理ｎ−３、ＣＰ
Ｕ装置１７は処理ｎ−２の２回目の処理をそれぞれ開始
する。（５）ＣＰＵ装置１６は、処理ｎ−３を実行中にウォッ
チドッグ・タイマでＣＰＵ装置１６の故障が検出された
ため、処理は異常終了となる。ＣＰＵ装置１６は、異常
終了したことをＣＰＵ間通信線２１を介して他の２個の
ＣＰＵ装置１５，１７に通知する。なお、ＣＰＵ装置１
６の故障をＣＰＵ装置１５，１７に通知することができ
る理由は、前述のように、ＣＰＵ故障検出回路がＣＰＵ
装置１６内のＣＰＵ１３の処理を経ることなく、直接故
障検出信号をＣＰＵ間通信線２１を介して出力するから
である。

【００１８】次に、時刻ｔｎでは、（６）２個のＣＰＵ
装書１５，１７は、それぞれ正常に終了しているため、
ＣＰＵ装置１５は処理ｎを、ＣＰＵ装置１７は処理ｎ＋
１を、それぞれ実行する。同時に、ＣＰＵ１６は、故障
が一時的であるか、固定的であるかを切り分けるため
に、再度処理ｎ−３の実行を開始する。（７）ＣＰＵ装置１６は処理ｎ−３が終了した時点で、
処理ｎ−３の１回目の処理を実行したＣＰＵ装置１５に
対して、１回目と２回目の処理結果を比較するため、１
回目の処理結果を比較回路１８に転送するようにＣＰＵ
間通信線２１を介して通知する。（８）ＣＰＵ装置１５は、１回目の処理結果を比較回路
１８に転送する。同時に、ＣＰＵ装置１６は、２回目の
処理結果を比較回路１８に転送する。（９）比較回路１８は、ＣＰＵ装置１５で実行した処理
ｎ−３の１回目の処理結果と、ＣＰＵ１６で実行した処
理ｎ−３の２回目の処理結果とを比較する。比較結果が
一致していれば、ＣＰＵ装置１６の故障は一時的な故障
であると判断することができる。比較回路１８は、ＣＰ
Ｕ装置１６の故障が一時的な故障であり、ＣＰＵ装置１
６は処理継続可能であることを、ＣＰＵ間通信線２１を
介して他の２個のＣＰＵ装置１５，１７に通知する。

【００１９】（１０）ＣＰＵ装置１６は、処理ｎ−３に
指定された方法で処理結果を共通メモリに転送し、ある
いは格納する。ＣＰＵ装置１６は、転送／格納が正常に
終了したことを、ＣＰＵ間通信線２１を介してＣＰＵ装
置１５に通知する。（１１）ＣＰＵ装置１５は、ＣＰＵ装置１６が処理ｎ−
３の処理結果を正常に転送／格納できたことを確認した
後、ＣＰＵ装置１５に保存されていた処理ｎ−３の処理
結果を廃棄する。時刻ｔｎ＋１では、（１２）２個のＣ
ＰＵ装置１５，１７は、それぞれ正常に終了しているた
め、ＣＰＵ装置１５は処理ｎ＋１、ＣＰＵ装置１７は処
理ｎのそれぞれ２回目の処理を実行する。ＣＰＵ装置１
６は、他のＣＰＵ装置１５，１７と処理の順序を合わせ
るために待機する。（１３）ＣＰＵ装置１５は処理ｎ＋１、ＣＰＵ装置１７
は処理ｎのそれぞれ２回目の処理を終了した後、１回目
の処理結果との比較を比較回路１９と比較回路２０で行
う。時刻ｔｎ＋２では、（１４）ＣＰＵ装置１５は処理
ｎ＋２、ＣＰＵ装置１６は処理ｎ＋３、ＣＰＵ装置１７
は処理ｎ＋４のそれぞれ１回目の実行を開始する。

【００２０】（ｄ）多数決を必要とする場合の動作、図５は、図１における計算機の多数決時の動作タイミン
グチャ−トである。２個の計算機が共に正常終了したに
もかかわらず、比較結果が一致せず、いずれか一方が故
障したと考えられるような場合には、第３の計算機に３
回目の処理を実行させることにより、３個の計算機によ
る多数決で故障計算機を特定することができる。以下、
多数決による故障計算機決定時の動作を、図５により説
明する。（多数決の第１の具体例、図５（ａ）の場合）（１）ＣＰＵ装置１５の１回目の処理は正常に終了し、
処理結果がＡとなったが、ＣＰＵ装置１６の２回目の処
理も正常に終了し、処理結果がＡ′となって、比較結果
が不一致となった。（２）そのような場合には、ＣＰＵ装置１７が３回目の
処理を行い、処理結果がＡ″になったとする。このと
き、Ａ′＝Ａ″となった場合には、ＣＰＵ装置１５が故
障であると判定できる。（多数決の第２の具体例、図５（ｂ）の場合）（１）ＣＰＵ装置１５の１回目の処理は正常に終了し
て、処理結果がＡとなり、ＣＰＵ装置１６の２回目の処
理も正常に終了して、処理結果がＡ′となり、Ａ′≠Ａ
で比較結果は不一致となった。（２）そのような場合には、ＣＰＵ装置１７が３回目の
処理を行い、処理結果がＡ″になったとする。しかし、
Ａ′≠Ａ″で不一致となった。（３）ＣＰＵ装置１７での３回目の処理結果Ａ″をＣＰ
Ｕ装置１５の処理結果Ａと比較して、Ａ″＝Ａとなった
場合には、ＣＰＵ装置１６が故障と判定することができ
る。なお、図２〜図５の説明においては、説明を簡単に
するために各処理時間を等しいものとしたが、必ずしも
等しくなくてよい。処理ｍの命令数が一定でなく、処理
時間が異なる場合には、３個のＣＰＵ装置は１回目、２
回目の処理の終了を相互に待ち合わせることにより、３
個の処理を並列に実行することができる。

【００２１】図６は、本発明の第２の実施例を示す耐故
障計算機の構成図である。図６において、計算機２１は
３個のＣＰＵ装置１５，１６，１７から構成され、各Ｃ
ＰＵ装置はＣＰＵ１３とメモリ１２とそれらを接続する
メモリバス１４とからなる。各ＣＰＵ装置１５，１６，
１７相互間には、ＣＰＵ間通信線２１が接続されて、互
いに通信ができるようになっている。図１の第１の実施
例と構成上異なっている点は、各ＣＰＵ装置間に比較回
路がなく、単に各ＣＰＵ装置相互間を接続して、比較結
果を通知し合うための専用バス２２のみが設けられてい
る点である。すなわち、本実施例では、比較を比較回路
で行わずに、ＣＰＵで行うのである。なお、共通メモリ
通信装置等に接続される通信線が各ＣＰＵ装置に接続さ
れているのは、図１と同じである。メモリ１２、ＣＰＵ
１３およびメモリバス１４は、それぞれ従来と同じよう
に、ＣＰＵ、メモリ、およびメモリバスの故障検出回路
を備えている。このように、第２の実施例と第１の実施
例との相違点は、処理結果の比較方法であって、前者は
ＣＰＵ内でソフトウェア的に比較するのに対して、後者
は比較回路でハ−ドウェア的に比較している。そして、
動作タイミングは、比較をハ−ドウェアで行う場合も、
ソフトウェアで行う場合も基本的には差はないため、図
２〜図５の動作タイミングチャ−トを第２の実施例に適
用できる。従って、ソフトウェアによる動作説明は省略
する。

【００２２】このように、本実施例においては、次のよ
うな利点を有する。（イ）正常時には、３個のＣＰＵで２回ずつ並列処理を
行うので、従来の高信頼化計算機に比べてＣＰＵ使用効
率が高い。つまり、従来のＣＰＵ使用効率が０．５〜
０．２５であるのに対して、本実施例のＣＰＵ使用効率
は１．５である。（ロ）３個のＣＰＵのうちの１個が故障しても、残りの
２個で比較処理が行えるため、処理性能は低下するが、
処理の信頼度は低下しない。つまり、従来の２重化ＣＰ
Ｕでは１個が故障すると片肺運転となって、故障検出能
力が低下してしまう。（ハ）１個の処理を異なる２個のＣＰＵで時間をずらし
て実行し、それらの結果を比較するので、ある特定の条
件下で発生するタイミング故障を共に受ける確立は極め
て少ない。従来の同一の処理を同時に２個のＣＰＵで行
う２重化計算機では、同時にタイミング故障を受ける可
能性が高い。（ニ）２個の計算機が共に正常に終了したにもかかわら
ず、処理結果の比較が一致せず、いずれか一方が故障し
たと考えられる場合には、第３の計算機に３回目の処理
を実行させるので、３個の計算機による多数決を行うこ
とができ、確実に故障計算機を特定することができる。

【００２３】

【発明の効果】以上説明したように、本発明によれば、
従来の２重化計算機に比べて、故障の検出や予備計算機
等の比率を小さくし、タイミング故障の検出が可能な耐
故障性のある高信頼な計算機を実現することができる。

【図面の簡単な説明】

【図１】本発明の第１の実施例を示す耐故障計算機の構
成図である。

【図２】図１における正常動作のタイミングチャ−トで
ある。

【図３】図１における固定故障の動作タイミングチャ−
トである。

【図４】図１における間欠故障の動作タイミングチャ−
トである。

【図５】図１における多数決時の動作タイミングチャ−
トである。

【図６】本発明の第２の実施例を示す耐故障計算機の構
成図である。

【図７】ＣＰＵの故障検出に用いられるウォッチドッグ
・タイマの構成図である。

【図８】従来の比較回路を備えた２重化計算機の構成図
である。

【図９】従来の２重照合を用いた２重化計算機の構成図
である。

【図１０】従来の多数決による３重化した計算機の構成
図である。

【符号の説明】

１，１１，２１計算機２，１２メモリ３，１３ＣＰＵ４，１４メモリバス５−１，５−２，５−３，１５，１６，１７ＣＰＵ装
置６，８，９−１，９−２，９−３，１８，１９，２０
比較回路３０ＣＰＵ３１ウォッチドッグタイマ２１ＣＰＵ間通信線２２専用バス

Claims

【特許請求の範囲】

【請求項１】ＣＰＵ故障検出器およびメモリバス故障
検出器を備えたＣＰＵ、メモリ故障検出器およびメモリ
バス故障検出器を備えたメモリ、ならびに該ＣＰＵと該
メモリとを接続するメモリバスからそれぞれ構成される
第１、第２および第３の計算機と、該第１、第２および
第３の計算機の処理結果を比較する第１、第２および第
３の比較回路と、該比較回路をそれぞれ上記計算機に接
続し、かつ該比較回路の比較結果を該計算機に通知する
専用バスと、該計算機相互間を接続し、互いに故障の有
無等、各計算機の状態を連絡するＣＰＵ間通信線とを具
備することを特徴とする耐故障計算機。
【請求項２】第１、第２および第３の計算機は、各計
算機での処理の正常または異常終了を相互に通信するＣ
ＰＵ通信線で接続され、該第１、第２および第３の計算
機は、それぞれ別個の処理を並列に実行し、互いに他の
２個の計算機の処理結果が正常であれば、第１の計算機
は第３の計算機が実行した処理を、第２の計算機は第１
の計算機が実行した処理を、第３の計算機は第１の計算
機が実行した処理をそれぞれ再度実行し、２回の処理が
共に正常に終了したならば処理を完了し、いずれか１個
の計算機で１回目あるいは２回目の処理結果が異常終了
したならば、異常終了した計算機が再度同一の処理を実
行して、その処理結果が正常であれば、上記計算機は一
時的な故障であったと判断し、処理結果が再度異常であ
れば上記計算機は固定的な故障であると判断して、修理
／交換要求を指示することを特徴とする耐故障計算処理
方法。