JPH01288928A - 耐故障コンピュータ・システムおよびその内部回路並びに誤り検出訂正方式 - Google Patents

耐故障コンピュータ・システムおよびその内部回路並びに誤り検出訂正方式

Info

Publication number
JPH01288928A
JPH01288928A JP63118603A JP11860388A JPH01288928A JP H01288928 A JPH01288928 A JP H01288928A JP 63118603 A JP63118603 A JP 63118603A JP 11860388 A JP11860388 A JP 11860388A JP H01288928 A JPH01288928 A JP H01288928A
Authority
JP
Japan
Prior art keywords
subsystem
results
signal
fault
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63118603A
Other languages
English (en)
Inventor
Nobuyasu Kanekawa
信康 金川
Hideo Maejima
前島 英雄
Toshihiko Kato
加藤 肇彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP63118603A priority Critical patent/JPH01288928A/ja
Publication of JPH01288928A publication Critical patent/JPH01288928A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、耐故障コンピュータ・システムおよびその内
部回路並びに誤り検出訂正方式に係り、特に、システム
の冗長化に好適なサブシステム相互の診断結果の取り扱
いおよびサブシステム間の相互診断に関するものである
6 〔従来の技術〕 システムに信頼性を高めるために、システムを構成する
サブシステムを多重化して、それら各々のサブシステム
の故障を診断し、その診断結果を用いてそれらサブシス
テムの出力を選択したり多数決を採る手法が広く用いら
れている。
なお、故障とは、現在のところまだ、JIS原案段階で
あるが、コンピュータ・システムの高信頼化対策技術基
準(案)によると、[アイテム(高信頼化の対象となる
もの)が規定の機能を失うこと」と定義されており、狭
義には部品の故障などによる永久故障をさす1本明細書
では、永久故障だけでなく、コンピュータシステム電気
雑音やシングル・イベント・アップセット(Singl
e Event Upset)と呼ばれる放射線の影響
によるデータ破壊などを原因とする一時的な誤動作も故
障に含めることにする。特に宇宙環境での動作を要求さ
れているコンピュータでは、シングル・イベント・アッ
プセットの発生は無視できない問題である。
故障の有無を判定し、その個所を特定する診断のために
、従来からコンピュータの中で用いるデータにE D 
C(Error DetactinHCode)やEC
C(Error Correcting Code)を
付加したり、アイテムが所定時間内に所定動作をしない
ことを異常として検出するウォッチ・ドッグ・タイマ(
vatchDog Timer)などを組み込んだりし
ている。
また、故障診断機能自体の耐故障性を高めるため、各サ
ブシステムに故障診断機能をもたせて故障診断機能を多
重化する方法が考えられている。
この方法について第12図により説明する。各サブシス
テム1−1〜1−Nにおいて1診断機能2−1〜2−N
は他のサブシステムとデータを交換して、自および他サ
ブシステムを診断し、診断結果4−1〜4−Nを出力す
る。診断結果4−1〜4−Nは、それぞれ各サブシステ
ムの正常/異常を表しており、通常Nビットのデータか
らなっている。これらの診断結果4−1〜4−Nには、
各サブシステムの故障により誤りが含まれることがある
ので、判定回路10では診断結果4−1〜4−Nをもと
に正しい診断結果を判断し、判定結果4oとして出力す
る。最終出力段の出力選択または拡張機能付き多数決回
路(Modified Voter以下MVという。)
11では1判定結果40をもとに各サブシステムの出力
6−1〜6−Nの選択またはスレッショルド・ボーティ
ングまたは待機系付き多数決を行い、出力60とする。
(以下、スレッショルド・ボーティングと待機系付き多
数決を合わせて、拡張多数決という。)この方法によれ
ば、各サブシステム1−1〜1−Nにおいて自サブシス
テムの故障診断だけでなく、他のサブシステムの故障判
断も相互に実行できる。
しかし、この方法では、複数のサブシステムから複数の
故障判断結果4−1〜4−Nが出力されるため、それら
のうちどの診断結果が正しいかを判定回路10において
判断する方法が問題となる。
この問題について、例えば電子通信学会フォールト・ト
レラント・システム研究会資料、FTS85−15 (
1985)、第41頁から第48頁においては、第13
図のように、サブシステムの数が4の場合は5人力多数
決回路12に故障診断結果4−1〜4−4とラッチ回路
20によって保持された前回の多数決結果41とを入力
することにより解決している。この方法によれば、前回
の多数決結果41が正しい診断結果を示していれば、診
断結果4−1〜4−4のうち2つ以上の診断結果が正常
である限り、多数決により正しい診断結果40が得られ
る。
〔発明が解決しようとする課題〕
く診断結果の取扱上の問題点〉 上記従来技術によれば、診断結果4−1〜4−4のうち
正常な診断結果が1つだけである場合、多数決出力(判
定結果)40は正しい診断結果を示さなくなる。すなわ
ち、第13図において前回の多数決結果41を含めた5
つの入力41.4−1〜4−4の多数決の結果40が正
しくなるためには、少なくとも2つ以上の入力が正しく
なければならないわけである。
つまり、第12図において、サブシステム1−1〜1−
N (N=4)のうち正常に動作するサブシステムが1
つだけになった場合、診断結果4−1〜4−Hのうち正
しいのは1つだけとなり、判定結果40は正しい診断結
果を示さなくなり、出力選択回路またはスレッショルド
・ボータ11の出力60は正しい出力信号とはならない
という問題があった。一般に、(2t+1)入力(し=
自然数)の多数決の結果が正しい結果を出すには少なく
とも(t+1)個以上の入力が正しくなければならない
から、前回の多数決結果を含めた多数決の結果が正しく
なるには、前回の多数決結果が正しいとして少なくとも
t個以上の入力が正しくなければならない。上記従来技
術によって1診断結果のうち1つの診断結果のみが正常
である場合にも判定回路10による判定結果40が正し
い診断結果を示すのはt=1のときに限られる。
ここで、第10図において1つのサブシステムだけが正
常である場合でも判定結果40が正しい診断結果を示す
ようにできれば、出力選択回路またはMVIIは各サブ
システムの出力6−1〜6−Nのうち正しいものを選択
可能である。つまりN個のサブシステムのうち1つのサ
ブシステムが正常でありさえすれば正常な動作が保証さ
れるシステムを構成でき、システムの強健性を高めるこ
とが可能となる。
くサブシテムの相互診断の問題点〉 従来技術では、サブシステムの相互診断のためにサブシ
ステム1−1〜1−Nの間で処理の結果や処理の途中結
果等のデータを交換し、そのデータを比較・照合してい
た。
この方法では、各サブシステムの正常/異常を示す情報
として、データの一致/不一致の他に、データ交換が可
能かどうかという情報が得られる。
それぞれのサブシステムがデータ交換が可能かどかとい
う情報は、システムダウンなどの致命的障害を受けてい
るサブシステムを特定するための有力な手がかりとなる
が、交換したデータの正当性を示すものではない。例え
ば、処理中にあるサブシステムでシングルイベントによ
るデータの誤りが生じても、多くの場合にはデータ交換
機能自体は影響を受けないために、その誤ったデータを
交換してしまう。
この場合、データの多数決をとることにより、正常なデ
ータおよびサブシステムを特定できれば問題ないが、シ
ステム・ダウンなどにより2個を除く全てのサブシステ
ムがデータ交換の不可能な状態にあるときには、残存し
た2個のサブシステムのデータの一致がデータの正当性
のよりどころとなり、万一データの不一致が生じた場合
、どちらの、データが正常であるかを特定出来なくなっ
ていしまう問題があった。
本発明の目的は、N個のサブシステムのうち1つのサブ
システムが正常でありさえすれば正常な動作を保証でき
るシステム、すなわちN−1個までのサブシステムの故
障に耐える強健性を備えた耐故障コンピュータ・システ
ムおよびその内部回路並びに誤り検出訂正方式を提供す
ることである。
〔課題を解決するための手段〕
本発明は、上記目的を達成するために、N重化(Nは2
以上の整数)されたサブシステム1を持ち、各サブシス
テムに相互のサブシステムの動作を診断し結果を出力す
る診断機能2を持つ耐故障コンピュータ・システムにお
いて、各サブシステムが自サブシステムの診断機能2の
動作状態を診断し結果を出力する診断機能3と、各サブ
システ1、から診断機能2により出力された第1診断結
果のスレッショルド・ボーティングを行う、または、各
サブシステムから診断機能3により出力された第2診断
結果をもとに待機系付き多数決を行う判定回路10と、
判定回路10から得られた第3診断結果をもとに各サブ
システムの出力信号の選択。
スレッショルド・ボーティング、または待機系付き多数
決を行う回路11とを備えた耐故障コンピュータ・シス
テムを提案するものである。
自己診断機能および相互診断機能を診断機能3により診
断した結果を用いて、各サブシステムにおける診断機能
2による自己診断結果および相互診断結果のスレッショ
ルド・ボーティングまたは待機系付き多数決を採った結
果により、正常なサブシステムを選択することができる
診断機能2は、複数のサブシステム間で各サブシステム
における自己診断結果および処理結果または処理途中結
果を交換し、各サブシステムが。
交換した処理結果または処理途中結果の一致・不一致お
よび各サブシステムの自己診断結果に基づき各サブシス
テムの正常/異常を診断し結果を出力する手段としても
よい。
また、診断機能3は、具体的には自サブシステムの通電
状態(ON/OFF)を出力する手段である。
診断機能3は、他のサブシステムと鍵コードを交換し、
鍵コードが正しいかどうかを照合し、照合結果を出力す
る手段とすることもできる。
本発明のサブシステムは、複数のサブシステムの正常性
を診断し結果を出力する診断機能2の他に、自サブシス
テムの診断機能2の動作状態を診断し出力する診断機能
3を備えていることを特徴とする。
回路11は、第2診断結果をもとに行った第1診断結果
のスレッショルド・ボーティングまたは待機系付き多数
決の結果をもとに、各サブシステムの出力信号の選択ま
たはスレッショルド・ボーティングまたは待機系付き多
数決を採る出力選択回路である。
さらに具体的には、N個の入力信号それぞれの正常/異
常を示す信号に基づきN個の入力信号の中からM(Mは
N以下の自然数)個の入力信号を選択し出力する信号選
択回路と、前記M個の信号を入力とする多数決回路とか
らなる待機系付き多数決回路は、信号選択回路から多数
決回路に、(1)もしN g > M / 2ならば、
mi n (M、Ng)個の正常な入力信号および(M
−m i n (M、 N g) )個のフォールト・
セキュア(明らかに誤りとわかる信号または安全側の動
作を保証する信号)信号を出力し、(2)もし、N g
 < M / 2ならば。
Ng個の正常な入力信号をそれぞれtrunc(M/N
g)個ずつ複写した{trunc(M/Ng)  ・N
g)個の正常な信号および(M−tru n c (M
/Ng)  ・Ng)個のフォールト・セキャア信号を
出力し、 (3)もしNg=Oならば、 M個のフォールト・セキュア信号を出力する。ただし、
Ngは正常な入力信号の個数、m1n(A。
B)はA、Hのうち小さい方、trunc(A)はAの
整数部である。
待機系付き多数決回路としてはまた、N個の入力信号の
それぞれの正常/異常を示す信号に基づき、N個の入力
信号からM個の入力信号を選択し出力する信号選択回路
と、上記M個の信号を入力する多数決回路からなる待機
系付き多数決回路において、N個の入力信号のうちM個
の入力信号を常用の入力信号と定め、(N−M)個の入
力信号を予備(待機系)の入力信号と定め、信号選択回
路のそれぞれの出力ごとに、常用の入力信号および予備
の入力信号の選択の優先順位を定め、常用の入力信号の
優先順位の第1位と第2位との間に予備の入力信号の優
先順位を挿入してすべての信号の優先順位とし、その優
先順位に基づいて、上位の優先順位の入力信号が正常な
らばその入力信号を選択し、異常ならば下位の優先順位
の入力信号を選択し、出力する待機系付き多数決回路と
いすることも可能である。
この待機系付き多数決回路において、常用の入力信号の
選択の優先順位を、入力選択回路のそれぞれの出力信号
ごとに、たとえば優先順位が、第1出力信号について、 D1、 D2・・・・・・・・・、 DM第2出力信号
について、 D2. D、・・・・・・・・・、DM、Dユ第M出力
信号について、 Dと、D工・・・・・・・・・、DM−8(ただし、D
iは第iの入力信号とする。)となるように、循環させ
て定めることをできる。
上記待機系付き多数決回路において、予備の入力信号の
選択の優先順位を、入力選択回路のすべての出力信号に
ついて、同一に定めてもよい。
本発明はまた、RAMに誤り訂正符号を付加して記憶さ
せたデータを読み出し、誤り訂正後の誤り訂正符号付き
データをRAMに再び書き込む機能を有する耐故障コン
ピュータ・システムの誤り訂正方式として、周期的にま
たは本来の処理の合間の待ち時間に、少なくとも1つの
データを読み込み、誤り訂正後の誤り訂正符号付きデー
タをRAMに再書き込みする方式を提案する。
〔作用〕
本発明においては、各サブシステム1の診断機能2の動
作を診断するためにより単純な構成で信頼度の高い診断
機能3を設け、その診断結果5を用いて1診断結果4の
拡張多数決を採ることにより、正常なサブシステムが1
つだけの場合でも、正しい判断結果40が得られるよう
にする。診断機能2については、従来から用いられてい
るサブシステム相互間でデータを交換し、そのデータを
比較照合することにより、各サブシステムの動作を相互
診断する方法の他に1本発明で提供するそれぞれのサブ
システムにおける自己診断結果をデータとともにサブシ
ステム間で交換し、交換した自己診断結果およびデータ
の一致・不一致により各サブシステムの動作を相互診断
する方法を適用すればよい。また診断機能3については
1本発明で提供する(1)自サブシステムの電源の0N
10FFを見ることにより、当該サブシステムの動作/
不動作を判定する手段、(2)他のサブシステムから正
しい鍵コードを受は取ったかどうかを見ることにより、
他のサブシステムとのデータ交換機能などを診断機能2
のうち主要な機能の正常性を診断する手段の他に、スト
アード・プログラム方式のコンピュータ・システムにお
いては、ウォッチ・ドッグ・タイマによりプロセッサの
動作を監視し、暴走を検出する手段などを用いればよし
)、1 診断機能3は、診断機能2の動作を監視して、その故障
を診断しさえすれば良いので、N単な機能ですみ、故障
も少ない。特に、先に述べたように、診断機能3として
、サブシステムの電源の0F10 F Fをみる方法を
用いれば、極度に単純で故障の少ない診断機能を実現で
き1診断機能2について、信頼度の高い診断結果5が得
られる。
以上のようにして得られた信頼度の高い診断結果5を用
いて、診断機能3による診断結果5の拡張多数決をとる
ことにより、診断結果4よりも信頼度の高い判断結果4
0を得ることができる。しかも拡張多数決の特徴により
、正常なサブシステムの個数が1個の場合でも判断結果
4oを得ることが可能となる。
つまり、正常なサブシステムの個数が1個の場合でも判
断結果40に基づいて473頼度の高い出力信号60を
選択できる。
本発明によれば、以上のようにして(N−1)個までの
サブシステムの故障に耐えられるシステムの構成が可能
となる。
〔実施例〕
以下、図面を参照して、本発明の実施例を具体的に説明
する。
〈システム構成〉 本発明の基本的実施例の構成を第1図に示す。
図において、1はサブシテム、2はその診断機能、3は
診断機能2の診断機能、4は診断機能2の診断結果、5
は診断機能3の診断結果、6はサブシステム1の出力、
10は判定回路、11は出力選択回路または拡張機能付
き多数決回路(MV)。
4oは判定回路10の判定結果、60はMVの出力であ
る。
診断機能2−1〜2−Hについては、ストアード・プロ
グラム方式コンピュータ・システムにおいて、各システ
ム1−1〜1−N間でデータを交換し、そのデータを比
較・照合する従来の方法に加えて、本発明で提供する各
サブシステム1−1〜1−N間でデータバスまたは通信
チャンネルを通じて処理結果または処理途中結果および
自己診断結果7−1〜7−Nを交換し合い、それ゛らを
比較判断する方法を使用できる。
診断機能3−1〜3−Nにおいては、上記診断機能2−
1〜2−Nの動作の正常性を診断する。
本発明では、その方法として (1)電源のON10 F Fを見ることにより、当該
サブシステム全体の動作/不動作を調べる方法。
(2)他のサブシステムから正しい鍵コードを受は取っ
たかどうかを見ることにより、他サブシステムとのデー
タ交換機能などの診断機能2−1〜2−Hの主要な機能
の正常性を調べる方法、などを提供する。(詳細な実施
例については後述する)以上のようにして作成された診
断結果5−1〜5−Nはそれぞれのサブシステムにおけ
る診断機能2−1〜2Nの正常/異常を表すので、通常
は各サブシステムにつきそれぞれ1ビツトのデータとな
る。
判定回路10は、第2図に示すように、診断結果4−1
〜4−N(7)拡張多数決をMvlo−1〜10−Nに
おいて、診断結果5−1〜5−Nを参照し、実行する。
待機系付き多数決を行うためのMVは、第3図のように
スイッチマトリックス18でN個の入力400−1〜4
00−Nから診断結果5−1〜5−NをもとにM個(M
<N)の信号410−1〜410−Mを選択し、M入力
多数決回路15に入力することにより実現される。
なお、診断結果5−1〜5−Nより正常と診断された入
力の数KがMの過半数に達しない場合にも、正常と診断
された入力をそれぞれ複数個ずつ重複して信号410−
1〜410−Mとして出力させることにより、正常サブ
システムの出力が多数決結果420に出力されるように
なる。たとえば、1個のサブシステムだけが正常である
場合、信号410−1〜410−Mは全て、1個の正常
なサブシステムの出力信号と同一の信号となり、多数決
出力420には正常なサブシステムの出力信号が出力さ
れる。
サブシステムの個数が4個の場合のスイッチマトリック
スの論理を第1表に示す。なお、81〜S4はサブシス
テム1−1〜1−4についての診断結果4−に−1〜4
−に−4(1<k<N)である、D1〜D3は信号41
0−1〜410−3を示し、F、S、はフォールト・セ
キュア信号を示す。また木は、Don’t care信
号すなわち、0゜1のいずれでもよいことを示す。
第1の出力信号についての入力信号選択の方法のカルノ
ー・マツプを第2表に表す。このマツプかられかるよう
に、本実施例により簡単な論理で疑似的なスレッショル
ド・ボーティングが可能となり、正常な入力信号が1つ
でもあれば、該入力を選択して出力できる。
しかし、本実施例では、2個の常用の入力信号が異常で
、予備の入力信号が正常である場合、異常となった2個
の入力信号のかわりに予備の入力信号が重複して出力さ
れることを防ぐために、予備の入力信号の選択権を第1
.第2.第3の出力の順に定めた。このために、第2.
第3の出力についての論理が少々複雑となっている。
そこで、同一の入力信号を2個の出力信号として重複し
て出力することを許すと、第3表のような論理となる。
第1の出力についての入力信号選択の方法をカルノー・
マツプで示すと第4表のようになる。この場合、入力信
号選択の優先順位は、第1の出力では、Di、D4.D
2.D3.第2の出力では、D2.D4.D3.Di、
第3の出力では、D3.D4.Di、D2の順に定めで
ある。本実施例により、簡単な論理回路により、疑似的
なスッレッショルド・ボーティングが可能となる。
さて、診断結果4−1−i”N−i (ただし、1 <
 i < N )は診断結果4−1〜4−Nのうちサブ
システム1−iについての診断結果である。つまり、判
定結果の各要素40−1〜40−Nはそれぞれサブシス
テム1−1〜1−Nについての判定結果である。
このようにして得られた判定結果4oは1つでも正常な
サブシステムが存在するかぎりは、その正常なサブシス
テムによる診断結果となり、こρ診断結果を用いて出力
選択回路またはMVによりサブシステム1−1〜1−H
の出力信号のうち正常な1つの出力信号と同一の信号6
0が出力される。
本実施例によれば5以上のようにして(N−1)個まで
のサブシステムの故障に耐えられるシステムの構成が可
能となる。
第4図は、判定回路1oおよび出力選択回路またはMV
IIからなる出力選択部14−1〜14−3を多重化し
て、それぞれの出力60−1〜60−3の多数決回路1
5による多数映出カフ0を最終出力とした実施例である
。図では、3重化した場合について示しているが、多重
度は任意に選択できる。
本実施例では、各サブシステム1−1〜1−Hの診断機
能2−1〜2−Hによる診断結果4−1〜4−Nおよび
診断機能3−1〜3−Hによる診断結果5−1〜5−N
を、3重化した出力選択部14−1〜14−3の判定回
路10に入力し、その判定結果に基づいて出力選択回路
またはMVllにおいて、出力信号6−1〜6−Hのう
ち正しいものと同一の信号60−1〜60−Nを出力し
、多数決回路15において信号6o−1〜60−3の多
数決をとる。
本実施例によれば、判定回路1oおよび出力選択回路ま
たはMVIIの故障によるシステム全体の障害を防ぎ、
システムの耐故障性をさらに高めることができる。
第5図は、診断機能2−1〜2−Nの動作状態の診断機
能3−1〜3−Hにおいて、各サブシステム1−1〜1
−Nの電源16−1〜16−Nの通電状態を診断結果5
−1〜5−Nとした実施例である。本実施例によれば、
診断機能3−1〜3−Nを単純な方法で実現でき、診断
機能3−1〜3−Nの信頼性が高まる。
第6図は、各サブシステム1−1〜1−Nの内部に持た
せた鍵コード8−1〜8−Nを処理結果または処理途中
結果のデータ7−1〜7−Nとともに交換し、故障診断
機能3−1〜3−Nで鍵コード8−1〜8−Nを照合し
、データ交換やソフトウェア全般の動作を診断する実施
例である。なお、鍵コード8−1〜8−Nの照合は、ソ
フトウェアのエラーによる誤動作を防ぐため、ハード的
に行うのが良い。
また、本実施例において、診断結果5−1〜5−Nを正
常ならばHレベル、異常ならばLレベルと定めることに
より、第5図の電g16−1〜16−Nまたは診断機能
3−1〜3−Nの通電状態も考慮に入れたデータとして
出力できる。
これら電源の通電状態を見る方法には、当該サブシステ
ム全体の動作/不動作を調べることのほかに、電源の通
電状態を通じてシステムの操作者の意志を反映させられ
ることに意味がある。たとえば、あるサブシステムの故
障により診断機能2−1〜2−Nの故障を診断機能3−
1〜3−Nで検出できない場合には、操作者の判断によ
り当該サブシステムの電源を遮断すると、当該サブシス
テムの故障(不動作)を診断機能3−1〜3−Nを通じ
て出力させることができる。
第7図は診断機能2−1〜2−Hの実施例である。サブ
システム1−1〜1−Nの間では、各々のサブシステム
における処理結果または処理途中結果のデータ7−1〜
7−Nの他に各々のサブシステムの自己診断結果9−1
〜9−Nを交換し合う。診断機能2−1〜2−Nでは、
交換したデータ7−1〜7−Hの一致/不一致と自己診
断結果9−1〜9−Nのデータ交換の正常/異常とに基
づき、各サブシステム1−1〜1−Nの正常/異常を相
互診断する。本実施例のサブシステムにおける診断の流
れを第8図に示す。
上記診断機能2−1〜2−Nは、システムがハードロジ
ックやアナログ回路よりなっている場合は、ハードウェ
アで実施するが、ストアード・プログラム方式のコンピ
ュータシステムにおいては、ソフトウェア化により実施
が容易となる。この場合のサブシステム1−1〜1−N
のハードウェア構成の例を第9図に示す。プロセッサ1
01がサブシステム全体の動作を司り、メモリ102に
付加したEDCのエンコーダ・デコーダ103がメモリ
102のシングル・イベントによるデータ誤りを検出し
、プロセッサ101に割込み108をかけ、ウォッチ・
ドッグ・タイマ104はプロセッサ101の暴走を検出
し、プロセッサ101にリセット109をかける。プロ
セッサ101では、割込み108がかかった場合には、
割込み処理の際に誤りの発生をバス100を通じてメモ
リ102またはレジスタに記憶し、リセット109がか
かった場合には、システムの立上げの段階でリセットさ
れたことをメモリ102またはレジスタに記憶する。他
のサブシステムとのデータ交換の際には、データ7−1
〜7−Nの他に自己診断結果9−1〜9−Nをインター
フェース回路105を通じて交換する。そこでソフトウ
ェアは、それぞれのサブシステムの正常/異常を診断し
、インターフェース回路106を通じて診断結果4−1
〜4−Nを出力させ、同時に出力5−1〜5−Nもイン
ターフェース107を通じて出力させる。
自己診断機能としては上記のEDCまたはECCやウォ
ッチ・ドッグ・タイマの他に、ソフトウェアにより行な
われるものとして、同一の処理を複数回繰り返したり、
複数のプログラムにより同一の処理を行うソフトウェア
冗長とよばれる方法や、処理結果に処理とは逆の変換を
施して処理前のデータを再現し、実際の処理前のデータ
と比較し、照合する方法などがある。また、処理の合い
間にハードウェアの機能を確認するためのテスト・プロ
グラムを実行し自己診断する方法もある。
通常ECCには、RAMのデータを読込み訂正後のデー
タをRAMに再度書き込む機能を持たせることが多い。
第10図および第11図は、上記のFCCの機能を利用
してなるべく頻繁にRAMのシングルイベントによる誤
りを訂正し、1ビツトの誤りから2ビツト3ビツトの誤
りに発展するのを防止する実施例を示している。
第10図の例はシステムが実行要求されている本来の処
理200のところどころに誤り訂正のためのデータ読込
み処理201を挿入し誤り訂正の頻度を増やしている。
なお、従来は誤り訂正のためのデータ読込処理201が
なかったので、誤りが訂正されるのは本来の処理200
がデータ処理の必要から所定のデータを読込む時だけで
あった。
第11図の例はマルチタスクの場合の実施例である。こ
こでは、本来の処理200が通信同期等により待ちの状
態になった場合に、本来の処理200より優先順位を低
く設定した誤り訂正のためのデータ読込処理201が実
行される。本実施例によれば本来の処理200の待ち時
間202を利用してRAMのデータの誤りを訂正するの
で、コンピュータ・システムの処理速度を低下させずに
誤りを訂正できる。
交換したデータ7−1〜7−N、自己診断結果9−1〜
9−Nによる各サブシステムの診断方法の一例として、
正常にデータ交換できたサブシステムが、A、B、Cの
3つの場合の診断の方法の例を第5表に示す。なお、こ
こで、自己診断結果および診断結果4−A〜4−Bにお
いて、Gは正常、Fは異常を示し、−は判断がつかない
ことを示している。判断がつかない場合は全て異常(F
)と判断すれば、システムのフォールト・セキュア性が
保証される。またデータ交換のできないサブシステムに
ついては、システムダウンにつながる致命的な障害が生
じたとみなして、異常(F)と判断すればよい。データ
照合結果が(A=B=C)の場合相互診断結果が木とな
っているが、これは。
自己診断結果をそのまま出力するものとする。
本実施例によれば、サブシステム間で交換するデータ7
−1〜7−Nの正常性を示す自己診断結果9−1〜9−
Nも交換するので、データ7−1〜7−Nが半々に分か
れた場合でも、各々のサブシステムを診断できる。
本発明を適用できるサブシステムの条件は、(1)診断
機能2−1〜2−N(サブシステム間の相互診断機能) (2)診断機能3−1〜3−N(上記診断機能2−1〜
2−Nの診断機能) をもっているかもつことが可能であることである。
上記2点を満足する。多重化したサブシステムからなる
システムであれば、デジタル、アナログの別を問わず本
発明を適用できる。
第6表に自己診断1診断機能2−1〜2−N。
3−1〜3−Nとして用いる診断の手段の例をまとめて
示す。
なお、本発明においては出力6−1〜6−N。
60.60−1〜60−3.70の形式はシリアルデー
タ、パラレルデータの別を問わない。シリアルデータを
扱うためには多数決回路などを1ビット分、パラレルデ
ータを扱うためにはデータの幅のビット数だけ用意すれ
ばよい。
また、多数決回路としては、上記実施例のみならず1発
明者らが先に特願昭63−37162号として提案した
多数決回路も利用できることは勿論である。
宰=don’t care 第3表 第5表 第6表 〔発明の効果〕 本発明によれば、システムを構成するサブシステム1−
1〜1−Nのうち1つ以上のサブシステムが正常である
ときはシステムの正常動作が保証されるため、システム
の耐故障性、信頼性を高めることができる。
【図面の簡単な説明】
第1図は本発明による耐故障コンピュータ・システムの
一実施例の構成を示すブロック図、第2図は判定回路の
構成の一例を示す図、第3図は拡張機能付き多数決回路
の構成の一例を示す図、第4図は出力選択部を3重化し
た例を示す図、第5図はサブシステムの通電状態を診断
結果とする診断機能の一例を示す図、第6図はサブシス
テム間で交換した鍵コードの照合結果を診断結果とする
診断機能の一例を示す図、第7図は各サブシステム間で
交換したデータの比較・照合結果と自己診断結果とに基
づき各サブシステムとしての診断結果を決定する一例を
示す図、第8図はサブシステムの構成の一例を示す図、
第9図は診断機能をソフトウエアで実現する一例を示す
図、第10および第11図はRAMに記憶したデータの
誤り検出訂正方式を示す図、第12図は従来の耐故障コ
ンピュータ・システムの一例を示す図、第13図は従来
の判定回路の一例を示す図である。 1−1〜1−N・・・サブシステム、 2−1〜2−N・・・サブシステム1の診断機能、3−
1〜3−N・・・診断機能2の診断機能。 4−1〜4−N・・・診断機能2による診断結果、4−
1−i〜4−N−1・・・診断結果4−1〜4−Nのう
ち、ユニット1−iについての診断結果、5−1〜5−
N・・・診断機能3による診断結果、6−1〜6−N・
・・サブシステムの出力、7−1〜7−N・・・処理結
果または処理途中結果および自己診断結果(データとい
う)、 8−1〜8−N・・・鍵コード、 10・・・判定回路。 10−1〜10  N・・・拡張機能付き多数決回路(
MVと略す1判定回路10のサブセット)。 11・・・出力選択回路またはMV、 12・・・5人力多数決回路、 14−1〜14−3・・・出力選択部、15・・・多数
決回路、 16−1・・・サブシステム1−1の電源。 18・・・スイッチマトリクス。 20・・・ラッチ回路。 40・・・判定結果、 4O−i(1≦i 5 N )・・・判定結果40のう
ちユニットl−iについての判定結果、 60.70・・・出力。 9−1〜9−N・・・自己診断結果、 100・・・バス、 101・・・プロセッサ、 102・・・メモリ、 103・・・EDC,ECC。 104・・・ウォッチ・ドッグ・タイマ、105〜10
7・・・インターフェース、108・・・割込み信号。 109・・・11セット信号。 110・・・インターフェース。 200・・・本来の処理。 201・・・誤り訂正のためのデータ読込み処理、20
2・・・OSのオーバーヘッド。

Claims (1)

  1. 【特許請求の範囲】 1、N重化(Nは2以上の整数)されたサブシステムを
    持ち、各サブシステムに相互のサブシステムの動作を診
    断し結果を出力する第1手段を持つ耐故障コンピュータ
    ・システムにおいて、各サブシステムが自サブシステム
    の前記第1手段の動作状態を診断し結果を出力する第2
    手段と、 各サブシステムから第1手段により出力された第1診断
    結果のスレッショルド・ボーティングを行う、または、
    各サブシステムから第2手段により出力された第2診断
    結果をもとに待機系付き多数決を行う第3手段と、 第3手段から得られた第3診断結果をもとに各サブシス
    テムの出力信号の選択、スレッショルド・ボーティング
    、または待機系付き多数決を行う第4手段と、 を備えたことを特徴とする耐故障コンピュータ・システ
    ム。 2、請求項1に記載の耐故障コンピュータ・システムに
    おいて、 自己診断機能および相互診断機能を第2手段により診断
    した結果を用いて、各サブシステムにおける第1手段に
    よる自己診断結果および相互診断結果のスレッショルド
    ・ボーティングまたは待機系付き多数決を採った結果に
    より、正常なサブシステムを選択することを特徴とする
    耐故障コンピュータ・システム。 3、請求項1または2に記載の耐故障コンピュータ・シ
    ステムにおいて、 第1手段が、複数のサブシステム間で各サブシステムに
    おける自己診断結果および処理結果または処理途中結果
    を交換し、 各サブシステムが、交換した処理結果または処理途中結
    果の一致・不一致および各サブシステムの自己診断結果
    に基づき各サブシステムの正常/異常を診断し結果を出
    力する手段であることを特徴とする耐故障コンピュータ
    ・システム。 4、請求項1〜3のいずれかに記載の耐故障コンピュー
    タ・システムにおいて、 第2手段が、自サブシステムの通電状態(ON/OFF
    )を出力する手段であることを特徴とする耐故障コンピ
    ュータ・システム。 5、請求項1〜3のいずれかに記載の耐故障コンピュー
    タ・システムにおいて、 第2手段が、他のサブシステムと鍵コードを交換し、鍵
    コードが正しいかどうかを照合し、照合結果を出力する
    手段であることを特徴とする耐故障コンピュータ・シス
    テム。 6、複数のサブシステムの正常性を診断し結果を出力す
    る第1手段と 自サブシステムにおける第1手段の動作状態を診断し出
    力する第2手段と を持つことを特徴とするサブシステム。 7、第2診断結果をもとに行った第1診断結果のスレッ
    ショルド・ボーティングまたは待機系付き多数決の結果
    をもとに、各サブシステムの出力信号の選択またはスレ
    ッショルド・ボーティングまたは待機系付き多数決を採
    ることを特徴とする出力選択回路。 8、N個の入力信号それぞれの正常/異常を示す信号に
    基づきN個の入力信号の中からM(MはN以下の自然数
    )個の入力信号を選択し出力する信号選択回路と、上記
    M個の信号を入力とする多数決回路とからなる待機系付
    き多数決回路において、 信号選択回路から多数決回路に、 (1)もしNg>M/2ならば、 min(M、Ng)個の正常な入力信号および{M−m
    in(M、Ng)}個のフオールト・セキュア(明らか
    に誤りとわかる信号または安全側の動作を保証する信号
    )信号を出力し、 (2)もし、Ng<M/2ならば、 Ng個の正常な入力信号をそれぞれtrunc(M/N
    g)個ずつ複写した{trunc(M/Ng)・Ng}
    個の正常な信号および{M−trunc(M/Ng)・
    Ng}個のフォールト・セキャア信号を出力し、 (3)もしNg=0ならば、 M個のフォールト・セキュア信号を出力することを特徴
    とする待機系付き多数決回路。 ただし、Ngは正常な入力信号の個数、 min(A、B)はA、Bのうち小さい方、trunc
    (A)はAの整数部。 9、N個の入力信号のそれぞれの正常/異常を示す信号
    に基づき、N個の入力信号からM個の入力信号を選択し
    出力する信号選択回路と、上記M個の信号を入力する多
    数決回路とからなる待機系付き多数決回路において、 N個の入力信号のうちM個の入力信号を常用の入力信号
    と定め、(N−M)個の入力信号を予備(待機系)の入
    力信号と定め、 信号選択回路のそれぞれの出力ごとに、常用の入力信号
    および予備の入力信号の選択の優先順位を定め、常用の
    入力信号の優先順位の第1位と第2位との間に予備の入
    力信号の優先順位を挿入してすべての信号の優先順位と
    し、 前記優先順位に基づいて、上位の優先順位の入力信号が
    正常ならば当該入力信号を選択し、異常ならば下位の優
    先順位の入力信号を選択し、出力することを特徴とする
    待機系付き多数決回路。 10、請求項9に記載の待機系付き多数決回路において
    、 常用の入力信号の選択の優先順位を、 入力選択回路のそれぞれの出力信号ごとに、たとえば優
    先順位が、 第1出力信号について、 D_1、D_2・・・・・・・・・、D_M第2出力信
    号について、 D_2、D_3・・・・・・・・・、D_M、D_1第
    M出力信号について、 D_M、D_1・・・・・・・・・、D_M_−_1(
    ただし、Diは第iの入力信号とする、)となるように
    、循環させて定めることを特徴とする待機系付き多数決
    回路。 11、請求項9に記載の待機系付き多数決回路において
    、 予備の入力信号の選択の優先順位を、入力選択回路のす
    べての出力信号について、同一に定めることを特徴とす
    る待機系付き多数決回路。 12、RAMに誤り訂正符号を付加して記憶させたデー
    タを読み出し、誤り訂正後の誤り訂正符号付きデータを
    RAMに再び書き込む機能を有する耐故障コンピュータ
    ・システムの誤り訂正方式において、 周期的にまたは本来の処理の合間の待ち時間に、少なく
    とも1つのデータを読み込み、誤り訂正後の誤り訂正符
    号付きデータをRAMに再書き込みすることを特徴とす
    る誤り検出訂正方式。
JP63118603A 1988-05-16 1988-05-16 耐故障コンピュータ・システムおよびその内部回路並びに誤り検出訂正方式 Pending JPH01288928A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63118603A JPH01288928A (ja) 1988-05-16 1988-05-16 耐故障コンピュータ・システムおよびその内部回路並びに誤り検出訂正方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63118603A JPH01288928A (ja) 1988-05-16 1988-05-16 耐故障コンピュータ・システムおよびその内部回路並びに誤り検出訂正方式

Publications (1)

Publication Number Publication Date
JPH01288928A true JPH01288928A (ja) 1989-11-21

Family

ID=14740657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63118603A Pending JPH01288928A (ja) 1988-05-16 1988-05-16 耐故障コンピュータ・システムおよびその内部回路並びに誤り検出訂正方式

Country Status (1)

Country Link
JP (1) JPH01288928A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007026194A (ja) * 2005-07-19 2007-02-01 Ishikawajima Harima Heavy Ind Co Ltd 二重系・単一系混在システム
JP2009081750A (ja) * 2007-09-27 2009-04-16 Hitachi Ltd 分散制御システム
JP2010287127A (ja) * 2009-06-12 2010-12-24 Mitsubishi Heavy Ind Ltd 冗長化システム
JP2013101603A (ja) * 2011-10-18 2013-05-23 Nippon Signal Co Ltd:The バス同期2重系コンピュータシステム
US8799707B2 (en) 2011-06-28 2014-08-05 Mitsubishi Heavy Industries, Ltd. Redundant system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007026194A (ja) * 2005-07-19 2007-02-01 Ishikawajima Harima Heavy Ind Co Ltd 二重系・単一系混在システム
JP4552790B2 (ja) * 2005-07-19 2010-09-29 株式会社Ihi 二重系・単一系混在システム
JP2009081750A (ja) * 2007-09-27 2009-04-16 Hitachi Ltd 分散制御システム
JP4491479B2 (ja) * 2007-09-27 2010-06-30 株式会社日立製作所 分散制御システム
JP2010287127A (ja) * 2009-06-12 2010-12-24 Mitsubishi Heavy Ind Ltd 冗長化システム
US8799707B2 (en) 2011-06-28 2014-08-05 Mitsubishi Heavy Industries, Ltd. Redundant system
JP2013101603A (ja) * 2011-10-18 2013-05-23 Nippon Signal Co Ltd:The バス同期2重系コンピュータシステム

Similar Documents

Publication Publication Date Title
RU2585262C2 (ru) Контрольно-вычислительная система, способ управления контрольно-вычислительной системой, а также применение контрольно-вычислительной системы
EP0120384B1 (en) Self-checking computer circuitry
US6513131B1 (en) Logic circuit having error detection function, redundant resource management method, and fault tolerant system using it
Siewiorek Fault tolerance in commercial computers
JP3229070B2 (ja) 多数決回路及び制御ユニット及び多数決用半導体集積回路
EP0273043A1 (en) MULTIPLE-REDUNDANT ERROR DETECTION SYSTEM AND CORRESPONDING APPLICATION METHOD.
US7308566B2 (en) System and method for configuring lockstep mode of a processor module
US10114356B2 (en) Method and apparatus for controlling a physical unit in an automation system
JP2003015900A (ja) 追走型多重化システム、及び追走により信頼性を高めるデータ処理方法
Toy Fault-tolerant computing
JPH01288928A (ja) 耐故障コンピュータ・システムおよびその内部回路並びに誤り検出訂正方式
US20070271486A1 (en) Method and system to detect software faults
Weiherer et al. Software-Based Triple Modular Redundancy with Fault-Tolerant Replicated Voters
JP3235785B2 (ja) 二重化情報処理装置
WO2020214391A1 (en) Multilevel resiliency
Vaidya Low-cost schemes for fault tolerance
KR0130418B1 (ko) 전전자 교환기의 이중화 공통 버스 자원 및 프로세서의 자가 진단 및 복구 방법
JP2000105675A (ja) ディスクアレイ装置
JP2005250577A (ja) コンピュータシステム及び演算処理モジュールの健全性判定方法
JP3395288B2 (ja) 情報処理装置と情報処理方法
JP2017117065A (ja) 情報処理装置、情報処理方法、及びプログラム
Palaniswamy Fault tolerant computers
Takaesu et al. Construction of a fault‐tolerant voter for N‐modular redundancy
JP2629554B2 (ja) 情報処理システム
JP2924732B2 (ja) 情報処理装置の自己診断方法