JPH11296394A - 二重化情報処理装置 - Google Patents

二重化情報処理装置

Info

Publication number
JPH11296394A
JPH11296394A JP10104746A JP10474698A JPH11296394A JP H11296394 A JPH11296394 A JP H11296394A JP 10104746 A JP10104746 A JP 10104746A JP 10474698 A JP10474698 A JP 10474698A JP H11296394 A JPH11296394 A JP H11296394A
Authority
JP
Japan
Prior art keywords
output
information processing
result
fault
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10104746A
Other languages
English (en)
Other versions
JP3235785B2 (ja
Inventor
Akira Kogure
晃 小暮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP10474698A priority Critical patent/JP3235785B2/ja
Publication of JPH11296394A publication Critical patent/JPH11296394A/ja
Application granted granted Critical
Publication of JP3235785B2 publication Critical patent/JP3235785B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

(57)【要約】 【課題】 ハードウェアを二重化した常用冗長コンピュ
ータシステムにおいて、最小限のコスト追加により外乱
要因による過渡フォールトや間欠フォールトへの対策を
提供する。 【解決手段】 第1及び第2の情報処理構成要素11,
21の動作又は出力に不一致があり、いずれの情報処理
構成要素にもフォールトの発生が検出されない場合に、
再実行の後、なお、情報処理構成要素どうしの動作又は
出力に不一致があり、いずれの情報処理構成要素にも、
フォールトの発生が検出されないときに、各情報処理構
成要素毎に、出力結果と上記結果記憶手段13,23に
記憶された不一致結果とを、それぞれ比較することによ
り、該比較結果に応じてシステムの運用構成を決定する
手段と、を有することを特徴とする二重化情報処理装
置。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ハードウェアを二
重化した常用冗長コンピュータシステムに関する。
【0002】
【従来の技術】従来の、ハードウェアを二重化した常用
冗長コンピュータシステムについて、図2を参照して説
明する。
【0003】図2において、同期・比較装置102と同
期・比較装置202は、互いに協調し合い、情報処理構
成要素101と情報処理構成要素201の動作を同期さ
せると共に、情報処理構成要素101と情報処理構成要
素201の動作が一致しているかの比較を行なう。
【0004】また、入出力構成要素104と入出力構成
要素204の出力を、同期・比較装置102と同期・比
較装置202を経由して受け取り、比較の結果が一致し
ていれば、情報処理構成要素101と情報処理構成要素
201に入力する。
【0005】さらに、情報処理構成要素101と情報処
理構成要素201の出力は、比較装置103と比較装置
203を経由して、比較の結果が一致していれば、入出
力構成要素104と入出力構成要素204に入力する。
【0006】もし、情報処理構成要素101と情報処理
構成要素201の動作の一致、または出力の一致を確認
した際に不一致が検出された場合、情報処理構成要素1
01と情報処理構成要素201のどちらか一方でフォー
ルトの発生が検出されていれば、フォールトの発生した
情報処理構成要素を切り離して、縮退運用を行なう。
【0007】フォールトの発生が検出されていなけれ
ば、フォールトの発生個所が特定できない致命的な固定
フォールトが発生したと判断して、その時点で運用を停
止するか、情報処理構成要素101か情報処理構成要素
201のどちらかが正しいと想定し、他方を切り離して
縮退運用を行なう。
【0008】また、もし入出力構成要素104と入出力
構成要素204の出力の一致を確認した際に、不一致が
検出された場合、入出力構成要素104と入出力構成要
素204のどちらか一方でフォールトの発生が検出され
ていれば、フォールトの発生した入出力構成要素を切り
離して縮退運用を行なう。フォールトの発生が検出され
ていなければ、入出力処理の再実行を行なう。
【0009】最初の再実行で、入出力構成要素104と
入出力構成要素204の出力の一致が確認されれば、フ
ォールトは外乱要因による過渡的なものと判断し、その
まま処理を継続する。
【0010】しかし、再度、不一致が検出された場合に
は、フォールトの発生個所が特定できない致命的な固定
フォールトが発生したと判断して、その時点で運用を停
止するか、入出力構成要素104か入出力構成要素20
4のどちらかが正しいと想定し、他方を切り離して縮退
運用を行なう。
【0011】また、特開平4−71037号公報、及び
特開平4−71038号公報には、2つのCPUの出力
データの各々に不一致があった場合に、リトライ処理を
所定回行なうようにした電子計算機の二重化方式が開示
されている。具体的には、データ再送のリトライ、タス
クレベルでのリトライ、及びOSによるテストプログラ
ム実行を逐次行なわせている。
【0012】また、特開平9−55797号公報には、
障害解析自動診断処理方法として、運用系と待機系とか
らなる二重化装置に関するものが開示され、障害が発生
した1つの装置内において、障害箇所の特定を行なって
いる。
【0013】
【発明が解決しようとする課題】しかしながら、従来の
ハードウェアを二重化した常用冗長コンピュータシステ
ムにおいては、次のような課題がある。
【0014】第1の課題は、ハードウェアの二重化以外
の冗長手段を持たない為、フォールトの発生個所が特定
できなければ、外乱要因による過渡フォールトや、ハー
ドウェア故障と外乱要因の複合条件により発生する間欠
フォールトを、無条件に致命的なフォールトとして扱わ
ざるを得ないことである。
【0015】近年は、半導体の集積度向上、動作電圧の
低下、動作周波数の向上、携帯電話やモバイル機器の普
及など、外乱要因による過渡フォールトや間欠フォール
トの発生する確率が増加してきており、何らかの対策を
講じる必要があった。 第2の課題は、三重化以上のハ
ードウェアで、常用冗長コンピュータシステムを構成す
れば、第1の課題は解決できるものの、どうしても大幅
なコストの上昇が避けられないということである。
【0016】フォールトの発生個所を特定する技術は、
年々進歩してきており、フォールトの発生個所を特定す
る為だけに高価な三重化以上のハードウェアを装備する
ことは、価格を度外視して信頼性を重視するニッチな用
途向けとなりつつある。
【0017】また、特開平4−71037号公報、及び
特開平4−71038号公報には、2つのCPUの出力
データの各々に不一致があった場合に、リトライ処理を
所定回行なうようにした電子計算機の二重化方式が開示
されているに過ぎない。
【0018】また、特開平9−55797号公報には、
障害解析自動診断処理方法として、運用系と待機系とか
らなる二重化装置に関するものが開示され、障害が発生
した1つの装置内において、障害箇所の特定を行なって
いるに過ぎない。
【0019】[発明の目的]本発明の目的は、ハードウ
ェアを二重化した常用冗長コンピュータシステムにおい
て、最小限のコスト追加により外乱要因による過渡フォ
ールトや間欠フォールトへの対策を提供することにあ
る。
【0020】
【課題を解決するための手段】本発明は、上記課題を解
決するための手段として、ハードウェアを二重化した常
用冗長コンピュータシステムにおいて、第1及び第2の
情報処理構成要素の動作又は出力に不一致があり、いず
れの情報処理構成要素にもフォールトの発生が検出され
ない場合に、上記不一致が発生した結果を、それぞれ、
対応する情報処理構成要素において記憶しておくための
結果記憶手段と、再実行の後、なお、第1及び第2の情
報処理構成要素の動作又は出力に不一致があり、いずれ
の情報処理構成要素にも、フォールトの発生が検出され
ないときに、各情報処理構成要素毎に、出力結果と上記
結果記憶手段に記憶された不一致結果とを、それぞれ比
較する手段と、該比較結果に応じてシステムの運用構成
を決定する手段と、を有することを特徴とする二重化情
報処理装置を提供するものである。
【0021】また、ハードウェアを二重化した常用冗長
コンピュータシステムにおいて、第1及び第2の入出力
構成要素の動作又は出力に不一致があり、いずれの入出
力構成要素にもフォールトの発生が検出されない場合
に、上記不一致が発生した結果を、それぞれ、対応する
入出力構成要素において記憶しておくための結果記憶手
段と、再実行の後、なお、第1及び第2の入出力構成要
素の動作又は出力に不一致があり、いずれの入出力構成
要素にも、フォールトの発生が検出されないときに、各
入出力構成要素毎に、出力結果と上記結果記憶手段に記
憶された不一致結果とを、それぞれ比較する手段と、該
比較結果に応じてシステムの運用構成を決定する手段
と、を有することを特徴とする二重化情報処理装置でも
ある。
【0022】また、上記情報処理構成要素と上記入出力
構成要素との両方を有することを特徴とする二重化情報
処理装置でもある。
【0023】また、ハードウェアを二重化した常用冗長
コンピュータシステムにおいて、二重化された情報処理
構成要素(11,21)を有し、前記情報処理構成要素
(11,21)は、それぞれ、該情報処理構成要素(1
1,21)どうしの動作の一致、または出力の一致を比
較する手段(14,24)と、該情報処理構成要素どう
し(11,21)の動作の一致、または出力の一致が確
認された状態と、確認される前の状態との差分情報を記
憶しておく差分記憶装置(12,22)と、該情報処理
構成要素(11,21)の動作結果、又は出力結果を記
憶しておくための結果記憶装置(13,23)と、該情
報処理構成要素(11,21)どうしの動作の不一致、
または出力の不一致を検出した場合に、前記差分記憶装
置(12,22)の情報を元に、それぞれの前記情報処
理構成要素(11,21)を、前記不一致が検出される
前の状態に戻し、複数回の再実行を行なう手段と、それ
ぞれの前記情報処理構成要素(11,21)内におい
て、前記再実行後の結果と再実行前の結果とを比較する
手段と、該比較結果に応じてシステムの運用構成を決定
する手段と、を有することを特徴とする二重化情報処理
装置でもある。
【0024】また、前記比較結果に応じてシステムの運
用構成を決定する手段は、前記比較の結果、前記情報処
理構成要素(11,21)どうしの動作の不一致、また
は出力の不一致を検出した場合に、それぞれの該情報処
理構成要素(11,21)のどちらか一方でフォールト
の発生が検出されていれば、フォールトの発生した情報
処理要素を切り離して縮退運用を行ない、フォールトの
発生が検出されていなければ、それぞれの前記結果記憶
装置(13,23)に、それぞれの情報処理構成要素
(11,21)の状態を記憶した後、それぞれの差分記
憶装置(12,22)の情報を元に、前記不一致が検出
される前の状態に戻し、複数回の再実行を行なう手段
と、最初の再実行で、前記情報処理構成要素(11,2
1)どうしの動作の一致、または出力の一致が確認され
れば、フォールトは、外乱要因による過渡的なものと判
断し、そのまま処理を継続し、最初の再実行で、再度、
不一致が検出された場合には、それぞれの情報処理構成
要素(11,21)の出力結果と、それぞれの結果記憶
装置(13,23)に記憶されていた出力結果との比較
を行なう手段と、該比較の結果、それぞれの前記情報処
理構成要素(11,21)の一方が一致して、他方が一
致していなければ、一致していない方の情報処理構成要
素を切り離して縮退運用を行ない、両方とも不一致であ
れば、二重の固定的または間欠的なフォールトが発生し
たと判断し、その時点で運用を停止し、両方とも一致し
ていれば、指定された回数だけ再実行を繰り返し、全て
の再実行において、該情報処理構成要素(11,21)
どうしの出力結果に不一致があり、かつ、該出力結果
が、それぞれの結果記憶装置(13,23)に記憶され
た結果と一致していれば、フォールトの発生個所が特定
できない致命的な固定フォールトが発生したと判断し、
その時点で運用を停止する手段と、を有することを特徴
とする二重化情報処理装置でもある。
【0025】更にまた、ハードウェアを二重化した常用
冗長コンピュータシステムにおいて、二重化された入出
力構成要素(16,26)を有し、それぞれの前記入出
力構成要素(16,26)どうしの出力の一致を比較す
る手段(15,25)と、該入出力構成要素(16,2
6)の出力結果を記憶しておくための結果記憶装置(3
1,41)と、前記比較結果に応じてシステムの運用構
成を決定する手段と、を有することを特徴とする二重化
情報処理装置でもある。
【0026】また、前記比較結果に応じてシステムの運
用構成を決定する手段は、前記比較の結果、入出力構成
要素(16,26)の出力の不一致が検出された場合、
入出力構成要素(16,26)のどちらか一方でフォー
ルトの発生が検出されていれば、フォールトの発生した
入出力構成要素を切り離して縮退運用を行ない、フォー
ルトの発生が検出されていなければ、それぞれの前記結
果記憶装置(31,41)に、入出力構成要素(16,
26)の出力を記憶した後、入出力処理の複数回の再実
行を行ない、最初の再実行で、入出力構成要素(16,
26)の出力の一致が確認されれば、フォールトは、過
渡的なものと判断し、そのまま処理を継続し、再度、不
一致が検出された場合には、それぞれの入出力構成要素
(16)の出力結果と結果記憶装置(31)に記憶して
おいた結果とで、比較を行ない、入出力構成要素(1
6,26)の一方が一致して、他方が一致していなけれ
ば、一致していない方の入出力構成要素を切り離して縮
退運用を行ない、両方とも不一致であれば、原理的に二
重化常用冗長コンピュータシステムでは対処できない二
重の固定的または間欠的なフォールトが発生したと判断
し、その時点で運用を停止し、両方とも一致していれ
ば、指定された回数だけ再実行を繰り返し、全ての再実
行において、入出力構成要素どうしに不一致があり、か
つ結果記憶装置とも一致していれば、フォールトの発生
個所が特定できない致命的な固定フォールトが発生した
と判断し、その時点で運用を停止する手段と、を有する
ことを特徴とする二重化情報処理装置でもある。
【0027】また、前記フォールトの発生箇所が特定で
きない場合に限り、前記再実行を行なう、ことを特徴と
した二重化情報処理装置でもある。
【0028】[作用]本発明によれば、ハードウェアを
二重化した常用冗長コンピュータシステムにおいて、情
報処理構成要素または入出力構成要素のどちらか、もし
くは両方に複数回の再実行と再実行前の結果との比較を
可能とする構成を装備し、フォールトの発生個所が特定
できない出力の不一致が生じた場合、複数回の再実行(
時間冗長) を行なうことにより、フォールトの発生個所
を特定可能とし、より高い信頼性のコンピュータシステ
ムを実現することができる。
【0029】すなわち、本発明では、差分記憶装置12
と差分記憶装置22、結果記憶装置13と結果記憶装置
23により、情報処理構成要素11と情報処理構成要素
21に不一致が発生した場合の再実行後の結果と、再実
行前の結果との比較を可能としている。
【0030】また、結果記憶装置31と結果記憶装置4
1により、入出力構成要素16と入出力構成要素26に
不一致が発生して再実行を行なった場合、再実行後の結
果と再実行前の結果との比較を可能としている。
【0031】この再実行と再実行前の結果との比較を可
能とすることにより、従来のハードウェアを二重化した
常用冗長コンピュータシステムでは対処できなかった、
フォールト発生個所の特定できない外乱要因による過渡
フォールト、及びハードウェア故障と外乱要因の複合条
件により発生する間欠フォールトの一部についても対応
可能となり、より信頼性の高いコンピュータシステムを
実現することができる。
【0032】また、フォールトの発生個所が特定できな
い場合に、複数回の再実行( 時間冗長) を行なうこと
で、外乱要因による過渡フォールトについては、ほとん
どの場合において、フォールトの発生個所を特定するこ
とが可能となり、縮退による継続運用が可能となる。
【0033】また、ハードウェア故障と外乱要因の複合
条件により発生する間欠フォールトについても、発生個
所を特定できるケースがあり、信頼性の向上に大きく貢
献する。
【0034】また、フォールトの発生個所が特定できな
い場合に限り、再実行( 時間冗長)を行なう為、三重化
以上のハードウェア冗長を行なう場合と比較して、明ら
かに製造コストを低く押さえることが可能となる。
【0035】また、再実行(時間冗長)による性能低下
も、必要最小限に押さえることができる。
【0036】
【発明の実施の形態】図1は、本発明の構成を示す模式
的構成図である。
【0037】図1において、同期・比較装置14と同期
・比較装置24は、互いに協調し合い、情報処理構成要
素11と情報処理構成要素21の動作を同期させると共
に、情報処理構成要素11と情報処理構成要素21の動
作が一致しているかの比較を行なう。
【0038】また、入出力構成要素16と入出力構成要
素26の出力は、同期・比較装置14と同期・比較装置
24を経由して、比較の結果が一致していれば、情報処
理構成要素11と情報処理構成要素21に入力する。
【0039】さらに、情報処理構成要素11と情報処理
構成要素21の出力は、比較装置15と比較装置25を
経由して、比較の結果が一致していれば、入出力構成要
素16と入出力構成要素26に入力する。
【0040】差分記憶装置12と差分記憶装置22は、
それぞれ情報処理構成要素11と情報処理構成要素21
の動作の一致、または出力の一致が確認された状態と、
確認される前の状態との差分情報を記憶している。
【0041】もし、情報処理構成要素11と情報処理構
成要素21の動作の一致、または出力の一致を検証した
際に、不一致が検出された場合、情報処理構成要素11
と情報処理構成要素21のどちらか一方でフォールトの
発生が検出されていれば、フォールトの発生した情報処
理要素を切り離して縮退運用を行なう。
【0042】フォールトの発生が検出されていなけれ
ば、結果記憶装置13と結果記憶装置23に情報処理構
成要素11と情報処理構成要素21の状態を記憶した
後、差分記憶装置12と差分記憶装置22の情報を元
に、情報処理構成要素11と情報処理構成要素21を動
作の一致、または出力の一致が確認される前の状態に戻
し、複数回の再実行を行なう。
【0043】最初の再実行で、情報処理構成要素11と
情報処理構成要素21の動作の一致、または出力の一致
が確認されれば、フォールトは外乱要因による過渡的な
ものと判断し、そのまま処理を継続する。
【0044】しかし、再度、不一致が検出された場合に
は、それぞれ、情報処理構成要素11と結果記憶装置1
3、情報処理構成要素21と結果記憶装置23で比較を
行ない、情報処理構成要素11と情報処理構成要素21
の一方が一致して、他方が一致していなければ、一致し
ていない方の情報処理構成要素を切り離して縮退運用を
行なう。
【0045】両方とも不一致であれば、二重の固定的ま
たは間欠的なフォールトが発生したと判断し、その時点
で運用を停止する。
【0046】両方とも一致していれば、指定された回数
だけ再実行を繰り返し、全ての再実行において、情報処
理構成要素11と情報処理構成要素21に不一致があ
り、かつ結果記憶装置とも一致していれば、フォールト
の発生個所が特定できない致命的な固定フォールトが発
生したと判断し、その時点で運用を停止する。 また、
もし入出力構成要素16と入出力構成要素26の出力の
一致を検証した際に、不一致が検出された場合、入出力
構成要素16と入出力構成要素のどちらか一方でフォー
ルトの発生が検出されていれば、フォールトの発生した
入出力構成要素を切り離して縮退運用を行なう。
【0047】フォールトの発生が検出されていなけれ
ば、結果記憶装置31と結果記憶装置41に、入出力構
成要素16と入出力構成要素26の状態を記憶した後、
入出力処理の複数回の再実行を行なう。
【0048】最初の再実行で、入出力構成要素16と入
出力構成要素26の出力の一致が確認されれば、フォー
ルトは外乱要因による過渡的なものと判断し、そのまま
処理を継続する。
【0049】しかし、再度、不一致が検出された場合に
は、それぞれ、入出力構成要素16と結果記憶装置3
1、入出力構成要素26と結果記憶装置41で比較を行
ない、入出力構成要素16と入出力構成要素26の一方
が一致して、他方が一致していなければ、一致していな
い方の入出力構成要素を切り離して縮退運用を行なう。
【0050】両方とも不一致であれば、二重の固定的ま
たは間欠的なフォールトが発生したと判断し、その時点
で運用を停止する。
【0051】両方とも一致していれば、指定された回数
だけ再実行を繰り返し、全ての再実行において、入出力
構成要素16と入出力構成要素26に不一致があり、か
つ結果記憶装置とも一致していれば、フォールトの発生
個所が特定できない致命的な固定フォールトが発生した
と判断し、その時点で運用を停止する。
【0052】このようにして、本願発明では、差分記憶
装置12と差分記憶装置22、結果記憶装置13と結果
記憶装置23により、情報処理構成要素11と情報処理
構成要素21に不一致が発生した場合の再実行後の結果
と、再実行前の結果との比較を可能としている。
【0053】また、結果記憶装置31と結果記憶装置4
1により、入出力構成要素16と入出力構成要素26に
不一致が発生して再実行を行なった場合、再実行後の結
果と再実行前の結果との比較を可能としている。
【0054】この再実行と再実行前の結果との比較を可
能とすることにより、従来のハードウェアを二重化した
常用冗長コンピュータシステムでは対処できなかった、
フォールト発生個所の特定できない外乱要因による過渡
フォールト、及びハードウェア故障と外乱要因の複合条
件により発生する間欠フォールトの一部についても対応
可能となり、より信頼性の高いコンピュータシステムを
実現することができる。
【0055】
【実施例】以下、本発明の実施例について説明する。
【0056】[構成の説明]図3を参照すると、本発明
の一実施例としての二重化常用冗長コンピュータシステ
ムが示されている。
【0057】図3において、同期・比較装置14と同期
・比較装置24は、互いに協調し合い、複数のCPU とメ
モリにて構成される情報処理構成要素11と情報処理構
成要素21の動作を、システムクロックまたは入出力割
込みや、タイマー割込み、ソフトウェアのブレークポイ
ントなどにより同期させると共に、情報処理構成要素1
1と情報処理構成要素21の動作が一致しているかの比
較を行なう。
【0058】また、ディスクやネットワークなどで構成
される入出力構成要素16と入出力構成要素26の出力
は、同期・比較装置14と同期・比較装置24を経由し
て受け取られ、比較の結果が一致していれば、情報処理
構成要素11と情報処理構成要素21に入力する。
【0059】さらに、情報処理構成要素11と情報処理
構成要素21の出力は、比較装置15と比較装置25を
経由して、比較の結果が一致していれば、入出力構成要
素16と入出力構成要素26に入力する。
【0060】差分記憶装置12と差分記憶装置22は、
それぞれ情報処理構成要素11と情報処理構成要素21
の動作の一致、または出力の一致が確認された状態と、
確認される前の状態との差分情報を記憶している。
【0061】もし、情報処理構成要素11と情報処理構
成要素21の動作の一致、または、出力の一致を検証し
た際に、不一致が検出された場合、情報処理構成要素1
1と情報処理構成要素21のどちらか一方でフォールト
の発生が検出されていれば、フォールトの発生した情報
処理構成要素を切り離して縮退運用を行なう。
【0062】フォールトの発生が検出されていなけれ
ば、結果記憶装置13と結果記憶装置23に情報処理構
成要素11と情報処理構成要素21の状態を記憶した
後、差分記憶装置12と差分記憶装置22の情報を元
に、情報処理構成要素11と情報処理構成要素21を、
動作の一致、または出力の一致が確認される前の状態に
戻し、複数回の再実行を行なう。
【0063】最初の再実行で、情報処理構成要素11と
情報処理構成要素21の動作の一致、または出力の一致
が確認されれば、フォールトは、放射線や電磁ノイズな
どの外乱要因による過渡的なものと判断し、そのまま処
理を継続する。
【0064】しかし、再度、不一致が検出された場合に
は、それぞれ、情報処理構成要素11の出力結果と結果
記憶装置13に記憶されている結果、情報処理構成要素
21の出力結果と結果記憶装置23に記憶されている結
果とで比較を行ない、情報処理構成要素11と情報処理
構成要素21の一方が一致して、他方が一致していなけ
れば、一致していない方の情報処理構成要素を切り離し
て縮退運用を行なう。
【0065】両方とも不一致であれば、原理的に二重化
常用冗長コンピュータシステムでは対処できない二重の
固定的または間欠的なフォールトが発生したと判断し、
その時点で運用を停止する。
【0066】両方とも一致していれば、指定された回数
だけ再実行を繰り返し、全ての再実行において、情報処
理構成要素11と情報処理構成要素21に不一致があ
り、かつ結果記憶装置とも一致していれば、フォールト
の発生個所が特定できない致命的な固定フォールトが発
生したと判断し、その時点で運用を停止する。 切り離
された情報処理構成要素11または情報処理構成要素2
1は、診断および修理を行って正常であることを確認し
た後、システムに組み込まれる。この際には、正常動作
している情報処理構成要素11または情報処理構成要素
21の状態を、組み込まれた情報処理構成要素11また
は情報処理構成要素21にコピーした後、再度、同期・
比較装置14と同期・比較装置24の動作を同期させ、
冗長化された正常運用状態に移行する。
【0067】また、もし、入出力構成要素16と入出力
構成要素26の出力の一致を検証した際に、不一致が検
出された場合、入出力構成要素16と入出力構成要素2
6のどちらか一方でフォールトの発生が検出されていれ
ば、フォールトの発生した入出力構成要素を切り離して
縮退運用を行なう。
【0068】フォールトの発生が検出されていなけれ
ば、結果記憶装置31と結果記憶装置41に入出力構成
要素16と入出力構成要素26の状態を記憶した後、入
出力処理の複数回の再実行を行なう。
【0069】最初の再実行で、入出力構成要素16と入
出力構成要素26の出力の一致が確認されれば、フォー
ルトは、放射線や電磁ノイズなどの外乱要因による過渡
的なものと判断し、そのまま処理を継続する。
【0070】しかし、再度、不一致が検出された場合に
は、それぞれ、入出力構成要素16と結果記憶装置3
1、入出力構成要素26と結果記憶装置41で比較を行
ない、入出力構成要素16と入出力構成要素26の一方
が一致して、他方が一致していなければ、一致していな
い方の入出力構成要素を切り離して縮退運用を行なう。
【0071】両方とも不一致であれば、原理的に二重化
常用冗長コンピュータシステムでは対処できない二重の
固定的または間欠的なフォールトが発生したと判断し、
その時点で運用を停止する。
【0072】両方とも一致していれば、指定された回数
だけ再実行を繰り返し、全ての再実行において入出力構
成要素16と入出力構成要素26に不一致があり、か
つ、それぞれの結果記憶装置31,41とも一致してい
れば、フォールトの発生個所が特定できない致命的な固
定フォールトが発生したと判断し、その時点で運用を停
止する。
【0073】切り離された入出力構成要素16と入出力
構成要素26は、診断および修理を行って正常であるこ
とを確認した後、システムに組み込まれる。この際に
は、正常動作している入出力構成要素16と入出力構成
要素26の状態や、ディスクのデータを、プライベート
LANなどを介して組み込まれた情報処理構成要素11ま
たは情報処理構成要素21にコピーすることで、冗長化
された正常運用状態に移行する。
【0074】[動作の説明]次に、図3の二重化常用冗
長コンピュータシステムの動作を、図4、図5に示すフ
ローチャートを使用して説明する。
【0075】図4において、通常実行を行なうと共に、
差分記憶装置に前回の同期処理の時点からの差分情報を
記憶する。
【0076】次に同期処理を行ない、情報処理構成要素
11,21の動作の一致、または出力の一致を検証す
る。
【0077】一致を確認した場合、引続き、通常実行を
行なう。不一致を確認した場合、次に、情報処理構成要
素11,21のフォールト発生有無を検証し、一方の情
報処理構成要素でフォールト発生を検出した場合、該当
する情報処理構成要素を切り離して縮退運転に入る。
【0078】フォールトが発生していないことを確認し
た場合、結果記憶装置13,23に不一致が発生してい
る結果を記憶し、再実行回数カウンタ17,27を0か
ら1に変更する。
【0079】次に、差分記憶装置のデータを元に、情報
処理構成要素11,21を前回の同期処理の時点の状態
に戻し、再実行回数カウンタが、規定数( この場合は2
とする) を超えていないことを確認後、図5のにある
通り、再実行を行なう。
【0080】次に、同期処理を行ない、情報処理構成要
素11,21の動作の一致、または出力の一致を検証す
る。一致を確認した場合、再実行回数カウンタの値を0
にして、図4のにある通り、通常実行に戻る。
【0081】不一致を確認した場合、次に、情報処理構
成要素11,21のフォールト発生有無を検証し、一方
の情報処理構成要素でフォールト発生を検出した場合、
該当する情報処理構成要素を切り離して縮退運転に入
る。
【0082】フォールトが発生していないことを確認し
た場合、情報処理構成要素11の出力結果と結果記憶装
置13に記憶していた結果、情報処理構成要素21の出
力結果と結果記憶装置23に記憶していた結果につい
て、動作の一致、または出力の一致を検証し、一方の情
報処理構成要素で結果記憶装置との不一致を検出した場
合、該当する情報処理構成要素を切り離して縮退運転に
入る。一致を確認した場合、再実行回数カウンタ17,
27を1から2に変更する。
【0083】次に、差分記憶装置のデータを元に、情報
処理構成要素11,21を前回の同期処理の時点の状態
に戻し、再実行回数カウンタが、規定数( この場合は2
とする) に達したことを確認後、運用を停止する。
【0084】入出力構成要素16,26についても、基
本動作は上記の情報処理構成要素11,21と同様であ
るが、同期処理は行わず、一定時間待ち合わせた後に出
力の一致を検証する。
【0085】一致を確認した場合、引続き、通常実行を
行なう。不一致を確認した場合、次に、入出力構成要素
16,26のフォールト発生有無を検証し、一方の入出
力構成要素でフォールト発生を検出した場合、該当する
入出力構成要素を切り離して縮退運転に入る。一定時間
待ち合わせて出力が無い場合にもフォールト発生とみな
す。
【0086】フォールトが発生していないことを確認し
た場合、結果記憶装置31,41に不一致が発生してい
る結果を記憶し、再実行回数カウンタ32,42を0か
ら1に変更する。
【0087】次に、再実行回数カウンタが、規定数( こ
の場合は2とする) を超えていないことを確認後、入出
力処理の再実行を行なう。
【0088】次に、一定時間待ち合わせた後に入出力構
成要素16,26の出力の一致を検証する。一致を確認
した場合、再実行回数カウンタの値を0にして、通常実
行に戻る。
【0089】不一致を確認した場合、次に、入出力構成
要素16,26のフォールト発生有無を検証し、一方の
入出力構成要素でフォールト発生を検出した場合、該当
する入出力構成要素を切り離して縮退運転に入る。
【0090】フォールトが発生していないことを確認し
た場合、入出力構成要素16の出力結果と結果記憶装置
31に記憶していた結果、入出力構成要素26の出力結
果と結果記憶装置41に記憶していた結果について、出
力の一致を検証し、一方の入出力構成要素で結果記憶装
置との不一致を検出した場合、該当する入出力構成要素
を切り離して縮退運転に入る。一致を確認した場合、再
実行回数カウンタ32,42を1から2に変更する。
【0091】次に、入出力処理の再実行を行い、再実行
回数カウンタが、規定数( この場合は2とする) に達し
たことを確認後、運用を停止する。
【0092】
【発明の効果】以上説明したように、本発明において
は、以下に記載するような効果を奏する。
【0093】第1の効果は、従来のハードウェアを二重
化した常用冗長コンピュータシステムと比較して、フォ
ールトの発生個所が特定できない場合に、複数回の再実
行(時間冗長) を行なうことで、外乱要因による過渡フ
ォールトについては、ほとんどの場合において、フォー
ルトの発生個所を特定することが可能となり、縮退によ
る継続運用が可能となる。
【0094】また、ハードウェア故障と外乱要因の複合
条件により発生する間欠フォールトについても、発生個
所を特定できるケースがあり、信頼性の向上に大きく貢
献することである。
【0095】第2の効果は、ハードウェアを二重化した
常用冗長コンピュータシステムにおいて、フォールトの
発生個所が特定できない場合に限り、再実行( 時間冗
長) を行なう為、三重化以上のハードウェア冗長を行な
う場合と比較して、明らかに製造コストを低く押さえる
ことが可能となる。
【0096】また、再実行(時間冗長)による性能低下
も、必要最小限に押さえることができる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す模式的構成図であ
る。
【図2】従来例の構成を示す模式的構成図である。
【図3】本発明の実施例の構成を示す模式的構成図であ
る。
【図4】本発明の実施例の動作を示すフローチャートで
ある。
【図5】本発明の実施例の動作を示すフローチャートで
ある。
【符号の説明】
11,21 情報処理構成要素 12,22 差分記憶装置 13,23 結果記憶装置 14,24 同期・比較装置 15,25 比較装置 16,26 入出力構成要素 17,27,32,42 再実行回数カウンタ 31,41 結果記憶装置

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 ハードウェアを二重化した常用冗長コン
    ピュータシステムにおいて、 第1及び第2の情報処理構成要素の動作又は出力に不一
    致があり、いずれの情報処理構成要素にもフォールトの
    発生が検出されない場合に、 上記不一致が発生した結果を、それぞれ、対応する情報
    処理構成要素において記憶しておくための結果記憶手段
    と、 再実行の後、なお、第1及び第2の情報処理構成要素の
    動作又は出力に不一致があり、いずれの情報処理構成要
    素にも、フォールトの発生が検出されないときに、各情
    報処理構成要素毎に、出力結果と上記結果記憶手段に記
    憶された不一致結果とを、それぞれ比較する手段と、 該比較結果に応じてシステムの運用構成を決定する手段
    と、を有することを特徴とする二重化情報処理装置。
  2. 【請求項2】 ハードウェアを二重化した常用冗長コン
    ピュータシステムにおいて、 第1及び第2の入出力構成要素の動作又は出力に不一致
    があり、いずれの入出力構成要素にもフォールトの発生
    が検出されない場合に、 上記不一致が発生した結果を、それぞれ、対応する入出
    力構成要素において記憶しておくための結果記憶手段
    と、 再実行の後、なお、第1及び第2の入出力構成要素の動
    作又は出力に不一致があり、いずれの入出力構成要素に
    も、フォールトの発生が検出されないときに、各入出力
    構成要素毎に、出力結果と上記結果記憶手段に記憶され
    た不一致結果とを、それぞれ比較する手段と、 該比較結果に応じてシステムの運用構成を決定する手段
    と、を有することを特徴とする二重化情報処理装置。
  3. 【請求項3】 請求項2記載の入出力構成要素を有する
    ことを特徴とする請求項1記載の二重化情報処理装置。
  4. 【請求項4】 ハードウェアを二重化した常用冗長コン
    ピュータシステムにおいて、 二重化された情報処理構成要素(11,21)を有し、 前記情報処理構成要素(11,21)は、それぞれ、該
    情報処理構成要素(11,21)どうしの動作の一致、
    または出力の一致を比較する手段(14,24)と、 該情報処理構成要素どうし(11,21)の動作の一
    致、または出力の一致が確認された状態と、確認される
    前の状態との差分情報を記憶しておく差分記憶装置(1
    2,22)と、 該情報処理構成要素(11,21)の動作結果、又は出
    力結果を記憶しておくための結果記憶装置(13,2
    3)と、 該情報処理構成要素(11,21)どうしの動作の不一
    致、または出力の不一致を検出した場合に、 前記差分記憶装置(12,22)の情報を元に、それぞ
    れの前記情報処理構成要素(11,21)を、前記不一
    致が検出される前の状態に戻し、複数回の再実行を行な
    う手段と、 それぞれの前記情報処理構成要素(11,21)内にお
    いて、前記再実行後の結果と再実行前の結果とを比較す
    る手段と、 該比較結果に応じてシステムの運用構成を決定する手段
    と、を有することを特徴とする請求項1記載の二重化情
    報処理装置。
  5. 【請求項5】 前記比較結果に応じてシステムの運用構
    成を決定する手段は、 前記比較の結果、前記情報処理構成要素(11,21)
    どうしの動作の不一致、または出力の不一致を検出した
    場合に、 それぞれの該情報処理構成要素(11,21)のどちら
    か一方でフォールトの発生が検出されていれば、フォー
    ルトの発生した情報処理要素を切り離して縮退運用を行
    ない、 フォールトの発生が検出されていなければ、それぞれの
    前記結果記憶装置(13,23)に、それぞれの情報処
    理構成要素(11,21)の状態を記憶した後、それぞ
    れの差分記憶装置(12,22)の情報を元に、前記不
    一致が検出される前の状態に戻し、複数回の再実行を行
    なう手段と、 最初の再実行で、前記情報処理構成要素(11,21)
    どうしの動作の一致、または出力の一致が確認されれ
    ば、フォールトは、外乱要因による過渡的なものと判断
    し、そのまま処理を継続し、 最初の再実行で、再度、不一致が検出された場合には、
    それぞれの情報処理構成要素(11,21)の出力結果
    と、それぞれの結果記憶装置(13,23)に記憶され
    ていた出力結果との比較を行なう手段と、 該比較の結果、それぞれの前記情報処理構成要素(1
    1,21)の一方が一致して、他方が一致していなけれ
    ば、一致していない方の情報処理構成要素を切り離して
    縮退運用を行ない、 両方とも不一致であれば、二重の固定的または間欠的な
    フォールトが発生したと判断し、その時点で運用を停止
    し、 両方とも一致していれば、指定された回数だけ再実行を
    繰り返し、全ての再実行において、該情報処理構成要素
    (11,21)どうしの出力結果に不一致があり、か
    つ、該出力結果が、それぞれの結果記憶装置(13,2
    3)に記憶された結果と一致していれば、フォールトの
    発生個所が特定できない致命的な固定フォールトが発生
    したと判断し、その時点で運用を停止する手段と、を有
    することを特徴とする請求項4記載の二重化情報処理装
    置。
  6. 【請求項6】 ハードウェアを二重化した常用冗長コン
    ピュータシステムにおいて、 二重化された入出力構成要素(16,26)を有し、 それぞれの前記入出力構成要素(16,26)どうしの
    出力の一致を比較する手段(15,25)と、 該入出力構成要素(16,26)の出力結果を記憶して
    おくための結果記憶装置(31,41)と、 前記比較結果に応じてシステムの運用構成を決定する手
    段と、を有することを特徴とする請求項2記載の二重化
    情報処理装置。
  7. 【請求項7】 前記比較結果に応じてシステムの運用構
    成を決定する手段は、 前記比較の結果、入出力構成要素(16,26)の出力
    の不一致が検出された場合、入出力構成要素(16,2
    6)のどちらか一方でフォールトの発生が検出されてい
    れば、フォールトの発生した入出力構成要素を切り離し
    て縮退運用を行ない、 フォールトの発生が検出されていなければ、それぞれの
    前記結果記憶装置(31,41)に、入出力構成要素
    (16,26)の出力を記憶した後、入出力処理の複数
    回の再実行を行ない、 最初の再実行で、入出力構成要素(16,26)の出力
    の一致が確認されれば、フォールトは、過渡的なものと
    判断し、そのまま処理を継続し、 再度、不一致が検出された場合には、それぞれの入出力
    構成要素(16)の出力結果と結果記憶装置(31)に
    記憶しておいた結果とで、比較を行ない、入出力構成要
    素(16,26)の一方が一致して、他方が一致してい
    なければ、一致していない方の入出力構成要素を切り離
    して縮退運用を行ない、 両方とも不一致であれば、原理的に二重化常用冗長コン
    ピュータシステムでは対処できない二重の固定的または
    間欠的なフォールトが発生したと判断し、その時点で運
    用を停止し、 両方とも一致していれば、指定された回数だけ再実行を
    繰り返し、全ての再実行において、入出力構成要素どう
    しに不一致があり、かつ結果記憶装置とも一致していれ
    ば、フォールトの発生個所が特定できない致命的な固定
    フォールトが発生したと判断し、その時点で運用を停止
    する手段と、を有することを特徴とする請求項6記載の
    二重化情報処理装置。
  8. 【請求項8】 前記フォールトの発生箇所が特定できな
    い場合に限り、前記再実行を行なう、ことを特徴とした
    請求項1〜7のいずれかに記載の二重化情報処理装置。
JP10474698A 1998-04-15 1998-04-15 二重化情報処理装置 Expired - Fee Related JP3235785B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10474698A JP3235785B2 (ja) 1998-04-15 1998-04-15 二重化情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10474698A JP3235785B2 (ja) 1998-04-15 1998-04-15 二重化情報処理装置

Publications (2)

Publication Number Publication Date
JPH11296394A true JPH11296394A (ja) 1999-10-29
JP3235785B2 JP3235785B2 (ja) 2001-12-04

Family

ID=14389070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10474698A Expired - Fee Related JP3235785B2 (ja) 1998-04-15 1998-04-15 二重化情報処理装置

Country Status (1)

Country Link
JP (1) JP3235785B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004326151A (ja) * 2003-04-21 2004-11-18 Nec Corp データ処理装置
JP2013089005A (ja) * 2011-10-18 2013-05-13 Nippon Signal Co Ltd:The フェイルセーフマイコン
JP2013210796A (ja) * 2012-03-30 2013-10-10 Oki Electric Ind Co Ltd 冗長化構築システム及び冗長化構築プログラム
WO2021157103A1 (ja) * 2020-02-04 2021-08-12 オムロン株式会社 情報処理装置、制御方法およびプログラム
JP2021128420A (ja) * 2020-02-12 2021-09-02 オムロン株式会社 データ処理装置、制御方法およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004326151A (ja) * 2003-04-21 2004-11-18 Nec Corp データ処理装置
JP4492035B2 (ja) * 2003-04-21 2010-06-30 日本電気株式会社 データ処理装置
US7821919B2 (en) 2003-04-21 2010-10-26 Nec Corporation Data processing apparatus and data processing method
JP2013089005A (ja) * 2011-10-18 2013-05-13 Nippon Signal Co Ltd:The フェイルセーフマイコン
JP2013210796A (ja) * 2012-03-30 2013-10-10 Oki Electric Ind Co Ltd 冗長化構築システム及び冗長化構築プログラム
WO2021157103A1 (ja) * 2020-02-04 2021-08-12 オムロン株式会社 情報処理装置、制御方法およびプログラム
JP2021128420A (ja) * 2020-02-12 2021-09-02 オムロン株式会社 データ処理装置、制御方法およびプログラム

Also Published As

Publication number Publication date
JP3235785B2 (ja) 2001-12-04

Similar Documents

Publication Publication Date Title
KR100566338B1 (ko) 폴트 톨러런트 컴퓨터 시스템, 그의 재동기화 방법 및 재동기화 프로그램이 기록된 컴퓨터 판독가능 기억매체
US7802138B2 (en) Control method for information processing apparatus, information processing apparatus, control program for information processing system and redundant comprisal control apparatus
US6948092B2 (en) System recovery from errors for processor and associated components
US7308605B2 (en) Latent error detection
US7516358B2 (en) Tuning core voltages of processors
US7730029B2 (en) System and method of fault tolerant reconciliation for control card redundancy
KR100304319B1 (ko) 시간 지연 이중화 기술을 구현하는 장치 및 방법
JP2012104112A (ja) ミラー化データ・ストレージ・システムにおけるエラーを検出するための方法、コンピュータ・プログラム及びシステム
US7373542B2 (en) Automatic startup of a cluster system after occurrence of a recoverable error
JP2003015900A (ja) 追走型多重化システム、及び追走により信頼性を高めるデータ処理方法
Lyu et al. Software fault tolerance in a clustered architecture: Techniques and reliability modeling
JP5874492B2 (ja) フォールトトレラント制御装置、フォールトトレラントシステムの制御方法
JP6083480B1 (ja) 監視装置、フォールトトレラントシステムおよび方法
JP3235785B2 (ja) 二重化情報処理装置
US7533297B2 (en) Fault isolation in a microcontroller based computer
JP2000298594A (ja) フォールトトレラント制御方法および冗長コンピュータシステム
JPH11261663A (ja) 通信処理制御手段及びそれを備えた情報処理装置
JP3063334B2 (ja) 高信頼度化情報処理装置
JP3132744B2 (ja) 二重化cpu保守交換時の動作一致検証方式
KR100313712B1 (ko) 이중화된프로세서를위한결함기반의소프트웨어결함허용방법
JPH0695902A (ja) プロセッサ二重化方式の情報処理装置
CN113448760B (zh) 一种硬盘异常状态的恢复方法、系统、设备以及介质
JPH11134211A (ja) 二重化コンピュータシステムおよびその運用方法
JP2002007218A (ja) メモリ照合方式
JPH06139089A (ja) 情報処理装置の障害処理装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees