JPH10240555A - フォールト・トレラント・データ処理システムとその方 法 - Google Patents

フォールト・トレラント・データ処理システムとその方 法

Info

Publication number
JPH10240555A
JPH10240555A JP9040950A JP4095097A JPH10240555A JP H10240555 A JPH10240555 A JP H10240555A JP 9040950 A JP9040950 A JP 9040950A JP 4095097 A JP4095097 A JP 4095097A JP H10240555 A JPH10240555 A JP H10240555A
Authority
JP
Japan
Prior art keywords
fault
data processing
tolerant
systems
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9040950A
Other languages
English (en)
Inventor
Fumio Oki
文郎 沖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9040950A priority Critical patent/JPH10240555A/ja
Priority to EP98103123A priority patent/EP0860777A3/en
Priority to CA 2230344 priority patent/CA2230344A1/en
Publication of JPH10240555A publication Critical patent/JPH10240555A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/18Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
    • G06F11/182Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits based on mutual exchange of the output between redundant processing components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

(57)【要約】 【課題】フォールト・トレラント・システムは装置構成
が特殊で、そのアプリケーションプログラムの開発が容
易ではない。 【解決手段】フォールト・トレラント機能を持たないデ
ータ処理装置(PU)と外部記憶装置をフォールト・ト
レラント機能を有するフォールト・トレラント機能部
(FTU)と組み合わせて一つの系を構成し、各系のF
TU相互を通信手段で接続して三重化構成のシステムを
構築する。前位装置から入力する入力メッセージは各系
のPUに分配され、各系のPUで処理された出力メッセ
ージを多数決論理を用いて比較することにより障害の有
無の判定を行い、障害と判定された系では処理を中断す
る。処理の再開時には、アクト系の外部記憶装置と自系
の外部記憶装置間でデータコピーを行い、その後に両系
でPUのアプリケーションプログラムを再起動する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、フォールト・ト
レラント・データ処理システムとその方法に関し、特
に、汎用のデータ処理機能部及び外部記憶装置をフォー
ルト・トレラント機能部に付加して構成するフォールト
・トレラント・データ処理システムとその方法に関す
る。
【0002】
【従来の技術】複数のユニットで構成され、障害が発生
した場合には瞬時に障害が発生したユニットを切り離
し、他の正常なユニットで処理を継続するフォールト・
トレラント・データ処理システムは、このようなフォー
ルト・トレラント動作の為の特別なシステムとして設計
され、プロセッサ、メモリ、入出力装置およびオペレー
ティング・システムが特殊な構成となっている。
【0003】このようなフォールト・トレラント・デー
タ処理システムの改良発明の例として、既に使用してい
る非フォールト・トレラント・システムをフォールト・
トレラント・システムに組み込んでフォールト・トレラ
ント・データ処理システムを構築する技術が特開平3−
6742号公報に開示されている。
【0004】図9は、この公報に開示された技術に係わ
るフォールト・トレラント・データ処理システムの構成
を示すブロック構成図であり、非フォールト・トレラン
ト・システムをフォールト・トレラント・システムに組
み込んで、非フォールト・トレラント・システムのオペ
レーティング・システムおよびアプリケーションプログ
ラムを稼働させている。具体的には、まず、フォールト
・トレラント・システムのプロセッサである68020
を対として、それに比較器を付けて障害検出機能を付加
したプロセッサモジュールを二重化して設置し、それぞ
れのモジュールを二重化したシステムバスで接続する構
成としている。また、図示しない他の機能ユニットもこ
の二重化されたシステムバスで接続されている。そし
て、非フォールト・トレラント・システムのプロセッサ
であるS/370も対とし、前記の68020プロセッ
サ対にそれぞれ直接結合手段により結合している。S/
370プロセッサ対にも比較器を付けて障害検出機能を
付加している。さらに、このプロセッサモジュールを前
記の68020プロセッサモジュールと対応させて二重
化設置している。プロセッサモジュールの障害検出は比
較器による不一致検出により行い、他の機能ユニットは
チェック論理による障害検出を行う。
【0005】これにより、既に使用している非フォール
ト・トレラント・システムのアプリケーションプログラ
ムを大幅に変更することなくフォールト・トレラント・
システムとして稼働させることができるというものであ
る。
【0006】
【発明が解決しようとする課題】従来のフォールト・ト
レラント・システムは、専用のハードウエア、オペレー
ティングシステムおよびアプリケーションソフトウエア
で構成されており、そのアプリーケーションの開発にあ
たっては特別な知識を必要とされ、開発に膨大な工数を
要するという問題点があった。
【0007】特開平3−6742号公報に開示された技
術は非フォールト・トレラント・システムをフォールト
・トレラント・システムに組み込んで非フォールト・ト
レラント・システムのオペレーティングシステムを稼働
させる構成により既存のアプリケーションが流用できる
としているが、ハードウエア構成はむしろ複雑な構成に
なっている。
【0008】また、従来のフォールト・トレラント・シ
ステムは非常に複雑な装置構成をとらなければならない
という問題点があった。
【0009】例えば、障害発生時にデータが汚れること
を防ぐための必要な仕組みとして動作クロックの同期化
やシステムバスの二重化およびシステムバスの切り替え
回路が必要となり、これらにより障害検出から機能ユニ
ットの切り替えまでの動作を瞬時にして行い、一つの機
能ユニットの障害が他の機能ユニットに影響しないよう
な装置構成をとっている。さらに、いったん切り離され
た機能ユニットを再度組み込む再同期の仕組みも必要と
される。特に、プロセッサモジュールを非同期動作から
回復させる再同期の仕組みは複雑であり、動作中のプロ
セッサモジュールを停止させ、プロセッサおよびプロセ
ッサモジュール内の状態を停止中のプロセッサモジュー
ルにコピーしてから両方のプロセッサを同時に起動する
方法をとっている。このような動作をソフトウエアとハ
ードウエアとで分担して行っている。
【0010】
【課題を解決するための手段】上述したような従来のフ
ォールト・トレラント・システムの課題を解決して簡単
な回路、装置構成のフォールト・トレラント・データ処
理システムとその方法を提供することを本発明の目的と
する。
【0011】本発明のフォールト・トレラント・データ
処理システムは、フォールト・トレラント機能を持たな
いデータ処理装置と外部記憶装置をフォールト・トレラ
ント機能を有するフォールト・トレラント機能部と組み
合わせて一つの系を構成し、この系を三重化してシステ
ムを構成する。一つの系内ではフォールト・トレラント
機能部とデータ処理装置及び外部記憶装置は通信手段に
より接続され、前位装置とフォールト・トレラント機能
部間及び各系のフォールト・トレラント機能部相互間も
通信手段により接続されている。前位装置から入力する
入力メッセージは各系のデータ処理装置に分配され、各
系のデータ処理装置で処理された出力メッセージを比較
することにより障害の有無の判定を行い、障害と判定さ
れた系では処理を中断する。障害と判定された系の障害
が修復され、再度運用状態に復帰するための処理の再開
時にはアクト系として動作している系の外部記憶装置と
自系の外部記憶装置間でデータコピーを行い、その後に
両系においてデータ処理装置のアプリケーションプログ
ラムを再起動する。
【0012】フォールト・トレラント機能部が有する主
要な機能は、障害検出、障害装置の切り離し、装置の再
同期の各機能である。
【0013】障害検出は、システムを構成する各系から
の出力メッセージを比較して、多数決論理により障害装
置の判定を行う手段のみを備え、動作クロックレベルで
の動作チェックを廃した。すなわち、障害時に障害検出
が遅れ、データの汚れが他の機能ユニットに波及するこ
とをあえて許容している。このことにより動作クロック
レベルでの同期動作を行う必要性がなくなり、汎用コン
ピュータの使用が可能となった。
【0014】障害装置の切り離しは、障害時にデータの
汚れる範囲が広くなってしまったため、機能ユニット単
位での管理を廃して、障害が検出された系全体の動作を
停止する手段を備えた。このことにより、フォールト・
トレラント機能部では障害系に対して入力メッセージの
分配を停止するだけでよくなり、バスの切り替え機構が
不要となった。
【0015】再同期機能は、フォールト・トレラント機
能部に外部記憶装置の管理機能を持たせ、動作中の外部
記憶装置と停止中の外部記憶装置の内容を一致させ、そ
の後すべての系のアプリケーションプログラムを再起動
する構成とした。このことにより、プロセッサモジュー
ル内の状態を一致させるためのハードウエアやソフトウ
エアが不要となった。
【0016】
【発明の実施の形態】次に、本発明の一実施の形態につ
いて、図面を参照して説明する。
【0017】図1は、本発明のフォールト・トレラント
・データ処理システムの構成を示すブロック構成図であ
る。
【0018】同図において、フォールト・トレラント機
能を備えたフォールト・トレラント機能部(FTU)
は、汎用パーソナルコンピュータまたはワークステーシ
ョンで構成されるデータ処理機能部(PU)及び記憶手
段と通信手段により接続されて一つの系を構成してい
る。本発明のフォールト・トレラント・データ処理装置
はこのような系が三重化に設置されて構成されている。
(0系:FTU10、PU10、記憶手段10、1系:
FTU11、PU11、記憶手段11、2系:FTU1
2、PU12、記憶手段12) 各系のFTUはそれぞれ相互に通信手段で接続され、さ
らに、本システムの保守、運用の機能を具備した監視制
御部(SUP)50とも通信手段で接続されている。0
系と1系のFTUはそれぞれ前位装置との入出力インタ
フェースを持つ。
【0019】ここで通信手段としては、内部バスを直接
結合する様な形式のものからLAN(ローカル・エリア
・ネットワーク)の様なプロトコルを持つものまで各種
あるが、いずれの手段を用いてもかまわない。また、図
1では通信経路が一対一の接続形式で表現されている
が、通信手段がバス形式のものであれば一つのバスに多
数の装置が接続される形式となる。さらに、通信経路は
データ処理機能部と記憶手段に対して各一本づつ設ける
ように表現しているが、一本に統合したり、用途やトラ
フィックにより複数本に分離する場合もある。
【0020】本発明の実施の形態では、FTUと記憶手
段との間の通信手段はSCSI、他はLAN(10BA
SE−T)を使用するものとする。また、データ処理機
能部は、汎用のパーソナルコンピュータまたはワークス
テーションを使用し、記憶手段はハードディスク装置を
使用する。
【0021】なお、本発明の実施の形態では、システム
を3系統構成としたが、これは障害検出を各系の出力比
較において多数決論理により行うためと障害時の保守単
位(系単位で障害を切り離す)に合わせた装置構成とし
たためで、障害の系をオフラインで自己試験や修理がで
きることを考慮したものである。通信手段についてもモ
ジュール間の結合をルーズにして、障害時や部品交換時
の他への影響を極力少なくすることを目的として選択を
している。
【0022】また、本発明の実施の形態では監視制御機
能をSUP50に集中する構成としたが、各系のFTU
に機能分散させて持たせても良いし、前位装置との入出
力インタフェースを持っていない2系のFTUに持たせ
ることも可能である。
【0023】図2は、各系のFTUの構成を示すブロッ
ク構成図である。
【0024】プロセッサ(CPU)101とメモリ10
2を備えた単純なプロセッサユニットで、複数の通信手
段(COM)103〜108を持っている。第0番のC
OM103は前位装置との通信手段であり、LANでイ
ンタフェースする。第1、2番のCOM104、105
は他系のFTUとの通信手段であり、LANでインタフ
ェースする。第3番のCOM106はSUPとの通信手
段であり、LANでインタフェースする。第4番のCO
M107はPUとの通信手段であり、LANでインタフ
ェースする。第5番のCOM108は記憶手段との通信
手段であり、SCSIでインタフェースする。
【0025】図3は、SUPの構成を示すブロック構成
図である。
【0026】プロセッサ(CPU)201とメモリ20
2を備えた単純なプロセッサユニットで、複数の通信手
段(COM)203〜106を持っている。第0〜2番
のCOM203、204、205は各系のFTUとの通
信手段であり、LANでインタフェースする。第3番の
COM206はSUPの入出力手段であるコンソール2
07との通信手段であり、RS232でインタフェース
する。
【0027】次に、このように構成された本発明のフォ
ールト・トレラント・データ処理システムの動作を説明
する。
【0028】前位装置から入力するデータの処理につい
て図4の入力メッセージ処理のフローチャートを参照し
て説明する。
【0029】前位装置からの処理要求は、入出力インタ
フェースを介してFTUに入力メッセージとして到着す
る(入力情報受信:ステップ401)。入出力インタフ
ェースは二系統あるので、一方をアクト系、他方をスタ
ンバイ系として動作する。今、図1におけるFTU10
(0系)をアクト系として説明する。
【0030】入力メッセージを受信したFTUは、その
メッセージが自系からの入力か、それとも他系から転送
されてきたメッセージかを識別し(ステップ402)、
自系からの入力の場合はその入力メッセージを他の二系
統(図1の1系、2系)のFTUに転送する(ステップ
403)。ただし、他系からのメッセージの転送である
場合(ステップ402:YES)は他系への転送は行わ
ない。
【0031】各系のFTUに入力された入力メッセージ
は、各系のPUに転送され(ステップ404)る。そし
て、各系のPUのアプリケーションプログラムで処理が
行われ、その結果が出力メッセージとしてFTUに返送
される。
【0032】以上が、前位装置から入力した入力メッセ
ージの処理である。
【0033】このようにして各系で処理されて出力され
る出力メッセージは、FTU相互で比較され、正常性の
確認された出力メッセージが前位装置に返送される。正
常性が確認されない場合は、障害処理プログラムが起動
される。
【0034】各系において、PUは処理過程で記憶手段
のファイル読み出し/書込の要求をFTUに送信してく
るが、FTUではこの要求を記憶手段に中継する中継処
理を行う。
【0035】図5にこの出力メッセージ処理のフローチ
ャートを示す。本システムにおける障害検出は各系から
出力される出力メッセージの比較を行い、多数決論理に
より障害を特定する。
【0036】まず、各FTUは自系における処理結果の
出力メッセージを自系のPUから受信する(ステップ5
01)。この自系の出力メッセージを他の系にそれぞれ
転送する。すなわち、0系においては、1系と2系のF
TUに自系の出力メッセージを転送する(ステップ50
2)。他系でも同様の処理を行っているので、0系のF
TUは1系、2系からそれぞれの出力メッセージを受信
する(ステップ503)。このようにして各系で処理し
た結果を受け取り、内容の比較を行う。
【0037】まず、自系(0系)と1系の出力メッセー
ジの比較を行う(ステップ504)。この段階で両者の
内容が一致していれば、三つの内の二つが一致(0系=
1系)しているので自系の出力は正常であると判断して
自系の出力メッセージを前位装置に返送する(ステップ
504:一致、ステップ505)。
【0038】一方、この比較において不一致であった場
合(ステップ504:不一致)、次に、自系(0系)と
2系の出力メッセージの比較を行う(ステップ50
6)。この段階で両者の内容が一致していれば、三つの
内の二つが一致(0系=2系)しているので自系の出力
は正常であると判断して自系の出力メッセージを前位装
置に返送する(ステップ506:一致、ステップ50
5)。
【0039】2系の出力との比較結果が不一致であった
場合(ステップ506:不一致)は、自系には何らかの
障害が内在していると判断する。
【0040】次に、1系と2系の出力メッセージの比較
を行う(ステップ507)。この段階で両者の内容が一
致していれば、三つの内の二つが一致(1系=2系)し
ているので他系の出力は正常であると判断して他系(1
系)の出力メッセージを前位装置に返送する(ステップ
507:一致、ステップ508)。そして、自系(0
系)に障害があるものと特定して障害処理に移行する。
【0041】一方、この比較において不一致であった場
合(ステップ507:不一致)、すべての系の出力が全
て異なるので、この場合も障害処理に移行する。ただ
し、この場合、障害系の特定はできない。
【0042】次に、各系の状態遷移と障害系の切り離し
について説明する。
【0043】図6は、本システムの状態遷移図を示す。
図中において、「INS」は通常のサービス中状態であ
り、アクト系である「INS−MST」とスタンバイ系
である「INS」とはそれぞれ同期運転してプロセッサ
や記憶手段等におけるデータの一致を図っている。一
方、「OUS」はサービス中止状態であり、「OUS−
STP」は入力メッセージの受付不可で処理停止状態で
ある。「OUS−SLV」は入力メッセージの受付不可
ではあるが、記憶手段への書込は可能な状態である。
【0044】障害発生が特定された系は、「OUS−S
TP」状態に移行して処理が停止させられる。すなわ
ち、0系に障害が発生したと特定された場合は、「IN
S−MST」であった0系が「OUS−STP」、「I
NS」であった1系が「INS−MST」、2系はその
まま「INS」のそれぞれの状態となる。
【0045】SUPを使用した診断等の手段により障害
系の障害箇所を特定し、修理を行ったあと、再度システ
ムに組み込んでサービス状態に戻す処理を再同期処理と
いう。再同期処理は、「OUS−STP」状態を「OU
S−SLV」状態にし、サービス中止状態ではあるがサ
ービス中の系からファイルコピーを行い、記憶手段等の
データ内容を一致させた上で「INS」状態に移行させ
る処理である。
【0046】図7は、「INS−MST」の系から「O
US−SLV」の系にデータをコピーする処理のフロー
チャートである。オンラインでの処理と並行してデータ
のコピーを行うので、コピーすべきデータが空きのとき
をみはからってデータ読み出し、転送処理を行う。ま
た、コピー処理の途中でファイル書込処理が発生するこ
とがあるので、その時は図8に示すファイル書込処理を
行う。「INS−MST」の系では書き込むべきデータ
を「OUS−SLV」の系にも転送する(ステップ80
2)。また、「OUS−SLV」の系では、「INS−
MST」の系から転送されてきたデータをファイルに書
き込む処理を行う(ステップ803)。
【0047】コピー処理が終了したら、次に、処理途中
の内部データを「INS−MST」と「OUS−SL
V」とで一致させる処理が必要となる。この場合は、
「INS−MST」の系の動作を一旦停止させ、処理途
中の内部データをすべて外部記憶手段に待避させる処理
(書込処理)を行う。「INS−MST」のこの動作
は、図8に示したファイル書込処理と同じで、書き込む
べきデータは「OUS−SLV」の系にも転送され、
「OUS−SLV」における内部データはこの処理によ
り「INS−MST」と一致させることができる。
【0048】以上により、「OUS−SLV」の系の記
憶内容は「INS−MST」と一致したことになるの
で、この状態で両方の系のアプリケーションプログラム
を再起動することにより「OUS−SLV」の系は「I
NS」状態に移行する。
【0049】SUPは、以上に説明したように、障害処
理における診断や、系構成の変更、状態管理等の保守、
運用のための機能を集中したものである。
【0050】なお、上記における説明において、各系か
らの出力メッセージが全て異なる場合は、重要障害とし
ての対応をとり、場合によっては全システムの停止もあ
り得る。しかし、三系統あるシステムにおいてこのよう
な障害が発生するのは非常に稀なケースとして取り扱う
ことができる。
【0051】以上に説明したように、本発明におけるフ
ォールト・トレラント・データ処理システムは、フォー
ルト・トレラントに係わる特殊な機能をFTUに集中し
て備えている。また、その機能も三重化したシステムの
各系を障害切り離し単位とすることにより基本的に必要
な単純化した機能とすることができ、小規模なハードウ
エア、ソフトウエアで実現することができる。さらに、
PUや記憶手段は汎用のパーソナルコンピュータやハー
ドディスク装置を使うことができるのでアプリケーショ
ンプログラムの開発が容易で小規模なもので済み、三重
化するとしても従来のフォールト・トレラント・システ
ムより低い費用で実現させることができる。
【0052】
【発明の効果】このように本発明のフォールト・トレラ
ント・データ処理システムは、フォールト・トレラント
に係わる機能を分離してフォールト・トレラント機能部
に集中させた構成をとる。そのため、データ処理装置及
び外部記憶装置にフォールト・トレラントのための特殊
な機能が不要になり、汎用のコンピュータによりデータ
処理装置及び外部記憶装置を実現することが可能とな
り、ひいては汎用オペレーションシステム上でアプリケ
ーションプログラムを動作させることが可能となり、ア
プリケーションプログラムの開発が容易となる。また、
フォールト・トレラント機能部は専用のハードウエア及
びソフトウエアが必要となるが、それらも小規模なもの
で実現することができ、経済的なフォールト・トレラン
ト・システムを簡単に実現することができるという効果
を奏する。
【図面の簡単な説明】
【図1】本発明のフォールト・トレラント・データ処理
システムの構成を示すブロック構成図である。
【図2】本発明のフォールト・トレラント・データ処理
システムを構成するフォォールト・トレラント機能部
(FTU)の構成を示すブロック構成図である。
【図3】本発明のフォールト・トレラント・データ処理
システムを構成する監視制御部(SUP)の構成を示す
ブロック構成図である。
【図4】本発明のフォールト・トレラント・データ処理
システムのデータ入力処理の動作を説明するフローチャ
ートである。
【図5】本発明のフォールト・トレラント・データ処理
システムの出力メッセージ処理の動作を説明するフロー
チャートである。
【図6】本発明のフォールト・トレラント・データ処理
システムの各系が取り得る状態遷移を示す状態遷移図で
ある。
【図7】本発明のフォールト・トレラント・データ処理
システムの再同期処理におけるデータコピーの処理を示
すフローチャートである。
【図8】本発明のフォールト・トレラント・データ処理
システムの再同期処理におけるファイル書込処理を示す
フローチャートである。
【図9】従来のフォールト・トレラント・システムの構
成の一例を示すブロック構成図である。
【符号の説明】
10、11、12 フォールト・トレラント機能部 20、21、22 データ処理機能部 30、31、32 記憶手段 40、41 入出力インタフェース 50 監視制御部 101、201 CPU 102、202 メモリ 103、104、105、106、107、108 通
信制御装置 203、204、205、206 通信制御装置 207 コンソール

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 三つの系で構成されるフォールト・トレ
    ラント・データ処理システムであって、 第1及び第2の系は、それぞれ、フォールト・トレラン
    ト機能を持たないデータ処理装置と、フォールト・トレ
    ラント機能を持たない外部記憶装置と、当該データ処理
    装置と外部記憶装置とを接続収容し,前位装置との間の
    データの入出力インタフェースを有するフォールト・ト
    レラント機能を備えたフォールト・トレラント機能部と
    で構成され、 第3の系は、フォールト・トレラント機能を持たないデ
    ータ処理装置と、フォールト・トレラント機能を持たな
    い外部記憶装置と、当該データ処理装置と外部記憶装置
    とを接続収容したフォールト・トレラント機能を備えた
    フォールト・トレラント機能部とで構成され、 各系の前記フォールト・トレラント機能部は、通信手段
    により他系のフォールト・トレラント機能部と相互に接
    続されていることを特徴とするフォールト・トレラント
    ・データ処理システム。
  2. 【請求項2】 前記三つの系は、前記入出力インタフェ
    ースを有するいずれか一つの系がアクト状態として前位
    装置との間でのデータの送受信および他の系へのデータ
    転送ならびに処理結果の受信を行い、他の二つの系はス
    タンバイ状態として前記アクト状態の系から転送される
    データの処理および当該処理結果の返送を行い、いずれ
    かの系に障害が発生した場合、障害発生が特定された系
    は、系単位で切り離されてデータ処理を停止し、他の二
    つの系でデータ処理を継続することを特徴とする請求項
    1に記載のフォールト・トレラント・データ処理システ
    ム。
  3. 【請求項3】 前記アクト状態の系のフォールト・トレ
    ラント機能部は、自系でのデータ処理結果および他の二
    つの系から返送されるデータ処理結果を比較し、処理結
    果が同一である少なくとも二つの系の処理結果を出力情
    報として前位装置に送出し、処理結果が一つのみ同一で
    ない系を障害として特定することを特徴とする請求項2
    に記載のフォールト・トレラント・データ処理システ
    ム。
  4. 【請求項4】 前記三つの系の各系は、前記アクト状態
    で動作するインサービス・マスター状態と、前記スタン
    バイ状態で動作するインサービス状態と、データ処理の
    運用から切り離されて動作を一切停止しているアウトオ
    ブサービス状態と、データ処理の運用からは切り離され
    ているが前記インサービス・マスター状態の系からデー
    タコピーを行うアウトオブサービス・スレーブ状態の各
    状態をとり、障害が特定された系は前記アウトオブサー
    ビス状態に設定されることを特徴とする請求項3に記載
    のフォールト・トレラント・データ処理システム。
  5. 【請求項5】 障害が特定され前記アウトオブサービス
    状態に設定された系は、障害修復後、前記アウトオブサ
    ービス・スレーブ状態に設定され、前記インサービス・
    マスター状態の系からデータコピーを行い、前記外部記
    憶装置の内容を一致させた後に両系のアプリケーション
    プログラムの再起動によりインサービス状態となること
    を特徴とする請求項4に記載のフォールト・トレラント
    ・データ処理システム。
  6. 【請求項6】 前記各系のフォールト・トレラント機能
    部と通信手段で接続され、障害系の検出と、障害系の障
    害診断と、各系の前記インサービス・マスター,インサ
    ービス,アオトオブサービスおよびオウトオブサービス
    ・スレーブの各状態設定を少なくとも行う監視制御部を
    更に備えたことを特徴とする請求項5に記載のフォール
    ト・トレラント・データ処理システム。
  7. 【請求項7】 それぞれ、フォールト・トレラント機能
    を持たないデータ処理装置と、フォールト・トレラント
    機能を持たない外部記憶装置と、当該データ処理装置と
    外部記憶装置とを接続収容したフォールト・トレラント
    機能を備えたフォールト・トレラント機能部とで構成さ
    れた系の当該フォールト・トレラント機能部が通信手段
    で相互に接続されて三重化構成され、いずれか二つの系
    の前記フォールト・トレラント機能部は前位装置との間
    のデータの入出力インタフェースを有するフォールト・
    トレラント・データ処理システムにおけるフォールト・
    トレラント・データ処理方法であって、 前記入出力インタフェースを有するいずれか一つの系が
    アクト状態として前位装置との間でのデータの送受信お
    よび他の系へのデータ転送ならびに処理結果の受信を行
    い、 他の二つの系はスタンバイ状態として前記アクト状態の
    系から転送されるデータの処理および当該処理結果の返
    送を行い、 前記アクト状態の系は、 自系でのデータ処理結果および他の二つの系から返送さ
    れるデータ処理結果を比較し、 処理結果が同一である少なくとも二つの系の処理結果を
    出力情報として前位装置に送出し、 処理結果が一つのみ同一でない系を障害として特定し、 障害が特定された系は、データ処理の運用から切り離さ
    れて動作を一切停止しているアウトオブサービス状態に
    設定し、障害修復後、前記アクト状態の系からデータコ
    ピーを行い、前記外部記憶装置の内容を一致させた後に
    両系のアプリケーションプログラムの再起動により前記
    スタンバイ状態となることを特徴とするフォールト・ト
    レラント・データ処理方法。
JP9040950A 1997-02-25 1997-02-25 フォールト・トレラント・データ処理システムとその方 法 Pending JPH10240555A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP9040950A JPH10240555A (ja) 1997-02-25 1997-02-25 フォールト・トレラント・データ処理システムとその方 法
EP98103123A EP0860777A3 (en) 1997-02-25 1998-02-23 Fault tolerant data processing system and method therefor
CA 2230344 CA2230344A1 (en) 1997-02-25 1998-02-24 Fault tolerant data processing system and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9040950A JPH10240555A (ja) 1997-02-25 1997-02-25 フォールト・トレラント・データ処理システムとその方 法

Publications (1)

Publication Number Publication Date
JPH10240555A true JPH10240555A (ja) 1998-09-11

Family

ID=12594791

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9040950A Pending JPH10240555A (ja) 1997-02-25 1997-02-25 フォールト・トレラント・データ処理システムとその方 法

Country Status (3)

Country Link
EP (1) EP0860777A3 (ja)
JP (1) JPH10240555A (ja)
CA (1) CA2230344A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013210796A (ja) * 2012-03-30 2013-10-10 Oki Electric Ind Co Ltd 冗長化構築システム及び冗長化構築プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4117684B2 (ja) * 2004-12-20 2008-07-16 日本電気株式会社 フォルトトレラント・二重化コンピュータシステムとその制御方法
CN114020569B (zh) * 2021-11-02 2024-09-10 广州城建职业学院 一种大数据实时监控系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2202231A1 (de) * 1972-01-18 1973-07-26 Siemens Ag Verarbeitungssystem mit verdreifachten systemeinheiten
US4342083A (en) * 1980-02-05 1982-07-27 The Bendix Corporation Communication system for a multiple-computer system
CA2068048A1 (en) * 1991-05-06 1992-11-07 Douglas D. Cheung Fault tolerant processing section with dynamically reconfigurable voting
US5452441A (en) * 1994-03-30 1995-09-19 At&T Corp. System and method for on-line state restoration of one or more processors in an N module redundant voting processor system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013210796A (ja) * 2012-03-30 2013-10-10 Oki Electric Ind Co Ltd 冗長化構築システム及び冗長化構築プログラム

Also Published As

Publication number Publication date
EP0860777A2 (en) 1998-08-26
EP0860777A3 (en) 1999-08-04
CA2230344A1 (en) 1998-08-25

Similar Documents

Publication Publication Date Title
JP2532317B2 (ja) プロセス制御システムにおける汎用入出力冗長方式のバックアップ方法
US4503534A (en) Apparatus for redundant operation of modules in a multiprocessing system
US5379278A (en) Method of automatic communications recovery
JP2006178616A (ja) フォールトトレラントシステム、これで用いる制御装置、動作方法、及び動作プログラム
JPH08255115A (ja) 障害検出およびフォルトトレラントディジタルデータ処理方法および装置
JPH0934809A (ja) 高信頼化コンピュータシステム
US5905875A (en) Multiprocessor system connected by a duplicated system bus having a bus status notification line
WO2010100757A1 (ja) 演算処理システム、再同期方法、およびファームプログラム
EP1380951B1 (en) Fault tolerant information processing apparatus
JP3211878B2 (ja) 通信処理制御手段及びそれを備えた情報処理装置
JPH10240555A (ja) フォールト・トレラント・データ処理システムとその方 法
GB2237907A (en) Information handling system
KR100198416B1 (ko) 이중화 제어시스템에서의 동기제어를 위한 동기신호 감시회로
JPH0916535A (ja) マルチプロセッサ計算機
KR100205031B1 (ko) 이중화 제어시스템의 동기제어 장치
JPH0916426A (ja) 2ポートコンソールを持つフォールトトレラントコンピュータ
KR0176085B1 (ko) 병렬처리 컴퓨터 시스템에서의 프로세서 노드 및 노드연결망의 에러 검출방법
JP3438986B2 (ja) 多重化コンピュータシステムおよび障害回復方法
JP3015537B2 (ja) 電子計算機の二重化方式
JPS62115555A (ja) 計算機システムの補助記憶装置2重化管理方法
JPH08190494A (ja) 二重化処理装置を有する高信頼化コンピュータ
JPH04241039A (ja) ベーシックプロセッシングユニット及び高信頼化コンピュータシステム
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JPH09179836A (ja) 多重化計算機およびその障害検出処理方法
CN117002562A (zh) 一种基于嵌入式软件冗余的车载台

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20000912