JPH0471037A - 電子計算機の二重化方式 - Google Patents
電子計算機の二重化方式Info
- Publication number
- JPH0471037A JPH0471037A JP2184614A JP18461490A JPH0471037A JP H0471037 A JPH0471037 A JP H0471037A JP 2184614 A JP2184614 A JP 2184614A JP 18461490 A JP18461490 A JP 18461490A JP H0471037 A JPH0471037 A JP H0471037A
- Authority
- JP
- Japan
- Prior art keywords
- cpu
- data
- output
- bus
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 claims abstract description 29
- 230000005856 abnormality Effects 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims description 17
- 238000011084 recovery Methods 0.000 claims description 6
- 230000002093 peripheral effect Effects 0.000 abstract description 6
- 230000002159 abnormal effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000013256 coordination polymer Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 125000001246 bromo group Chemical group Br* 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Landscapes
- Retry When Errors Occur (AREA)
- Hardware Redundancy (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[発明の目的]
(産業上の利用分野)
本発明は、フォールトトレラント・コンピュータシステ
ムを構築する際に、CPUを中心とする構成要素を二重
化することによりシステムの信頼性及び可用性を向上さ
せる電子計算機の二重化方式に関する。
ムを構築する際に、CPUを中心とする構成要素を二重
化することによりシステムの信頼性及び可用性を向上さ
せる電子計算機の二重化方式に関する。
(従来の技術)
一般に、フォールトトレラント・コンピュータシステム
を完全なハードウェア構成により実現するには、CPU
を中心とする構成機器の内部を二重化することが行なわ
れる。
を完全なハードウェア構成により実現するには、CPU
を中心とする構成機器の内部を二重化することが行なわ
れる。
このシスチムニ重化の一例としては、システムを構成す
る各モジュールをそれぞれ2台用いると共に、この二重
化された各モジュール間を結合するパスラインを二重化
したものが実用されているが、最近では、CPUを始め
、各主要モジュールの内部回路までも二重化して、その
二重化回路間の処理結果を比較することが行なわれてい
る。
る各モジュールをそれぞれ2台用いると共に、この二重
化された各モジュール間を結合するパスラインを二重化
したものが実用されているが、最近では、CPUを始め
、各主要モジュールの内部回路までも二重化して、その
二重化回路間の処理結果を比較することが行なわれてい
る。
第3図は従来の二重化方式によるフォールトトレラント
争コンピュータシステムの構成を示すもので、CPU1
1を始めメモリ12.磁気ディスク制御装置13及び磁
気ディスク装置141通信制御装置15からなる1組の
コンピュータシステムがそのまま二重化され、そのそれ
ぞれが二重化されたパスラインにより結合されている。
争コンピュータシステムの構成を示すもので、CPU1
1を始めメモリ12.磁気ディスク制御装置13及び磁
気ディスク装置141通信制御装置15からなる1組の
コンピュータシステムがそのまま二重化され、そのそれ
ぞれが二重化されたパスラインにより結合されている。
そして、各cPU11,11の内部には、さらに2つの
ACP (演算制御モジュール)16a、16bが設け
られると共に、メモリ12.磁気ディスク制御装置13
1通信制御装置15の各内部回路も二重化されている。
ACP (演算制御モジュール)16a、16bが設け
られると共に、メモリ12.磁気ディスク制御装置13
1通信制御装置15の各内部回路も二重化されている。
この場合、上記パスラインの二重化に伴い、各モジュー
ルにおるバスへの出力は2系統、また、バスから各モジ
ュールへの入力も2系統あることになる。
ルにおるバスへの出力は2系統、また、バスから各モジ
ュールへの入力も2系統あることになる。
このフォールトトレラント・コンピュータシステムにお
いて、通常、各モジュールにおける処理結果の比較は、
そのそれぞれのモジュールの最終出力段において実施さ
れるので、当該モジュールで発生するエラーは略確実に
検出することができる。
いて、通常、各モジュールにおける処理結果の比較は、
そのそれぞれのモジュールの最終出力段において実施さ
れるので、当該モジュールで発生するエラーは略確実に
検出することができる。
すなわち、例えばCPUIIと磁気ディスク制御装置1
3との間のデータ転送を想定した場合に、CPU11が
磁気ディスク装置14からデータの読出しを行なうとき
は、磁気ディスク制御装置13はバスに対して出力の動
作モードにある。このとき、磁気ディスク制御装置13
における処理結果はバスへの出力直前に比較され、2系
統のデータが一致することを確認した後に両方のバスに
対して出力される。
3との間のデータ転送を想定した場合に、CPU11が
磁気ディスク装置14からデータの読出しを行なうとき
は、磁気ディスク制御装置13はバスに対して出力の動
作モードにある。このとき、磁気ディスク制御装置13
における処理結果はバスへの出力直前に比較され、2系
統のデータが一致することを確認した後に両方のバスに
対して出力される。
また、CPU11が磁気ディスク装置14に対してデー
タ′の書込みを行なうときは、CPUIIはバスに出力
を行なう最終段で各ACP16a。
タ′の書込みを行なうときは、CPUIIはバスに出力
を行なう最終段で各ACP16a。
16bからのデータ比較を行ないそのエラーチエツクを
実施する。この場合、CPUIIにおいてデータエラー
が検出されなければ、磁気ディスク制御装置13の入力
段に伝送されたデータには、バス上におけるノイズ等の
要因以外にエラーが発生することは殆どない。したがっ
て、CPU11から2本のバスを介して伝送されたデー
タを、磁気ディスク制御装置13の入力段における比較
はせずに、該磁気ディスク制御装置13から次段のモジ
ュール、つまり、磁気ディスク装置14への出力段で上
記二重化データの比較が行なわれる。
実施する。この場合、CPUIIにおいてデータエラー
が検出されなければ、磁気ディスク制御装置13の入力
段に伝送されたデータには、バス上におけるノイズ等の
要因以外にエラーが発生することは殆どない。したがっ
て、CPU11から2本のバスを介して伝送されたデー
タを、磁気ディスク制御装置13の入力段における比較
はせずに、該磁気ディスク制御装置13から次段のモジ
ュール、つまり、磁気ディスク装置14への出力段で上
記二重化データの比較が行なわれる。
この場合、1度の比較処理で、バスから磁気ディスク制
御装置13へのデータ入力に伴うエラー及び磁気ディス
ク装置13内でのデータ処理に伴うエラーを検出するこ
とができる。
御装置13へのデータ入力に伴うエラー及び磁気ディス
ク装置13内でのデータ処理に伴うエラーを検出するこ
とができる。
二こで、パスライン上でのエラー発生要因について説明
する。
する。
例えば、出力モードにあるモジュールは、バスに出力す
るデータに関してエラーチエツクを実施している。した
がって、本来なら、バス上に誤ったデータが出力される
ことはない。しかし、この出力モードにあるモジュール
のバスに直接接続されているゲートの故障や、バス上の
信号のクロストークノイズ等に起因するエラーの場合に
は、該出力モジュールにおけるエラー検出に掛からず、
入力モジュール側の処理結果比較段階で検出されること
になる。
るデータに関してエラーチエツクを実施している。した
がって、本来なら、バス上に誤ったデータが出力される
ことはない。しかし、この出力モードにあるモジュール
のバスに直接接続されているゲートの故障や、バス上の
信号のクロストークノイズ等に起因するエラーの場合に
は、該出力モジュールにおけるエラー検出に掛からず、
入力モジュール側の処理結果比較段階で検出されること
になる。
このような、バス上でのデータエラーは、二重化したモ
ジュールの両方でエラーを発生させてしまう致命傷であ
る。
ジュールの両方でエラーを発生させてしまう致命傷であ
る。
すなわち、2本あるバスの両方でデータエラーが発生し
た場合には、各システムモジュールが2台あろうと、各
モジュール内部が完全に二重化してあろうとも、何れの
モジュールに入力されるデータにも誤りが生じ、その処
理結果が異常になってこのコンピュータシステムはエラ
ーになる。
た場合には、各システムモジュールが2台あろうと、各
モジュール内部が完全に二重化してあろうとも、何れの
モジュールに入力されるデータにも誤りが生じ、その処
理結果が異常になってこのコンピュータシステムはエラ
ーになる。
また、2本あるバスのうち一方のバスのみでデータエラ
ーが発生した場合には、入力モジュールにおいて、その
内部で二重化しである回路のうち一方の回路が誤ったデ
ータを用いて処理を行なうため、該二重化内部回路の処
理結果に相違が生じる。したかって、側方の人力モジュ
ールともその出力段での比較結果は異常になり、このコ
ンピュータシステムはエラーになる。
ーが発生した場合には、入力モジュールにおいて、その
内部で二重化しである回路のうち一方の回路が誤ったデ
ータを用いて処理を行なうため、該二重化内部回路の処
理結果に相違が生じる。したかって、側方の人力モジュ
ールともその出力段での比較結果は異常になり、このコ
ンピュータシステムはエラーになる。
近年、電子計算機における処理性能の向上は著しく、シ
ステム動作の基本クロックはより高周波になり、使用す
る素子も信号の立上り/立下がりが急峻なものになって
いる。しかも、コンピュータシステムの大規模化は、バ
スに接続されるモジュール数の増加をもたらすばかりで
なく、バスそのものの延長をもたらし、バス上において
信号の信頼性を損い易い傾向にある。すなわち、バス上
において、クロストークや信号の反射等による断続的な
エラーを発生し易く、しかも、CPUが高速化するのに
伴い、多数のモジュールをバスを介して接続するのは困
難になっている。
ステム動作の基本クロックはより高周波になり、使用す
る素子も信号の立上り/立下がりが急峻なものになって
いる。しかも、コンピュータシステムの大規模化は、バ
スに接続されるモジュール数の増加をもたらすばかりで
なく、バスそのものの延長をもたらし、バス上において
信号の信頼性を損い易い傾向にある。すなわち、バス上
において、クロストークや信号の反射等による断続的な
エラーを発生し易く、しかも、CPUが高速化するのに
伴い、多数のモジュールをバスを介して接続するのは困
難になっている。
(発明か解決しようとする課題)
しかしながら、上記のような従来の二重化方式によるフ
ォールトトレラント会コンピュータシステムでは、CP
Uを中心とするコンピュータシステムを2組並列にして
二重化を図るばかりでなく、個々のモジュールの内部回
路をも二重化し、外部バス及び内部バス共に二重化した
完全二重化を図っているので、ハードウェアの構成か大
掛かりになりシステム構築のコスト上昇を招くばかりで
なく、バス上でのエラー発生も招き易くなり、しかも、
個々のCPU内部で二重化されたACP同士で直接処理
データの比較を行なうため、高速化達成の妨げになる。
ォールトトレラント会コンピュータシステムでは、CP
Uを中心とするコンピュータシステムを2組並列にして
二重化を図るばかりでなく、個々のモジュールの内部回
路をも二重化し、外部バス及び内部バス共に二重化した
完全二重化を図っているので、ハードウェアの構成か大
掛かりになりシステム構築のコスト上昇を招くばかりで
なく、バス上でのエラー発生も招き易くなり、しかも、
個々のCPU内部で二重化されたACP同士で直接処理
データの比較を行なうため、高速化達成の妨げになる。
本発明は上記課題に鑑みなされたもので、高速CPUを
用いたフォールトトレラントやコンピュータシステムを
構築する際に、2つのCPUそれぞれにおける内部回路
の二重化及び内部バスの二重化を行うことなく、周辺装
置に対する出力データの高信頼性を確保することが可能
になる電子計算機の二重化方式を提供することを目的と
する。
用いたフォールトトレラントやコンピュータシステムを
構築する際に、2つのCPUそれぞれにおける内部回路
の二重化及び内部バスの二重化を行うことなく、周辺装
置に対する出力データの高信頼性を確保することが可能
になる電子計算機の二重化方式を提供することを目的と
する。
[発明の構成]
(課題を解決するための手段)
すなわち、本発明に係わる電子計算機の二重化方式は、
2台のCPUを用いてフォールトトレラント・コンピュ
ータシステムを構成するもので、上記2台のCPUそれ
ぞれのバス制御モジュールに備えられ自CPUと相手方
CPUの出力データ同士の一致/不一致を比較検出する
出力比較手段と、この8力比較手段によりデータ不一致
が検出された場合にバス制御モジュールからのデータ出
力動作を停止させるデータ出力停止手段と、上記出力比
較手段によりデータ不一致が検出された場合にその不一
致情報をCPUに対して通知する比較情報通知手段と、
この比較情報通知手段によりCPUに不一致情報が通知
された際に所定回数のリトライ処理を実施する第1の異
常特定化手段と、この第1の異常特定化手段を行なった
際に上記比較情報通知手段によりCPUに継続して不一
致情報が通知されている場合にはオペレーションシステ
ムにより管理されるテストプログラムを実行する第2の
異常特定化手段と、この第2の異常特定化手段を行なっ
た際に上記比較情報通知手段によりCPUに継続して不
一致情報か通知されている場合には上記コンピュータシ
ステムの停止/再起動処理を実施するシステム復帰手段
とを備えてなるものである。
2台のCPUを用いてフォールトトレラント・コンピュ
ータシステムを構成するもので、上記2台のCPUそれ
ぞれのバス制御モジュールに備えられ自CPUと相手方
CPUの出力データ同士の一致/不一致を比較検出する
出力比較手段と、この8力比較手段によりデータ不一致
が検出された場合にバス制御モジュールからのデータ出
力動作を停止させるデータ出力停止手段と、上記出力比
較手段によりデータ不一致が検出された場合にその不一
致情報をCPUに対して通知する比較情報通知手段と、
この比較情報通知手段によりCPUに不一致情報が通知
された際に所定回数のリトライ処理を実施する第1の異
常特定化手段と、この第1の異常特定化手段を行なった
際に上記比較情報通知手段によりCPUに継続して不一
致情報が通知されている場合にはオペレーションシステ
ムにより管理されるテストプログラムを実行する第2の
異常特定化手段と、この第2の異常特定化手段を行なっ
た際に上記比較情報通知手段によりCPUに継続して不
一致情報か通知されている場合には上記コンピュータシ
ステムの停止/再起動処理を実施するシステム復帰手段
とを備えてなるものである。
(作用)
つまり、バス制御モジュールからCPUの中枢となる演
算制御モジュールに対して出力データの不一致情報が通
知された際には、データ出力動作を停止させると共に、
複数の異常発生特定化手段を段階的に実施して異常発生
CPUの特定化を行ない、この段階的な異常発生特定化
手段により異常発生CPUが特定されない場合には、さ
らに、システム停止/再起動処理を実施することで異常
データが解消されるようになる。
算制御モジュールに対して出力データの不一致情報が通
知された際には、データ出力動作を停止させると共に、
複数の異常発生特定化手段を段階的に実施して異常発生
CPUの特定化を行ない、この段階的な異常発生特定化
手段により異常発生CPUが特定されない場合には、さ
らに、システム停止/再起動処理を実施することで異常
データが解消されるようになる。
(実施例)
以下図面により本発明の一実施例について説明する。
第1図は本発明の電子計算機の二重化方式に基づくフォ
ールトトレラント・コンピュータシステムの構成を示す
もので、同図において、20゜30は二重化されたCP
Uであり、各CPU20゜30にはそれぞれ主メモリ(
MEM)21,31、演算制御モジュール(ACP)2
2,32、バス制御モジュール23.33が備えられ、
それぞれ内部バス24.34を介して信号の授受が行な
われる。
ールトトレラント・コンピュータシステムの構成を示す
もので、同図において、20゜30は二重化されたCP
Uであり、各CPU20゜30にはそれぞれ主メモリ(
MEM)21,31、演算制御モジュール(ACP)2
2,32、バス制御モジュール23.33が備えられ、
それぞれ内部バス24.34を介して信号の授受が行な
われる。
バス制御モジュール23.33は、CPU内部バス24
.34と外部バス25.35との間の信号の授受を制御
すると共に、CPU間同期ケーブル40を介して相手方
バス制御モジュールとの出力信号の比較を行なうもので
、外部バス25゜35には、磁気ディスク装置50及び
CRT60が周辺装置として接続される。また、各CP
U20.30の内部バス24.34間には、該CPU2
0,30を同期制御するためのクロック回路10が接続
される。
.34と外部バス25.35との間の信号の授受を制御
すると共に、CPU間同期ケーブル40を介して相手方
バス制御モジュールとの出力信号の比較を行なうもので
、外部バス25゜35には、磁気ディスク装置50及び
CRT60が周辺装置として接続される。また、各CP
U20.30の内部バス24.34間には、該CPU2
0,30を同期制御するためのクロック回路10が接続
される。
一方、磁気ディスク装置50及びCRT60には、上記
2本の外部バス25.35に接続するための2ポートの
入出力端子を有する入出力制御プロセッサ51及び61
が備えられ、磁気ディスク装置50の入出力制御プロセ
ッサ51には磁気ディスク本体モジュール52が接続さ
れ、また、CRT60の入出力制御プロセッサ61には
CRT本体モジュール62が接続される。
2本の外部バス25.35に接続するための2ポートの
入出力端子を有する入出力制御プロセッサ51及び61
が備えられ、磁気ディスク装置50の入出力制御プロセ
ッサ51には磁気ディスク本体モジュール52が接続さ
れ、また、CRT60の入出力制御プロセッサ61には
CRT本体モジュール62が接続される。
第2図は上記2つのCPU20.30のバス制御モジュ
ール23.33の内部構成を示すもので、内部バス24
.34及び外部バス25.35は、各バス制御モジュー
ル23.33の主論理回路231.331に接続される
。この主論理回路231.331は、内部バス24.3
4から与えられた信号のパリティチエツクを行なうと共
に、内部バス24.34と外部バス25.35との間で
伝送信号のタイミング変換やデータ幅変換等の処理を実
行するもので、この主論理回路231゜331には、出
力比較回路232,332からの比較結果信号が比較結
果通知ライン233゜333を介して供給される。
ール23.33の内部構成を示すもので、内部バス24
.34及び外部バス25.35は、各バス制御モジュー
ル23.33の主論理回路231.331に接続される
。この主論理回路231.331は、内部バス24.3
4から与えられた信号のパリティチエツクを行なうと共
に、内部バス24.34と外部バス25.35との間で
伝送信号のタイミング変換やデータ幅変換等の処理を実
行するもので、この主論理回路231゜331には、出
力比較回路232,332からの比較結果信号が比較結
果通知ライン233゜333を介して供給される。
出力比較回路232,332は、それぞれ目方のCPU
が外部バスに出力する信号と、他方のCPUが外部バス
に出力する信号とを、前記CPU間同期ケーブル40を
介して比較しその一致/不一致を検出するもので、この
出力比較回路232.332からの一致/不一致信号は
、各対応する比較結果通知ライン233,333を介し
て主論理回路231,331に出力される。
が外部バスに出力する信号と、他方のCPUが外部バス
に出力する信号とを、前記CPU間同期ケーブル40を
介して比較しその一致/不一致を検出するもので、この
出力比較回路232.332からの一致/不一致信号は
、各対応する比較結果通知ライン233,333を介し
て主論理回路231,331に出力される。
次に、上記構成によるフォールトトレラント・コンピュ
ータシステムの動作について説明する。
ータシステムの動作について説明する。
まず、CPU20.30が磁気ディスク装置50にデー
タ転送を行なう場合に、演算制御モジュール(ACP)
22.32から磁気ディスク装置50への入出力動作起
動命令や、その後に主メモリ(MEM)21.31から
送られる各種のデータは、高速な内部バス24.34を
介してバス制御モジュール23.33に送られ、外部バ
ス25.35用の信号伝送タイミング及びデータ伝送幅
に変換されて該外部バス25.35に出力される。する
と、この外部バス25.35に出力されたデータは磁気
ディスク装置50の入出力制御プロセッサ51に取込ま
れ磁気ディスク本体モジュール52に送られる。そして
、磁気ディスク本体モジュール52において転送データ
の書込みが実行される。
タ転送を行なう場合に、演算制御モジュール(ACP)
22.32から磁気ディスク装置50への入出力動作起
動命令や、その後に主メモリ(MEM)21.31から
送られる各種のデータは、高速な内部バス24.34を
介してバス制御モジュール23.33に送られ、外部バ
ス25.35用の信号伝送タイミング及びデータ伝送幅
に変換されて該外部バス25.35に出力される。する
と、この外部バス25.35に出力されたデータは磁気
ディスク装置50の入出力制御プロセッサ51に取込ま
れ磁気ディスク本体モジュール52に送られる。そして
、磁気ディスク本体モジュール52において転送データ
の書込みが実行される。
ここで、両方のCPU20,30からの出力データが正
常である場合には、外部バス25と35とはそれぞれ同
じ内容のデータを流しているので、各バス制御モジュー
ル23.33における出力比較回路232,332から
は、それぞれ対応する比較結果通知ライン233,33
3を介して主論理回路231,331に出カ一致を示す
信号が送られる。この場合、それ以降の動作が継続され
る。
常である場合には、外部バス25と35とはそれぞれ同
じ内容のデータを流しているので、各バス制御モジュー
ル23.33における出力比較回路232,332から
は、それぞれ対応する比較結果通知ライン233,33
3を介して主論理回路231,331に出カ一致を示す
信号が送られる。この場合、それ以降の動作が継続され
る。
また、例えば一方のCPU30からの出力データに誤り
がある場合に、出力比較回路332で検出されるデータ
誤りの形態は2通りに大別される。
がある場合に、出力比較回路332で検出されるデータ
誤りの形態は2通りに大別される。
つまり、第1のエラー形態は、主メモリ(MEM)31
及びバス制御モジュール33が付与したパリティ情報に
よりエラーとして認識できるもので、これは上記主メモ
リ(MEM)31あるいはバス制御モジュール33の故
障や内部バス34上の障害に起因する。また、第2のエ
ラー形態は、上記パリティエラーに掛からないもので、
この原因としては、内部バス34上で発生した2ビ・ソ
ト以上の誤りや何等かの原因で主メモリ(MEM)31
に書込まれていた誤データの読出し等がある。
及びバス制御モジュール33が付与したパリティ情報に
よりエラーとして認識できるもので、これは上記主メモ
リ(MEM)31あるいはバス制御モジュール33の故
障や内部バス34上の障害に起因する。また、第2のエ
ラー形態は、上記パリティエラーに掛からないもので、
この原因としては、内部バス34上で発生した2ビ・ソ
ト以上の誤りや何等かの原因で主メモリ(MEM)31
に書込まれていた誤データの読出し等がある。
すなわち、上記第1のエラー形態として、内部バス34
上のデータにパリティエラーか発生した場合には、バス
制御モジュール33における主論理回路331の内部に
ありバスを監視している/(リティ検出回路においてエ
ラーが検出され、外部バス35への出力が禁止されると
共に、演算制御モジュール(ACP)32に対してエラ
ーが通知される。すると、上記CPU30の演算制御モ
ジュール(ACP)32は、故障箇所修復の後、相手方
CPU20との間で同期運転に復帰するための制御を実
行し、2台のCPU20,30による通常動作に戻る。
上のデータにパリティエラーか発生した場合には、バス
制御モジュール33における主論理回路331の内部に
ありバスを監視している/(リティ検出回路においてエ
ラーが検出され、外部バス35への出力が禁止されると
共に、演算制御モジュール(ACP)32に対してエラ
ーが通知される。すると、上記CPU30の演算制御モ
ジュール(ACP)32は、故障箇所修復の後、相手方
CPU20との間で同期運転に復帰するための制御を実
行し、2台のCPU20,30による通常動作に戻る。
また、上記第2のエラー形態として、CPU30の主メ
モリ(MEM)31に記憶されているデータに誤りが生
じている場合には、演算制御モジュール(ACP)32
は目方CPU30内のメモリ情報に異常かあることを認
識してないので(認識していれば、自CPU異常として
システム再構成の処理を実行し、異常箇所の修復後通常
運転に復帰する)、該誤データが内部バス34を経てバ
ス制御モジュール33に出力される際には正しくパリテ
ィ情報が付与される。このため、バス制御モジュール3
3の主論理回路331が上記誤データを受信した時点て
はパリティエラーは検出されないか、外部バス35に圧
力するデータとCPU間同期ケーブル40を介して取込
んた相手方外部バス25からの出力データとは一致しな
くなるので、バス制御モジュール33における出力比較
回路332からは比較結果通知ライン333を介して「
不一致」を示す信号が主論理回路331に送られると共
に、相手方CPU20における出力比較回路232でも
データ不一致エラが検出され、「不一致」を示す信号が
主論理回路231に送られる。
モリ(MEM)31に記憶されているデータに誤りが生
じている場合には、演算制御モジュール(ACP)32
は目方CPU30内のメモリ情報に異常かあることを認
識してないので(認識していれば、自CPU異常として
システム再構成の処理を実行し、異常箇所の修復後通常
運転に復帰する)、該誤データが内部バス34を経てバ
ス制御モジュール33に出力される際には正しくパリテ
ィ情報が付与される。このため、バス制御モジュール3
3の主論理回路331が上記誤データを受信した時点て
はパリティエラーは検出されないか、外部バス35に圧
力するデータとCPU間同期ケーブル40を介して取込
んた相手方外部バス25からの出力データとは一致しな
くなるので、バス制御モジュール33における出力比較
回路332からは比較結果通知ライン333を介して「
不一致」を示す信号が主論理回路331に送られると共
に、相手方CPU20における出力比較回路232でも
データ不一致エラが検出され、「不一致」を示す信号が
主論理回路231に送られる。
これにより、各CPU20,30におけるバス制御モジ
ュール23.33の入出力動作が中断されると共に、そ
れぞれ外部バス25.35を介し各周辺装置50.60
の入出力制御ブロモ・ソサ51.61にエラー発生が通
知され、また、これと同時に、各CPU20,30の演
算制御モジュール(ACP)23.33に対しても「不
一致エラー発生」が通知される。
ュール23.33の入出力動作が中断されると共に、そ
れぞれ外部バス25.35を介し各周辺装置50.60
の入出力制御ブロモ・ソサ51.61にエラー発生が通
知され、また、これと同時に、各CPU20,30の演
算制御モジュール(ACP)23.33に対しても「不
一致エラー発生」が通知される。
このとき、各CPU20.30においては、データエラ
ーの原因がどちら側にあるかを特定できないため、上記
「不一致エラー」が発生した場合には、先ず、第1のエ
ラー特定化手段として、所定回数のデータ再送処理(リ
トライ)が実施される。
ーの原因がどちら側にあるかを特定できないため、上記
「不一致エラー」が発生した場合には、先ず、第1のエ
ラー特定化手段として、所定回数のデータ再送処理(リ
トライ)が実施される。
すなわち、上記主メモリ(MEM)31の内容が誤った
原因が一過性のものであった場合、上記リトライ処理の
過程で該誤データが正常なデータに復帰することが考え
られる。この場合、例えば内部バス34上で発生したノ
イズ等に起因する一過性のエラーに対しても同様の作用
が得られる。
原因が一過性のものであった場合、上記リトライ処理の
過程で該誤データが正常なデータに復帰することが考え
られる。この場合、例えば内部バス34上で発生したノ
イズ等に起因する一過性のエラーに対しても同様の作用
が得られる。
また、上記主メモリ(MEM)31において、メモリ情
報が誤ったまま固定されていた場合でも、上記リトライ
処理を実施している過程で、プログラム上に矛盾が発生
したり、あるいはウォッチドッグタイマー(時間監視プ
ログラム)でエラー検出されることにより、一方のCP
U30によるプログラム処理が停止されるようになり、
異常発生CPUの特定化が行なわれる。これにより、シ
ステム再構成と修復の処置に入ることかできる。
報が誤ったまま固定されていた場合でも、上記リトライ
処理を実施している過程で、プログラム上に矛盾が発生
したり、あるいはウォッチドッグタイマー(時間監視プ
ログラム)でエラー検出されることにより、一方のCP
U30によるプログラム処理が停止されるようになり、
異常発生CPUの特定化が行なわれる。これにより、シ
ステム再構成と修復の処置に入ることかできる。
次に、上記所定回数のリトライ処理を実施しても、それ
ぞれのバス制御モジュール23.33から演算制御モジ
ュール(ACP)22.32に対し「不一致エラー」の
通知が続く場合には、第2のエラー特定化手段として、
現在実行中のタスクがアブノーマルエンドされ、代って
タスクレベルでのリトライ処理が実施される。
ぞれのバス制御モジュール23.33から演算制御モジ
ュール(ACP)22.32に対し「不一致エラー」の
通知が続く場合には、第2のエラー特定化手段として、
現在実行中のタスクがアブノーマルエンドされ、代って
タスクレベルでのリトライ処理が実施される。
この場合、上記第1のエラー特定化手段によるリトライ
処理よりも、広範囲なプログラムでのリトライが実施さ
れることになり、上記同様の作用により異常発生CPU
の特定化が行なわれる。
処理よりも、広範囲なプログラムでのリトライが実施さ
れることになり、上記同様の作用により異常発生CPU
の特定化が行なわれる。
さらに、上記タスクレベルでのリトライ処理を実施して
も、それぞれのバス制御モジュール23゜33から演算
制御モジュール(ACP)22゜32に対し「不一致エ
ラー」の通知が続く場合には、第3のエラー特定化手段
として、オペレーションシステム(O5)で管理される
テストプログラムによりハードウェアの動作チャックが
実施される。これにより、ハードウェア上のフォールト
発生箇所が診断され、異常発生CPUの特定化が行なわ
れる。
も、それぞれのバス制御モジュール23゜33から演算
制御モジュール(ACP)22゜32に対し「不一致エ
ラー」の通知が続く場合には、第3のエラー特定化手段
として、オペレーションシステム(O5)で管理される
テストプログラムによりハードウェアの動作チャックが
実施される。これにより、ハードウェア上のフォールト
発生箇所が診断され、異常発生CPUの特定化が行なわ
れる。
そして、上記テストプログラムを動作させても同等異常
が検出されない場合には、システム復帰手段として、現
在実行中のシステム動作が一旦停止され再起動が実施さ
れる。これにより、主メモリ(MEM)31上の誤デー
タは解消されることになり、正常運転に復帰できるよう
になる。つまり、この場合、磁気ディスク本体モジュー
ル52においてデータの完全な保存が図られているので
、システム再起動時には、主メモリ(MEM)31上の
誤データは正しいデータに書換えられることになる。
が検出されない場合には、システム復帰手段として、現
在実行中のシステム動作が一旦停止され再起動が実施さ
れる。これにより、主メモリ(MEM)31上の誤デー
タは解消されることになり、正常運転に復帰できるよう
になる。つまり、この場合、磁気ディスク本体モジュー
ル52においてデータの完全な保存が図られているので
、システム再起動時には、主メモリ(MEM)31上の
誤データは正しいデータに書換えられることになる。
したがって、上記構成のフォールトトレラント・コンピ
ュータシステムによれば、二重化したCPU20,30
の各バス制御モジュール23゜33において、自CPU
からの出力データと相手方CPUからの出力データとの
一致/不一致を比較検出し、該バス制御モジュール23
または33から演算制御モジュール22または32に対
して8カデータの不一致エラーが通知された際には、デ
ータ出力動作を停止させると共に、■データ再送処理、
■タスクレベルでのリトライ処理、■テストプログラム
によるハードウェアの動作チエツクを段階的に実施して
異常発生CPUの特定化を行ない、この段階的なエラー
特定化手段により異常発生CPUが特定されない場合に
は、さらに、システム停止/再起動処理を実施してエラ
ーデータの解消を行なうので、確実に異常発生CPUを
特定しあるいは異常発生箇所を解消して、周辺装置に対
する出力データの高信頼性を確保することができる。
ュータシステムによれば、二重化したCPU20,30
の各バス制御モジュール23゜33において、自CPU
からの出力データと相手方CPUからの出力データとの
一致/不一致を比較検出し、該バス制御モジュール23
または33から演算制御モジュール22または32に対
して8カデータの不一致エラーが通知された際には、デ
ータ出力動作を停止させると共に、■データ再送処理、
■タスクレベルでのリトライ処理、■テストプログラム
によるハードウェアの動作チエツクを段階的に実施して
異常発生CPUの特定化を行ない、この段階的なエラー
特定化手段により異常発生CPUが特定されない場合に
は、さらに、システム停止/再起動処理を実施してエラ
ーデータの解消を行なうので、確実に異常発生CPUを
特定しあるいは異常発生箇所を解消して、周辺装置に対
する出力データの高信頼性を確保することができる。
この場合、各CPU20,30それぞれの内部回路まで
も二重化することがないので、従来の二重化方式に比較
して少ないノ\−ドウエアでフォールトトレラント・コ
ンピュータシステムを実現でき、システム構築コストの
上昇を防止できると共に、内部バス上でのエラー発生を
抑制することができる。また、上記二重化CPU20,
30同士の出力データ比較処理を、該CPU20,30
の中枢である演算制御モジュール(ACP)22゜32
では行なわずに、バス制御モジュール23゜33におい
て行なうので、CPU自体の処理速度の高速化が妨げら
れることなく、比較的低速な出力比較回路232,33
2を用いて安定したエラー検出動作を得ることができ、
しかも、上記CPUの内部、つまり、演算制御モジュー
ル(ACP)、主メモリ(MEM)、内部バスを通した
一貫したエラーチエツクを行なうことができる。
も二重化することがないので、従来の二重化方式に比較
して少ないノ\−ドウエアでフォールトトレラント・コ
ンピュータシステムを実現でき、システム構築コストの
上昇を防止できると共に、内部バス上でのエラー発生を
抑制することができる。また、上記二重化CPU20,
30同士の出力データ比較処理を、該CPU20,30
の中枢である演算制御モジュール(ACP)22゜32
では行なわずに、バス制御モジュール23゜33におい
て行なうので、CPU自体の処理速度の高速化が妨げら
れることなく、比較的低速な出力比較回路232,33
2を用いて安定したエラー検出動作を得ることができ、
しかも、上記CPUの内部、つまり、演算制御モジュー
ル(ACP)、主メモリ(MEM)、内部バスを通した
一貫したエラーチエツクを行なうことができる。
尚、上記実施例における電子計算機の二重化方式は、マ
イクロプロセッサ応用製品の全般に対し適用することが
できる。
イクロプロセッサ応用製品の全般に対し適用することが
できる。
[発明の効果]
以上のように本発明によれば、2台のCPUを用いてフ
ォールトトレラント・コンピュータシステムを構成する
もので、上記2台のCPUそれそレノバス制御モジュー
ルに備えられ自CPUと相手方CPUの出力データ同士
の一致/不一致を比較検出する出力比較手段と、この出
力比較手段によりデータ不一致が検出された場合にバス
制御モジュールからのデータ8カ動作を停止させるデー
タ出力停止手段と、上記出力比較手段によりデータ不一
致が検出された場合にその不一致情報をCPUに対して
通知する比較情報通知手段と、この比較情報通知手段に
よりCPUに不一致情報が通知された際に所定回数のリ
トライ処理を実施する第1の異常特定化手段と、この第
1の異常特定化手段を行なった際に上記比較情報通知手
段によりCPUに継続して不一致情報が通知されている
場合にはオペレーションシステムにより管理されるテス
トプログラムを実行する第2の異常特定化手段と、この
第2の異常特定化手段を行なった際に上記比較情報通知
手段によりCPUに継続して不一致情報が通知されてい
る場合には上記コンピュータシステムの停止/再起動処
理を実施するシステム復帰手段とを備え、確実に異常発
生CPUを特定するかあるいは異常発生箇所を解消でき
るので、高速CPUを用いたフォールトトレラント・コ
ンピュータシステムを構築する際に、2つのCPUそれ
ぞれにおける内部回路の二重化及び内部バスの二重化を
行なうことなく、周辺装置に対する出力データの高信頼
性を確保することが可能になる。
ォールトトレラント・コンピュータシステムを構成する
もので、上記2台のCPUそれそレノバス制御モジュー
ルに備えられ自CPUと相手方CPUの出力データ同士
の一致/不一致を比較検出する出力比較手段と、この出
力比較手段によりデータ不一致が検出された場合にバス
制御モジュールからのデータ8カ動作を停止させるデー
タ出力停止手段と、上記出力比較手段によりデータ不一
致が検出された場合にその不一致情報をCPUに対して
通知する比較情報通知手段と、この比較情報通知手段に
よりCPUに不一致情報が通知された際に所定回数のリ
トライ処理を実施する第1の異常特定化手段と、この第
1の異常特定化手段を行なった際に上記比較情報通知手
段によりCPUに継続して不一致情報が通知されている
場合にはオペレーションシステムにより管理されるテス
トプログラムを実行する第2の異常特定化手段と、この
第2の異常特定化手段を行なった際に上記比較情報通知
手段によりCPUに継続して不一致情報が通知されてい
る場合には上記コンピュータシステムの停止/再起動処
理を実施するシステム復帰手段とを備え、確実に異常発
生CPUを特定するかあるいは異常発生箇所を解消でき
るので、高速CPUを用いたフォールトトレラント・コ
ンピュータシステムを構築する際に、2つのCPUそれ
ぞれにおける内部回路の二重化及び内部バスの二重化を
行なうことなく、周辺装置に対する出力データの高信頼
性を確保することが可能になる。
【図面の簡単な説明】
第1図は本発明の電子計算機の二重化方式の一実施例に
係わるフォールトトレラント・コンピュータシステムの
構成を示すブロック図、第2図は上記フォールトトレラ
ント中コンピュータシステムにおける2つのCPUのバ
ス制御モジュールの内部構成を示すブロック図、第3図
は従来の二重化方式によるフォールトトレラント・コン
ピュータシステムの構成を示すブロック図である。 10・・・クロック回路、20.30・・・CPU。 21.31・・・主メモリ (MEM) 、22.32
・演算制御モジュール(ACP) 、23.33・・・
バス制御モジュール、24.34・・・内部ハス、25
゜35・・・外部バス、40・・・CPU間同期ケーブ
ル、50・・・磁気ディスク装置、51.61・・・入
出力制御プロセッサ、52・・・磁気ディスク本体モジ
ュール、62・・・CRT本体モジュール、23]33
1・・・主論理回路、232.332・・・出力比較回
路、233,333・・・比較結果通知ライン。 出願人代理人 弁理士 鈴江武彦
係わるフォールトトレラント・コンピュータシステムの
構成を示すブロック図、第2図は上記フォールトトレラ
ント中コンピュータシステムにおける2つのCPUのバ
ス制御モジュールの内部構成を示すブロック図、第3図
は従来の二重化方式によるフォールトトレラント・コン
ピュータシステムの構成を示すブロック図である。 10・・・クロック回路、20.30・・・CPU。 21.31・・・主メモリ (MEM) 、22.32
・演算制御モジュール(ACP) 、23.33・・・
バス制御モジュール、24.34・・・内部ハス、25
゜35・・・外部バス、40・・・CPU間同期ケーブ
ル、50・・・磁気ディスク装置、51.61・・・入
出力制御プロセッサ、52・・・磁気ディスク本体モジ
ュール、62・・・CRT本体モジュール、23]33
1・・・主論理回路、232.332・・・出力比較回
路、233,333・・・比較結果通知ライン。 出願人代理人 弁理士 鈴江武彦
Claims (1)
- 【特許請求の範囲】 2台のCPUを用いてフォールトトレラント・コンピュ
ータシステムを構成する電子計算機の二重化方式におい
て、 上記2台のCPUそれぞれのバス制御モジュールに備え
られ自CPUと相手方CPUの出力データ同士の一致/
不一致を比較検出する出力比較手段と、 この出力比較手段によりデータ不一致が検出された場合
にバス制御モジュールからのデータ出力動作を停止させ
るデータ出力停止手段と、 上記出力比較手段によりデータ不一致が検出された場合
にその不一致情報をCPUに対して通知する比較情報通
知手段と、 この比較情報通知手段によりCPUに不一致情報が通知
された際に所定回数のリトライ処理を実施する第1の異
常特定化手段と、 この第1の異常特定化手段を行なった際に上記比較情報
通知手段によりCPUに継続して不一致情報が通知され
ている場合にはオペレーションシステムにより管理され
るテストプログラムを実行する第2の異常特定化手段と
、 この第2の異常特定化手段を行なった際に上記比較情報
通知手段によりCPUに継続して不一致情報が通知され
ている場合には上記コンピュータシステムの停止/再起
動処理を実施するシステム復帰手段とを具備したことを
特徴とする電子計算機の二重化方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2184614A JPH0471037A (ja) | 1990-07-12 | 1990-07-12 | 電子計算機の二重化方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2184614A JPH0471037A (ja) | 1990-07-12 | 1990-07-12 | 電子計算機の二重化方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0471037A true JPH0471037A (ja) | 1992-03-05 |
Family
ID=16156306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2184614A Pending JPH0471037A (ja) | 1990-07-12 | 1990-07-12 | 電子計算機の二重化方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0471037A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6334194B1 (en) | 1997-11-07 | 2001-12-25 | Nec Corporation | Fault tolerant computer employing double-redundant structure |
JP2004326151A (ja) * | 2003-04-21 | 2004-11-18 | Nec Corp | データ処理装置 |
-
1990
- 1990-07-12 JP JP2184614A patent/JPH0471037A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6334194B1 (en) | 1997-11-07 | 2001-12-25 | Nec Corporation | Fault tolerant computer employing double-redundant structure |
JP2004326151A (ja) * | 2003-04-21 | 2004-11-18 | Nec Corp | データ処理装置 |
JP4492035B2 (ja) * | 2003-04-21 | 2010-06-30 | 日本電気株式会社 | データ処理装置 |
US7821919B2 (en) | 2003-04-21 | 2010-10-26 | Nec Corporation | Data processing apparatus and data processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100566338B1 (ko) | 폴트 톨러런트 컴퓨터 시스템, 그의 재동기화 방법 및 재동기화 프로그램이 기록된 컴퓨터 판독가능 기억매체 | |
JP3206006B2 (ja) | 二重化バス制御方法及び装置 | |
EP0201356B1 (en) | High level self-checking intelligent i/o controller | |
US5838900A (en) | Digital data processing methods and apparatus for fault detection and fault tolerance | |
US5353436A (en) | Method and apparatus for synchronizing a plurality of processors | |
US7802138B2 (en) | Control method for information processing apparatus, information processing apparatus, control program for information processing system and redundant comprisal control apparatus | |
JP2532317B2 (ja) | プロセス制御システムにおける汎用入出力冗長方式のバックアップ方法 | |
JPH01154242A (ja) | 二重ゾーンの耐欠陥コンピュータシステム | |
JPH01154240A (ja) | 単一レールインターフェイスにエラーチェック機能を有する二重レールプロセッサ | |
JPH07129426A (ja) | 障害処理方式 | |
JPH02118872A (ja) | I/oの読み取りに対するエラーチェック機能を有したデュアルレールプロセッサ | |
US20040193735A1 (en) | Method and circuit arrangement for synchronization of synchronously or asynchronously clocked processor units | |
US5905875A (en) | Multiprocessor system connected by a duplicated system bus having a bus status notification line | |
JPH11261663A (ja) | 通信処理制御手段及びそれを備えた情報処理装置 | |
JP3063334B2 (ja) | 高信頼度化情報処理装置 | |
JPH0471037A (ja) | 電子計算機の二重化方式 | |
JPH0471038A (ja) | 電子計算機の二重化方式 | |
JP2827713B2 (ja) | 二重化装置 | |
JPS6128141B2 (ja) | ||
JP2001175545A (ja) | サーバシステムおよび障害診断方法ならびに記録媒体 | |
JPH04344941A (ja) | 高信頼性プロセッサ | |
JPS63175937A (ja) | 障害回復方式 | |
JPH04211841A (ja) | 二重化処理装置 | |
JP2776815B2 (ja) | 多重プロセッサシステムの障害回復方法 | |
CN115729735A (zh) | 半导体装置 |