JP2002049501A - 耐故障性システム及びその故障切り分け方法 - Google Patents
耐故障性システム及びその故障切り分け方法Info
- Publication number
- JP2002049501A JP2002049501A JP2000237364A JP2000237364A JP2002049501A JP 2002049501 A JP2002049501 A JP 2002049501A JP 2000237364 A JP2000237364 A JP 2000237364A JP 2000237364 A JP2000237364 A JP 2000237364A JP 2002049501 A JP2002049501 A JP 2002049501A
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- fault
- information
- tolerant system
- collation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Hardware Redundancy (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
Abstract
装置を短時間で切り分け、サービスの中断時間をできる
だけ短くなし得る耐故障性システム及びその故障切り分
け方法を提供すること。 【解決手段】 それぞれCPU12,22、MM13,
23を有し、照合装置30の照合回路31に第一バス1
1,21が接続された情報処理装置10,20からの、
第二バス32に接続されたI/O装置33へのアクセス
要求を照合回路31により照合し、一致すれば情報処理
装置10,20に故障はないと判断し、不一致であれば
CPU11,21に通知して予め決めておいたデータに
よるアクセス要求を発生させ、これらを障害処理用レジ
スタ34に保持しておいたデータと比較することによ
り、故障した情報処理装置を判別する。
Description
が要求される通信網のノードシステム、企業内のサーバ
等に利用される耐故障性システム及びその故障切り分け
方法に関するものである。
の一例、ここでは三重化システムを示すものである。
では同じスペックの三つの情報処理装置1010,10
20,1030を備えている。各情報処理装置101
0,1020,1030は、それぞれ中央処理装置(以
下、CPU(CentralProcessing U
nit)と言う)1011,1021,1031、主記
憶装置1012,1022,1032、I/O装置10
13,1023,1033及びそれらを接続するバス1
014,1024,1034等から構成されている。
0のバス1014,1024,1034には、照合回路
1040が接続されている。照合回路1040は、バス
1014,1024,1034のそれぞれに流れる情報
を引き込み、三つの情報の多数決を取る。
いと判断し、そのままサービスを継続する。三つの情報
が不一致の場合、照合回路1040は異なる情報を出力
した情報処理装置を故障と判断する。故障と判断された
情報処理装置は、耐故障性システム1050から切り離
され、正常な二つの情報処理装置でサービスは継続され
る。
ステムの他の例、ここでは二重化システムを示すもので
ある。
ムでは同じスペックの二つの情報処理装置1060,1
070を備えている。各情報処理装置1060,107
0は、それぞれ中央処理装置(以下、CPUと言う)1
061,1071、主記憶装置1062,1072、I
/O装置1063,1073及びそれらを接続するバス
1064,1074等から構成されている。
064,1074には、照合回路1080が接続されて
いる。照合回路1080は、バス1064,1074の
それぞれに流れる情報を引き込み、二つの情報を比較す
る。
いと判断し、そのままサービスを継続する。二つの情報
が不一致の場合、照合回路1080は、いずれかの情報
処理装置に異常が発生したと判断し、その旨を(図示し
ない割り込み通知の線にて)両方の情報処理装置106
0,1070へ通知する。そして、サービスは中断さ
れ、ヒストリ情報解析や状態情報解析、レジスタの内容
の比較、レジスタ、メモリ、I/O装置等のアクセスの
正常性確認等、様々な試験から成る障害処理が行われ、
異常の有り無しを判定し、照合回路1080へ通知され
る。照合回路1080は、その情報から故障した情報処
理装置を耐故障性システム1090から切り離し、正常
な情報処理装置でサービスを再開する。
の三重化による耐故障性システムにおける、故障した情
報処理装置を切り分けは、三つの情報処理装置で全く同
一の処理を行い、各情報処理装置のある情報で多数決を
行うことで実現し、また、従来の二重化による耐故障性
システムにおける、故障した情報処理装置を切り分け
は、二つの情報処理装置で全く同一の処理を行い、各情
報処理装置のある情報の比較を行い、不一致が生じた場
合には、どちらの情報処理装置が故障であるかを特定す
るために、ヒストリ情報解析や状態情報解析、レジスタ
の内容の比較、レジスタ、メモリ、I/O装置等のアク
セスの正常性確認等、様々な試験を行うことで実現して
いた。
は、以下のような点が問題となっていた。 (1)三重化システムにした場合、コストが高くなる。 (2)二重化システムにした場合、故障した情報処理装
置を切り分けるために多くの時間がかかり、長時間サー
ビスが中断される。
であり、その目的とするところは、上記問題点を解決
し、二重化システムにおいて、故障した情報処理装置を
短時間で切り分け、サービスの中断時間をできるだけ短
くなし得る耐故障性システム及びその故障切り分け方法
を提供することにある。
に、請求項1の発明では、それぞれ中央処理装置を有す
る二つの情報処理装置と、各情報処理装置を接続すると
ともに情報処理装置から出される要求の同一性を照合し
故障を検出する照合手段とを有する耐故障性システムに
おいて、前記照合手段は、前記要求の照合の結果が不一
致であった場合、各情報処理装置に通知する手段と、各
情報処理装置から情報を受け取り、該情報と照合手段自
身が保持している情報とを合わせて三つの情報で多数決
を取り、どちらの情報処理装置が故障であるかを判断す
る手段とにより構成したことを特徴とする耐故障性シス
テムを提案する。
二つの情報と照合手段が持っている情報とを合わせて三
つの情報で多数決を取ることにより、短時間で故障の情
報処理装置を判別することができ、サービスの中断を最
小限の時間に抑えることができる。
処理装置を有する二つの情報処理装置と、各情報処理装
置を接続するとともに情報処理装置から出される要求の
同一性を照合し故障を検出する照合手段とを有する耐故
障性システムにおいて、前記照合手段は、前記要求の照
合の結果が不一致であった場合、各情報処理装置に通知
し、各情報処理装置から情報を受け取り、該情報と照合
手段自身が保持している情報とを合わせて三つの情報で
多数決を取り、どちらの情報処理装置が故障であるかを
判断することを特徴とする耐故障性システムの故障切り
分け方法を提案する。
二つの情報と照合手段が持っている情報とを合わせて三
つの情報で多数決を取ることにより、短時間で故障の情
報処理装置を判別することができ、サービスの中断を最
小限の時間に抑えることができる。
について図面を参照して説明する。
実施の形態を示すものである。
に、同一の処理を行う情報処理装置10及び20と、各
情報処理装置10及び20を接続する照合装置30とを
備えている。
一バス11,21と、第一バス11,21に接続した中
央処理装置(以下、CPUと言う)12,22と、主記
憶装置(以下、MM(Main Memory)と言
う)13,23とを備える。
回路31に接続されている第二バス32とを備えてお
り、I/O装置33は該第二バス32に接続されてい
る。照合回路31は、障害処理用レジスタ34を備えて
いる。
れ障害処理ソフトウェアを備えている。これらの障害処
理ソフトウェアは、それぞれ障害切り分けに使うため
に、予め決めておいた同じデータ、例えば「xxxx」
を持っており、耐故障性システム40の立ち上げ時に予
めそのデータ「xxxx」を障害処理用レジスタ34に
保持しておく。
合回路31は第一バス11,21に接続されている。
装置10,20からI/O装置33へのアクセスを比較
することで、情報処理装置10,20の故障を検出す
る。照合回路31は、比較の結果、一致だった場合のみ
I/O装置33へのアクセスを実行するように制御する
ことによって、情報処理装置10,20の故障を、I/
O装置33や他のシステムへ波及しないように工夫して
いる。
動作について、説明する。
ス11のバス権を獲得した後、I/O装置33へI/O
アクセス要求を出す。CPU22は、第一バス21のバ
ス権を獲得した後、I/O装置33へI/Oアクセス要
求を出す。この時点では、照合回路31は、I/O装置
33へアクセスするためのリード要求を第二バス32へ
出さない。
または22からの照合対象のI/Oアクセス要求が来な
かった場合、不一致が発生したと判断し、その旨を割り
込みにて各情報処理装置10,20へ通知する。不一致
後の処理は、後述の障害処理ソフトウェアが行う。
PU12,22のI/Oアクセス情報の比較の結果、一
致の場合、両情報処理装置10,20は故障は無いの
で、照合回路31は、I/O装置33へアクセスするた
めの要求を第二バス32へ出し、I/Oアクセスは正常
終了する。
/Oアクセス情報の比較の結果、不一致の場合、照合回
路31は割り込みにより照合不一致である旨をCPU1
2,22へ通知する。I/Oアクセスは中断し、CPU
12,22は第一バス11,21のバス権を解放する。
U12,22では、それぞれ障害処理ソフトウェアを走
らせる。障害処理ソフトウェアは、予め決めておいたデ
ータ「xxxx」をライトデータとしてI/Oライト命
令を出す。
Oライト命令のデータと障害処理用レジスタ34内のデ
ータ「xxxx」を比較する。もし、I/Oライト命令
のデータが「xxxx」である場合、その命令を出した
情報処理装置は正常であると判断する。もし、I/Oラ
イト命令のデータが「xxxx」と異なる場合、あるい
はI/Oライトが正常に行われなかった場合、その情報
処理装置は故障と判断する。
を持っている情報処理装置を切り離し、正常な情報処理
装置だけでサービスを再開する。両方とも一致した場合
には、間欠故障として、二重化のままサービスを再開す
る。
では、CPUからのI/O装置へのアクセスを照合回路
31が仲介し、一致の場合は正常なI/O装置の処理を
行う。不一致の場合は障害処理ソフトウェアが予め決め
ておいたデータを使ってI/Oアクセスし、そのI/O
データと障害処理用レジスタ34が持っているデータと
を合わせ、三つのデータで多数決を取ることによって故
障した情報処理装置を判別する。短時間のサービスの中
断後、正常系でサービスを継続できる。
の第2の実施の形態を示すものである。
に、同一の処理を行う情報処理装置210及び220
と、各情報処理装置210及び220を接続する照合装
置230とを備えている。
れバス211,221と、バス211,221に接続し
た中央処理装置(以下、CPUと言う)212,222
と、主記憶装置(以下、MMと言う)213,223
と、I/O装置214,224とを備える。
え、また、照合回路231は障害処理用レジスタ232
を備えている。
れぞれ障害処理ソフトウェアを備えている。これらの障
害処理ソフトウェアは、それぞれ障害切り分けに使うた
めに、予め決めておいた同じデータ、例えば「xxx
x」を持っており、耐故障性システム240の立ち上げ
時に予めそのデータ「xxxx」を障害処理用レジスタ
231に保持しておく。
続している。第1の実施の形態とは異なり、照合回路2
31はバス信号を止めることなく、単にバス211,2
21上に流れる情報をスヌープしている。
の動作について、説明する。
211のバス権を獲得した後、I/O装置214へI/
Oアクセス要求を出す。CPU222は、バス221の
バス権を獲得した後、I/O装置224へI/Oアクセ
ス要求を出す。照合回路231は、バス211,221
に流れる情報をスヌープする。
2または222からの照合対象のI/Oアクセス要求が
来なかった場合、不一致が発生したと判断し、その旨を
割り込みにて各情報処理装置210,220へ通知す
る。不一致後の処理は、後述の障害処理ソフトウェアが
行う。
CPU212,222のI/Oアクセス情報の比較の結
果、一致の場合、両情報処理装置210,220は故障
は無いので、何も行わない。
2のI/Oアクセス情報の比較の結果、不一致の場合、
照合回路231は割り込みにより照合不一致である旨を
CPU212,222へ通知する。
U212,222では、それぞれ障害処理ソフトウェア
を走らせる。障害処理ソフトウェアは、予め決めておい
たデータ「xxxx」をライトデータとして照合回路2
31へ転送(照合回路231へライト)する。
送されたデータと障害処理用レジスタ232内のデータ
「xxxx」を比較する。もし、転送されたデータが
「xxxx」である場合、その命令を出した情報処理装
置は正常であると判断する。もし、転送されたデータが
「xxxx」と異なる場合、あるいは照合回路231へ
データ転送が正常に行われなかった場合、その情報処理
装置は故障と判断する。
障を持っている情報処理装置を切り離し、正常な情報処
理装置だけでサービスを再開する。両方とも一致した場
合には、間欠故障として、二重化のままサービスを再開
する。
0では、バス上に流れる情報を常にスヌープし、情報の
比較を行って故障の発生を監視する。比較の結果、不一
致の場合は障害処理ソフトウェアが予め決めておいたデ
ータを照合回路231へ転送し、障害処理用レジスタ2
32が持っているデータと合わせて三つのデータで多数
決を取ることにより、故障した情報処理装置を判別す
る。短時間のサービスの中断後、正常系でサービスを継
続できる。
は例示的なものであり、本発明はこれに限定されるもの
ではない。本発明の範囲は特許請求の範囲によって示さ
れており、この特許請求の範囲の意味の中に入る全ての
変形例は本発明に含まれるものである。
置33のみを照合装置30に配置しているが、例えば主
記憶装置(MM)等も照合装置30側に配置し、メモリ
アクセスに関しても本発明による制御を行っても良い。
の故障のみを対象としているが、図7に示すように、第
二バス32を多重化することによりI/O装置の故障に
対処できるように構成しても良い。
2と平行して第二バス32aを設けるとともに、該第二
バス32aにI/O装置33aを接続している。即ち、
第二バス32と第二バス32a、I/O装置33とI/
O装置33aは互いに同一のものとする冗長構成であ
る。このように構成することにより、さらに耐故障性が
向上する。
態では、第一バス11,21と第二バス32の種類が一
致していても、異なっていても良い。
合装置30,230を1台のみ設けたが、例えば第1の
実施の形態の応用として図8のように複数台(図8では
2台)の照合装置30,30cを接続するようにしても
良い。このように構成することにより、さらに耐故障性
が向上する。
害処理用レジスタ34,232が照合回路31,231
の外付けになっているが、照合回路31,231の内部
にあっても良い。
害処理用レジスタ34,232を使い、ハードワイヤー
ドロジックで制御しているが、ファームウェアで制御し
ても良く、さらに障害処理用レジスタ34,232に格
納するデータ「xxxx」をファームウェアのメモリ上
に保持しても良い。
わせても良い。
二重化による耐故障性システムにおいて、短時間に故障
の情報処理装置を判別できる耐故障性システムが構築で
きる。従って、(1)安い耐故障性システムを構築でき
る、(2)サービスの中断時間を最小限にすることがで
きる、といった効果が得られる。
を示す構成図
を示す構成図
示す構成図
形態を示す構成図
図
1:第一バス、12,22,212,222:CPU、
13,23,213,223:MM、30,30c,2
30:照合装置、31,231:照合回路、32,32
a:第二バス、33,33a,214,224:I/O
装置、34,232:障害処理用レジスタ、211,2
21:バス。
Claims (2)
- 【請求項1】 それぞれ中央処理装置を有する二つの情
報処理装置と、各情報処理装置を接続するとともに情報
処理装置から出される要求の同一性を照合し故障を検出
する照合手段とを有する耐故障性システムにおいて、 前記照合手段は、 前記要求の照合の結果が不一致であった場合、各情報処
理装置に通知する手段と、 各情報処理装置から情報を受け取り、該情報と照合手段
自身が保持している情報とを合わせて三つの情報で多数
決を取り、どちらの情報処理装置が故障であるかを判断
する手段とにより構成したことを特徴とする耐故障性シ
ステム。 - 【請求項2】 それぞれ中央処理装置を有する二つの情
報処理装置と、各情報処理装置を接続するとともに情報
処理装置から出される要求の同一性を照合し故障を検出
する照合手段とを有する耐故障性システムにおいて、 前記照合手段は、前記要求の照合の結果が不一致であっ
た場合、各情報処理装置に通知し、各情報処理装置から
情報を受け取り、該情報と照合手段自身が保持している
情報とを合わせて三つの情報で多数決を取り、どちらの
情報処理装置が故障であるかを判断することを特徴とす
る耐故障性システムの故障切り分け方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000237364A JP2002049501A (ja) | 2000-08-04 | 2000-08-04 | 耐故障性システム及びその故障切り分け方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000237364A JP2002049501A (ja) | 2000-08-04 | 2000-08-04 | 耐故障性システム及びその故障切り分け方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002049501A true JP2002049501A (ja) | 2002-02-15 |
Family
ID=18729236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000237364A Pending JP2002049501A (ja) | 2000-08-04 | 2000-08-04 | 耐故障性システム及びその故障切り分け方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002049501A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7107484B2 (en) | 2002-07-12 | 2006-09-12 | Nec Corporation | Fault-tolerant computer system, re-synchronization method thereof and re-synchronization program thereof |
US7225355B2 (en) | 2002-07-12 | 2007-05-29 | Nec Corporation | Fault-tolerant computer system, re-synchronization method thereof and re-synchronization program thereof |
JP2009086938A (ja) * | 2007-09-28 | 2009-04-23 | Hitachi Ltd | 高安全制御装置 |
JP2010218370A (ja) * | 2009-03-18 | 2010-09-30 | Nec Corp | フォールトトレラントシステム |
JP2011175641A (ja) * | 2010-02-23 | 2011-09-08 | Infineon Technologies Ag | 時間的に分離した冗長プロセッサの実行を使用しての周辺機器への読み書き |
JP6271103B1 (ja) * | 2017-02-22 | 2018-01-31 | 三菱電機株式会社 | 制御装置及び制御方法 |
-
2000
- 2000-08-04 JP JP2000237364A patent/JP2002049501A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7107484B2 (en) | 2002-07-12 | 2006-09-12 | Nec Corporation | Fault-tolerant computer system, re-synchronization method thereof and re-synchronization program thereof |
US7225355B2 (en) | 2002-07-12 | 2007-05-29 | Nec Corporation | Fault-tolerant computer system, re-synchronization method thereof and re-synchronization program thereof |
JP2009086938A (ja) * | 2007-09-28 | 2009-04-23 | Hitachi Ltd | 高安全制御装置 |
JP2010218370A (ja) * | 2009-03-18 | 2010-09-30 | Nec Corp | フォールトトレラントシステム |
JP2011175641A (ja) * | 2010-02-23 | 2011-09-08 | Infineon Technologies Ag | 時間的に分離した冗長プロセッサの実行を使用しての周辺機器への読み書き |
JP6271103B1 (ja) * | 2017-02-22 | 2018-01-31 | 三菱電機株式会社 | 制御装置及び制御方法 |
WO2018154664A1 (ja) * | 2017-02-22 | 2018-08-30 | 三菱電機株式会社 | 制御装置及び制御方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA1180453A (en) | Digital data processor with fault tolerant bus protocol | |
JP3447404B2 (ja) | マルチプロセッサシステム | |
US5742851A (en) | Information processing system having function to detect fault in external bus | |
US20060212749A1 (en) | Failure communication method | |
JP2002049501A (ja) | 耐故障性システム及びその故障切り分け方法 | |
JP2006172243A (ja) | フォルトトレラントコンピュータ装置およびその同期化方法 | |
US6330694B1 (en) | Fault tolerant system and method utilizing the peripheral components interconnection bus monitoring card | |
JP2002269029A (ja) | 高信頼性情報処理装置及びそれに用いる情報処理方法並びにそのプログラム | |
JP2004110801A (ja) | 再初期化したチャネル間接続の妥当性を検査するための技法 | |
JP2002373084A (ja) | 二重化システムの状態交換・障害検出兼用方法 | |
EP0860777A2 (en) | Fault tolerant data processing system and method therefor | |
US7515528B2 (en) | Host fail-over switch presence detection compatible with existing protocol and host controllers | |
EP1845447B1 (en) | Method, apparatus and software for preventing switch failures in the presence of faults | |
JP2002014943A (ja) | 耐故障性システム及びその故障検出方法 | |
JP2001175545A (ja) | サーバシステムおよび障害診断方法ならびに記録媒体 | |
JP3825640B2 (ja) | 耐故障性システム及びその故障切り分け方法 | |
JP2006079241A (ja) | リモート保守システム及びリモート保守方法 | |
JPH11143783A (ja) | コンピュータシステムの二重化メモリ診断方法 | |
KR0176085B1 (ko) | 병렬처리 컴퓨터 시스템에서의 프로세서 노드 및 노드연결망의 에러 검출방법 | |
JP2815730B2 (ja) | アダプタ及びコンピュータシステム | |
KR0175468B1 (ko) | 이중 시스템 버스 정합 장치 | |
JPH08263455A (ja) | マルチ・プロセッサ・システムにおける故障プロセッサのデグレード方式 | |
JP3326969B2 (ja) | メモリチェック装置 | |
JP3015537B2 (ja) | 電子計算機の二重化方式 | |
JPH04101255A (ja) | バスバックアップ機構 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040921 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050816 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060124 |