JP2776815B2 - 多重プロセッサシステムの障害回復方法 - Google Patents

多重プロセッサシステムの障害回復方法

Info

Publication number
JP2776815B2
JP2776815B2 JP62291565A JP29156587A JP2776815B2 JP 2776815 B2 JP2776815 B2 JP 2776815B2 JP 62291565 A JP62291565 A JP 62291565A JP 29156587 A JP29156587 A JP 29156587A JP 2776815 B2 JP2776815 B2 JP 2776815B2
Authority
JP
Japan
Prior art keywords
failure
processing
processing device
contents
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62291565A
Other languages
English (en)
Other versions
JPH01133171A (ja
Inventor
尚文 山田
正壱郎 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP62291565A priority Critical patent/JP2776815B2/ja
Publication of JPH01133171A publication Critical patent/JPH01133171A/ja
Application granted granted Critical
Publication of JP2776815B2 publication Critical patent/JP2776815B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、多重プロセッサシステムの障害回復方法に
係り、特に、固定障害発生時の回復処理に好適な多重プ
ロセッサシステムの障害回復方法に関する。 〔従来の技術〕 情報処理装置において、障害が発生した場合の回復方
法としては、命令単位に再実行する方法や、一定のチェ
ックポイントにもどって再実行する方法などが知られて
いる。これは、いずれも間欠障害の回復を行うことを目
的としており、障害が発生した時、障害発生時に実行中
であった処理を再実行することにより障害の回復を行う
ものである。 一方、固定障害が発生した場合、上記方法では障害を
回復することができない。情報処理装置において固定障
害が発生し、障害回復に失敗した場合、一般に障害回復
失敗の割込みを発生させる。例えば、回復不可能な障害
が発生したことをマシンチェック割込みにより知らせ
る。 回復不可能な障害が発生した時のマシンチェック割込
みには、次に示す2種類がある。 (1)回復不能な障害が発生したが、障害発生前の状態
に戻っており、割込みポイントの状態が保証されてい
る。 (2)回復不能な障害が発生し、割込みポイントの状態
は保証されていない。 (1)の状態のマシンチェック割込みをPD・B(プロ
セッサダメージ・バックアップ)と呼び、(2)の状態
のマシンチェックをPD(プロセッサダメージ)と呼ぶ。
この2つの状態の差を、第5図を用いて説明する。第5
図は、命令A→B→C→Dの順に命令が実行されるプロ
グラムである。今、命令Cの実行中に障害が発生したと
する。この時、PD・Bのマシンチェック割込みが発生し
たとすると、命令処理装置の状態は、命令Cの実行前の
状態(障害発生直前のチェックポイントの状態)が保証
されている。すなわち、割込みを受けつけた後、再度、
命令Cから実行を再開出来れば、プログラムは正常に実
行を続けることが出来る。一方、PDのマシンチェック割
込みが発生した場合には、命令処理装置は、命令Cによ
り内部状態が変更されてしまっているか、あるいは、さ
れていないかの切分けが不可能な状態にある。 マシンチェック割込みを受けつけると、制御プログラ
ムは、次のような処理を試みる。 (1)PD・Bのとき 割込みポイントからの処理を再度続行しようと試み
る。再実行が成功すれば、障害の回復が成功することに
なる。 (2)PDのとき 実行中の処理を異常終了させる。 ところで、固定障害が発生し、ハードウェアにより再
実行が失敗した場合、マシンチェック割込みにより、制
御プログラムに報告を行うが、報告を受け、処理の続行
あるいは異常終了処理を行うのは、障害を起した命令処
理装置であり、再度障害を起す可能性が高い。このよう
な場合、障害は制御プログラムの障害処理部分または中
核部分で発生することになり、システムダウンとなる可
能性が高い。 従来、固定障害によりシステムダウンとなるのを防止
するため、多重プロセッサシステムでは、障害が発生し
た処理装置で行っていた処理を、他の正常な処理装置で
引き続いて再実行を行うという手法が取られる。なお、
これに関連するものには、例えば特公昭61−28141号公
報を挙げることができる。 〔発明が解決しようとする問題点〕 従来技術では、一方の処理装置で固定障害が発生した
場合、その処理装置の退避レジスタ群の情報を直接他方
の処理装置の退避レジスタ群に移送している。このた
め、処理装置間に退避レジスタ群の情報を移送するため
のデータパスが必要であり、複数の処理装置を備えるシ
ステムでは、各処理装置間にこのデータパスを設けなけ
ればならず、障害回復のための物量が非常に大きくなっ
てしう問題がある。また、従来技術では、他方の処理装
置は、移送された退避レジスタ群の情報により一義的に
処理を再開しており、退避された内容に異常があった場
合、正しい処理が保証されない問題がある。 本発明の目的は、多重プロセッサシステムの固定障害
発生時の障害回復処理における上記問題点を解決するこ
とにある。 〔問題点を解決するための手段〕 本発明の障害回復方法は、ある処理装置が障害を検出
した場合、該障害が固定障害か否かを判定するステップ
と、障害を固定障害と判定した場合、障害を起こした処
理装置の障害発生前の所定の時点(チェックポイント)
のレジスタ群の内容を主記憶装置へ退避するステップ
と、障害を起こしていない他の処理装置へ処理継続を要
求するステップと、他の処理装置が退避された内容の有
効性をテストするステップと、該退避された内容が有効
であった場合、その内容を使用して、該他の処理装置
が、障害を起こした処理装置で実行していた処理を所定
の時点の状態から継続するステップとを含むことを特徴
とする。 また、本発明の障害回復方法は、ある処理装置が障害
を検出した場合、該障害が固定障害か否かを判定するス
テップと、障害を固定障害と判定した場合、障害を起こ
した処理装置で実行していた処理の継続が可能か、回復
不能かを判定するステップと、処理の継続が可能であっ
た場合、障害を起こした処理装置の障害発生前の所定の
時点(チェックポイント)のレジスタ群の内容を主記憶
装置へ退避するステップと、障害を起こしていない他の
処理装置へ割り込みの種類を示す情報を含む割り込み要
求を発行するステップと、他の処理装置が割り込み要求
を受け付けるステップと、割り込みの種類を示す情報か
ら、割り込み要求が処理継続を要求する割り込みであっ
た場合、他の処理装置が退避された内容の有効性をテス
トし、退避された内容が有効であった場合、その内容を
使用して該他の処理装置が、障害を起こした処理装置で
実行していた処理を所定の時点の状態から継続するステ
ップと、割り込み要求が回復不能を示す割り込みであっ
た場合、障害を起こした処理装置で実行していた処理を
異常終了させるステップとを含むことを特徴とする。 〔作 用〕 ある処理装置で固定障害が発生した時、システム制御
装置では、該障害処理装置にチェックポイント保証要求
を出して、該障害処理装置の状態を障害発生以前のある
チェックポイント時点の状態に保証せしめる。その後、
該チェックポイント保証後の障害処理装置の内容を主記
憶装置に退避し、他の正常な処理装置に割込を上げる。
これにより、固定障害発生時、他の処理装置は、主記憶
装置に退避された内容を使用して処理を継続できるた
め、各処理装置間にデータパスを設ける必要はなく、障
害回復のための物量を小さく抑えることができる。ま
た、主記憶装置へのストア時に正常にストアができなか
った場合等を考慮して、他の処理装置は、退避された内
容が処理継続のために使用可能かどうか、その有効性を
テストし、内容が有効な場合に処理を継続することによ
って、退避された内容に異常があって処理継続が不可能
な状態にあるにも係わらず他の処理装置が処理継続動作
を行ってしまうことを抑止でき、確実に処理を継続する
ことができる。 〔実施例〕 以下、本発明の一実施例について図面により説明す
る。 第1図は本発明の一実施例の多重プロセッサシステム
のブロック図である。こゝで、本多重プロセッサシステ
ムは、命令処理装置(IP)1と2、システム制御装置
(SC)3、主記憶装置(MS)4で構成されているとして
いる。IP1とIP2は同じ構成であり、命令実行部5,8、割
込み制御部6,9、障害検出部7,10を備えている。SC3は主
記憶制御部11と障害処理部12からなる。 IP1,2の命令実行部5,8は、信号線20,24を介して、SC3
の記憶制御部11に接続され、該記憶制御部11の制御の下
で、MS4をアクセス可能な構成となっている。障害検出
部7,10は、自IP内の障害を検出して、その結果を信号線
21,27を介して、SC3の障害処理部12に報告する。SC3の
障害処理部12は、IPの固定障害時、信号線22,23を介
し、正常なIP1あるいは2の割込み制御部6,9に割込み指
示を出すことが可能であり、割込み制御部6,9は該割込
み指示により、命令実行部5,8に割込みを発生させる。S
C3の障害処理部12は、さらに信号線28,29を介して、IP
1,2の命令実行部5,8の内容状態を読出すことが可能であ
り、また、信号線25、記憶制御部11を介してMS4をアク
セス可能である。 IP1,2の命令実行部5,8は、障害発生時、当該IPの状態
を障害発生前のある時点(チェックポイント)の状態へ
戻すチェックポイント保証手段を有している。第2図に
その具体的構成例を示す。第2図はIP1側のチェックポ
イント保証手段を示したものであるが、IP2側について
も同様である。 第2図において、レジスタ30は信号線20−1を介し
て、SC3の記憶制御部11経由でMS4データがセットされる
ものである。レジスタ群34は、命令により参照可能な汎
用レジスタ群である。このレジスタ群34のデータは、信
号線44を介してレジスタ31にセットされる。レジスタ3
0,31の内容は、演算器(ALU)32で演算を行った後、そ
の結果は、再びレジスタ群34に書込まれたり、信号線20
−2を介し、SC3の記憶制御部11により、MS4へ書込まれ
たりする。退避レジスタ35は、レジスタ31の内容を、命
令実行ごとに退避するものであり、レジスタ群34の書込
み前(演算実行前)の内容が順に退避されている。 次に、SC3の障害処理部12の動作について第3図を用
いて説明する。なお、第3図はIP1で障害が発生した場
合の処理について記述したものである。 IP1で障害が発生し、信号線21を介して障害報告を受
けると、まず、その障害が固定障害かどうか判定する
(ステップ101)。固定障害かどうかの判定は、再実行
を複数回行っても、同じ障害が起るということで判断し
てもよいし、障害が発生した部位について、テストを行
うという手法を取ってもよい。障害が固定障害でない場
合には、従来の障害回復処理と同じ処理を行う。すなわ
ち、まず、障害発生前のあるチェックポイントまで内部
状態が戻せるかどうかをテストする(ステップ102)。
チェックポイントが保証出来ないのは、MS4の内容がす
でに書替えられている時、または、退避レジスタ35の内
容からレジスタ群34を回復出来ない時である。この時に
は、リトライ失敗のマシンチェック割込みを、信号線22
を介してIP1(障害を起したIP)に対して発生させる
(ステップ106)。チェックポイントの保証が可能であ
る場合には、チェックポイント保証要求をIP1に発行す
る(ステップ103)。IP1は、第2図の退避レジスタ35の
内容を信号線43、セレクタ36を介し、レジスタ群34にチ
ェックポイントが保証出来る所まで書込む。チェックポ
イント保証が終了すると、リトライ要求をIP1に出す
(ステップ104)。IP1はチェックポイントから処理を再
実行する。この再実行が成功かどうかテストする(ステ
ップ105)。これは、信号線21を介して再び障害報告が
送られてくるかどうかで判定する。障害が間欠障害であ
れば、再実行が成功する。 再実行が失敗するか、障害発生時に固定障害と判定出
来た場合には、次のように処理が行われる。まず、チェ
ックポイント保証可能かどうかテストする(ステップ10
7)。チェックポイント保証が可能であれば、IP1に対し
てチェックポイント要求を出し(ステップ108)、チェ
ックポイント保証を行った後、IP1の内部状態をMS4へ退
避する(ステップ109)。すなわち、第2図におけるレ
ジスタ群34の内容を信号線28により読出し、記憶制御部
11の制御下でMS4へストアする。その後、IP2(障害を起
こしていない正常なIPとする)へ、信号線23を介して処
理継続(プロセスサクセション)割込み要求を発行する
(ステップ110)。チェックポイント保証が出来なかっ
た時には、IP2に対して、同じく信号線23を介して、誤
動作警報割込み要求を発行する(ステップ111)。 第4図は、上記プロセスサクセション割込みと、誤動
作警報割込み時の、MS上の割込み情報の一例である。割
込み情報は、割込みコード50とIPの内部状態退避領域51
により構成される。割込みコード50は、割込みの種類
(プロセスサクション割込みか誤動作警報割か)を示す
情報(INT.CODE)と内部状態退避領域が有効かどうかを
示す有効ビット(V)からなる。第4図におけるV1,V2,
V3は、退避領域A−1,A−2,A−3の有効ビットである。 IP2の命令実行部8が割込みを受付けると、その制御
プログラムは、以下のように動作する。 プロセスサクセション割込みを受付けると、制御プロ
グラムは割込みコード中の有効ビット(V)をテスト
し、退避領域がすべて有効であれば、その情報を使用し
て、IP1で実行中だった処理を継続する。誤動作警報割
込み時、または、プロセスサクセション割込み時でも有
効ビット(V)の中に1つでも“1"でないものがあった
時には、処理継続不可能なので、IP1で行っていた処理
を異常終了させる。これらの処理は、IP2で行われるの
で、処理継続可能な場合には、必ず処理継続出来るし、
処理継続不可能で、異常終了処理を行う時にも、再度障
害が発生することがない。 〔発明の効果〕 以上の説明から明から如く、本発明によれば、多重プ
ロセッサシステムにおいて、ある処理装置で固定障害が
発生した時、チェックポイントを保証して、割込みを他
の正常な処理装置に上げ、後の処理を正常な処理装置で
行わせるため、固定障害の回復が容易に可能となる効果
がある。 特に、本発明では、ある処理装置で固定障害が発生す
ると、その処理装置のレジスタ群の内容を主記憶装置に
退避し(ストア)し、他の処理装置は、主記憶装置に退
避された内容を使用して処理を継続するため、各処理装
置間にデータパスを設ける必要はなく、障害回復のため
の物量を小さく抑えることができる。 さらに、本発明では、主記憶装置へのストア時に正常
にストアできなかった場合等を考慮して、他の処理装置
は、退避された内容が処理継続のために使用可能かどう
か、その有効性をテストし、有効な場合に処理を継続す
ることによって、退避された内容に異常があって処理継
続が不可能な状態にあるにも係わらず他の処理装置が処
理継続動作を行ってしまうことを抑止でき、確実に処理
を継続することができる。 また、本発明では、処理継続の割込みと誤動作警報の
割込みを同一の割込み要求により行い、割込みを受付け
た他の処理装置が該割込み要求に含まれる割込みの種類
を示す情報(INT.CODE)をみて、その後の処理(継続か
異常終了)を行うことが可能になる。
【図面の簡単な説明】 第1図は本発明の一実施例の多重プロセッサシステムの
ブロック図、第2図は処理装置のチェックポイント保証
手段の構成例を示す図、第3図はシステム制御装置の障
害処理の流れ図、第4図は割込み情報のフォーマット例
を示す図、第5図はチェックポイントを説明する図であ
る。 1,2……命令処理装置、 3……システム制御装置、4……主記憶装置、 5,8……命令実行部、6,9……割込み制御部、 7,10……障害検出部、11……記憶制御部、 12……障害処理部、 30,31,33……レジスタ、32……演算器、 34……レジスタ群、35……退避レジスタ。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06F 15/16 G06F 15/17

Claims (1)

  1. (57)【特許請求の範囲】 1.複数の処理装置と、前記複数の処理装置に共有され
    る主記憶装置とを有する多重プロセッサシステムの障害
    回復方法において、 ある処理装置が障害を検出した場合、前記障害が固定障
    害か否かを判定するステップと、 前記障害を固定障害と判定した場合、障害を起こした処
    理装置の障害発生前の所定の時点のレジスタ群の内容を
    前記主記憶装置へ退避するステップと、 障害を起こしていない他の処理装置へ処理継続を要求す
    るステップと、 前記他の処理装置が前記退避された内容の有効性をテス
    トするステップと、 前記退避された内容が有効であった場合、前記退避され
    た内容を使用して前記他の処理装置が前記障害を起こし
    た処理装置で実行していた処理を前記所定の時点の状態
    から継続するステップとを含むことを特徴とする多重プ
    ロセッサシステムの障害回復方法。 2.前記障害を固定障害と判定した場合、前記障害を起
    こした処理装置の障害発生時の前記レジスタ群の内容
    を、障害発生前の所定の時点の内容に戻し、その後、前
    記レジスタ群の内容を前記主記憶装置へ退避することを
    特徴とする請求項1記載の多重プロセッサシステムの障
    害回復方法。 3.前記処理装置が障害を検出した場合、前記障害が発
    生した処理の再実行を複数回行い、同じ障害が発生した
    場合、前記障害を固定障害と判定することを特徴とする
    請求項1記載の多重プロセッサシステムの障害回復方
    法。 4.前記処理装置が障害を検出した場合、前記障害を検
    出したことを障害処理手段に報告し、前記報告を受ける
    と、前記障害処理手段が前記固定障害か否かの判定、前
    記レジスタ群の内容の主記憶装置への退避、前記他の処
    理装置への処理継続要求の処理を行うことを特徴とする
    請求項1記載の多重プロセッサシステムの障害回復方
    法。 5.前記他の処理装置が、前記退避された内容がその後
    の処理において使用可能か否かをテストし、使用可能で
    あった場合、前記他の処理装置が処理を継続することを
    特徴とする請求項1記載の多重プロセッサシステムの障
    害回復方法。 6.複数の処理装置と、前記複数の処理装置に共有され
    る主記憶装置とを有する多重プロセッサシステムの障害
    回復方法において、 ある処理装置が障害を検出した場合、前記障害が固定障
    害か否かを判定するステップと、 前記障害を固定障害と判定した場合、障害を起こした処
    理装置で実行していた処理の継続が可能か、回復不能か
    を判定するステップと、 処理の継続が可能であった場合、前記障害を起こした処
    理装置の障害発生前の所定の時点のレジスタ群の内容を
    前記主記憶装置へ退避するステップと、 障害を起こしていない他の処理装置へ割り込みの種類を
    示す情報を含む割り込み要求を発行するステップと、 前記他の処理装置が前記割り込み要求を受け付けるステ
    ップと、 前記割り込みの種類を示す情報から前記割り込み要求が
    処理継続を要求する割り込みであった場合、前記他の処
    理装置が前記退避された内容の有効性をテストするステ
    ップと、 前記退避された内容が有効であった場合、前記退避され
    た内容を使用して前記他の処理装置が前記障害を起こし
    た処理装置で実行していた処理を前記所定の時点の状態
    から継続するステップと、 前記割り込み要求が回復不能を示す割り込みであった場
    合、前記障害を起こした処理装置で実行していた処理を
    異常終了させるステップとを含むことを特徴とする多重
    プロセッサシステムの障害回復方法。 7.前記障害を固定障害と判定した場合、前記障害を起
    こした処理装置の障害発生時のレジスタ群の内容を、障
    害発生前の所定の時点の内容に戻せるか否かをテスト
    し、前記所定の時点の内容に戻せる場合、前記レジスタ
    群の内容を前記所定の時点の内容に戻し、その後、前記
    レジスタ群の内容を前記主記憶装置へ退避することを特
    徴とする請求項6記載の多重プロセッサシステムの障害
    回復方法。
JP62291565A 1987-11-18 1987-11-18 多重プロセッサシステムの障害回復方法 Expired - Lifetime JP2776815B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62291565A JP2776815B2 (ja) 1987-11-18 1987-11-18 多重プロセッサシステムの障害回復方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62291565A JP2776815B2 (ja) 1987-11-18 1987-11-18 多重プロセッサシステムの障害回復方法

Publications (2)

Publication Number Publication Date
JPH01133171A JPH01133171A (ja) 1989-05-25
JP2776815B2 true JP2776815B2 (ja) 1998-07-16

Family

ID=17770565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62291565A Expired - Lifetime JP2776815B2 (ja) 1987-11-18 1987-11-18 多重プロセッサシステムの障害回復方法

Country Status (1)

Country Link
JP (1) JP2776815B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577591A (zh) * 2016-07-05 2018-01-12 中兴通讯股份有限公司 一种自动化测试异常保护的方法、装置及系统

Also Published As

Publication number Publication date
JPH01133171A (ja) 1989-05-25

Similar Documents

Publication Publication Date Title
US5274646A (en) Excessive error correction control
US6728668B1 (en) Method and apparatus for simulated error injection for processor deconfiguration design verification
JPH01154242A (ja) 二重ゾーンの耐欠陥コンピュータシステム
JPH09258995A (ja) 計算機システム
KR100304319B1 (ko) 시간 지연 이중화 기술을 구현하는 장치 및 방법
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
US6108753A (en) Cache error retry technique
US7139942B2 (en) Method and apparatus for memory redundancy and recovery from uncorrectable errors
CN112650612A (zh) 一种内存故障定位方法及装置
JP2776815B2 (ja) 多重プロセッサシステムの障害回復方法
JPH07141176A (ja) コマンドリトライ制御方式
JP2922981B2 (ja) タスクの実行継続方法
Emmerson et al. Fault tolerance achieved in VLSI
KR19990057809A (ko) 오류 방지 시스템
KR950012495B1 (ko) 메모리 진단장치 및 방법
JP3381756B2 (ja) 並列プロセッサシステム
JPS6128141B2 (ja)
JPS6146535A (ja) 擬似エラ−設定制御方式
JPS6061839A (ja) 論理装置の故障診断処理方式
JPS62113241A (ja) 障害回復装置
JP3340284B2 (ja) 冗長システム
JPH0471037A (ja) 電子計算機の二重化方式
JPH04365145A (ja) メモリ障害処理方法
JPS61150041A (ja) 二重化情報処理システム
JPS60110047A (ja) エラ−訂正方式

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080501

Year of fee payment: 10