JPH0713792A - ホットスタンバイシステムにおけるエラー制御方式 - Google Patents

ホットスタンバイシステムにおけるエラー制御方式

Info

Publication number
JPH0713792A
JPH0713792A JP5158286A JP15828693A JPH0713792A JP H0713792 A JPH0713792 A JP H0713792A JP 5158286 A JP5158286 A JP 5158286A JP 15828693 A JP15828693 A JP 15828693A JP H0713792 A JPH0713792 A JP H0713792A
Authority
JP
Japan
Prior art keywords
error
processor
instruction
occurs
holding means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5158286A
Other languages
English (en)
Other versions
JPH07120296B2 (ja
Inventor
Yoshinori Yamamoto
義則 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP5158286A priority Critical patent/JPH07120296B2/ja
Publication of JPH0713792A publication Critical patent/JPH0713792A/ja
Publication of JPH07120296B2 publication Critical patent/JPH07120296B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【目的】ホットスタンバイシステムにおいて、プロセッ
サリリーフ機能,命令再試行機能を用い、性能,信頼性
の面から最適に制御を行うことを目的とする。 【構成】マルチプロセッサシステム1,2を構成するプ
ロセッサ10,11,20,21が、現用系か待機系か
を示す情報を保持する系モード保持手段202等と、命
令再試行可能なエラー発生時にプロセッサの内容を他の
正常なプロセッサへ移送し処理を引継ぐ手段とを含み、
プロセッサの1つにおいて、命令再試行可能なエラーが
発生した場合に、系モード保持手段の内容が“待機系コ
ード”の場合には、エラーが発生したプロセッサにて命
令再試行を行い、“現用系モード”の場合には、エラー
が発生したプロセッサの内容を他の正常なプロセッサへ
移送して処理を継続することを特徴とするホットスタン
バイシステムにおけるエラー制御方式。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複数のマルチプロセッ
サシステムからなるホットスタンバイシステムにおける
エラー制御方式に関する。
【0002】
【従来の技術】従来のこの種のエラー制御方式は、命令
再試行可能な障害が発生した場合には、マルチプロセッ
サシステムが具備しているプロセッサリリーフ機能によ
りエラーが回避され、そのまま継続運転が可能なように
行い、障害が発生したプロセッサはシステムから切り離
すようにしている。
【0003】
【発明が解決しようとする課題】上述した従来のホット
スタンバイシステムにおけるエラー制御方式では、現用
系システムにおいて系切換の対象となるような障害が発
生し、系切換が行われ待機系が現用系として運用されて
いる場合にも、命令再試行可能な障害が発生した場合に
はプロセッサリリーフ機能により、障害の発生した論理
装置が切離されてしまうため、システムの運用上、性能
的にシステムダウンと等価の状態となってしまう場合が
あり、著しくシステムの信頼性を低下させるという問題
点があった。
【0004】
【課題を解決するための手段】本発明のエラー制御方式
は、複数のマルチプロセッサシステムが相互に接続さ
れ、各々が現用系または待機系として運用されるホット
スタンバイシステムにおけるエラー制御方式において、
前記マルチプロセッサシステムを構成する各プロセッサ
が、現用系か待機系かを示す情報を保持する系モード保
持手段と、命令再試行可能なエラー発生時に前記プロセ
ッサの内容を他の正常なプロセッサへ移送し処理を引継
ぐ手段とを含み、前記プロセッサの1つにおいて、命令
再試行可能なエラーが発生した場合に、前記系モード保
持手段の内容が“待機系モード”の場合には、前記エラ
ーが発生したプロセッサにて命令再試行を行い、“現用
系モードの場合には、前記エラーが発生したプロセッサ
の内容を他の正常なプロセッサへ移送して処理を継続す
ることを特徴とする。
【0005】
【実施例】次に、本発明について図面を参照して説明す
る。
【0006】本発明の第1の実施例を示す図1を参照す
ると、本実施例は、2つのマルチプロセッサシステム1
と2から成り、両者はシステム間結合パス3で結合され
ていて、マルチプロセッサシステム1が現用系、マルチ
プロセッサシステム2が待機系として運用されるホット
スタンバイシステムである。
【0007】マルチプロセッサシステム1,2は、各々
2個の論理装置(以降CPUと記す)から成り、現用系
のマルチプロセッサシステム1においては、CPU1
0,11、待機系のマルチプロセッサシステム2におい
てはCPU20,21から構成されている。また、12
と22はシステム全体を制御するOS、13と23はそ
れぞれCPU10,11及びCPU20,21とのCP
U間結合パスである。
【0008】CPU20は、演算全体の制御を行う演算
部200,エラー検出を行うエラー検出203,エラー
の内容を判断し周知の技術であるプロセッサリリーフ機
能を行うエラー制御部201,立ち上げ時にOSからセ
ットされ“現用系”か“待機系”かの情報を保持する系
モード保持手段204とから構成されている。他のCP
U10,11および21も同様な構成である。従ってマ
ルチプロセッサシステム内の動作については、便宜上、
CPU20と21を使用して、現用系と待機系両方の動
作を説明することにする。
【0009】また、システムが通常有しているI/O系
装置に関しては特に図には示していないが、ファイル装
置,回線装置等を有しており、その一部はホットスタン
バイシステムとして共用されている。
【0010】本実施例におけるエラー制御は、以下のよ
うにして行われる。
【0011】CPU20にてエラーが発生すると、エラ
ー検出部203にて検出された後、エラー制御部201
にその旨が通知される。エラー制御部201は通知され
たエラーが命令再試行可能かを判定し、かつ系モード保
持手段202より系モードを読出す。
【0012】系モード保持手段202には、システム立
ち上げ時に“現用系モード”か“待機系モード”かを示
す情報が保持されている。今、読出した結果“現用系モ
ード”であれば、プロセッサリリーフ機能により、CP
U間結合パス23を経由して必要な情報が一方のCPU
20より他のCPU21へと読出され、前CPU20の
処理がそのまま引継がれ運転がそのまま継続される。し
かし、“待機系モード”であった場合には、エラー制御
部201は、プロセッサリリーフ機能を使用せず、演算
部200に対して命令再試行を行うよう指示し、運用を
継続させるよう制御する。
【0013】次に、現用系のマルチプロセッサシステム
1に対して、系切換の対象となる障害が発生すると、シ
ステム間結合パス3を経由し待機系のマルチプロセッサ
システム2のOS22に対しダウン通知が行われる。O
S22は、マルチプロセッサシステム1と共用する資源
を組込み、リカバリ処理を行い、マルチプロセッサシス
テム1の処理を引継ぎ、現用系としてシステムの運転を
再開する。この時、エラー制御部201,211に対し
て、OS22より現用系がダウンした旨が通知される。
【0014】この状態でマルチプロセッサシステム2が
運用されていて、CPU20にエラーが発生すると、前
述のようなマルチプロセッサシステム内のエラー処理が
行われることになる。いま、系モード保持手段202に
は“待機系モード”が設定されているため、エラー制御
部201はプロセッサリリーフ機能を使用せず、演算部
200に対して命令再試行を行うよう指示する。
【0015】本発明の第2の実施例を示す図2を参照す
ると、本実施例は第1の実施例に、刻時し、一定時間毎
に信号を出力するタイマ回路207,217と、上記一
定時間内のエラー回数をカウントするエラー回数カウン
ト手段204,214と、一定時間内のエラー回数のス
レッシュルド値を保持するスレッシュルド値保持手段2
05,215と、エラー回数カウント手段204,21
4とスレッシュルド値保持手段205,215との内容
の大小を判定する監視手段206,216とが付加され
ている。
【0016】本実施例においては、現用系のマルチプロ
セッサシステム1において、系ダウンとなる障害が発生
し、待機系のマルチプロセッサシステム2が現用系とし
て運用されるようになったときのエラー制御が第1の実
施例と異なる。
【0017】すなわち、現現用系(待機系0)のCPU
20において、エラーが発生した場合、エラー検出部2
03によりエラーが検出されると、エラー制御部201
にその旨が通知され、エラー制御部201はエラーが命
令再試行可能かを判定し、さらに系モード保持手段20
2の内容を読出す。系モード保持手段の内容は“待機系
モード”であるから、以下のようにエラー制御する。
【0018】先ず、エラー制御部201は、監視手段2
06から通知があったか否かのチェックを行う。監視手
段206は、スレッシュルド値保持手段205とエラー
回数カウント手段204の内容を読出し、その大小を比
較しており、エラー回数カウント手段204の内容の方
が大きい場合には、エラーが頻発していると判断しその
旨をエラー制御部201へ通知する。
【0019】エラー制御部201は、監視手段206か
ら通知が何もなかった場合には、エラーが頻発していな
いと判断し、演算部200に対して命令再試行を指示
し、CPU20にてそのまま処理を継続する。しかし、
監視手段206より通知があった場合にはプロセッサリ
リーフ機能により、CPU20の処理をCPU21にて
引続いて継続運用を行う。
【0020】本実施例によると、待機系が現用系として
運用されている状態においても、再試行可能なエラーが
発生しても、エラー制御として直ちにプロセッサリリー
フを行わずに、エラーを回復するため、ホットスタンバ
イシステム運用として、より高性能かつ高信頼性なシス
テムを実現できるという効果がある。
【0021】
【発明の効果】以上説明したように、本発明は、運用上
システム負荷が大となるようなホットスタンバイシステ
ムにおいて、現用系がダウンし、待機系が現用系として
運用された状態において、さらに再試行可能なエラーが
発生した場合に、エラーが発生したプロセッサで命令再
試行を行うようにしたことにより、高性能かつ高信頼性
なシステムを実現できるという効果がある。
【図面の簡単な説明】
【図1】本発明の第1の実施例のシステム構成図であ
る。
【図2】本発明の第2の実施例のシステム構成図であ
る。
【符号の説明】
1,2 マルチプロセッサシステム 3 システム間結合パス 10,11,20,21 CPU 13,23 CPU間結合パス 12,22 オペレーティングシステム 200,210 演算部 201,211 エラー制御部 202,212 系モード保持手段 203,213 エラー検出部 204,214 エラー回数カウント手段 205,215 スレッシュルド値保持手段 206,216 監視手段 207,217 タイマ回路

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数のマルチプロセッサシステムが相互
    に接続され、各々が現用系または待機系として運用され
    るホットスタンバイシステムにおけるエラー制御方式に
    おいて、 前記マルチプロセッサシステムを構成する各プロセッサ
    が、現用系か待機系かを示す情報を保持する系モード保
    持手段と、命令再試行可能なエラー発生時に前記プロセ
    ッサの内容を他の正常なプロセッサへ移送し処理を引継
    ぐ手段とを含み、 前記プロセッサの1つにおいて、命令再試行可能なエラ
    ーが発生した場合に、前記系モード保持手段の内容が
    “待機系モード”の場合には、前記エラーが発生したプ
    ロセッサにて命令再試行を行い、“現用系モードの場合
    には、前記エラーが発生したプロセッサの内容を他の正
    常なプロセッサへ移送して処理を継続することを特徴と
    するホットスタンバイシステムにおけるエラー制御方
    式。
  2. 【請求項2】 前記マルチプロセッサシステムの各プロ
    セッサに、タイマ回路と、該タイマ回路が出力する一定
    時間毎のエラー発生回数をカウントするエラー回数カウ
    ント手段と、前記一定時間内のエラー発生回数の上限値
    を保持するスレッシュルド値保持手段と、前記エラー回
    数カウント手段とスレッシュルド値保持手段との内容の
    大小比較する監視手段とを付加し、 前記プロセッサの1つにおいて、命令再試行可能なエラ
    ーが発生した場合、前記系モード保持手段の内容が“待
    機系モード”で、かつ前記エラー回数カウント手段の内
    容が前記スレッシュルド値保持手段の内容より小の場合
    にのみ、前記エラーが発生したプロセッサにて命令再試
    行を行い、前記以外の場合には、前記エラーが発生した
    プロセッサの内容を前記他の正常なプロセッサへ移送
    し、処理を継続することを特徴とした請求項1記載のホ
    ットスタンバイシステムにおけるエラー制御方式。
JP5158286A 1993-06-29 1993-06-29 ホットスタンバイシステムにおけるエラー制御方式 Expired - Lifetime JPH07120296B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5158286A JPH07120296B2 (ja) 1993-06-29 1993-06-29 ホットスタンバイシステムにおけるエラー制御方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5158286A JPH07120296B2 (ja) 1993-06-29 1993-06-29 ホットスタンバイシステムにおけるエラー制御方式

Publications (2)

Publication Number Publication Date
JPH0713792A true JPH0713792A (ja) 1995-01-17
JPH07120296B2 JPH07120296B2 (ja) 1995-12-20

Family

ID=15668283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5158286A Expired - Lifetime JPH07120296B2 (ja) 1993-06-29 1993-06-29 ホットスタンバイシステムにおけるエラー制御方式

Country Status (1)

Country Link
JP (1) JPH07120296B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012083992A (ja) * 2010-10-13 2012-04-26 Nec Computertechno Ltd データ障害処理装置、及びデータ障害処理方法
JP2012528382A (ja) * 2009-05-25 2012-11-12 アリババ・グループ・ホールディング・リミテッド キャッシュクラスタを構成可能モードで用いるキャッシュデータ処理

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012528382A (ja) * 2009-05-25 2012-11-12 アリババ・グループ・ホールディング・リミテッド キャッシュクラスタを構成可能モードで用いるキャッシュデータ処理
US8972773B2 (en) 2009-05-25 2015-03-03 Alibaba Group Holding Limited Cache data processing using cache cluster with configurable modes
JP2012083992A (ja) * 2010-10-13 2012-04-26 Nec Computertechno Ltd データ障害処理装置、及びデータ障害処理方法

Also Published As

Publication number Publication date
JPH07120296B2 (ja) 1995-12-20

Similar Documents

Publication Publication Date Title
US7370232B2 (en) Method and apparatus for recovery from loss of lock step
EP1078317B1 (en) Method for switching between multiple system processors
US6622263B1 (en) Method and apparatus for achieving system-directed checkpointing without specialized hardware assistance
US7685476B2 (en) Early notification of error via software interrupt and shared memory write
JP2009211517A (ja) 仮想計算機冗長化システム
US5742851A (en) Information processing system having function to detect fault in external bus
JPH0713792A (ja) ホットスタンバイシステムにおけるエラー制御方式
JPH0652130A (ja) マルチプロセッサシステム
JPH05224964A (ja) バス異常通知方式
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JPS6128141B2 (ja)
JP2815730B2 (ja) アダプタ及びコンピュータシステム
JP3107104B2 (ja) 待機冗長方式
JPS62296264A (ja) デ−タ処理システムの構成制御方式
JPH05265790A (ja) マイクロプロセッサ装置
JPH08329025A (ja) プロセスマイグレーション方式
JPS6341943A (ja) 論理装置のエラ−回復方式
JPH05289896A (ja) フォールトトレラントコンピュータ
JPS622334B2 (ja)
JP4597484B2 (ja) 複合計算機システム
JPS6143739B2 (ja)
JPS60251443A (ja) プログラマブルコントロ−ラのバツクアツプ装置
JPH09146853A (ja) 二重化計算機及びその障害系復旧方法
JPH10275090A (ja) 基本処理装置の二重化方式
JPS62105243A (ja) システム障害の復旧装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19960625