JPH0713792A

JPH0713792A - ホットスタンバイシステムにおけるエラー制御方式

Info

Publication number: JPH0713792A
Application number: JP5158286A
Authority: JP
Inventors: Yoshinori Yamamoto; 義則山本
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1993-06-29
Filing date: 1993-06-29
Publication date: 1995-01-17
Anticipated expiration: 2010-12-20
Also published as: JPH07120296B2

Abstract

(57)【要約】【目的】ホットスタンバイシステムにおいて、プロセッ
サリリーフ機能，命令再試行機能を用い、性能，信頼性
の面から最適に制御を行うことを目的とする。【構成】マルチプロセッサシステム１，２を構成するプ
ロセッサ１０，１１，２０，２１が、現用系か待機系か
を示す情報を保持する系モード保持手段２０２等と、命
令再試行可能なエラー発生時にプロセッサの内容を他の
正常なプロセッサへ移送し処理を引継ぐ手段とを含み、
プロセッサの１つにおいて、命令再試行可能なエラーが
発生した場合に、系モード保持手段の内容が“待機系コ
ード”の場合には、エラーが発生したプロセッサにて命
令再試行を行い、“現用系モード”の場合には、エラー
が発生したプロセッサの内容を他の正常なプロセッサへ
移送して処理を継続することを特徴とするホットスタン
バイシステムにおけるエラー制御方式。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、複数のマルチプロセッ
サシステムからなるホットスタンバイシステムにおける
エラー制御方式に関する。

【０００２】

【従来の技術】従来のこの種のエラー制御方式は、命令
再試行可能な障害が発生した場合には、マルチプロセッ
サシステムが具備しているプロセッサリリーフ機能によ
りエラーが回避され、そのまま継続運転が可能なように
行い、障害が発生したプロセッサはシステムから切り離
すようにしている。

【０００３】

【発明が解決しようとする課題】上述した従来のホット
スタンバイシステムにおけるエラー制御方式では、現用
系システムにおいて系切換の対象となるような障害が発
生し、系切換が行われ待機系が現用系として運用されて
いる場合にも、命令再試行可能な障害が発生した場合に
はプロセッサリリーフ機能により、障害の発生した論理
装置が切離されてしまうため、システムの運用上、性能
的にシステムダウンと等価の状態となってしまう場合が
あり、著しくシステムの信頼性を低下させるという問題
点があった。

【０００４】

【課題を解決するための手段】本発明のエラー制御方式
は、複数のマルチプロセッサシステムが相互に接続さ
れ、各々が現用系または待機系として運用されるホット
スタンバイシステムにおけるエラー制御方式において、
前記マルチプロセッサシステムを構成する各プロセッサ
が、現用系か待機系かを示す情報を保持する系モード保
持手段と、命令再試行可能なエラー発生時に前記プロセ
ッサの内容を他の正常なプロセッサへ移送し処理を引継
ぐ手段とを含み、前記プロセッサの１つにおいて、命令
再試行可能なエラーが発生した場合に、前記系モード保
持手段の内容が“待機系モード”の場合には、前記エラ
ーが発生したプロセッサにて命令再試行を行い、“現用
系モードの場合には、前記エラーが発生したプロセッサ
の内容を他の正常なプロセッサへ移送して処理を継続す
ることを特徴とする。

【０００５】

【実施例】次に、本発明について図面を参照して説明す
る。

【０００６】本発明の第１の実施例を示す図１を参照す
ると、本実施例は、２つのマルチプロセッサシステム１
と２から成り、両者はシステム間結合パス３で結合され
ていて、マルチプロセッサシステム１が現用系、マルチ
プロセッサシステム２が待機系として運用されるホット
スタンバイシステムである。

【０００７】マルチプロセッサシステム１，２は、各々
２個の論理装置（以降ＣＰＵと記す）から成り、現用系
のマルチプロセッサシステム１においては、ＣＰＵ１
０，１１、待機系のマルチプロセッサシステム２におい
てはＣＰＵ２０，２１から構成されている。また、１２
と２２はシステム全体を制御するＯＳ、１３と２３はそ
れぞれＣＰＵ１０，１１及びＣＰＵ２０，２１とのＣＰ
Ｕ間結合パスである。

【０００８】ＣＰＵ２０は、演算全体の制御を行う演算
部２００，エラー検出を行うエラー検出２０３，エラー
の内容を判断し周知の技術であるプロセッサリリーフ機
能を行うエラー制御部２０１，立ち上げ時にＯＳからセ
ットされ“現用系”か“待機系”かの情報を保持する系
モード保持手段２０４とから構成されている。他のＣＰ
Ｕ１０，１１および２１も同様な構成である。従ってマ
ルチプロセッサシステム内の動作については、便宜上、
ＣＰＵ２０と２１を使用して、現用系と待機系両方の動
作を説明することにする。

【０００９】また、システムが通常有しているＩ／Ｏ系
装置に関しては特に図には示していないが、ファイル装
置，回線装置等を有しており、その一部はホットスタン
バイシステムとして共用されている。

【００１０】本実施例におけるエラー制御は、以下のよ
うにして行われる。

【００１１】ＣＰＵ２０にてエラーが発生すると、エラ
ー検出部２０３にて検出された後、エラー制御部２０１
にその旨が通知される。エラー制御部２０１は通知され
たエラーが命令再試行可能かを判定し、かつ系モード保
持手段２０２より系モードを読出す。

【００１２】系モード保持手段２０２には、システム立
ち上げ時に“現用系モード”か“待機系モード”かを示
す情報が保持されている。今、読出した結果“現用系モ
ード”であれば、プロセッサリリーフ機能により、ＣＰ
Ｕ間結合パス２３を経由して必要な情報が一方のＣＰＵ
２０より他のＣＰＵ２１へと読出され、前ＣＰＵ２０の
処理がそのまま引継がれ運転がそのまま継続される。し
かし、“待機系モード”であった場合には、エラー制御
部２０１は、プロセッサリリーフ機能を使用せず、演算
部２００に対して命令再試行を行うよう指示し、運用を
継続させるよう制御する。

【００１３】次に、現用系のマルチプロセッサシステム
１に対して、系切換の対象となる障害が発生すると、シ
ステム間結合パス３を経由し待機系のマルチプロセッサ
システム２のＯＳ２２に対しダウン通知が行われる。Ｏ
Ｓ２２は、マルチプロセッサシステム１と共用する資源
を組込み、リカバリ処理を行い、マルチプロセッサシス
テム１の処理を引継ぎ、現用系としてシステムの運転を
再開する。この時、エラー制御部２０１，２１１に対し
て、ＯＳ２２より現用系がダウンした旨が通知される。

【００１４】この状態でマルチプロセッサシステム２が
運用されていて、ＣＰＵ２０にエラーが発生すると、前
述のようなマルチプロセッサシステム内のエラー処理が
行われることになる。いま、系モード保持手段２０２に
は“待機系モード”が設定されているため、エラー制御
部２０１はプロセッサリリーフ機能を使用せず、演算部
２００に対して命令再試行を行うよう指示する。

【００１５】本発明の第２の実施例を示す図２を参照す
ると、本実施例は第１の実施例に、刻時し、一定時間毎
に信号を出力するタイマ回路２０７，２１７と、上記一
定時間内のエラー回数をカウントするエラー回数カウン
ト手段２０４，２１４と、一定時間内のエラー回数のス
レッシュルド値を保持するスレッシュルド値保持手段２
０５，２１５と、エラー回数カウント手段２０４，２１
４とスレッシュルド値保持手段２０５，２１５との内容
の大小を判定する監視手段２０６，２１６とが付加され
ている。

【００１６】本実施例においては、現用系のマルチプロ
セッサシステム１において、系ダウンとなる障害が発生
し、待機系のマルチプロセッサシステム２が現用系とし
て運用されるようになったときのエラー制御が第１の実
施例と異なる。

【００１７】すなわち、現現用系（待機系０）のＣＰＵ
２０において、エラーが発生した場合、エラー検出部２
０３によりエラーが検出されると、エラー制御部２０１
にその旨が通知され、エラー制御部２０１はエラーが命
令再試行可能かを判定し、さらに系モード保持手段２０
２の内容を読出す。系モード保持手段の内容は“待機系
モード”であるから、以下のようにエラー制御する。

【００１８】先ず、エラー制御部２０１は、監視手段２
０６から通知があったか否かのチェックを行う。監視手
段２０６は、スレッシュルド値保持手段２０５とエラー
回数カウント手段２０４の内容を読出し、その大小を比
較しており、エラー回数カウント手段２０４の内容の方
が大きい場合には、エラーが頻発していると判断しその
旨をエラー制御部２０１へ通知する。

【００１９】エラー制御部２０１は、監視手段２０６か
ら通知が何もなかった場合には、エラーが頻発していな
いと判断し、演算部２００に対して命令再試行を指示
し、ＣＰＵ２０にてそのまま処理を継続する。しかし、
監視手段２０６より通知があった場合にはプロセッサリ
リーフ機能により、ＣＰＵ２０の処理をＣＰＵ２１にて
引続いて継続運用を行う。

【００２０】本実施例によると、待機系が現用系として
運用されている状態においても、再試行可能なエラーが
発生しても、エラー制御として直ちにプロセッサリリー
フを行わずに、エラーを回復するため、ホットスタンバ
イシステム運用として、より高性能かつ高信頼性なシス
テムを実現できるという効果がある。

【００２１】

【発明の効果】以上説明したように、本発明は、運用上
システム負荷が大となるようなホットスタンバイシステ
ムにおいて、現用系がダウンし、待機系が現用系として
運用された状態において、さらに再試行可能なエラーが
発生した場合に、エラーが発生したプロセッサで命令再
試行を行うようにしたことにより、高性能かつ高信頼性
なシステムを実現できるという効果がある。

【図面の簡単な説明】

【図１】本発明の第１の実施例のシステム構成図であ
る。

【図２】本発明の第２の実施例のシステム構成図であ
る。

【符号の説明】

１，２マルチプロセッサシステム３システム間結合パス１０，１１，２０，２１ＣＰＵ１３，２３ＣＰＵ間結合パス１２，２２オペレーティングシステム２００，２１０演算部２０１，２１１エラー制御部２０２，２１２系モード保持手段２０３，２１３エラー検出部２０４，２１４エラー回数カウント手段２０５，２１５スレッシュルド値保持手段２０６，２１６監視手段２０７，２１７タイマ回路

Claims

【特許請求の範囲】

【請求項１】複数のマルチプロセッサシステムが相互
に接続され、各々が現用系または待機系として運用され
るホットスタンバイシステムにおけるエラー制御方式に
おいて、前記マルチプロセッサシステムを構成する各プロセッサ
が、現用系か待機系かを示す情報を保持する系モード保
持手段と、命令再試行可能なエラー発生時に前記プロセ
ッサの内容を他の正常なプロセッサへ移送し処理を引継
ぐ手段とを含み、前記プロセッサの１つにおいて、命令再試行可能なエラ
ーが発生した場合に、前記系モード保持手段の内容が
“待機系モード”の場合には、前記エラーが発生したプ
ロセッサにて命令再試行を行い、“現用系モードの場合
には、前記エラーが発生したプロセッサの内容を他の正
常なプロセッサへ移送して処理を継続することを特徴と
するホットスタンバイシステムにおけるエラー制御方
式。
【請求項２】前記マルチプロセッサシステムの各プロ
セッサに、タイマ回路と、該タイマ回路が出力する一定
時間毎のエラー発生回数をカウントするエラー回数カウ
ント手段と、前記一定時間内のエラー発生回数の上限値
を保持するスレッシュルド値保持手段と、前記エラー回
数カウント手段とスレッシュルド値保持手段との内容の
大小比較する監視手段とを付加し、前記プロセッサの１つにおいて、命令再試行可能なエラ
ーが発生した場合、前記系モード保持手段の内容が“待
機系モード”で、かつ前記エラー回数カウント手段の内
容が前記スレッシュルド値保持手段の内容より小の場合
にのみ、前記エラーが発生したプロセッサにて命令再試
行を行い、前記以外の場合には、前記エラーが発生した
プロセッサの内容を前記他の正常なプロセッサへ移送
し、処理を継続することを特徴とした請求項１記載のホ
ットスタンバイシステムにおけるエラー制御方式。