JPH0895935A - マルチプロセッサシステムにおけるプロセッサ異常対策方法およびそのための装置 - Google Patents
マルチプロセッサシステムにおけるプロセッサ異常対策方法およびそのための装置Info
- Publication number
- JPH0895935A JPH0895935A JP6235422A JP23542294A JPH0895935A JP H0895935 A JPH0895935 A JP H0895935A JP 6235422 A JP6235422 A JP 6235422A JP 23542294 A JP23542294 A JP 23542294A JP H0895935 A JPH0895935 A JP H0895935A
- Authority
- JP
- Japan
- Prior art keywords
- processor
- abnormality
- countermeasure
- redundant
- job
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2035—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/142—Reconfiguring to eliminate the error
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
Abstract
プロセッサの拡大抑止および冗長プロセッサの有効利用
を図ることを目的とする。 【構成】 分散処理プロセッサP1〜P4のいずれかに異常
が発生したことをプロセッサ監視機構1で検出したと
き、プロセッサ管理機構2は異常発生プロセッサおよび
冗長プロセッサを業務配置機構3に通知し、これを受け
た業務配置機構3は業務テーブル6を参照することによ
り異常発生プロセッサの分担業務を確認して所定のプロ
セッサにこれらを配置するシステムにおいて、各業務の
異常発生時の対処法を記述できる異常対処法テーブル7
を設け、業務配置機構3は、このテーブル7から求めた
対処法に基づいて異常発生プロセッサの分担業務の配置
をおこなう。また、リカーシブル異常のときは再実行や
継続などによる業務配置を抑止し、初期化中の冗長プロ
セッサへの業務配置を遅延させる。
Description
テムにおけるプロセッサ異常対策方法およびそのための
装置に関し、特に複数の業務を分散処理しているプロセ
ッサのいずれかに異常が発生したことをプロセッサ監視
機構で検出したとき、プロセッサ管理機構は異常発生プ
ロセッサおよび冗長プロセッサに関する情報を業務配置
機構に通知し、この通知を受けた業務配置機構は業務テ
ーブルを参照することにより前記異常発生プロセッサの
分担業務を確認して所定のプロセッサにこれらを配置す
るようにしたマルチプロセッサシステムに関する。
サシステムにおいては、いずれかのプロセッサで異常が
生じるとそこでの分担業務を他のプロセッサで代行して
いるが、このとき、耐故障性(フォールトトレラント)
を高めてシステム全体の24時間運用をできるだけ確保
することが要請され、本発明はこのような要請に応える
ものである。
数のプロセッサを高速バスで疎結合したマルチプロセッ
サシステムが用いられており、ここでは複数の業務(O
Sや、通信制御などのアプリケーションの処理)を各プ
ロセッサが分散して担当している。
いずれかでハードウェアやソフトウェアの異常が生じた
ときの対処法を示す説明図であり、P1〜P3は現用プ
ロセッサ、P4は冗長プロセッサをそれぞれ示し、また
現用プロセッサP1で異常が発生したものとしている。
は、 ・すべての現用プロセッサの処理を停止すること(停
止) ・異常発生プロセッサP1で処理していた業務を停止
し、当該プロセッサの復旧後にその業務を最初から再開
すること(縮退・再開) ・代行プロセッサにより、異常発生プロセッサの業務を
最初から再実行すること(再実行) ・代行プロセッサにより、異常発生プロセッサの業務を
異常発生時から継続して実行すること(継続) などがある。なお、本明細書で用いる「代行プロセッ
サ」は冗長プロセッサと正常な現用プロセッサとを含む
ものである。
これらの対処法の一つまたは複数のものを選択して用い
ることになるが、この選択はOSが固定的に実行し、ユ
ーザの運用またはアプリケーションにより自由に選択で
きるものではない。
ードウェアまたはソフトウェアのいずれに基づくもので
あるかの判断を積極的におこなうことなしに前記の縮退
・再開、再実行や継続などを実行している。
生成され、またその実行途中でも利用される引継情報の
エラー がある。
異常時の対処法を、ユーザサイドの判断で、マルチプロ
セッサシステムの処理内容に対応したものに設定するこ
とができず、例えば他の正常な現用プロセッサへの影響
を局所化するなどの効率的なプロセッサ異常対策をとり
にくいという問題点があった。
エラーなどに基づくソフトウェア障害であれば、異常発
生プロセッサの業務を再実行または継続する代行プロセ
ッサでも必然的に異常が発生し、これに対応する新たな
代行処理およびそこでの異常発生といったことが繰り返
される、すなわちプロセッサ異常が拡大していくため、
マルチプロセッサシステムの耐故障性(フォールトトレ
ラント)を高めることができないという問題点があっ
た。
い時点でこれに対する業務配置の準備が始まると本来の
引継ぎがおこなわれないために代行できない状況となっ
てしまい、冗長プロセッサが有効に利用されないという
問題点があった。
対処法を選択的に記述できる異常対処法テーブルを設
け、 ・旧現用プロセッサの復旧中や代用プロセッサへの切替
え中などに再度異常が生じたとき、すなわちリカーシブ
ル異常のときには、その原因がソフトウェアにあるとみ
なして該当業務を再実行や継続などによって代行プロセ
ッサへ配置することを抑止し、 ・冗長プロセッサが初期化中であるときには当該プロセ
ッサへの業務配置を遅延させる、 ことにより、プロセッサ異常時の対処の多様化、異常発
生プロセッサの拡大抑止および冗長プロセッサの有効利
用を図ることを目的とする。
図である。図において、1は、プロセッサ監視機構であ
り、現用プロセッサP1〜P3の動作状態を監視してそ
の異常を検出している。2は、プロセッサ管理機構であ
り、 ・異常発生プロセッサおよび冗長プロセッサに関する情
報を業務配置機構3に通知し、 ・業務配置にともなう切替え中などに発生するリカーシ
ブル異常の可能性があるかどうかを示す情報、および冗
長プロセッサが初期化中であるかどうかの情報を管理し
ている。 3は、業務配置機構であり、 ・業務テーブル6で確認した異常発生プロセッサの分担
業務を、異常対処法テーブル7に記述の対処法に基づい
て所定のプロセッサに配置し、 ・プロセッサ管理機構2からリカーシブル異常の可能性
がある旨の通知を受けたときには再実行や継続などの特
定の対処法による業務配置を抑止し、 ・プロセッサ管理機構2から冗長プロセッサが初期化中
である旨の通知を受けたときには当該冗長プロセッサへ
の業務配置を遅延させている。 4は、プロセッサ対応テーブルであり、各プロセッサの
現用または冗長の種別を記述している(図4参照)。5
は、異常種別テーブルであり、各プロセッサの復旧中、
運用中、初期化中などの状態およびリカーシブル異常の
可能性を記述している(図5参照)。6は、業務テーブ
ルであり、業務とプロセッサとの対応を記述している
(図6参照)。7は、異常対処法テーブルであり、マル
チプロセッサシステムで実行される業務ごとに異常発生
時の対処法(停止、縮退、再実行および継続など)を記
述している。
ッサから代行プロセッサへと渡される引継情報などを記
憶する不揮発性共有メモリ、P1〜P3は現用プロセッ
サ、P4は冗長プロセッサをそれぞれ示している。
別々のもので示しているが、これらのテーブルにより示
される各情報をどのようなかたちでまとめて保持するか
は任意である。
の異常発生をプロセッサ管理機構2に通知し、 ・プロセッサ管理機構2は、プロセッサ対応テーブル4
および異常種別対応テーブル5を参照することにより、
異常発生プロセッサや冗長プロセッサを特定し、異常が
リカーシブルなものであるかどうかを確認し、また冗長
プロセッサが初期化中かどうかなどを確認してからこれ
らの情報を業務配置機構3に通知し、 ・業務配置機構3は、業務テーブル6を参照して異常発
生プロセッサの分担業務を特定し、異常対処法テーブル
7から求めた対処法でこの分担業務を冗長プロセッサP
4などに配置し、さらには各業務の配置状況をプロセッ
サ管理機構2に報告している。
サP4の外に異常発生となっていない現用プロセッサも
用いられ、後者においてはそれがもともと分担している
業務と新たに配置された業務とが実行されることにな
る。
プロセッサや冗長プロセッサの通知などに対応してプロ
セッサ対応テーブル4の内容を更新し、また業務配置機
構3からの報告に基づいて異常種別テーブル5の内容を
更新している。
7の内容は、ユーザやアプリケーションの方からマルチ
プロセッサシステムの能力、利用形態などにあわせて設
定、更新することができる。
方法としての基本的な構成は、「複数の業務を分散処理
しているプロセッサのいずれかに異常が発生したことを
プロセッサ監視機構で検出したとき、プロセッサ管理機
構は異常発生プロセッサおよび冗長プロセッサに関する
情報を業務配置機構に通知し、この通知を受けた業務配
置機構は業務テーブルを参照することにより前記異常発
生プロセッサの分担業務を確認して所定のプロセッサに
これらを配置するようにしたマルチプロセッサシステム
において、前記業務のそれぞれについての異常発生時の
対処法を選択的に記述できる異常対処法テーブルを設
け、前記業務配置機構は、この異常対処法テーブルを参
照することにより前記異常発生プロセッサの各分担業務
の対処法を求め、この対処法に基づいて前記分担業務の
配置をおこなうようにしたこと」である。
しての基本的な構成は、「複数の業務を分散処理してい
るプロセッサのいずれかに異常が発生したことを検出す
るプロセッサ監視機構と、異常発生プロセッサおよび冗
長プロセッサに関する情報を業務配置機構に通知するプ
ロセッサ管理機構と、前記業務のそれぞれについての異
常発生時の対処法を選択的に記述できる異常対処法テー
ブルと、業務テーブルを参照することにより確認した前
記異常発生プロセッサの分担業務を、前記異常対処法テ
ーブルに記述の対処法に基づいて所定のプロセッサに配
置する業務配置機構とを備えたこと」である。
テムで実行される業務ごとに異常発生時の対処法(停
止、縮退、再実行、継続など)を記述できる異常対処法
テーブルや、各プロセッサのリカーシブル異常の可能性
や冗長プロセッサの初期化中であること記述した異常種
別テーブルを設けることにより、異常発生プロセッサの
分担業務のそれぞれについてのその後の配置態様を個々
に選択でき、また異常発生の拡大を抑止するとともに冗
長プロセッサの使用効率を高めるようにしたものであ
る。
常が発生した時の対処例を示す説明図であり、P1〜P
3は現用プロセッサ、P4は初期化済(ホットスタンバ
イ状態)の冗長プロセッサを示し、現用プロセッサP2
で異常が発生したものとしている。
ともない当該プロセッサの各分担業務に対し、 ・分散OSについては現用プロセッサP1、P3および
冗長プロセッサP4のそれぞれで継続し、 ・通信制御bについては冗長プロセッサP4で継続し、 ・通信API Aについては現用プロセッサP3で継続し、 ・通信API Bについては縮退し、 ・印刷サーバについては現用プロセッサP1で再実行
し、 ・会話サービスについては停止する、 といった配置作業をおこなっている。なお、冗長プロセ
ッサP4は通信制御bの継続にともない通信制御aおよ
び通信制御cの業務を停止する。
と、 ・通信制御bを冗長プロセッサP4から継続し(復帰さ
せ)、 ・縮退していた通信API Bを再開させる、 といった配置作業をそれぞれおこなっている。
信制御bを冗長プロセッサP4から継続して再び分担す
るのは通信API Bのプログラムと通信制御bのプログラ
ムとの一体性が強いためである。
に固有のものではないので、旧現用プロセッサP2の復
旧後にも、異常発生前に現用プロセッサP2が分担して
いた分散OS部分を元に戻す作業はおこなっていない。
に停止となる会話サービスについてはそこでの引継情報
が不揮発性共有メモリ9に保持されないが、この他の各
業務についてはそれぞれの引継情報が不揮発性共有メモ
リ9に保持される。
サP1、P3および冗長プロセッサP4)は不揮発性共
有メモリ9の引継情報に基づいて継続や再実行の代行処
理をおこなっていく。
として「縮退」がとられるが、これは異常発生の原因で
ある引継情報をいったん削除してから再度同一PMで元
の業務を実行するためである。なお、現用プロセッサ
は、その業務を実行する過程で引継情報を作成するとと
もにこの作成情報を自らのその後の業務実行にも用いて
いる。
サP2とは別の任意のプロセッサによる引継情報の回
収、すなわち異常発生プロセッサP2が生成した当該引
継情報を不揮発性共有メモリ9から消去することがおこ
なわれる。
閉塞、すなわち当該プロセッサがそれまで実行していた
業務に対する他の現用プロセッサからの処理要求を抑止
して受け付けないようにすることがおこなわれる。
する。なお、以下の記載では、説明の便宜上、プロセッ
サの一例としてCPUとメモリとを持つプロセッサモジ
ュールを用い、またこれをPMと略記する。
要を示す説明図であり、11はPM監視機構、12はPM管
理機構、13は業務配置機構、14はPM定義部、15はPM
異常種別判定部、16はPM管理部、17は業務配置制御
部、18は停止部、19は回収部、20は縮退・再開部、21は
再実行部、22は継続部、23はPM異常時の業務別対処法
決定部、24は高速バス、25〜27はプロセッサモジュー
ル、28は不揮発性共有メモリをそれぞれ示している。
あり、31はPM対応テーブル、32は異常種別テーブル、
33は業務テーブル、34は異常対処法テーブルをそれぞれ
示している。なお、各テーブルにおけるPMの識別はP
Mの実装番号ではなくソフトウェア上のPM名によりお
こなわれ、両者の対応関係はPM対応テーブル31に記述
されている。
および業務配置機構13の全体は単一または複数のPMに
より構成され、プロセッサモジュール25〜27のそれぞれ
から高速バス24およびPM監視機構11を介して各PMか
ら組込やクラッシュを示す信号が通知される。なお、
「組込」とは、プロセッサモジュールがその使用開始時
や復旧時にハードウエア的に動作可能状態になったこと
である。また、組込やクラッシュを示す信号は通知元P
Mの実装番号である。
PM管理機構12は、 ・PM定義部14の動作により、異常発生PMの名前とそ
れに対応の実装PM、および冗長PMを求め(図4のP
M対応テーブル31参照)、 ・PM異常種別判定部15の動作により、確認した異常が
リカーシブルなものである可能性や、冗長プロセッサが
初期化中であるかどうかを確認し(図5の異常種別テー
ブル32参照)、 ・これらの情報を業務配置機構13に通知する。
それまで分担していた業務を求め(図6の業務テーブル
33参照)、 ・次に業務別対処法決定部23の動作により、当該各業務
についての対処法とそれをどのPMに配置するかを決定
し(図7の異常対処法テーブル34参照)、 ・次に業務配置制御部17の動作により、停止部18〜継続
部22の対応する部分に当該配置を指示する。なお、業務
配置機構13の方からPM対応テーブル31の内容をPM管
理機構12に問い合わせることもできる。
業務配置制御部17からの指示に基づいて動作し、このと
きの各部分での処理状況はPM管理機構12に通知され
る。例えば、継続部22は継続対象の業務についての引継
情報を用いることにより代行PMへの切替え処理を開始
してその終了後に業務継続の運用開始となるが、この間
の配置状況の変化(切替え処理の開始、終了など)はP
M管理機構12に通知され、PM管理機構12はこの通知情
報に基づいて異常種別テーブル32の内容を更新する。
よび冗長PMの特定にともない前者のPM名に後者を割
りあてるかたちでPM対応テーブル31の内容を更新し、
業務配置機構13は、業務別対処法決定部23の決定にした
がって業務テーブル33の内容を更新する。
それぞれにおけるα、β・・・は各部分での処理が業務
ごとにおこなわれることを示すもので、例えばαの部分
では「分散OS」の業務を担当するといったかたちであ
る。
号(切替え処理の開始、終了など)は、例えば冗長PM
へ配置すべき各業務の配置処理を担当する各部分(例え
ば再実行部21のγおよび継続部22のα、β)から送られ
ており、異常種別テーブル32の例えば「pm0c」のP
M状態が「切替え中」から「運用中」に、またリカーシ
ブル異常の可能性が「あり」から「なし」に変更される
のはこれらの各部分からの終了通知がそろった後、すな
わち切替えのために必要な処理がすべて終わってからで
ある。
対する選択肢として「縮退・再開」と「継続・復帰」の
二つを、また通信アプリケーションの業務に対する選択
肢として「縮退・再開」と「継続」の二つを用意してお
り、これらの業務の場合にいずれを用いるかは業務別対
処法決定部23が決定する。
・復帰」とは、前者が代行PMに業務が引き継がれた後
で異常発生PMが復旧してもこの代行PMによる処理が
続く(図2の通信API Aが相当)のに対し、後者は異常
発生PMの復旧により当該業務を復帰させる(図2の通
信制御bが相当)点で相違する。また、「再実行」と
「再実行・復帰」との相違も同様である。
担業務の内の、代行すべき部分は冗長PMまたは他の任
意の現用PMでその継続または再実行をおこない、縮退
・再開により対応できる部分は異常発生PMの復旧を待
つといったように、異常発生時の業務を冗長PMなどに
配置する上での多様性を持たせている。
における各機能は次のようになっている。 (1) 代行機能(継続機能および再実行機能) (2) 縮退機能および再開機能 (3) システム停止機能 (4) リカーシブル異常の監視機能 (5) 縮退/再開のさいに引継情報を回収する機能 (6) 冗長PMが初期化中の場合に当該PMへの切替えを
遅延させる機能 (7) 同一のPMがリカーシブルに縮退と再開を繰り返し
た場合には、システムによる当該PMの自動復旧機能を
停止する機能(永縮機能) (8) 以上の(1) 〜(7) を業務単位、運用単位で定義する
機能 (9) 以上の(1) 〜(7) を選択する機能 (10)異常発生時に冗長PMが存在しないとき、異常発生
PMの分担業務のそれぞれを個々に、 ・他の任意の現用PMで代行する ・他の任意の現用PMで閉塞し、すなわち当該業務に対
する他のPMからの要求を抑止し、当該業務の引継情報
を回収する ・他の任意の現用PMで代行しない といったことを選択する機能
管理機構12であり、その他の各機能の実行主体は業務配
置機構13であり、例えば(7) の遅延処理は冗長PMに配
置すべき各業務の対処法に応じて再実行部21または継続
部22が実行する。
ことはPM管理機構12から業務配置機構13に通知され、
また異常発生PMが復旧したことは業務配置機構13から
PM管理機構12に通知される。そして、PM管理機構12
はPM対応テーブル31にこの復旧PMを冗長PMとして
記述する。
いずれかの時点で他の任意の現用PMによっておこなわ
れるが、後者のときには引継情報を他の現用PMが用い
ることができないようにする処理がおこなわれる。
常発生時)または組込み発生時の処理手順を示す説明図
であり、クラッツュ発生時に対応のステップ(21)〜(29)
と組込み発生時のステップ(30)〜(37)とからなってお
り、前記のように、クラッツュ発生および組込み発生は
そのPMの実装番号で通知される。
うかを判断し、「YES」の場合は次のステップに進み、
「NO」の場合はステップ(25)に進む。ここで、「NO」と
なるのは通知元PMのシステム上での重要度が高い場合
であり、各PMの重要度についての情報はPM管理機構
12が保持している。 (22)PM管理機構12は、異常種別テーブル32を参照して
当該異常がリカーシブルなものであるかどうかを判断
し、「YES」の場合は次のステップに進み、「NO」の場
合はステップ(26)に進む。 (23)PM管理機構12は、異常発生PMの実装番号をPM
対応テーブル31から削除して、次のステップに進む。こ
のとき、異常発生PMのPM名が業務配置機構13に通知
される。 (24)業務配置機構13は、異常発生PMの各担当業務の停
止または縮退と、引継情報の回収(共有メモリからの削
除)を実行する。ここで、異常発生の対処法として縮退
がとられるのは、リカーシブル異常の発生がそれまでの
業務の実行に利用された引継情報のエラーに起因してい
る場合などにこれをいったん削除して再度同一PMで当
該業務を実行するためである。 (25)システムを停止する。 (26)PM管理機構12は、PM対応テーブル31を参照して
冗長PMが存在するかどうかを判断し、「YES」の場合
は次のステップに進み、「NO」の場合はステップ(29)に
進む。 (27)PM管理機構12は、PM対応テーブル31の、異常発
生PMのPM名に対応の実装番号を冗長PMのそれに変
更して、次のステップに進む。例えば、PM対応テーブ
ル31の「♯001」のPMで異常が発生したとき、PM
名「pm0a」の実装番号が「♯001」から冗長PMの
「♯001」に変更される。 (28)業務配置機構13は、異常発生PMの各担当業務の ・継続 ・再実行 ・縮退および回収 を選択的に実行する。
縮退中または所定業務の復帰対象となっているかどうか
を判断し、「YES」の場合は次のステップに進み、「N
O」の場合はステップ(33)に進む。なお、PM管理機構1
2は、この判断に用いられる情報を、PM対応テーブル3
1にいったん記述された実装番号の記録や業務配置機構1
3からの報告などのかたちで保持している。また、所定
業務の復帰対象とは、異常対処法テーブル34の「継続・
復帰」や「再継続・復帰」の場合である。 (31)PM管理機構12は、組込み発生PMの実装番号をP
M対応テーブル31に記述して、次のステップに進む。こ
こで、異常発生PMの元のPM名が冗長PMに使用され
ている場合には新たなPM名とともに当該実装番号が記
述される。(32)業務配置機構13は、 ・組込み発生PMに対する閉塞の解除および縮退業務の
再開 ・所定業務の復帰 を選択的に実行する。なお、ステップ(31)で新たなPM
名が記述された場合には、業務テーブル33における当該
業務の配置先PMの変更をおこなう。 (33)組込み発生PMは新たに実装されたPMかどうかを
判断し、「YES」の場合は次のステップに進み、「NO」
の場合はステップ(37)に進む。なお、組込み発生PMを
新たに実装するのは通常システム全体の能力を高めるた
めであり、この場合にはそこで担当する業務が業務テー
ブル33に新PM名によって記述されるのが一般的であ
る。 (34)PM管理機構12は、組込み発生PMの実装番号と新
PM名とを対応させてPM対応テーブル31に記述して、
次のステップに進む。 (35)組込み発生PMの分担業務が業務テーブル33に記述
されているかどうかを判断し、「YES」の場合は次のス
テップに進み、「NO」の場合はいったん処理を終了す
る。ここで、「NO」の場合にはステップ(34)で記述した
新PM名を削除し、このPMを冗長PMとして用いるよ
うにしてもよい。 (36)組込み発生PMはこれらの記述された業務を実行す
る。 (37)PM管理機構12は、組込み発生PMの実装番号をP
M対応テーブル31に記述する。この場合、組込み発生P
Mは冗長PMとして管理される。
担する各業務についての異常発生時の対処法を選択的に
記述できる異常対処法テーブルを設け、旧現用プロセッ
サの復旧中や代用プロセッサへの切替え中などに再度異
常が生じたとき、すなわちリカーシブル異常のときに
は、その原因がソフトウェアにあるとみなして該当業務
を再実行や継続などによって代行プロセッサへ配置する
ことを抑止し、さらには冗長プロセッサが初期化中であ
るときには当該プロセッサへの業務配置を遅延させるよ
うにしている。
化、異常発生プロセッサの拡大抑止および冗長プロセッ
サの有効利用などが可能となり、全体としてマルチプロ
セッサシステムの耐故障性を高めることができる。
たときの対処例を示す説明図である。
要を示す説明図である。
を示す説明図である。
る。
説明図である。
ある。
時の処理手順を示す説明図(その1)である。
時の処理手順を示す説明図(その2)である。
したときの対処例を示す説明図である。
Claims (6)
- 【請求項1】 複数の業務を分散処理しているプロセッ
サのいずれかに異常が発生したことをプロセッサ監視機
構で検出したとき、プロセッサ管理機構は異常発生プロ
セッサおよび冗長プロセッサに関する情報を業務配置機
構に通知し、この通知を受けた業務配置機構は業務テー
ブルを参照することにより前記異常発生プロセッサの分
担業務を確認して所定のプロセッサにこれらを配置する
ようにしたマルチプロセッサシステムにおいて、 前記業務のそれぞれについての異常発生時の対処法を選
択的に記述できる異常対処法テーブルを設け、 前記業務配置機構は、この異常対処法テーブルを参照す
ることにより前記異常発生プロセッサの各分担業務の対
処法を求め、この対処法に基づいて前記分担業務の配置
をおこなうようにしたことを特徴とするマルチプロセッ
サシステムにおけるプロセッサ異常対策方法。 - 【請求項2】 前記プロセッサ管理機構は、前記配置に
ともなう切替え中などに発生するリカーシブル異常の可
能性があるかどうかを示す情報を管理し、 前記業務配置機構は、前記プロセッサ管理機構からこの
リカーシブル異常の可能性がある旨の通知を受けたと
き、再実行や継続などの特定の対処法による業務配置を
抑止することを特徴とする請求項1記載のマルチプロセ
ッサシステムにおけるプロセッサ異常対策方法。 - 【請求項3】 前記プロセッサ管理機構は、前記冗長プ
ロセッサが初期化中であるかどうかの情報を管理し、 前記業務配置機構は、前記プロセッサ管理機構からこの
初期化中である旨の通知を受けたとき、前記冗長プロセ
ッサへの業務配置を遅延させることを特徴とする請求項
1または2記載のマルチプロセッサシステムにおけるプ
ロセッサ異常対策方法。 - 【請求項4】 複数の業務を分散処理しているプロセッ
サのいずれかに異常が発生したことを検出するプロセッ
サ監視機構と、 異常発生プロセッサおよび冗長プロセッサに関する情報
を業務配置機構に通知するプロセッサ管理機構と、 前記業務のそれぞれについての異常発生時の対処法を選
択的に記述できる異常対処法テーブルと、 業務テーブルを参照することにより確認した前記異常発
生プロセッサの分担業務を、前記異常対処法テーブルに
記述の対処法に基づいて所定のプロセッサに配置する業
務配置機構と、を備えたことを特徴とするマルチプロセ
ッサシステムにおけるプロセッサ異常対策装置。 - 【請求項5】 前記プロセッサ管理機構に、前記配置に
ともなう切替え中などに発生するリカーシブル異常の可
能性があるかどうかを示す情報を管理する機能を付加
し、 前記業務配置機構に、前記プロセッサ管理機構からこの
リカーシブル異常の可能性がある旨の通知を受けたと
き、再実行や継続などの特定の対処法による業務配置を
抑止する機能を付加したことを特徴とする請求項4記載
のマルチプロセッサシステムにおけるプロセッサ異常対
策装置。 - 【請求項6】 前記プロセッサ管理機構に、前記冗長プ
ロセッサが初期化中であるかどうかの情報を管理する機
能を付加し、 前記業務配置機構に、前記プロセッサ管理機構からこの
初期化中である旨の通知を受けたとき、前記冗長プロセ
ッサへの業務配置を遅延させる機能を付加したことを特
徴とする請求項4または5記載のマルチプロセッサシス
テムにおけるプロセッサ異常対策装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23542294A JP3345626B2 (ja) | 1994-09-29 | 1994-09-29 | マルチプロセッサシステムにおけるプロセッサ異常対策装置およびマルチプロセッサシステムにおけるプロセッサ異常対策方法 |
US08/536,739 US5796937A (en) | 1994-09-29 | 1995-09-29 | Method of and apparatus for dealing with processor abnormality in multiprocessor system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23542294A JP3345626B2 (ja) | 1994-09-29 | 1994-09-29 | マルチプロセッサシステムにおけるプロセッサ異常対策装置およびマルチプロセッサシステムにおけるプロセッサ異常対策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0895935A true JPH0895935A (ja) | 1996-04-12 |
JP3345626B2 JP3345626B2 (ja) | 2002-11-18 |
Family
ID=16985876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP23542294A Expired - Fee Related JP3345626B2 (ja) | 1994-09-29 | 1994-09-29 | マルチプロセッサシステムにおけるプロセッサ異常対策装置およびマルチプロセッサシステムにおけるプロセッサ異常対策方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5796937A (ja) |
JP (1) | JP3345626B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004053714A1 (ja) * | 2002-12-12 | 2004-06-24 | Fujitsu Limited | 分散処理装置 |
JP2005352708A (ja) * | 2004-06-10 | 2005-12-22 | Hitachi Ltd | オンライン同期スケジュール回復システムおよびその処理方法 |
US10579489B2 (en) | 2015-07-30 | 2020-03-03 | Mitsubishi Electric Corporation | Program execution device, program execution system, and program execution method |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2319369B (en) * | 1996-06-20 | 2000-10-25 | Fujitsu Ltd | Work inheriting system |
US6282596B1 (en) | 1999-03-25 | 2001-08-28 | International Business Machines Corporation | Method and system for hot-plugging a processor into a data processing system |
JP2001069585A (ja) * | 1999-08-31 | 2001-03-16 | Fujitsu Ltd | 二重化装置及びハイウェイインタフェース回路 |
FR2798755B1 (fr) * | 1999-09-16 | 2001-11-02 | Bull Sa | Systeme d'administration pour machines multimodulaires multiprocesseurs |
GB2359384B (en) * | 2000-02-16 | 2004-06-16 | Data Connection Ltd | Automatic reconnection of partner software processes in a fault-tolerant computer system |
GB2370380B (en) | 2000-12-19 | 2003-12-31 | Picochip Designs Ltd | Processor architecture |
US6684346B2 (en) * | 2000-12-22 | 2004-01-27 | Intel Corporation | Method and apparatus for machine check abort handling in a multiprocessing system |
US6990320B2 (en) * | 2002-02-26 | 2006-01-24 | Motorola, Inc. | Dynamic reallocation of processing resources for redundant functionality |
US6948008B2 (en) * | 2002-03-12 | 2005-09-20 | Intel Corporation | System with redundant central management controllers |
US7117390B1 (en) * | 2002-05-20 | 2006-10-03 | Sandia Corporation | Practical, redundant, failure-tolerant, self-reconfiguring embedded system architecture |
GB2417586B (en) * | 2002-07-19 | 2007-03-28 | Picochip Designs Ltd | Processor array |
US7478393B2 (en) * | 2003-04-30 | 2009-01-13 | International Business Machines Corporation | Method for marketing to instant messaging service users |
US7426657B2 (en) * | 2004-07-09 | 2008-09-16 | International Business Machines Corporation | System and method for predictive processor failure recovery |
FR2883999B1 (fr) * | 2005-03-29 | 2007-05-18 | Peugeot Citroen Automobiles Sa | Systeme de pilotage d'au moins un organe fonctionnel de vehicule automobile |
JP4831599B2 (ja) * | 2005-06-28 | 2011-12-07 | ルネサスエレクトロニクス株式会社 | 処理装置 |
US7502957B2 (en) * | 2005-09-09 | 2009-03-10 | International Business Machines Corporation | Method and system to execute recovery in non-homogeneous multi processor environments |
US20080201605A1 (en) * | 2007-02-21 | 2008-08-21 | Inventec Corporation | Dead man timer detecting method, multiprocessor switching method and processor hot plug support method |
JP4458119B2 (ja) * | 2007-06-11 | 2010-04-28 | トヨタ自動車株式会社 | マルチプロセッサシステム及びその制御方法 |
GB2454865B (en) | 2007-11-05 | 2012-06-13 | Picochip Designs Ltd | Power control |
TWI369608B (en) * | 2008-02-15 | 2012-08-01 | Mstar Semiconductor Inc | Multi-microprocessor system and control method therefor |
GB2470037B (en) | 2009-05-07 | 2013-07-10 | Picochip Designs Ltd | Methods and devices for reducing interference in an uplink |
GB2470771B (en) | 2009-06-05 | 2012-07-18 | Picochip Designs Ltd | A method and device in a communication network |
GB2470891B (en) | 2009-06-05 | 2013-11-27 | Picochip Designs Ltd | A method and device in a communication network |
GB2474071B (en) | 2009-10-05 | 2013-08-07 | Picochip Designs Ltd | Femtocell base station |
GB2482869B (en) | 2010-08-16 | 2013-11-06 | Picochip Designs Ltd | Femtocell access control |
GB2489919B (en) | 2011-04-05 | 2018-02-14 | Intel Corp | Filter |
GB2489716B (en) | 2011-04-05 | 2015-06-24 | Intel Corp | Multimode base system |
GB2491098B (en) | 2011-05-16 | 2015-05-20 | Intel Corp | Accessing a base station |
JP6540309B2 (ja) * | 2015-07-16 | 2019-07-10 | 富士通株式会社 | 共有メモリシステム、演算処理装置、及び方法 |
US11385977B2 (en) * | 2017-04-25 | 2022-07-12 | Hitachi, Ltd. | Reconfiguration control device |
CN109800052B (zh) * | 2018-12-15 | 2020-11-24 | 深圳先进技术研究院 | 应用于分布式容器云平台的异常检测与定位方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3787816A (en) * | 1972-05-12 | 1974-01-22 | Burroughs Corp | Multiprocessing system having means for automatic resource management |
US3937936A (en) * | 1975-04-14 | 1976-02-10 | The United States Of America As Represented By The Secretary Of The Air Force | Equipment self-repair by adaptive multifunction modules |
GB2074351B (en) * | 1980-03-28 | 1984-01-04 | Int Computers Ltd | Data processing system |
US4503534A (en) * | 1982-06-30 | 1985-03-05 | Intel Corporation | Apparatus for redundant operation of modules in a multiprocessing system |
US4654846A (en) * | 1983-12-20 | 1987-03-31 | Rca Corporation | Spacecraft autonomous redundancy control |
US4807228A (en) * | 1987-03-18 | 1989-02-21 | American Telephone And Telegraph Company, At&T Bell Laboratories | Method of spare capacity use for fault detection in a multiprocessor system |
US4933838A (en) * | 1987-06-03 | 1990-06-12 | The Boeing Company | Segmentable parallel bus for multiprocessor computer systems |
US4866712A (en) * | 1988-02-19 | 1989-09-12 | Bell Communications Research, Inc. | Methods and apparatus for fault recovery |
US5003464A (en) * | 1988-05-23 | 1991-03-26 | Bell Communications Research, Inc. | Methods and apparatus for efficient resource allocation |
US5214778A (en) * | 1990-04-06 | 1993-05-25 | Micro Technology, Inc. | Resource management in a multiple resource system |
-
1994
- 1994-09-29 JP JP23542294A patent/JP3345626B2/ja not_active Expired - Fee Related
-
1995
- 1995-09-29 US US08/536,739 patent/US5796937A/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004053714A1 (ja) * | 2002-12-12 | 2004-06-24 | Fujitsu Limited | 分散処理装置 |
JP2005352708A (ja) * | 2004-06-10 | 2005-12-22 | Hitachi Ltd | オンライン同期スケジュール回復システムおよびその処理方法 |
US10579489B2 (en) | 2015-07-30 | 2020-03-03 | Mitsubishi Electric Corporation | Program execution device, program execution system, and program execution method |
Also Published As
Publication number | Publication date |
---|---|
US5796937A (en) | 1998-08-18 |
JP3345626B2 (ja) | 2002-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0895935A (ja) | マルチプロセッサシステムにおけるプロセッサ異常対策方法およびそのための装置 | |
US6477663B1 (en) | Method and apparatus for providing process pair protection for complex applications | |
US6195760B1 (en) | Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network | |
US6266781B1 (en) | Method and apparatus for providing failure detection and recovery with predetermined replication style for distributed applications in a network | |
JP3737695B2 (ja) | 透過的時間ベースの選択的ソフトウェア若返りのためのシステム及び方法 | |
JP2552651B2 (ja) | 再構成可能なデュアル・プロセッサ・システム | |
EP0433979A2 (en) | Fault-tolerant computer system with/config filesystem | |
JP2004318885A (ja) | 故障プロセッサを置き換える方法、媒体およびシステム | |
JPH0820965B2 (ja) | プログラムの実行を続行する方法 | |
JPH08263454A (ja) | 障害回復処理方法 | |
JP2002259155A (ja) | 多重系計算機システム | |
CN111400086B (zh) | 虚拟机容错的实现方法和系统 | |
EP0683456A1 (en) | Fault-tolerant computer system with online reintegration and shutdown/restart | |
US20090113255A1 (en) | Software Fault Detection Using Progress Tracker | |
JPH01224846A (ja) | プロセス空間切り換え制御方式 | |
JPH07183891A (ja) | 計算機システム | |
JP3604171B2 (ja) | プロセス自動再起動処理方式 | |
JPH05314075A (ja) | オンラインコンピュータ装置 | |
JP3022768B2 (ja) | 仮想計算機システム | |
Goldberg et al. | The design and implementation of a fault-tolerant cluster manager | |
JP2000066913A (ja) | 任意プロセッサのプログラム・データ無中断更新システム | |
JPH10187616A (ja) | 状態記録再現方法、ならびに同方法を実現する計算機システム、及び同方法がプログラムされ記憶されるメモリ装置 | |
US20070038849A1 (en) | Computing system and method | |
JP5018140B2 (ja) | マルチプロセッサシステム、タスクスケジューリング方法およびタスクスケジューリングプログラム | |
JPH0736721A (ja) | 多重化コンピュータシステムの制御方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20020604 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080906 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080906 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090906 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090906 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100906 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100906 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110906 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |