JPH0895935A - マルチプロセッサシステムにおけるプロセッサ異常対策方法およびそのための装置 - Google Patents

マルチプロセッサシステムにおけるプロセッサ異常対策方法およびそのための装置

Info

Publication number
JPH0895935A
JPH0895935A JP6235422A JP23542294A JPH0895935A JP H0895935 A JPH0895935 A JP H0895935A JP 6235422 A JP6235422 A JP 6235422A JP 23542294 A JP23542294 A JP 23542294A JP H0895935 A JPH0895935 A JP H0895935A
Authority
JP
Japan
Prior art keywords
processor
abnormality
countermeasure
redundant
job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6235422A
Other languages
English (en)
Other versions
JP3345626B2 (ja
Inventor
Yoshimi Kitsuka
省臣 木塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP23542294A priority Critical patent/JP3345626B2/ja
Priority to US08/536,739 priority patent/US5796937A/en
Publication of JPH0895935A publication Critical patent/JPH0895935A/ja
Application granted granted Critical
Publication of JP3345626B2 publication Critical patent/JP3345626B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【目的】 プロセッサ異常時の対処の多様化、異常発生
プロセッサの拡大抑止および冗長プロセッサの有効利用
を図ることを目的とする。 【構成】 分散処理プロセッサP1〜P4のいずれかに異常
が発生したことをプロセッサ監視機構1で検出したと
き、プロセッサ管理機構2は異常発生プロセッサおよび
冗長プロセッサを業務配置機構3に通知し、これを受け
た業務配置機構3は業務テーブル6を参照することによ
り異常発生プロセッサの分担業務を確認して所定のプロ
セッサにこれらを配置するシステムにおいて、各業務の
異常発生時の対処法を記述できる異常対処法テーブル7
を設け、業務配置機構3は、このテーブル7から求めた
対処法に基づいて異常発生プロセッサの分担業務の配置
をおこなう。また、リカーシブル異常のときは再実行や
継続などによる業務配置を抑止し、初期化中の冗長プロ
セッサへの業務配置を遅延させる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、マルチプロセッサシス
テムにおけるプロセッサ異常対策方法およびそのための
装置に関し、特に複数の業務を分散処理しているプロセ
ッサのいずれかに異常が発生したことをプロセッサ監視
機構で検出したとき、プロセッサ管理機構は異常発生プ
ロセッサおよび冗長プロセッサに関する情報を業務配置
機構に通知し、この通知を受けた業務配置機構は業務テ
ーブルを参照することにより前記異常発生プロセッサの
分担業務を確認して所定のプロセッサにこれらを配置す
るようにしたマルチプロセッサシステムに関する。
【0002】複数の業務を分散処理するマルチプロセッ
サシステムにおいては、いずれかのプロセッサで異常が
生じるとそこでの分担業務を他のプロセッサで代行して
いるが、このとき、耐故障性(フォールトトレラント)
を高めてシステム全体の24時間運用をできるだけ確保
することが要請され、本発明はこのような要請に応える
ものである。
【0003】
【従来の技術】従来、例えばCPUとメモリからなる複
数のプロセッサを高速バスで疎結合したマルチプロセッ
サシステムが用いられており、ここでは複数の業務(O
Sや、通信制御などのアプリケーションの処理)を各プ
ロセッサが分散して担当している。
【0004】図10は、一般的な、分散処理プロセッサの
いずれかでハードウェアやソフトウェアの異常が生じた
ときの対処法を示す説明図であり、P1〜P3は現用プ
ロセッサ、P4は冗長プロセッサをそれぞれ示し、また
現用プロセッサP1で異常が発生したものとしている。
【0005】図示のように、異常発生時の対処法として
は、 ・すべての現用プロセッサの処理を停止すること(停
止) ・異常発生プロセッサP1で処理していた業務を停止
し、当該プロセッサの復旧後にその業務を最初から再開
すること(縮退・再開) ・代行プロセッサにより、異常発生プロセッサの業務を
最初から再実行すること(再実行) ・代行プロセッサにより、異常発生プロセッサの業務を
異常発生時から継続して実行すること(継続) などがある。なお、本明細書で用いる「代行プロセッ
サ」は冗長プロセッサと正常な現用プロセッサとを含む
ものである。
【0006】そして、マルチプロセッサシステムごとに
これらの対処法の一つまたは複数のものを選択して用い
ることになるが、この選択はOSが固定的に実行し、ユ
ーザの運用またはアプリケーションにより自由に選択で
きるものではない。
【0007】また、現用プロセッサの異常がそこでのハ
ードウェアまたはソフトウェアのいずれに基づくもので
あるかの判断を積極的におこなうことなしに前記の縮退
・再開、再実行や継続などを実行している。
【0008】なお、ソフトウェアの異常原因としては ・業務プログラム自体のエラー ・各プロセッサで業務プログラムを実行していくときに
生成され、またその実行途中でも利用される引継情報の
エラー がある。
【0009】
【発明が解決しようとする課題】そのため、プロセッサ
異常時の対処法を、ユーザサイドの判断で、マルチプロ
セッサシステムの処理内容に対応したものに設定するこ
とができず、例えば他の正常な現用プロセッサへの影響
を局所化するなどの効率的なプロセッサ異常対策をとり
にくいという問題点があった。
【0010】また、プロセッサ異常の原因が引継情報の
エラーなどに基づくソフトウェア障害であれば、異常発
生プロセッサの業務を再実行または継続する代行プロセ
ッサでも必然的に異常が発生し、これに対応する新たな
代行処理およびそこでの異常発生といったことが繰り返
される、すなわちプロセッサ異常が拡大していくため、
マルチプロセッサシステムの耐故障性(フォールトトレ
ラント)を高めることができないという問題点があっ
た。
【0011】また、冗長プロセッサが初期化されていな
い時点でこれに対する業務配置の準備が始まると本来の
引継ぎがおこなわれないために代行できない状況となっ
てしまい、冗長プロセッサが有効に利用されないという
問題点があった。
【0012】そこで、本発明では、 ・プロセッサで分担する各業務についての異常発生時の
対処法を選択的に記述できる異常対処法テーブルを設
け、 ・旧現用プロセッサの復旧中や代用プロセッサへの切替
え中などに再度異常が生じたとき、すなわちリカーシブ
ル異常のときには、その原因がソフトウェアにあるとみ
なして該当業務を再実行や継続などによって代行プロセ
ッサへ配置することを抑止し、 ・冗長プロセッサが初期化中であるときには当該プロセ
ッサへの業務配置を遅延させる、 ことにより、プロセッサ異常時の対処の多様化、異常発
生プロセッサの拡大抑止および冗長プロセッサの有効利
用を図ることを目的とする。
【0013】
【課題を解決するための手段】図1は本発明の原理説明
図である。図において、1は、プロセッサ監視機構であ
り、現用プロセッサP1〜P3の動作状態を監視してそ
の異常を検出している。2は、プロセッサ管理機構であ
り、 ・異常発生プロセッサおよび冗長プロセッサに関する情
報を業務配置機構3に通知し、 ・業務配置にともなう切替え中などに発生するリカーシ
ブル異常の可能性があるかどうかを示す情報、および冗
長プロセッサが初期化中であるかどうかの情報を管理し
ている。 3は、業務配置機構であり、 ・業務テーブル6で確認した異常発生プロセッサの分担
業務を、異常対処法テーブル7に記述の対処法に基づい
て所定のプロセッサに配置し、 ・プロセッサ管理機構2からリカーシブル異常の可能性
がある旨の通知を受けたときには再実行や継続などの特
定の対処法による業務配置を抑止し、 ・プロセッサ管理機構2から冗長プロセッサが初期化中
である旨の通知を受けたときには当該冗長プロセッサへ
の業務配置を遅延させている。 4は、プロセッサ対応テーブルであり、各プロセッサの
現用または冗長の種別を記述している(図4参照)。5
は、異常種別テーブルであり、各プロセッサの復旧中、
運用中、初期化中などの状態およびリカーシブル異常の
可能性を記述している(図5参照)。6は、業務テーブ
ルであり、業務とプロセッサとの対応を記述している
(図6参照)。7は、異常対処法テーブルであり、マル
チプロセッサシステムで実行される業務ごとに異常発生
時の対処法(停止、縮退、再実行および継続など)を記
述している。
【0014】また、8は高速バス、9は異常発生プロセ
ッサから代行プロセッサへと渡される引継情報などを記
憶する不揮発性共有メモリ、P1〜P3は現用プロセッ
サ、P4は冗長プロセッサをそれぞれ示している。
【0015】なお、4〜7の各テーブルは説明の便宜上
別々のもので示しているが、これらのテーブルにより示
される各情報をどのようなかたちでまとめて保持するか
は任意である。
【0016】ここで、 ・プロセッサ監視機構1は、現用プロセッサP1〜P3
の異常発生をプロセッサ管理機構2に通知し、 ・プロセッサ管理機構2は、プロセッサ対応テーブル4
および異常種別対応テーブル5を参照することにより、
異常発生プロセッサや冗長プロセッサを特定し、異常が
リカーシブルなものであるかどうかを確認し、また冗長
プロセッサが初期化中かどうかなどを確認してからこれ
らの情報を業務配置機構3に通知し、 ・業務配置機構3は、業務テーブル6を参照して異常発
生プロセッサの分担業務を特定し、異常対処法テーブル
7から求めた対処法でこの分担業務を冗長プロセッサP
4などに配置し、さらには各業務の配置状況をプロセッ
サ管理機構2に報告している。
【0017】なお、代行プロセッサには、冗長プロセッ
サP4の外に異常発生となっていない現用プロセッサも
用いられ、後者においてはそれがもともと分担している
業務と新たに配置された業務とが実行されることにな
る。
【0018】また、プロセッサ管理機構2は、異常発生
プロセッサや冗長プロセッサの通知などに対応してプロ
セッサ対応テーブル4の内容を更新し、また業務配置機
構3からの報告に基づいて異常種別テーブル5の内容を
更新している。
【0019】業務テーブル6および異常対処法テーブル
7の内容は、ユーザやアプリケーションの方からマルチ
プロセッサシステムの能力、利用形態などにあわせて設
定、更新することができる。
【0020】このように、本発明のプロセッサ異常対策
方法としての基本的な構成は、「複数の業務を分散処理
しているプロセッサのいずれかに異常が発生したことを
プロセッサ監視機構で検出したとき、プロセッサ管理機
構は異常発生プロセッサおよび冗長プロセッサに関する
情報を業務配置機構に通知し、この通知を受けた業務配
置機構は業務テーブルを参照することにより前記異常発
生プロセッサの分担業務を確認して所定のプロセッサに
これらを配置するようにしたマルチプロセッサシステム
において、前記業務のそれぞれについての異常発生時の
対処法を選択的に記述できる異常対処法テーブルを設
け、前記業務配置機構は、この異常対処法テーブルを参
照することにより前記異常発生プロセッサの各分担業務
の対処法を求め、この対処法に基づいて前記分担業務の
配置をおこなうようにしたこと」である。
【0021】また、本発明のプロセッサ異常対策装置と
しての基本的な構成は、「複数の業務を分散処理してい
るプロセッサのいずれかに異常が発生したことを検出す
るプロセッサ監視機構と、異常発生プロセッサおよび冗
長プロセッサに関する情報を業務配置機構に通知するプ
ロセッサ管理機構と、前記業務のそれぞれについての異
常発生時の対処法を選択的に記述できる異常対処法テー
ブルと、業務テーブルを参照することにより確認した前
記異常発生プロセッサの分担業務を、前記異常対処法テ
ーブルに記述の対処法に基づいて所定のプロセッサに配
置する業務配置機構とを備えたこと」である。
【0022】
【作用】本発明は、このように、マルチプロセッサシス
テムで実行される業務ごとに異常発生時の対処法(停
止、縮退、再実行、継続など)を記述できる異常対処法
テーブルや、各プロセッサのリカーシブル異常の可能性
や冗長プロセッサの初期化中であること記述した異常種
別テーブルを設けることにより、異常発生プロセッサの
分担業務のそれぞれについてのその後の配置態様を個々
に選択でき、また異常発生の拡大を抑止するとともに冗
長プロセッサの使用効率を高めるようにしたものであ
る。
【0023】図2は、本発明の分散処理プロセッサで異
常が発生した時の対処例を示す説明図であり、P1〜P
3は現用プロセッサ、P4は初期化済(ホットスタンバ
イ状態)の冗長プロセッサを示し、現用プロセッサP2
で異常が発生したものとしている。
【0024】先ず、現用プロセッサP2での異常発生に
ともない当該プロセッサの各分担業務に対し、 ・分散OSについては現用プロセッサP1、P3および
冗長プロセッサP4のそれぞれで継続し、 ・通信制御bについては冗長プロセッサP4で継続し、 ・通信API Aについては現用プロセッサP3で継続し、 ・通信API Bについては縮退し、 ・印刷サーバについては現用プロセッサP1で再実行
し、 ・会話サービスについては停止する、 といった配置作業をおこなっている。なお、冗長プロセ
ッサP4は通信制御bの継続にともない通信制御aおよ
び通信制御cの業務を停止する。
【0025】次に、旧現用プロセッサP2が復旧する
と、 ・通信制御bを冗長プロセッサP4から継続し(復帰さ
せ)、 ・縮退していた通信API Bを再開させる、 といった配置作業をそれぞれおこなっている。
【0026】ここで、復旧後の現用プロセッサP2が通
信制御bを冗長プロセッサP4から継続して再び分担す
るのは通信API Bのプログラムと通信制御bのプログラ
ムとの一体性が強いためである。
【0027】図示の分散OSは各プロセッサP1〜P4
に固有のものではないので、旧現用プロセッサP2の復
旧後にも、異常発生前に現用プロセッサP2が分担して
いた分散OS部分を元に戻す作業はおこなっていない。
【0028】現用プロセッサP2で異常が発生したとき
に停止となる会話サービスについてはそこでの引継情報
が不揮発性共有メモリ9に保持されないが、この他の各
業務についてはそれぞれの引継情報が不揮発性共有メモ
リ9に保持される。
【0029】そして、各代行プロセッサ(現用プロセッ
サP1、P3および冗長プロセッサP4)は不揮発性共
有メモリ9の引継情報に基づいて継続や再実行の代行処
理をおこなっていく。
【0030】リカーシブル異常のときの一般的な対処法
として「縮退」がとられるが、これは異常発生の原因で
ある引継情報をいったん削除してから再度同一PMで元
の業務を実行するためである。なお、現用プロセッサ
は、その業務を実行する過程で引継情報を作成するとと
もにこの作成情報を自らのその後の業務実行にも用いて
いる。
【0031】なお、縮退の場合には、異常発生プロセッ
サP2とは別の任意のプロセッサによる引継情報の回
収、すなわち異常発生プロセッサP2が生成した当該引
継情報を不揮発性共有メモリ9から消去することがおこ
なわれる。
【0032】また、このとき異常発生プロセッサP2の
閉塞、すなわち当該プロセッサがそれまで実行していた
業務に対する他の現用プロセッサからの処理要求を抑止
して受け付けないようにすることがおこなわれる。
【0033】
【実施例】図3〜図8を参照して本発明の実施例を説明
する。なお、以下の記載では、説明の便宜上、プロセッ
サの一例としてCPUとメモリとを持つプロセッサモジ
ュールを用い、またこれをPMと略記する。
【0034】図3はマルチプロセッサシステムの全体概
要を示す説明図であり、11はPM監視機構、12はPM管
理機構、13は業務配置機構、14はPM定義部、15はPM
異常種別判定部、16はPM管理部、17は業務配置制御
部、18は停止部、19は回収部、20は縮退・再開部、21は
再実行部、22は継続部、23はPM異常時の業務別対処法
決定部、24は高速バス、25〜27はプロセッサモジュー
ル、28は不揮発性共有メモリをそれぞれ示している。
【0035】図4〜図7は各種テーブルを示す説明図で
あり、31はPM対応テーブル、32は異常種別テーブル、
33は業務テーブル、34は異常対処法テーブルをそれぞれ
示している。なお、各テーブルにおけるPMの識別はP
Mの実装番号ではなくソフトウェア上のPM名によりお
こなわれ、両者の対応関係はPM対応テーブル31に記述
されている。
【0036】ここで、PM監視機構11、PM管理機構12
および業務配置機構13の全体は単一または複数のPMに
より構成され、プロセッサモジュール25〜27のそれぞれ
から高速バス24およびPM監視機構11を介して各PMか
ら組込やクラッシュを示す信号が通知される。なお、
「組込」とは、プロセッサモジュールがその使用開始時
や復旧時にハードウエア的に動作可能状態になったこと
である。また、組込やクラッシュを示す信号は通知元P
Mの実装番号である。
【0037】クラッシュすなわちPMの異常を確認した
PM管理機構12は、 ・PM定義部14の動作により、異常発生PMの名前とそ
れに対応の実装PM、および冗長PMを求め(図4のP
M対応テーブル31参照)、 ・PM異常種別判定部15の動作により、確認した異常が
リカーシブルなものである可能性や、冗長プロセッサが
初期化中であるかどうかを確認し(図5の異常種別テー
ブル32参照)、 ・これらの情報を業務配置機構13に通知する。
【0038】この通知を受けた業務配置機構13は、 ・先ず業務配置制御部17の動作により、異常発生PMが
それまで分担していた業務を求め(図6の業務テーブル
33参照)、 ・次に業務別対処法決定部23の動作により、当該各業務
についての対処法とそれをどのPMに配置するかを決定
し(図7の異常対処法テーブル34参照)、 ・次に業務配置制御部17の動作により、停止部18〜継続
部22の対応する部分に当該配置を指示する。なお、業務
配置機構13の方からPM対応テーブル31の内容をPM管
理機構12に問い合わせることもできる。
【0039】そして、停止部18〜継続部22のそれぞれは
業務配置制御部17からの指示に基づいて動作し、このと
きの各部分での処理状況はPM管理機構12に通知され
る。例えば、継続部22は継続対象の業務についての引継
情報を用いることにより代行PMへの切替え処理を開始
してその終了後に業務継続の運用開始となるが、この間
の配置状況の変化(切替え処理の開始、終了など)はP
M管理機構12に通知され、PM管理機構12はこの通知情
報に基づいて異常種別テーブル32の内容を更新する。
【0040】また、PM管理機構12は、異常発生PMお
よび冗長PMの特定にともない前者のPM名に後者を割
りあてるかたちでPM対応テーブル31の内容を更新し、
業務配置機構13は、業務別対処法決定部23の決定にした
がって業務テーブル33の内容を更新する。
【0041】図示の停止部18〜業務別対処法決定部23の
それぞれにおけるα、β・・・は各部分での処理が業務
ごとにおこなわれることを示すもので、例えばαの部分
では「分散OS」の業務を担当するといったかたちであ
る。
【0042】そして、前記のPM管理機構12への通知信
号(切替え処理の開始、終了など)は、例えば冗長PM
へ配置すべき各業務の配置処理を担当する各部分(例え
ば再実行部21のγおよび継続部22のα、β)から送られ
ており、異常種別テーブル32の例えば「pm0c」のP
M状態が「切替え中」から「運用中」に、またリカーシ
ブル異常の可能性が「あり」から「なし」に変更される
のはこれらの各部分からの終了通知がそろった後、すな
わち切替えのために必要な処理がすべて終わってからで
ある。
【0043】異常対処法テーブル34は通信制御の業務に
対する選択肢として「縮退・再開」と「継続・復帰」の
二つを、また通信アプリケーションの業務に対する選択
肢として「縮退・再開」と「継続」の二つを用意してお
り、これらの業務の場合にいずれを用いるかは業務別対
処法決定部23が決定する。
【0044】異常対処法テーブル34の「継続」と「継続
・復帰」とは、前者が代行PMに業務が引き継がれた後
で異常発生PMが復旧してもこの代行PMによる処理が
続く(図2の通信API Aが相当)のに対し、後者は異常
発生PMの復旧により当該業務を復帰させる(図2の通
信制御bが相当)点で相違する。また、「再実行」と
「再実行・復帰」との相違も同様である。
【0045】本発明では、このように異常発生PMの分
担業務の内の、代行すべき部分は冗長PMまたは他の任
意の現用PMでその継続または再実行をおこない、縮退
・再開により対応できる部分は異常発生PMの復旧を待
つといったように、異常発生時の業務を冗長PMなどに
配置する上での多様性を持たせている。
【0046】また、本発明のマルチプロセッサシステム
における各機能は次のようになっている。 (1) 代行機能(継続機能および再実行機能) (2) 縮退機能および再開機能 (3) システム停止機能 (4) リカーシブル異常の監視機能 (5) 縮退/再開のさいに引継情報を回収する機能 (6) 冗長PMが初期化中の場合に当該PMへの切替えを
遅延させる機能 (7) 同一のPMがリカーシブルに縮退と再開を繰り返し
た場合には、システムによる当該PMの自動復旧機能を
停止する機能(永縮機能) (8) 以上の(1) 〜(7) を業務単位、運用単位で定義する
機能 (9) 以上の(1) 〜(7) を選択する機能 (10)異常発生時に冗長PMが存在しないとき、異常発生
PMの分担業務のそれぞれを個々に、 ・他の任意の現用PMで代行する ・他の任意の現用PMで閉塞し、すなわち当該業務に対
する他のPMからの要求を抑止し、当該業務の引継情報
を回収する ・他の任意の現用PMで代行しない といったことを選択する機能
【0047】ここで、(4) の監視機能の実行主体はPM
管理機構12であり、その他の各機能の実行主体は業務配
置機構13であり、例えば(7) の遅延処理は冗長PMに配
置すべき各業務の対処法に応じて再実行部21または継続
部22が実行する。
【0048】前記のように、冗長PMが初期化中である
ことはPM管理機構12から業務配置機構13に通知され、
また異常発生PMが復旧したことは業務配置機構13から
PM管理機構12に通知される。そして、PM管理機構12
はPM対応テーブル31にこの復旧PMを冗長PMとして
記述する。
【0049】また、(5) の回収処理は縮退または再開の
いずれかの時点で他の任意の現用PMによっておこなわ
れるが、後者のときには引継情報を他の現用PMが用い
ることができないようにする処理がおこなわれる。
【0050】図8および図9は、クラッツュ発生時(異
常発生時)または組込み発生時の処理手順を示す説明図
であり、クラッツュ発生時に対応のステップ(21)〜(29)
と組込み発生時のステップ(30)〜(37)とからなってお
り、前記のように、クラッツュ発生および組込み発生は
そのPMの実装番号で通知される。
【0051】(21)システムの処理を継続してもよいかど
うかを判断し、「YES」の場合は次のステップに進み、
「NO」の場合はステップ(25)に進む。ここで、「NO」と
なるのは通知元PMのシステム上での重要度が高い場合
であり、各PMの重要度についての情報はPM管理機構
12が保持している。 (22)PM管理機構12は、異常種別テーブル32を参照して
当該異常がリカーシブルなものであるかどうかを判断
し、「YES」の場合は次のステップに進み、「NO」の場
合はステップ(26)に進む。 (23)PM管理機構12は、異常発生PMの実装番号をPM
対応テーブル31から削除して、次のステップに進む。こ
のとき、異常発生PMのPM名が業務配置機構13に通知
される。 (24)業務配置機構13は、異常発生PMの各担当業務の停
止または縮退と、引継情報の回収(共有メモリからの削
除)を実行する。ここで、異常発生の対処法として縮退
がとられるのは、リカーシブル異常の発生がそれまでの
業務の実行に利用された引継情報のエラーに起因してい
る場合などにこれをいったん削除して再度同一PMで当
該業務を実行するためである。 (25)システムを停止する。 (26)PM管理機構12は、PM対応テーブル31を参照して
冗長PMが存在するかどうかを判断し、「YES」の場合
は次のステップに進み、「NO」の場合はステップ(29)に
進む。 (27)PM管理機構12は、PM対応テーブル31の、異常発
生PMのPM名に対応の実装番号を冗長PMのそれに変
更して、次のステップに進む。例えば、PM対応テーブ
ル31の「♯001」のPMで異常が発生したとき、PM
名「pm0a」の実装番号が「♯001」から冗長PMの
「♯001」に変更される。 (28)業務配置機構13は、異常発生PMの各担当業務の ・継続 ・再実行 ・縮退および回収 を選択的に実行する。
【0052】(30)PM管理機構12は、組込み発生PMが
縮退中または所定業務の復帰対象となっているかどうか
を判断し、「YES」の場合は次のステップに進み、「N
O」の場合はステップ(33)に進む。なお、PM管理機構1
2は、この判断に用いられる情報を、PM対応テーブル3
1にいったん記述された実装番号の記録や業務配置機構1
3からの報告などのかたちで保持している。また、所定
業務の復帰対象とは、異常対処法テーブル34の「継続・
復帰」や「再継続・復帰」の場合である。 (31)PM管理機構12は、組込み発生PMの実装番号をP
M対応テーブル31に記述して、次のステップに進む。こ
こで、異常発生PMの元のPM名が冗長PMに使用され
ている場合には新たなPM名とともに当該実装番号が記
述される。(32)業務配置機構13は、 ・組込み発生PMに対する閉塞の解除および縮退業務の
再開 ・所定業務の復帰 を選択的に実行する。なお、ステップ(31)で新たなPM
名が記述された場合には、業務テーブル33における当該
業務の配置先PMの変更をおこなう。 (33)組込み発生PMは新たに実装されたPMかどうかを
判断し、「YES」の場合は次のステップに進み、「NO」
の場合はステップ(37)に進む。なお、組込み発生PMを
新たに実装するのは通常システム全体の能力を高めるた
めであり、この場合にはそこで担当する業務が業務テー
ブル33に新PM名によって記述されるのが一般的であ
る。 (34)PM管理機構12は、組込み発生PMの実装番号と新
PM名とを対応させてPM対応テーブル31に記述して、
次のステップに進む。 (35)組込み発生PMの分担業務が業務テーブル33に記述
されているかどうかを判断し、「YES」の場合は次のス
テップに進み、「NO」の場合はいったん処理を終了す
る。ここで、「NO」の場合にはステップ(34)で記述した
新PM名を削除し、このPMを冗長PMとして用いるよ
うにしてもよい。 (36)組込み発生PMはこれらの記述された業務を実行す
る。 (37)PM管理機構12は、組込み発生PMの実装番号をP
M対応テーブル31に記述する。この場合、組込み発生P
Mは冗長PMとして管理される。
【0053】
【発明の効果】本発明は、このように、プロセッサで分
担する各業務についての異常発生時の対処法を選択的に
記述できる異常対処法テーブルを設け、旧現用プロセッ
サの復旧中や代用プロセッサへの切替え中などに再度異
常が生じたとき、すなわちリカーシブル異常のときに
は、その原因がソフトウェアにあるとみなして該当業務
を再実行や継続などによって代行プロセッサへ配置する
ことを抑止し、さらには冗長プロセッサが初期化中であ
るときには当該プロセッサへの業務配置を遅延させるよ
うにしている。
【0054】そのため、プロセッサ異常時の対処の多様
化、異常発生プロセッサの拡大抑止および冗長プロセッ
サの有効利用などが可能となり、全体としてマルチプロ
セッサシステムの耐故障性を高めることができる。
【図面の簡単な説明】
【図1】本発明の、基本構成を示す図である。
【図2】本発明の、分散処理プロセッサで異常が発生し
たときの対処例を示す説明図である。
【図3】本発明の、マルチプロセッサシステムの全体概
要を示す説明図である。
【図4】本発明の、プロセッサモジュール対応テーブル
を示す説明図である。
【図5】本発明の、異常種別テーブルを示す説明図であ
る。
【図6】本発明の、業務テーブル(図2に対応)を示す
説明図である。
【図7】本発明の、異常対処法テーブルを示す説明図で
ある。
【図8】本発明の、クラッシュ発生時または組込み発生
時の処理手順を示す説明図(その1)である。
【図9】本発明の、クラッシュ発生時または組込み発生
時の処理手順を示す説明図(その2)である。
【図10】一般的な、分散処理プロセッサで異常が発生
したときの対処例を示す説明図である。
【符号の説明】
図1において、 1・・・プロセッサ監視機構 2・・・プロセッサ管理機構 3・・・業務配置機構 4・・・プロセッサ対応テーブル 5・・・異常種別テーブル 6・・・業務テーブル 7・・・異常対処法テーブル 8・・・高速バス 9・・・不揮発性共有メモリ P1・・・現用プロセッサ P2・・・現用プロセッサ P3・・・現用プロセッサ P4・・・冗長プロセッサ

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 複数の業務を分散処理しているプロセッ
    サのいずれかに異常が発生したことをプロセッサ監視機
    構で検出したとき、プロセッサ管理機構は異常発生プロ
    セッサおよび冗長プロセッサに関する情報を業務配置機
    構に通知し、この通知を受けた業務配置機構は業務テー
    ブルを参照することにより前記異常発生プロセッサの分
    担業務を確認して所定のプロセッサにこれらを配置する
    ようにしたマルチプロセッサシステムにおいて、 前記業務のそれぞれについての異常発生時の対処法を選
    択的に記述できる異常対処法テーブルを設け、 前記業務配置機構は、この異常対処法テーブルを参照す
    ることにより前記異常発生プロセッサの各分担業務の対
    処法を求め、この対処法に基づいて前記分担業務の配置
    をおこなうようにしたことを特徴とするマルチプロセッ
    サシステムにおけるプロセッサ異常対策方法。
  2. 【請求項2】 前記プロセッサ管理機構は、前記配置に
    ともなう切替え中などに発生するリカーシブル異常の可
    能性があるかどうかを示す情報を管理し、 前記業務配置機構は、前記プロセッサ管理機構からこの
    リカーシブル異常の可能性がある旨の通知を受けたと
    き、再実行や継続などの特定の対処法による業務配置を
    抑止することを特徴とする請求項1記載のマルチプロセ
    ッサシステムにおけるプロセッサ異常対策方法。
  3. 【請求項3】 前記プロセッサ管理機構は、前記冗長プ
    ロセッサが初期化中であるかどうかの情報を管理し、 前記業務配置機構は、前記プロセッサ管理機構からこの
    初期化中である旨の通知を受けたとき、前記冗長プロセ
    ッサへの業務配置を遅延させることを特徴とする請求項
    1または2記載のマルチプロセッサシステムにおけるプ
    ロセッサ異常対策方法。
  4. 【請求項4】 複数の業務を分散処理しているプロセッ
    サのいずれかに異常が発生したことを検出するプロセッ
    サ監視機構と、 異常発生プロセッサおよび冗長プロセッサに関する情報
    を業務配置機構に通知するプロセッサ管理機構と、 前記業務のそれぞれについての異常発生時の対処法を選
    択的に記述できる異常対処法テーブルと、 業務テーブルを参照することにより確認した前記異常発
    生プロセッサの分担業務を、前記異常対処法テーブルに
    記述の対処法に基づいて所定のプロセッサに配置する業
    務配置機構と、を備えたことを特徴とするマルチプロセ
    ッサシステムにおけるプロセッサ異常対策装置。
  5. 【請求項5】 前記プロセッサ管理機構に、前記配置に
    ともなう切替え中などに発生するリカーシブル異常の可
    能性があるかどうかを示す情報を管理する機能を付加
    し、 前記業務配置機構に、前記プロセッサ管理機構からこの
    リカーシブル異常の可能性がある旨の通知を受けたと
    き、再実行や継続などの特定の対処法による業務配置を
    抑止する機能を付加したことを特徴とする請求項4記載
    のマルチプロセッサシステムにおけるプロセッサ異常対
    策装置。
  6. 【請求項6】 前記プロセッサ管理機構に、前記冗長プ
    ロセッサが初期化中であるかどうかの情報を管理する機
    能を付加し、 前記業務配置機構に、前記プロセッサ管理機構からこの
    初期化中である旨の通知を受けたとき、前記冗長プロセ
    ッサへの業務配置を遅延させる機能を付加したことを特
    徴とする請求項4または5記載のマルチプロセッサシス
    テムにおけるプロセッサ異常対策装置。
JP23542294A 1994-09-29 1994-09-29 マルチプロセッサシステムにおけるプロセッサ異常対策装置およびマルチプロセッサシステムにおけるプロセッサ異常対策方法 Expired - Fee Related JP3345626B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP23542294A JP3345626B2 (ja) 1994-09-29 1994-09-29 マルチプロセッサシステムにおけるプロセッサ異常対策装置およびマルチプロセッサシステムにおけるプロセッサ異常対策方法
US08/536,739 US5796937A (en) 1994-09-29 1995-09-29 Method of and apparatus for dealing with processor abnormality in multiprocessor system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23542294A JP3345626B2 (ja) 1994-09-29 1994-09-29 マルチプロセッサシステムにおけるプロセッサ異常対策装置およびマルチプロセッサシステムにおけるプロセッサ異常対策方法

Publications (2)

Publication Number Publication Date
JPH0895935A true JPH0895935A (ja) 1996-04-12
JP3345626B2 JP3345626B2 (ja) 2002-11-18

Family

ID=16985876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23542294A Expired - Fee Related JP3345626B2 (ja) 1994-09-29 1994-09-29 マルチプロセッサシステムにおけるプロセッサ異常対策装置およびマルチプロセッサシステムにおけるプロセッサ異常対策方法

Country Status (2)

Country Link
US (1) US5796937A (ja)
JP (1) JP3345626B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004053714A1 (ja) * 2002-12-12 2004-06-24 Fujitsu Limited 分散処理装置
JP2005352708A (ja) * 2004-06-10 2005-12-22 Hitachi Ltd オンライン同期スケジュール回復システムおよびその処理方法
US10579489B2 (en) 2015-07-30 2020-03-03 Mitsubishi Electric Corporation Program execution device, program execution system, and program execution method

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3197279B2 (ja) * 1996-06-20 2001-08-13 富士通株式会社 業務引継システム
US6282596B1 (en) 1999-03-25 2001-08-28 International Business Machines Corporation Method and system for hot-plugging a processor into a data processing system
JP2001069585A (ja) * 1999-08-31 2001-03-16 Fujitsu Ltd 二重化装置及びハイウェイインタフェース回路
FR2798755B1 (fr) * 1999-09-16 2001-11-02 Bull Sa Systeme d'administration pour machines multimodulaires multiprocesseurs
GB2359384B (en) * 2000-02-16 2004-06-16 Data Connection Ltd Automatic reconnection of partner software processes in a fault-tolerant computer system
GB2370380B (en) 2000-12-19 2003-12-31 Picochip Designs Ltd Processor architecture
US6684346B2 (en) * 2000-12-22 2004-01-27 Intel Corporation Method and apparatus for machine check abort handling in a multiprocessing system
US6990320B2 (en) * 2002-02-26 2006-01-24 Motorola, Inc. Dynamic reallocation of processing resources for redundant functionality
US6948008B2 (en) * 2002-03-12 2005-09-20 Intel Corporation System with redundant central management controllers
US7117390B1 (en) * 2002-05-20 2006-10-03 Sandia Corporation Practical, redundant, failure-tolerant, self-reconfiguring embedded system architecture
GB2417586B (en) * 2002-07-19 2007-03-28 Picochip Designs Ltd Processor array
US7478393B2 (en) * 2003-04-30 2009-01-13 International Business Machines Corporation Method for marketing to instant messaging service users
US7426657B2 (en) * 2004-07-09 2008-09-16 International Business Machines Corporation System and method for predictive processor failure recovery
FR2883999B1 (fr) * 2005-03-29 2007-05-18 Peugeot Citroen Automobiles Sa Systeme de pilotage d'au moins un organe fonctionnel de vehicule automobile
JP4831599B2 (ja) 2005-06-28 2011-12-07 ルネサスエレクトロニクス株式会社 処理装置
US7502957B2 (en) * 2005-09-09 2009-03-10 International Business Machines Corporation Method and system to execute recovery in non-homogeneous multi processor environments
US20080201605A1 (en) * 2007-02-21 2008-08-21 Inventec Corporation Dead man timer detecting method, multiprocessor switching method and processor hot plug support method
JP4458119B2 (ja) * 2007-06-11 2010-04-28 トヨタ自動車株式会社 マルチプロセッサシステム及びその制御方法
GB2454865B (en) 2007-11-05 2012-06-13 Picochip Designs Ltd Power control
TWI369608B (en) * 2008-02-15 2012-08-01 Mstar Semiconductor Inc Multi-microprocessor system and control method therefor
GB2470037B (en) 2009-05-07 2013-07-10 Picochip Designs Ltd Methods and devices for reducing interference in an uplink
GB2470771B (en) 2009-06-05 2012-07-18 Picochip Designs Ltd A method and device in a communication network
GB2470891B (en) 2009-06-05 2013-11-27 Picochip Designs Ltd A method and device in a communication network
GB2474071B (en) 2009-10-05 2013-08-07 Picochip Designs Ltd Femtocell base station
GB2482869B (en) 2010-08-16 2013-11-06 Picochip Designs Ltd Femtocell access control
GB2489716B (en) 2011-04-05 2015-06-24 Intel Corp Multimode base system
GB2489919B (en) 2011-04-05 2018-02-14 Intel Corp Filter
GB2491098B (en) 2011-05-16 2015-05-20 Intel Corp Accessing a base station
JP6540309B2 (ja) * 2015-07-16 2019-07-10 富士通株式会社 共有メモリシステム、演算処理装置、及び方法
WO2018198184A1 (ja) * 2017-04-25 2018-11-01 株式会社日立製作所 再構成制御装置
CN109800052B (zh) * 2018-12-15 2020-11-24 深圳先进技术研究院 应用于分布式容器云平台的异常检测与定位方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3768074A (en) * 1972-05-12 1973-10-23 Burroughs Corp Multiprocessing system having means for permissive coupling of different subsystems
US3937936A (en) * 1975-04-14 1976-02-10 The United States Of America As Represented By The Secretary Of The Air Force Equipment self-repair by adaptive multifunction modules
GB2074351B (en) * 1980-03-28 1984-01-04 Int Computers Ltd Data processing system
US4503534A (en) * 1982-06-30 1985-03-05 Intel Corporation Apparatus for redundant operation of modules in a multiprocessing system
US4654846A (en) * 1983-12-20 1987-03-31 Rca Corporation Spacecraft autonomous redundancy control
US4807228A (en) * 1987-03-18 1989-02-21 American Telephone And Telegraph Company, At&T Bell Laboratories Method of spare capacity use for fault detection in a multiprocessor system
US4933838A (en) * 1987-06-03 1990-06-12 The Boeing Company Segmentable parallel bus for multiprocessor computer systems
US4866712A (en) * 1988-02-19 1989-09-12 Bell Communications Research, Inc. Methods and apparatus for fault recovery
US5003464A (en) * 1988-05-23 1991-03-26 Bell Communications Research, Inc. Methods and apparatus for efficient resource allocation
US5214778A (en) * 1990-04-06 1993-05-25 Micro Technology, Inc. Resource management in a multiple resource system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004053714A1 (ja) * 2002-12-12 2004-06-24 Fujitsu Limited 分散処理装置
JP2005352708A (ja) * 2004-06-10 2005-12-22 Hitachi Ltd オンライン同期スケジュール回復システムおよびその処理方法
US10579489B2 (en) 2015-07-30 2020-03-03 Mitsubishi Electric Corporation Program execution device, program execution system, and program execution method

Also Published As

Publication number Publication date
US5796937A (en) 1998-08-18
JP3345626B2 (ja) 2002-11-18

Similar Documents

Publication Publication Date Title
JPH0895935A (ja) マルチプロセッサシステムにおけるプロセッサ異常対策方法およびそのための装置
US6622261B1 (en) Process pair protection for complex applications
US6195760B1 (en) Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
US6266781B1 (en) Method and apparatus for providing failure detection and recovery with predetermined replication style for distributed applications in a network
JP2552651B2 (ja) 再構成可能なデュアル・プロセッサ・システム
JP3196004B2 (ja) 障害回復処理方法
JP2004318885A (ja) 故障プロセッサを置き換える方法、媒体およびシステム
JP2002259155A (ja) 多重系計算機システム
CN111400086B (zh) 虚拟机容错的实现方法和系统
EP0683456A1 (en) Fault-tolerant computer system with online reintegration and shutdown/restart
US20090113255A1 (en) Software Fault Detection Using Progress Tracker
JPH01224846A (ja) プロセス空間切り換え制御方式
JPH07183891A (ja) 計算機システム
JP3604171B2 (ja) プロセス自動再起動処理方式
JPH05314075A (ja) オンラインコンピュータ装置
JP3022768B2 (ja) 仮想計算機システム
Goldberg et al. The design and implementation of a fault-tolerant cluster manager
JP2000066913A (ja) 任意プロセッサのプログラム・データ無中断更新システム
JPH10187616A (ja) 状態記録再現方法、ならびに同方法を実現する計算機システム、及び同方法がプログラムされ記憶されるメモリ装置
US20070038849A1 (en) Computing system and method
JP5018140B2 (ja) マルチプロセッサシステム、タスクスケジューリング方法およびタスクスケジューリングプログラム
JPH0736721A (ja) 多重化コンピュータシステムの制御方式
JP2785992B2 (ja) サーバプログラムの管理処理方式
JPH08249196A (ja) タスクの冗長化実行方式
CN111611111B (zh) 多处理器信号处理设备快速故障恢复方法及其系统

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020604

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080906

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080906

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090906

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090906

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100906

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100906

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110906

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees