JPH0895935A

JPH0895935A - マルチプロセッサシステムにおけるプロセッサ異常対策方法およびそのための装置

Info

Publication number: JPH0895935A
Application number: JP6235422A
Authority: JP
Inventors: Yoshimi Kitsuka; 省臣木塚
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1994-09-29
Filing date: 1994-09-29
Publication date: 1996-04-12
Anticipated expiration: 2017-11-18
Also published as: JP3345626B2; US5796937A

Abstract

(57)【要約】【目的】プロセッサ異常時の対処の多様化、異常発生
プロセッサの拡大抑止および冗長プロセッサの有効利用
を図ることを目的とする。【構成】分散処理プロセッサP1〜P4のいずれかに異常
が発生したことをプロセッサ監視機構１で検出したと
き、プロセッサ管理機構２は異常発生プロセッサおよび
冗長プロセッサを業務配置機構３に通知し、これを受け
た業務配置機構３は業務テーブル６を参照することによ
り異常発生プロセッサの分担業務を確認して所定のプロ
セッサにこれらを配置するシステムにおいて、各業務の
異常発生時の対処法を記述できる異常対処法テーブル７
を設け、業務配置機構３は、このテーブル７から求めた
対処法に基づいて異常発生プロセッサの分担業務の配置
をおこなう。また、リカーシブル異常のときは再実行や
継続などによる業務配置を抑止し、初期化中の冗長プロ
セッサへの業務配置を遅延させる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、マルチプロセッサシス
テムにおけるプロセッサ異常対策方法およびそのための
装置に関し、特に複数の業務を分散処理しているプロセ
ッサのいずれかに異常が発生したことをプロセッサ監視
機構で検出したとき、プロセッサ管理機構は異常発生プ
ロセッサおよび冗長プロセッサに関する情報を業務配置
機構に通知し、この通知を受けた業務配置機構は業務テ
ーブルを参照することにより前記異常発生プロセッサの
分担業務を確認して所定のプロセッサにこれらを配置す
るようにしたマルチプロセッサシステムに関する。

【０００２】複数の業務を分散処理するマルチプロセッ
サシステムにおいては、いずれかのプロセッサで異常が
生じるとそこでの分担業務を他のプロセッサで代行して
いるが、このとき、耐故障性（フォールトトレラント）
を高めてシステム全体の２４時間運用をできるだけ確保
することが要請され、本発明はこのような要請に応える
ものである。

【０００３】

【従来の技術】従来、例えばＣＰＵとメモリからなる複
数のプロセッサを高速バスで疎結合したマルチプロセッ
サシステムが用いられており、ここでは複数の業務（Ｏ
Ｓや、通信制御などのアプリケーションの処理）を各プ
ロセッサが分散して担当している。

【０００４】図10は、一般的な、分散処理プロセッサの
いずれかでハードウェアやソフトウェアの異常が生じた
ときの対処法を示す説明図であり、Ｐ１〜Ｐ３は現用プ
ロセッサ、Ｐ４は冗長プロセッサをそれぞれ示し、また
現用プロセッサＰ１で異常が発生したものとしている。

【０００５】図示のように、異常発生時の対処法として
は、・すべての現用プロセッサの処理を停止すること（停
止）・異常発生プロセッサＰ１で処理していた業務を停止
し、当該プロセッサの復旧後にその業務を最初から再開
すること（縮退・再開）・代行プロセッサにより、異常発生プロセッサの業務を
最初から再実行すること（再実行）・代行プロセッサにより、異常発生プロセッサの業務を
異常発生時から継続して実行すること（継続）などがある。なお、本明細書で用いる「代行プロセッ
サ」は冗長プロセッサと正常な現用プロセッサとを含む
ものである。

【０００６】そして、マルチプロセッサシステムごとに
これらの対処法の一つまたは複数のものを選択して用い
ることになるが、この選択はＯＳが固定的に実行し、ユ
ーザの運用またはアプリケーションにより自由に選択で
きるものではない。

【０００７】また、現用プロセッサの異常がそこでのハ
ードウェアまたはソフトウェアのいずれに基づくもので
あるかの判断を積極的におこなうことなしに前記の縮退
・再開、再実行や継続などを実行している。

【０００８】なお、ソフトウェアの異常原因としては・業務プログラム自体のエラー・各プロセッサで業務プログラムを実行していくときに
生成され、またその実行途中でも利用される引継情報の
エラーがある。

【０００９】

【発明が解決しようとする課題】そのため、プロセッサ
異常時の対処法を、ユーザサイドの判断で、マルチプロ
セッサシステムの処理内容に対応したものに設定するこ
とができず、例えば他の正常な現用プロセッサへの影響
を局所化するなどの効率的なプロセッサ異常対策をとり
にくいという問題点があった。

【００１０】また、プロセッサ異常の原因が引継情報の
エラーなどに基づくソフトウェア障害であれば、異常発
生プロセッサの業務を再実行または継続する代行プロセ
ッサでも必然的に異常が発生し、これに対応する新たな
代行処理およびそこでの異常発生といったことが繰り返
される、すなわちプロセッサ異常が拡大していくため、
マルチプロセッサシステムの耐故障性（フォールトトレ
ラント）を高めることができないという問題点があっ
た。

【００１１】また、冗長プロセッサが初期化されていな
い時点でこれに対する業務配置の準備が始まると本来の
引継ぎがおこなわれないために代行できない状況となっ
てしまい、冗長プロセッサが有効に利用されないという
問題点があった。

【００１２】そこで、本発明では、・プロセッサで分担する各業務についての異常発生時の
対処法を選択的に記述できる異常対処法テーブルを設
け、・旧現用プロセッサの復旧中や代用プロセッサへの切替
え中などに再度異常が生じたとき、すなわちリカーシブ
ル異常のときには、その原因がソフトウェアにあるとみ
なして該当業務を再実行や継続などによって代行プロセ
ッサへ配置することを抑止し、・冗長プロセッサが初期化中であるときには当該プロセ
ッサへの業務配置を遅延させる、ことにより、プロセッサ異常時の対処の多様化、異常発
生プロセッサの拡大抑止および冗長プロセッサの有効利
用を図ることを目的とする。

【００１３】

【課題を解決するための手段】図１は本発明の原理説明
図である。図において、１は、プロセッサ監視機構であ
り、現用プロセッサＰ１〜Ｐ３の動作状態を監視してそ
の異常を検出している。２は、プロセッサ管理機構であ
り、・異常発生プロセッサおよび冗長プロセッサに関する情
報を業務配置機構３に通知し、・業務配置にともなう切替え中などに発生するリカーシ
ブル異常の可能性があるかどうかを示す情報、および冗
長プロセッサが初期化中であるかどうかの情報を管理し
ている。３は、業務配置機構であり、・業務テーブル６で確認した異常発生プロセッサの分担
業務を、異常対処法テーブル７に記述の対処法に基づい
て所定のプロセッサに配置し、・プロセッサ管理機構２からリカーシブル異常の可能性
がある旨の通知を受けたときには再実行や継続などの特
定の対処法による業務配置を抑止し、・プロセッサ管理機構２から冗長プロセッサが初期化中
である旨の通知を受けたときには当該冗長プロセッサへ
の業務配置を遅延させている。４は、プロセッサ対応テーブルであり、各プロセッサの
現用または冗長の種別を記述している（図４参照）。５
は、異常種別テーブルであり、各プロセッサの復旧中、
運用中、初期化中などの状態およびリカーシブル異常の
可能性を記述している（図５参照）。６は、業務テーブ
ルであり、業務とプロセッサとの対応を記述している
（図６参照）。７は、異常対処法テーブルであり、マル
チプロセッサシステムで実行される業務ごとに異常発生
時の対処法（停止、縮退、再実行および継続など）を記
述している。

【００１４】また、８は高速バス、９は異常発生プロセ
ッサから代行プロセッサへと渡される引継情報などを記
憶する不揮発性共有メモリ、Ｐ１〜Ｐ３は現用プロセッ
サ、Ｐ４は冗長プロセッサをそれぞれ示している。

【００１５】なお、４〜７の各テーブルは説明の便宜上
別々のもので示しているが、これらのテーブルにより示
される各情報をどのようなかたちでまとめて保持するか
は任意である。

【００１６】ここで、・プロセッサ監視機構１は、現用プロセッサＰ１〜Ｐ３
の異常発生をプロセッサ管理機構２に通知し、・プロセッサ管理機構２は、プロセッサ対応テーブル４
および異常種別対応テーブル５を参照することにより、
異常発生プロセッサや冗長プロセッサを特定し、異常が
リカーシブルなものであるかどうかを確認し、また冗長
プロセッサが初期化中かどうかなどを確認してからこれ
らの情報を業務配置機構３に通知し、・業務配置機構３は、業務テーブル６を参照して異常発
生プロセッサの分担業務を特定し、異常対処法テーブル
７から求めた対処法でこの分担業務を冗長プロセッサＰ
４などに配置し、さらには各業務の配置状況をプロセッ
サ管理機構２に報告している。

【００１７】なお、代行プロセッサには、冗長プロセッ
サＰ４の外に異常発生となっていない現用プロセッサも
用いられ、後者においてはそれがもともと分担している
業務と新たに配置された業務とが実行されることにな
る。

【００１８】また、プロセッサ管理機構２は、異常発生
プロセッサや冗長プロセッサの通知などに対応してプロ
セッサ対応テーブル４の内容を更新し、また業務配置機
構３からの報告に基づいて異常種別テーブル５の内容を
更新している。

【００１９】業務テーブル６および異常対処法テーブル
７の内容は、ユーザやアプリケーションの方からマルチ
プロセッサシステムの能力、利用形態などにあわせて設
定、更新することができる。

【００２０】このように、本発明のプロセッサ異常対策
方法としての基本的な構成は、「複数の業務を分散処理
しているプロセッサのいずれかに異常が発生したことを
プロセッサ監視機構で検出したとき、プロセッサ管理機
構は異常発生プロセッサおよび冗長プロセッサに関する
情報を業務配置機構に通知し、この通知を受けた業務配
置機構は業務テーブルを参照することにより前記異常発
生プロセッサの分担業務を確認して所定のプロセッサに
これらを配置するようにしたマルチプロセッサシステム
において、前記業務のそれぞれについての異常発生時の
対処法を選択的に記述できる異常対処法テーブルを設
け、前記業務配置機構は、この異常対処法テーブルを参
照することにより前記異常発生プロセッサの各分担業務
の対処法を求め、この対処法に基づいて前記分担業務の
配置をおこなうようにしたこと」である。

【００２１】また、本発明のプロセッサ異常対策装置と
しての基本的な構成は、「複数の業務を分散処理してい
るプロセッサのいずれかに異常が発生したことを検出す
るプロセッサ監視機構と、異常発生プロセッサおよび冗
長プロセッサに関する情報を業務配置機構に通知するプ
ロセッサ管理機構と、前記業務のそれぞれについての異
常発生時の対処法を選択的に記述できる異常対処法テー
ブルと、業務テーブルを参照することにより確認した前
記異常発生プロセッサの分担業務を、前記異常対処法テ
ーブルに記述の対処法に基づいて所定のプロセッサに配
置する業務配置機構とを備えたこと」である。

【００２２】

【作用】本発明は、このように、マルチプロセッサシス
テムで実行される業務ごとに異常発生時の対処法（停
止、縮退、再実行、継続など）を記述できる異常対処法
テーブルや、各プロセッサのリカーシブル異常の可能性
や冗長プロセッサの初期化中であること記述した異常種
別テーブルを設けることにより、異常発生プロセッサの
分担業務のそれぞれについてのその後の配置態様を個々
に選択でき、また異常発生の拡大を抑止するとともに冗
長プロセッサの使用効率を高めるようにしたものであ
る。

【００２３】図２は、本発明の分散処理プロセッサで異
常が発生した時の対処例を示す説明図であり、Ｐ１〜Ｐ
３は現用プロセッサ、Ｐ４は初期化済（ホットスタンバ
イ状態）の冗長プロセッサを示し、現用プロセッサＰ２
で異常が発生したものとしている。

【００２４】先ず、現用プロセッサＰ２での異常発生に
ともない当該プロセッサの各分担業務に対し、・分散ＯＳについては現用プロセッサＰ１、Ｐ３および
冗長プロセッサＰ４のそれぞれで継続し、・通信制御ｂについては冗長プロセッサＰ４で継続し、・通信API Ａについては現用プロセッサＰ３で継続し、・通信API Ｂについては縮退し、・印刷サーバについては現用プロセッサＰ１で再実行
し、・会話サービスについては停止する、といった配置作業をおこなっている。なお、冗長プロセ
ッサＰ４は通信制御ｂの継続にともない通信制御ａおよ
び通信制御ｃの業務を停止する。

【００２５】次に、旧現用プロセッサＰ２が復旧する
と、・通信制御ｂを冗長プロセッサＰ４から継続し（復帰さ
せ）、・縮退していた通信API Ｂを再開させる、といった配置作業をそれぞれおこなっている。

【００２６】ここで、復旧後の現用プロセッサＰ２が通
信制御ｂを冗長プロセッサＰ４から継続して再び分担す
るのは通信API Ｂのプログラムと通信制御ｂのプログラ
ムとの一体性が強いためである。

【００２７】図示の分散ＯＳは各プロセッサＰ１〜Ｐ４
に固有のものではないので、旧現用プロセッサＰ２の復
旧後にも、異常発生前に現用プロセッサＰ２が分担して
いた分散ＯＳ部分を元に戻す作業はおこなっていない。

【００２８】現用プロセッサＰ２で異常が発生したとき
に停止となる会話サービスについてはそこでの引継情報
が不揮発性共有メモリ９に保持されないが、この他の各
業務についてはそれぞれの引継情報が不揮発性共有メモ
リ９に保持される。

【００２９】そして、各代行プロセッサ（現用プロセッ
サＰ１、Ｐ３および冗長プロセッサＰ４）は不揮発性共
有メモリ９の引継情報に基づいて継続や再実行の代行処
理をおこなっていく。

【００３０】リカーシブル異常のときの一般的な対処法
として「縮退」がとられるが、これは異常発生の原因で
ある引継情報をいったん削除してから再度同一ＰＭで元
の業務を実行するためである。なお、現用プロセッサ
は、その業務を実行する過程で引継情報を作成するとと
もにこの作成情報を自らのその後の業務実行にも用いて
いる。

【００３１】なお、縮退の場合には、異常発生プロセッ
サＰ２とは別の任意のプロセッサによる引継情報の回
収、すなわち異常発生プロセッサＰ２が生成した当該引
継情報を不揮発性共有メモリ９から消去することがおこ
なわれる。

【００３２】また、このとき異常発生プロセッサＰ２の
閉塞、すなわち当該プロセッサがそれまで実行していた
業務に対する他の現用プロセッサからの処理要求を抑止
して受け付けないようにすることがおこなわれる。

【００３３】

【実施例】図３〜図８を参照して本発明の実施例を説明
する。なお、以下の記載では、説明の便宜上、プロセッ
サの一例としてＣＰＵとメモリとを持つプロセッサモジ
ュールを用い、またこれをＰＭと略記する。

【００３４】図３はマルチプロセッサシステムの全体概
要を示す説明図であり、11はＰＭ監視機構、12はＰＭ管
理機構、13は業務配置機構、14はＰＭ定義部、15はＰＭ
異常種別判定部、16はＰＭ管理部、17は業務配置制御
部、18は停止部、19は回収部、20は縮退・再開部、21は
再実行部、22は継続部、23はＰＭ異常時の業務別対処法
決定部、24は高速バス、25〜27はプロセッサモジュー
ル、28は不揮発性共有メモリをそれぞれ示している。

【００３５】図４〜図７は各種テーブルを示す説明図で
あり、31はＰＭ対応テーブル、32は異常種別テーブル、
33は業務テーブル、34は異常対処法テーブルをそれぞれ
示している。なお、各テーブルにおけるＰＭの識別はＰ
Ｍの実装番号ではなくソフトウェア上のＰＭ名によりお
こなわれ、両者の対応関係はＰＭ対応テーブル31に記述
されている。

【００３６】ここで、ＰＭ監視機構11、ＰＭ管理機構12
および業務配置機構13の全体は単一または複数のＰＭに
より構成され、プロセッサモジュール25〜27のそれぞれ
から高速バス24およびＰＭ監視機構11を介して各ＰＭか
ら組込やクラッシュを示す信号が通知される。なお、
「組込」とは、プロセッサモジュールがその使用開始時
や復旧時にハードウエア的に動作可能状態になったこと
である。また、組込やクラッシュを示す信号は通知元Ｐ
Ｍの実装番号である。

【００３７】クラッシュすなわちＰＭの異常を確認した
ＰＭ管理機構12は、・ＰＭ定義部14の動作により、異常発生ＰＭの名前とそ
れに対応の実装ＰＭ、および冗長ＰＭを求め（図４のＰ
Ｍ対応テーブル31参照）、・ＰＭ異常種別判定部15の動作により、確認した異常が
リカーシブルなものである可能性や、冗長プロセッサが
初期化中であるかどうかを確認し（図５の異常種別テー
ブル32参照）、・これらの情報を業務配置機構13に通知する。

【００３８】この通知を受けた業務配置機構13は、・先ず業務配置制御部17の動作により、異常発生ＰＭが
それまで分担していた業務を求め（図６の業務テーブル
33参照）、・次に業務別対処法決定部23の動作により、当該各業務
についての対処法とそれをどのＰＭに配置するかを決定
し（図７の異常対処法テーブル34参照）、・次に業務配置制御部17の動作により、停止部18〜継続
部22の対応する部分に当該配置を指示する。なお、業務
配置機構13の方からＰＭ対応テーブル31の内容をＰＭ管
理機構12に問い合わせることもできる。

【００３９】そして、停止部18〜継続部22のそれぞれは
業務配置制御部17からの指示に基づいて動作し、このと
きの各部分での処理状況はＰＭ管理機構12に通知され
る。例えば、継続部22は継続対象の業務についての引継
情報を用いることにより代行ＰＭへの切替え処理を開始
してその終了後に業務継続の運用開始となるが、この間
の配置状況の変化（切替え処理の開始、終了など）はＰ
Ｍ管理機構12に通知され、ＰＭ管理機構12はこの通知情
報に基づいて異常種別テーブル32の内容を更新する。

【００４０】また、ＰＭ管理機構12は、異常発生ＰＭお
よび冗長ＰＭの特定にともない前者のＰＭ名に後者を割
りあてるかたちでＰＭ対応テーブル31の内容を更新し、
業務配置機構13は、業務別対処法決定部23の決定にした
がって業務テーブル33の内容を更新する。

【００４１】図示の停止部18〜業務別対処法決定部23の
それぞれにおけるα、β・・・は各部分での処理が業務
ごとにおこなわれることを示すもので、例えばαの部分
では「分散ＯＳ」の業務を担当するといったかたちであ
る。

【００４２】そして、前記のＰＭ管理機構12への通知信
号（切替え処理の開始、終了など）は、例えば冗長ＰＭ
へ配置すべき各業務の配置処理を担当する各部分（例え
ば再実行部21のγおよび継続部22のα、β）から送られ
ており、異常種別テーブル32の例えば「ｐｍ０ｃ」のＰ
Ｍ状態が「切替え中」から「運用中」に、またリカーシ
ブル異常の可能性が「あり」から「なし」に変更される
のはこれらの各部分からの終了通知がそろった後、すな
わち切替えのために必要な処理がすべて終わってからで
ある。

【００４３】異常対処法テーブル34は通信制御の業務に
対する選択肢として「縮退・再開」と「継続・復帰」の
二つを、また通信アプリケーションの業務に対する選択
肢として「縮退・再開」と「継続」の二つを用意してお
り、これらの業務の場合にいずれを用いるかは業務別対
処法決定部23が決定する。

【００４４】異常対処法テーブル34の「継続」と「継続
・復帰」とは、前者が代行ＰＭに業務が引き継がれた後
で異常発生ＰＭが復旧してもこの代行ＰＭによる処理が
続く（図２の通信API Ａが相当）のに対し、後者は異常
発生ＰＭの復旧により当該業務を復帰させる（図２の通
信制御ｂが相当）点で相違する。また、「再実行」と
「再実行・復帰」との相違も同様である。

【００４５】本発明では、このように異常発生ＰＭの分
担業務の内の、代行すべき部分は冗長ＰＭまたは他の任
意の現用ＰＭでその継続または再実行をおこない、縮退
・再開により対応できる部分は異常発生ＰＭの復旧を待
つといったように、異常発生時の業務を冗長ＰＭなどに
配置する上での多様性を持たせている。

【００４６】また、本発明のマルチプロセッサシステム
における各機能は次のようになっている。 (1) 代行機能（継続機能および再実行機能） (2) 縮退機能および再開機能 (3) システム停止機能 (4) リカーシブル異常の監視機能 (5) 縮退／再開のさいに引継情報を回収する機能 (6) 冗長ＰＭが初期化中の場合に当該ＰＭへの切替えを
遅延させる機能 (7) 同一のＰＭがリカーシブルに縮退と再開を繰り返し
た場合には、システムによる当該ＰＭの自動復旧機能を
停止する機能（永縮機能） (8) 以上の(1) 〜(7) を業務単位、運用単位で定義する
機能 (9) 以上の(1) 〜(7) を選択する機能 (10)異常発生時に冗長ＰＭが存在しないとき、異常発生
ＰＭの分担業務のそれぞれを個々に、・他の任意の現用ＰＭで代行する・他の任意の現用ＰＭで閉塞し、すなわち当該業務に対
する他のＰＭからの要求を抑止し、当該業務の引継情報
を回収する・他の任意の現用ＰＭで代行しないといったことを選択する機能

【００４７】ここで、(4) の監視機能の実行主体はＰＭ
管理機構12であり、その他の各機能の実行主体は業務配
置機構13であり、例えば(7) の遅延処理は冗長ＰＭに配
置すべき各業務の対処法に応じて再実行部21または継続
部22が実行する。

【００４８】前記のように、冗長ＰＭが初期化中である
ことはＰＭ管理機構12から業務配置機構13に通知され、
また異常発生ＰＭが復旧したことは業務配置機構13から
ＰＭ管理機構12に通知される。そして、ＰＭ管理機構12
はＰＭ対応テーブル31にこの復旧ＰＭを冗長ＰＭとして
記述する。

【００４９】また、(5) の回収処理は縮退または再開の
いずれかの時点で他の任意の現用ＰＭによっておこなわ
れるが、後者のときには引継情報を他の現用ＰＭが用い
ることができないようにする処理がおこなわれる。

【００５０】図８および図９は、クラッツュ発生時（異
常発生時）または組込み発生時の処理手順を示す説明図
であり、クラッツュ発生時に対応のステップ(21)〜(29)
と組込み発生時のステップ(30)〜(37)とからなってお
り、前記のように、クラッツュ発生および組込み発生は
そのＰＭの実装番号で通知される。

【００５１】(21)システムの処理を継続してもよいかど
うかを判断し、「YES」の場合は次のステップに進み、
「NO」の場合はステップ(25)に進む。ここで、「NO」と
なるのは通知元ＰＭのシステム上での重要度が高い場合
であり、各ＰＭの重要度についての情報はＰＭ管理機構
12が保持している。 (22)ＰＭ管理機構12は、異常種別テーブル32を参照して
当該異常がリカーシブルなものであるかどうかを判断
し、「YES」の場合は次のステップに進み、「NO」の場
合はステップ(26)に進む。 (23)ＰＭ管理機構12は、異常発生ＰＭの実装番号をＰＭ
対応テーブル31から削除して、次のステップに進む。こ
のとき、異常発生ＰＭのＰＭ名が業務配置機構13に通知
される。 (24)業務配置機構13は、異常発生ＰＭの各担当業務の停
止または縮退と、引継情報の回収（共有メモリからの削
除）を実行する。ここで、異常発生の対処法として縮退
がとられるのは、リカーシブル異常の発生がそれまでの
業務の実行に利用された引継情報のエラーに起因してい
る場合などにこれをいったん削除して再度同一ＰＭで当
該業務を実行するためである。 (25)システムを停止する。 (26)ＰＭ管理機構12は、ＰＭ対応テーブル31を参照して
冗長ＰＭが存在するかどうかを判断し、「YES」の場合
は次のステップに進み、「NO」の場合はステップ(29)に
進む。 (27)ＰＭ管理機構12は、ＰＭ対応テーブル31の、異常発
生ＰＭのＰＭ名に対応の実装番号を冗長ＰＭのそれに変
更して、次のステップに進む。例えば、ＰＭ対応テーブ
ル31の「♯００１」のＰＭで異常が発生したとき、ＰＭ
名「pm0a」の実装番号が「♯００１」から冗長ＰＭの
「♯００１」に変更される。 (28)業務配置機構13は、異常発生ＰＭの各担当業務の・継続・再実行・縮退および回収を選択的に実行する。

【００５２】(30)ＰＭ管理機構12は、組込み発生ＰＭが
縮退中または所定業務の復帰対象となっているかどうか
を判断し、「YES」の場合は次のステップに進み、「N
O」の場合はステップ(33)に進む。なお、ＰＭ管理機構1
2は、この判断に用いられる情報を、ＰＭ対応テーブル3
1にいったん記述された実装番号の記録や業務配置機構1
3からの報告などのかたちで保持している。また、所定
業務の復帰対象とは、異常対処法テーブル34の「継続・
復帰」や「再継続・復帰」の場合である。 (31)ＰＭ管理機構12は、組込み発生ＰＭの実装番号をＰ
Ｍ対応テーブル31に記述して、次のステップに進む。こ
こで、異常発生ＰＭの元のＰＭ名が冗長ＰＭに使用され
ている場合には新たなＰＭ名とともに当該実装番号が記
述される。(32)業務配置機構13は、・組込み発生ＰＭに対する閉塞の解除および縮退業務の
再開・所定業務の復帰を選択的に実行する。なお、ステップ(31)で新たなＰＭ
名が記述された場合には、業務テーブル33における当該
業務の配置先ＰＭの変更をおこなう。 (33)組込み発生ＰＭは新たに実装されたＰＭかどうかを
判断し、「YES」の場合は次のステップに進み、「NO」
の場合はステップ(37)に進む。なお、組込み発生ＰＭを
新たに実装するのは通常システム全体の能力を高めるた
めであり、この場合にはそこで担当する業務が業務テー
ブル33に新ＰＭ名によって記述されるのが一般的であ
る。 (34)ＰＭ管理機構12は、組込み発生ＰＭの実装番号と新
ＰＭ名とを対応させてＰＭ対応テーブル31に記述して、
次のステップに進む。 (35)組込み発生ＰＭの分担業務が業務テーブル33に記述
されているかどうかを判断し、「YES」の場合は次のス
テップに進み、「NO」の場合はいったん処理を終了す
る。ここで、「NO」の場合にはステップ(34)で記述した
新ＰＭ名を削除し、このＰＭを冗長ＰＭとして用いるよ
うにしてもよい。 (36)組込み発生ＰＭはこれらの記述された業務を実行す
る。 (37)ＰＭ管理機構12は、組込み発生ＰＭの実装番号をＰ
Ｍ対応テーブル31に記述する。この場合、組込み発生Ｐ
Ｍは冗長ＰＭとして管理される。

【００５３】

【発明の効果】本発明は、このように、プロセッサで分
担する各業務についての異常発生時の対処法を選択的に
記述できる異常対処法テーブルを設け、旧現用プロセッ
サの復旧中や代用プロセッサへの切替え中などに再度異
常が生じたとき、すなわちリカーシブル異常のときに
は、その原因がソフトウェアにあるとみなして該当業務
を再実行や継続などによって代行プロセッサへ配置する
ことを抑止し、さらには冗長プロセッサが初期化中であ
るときには当該プロセッサへの業務配置を遅延させるよ
うにしている。

【００５４】そのため、プロセッサ異常時の対処の多様
化、異常発生プロセッサの拡大抑止および冗長プロセッ
サの有効利用などが可能となり、全体としてマルチプロ
セッサシステムの耐故障性を高めることができる。

【図面の簡単な説明】

【図１】本発明の、基本構成を示す図である。

【図２】本発明の、分散処理プロセッサで異常が発生し
たときの対処例を示す説明図である。

【図３】本発明の、マルチプロセッサシステムの全体概
要を示す説明図である。

【図４】本発明の、プロセッサモジュール対応テーブル
を示す説明図である。

【図５】本発明の、異常種別テーブルを示す説明図であ
る。

【図６】本発明の、業務テーブル（図２に対応）を示す
説明図である。

【図７】本発明の、異常対処法テーブルを示す説明図で
ある。

【図８】本発明の、クラッシュ発生時または組込み発生
時の処理手順を示す説明図（その１）である。

【図９】本発明の、クラッシュ発生時または組込み発生
時の処理手順を示す説明図（その２）である。

【図１０】一般的な、分散処理プロセッサで異常が発生
したときの対処例を示す説明図である。

【符号の説明】

図１において、１・・・プロセッサ監視機構２・・・プロセッサ管理機構３・・・業務配置機構４・・・プロセッサ対応テーブル５・・・異常種別テーブル６・・・業務テーブル７・・・異常対処法テーブル８・・・高速バス９・・・不揮発性共有メモリ P1・・・現用プロセッサ P2・・・現用プロセッサ P3・・・現用プロセッサ P4・・・冗長プロセッサ

Claims

【特許請求の範囲】

【請求項１】複数の業務を分散処理しているプロセッ
サのいずれかに異常が発生したことをプロセッサ監視機
構で検出したとき、プロセッサ管理機構は異常発生プロ
セッサおよび冗長プロセッサに関する情報を業務配置機
構に通知し、この通知を受けた業務配置機構は業務テー
ブルを参照することにより前記異常発生プロセッサの分
担業務を確認して所定のプロセッサにこれらを配置する
ようにしたマルチプロセッサシステムにおいて、前記業務のそれぞれについての異常発生時の対処法を選
択的に記述できる異常対処法テーブルを設け、前記業務配置機構は、この異常対処法テーブルを参照す
ることにより前記異常発生プロセッサの各分担業務の対
処法を求め、この対処法に基づいて前記分担業務の配置
をおこなうようにしたことを特徴とするマルチプロセッ
サシステムにおけるプロセッサ異常対策方法。
【請求項２】前記プロセッサ管理機構は、前記配置に
ともなう切替え中などに発生するリカーシブル異常の可
能性があるかどうかを示す情報を管理し、前記業務配置機構は、前記プロセッサ管理機構からこの
リカーシブル異常の可能性がある旨の通知を受けたと
き、再実行や継続などの特定の対処法による業務配置を
抑止することを特徴とする請求項１記載のマルチプロセ
ッサシステムにおけるプロセッサ異常対策方法。
【請求項３】前記プロセッサ管理機構は、前記冗長プ
ロセッサが初期化中であるかどうかの情報を管理し、前記業務配置機構は、前記プロセッサ管理機構からこの
初期化中である旨の通知を受けたとき、前記冗長プロセ
ッサへの業務配置を遅延させることを特徴とする請求項
１または２記載のマルチプロセッサシステムにおけるプ
ロセッサ異常対策方法。
【請求項４】複数の業務を分散処理しているプロセッ
サのいずれかに異常が発生したことを検出するプロセッ
サ監視機構と、異常発生プロセッサおよび冗長プロセッサに関する情報
を業務配置機構に通知するプロセッサ管理機構と、前記業務のそれぞれについての異常発生時の対処法を選
択的に記述できる異常対処法テーブルと、業務テーブルを参照することにより確認した前記異常発
生プロセッサの分担業務を、前記異常対処法テーブルに
記述の対処法に基づいて所定のプロセッサに配置する業
務配置機構と、を備えたことを特徴とするマルチプロセ
ッサシステムにおけるプロセッサ異常対策装置。
【請求項５】前記プロセッサ管理機構に、前記配置に
ともなう切替え中などに発生するリカーシブル異常の可
能性があるかどうかを示す情報を管理する機能を付加
し、前記業務配置機構に、前記プロセッサ管理機構からこの
リカーシブル異常の可能性がある旨の通知を受けたと
き、再実行や継続などの特定の対処法による業務配置を
抑止する機能を付加したことを特徴とする請求項４記載
のマルチプロセッサシステムにおけるプロセッサ異常対
策装置。
【請求項６】前記プロセッサ管理機構に、前記冗長プ
ロセッサが初期化中であるかどうかの情報を管理する機
能を付加し、前記業務配置機構に、前記プロセッサ管理機構からこの
初期化中である旨の通知を受けたとき、前記冗長プロセ
ッサへの業務配置を遅延させる機能を付加したことを特
徴とする請求項４または５記載のマルチプロセッサシス
テムにおけるプロセッサ異常対策装置。