JPH07262042A - プロセッサ障害検出方法 - Google Patents

プロセッサ障害検出方法

Info

Publication number
JPH07262042A
JPH07262042A JP6046245A JP4624594A JPH07262042A JP H07262042 A JPH07262042 A JP H07262042A JP 6046245 A JP6046245 A JP 6046245A JP 4624594 A JP4624594 A JP 4624594A JP H07262042 A JPH07262042 A JP H07262042A
Authority
JP
Japan
Prior art keywords
processor
operation confirmation
processors
signal
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6046245A
Other languages
English (en)
Inventor
Junko Jo
順子 城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6046245A priority Critical patent/JPH07262042A/ja
Publication of JPH07262042A publication Critical patent/JPH07262042A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

(57)【要約】 【目的】 バスによって互いに接続された複数のプロセ
ッサの障害検出方法に関し、プロセッサの処理負担が少
ない障害検出方法を提供することを目的とする。 【構成】 複数のプロセッサ10-1〜10-nの各々について
動作確認信号の送出順位を設定し、各プロセッサ10
-kは、全プロセッサの動作確認信号送出順位と稼働状態
を記憶するプロセッサ状態管理手段11を備え、前順位の
プロセッサ10-(k-1)より動作確認信号を受信したときに
応答信号を返送したのち、次順位のプロセッサ10-(k+1)
に動作確認信号を送信し、所定時間内に応答信号を受信
しないときは他の全プロセッサに送信先プロセッサの障
害を通知し、通知を受信した各プロセッサはプロセッサ
状態管理手段の当該プロセッサを非稼働状態に変更し、
次順位のプロセッサが非稼働状態となったプロセッサは
次順位以後の稼働状態にあるプロセッサに動作確認信号
を送出するように構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、バスによって互いに接
続された複数のプロセッサの障害検出方法に関する。
【0002】近年、バスに接続された複数の処理プロセ
ッサが分担して処理を行うシステムが増加しているが、
プロセッサの小型化と高性能化の進展に伴って、従来、
管理や共通制御を行う上位のプロセッサによって行われ
ていた共通的な処理や処理プロセッサの障害監視などを
複数の処理プロセッサが行うようになってきている。
【0003】このように処理プロセッサの障害を複数の
処理プロセッサ自身で検出する方法として、従来技術で
は各プロセッサが他の全プロセッサの障害の有無を定期
的に確認する方法がとられている。しかし、この方法は
プロセッサの台数が増えるに従って障害監視のためのプ
ロセッサの処理負担が急激に増加すると言う性質を有し
ている。
【0004】このため、障害検出のためのプロセッサの
処理負担が少ないプロセッサ障害検出方法が求められて
いる。
【0005】
【従来の技術】図21はプロセッサ障害検出の対象となる
システムの構成図、図22は従来技術のプロセッサ障害検
出方法の説明図である。
【0006】図21の(1) はプロセッサが階層構造となっ
ているシステムの構成例を示している。図のシステムで
は複数の回線処理プロセッサ31が図示省略された回線の
信号処理を行っているが、回線処理プロセッサ31は複数
台ごとにグループ化され、各グループごとに設けられた
通信制御プロセッサ32が共通的な通信制御の処理を行っ
ている。また、複数の通信制御プロセッサ32の上位には
システム全体を管理する管理プロセッサ33が設けられ、
システム全体の管理を行っている。
【0007】このような構成では回線処理プロセッサ31
の障害はその上位にある通信制御プロセッサ32によって
監視され、障害の発生が検出されると通信制御プロセッ
サ32より管理プロセッサ33に報告され、管理プロセッサ
33から他の通信制御プロセッサ32、或いは必要に応じて
各回線処理プロセッサ31に障害の発生が通知される。
【0008】しかし、プロセッサの小型化と高性能化の
著しい進展に伴い、最近ではこれまで通信制御プロセッ
サや管理プロセッサによって行われていたシステムの共
通的な処理が回線処理プロセッサに移されるようになっ
てきている。
【0009】図21の(2) はこのような上位プロセッサを
持たないシステムの構成の一例を示している。図示のよ
うに、このシステムは処理を対等に分担して行う複数の
回線処理プロセッサ34のみで構成されており、各回線処
理プロセッサ34は図21の(1)の通信制御プロセッサ22及
び管理プロセッサ23の役割をも備えたものとなってい
る。
【0010】図21の(2) に示した回線処理プロセッサ34
のようなプロセッサ(以下、単にプロセッサと記す)か
らなるシステムにおいてプロセッサの障害を検出する方
法として、各プロセッサ34がそれぞれ他の全プロセッサ
34の障害の有無を確認する方法が従来から行われてい
る。この方法では、各プロセッサ34は他のプロセッサ34
に対して例えばヘルスチェック信号と呼ばれる障害の有
無を確認する信号を定期的に送信し、ヘルスチェック信
号を受信したプロセッサ34は正常な状態にあれば送信元
のプロセッサ34に応答信号を返送する。応答信号がない
場合にはそのプロセッサ34を障害と判定する。
【0011】図22は以上のような従来技術のプロセッサ
障害検出方法におけるヘルスチェック信号の送受信関係
を説明する図である。同図に示すように従来技術のプロ
セッサ障害検出方法は、メッシュ状の相互監視型障害検
出方法になっているめ、プロセッサ34の台数が増加する
と各プロセッサ34間に送受信されるヘルスチェック信号
や応答信号の量は急激に増加する。このため、各プロセ
ッサ34は障害検出のための処理負担が増加し、本来行う
ことになっている処理の能力が低下し、システム全体の
処理能力も低下する。
【0012】
【発明が解決しようとする課題】以上のように、バスに
よって互いに接続された複数のプロセッサからなるシス
テムにおける従来技術のプロセッサ障害検出方法は、各
プロセッサがメッシュ状に障害検出のための信号を送受
信するため、プロセッサが増加すると各プロセッサの障
害検出のための処理負担が急激に増加し、システム全体
の処理能力が低下すると言う問題を有している。
【0013】本発明は、プロセッサの処理負担が少ない
障害検出方法を提供することを目的とする。
【0014】
【課題を解決するための手段】図1及び図2は本発明の
原理説明図である。図中、10-1〜10-n及び20-1〜20-n
バス(図示省略)によって互いに接続された複数のプロ
セッサ、11は複数のプロセッサ10-1〜10-nの各々に備え
られ、全プロセッサ10-1〜10-nの動作確認信号送出順位
と稼働状態を記憶するプロセッサ状態管理手段、21は複
数のプロセッサ20-1〜20-nの各々に備えられ、全プロセ
ッサ20-1〜20-nの動作確認情報送出順位と稼働状態を記
憶するプロセッサ状態管理手段である。また、22はプロ
セッサ20 -1〜20-nの障害を検出するために全プロセッサ
20-1〜20-n間に巡回される動作確認情報である。
【0015】図1は、バスによって互いに接続された複
数のプロセッサ10-1〜10-nの各々が他のプロセッサに動
作確認信号を送出してプロセッサ障害の検出を行うプロ
セッサ障害検出方法の原理を説明する図である。
【0016】図1においては、複数のプロセッサ10-1
10-nの各々、例えばプロセッサ10-k(以下、プロセッサ
10-kを個々のプロセッサを代表するプロセッサとして説
明する)について動作確認信号を送出する順位を定め、
前順位のプロセッサ10-(k-1)より動作確認信号を受信し
たプロセッサ10-kが次順位のプロセッサ10-(k+1)に動作
確認信号を送出することにより動作確認信号が全プロセ
ッサ10-1〜10-n間を順次リング状に送信されるように構
成する。
【0017】各プロセッサ10-kは、前順位のプロセッサ
10-(k-1)より動作確認信号を受信したときに正常な状態
にあれば前順位のプロセッサ10-(k-1)に応答信号を返送
したのち、次順位のプロセッサ10-(k+1)に動作確認信号
を送信して送信先のプロセッサ10-(k+1)よりの応答信号
の有無を監視する。
【0018】プロセッサ10-kは動作確認信号の送信先プ
ロセッサ10-(k+1)より所定の時間内に応答信号を受信し
たときは応答信号の監視を停止し、所定の時間内に応答
信号を受信しなかったときは動作確認信号送信先のプロ
セッサ10-(k+1)が障害であると判定して自プロセッサ10
-k内のプロセッサ状態管理手段11に記憶されている当該
プロセッサ10-(k+1)の稼働状態を非稼働状態に変更する
とともに、障害と判定したプロセッサ10-(k+1)を除く他
の全プロセッサ10-1〜10-(k-1), 10-(k+2)〜10 -nに対し
て障害プロセッサ10-(k+1)の識別情報を付して障害を検
出したことを知らせる通知(以下、障害通知と記す)を
行う。
【0019】この障害通知を受信した各プロセッサ10-1
〜10-(k-1), 10-(k+2)〜10-nは、各々、自プロセッサ内
のプロセッサ状態管理手段11に記憶されている当該プロ
セッサ10-(k+1)の稼働状態を非稼働状態に変更する。
【0020】非稼働状態のプロセッサが発生したのち、
次順位のプロセッサ10-(k+1)が非稼働状態となったプロ
セッサ10-kは、動作確認信号を送出する状態となったと
き、次順位以後において稼働状態にある最初の順位のプ
ロセッサ10-(k+2)に対して動作確認信号を送出する。
【0021】図2はバスによって互いに接続された複数
のプロセッサ20-1〜20-n間に動作確認情報22を巡回させ
てプロセッサ障害の検出を行うプロセッサ障害検出方法
の原理を説明する図である。
【0022】図2においては、動作確認情報22内に、動
作確認情報22が全プロセッサ20-1〜20-n間を一巡するよ
う、各プロセッサ20-kが受信した動作確認情報22の送信
先プロセッサ20-(k+1)を指定しておく。
【0023】複数のプロセッサ20-1〜20-nの各々、例え
ばプロセッサ20-k(以下、プロセッサ20-kを個々のプロ
セッサを代表するプロセッサとして説明する)は、前順
位のプロセッサ20-(k-1)より動作確認情報22を受信した
ときに正常な状態にあればその動作確認情報22に指定さ
れている送信先プロセッサ20-(k+1)にその動作確認情報
22を送信するとともに、その動作確認情報22が他の全プ
ロセッサ20-(k+1)〜20 -(k-1)) を一巡して自プロセッサ
20-kに戻るまでの時間を監視する。
【0024】プロセッサ20-kは、動作確認情報22を送出
してから所定の時間内にその動作確認情報22を再び受信
したときは時間の監視を停止し、所定の時間内に動作確
認情報22を受信しなかったときは他の全プロセッサ20-1
〜20-(k-1), 20-(k+1)〜20-nに対して障害プロセッサ確
認のための情報であることを識別する情報を付した第2
の動作確認情報(図示省略)22認用情報を送信して送信
先のプロセッサが正常な状態にあるときに返送される応
答を待つ。
【0025】第2の動作確認情報を受信した各プロセッ
サ20-1〜20-(k-1), 20-(k+1)〜20-nは、正常な状態にあ
ればその第2の動作確認情報中に指定された送信先プロ
セッサ、即ち、第2の動作確認情報の送信元プロセッサ
20-kに対してその第2の動作確認情報を返送(送信)す
る。
【0026】第2の動作確認情報の送信元プロセッサ20
-kは、その第2の動作確認情報を返送しないプロセッサ
(プロセッサ20-(k+1)とする)があると、そのプロセッ
サ20 -(k+1)が障害であると判定して自プロセッサ20-k
のプロセッサ状態管理手段21に記憶されている当該プロ
セッサ20-(k+1)の稼働状態を非稼働状態に変更するとと
もに、障害と判定したプロセッサ20-(k+1)を除く他の全
プロセッサ20-1〜20-( k-1), 20-(k+2)〜20-nに対して障
害と判定したプロセッサ20-(k+1)の識別情報を付して障
害通知を行う。
【0027】障害通知を受信した各プロセッサ20-1〜20
-(k-1), 20-(k+2)〜20-nは、各々、自プロセッサ内のプ
ロセッサ状態管理手段21に記憶されている当該プロセッ
サ20 -(k+1)の稼働状態を非稼働状態に変更する。
【0028】障害通知を受信したときに巡回中の動作確
認情報22を受信しているプロセッサは、その動作確認情
報22中で送信先プロセッサとして指定されている障害と
判定されたプロセッサ20-(k+1)をそのプロセッサの次順
位のプロセッサ20-(k+2)に変更したのち、その動作確認
情報22を指定された送信先プロセッサに送信する。
【0029】以上のように、図1においては、各プロセ
ッサ10-kはプロセッサ障害の有無を確認するための動作
確認信号を前順位のプロセッサ10-(k-1)より受信したと
きに正常状態にあれば応答信号を返し、次いで次順位の
プロセッサ10-(k+1)に動作確認信号を送信し、送信先の
プロセッサ10-(k+1)より応答があるか否かによって送信
先プロセッサ10-(k+1)の障害検出を行う。
【0030】また、図2においては、各プロセッサ20-k
はプロセッサの監視を行う場合に前順位のプロセッサ20
-(k-1)より動作確認情報22を受信したときに正常状態に
あればその動作確認情報22を次順位のプロセッサ20
-(k+1)に送出し、送出してからその動作確認情報22が他
の全プロセッサ20-(k+1)〜20-(k-1)を一巡して自プロセ
ッサ20-kに戻るまでの時間を監視することによって、他
のプロセッサ20-(k+1)〜20 -(k-1)の障害の有無を検出す
る。障害が検出された場合、障害を検出したプロセッサ
は第2の動作確認情報を各プロセッサに送信してその返
送の有無によって障害プロセッサを特定する。
【0031】図1及び図2の何れの方法も各プロセッサ
10-kは定められた前順位のプロセッサ10-(k-1)より動作
確認信号または動作確認情報22を受信したときに、定め
られた後位のプロセッサ10-(k+1)のみに対して動作確認
信号または動作確認情報22を送信するようになってい
る。
【0032】
【作用】図1のプロセッサ障害検出方法においては、各
プロセッサ10-kは前順位のプロセッサ10-(k-1)より動作
確認信号を受信したときに正常状態にあれば応答信号を
返したのち、次順位のプロセッサ10-(k+1)に動作確認信
号を送信し、送信先のプロセッサ10-(k+1)より応答があ
るか否かによって送信先プロセッサ10-(k+1)の障害検出
を行う。即ち、各プロセッサは複数のプロセッサのう
ち、予め定められた前順位と次順位のプロセッサとの間
で動作確認信号の送受信と応答信号の送受信を行うのみ
でプロセッサ障害を検出するので、プロセッサの数が多
くなっても各プロセッサにおける障害検出のための処理
が増加することがない。
【0033】また、図2のプロセッサ障害検出方法にお
いては、各プロセッサ20-kは前位のプロセッサ20-(k-1)
より動作確認情報22を受信したときにその動作確認情報
22を次順位のプロセッサ20-(k+1)に送信し、送信してか
らその動作確認情報22が他の全プロセッサ20-(k+1)〜20
-(k-1)を一巡して自プロセッサ20-kに戻るまでの時間を
監視し、所定の時間内に動作確認情報22が返送されてこ
なかった場合に他のプロセッサ20-(k+1)〜20-(k-1)のい
ずれかに障害があると判断するため、図1と同様、プロ
セッサの数が多くなっても各プロセッサがプロセッサ障
害の有無を監視するための処理が増加することがない。
【0034】また、障害があると判断したときは、その
判断を行ったプロセッサから全プロセッサに確認のため
の第2の動作確認情報を送って応答のないプロセッサを
障害プロセッサと判定するが、この処理は複数のプロセ
ッサのいずれかに障害が発生したときのみ、複数のプロ
セッサのひとつによって行われるものであるため、その
処理がシステム全体の処理能力に影響を及ぼすことは殆
どない。
【0035】図1及び図2から明らかなように、図1及
び図2の方法はリング型障害検出方法であり、従来技術
において説明したメッシュ状の相互監視型障害検出方法
と異なり、各プロセッサが障害検出を行う相手のプロセ
ッサはそれぞれ1台に限定されるため、プロセッサの台
数が増加しても各プロセッサの障害検出のための処理負
担が増加することがなく、システム全体の処理能力が低
下することがない。
【0036】
【実施例】図3は本発明の実施例プロセッサ状態管理テ
ーブル構成説明図、図4乃至図11は本発明の図1の原理
(以下、応答監視型と記す)に基づくプロセッサ障害検
出方法の実施例を示し、図4乃至図6は本発明の実施例
情報送受信経路説明図(応答監視型)、図7乃至図9は
本発明の実施例情報送受信シーケンス図(応答監視
型)、図10及び図11は本発明の実施例動作フロー図(応
答監視型)である。
【0037】図12乃至図20は本発明の図2の原理(以
下、巡回型と記す)に基づくプロセッサ障害検出方法の
実施例を示し、図12及び図13は本発明の実施例ヘルスチ
ェックリスト構成説明図、図14乃至図17は本発明の実施
例情報送受信経路説明図(巡回型)、図18乃至図20は本
発明の実施例情報送受信シーケンス図(巡回型)であ
る。
【0038】全図を通じ、同一符号は同一対象物を示
し、10-1〜10-6及び20-1〜20-6はプロセッサ、11及び21
はプロセッサ状態管理テーブル、22はヘルスチェックリ
ストである。なお、プロセッサ状態管理テーブル11, 12
はそれぞれ図1及び図2におけるプロセッサ状態記憶手
段11, 12の実現形態、ヘルスチェックリスト22は図2に
おける動作確認情報22の実現形態である。
【0039】各図におけるプロセッサ10-1〜10-6及びプ
ロセッサ20-1〜20-6は例えば図21の(2) の回線処理プロ
セッサ34のように、互いにバス(図示省略)によって接
続された複数のプロセッサである。上記各図にはそれぞ
れ6台のプロセッサを図示しているが、以下、説明の便
からプロセッサ10-1〜10-6及びプロセッサ20-1〜20-6
同一のプロセッサ番号P1 〜P6 を付与し、プロセッサ
10-1〜10-6及びプロセッサ20-1〜20-6をプロセッサP1
〜P6 と記す。
【0040】最初に図3乃至図16により本発明における
応答監視型のプロセッサ障害検出方法の実施例を説明す
る。応答監視型のプロセッサ障害検出方法では各プロセ
ッサP1 〜P6 は他のプロセッサの障害を検出するため
に動作確認信号(以下、ヘルスチェック信号と記す)を
送出し、そのヘルスチェック信号に対して相手プロセッ
サから応答があるか否かによって相手プロセッサの障害
の有無を判定するが、本発明による応答監視型のプロセ
ッサ障害検出方法ではヘルスチェック信号を受信する相
手のプロセッサと、ヘルスチェック信号を送信する相手
のプロセッサはそれぞれ1台に限られ、全プロセッサP
1 〜P6 がリング状に順次ヘルスチェック信号の送受信
を行うようになっている。
【0041】このため、本発明では全プロセッサP1
6 のヘルスチェック信号の送出順序を予め定めて各プ
ロセッサP1 〜P6 に備えられるプロセッサ状態管理テ
ーブル11に記憶させ、各プロセッサP1 〜P6 は前順位
のプロセッサよりヘルスチェック信号を受信するとその
プロセッサに対して応答信号を返送したのち、次順位の
プロセッサにヘルスチェック信号を送出するようにして
いる。
【0042】図3にはプロセッサ状態管理テーブル11の
記憶内容の一例が図示されている。図3に示されている
ように、プロセッサ状態管理テーブル11には全プロセッ
サP 1 〜P6 の番号が記憶され、各プロセッサP1 〜P
6 のヘルスチェック信号の送出順位が指定されている。
図3ではプロセッサP1 からプロセッサP6 まで番号順
にヘルスチェック信号の送信が行われる例を示してい
る。また、プロセッサ状態管理テーブル11のプロセッサ
状態の欄には各プロセッサP1 〜P6 が正常に動作して
いるか否かが記憶されているが、図3の(1) では全プロ
セッサP1 〜P6がすべて稼働状態にある例が示されて
いる。
【0043】図4はプロセッサ状態管理テーブル11の記
憶内容が図3の(1) である場合、即ち、全プロセッサP
1 〜P6 が稼働中であり、ヘルスチェック信号の送出順
序がプロセッサの番号順となっている場合におけるヘル
スチェック信号と応答信号が送受信される経路を示して
いる。この例ではプロセッサP1 が最初にヘルスチェッ
ク信号を送出するが、その送出時期はタイマなど公知の
技術を用いて設定するものとする。
【0044】いま、プロセッサP1 よりヘルスチェック
信号がプロセッサP2 に対して送出されたものとする
と、プロセッサP2 は予め定められているヘルスチェッ
ク信号を受信したときに行う処理を実行し、正常に処理
を終わるとプロセッサP1 に対して応答信号を返送す
る。なお、ヘルスチェック信号及び応答信号は図示省略
されたバスを介して送受信される。
【0045】次いでプロセッサP2 は自プロセッサ内に
記憶しているプロセッサ状態管理テーブル11に指定され
ている次順位のプロセッサP3 に対してヘルスチェック
信号を送信する(次順位のプロセッサの選別方法は後
述)。プロセッサP3 も正常であれば応答信号が返送さ
れ、以下、障害がなければ各プロセッサP3 〜P6 にお
いても同様の処理が行われる。これにより、全プロセッ
サP1 〜P6 に障害がないことが確認される。
【0046】図7はヘルスチェック信号と応答信号の送
受信シーケンスを示している。ヘルスチェック信号の送
出順位が最初となっているプロセッサP1 は、最後のプ
ロセッサP6 からヘルスチェック信号を受信して応答信
号を返送したのち、引き続いて次順位のプロセッサP2
に対してヘルスチェック信号を送出するか、タイマ(図
示省略)などにより時間を置いてから改めて次のヘルス
チェック信号を送出するかはシステムによって任意に設
定できるが、図7には引き続いてヘルスチェック信号の
送出を行う例を図示している。
【0047】次に、プロセッサP1 〜P6 の何れか1
つ、例えばプロセッサP4 に障害が発生した場合につい
て説明する。図5はその状態を図示したものであるが、
この場合は図示のように、プロセッサP3 がプロセッサ
4 に対してヘルスチェック信号を送出したときにプロ
セッサP4 より応答信号が返送されない。前記したよう
に、各プロセッサP1 〜P6 はヘルスチェック信号を送
出したときに応答監視用のタイマ(図示省略)を起動
し、そのタイマがタイムアウトする前に送信先のプロセ
ッサより応答信号を受信したときは相手プロセッサが正
常であるとしてタイマを停止し、応答信号が返送されず
にタイムアウトとなったときは相手プロセッサが障害で
あると判定する。
【0048】プロセッサP3 はプロセッサP4 より応答
がないことによりプロセッサP4 が障害であると判定す
ると、自プロセッサP3 内のプロセッサ状態管理テーブ
ル11のプロセッサP4 の状態を「稼働中」から「非稼
働」に変更するとともに、稼働中の他の全プロセッサP
1 〜P2 ,P5 〜P6 に対してプロセッサP4 が障害で
あることを通知する(図5に点線で示す)。
【0049】障害通知を受けた各プロセッサP1
2 ,P5 〜P6 はそれぞれ自プロセッサ内のプロセッ
サ状態管理テーブル11のプロセッサP4 の状態を非稼働
に変更する。これによって、プロセッサP1 〜P3 ,P
5 〜P6 のプロセッサ状態管理テーブル11のプロセッサ
4 の状態はすべて非稼働に変更されるが、図3の(2)
はその状態を示している。
【0050】上記の障害通知の処理が終了すると再びヘ
ルスチェック信号の送信が開始されるが、次順位のプロ
セッサが非稼働状態となっているプロセッサはヘルスチ
ェック信号をその次のプロセッサに送信するようになっ
ている。上記の例ではプロセッサP3 は次順位のプロセ
ッサP4 が非稼働状態になっている間はその次の順位の
プロセッサP5 に対してヘルスチェック信号を送出する
(詳細は後述)。
【0051】図8は以上の情報送受信シーケンスを示し
ている。図はプロセッサP3 内に設定される応答監視用
のタイマの時限がt1 秒であり、プロセッサP3 がプロ
セッサP4 の障害通知の終了に引き続いてプロセッサP
5 に対してヘルスチェック信号を送信する例を示してい
る。なお、図8における「障害通知(P4 )」はプロセ
ッサP4 の障害を検出したことを通知する障害通知であ
ることを示しているが、各プロセッサP1 〜P2 ,P5
〜P6 に対する障害通知の順序は一例を示すものであ
り、図示のものに限られない。
【0052】次に、プロセッサP4 の障害が回復し、再
びシステムに組み込まれる場合について説明する。図6
はプロセッサP4 を組み込む前の信号送受信状態を示し
ているが、図中に実線で示したように、プロセッサP3
はプロセッサP5 に対してヘルスチェック信号を送出し
ている。この状態でプロセッサP4 の障害が回復し、シ
ステムに組み込める状態になると、プロセッサP4 より
各プロセッサP1 〜P 3 ,P5 〜P6 に対して組み込み
通知を行う(図6に点線で示す)。
【0053】組み込み通知を受けた各プロセッサP1
3 ,P5 〜P6 はそれぞれ自プロセッサ内のプロセッ
サ状態管理テーブル11のプロセッサP4 の状態を「非稼
働」から「稼働中」に変更する。これによって、全プロ
セッサP1 〜P6 のプロセッサ状態管理テーブル11のプ
ロセッサP4 の状態はすべて非稼働に変更され、図3の
(2) の状態から同図(1) の状態に戻り、以後、ヘルスチ
ェック信号の送受信は図4及び図7におけると同様、プ
ロセッサP4 を含めて行われる。
【0054】図9は以上の組み込み前後の信号送受信シ
ーケンスを示しているが、図ではプロセッサP5 がプロ
セッサP6 との間でヘルスチェック信号の送信と応答が
行われた直後に組み込み通知が行われた例を示してい
る。この場合は、組み込み通知の処理が終わるとプロセ
ッサP6 よりプロセッサP1 に対するヘルスチェック信
号の送信からヘルスチェックが再開される。
【0055】次に各プロセッサP1 〜P6 のヘルスチェ
ック動作の詳細について図10及び図11により説明する。
図10はヘルスチェック信号を送出する場合の動作フロ
ー、図11はヘルスチェック信号を受信した場合の動作フ
ローを示しているが、説明の便から、図11から説明す
る。なお、図10及び図11は何れもプロセッサPk (k=
1〜6)における処理の例を示すものとする。また、以
下における括弧内のS1〜S26は図10または図11内の関
連するステップの符号である。
【0056】図11においてプロセッサPk は前順位のプ
ロセッサPk-1 からヘルスチェック信号を受ける(S2
1) と、所定のヘルスチェック処理を実行する(S22)
。処理結果が良好であればプロセッサPk-1 に対して
応答信号を返送し、図10に示すヘルスチェック信号送信
処理に移る(S23→S24→S25)。所定のヘルスチェッ
ク処理を実行したときに障害が存在すれば良好な結果が
得られないため応答信号を返送できずに処理を終わる
(S23→S26)。
【0057】次に、プロセッサPk がヘルスチェック信
号を送信する場合の動作を図10により説明する。ヘルス
チェック信号を送信する状態になると、プロセッサPk
は図示省略されたカウンタの数値xに“0”を設定(初
期化)し(S1) 、次いでカウンタの数値に“1”を加
える(S2) 。
【0058】次に、プロセッサ状態管理テーブル11にア
クセスし、自プロセッサPk の番号である“k”に前記
の“x”を加えた“k+x”をインデックスとしてプロ
セッサ状態管理テーブル11に記憶されている情報(以
下、データと記す)を読み取る(S3) 。なお、この状
態の図10のS2ではx=1であるため、使用するインデ
ックス“k+x”は“k+1”となるが、以下、図3を
用いてプロセッサ状態管理テーブル11の読み取り処理に
ついて説明する。
【0059】図3に示すようにプロセッサ状態管理テー
ブル11にはインデックスが付してあるが、図3の(1) で
はヘルスチェック信号送出順位がプロセッサの番号順に
なっているため、プロセッサPk のプロセッサ状態管理
テーブル11のインデックス“k+1”は自プロセッサP
k の次順位のプロセッサPk+1 を示している。例えば、
プロセッサPk をプロセッサP3 とすると、k=3とな
り、インデックスは(k+1)=4となるため、プロセ
ッサP3 はプロセッサ状態管理テーブル11のインデック
ス4にアクセスしてそのデータを読むことになる。ここ
で読み出されるプロセッサがヘルスチェック信号の送信
先となるが、そのプロセッサは自プロセッサP3 の次順
位のプロセッサP4 であることが確認され、かつ、その
プロセッサP4 は稼働中であることも判る。
【0060】以下、図10に戻って説明する。以上により
次順位のプロセッサがプロセッサP k+x (この場合はP
k+1 )であり、稼働中であることが確認されると、プロ
セッサPk は応答監視タイマ(図示省略)に例えばt1
秒を設定(S4→S5) したのち、プロセッサPk+1
ヘルスチェック信号を送出し(S6) 、同時に応答監視
タイマの計数を開始する(S7) 。
【0061】t1 秒が経過しないうち、即ち、応答監視
タイマがタイムアウトにならないうちにプロセッサP
k+1 より応答信号を受信した場合は次順位のプロセッサ
k+1は正常であると判定し、応答監視タイマの計数を
停止してヘルスチェック信号の送信処理を終わる(S
8,S9)。これにより、次順位プロセッサの障害検出
処理が終わることになる。もし、t1 秒が経過しても応
答信号を受信しない場合は、応答監視タイマがタイムア
ウトとなるので、プロセッサPk は次順位のプロセッサ
k+1 が異常であると判定し、自プロセッサ内のプロセ
ッサ状態管理テーブル11のプロセッサPk+ x (この場合
はPk+1 )の状態を「非稼働」に変更する(S10) 。次
いで、プロセッサPk はプロセッサ状態管理テーブル11
により稼働状態にあるプロセッサを確認し、稼働中の全
プロセッサに対してプロセッサPk+x が非稼働状態にあ
ることを通知する(S11) 。
【0062】以上の障害通知を終わると、プロセッサP
k はカウンタの数値xに“1”を加え(S2) 、前と同
じ送信処理を行う。これにより、プロセッサPk はプロ
セッサPk+1 の次の順位にあるプロセッサPk+2 に対し
てヘルスチェック信号の送出を行うことになる。
【0063】次に、図3と図12乃至図20により本発明に
おける巡回型のプロセッサ障害検出方法の実施例を説明
する。巡回型のプロセッサ障害検出方法では各プロセッ
サP 1 〜P6 は他のプロセッサより動作確認情報22(以
下、ヘルスチェックリストと記す)を受信するとそのヘ
ルスチェックリスト22に指定されているプロセッサに送
出し、送出後一定時間以内にそのヘルスチェックリスト
22が全プロセッサP1〜P6 を巡回して再び自プロセッ
サに戻ってきたか否かにより他プロセッサの中に異常な
プロセッサがあるか否かを判定する。
【0064】上記のヘルスチェックリスト22はそのヘル
スチェックリスト22を送信するプロセッサにより作成さ
れるが、図12及び図13にヘルスチェックリスト22の構成
の実施例を示す。ヘルスチェックリスト22には2種類が
あり、ひとつは図12の(1) 〜(3) に示す通常モードのヘ
ルスチェックリストで、障害の有無を確認するために巡
回させるヘルスチェックリストである。他は図13の(1)
に示す障害モードのヘルスチェックリストで、障害プロ
セッサが存在することが確認された場合に、障害プロセ
ッサを特定させるために障害の存在を検出したプロセッ
サから他の全プロセッサに対して送信されるものであ
る。
【0065】図12及び図13に示すように、通常モードの
ヘルスチェックリスト22はモードの欄に通常モードであ
ることを示す情報が記憶され、障害モードのヘルスチェ
ックリスト22はモードの欄に障害モードであることを示
す情報が記憶される。なお、以上における障害モードの
ヘルスチェックリスト22は図2の説明において第2の動
作確認情報と記載されたものに相当する。図2の説明で
は図2に図示された動作確認情報22と区別するため第2
の動作確認情報については符号を付していなかったが、
以下においては障害モードのヘルスチェックリストにつ
いても通常モードのヘルスチェックリスト22と同一の符
号22を使用する。
【0066】通常モード及び障害モードのヘルスチェッ
クリスト22の何れにも、受信プロセッサ番号、即ち、ヘ
ルスチェックリスト22を受信したプロセッサの番号と、
送信先プロセッサ番号、即ち、ヘルスチェックリスト22
を受信したプロセッサがそのヘルスチェックリスト22を
送信する相手のプロセッサの番号を記憶する箇所が設け
られている。
【0067】以下、巡回型のプロセッサ障害検出方法の
動作を上記各図及び図3を用いて説明する。巡回型のプ
ロセッサ障害検出方法においては各プロセッサ内に、全
プロセッサP1 〜P6 のヘルスチェックリスト22の送出
順位と稼働状態を記憶するプロセッサ状態管理テーブル
21が備えられる。図3はプロセッサ状態管理テーブル11
とプロセッサ状態管理テーブル21の構成を説明する図で
あるが、両者は、応答監視型のプロセッサ状態管理テー
ブル11がヘルスチェック信号の送出順位を設定するのに
対して巡回型のプロセッサ状態管理テーブル21ではヘル
スチェックリスト22の送出順位を設定する点が異なるの
みであり、内容的に大差はないのでプロセッサ状態管理
テーブル21の構成については詳細説明を省略する。
【0068】最初に、全プロセッサP1 〜P6 が正常に
動作している状態で通常モードのヘルスチェックリスト
22を巡回させる場合の動作を説明する。この場合は各プ
ロセッサP1 〜P6 に記憶されているプロセッサ状態管
理テーブル21には図3の(1)に図示されているように全
プロセッサP1 〜P6 が稼働中であることが記憶され、
同時にヘルスチェックリスト22がプロセッサP1 より番
号順に送出されることが示されている。
【0069】通常モードのヘルスチェックリスト22の送
出は各プロセッサから特定の条件或いは任意に行うこと
も可能であるが、プロセッサ状態管理テーブル11におい
て送出順位が1番となっているプロセッサP1 から行う
のが最も一般的であるので、プロセッサP1 がヘルスチ
ェックリスト22を作成する例について説明する。なお、
ヘルスチェックリスト22は他のプロセッサ間を転送され
るときはデータ・フレームの形式となっているため、ヘ
ルスチェックリスト・フレームと呼ぶのが適当である
が、以下においてはプロセッサ内に記憶されている状態
のヘルスチェックリストも、データとして転送されてい
る状態のヘルスチェックリストも区別することなく、ヘ
ルスチェックリストと記す。
【0070】上記においてプロセッサP1 が作成するヘ
ルスチェックリスト22は全プロセッサP1 〜P6 に巡回
させるヘルスチェックリストであるため、モード欄に
「通常モード」を示す所定のコードを設定し、プロセッ
サ状態管理テーブル21の指定に従ってヘルスチェックリ
スト22を巡回させるよう、受信プロセッサ番号と送信先
プロセッサ番号を図12の(1) の記載されているようにプ
ロセッサ番号を記憶させる。
【0071】ヘルスチェックリスト22を作成するとプロ
セッサP1 は、自プロセッサに関するデータが記憶され
ているインデックス“1”(インデックスの数字は受信
プロセッサ番号と一致するものとする)のデータを読み
出して送信先プロセッサの番号がP2 であることを確認
するとともに、プロセッサ状態管理テーブル21によって
プロセッサP2 が稼働中であるか否かを確認する。
【0072】プロセッサP1 はプロセッサP2 が稼働中
であることを確認すると、作成したヘルスチェックリス
ト22をプロセッサP2 に送信する。また、このとき巡回
時間監視タイマ(図示省略)に時間を設定して起動させ
る。この場合に設定される時間は、異常がない場合にヘ
ルスチェックリスト22が全プロセッサP1 〜P6 を一巡
して自プロセッサP1 に戻るまでの時間を或る程度の余
裕をもってカバーする時間とする。なお、ヘルスチェッ
クリスト22も図示省略されたバスを介して送信される。
【0073】プロセッサP2 はプロセッサP1 からヘル
スチェックリスト22を受信すると、受信したヘルスチェ
ックリスト22の受信プロセッサ番号を検索し、自プロセ
ッサP2 の番号が記載されているデータの内容を読み取
る。この場合は図12の(1) のインデックス“2”のデー
タが読み取られるが、受信したヘルスチェックリスト22
が通常モードのものであり、その送信先がプロセッサP
3 であることが確認されるので、プロセッサP2 は受信
したヘルスチェックリスト22をプロセッサP3に対して
送信する。このとき、プロセッサP2 においても巡回時
間監視タイマ(図示省略)に時間を設定して起動する。
なお、巡回型のプロセッサ障害検出方法ではヘルスチェ
ックリスト22を受信したときに送信元(受信)プロセッ
サであるプロセッサP1 に対して応答信号は返送しな
い。
【0074】以下同様にして、ヘルスチェックリスト22
はプロセッサP3 〜P6 を巡回し、プロセッサP6 より
プロセッサP1 に対して送信される。プロセッサP1
巡回時間監視タイマに設定した時間が経過する前にこの
ヘルスチェックリスト22を受信すると巡回時間監視タイ
マを止め、巡回時間の監視を解除する。
【0075】プロセッサP1 は受信したヘルスチェック
リスト22を前回と同様にして再びプロセッサP2 に対し
て送信するが、これを受信するとプロセッサP2 も自プ
ロセッサ内の巡回時間監視タイマを停止する。プロセッ
サP3 以下についても同様である。
【0076】図14は以上のようにしてヘルスチェックリ
スト22が巡回する経路を図示したものであり、図18はヘ
ルスチェックリスト22の巡回動作のシーケンスを図示し
たものであるが、何れも特に説明を要する事項がないの
で説明は省略する。
【0077】次に、プロセッサP1 〜P6 の何れか1
つ、例えばプロセッサP4 に障害が発生した場合につい
て説明する。プロセッサP4 に障害が発生した場合は、
図14または図18から明らかなように、ヘルスチェックリ
スト22はプロセッサP3 からプロセッサP4 に送出され
た段階で巡回が停止するので、ヘルスチェックリスト22
はプロセッサP1 〜P3 には戻らない。プロセッサP1
〜P3 がそれぞれ自プロセッサ内の巡回時間監視タイマ
に設定した時間が同一であるとすると、3つのプロセッ
サP1 〜P3 の中で最も早くヘルスチェックリスト22を
送信したプロセッサP1 の巡回時間監視タイマが最初に
タイムアウトとなる。
【0078】タイムアウトによりプロセッサP1 はプロ
セッサ障害の発生を検出するが、この時点ではどのプロ
セッサが障害であるか識別することはできないので障害
プロセッサを特定するために障害モードのヘルスチェッ
クリスト22を稼働中の全プロセッサP1 〜P6 に対して
送信する。この時点ではプロセッサP4 はまだ稼働中の
プロセッサに含まれるので、障害モードのヘルスチェッ
クリスト22は図15に示すようにプロセッサP2 〜P6
全部に送られる。なお、この障害モードのヘルスチェッ
クリスト22も図示省略されたバスを介して送られる。
【0079】図13の(1) は障害モードのヘルスチェック
リスト22の構成を示している。この例では障害モードの
ヘルスチェックリスト22はプロセッサP1 において作成
されるが、図示のように、このヘルスチェックリスト22
はモード欄に「障害モード」を示す所定のコードを設定
し、受信プロセッサ番号には送信先の全プロセッサP 2
〜P6 の番号を設定し、送信先プロセッサにはすべて自
プロセッサの番号であるP1 を設定する。
【0080】この障害モードのヘルスチェックリスト22
は前記のようにプロセッサP1 より直接全プロセッサP
2 〜P6 に送られるが、障害モードのヘルスチェックリ
スト22を受信した各プロセッサP2 〜P6 は通常モード
の場合と同様に送信先プロセッサ番号に指定されたプロ
セッサにそのヘルスチェックリスト22を送信する。この
場合、送信先プロセッサはすべてプロセッサP1 となっ
ているため、返送されるヘルスチェックリスト22は巡回
することなく、すべて直接プロセッサP1 に送られる。
【0081】プロセッサP1 は複数のプロセッサから返
送される障害モードのヘルスチェックリスト22を受信す
るが、障害プロセッサであるプロセッサP4 は障害モー
ドのヘルスチェックリスト22を受信したときもそのヘル
スチェックリスト22を送信先プロセッサに返送すること
がないので、プロセッサP1 はヘルスチェックリスト22
を返送してこないプロセッサP4 が障害プロセッサであ
ると判定する。
【0082】図15は障害モードのヘルスチェックリスト
22が送信される経路を図示し、図19は障害モードのヘル
スチェックリスト22の送受信のシーケンスを図示したも
のである。図15及び図19に示すように、プロセッサP4
のみは障害モードのヘルスチェックリスト22を返送して
いない。
【0083】プロセッサP1 は障害プロセッサがプロセ
ッサP4 であると判定すると、プロセッサP4 を除く稼
働中の全プロセッサP2 〜P3 , P5 〜P6 に対してプ
ロセッサP4 が障害であることを通知する。各プロセッ
サP2 〜P3 , P5 〜P6 は障害通知を受信するとプロ
セッサ状態管理テーブル21のプロセッサP4 の状態を
「非稼働」に変更する。図16は障害通知が送信される経
路を図示したものであるが、この通知も図示省略された
バスを介して行われる。
【0084】プロセッサP1 は上記の障害通知を行うと
ともに、自プロセッサ内のプロセッサ状態管理テーブル
21のプロセッサP4 の状態を「非稼働」に変更し、更に
通常モードのヘルスチェックリスト22を修正する。この
修正方法は図12の(2) のA方式と同図(3) のB方式の2
種類の方法があるが、システムの条件に従って何れをと
ってもよい。
【0085】図12の(2) のA方式では図12の(1) におけ
るインデックス“3”の送信先プロセッサ番号を
「P4 」から「P5 」に変更する。この方法ではインデ
ックス“4”にはプロセッサP4 の番号が残っている
が、プロセッサP3 よりプロセッサP 4 に対してヘルス
チェックリスト22が送られなくなるので、プロセッサP
4 がヘルスチェックリスト22を受信するプロセッサとな
ることはないため、ヘルスチェックリスト22の巡回には
影響がない。この方法は修正が最小限になるという特徴
がある。
【0086】一方、図12の(3) のB方式はヘルスチェッ
クリスト22よりプロセッサP4 除いてインデックスの数
を1個減らす方法である。この方法では図12の(1) にお
けるインデックス“3”の送信先プロセッサ番号をP4
からP5 に変更するとともにインデックス“4”を削除
してインデックス“5”以降を順次繰上げた形となって
いる。この方法は、障害プロセッサP4 がヘルスチェッ
クリスト22から除かれるとともに、巡回するプロセッサ
の数が明確になると言う特徴がある。
【0087】以上の処理が行われたのち、プロセッサP
1 から修正された通常モードのヘルスチェックリスト22
が送信される。このヘルスチェックリスト22はプロセッ
サP 3 まで前回と同じく巡回されるが、プロセッサP3
がヘルスチェックリスト22を読み取ると送信先プロセッ
サとしてプロセッサP5 が指定されているため、ヘルス
チェックリスト22はプロセッサP4 の代わりにプロセッ
サP5 に送られ、以後、プロセッサP5 ,P6 を経てプ
ロセッサP1 に返送される。
【0088】次に、プロセッサP4 の障害が回復し、再
びシステムに組み込まれる場合について説明する。図17
はプロセッサP4 を組み込む前のヘルスチェックリスト
22の巡回経路を示している。図に実線で示すように、通
常モードのヘルスチェックリスト22はプロセッサP4
通らずに巡回されているが、この状態でプロセッサP 4
の障害が回復し、システムに組み込める状態になると、
プロセッサP4 より他の全プロセッサP1 〜P3 ,P5
〜P6 に対して組み込み通知が行われる(図16に点線で
示す)。
【0089】組み込み通知を受けた各プロセッサP1
3 ,P5 〜P6 はそれぞれ自プロセッサ内のプロセッ
サ状態管理テーブル21のプロセッサP4 の状態を「非稼
働」から「稼働中」に変更する。これによって、全プロ
セッサP1 〜P6 のプロセッサ状態管理テーブル21は図
3の(2) の状態から同図(1) の状態に戻る。
【0090】また、組み込み通知を受信したときに巡回
中の通常モードのヘルスチェックリスト22を受信してい
るプロセッサはそのヘルスチェックリスト22を送信する
前にヘルスチェックリスト22を図12の(2) または(3) か
ら(1) のように修正して次の送信先プロセッサに送信す
る。これによって、このヘルスチェックリスト22は次に
プロセッサP3 に巡回されたときにプロセッサP5 では
なくプロセッサP4 に対して送信されるようになる。
【0091】図17は以上の組み込み通知が送られる経路
を図示しており、図20は組み込み通知が行われる前後の
ヘルスチェックリスト22と組み込み通知の送信シーケン
スを図示している。図20ではプロセッサP6 が通常モー
ドのヘルスチェックリスト22を受信した状態で組み込み
通知が行われ、組み込み通知による処理終了後にプロセ
ッサP6 からヘルスチェックリスト22の送信が再開され
る状態を示している。なお、図20における組み込み通知
の送信順序は一例を示したものである。
【0092】以上、障害回復後のプロセッサの組み込み
方法を説明したが、組み込み方法として次のような別方
法(図示省略)を使用することもできる。この別方法で
は、プロセッサP4 から組み込み通知を受けた各プロセ
ッサP1 〜P3 ,P5 〜P6はプロセッサ状態管理テー
ブル21を変更したのち、通知元のプロセッサP4 に対し
て組み込みが終了したことを知らせる応答信号を返送す
る。
【0093】プロセッサP4 は組み込み通知を行った全
プロセッサP1 〜P3 ,P5 〜P6から応答信号を受信
すると、自プロセッサの前順位のプロセッサP3 に対し
てヘルスチェックリスト22への組み込み依頼を行う。前
順位のプロセッサP3 はこの依頼を受けたのち、ヘルス
チェックリスト22(このとき受信するヘルスチェックリ
スト22はプロセッサP4 が除かれた図12の(2) または
(3) の内容となっている)を受信するとそのヘルスチェ
ックリスト22を図12の(1) の内容に修正し、送信先プロ
セッサとして新たに指定されたプロセッサP4 に対して
そのヘルスチェックリスト22を送信する。この別方法は
情報の送受信回数は増加するが組み込みの完了を確認し
てヘルスチェックリスト22の修正を行うため、信頼性が
高くなる。
【0094】以上、図3〜図20により本発明の実施例を
説明したが、図3〜図20はあくまで本発明の一例を示し
たものに過ぎず、本発明が図示されたものに限定される
ものでないことは言うまでもない。
【0095】例えば、上記においてはプロセッサに障害
が発生したことを前提として説明したが、保守点検や増
設などのために非稼動状態のプロセッサが発生したとき
にも本発明が適用できることは明らかである。
【0096】また、図10においてはヘルスチェック信号
を送信する相手のプロセッサを確認するためにカウンタ
を用い、カウンタ値xと自プロセッサの番号kをインデ
ックスとして図3のプロセッサ状態管理テーブル11から
直接送信先プロセッサの番号Pk+x を得ていたが、次の
何れかの方法を用いることも可能である。
【0097】第1の方法は、プロセッサ状態管理テーブ
ル11に自プロセッサのデータが記憶されている箇所のイ
ンデックス(またはアドレスでもよい)を予め知ってお
き、カウンタを用いずにプロセッサ状態管理テーブル11
にアクセスする方法である。この方法ではそのインデッ
クスを用いてプロセッサ状態管理テーブル11の自プロセ
ッサのデータを読み出す。例えば、プロセッサP1 の例
では自プロセッサのデータが記憶されているインデック
ス“1”にアクセスすると自プロセッサのヘルスチェッ
ク信号送出順位が“1”であることが確認できるので、
次にヘルスチェック信号送出順位が“2”であるプロセ
ッサを検索してプロセッサP3 を得ることができる。
【0098】第2の方法はインデックスを使用せずに直
接プロセッサ状態管理テーブル11にアクセスし、プロセ
ッサ番号の中から自プロセッサ番号を見つける。例えば
プロセッサP1 の場合、プロセッサ番号の項でP1 を検
出できれば、以後は第1の方法と同様にしてヘルスチェ
ック信号の送出先プロセッサの番号が得られる。これら
の方法を用いても本発明の効果が変わらないことは明ら
かである。
【0099】また、図5及び図8の障害通知、図6及び
図9の組み込み通知、図16の障害通知、図17及び図20の
組み込み通知については、通知を受けたプロセッサより
応答信号を返すようになっていないが、応答信号を返す
ようにしても本発明の効果は変わらない。
【0100】また、以上の説明においては、巡回型のプ
ロセッサ障害検出方法におけるプロセッサ状態管理テー
ブル21は応答監視型のプロセッサ障害検出方法における
プロセッサ状態管理テーブル11と同一内容であるとした
が、巡回型のプロセッサ障害検出方法においてはヘルス
チェックリスト22に送信先のプロセッサ番号が指定され
るので、図3に示すプロセッサ状態管理テーブルのヘル
スチェックリスト送出順位を削除し、プロセッサ番号と
プロセッサ状態のみで構成し、プロセッサ状態管理テー
ブル21では各プロセッサが稼働中であるか非稼働である
かを確認するのみとすることもできる。この場合も本発
明の効果は変わらない。
【0101】
【発明の効果】以上説明したように、本発明によれば、
バスによって接続された複数のプロセッサが互いにプロ
セッサ障害を検出するシステムにおいて、個々のプロセ
ッサが障害の有無を確認するための情報を送受信する相
手プロセッサがそれぞれ1台に限られるため、各プロセ
ッサが他の全プロセッサとの間で障害確認のための情報
を送受信するメッシュ状の相互監視型障害検出方法に比
して各プロセッサの障害検出のための処理負担が著しく
減少する。また、プロセッサの数が増加しても各プロセ
ッサの障害検出のための処理が大きく増加することがな
いため、システム全体の処理能力を大きく低下させるこ
とがない。
【0102】以上により、本発明はバスに接続された複
数の処理プロセッサが分担して処理を行うシステムにお
けるプロセッサ障害検出の効率化と、かかるシステム、
特にプロセッサの数が多いシステムの処理能力の向上に
大きく貢献する。
【図面の簡単な説明】
【図1】 本発明の原理説明図(1)
【図2】 本発明の原理説明図(2)
【図3】 本発明の実施例プロセッサ状態管理テーブル
構成説明図
【図4】 本発明の実施例情報送受信経路説明図(応答
監視型−1)
【図5】 本発明の実施例情報送受信経路説明図(応答
監視型−2)
【図6】 本発明の実施例情報送受信経路説明図(応答
監視型−3)
【図7】 本発明の実施例情報送受信シーケンス図(応
答監視型−1)
【図8】 本発明の実施例情報送受信シーケンス図(応
答監視型−2)
【図9】 本発明の実施例情報送受信シーケンス図(応
答監視型−3)
【図10】 本発明の実施例動作フロー図(応答監視型−
1)
【図11】 本発明の実施例動作フロー図(応答監視型−
2)
【図12】 本発明の実施例ヘルスチェックリスト構成説
明図(1)
【図13】 本発明の実施例ヘルスチェックリスト構成説
明図(2)
【図14】 本発明の実施例情報送受信経路説明図(巡回
型−1)
【図15】 本発明の実施例情報送受信経路説明図(巡回
型−2)
【図16】 本発明の実施例情報送受信経路説明図(巡回
型−3)
【図17】 本発明の実施例情報送受信経路説明図(巡回
型−4)
【図18】 実施例情報送受信シーケンス図(巡回型−
1)
【図19】 実施例情報送受信シーケンス図(巡回型−
2)
【図20】 実施例情報送受信シーケンス図(巡回型−
3)
【図21】 システム構成図
【図22】 従来技術のプロセッサ障害検出方法説明図
【符号の説明】
10-1〜10-n、20-1〜20-n プロセッサ 11、21 プロセッサ状態管理手段 22 動作確認情報

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 バスによって互いに接続された複数のプ
    ロセッサ(10-1〜10 -n)の各々が他のプロセッサに動作
    確認信号を送出してプロセッサの障害検出を行うプロセ
    ッサ障害検出方法であって、 前記複数のプロセッサ(10-1〜10-n)の各々について前
    記動作確認信号を送出する順位を定め、前順位のプロセ
    ッサ(10-(k-1)) より動作確認信号を受信したプロセッ
    サ(10-k)が次順位のプロセッサ(10-(k+1))に動作確
    認信号を送出することにより動作確認信号が全プロセッ
    サ(10-1〜10-n)間を順次リング状に送信されるように
    構成し、 前記複数のプロセッサ(10-1〜10-n)の各プロセッサ
    (10-k)は、前記全プロセッサ(10-1〜10-n)の動作確
    認信号送出順位と稼働状態を記憶するプロセッサ状態管
    理手段(11)を備え、かつ、 前順位のプロセッサ(10-(k-1))より動作確認信号を受
    信したときに正常な状態にあれば該前順位のプロセッサ
    (10-(k-1)) に応答信号を返送したのち、次順位のプロ
    セッサ(10-(k+1)) に動作確認信号を送信して送信先プ
    ロセッサ(10-( k+1)) よりの応答信号の有無を監視し、 前記送信先プロセッサ(10-(k+1)) より所定の時間内に
    応答信号を受信したときは前記の監視を停止し、所定の
    時間内に応答信号を受信しなかったときは該送出先プロ
    セッサ(10-(k+1)) が障害であると判定して自プロセッ
    サ(10-k)内の前記プロセッサ状態管理手段(11)に記憶
    されている当該プロセッサ(10-(k+1))の稼働状態を非
    稼働状態に変更するとともに、障害と判定したプロセッ
    サ(10-( k+1)) を除く他の全プロセッサ(10-1〜10
    -(k-1), 10-(k+2)〜10-n)に対して障害と判定したプロ
    セッサ(10-(k+1))の識別情報を付して障害通知を行
    い、 該障害通知を受信した各プロセッサ(10-1〜10-(k-1),
    10-(k+2)〜10-n)は、各々、自プロセッサ内の前記プロ
    セッサ状態管理手段(11)に記憶されている当該プロセッ
    サ(10-(k+1)) の稼働状態を非稼働状態に変更し、 次順位のプロセッサ(10-(k+1)) が非稼働状態となった
    プロセッサ(10-k)は、動作確認信号を送出する状態と
    なったとき、次順位以後において稼働状態にある最初の
    順位のプロセッサ(10-(k+2)) に対して動作確認信号を
    送出することを特徴とするプロセッサ障害検出方法。
  2. 【請求項2】 バスによって互いに接続された複数のプ
    ロセッサ(20-1〜20 -n)間に動作確認情報(22)を巡回さ
    せてプロセッサ障害の検出を行うプロセッサ障害検出方
    法であって、 前記動作確認情報(22)内に、該動作確認情報(22)が前記
    全プロセッサ(20-1〜20-n)間を一巡するよう、各プロ
    セッサ(20-k)が受信した動作確認用情報(22)の送信先
    プロセッサ(20-(k+1)) を指定し、 前記複数のプロセッサ(20-1〜20-n)の各プロセッサ
    (20-k)は、前記全プロセッサ(20-1〜20-n)の動作確
    認情報送出順位と稼働状態を記憶するプロセッサ状態管
    理手段(21)を備え、かつ、 前順位のプロセッサ(20-(k-1)) より動作確認情報(22)
    を受信したときに正常な状態にあれば該動作確認情報(2
    2)に指定されている送信先プロセッサ(20-(k+ 1)) に該
    動作確認情報(22)を送信するとともに、該動作確認情報
    (22)が他の全プロセッサ(20-(k+1)〜20-(k-1)) を一巡
    して自プロセッサ(20-k)に戻るまでの時間を監視し、 前記動作確認情報(22)を送出してから所定の時間内に該
    動作確認情報(22)を再び受信したときは前記監視を停止
    し、所定の時間内に前記動作確認情報(22)を受信しなか
    ったときは他の全プロセッサ(20-1〜20-(k-1), 20
    -(k+1)〜20-n)に対して障害プロセッサ確認のための情
    報であることを識別する情報を付した第2の動作確認情
    報を送信して送信先のプロセッサ(20-1〜20-(k-1), 20
    -(k+1)〜20-n)が正常な状態にあるときに返送される応
    答を待ち、 前記第2の動作確認情報を受信した各プロセッサ(20-1
    〜20-(k-1), 20-(k+1)〜20-n)は正常な状態にあれば該
    第2の動作確認情報を送信先に指定された第2の動作確
    認情報の送信元プロセッサ(20-k)に対して返送し、 前記第2の動作確認情報の送信元プロセッサ(20-k
    は、該第2の動作確認情報を返送しないプロセッサ(20
    -(k+1))があったときに該プロセッサ(20-(k+1)) が障
    害であると判定して自プロセッサ(20-k)内の前記プロ
    セッサ状態管理手段(21)に記憶されている当該プロセッ
    サ(20-(k+1)) の稼働状態を非稼働状態に変更するとと
    もに、障害と判定したプロセッサ(20-(k+1)) を除く他
    の全プロセッサ(20-1〜20-(k-1), 20-(k+2)〜20-n)に
    対して障害と判定したプロセッサ(20-(k+1)) の識別情
    報を付して障害通知を行い、 該障害通知を受信した各プロセッサ(20-1〜20-(k-1),
    20-(k+2)〜20-n)は、各々、自プロセッサ内の前記プロ
    セッサ状態管理手段(21)に記憶されている当該プロセッ
    サ(20-(k+1)) の稼働状態を非稼働状態に変更し、 前記障害通知を受信したときに巡回中の動作確認情報(2
    2)を受信しているプロセッサは、該動作確認情報(22)中
    で送信先プロセッサとして指定されている前記障害と判
    定されたプロセッサ(20-(k+1)) を該プロセッサの次順
    位のプロセッサ(20-(k+2))に変更したのち、該動作確
    認情報(22)を指定された送信先プロセッサに送信するこ
    とを特徴とするプロセッサ障害検出方法。
JP6046245A 1994-03-17 1994-03-17 プロセッサ障害検出方法 Withdrawn JPH07262042A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6046245A JPH07262042A (ja) 1994-03-17 1994-03-17 プロセッサ障害検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6046245A JPH07262042A (ja) 1994-03-17 1994-03-17 プロセッサ障害検出方法

Publications (1)

Publication Number Publication Date
JPH07262042A true JPH07262042A (ja) 1995-10-13

Family

ID=12741772

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6046245A Withdrawn JPH07262042A (ja) 1994-03-17 1994-03-17 プロセッサ障害検出方法

Country Status (1)

Country Link
JP (1) JPH07262042A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006155193A (ja) * 2004-11-29 2006-06-15 Nec Corp マルチプロセッサシステム、マルチプロセッサシステムにおける監視方法、及び、プロセッサ
JP2007122318A (ja) * 2005-10-27 2007-05-17 Seiko Epson Corp 印刷制御装置
JP2008234117A (ja) * 2007-03-19 2008-10-02 Fujitsu Ltd マルチプロセッサシステムおよびマルチプロセッサシステムにおける復旧方法
US7693934B2 (en) 2003-04-16 2010-04-06 Samsung Electronics Co., Ltd. Network device, system and method for providing list of controlled devices
JP2011107910A (ja) * 2009-11-16 2011-06-02 Fujitsu Ltd マルチプロセッサシステム及びその障害検出方法
JP5475130B2 (ja) * 2010-07-09 2014-04-16 富士通株式会社 監視プログラム、監視システム及び監視方法
JP2014178995A (ja) * 2013-03-15 2014-09-25 Mitsubishi Electric Corp 通信システム及び通信方法
JP2016071771A (ja) * 2014-10-01 2016-05-09 株式会社デンソー 制御装置及び監視装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7693934B2 (en) 2003-04-16 2010-04-06 Samsung Electronics Co., Ltd. Network device, system and method for providing list of controlled devices
JP2006155193A (ja) * 2004-11-29 2006-06-15 Nec Corp マルチプロセッサシステム、マルチプロセッサシステムにおける監視方法、及び、プロセッサ
JP4595512B2 (ja) * 2004-11-29 2010-12-08 日本電気株式会社 マルチプロセッサシステム、マルチプロセッサシステムにおける監視方法、及び、プロセッサ
JP2007122318A (ja) * 2005-10-27 2007-05-17 Seiko Epson Corp 印刷制御装置
JP2008234117A (ja) * 2007-03-19 2008-10-02 Fujitsu Ltd マルチプロセッサシステムおよびマルチプロセッサシステムにおける復旧方法
JP2011107910A (ja) * 2009-11-16 2011-06-02 Fujitsu Ltd マルチプロセッサシステム及びその障害検出方法
JP5475130B2 (ja) * 2010-07-09 2014-04-16 富士通株式会社 監視プログラム、監視システム及び監視方法
JP2014178995A (ja) * 2013-03-15 2014-09-25 Mitsubishi Electric Corp 通信システム及び通信方法
JP2016071771A (ja) * 2014-10-01 2016-05-09 株式会社デンソー 制御装置及び監視装置

Similar Documents

Publication Publication Date Title
US5473771A (en) Fault-tolerant processing system architecture
JPH04229741A (ja) リンク結合システム内の故障を分離し分析する装置及び方法
JPH08242229A (ja) ネットワーク監視における状態整合処理システム
US20080288812A1 (en) Cluster system and an error recovery method thereof
US5487149A (en) Common control redundancy switch method for switching a faulty active common control unit with an inactive spare common control unit
US5742851A (en) Information processing system having function to detect fault in external bus
JPH07262042A (ja) プロセッサ障害検出方法
RU2142159C1 (ru) Способы проверки состояния процессора в электронных системах коммутации
US5590117A (en) Node information collecting method in a ring system
US5377322A (en) Information handling method and system utilizing multiple interconnected processors and controllers
JP3896660B2 (ja) ネットワークの監視システム
JP6134720B2 (ja) 接続方法
JP3232393B2 (ja) 分散処理システムのモジュール運転状態制御方法
JP2004007930A (ja) 電力系統監視制御システムおよびプログラム
JPH0934852A (ja) クラスタシステム
JP2699900B2 (ja) 障害情報収集装置
JP2829040B2 (ja) 情報集配信システム
US7808893B1 (en) Systems and methods for providing redundancy in communications networks
JP2007026038A (ja) パス監視システム,パス監視方法,およびパス監視プログラム
KR0176085B1 (ko) 병렬처리 컴퓨터 시스템에서의 프로세서 노드 및 노드연결망의 에러 검출방법
JP2699899B2 (ja) 障害情報収集装置
JPH0668002A (ja) ネットワーク管理システム
JP3239856B2 (ja) ローカルエリアネットワークにおける情報処理装置の障害通知システム及び障害通知装置
JPH02281368A (ja) 制御装置の故障検出機構
JP2658813B2 (ja) 入出力チャネル障害復旧装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20010605