JPH07262042A

JPH07262042A - プロセッサ障害検出方法

Info

Publication number: JPH07262042A
Application number: JP6046245A
Authority: JP
Inventors: Junko Jo; 順子城
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1994-03-17
Filing date: 1994-03-17
Publication date: 1995-10-13

Abstract

(57)【要約】【目的】バスによって互いに接続された複数のプロセ
ッサの障害検出方法に関し、プロセッサの処理負担が少
ない障害検出方法を提供することを目的とする。【構成】複数のプロセッサ10_-1〜10_-nの各々について
動作確認信号の送出順位を設定し、各プロセッサ10
_-kは、全プロセッサの動作確認信号送出順位と稼働状態
を記憶するプロセッサ状態管理手段11を備え、前順位の
プロセッサ10_-(k-1)より動作確認信号を受信したときに
応答信号を返送したのち、次順位のプロセッサ10_-(k+1)
に動作確認信号を送信し、所定時間内に応答信号を受信
しないときは他の全プロセッサに送信先プロセッサの障
害を通知し、通知を受信した各プロセッサはプロセッサ
状態管理手段の当該プロセッサを非稼働状態に変更し、
次順位のプロセッサが非稼働状態となったプロセッサは
次順位以後の稼働状態にあるプロセッサに動作確認信号
を送出するように構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、バスによって互いに接
続された複数のプロセッサの障害検出方法に関する。

【０００２】近年、バスに接続された複数の処理プロセ
ッサが分担して処理を行うシステムが増加しているが、
プロセッサの小型化と高性能化の進展に伴って、従来、
管理や共通制御を行う上位のプロセッサによって行われ
ていた共通的な処理や処理プロセッサの障害監視などを
複数の処理プロセッサが行うようになってきている。

【０００３】このように処理プロセッサの障害を複数の
処理プロセッサ自身で検出する方法として、従来技術で
は各プロセッサが他の全プロセッサの障害の有無を定期
的に確認する方法がとられている。しかし、この方法は
プロセッサの台数が増えるに従って障害監視のためのプ
ロセッサの処理負担が急激に増加すると言う性質を有し
ている。

【０００４】このため、障害検出のためのプロセッサの
処理負担が少ないプロセッサ障害検出方法が求められて
いる。

【０００５】

【従来の技術】図21はプロセッサ障害検出の対象となる
システムの構成図、図22は従来技術のプロセッサ障害検
出方法の説明図である。

【０００６】図21の(1) はプロセッサが階層構造となっ
ているシステムの構成例を示している。図のシステムで
は複数の回線処理プロセッサ31が図示省略された回線の
信号処理を行っているが、回線処理プロセッサ31は複数
台ごとにグループ化され、各グループごとに設けられた
通信制御プロセッサ32が共通的な通信制御の処理を行っ
ている。また、複数の通信制御プロセッサ32の上位には
システム全体を管理する管理プロセッサ33が設けられ、
システム全体の管理を行っている。

【０００７】このような構成では回線処理プロセッサ31
の障害はその上位にある通信制御プロセッサ32によって
監視され、障害の発生が検出されると通信制御プロセッ
サ32より管理プロセッサ33に報告され、管理プロセッサ
33から他の通信制御プロセッサ32、或いは必要に応じて
各回線処理プロセッサ31に障害の発生が通知される。

【０００８】しかし、プロセッサの小型化と高性能化の
著しい進展に伴い、最近ではこれまで通信制御プロセッ
サや管理プロセッサによって行われていたシステムの共
通的な処理が回線処理プロセッサに移されるようになっ
てきている。

【０００９】図21の(2) はこのような上位プロセッサを
持たないシステムの構成の一例を示している。図示のよ
うに、このシステムは処理を対等に分担して行う複数の
回線処理プロセッサ34のみで構成されており、各回線処
理プロセッサ34は図21の(1)の通信制御プロセッサ22及
び管理プロセッサ23の役割をも備えたものとなってい
る。

【００１０】図21の(2) に示した回線処理プロセッサ34
のようなプロセッサ（以下、単にプロセッサと記す）か
らなるシステムにおいてプロセッサの障害を検出する方
法として、各プロセッサ34がそれぞれ他の全プロセッサ
34の障害の有無を確認する方法が従来から行われてい
る。この方法では、各プロセッサ34は他のプロセッサ34
に対して例えばヘルスチェック信号と呼ばれる障害の有
無を確認する信号を定期的に送信し、ヘルスチェック信
号を受信したプロセッサ34は正常な状態にあれば送信元
のプロセッサ34に応答信号を返送する。応答信号がない
場合にはそのプロセッサ34を障害と判定する。

【００１１】図22は以上のような従来技術のプロセッサ
障害検出方法におけるヘルスチェック信号の送受信関係
を説明する図である。同図に示すように従来技術のプロ
セッサ障害検出方法は、メッシュ状の相互監視型障害検
出方法になっているめ、プロセッサ34の台数が増加する
と各プロセッサ34間に送受信されるヘルスチェック信号
や応答信号の量は急激に増加する。このため、各プロセ
ッサ34は障害検出のための処理負担が増加し、本来行う
ことになっている処理の能力が低下し、システム全体の
処理能力も低下する。

【００１２】

【発明が解決しようとする課題】以上のように、バスに
よって互いに接続された複数のプロセッサからなるシス
テムにおける従来技術のプロセッサ障害検出方法は、各
プロセッサがメッシュ状に障害検出のための信号を送受
信するため、プロセッサが増加すると各プロセッサの障
害検出のための処理負担が急激に増加し、システム全体
の処理能力が低下すると言う問題を有している。

【００１３】本発明は、プロセッサの処理負担が少ない
障害検出方法を提供することを目的とする。

【００１４】

【課題を解決するための手段】図１及び図２は本発明の
原理説明図である。図中、10_-1〜10_-n及び20_-1〜20_-nは
バス（図示省略）によって互いに接続された複数のプロ
セッサ、11は複数のプロセッサ10_-1〜10_-nの各々に備え
られ、全プロセッサ10_-1〜10_-nの動作確認信号送出順位
と稼働状態を記憶するプロセッサ状態管理手段、21は複
数のプロセッサ20_-1〜20_-nの各々に備えられ、全プロセ
ッサ20_-1〜20_-nの動作確認情報送出順位と稼働状態を記
憶するプロセッサ状態管理手段である。また、22はプロ
セッサ20 _-1〜20_-nの障害を検出するために全プロセッサ
20_-1〜20_-n間に巡回される動作確認情報である。

【００１５】図１は、バスによって互いに接続された複
数のプロセッサ10_-1〜10_-nの各々が他のプロセッサに動
作確認信号を送出してプロセッサ障害の検出を行うプロ
セッサ障害検出方法の原理を説明する図である。

【００１６】図１においては、複数のプロセッサ10_-1〜
10_-nの各々、例えばプロセッサ10_-k（以下、プロセッサ
10_-kを個々のプロセッサを代表するプロセッサとして説
明する）について動作確認信号を送出する順位を定め、
前順位のプロセッサ10_-(k-1)より動作確認信号を受信し
たプロセッサ10_-kが次順位のプロセッサ10_-(k+1)に動作
確認信号を送出することにより動作確認信号が全プロセ
ッサ10_-1〜10_-n間を順次リング状に送信されるように構
成する。

【００１７】各プロセッサ10_-kは、前順位のプロセッサ
10_-(k-1)より動作確認信号を受信したときに正常な状態
にあれば前順位のプロセッサ10_-(k-1)に応答信号を返送
したのち、次順位のプロセッサ10_-(k+1)に動作確認信号
を送信して送信先のプロセッサ10_-(k+1)よりの応答信号
の有無を監視する。

【００１８】プロセッサ10_-kは動作確認信号の送信先プ
ロセッサ10_-(k+1)より所定の時間内に応答信号を受信し
たときは応答信号の監視を停止し、所定の時間内に応答
信号を受信しなかったときは動作確認信号送信先のプロ
セッサ10_-(k+1)が障害であると判定して自プロセッサ10
_-k内のプロセッサ状態管理手段11に記憶されている当該
プロセッサ10_-(k+1)の稼働状態を非稼働状態に変更する
とともに、障害と判定したプロセッサ10_-(k+1)を除く他
の全プロセッサ10_-1〜10_-(k-1), 10_-(k+2)〜10 _-nに対し
て障害プロセッサ10_-(k+1)の識別情報を付して障害を検
出したことを知らせる通知（以下、障害通知と記す）を
行う。

【００１９】この障害通知を受信した各プロセッサ10_-1
〜10_-(k-1), 10_-(k+2)〜10_-nは、各々、自プロセッサ内
のプロセッサ状態管理手段11に記憶されている当該プロ
セッサ10_-(k+1)の稼働状態を非稼働状態に変更する。

【００２０】非稼働状態のプロセッサが発生したのち、
次順位のプロセッサ10_-(k+1)が非稼働状態となったプロ
セッサ10_-kは、動作確認信号を送出する状態となったと
き、次順位以後において稼働状態にある最初の順位のプ
ロセッサ10_-(k+2)に対して動作確認信号を送出する。

【００２１】図２はバスによって互いに接続された複数
のプロセッサ20_-1〜20_-n間に動作確認情報22を巡回させ
てプロセッサ障害の検出を行うプロセッサ障害検出方法
の原理を説明する図である。

【００２２】図２においては、動作確認情報22内に、動
作確認情報22が全プロセッサ20_-1〜20_-n間を一巡するよ
う、各プロセッサ20_-kが受信した動作確認情報22の送信
先プロセッサ20_-(k+1)を指定しておく。

【００２３】複数のプロセッサ20_-1〜20_-nの各々、例え
ばプロセッサ20_-k（以下、プロセッサ20_-kを個々のプロ
セッサを代表するプロセッサとして説明する）は、前順
位のプロセッサ20_-(k-1)より動作確認情報22を受信した
ときに正常な状態にあればその動作確認情報22に指定さ
れている送信先プロセッサ20_-(k+1)にその動作確認情報
22を送信するとともに、その動作確認情報22が他の全プ
ロセッサ20_-(k+1)〜20 _-(k-1)) を一巡して自プロセッサ
20_-kに戻るまでの時間を監視する。

【００２４】プロセッサ20_-kは、動作確認情報22を送出
してから所定の時間内にその動作確認情報22を再び受信
したときは時間の監視を停止し、所定の時間内に動作確
認情報22を受信しなかったときは他の全プロセッサ20_-1
〜20_-(k-1), 20_-(k+1)〜20_-nに対して障害プロセッサ確
認のための情報であることを識別する情報を付した第２
の動作確認情報（図示省略）22認用情報を送信して送信
先のプロセッサが正常な状態にあるときに返送される応
答を待つ。

【００２５】第２の動作確認情報を受信した各プロセッ
サ20_-1〜20_-(k-1),20_-(k+1)〜20_-nは、正常な状態にあ
ればその第２の動作確認情報中に指定された送信先プロ
セッサ、即ち、第２の動作確認情報の送信元プロセッサ
20_-kに対してその第２の動作確認情報を返送（送信）す
る。

【００２６】第２の動作確認情報の送信元プロセッサ20
_-kは、その第２の動作確認情報を返送しないプロセッサ
（プロセッサ20_-(k+1)とする）があると、そのプロセッ
サ20 _-(k+1)が障害であると判定して自プロセッサ20_-k内
のプロセッサ状態管理手段21に記憶されている当該プロ
セッサ20_-(k+1)の稼働状態を非稼働状態に変更するとと
もに、障害と判定したプロセッサ20_-(k+1)を除く他の全
プロセッサ20_-1〜20_-( _k-1), 20_-(k+2)〜20_-nに対して障
害と判定したプロセッサ20_-(k+1)の識別情報を付して障
害通知を行う。

【００２７】障害通知を受信した各プロセッサ20_-1〜20
_-(k-1),20_-(k+2)〜20_-nは、各々、自プロセッサ内のプ
ロセッサ状態管理手段21に記憶されている当該プロセッ
サ20 _-(k+1)の稼働状態を非稼働状態に変更する。

【００２８】障害通知を受信したときに巡回中の動作確
認情報22を受信しているプロセッサは、その動作確認情
報22中で送信先プロセッサとして指定されている障害と
判定されたプロセッサ20_-(k+1)をそのプロセッサの次順
位のプロセッサ20_-(k+2)に変更したのち、その動作確認
情報22を指定された送信先プロセッサに送信する。

【００２９】以上のように、図１においては、各プロセ
ッサ10_-kはプロセッサ障害の有無を確認するための動作
確認信号を前順位のプロセッサ10_-(k-1)より受信したと
きに正常状態にあれば応答信号を返し、次いで次順位の
プロセッサ10_-(k+1)に動作確認信号を送信し、送信先の
プロセッサ10_-(k+1)より応答があるか否かによって送信
先プロセッサ10_-(k+1)の障害検出を行う。

【００３０】また、図２においては、各プロセッサ20_-k
はプロセッサの監視を行う場合に前順位のプロセッサ20
_-(k-1)より動作確認情報22を受信したときに正常状態に
あればその動作確認情報22を次順位のプロセッサ20
_-(k+1)に送出し、送出してからその動作確認情報22が他
の全プロセッサ20_-(k+1)〜20_-(k-1)を一巡して自プロセ
ッサ20_-kに戻るまでの時間を監視することによって、他
のプロセッサ20_-(k+1)〜20 _-(k-1)の障害の有無を検出す
る。障害が検出された場合、障害を検出したプロセッサ
は第２の動作確認情報を各プロセッサに送信してその返
送の有無によって障害プロセッサを特定する。

【００３１】図１及び図２の何れの方法も各プロセッサ
10_-kは定められた前順位のプロセッサ10_-(k-1)より動作
確認信号または動作確認情報22を受信したときに、定め
られた後位のプロセッサ10_-(k+1)のみに対して動作確認
信号または動作確認情報22を送信するようになってい
る。

【００３２】

【作用】図１のプロセッサ障害検出方法においては、各
プロセッサ10_-kは前順位のプロセッサ10_-(k-1)より動作
確認信号を受信したときに正常状態にあれば応答信号を
返したのち、次順位のプロセッサ10_-(k+1)に動作確認信
号を送信し、送信先のプロセッサ10_-(k+1)より応答があ
るか否かによって送信先プロセッサ10_-(k+1)の障害検出
を行う。即ち、各プロセッサは複数のプロセッサのう
ち、予め定められた前順位と次順位のプロセッサとの間
で動作確認信号の送受信と応答信号の送受信を行うのみ
でプロセッサ障害を検出するので、プロセッサの数が多
くなっても各プロセッサにおける障害検出のための処理
が増加することがない。

【００３３】また、図２のプロセッサ障害検出方法にお
いては、各プロセッサ20_-kは前位のプロセッサ20_-(k-1)
より動作確認情報22を受信したときにその動作確認情報
22を次順位のプロセッサ20_-(k+1)に送信し、送信してか
らその動作確認情報22が他の全プロセッサ20_-(k+1)〜20
_-(k-1)を一巡して自プロセッサ20_-kに戻るまでの時間を
監視し、所定の時間内に動作確認情報22が返送されてこ
なかった場合に他のプロセッサ20_-(k+1)〜20_-(k-1)のい
ずれかに障害があると判断するため、図１と同様、プロ
セッサの数が多くなっても各プロセッサがプロセッサ障
害の有無を監視するための処理が増加することがない。

【００３４】また、障害があると判断したときは、その
判断を行ったプロセッサから全プロセッサに確認のため
の第２の動作確認情報を送って応答のないプロセッサを
障害プロセッサと判定するが、この処理は複数のプロセ
ッサのいずれかに障害が発生したときのみ、複数のプロ
セッサのひとつによって行われるものであるため、その
処理がシステム全体の処理能力に影響を及ぼすことは殆
どない。

【００３５】図１及び図２から明らかなように、図１及
び図２の方法はリング型障害検出方法であり、従来技術
において説明したメッシュ状の相互監視型障害検出方法
と異なり、各プロセッサが障害検出を行う相手のプロセ
ッサはそれぞれ１台に限定されるため、プロセッサの台
数が増加しても各プロセッサの障害検出のための処理負
担が増加することがなく、システム全体の処理能力が低
下することがない。

【００３６】

【実施例】図３は本発明の実施例プロセッサ状態管理テ
ーブル構成説明図、図４乃至図11は本発明の図１の原理
（以下、応答監視型と記す）に基づくプロセッサ障害検
出方法の実施例を示し、図４乃至図６は本発明の実施例
情報送受信経路説明図（応答監視型）、図７乃至図９は
本発明の実施例情報送受信シーケンス図（応答監視
型）、図10及び図11は本発明の実施例動作フロー図（応
答監視型）である。

【００３７】図12乃至図20は本発明の図２の原理（以
下、巡回型と記す）に基づくプロセッサ障害検出方法の
実施例を示し、図12及び図13は本発明の実施例ヘルスチ
ェックリスト構成説明図、図14乃至図17は本発明の実施
例情報送受信経路説明図（巡回型）、図18乃至図20は本
発明の実施例情報送受信シーケンス図（巡回型）であ
る。

【００３８】全図を通じ、同一符号は同一対象物を示
し、10_-1〜10_-6及び20_-1〜20_-6はプロセッサ、11及び21
はプロセッサ状態管理テーブル、22はヘルスチェックリ
ストである。なお、プロセッサ状態管理テーブル11, 12
はそれぞれ図１及び図２におけるプロセッサ状態記憶手
段11, 12の実現形態、ヘルスチェックリスト22は図２に
おける動作確認情報22の実現形態である。

【００３９】各図におけるプロセッサ10_-1〜10_-6及びプ
ロセッサ20_-1〜20_-6は例えば図21の(2) の回線処理プロ
セッサ34のように、互いにバス（図示省略）によって接
続された複数のプロセッサである。上記各図にはそれぞ
れ６台のプロセッサを図示しているが、以下、説明の便
からプロセッサ10_-1〜10_-6及びプロセッサ20_-1〜20_-6に
同一のプロセッサ番号Ｐ₁〜Ｐ₆を付与し、プロセッサ
10_-1〜10_-6及びプロセッサ20_-1〜20_-6をプロセッサＰ₁
〜Ｐ₆と記す。

【００４０】最初に図３乃至図16により本発明における
応答監視型のプロセッサ障害検出方法の実施例を説明す
る。応答監視型のプロセッサ障害検出方法では各プロセ
ッサＰ₁〜Ｐ₆は他のプロセッサの障害を検出するため
に動作確認信号（以下、ヘルスチェック信号と記す）を
送出し、そのヘルスチェック信号に対して相手プロセッ
サから応答があるか否かによって相手プロセッサの障害
の有無を判定するが、本発明による応答監視型のプロセ
ッサ障害検出方法ではヘルスチェック信号を受信する相
手のプロセッサと、ヘルスチェック信号を送信する相手
のプロセッサはそれぞれ１台に限られ、全プロセッサＰ
₁〜Ｐ₆がリング状に順次ヘルスチェック信号の送受信
を行うようになっている。

【００４１】このため、本発明では全プロセッサＰ₁〜
Ｐ₆のヘルスチェック信号の送出順序を予め定めて各プ
ロセッサＰ₁〜Ｐ₆に備えられるプロセッサ状態管理テ
ーブル11に記憶させ、各プロセッサＰ₁〜Ｐ₆は前順位
のプロセッサよりヘルスチェック信号を受信するとその
プロセッサに対して応答信号を返送したのち、次順位の
プロセッサにヘルスチェック信号を送出するようにして
いる。

【００４２】図３にはプロセッサ状態管理テーブル11の
記憶内容の一例が図示されている。図３に示されている
ように、プロセッサ状態管理テーブル11には全プロセッ
サＰ ₁〜Ｐ₆の番号が記憶され、各プロセッサＰ₁〜Ｐ
₆のヘルスチェック信号の送出順位が指定されている。
図３ではプロセッサＰ₁からプロセッサＰ₆まで番号順
にヘルスチェック信号の送信が行われる例を示してい
る。また、プロセッサ状態管理テーブル11のプロセッサ
状態の欄には各プロセッサＰ₁〜Ｐ₆が正常に動作して
いるか否かが記憶されているが、図３の(1) では全プロ
セッサＰ₁〜Ｐ₆がすべて稼働状態にある例が示されて
いる。

【００４３】図４はプロセッサ状態管理テーブル11の記
憶内容が図３の(1) である場合、即ち、全プロセッサＰ
₁〜Ｐ₆が稼働中であり、ヘルスチェック信号の送出順
序がプロセッサの番号順となっている場合におけるヘル
スチェック信号と応答信号が送受信される経路を示して
いる。この例ではプロセッサＰ₁が最初にヘルスチェッ
ク信号を送出するが、その送出時期はタイマなど公知の
技術を用いて設定するものとする。

【００４４】いま、プロセッサＰ₁よりヘルスチェック
信号がプロセッサＰ₂に対して送出されたものとする
と、プロセッサＰ₂は予め定められているヘルスチェッ
ク信号を受信したときに行う処理を実行し、正常に処理
を終わるとプロセッサＰ₁に対して応答信号を返送す
る。なお、ヘルスチェック信号及び応答信号は図示省略
されたバスを介して送受信される。

【００４５】次いでプロセッサＰ₂は自プロセッサ内に
記憶しているプロセッサ状態管理テーブル11に指定され
ている次順位のプロセッサＰ₃に対してヘルスチェック
信号を送信する（次順位のプロセッサの選別方法は後
述）。プロセッサＰ₃も正常であれば応答信号が返送さ
れ、以下、障害がなければ各プロセッサＰ₃〜Ｐ₆にお
いても同様の処理が行われる。これにより、全プロセッ
サＰ₁〜Ｐ₆に障害がないことが確認される。

【００４６】図７はヘルスチェック信号と応答信号の送
受信シーケンスを示している。ヘルスチェック信号の送
出順位が最初となっているプロセッサＰ₁は、最後のプ
ロセッサＰ₆からヘルスチェック信号を受信して応答信
号を返送したのち、引き続いて次順位のプロセッサＰ₂
に対してヘルスチェック信号を送出するか、タイマ（図
示省略）などにより時間を置いてから改めて次のヘルス
チェック信号を送出するかはシステムによって任意に設
定できるが、図７には引き続いてヘルスチェック信号の
送出を行う例を図示している。

【００４７】次に、プロセッサＰ₁〜Ｐ₆の何れか１
つ、例えばプロセッサＰ₄に障害が発生した場合につい
て説明する。図５はその状態を図示したものであるが、
この場合は図示のように、プロセッサＰ₃がプロセッサ
Ｐ₄に対してヘルスチェック信号を送出したときにプロ
セッサＰ₄より応答信号が返送されない。前記したよう
に、各プロセッサＰ₁〜Ｐ₆はヘルスチェック信号を送
出したときに応答監視用のタイマ（図示省略）を起動
し、そのタイマがタイムアウトする前に送信先のプロセ
ッサより応答信号を受信したときは相手プロセッサが正
常であるとしてタイマを停止し、応答信号が返送されず
にタイムアウトとなったときは相手プロセッサが障害で
あると判定する。

【００４８】プロセッサＰ₃はプロセッサＰ₄より応答
がないことによりプロセッサＰ₄が障害であると判定す
ると、自プロセッサＰ₃内のプロセッサ状態管理テーブ
ル11のプロセッサＰ₄の状態を「稼働中」から「非稼
働」に変更するとともに、稼働中の他の全プロセッサＰ
₁〜Ｐ₂，Ｐ₅〜Ｐ₆に対してプロセッサＰ₄が障害で
あることを通知する（図５に点線で示す）。

【００４９】障害通知を受けた各プロセッサＰ₁〜
Ｐ₂，Ｐ₅〜Ｐ₆はそれぞれ自プロセッサ内のプロセッ
サ状態管理テーブル11のプロセッサＰ₄の状態を非稼働
に変更する。これによって、プロセッサＰ₁〜Ｐ₃，Ｐ
₅〜Ｐ₆のプロセッサ状態管理テーブル11のプロセッサ
Ｐ₄の状態はすべて非稼働に変更されるが、図３の(2)
はその状態を示している。

【００５０】上記の障害通知の処理が終了すると再びヘ
ルスチェック信号の送信が開始されるが、次順位のプロ
セッサが非稼働状態となっているプロセッサはヘルスチ
ェック信号をその次のプロセッサに送信するようになっ
ている。上記の例ではプロセッサＰ₃は次順位のプロセ
ッサＰ₄が非稼働状態になっている間はその次の順位の
プロセッサＰ₅に対してヘルスチェック信号を送出する
（詳細は後述）。

【００５１】図８は以上の情報送受信シーケンスを示し
ている。図はプロセッサＰ₃内に設定される応答監視用
のタイマの時限がｔ₁秒であり、プロセッサＰ₃がプロ
セッサＰ₄の障害通知の終了に引き続いてプロセッサＰ
₅に対してヘルスチェック信号を送信する例を示してい
る。なお、図８における「障害通知（Ｐ₄）」はプロセ
ッサＰ₄の障害を検出したことを通知する障害通知であ
ることを示しているが、各プロセッサＰ₁〜Ｐ₂，Ｐ₅
〜Ｐ₆に対する障害通知の順序は一例を示すものであ
り、図示のものに限られない。

【００５２】次に、プロセッサＰ₄の障害が回復し、再
びシステムに組み込まれる場合について説明する。図６
はプロセッサＰ₄を組み込む前の信号送受信状態を示し
ているが、図中に実線で示したように、プロセッサＰ₃
はプロセッサＰ₅に対してヘルスチェック信号を送出し
ている。この状態でプロセッサＰ₄の障害が回復し、シ
ステムに組み込める状態になると、プロセッサＰ₄より
各プロセッサＰ₁〜Ｐ ₃，Ｐ₅〜Ｐ₆に対して組み込み
通知を行う（図６に点線で示す）。

【００５３】組み込み通知を受けた各プロセッサＰ₁〜
Ｐ₃，Ｐ₅〜Ｐ₆はそれぞれ自プロセッサ内のプロセッ
サ状態管理テーブル11のプロセッサＰ₄の状態を「非稼
働」から「稼働中」に変更する。これによって、全プロ
セッサＰ₁〜Ｐ₆のプロセッサ状態管理テーブル11のプ
ロセッサＰ₄の状態はすべて非稼働に変更され、図３の
(2) の状態から同図(1) の状態に戻り、以後、ヘルスチ
ェック信号の送受信は図４及び図７におけると同様、プ
ロセッサＰ₄を含めて行われる。

【００５４】図９は以上の組み込み前後の信号送受信シ
ーケンスを示しているが、図ではプロセッサＰ₅がプロ
セッサＰ₆との間でヘルスチェック信号の送信と応答が
行われた直後に組み込み通知が行われた例を示してい
る。この場合は、組み込み通知の処理が終わるとプロセ
ッサＰ₆よりプロセッサＰ₁に対するヘルスチェック信
号の送信からヘルスチェックが再開される。

【００５５】次に各プロセッサＰ₁〜Ｐ₆のヘルスチェ
ック動作の詳細について図10及び図11により説明する。
図10はヘルスチェック信号を送出する場合の動作フロ
ー、図11はヘルスチェック信号を受信した場合の動作フ
ローを示しているが、説明の便から、図11から説明す
る。なお、図10及び図11は何れもプロセッサＰ_k（ｋ＝
１〜６）における処理の例を示すものとする。また、以
下における括弧内のＳ１〜Ｓ26は図10または図11内の関
連するステップの符号である。

【００５６】図11においてプロセッサＰ_kは前順位のプ
ロセッサＰ_k-1からヘルスチェック信号を受ける（Ｓ2
1) と、所定のヘルスチェック処理を実行する（Ｓ22)
。処理結果が良好であればプロセッサＰ_k-1に対して
応答信号を返送し、図10に示すヘルスチェック信号送信
処理に移る（Ｓ23→Ｓ24→Ｓ25）。所定のヘルスチェッ
ク処理を実行したときに障害が存在すれば良好な結果が
得られないため応答信号を返送できずに処理を終わる
（Ｓ23→Ｓ26）。

【００５７】次に、プロセッサＰ_kがヘルスチェック信
号を送信する場合の動作を図10により説明する。ヘルス
チェック信号を送信する状態になると、プロセッサＰ_k
は図示省略されたカウンタの数値ｘに“０”を設定（初
期化）し（Ｓ１) 、次いでカウンタの数値に“１”を加
える（Ｓ２) 。

【００５８】次に、プロセッサ状態管理テーブル11にア
クセスし、自プロセッサＰ_kの番号である“ｋ”に前記
の“ｘ”を加えた“ｋ＋ｘ”をインデックスとしてプロ
セッサ状態管理テーブル11に記憶されている情報（以
下、データと記す）を読み取る（Ｓ３) 。なお、この状
態の図10のＳ２ではｘ＝１であるため、使用するインデ
ックス“ｋ＋ｘ”は“ｋ＋１”となるが、以下、図３を
用いてプロセッサ状態管理テーブル11の読み取り処理に
ついて説明する。

【００５９】図３に示すようにプロセッサ状態管理テー
ブル11にはインデックスが付してあるが、図３の(1) で
はヘルスチェック信号送出順位がプロセッサの番号順に
なっているため、プロセッサＰ_kのプロセッサ状態管理
テーブル11のインデックス“ｋ＋１”は自プロセッサＰ
_kの次順位のプロセッサＰ_k+1を示している。例えば、
プロセッサＰ_kをプロセッサＰ₃とすると、ｋ＝３とな
り、インデックスは（ｋ＋１）＝４となるため、プロセ
ッサＰ₃はプロセッサ状態管理テーブル11のインデック
ス４にアクセスしてそのデータを読むことになる。ここ
で読み出されるプロセッサがヘルスチェック信号の送信
先となるが、そのプロセッサは自プロセッサＰ₃の次順
位のプロセッサＰ₄であることが確認され、かつ、その
プロセッサＰ₄は稼働中であることも判る。

【００６０】以下、図10に戻って説明する。以上により
次順位のプロセッサがプロセッサＰ _k+x（この場合はＰ
_k+1）であり、稼働中であることが確認されると、プロ
セッサＰ_kは応答監視タイマ（図示省略）に例えばｔ₁
秒を設定（Ｓ４→Ｓ５) したのち、プロセッサＰ_k+1に
ヘルスチェック信号を送出し（Ｓ６) 、同時に応答監視
タイマの計数を開始する（Ｓ７) 。

【００６１】ｔ₁秒が経過しないうち、即ち、応答監視
タイマがタイムアウトにならないうちにプロセッサＰ
_k+1より応答信号を受信した場合は次順位のプロセッサ
Ｐ_k+1は正常であると判定し、応答監視タイマの計数を
停止してヘルスチェック信号の送信処理を終わる（Ｓ
８，Ｓ９）。これにより、次順位プロセッサの障害検出
処理が終わることになる。もし、ｔ₁秒が経過しても応
答信号を受信しない場合は、応答監視タイマがタイムア
ウトとなるので、プロセッサＰ_kは次順位のプロセッサ
Ｐ_k+1が異常であると判定し、自プロセッサ内のプロセ
ッサ状態管理テーブル11のプロセッサＰ_k+ _x（この場合
はＰ_k+1）の状態を「非稼働」に変更する（Ｓ10) 。次
いで、プロセッサＰ_kはプロセッサ状態管理テーブル11
により稼働状態にあるプロセッサを確認し、稼働中の全
プロセッサに対してプロセッサＰ_k+xが非稼働状態にあ
ることを通知する（Ｓ11) 。

【００６２】以上の障害通知を終わると、プロセッサＰ
_kはカウンタの数値ｘに“１”を加え（Ｓ２) 、前と同
じ送信処理を行う。これにより、プロセッサＰ_kはプロ
セッサＰ_k+1の次の順位にあるプロセッサＰ_k+2に対し
てヘルスチェック信号の送出を行うことになる。

【００６３】次に、図３と図12乃至図20により本発明に
おける巡回型のプロセッサ障害検出方法の実施例を説明
する。巡回型のプロセッサ障害検出方法では各プロセッ
サＰ ₁〜Ｐ₆は他のプロセッサより動作確認情報22（以
下、ヘルスチェックリストと記す）を受信するとそのヘ
ルスチェックリスト22に指定されているプロセッサに送
出し、送出後一定時間以内にそのヘルスチェックリスト
22が全プロセッサＰ₁〜Ｐ₆を巡回して再び自プロセッ
サに戻ってきたか否かにより他プロセッサの中に異常な
プロセッサがあるか否かを判定する。

【００６４】上記のヘルスチェックリスト22はそのヘル
スチェックリスト22を送信するプロセッサにより作成さ
れるが、図12及び図13にヘルスチェックリスト22の構成
の実施例を示す。ヘルスチェックリスト22には２種類が
あり、ひとつは図12の(1) 〜(3) に示す通常モードのヘ
ルスチェックリストで、障害の有無を確認するために巡
回させるヘルスチェックリストである。他は図13の(1)
に示す障害モードのヘルスチェックリストで、障害プロ
セッサが存在することが確認された場合に、障害プロセ
ッサを特定させるために障害の存在を検出したプロセッ
サから他の全プロセッサに対して送信されるものであ
る。

【００６５】図12及び図13に示すように、通常モードの
ヘルスチェックリスト22はモードの欄に通常モードであ
ることを示す情報が記憶され、障害モードのヘルスチェ
ックリスト22はモードの欄に障害モードであることを示
す情報が記憶される。なお、以上における障害モードの
ヘルスチェックリスト22は図２の説明において第２の動
作確認情報と記載されたものに相当する。図２の説明で
は図２に図示された動作確認情報22と区別するため第２
の動作確認情報については符号を付していなかったが、
以下においては障害モードのヘルスチェックリストにつ
いても通常モードのヘルスチェックリスト22と同一の符
号22を使用する。

【００６６】通常モード及び障害モードのヘルスチェッ
クリスト22の何れにも、受信プロセッサ番号、即ち、ヘ
ルスチェックリスト22を受信したプロセッサの番号と、
送信先プロセッサ番号、即ち、ヘルスチェックリスト22
を受信したプロセッサがそのヘルスチェックリスト22を
送信する相手のプロセッサの番号を記憶する箇所が設け
られている。

【００６７】以下、巡回型のプロセッサ障害検出方法の
動作を上記各図及び図３を用いて説明する。巡回型のプ
ロセッサ障害検出方法においては各プロセッサ内に、全
プロセッサＰ₁〜Ｐ₆のヘルスチェックリスト22の送出
順位と稼働状態を記憶するプロセッサ状態管理テーブル
21が備えられる。図３はプロセッサ状態管理テーブル11
とプロセッサ状態管理テーブル21の構成を説明する図で
あるが、両者は、応答監視型のプロセッサ状態管理テー
ブル11がヘルスチェック信号の送出順位を設定するのに
対して巡回型のプロセッサ状態管理テーブル21ではヘル
スチェックリスト22の送出順位を設定する点が異なるの
みであり、内容的に大差はないのでプロセッサ状態管理
テーブル21の構成については詳細説明を省略する。

【００６８】最初に、全プロセッサＰ₁〜Ｐ₆が正常に
動作している状態で通常モードのヘルスチェックリスト
22を巡回させる場合の動作を説明する。この場合は各プ
ロセッサＰ₁〜Ｐ₆に記憶されているプロセッサ状態管
理テーブル21には図３の(1)に図示されているように全
プロセッサＰ₁〜Ｐ₆が稼働中であることが記憶され、
同時にヘルスチェックリスト22がプロセッサＰ₁より番
号順に送出されることが示されている。

【００６９】通常モードのヘルスチェックリスト22の送
出は各プロセッサから特定の条件或いは任意に行うこと
も可能であるが、プロセッサ状態管理テーブル11におい
て送出順位が１番となっているプロセッサＰ₁から行う
のが最も一般的であるので、プロセッサＰ₁がヘルスチ
ェックリスト22を作成する例について説明する。なお、
ヘルスチェックリスト22は他のプロセッサ間を転送され
るときはデータ・フレームの形式となっているため、ヘ
ルスチェックリスト・フレームと呼ぶのが適当である
が、以下においてはプロセッサ内に記憶されている状態
のヘルスチェックリストも、データとして転送されてい
る状態のヘルスチェックリストも区別することなく、ヘ
ルスチェックリストと記す。

【００７０】上記においてプロセッサＰ₁が作成するヘ
ルスチェックリスト22は全プロセッサＰ₁〜Ｐ₆に巡回
させるヘルスチェックリストであるため、モード欄に
「通常モード」を示す所定のコードを設定し、プロセッ
サ状態管理テーブル21の指定に従ってヘルスチェックリ
スト22を巡回させるよう、受信プロセッサ番号と送信先
プロセッサ番号を図12の(1) の記載されているようにプ
ロセッサ番号を記憶させる。

【００７１】ヘルスチェックリスト22を作成するとプロ
セッサＰ₁は、自プロセッサに関するデータが記憶され
ているインデックス“１”（インデックスの数字は受信
プロセッサ番号と一致するものとする）のデータを読み
出して送信先プロセッサの番号がＰ₂であることを確認
するとともに、プロセッサ状態管理テーブル21によって
プロセッサＰ₂が稼働中であるか否かを確認する。

【００７２】プロセッサＰ₁はプロセッサＰ₂が稼働中
であることを確認すると、作成したヘルスチェックリス
ト22をプロセッサＰ₂に送信する。また、このとき巡回
時間監視タイマ（図示省略）に時間を設定して起動させ
る。この場合に設定される時間は、異常がない場合にヘ
ルスチェックリスト22が全プロセッサＰ₁〜Ｐ₆を一巡
して自プロセッサＰ₁に戻るまでの時間を或る程度の余
裕をもってカバーする時間とする。なお、ヘルスチェッ
クリスト22も図示省略されたバスを介して送信される。

【００７３】プロセッサＰ₂はプロセッサＰ₁からヘル
スチェックリスト22を受信すると、受信したヘルスチェ
ックリスト22の受信プロセッサ番号を検索し、自プロセ
ッサＰ₂の番号が記載されているデータの内容を読み取
る。この場合は図12の(1) のインデックス“２”のデー
タが読み取られるが、受信したヘルスチェックリスト22
が通常モードのものであり、その送信先がプロセッサＰ
₃であることが確認されるので、プロセッサＰ₂は受信
したヘルスチェックリスト22をプロセッサＰ₃に対して
送信する。このとき、プロセッサＰ₂においても巡回時
間監視タイマ（図示省略）に時間を設定して起動する。
なお、巡回型のプロセッサ障害検出方法ではヘルスチェ
ックリスト22を受信したときに送信元（受信）プロセッ
サであるプロセッサＰ₁に対して応答信号は返送しな
い。

【００７４】以下同様にして、ヘルスチェックリスト22
はプロセッサＰ₃〜Ｐ₆を巡回し、プロセッサＰ₆より
プロセッサＰ₁に対して送信される。プロセッサＰ₁は
巡回時間監視タイマに設定した時間が経過する前にこの
ヘルスチェックリスト22を受信すると巡回時間監視タイ
マを止め、巡回時間の監視を解除する。

【００７５】プロセッサＰ₁は受信したヘルスチェック
リスト22を前回と同様にして再びプロセッサＰ₂に対し
て送信するが、これを受信するとプロセッサＰ₂も自プ
ロセッサ内の巡回時間監視タイマを停止する。プロセッ
サＰ₃以下についても同様である。

【００７６】図14は以上のようにしてヘルスチェックリ
スト22が巡回する経路を図示したものであり、図18はヘ
ルスチェックリスト22の巡回動作のシーケンスを図示し
たものであるが、何れも特に説明を要する事項がないの
で説明は省略する。

【００７７】次に、プロセッサＰ₁〜Ｐ₆の何れか１
つ、例えばプロセッサＰ₄に障害が発生した場合につい
て説明する。プロセッサＰ₄に障害が発生した場合は、
図14または図18から明らかなように、ヘルスチェックリ
スト22はプロセッサＰ₃からプロセッサＰ₄に送出され
た段階で巡回が停止するので、ヘルスチェックリスト22
はプロセッサＰ₁〜Ｐ₃には戻らない。プロセッサＰ₁
〜Ｐ₃がそれぞれ自プロセッサ内の巡回時間監視タイマ
に設定した時間が同一であるとすると、３つのプロセッ
サＰ₁〜Ｐ₃の中で最も早くヘルスチェックリスト22を
送信したプロセッサＰ₁の巡回時間監視タイマが最初に
タイムアウトとなる。

【００７８】タイムアウトによりプロセッサＰ₁はプロ
セッサ障害の発生を検出するが、この時点ではどのプロ
セッサが障害であるか識別することはできないので障害
プロセッサを特定するために障害モードのヘルスチェッ
クリスト22を稼働中の全プロセッサＰ₁〜Ｐ₆に対して
送信する。この時点ではプロセッサＰ₄はまだ稼働中の
プロセッサに含まれるので、障害モードのヘルスチェッ
クリスト22は図15に示すようにプロセッサＰ₂〜Ｐ₆の
全部に送られる。なお、この障害モードのヘルスチェッ
クリスト22も図示省略されたバスを介して送られる。

【００７９】図13の(1) は障害モードのヘルスチェック
リスト22の構成を示している。この例では障害モードの
ヘルスチェックリスト22はプロセッサＰ₁において作成
されるが、図示のように、このヘルスチェックリスト22
はモード欄に「障害モード」を示す所定のコードを設定
し、受信プロセッサ番号には送信先の全プロセッサＰ ₂
〜Ｐ₆の番号を設定し、送信先プロセッサにはすべて自
プロセッサの番号であるＰ₁を設定する。

【００８０】この障害モードのヘルスチェックリスト22
は前記のようにプロセッサＰ₁より直接全プロセッサＰ
₂〜Ｐ₆に送られるが、障害モードのヘルスチェックリ
スト22を受信した各プロセッサＰ₂〜Ｐ₆は通常モード
の場合と同様に送信先プロセッサ番号に指定されたプロ
セッサにそのヘルスチェックリスト22を送信する。この
場合、送信先プロセッサはすべてプロセッサＰ₁となっ
ているため、返送されるヘルスチェックリスト22は巡回
することなく、すべて直接プロセッサＰ₁に送られる。

【００８１】プロセッサＰ₁は複数のプロセッサから返
送される障害モードのヘルスチェックリスト22を受信す
るが、障害プロセッサであるプロセッサＰ₄は障害モー
ドのヘルスチェックリスト22を受信したときもそのヘル
スチェックリスト22を送信先プロセッサに返送すること
がないので、プロセッサＰ₁はヘルスチェックリスト22
を返送してこないプロセッサＰ₄が障害プロセッサであ
ると判定する。

【００８２】図15は障害モードのヘルスチェックリスト
22が送信される経路を図示し、図19は障害モードのヘル
スチェックリスト22の送受信のシーケンスを図示したも
のである。図15及び図19に示すように、プロセッサＰ₄
のみは障害モードのヘルスチェックリスト22を返送して
いない。

【００８３】プロセッサＰ₁は障害プロセッサがプロセ
ッサＰ₄であると判定すると、プロセッサＰ₄を除く稼
働中の全プロセッサＰ₂〜Ｐ₃, Ｐ₅〜Ｐ₆に対してプ
ロセッサＰ₄が障害であることを通知する。各プロセッ
サＰ₂〜Ｐ₃, Ｐ₅〜Ｐ₆は障害通知を受信するとプロ
セッサ状態管理テーブル21のプロセッサＰ₄の状態を
「非稼働」に変更する。図16は障害通知が送信される経
路を図示したものであるが、この通知も図示省略された
バスを介して行われる。

【００８４】プロセッサＰ₁は上記の障害通知を行うと
ともに、自プロセッサ内のプロセッサ状態管理テーブル
21のプロセッサＰ₄の状態を「非稼働」に変更し、更に
通常モードのヘルスチェックリスト22を修正する。この
修正方法は図12の(2) のＡ方式と同図(3) のＢ方式の２
種類の方法があるが、システムの条件に従って何れをと
ってもよい。

【００８５】図12の(2) のＡ方式では図12の(1) におけ
るインデックス“３”の送信先プロセッサ番号を
「Ｐ₄」から「Ｐ₅」に変更する。この方法ではインデ
ックス“４”にはプロセッサＰ₄の番号が残っている
が、プロセッサＰ₃よりプロセッサＰ ₄に対してヘルス
チェックリスト22が送られなくなるので、プロセッサＰ
₄がヘルスチェックリスト22を受信するプロセッサとな
ることはないため、ヘルスチェックリスト22の巡回には
影響がない。この方法は修正が最小限になるという特徴
がある。

【００８６】一方、図12の(3) のＢ方式はヘルスチェッ
クリスト22よりプロセッサＰ₄除いてインデックスの数
を１個減らす方法である。この方法では図12の(1) にお
けるインデックス“３”の送信先プロセッサ番号をＰ₄
からＰ₅に変更するとともにインデックス“４”を削除
してインデックス“５”以降を順次繰上げた形となって
いる。この方法は、障害プロセッサＰ₄がヘルスチェッ
クリスト22から除かれるとともに、巡回するプロセッサ
の数が明確になると言う特徴がある。

【００８７】以上の処理が行われたのち、プロセッサＰ
₁から修正された通常モードのヘルスチェックリスト22
が送信される。このヘルスチェックリスト22はプロセッ
サＰ ₃まで前回と同じく巡回されるが、プロセッサＰ₃
がヘルスチェックリスト22を読み取ると送信先プロセッ
サとしてプロセッサＰ₅が指定されているため、ヘルス
チェックリスト22はプロセッサＰ₄の代わりにプロセッ
サＰ₅に送られ、以後、プロセッサＰ₅，Ｐ₆を経てプ
ロセッサＰ₁に返送される。

【００８８】次に、プロセッサＰ₄の障害が回復し、再
びシステムに組み込まれる場合について説明する。図17
はプロセッサＰ₄を組み込む前のヘルスチェックリスト
22の巡回経路を示している。図に実線で示すように、通
常モードのヘルスチェックリスト22はプロセッサＰ₄を
通らずに巡回されているが、この状態でプロセッサＰ ₄
の障害が回復し、システムに組み込める状態になると、
プロセッサＰ₄より他の全プロセッサＰ₁〜Ｐ₃，Ｐ₅
〜Ｐ₆に対して組み込み通知が行われる（図16に点線で
示す）。

【００８９】組み込み通知を受けた各プロセッサＰ₁〜
Ｐ₃，Ｐ₅〜Ｐ₆はそれぞれ自プロセッサ内のプロセッ
サ状態管理テーブル21のプロセッサＰ₄の状態を「非稼
働」から「稼働中」に変更する。これによって、全プロ
セッサＰ₁〜Ｐ₆のプロセッサ状態管理テーブル21は図
３の(2) の状態から同図(1) の状態に戻る。

【００９０】また、組み込み通知を受信したときに巡回
中の通常モードのヘルスチェックリスト22を受信してい
るプロセッサはそのヘルスチェックリスト22を送信する
前にヘルスチェックリスト22を図12の(2) または(3) か
ら(1) のように修正して次の送信先プロセッサに送信す
る。これによって、このヘルスチェックリスト22は次に
プロセッサＰ₃に巡回されたときにプロセッサＰ₅では
なくプロセッサＰ₄に対して送信されるようになる。

【００９１】図17は以上の組み込み通知が送られる経路
を図示しており、図20は組み込み通知が行われる前後の
ヘルスチェックリスト22と組み込み通知の送信シーケン
スを図示している。図20ではプロセッサＰ₆が通常モー
ドのヘルスチェックリスト22を受信した状態で組み込み
通知が行われ、組み込み通知による処理終了後にプロセ
ッサＰ₆からヘルスチェックリスト22の送信が再開され
る状態を示している。なお、図20における組み込み通知
の送信順序は一例を示したものである。

【００９２】以上、障害回復後のプロセッサの組み込み
方法を説明したが、組み込み方法として次のような別方
法（図示省略）を使用することもできる。この別方法で
は、プロセッサＰ₄から組み込み通知を受けた各プロセ
ッサＰ₁〜Ｐ₃，Ｐ₅〜Ｐ₆はプロセッサ状態管理テー
ブル21を変更したのち、通知元のプロセッサＰ₄に対し
て組み込みが終了したことを知らせる応答信号を返送す
る。

【００９３】プロセッサＰ₄は組み込み通知を行った全
プロセッサＰ₁〜Ｐ₃，Ｐ₅〜Ｐ₆から応答信号を受信
すると、自プロセッサの前順位のプロセッサＰ₃に対し
てヘルスチェックリスト22への組み込み依頼を行う。前
順位のプロセッサＰ₃はこの依頼を受けたのち、ヘルス
チェックリスト22（このとき受信するヘルスチェックリ
スト22はプロセッサＰ₄が除かれた図12の(2) または
(3) の内容となっている）を受信するとそのヘルスチェ
ックリスト22を図12の(1) の内容に修正し、送信先プロ
セッサとして新たに指定されたプロセッサＰ₄に対して
そのヘルスチェックリスト22を送信する。この別方法は
情報の送受信回数は増加するが組み込みの完了を確認し
てヘルスチェックリスト22の修正を行うため、信頼性が
高くなる。

【００９４】以上、図３〜図20により本発明の実施例を
説明したが、図３〜図20はあくまで本発明の一例を示し
たものに過ぎず、本発明が図示されたものに限定される
ものでないことは言うまでもない。

【００９５】例えば、上記においてはプロセッサに障害
が発生したことを前提として説明したが、保守点検や増
設などのために非稼動状態のプロセッサが発生したとき
にも本発明が適用できることは明らかである。

【００９６】また、図10においてはヘルスチェック信号
を送信する相手のプロセッサを確認するためにカウンタ
を用い、カウンタ値ｘと自プロセッサの番号ｋをインデ
ックスとして図３のプロセッサ状態管理テーブル11から
直接送信先プロセッサの番号Ｐ_k+xを得ていたが、次の
何れかの方法を用いることも可能である。

【００９７】第１の方法は、プロセッサ状態管理テーブ
ル11に自プロセッサのデータが記憶されている箇所のイ
ンデックス（またはアドレスでもよい）を予め知ってお
き、カウンタを用いずにプロセッサ状態管理テーブル11
にアクセスする方法である。この方法ではそのインデッ
クスを用いてプロセッサ状態管理テーブル11の自プロセ
ッサのデータを読み出す。例えば、プロセッサＰ₁の例
では自プロセッサのデータが記憶されているインデック
ス“１”にアクセスすると自プロセッサのヘルスチェッ
ク信号送出順位が“１”であることが確認できるので、
次にヘルスチェック信号送出順位が“２”であるプロセ
ッサを検索してプロセッサＰ₃を得ることができる。

【００９８】第２の方法はインデックスを使用せずに直
接プロセッサ状態管理テーブル11にアクセスし、プロセ
ッサ番号の中から自プロセッサ番号を見つける。例えば
プロセッサＰ₁の場合、プロセッサ番号の項でＰ₁を検
出できれば、以後は第１の方法と同様にしてヘルスチェ
ック信号の送出先プロセッサの番号が得られる。これら
の方法を用いても本発明の効果が変わらないことは明ら
かである。

【００９９】また、図５及び図８の障害通知、図６及び
図９の組み込み通知、図16の障害通知、図17及び図20の
組み込み通知については、通知を受けたプロセッサより
応答信号を返すようになっていないが、応答信号を返す
ようにしても本発明の効果は変わらない。

【０１００】また、以上の説明においては、巡回型のプ
ロセッサ障害検出方法におけるプロセッサ状態管理テー
ブル21は応答監視型のプロセッサ障害検出方法における
プロセッサ状態管理テーブル11と同一内容であるとした
が、巡回型のプロセッサ障害検出方法においてはヘルス
チェックリスト22に送信先のプロセッサ番号が指定され
るので、図３に示すプロセッサ状態管理テーブルのヘル
スチェックリスト送出順位を削除し、プロセッサ番号と
プロセッサ状態のみで構成し、プロセッサ状態管理テー
ブル21では各プロセッサが稼働中であるか非稼働である
かを確認するのみとすることもできる。この場合も本発
明の効果は変わらない。

【０１０１】

【発明の効果】以上説明したように、本発明によれば、
バスによって接続された複数のプロセッサが互いにプロ
セッサ障害を検出するシステムにおいて、個々のプロセ
ッサが障害の有無を確認するための情報を送受信する相
手プロセッサがそれぞれ１台に限られるため、各プロセ
ッサが他の全プロセッサとの間で障害確認のための情報
を送受信するメッシュ状の相互監視型障害検出方法に比
して各プロセッサの障害検出のための処理負担が著しく
減少する。また、プロセッサの数が増加しても各プロセ
ッサの障害検出のための処理が大きく増加することがな
いため、システム全体の処理能力を大きく低下させるこ
とがない。

【０１０２】以上により、本発明はバスに接続された複
数の処理プロセッサが分担して処理を行うシステムにお
けるプロセッサ障害検出の効率化と、かかるシステム、
特にプロセッサの数が多いシステムの処理能力の向上に
大きく貢献する。

【図面の簡単な説明】

【図１】本発明の原理説明図（１）

【図２】本発明の原理説明図（２）

【図３】本発明の実施例プロセッサ状態管理テーブル
構成説明図

【図４】本発明の実施例情報送受信経路説明図（応答
監視型−１）

【図５】本発明の実施例情報送受信経路説明図（応答
監視型−２）

【図６】本発明の実施例情報送受信経路説明図（応答
監視型−３）

【図７】本発明の実施例情報送受信シーケンス図（応
答監視型−１）

【図８】本発明の実施例情報送受信シーケンス図（応
答監視型−２）

【図９】本発明の実施例情報送受信シーケンス図（応
答監視型−３）

【図10】本発明の実施例動作フロー図（応答監視型−
１）

【図11】本発明の実施例動作フロー図（応答監視型−
２）

【図12】本発明の実施例ヘルスチェックリスト構成説
明図（１）

【図13】本発明の実施例ヘルスチェックリスト構成説
明図（２）

【図14】本発明の実施例情報送受信経路説明図（巡回
型−１）

【図15】本発明の実施例情報送受信経路説明図（巡回
型−２）

【図16】本発明の実施例情報送受信経路説明図（巡回
型−３）

【図17】本発明の実施例情報送受信経路説明図（巡回
型−４）

【図18】実施例情報送受信シーケンス図（巡回型−
１）

【図19】実施例情報送受信シーケンス図（巡回型−
２）

【図20】実施例情報送受信シーケンス図（巡回型−
３）

【図21】システム構成図

【図22】従来技術のプロセッサ障害検出方法説明図

【符号の説明】

10_-1〜10_-n、20_-1〜20_-n プロセッサ 11、21 プロセッサ状態管理手段 22 動作確認情報

Claims

【特許請求の範囲】

【請求項１】バスによって互いに接続された複数のプ
ロセッサ（10_-1〜10 _-n）の各々が他のプロセッサに動作
確認信号を送出してプロセッサの障害検出を行うプロセ
ッサ障害検出方法であって、前記複数のプロセッサ（10_-1〜10_-n）の各々について前
記動作確認信号を送出する順位を定め、前順位のプロセ
ッサ（10_-(k-1)) より動作確認信号を受信したプロセッ
サ（10_-k）が次順位のプロセッサ（10_-(k+1)）に動作確
認信号を送出することにより動作確認信号が全プロセッ
サ（10_-1〜10_-n）間を順次リング状に送信されるように
構成し、前記複数のプロセッサ（10_-1〜10_-n）の各プロセッサ
（10_-k）は、前記全プロセッサ（10_-1〜10_-n）の動作確
認信号送出順位と稼働状態を記憶するプロセッサ状態管
理手段(11)を備え、かつ、前順位のプロセッサ（10_-(k-1)）より動作確認信号を受
信したときに正常な状態にあれば該前順位のプロセッサ
（10_-(k-1)) に応答信号を返送したのち、次順位のプロ
セッサ（10_-(k+1)) に動作確認信号を送信して送信先プ
ロセッサ（10_-( _k+1)) よりの応答信号の有無を監視し、前記送信先プロセッサ（10_-(k+1)) より所定の時間内に
応答信号を受信したときは前記の監視を停止し、所定の
時間内に応答信号を受信しなかったときは該送出先プロ
セッサ（10_-(k+1)) が障害であると判定して自プロセッ
サ（10_-k）内の前記プロセッサ状態管理手段(11)に記憶
されている当該プロセッサ（10_-(k+1))の稼働状態を非
稼働状態に変更するとともに、障害と判定したプロセッ
サ（10_-( _k+1)) を除く他の全プロセッサ（10_-1〜10
_-(k-1), 10_-(k+2)〜10_-n）に対して障害と判定したプロ
セッサ（10_-(k+1)）の識別情報を付して障害通知を行
い、該障害通知を受信した各プロセッサ（10_-1〜10_-(k-1),
10_-(k+2)〜10_-n）は、各々、自プロセッサ内の前記プロ
セッサ状態管理手段(11)に記憶されている当該プロセッ
サ（10_-(k+1)) の稼働状態を非稼働状態に変更し、次順位のプロセッサ（10_-(k+1)) が非稼働状態となった
プロセッサ（10_-k）は、動作確認信号を送出する状態と
なったとき、次順位以後において稼働状態にある最初の
順位のプロセッサ（10_-(k+2)) に対して動作確認信号を
送出することを特徴とするプロセッサ障害検出方法。
【請求項２】バスによって互いに接続された複数のプ
ロセッサ（20_-1〜20 _-n）間に動作確認情報(22)を巡回さ
せてプロセッサ障害の検出を行うプロセッサ障害検出方
法であって、前記動作確認情報(22)内に、該動作確認情報(22)が前記
全プロセッサ（20_-1〜20_-n）間を一巡するよう、各プロ
セッサ（20_-k）が受信した動作確認用情報(22)の送信先
プロセッサ（20_-(k+1)) を指定し、前記複数のプロセッサ（20_-1〜20_-n）の各プロセッサ
（20_-k）は、前記全プロセッサ（20_-1〜20_-n）の動作確
認情報送出順位と稼働状態を記憶するプロセッサ状態管
理手段(21)を備え、かつ、前順位のプロセッサ（20_-(k-1)) より動作確認情報(22)
を受信したときに正常な状態にあれば該動作確認情報(2
2)に指定されている送信先プロセッサ（20_-(k+ ₁₎) に該
動作確認情報(22)を送信するとともに、該動作確認情報
(22)が他の全プロセッサ（20_-(k+1)〜20_-(k-1)) を一巡
して自プロセッサ（20_-k）に戻るまでの時間を監視し、前記動作確認情報(22)を送出してから所定の時間内に該
動作確認情報(22)を再び受信したときは前記監視を停止
し、所定の時間内に前記動作確認情報(22)を受信しなか
ったときは他の全プロセッサ（20_-1〜20_-(k-1), 20
_-(k+1)〜20_-n）に対して障害プロセッサ確認のための情
報であることを識別する情報を付した第２の動作確認情
報を送信して送信先のプロセッサ（20_-1〜20_-(k-1), 20
_-(k+1)〜20_-n）が正常な状態にあるときに返送される応
答を待ち、前記第２の動作確認情報を受信した各プロセッサ（20_-1
〜20_-(k-1), 20_-(k+1)〜20_-n）は正常な状態にあれば該
第２の動作確認情報を送信先に指定された第２の動作確
認情報の送信元プロセッサ（20_-k）に対して返送し、前記第２の動作確認情報の送信元プロセッサ（20_-k）
は、該第２の動作確認情報を返送しないプロセッサ（20
_-(k+1)）があったときに該プロセッサ（20_-(k+1)) が障
害であると判定して自プロセッサ（20_-k）内の前記プロ
セッサ状態管理手段(21)に記憶されている当該プロセッ
サ（20_-(k+1)) の稼働状態を非稼働状態に変更するとと
もに、障害と判定したプロセッサ（20_-(k+1)) を除く他
の全プロセッサ（20_-1〜20_-(k-1), 20_-(k+2)〜20_-n）に
対して障害と判定したプロセッサ（20_-(k+1)) の識別情
報を付して障害通知を行い、該障害通知を受信した各プロセッサ（20_-1〜20_-(k-1),
20_-(k+2)〜20_-n）は、各々、自プロセッサ内の前記プロ
セッサ状態管理手段(21)に記憶されている当該プロセッ
サ（20_-(k+1)) の稼働状態を非稼働状態に変更し、前記障害通知を受信したときに巡回中の動作確認情報(2
2)を受信しているプロセッサは、該動作確認情報(22)中
で送信先プロセッサとして指定されている前記障害と判
定されたプロセッサ（20_-(k+1)) を該プロセッサの次順
位のプロセッサ（20_-(k+2)）に変更したのち、該動作確
認情報(22)を指定された送信先プロセッサに送信するこ
とを特徴とするプロセッサ障害検出方法。