JP3311704B2 - マルチプロセッサ通信機構の故障処理方法 - Google Patents

マルチプロセッサ通信機構の故障処理方法

Info

Publication number
JP3311704B2
JP3311704B2 JP03958399A JP3958399A JP3311704B2 JP 3311704 B2 JP3311704 B2 JP 3311704B2 JP 03958399 A JP03958399 A JP 03958399A JP 3958399 A JP3958399 A JP 3958399A JP 3311704 B2 JP3311704 B2 JP 3311704B2
Authority
JP
Japan
Prior art keywords
processor
failure
processing
inter
communication mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03958399A
Other languages
English (en)
Other versions
JP2000242617A (ja
Inventor
章仁 島村
誠 古川
昌彦 野口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP03958399A priority Critical patent/JP3311704B2/ja
Publication of JP2000242617A publication Critical patent/JP2000242617A/ja
Application granted granted Critical
Publication of JP3311704B2 publication Critical patent/JP3311704B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Computer And Data Communications (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、プロセッサ間通信
機構を持つマルチプロセッサ分散処理システムにおい
て、プロセッサ間通信機構が故障した際に、プロセッサ
間通信機構を管理するプロセッサに対して冗長な故障通
知を抑止するマルチプロセッサ通信機構の故障処理方法
に関するものである。
【0002】図3はプロセッサ間通信機構の概略を示す
図であるが、プロセッサ間通信機構(2−1)で複数の
プロセッサ(1−1〜1−n)を結合する図3に示す如
きマルチプロセッサ分散処理システムにおいて、プロセ
ッサ間通信機構が故障した際に、各プロセッサが自律で
当該故障を検出し、プロセッサ間通信機構を管理するプ
ロセッサに故障通知を何度も送信してしまう現象が発生
することがある。その場合、プロセッサ間通信機構を管
理するプロセッサに余計な負荷がかかるため、必要最小
限の故障通知にとどめることが望ましい。
【0003】
【従来の技術】図4は、従来技術の分散処理マルチプロ
セッサでのシステム構成例を示す。
【0004】図4においては、全プロセッサ(1−1〜
1−n)は、プロセッサ間通信機構(2−1)に接続す
ることにより、プロセッサ間の通信を可能とし、各プロ
セッサには、プロセッサ間故障通信手段(A−1〜A−
n)と自プロセッサ内の装置管理手段(B−1〜B−
n)を配備し、全プロセッサの共有装置であるプロセッ
サ間通信機構(2−1)の装置管理については、代表プ
ロセッサ(1−1)にプロセッサ間通信機構の装置管理
手段(C−1)を配備したシステム構成例が示されてい
る。
【0005】図5は、従来技術の分散処理マルチプロセ
ッサシステムの故障処理のシーケンスを示す。
【0006】各プロセッサは、システムを半永久的に維
持するために、通常処理による故障検出と周期的な試験
による故障検出をする。故障検出時は、以下の処理を行
う。 (3−1)故障の検出元のプロセッサで、プロセッサ間
通信機構の導通試験等による切り分けを行う。
【0007】故障の発生箇所が検出元の自プロセッサと
判定した場合、自プロセッサ内の装置管理手段Bを用い
て運用系を予備系に切り替える等の故障復旧処理を行
う。 (3−2)故障の発生箇所がプロセッサ間通信機構また
は他プロセッサと判定した場合、プロセッサ間通信機構
の管理元のプロセッサまたは故障と判定したプロセッサ
に対して、プロセッサ間故障通信手段Aを用いて故障検
出通知を行い故障復旧処理を依頼する。 (3−3)故障検出通知を受信した管理元のプロセッサ
は、自プロセッサ内の装置管理手段Bを用いて運用系を
予備系に切り替える等の故障復旧処理を行う。 (3−4)(3−5)プロセッサ間通信機構の管理元の
プロセッサ1−1が故障復旧中に、プロセッサ間通信機
構の故障復旧中のプロセッサと同一内容の故障を検出し
た場合も、プロセッサ間通信機構の管理元のプロセッサ
1−1に対して故障検出通知を行い、故障復旧処理を依
頼する。だが、上記(3−2)の故障復旧が完了するま
での間は、次の故障復旧処理は実施しない。
【0008】
【発明が解決しようとする課題】各プロセッサ各自で自
律的に故障を検出する機能を有する分散処理マルチプロ
セッサシステムに於いて、プロセッサ共有装置であるプ
ロセッサ間通信機構で故障が発生した場合、プロセッサ
各自で同一の故障を検出する可能性がある。そのため、
プロセッサ間通信機構の管理元のプロセッサ1−1に同
一の故障の通知を多発して送信してしまう。そのため、
プロセッサ間通信機構の管理元のプロセッサ1−1で
は、故障復旧の処理が一時的にさばき切れなくなり、処
理の遅延が発生する問題がある。
【0009】本発明は、管理元のプロセッサに対して故
障の通知が多発することを防止して故障処理の遅延をな
くすることを目的としている。
【0010】
【課題を解決するための手段】本発明においては、複数
のプロセッサで構成される分散マルチプロセッサ形態の
プロセッサ間通信機構の故障処理方法において、プロセ
ッサ間通信機構の故障を検出したプロセッサから故障復
旧依頼の通知をプロセッサ間通信機構の管理元のプロセ
ッサに発信し、受信した管理元のプロセッサは、自プロ
セッサに閉じて故障処理を実行し、故障処理の実行中
も、他プロセッサは処理を継続させ、管理元のプロセッ
サから故障処理完了通知を受信するまでの間、または一
定時間(最大復旧時間)内は、同一の故障を検出しない
ように例えば同一の故障を2度目以降検出しても故障検
出通知を行わないように抑止する手段を設ける。
【0011】プロセッサ間通信機構の管理元のプロセッ
サに対して、故障検出通知を発信する前に故障復旧監視
タイマを設定し、タイマが解除されるまでの間は、同一
の故障を2度目以降検出しても故障検出通知を行わない
ように抑止する。このような手段をもうけることによっ
て、同一の故障についての通知を減少させることがで
き、これによって、プロセッサ間通信機構の管理元のプ
ロセッサの処理の負荷を軽減させることが出来る。
【0012】
【発明の実施の形態】図1は、本発明の分散処理マルチ
プロセッサでのシステム構成例を示す。
【0013】図中の符号1−1はプロセッサ、2−1は
プロセッサ間通信機構、A−1はプロセッサ間通信手
段、B−1は自プロセッサ内の装置管理手段、C−1は
プロセッサ間通信機構の装置管理手段、D−1は故障復
旧完了通知処理、E−1は故障復旧監視タイマ処理を表
している。
【0014】図1において、全プロセッサ(1−1〜1
−n)は、プロセッサ間通信機構(2−1)に接続する
ことにより、プロセッサ間の通信を可能とし、各プロセ
ッサには、プロセッサ間故障通信手段(A−1〜A−
n)と自プロセッサ内の装置管理手段(B−1〜B−
n)とを配備し、全プロセッサの共有装置であるプロセ
ッサ間通信機構(2−1)の装置管理手段については、
代表プロセッサ(1−1)にプロセッサ間通信機構の装
置管理手段(C−1)を配備したシステムが例として示
されている。
【0015】図4にくらべて、図1においては、代表プ
ロセッサ(1−1)のプロセッサ間故障通信手段(A−
1)に故障復旧完了通知処理(D−1)を追加し、プロ
セッサ(1−2〜1−n)のプロセッサ間故障通信手段
(A−2〜A−n)に故障復旧監視タイマ処理(E−2
〜E−n)を追加している。
【0016】図2は、本発明を説明するための分散処理
マルチプロセッサシステムの故障処理のシーケンスを示
す。
【0017】各プロセッサは、システムを半永久的に維
持するために、通常処理による故障検出と周期的な試験
による故障検出をする。故障検出時は、以下の処理を行
う。 (5−1)故障の検出元のプロセッサで、プロセッサ間
通信機構の導通試験等による切り分けを行う。
【0018】故障の発生箇所が検出元の自プロセッサと
判定した場合、自プロセッサ内の装置管理手段Bを用い
て予備系に切り替える等の故障復旧処理を行う。 (5−2)故障の発生箇所がプロセッサ間通信機構また
は他プロセッサと判定した場合、プロセッサ間通信機構
の管理元のプロセッサまたは故障と判定したプロセッサ
に対して、プロセッサ間故障通信手段Aを用いて故障検
出通知を行い故障復旧処理を依頼する。また同時に、故
障復旧監視タイマ処理Eにおいてタイマを設定する。 (5−3)故障検出通知を受信した管理元のプロセッサ
1−1は、自プロセッサ内の装置管理手段B−1を用い
て運用系を予備系に切り替える等の故障復旧処理を行
う。 (5−4)故障検出通知をしたプロセッサは、故障復旧
監視タイマが作動している間は、通知をした同内容の故
障を検出しても、故障検出通知を送信することを抑止す
る。
【0019】故障復旧監視タイマの解除させる契機は、
故障検出通知を受信した管理元のプロセッサ1−1から
処理再開の通知を受けた場合と故障検出通知を受信した
管理元のプロセッサ1−1の故障処理が最大故障復旧時
間内に完了しなかった場合(タイムアウト)とである。 (5−5)(5−6)(5−7)故障検出通知を受信し
た管理元のプロセッサが故障復旧中に、故障検出通知を
していないプロセッサで同一の故障を検出した場合、管
理元のプロセッサに対して故障検出通知を送信し、故障
復旧監視タイマを設定する。しかし故障検出通知を受信
した管理元のプロセッサ1−1では、上記(5−2)の
故障復旧中は実施しない。 (5−8)故障検出通知を受信した管理元のプロセッサ
1−1は故障復旧の処理完了後、各プロセッサに対し
て、故障復旧完了通知を発信する。
【0020】故障復旧完了通知を受信したプロセッサ1
−2〜1−nは、故障復旧監視タイマを解除し、通常処
理を再開させる。
【0021】上記のような処理を採れば、各プロセッサ
で同一のプロセッサ間通信機構の故障検出が多発して
も、プロセッサ間通信機構の管理元のプロセッサ1−1
に必要最小限の故障検出通知だけ送信することが可能と
なる。
【0022】
【発明の効果】以上説明したように、本発明によれば、
管理元のプロセッサで故障処理中に異常が発生した場
合、管理元のプロセッサ以外のプロセッサは処理を行え
るため、代表プロセッサで故障処理中に異常が発生して
もシステムが停止することはなくなる。また、故障処理
を実行するプロセッサ以外は処理の中断がなく、各プロ
セッサで同一のプロセッサ間通信機構の故障検出が多発
しても、管理元のプロセッサに必要最小限の故障通知し
か送信しないため、管理元のプロセッサは処理の負荷が
軽減される。また、故障処理を実行しないプロセッサの
処理の遅延が少なくなるという効果が得られる。
【図面の簡単な説明】
【図1】本発明の分散処理マルチプロセッサでのシステ
ム構成例を示す図である。
【図2】本発明の分散処理マルチプロセッサでの故障処
理を示す図である。
【図3】プロセッサ間通信機構の概略を示す図である。
【図4】従来技術の分散処理マルチプロセッサでのシス
テム構成例を示す図である。
【図5】従来技術の分散処理マルチプロセッサでの故障
処理を示す図である。
【符号の説明】
1−1,1−2〜1−n プロセッサ 2−1 プロセッサ間通信機構 A−1,A−2〜A−n プロセッサ間故障通信手段 B−1,B−2〜B−n 自プロセッサ内の装置管理手
段 C−1 プロセッサ間通信機構の装置管理手段 D−1 故障復旧完了通知処理 E−2〜E−n 故障復旧監視タイマ処理
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−254910(JP,A) 特開 平4−213153(JP,A) 特開 平1−290043(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 15/16 - 15/177 G06F 11/16 - 11/20

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 複数のプロセッサで構成される分散マル
    チプロセッサ形態のプロセッサ間通信機構の故障処理方
    法において、 プロセッサ間通信機構の故障を検出したプロセッサから
    故障復旧依頼の通知をプロセッサ間通信機構の管理元の
    プロセッサに発信し、 受信した管理元のプロセッサは、自プロセッサに閉じて
    故障処理を実行し、 他プロセッサは、故障処理の実行中も処理を継続させ、
    管理元のプロセッサから故障処理完了通知を受信するま
    での間、または一定時間内は、同一の故障を2度目以降
    出しても故障検出通知を行わないようにしたことを特
    徴とするマルチプロセッサ通信機構の故障処理方法。
JP03958399A 1999-02-18 1999-02-18 マルチプロセッサ通信機構の故障処理方法 Expired - Fee Related JP3311704B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03958399A JP3311704B2 (ja) 1999-02-18 1999-02-18 マルチプロセッサ通信機構の故障処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03958399A JP3311704B2 (ja) 1999-02-18 1999-02-18 マルチプロセッサ通信機構の故障処理方法

Publications (2)

Publication Number Publication Date
JP2000242617A JP2000242617A (ja) 2000-09-08
JP3311704B2 true JP3311704B2 (ja) 2002-08-05

Family

ID=12557126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03958399A Expired - Fee Related JP3311704B2 (ja) 1999-02-18 1999-02-18 マルチプロセッサ通信機構の故障処理方法

Country Status (1)

Country Link
JP (1) JP3311704B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003015973A (ja) * 2001-07-02 2003-01-17 Canon Inc ネットワークデバイス管理装置、管理方法及び管理プログラム
DE112019007853T5 (de) * 2019-12-06 2022-08-04 Mitsubishi Electric Corporation Steuereinrichtung

Also Published As

Publication number Publication date
JP2000242617A (ja) 2000-09-08

Similar Documents

Publication Publication Date Title
US6393582B1 (en) Error self-checking and recovery using lock-step processor pair architecture
JP3253883B2 (ja) プロセスリスタート方法及びプロセス監視装置
US5590277A (en) Progressive retry method and apparatus for software failure recovery in multi-process message-passing applications
US5621885A (en) System and method for providing a fault tolerant computer program runtime support environment
CA2150059C (en) Progressive retry method and apparatus having reusable software modules for software failure recovery in multi-process message-passing applications
US5530802A (en) Input sequence reordering method for software failure recovery
US6247141B1 (en) Protocol for providing replicated servers in a client-server system
US6948092B2 (en) System recovery from errors for processor and associated components
JP2004171370A (ja) 冗長構成におけるクライアント/サーバ間のアドレス制御方式および方法
JP3311704B2 (ja) マルチプロセッサ通信機構の故障処理方法
JPH0375834A (ja) パリティの置換装置及び方法
JPH11261663A (ja) 通信処理制御手段及びそれを備えた情報処理装置
JP2956849B2 (ja) データ処理システム
US20060248531A1 (en) Information processing device, information processing method and computer-readable medium having information processing program
JP3447347B2 (ja) 障害検出方法
JP3248485B2 (ja) クラスタシステム、クラスタシステムにおける監視方式およびその方法
US7243257B2 (en) Computer system for preventing inter-node fault propagation
JPH10207849A (ja) 分散システムにおける高信頼化と負荷分散方法
JP3025732B2 (ja) 多重化コンピュータシステムの制御方式
JPH01217666A (ja) マルチプロセッサシステムの障害検出方式
JPH0652130A (ja) マルチプロセッサシステム
JP6368842B2 (ja) プロセス監視プログラム及びプロセス監視システム
JP2834062B2 (ja) 情報処理システム
KR930010292B1 (ko) 통신제어보드의 장애 진단 및 복구 방법
JP2626545B2 (ja) 耐故障コンピュータシステム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090524

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090524

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100524

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees