JP2917291B2 - Fault detection method for multiprocessor systems - Google Patents

Fault detection method for multiprocessor systems

Info

Publication number
JP2917291B2
JP2917291B2 JP1098957A JP9895789A JP2917291B2 JP 2917291 B2 JP2917291 B2 JP 2917291B2 JP 1098957 A JP1098957 A JP 1098957A JP 9895789 A JP9895789 A JP 9895789A JP 2917291 B2 JP2917291 B2 JP 2917291B2
Authority
JP
Japan
Prior art keywords
processor
operation monitoring
signal
monitoring signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1098957A
Other languages
Japanese (ja)
Other versions
JPH02279040A (en
Inventor
和男 西大
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP1098957A priority Critical patent/JP2917291B2/en
Publication of JPH02279040A publication Critical patent/JPH02279040A/en
Application granted granted Critical
Publication of JP2917291B2 publication Critical patent/JP2917291B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Small-Scale Networks (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明はバスに結合された複数のプロセッサの個々
の障害発生を自動的に検出するマルチプロセッサシステ
ムの障害検出方式に関する。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a fault detection method for a multiprocessor system that automatically detects the occurrence of a fault in each of a plurality of processors coupled to a bus.

〔従来の技術〕[Conventional technology]

従来のマルチプロセッサシステムの障害検出方式は、
システム内に各プロセッサの動作状態を管理するマスタ
プロセッサを持ち、このマスタプロセッサから他の総て
のプロセッサに対して順次動作監視信号を送信して応答
信号の返信を監視し、所定時間内に応答信号を受信でき
なかった場合にそのプロセッサを障害と判断することで
システム内の全プロセッサの障害発生を検出する方式と
なっていた。
Conventional multiprocessor system fault detection methods are:
The system has a master processor that manages the operating state of each processor. This master processor sequentially sends operation monitoring signals to all other processors, monitors the response signal response, and responds within a predetermined time. If a signal cannot be received, the processor is determined to be faulty, so that the fault occurrence of all processors in the system is detected.

この技術を第3図に基づいて具体的に説明する。 This technique will be specifically described with reference to FIG.

マルチプロセッサシステムは、1個のマスタプロセッ
サ31と3個のプロセッサ32〜34をリング型のバス35で接
続した構成となっている。マスタプロセッサ31は他のプ
ロセッサ32〜34の動作状態を管理している。マスタプロ
セッサ31は、プロセッサ32に対して動作監視信号S11
送信し、所定時間内にその応答信号S12が受信されるか
否かを監視する。そしてその結果をプロセッサ32の動作
状態として管理する。引き続きマスタプロセッサ31がプ
ロセッサ33,プロセッサ34に対して順次同様の手順を繰
り返すことで、各プロセッサ32〜34の障害検出を行う。
The multiprocessor system has a configuration in which one master processor 31 and three processors 32-34 are connected by a ring-type bus 35. The master processor 31 manages the operation states of the other processors 32 to 34. Master processor 31 transmits an operation monitoring signal S 11 to the processor 32, the response signal S 12 within a predetermined time to monitor whether the received. Then, the result is managed as the operation state of the processor 32. Subsequently, the master processor 31 repeats the same procedure for the processors 33 and 34 in order to detect the failure of each of the processors 32 to 34.

〔発明が解決しようとする課題〕[Problems to be solved by the invention]

前述した従来のマルチプロセッサシステムの障害検出
方式にあっては、システム内にマスタプロセッサという
特別なプロセッサ31を設け、このマスタプロセッサ31か
ら他の総てのプロセッサ32〜34に対して動作監視信号S
11を送信し、その応答信号S12を監視することでプロセ
ッサの障害を検出するものであったため、以下の欠点が
ある。
In the conventional fault detection method of the multiprocessor system described above, a special processor 31 called a master processor is provided in the system, and the operation monitoring signal S is transmitted from the master processor 31 to all other processors 32-34.
11 sends, because it was intended to detect faults in processors by monitoring the response signal S 12, has the following drawbacks.

(イ)マスタプロセッサ31のみで障害監視を行うことか
ら、被監視プロセッサ32〜34の配設数が多くなればなる
程、マスタプロセッサ31の負荷が増大する。
(A) Since the failure monitoring is performed only by the master processor 31, the load on the master processor 31 increases as the number of the monitored processors 32 to 34 increases.

(ロ)マスタプロセッサ31自身に障害が発生した場合に
は、システム全体の障害検出機能が停止してしまう。
(B) When a failure occurs in the master processor 31 itself, the failure detection function of the entire system stops.

この発明の目的は、前記従来の課題を解決するため
に、複数のプロセッサで障害検出動作を行うことがで
き、経済的かつ信頼性の高いマルチプロセッサシステム
の障害検出方式を提供することにある。
SUMMARY OF THE INVENTION An object of the present invention is to provide an economical and highly reliable fault detection method for a multiprocessor system in which a plurality of processors can perform a fault detection operation in order to solve the conventional problem.

〔課題を解決するための手段〕[Means for solving the problem]

この発明は、バスを介して結合している複数のプロセ
ッサに動作監視信号を順回させることによってプロセッ
サの障害を検出するマルチプロセッサシステムの障害検
出方式であって、 各プロセッサは、 手前のプロセッサからの動作監視信号を受信する受信
部と、 次のプロセッサへ動作監視信号を送信する送信部と、 受信部の受信状態を監視し、受信部の動作監視信号受
信時にその動作監視信号を送信部に入力し、又は受信部
が所定時間経過後も動作監視信号の非受信状態にあると
検知した時点でプロセッサ障害検出通知を監視制御装置
に行うと共に新たな動作監視信号を送信部に入力する監
視部とを備え、特別なマスタプロセッサを置くことな
く、各々のプロセッサが隣接するプロセッサを障害監視
することを特徴とする。
The present invention is a failure detection method for a multiprocessor system in which a plurality of processors coupled via a bus forward an operation monitoring signal to detect a failure of the processor. A receiving unit that receives the operation monitoring signal of the receiving unit, a transmitting unit that transmits the operation monitoring signal to the next processor, and monitors a receiving state of the receiving unit, and transmits the operation monitoring signal to the transmitting unit when the receiving unit receives the operation monitoring signal. A monitoring unit that inputs, or sends a new operation monitoring signal to the transmitting unit, and sends a processor failure detection notification to the monitoring control device when the receiving unit detects that the operation monitoring signal is not received even after the predetermined time has elapsed. And each processor monitors the failure of an adjacent processor without placing a special master processor.

〔実施例〕〔Example〕

この発明の実施例について図面を参照して説明する。 An embodiment of the present invention will be described with reference to the drawings.

第1図はこの発明の一実施例に係るマルチプロセッサ
システムの障害検出方式を示すブロック図である。
FIG. 1 is a block diagram showing a failure detection method for a multiprocessor system according to one embodiment of the present invention.

このマルチプロセッサシステムの障害検出方式は、プ
ロセッサ1〜4をバス5によってリング状に接続し、動
作監視信号S1をプロセッサ1〜4に順回させることによ
ってプロセッサの障害を検出する方式である。
The fault detection method of the multiprocessor system, the processors 1-4 connected by a bus 5 in a ring shape, is a method of detecting a fault of the processor by allowing wound forward operation monitoring signals S 1 to the processor 1-4.

各プロセッサ1(〜4)は、受信部6と、監視部7
と、タイマ8と、送信部9とを備えている。
Each of the processors 1 to 4 includes a receiving unit 6 and a monitoring unit 7
, A timer 8 and a transmission unit 9.

受信部6は、隣接のプロセッサからの動作監視信号S1
を受信して監視部7へ送出するためのものである。
The receiving unit 6 receives an operation monitoring signal S 1 from an adjacent processor.
Is received and sent to the monitoring unit 7.

監視部7は、受信部6からの動作監視信号S1とタイマ
8からのクロック信号cを監視することにより、隣接の
プロセッサの障害の有無を検出するものである。
Monitoring unit 7, by monitoring the clock signal c from the operation monitoring signals S 1 and the timer 8 from the receiving unit 6, and detects the presence or absence of failure of the adjacent processor.

以下、監視部7の機能を具体的に述べる。監視部7
は、受信部6から受信した動作監視信号S1を送信部9に
送出すると共にタイマをリセットし、タイマ8からのク
8ロック信号cを監視する。そしてこのクロック信号c
に基づいて動作監視信号S1を送信部9に送出した後、受
信部6から入力する迄の時間tを測定する。時間tが予
め設定された次信号受信タイミング時間T1に略一致して
いる場合には、監視部7はプロセッサ4が正常に動作し
ていると判断し、タイマ8をリセットすると共に送信部
9に動作監視信号S1を送出する。動作監視信号S1の送信
部9への送出タイミングは、動作監視信号S1の受信から
T2時間後の送信タイミングアウト時を契機として行われ
る。T2時間の測定は、監視部7が動作監視信号S1の受信
時にタイマ8をリセットし、タイマ8から入力されるク
ロック信号cを測定することにより行われる。一方、監
視部7が次信号受信タイミング時間T1を経過しても動作
監視信号S1を受信しない場合には、プロセッサ4に障害
が発生したものと判断し、その旨の通知を図示しない監
視制御装置等に送る。監視部7は、この通知と並行して
タイマ8をリセットすると共に送信部9に新たな動作監
視信号S1を送出する機能を有する。尚、次信号受信タイ
ミング時間T1は、少なくとも動作監視信号S1がプロセッ
サ1から送出され、プロセッサ2,3,4を順回しプロセッ
サ1に戻る迄の時間以上に設定されている。
Hereinafter, the function of the monitoring unit 7 will be specifically described. Monitoring unit 7
Resets the timer sends out the operation monitoring signals S 1 received from the receiving unit 6 to the transmission unit 9 monitors click 8 lock signal c from the timer 8. And this clock signal c
After issuing the operation monitoring signals S 1 to the transmitter 9 on the basis of the measured time t until input from the receiving unit 6. If the time t is substantially equal to the next signal receiving timing period T 1 which is set in advance, the monitoring unit 7 determines that the processor 4 is operating normally, the transmitting unit 9 resets the timer 8 It sends the operation monitoring signals S 1 to. Transmission timing of the transmission unit 9 of the operation monitoring signals S 1 from the reception operation monitoring signals S 1
This is performed when the transmission timing is out two hours after T. Measurements of T 2 hours is carried out by the monitoring unit 7 timer 8 is reset when the reception operation monitoring signals S 1, to measure the clock signal c inputted from the timer 8. On the other hand, if the monitoring unit 7 does not receive the operation monitoring signals S 1 even after T 1 following the signal reception timing period, it is judged that the processor 4 has failed, not shown notification to that effect monitoring Send to control device. Monitoring unit 7 has a function of sending out a new operation monitoring signals S 1 to the transmitting unit 9 resets the timer 8 in parallel with this notification. Incidentally, the next signal receiving timing period T 1 is at least operation monitoring signal S 1 is sent from the processor 1 is set to more than the time until return processor 2,3,4 sequentially turning the processor 1.

次に、この実施例の障害検出動作について第1図と第
2図に基づいて説明する。
Next, the failure detection operation of this embodiment will be described with reference to FIGS.

第2図はこの実施例のマルチプロセッサシステムの障
害検出方式が示す障害検出動作のシーケンス図である。
FIG. 2 is a sequence diagram of a fault detecting operation of the fault detecting method of the multiprocessor system according to this embodiment.

プロセッサ1が、タイマ8をリセットして送信部9か
ら動作監視信号S1をプロセッサ2に送信する。
Processor 1 sends to reset the timer 8 from the transmitting unit 9 an operation monitoring signals S 1 to the processor 2.

プロセッサ2〜4は、第2図に示すように、手前のプ
ロセッサからの動作監視信号S1を受信し、T2時間の信号
送信タイミングアウト時に動作監視信号S1を次のプロセ
ッサに送出していく。
The processor 2-4, as shown in FIG. 2, receives the operation monitoring signals S 1 from the front of the processor, and sends the operation monitoring signals S 1 to the next processor during signal transmission timing out of T 2 hours Go.

プロセッサ1〜4のいずれもが正常に動作している場
合には、動作監視信号S1はプロセッサ1〜4を順回し、
再びプロセッサ1に戻ってくる。
If none of the processors 1-4 are operating properly, operation monitoring signals S 1 is turned forward processors 1-4,
It returns to the processor 1 again.

この動作監視信号S1はプロセッサ1の受信部6に受信
される。この受信部6からの動作監視信号S1を入力した
監視部7は、タイマ8からのクロック信号cに基づき受
信時の時間が次信号受信タイミング時間T1に略一致して
いることを認識する。
This operation monitoring signal S 1 is received by the receiving unit 6 of the processor 1. Operation monitoring signals S 1 monitoring unit 7 that enter from the receiving unit 6 recognizes that the time at the time of reception on the basis of the clock signal c from the timer 8 substantially coincides with the next signal receiving timing period T 1 .

これにより、監視部7は、プロセッサ4が正常動作し
ていると判断する。動作監視信号S1の受信と並行して監
視部7は、タイマ8をリセットし、タイマ8からのクロ
ック信号cを測定して信号送信タイミングアウト時間T2
に到ったと判断したときに動作監視信号S1を送信部9に
送る。送信部9は、この動作監視信号S1を次のプロセッ
サ2に送信する(第2図)。
Accordingly, the monitoring unit 7 determines that the processor 4 is operating normally. Operation monitoring signal monitoring unit 7 in parallel with the reception of the S 1 resets the timer 8 measures the clock signal c from the timer 8 signal transmission timing out time T 2
The operation monitoring signal S 1 is sent to the transmission unit 9 when it is determined that the time has arrived. Transmitting unit 9 transmits the operation monitoring signals S 1 to the next processor 2 (Figure 2).

このとき、プロセッサ2に障害が生じた場合には、プ
ロセッサ2は、プロセッサ1からの動作監視信号S1を受
信できず、プロセッサ3にその動作監視信号S1をプロセ
ッサ3に送信することができない(第2図)。
At this time, if the processor 2 failure occurs, the processor 2 can not receive the operation monitoring signals S 1 from the processor 1 can not transmit the operation monitoring signals S 1 to the processor 3 to the processor 3 (FIG. 2).

従ってプロセッサ3は、プロセッサ2からの動作監視
信号S1を受信することができない。このプロセッサ3の
監視部7は、前回の動作監視信号S1送信時(第2図A
点)にタイマ8をリセットし、タイマ8からのクロック
信号cに基づいて受信信号を測定しているため、次信号
受信タイミング時間T1の経過を認識し、プロセッサ2に
障害が生じていると判断する。この判断に基づいて、監
視部7はプロセッサ2の障害検出通知を行うと共に、自
プロセッサ2以外の次信号受信タイミングアウトの発生
を防止するため、タイマ8をリセットし送信部9を介し
て動作監視信号S1をプロセッサ4に送信する(第2
図)。
Thus the processor 3 can not receive the operation monitoring signals S 1 from the processor 2. Monitoring unit 7 of the processor 3 during the operation monitoring signals S 1 in the previous transmission (Fig. 2 A
The timer 8 is reset to point), because it measures the received signal based on the clock signal c from the timer 8, it recognizes the lapse of the next signal receiving timing time T 1, when the processor 2 a failure has occurred to decide. Based on this determination, the monitoring unit 7 notifies the failure detection of the processor 2 and resets the timer 8 to monitor the operation via the transmission unit 9 in order to prevent the occurrence of the next signal reception timing out of the processor 2 other than the own processor 2. transmitting the signals S 1 to the processor 4 (second
Figure).

このようにして、個々のプロセッサ1〜4によって障
害発生の事実を判断することができる。また、障害発生
によって障害が生じたプロセッサ2以外のプロセッサの
動作を停止させる必要もない。
In this way, the fact that a failure has occurred can be determined by the individual processors 1-4. Further, it is not necessary to stop the operations of the processors other than the processor 2 in which the failure has occurred due to the failure.

〔発明の効果〕〔The invention's effect〕

この発明のマルチプロセッサシステムの障害検出方式
は以上説明したように構成されているため、以下の効果
がある。
Since the fault detection method of the multiprocessor system of the present invention is configured as described above, the following effects are obtained.

(イ)システム内にマスタプロセッサという特別なプロ
セッサを設置することなく、システムの障害検出動作を
実現することができ、この結果、より経済的なシステム
の構築が可能となる。
(A) The system can perform a failure detection operation without installing a special processor called a master processor in the system. As a result, a more economical system can be constructed.

(ロ)システム内のどのプロセッサが障害になってもシ
ステム内の障害検出動作が停止しない。この結果、シス
テムに信頼性の向上を図ることができる。
(B) Even if any processor in the system fails, the failure detection operation in the system does not stop. As a result, the reliability of the system can be improved.

【図面の簡単な説明】[Brief description of the drawings]

第1図はこの発明の一実施例に係るマルチプロセッサシ
ステムの障害検出方式を示すブロック図、 第2図は第1図のマルチプロセッサシステムの障害検出
方式が行う障害検出動作のシーケンス図、 第3図は従来のマルチプロセッサシステムの障害検出方
式を示すブロック図である。 1〜4……プロセッサ 5……バス 6……受信部 7……監視部 8……タイマ 9……送信部
FIG. 1 is a block diagram showing a failure detection method for a multiprocessor system according to an embodiment of the present invention. FIG. 2 is a sequence diagram of a failure detection operation performed by the failure detection method of the multiprocessor system shown in FIG. FIG. 1 is a block diagram showing a failure detection method of a conventional multiprocessor system. 1-4 Processor 5 Bus 6 Receiver 7 Monitor 8 Timer 9 Transmitter

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】バスを介して結合している複数のプロセッ
サに動作監視信号を順回させることによってプロセッサ
の障害を検出するマルチプロセッサシステムの障害検出
方式であって、 各プロセッサは、 手前のプロセッサからの動作監視信号を受信する受信部
と、 次のプロセッサへ動作監視信号を送信する送信部と、 受信部の受信状態を監視し、受信部の動作監視信号受信
時にその動作監視信号を送信部に入力し、又は受信部が
所定時間経過後も動作監視信号の非受信状態にあると検
知した時点でプロセッサ障害検出通知を監視制御装置に
行うと共に新たな動作監視信号を送信部に入力する監視
部とを備え、特別なマスタプロセッサを置くことなく、
各々のプロセッサが隣接するプロセッサを障害監視する
ことを特徴とするマルチプロセッサシステムの障害検出
方式。
1. A failure detection method for a multiprocessor system in which a plurality of processors coupled via a bus forward an operation monitoring signal to detect a failure of a processor, wherein each processor comprises: A receiving unit for receiving an operation monitoring signal from the processor, a transmitting unit for transmitting the operation monitoring signal to the next processor, and a receiving unit for monitoring a receiving state of the receiving unit and transmitting the operation monitoring signal when the receiving unit receives the operation monitoring signal. Or when the receiving unit detects that the operation monitoring signal is not received even after the lapse of a predetermined time, sends a processor failure detection notification to the monitoring control device and inputs a new operation monitoring signal to the transmitting unit. And without a special master processor,
A fault detection method for a multiprocessor system, wherein each processor monitors a fault in an adjacent processor.
JP1098957A 1989-04-20 1989-04-20 Fault detection method for multiprocessor systems Expired - Fee Related JP2917291B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1098957A JP2917291B2 (en) 1989-04-20 1989-04-20 Fault detection method for multiprocessor systems

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1098957A JP2917291B2 (en) 1989-04-20 1989-04-20 Fault detection method for multiprocessor systems

Publications (2)

Publication Number Publication Date
JPH02279040A JPH02279040A (en) 1990-11-15
JP2917291B2 true JP2917291B2 (en) 1999-07-12

Family

ID=14233566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1098957A Expired - Fee Related JP2917291B2 (en) 1989-04-20 1989-04-20 Fault detection method for multiprocessor systems

Country Status (1)

Country Link
JP (1) JP2917291B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000060828A1 (en) * 1999-03-31 2000-10-12 Fujitsu Limited Data communication processing device and method and recording medium storing data communication processing program
JP4941212B2 (en) * 2007-10-01 2012-05-30 日本電気株式会社 Electronic device, data processing apparatus, and bus control method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5424508A (en) * 1977-07-26 1979-02-23 Fujitsu Ltd Filure detection system for loop delivery

Also Published As

Publication number Publication date
JPH02279040A (en) 1990-11-15

Similar Documents

Publication Publication Date Title
US4775976A (en) Method and apparatus for backing up data transmission system
EP0738059A2 (en) Method and apparatus for testing links between network switches
US5329528A (en) Duplex communication control device
EP2466564A2 (en) System and method of emergency operation of an alarm system
JP2917291B2 (en) Fault detection method for multiprocessor systems
JP3451345B2 (en) Synchronous control method of photoelectric sensor
JPH01217666A (en) Fault detecting system for multiprocessor system
JPH0735470Y2 (en) Loop type data transmission device
JPH10116211A (en) System console fault informing system
JPH0740702B2 (en) Remote test circuit
JPH0348997A (en) Monitoring system
JP2675645B2 (en) System failure monitoring device
JPH07334433A (en) Bus controller
JPS6122494B2 (en)
JPS6356755A (en) Abnormality supervising system for slave processor
JPH0716190B2 (en) Communication error monitoring device for communication system
JP2988127B2 (en) Communication control device
JPH10207745A (en) Method for confirming inter-processor existence
JPH07101390B2 (en) Remote monitoring system for information processing equipment
JPH04179687A (en) Remote control device for elevator
JPH06195574A (en) Storage system for warning system
JPS62175836A (en) Health check system in data processing system
JPH0241058A (en) Diagnostic device for data transmission system
JPH05210796A (en) Transmission data synchronizing system for disaster prevension monitoring system
JPH0798667A (en) Remote monitor system

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees