JP2001043201A - Multiprocessor fault detector - Google Patents

Multiprocessor fault detector

Info

Publication number
JP2001043201A
JP2001043201A JP11219659A JP21965999A JP2001043201A JP 2001043201 A JP2001043201 A JP 2001043201A JP 11219659 A JP11219659 A JP 11219659A JP 21965999 A JP21965999 A JP 21965999A JP 2001043201 A JP2001043201 A JP 2001043201A
Authority
JP
Japan
Prior art keywords
processor
value
cpu
multiprocessor
updated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11219659A
Other languages
Japanese (ja)
Inventor
Takayuki Ito
孝之 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP11219659A priority Critical patent/JP2001043201A/en
Publication of JP2001043201A publication Critical patent/JP2001043201A/en
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

PROBLEM TO BE SOLVED: To easily specify a CPU, in which a fault occurs, inside a multiprocessor by dumping a memory while simplifying a device configuration and reducing the device cost without providing the counters of hardware as many as CPU. SOLUTION: Updated count values 7a-7c of counters and last count values 8a-8c are comparatively evaluated by a CPU 1 for examination and on the basis of the comparatively evaluated result of the CPU 1 for examination, an abnormality detecting signal 13 of a CPU is outputted by a WDT 5. Thus, since the abnormality detecting signal of the processor can be outputted on the basis of the evaluated result between the updated count values and last count values of counters in memories, the processor, in which a fault occurs, inside the multiprocessor can be easily specified while simplifying the device configuration and reducing the device cost without preparing the counters of hardware as many as processors.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、マルチプロセッサ
障害検出装置に係り、詳しくは、複数のプロセッサから
なる計算機において、ウオッチドッグタイマ(Wath
dog Timer;WDT)を用いてプロセッサの障
害を検出するマルチプロセッサ障害検出装置に関するも
のである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a multiprocessor fault detecting device, and more particularly, to a watchdog timer (Wath) in a computer including a plurality of processors.
The present invention relates to a multiprocessor fault detection device that detects a fault in a processor by using a Dog Timer (WDT).

【0002】[0002]

【従来の技術】従来、計算機のシステムハング検出方法
には、WDTというH/Wのタイマーを利用するのもの
が知られている。このハング検出方法では、WDTとい
うH/Wのタイマーを利用して、0秒から定期的にこれ
をリセットし、システムがハングしたときに、このタイ
マが設定された時間内でリセットされなくなることか
ら、ハングを検出することができる。
2. Description of the Related Art Heretofore, as a method of detecting a system hang of a computer, a method using an H / W timer called WDT is known. In this hang detection method, an H / W timer called WDT is used to periodically reset the timer from 0 seconds, and when the system hangs, this timer is not reset within the set time. , Hangs can be detected.

【0003】しかしながら、マルチプロセッサの計算機
では、複数のプロセッサのうち一つのプロセッサがハン
グしても、他のプロセッサが動作しているため、動作可
能なプロセッサにWDTをリセットするプログラムの実
行が割り付けられていると、WDTのリセットが行われ
てほしくないのにも拘わらず行われてしまい、ハングし
たプロセッサによるシステム異常を検出できなくってし
まうことがあった。
However, in a multiprocessor computer, even if one of a plurality of processors hangs, the other processor is operating. Therefore, the execution of the program for resetting the WDT is assigned to the operable processor. In such a case, the WDT may be reset although it is not desired that the reset is performed, and a system error due to the hung processor may not be detected.

【0004】このようなマルチプロセッサシステムにお
けるシステム異常の検出の不具合を解消する従来技術と
しては、例えば特開昭57−55461号公報で報告さ
れたマルチプロセッサ障害検出方式が挙げられる。この
従来のマルチプロセッサ障害検出方式においては、各プ
ロセッサに対応するH/Wによる監視カウンタを備え、
各プロセッサが監視カウンタをそれぞれ定期的にリセッ
トすることにより、各プロセッサの異常を検出してい
る。
As a conventional technique for solving such a problem of detecting a system abnormality in a multiprocessor system, there is a multiprocessor fault detection system reported in Japanese Patent Application Laid-Open No. 57-55461, for example. In this conventional multiprocessor failure detection system, a monitoring counter by H / W corresponding to each processor is provided,
Each processor periodically resets the monitoring counter, thereby detecting an abnormality of each processor.

【0005】監視カウンタの内容は、カウントアップ回
路により常時カウントアップされ、各プロセッサは、カ
ウンタオーバーフロー時間より十分短い周期で対応する
監視カウンタの内容を定期的にクリアする。仮に、ある
プロセッサに異常があると、監視カウンタの対応する内
容がクリアされないので、オーバーフローを生じて、そ
の異常状態を表示部に表示する。
The contents of the monitoring counter are constantly counted up by a count-up circuit, and each processor periodically clears the contents of the corresponding monitoring counter at a period sufficiently shorter than the counter overflow time. If there is an abnormality in a certain processor, the corresponding content of the monitoring counter is not cleared, so that an overflow occurs and the abnormal state is displayed on the display unit.

【0006】また、従来、マルチマイクロプロセッサシ
ステムの故障検知装置については、例えば特開平2−5
3169号公報で報告されたものが挙げられる。この従
来の故障検知装置では、共有メモリに各プロセッサ対応
のWDTフラグを備え、これを定期的に各プロセッサが
フラグセットし、全てのフラグセットでWDTをリセッ
トしている。
A conventional multi-microprocessor system failure detecting device is disclosed in, for example,
No. 3169 is reported. In this conventional failure detection device, a WDT flag corresponding to each processor is provided in the shared memory, and each processor periodically sets the WDT flag, and resets the WDT in all flag sets.

【0007】共有メモリ上のWDTフラグは、各プロセ
ッサが所定の演算時間内に正常な演算処理をした場合に
のみセットする。複数のプロセッサのうち、代表のプロ
セッサは、WDTフラグセットの有無で他のプロセッサ
動作の正常/異常をチェックすることができ、マルチプ
ロセッサの故障検知を行うことができる。
[0007] The WDT flag on the shared memory is set only when each processor performs a normal operation within a predetermined operation time. Among the plurality of processors, a representative processor can check the normal / abnormal operation of other processors based on the presence / absence of the WDT flag set, and can detect a failure of the multiprocessor.

【0008】[0008]

【発明が解決しようとする課題】上記した特開昭57−
55461号公報で報告された従来のマルチプロセッサ
障害検出方式では、ハードウェアによるカウンタをプロ
セッサの数だけ用意しなければならず、装置構成が複雑
になるうえ、装置コストが増加するという問題があっ
た。
SUMMARY OF THE INVENTION The above-mentioned Japanese Patent Application Laid-Open No.
In the conventional multiprocessor failure detection method reported in Japanese Patent No. 55461, the number of hardware counters must be prepared for the number of processors, which causes a problem that the device configuration becomes complicated and the device cost increases. .

【0009】また、上記した特開平2−53169号公
報で報告された従来のマルチマイクロプロセッサシステ
ムの故障検知装置では、前述したように、マルチプロセ
ッサの中のあるプロセッサに障害が発生した時、WDT
フラグセットの有無により、マルチプロセッサ自身に障
害が発生していることを知ることができる。
In the conventional multi-microprocessor system fault detecting device reported in the above-mentioned Japanese Patent Application Laid-Open No. 2-53169, as described above, when a fault occurs in one of the multi-processors, the WDT
The presence or absence of the flag set indicates that a failure has occurred in the multiprocessor itself.

【0010】しかしながら、マルチプロセッサの中のあ
るプロセッサに障害が発生した時、一般にメモリダンプ
を行い解析を行なうが、この従来の故障検知装置では、
フラグを用いているため、メモリダンプからマルチプロ
セッサの中のどのプロセッサに障害が発生したのか知る
ことができず、障害が発生したプロセッサの特定を行う
ことが困難であった。
[0010] However, when a failure occurs in a certain processor in the multiprocessor, a memory dump is generally performed and analysis is performed.
Since the flag is used, it is difficult to know which processor in the multiprocessor has failed from the memory dump, and it is difficult to specify the failed processor.

【0011】そこで、本発明は、上記のような課題を解
消するためになされたもので、ハードウェアによるカウ
ンタをプロセッサの数だけ用意しないで済ませることが
でき、装置構成の簡略化及び装置コストの低減を実現す
ることができるほか、マルチプロセッサの中で障害が発
生したプロセッサを容易に特定することができるマルチ
プロセッサ障害検出装置を提供することを目的とする。
SUMMARY OF THE INVENTION The present invention has been made to solve the above-described problems, and can eliminate the need to prepare hardware counters by the number of processors, thereby simplifying the apparatus configuration and reducing the apparatus cost. It is another object of the present invention to provide a multiprocessor failure detection device that can reduce the number of failed processors and can easily identify a failed processor among multiprocessors.

【0012】[0012]

【課題を解決するための手段】本発明によるマルチプロ
セッサ障害検出装置は、複数の被検査対象のプロセッサ
と、被検査対象の各プロセッサに対応する複数のカウン
タが設けられたメモリと、更新したカウンタのカウント
値と前回のカウンタのカウント値を比較評価する検査用
のプロセッサと、検査用のプロセッサの比較評価結果に
基づいてプロセッサの異常検出信号を出力する異常検出
信号出力手段とを有することを特徴とするものである。
According to the present invention, there is provided a multiprocessor fault detecting apparatus comprising: a plurality of processors to be inspected; a memory provided with a plurality of counters corresponding to each of the processors to be inspected; And a failure detection signal output means for outputting a failure detection signal of the processor based on a comparison evaluation result of the inspection processor. It is assumed that.

【0013】また、マルチプロセッサ障害検出装置にお
いて、検査用のプロセッサによりカウント値の更新値と
前回値のそれぞれが全て違った値であると検出した場
合、リセット信号を出力するリセット信号出力手段を有
し、異常検出信号出力手段は、検査用のプロセッサによ
りカウント値の更新値と前回値のそれぞれが同じ値であ
ると検出した場合、プロセッサの異常検出信号を出力す
ることを特徴とするものである。
Further, the multiprocessor failure detection device has reset signal output means for outputting a reset signal when the test processor detects that the updated value of the count value and the previous value are all different values. The abnormality detection signal output means outputs an abnormality detection signal of the processor when the inspection processor detects that the updated value of the count value and the previous value are the same, respectively. .

【0014】また、マルチプロセッサ障害検出装置にお
いて、異常検出信号出力手段は、検査用のプロセッサに
障害が発生してリセット信号がリセット信号出力手段に
より出力されない場合、プロセッサの異常検出信号を出
力することを特徴とするものである。
In the multiprocessor failure detection device, the failure detection signal output means may output a failure detection signal of the processor when a failure occurs in the test processor and the reset signal is not output by the reset signal output means. It is characterized by the following.

【0015】また、マルチプロセッサ障害検出装置にお
いて、異常検出信号出力手段によりプロセッサの異常検
出信号が出力された場合、カウンタのカウント値の更新
値と前回値をメモリからダンプするメモリダンプ手段を
有することを特徴とするものである。
Further, the multiprocessor failure detection device has a memory dump means for dumping the updated value of the count value of the counter and the previous value from the memory when the abnormality detection signal of the processor is output from the abnormality detection signal output means. It is characterized by the following.

【0016】[0016]

【発明の実施の形態】以下に、本発明の実施の形態を図
面を参照して説明する。 実施の形態1.図1は本発明に係る実施の形態1のマル
チプロセッサ障害検出装置の構成を示すブロック図であ
る。図示例のマルチプロセッサ障害検出装置は、サーバ
などの計算機システムに適用することができる。図1に
おいて、1〜4はN個のCPUのマルチプロセッサから
構成されるシステムのそれぞれのCPUで、CPU1は
検査用のCPUであり、CPU2〜4は被検査対象のC
PUである。
Embodiments of the present invention will be described below with reference to the drawings. Embodiment 1 FIG. FIG. 1 is a block diagram showing the configuration of the multiprocessor fault detection device according to the first embodiment of the present invention. The illustrated multiprocessor fault detection device can be applied to a computer system such as a server. In FIG. 1, reference numerals 1 to 4 denote CPUs of a system composed of a multiprocessor of N CPUs, a CPU 1 is a CPU for inspection, and CPUs 2 to 4 are Cs to be inspected.
PU.

【0017】5はWDTで、このWDT5は、検査用の
CPU1からのWDTリセット信号12によりリセット
されるとともに、検査用のCPU1からWDTリセット
信号12が所定時間出力されない場合、CPUの障害検
出信号13を出力する。6は被検査対象の各CPU2〜
4にそれぞれ対応するカウンタが複数設けられたメモリ
である。
Reference numeral 5 denotes a WDT. The WDT 5 is reset by a WDT reset signal 12 from the inspection CPU 1, and when the WDT reset signal 12 is not output from the inspection CPU 1 for a predetermined time, a CPU failure detection signal 13 Is output. 6 is each CPU 2 to be inspected
4 is a memory provided with a plurality of counters respectively corresponding to 4.

【0018】7a〜7cは被検査対象のCPU2〜4に
よりメモリ6上のカウンタがそれぞれカウントアップさ
れて更新されるカウント値(更新値)であり、8a〜8
cは検査用のCPU1が最後にカウンタのカウント値7
a〜7cをそれぞれ読み出した時に、それをセーブした
カウント値(前回値)である。
Reference numerals 7a to 7c denote count values (update values) that are updated by the counters in the memory 6 being counted up by the CPUs 2 to 4 to be inspected, respectively.
c indicates that the inspection CPU 1 has finally counted 7
This is the count value (previous value) at which each of a to 7c was read when it was read.

【0019】9a〜9cは被検査対象の各CPU2〜4
からメモリ6上の各カウンタのカウント値7a〜7cを
それぞれ書き込むことを示している。ここでのカウント
値7a〜7cは、更新したカウント値の更新値である。
例えば、カウント値7aの書込み9aは、被検査対象の
CPU2から、このCPU2に対応するメモリ6上のカ
ウンタのカウント値7aを書き込むことを示している。
Reference numerals 9a to 9c denote CPUs 2 to 4 to be inspected.
To write the count values 7a to 7c of the respective counters on the memory 6 respectively. Here, the count values 7a to 7c are updated values of the updated count value.
For example, the writing 9a of the count value 7a indicates that the count value 7a of the counter on the memory 6 corresponding to the CPU 2 is written from the CPU 2 to be inspected.

【0020】10a〜10cは検査用のCPU1からメ
モリ6上の各カウンタのカウント値7a〜7cをそれぞ
れ読み出すことを示している。ここでのカウント値7a
〜7cは、更新したカウント値の更新値である。例え
ば、カウント値7aの読み出し10aは、検査用のCP
U1から、このCPU1に対応するメモリ6上のカウン
タのカウント値7aを読み出すことを示している。
Reference numerals 10a to 10c indicate that the count values 7a to 7c of the respective counters on the memory 6 are read from the inspection CPU 1 respectively. Here the count value 7a
7c are updated values of the updated count value. For example, the reading 10a of the count value 7a is performed by the inspection CP.
This indicates that the count value 7a of the counter on the memory 6 corresponding to the CPU 1 is read from U1.

【0021】11a〜11cは検査用のCPU1からメ
モリ6上の各カウンタのカウント値8a〜8cをそれぞ
れ書き込んだり、読み出したりすることを示している。
ここでのカウント値8a〜8cは、更新値のカウント値
7a〜7cに対して前回にカウントした前回値である。
例えば、前回のカウント値7aの読み出しと書き込み1
1aは、検査用のCPU1から、このCPU1に対応す
るメモリ6上のカウンタのカウント値8aを書き込んだ
り、読み出したりすることを示している。
Numerals 11a to 11c indicate that the count values 8a to 8c of the respective counters on the memory 6 are written and read from the inspection CPU 1 respectively.
Here, the count values 8a to 8c are the previous values counted last time with respect to the updated count values 7a to 7c.
For example, reading and writing 1 of the previous count value 7a
1a indicates that the inspection CPU 1 writes or reads the count value 8a of the counter on the memory 6 corresponding to the CPU 1.

【0022】以下に、図1に示すマルチプロセッサ障害
検出装置の動作を説明する。被検査対象の各CPU2〜
4は、各々一定時間毎に、メモリ6上に設けられた各カ
ウンタのカウント値7a〜7cを1ずつ増やす。例え
ば、被検査対象のCPU2は、メモリ6上の対応するカ
ウンタのカウント値7aを一定時間毎に1ずつ増やし、
被検査対象のCPU3は、メモリ6上の対応するカウン
タのカウント値7bを一定時間毎に1ずつ増やす。
The operation of the multiprocessor fault detecting device shown in FIG. 1 will be described below. Each CPU 2 to be inspected
Numeral 4 increments the count values 7a to 7c of the counters provided on the memory 6 by one at regular intervals. For example, the CPU 2 to be inspected increases the count value 7a of the corresponding counter on the memory 6 by one at regular intervals,
The CPU 3 to be inspected increases the count value 7b of the corresponding counter on the memory 6 by one at regular intervals.

【0023】検査用のCPU1は、メモリ6上のカウン
タの更新値のカウント値7a〜7cと前回値のカウント
値8a〜8cを比較チェックし、カウント値の更新値と
前回値が異なっていると判断すると、異なっていた更新
値のカウント値7a〜7cを前回値のカウント値8a〜
8cにコピーする。例えば、更新値のカウント値7a
は、前回値のカウント値8aにコピーされる。
The inspection CPU 1 compares and checks the count values 7a to 7c of the updated values of the counters in the memory 6 with the count values 8a to 8c of the previous values, and determines that the updated value of the count value is different from the previous value. When it is determined, the count values 7a to 7c of the different update values are changed to the count values 8a to 8
8c. For example, the update value count value 7a
Is copied to the previous count value 8a.

【0024】検査用のCPU1は、メモリ6上のカウン
タの更新値のカウント値7a〜7cと前回値のカウント
値8a〜8cを比較チェックし、更新値と前回値の対応
するカウント値各々が全て違った値であると判断する
と、WDTリセット信号12をWDT5へ出力する。W
DT5は、このWDTリセット信号12によりリセット
される。
The inspection CPU 1 compares and checks the count values 7a to 7c of the updated values of the counters in the memory 6 with the count values 8a to 8c of the previous values. If it is determined that the value is different, a WDT reset signal 12 is output to WDT5. W
DT5 is reset by the WDT reset signal 12.

【0025】検査用のCPU1は、メモリ6上のカウン
タの更新値のカウント値7a〜7cと前回値のカウント
値8a〜8cを比較チェックし、更新値と前回値の対応
するカウント値の中で、どれか1つでも対応する更新値
と前回値のカウント値がそれぞれ同じ値であると判断す
ると、WDTリセット信号12をWDT5へ出力しな
い。
The inspection CPU 1 compares and checks the count values 7a to 7c of the updated values of the counters in the memory 6 with the count values 8a to 8c of the previous values. If any one of the updated values and the previous count value is determined to be the same, the WDT reset signal 12 is not output to the WDT 5.

【0026】披検査対象のCPU7a〜7cは、障害が
発生すると、メモリ6の対応するカウンタの更新値が更
新されないため、その更新値が前回値と同じになる。こ
のような場合、検査用のCPU1は、WDTリセット信
号12をWDT5へ出力しないようにしている。
When a fault occurs in the CPUs 7a to 7c to be inspected, the updated value of the corresponding counter in the memory 6 is not updated, so that the updated value becomes the same as the previous value. In such a case, the inspection CPU 1 does not output the WDT reset signal 12 to the WDT 5.

【0027】WDT5は、検査用のCPU1からWDT
リセット信号12が出力されないまま、予め設定されて
いた時間経過すると、CPUの異常検出信号13を出力
する。そして、システムは、このCPUの異常検出信号
13により、図示しない表示部などにCPUに障害が発
生した旨を表示させて、システム管理者にCPUの異常
を報知する。
The WDT 5 is transmitted from the inspection CPU 1 to the WDT 5.
When a preset time elapses without outputting the reset signal 12, an abnormality detection signal 13 of the CPU is output. Then, the system uses the abnormality detection signal 13 of the CPU to display on a display unit (not shown) that a failure has occurred in the CPU, and notifies the system administrator of the abnormality of the CPU.

【0028】検査用のCPU1に障害が発生した場合
は、検査用のCPU1からWDTリセット信号12がW
DT5へ出力されない。このような場合、WDT5は、
予め設定された時間経過しても、検査用のCPU1から
WDTリセット信号12を取得しないため、CPUの異
常検出信号13を出力する。以下同様に、システムは、
このCPUの異常検出信号13により、図示しない表示
部などにCPUに障害が発生した旨を表示させて、シス
テム管理者にCPUの異常を報知する。
When a failure occurs in the CPU 1 for inspection, the WDT reset signal 12 from the CPU 1 for inspection
Not output to DT5. In such a case, WDT5
Since the WDT reset signal 12 is not acquired from the inspection CPU 1 even after the preset time has elapsed, the CPU abnormality detection signal 13 is output. Similarly, the system:
In response to the CPU abnormality detection signal 13, the fact that a failure has occurred in the CPU is displayed on a display unit (not shown) or the like to notify the system administrator of the CPU abnormality.

【0029】CPUの異常は、表示部に表示させるだけ
でなく、ランプ表示でシステム管理者に報知するように
構成してもよいし、音声、ブザー音などでシステム管理
者に報知するように構成してもよい。また、CPUの異
常は、システム自身でシステム管理者へ報知するだけで
なく、遠方の監視端末へ通信で報知するように構成して
もよい。
In addition to displaying the abnormality of the CPU on the display unit, the system administrator may be notified by lamp display, or may be notified by sound, buzzer sound, or the like to the system administrator. May be. Further, the system may be configured so that the system abnormality is notified not only to the system administrator itself but also to a remote monitoring terminal by communication.

【0030】ここで、WDT5がCPUの異常検出信号
13を出力したとき、実際にどのCPU1〜4が故障し
ているかを特定する方法を説明する。WDT5によりC
PUの異常検出信号13が出力された時は、メモリ6の
内容を障害解析するために、メモリ6内のカウンタのカ
ウント値の更新値と前回値をメモリ6からダンプする。
Here, a method for specifying which of the CPUs 1 to 4 has actually failed when the WDT 5 outputs the CPU abnormality detection signal 13 will be described. C by WDT5
When the PU abnormality detection signal 13 is output, the updated value of the count value of the counter in the memory 6 and the previous value are dumped from the memory 6 in order to analyze the contents of the memory 6 for a failure.

【0031】仮に、メモリ6内のカウンタの更新値のカ
ウント値7a〜7cが前回のカウント値8a〜8bより
も大きな値になっているときは、披検査用のCPU2〜
4には障害が発生していないので、検査用のCPU1に
障害が発生していることが判る。
If the count values 7a to 7c of the updated values of the counters in the memory 6 are larger than the previous count values 8a to 8b, the CPUs 2 to 2 for the inspection are checked.
Since no failure has occurred in No. 4, it can be seen that a failure has occurred in the CPU 1 for inspection.

【0032】また、仮に、メモリ6内のカウンタの更新
値のカウント値7a〜7cが前回のカウント値8a〜8
bと同じになっているものがあるときは、その同じ値に
なっている更新値と前回値に対応する検査対象のCPU
2〜4に障害が発生していることが判る。このようにし
て、障害が発生したCPU1〜4をメモリ6をダンプす
ることにより特定できる。
It is assumed that the count values 7a to 7c of the updated values of the counters in the memory 6 correspond to the previous count values 8a to 8c.
b, if there is an updated value having the same value and the CPU to be inspected corresponding to the previous value
It can be seen that two to four have failed. In this way, the failed CPUs 1-4 can be identified by dumping the memory 6.

【0033】このように、本実施の形態では、検査用の
CPU1により、更新したカウンタのカウント値7a〜
7cと前回のカウンタのカウント値8a〜8cを比較評
価し、WDT5により、検査用のCPU1の比較評価結
果に基づいてCPUの異常検出信号13を出力するよう
に構成したため、メモリ6のカウンタのカウント値の更
新値と前回値の評価結果を基にCPUの異常検出信号1
3を出力することができる。このため、ハードウェアに
よるカウンタをCPUの数だけ用意することなく、装置
構成の簡略化及び装置コストの低減を実現しつつ、マル
チプロセッサの中で障害が発生したCPUを、メモリ6
をダンプすることで容易に特定することができる。
As described above, in this embodiment, the count values 7a to 7a of the updated counter are
7c is compared with the previous count value 8a to 8c of the counter, and the WDT 5 is used to output the CPU abnormality detection signal 13 based on the comparison evaluation result of the CPU 1 for inspection. CPU abnormality detection signal 1 based on the updated value of the value and the evaluation result of the previous value
3 can be output. For this reason, it is possible to simplify the device configuration and reduce the device cost without preparing hardware counters by the number of CPUs, and replace the failed CPU in the multiprocessor with the memory 6.
Can be easily specified by dumping.

【0034】また、本実施の形態は、検査用のCPU1
によりメモリ6のカウント値の更新値と前回値のそれぞ
れが全て違った値であると検出した場合、WDTリセッ
ト信号12をWDT5へ出力し、検査用のCPU1によ
りメモリ6のカウント値の更新値と前回値のそれぞれが
同じ値であると検出した場合、WDT5によりCPUの
異常検出信号13を出力するように構成したため、WD
Tリセット信号12の出力によりCPUに障害が発生し
ていないことが分かり、CPUの異常検出信号13の出
力によりCPUに障害が発生していることをシステム管
理者に報知することができる。しかも、メモリ内の内容
をダンプすることにより、同じ値の更新値と前回値のカ
ウント値のカウンタに対応する検査対象のCPUに障害
が発生していることを特定することができる。
In this embodiment, the CPU 1 for inspection is used.
When the CPU 1 detects that the updated value of the count value of the memory 6 and the previous value are all different values, it outputs a WDT reset signal 12 to the WDT 5, and the CPU 1 for inspection checks the updated value of the count value of the memory 6 with the updated value. Since the WDT5 outputs the CPU abnormality detection signal 13 when it is detected that each of the previous values is the same value, WD
The output of the T reset signal 12 indicates that a failure has not occurred in the CPU, and the output of the abnormality detection signal 13 of the CPU can notify the system administrator that a failure has occurred in the CPU. Moreover, by dumping the contents in the memory, it is possible to specify that a failure has occurred in the CPU to be inspected corresponding to the counter of the updated value of the same value and the count value of the previous value.

【0035】また、本実施の形態では、検査用のCPU
1に障害が発生してWDTリセット信号12が検査用の
CPU1から出力されない場合、WDT5によりCPU
の異常検出信号13を出力するように構成したため、メ
モリ6内容をダンプすると、カウント値の更新値と前回
値のそれぞれが全て違った値になっていることから、検
査用のCPU1に障害が発生していることを特定するこ
とができる。
In this embodiment, the inspection CPU is used.
If the WDT reset signal 12 is not output from the inspection CPU 1 due to the failure of the
When the contents of the memory 6 are dumped, a failure occurs in the inspection CPU 1 because the updated value of the count value and the previous value are all different values. Can be identified.

【0036】また、本実施の形態では、WDT5により
CPUの異常検出信号13が出力された場合、メモリ6
のカウンタのカウント値の更新値と前回値をメモリ6か
らダンプするように構成したため、マルチプロセッサの
中のどのCPUに障害が発生しているかを特定すること
ができる。メモリ6のカウンタの対応するカウント値の
更新値と前回値に同じ値のものがあれば、その同じ値の
更新値と前回値のカウント値のカウンタに対応する検査
対象のCPU2〜4に障害が発生していることを特定す
ることができる。また、メモリ6のカウント値の更新値
と前回値のそれぞれが全て違った値であれば、検査用の
プロセッサ1に障害が発生していることを特定すること
ができる。
Further, in this embodiment, when the WDT 5 outputs the CPU abnormality detection signal 13, the memory 6
Since the updated value of the count value of the counter and the previous value are dumped from the memory 6, it is possible to specify which CPU in the multiprocessor has a fault. If the updated value of the corresponding count value of the counter of the memory 6 and the previous value have the same value, a failure occurs in the CPUs 2 to 4 corresponding to the updated value of the same value and the counter of the previous count value. It can be specified that it has occurred. If the updated value of the count value in the memory 6 and the previous value are all different values, it can be specified that a failure has occurred in the test processor 1.

【0037】[0037]

【発明の効果】本発明によれば、複数の被検査対象のプ
ロセッサと、被検査対象の各プロセッサに対応する複数
のカウンタが設けられたメモリと、更新したカウンタの
カウント値と前回のカウンタのカウント値を比較評価す
る検査用のプロセッサと、検査用のプロセッサの比較評
価結果に基づいてプロセッサの異常検出信号を出力する
異常検出信号出力手段とを有し、検査用のプロセッサに
より、更新したカウンタのカウント値と前回のカウンタ
のカウント値を比較評価し、異常検出信号出力手段によ
り、検査用のプロセッサの比較評価結果に基づいてプロ
セッサの異常検出信号を出力するように構成することに
より、メモリのカウンタのカウント値の更新値と前回値
の評価結果を基にプロセッサの異常検出信号を出力する
ことができるので、ハードウェアによるカウンタをプロ
セッサの数だけ用意することなく、装置構成の簡略化及
び装置コストの低減を実現しつつ、マルチプロセッサの
中で障害が発生したプロセッサを容易に特定することが
できる。
According to the present invention, a plurality of processors to be inspected, a memory provided with a plurality of counters corresponding to each processor to be inspected, the updated counter value and the previous counter An inspection processor for comparing and evaluating the count value, and an abnormality detection signal output unit for outputting an abnormality detection signal of the processor based on a comparison and evaluation result of the inspection processor, wherein the counter updated by the inspection processor By comparing and evaluating the count value of the counter with the count value of the previous counter, and outputting the abnormality detection signal of the processor by the abnormality detection signal output means based on the comparison and evaluation result of the processor for inspection, Since the processor error detection signal can be output based on the updated count value of the counter and the evaluation result of the previous value, Without preparing counter hardware the number of processors, while realizing a reduction in simplified and the apparatus cost of the device configuration, a processor failure has occurred in the multi-processor can be easily specified.

【0038】また、検査用のプロセッサによりカウント
値の更新値と前回値のそれぞれが全て違った値であると
検出した場合、リセット信号出力手段によりリセット信
号を出力し、検査用のプロセッサによりカウント値の更
新値と前回値のそれぞれが同じ値であると検出した場
合、異常検出信号出力手段によりプロセッサの異常検出
信号を出力するように構成することにより、リセット信
号の出力によりプロセッサに障害が発生していないこと
が分かり、プロセッサの異常検出信号の出力によりプロ
セッサに障害が発生していることをシステム管理者に報
知することができる。しかも、メモリ内の内容をダンプ
することにより、同じ値の更新値と前回値のカウント値
のカウンタに対応する検査対象のプロセッサに障害が発
生していることを特定することができる。
When the test processor detects that the updated value of the count value and the previous value are all different values, a reset signal is output by the reset signal output means, and the count value is output by the test processor. When it is detected that the updated value and the previous value are the same, the abnormality detection signal output means outputs the abnormality detection signal of the processor. Thus, it is possible to notify the system administrator that a failure has occurred in the processor by outputting the abnormality detection signal of the processor. Moreover, by dumping the contents in the memory, it is possible to specify that a failure has occurred in the processor to be inspected corresponding to the counter of the updated value of the same value and the count value of the previous value.

【0039】また、検査用のプロセッサに障害が発生し
てリセット信号がリセット信号出力手段により出力され
ない場合、異常検出信号出力手段によりプロセッサの異
常検出信号を出力するように構成することにより、メモ
リ内容をダンプすると、カウント値の更新値と前回値の
それぞれが全て違った値であるので、検査用のプロセッ
サに障害が発生していることを特定することができる。
Further, when a failure occurs in the test processor and the reset signal is not output by the reset signal output means, the abnormality detection signal output means outputs an abnormality detection signal of the processor, so that the content of the memory can be improved. Is dumped, the updated value of the count value and the previous value are all different values, so that it is possible to specify that a failure has occurred in the test processor.

【0040】また、異常検出信号出力手段によりプロセ
ッサの異常検出信号が出力された場合、メモリダンプ手
段により、カウンタのカウント値の更新値と前回値をメ
モリからダンプするように構成することにより、マルチ
プロセッサの中のどのプロセッサに障害が発生している
かを特定することができる。カウンタの対応するカウン
ト値の更新値と前回値に同じ値のものがあれば、その同
じ値の更新値と前回値のカウント値のカウンタに対応す
る検査対象のCPUに障害が発生していることを特定す
ることができる。また、カウント値の更新値と前回値の
それぞれが全て違った値であれば、検査用のプロセッサ
に障害が発生していることを特定することができる。
When the abnormality detection signal output means outputs a processor abnormality detection signal, the memory dump means dumps the updated value of the count value of the counter and the previous value from the memory. It is possible to specify which of the processors has a fault. If the updated value of the corresponding count value of the counter and the previous value have the same value, a failure has occurred in the CPU to be inspected corresponding to the counter of the updated value of the same value and the count value of the previous value. Can be specified. If the updated value of the count value and the previous value are all different values, it can be specified that a failure has occurred in the test processor.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 図1は本発明に係る実施の形態1のマルチプ
ロセッサ障害検出装置の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a multiprocessor fault detection device according to a first embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 検査用のCPU、2〜4 被検査対象のCPU、5
WDT、6 メモリ、7a〜7c カウント値(更新
値)、8a〜8c カウント値(前回値)、9a〜9c
カウント値の書き込み、10a〜10c カウント値
の読み出し、11a〜11c 前回のカウント値の読み
出しと書き込み、12 WDTリセット信号、13 C
PUの障害検出信号。
1 CPU for inspection, 2 to 4 CPUs to be inspected, 5
WDT, 6 memories, 7a-7c count value (update value), 8a-8c count value (previous value), 9a-9c
Write count value, 10a-10c Read count value, 11a-11c Read and write previous count value, 12 WDT reset signal, 13 C
PU failure detection signal.

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 複数の被検査対象のプロセッサと、被検
査対象の各プロセッサに対応する複数のカウンタが設け
られたメモリと、更新したカウンタのカウント値と前回
のカウンタのカウント値を比較評価する検査用のプロセ
ッサと、検査用のプロセッサの比較評価結果に基づいて
プロセッサの異常検出信号を出力する異常検出信号出力
手段とを有することを特徴とするマルチプロセッサ障害
検出装置。
1. A processor provided with a plurality of processors to be inspected, a memory provided with a plurality of counters corresponding to each processor to be inspected, and a count value of an updated counter and a count value of a previous counter are compared and evaluated. A multiprocessor failure detection device, comprising: a processor for inspection; and an abnormality detection signal output unit that outputs an abnormality detection signal of the processor based on a comparison evaluation result of the processor for inspection.
【請求項2】 請求項1に記載のマルチプロセッサ障害
検出装置において、検査用のプロセッサによりカウント
値の更新値と前回値のそれぞれが全て違った値であると
検出した場合、リセット信号を出力するリセット信号出
力手段を有し、異常検出信号出力手段は、検査用のプロ
セッサによりカウント値の更新値と前回値のそれぞれが
同じ値であると検出した場合、プロセッサの異常検出信
号を出力することを特徴とするマルチプロセッサ障害検
出装置。
2. The multiprocessor fault detection device according to claim 1, wherein a reset signal is output when the test processor detects that the updated value of the count value and the previous value are all different values. A reset signal output unit configured to output an abnormality detection signal of the processor when the inspection processor detects that the updated value of the count value and the previous value are the same value. A multiprocessor failure detection device characterized by the following.
【請求項3】 請求項1乃至2に記載のマルチプロセッ
サ障害検出装置において、異常検出信号出力手段は、検
査用のプロセッサに障害が発生してリセット信号がリセ
ット信号出力手段により出力されない場合、プロセッサ
の異常検出信号を出力することを特徴とするマルチプロ
セッサ障害検出装置。
3. The multiprocessor failure detection device according to claim 1, wherein the failure detection signal output means outputs the error signal to the processor when a failure occurs in the test processor and the reset signal is not output by the reset signal output means. A multiprocessor failure detection device that outputs an abnormality detection signal.
【請求項4】 請求項1乃至3に記載のマルチプロセッ
サ障害検出装置において、異常検出信号出力手段により
プロセッサの異常検出信号が出力された場合、カウンタ
のカウント値の更新値と前回値をメモリからダンプする
メモリダンプ手段を有することを特徴とするマルチプロ
セッサ障害検出装置。
4. The multiprocessor failure detection device according to claim 1, wherein when the abnormality detection signal output means outputs an abnormality detection signal of the processor, the updated value of the count value of the counter and the previous value are stored in the memory. A multiprocessor fault detection device comprising a memory dump unit for dumping.
JP11219659A 1999-08-03 1999-08-03 Multiprocessor fault detector Pending JP2001043201A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11219659A JP2001043201A (en) 1999-08-03 1999-08-03 Multiprocessor fault detector

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11219659A JP2001043201A (en) 1999-08-03 1999-08-03 Multiprocessor fault detector

Publications (1)

Publication Number Publication Date
JP2001043201A true JP2001043201A (en) 2001-02-16

Family

ID=16738975

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11219659A Pending JP2001043201A (en) 1999-08-03 1999-08-03 Multiprocessor fault detector

Country Status (1)

Country Link
JP (1) JP2001043201A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101018373B1 (en) 2008-10-03 2011-03-02 후지쯔 가부시끼가이샤 Computer apparatus, processor diagnostic method, and storage medium storing processor diagnostic control program
KR20160133923A (en) * 2015-05-14 2016-11-23 한국전자통신연구원 Method and apparatus for fault injection and fault tolerance analysis
JP6216857B1 (en) * 2016-10-24 2017-10-18 パシフィックコンサルタンツ株式会社 Tide door control device, tidal door control method, and program
CN113393891A (en) * 2020-03-11 2021-09-14 北京新能源汽车股份有限公司 Nonvolatile memory detection method and device and electric vehicle

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101018373B1 (en) 2008-10-03 2011-03-02 후지쯔 가부시끼가이샤 Computer apparatus, processor diagnostic method, and storage medium storing processor diagnostic control program
KR20160133923A (en) * 2015-05-14 2016-11-23 한국전자통신연구원 Method and apparatus for fault injection and fault tolerance analysis
KR102251991B1 (en) * 2015-05-14 2021-05-17 한국전자통신연구원 Method and apparatus for fault injection and fault tolerance analysis
JP6216857B1 (en) * 2016-10-24 2017-10-18 パシフィックコンサルタンツ株式会社 Tide door control device, tidal door control method, and program
CN113393891A (en) * 2020-03-11 2021-09-14 北京新能源汽车股份有限公司 Nonvolatile memory detection method and device and electric vehicle

Similar Documents

Publication Publication Date Title
US7627807B2 (en) Monitoring a data processor to detect abnormal operation
US6516429B1 (en) Method and apparatus for run-time deconfiguration of a processor in a symmetrical multi-processing system
US7350007B2 (en) Time-interval-based system and method to determine if a device error rate equals or exceeds a threshold error rate
JP5965076B2 (en) Uncorrectable memory error processing method and its readable medium
US20170147422A1 (en) External software fault detection system for distributed multi-cpu architecture
JP3481737B2 (en) Dump collection device and dump collection method
US8214693B2 (en) Damaged software system detection
JP2001043201A (en) Multiprocessor fault detector
US8949404B2 (en) Acquiring graphical operating system post-failure screen
JP2012150661A (en) Processor operation inspection system and its inspection method
US7480836B2 (en) Monitoring error-handler vector in architected memory
JP2870250B2 (en) Microprocessor runaway monitor
JP2002351855A (en) Computer abnormality handling system, computer abnormality handling method, computer abnormality handling program running on computer and computer abnormality handling program stored in machine readable storage medium
US20190012292A1 (en) Control device
JP2022086932A (en) Information processing apparatus and method
JPS6290068A (en) Auxiliary monitor system
JP2007042017A (en) Fault diagnostic system, fault diagnostic method, and fault diagnostic program
JPH07230432A (en) Calculating device
JP2016076152A (en) Error detection system, error detection method, and error detection program
JP2004213178A (en) Computer system
KR20240143256A (en) Failure response method of computing device monitoring container-based virtualization platform and computing device using the same
JPH02307134A (en) Detecting method for program abnormality
JPH06214831A (en) Abnormality detector for central processing unit
JPH04213123A (en) Preventive maintenance system for fault of electronic computer
CN116225818A (en) Arbitration service monitoring method and device for database, monitoring equipment and storage medium