JP2008146222A - Computer failure detection system and computer failure detection method - Google Patents
Computer failure detection system and computer failure detection method Download PDFInfo
- Publication number
- JP2008146222A JP2008146222A JP2006330676A JP2006330676A JP2008146222A JP 2008146222 A JP2008146222 A JP 2008146222A JP 2006330676 A JP2006330676 A JP 2006330676A JP 2006330676 A JP2006330676 A JP 2006330676A JP 2008146222 A JP2008146222 A JP 2008146222A
- Authority
- JP
- Japan
- Prior art keywords
- self
- diagnosis
- computer
- diagnosis information
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、マルチプロセッサ並列処理システムにおいて、プロセッサ搭載の各計算機を接続する共通バスの性能を低下させることなく計算機の故障を検出するシステムおよび方法に関する。 The present invention relates to a system and method for detecting a failure of a computer in a multiprocessor parallel processing system without degrading the performance of a common bus connecting the computers mounted on the processor.
従来のマルチプロセッサ並列処理システムにおいて、計算機で発生した故障を検出する方法として、プロセッサを搭載した各計算機が共通バスを介して自己診断情報を周期的に他のプロセッサに通知し、各プロセッサは、他のプロセッサから周期的に通知された自己診断情報を確認することで、故障が発生した計算機を検出する方法が知られている(例えば、特許文献1参照)。 In a conventional multiprocessor parallel processing system, as a method of detecting a failure occurring in a computer, each computer equipped with a processor periodically notifies self-diagnosis information to other processors via a common bus. A method of detecting a computer in which a failure has occurred by checking self-diagnosis information periodically notified from another processor is known (see, for example, Patent Document 1).
しかしマルチプロセッサ並列処理システムにおいて、プロセッサ間のデータ通信に用いる共通バスはデータ転送量が限られている。よって、あるプロセッサが他のプロセッサに対して周期的に自己診断情報を通知するために共通バスを使用すると、プロセッサ間でのデータ通信で使用可能なデータ転送量は低下する。 However, in a multiprocessor parallel processing system, the common bus used for data communication between processors has a limited data transfer amount. Therefore, when a certain processor uses a common bus to periodically notify self-diagnosis information to other processors, the amount of data transfer that can be used for data communication between the processors decreases.
加えて自己診断情報を通知すべきプロセッサが、例えば他のプロセッサの共通バス使用により、共通バスでのデータ通信を管理している計算機から共通バスの使用許可を得られず自己診断情報を出力できないため、自己診断情報の出力遅延が発生する可能性もある。 In addition, the processor that should notify the self-diagnosis information cannot output self-diagnosis information because the use of the common bus cannot be obtained from the computer that manages the data communication on the common bus, for example, by using the common bus of another processor. Therefore, there is a possibility that output delay of self-diagnosis information occurs.
従って共通バスを用いて自己診断情報を通知することにより、共通バスのデータ転送量が低下するとともに、自己診断情報を受信した計算機において自己診断情報が更新されていない原因は、自己診断情報の出力遅延で未更新なのか、それとも送信側プロセッサ故障による送信不能で未更新なのか判断できず、正しい故障検出ができないという課題があった。 Therefore, by notifying the self-diagnosis information using the common bus, the data transfer amount of the common bus decreases, and the reason that the self-diagnosis information is not updated in the computer that has received the self-diagnosis information is the output of the self-diagnosis information There is a problem in that it is impossible to determine whether it is not updated due to a delay or whether it is not updated because transmission is not possible due to a transmitter processor failure, and correct failure detection cannot be performed.
本発明は係る課題を解決するためになされたものであり、共通バスのデータ転送量を低下させることなく、各計算機の自己診断情報をもとに計算機の故障を正しく検出することを目的とする。 The present invention has been made to solve such problems, and has an object to correctly detect a computer failure based on self-diagnosis information of each computer without reducing the data transfer amount of a common bus. .
本発明に係る計算機故障検出システムは、
複数の自己診断出力計算機、及び故障検出計算機、及び前記複数の自己診断出力計算機と前記故障検出計算機とを接続する自己診断情報回線を備え、
前記自己診断出力計算機は、自らの自己診断結果を示す自己診断情報を作成出力し、
前記自己診断情報回線は、前記自己診断出力計算機と各々接続し、前記自己診断出力計算機から出力される自己診断情報を伝送し、
前記故障検出計算機は、前記自己診断情報回線と全て接続し、前記自己診断情報回線から伝送された自己診断情報を受信し、受信した前記自己診断情報に基づいて前記自己診断情報を送信した自己診断出力計算機の故障を検出する
ことを特徴とする。
The computer failure detection system according to the present invention is:
A plurality of self-diagnosis output computers, a failure detection computer, and a self-diagnosis information line connecting the plurality of self-diagnosis output computers and the failure detection computer,
The self-diagnosis output computer creates and outputs self-diagnosis information indicating its own self-diagnosis result,
The self-diagnosis information line is connected to the self-diagnosis output computer, and transmits self-diagnosis information output from the self-diagnosis output computer.
The fault detection computer is connected to the self-diagnosis information line, receives the self-diagnosis information transmitted from the self-diagnosis information line, and transmits the self-diagnosis information based on the received self-diagnosis information. It is characterized by detecting a failure of the output computer.
本発明のように、共通バスを用いずに自己診断情報回線を用いて自己診断情報を送信することにより、共通バスのデータ転送量を低下させることは無い。また自己診断情報回線では共通バスのような出力遅延が発生しないため、確実に故障検出を行うことが可能である。 By transmitting the self-diagnosis information using the self-diagnosis information line without using the common bus as in the present invention, the data transfer amount of the common bus is not reduced. In addition, since the self-diagnosis information line does not cause an output delay unlike the common bus, it is possible to reliably detect a failure.
実施の形態1.
図1は、実施の形態1における計算機故障検出方法を実現するマルチプロセッサ並列処理システムの一構成例を示している。
FIG. 1 shows a configuration example of a multiprocessor parallel processing system that implements the computer fault detection method according to the first embodiment.
図1は、自己診断出力計算機が2台、故障検出計算機が1台で構成されている。しかしマルチプロセッサ並列処理システムにおける自己診断出力計算機は、図1のように2台に限定する必要はなく、並列処理システムに必要とされる台数で並列処理システムを構成させてよいことはいうまでもない。 FIG. 1 includes two self-diagnosis output computers and one failure detection computer. However, it is not necessary to limit the number of self-diagnosis output computers in the multiprocessor parallel processing system to two as shown in FIG. 1, and it is needless to say that the parallel processing system may be configured by the number required for the parallel processing system. Absent.
自己診断出力計算機11は、各々共通バスI/F(インタフェース)部12と、自己診断出力計算機CPU(Central Processing Unit:中央処理装置)13と、自己診断情報送信部14とを含む構成であり、内部バス15にて各々内部接続されている。
Each of the self-
故障検出計算機16は、共通バスI/F部17と、故障検出計算機CPU18と、自己診断情報受信部19と、受信メモリ部20とを含む構成であり、内部バス21にて各々接続されている。また故障検出計算機16は受信時刻計測部22を含む。受信時刻計測部22より出力される受信時刻データ23は、自己診断情報受信部19に入力される。
The failure detection computer 16 includes a common bus I / F unit 17, a failure
図1の自己診断出力計算機11と故障検出計算機16は、自己診断出力計算機11の共通バスI/F部12と、故障検出計算機16の共通バスI/F部17を通じて共通バス24により接続されている。各計算機間は、接続された共通バス24を用いてデータ転送を行う。
The self-
また各自己診断出力計算機11内部の自己診断情報送信部14と、故障検出計算機16内部の自己診断情報受信部19は、図1のように各々自己診断情報回線25により接続されている。各自己診断出力計算機11は、接続された自己診断情報回線25を用いて故障検出計算機へ自己診断情報を送信する。なお自己診断情報回線25は、シリアル伝送、パラレル伝送いずれでもよい。
Further, the self-diagnosis
図2は、実施の形態1における自己診断出力計算機11より出力される自己診断情報に関するテーブル及び自己診断情報のデータフレームの一例を示した図である。
FIG. 2 is a diagram illustrating an example of a table relating to self-diagnosis information output from the self-
各自己診断出力計算機11は、自己診断出力計算機11内部において処理される機能及びその機能を実現するためのプログラムや装置等につき、正常動作をしているか異常動作をしているかの自己診断を行う。ここではその一例として、自己診断出力計算機11aにおける自己診断について説明する。
Each self-
自己診断出力計算機11aに搭載された自己診断出力計算機CPU13aは、内部において処理される機能及びその機能を実現するためのプログラムや装置等、例えばROM(Read Only Memory)やRAM(Random Access Memory)等のメモリ、また情報処理等を行うPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)やDSP(Digital Signal Processor)などの信号処理デバイス、及びそれらより構成される基板、装置等に対して周期的に自己診断プログラムを実行する。自己診断プログラムでは、自己診断出力計算機11aの各機能が正常動作か異常動作かを確認し、必要であれば、例えば機能確認用プログラムを実行して異常動作であることを検出する。 The self-diagnosis output computer CPU 13a mounted on the self-diagnosis output computer 11a has functions to be processed inside and programs and devices for realizing the functions, such as ROM (Read Only Memory), RAM (Random Access Memory), etc. Memory, signal processing devices such as PLD (Programmable Logic Device), FPGA (Field Programmable Gate Array) and DSP (Digital Signal Processor) that perform information processing, etc. Run self-diagnostic program. In the self-diagnosis program, whether each function of the self-diagnosis output computer 11a is operating normally or abnormally is checked, and if necessary, for example, a function checking program is executed to detect abnormal operation.
例えば自己診断の結果、自己診断出力計算機11a内部の機能が全て正常動作している場合、自己診断出力計算機CPU13aは、図2(a)のように自己診断情報00を得る。また例えば自己診断の結果、自己診断出力計算機11a内部の機能のうち、機能1において故障2が発生している場合、自己診断出力計算機CPU13aは、同様にして自己診断情報02を得る。
For example, if all the functions inside the self-diagnosis output computer 11a are operating normally as a result of self-diagnosis, the self-diagnosis output computer CPU 13a obtains self-
なお図2(a)において、自己診断情報は16進数表示(hexadecimal、図2(a)ではhexと表示)で表されており、ビット数は8ビットとしている。しかし、ビット数は8ビットに限定するものではなく、想定される故障内容全てを表示可能とするビット数としてもよいことはいうまでもない。 In FIG. 2A, the self-diagnosis information is expressed in hexadecimal notation (hexadecimal, indicated as hex in FIG. 2A), and the number of bits is 8 bits. However, it is needless to say that the number of bits is not limited to 8 bits, and may be the number of bits that can display all the assumed failure contents.
図2(a)の自己診断情報テーブルに基づき自己診断出力計算機CPU13aは、例えば図2(b)に示す自己診断情報のデータフレームを作成して自己診断情報回線25aに出力する。送信する自己診断情報のデータフレームの構成要素は、どの自己診断出力計算機に関する自己診断情報かを表す自己診断出力計算機ID(IDentifier)と当該自己診断出力計算機の自己診断情報である。 Based on the self-diagnosis information table of FIG. 2A, the self-diagnosis output computer CPU 13a creates a data frame of self-diagnosis information shown in FIG. 2B, for example, and outputs it to the self-diagnosis information line 25a. The constituent elements of the data frame of the self-diagnosis information to be transmitted are a self-diagnosis output computer ID (IDentifier) indicating which self-diagnosis output computer is self-diagnosis information and self-diagnosis information of the self-diagnosis output computer.
なお自己診断情報のデータフレームは自己診断出力計算機CPU13aではなく、自己診断情報送信部14aにおいて作成してもよいし、またデータフレーム作成用の機能ブロックや回路を設けて作成してもよい。 The data frame of the self-diagnosis information may be created not by the self-diagnosis output computer CPU 13a but by the self-diagnosis information transmission unit 14a, or may be created by providing a functional block or circuit for creating a data frame.
自己診断情報のデータフレームを作成した後、自己診断出力計算機11aの自己診断情報は、自己診断情報送信部14aより出力される。自己診断情報送信部14aより出力された自己診断出力計算機11aの自己診断情報は、自己診断情報回線25aを介して故障検出計算機16の自己診断情報受信部19へ入力される。
After creating the data frame of the self-diagnosis information, the self-diagnosis information of the self-diagnosis output computer 11a is output from the self-diagnosis information transmission unit 14a. The self-diagnosis information of the self-diagnosis output computer 11a output from the self-diagnosis information transmission unit 14a is input to the self-diagnosis
自己診断出力計算機11bも同様の処理を行う。また自己診断出力計算機11が3台以上ある場合も同様の処理を行う。
The self-diagnosis output computer 11b performs the same processing. The same processing is performed when there are three or more self-
図3は、実施の形態1における故障検出計算機16の自己診断情報受信部19におけるデータ処理に受信時刻データ23を使用することを説明する図である。
FIG. 3 is a diagram illustrating the use of the
図3は、自己診断出力計算機11aで故障が発生し、自己診断出力計算機11bは正常動作する場合を示している。図3のうち(1)と(2)は受信時刻データ23を併用せずに故障検出を行う場合を、(3)と(4)は受信時刻データ23を併用して故障検出を行う場合を示している。
FIG. 3 shows a case where a failure occurs in the self-diagnosis output computer 11a and the self-diagnosis output computer 11b operates normally. 3, (1) and (2) show the case where failure detection is performed without using the
まず図3の(1)と(2)を用いて、自己診断情報と受信時刻データを併用しない場合について説明する。故障検出計算機16には、図2(b)に示したように自己診断出力計算機IDと自己診断出力計算機の自己診断情報が送信される。 First, the case where the self-diagnosis information and the reception time data are not used together will be described with reference to (1) and (2) of FIG. As shown in FIG. 2B, the failure detection computer 16 is transmitted with the self-diagnosis output computer ID and the self-diagnosis information of the self-diagnosis output computer.
ここで自己診断出力計算機11aの故障には、自己診断出力計算機11aの自己診断出力計算機CPU13aが故障した場合と、自己診断出力計算機CPU13a以外が故障した場合が考えられる。そこでまず図3の(1)のように、自己診断出力計算機CPU13a以外が故障した場合、例えば機能1で故障2が発生した場合について説明する。
Here, the failure of the self-diagnosis output computer 11a includes a case where the self-diagnosis output computer CPU 13a of the self-diagnosis output computer 11a has failed and a case where other than the self-diagnosis output computer CPU 13a has failed. Therefore, first, as in (1) of FIG. 3, a case where a failure other than the self-diagnosis output computer CPU 13a has failed, for example, a
自己診断出力計算機11aと自己診断出力計算機11bは、動作を開始してから故障検出計算機16における受信時刻t1まで故障が発生せず、正常動作をしているとする。このとき、自己診断出力計算機11aと自己診断出力計算機11bは、図2(a)のテーブルに従い、正常動作を示す自己診断情報「00」を故障検出計算機16の自己診断情報受信部19に入力する。従って図3の(1)に示したように、受信時刻t1に、自己診断情報受信部19にて受信された自己診断出力計算機11aと自己診断出力計算機11bの自己診断情報はともに「00」である。
It is assumed that the self-diagnosis output computer 11a and the self-diagnosis output computer 11b are operating normally without a failure until the reception time t1 in the failure detection computer 16 after starting the operation. At this time, the self-diagnosis output computer 11a and the self-diagnosis output computer 11b input the self-diagnosis information “00” indicating normal operation to the self-diagnosis
故障検出計算機16の故障検出計算機CPU18は、上記自己診断情報を参照し、自己診断出力計算機11aと自己診断出力計算機11bは正常動作していると判断する。
The failure
次に、受信時刻t1から次の自己診断情報を受信するタイミングである受信時刻t2までの間に、自己診断出力計算機11aの機能1で故障2が発生したとする。この場合、自己診断出力計算機11bは正常動作のままなので、自己診断情報は「00」のまま出力する。しかし自己診断出力計算機11aは、機能1で故障2が発生しているため、図2(a)のテーブルに従い「02」を出力する。従って図3の(1)に示したように、受信時刻t2に自己診断情報受信部19にて受信された自己診断出力計算機11aの自己診断情報は「02」、自己診断出力計算機11bの自己診断情報は「00」である。
Next, it is assumed that a
故障検出計算機16の故障検出計算機CPU18は、上記自己診断情報を参照し、自己診断出力計算機11aは機能1で故障2が発生し、自己診断出力計算機11bは正常動作していると判断する。
The failure
しかしこの方法では、CPUが故障した場合、故障検出が正しくできない。そのことを示すため、図3の(2)のように自己診断出力計算機11aの自己診断出力計算機CPU13aが故障した場合を説明する。 However, with this method, when the CPU fails, failure detection cannot be performed correctly. In order to show this, a case will be described where the self-diagnosis output computer CPU 13a of the self-diagnosis output computer 11a fails as shown in (2) of FIG.
自己診断出力計算機11aと自己診断出力計算機11bは、動作を開始してから故障検出計算機16における受信時刻t1まで故障が発生せず、正常動作をしているとする。このとき、自己診断出力計算機11aと自己診断出力計算機11bは、図2(a)のテーブルに従い、正常動作を示す自己診断情報「00」を故障検出計算機16の自己診断情報受信部19に入力する。従って図3の(2)に示したように、受信時刻t1に、自己診断情報受信部19にて受信された自己診断出力計算機11aと自己診断出力計算機11bの自己診断情報はともに「00」である。
It is assumed that the self-diagnosis output computer 11a and the self-diagnosis output computer 11b are operating normally without a failure until the reception time t1 in the failure detection computer 16 after starting the operation. At this time, the self-diagnosis output computer 11a and the self-diagnosis output computer 11b input the self-diagnosis information “00” indicating normal operation to the self-diagnosis
故障検出計算機16の故障検出計算機CPU18は、上記自己診断情報を参照し、自己診断出力計算機11aと自己診断出力計算機11bは正常動作していると判断する。
The failure
次に、受信時刻t1から次の自己診断情報を受信するタイミングである受信時刻t2までの間に、自己診断出力計算機11aの自己診断出力計算機CPU13aで故障が発生したとする。この場合、自己診断出力計算機11bは正常動作のままなので、自己診断情報は「00」のまま出力する。しかし自己診断出力計算機11aは、自己診断出力計算機CPU13aで故障が発生したため、自己診断情報を送信することができず、自己診断出力計算機11aは自己診断情報を出力することができない。従って図3の(2)に示したように、受信時刻t2に、自己診断情報受信部19にて受信された自己診断出力計算機11bの自己診断情報は「00」である。しかし自己診断出力計算機11aの自己診断情報は更新されないままである。
Next, it is assumed that a failure has occurred in the self-diagnosis output computer CPU 13a of the self-diagnosis output computer 11a between the reception time t1 and the reception time t2, which is the timing for receiving the next self-diagnosis information. In this case, since the self-diagnosis output computer 11b remains in normal operation, the self-diagnosis information is output as “00”. However, the self-diagnosis output computer 11a cannot transmit the self-diagnosis information because the failure has occurred in the self-diagnosis output computer CPU 13a, and the self-diagnosis output computer 11a cannot output the self-diagnosis information. Accordingly, as shown in (2) of FIG. 3, the self-diagnosis information of the self-diagnosis output computer 11b received by the self-diagnosis
故障検出計算機16の故障検出計算機CPU18は、上記自己診断情報を参照し、自己診断出力計算機11bは正常動作していると正しく判断する。しかし、自己診断出力計算機11aは自己診断情報を更新しないため、故障検出計算機CPU18が自己診断出力計算機11aの自己診断情報を参照した場合、図3の(2)に示したように、更新されていない自己診断情報「00」を参照し、正常動作していると誤判断する。
The failure
このことから、各自己診断出力計算機11から送信された自己診断情報のみ用いると、自己診断出力計算機CPU13が動作している場合は故障検出可能であるが、例えば自己診断出力計算機CPU13が故障等により停止した場合は故障検出できないことがわかる。
Therefore, if only the self-diagnosis information transmitted from each self-
そこで図3の(3)と(4)に示すように、受信時刻計測部22から出力される受信時刻データ23を自己診断情報受信部19に入力し、各自己診断出力計算機11より送信される自己診断情報と受信時刻データとを併用して故障検出を行う。なお図3の(3)と(4)記載のt1とt2は、受信時刻t1、受信時刻t2を表すデータである。
Therefore, as shown in (3) and (4) of FIG. 3, the
故障検出計算機16内部にある受信時刻計測部22は、例えばカウンタ等のタイマを用いて時刻を計測しており、自己診断情報受信部19に時刻を常時出力している。なお、各自己診断出力計算機11と故障検出計算機16に搭載されているタイマどうしは同期がとれており、各自己診断出力計算機11から故障検出計算機16へ出力される自己診断情報の受信タイミングがあらかじめわかっているならば、受信時刻計測部22から出力される受信時刻データ23は常時出力する必要はなく、受信タイミングに合わせて出力するだけでもよい。
The reception time measurement unit 22 in the failure detection computer 16 measures time using a timer such as a counter, for example, and always outputs the time to the self-diagnosis
自己診断情報受信部19は、各自己診断出力計算機11より自己診断情報を受信した場合、受信時刻計測部22より出力された受信時刻データ23を自己診断情報に付加する。
When receiving the self-diagnosis information from each self-
図3の(3)のように、自己診断出力計算機11aの機能1で故障2が発生した場合、受信時刻t1では自己診断情報と受信時刻データ23を合わせたデータは「00t1」、受信時刻t2では自己診断情報と受信時刻データ23を合わせたデータは「02t2」となるため、図3の(1)と同様に故障検出計算機CPU18は自己診断情報のみを参照比較することで、自己診断出力計算機11aの機能1で故障2が発生したことを正しく判断することができる。
As shown in (3) of FIG. 3, when a
次に図3の(2)と同様に図3の(4)において、自己診断出力計算機11aの自己診断出力計算機CPU13aが故障した場合を説明する。 Next, a case where the self-diagnosis output computer CPU 13a of the self-diagnosis output computer 11a fails in (4) of FIG. 3 as in (2) of FIG. 3 will be described.
自己診断出力計算機11aと自己診断出力計算機11bは、動作を開始してから故障検出計算機16における受信時刻t1まで故障が発生せず、正常動作をしているとする。このとき、自己診断出力計算機11aと自己診断出力計算機11bは、図2(a)のテーブルに従い、正常動作を示す自己診断情報「00」を故障検出計算機16の自己診断情報受信部19に入力する。従って図3の(4)に示したように、受信時刻t1における、自己診断出力計算機11aと自己診断出力計算機11bの自己診断情報と受信時刻データ23を合わせたデータはともに「00t1」となる。
It is assumed that the self-diagnosis output computer 11a and the self-diagnosis output computer 11b are operating normally without a failure until the reception time t1 in the failure detection computer 16 after starting the operation. At this time, the self-diagnosis output computer 11a and the self-diagnosis output computer 11b input the self-diagnosis information “00” indicating normal operation to the self-diagnosis
故障検出計算機16の故障検出計算機CPU18は、上記自己診断情報を参照し、図3には図示していないが、一時刻前の自己診断情報と受信時刻データ23を合わせたデータを比較して、自己診断出力計算機11aと自己診断出力計算機11bは正常動作していると判断する。
The failure
そして、受信時刻t1から次の自己診断情報を受信するタイミングである受信時刻t2までの間に、自己診断出力計算機11aの自己診断出力計算機CPU13aで故障が発生したとする。この場合、自己診断出力計算機11bは正常動作のままなので、自己診断情報は「00」のまま出力する。しかし自己診断出力計算機11aは、自己診断出力計算機CPU13aで故障が発生したため、自己診断出力計算機11aは自己診断情報を出力することができない。 It is assumed that a failure has occurred in the self-diagnosis output computer CPU 13a of the self-diagnosis output computer 11a between the reception time t1 and the reception time t2, which is the timing for receiving the next self-diagnosis information. In this case, since the self-diagnosis output computer 11b remains in normal operation, the self-diagnosis information is output as “00”. However, since the self-diagnosis output computer 11a has failed in the self-diagnosis output computer CPU 13a, the self-diagnosis output computer 11a cannot output self-diagnosis information.
従って受信時刻t2における、自己診断出力計算機11bの自己診断情報と受信時刻データ23を合わせたデータは「00t2」である。しかし自己診断出力計算機11aの自己診断情報は、自己診断情報受信部19にて受信されないため、自己診断情報と受信時刻データ23を合わせたデータは更新されることなく「00t1」のままである。
Therefore, the combined data of the self-diagnosis information of the self-diagnosis output computer 11b and the
故障検出計算機16の故障検出計算機CPU18は、後述するように上記自己診断情報と受信時刻データを合わせたデータについて、受信時刻t2のデータと一時刻前の受信時刻t1のデータを参照比較する。つまり自己診断出力計算機11bは、受信時刻t1でのデータ「00t1」と受信時刻t2でのデータ「00t2」を参照比較することで、正常動作していると正しく判断する。
As will be described later, the failure
一方、自己診断出力計算機11aは、自己診断情報と受信時刻データを合わせたデータが更新されないため、受信時刻t1でのデータ「00t1」と受信時刻t2でのデータ「00t1」を参照比較し、受信時刻データが更新されていないことを検出する。 On the other hand, since the combined data of the self-diagnosis information and the reception time data is not updated, the self-diagnosis output computer 11a compares the data “00t1” at the reception time t1 with the data “00t1” at the reception time t2, and receives the data. Detect that time data is not updated.
自己診断情報回線25は、故障検出計算機16と個々の自己診断出力計算機11を接続しているため、共通バス24を用いた場合のような他の自己診断出力計算機11と故障検出計算機16とのデータ送受信による自己診断情報の出力遅延は発生しない。従って、出力遅延によるデータ更新の遅延も発生しない。
Since the self-
このことから、自己診断出力計算機11aの自己診断情報と受信時刻データ23を合わせたデータが受信時刻t1とt2において更新されていない原因は、自己診断情報の出力遅延によるものではなく、自己診断出力計算機11aの自己診断出力計算機CPU13aの故障発生により動作を停止したためと判断することができる。従って、故障検出計算機CPU18は自己診断出力計算機11aの故障を正しく検出できる。
Therefore, the reason why the data combining the self-diagnosis information of the self-diagnosis output computer 11a and the
図4は、実施の形態1における自己診断情報受信部19から受信メモリ部20に出力されるデータの一例を示す図である。
FIG. 4 is a diagram illustrating an example of data output from the self-diagnosis
図4(a)は、自己診断出力計算機の自己診断情報と受信時刻に関するデータの一例である。例えばNo.1は、自己診断出力計算機aの自己診断情報「00」(正常)が00時01分00秒(t1)に受信されたことを表す。またNo.2は、自己診断出力計算機aの自己診断情報「02」(機能1で故障2が発生)が00時01分30秒(t2)に受信されたことを表す。
FIG. 4A is an example of data relating to self-diagnosis information and reception time of the self-diagnosis output computer. For example, no. 1 represents that the self-diagnosis information “00” (normal) of the self-diagnosis output computer a is received at 00:01:00 (t1). No. 2 indicates that self-diagnosis information “02” (
図4(a)のデータをもとに、故障検出計算機16の自己診断情報受信部19が自己診断情報を受信した場合、受信メモリ部20に出力するデータフォーマット例を図4(b)に示す。自己診断情報受信部19には、例えば図2(b)に示したように自己診断出力計算機から送信された自己診断出力計算機IDと自己診断情報と、受信時刻計測部22より出力された受信時刻データ23が入力する。これらの入力より、図4(b)の(1)に示す自己診断情報受信部データフォーマット例のようにデータを作成する。
FIG. 4B shows an example of a data format to be output to the
次に、受信メモリ部20に一時記憶させるため、受信メモリアドレスと受信メモリデータに分ける。図4(b)の(2)に示すように、受信メモリアドレスは、自己診断出力計算機ID部と受信時刻の前後関係を表すビットであるTIME部より構成される。
Next, for temporary storage in the
TIME部とは、図3でも説明したように、受信時刻t2の自己診断情報と一時刻前の受信時刻t1の自己診断情報とを比較して故障検出を行うため、受信時刻を用いて同一自己診断出力計算機の自己診断情報を区別するためのビットである。なお説明の便宜上、受信時刻t2に基づくアドレスをNEWアドレスと呼び、一時刻前の受信時刻t1に基づくアドレスをOLDアドレスと呼ぶこととする。 As described in FIG. 3, the TIME unit compares the self-diagnosis information at the reception time t2 with the self-diagnosis information at the reception time t1 one time before, and performs fault detection. It is a bit for distinguishing the self-diagnosis information of the diagnostic output computer. For convenience of explanation, an address based on the reception time t2 is called a NEW address, and an address based on the reception time t1 one time before is called an OLD address.
また図4(b)の(3)に示すように、受信メモリデータは自己診断情報と受信時刻より構成される。従って、例えば、受信時刻t1において正常動作している自己診断情報を受信した場合は「00t1」、受信時刻t2において機能1で故障2が発生している自己診断情報を受信した場合は「02t2」となる。なお説明の便宜上、受信メモリデータにおいてNEWアドレスに対応するデータをNEWデータと呼び、OLDアドレスに対応するデータをOLDデータと呼ぶこととする。受信メモリ部20は、自己診断情報受信部19より出力されたNEWデータを記憶する。
As shown in (3) of FIG. 4B, the reception memory data is composed of self-diagnosis information and reception time. Thus, for example, “00t1” is received when the self-diagnosis information operating normally at the reception time t1 is received, and “02t2” is received when the self-diagnosis information in which the
図5は、受信メモリ部20に記憶された自己診断出力計算機aに対するデータの比較による故障検出を示す図である。また図6は、受信メモリ部20に一時記憶された自己診断出力計算機aのデータを用いて故障検出を行うことを示したフローチャートの一例である。図5、図6に従い、処理内容を説明する。なお説明は自己診断出力計算機aのみについて行うが、自己診断出力計算機bも同様である。
FIG. 5 is a diagram showing failure detection by comparing data with respect to the self-diagnosis output computer a stored in the
最初に、マルチプロセッサ並列処理システムが起動したときに故障検出をスタートさせる(ステップST101)。このとき受信メモリ部20のデータは、全ビット0または全ビット1などのように適切な初期値に設定する。
First, failure detection is started when the multiprocessor parallel processing system is activated (step ST101). At this time, the data in the
次に、図5に示されているように、受信メモリにおける一時刻前の受信時刻におけるNEWデータをOLDアドレスのデータ(OLDデータ)として上書きして一時記憶する(図6 ステップST102)。 Next, as shown in FIG. 5, the NEW data at the reception time one time before in the reception memory is overwritten as OLD address data (OLD data) and temporarily stored (step ST102 in FIG. 6).
次に、受信した自己診断出力計算機aの自己診断情報と受信時刻を示すデータを合わせたデータを受信メモリ部20のNEWデータに上書き更新して一時記憶する(図6 ステップST103)。 Next, the data obtained by combining the received self-diagnosis information of the self-diagnosis output computer a and data indicating the reception time is overwritten and updated in the NEW data of the reception memory unit 20 (step ST103 in FIG. 6).
次に、一時記憶したNEWデータと一時刻前のNEWデータであるOLDデータを受信メモリ部20より読み出す(図6 ステップST104)。 Next, the temporarily stored NEW data and the OLD data which is the NEW data one hour before are read from the reception memory unit 20 (step ST104 in FIG. 6).
次に、受信メモリ部20より読み出したOLDデータとNEWデータとを比較する(図6 ステップST105)。
Next, the OLD data read from the
ここで、図5の(1)に示しているように、自己診断出力計算機aが正常動作している場合について説明する。自己診断出力計算機aが正常動作している場合、図5の(1)のようにOLDデータとNEWデータ(例えば「00t1」と「00t2」)は異なるため、図6のステップST105はNOとなる。 Here, the case where the self-diagnosis output computer a is operating normally as shown in (1) of FIG. 5 will be described. When the self-diagnosis output computer a is operating normally, the OLD data and the NEW data (for example, “00t1” and “00t2”) are different as shown in (1) of FIG. 5, and therefore step ST105 of FIG. 6 is NO. .
その場合、NEWデータが異常を示しているか判断する(図6 ステップST106)。異常の有無は、図4に示すように、NEWデータを構成している要素のうち自己診断情報よりわかる。 In that case, it is determined whether the NEW data indicates an abnormality (step ST106 in FIG. 6). As shown in FIG. 4, the presence / absence of an abnormality can be found from self-diagnosis information among elements constituting NEW data.
自己診断出力計算機aが正常動作している場合、NEWデータは正常を示す(例えば「00t2」のうちの「00」)ため、図6のステップST106はNOとなる。その場合、図6のステップST102に戻る。以降、同様の処理ループを繰り返す。 When the self-diagnosis output computer a is operating normally, the NEW data indicates normality (for example, “00” of “00t2”), so step ST106 in FIG. 6 is NO. In that case, the process returns to step ST102 of FIG. Thereafter, the same processing loop is repeated.
次に、図5の(2)に示しているように、自己診断出力計算機aにおいて機能1で故障2が発生した場合について説明する。この場合、例えばOLDデータは「00t1」、NEWデータは「02t2」であるから、図6のステップST105においてNOを選択するところまでは上述の通りである。
Next, as shown in (2) of FIG. 5, a case where a
図5の(2)では、受信時刻t1とt2の間に機能1で故障2が発生した場合を示している。従って受信時刻t2におけるNEWデータには機能1で故障2が発生した情報(例えば「02t2」のうちの「02」)が含まれているため、図6のステップST106はYESとなる。
(2) in FIG. 5 shows a case where the
NEWデータを構成する自己診断情報より、どの機能がどのような異常を起こしているか読み取り(図6 ステップST107)、自己診断出力計算機aに異常が発生した旨の表示を行う(図6 ステップST108)。更に正確を期して、自己診断出力計算機aの故障した機能と故障内容の表示をさせてもよい。 From the self-diagnosis information composing the NEW data, which function is causing what kind of abnormality is read (step ST107 in FIG. 6), and the fact that an abnormality has occurred is displayed on the self-diagnosis output computer a (step ST108 in FIG. 6). . Further, for the sake of accuracy, the malfunction function of the self-diagnosis output computer a and the contents of the malfunction may be displayed.
自己診断出力計算機aの異常発生を表示させたら、例えば全計算機を停止させるなどして、故障検出処理を終了させる(図6 ステップST109)。 When the occurrence of abnormality in the self-diagnosis output computer a is displayed, the failure detection process is terminated by stopping all the computers, for example (step ST109 in FIG. 6).
最後に、図5の(3)に示しているように、受信時刻t1と受信時刻t2の間に自己診断出力計算機aにおいてCPUが故障した場合について説明する。その場合、図5の(3)に示しているように受信時刻t2におけるデータは更新されないため、OLDデータとNEWデータは一致し(例えば「00t1」と「00t1」)、図6のステップST105はYESを選択する。 Finally, as shown in (3) of FIG. 5, a case where the CPU fails in the self-diagnosis output computer a between the reception time t1 and the reception time t2 will be described. In that case, since the data at the reception time t2 is not updated as shown in (3) of FIG. 5, the OLD data and the NEW data match (for example, “00t1” and “00t1”), and step ST105 of FIG. Select YES.
この場合、自己診断出力計算機aのCPUが停止等で故障しているため、自己診断情報は更新されていないと判断する(図6 ステップST110)。 In this case, it is determined that the self-diagnosis information has not been updated because the CPU of the self-diagnosis output computer a is out of order or the like (step ST110 in FIG. 6).
自己診断出力計算機aのCPUが故障していると判断した場合は、自己診断出力計算機aに異常が発生した旨の表示を行う(図6 ステップST108)。更に正確を期して、自己診断出力計算機aのCPU故障の表示をさせてもよい。自己診断出力計算機aの異常発生を表示させたら、例えば全計算機を停止させるなどして、故障検出処理を終了させる(図6 ステップST109)。 If it is determined that the CPU of the self-diagnosis output computer a has failed, a display indicating that an abnormality has occurred in the self-diagnosis output computer a is displayed (step ST108 in FIG. 6). For further accuracy, the CPU failure of the self-diagnosis output computer a may be displayed. When the occurrence of abnormality in the self-diagnosis output computer a is displayed, the failure detection process is terminated by stopping all the computers, for example (step ST109 in FIG. 6).
このように、自己診断情報と受信時刻を併用して参照比較することで、自己診断出力計算機の故障検出を行うことが可能となる。 In this way, it is possible to detect a failure of the self-diagnosis output computer by performing a reference comparison using the self-diagnosis information and the reception time together.
故障検出後、全計算機の処理を止めるなど行い故障計算機を交換する、または故障計算機をマルチプロセッサ並列処理システムから除外して残りの計算機を用いて処理を継続する、などの処置を行うことが可能である。 After detecting a failure, it is possible to replace the failed computer by stopping the processing of all computers, or to remove the failed computer from the multiprocessor parallel processing system and continue the processing using the remaining computers. It is.
このように、共通バス24を用いずに自己診断情報回線25を用いて自己診断情報を送信することにより、共通バス24のデータ転送量を低下させることは無い。また自己診断情報回線25では共通バス24のような出力遅延が発生しないため、確実に故障検出を行うことが可能である。
As described above, by transmitting the self-diagnosis information using the self-
更に、故障検出計算機16内部に受信時刻計測部22を設けて、受信した自己診断情報に受信時刻データ23を付加し、故障検出計算機CPU18が参照比較することで、自己診断出力計算機の機能故障のみならず、プロセッサの故障発生により自己診断情報が更新されない場合での故障検出を行うことが可能となる、という効果を奏する。
Further, a reception time measuring unit 22 is provided in the failure detection computer 16 to add the
11.自己診断出力計算機
12.共通バスI/F部
13.自己診断出力計算機CPU
14.自己診断情報送信部
15.内部バス
16.故障検出計算機
17.共通バスI/F部
18.故障検出計算機CPU
19.自己診断情報受信部
20.受信メモリ部
21.内部バス
22.受信時刻計測部
23.受信時刻データ
24.共通バス
25.自己診断情報回線
11. Self-diagnosis output calculator 12. Common bus I /
14 Self-diagnosis
19. Self-diagnosis
Claims (4)
前記自己診断出力計算機は、自らの自己診断結果を示す自己診断情報を作成出力し、
前記自己診断情報回線は、前記自己診断出力計算機と各々接続し、前記自己診断出力計算機から出力される自己診断情報を伝送し、
前記故障検出計算機は、前記自己診断情報回線と全て接続し、前記自己診断情報回線から伝送された自己診断情報を受信し、受信した前記自己診断情報に基づいて前記自己診断情報を送信した自己診断出力計算機の故障を検出する
ことを特徴とする計算機故障検出システム。 A plurality of self-diagnosis output computers, a failure detection computer, and a self-diagnosis information line connecting the plurality of self-diagnosis output computers and the failure detection computer,
The self-diagnosis output computer creates and outputs self-diagnosis information indicating its own self-diagnosis result,
The self-diagnosis information line is connected to the self-diagnosis output computer, and transmits self-diagnosis information output from the self-diagnosis output computer.
The fault detection computer is connected to the self-diagnosis information line, receives the self-diagnosis information transmitted from the self-diagnosis information line, and transmits the self-diagnosis information based on the received self-diagnosis information. A computer fault detection system characterized by detecting a fault in an output computer.
前記メモリ部は、前記自己診断出力計算機から出力された自己診断情報を受信した場合、前記自己診断情報の受信時刻と前記自己診断情報とを対応づけたデータを格納し、
前記CPUは、前記メモリ部に格納された前記データを参照して、前記自己診断情報を送信した自己診断出力計算機の故障を検出することを特徴とする請求項1記載の計算機故障検出システム。 The failure detection computer includes a memory unit and a CPU,
When the memory unit receives the self-diagnosis information output from the self-diagnosis output computer, the memory unit stores data in which the reception time of the self-diagnosis information and the self-diagnosis information are associated with each other.
2. The computer failure detection system according to claim 1, wherein the CPU detects a failure of a self-diagnosis output computer that has transmitted the self-diagnosis information with reference to the data stored in the memory unit.
前記出力された自己診断情報に基づき、前記自己診断情報の受信時刻と前記自己診断情報とを対応づけたデータを参照比較して前記自己診断情報を送信した計算機の故障を検出する工程と、
を備えたことを特徴とする計算機故障検出方法。 Creating and outputting self-diagnosis information in each computer;
Detecting a failure of the computer that transmitted the self-diagnosis information by referring to and comparing data in which the self-diagnosis information is received and the self-diagnosis information based on the output self-diagnosis information; and
A computer fault detection method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006330676A JP2008146222A (en) | 2006-12-07 | 2006-12-07 | Computer failure detection system and computer failure detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006330676A JP2008146222A (en) | 2006-12-07 | 2006-12-07 | Computer failure detection system and computer failure detection method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008146222A true JP2008146222A (en) | 2008-06-26 |
Family
ID=39606358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006330676A Pending JP2008146222A (en) | 2006-12-07 | 2006-12-07 | Computer failure detection system and computer failure detection method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008146222A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012079266A (en) * | 2010-10-06 | 2012-04-19 | Nec Computertechno Ltd | Information processing apparatus, fault portion discrimination method and fault portion discrimination program |
JPWO2012050209A1 (en) * | 2010-10-15 | 2014-02-24 | 三洋電機株式会社 | Management system and system controller |
CN104375916A (en) * | 2014-10-17 | 2015-02-25 | 合肥联宝信息技术有限公司 | Method and device for directly achieving computer hardware diagnosis through USB interface |
-
2006
- 2006-12-07 JP JP2006330676A patent/JP2008146222A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012079266A (en) * | 2010-10-06 | 2012-04-19 | Nec Computertechno Ltd | Information processing apparatus, fault portion discrimination method and fault portion discrimination program |
JPWO2012050209A1 (en) * | 2010-10-15 | 2014-02-24 | 三洋電機株式会社 | Management system and system controller |
CN104375916A (en) * | 2014-10-17 | 2015-02-25 | 合肥联宝信息技术有限公司 | Method and device for directly achieving computer hardware diagnosis through USB interface |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20130219229A1 (en) | Fault monitoring device, fault monitoring method, and non-transitory computer-readable recording medium | |
JPH01293450A (en) | Troubled device specifying system | |
JP4291384B2 (en) | Detection method of disconnection and power supply disconnection of IO unit connected to numerical controller | |
US7676693B2 (en) | Method and apparatus for monitoring power failure | |
JP2008146222A (en) | Computer failure detection system and computer failure detection method | |
US7774690B2 (en) | Apparatus and method for detecting data error | |
JPH0375834A (en) | Apparatus and method of sequentially correcting parity | |
US20090177890A1 (en) | Method and Device for Forming a Signature | |
JP4954249B2 (en) | Electronic terminal device and electronic interlocking device | |
JP2009217435A (en) | Control method, information processing apparatus, and storage system | |
US8264948B2 (en) | Interconnection device | |
KR101581309B1 (en) | Airplane Electronic Device for Interlocking Failure Detection and Elimination of Each Board Unit | |
JP4126849B2 (en) | Multi-CPU system monitoring method | |
JP6540309B2 (en) | Shared memory system, arithmetic processing unit and method | |
CN109101359B (en) | Equipment, method and module for transmitting information between equipment components and computer equipment | |
JP2009146308A (en) | Data transfer system and data transfer method | |
JP2891188B2 (en) | Signal sending circuit | |
JP5680434B2 (en) | PCI bus control system | |
JP5451700B2 (en) | Computer system, time information switching device, and computer system control method | |
JP5768434B2 (en) | Mutual monitoring system | |
JP2606160B2 (en) | Failure detection method for parity check circuit | |
JPH0898278A (en) | Digital control system | |
JP4258372B2 (en) | Common memory management method | |
JPH1115698A (en) | Method for reporting failure and mechanism therefor | |
JP2021135121A (en) | Fault detection circuit and fault detection system |