JP2008146222A - Computer failure detection system and computer failure detection method - Google Patents

Computer failure detection system and computer failure detection method Download PDF

Info

Publication number
JP2008146222A
JP2008146222A JP2006330676A JP2006330676A JP2008146222A JP 2008146222 A JP2008146222 A JP 2008146222A JP 2006330676 A JP2006330676 A JP 2006330676A JP 2006330676 A JP2006330676 A JP 2006330676A JP 2008146222 A JP2008146222 A JP 2008146222A
Authority
JP
Japan
Prior art keywords
self
diagnosis
computer
diagnosis information
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006330676A
Other languages
Japanese (ja)
Inventor
Takayuki Uchida
貴之 内田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2006330676A priority Critical patent/JP2008146222A/en
Publication of JP2008146222A publication Critical patent/JP2008146222A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To solve the problem that since the data transfer quantity of a common bus is limited in a conventional computer failure detection system, the use of the common bus for notifying the other processor of self-diagnosis information results in the deterioration of the data transfer quantity of the common bus, and since the common bus is used by the other processor, use permission is not available, and the output of self-diagnosis information is delayed, and it is not possible to correctly detect any failure. <P>SOLUTION: This computer failure detection system is provided with a plurality of self-diagnosis output computers, a failure detection computer, and a self-diagnosis information line for connecting a plurality of self-diagnosis output computers with the failure detection computer. The self-diagnosis output computer prepares self-diagnosis information by itself, and the self-diagnosis information line transmits the self-diagnosis information to be output from each self-diagnosis output computer, and the failure detection computer detects the failure of the self-diagnosis output computer which has transmitted self-diagnosis information based on the self-diagnosis information received from each self-diagnosis information line. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

この発明は、マルチプロセッサ並列処理システムにおいて、プロセッサ搭載の各計算機を接続する共通バスの性能を低下させることなく計算機の故障を検出するシステムおよび方法に関する。   The present invention relates to a system and method for detecting a failure of a computer in a multiprocessor parallel processing system without degrading the performance of a common bus connecting the computers mounted on the processor.

従来のマルチプロセッサ並列処理システムにおいて、計算機で発生した故障を検出する方法として、プロセッサを搭載した各計算機が共通バスを介して自己診断情報を周期的に他のプロセッサに通知し、各プロセッサは、他のプロセッサから周期的に通知された自己診断情報を確認することで、故障が発生した計算機を検出する方法が知られている(例えば、特許文献1参照)。   In a conventional multiprocessor parallel processing system, as a method of detecting a failure occurring in a computer, each computer equipped with a processor periodically notifies self-diagnosis information to other processors via a common bus. A method of detecting a computer in which a failure has occurred by checking self-diagnosis information periodically notified from another processor is known (see, for example, Patent Document 1).

特開平7−219910(第2〜4頁、第3図)JP-A-7-219910 (pages 2-4, FIG. 3)

しかしマルチプロセッサ並列処理システムにおいて、プロセッサ間のデータ通信に用いる共通バスはデータ転送量が限られている。よって、あるプロセッサが他のプロセッサに対して周期的に自己診断情報を通知するために共通バスを使用すると、プロセッサ間でのデータ通信で使用可能なデータ転送量は低下する。   However, in a multiprocessor parallel processing system, the common bus used for data communication between processors has a limited data transfer amount. Therefore, when a certain processor uses a common bus to periodically notify self-diagnosis information to other processors, the amount of data transfer that can be used for data communication between the processors decreases.

加えて自己診断情報を通知すべきプロセッサが、例えば他のプロセッサの共通バス使用により、共通バスでのデータ通信を管理している計算機から共通バスの使用許可を得られず自己診断情報を出力できないため、自己診断情報の出力遅延が発生する可能性もある。   In addition, the processor that should notify the self-diagnosis information cannot output self-diagnosis information because the use of the common bus cannot be obtained from the computer that manages the data communication on the common bus, for example, by using the common bus of another processor. Therefore, there is a possibility that output delay of self-diagnosis information occurs.

従って共通バスを用いて自己診断情報を通知することにより、共通バスのデータ転送量が低下するとともに、自己診断情報を受信した計算機において自己診断情報が更新されていない原因は、自己診断情報の出力遅延で未更新なのか、それとも送信側プロセッサ故障による送信不能で未更新なのか判断できず、正しい故障検出ができないという課題があった。   Therefore, by notifying the self-diagnosis information using the common bus, the data transfer amount of the common bus decreases, and the reason that the self-diagnosis information is not updated in the computer that has received the self-diagnosis information is the output of the self-diagnosis information There is a problem in that it is impossible to determine whether it is not updated due to a delay or whether it is not updated because transmission is not possible due to a transmitter processor failure, and correct failure detection cannot be performed.

本発明は係る課題を解決するためになされたものであり、共通バスのデータ転送量を低下させることなく、各計算機の自己診断情報をもとに計算機の故障を正しく検出することを目的とする。   The present invention has been made to solve such problems, and has an object to correctly detect a computer failure based on self-diagnosis information of each computer without reducing the data transfer amount of a common bus. .

本発明に係る計算機故障検出システムは、
複数の自己診断出力計算機、及び故障検出計算機、及び前記複数の自己診断出力計算機と前記故障検出計算機とを接続する自己診断情報回線を備え、
前記自己診断出力計算機は、自らの自己診断結果を示す自己診断情報を作成出力し、
前記自己診断情報回線は、前記自己診断出力計算機と各々接続し、前記自己診断出力計算機から出力される自己診断情報を伝送し、
前記故障検出計算機は、前記自己診断情報回線と全て接続し、前記自己診断情報回線から伝送された自己診断情報を受信し、受信した前記自己診断情報に基づいて前記自己診断情報を送信した自己診断出力計算機の故障を検出する
ことを特徴とする。
The computer failure detection system according to the present invention is:
A plurality of self-diagnosis output computers, a failure detection computer, and a self-diagnosis information line connecting the plurality of self-diagnosis output computers and the failure detection computer,
The self-diagnosis output computer creates and outputs self-diagnosis information indicating its own self-diagnosis result,
The self-diagnosis information line is connected to the self-diagnosis output computer, and transmits self-diagnosis information output from the self-diagnosis output computer.
The fault detection computer is connected to the self-diagnosis information line, receives the self-diagnosis information transmitted from the self-diagnosis information line, and transmits the self-diagnosis information based on the received self-diagnosis information. It is characterized by detecting a failure of the output computer.

本発明のように、共通バスを用いずに自己診断情報回線を用いて自己診断情報を送信することにより、共通バスのデータ転送量を低下させることは無い。また自己診断情報回線では共通バスのような出力遅延が発生しないため、確実に故障検出を行うことが可能である。   By transmitting the self-diagnosis information using the self-diagnosis information line without using the common bus as in the present invention, the data transfer amount of the common bus is not reduced. In addition, since the self-diagnosis information line does not cause an output delay unlike the common bus, it is possible to reliably detect a failure.

実施の形態1.
図1は、実施の形態1における計算機故障検出方法を実現するマルチプロセッサ並列処理システムの一構成例を示している。
Embodiment 1 FIG.
FIG. 1 shows a configuration example of a multiprocessor parallel processing system that implements the computer fault detection method according to the first embodiment.

図1は、自己診断出力計算機が2台、故障検出計算機が1台で構成されている。しかしマルチプロセッサ並列処理システムにおける自己診断出力計算機は、図1のように2台に限定する必要はなく、並列処理システムに必要とされる台数で並列処理システムを構成させてよいことはいうまでもない。   FIG. 1 includes two self-diagnosis output computers and one failure detection computer. However, it is not necessary to limit the number of self-diagnosis output computers in the multiprocessor parallel processing system to two as shown in FIG. 1, and it is needless to say that the parallel processing system may be configured by the number required for the parallel processing system. Absent.

自己診断出力計算機11は、各々共通バスI/F(インタフェース)部12と、自己診断出力計算機CPU(Central Processing Unit:中央処理装置)13と、自己診断情報送信部14とを含む構成であり、内部バス15にて各々内部接続されている。   Each of the self-diagnosis output computers 11 includes a common bus I / F (interface) unit 12, a self-diagnosis output computer CPU (Central Processing Unit) 13, and a self-diagnosis information transmission unit 14. Each is internally connected by an internal bus 15.

故障検出計算機16は、共通バスI/F部17と、故障検出計算機CPU18と、自己診断情報受信部19と、受信メモリ部20とを含む構成であり、内部バス21にて各々接続されている。また故障検出計算機16は受信時刻計測部22を含む。受信時刻計測部22より出力される受信時刻データ23は、自己診断情報受信部19に入力される。   The failure detection computer 16 includes a common bus I / F unit 17, a failure detection computer CPU 18, a self-diagnosis information reception unit 19, and a reception memory unit 20, and each is connected via an internal bus 21. . The failure detection computer 16 includes a reception time measuring unit 22. Reception time data 23 output from the reception time measurement unit 22 is input to the self-diagnosis information reception unit 19.

図1の自己診断出力計算機11と故障検出計算機16は、自己診断出力計算機11の共通バスI/F部12と、故障検出計算機16の共通バスI/F部17を通じて共通バス24により接続されている。各計算機間は、接続された共通バス24を用いてデータ転送を行う。   The self-diagnosis output computer 11 and the failure detection computer 16 of FIG. 1 are connected by a common bus 24 through the common bus I / F unit 12 of the self-diagnosis output computer 11 and the common bus I / F unit 17 of the failure detection computer 16. Yes. Data transfer is performed between the computers using the connected common bus 24.

また各自己診断出力計算機11内部の自己診断情報送信部14と、故障検出計算機16内部の自己診断情報受信部19は、図1のように各々自己診断情報回線25により接続されている。各自己診断出力計算機11は、接続された自己診断情報回線25を用いて故障検出計算機へ自己診断情報を送信する。なお自己診断情報回線25は、シリアル伝送、パラレル伝送いずれでもよい。   Further, the self-diagnosis information transmission unit 14 in each self-diagnosis output computer 11 and the self-diagnosis information reception unit 19 in the failure detection computer 16 are connected by a self-diagnosis information line 25 as shown in FIG. Each self-diagnosis output computer 11 transmits self-diagnosis information to the failure detection computer using the connected self-diagnosis information line 25. The self-diagnosis information line 25 may be either serial transmission or parallel transmission.

図2は、実施の形態1における自己診断出力計算機11より出力される自己診断情報に関するテーブル及び自己診断情報のデータフレームの一例を示した図である。   FIG. 2 is a diagram illustrating an example of a table relating to self-diagnosis information output from the self-diagnosis output computer 11 and a data frame of self-diagnosis information in the first embodiment.

各自己診断出力計算機11は、自己診断出力計算機11内部において処理される機能及びその機能を実現するためのプログラムや装置等につき、正常動作をしているか異常動作をしているかの自己診断を行う。ここではその一例として、自己診断出力計算機11aにおける自己診断について説明する。   Each self-diagnosis output computer 11 performs a self-diagnosis as to whether a function is processed in the self-diagnosis output computer 11 and a program or a device for realizing the function is operating normally or abnormally. . Here, as an example, self-diagnosis in the self-diagnosis output computer 11a will be described.

自己診断出力計算機11aに搭載された自己診断出力計算機CPU13aは、内部において処理される機能及びその機能を実現するためのプログラムや装置等、例えばROM(Read Only Memory)やRAM(Random Access Memory)等のメモリ、また情報処理等を行うPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)やDSP(Digital Signal Processor)などの信号処理デバイス、及びそれらより構成される基板、装置等に対して周期的に自己診断プログラムを実行する。自己診断プログラムでは、自己診断出力計算機11aの各機能が正常動作か異常動作かを確認し、必要であれば、例えば機能確認用プログラムを実行して異常動作であることを検出する。   The self-diagnosis output computer CPU 13a mounted on the self-diagnosis output computer 11a has functions to be processed inside and programs and devices for realizing the functions, such as ROM (Read Only Memory), RAM (Random Access Memory), etc. Memory, signal processing devices such as PLD (Programmable Logic Device), FPGA (Field Programmable Gate Array) and DSP (Digital Signal Processor) that perform information processing, etc. Run self-diagnostic program. In the self-diagnosis program, whether each function of the self-diagnosis output computer 11a is operating normally or abnormally is checked, and if necessary, for example, a function checking program is executed to detect abnormal operation.

例えば自己診断の結果、自己診断出力計算機11a内部の機能が全て正常動作している場合、自己診断出力計算機CPU13aは、図2(a)のように自己診断情報00を得る。また例えば自己診断の結果、自己診断出力計算機11a内部の機能のうち、機能1において故障2が発生している場合、自己診断出力計算機CPU13aは、同様にして自己診断情報02を得る。   For example, if all the functions inside the self-diagnosis output computer 11a are operating normally as a result of self-diagnosis, the self-diagnosis output computer CPU 13a obtains self-diagnosis information 00 as shown in FIG. Further, for example, when a failure 2 occurs in the function 1 among the functions in the self-diagnosis output computer 11a as a result of the self-diagnosis, the self-diagnosis output computer CPU 13a similarly obtains the self-diagnosis information 02.

なお図2(a)において、自己診断情報は16進数表示(hexadecimal、図2(a)ではhexと表示)で表されており、ビット数は8ビットとしている。しかし、ビット数は8ビットに限定するものではなく、想定される故障内容全てを表示可能とするビット数としてもよいことはいうまでもない。   In FIG. 2A, the self-diagnosis information is expressed in hexadecimal notation (hexadecimal, indicated as hex in FIG. 2A), and the number of bits is 8 bits. However, it is needless to say that the number of bits is not limited to 8 bits, and may be the number of bits that can display all the assumed failure contents.

図2(a)の自己診断情報テーブルに基づき自己診断出力計算機CPU13aは、例えば図2(b)に示す自己診断情報のデータフレームを作成して自己診断情報回線25aに出力する。送信する自己診断情報のデータフレームの構成要素は、どの自己診断出力計算機に関する自己診断情報かを表す自己診断出力計算機ID(IDentifier)と当該自己診断出力計算機の自己診断情報である。   Based on the self-diagnosis information table of FIG. 2A, the self-diagnosis output computer CPU 13a creates a data frame of self-diagnosis information shown in FIG. 2B, for example, and outputs it to the self-diagnosis information line 25a. The constituent elements of the data frame of the self-diagnosis information to be transmitted are a self-diagnosis output computer ID (IDentifier) indicating which self-diagnosis output computer is self-diagnosis information and self-diagnosis information of the self-diagnosis output computer.

なお自己診断情報のデータフレームは自己診断出力計算機CPU13aではなく、自己診断情報送信部14aにおいて作成してもよいし、またデータフレーム作成用の機能ブロックや回路を設けて作成してもよい。   The data frame of the self-diagnosis information may be created not by the self-diagnosis output computer CPU 13a but by the self-diagnosis information transmission unit 14a, or may be created by providing a functional block or circuit for creating a data frame.

自己診断情報のデータフレームを作成した後、自己診断出力計算機11aの自己診断情報は、自己診断情報送信部14aより出力される。自己診断情報送信部14aより出力された自己診断出力計算機11aの自己診断情報は、自己診断情報回線25aを介して故障検出計算機16の自己診断情報受信部19へ入力される。   After creating the data frame of the self-diagnosis information, the self-diagnosis information of the self-diagnosis output computer 11a is output from the self-diagnosis information transmission unit 14a. The self-diagnosis information of the self-diagnosis output computer 11a output from the self-diagnosis information transmission unit 14a is input to the self-diagnosis information reception unit 19 of the failure detection computer 16 via the self-diagnosis information line 25a.

自己診断出力計算機11bも同様の処理を行う。また自己診断出力計算機11が3台以上ある場合も同様の処理を行う。   The self-diagnosis output computer 11b performs the same processing. The same processing is performed when there are three or more self-diagnosis output computers 11.

図3は、実施の形態1における故障検出計算機16の自己診断情報受信部19におけるデータ処理に受信時刻データ23を使用することを説明する図である。   FIG. 3 is a diagram illustrating the use of the reception time data 23 for data processing in the self-diagnosis information reception unit 19 of the failure detection computer 16 in the first embodiment.

図3は、自己診断出力計算機11aで故障が発生し、自己診断出力計算機11bは正常動作する場合を示している。図3のうち(1)と(2)は受信時刻データ23を併用せずに故障検出を行う場合を、(3)と(4)は受信時刻データ23を併用して故障検出を行う場合を示している。   FIG. 3 shows a case where a failure occurs in the self-diagnosis output computer 11a and the self-diagnosis output computer 11b operates normally. 3, (1) and (2) show the case where failure detection is performed without using the reception time data 23, and (3) and (4) show the case where failure detection is performed using the reception time data 23 together. Show.

まず図3の(1)と(2)を用いて、自己診断情報と受信時刻データを併用しない場合について説明する。故障検出計算機16には、図2(b)に示したように自己診断出力計算機IDと自己診断出力計算機の自己診断情報が送信される。   First, the case where the self-diagnosis information and the reception time data are not used together will be described with reference to (1) and (2) of FIG. As shown in FIG. 2B, the failure detection computer 16 is transmitted with the self-diagnosis output computer ID and the self-diagnosis information of the self-diagnosis output computer.

ここで自己診断出力計算機11aの故障には、自己診断出力計算機11aの自己診断出力計算機CPU13aが故障した場合と、自己診断出力計算機CPU13a以外が故障した場合が考えられる。そこでまず図3の(1)のように、自己診断出力計算機CPU13a以外が故障した場合、例えば機能1で故障2が発生した場合について説明する。   Here, the failure of the self-diagnosis output computer 11a includes a case where the self-diagnosis output computer CPU 13a of the self-diagnosis output computer 11a has failed and a case where other than the self-diagnosis output computer CPU 13a has failed. Therefore, first, as in (1) of FIG. 3, a case where a failure other than the self-diagnosis output computer CPU 13a has failed, for example, a failure 2 in function 1 will be described.

自己診断出力計算機11aと自己診断出力計算機11bは、動作を開始してから故障検出計算機16における受信時刻t1まで故障が発生せず、正常動作をしているとする。このとき、自己診断出力計算機11aと自己診断出力計算機11bは、図2(a)のテーブルに従い、正常動作を示す自己診断情報「00」を故障検出計算機16の自己診断情報受信部19に入力する。従って図3の(1)に示したように、受信時刻t1に、自己診断情報受信部19にて受信された自己診断出力計算機11aと自己診断出力計算機11bの自己診断情報はともに「00」である。   It is assumed that the self-diagnosis output computer 11a and the self-diagnosis output computer 11b are operating normally without a failure until the reception time t1 in the failure detection computer 16 after starting the operation. At this time, the self-diagnosis output computer 11a and the self-diagnosis output computer 11b input the self-diagnosis information “00” indicating normal operation to the self-diagnosis information receiving unit 19 of the failure detection computer 16 according to the table of FIG. . Therefore, as shown in (1) of FIG. 3, the self-diagnosis information of the self-diagnosis output computer 11a and the self-diagnosis output computer 11b received by the self-diagnosis output reception unit 19 at the reception time t1 is both “00”. is there.

故障検出計算機16の故障検出計算機CPU18は、上記自己診断情報を参照し、自己診断出力計算機11aと自己診断出力計算機11bは正常動作していると判断する。   The failure detection computer CPU 18 of the failure detection computer 16 refers to the self-diagnosis information and determines that the self-diagnosis output computer 11a and the self-diagnosis output computer 11b are operating normally.

次に、受信時刻t1から次の自己診断情報を受信するタイミングである受信時刻t2までの間に、自己診断出力計算機11aの機能1で故障2が発生したとする。この場合、自己診断出力計算機11bは正常動作のままなので、自己診断情報は「00」のまま出力する。しかし自己診断出力計算機11aは、機能1で故障2が発生しているため、図2(a)のテーブルに従い「02」を出力する。従って図3の(1)に示したように、受信時刻t2に自己診断情報受信部19にて受信された自己診断出力計算機11aの自己診断情報は「02」、自己診断出力計算機11bの自己診断情報は「00」である。   Next, it is assumed that a failure 2 has occurred in the function 1 of the self-diagnosis output computer 11a between the reception time t1 and the reception time t2, which is the timing for receiving the next self-diagnosis information. In this case, since the self-diagnosis output computer 11b remains in normal operation, the self-diagnosis information is output as “00”. However, the self-diagnosis output computer 11a outputs “02” in accordance with the table of FIG. Accordingly, as shown in (1) of FIG. 3, the self-diagnosis information of the self-diagnosis output computer 11a received by the self-diagnosis information receiving unit 19 at the reception time t2 is “02”, and the self-diagnosis of the self-diagnosis output computer 11b. The information is “00”.

故障検出計算機16の故障検出計算機CPU18は、上記自己診断情報を参照し、自己診断出力計算機11aは機能1で故障2が発生し、自己診断出力計算機11bは正常動作していると判断する。   The failure detection computer CPU 18 of the failure detection computer 16 refers to the self-diagnosis information, and the self-diagnosis output computer 11a determines that the failure 1 occurs in the function 1 and the self-diagnosis output computer 11b operates normally.

しかしこの方法では、CPUが故障した場合、故障検出が正しくできない。そのことを示すため、図3の(2)のように自己診断出力計算機11aの自己診断出力計算機CPU13aが故障した場合を説明する。   However, with this method, when the CPU fails, failure detection cannot be performed correctly. In order to show this, a case will be described where the self-diagnosis output computer CPU 13a of the self-diagnosis output computer 11a fails as shown in (2) of FIG.

自己診断出力計算機11aと自己診断出力計算機11bは、動作を開始してから故障検出計算機16における受信時刻t1まで故障が発生せず、正常動作をしているとする。このとき、自己診断出力計算機11aと自己診断出力計算機11bは、図2(a)のテーブルに従い、正常動作を示す自己診断情報「00」を故障検出計算機16の自己診断情報受信部19に入力する。従って図3の(2)に示したように、受信時刻t1に、自己診断情報受信部19にて受信された自己診断出力計算機11aと自己診断出力計算機11bの自己診断情報はともに「00」である。   It is assumed that the self-diagnosis output computer 11a and the self-diagnosis output computer 11b are operating normally without a failure until the reception time t1 in the failure detection computer 16 after starting the operation. At this time, the self-diagnosis output computer 11a and the self-diagnosis output computer 11b input the self-diagnosis information “00” indicating normal operation to the self-diagnosis information receiving unit 19 of the failure detection computer 16 according to the table of FIG. . Therefore, as shown in (2) of FIG. 3, the self-diagnosis information of the self-diagnosis output computer 11a and the self-diagnosis output computer 11b received by the self-diagnosis information reception unit 19 is “00” at the reception time t1. is there.

故障検出計算機16の故障検出計算機CPU18は、上記自己診断情報を参照し、自己診断出力計算機11aと自己診断出力計算機11bは正常動作していると判断する。   The failure detection computer CPU 18 of the failure detection computer 16 refers to the self-diagnosis information and determines that the self-diagnosis output computer 11a and the self-diagnosis output computer 11b are operating normally.

次に、受信時刻t1から次の自己診断情報を受信するタイミングである受信時刻t2までの間に、自己診断出力計算機11aの自己診断出力計算機CPU13aで故障が発生したとする。この場合、自己診断出力計算機11bは正常動作のままなので、自己診断情報は「00」のまま出力する。しかし自己診断出力計算機11aは、自己診断出力計算機CPU13aで故障が発生したため、自己診断情報を送信することができず、自己診断出力計算機11aは自己診断情報を出力することができない。従って図3の(2)に示したように、受信時刻t2に、自己診断情報受信部19にて受信された自己診断出力計算機11bの自己診断情報は「00」である。しかし自己診断出力計算機11aの自己診断情報は更新されないままである。   Next, it is assumed that a failure has occurred in the self-diagnosis output computer CPU 13a of the self-diagnosis output computer 11a between the reception time t1 and the reception time t2, which is the timing for receiving the next self-diagnosis information. In this case, since the self-diagnosis output computer 11b remains in normal operation, the self-diagnosis information is output as “00”. However, the self-diagnosis output computer 11a cannot transmit the self-diagnosis information because the failure has occurred in the self-diagnosis output computer CPU 13a, and the self-diagnosis output computer 11a cannot output the self-diagnosis information. Accordingly, as shown in (2) of FIG. 3, the self-diagnosis information of the self-diagnosis output computer 11b received by the self-diagnosis information receiving unit 19 at the reception time t2 is “00”. However, the self-diagnosis information of the self-diagnosis output computer 11a is not updated.

故障検出計算機16の故障検出計算機CPU18は、上記自己診断情報を参照し、自己診断出力計算機11bは正常動作していると正しく判断する。しかし、自己診断出力計算機11aは自己診断情報を更新しないため、故障検出計算機CPU18が自己診断出力計算機11aの自己診断情報を参照した場合、図3の(2)に示したように、更新されていない自己診断情報「00」を参照し、正常動作していると誤判断する。   The failure detection computer CPU 18 of the failure detection computer 16 refers to the self-diagnosis information and correctly determines that the self-diagnosis output computer 11b is operating normally. However, since the self-diagnosis output computer 11a does not update the self-diagnosis information, when the failure detection computer CPU 18 refers to the self-diagnosis information of the self-diagnosis output computer 11a, it is updated as shown in (2) of FIG. The self-diagnosis information “00” is not referred to, and it is erroneously determined that it is operating normally.

このことから、各自己診断出力計算機11から送信された自己診断情報のみ用いると、自己診断出力計算機CPU13が動作している場合は故障検出可能であるが、例えば自己診断出力計算機CPU13が故障等により停止した場合は故障検出できないことがわかる。   Therefore, if only the self-diagnosis information transmitted from each self-diagnosis output computer 11 is used, it is possible to detect a failure when the self-diagnosis output computer CPU 13 is operating. It can be seen that the failure cannot be detected when it stops.

そこで図3の(3)と(4)に示すように、受信時刻計測部22から出力される受信時刻データ23を自己診断情報受信部19に入力し、各自己診断出力計算機11より送信される自己診断情報と受信時刻データとを併用して故障検出を行う。なお図3の(3)と(4)記載のt1とt2は、受信時刻t1、受信時刻t2を表すデータである。   Therefore, as shown in (3) and (4) of FIG. 3, the reception time data 23 output from the reception time measurement unit 22 is input to the self-diagnosis information reception unit 19 and transmitted from each self-diagnosis output computer 11. Fault detection is performed using the self-diagnosis information and the reception time data together. Note that t1 and t2 described in (3) and (4) of FIG. 3 are data representing the reception time t1 and the reception time t2.

故障検出計算機16内部にある受信時刻計測部22は、例えばカウンタ等のタイマを用いて時刻を計測しており、自己診断情報受信部19に時刻を常時出力している。なお、各自己診断出力計算機11と故障検出計算機16に搭載されているタイマどうしは同期がとれており、各自己診断出力計算機11から故障検出計算機16へ出力される自己診断情報の受信タイミングがあらかじめわかっているならば、受信時刻計測部22から出力される受信時刻データ23は常時出力する必要はなく、受信タイミングに合わせて出力するだけでもよい。   The reception time measurement unit 22 in the failure detection computer 16 measures time using a timer such as a counter, for example, and always outputs the time to the self-diagnosis information reception unit 19. The self-diagnosis output computers 11 and the timers mounted on the failure detection computer 16 are synchronized with each other, and the reception timing of the self-diagnosis information output from each self-diagnosis output computer 11 to the failure detection computer 16 is predetermined. If it is known, the reception time data 23 output from the reception time measuring unit 22 need not always be output, and may be output only in accordance with the reception timing.

自己診断情報受信部19は、各自己診断出力計算機11より自己診断情報を受信した場合、受信時刻計測部22より出力された受信時刻データ23を自己診断情報に付加する。   When receiving the self-diagnosis information from each self-diagnosis output computer 11, the self-diagnosis information receiving unit 19 adds the reception time data 23 output from the reception time measuring unit 22 to the self-diagnosis information.

図3の(3)のように、自己診断出力計算機11aの機能1で故障2が発生した場合、受信時刻t1では自己診断情報と受信時刻データ23を合わせたデータは「00t1」、受信時刻t2では自己診断情報と受信時刻データ23を合わせたデータは「02t2」となるため、図3の(1)と同様に故障検出計算機CPU18は自己診断情報のみを参照比較することで、自己診断出力計算機11aの機能1で故障2が発生したことを正しく判断することができる。   As shown in (3) of FIG. 3, when a failure 2 occurs in the function 1 of the self-diagnosis output computer 11a, the data including the self-diagnosis information and the reception time data 23 is “00t1” at the reception time t1, and the reception time t2 Then, since the data combining the self-diagnosis information and the reception time data 23 is “02t2,” the failure detection computer CPU 18 refers to and compares only the self-diagnosis information as in (1) of FIG. It is possible to correctly determine that the failure 2 has occurred in the function 1 of 11a.

次に図3の(2)と同様に図3の(4)において、自己診断出力計算機11aの自己診断出力計算機CPU13aが故障した場合を説明する。   Next, a case where the self-diagnosis output computer CPU 13a of the self-diagnosis output computer 11a fails in (4) of FIG. 3 as in (2) of FIG. 3 will be described.

自己診断出力計算機11aと自己診断出力計算機11bは、動作を開始してから故障検出計算機16における受信時刻t1まで故障が発生せず、正常動作をしているとする。このとき、自己診断出力計算機11aと自己診断出力計算機11bは、図2(a)のテーブルに従い、正常動作を示す自己診断情報「00」を故障検出計算機16の自己診断情報受信部19に入力する。従って図3の(4)に示したように、受信時刻t1における、自己診断出力計算機11aと自己診断出力計算機11bの自己診断情報と受信時刻データ23を合わせたデータはともに「00t1」となる。   It is assumed that the self-diagnosis output computer 11a and the self-diagnosis output computer 11b are operating normally without a failure until the reception time t1 in the failure detection computer 16 after starting the operation. At this time, the self-diagnosis output computer 11a and the self-diagnosis output computer 11b input the self-diagnosis information “00” indicating normal operation to the self-diagnosis information receiving unit 19 of the failure detection computer 16 according to the table of FIG. . Therefore, as shown in (4) of FIG. 3, the data obtained by combining the self-diagnosis information of the self-diagnosis output computer 11a and the self-diagnosis output computer 11b and the reception time data 23 at the reception time t1 is “00t1”.

故障検出計算機16の故障検出計算機CPU18は、上記自己診断情報を参照し、図3には図示していないが、一時刻前の自己診断情報と受信時刻データ23を合わせたデータを比較して、自己診断出力計算機11aと自己診断出力計算機11bは正常動作していると判断する。   The failure detection computer CPU 18 of the failure detection computer 16 refers to the self-diagnosis information, and although not shown in FIG. 3, compares the data obtained by combining the self-diagnosis information one hour before and the reception time data 23, It is determined that the self-diagnosis output computer 11a and the self-diagnosis output computer 11b are operating normally.

そして、受信時刻t1から次の自己診断情報を受信するタイミングである受信時刻t2までの間に、自己診断出力計算機11aの自己診断出力計算機CPU13aで故障が発生したとする。この場合、自己診断出力計算機11bは正常動作のままなので、自己診断情報は「00」のまま出力する。しかし自己診断出力計算機11aは、自己診断出力計算機CPU13aで故障が発生したため、自己診断出力計算機11aは自己診断情報を出力することができない。   It is assumed that a failure has occurred in the self-diagnosis output computer CPU 13a of the self-diagnosis output computer 11a between the reception time t1 and the reception time t2, which is the timing for receiving the next self-diagnosis information. In this case, since the self-diagnosis output computer 11b remains in normal operation, the self-diagnosis information is output as “00”. However, since the self-diagnosis output computer 11a has failed in the self-diagnosis output computer CPU 13a, the self-diagnosis output computer 11a cannot output self-diagnosis information.

従って受信時刻t2における、自己診断出力計算機11bの自己診断情報と受信時刻データ23を合わせたデータは「00t2」である。しかし自己診断出力計算機11aの自己診断情報は、自己診断情報受信部19にて受信されないため、自己診断情報と受信時刻データ23を合わせたデータは更新されることなく「00t1」のままである。   Therefore, the combined data of the self-diagnosis information of the self-diagnosis output computer 11b and the reception time data 23 at the reception time t2 is “00t2.” However, since the self-diagnosis information of the self-diagnosis output computer 11a is not received by the self-diagnosis information receiving unit 19, the combined data of the self-diagnosis information and the reception time data 23 remains “00t1” without being updated.

故障検出計算機16の故障検出計算機CPU18は、後述するように上記自己診断情報と受信時刻データを合わせたデータについて、受信時刻t2のデータと一時刻前の受信時刻t1のデータを参照比較する。つまり自己診断出力計算機11bは、受信時刻t1でのデータ「00t1」と受信時刻t2でのデータ「00t2」を参照比較することで、正常動作していると正しく判断する。   As will be described later, the failure detection computer CPU 18 of the failure detection computer 16 compares the data of the reception time t2 with the data of the reception time t1 one time earlier with respect to the data obtained by combining the self-diagnosis information and the reception time data. That is, the self-diagnosis output computer 11b correctly determines that the operation is normal by comparing the data “00t1” at the reception time t1 with the data “00t2” at the reception time t2.

一方、自己診断出力計算機11aは、自己診断情報と受信時刻データを合わせたデータが更新されないため、受信時刻t1でのデータ「00t1」と受信時刻t2でのデータ「00t1」を参照比較し、受信時刻データが更新されていないことを検出する。   On the other hand, since the combined data of the self-diagnosis information and the reception time data is not updated, the self-diagnosis output computer 11a compares the data “00t1” at the reception time t1 with the data “00t1” at the reception time t2, and receives the data. Detect that time data is not updated.

自己診断情報回線25は、故障検出計算機16と個々の自己診断出力計算機11を接続しているため、共通バス24を用いた場合のような他の自己診断出力計算機11と故障検出計算機16とのデータ送受信による自己診断情報の出力遅延は発生しない。従って、出力遅延によるデータ更新の遅延も発生しない。   Since the self-diagnosis information line 25 connects the failure detection computer 16 and each self-diagnosis output computer 11, the self-diagnosis output computer 11 and the failure detection computer 16 are connected to each other as in the case where the common bus 24 is used. There is no delay in output of self-diagnosis information due to data transmission / reception. Therefore, a data update delay due to an output delay does not occur.

このことから、自己診断出力計算機11aの自己診断情報と受信時刻データ23を合わせたデータが受信時刻t1とt2において更新されていない原因は、自己診断情報の出力遅延によるものではなく、自己診断出力計算機11aの自己診断出力計算機CPU13aの故障発生により動作を停止したためと判断することができる。従って、故障検出計算機CPU18は自己診断出力計算機11aの故障を正しく検出できる。   Therefore, the reason why the data combining the self-diagnosis information of the self-diagnosis output computer 11a and the reception time data 23 is not updated at the reception times t1 and t2 is not due to the output delay of the self-diagnosis information. It can be determined that the operation has been stopped due to the occurrence of a failure in the self-diagnosis output computer CPU 13a of the computer 11a. Therefore, the failure detection computer CPU 18 can correctly detect the failure of the self-diagnosis output computer 11a.

図4は、実施の形態1における自己診断情報受信部19から受信メモリ部20に出力されるデータの一例を示す図である。   FIG. 4 is a diagram illustrating an example of data output from the self-diagnosis information reception unit 19 to the reception memory unit 20 in the first embodiment.

図4(a)は、自己診断出力計算機の自己診断情報と受信時刻に関するデータの一例である。例えばNo.1は、自己診断出力計算機aの自己診断情報「00」(正常)が00時01分00秒(t1)に受信されたことを表す。またNo.2は、自己診断出力計算機aの自己診断情報「02」(機能1で故障2が発生)が00時01分30秒(t2)に受信されたことを表す。   FIG. 4A is an example of data relating to self-diagnosis information and reception time of the self-diagnosis output computer. For example, no. 1 represents that the self-diagnosis information “00” (normal) of the self-diagnosis output computer a is received at 00:01:00 (t1). No. 2 indicates that self-diagnosis information “02” (fault 2 occurred in function 1) of the self-diagnosis output computer a was received at 00:01:30 (t2).

図4(a)のデータをもとに、故障検出計算機16の自己診断情報受信部19が自己診断情報を受信した場合、受信メモリ部20に出力するデータフォーマット例を図4(b)に示す。自己診断情報受信部19には、例えば図2(b)に示したように自己診断出力計算機から送信された自己診断出力計算機IDと自己診断情報と、受信時刻計測部22より出力された受信時刻データ23が入力する。これらの入力より、図4(b)の(1)に示す自己診断情報受信部データフォーマット例のようにデータを作成する。   FIG. 4B shows an example of a data format to be output to the reception memory unit 20 when the self-diagnosis information receiving unit 19 of the failure detection computer 16 receives the self-diagnosis information based on the data in FIG. . For example, as shown in FIG. 2B, the self-diagnosis information receiving unit 19 includes a self-diagnosis output computer ID and self-diagnosis information transmitted from the self-diagnosis output computer, and a reception time output from the reception time measuring unit 22. Data 23 is input. From these inputs, data is created as in the self-diagnosis information receiving unit data format example shown in (1) of FIG.

次に、受信メモリ部20に一時記憶させるため、受信メモリアドレスと受信メモリデータに分ける。図4(b)の(2)に示すように、受信メモリアドレスは、自己診断出力計算機ID部と受信時刻の前後関係を表すビットであるTIME部より構成される。   Next, for temporary storage in the reception memory unit 20, the reception memory address and reception memory data are divided. As shown in (2) of FIG. 4B, the reception memory address is composed of a self-diagnosis output computer ID unit and a TIME unit that is a bit representing the order of the reception time.

TIME部とは、図3でも説明したように、受信時刻t2の自己診断情報と一時刻前の受信時刻t1の自己診断情報とを比較して故障検出を行うため、受信時刻を用いて同一自己診断出力計算機の自己診断情報を区別するためのビットである。なお説明の便宜上、受信時刻t2に基づくアドレスをNEWアドレスと呼び、一時刻前の受信時刻t1に基づくアドレスをOLDアドレスと呼ぶこととする。   As described in FIG. 3, the TIME unit compares the self-diagnosis information at the reception time t2 with the self-diagnosis information at the reception time t1 one time before, and performs fault detection. It is a bit for distinguishing the self-diagnosis information of the diagnostic output computer. For convenience of explanation, an address based on the reception time t2 is called a NEW address, and an address based on the reception time t1 one time before is called an OLD address.

また図4(b)の(3)に示すように、受信メモリデータは自己診断情報と受信時刻より構成される。従って、例えば、受信時刻t1において正常動作している自己診断情報を受信した場合は「00t1」、受信時刻t2において機能1で故障2が発生している自己診断情報を受信した場合は「02t2」となる。なお説明の便宜上、受信メモリデータにおいてNEWアドレスに対応するデータをNEWデータと呼び、OLDアドレスに対応するデータをOLDデータと呼ぶこととする。受信メモリ部20は、自己診断情報受信部19より出力されたNEWデータを記憶する。   As shown in (3) of FIG. 4B, the reception memory data is composed of self-diagnosis information and reception time. Thus, for example, “00t1” is received when the self-diagnosis information operating normally at the reception time t1 is received, and “02t2” is received when the self-diagnosis information in which the failure 2 occurs in the function 1 at the reception time t2. It becomes. For convenience of explanation, in the received memory data, data corresponding to the NEW address is referred to as NEW data, and data corresponding to the OLD address is referred to as OLD data. The reception memory unit 20 stores the NEW data output from the self-diagnosis information reception unit 19.

図5は、受信メモリ部20に記憶された自己診断出力計算機aに対するデータの比較による故障検出を示す図である。また図6は、受信メモリ部20に一時記憶された自己診断出力計算機aのデータを用いて故障検出を行うことを示したフローチャートの一例である。図5、図6に従い、処理内容を説明する。なお説明は自己診断出力計算機aのみについて行うが、自己診断出力計算機bも同様である。   FIG. 5 is a diagram showing failure detection by comparing data with respect to the self-diagnosis output computer a stored in the reception memory unit 20. FIG. 6 is an example of a flowchart showing that failure detection is performed using data of the self-diagnosis output computer a temporarily stored in the reception memory unit 20. The processing contents will be described with reference to FIGS. The description is given only for the self-diagnosis output computer a, but the same applies to the self-diagnosis output computer b.

最初に、マルチプロセッサ並列処理システムが起動したときに故障検出をスタートさせる(ステップST101)。このとき受信メモリ部20のデータは、全ビット0または全ビット1などのように適切な初期値に設定する。   First, failure detection is started when the multiprocessor parallel processing system is activated (step ST101). At this time, the data in the reception memory unit 20 is set to an appropriate initial value such as all bits 0 or all bits 1.

次に、図5に示されているように、受信メモリにおける一時刻前の受信時刻におけるNEWデータをOLDアドレスのデータ(OLDデータ)として上書きして一時記憶する(図6 ステップST102)。   Next, as shown in FIG. 5, the NEW data at the reception time one time before in the reception memory is overwritten as OLD address data (OLD data) and temporarily stored (step ST102 in FIG. 6).

次に、受信した自己診断出力計算機aの自己診断情報と受信時刻を示すデータを合わせたデータを受信メモリ部20のNEWデータに上書き更新して一時記憶する(図6 ステップST103)。   Next, the data obtained by combining the received self-diagnosis information of the self-diagnosis output computer a and data indicating the reception time is overwritten and updated in the NEW data of the reception memory unit 20 (step ST103 in FIG. 6).

次に、一時記憶したNEWデータと一時刻前のNEWデータであるOLDデータを受信メモリ部20より読み出す(図6 ステップST104)。   Next, the temporarily stored NEW data and the OLD data which is the NEW data one hour before are read from the reception memory unit 20 (step ST104 in FIG. 6).

次に、受信メモリ部20より読み出したOLDデータとNEWデータとを比較する(図6 ステップST105)。   Next, the OLD data read from the reception memory unit 20 and the NEW data are compared (step ST105 in FIG. 6).

ここで、図5の(1)に示しているように、自己診断出力計算機aが正常動作している場合について説明する。自己診断出力計算機aが正常動作している場合、図5の(1)のようにOLDデータとNEWデータ(例えば「00t1」と「00t2」)は異なるため、図6のステップST105はNOとなる。   Here, the case where the self-diagnosis output computer a is operating normally as shown in (1) of FIG. 5 will be described. When the self-diagnosis output computer a is operating normally, the OLD data and the NEW data (for example, “00t1” and “00t2”) are different as shown in (1) of FIG. 5, and therefore step ST105 of FIG. 6 is NO. .

その場合、NEWデータが異常を示しているか判断する(図6 ステップST106)。異常の有無は、図4に示すように、NEWデータを構成している要素のうち自己診断情報よりわかる。   In that case, it is determined whether the NEW data indicates an abnormality (step ST106 in FIG. 6). As shown in FIG. 4, the presence / absence of an abnormality can be found from self-diagnosis information among elements constituting NEW data.

自己診断出力計算機aが正常動作している場合、NEWデータは正常を示す(例えば「00t2」のうちの「00」)ため、図6のステップST106はNOとなる。その場合、図6のステップST102に戻る。以降、同様の処理ループを繰り返す。   When the self-diagnosis output computer a is operating normally, the NEW data indicates normality (for example, “00” of “00t2”), so step ST106 in FIG. 6 is NO. In that case, the process returns to step ST102 of FIG. Thereafter, the same processing loop is repeated.

次に、図5の(2)に示しているように、自己診断出力計算機aにおいて機能1で故障2が発生した場合について説明する。この場合、例えばOLDデータは「00t1」、NEWデータは「02t2」であるから、図6のステップST105においてNOを選択するところまでは上述の通りである。   Next, as shown in (2) of FIG. 5, a case where a failure 2 occurs in the function 1 in the self-diagnosis output computer a will be described. In this case, for example, since the OLD data is “00t1” and the NEW data is “02t2”, the process up to the point where NO is selected in step ST105 of FIG. 6 is as described above.

図5の(2)では、受信時刻t1とt2の間に機能1で故障2が発生した場合を示している。従って受信時刻t2におけるNEWデータには機能1で故障2が発生した情報(例えば「02t2」のうちの「02」)が含まれているため、図6のステップST106はYESとなる。   (2) in FIG. 5 shows a case where the failure 2 occurs in the function 1 between the reception times t1 and t2. Accordingly, since the NEW data at the reception time t2 includes information (for example, “02” of “02t2”) in which the failure 1 occurred in the function 1, step ST106 in FIG. 6 is YES.

NEWデータを構成する自己診断情報より、どの機能がどのような異常を起こしているか読み取り(図6 ステップST107)、自己診断出力計算機aに異常が発生した旨の表示を行う(図6 ステップST108)。更に正確を期して、自己診断出力計算機aの故障した機能と故障内容の表示をさせてもよい。   From the self-diagnosis information composing the NEW data, which function is causing what kind of abnormality is read (step ST107 in FIG. 6), and the fact that an abnormality has occurred is displayed on the self-diagnosis output computer a (step ST108 in FIG. 6). . Further, for the sake of accuracy, the malfunction function of the self-diagnosis output computer a and the contents of the malfunction may be displayed.

自己診断出力計算機aの異常発生を表示させたら、例えば全計算機を停止させるなどして、故障検出処理を終了させる(図6 ステップST109)。   When the occurrence of abnormality in the self-diagnosis output computer a is displayed, the failure detection process is terminated by stopping all the computers, for example (step ST109 in FIG. 6).

最後に、図5の(3)に示しているように、受信時刻t1と受信時刻t2の間に自己診断出力計算機aにおいてCPUが故障した場合について説明する。その場合、図5の(3)に示しているように受信時刻t2におけるデータは更新されないため、OLDデータとNEWデータは一致し(例えば「00t1」と「00t1」)、図6のステップST105はYESを選択する。   Finally, as shown in (3) of FIG. 5, a case where the CPU fails in the self-diagnosis output computer a between the reception time t1 and the reception time t2 will be described. In that case, since the data at the reception time t2 is not updated as shown in (3) of FIG. 5, the OLD data and the NEW data match (for example, “00t1” and “00t1”), and step ST105 of FIG. Select YES.

この場合、自己診断出力計算機aのCPUが停止等で故障しているため、自己診断情報は更新されていないと判断する(図6 ステップST110)。   In this case, it is determined that the self-diagnosis information has not been updated because the CPU of the self-diagnosis output computer a is out of order or the like (step ST110 in FIG. 6).

自己診断出力計算機aのCPUが故障していると判断した場合は、自己診断出力計算機aに異常が発生した旨の表示を行う(図6 ステップST108)。更に正確を期して、自己診断出力計算機aのCPU故障の表示をさせてもよい。自己診断出力計算機aの異常発生を表示させたら、例えば全計算機を停止させるなどして、故障検出処理を終了させる(図6 ステップST109)。   If it is determined that the CPU of the self-diagnosis output computer a has failed, a display indicating that an abnormality has occurred in the self-diagnosis output computer a is displayed (step ST108 in FIG. 6). For further accuracy, the CPU failure of the self-diagnosis output computer a may be displayed. When the occurrence of abnormality in the self-diagnosis output computer a is displayed, the failure detection process is terminated by stopping all the computers, for example (step ST109 in FIG. 6).

このように、自己診断情報と受信時刻を併用して参照比較することで、自己診断出力計算機の故障検出を行うことが可能となる。   In this way, it is possible to detect a failure of the self-diagnosis output computer by performing a reference comparison using the self-diagnosis information and the reception time together.

故障検出後、全計算機の処理を止めるなど行い故障計算機を交換する、または故障計算機をマルチプロセッサ並列処理システムから除外して残りの計算機を用いて処理を継続する、などの処置を行うことが可能である。   After detecting a failure, it is possible to replace the failed computer by stopping the processing of all computers, or to remove the failed computer from the multiprocessor parallel processing system and continue the processing using the remaining computers. It is.

このように、共通バス24を用いずに自己診断情報回線25を用いて自己診断情報を送信することにより、共通バス24のデータ転送量を低下させることは無い。また自己診断情報回線25では共通バス24のような出力遅延が発生しないため、確実に故障検出を行うことが可能である。   As described above, by transmitting the self-diagnosis information using the self-diagnosis information line 25 without using the common bus 24, the data transfer amount of the common bus 24 is not reduced. Further, since the self-diagnosis information line 25 does not generate an output delay unlike the common bus 24, it is possible to reliably detect a failure.

更に、故障検出計算機16内部に受信時刻計測部22を設けて、受信した自己診断情報に受信時刻データ23を付加し、故障検出計算機CPU18が参照比較することで、自己診断出力計算機の機能故障のみならず、プロセッサの故障発生により自己診断情報が更新されない場合での故障検出を行うことが可能となる、という効果を奏する。   Further, a reception time measuring unit 22 is provided in the failure detection computer 16 to add the reception time data 23 to the received self-diagnosis information, and the failure detection computer CPU 18 performs reference comparison so that only the function failure of the self-diagnosis output computer is detected. In other words, it is possible to detect a failure when the self-diagnosis information is not updated due to the occurrence of a processor failure.

実施の形態1における計算機故障検出方法を実現するマルチプロセッサ並列処理システムの一構成例を示す図である。1 is a diagram illustrating a configuration example of a multiprocessor parallel processing system that implements a computer fault detection method according to Embodiment 1. FIG. 実施の形態1における自己診断出力計算機より出力される自己診断情報に関するテーブル及び自己診断情報のデータフレームの一例を示した図である。It is the figure which showed an example of the table regarding the self-diagnosis information output from the self-diagnosis output computer in Embodiment 1, and the data frame of self-diagnosis information. 実施の形態1における故障検出計算機の自己診断情報受信部におけるデータ処理に受信時刻データを使用することを説明する図である。6 is a diagram for explaining the use of reception time data for data processing in the self-diagnosis information receiving unit of the failure detection computer according to Embodiment 1. FIG. 実施の形態1における自己診断情報受信部から受信メモリ部に出力されるデータの一例を示す図である。6 is a diagram illustrating an example of data output from a self-diagnosis information reception unit to a reception memory unit in the first embodiment. FIG. 実施の形態1における受信メモリに記憶された自己診断出力計算機に対するデータの比較による故障検出を示す図である。6 is a diagram illustrating failure detection by comparing data with respect to a self-diagnosis output computer stored in a reception memory according to Embodiment 1. FIG. 実施の形態1における受信メモリ部に一時記憶された自己診断出力計算機のデータを用いて故障検出を行うことを示したフローチャートの一例である。3 is an example of a flowchart showing that failure detection is performed using data of a self-diagnosis output computer temporarily stored in a reception memory unit in the first embodiment.

符号の説明Explanation of symbols

11.自己診断出力計算機
12.共通バスI/F部
13.自己診断出力計算機CPU
14.自己診断情報送信部
15.内部バス
16.故障検出計算機
17.共通バスI/F部
18.故障検出計算機CPU
19.自己診断情報受信部
20.受信メモリ部
21.内部バス
22.受信時刻計測部
23.受信時刻データ
24.共通バス
25.自己診断情報回線
11. Self-diagnosis output calculator 12. Common bus I / F section 13. Self-diagnosis output computer CPU
14 Self-diagnosis information transmission unit 15. Internal bus 16. Failure detection computer 17. Common bus I / F section 18. Failure detection computer CPU
19. Self-diagnosis information receiving unit 20. Reception memory unit 21. Internal bus 22. Reception time measuring unit 23. Receive time data 24. Common bus 25. Self-diagnosis information line

Claims (4)

複数の自己診断出力計算機、及び故障検出計算機、及び前記複数の自己診断出力計算機と前記故障検出計算機とを接続する自己診断情報回線を備え、
前記自己診断出力計算機は、自らの自己診断結果を示す自己診断情報を作成出力し、
前記自己診断情報回線は、前記自己診断出力計算機と各々接続し、前記自己診断出力計算機から出力される自己診断情報を伝送し、
前記故障検出計算機は、前記自己診断情報回線と全て接続し、前記自己診断情報回線から伝送された自己診断情報を受信し、受信した前記自己診断情報に基づいて前記自己診断情報を送信した自己診断出力計算機の故障を検出する
ことを特徴とする計算機故障検出システム。
A plurality of self-diagnosis output computers, a failure detection computer, and a self-diagnosis information line connecting the plurality of self-diagnosis output computers and the failure detection computer,
The self-diagnosis output computer creates and outputs self-diagnosis information indicating its own self-diagnosis result,
The self-diagnosis information line is connected to the self-diagnosis output computer, and transmits self-diagnosis information output from the self-diagnosis output computer.
The fault detection computer is connected to the self-diagnosis information line, receives the self-diagnosis information transmitted from the self-diagnosis information line, and transmits the self-diagnosis information based on the received self-diagnosis information. A computer fault detection system characterized by detecting a fault in an output computer.
前記故障検出計算機はメモリ部とCPUを備え、
前記メモリ部は、前記自己診断出力計算機から出力された自己診断情報を受信した場合、前記自己診断情報の受信時刻と前記自己診断情報とを対応づけたデータを格納し、
前記CPUは、前記メモリ部に格納された前記データを参照して、前記自己診断情報を送信した自己診断出力計算機の故障を検出することを特徴とする請求項1記載の計算機故障検出システム。
The failure detection computer includes a memory unit and a CPU,
When the memory unit receives the self-diagnosis information output from the self-diagnosis output computer, the memory unit stores data in which the reception time of the self-diagnosis information and the self-diagnosis information are associated with each other.
2. The computer failure detection system according to claim 1, wherein the CPU detects a failure of a self-diagnosis output computer that has transmitted the self-diagnosis information with reference to the data stored in the memory unit.
各々の計算機における自己診断情報を作成出力する工程と、
前記出力された自己診断情報に基づき、前記自己診断情報の受信時刻と前記自己診断情報とを対応づけたデータを参照比較して前記自己診断情報を送信した計算機の故障を検出する工程と、
を備えたことを特徴とする計算機故障検出方法。
Creating and outputting self-diagnosis information in each computer;
Detecting a failure of the computer that transmitted the self-diagnosis information by referring to and comparing data in which the self-diagnosis information is received and the self-diagnosis information based on the output self-diagnosis information; and
A computer fault detection method comprising:
前記参照比較するデータは、前記自己診断情報の受信時刻と前記自己診断情報とを対応づけたデータと、前記受信時刻の一時刻前に自己診断情報を受信した受信時刻と前記一時刻前の自己診断情報とを対応づけたデータであることを特徴とする請求項3記載の計算機故障検出方法。   The reference comparison data includes data that associates the reception time of the self-diagnosis information with the self-diagnosis information, the reception time when the self-diagnosis information is received one hour before the reception time, and the self before the one time. 4. The computer fault detection method according to claim 3, wherein the data is associated with diagnostic information.
JP2006330676A 2006-12-07 2006-12-07 Computer failure detection system and computer failure detection method Pending JP2008146222A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006330676A JP2008146222A (en) 2006-12-07 2006-12-07 Computer failure detection system and computer failure detection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006330676A JP2008146222A (en) 2006-12-07 2006-12-07 Computer failure detection system and computer failure detection method

Publications (1)

Publication Number Publication Date
JP2008146222A true JP2008146222A (en) 2008-06-26

Family

ID=39606358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006330676A Pending JP2008146222A (en) 2006-12-07 2006-12-07 Computer failure detection system and computer failure detection method

Country Status (1)

Country Link
JP (1) JP2008146222A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012079266A (en) * 2010-10-06 2012-04-19 Nec Computertechno Ltd Information processing apparatus, fault portion discrimination method and fault portion discrimination program
JPWO2012050209A1 (en) * 2010-10-15 2014-02-24 三洋電機株式会社 Management system and system controller
CN104375916A (en) * 2014-10-17 2015-02-25 合肥联宝信息技术有限公司 Method and device for directly achieving computer hardware diagnosis through USB interface

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012079266A (en) * 2010-10-06 2012-04-19 Nec Computertechno Ltd Information processing apparatus, fault portion discrimination method and fault portion discrimination program
JPWO2012050209A1 (en) * 2010-10-15 2014-02-24 三洋電機株式会社 Management system and system controller
CN104375916A (en) * 2014-10-17 2015-02-25 合肥联宝信息技术有限公司 Method and device for directly achieving computer hardware diagnosis through USB interface

Similar Documents

Publication Publication Date Title
US20130219229A1 (en) Fault monitoring device, fault monitoring method, and non-transitory computer-readable recording medium
JPH01293450A (en) Troubled device specifying system
JP4291384B2 (en) Detection method of disconnection and power supply disconnection of IO unit connected to numerical controller
US7676693B2 (en) Method and apparatus for monitoring power failure
JP2008146222A (en) Computer failure detection system and computer failure detection method
US7774690B2 (en) Apparatus and method for detecting data error
JPH0375834A (en) Apparatus and method of sequentially correcting parity
US20090177890A1 (en) Method and Device for Forming a Signature
JP4954249B2 (en) Electronic terminal device and electronic interlocking device
JP2009217435A (en) Control method, information processing apparatus, and storage system
US8264948B2 (en) Interconnection device
KR101581309B1 (en) Airplane Electronic Device for Interlocking Failure Detection and Elimination of Each Board Unit
JP4126849B2 (en) Multi-CPU system monitoring method
JP6540309B2 (en) Shared memory system, arithmetic processing unit and method
CN109101359B (en) Equipment, method and module for transmitting information between equipment components and computer equipment
JP2009146308A (en) Data transfer system and data transfer method
JP2891188B2 (en) Signal sending circuit
JP5680434B2 (en) PCI bus control system
JP5451700B2 (en) Computer system, time information switching device, and computer system control method
JP5768434B2 (en) Mutual monitoring system
JP2606160B2 (en) Failure detection method for parity check circuit
JPH0898278A (en) Digital control system
JP4258372B2 (en) Common memory management method
JPH1115698A (en) Method for reporting failure and mechanism therefor
JP2021135121A (en) Fault detection circuit and fault detection system