JP2626545B2 - Fault-tolerant computer system - Google Patents

Fault-tolerant computer system

Info

Publication number
JP2626545B2
JP2626545B2 JP6088687A JP8868794A JP2626545B2 JP 2626545 B2 JP2626545 B2 JP 2626545B2 JP 6088687 A JP6088687 A JP 6088687A JP 8868794 A JP8868794 A JP 8868794A JP 2626545 B2 JP2626545 B2 JP 2626545B2
Authority
JP
Japan
Prior art keywords
processor
program
download
fault
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP6088687A
Other languages
Japanese (ja)
Other versions
JPH07295847A (en
Inventor
隆弘 森川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP6088687A priority Critical patent/JP2626545B2/en
Publication of JPH07295847A publication Critical patent/JPH07295847A/en
Application granted granted Critical
Publication of JP2626545B2 publication Critical patent/JP2626545B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、第1,第2,・・・,
第n(n≧2)のプロセッサから構成され、第i(i=
1〜n−1)のプロセッサの障害時、(i+1)のプロ
セッサが第iのプロセッサの機能を継続し、第nのプロ
セッサの障害時、第1のプロセッサが第nのプロセッサ
の機能を継続する耐故障コンピュータシステムに関す
る。
The present invention relates to first, second,.
It is composed of an n-th (n ≧ 2) processor, and the i-th (i =
When the (1 to n-1) processor fails, the (i + 1) processor continues the function of the i-th processor, and when the n-th processor fails, the first processor continues the function of the n-th processor. It relates to a fault-tolerant computer system.

【0002】[0002]

【従来の技術】従来、この種の耐故障コンピューターシ
ステムは、たとえば昭和61年10月、マグロウヒルブ
ック株式会社発行の「フォールトトレラントシステム」
(J.グレイ他著、渡辺榮一訳)に示されている。この
従来技術による耐故障コンピュータシステムは、複数の
プロセッサにより構成され、各プロセッサが別々の機能
を持ち、1つのプロセッサ上でソフトウェアプログラム
あるいはハードウェアの故障が発生した時にも、他のプ
ロセッサが障害プロセッサの機能を継続し、システムを
停止させないために用いられている。また、各プロセッ
サの実行プログラムのバージョンアップを行なう方法と
して、ダウンロード端末から各プロセッサに対し実行プ
ログラムをダウンロードする方法が一般的にとられる。
2. Description of the Related Art Conventionally, this kind of fault-tolerant computer system has been known as "Fault Tolerant System" published by McGraw-Hill Book Co., Ltd. in October 1986.
(J. Gray et al., Translated by Eiichi Watanabe). This fault-tolerant computer system according to the prior art is constituted by a plurality of processors, each of which has a different function, and when a software program or hardware failure occurs on one processor, the other processor can replace the failed processor. It is used to keep the function and not stop the system. As a method of upgrading the execution program of each processor, a method of downloading the execution program to each processor from a download terminal is generally used.

【0003】図3は、3つのプロセッサにより構成され
る従来の耐故障コンピュータシステムの一例を示すブロ
ック図である。プロセッサ2Aがプロセッサ1Aをプロ
テクトし、プロセッサ3Aがプロセッサ2Aをプロテク
トし、プロセッサ1Aがプロセッサ3Aをプロテクトす
る。プロセッサ1A中のメモリ11Aにはダウンロード
プログラム、予備プログラム、実行プログラムが格納さ
れる。プロセッサ障害検出回路12は、プロテクトすべ
きプロセッサ3Aから信号を入力し、プロセッサ3Aの
障害を検出した場合、CPU13Aに信号を出力する。
ダウンロードインタフェース部14は、ダウンロード端
末4からダウンロードプログラムを受信し、ダウンロー
ドプログラムをメモリ11Aのダウンロード領域に格納
する。また、ダウンロードインタフェース部14は、ダ
ウンロード完了を示す信号をCPU13Aに出力する。
CPU13Aは、メモリ11Aのダウンロード領域のプ
ログラムを実行プログラム領域にコピーし、以後実行プ
ログラムとしてその内容を実行する。また、CPU13
Aは、実行プログラムをCPUバスインタフェース部1
5、プロセッサバス5、CPUインタフェース部25を
介してプロセッサ2Aのメモリ21Aの予備プログラム
領域にコピーする。また、CPU13Aは、プロセッサ
2Aのプロセッサ障害検出回路22に定期的に信号を出
力する。プロセッサ2Aも同様にプロセッサ21Aとプ
ロセッサ障害検出回路22とCPU23Aとダウンロー
ドインタフェース部24とCPUバスインタフェース部
25で構成され、プロセッサ3Aも同様にプロセッサ3
1Aとプロセッサ障害検出回路32とCPU33Aとダ
ウンロードインタフェース部34とCPUバスインタフ
ェース部35で構成されている。
FIG. 3 is a block diagram showing an example of a conventional fault-tolerant computer system including three processors. The processor 2A protects the processor 1A, the processor 3A protects the processor 2A, and the processor 1A protects the processor 3A. The memory 11A in the processor 1A stores a download program, a preliminary program, and an execution program. The processor failure detection circuit 12 receives a signal from the processor 3A to be protected, and outputs a signal to the CPU 13A when detecting a failure in the processor 3A.
The download interface unit 14 receives the download program from the download terminal 4, and stores the download program in the download area of the memory 11A. Further, the download interface unit 14 outputs a signal indicating the completion of the download to the CPU 13A.
The CPU 13A copies the program in the download area of the memory 11A to the execution program area, and thereafter executes the contents as an execution program. The CPU 13
A is for executing the execution program in the CPU bus interface unit 1
5, copying via the processor bus 5 and the CPU interface unit 25 to the spare program area of the memory 21A of the processor 2A. Further, the CPU 13A periodically outputs a signal to the processor failure detection circuit 22 of the processor 2A. Similarly, the processor 2A includes a processor 21A, a processor failure detection circuit 22, a CPU 23A, a download interface unit 24, and a CPU bus interface unit 25.
1A, a processor failure detection circuit 32, a CPU 33A, a download interface unit 34, and a CPU bus interface unit 35.

【0004】図4は、プロセッサ3A用のプログラムC
をダウンロードする動作と、プロセッサ3Aの障害時に
プロセッサ1Aがプロセッサ3Aをプロテクトする動作
を示すシーケンスチャートである。
FIG. 4 shows a program C for the processor 3A.
5 is a sequence chart showing an operation of downloading the processor 3A and an operation of the processor 1A protecting the processor 3A when a failure occurs in the processor 3A.

【0005】まず、プロセッサ3A用のプログラムCを
ダウンロードする動作を述べる。ダウンロード用端末4
がプロセッサ3A用のプログラムCをプロセッサ3Aに
ダウンロードする(ステップ13)。プロセッサ3Aの
ダウンロードインタフェース部34は、受信したプログ
ラムCをメモリ31Aのダウンロード領域に格納し、ダ
ウンロードを完了したことを示す信号CPU33Aに出
力する(ステップ14)。CPU33Aは、メモリ31
Aのダウンロード領域にあるプログラムCをメモリ31
Aの実行プログラム領域にコピーする(ステップ1
5)。次に、CPU33Aは、CPUバスインタフェー
ス部35、プロセッサバス5、CPUバスインタフェー
ス部15を介して、メモリ31Aの実行プログラム領域
にあるプログラムCをプロセッサ1Aのメモリ11Aの
予備プログラム領域にコピーする(ステップ16,1
7)。以後、CPU33Aは、メモリ31Aの実行プロ
グラム領域にあるプログラムCを実行する(ステップ1
8)。上記と同様の手順により、プロセッサ1A及びプ
ロセッサ2A用プログラムA,Bのダウンロードも行わ
れる。
First, an operation of downloading the program C for the processor 3A will be described. Download terminal 4
Downloads the program C for the processor 3A to the processor 3A (step 13). The download interface unit 34 of the processor 3A stores the received program C in the download area of the memory 31A and outputs it to the signal CPU 33A indicating that the download has been completed (step 14). The CPU 33A has a memory 31
The program C in the download area of A is stored in the memory 31
A to the execution program area (Step 1)
5). Next, the CPU 33A copies the program C in the execution program area of the memory 31A to the spare program area of the memory 11A of the processor 1A via the CPU bus interface unit 35, the processor bus 5, and the CPU bus interface unit 15 (step 16,1
7). Thereafter, the CPU 33A executes the program C in the execution program area of the memory 31A (step 1).
8). The programs A and B for the processor 1A and the processor 2A are also downloaded by the same procedure as described above.

【0006】次に、プロセッサ3Aの障害時にプロセッ
サ1Aがプロセッサ3Aをプロテクトする動作を述べ
る。ここで、プロセッサ1Aは、上記と同様の手順によ
りプロセッサ1A用プログラムAをダウンロードされ、
CPU13Aがメモリ11Aの実行プログラム領域にあ
るプログラムAを実行しているものとする。プロセッサ
3Aに障害が無い場合、CPU33Aはプロセッサ1A
のプロセッサ障害検出回路12に対して定期的に信号を
送出している。プロセッサ3Aに障害が発生する(ステ
ップ19)と、CPU13Aから前記のプロセッサ1A
への信号送出が停止する(ステップ20)。プロセッサ
障害検出回路12が前記信号の入力断によりプロセッサ
3Aの障害を検出し、CPU13Aに信号を出力する。
このプロセッサ障害検出回路12は、一般の電子回路素
子を用いて種々の構成法を採用することができる。例え
ば、1991年3月、槙書店発行の「フォールトトレラ
ントシステムの設計と構成法」(当麻義弘他著)の15
9頁記載の「ウォッチドッグタイマ」である。この場
合、プロセッサ障害検出回路12は、タイマを定期的に
セットし、タイマが時間切れになる前に前記のCPU3
3Aからプロセッサ障害検出回路12への信号がタイマ
をリセットしなければプロセッサ3Aに障害が発生した
と判断する。CPU13Aは前記信号によりプロセッサ
3Aの障害発生を知ると、プログラムAの内容と平行し
てメモリ11A中の予備プログラム領域に格納されたプ
ログラムCを実行しプロセッサ3Aの機能を継続する
(ステップ21)。上記と同様の手順により、プロセッ
サ2Aがプロセッサ1Aをプロテクトし、プロセッサ3
Aがプロセッサ2Aをプロテクトする。
Next, the operation of the processor 1A for protecting the processor 3A when the processor 3A fails will be described. Here, the processor 1A downloads the program A for the processor 1A according to the same procedure as described above,
It is assumed that the CPU 13A is executing the program A in the execution program area of the memory 11A. When there is no failure in the processor 3A, the CPU 33A
A signal is periodically transmitted to the processor failure detection circuit 12 of FIG. When a failure occurs in the processor 3A (step 19), the CPU 13A sends a signal to the processor 1A.
Is stopped (step 20). The processor failure detection circuit 12 detects a failure of the processor 3A due to the interruption of the signal, and outputs a signal to the CPU 13A.
The processor failure detection circuit 12 can employ various configurations using general electronic circuit elements. For example, in March 1991, published by Maki Shoten, “Design and Construction of a Fault-Tolerant System” (written by Yoshihiro Toma et al.), No. 15.
This is a “watchdog timer” described on page 9. In this case, the processor failure detection circuit 12 sets the timer periodically, and before the timer expires, the CPU 3
If a signal from 3A to the processor fault detection circuit 12 does not reset the timer, it is determined that a fault has occurred in the processor 3A. When the CPU 13A recognizes the occurrence of the failure in the processor 3A from the signal, the CPU 13A executes the program C stored in the spare program area in the memory 11A in parallel with the contents of the program A, and continues the function of the processor 3A (step 21). By the same procedure as described above, the processor 2A protects the processor 1A and the processor 3A
A protects processor 2A.

【0007】[0007]

【発明が解決しようとする課題】上述した従来の耐故障
コンピュータシステムは、プロテクトすべきプロセッサ
に障害が発生した場合に障害プロセッサの機能を継続す
るための予備プログラムをメモリの予備プログラム領域
に格納し、プログラムのバージョンアップのためダウン
ロード端末から受信したダウンロードプログラムをメモ
リのダウンロード領域に格納していたので、メモリのプ
ログラム格納領域として実行プログラム領域、ダウンロ
ード領域、予備プログラム領域の3つの領域が必要とな
り、メモリサイズが大きく、コストが高くなるという欠
点があった。
The conventional fault-tolerant computer system described above stores a spare program for continuing the function of the failed processor in a spare program area of a memory when a failure occurs in the processor to be protected, Since the download program received from the download terminal was stored in the download area of the memory to upgrade the version of the program, three areas of the execution program area, the download area, and the spare program area were required as the program storage areas of the memory. There is a disadvantage that the size is large and the cost is high.

【0008】本発明の目的は、メモリサイズが小さい、
したがってコストが安くて済む耐故障コンピュータシス
テムを提供することにある。
An object of the present invention is to provide a small memory size,
Accordingly, it is an object of the present invention to provide a fault-tolerant computer system which is inexpensive.

【0009】[0009]

【課題を解決するための手段】本発明の耐故障コンピュ
ータシステムは、第i(i=1〜n)のプロセッサは、
ダウンロード端末から第(i−1)の(ただし、i=1
の場合、第n)のプロセッサ用のプログラムを受信する
ダウンロードインタフェース手段と、ダウンロード領域
と実行プログラム領域を含むメモリと、第(i−1)の
(ただし、i=1の場合、第n)のプロセッサの障害を
検出するプロセッサ障害検出手段と、全てのプロセッサ
を接続するプロセッサバスと接続されてプロセッサ間の
データの送受信を行なうプロセッサバスインタフェース
手段と、前記ダウンロードインタフェース手段が前記ダ
ウンロード端末から受信したプログラムを前記ダウンロ
ード領域に格納し、該プログラムの格納が終了すると、
第(i−1)の(ただし、i=1の場合、第n)のプロ
セッサにその旨を通知し、該通知を第(i+1)の(た
だし、i=nの場合、第1の)プロセッサから受信する
と、第(i+1)の(ただし、i=nの場合、第1の)
プロセッサの前記ダウンロード領域に格納されているプ
ログラムを前記メモリの実行プログラム領域にコピー
し、以後該プログラムを実行し、第(i−1)の(ただ
し、i=1の場合、第n)のプロセッサの障害が前記プ
ロセッサ障害検出手段で検出されると、前記メモリのダ
ウンロード領域に格納されている第(i−1)の(ただ
し、i=1の場合、第n)のプロセッサのプログラムを
も実行するCPUを含む。
The fault-tolerant computer system of the present invention comprises: an i-th (i = 1 to n) processor;
From the download terminal, the (i-1) th (where i = 1
In the case of (i), the download interface means for receiving the program for the (n) th processor, the memory including the download area and the execution program area, and the (i-1) th (if i = 1, the nth) A processor failure detecting unit for detecting a processor failure, a processor bus interface unit connected to a processor bus connecting all the processors to transmit and receive data between the processors, and a program received by the download interface unit from the download terminal Is stored in the download area, and when the storage of the program is completed,
The (i-1) th processor (if i = 1, the nth processor) is notified of this fact, and the notification is sent to the (i + 1) th processor (if i = n, the first processor). From the (i + 1) th (where i = n, the first)
A program stored in the download area of the processor is copied to an execution program area of the memory, and thereafter, the program is executed, and the (i-1) -th (where i = 1, n-th) processor is executed. When the above-mentioned fault is detected by the processor fault detecting means, the program of the (i-1) -th (if i = 1, n-th) processor stored in the download area of the memory is also executed. Including a CPU.

【0010】[0010]

【作用】本発明では、各プロセッサのメモリはダウンロ
ード領域と実行プログラム領域を含んでいる。
According to the present invention, the memory of each processor includes a download area and an execution program area.

【0011】各プロセッサの実行プログラムは、該プロ
セッサをプロテクトするプロセッサのダウンロード領域
に格納された後、該プロセッサの実行プログラム領域に
コピーされ、該プロセッサにより実行される。あるプロ
セッサに障害が発生すると、該プロセッサをプロテクト
するプロセッサのダウンロード領域には該プロセッサの
実行プログラムが既に格納されているので、該実行プロ
グラムも実行され、障害プロセッサの機能が継続され
る。
After the execution program of each processor is stored in the download area of the processor that protects the processor, the execution program is copied to the execution program area of the processor and executed by the processor. When a failure occurs in a certain processor, since the execution program of the processor is already stored in the download area of the processor that protects the processor, the execution program is also executed, and the function of the failed processor is continued.

【0012】[0012]

【実施例】次に、本発明の実施例について図面を参照し
て説明する。
Next, embodiments of the present invention will be described with reference to the drawings.

【0013】図1は本発明の一実施例の耐故障コンピュ
ータシステムのブロック図である。
FIG. 1 is a block diagram of a fault-tolerant computer system according to an embodiment of the present invention.

【0014】本実施例は3つのプロセッサで構成された
耐故障コンピュータシステムで、図3の従来の耐故障コ
ンピュータシステムとはメモリ11A,21A,31A
の構成およびCPU13A,CPU23A,CPU33
Aの制御が異なっている。すなわち、メモリ11A,2
1A,31Aはいずれもダウンロードプログラム、実行
プログラムがそれぞれ格納されるダウンロード領域と実
行プログラム領域からなっている。
This embodiment is a fault-tolerant computer system composed of three processors. The conventional fault-tolerant computer system shown in FIG. 3 differs from the conventional fault-tolerant computer system in memories 11A, 21A, and 31A.
Configuration of CPU 13A, CPU 23A, CPU 33
The control of A is different. That is, the memories 11A and 2A
Each of 1A and 31A comprises a download area and an execution program area in which a download program and an execution program are stored, respectively.

【0015】図2は、プロセッサ1が実行プログラムを
メモリ11Aに格納し実行する動作と、プロセッサ3用
のプログラムをダウンロードする動作と、プロセッサ3
の障害時にプロセッサ1がプロセッサ3をプロテクトす
る動作を示すシーケンスチャートである。
FIG. 2 shows an operation in which the processor 1 stores and executes an execution program in the memory 11A, an operation in which a program for the processor 3 is downloaded,
5 is a sequence chart showing an operation in which the processor 1 protects the processor 3 when a failure occurs.

【0016】まず、プロセッサ1が実行プログラムAを
メモリ11に格納し実行する動作を述べる。後述のプロ
セッサ3用の実行プログラムCのダウンロードと同様の
手順により、プロセッサ1用の実行プログラムAがプロ
セッサ2にダウンロードされると、プロセッサ2はプロ
セッサ1にダウンロードの完了を通知する。プロセッサ
1は、ダウンロードが完了したことを知る(ステップ
1)と、後述のプロセッサ3がプロセッサ1からプログ
ラムをコピーするのと同様の手順により、プログラムA
をプロセッサ2のメモリ21のダウンロード領域からメ
モリ11の実行プログラム領域にコピーし、以後プログ
ラムAを実行する(ステップ2,3)。上記と同様の手
順により、プロセッサ2及びプロセッサ3も実行プログ
ラムB,Cをメモリ21,31に格納し実行する。
First, the operation of the processor 1 for storing and executing the execution program A in the memory 11 will be described. When the execution program A for the processor 1 is downloaded to the processor 2 by the same procedure as the download of the execution program C for the processor 3 described later, the processor 2 notifies the processor 1 of the completion of the download. When the processor 1 knows that the download has been completed (step 1), it executes the program A according to the same procedure as the processor 3 which copies the program from the processor 1 described later.
Is copied from the download area of the memory 21 of the processor 2 to the execution program area of the memory 11, and thereafter the program A is executed (steps 2 and 3). According to the same procedure as above, the processors 2 and 3 also store the execution programs B and C in the memories 21 and 31 and execute them.

【0017】次に、プロセッサ3用のプログラムCをダ
ウンロードする動作を述べる。ダウンロード用端末4が
プロセッサ3用のプログラムCをプロセッサ1にダウン
ロードする(ステップ4)。プロセッサ1中のダウンロ
ードインタフェース部14は、受信したプログラムCを
メモリ11のダウンロード領域に格納し、ダウンロード
が完了したことを示す信号をCPU13に出力する(ス
テップ5)。CPU13は、CPUインタフェース部1
5、プロセッサバス5、CPUインタフェース部35を
介して、プロセッサ3中のCPU33にダウンロードの
完了を通知する(ステップ6)。CPU33は、ダウン
ロードの完了を知ると(ステップ7)、CPUバスイン
タフェース部35、プロセッサバス5、CPUバスイン
タフェース部15を介してメモリ11のダウンロード領
域にあるプログラムeをメモリ31の実行プログラム領
域にコピーし、以後、プログラムCの内容を実行する
(ステップ8,9)。上記と同様の手順により、プロセ
ッサ1及びプロセッサ2用プログラムA、Bのダウンロ
ードも行われる。
Next, the operation of downloading the program C for the processor 3 will be described. The download terminal 4 downloads the program C for the processor 3 to the processor 1 (Step 4). The download interface unit 14 in the processor 1 stores the received program C in the download area of the memory 11, and outputs a signal indicating that the download has been completed to the CPU 13 (step 5). The CPU 13 is a CPU interface unit 1
5. The completion of the download is notified to the CPU 33 in the processor 3 via the processor bus 5 and the CPU interface unit 35 (step 6). When the CPU 33 knows the completion of the download (step 7), the CPU 33 copies the program e in the download area of the memory 11 to the execution program area of the memory 31 via the CPU bus interface unit 35, the processor bus 5, and the CPU bus interface unit 15. Thereafter, the contents of the program C are executed (steps 8 and 9). The programs A and B for the processor 1 and the processor 2 are also downloaded by the same procedure as described above.

【0018】次に、プロセッサ3の障害時にプロセッサ
1がプロセッサ3をプロテクトする動作を述べる。プロ
セッサ3に障害が無い場合、CPU33はプロセッサ1
のプロセッサ障害検出回路12に対して定期的に信号を
送出している。プロセッサ3に障害が発生する(ステッ
プ10)と、CPU33から前記のプロセッサ1への信
号送出が停止する(ステップ11)。プロセッサ障害検
出回路12が前記信号の入力断によりプロセッサ3の障
害を検出し、CPU13に信号を出力する。このプロセ
ッサ障害検出回路12は、一般の電子回路素子を用いて
種々の構成法を採用することができる。例えば、199
1年3月、槙書店発行の「フォールトトレラントシステ
ムの設計と構成法」(当麻義弘他著)の159頁記載の
「ウォッチドッグタイマ」である。この場合、プロセッ
サ障害検出回路12は、タイマを定期的にセットし、タ
イマが時間切れになる前に前記のCPU33からプロセ
ッサ障害検出回路12への信号がタイマをリセットしな
ければプロセッサ3に障害が発生したと判断する。CP
U13は前記信号によりプロセッサ3の障害発生を知る
と、プログラムAの内容と平行してメモリ11中のダウ
ンロード領域に格納されたプログラムCを実行しプロセ
ッサ3の機能を継続する(ステップ12)。上記と同様
の手順により、プロセッサ2がプロセッサ1をプロテク
トし、プロセッサ3がプロセッサ2をプロテクトする。
Next, an operation in which the processor 1 protects the processor 3 when the processor 3 fails will be described. If there is no failure in the processor 3, the CPU 33
A signal is periodically transmitted to the processor failure detection circuit 12 of FIG. When a failure occurs in the processor 3 (step 10), the signal transmission from the CPU 33 to the processor 1 is stopped (step 11). The processor failure detection circuit 12 detects a failure of the processor 3 due to the interruption of the signal, and outputs a signal to the CPU 13. The processor failure detection circuit 12 can employ various configurations using general electronic circuit elements. For example, 199
This is a "watchdog timer" described on page 159 of "Design and Construction of Fault-Tolerant System" published by Maki Shoten in March 2001 (Yoshihiro Toma et al.). In this case, the processor failure detection circuit 12 sets the timer periodically, and if the signal from the CPU 33 to the processor failure detection circuit 12 does not reset the timer before the timer expires, the processor 3 fails. Judge that it has occurred. CP
When U13 recognizes the occurrence of the failure of the processor 3 from the signal, the U13 executes the program C stored in the download area in the memory 11 in parallel with the contents of the program A, and continues the function of the processor 3 (step 12). By the same procedure as described above, the processor 2 protects the processor 1 and the processor 3 protects the processor 2.

【0019】本実施例は、本発明を3つのプロセッサに
よる耐故障コンピュータシステムに適用した例である
が、本発明は、2以上の任意の数のプロセッサによる耐
故障コンピュータシステムの場合にも同様に適用可能で
ある。
Although the present embodiment is an example in which the present invention is applied to a fault-tolerant computer system using three processors, the present invention can be similarly applied to a fault-tolerant computer system using two or more processors. It is.

【0020】[0020]

【発明の効果】以上説明したように、本発明は、各プロ
セッサの実行プログラムを、該プロセッサをプロテクト
するプロセッサのダウンロード領域に格納した後、該プ
ロセッサの実行プログラム領域にコピーすることによ
り、実行プログラム領域とダウンロードプログラム領域
の2つの領域のみで従来と同じ機能を実現できるので、
プロセッサに必要なメモリのサイズを小さくすることが
でき、プロセッサのコストを安くできるという効果を有
する。
As described above, according to the present invention, the execution program of each processor is stored in the download area of the processor that protects the processor, and then copied to the execution program area of the processor. Since the same function as before can be realized with only two areas, the area and the download program area,
The memory size required for the processor can be reduced, and the cost of the processor can be reduced.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例の耐故障コンピュータシステ
ムのブロック図である。
FIG. 1 is a block diagram of a fault-tolerant computer system according to an embodiment of the present invention.

【図2】図1の耐故障コンピュータシステムにおいて、
プロセッサ1が実行プログラムAをメモリ11に格納し
実行する動作と、プロセッサ3用の実行プログラムCを
ダウンロードする動作と、プロセッサ3の障害時にプロ
セッサ1がプロセッサ3をプロテクトする動作を示すシ
ーケンスチャートである。
FIG. 2 illustrates the fault-tolerant computer system of FIG.
5 is a sequence chart showing an operation in which the processor 1 stores and executes an execution program A in the memory 11, an operation to download an execution program C for the processor 3, and an operation in which the processor 1 protects the processor 3 when the processor 3 fails. .

【図3】耐故障コンピュータシステムの従来例のブロッ
ク図である。
FIG. 3 is a block diagram of a conventional example of a fault-tolerant computer system.

【図4】図3の耐故障コンピュータシステムにおいて、
プロセッサ3用のプログラムCをダウンロードする動作
と、プロセッサ3の障害時にプロセッサ1がプロセッサ
3をプロテクトする動作を示すシーケンスチャートであ
る。
FIG. 4 illustrates the fault-tolerant computer system of FIG.
5 is a sequence chart showing an operation of downloading a program C for the processor 3 and an operation of the processor 1 protecting the processor 3 when the processor 3 fails.

【符号の説明】[Explanation of symbols]

1,2,3 プロセッサ 4 ダウンロード端末 5 プロセッサバス 11,21,31 メモリ 12,22,32 プロセッサ障害検出回路 13,23,33 CPU 14,24,34 ダウンロードインタフェース部 15,25,35 CPUバスインタフェース部 1, 2, 3 processor 4 download terminal 5 processor bus 11, 21, 31 memory 12, 22, 32 processor failure detection circuit 13, 23, 33 CPU 14, 24, 34 download interface unit 15, 25, 35 CPU bus interface unit

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 第1,第2,・・・,第n(n≧2)の
プロセッサから構成され、第i(i=1〜n−1)のプ
ロセッサの障害時、第(i+1)のプロセッサが第iの
プロセッサの機能を継続し、第nのプロセッサの障害
時、第1のプロセッサが第nのプロセッサの機能を継続
する耐故障コンピュータシステムであって、 第i(i=1〜n)のプロセッサは、ダウンロード端末
から第(i−1)の(ただし、i=1の場合、第n)の
プロセッサ用のプログラムを受信するダウンロードイン
タフェース手段と、ダウンロード領域と実行プログラム
領域を含むメモリと、第(i−1)の(ただし、i=1
の場合、第n)のプロセッサの障害を検出するプロセッ
サ障害検出手段と、全てのプロセッサを接続するプロセ
ッサバスと接続されてプロセッサ間のデータの送受信を
行なうプロセッサバスインタフェース手段と、前記ダウ
ンロードインタフェース手段が前記ダウンロード端末か
ら受信したプログラムを前記ダウンロード領域に格納
し、該プログラムの格納が終了すると、第(i−1)の
(ただし、i=1の場合、第n)のプロセッサにその旨
を通知し、該通知を第(i+1)の(ただし、i=nの
場合、第1の)プロセッサから受信すると、第(i+
1)の(ただし、i=nの場合、第1の)プロセッサの
前記ダウンロード領域に格納されているプログラムを前
記メモリの実行プログラム領域にコピーし、以後該プロ
グラムを実行し、第(i−1)の(ただし、i=1の場
合、第n)のプロセッサの障害が前記プロセッサ障害検
出手段で検出されると、前記メモリのダウンロード領域
に格納されている第(i−1)の(ただし、i=1の場
合、第n)のプロセッサのプログラムをも実行するCP
Uを含む耐故障コンピュータシステム。
A first (i = 1)-(n-1) -th processor when a failure occurs in an i-th (i = 1 to n-1) processor. A fault-tolerant computer system in which the processor continues the function of the i-th processor and the first processor continues the function of the n-th processor when the n-th processor fails, the i-th (i = 1 to n) A download interface means for receiving a program for the (i-1) -th (where i = 1, n-th) processor from the download terminal; a memory including a download area and an execution program area; (I-1) th (where i = 1
In this case, the processor fault detecting means for detecting the fault of the n-th processor, a processor bus interface means connected to a processor bus connecting all the processors to transmit and receive data between the processors, and the download interface means The program received from the download terminal is stored in the download area, and when the storage of the program is completed, the (i-1) -th (if i = 1, n-th) processor is notified to that effect. , When the notification is received from the (i + 1) -th (where i = n, first) processor,
The program stored in the download area of the processor (1) (if i = n, the first) is copied to the execution program area of the memory. (Where i = 1, if i = 1, a failure of the n-th processor) is detected by the processor failure detection means, and the (i-1) -th (where, i-th) is stored in the download area of the memory. If i = 1, the CP that also executes the program of the n-th processor
Fault tolerant computer system including U.
【請求項2】 第i(i=1〜n)のプロセッサのCP
Uは、該プロセッサに障害が無い場合、第(i+1)の
(ただし、i=nの場合、第1の)プロセッサのプロセ
ッサ障害検出手段に定期的に信号を送出し、該プロセッ
サ障害検出手段は該信号の入力断により第iの(ただ
し、i=nの場合、第1の)プロセッサの障害を検出す
る、請求項1記載の耐故障コンピュータシステム。
2. The CP of an i-th (i = 1 to n) processor
U sends out a signal to the processor fault detecting means of the (i + 1) -th processor (if i = n, first) when there is no fault in the processor, and the processor fault detecting means 2. The fault-tolerant computer system according to claim 1, wherein a fault of the i-th (where i = n, first) processor is detected by the interruption of the signal.
JP6088687A 1994-04-26 1994-04-26 Fault-tolerant computer system Expired - Lifetime JP2626545B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6088687A JP2626545B2 (en) 1994-04-26 1994-04-26 Fault-tolerant computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6088687A JP2626545B2 (en) 1994-04-26 1994-04-26 Fault-tolerant computer system

Publications (2)

Publication Number Publication Date
JPH07295847A JPH07295847A (en) 1995-11-10
JP2626545B2 true JP2626545B2 (en) 1997-07-02

Family

ID=13949757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6088687A Expired - Lifetime JP2626545B2 (en) 1994-04-26 1994-04-26 Fault-tolerant computer system

Country Status (1)

Country Link
JP (1) JP2626545B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011065528A (en) * 2009-09-18 2011-03-31 Toyota Motor Corp Multiprocessor system

Also Published As

Publication number Publication date
JPH07295847A (en) 1995-11-10

Similar Documents

Publication Publication Date Title
US5621885A (en) System and method for providing a fault tolerant computer program runtime support environment
US5440726A (en) Progressive retry method and apparatus having reusable software modules for software failure recovery in multi-process message-passing applications
US5530802A (en) Input sequence reordering method for software failure recovery
US7237140B2 (en) Fault tolerant multi-node computing system for parallel-running a program under different environments
US5590277A (en) Progressive retry method and apparatus for software failure recovery in multi-process message-passing applications
US5802267A (en) Method for checkpointing in computer system under distributed processing environment
EP1116115B1 (en) Protocol for replicated servers
US4852092A (en) Error recovery system of a multiprocessor system for recovering an error in a processor by making the processor into a checking condition after completion of microprogram restart from a checkpoint
CA2339783A1 (en) Fault tolerant computer system
JP3481737B2 (en) Dump collection device and dump collection method
US6275930B1 (en) Method, computer, and article of manufacturing for fault tolerant booting
KR101063720B1 (en) Automated Firmware Recovery for Peer Programmable Hardware Devices
CA2058933C (en) Reset method when adaptor module is faulty and computer system executing same
JP2626545B2 (en) Fault-tolerant computer system
JP4269362B2 (en) Computer system
WO2023030013A1 (en) Data processing method and apparatus
JP2004310252A (en) Failure restoration method for multiprocessor system
EP0655686B1 (en) Retry control method and device for control processor
US7890798B1 (en) Computer cluster with second-node instance of application having access to state snapshot of first-node instance of application
JPH07219796A (en) Information processor
AU669410B2 (en) Error recovery mechanism for software visible registers in computer systems
JP2000163276A (en) Network wide spare system
JPH04252339A (en) Isolation processing system for faulty processor
JPH07295807A (en) Microprogram controller
JPH10269124A (en) Method and system for managing checkpoint information