JPH06187183A - Multiprocessor system - Google Patents

Multiprocessor system

Info

Publication number
JPH06187183A
JPH06187183A JP4333970A JP33397092A JPH06187183A JP H06187183 A JPH06187183 A JP H06187183A JP 4333970 A JP4333970 A JP 4333970A JP 33397092 A JP33397092 A JP 33397092A JP H06187183 A JPH06187183 A JP H06187183A
Authority
JP
Japan
Prior art keywords
control program
error
processor
error address
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4333970A
Other languages
Japanese (ja)
Inventor
Mitsuo Sakurai
三男 桜井
Shigenori Koyata
重則 小谷田
Akihiro Yamazaki
昭宏 山崎
Ikuko Igarashi
郁子 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP4333970A priority Critical patent/JPH06187183A/en
Publication of JPH06187183A publication Critical patent/JPH06187183A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

PURPOSE:To facilitate the countermeasure to the memory fault of a control program at a high speed, in a multiprocessor system which executes a data processing according to a control program. CONSTITUTION:The processor which develops the same control program according to the same address is equipped with an informing means 5 which communicates the error address of the control program to the other processor, transferring means 11 which reads the control program indicated by the error address from among the control program provided at its own processor when the error address is communicated from the other processor, and transfers it to the processor being the origin of communication, rewriting means 8 which rewrites the error control program provided at its own processor with the control program when the control program is transferred from the other processor, and resuming means 9 which instructs the resumption of the data processing when the control program is rewritten.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、制御プログラムに従っ
てデータ処理を実行する構成を採るマルチプロセッサシ
ステムに関し、特に、制御プログラムのメモリ障害に対
して、高速かつ適切に対処できるようにするマルチプロ
セッサシステムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a multiprocessor system having a structure for executing data processing according to a control program, and more particularly to a multiprocessor system capable of coping with a memory failure of a control program at high speed and appropriately. Regarding

【0002】データ処理システムでは、制御プログラム
に従ってハードウェア機構を制御しつつデータ処理を実
行していくことになる。これから、データ処理システム
では、制御プログラムのメモリ障害に対処できるための
機構を備えていく必要があるが、この機構は、可能な限
り高速にメモリ障害に対処できる構成で構築していく必
要がある。
In a data processing system, data processing is executed while controlling a hardware mechanism according to a control program. From now on, it is necessary for the data processing system to have a mechanism for coping with the memory failure of the control program, but this mechanism needs to be constructed with a structure capable of coping with the memory failure as fast as possible. .

【0003】[0003]

【従来の技術】従来のデータ処理システムでは、制御記
憶に展開する制御プログラムのメモリ障害発生に対処す
るために、ECC機構を備えることで訂正可能なメモリ
障害に対処する構成を採っている。
2. Description of the Related Art In a conventional data processing system, an ECC mechanism is provided to cope with a correctable memory fault in order to cope with a memory fault occurrence in a control program loaded in a control memory.

【0004】そして、ECC機構では訂正不可能なメモ
リ障害が発生するときには、制御プログラムを外部記憶
装置から再ローディングしていくことで対処するか、予
めシステム記憶上に制御プログラムをローディングして
おいて、そのシステム記憶上の制御プログラムを制御記
憶に書き込んでいくことで対処する方法を採っている。
When a memory failure that cannot be corrected by the ECC mechanism occurs, it is dealt with by reloading the control program from the external storage device, or the control program is loaded in the system storage in advance. , The control program on the system memory is written in the control memory.

【0005】この従来技術は、データ処理システムがマ
ルチプロセッサ構成を採るときにあっても同様である。
This prior art is the same even when the data processing system has a multiprocessor configuration.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、ECC
機構を備えると、そのチェック処理のために、データ処
理の実行が遅くなるという問題点がある。
[Problems to be Solved by the Invention] However, the ECC
If the mechanism is provided, there is a problem that the execution of data processing is delayed due to the check processing.

【0007】そして、ECC機構では訂正不可能なメモ
リ障害の発生するときに、制御プログラムを外部記憶装
置から再ローディングしていくことで対処する方法を採
ると、この再ローディングに時間がかかるという問題点
がある。また、予めシステム記憶上に制御プログラムを
ローディングしておいて、そのシステム記憶上の制御プ
ログラムを制御記憶に書き込んでいくことで対処する方
法を採ると、システム記憶のメモリ容量をそのために使
用することになるという問題点がある。
When a memory failure that cannot be corrected by the ECC mechanism occurs, if the method of coping by reloading the control program from the external storage device is adopted, this reloading takes time. There is a point. In addition, if a method is adopted in which the control program is loaded in the system memory in advance and the control program in the system memory is written into the control memory, the memory capacity of the system memory is used for that purpose. There is a problem that becomes.

【0008】しかも、従来技術では、制御プログラム自
身は正常であって、ハードウェア機構そのものに障害が
発生するような場合に対して、適切に対処する手段を具
備していないという問題点もあった。
In addition, the conventional technique has a problem in that the control program itself is normal and there is no means for appropriately dealing with a case where a failure occurs in the hardware mechanism itself. .

【0009】本発明はかかる事情に鑑みてなされたもの
であって、制御プログラムに従ってデータ処理を実行す
る構成を採るマルチプロセッサシステムにおいて、制御
プログラムのメモリ障害に対して、高速かつ適切に対処
できるようにする新たなマルチプロセッサシステムの提
供を目的とする。
The present invention has been made in view of the above circumstances, and in a multiprocessor system having a configuration of executing data processing according to a control program, it is possible to quickly and appropriately cope with a memory failure of the control program. The purpose is to provide a new multiprocessor system.

【0010】[0010]

【課題を解決するための手段】図1に本発明の原理構成
を図示する。1a,1bはプロセッサ、2はプロセッサ
1a,1bの間を接続するバスである。このプロセッサ
1a,1bは、同一の制御プログラムに従ってデータ処
理を実行する。
FIG. 1 shows the principle configuration of the present invention. 1a and 1b are processors, and 2 is a bus connecting between the processors 1a and 1b. The processors 1a and 1b execute data processing according to the same control program.

【0011】プロセッサ1aは、制御プログラムを展開
する制御記憶3と、読出手段4と、通知手段5と、管理
手段6と、比較手段7と、書替手段8と、再開手段9と
を備える。一方、プロセッサ1bは、プロセッサ1aの
持つ制御プログラムと同一の制御プログラムを同一のア
ドレス情報に従って展開する制御記憶10と、転送手段
11とを備える。ここで、プロセッサ1aは、プロセッ
サ1bの持つ転送手段11を備えるものであってもよ
く、また、プロセッサ1bは、プロセッサ1aの持つ各
手段を備えるものであってもよい。
The processor 1a comprises a control memory 3 for developing a control program, a reading means 4, a notifying means 5, a managing means 6, a comparing means 7, a rewriting means 8 and a restarting means 9. On the other hand, the processor 1b includes a control memory 10 that expands a control program that is the same as the control program of the processor 1a according to the same address information, and a transfer unit 11. Here, the processor 1a may include the transfer unit 11 included in the processor 1b, and the processor 1b may include each unit included in the processor 1a.

【0012】プロセッサ1aの読出手段4は、パリティ
チェック等に従って、制御記憶3から読み出す制御プロ
グラムにエラーがあるか否かを検出する。通知手段5
は、読出手段4の検出したエラー制御プログラムのエラ
ーアドレスをプロセッサ1bの転送手段11に通知す
る。管理手段6は、通知手段5の通知したエラーアドレ
スを前回検出されたエラーアドレスとして管理する。比
較手段7は、読出手段4の検出したエラーアドレスと管
理手段6の管理するエラーアドレスとを比較する。書替
手段8は、制御記憶3の持つエラー制御プログラムを本
来のものに書き替える。再開手段9は、データ処理の再
開を指示する。
The reading means 4 of the processor 1a detects whether or not there is an error in the control program read from the control memory 3 according to a parity check or the like. Notification means 5
Notifies the error address of the error control program detected by the reading means 4 to the transfer means 11 of the processor 1b. The management unit 6 manages the error address notified by the notification unit 5 as the previously detected error address. The comparing means 7 compares the error address detected by the reading means 4 with the error address managed by the managing means 6. The rewriting means 8 rewrites the error control program stored in the control memory 3 to the original one. The restarting means 9 gives an instruction to restart the data processing.

【0013】プロセッサ1bの転送手段11は、プロセ
ッサ1bの書替手段8に正しい制御プログラムを転送す
る。
The transfer means 11 of the processor 1b transfers the correct control program to the rewriting means 8 of the processor 1b.

【0014】[0014]

【作用】本発明では、プロセッサ1aの読出手段4は、
データ処理の実行時に、制御記憶3から順番に制御プロ
グラムを読み出していって、パリティチェック等に従っ
てこの読み出した制御プログラムにエラーがあるか否か
を検出して、エラーがある場合には、比較手段7にエラ
ー発生の制御プログラムのエラーアドレスを通知する。
In the present invention, the reading means 4 of the processor 1a is
When executing the data processing, the control programs are sequentially read from the control memory 3, and it is detected whether or not there is an error in the read control program according to a parity check or the like. 7 is notified of the error address of the control program in which the error occurred.

【0015】このエラーアドレスを受け取ると、比較手
段7は、このエラーアドレスと、管理手段6の管理する
前回検出されたエラーアドレスとを比較して、両者が不
一致であるときには通知手段5を起動する。一方、両者
が一致するときには、同一のエラーが繰り返されること
に対応して制御プログラム自身のエラーではなくてハー
ドウェアの固定障害であると判断して、上位システム等
に対して固定障害発生を表示する。
Upon receiving this error address, the comparison means 7 compares this error address with the previously detected error address managed by the management means 6 and activates the notifying means 5 when the two do not match. . On the other hand, when they match, it is determined that the fixed error is not the error of the control program itself but the fixed error of the hardware in response to the same error being repeated, and the fixed error is displayed to the host system. To do.

【0016】通知手段5は、比較手段7により起動され
ると、読出手段4の検出したエラーアドレスをプロセッ
サ1bの転送手段11に通知する。このエラーアドレス
を受け取ると、プロセッサ1bの転送手段11は、自プ
ロセッサの制御記憶10の管理する制御プログラムの中
から通知されてきたエラーアドレスの指す制御プログラ
ムを読み出して、この読み出した制御プログラムを修正
用の制御プログラムとしてエラーアドレスの通知元であ
るプロセッサ1aの書替手段8に転送する。
The notification means 5, when activated by the comparison means 7, notifies the transfer means 11 of the processor 1b of the error address detected by the reading means 4. Upon receiving this error address, the transfer means 11 of the processor 1b reads the control program pointed to by the error address notified from the control program managed by the control memory 10 of its own processor, and modifies the read control program. As the control program for the error, it is transferred to the rewriting means 8 of the processor 1a which is the notification source of the error address.

【0017】この修正用の制御プログラムを受け取る
と、書替手段8は、読出手段4の検出したエラーアドレ
スの指すエラー制御プログラム部分を、この修正用の制
御プログラムに書き替えることで制御プログラムを修正
する。そして、この修正処理が終了すると、再開手段9
は、修正された制御プログラム関連部分からのデータ処
理の再開を指示する。
Upon receiving the correction control program, the rewriting means 8 corrects the control program by rewriting the error control program portion pointed to by the error address detected by the reading means 4 to the correction control program. To do. Then, when this correction process ends, the resuming means 9
Indicates restart of data processing from the modified control program-related part.

【0018】このように、本発明では、制御プログラム
に従ってデータ処理を実行する構成を採るマルチプロセ
ッサシステムにあって、制御プログラムに障害が発生す
るときに、他プロセッサから正しい制御プログラムをコ
ピーして修正することで、制御プログラムのメモリ障害
に対処していく構成を採るものであることから、従来技
術と異なって、制御プログラムのメモリ障害に対して高
速に対処できるようになる。
As described above, according to the present invention, in a multiprocessor system having a structure for executing data processing in accordance with a control program, when a failure occurs in the control program, a correct control program is copied from another processor and corrected. By doing so, since the memory failure of the control program is dealt with, the memory failure of the control program can be dealt with at high speed, unlike the prior art.

【0019】そして、このリカバリ処理を実行しても同
一のエラー発生が繰り返される場合には、固定障害表示
を実行していくことで、ハードウェア機構そのものの障
害に対しても適切に対処できるようになるのである。
If the same error occurs repeatedly even after executing this recovery processing, the fixed failure display is executed so that the failure of the hardware mechanism itself can be appropriately dealt with. It becomes.

【0020】[0020]

【実施例】以下、実施例に従って本発明を詳細に説明す
る。図2に、本発明の適用可能なマルチプロセッサシス
テムのシステム構成例を図示する。
EXAMPLES The present invention will be described in detail below with reference to examples. FIG. 2 illustrates a system configuration example of a multiprocessor system to which the present invention is applicable.

【0021】図中、20はシステム全体の制御処理を司
るとともに入出力装置の制御処理を司るシステムプロセ
シングユニット(以下、SPUと略記することがあ
る)、21はシステムプロセシングユニット20の備え
る外部記憶装置、22はシステムプロセシングユニット
20の備えるI/O装置、23はシステムプロセシング
ユニット20の備える通信制御装置、24は入出力装置
の制御処理を司る複数のI/Oプロセシングユニット
(以下、IOPと略記することがある)、25はI/O
プロセシングユニット24の備えるI/O装置、26は
I/Oプロセシングユニット24の備える通信制御装
置、27は命令の制御処理を司る複数の命令プロセシン
グユニット(以下、IPUと略記することがある)、2
8は各ユニット20,24,27がアクセス可能なシス
テム記憶、29は各ユニット20,21,22及びシス
テム記憶23の間を接続するバスである。
In the figure, reference numeral 20 denotes a system processing unit (hereinafter sometimes abbreviated as SPU) which controls the control processing of the entire system and control processing of an input / output device, and 21 indicates an external storage device provided in the system processing unit 20. , 22 is an I / O device included in the system processing unit 20, 23 is a communication control device included in the system processing unit 20, and 24 is a plurality of I / O processing units (hereinafter abbreviated as IOP) that control the input / output devices. 25) I / O
An I / O device included in the processing unit 24, a communication control device 26 included in the I / O processing unit 24, and a plurality of instruction processing units (hereinafter sometimes abbreviated as IPU) 27 that control instruction processing.
Reference numeral 8 is a system memory accessible by the units 20, 24, 27, and 29 is a bus connecting the units 20, 21, 22 and the system memory 23.

【0022】この構成を採るマルチプロセッサシステム
にあって、システムプロセシングユニット20と、各I
/Oプロセシングユニット24は、入出力装置の制御処
理を司るための同一の制御プログラムを同一のアドレス
情報に従って展開する構成を採って、この同一の制御プ
ログラムに従ってハードウェア機構を制御しつつ、自装
置配下のI/O装置22,25や通信制御装置23,2
6を制御する構成を採るものである。
In the multiprocessor system having this configuration, the system processing unit 20 and each I
The / O processing unit 24 has a configuration in which the same control program for controlling the control processing of the input / output device is expanded according to the same address information, and while controlling the hardware mechanism in accordance with this same control program, its own device. Subordinate I / O devices 22, 25 and communication control devices 23, 2
6 is adopted.

【0023】図3に、I/Oプロセシングユニット24
の詳細な装置構成図、図4に、システムプロセシングユ
ニット20の詳細な装置構成図を図示する。I/Oプロ
セシングユニット24は、この図3に示すように、制御
プログラムを展開する制御記憶240と、データ処理の
実行時に、制御記憶240から順番に制御プログラムを
読み出していって、パリティチェックに従ってこの読み
出した制御プログラムにエラーがあるか否かを検出する
読出機構241と、読出機構241が制御プログラムエ
ラーを検出するときに、その旨のエラー検出フラグをセ
ットする制御フラグ242と、読出機構241が制御プ
ログラムエラーを検出するときに、検出されるエラー制
御プログラムのアドレス情報をラッチする第1のエラー
アドレスレジスタ243と、前回検出されたエラー制御
プログラムのアドレス情報をラッチする第2のエラーア
ドレスレジスタ244と、システムプロセシングユニッ
ト20から転送されてくる修正用の制御プログラムを格
納する修正データレジスタ245と、制御プログラムエ
ラーに対しての障害処理を実行す障害プログラム246
とを備える。
FIG. 3 shows an I / O processing unit 24.
FIG. 4 is a detailed device configuration diagram of the system processing unit 20, and FIG. 4 is a detailed device configuration diagram of the system processing unit 20. As shown in FIG. 3, the I / O processing unit 24 reads out the control memory 240 for developing the control program and the control memory 240 in order from the control memory 240 at the time of executing the data processing. The read mechanism 241 for detecting whether or not the read control program has an error, the control flag 242 for setting an error detection flag to that effect when the read mechanism 241 detects a control program error, and the read mechanism 241. When detecting a control program error, a first error address register 243 that latches the address information of the detected error control program and a second error address register 244 that latches the address information of the previously detected error control program. And the system processing unit 20 Al and correction data register 245 for storing the transferred come control program for modifying the control program failure to perform fault processing for error program 246
With.

【0024】一方、システムプロセシングユニット20
は、この図4に示すように、制御プログラムを展開する
制御記憶200と、I/Oプロセシングユニット24か
ら転送されてくる制御プログラムのエラーアドレス情報
をラッチするエラーアドレスレジスタ201と、制御記
憶200から読み出される制御プログラムを格納する修
正データレジスタ202と、制御プログラムエラーに対
しての障害処理を実行する障害プログラム203とを備
える。ここで、制御記憶200は、システム全体の制御
処理を司るための制御プログラムと、入出力装置の制御
処理を司るための制御プログラムとを展開する構成を採
ることになるが、上述したように、入出力装置の制御処
理を司るための制御プログラムについては、I/Oプロ
セシングユニット24の制御記憶240と同一のアドレ
ス情報が割り付けられることになる。
On the other hand, the system processing unit 20
As shown in FIG. 4, the control memory 200 expands the control program, the error address register 201 latches the error address information of the control program transferred from the I / O processing unit 24, and the control memory 200. A correction data register 202 for storing the read control program and a failure program 203 for executing failure processing for a control program error are provided. Here, the control memory 200 has a configuration in which a control program for controlling the control processing of the entire system and a control program for controlling the control processing of the input / output device are developed, but as described above, The same address information as that of the control memory 240 of the I / O processing unit 24 is assigned to the control program for controlling the control processing of the input / output device.

【0025】図5に、I/Oプロセシングユニット24
の備える障害プログラム246の実行する処理フローの
一実施例、図6に、システムプロセシングユニット20
の備える障害プログラム203の実行する処理フローの
一実施例を図示する。次に、これらの処理フローに従っ
て、I/Oプロセシングユニット24の制御記憶240
の持つ制御プログラムにエラーが発生するときに実行す
ることになる本実施例の動作処理について詳細に説明す
る。
FIG. 5 shows the I / O processing unit 24.
FIG. 6 shows an example of a processing flow executed by the fault program 246 included in the system processing unit 20.
An example of the processing flow which the fault program 203 with which this comprises is shown in figure. Next, according to these processing flows, the control memory 240 of the I / O processing unit 24 is
The operation processing of this embodiment, which is executed when an error occurs in the control program of the, will be described in detail.

【0026】最初に、図5の処理フローに従って、I/
Oプロセシングユニット24の備える障害プログラム2
46の実行する処理について説明する。I/Oプロセシ
ングユニット24の備える障害プログラム246は、読
出機構241が制御プログラムエラーを検出すること
で、制御フラグ242にエラー検出フラグが設定(この
とき、第1のエラーアドレスレジスタ243にエラーア
ドレス情報も設定される)されると起動される。
First, according to the processing flow of FIG.
Fault program 2 provided in the O processing unit 24
The processing executed by 46 will be described. In the fault program 246 included in the I / O processing unit 24, the read mechanism 241 detects the control program error, and thus the error detection flag is set in the control flag 242 (at this time, the error address information is set in the first error address register 243). Will also be set) and will be started.

【0027】このようにして起動されると、障害プログ
ラム246は、図5の処理フローに示すように、先ず最
初に、ステップ1で、エラー発生の制御プログラムが命
令部かデータ部のいずれであるのかを判断して、データ
部であると判断するときには、このデータ部がそれまで
のデータ処理履歴に対応した固有のデータを持つことで
本発明の適用が不可能であることに対応して、ステップ
2に進んで、システムプロセシングユニット20に対し
てデータ部エラーを通知して処理を終了する。なお、こ
のデータ部エラー情報を受け取ると、システムプロセシ
ングユニット20は、例えば、エラー発生のI/Oプロ
セシングユニット24の切り離し処理を実行する。
When the fault program 246 is activated in this way, as shown in the processing flow of FIG. 5, first, at step 1, the error occurrence control program is either the command section or the data section. If it is determined to be a data part, in response to the fact that this data part has unique data corresponding to the data processing history up to that point, it is impossible to apply the present invention, Proceeding to step 2, the system processing unit 20 is notified of an error in the data section and the processing is terminated. Upon receiving this data section error information, the system processing unit 20 executes, for example, a process of disconnecting the I / O processing unit 24 in which the error occurred.

【0028】一方、ステップ1の判断で、エラー発生の
制御プログラムが命令部であると判断するときには、ス
テップ3に進んで、第1のエラーアドレスレジスタ24
3の保持するエラーアドレス情報と、第2のエラーアド
レスレジスタ244の保持するエラーアドレス情報とが
一致するか否かを判断して、一致すると判断するときに
は、同一のエラーが繰り返されることに対応して、制御
プログラム自身のエラーではなくてハードウェアの固定
障害であると判断して、ステップ4に進んで、システム
プロセシングユニット20に対してハードウェア障害を
通知して処理を終了する。なお、このハードウェア障害
情報を受け取ると、システムプロセシングユニット20
は、例えば、エラー発生のI/Oプロセシングユニット
24の切り離し処理を実行する。
On the other hand, if it is determined in step 1 that the error occurrence control program is the instruction part, the process proceeds to step 3 and the first error address register 24
3 and the error address information held by the second error address register 244 are judged to be the same, and when they are judged to be the same, the same error is repeated. Then, it is judged that the error is not the error of the control program itself but the fixed failure of the hardware, the process proceeds to step 4, the system processing unit 20 is notified of the hardware failure, and the processing is ended. When receiving this hardware failure information, the system processing unit 20
Performs, for example, a process of disconnecting the I / O processing unit 24 in which an error has occurred.

【0029】一方、ステップ3の判断で、2つのエラー
アドレス情報の不一致を判断するときには、ステップ5
に進んで、システムプロセシングユニット20の障害プ
ログラム203に対して、第1のエラーアドレスレジス
タ243の保持するエラーアドレス情報を指定して図示
しない制御線を介してエラー割込を通知し、続くステッ
プ6で、第1のエラーアドレスレジスタ243の保持す
るエラーアドレス情報を第2のエラーアドレスレジスタ
244にセットしてから、続くステップ7で、ステップ
5のエラー割込通知に応答してシステムプロセシングユ
ニット20から転送されてくる制御プログラムの待ち状
態に入る。
On the other hand, when it is determined in step 3 that the two error address information do not match, step 5
Then, the error program information of the first error address register 243 is designated to the fault program 203 of the system processing unit 20 to notify the error interrupt through a control line (not shown). Then, the error address information held in the first error address register 243 is set in the second error address register 244, and then in step 7, the system processing unit 20 responds to the error interrupt notification in step 5. Enter the waiting state for the transferred control program.

【0030】次に説明する図6の処理フローから分かる
ように、システムプロセシングユニット20の障害プロ
グラム203は、I/Oプロセシングユニット24の障
害プログラム246からエラーアドレス情報を指定して
エラー割込の通知を受け取ると、そのエラーアドレス情
報の指す制御プログラムを自ユニットの制御記憶200
から読み出して修正用の制御プログラムとして、I/O
プロセシングユニット24の修正データレジスタ245
に転送するよう動作する。
As will be understood from the processing flow of FIG. 6 described below, the fault program 203 of the system processing unit 20 specifies error address information from the fault program 246 of the I / O processing unit 24 to notify the error interrupt. When the error message is received, the control program indicated by the error address information is sent to the control memory 200 of the own unit.
Read from the I / O as a control program for correction
Modified data register 245 of processing unit 24
Works to transfer to.

【0031】これから、I/Oプロセシングユニット2
4の障害プログラム246は、図5の処理フローのステ
ップ7で、システムプロセシングユニット20から制御
プログラムの転送完了を表示する処理終了通知を受け取
ると、ステップ8に進んで、第1のエラーアドレスレジ
スタ243の保持するエラーアドレス情報の指す制御記
憶240の制御プログラムを、修正データレジスタ24
5の格納する制御プログラムに書き替えることで、エラ
ー発生の制御プログラムを修正する。そして、続くステ
ップ9で、第1のエラーアドレスレジスタ243の保持
するエラーアドレス情報をリセットするとともに、制御
フラグ242のエラー検出フラグをリセットしてから、
最後に、ステップ10で、制御プログラムエラーにより
中断されていたデータ処理の再開を指示する。
Now, the I / O processing unit 2
The failure program 246 of No. 4 receives the processing end notification indicating the completion of transfer of the control program from the system processing unit 20 in step 7 of the processing flow of FIG. 5, proceeds to step 8, and moves to the first error address register 243. The control program of the control memory 240 indicated by the error address information held by the correction data register 24
By rewriting the control program stored in No. 5, the control program in which the error occurred is corrected. Then, in the following step 9, the error address information held by the first error address register 243 is reset and the error detection flag of the control flag 242 is reset,
Finally, in step 10, an instruction is given to restart the data processing that was interrupted due to the control program error.

【0032】次に、図6の処理フローに従って、システ
ムプロセシングユニット20の備える障害プログラム2
03の実行する処理について説明する。システムプロセ
シングユニット20の備える障害プログラム203は、
上述した図5の処理フローのステップ5の処理に従っ
て、I/Oプロセシングユニット24の障害プログラム
246からエラーアドレス情報を指定してエラー割込の
通知を受け取ると起動される。
Next, according to the processing flow of FIG. 6, the fault program 2 provided in the system processing unit 20.
The processing executed by 03 will be described. The fault program 203 provided in the system processing unit 20 is
In accordance with the processing of step 5 of the processing flow of FIG. 5 described above, it is activated when error address information is specified from the fault program 246 of the I / O processing unit 24 and a notification of an error interrupt is received.

【0033】このようにして起動されると、障害プログ
ラム203は、図6の処理フローに示すように、先ず最
初に、ステップ1で、I/Oプロセシングユニット24
の第1のエラーアドレスレジスタ243の保持するエラ
ーアドレス情報をエラーアドレスレジスタ201にリー
ドする。次に、ステップ2で、このエラーアドレスレジ
スタ201の保持するエラーアドレス情報の指す制御記
憶200の制御プログラムをリードして、修正データレ
ジスタ202にセットする。続いて、ステップ3で、修
正データレジスタ202の保持する制御プログラムをI
/Oプロセシングユニット24の修正データレジスタ2
45に転送する。そして、最後に、ステップ4で、I/
Oプロセシングユニット24の障害プログラム246に
対して、処理終了通知を通知して処理を終了する。
When booted in this way, the fault program 203, as shown in the processing flow of FIG. 6, first of all, in step 1, the I / O processing unit 24.
The error address information held by the first error address register 243 is read into the error address register 201. Next, in step 2, the control program of the control memory 200 indicated by the error address information held by the error address register 201 is read and set in the correction data register 202. Then, in step 3, the control program held in the correction data register 202 is set to I
/ O processing unit 24 modified data register 2
45. And finally, in step 4, I /
The faulty program 246 of the O processing unit 24 is notified of the processing end and the processing ends.

【0034】このようにして、システムプロセシングユ
ニット20の障害プログラム203の処理に従ってエラ
ーアドレス情報の指す制御プログラムを受け取ると、I
/Oプロセシングユニット24の障害プログラム246
は、上述したように、この制御プログラムに従ってエラ
ー発生の制御プログラムを修正してから、データ処理の
再開を指示していくことになるのである。
In this way, when the control program indicated by the error address information is received according to the processing of the fault program 203 of the system processing unit 20, I
/ O processing unit 24 fault program 246
As described above, after the control program in which an error has occurred is corrected according to this control program, the restart of data processing is instructed.

【0035】[0035]

【発明の効果】以上説明したように、本発明によれば、
制御プログラムに従ってデータ処理を実行する構成を採
るマルチプロセッサシステムにあって、制御プログラム
に障害が発生するときに、他プロセッサから正しい制御
プログラムをコピーして修正することで、制御プログラ
ムのメモリ障害に対処していく構成を採るものであるこ
とから、従来技術と異なって制御プログラムのメモリ障
害に対して高速に対処できるようになる。
As described above, according to the present invention,
In a multiprocessor system with a configuration that executes data processing according to a control program, when a failure occurs in the control program, copy the correct control program from another processor and modify it to cope with the memory failure of the control program. Since such a configuration is adopted, it becomes possible to deal with the memory failure of the control program at a high speed unlike the prior art.

【0036】そして、このリカバリ処理を実行しても同
一のエラー発生が繰り返される場合には、固定障害表示
を実行していくことで、ハードウェア機構そのものの障
害に対しても適切に対処できるようになるのである。
If the same error occurs repeatedly even after executing this recovery process, the fixed failure display is executed so that the failure of the hardware mechanism itself can be appropriately dealt with. It becomes.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理構成図である。FIG. 1 is a principle configuration diagram of the present invention.

【図2】本発明の適用可能なマルチプロセッサシステム
のシステム構成例である。
FIG. 2 is a system configuration example of a multiprocessor system to which the present invention is applicable.

【図3】IOPの装置構成の一実施例である。FIG. 3 is an example of the device configuration of an IOP.

【図4】SPUの装置構成の一実施例である。FIG. 4 is an example of an SPU device configuration.

【図5】IOPの障害プログラムの実行する処理フロー
の一実施例である。
FIG. 5 is an example of a processing flow executed by a faulty program of an IOP.

【図6】SPUの障害プログラムの実行する処理フロー
の一実施例である。
FIG. 6 is an example of a processing flow executed by a faulty program of an SPU.

【符号の説明】[Explanation of symbols]

1a プロセッサ 1b プロセッサ 2 バス 3 制御記憶 4 読出手段 5 通知手段 6 管理手段 7 比較手段 8 書替手段 9 再開手段 10 制御記憶 11 転送手段 1a processor 1b processor 2 bus 3 control memory 4 reading means 5 notifying means 6 managing means 7 comparing means 8 rewriting means 9 restarting means 10 control memory 11 transfer means

───────────────────────────────────────────────────── フロントページの続き (72)発明者 五十嵐 郁子 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内 ─────────────────────────────────────────────────── ─── Continuation of front page (72) Inventor Ikuko Igarashi 1015 Kamiodanaka, Nakahara-ku, Kawasaki-shi, Kanagawa Fujitsu Limited

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 複数のプロセッサより構成されて、少な
くともその内の2つのプロセッサが、同一の制御プログ
ラムに従ってデータ処理を実行する構成を採るマルチプ
ロセッサシステムにおいて、 同一の制御プログラムを展開するプロセッサが、同一の
アドレス情報に従って該制御プログラムを展開する構成
を採るとともに、 制御プログラムのエラーを検出するときに、該エラーア
ドレスを該制御プログラムを展開する他プロセッサに通
知する通知手段(5) と、 他プロセッサの上記通知手段(5) からエラーアドレスが
通知されてくるときに、自プロセッサの持つ制御プログ
ラムの中から該エラーアドレスの指す制御プログラムを
読み出して、該エラーアドレスの通知元のプロセッサに
転送する転送手段(11)と、 他プロセッサの上記転送手段(11)から制御プログラムが
転送されてくるときに、自プロセッサの持つエラー制御
プログラムを該制御プログラムに書き替える書替手段
(8) と、 上記書替手段(8) が制御プログラムを書き替えるとき
に、該制御プログラム関連部分からのデータ処理の再開
を指示する再開手段(9) とを備えることを、 特徴とするマルチプロセッサシステム。
1. In a multiprocessor system including a plurality of processors, at least two of which execute data processing according to the same control program, a processor which develops the same control program, Notifying means (5) for notifying the other processor that develops the control program of the error address when detecting an error of the control program while adopting a configuration for developing the control program according to the same address information When the error address is notified from the notification means (5), the control program indicated by the error address is read from the control programs of the own processor and transferred to the processor that notified the error address. Means (11) and the transfer means (11) of another processor When the control program is transferred, rewriting means for rewriting the error control program with the own processor to the control program
(8) and resuming means (9) for instructing resumption of data processing from the control program-related part when the rewriting means (8) rewrites the control program. Processor system.
【請求項2】 請求項1記載のマルチプロセッサシステ
ムにおいて、 同一の制御プログラムを展開するプロセッサが、前回検
出した制御プログラムのエラーアドレスを管理する構成
を採るとともに、制御プログラムのエラーを検出すると
きに、今回検出したエラーアドレスと前回検出したエラ
ーアドレスとを比較する比較手段(7) を備える構成を採
って、 上記比較手段(7) が両者の一致を検出するときには、固
定障害発生を表示していくとともに、上記比較手段(7)
が両者の不一致を検出するときには、通知手段(5) を起
動していくよう処理することを、 特徴とするマルチプロセッサシステム。
2. The multiprocessor system according to claim 1, wherein the processors that develop the same control program manage the error address of the previously detected control program, and when the error of the control program is detected. By adopting a configuration including a comparing means (7) for comparing the error address detected this time and the error address detected last time, when the comparing means (7) detects a match between the two, a fixed fault occurrence is displayed. Along with the above, the above comparison means (7)
The multiprocessor system is characterized in that, when detects a discrepancy between the two, the notification means (5) is activated.
【請求項3】 請求項1又は2記載のマルチプロセッサ
システムにおいて、 同一の制御プログラムを展開する全てのプロセッサが転
送手段(11)を備えるのではなくて、その内の1つ又は複
数の規定のプロセッサが転送手段(11)を備えることを、 特徴とするマルチプロセッサシステム。
3. The multiprocessor system according to claim 1 or 2, wherein not all processors that develop the same control program are provided with transfer means (11), but one or a plurality of stipulated rules are provided. A multiprocessor system characterized in that the processor comprises a transfer means (11).
JP4333970A 1992-12-15 1992-12-15 Multiprocessor system Withdrawn JPH06187183A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4333970A JPH06187183A (en) 1992-12-15 1992-12-15 Multiprocessor system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4333970A JPH06187183A (en) 1992-12-15 1992-12-15 Multiprocessor system

Publications (1)

Publication Number Publication Date
JPH06187183A true JPH06187183A (en) 1994-07-08

Family

ID=18272032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4333970A Withdrawn JPH06187183A (en) 1992-12-15 1992-12-15 Multiprocessor system

Country Status (1)

Country Link
JP (1) JPH06187183A (en)

Similar Documents

Publication Publication Date Title
EP0687975B1 (en) Method and system for downloading data to network nodes
US7840768B2 (en) Memory-controller-embedded apparatus and procedure for achieving system-directed checkpointing without operating-system kernel support
JPH03278126A (en) Computer system starting system
US6275930B1 (en) Method, computer, and article of manufacturing for fault tolerant booting
EP0477385B1 (en) Method of resetting adapter module at failing time and computer system executing said method
US5261084A (en) Error judgment method
JP2002049509A (en) Data processing system
JPH06187183A (en) Multiprocessor system
US10540222B2 (en) Data access device and access error notification method
JP2000347758A (en) Information processor
JPH064417A (en) Battery backup control system for memory
USRE45632E1 (en) Memory-controller-embedded apparatus and procedure for achieving system-directed checkpointing without operating-system kernel support
JP2626545B2 (en) Fault-tolerant computer system
JP2530900B2 (en) Loading device
JPH07295670A (en) Starting method for computer system
JP2005266948A (en) System board mounted with core i/o card
JPH0395634A (en) Restart control system for computer system
JPH0756742A (en) Computer system and method for attaining degradation operation of the system
JPH07271611A (en) Automatic process restarting and processing system
JP3346670B2 (en) Central processing unit switching method and switching system
JPH06139215A (en) Controller with duplexed eeprom
JPH0520049A (en) Information processing system with correcting function for control memory and correcting method for control memory
JPH01147636A (en) Process retrial system for occurrence of fault
JPH07152594A (en) Retry control system for control processor
JPH01201728A (en) Program correcting system

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20000307