JPH09179835A - Parallel processor system - Google Patents
Parallel processor systemInfo
- Publication number
- JPH09179835A JPH09179835A JP7349883A JP34988395A JPH09179835A JP H09179835 A JPH09179835 A JP H09179835A JP 7349883 A JP7349883 A JP 7349883A JP 34988395 A JP34988395 A JP 34988395A JP H09179835 A JPH09179835 A JP H09179835A
- Authority
- JP
- Japan
- Prior art keywords
- sub
- processors
- processor
- main processor
- sum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Test And Diagnosis Of Digital Computers (AREA)
- Detection And Correction Of Errors (AREA)
- Debugging And Monitoring (AREA)
- Multi Processors (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、電力制御および計
測などの高速リアルタイム演算が要求されるとともに起
動時前のチェックおよび故障時などに故障部位の特定が
要求される分野に用いられる並列プロセッサシステムに
関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a parallel processor system used in a field in which high-speed real-time calculation such as power control and measurement is required, and a check before starting and a failure portion identification in case of failure are required. Regarding
【0002】[0002]
【従来の技術】従来の並列プロセッサシステムでは、複
数のプロセッサがアクセス権(マスターとして駆動する
立場)を持って、共有バスを使用するために、バスの制
御が双方向化し、シングルプロセッサシステムより複雑
な構成となっている。そのため共有バス周辺で発生する
故障には、永久的にシステム停止に至るものと、間欠故
障による一時データ破損になるものとがある。しかし、
前者はリセットにより復帰して間欠故障に移行してしま
うものも多く、最終的には間欠故障となるのが一般的で
ある。そこで、これらの故障を検出するために共有バス
データのパリティチェックやアクセスタイム監視などが
行われている。さらに故障(点)部位特定のために、共
有バスの故障状態を記録する専用のトレース機能回路を
設けている。2. Description of the Related Art In a conventional parallel processor system, a plurality of processors have an access right (a position to drive as a master) and use a shared bus, so that the control of the bus is bidirectional, which is more complicated than a single processor system. It has become a structure. Therefore, failures that occur around the shared bus include those that permanently stop the system and temporary data corruption due to intermittent failures. But,
In the former case, there are many cases in which the device recovers by resetting and shifts to an intermittent failure, and in the end it is generally an intermittent failure. Therefore, in order to detect these failures, parity check of shared bus data and access time monitoring are performed. Furthermore, a dedicated trace function circuit for recording the failure status of the shared bus is provided to identify the failure (point) part.
【0003】[0003]
【発明が解決しようとする課題】しかしながら、故障部
位特定のために、専用のトレース回路を設けた場合、そ
の分、コストが増大するという課題があった。However, when a dedicated trace circuit is provided for identifying a faulty part, there is a problem in that the cost increases correspondingly.
【0004】[0004]
【課題を解決するための手段】そこで上記課題を解決す
るために、請求項1の発明は、それぞれがアクセス権を
有する複数のプロセッサを共有バスにより接続して構成
された並列プロセッサシステムにおいて、共有バスの故
障部位を特定するための探索プログラムを主プロセッサ
から副プロセッサへダウンロードする。副プロセッサで
は、ダウンロードされた探索プログラムにもとづき、主
プロセッサから副プロセッサへ送られた同時割込起動信
号のタイミングにより、全副プロセッサの中から順に2
つの副プロセッサを選び、その両副プロセッサ間で相互
にSUMコード付きブロックデータを転送するととも
に、副プロセッサが受信したSUMコード付きブロック
データについてSUMチェックをする。次いで、各副プ
ロセッサのSUMチェック結果を主プロセッサに収集し
て故障部位を特定する。それにより、バス監視用のトレ
ース回路を用いることなく故障部位が特定される。In order to solve the above problems, the invention according to claim 1 is a parallel processor system in which a plurality of processors each having an access right are connected by a shared bus. A search program for identifying a faulty part of the bus is downloaded from the main processor to the sub processor. Based on the downloaded search program, the sub-processors sequentially select 2 from all the sub-processors according to the timing of the simultaneous interrupt activation signal sent from the main processor to the sub-processors.
One sub-processor is selected, the SUM coded block data is transferred between the two sub-processors, and the SUM coded block data received by the sub-processor is SUM-checked. Next, the SUM check result of each sub-processor is collected in the main processor to identify the faulty part. Thereby, the failure part is specified without using the bus monitoring trace circuit.
【0005】請求項2の発明は、請求項1の発明におい
て、主プロセッサから副プロセッサへ送られた同時割込
起動信号の回数にもとづき、全副プロセッサの中から順
に2つの副プロセッサが選ばれる。According to a second aspect of the invention, in the first aspect of the invention, two sub-processors are sequentially selected from all the sub-processors based on the number of simultaneous interrupt activation signals sent from the main processor to the sub-processors.
【0006】請求項3の発明は、請求項1または請求項
2の発明において、2つの副プロセッサ間で、競合位相
を毎回変化させたタイミングにより双方からアクセスす
る。それにより、副プロセッサの競合制御動作について
も試験される。According to a third aspect of the present invention, in the first or second aspect of the invention, the two sub-processors access from each other at the timing at which the contention phase is changed each time. Thereby, the contention control operation of the sub processor is also tested.
【0007】[0007]
【発明の実施の形態】以下、図に沿って本発明の実施形
態を説明する。図1は本発明が適用される並列プロセッ
サシステムのブロック図である。図において、1は共有
バスであり、この共有バス1に主プロセッサ2、副プロ
セッサ3〜5が接続されている。この主ブロックセンサ
2は、バスアクセスタイムアウト(解除)検出機能を有
している。また、主プロセッサ2と各副プロセッサ3〜
5は、同時割込起動線6により接続されている。なお、
図中の7〜10はバスバッファである。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of a parallel processor system to which the present invention is applied. In the figure, reference numeral 1 denotes a shared bus, to which a main processor 2 and sub processors 3 to 5 are connected. The main block sensor 2 has a bus access timeout (release) detection function. In addition, the main processor 2 and each sub processor 3 to
5 are connected by a simultaneous interrupt activation line 6. In addition,
7 to 10 in the figure are bus buffers.
【0008】図2は、図1のシステムにおいて実行され
る処理の説明図である。以下、図2にもとづいて、故障
部位を特定するための処理を説明する。 (1)先ず、主プロセッサ2から各副プロセッサ3,4
等へ故障再現チェックプログラム(故障探索プログラ
ム)をダウンロードする。 (2)次いで、主プロセッサ2から各副プロセッサ3,
4等へ同時割込起動信号を送る(図a)。 (3)同時割込起動を受けた副プロセッサ側では、割込
回数に従って2つの副プロセッサが指定される。指定さ
れた一方の副プロセッサ3をマスターとし、他方の副プ
ロセッサ4をスレーブとしてへSUMコード付きブロッ
クデータ(ライト)を転送する(図b)。FIG. 2 is an explanatory diagram of processing executed in the system of FIG. The process for identifying the faulty part will be described below with reference to FIG. (1) First, from the main processor 2 to the sub processors 3 and 4
Download the failure reproduction check program (fault search program) to etc. (2) Next, the main processor 2 to each sub processor 3,
Simultaneous interrupt activation signal is sent to 4 etc. (Fig. A). (3) On the side of the sub-processor that has received the simultaneous interrupt activation, two sub-processors are designated according to the number of interrupts. The block data (write) with the SUM code is transferred to the designated one of the sub-processors 3 as the master and the other of the designated sub-processors 4 as the slaves (FIG. B).
【0009】(4)次に、副プロセッサ4に書き込まれ
たブロックデータは、再び副プロセッサ3へリードバッ
クされる(図c)。 (5)ここで、両副プロセッサ3,4は、相互に転送さ
れたブロックデータのSUMチェックをする(図d)。 (6)得られたSUMチェック結果は、主プロセッサ2
からのチェックアクセスにより副プロセッサ3,4から
主プロセッサ2に送られて、 SUMデータの異常又は
共有バスの異常停止が検出される(図e)。異常が検出
されるとその発生部位が特定される。(4) Next, the block data written in the sub processor 4 is read back to the sub processor 3 again (FIG. 7C). (5) Here, the sub processors 3 and 4 perform the SUM check of the block data transferred to each other (FIG. D). (6) The obtained SUM check result is the main processor 2
Is sent from the sub-processors 3 and 4 to the main processor 2 by the check access from and the abnormality of the SUM data or the abnormal stop of the shared bus is detected (Fig. E). When an abnormality is detected, the occurrence site is specified.
【0010】なお、主プロセッサ2では、同時割込起動
信号の送出回数から、異常を検出した副プロセッサを特
定することも可能である。次に、異常が検出されなかっ
た場合は、主プロセッサ2から次に送られる同時割込起
動信号により新たに指定される副プロセッサ間で、同様
にSUMコード付きブロックデータのライトおよびリー
ドバックが続行される。それにより、全ての副プロセッ
サの中から2個を取り出した組み合わせの全ての場合に
ついて、双方向のアクセスがチェックされる。It should be noted that the main processor 2 can identify the sub processor in which the abnormality has been detected, from the number of times the simultaneous interrupt activation signal is transmitted. Next, if no abnormality is detected, the write and readback of the block data with SUM code is similarly continued between the sub processors newly designated by the simultaneous interrupt start signal sent from the main processor 2. To be done. As a result, bidirectional access is checked for all cases of combinations in which two are extracted from all sub-processors.
【0011】図3は、図1のシステムにおいて実行され
る他の処理の説明図である。以下、図3にもとづいて、
故障部位を特定するための処理を説明する。 (1)先ず、主プロセッサ2から各副プロセッサ3,4
等へ故障再現チェックプログラム(故障探索プログラ
ム)をダウンロードする。 (2)次いで、主プロセッサ2から各副プロセッサ3,
4等へ同時割込起動信号を送る(図a)。FIG. 3 is an explanatory diagram of another processing executed in the system of FIG. Below, based on FIG.
The process for identifying the faulty part will be described. (1) First, from the main processor 2 to the sub processors 3 and 4
Download the failure reproduction check program (fault search program) to etc. (2) Next, the main processor 2 to each sub processor 3,
Simultaneous interrupt activation signal is sent to 4 etc. (Fig. A).
【0012】(3)同時割込起動を受けた副プロセッサ
側では、割込回数に従って2つの副プロセッサが指定さ
れる。指定された副プロセッサ3,4は、マスターアク
セスとして交互にSUMコード付きブロックデータ(ラ
イト)を転送する(図b)。また、ここでは、プログラ
ムのステップ数を予め操作しておくことにより毎回競合
位相を変化させたタイミングで相互にアクセスし副プロ
セッサ3,4の競合制御回路の競合制御機能をチェック
する。(3) On the side of the sub-processor which has received the simultaneous interrupt activation, two sub-processors are designated according to the number of interrupts. The designated sub-processors 3 and 4 alternately transfer the block data with SUM code (write) as a master access (FIG. B). Further, here, by operating the number of steps of the program in advance, the contention phases are changed each time to access each other and check the contention control function of the contention control circuits of the sub-processors 3 and 4.
【0013】(4)次に、両副プロセッサ3,4は、相
互に転送されたブロックデータのSUMチェックをする
(図c)。 (5)得られたSUMチェック結果は、主プロセッサ2
からのチェックアクセスにより副プロセッサ3,4から
主プロセッサ2に送られて、 SUMデータの異常又は
共有バスの異常停止が検出される(図d)。異常が検出
されるとその発生部位が特定される。(4) Next, the sub processors 3 and 4 perform the SUM check of the block data transferred to each other (FIG. C). (5) The obtained SUM check result is the main processor 2
Is sent from the sub-processors 3 and 4 to the main processor 2 by the check access from and the abnormality of the SUM data or the abnormal stop of the shared bus is detected (Fig. D). When an abnormality is detected, the occurrence site is specified.
【0014】なお、主プロセッサ2では、同時割込起動
信号の送出回数から、異常を検出した副プロセッサを特
定することも可能である。異常が検出されなかった場合
は、主プロセッサ2から次に送られる同時割込起動信号
により新たに指定される副プロセッサ間で、同様にSU
Mコード付きブロックデータの双方からのライトが続行
される。それにより、全ての副プロセッサの中から2個
を取り出した組み合わせの全ての場合について、双方向
のアクセスおよび競合制御動作の機能がチェックされ
る。It should be noted that the main processor 2 can identify the sub processor in which the abnormality has been detected, from the number of times the simultaneous interrupt activation signal is sent. If no abnormality is detected, the SUs are similarly set between the sub processors newly designated by the simultaneous interrupt activation signal sent from the main processor 2.
Writes from both M-coded block data continue. Thereby, the functions of the bidirectional access and the contention control operation are checked in all cases of the combination in which two are extracted from all the sub-processors.
【0015】上述したように、本発明に係る並列プロセ
ッサシステムでは、専用にバス監視をするためのトレー
ス回路を設置することなく、ソフトウェアにより故障部
位を特定することが可能となり、その分、従来よりもコ
ストダウンが可能になる。また、本発明では、副プロセ
ッサ同士で、双方向のアクセスをチェックすることによ
り、従来バス監視だけではわからなかった故障の発生条
件にまで遡って判定することが可能となり、故障発生の
メカニズムを詳細に解明することが可能となる。As described above, in the parallel processor system according to the present invention, it becomes possible to identify the faulty part by software without installing a trace circuit for dedicated bus monitoring. Can also reduce costs. Further, in the present invention, by checking bidirectional access between the sub-processors, it becomes possible to make a retrospective determination up to the condition of occurrence of a failure that could not be known by conventional bus monitoring alone, and the mechanism of failure occurrence is detailed. It becomes possible to clarify.
【0016】[0016]
【発明の効果】以上述べたように本発明によれば、主プ
ロセッサから副プロセッサへダウンロードした探索プロ
グラムにもとづいて、副プロセッサ間でSUMコード付
きブロックデータを転送しそのSUMチェック結果を主
プロセッサに収集することにより副プロセッサ間を接続
する共通バスの故障部位が特定される。それにより、故
障部位を特定するための専用のトレース回路が不要とな
り、システムのコストダウンが可能になる。また、2つ
の副プロセッサ間で、競合位相を毎回変化させたタイミ
ングにより双方からアクセスすることにより、各副プロ
セッサの競合制御動作についても試験可能となる。As described above, according to the present invention, based on the search program downloaded from the main processor to the sub processor, the block data with the SUM code is transferred between the sub processors and the SUM check result is transferred to the main processor. By collecting, the failure part of the common bus connecting the sub processors is specified. This eliminates the need for a dedicated trace circuit for identifying the faulty part, thus reducing the system cost. In addition, by accessing from the two sub-processors at the timing at which the contention phase is changed each time, the contention control operation of each sub-processor can be tested.
【図1】本発明が適用される並列プロセッサシステムの
ブロック図である。FIG. 1 is a block diagram of a parallel processor system to which the present invention is applied.
【図2】図1のシステムにおいて実行される処理の説明
図である。FIG. 2 is an explanatory diagram of processing executed in the system of FIG.
【図3】図1のシステムにおいて実行される他の処理の
説明図である。3 is an explanatory diagram of another processing executed in the system of FIG.
1 共有バス 2 主プロセッサ 3〜5 副プロセッサ 6 同時割込起動線 7〜10 バスバッファ 1 shared bus 2 main processor 3 to 5 sub processor 6 simultaneous interrupt activation line 7 to 10 bus buffer
Claims (3)
ロセッサを共有バスにより接続して構成された並列プロ
セッサシステムにおいて、 共有バスの故障部位を特定するための探索プログラムを
主プロセッサから副プロセッサへダウンロードする手段
と、 探索プログラムにもとづき、主プロセッサから副プロセ
ッサへ送られた同時割込起動信号のタイミングにより、
全副プロセッサの中から順に2つの副プロセッサを選
び、その両副プロセッサ間で相互にSUMコード付きブ
ロックデータを転送する手段と、 探索プログラムにもとづき、副プロセッサが受信したS
UMコード付きブロックデータのSUMチェックをする
手段と、 各副プロセッサのSUMチェック結果を主プロセッサに
収集して故障部位を特定する手段と、 を備えたことを特徴とする並列プロセッサシステム。1. In a parallel processor system configured by connecting a plurality of processors each having an access right by a shared bus, a search program for specifying a failure part of the shared bus is downloaded from a main processor to a sub processor. Based on the means and the search program, the timing of the simultaneous interrupt activation signal sent from the main processor to the sub processor
Based on the means for selecting two sub-processors from all sub-processors in sequence and mutually transferring the block data with SUM code between the sub-processors, and the S received by the sub-processors based on the search program.
A parallel processor system comprising: means for performing a SUM check of block data with a UM code; and means for collecting a SUM check result of each sub-processor in a main processor to identify a failure part.
において、主プロセッサから副プロセッサへ送られた同
時割込起動信号の回数にもとづき、全副プロセッサの中
から順に2つの副プロセッサを選ぶことを特徴とする並
列プロセッサシステム。2. The parallel processor system according to claim 1, wherein two sub-processors are sequentially selected from all the sub-processors based on the number of simultaneous interrupt activation signals sent from the main processor to the sub-processors. Parallel processor system.
セッサシステムにおいて、2つの副プロセッサ間で、競
合位相を毎回変化させたタイミングにより双方からアク
セスすることを特徴とする並列プロセッサシステム。3. The parallel processor system according to claim 1 or 2, wherein the two sub-processors access each other at a timing at which the contention phase is changed each time.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34988395A JP3381756B2 (en) | 1995-12-21 | 1995-12-21 | Parallel processor system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34988395A JP3381756B2 (en) | 1995-12-21 | 1995-12-21 | Parallel processor system |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09179835A true JPH09179835A (en) | 1997-07-11 |
JP3381756B2 JP3381756B2 (en) | 2003-03-04 |
Family
ID=18406765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP34988395A Expired - Fee Related JP3381756B2 (en) | 1995-12-21 | 1995-12-21 | Parallel processor system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3381756B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006235665A (en) * | 2005-02-22 | 2006-09-07 | Fujitsu Ltd | Command tester |
WO2014118985A1 (en) * | 2013-02-04 | 2014-08-07 | 三菱電機株式会社 | Bus module and bus system |
-
1995
- 1995-12-21 JP JP34988395A patent/JP3381756B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006235665A (en) * | 2005-02-22 | 2006-09-07 | Fujitsu Ltd | Command tester |
WO2014118985A1 (en) * | 2013-02-04 | 2014-08-07 | 三菱電機株式会社 | Bus module and bus system |
Also Published As
Publication number | Publication date |
---|---|
JP3381756B2 (en) | 2003-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0397471B1 (en) | Initialization system amd methods for input/output processing units | |
JPH0950424A (en) | Dump sampling device and dump sampling method | |
US6643796B1 (en) | Method and apparatus for providing cooperative fault recovery between a processor and a service processor | |
JP3381756B2 (en) | Parallel processor system | |
JPS62271153A (en) | Diagnostic system for common bus structure | |
JP2002229811A (en) | Control method of logical partition system | |
JPH1115661A (en) | Self-diagnosis method for cpu | |
JPH0255816B2 (en) | ||
JP2518652B2 (en) | Interrupt diagnostic device for multi-bus synchronous system | |
JPH02212948A (en) | Fault information collector for central processing unit | |
JP3019409B2 (en) | Machine check test method for multiprocessor system | |
JPH079636B2 (en) | Bus diagnostic device | |
JPH0662114A (en) | Inter-processor diagnostic processing system | |
JPS6029983B2 (en) | Failure diagnosis method for computer systems | |
JPH11134261A (en) | Input and output controller | |
JP2002215471A (en) | Memory port, storage device and information processing system | |
JPH0434626A (en) | Error logging method | |
JPS6061839A (en) | Fault diagnostic processing system of logical device | |
JPS62203244A (en) | Hardware diagnosis system | |
JPS62166401A (en) | Multiplexing system for electronic computer | |
JPH10124338A (en) | Parallel processor | |
JPH02110743A (en) | Fault diagnostic processing system | |
JPH011041A (en) | Early failure detection method | |
JPS61269746A (en) | Information processor | |
JP2000112907A (en) | Multi-processor device and operation recording method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20021120 |
|
LAPS | Cancellation because of no payment of annual fees |