JPH08227406A - Parallel computer - Google Patents

Parallel computer

Info

Publication number
JPH08227406A
JPH08227406A JP7033329A JP3332995A JPH08227406A JP H08227406 A JPH08227406 A JP H08227406A JP 7033329 A JP7033329 A JP 7033329A JP 3332995 A JP3332995 A JP 3332995A JP H08227406 A JPH08227406 A JP H08227406A
Authority
JP
Japan
Prior art keywords
packet
network
processor
diagnostic
processors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7033329A
Other languages
Japanese (ja)
Inventor
Takahisa Akese
貴久 明瀬
Toshimitsu Ando
利光 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7033329A priority Critical patent/JPH08227406A/en
Publication of JPH08227406A publication Critical patent/JPH08227406A/en
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)

Abstract

PURPOSE: To improve the reliability of a network over which plural processors are connected and perform inter-processor data transfer. CONSTITUTION: The parallel computer consists of arithmetic processors PU(1) 1... PU(n) 2 and a processor PU(n+1) 3 exclusively for diagnosis which include CPUs 11, 21, and 31, memories 12, 22, and 32, network interface circuits 14, 24, and 34 each having a mechanism that uses a diagnostic packet for diagnosing a fault of a process or network and reporting it to an OS and a user and takes a self-test wherein the diagnostic packet is sent and received by itself, a mechanism that sends and receives the diagnostic packet when the parallel computer system is started up, and a mechanism which sends and receives the diagnostic packet during system operation when the network is not used and periodically and the connected to one another by internal buses 13, 23, and 33, data transfer signals 10, 20, and 30, a service processor(SVP) 5 which is used for the operation of the whole system, and a processor control signal 6.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、複数のプロセッサを接
続したネットワークによりプロセッサ間データ転送を行
う並列計算機のネットワーク診断方法に関連する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a network diagnosing method for a parallel computer which transfers data between processors by a network connecting a plurality of processors.

【0002】[0002]

【従来の技術】従来の複数のコンピュータをLAN等の
コンピュータネットワークで接続したシステムにおい
て、例えばイーサネットで接続した場合ネットワークに
障害があるか否かをテストする従来技術として、W.リ
チャード.ステーグンス著「UNIXネットワークプロ
グラミング」(トッパン刊)のP527〜550にUN
IXシステムにおけるpingルーチンが記述されてい
る。
2. Description of the Related Art In a conventional system in which a plurality of computers are connected by a computer network such as a LAN, a conventional technique for testing whether or not there is a network failure when connected by Ethernet, for example, W. Richard. UN in P527-550 of "UNIX Network Programming" (published by Toppan) by Steguns
A ping routine in the IX system is described.

【0003】[0003]

【発明が解決しようとする課題】従来技術であるUNI
Xシステムにおけるpingコマンドは、複数のプロセ
ッサをネットワークで接続しプロセッサ間データ転送を
行う並列計算機については考えられていない。また、p
ingコマンドは、ユーザがマニュアルでコマンドを発
行することにより有効になるもので、システム運行中、
不注意によりプロセッサ間データ信号線を切断してしま
った場合や、何らかの外乱により何れかのプロセッサや
ネットワークを構成するハードウェアが故障してしまっ
た場合などは障害部位の発見が難しい。プロセッサの数
が少なければ従来の方法やサービスプロセッサ等の使用
により人手で障害部位の指摘は可能だが、超並列計算機
の様にプロセッサの数が多くなってくると障害部位の発
見にかなり時間と工数がかかってしまう。
UNI, which is the prior art
The ping command in the X system is not considered for a parallel computer that connects a plurality of processors via a network and transfers data between the processors. Also, p
The ing command is enabled by the user manually issuing a command, and while the system is operating,
If the data signal line between the processors is inadvertently cut, or if any processor or the hardware configuring the network fails due to some disturbance, it is difficult to find the failed part. If the number of processors is small, it is possible to manually point out the faulty part by using the conventional method or the service processor, but if the number of processors becomes large like a massively parallel computer, it will take considerable time and man-hours to find the faulty part. It will cost you.

【0004】多くの並列計算機は複数のプロセッサ間を
大量のケーブルで接続している可能性が高く、プロセッ
サ数の増加に比例してケーブルも増えるので、並列計算
機は今までの計算機に比べ処理能力が大幅に向上する反
面、障害処理を強化しなければ、システムの稼働率が落
ちてしまう可能性がある。
Many parallel computers are likely to connect a plurality of processors with a large amount of cables, and the cables also increase in proportion to the increase in the number of processors, so that the parallel computers have a higher processing capacity than the conventional computers. However, if the failure handling is not strengthened, the system operation rate may decrease.

【0005】[0005]

【課題を解決するための手段】上記課題を解決する為
に、複数のプロセッサを接続したネットワークによりプ
ロセッサ間データ転送を行う並列計算機において、従来
のネットワーク診断テスト手段を各プロセッサが自分に
対して自動的に行うセルフテストの制御手段を持つ。
In order to solve the above problems, in a parallel computer which transfers data between processors by a network in which a plurality of processors are connected, each processor automatically executes conventional network diagnostic test means for itself. It has a control means for self-test.

【0006】またネットワーク上に通常の演算を行うプ
ロセッサ以外に診断専用のプロセッサを設け、この診断
専用プロセッサが従来のネットワーク診断テスト手段を
自動的に行う制御手段を持つ。
Further, a processor dedicated to diagnosis is provided on the network in addition to a processor for performing normal calculation, and the processor dedicated to diagnosis has a control means for automatically performing the conventional network diagnostic test means.

【0007】また、従来のネットワーク診断テスト手段
を、システム立ち上げ時に各プロセッサが自動的に行う
制御手段を持つ。
Further, the conventional network diagnostic test means has a control means that is automatically executed by each processor when the system is started up.

【0008】また、従来のネットワーク診断テスト手段
を、システム運行中ネットワーク未使用時又は定期的に
自動的に行う制御手段を持つ。
Further, it has a control means for automatically performing the conventional network diagnostic test means when the network is not in use while the system is in operation or periodically.

【0009】[0009]

【作用】本発明に係わる並列計算機において、プロセッ
サ間ネットワークとネットワークに接続される複数のプ
ロセッサとの間において、ネットワークの故障を診断し
OSやユーザーに対して報告を行う診断パケットを使用
し、各プロセッサが自分に対して自動的に診断テストを
行いセルフテストをする事により、自分がネットワーク
へのデータ送受信処理を正常に行えるか自覚する事が可
能となる。
In the parallel computer according to the present invention, a diagnostic packet for diagnosing a network failure and reporting to the OS and the user is used between the interprocessor network and a plurality of processors connected to the network. By automatically performing a diagnostic test and performing a self-test on itself, it becomes possible for the processor to be aware of whether it can normally perform data transmission / reception processing to the network.

【0010】また、ネットワーク上に通常の演算を行う
プロセッサ以外に診断専用のプロセッサを設け、このプ
ロセッサにのみ自動的に診断を行わせる事により、他の
演算プロセッサの演算処理を妨げることなくネットワー
クの診断が行え、診断テストによるシステム全体の処理
能力の低下を防ぐ事が可能となる。
Further, a processor dedicated to diagnosis is provided on the network in addition to the processor for performing normal calculation, and only this processor is automatically diagnosed, so that the calculation processing of other calculation processors is not hindered. Diagnosis can be performed, and it is possible to prevent deterioration of the processing capacity of the entire system due to the diagnostic test.

【0011】また、システム立ち上げ時に各プロセッサ
が自動的に診断テストを行う事により、何れかのプロセ
ッサ又はネットワークを構成するハードウェアが故障し
たままシステムが動作を開始してしまい誤動作する事を
未然に防ぐ事が可能となる。
Further, since each processor automatically carries out a diagnostic test when the system is started up, it is possible that the system may start operating while any of the processors or the hardware constituting the network is out of order and malfunction. It is possible to prevent it.

【0012】また、システム運行中に各プロセッサがネ
ットワーク未使用時又は定期的に診断テストを自動的に
行う事により、システムの運行中にユーザーがコマンド
を発行することなくネットワークの診断が行え、何らか
の外乱により何れかのプロセッサやネットワークを構成
するハードウェア等が故障しても早期に報告されるの
で、故障したままシステムを運用し続け、誤動作してし
まう事を未然に防ぐ事が可能となる。
Further, since each processor automatically performs a diagnostic test when the network is not used or periodically while the system is in operation, the network can be diagnosed without the user issuing a command while the system is in operation. Even if any processor or hardware constituting the network fails due to a disturbance, it is reported early, so that it is possible to continue operating the system with the failure and prevent malfunction.

【0013】[0013]

【実施例】以下、本発明の実施例を図を用いて説明す
る。
Embodiments of the present invention will be described below with reference to the drawings.

【0014】先ず、本発明に係る並列計算機の構成につ
いて述べる。
First, the configuration of the parallel computer according to the present invention will be described.

【0015】図1は、本発明に係る並列計算機であり、
n個の演算プロセッサをネットワークに接続し、プロセ
ッサ間データ転送を行い、かつ、実際の計算に用いるプ
ロセッサ間データ通信とは異なる、ネットワーク上のハ
ードウェアが故障しているか否かを検出する為のネット
ワーク診断専用通信も行う並列計算機の構成を示す。図
1において、1,2はプロセッサ(PU(1),…,P
U(n))を示す。各プロセッサ1,2はCPU11,
21とメモリ12,22及びネットワークインターフェ
ース回路14,24を備え、それぞれがプロセッサ内部
バス13,23を介して接続される。各プロセッサは、
データ転送信号10,20を介してプロセッサ間結合の
ネットワーク4に接続されている。5はサービスプロセ
ッサ(SVP)であり、各プロセッサ1,2に対してプ
ロセッサ制御信号6を介して接続される。
FIG. 1 shows a parallel computer according to the present invention.
To detect whether or not the hardware on the network, which is different from the inter-processor data communication used for actual calculation, is connected by connecting n arithmetic processors to the network and performing the inter-processor data transfer. 1 shows the configuration of a parallel computer that also performs dedicated communication for network diagnosis. In FIG. 1, reference numerals 1 and 2 denote processors (PU (1), ..., P
U (n)) is shown. Each processor 1, 2 is a CPU 11,
21 and memories 12, 22 and network interface circuits 14, 24, which are connected via processor internal buses 13, 23, respectively. Each processor is
The data transfer signals 10 and 20 are connected to the network 4 for interprocessor coupling. A service processor (SVP) 5 is connected to each of the processors 1 and 2 via a processor control signal 6.

【0016】図2は図1で述べたプロセッサを構成する
回路の一つであり、各プロセッサ1,2とプロセッサ間
結合ネットワーク4との間でデータ転送を行う為のイン
ターフェースであるネットワークインターフェース回路
14の内部構成を示す。図2において、ネットワークイ
ンターフェース回路14は、プロセッサ内メモリの送信
パケット領域からデータを読み取り、ネットワークへデ
ータを送信したり、診断パケットを自動生成する機能を
持つ送信回路101と、101とは逆にネットワークか
らデータを受信しプロセッサ内メモリの受信パケット領
域へデータを書き込んだり診断パケットを受信した時、
診断回路へ診断パケットを転送する機能を持つ受信回路
102と、ネットワークインターフェース回路を制御す
る為の制御コマンドを保持する為のネットワークコント
ロールレジスタ(NCR)104と、ネットワークイン
ターフェース回路内部の状態を示すネットワークステー
タスレジスタ(NSR)103と、受信した診断パケッ
トを解析し、ネットワークを診断するネットワーク診断
回路106と、他プロセッサから診断パケットを受信し
た場合に、パケットヘッダーを書き換え、ネットワーク
を介して元のプロセッサへ送り返す為のパケットヘッダ
ー書き換え回路107及び時間を監視するタイマー監視
回路105を備える。
FIG. 2 is one of the circuits constituting the processor described in FIG. 1, and is a network interface circuit 14 which is an interface for transferring data between the processors 1 and 2 and the interprocessor coupling network 4. The internal structure of is shown. In FIG. 2, a network interface circuit 14 has a function of reading data from a transmission packet area of a memory in a processor, transmitting the data to the network, and automatically generating a diagnostic packet. When receiving data from, writing data to the receive packet area of the memory in the processor or receiving a diagnostic packet,
A receiving circuit 102 having a function of transferring a diagnostic packet to the diagnostic circuit, a network control register (NCR) 104 for holding a control command for controlling the network interface circuit, and a network status indicating a state inside the network interface circuit. When a diagnostic packet is received from the register (NSR) 103, the received diagnostic packet, the network diagnostic circuit 106 that diagnoses the network, and another processor, the packet header is rewritten and sent back to the original processor via the network. A packet header rewriting circuit 107 and a timer monitoring circuit 105 for monitoring time are provided.

【0017】送信回路101は、バスデータ入力信号1
10を介してプロセッサ内部メモリ上のパケット送信領
域からパケットを受け取ると、パケット送信信号111
にてネットワークへと送信する。また、バスデータ入力
信号110を介して内部バス13からOS等が作成した
診断パケットが入力されたり、送信回路内部で診断パケ
ットを生成した場合、送信診断パケット出力信号112
を介して診断回路106へ出力し、送信診断パケットが
パケットヘッダー変換回路107から113の送信診断
パケット入力信号を介して入力されると、無条件にパケ
ットヘッダーを書き換えただけの折り返しパケットをパ
ケット送信信号111を介してネットワークへ出力する
機能を持つ。さらに、定期的に診断を行う設定にすると
タイマー監視回路105からのタイマー信号により、一
定の時間毎に診断パケットの送出を行う機能も持つ。ま
た、送信診断パケットを一度送出した後ネットワークス
テータスレジスタ(NSR)の値により受信診断パケッ
トを受け取るか、受信診断パケットが消失してタイムア
ウトになる等、診断処理が終了するまで次の診断パケッ
トは出力しない。
The transmission circuit 101 uses the bus data input signal 1
When a packet is received from the packet transmission area on the processor internal memory via 10, the packet transmission signal 111
Send to the network at. Also, when a diagnostic packet created by the OS or the like is input from the internal bus 13 via the bus data input signal 110 or a diagnostic packet is generated inside the transmission circuit, a transmission diagnostic packet output signal 112
When the transmission diagnostic packet is output to the diagnostic circuit 106 via the transmission diagnostic packet input signal of the packet header conversion circuits 107 to 113, the return packet in which the packet header is unconditionally rewritten is transmitted as a packet. It has a function of outputting to the network via the signal 111. Furthermore, when the diagnosis is set to be periodically performed, the timer monitoring circuit 105 also has a function of transmitting a diagnostic packet at regular time intervals by a timer signal. In addition, the next diagnostic packet is output until the diagnostic process is completed, such as receiving the diagnostic packet received by the value of the network status register (NSR) after sending the diagnostic packet once, or disappearing the diagnostic packet and timing out. do not do.

【0018】受信回路102は、ネットワークよりパケ
ット受信信号121を介してパケットを受信すると、バ
スデータ出力信号120を介してプロセッサ内部バスを
経由してメモリ上のパケット受信領域へパケットを出力
する。また、パケット受信信号121を介して他プロセ
ッサからの診断パケットや自プロセッサの送信回路10
1が送信した診断パケットを受信すると、他のプロセッ
サからの診断パケットの場合は折り返しパケット出力信
号123を介しパケットヘッダー変換回路107へパケ
ットを出力し、自プロセッサ内部の送信回路101が送
信した診断パケットの場合は受信診断パケット出力信号
122を介して診断回路106へパケットを出力する機
能を持つ。
Upon receiving a packet from the network via the packet reception signal 121, the reception circuit 102 outputs the packet to the packet reception area on the memory via the bus data output signal 120 via the processor internal bus. In addition, a diagnostic packet from another processor or the transmission circuit 10 of the own processor is transmitted via the packet reception signal 121.
When the diagnostic packet transmitted by the processor 1 is a diagnostic packet from another processor, the diagnostic packet is output to the packet header conversion circuit 107 via the return packet output signal 123, and the diagnostic packet transmitted by the transmission circuit 101 inside the processor itself. In the case of, it has a function of outputting a packet to the diagnostic circuit 106 via the received diagnostic packet output signal 122.

【0019】ネットワークステータスレジスタ(NS
R)103は、送信回路101からの送信回路ステータ
ス信号141や受信回路102からの受信回路ステータ
ス信号142及び診断回路106からの診断回路ステー
タス信号143のデータを集約し、プロセッサ内部バス
13と送信回路101へネットワークステータス信号1
40を出力する。
Network status register (NS
R) 103 aggregates data of the transmission circuit status signal 141 from the transmission circuit 101, the reception circuit status signal 142 from the reception circuit 102, and the diagnostic circuit status signal 143 from the diagnostic circuit 106, and the processor internal bus 13 and the transmission circuit. Network status signal 1 to 101
40 is output.

【0020】ネットワークコントロールレジスタ(NC
R)104は、プロセッサ内部バス13からネットワー
クコントロール信号130を介してネットワークコント
ロール命令を受け、送信回路制御信号131を送信回路
101へ出力する。
Network control register (NC
The R) 104 receives a network control command from the processor internal bus 13 via the network control signal 130, and outputs a transmission circuit control signal 131 to the transmission circuit 101.

【0021】診断回路106は、送信回路101からの
送信診断パケットと受信回路102からの受信診断パケ
ットを比較し判定を行いネットワークステータスレジス
タ(NSR)103へ結果を報告する。この時、タイマ
ー監視回路105からのタイマー信号150を使用し
て、送信診断パケットが入力されてから一定期間内に受
信診断パケットが入力されなければタイムアウトエラー
としてネットワークステータスレジスタ(NSR)10
3に結果報告する。報告する内容は、診断を行ったプロ
セッサアドレスと診断結果であり、正常終了かパケット
コンペアエラーかタイムアウトエラーである。
The diagnostic circuit 106 compares the transmission diagnostic packet from the transmission circuit 101 and the reception diagnostic packet from the reception circuit 102, makes a determination, and reports the result to the network status register (NSR) 103. At this time, using the timer signal 150 from the timer monitoring circuit 105, if the reception diagnostic packet is not input within a fixed period after the transmission diagnostic packet is input, it is regarded as a timeout error and the network status register (NSR) 10
Report the results to 3. The contents to be reported are the address of the diagnosed processor and the diagnosis result, which indicates a normal end, a packet compare error, or a timeout error.

【0022】タイマー監視回路105は、一定期間毎に
プロセッサ内部の回路と送信回路101、診断回路10
6へタイマー信号150を出力する。タイマー割り込み
発生回路としての機能がある。
The timer monitoring circuit 105 includes a circuit inside the processor, a transmission circuit 101, and a diagnostic circuit 10 at regular intervals.
6 outputs the timer signal 150. Functions as a timer interrupt generation circuit.

【0023】パケットヘッダー書換回路107は受信回
路102から折り返しパケット出力信号123を介して
診断パケットが入力されると、パケットの種類を送信診
断パケットから受信診断パケットに変換し、同時に送信
元プロセッサアドレスと受信先プロセッサアドレスをス
ワップして、折り返しパケット入力信号113を介して
送信回路101にパケットヘッダー書き換え後の診断パ
ケットを出力する機能を持つ。
When the diagnostic packet is input from the receiving circuit 102 via the return packet output signal 123, the packet header rewriting circuit 107 converts the type of packet from the transmitting diagnostic packet to the receiving diagnostic packet, and at the same time, the source processor address and It has a function of swapping destination processor addresses and outputting a diagnostic packet after packet header rewriting to the transmission circuit 101 via the return packet input signal 113.

【0024】図3は図2で述べたネットワークインター
フェース回路14を構成する回路の一つである送信回路
101の内部構成を示す。図3において、送信回路10
1は、送信回路制御信号131、ネットワークステータ
ス信号140及びタイマー信号により送信回路101内
部を制御する送信回路制御回路1101、パケットをネ
ットワークへ出力する送信バッファ1102、診断パケ
ットを送信回路101内部で自動的に作成する診断パケ
ット作成回路1103及びOSなどの作成したメモリ上
のパケット内のフラグを読み取り、そのパケットが通常
パケットか診断パケットかを判定するパケットコード解
析回路1104を備える。
FIG. 3 shows the internal structure of the transmission circuit 101 which is one of the circuits constituting the network interface circuit 14 described with reference to FIG. In FIG. 3, the transmission circuit 10
1 is a transmission circuit control signal 131, a network status signal 140, and a transmission circuit control circuit 1101 that controls the inside of the transmission circuit 101 by a timer signal, a transmission buffer 1102 that outputs a packet to the network, and a diagnostic packet inside the transmission circuit 101 automatically. The diagnostic packet creation circuit 1103 created in 1) and the packet code analysis circuit 1104 for reading the flag in the packet on the memory created by the OS or the like and determining whether the packet is a normal packet or a diagnostic packet.

【0025】又、それらの大規模な回路の他に、プロセ
ッサ内部バス13からのパケットが通常パケットか診断
パケットかにより送信経路を切り換える通常/診断切り
換えスイッチ1111、診断パケットの作成方法を切り
換える診断パケット作成手段切り換えセレクタ111
2、通常パケットを出力するか診断パケットを出力する
か切り換える通常/診断パケットセレクタ1113、折
り返しパケットと通常/診断パケットのどちらを出力す
るか切り換える折り返しパケットセレクタ1114も備
える。
In addition to these large-scale circuits, a normal / diagnostic switch 1111 for switching the transmission path depending on whether the packet from the processor internal bus 13 is a normal packet or a diagnostic packet, and a diagnostic packet for switching the diagnostic packet creation method. Creation means switching selector 111
2, a normal / diagnostic packet selector 1113 that switches between outputting a normal packet and a diagnostic packet, and a loopback packet selector 1114 that switches between outputting a loopback packet and a normal / diagnostic packet.

【0026】送信回路制御回路1101は、ネットワー
クコントロールレジスタ(NCR)104からの送信回
路制御信号131とネットワークステータスレジスタ
(NSR)103からのネットワークステータス信号1
40とタイマー監視回路105からのタイマー信号15
0が入力され内容を解析し、自動診断パケット作成信号
1161を自動診断パケット作成回路1104に、診断
パケット作成手段切り換え信号1162を診断パケット
作成手段切り換えセレクタ1112に、通常/診断パケ
ット送出切り換え信号1163を通常/診断パケットセ
レクタ1113に、折り返しパケット送出切り換え信号
1164を折り返しパケットセレクタ1151に出力
し、送信回路内のパケット送信経路を制御する。
The transmission circuit control circuit 1101 has a transmission circuit control signal 131 from the network control register (NCR) 104 and a network status signal 1 from the network status register (NSR) 103.
40 and timer signal 15 from the timer monitoring circuit 105
0 is input and the content is analyzed, and the automatic diagnostic packet creation signal 1161 is sent to the automatic diagnostic packet creation circuit 1104, the diagnostic packet creation means switching signal 1162 is sent to the diagnostic packet creation means switching selector 1112, and the normal / diagnostic packet transmission switching signal 1163 is sent. The normal / diagnosis packet selector 1113 outputs the return packet transmission switching signal 1164 to the return packet selector 1151 to control the packet transmission path in the transmission circuit.

【0027】送信バッファ1102は、プロセッサ内部
バス13からバスデータ入力信号110を介して、OS
などがメモリ12上のパケット送信領域に作成したパケ
ットを受け取るバッファである。同時に本バッファが使
用中であるか否かを送信回路ステータス信号141を介
してネットワークステータスレジスター(NSR)10
3に対して報告を行う。
The transmission buffer 1102 receives the OS from the processor internal bus 13 via the bus data input signal 110.
Is a buffer for receiving the packet created in the packet transmission area on the memory 12. At the same time, it is determined whether or not this buffer is in use via the transmission circuit status signal 141 via the network status register (NSR) 10
Report to 3.

【0028】診断パケット作成回路1103は、送信回
路制御回路1101から診断パケット作成信号1161
を介して診断パケット作成命令を受けると、自動的に診
断パケットを作成し、パケットをパケット送信経路に出
力する。
The diagnostic packet creation circuit 1103 receives the diagnostic packet creation signal 1161 from the transmission circuit control circuit 1101.
When a diagnostic packet creation command is received via, a diagnostic packet is automatically created and the packet is output to the packet transmission path.

【0029】パケットコード解析回路1104はバスデ
ータ入力信号110から入力されたパケットのパケット
コードのみを読み取って、内部バス13から入力された
パケットの種類が通常のパケットか診断パケットかを判
定し、通常/診断切り換えスイッチ1111に送信パケ
ットコード解析報告信号1171を出力し、パケットの
送信経路を切り換える。
The packet code analysis circuit 1104 reads only the packet code of the packet input from the bus data input signal 110 and determines whether the type of the packet input from the internal bus 13 is a normal packet or a diagnostic packet. The transmission packet code analysis report signal 1171 is output to the / diagnosis switch 1111 to switch the packet transmission path.

【0030】図4は図3と同様に、図2で述べたネット
ワークインターフェース回路14を構成する回路の一つ
である、受信回路102の内部構成を示す。図4におい
て、受信回路102はネットワーク4からパケットを取
り込む受信バッファ1201、受信バッファ1201が
入力したパケットのフラグを読み取って、パケットの種
類が通常パケットか診断パケットか折り返し診断パケッ
トかを判定するパケットコード解析回路1202、受信
バッファ1201やパケットコード解析回路1202な
ど受信回路を構成する回路のステータスを集約し、ネッ
トワークステータスレジスタ(NSR)103に報告す
る受信回路ステータス報告回路1203、パケットコー
ド解析回路1202の結果により受信経路を切り換える
折り返しパケット切り換えスイッチ1211及び通常/
診断パケット切り換えスイッチ1212などを備える。
Similar to FIG. 3, FIG. 4 shows the internal structure of the receiving circuit 102, which is one of the circuits constituting the network interface circuit 14 described in FIG. In FIG. 4, the receiving circuit 102 reads a packet from the network 4 for receiving a packet from the network 4 and a packet code input to the receiving buffer 1201 to determine whether the packet type is a normal packet, a diagnostic packet, or a return diagnostic packet. The results of the receiving circuit status reporting circuit 1203 and the packet code analyzing circuit 1202 that collect the statuses of the circuits forming the receiving circuit such as the analyzing circuit 1202, the receiving buffer 1201 and the packet code analyzing circuit 1202 and report them to the network status register (NSR) 103. Return packet switching switch 1211 for switching the reception path by
The diagnostic packet changeover switch 1212 and the like are provided.

【0031】受信バッファ1201はネットワーク4か
らパケット受信信号121を介しパケットを取り込み、
そのパケットを受信パケット経路(1)1221へ出力
し、同時に受信バッファ1201内のパケット受信状況
等の報告を受信バッファ状態報告信号1230を介して
受信回路ステータス報告回路1203へ出力する。
The reception buffer 1201 fetches a packet from the network 4 via the packet reception signal 121,
The packet is output to the reception packet path (1) 1221, and at the same time, a report of the packet reception status in the reception buffer 1201 is output to the reception circuit status reporting circuit 1203 via the reception buffer status reporting signal 1230.

【0032】パケットコード解析回路1202は、ネッ
トワーク4からパケット受信信号121を介して入力さ
れた受信パケットのパケットコードのみを読み取って、
その値により受信したパケットが通常パケットか受信診
断パケットか送信診断パケットかの判定を行い、その結
果を通常/診断パケット受信報告信号1240及び折り
返しパケット受信報告信号1250を介して受信回路ス
テータス報告回路1203へ出力する。また同時に折り
返しパケット切り換えスイッチ1211と通常/診断パ
ケット切り換えスイッチ1212の制御を行い受信回路
内部のパケット受信経路を切り換える。
The packet code analysis circuit 1202 reads only the packet code of the received packet input from the network 4 via the packet reception signal 121,
Based on the value, it is determined whether the received packet is a normal packet, a reception diagnostic packet or a transmission diagnostic packet, and the result is sent to the reception circuit status reporting circuit 1203 via the normal / diagnosis packet reception report signal 1240 and the return packet reception report signal 1250. Output to. At the same time, the return packet switching switch 1211 and the normal / diagnostic packet switching switch 1212 are controlled to switch the packet receiving path inside the receiving circuit.

【0033】受信回路ステータス報告回路1203は受
信バッファ1201からの受信バッファ状態報告信号1
230とパケットコード解析回路1202からの通常/
診断パケット受信報告信号1240及び折り返しパケッ
ト受信報告信号1250を受け、その内容を受信回路ス
テータス信号142を介しネットワークステータスレジ
スタ(NSR)103へ出力する。
The receiving circuit status reporting circuit 1203 receives the receiving buffer status reporting signal 1 from the receiving buffer 1201.
230 from the packet code analysis circuit 1202
The diagnostic packet reception report signal 1240 and the return packet reception report signal 1250 are received, and the contents are output to the network status register (NSR) 103 via the reception circuit status signal 142.

【0034】図5は本発明に係る並列計算機のプロセッ
サ間データ転送に使用するパケットのフォーマットを示
す。図5においてパケットは、パケットの始まりを示す
パケットヘッダーと内容を示すパケットデータから成
る。パケットヘッダーはパケットの種類を示すパケット
コード、パケットの大きさを示すパケットレングス、送
信元を示す送信元プロセッサアドレス及び受信先を示す
受信先プロセッサアドレスで構成される。
FIG. 5 shows a packet format used for data transfer between processors of the parallel computer according to the present invention. In FIG. 5, the packet includes a packet header indicating the beginning of the packet and packet data indicating the contents. The packet header is composed of a packet code indicating the type of packet, a packet length indicating the size of the packet, a source processor address indicating the source and a destination processor address indicating the destination.

【0035】パケットコードは、前に述べたようにパケ
ットの種類を示すが、具体的には通常の演算時に使用す
る通常パケットと自プロセッサが他のプロセッサに対し
て診断をする送信診断パケットと他のプロセッサからの
診断パケットの返事である受信診断パケットによって値
が変えられ、本実施例では通常通信パケットは“0
0”、送信診断パケットは“01”、受信診断パケット
は“10”とする。
The packet code indicates the type of packet as described above. Specifically, it is a normal packet used during normal operation and a transmission diagnostic packet for the other processor to diagnose other processors. The value is changed by the received diagnostic packet, which is a reply of the diagnostic packet from the processor, and the normal communication packet is "0" in this embodiment.
0 ", the transmission diagnostic packet is" 01 ", and the reception diagnostic packet is" 10 ".

【0036】パケットレングスは、パケットに含まれる
パケットデータの数を示し、診断パケットの場合解析を
容易にする為、パケットデータを2個に設定する。
The packet length indicates the number of packet data included in the packet, and in the case of a diagnostic packet, the packet data is set to 2 in order to facilitate the analysis.

【0037】送受信プロセッサのアドレスは、並列計算
機立ち上げ時に各プロセッサ毎に違った値がサービスプ
ロセッサSVPより割り当てられているので、その値を
参照して設定する。
Since a value different for each processor is assigned by the service processor SVP when the parallel computer is started up, the address of the transmission / reception processor is set by referring to that value.

【0038】パケットデータは、診断用パケットの場合
ダミーデータとし、解析を容易にする為、第一パケット
データをオール“0”に、第二パケットデータをオール
“F”に設定する。
In the case of a diagnostic packet, the packet data is dummy data. To facilitate analysis, the first packet data is set to all "0" and the second packet data is set to all "F".

【0039】図6は本発明に係る並列計算機であり、n
個の演算プロセッサと診断専用のプロセッサをネットワ
ークに接続し、プロセッサ間データ転送とネットワーク
を診断する診断パケットの送受信を行う並列計算機の構
成を示す。図6において、1,2は演算プロセッサ(P
U(1),…,PU(n))を示し3は診断専用プロセ
ッサ(PU(n+1))を示す。各プロセッサ1,2,
3はCPU11,21,31とメモリ12,22,32
及びネットワークインターフェース回路14,24,3
4を備え、それぞれがプロセッサ内部バス13,23,
33を介して接続される。各プロセッサ1,2,3は、
データ転送信号10,20,30によりプロセッサ間結
合のネットワーク4に接続される。5はサービスプロセ
ッサ(SVP)であり、各プロセッサ1,2,3にプロ
セッサ制御信号6を介して接続される。
FIG. 6 shows a parallel computer according to the present invention, n
1 shows a configuration of a parallel computer that connects each arithmetic processor and a processor dedicated to diagnosis to a network and performs data transfer between processors and transmission / reception of a diagnostic packet for diagnosing the network. In FIG. 6, reference numerals 1 and 2 denote arithmetic processors (P
U (1), ..., PU (n)) are shown, and 3 is a diagnosis dedicated processor (PU (n + 1)). Each processor 1, 2,
3 is CPUs 11, 21, 31 and memories 12, 22, 32
And network interface circuits 14, 24, 3
4, each of which has a processor internal bus 13, 23,
It is connected via 33. Each processor 1, 2, 3
The data transfer signals 10, 20, 30 are connected to the network 4 for interprocessor coupling. A service processor (SVP) 5 is connected to each of the processors 1, 2, and 3 via a processor control signal 6.

【0040】続いて本実施例に係る並列計算機の動作を
述べる。
Next, the operation of the parallel computer according to this embodiment will be described.

【0041】システム立ち上げ時、サービスプロセッサ
(SVP)5が本並列計算機の構成情報を元に、プロセ
ッサ制御信号6を介して各プロセッサ1,2に並列計算
機を構成するネットワーク4上でのアドレスやネットワ
ーク構成情報などを配布し配布終了後、各プロセッサ内
部が立ち上げ処理を開始する。各プロセッサ1,2は装
置立ち上げ処理に入ると、ネットワークインターフェー
ス回路14に対してセルフテストの要求を発行する。そ
の為に、ネットワークインターフェース回路14内部の
ネットワークコントロールレジスタ(NCR)に、自プ
ロセッサに対して送信診断パケットを送信する命令を発
行する。その命令を受けるとネットワークインターフェ
ース回路14内部の送信回路101が自プロセッサ1宛
の送信診断パケット自動診断パケット作成回路1104
にて作成し、ネットワーク4に送信し同時に、この送信
診断パケットは診断回路106に格納しておく。ネット
ワーク4に送信後、送信診断パケットの受信先プロセッ
サアドレスが自プロセッサ1宛になっている為、送信診
断パケットがネットワーク4からそのままネットワーク
インターフェース回路14内に受信される。パケットを
ネットワークインターフェース回路14内の受信回路1
02が受信すると、そのパケットは送信診断パケットの
為、送信して来たプロセッサ側のアドレスへ送り返す処
理を行う。受信回路102内のパケットコード解析回路
1202が送信診断パケットと解析すると折り返しパケ
ット切り換えスイッチ1211を折り返しパケット処理
側に切り換え、パケットヘッダー書換回路107でパケ
ットコードを受信診断パケットのコード“10”に書き
換た後、送信回路101へパケットを転送し、送信回路
101から再びネットワーク4へと受信診断パケットを
送信する。ネットワーク2がこのパケットを受けると、
送信先プロセッサアドレスが同じ為、再び自プロセッサ
1に対して、本パケットを送り返す。自プロセッサ1
が、受信診断パケットをネットワークインターフェース
回路14内部の受信回路102に受信すると、パケット
コード解析回路1202がパケットコードを解析し、受
信診断パケットと判断する。すると、折り返しパケット
切り換えスイッチ1211と通常/診断パケット切り換
えスイッチ1212を制御し、受信したパケットをネッ
トワーク診断回路106へ転送する。ネットワーク診断
回路106が受信診断パケットを受けると、先程格納し
ておいた送信診断パケットと比較し、パケットが正しけ
ればネットワーク及び自プロセッサ1のネットワークイ
ンターフェース回路14が正常であることをネットワー
クステータスレジスタ(NSR)103に対して報告す
る。これらの動作が終了するとCPU11がネットワー
クステータスレジスタ(NSR)を参照し、問題が無け
ればセルフテストを正常終了するが、送受信診断パケッ
トが受信されなかった場合にはタイムアウトを返し、無
事受信されても診断結果が悪ければ、診断パケットコン
ペアーエラーを返す。セルフテストでこれらの不良が発
生すると、サービスプロセッサ(SVP)5に対して自
プロセッサ1が不良である事を報告する。
When the system is started up, the service processor (SVP) 5 uses the configuration information of this parallel computer to send the addresses and the addresses on the network 4 that configure the parallel computers to the processors 1 and 2 via the processor control signal 6. After the network configuration information is distributed and the distribution is completed, the inside of each processor starts the startup processing. Each of the processors 1 and 2 issues a self-test request to the network interface circuit 14 upon starting the apparatus start-up process. Therefore, the network control register (NCR) in the network interface circuit 14 issues an instruction to transmit a transmission diagnostic packet to its own processor. Upon receiving the command, the transmission circuit 101 in the network interface circuit 14 causes the transmission diagnostic packet addressed to the own processor 1 to automatically generate the diagnostic packet 1104.
And the transmission diagnostic packet is stored in the diagnostic circuit 106 at the same time. After transmission to the network 4, the destination processor address of the transmission diagnostic packet is addressed to the own processor 1, so the transmission diagnostic packet is received as it is from the network 4 in the network interface circuit 14. Receiving circuit 1 in network interface circuit 14 for receiving packets
When the packet 02 is received, the packet is a transmission diagnostic packet, and therefore the packet is sent back to the address of the processor that has transmitted it. When the packet code analysis circuit 1202 in the reception circuit 102 analyzes the transmission diagnostic packet, the loopback packet changeover switch 1211 is switched to the loopback packet processing side, and the packet header rewriting circuit 107 rewrites the packet code to the code “10” of the reception diagnostic packet. After that, the packet is transferred to the transmission circuit 101, and the reception diagnostic packet is transmitted from the transmission circuit 101 to the network 4 again. When network 2 receives this packet,
Since the destination processor address is the same, this packet is sent back to the own processor 1 again. Own processor 1
However, when the reception diagnostic packet is received by the reception circuit 102 inside the network interface circuit 14, the packet code analysis circuit 1202 analyzes the packet code and determines that it is a reception diagnostic packet. Then, the return packet changeover switch 1211 and the normal / diagnosis packet changeover switch 1212 are controlled to transfer the received packet to the network diagnosis circuit 106. When the network diagnostic circuit 106 receives the received diagnostic packet, it compares the received diagnostic packet with the previously stored transmitted diagnostic packet, and if the packet is correct, the network status circuit (NSR) indicates that the network and the network interface circuit 14 of its own processor 1 are normal. ) 103. When these operations are completed, the CPU 11 refers to the network status register (NSR), and if there is no problem, the self-test ends normally, but if a transmission / reception diagnostic packet is not received, a timeout is returned and even if it is received successfully. If the diagnostic result is bad, a diagnostic packet compare error is returned. When these defects occur in the self-test, it reports to the service processor (SVP) 5 that its own processor 1 is defective.

【0042】セルフテストが正常終了すると自プロセッ
サ1から他のプロセッサ2に対しての診断を行う。これ
は、パケットの作成方法はセルフパケットと同様に診断
パケット作成回路1104によってパケットを作成し、
今度はセルフパケットのように受信先アドレスを自プロ
セッサ1宛ではなく、他のプロセッサ2宛のアドレスに
設定し、ネットワークインターフェース回路14内部の
送信回路101がネットッワーク4を介して他のプロセ
ッサ2に送信する。他のプロセッサ2が自プロセッサ1
からの送信診断パケットをネットワークインターフェー
ス回路24に受信すると、セルフテストと同様にパケッ
トコードを受信診断パケットに変換し、且つ送信元アド
レスと受信先アドレスのスワップを行って、ネットワー
ク4を介し自プロセッサ1に送り返す。そして自プロセ
ッサ1が受信診断パケットを受信すると、ネットワーク
インターフェース回路14内部の受信回路102は受信
診断パケットを、ネットワークインタフェース回路14
内部のネットワーク診断回路106に転送し、先ほど送
信した送信診断パケットと比較し、比較結果をネットワ
ークステータスレジスタ(NSR)103に報告する。
その後、CPU11がネットワークステータスレジスタ
(NSR)103の値を読み取り、今回診断したプロセ
ッサ2の正常/異常を判定する。他のプロセッサ2へ診
断が終了すると、次のプロセッサへの診断パケット送信
を行い、これを全プロセッサに対して順番に繰り返す。
When the self test ends normally, the self processor 1 diagnoses the other processors 2. This is because the packet is created by the diagnostic packet creation circuit 1104 in the same manner as the self-packet,
This time, like the self-packet, the destination address is set not to the own processor 1 but to the other processor 2, and the transmission circuit 101 inside the network interface circuit 14 transmits to the other processor 2 via the network 4. To do. Other processor 2 is its own processor 1
When the transmission diagnostic packet from the network interface circuit 24 is received by the network interface circuit 24, the packet code is converted into the reception diagnostic packet in the same manner as the self-test, and the source address and the destination address are swapped, and the self-processor 1 is transmitted via the network 4. Send it back to. When the processor 1 receives the reception diagnostic packet, the reception circuit 102 inside the network interface circuit 14 transmits the reception diagnostic packet to the network interface circuit 14
The packet is transferred to the internal network diagnostic circuit 106, compared with the transmission diagnostic packet transmitted previously, and the comparison result is reported to the network status register (NSR) 103.
After that, the CPU 11 reads the value of the network status register (NSR) 103 and determines whether the processor 2 diagnosed this time is normal or abnormal. When the diagnosis is completed for the other processors 2, the diagnostic packet is transmitted to the next processor, and this is repeated for all the processors in order.

【0043】各プロセッサ1,2がそれぞれ全プロセッ
サに対する診断を終了すると、システムの稼働に入り、
OS等のブートを開始する。
When each of the processors 1 and 2 completes the diagnosis of all the processors, the system starts to operate,
Booting of OS etc. is started.

【0044】システム稼働時の診断は、従来の技術であ
るユーザーコマンドやOS等からのソフトウェアルーチ
ンによる診断パケットの送受信をするものと、ネットワ
ークインターフェース回路14が自動的に診断パケット
を作成しネットワークへ送受信するものと2種類があ
る。従来の技術であるユーザーコマンドからのソフトウ
ェアルーチンによる診断パケットの送受信は、まずメモ
リ12上の送信パケット領域にダミーパケットを作成
し、診断を行いたいプロセッサに対して通常パケットと
して送受信を行い、送信したパケットと受信したパケッ
トをOSがソフトウェア的に解析/判断する方法と、送
信診断パケットとしてメモリ上にパケットを作成し、他
のプロセッサ2へ送信し、他のプロセッサ2が受信診断
パケットに変換して折り返しパケット送信したものを自
プロセッサ1が受信してネットワークインターフェース
回路14がハードウェア的に解析し、その結果をOSが
参照して判断する方法とがある。
Diagnosis during system operation is performed by transmitting / receiving a diagnostic packet by a software routine from a user command or OS, which is a conventional technique, and by the network interface circuit 14 automatically creating a diagnostic packet and transmitting / receiving it to the network. There are two types. In transmitting and receiving a diagnostic packet by a software routine from a user command, which is a conventional technique, first, a dummy packet is created in the transmission packet area on the memory 12, and is transmitted and received as a normal packet to a processor to be diagnosed and transmitted. A method in which the OS analyzes / determines the packet and the received packet by software, and a packet is created in the memory as a transmission diagnostic packet and transmitted to another processor 2, which converts it into a reception diagnostic packet. There is a method in which the self-processor 1 receives a packet that has been transmitted as a return packet, the network interface circuit 14 analyzes it in terms of hardware, and the OS refers to the result to determine.

【0045】ネットワークインターフェース回路14が
自動的に診断パケットを作成しネットワークへ送受信す
る方法には、OSがネットワークインターフェース回路
14に対し、診断パケットを自動生成して診断を行う命
令を発行し、ネットワークインターフェース回路14内
部の診断パケット作成回路1103が診断パケットを自
動的に生成し、他のプロセッサ2に対して診断パケット
の送受信を行い、ネットワーク診断回路106でハード
ウェア的に解析し、その結果をOSが参照し判断する方
法と、OSが前もってネットワークインターフェース回
路14を、ネットワークが未使用であれば診断パケット
を自動生成して診断を行うモードに設定し、自プロセッ
サ1のネットワークインターフェース回路14に対して
CPU11がアクセスしていない時、診断パケットをネ
ットワークインターフェース回路14内部で診断パケッ
トを自動生成し、他のプロセッサ2に対して診断パケッ
トの送受信を行い、ネットワーク診断回路106でハー
ドウェア的に解析し、その結果が異常であればOSに対
して報告する方法と、OSがネットワークインターフェ
ース回路14を、一定期間毎に診断パケットを発行する
モードに設定し、ネットワークインターフェース回路1
4内部でタイマー監視回路105のタイマー信号150
を参照して一定期間毎に診断パケットを自動生成し、他
のプロセッサ2に対して診断パケットの送受信を行いネ
ットワーク診断回路106でハードウェア的に解析し、
その結果が異常であればOSに対して報告する方法があ
る。
In order to automatically generate a diagnostic packet by the network interface circuit 14 and send / receive it to / from the network, the OS issues a command to the network interface circuit 14 to automatically generate a diagnostic packet for diagnosis, The diagnostic packet creation circuit 1103 inside the circuit 14 automatically generates a diagnostic packet, transmits / receives the diagnostic packet to / from another processor 2, analyzes it by hardware in the network diagnostic circuit 106, and the result is displayed by the OS. The method of referring to and making a decision, and the OS sets the network interface circuit 14 in advance to a mode in which a diagnostic packet is automatically generated and a diagnosis is performed if the network is unused, and the CPU 11 Is If not, the diagnostic packet is automatically generated inside the network interface circuit 14, the diagnostic packet is transmitted / received to / from another processor 2, and the network diagnostic circuit 106 analyzes it by hardware. Is reported to the OS, and the OS sets the network interface circuit 14 to a mode in which it issues a diagnostic packet at regular intervals.
4 Inside the timer monitoring circuit 105 timer signal 150
, A diagnostic packet is automatically generated at regular intervals, the diagnostic packet is transmitted / received to / from another processor 2, and the network diagnostic circuit 106 analyzes it in terms of hardware.
If the result is abnormal, there is a method of reporting to the OS.

【0046】続いて、今までに述べた並列計算機のシス
テムに追加して、通常の演算を行う複数のプロセッサ
1,2以外に診断専用プロセッサ3をネットワーク4に
接続した場合の動作を以下に述べる。システム立ち上げ
時、サービスプロセッサ(SVP)5が本並列計算機の
構成情報を元に、プロセッサ制御信号6を介して各演算
プロセッサ1,2と診断専用プロセッサ3に並列計算機
を構成するネットワーク4上でのアドレスやネットワー
ク構成情報などを配布し配布終了後、各プロセッサ内部
での処理を開始する。各演算プロセッサ1,2と診断専
用プロセッサ3は装置立ち上げ処理に入ると、各プロセ
ッサ内部のネットワークインターフェース回路に対して
セルフテストの要求を発行し、前に述べたものと同様セ
ルフテスト処理を実行する。セルフテスト処理が終了す
ると、演算プロセッサ1,2はサービスプロセッサ(S
VP)5からのシステム立ち上げ処理終了の報告が入る
までしばらく待ち状態になる。ここで診断専用プロセッ
サ3のみが動作し、各演算プロセッサ1,2に対する診
断処理を行う。診断専用プロセッサ3が全プロセッサに
対する診断処理を終了すると、診断専用プロセッサ3が
サービスプロセッサ(SVP)5に全プロセッサに対す
る診断処理終了の報告を行い、サービスプロセッサ(S
VP)5がそれを受けるとサービスプロセッサ(SV
P)5は全プロセッサにシステム立ち上げ処理終了の報
告を行う。全プロセッサがシステム立ち上げ処理終了の
報告をサービスプロセッサ(SVP)5から受けると全
プロセッサはOS等のブート処理に入りシステム稼働開
始となる。本構成で、システム運用中のネットワーク診
断テストは、演算用プロセッサ1,2からの診断パケッ
ト送受信は行わず、ネットワーク診断専用プロセッサ3
のみが各演算用プロセッサ1,2に対する診断パケット
の送受信とセルフテストを行う。このネットワーク診断
専用プロセッサ3によるネットワークの診断処理におい
て他のプロセッサの故障等が発見されると、演算プロセ
ッサ1,2は診断処理を行っていないので、自分からは
故障プロセッサの存在を把握することができないが、診
断専用プロセッサ3がネットワークの診断処理を行うこ
とによって診断専用プロセッサ3は故障プロセッサの発
見が可能である。診断専用プロセッサ3が演算用プロセ
ッサの故障を発見すると、ネットワーク4を介して全演
算プロセッサ1,2に対して、通常のパケットを使用し
て、ブロードキャスト転送を行い、報告する。この診断
専用プロセッサは常に各自プロセッサ1,2及び3に対
する診断パケットの送受信を行っており、通常のパケッ
トは診断パケット解析結果で故障プロセッサが発見され
たときの各演算用プロセッサ1,2に対するブロードキ
ャスト報告の時のみ行う。
Next, the operation in the case of connecting to the network 4 the diagnosis-dedicated processor 3 in addition to the plurality of processors 1 and 2 for performing the normal operation in addition to the parallel computer system described above will be described below. . When the system is started up, the service processor (SVP) 5 is based on the configuration information of the parallel computer, and via the processor control signal 6, the arithmetic processors 1 and 2 and the dedicated diagnostic processor 3 on the network 4 that constitutes the parallel computer. Addresses and network configuration information are distributed, and after the distribution is completed, the processing inside each processor is started. When each of the arithmetic processors 1 and 2 and the diagnostic processor 3 enters the device start-up processing, it issues a self-test request to the network interface circuit inside each processor and executes the self-test processing as described above. To do. When the self-test process is completed, the arithmetic processors 1 and 2 are service processors (S
The system waits for a while until the VP) 5 reports the end of the system startup processing. Here, only the diagnosis-dedicated processor 3 operates to perform a diagnosis process on each of the arithmetic processors 1 and 2. When the diagnosis-dedicated processor 3 finishes the diagnosis processing for all the processors, the diagnosis-dedicated processor 3 reports the completion of the diagnosis processing for all the processors to the service processor (SVP) 5, and the service processor (SVP)
When the VP 5 receives it, the service processor (SV
P) 5 reports the completion of the system startup processing to all the processors. When all the processors receive a report from the service processor (SVP) 5 that the system startup processing has been completed, all the processors enter the boot processing of the OS or the like and the system operation starts. With this configuration, in the network diagnostic test during system operation, the diagnostic packet is not transmitted / received from the arithmetic processors 1 and 2, but the network diagnostic dedicated processor 3
Only the transmission and reception of the diagnostic packet and the self-test with respect to the arithmetic processors 1 and 2 are performed. When a failure or the like of another processor is found in the network diagnosis processing by the network diagnosis dedicated processor 3, the arithmetic processors 1 and 2 do not perform the diagnosis processing, and therefore it is possible to grasp the existence of the failure processor from oneself. Although not possible, the diagnosis-dedicated processor 3 can find a faulty processor by the diagnosis-dedicated processor 3 performing a network diagnosis process. When the diagnostic-dedicated processor 3 finds a failure in the arithmetic processor, it broadcasts to all the arithmetic processors 1 and 2 via the network 4 using a normal packet and reports the result. This diagnostic-dedicated processor constantly sends and receives diagnostic packets to and from its own processors 1, 2 and 3, and normal packets are broadcast reports to the arithmetic processors 1 and 2 when a failed processor is found in the diagnostic packet analysis result. Only when

【0047】[0047]

【発明の効果】以上に述べたように、本発明によれば、
複数のプロセッサを接続したネットワークによりプロセ
ッサ間データ転送を行う並列計算機においてシステム立
ち上げ時またはシステム運行中、ネットワークや他のプ
ロセッサに対してネットワークを構成するハードウェア
の故障等を診断する診断専用のパケットを送受信するこ
とにより障害の早期検出が可能になる為、計算機システ
ムの稼働率が上がる。又、システムの運行中、通常のデ
ータ転送路と切り換えて診断パケットの送受信を行う
為、通常のデータ通信と衝突することなく安全であり、
又ネットワーク未使用時や定期的な診断パケットの送受
信を行う為、ネットワークの使用効率が向上する。
As described above, according to the present invention,
A dedicated packet for diagnosis that diagnoses the failure of the hardware configuring the network or other processors for the network or other processors at the time of system startup or system operation in a parallel computer that transfers data between processors by a network connecting multiple processors Since it becomes possible to detect a failure early by transmitting and receiving, the operating rate of the computer system is increased. Also, while the system is in operation, it switches to a normal data transfer path to send and receive diagnostic packets, so it is safe without collision with normal data communication,
Further, since the diagnostic packet is transmitted / received when the network is not used or at regular intervals, the use efficiency of the network is improved.

【0048】さらに演算プロセッサ以外に診断専用のプ
ロセッサを設けることにより、頻繁な診断パケット送受
信によるCPUやシステム全体の処理能力の低下を防ぐ
事ができる。
Further, by providing a processor dedicated to diagnosis in addition to the arithmetic processor, it is possible to prevent a decrease in the processing capacity of the CPU and the entire system due to frequent transmission and reception of diagnostic packets.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施例に係る並列計算機の構成の概要
を示す。
FIG. 1 shows an outline of a configuration of a parallel computer according to an embodiment of the present invention.

【図2】本発明の実施例に係る並列計算機のネットワー
クインターフェース回路の構成を示す。
FIG. 2 shows a configuration of a network interface circuit of a parallel computer according to an embodiment of the present invention.

【図3】本発明の実施例に係るネットワークインターフ
ェース回路内部の送信回路の構成を示す。
FIG. 3 shows a configuration of a transmission circuit inside a network interface circuit according to an embodiment of the present invention.

【図4】本発明の実施例に係るネットワークインターフ
ェース回路内部の受信回路の構成を示す。
FIG. 4 shows a configuration of a receiving circuit inside a network interface circuit according to an embodiment of the present invention.

【図5】本発明の実施例に係る並列計算機のプロセッサ
間データ転送に用いるパケットのフォーマットを示す。
FIG. 5 shows a packet format used for data transfer between processors of a parallel computer according to an embodiment of the present invention.

【図6】本発明の実施例に係る並列計算機の構成の概要
を示す。
FIG. 6 shows an outline of a configuration of a parallel computer according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1…プロセッサ(PU(1))、 2…プロセッサ
(PU(n))、3…プロセッサ(PU(n+1))、 4
…ネットワーク、5…サービスプロセッサ(SVP)、
6…プロセッサ制御信号、7…ネットワーク制御信号、
10…データ転送信号(PU(1))、11…CPU
(PU(1))、 12…メモリ(PU(1))、
13…プロセッサ内部バス(PU(1))、14…ネットワ
ークインターフェース回路(PU(1))、20…データ
転送信号(PU(n))、 21…CPU(PU(n))、22
…メモリ(PU(n))、 23…プロセッサ内部バ
ス(PU(n))、24…ネットワークインターフェェース回
路(PU(n))、30…データ転送信号(PU(n+1))、
31…CPU(PU(n+1))、32…メモリ(PU
(n+1))、33…プロセッサ内部バス(PU(n+
1))、34…ネットワークインターフェース回路(PU
(n+1))、40…ネットワーク回路障害報告ラッチ、
101…送信回路(PU(1))、102…受信回路(PU
(1))、 201…送信回路(PU(n))、20
2…受信回路(PU(n))、 301…送信回路
(PU(n+1))、302…受信回路(PU(n+1))、1
03…ネットワークステータスレジスタタ(NSR)、10
4…ネットワークコントロールレジスタ(NCR)、105
…タイマー監視回路、 106…パケット診断回
路、107…ヘッダー書換回路、 110…バスデー
タ入力信号、111…パケット送信信号、 112…
送信診断パケット出力信号、113…折り返しパケット入
力信号、 120…バスデータ出力信号、121…パケット受
信信号、 122…受信診断パケット出力信号、12
3…折り返しパケット出力信号、 130…ネットワークコ
ントロール信号、131…送信回路制御信号、 14
0…ネットワークステータス信号、141…送信回路ステー
タス信号、 142…受信回路ステータス信号、143…診
断回路ステータス信号、 150…タイマー信号、1101…
送信回路制御回路、 1102…送信バッファ、1103
…パケットコード解析回路、 1104…診断パケット作成
回路、1111…通常/診断切り換えスイッチ、1112…診断
パケット作成手段切り換えセレクタ、1113…通常/診断
パケットセレクタ、1114…通常/折り返しパケットセレ
クタ、1121…送信パケット転送路(1)、1131…通常パケ
ット転送路、 1132…診断パケット転送路、
1133…自動作成診断パケット転送路、 1141…送信パ
ケット転送路(2)、1151…診断パケット作成信号、1152
…診断パケット作成手段切り換え信号、1153…通常/診
断パケット送出切り換え信号、1154…折り返しパケット
切り換え信号、1161…通常/診断パケット入力切り換え
信号、1201…受信バッファ、 1202…
パケットコード解析回路、1203…受信回路ステータス報
告回路、1211…折り返しパケット切り換えスイッチ、12
12…通常/診断パケット切り換えスイッチ、1221…受信
パケット経路(1)、 1222…受信パケット経路
(2)、1230…受信バッファ状態報告信号、1240…通常
/診断パケット受信報告信号、1250…折り返しパケット
受信報告信号。
1 ... Processor (PU (1)), 2 ... Processor (PU (n)), 3 ... Processor (PU (n + 1)), 4
... network, 5 ... service processor (SVP),
6 ... Processor control signal, 7 ... Network control signal,
10 ... Data transfer signal (PU (1)), 11 ... CPU
(PU (1)), 12 ... Memory (PU (1)),
13 ... Processor internal bus (PU (1)), 14 ... Network interface circuit (PU (1)), 20 ... Data transfer signal (PU (n)), 21 ... CPU (PU (n)), 22
... memory (PU (n)), 23 ... processor internal bus (PU (n)), 24 ... network interface circuit (PU (n)), 30 ... data transfer signal (PU (n + 1)),
31 ... CPU (PU (n + 1)), 32 ... Memory (PU
(N + 1)), 33 ... Processor internal bus (PU (n +
1)), 34 ... Network interface circuit (PU)
(N + 1)), 40 ... Network circuit failure report latch,
101 ... Transmission circuit (PU (1)), 102 ... Reception circuit (PU)
(1)), 201 ... Transmitting circuit (PU (n)), 20
2 ... Receiving circuit (PU (n)), 301 ... Transmitting circuit
(PU (n + 1)), 302 ... Receiving circuit (PU (n + 1)), 1
03 ... Network Status Register (NSR), 10
4 ... Network control register (NCR), 105
… Timer monitoring circuit, 106… Packet diagnostic circuit, 107… Header rewriting circuit, 110… Bus data input signal, 111… Packet transmission signal, 112…
Transmission diagnostic packet output signal, 113 ... Return packet input signal, 120 ... Bus data output signal, 121 ... Packet reception signal, 122 ... Reception diagnostic packet output signal, 12
3 ... Return packet output signal, 130 ... Network control signal, 131 ... Transmission circuit control signal, 14
0 ... Network status signal, 141 ... Transmission circuit status signal, 142 ... Reception circuit status signal, 143 ... Diagnostic circuit status signal, 150 ... Timer signal, 1101 ...
Transmission circuit control circuit, 1102 ... Transmission buffer, 1103
... packet code analysis circuit, 1104 ... diagnostic packet creation circuit, 1111 ... normal / diagnosis changeover switch, 1112 ... diagnostic packet creation means changeover selector, 1113 ... normal / diagnosis packet selector, 1114 ... normal / turnback packet selector, 1121 ... transmission packet Transfer path (1), 1131 ... normal packet transfer path, 1132 ... diagnostic packet transfer path,
1133 ... Automatically created diagnostic packet transfer path, 1141 ... Transmission packet transfer path (2), 1151 ... Diagnostic packet creation signal, 1152
... diagnostic packet creating means switching signal, 1153 ... normal / diagnostic packet transmission switching signal, 1154 ... return packet switching signal, 1161 ... normal / diagnostic packet input switching signal, 1201 ... receiving buffer, 1202 ...
Packet code analysis circuit, 1203 ... Reception circuit status reporting circuit, 1211 ... Return packet changeover switch, 12
12 ... Normal / diagnosis packet changeover switch, 1221 ... Reception packet path (1), 1222 ... Reception packet path (2), 1230 ... Reception buffer status report signal, 1240 ... Normal / diagnosis packet reception report signal, 1250 ... Return packet reception Report signal.

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】複数のプロセッサを接続したネットワーク
によりプロセッサ間データ転送を行う並列計算機におい
て、実際の計算に用いるプロセッサ間データ通信とは異
なる、ネットワーク上のハードウェアが故障しているか
否かを検出する為の診断用パケットをネットワーク上に
転送して各プロセッサとネットワーク間の診断を行い障
害部位の指摘とOSやユーザーに対する報告を行う並列
計算機。
1. A parallel computer which transfers data between processors by a network connecting a plurality of processors, detects whether or not hardware on the network, which is different from data communication between processors used for actual calculation, has failed. A parallel computer that transfers diagnostic packets to the network and diagnoses between each processor and the network to identify the faulty part and report to the OS and users.
【請求項2】複数のプロセッサを接続したネットワーク
によりプロセッサ間データ転送を行う並列計算機におい
て、各プロセッサが診断用パケットを自分に対して転送
し、セルフテストを行う請求項1に記載されている並列
計算機。
2. The parallel computer according to claim 1, wherein each processor transfers a diagnostic packet to itself and performs a self-test in a parallel computer which transfers data between processors by a network connecting a plurality of processors. calculator.
【請求項3】複数のプロセッサを接続したネットワーク
によりプロセッサ間データ転送を行う並列計算機におい
て、実際の計算に用いる演算用プロセッサ以外にネット
ワーク上に診断専用のプロセッサを別に接続し、このプ
ロセッサがネットワーク又は他のプロセッサに対して診
断用パケットの送受信を行い、ネットワークを構成する
ハードウェアや他のプロセッサの診断を行う請求項1に
記載されている並列計算機。
3. In a parallel computer for transferring data between processors by a network connecting a plurality of processors, a processor dedicated to diagnosis is separately connected on the network in addition to a processor for calculation used for actual calculation, and this processor is connected to the network or The parallel computer according to claim 1, wherein a diagnostic packet is transmitted to and received from another processor to diagnose the hardware constituting the network and the other processor.
【請求項4】複数のプロセッサを接続したネットワーク
によりプロセッサ間データ転送を行う並列計算機におい
て、システム立ち上げ時にプロセッサがネットワーク上
に診断パケットを転送しネットワークを構成するハード
ウェアや他のプロセッサの診断を行う請求項1に記載さ
れている並列計算機。
4. In a parallel computer for transferring data between processors by a network connecting a plurality of processors, the processor transfers a diagnostic packet to the network at the time of system startup to diagnose hardware constituting the network and other processors. The parallel computer according to claim 1.
【請求項5】複数のプロセッサを接続したネットワーク
によりプロセッサ間データ転送を行う並列計算機におい
て、システム運行中ネットワーク未使用時又はタイマー
等の使用により定期的に診断パケットをネットワーク上
に転送し、ネットワークを構成するハードウェアや他の
プロセッサの診断を行う請求項1に記載されている並列
計算機。
5. In a parallel computer for transferring data between processors by a network connecting a plurality of processors, diagnostic packets are periodically transferred onto the network when the network is not in use during system operation or when a timer or the like is used. The parallel computer according to claim 1, which diagnoses hardware and other processors constituting the computer.
JP7033329A 1995-02-22 1995-02-22 Parallel computer Pending JPH08227406A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7033329A JPH08227406A (en) 1995-02-22 1995-02-22 Parallel computer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7033329A JPH08227406A (en) 1995-02-22 1995-02-22 Parallel computer

Publications (1)

Publication Number Publication Date
JPH08227406A true JPH08227406A (en) 1996-09-03

Family

ID=12383525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7033329A Pending JPH08227406A (en) 1995-02-22 1995-02-22 Parallel computer

Country Status (1)

Country Link
JP (1) JPH08227406A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957364B2 (en) 2001-02-02 2005-10-18 Hitachi, Ltd. Computing system in which a plurality of programs can run on the hardware of one computer
JP2008152643A (en) * 2006-12-19 2008-07-03 Nec Corp Fault isolation system, fault isolation method and program
JP2011192216A (en) * 2010-03-16 2011-09-29 Fujitsu Ltd Input/output connecting device, information processing device, and input/output device inspection method
WO2012127692A1 (en) * 2011-03-24 2012-09-27 富士通株式会社 Information processing device, transmission device, and information processing device control method
JP5370500B2 (en) * 2010-02-08 2013-12-18 富士通株式会社 Network relay device and diagnostic method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957364B2 (en) 2001-02-02 2005-10-18 Hitachi, Ltd. Computing system in which a plurality of programs can run on the hardware of one computer
JP2008152643A (en) * 2006-12-19 2008-07-03 Nec Corp Fault isolation system, fault isolation method and program
JP5370500B2 (en) * 2010-02-08 2013-12-18 富士通株式会社 Network relay device and diagnostic method
JP2011192216A (en) * 2010-03-16 2011-09-29 Fujitsu Ltd Input/output connecting device, information processing device, and input/output device inspection method
US8867369B2 (en) 2010-03-16 2014-10-21 Fujitsu Limited Input/output connection device, information processing device, and method for inspecting input/output device
WO2012127692A1 (en) * 2011-03-24 2012-09-27 富士通株式会社 Information processing device, transmission device, and information processing device control method

Similar Documents

Publication Publication Date Title
CA1263759A (en) Arrangement for on-line diagnostic testing of an off- line standby processor in a duplicated processor configuration
JPH0844579A (en) Fault processing method and information processing system
JP2996440B2 (en) Diagnosis method of data processing system
JPH0746322B2 (en) Faulty device identification system
JPH08227406A (en) Parallel computer
JP4112642B2 (en) Duplex bus system
JPH1027115A (en) Fault information sampling circuit for computer system
JP3291729B2 (en) Redundant computer system
JPH01140361A (en) Data processing system with channel diagnostic function
JPH0226253B2 (en)
KR940006834B1 (en) Method of generating the diagnosing and recovery data file in multiprocessor system
JP2001024639A (en) Broadcast communication test system
JPS6113627B2 (en)
JPH103435A (en) Fault detection method for channel device and input and output controller using the same
CA1269141A (en) Task synchronization arrangement and method for remote duplex processors
WO2004079573A1 (en) Multi-processor system
JPS6324745A (en) Signal transmission line diagnosing method
JPS63276137A (en) Remote maintenance diagnosis system
JP2002182994A (en) Information processing system and transfer control method using it
JPS63294033A (en) Abnormal processor detection system
JPH10112714A (en) Communication converter
JP2000082052A (en) Multiprocessor system, its diagnostic method, and recording medium recorded with its control program
US20040006656A1 (en) Computer system and data processing method
JPH02244233A (en) Information processing system
JPH0727467B2 (en) Diagnostic processor