JPH06282511A - Fault processing device of computer system having network - Google Patents

Fault processing device of computer system having network

Info

Publication number
JPH06282511A
JPH06282511A JP5330531A JP33053193A JPH06282511A JP H06282511 A JPH06282511 A JP H06282511A JP 5330531 A JP5330531 A JP 5330531A JP 33053193 A JP33053193 A JP 33053193A JP H06282511 A JPH06282511 A JP H06282511A
Authority
JP
Japan
Prior art keywords
message
fault
processor
failure
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP5330531A
Other languages
Japanese (ja)
Inventor
Shigeo Takeuchi
茂雄 武内
Yasuhiro Inagami
泰弘 稲上
Junji Nakakoshi
順二 中越
Shinichi Shudo
信一 首藤
Tatsuo Higuchi
達雄 樋口
Keimei Fujii
啓明 藤井
Yoshiko Yasuda
淑子 保田
Kiyohiro Obara
清弘 小原
Tatsu Toba
達 鳥羽
Masahiro Yamada
昌広 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi ULSI Engineering Corp
Hitachi Ltd
Original Assignee
Hitachi ULSI Engineering Corp
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi ULSI Engineering Corp, Hitachi Ltd filed Critical Hitachi ULSI Engineering Corp
Priority to JP5330531A priority Critical patent/JPH06282511A/en
Publication of JPH06282511A publication Critical patent/JPH06282511A/en
Withdrawn legal-status Critical Current

Links

Abstract

PURPOSE:To provide a network which does not affect on other message transfer even if any fault occurs in the process of a message transfer. CONSTITUTION:The fault detected by a fault detector 102 is held in a fault holding register A 110 or a fault holding register B 111, and the detected word number is held in a fault word number holding register 112. When a message generation circuit 120 judges that they are inputted and the fault is detected by a transfer destination processor number, the circuit 120 outputs a message to the processor shown by the transfer destination processor number at the time of the occurrence of the fault to be delivered from a selector 109. Because the message is made to be transferred to a proper processor in place of the transfer destination processor when a fault occurs in the transfer destination processor number of the message, the message does not stop in the network and does not affect on other message transfer.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、複数のプロセッサ間で
ネットワークを介してデータ転送を行うシステムにおい
て、特にプロセッサとネットワークを接続するデータ転
送路上で障害が発生した場合の障害処理装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a system for transferring data between a plurality of processors via a network, and more particularly to a failure processing device when a failure occurs on a data transfer path connecting the processors to the network.

【0002】[0002]

【従来の技術】従来から、ハードウェア障害によるデー
タ転送の誤りを検出する手段として、パリティビットや
エラー・コレクティング・コード(ECC:Error Co
rrecting Cord)をデータに付加して転送する方式が知
られている。パリティビットによる誤り検出及び誤り制
御については、例えば、萱島興三著「電子計算機の方式
設計」(株式会社 産報)第216頁ないし第218頁
に論じられている。ここでは、バイト毎にパリティをチ
ェックし、パリティチェックの結果は、フリップフロッ
プに記録され、かつ誤り状態をできるだけ正確に保存
し、正常な論理部分への波及を防ぐために、システム全
体のタイミングパルスを止めるように制御される。タイ
ミングパルスを止めることにより、システム全体の実行
がその状態のまま凍結され、凍結された状態が記録とし
て記憶装置にログアウトされる。ログアウトされた情報
を解析し、再実行可能か否か判断される。
2. Description of the Related Art Conventionally, a parity bit or an error collecting code (ECC) has been used as a means for detecting an error in data transfer due to a hardware fault.
A method of adding rrecting code) to data and transferring the data is known. Error detection and error control using parity bits are discussed, for example, in Kozo Kayashima, "System Design of Computers" (Industry Co., Ltd.), pages 216 to 218. Here, the parity is checked on a byte-by-byte basis, the result of the parity check is recorded in a flip-flop, and the timing pulse of the entire system is stored in order to preserve the error state as accurately as possible and prevent it from affecting the normal logic part. Controlled to stop. By stopping the timing pulse, the execution of the entire system is frozen in that state, and the frozen state is logged out to the storage device as a record. The information logged out is analyzed and it is determined whether it can be re-executed.

【0003】[0003]

【発明が解決しようとする課題】上記の従来技術を、例
えば並列計算機などの複数のプロセッサを有するシステ
ムのネットワークに適用した場合には、一つのメッセー
ジ転送において障害が検出されればネットワーク全体が
凍結されてしまうため、障害とは関係のないネットワー
ク中の他の全てのメッセージ転送も一時的に抑止され
る。例えば、特開昭63−124162に開示されてい
るネットワークトポロジを持つ並列計算機では、送信元
と受信先のいずれもが異なる2つのメッセージが途中同
一経路を通過する場合があり、障害が発生したメッセー
ジの転送をそこで抑止すると、もう一方のメッセージは
その経路でブロッキングされてしまう。特に複数のユー
ザプログラムを同時に実行する運用形態、いわゆるマル
チジョブ実行環境下では、その結果ネットワーク全体の
凍結によって、障害を引き起こしたメッセージとは無関
係のジョブのメッセージ転送にまでその影響が及び、性
能低下や、場合によってはジョブの異常終了さえ引き起
こしかねない。並列計算機のプロセッサ間の転送メッセ
ージにECCを適用した例として、特開平4−1395
66が挙げられる。この発明は受信先プロセッサ番号に
ECCを持ち、受信先プロセッサ番号の転送で障害が発
生したときに訂正し、本来送られるべきプロセッサに送
信するものである。ECCを以ってしても訂正不可能な
障害が発生した場合の対処については触れられておら
ず、この点が解決すべき課題である。
When the above-mentioned conventional technique is applied to a network of a system having a plurality of processors such as a parallel computer, if a failure is detected in one message transfer, the entire network is frozen. All other message transfers in the network that are unrelated to the failure are also temporarily suppressed. For example, in a parallel computer having a network topology disclosed in Japanese Patent Laid-Open No. 63-124162, two messages having different transmission sources and different reception destinations may pass through the same route on the way, resulting in a faulty message. If you prevent the forwarding of the message there, the other message will be blocked along that route. Especially in an operation mode in which multiple user programs are executed at the same time, that is, in a so-called multi-job execution environment, as a result, the network freezes, which affects the message transfer of jobs unrelated to the message that caused the failure, and degrades performance. In some cases, it can even cause abnormal termination of the job. As an example of applying ECC to a transfer message between processors of a parallel computer, Japanese Patent Application Laid-Open No. 4-1395
66. The present invention has an ECC in the receiver processor number, corrects when a failure occurs in the transfer of the receiver processor number, and transmits it to the processor to which it should be sent. There is no mention of how to deal with a failure that cannot be corrected even by using ECC, and this is a problem to be solved.

【0004】本発明の目的は、電源電圧の変動やノイズ
によって発生するインタミッテント(間歇的)な障害
が、ボード上の配線やケーブルを介したプロセッサ間の
メッセージ転送中に発生した場合に、他のジョブに何ら
影響を与えることなく、その障害処理を行なうことを可
能とする障害処理装置を提供することにある。
An object of the present invention is to provide an intermittent (intermittent) fault caused by fluctuations in power supply voltage or noise during message transfer between processors via wires or cables on the board. It is an object of the present invention to provide a failure processing device capable of performing the failure processing without affecting other jobs.

【0005】[0005]

【課題を解決するための手段】本発明は、メッセージ転
送の途中でこのような障害が発生してもネットワークを
凍結せず(したがって、ネットワーク中でメッセージの
転送を止めない)、メッセージを適当なプロセッサまた
はホスト計算機に転送し、そこで障害処理を行なうよう
にして上記の目的を達成している。
SUMMARY OF THE INVENTION The present invention does not freeze the network (thus, does not stop the transfer of messages in the network) even if such a failure occurs in the middle of message transfer, and the message can be transmitted appropriately. The above object is achieved by transferring the data to a processor or a host computer and performing failure processing there.

【0006】本発明は、そのために、メッセージ中にプ
ロセッサ間でのメッセージの転送中に障害が発生したこ
とを示す障害発生ビットを設定するためのフィールドを
設け、またネットワークに障害を検出するための障害検
出手段と、該障害検出手段で障害を検出した場合にメッ
セージ中に設けた上記障害発生ビットを有効にする第1
の設定手段とを設けている。
To this end, the present invention provides a field for setting a fault occurrence bit in a message indicating that a fault has occurred during the transfer of a message between processors, and for detecting a fault in a network. A failure detecting means, and first, if the failure detecting means detects a failure, enabling the failure occurrence bit provided in the message;
And setting means of.

【0007】また、障害がメッセージ中の受信先プロセ
ッサ番号設定フィールドで検出されたのか否かを識別す
る障害識別手段と、該障害識別手段で受信先プロセッサ
番号設定フィールドの障害であることを検出した場合
に、受信先プロセッサ番号を適当なプロセッサへ転送す
るために該プロセッサ番号に置き換える置換手段とを持
っている。
Further, the fault identifying means for identifying whether or not the fault is detected in the receiving processor number setting field in the message, and the fault identifying means for detecting the fault in the receiving processor number setting field. In this case, it has a replacement means for replacing the receiving processor number with the processor number in order to transfer it to the appropriate processor.

【0008】さらに、メッセージ中に障害に関する情報
を設定するためのフィールドを設け、上記障害検出手段
で障害を検出した場合に該フィールドに障害を検出した
ワード位置やバイト位置、あるいは障害を検出した箇所
を識別する情報を設定する第2の設定手段を設けてい
る。
Further, a field is provided in the message for setting information relating to a fault, and when the fault is detected by the fault detecting means, the word position or byte position where the fault is detected, or the location where the fault is detected. A second setting means for setting information for identifying is provided.

【0009】[0009]

【作用】本発明は、上述した構成により、次のような作
用を有している。上記障害検出手段で障害が検出された
メッセージは、メッセージ中の上記障害発生ビットが有
効にされ、上記障害識別手段で受信先プロセッサ番号の
障害でないことが識別された場合には、さらに上記障害
に関する情報を設定するためのフィールドに適当な障害
情報を設定してメッセージに指定されている受信先プロ
セッサに転送される。
The present invention has the following actions due to the above-mentioned configuration. The message in which the failure is detected by the failure detection means is further related to the failure when the failure occurrence bit in the message is validated and the failure identification means identifies that the failure is not in the receiving processor number. The appropriate fault information is set in the field for setting the information, and the message is transferred to the destination processor specified in the message.

【0010】また上記障害識別手段で受信先プロセッサ
番号の障害であることが識別された場合には上記障害発
生ビットを有効にするとともに、上記障害に関する情報
を設定するためのフィールドに適当な障害情報を設定し
て、障害が発生した受信先プロセッサ番号の代わりに置
き換えられた適当なプロセッサに転送される。
When the fault identifying means identifies a fault in the receiving processor number, the fault occurrence bit is validated and appropriate fault information is set in a field for setting information relating to the fault. Is set to the appropriate replaced processor in place of the failed destination processor number.

【0011】上記いずれの場合にも、メッセージはいず
れかのプロセッサに転送されるため、障害が発生したメ
ッセージがネットワーク中で止まることはない。また該
障害情報も一緒に転送されるため、メッセージを受信し
たプロセッサで適当な障害処理を行なうことが可能とな
る。
In any of the above cases, the message is forwarded to either processor so that the failed message does not stop in the network. Further, since the fault information is also transferred together, it is possible for the processor that receives the message to perform appropriate fault processing.

【0012】[0012]

【実施例】【Example】

(実施例1)本発明は複数のプロセッサがネットワーク
を介してデータ転送を行うすべてのシステムに適用可能
であるが、一実施例として、図1に示したような並列計
算機に適用した例で説明する。
(Embodiment 1) The present invention can be applied to all systems in which a plurality of processors transfer data via a network, but as an embodiment, an example applied to a parallel computer as shown in FIG. 1 will be described. To do.

【0013】本実施例の特徴は、メッセージの受信先プ
ロセッサ番号で障害を検出し受信先が不明になった時
に、受信先プロセッサ番号を適当なプロセッサ番号に置
き換えてメッセージをネットワークに止めないよう制御
することと、障害が起こったメッセージを受信したプロ
セッサによるメッセージあるいはジョブに対する障害処
理により、障害の影響をそのメッセージあるいはそのジ
ョブだけに止め、他のジョブの実行に何ら影響を与えな
いことにある。
The feature of this embodiment is that when a failure is detected in the message receiver processor number and the receiver becomes unknown, the receiver processor number is replaced with an appropriate processor number so that the message is not stopped in the network. In addition, the failure processing of the message or job by the processor that received the failed message is to limit the effect of the failure to only the message or the job and not to affect the execution of other jobs.

【0014】図1は本実施例における並列計算機の構成
を示したものである。図1において、10、11、12
は並列計算機を構成するプロセッサPE(1)、PE
(2)、・・・、PE(n)を表わす。上記各プロセッ
サPE(1)、PE(2)、・・・、PE(n)は、図
1中には示されていないが、内部にデータ、プログラム
を格納するメモリと、データを用いてプログラムを実行
するCPUとから構成されており、それぞれ独立して動
作可能である。20は各プロセッサPE(1)、PE
(2)、・・・、PE(n)へのジョブの割当て、すな
わちジョブの開始前に実行に必要なプログラムとデータ
を各プロセッサにローディングし、またジョブの終了
後、各プロセッサで得られた結果のデータを読み出すホ
スト計算機である。30は複数のプロセッサ間及び各プ
ロセッサとホスト計算機間でメッセージの転送を行なう
ためのネットワークである。ここでクロスバネットワー
クを仮定している。40は保守/診断機能を有するサー
ビスプロセッサである。
FIG. 1 shows the configuration of a parallel computer in this embodiment. In FIG. 1, 10, 11, 12
Is a processor PE (1), PE that constitutes a parallel computer
(2), ..., Represents PE (n). Although not shown in FIG. 1, each of the processors PE (1), PE (2), ..., PE (n) has a memory for storing data and a program therein, and a program using the data. It is composed of a CPU for executing the above and can operate independently. 20 is each processor PE (1), PE
(2), ..., Jobs are assigned to PE (n), that is, programs and data required for execution are loaded into each processor before the start of the job, and obtained by each processor after the end of the job. It is a host computer that reads the resulting data. Reference numeral 30 is a network for transferring messages between a plurality of processors and between each processor and a host computer. Here, a crossbar network is assumed. Reference numeral 40 is a service processor having a maintenance / diagnosis function.

【0015】本実施例では、ネットワーク30は1つの
LSIで構成されるものとし、LSI内のデータ転送
は、ケーブルやボード上の配線を介した転送に比べ信頼
性が高いため、ネットワーク30内では障害が発生しな
いことを仮定している。ネットワーク30とプロセッサ
10、11、12或いはホスト計算機20を接続する信
号線10X、11X、12X、20X、60X、61
X、62X、63Xは、ケーブル或いはボード上の配線
を仮定しており、この上をメッセージが転送されるとき
障害が発生する可能性がある。
In the present embodiment, it is assumed that the network 30 is composed of one LSI, and the data transfer in the LSI is more reliable than the transfer via the cable or the wiring on the board. It is assumed that no failure will occur. Signal lines 10X, 11X, 12X, 20X, 60X, 61 connecting the network 30 to the processors 10, 11, 12 or the host computer 20.
X, 62X, 63X assume cabling or wiring on the board, on which messages may be transferred and failures may occur.

【0016】本実施例では、同時に複数のジョブが実行
可能であり、2つのジョブ、ジョブ1とジョブ2が以下
に示すように、各プロセッサで実行されていると仮定す
る。
In the present embodiment, it is assumed that a plurality of jobs can be executed at the same time, and that two jobs, job 1 and job 2, are executed by each processor as shown below.

【0017】 ジョブ1:PE(1)、PE(2)、PE(n) ジョブ2:PE(1)、PE(2) PE(1)、PE(2)の2台のプロセッサは、2つの
ジョブを時分割して同時に実行している。
Job 1: PE (1), PE (2), PE (n) Job 2: PE (1), PE (2) Two processors, PE (1) and PE (2), have two processors. Jobs are time-divided and executed simultaneously.

【0018】次に、本発明における並列計算機のメッセ
ージ転送について、図1を用いて説明する。同じジョブ
を割当てられた各プロセッサは、ネットワークを介し
て、実行に必要なメッセージを相互に転送しあい、それ
ぞれ独立にプログラムを実行する。ジョブ1を実行する
ためにPE(1)10、PE(2)11、PE(n)1
2間でメッセージを転送し、ジョブ2を実行するために
PE(1)10、PE(2)11間でメッセージを転送
する。ここでは、PE(1)10からPE(2)11へ
のメッセージ転送を例にとって説明する。
Next, the message transfer of the parallel computer according to the present invention will be described with reference to FIG. The processors to which the same job is assigned transfer messages required for execution to each other via the network and execute the programs independently. PE (1) 10, PE (2) 11, PE (n) 1 to execute job 1
The message is transferred between two PEs, and the message is transferred between PE (1) 10 and PE (2) 11 in order to execute job 2. Here, the message transfer from the PE (1) 10 to the PE (2) 11 will be described as an example.

【0019】メッセージは、送信元のプロセッサPE
(1)10によって、図3に示すフォーマットにしたが
って組立てられる。メッセージの組立ては、プログラム
によって行われても、専用に設けられたハードウェアに
よって行われても構わない。図3に示したように、メッ
セージは、一時に転送される単位であるワードを基本と
し、複数ワードで1メッセージが構成される。
The message is the processor PE of the transmission source.
(1) 10 is assembled according to the format shown in FIG. The message may be assembled by a program or by dedicated hardware. As shown in FIG. 3, the message is based on a word which is a unit to be transferred at one time, and one message is composed of a plurality of words.

【0020】各ワードは、“フィールドA”とフィール
ドAの転送誤りを検出するための“障害検出コード
A”、“フィールドB”とフィールドBの転送誤りを検
出するための“障害検出コードB”からなる。障害検出
コードは、検出できる障害の違いによって数多く提案さ
れており、ECC(Error Correcting Code)、パリ
ティなどワード単位に付加できるものであれば如何なる
コードであってもよいが、本実施例ではパリティビット
を採用した例を使って説明する。ECCを用いた場合に
は、1ビットの誤りは訂正できるが2ビットの誤りは検
出のみ可能で訂正できない。本実施例でECCを用いた
場合、以下の説明は2ビット障害がメッセージ内で発生
したときに適用される。
Each word has a "fault detection code A" for detecting a "field A" and a field A transfer error, and a "fault detection code B" for detecting a "field B" and a field B transfer error. Consists of. Many fault detection codes have been proposed depending on the difference in the faults that can be detected, and any code that can be added in word units such as ECC (Error Correcting Code) or parity may be used, but in the present embodiment, a parity bit is used. This is explained using an example that employs. When ECC is used, a 1-bit error can be corrected, but a 2-bit error can only be detected and cannot be corrected. Using ECC in this embodiment, the following description applies when a 2-bit fault occurs in the message.

【0021】第2ワードから第3ワードまでは、メッセ
ージの属性情報である。第4ワードから第m−1ワード
までは、ユーザのジョブ実行に必要なプロセッサ間で転
送するデータである。第mワードは、メッセージの障害
に関する情報である。本実施例ではメッセージ長の制限
については特に言及しない。
The second to third words are message attribute information. The 4th word to the (m-1) th word are data transferred between processors necessary for executing a user's job. The m-th word is information regarding the failure of the message. In this embodiment, the limitation on the message length is not particularly mentioned.

【0022】第1ワードのフィールドAは、受信先プロ
セッサ番号A10と受信先プロセッサ番号障害ビットA
11から成る。受信先プロセッサ番号障害ビットA11
は本フィールドAに障害が発生したことを示す。ネット
ワーク30は受信先プロセッサ番号A10によって、内
部のスイッチ(後述するスイッチ60ないし63)を制
御する。受信先がホスト計算機であるときには、受信先
プロセッサ番号として値“n+1”が設定される。受信
先プロセッサ番号障害ビットA11は送信元プロセッサ
で予め0にクリアされており、メッセージの転送中に第
1ワードのフィールドAに障害が発生したとき1にセッ
トされる。第1ワードのフィールドBは、メッセージに
付加された優先順位情報など、受信先とは直接係わりの
ないメッセージの転送制御情報を設定するフィールドで
ある。
The field A of the first word contains the receiving processor number A10 and the receiving processor number failure bit A.
It consists of 11. Receiver processor number failure bit A11
Indicates that a failure has occurred in this field A. The network 30 controls internal switches (switches 60 to 63 to be described later) according to the receiver processor number A10. When the destination is the host computer, the value "n + 1" is set as the destination processor number. The receiver processor number failure bit A11 has been previously cleared to 0 by the sender processor, and is set to 1 when a failure occurs in the field A of the first word during the transfer of the message. The field B of the first word is a field for setting transfer control information of a message that is not directly related to the recipient, such as priority information added to the message.

【0023】第2ワードのフィールドAは、送信元プロ
セッサ番号A20を設定するフィールドである。第2ワ
ードのフィールドBは、障害発生時の転送先プロセッサ
番号B20を設定するフィールドであって、メッセージ
転送中に障害が発生して受信先プロセッサが不明になっ
た時に、そのメッセージを固定的に転送すべきプロセッ
サの番号が設定されている。
The field A of the second word is a field for setting the source processor number A20. The field B of the second word is a field for setting the transfer destination processor number B20 at the time of failure occurrence, and when the failure occurs during message transfer and the destination processor becomes unknown, the message is fixed. The number of the processor to be transferred is set.

【0024】第3ワードのフィールドAは、ジョブID
A30とメッセージID A31から構成される。ジ
ョブID A30は、プロセッサに割り当てるジョブに
対してジョブを識別するために与えられた値である。メ
ッセージID A31はメッセージを識別するために与
えられた値である。
The field A of the third word is the job ID.
It is composed of A30 and message ID A31. The job ID A30 is a value given to identify the job with respect to the job assigned to the processor. The message ID A31 is a value given to identify the message.

【0025】第3ワードのフィールドBは、データ転送
長B30、ジョブキャンセル要求ビットB31、再送要
求ビットB32および転送モードB33から構成され
る。メッセージの中に含まれるデータの長さは、データ
転送長B30で指定される。転送モードB33はメッセ
ージが再送可能なメッセージか否かを指示するフィール
ドである。再送可能なメッセージとは、受信先プロセッ
サからメッセージを正常に受信したことを示す返信メッ
セージを受け取るまで送信元プロセッサがその中のメモ
リ上に保持して置くメッセージで、これにより何らかの
原因により受信先プロセッサから再送要求が届いたとき
再度送信が可能となる。再送要求ビットB32が1のと
き、メッセージの再送を要求するメッセージであること
を示す。ジョブキャンセル要求ビットB31が1のと
き、ジョブID A30で示されるジョブのキャンセル
を要求するメッセージであることを示す。ジョブキャン
セル要求ビットB31、再送要求ビットB32、転送モ
ードB33の使われ方については後述する。
The field B of the third word comprises a data transfer length B30, a job cancel request bit B31, a resend request bit B32 and a transfer mode B33. The length of data included in the message is designated by the data transfer length B30. The transfer mode B33 is a field that indicates whether the message is a retransmittable message. A message that can be retransmitted is a message that the sender processor holds in its memory until a reply message indicating that the message was successfully received is received from the receiver processor. When a resend request arrives from, it becomes possible to send again. When the resend request bit B32 is 1, it indicates that the message is a request for resending the message. When the job cancellation request bit B31 is 1, it indicates that the message is a message requesting cancellation of the job indicated by the job ID A30. How to use the job cancel request bit B31, the resend request bit B32, and the transfer mode B33 will be described later.

【0026】第mワードのフィールドAは、メッセージ
中のいずれかのワードで障害が発生したことを示すメッ
セージ障害ビットと、障害が発生したワードがいずれの
ワードであるかを示す障害ワード番号を設定するフィー
ルドである。このメッセージ障害ビットは送信元で予め
0にリセットされて送信される。フィールドBは、送信
元と受信先の間の転送経路のいずれで障害が発生したか
を示す障害個所情報を設定するフィールドである。
The field A of the m-th word sets a message failure bit indicating that a failure has occurred in any word in the message and a failure word number indicating which word the failure word is. It is a field to do. The message fault bit is reset to 0 in advance by the transmission source and transmitted. The field B is a field for setting failure location information indicating which of the transfer paths between the transmission source and the reception destination has a failure.

【0027】図1において、送信元のプロセッサPE
(1)10で構成されたメッセージは、信号線10Xを
介してネットワーク30に転送される。信号線10X
は、それぞれ図2に示す如き信号をのせる3種類の信号
線10A、10B、10Cからなっている。図2に示す
ように、信号線10Bは、メッセージ転送開始を示す信
号をのせる信号線、信号線10Aはメッセージをのせる
信号線、信号線10Cはメッセージ転送終了を示す信号
をのせる信号線である。メッセージ転送開始信号は第1
ワードの転送と同時に1となる。メッセージ転送終了信
号は第mワードの転送と同時に1となる。このメッセー
ジ転送開始信号とメッセージ転送終了信号によって、ネ
ットワークはメッセージの開始と終了を知ることができ
る。
In FIG. 1, the processor PE of the transmission source
(1) The message composed of 10 is transferred to the network 30 via the signal line 10X. Signal line 10X
Is composed of three types of signal lines 10A, 10B and 10C for carrying signals as shown in FIG. As shown in FIG. 2, the signal line 10B carries a signal indicating the start of message transfer, the signal line 10A carries a message, and the signal line 10C carries a signal indicating the end of message transfer. Is. The message transfer start signal is the first
It becomes 1 when the word is transferred. The message transfer end signal becomes 1 when the mth word is transferred. The message transfer start signal and the message transfer end signal enable the network to know the start and end of the message.

【0028】他のプロセッサまたはホスト計算機からネ
ットワークへメッセージを転送する信号線11X、・・
・、12X、20Xも同様な3種類の信号線からなって
いる。また、メッセージコントローラ100、200、
・・・、300、400からスイッチ60、61、・・
・、62、63へメッセージを転送する信号線122
X、222X、・・・、322X、422X、およびス
イッチ60、61、・・・、62、63からプロセッサ
PE(1)10、プロセッサPE(2)11、・・・、
プロセッサPE(n)12、ホスト計算機20へメッセ
ージを転送する信号線60X、61X、・・・、62
X、63Xも同様な3種類の信号線からなっている。
A signal line 11X for transferring a message from another processor or a host computer to the network.
., 12X, and 20X are also composed of the same three types of signal lines. In addition, the message controllers 100, 200,
... 300, 400 to switches 60, 61, ...
.., signal line 122 for transferring messages to 62, 63
, 222, 422X, and switches 60, 61, ..., 62, 63 to processor PE (1) 10, processor PE (2) 11 ,.
Signal lines 60X, 61X, ..., 62 for transferring messages to the processor PE (n) 12 and the host computer 20.
X and 63X are also composed of the same three types of signal lines.

【0029】プロセッサPE(1)10からの信号線1
0Xはネットワーク30の内部のメッセージコントロー
ラ100に入力される。メッセージコントローラ100
は、メッセージの第1ワードのフィールドAに設定され
ている受信先プロセッサ番号を信号線105Aを介して
スイッチコントローラ50、51、・・・、52、53
に、またメッセージを信号線122Xを介してスイッチ
60、61、・・・、62、63に送る。他のメッセー
ジコントローラ200、・・・、300、400も入力
される信号の送信元が異なる点を除いては同様である。
Signal line 1 from processor PE (1) 10
0X is input to the message controller 100 inside the network 30. Message controller 100
Indicates the receiver processor number set in the field A of the first word of the message via the signal line 105A to the switch controllers 50, 51, ..., 52, 53.
To the switches 60, 61, ..., 62, 63 via signal line 122X. The other message controllers 200, ..., 300, 400 are the same except that the source of the input signal is different.

【0030】スイッチコントローラ50、51、・・
・、52、53は、それぞれ対応するスイッチ60、6
1、・・・、62、63でのメッセージの選択を制御す
る制御信号を生成する。各スイッチコントローラはメッ
セージコントローラから送られる受信先プロセッサ番号
を認識し、受信先プロセッサ番号が対応するプロセッサ
を示している場合には、そのメッセージコントローラか
ら送られるメッセージを選択するようスイッチを制御す
る。受信先プロセッサが競合するときには、そのスイッ
チコントローラに到着した順序でメッセージがプロセッ
サに転送されるようスイッチを制御する。
Switch controllers 50, 51, ...
., 52, 53 are corresponding switches 60, 6
Generate control signals to control the selection of messages at 1, ..., 62, 63. Each switch controller recognizes the destination processor number sent from the message controller and, when the destination processor number indicates the corresponding processor, controls the switch to select the message sent from that message controller. When the destination processors compete, the switches are controlled so that the messages are transferred to the processors in the order in which they arrived at the switch controller.

【0031】各スイッチ60、61、・・・、62、ま
たは63は、それぞれ対応するスイッチコントローラ5
0、51、・・・、52、53から送られる制御信号に
したがって、メッセージコントローラ100、200、
300、400から送られるメッセージの1つを選択す
る回路である。各スイッチ60、61、62、または6
3で選択されたメッセージは、信号線60X、61X、
・・・、62X、または63Xを介し、プロセッサPE
(1)10、PE(2)11、・・・、PE(3)1
2、ホスト計算機20に送られる。PE(1)10から
PE(2)11にメッセージを転送するこのケースで
は、スイッチコントローラ51はメッセージコントロー
ラ100から信号線122Xを介して送られてくるメッ
セージを選択するようにスイッチ61を制御する。スイ
ッチ61では信号線122Xが選択され、信号線61X
に出力される。このとき、他のスイッチコントローラ5
0、52、53はスイッチ60、62、63で信号線1
22Xを選択しないように制御する。
Each switch 60, 61, ..., 62, or 63 corresponds to a corresponding switch controller 5
According to the control signals sent from 0, 51, ..., 52, 53, the message controllers 100, 200,
This circuit selects one of the messages sent from 300 and 400. Each switch 60, 61, 62, or 6
The message selected in 3 is the signal lines 60X, 61X,
..., processor PE via 62X or 63X
(1) 10, PE (2) 11, ..., PE (3) 1
2, sent to the host computer 20. In this case of transferring a message from PE (1) 10 to PE (2) 11, switch controller 51 controls switch 61 to select the message sent from message controller 100 via signal line 122X. The signal line 122X is selected by the switch 61, and the signal line 61X is selected.
Is output to. At this time, the other switch controller 5
0, 52 and 53 are switches 60, 62 and 63, and the signal line 1
22X is controlled not to be selected.

【0032】次に図4を用いて、メッセージコントロー
ラ100におけるメッセージの制御について説明する。
Next, message control in the message controller 100 will be described with reference to FIG.

【0033】シーケンサ101には、信号線10Xが入
力される。図7はシーケンサ101の内部の構成を示し
たものである。シーケンサ101は、信号線10Bのメ
ッセージ転送開始信号によってリセットされ、かつメッ
セージを転送する信号線10Aに1ワード転送される毎
に1加算されるカウンタ130を内部に有している。該
カウンタ130の値が1、即ち第1ワードが送られてき
たとき、’1’検出器131によって値が1であること
が認識され、信号線101Aの信号によって、レジスタ
B113にメッセージのフィールドAに含まれている受
信先プロセッサ番号をセットする。またカウンタの値が
2の時、即ち第2ワードが送られてきたとき、’2’検
出器132によって値が2であることが認識され、同じ
く信号線101Bの信号によって、レジスタC106に
メッセージのフィールドAの送信元プロセッサ番号を、
レジスタD107にメッセージのフィールドBの障害発
生時の転送先プロセッサ番号をセットする。信号線10
1Cには、その時点でのカウンタ130の値が出力され
ている。信号線101Dは、メッセージの1ワードを受
信したときに障害検出器102に対して、障害の検出を
指示する信号である。信号線122B、信号線122C
はそれぞれ入力される信号線10B、10Cに対応し、
1度レジスタ133、レジスタ134にセットされた
後、図2のタイミングでメッセージ転送開始とメッセー
ジ転送終了を出力する。
The signal line 10X is input to the sequencer 101. FIG. 7 shows the internal configuration of the sequencer 101. The sequencer 101 internally has a counter 130 which is reset by a message transfer start signal of the signal line 10B and which is incremented by 1 each time one word is transferred to the signal line 10A for transferring a message. When the value of the counter 130 is 1, that is, when the first word is sent, the '1' detector 131 recognizes that the value is 1, and the signal on the signal line 101A causes the register B 113 to store the field A of the message. Set the receiver processor number included in. Also, when the value of the counter is 2, that is, when the second word is sent, the '2' detector 132 recognizes that the value is 2, and the signal of the signal line 101B also sends a message to the register C106. The source processor number in field A is
The transfer destination processor number at the time of occurrence of a failure in the field B of the message is set in the register D107. Signal line 10
The value of the counter 130 at that time is output to 1C. The signal line 101D is a signal for instructing the fault detector 102 to detect a fault when one word of a message is received. Signal line 122B, signal line 122C
Correspond to the input signal lines 10B and 10C,
After being set once in the registers 133 and 134, the message transfer start and the message transfer end are output at the timing of FIG.

【0034】障害検出器102は、メッセージが送られ
る信号線10Aを入力とし、メッセージが送られてきた
とき、即ち信号線101Dが1のときに、フィールド毎
に障害を検出する機能をもつ。フィールドAに障害が検
出されたときには障害保持レジスタA110に1が、フ
ィールドBに障害が検出されたときには障害保持レジス
タB111に1が信号線102Aによってセットされ
る。また、障害が検出されたときには、検出されたフィ
ールドにかかわらず障害が発生したワード番号(シーケ
ンサ101から信号線101Cを介し送られている)が
障害ワード番号保持レジスタ112に同様に保持され
る。なお障害保持レジスタA110、障害保持レジスタ
B111は、1つのメッセージの転送が完了すると次の
メッセージの転送に備えてリセットされる(公知の技術
で実現可能なので図示されていない)。
The fault detector 102 has a function of detecting a fault for each field when the signal line 10A to which a message is sent is input and the message is sent, that is, when the signal line 101D is 1. When a failure is detected in the field A, 1 is set in the failure holding register A110, and when a failure is detected in the field B, 1 is set in the failure holding register B111 by the signal line 102A. When a fault is detected, the faulted word number (transmitted from the sequencer 101 via the signal line 101C) is similarly held in the faulty word number holding register 112 regardless of the detected field. The fault holding register A110 and the fault holding register B111 are reset in preparation for the transfer of the next message when the transfer of one message is completed (not shown because it can be realized by a known technique).

【0035】データバッファ108は、メッセージが読
み出されるまで、データを保持しておくデータ保持回路
である。
The data buffer 108 is a data holding circuit that holds data until a message is read.

【0036】レジスタA103は、システム立ち上げ時
に予め信号線40Aを介してサービスプロセッサから送
られている障害発生時のメッセージの転送先を保持して
おく保持回路である。モードレジスタ104は同様に、
障害発生時のメッセージの転送先を選択するセレクタ1
09を制御するモードビットを保持する。
The register A103 is a holding circuit for holding a transfer destination of a message, which is sent from the service processor via the signal line 40A when a failure occurs, in advance when the system is started up. The mode register 104 similarly
Selector 1 for selecting the message transfer destination when a failure occurs
Holds the mode bit that controls 09.

【0037】図5はモードレジスタ104に保持されて
いる値とセレクタ109で選択されるレジスタの関係を
表わしたものである。モードレジスタ104に0がセッ
トされているときレジスタA103が、1がセットされ
ているときレジスタC106が、2がセットされている
ときレジスタD107が選択される。この機能によっ
て、転送中のメッセージ内の受信先プロセッサ番号A1
0に障害が発生したとき,そのメッセージの転送先を、
障害処理方法に合わせて適当に設定することができる。
FIG. 5 shows the relationship between the value held in the mode register 104 and the register selected by the selector 109. When 0 is set in the mode register 104, the register A 103 is selected, when 1 is set, the register C 106 is selected, and when 2 is set, the register D 107 is selected. This function allows the receiver processor number A1 in the message being transferred.
When a failure occurs in 0, the transfer destination of the message is
It can be set appropriately according to the failure processing method.

【0038】モードレジスタ104の設定値は、システ
ムをどのように運用するか、例えばジョブを管理するO
Sをどのプロセッサで実行するのか、メッセージの再送
を可能とするか否か等によって変わり、システムを立ち
上げるときにジョブ実行に先立って予め設定される。
The setting value of the mode register 104 is used to control how the system is operated, for example, to manage jobs.
It depends on which processor executes S, whether the message can be retransmitted, etc., and is set in advance prior to job execution when the system is started up.

【0039】例えば全メッセージが再送可能の転送モー
ドの時には、モードレジスタ104を1にセットしてお
き、受信先プロセッサ番号に障害が発生したメッセージ
をそのメッセージ内の送信元プロセッサ番号A20で指
定された送信元へ戻す。その場合には、メッセージ中の
障害発生時の転送先プロセッサ番号B20をメッセージ
にいれる必要はない。再送可能と不可能なメッセージが
混在しているときにはモードレジスタ104を2にセッ
トしておき、上記障害が発生したメッセージ内の障害発
生時の転送先プロセッサ番号B20のプロセッサにその
メッセージを送り、転送先のプロセッサで実行されてい
るOSで障害処理を行なう。ジョブを管理するOSが特
定のプロセッサでのみ実行される運用形態ならば、モー
ドレジスタ104に0、レジスタA103にそのプロセ
ッサの番号を設定する。その場合にも、メッセージ中の
障害発生時の転送先プロセッサ番号B20は必要ない。
以下では本実施例ではモードレジスタ104に2が設定
されている場合について主に説明するが、他の場合も同
様である。
For example, in the transfer mode in which all messages can be retransmitted, the mode register 104 is set to 1 and the message in which the failure has occurred in the receiver processor number is designated by the sender processor number A20 in the message. Return to the sender. In that case, it is not necessary to include the transfer destination processor number B20 at the time of occurrence of a failure in the message. When the retransmittable and non-retransmittable messages are mixed, the mode register 104 is set to 2, and the message is sent to the processor of the transfer destination processor number B20 at the time of the failure in the message in which the failure has occurred and the message is transferred. Fault processing is performed by the OS running on the preceding processor. If the operating system that manages the job is executed only on a specific processor, 0 is set in the mode register 104 and the processor number is set in the register A 103. Even in that case, the transfer destination processor number B20 at the time of occurrence of a failure in the message is not necessary.
In this embodiment, the case where 2 is set in the mode register 104 will be mainly described below, but the same applies to other cases.

【0040】’1’検出器115は障害ワード番号保持
レジスタ112に保持されている値が’1’のとき1を
出力し、AND回路114はその出力と障害保持レジス
タA110の値の論理積を生成する。AND回路114
の出力が1のとき、セレクタ105では信号線109が
選択され、0のとき信号線113Aが選択される。これ
らの回路の動作の詳細は後述する。
The "1" detector 115 outputs 1 when the value held in the fault word number holding register 112 is "1", and the AND circuit 114 logically ANDs the output and the value of the fault holding register A110. To generate. AND circuit 114
When the output of 1 is 1, the signal line 109 is selected by the selector 105, and when it is 0, the signal line 113A is selected. Details of the operation of these circuits will be described later.

【0041】メッセージ生成回路120は、障害が発生
したときに、データバッファ108より信号線108A
を介して送られるメッセージに対して、障害情報等を付
加したメッセージを生成する回路である。
When a failure occurs, the message generation circuit 120 receives the signal line 108A from the data buffer 108.
Is a circuit for generating a message in which failure information and the like are added to a message sent via the.

【0042】図6はメッセージ生成回路120の内部を
示したものである。図6で、セレクタ制御回路123
は、入力された信号の値にしたがって、セレクタ122
を制御する。すなわち、信号線110Aが1(フィール
ドAで障害を検出したことを示す)、信号線122Bが
1(第1ワードの転送サイクルであることを示す)、信
号線112Aが値’1’(’1’検出器124で1が検
出され、第1ワードで障害を検出したことを示す)であ
るときには、入力信号の論理積を生成するAND回路1
26の出力が1になり、セレクタ122でメッセージA
を選択する。信号線110Aが1(フィールドAで障害
を検出したことを示す)または信号線111Aが1(フ
ィールドBで障害を検出したことを示す)で、かつ信号
線122Cが1(第mワードの転送サイクルであること
を示す)であるときには、入力信号の論理和を生成する
OR回路125の出力が1、さらに入力信号の論理積を
生成するAND回路127の出力が1になり、セレクタ
122でメッセージBを選択する。それ以外の場合に
は、NOR回路128の出力が1になりメッセージCを
選択する。
FIG. 6 shows the inside of the message generation circuit 120. In FIG. 6, the selector control circuit 123
Is the selector 122 according to the value of the input signal.
To control. That is, the signal line 110A is 1 (indicating that a failure is detected in the field A), the signal line 122B is 1 (indicating the first word transfer cycle), and the signal line 112A is the value "1"("1".'Indicating that 1 is detected by the detector 124 and a failure is detected in the first word), AND circuit 1 for generating a logical product of input signals
The output of 26 becomes 1, and the message A is displayed by the selector 122.
Select. The signal line 110A is 1 (indicating that a failure is detected in the field A) or the signal line 111A is 1 (indicating that a failure is detected in the field B) and the signal line 122C is 1 (the transfer cycle of the mth word). , The output of the OR circuit 125 for generating the logical sum of the input signals is 1, and the output of the AND circuit 127 for generating the logical product of the input signals is 1, and the selector 122 outputs the message B. Select. In other cases, the output of the NOR circuit 128 becomes 1 and the message C is selected.

【0043】障害検出コード生成回路121は、入力さ
れる全信号線の排他的論理和をとりパリティを生成す
る。ただし、メッセージAとメッセージCのための障害
検出コードBは、信号線108Aを介して送られてくる
データバッファ108からのメッセージのフィールドB
のみを入力とし、同様にメッセージCの障害検出コード
AはフィールドAのみを入力として新たに生成される。
障害が検出されなかった場合、新たに障害検出コードを
生成しても論理的な矛盾は生じない。また障害を検出し
たときに障害を残したまま転送すると、次の転送経路で
も同じ障害を検出してしまうことになり、障害が発生し
た箇所を一意に特定することができない。そのため第m
ワードに障害情報を付加し、障害が発生したワードは障
害検出コードを再生成して転送するようにしたものであ
る。したがって、信号線108Aを介して送られてくる
メッセージの障害検出コードA、障害検出コードBの両
フィールドは用いられない。
The fault detection code generation circuit 121 takes the exclusive OR of all the input signal lines to generate the parity. However, the fault detection code B for the message A and the message C is the field B of the message sent from the data buffer 108 via the signal line 108A.
Similarly, the fault detection code A of the message C is newly generated by inputting only the field A.
If no fault is detected, a new fault detection code will not generate a logical contradiction. Further, when a failure is detected and the transfer is performed with the failure left, the same failure will be detected on the next transfer path, and the location of the failure cannot be uniquely specified. Therefore, mth
Fault information is added to a word, and a faulty code is regenerated and transmitted for a faulty word. Therefore, both the failure detection code A and failure detection code B fields of the message sent via the signal line 108A are not used.

【0044】OR回路124は、信号線110A、信号
線111Aの論理和を生成する回路である。
The OR circuit 124 is a circuit for generating a logical sum of the signal line 110A and the signal line 111A.

【0045】以下、障害を検出したフィールドおよびワ
ード毎に場合分けし、図6を用いてメッセージ生成回路
120の動作の説明を行なう。いずれのワードでも障害
を検出しなかったケース、第1ワードのフィールドAで
障害を検出したケース、第1ワードのフィールドA以外
で障害を検出したケースに分けて説明する。
The operation of the message generating circuit 120 will be described below with reference to FIG. 6 by classifying each field and word in which a failure has been detected. The case where no failure is detected in any word, the case where a failure is detected in the field A of the first word, and the case where a failure is detected in a field other than the field A of the first word will be described separately.

【0046】 (1)いずれのワードでも障害を検出しなかったとき 入力されたメッセージがそのまま出力される。(1) When no fault is detected in any of the words, the input message is output as it is.

【0047】このケースでは、信号線110A、111
A、112Aはメッセージ転送の間、次のようになる。
In this case, the signal lines 110A and 111
During the message transfer, A, 112A:

【0048】信号線110A:= 0(フィールドAに
は障害がなかった) 信号線111A:= 0(フィールドBには障害がなか
った) 信号線112A:=値0(メッセージが到着したときに
リセットされた状態) このケースでは、全てのワードの転送サイクルで、デー
タバッファ108から信号線108Aを介して送られて
くるメッセージであるメッセージCが選択されて信号線
122Aに出力される。
Signal line 110A: = 0 (no fault in field A) Signal line 111A: = 0 (no fault in field B) Signal line 112A: = value 0 (reset when message arrives In this case, in this case, in every word transfer cycle, the message C, which is the message sent from the data buffer 108 via the signal line 108A, is selected and output to the signal line 122A.

【0049】 (2)第1ワードのフィールドAで障害を検出したとき このケースは障害によって受信先プロセッサ番号に誤り
が生じ、受信先プロセッサが不明になったケースであ
る。このケースでは、受信先プロセッサを適当なプロセ
ッサまたはホスト計算機に置き換えて転送する。
(2) When a failure is detected in the field A of the first word In this case, the failure causes an error in the receiver processor number and the receiver processor becomes unknown. In this case, the destination processor is replaced with an appropriate processor or host computer for transfer.

【0050】このケースでは、信号線110A、111
A、112Aはメッセージ転送の間、次のようになる。
In this case, the signal lines 110A and 111
During the message transfer, A, 112A:

【0051】信号線110A:= 1(フィールドAで
障害を検出した) 信号線111A:= 0(フィールドBには障害がなか
った) 信号線112A:=値1(第1ワードで障害を検出し
た) したがって第1ワードの転送サイクル(122B:=
1)ではメッセージAが選択され、受信先プロセッサ番
号が信号線109Aを介して送られてくる転送先プロセ
ッサ番号に置き換えられる。また障害ビットフィールド
は、信号線110Aの1(受信先プロセッサ番号に障害
があったことを示す)に置き換えられる。信号線109
Aを介して送られてくる受信先プロセッサ番号は、予め
サービスプロセッッサから設定されたモードレジスタの
値によって選択された、レジスタA103(サービスプ
ロセッサで設定された障害発生時のメッセージ受信先プ
ロセッサ番号)、レジスタC106(送信元プロセッサ
番号)、またはレジスタD107(メッセージの第2ワ
ードのフィールドBの障害発生時の転送先プロセッサ番
号)のいずれかであることは、既に述べたとおりであ
る。
Signal line 110A: = 1 (failure detected in field A) Signal line 111A: = 0 (no problem in field B) Signal line 112A: = value 1 (failure detected in the first word) ) Therefore, the transfer cycle of the first word (122B: =
In 1), the message A is selected, and the destination processor number is replaced with the destination processor number sent via the signal line 109A. Further, the fault bit field is replaced with 1 of the signal line 110A (indicating that the receiver processor number has a fault). Signal line 109
The receiver processor number sent via A is the register receiver A103 (the message receiver processor number at the time of occurrence of a failure set by the service processor) selected by the value of the mode register set in advance by the service processor. ), The register C106 (source processor number), or the register D107 (transfer destination processor number when a failure occurs in the field B of the second word of the message), as described above.

【0052】第2ワード以降、第m−1ワードまではメ
ッセージCが選択される。
Message C is selected from the second word to the m-1th word.

【0053】第mワードはメッセージBが選択される。
このときメッセージ障害ビットとして1(メッセージの
どこかに障害があったことを示す)、障害ワード番号も
1(第1ワードで障害を検出したことを示す)、そして
障害箇所情報として信号線10Aで障害が発生したこと
を示す情報’1A’が送られる。またこのケースで
は、’1’検出器115の出力は1、さらにAND回路
114の出力も1となり、スイッチコントローラ50〜
53には、受信先プロセッサ番号が誤ったときの受信先
を示している信号線109がセレクタ105で選択さ
れ、信号線105Aを介して送られる。
Message B is selected as the mth word.
At this time, the message failure bit is 1 (indicating that there is a failure somewhere in the message), the failure word number is also 1 (indicating that the failure is detected in the first word), and the failure point information is in the signal line 10A. Information "1A" indicating that a failure has occurred is sent. Also, in this case, the output of the '1' detector 115 is 1, and the output of the AND circuit 114 is also 1.
In 53, the signal line 109 indicating the receiver when the receiver processor number is incorrect is selected by the selector 105 and sent via the signal line 105A.

【0054】受信先プロセッサ番号ではなく、障害ビッ
トが誤って転送された場合も第1ワードのフィールドA
で障害が検出される。しかし、受信先プロセッサ番号で
の障害と区別できないので、受信先プロセッサ番号で障
害があったとみなす。障害の検出を受信先プロセッサ番
号に限定したい場合、障害ビットを第1ワードのフィー
ルドAではなく、別のワードあるいは第1ワードのフィ
ールドBに持てばよい。
If the fault bit is erroneously transferred instead of the destination processor number, the field A of the first word
Fault is detected. However, since it cannot be distinguished from the failure in the receiving processor number, it is considered that there is a failure in the receiving processor number. If it is desired to limit the detection of the fault to the destination processor number, the fault bit may be held in another word or the field B of the first word instead of the field A of the first word.

【0055】本発明の目的が、特にマルチジョブ実行環
境時にネットワークを介したプロセッサ間メッセージ転
送中の障害の影響を他のジョブに及ぼさないことにある
ので、障害メッセージの転送先は、ジョブ或いはジョブ
を分割した単位であるプロセスを管理するOSが実行さ
れるプロセッサ10、11ないし12かホスト計算機2
0であることが望ましい。障害メッセージを受け取った
プロセッサないしホスト計算機は以下の同様の手順で障
害処理を行う。
The object of the present invention is to prevent the influence of a fault during the message transfer between processors via the network from affecting the other jobs especially in the multi-job execution environment. Processor 10, 11 to 12 or a host computer 2 on which an OS that manages a process that is a unit of
It is preferably 0. The processor or host computer that has received the failure message performs failure processing in the same procedure as described below.

【0056】まず受信先プロセッサ番号障害ビットが1
であることを認識してCPUに対して割込みを発生さ
せ、障害メッセージ処理ルーチンへ制御を渡す。障害メ
ッセージ処理ルーチンでは、メッセージ中の送信元プロ
セッサ番号、ジョブID、メッセージIDおよび転送モ
ードビットを認識する。
First, the receiving processor number failure bit is 1
Recognizing that is, the CPU generates an interrupt, and passes control to the fault message processing routine. The failure message processing routine recognizes the sender processor number, job ID, message ID and transfer mode bit in the message.

【0057】転送モードビットが1、すなわち再送可能
メッセージを示しているとき、送信元に以下の情報を含
んだ再送要求メッセージを返信する。
When the transfer mode bit is 1, that is, indicating a retransmittable message, a resend request message containing the following information is returned to the sender.

【0058】受信先プロセッサ番号 ← 障害パケット
中の送信元プロセッサ番号 ジョブID ← 障害パケット中のジョブI
D メッセージID ← 障害パケット中のメッセー
ジID 再送要求ビット ← 1 この再送要求メッセージを受信したプロセッサは、再送
要求ビットが1であることを認識し、ジョブIDとメッ
セージIDから決定される再送すべきメッセージをメモ
リから読みだして再度送信する。
Recipient processor number ← Source processor number in fault packet Job ID ← Job I in fault packet
D Message ID ← Message ID in failure packet Resend request bit ← 1 The processor receiving this resend request message recognizes that the resend request bit is 1, and the message to be retransmitted is determined from the job ID and the message ID. Read from memory and send again.

【0059】転送モードビットが0、すなわち再送可能
メッセージでないことを示しているとき、その障害メッ
セージが属するジョブの実行をキャンセルするために、
ジョブキャンセル要求メッセージを該当ジョブが実行さ
れているするプロセッサに送信する。送信すべきプロセ
ッサは、そのジョブが割り当てられている全てのプロセ
ッサである。ジョブの割り当はOSが管理しており、O
Sの管理しているテーブルにジョブと割り当てられたプ
ロセッサの関連が記述されている。
When the transfer mode bit is 0, that is, it indicates that the message is not a retransmittable message, in order to cancel the execution of the job to which the fault message belongs,
Send a job cancel request message to the processor that is executing the job. The processors to be sent are all the processors to which the job is assigned. The OS manages the allocation of jobs.
The relation between the job and the assigned processor is described in the table managed by S.

【0060】ジョブキャンセル要求メッセージは以下の
情報を含んでいる。
The job cancel request message includes the following information.

【0061】受信先プロセッサ番号 ← 該当ジョブが
割り当てられているプロセッサの番号 ジョブID ← 障害パケット中のジョブI
D ジョブキャンセル ← 1 要求ビット 再送要求メッセージ、ジョブキャンセル要求メッセージ
は、どのような手段(ハードウェア的な手段あるいはソ
フトウェア的な手段)で生成されても構わない。またジ
ョブキャンセル要求メッセージは、送信元と受信先の1
対1のメッセージを用いて該当する全てのプロセッサに
送信されてもよいし、1対全プロセッサの放送メッセー
ジを用いて全てのプロセッサに送信され、受信先プロセ
ッサ側でジョブIDを用いてキャンセルすべきジョブを
選択してもよい。
Recipient processor number ← Processor number to which the job is assigned Job ID ← Job I in the fault packet
D Job Cancel ← 1 Request Bit The resend request message and the job cancel request message may be generated by any means (hardware means or software means). The job cancel request message is sent from the sender and the recipient.
It may be sent to all applicable processors using a one-to-one message, or sent to all processors using a one-to-all processor broadcast message, and should be canceled using the job ID on the receiving processor side. You may select a job.

【0062】障害箇所情報は、障害箇所に関連する部品
(ケーブルやボード)を指摘し、システム管理者に交換
すべき部品を通知する目的で、信号線10Y、11Y、
12Y、20Yを介してサービスプロセッサに送られ
る。システム管理者はサービスプロセッサに表示された
障害箇所情報によって障害の発生を知り、部品交換やノ
イズ対策を行なうことが可能になる。
The fault location information includes signal lines 10Y and 11Y for the purpose of pointing out a component (cable or board) related to the fault location and notifying the system administrator of the component to be replaced.
It is sent to the service processor via 12Y and 20Y. The system administrator can know the occurrence of a failure from the failure point information displayed on the service processor, and can replace the part and take noise countermeasures.

【0063】プロセッサ10、11ないし12ないしホ
スト計算機20は内部にパリティ障害を検出する検出回
路を有しており、ネットワーク20から各プロセッサ1
0、11ないし12あるいはホスト計算機20にメッセ
ージを転送する途中における障害の検出を行なう。受信
したメッセージの第1ワードのフィールドAで障害が検
出された場合には、受信先プロセッサ番号障害ビットが
1となっているメッセージを受信した時と同様の処理が
行なわれる。
Each of the processors 10, 11 to 12 and the host computer 20 has a detection circuit for detecting a parity fault therein, and each processor 1 from the network 20.
0, 11 to 12 or a failure in the middle of transferring a message to the host computer 20 is detected. When a failure is detected in the field A of the first word of the received message, the same processing as when the message having the reception destination processor number failure bit of 1 is received is performed.

【0064】 (3)第1ワードのフィールドBで障害を検出したとき 障害によって転送制御情報に誤りが生じたケースであ
る。このケースは第1ワードの障害ではあるが、受信先
プロセッサ番号に誤りがないので、障害があったことを
付加し、受信先プロセッサ番号に指定されたプロセッサ
に転送する。
(3) When a failure is detected in the field B of the first word This is a case where an error has occurred in the transfer control information due to the failure. Although this case is a failure of the first word, since there is no error in the receiver processor number, the fact that there is a failure is added, and it is transferred to the processor specified by the receiver processor number.

【0065】このケースでは、信号線110A、111
A、112Aはメッセージ転送の間、次のようになる。
In this case, the signal lines 110A and 111
During the message transfer, A, 112A:

【0066】信号線110A:= 0(フィールドAに
は障害がなかった) 信号線111A:= 1(フィールドBで障害を検出し
た) 信号線112A:=値1(第1ワードで障害を検出し
た) したがって第1ワード送信サイクル(122B:=1)
ではメッセージCが選択され、受信先プロセッサ番号は
置き換えられず、障害ビットも0のままである。障害が
検出された転送制御情報は障害検出コードBが生成され
メッセージに付加される。
Signal line 110A: = 0 (no failure in field A) Signal line 111A: = 1 (failure detected in field B) Signal line 112A: = value 1 (failure detected in the first word) ) Therefore, the first word transmission cycle (122B: = 1)
Message C is selected, the destination processor number is not replaced, and the fault bit remains 0. A fault detection code B is generated and added to the message for the transfer control information in which the fault is detected.

【0067】第2ワード以降、第m−1ワードまでの送
信サイクルではメッセージCが選択される。
Message C is selected in the transmission cycle from the second word to the m-1th word.

【0068】第mワード送信サイクル(122C:=
1)ではメッセージBが選択される。このときメッセー
ジ障害ビットとして1(メッセージのどこかに障害があ
ったことを示す)、障害ワード番号も1(第1ワードで
障害を検出したことを示す)、そして障害箇所情報とし
て信号線“10A”で障害が発生したことを示す情報が
送られる。
Mth word transmission cycle (122C: =
In 1), the message B is selected. At this time, the message fault bit is 1 (indicates that there is a fault somewhere in the message), the fault word number is also 1 (indicates that the fault is detected in the first word), and the fault line information is signal line "10A". Information indicating that a failure has occurred is sent.

【0069】同一の第1ワードで検出した障害でも、フ
ィールドBで障害を検出した場合にはフィールドAにお
ける受信先プロセッサ番号の障害と区別することによ
り、送信元プロセッサで指定した受信先プロセッサにメ
ッセージが送られることになり、そのメッセージ転送に
関わりのない他のプロセッサまたはホスト計算機に障害
処理を委ねることなく障害処理を行なうことが可能とな
る。
Even if a failure is detected in the same first word, if a failure is detected in the field B, it is distinguished from the failure of the receiver processor number in the field A, and a message is sent to the receiver processor designated by the sender processor. Will be sent, and failure processing can be performed without entrusting the failure processing to another processor or host computer unrelated to the message transfer.

【0070】 (4)第1ワード以外で障害を検出したとき 障害によって第2ワード以降、すなわちメッセージの受
信先に直接影響のないワードで障害が発生したケースで
ある。このケースは、上記(3)のケースと同様、受信
先プロセッサ番号に誤りがないので、単に障害があった
ことをメッセージに付加して、受信先プロセッサ番号で
指定されたプロセッサに転送する。
(4) When a failure is detected in a word other than the first word This is a case in which a failure occurs in the second word and thereafter, that is, in words that do not directly affect the message recipient. In this case, as in the case of (3) above, since there is no error in the receiver processor number, the fact that there is a failure is simply added to the message and transferred to the processor specified by the receiver processor number.

【0071】このケースでは、信号線110A、111
A、112Aはメッセージ転送の間、次のようになる。
In this case, the signal lines 110A and 111
During the message transfer, A, 112A:

【0072】信号線110Aまたは信号線111A:=
1(どこかで障害を検出した) 信号線112A:=値k(第kワードで障害を検出し
た、ただしk≠1) したがって第1ワードから第m−1ワードまではメッセ
ージCが選択される。障害が検出された第kワードも改
めて障害検出コードが生成されメッセージに付加され
る。
Signal line 110A or signal line 111A: =
1 (a failure is detected somewhere) Signal line 112A: = value k (a failure is detected in the kth word, where k ≠ 1) Therefore, the message C is selected from the first word to the m-1th word . A failure detection code is generated again for the kth word in which the failure is detected and added to the message.

【0073】第mワードはメッセージBが選択される。
このときメッセージ障害ビットとして1(メッセージの
どこかに障害があったことを示す)、障害ワード番号も
k(第kワードで障害を検出したことを示す)、そして
障害箇所情報として信号線“10A”で障害が発生した
ことを示す情報が送られる。
Message B is selected as the mth word.
At this time, the message fault bit is 1 (indicates that there is a fault somewhere in the message), the fault word number is k (indicates that the fault is detected in the kth word), and the fault line information is the signal line "10A". Information indicating that a failure has occurred is sent.

【0074】最終的に受信先プロセッサ番号に障害がな
い(1)、(3)、(4)のケースでは、メッセージは
送信元が指定した受信先プロセッサに、受信先プロセッ
サ番号に障害がある(2)のケースではモードレジスタ
の値にしたがって適当なプロセッサまたはホスト計算機
に転送される。
Finally, in the cases of (1), (3) and (4) where there is no failure in the destination processor number, the message has a failure in the destination processor designated by the sender and in the recipient processor number ( In the case of 2), it is transferred to an appropriate processor or host computer according to the value of the mode register.

【0075】以上説明したように、メッセージの転送中
に障害が検出されても、その障害の状況に応じて受信先
プロセッサを変更して転送したり、障害に関する情報を
メッセージの一部に取り込みながら、メッセージ転送を
抑止することなく受信先プロセッサに転送することがで
きる。
As described above, even if a failure is detected during the transfer of a message, the receiving processor is changed and transferred according to the status of the failure, or the information on the failure is captured in a part of the message. , Can be transferred to the destination processor without suppressing the message transfer.

【0076】(実施例2)本実施例は、実施例1とは異な
るメッセージフォーマットを使用し、それでもってより
簡単なメッセージコントローラを使用するネットワーク
を提供する。
Example 2 This example provides a network that uses a different message format than Example 1 and yet uses a simpler message controller.

【0077】本実施例のメッセージのフォーマットを図
8に示す。本実施例では、実施例1で使用した、メッセ
ージ(図3)内の障害発生時の転送先プロセッサ番号B
20(図3)をメッセージで指定しないようにし、その
プロセッサ番号に応答する、メッセージコントローラ内
の回路を省略した。すなわち、転送中のメッセージの中
の受信先プロセッサ番号に障害が起こったとき、ネット
ワーク内の回路で規定する特定のプロセッサ、例えばP
E(1)にそのメッセージを送るようにした。さらに、
そのメッセージが再送を要するときに、そのメッセージ
を送信元のプロセッサに転送するための回路をメッセー
ジコントローラから省略し、上記特定のプロセッサがそ
の送信元のプロセッサに再送を要求するメッセージを転
送するようにした。さらに、メッセージの第1ワードの
受信先プロセッサ番号障害ビットA11と第mワードを
除き、これらに関連する回路をメッセージコントローラ
から削除した。
The message format of this embodiment is shown in FIG. In the present embodiment, the transfer destination processor number B used in the first embodiment when a failure occurs in the message (FIG. 3)
Twenty (FIG. 3) was not specified in the message and the circuitry in the message controller that responded to that processor number was omitted. That is, when the receiver processor number in the message being transferred fails, a specific processor defined by a circuit in the network, for example, P
I tried to send the message to E (1). further,
When the message needs to be retransmitted, the circuit for transferring the message to the source processor is omitted from the message controller, and the specific processor transfers the message requesting the retransmission to the source processor. did. In addition, except for the destination processor number failure bit A11 in the first word of the message and the mth word, the circuits associated with them have been deleted from the message controller.

【0078】以上により、本実施例では、ネットワーク
のメッセージコントローラの構造を簡単化した。以下で
は第1の実施例で使用したのと同じ参照番号は同じもの
を指す。本実施例でも、複数のジョブに属するプログラ
ムが複数のプロセッサにより実行され、各プロセッサが
実行するプログラムとジョブの関係は実施例1の場合と
同じと仮定する。
As described above, in this embodiment, the structure of the message controller of the network is simplified. In the following, the same reference numbers as used in the first example refer to the same. Also in this embodiment, it is assumed that programs belonging to a plurality of jobs are executed by a plurality of processors, and the relationship between the programs executed by each processor and the jobs is the same as in the first embodiment.

【0079】なお、図8において、各プロセッサは、メ
ッセージを送出するときに、そのメッセージの各ワード
の障害検出コードAとして、実施例1と同様にそのワー
ドのフィールドA内の情報とこのコートとが所定のパリ
ティを持つように障害検出コードの値を決める。各ワー
ドの障害検出コードBについても同じである。
In FIG. 8, when sending a message, each processor uses the information in field A of this word and this code as the fault detection code A of each word of the message, as in the first embodiment. Determines the value of the fault detection code so that has a predetermined parity. The same applies to the fault detection code B of each word.

【0080】図9は本実施例によるメッセージコントロ
ーラ100Aの構成を示したものである。メッセージか
ら障害発生時の転送先プロセッサ番号B20を省略した
ために、図4のメッセージコントローラ100のモード
レジスタ104、レジスタA103、レジスタC10
6、レジスタD107、セレクタ109が不要になる。
またメッセージから第1ワードの障害ビットA11と第
mワードを除いたために、メッセージのフィールドに障
害検出時に変更すべき箇所がなくなり、メッセージ生成
回路120も不要になる。
FIG. 9 shows the configuration of the message controller 100A according to this embodiment. Since the transfer destination processor number B20 when a failure occurs is omitted from the message, the mode register 104, the register A103, and the register C10 of the message controller 100 in FIG.
6, the register D107 and the selector 109 are unnecessary.
Further, since the fault bit A11 and the m-th word of the first word are removed from the message, there is no place in the field of the message to be changed when the fault is detected, and the message generation circuit 120 is also unnecessary.

【0081】図のメッセージコントローラにメッセージ
が入力されると、そのメッセージの第1ワードのフィー
ルドA内の受信先プロセッサ番号A10は、実施例1と
同様にしてレジスタ113にセットされ、さらにセレク
タ105に転送される。
When a message is input to the message controller shown in the figure, the receiver processor number A10 in the field A of the first word of the message is set in the register 113 in the same manner as in the first embodiment, and is further set in the selector 105. Transferred.

【0082】第1ワードのフィールドA(受信先メッセ
ージ番号A10)で障害が検出された障害メッセージを
送信すべき特定のプロセッサとして、本実施例ではPE
(1)が使用される。このため、セレクタ105には、
このプロセッサの番号’1’が入力されている。
In this embodiment, PE is used as a specific processor to which a fault message in which a fault is detected in the field A (reception destination message number A10) of the first word is to be transmitted.
(1) is used. Therefore, the selector 105 has
The number "1" of this processor is entered.

【0083】メッセージコントローラ内の障害検出器1
02が、転送すべきメッセージ内の第1ワードのフィー
ルドAの障害を検出したときには、実施例1と同様AN
D回路114が1になり、セレクタ105で障害メッセ
ージを送信すべき特定のプロセッサPE(1)の番号’
1’が選択されて信号線105Aに送出される。
Fault detector 1 in the message controller
When 02 detects a failure of the field A of the first word in the message to be transferred, the same as in the first embodiment AN
The D circuit 114 becomes 1 and the number of the specific processor PE (1) to which the selector 105 should send the failure message is'
1'is selected and sent to the signal line 105A.

【0084】障害検出器102では、実施例2と同様
に、このメッセージコントローラでは、そこに入力され
たメッセージの第1ワードのフィールドAにパリティエ
ラーがあるかを判別する。もし、このフィールドにパリ
ティエラーがあると、実施例1と同様にしてレジスタ1
10に’1’がセットされ、さらに、レジスタ112
に、このワードの番号1がセットされる。レジスタ11
0の内容はAND回路114に送られている。レジスタ
112の内容が’1’であると、’1’検出器115の
出力は’1’となる。従って、AND回路114の出力
が1になる。セレクタ105は、実施例1と同様に、こ
のAND回路の出力が1か否かに応じて、レジスタ11
3の内容あるいは定数’1’を選択する。
In the fault detector 102, as in the second embodiment, this message controller determines whether or not there is a parity error in the field A of the first word of the message input thereto. If there is a parity error in this field, register 1
'1' is set to 10, and the register 112
Is set to the word number 1. Register 11
The content of 0 is sent to the AND circuit 114. When the content of the register 112 is "1", the output of the "1" detector 115 is "1". Therefore, the output of the AND circuit 114 becomes 1. Similarly to the first embodiment, the selector 105 determines whether the register 11 has a value corresponding to whether the output of the AND circuit is 1 or not.
Select the content of 3 or the constant '1'.

【0085】障害検出回路102で上記障害が検出され
なかったときには、AND回路114の出力が’0’と
なり、セレクタ105はレジスタ113内の、メッセー
ジで指定された受信先プロセッサ番号を選択し、上記障
害が検出されたときには、上記定数’1’を選択する。
選択された受信先のプロセッサ番号は、信号線105A
を介してこのネットワークの複数の出力ポートに対応し
て設けられた複数のスイッチコントローラ50、51等
に送られ、それらのスイッチコントローラは、セレクタ
105により選択された受信先プロセッサ番号に対応す
る入出力ポートのスイッチがそのメッセージを選択する
ように制御する。
When the fault detection circuit 102 does not detect the fault, the output of the AND circuit 114 becomes "0", and the selector 105 selects the receiver processor number designated by the message in the register 113, When a failure is detected, the constant '1' is selected.
The processor number of the selected receiver is the signal line 105A.
To the plurality of switch controllers 50, 51, etc. provided corresponding to the plurality of output ports of this network, and these switch controllers are input / output corresponding to the receiving processor number selected by the selector 105. Control the switch of the port to select the message.

【0086】この結果、障害検出器102が上記障害を
検出しなかったときには、上記入力されたメッセージが
プロセッサが指定した受信先プロセッサ番号を有するプ
ロセッサにこのメッセージを転送する。また、上記障害
が検出されたときには、プロセッサPE(1)にこのメ
ッセージが転送される。
As a result, when the fault detector 102 does not detect the fault, the inputted message is transferred to the processor having the receiver processor number designated by the processor. When the above-mentioned fault is detected, this message is transferred to the processor PE (1).

【0087】なお、本実施例では、実施理1と異なり、
障害検出器102が後続のワードの障害を検出したとき
でも、メッセージ内の障害検出コードAまたはBを書き
換えることはない。
In this embodiment, unlike the first embodiment,
When the fault detector 102 detects a fault in the following word, it will not rewrite the fault detection code A or B in the message.

【0088】本実施例では、上記プロセッサPE(1)
は、なんらかのメッセージを受信したときに、そのメッ
セージの各ワードの各フィールドAまたはB内の情報と
そのフィールドに付加された障害検出コードAあるいは
Bの組み合せに障害があるか否かを判別し、それにより
そのフィールドAまたはBに障害があるか否かを判定
し、その判定結果を受信したメッセージとともにそのプ
ロセッサ内の処理装置(図示せず)に転送するする回路
(図示せず)を有する。本実施例では、具体的には、こ
の判定回路はパリティチェック回路をふくむ。
In this embodiment, the processor PE (1) is used.
Determines whether or not there is a failure in the combination of the information in each field A or B of each word of that message and the failure detection code A or B added to that field when receiving any message, It has a circuit (not shown) for determining whether or not there is a fault in the field A or B, and transferring the result of the determination together with the received message to the processing unit (not shown) in the processor. In this embodiment, specifically, this determination circuit includes a parity check circuit.

【0089】この処理装置では、受信したメッセージの
各ワードの各フィールドに対するパリティ判定結果が正
常値であるか否かに依存して、そのメッセージを適宜プ
ログラムで処理する。
In this processing device, the message is appropriately processed by the program depending on whether or not the parity determination result for each field of each word of the received message is a normal value.

【0090】 (1)受信先プロセッサ番号にエラーがある場合 このメッセージは、他のプロセッサに転送されるべきメ
ッセージであったが、そのメッセージ内の受信先プロセ
ッサ番号にエラーが発生したために、このプロセッサP
E(1)に転送された障害メッセージであるとして、以
下の処理を行なう。
(1) When there is an error in the receiver processor number This message was a message to be transferred to another processor, but this processor has an error in the receiver processor number. P
The following process is performed assuming that the fault message is transferred to E (1).

【0091】(1a)そのメッセージ内の第3ワードの
転送モードビットB33が再送を要求しているときに
は、そのメッセージ内の送信元プロセッサ番号A20を
有するプロセッサにこの障害メッセージの再送を要求す
るメッセージを送る。つまり、このプロセッサ番号を有
するプロセッサに、受信したジョブID(A30)とメ
ッセージID(A31)を含み、再送要求ビットB32
が1であるメッセージを送る。
(1a) When the transfer mode bit B33 of the third word in the message requests retransmission, a message requesting retransmission of this failure message is sent to the processor having the source processor number A20 in the message. send. That is, the processor having this processor number includes the received job ID (A30) and message ID (A31), and the resend request bit B32.
Sends a message in which is 1.

【0092】(1b)もし、受信した障害メッセージの
転送モードビットB33が再送を禁止しているときに
は、そのメッセージ内のジョブIDで指定されるジョブ
を管理するプロセッサにジョブキャンセル要求のための
メッセージを送る。そのプロセッサの番号と各ジョブI
Dとの関係は、このプロセッサPE(1)内に記憶して
おく。このキャンセルのためのメッセージには、その受
信したメッセージ内のジョブID(A30)とメッセー
ジID(A31)を含まれ、ジョブキャンセル要求ビッ
トB31が1である。さらに、このプロセッサPE
(1)からホストプロセッサ20(図1)に通知し、そ
れでもって障害の発生をホストプロセッサ40で実行中
のシステム管理プログラムに通知する。
(1b) If the transfer mode bit B33 of the received failure message prohibits resending, a message for requesting job cancellation is sent to the processor managing the job specified by the job ID in the message. send. The processor number and each job I
The relationship with D is stored in this processor PE (1). The message for cancel includes the job ID (A30) and the message ID (A31) in the received message, and the job cancel request bit B31 is 1. Furthermore, this processor PE
From (1), the host processor 20 (FIG. 1) is notified, and accordingly, the occurrence of a failure is notified to the system management program running on the host processor 40.

【0093】なお、このジョブキャンセル要求を求める
メッセージを受信したプロセッサでは、そのメッセージ
に含まれるジョブIDで指定されるジョブに属するプロ
グラムを実行している複数のプロセッサにそれらのプロ
グラムの実行の中止を求めるメッセージを送る。
Note that the processor which has received the message requesting the job cancel request causes the plurality of processors executing the program belonging to the job specified by the job ID included in the message to cancel the execution of those programs. Send a message asking for.

【0094】以上の処理は、第2ワードのフィールド
A、第3ワードのフィールドAおよびBが正常であると
上記判定回路が判定している場合である。もし、これら
のフィールドのいずれかがさらに異常であるときには、
以上の処理はできない。しかし、実際上は、このメッセ
ージ内の受信先プロセッサ番号のエラーと上記3つのフ
ィールドのエラーとが同時に起こる、多重エラーの可能
性は少ない。もし、上記3つのフィールドのいずれかが
さらにエラーであるときには、上記3つのフィールドの
内、正常なフィールドが示す情報に基づいて実行可能な
処理を選択する。例えば、第2ワードのフィールドAの
送信元プロセッサ番号にエラーがあるときには、第3ワ
ードのフィールドA、Bがともに正常であるときでも、
この受信した障害メッセージをホストプロセッサ20
(図1)に通知し、それでもって障害の発生をホストプ
ロセッサ40で実行中のシステム管理プログラムに通知
する。
The above processing is performed when the above determination circuit determines that the field A of the second word and the fields A and B of the third word are normal. If any of these fields are more unusual,
The above processing cannot be performed. However, in reality, there is little possibility of multiple errors in which the error of the destination processor number in this message and the error of the above three fields occur at the same time. If any of the above three fields has an error, an executable process is selected based on the information indicated by the normal field among the above three fields. For example, when there is an error in the transmission source processor number of the field A of the second word, even when both the fields A and B of the third word are normal,
The received fault message is sent to the host processor 20.
(FIG. 1), and accordingly, the occurrence of a failure is notified to the system management program running on the host processor 40.

【0095】 (2)受信先プロセッサ番号にエラーがない場合 上記判定回路が、受信したメッセージの第1ワードの受
信先プロセッサ番号A10が正常値であると判定したと
きには、この番号がそのプロセッサPE(1)の番号と
一致するか否かを判別する。
(2) When there is no error in the destination processor number When the determination circuit determines that the destination processor number A10 of the first word of the received message is a normal value, this number is the processor PE ( It is determined whether or not it matches the number of 1).

【0096】(2a)受信したメッセージの第1ワード
の受信先プロセッサ番号A10が正常値で、かつ、プロ
セッサPE(1)の番号と一致するときには、以下の処
置をする。
(2a) When the receiver processor number A10 of the first word of the received message is a normal value and coincides with the number of the processor PE (1), the following measures are taken.

【0097】この場合には、そのメッセージが元々その
プロセッサに宛てた正常なメッセージであるとして、そ
のメッセージ内の第4ワードから第mー1ワード内のデ
ータを処理する。
In this case, assuming that the message is originally a normal message addressed to the processor, the data in the fourth word to the m-1th word in the message is processed.

【0098】なお、もともとこのメッセージ内の受信先
プロセッサ番号が、このプロセッサPE(1)の番号と
異なっていたが、その元の番号の内の2ビットがメッセ
ージの転送途中でエラーにより反転し、その結果とし
て、エラー後の受信先プロセッサ番号が偶然PE(1)
の番号と一致した場合に、パリティチェックではエラー
と判定されないので、この場合もこの(b1)の場合と
区別できない。しかし、本実施例ではこのような多重エ
ラーの発生の可能性は少ないと仮定している。このよう
な多重エラーを処理するには、メッセージ内の障害検出
コードAとしてECCコードを使用し、上記判定回路と
して、ECC回路を使用すればよい。この場合には、2
ビットのエラーまでは訂正可能であるので、より精度よ
くメッセージのエラーの判別を行なえる。
Originally, the destination processor number in this message was different from the number of this processor PE (1), but 2 bits of the original number were inverted due to an error during the transfer of the message, As a result, the destination processor number after the error happens to be PE (1).
If it matches the number of (1), it is not judged as an error by the parity check, and in this case as well, it cannot be distinguished from the case of (b1). However, in this embodiment, it is assumed that such a multiple error is unlikely to occur. In order to process such multiple errors, an ECC code may be used as the fault detection code A in the message and an ECC circuit may be used as the determination circuit. In this case, 2
Since even bit errors can be corrected, message errors can be determined more accurately.

【0099】(2b)受信したメッセージの第1ワード
の受信先プロセッサ番号A10が正常値であり、かつ、
この番号がそのプロセッサPE(1)の番号と一致しな
いときには、以下の処置をする。
(2b) The receiver processor number A10 of the first word of the received message is a normal value, and
When this number does not match the number of the processor PE (1), the following measures are taken.

【0100】このメッセージが正常な場合、このような
メッセージがPE(1)に到着することは有り得ない。
従って、このようなメッセージは障害が発生したメッセ
ージと同様に、上記(1)により処理する。
If this message is normal, it is unlikely that such a message will arrive at PE (1).
Therefore, such a message is processed by the above (1) in the same manner as the message in which the failure has occurred.

【0101】(実施例3)本実施例は、実施例2のネッ
トワークに代えて特開昭63−124162に開示され
ている、複数の相互接続された部分ネットワークを使用
するネットワークを使用した例である。このネットワー
クは、多くのプロセッサの間でメッセージを高速に転送
するのに適している。
(Embodiment 3) This embodiment is an example in which a network using a plurality of interconnected partial networks, which is disclosed in JP-A-63-124162, is used in place of the network of Embodiment 2. is there. This network is suitable for fast transfer of messages between many processors.

【0102】図10は上記ネットワークを持つ並列計算
機の構成を示したものである。本実施例はプロセッサ
(PE(11)〜PE(44)、計16台)を2次元的
に並べ、それぞれをX方向クロスバネットワーク(X1
〜X4)、Y方向クロスバネットワーク(Y1〜Y4)
および中継スイッチ(EX(11)〜EX(44))で
相互に接続した並列計算機である。なお、実施例1で使
用したホストプロセッサ40とサービスプロセッサもこ
のネットワークに接続されているが、これらは図10で
は簡単化のために図示していない。
FIG. 10 shows the configuration of a parallel computer having the above network. In this embodiment, processors (PE (11) to PE (44), 16 units in total) are arranged two-dimensionally, and each is arranged in the X direction crossbar network (X1).
~ X4), Y direction crossbar network (Y1 to Y4)
And a parallel computer interconnected by relay switches (EX (11) to EX (44)). The host processor 40 and the service processor used in the first embodiment are also connected to this network, but they are not shown in FIG. 10 for simplification.

【0103】各クロスバネットワークは,実施例1で使
用したネットワークと同じであり、それぞれ複数対の入
出力ポートを有し、それらの間でメッセージを並列に転
送する。本実施例では、それぞれの入出力ポートは、一
つの中継スイッチに接続されている。各プロセッサは二
次元のアドレス(YX)を有し、各X方向クロスバネッ
トワーク(X1〜X4)は、それぞれX座標1,2,
3,4に対応して設けられ、Y方向クロスバネットワー
ク(Y1〜Y4)は、それぞれY座標1,2,3,4に
対応して設けられ、各中継スイッチEX(ij)は、一
つのY方向クロスバネットワークYi(i=1,2,3
または4)と一つのX方向クロスバネットワークXj
(j=1,2,3または4)との組に対応して設けら
れ、それらのクロスバネットワークの入出力ポートとプ
ロセッサPE(ij)とに接続されている。
Each crossbar network is the same as the network used in the first embodiment, and each has a plurality of pairs of input / output ports and transfers messages in parallel between them. In this embodiment, each input / output port is connected to one relay switch. Each processor has a two-dimensional address (YX), and each X-direction crossbar network (X1 to X4) has X coordinates 1, 2, and
3 and 4, Y-direction crossbar networks (Y1 to Y4) are provided corresponding to Y coordinates 1, 2, 3, and 4, respectively, and each relay switch EX (ij) is one Y Directional crossbar network Yi (i = 1, 2, 3
Or 4) and one X-direction crossbar network Xj
(J = 1, 2, 3, or 4) and are connected to the input / output ports of the crossbar network and the processor PE (ij).

【0104】すなわち、各中継スイッチEX(ij)
は、一つのY方向クロスバネットワークYi(i=1,
2,3または4)と一つのX方向クロスバネットワーク
Xj(j=1,2,3または4)との組に対応して設け
られ、それらのクロスバネットワークの入出力ポートと
プロセッサPE(ij)とに接続されている。
That is, each relay switch EX (ij)
Is one Y-direction crossbar network Yi (i = 1,
2, 3 or 4) and one X-direction crossbar network Xj (j = 1, 2, 3 or 4) are provided corresponding to the input / output ports of these crossbar networks and the processor PE (ij). It is connected to the.

【0105】結局、Y方向クロスバネットワークYi
(i=1,2,3または4)は、X座標アドレスがiで
あり、Y座標が互いに異なる複数のプロセッサPE(i
1)からPE(i4)を相互に接続するための部分ネッ
トワークであり、X方向クロスバネットワークXj(j
=1,2,3または4)は、Y座標アドレスがjであ
り、X座標が互いに異なる複数のプロセッサPE(1
j)からPE(4j)を相互に接続するための部分ネッ
トワークである。
After all, the Y direction crossbar network Yi
(I = 1, 2, 3 or 4) has a plurality of processors PE (i having an X coordinate address i and different Y coordinates).
1) is a partial network for connecting PE (i4) to each other, and is an X-direction crossbar network Xj (j
= 1, 2, 3, or 4) has a Y coordinate address of j and a plurality of processors PE (1
j) is a partial network for connecting PEs (4j) to each other.

【0106】このネットワークでは、プロセッサ間のメ
ッセージ転送は、以下のようにして行われる。例えば、
プロセッサPE(12)からそれとX座標とY座標とが
ともに異なる他のPE(43)にメッセージを転送する
場合、PE(12)はメッセージをそれに対応して設け
られた中継スイッチEX(12)に、受信先プロセッサ
番号として(43)を有するメッセージを送る。この中
継スイッチEX(12)は、まず、このメッセージを横
方向クロスバネットワークX2に送出する。
In this network, message transfer between processors is performed as follows. For example,
When a message is transferred from the processor PE (12) to another PE (43) having different X and Y coordinates, the PE (12) sends the message to the relay switch EX (12) provided correspondingly. , Send a message with (43) as the destination processor number. The relay switch EX (12) first sends this message to the lateral crossbar network X2.

【0107】そのネットワークでは、このメッセージの
Y座標4に対する入出力ポートから中継スイッチEX
(42)にこのメッセージを転送する。この中継スイッ
チEX(42)では、このメッセージの受信先プロセッ
サ番号のX座標3が自己のX座標と異なると判断する
と、このメッセージをさらにY方向クロスバネットワー
クY4に転送する。このネットワーク内では、このメッ
セージの受信先アドレスのX座標3に対応する入出力ポ
ートを介して中継スイッチEX(43)に出力する。こ
の中継スイッチでは、このメッセージの送信先アドレス
のX座標、Y座標がともに自己のそれらに一致すると判
断すると、このメッセージを自己に接続されたプロセッ
サPE(43)に転送する。このように、本実施例で使
用するネットワークでは、メッセージ内の送信先アドレ
スとして、X、Y座標を使用し、さらに、メッセージ
は、送信元プロセッサが接続された第1の中継スイッチ
と、それに接続された一つのX方向クロスバネットワー
クと、受信先プロセッサに対応する第2の中継スイッチ
が接続されている一つのY方向クロスバスイッチと、そ
の第2の中継スイッチとを結ぶ経路により、受信先プロ
セッサに転送される。
In the network, from the input / output port for Y coordinate 4 of this message to the relay switch EX.
This message is transferred to (42). When the relay switch EX (42) determines that the X coordinate 3 of the destination processor number of this message is different from its own X coordinate, it further transfers this message to the Y-direction crossbar network Y4. In this network, the message is output to the relay switch EX (43) via the input / output port corresponding to the X coordinate 3 of the destination address of this message. When this relay switch determines that both the X coordinate and the Y coordinate of the destination address of this message match those of its own, it transfers this message to the processor PE (43) connected to itself. As described above, in the network used in the present embodiment, the X and Y coordinates are used as the destination address in the message, and the message further includes the first relay switch to which the source processor is connected and the connection to the first relay switch. The X-direction crossbar network, the Y-direction crossbar switch to which the second relay switch corresponding to the destination processor is connected, and the second relay switch are connected to the destination processor. Transferred.

【0108】もし、プロセッサPE(11)からY座標
が一致している他のプロセッサ、例えば、PE(14)
にメッセージを送信する場合には、中継スイッチEX
(11)は、送信すべきメッセージをこれらのプロセッ
サに共通のY方向クロスバスイッチY1に転送する。こ
のメッセージはその後、中継スイッチEX(14)を経
て目的のプロセッサPE(14)に転送される。
If the processor PE (11) has another Y-coordinate, for example, PE (14).
When sending a message to the relay switch EX
(11) transfers the message to be transmitted to the Y-direction crossbar switch Y1 common to these processors. This message is then transferred to the target processor PE (14) via the relay switch EX (14).

【0109】このように、このネットワークは、メッシ
ュやトーラスと呼ばれる公知の他のネットワークと比較
し、ネットワークの乗り換え回数が少ないために、遠方
のプロセッサへのメッセージ転送が高速であるという利
点を持つ。
As described above, this network has a merit that the message transfer to the distant processor is fast because the number of times of changing the network is small as compared with other known networks called mesh and torus.

【0110】本実施例では、各X方向クロスバネットワ
ーク、各Y方向クロスバネットワーク、各中継スイッ
チ、各PEはそれぞれ一つのLSI内に構成される。従
って、これらの間を接続する線上をメッセージが転送さ
れるときに、そのメッセージにエラーが発生する可能性
がある。
In this embodiment, each X-direction crossbar network, each Y-direction crossbar network, each relay switch, and each PE are configured in one LSI. Therefore, when a message is transferred on the line connecting these, an error may occur in the message.

【0111】本実施例では、実施例1、2と同様に、こ
れらの複数のプロセッサにより複数のジョブに属する複
数のプログラムが並列に実行されると仮定する。例え
ば、X座標が同じでY座標が異なる複数のプロセッサ
が、同一のジョブに属する複数のプログラムを実行する
ジョブグループを構成する。あるいは、Y座標が同じで
X座標が異なる複数のプロセッサが同一のジョブに属す
る複数のプログラムを実行する一つのジョブグループを
構成する。あるいは、X座標がある範囲にあり、かつ、
Y座標がある範囲にある複数のプロセッサが、同一のジ
ョブに実行する複数のプログラムを実行する一つのジョ
ブグループを構成するようにしてもよい。
In this embodiment, as in the first and second embodiments, it is assumed that a plurality of programs belonging to a plurality of jobs are executed in parallel by these plurality of processors. For example, a plurality of processors having the same X coordinate and different Y coordinates form a job group that executes a plurality of programs belonging to the same job. Alternatively, a plurality of processors having the same Y-coordinate but different X-coordinates form one job group that executes a plurality of programs belonging to the same job. Alternatively, the X coordinate is within a certain range, and
A plurality of processors having a Y coordinate within a certain range may configure one job group that executes a plurality of programs executed for the same job.

【0112】本実施例では、いずれかのX方向クロスバ
スイッチ、例えばX1にいずれかの中継スイッチから入
力されたメッセージ内の受信先プロセッサ番号に障害が
あると判明すると、そのメッセージはそのクロスバスイ
ッチX1に接続された、このクロスバスイッチで決めら
れた特定の中継スイッチ、例えばEX11を経て、それ
に接続された特定のプロセッサPE(11)に転送され
るようになっている。本実施例ではこの特定の中継スイ
ッチEX(11)は、このクロスバスイッチに接続され
た4つの中継スイッチのうちでY座標が最も小さいもの
として選択されている。
In the present embodiment, when it is found that the receiver processor number in the message input from any relay switch to any X-direction crossbar switch, for example, X1 is faulty, that message is sent to that crossbar switch X1. The data is transferred to a specific processor PE (11) connected to it via a specific relay switch determined by the crossbar switch, for example, EX11. In the present embodiment, this particular relay switch EX (11) is selected as the one having the smallest Y coordinate among the four relay switches connected to this crossbar switch.

【0113】同様に、いずれかのY方向クロスバスイッ
チ、例えばY4にいずれかの中継スイッチから入力され
たメッセージ内の受信先プロセッサ番号に障害があると
判明すると、そのメッセージはそのクロスバスイッチY
4に接続された、、このクロスバスイッチで決められた
特定の中継スイッチ、例えばEX41を経て、それに接
続された特定のプロセッサPE(41)に転送されるよ
うになっている。本実施例ではこの特定の中継スイッチ
EX(41)は、このクロスバスイッチに接続された4
つの中継スイッチのうちでX座標が最も小さいものとし
て選択されている。
Similarly, when it is found that the receiver processor number in the message input from any relay switch to any Y-direction crossbar switch, for example Y4, is faulty, the message is sent to that crossbar switch Y.
4 is transferred to a specific processor PE (41) connected to it via a specific relay switch determined by this crossbar switch, for example, EX41. In this embodiment, this specific relay switch EX (41) is connected to this crossbar switch 4
Of the two relay switches, the switch with the smallest X coordinate is selected.

【0114】これらの特定のプロセッサに転送された障
害メッセージのその後の処理は基本的には実施例2と同
じである。
Subsequent processing of the fault message transferred to these specific processors is basically the same as that in the second embodiment.

【0115】本実施例のメッセージのフォーマットを図
11に示す。これはメッセージの受信先プロセッサ番号
として、受信先プロセッサのX座標A100とY座標A
101の組を含む点で実施例2と異なる。
The format of the message of this embodiment is shown in FIG. This is the X-coordinate A100 and Y-coordinate A of the receiving processor as the receiving processor number of the message.
This is different from the second embodiment in that 101 sets are included.

【0116】本実施例では、各X方向クロスバネットワ
ーク、各Y方向クロスバネットワークは図1のネットワ
ーク30に比べてメッセージコントローラ100,20
0等の内部構成およびホストプロセッサ20とサービス
プロセッサ40との接続を除いて基本的には同じであ
る。本実施例では、全てのXまたはY方向のクロスバネ
ットワークがホストプロセッサと直接接続される必要は
なく、一つまたは複数のXまたはY方向のクロスバネッ
トワークが適当な経路でもってホストプロセッサに接続
されればよい。サービスプロセッサに関しても同様であ
る。
In this embodiment, each X-direction crossbar network and each Y-direction crossbar network are different from the message controller 100, 20 in comparison with the network 30 of FIG.
It is basically the same except the internal configuration such as 0 and the connection between the host processor 20 and the service processor 40. In this embodiment, not all X or Y direction crossbar networks need to be directly connected to the host processor, but one or more X or Y direction crossbar networks may be connected to the host processor by appropriate paths. Good. The same applies to the service processor.

【0117】本実施例の各X方向クロスバネットワーク
および各Y方向クロスバネットワークで使用するメッセ
ージコントローラの内部構成は図12に示すとおり、実
施例2のメッセージコントローラを部分修正したものに
なっている。図12のメッセージコントローラは図9に
示した実施例2のメッセージコントローラに座標切り出
し回路116を付加したものである。
As shown in FIG. 12, the internal structure of the message controller used in each X-direction crossbar network and each Y-direction crossbar network of this embodiment is a partial modification of the message controller of the second embodiment. The message controller of FIG. 12 is obtained by adding the coordinate cutout circuit 116 to the message controller of the second embodiment shown in FIG.

【0118】X方向クロスバネットワークのメッセージ
コントローラおよびY方向クロスバネットワークのメッ
セージコントローラは、それぞれに入力されたメッセー
を転送する出力ポートを、それぞれ、そのメッセージ内
の受信先プロセッサのX座標のみおよびY座標のみから
決定する。
The message controller of the X-direction crossbar network and the message controller of the Y-direction crossbar network have output ports for transferring the respective input messages, only the X coordinate and the Y coordinate of the receiving processor in the message, respectively. To decide from.

【0119】X方向クロスバネットワーク内の座標切り
出し回路116は、それが属するメッセージコントロー
ラに入力されたメッセージ内のX座標を切り出し、レジ
スタB113に送る。同様に、Y方向クロスバネットワ
ーク内の座標切り出し回路116は、それが属するメッ
セージコントローラに入力されたメッセージ内のY座標
を切り出し、レジスタB113に送る。レジスタB11
3に保持された座標は、セレクタ105に入力される。
このセレクタ105には、メッセージの第1ワードのフ
ィールドAで障害を検出したときには、そのメッセージ
を1番のポートに出力するため、障害発生時のメッセー
ジの出力先として定数’1’が他の入力として供給され
ている。
The coordinate cutout circuit 116 in the X direction crossbar network cuts out the X coordinate in the message input to the message controller to which it belongs and sends it to the register B113. Similarly, the coordinate cutout circuit 116 in the Y direction crossbar network cuts out the Y coordinate in the message input to the message controller to which it belongs and sends it to the register B113. Register B11
The coordinates held in 3 are input to the selector 105.
When a failure is detected in the field A of the first word of the message, the selector 105 outputs the message to the port No. 1. Therefore, when the failure occurs, the constant '1' is input to another input. Is being supplied as.

【0120】障害検出器102では、実施例1、2と同
様に、このメッセージコントローラでは、そこに入力さ
れたメッセージの第1ワードのフィールドAにパリティ
エラーがあるかを判別する。もし、このフィールドにパ
リティエラーがあると、実施例1、2と同様にして、A
ND回路114の出力が1になる。セレクタ105は、
実施例1と同様に、このAND回路の出力が1か否かに
応じて、レジスタ113の内容あるいは定数’1’を選
択する。
In the fault detector 102, as in the first and second embodiments, this message controller determines whether or not there is a parity error in the field A of the first word of the message input thereto. If there is a parity error in this field, A
The output of the ND circuit 114 becomes 1. The selector 105 is
Similar to the first embodiment, the content of the register 113 or the constant "1" is selected depending on whether the output of the AND circuit is 1 or not.

【0121】障害検出回路102で上記障害が検出され
なかったときには、セレクタ105によりレジスタ11
3内の出力先ポートのアドレスが選択され、上記障害が
検出されたときには、上記定数’1’が選択される。選
択された出力先のポートアドレスは、信号線105Aを
介してその中継スイッチ内の上記3つの入出力ポートに
対応して設けられた3つのスイッチコントローラに送ら
れ、それらのスイッチコントローラは、セレクタ105
により選択された出力先ポートアドレスを有する入出力
ポートのスイッチがそのメッセージを選択するように制
御する。
When the fault detection circuit 102 does not detect the fault, the selector 105 causes the register 11
When the address of the output destination port in 3 is selected and the fault is detected, the constant '1' is selected. The selected output destination port address is sent via the signal line 105A to the three switch controllers provided corresponding to the above three input / output ports in the relay switch.
The switch of the input / output port having the output destination port address selected by is controlled to select the message.

【0122】本実施例では、中継スイッチEX(11)
等は、図1のネットワーク30に比べて、入出力ポート
の数、メッセージコントローラ100,200等の内部
構成およびホストプロセッサ20とサービスプロセッサ
40との接続を除いて基本的には同じである。すなわ
ち、各中継スイッチの入出力ポート数は、図10から分
かるように3である。本実施例では、いずれの中継スイ
ッチもホストプロセッサおよびサービスプロセッサには
直接接続されない。
In this embodiment, the relay switch EX (11)
1 are basically the same as those of the network 30 of FIG. 1 except for the number of input / output ports, the internal configuration of the message controllers 100 and 200, and the connection between the host processor 20 and the service processor 40. That is, the number of input / output ports of each relay switch is 3, as can be seen from FIG. In this embodiment, neither relay switch is directly connected to the host processor and service processor.

【0123】各中継スイッチ内に使用するメッセージコ
ントローラの内部構成は図13に示すとおり、図12の
メッセージコントローラの座標切り出し回路116に代
えて送信先決定回路117を使用する点で図12と異な
る。
As shown in FIG. 13, the internal structure of the message controller used in each relay switch is different from that of FIG. 12 in that a destination determination circuit 117 is used instead of the coordinate cutout circuit 116 of the message controller of FIG.

【0124】送信先決定回路117は、その中継スイッ
チに接続されているるプロセッサのX座標、Y座標を保
持するレジスタ(図示せず)と、その回路117が属す
るメッセージコントローラに入力されたメッセージの受
信先プロセッサ番号としてのX座標、Y座標とこのレジ
スタに保持しているプロセッサの座標とを比較する比較
器(図示せず)と、その結果に基づいて、そのメッセー
ジを出力すべきポートのアドレスを決定する回路(図示
せず)とよりなる。
The destination determining circuit 117 stores a register (not shown) for holding the X and Y coordinates of the processor connected to the relay switch and a message input to the message controller to which the circuit 117 belongs. A comparator (not shown) that compares the X and Y coordinates as the receiver processor number with the coordinates of the processor held in this register, and the address of the port to which the message should be output based on the result. And a circuit (not shown) for determining

【0125】本実施例では、各中継スイッチの入出力ポ
ートのアドレスは以下のように仮定する。プロセッサに
接続された入出力ポートのアドレスは0、Y方向クロス
バネットワークに接続された入出力ポートのアドレスは
2、X方向クロスバネットワークに接続された入出力ポ
ートのアドレスは1である。
In this embodiment, the addresses of the input / output ports of each relay switch are assumed as follows. The address of the input / output port connected to the processor is 0, the address of the input / output port connected to the Y direction crossbar network is 2, and the address of the input / output port connected to the X direction crossbar network is 1.

【0126】この送信先決定回路117は、上記比較の
結果、上記入力されたメッセージ内のX座標、Y座標が
ともに、上記プロセッサのX座標、Y座標に一致すると
き、上記プロセッサに接続された入出力ポートのアドレ
ス(0)、それらのX座標のみが一致したときは上記中
継スイッチが接続されたYクロスバスイッチに接続され
た入出力ポートのアドレス(2)、それらのY座標のみ
が一致したときおよびそれらのX座標もY座標も一致し
ないときには上記中継スイッチが接続されたX方向クロ
スバスイッチに接続された入出力ポートのアドレス
(1)を出力する。これらの出力先を示す値はレジスタ
B113に保持され、セレクタ105に送られる。
As a result of the comparison, the destination determining circuit 117 is connected to the processor when the X and Y coordinates in the input message both match the X and Y coordinates of the processor. When only the input / output port address (0) and their X-coordinates match, only the input / output port address (2) and their Y-coordinates that are connected to the Y crossbar switch to which the relay switch is connected match. At this time and when their X and Y coordinates do not match, the address (1) of the input / output port connected to the X-direction crossbar switch to which the relay switch is connected is output. The values indicating these output destinations are held in the register B113 and sent to the selector 105.

【0127】このセレクタ105の他の入力としては、
上記メッセージコントローラに入力されたメッセージの
受信先プロセッサ番号の障害が障害検出回路102で検
出されたときに使用される入出力ポートとして、その中
継スイッチに接続されたプロセッサに接続された入出力
ポートのアドレス(0)が供給されている。
The other input of this selector 105 is
The I / O port connected to the processor connected to the relay switch is used as the I / O port used when the failure detection circuit 102 detects the failure of the destination processor number of the message input to the message controller. Address (0) is supplied.

【0128】障害検出回路102で上記障害が検出され
なかったときには、セレクタ105によりレジスタB1
13内の出力先ポートのアドレスが選択され、上記障害
が検出されたときには、上記定数’0’が選択される。
選択された出力先のポートアドレスは、信号線105A
を介してその中継スイッチ内の上記3つの入出力ポート
に対応して設けられた3つのスイッチコントローラに送
られ、それらのスイッチコントローラは、セレクタ10
5により選択された出力先ポートアドレスを有する入出
力ポートのスイッチがそのメッセージを選択するように
制御する。
When the fault detection circuit 102 does not detect the fault, the selector 105 causes the register B1.
The address of the output destination port in 13 is selected, and when the fault is detected, the constant '0' is selected.
The selected output destination port address is the signal line 105A.
To the three switch controllers provided corresponding to the above three input / output ports in the relay switch.
The switch of the input / output port having the output destination port address selected by 5 controls the message to be selected.

【0129】このように、本実施例では、メッセージコ
ントローラの論理規模は、以上述べたように実施例1に
比べ削減して、それでいて、障害メッセージの障害処理
を実行できる。
As described above, in this embodiment, the logical scale of the message controller is reduced as compared with the first embodiment, and the failure processing of the failure message can be executed.

【0130】このネットワークを用いたメッセージの転
送を、プロセッサPE(12)からプロセッサPE(3
4)に送る場合を例に取り説明する。このメッセージは
受信先がPE(34)であるため、メッセージの受信先
プロセッサ番号X座標A100に3、Y座標A101に
も4が設定されている。
Message transfer using this network is performed from the processor PE (12) to the processor PE (3
4) will be described as an example. Since the recipient of this message is the PE (34), the recipient processor number of the message is set to 3 for the X coordinate A100 and 4 for the Y coordinate A101.

【0131】PE(12)から送信されたメッセージは
中継スイッチEX(12)、X方向ネットワーク(X
2)、中継スイッチEX(32)、Y方向ネットワーク
(Y3)、中継スイッチEX(34)を順次経由してP
E(34)に転送される。
The message sent from PE (12) is relay switch EX (12), X-direction network (X
2), the relay switch EX (32), the Y-direction network (Y3), and the relay switch EX (34) in this order to P.
E (34).

【0132】中継スイッチEX(12)のプロセッサP
E(12)が接続されているポートのメッセージコント
ローラでは、送信先決定回路117で接続されているプ
ロセッサPE(12)のX座標1(この値は送信先決定
回路117内に保持されている)とメッセージのX座標
3、Y座標2(この値も送信先決定回路117内に保持
されている)とメッセージのY座標4が比較される。こ
の場合両方が一致しないので、送信先決定回路117の
出力値1となり、これがレジスタB113に設定され
る。第1ワードのフィールドAに障害がないときには、
セレクタ105でその値が選択されて信号線105に送
出され、スイッチコントローラでX方向ネットワーク
(X2)に送出されるよう制御される。第1ワードのフ
ィールドAで障害が検出されたときには、AND回路1
14の出力が1となり、セレクタ105で値’0’が選
択され、スイッチコントローラでプロセッサPE(1
2)に送出されるよう制御される。これにより、障害が
発生したメッセージをプロセッサに転送することができ
る。
Processor P of relay switch EX (12)
In the message controller of the port to which E (12) is connected, the X coordinate 1 of the processor PE (12) connected in the destination determination circuit 117 (this value is held in the destination determination circuit 117). Then, the X coordinate 3 and the Y coordinate 2 of the message (this value is also held in the transmission destination determining circuit 117) and the Y coordinate 4 of the message are compared. In this case, since both do not match, the output value of the transmission destination determination circuit 117 is 1, and this is set in the register B113. When there is no obstacle in the field A of the first word,
The value is selected by the selector 105, sent to the signal line 105, and controlled by the switch controller to be sent to the X-direction network (X2). When a failure is detected in the field A of the first word, the AND circuit 1
The output of 14 becomes 1, the value “0” is selected by the selector 105, and the processor PE (1
It is controlled to be sent to 2). This allows the failed message to be forwarded to the processor.

【0133】X方向ネットワーク(X2)内の中継スイ
ッチEX(12)が接続されているポートのメッセージ
コントローラでは、座標切り出し回路116でメッセー
ジのX座標の値3が切り出されレジスタB113に設定
される。第1ワードのフィールドAに障害がないときに
は、セレクタ105でその値3が選択されて信号線10
5に送出され、スイッチコントローラで中継スイッチE
X(32)に送出されるよう制御される。第1ワードの
フィールドAで障害が検出されたときには、AND回路
114の出力が1となり、セレクタ105で値’1’が
選択され、スイッチコントローラで中継スイッチEX
(12)に送出されるよう制御される。これにより、障
害が発生したメッセージを中継スイッチに、さらに中継
スイッチ経由してプロセッサに転送することができる。
In the message controller of the port to which the relay switch EX (12) in the X-direction network (X2) is connected, the coordinate cut-out circuit 116 cuts out the value 3 of the X-coordinate of the message and sets it in the register B113. When there is no fault in the field A of the first word, the value 3 is selected by the selector 105 and the signal line 10
5 is sent to the relay controller E by the switch controller.
It is controlled to be sent to X (32). When a fault is detected in the field A of the first word, the output of the AND circuit 114 becomes 1, the value “1” is selected by the selector 105, and the relay switch EX is selected by the switch controller.
It is controlled to be sent to (12). As a result, the faulty message can be transferred to the relay switch and further to the processor via the relay switch.

【0134】障害メッセージを受信した特定のプロセッ
サでの処理は実施例2の場合と同じである。
The processing in the specific processor that has received the failure message is the same as that in the second embodiment.

【0135】(変形例) (1)実施例1でメッセージ内で障害発生時の転送先プ
ロセッサ番号B20(図3)を指定可能にしたが、これ
を省略することも可能である。
(Modification) (1) In the first embodiment, the transfer destination processor number B20 (FIG. 3) at the time of occurrence of a failure can be designated in the message, but this can be omitted.

【0136】(2)実施例1でレジスタA(103)に
サービスプロセッサで指定した、障害発生時のメッセー
ジ転送先プロセッサ番号を指定可能にしたが、これを省
略することも可能である。
(2) Although the message transfer destination processor number specified by the service processor in the register A (103) in the first embodiment can be specified, it can be omitted.

【0137】(3)実施例1、2、3では、メッセージ
にて指定した送信元プロセッサに再送要求メッセージを
送出可能にしたが、それを省略することも可能である。
(3) In the first, second, and third embodiments, the resend request message can be sent to the sender processor designated by the message, but it is also possible to omit it.

【0138】(4)実施例1、2、3でメッセージの障
害を検出するのに、パリティビットを使用したが、1ビ
ットのエラーは訂正でき、2ビット以上のエラーを検出
できるECCコードを使用することも有効である。
(4) In the first, second and third embodiments, the parity bit is used to detect the message failure, but the ECC code that can correct the error of 1 bit and detect the error of 2 bits or more is used. It is also effective to do.

【0139】(5)実施例3で、障害メッセージの転送
先として各XクロスバネットワークあるいはYクロスバ
ネットワーク内の端のプロセッサに転送するようにした
が、その実施例で使用される全てのプロセッサの内の特
定の一つ、例えば、PE(11)のようにネットワーク
の端のプロセッサに転送するようにすることも有効であ
る。
(5) In the third embodiment, the fault message is transferred to the end processor in each X crossbar network or Y crossbar network, but among all the processors used in that embodiment, It is also effective to transfer to a processor at the end of the network such as PE (11).

【0140】(6)実施例2あるいは3において、受信
先プロセッサ番号に障害があるメッセージを転送された
プロセッサ、例えばPE(11)は、そのメッセージを
発行したプロセッサにて実行中のプログラムが属するジ
ョブの実行をキャンセルすることを要求するメッセージ
をそのジョブの実行を管理するプログラムを実行するプ
ログラムに転送したが、このメッセージをその特定のプ
ロセッサからホストプロセッサ(図示せず)に転送して
もよい。
(6) In the second or third embodiment, the processor to which the message having the fault in the destination processor number is transferred, for example PE (11), is the job to which the program being executed by the processor that issued the message belongs. Although the message requesting the cancellation of the execution of the job is transferred to the program executing the program managing the execution of the job, the message may be transferred from the specific processor to the host processor (not shown).

【0141】(7)実施例1、2、3で、障害発生メッ
セージを転送するプロセッサとして、それぞれの実施例
で並列に実行されている複数のジョブの内、障害が発生
した入出力ポートに接続されたプロセッサが実行してい
るプログラムが属するジョブの実行を管理するプロセッ
サに転送するように、障害発生箇所に依存して転送先プ
ロセッサを変えることも有効である。この方法によれ
ば、あるジョブに属するプログラムを実行している一群
のプロセッサのいずれかから送出されたメッセージにネ
ットワーク内で障害が発生したとき、そのジョブに属す
るプログラムを実行する複数のプロセッサを管理するプ
ログラムを実行しているプロセッサに、障害の発生を自
動的に通知することが可能になる。
(7) In the first, second, and third embodiments, as a processor for transferring a failure occurrence message, of the plurality of jobs executed in parallel in each embodiment, connected to the failed input / output port. It is also effective to change the transfer destination processor depending on the location where the failure occurs so that the executed processor transfers the execution of the job to which the executed program belongs. According to this method, when a message sent from any one of a group of processors executing a program belonging to a job fails in the network, a plurality of processors executing the program belonging to the job are managed. It becomes possible to automatically notify the occurrence of the failure to the processor executing the program to be executed.

【0142】(8)実施例3では2次元状にプロセッサ
を配置し、それらをX方向ネットワークとY方向ネット
ワークおよび中継スイッチで接続したものあるが、中継
スイッチを4入力、4出力のクロスバスイッチで構成
し、さらに奥行き方向のネットワークを付加することに
より、3次元状にプロセッサを配置した並列計算機も容
易に実現できる。
(8) In the third embodiment, the processors are arranged two-dimensionally and they are connected by the X-direction network, the Y-direction network and the relay switch. The relay switch is a 4-input 4-output crossbar switch. By constructing and further adding a network in the depth direction, a parallel computer having processors arranged three-dimensionally can be easily realized.

【0143】本発明の特徴は、ネットワークを介したメ
ッセージ転送中に受信先のプロセッサ番号に障害が発生
したときに、ネットワーク中にそのメッセージを止めず
に適当なプロセッサにその障害メッセージを転送し障害
処理を委ねることにある。したがって、ネットワークの
トポロジには依存せず、受信先のプロセッサ番号を用い
てメッセージを転送を行なう並列計算機すべてに適用可
能である。
The feature of the present invention is that when a failure occurs in the processor number of the receiving destination during the message transfer via the network, the failure message is transferred to an appropriate processor without stopping the message in the network and the failure occurs. It is to entrust the processing. Therefore, it can be applied to all parallel computers that transfer messages using the processor number of the receiver regardless of the topology of the network.

【0144】[0144]

【発明の効果】本発明によれば、何らかの障害によって
転送経路中で受信先プロセッサ番号に誤りを生じても、
メッセージをいずれかのプロセッサまたはホスト計算機
に障害に関する情報を付加し転送することができる。そ
のため受信先を失ったメッセージがネットワークの途中
で止まって他のジョブのメッセージ転送の妨げになるこ
とを防ぐことが可能となる。また障害に関する情報をメ
ッセージに付加して転送するため、メッセージを受け取
ったプロセッサまたはホスト計算機での障害処理が容易
になる。
According to the present invention, even if an error occurs in the destination processor number in the transfer path due to some failure,
The message can be transferred to any of the processors or the host computer by adding information regarding the failure. Therefore, it is possible to prevent a message whose recipient has been lost from stopping in the middle of the network and obstructing message transfer of other jobs. Further, since information related to a failure is added to the message and transferred, failure processing in the processor or the host computer receiving the message becomes easy.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施例1と実施例2における並列計算
機の構成を示す図である。
FIG. 1 is a diagram showing a configuration of a parallel computer according to a first embodiment and a second embodiment of the present invention.

【図2】本発明の実施例におけるインタフェースのタイ
ミング構成を示す図である。
FIG. 2 is a diagram showing a timing structure of an interface in the embodiment of the invention.

【図3】本発明の実施例1におけるメッセージフォーマ
ットを示す図である。
FIG. 3 is a diagram showing a message format according to the first embodiment of the present invention.

【図4】実施例図1のメッセージコントローラの内部の
構成を示す図である。
FIG. 4 is a diagram showing an internal configuration of the message controller of FIG. 1 in the embodiment.

【図5】図14のセレクタ109の制御方法を示す図で
ある。
5 is a diagram showing a control method of a selector 109 in FIG.

【図6】図4のメッセージ生成回路120の内部の構成
を示す図である。
6 is a diagram showing an internal configuration of a message generation circuit 120 of FIG.

【図7】図4のシーケンサ101の内部の構成を示す図
である。
7 is a diagram showing an internal configuration of a sequencer 101 of FIG.

【図8】本発明の実施例2におけるメッセージフォーマ
ットを示す図である。
FIG. 8 is a diagram showing a message format according to the second embodiment of the present invention.

【図9】実施例2のメッセージコントローラの内部の構
成を示す図である。
FIG. 9 illustrates an internal configuration of a message controller according to a second exemplary embodiment.

【図10】実施例3における並列計算機の構成を示す図
である。
FIG. 10 is a diagram illustrating a configuration of a parallel computer according to a third embodiment.

【図11】本発明の実施例3におけるメッセージフォー
マットを示す図である。
FIG. 11 is a diagram showing a message format according to the third embodiment of the present invention.

【図12】本発明の実施例3のX方向ネットワークとY
方向ネットワークの中のメッセージコントローラの内部
の構成を示す図である。
FIG. 12 is an X-direction network and Y according to the third embodiment of the present invention.
It is a figure which shows the internal structure of the message controller in a directional network.

【図13】本発明の実施例3の中継スイッチの中のメッ
セージコントローラの内部の構成を示す図である。
FIG. 13 is a diagram showing an internal configuration of a message controller in a relay switch according to a third embodiment of the present invention.

【符号の説明】[Explanation of symbols]

10〜12…プロセッサ、20…ホスト計算機、30…
ネットワーク、40…サービスプロセッサ、50〜53
…スイッチコントローラ、60〜63…スイッチ、10
0、200、300、400…メッセージコントロー
ラ、101…シーケンサ、102…障害検出器、10
3、106、107、1113…プロセッサ番号レジス
タ、104…モードレジスタ、108…データバッフ
ァ、110、111…障害保持レジスタ、112…障害
ワード番号レジスタ、120…メッセージ生成回路、1
21…障害検出コード生成回路、123…セレクタ制御
回路。
10-12 ... Processor, 20 ... Host computer, 30 ...
Network, 40 ... Service processor, 50-53
... switch controller, 60-63 ... switch, 10
0, 200, 300, 400 ... Message controller, 101 ... Sequencer, 102 ... Fault detector, 10
3, 106, 107, 1113 ... Processor number register, 104 ... Mode register, 108 ... Data buffer, 110, 111 ... Fault holding register, 112 ... Fault word number register, 120 ... Message generation circuit, 1
21 ... Fault detection code generation circuit, 123 ... Selector control circuit.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 稲上 泰弘 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 中越 順二 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 首藤 信一 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 樋口 達雄 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 藤井 啓明 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 保田 淑子 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 小原 清弘 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 鳥羽 達 東京都小平市上水本町5丁目20番1号 日 立超エル・エス・アイ・エンジニアリング 株式会社内 (72)発明者 山田 昌広 東京都小平市上水本町5丁目20番1号 日 立超エル・エス・アイ・エンジニアリング 株式会社内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Yasuhiro Inoue 1-280 Higashi Koikekubo, Kokubunji City, Tokyo Inside Central Research Laboratory, Hitachi, Ltd. (72) Junji Nakaetsu 1-280 Higashi Koikekubo, Kokubunji City, Tokyo Hitachi Ltd. (72) Inventor Shinichi Suto 1-280, Higashi Koigokubo, Kokubunji, Tokyo Inside Hitachi Central Research Laboratory (72) Inventor Tatsuo Higuchi 1-280, Higashi Koikeku, Kokubunji, Tokyo Hitachi Central Research Co., Ltd. (72) Inventor Hiroaki Fujii 1-280 Higashi Koikekubo, Kokubunji, Tokyo Inside Hitachi Central Research Laboratory (72) Inventor Yoshiko Yasuda 1-280 Higashi Koikeku, Kokubunji City, Tokyo Inside Hitachi Central Research Center (72) Inventor Kiyohiro Ohara East, Kokubunji, Tokyo Koigokubo 1-chome 280, Central Research Laboratory, Hitachi, Ltd. (72) Inventor Tatsu Toba 5-20-1, Kamimizuhonmachi, Kodaira-shi, Tokyo Hiratsuru ELS Engineering Co., Ltd. (72) Inventor Masahiro Yamada 5-20-1 Kamimizuhonmachi, Kodaira-shi, Tokyo Hirate RLS Engineering Co., Ltd.

Claims (10)

【特許請求の範囲】[Claims] 【請求項1】複数のプロセッサ間でネットワークを介し
てメッセージを転送する計算機システムであって、 上記複数のプロセッサのうち任意の第1のプロセッサか
ら任意の第2のプロセッサにメッセージを転送する場合
に、メッセージの転送先の指定を、該メッセージ中に含
まれる転送先プロセッサを指定するための第1の転送先
指定情報によって行うものにおいて、 上記ネットワーク中に、障害が上記第1の転送先指定情
報を含む部分で検出されたか否かを識別する障害識別手
段と、該障害識別手段で上記第1の転送先指定情報での
障害であることが識別された場合に、上記第1の転送先
指定情報を新たな転送先プロセッサを指定するための第
2の転送先指定情報に置き換える第1の置換手段を有す
ることを特徴とする計算機システムの障害処理装置。
1. A computer system for transferring a message between a plurality of processors via a network, wherein a message is transferred from an arbitrary first processor to an arbitrary second processor of the plurality of processors. A transfer destination of the message is specified by first transfer destination specifying information for specifying a transfer destination processor included in the message, wherein a failure occurs in the first transfer destination specifying information in the network. Fault identifying means for identifying whether or not it has been detected in a portion including the above, and the first forwarding destination designation when the fault identifying means identifies a fault in the first forwarding destination designation information. A computer system characterized by having first replacing means for replacing information with second transfer destination specifying information for specifying a new transfer destination processor. Harm processing apparatus.
【請求項2】請求項1記載の障害処理装置において、 上記メッセージは、全体が適当な単位に分割され、該単
位毎に付加されかつ該単位毎に障害を検出することが可
能な第1の障害検出コードと、メッセージ転送中に障害
が発生したことを示す障害発生ビットを有し、 上記ネットワーク中に上記第1の障害検出コードを用い
て障害を検出する障害検出手段と、該障害検出手段で障
害を検出した場合に上記障害発生ビットを有効にする第
1の設定手段を設けたことを特徴とする障害処理装置。
2. The fault processing apparatus according to claim 1, wherein the message is divided into appropriate units as a whole, is added to each unit, and is capable of detecting a fault for each unit. A fault detection code having a fault detection code and a fault occurrence bit indicating that a fault has occurred during message transfer, and a fault detection unit that detects a fault using the first fault detection code in the network, and the fault detection unit. A fault processing apparatus comprising: a first setting unit that validates the fault occurrence bit when a fault is detected by.
【請求項3】請求項1または2記載の障害処理装置にお
いて、 上記メッセージ中に、第1のプロセッサへメッセージを
転送するための第3の転送先指定情報を付加し、該第3
の転送先指定情報を上記第2の転送先指定情報とするこ
とを特徴とする障害処理装置。
3. The fault processing device according to claim 1 or 2, wherein third forwarding destination designation information for forwarding the message to the first processor is added to the message, and the third forwarding destination designation information is added.
The transfer destination designation information is used as the second transfer destination designation information.
【請求項4】請求項1ないし3いずれかに記載の障害処
理装置において、 上記メッセージ中に、任意のプロセッサへメッセージを
転送するための第4の転送先指定情報を付加し、該第4
の転送先指定情報を上記第2の転送先指定情報とするこ
とを特徴とする障害処理装置。
4. The fault processing apparatus according to claim 1, wherein fourth transfer destination designation information for transferring the message to an arbitrary processor is added to the message, and the fourth message is added to the message.
The transfer destination designation information is used as the second transfer destination designation information.
【請求項5】請求項1ないし4いずれかに記載の障害処
理装置において、 上記ネットワーク中に、任意のプロセッサへメッセージ
を転送するための第5の転送先指定情報を保持する保持
手段を設け、該保持手段に保持されている該第5の転送
先指定情報を上記第2の転送先指定情報とすることを特
徴とする障害処理装置。
5. The fault processing apparatus according to claim 1, wherein the network is provided with holding means for holding fifth transfer destination designation information for transferring a message to an arbitrary processor. A failure processing apparatus, wherein the fifth transfer destination designation information held in the holding means is used as the second transfer destination designation information.
【請求項6】請求項2ないし5いずれかに記載の障害処
理装置において、 メッセージ中に障害に関する情報を格納する第1のフィ
ールドを設けるとともに、ネットワーク中に上記障害検
出手段で障害を検出した場合に該第1のフィールドに障
害に関する障害情報を設定する第2の設定手段を設ける
ことを特徴とする障害処理装置。
6. The fault processing apparatus according to any one of claims 2 to 5, wherein a first field for storing information regarding a fault is provided in a message, and the fault is detected by the fault detecting means in the network. A fault processing apparatus, further comprising: second setting means for setting fault information relating to a fault in the first field.
【請求項7】請求項6記載の障害処理装置において、 障害を検出した単位を識別する情報を上記障害情報とす
ることを特徴とする障害処理装置。
7. The fault processing apparatus according to claim 6, wherein the fault information is information for identifying a unit in which a fault is detected.
【請求項8】請求項6記載の障害処理装置において、 障害を検出した箇所を識別する情報を上記障害情報とす
ることを特徴とする障害処理装置。
8. The fault processing apparatus according to claim 6, wherein the fault information is information for identifying a location where a fault is detected.
【請求項9】請求項2ないし8いずれかに記載の障害処
理装置において、 上記ネットワーク中に、上記障害検出手段で障害を検出
した場合に、上記単位のデータから新たに上記第2の障
害検出コードを生成する生成手段と、上記第1の障害検
出コードを上記第2の障害検出コードに置き換える第2
の置換手段を設けることを特徴とする障害処理装置。
9. The fault processing device according to claim 2, wherein when a fault is detected by the fault detecting means in the network, the second fault detection is newly performed from the data of the unit. Generating means for generating a code, and a second means for replacing the first failure detection code with the second failure detection code
A failure processing device, characterized in that the replacement means is provided.
【請求項10】請求項1ないし9いずれかに記載の障害
処理装置において、 上記メッセージ中に、上記第1の転送先指定情報を含む
単位の障害であることを検出した場合に有効となる第2
のフィールドを設けるとともに、 上記ネットワーク中に、上記障害識別手段で上記第1の
転送先指定情報を含む単位での障害であることを検出し
た場合に上記第2のフィールドを有効にする第3の設定
手段を設けることを特徴とする障害処理装置。
10. The fault processing device according to claim 1, which is effective when it is detected that the message is a fault of a unit including the first transfer destination designation information. Two
A third field that enables the second field when the failure identification unit detects a failure in a unit including the first transfer destination designation information in the network. A failure processing device comprising setting means.
JP5330531A 1993-02-01 1993-12-27 Fault processing device of computer system having network Withdrawn JPH06282511A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5330531A JPH06282511A (en) 1993-02-01 1993-12-27 Fault processing device of computer system having network

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5-14639 1993-02-01
JP1463993 1993-02-01
JP5330531A JPH06282511A (en) 1993-02-01 1993-12-27 Fault processing device of computer system having network

Publications (1)

Publication Number Publication Date
JPH06282511A true JPH06282511A (en) 1994-10-07

Family

ID=26350624

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5330531A Withdrawn JPH06282511A (en) 1993-02-01 1993-12-27 Fault processing device of computer system having network

Country Status (1)

Country Link
JP (1) JPH06282511A (en)

Similar Documents

Publication Publication Date Title
US7145837B2 (en) Global recovery for time of day synchronization
US7668923B2 (en) Master-slave adapter
US20050081080A1 (en) Error recovery for data processing systems transferring message packets through communications adapters
US20050091383A1 (en) Efficient zero copy transfer of messages between nodes in a data processing system
US5490250A (en) Method and apparatus for transferring indication of control error into data path of data switcher
US7747897B2 (en) Method and apparatus for lockstep processing on a fixed-latency interconnect
US7010715B2 (en) Redundant control architecture for a network device
US5968189A (en) System of reporting errors by a hardware element of a distributed computer system
US5758053A (en) Fault handling and recovery for system having plural processors
US20050080869A1 (en) Transferring message packets from a first node to a plurality of nodes in broadcast fashion via direct memory to memory transfer
US20030016629A1 (en) Identifying faulty network components during a network exploration
US20050080920A1 (en) Interpartition control facility for processing commands that effectuate direct memory to memory information transfer
JPH04242463A (en) State-change informing mechanism and method in data processing input/output system
US5923840A (en) Method of reporting errors by a hardware element of a distributed computer system
US6543014B1 (en) Data transmitting/receiving apparatus for executing data retransmission and parallel processor system
US20050080945A1 (en) Transferring message packets from data continued in disparate areas of source memory via preloading
EP0658026A2 (en) A method and system for transmitting data packets in a distributed data processing system
US20050078708A1 (en) Formatting packet headers in a communications adapter
JPH05100879A (en) Device and method for maintaining integrity of control information
KR20050002865A (en) A method for providing redundancy for channel adapter failure
US8433952B2 (en) Memory access control device, memory access control method and memory access control program
JPH06282511A (en) Fault processing device of computer system having network
US7243257B2 (en) Computer system for preventing inter-node fault propagation
US8264948B2 (en) Interconnection device
JP2001007893A (en) Information processing system and fault processing system used for it

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20010306