JPH08161277A - Parallel computer system - Google Patents

Parallel computer system

Info

Publication number
JPH08161277A
JPH08161277A JP33185794A JP33185794A JPH08161277A JP H08161277 A JPH08161277 A JP H08161277A JP 33185794 A JP33185794 A JP 33185794A JP 33185794 A JP33185794 A JP 33185794A JP H08161277 A JPH08161277 A JP H08161277A
Authority
JP
Japan
Prior art keywords
network
data
signal
reception
transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP33185794A
Other languages
Japanese (ja)
Inventor
Toru Wakabayashi
亨 若林
Junji Nakakoshi
順二 中越
Tadaaki Isobe
忠章 磯部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP33185794A priority Critical patent/JPH08161277A/en
Publication of JPH08161277A publication Critical patent/JPH08161277A/en
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)

Abstract

PURPOSE: To improve the network connecting plural processors and performing an inter-processor data transfer, in a parallel computer system. CONSTITUTION: Each of plural processors 201 and 202 is provided with transmission circuit and reception circuit. A service processor 101 outputs a transmission permission signal and a reception permission signal to the transmission circuit and the reception circuit, respectively, outputs the network validating signal corresponding to each network to the both of the circuits and enables the inter- processor data transfer by the both networks. When a fault occurs in one network, the network validating signal of a faulty network is turned off, the transmission and reception permission signals are turned on and the inter-processor data transfer by other network is enabled, after the transmission and permission signals are turned off, the data transmission and reception are suppressed and all the data on the network is destroyed.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、複数のプロセッサを接
続するネットワークによりプロセッサ間データ転送を行
う並列計算機システムに係り、特に、プロセッサ間デー
タ転送を行うネットワークに運用続行不可などの障害が
発生した際の障害回復処理により、ネットワーク機能の
続行を可能にする並列計算機システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a parallel computer system for transferring data between processors through a network connecting a plurality of processors, and particularly to a network for transferring data between processors in which a failure such as unavailability of operation occurs. The present invention relates to a parallel computer system capable of continuing a network function by a failure recovery process at the time of an emergency.

【0002】[0002]

【従来の技術】従来の、複数のプロセッサを接続したネ
ットワークによりプロセッサ間データ転送を行う並列計
算機システムにおいて、プロセッサ間データ転送機能を
実現するネットワークの耐故障性及び信頼性を向上する
ための方法として、ネットワークの一部分、例えば各プ
ロセッサとネットワーク間のインターフェース部分など
を冗長化して、現用部分が運用続行不可能となった場
合、現用部分を予備部分へ切り換える方法がある。ま
た、別の方法として、プロセッサ間データ転送を行うネ
ットワークにおいて、部分的に運用続行不可能となった
場合、当該部分を論理的に切り離して残った部分にプロ
セッサ間データ転送機能を担当させる方法がある。上記
の様な、プロセッサ間のデータ転送を行うネットワーク
の耐故障性や信頼性を向上するための従来技術の例とし
ては、当麻 喜弘著『フォールトトレラントシステム
論』(社団法人 電子情報通信学会刊)の第267頁か
ら第270頁に記載の方法が挙げられる。
2. Description of the Related Art In a conventional parallel computer system for transferring data between processors by a network connecting a plurality of processors, as a method for improving fault tolerance and reliability of a network for realizing a data transfer function between processors, There is a method of making a part of the network redundant, for example, an interface part between each processor and the network, and switching the working part to a spare part when the working part cannot continue operation. As another method, in a network that performs inter-processor data transfer, when operation cannot be continued partially, the part is logically separated and the remaining part is in charge of the inter-processor data transfer function. is there. As an example of the conventional technique for improving the fault tolerance and reliability of the network for performing data transfer between processors as described above, Yoshihiro Toma's "Fault Tolerant System Theory" (published by the Institute of Electronics, Information and Communication Engineers) The methods described on pages 267 to 270 can be mentioned.

【0003】[0003]

【発明が解決しようとする課題】従来技術に記載された
第一の方法である、プロセッサ間のデータ転送を行うネ
ットワークの一部分を冗長化し、現用部分が運用続行不
可能となった場合、現用部分を予備部分に切り換える方
法では、冗長化した部分に発生した障害や故障について
は対処可能であるが、冗長化してない他の部分の障害や
故障に対しては対処不可能となり、ネットワークの耐故
障性や信頼性の範囲も制限されてしまう。また、従来技
術に記載された第二の方法である、プロセッサ間データ
転送を行うネットワークにおいて、運用続行不可能とな
った部分を論理的に切り離し、残った部分でプロセッサ
間データ転送機能を行う方法では、障害発生後のネット
ワークが実現するプロセッサ間データ転送機能は、ネッ
トワーク障害発生前に比較して性能的に低下してしま
う。本発明の目的は、並列計算機システム上でプロセッ
サ間データ転送機能を担当するネットワークにおいて、
プロセッサ間データ転送を行うネットワークに運用続行
不可などの障害が発生した際の障害回復処理により、ネ
ットワーク機能の続行を可能とし、ネットワークの耐故
障性及びシステムの信頼性の向上を図ることにある。本
発明の別の目的は、複数のプロセッサをネットワークで
接続しプロセッサ間データ転送を行う並列計算機システ
ムにおいて、ネットワークのプロセッサ間データ転送機
能が続行不可能となった場合、ネットワーク上で受信先
プロセッサに未到着のまま残っているデータ全てを廃棄
し、ネットワーク上の残存データを除去してネットワー
クのプロセッサ間データ転送機能の続行を可能とするこ
とにある。
The first method described in the prior art is to make a part of a network for data transfer between processors redundant so that the current part cannot continue operation. With the method of switching to the spare part, it is possible to deal with failures and failures that occur in the redundant part, but it is impossible to deal with failures and failures in other parts that are not redundant, and the network fault tolerance The reliability range is also limited. Further, in the second method described in the prior art, in a network for performing inter-processor data transfer, a method of logically separating a part where operation cannot be continued and performing a inter-processor data transfer function in the remaining part Then, the inter-processor data transfer function realized by the network after the occurrence of the failure is deteriorated in performance as compared with that before the occurrence of the network failure. An object of the present invention is to provide a data transfer function between processors on a parallel computer system,
A failure recovery process when a failure occurs in the network that transfers data between processors, such as inability to continue operation, allows the network function to continue, thereby improving the fault tolerance of the network and the reliability of the system. Another object of the present invention is, in a parallel computer system in which a plurality of processors are connected to each other in a network to transfer data between processors, and when the inter-processor data transfer function of the network cannot be continued, a receiver processor is provided on the network. The purpose is to discard all the data that has not arrived yet and remove the remaining data on the network so that the inter-processor data transfer function of the network can be continued.

【0004】[0004]

【課題を解決するための手段】上記課題を解決するため
に、本発明は、複数のプロセッサと、プロセッサ間デー
タ転送を行うネットワークと、サービスプロセッサを備
え、前記ネットワークを二重化した並列計算機システム
において、前記各プロセッサは、ネットワークを選択し
てデータを送信する送信回路およびネットワークを選択
してデータを受信する受信回路を備え、前記サービスプ
ロセッサは、前記送信回路に送信許可信号を、前記受信
回路に受信許可信号を、前記送信回路および受信回路に
各ネットワーク対応のネットワーク有効化信号を出力し
て両ネットワークによるプロセッサ間データ転送を可能
にし、一方のネットワークから障害発生通知信号を受け
たとき、前記送信許可信号と受信許可信号をオフしてデ
ータの送信および受信を抑止し、ネットワーク上の全て
のデータを廃棄した後、前記一方のネットワーク対応の
ネットワーク有効化信号をオフにすると共に前記送信許
可信号と受信許可信号をオンにし、他方のネットワーク
によるプロセッサ間データ転送を可能にするようにして
いる。また、複数のプロセッサと、プロセッサ間データ
転送を行うネットワークと、サービスプロセッサを備
え、前記ネットワークは現用ネットワークと予備ネット
ワークからなる並列計算機システムにおいて、前記各プ
ロセッサは、ネットワークを選択してデータを送信する
送信回路およびネットワークを選択してデータを受信す
る受信回路を備え、前記サービスプロセッサは、前記送
信回路に送信許可信号を、前記受信回路に受信許可信号
を、前記送信回路および受信回路に各ネットワーク対応
のネットワーク有効化信号を出力し、現用ネットワーク
使用時には現用ネットワーク対応のネットワーク有効化
信号をオンにし、予備ネットワーク対応のネットワーク
有効化信号をオフにして現用ネットワークによるプロセ
ッサ間データ転送を可能にし、現用ネットワークから障
害発生通知信号を受けたとき、前記送信許可信号と受信
許可信号をオフしてデータの送信および受信を抑止し、
現用ネットワーク上の全てのデータを廃棄した後、前記
現用ネットワーク対応のネットワーク有効化信号をオフ
にすると共に前記送信許可信号と受信許可信号と前記予
備ネットワーク対応のネットワーク有効化信号をオンに
し、予備ネットワークによるプロセッサ間データ転送を
可能にするようにしている。
In order to solve the above problems, the present invention provides a parallel computer system including a plurality of processors, a network for performing data transfer between processors, and a service processor, wherein the network is duplicated. Each of the processors includes a transmission circuit that selects a network to transmit data and a reception circuit that selects a network to receive data, and the service processor receives a transmission permission signal from the transmission circuit to the reception circuit. A permission signal is output to the transmission circuit and the reception circuit as a network validation signal corresponding to each network to enable data transfer between the processors by both networks, and when the fault occurrence notification signal is received from one network, the transmission permission is given. Turn off the signal and the reception enable signal to transmit data and Communication is suppressed and all data on the network is discarded, then the network enable signal corresponding to the one network is turned off, the transmission permission signal and the reception permission signal are turned on, and the interprocessor data by the other network is turned on. It is designed to allow transfers. Further, in a parallel computer system including a plurality of processors, a network for performing data transfer between processors, and a service processor, and the network is a parallel computer system including an active network and a backup network, each processor selects a network and transmits data. A service circuit and a receiving circuit for receiving data by selecting a network are provided, and the service processor transmits a transmission permission signal to the transmission circuit, a reception permission signal to the reception circuit, and supports the transmission circuit and the reception circuit for each network. Outputs the network enable signal of, and turns on the network enable signal for the active network when using the active network, and turns off the network enable signal for the spare network to enable data transfer between processors by the active network. , When receiving the fault occurrence notification signal from the current network, to suppress the transmission and reception of data by turning off the receive enable signal and the transmission permission signal,
After discarding all the data on the working network, the network enabling signal for the working network is turned off, and the transmission permission signal, the reception permission signal, and the network enabling signal for the protection network are turned on, and the protection network is turned on. It enables data transfer between processors.

【0005】[0005]

【作用】並列計算機システムにおいて、プロセッサ間デ
ータ転送を行うネットワークを二重化して、両方のネッ
トワークを運用している際に、一方のネットワークのプ
ロセッサ間データ転送機能が続行不可能となった場合、
各プロセッサのネットワークに対する送信回路、受信回
路の動作を停止し、かつネットワーク上で未着のまま残
ったデータ、例えばパケットデータを各プロセッサのネ
ットワークに対するデータ受信部で廃棄した後、プロセ
ッサ間データ転送機能の運用を他方の正常なネットワー
クで再開する。また、並列計算機システムにおいて、プ
ロセッサ間データ転送を行う現用ネットワークと予備ネ
ットワーク設け、現用のネットワークを運用している際
に、現用ネットワークのプロセッサ間データ転送機能が
続行不可能となった場合、各プロセッサのネットワーク
に対する送信回路、受信回路の動作を停止し、かつネッ
トワーク上で未着のまま残ったデータ、例えばパケット
データを各プロセッサのネットワークに対するデータ受
信部で廃棄した後、プロセッサ間データ転送機能の運用
を予備ネットワークで再開する。これにより、ネットワ
ークで発生した障害の影響を除去した上でネットワーク
機能を続行することが可能となる。
In the parallel computer system, when the network for data transfer between processors is duplicated and both networks are operating, if the inter-processor data transfer function of one network cannot continue,
Interprocessor data transfer function after stopping the operation of the transmission circuit and reception circuit for each processor's network and discarding the unreachable data on the network, such as packet data, at the data reception unit for each processor's network Operation is restarted on the other normal network. Also, in a parallel computer system, if a working network and a spare network for performing data transfer between processors are provided and the data transfer function between processors of the working network cannot be continued while operating the working network, each processor Operation of the inter-processor data transfer function after stopping the operation of the transmission circuit and the reception circuit for the network and discarding the data that has not arrived on the network, such as packet data, at the data reception unit for the network of each processor. Restart with the backup network. As a result, it becomes possible to continue the network function after removing the influence of the failure that has occurred in the network.

【0006】[0006]

【実施例】以下、本発明の実施例を図を用いて説明す
る。先ず、本発明に係る並列計算機システムの構成につ
いて述べる。図1は、本発明に係る並列計算機システム
であり、複数のプロセッサを接続してプロセッサ間デー
タ転送を行うネットワークを二重化した並列計算機シス
テムの構成を示したものである。図1において、20
1,202はそれぞれ並列計算機システムを構成するプ
ロセッサn個のうちの2個PU(1)、PU(n)を表
わしており、CPU及びメモリなどを備える。501,
502はそれぞれプロセッサ間データ転送を行うネット
ワークNW(1),NW(2)を表わす。ネットワーク
501、502はそれぞれ転送データ受信先切り換えス
イッチやネットワーク障害検出回路などを備える。10
1はサービスプロセッサSVPであり、並列計算機シス
テムの立ち上げ、構成情報の設定管理、障害の解析及び
回復の処理、システム稼働状況の管理、保守の支援など
を行うためのプロセッサであり、システムに一台用意す
る。71はサービスプロセッサによるプロセッサ制御信
号であり、72も同様にサービスプロセッサによるネッ
トワーク制御信号である。91,92,93,94はプ
ロセッサ間データ転送信号であり、当該並列計算機シス
テムのネットワーク構成の一部である。91,93が各
プロセッサ201,…,202とネットワーク501と
の間のデータ転送用信号であり、92,94は各プロセ
ッサ201,…,202とネットワーク502との間の
データ転送用信号である。図1の様に、本発明ではプロ
セッサ間データ転送機能を実現するネットワークを二重
化する方式をとる。
Embodiments of the present invention will be described below with reference to the drawings. First, the configuration of the parallel computer system according to the present invention will be described. FIG. 1 shows a parallel computer system according to the present invention, which shows a configuration of a parallel computer system in which a plurality of processors are connected and a network for performing data transfer between the processors is duplicated. In FIG. 1, 20
Reference numerals 1 and 202 denote two PUs (1) and PU (n) out of n processors that constitute a parallel computer system, and each include a CPU and a memory. 501,
Reference numeral 502 represents networks NW (1) and NW (2) that perform data transfer between processors. Each of the networks 501 and 502 includes a transfer data receiving destination changeover switch, a network failure detection circuit, and the like. 10
1 is a service processor SVP, which is a processor for starting up a parallel computer system, setting and managing configuration information, analyzing and recovering from failures, managing system operation status, and supporting maintenance. Prepare a stand. Reference numeral 71 is a processor control signal by the service processor, and 72 is also a network control signal by the service processor. Reference numerals 91, 92, 93 and 94 denote inter-processor data transfer signals, which are a part of the network configuration of the parallel computer system. , 202 are data transfer signals between the processors 201, ..., 202 and the network 501, and 92, 94 are data transfer signals between the processors 201, ..., 202 and the network 502. As shown in FIG. 1, the present invention adopts a system in which a network for realizing a data transfer function between processors is duplicated.

【0007】図2において、201,202はそれぞれ
並列計算機システムを構成するプロセッサn個のうちの
2個PU(1),PU(n)を表わしており、CPU3
01及びメモリ302などを備える。501、502は
プロセッサ間データ転送を行うネットワークNW
(1),NW(2)を表わしており、501,502を
それぞれ第一ネットワークNW(1)、第二ネットワー
クNW(2)として運用する。第一ネットワーク50
1,第二ネットワーク502はそれぞれ転送データ受信
先切り換えスイッチ603,604,605,606や
ネットワーク障害検出回路601,602などを備え
る。101はサービスプロセッサSVPであり、並列計
算機システムの立ち上げ、構成情報の設定管理、障害の
解析及び回復の処理、システム稼働状況の管理、保守の
支援などを行うためのプロセッサであり、システムに一
台用意する。
In FIG. 2, reference numerals 201 and 202 denote two PU (1) and PU (n) of n processors constituting a parallel computer system, respectively.
01 and a memory 302. 501 and 502 are network NWs that perform data transfer between processors
(1) and NW (2) are represented, and 501 and 502 are operated as the first network NW (1) and the second network NW (2), respectively. First network 50
The first and second networks 502 respectively include transfer data receiving destination changeover switches 603, 604, 605, 606 and network failure detection circuits 601 and 602. A service processor SVP 101 is a processor for starting the parallel computer system, setting and managing configuration information, analyzing and recovering from failures, managing system operation status, and supporting maintenance. Prepare a stand.

【0008】各プロセッサ内で、CPU301は演算処
理等のプログラムを実行し、メモリ302はCPU30
1が動作するために必要なプログラムやデータを格納す
る。303,304はネットワークを介してプロセッサ
間のデータ転送を行うためのデータバッファであり、3
03は送信用バッファ、304は受信用バッファを表わ
している。305,401,403,404はネットワ
ークを選択してデータを送信する送信回路を構成し、3
06,402,405,406はネットワークを選択し
てデータを受信する受信回路を構成する。305,30
6は各プロセッサと第一ネットワーク501及び第二ネ
ットワーク502との間でデータ転送を行う際に、第一
ネットワーク501または第二ネットワーク502のど
ちらを使用するかについて決定し当該ネットワークに対
するデータ送受信を実行するデータ送受信用調停回路で
ある。305がデータ送信用調停回路であり、各プロセ
ッサから第一ネットワーク501または第二ネットワー
ク502へのパケットデータ送信時に、当該パケットデ
ータを第一ネットワーク501または第二ネットワーク
502のうちどちらを送信に使用するかを決定し当該ネ
ットワークへのパケットデータ送信を実行する回路であ
る。この決定は、例えば、両ネットワークが正常なら
ば、両ネットワークを交互に選択するようにする。ま
た、306がデータ受信用調停回路であり、第一ネット
ワーク501または第二ネットワーク502から転送さ
れたパケットデータを各プロセッサで受信する時に、第
一ネットワーク501または第二ネットワーク502か
ら受信したパケットデータを競合なく受信側プロセッサ
内で処理するための回路である。両ネットワークからの
受信が重なる場合には、例えば、両ネットワークを交互
に選択して、一方のネットワークのパケットデータをゲ
ート402に送り、他方のネットワークのパケットデー
タをデータ受信用調停回路306内のバッファに一時格
納しておく。このパケットデータ送受信用調停回路30
5,306には、サービスプロセッサ101からの第一
ネットワーク有効化信号701及び第二ネットワーク有
効化信号702も入力されており、ネットワーク50
1,502それぞれの使用可否を常に監視して、その結
果をパケットデータ送受信時の調停作業の参考とする。
In each processor, the CPU 301 executes programs such as arithmetic processing, and the memory 302 is the CPU 30.
1 stores programs and data required for the operation of 1. Reference numerals 303 and 304 denote data buffers for transferring data between processors via a network.
Reference numeral 03 represents a transmission buffer, and 304 represents a reception buffer. Reference numerals 305, 401, 403, and 404 constitute a transmission circuit that selects a network and transmits data.
06, 402, 405, and 406 constitute a receiving circuit that selects a network and receives data. 305, 30
6 determines whether to use the first network 501 or the second network 502 when transferring data between each processor and the first network 501 and the second network 502, and executes data transmission / reception to / from the network. Is an arbitration circuit for data transmission / reception. An arbitration circuit 305 for data transmission uses which of the first network 501 and the second network 502 to transmit the packet data when each processor transmits the packet data to the first network 501 or the second network 502. It is a circuit that determines whether or not and executes packet data transmission to the network. For example, if both networks are normal, this decision is made to select both networks alternately. Further, 306 is an arbitration circuit for data reception, and when the packet data transferred from the first network 501 or the second network 502 is received by each processor, the packet data received from the first network 501 or the second network 502 is It is a circuit for processing in the receiving processor without conflict. When reception from both networks overlaps, for example, both networks are alternately selected, packet data of one network is sent to the gate 402, and packet data of the other network is buffered in the data reception arbitration circuit 306. It is temporarily stored in. This packet data transmission / reception arbitration circuit 30
The first network activation signal 701 and the second network activation signal 702 from the service processor 101 are also input to 5, 306.
The availability of each of 1 and 502 is constantly monitored, and the result is used as a reference for arbitration work at the time of transmitting and receiving packet data.

【0009】システム立ち上げ時に運用する第一ネット
ワーク501と第二ネットワーク502の両ネットワー
クを介したプロセッサ間データ転送において、プロセッ
サ上の送信用バッファ303から送信されたパケットデ
ータは、それに添付されている受信先プロセッサ番号に
対応して、第一ネットワーク501または第二ネットワ
ーク内の転送データ受信先切り換えスイッチ603,6
04,605,606を介して、受信先プロセッサ宛に
転送される。尚、各パケットデータが、転送データ受信
先切り換えスイッチ603,604,605,606を
経由する際には、各パケットデータに添付されている受
信先プロセッサ番号によってスイッチを切り換え、受信
先プロセッサにパケットデータを転送する。
In the inter-processor data transfer via both the first network 501 and the second network 502 which are operated when the system is started up, the packet data transmitted from the transmission buffer 303 on the processor is attached to it. Corresponding to the destination processor number, transfer data destination changeover switches 603, 6 in the first network 501 or the second network
It is transferred to the destination processor via 04, 605, and 606. When each packet data passes through the transfer data receiving destination changeover switches 603, 604, 605, 606, the switch is switched according to the receiving destination processor number attached to each packet data, and the packet data is sent to the receiving destination processor. To transfer.

【0010】続いて、本実施例に係る並列計算機システ
ムの動作を述べる。システム稼働時、システムの運用は
サービスプロセッサ101で管理し、n個のプロセッサ
201,…,202間相互のデータ転送は、サービスプ
ロセッサ101で有効化されている第一ネットワーク5
01と第二ネットワーク502の両ネットワークにより
行う。サービスプロセッサ101からは、パケットデー
タの送信を許可する送信許可信号703、パケットデー
タの受信を許可する受信許可信号704、第一ネットワ
ーク有効化信号701、第二ネットワーク有効化信号7
02が出力され、いずれの出力も、有効状態であれば論
理値1となっている。データバッファ303から出力さ
れるパケットデータはアンド回路303で送信許可信号
703と論理積がとられ、データ送信用調停回路305
への出力804となり、データ送信用調停回路305は
いずれのネットワークに送信するか調停し、データ送信
信号805または806を出力する。第一ネットワーク
に対するデータ送信は、サービスプロセッサ101から
の第一ネットワーク有効化信号701と各プロセッサ2
01,…,202のデータ送信信号805との論理積を
AND回路403でとることで実現し、第二ネットワー
クに対するデータ送信は、サービスプロセッサ101か
らの第二ネットワーク有効化信号702と各プロセッサ
201,…,202のデータ送信信号806との論理積
をAND回路404でとることで実現する。システム立
ち上げ時、サービスプロセッサ101は二重化したネッ
トワーク501,502の両ネットワークが有効である
と認識し、各プロセッサ201,…,202に配られた
第一ネットワーク有効化信号701及び第二ネットワー
ク有効化信号702を論理値1にすることで対応し、こ
の信号と各プロセッサ201,…,202内のデータ送
信信号805及び806との論理積をデータ送信用AN
D回路403及び404でとることで、第一ネットワー
ク501及び第二ネットワーク502へのデータ送信を
実現する。
Next, the operation of the parallel computer system according to this embodiment will be described. When the system is operating, system operation is managed by the service processor 101, and mutual data transfer between the n processors 201, ..., 202 is enabled by the service processor 101. The first network 5
01 and the second network 502. From the service processor 101, a transmission permission signal 703 for permitting transmission of packet data, a reception permission signal 704 for permitting reception of packet data, a first network validation signal 701, and a second network validation signal 7
02 is output, and each output has a logical value of 1 in the valid state. The packet data output from the data buffer 303 is logically ANDed with the transmission permission signal 703 by the AND circuit 303, and the data transmission arbitration circuit 305.
Output 804, and the data transmission arbitration circuit 305 arbitrates which network to transmit to, and outputs the data transmission signal 805 or 806. Data transmission to the first network is performed by the first network enable signal 701 from the service processor 101 and each processor 2
.., 202 are ANDed with the data transmission signal 805 by the AND circuit 403, and data transmission to the second network is performed by the second network activation signal 702 from the service processor 101 and each processor 201. , 202 by AND with the data transmission signal 806 by the AND circuit 404. When the system is started up, the service processor 101 recognizes that both networks of the duplicated networks 501 and 502 are valid, and the first network validation signal 701 and the second network validation that are distributed to the respective processors 201, ..., 202. This is dealt with by setting the signal 702 to a logical value of 1, and the logical product of this signal and the data transmission signals 805 and 806 in each of the processors 201, ...
Data transmission to the first network 501 and the second network 502 is realized by the D circuits 403 and 404.

【0011】また、同様に第一ネットワーク有効化信号
701及び第二ネットワーク有効化信号702と各プロ
セッサ201,…,202へのデータ受信信号903及
び904との論理積をAND回路405及び406でと
り、更にその結果であるデータ受信信号808及び80
9の内容が競合を引き起こさないようにデータ受信用調
停回路306で調停することにより、第一ネットワーク
501及び第二ネットワーク502から各プロセッサへ
のデータ受信を実現する。また、ネットワーク501,
502からのパケットデータ受信時、第一ネットワーク
501及び第二ネットワーク502から届くパケットデ
ータはサービスプロセッサ101からの第一ネットワー
ク有効化信号701及び第二ネットワーク有効化信号7
02の論理値によって、AND回路405,406で受
信先プロセッサ側への通過または不通過が選択され、そ
の結果であるデータ受信信号808,809の両信号を
入力信号に持つデータ受信用調停回路306により、両
ネットワークから届くパケットデータの競合を回避し
て、第一ネットワーク501及び第二ネットワーク50
2からのパケットデータ受信を行う。データ受信用調停
回路306から出力されたデータ受信信号は、アンド回
路402で受信許可信号704と論理積がとられ、デー
タバッファ304への出力803となる。
Similarly, AND circuits 405 and 406 take the logical product of the first network enabling signal 701 and the second network enabling signal 702 and the data reception signals 903 and 904 to the processors 201 ,. , And the resulting data received signals 808 and 80
Arbitration is performed by the data reception arbitration circuit 306 so that the content of 9 does not cause a conflict, whereby data reception from the first network 501 and the second network 502 to each processor is realized. In addition, the network 501,
When receiving packet data from 502, the packet data arriving from the first network 501 and the second network 502 is the first network enable signal 701 and the second network enable signal 7 from the service processor 101.
Depending on the logical value of 02, the AND circuits 405 and 406 select passage or non-passage to the destination processor side, and as a result, the data reception arbitration circuit 306 having both signals of the data reception signals 808 and 809 as input signals. As a result, the contention of packet data arriving from both networks is avoided, and the first network 501 and the second network 50 are
2 receives packet data. The data reception signal output from the data reception arbitration circuit 306 is logically ANDed with the reception permission signal 704 by the AND circuit 402 and becomes an output 803 to the data buffer 304.

【0012】ここで、システム運用中に一方のネットワ
ークのプロセッサ間データ転送が続行不可能となった場
合、当該ネットワーク上では障害発生を内部の障害検出
回路(第一ネットワークなら601、第二ネットワーク
なら602)で検知し、サービスプロセッサ101に対
して、通常は論理値0になっている第一ネットワーク障
害発生通知信号705または第二ネットワーク障害発生
通知信号706のうち異常のあるネットワークについて
の障害発生通知信号を論理値1にすることで当該ネット
ワークでの障害発生を通知する。サービスプロセッサ1
01は、並行使用していた第一ネットワーク501及び
第二ネットワーク502のうち一方のネットワークに障
害が発生したという通知を受けると、各プロセッサ20
1,…,202に対して通常は論理値1になっている送
信許可信号703を論理値0に切り換えて、この信号7
03とデータ送信信号802の値との論理積をプロセッ
サ上のAND回路401でとることで各プロセッサ20
1,…,202からネットワークへの新規パケットデー
タの送信を抑止する。
Here, when the data transfer between the processors of one of the networks cannot be continued during the operation of the system, the occurrence of a failure on the network is detected by an internal failure detection circuit (601 for the first network, and for the second network). 602), and notifies the service processor 101 of the fault occurrence of the abnormal network in the first network fault occurrence notification signal 705 or the second network fault occurrence notification signal 706, which normally has a logical value of 0. By setting the signal to the logical value 1, the failure occurrence in the network is notified. Service processor 1
01 receives the notification that a failure has occurred in one of the first network 501 and the second network 502 used in parallel, and each processor 20
The transmission permission signal 703, which normally has a logical value of 1, is switched to a logical value of 0 for 1, ...
03 and the value of the data transmission signal 802 are ANDed by the AND circuit 401 on each processor,
Transmission of new packet data from 1, ..., 202 to the network is suppressed.

【0013】その後、サービスプロセッサ101は、障
害発生時にネットワーク上で受信先プロセッサに未到着
のまま残っている全パケットデータを廃棄するため、通
常は論理値1になっている受信許可信号704を論理値
0に切り換えて、それを各プロセッサ201,…,20
2内のAND回路402でデータ受信信号807との論
理積をとることにより、障害発生時にネットワーク内で
受信先プロセッサに未到着のまま残っていたパケットデ
ータ全てを各プロセッサ201,…,202での受信時
に全て廃棄する。更に、障害発生時にネットワーク上で
未到着のまま残っていたパケットデータ全てが受信先プ
ロセッサのデータ受信部に到着して廃棄されるのに十分
なように設定した一定時間が経過した後、サービスプロ
セッサ101は異常のあるネットワークを無効化し、す
なわち第一ネットワーク有効化信号701または第二ネ
ットワーク有効化信号702を論理値0とし、プロセッ
サ間データ転送機能の運用を他方の正常なネットワーク
のみで行うことを内部の構成情報記憶部に記憶する。こ
の後、サービスプロセッサ101は、ネットワーク上で
のプロセッサ間データ転送を抑止するために論理値0に
設定していた送信許可信号703及び受信許可信号70
4を論理値1に切り換えて、ネットワーク有効化信号が
論理値1となっている他方の正常なネットワークに対す
るパケットデータ送受信を可能にし、上記のネットワー
ク障害回復処理後のプロセッサ間データ転送機能を続行
する。
After that, the service processor 101 discards all the packet data that has not yet arrived at the destination processor on the network at the time of occurrence of a failure. Therefore, the reception enable signal 704 normally having the logical value 1 is logically output. Switch to the value 0 and set it to each processor 201, ..., 20
By ANDing with the data reception signal 807 by the AND circuit 402 in 2, all the packet data left unarriving at the destination processor in the network at the time of the occurrence of the failure in each processor 201 ,. Discard all when receiving. Furthermore, after a certain period of time, which is set to be sufficient for all the packet data left unarriving on the network at the time of failure to arrive at the data receiving unit of the destination processor and to be discarded, the service processor Reference numeral 101 indicates that the abnormal network is invalidated, that is, the first network validation signal 701 or the second network validation signal 702 is set to a logical value of 0, and the interprocessor data transfer function is operated only on the other normal network. It is stored in the internal configuration information storage unit. After that, the service processor 101 sets the transmission permission signal 703 and the reception permission signal 70, which have been set to the logical value 0 in order to suppress the data transfer between the processors on the network.
4 is switched to the logical value 1 to enable packet data transmission / reception to the other normal network in which the network enable signal has the logical value 1 and continue the inter-processor data transfer function after the above network failure recovery processing. .

【0014】尚、各プロセッサ201,…,202から
プロセッサ間データ転送用ネットワーク501,502
上にパケットデータを送信する際、送信元プロセッサは
受信先プロセッサからのパケットデータ受信完了通知の
受け取りをもってパケットデータ送信完了と判断する仕
組みをとる。このため、送信元プロセッサからネットワ
ーク501,502に対してパケットデータを送信した
後に受信先プロセッサに届く以前にネットワーク障害と
それに伴う障害回復処理のために、そのパケットデータ
が廃棄され消失した場合でも、送信元プロセッサは受信
先プロセッサからの受信完了通知が届かないことを認識
し、パケットデータ送信未完と判断してパケットデータ
の再送信を試みる。この仕組みによれば、プロセッサ間
データ転送機能の運用を他方の正常なネットワークで続
行することで、二重化ネットワークのうちの一方のネッ
トワークのプロセッサ間データ転送機能が続行不可能と
なったことにより中断していたパケットデータ転送機能
及びプロセッサ間パケットデータ送受信機能を、再開す
ることが可能となる。
It should be noted that networks for data transfer between processors 501, 502 from the respective processors 201, ..., 202.
When transmitting the packet data to the upper side, the transmission source processor determines that the packet data transmission is completed upon receipt of the packet data reception completion notification from the reception destination processor. Therefore, even if the packet data is discarded and lost due to the network failure and the failure recovery process accompanying the network failure before it reaches the destination processor after transmitting the packet data from the transmission source processor to the networks 501 and 502, The transmission source processor recognizes that the reception completion notification from the reception destination processor has not arrived, determines that the packet data transmission has not been completed, and tries to retransmit the packet data. According to this mechanism, by continuing the operation of the inter-processor data transfer function on the other normal network, it is interrupted because the inter-processor data transfer function of one of the redundant networks cannot continue. It is possible to restart the packet data transfer function and the inter-processor packet data transmission / reception function that have been used.

【0015】上記実施例では第1ネットワークと第2ネ
ットワークによりネットワークを二重化した例を説明し
たが、第1ネットワークと第2ネットワークのうち、い
ずれか一方を現用とし、他方を予備として使用するよう
にしてもよい。この場合には、サービスプロセッサ10
1は、正常な第一ネットワークと第二ネットワークのう
ちの一方のネットワーク、例えば第一ネットワークを現
用とし、第二ネットワークを予備とし、第一ネットワー
ク有効化信号701を論理値1とし、第二ネットワーク
有効化信号702を論理値0とする。この状態で、上記
実施例と同様にプロセッサ間データ転送を行なう。第一
ネットワークに異常が発生したときには、上記実施例と
同様に各プロセッサ201,…,202の送信を抑止
し、かつ各プロセッサ201,…,202の受信を抑止
して、障害発生時にネットワーク内で受信先プロセッサ
に未到着のまま残っていたパケットデータ全てを各プロ
セッサ201,…,202での受信時に全て廃棄する。
更に、障害発生時にネットワーク上で未到着のまま残っ
ていたパケットデータ全てが受信先プロセッサのデータ
受信部に到着して廃棄されるのに十分なように設定した
一定時間が経過した後、サービスプロセッサ101は異
常のあるネットワークを無効化、すなわち、現用の第一
ネットワークの第一ネットワーク有効化信号701を論
理値0とする。そして、予備の第二ネットワークの第二
ネットワーク有効化信号702を論理値1とする。そし
て各プロセッサ201,…,202の送信の抑止と受信
の抑止を解除する。これにより、以後、予備の第二ネッ
トワークによりプロセッサ間データ転送が正常に実行さ
れる。
In the above-mentioned embodiment, the example in which the network is duplicated by the first network and the second network has been described. However, either one of the first network and the second network is used as an active and the other is used as a spare. May be. In this case, the service processor 10
1 is one of the normal first network and the second network, for example, the first network is in use, the second network is in standby, the first network enable signal 701 is a logical value 1, and the second network The enable signal 702 is set to a logical value 0. In this state, data transfer between processors is performed as in the above embodiment. When an abnormality occurs in the first network, the transmission of each of the processors 201, ..., 202 is suppressed and the reception of each of the processors 201 ,. All of the packet data that has not yet arrived at the destination processor is discarded when each processor 201, ..., 202 receives it.
Furthermore, after a certain period of time, which is set to be sufficient for all the packet data left unarriving on the network at the time of failure to arrive at the data receiving unit of the destination processor and to be discarded, the service processor 101 invalidates the abnormal network, that is, sets the first network validating signal 701 of the first network in use to a logical value of 0. Then, the second network activation signal 702 of the spare second network is set to the logical value 1. Then, the suppression of transmission and the suppression of reception of each processor 201, ..., 202 are released. Thereby, thereafter, the data transfer between the processors is normally executed by the backup second network.

【0016】[0016]

【発明の効果】以上に述べたように、本発明によれば、
複数のプロセッサをネットワークで接続しプロセッサ間
データ転送を行う並列計算機の稼働率を向上することが
でき、かつ二重化したネットワークのうち一方のネット
ワークでの障害発生時の影響を除去した後、プロセッサ
間データ転送機能の運用を他方の正常なネットワークで
再開することにより、障害回復処理後のネットワーク機
能の続行が可能となる。また、二重化したネットワーク
の内の一方のネットワークに障害が発生した場合、その
時点で各プロセッサでのネットワークに対するプロセッ
サ間の新規データの送受信を中断し、一方のネットワー
クでの障害及び障害発生時にネットワーク上で受信先プ
ロセッサに未到着のまま残っていたデータ全てを廃棄し
た上での障害回復処理及び障害回復処理後のシステム運
用続行が可能となる。また、ネットワークを現用、予備
とした場合に、現用ネットワークでの障害発生時の影響
を除去した後、プロセッサ間データ転送機能の運用を予
備ネットワークで再開することにより、障害回復処理後
のネットワーク機能の続行が可能となる。また、現用ネ
ットワークに障害が発生した場合、その時点で各プロセ
ッサでのネットワークに対するプロセッサ間の新規デー
タの送受信を中断し、現用ネットワークでの障害及び障
害発生時にネットワーク上で受信先プロセッサに未到着
のまま残っていたデータ全てを廃棄した上での障害回復
処理及び障害回復処理後の予備ネットワークによるシス
テム運用続行が可能となる。
As described above, according to the present invention,
It is possible to improve the operation rate of a parallel computer that connects multiple processors via a network and transfers data between the processors, and after eliminating the effect of a failure in one of the redundant networks, By restarting the operation of the transfer function in the other normal network, it becomes possible to continue the network function after the failure recovery processing. Also, if a failure occurs in one of the duplicated networks, the transmission / reception of new data between the processors in each processor is interrupted at that point, and the failure or failure in one network occurs on the network. In this way, it becomes possible to discard all the data that has not yet arrived at the receiving processor and to continue the system operation after the failure recovery process after the failure recovery process. In addition, when the network is used as a working or protection network, after removing the effect of a failure in the working network, the operation of the inter-processor data transfer function is restarted in the protection network so that the network function after the failure recovery process can be performed. It is possible to continue. Further, when a failure occurs in the working network, transmission / reception of new data between the processors in the network at each processor is interrupted at that time, and when a failure occurs in the working network and a failure occurs in the working network, the receiver processor that has not yet arrived at the destination network has not arrived. It is possible to discard all the remaining data and then continue the system operation by the backup network after the failure recovery processing and the failure recovery processing.

【図面の簡単な説明】[Brief description of drawings]

【図1】実施例の並列計算機システムの構成の概要を示
す図である。
FIG. 1 is a diagram showing an outline of a configuration of a parallel computer system according to an embodiment.

【図2】実施例の並列計算機システムの構成の詳細を示
す図である。
FIG. 2 is a diagram showing details of the configuration of a parallel computer system according to the embodiment.

【符号の説明】[Explanation of symbols]

71 プロセッサ制御信号 72 ネットワーク監視信号 91,92,93,94 プロセッサ間データ転送信号 101 サービスプロセッサ(SVP) 201 プロセッサ(PU(1)) 202 プロセッサ(PU(n)) 301 CPU 302 メモリ 303 データ送信用バッファ 304 データ受信用バッファ 305 データ送信用調停回路 306 データ受信用調停回路 401,402,40,404,405,406 AN
D回路 501 プロセッサ間データ転送用第一ネットワーク
(NW(1)) 502 プロセッサ間データ転送用第二ネットワーク
(NW(2)) 601,602 障害検出回路 701 第一ネットワーク有効化信号 702 第二ネットワーク有効化信号 703 送信許可信号 704 受信許可信号 705 第一ネットワーク障害発生通知信号 706 第二ネットワーク障害発生通知信号 801 データ送受信信号 802,804,805,806,901,902,9
05,906 プロセッサ間データ送信信号 803,807,808,809,903,904,9
07,908 プロセッサ間データ受信信号
71 processor control signal 72 network monitoring signal 91, 92, 93, 94 inter-processor data transfer signal 101 service processor (SVP) 201 processor (PU (1)) 202 processor (PU (n)) 301 CPU 302 memory 303 for data transmission Buffer 304 Data reception buffer 305 Data transmission arbitration circuit 306 Data reception arbitration circuit 401, 402, 40, 404, 405, 406 AN
D circuit 501 First network for data transfer between processors (NW (1)) 502 Second network for data transfer between processors (NW (2)) 601 and 602 Failure detection circuit 701 First network enable signal 702 Second network enable Signal 703 transmission permission signal 704 reception permission signal 705 first network failure occurrence notification signal 706 second network failure occurrence notification signal 801 data transmission / reception signal 802, 804, 805, 806, 901, 902, 9
05,906 Inter-processor data transmission signal 803,807,808,809,903,904,9
07,908 Inter-processor data reception signal

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 複数のプロセッサと、プロセッサ間デー
タ転送を行うネットワークと、サービスプロセッサを備
え、前記ネットワークを二重化した並列計算機システム
において、 前記各プロセッサは、ネットワークを選択してデータを
送信する送信回路およびネットワークを選択してデータ
を受信する受信回路を備え、 前記サービスプロセッサは、前記送信回路に送信許可信
号を、前記受信回路に受信許可信号を、前記送信回路お
よび受信回路に各ネットワーク対応のネットワーク有効
化信号を出力して両ネットワークによるプロセッサ間デ
ータ転送を可能にし、一方のネットワークから障害発生
通知信号を受けたとき、前記送信許可信号と受信許可信
号をオフしてデータの送信および受信を抑止し、ネット
ワーク上の全てのデータを廃棄した後、前記一方のネッ
トワーク対応のネットワーク有効化信号をオフにすると
共に前記送信許可信号と受信許可信号をオンにし、他方
のネットワークによるプロセッサ間データ転送を可能に
することを特徴とする並列計算機システム。
1. A parallel computer system comprising a plurality of processors, a network for performing data transfer between the processors, and a service processor, wherein the network is duplicated, wherein each processor selects a network and transmits data. And a reception circuit for selecting a network to receive data, wherein the service processor transmits a transmission permission signal to the transmission circuit, a reception permission signal to the reception circuit, and a network corresponding to each network for the transmission circuit and the reception circuit. Outputs an enable signal to enable data transfer between processors on both networks, and when receiving a fault notification signal from one network, turns off the transmission permission signal and reception permission signal to suppress data transmission and reception. And discard all data on the network After, parallel computer system in which the transmission permission signal and to turn on the receive enable signal, characterized in that to enable inter-processor data transfer by the other network as well as to the one of the network-enabled network enable signal off.
【請求項2】 複数のプロセッサと、プロセッサ間デー
タ転送を行うネットワークと、サービスプロセッサを備
え、前記ネットワークは現用ネットワークと予備ネット
ワークからなる並列計算機システムにおいて、 前記各プロセッサは、ネットワークを選択してデータを
送信する送信回路およびネットワークを選択してデータ
を受信する受信回路を備え、 前記サービスプロセッサは、前記送信回路に送信許可信
号を、前記受信回路に受信許可信号を、前記送信回路お
よび受信回路に各ネットワーク対応のネットワーク有効
化信号を出力し、現用ネットワーク使用時には現用ネッ
トワーク対応のネットワーク有効化信号をオンにし、予
備ネットワーク対応のネットワーク有効化信号をオフに
して現用ネットワークによるプロセッサ間データ転送を
可能にし、現用ネットワークから障害発生通知信号を受
けたとき、前記送信許可信号と受信許可信号をオフして
データの送信および受信を抑止し、現用ネットワーク上
の全てのデータを廃棄した後、前記現用ネットワーク対
応のネットワーク有効化信号をオフにすると共に前記送
信許可信号と受信許可信号と前記予備ネットワーク対応
のネットワーク有効化信号をオンにし、予備ネットワー
クによるプロセッサ間データ転送を可能にすることを特
徴とする並列計算機システム。
2. A parallel computer system comprising a plurality of processors, a network for performing data transfer between processors, and a service processor, wherein the network comprises a working network and a spare network, wherein each processor selects a network to perform data transfer. Is provided with a receiving circuit that receives data by selecting a transmitting circuit and a network, and the service processor transmits a transmitting permission signal to the transmitting circuit, a receiving permission signal to the receiving circuit, and the transmitting circuit and the receiving circuit. Outputs a network enable signal for each network, turns on the network enable signal for the active network when using the active network, and turns off the network enable signal for the spare network to transfer data between processors via the active network When the fault occurrence notification signal is received from the working network, the transmission permission signal and the reception permission signal are turned off to inhibit the transmission and reception of data, and all the data on the working network are discarded before the working A network enabling signal for a network is turned off, and a transmission enabling signal, a reception enabling signal, and a network enabling signal for the spare network are turned on to enable data transfer between processors by the spare network. Parallel computer system.
JP33185794A 1994-12-09 1994-12-09 Parallel computer system Pending JPH08161277A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33185794A JPH08161277A (en) 1994-12-09 1994-12-09 Parallel computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33185794A JPH08161277A (en) 1994-12-09 1994-12-09 Parallel computer system

Publications (1)

Publication Number Publication Date
JPH08161277A true JPH08161277A (en) 1996-06-21

Family

ID=18248434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33185794A Pending JPH08161277A (en) 1994-12-09 1994-12-09 Parallel computer system

Country Status (1)

Country Link
JP (1) JPH08161277A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7633856B2 (en) 2004-07-27 2009-12-15 Nec Corporation Multi-node system, internodal crossbar switch, node and medium embodying program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7633856B2 (en) 2004-07-27 2009-12-15 Nec Corporation Multi-node system, internodal crossbar switch, node and medium embodying program

Similar Documents

Publication Publication Date Title
KR100238926B1 (en) Method and apparatus for recovering from faults in distributed memory type multiprocessor computing system
US6658595B1 (en) Method and system for asymmetrically maintaining system operability
US7467322B2 (en) Failover method in a cluster computer system
WO2011131081A1 (en) Method and apparatus for implementing redundancy serial bus
JP4487260B2 (en) Multiplex system
JPH08265319A (en) Duplex monitoring control system
JPH08161277A (en) Parallel computer system
JP4131263B2 (en) Multi-node system, node device, inter-node crossbar switch, and failure processing method
JPH07152697A (en) Roughly coupled computer system
JP2001022718A (en) Parallel processor
CN114124666B (en) Network handling method, device, computer equipment and storage medium
JP2633351B2 (en) Control device failure detection mechanism
JP2560875B2 (en) Information processing system failure notification method
JP2000020336A (en) Duplex communication system
JP2606107B2 (en) Processor redundancy
JPH0934852A (en) Cluster system
JP2645134B2 (en) Message transmission control method to restoration signal link
JPH06152570A (en) System for system switching processing in duplex data processor
JPH10333932A (en) Fault processing method and multi-node system
JPS6113627B2 (en)
JPS63285053A (en) Fault processing system for network management equipment
JPS62105243A (en) Recovery device for system fault
JPS63279646A (en) Automatic restart processing system for network management equipment
JPS62264796A (en) Information supervising system
JP2000242617A (en) Fault processing method for multiprocessor communication mechanism