JPH09237258A - Computer system and fault informing method - Google Patents

Computer system and fault informing method

Info

Publication number
JPH09237258A
JPH09237258A JP8043899A JP4389996A JPH09237258A JP H09237258 A JPH09237258 A JP H09237258A JP 8043899 A JP8043899 A JP 8043899A JP 4389996 A JP4389996 A JP 4389996A JP H09237258 A JPH09237258 A JP H09237258A
Authority
JP
Japan
Prior art keywords
data
failure
synchronization pattern
node
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8043899A
Other languages
Japanese (ja)
Inventor
Shinji Heike
伸二 平家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Engineering Ltd
Original Assignee
NEC Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Engineering Ltd filed Critical NEC Engineering Ltd
Priority to JP8043899A priority Critical patent/JPH09237258A/en
Publication of JPH09237258A publication Critical patent/JPH09237258A/en
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a fault informing method which can speedily give information on a fault, can prevent the supply of a new job to a node where the fault occurs and can analyze the fault in short time. SOLUTION: In a computer system provided with an interface cross bar switch device connecting plural nodes, the respective nodes are provided with Sync pattern generation suppression circuits 105 suppressing the generation of Sync patterns when the fault occurs, storage timing control circuits 205 which do not generate data storage timing signals when the Sync patterns cannot be detected on a reception side and storage timing signal monitor circuits 280 detecting the absence of the data storage timing signals on the reception side. The generation of the Sync pattern is suppressed when the fault occurs on a transmission side. The interface cross bar switch device detects the occurrence of the fault when the Sync pattern cannot be detected.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、コンピュータを1
ノードとし、複数のノードをインタフェース・クロスバ
・スイッチを介して接続して構成したコンピュータシス
テムと、該コンピュータシステムにおける障害通知方法
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a computer.
The present invention relates to a computer system configured by connecting a plurality of nodes as nodes through an interface crossbar switch, and a failure notification method in the computer system.

【0002】[0002]

【従来の技術】スーパーコンピュータを1ノードとし、
複数のノードをインタフェース・クロスバ・スィッチに
より結合して、ノード間のデータ転送を可能とするコン
ピュータシステムが使用されている。図3に1つのノー
ドとインタフェース・クロスバ・スイッチを例示する。
2. Description of the Related Art With a supercomputer as one node,
A computer system is used in which a plurality of nodes are connected by an interface crossbar switch to enable data transfer between the nodes. FIG. 3 illustrates one node and an interface crossbar switch.

【0003】各ノードの主記憶装置(メモリ)から読み
出された転送対象のデータはバッファ120を介して光
信号送信回路130に供給される。また、Syncパタ
ーン発生指示回路110は、所定クロック毎、例えば、
65クロック毎に光信号送信回路130にSyncパタ
ーン発生指示信号を出力する。光信号送信回路130
は、Syncパターン発生指示信号に従って、転送する
データにSyncパターン(同期パターン)と呼ばれる
同期制御用のデータを所定クロック毎に挿入する。イン
タフエース・クロスバ・スイッチとノード間は、n本の
光ケーブル400で接続されている。1本の光ケーブル
で1バイト幅のデータを制御する為、一度にnバイトの
データを転送することができる。
Data to be transferred, which is read from the main storage device (memory) of each node, is supplied to the optical signal transmission circuit 130 via the buffer 120. In addition, the Sync pattern generation instruction circuit 110, for example, at every predetermined clock,
A Sync pattern generation instruction signal is output to the optical signal transmission circuit 130 every 65 clocks. Optical signal transmission circuit 130
In accordance with the Sync pattern generation instruction signal, inserts synchronization control data called Sync pattern (synchronization pattern) into the data to be transferred at every predetermined clock. The interface crossbar switch and the nodes are connected by n optical cables 400. Since one optical cable controls 1-byte width data, n bytes of data can be transferred at one time.

【0004】インタフェース・クロスバ・スイッチの光
信号受信回路200は、光ケーブル400を介して供給
されたデータに含まれているSyncパターンを所定ク
ロックに1回検出することにより、送信側ノードとの間
で同期がとれていることを確認する。光信号受信回路2
00は、Syncパターンを正しく検出している間は、
受信データをバッファ220に供給すると共に受信デー
タをバッファ220に格納するためのデータ格納タイミ
ング信号を生成し、バッファ制御回路210に通知す
る。バッファ制御回路210は、データ格納タイミング
信号に従ってバッファ220を制御し、光信号受信回路
200からのデータをバッファ220に書き込む。バッ
ファ220に格納されたデータはレジスタ250に格納
後、クロスバ・スイッチ回路255を介して受信側ノー
ドに図示せぬ光ファイバを介して転送され、受信側ノー
ドのメモリに格納される。
The optical signal receiving circuit 200 of the interface crossbar switch detects the Sync pattern included in the data supplied via the optical cable 400 once every predetermined clock, and thereby, the optical signal receiving circuit 200 communicates with the transmitting side node. Make sure they are in sync. Optical signal receiving circuit 2
00 is, while correctly detecting the Sync pattern,
The reception data is supplied to the buffer 220, a data storage timing signal for storing the reception data in the buffer 220 is generated, and the buffer control circuit 210 is notified. The buffer control circuit 210 controls the buffer 220 according to the data storage timing signal and writes the data from the optical signal receiving circuit 200 to the buffer 220. The data stored in the buffer 220 is stored in the register 250, then transferred to the receiving side node via the crossbar switch circuit 255 via an optical fiber (not shown), and stored in the memory of the receiving side node.

【0005】図3において、各ノード内において発生し
た障害は、障害検出回路100により検出され、該ノー
ドは送信処理を中止する。さらに、障害検出回路100
は、障害の内容を障害処理装置140に通知する。障害
処理装置140は、通知された障害の内容を信号線34
0を介して該当ノードのサービスプロセッサ150に送
る。
In FIG. 3, a fault occurring in each node is detected by the fault detection circuit 100, and the node stops the transmission process. Furthermore, the fault detection circuit 100
Notifies the failure processing device 140 of the details of the failure. The failure processing device 140 displays the content of the notified failure on the signal line 34.
0 to the service processor 150 of the corresponding node.

【0006】サービスプロセッサ150は、光ケーブル
410を介して、インタフェース・クロスバ・スイッチ
のサービスプロセッサ260ヘ障害内容を通信する。サ
ービスプロセッサ260は障害内容を受け取ると、イン
タフェース・クロスバ・スイッチの障害処理装置270
に通知する。
The service processor 150 communicates the failure content to the service processor 260 of the interface crossbar switch via the optical cable 410. When the service processor 260 receives the failure content, the failure processing device 270 of the interface crossbar switch.
Notify.

【0007】障害処理装置270は、この通知に応答
し、受信側ノードを制御するオペレーティング・システ
ム(以下、「OS」と称す)280に割り込みを発生
し、障害の発生を通知する。
In response to this notification, the failure processing device 270 interrupts the operating system (hereinafter referred to as "OS") 280 that controls the receiving node to notify the occurrence of the failure.

【0008】OS280は障害処理を行い、インタフェ
ース・クロスバ・スイッチの障害処理装置270を介し
て障害検出回路240に障害内容を通知する。障害検出
回路240は障害を通知されると、インタフェース・ク
ロスバ・スイッチの動作を停止する。
The OS 280 performs fault processing and notifies the fault content to the fault detection circuit 240 via the fault processing unit 270 of the interface crossbar switch. When the failure detection circuit 240 is notified of a failure, the operation of the interface crossbar switch is stopped.

【0009】[0009]

【発明が解決しようとする課題】このように、従来のシ
ステムでは、各ノードは、そのノード内で障害が発生し
た場合、光通信の制御を中断し、障害処理装置140に
障害の発生を通知する。障害を通知された障害処理装置
140は、該ノードのサービスプロセッサ150とイン
タフェース・クロスバ・スイッチ400のサービスプロ
セッサ260と障害処理装置270とを経由して、OS
280に障害の発生を通知していた。
As described above, in the conventional system, when a failure occurs in each node, each node interrupts the control of the optical communication and notifies the failure processing device 140 of the occurrence of the failure. To do. The failure processing device 140 notified of the failure passes through the OS through the service processor 150 of the node, the service processor 260 of the interface crossbar switch 400, and the failure processing device 270.
280 had been notified of the failure.

【0010】この為、障害が発生したノードからOS2
80までの障害通知経路が長いという課題がある。
For this reason, the OS2
There is a problem that the fault notification route up to 80 is long.

【0011】また、一般に、障害処理装置140、27
0及びサービスプロセッサ150、260の動作クロッ
クは、ノード及びインタフエース・クロスバ・スイッチ
自体の動作クロックよりも低く、動作速度がインタフエ
ース・クロスバ・スイッチよりも低速である。更に、サ
ービスプロセッサ150、260間を結ぶ光ケーブル4
10は1本しかないため、障害を通知するデータのパラ
レルデータ/シリアルデータ変換で時間がかかる。
Also, in general, the fault handling devices 140, 27.
0 and the service clocks of the service processors 150, 260 are lower than the operation clocks of the nodes and the interface crossbar switch itself, and the operating speed is slower than that of the interface crossbar switch. Furthermore, the optical cable 4 connecting between the service processors 150 and 260
Since only one 10 is provided, it takes time to convert the parallel data / serial data of the data notifying the failure.

【0012】この結果、障害の通知には膨大な時間がか
かり、OS280に対する障害通知が遅れ、障害となっ
ているノードに対し新たなジョブ(JOB)が投入され
てしまうという問題がある。また、障害の解析にも多く
の時間を要していた。
As a result, there is a problem in that it takes a huge amount of time to notify the failure, the failure notification to the OS 280 is delayed, and a new job (JOB) is submitted to the failed node. Also, it took a lot of time to analyze the failure.

【0013】本発明は、上記実情に鑑みてなされたもの
で、速やかに障害通知を行うことができるコンピュータ
システム及び障害通知方法を提供することを目的とす
る。
The present invention has been made in view of the above circumstances, and an object thereof is to provide a computer system and a failure notification method capable of promptly issuing a failure notification.

【0014】[0014]

【課題を解決するための手段】上記目的を達成するた
め、この発明のコンピュータシステムは、コンピュータ
を1ノードとし、複数のノードをインタフェース装置を
介して接続して構成され、各ノードは、送信対象データ
を生成するデータ生成手段と、前記データ生成手段によ
り生成されたデータの送信タイミングを制御するための
同期パターンを生成する同期パターン生成手段と、障害
の発生を検出する障害検出手段と、該障害検出手段によ
り障害が検出された際に、前記同期パターン生成手段を
制御して前記同期パターンの生成を抑止する同期パター
ン生成抑止回路と、前記データ生成手段により生成され
た送信対象データと前記同期パターン生成手段により生
成された同期パターンを他ノードに前記インタフェース
装置を介して送信する送信手段と、を備え、前記インタ
フェース装置は、送信側ノードからデータを受信する受
信手段と、前記受信手段により受信されたデータ中の同
期パターンを検出し、検出された同期パターンに従っ
て、受信したデータを受信側ノードに転送する転送手段
と、前記受信手段により受信されたデータ中に同期パタ
ーンを検出ができない場合に、データ転送を中断させる
と共に受信側のノードに送信側ノードで障害が発生した
ことを通知する制御手段と、を備えることを特徴とす
る。
In order to achieve the above object, a computer system of the present invention comprises a computer as one node, and a plurality of nodes are connected through an interface device. Each node is a transmission target. Data generation means for generating data, synchronization pattern generation means for generating a synchronization pattern for controlling the transmission timing of the data generated by the data generation means, failure detection means for detecting the occurrence of a failure, and the failure A synchronization pattern generation inhibiting circuit that controls the synchronization pattern generation means to inhibit generation of the synchronization pattern when a failure is detected by the detection means, transmission target data generated by the data generation means, and the synchronization pattern The synchronization pattern generated by the generation means is transmitted to another node via the interface device. The interface device includes a receiving means for receiving data from a transmitting side node, and a synchronization pattern in the data received by the receiving means, and the received data according to the detected synchronization pattern. Transfer means for transferring the data to the receiving side node, and when the synchronization pattern cannot be detected in the data received by the receiving means, the data transfer is interrupted and the receiving side node has a failure in the transmitting side node. And a control means for notifying of.

【0015】前記転送手段は、例えば、前記受信手段に
より受信されたデータ中の同期パターンから格納タイミ
ング信号を生成する手段と、前記格納タイミング信号に
従って前記受信手段により受信したデータを格納する手
段と、を備え、前記制御手段は、前記格納タイミング信
号が所定パターンに一致した時に、送信側ノードに障害
が発生したことを検知する。
The transfer means, for example, means for generating a storage timing signal from a synchronization pattern in the data received by the receiving means, and means for storing the data received by the receiving means in accordance with the storage timing signal, The control means detects that a failure has occurred in the transmission side node when the storage timing signal matches a predetermined pattern.

【0016】また、この発明の障害通知方法は、複数の
コンピュータをインタフェース装置を介して結合し、コ
ンピュータ間のデータ転送を同期パターンにより同期を
とって行うコンピュータシステムにおける障害通知方法
であって、データ送信側のコンピュータは、障害が発生
したとき、同期パターンの生成を停止し、前記インタフ
ェース装置は、前記コンピュータの送信データ中に同期
パターンを検出ができない場合に該コンピュータに障害
が発生したと判別し、データ受信側のコンピュータに障
害の発生を通知する、ことを特徴とする。
The fault notifying method of the present invention is a fault notifying method in a computer system in which a plurality of computers are coupled via an interface device and data transfer between the computers is synchronized by a synchronization pattern. When a failure occurs, the sending computer stops generating the synchronization pattern, and the interface device determines that the failure has occurred in the computer when the synchronization pattern cannot be detected in the transmission data of the computer. Is notified to the data receiving computer of the occurrence of the failure.

【0017】このような構成のコンピュータシステム及
び障害通知方法によれば、各ノードで障害が発生した場
合、同期パターン生成抑止回路により同期パターンの生
成が停止される。このため、前記インタフェース装置は
受信したデータ中に同期パターンを検出できなくなり、
送信側ノードに障害が発生したことを検出し、受信側の
ノードに障害の発生を通知する。従って、障害発生ノー
ドからインタフェース装置への障害発生の通知が本来の
データ転送ルートを介して高速に行われる。
According to the computer system and the failure notification method having such a configuration, when a failure occurs in each node, the synchronization pattern generation inhibiting circuit stops the generation of the synchronization pattern. Therefore, the interface device cannot detect the synchronization pattern in the received data,
It detects that a failure has occurred in the sending node and notifies the receiving node of the failure. Therefore, the fault occurrence node notifies the interface device of the fault occurrence at high speed through the original data transfer route.

【0018】[0018]

【発明の実施の形態】以下に、本発明の実施の形態を図
1及び図2を参照して詳細に説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described in detail below with reference to FIGS.

【0019】この実施の形態のコンピュータシステム
は、図2に示すように、スーパーコンピュータを1ノー
ドとし、複数のノードをインタフェース・クロスバ・ス
イッチにより接続して構成される。インタフェース・ク
ロスバ・スイッチは、ノードからのデータを受信する機
能と、受信したデータをクロスバ・スイッチ回路255
を介して他ノードに送信する機能を有する。
As shown in FIG. 2, the computer system of this embodiment has a supercomputer as one node and a plurality of nodes connected by an interface crossbar switch. The interface crossbar switch has a function of receiving data from the node and a function of receiving the data from the crossbar switch circuit 255.
It has a function of transmitting to another node via.

【0020】図1は、1つのノードと1ノード分のイン
タフェース・クロスバ・スイッチの構成(図3の破線部
分)を示す。図1において、障害検出回路100は、ノ
ード内で発生する障害を検出する回路である。Sync
パターン生成抑止回路105は、障害検出回路100か
らの障害通知により、Syncパターン発生指示回路1
10のSyncパターン発生指示を抑止する回路であ
る。
FIG. 1 shows the structure of one node and the interface crossbar switch for one node (broken line part in FIG. 3). In FIG. 1, a fault detection circuit 100 is a circuit that detects a fault occurring in a node. Sync
The pattern generation suppression circuit 105 receives the fault notification from the fault detection circuit 100, and the Sync pattern generation instruction circuit 1
This is a circuit for suppressing 10 Sync pattern generation instructions.

【0021】Syncパターン発生指示回路110は、
65クロック毎に1回、Syncパターンの発生を光信
号送信回路130に指示する回路である。
The Sync pattern generation instruction circuit 110 is
This circuit instructs the optical signal transmission circuit 130 to generate a Sync pattern once every 65 clocks.

【0022】バッファ120は、メモリからの送信対象
データを格納し、格納したデータをファースト・イン・
ファースト・アウト制御で光信号送信回路130に出力
する回路である。
The buffer 120 stores data to be transmitted from the memory, and stores the stored data in first-in
It is a circuit for outputting to the optical signal transmission circuit 130 by the first-out control.

【0023】光信号送信回路130は、バッファ120
からのパラレルな転送データをシリアルデータに変換し
た後、電気信号を光信号に変換して出力し、又、Syn
cパターン発生指示回路110からSyncパターンの
発生を指示されている場合にはバッファ120からのデ
ータの受け取りを停止してSyncパターンを光信号と
して出力する回路である。また、光信号送信回路130
は、データを送出する時に、転送するデータと共にEC
C(Error Correcting Code)を生成して転送する。こ
の実施の形態では、S8EC−D8EDコードを用いる
ことにより、1バイトエラー訂正/2バイトエラー検出
を可能とする。受信側のノードは、受信したデータから
1バイトエラー訂正/2バイトエラー検出を行い、受信
したデータが1バイトエラーを起こしていても訂正する
ことができる。
The optical signal transmission circuit 130 includes a buffer 120.
After converting the parallel transfer data from the serial data into serial data, the electric signal is converted into an optical signal and output.
When the c pattern generation instruction circuit 110 is instructed to generate a Sync pattern, it is a circuit that stops receiving data from the buffer 120 and outputs the Sync pattern as an optical signal. In addition, the optical signal transmission circuit 130
When sending data, the EC
Generate C (Error Correcting Code) and transfer. In this embodiment, the S8EC-D8ED code is used to enable 1-byte error correction / 2-byte error detection. The node on the receiving side performs 1-byte error correction / 2-byte error detection from the received data and can correct even if the received data causes a 1-byte error.

【0024】障害処理装置140は、ノード内の障害を
処理する装置である。また、サービスプロセッサ150
は、インタフェース・クロスバ・スイッチのサービスプ
ロセッサ260と通信を行う装置である。
The failure processing device 140 is a device for processing a failure in a node. Also, the service processor 150
Is a device that communicates with the service processor 260 of the interface crossbar switch.

【0025】光信号受信回路200は、受信した光信号
を電気信号に変換した後、シリアルデータをパラレルデ
ータに変換して出力し、又、Syncパターンを受信す
ると、格納タイミング制御回路205にSyncパター
ンを受信したことを通知する回路である。
The optical signal receiving circuit 200 converts the received optical signal into an electrical signal, converts serial data into parallel data and outputs the parallel data, and when receiving the Sync pattern, the storage timing control circuit 205 receives the Sync pattern. Is a circuit for notifying that the is received.

【0026】格納タイミング制御回路205は、光信号
受信回路200からのSyncパターン受信通知によっ
て、格納タイミング信号を制御する回路である。
The storage timing control circuit 205 is a circuit for controlling the storage timing signal in response to the Sync pattern reception notification from the optical signal receiving circuit 200.

【0027】バッファ制御回路210は、バッファ22
0を制御するための回路である。バッファ220は、光
信号受信回路200からのデータをバッファ制御回路2
10の制御によって格納するバッファである。
The buffer control circuit 210 includes a buffer 22.
This is a circuit for controlling 0. The buffer 220 receives the data from the optical signal receiving circuit 200 and the buffer control circuit 2
It is a buffer which is stored under the control of 10.

【0028】格納タイミング信号監視回路230は、各
格納タイミング制御回路205が出力する合計n本の格
納タイミング信号を監視し、全て「0」の状態が2T以
上続くと、障害検出回路240に障害発生を通知する回
路である。
The storage timing signal monitoring circuit 230 monitors a total of n storage timing signals output from each storage timing control circuit 205, and when the state of all "0" continues for 2T or more, a failure occurs in the failure detection circuit 240. Is a circuit for notifying.

【0029】障害検出回路240は、インタフェース・
クロスバ・スイッチ装置内で発生する障害を検出する回
路である。レジスタ250は、バッファ220からのデ
ータを格納するレジスタである。クロスバ・スイッチ回
路255は、レジスタ250からのデータを指示された
ノードに出力する回路である。サービスプロセッサ26
0は、ノードのサービスプロセッサ150と光ケーブル
410を介して通信を行う装置である。
The fault detection circuit 240 is an interface
It is a circuit that detects a failure that occurs in the crossbar switch device. The register 250 is a register that stores data from the buffer 220. The crossbar switch circuit 255 is a circuit that outputs the data from the register 250 to the designated node. Service processor 26
Reference numeral 0 is a device that communicates with the service processor 150 of the node via the optical cable 410.

【0030】障害処理装置270は、インタフェース・
クロスバ・スイッチ装置内の障害を処理する装置であ
る。OS280は、上部のノードと、インタフェース・
クロスバ・スイッチ装置を介して接続されている対向ノ
ード(受信側ノード)のOSである。
The fault processing unit 270 has an interface
A device for handling a fault in the crossbar switch device. The OS 280 has an interface with the upper node.
It is the OS of the opposite node (reception side node) connected via the crossbar switch device.

【0031】次に、上述した構成において、通常のデー
タ転送について説明する。送信側ノードのメモリからの
送信対象データは、バッファ120に格納され、信号線
320を介して光信号送信回路130に送られる。Sy
ncパターン発生指示回路110は、65クロックに1
回の割合でSyncパターン発生指示信号を生成し、信
号線310を介してn個の光信号送信回路130に送
る。
Next, normal data transfer in the above-mentioned configuration will be described. Data to be transmitted from the memory of the transmission side node is stored in the buffer 120 and is transmitted to the optical signal transmission circuit 130 via the signal line 320. Sy
The nc pattern generation instruction circuit 110 outputs 1 every 65 clocks.
The Sync pattern generation instruction signal is generated at the rate of the number of times and sent to the n optical signal transmission circuits 130 via the signal line 310.

【0032】光信号送信回路130は、Syncパター
ン発生指示信号を受けると、バッファ120からのデー
タ間にSyncパターンを挿入する。
Upon receiving the Sync pattern generation instruction signal, the optical signal transmission circuit 130 inserts the Sync pattern between the data from the buffer 120.

【0033】光信号送信回路130は、バッファ120
からのデータと65クロックに1回挿入されるSync
パターンとを、順次パラレルデータからシリアルデータ
に変換した後、電気信号から光信号に変換し、光ケーブ
ル400を介して、インタフェース・クロスバ・スイッ
チの光信号受信回路200に送信する。
The optical signal transmission circuit 130 includes a buffer 120.
Data from SYNC and Sync inserted once every 65 clocks
The pattern and the pattern are sequentially converted from parallel data to serial data, and then converted from an electric signal to an optical signal and transmitted to the optical signal receiving circuit 200 of the interface crossbar switch via the optical cable 400.

【0034】光信号受信回路200は、受信した光信号
を電気信号に変換した後、シリアルデータからパラレル
データに変換して信号線510を介してバッファ220
に送る。
The optical signal receiving circuit 200 converts the received optical signal into an electrical signal, then converts the serial data into parallel data, and buffers 220 via the signal line 510.
Send to

【0035】また、光信号受信回路200は、受信した
データがSyncパターンならば、信号線500を介し
て格納タイミング制御回路205にSyncパターンを
受信したことを通知する。なお、Syncパターンがノ
イズ等によりデータ化けを起こした場合は、Syncパ
ターンが検出できなくなり、データ化けを起こしたバイ
トは同期外れになり、データが不正になる。しかし、デ
ータ化けを起こしたバイトが1バイトのみであれば、次
のSyncパターンを受けるまでは1バイトエラーのま
まであるが、1バイトエラー訂正により正常なデータを
出力して動作を続けることができる。
Further, if the received data is the Sync pattern, the optical signal receiving circuit 200 notifies the storage timing control circuit 205 via the signal line 500 that the Sync pattern has been received. When the Sync pattern is garbled due to noise or the like, the Sync pattern cannot be detected, the garbled byte becomes out of synchronization, and the data becomes invalid. However, if there is only 1 byte that causes data corruption, 1-byte error remains until the next Sync pattern is received, but normal data can be output by 1-byte error correction to continue the operation. it can.

【0036】格納タイミング制御回路205は、Syn
cパターンの受信を通知されると、次のクロックから6
4クロックの間、データ格納タイミング信号を生成し、
信号線505を介してバッファ制御回路210及び格納
タイミング信号監視回路230に通知する。
The storage timing control circuit 205 uses Syn
When the reception of the c pattern is notified, 6 from the next clock.
Generate data storage timing signal for 4 clocks,
The buffer control circuit 210 and the storage timing signal monitoring circuit 230 are notified via the signal line 505.

【0037】格納タイミング信号を通知されたバッファ
制御回路210は、バッファ220に、信号線510を
介して送られてくるデータの格納を指示する。又、n個
のバッファ制御回路210は、バイト間同期のため、全
部でn個のバッファ220にデータが揃うのを確認する
と、信号線530を介してレジスタ250にデータを格
納し、クロスバ・スイッチ回路255を経由して、他ノ
ードのメモリに出力する。
The buffer control circuit 210 notified of the storage timing signal instructs the buffer 220 to store the data sent via the signal line 510. In addition, the n buffer control circuits 210 store the data in the register 250 via the signal line 530 when confirming that the data is completely stored in the n buffers 220 due to the byte synchronization, and the crossbar switch 210 The data is output to the memory of another node via the circuit 255.

【0038】光信号受信回路200がSyncパターン
を受信できなくなると、格納タイミング制御回路205
は、装置間の同期がとれていないと判断し、格納タイミ
ング信号の生成を止め、バッファ220にデータを格納
しないよう制御する。
When the optical signal receiving circuit 200 cannot receive the Sync pattern, the storage timing control circuit 205
Determines that the devices are not synchronized, stops the generation of the storage timing signal, and controls not to store the data in the buffer 220.

【0039】次に、本実施の形態の障害通知方法につい
て説明する。ノード内において障害が発生すると、障害
検出回路100がこれを検出し、Syncパターン生成
抑止回路105に信号線300を介して障害の発生を通
知する。
Next, the fault notification method of this embodiment will be described. When a failure occurs in the node, the failure detection circuit 100 detects it and notifies the Sync pattern generation suppression circuit 105 of the failure occurrence via the signal line 300.

【0040】Syncパターン生成抑止回路105は、
障害の発生を通知されると、Syncパターン発生指示
回路110にSyncパターンの発生抑止を指示する。
この指示によって、Syncパターン発生指示回路11
0はSyncパターン発生指示信号の出力を抑止すると
共にノード内の全動作を停止する。
The Sync pattern generation inhibiting circuit 105
When notified of the occurrence of a failure, the sync pattern generation instruction circuit 110 is instructed to suppress the generation of the sync pattern.
By this instruction, the Sync pattern generation instruction circuit 11
0 suppresses the output of the Sync pattern generation instruction signal and stops all the operations in the node.

【0041】光信号受信回路200は、Syncパター
ンを受信できなくなり、n個の格納タイミング制御回路
205は格納タイミング信号の生成を停止する。このた
め、格納タイミング信号は全て「0」レベルになる。
The optical signal receiving circuit 200 cannot receive the Sync pattern, and the n storage timing control circuits 205 stop generating the storage timing signals. Therefore, all the storage timing signals are at "0" level.

【0042】格納タイミング信号監視回路230は、信
号線505を介して送られてくる格納タイミング信号n
本が全て「0」になることが2T以上続くと、相手側の
装置(この場合、ノード)に障害が発生したと判断し、
信号線540を介して障害検出回路240に障害を通知
する。なお、データ化け等によりSyncパターンを受
信できない場合は、ECCを用いてエラー訂正を行うこ
とにより、故障を指示するためのSyncパターンの抑
制と区別することができる。
The storage timing signal monitor circuit 230 stores the storage timing signal n sent via the signal line 505.
If all the books become "0" for 2T or more, it is determined that the device on the other side (in this case, the node) has failed,
The fault is notified to the fault detection circuit 240 via the signal line 540. When the Sync pattern cannot be received due to garbled data or the like, it is possible to distinguish from the suppression of the Sync pattern for indicating a failure by performing error correction using ECC.

【0043】障害検出回路240は、障害を検出すると
信号線550を介して障害処理装置270に障害を通知
し、インタフェース・クロスバ・スイッチ装置の動作を
停止する。
When the fault detection circuit 240 detects a fault, the fault detection circuit 240 notifies the fault processing device 270 of the fault via the signal line 550 and stops the operation of the interface crossbar switch device.

【0044】障害処理装置270は、信号線570を介
して受信側のノードのOS280に割り込み、障害発生
を通知する。
The fault processing unit 270 interrupts the OS 280 of the receiving node via the signal line 570 to notify the occurrence of a fault.

【0045】このようにして、本実施の形態では、送信
側で障害が発生した場合、65クロックに1回挿入され
るSyncパターンの全バイトを強制的に抑止し、受信
側は全バイトのデータ格納タイミング信号が2T以上オ
ール0なったことを検出することで障害の発生を検知す
る。
In this way, in this embodiment, when a failure occurs on the transmitting side, all bytes of the Sync pattern inserted once every 65 clocks are forcibly suppressed, and the receiving side receives data of all bytes. The occurrence of a failure is detected by detecting that the storage timing signal is all 0 for 2T or more.

【0046】上記構成の回路を具備することにより、通
常のデータ転送の伝送路で障害通知が可能になる為、障
害の発生をOS280に短時間で通知できるようにな
る。従って、障害発生後そのノードには新規ジョブは投
入されなくなり、また、無駄な動作をしないため障害解
析も容易になる。
By providing the circuit having the above-described configuration, it becomes possible to notify the OS 280 of the occurrence of the failure in a short time because the failure can be notified through the transmission path of the normal data transfer. Therefore, a new job is not submitted to the node after the occurrence of a failure, and since the wasteful operation is not performed, the failure analysis is facilitated.

【0047】なお、この発明は、上記実施の形態に限定
されない。例えば、上記実施の形態においては、複数の
ノードをインタフェース・クロスバ・スイッチにより接
続した例を示したが、他の任意のインタフェース装置を
使用して接続することができる。また、Syncパター
ンの挿入タイミングは65クロックに1回以外でもよ
い。
The present invention is not limited to the above embodiment. For example, in the above embodiment, an example in which a plurality of nodes are connected by the interface crossbar switch is shown, but it is possible to connect using any other interface device. Also, the insertion timing of the Sync pattern may be other than once every 65 clocks.

【0048】[0048]

【発明の効果】本発明によれば、送信側で障害が発生し
た場合、同期パターンの送出を抑止し、受信側は同期パ
ターンの検出ができない場合に、送信側で障害が発生し
たことを検出することができる。
According to the present invention, when a failure occurs on the transmission side, the sending of the synchronization pattern is suppressed, and when the reception side cannot detect the synchronization pattern, the failure on the transmission side is detected. can do.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施の形態の構成を示すブロック図で
ある。
FIG. 1 is a block diagram showing a configuration of an embodiment of the present invention.

【図2】本発明の実施の形態の構成を示すブロック図で
ある。
FIG. 2 is a block diagram showing a configuration of an embodiment of the present invention.

【図3】従来例の構成を示すブロック図である。FIG. 3 is a block diagram showing a configuration of a conventional example.

【符号の説明】[Explanation of symbols]

100 障害検出回路 105 Syncパターン生成抑止回路 110 Syncパターン発生指示回路 120 バッファ 130 光信号送信回路 200 光信号受信回路 205 格納タイミング制御回路 210 バッファ制御回路 220 バッファ 230 格納タイミング信号監視回路 240 障害検出回路 250 レジスタ 255 クロスバ・スイッチ回路 300、340 信号線 400、410 光ケーブル 500、570 信号線 100 Fault Detection Circuit 105 Sync Pattern Generation Suppression Circuit 110 Sync Pattern Generation Instruction Circuit 120 Buffer 130 Optical Signal Transmission Circuit 200 Optical Signal Reception Circuit 205 Storage Timing Control Circuit 210 Buffer Control Circuit 220 Buffer 230 Storage Timing Signal Monitoring Circuit 240 Fault Detection Circuit 250 Register 255 Crossbar switch circuit 300, 340 Signal line 400, 410 Optical cable 500, 570 Signal line

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 コンピュータを1ノードとし、複数のノ
ードをインタフェース装置を介して接続して構成したコ
ンピュータシステムにおいて、 各ノードは、 送信対象データを生成するデータ生成手段と、 前記データ生成手段により生成されたデータの送信タイ
ミングを制御するための同期パターンを生成する同期パ
ターン生成手段と、 障害の発生を検出する障害検出手段と、 該障害検出手段により障害が検出された際に、前記同期
パターン生成手段を制御して前記同期パターンの生成を
抑止する同期パターン生成抑制回路と、 前記データ生成手段により生成された送信対象データと
前記同期パターン生成手段により生成された同期パター
ンを他ノードに前記インタフェース装置を介して送信す
る送信手段と、 を備え、 前記インタフェース装置は、 送信側ノードからデータを受信する受信手段と、 前記受信手段により受信されたデータ中の同期パターン
を検出し、検出された同期パターンに従って、受信した
データを受信側ノードに転送する転送手段と、 前記受信手段により受信されたデータ中に同期パターン
を検出ができない場合に、データ転送を中断させると共
に受信側のノードに送信側ノードで障害が発生したこと
を通知する制御手段と、 を備えることを特徴とするコンピュータシステム。
1. A computer system comprising a computer as one node and a plurality of nodes connected to each other through an interface device, wherein each node generates data to be transmitted, and data generation means, and the data generation means. Pattern generation means for generating a synchronization pattern for controlling the transmission timing of the generated data, failure detection means for detecting the occurrence of a failure, and synchronization pattern generation means for detecting a failure by the failure detection means A synchronization pattern generation suppressing circuit for controlling the means to suppress the generation of the synchronization pattern, the transmission target data generated by the data generating means, and the synchronization pattern generated by the synchronization pattern generating means to another node to the interface device. Transmitting means for transmitting via the interface, And a receiving means for receiving data from the transmitting side node, and a transfer means for detecting a synchronization pattern in the data received by the receiving means and transferring the received data to the receiving side node according to the detected synchronization pattern. And a control means for interrupting the data transfer and notifying the receiving side node that a failure has occurred at the transmitting side node when a synchronization pattern cannot be detected in the data received by the receiving means. A computer system characterized by the above.
【請求項2】 前記転送手段は、前記受信手段により受
信されたデータ中の同期パターンから格納タイミング信
号を生成する手段と、前記格納タイミング信号に従って
前記受信手段により受信したデータを格納する手段と、
を備え、 前記制御手段は、前記格納タイミング信号が所定パター
ンに一致した時に、送信側ノードに障害が発生したこと
を検知する、 ことを特徴とする請求項1に記載のコンピュータシステ
ム。
2. The transfer means generates a storage timing signal from a synchronization pattern in the data received by the reception means, and stores the data received by the reception means according to the storage timing signal.
2. The computer system according to claim 1, wherein the control means detects that a failure has occurred in the transmission side node when the storage timing signal matches a predetermined pattern.
【請求項3】 複数のコンピュータをインタフェース装
置を介して結合し、コンピュータ間のデータ転送を同期
パターンにより同期をとって行うコンピュータシステム
における障害通知方法であって、 データ送信側のコンピュータは、障害が発生したとき、
同期パターンの生成を停止し、 前記インタフェース装置は、前記コンピュータの送信デ
ータ中に同期パターンを検出ができない場合に該コンピ
ュータに障害が発生したと判別し、データ受信側のコン
ピュータに障害の発生を通知する、 ことを特徴とする障害通知方法。
3. A failure notification method in a computer system in which a plurality of computers are coupled via an interface device and data transfer between the computers is synchronized by a synchronization pattern, wherein the computer on the data transmission side has a failure. When it occurs,
The generation of the synchronization pattern is stopped, and the interface device determines that a failure has occurred in the computer when the synchronization pattern cannot be detected in the transmission data of the computer, and notifies the computer on the data receiving side of the occurrence of the failure. A failure notification method characterized by:
JP8043899A 1996-02-29 1996-02-29 Computer system and fault informing method Pending JPH09237258A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8043899A JPH09237258A (en) 1996-02-29 1996-02-29 Computer system and fault informing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8043899A JPH09237258A (en) 1996-02-29 1996-02-29 Computer system and fault informing method

Publications (1)

Publication Number Publication Date
JPH09237258A true JPH09237258A (en) 1997-09-09

Family

ID=12676562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8043899A Pending JPH09237258A (en) 1996-02-29 1996-02-29 Computer system and fault informing method

Country Status (1)

Country Link
JP (1) JPH09237258A (en)

Similar Documents

Publication Publication Date Title
EP2206293B1 (en) System and method for signal failure detection in a ring bus system
JPS58172050A (en) Station operating method
JPH11127129A (en) Line fault notification system for terminal device
JPS63294146A (en) Communication control equipment
US8295161B2 (en) Network apparatus that determines whether data is written into buffer based on detection of a memory error
JPH09237258A (en) Computer system and fault informing method
JP2001217796A (en) No-hit switching device and network system
EP1988469B1 (en) Error control device
JP2002027025A (en) Data transmitting system
EP0239323A2 (en) CPU channel to control unit extender
JP4108675B2 (en) Data transfer apparatus and failure recovery method used for the data transfer apparatus
JP2932359B2 (en) Fault notification circuit
JPH11168502A (en) Communication fault processor and communication fault processing method
JPH09284356A (en) Data reception controller
JP3179367B2 (en) Failure detection method for asynchronous data transfer equipment
JP3076219B2 (en) Sequential propagation type transmission system
JP3206542B2 (en) Bus connection device
JP2655738B2 (en) Switching system between redundant system and single system
JPS63246946A (en) Fault detection system for communication equipment in loop structure network
JP2003018203A (en) Transmission device
JPH11136309A (en) Data processing system
KR20000026467A (en) Asynchronous data communication system
JP2600021B2 (en) Time slot indication check processing method
JP3160927B2 (en) Loop test circuit
JP2000250624A (en) Monitoring system for intra-device state

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040302