JPH10240566A - Computer system - Google Patents

Computer system

Info

Publication number
JPH10240566A
JPH10240566A JP9045248A JP4524897A JPH10240566A JP H10240566 A JPH10240566 A JP H10240566A JP 9045248 A JP9045248 A JP 9045248A JP 4524897 A JP4524897 A JP 4524897A JP H10240566 A JPH10240566 A JP H10240566A
Authority
JP
Japan
Prior art keywords
packet
network
processor
data
maintenance terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9045248A
Other languages
Japanese (ja)
Inventor
Fujio Yokoyama
不二夫 横山
Masahito Ishii
将人 石井
Kenji Tsuji
憲司 辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP9045248A priority Critical patent/JPH10240566A/en
Publication of JPH10240566A publication Critical patent/JPH10240566A/en
Pending legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

PROBLEM TO BE SOLVED: To detect the position of a cable fault in its early stage and to improve the availability by the reduction of a fault analysis man-hour and a time and the reduction of MTTR(mean time to repair) by providing a means which records the passage confirmation of data on a network for communication between processors so as to specify a fault position in the network. SOLUTION: A terminal 108 for maintenance which is informed of abnormality of the inter-PE network from an arbitrary PE 101 during normal operation indicates a one-to-one communication with its PE to respective PE's through Etherenet 110. Each PE sends a packet to the PE. The maintenance terminal 108 after receiving a report on packet transmission completion from each PE checks whether or not there is a processor from which no packet arrives or a PE having received a packet with a wrong address. If there is sch a processor or PE, faulty communication path specifying operation is carried out. When an faulty communication path can be specified, the maintenance terminal 108 performs a faulty place specifying process.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、複数のプロセッサ
間で並列に処理を行う計算機システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a computer system for performing parallel processing among a plurality of processors.

【0002】[0002]

【従来の技術】従来のプロセッサ間通信用ネットワーク
においては、特開平5−81224号公報記載のよう
に、故障の検出や故障検出後の処理に関するものは多く
論じられているが、故障箇所の特定に関するものはな
く、一般の計算機システムと同様にマシーンチェックラ
ッチの記録を追跡して故障位置を特定する手段が用いら
れている。このため、多数のプロセッサ間の通信ネット
ワークの故障、特にプロセッサ間のケーブルや接続点の
故障箇所特定は人手に頼ることが多く、故障解析工数/
時間の増大、MTTR(Mean Time To Repair)の
増加による可用性の低下を招いていた。
2. Description of the Related Art In a conventional network for communication between processors, as described in Japanese Patent Application Laid-Open No. 5-81224, there are many discussions relating to failure detection and processing after failure detection. There is no means relating to this, and means for tracing the record of the machine check latch and specifying the fault location is used as in a general computer system. For this reason, failures in communication networks between a large number of processors, in particular, failure locations of cables and connection points between processors often depend on human beings.
Availability has been reduced due to an increase in time and an increase in MTTR (Mean Time To Repair).

【0003】また、プロセッサ間ネットワークが多重化
されているシステムでは、一つのネットワークに故障が
発生したとき、システム全体として稼働させたまま、ネ
ットワークの故障位置を特定し早期に修理しシステム性
能低下の復旧を図る必要があるが、従来技術では、ネッ
トワーク上のケーブル等の故障時には故障位置特定が困
難なため、システム稼働中の故障位置特定は困難であっ
た。
Further, in a system in which networks between processors are multiplexed, when a failure occurs in one network, the fault location of the network is identified and repaired at an early stage while the system as a whole is in operation to reduce system performance. In the prior art, it is difficult to specify a failure position when a cable or the like on a network fails, and thus it is difficult to specify a failure position during operation of the system.

【0004】[0004]

【発明が解決しようとする課題】本発明の第1の目的
は、プロセッサ間ネットワークの故障、特にプロセッサ
間を接続するケーブル故障の障害箇所を早期に検出し、
故障解析工数/時間の低減、MTTRの低減による可用
性の向上を図ることにある。
SUMMARY OF THE INVENTION It is a first object of the present invention to detect a failure in a network between processors, particularly a failure in a cable connecting between processors, at an early stage.
An object of the present invention is to improve the availability by reducing the number of failure analysis steps / time and the MTTR.

【0005】本発明の第2の目的は、ケーブル等の故障
時にシステム全体をダウンさせることなく、故障位置特
定を行うことにある。
A second object of the present invention is to specify a failure position without bringing down the entire system in the event of a failure of a cable or the like.

【0006】[0006]

【課題を解決するための手段】上記目的は、故障位置を
特定するべき通信経路を自プロセッサへのデータ送受に
より特定する手段と、該経路へ通過確認用のデータを送
出する手段と、通過確認用のデータの通過時のみ通過を
記録する手段を設ける。
SUMMARY OF THE INVENTION The object of the present invention is to provide a means for specifying a communication path for specifying a failure position by transmitting / receiving data to / from the own processor, a means for transmitting data for passage confirmation to the path, and a means for confirming passage. Means is provided for recording the passage only when the data for use passes.

【0007】上記手段により、故障発生時には各プロセ
ッサに対して自プロセッサへの通信を指示し、受信不可
のプロセッサや誤って受信したプロセッサの位置からお
およその故障経路を推定し、次に、該経路へ通過確認用
のデータを送出し、通過確認ラッチをトレースして故障
位置を特定することができる。
By the above means, when a failure occurs, each processor is instructed to communicate to its own processor, an approximate failure path is estimated from the position of the unreceivable processor or the erroneously received processor. , Data for passing confirmation can be sent out, and the passing confirmation latch can be traced to specify the fault position.

【0008】上記手段によれば、人手による故障解析工
数を大幅に削減し、MTTRの低減ひいては可用性の向
上を図ることができる。また、ネットワークが2重化さ
れた複数プロセッサシステムでは、システムをダウンさ
せないで故障位置の特定を行うことができ、また、シス
テム性能低下期間を低減することができる。
According to the above means, the number of man-hours for failure analysis can be significantly reduced, and the MTTR can be reduced, and the availability can be improved. Further, in a multiple processor system having a duplicated network, a failure position can be specified without bringing down the system, and a period during which system performance is reduced can be reduced.

【0009】[0009]

【発明の実施の形態】以下、本発明の一実施例を図を用
いて説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be described below with reference to the drawings.

【0010】図1は、本発明の実施例の構成図である。
各プロセッサ(図中のPE)101は、ネットワークを
通じて接続しており、自PEを含む任意のPEと通信が
可能である。
FIG. 1 is a block diagram of an embodiment of the present invention.
Each processor (PE in the figure) 101 is connected through a network, and can communicate with an arbitrary PE including its own PE.

【0011】ネットワーク107はクロスバ方式であ
り、Z,Y,Xの3次元のクロスバスイッチ(XB)か
ら構成されている。各次元毎に複数の同一なクロスバス
イッチZ−XB(102)、Y−XB(103)、X−
XB(104)から構成される。各スイッチには8本の
通信路105が入力され、8本の通信路105が次段の
スイッチへ出力される。また、各スイッチには各入出力
に対応して通過確認ラッチ106が一個配備されてい
る。
The network 107 is of a crossbar type, and comprises a three-dimensional Z, Y, X crossbar switch (XB). A plurality of identical crossbar switches Z-XB (102), Y-XB (103), X-
XB (104). Eight communication paths 105 are input to each switch, and the eight communication paths 105 are output to the next switch. Each switch is provided with one passage confirmation latch 106 corresponding to each input / output.

【0012】当ネットワークの交換方式はパケット交換
方式であり、通過確認用データもパケットである。以後
通過確認用データをトレースパケットと言う。
The switching system of this network is a packet switching system, and the data for passage confirmation is also a packet. Hereinafter, the passage confirmation data is referred to as a trace packet.

【0013】前記のPE101、ネットワーク107は
保守用端末とそれぞれイーサネット110、スキャン専
用信号112で接続されている。スキャン専用信号11
1は制御信号、データ信号、アドレス信号で構成されて
いる。
The PE 101 and the network 107 are connected to a maintenance terminal via an Ethernet 110 and a scan signal 112, respectively. Scan-only signal 11
Reference numeral 1 denotes a control signal, a data signal, and an address signal.

【0014】図2は、故障解析手順の概略を示した図で
ある。201〜204で同一PE間の1対1通信を行う
ことにより障害発生経路の絞り込みを行い、205で故
障位置特定処理を行う(図3に詳細を示す)。該故障解
析の制御は保守用端末から行い、保守用端末は、図1の
イーサネット110やスキャン信号111を用いてPE
101やネットワークスイッチ102〜104から故障
解析用データの収集を行う。故障解析開始は異常報告を
保守用端末が受けてから、自動的に行うことも可能であ
るし、人手により指示することも可能である。
FIG. 2 is a diagram schematically showing a failure analysis procedure. In steps 201 to 204, a fault occurrence path is narrowed down by performing one-to-one communication between the same PEs, and a fault position specifying process is performed in 205 (details are shown in FIG. 3). The control of the failure analysis is performed from the maintenance terminal, and the maintenance terminal uses the Ethernet 110 and the scan signal 111 in FIG.
The failure analysis data is collected from the network switch 101 and the network switches 102 to 104. The failure analysis can be started automatically after the maintenance terminal receives the abnormality report, or can be manually instructed.

【0015】図3は、図2の205に対応する故障箇所
特定処理の概要を示した図である。点線より左側は保守
用端末108での処理、右側はPE101での処理を示
す。保守用端末108の動作は、スイッチ102〜10
4のスキャン制御、PEへのトレースパケット送出指
示、通信経路の特定、通過確認ラッチトレース、障害箇
所表示等の解析動作から構成される。
FIG. 3 is a diagram showing an outline of a fault location specifying process corresponding to 205 in FIG. The left side of the dotted line shows the processing in the maintenance terminal 108, and the right side shows the processing in the PE 101. The operation of the maintenance terminal 108 is performed by the switches 102 to 10.
4 includes analysis operations such as scan control, instruction to send a trace packet to the PE, specification of a communication path, passage confirmation latch trace, and display of a fault location.

【0016】図4は、パケットの構成図である。PE1
01は保守用端末108から故障位置トレースパケット
の送出を指示されると、図4の2ワード目の第3ビット
を‘1’にしてトレースパケットであることを示すフラ
グ(Jフラグ)を設定してパケットを送出する。
FIG. 4 is a configuration diagram of a packet. PE1
When the maintenance terminal 108 instructs the transmission of the failure position trace packet from the maintenance terminal 108, the third bit of the second word in FIG. 4 is set to "1" to set a flag (J flag) indicating that the packet is a trace packet. Out the packet.

【0017】図では示していないが、スイッチ102〜
104はパケットを受信するとJフラグが設定されてい
るかどうかをチェックし入力側の通過確認ラッチをセッ
トする。通過確認ラッチのセットは、受信バッファーに
格納されたパケットの2ワード目の3ビット(Jフラグ
403)を通過確認ラッチのData端子に接続し、パケ
ット受信イベントをクロックのオン条件とすることによ
り実現できる。トレースパケットをスイッチから次段の
スイッチまたはPE101に送出する場合は送信バッフ
ァのJフラグ403のデータ出力側の通過確認ラッチに
セットする。
Although not shown in FIG.
104 receives the packet, checks whether the J flag is set, and sets the passage confirmation latch on the input side. The setting of the passage confirmation latch is realized by connecting the 3 bits (J flag 403) of the second word of the packet stored in the reception buffer to the Data terminal of the passage confirmation latch and setting the packet reception event as a clock ON condition. it can. When the trace packet is sent from the switch to the next-stage switch or PE 101, the trace packet is set in the pass confirmation latch on the data output side of the J flag 403 of the transmission buffer.

【0018】通過確認ラッチのセット方法としては、ス
イッチ内の制御プログラムによりパケットのデータをチ
ェックして設定する方法もある。また、ハードウェアで
実現する方法も上記方法以外にもSet/Reset端子を用
いる方法がある。送受信バッファに格納されたデータで
なくとも通過確認ラッチのセットに用いることはでき
る。
As a method of setting the passage confirmation latch, there is a method of checking and setting data of a packet by a control program in a switch. In addition to the above-described method, a method using a Set / Reset terminal may be used in hardware. Even if the data is not stored in the transmission / reception buffer, it can be used for setting the passage confirmation latch.

【0019】図1で、X印のある通信路105が断線し
ている場合について故障解析動作を説明する。まず、通
常動作中に任意のPE101からPE間ネットワークの
異常報告を受けた保守用端末は、図2に基づき、各PE
に対し自PEへの1対1通信をイーサネット110を通
じて指示する。各PEは自PE宛にパケットを送出す
る。保守用端末は各PEからパケット送出完了の報告を
受けた後、パケット未到着のプロセッサ、宛先誤りのパ
ケットを受信したPE有無を調べる(202〜20
3)。パケット未到着のプロセッサ、宛先誤りのパケッ
トを受信したPEがあった場合、204の障害通信経路
特定動作を行う。パケットを伝送して行く通信経路はこ
こでは述べないが、一定のアルゴリズムにより決定さ
れ、ルーティングテーブルに記録されている。この経路
は図4に示すようにパケット内の1〜2ワードにも記述
されている。パケット未到着のプロセッサ、宛先誤りの
パケットを受信したPEがない場合、つまり1対1通信
が正常に終了した場合、本発明では述べないが。別手段
により故障解析を進める。
In FIG. 1, a failure analysis operation when the communication path 105 marked with X is broken will be described. First, the maintenance terminal that has received an abnormality report of the network between PEs from any PE 101 during the normal operation, based on FIG.
To the own PE via the Ethernet 110. Each PE sends a packet to its own PE. After receiving the report of the completion of the packet transmission from each PE, the maintenance terminal checks the processor that has not arrived the packet and the presence or absence of the PE that has received the packet with the destination error (202 to 20).
3). If there is a processor for which a packet has not arrived and a PE has received a packet with a destination error, the fault communication path specifying operation of 204 is performed. Although not described here, the communication path through which the packet is transmitted is determined by a certain algorithm and recorded in the routing table. This route is also described in one or two words in the packet as shown in FIG. In the case where there is no processor for which a packet has not arrived and there is no PE which has received a packet with a destination error, that is, when the one-to-one communication has been normally completed, the present invention will not be described. Perform failure analysis by another means.

【0020】204により障害通信経路を特定できた場
合、保守用端末は205の障害箇所特定処理を実行す
る。この詳細を図3により説明する。まず、全ての通過
確認ラッチ106をスキャン専用信号111を通してリ
セットしておき(301)、イーサネット110から障
害通信経路上のPEに対しトレースパケットの送出を指
示する(302)。該指示を受けたPEは該当する障害
通信経路に対してトレースパケットを送出する(30
3)。該PEからトレースパケットの送出完了報告を受
けた後、保守用端末108は該PEがパケットを受信し
ていないことを確認後、スキャン専用信号111を通し
てトレース経路上の通過確認ラッチを探索し、点灯して
いないラッチを検出する(304〜305)。図1の断
線の場合、クロスバスイッチ104(X−XB)の入力
側の通過確認ラッチが点灯しておらず、ソース側のクロ
スバスイッチ103(Y−XB1)の出力側通過確認ラ
ッチは点灯している。このため、X−XB104とY−
XB103間に断線があることがわかる。
When the faulty communication path can be specified by 204, the maintenance terminal executes the fault location specifying process of 205. This will be described in detail with reference to FIG. First, all the passage confirmation latches 106 are reset through the scan dedicated signal 111 (301), and the Ethernet 110 instructs the PE on the faulty communication path to transmit a trace packet (302). The PE receiving the instruction sends a trace packet to the corresponding faulty communication path (30).
3). After receiving the trace packet transmission completion report from the PE, the maintenance terminal 108 confirms that the PE has not received the packet, searches the passage confirmation latch on the trace path through the scan dedicated signal 111, and turns on the light. A latch that has not been detected is detected (304 to 305). In the case of the disconnection of FIG. 1, the input side passage confirmation latch of the crossbar switch 104 (X-XB) is not lit, and the output side passage confirmation latch of the source side crossbar switch 103 (Y-XB1) is lit. I have. Therefore, X-XB104 and Y-
It turns out that there is a disconnection between XB103.

【0021】この結果は保守用端末のディスプレイにエ
ラー箇所が表示され(305)、ケーブルの取り替えが
行われる。
As a result, the error location is displayed on the display of the maintenance terminal (305), and the cable is replaced.

【0022】[0022]

【発明の効果】上記実施例によれば、人手でケーブルの
断線をチェックすることなく、故障箇所を特定できるの
で、ネットワークの故障解析工数を大幅に消滅でき、シ
ステムのMTTRを短縮できる。多重化されたプロセッ
サ間ネットワークでも、保守用端末からリモートで断線
したケーブル位置を検出できるので、正常に動作してい
るネットワークへ物理的に干渉することなく、故障解析
ができ、システム性能低下期間を短縮することができ
る。
According to the above-described embodiment, since the fault location can be specified without manually checking the cable for disconnection, the number of man-hours for network fault analysis can be largely eliminated, and the MTTR of the system can be shortened. Even in a multiplexed inter-processor network, it is possible to detect the position of a disconnected cable remotely from a maintenance terminal, so that failure analysis can be performed without physically interfering with a normally operating network, and the system performance degradation period can be reduced. Can be shortened.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例のケーブル切断時のトレース
方法を示す図である。
FIG. 1 is a diagram showing a tracing method at the time of cutting a cable according to an embodiment of the present invention.

【図2】障害解析手順概略を示す。FIG. 2 shows an outline of a failure analysis procedure.

【図3】障害箇所特定手順を示す。FIG. 3 shows a fault location identification procedure.

【図4】当実施例のパケットフォーマットを示す。FIG. 4 shows a packet format of the present embodiment.

【符号の説明】[Explanation of symbols]

101…プロセッサ(PE)、 102〜104…ク
ロスバスイッチ、105…通信経路、 1
06…通過確認ラッチ、107…PE間ネットワーク、
108…保守用端末、109…スキャン制御回路、
110…イーサネット、111…スキャン専用信
号、201〜204…プロセッサ間通信による障害経路
特定処理、205…障害箇所特定処理、301〜303
…障害箇所特定用トレースパケット送出処理、304…
通過確認ラッチトレース処理、 305…障害箇所表
示処理、401…パケットID、 402…ル
ーティング情報フィールド、403…トレースパケット
フラグ。
101: Processor (PE), 102 to 104: Crossbar switch, 105: Communication path, 1
06: passage confirmation latch, 107: network between PEs,
108: maintenance terminal, 109: scan control circuit,
110: Ethernet; 111: Scan-only signal; 201-204: Failure path identification processing by inter-processor communication; 205: Failure point identification processing; 301-303
… Trouble packet transmission processing for fault location identification, 304…
Passage confirmation latch trace processing, 305: Fault location display processing, 401: Packet ID, 402: Routing information field, 403: Trace packet flag.

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】複数のプロセッサで並列に処理を行う計算
機システムにおいて、複数のプロセッサ間通信用ネット
ワークの故障位置特定のために、ネットワーク上にデー
タの通過確認を記録する手段を有することを特徴とする
計算機システム。
1. A computer system in which a plurality of processors perform processing in parallel, characterized in that the computer system includes means for recording a data passage confirmation on a network for identifying a fault location of a plurality of inter-processor communication networks. Computer system.
【請求項2】請求項1に記載の計算機システムにおい
て、ネットワークに送出するデータ上に通過確認用のデ
ータである旨を指定する手段を設け、該指定があるデー
タが通過したときのみ前記通過確認を記録する手段に記
録することを特徴とする計算機システム。
2. The computer system according to claim 1, further comprising means for designating, on the data to be transmitted to the network, data for passing confirmation, said passing confirmation only when said designated data passes. A computer system characterized by recording on a recording means.
JP9045248A 1997-02-28 1997-02-28 Computer system Pending JPH10240566A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9045248A JPH10240566A (en) 1997-02-28 1997-02-28 Computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9045248A JPH10240566A (en) 1997-02-28 1997-02-28 Computer system

Publications (1)

Publication Number Publication Date
JPH10240566A true JPH10240566A (en) 1998-09-11

Family

ID=12713974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9045248A Pending JPH10240566A (en) 1997-02-28 1997-02-28 Computer system

Country Status (1)

Country Link
JP (1) JPH10240566A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000330822A (en) * 1999-04-07 2000-11-30 Internatl Business Mach Corp <Ibm> Concentrated tracing function by dynamic tracing in data processing system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000330822A (en) * 1999-04-07 2000-11-30 Internatl Business Mach Corp <Ibm> Concentrated tracing function by dynamic tracing in data processing system

Similar Documents

Publication Publication Date Title
JPH0668041A (en) Computer system
CA2369201A1 (en) System and method for providing maintenance of fabric links for a network element
JP3574425B2 (en) Packet Processing Method Using Multi-Fault-Tolerant Network Structure
JP2002009806A (en) Lan communication path control system and control method
JPH04351032A (en) Network changeover control method
JPH10240566A (en) Computer system
JP3551481B2 (en) Router device test method and router test device
JP3961517B2 (en) System, crossbar device, and fault notification method used therefor
JPH0637782A (en) Network equipment
JPS641987B2 (en)
JP2005269004A (en) Method for deciding failure part of multiplex loop network, multiplex loop network, node device
JP2881185B2 (en) Message switching device
JPH0435251A (en) Fault monitor system for ring network
CN112636944B (en) OLT equipment offline intelligent diagnosis method and system
JPH08163162A (en) Loop type data transmitter
JPH01140361A (en) Data processing system with channel diagnostic function
JPH10124141A (en) Device for analyzing fault of controller
JP2956385B2 (en) Bus line monitoring method
JPH0923254A (en) Inter-system data link system
JP3084310B2 (en) Computer network monitoring method
JP2730564B2 (en) Communication path control system
JP2002077244A (en) System for restoring failure of communication network
JP2021022760A (en) Communication path monitoring device and communication path monitoring method
JP2633478B2 (en) Dynamic digit analysis method based on station number status and line status
JP2003158559A (en) Self-diagnosis apparatus