JP3084383B2 - Ring communication path failure processing method - Google Patents

Ring communication path failure processing method

Info

Publication number
JP3084383B2
JP3084383B2 JP02324106A JP32410690A JP3084383B2 JP 3084383 B2 JP3084383 B2 JP 3084383B2 JP 02324106 A JP02324106 A JP 02324106A JP 32410690 A JP32410690 A JP 32410690A JP 3084383 B2 JP3084383 B2 JP 3084383B2
Authority
JP
Japan
Prior art keywords
failure
transmission
ring
processor
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP02324106A
Other languages
Japanese (ja)
Other versions
JPH04192836A (en
Inventor
順治 宮川
正博 倉田
勉 相沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Nippon Telegraph and Telephone Corp
Original Assignee
Fujitsu Ltd
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, Nippon Telegraph and Telephone Corp filed Critical Fujitsu Ltd
Priority to JP02324106A priority Critical patent/JP3084383B2/en
Publication of JPH04192836A publication Critical patent/JPH04192836A/en
Application granted granted Critical
Publication of JP3084383B2 publication Critical patent/JP3084383B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明はリング通信路障害処理方式に係り、特にロー
カルエリアネットワークにおける複数のプロセッサ間を
光ループ等の1本のリング形状の通信路を用いて結合し
た複数のプロセッサから構成される複合計算機システム
において、送信異常時の障害箇所が送信先のプロセッサ
側にあるのか、リング通信路にあるのかを識別し、障害
箇所に応じた最適な障害処理を選択可能なリング通信路
障害処理方式に関する。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a ring communication path fault processing system, and particularly to a method using a single ring-shaped communication path such as an optical loop between a plurality of processors in a local area network. In a multi-computer system consisting of multiple processors that are connected together, it identifies whether the fault location at the time of a transmission error is on the destination processor side or on the ring communication path, and performs optimal fault handling according to the fault location. The present invention relates to a ring communication path failure processing method capable of selecting the following.

〔従来の技術〕[Conventional technology]

光ループ等のリング形状の通信路を用いた通信では送
信プロセッサは送信データに送信先アドレス情報を付与
してリング通信路(以下リングという)上にデータを出
力する。この出力されたデータはリング上を一定方向に
伝わる。
In communication using a ring-shaped communication path such as an optical loop, a transmission processor adds destination address information to transmission data and outputs the data on a ring communication path (hereinafter, referred to as a ring). The output data is transmitted on the ring in a certain direction.

送信先となった受信側のプロセッサでは通信アダプタ
部がリングに各プロセッサを接続しており、データのア
ドレス情報と送信先アドレスが一致しているかチェック
を行ない、一致している場合にプロセッサ内に送信デー
タが取り込まれ、かつ、送信元に対して受信側からの受
信応答データ通知が返される。この受信応答データは前
記の送信データと同一方向に伝達され、リングを一周し
て送信元に戻る。
In the receiving processor that is the destination, the communication adapter unit connects each processor to the ring and checks whether the address information of the data matches the destination address. The transmission data is fetched, and a reception response data notification from the receiving side is returned to the transmission source. The reception response data is transmitted in the same direction as the transmission data, and returns to the transmission source after making a round of the ring.

また、物理リングを二重化しておき、各通信アダプタ
部で信号のレベル監視手段等を用いてリング断の監視を
行う。また、リング断を検出したアダプタ部でリングを
ループバックすることによって正常な閉リングを再構成
して通信路を確保する高信頼対策が採られている。
In addition, the physical ring is duplicated, and each communication adapter monitors the disconnection of the ring by using a signal level monitoring unit or the like. In addition, high reliability measures are taken to secure a communication path by reconstructing a normal closed ring by looping back the ring at the adapter unit that detects the ring disconnection.

従来方式では、一定時間内に送信先より受信応答が戻
ってこない場合、送信元のアダプタ部からのデータ送信
は正常であったため、他系が応答しないものとして一意
に他系障害としてプロセッサ内の送信要求元プログラム
に送信失敗を通知する。
In the conventional method, if a reception response does not return from the transmission destination within a certain time, data transmission from the transmission source adapter unit was normal, so that the other system did not respond and was uniquely identified as another system failure in the processor. Notifies the transmission requesting program of transmission failure.

〔発明が解決しようとする課題〕[Problems to be solved by the invention]

しかるに、従来方式ではデータ送信後、一定時間内に
受信応答が戻ってこない場合、アダプタからの送信は正
常であったとし、他系がダウン中で、応答を返さない等
の他系側に原因がある場合以外に、送信側元アダプタの
リング接続部の不良によってアダプタ自身がリングの両
端の他のアダプタによってループバックされた通信路に
異常がある場合等の自系側に原因がある場合もあるた
め、他系および自系のどちらに真の障害原因があるのか
即断することができず、障害処理が遅れるという問題が
ある。
However, in the conventional method, if a reception response does not return within a certain period of time after data transmission, the transmission from the adapter is assumed to be normal, and the other system is down and does not return a response. In addition to the case where there is a problem, there is also a case where there is a problem on the local system side such as a case where the adapter itself has an error in the communication path looped back by other adapters at both ends of the ring due to a failure in the ring connection part of the sender side adapter For this reason, it is impossible to immediately determine which of the other system and the own system has the true cause of the failure, and there is a problem that the failure processing is delayed.

〔課題を解決するための手段〕[Means for solving the problem]

第1図は、本発明の原理説明図である。リング形状の
閉じられた通信路に複数のプロセッサを接続して相互に
データの送受信を行い、かつリング通信路障害時はプロ
セッサをリング伝送路に接続する通信アダプタ部におい
て障害部位をループバックし、正常な閉リング通信路を
再編成して通信の継続を図るプロセッサ間通信方式にお
いて、データ送信後送信先のプロセッサからの応答を監
視する応答監視手段1と、該応答監視手段1により一定
時間内に応答が戻らないと判定された場合にデータ送信
先アドレスを送信対象プロセッサのPCIアドレスから自
プロセッサのPCIアドレスに変更して、自プロセッサ宛
にデータの再送信を行う再送信手段3と、再送信手段3
により自プロセッサ宛データを正常に受信した場合は障
害原因を他系障害とし、自プロセッサ宛の送信も失敗し
た場合は障害原因を自系障害として送信したプロセッサ
内の送信要求元プログラムに送信失敗を通知する送信異
常通知手段5と、データ送信失敗時に自プロセッサ宛の
リング折り返し再送試験を行う再送試験手段7と、再送
試験手段7で得られた結果に基づいて障害原因を識別す
る障害識別手段9と、障害識別手段9で自系障害と識別
された場合は送信側通信アダプタ部を障害として切離
し、予備の通信アダプタ部を用いて送信を継続し、他系
障害と識別された場合は他系障害通信アダプタ部からの
再開通知を受信するまで新たな送信要求に対して他系障
害中を通知する障害対策手段11とを有する。
FIG. 1 is a diagram illustrating the principle of the present invention. A plurality of processors are connected to a ring-shaped closed communication path to mutually transmit and receive data, and at the time of a ring communication path failure, loop back a failure site in a communication adapter unit connecting the processor to the ring transmission path, In an inter-processor communication method for reorganizing a normal closed ring communication path and continuing communication, a response monitoring means 1 for monitoring a response from a destination processor after data transmission, and the response monitoring means 1 If it is determined that no response is returned, the retransmission means 3 changes the data transmission destination address from the PCI address of the transmission target processor to the PCI address of the own processor, and retransmits the data to the own processor. Transmission means 3
If the data to the own processor is received normally, the cause of the failure is regarded as another system failure, and if the transmission to the own processor also fails, the transmission failure is sent to the transmission request source program in the processor that transmitted the failure cause as the own system failure. A transmission abnormality notifying unit 5 for notifying, a retransmission test unit 7 for performing a ring return retransmission test addressed to the own processor when data transmission fails, and a failure identification unit 9 for identifying a cause of the failure based on the result obtained by the retransmission test unit 7 If the failure identification means 9 identifies the failure as the own system failure, the communication adapter on the transmitting side is disconnected as a failure, and the transmission is continued using the spare communication adapter. A failure countermeasure unit 11 for notifying that a new transmission request is being made in response to a new transmission request until a restart notification is received from the failure communication adapter unit.

〔作用〕[Action]

本発明はデータ送信後一定時間内に受信応答が戻って
こない場合の原因が送信元アダプタによってループバッ
クされた通信路に異常があるとする時に、送信元アダプ
タ自身を送信元に指定し、リングを一周したリング折り
返しデータ送信を行うことにより、通信先プロセッサ側
に異常原因(他系障害)があるか、通信路を含む送信元
アダプタ部に異常原因(自系障害)があるかを識別す
る。
The present invention specifies the source adapter itself as the source when the cause of the case where the reception response does not return within a certain time after data transmission is that the communication path looped back by the source adapter is abnormal, By performing ring return data transmission that goes around the network, it is determined whether there is an abnormality cause (other system failure) on the communication destination processor side or an abnormality cause (own system failure) in the source adapter unit including the communication path. .

このため、現用リングと予備リングの切り分け可能で
あるリング通信路を用い、送信先からの応答データが一
定時間内に戻らない場合、送信先を送信元アダプタに変
更して再送信を行い、その結果に基づいて自系障害か他
系障害かを識別後、通信異常を送信要求プログラムに通
知する。
Therefore, if the response data from the destination does not return within a certain period of time using a ring communication path that can be separated from the working ring and the backup ring, the destination is changed to the source adapter and retransmitted. After identifying whether it is a self-system failure or another-system failure based on the result, the communication abnormality is notified to the transmission request program.

また、自系障害時は、自系プロセッサに対応する別の
通信アダプタの有無をチェックし、別の通信アダプタが
存在している場合に、その通信アダプタを用いて、通信
を継続する。一方、他系障害時は他系の回復を自動監視
することによって自系または他系のそれぞれの障害箇所
に応じた最適な障害処理を行う。
In addition, at the time of the own system failure, the presence or absence of another communication adapter corresponding to the own system processor is checked, and if another communication adapter is present, communication is continued using that communication adapter. On the other hand, in the event of a failure in the other system, an optimum failure process according to the failure location of the own system or the other system is performed by automatically monitoring the recovery of the other system.

〔実施例〕〔Example〕

第2図は本発明の一実施例のシステム構成図を示す。
同図中、高速リング通信路(以下リングという)21は現
用リング41、予備リング43がある。プロセッサ23、25、
27、29はリング21に接続されている。通信アダプタ(PC
I:Processer Communication Interface)31、33、35、3
7、39は各プロセッサをリング21に接続する。
FIG. 2 shows a system configuration diagram of one embodiment of the present invention.
In the figure, a high-speed ring communication path (hereinafter referred to as a ring) 21 includes a working ring 41 and a spare ring 43. Processors 23, 25,
27 and 29 are connected to the ring 21. Communication adapter (PC
I: Processor Communication Interface) 31, 33, 35, 3
7, 39 connect each processor to the ring 21.

第3図は本発明の一実施例の各プロセッサ内の機能の
ブロック図を示す。同図は、第2図の送信側プロセッサ
23を例として示しているため同一部分には同一符号を付
す。通信対象プログラム301は各プロセッサ間のデータ
の送受信の主体となる。リング送受信制御部302は通信
対象プログラム301からのデータ送受信要求に従い通信
対象プログラムとの送受信データを授受する。送信制御
部303はリング送受信制御部302からの送信データをPCI3
1を介してリングに送出する。受信制御部304はPCI31を
介してリング21から自プロセッサ宛のデータを受信す
る。
FIG. 3 is a block diagram showing functions in each processor according to one embodiment of the present invention. FIG. 2 shows the transmitting processor shown in FIG.
Since 23 is shown as an example, the same parts are denoted by the same reference numerals. The communication target program 301 is a main body for transmitting and receiving data between the processors. The ring transmission / reception control unit 302 exchanges transmission / reception data with the communication target program in accordance with the data transmission / reception request from the communication target program 301. The transmission control unit 303 transmits the transmission data from the ring transmission / reception control unit 302 to the PCI3
Deliver to the ring via one. The reception control unit 304 receives data addressed to the own processor from the ring 21 via the PCI 31.

また、再送信制御部305、障害識別制御部306、PCI管
理部307により送受信異常時の処理を制御する異常処理
手段を構成している。再送信制御部305は、送信異常時
に再度、リング21にデータを送出する制御を行う。障害
識別制御部306は再送信制御部305により送信され、その
結果に基づいて障害識別を行う。PCI管理部307は現用の
PCIまたは、予備のPCIの切り換え制御機能を有する。
Further, the retransmission control unit 305, the failure identification control unit 306, and the PCI management unit 307 constitute an abnormality processing unit that controls processing when transmission / reception is abnormal. Retransmission control section 305 performs control to transmit data to ring 21 again when transmission is abnormal. The failure identification control unit 306 is transmitted by the retransmission control unit 305, and performs failure identification based on the result. PCI management unit 307
It has a PCI or spare PCI switching control function.

リング21は現用リング41と予備リング43の2つの物理
リングから構成される。また、リング21に接続されてい
る各PCIはリング21の正常性を信号レベルで監視して、
リング21断検出時は自動的に現用リングから予備リング
43への切り換えを行い、通信の継続を保障する機能(リ
ング切り換え機能)を有する。
The ring 21 is composed of two physical rings, a working ring 41 and a spare ring 43. Also, each PCI connected to the ring 21 monitors the health of the ring 21 at the signal level,
Automatically switch from working ring to spare ring when ring 21 breakage is detected
It has a function (ring switching function) to switch to 43 and ensure continuation of communication.

前述の請求項における各手段と、上記の第3図に示す
各構成要素を以下のように定義する。応答監視手段1は
受信制御部304、再送信手段3は再送信制御部305、送信
異常通知手段5はリンク送受信制御部302、再送試験手
段7は送信制御部303、障害識別手段9は障害識別制御
部306、障害対策手段11はPCI管理部307にそれぞれ対応
する。
Each means in the above-mentioned claim and each component shown in FIG. 3 are defined as follows. The response monitoring unit 1 is a reception control unit 304, the retransmission unit 3 is a retransmission control unit 305, the transmission abnormality notification unit 5 is a link transmission / reception control unit 302, the retransmission test unit 7 is a transmission control unit 303, and the failure identification unit 9 is failure identification. The control unit 306 and the failure countermeasure unit 11 correspond to the PCI management unit 307, respectively.

第4図は送信元アダプタ障害によるリング断の例を示
す。PCIが現用リング41から予備リング43に切り換えて
も再度リング21断を検出する場合は、第4図に示すよう
にリング断を最初に検出する断箇所の両端のPCIにてリ
ング21をループバックし、正常な閉リングを再構成する
機能を有する。
FIG. 4 shows an example of ring disconnection due to a source adapter failure. In the case where the disconnection of the ring 21 is detected again even after the PCI switches from the working ring 41 to the spare ring 43, as shown in FIG. 4, the ring 21 is looped back at the PCI at both ends of the disconnection point where the ring disconnection is first detected. And has the function of reconstructing a normal closed ring.

次に第2図に示すように、プロセッサ23からプロセッ
サ25にデータ送信を行う場合を例として説明する。この
場合プロセッサ23は送信プロセッサとなり、プロセッサ
25は受信プロセッサとなる。
Next, a case where data is transmitted from the processor 23 to the processor 25 as shown in FIG. 2 will be described as an example. In this case, the processor 23 becomes a transmitting processor and the processor 23
25 is a receiving processor.

送信プロセッサ23は送信データに送信先アドレスであ
るPCI33のリングアドレスを送信データに付与して、現
用PCI31よりリング21にデータを出力する。
The transmission processor 23 adds the ring address of the PCI 33, which is the destination address, to the transmission data, and outputs the data to the ring 21 from the working PCI 31.

出力された送信データは現用リング41を一定方向に伝
わり、各PCIは自リングアドレスと送信先アドレスが一
致するかチェックし、自PCI宛のデータを取り込み自PCI
の接続するプロセッサ25に受信を通知する。
The output transmission data is transmitted through the working ring 41 in a certain direction.Each PCI checks whether its own ring address matches the transmission destination address, fetches the data addressed to its own PCI, and fetches its own PCI.
To the connected processor 25.

データを受信したプロセッサ25は逆に受信応答通知デ
ータをプロセッサ23に対して送信する。受信通知データ
は現用リング41上を前記送信データと同一方向に伝わ
り、PCI31にて受信される。
Conversely, the processor 25 that has received the data transmits the reception response notification data to the processor 23. The reception notification data is transmitted on the working ring 41 in the same direction as the transmission data, and is received by the PCI 31.

次に送受信異常時の処理について説明する。データの
送受信処理が失敗となる異常としては、リング21の障害
は各PCIのループバック機能によって救済可能であるの
で、送信PCIの異常(自系PCI障害)と受信PCI障害を含
む受信プロセッサ異常(他系障害)に大別できる。
Next, a process when a transmission / reception error occurs will be described. As an abnormality in which the data transmission / reception processing fails, the failure of the ring 21 can be remedied by the loopback function of each PCI, so that an abnormality in the transmission PCI (own system PCI failure) and an error in the reception processor including the reception PCI failure ( Other system disorders).

自系PCI障害はPCI管理部307の制御により現用PCI31か
ら予備PCI39に切り換えることによりデータ送信を継続
できる。
For the own system PCI fault, the data transmission can be continued by switching from the working PCI 31 to the spare PCI 39 under the control of the PCI management unit 307.

他系PCI障害時は予備PCIに切り換えても効果がなく、
他系の回復を待つ必要がある。しかし、自系PCI障害で
も第4図に示すように、PCI31のリング21との接続部
(同図中、×で示す)に故障があると、他系障害との切
り分けが難しく、いずれも受信応答データが一定時間内
に送信側に戻らない異常として検出される。自系PCIを
他系障害と誤認した場合、本来は予備PCI39へ切り換え
た場合に送信は継続可能となるにもかかわらず、永久に
復旧契機を得ることができない。
In case of other system PCI failure, switching to spare PCI has no effect,
It is necessary to wait for the recovery of another system. However, as shown in FIG. 4, even if there is a failure in the connection between the PCI 31 and the ring 21 (indicated by a cross in FIG. 4), it is difficult to isolate the failure from the other system. The response data is detected as an abnormality that does not return to the transmission side within a certain time. When the own system PCI is mistakenly recognized as the other system failure, although the transmission can be continued when the original PCI is switched to the spare PCI 39, a recovery opportunity cannot be permanently obtained.

次に上記の状況を回避するための方法を説明する。第
5図は本発明の一実施例の処理のフローチャートを示
す。
Next, a method for avoiding the above situation will be described. FIG. 5 shows a flowchart of a process according to one embodiment of the present invention.

同図では第4図に示したようにPCI31のリング接続部
に故障がある場合を仮定して説明する。リング21上のデ
ータのキャリー信号はPCI31で断となるため、PCI31の両
端のPCI33とPCI39でループバックが行われ、PCI33,PCI3
5,PCI37,PCI39の閉ループが再構成される。従ってこの
時、PCI31のみがリング21外にに切り離された状態にな
っている。
In the figure, description is made on the assumption that there is a failure in the ring connection part of the PCI 31 as shown in FIG. Since the data carry signal on the ring 21 is interrupted by PCI31, loopback is performed by PCI33 and PCI39 at both ends of PCI31, and PCI33, PCI3
5, The closed loop of PCI37 and PCI39 is reconfigured. Therefore, at this time, only the PCI 31 is disconnected outside the ring 21.

いま、第3図に示すプロセッサ23上の通信対象プログ
ラム301より、プロセッサ25に送信要求が生じたとする
(ステップ50)。
Now, it is assumed that a transmission request is issued to the processor 25 from the communication target program 301 on the processor 23 shown in FIG. 3 (step 50).

通信対象プログラム301は、リング送受信制御部302に
送信データとプロセッサ25の通信対象プログラム301と
の通信先パスアドレスを指定して送信を依頼する(ステ
ップ51)。
The communication target program 301 requests the ring transmission / reception control unit 302 to transmit by designating transmission data and a communication destination path address of the communication target program 301 of the processor 25 (step 51).

リング送受信制御部302はプロセッサ23のデータを受
信するプロセッサ25との通信先パスアドレスよりプロセ
ッサ25のPCI33のリングアドレスを判断する(ステップ5
2)。
The ring transmission / reception control unit 302 determines the ring address of the PCI 33 of the processor 25 from the path address of the communication destination with the processor 25 that receives the data of the processor 23 (step 5).
2).

リング送受信制御部302は通信先パスアドレスとPCIの
リングアドレスとのマッピング情報を管理しており、PC
I33のリングアドレスを送信先アドレスとして送信制御
部303に送信指示すると共に、受信制御部304にPCI33か
らの受信応答監視を指示する(ステップ53)。
The ring transmission / reception control unit 302 manages mapping information between the communication destination path address and the PCI ring address,
The transmission instruction is sent to the transmission control unit 303 using the ring address of I33 as the transmission destination address, and the reception control unit 304 is instructed to monitor the reception response from the PCI 33 (step 53).

送信制御部303はプロセッサ23の現用PCIを管理してお
り、送信データに送信先アドレス(DA)として指定され
たPCI33のリングアドレスを付与し、現用PCI31に受信応
答の送信データを出力する。PCI31は送信元アドレス(S
A)として、PCI31のリングアドレスを送信データに追加
し、リング21上にデータを出力する(ステップ54)。
The transmission control unit 303 manages the working PCI of the processor 23, adds the ring address of the PCI 33 specified as the transmission destination address (DA) to the transmission data, and outputs the transmission data of the reception response to the working PCI 31. PCI31 is the source address (S
As A), the ring address of the PCI 31 is added to the transmission data, and the data is output onto the ring 21 (step 54).

今、PCI31はリング接続部の故障により、リング21か
ら切り離されているため、ステップ54で出力されたデー
タはPCI33に伝わることはない。そのため、受信制御部3
04は、一定時間内に応答データを受信できないために応
答待ちタイムアウトとなる(ステップ55)。
Since the PCI 31 is now disconnected from the ring 21 due to a failure in the ring connection, the data output in step 54 is not transmitted to the PCI 33. Therefore, the reception control unit 3
In step 04, a response waiting time-out occurs because response data cannot be received within a predetermined time (step 55).

従来の方式ではこの時点で他系無応答とし、リング送
受信制御部302に通知していたが本発明では受信制御304
から異常処理手段として設けた再送信制御部305に通知
する。
In the conventional method, at this point, no response is received from the other system, and the ring transmission / reception control unit 302 is notified.
From the retransmission control unit 305 provided as an abnormality processing unit.

以下に自PCI障害と他系障害とを正確に切り分ける処
理であるリング折り返し再送信試験とその試験結果に対
応する復旧の方法について説明する。
Hereinafter, a description will be given of a ring return retransmission test, which is a process for accurately separating the own PCI fault from the other system fault, and a recovery method corresponding to the test result.

再送信制御部305は受信制御部304から受け取ったデー
タより送信先アドレスを自PCI31のアドレスに変更し、
再度同一データの送信を送信制御部303に再指示する
(ステップ56)。
The retransmission control unit 305 changes the transmission destination address to the address of the own PCI 31 from the data received from the reception control unit 304,
The transmission control unit 303 is again instructed to transmit the same data (step 56).

ステップ56の処理と共に受信制御部304に自PCIからの
受信応答監視を指示する。PCI31は1回目の送信と同様
に自PCI31にデータを送信する。リング21が正常で他系
に異常がある場合は、リング21を一周後、正常にデータ
を受信するが、第4図の場合、リング21が異常のため、
自PCI31宛のデータ送信も応答待ちタイムアウトとな
る。
Along with the processing in step 56, the reception control unit 304 is instructed to monitor the reception response from the own PCI. The PCI 31 transmits data to its own PCI 31 as in the first transmission. If the ring 21 is normal and there is an abnormality in the other system, data is normally received after one round of the ring 21, but in the case of FIG.
Transmission of data addressed to the own PCI 31 also results in a timeout for waiting for a response.

受信制御部304は1回目の送信時と同様に再送信制御
部305に受信応答監視結果として他系無応答を通知する
(ステップ57)。
The reception control unit 304 notifies the retransmission control unit 305 of the other system non-response as a reception response monitoring result, as in the case of the first transmission (step 57).

再送信制御部306は2回目の結果を障害識別制御部306
に通知する。障害識別制御部306は2回目の結果が正常
時は他系障害とし(ステップ58)、2回目の異常の場合
は自系障害(ステップ59)として、原因コードを作成
し、PCI管理部307に自系PCI障害を通知する。PCI管理部
307は予備PCIの有無をチェックして、予備PCIが存在す
る場合、現用PCIの切り換えを指示する。新たに現用PCI
とすべきPCI39のデバイスアドレスを送信制御部303と受
信制御部304に通知する(ステップ60)。
The retransmission control unit 306 sends the second result to the failure identification control unit 306.
Notify. If the second result is normal, the failure identification control unit 306 creates a cause code as the other system failure (step 58), and if the second result is an abnormal system failure (step 59), creates a cause code and sends it to the PCI management unit 307. Notify the own system PCI fault. PCI Management Department
Reference numeral 307 checks the presence or absence of a spare PCI, and if there is a spare PCI, instructs switching of the working PCI. New working PCI
The transmission control unit 303 and the reception control unit 304 are notified of the device address of the PCI 39 to be set (step 60).

また、障害識別制御部306は原因コードを自系障害と
してリング送受信制御部302に通知する(ステップ6
1)。
Further, the fault identification control unit 306 notifies the ring transmission / reception control unit 302 of the cause code as its own fault (step 6).
1).

リング送受信制御部302は送信要求プログラムに送信
異常を返却指示し、その原因コードを通知する(ステッ
プ62)。
The ring transmission / reception control unit 302 instructs the transmission request program to return a transmission error, and notifies the cause code (step 62).

また、自PCIのプロセッサ接続部等の故障でPCI31への
出力時に自系PCI障害と判断した場合は、PCI管理部307
へ自系PCI障害として通知される。一方、2回目のリン
グ折り返し再送が成功した場合は他系障害をPCI管理部3
07に通知し、リング送受信制御部302にてPCI33に対応す
る通信パスを障害中とし、以後の送信要求を他系障害中
として受け付けず、不要な送信処理を抑止する(ステッ
プ63)。
If it is determined that the own PCI fault has occurred at the time of output to the PCI 31 due to a failure in the processor connection unit of the own PCI, the PCI management unit 307
Is notified as a local PCI fault. On the other hand, if the second ring return retransmission succeeds, the other
07, the ring transmission / reception control unit 302 determines that the communication path corresponding to the PCI 33 is in failure, does not accept subsequent transmission requests as in failure of another system, and suppresses unnecessary transmission processing (step 63).

また、障害中に、通信パスに対応する他系PCIよりデ
ータを受信した場合は他系障害が復旧したものとし、対
応する通信パスを使用中のプログラムに対して障害パス
の復旧を通知する。
When data is received from the other system PCI corresponding to the communication path during the failure, it is determined that the other system failure has been recovered, and the program using the corresponding communication path is notified of the recovery of the failed path.

このようにデータ送信時から一定時間内に応答が戻ら
ない場合は送信先を送信元のPCIに変更して、リング折
り返し再送信を行うことにより他系障害か自系PCIがリ
ング21から切り離されているリング通信路障害(自系障
害)かを正確に識別し、自系障害の場合は別に設けてあ
る予備PCIに切り換える。他系障害の場合は他系の回復
を自動監視することによって障害箇所に応じた処理を行
う。
If no response is returned within a certain period of time from the time of data transmission, change the destination to the PCI of the transmission source and perform ring return retransmission to disconnect the other system failure or the own system PCI from the ring 21. It correctly identifies whether a ring communication path failure (own system failure) has occurred, and switches to a spare PCI provided separately in the case of a self system failure. In the case of another system failure, processing according to the location of the failure is performed by automatically monitoring the recovery of the other system.

〔発明の効果〕〔The invention's effect〕

以上のように本発明によれば、データ送信後一定時間
に送信元に送信先からの受信応答が戻らない場合に、異
常原因がリング通信路を含む、自系側の通信アダプタ
(PCI)にあるのか、送信先のプロセッサ側にあるのか
を正確に判断できるため、障害の原因別に最適な障害処
理を行うことにより、通信処理の高信頼化において有用
である。
As described above, according to the present invention, when the reception response from the transmission destination does not return to the transmission source within a certain period of time after data transmission, the cause of the abnormality is the communication adapter (PCI) of the own system including the ring communication path. Since it is possible to accurately determine whether there is a packet or whether the packet is on the transmission destination processor side, it is useful for improving the reliability of communication processing by performing optimal failure processing for each cause of the failure.

【図面の簡単な説明】[Brief description of the drawings]

第1図は本発明の原理説明図、 第2図は本発明の一実施例のシステム構成図、 第3図は本発明の一実施例のプロセッサ内の機能のブロ
ック図、 第4図は送信元通信アダプタ障害によるリング断の例を
示す図、 第5図は本発明の一実施例のフローチャートである。 1……応答監視手段、3……再送信手段、5……送信異
常通知手段、7……再送試験手段、9……障害識別手
段、11……障害復旧手段、21……リング、23,25,27,29
……プロセッサ、31,33,35,37,39……通信アダプタ(PC
I)、41……現用リング、43……予備リング、301……通
信対象プログラム、302……リング送受信制御部、303…
…送信制御部、304……受信制御部、305……再送信制御
部、306……障害識別制御部、307……PCI管理部。
FIG. 1 is a diagram illustrating the principle of the present invention, FIG. 2 is a system configuration diagram of one embodiment of the present invention, FIG. 3 is a block diagram of functions in a processor of one embodiment of the present invention, and FIG. FIG. 5 is a flowchart showing an example of disconnection of a ring due to an original communication adapter failure. FIG. 5 is a flowchart of an embodiment of the present invention. DESCRIPTION OF SYMBOLS 1 ... Response monitoring means, 3 ... Retransmission means, 5 ... Transmission abnormality notification means, 7 ... Retransmission test means, 9 ... Failure identification means, 11 ... Failure recovery means, 21 ... Ring, 23, 25,27,29
... Processor, 31, 33, 35, 37, 39 ... Communication adapter (PC
I), 41: working ring, 43: spare ring, 301: communication target program, 302: ring transmission / reception control unit, 303:
, A transmission control unit, 304, a reception control unit, 305, a retransmission control unit, 306, a failure identification control unit, 307, a PCI management unit.

フロントページの続き (72)発明者 相沢 勉 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内 (56)参考文献 特開 昭58−124350(JP,A) 特開 昭62−25534(JP,A) 特開 平2−76337(JP,A) (58)調査した分野(Int.Cl.7,DB名) H04L 12/437 Continuation of the front page (72) Inventor Tsutomu Aizawa 1015 Uedanaka, Nakahara-ku, Kawasaki City, Kanagawa Prefecture Inside Fujitsu Limited (56) References JP-A-58-124350 (JP, A) JP-A-62-25534 (JP, A) JP-A-2-76337 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) H04L 12/437

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】リング形状の閉じられた通信路に複数のプ
ロセッサを接続して相互にデータの送受信を行い、かつ
リング通信路障害時はプロセッサをリング伝送路に接続
する通信アダプタ部において障害部位をループバック
し、正常な閉リング通信路を再編成して通信の継続を図
るプロセッサ間通信方式において、 データ送信後送信先のプロセッサからの応答を監視する
応答監視手段と、 該応答監視手段により一定時間内に応答が戻らないと判
定された場合にデータ送信先アドレスを送信対象プロセ
ッサのPCIアドレスから自プロセッサのPCIアドレスに変
更して、自プロセッサ宛にデータの再送信を行う再送信
手段と、 該再送信手段により自プロセッサ宛データを正常に受信
した場合は障害原因を他系障害とし、自プロセッサ宛の
送信も失敗した場合は障害原因を自系障害として送信し
たプロセッサ内の送信要求元プログラムに送信失敗を通
知する送信異常通知手段と、 データ送信失敗時に自プロセッサ宛のリング折り返し再
送試験を行う再送試験手段と、 該再送試験手段で得られた結果に基づいて障害原因を識
別する障害識別手段と、 該障害識別手段で自系障害と識別された場合は送信側通
信アダプタ部を障害として切離し、予備の通信アダプタ
部を用いて送信を継続し、他系障害と識別された場合は
他系障害通信アダプタ部からの再開通知を受信するまで
新たな送信要求に対して他系障害中を通知する障害対策
手段と、 を有することを特徴とするリング通信路障害処理方式。
1. A faulty site in a communication adapter section for connecting a plurality of processors to a ring-shaped closed communication path to mutually transmit and receive data and for connecting a processor to a ring transmission path when a ring communication path fails. Response monitoring means for monitoring a response from a destination processor after data transmission, in the inter-processor communication method for reconstructing a normal closed ring communication path and continuing communication by looping back, Retransmission means for changing the data destination address from the PCI address of the target processor to the PCI address of the own processor when it is determined that no response is returned within a certain time, and retransmitting data to the own processor; If the retransmission means normally receives the data addressed to the own processor, the cause of the failure is regarded as another system failure, and the transmission to the own processor also fails. In this case, a transmission error notifying unit for notifying the transmission request source program in the processor that has transmitted the cause of the failure as the own system failure of the transmission failure, a retransmission test unit for performing a ring return retransmission test for the own processor when data transmission fails, Failure identification means for identifying the cause of the failure based on the result obtained by the retransmission test means; and, when the failure identification means identifies the failure as the own system failure, the communication adapter on the transmitting side is disconnected as a failure, and a spare communication adapter is provided. A failure countermeasure unit that continues transmission using the other system, and when identified as another system failure, notifies a new transmission request that another system failure is occurring until a restart notification from the other system failure communication adapter unit is received, A ring communication path failure processing method comprising:
JP02324106A 1990-11-27 1990-11-27 Ring communication path failure processing method Expired - Fee Related JP3084383B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP02324106A JP3084383B2 (en) 1990-11-27 1990-11-27 Ring communication path failure processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP02324106A JP3084383B2 (en) 1990-11-27 1990-11-27 Ring communication path failure processing method

Publications (2)

Publication Number Publication Date
JPH04192836A JPH04192836A (en) 1992-07-13
JP3084383B2 true JP3084383B2 (en) 2000-09-04

Family

ID=18162230

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02324106A Expired - Fee Related JP3084383B2 (en) 1990-11-27 1990-11-27 Ring communication path failure processing method

Country Status (1)

Country Link
JP (1) JP3084383B2 (en)

Also Published As

Publication number Publication date
JPH04192836A (en) 1992-07-13

Similar Documents

Publication Publication Date Title
JPH03106144A (en) Mutual connection of network modules
US20040001449A1 (en) System and method for supporting automatic protection switching between multiple node pairs using common agent architecture
JP3084383B2 (en) Ring communication path failure processing method
JP2504366B2 (en) Fault tolerant system
JPH01217666A (en) Fault detecting system for multiprocessor system
KR960003784B1 (en) Interconnection and its operation of processor unit communication
JP3149047B2 (en) Redundant data processor
JPH05304528A (en) Multiplex communication node
JP3552149B2 (en) Communication control device and communication control method
JP2000349900A (en) Fault processing system for exchange
JPS62190536A (en) Redundant constitution control system
JPS63279646A (en) Automatic restart processing system for network management equipment
JPH09160875A (en) Multi-agent mutual back-up system
JPS62159241A (en) Back-up method for data processor
KR930007469B1 (en) Error dectecting & correcting method in electronic exchange
JPH08227407A (en) Data sharing device of multicomputer system
JPS6314542B2 (en)
JPH02310755A (en) Health check system
JPS63228849A (en) Decentralized transmitting device
JPH06188917A (en) Fault information collecting system
JPH02163854A (en) Check system for transfer of message
JPH07295945A (en) Information processor and communication processing method
JPS62220031A (en) Inter-system communication system
JPH02285752A (en) Communication controller using hdlc protocol
JPH06338896A (en) Fault processing method for loop transmission system

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080707

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080707

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090707

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees