JPH07152697A - Roughly coupled computer system - Google Patents

Roughly coupled computer system

Info

Publication number
JPH07152697A
JPH07152697A JP5299382A JP29938293A JPH07152697A JP H07152697 A JPH07152697 A JP H07152697A JP 5299382 A JP5299382 A JP 5299382A JP 29938293 A JP29938293 A JP 29938293A JP H07152697 A JPH07152697 A JP H07152697A
Authority
JP
Japan
Prior art keywords
computer
node number
network
coupled
physical node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5299382A
Other languages
Japanese (ja)
Inventor
Hideki Murayama
秀樹 村山
Satoshi Yoshizawa
聡 吉沢
Haruyuki Nakayama
晴之 中山
Shoichi Murase
彰一 村瀬
Takeshi Aimoto
毅 相本
Hidenori Inai
秀則 井内
Takehisa Hayashi
林  剛久
Hiroshi Iwamoto
博志 岩本
Toru Horimoto
徹 堀本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5299382A priority Critical patent/JPH07152697A/en
Publication of JPH07152697A publication Critical patent/JPH07152697A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To constitute the roughly coupled computer system which prevents an abnormal packet, etc., from being outputted to a computer coupling network and is improved in trouble resistance not only by starting substitute operation, but also by disconnecting an in-use system which is brought into trouble from the computer coupling network. CONSTITUTION:The computer coupling network 110 of the roughly coupled computer system is equipped with a means 111 which previously stores information showing the correspondence between a logical node number as an identifier specifying a reception-destination computer and the physical node number of a computer determined on the basis of actual connection relation and determines a corresponding physical node number on the basis of the logical node number specified from a transmission-source computer by using the stored information and a means 113 which performs a transfer process to the reception-destination computer having the determined physical node number.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、計算機システムを相互
結合するための装置、及び相互結合して構築された計算
機システムに関し、特に、疎に結合された疎結合計算機
システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a device for interconnecting computer systems and a computer system constructed by interconnecting the computer systems, and more particularly to a loosely coupled computer system.

【0002】[0002]

【従来の技術】従来、要求された処理を一定時間内に確
実に終了させることを目的として、各資源を完全に二重
化して障害検出時に自動切り換えを行なうことで無停止
動作を行なうFTC(Fault Trelant Computer)やダウンタ
イムを削減するために、システム全体を二重化して、障
害時に予備系に切り換えるホットスタンバイ構成があ
る。FTCやホットスタンバイ構成は、障害発生時にも障
害前と同等の処理能力が維持できる長所を持つが、予備
系が完全に冗長部分であり信頼性向上のためだけに別資
源が必要となることでコスト高という問題があった。
2. Description of the Related Art Conventionally, an FTC (Fault) that performs non-stop operation by completely duplicating each resource and automatically switching when a failure is detected for the purpose of surely completing a requested process within a certain period of time. In order to reduce Trelant Computer) and downtime, there is a hot standby configuration that duplicates the entire system and switches to the standby system when a failure occurs. The FTC and hot standby configurations have the advantage that they can maintain the same processing capacity as before the failure even when a failure occurs, but the spare system is a completely redundant part and requires additional resources only to improve reliability. There was a problem of high cost.

【0003】そこで、障害発生時には障害発生前に比べ
て処理能力が低下するものの全体のシステムダウンを避
けることができる技術として、計算機を疎に結合したシ
ステムを構築して互いにバックアップを取り合う形態の
システムが提案されている。
Therefore, as a technique for avoiding the entire system down when a failure occurs as compared with that before the failure occurs, a system in which computers are loosely coupled to each other and backups are mutually carried out. Is proposed.

【0004】疎結合により、相互にバックアップを取り
合う構成とする場合に、高速に予備系に切り換えを行な
うためには、障害系以外の計算機に対する処理を減らす
ことが非常に重要であり、障害系と通信を行なっていた
計算機側には障害発生以前と同じノード番号に対する処
理の要求を継続させることができれば、障害系と通信を
行なっていた計算機側への通知および切り換え処理を行
なう必要がないために有利である。
When the backups are mutually exchanged by loose coupling, it is very important to reduce the processing to computers other than the faulty system in order to switch to the standby system at high speed. If the computer that was in communication can continue to request processing for the same node number as before the occurrence of the failure, there is no need to notify and switch to the computer that was in communication with the failed system. It is advantageous.

【0005】これを実現するために特開平3-1963
51号公報に示すように、予め設定しておいた情報に従
って、障害の検出後に障害系が障害発生以前に使用して
いた同じノード番号に対する代替受信を含む代替動作を
開始する方法が提案されている。
To achieve this, Japanese Patent Laid-Open No. 1963/1993
As disclosed in Japanese Patent Publication No. 51-51, there is proposed a method of starting an alternative operation including an alternative reception for the same node number used by the failure system before the occurrence of the failure, in accordance with preset information. There is.

【0006】上記方法の別の例として文献IBM AIXpert
1992 February 39〜45に示すように、代替受信
をするために計算機結合網アダプタを複数用意してお
き、障出時に障害発生側の計算機ノード番号での代替受
信を可能とすることにより、高速な予備系切り換えを可
能としている。
Another example of the above method is the document IBM AIXpert.
As shown in 1992 February 39-45, by preparing a plurality of computer-coupled network adapters for alternate reception and enabling alternate reception by the computer node number of the failure side at the time of failure, high-speed operation is possible. The standby system can be switched.

【0007】[0007]

【発明が解決しようとする課題】従来の技術では、予備
動作する側にて障害を検出した後で現用系に対するパケ
ットに対する処理を行なうこととなっている。しかし代
替動作を開始するだけでは、現用系が不完全な動作を継
続している場合が考えられ、その場合には計算機結合網
に対して異常なパケットを出力することがありうる。そ
のような異常パケットが計算機結合網を流れることによ
るトラフィックの増大、異常パケットを受け取ったノー
ドが障害処理を行なうためのオーバヘッドの増大、また
異常パケットに対する対処が不十分なプロトコルであっ
た場合のネットワーク障害の発生等の問題がある。した
がって従来技術による方法では十分な信頼性を提供する
ことができないという問題がある。
In the prior art, the process for the packet for the active system is performed after the failure is detected on the side of the preliminary operation. However, it is possible that the active system continues incomplete operation only by starting the alternative operation, and in that case, an abnormal packet may be output to the computer-coupled network. Increased traffic due to such abnormal packets flowing through the computer-coupled network, increased overhead for the node that received the abnormal packets to perform fault processing, and a network when the protocol for handling abnormal packets is insufficient. There is a problem such as a failure. Therefore, there is a problem that the method according to the conventional technique cannot provide sufficient reliability.

【0008】本発明の目的は、代替動作を開始するだけ
でなく障害を起こした現用系を計算機結合網から切り離
すことにより、異常パケットが計算機結合網に出力され
ることを防ぎ、耐障害性を向上させた計算機結合網およ
び疎結合計算機システムを構成することである。
An object of the present invention is to prevent abnormal packets from being output to the computer-coupled network by not only starting the alternative operation but also disconnecting the faulty working system from the computer-coupled network, thereby improving fault tolerance. It is to construct an improved computer-connected network and a loosely-coupled computer system.

【0009】[0009]

【課題を解決するための手段】本発明の好適な一形態で
ある疎結合計算機システムの構成を以下に示す。複数の
ネットワーク内計算機が、計算機結合網によって相互に
結合されて構成される。ネットワーク内計算機は、プロ
セッサ、メモリ、I/O装置、障害通知回線アダプタ、計
算機結合網アダプタがシステムバスに結合して構成され
る。
The configuration of a loosely coupled computer system which is a preferred embodiment of the present invention is shown below. A plurality of computers in the network are connected to each other by a computer connection network. The computer in the network is composed of a processor, a memory, an I / O device, a fault notification line adapter, and a computer connection network adapter connected to the system bus.

【0010】計算機結合網は、複数のネットワーク内計
算機を結合して相互通信をするための結合網であり、デ
ータ転送制御部、データ転送網部から構成される。デー
タ転送制御部において、受信側のネットワーク内計算機
を指定するための論理ノード番号を計算機結合網に対す
るネットワーク内計算機ごとの物理ノード番号に対応さ
せる唯一のテーブルとして保持することにより、代替動
作の開始とともに障害を起こしたネットワーク内計算機
を計算機結合網から切り離すことができる。
The computer connection network is a connection network for connecting a plurality of computers in the network for mutual communication, and is composed of a data transfer control unit and a data transfer network unit. In the data transfer control unit, by holding the logical node number for designating the receiving side computer in the network as the only table that corresponds to the physical node number for each computer in the network for the computer-connected network, the start of alternative operation The failed computer in the network can be separated from the computer connection network.

【0011】[0011]

【作用】本発明によれば、代替通信の開始と共に障害を
起こした現用系を切り離すことができるので、計算機結
合網に異常パケットが流れないようにすることができ、
耐障害性の高いシステムを実現できる。
According to the present invention, it is possible to disconnect the working system that has failed at the start of the alternative communication, so that it is possible to prevent abnormal packets from flowing in the computer-coupled network.
A system with high fault tolerance can be realized.

【0012】[0012]

【実施例】以下図を用いて本発明の実施例を説明する。
図1に実施例の一つを示す。疎結合計算機システムは、
ネットワーク内計算機(100-1から100-N)が、計
算機結合網110によって相互に結合されて構成され
る。ネットワーク内計算機(100-1から100-N)
は、プロセッサ101、メモリ102、I/O装置10
3、障害通知回線アダプタ104、計算機結合網アダプ
タ120がシステムバス105に結合して構成される。
プロセッサ101は、例えばCPUによって構成できる。
メモリ102は、例えばRAMによって構成できる。I/O装
置103は、入出力をするための装置であり、例えばデ
ィスプレイ装置、キーボード、ハードディスク等の二次
記憶装置によって構成される。障害通知回線アダプタ1
04は、障害通知をするための回線であり、例えば計算
機結合網アダプタ120をもう一つ追加することによっ
て構成することができる。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 shows one of the embodiments. The loosely coupled computer system is
The computers in the network (100-1 to 100-N) are connected to each other by the computer connection network 110 and configured. In-network computer (100-1 to 100-N)
Is a processor 101, a memory 102, an I / O device 10
3. The fault notification line adapter 104 and the computer connection network adapter 120 are connected to the system bus 105.
The processor 101 can be configured by a CPU, for example.
The memory 102 can be configured by a RAM, for example. The I / O device 103 is a device for inputting / outputting, and is configured by, for example, a display device, a keyboard, a secondary storage device such as a hard disk. Failure notification line adapter 1
Reference numeral 04 denotes a line for notifying a failure, which can be configured by adding another computer coupling network adapter 120, for example.

【0013】障害通知回線アダプタ104は、障害検知
及び通知方式によってはネットワーク内計算機(100-
1から100-N)の要素として含まれない場合もある。I
/O装置103は、計算機結合網アダプタ120による通
信処理によって入出力機能を代替する構成の場合は、ネ
ットワーク内計算機(100-1から100-N)の要素と
して含まれない場合もある。
The fault notification line adapter 104 is a computer in the network (100-100) depending on the fault detection and notification method.
1 to 100-N) may not be included. I
The / O device 103 may not be included as an element of the computers (100-1 to 100-N) in the network when the I / O device 103 is configured to substitute the input / output function by the communication processing by the computer-coupled network adapter 120.

【0014】計算機結合網アダプタ120は、ネットワ
ーク内計算機(100-1から100-N)と計算機結合網
110とを相互に結合し、プロセッサ101の指示によ
りデータの送受信処理を行なう部分であり、通信制御部
121、送受信用バッファ122、計算機結合網送受信
部123が内部バス124に結合して構成される。
The computer-coupled network adapter 120 is a part that couples the computers (100-1 to 100-N) in the network and the computer-coupled network 110 to each other, and performs data transmission / reception processing according to an instruction from the processor 101. A control unit 121, a transmission / reception buffer 122, and a computer connection network transmission / reception unit 123 are connected to an internal bus 124.

【0015】計算機結合網110は、ネットワーク内計
算機(100-1から100-N)を結合して相互通信をす
るたための結合網であり、データ転送制御部111、デ
ータ転送網部113から構成される。
The computer connection network 110 is a connection network for connecting the computers (100-1 to 100-N) in the network for mutual communication, and comprises a data transfer control unit 111 and a data transfer network unit 113. It

【0016】計算機結合網110に接続する各ネットワ
ーク内計算機(100-1から100-N)は、接続位置と
スイッチ等によって静的に規定される物理ノード番号と
通信の際の受信先を指定する識別子として使用する論理
ノード番号を持つ。
Each in-network computer (100-1 to 100-N) connected to the computer-coupled network 110 designates a connection position, a physical node number statically defined by a switch, etc., and a receiver for communication. It has a logical node number used as an identifier.

【0017】計算機結合網110を介して行なう通信は
パケットの送受信によって行なわれる。パケットの構成
を図2に示す。全てのパケットは、受信先ノード番号2
10、送信元ノード番号220、タイプ230、データ
240をもって構成される。受信先ノード番号210
は、パケットを受け取るべきネットワーク内計算機を指
定する識別子である。送信元ノード番号220はパケッ
トを送出したネットワーク内計算機を示す識別子であ
る。タイプ230は、パケットの保持している情報の種
別やサイズ等の情報である。データ240は、受信先ノ
ード番号によって指定されたネットワーク内計算機に転
送されるべきデータである。
Communication performed via the computer coupling network 110 is performed by transmitting and receiving packets. The packet structure is shown in FIG. All packets are the destination node number 2
10, source node number 220, type 230, and data 240. Destination node number 210
Is an identifier that specifies a computer in the network that should receive the packet. The source node number 220 is an identifier indicating the computer in the network that has transmitted the packet. The type 230 is information such as the type and size of the information held by the packet. The data 240 is data to be transferred to the in-network computer designated by the destination node number.

【0018】通信を行なう際に各ネットワーク内計算機
(100-1から100-N)を指定する際の受信先ノード
番号210は、各ネットワーク内計算機(100-1から
100-N)の論理ノード番号を使用する。計算機結合網
110は論理ノード番号を対応する物理ノード番号に変
換して転送処理を行なう。
Computers in each network for communication
The destination node number 210 when specifying (100-1 to 100-N) uses the logical node number of each in-network computer (100-1 to 100-N). The computer connection network 110 converts a logical node number into a corresponding physical node number and performs a transfer process.

【0019】データ転送網113は、データ転送制御部
111からの宛先物理ノード番号とパケットを入力とし
て、対応する物理ノード番号を持つネットワーク内計算
機(100-1から100-N)へ転送する処理を行なう部
分であり、たとえば、TTL、CMOS等の論理によって構成
できる。
The data transfer network 113 receives the destination physical node number and the packet from the data transfer control unit 111, and transfers them to the in-network computers (100-1 to 100-N) having the corresponding physical node numbers. This is a part to be performed and can be configured by logic such as TTL or CMOS.

【0020】データ転送制御部111は、転送データの
論理ノード番号から物理ノード番号への変換を行なって
物理ノード番号とパケットをデータ転送網113に出力
することでデータ転送制御を行なう部分であり、転送先
決定部112、論理/物理ノード番号変換情報保持手段
114、パケットバッファ115とから構成される。
The data transfer control unit 111 is a unit for performing data transfer control by converting a logical node number of transfer data into a physical node number and outputting the physical node number and a packet to the data transfer network 113. The transfer destination determining unit 112, a logical / physical node number conversion information holding unit 114, and a packet buffer 115 are included.

【0021】転送先決定部112は、パケット内の論理
ノード番号から論理/物理ノード番号変換情報保持手段
114の内容を用いて対応する物理ノード番号を決定し
てデータ転送の制御を行なう部分であり、たとえば、TT
L、CMOS等の論理によって構成できる。
The transfer destination determining unit 112 is a unit that determines the corresponding physical node number from the logical node number in the packet using the contents of the logical / physical node number conversion information holding means 114 and controls the data transfer. , For example, TT
It can be configured by logic such as L or CMOS.

【0022】論理/物理ノード番号変換情報保持手段1
14は、各ネットワーク内計算機(100-1から100
-N)の物理ノード番号と論理ノード番号の対応関係の情
報を唯一のテーブルとして保持する部分であり、たとえ
ば、TTL、CMOS等の論理やRAMによって構成できる。論理
/物理ノード番号変換情報保持手段114の内容は、ネ
ットワーク内計算機(100-1から100-N)から書き
換え可能であり、唯一のテーブルとして保持された論理
/物理ノード番号変換情報保持手段114の内容を書き
換えることで、論理ノード番号に対応する物理ノード番
号を変え、かつ障害発生ノードを計算機結合網110か
ら切り離すことができる。
Logical / physical node number conversion information holding means 1
14 is a computer in each network (100-1 to 100
-N) is a part that holds the information on the correspondence between the physical node numbers and the logical node numbers as a single table, and can be configured by logic such as TTL or CMOS or RAM. logic
The contents of the / physical node number conversion information holding means 114 can be rewritten from the computers (100-1 to 100-N) in the network, and are stored as the only table.
By rewriting the contents of the physical node number conversion information holding unit 114, it is possible to change the physical node number corresponding to the logical node number and disconnect the faulty node from the computer-coupled network 110.

【0023】パケットバッファ115は、各ネットワー
ク内計算機(100-1から100-N)からのパケットを
保持する部分であり、たとえば、TTL、CMOS等の論理やR
AMによって構成できる。
The packet buffer 115 is a part for holding packets from the computers (100-1 to 100-N) in each network, for example, logic such as TTL or CMOS or R.
Can be configured by AM.

【0024】図3は、論理/物理ノード番号変換情報保
持手段114内の論理/物理ノード番号変換情報の一実
施例である。図3に示すように論理ノード番号から物理
ノード番号が検索できる構成となっており、かつ唯一の
テーブルとして情報を保持することが可能な構成となっ
ている。この例では、論理ノード番号に対する物理ノー
ド番号の対応は一つであるがこれが複数あってもよい。
複数あった場合には複数の物理ノードに対してパケット
を転送することになる。この例では、Nは全ノード数を
示す正整数であり、Jは1以上N以下の正整数である。
FIG. 3 shows an embodiment of the logical / physical node number conversion information in the logical / physical node number conversion information holding means 114. As shown in FIG. 3, the physical node number can be searched from the logical node number, and the information can be held as the only table. In this example, there is one correspondence between the physical node number and the logical node number, but there may be multiple correspondences.
If there is more than one, the packet will be transferred to more than one physical node. In this example, N is a positive integer indicating the total number of nodes, and J is a positive integer not less than 1 and not more than N.

【0025】図4を用いて転送先決定部112のパケッ
ト転送制御処理を説明する。まず、ステップ410に示
すようにネットワーク内計算機(100-1から100-
N)の出力したパケットをパケットバッファ115に取り
込む。続いて、ステップ420に示すように、パケット
バッファ115に取り込んだパケットの受信先ノード番
号を論理ノード番号として図3で示したテーブル構造と
なっている論理/物理ノード番号変換情報保持手段11
4を検索して、対応する物理ノード番号を決定する。次
にステップ430に示すように検索結果の物理ノード番
号をデータ転送網部113に通知する。最後に、ステッ
プ440に示すようにパケットバッファ115に取り込
んだパケットをデータ転送網部113に出力するとデー
タ転送網部113は対応する物理ノード番号に対してパ
ケットを出力する。
The packet transfer control process of the transfer destination determining unit 112 will be described with reference to FIG. First, as shown in step 410, computers in the network (100-1 to 100-
The packet output by N) is taken into the packet buffer 115. Then, as shown in step 420, the logical / physical node number conversion information holding means 11 has the table structure shown in FIG. 3 with the destination node number of the packet fetched in the packet buffer 115 as the logical node number.
4 to determine the corresponding physical node number. Next, as shown in step 430, the physical node number of the search result is notified to the data transfer network unit 113. Finally, as shown in step 440, when the packet fetched in the packet buffer 115 is output to the data transfer network unit 113, the data transfer network unit 113 outputs the packet to the corresponding physical node number.

【0026】次に代替動作を行なうための処理について
示す。まず本実施例では、代替動作を行なう計算機間の
構成定義を代替側計算機のI/O装置103の二次記憶装
置等にユーティリティプログラム等を用いて設定してお
くものとする。つまり、あるネットワーク計算機の障害
発生時に、他の特定の計算機が代替側計算機として予備
的な処理が行えるように、それらの計算機間の構成定義
を代替側計算機にて設定しておく。
Next, the processing for performing the alternative operation will be described. First, in this embodiment, it is assumed that the configuration definition between the computers that perform the alternative operation is set in the secondary storage device of the I / O device 103 of the alternative computer using a utility program or the like. That is, when a failure occurs in a certain network computer, the configuration definition between these computers is set in the alternate computer so that another specific computer can perform preliminary processing as the alternate computer.

【0027】以下、図5に従って代替側計算機が代替動
作を行なうための初期化処理として代替対象設定処理を
示す。まず、ステップ510に示すようにI/O装置10
3に予め設定されている代替対象情報を読みだす。次に
ステップ520に示すように、代替動作を行なう予備プ
ログラムの起動を行なう。ここで、ステップ520に示
してあるように代替側計算機では計算機結合網への通信
機構の初期化を行なう以前の所でその代替用プログラム
(予備プログラム)はスリープさせる。次にステップ5
30に示すように、障害監視通信処理の起動を行なう。
障害監視通信処理とは、例えば非監視側計算機から、障
害がないことを一定時間毎に発信し続け、代替側計算機
(監視側計算機)でその通信を受け続け、障害を検知す
るものである。
Hereinafter, a substitution target setting process will be described as an initialization process for the substitution side computer to perform a substitution operation according to FIG. First, as shown in step 510, the I / O device 10
The substitution target information preset in 3 is read out. Next, as shown in step 520, a preliminary program for performing an alternative operation is activated. Here, as shown in step 520, in the alternative computer, the alternative program (spare program) is put to sleep before the initialization of the communication mechanism for the computer-coupled network. Next step 5
As shown in 30, the fault monitoring communication process is activated.
The fault monitoring communication process is, for example, a process in which a non-surveillance computer continues to transmit that there is no fault at regular time intervals, and a substitute computer (monitoring computer) continues to receive the communication to detect a fault.

【0028】ここで、障害監視通信の方法としては、障
害通知回線アダプタ104を用いた通知方法と、障害通
知回線アダプタ104を用いないで計算機結合網を利用
する通知方法とがある。前者の監視通信アダプタ104
を用いる通信方法の方が、後者の通知方法に比べてより
効果的であるといえる。なぜならば、前者の通信方法
は、非監視側計算機と代替側計算機(監視側計算機)間
で直接障害通知を行うので、より迅速に障害検知でき、
素早く代替動作を行えるからである。一方、後者の通信
方法ように、計算機結合網にて障害検知用の通信を行う
と、障害検知以外の通信の性能低下を回避するという制
約を受けるために、障害検知用通信の頻度(非監視側計
算機から一定時間毎に障害がないことを発信する頻度)
を下げざるを得ず、障害検知時間が遅れてしまう可能性
がある。
The fault monitoring communication methods include a notification method using the failure notification line adapter 104 and a notification method using the computer-coupled network without using the failure notification line adapter 104. The former monitoring communication adapter 104
It can be said that the communication method using is more effective than the latter notification method. This is because the former communication method directly notifies the failure between the non-monitoring side computer and the alternative side computer (monitoring side computer), so it is possible to detect the fault more quickly.
This is because the alternative operation can be performed quickly. On the other hand, like the latter communication method, if communication for fault detection is performed in a computer-coupled network, the frequency of fault detection communication (non-monitoring) (The frequency at which the local computer reports that there is no failure at regular intervals)
Therefore, the failure detection time may be delayed.

【0029】以下、障害検知後の代替側計算機における
代替動作開始処理を図6に従って説明する。まずステッ
プ610に示すように障害が障害監視通信において検出
される。次に、ステップ620にしたがってプロセッサ
101は、I/O装置103から読み出した代替対象情報
から代替動作をすべき代替ノードの番号(非監視側計算
機(障害発生側計算機)のノード番号)を読みだす。次
にステップ630にしたがって、プロセッサ101は、
代替ノード番号のパケットを受信するための設定を行な
う。
The alternative operation start processing in the alternative computer after the failure detection will be described below with reference to FIG. First, as shown in step 610, a failure is detected in the failure monitoring communication. Next, according to step 620, the processor 101 reads the number of the alternative node (the node number of the non-monitoring computer (failure computer)) that should perform the alternative operation from the replacement target information read from the I / O device 103. . Next, according to step 630, the processor 101
Make settings to receive the packet with the alternate node number.

【0030】この際に、計算機結合網110の論理/物
理ノード番号変換情報保持手段114に唯一のテーブル
として情報が保持されている情報を切り換えて、代替対
象となるネットワーク内計算機のノード番号(非監視側
計算機(障害発生側計算機)のノード番号)によって示
される論理ノード番号に対応する物理ノード番号に自ノ
ードの物理ノード番号を設定し、かつ非監視側計算機
(障害発生側計算機)を切り離す設定をすることができ
る。この処理の後は、図4にて説明した動作によって代
替対象となる代替側計算機に対して出力されたパケット
を代替受信することができる。かつ障害発生側計算機が
計算機結合網110から切り離されるために異常パケッ
トが発行されることはない。
At this time, the information held as the only table in the logical / physical node number conversion information holding means 114 of the computer-coupled network 110 is switched to change the node number (non-value) of the computer in the network to be replaced. Setting to set the physical node number of the local node to the physical node number corresponding to the logical node number indicated by the node number of the monitoring-side computer (failure-side computer), and to disconnect the non-monitoring-side computer (failure-side computer) You can After this processing, the packet output to the substitution-side computer that is the substitution target can be substitution-received by the operation described in FIG. Moreover, since the computer on the failure side is disconnected from the computer connection network 110, no abnormal packet is issued.

【0031】次にステップ640にしたがって、代替動
作を行なうための代替用プログラムの通信機構を起動し
て代替処理を開始する。
Next, at step 640, the communication mechanism of the substitute program for performing the substitute operation is activated to start the substitute processing.

【0032】尚、上記実施例は、論理/物理ノード番号
変換情報保持手段114のテーブルを書き替えるための
構成定義の情報を、代替側計算機のI/O装置103の二
次記憶装置等にユーティリティプログラム等を用いて設
定した。その他の実施例として、論理/物理ノード番号
変換情報保持手段114のテーブルには、障害が発生し
た場合における障害発生側計算機と代替側計算機の論理
ノード番号と物理ノード番号の新たな対応付けに関する
情報を予め持っていて、代替側計算機では障害検知を行
って、計算機結合網110に対して論理/物理ノード番
号変換情報保持手段114のテーブル書替えの起動のみ
を通知するように構成することも可能である。
In the above embodiment, the configuration definition information for rewriting the table of the logical / physical node number conversion information holding means 114 is used as a utility in the secondary storage device of the I / O device 103 of the alternative computer. It was set using a program. As another example, in the table of the logical / physical node number conversion information holding unit 114, information on a new association between the logical node number and the physical node number of the failed computer and the alternative computer in the event of a failure It is also possible to configure so that the alternative computer can detect the failure and notify the computer connection network 110 only the activation of the table rewriting of the logical / physical node number conversion information holding means 114. is there.

【0033】[0033]

【発明の効果】以上本発明によれば、代替通信の開始と
共に障害を起こした現用系を切り離すことができるの
で、計算機結合網に異常パケットが流れないようにする
ことにより、耐障害性の高いシステムを実現できる。
As described above, according to the present invention, it is possible to disconnect a working system that has failed at the start of alternative communication. Therefore, by preventing abnormal packets from flowing through the computer-coupled network, fault tolerance is high. The system can be realized.

【図面の簡単な説明】[Brief description of drawings]

【図1】疎結合計算機システム構成図例である。FIG. 1 is an example of a loosely coupled computer system configuration diagram.

【図2】計算機結合網パケット構成例図である。FIG. 2 is a diagram showing an example of a computer-connected network packet configuration.

【図3】論理/物理ノード番号変換情報例である。FIG. 3 is an example of logical / physical node number conversion information.

【図4】転送先決定部処理を示すフローチャートであ
る。
FIG. 4 is a flowchart showing a transfer destination determining unit process.

【図5】代替対象設定処理を示すフローチャートであ
る。
FIG. 5 is a flowchart showing an alternative target setting process.

【図6】代替系起動処理を示すフローチャートである。FIG. 6 is a flowchart showing an alternative system starting process.

【符号の説明】[Explanation of symbols]

100-1〜100-N:ネットワーク内計算機、101:
プロセッサ、102:メモリ、103:I/O装置、104:
障害通知回線、105:システムバス、110:計算機結
合網、111:データ転送制御部、112:転送先決定
部、113:データ転送網部、114:論理/物理ノード
番号変換情報保持手段、115:パケットバッファ、1
20:計算機結合網アダプタ、121:通信制御部、12
2:送受信用バッファ、123:計算機結合網送受信部、
124:内部バス。
100-1 to 100-N: Computer in network, 101:
Processor, 102: Memory, 103: I / O device, 104:
Failure notification line, 105: system bus, 110: computer connection network, 111: data transfer control unit, 112: transfer destination determination unit, 113: data transfer network unit, 114: logical / physical node number conversion information holding means, 115: Packet buffer, 1
20: Computer connection network adapter, 121: Communication control unit, 12
2: Transmission / reception buffer, 123: Computer-coupled network transmission / reception unit,
124: Internal bus.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 村瀬 彰一 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 相本 毅 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 井内 秀則 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 林 剛久 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 岩本 博志 神奈川県海老名市下今泉810番地 株式会 社日立製作所オフィスシステム事業部内 (72)発明者 堀本 徹 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内 ─────────────────────────────────────────────────── ─── Continuation of front page (72) Inventor Shoichi Murase 1-280, Higashi Koikekubo, Kokubunji, Tokyo Inside Central Research Laboratory, Hitachi, Ltd. (72) Inventor Takeshi Aimoto 1-280, Higashi Koikeku, Kokubunji, Tokyo Hitachi, Ltd. Central Research Laboratory (72) Inventor Hidenori Inouchi 1-280, Higashi Koikekubo, Kokubunji, Tokyo Hitachi Central Research Laboratory (72) Inventor Takehisa Hayashi 1-280, Higashi Koikeku, Tokyo Kokubunji City Central Research Laboratory, Hitachi, Ltd. ( 72) Inventor Hiroshi Iwamoto 810 Shimoimaizumi, Ebina, Kanagawa Prefecture Office Systems Division, Hitachi, Ltd. (72) Toru Horimoto 5030 Totsuka-cho, Totsuka-ku, Yokohama, Kanagawa Prefectural Corporation Hitachi Software Development Division

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】複数の計算機が計算機結合網を用いて相互
に疎結合された疎結合計算機システムにおいて、 受信先計算機を指定するための識別子である論理ノード
番号と、実際の接続関係から定められる上記複数の計算
機の物理ノード番号との対応を示す情報を予め記憶して
おき、送信元計算機から指定された上記論理ノード番号
に基づき、上記情報を用いて対応する物理ノード番号を
決定する手段と、決定された物理ノード番号を有する受
信先計算機に対して転送処理を行う手段とを、少なくと
も上記計算機結合網に設けたことを特徴とする疎結合計
算機システム。
1. In a loosely coupled computer system in which a plurality of computers are loosely coupled to each other using a computer coupled network, it is determined from a logical node number which is an identifier for designating a destination computer and an actual connection relationship. Information for indicating correspondence with physical node numbers of the plurality of computers is stored in advance, and means for determining a corresponding physical node number using the information based on the logical node number designated by the transmission source computer. A loosely coupled computer system comprising: a means for performing a transfer process to a destination computer having the determined physical node number, at least in the computer coupled network.
【請求項2】請求項1記載の疎結合計算機システムにお
いて、上記複数の計算機のいずれかで障害が発生した場
合、予め指定された代替側計算機にて、障害を検知し、
上記情報を書き替えて、障害が発生した計算機を上記計
算機結合網から切り離すことを特徴とする疎結合計算機
システム。
2. In the loosely coupled computer system according to claim 1, when a failure occurs in any of the plurality of computers, the failure is detected by a previously designated alternative computer,
A loosely coupled computer system characterized by rewriting the above information and disconnecting a computer in which a failure has occurred from the computer coupled network.
【請求項3】請求項2記載の疎結合計算機システムにお
いて、上記複数の計算機中、所定の計算機と代替側計算
機とを上記計算機結合網とは別の障害通知回線で接続
し、代替側計算機は上記障害通知回線を通じて障害発生
を検知することを特徴とする疎結合計算機システム。
3. The loosely coupled computer system according to claim 2, wherein among the plurality of computers, a predetermined computer and an alternative computer are connected by a fault notification line different from the computer coupled network, and the alternative computer is A loosely coupled computer system characterized in that a failure occurrence is detected through the failure notification line.
【請求項4】複数の計算機が計算機結合網を用いて相互
に疎結合された疎結合計算機システムにおいて、 上記複数の計算機は、プロセッサと、メモリと、二次記
憶装置を含むI/O装置と、障害通知回線アダプタと、
計算機結合網アダプタとを有し、 上記計算機結合網は、送信元計算機からのパケットを一
時記憶するパケットバッファと、受信先計算機を指定す
るための識別子である論理ノード番号と、実際の接続関
係から定められる上記複数の計算機の物理ノード番号と
の対応を示す情報を予め記憶する論理/物理ノード番号
変換テーブルと、上記パケットの中で送信元計算機から
指定された上記論理ノード番号に基づき、上記論理/物
理ノード番号変換テーブルの情報を用いて対応する物理
ノード番号を決定する転送先決定手段と、決定された物
理ノード番号を有する受信先計算機に対して一時記憶し
たパケットの転送処理を行うデータ転送網手段とを有
し、上記計算機結合網アダプタにて上記複数の計算機と
接続され、 上記複数の計算機中、所定の計算機と代替側計算機と
を、上記障害通知回線アダプタを介して上記計算機結合
網とは別の障害通知回線で接続し、 上記代替側計算機は、上記障害通知回線を通じて障害発
生を検知し、上記計算機結合網の上記論理/物理ノード
番号変換テーブルの情報を書き替えて、障害が発生した
計算機を上記計算機結合網から切り離すことを特徴とす
る疎結合計算機システム。
4. A loosely coupled computer system in which a plurality of computers are loosely coupled to each other using a computer coupled network, wherein the plurality of computers include a processor, a memory, and an I / O device including a secondary storage device. , Fault notification line adapter,
The computer-coupled network has a computer-coupled network adapter, and the computer-coupled network has a packet buffer for temporarily storing packets from the source computer, a logical node number that is an identifier for designating the destination computer, and an actual connection relationship. Based on the logical / physical node number conversion table that stores in advance information indicating the correspondence with the determined physical node numbers of the plurality of computers and the logical node number specified by the transmission source computer in the packet, the logical / Transfer destination determining means for determining the corresponding physical node number using the information in the physical node number conversion table, and data transfer for performing the transfer processing of the packet temporarily stored in the destination computer having the determined physical node number Network means, and is connected to the plurality of computers by the computer-coupled network adapter. The computer and the alternative computer are connected to each other via the fault notification line adapter via a fault notification line different from the computer coupling network, and the alternative computer detects a fault occurrence through the fault notification line, A loosely coupled computer system characterized by rewriting the information in the logical / physical node number conversion table of the computer coupled network so as to disconnect the failed computer from the computer coupled network.
【請求項5】請求項4記載の疎結合計算機システムにお
いて、上記パケットには、受信先計算機の論理ノード番
号と、送信元計算機の論理ノード番号と、上記パケット
の保持している情報の種別またはサイズを判別するタイ
プ情報と、転送するデータとを含むことを特徴とする疎
結合計算機システム。
5. The loosely coupled computer system according to claim 4, wherein in the packet, the logical node number of the destination computer, the logical node number of the source computer, and the type of information held by the packet or A loosely coupled computer system including type information for determining a size and data to be transferred.
【請求項6】請求項4記載の疎結合計算機システムにお
いて、上記代替側計算機のI/O装置の二次記憶装置
に、代替動作を行う代替用プログラムを格納しておくこ
とを特徴とする疎結合計算機システム。
6. The loosely coupled computer system according to claim 4, wherein a substitute program for performing a substitute operation is stored in the secondary storage device of the I / O device of the substitute computer. Combined computer system.
JP5299382A 1993-11-30 1993-11-30 Roughly coupled computer system Pending JPH07152697A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5299382A JPH07152697A (en) 1993-11-30 1993-11-30 Roughly coupled computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5299382A JPH07152697A (en) 1993-11-30 1993-11-30 Roughly coupled computer system

Publications (1)

Publication Number Publication Date
JPH07152697A true JPH07152697A (en) 1995-06-16

Family

ID=17871839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5299382A Pending JPH07152697A (en) 1993-11-30 1993-11-30 Roughly coupled computer system

Country Status (1)

Country Link
JP (1) JPH07152697A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007274255A (en) * 2006-03-31 2007-10-18 Nec Corp Redundancy configuration system and node
WO2008056489A1 (en) * 2006-11-09 2008-05-15 Sony Computer Entertainment Inc. Multiprocessor system, its control method, and information recording medium
WO2010103610A1 (en) 2009-03-09 2010-09-16 富士通株式会社 Information processing device
JP2010231723A (en) * 2009-03-30 2010-10-14 Nec Computertechno Ltd Multiprocessor system, node controller, and failure recovering system
JP2011186606A (en) * 2010-03-05 2011-09-22 Nec Corp Computer system and checkpoint restart method thereof
US8042008B2 (en) 2008-05-30 2011-10-18 Fujitsu Limited Information processing device, transfer circuit and error controlling method for information processing device
WO2017199288A1 (en) * 2016-05-16 2017-11-23 株式会社日立製作所 Computer system and failure management method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007274255A (en) * 2006-03-31 2007-10-18 Nec Corp Redundancy configuration system and node
WO2008056489A1 (en) * 2006-11-09 2008-05-15 Sony Computer Entertainment Inc. Multiprocessor system, its control method, and information recording medium
US8266476B2 (en) 2006-11-09 2012-09-11 Sony Computer Entertainment Inc. Multiprocessor system, its control method, and information recording medium
US8042008B2 (en) 2008-05-30 2011-10-18 Fujitsu Limited Information processing device, transfer circuit and error controlling method for information processing device
WO2010103610A1 (en) 2009-03-09 2010-09-16 富士通株式会社 Information processing device
JP2010231723A (en) * 2009-03-30 2010-10-14 Nec Computertechno Ltd Multiprocessor system, node controller, and failure recovering system
JP2011186606A (en) * 2010-03-05 2011-09-22 Nec Corp Computer system and checkpoint restart method thereof
WO2017199288A1 (en) * 2016-05-16 2017-11-23 株式会社日立製作所 Computer system and failure management method

Similar Documents

Publication Publication Date Title
US7672226B2 (en) Method, apparatus and program storage device for verifying existence of a redundant fibre channel path
US6411599B1 (en) Fault tolerant switching architecture
US6725393B1 (en) System, machine, and method for maintenance of mirrored datasets through surrogate writes during storage-area network transients
JP2003051835A (en) Method for connecting between networks, virtual router, and system for connecting between networks by using this virtual router
US20020016874A1 (en) Circuit multiplexing method and information relaying apparatus
JPH10326261A (en) Error reporting system using hardware element of decentralized computer system
JPH04242463A (en) State-change informing mechanism and method in data processing input/output system
EP2677430B1 (en) Relay device, connection management method, and information communication system
US5923840A (en) Method of reporting errors by a hardware element of a distributed computer system
CN111585835B (en) Control method and device for out-of-band management system and storage medium
JPH07152697A (en) Roughly coupled computer system
EP1670190B1 (en) Switching between layer 2 switches
JP3641834B2 (en) Parallel processor system and packet discard method suitable therefor
CN115333991B (en) Cross-device link aggregation method, device, system and computer readable storage medium
CN114615106B (en) Ring data processing system, method and network equipment
JP6134720B2 (en) Connection method
JPH0993244A (en) Multiple system
JP4028627B2 (en) Client server system and communication management method for client server system
CN100490343C (en) A method and device for realizing switching between main and backup units in communication equipment
JPH06343074A (en) Anti-fault system
JP2000244526A (en) Multiplexed network connector system
KR20040020727A (en) Apparatus of duplexing for ethernet switching board in communication processing system
KR100303344B1 (en) A method for managing protocol and system switching priority for system redundancy
JP7431034B2 (en) Controller and facility monitoring system
JP7306983B2 (en) Controller and facility monitoring system