JPH08297645A - Loose coupling system - Google Patents

Loose coupling system

Info

Publication number
JPH08297645A
JPH08297645A JP7102038A JP10203895A JPH08297645A JP H08297645 A JPH08297645 A JP H08297645A JP 7102038 A JP7102038 A JP 7102038A JP 10203895 A JP10203895 A JP 10203895A JP H08297645 A JPH08297645 A JP H08297645A
Authority
JP
Japan
Prior art keywords
host
computers
coupled system
alternative
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7102038A
Other languages
Japanese (ja)
Inventor
徹 ▲高▼橋
Toru Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP7102038A priority Critical patent/JPH08297645A/en
Publication of JPH08297645A publication Critical patent/JPH08297645A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE: To surely decide a substitutive computer by temporarily stopping updating stored contents showing the state of connection or disconnection of faulty host computers to respective loose coupling systems when fault is generated at host computers. CONSTITUTION: When fault is generated at a first host 1, first of all, a fault detection processing means 56 that detects the fault at the first host 1 reports the generation fo fault to a substitutive host deciding means 57 and a connection detection processing means 54 and a disconnection detection processing means 55 instruct a host state control table 52 to lock data of each host so as not to change the data of the host state control table 52. Then, the host state control table 52 locks the stored data so as not to be changed according to the intstruction of the fault detection processing means 56. In this case, a third host 3 as a second candidate connected on the host state control table 52 is decided as the substitutive host of the first host 1. After the substitutive host is decided, a substitutive host deciding means 57 instructs the table 52 to release the lock of data.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は複数のホストコンピュー
タとそれぞれのホストコンピュータで共有されるホスト
間共有資源とを有する疎結合システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a loosely coupled system having a plurality of host computers and an inter-host shared resource shared by the respective host computers.

【0002】[0002]

【従来の技術】複数のホストコンピュータ(以下ホスト
と称す)と、それぞれのホストで共通に使用される共有
ファイルなどのホスト間共有資源とにより構成される疎
結合システムでは、通信回線によってそれぞれのホスト
が互いに接続され、各ホストは他のホストの障害の発生
あるいは疎結合システムへの接続や疎結合システムから
の切断が判るように構成されている。
2. Description of the Related Art In a loosely coupled system composed of a plurality of host computers (hereinafter referred to as "hosts") and shared resources between hosts such as shared files commonly used by the respective hosts, each host is connected by a communication line. Are connected to each other, and each host is configured so that the occurrence of a failure of another host, the connection to the loosely coupled system, and the disconnection from the loosely coupled system are known.

【0003】図2は従来の疎結合システムの構成を示す
ブロック図である。図2では第1のホスト100と、第
2のホスト200と、第3のホスト300と、ホスト間
共有資源400とによって疎結合システムが構成されて
いる例が示されている。
FIG. 2 is a block diagram showing the configuration of a conventional loosely coupled system. FIG. 2 shows an example in which the loosely coupled system is configured by the first host 100, the second host 200, the third host 300, and the inter-host shared resource 400.

【0004】図2において、各ホストには、他のホスト
と通信を行うためのホスト間通信手段101、201、
301と、全てのホストの状態を管理するためのホスト
状態管理表103、203、303と、障害が発生した
ホストとその代替ホストの関係を定義する代替ホスト定
義表104、204、304と、ホスト間共有資源との
通信、ホスト状態管理表の更新、および代替ホストコン
ピュータの決定を行う疎結合システム制御手段102、
202、302とがそれぞれ設けられている。このよう
な構成において、各ホストに設けられた疎結合システム
制御手段102、202、302は、他のホストの疎結
合システムへの接続を検出すると、それぞれのホスト状
態管理表103、203、303の該当するホストの状
態を示すデータを「接続」に更新し、他のホストの疎結
合システムからの切断を検出すると、それぞれのホスト
状態管理表103、203、303の該当するホストの
データを「切断」に更新していた。
In FIG. 2, each host includes inter-host communication means 101, 201 for communicating with other hosts.
301, host status management tables 103, 203 and 303 for managing the statuses of all hosts, alternative host definition tables 104, 204 and 304 that define the relationship between the failed host and its alternative host, and the host Loosely coupled system control means 102 for performing communication with shared resources between hosts, updating the host status management table, and determining an alternative host computer,
202 and 302 are provided, respectively. In such a configuration, when the loosely-coupled system control means 102, 202, 302 provided in each host detect the connection of another host to the loosely-coupled system, the loosely-coupled system control means 103, 203, 303 of the respective host state management tables 103, 203, 303 are detected. When the data indicating the status of the corresponding host is updated to "connect" and the disconnection of the other host from the loosely coupled system is detected, the data of the corresponding host in the respective host status management tables 103, 203, 303 is "disconnected". Was updated to.

【0005】また、動作状態を監視するためのウォッチ
ドッグタイマ等によって他のホストの障害を検出した場
合は、それぞれのホスト状態管理表103、203、3
03のデータの中で「接続」となっているホストの中か
ら代替ホストを検索して代替ホストを決定していた。代
替ホストの決定は表1に示すような代替ホスト定義表1
04、204、304を参照して行われ、代替ホストに
決定されたホストは、障害を起こしたホストが実行して
いた処理の復旧を行っていた。
Further, when a failure of another host is detected by a watchdog timer or the like for monitoring the operating status, each host status management table 103, 203, 3
The alternative host is determined by searching the alternative host from the hosts that are "connected" in the data of 03. The alternative host is determined by the alternative host definition table 1 shown in Table 1.
The host determined to be the alternative host by referring to 04, 204, and 304 was performing the recovery of the process executed by the failed host.

【0006】代替ホストの復旧処理には、例えばホスト
間共有資源400を使用して処理を行っていたホストで
障害が発生し、そのホストがホスト間共有資源400の
一部のメモリ領域を使用不可なロック状態にしたまま停
止した場合に、ロックされたメモリ領域を他のホストで
使用可能にするためのロック解除の処理等がある。
[0006] In the recovery processing of the alternate host, for example, a failure occurs in the host that was performing processing using the inter-host shared resource 400, and that host cannot use a part of the memory area of the inter-host shared resource 400. There is a process of unlocking so that the locked memory area can be used by another host when the system is stopped in a different locked state.

【0007】表1は代替ホスト定義表の内容の例を示し
ており、第1のホストに障害が生じた場合に、第2のホ
ストが代替ホストの第1候補、第3のホストが代替ホス
トの第2候補になることを示している。以下同様に第2
のホストの代替ホスト、第3のホストの代替ホストをそ
れぞれ定義している。
Table 1 shows an example of the contents of the alternative host definition table. When a failure occurs in the first host, the second host is the first candidate for the alternative host and the third host is the alternative host. It is shown that it will be the second candidate of. Similarly, the second
The alternate host of the host and the alternate host of the third host are defined.

【0008】[0008]

【表1】 [Table 1]

【0009】[0009]

【発明が解決しようとする課題】しかしながら上記した
ような従来の疎結合システムでは、ホスト毎に代替ホス
ト定義表を有して代替ホストを決定していたため、各ホ
ストの代替ホスト定義表間に矛盾が生じて、複数の代替
ホストが同時に決定されたり、代替ホストが決定されな
い等の不正動作を起こす可能性があった。
However, in the conventional loosely coupled system as described above, the alternate host definition table is provided for each host to determine the alternate host. Therefore, there is a conflict between the alternate host definition tables of each host. Therefore, a plurality of alternative hosts may be determined at the same time, or an unauthorized operation such as the alternative host not being determined may occur.

【0010】また、各代替ホスト定義表の間に矛盾がな
くても、各ホストの接続、切断、および障害の発生のタ
イミングで代替ホストが決定できないことがあった。
Even if there is no contradiction between the alternative host definition tables, the alternative host may not be determined at the timing of connection, disconnection, or failure of each host.

【0011】このような例として、図3の各ホストの状
態遷移図に示すような、第1のホストと第3のホストと
が疎結合システムに接続され、第2のホストが切断され
ている状態から、第1のホストに障害が発生して疎結合
システムから切り離され、第1のホストの障害発生直後
に第2のホストが疎結合システムに接続された場合を考
える。
As such an example, as shown in the state transition diagram of each host in FIG. 3, the first host and the third host are connected to the loosely coupled system, and the second host is disconnected. Consider a case where the first host fails and is disconnected from the loosely coupled system from the state, and the second host is connected to the loosely coupled system immediately after the failure of the first host.

【0012】この場合、第2のホストは第1のホストの
障害発生後に疎結合システムと接続したため、第1のホ
ストの障害を検出できずに第1のホストの代替ホストの
決定処理を行わない。
In this case, since the second host is connected to the loosely coupled system after the occurrence of the failure of the first host, the failure of the first host cannot be detected and the determination processing of the alternative host of the first host is not performed. .

【0013】また、図3に示すように、障害の検出には
時間を要することがあるため、第3のホストは第2のホ
ストの「接続」処理を行った後に第1のホストの障害を
検出することがある。
Further, as shown in FIG. 3, since it may take time to detect a failure, the third host executes the "connect" processing of the second host and then the first host fails. May be detected.

【0014】ここで、代替ホスト定義表の内容が従来例
で示した表1のようになっていると、ホスト状態管理表
上で第2のホストは「接続」となっているため、第3の
ホストは第2のホストが代替ホストであると判定して自
己を代替ホストとして認識しないことになる。
Here, if the contents of the alternate host definition table are as shown in Table 1 shown in the conventional example, the second host is "connected" on the host status management table, so the third host Host determines that the second host is the alternate host and does not recognize itself as the alternate host.

【0015】したがって上述したように、どのホストも
第1のホストの代替ホストとしての処理を行わず、第1
のホストの復旧処理が実行されないというおそれがあっ
た。本発明は上記したような従来の技術が有する問題点
を解決するためになされたものであり、ホストに障害が
発生した時、代替ホストの決定を確実に行う疎結合シス
テムを提供することを目的とする。
Therefore, as described above, no host performs processing as an alternative host of the first host, and
There was a risk that the recovery processing of the host could not be executed. The present invention has been made to solve the problems of the above-described conventional techniques, and an object of the present invention is to provide a loosely coupled system that surely determines an alternative host when a failure occurs in the host. And

【0016】[0016]

【課題を解決するための手段】上記目的を達成するため
本発明の疎結合システムは、複数のホストコンピュータ
と、それらに共通して使用されるホスト間共有資源とを
有する疎結合システムにおいて、前記複数のホストコン
ピュータの疎結合システムへの接続または切断の状態を
それぞれについて記憶し、前記接続の状態のホストコン
ピュータのいずれかに障害が発生した場合、前記複数の
ホストコンピュータそれぞれの前記状態の記憶内容の更
新を停止し、障害が発生したホストコンピュータの中断
した処理を復旧する代替ホストコンピュータを前記接続
の状態のホストコンピュータの中から決定して、該ホス
トコンピュータに通知し、前記代替ホストコンピュータ
の決定後、前記複数のホストコンピュータそれぞれの前
記状態の記憶内容を更新する複数ホスト制御装置を有
し、前記複数のホストコンピュータそれぞれに、前記複
数ホスト制御装置との間の通信の制御を行う複数ホスト
制御装置通信手段と、前記複数のホストコンピュータ間
の通信の制御、および前記ホスト間共有資源との通信の
制御を行う疎結合システム制御手段とが設けられている
ことを特徴とする。
In order to achieve the above object, a loosely coupled system of the present invention is a loosely coupled system having a plurality of host computers and an inter-host shared resource commonly used by them. The connection or disconnection state of a plurality of host computers to the loosely coupled system is stored for each, and when a failure occurs in any of the host computers in the connection state, the stored contents of the state of each of the plurality of host computers Of the host computer in the connected state to determine the alternative host computer to stop the update of the host computer and recover the interrupted processing of the failed host computer, notify the host computer, and determine the alternative host computer. After that, the stored contents of the state of each of the plurality of host computers A multi-host control device communication unit that has a multi-host control device to be updated, and controls the communication with the multi-host control device for each of the host computers, and the control of communication between the multi-host computers. , And a loosely coupled system control means for controlling communication with the shared resource between hosts.

【0017】このとき、前記複数ホスト制御装置は、複
数のホストコンピュータとの通信を制御するホスト通信
手段と、前記複数のホストコンピュータの疎結合システ
ムへの接続または切断の状態のデータが記憶されるホス
ト状態管理表と、障害が発生したホストコンピュータの
中断した処理を復旧する代替ホストコンピュータの候補
を前記複数のホストコンピュータそれぞれについて記憶
する代替ホスト定義表と、ホストコンピュータの疎結合
システムとの接続を検出した場合に、前記ホスト状態管
理表の該ホストコンピュータの前記データを接続に更新
する接続検出時処理手段と、ホストコンピュータの疎結
合システムからの切断を検出した場合に、前記ホスト状
態管理表の該ホストコンピュータの前記データを切断に
更新する切断検出時処理手段と、前記接続の状態のホス
トコンピュータのいずれかから障害の発生を検出した場
合に、前記ホスト状態管理表の更新停止を指示し、該ホ
ストコンピュータの障害発生を通知する障害検出時処理
手段と、前記障害検出処理手段からの障害発生通知によ
って、前記接続となっているホストコンピュータの中か
ら、前記代替ホスト定義表の内容をもとに前記代替ホス
トコンピュータを決定して、該ホストコンピュータに指
示し、かつ前記ホスト状態管理表の更新停止の解除を指
示する代替ホスト決定手段とを有していてもよい。
At this time, the multi-host control device stores host communication means for controlling communication with a plurality of host computers, and data on a state of connection or disconnection of the plurality of host computers to a loosely coupled system. A host state management table, an alternate host definition table that stores candidate alternate host computers for recovering the interrupted processing of the failed host computer for each of the plurality of host computers, and a connection between the host computer and the loosely coupled system are provided. When detected, a connection detection time processing means for updating the data of the host computer in the host state management table to a connection, and when a disconnection of the host computer from the loosely coupled system is detected, the host state management table Disconnection detection for updating the data of the host computer to disconnection Failure detection processing means for instructing to stop updating the host status management table and notifying the occurrence of a failure in the host computer when the occurrence of a failure is detected from either the processing means or the host computer in the connected state According to the failure occurrence notification from the failure detection processing means, the alternative host computer is determined from the connected host computers based on the contents of the alternative host definition table, and the selected host computer is assigned to the alternative host computer. And an alternative host determining means for instructing to release the suspension of updating of the host status management table.

【0018】[0018]

【作用】上記のように構成された本発明の疎結合システ
ムは、複数ホスト制御装置が複数のホストコンピュータ
の疎結合システムへの接続または切断の状態をそれぞれ
について記憶し、疎結合システムと接続しているホスト
コンピュータのいずれかに障害が発生した場合に、各ホ
ストコンピュータそれぞれの状態の記憶内容の更新を停
止し、疎結合システムと接続しているホストコンピュー
タの中から、障害が発生したホストコンピュータの中断
した処理を復旧する代替ホストコンピュータを決定し、
代替ホストコンピュータの決定後、各ホストコンピュー
タのそれぞれの状態の記憶内容を更新する。
In the loosely coupled system of the present invention configured as described above, the multiple host control unit stores the connection or disconnection state of a plurality of host computers to or from the loosely coupled system and connects the loosely coupled system. If any of the host computers that are running fails, the update of the stored contents of each host computer is stopped, and the host computer that failed is selected from the host computers connected to the loosely coupled system. Determine an alternative host computer to recover the interrupted processing of
After determining the alternative host computer, the stored contents of the respective states of each host computer are updated.

【0019】このことにより、ホストコンピュータに障
害が発生した際には、複数のホストコンピュータそれぞ
れの疎結合システムへの接続または切断の状態の記憶内
容の更新が一時的に停止されるため、ホストコンピュー
タの接続、切断、障害の発生のタイミングに依存するこ
となく確実に代替ホストコンピュータが決定される。
As a result, when a failure occurs in the host computer, the update of the stored contents of the connection or disconnection state of each of the plurality of host computers to the loosely coupled system is temporarily stopped. The substitute host computer is reliably determined without depending on the timing of connection, disconnection, or failure occurrence.

【0020】[0020]

【実施例】次に本発明の実施例について図面を参照して
説明する。
Next, an embodiment of the present invention will be described with reference to the drawings.

【0021】本実施例では、3台のホストによって疎結
合システムが構成されている場合を例にして説明する。
In this embodiment, a case where a loosely coupled system is composed of three hosts will be described as an example.

【0022】図1は本発明の疎結合システムの構成を示
すブロック図である。図1において、本実施例の疎結合
システムは、第1のホスト1と第2のホスト2と第3の
ホスト3とホスト間共有資源4とからなる疎結合システ
ムに、各ホストの状態を一括して管理し、かつ障害発生
時の代替ホストの選定を行う複数ホスト制御装置5を追
加した構成である。そして、各ホストには複数ホスト制
御装置5と通信を行うための複数ホスト制御装置通信手
段12、22、32と、各ホスト間の通信の制御、およ
びホスト間共有資源4との通信の制御を行う疎結合シス
テム制御手段11、21、31とが設けられている。
FIG. 1 is a block diagram showing the configuration of the loosely coupled system of the present invention. In FIG. 1, the loosely-coupled system of the present exemplary embodiment includes a loosely-coupled system including a first host 1, a second host 2, a third host 3, and an inter-host shared resource 4 in which the status of each host is collectively set. The configuration is such that a multiple host control device 5 is added for managing and managing a substitute host when a failure occurs. Then, each host is controlled by the multiple host controller communication means 12, 22, 32 for communicating with the multiple host controller 5, communication between the hosts, and communication with the inter-host shared resource 4. The loosely coupled system control means 11, 21, and 31 for performing the loose coupling system are provided.

【0023】なお、ホスト間共有資源4は、疎結合シス
テム制御手段11、21、31によって各ホストがそれ
ぞれ複数ホスト制御装置5と接続された後に、各ホスト
と接続されて使用される。
The inter-host shared resource 4 is used by being connected to each host after each host is respectively connected to the plural host control device 5 by the loosely coupled system control means 11, 21, 31.

【0024】複数ホスト制御装置5は、障害が発生した
ホストと代替ホストとの関係が記憶される代替ホスト定
義表51と、各ホストと疎結合システムとの「接続」ま
たは「切断」の状態がそれぞれ記憶されるホスト状態管
理表52と、各ホストとの通信制御を行うホスト通信手
段53と、ホストが疎結合システムと接続されたときに
処理を行う接続検出時処理手段54と、ホストが疎結合
システムから切断されるときに処理を行う切断検出時処
理手段55と、ホストに障害が発生したときに処理を行
う障害検出時処理手段56と、障害が発生したホストの
代替を決定する代替ホスト決定手段57とによって構成
されている。
The multi-host control unit 5 has an alternative host definition table 51 in which the relationship between a failed host and an alternative host is stored, and the status of "connection" or "disconnection" between each host and the loosely coupled system. The host status management table 52 stored therein, the host communication means 53 for controlling communication with each host, the connection detection time processing means 54 for processing when the host is connected to the loosely coupled system, and the host sparsely Disconnection detection time processing means 55 that performs processing when disconnected from the coupling system, failure detection time processing means 56 that performs processing when a host fails, and alternate host that determines replacement of the failed host It is constituted by the determining means 57.

【0025】代替ホスト定義表51は障害ホストと代替
ホストとの関係が定義された表であり、ホストに障害が
発生した時の代替ホストの決定に使用される。ホスト状
態管理表52は各ホストの状態を管理する表であり、各
ホストと疎結合システムとの「接続」または「切断」の
2つの状態のいずれかが記憶される。
The alternative host definition table 51 is a table in which the relationship between the failed host and the alternative host is defined, and is used to determine the alternative host when a failure occurs in the host. The host status management table 52 is a table for managing the status of each host, and stores either one of the two statuses of "connection" and "disconnection" between each host and the loosely coupled system.

【0026】ホスト通信手段53は、複数ホスト制御装
置5と各ホスト間の通信を制御する回路である。
The host communication means 53 is a circuit for controlling communication between the multiple host control device 5 and each host.

【0027】また、接続検出時処理手段54は、疎結合
システムと接続したホストからの接続通知によってホス
ト状態管理表52の該当するホストのデータを「接続」
に更新し、切断検出時処理手段55は、疎結合システム
から切断するホストからの切断通知によってホスト状態
管理表52の該当するホストのデータを「切断」に更新
する。
Further, the connection detection time processing means 54 "connects" the data of the corresponding host in the host status management table 52 by the connection notification from the host connected to the loosely coupled system.
And the disconnection detection time processing unit 55 updates the data of the corresponding host in the host status management table 52 to “disconnected” in response to a disconnection notification from the host disconnecting from the loosely coupled system.

【0028】障害検出時処理手段56は、ホスト状態管
理表52で「接続」となっているホストの動作状態をそ
れぞれウォッチドッグタイマ等によって監視し、ホスト
に異常(障害)が発生した場合は代替ホスト決定手段5
7に対して障害の発生を通知する。
The failure detection processing means 56 monitors the operating status of each host that is "connected" in the host status management table 52 by a watchdog timer or the like, and substitutes when an abnormality (failure) occurs in the host. Host determination means 5
Notify 7 of the occurrence of the failure.

【0029】代替ホスト決定手段57は、障害検出時処
理手段56からの障害発生通知によって代替ホスト定義
表51とホスト状態管理表52との内容をもとに代替ホ
ストを決定し、決定した代替ホストに対して障害を起こ
したホストの復旧処理を指示する。
The alternative host determining means 57 determines an alternative host based on the contents of the alternative host definition table 51 and the host status management table 52 according to the failure occurrence notification from the failure detection processing means 56, and the determined alternative host. To the recovery processing of the failed host.

【0030】このような構成において、次に本実施例の
疎結合システムの障害処理時の動作について説明する。
Next, the operation of the loosely coupled system of this embodiment in the case of fault processing in such a configuration will be described.

【0031】第1のホスト1と第3のホスト3とが複数
ホスト制御装置5およびホスト間共有資源4に接続され
ている状態から、第1のホスト1に障害が発生した場
合、まず第1のホスト1の障害を検出した障害検出時処
理手段56は、代替ホスト決定手段57に障害発生の通
知を行い、接続検出時処理手段54と切断検出時処理手
段55とがホスト状態管理表52のデータを変更しない
ようにホスト状態管理表52に対して各ホストのデータ
をロックするように指示をする。そして、ホスト状態管
理表52は障害検出時処理手段56の指示にしたがって
記憶しているデータの変更ができないようにロックす
る。
When a failure occurs in the first host 1 from the state where the first host 1 and the third host 3 are connected to the multiple host control device 5 and the inter-host shared resource 4, first The failure detection time processing means 56 which has detected the failure of the host 1 notifies the alternative host determination means 57 of the occurrence of the failure, and the connection detection time processing means 54 and the disconnection detection time processing means 55 of the host state management table 52. The host status management table 52 is instructed to lock the data of each host so as not to change the data. Then, the host status management table 52 is locked so that the stored data cannot be changed in accordance with the instruction of the failure detection processing means 56.

【0032】次に、第1のホスト1の障害発生直後に第
2のホスト2が接続されると、接続検出時処理手段54
はホスト状態管理表52の第2のホスト2のデータを
「接続」へ更新する処理を行う。しかしながら、ホスト
状態管理表52のデータがロックされているため、第2
のホスト2のデータの更新処理は待機状態となる。
Next, when the second host 2 is connected immediately after the failure of the first host 1, the connection detection time processing means 54
Performs the process of updating the data of the second host 2 in the host status management table 52 to "connection". However, since the data of the host status management table 52 is locked, the second
The update processing of the data of the host 2 is in a standby state.

【0033】このときホスト状態管理表52は表2に示
す状態になっている。
At this time, the host status management table 52 is in the status shown in Table 2.

【0034】[0034]

【表2】 一方、第1のホスト1の障害発生の通知を受けた代替ホ
スト決定手段57は、代替ホスト定義表51の内容を検
索する。
[Table 2] On the other hand, the alternative host determining means 57 that has received the notification of the failure occurrence of the first host 1 searches the contents of the alternative host definition table 51.

【0035】ここで、代替ホスト定義表51の内容が従
来例で示した表1と同様の内容に設定されているものと
すると、代替ホスト決定手段57は、ホスト状態管理表
52上で「切断」となっている代替ホストの第1候補で
ある第2のホスト2を採用せずに、ホスト状態管理表5
2上で「接続」となっている第2候補である第3のホス
ト3を第1のホスト1の代替ホストに決定する。
Here, assuming that the contents of the alternative host definition table 51 are set to the same contents as the table 1 shown in the conventional example, the alternative host determining means 57 indicates “disconnect” on the host status management table 52. The host state management table 5 is adopted without adopting the second host 2 which is the first candidate for the alternative host which is
The third host 3, which is the second candidate that is “connected” on the second host 2, is determined as the alternative host of the first host 1.

【0036】代替ホストが決定した後、代替ホスト決定
手段57はホスト状態管理表52に対してデータのロッ
ク解除を指示し、ホスト通信手段53を介して第3のホ
スト3に第1のホスト1の復旧処理を指示する。そし
て、ホスト状態管理表52は代替ホスト決定手段57の
指示にしたがってデータのロックを解除する。
After the alternative host is determined, the alternative host determining means 57 instructs the host status management table 52 to unlock the data, and the third host 3 is instructed to the first host 1 via the host communication means 53. To instruct recovery processing. Then, the host status management table 52 unlocks the data according to the instruction of the alternative host determining means 57.

【0037】ホスト状態管理表52のデータのロックが
解除されたら、障害検出時処理手段56はホスト状態管
理表52上の第1のホスト1のデータを「切断」に更新
し、接続検出時処理手段54は第2のホスト2のデータ
を「接続」に更新する。
When the lock of the data in the host status management table 52 is released, the failure detection processing means 56 updates the data of the first host 1 in the host status management table 52 to "disconnect", and the connection detection processing is performed. The means 54 updates the data of the second host 2 to "connection".

【0038】したがって、ホストに障害が発生した際、
ホスト状態管理表52のデータを一時的にロックしてい
るため、従来のようなホストの接続、切断、障害の発生
のタイミングに依存せずに確実に代替ホストが決定され
るため、代替ホストによる復旧処理が確実に実行され
る。
Therefore, when a failure occurs in the host,
Since the data in the host status management table 52 is temporarily locked, the alternative host can be reliably determined without depending on the timing of connection, disconnection, or failure occurrence of the host as in the conventional case. The recovery process is executed reliably.

【0039】また、代替ホストの決定を複数ホスト制御
装置5で一括して行うため、従来のような複数の代替ホ
スト定義表を有することによる矛盾の発生がなく、不正
動作がなくなる。
Further, since the alternative hosts are collectively determined by the plurality of host control devices 5, there is no contradiction caused by having a plurality of alternative host definition tables as in the conventional case, and the illegal operation is eliminated.

【0040】なお、本実施例では疎結合システムを構成
するホストの数が3台の場合を例にして説明している
が、ホストの台数に関係なく本実施例を適用可能であ
る。
In the present embodiment, the case where the number of hosts forming the loosely coupled system is three is described as an example, but the present embodiment can be applied regardless of the number of hosts.

【0041】[0041]

【発明の効果】本発明は以上説明したように構成されて
いるので、以下に記載する効果を奏する。
Since the present invention is constructed as described above, it has the following effects.

【0042】複数のホストコンピュータの疎結合システ
ムへの接続または切断の状態をそれぞれについて記憶
し、疎結合システムと接続しているホストコンピュータ
のいずれかに障害が発生した場合に、各ホストコンピュ
ータそれぞれの状態の記憶内容の更新を停止し、疎結合
システムと接続しているホストコンピュータの中から、
障害が発生したホストコンピュータの中断した処理を復
旧する代替ホストコンピュータを決定し、代替ホストコ
ンピュータの決定後、各ホストコンピュータのそれぞれ
の状態の記憶内容を更新する複数ホスト制御装置を有す
ることで、ホストコンピュータの接続、切断、および障
害の発生のタイミングに依存することなく確実に代替ホ
ストコンピュータが決定されるため、代替ホストコンピ
ュータによる復旧処理が確実に実行される。
The state of connection or disconnection of a plurality of host computers to the loosely coupled system is stored for each, and when a failure occurs in any of the host computers connected to the loosely coupled system, each of the host computers respectively. Stop updating the stored contents of the state, and from the host computer connected to the loosely coupled system,
By having a plurality of host control devices that determine an alternative host computer that recovers the interrupted processing of the failed host computer and update the stored contents of each state of each host computer after the alternative host computer is determined, Since the alternative host computer is reliably determined without depending on the timing of connection, disconnection, and failure of the computer, the recovery process by the alternative host computer is surely executed.

【0043】また、代替ホストコンピュータの決定を複
数ホスト制御装置で一括して行うため、従来のような複
数の代替ホスト定義表を有することによる矛盾の発生が
なく、不正動作がなくなる。
Further, since the alternative host computers are collectively determined by the plurality of host control devices, there is no contradiction caused by having a plurality of alternative host definition tables as in the conventional case, and the illegal operation is eliminated.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の疎結合システムの構成を示すブロック
図である。
FIG. 1 is a block diagram showing the configuration of a loosely coupled system according to the present invention.

【図2】従来の疎結合システムの構成を示すブロック図
である。
FIG. 2 is a block diagram showing a configuration of a conventional loosely coupled system.

【図3】疎結合システムを構成する3台のホストコンピ
ュータの状態の遷移例を示す図である。
FIG. 3 is a diagram showing an example of state transitions of three host computers constituting a loosely coupled system.

【符号の説明】[Explanation of symbols]

1 第1のホスト 2 第2のホスト 3 第3のホスト 4 ホスト間共有資源 5 複数ホスト制御装置 11、21、31 疎結合システム制御手段 12、22、32 複数ホスト制御装置通信手段 51 代替ホスト定義表 52 ホスト状態管理表 53 ホスト通信手段 54 接続検出時処理手段 55 切断検出時処理手段 56 障害検出時処理手段 57 代替ホスト決定手段 1 1st host 2 2nd host 3 3rd host 4 Shared resources between hosts 5 Multiple host control devices 11, 21, 31 Loosely coupled system control means 12, 22, 32 Multiple host control device communication means 51 Alternative host definition Table 52 Host status management table 53 Host communication means 54 Connection detection processing means 55 Disconnection detection processing means 56 Failure detection processing means 57 Alternative host determining means

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 複数のホストコンピュータと、それらに
共通して使用されるホスト間共有資源とを有する疎結合
システムにおいて、 前記複数のホストコンピュータの疎結合システムへの接
続または切断の状態をそれぞれについて記憶し、前記接
続の状態のホストコンピュータのいずれかに障害が発生
した場合、前記複数のホストコンピュータそれぞれの前
記状態の記憶内容の更新を停止し、障害が発生したホス
トコンピュータの中断した処理を復旧する代替ホストコ
ンピュータを前記接続の状態のホストコンピュータの中
から決定して、該ホストコンピュータに通知し、前記代
替ホストコンピュータの決定後、前記複数のホストコン
ピュータそれぞれの前記状態の記憶内容を更新する複数
ホスト制御装置を有し、 前記複数のホストコンピュータそれぞれに、 前記複数ホスト制御装置との間の通信の制御を行う複数
ホスト制御装置通信手段と、 前記複数のホストコンピュータ間の通信の制御、および
前記ホスト間共有資源との通信の制御を行う疎結合シス
テム制御手段とが設けられていることを特徴とする疎結
合システム。
1. A loosely-coupled system having a plurality of host computers and shared resources between hosts, which are commonly used by the host computers, and states of connection or disconnection of the plurality of host computers to the loosely-coupled system. If any of the stored host computers in the connected state fails, the update of the stored contents of the state of each of the plurality of host computers is stopped, and the interrupted processing of the failed host computer is restored. A plurality of alternative host computers to be selected from among the host computers in the connection state, notify the host computer, and after determining the alternative host computer, update the storage contents of the states of each of the plurality of host computers; A host controller, the plurality of host computers In each of them, a multi-host controller communication means for controlling communication with the multi-host controller, a control for communication between the plurality of host computers, and a control for communication with the inter-host shared resource are provided. A loosely coupled system characterized in that a coupling system control means is provided.
【請求項2】 請求項1に記載の疎結合システムにおい
て、 複数ホスト制御装置は、 複数のホストコンピュータとの通信を制御するホスト通
信手段と、 前記複数のホストコンピュータの疎結合システムへの接
続または切断の状態のデータが記憶されるホスト状態管
理表と、 障害が発生したホストコンピュータの中断した処理を復
旧する代替ホストコンピュータの候補を前記複数のホス
トコンピュータそれぞれについて記憶する代替ホスト定
義表と、 ホストコンピュータの疎結合システムとの接続を検出し
た場合に、前記ホスト状態管理表の該ホストコンピュー
タの前記データを接続に更新する接続検出時処理手段
と、 ホストコンピュータの疎結合システムからの切断を検出
した場合に、前記ホスト状態管理表の該ホストコンピュ
ータの前記データを切断に更新する切断検出時処理手段
と、 前記接続の状態のホストコンピュータのいずれかから障
害の発生を検出した場合に、前記ホスト状態管理表の更
新停止を指示し、該ホストコンピュータの障害発生を通
知する障害検出時処理手段と、 前記障害検出処理手段からの障害発生通知によって、前
記接続となっているホストコンピュータの中から、前記
代替ホスト定義表の内容をもとに前記代替ホストコンピ
ュータを決定して、該ホストコンピュータに指示し、か
つ前記ホスト状態管理表の更新停止の解除を指示する代
替ホスト決定手段と、を有することを特徴とする疎結合
システム。
2. The loosely-coupled system according to claim 1, wherein the multiple-host control device controls host communication with a plurality of host computers, and connects the plurality of host computers to the loosely-coupled system. A host state management table that stores disconnection state data, an alternate host definition table that stores candidate alternate host computers for recovering the interrupted processing of a failed host computer for each of the plurality of host computers, and a host When a connection of a computer with a loosely coupled system is detected, a connection detection time processing means for updating the data of the host computer in the host status management table to the connection, and a disconnection of the host computer from the loosely coupled system are detected. In the case of the host computer of the host status management table When a failure is detected from any one of the disconnection detection processing means for updating data to disconnection and the host computer in the connected state, the host state management table is instructed to stop updating, and the host computer fails. The failure detection processing means for notifying the occurrence, and the alternative host computer based on the contents of the alternative host definition table among the host computers connected by the failure detection notification from the failure detection processing means. And a substitute host determining means for instructing the host computer and instructing to release the update stop of the host state management table.
JP7102038A 1995-04-26 1995-04-26 Loose coupling system Pending JPH08297645A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7102038A JPH08297645A (en) 1995-04-26 1995-04-26 Loose coupling system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7102038A JPH08297645A (en) 1995-04-26 1995-04-26 Loose coupling system

Publications (1)

Publication Number Publication Date
JPH08297645A true JPH08297645A (en) 1996-11-12

Family

ID=14316609

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7102038A Pending JPH08297645A (en) 1995-04-26 1995-04-26 Loose coupling system

Country Status (1)

Country Link
JP (1) JPH08297645A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60144849A (en) * 1984-01-09 1985-07-31 Fujitsu Ltd Communication control system
JPH02231664A (en) * 1989-01-24 1990-09-13 Internatl Business Mach Corp <Ibm> Recovery of communication session
JPH04335456A (en) * 1991-05-13 1992-11-24 Hokkaido Nippon Denki Software Kk Automatic on-line monitor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60144849A (en) * 1984-01-09 1985-07-31 Fujitsu Ltd Communication control system
JPH02231664A (en) * 1989-01-24 1990-09-13 Internatl Business Mach Corp <Ibm> Recovery of communication session
JPH04335456A (en) * 1991-05-13 1992-11-24 Hokkaido Nippon Denki Software Kk Automatic on-line monitor

Similar Documents

Publication Publication Date Title
EP1437658B1 (en) Coordinating persistent status information with multiple file servers
EP2281240B1 (en) Maintaining data integrity in data servers across data centers
US6195760B1 (en) Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
US6266781B1 (en) Method and apparatus for providing failure detection and recovery with predetermined replication style for distributed applications in a network
US6859889B2 (en) Backup system and method for distributed systems
EP1574956B1 (en) Distributed system using quorum redundancy and method therefor
JP3887130B2 (en) High availability computer system and data backup method in the same system
CN103856357A (en) Stack system fault processing method and stack system
JP6083480B1 (en) Monitoring device, fault tolerant system and method
WO2006020390A2 (en) Computing system redundancy and fault tolerance
JP3774826B2 (en) Information processing device
CN110661599B (en) HA implementation method, device and storage medium between main node and standby node
JP2003345620A (en) Process monitoring method for multi-node cluster system
JPH08297645A (en) Loose coupling system
JPH07111685B2 (en) System operation maintenance method
JP3325785B2 (en) Computer failure detection and recovery method
CN111258823A (en) Method and system for switching master server and slave server
JP2000020336A (en) Duplex communication system
JPH07141308A (en) Back-up method in information processing system
JP3652232B2 (en) Microcomputer error detection method, error detection circuit, and microcomputer system
JPH08185329A (en) Data processor
JPH09288590A (en) Virtual computer system
JPH11168502A (en) Communication fault processor and communication fault processing method
JPH0553938A (en) System for switching duplex central processing units
CN115599604A (en) Automatic data recovery method of database cluster and storage medium