JPH0895931A - Faust detecting method for distributed computer system - Google Patents
Faust detecting method for distributed computer systemInfo
- Publication number
- JPH0895931A JPH0895931A JP6230022A JP23002294A JPH0895931A JP H0895931 A JPH0895931 A JP H0895931A JP 6230022 A JP6230022 A JP 6230022A JP 23002294 A JP23002294 A JP 23002294A JP H0895931 A JPH0895931 A JP H0895931A
- Authority
- JP
- Japan
- Prior art keywords
- computer
- failure
- survival signal
- computers
- virtual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Debugging And Monitoring (AREA)
- Multi Processors (AREA)
- Computer And Data Communications (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】この発明は、ネットワークを介し
て接続された複数の計算機を含む分散計算機システムに
おいて、ネットワーク及び計算機にかかる負荷を低減し
て確実に故障を発見するための分散計算機システムの故
障検出方法に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a distributed computer system including a plurality of computers connected via a network, for reducing the load on the network and the computer to reliably detect a failure. The present invention relates to a failure detection method.
【0002】[0002]
【従来の技術】図59は、従来の分散計算機システムに
おける、計算機及びネットワークの故障検出方法を説明
するブロック図であり、図において、101〜105
は、計算機である。分散計算機システムでは、これらの
計算機101〜105は周知のようにローカルエリアネ
ットワーク(以下、LANと称す)を介して互いに通信
可能なように接続されている。2. Description of the Related Art FIG. 59 is a block diagram for explaining a failure detecting method for a computer and a network in a conventional distributed computer system.
Is a calculator. In the distributed computer system, these computers 101 to 105 are connected to each other via a local area network (hereinafter referred to as LAN) so that they can communicate with each other, as is well known.
【0003】次に動作について説明する。これらの計算
機の一つ、例えば計算機103に、稼働情報の管理の役
割が割り当てられており、この計算機103が他の全て
の計算機に対して、定期的に故障検出用の信号、即ち生
存信号送信要求のための信号を送信し、一定時間以内に
この信号に対する応答、即ち生存信号を受信するか否か
をチェックする。稼働情報管理の計算機103は、生存
信号を受信した場合には、生存信号を送信してきた計算
機及びその計算機との通信経路は正常であると判断し、
生存信号を受信しなかった場合には、生存信号送信要求
の信号を送信した計算機またはその計算機との通信経路
は何らかの故障状態にあると判断する。そして、稼働情
報管理の計算機103は、検出した故障情報を何らかの
方法で全ての計算機に通知する。Next, the operation will be described. One of these computers, for example, the computer 103, is assigned the role of managing operating information, and this computer 103 periodically sends a signal for failure detection, that is, a survival signal to all other computers. A signal for request is transmitted, and it is checked whether a response to this signal, that is, a survival signal is received within a certain time. When receiving the survival signal, the operation information management computer 103 determines that the computer that has transmitted the survival signal and the communication path with the computer are normal,
When the survivor signal is not received, it is determined that the computer that has transmitted the survivor signal transmission request signal or the communication path with the computer is in some failure state. Then, the operation information management computer 103 notifies all the computers of the detected failure information by some method.
【0004】ところで、このような故障検出方法では、
1台の計算機に稼働情報の管理が集中しているので、当
該計算機が故障した場合に、故障検出機能が失われてし
まう。このような欠点を避けるため、全ての計算機に同
様な機能を割り当てる方法もある。By the way, in such a failure detection method,
Since the management of operation information is concentrated on one computer, the failure detection function is lost when the computer fails. To avoid such drawbacks, there is also a method of assigning similar functions to all computers.
【0005】[0005]
【発明が解決しようとする課題】従来の分散計算機シス
テムの故障検出方法は以上のように構成されているの
で、特に前者の方法では、故障検出機能が特定の計算機
に集中しており、当該計算機自身が故障すると、故障検
出機能が失われてしまうという問題点があった。Since the conventional fault detection method for a distributed computer system is configured as described above, the fault detection function is concentrated on a specific computer especially in the former method. There is a problem that the failure detection function is lost when the device itself fails.
【0006】また、後者の故障検出方法では、計算機の
台数が増加すると、故障検出のために送受信される信号
の量が、計算機の台数の2乗にほぼ比例して増加するた
め、LANにかかる負担(単位時間あたりLAN上に送
信される信号の個数)が大きくなってしまうという問題
点がある。即ち、LAN上に送り出される生存信号の数
は、計算機の台数をNとすると、全ての計算機が自分自
身以外に全て生存信号送信要求のための信号を送信し、
これに対する生存信号を受信することになるので、2N
(N−1)個の信号がLAN上に送信されることとな
る。また、各計算機あたり送受信する信号の数も、計算
機の台数Nに比例するため、計算機にかかる負荷が大き
くなる。In the latter fault detection method, when the number of computers increases, the amount of signals transmitted / received for fault detection increases in proportion to the square of the number of computers, so that LAN is involved. There is a problem that the burden (the number of signals transmitted on the LAN per unit time) becomes large. That is, regarding the number of surviving signals sent out on the LAN, assuming that the number of computers is N, all computers send signals for requesting survival signal transmission other than themselves,
Since the survival signal for this is received, 2N
(N-1) signals will be transmitted on the LAN. Further, since the number of signals transmitted / received for each computer is also proportional to the number N of computers, the load on the computers becomes large.
【0007】さらに、2本以上のLANに接続された分
散計算機システムの場合、計算機は自らと一部のLAN
との接続が切れた場合、他の計算機とそのLANへの接
続状態を知ることができないという問題点がある。これ
により、図60に示すように、計算機102、103の
2つの計算機で異なるLANへの接続が切れる、たすき
がけ故障が発生すると、計算機102、103は、互い
に相手の計算機との通信が不可能であると判断する。こ
の際、計算機102は、LAN401への接続が切れて
いるので、計算機103が故障しているのか、それと
も、計算機103とLAN402との接続が切れたにす
ぎず(即ち、計算機103は正常)、LAN401を介
して通信が可能であるのかを判断することができない。
また、同様に、計算機103は、LAN402への接続
が切れているので、計算機102が故障しているのか、
それとも、計算機102とLAN401との接続が切れ
たにすぎず(即ち、計算機102は正常)、LAN40
2を介して通信が可能であるのかを判断することができ
ない。このため、計算機102、103は、計算機10
1を経由して通信を行う経路があるにもかかわらず、そ
の経路を発見することができないなどの問題点があっ
た。Further, in the case of a distributed computer system connected to two or more LANs, the computer itself and some LANs
When the connection with the computer is disconnected, there is a problem that it is not possible to know the state of connection to another computer and its LAN. As a result, as shown in FIG. 60, when two computers, that is, the computers 102 and 103, are disconnected from different LANs, or when a trailing failure occurs, the computers 102 and 103 cannot communicate with each other. It is determined that At this time, since the computer 102 is disconnected from the LAN 401, the computer 103 may be out of order, or the connection between the computer 103 and the LAN 402 may be simply disconnected (that is, the computer 103 is normal). It cannot be determined whether communication is possible via the LAN 401.
Similarly, since the computer 103 is disconnected from the LAN 402, is it possible that the computer 102 is out of order?
Or, the connection between the computer 102 and the LAN 401 is only disconnected (that is, the computer 102 is normal), and the LAN 40
It is not possible to determine whether or not communication is possible via 2. Therefore, the computers 102 and 103 are
Even though there is a route for communication via 1, the problem is that the route cannot be found.
【0008】請求項1の発明は上記のような問題点を解
消するためになされたもので、特定の計算機に故障検出
機能を集中させず、耐故障性に優れており、且つ、平常
時にネットワーク及び計算機にかかる負荷を最小にでき
る分散計算機システムの故障検出方法を得ることを目的
とする。The invention of claim 1 has been made to solve the above-mentioned problems. It is excellent in fault tolerance without concentrating the fault detection function on a specific computer, and the network and It is an object of the present invention to obtain a fault detection method for a distributed computer system that can minimize the load on the computer.
【0009】請求項2の発明は、請求項1の発明に加
え、生存信号の送信先を定期的に右隣から左隣またはそ
の逆に切り換えることにより、故障発生時にも最小限の
通信量で故障を発見でき、平常時及び異常発生時に交換
される生存信号の数を最小にできる分散計算機システム
の故障検出方法を得ることを目的とする。According to a second aspect of the present invention, in addition to the first aspect of the invention, by periodically switching the transmission destination of the survival signal from the right adjacent to the left adjacent or vice versa, the communication amount can be minimized even when a failure occurs. It is an object of the present invention to provide a failure detection method for a distributed computer system that can detect a failure and minimize the number of surviving signals exchanged in normal times and when an abnormality occurs.
【0010】請求項3の発明は、自らが生存信号を受信
したか否かを、次に送信する生存信号に書き込むことに
より、送信先計算機が生存信号を受信したか否かと、生
存信号の送信元計算機が生存信号を受信したか否かとを
組み合わせて故障を発見することにより、平常時及び異
常発生時に交換される生存信号の数を最小にできる分散
計算機システムの故障検出方法を得ることを目的とす
る。According to the third aspect of the present invention, by writing in the survival signal to be transmitted next whether or not the receiving computer itself has received the survival signal, whether or not the destination computer has received the survival signal and the transmission of the survival signal. The purpose of the present invention is to obtain a failure detection method for a distributed computer system that can minimize the number of surviving signals exchanged during normal times and during an abnormality by discovering a failure by combining whether or not the original computer has received a surviving signal. And
【0011】請求項4の発明は、各計算機を節点とする
仮想ツリー上に配置することにより、故障発生時にも最
小限の通信量で故障を発見でき、平常時及び異常発生時
に交換される生存信号の数を最小にできる分散計算機シ
ステムの故障検出方法を得ることを目的とする。According to the invention of claim 4, by arranging each computer on a virtual tree having nodes as nodes, the failure can be found with a minimum communication amount even when the failure occurs, and the survivor is exchanged in normal times and when an abnormality occurs. It is an object of the present invention to obtain a fault detection method for a distributed computer system that can minimize the number of signals.
【0012】請求項5の発明は、計算機を複数のグルー
プに分割し、各グループでの代表計算機を仮想リング上
に配置することにより、故障発生時にも最小限の通信量
で故障を発見でき、平常時及び異常発生時に交換される
生存信号の数を最小にできる分散計算機システムの故障
検出方法を得ることを目的とする。According to the invention of claim 5, by dividing the computer into a plurality of groups and arranging the representative computers in each group on the virtual ring, it is possible to find the fault with the minimum communication amount even when the fault occurs. An object of the present invention is to obtain a fault detection method for a distributed computer system that can minimize the number of surviving signals exchanged in normal times and in the event of an abnormality.
【0013】請求項6の発明は、二重化LANを使用す
ることにより、送信先計算機で生存信号が受信したか否
かをチェックすることにより、平常時に故障発見のため
に交換される生存信号の数を最小にできる分散計算機シ
ステムの故障検出方法を得ることを目的とする。According to a sixth aspect of the present invention, by using a dual LAN, it is possible to check whether or not a surviving signal is received by a destination computer, and thereby, the number of surviving signals exchanged for detecting a failure in normal times. The objective is to obtain a fault detection method for a distributed computer system that can minimize
【0014】請求項7から請求項10の発明は、二重化
LANを使用することにより、生存信号そのものの受信
状態と、送信元の計算機での生存信号の受信状態とを組
み合わせて故障発見を行うことにより、平常時及び異常
発生時に交換される生存信号の数を最小にできるととも
に、1つの計算機の故障を、故障計算機の近傍の複数の
計算機により発見が可能であり、故障発生からより短い
遅れ時間で故障を発見できる分散計算機システムの故障
検出方法を得ることを目的とする。According to the seventh to tenth aspects of the invention, by using the duplicated LAN, the failure detection is performed by combining the receiving state of the live signal itself and the receiving state of the live signal at the transmission source computer. This minimizes the number of surviving signals that are exchanged during normal times and when an abnormality occurs, and it is possible to find a failure of one computer by multiple computers in the vicinity of the failure computer, resulting in a shorter delay time from the occurrence of the failure. The purpose of the present invention is to obtain a fault detection method for a distributed computer system that can detect faults in.
【0015】請求項11から請求項14の発明は、故障
発生時、故障計算機の復旧時、または新しい計算機の増
設時に、各計算機の送信先を変化させ、システムの構成
変化が生じても、それ以前と同様な故障検出能力を維持
することができる分散計算機システムの故障検出方法を
得ることを目的とする。According to the eleventh to fourteenth aspects of the present invention, when a failure occurs, a failed computer is restored, or a new computer is added, the transmission destination of each computer is changed, and even if the system configuration changes, that It is an object of the present invention to obtain a fault detection method for a distributed computer system that can maintain the same fault detection capability as before.
【0016】請求項15、請求項16の発明は、故障情
報の通知に、各計算機が送信する生存信号を利用するた
め、通知のために余分な信号を送信する必要がなく、L
ANにかかる負荷を小さくすることができる分散計算機
システムの故障検出方法を得ることを目的とする。In the inventions of claims 15 and 16, since the survival signal transmitted by each computer is used for the notification of the failure information, it is not necessary to transmit an extra signal for notification, and L
An object of the present invention is to obtain a failure detection method for a distributed computer system that can reduce the load on the AN.
【0017】請求項17、請求項19の発明は、3本以
上のLANを2本ずつの組にし、各組に対して請求項6
から請求項10、請求項12、請求項14、請求項16
の方法を適用することにより、任意の本数のLANを持
つ分散計算機システムの故障検出方法を得ることを目的
とする。In the inventions of claims 17 and 19, three or more LANs are grouped into two groups, and each group is defined by claim 6.
To claim 10, claim 12, claim 14, claim 16
It is an object of the present invention to obtain a failure detection method for a distributed computer system having an arbitrary number of LANs by applying the method of (1).
【0018】請求項18の発明は、3本以上のLANを
2本ずつの組にし、各組に対して請求項1から請求項
5、請求項11、請求項13、請求項15の方法、また
は、請求項6から請求項10、請求項12、請求項1
4、請求項16の方法を適用することにより、任意の本
数のLANを持つ分散計算機システムの故障検出方法を
得ることを目的とする。In the invention of claim 18, three or more LANs are grouped into two groups, and the methods of claims 1 to 5, claim 11, claim 13 and claim 15, for each group, Alternatively, claim 6 to claim 10, claim 12, claim 1
The object of the present invention is to obtain a failure detection method for a distributed computer system having an arbitrary number of LANs by applying the method of claim 4 or claim 16.
【0019】請求項20の発明は、請求項19の故障検
出方法において、2つのLANの組で共有されているL
ANにおいて、それぞれの組で用いられる生存信号を1
つにまとめることにより、交換される生存信号の数を少
なくする分散計算機システムの故障検出方法を得ること
を目的とする。According to a twentieth aspect of the invention, in the failure detection method of the nineteenth aspect, L shared by two LAN groups is used.
In AN, the survival signal used in each set is 1
The purpose is to obtain a fault detection method for a distributed computer system that reduces the number of surviving signals to be exchanged.
【0020】請求項21の発明は、故障発生が本来の業
務に及ぼす影響を少なくすることができる分散計算機シ
ステムの故障検出方法を得ることを目的とする。It is an object of the present invention to provide a method for detecting a failure in a distributed computer system, which can reduce the effect of a failure occurrence on the original work.
【0021】請求項22、請求項23の発明は、故障検
出の必要性の高い計算機の故障を確実に検出することが
できる分散計算機システムの故障検出方法を得ることを
目的とする。It is an object of the inventions of claims 22 and 23 to obtain a failure detecting method for a distributed computer system capable of surely detecting a failure of a computer for which failure detection is highly necessary.
【0022】請求項24の発明は、生存信号の送信と受
信時刻の関係を、要求される故障発見の特性に合わせ
て、自由に設定することができる分散計算機システムの
故障検出方法を得ることを目的とする。According to a twenty-fourth aspect of the present invention, it is possible to obtain a fault detection method for a distributed computer system in which the relationship between the transmission and reception times of the survival signal can be freely set according to the required characteristic of fault detection. To aim.
【0023】[0023]
【課題を解決するための手段】請求項1の発明に係る分
散計算機システムの故障検出方法は、複数の計算機を仮
想的な仮想リング上に配置する仮想配置ステップと、各
計算機が、仮想リング上の隣接する計算機から送信され
た生存信号を定期的に受信したか否かを調べ、受信しな
い場合、生存信号の送信に使用される通信路に異常が発
生したと判断し、故障箇所を特定する故障検出ステップ
と、各計算機が、発見した故障に関する故障情報を、通
信し得る全ての計算機に通知する故障通知ステップとを
実行するものである。According to a first aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system comprising: a virtual placement step of placing a plurality of computers on a virtual virtual ring; Check whether or not the survival signal transmitted from the adjacent computer has been regularly received. If not, it is determined that an abnormality has occurred in the communication path used to transmit the survival signal, and the failure location is specified. The failure detection step and the failure notification step in which each computer notifies failure information regarding the found failure to all computers with which it can communicate are executed.
【0024】請求項2の発明に係る分散計算機システム
の故障検出方法は、計算機が定期的に生存信号を送信す
る生存信号送信ステップにおいて、定期的なタイミング
毎に仮想リング上で交互に切り替えて右隣または左隣の
計算機へと生存信号を送信するものである。According to a second aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system, wherein in a survival signal transmitting step in which a computer periodically transmits a survival signal, the computer alternately switches on a virtual ring at regular timings. It sends a survival signal to the computer next to or to the left.
【0025】請求項3の発明に係る分散計算機システム
の故障検出方法は、生存信号送信ステップにおいて、計
算機が受信予定の生存信号を所定の時間内に受信したか
否かを、送信する生存信号に書き込み送信するものであ
る。According to a third aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system, wherein in the surviving signal transmitting step, it is determined whether or not the computer has received the surviving signal to be received within a predetermined time as a surviving signal to be transmitted. It is for writing and transmitting.
【0026】請求項4の発明に係る分散計算機システム
の故障検出方法は、各計算機を節点とし各節点が2つ以
上の子節点を有する仮想的な仮想ツリー上に配置する仮
想配置ステップと、各計算機が、仮想ツリー上で親節点
に位置する親計算機に対して、生存信号を定期的に送信
する生存信号送信ステップと、各計算機が、仮想ツリー
上で子節点に位置する子計算機からの生存信号を受信し
たか否かを調べ、その結果を組み合わせて故障箇所を特
定する故障検出ステップと、各計算機が、発見した故障
に関する情報を、通信し得る全ての計算機に通知する故
障通知ステップとを実行するものである。According to a fourth aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system, wherein each computer is a node, and each node is arranged on a virtual virtual tree having two or more child nodes. The survival signal transmission step in which the computer periodically sends a survival signal to the parent computer located at the parent node on the virtual tree, and each computer is alive from the child computer located at the child node on the virtual tree. A failure detection step of checking whether or not a signal has been received, specifying a failure location by combining the results, and a failure notification step of notifying all computers with which each computer can communicate information regarding the discovered failure of each computer. It is what you do.
【0027】請求項5の発明に係る分散計算機システム
の故障検出方法は、計算機をM個のグループに分割し、
各グループごとに1台の計算機を代表計算機とし、M個
の代表計算機を、仮想的な仮想リング上に配置する仮想
配置ステップと、代表計算機以外の計算機が、計算機の
属するグループの代表計算機に生存信号を定期的に送信
する第1の生存信号送信ステップと、各代表計算機が、
仮想リング上で特定の方向に隣接する計算機に生存信号
を定期的に送信する第2の生存信号送信ステップと、各
代表計算機が、代表計算機に送信される生存信号を受信
したか否かを調べ、その結果を組み合わせて故障箇所を
特定する故障検出ステップと、各代表計算機が、発見し
た故障に関する情報を、通信し得る全ての計算機に通知
する故障通知ステップとを実行するものである。According to a fifth aspect of the present invention, there is provided a distributed computer system failure detection method, wherein a computer is divided into M groups,
One computer for each group is set as a representative computer, and a virtual arrangement step of arranging M representative computers on a virtual virtual ring, and computers other than the representative computer survive on the representative computer of the group to which the computer belongs. The first survival signal transmission step of periodically transmitting a signal and each representative computer,
The second survival signal transmitting step of periodically transmitting the survival signal to the adjacent computer in the specific direction on the virtual ring, and checking whether or not each representative computer has received the survival signal transmitted to the representative computer The failure detection step of specifying the failure location by combining the results, and the failure notification step of notifying all the computers with which each representative computer can communicate the information about the found failure.
【0028】請求項6の発明に係る分散計算機システム
の故障検出方法は、複数の計算機を仮想的な仮想リング
上に配置する仮想配置ステップと、各計算機を仮想リン
グ上での特定の計算機から特定の方向における順番によ
って、偶数番目、奇数番目に分ける際、奇数番目の計算
機が、第1のLANを介して仮想リング上の隣接する計
算機に定期的に生存信号を送信し、偶数番目の計算機
が、第2のLANを介して仮想リング上の隣接する計算
機に定期的に生存信号を送信する生存信号送信ステップ
と、各計算機が、該計算機に送信される生存信号を受信
したか否かを調べ、その結果を組み合わせて故障箇所を
特定する故障検出ステップと、各計算機が、発見した故
障に関する情報を、通信し得る全ての計算機に通知する
故障通知ステップとを実行するものである。According to a sixth aspect of the present invention, there is provided a method of detecting a failure in a distributed computer system, which comprises a virtual placement step of placing a plurality of computers on a virtual virtual ring, and identifying each computer from a specific computer on the virtual ring. When dividing into an even number and an odd number according to the order in the direction of, the odd number computer periodically sends a survival signal to the adjacent computer on the virtual ring via the first LAN, and the even number computer , A survival signal transmitting step of periodically transmitting a survival signal to an adjacent computer on the virtual ring via the second LAN, and checking whether or not each computer has received the survival signal transmitted to the computer. , A failure detection step of specifying the failure location by combining the results, and a failure notification step of notifying all the computers with which each computer can communicate information on the discovered failure, It is intended to run.
【0029】請求項7の発明に係る分散計算機システム
の故障検出方法は、複数の計算機を仮想的な仮想リング
上に配置する仮想配置ステップと、各計算機が、第1の
LANを介して仮想リング上の特定の方向に隣接した計
算機に定期的に生存信号を送信するとともに、第2のL
ANを介して、仮想リング上の特定の方向とは逆の方向
に隣接した計算機に定期的に生存信号を送信する生存信
号送信ステップと、各計算機が隣接計算機から送信され
る生存信号を受信したか否かを調べ、その結果を、隣接
計算機に送信する生存信号に隣接計算機から送信された
生存信号への応答として書き込む生存信号応答ステップ
と、各計算機が仮想リング上での両隣の計算機からの生
存信号の有無と応答の内容とを組み合わせることによ
り、故障箇所を特定する故障検出ステップと、各計算機
が、発見した故障に関する情報を、通信し得る全ての計
算機に通知する故障通知ステップとを実行するものであ
る。According to a seventh aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system, comprising a virtual placement step of placing a plurality of computers on a virtual virtual ring, and each computer placing a virtual ring via a first LAN. Alive signal is periodically transmitted to the computer adjacent to the above specific direction, and the second L
Through the AN, a survival signal transmitting step of periodically transmitting a survival signal to a computer adjacent to the adjacent computer in a direction opposite to the specific direction on the virtual ring, and each computer receiving the survival signal transmitted from the adjacent computer Check whether or not, and write the result to the survival signal to be transmitted to the adjacent computer as a response to the survival signal sent from the adjacent computer, and the survival signal response step from each computer on both sides on the virtual ring. By combining the presence / absence of the survival signal and the content of the response, a failure detection step of specifying the failure location and a failure notification step of notifying all computers with which the computer can communicate information regarding the discovered failure To do.
【0030】請求項8の発明に係る分散計算機システム
の故障検出方法は、各計算機は、隣接する計算機に定期
的な生存信号を送信する生存信号送信ステップにおい
て、隣接する計算機から送信された生存信号に対する応
答とともに、隣接する計算機とは異なるもう一方の隣接
する計算機からの応答をコピーしたものも書き込むもの
である。According to an eighth aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system, wherein each computer transmits a survival signal periodically to an adjacent computer in a survival signal transmitting step. A copy of the response from another adjacent computer different from the adjacent computer is also written together with the response to.
【0031】請求項9の発明に係る分散計算機システム
の故障検出方法は、複数の計算機を仮想的な仮想リング
上に配置する仮想配置ステップと、各計算機を、仮想リ
ング上での特定の計算機から特定の方向における順番に
よって、偶数番目、奇数番目に分ける際、奇数番目の計
算機が、第1のLANを介して仮想リング上の両隣の計
算機に定期的に生存信号を送信し、偶数番目の計算機
が、第2のLANを介して仮想リング上の両隣の計算機
に定期的に生存信号を送信する生存信号送信ステップ
と、各計算機が、第1または第2のLANを介して、両
隣から送信される生存信号を受信したか否かを調べ、そ
の結果を組み合わせることにより故障箇所を特定する故
障検出ステップと、各計算機が、発見した故障に関する
情報を、通信し得る全ての計算機に通知する故障通知ス
テップとを実行するものである。According to a ninth aspect of the present invention, there is provided a method of detecting a failure in a distributed computer system, wherein a virtual placement step of placing a plurality of computers on a virtual virtual ring and each computer from a specific computer on the virtual ring. When dividing into even-numbered and odd-numbered computers depending on the order in a specific direction, the odd-numbered computers periodically send survival signals to the computers on both sides of the virtual ring via the first LAN, and the even-numbered computers However, the survival signal transmission step of periodically transmitting the survival signal to the computers on both sides of the virtual ring via the second LAN, and each computer is transmitted from both sides via the first or second LAN. Check whether or not a survivor signal has been received, and combine the results to identify the failure location, and each computer can communicate the information about the discovered failure. And it executes the failure notification step of notifying the computer.
【0032】請求項10の発明に係る分散計算機システ
ムの故障検出方法は、複数の計算機を仮想的な仮想リン
グ上に配置する仮想配置ステップと、各計算機を、3台
ずつの複数のグループに分割し、各グループにおいて、
第1の計算機が、第2の計算機に第1のLANを介して
定期的に生存信号を送信するとともに、第3の計算機に
第2のLANを介して定期的に生存信号を送信する生存
信号送信ステップと、各グループにおいて、第2の計算
機が、第1の計算機からの生存信号を受信したか否かを
調べ、その結果を、第3の計算機に第2のLANを介し
て定期的に送信する生存信号に書き込む第1の生存信号
応答ステップと、第3の計算機が、第1の計算機からの
生存信号を受信したか否かを調べ、その結果を、第2の
計算機に第1のLANを介して定期的に送信する生存信
号に書き込む第2の生存信号応答ステップと、第2の計
算機が、第1及び第3の計算機から送信される生存信号
の有無と内容を調べ、それらの結果を組み合わせること
により、故障箇所を特定する第1の故障検出ステップ
と、第3の計算機が、第1及び第2の計算機から送信さ
れる生存信号の有無と内容を調べ、それらの結果を組み
合わせることにより、故障箇所を特定する第2の故障検
出ステップと、各計算機が、発見した故障に関する情報
を、通信し得る全ての計算機に通知する故障通知ステッ
プとを実行するものである。According to a tenth aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system, which comprises a virtual placement step of placing a plurality of computers on a virtual virtual ring, and dividing each computer into a plurality of groups of three computers. In each group,
A survival signal in which the first computer periodically transmits a survival signal to the second computer via the first LAN and at the same time transmits a survival signal to the third computer via the second LAN. In the transmitting step and in each group, it is checked whether the second computer has received the survival signal from the first computer, and the result is periodically sent to the third computer via the second LAN. The first survival signal response step of writing in the survival signal to be transmitted, and whether the third computer has received the survival signal from the first computer, and the result is stored in the first computer to the first computer. The second survival signal response step of writing to the survival signal periodically transmitted via the LAN, the second computer checks the existence and contents of the survival signal transmitted from the first and third computers, and By combining the results, the failure location The first failure detection step for specifying, and the third computer for checking the existence and contents of the survival signal transmitted from the first and second computers, and for combining the results thereof, for specifying the failure location. The failure detection step of No. 2 and the failure notification step of notifying all the computers with which each computer can communicate of the information about the discovered failure.
【0033】請求項11の発明に係る分散計算機システ
ムの故障検出方法は、故障発生時に、各計算機の仮想的
な配置を新たに設定し直す再配置ステップをさらに実行
するものである。According to an eleventh aspect of the present invention, there is provided a distributed computer system failure detection method, which further executes a reallocation step for newly setting a virtual layout of each computer when a failure occurs.
【0034】請求項12の発明に係る分散計算機システ
ムの故障検出方法は、故障発生時に、各計算機の仮想的
な配置を新たに設定し直す再配置ステップをさらに実行
するものである。According to a twelfth aspect of the present invention, there is provided a distributed computer system failure detection method, further comprising a relocation step for re-setting a virtual layout of each computer when a failure occurs.
【0035】請求項13の発明に係る分散計算機システ
ムの故障検出方法は、故障発生時に、各計算機の仮想的
な配置を新たに設定し直す再配置ステップをさらに実行
するものである。According to a thirteenth aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system, further comprising a relocation step for resetting a virtual layout of each computer when a failure occurs.
【0036】請求項14の発明に係る分散計算機システ
ムの故障検出方法は、故障発生時に、各計算機の仮想的
な配置を新たに設定し直す再配置ステップをさらに実行
するものである。According to a fourteenth aspect of the present invention, there is provided a distributed computer system failure detection method further comprising a relocation step for re-setting a virtual layout of each computer when a failure occurs.
【0037】請求項15の発明に係る分散計算機システ
ムの故障検出方法は、検出された故障情報を隣接計算機
に通知する故障通知ステップにおいて、生存信号に故障
情報を付加して生存信号を送信することにより故障を通
知するものである。According to a fifteenth aspect of the present invention, in a fault detecting method for a distributed computer system, in the fault notifying step of notifying the adjacent computer of the detected fault information, the fault signal is added to the surviving signal and the surviving signal is transmitted. The failure is notified by.
【0038】請求項16の発明に係る分散計算機システ
ムの故障検出方法は、検出された故障情報を隣接計算機
に通知する故障通知ステップにおいて、生存信号に故障
情報を付加して生存信号を送信することにより故障を通
知するものである。According to a sixteenth aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system, wherein in the failure notification step of notifying the adjacent computer of the detected failure information, the failure information is added to the survival signal and the survival signal is transmitted. The failure is notified by.
【0039】請求項17の発明に係る分散計算機システ
ムの故障検出方法は、2N本のLANにより接続され
た、複数の計算機からなる分散システムにおいて、LA
Nを2本ずつペアにし、各ペアごとに請求項6から請求
項10、請求項12、請求項14、及び請求項16の故
障検出方法のうちのいずれかを用いるものである。According to a seventeenth aspect of the present invention, there is provided a distributed computer system failure detection method, comprising: a distributed system consisting of a plurality of computers connected by 2N LANs;
Two pairs of N are used and any one of the failure detection methods of claims 6 to 10, claim 12, claim 14 and claim 16 is used for each pair.
【0040】請求項18の発明に係る分散計算機システ
ムの故障検出方法は、(2N+1)本のLANにより接
続された、複数の計算機からなる分散システムにおい
て、LANを2本ずつペアにし、各ペアごとに請求項6
から請求項10、請求項12、請求項14、及び請求項
16の故障検出方法のうちのいずれかを用い、余った1
本については、請求項1から請求項5、請求項11、請
求項13、及び請求項15の故障検出方法のうちのいず
れかを用いるものである。According to an eighteenth aspect of the present invention, there is provided a distributed computer system failure detection method, wherein in a distributed system comprising a plurality of computers connected by (2N + 1) LANs, two LANs are paired, and each pair is paired. Claim 6
Any one of the failure detection methods of claim 10, claim 12, claim 14, and claim 16
The book uses any one of the failure detection methods of claims 1 to 5, claim 11, claim 13, and claim 15.
【0041】請求項19の発明に係る分散計算機システ
ムの故障検出方法は、(2N+1)本のLANにより接
続された、複数の計算機からなる分散システムにおい
て、LANを2本ずつペアにし、(2N+1)本目のL
ANといずれかのLANによりさらに1つのペアを作
り、各ペアごとに請求項6から請求項10、請求項1
2、請求項14、及び請求項16の故障検出方法のうち
のいずれかを用いるものである。According to a nineteenth aspect of the present invention, there is provided a distributed computer system failure detection method, wherein in a distributed system comprising a plurality of computers connected by (2N + 1) LANs, two LANs are paired, and (2N + 1) LANs are paired. The actual L
Claims 6 to 10 and claim 1 for each pair by further forming one pair with AN and any LAN
Any one of the failure detection methods of claim 2, claim 14 and claim 16 is used.
【0042】請求項20の発明に係る分散計算機システ
ムの故障検出方法は、2つのペアで共有されているLA
Nにおいて、それぞれのペアにおいて送信される生存信
号を1つにまとめるものである。According to a twentieth aspect of the present invention, there is provided a distributed computer system fault detection method, wherein an LA shared by two pairs is used.
In N, the survival signals transmitted in each pair are combined.
【0043】請求項21の発明に係る分散計算機システ
ムの故障検出方法は、仮想配置ステップにおいて、相互
に通信する頻度の高い計算機を、仮想的な配置において
近接するように配置するものである。In the failure detecting method for a distributed computer system according to the twenty-first aspect of the present invention, in the virtual arranging step, computers that frequently communicate with each other are arranged so as to be close to each other in the virtual arrangement.
【0044】請求項22の発明に係る分散計算機システ
ムの故障検出方法は、仮想配置ステップにおいて、信頼
性の高い計算機と信頼性の低い計算機を、仮想的な配置
において交互に並べるものである。According to a twenty-second aspect of the present invention, there is provided a distributed computer system failure detection method in which, in the virtual placement step, highly reliable computers and low reliability computers are alternately arranged in a virtual placement.
【0045】請求項23の発明に係る分散計算機システ
ムの故障検出方法は、仮想配置ステップにおいて、信頼
性の高い計算機と機能的に重要な計算機を、仮想的な配
置において交互に並べるものである。According to a twenty-third aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system, wherein in a virtual arrangement step, highly reliable computers and functionally important computers are arranged alternately in a virtual arrangement.
【0046】請求項24の発明に係る分散計算機システ
ムの故障検出方法は、一部または全ての生存信号につい
て、その送信時刻または受信期限を、各計算機が特定の
生存信号を受信した時刻を基準にして設定するものであ
る。According to a twenty-fourth aspect of the present invention, there is provided a distributed computer system failure detection method, wherein the transmission time or reception deadline of some or all of the surviving signals is based on the time at which each computer receives a specific surviving signal. Is set.
【0047】[0047]
【作用】請求項1の発明における分散計算機システムの
故障検出方法は、複数の計算機が仮想的な仮想リング上
に配置され、各計算機は、仮想リング上の特定の方向に
隣接する計算機に対して、自分自身の生存を示す生存信
号を定期的に送信する。また、各計算機は、仮想リング
上の隣接する計算機から送信された生存信号を定期的に
受信したか否かを調べ、受信しない場合、生存信号の送
信に使用される通信路に異常が発生したと判断し、故障
箇所を特定し、各計算機は、発見した故障に関する故障
情報を、通信し得る全ての計算機に通知する。即ち、各
計算機は、仮想リング上の隣接する決められた送信相手
に定期的に信号を送信し、定期的に生存信号を送ること
により、送信先計算機で該生存信号が受信できるかどう
かをチェックする。各計算機ごとに決まった計算機に生
存信号を送信し、送信先計算機で、該生存信号が受信で
きるかをチェックすることにより、各計算機が限定され
た範囲の故障検出を行う。各計算機が、決められた相手
にだけ生存信号を送信するため、全ての計算機が送受信
する信号の量は、計算機の台数に比例し、計算機1台あ
たり送受信する生存信号の量は、計算機の台数に関係な
くほぼ一定となる。これにより、平常時に故障発見のた
めに交換される生存信号の数を最小にできる。また、各
計算機が、自分自身の担当範囲内で発見された故障の情
報を、他の計算機に通知することにより、たすきがけ故
障が発生しても、各計算機がシステム全体の稼働情報を
得ることができる。According to the first aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system, wherein a plurality of computers are arranged on a virtual virtual ring, and each computer is connected to a computer adjacent in a specific direction on the virtual ring. , Periodically send a survival signal indicating its own survival. In addition, each computer periodically checks whether or not the survival signal transmitted from the adjacent computer on the virtual ring is received. If not, an abnormality has occurred in the communication path used to transmit the survival signal. Then, each computer notifies each of the computers with which it can communicate the fault information regarding the discovered fault. In other words, each computer periodically sends a signal to the adjacent destination on the virtual ring and sends a live signal periodically to check whether the live computer can receive the live signal. To do. The survivor signal is transmitted to a computer determined for each computer, and the destination computer checks whether the survivor signal can be received, whereby each computer detects a fault in a limited range. Since each computer sends a survival signal only to a designated partner, the amount of signals sent and received by all computers is proportional to the number of computers, and the amount of alive signals sent and received per computer is the number of computers. It is almost constant regardless of. This minimizes the number of surviving signals that are exchanged during normal times for fault detection. In addition, each computer notifies other computers of the information of the fault found within its own range, so that even if a strike failure occurs, each computer can obtain operating information of the entire system. You can
【0048】請求項2の発明における分散計算機システ
ムの故障検出方法は、計算機が定期的に生存信号を送信
する生存信号送信ステップにおいて、定期的なタイミン
グ毎に仮想リング上で交互に切り替えて右隣または左隣
の計算機へと生存信号を送信する。このように、定期的
な生存信号の送信に加えて、送信先計算機の組み合わせ
を工夫することにより、2つ以上の計算機からの生存信
号を受信する計算機をつくる。従って、故障発生時にも
最小限の通信量で故障を発見でき、平常時及び異常発生
時に交換される生存信号の数を最小にできる。In the failure detection method for the distributed computer system according to the second aspect of the present invention, in the survival signal transmitting step in which the computer periodically transmits the survival signal, the computer is alternately switched on the virtual ring at every regular timing to the right of the neighbor. Or send a survival signal to the computer on the left. Thus, in addition to the periodical transmission of the survival signal, by devising the combination of the destination computers, a computer that receives the survival signals from two or more computers is created. Therefore, even when a failure occurs, it is possible to detect the failure with a minimum amount of communication, and it is possible to minimize the number of surviving signals that are exchanged in normal times and when an abnormality occurs.
【0049】請求項3の発明における分散計算機システ
ムの故障検出方法は、生存信号送信ステップにおいて、
計算機が受信予定の生存信号を所定の時間内に受信した
か否かを、送信する生存信号に書き込み送信する。即
ち、定期的な生存信号の送信と、送信先計算機との組み
合わせの工夫に加えて、自分自身が生存信号を受信した
か否かを次に送信する生存信号に書き込むことにより、
送信先計算機が生存信号そのものを受信したか否かと、
生存信号の送信元計算機が生存信号を受信したか否かと
を組み合わせて故障を発見する。これにより、平常時及
び異常発生時に交換される生存信号の数を最小にでき
る。According to a third aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system, wherein in the live signal transmitting step,
Whether or not the computer has received the survival signal to be received within a predetermined time is written in the survival signal to be transmitted and transmitted. That is, in addition to regular transmission of the survival signal and devising a combination with the destination computer, by writing in the survival signal to be transmitted next whether or not oneself has received the survival signal,
Whether the destination computer received the survival signal itself,
The source computer of the surviving signal detects whether or not the surviving signal is received in combination with the surviving signal. As a result, the number of surviving signals exchanged in normal times and when an abnormality occurs can be minimized.
【0050】請求項4の発明における分散計算機システ
ムの故障検出方法は、各計算機を節点とし各節点が2つ
以上の子節点を有する仮想的な仮想ツリー上に配置し、
各計算機は、仮想ツリー上で親節点に位置する親計算機
に対して、生存信号を定期的に送信する生存信号送信ス
テップと、各計算機が、仮想ツリー上で子節点に位置す
る子計算機からの生存信号を受信したか否かを調べ、そ
の結果を組み合わせて故障箇所を特定する。さらに、各
計算機は、発見した故障に関する情報を、通信し得る全
ての計算機に通知する。即ち、請求項1の定期的な生存
信号の送信に加えて、送信先計算機の組み合わせを工夫
することにより、2つ以上の計算機からの生存信号を受
信する計算機をつくる。従って、故障発生時にも最小限
の通信量で故障を発見でき、平常時及び異常発生時に交
換される生存信号の数を最小にできる。According to a fourth aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system, wherein each computer is arranged as a node and each node is arranged on a virtual virtual tree having two or more child nodes.
Each computer has a survival signal transmission step of periodically transmitting a survival signal to the parent computer located at the parent node on the virtual tree, and each computer sends a survival signal from the child computer located at the child node on the virtual tree. It is checked whether or not the survival signal is received, and the results are combined to identify the failure location. Further, each computer notifies all computers with which it can communicate of information regarding the discovered failure. That is, in addition to the periodical transmission of the survival signal according to claim 1, by devising a combination of transmission destination computers, a computer for receiving the survival signals from two or more computers is created. Therefore, even when a failure occurs, it is possible to detect the failure with a minimum amount of communication, and it is possible to minimize the number of surviving signals that are exchanged in normal times and when an abnormality occurs.
【0051】請求項5の発明における分散計算機システ
ムの故障検出方法は、計算機をM個のグループに分割
し、各グループごとに1台の計算機を代表計算機とし、
M個の代表計算機を、仮想的な仮想リング上に配置す
る。代表計算機以外の計算機は、該計算機の属するグル
ープの代表計算機に生存信号を定期的に送信し、各代表
計算機は、仮想リング上で特定の方向に隣接する計算機
に生存信号を定期的に送信する。また、各代表計算機
は、該計算機に送信される生存信号を受信したか否かを
調べ、その結果を組み合わせて故障箇所を特定し、各代
表計算機は、発見した故障に関する情報を、通信し得る
全ての計算機に通知する。即ち、請求項1の定期的な生
存信号の送信に加えて、送信先計算機の組み合わせを工
夫することにより、2つ以上の計算機からの生存信号を
受信する計算機をつくる。従って、故障発生時にも最小
限の通信量で故障を発見でき、平常時及び異常発生時に
交換される生存信号の数を最小にできる。According to a fifth aspect of the present invention, there is provided a distributed computer system failure detection method, wherein a computer is divided into M groups and one computer is set as a representative computer in each group.
M representative computers are arranged on a virtual virtual ring. Computers other than the representative computer periodically transmit the survival signal to the representative computers of the group to which the computer belongs, and each representative computer periodically transmits the survival signal to the adjacent computer in a specific direction on the virtual ring. . Further, each representative computer checks whether or not the survival signal transmitted to the computer has been received, and combines the results to identify the failure location, and each representative computer can communicate information regarding the found failure. Notify all computers. That is, in addition to the periodical transmission of the survival signal according to claim 1, by devising a combination of transmission destination computers, a computer for receiving the survival signals from two or more computers is created. Therefore, even when a failure occurs, it is possible to detect the failure with a minimum amount of communication, and it is possible to minimize the number of surviving signals that are exchanged in normal times and when an abnormality occurs.
【0052】請求項6の発明における分散計算機システ
ムの故障検出方法は、複数の計算機を仮想的な仮想リン
グ上に配置する。各計算機を仮想リング上での特定の計
算機から特定の方向における順番によって、偶数番目、
奇数番目に分け、奇数番目の計算機は、第1のLANを
介して仮想リング上の隣接する計算機に定期的に生存信
号を送信し、偶数番目の計算機は、第2のLANを介し
て仮想リング上の隣接する計算機に定期的に生存信号を
送信する。また、各計算機は、該計算機に送信される生
存信号を受信したか否かを調べ、その結果を組み合わせ
て故障箇所を特定し、各計算機は、発見した故障に関す
る情報を、通信し得る全ての計算機に通知する。即ち、
各計算機が、決められた送信相手に定期的に信号を送信
し、定期的に生存信号を送る方法を二重化LANに適用
することにより、送信先計算機で該生存信号が受信した
か否かをチェックする。これにより、平常時に故障発見
のために交換される生存信号の数を最小にできる。In the fault detecting method for the distributed computer system according to the sixth aspect of the present invention, a plurality of computers are arranged on a virtual virtual ring. Depending on the order in a specific direction from a specific computer on the virtual ring, each computer is an even number,
Divided into odd-numbered computers, the odd-numbered computers periodically send survival signals to adjacent computers on the virtual ring via the first LAN, and the even-numbered computers send virtual signals to the virtual ring via the second LAN. The survival signal is periodically transmitted to the adjacent computer above. Further, each computer checks whether or not the survival signal transmitted to the computer is received, and combines the results to identify the failure location, and each computer communicates the information regarding the found failure to all the information that can be communicated. Notify the calculator. That is,
By applying a method in which each computer periodically sends a signal to a designated transmission partner and sends a live signal periodically, it is checked whether or not the live signal is received by the destination computer. To do. This minimizes the number of surviving signals that are exchanged during normal times for fault detection.
【0053】請求項7の発明における分散計算機システ
ムの故障検出方法は、複数の計算機を仮想的な仮想リン
グ上に配置する。各計算機は、第1のLANを介して仮
想リング上の特定の方向に隣接した計算機に定期的に生
存信号を送信するとともに、第2のLANを介して、仮
想リング上の特定の方向とは逆の方向に隣接した計算機
に定期的に生存信号を送信する。また、各計算機は、隣
接計算機から送信される生存信号を受信したか否かを調
べ、その結果を、隣接計算機に送信する生存信号に隣接
計算機から送信された生存信号への応答として書き込
み、各計算機は、仮想リング上での両隣の計算機からの
生存信号の有無と応答の内容とを組み合わせることによ
り、故障箇所を特定する。さらに、各計算機は、発見し
た故障に関する情報を、通信し得る全ての計算機に通知
する。即ち、定期的な生存信号の送信と、送信先計算機
の組み合わせの工夫、及び請求項3のような生存信号の
内容の工夫を、二重化LANに適用することにより、生
存信号そのものの受信状態と、送信元の計算機での生存
信号の受信状態とを組み合わせて故障発見を行う。これ
により、平常時及び異常発生時に交換される生存信号の
数を最小にできるとともに、1つの計算機の故障を、該
故障計算機の近傍の複数の計算機により発見が可能とな
り、故障発生からより短い遅れ時間で故障を発見できる
可能性が高くなる。In the fault detecting method for the distributed computer system according to the seventh aspect of the present invention, a plurality of computers are arranged on a virtual virtual ring. Each computer periodically transmits a survival signal to a computer adjacent to a specific direction on the virtual ring via the first LAN, and at the same time, transmits a survival signal to the specific computer on the virtual ring via the second LAN. The survival signal is periodically transmitted to the computers adjacent in the opposite direction. In addition, each computer checks whether or not it has received the survival signal transmitted from the adjacent computer, and writes the result as a response to the survival signal transmitted from the adjacent computer in the survival signal transmitted to the adjacent computer. The computer identifies the failure location by combining the presence / absence of the survival signal from the computers on both sides on the virtual ring and the content of the response. Further, each computer notifies all computers with which it can communicate of information regarding the discovered failure. That is, by applying the transmission of the live signal periodically, the combination of the destination computers, and the device of the content of the live signal according to claim 3 to the duplicated LAN, the reception state of the live signal itself, Fault detection is performed by combining with the reception status of the surviving signal at the transmission source computer. This makes it possible to minimize the number of surviving signals exchanged in normal times and in the event of an abnormality, and it is possible to detect a failure of one computer by multiple computers in the vicinity of the failure computer, resulting in a shorter delay from the occurrence of the failure. The chance of finding a failure in time increases.
【0054】請求項8の発明における分散計算機システ
ムの故障検出方法は、各計算機は、隣接する計算機に定
期的な生存信号を送信する生存信号送信ステップにおい
て、隣接する計算機から送信された生存信号に対する応
答とともに、隣接する計算機とは異なるもう一方の隣接
する計算機からの応答をコピーしたものも書き込む。こ
のように、定期的な生存信号の送信と、送信先計算機の
組み合わせの工夫、及び請求項3のような生存信号の内
容の工夫を、二重化LANに適用することにより、生存
信号そのものの受信状態と、送信元の計算機での生存信
号の受信状態とを組み合わせて故障発見を行う。これに
より、平常時及び異常発生時に交換される生存信号の数
を最小にできるとともに、1つの計算機の故障を、該故
障計算機の近傍の複数の計算機により発見が可能とな
り、故障発生からより短い遅れ時間で故障を発見できる
可能性が高くなる。According to the eighth aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system, wherein each computer transmits a survival signal to an adjacent computer at regular intervals in the survival signal transmitting step, with respect to the survival signal transmitted from the adjacent computer. Along with the response, a copy of the response from the other adjacent computer that is different from the adjacent computer is also written. In this way, by periodically transmitting the survival signal, devising the combination of the destination computers, and devising the content of the survival signal as claimed in claim 3 to the duplicated LAN, the reception state of the survival signal itself is obtained. And the reception state of the surviving signal at the transmission source computer are combined to detect the failure. This makes it possible to minimize the number of surviving signals exchanged in normal times and in the event of an abnormality, and it is possible to detect a failure of one computer by multiple computers in the vicinity of the failure computer, resulting in a shorter delay from the occurrence of the failure. The chance of finding a failure in time increases.
【0055】請求項9の発明における分散計算機システ
ムの故障検出方法は、複数の計算機を仮想的な仮想リン
グ上に配置する。各計算機を、仮想リング上での特定の
計算機から特定の方向における順番によって、偶数番
目、奇数番目に分け、奇数番目の計算機は、第1のLA
Nを介して仮想リング上の両隣の計算機に定期的に生存
信号を送信し、偶数番目の計算機は、第2のLANを介
して仮想リング上の両隣の計算機に定期的に生存信号を
送信する。各計算機は、第1または第2のLANを介し
て、両隣から送信される生存信号を受信したか否かを調
べ、その結果を組み合わせることにより故障箇所を特定
し、各計算機は、発見した故障に関する情報を、通信し
得る全ての計算機に通知する。このように、定期的な生
存信号の送信と、送信先計算機の組み合わせの工夫、及
び請求項3のような生存信号の内容の工夫を、二重化L
ANに適用することにより、生存信号そのものの受信状
態と、送信元の計算機での生存信号の受信状態とを組み
合わせて故障発見を行う。これにより、平常時及び異常
発生時に交換される生存信号の数を最小にできるととも
に、1つの計算機の故障を、該故障計算機の近傍の複数
の計算機により発見が可能となり、故障発生からより短
い遅れ時間で故障を発見できる可能性が高くなる。In the failure detecting method for the distributed computer system according to the ninth aspect of the present invention, a plurality of computers are arranged on a virtual virtual ring. Each computer is divided into an even-numbered computer and an odd-numbered computer according to the order in a specific direction from a specific computer on the virtual ring, and the odd-numbered computer is the first LA.
The survival signal is periodically transmitted to the computers on both sides of the virtual ring via N, and the even-numbered computer periodically transmits the survival signal to the computers on both sides of the virtual ring via the second LAN. . Each computer checks whether or not a survival signal transmitted from both sides is received via the first or second LAN, and by combining the results, the failure location is identified, and each computer finds the found failure. Informs all computers with which it can communicate of information about. In this way, the transmission of the survival signal on a regular basis, the combination of transmission destination computers, and the arrangement of the content of the survival signal as claimed in claim 3 are duplicated.
By applying to the AN, the failure detection is performed by combining the reception state of the survival signal itself and the reception state of the survival signal at the transmission source computer. This makes it possible to minimize the number of surviving signals exchanged in normal times and in the event of an abnormality, and it is possible to detect a failure of one computer by multiple computers in the vicinity of the failure computer, resulting in a shorter delay from the occurrence of the failure. The chance of finding a failure in time increases.
【0056】請求項10の発明における分散計算機シス
テムの故障検出方法は、各計算機を、3台ずつの複数の
グループに分割し、各グループにおいて、第1の計算機
が、第2の計算機に第1のLANを介して定期的に生存
信号を送信するとともに、第3の計算機に第2のLAN
を介して定期的に生存信号を送信する。また、各グルー
プにおいて、第2の計算機は、第1の計算機からの生存
信号を受信したか否かを調べ、その結果を、第3の計算
機に第2のLANを介して定期的に送信する生存信号に
書き込む。第3の計算機は、第1の計算機からの生存信
号を受信したか否かを調べ、その結果を、第2の計算機
に第1のLANを介して定期的に送信する生存信号に書
き込む。第2の計算機は、第1及び第3の計算機から送
信される生存信号の有無と内容を調べ、それらの結果を
組み合わせることにより、故障箇所を特定し、第3の計
算機は、第1及び第2の計算機から送信される生存信号
の有無と内容を調べ、それらの結果を組み合わせること
により、故障箇所を特定する。そして、各計算機は、発
見した故障に関する情報を、通信し得る全ての計算機に
通知する。このように、定期的な生存信号の送信と、送
信先計算機の組み合わせの工夫、及び請求項3のような
生存信号の内容の工夫を、二重化LANに適用すること
により、生存信号そのものの受信状態と、送信元の計算
機での生存信号の受信状態とを組み合わせて故障発見を
行う。これにより、平常時及び異常発生時に交換される
生存信号の数を最小にできるとともに、1つの計算機の
故障を、該故障計算機の近傍の複数の計算機により発見
が可能となり、故障発生からより短い遅れ時間で故障を
発見できる可能性が高くなる。According to a tenth aspect of the present invention, there is provided a distributed computer system failure detection method, wherein each computer is divided into a plurality of groups of three, and in each group, the first computer is divided into the second computer and the first computer. Sends a survival signal periodically via the LAN of the third computer and the second LAN to the third computer.
Send a live signal periodically via. Further, in each group, the second computer checks whether or not the survival signal from the first computer has been received, and periodically transmits the result to the third computer via the second LAN. Write to the survival signal. The third computer checks whether or not the survival signal from the first computer has been received, and writes the result in a survival signal that is periodically transmitted to the second computer via the first LAN. The second computer examines the existence and contents of the survival signal transmitted from the first and third computers, and by combining the results, identifies the failure location, and the third computer uses the first and third computers. The presence / absence and content of the survival signal transmitted from the second computer are checked, and the failure location is specified by combining the results. Then, each computer notifies all computers with which it can communicate of the information regarding the discovered failure. In this way, by periodically transmitting the survival signal, devising the combination of the destination computers, and devising the content of the survival signal as claimed in claim 3 to the duplicated LAN, the reception state of the survival signal itself is obtained. And the reception state of the surviving signal at the transmission source computer are combined to detect the failure. This makes it possible to minimize the number of surviving signals exchanged in normal times and in the event of an abnormality, and it is possible to detect a failure of one computer by multiple computers in the vicinity of the failure computer, resulting in a shorter delay from the occurrence of the failure. The chance of finding a failure in time increases.
【0057】請求項11の発明における分散計算機シス
テムの故障検出方法は、故障発生時に、各計算機の仮想
的な配置を新たに設定し直す再配置ステップをさらに実
行する。各計算機の現在の稼働状況に合わせて、それぞ
れの計算機の送受信先を設定する方法を、各計算機が備
えることにより、故障発生時、故障計算機の復旧時、ま
たは新しい計算機の増設時に、各計算機の送信先を変化
させ、システムの構成変化が生じてもそれ以前と同様な
故障検出能力を維持する。In the fault detecting method for the distributed computer system according to the eleventh aspect of the present invention, when a fault occurs, a relocation step of newly setting the virtual placement of each computer is further executed. Each computer is equipped with a method of setting the transmission and reception destination of each computer according to the current operating status of each computer, so that when a failure occurs, when a failed computer is restored, or when a new computer is added, each computer Even if the destination is changed and the system configuration changes, the same failure detection capability as before is maintained.
【0058】請求項12の発明における分散計算機シス
テムの故障検出方法は、故障発生時に、各計算機の仮想
的な配置を新たに設定し直す再配置ステップをさらに実
行する。各計算機の現在の稼働状況に合わせて、それぞ
れの計算機の送受信先を設定する方法を、各計算機が備
えることにより、故障発生時、故障計算機の復旧時、ま
たは新しい計算機の増設時に、各計算機の送信先を変化
させ、システムの構成変化が生じてもそれ以前と同様な
故障検出能力を維持する。According to the twelfth aspect of the present invention, in the method of detecting a failure in a distributed computer system, when a failure occurs, a relocation step of newly setting the virtual layout of each computer is further executed. Each computer is equipped with a method of setting the transmission and reception destination of each computer according to the current operating status of each computer, so that when a failure occurs, when a failed computer is restored, or when a new computer is added, each computer Even if the destination is changed and the system configuration changes, the same failure detection capability as before is maintained.
【0059】請求項13の発明における分散計算機シス
テムの故障検出方法は、故障発生時に、各計算機の仮想
的な配置を新たに設定し直す再配置ステップをさらに実
行する。各計算機の現在の稼働状況に合わせて、それぞ
れの計算機の送受信先を設定する方法を、各計算機が備
えることにより、故障発生時、故障計算機の復旧時、ま
たは新しい計算機の増設時に、各計算機の送信先を変化
させ、システムの構成変化が生じてもそれ以前と同様な
故障検出能力を維持する。According to a thirteenth aspect of the present invention, there is provided a distributed computer system failure detection method, further comprising a relocation step of re-setting a virtual layout of each computer when a failure occurs. Each computer is equipped with a method of setting the transmission and reception destination of each computer according to the current operating status of each computer, so that when a failure occurs, when a failed computer is restored, or when a new computer is added, each computer Even if the destination is changed and the system configuration changes, the same failure detection capability as before is maintained.
【0060】請求項14の発明における分散計算機シス
テムの故障検出方法は、故障発生時に、各計算機の仮想
的な配置を新たに設定し直す再配置ステップをさらに実
行する。各計算機の現在の稼働状況に合わせて、それぞ
れの計算機の送受信先を設定する方法を、各計算機が備
えることにより、故障発生時、故障計算機の復旧時、ま
たは新しい計算機の増設時に、各計算機の送信先を変化
させ、システムの構成変化が生じてもそれ以前と同様な
故障検出能力を維持する。In a distributed computer system failure detection method according to a fourteenth aspect of the present invention, when a failure occurs, a relocation step of newly setting the virtual layout of each computer is further executed. Each computer is equipped with a method of setting the transmission and reception destination of each computer according to the current operating status of each computer, so that when a failure occurs, when a failed computer is restored, or when a new computer is added, each computer Even if the destination is changed and the system configuration changes, the same failure detection capability as before is maintained.
【0061】請求項15の発明における分散計算機シス
テムの故障検出方法は、検出された故障情報を隣接計算
機に通知する故障通知ステップにおいて、生存信号を利
用する。故障情報の通知に、各計算機が送信する生存信
号を利用するため、通知のために余分な信号を送信する
必要がなく、LANにかかる負荷を小さくすることがで
きる。According to a fifteenth aspect of the present invention, a distributed computer system fault detecting method uses a survival signal in a fault notifying step of notifying an adjacent computer of the detected fault information. Since the survival signal transmitted by each computer is used for notification of failure information, it is not necessary to transmit an extra signal for notification, and the load on the LAN can be reduced.
【0062】請求項16の発明における分散計算機シス
テムの故障検出方法は、検出された故障情報を隣接計算
機に通知する故障通知ステップにおいて、生存信号を利
用する。故障情報の通知に、各計算機が送信する生存信
号を利用するため、通知のために余分な信号を送信する
必要がなく、LANにかかる負荷を小さくすることがで
きる。According to a sixteenth aspect of the present invention, there is provided a method for detecting a failure in a distributed computer system, wherein a live signal is used in a failure notification step of notifying the adjacent computer of the detected failure information. Since the survival signal transmitted by each computer is used for notification of failure information, it is not necessary to transmit an extra signal for notification, and the load on the LAN can be reduced.
【0063】請求項17の発明における分散計算機シス
テムの故障検出方法は、LANを2本ずつペアにし、各
ペアごとに請求項6から請求項10、請求項12、請求
項14、請求項16の故障検出方法のうちのいずれかを
用いる。3本以上のLANを2本ずつの組にし、各組に
対して請求項6から請求項10、請求項12、請求項1
4、請求項16の方法を適用することにより、任意の本
数のLANを持つシステムに、上記発明を適用可能とす
る。According to the failure detecting method of the distributed computer system in the invention of claim 17, two LANs are paired, and each pair is defined by claim 6 to claim 10, claim 12, claim 14 and claim 16. Use one of the failure detection methods. Claims 6 to 10, claim 12, claim 1 for each group of three or more LANs in groups of two
4. By applying the method of claim 16, the invention can be applied to a system having an arbitrary number of LANs.
【0064】請求項18の発明における分散計算機シス
テムの故障検出方法は、LANを2本ずつペアにし、各
ペアごとに請求項6から請求項10、請求項12、請求
項14、請求項16の故障検出方法のうちのいずれかを
用い、余った1本については、請求項1から請求項5、
請求項11、請求項13、請求項15の故障検出方法の
うちのいずれかを用いる。3本以上のLANを2本ずつ
の組にし、各組に対して請求項1から請求項5、請求項
11、請求項13、請求項15の方法、または、請求項
6から請求項10、請求項12、請求項14、請求項1
6の方法を適用することにより、任意の本数のLANを
持つシステムに上記発明を適用可能とする。According to the failure detecting method of the distributed computer system in the invention of claim 18, two LANs are paired, and each pair is defined by claim 6 to claim 10, claim 12, claim 14 and claim 16. Any one of the failure detection methods is used, and for the remaining one, claims 1 to 5,
Any one of the failure detection methods of claim 11, claim 13 and claim 15 is used. Two or more sets of three or more LANs are set, and for each set, the method of claim 1 to claim 5, claim 11, claim 13 or claim 15, or claim 6 to claim 10, Claim 12, Claim 14, Claim 1
By applying the method of No. 6, the invention can be applied to a system having an arbitrary number of LANs.
【0065】請求項19の発明における分散計算機シス
テムの故障検出方法は、LANを2本ずつペアにし、
(2N+1)本目のLANといずれかのLANによりさ
らに1つのペアを作り、各ペアごとに請求項6から請求
項10、請求項12、請求項14、請求項16の故障検
出方法のうちのいずれかを用いる。3本以上のLANを
2本ずつの組にし、各組に対して請求項6から請求項1
0、請求項12、請求項14、請求項16の方法を適用
することにより、任意の本数のLANを持つシステム
に、上記発明を適用可能とする。A fault detecting method for a distributed computer system according to a nineteenth aspect of the present invention comprises forming a pair of two LANs,
Any one of the fault detection methods of claims 6 to 10, claim 12, claim 14, and claim 16 is made for each pair by further forming a pair by the (2N + 1) th LAN and any one of the LANs. Use or. Claims 6 to 1 for each set, with two or more sets of three or more LANs
By applying the methods of 0, claim 12, claim 14, and claim 16, the invention can be applied to a system having an arbitrary number of LANs.
【0066】請求項20の発明における分散計算機シス
テムの故障検出方法は、2つのペアで共有されているL
ANにおいて、それぞれのペアにおいて送信される生存
信号を1つにまとめる。請求項19の故障検出方法にお
いて、2つのLANの組で共有されているLANにおい
て、それぞれの組で用いられる生存信号を1つにまとめ
ることにより、交換される生存信号の数を少なくする。The fault detection method for a distributed computer system according to the twentieth aspect of the present invention is L shared by two pairs.
At the AN, the survivor signals transmitted in each pair are combined. In the failure detection method according to claim 19, in a LAN shared by two LAN groups, the survival signals used in each group are combined into one, thereby reducing the number of exchanged survival signals.
【0067】請求項21の発明における分散計算機シス
テムの故障検出方法は、仮想配置ステップにおいて、相
互に通信する頻度の高い計算機を、仮想的な配置におい
て近接するように配置する。本来の業務において相互に
通信する可能性の高い計算機を、論理的に近い位置に配
置することにより、ある計算機の故障情報が、このよう
な計算機に早く伝えられる。これにより、故障発生が本
来の業務に及ぼす影響を少なくする。In the failure detecting method for the distributed computer system according to the twenty-first aspect of the invention, in the virtual arranging step, the computers that frequently communicate with each other are arranged so as to be close to each other in the virtual arrangement. By arranging computers that are highly likely to communicate with each other in their original business at positions that are logically close to each other, the failure information of a certain computer can be quickly transmitted to such a computer. As a result, the influence of the failure occurrence on the original work is reduced.
【0068】請求項22の発明における分散計算機シス
テムの故障検出方法は、仮想配置ステップにおいて、信
頼性の高い計算機と信頼性の低い計算機を、仮想的な配
置において交互に並べる。故障検出の必要性の高い計算
機を、信頼性の高い計算機に隣接させることにより、後
者が前者の生存信号をチェックするよう配置する。これ
により、故障検出の必要性の高い計算機の故障を確実に
検出することができる。In the fault detecting method for the distributed computer system according to the twenty-second aspect of the present invention, the computer having high reliability and the computer having low reliability are alternately arranged in the virtual arrangement in the virtual arrangement step. By placing a computer with high need for fault detection adjacent to a computer with high reliability, the latter is arranged so that the latter checks the survival signal of the former. As a result, it is possible to reliably detect a failure in a computer that has a high need for failure detection.
【0069】請求項23の発明における分散計算機シス
テムの故障検出方法は、仮想配置ステップにおいて、信
頼性の高い計算機と機能的に重要な計算機を、仮想的な
配置において交互に並べる。故障検出の必要性の高い計
算機を、信頼性の高い計算機に隣接させることにより、
後者が前者の生存信号をチェックするよう配置する。こ
れにより、故障検出の必要性の高い計算機の故障を確実
に検出することができる。In the fault detecting method of the distributed computer system according to the twenty-third aspect of the present invention, in the virtual arrangement step, the highly reliable computers and the functionally important computers are alternately arranged in the virtual arrangement. By placing a computer with high need for fault detection next to a computer with high reliability,
The latter is arranged to check the survival signal of the former. As a result, it is possible to reliably detect a failure in a computer that has a high need for failure detection.
【0070】請求項24の発明における分散計算機シス
テムの故障検出方法は、一部または全ての生存信号につ
いて、その送信時刻または受信期限を、各計算機が特定
の生存信号を受信した時刻を基準にして設定する。生存
信号の送受信時刻を、自分自身が生存信号を受信した時
刻を基準に設定することにより、同期的に生存信号を交
換する。これにより、生存信号の送信と受信時刻の関係
を、要求される故障発見の特性に合わせて、自由に設定
することができる。According to a twenty-fourth aspect of the present invention, there is provided a distributed computer system failure detection method, wherein the transmission time or reception deadline of some or all of the surviving signals is based on the time when each computer receives a specific surviving signal. Set. The survival signal is exchanged synchronously by setting the transmission / reception time of the survival signal with reference to the time when the self receives the survival signal. As a result, the relationship between the transmission and reception time of the survival signal can be freely set according to the required characteristics of failure detection.
【0071】[0071]
実施例1.以下、この発明の一実施例を図について説明
する。図1は、この発明の一実施例による分散計算機シ
ステムの物理的な構成を示すブロック図であり、図にお
いて、101〜104は、計算機である。各計算機は、
それぞれ通信インターフェース211〜214と、ケー
ブル311〜314とを介して、LAN(ローカルエリ
アネットワーク)401に接続されている。Example 1. An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a physical configuration of a distributed computer system according to an embodiment of the present invention. In the figure, 101 to 104 are computers. Each calculator is
It is connected to a LAN (local area network) 401 via communication interfaces 211 to 214 and cables 311 to 314, respectively.
【0072】図2は、この実施例による分散計算機シス
テムの仮想的な仮想リングを示す図であり、10は、仮
想リングである。分散計算機システムは、故障検出を行
うため、計算機101〜104が、図2に示すような仮
想的な仮想リング10上に配置される。各計算機は、仮
想リング上で右回りに101、102、103、104
の順に並んで配置されているが、この順序は物理的な位
置関係とは無関係に設定され得る。仮想リング上での計
算機の配置方法として、互いの通信の頻度の高い計算機
同士を近接させる方法、信頼性の高い計算機と低い計算
機を交互に配置する方法、並びに、信頼性の高い計算機
と重要な機能を担当する計算機を交互に配置する方法が
考えられる。FIG. 2 is a diagram showing a virtual virtual ring of the distributed computer system according to this embodiment, and 10 is a virtual ring. In the distributed computer system, in order to detect a failure, the computers 101 to 104 are arranged on the virtual virtual ring 10 as shown in FIG. The computers 101, 102, 103, 104 rotate clockwise on the virtual ring.
However, this order can be set regardless of the physical positional relationship. As a method of arranging computers on a virtual ring, a method of bringing computers with high frequency of mutual communication close to each other, a method of arranging computers with high reliability and computers with low reliability, and a computer with high reliability are important. A possible method is to arrange the computers in charge of the functions alternately.
【0073】ところで、動作の説明において後で詳細に
述べるように、この実施例のみならず、この発明による
分散計算機システムの故障検出方法は以下のような基本
的な特徴を備えるように構成される。By the way, as will be described later in detail in the description of the operation, not only this embodiment but the fault detecting method for the distributed computer system according to the present invention is configured to have the following basic features. .
【0074】(1)ある計算機の故障は、仮想的な配置
関係において隣接する計算機が発見する。 (2)生存信号を用いて故障情報を伝える。従って、仮
想的な配置関係において故障計算機を発見した計算機に
近くにある計算機ほど、故障情報が早く伝わる。(1) A failure of a computer is found by the adjacent computer in the virtual arrangement relationship. (2) The failure information is transmitted using the survival signal. Therefore, the failure information is transmitted earlier to the computer that is closer to the computer that has found the failure computer in the virtual arrangement relationship.
【0075】前記した互いの通信の頻度の高い計算機同
士を近接させる方法は、この2つの基本的な特徴を利用
するものであり、これにより、ある計算機が故障した際
に、本来の業務を行うためにその計算機と通信する頻度
の高い計算機は、早期に故障情報を受け取ることがで
き、故障を知らずに通信を継続して実施して本来の業務
を停止してしまうことを防止することができる。従っ
て、故障により計算機本来の業務に与える影響を小さく
することができる。The above-mentioned method of bringing the computers with high frequency of mutual communication close to each other utilizes these two basic features, whereby the original work is performed when a computer fails. For this reason, a computer that frequently communicates with the computer can receive the failure information at an early stage, and can prevent the original work from being stopped by continuing the communication without knowing the failure. . Therefore, it is possible to reduce the influence of the failure on the original work of the computer.
【0076】また、信頼性の高い計算機と低い計算機を
交互に配置する方法、並びに、信頼性の高い計算機と重
要な機能を担当する計算機を交互に配置する方法は、上
記(1)の特徴を利用しており、それ故、信頼性の高い
計算機は、隣接する信頼性の低い計算機、または、重要
な機能を担当する計算機の故障を確実に発見することが
期待される。従って、このような仮想的な配置関係を構
築することにより、隣接する信頼性の低い計算機、また
は、重要な機能を担当する計算機のような故障検出の必
要性の高い計算機の故障を確実に検出できる。A method of alternately arranging a computer with high reliability and a computer with low reliability, and a method of alternately arranging a computer with high reliability and a computer in charge of important functions have the characteristics of the above (1). Therefore, a highly reliable computer is expected to reliably detect a failure of an adjacent unreliable computer or a computer in charge of an important function. Therefore, by constructing such a virtual layout relationship, it is possible to reliably detect the failure of an adjacent computer with low reliability, or a computer with a high need for failure detection, such as a computer in charge of important functions. it can.
【0077】次に動作について説明する。図3は、分散
計算機システムの動作を示すフローチャートであり、図
4は、図2の如く仮想リング上に配置された計算機の生
存信号の送受信の様子を説明するためのブロック図であ
り、図5は、計算機102のケーブル312が故障した
場合の分散計算機システムの動作を示す図であり、図6
は、故障後の再構成された分散計算機システムを示す図
である。以下、これらの図を参照しながら、また、図3
に示すフローチャートの各ステップと対応させながら、
分散計算機システムの計算機の動作を説明する。Next, the operation will be described. FIG. 3 is a flowchart showing the operation of the distributed computer system, and FIG. 4 is a block diagram for explaining the transmission / reception of the survival signal of the computers arranged on the virtual ring as shown in FIG. 6 is a diagram showing the operation of the distributed computer system when the cable 312 of the computer 102 fails, and FIG.
FIG. 3 is a diagram showing a reconfigured distributed computer system after a failure. Below, referring to these figures,
While corresponding to each step of the flowchart shown in
The operation of the computer of the distributed computer system will be described.
【0078】図4に示すように、計算機101〜104
は、それぞれLAN401を介して、仮想リング上で右
隣に位置する計算機に対して定期的に生存信号を送信す
る。具体的には、生存信号を定期的に送るための送信タ
イマが0か否かをチェックして(ステップST1)、送
信タイマが0ならば、即ち予め定められたタイムアウト
時間を経過しているならば、生存信号を送信して、タイ
ムアウト時間を設定して生存信号の送信タイマをセット
する(ステップST2)。As shown in FIG. 4, computers 101 to 104
Respectively periodically transmit a survival signal to the computer located on the right side on the virtual ring via the LAN 401. Specifically, it is checked whether or not the transmission timer for periodically transmitting the survival signal is 0 (step ST1), and if the transmission timer is 0, that is, if a predetermined time-out time has elapsed. For example, the survival signal is transmitted, the timeout time is set, and the survival signal transmission timer is set (step ST2).
【0079】通常、計算機は平常モードで動作しており
(ステップST3)、各計算機は、左隣の計算機からの
生存信号が、一定時間ごとに受信されるかを調べ(ステ
ップST4)、受信した場合に予め定められたタイムア
ウト時間を設定して生存信号の受信タイマをセットない
しリセットする(ステップST5)。さらに、生存信号
に故障情報が付加されているかチェックする(ステップ
ST6)。Normally, the computer is operating in the normal mode (step ST3), and each computer checks whether or not the survival signal from the computer on the left is received at regular intervals (step ST4), and receives it. In this case, a predetermined timeout time is set and the survival signal reception timer is set or reset (step ST5). Further, it is checked whether failure information is added to the survival signal (step ST6).
【0080】ステップST4において、計算機が左隣の
計算機から生存信号を受信しなかった場合、以下のよう
な故障が発生している可能性がある。In step ST4, when the computer does not receive the survival signal from the computer on the left, there is a possibility that the following failure has occurred.
【0081】1)左隣の計算機の故障 2)左隣の計算機の通信インターフェースの故障 3)左隣の計算機とLANを接続するケーブルの故障 4)自分自身とLANを接続するケーブルの故障 5)自分自身の通信インターフェースの故障1) Failure of the computer on the left side 2) Failure of the communication interface of the computer on the left side 3) Failure of the cable connecting the computer on the left side to the LAN 4) Failure of the cable connecting itself to the LAN 5) Failure of own communication interface
【0082】以下、図5に示すように、計算機102の
通信インターフェース212とLAN401とを接続す
るケーブル312が故障しているものとして、以下の分
散計算機システムの動作を説明する。Hereinafter, as shown in FIG. 5, the operation of the following distributed computer system will be described assuming that the cable 312 connecting the communication interface 212 of the computer 102 and the LAN 401 is out of order.
【0083】計算機102、103は、それぞれ左隣の
計算機101、102からの生存信号を受信できなくな
る。計算機102、103は、生存信号の受信に失敗す
ると、まず、生存信号の受信タイマが0か否か、即ち所
定の時間、生存信号を受信しなかったか否かを判断し
(ステップST10)、受信タイマが0ならば上記1)
〜5)のいずれかの故障が発生したものと判断し、故障
検出モードに移行して、計算機102、103は、左隣
の計算機以外の計算機を選び、該計算機に対して、生存
信号の送信を要求する信号を送るとともに、予め定めら
れたタイムアウト時間を設定して生存信号受信タイマを
リセットする(ステップST11)。尚、受信タイマが
0である場合は、受信タイマがタイムアウトしている場
合に対応する。ステップST11の後、ステップST1
に戻り、生存信号の送信タイマは0ではなく故障検出モ
ードであるので、ステップST3からステップST14
に移行する。The computers 102 and 103 cannot receive the survival signal from the computers 101 and 102 on the left side, respectively. When the survival signal reception fails, the computers 102 and 103 first determine whether the survival signal reception timer is 0, that is, whether the survival signal has not been received for a predetermined time (step ST10), and receive the signal. If the timer is 0, above 1)
It is determined that any of the failures in 5) to 5) has occurred, the mode shifts to the failure detection mode, the computers 102 and 103 select a computer other than the computer on the left, and transmit a survival signal to the computer. Is sent, and a survival signal reception timer is reset by setting a predetermined timeout time (step ST11). The case where the reception timer is 0 corresponds to the case where the reception timer has timed out. After step ST11, step ST1
Returning to step ST3, since the survival signal transmission timer is not 0 but in the failure detection mode, the steps ST3 to ST14 are performed.
Move to.
【0084】計算機102は、ケーブル312の故障の
ため、この要求に対する生存信号を受信できない。従っ
て、計算機102は、上記した4)または5)の故障が
発生したと判断し、ステップST19において生存信号
の受信タイマが0か否かを判断した後、自分自身を再起
動するなどの処置を行う(ステップST20)。The computer 102 cannot receive the live signal for this request due to the failure of the cable 312. Therefore, the computer 102 determines that the failure of 4) or 5) described above has occurred, determines whether the reception timer of the survival signal is 0 in step ST19, and then takes measures such as restarting itself. Perform (step ST20).
【0085】一方、図5に示す計算機103は、生存信
号の送信要求を送ることにより、ステップST11で選
択した、左隣の計算機以外の計算機から応答を受信する
ことができるため、1)〜3)の故障が発生したと判断
する(ステップST14)。次に、計算機103は、計
算機102を取り除いた新たな仮想リングを作成する。
新しい仮想リングでは、図6に示すように、計算機は右
回りに101、103、104の順で並んでいる。この
ように、故障や復旧によって計算機の構成が変化した場
合に、計算機の仮想的な配置を変更する処理を、再構成
という。再構成を行うことにより、分散計算機システム
は故障発生前と同様の故障検出能力を発揮できる。ま
た、この結果、計算機101は生存信号の送信先計算機
が、計算機102から計算機103に変わるため、計算
機103は計算機101に生存信号の送信先の変更要求
を送信する(ステップST15)。On the other hand, the computer 103 shown in FIG. 5 can receive a response from a computer other than the computer on the left side selected in step ST11 by sending a request to transmit a survival signal, and therefore 1) to 3). It is judged that the failure of 1) has occurred (step ST14). Next, the computer 103 creates a new virtual ring from which the computer 102 has been removed.
In the new virtual ring, as shown in FIG. 6, the computers are arranged clockwise in the order of 101, 103, 104. In this way, when the configuration of the computer changes due to a failure or restoration, the process of changing the virtual placement of the computer is called reconfiguration. By performing the reconfiguration, the distributed computer system can exhibit the same failure detection capability as before the failure occurred. Further, as a result, since the destination computer of the survival signal of the computer 101 is changed from the computer 102 to the computer 103, the computer 103 transmits a request to change the destination of the survival signal to the computer 101 (step ST15).
【0086】さらに、計算機103は、他の通信し得る
計算機全てに、計算機102の故障情報を通知する必要
がある。通知には生存信号を利用する。各計算機が、自
分自身が送信する生存信号に故障情報を書き込むことに
より、故障情報がリング上の隣接計算機に順次転送さ
れ、全ての計算機に通知される。故障情報の通知のため
の動作を以下に説明する。計算機103は、次に送信す
る生存信号に、計算機102の故障発生を示す故障情報
を書き込むとともに(ステップST16)、再送に備え
てメモリに故障情報を保存して故障情報タイマをセット
し(ステップST17)、平常モードに戻る(ステップ
ST18)。Further, the computer 103 needs to notify all the other computers with which it can communicate of the failure information of the computer 102. The survival signal is used for notification. Each computer writes the failure information in the survival signal transmitted by itself, so that the failure information is sequentially transferred to the adjacent computers on the ring and notified to all the computers. The operation for notifying the failure information will be described below. The computer 103 writes the failure information indicating the failure occurrence of the computer 102 into the survival signal to be transmitted next (step ST16), saves the failure information in the memory in preparation for retransmission, and sets the failure information timer (step ST17). ), And returns to the normal mode (step ST18).
【0087】一方、ステップST6において、各計算機
は、受信した生存信号中に故障発生を示す故障情報を発
見した場合、その故障情報の発信源が自分でないならば
(ステップST7)、計算機103と同様に再構成を行
うとともに、次に送信する生存信号に同様の故障情報を
書き込む(ステップST9)。On the other hand, in step ST6, when each computer finds failure information indicating a failure occurrence in the received survival signal and the source of the failure information is not its own (step ST7), it is the same as the computer 103. And the similar failure information is written in the survival signal to be transmitted next (step ST9).
【0088】ステップST7において、生存信号中の故
障情報が自分自身が出したもの、即ち、故障情報に関す
るメッセージが、所定の時間以内にリングを一周して自
分自身に到達したか否かを調べ、もし受信したのであれ
ば、メモリ中から該メッセージを削除して、故障情報タ
イマを削除する(ステップST8)。受信できなければ
もう一度故障情報を生存信号に書き込み、再送を試み
る。即ち、故障を発見した計算機103は、上記したよ
うに、ステップST16に従って仮想リング上の右隣の
計算機104に対して、生存信号とともに故障情報を伝
える。計算機104は、さらに右隣の計算機101に同
様にして故障情報を伝える。これを繰り返して、仮想リ
ング上を故障情報が一巡すれば全計算機に故障情報が通
知されたことを確認して、上記ステップST8に示した
ようにメモリ中から故障情報に関するメッセージを削除
して、故障情報タイマを削除する。しかしながら、故障
情報が一巡している際に途中の計算機が故障したりする
と、故障情報が失われてしまう恐れがある。これを防ぐ
ために、ステップST4において生存信号を受信せず、
ステップST10において受信タイマが0でないなら
ば、故障情報を発信してから、ステップST17におい
てセットしたタイムアウト時間内に故障情報が仮想リン
グのループを一巡して自分自身に戻ってきたか否かをチ
ェックして(ステップST12)、タイムアウト時間を
超過しているならばもう一度隣接計算機に対して生存信
号に故障情報を付加して送信し、故障情報タイマをリセ
ットする(ステップST13)。In step ST7, it is checked whether or not the failure information contained in the survival signal is output by itself, that is, whether or not the message related to the failure information has reached itself by traveling around the ring within a predetermined time. If received, the message is deleted from the memory and the failure information timer is deleted (step ST8). If it cannot be received, the failure information is written in the survival signal again and the retransmission is attempted. That is, the computer 103 that has found the failure transmits the failure information together with the survival signal to the computer 104 on the right side on the virtual ring in accordance with step ST16, as described above. The computer 104 transmits the failure information to the computer 101 on the right side in the same manner. Repeating this, if the failure information makes one round in the virtual ring, it is confirmed that the failure information has been notified to all computers, and as shown in step ST8, the message relating to the failure information is deleted from the memory, Delete the failure information timer. However, if the computer on the way fails while the failure information has completed a cycle, the failure information may be lost. In order to prevent this, in step ST4, the survival signal is not received,
If the reception timer is not 0 in step ST10, after transmitting the failure information, it is checked whether or not the failure information has returned to itself within the time-out time set in step ST17, making one round in the loop of the virtual ring. (Step ST12), if the time-out period has been exceeded, the failure information is added to the survival signal again and transmitted to the adjacent computer, and the failure information timer is reset (step ST13).
【0089】尚、ステップST1、ST2は、生存信号
送信ステップ、ステップST3、ST4、ST10、S
T11、ST14は故障検出ステップ、ステップST5
〜ST9、ST16〜ST18は故障通知ステップ、ス
テップST15、ST9は再構成ステップに対応してい
る。Incidentally, steps ST1 and ST2 are survival signal transmission steps, and steps ST3, ST4, ST10 and S
T11 and ST14 are failure detection steps, step ST5
~ ST9 and ST16 to ST18 correspond to the failure notification step, and steps ST15 and ST9 correspond to the reconfiguration step.
【0090】この実施例による分散計算機システムは、
各計算機に故障検出機能を分散しているため、特定の計
算機の故障により、故障検出機能が失われることがな
い。また、この分散計算機システムは、各計算機が、自
分自身の生存を知らせるために、毎周期1つの生存信号
を送信するのみである。このため、平常時に各計算機が
送受信する生存信号の数を最小にでき、計算機への負荷
が小さくなる。また、LAN上に送出される生存信号の
総数は、計算機の台数に比例した数であるので、LAN
への負荷、即ち単位時間あたりにLAN上に送信される
信号の個数を小さくすることができる。さらに、この分
散計算機システムでは、故障情報を通知するために生存
信号を利用しているので、通知のための余分な信号を送
信する必要がなく、LANの負荷をさらに小さくするこ
とができる。The distributed computer system according to this embodiment is
Since the failure detection function is distributed to each computer, the failure detection function is not lost due to the failure of a specific computer. Further, in this distributed computer system, each computer only transmits one survival signal every cycle in order to notify the survival of itself. Therefore, the number of surviving signals transmitted and received by each computer in normal times can be minimized, and the load on the computer is reduced. Also, since the total number of live signals transmitted on the LAN is proportional to the number of computers, the LAN
Load, that is, the number of signals transmitted on the LAN per unit time can be reduced. Further, in this distributed computer system, since the survival signal is used to notify the failure information, it is not necessary to transmit an extra signal for notification, and the load on the LAN can be further reduced.
【0091】実施例2.図7はこの発明の他の実施例に
よる分散計算機システムの故障検出方法の動作を示すフ
ローチャートである。この実施例による分散計算機シス
テムは、実施例1と同様に、図1のような物理的構成を
もつ。また、各計算機は、故障検出のため、図2に示す
仮想的な仮想リング10上に並べられる。このとき、実
施例1に述べたように、計算機のいくつかの属性に注目
した配列方法が考えられる。Example 2. FIG. 7 is a flow chart showing the operation of a failure detecting method for a distributed computer system according to another embodiment of the present invention. The distributed computer system according to this embodiment has a physical configuration as shown in FIG. 1 as in the first embodiment. Further, the respective computers are arranged on the virtual virtual ring 10 shown in FIG. 2 for detecting the failure. At this time, as described in the first embodiment, an arrangement method focusing on some attributes of the computer can be considered.
【0092】次に動作について説明する。以下、図7に
示すフローチャートの各ステップと対応させながら、各
計算機の動作を説明する。Next, the operation will be described. The operation of each computer will be described below in correspondence with each step of the flowchart shown in FIG.
【0093】各計算機は、隣接する計算機Xへの存在信
号の送信タイマが0か否かをチェックして(ステップS
T21)、定期的に生存信号を送信するとともに、予め
定められたタイムアウト時間を設定して生存信号送信タ
イマをセットして、送信先を右隣から左隣、または左隣
から右隣へと変更する(ステップST22)。即ち、送
信先は、1周期ごとに、右隣、左隣、右隣、左隣、…と
いうように、奇数周期目には右隣の計算機、偶数周期目
には左隣の計算機とする。次に、各計算機は、定められ
た時刻に、左右の隣接計算機から生存信号を受信したか
否かを調べ(ステップST23)、受信していないなら
ば、さらに生存信号の受信が所定の時間内になされたか
否か(即ちタイムアウトしているか否か)を調べ(ステ
ップST34)、タイムアウトしていないならば受信タ
イマをリセットして(ステップST37)、ステップS
T21へ戻る。この際の各計算機の生存信号の送受信の
様子を図8に示す。Each computer checks whether the existence signal transmission timer to the adjacent computer X is 0 (step S
T21), while transmitting the survival signal periodically, set a predetermined timeout time and set the survival signal transmission timer, and change the transmission destination from right adjacent to left adjacent or left adjacent to right adjacent Yes (step ST22). That is, the transmission destinations are the right adjacent computer, the left adjacent, the right adjacent, the left adjacent, and so on for each cycle, such that the odd adjacent cycle is the right adjacent computer and the even cycle is the left adjacent computer. Next, each computer checks whether or not a survival signal has been received from the left and right adjacent computers at a predetermined time (step ST23), and if not, further reception of the survival signal is within a predetermined time. (Step ST34), the reception timer is reset (step ST37), and step S37.
Return to T21. FIG. 8 shows how the surviving signals of each computer are transmitted and received at this time.
【0094】以下、図9に示すように、計算機102の
通信インターフェース212とLAN401とを接続す
るケーブル312が故障しているものとして、故障検
出、リングの再構成、故障情報の通知の順に分散計算機
システムの動作を説明する。Hereinafter, as shown in FIG. 9, it is assumed that the cable 312 connecting the communication interface 212 of the computer 102 and the LAN 401 is out of order, and the distributed computer is in the order of failure detection, ring reconfiguration, and failure information notification. The operation of the system will be described.
【0095】故障の発生により、計算機101は右隣、
計算機102は両隣、計算機103は左隣の計算機から
の信号を受信することができなくなる(ステップST3
4)。各計算機は、生存信号の受信の最初の失敗を検出
すると、さらに、もう1つの隣接計算機からの生存信号
が受信できるかを調べる(ステップST35)。計算機
101、103は、計算機104からの生存信号の受信
が可能なため、計算機102が故障したと判断する。即
ち、図7において、ステップST35からステップST
37を経てステップST21へ戻り、ステップST22
によって送信先を計算機102から計算機104へと変
更して、計算機104からは生存信号を受信することが
可能であるのが(ステップST23)、計算機102か
らの生存信号は受信することなくタイムアウトするので
(ステップST24)、計算機102は故障と判断す
る。Due to the occurrence of a failure, the computer 101 is on the right side,
Computers 102 cannot receive signals from both computers, and computer 103 cannot receive signals from the computer on the left (step ST3).
4). When each computer detects the first failure in receiving the live signal, it further checks whether a live signal from another adjacent computer can be received (step ST35). Since the computers 101 and 103 can receive the survival signal from the computer 104, they determine that the computer 102 has failed. That is, in FIG. 7, steps ST35 to ST
After 37, the process returns to step ST21 and step ST22.
It is possible to change the transmission destination from the computer 102 to the computer 104 and receive the survival signal from the computer 104 (step ST23), but since the survival signal from the computer 102 times out without being received, (Step ST24), the computer 102 determines that there is a failure.
【0096】一方、ステップST34において一方の隣
接計算機からの生存信号受信に失敗した計算機102自
身は、もう一方の隣接計算機からの生存信号の受信にも
失敗するため(ステップST35)、自分自身とLAN
401との接続が切断されたと判断し、再起動などの処
置を行う(ステップST36)。以上のような判断は、
2つの計算機が同時に故障する確率が非常に低いという
仮定に基づいている。On the other hand, the computer 102 itself, which has failed to receive the live signal from one adjacent computer in step ST34, also fails to receive the live signal from the other adjacent computer (step ST35).
It is determined that the connection with 401 has been disconnected, and measures such as restarting are performed (step ST36). The above judgment is
It is based on the assumption that the probability of two computers failing at the same time is very low.
【0097】仮に、計算機103が、隣接計算機102
の故障を最初に発見したとする。計算機103は、リン
グ上から計算機102を削除し、仮想リング上の新たな
配置を設定する。このような処理を、リングの再構成と
呼ぶ。この結果、計算機103の隣接計算機は、計算機
101、104に変わる(ステップST25)。図10
は、再構成後の分散計算機システムの仮想リングを示す
図であり、再構成により、故障が発生しても、故障発生
以前と同程度の故障検出能力を維持することができる。If the computer 103 is the adjacent computer 102,
Suppose you first discovered the breakdown. The computer 103 deletes the computer 102 from the ring and sets a new arrangement on the virtual ring. Such processing is called ring reconstruction. As a result, the computers adjacent to the computer 103 are changed to the computers 101 and 104 (step ST25). Figure 10
FIG. 4 is a diagram showing a virtual ring of the distributed computer system after reconfiguration. Even if a failure occurs due to the reconfiguration, it is possible to maintain the same level of failure detection capability as before the failure occurred.
【0098】さらに、計算機103は、通信し得る計算
機全てに、計算機102の故障情報を通知する必要があ
る。故障情報の通知のための動作を以下に説明する。Further, the computer 103 needs to notify all computers with which it can communicate of failure information of the computer 102. The operation for notifying the failure information will be described below.
【0099】最初に、計算機103は、ステップST2
5においてこれ以後に両隣の計算機に送信する生存信号
に故障情報を書き込むようにする。計算機101、10
4は、該生存信号を受信し、そのなかに故障情報が書か
れていることを発見すると(ステップST26)、それ
に応じてリングを再構成し(ステップST27)、その
後、もう一方の隣接計算機から故障情報を既に受信して
いるか確認して(ステップST28)、まだ受信してい
ないならば一方の隣接計算機への生存信号に、故障情報
を書き込むようにする(ステップST29)。また、計
算機103へと送る生存信号に、故障情報を受信したこ
とを送信元に知らせる受信確認を付与する(ステップS
T31)。First, the computer 103 executes step ST2.
In 5, the failure information is written in the survival signal to be transmitted to the computers on both sides thereafter. Calculator 101, 10
4 receives the surviving signal and discovers that failure information is written therein (step ST26), reconfigures the ring accordingly (step ST27), and then from the other adjacent computer. It is confirmed whether the failure information has already been received (step ST28), and if it has not been received yet, the failure information is written in the survival signal to one of the adjacent computers (step ST29). In addition, a reception confirmation for notifying the sender that the failure information has been received is added to the survival signal to be sent to the computer 103 (step S).
T31).
【0100】一方、計算機103では、生存信号に受信
確認を発見すると(ステップST32)、以後、該生存
信号の送信元計算機への生存信号に、故障情報を付与し
ないようにする(ステップST33)。On the other hand, when the computer 103 finds the reception confirmation in the surviving signal (step ST32), thereafter, the failure information is not added to the surviving signal to the sender computer of the surviving signal (step ST33).
【0101】他の計算機でも、上記の処理と同様のこと
を繰り返す。これにより、故障情報は、計算機103を
起点として、リング上を右回り、左回りに転送される。
右回り、左回りに転送される故障情報は、ある計算機に
おいて、同時に受信される。このとき、当該計算機はス
テップST28において、既に故障情報を受信している
と判断するので、これ以上の故障情報の転送を行わず、
受信確認のみを行う(ステップST30)。The same processing as above is repeated on other computers. As a result, the failure information is transferred clockwise and counterclockwise on the ring, starting from the computer 103.
The failure information transferred clockwise and counterclockwise is simultaneously received by a computer. At this time, since the computer determines in step ST28 that the failure information has already been received, the failure information is not further transferred,
Only reception confirmation is performed (step ST30).
【0102】尚、ステップST21、ST22、ST3
7は、生存信号送信ステップ、ステップST23〜ST
25、ST34〜ST36は故障検出ステップ、ステッ
プST25、ST26、ST28〜ST33は故障通知
ステップ、ステップST25、ST27は再構成ステッ
プに対応している。Incidentally, steps ST21, ST22, ST3
7 is a survival signal transmission step, steps ST23 to ST
25 and ST34 to ST36 correspond to the failure detection step, steps ST25, ST26 and ST28 to ST33 correspond to the failure notification step, and steps ST25 and ST27 correspond to the reconstruction step.
【0103】この実施例による分散計算機システムは、
各計算機に故障検出機能を分散しているため、特定の計
算機の故障により、故障検出機能が失われることがな
い。また、分散計算機システムは、平常時の故障発見の
ための通信量を最小にできる。また、実施例1のよう
に、故障箇所を特定するために、余分に信号を送受信す
る必要がないため、故障発生時の通信量が少ない。さら
に、分散計算機システムでは、故障情報を通知するため
に、生存信号を利用するため、通知のための余分な信号
を送信する必要がなく、LANの負荷を小さくすること
ができる。The distributed computer system according to this embodiment is
Since the failure detection function is distributed to each computer, the failure detection function is not lost due to the failure of a specific computer. In addition, the distributed computer system can minimize the amount of communication for fault detection in normal times. Further, unlike the first embodiment, it is not necessary to transmit / receive an additional signal in order to specify the failure location, so the communication amount at the time of failure is small. Furthermore, in the distributed computer system, since the survival signal is used to notify the failure information, it is not necessary to transmit an extra signal for notification, and the load on the LAN can be reduced.
【0104】実施例3.図11は、この発明の他の実施
例による分散計算機システムの故障検出方法の動作を示
すフローチャートである。この実施例の分散計算機シス
テムは、図1に示す物理的構成を備えており、各計算機
は、仮想的に図2に示すような仮想リング10上に配置
されている。実施例1と同様に、仮想リング10上の計
算機の配置には、計算機の様々な属性に注目したいくつ
かの方法が考えられる。Example 3. FIG. 11 is a flow chart showing the operation of a failure detecting method for a distributed computer system according to another embodiment of the present invention. The distributed computer system of this embodiment has the physical configuration shown in FIG. 1, and each computer is virtually arranged on a virtual ring 10 as shown in FIG. Similar to the first embodiment, for the arrangement of the computers on the virtual ring 10, several methods that consider various attributes of the computers can be considered.
【0105】次に動作について説明する。以下、図11
に示すフローチャートの各ステップと対応させながら、
各計算機の動作を説明する。Next, the operation will be described. Below, FIG.
While corresponding to each step of the flowchart shown in
The operation of each computer will be described.
【0106】各計算機は、定期的に右隣の計算機に生存
信号を送信するべく、生存信号の送信タイマが0である
か否かをチェックして(ステップST41)、生存信号
を送信して、予め定められたタイムアウト時間を設定し
て生存信号送信タイマをセットする(ステップST4
2)。次に、左隣の計算機からの生存信号を、定期的に
受信したか否かを調べ(ステップST43)、受信して
いないならば、さらに生存信号に付加された故障情報の
受信が所定の時間内になされたか否か(即ちタイムアウ
トしているか否か)を調べ(ステップST57)、タイ
ムアウトしていないならばステップST41へ戻る。Each computer periodically checks whether or not the survival signal transmission timer is 0 so as to transmit the survival signal to the computer on the right (step ST41), and transmits the survival signal. The survival signal transmission timer is set by setting a predetermined timeout time (step ST4).
2). Next, it is checked whether or not the survival signal from the computer on the left side is regularly received (step ST43), and if it is not received, the failure information added to the survival signal is received for a predetermined time. It is checked whether or not it has been performed within (that is, whether or not it has timed out) (step ST57), and if it has not timed out, the process returns to step ST41.
【0107】ステップST43において、各計算機は、
定められた時間内に生存信号を受信したならば、予め定
められたタイムアウト時間を設定して生存信号の受信タ
イマをセットないしリセットし、右隣に送信する生存信
号にACKを書き込む(ステップST44)。さもなけ
れば、ステップST53に移行し、生存信号の受信タイ
マが0であるならば生存信号にNAKを書き込む(ステ
ップST54)。図12は、各計算機がACKまたはN
AKを生存信号に書き込む様子を示した分散計算機シス
テムのブロック図である。At step ST43, each computer
If a live signal is received within a predetermined time, a preset timeout time is set to set or reset a live signal reception timer, and ACK is written to the live signal to be transmitted to the right (step ST44). . Otherwise, the process proceeds to step ST53, and if the survival signal reception timer is 0, NAK is written in the survival signal (step ST54). In FIG. 12, each computer is ACK or N
It is a block diagram of the distributed computer system which showed a mode that AK was written in a survival signal.
【0108】図13に示すように、実施例1と同様に、
計算機102の通信インターフェースとLAN401と
を接続するケーブル312に故障が発生したとして、以
下の故障検出方法の動作について説明する。As shown in FIG. 13, as in the first embodiment,
Assuming that a failure has occurred in the cable 312 that connects the communication interface of the computer 102 and the LAN 401, the operation of the following failure detection method will be described.
【0109】計算機102、103は、それぞれ計算機
101、102からの生存信号を受信できない。このた
め、上記したように、計算機102は計算機103に対
して、計算機103は計算機104に対して、ステップ
ST53及びST54に従ってそれぞれNAKを含む生
存信号を送信する。従って、各計算機が送信する生存信
号の内容は、図13に示すようになる。NAKを含む2
つの生存信号のうち、計算機102の送信した生存信号
は、ケーブル312が故障しているために、計算機10
3には到達しない。従って、計算機104だけがNAK
を含む故障情報が付加された生存信号を受信する(ステ
ップST45)。従って、計算機104は、計算機10
2に故障が発生したものと判断し、実施例1と同様にし
て、計算機101の生存信号の送信先を変更させる(ス
テップST50)。また、計算機104は、次に、故障
情報を転送すべく送信する生存信号に故障情報を書き込
むとともに(ステップST51)、再送に備えてメモリ
に故障情報を保存して、予め定められたタイムアウト時
間を設定して故障情報タイマをセットする(ステップS
T52)。The computers 102 and 103 cannot receive the survival signals from the computers 101 and 102, respectively. Therefore, as described above, the computer 102 transmits the survival signal including the NAK to the computer 103 and the computer 103 to the computer 104 according to steps ST53 and ST54. Therefore, the contents of the survival signal transmitted by each computer are as shown in FIG. 2 including NAK
Of the two survival signals, the survival signal transmitted by the computer 102 is the computer 10 because the cable 312 has a failure.
3 is not reached. Therefore, only the computer 104 is NAK
The survival signal to which the failure information including is added is received (step ST45). Therefore, the computer 104 is the computer 10
It is determined that a failure has occurred in No. 2, and the destination of the survival signal of the computer 101 is changed in the same manner as in the first embodiment (step ST50). Further, the computer 104 next writes the failure information in the survival signal to be transmitted to transfer the failure information (step ST51), stores the failure information in the memory in preparation for retransmission, and sets a predetermined timeout time. Set and set failure information timer (step S
T52).
【0110】一方、ステップST45において生存信号
がACKを含むことが判明したならば、各計算機は、受
信した生存信号中に故障発生を示す故障情報が付加され
ているか否かをチェックして(ステップST46)、故
障情報を発見した場合、その故障情報の発信源が自分で
ないならば(ステップST47)、次に送信する生存信
号に同様の故障情報を書き込む(ステップST49)。On the other hand, if it is found in step ST45 that the surviving signal includes ACK, each computer checks whether or not the received surviving signal includes failure information indicating a failure occurrence (step S45). In ST46), when the failure information is found and the transmission source of the failure information is not its own (step ST47), the same failure information is written in the survival signal to be transmitted next (step ST49).
【0111】ステップST47において、生存信号中の
故障情報が自分自身が出したもの、即ち、故障情報に関
するメッセージが、所定の時間以内にリングを一周して
自分自身に到達したか否かを調べ、もし受信したのであ
れば、メモリ中から該メッセージを削除して、故障情報
タイマを削除する(ステップST48)。他方、生存信
号を受信できず故障情報の受信がステップST52で設
定したタイムアウト時間を超過したならば(ステップS
T57)、実施例1と同様にもう一度故障情報を次の生
存信号に書き込み、故障情報タイマをリセットして再送
を試みる(ステップST58)。In step ST47, it is checked whether or not the failure information in the survival signal is issued by itself, that is, whether or not the message related to the failure information has reached itself by going around the ring within a predetermined time. If received, the message is deleted from the memory and the failure information timer is deleted (step ST48). On the other hand, if the survival signal cannot be received and the reception of the failure information exceeds the timeout time set in step ST52 (step S
T57), similarly to the first embodiment, the failure information is written into the next survival signal again, the failure information timer is reset, and the retransmission is attempted (step ST58).
【0112】尚、ステップST41、ST42は、生存
信号送信ステップ、ステップST43、ST44、ST
53〜ST56は故障検出ステップ、ステップST45
〜ST52、ST57、ST58は故障通知ステップに
対応している。Note that steps ST41 and ST42 are survival signal transmission steps, and steps ST43, ST44 and ST
53 to ST56 are failure detection steps, step ST45
-ST52, ST57, and ST58 correspond to the failure notification step.
【0113】分散計算機システムは、各計算機に故障検
出機能を分散しているため、特定の計算機の故障によ
り、故障検出機能が失われることがない。また、分散計
算機システムは、平常時に各計算機が送受信する生存信
号の数を最小にでき、計算機への負荷が小さくなる。ま
た、LAN上に送出される生存信号の総数は、計算機の
台数に比例した数であるので、LANへの負荷、即ち単
位時間あたりにLAN上に送信される信号の個数を小さ
くすることができる。さらに、分散計算機システムで
は、故障情報を通知するために生存信号を利用している
ので、通知のための余分な信号を送信する必要がなく、
LANの負荷を小さくすることができる。Since the distributed computer system distributes the failure detection function to each computer, the failure detection function will not be lost due to the failure of a specific computer. In addition, the distributed computer system can minimize the number of live signals transmitted and received by each computer during normal operation, which reduces the load on the computer. Moreover, since the total number of live signals transmitted on the LAN is proportional to the number of computers, the load on the LAN, that is, the number of signals transmitted on the LAN per unit time can be reduced. . Furthermore, in the distributed computer system, since the survival signal is used to notify the failure information, there is no need to send an extra signal for notification,
The load on the LAN can be reduced.
【0114】実施例4.図14は、この発明の他の実施
例による分散計算機システムの故障検出方法の動作を示
すフローチャートであり、図15は、この実施例による
分散計算機システムの仮想的な配置を示すブロック図で
ある。また、この実施例の分散計算機システムは、図1
に示す物理的構成を備えている。Example 4. FIG. 14 is a flow chart showing the operation of a failure detecting method for a distributed computer system according to another embodiment of the present invention, and FIG. 15 is a block diagram showing a virtual arrangement of the distributed computer system according to this embodiment. Further, the distributed computer system of this embodiment is shown in FIG.
It has the physical configuration shown in.
【0115】この実施例による分散計算機システムで
は、図15に示すように、計算機101〜107が仮想
的なツリーの節点上に配置され、ツリーの最下層の計算
機103、104、106、107を除き、各計算機が
複数の子計算機を有するようにツリーを構成する。以
下、ツリー上のある計算機からみて、親節点の位置にあ
る計算機を親計算機、子節点の位置にある計算機を子計
算機、同じ階層にある計算機を兄弟計算機と呼ぶ。実施
例1と同様に、ツリー上の計算機の配置には、計算機の
様々な属性に注目していくつかの配置方法が考えられ
る。In the distributed computer system according to this embodiment, as shown in FIG. 15, computers 101 to 107 are arranged on the nodes of a virtual tree, except for the computers 103, 104, 106 and 107 at the bottom of the tree. , Configure the tree so that each computer has multiple child computers. Hereinafter, when viewed from a certain computer on the tree, the computer at the position of the parent node is called a parent computer, the computer at the position of the child node is called a child computer, and the computers at the same level are called sibling computers. Similar to the first embodiment, for arranging the computers on the tree, several arrangement methods can be considered by paying attention to various attributes of the computers.
【0116】次に動作について説明する。以下、図14
に示すフローチャートの各ステップと対応させながら、
各計算機の動作を説明する。Next, the operation will be described. Below, FIG.
While corresponding to each step of the flowchart shown in
The operation of each computer will be described.
【0117】各計算機は親計算機に対して定期的に生存
信号を送信すべく、生存信号の送信タイマが0か否かを
チェックして(ステップST61)、送信タイマが0で
あるならば生存信号を送信するとともに、生存信号送信
タイマをセットする(ステップST62)。各計算機は
複数の子計算機からの生存信号が受信したか否かを調べ
(ステップST63)、さらに生存信号を受信しなかっ
た場合は生存信号の受信タイマが0であるか否かをチェ
ックして(ステップST66)、これらの結果を組み合
わせて故障箇所を判断する。Each computer checks whether the transmission timer of the survival signal is 0 in order to periodically transmit the survival signal to the parent computer (step ST61), and if the transmission timer is 0, the survival signal is 0. And the survival signal transmission timer is set (step ST62). Each computer checks whether or not the survival signal from a plurality of child computers has been received (step ST63), and when it does not receive the survival signal, it checks whether or not the survival signal reception timer is 0. (Step ST66), these results are combined to determine the failure location.
【0118】ツリーのルートに当たる計算機は、ツリー
の最下層の計算機に生存信号を送信することにより、ル
ート計算機の故障を検出する。図16は、図15のよう
な仮想的なツリー配置を有する分散計算機システムの生
存信号の送受信の様子を示す図である。The computer corresponding to the root of the tree detects a failure of the root computer by transmitting a survival signal to the computer at the bottom of the tree. FIG. 16 is a diagram showing how a live signal is transmitted and received in the distributed computer system having the virtual tree arrangement shown in FIG.
【0119】次に、図17に示すように、計算機105
の通信インターフェース215とLAN401とを接続
するケーブル315が切断した場合における、この実施
例による故障検出方法の動作について説明する。Next, as shown in FIG. 17, the computer 105
The operation of the failure detection method according to this embodiment when the cable 315 connecting the communication interface 215 and the LAN 401 is disconnected will be described.
【0120】この故障により、計算機105は全ての子
計算機からの生存信号を受信できなくなるので、ステッ
プST66及びST67において全ての子計算機の生存
信号がタイムアウトしたと判断され、自分自身とLAN
401の間に故障が生じたものとして、自らを再スター
トするなどの処置を行う(ステップST68)。Due to this failure, the computer 105 cannot receive the survival signals from all the child computers, so that it is determined that the survival signals of all the child computers have timed out in steps ST66 and ST67, and the computer itself and the LAN.
It is assumed that a failure has occurred during 401, and measures such as restarting itself are performed (step ST68).
【0121】一方、計算機101は、計算機105から
の生存信号が、定められた時間内に受信できないことを
検出する(ステップST66)。計算機101はしばら
く後、計算機102からの生存信号を検出した時点で
(ステップST63)、子計算機105の生存信号がタ
イムアウトしたことをもって、計算機105が故障した
かあるいは、計算機105とLAN401との間に故障
が発生したものと判断する(ステップST64)。以上
のような判断は、2つの計算機が同時に故障する確率が
非常に低いという仮定に基づいている。計算機101
は、子計算機105の子計算機(孫計算機)を、自分自
身の子計算機とすることにより、図18のようにツリー
を再構成する。これにより、故障が発生しても、故障発
生以前と同程度の故障検出能力を維持することができ
る。計算機101は故障情報と新しい構成情報を、新た
な子計算機に対して通知する。これらの故障情報及び構
成情報を受信した計算機は、さらに、子計算機に対して
これを通知する(ステップST65)。On the other hand, the computer 101 detects that the survival signal from the computer 105 cannot be received within a predetermined time (step ST66). After a while, when the computer 101 detects the survival signal from the computer 102 (step ST63), the survival signal of the child computer 105 has timed out, causing the computer 105 to fail, or between the computer 105 and the LAN 401. It is determined that a failure has occurred (step ST64). The above judgment is based on the assumption that the probability of simultaneous failure of two computers is extremely low. Computer 101
Reconfigures the tree as shown in FIG. 18 by using the child computer (grandchild computer) of the child computer 105 as its own child computer. As a result, even if a failure occurs, it is possible to maintain the same level of failure detection capability as before the failure occurred. The computer 101 notifies the new child computer of the failure information and the new configuration information. The computer that has received the failure information and the configuration information further notifies the child computer of this (step ST65).
【0122】尚、ステップST61、ST62は、生存
信号送信ステップ、ステップST63、ST64、ST
66〜ST68は故障検出ステップ、ステップST65
は故障通知ステップ及び再構成ステップに対応してい
る。Note that steps ST61 and ST62 are survival signal transmission steps, and steps ST63, ST64 and ST
66 to ST68 are failure detection steps, step ST65
Corresponds to the failure notification step and the reconstruction step.
【0123】分散計算機システムは、各計算機に故障検
出機能を分散しているため、特定の計算機の故障によ
り、故障検出機能が失われることがない。さらに、分散
計算機システムは、各計算機が自分自身の生存を知らせ
るために、毎周期に1つの生存信号を送信するのみであ
るので、平常時に各計算機が送受信する生存信号の数を
最小にでき、計算機への負荷が小さくなる。また、LA
N上に送出される生存信号の総数は、計算機の台数に比
例した数であるので、LANへの負荷、即ち単位時間あ
たりにLAN上に送信される信号の個数を小さくするこ
とができる。Since the distributed computer system distributes the failure detection function to each computer, the failure detection function is not lost due to the failure of a specific computer. Furthermore, since the distributed computer system only sends one survival signal in each cycle in order to inform each computer of its own survival, it is possible to minimize the number of survival signals transmitted and received by each computer during normal operation. The load on the computer is reduced. Also, LA
Since the total number of surviving signals transmitted on N is proportional to the number of computers, the load on the LAN, that is, the number of signals transmitted on the LAN per unit time can be reduced.
【0124】実施例5.図19は、この発明の他の実施
例による分散計算機システムの故障検出方法の動作を示
すフローチャートであり、図20は、この実施例による
分散計算機システムの仮想的な構成を示すブロック図で
ある(以下、このような構成をチェーンと呼ぶ)。実施
例1と同様に、分散計算機システムの計算機の仮想的配
置には、計算機の様々な属性に注目したいくつかの方法
が考えられる。Example 5. FIG. 19 is a flow chart showing the operation of the fault detecting method for the distributed computer system according to another embodiment of the present invention, and FIG. 20 is a block diagram showing the virtual configuration of the distributed computer system according to this embodiment ( Hereinafter, such a configuration is called a chain). Similar to the first embodiment, for the virtual arrangement of the computers in the distributed computer system, several methods that pay attention to various attributes of the computers can be considered.
【0125】図20に示すように、この実施例による分
散計算機システムでは、まず、計算機101と計算機1
05とをグループ1001、計算機102と計算機10
3と計算機104とをグループ1002とする。また、
計算機101、104は、それぞれグループ1001、
1002を代表する代表計算機であり、これらの代表計
算機101、104は仮想的な仮想リング上に配置され
ている。代表計算機以外の計算機102、103、10
5は、それぞれ自らが属するグループの代表計算機に生
存信号を定期的に送信すべく構成されている。図21
は、このようなチェーン構成を有する分散計算機システ
ムの生存信号の送受信を示すブロック図である。As shown in FIG. 20, in the distributed computer system according to this embodiment, first, the computer 101 and the computer 1
05 and group 1001, computer 102 and computer 10
3 and the computer 104 form a group 1002. Also,
The computers 101 and 104 are group 1001 and group 1001, respectively.
This is a representative computer representative of 1002, and these representative computers 101 and 104 are arranged on a virtual virtual ring. Computers 102, 103, 10 other than the representative computer
5 is configured to periodically transmit a survival signal to the representative computer of the group to which it belongs. Figure 21
FIG. 3 is a block diagram showing transmission / reception of a survival signal of a distributed computer system having such a chain structure.
【0126】次に動作について説明する。以下、図19
のフローチャートと対応させながら、代表計算機の動作
を説明する。Next, the operation will be described. Below, FIG.
The operation of the representative computer will be described with reference to the flowchart of FIG.
【0127】仮想的なリング上に並べられた代表計算機
101、104は、それぞれ右隣の代表計算機に対し
て、また、代表計算機以外の計算機は代表計算機に対し
て、定期的に生存信号を送信すべく、生存信号の送信タ
イマが0であるか否かをチェックし(ステップST7
1)、生存信号の送信を開始して、予め定められたタイ
ムアウト時間を設定して生存信号送信タイマをセットす
る(ステップST72)。従って、各代表計算機は、同
一のグループ内の他の計算機からと、左隣の代表計算機
からの生存信号を受信する。例えば、代表計算機104
はグループ1002の計算機102、103からの生存
信号、及び、左隣の代表計算機101からの生存信号を
受信する。The representative computers 101 and 104 arranged on the virtual ring periodically transmit survival signals to the representative computers on the right side, and the computers other than the representative computer periodically transmit the survival signal to the representative computer. In order to do so, it is checked whether the transmission signal of the survival signal is 0 (step ST7).
1) The transmission of the survival signal is started, a predetermined timeout time is set, and the survival signal transmission timer is set (step ST72). Therefore, each representative computer receives survival signals from other computers in the same group and from the representative computer on the left side. For example, the representative computer 104
Receives the survival signals from the computers 102 and 103 of the group 1002 and the survival signal from the representative computer 101 on the left side.
【0128】各代表計算機は、左隣の計算機からの生存
信号が、一定時間ごとに受信されるかを調べ(ステップ
ST73)、受信した場合に予め定められたタイムアウ
ト時間を設定して生存信号の受信タイマをセットないし
リセットする(ステップST74)。また、各代表計算
機は、生存信号の受信に失敗すると、まず、生存信号の
受信タイマが0か否か、即ち所定の時間、生存信号を受
信しなかったか否かを判断し(ステップST83)、故
障を検出する。即ち、各代表計算機は、自らに送信され
る信号の受信状況を組み合わせて故障箇所を推定する。Each representative computer checks whether or not the survival signal from the computer on the left side is received at regular intervals (step ST73), and when received, sets a predetermined time-out time to set the survival signal. The reception timer is set or reset (step ST74). When the representative computer fails to receive the survival signal, first, the representative computer determines whether the survival signal reception timer is 0, that is, whether the survival signal has not been received for a predetermined time (step ST83), Detect failure. That is, each representative computer estimates the failure location by combining the reception statuses of the signals transmitted to itself.
【0129】以下、例として、図22に示すような計算
機102が故障した場合における、上記に継続する、故
障検出方法の動作について説明する。As an example, the operation of the failure detecting method continued when the computer 102 as shown in FIG. 22 fails will be described below.
【0130】代表計算機104は、計算機102の生存
信号を受信できないが(ステップST83)、代表計算
機101及び計算機103からの生存信号は受信できる
ため、ステップST73からステップST74へ移り、
受信した生存信号には故障情報は付加されていないの
で、ステップST79に移行し、送信計算機102の生
存信号受信がタイムアウトしたか否かを判断し、計算機
102に故障が発生したと判断する。このような判断
は、2つの計算機が同時に故障する確率が非常に低いと
いう仮定に基づいている。The representative computer 104 cannot receive the surviving signal of the computer 102 (step ST83), but can receive the surviving signals from the representative computer 101 and the computer 103. Therefore, the process proceeds from step ST73 to step ST74.
Since failure information is not added to the received survival signal, the process proceeds to step ST79, it is determined whether or not the survival signal reception of the transmission computer 102 has timed out, and it is determined that a failure has occurred in the computer 102. Such a judgment is based on the assumption that two computers have a very low probability of simultaneously failing.
【0131】計算機104は、計算機102をグループ
から取り除き、図23に示すような新たなチェーンを構
成し、グループ1002の他の計算機103に対して、
生存信号とは別の信号により故障情報を通知する(ステ
ップST80)。これにより、故障が発生しても、故障
発生以前と同程度の故障検出能力を維持することができ
る。The computer 104 removes the computer 102 from the group, forms a new chain as shown in FIG. 23, and with respect to the other computers 103 of the group 1002,
The failure information is notified by a signal different from the survival signal (step ST80). As a result, even if a failure occurs, it is possible to maintain the same level of failure detection capability as before the failure occurred.
【0132】次に、計算機104は、検出された故障情
報を、生存信号に付加することにより、他の代表計算機
に対して、故障情報の転送を行う(ステップST8
1)。生存信号を利用した故障情報の転送は、実施例1
と同様に行い、再送に備えてメモリに故障情報を保存し
て故障情報タイマをセットする(ステップST82)。
そして、ステップST75において、代表計算機は、受
信した生存信号中に故障発生を示す故障情報を発見した
場合、その故障情報の発信源が自分でないならば(ステ
ップST76)、故障情報を次の生存信号に付加すると
ともに、グループの他の計算機に対して、生存信号とは
別の信号により通知する(ステップST78)。また、
ステップST76において、生存信号中の故障情報が自
分自身が出したもの、即ち、故障情報に関するメッセー
ジが、所定の時間以内にリングを一周して自分自身に到
達したか否かを調べ、もし受信したのであれば、メモリ
中から該メッセージを削除して、故障情報タイマを削除
する(ステップST77)。Next, the computer 104 transfers the fault information to another representative computer by adding the detected fault information to the survival signal (step ST8).
1). The transfer of the failure information using the survival signal is performed in the first embodiment.
In the same manner as above, the failure information is stored in the memory and the failure information timer is set in preparation for retransmission (step ST82).
Then, in step ST75, when the representative computer finds failure information indicating the occurrence of a failure in the received survival signal, and the source of the failure information is not its own (step ST76), the representative computer sends the failure information to the next survival signal. And a signal different from the survival signal is sent to other computers in the group (step ST78). Also,
In step ST76, it is checked whether or not the failure information in the survival signal is the one issued by itself, that is, whether or not the message regarding the failure information has reached itself by going around the ring within a predetermined time. If so, the message is deleted from the memory and the failure information timer is deleted (step ST77).
【0133】また、実施例1と同様に、故障情報が仮想
リング上を一巡している際に途中の計算機が故障したり
すると、故障情報が失われてしまう恐れがある。これを
防ぐために、ステップST73において生存信号を受信
せず、ステップST83において受信タイマが0でない
ならば、故障情報を発信してから、ステップST82に
おいてセットしたタイムアウト時間内に故障情報が仮想
リングのループを一巡して自分自身に戻ってきたか否か
をチェックして(ステップST86)、タイムアウト時
間を超過しているならばもう一度隣接計算機に対して生
存信号に故障情報を付加して送信し、故障情報タイマを
リセットする(ステップST87)。Also, as in the first embodiment, if the computer in the middle fails while the failure information goes around the virtual ring, the failure information may be lost. In order to prevent this, if the survival signal is not received in step ST73 and the reception timer is not 0 in step ST83, the failure information is transmitted within the timeout period set in step ST82 after the failure information is transmitted. It is checked whether or not it has returned to itself (step ST86), and if the timeout time has been exceeded, the failure information is added to the survival signal and transmitted to the adjacent computer again, and the failure information is returned. The timer is reset (step ST87).
【0134】次に、別の例として、図24に示すように
代表計算機104の通信インターフェース314が故障
した場合のこの実施例による故障検出方法の動作を示
す。Next, as another example, the operation of the failure detecting method according to this embodiment when the communication interface 314 of the representative computer 104 fails as shown in FIG. 24 will be described.
【0135】代表計算機104は、他の代表計算機10
1、及び同一グループ1002の計算機102、103
のいずれの生存信号も受信することができないので、ス
テップST83を経てステップST84に至り、全ての
送信計算機からの生存信号の受信がタイムアウト時間を
超過する。このため、計算機104は、自らとLANと
の間の接続が切断されたと考え、自分自身を再起動する
などの処置を行う(ステップST85)。The representative computer 104 is the other representative computer 10.
1 and the computers 102 and 103 of the same group 1002
Since it is not possible to receive any of the surviving signals, the process goes to step ST84 through step ST83, and the receiving of the surviving signals from all the transmission computers exceeds the timeout time. For this reason, the computer 104 considers that the connection between itself and the LAN has been disconnected, and takes measures such as restarting itself (step ST85).
【0136】また、代表計算機101は、代表計算機1
04の生存信号が受信できず、計算機105の生存信号
が受信できることから、計算機104の故障を発見する
ことができる(ステップST79)。次に、計算機10
1は、図25に示すような新たなチェーンを構成し、前
の例と同様にして他の計算機への故障情報の通知を行う
(ステップST80〜ST82、ST76、ST77、
ST86、ST87)。Also, the representative computer 101 is the representative computer 1
Since the live signal 04 of the computer 104 cannot be received and the live signal of the computer 105 can be received, the failure of the computer 104 can be found (step ST79). Next, computer 10
1 constructs a new chain as shown in FIG. 25, and notifies other computers of failure information in the same manner as the previous example (steps ST80 to ST82, ST76, ST77,
ST86, ST87).
【0137】尚、ステップST71、ST72は、生存
信号送信ステップ、ステップST73、ST74、ST
83〜ST85は故障検出ステップ、ステップST75
〜ST82、ST86〜ST87は故障通知ステップ、
ステップST80は再構成ステップに対応している。Incidentally, steps ST71 and ST72 are survival signal transmission steps, and steps ST73, ST74 and ST
83 to ST85 are failure detection steps, step ST75
~ ST82, ST86 to ST87 are failure notification steps,
Step ST80 corresponds to the reconstruction step.
【0138】分散計算機システムは、各計算機に故障検
出機能を分散しているため、特定の計算機の故障によ
り、故障検出機能が失われることがない。また、分散計
算機システムは、各計算機が自分自身の生存を知らせる
ために、毎周期に1つの生存信号を送信するのみである
ので、平常時の故障検出及び、故障発生時の故障箇所の
特定のための通信量を最小にできる。さらに、分散計算
機システムでは、代表計算機間で故障情報を通知するた
めに生存信号を利用するので、LANの負荷を小さくす
ることができる。Since the distributed computer system distributes the failure detection function to each computer, the failure detection function is not lost due to the failure of a specific computer. In addition, since the distributed computer system only sends one survival signal in each cycle in order to notify each computer of its own survival, failure detection in normal times and identification of a failure location at the time of failure occurrence are possible. Can minimize the amount of communication. Furthermore, in the distributed computer system, since the survival signal is used to notify the failure information between the representative computers, the load on the LAN can be reduced.
【0139】実施例6.図26は、この発明の他の実施
例による分散計算機システムの故障検出方法の動作を示
すフローチャート、図27は、この実施例による分散計
算機システムの物理的な構成図であり、図において、1
01〜104は計算機、401、402はLANであ
る。計算機101〜104は、各々通信インターフェー
ス211〜214と、ケーブル311〜314とによ
り、LAN401に接続されている。また、計算機10
1〜104は、各々通信インターフェース221〜22
4と、ケーブル321〜324とにより、LAN402
に接続されている。Example 6. FIG. 26 is a flow chart showing the operation of the fault detecting method for a distributed computer system according to another embodiment of the present invention, and FIG. 27 is a physical configuration diagram of the distributed computer system according to this embodiment.
01 to 104 are computers, and 401 and 402 are LANs. The computers 101 to 104 are connected to the LAN 401 by communication interfaces 211 to 214 and cables 311 to 314, respectively. Also, the computer 10
1 to 104 are communication interfaces 221 to 22 respectively
4 and the cables 321 to 324, the LAN 402
It is connected to the.
【0140】この実施例による分散計算機システムでは
故障検出のため、実施例1と同様に、計算機101〜1
04を図4のような仮想的な仮想リング状に配置する。
実施例1と同様に、計算機の仮想的配置には、計算機の
様々な属性に注目したいくつかの方法が考えられる。In the distributed computer system according to this embodiment, since the faults are detected, the computers 101 to 1 are used as in the first embodiment.
04 are arranged in a virtual virtual ring shape as shown in FIG.
Similar to the first embodiment, for the virtual arrangement of computers, several methods that consider various attributes of the computers can be considered.
【0141】次に動作について説明する。以下、図26
のフローチャートと対応させながら、各計算機の動作を
説明する。Next, the operation will be described. Hereinafter, FIG.
The operation of each computer will be described with reference to the flowchart of FIG.
【0142】各計算機は、仮想的配置において右隣に位
置する計算機に対して、生存信号を送信する。説明の便
宜上、各計算機に仮想リング上での配列順序に従って番
号を割り当てるとき、奇数番目の計算機はLAN401
を用いて、右隣の計算機に定期的に生存信号を送信し、
また、偶数番目の計算機はLAN402を用いて、右隣
の計算機に定期的に生存信号を送信すべく、生存信号を
定期的に送るための送信タイマが0か否かをチェックし
て(ステップST91)、送信タイマが0ならば、生存
信号の送信を開始して、予め定められたタイムアウト時
間を設定して生存信号の送信タイマをセットする(ステ
ップST92)。また、左隣の計算機からの生存信号
は、奇数番目の計算機ではLAN402を通じて受信さ
れ、偶数番目の計算機ではLAN401を通じて受信さ
れる。図28は、各計算機の生存信号の送受信を示すブ
ロック図である。Each computer transmits a survival signal to the computer located on the right side of the virtual arrangement. For convenience of explanation, when assigning a number to each computer according to the arrangement order on the virtual ring, the odd-numbered computer is LAN 401.
Send a survival signal to the computer on the right using
Further, the even-numbered computer uses the LAN 402 to check whether the transmission timer for periodically transmitting the survival signal is 0 in order to regularly transmit the survival signal to the computer on the right side (step ST91). ), If the transmission timer is 0, the transmission of the survival signal is started, a predetermined timeout time is set, and the survival signal transmission timer is set (step ST92). The survival signal from the computer on the left side is received through the LAN 402 by the odd-numbered computer and is received through the LAN 401 by the even-numbered computer. FIG. 28 is a block diagram showing transmission / reception of a survival signal of each computer.
【0143】通常、計算機は平常モードで動作しており
(ステップST93)、各計算機は、左隣の計算機から
の生存信号が、一定時間ごとに受信されるかを調べ(ス
テップST94)、受信した場合に予め定められたタイ
ムアウト時間を設定して生存信号の受信タイマをセット
ないしリセットする(ステップST95)。さらに、生
存信号に故障情報が付加されているかチェックする(ス
テップST96)。Normally, the computer is operating in the normal mode (step ST93), and each computer checks whether the survival signal from the computer on the left is received at regular intervals (step ST94), and receives it. In this case, a predetermined timeout time is set and the survival signal reception timer is set or reset (step ST95). Further, it is checked whether failure information is added to the survival signal (step ST96).
【0144】以下、故障例1として、図29に示すよう
な計算機102とLAN402とを接続するケーブル3
22が切断した場合における、この実施例による分散計
算機システムの故障検出方法の動作を説明する。In the following, as a failure example 1, a cable 3 for connecting the computer 102 and the LAN 402 as shown in FIG.
The operation of the fault detection method for the distributed computer system according to this embodiment when the switch 22 is disconnected will be described.
【0145】計算機103は、計算機102からの生存
信号が、予め定められた時間内に受信できないことを検
出すると(ステップST100)、故障検出モードに移
行し、予め定められた計算機に対して、自分自身に生存
信号を送信するように要求する信号を、LAN2を用い
て送る(ステップST101)。When the computer 103 detects that the surviving signal from the computer 102 cannot be received within a predetermined time (step ST100), it shifts to the failure detection mode, and the computer 103 itself A signal requesting itself to transmit a survival signal is sent using LAN2 (step ST101).
【0146】この後、計算機103では、ステップST
91に戻り、ステップST93に至り、故障検出モード
であるのでステップST104に分岐する。一方、この
要求信号が計算機104に送られたとすると、計算機1
04は該要求信号に応じて生存信号を計算機103に送
信する。計算機103は、ステップST104におい
て、該要求信号に対する応答が得られたことから、計算
機102とLAN402の間の接続に故障が発生したと
判断する。さらに、計算機103は、図30に示すよう
に、再構成して各計算機の生存信号の送信先を設定し直
す(ステップST105)。このような再構成を行うこ
とにより、故障が発生しても、故障発生以前と同程度の
故障検出能力を維持することができる。この際に、送信
先が変更される計算機に対して、計算機103は直接故
障情報を通知した後(ステップST106)、再送に備
えてメモリに故障情報を保存して故障情報タイマをセッ
トし(ステップST107)、平常モードに戻る(ステ
ップST108)。また、それ以外の計算機に対して
は、生存信号に故障情報を付加し、順次隣接計算機に転
送することにより、故障情報を通知する(ステップST
106、ST107、ST97、ST99)。実施例1
と同様に、計算機103は、該故障情報が一定時間以内
に自分自身に転送されて戻ってくるかを調べ(ステップ
ST96、ST97)、もし受信したのであれば、メモ
リ中から該メッセージを削除して、故障情報タイマを削
除する(ステップST98)。これに対して、一巡中に
故障情報が失われ、戻ってこないような場合に再転送を
行う(ステップST102、ST103)。After that, in the computer 103, step ST
Returning to step 91, the process proceeds to step ST93, and since it is in the failure detection mode, the process branches to step ST104. On the other hand, if this request signal is sent to the computer 104, the computer 1
04 transmits a survival signal to the computer 103 in response to the request signal. In step ST104, the computer 103 determines that a failure has occurred in the connection between the computer 102 and the LAN 402 since the response to the request signal has been obtained. Further, the computer 103 reconfigures and resets the transmission destination of the survival signal of each computer as shown in FIG. 30 (step ST105). By performing such reconfiguration, even if a failure occurs, it is possible to maintain the same level of failure detection capability as that before the failure. At this time, the computer 103 directly reports the failure information to the computer whose destination is changed (step ST106), then saves the failure information in the memory and sets the failure information timer in preparation for retransmission (step ST106). ST107) and returns to the normal mode (step ST108). Further, other computers are notified of the failure information by adding the failure information to the survival signal and sequentially transferring it to the adjacent computers (step ST
106, ST107, ST97, ST99). Example 1
Similarly, the computer 103 checks whether the failure information is transferred to itself and returned within a fixed time (steps ST96 and ST97), and if received, deletes the message from the memory. Then, the failure information timer is deleted (step ST98). On the other hand, when the failure information is lost during one cycle and the failure information does not return, retransfer is performed (steps ST102 and ST103).
【0147】次に、別な故障例として、図31に示すよ
うな計算機103の通信インターフェースとLAN40
2とを接続するケーブル323が故障した場合におけ
る、この実施例による故障検出方法の動作について説明
する。Next, as another failure example, the communication interface of the computer 103 and the LAN 40 as shown in FIG.
The operation of the failure detecting method according to this embodiment when the cable 323 connecting the cable 2 and the cable 2 fails will be described.
【0148】計算機103は、計算機102からの生存
信号が、定められた時間内に受信できないことを検出す
ると(ステップST100)、故障検出モードに移行
し、適当な計算機に対して、自分自身に生存信号を送信
するように要求する信号を、LAN2を用いて送る(ス
テップST101)。この後、計算機103では、ステ
ップST91に戻り、故障検出モードであるのでステッ
プST93を経てステップST104に分岐する。要求
信号は、送信先の計算機に届かないため、計算機103
は該要求信号に対する応答を受信することができない。
このため、計算機103は、ステップST104からス
テップST109に移行して、定められた時間内に応答
を受信できないために自分自身とLAN402との間に
故障が発生したと判断する(ステップST105)。計
算機103は、図32に示すように各計算機の生存信号
の送信先を設定し直し、故障例1と同様にして各計算機
に故障情報を通知し、故障情報をメモリに保存して故障
情報タイマをセットするとともに、平常モードに戻る
(ステップST105〜108)。また、故障例1と同
様に、計算機103は、該故障情報が一定時間以内に自
分自身に転送されて戻ってくるかを調べ(ステップST
96、ST97)、受信したのであれば、メモリ中から
該メッセージを削除して、故障情報タイマを削除する
(ステップST98)。これに対して、一巡中に故障情
報が失われ、戻ってこないような場合に再転送を行う
(ステップST102、ST103)。When the computer 103 detects that the survival signal from the computer 102 cannot be received within the predetermined time (step ST100), the computer 103 shifts to the failure detection mode, and the computer 103 survives itself to the appropriate computer. A signal requesting transmission of a signal is sent using LAN2 (step ST101). After that, the computer 103 returns to step ST91 and, since it is in the failure detection mode, branches to step ST104 via step ST93. Since the request signal does not reach the destination computer, the computer 103
Cannot receive a response to the request signal.
Therefore, the computer 103 shifts from step ST104 to step ST109, and determines that a failure has occurred between itself and the LAN 402 because the response cannot be received within the predetermined time (step ST105). The computer 103 resets the transmission destination of the survival signal of each computer as shown in FIG. 32, notifies each computer of the failure information in the same manner as in failure example 1, saves the failure information in the memory, and saves the failure information timer. Is set, and the process returns to the normal mode (steps ST105 to ST108). Further, as in the failure example 1, the computer 103 checks whether the failure information is transferred to itself and returned within a fixed time (step ST
96, ST97), if received, the message is deleted from the memory and the failure information timer is deleted (step ST98). On the other hand, when the failure information is lost during one cycle and the failure information does not return, retransfer is performed (steps ST102 and ST103).
【0149】尚、ステップST91、ST92は、生存
信号送信ステップ、ステップST93、ST94、ST
100、ST101、ST104、ST109は故障検
出ステップ、ステップST95〜ST99、ST106
〜ST108は故障通知ステップ、ステップST10
5、ST99は再構成ステップに対応している。Note that steps ST91 and ST92 are survival signal transmission steps, and steps ST93, ST94 and ST
100, ST101, ST104, and ST109 are failure detection steps, steps ST95 to ST99, and ST106.
~ ST108 is a failure notification step, step ST10
5, ST99 corresponds to the reconstruction step.
【0150】分散計算機システムは、各計算機に故障検
出機能を分散しているため、特定の計算機の故障によ
り、故障検出機能が失われることがない。また、分散計
算機システムは、平常時の故障検出及び、故障発生時の
故障箇所の特定のための通信量を最小にできる。さら
に、分散計算機システムでは、故障情報を通知するため
に、生存信号を利用するため、通知のための余分な信号
を送信する必要がなく、LANの負荷を小さくすること
ができる。Since the distributed computer system distributes the failure detection function to each computer, the failure detection function is not lost due to the failure of a specific computer. In addition, the distributed computer system can minimize the amount of communication for detecting a failure during normal operation and for specifying a failure location when a failure occurs. Furthermore, in the distributed computer system, since the survival signal is used to notify the failure information, it is not necessary to transmit an extra signal for notification, and the load on the LAN can be reduced.
【0151】実施例7.図33は、この発明の他の実施
例による分散計算機システムの故障検出方法の動作を示
すフローチャートである。この実施例による分散計算機
システムは、実施例6と同様な物理的構成を備えてお
り、分散計算機システムでは故障検出のため、各計算機
101〜104が図2に示す仮想的な仮想リング状に配
置されている。また、実施例1と同様に、計算機の仮想
的配置には、計算機の様々な属性に注目したいくつかの
方法が考えられる。Example 7. FIG. 33 is a flow chart showing the operation of the failure detecting method for the distributed computer system according to another embodiment of the present invention. The distributed computer system according to this embodiment has the same physical configuration as that of the sixth embodiment. In the distributed computer system, the computers 101 to 104 are arranged in a virtual virtual ring shape shown in FIG. 2 for detecting a failure. Has been done. Further, as in the first embodiment, for the virtual arrangement of computers, several methods that pay attention to various attributes of the computers can be considered.
【0152】次に動作について説明する。以下、図33
のフローチャートと対応させながら、各計算機の動作を
説明する。Next, the operation will be described. Below, FIG.
The operation of each computer will be described with reference to the flowchart of FIG.
【0153】各計算機は、仮想的配置において隣接する
計算機に対して、生存信号を送信すべく、右隣または左
隣の計算機xへの生存信号の送信タイマが0か否かをチ
ェックして(ステップST111)、送信タイマが0、
即ち既に予め定められた時間内に生存信号を送信してい
ないならば、生存信号を送信して送信先を右隣から左
隣、または左隣から右隣へと変更する(ステップST1
12)。そして、ステップST11へ戻る。このとき、
LAN401では右隣の計算機を送信先とし、LAN4
02では左隣の計算機を送信先とする。これにより、隣
接する2つの計算機間では、互いに異なるLANを用い
て、相手計算機に生存信号を送信する。このような、隣
接計算機間の生存信号のやり取りを行う経路をループと
呼ぶ。図34は、この実施例による故障検出方法におけ
るループを介した生存信号の送受信を示すブロック図で
ある。Each computer checks whether or not the transmission signal of the survival signal to the computer x on the right side or the left side is 0 in order to transmit the survival signal to the adjacent computer in the virtual arrangement ( Step ST111), the transmission timer is 0,
That is, if the survival signal has not been transmitted within the predetermined time, the survival signal is transmitted and the transmission destination is changed from right adjacent to left adjacent or left adjacent to right adjacent (step ST1).
12). Then, the process returns to step ST11. At this time,
In LAN401, the computer on the right side is the destination,
In 02, the computer on the left is set as the transmission destination. As a result, the two adjacent computers use different LANs to transmit the survival signal to the other computer. Such a path for exchanging a survival signal between adjacent computers is called a loop. FIG. 34 is a block diagram showing transmission / reception of a survival signal via a loop in the failure detection method according to this embodiment.
【0154】ループを利用することにより、各計算機
は、隣接計算機からの生存信号が受信できたか否かを、
隣接計算機に送信する生存信号を用いて、この隣接計算
機に対して応答することができる。もし、隣接計算機x
への生存信号の送信タイマが0ではなく、隣接計算機x
からの生存信号が、定められた時間内に受信できたなら
ば(ステップST113)、計算機は隣接計算機xへの
応答としてACKを生存信号に書き込む(ステップST
114)。定められた時間内に生存信号が受信できない
場合は(ステップST122)、計算機は隣接計算機へ
の応答としてNAKを生存信号に書き込む(ステップS
T123)。一方、ステップST122において一方の
隣接計算機からの生存信号受信に失敗した計算機が、も
う一方の隣接計算機からの生存信号の受信にも失敗した
ならば(ステップST124)、自分自身は孤立してい
ると判断し、再起動などの処置を行う(ステップST1
25)。By using the loop, each computer determines whether or not the survival signal from the adjacent computer can be received.
It is possible to respond to this neighboring computer by using the survival signal transmitted to the neighboring computer. If adjacent computer x
The transmission signal of the survival signal to the
If the surviving signal from the computer can be received within the predetermined time (step ST113), the computer writes ACK in the surviving signal as a response to the adjacent computer x (step ST113).
114). When the survival signal cannot be received within the defined time (step ST122), the computer writes NAK in the survival signal as a response to the adjacent computer (step S122).
T123). On the other hand, if the computer that fails to receive the live signal from one adjacent computer in step ST122 also fails to receive the live signal from the other adjacent computer (step ST124), then it is said that itself is isolated. Judge and take action such as restart (step ST1)
25).
【0155】この結果、各計算機は隣接計算機から生存
信号を受信し、その応答の内容がACKであるか、NA
Kであるか、または、生存信号の受信そのものができな
いかのいずれかである。以下、生存信号の受信ができな
い場合の応答を、”No Msg.”と表現する。As a result, each computer receives the survival signal from the adjacent computer, and the content of the response is ACK or NA.
It is either K or cannot receive the survival signal itself. Hereinafter, the response when the survival signal cannot be received is expressed as “No Msg.”.
【0156】図35は、斜線で示した計算機が、左隣の
計算機からACK、NAK、NoMsg.の各応答が得
られたときに、考えられる故障の範囲を示している図で
ある。ACKの場合、2つの計算機及び2つのLANま
での経路はともに正常である。これに対して、NAKの
場合は、左側の計算機は、斜線で示した右側の計算機よ
り定められた時間内に生存信号を受信できない場合であ
り、この際この生存信号を左隣の計算機に対して送信す
る経路が故障している可能性がある。また、No Ms
g.の場合、左隣の計算機または左隣の計算機からの生
存信号の経路に故障がある可能性がある。In FIG. 35, the hatched computer indicates that the computer on the left has ACK, NAK, NoMsg. FIG. 6 is a diagram showing a range of possible failures when each response of FIG. In the case of ACK, both routes to the two computers and the two LANs are normal. On the other hand, in the case of NAK, the computer on the left cannot receive the survival signal within the time specified by the computer on the right indicated by the diagonal line, and at this time the computer on the left is to receive this survival signal. There is a possibility that the route for sending data is broken. Also, No Ms
g. In the case of, there may be a failure in the computer on the left or the path of the survival signal from the computer on the left.
【0157】各計算機は、両隣の計算機から応答を受信
できるため、2つの応答を組み合わせることにより、故
障の存在する範囲を特定することができる。図36は、
斜線で示した計算機が受信した生存信号の組み合わせか
ら、特定される故障の範囲を示している。図36に示し
た9つのケースのうち、故障箇所を特定できるのは20
02、2004、2005のケースである(ステップS
T116、ST118)。また、ケース2003、20
07では、故障範囲は複数の箇所に渡っているが、この
場合は図中×印で示した箇所に故障が発生したと判断す
る(ステップST117)。Since each computer can receive the responses from the computers on both sides, it is possible to specify the range where the failure exists by combining the two responses. FIG. 36 shows
The range of the failure specified from the combination of the survival signals received by the computer indicated by the diagonal lines is shown. Of the nine cases shown in FIG. 36, the failure location can be identified in 20 cases.
02, 2004, 2005 (step S
T116, ST118). In addition, cases 2003 and 20
In 07, the failure range extends over a plurality of locations, but in this case, it is determined that a failure has occurred at the location indicated by the cross mark in the figure (step ST117).
【0158】分散計算機システムでは、ループにより、
隣接計算機間で生存信号を交換する際には、相手計算機
からの生存信号を受信してから、適当な待ち時間後に相
手計算機への生存信号を送信する。これを互いに繰り返
すことにより、同期的な方法で、一定周期の生存信号の
送受信を実現する(ステップST126)。In the distributed computer system, the loop causes
When exchanging the survival signal between the adjacent computers, the survival signal from the partner computer is received, and then the survival signal to the partner computer is transmitted after an appropriate waiting time. By repeating this mutually, transmission / reception of the survival signal of a constant cycle is realized by a synchronous method (step ST126).
【0159】待ち時間の設定の一例として、左隣の計算
機の生存信号を受信した場合は、待ち時間を0とし、右
隣の計算機の生存信号を受信した場合には、待ち時間を
Tとする方法がある。この方法は、右隣の計算機に送信
した生存信号への応答が、遅れ時間なしに得られるた
め、右隣の計算機からの生存信号が、分散計算機システ
ムの状態を常に正確に反映しているという利点がある。As an example of setting the waiting time, when the survival signal of the computer on the left side is received, the waiting time is set to 0, and when the survival signal of the computer on the right side is received, the waiting time is set to T. There is a way. In this method, the response to the surviving signal sent to the computer on the right is obtained without delay, so the surviving signal from the computer on the right always accurately reflects the state of the distributed computer system. There are advantages.
【0160】次に故障例として、図37に示すように計
算機103の通信インターフェースとLAN402とを
接続するケーブル323が切断された場合を用いて、各
計算機の動作を説明する。Next, as a failure example, the operation of each computer will be described by using the case where the cable 323 connecting the communication interface of the computer 103 and the LAN 402 is disconnected as shown in FIG.
【0161】ケーブル323の切断により、計算機10
3が計算機102にLAN402を用いて送信する生存
信号と、計算機104が計算機103にLAN402を
用いて送信する生存信号は、目的計算機に受信されない
(ステップST122)。このため、計算機102は計
算機103に、計算機103は計算機104に、それぞ
れLAN401を用いて、NAKを含む生存信号を送信
する(ステップST123)。これにより、計算機10
2が両隣りの計算機から受信する応答はACKとNo
Msg.となる(ステップST117)。また、計算機
103が受信する応答はNAKとNo Msg.、計算
機104が受信する応答はNAKとACKになる(ステ
ップST116)。従って、図37に示すように、計算
機102と計算機104とはともに、ケーブル323ま
たは通信インターフェース223のいずれかに故障が発
生したと判断する(ステップST119)。計算機10
3は、応答の組み合わせ(ケース2008)から、自分
自身の周辺に故障が発生したことを検出することはでき
るが、その位置を特定することはできない。このため、
隣接計算機102または104がそれを特定し、故障内
容を通知するのを待つ(ステップST120)。By disconnecting the cable 323, the computer 10
The survival signal transmitted by the computer 3 to the computer 102 using the LAN 402 and the survival signal transmitted by the computer 104 to the computer 103 using the LAN 402 are not received by the target computer (step ST122). Therefore, the computer 102 transmits a survival signal including NAK to the computer 103 and the computer 103 to the computer 104 using the LAN 401, respectively (step ST123). As a result, the computer 10
2 receives ACK and No from the computers on both sides
Msg. (Step ST117). The response received by the computer 103 is NAK and No Msg. The response received by the computer 104 is NAK and ACK (step ST116). Therefore, as shown in FIG. 37, both the computer 102 and the computer 104 determine that a failure has occurred in either the cable 323 or the communication interface 223 (step ST119). Calculator 10
3 can detect that a failure has occurred around itself from the combination of responses (case 2008), but cannot specify its position. For this reason,
It waits for the adjacent computer 102 or 104 to identify it and notify the failure content (step ST120).
【0162】計算機102または104は、図38のよ
うに、リングを再構成する。新しい構成では、計算機1
02と104とはLAN401及び402を介して応答
を送信しあう。また、計算機103は、LAN401を
用いて信号を送受信できるため、自分自身とLAN40
1の接続を確認するために、計算機102から生存信号
を定期的に受信するとともに、自分自身の生存を知らせ
るために、計算機104に対して生存信号を送信する。
これにより、故障が発生しても、故障発生以前と同程度
の故障検出能力を維持することができる。The computer 102 or 104 reconfigures the ring as shown in FIG. With the new configuration, Calculator 1
02 and 104 send a response to each other via the LANs 401 and 402. Further, the computer 103 can send and receive signals using the LAN 401, so that
In order to confirm the connection of No. 1, the survival signal is periodically received from the computer 102, and the survival signal is transmitted to the computer 104 to notify the survival of itself.
As a result, even if a failure occurs, it is possible to maintain the same level of failure detection capability as before the failure occurred.
【0163】上記のような故障情報を全計算機に通知す
るため、実施例2と同様な方法を用い、隣接計算機間で
故障情報の送達を確認しながら、順次隣の計算機に故障
情報を転送する(ステップST121)。In order to notify the failure information as described above to all the computers, a method similar to that of the second embodiment is used, and the failure information is sequentially transferred to the adjacent computer while confirming the delivery of the failure information between the adjacent computers. (Step ST121).
【0164】尚、ステップST111、ST112、S
T126は生存信号送信ステップ、ステップST11
3、ST114、ST122、ST123は生存信号応
答ステップ、ステップST115〜ST120、ST1
24、ST125は故障検出ステップ、ステップST1
21は故障通知ステップ、ステップST119、ST1
20は再構成ステップに対応している。Incidentally, steps ST111, ST112, S
T126 is a survival signal transmission step, step ST11
3, ST114, ST122, ST123 are survival signal response steps, steps ST115 to ST120, ST1.
24, ST125 is a failure detection step, step ST1
21 is a failure notification step, steps ST119 and ST1
20 corresponds to the reconstruction step.
【0165】分散計算機システムは、各計算機に故障検
出機能を分散しているため、特定の計算機の故障によ
り、故障検出機能が失われることがない。また、分散計
算機システムでは、平常時の故障検出のための通信量と
しては、実施例6の2倍を要するが、通信量のオーダー
は同じであるため、計算機の増加に対して、通信量の増
加は少ない。また、異常発生時にも、故障箇所特定のた
めの余分な信号を要しないため、通信量は少なくてす
む。さらに、分散計算機システムでは、故障情報を通知
するために生存信号を利用しているので、通知のための
余分な信号を送信する必要がなく、さらに、LAN上に
送出される生存信号の総数は計算機の台数に比例した数
であるので、LANの負荷を小さくすることができる。Since the distributed computer system distributes the failure detection function to each computer, the failure detection function is not lost due to the failure of a specific computer. Also, in the distributed computer system, the communication amount for detecting a failure during normal operation requires twice as much as that in the sixth embodiment, but since the order of the communication amount is the same, the communication amount increases as the number of computers increases. Little increase. In addition, even when an abnormality occurs, an extra signal for identifying a failure location is not required, so that the communication amount can be small. Further, in the distributed computer system, since the survival signal is used to notify the failure information, it is not necessary to transmit an extra signal for notification, and the total number of survival signals transmitted on the LAN is Since the number is proportional to the number of computers, the load on the LAN can be reduced.
【0166】実施例8.図39は、この発明の他の実施
例による分散計算機システムの故障検出方法の動作を示
すブロック図である。この実施例の分散計算機システム
は、実施例7と同様の物理的、仮想的構成をもつ。ま
た、実施例7と同様に、ループを利用して隣接計算機間
で生存信号を交換する。Example 8. FIG. 39 is a block diagram showing the operation of a failure detecting method for a distributed computer system according to another embodiment of the present invention. The distributed computer system of this embodiment has the same physical and virtual configuration as that of the seventh embodiment. Also, as in the case of the seventh embodiment, a survival signal is exchanged between adjacent computers using a loop.
【0167】分散計算機システムでは、生存信号の内容
は2つのフィールドを含む。第1のフィールドは、実施
例7と同様に、各計算機が隣接計算機の生存信号を受信
できたか否かを、隣接計算機に示す応答である。図39
に示すように、第2のフィールドは、計算機が、生存信
号の送信先とは異なる、もう一方の隣接計算機から受信
した生存信号の第1フィールド(応答)をコピーしたも
のに相当する。In the distributed computer system, the content of the live signal includes two fields. The first field is a response indicating to each adjacent computer whether or not each computer was able to receive the survival signal of the adjacent computer, as in the case of the seventh embodiment. FIG. 39
As shown in, the second field corresponds to the computer copying the first field (response) of the live signal received from the other adjacent computer, which is different from the destination of the live signal.
【0168】各計算機は、実施例7と同様に、両隣から
の生存信号に含まれる応答を組み合わせて故障箇所を特
定する。また、1つの生存信号に含まれる上記のような
2つのフィールドの内容を組み合わせることにより、故
障箇所を特定することができる。図40は、斜線で示し
た計算機が受信した生存信号の内容から特定できる故障
箇所を示す。As in the case of the seventh embodiment, each computer combines the responses included in the survival signals from both sides to specify the fault location. Further, by combining the contents of the above two fields included in one survival signal, the failure location can be specified. FIG. 40 shows a failure location that can be identified from the content of the survival signal received by the computer, which is indicated by hatching.
【0169】次に動作について説明する。故障例とし
て、図41のように、計算機103の通信インターフェ
ース223とLAN402とを接続するケーブル323
が切断した場合をとりあげ、各計算機の動作を説明す
る。Next, the operation will be described. As an example of failure, a cable 323 connecting the communication interface 223 of the computer 103 and the LAN 402 as shown in FIG.
The operation of each computer will be explained taking the case of disconnection.
【0170】ケーブルの故障により、計算機103、1
04が、LAN402を用いて左隣に送信する生存信号
は、送信先計算機に受信されない。このため、計算機1
02、103の右隣の計算機への応答はNAKとなる。
即ち、計算機102、103が、LAN401を用いて
右隣に送信する生存信号の第1フィールドはNAKとな
る。従って、計算機103、104が、LAN401を
用いて右隣に送信する生存信号の第2フィールドはNA
Kとなる。また、計算機102が、LAN402を用い
て左隣の計算機に送信する生存信号の第2フィールド
は、No Msg.となる。その他の生存信号の第2フ
ィールドは、ACKとなる。従って、計算機101は計
算機104から受信する生存信号から、ケース3003
を適用するか、計算機102から受信する生存信号か
ら、ケース3005を適用することにより、故障を検出
することができる。また、計算機102、104は、隣
接計算機から受信する2つの生存信号を組み合わせて、
故障を検出することができる。また、計算機103は、
計算機102から受信する生存信号から、ケース300
2を適用することにより、故障を検出することができ
る。Due to a cable failure, computers 103, 1
The live signal 04 transmitted to the left by using the LAN 402 is not received by the destination computer. Therefore, computer 1
The response to the computer on the right of 02 and 103 is NAK.
That is, the first field of the survival signal transmitted to the right of the computers 102 and 103 using the LAN 401 is NAK. Therefore, the second field of the survival signal transmitted by the computers 103 and 104 to the right of the LAN 401 is NA.
It becomes K. The second field of the survival signal transmitted from the computer 102 to the computer on the left using the LAN 402 is No Msg. Becomes The second field of other survival signals becomes ACK. Therefore, the computer 101 determines from the survival signal received from the computer 104 that the case 3003
Or the case 3005 can be detected from the survival signal received from the computer 102 to detect the failure. In addition, the computers 102 and 104 combine two survival signals received from adjacent computers,
A failure can be detected. In addition, the computer 103
From the survival signal received from the computer 102, the case 300
By applying 2, the failure can be detected.
【0171】故障検出後の再構成と、故障情報の通知
は、実施例7と同様である。再構成により、故障が発生
しても、故障発生以前と同程度の故障検出能力を維持す
ることができる。Reconstruction after failure detection and notification of failure information are the same as in the seventh embodiment. By the reconfiguration, even if a failure occurs, it is possible to maintain the same level of failure detection capability as before the failure occurred.
【0172】この実施例による分散計算機システムは、
各計算機に故障検出機能を分散しているため、特定の計
算機の故障により、故障検出機能が失われることがな
い。また、分散計算機システムでは、各計算機が自分自
身の生存を知らせるために、毎周期に1つの生存信号を
送信するのみであるので、平常時の故障検出及び、故障
発生時の故障箇所の特定のための通信量を最小オーダー
にできる。さらに、分散計算機システムでは、故障情報
を通知するために生存信号を利用しているので、通知の
ための余分な信号を送信する必要がなく、さらに、LA
N上に送出される生存信号の総数は計算機の台数に比例
した数であるので、LANの負荷を小さくすることがで
きる。The distributed computer system according to this embodiment is
Since the failure detection function is distributed to each computer, the failure detection function is not lost due to the failure of a specific computer. Further, in the distributed computer system, each computer only sends one survival signal in every cycle in order to notify the existence of its own, so failure detection in normal times and identification of a failure location at the time of failure occurrence are possible. Communication volume can be minimized. Further, in the distributed computer system, since the survival signal is used to notify the failure information, it is not necessary to send an extra signal for notification,
Since the total number of surviving signals sent to N is proportional to the number of computers, the load on the LAN can be reduced.
【0173】実施例9.図42は、この発明の他の実施
例による分散計算機システムの故障検出方法の動作を示
すフローチャートである。この実施例の分散計算機シス
テムは、図27に示す実施例6と同様な物理的構成をも
つ。分散計算機システムでは、故障検出のために、各計
算機が図2に示すような仮想的な仮想リング状に配置さ
れる。実施例1と同様に、計算機の仮想的配置には、計
算機の様々な属性に注目したいくつかの方法が考えられ
る。Example 9. FIG. 42 is a flow chart showing the operation of a failure detecting method for a distributed computer system according to another embodiment of the present invention. The distributed computer system of this embodiment has the same physical configuration as that of the sixth embodiment shown in FIG. In the distributed computer system, each computer is arranged in a virtual virtual ring shape as shown in FIG. 2 in order to detect a failure. Similar to the first embodiment, for the virtual arrangement of computers, several methods that consider various attributes of the computers can be considered.
【0174】次に動作について説明する。以下、図42
のフローチャートと対応させながら、各計算機の動作を
説明する。Next, the operation will be described. Below, FIG.
The operation of each computer will be described with reference to the flowchart of FIG.
【0175】仮想リングを構成する計算機のうち、偶数
番目の計算機はLAN401を用いて両隣の計算機に定
期的に生存信号を送信すべく、隣接計算機xへの生存信
号の送信タイマが0であるか否かをチェックして(ステ
ップST131)、生存信号を送信し予め定められたタ
イムアウト時間を設定して生存信号送信タイマをセット
するとともに、送信先を一方の隣接計算機xから他方の
隣接計算機x’へと変更する(ステップST132)。
また同様に、奇数番目の計算機はLAN402を用いて
両隣の計算機に定期的に生存信号を送信する。各計算機
は、生存信号を受信したか否かをチェックして(ステッ
プST133)、受信していないならば、さらに隣接計
算機からの生存信号の受信がタイムアウト時間を超過し
たか否かを調べ(ステップST144)、タイムアウト
していないならば受信タイマをリセットして(ステップ
ST147)、ステップST131へ戻る。図43は、
この実施例による分散計算機システムにおける各計算機
の生存信号の送受信の様子を示すブロック図である。図
43に示すように、隣接する2つの計算機は、互いに異
なるLANを用いて、相手計算機に対して生存信号を送
信する。このような生存信号の交換経路をループと呼
ぶ。Among the computers constituting the virtual ring, whether the even-numbered computer has a live signal transmission timer to the adjacent computer x is 0 in order to periodically transmit the live signal to both adjacent computers using the LAN 401. It is checked whether or not (step ST131), the survival signal is transmitted, the predetermined timeout time is set, the survival signal transmission timer is set, and the transmission destination is changed from one adjacent computer x to the other adjacent computer x ′. Is changed to (step ST132).
Similarly, the odd-numbered computers periodically transmit the survival signal to the computers on both sides using the LAN 402. Each computer checks whether or not it has received a live signal (step ST133), and if it has not received, it further checks whether or not the reception of a live signal from an adjacent computer has exceeded the timeout time (step ST133). ST144) If the timeout has not occurred, the reception timer is reset (step ST147) and the process returns to step ST131. FIG. 43 shows
FIG. 7 is a block diagram showing how a live signal is transmitted and received by each computer in the distributed computer system according to this embodiment. As shown in FIG. 43, two adjacent computers use different LANs to transmit a survival signal to the other computer. Such a survival signal exchange path is called a loop.
【0176】以下、故障例1として、図44に示すよう
に計算機103の通信インターフェース213とLAN
401とを接続するケーブル313が故障した場合を用
いて、各計算機の動作を説明する。Hereinafter, as a failure example 1, as shown in FIG. 44, the communication interface 213 of the computer 103 and the LAN
The operation of each computer will be described by using the case where the cable 313 connecting to 401 is broken.
【0177】故障により、計算機313の送信する生存
信号は、送信先である計算機102、104に受信され
ない(ステップST144)。次に、計算機103とは
異なるもう一方の計算機からの生存信号の受信がタイム
アウト時間を超過したか否かをチェックするが(ステッ
プST145)、計算機102、104では、計算機1
03とは異なるもう一方の隣接計算機101から生存信
号を受信するので、ステップST147、ST131、
ST132を経てステップST133に至る。従って、
計算機102、104では、計算機103、通信インタ
ーフェース213、及びケーブル313のいずれかが故
障したと判断する(ステップST133、ST134、
ST135)。このような判断は、2つの計算機が同時
に故障する確率が非常に低いという仮定に基づいてい
る。Due to the failure, the survival signal transmitted by the computer 313 is not received by the destination computers 102 and 104 (step ST144). Next, it is checked whether or not the reception of the survival signal from the other computer different from the computer 103 has exceeded the timeout time (step ST145).
03, since a survival signal is received from the other adjacent computer 101 different from 03, steps ST147, ST131,
After ST132, the operation proceeds to step ST133. Therefore,
In the computers 102 and 104, it is determined that any of the computer 103, the communication interface 213, and the cable 313 has failed (steps ST133, ST134,
ST135). Such a judgment is based on the assumption that two computers have a very low probability of simultaneously failing.
【0178】故障例2として、図45に示すように計算
機103の通信インターフェース223とLAN402
とを接続するケーブル323が故障した場合を用いて、
各計算機の動作を説明する。As a failure example 2, as shown in FIG. 45, the communication interface 223 of the computer 103 and the LAN 402 are connected.
Using the case where the cable 323 connecting to and fails,
The operation of each computer will be described.
【0179】故障により、計算機102、104が送信
する生存信号は、計算機103で受信することができな
い(ステップST144)。このため、計算機103
は、両隣の計算機の生存信号を受信できないことがわか
った時点で(ステップST145)、自分自身とLAN
402との間の接続が切断されたと判断する(ステップ
ST146)。Due to a failure, the survival signal transmitted by the computers 102 and 104 cannot be received by the computer 103 (step ST144). Therefore, the computer 103
When it is determined that the surviving signals of the computers on both sides cannot be received (step ST145), the self and the LAN
It is determined that the connection with 402 is disconnected (step ST146).
【0180】故障例1では、図46のようにリングを再
構成する。また、故障例2では、図47のようにリング
を再構成する。これにより、故障が発生しても、故障発
生以前と同程度の故障検出能力を維持することができ
る。上記のような故障情報を全計算機に通知するため、
実施例2と同様な方法を用い、隣接計算機間で故障情報
の送達を確認しながら、順次隣の計算機に故障情報を転
送する(ステップST136〜ST143)。In failure example 1, the ring is reconfigured as shown in FIG. Further, in failure example 2, the ring is reconfigured as shown in FIG. As a result, even if a failure occurs, it is possible to maintain the same level of failure detection capability as before the failure occurred. In order to notify all computers of the above failure information,
Using the same method as in the second embodiment, the failure information is sequentially transferred to the adjacent computer while confirming the delivery of the failure information between the adjacent computers (steps ST136 to ST143).
【0181】尚、ステップST131、ST132、S
T147は生存信号送信ステップ、ステップST13
3、ST134、ST135、ST144〜ST146
は故障検出ステップ、ステップST136、ST138
〜ST143、ST146は故障通知ステップ、ステッ
プST135、ST137は再構成ステップに対応して
いる。Incidentally, steps ST131, ST132, S
T147 is a survival signal transmission step, step ST13
3, ST134, ST135, ST144 to ST146
Is a failure detection step, steps ST136 and ST138
~ ST143 and ST146 correspond to the failure notification step, and steps ST135 and ST137 correspond to the reconstruction step.
【0182】分散計算機システムは、各計算機に故障検
出機能を分散しているため、特定の計算機の故障によ
り、故障検出機能が失われることがない。また、分散計
算機システムでは、各計算機が自分自身の生存を知らせ
るために、毎周期に1つの生存信号を送信するのみであ
るので、平常時の故障検出及び、故障発生時の故障箇所
の特定のための通信量を最小オーダーにできる。さら
に、分散計算機システムでは、故障情報を通知するため
に生存信号を利用しているので、通知のための余分な信
号を送信する必要がなく、さらに、LAN上に送出され
る生存信号の総数は、計算機の台数に比例した数である
ので、LANの負荷を小さくすることができる。Since the distributed computer system distributes the failure detection function to each computer, the failure detection function is not lost due to the failure of a specific computer. Further, in the distributed computer system, each computer only sends one survival signal in every cycle in order to notify the existence of its own, so failure detection in normal times and identification of a failure location at the time of failure occurrence are possible. Communication volume can be minimized. Further, in the distributed computer system, since the survival signal is used to notify the failure information, it is not necessary to transmit an extra signal for notification, and the total number of survival signals transmitted on the LAN is Since the number is proportional to the number of computers, the load on the LAN can be reduced.
【0183】実施例10.図48は、この発明の他の実
施例による分散計算機システムの故障検出方法の動作を
示すフローチャートである。この実施例の分散計算機シ
ステムは、図27に示す実施例6と同様な物理的構成を
有している。Example 10. FIG. 48 is a flow chart showing the operation of a failure detecting method for a distributed computer system according to another embodiment of the present invention. The distributed computer system of this embodiment has the same physical configuration as that of the sixth embodiment shown in FIG.
【0184】この実施例による分散計算機システムでは
故障検出のため、図49に示すように、計算機を3台ず
つグループにする。このようなグループを構成する際に
は、実施例1と同様に、計算機の様々な属性に注目した
いくつかの方法が考えられる。In the distributed computer system according to this embodiment, three computers are grouped in groups of three as shown in FIG. 49 for detecting a failure. When constructing such a group, as in the case of the first embodiment, several methods that consider various attributes of the computer can be considered.
【0185】次に動作について説明する。以下、図48
のフローチャートと対応させながら、計算機101、1
03、104、106の動作を説明する。Next, the operation will be described. Below, FIG.
Corresponding to the flow chart of
The operations of 03, 104 and 106 will be described.
【0186】グループ内の各々の計算機を、故障検出時
に果たす役割によってA、A’、Bと呼ぶ。図49で
は、計算機101、104がA、計算機102、105
がB、計算機103、106がA’に相当する。BはL
AN401を用いてAに定期的に生存信号を送信し、L
AN402を用いてA’に定期的に生存信号を送信す
る。Aは、LAN402を用いて、A’に定期的に生存
信号を送信すべく、生存信号の送信タイマが0であるか
否かをチェックして(ステップST151)、送信タイ
マが0であるならば生存信号を送信し生存信号送信タイ
マをリセットする(ステップST152)。このとき、
A’から生存信号を受信せず(ステップST153)、
Bからの生存信号を受信できるならば(ステップST1
61)、生存信号にACKを書き込み(ステップST1
62)、A’から生存信号受信が定められたタイムアウ
ト時間を超過しておらず(ステップST168)、Bか
らの生存信号を受信できなければNAKを書き込む(ス
テップST172、ST173)。A’は、Aと同様
に、Bからの生存信号の有無を生存信号に書き込み、A
に対して生存信号を定期的に送信する。Each computer in the group is called A, A ', B depending on its role in detecting a failure. In FIG. 49, the computers 101 and 104 are A, and the computers 102 and 105.
Corresponds to B, and the computers 103 and 106 correspond to A ′. B is L
Send a live signal to A periodically using AN401, and
The AN 402 is used to periodically send a live signal to A '. Using the LAN 402, A checks whether or not the transmission timer of the survival signal is 0 in order to periodically transmit the survival signal to A '(step ST151), and if the transmission timer is 0, The survival signal is transmitted and the survival signal transmission timer is reset (step ST152). At this time,
No survival signal is received from A '(step ST153),
If the survival signal from B can be received (step ST1
61), write ACK to the survival signal (step ST1)
62), reception of the survival signal from A ′ has not exceeded the predetermined timeout time (step ST168), and if the survival signal from B cannot be received, NAK is written (steps ST172 and ST173). A ′, like A, writes the presence / absence signal from B to the survival signal, and A
To periodically send a survival signal to.
【0187】一方、Aは、A’とBからの生存信号の有
無と内容を用いて故障箇所を判断し、A’は、AとBか
らの生存信号の有無と内容を用いて故障箇所を判断す
る。図50は、Aが受信する生存信号の組み合わせから
推定される故障箇所の範囲を示している。いくつかのケ
ースでは、複数の箇所に1つ異常の故障が発生している
可能性がある。分散計算機システムでは、故障箇所は同
時に1つであるという仮定を用いて、故障箇所の候補を
探す。さらに、候補となった故障箇所のうち、故障を判
定する計算機に最も近い候補に故障が発生したとみな
す。図51中の×印は、このような基準で決定される故
障箇所を示す。On the other hand, A determines the failure location by using the existence and contents of the survival signal from A'and B, and A'determines the failure location by using the existence and content of the survival signal from A and B. to decide. FIG. 50 shows the range of failure locations estimated from the combination of survival signals received by A. In some cases, there may be one anomalous failure at multiple locations. In the distributed computer system, a candidate for a failure location is searched for by using the assumption that there is one failure location at the same time. Furthermore, among the candidate failure locations, it is considered that the failure has occurred in the candidate closest to the computer that determines the failure. The X mark in FIG. 51 indicates a failure location determined by such a criterion.
【0188】次に、故障例1として、図51に示すよう
な計算機102の通信インターフェース212とLAN
401とを接続するケーブル312が切断された場合に
おける、この実施例による分散計算機システムの動作を
説明する。Next, as a failure example 1, a communication interface 212 of the computer 102 and a LAN as shown in FIG.
The operation of the distributed computer system according to the present embodiment when the cable 312 connecting to 401 is disconnected will be described.
【0189】ケーブル312の切断により、計算機10
2(B)が送信する生存信号は、計算機101(A)に
受信されない(ステップST172)。このため、計算
機101は計算機103(A’)にNAKを送信する
(ステップST173)。計算機101(A)は計算機
103(A’)から生存信号ACKを受信した時点で、
図50に示すケース5004を適用し、ケーブル312
が故障したと判断する(ステップST153〜ST15
5、ST157、ST159、ST177)。このよう
な判断は、2つの計算機が同時に故障する確率が非常に
低いという仮定に基づいている。計算機103(A’)
は、計算機102(B)からの生存信号を受信し、計算
機101(A)から生存信号NAKを受信する。これ
は、図50のケース5002に相当するが、この場合は
故障箇所を特定できない(ステップST154〜ST1
56、ST160、ST177)。By cutting the cable 312, the computer 10
The survival signal transmitted by 2 (B) is not received by the computer 101 (A) (step ST172). Therefore, the computer 101 transmits NAK to the computer 103 (A ′) (step ST173). When the computer 101 (A) receives the survival signal ACK from the computer 103 (A ′),
Applying the case 5004 shown in FIG.
Is determined to have failed (steps ST153 to ST15)
5, ST157, ST159, ST177). Such a judgment is based on the assumption that two computers have a very low probability of simultaneously failing. Calculator 103 (A ')
Receives a survival signal from the computer 102 (B) and receives a survival signal NAK from the computer 101 (A). This corresponds to the case 5002 in FIG. 50, but in this case the failure location cannot be specified (steps ST154 to ST1).
56, ST160, ST177).
【0190】故障例2として、図52に示すような計算
機101の通信インターフェース211とLAN401
とを接続するケーブル311が切断された場合をとりあ
げる。As Failure Example 2, the communication interface 211 of the computer 101 and the LAN 401 as shown in FIG.
Take the case where the cable 311 connecting to and is disconnected.
【0191】ケーブル311の切断により、計算機10
1(A)は、全ての生存信号を受信できない。このた
め、計算機101(A)は両方の生存信号が受信できな
いことがわかった時点で、図50のケース5006を適
用し、ケーブル311が故障したと判断する(ステップ
ST168〜171、ST177またはステップST1
72〜ST177)。計算機103(A’)は、計算機
102(B)からの生存信号を受信し、計算機101
(A)から生存信号NAKを受信する。これは、図50
のケース5002に相当するが、この場合は故障箇所を
特定できない(ステップST154〜ST156、ST
160、ST177)。By disconnecting the cable 311, the computer 10
1 (A) cannot receive all the survival signals. For this reason, the computer 101 (A) determines that the cable 311 has failed by applying the case 5006 of FIG. 50 (steps ST168 to 171, ST177, or step ST1) when it is determined that both survival signals cannot be received.
72-ST177). The computer 103 (A ′) receives the survival signal from the computer 102 (B) and
The survival signal NAK is received from (A). This is shown in FIG.
In this case, the failure location cannot be identified (steps ST154 to ST156, ST
160, ST177).
【0192】故障例3として、図53に示すように計算
機101の通信インターフェース221とLAN402
とを接続するケーブル321が切断された場合をとりあ
げる。As Failure Example 3, as shown in FIG. 53, the communication interface 221 of the computer 101 and the LAN 402 are connected.
Take the case where the cable 321 connecting to and is disconnected.
【0193】ケーブル321の切断により、計算機10
1(A)が送信する生存信号は、計算機103(A’)
に受信されない(ステップST168)。計算機103
(A’)は計算機102(B)から生存信号ACKが受
信した時点で、図50のケース5003を適用し、ケー
ブル321が故障したと判断する(ステップST161
〜ST166、ST177)。計算機101(A)は、
いずれの生存信号も正常であるため、故障を検出するこ
とはできない(ステップST153、ST154、ST
177またはステップST161〜ST163、ST1
77)。When the cable 321 is cut, the computer 10
The survival signal transmitted by 1 (A) is the computer 103 (A ').
Is not received (step ST168). Computer 103
When the survival signal ACK is received from the computer 102 (B), (A ′) applies the case 5003 of FIG. 50 and determines that the cable 321 has failed (step ST161).
~ ST166, ST177). Computer 101 (A)
Since all the survival signals are normal, it is not possible to detect a failure (steps ST153, ST154, ST
177 or steps ST161 to ST163, ST1
77).
【0194】故障例4として、図54に示すように計算
機102(B)が故障した場合をとりあげる。As Failure Example 4, the case where the computer 102 (B) fails as shown in FIG. 54 will be taken up.
【0195】計算機102(B)の故障により、計算機
101(A)、103(A’)とも、計算機102
(B)からの生存信号を受信することができない(ステ
ップST172)。計算機101(A)、103
(A’)は、それぞれ計算機103(A’)、101
(A)に生存信号NAKを送信する(ステップST17
3)。計算機101(A)、103(A’)は、生存信
号NAKを受信した時点で、図50のケース5005を
適用し、計算機102(B)が故障したと判断する(ス
テップST153〜ST159、ST177)。Due to the failure of the computer 102 (B), both the computers 101 (A) and 103 (A ') are
The survival signal from (B) cannot be received (step ST172). Computer 101 (A), 103
(A ′) are computers 103 (A ′) and 101, respectively.
The survival signal NAK is transmitted to (A) (step ST17).
3). The computers 101 (A) and 103 (A ′), when receiving the survival signal NAK, apply the case 5005 of FIG. 50 and determine that the computer 102 (B) has failed (steps ST153 to ST159, ST177). .
【0196】尚、ステップST151、ST152は、
生存信号送信ステップ、ステップST161、ST16
2、ST173、ST174は第1及び第2の生存信号
応答ステップ、ステップST154〜ST158、ST
160、ST169、ST170は第1の故障検出ステ
ップ、ステップST163〜ST165、ST167、
ST174、ST175は第2の故障検出ステップ、ス
テップST159、ST166、ST171、ST17
6は故障通知ステップ、ステップST159、ST16
0、ST166、ST167、ST171、ST176
は再構成ステップに対応している。また、計算機Aは第
2の計算機、計算機Bは第1の計算機、計算機A’は第
3の計算機に対応している。The steps ST151 and ST152 are
Survival signal transmission step, steps ST161 and ST16
2, ST173 and ST174 are first and second survival signal response steps, steps ST154 to ST158 and ST.
160, ST169, ST170 are the first failure detection step, steps ST163 to ST165, ST167,
ST174 and ST175 are second failure detection steps, steps ST159, ST166, ST171 and ST17.
6 is a failure notification step, steps ST159 and ST16
0, ST166, ST167, ST171, ST176
Corresponds to the reconstruction step. The computer A corresponds to the second computer, the computer B corresponds to the first computer, and the computer A ′ corresponds to the third computer.
【0197】計算機、通信インターフェースやケーブル
の故障を発見した場合、これを発見した計算機は、故障
した計算機を、他のグループの同じ役割をもつ計算機に
置き換えることにより、再構成を行う。置き換えられた
計算機は2つのグループに同時に属することになる。例
として、計算機102が故障した場合に、計算機105
を計算機102に置き換えた様子を、図55に示す。こ
れにより、故障が発生しても、故障発生以前と同程度の
故障検出能力を維持することができる。再構成の結果
は、適当なブロードキャスト通信により、全ての計算機
に通知される。この実施例による分散計算機システム
は、各計算機に故障検出機能を分散しているため、特定
の計算機の故障により、故障検出機能が失われることが
ない。また、分散計算機システムでは、同様に、平常時
の故障検出及び、故障発生時の故障箇所の特定のための
通信量を最小オーダーにできる。When a computer, communication interface, or cable failure is found, the found computer replaces the failed computer with a computer having the same role in another group to perform reconfiguration. The replaced computer will belong to two groups at the same time. As an example, if the computer 102 fails, the computer 105
FIG. 55 shows how the computer is replaced with. As a result, even if a failure occurs, it is possible to maintain the same level of failure detection capability as before the failure occurred. The result of the reconfiguration is notified to all computers by appropriate broadcast communication. In the distributed computer system according to this embodiment, the failure detection function is distributed to each computer, so that the failure detection function is not lost due to the failure of a specific computer. Further, in the distributed computer system, similarly, the communication amount for detecting a failure during normal times and for specifying a failure location when a failure occurs can be minimized.
【0198】実施例11.この実施例による分散計算機
システムは、実施例7と同様な物理的構成と、仮想的構
成とを備えている。また、この実施例による分散計算機
システムの故障検出のための動作も、実施例7とほとん
ど同じである。Example 11. The distributed computer system according to this embodiment has the same physical configuration as that of the seventh embodiment and a virtual configuration. The operation for detecting a failure of the distributed computer system according to this embodiment is also almost the same as that of the seventh embodiment.
【0199】次に動作について説明する。以下、実施例
7と異なる部分について説明する。分散計算機システム
では、各計算機は、右隣の計算機にLAN401を用い
て生存信号を送信する際には、各計算機自身の管理する
タイマによって、定期的に生存信号を送信する。各計算
機は、左隣から該生存信号を受信した場合、直ちにAC
Kを書き込んだ生存信号を送信する。もし、定められた
時間内に左隣の計算機からの生存信号を受信できなけれ
ば、NAKを書き込んだ生存信号を送信する。Next, the operation will be described. Hereinafter, parts different from the seventh embodiment will be described. In the distributed computer system, when each computer transmits a survival signal to the adjacent computer on the right using the LAN 401, each computer periodically transmits the survival signal by a timer managed by each computer. When each computer receives the survival signal from the neighbor on the left, it immediately executes AC
The survival signal in which K is written is transmitted. If the survival signal from the computer on the left is not received within the predetermined time, the survival signal in which NAK is written is transmitted.
【0200】この実施例における故障検出方法は、実施
例7に示した生存信号の送受信タイミングの設定方法と
同様な利点がある。また、この実施例は請求項7、請求
項12、請求項16、請求項21から請求項24の発明
に対応している。The fault detecting method in this embodiment has the same advantages as the method of setting the transmission / reception timing of the live signal shown in the seventh embodiment. Further, this embodiment corresponds to the inventions of claim 7, claim 12, claim 16, and claim 21 to claim 24.
【0201】実施例12.図56はこの発明の他の実施
例による分散計算機システムの構成を示すブロック図で
あり、図において、101、102は計算機、211、
212、221、222、231、232、241、2
42は通信インターフェース、311、312、32
1、322、331、332、341、342はケーブ
ル、401〜404はLANである。Example 12 56 is a block diagram showing the configuration of a distributed computer system according to another embodiment of the present invention. In the figure, 101 and 102 are computers, 211, and
212, 221, 222, 231, 232, 241, 2
42 is a communication interface, 311, 312, 32
1, 322, 331, 332, 341, and 342 are cables, and 401 to 404 are LANs.
【0202】この実施例による分散計算機システムで
は、各計算機は4本のLAN401〜404に接続され
ている。分散計算機システムでは、4本のLANのう
ち、LAN401とLAN402、LAN403とLA
N404をそれぞれ組とし、それぞれの組を用いて、実
施例6と同様の方法で故障検出を行う。In the distributed computer system according to this embodiment, each computer is connected to four LANs 401 to 404. In the distributed computer system, among the four LANs, LAN401 and LAN402, LAN403 and LA
N404 is set as each set, and each set is used to detect a failure by the same method as in the sixth embodiment.
【0203】これにより、請求項1から請求項16の発
明を、偶数本のLANをもつ分散計算機システム一般に
適用することができる。As a result, the inventions of claims 1 to 16 can be applied to a general distributed computer system having an even number of LANs.
【0204】実施例13.図57はこの発明の他の実施
例による分散計算機システムの構成を示すブロック図で
あり、図において、図56と同一符号は同一または相当
な構成要素である。Example 13 57 is a block diagram showing the configuration of a distributed computer system according to another embodiment of the present invention. In the figure, the same reference numerals as those in FIG. 56 designate the same or corresponding components.
【0205】この実施例による分散計算機システムで
は、各計算機は3本のLAN401〜403に接続され
ている。分散計算機システムでは、3本のLANの内、
LAN401と402を用いて、実施例6と同様の方法
で故障検出を行う。また、残ったLAN403を用い
て、実施例1と同様な方法で故障検出を行う。In the distributed computer system according to this embodiment, each computer is connected to three LANs 401-403. In the distributed computer system, of the three LANs,
Failure detection is performed using the LANs 401 and 402 in the same manner as in the sixth embodiment. Further, using the remaining LAN 403, failure detection is performed by the same method as in the first embodiment.
【0206】これにより、請求項1から請求項16の発
明を、奇数本のLANを有する分散計算機システム一般
に適用することができる。As a result, the inventions of claims 1 to 16 can be applied to general distributed computer systems having an odd number of LANs.
【0207】実施例14.図58はこの発明の他の実施
例による分散計算機システムの構成を示すブロック図で
あり、図において、図56と同一符号は同一または相当
な構成要素である。Example 14. 58 is a block diagram showing the configuration of a distributed computer system according to another embodiment of the present invention. In the figure, the same reference numerals as those in FIG. 56 designate the same or corresponding components.
【0208】この実施例による分散計算機システムで
は、各計算機は3本のLAN401〜403に接続され
ている。分散計算機システムでは、3本のLANの内、
LAN401とLAN402、LAN403とLAN4
02を組とする。それぞれの組において、実施例6と同
様な方法で故障検出を行うが、LAN402では、それ
ぞれの組で実行される故障検出用の2つの生存信号を1
つにまとめることにより、生存信号の送信頻度を減らし
ている。In the distributed computer system according to this embodiment, each computer is connected to three LANs 401-403. In the distributed computer system, of the three LANs,
LAN401 and LAN402, LAN403 and LAN4
02 as a set. In each group, failure detection is performed by the same method as in the sixth embodiment, but in the LAN 402, two survival signals for failure detection executed in each group are set to 1
By putting them together, the transmission frequency of the survival signal is reduced.
【0209】これにより、請求項1から請求項16の発
明を、奇数本のLANを有する分散計算機システム一般
に適用することができる。Thus, the inventions of claims 1 to 16 can be applied to general distributed computer systems having an odd number of LANs.
【0210】[0210]
【発明の効果】以上のように、請求項1の発明によれ
ば、複数の計算機を仮想的な仮想リング上に配置する仮
想配置ステップと、各計算機が、仮想リング上の特定の
方向に隣接する計算機に対して、自分自身の生存を示す
生存信号を定期的に送信する生存信号送信ステップと、
各計算機が、仮想リング上の隣接する計算機から送信さ
れた生存信号を定期的に受信したか否かを調べ、受信し
ない場合、生存信号の送信に使用される通信路に異常が
発生したと判断し、故障箇所を特定する故障検出ステッ
プと、各計算機が、発見した故障に関する故障情報を、
通信し得る全ての計算機に通知する故障通知ステップと
を実行するように構成したので、平常時に、分散計算機
システムを構成する計算機、通信インターフェースまた
はケーブルの故障発見のために交換される生存信号の数
を最小にできる効果がある。また、各計算機が、自分自
身の担当範囲内で発見された故障の情報を、他の計算機
に通知することにより、たすきがけ故障が発生しても、
各計算機がシステム全体の稼働情報を得ることができる
効果がある。As described above, according to the invention of claim 1, the virtual placement step of placing a plurality of computers on a virtual virtual ring, and each computer is adjacent in a specific direction on the virtual ring. A survival signal transmitting step of periodically transmitting a survival signal indicating the survival of oneself to the computer
Each computer periodically checks whether or not it has received the survival signal transmitted from the adjacent computer on the virtual ring. If not, it is determined that an error has occurred in the communication path used to transmit the survival signal. Then, the failure detection step of identifying the failure location and failure information regarding the failure discovered by each computer are
Since it is configured to execute the failure notification step of notifying all computers that can communicate, the number of surviving signals exchanged during normal times to detect the failure of the computers, communication interfaces or cables that make up the distributed computer system. There is an effect that can minimize. In addition, each computer notifies other computers of the information of the fault found within its own range, so that even if a plow failure occurs,
There is an effect that each computer can obtain operation information of the entire system.
【0211】請求項2の発明によれば、計算機が定期的
に生存信号を送信する生存信号送信ステップにおいて、
定期的なタイミング毎に仮想リング上で交互に切り替え
て右隣または左隣の計算機へと生存信号を送信するよう
に構成したので、故障発生時にも最小限の通信量で、分
散計算機システムを構成する計算機、通信インターフェ
ースまたはケーブルの故障を発見でき、平常時及び異常
発生時に交換される生存信号の数を最小にできる効果が
ある。According to the invention of claim 2, in the live signal transmitting step in which the computer regularly transmits the live signal,
The distributed computer system is configured with a minimum amount of communication even when a failure occurs, because it is configured to switch alternately on the virtual ring at regular timings and send a survival signal to the computer to the right or left. There is an effect that a failure of a computer, a communication interface or a cable that operates can be detected, and the number of surviving signals exchanged in normal times and when an abnormality occurs can be minimized.
【0212】請求項3の発明によれば、生存信号送信ス
テップにおいて、計算機が受信予定の生存信号を所定の
時間内に受信したか否かを、送信する生存信号に書き込
み送信するように構成したので、平常時に、最小限の生
存信号の送受信を行うことにより、分散計算機システム
を構成する計算機、通信インターフェースまたはケーブ
ルの故障を検出することができ、平常時及び異常発生時
に交換される生存信号の数を最小にできる効果がある。According to the invention of claim 3, in the survival signal transmitting step, whether or not the computer has received the survival signal to be received within a predetermined time is written in the survival signal to be transmitted and transmitted. Therefore, by sending and receiving the minimum survival signal during normal times, it is possible to detect failures in the computers, communication interfaces, or cables that make up the distributed computer system, and to detect the survival signals that are exchanged during normal times and when an error occurs. This has the effect of minimizing the number.
【0213】請求項4の発明によれば、各計算機を節点
とし各節点が2つ以上の子節点を有する仮想的な仮想ツ
リー上に配置する仮想配置ステップと、各計算機が、仮
想ツリー上で親節点に位置する親計算機に対して、生存
信号を定期的に送信する生存信号送信ステップと、各計
算機が、仮想ツリー上で子節点に位置する子計算機から
の生存信号を受信したか否かを調べ、その結果を組み合
わせて故障箇所を特定する故障検出ステップと、各計算
機が、発見した故障に関する情報を、通信し得る全ての
計算機に通知する故障通知ステップとを実行するように
構成したので、故障発生時にも最小限の通信量で、分散
計算機システムを構成する計算機、通信インターフェー
スまたはケーブルの故障を検出することができ故障を発
見でき、平常時及び異常発生時に交換される生存信号の
数を最小にできる効果がある。According to the invention of claim 4, a virtual arranging step of arranging each computer on a virtual virtual tree having each node as a node and having two or more child nodes, and each computer on the virtual tree Survival signal transmission step that periodically transmits a survival signal to the parent computer located at the parent node, and whether or not each computer has received the survival signal from the child computer located at the child node on the virtual tree. And the failure detection step of identifying the failure location by combining the results, and the failure notification step of notifying each computer of the information about the found failure to all computers with which it can communicate. Even when a failure occurs, the failure of the computer, communication interface or cable that constitutes the distributed computer system can be detected and the failure can be found with a minimum amount of communication. There is an effect of minimizing the number of viable signals exchanged when an abnormality occurs.
【0214】請求項5の発明によれば、計算機をM個の
グループに分割し、各グループごとに1台の計算機を代
表計算機とし、M個の代表計算機を、仮想的な仮想リン
グ上に配置する仮想配置ステップと、代表計算機以外の
計算機が、計算機の属するグループの代表計算機に生存
信号を定期的に送信する第1の生存信号送信ステップ
と、各代表計算機が、仮想リング上で特定の方向に隣接
する計算機に生存信号を定期的に送信する第2の生存信
号送信ステップと、各代表計算機が、代表計算機に送信
される生存信号を受信したか否かを調べ、その結果を組
み合わせて故障箇所を特定する故障検出ステップと、各
代表計算機が、発見した故障に関する情報を、通信し得
る全ての計算機に通知する故障通知ステップとを実行す
るように構成したので、故障発生時にも最小限の通信量
で、分散計算機システムを構成する計算機、通信インタ
ーフェースまたはケーブルの故障を検出することができ
故障を発見でき、平常時及び異常発生時に交換される生
存信号の数を最小にできる効果がある。According to the invention of claim 5, the computer is divided into M groups, one computer is set as a representative computer in each group, and the M representative computers are arranged on a virtual virtual ring. Virtual allocation step, a first survival signal transmission step in which a computer other than the representative computer periodically transmits a survival signal to the representative computer of the group to which the computer belongs, and each representative computer has a specific direction on the virtual ring. The second survival signal transmitting step for periodically transmitting the survival signal to the adjacent computer, and whether or not each representative computer has received the survival signal transmitted to the representative computer, and combines the results to determine the failure. Each representative computer is configured to execute a failure detection step of identifying a location and a failure notification step of notifying all computers that can communicate of information regarding the found failure. The number of surviving signals exchanged during normal times and in the event of an abnormality can be detected with a minimum amount of communication even when a failure occurs, the failure of the computer, communication interface or cable that constitutes the distributed computer system can be detected. There is an effect that can minimize.
【0215】請求項6の発明によれば、複数の計算機を
仮想的な仮想リング上に配置する仮想配置ステップと、
各計算機を仮想リング上での特定の計算機から特定の方
向における順番によって、偶数番目、奇数番目に分ける
際、奇数番目の計算機が、第1のLANを介して仮想リ
ング上の隣接する計算機に定期的に生存信号を送信し、
偶数番目の計算機が、第2のLANを介して仮想リング
上の隣接する計算機に定期的に生存信号を送信する生存
信号送信ステップと、各計算機が、該計算機に送信され
る生存信号を受信したか否かを調べ、その結果を組み合
わせて故障箇所を特定する故障検出ステップと、各計算
機が、発見した故障に関する情報を、通信し得る全ての
計算機に通知する故障通知ステップとを実行するように
構成したので、平常時に、最小限の生存信号の送受信を
行うことにより、分散計算機システムを構成する計算
機、通信インターフェースまたはケーブルの故障を検出
することができ、故障発見のために交換される生存信号
の数を最小にできる効果がある。According to the invention of claim 6, a virtual arranging step of arranging a plurality of computers on a virtual virtual ring,
When dividing each computer into an even number and an odd number according to the order in a specific direction from a specific computer on the virtual ring, the odd numbered computer regularly sends to the adjacent computer on the virtual ring via the first LAN. To send a survival signal,
Survival signal transmission step in which the even-numbered computer periodically transmits the survival signal to the adjacent computer on the virtual ring via the second LAN, and each computer receives the survival signal transmitted to the computer. Whether or not the failure detection step of identifying whether or not the failure location is determined by combining the results, and the failure notification step of notifying all computers with which the computer can communicate the information regarding the discovered failure, are executed. Since it is configured, by sending and receiving the minimum survival signal during normal times, it is possible to detect failures in the computers, communication interfaces or cables that make up the distributed computer system. The effect is to minimize the number of.
【0216】請求項7の発明によれば、複数の計算機を
仮想的な仮想リング上に配置する仮想配置ステップと、
各計算機が、第1のLANを介して仮想リング上の特定
の方向に隣接した計算機に定期的に生存信号を送信する
とともに、第2のLANを介して、仮想リング上の特定
の方向とは逆の方向に隣接した計算機に定期的に生存信
号を送信する生存信号送信ステップと、各計算機が、隣
接計算機から送信される生存信号を受信したか否かを調
べ、その結果を、隣接計算機に送信する生存信号に隣接
計算機から送信された生存信号への応答として書き込む
生存信号応答ステップと、各計算機が、仮想リング上で
の両隣の計算機からの生存信号の有無と応答の内容とを
組み合わせることにより、故障箇所を特定する故障検出
ステップと、各計算機が、発見した故障に関する情報
を、通信し得る全ての計算機に通知する故障通知ステッ
プとを実行するように構成したので、平常時及び異常発
生時に交換される生存信号の数を最小にできるととも
に、1つの計算機の故障を、該故障計算機の近傍の複数
の計算機により発見が可能となり、故障発生からより短
い遅れ時間で故障を発見できる効果がある。According to the invention of claim 7, a virtual placement step of placing a plurality of computers on a virtual virtual ring,
Each computer periodically transmits a survival signal to a computer adjacent to a specific direction on the virtual ring via the first LAN, and the specific direction on the virtual ring via the second LAN. Survival signal transmission step to periodically transmit the survival signal to the adjacent computer in the opposite direction, and check whether each computer has received the survival signal transmitted from the adjacent computer, and the result is sent to the adjacent computer. Combining the survival signal response step to write in the survival signal to be transmitted as a response to the survival signal transmitted from the adjacent computer, and the presence or absence of the survival signal from the computers on both sides on the virtual ring and the content of the response To execute the failure detection step of identifying the failure location and the failure notification step of notifying all computers with which the computer can communicate the information about the discovered failure. Since the configuration is adopted, the number of surviving signals exchanged in normal times and in the occurrence of an abnormality can be minimized, and a failure of one computer can be found by a plurality of computers in the vicinity of the failure computer, resulting in a shorter failure time. There is an effect that a failure can be found in the delay time.
【0217】請求項8の発明によれば、各計算機は、隣
接する計算機に定期的な生存信号を送信する生存信号送
信ステップにおいて、隣接する計算機から送信された生
存信号に対する応答とともに、隣接する計算機とは異な
るもう一方の隣接する計算機からの応答をコピーしたも
のも書き込むように構成したので、平常時及び異常発生
時に交換される生存信号の数を最小にできるとともに、
1つの計算機の故障を、該故障計算機の近傍の複数の計
算機により発見が可能となり、故障発生からより短い遅
れ時間で故障を発見できる効果がある。According to the invention of claim 8, each computer has a response to the survival signal transmitted from the adjacent computer in the survival signal transmitting step of transmitting a periodic survival signal to the adjacent computer and the adjacent computer. Since it is configured to write a copy of the response from the other adjacent computer that is different from, it is possible to minimize the number of surviving signals exchanged in normal times and during an abnormality, and
A failure of one computer can be found by a plurality of computers near the failure computer, and there is an effect that the failure can be found with a shorter delay time from the occurrence of the failure.
【0218】請求項9の発明によれば、複数の計算機を
仮想的な仮想リング上に配置する仮想配置ステップと、
各計算機を、仮想リング上での特定の計算機から特定の
方向における順番によって、偶数番目、奇数番目に分け
る際、奇数番目の計算機が、第1のLANを介して仮想
リング上の両隣の計算機に定期的に生存信号を送信し、
偶数番目の計算機が、第2のLANを介して仮想リング
上の両隣の計算機に定期的に生存信号を送信する生存信
号送信ステップと、各計算機が、第1または第2のLA
Nを介して、両隣から送信される生存信号を受信したか
否かを調べ、その結果を組み合わせることにより故障箇
所を特定する故障検出ステップと、各計算機が、発見し
た故障に関する情報を、通信し得る全ての計算機に通知
する故障通知ステップとを実行するように構成したの
で、平常時及び異常発生時に交換される生存信号の数を
最小にできるとともに、1つの計算機の故障を、該故障
計算機の近傍の複数の計算機により発見が可能となり、
故障発生からより短い遅れ時間で故障を発見できる効果
がある。According to the invention of claim 9, a virtual arrangement step of arranging a plurality of computers on a virtual virtual ring,
When dividing each computer into an even number and an odd number according to the order in a specific direction from a specific computer on the virtual ring, the odd numbered computers become the adjacent computers on both sides of the virtual ring via the first LAN. Send a survival signal regularly,
An even-numbered computer periodically transmits a survival signal to adjacent computers on both sides of the virtual ring via the second LAN, and each computer has a first or second LA.
A failure detection step of checking whether or not a survival signal transmitted from both sides is received via N and specifying the failure location by combining the results, and each computer communicates information on the discovered failure. Since it is configured to execute the failure notification step of notifying all the obtained computers, it is possible to minimize the number of surviving signals exchanged at normal times and at the time of occurrence of an abnormality, and at the same time the failure of one computer Discovered by multiple computers in the vicinity,
There is an effect that a failure can be found with a shorter delay time from the occurrence of the failure.
【0219】請求項10の発明によれば、複数の計算機
を仮想的な仮想リング上に配置する仮想配置ステップ
と、各計算機を、3台ずつの複数のグループに分割し、
各グループにおいて、第1の計算機が、第2の計算機に
第1のLANを介して定期的に生存信号を送信するとと
もに、第3の計算機に第2のLANを介して定期的に生
存信号を送信する生存信号送信ステップと、各グループ
において、第2の計算機が、第1の計算機からの生存信
号を受信したか否かを調べ、その結果を、第3の計算機
に第2のLANを介して定期的に送信する生存信号に書
き込む第1の生存信号応答ステップと、第3の計算機
が、第1の計算機からの生存信号を受信したか否かを調
べ、その結果を、第2の計算機に第1のLANを介して
定期的に送信する生存信号に書き込む第2の生存信号応
答ステップと、第2の計算機が、第1及び第3の計算機
から送信される生存信号の有無と内容を調べ、それらの
結果を組み合わせることにより、故障箇所を特定する第
1の故障検出ステップと、第3の計算機が、第1及び第
2の計算機から送信される生存信号の有無と内容を調
べ、それらの結果を組み合わせることにより、故障箇所
を特定する第2の故障検出ステップと、各計算機が、発
見した故障に関する情報を、通信し得る全ての計算機に
通知する故障通知ステップとを実行するように構成した
ので、平常時及び異常発生時に交換される生存信号の数
を最小にできるとともに、1つの計算機の故障を、該故
障計算機の近傍の複数の計算機により発見が可能とな
り、故障発生からより短い遅れ時間で故障を発見できる
効果がある。According to the tenth aspect of the invention, a virtual placement step of placing a plurality of computers on a virtual virtual ring, and dividing each computer into a plurality of groups of three,
In each group, the first computer periodically sends the survival signal to the second computer via the first LAN, and at the same time sends the survival signal to the third computer via the second LAN. The survival signal transmitting step of transmitting, and in each group, it is checked whether the second computer has received the survival signal from the first computer, and the result is transmitted to the third computer via the second LAN. First survival signal response step of writing to the survival signal to be periodically transmitted by the third computer, and whether or not the third computer has received the survival signal from the first computer, and the result is used by the second computer. A second liveness signal response step for writing in a liveness signal to be periodically transmitted via the first LAN, and the presence / absence and contents of the liveness signal transmitted from the first and third computers by the second computer. Examine and combine those results According to the first failure detection step of identifying the failure location, the third computer checks the existence and contents of the survival signal transmitted from the first and second computers, and combines the results, Since the second failure detection step of identifying the failure point and the failure notification step of notifying each computer of the information about the found failure to all computers with which the computer can communicate are executed in normal times and abnormalities. The effect that the number of surviving signals exchanged at the time of occurrence can be minimized, and the failure of one computer can be found by multiple computers near the failed computer, and the failure can be found in a shorter delay time from the occurrence of the failure. There is.
【0220】請求項11の発明によれば、故障発生時
に、各計算機の仮想的な配置を新たに設定し直す再配置
ステップをさらに実行するように構成したので、故障発
生時、故障計算機の復旧時、または新しい計算機の増設
時に、各計算機の送信先を変化させ、システムの構成変
化が生じてもそれ以前と同様な故障検出能力を維持する
ことができる効果がある。According to the eleventh aspect of the present invention, when the failure occurs, the rearrangement step for resetting the virtual arrangement of each computer is further executed. Therefore, when the failure occurs, the failure computer is restored. At the same time, or when a new computer is added, the transmission destination of each computer can be changed, and even if the system configuration changes, the same failure detection capability as before can be maintained.
【0221】請求項12の発明によれば、故障発生時
に、各計算機の仮想的な配置を新たに設定し直す再配置
ステップをさらに実行するように構成したので、故障発
生時、故障計算機の復旧時、または新しい計算機の増設
時に、各計算機の送信先を変化させ、システムの構成変
化が生じてもそれ以前と同様な故障検出能力を維持する
ことができる効果がある。According to the twelfth aspect of the present invention, when the failure occurs, the relocation step for resetting the virtual placement of each computer is further executed. Therefore, when the failure occurs, the failure computer is restored. At the same time, or when a new computer is added, the transmission destination of each computer can be changed, and even if the system configuration changes, the same failure detection capability as before can be maintained.
【0222】請求項13の発明によれば、故障発生時
に、各計算機の仮想的な配置を新たに設定し直す再配置
ステップをさらに実行するように構成したので、故障発
生時、故障計算機の復旧時、または新しい計算機の増設
時に、各計算機の送信先を変化させ、システムの構成変
化が生じてもそれ以前と同様な故障検出能力を維持する
ことができる効果がある。According to the thirteenth aspect of the present invention, when a failure occurs, the rearrangement step for resetting the virtual arrangement of each computer is further executed. Therefore, when a failure occurs, the failure computer is restored. At the same time, or when a new computer is added, the transmission destination of each computer can be changed, and even if the system configuration changes, the same failure detection capability as before can be maintained.
【0223】請求項14の発明によれば、故障発生時
に、各計算機の仮想的な配置を新たに設定し直す再配置
ステップをさらに実行するように構成したので、故障発
生時、故障計算機の復旧時、または新しい計算機の増設
時に、各計算機の送信先を変化させ、システムの構成変
化が生じてもそれ以前と同様な故障検出能力を維持する
ことができる効果がある。According to the fourteenth aspect of the present invention, when a failure occurs, the rearrangement step for resetting the virtual arrangement of each computer is further executed. Therefore, when the failure occurs, the failure computer is restored. At the same time, or when a new computer is added, the transmission destination of each computer can be changed, and even if the system configuration changes, the same failure detection capability as before can be maintained.
【0224】請求項15の発明によれば、検出された故
障情報を隣接計算機に通知する故障通知ステップにおい
て、生存信号に故障情報を付加して生存信号を送信する
ことにより故障を通知するように構成したので、通知の
ために余分な信号を送信する必要がなく、LANにかか
る負荷を小さくすることができる効果がある。According to the fifteenth aspect of the invention, in the failure notifying step of notifying the adjacent computer of the detected failure information, the failure information is added to the survival signal and the failure signal is notified by transmitting the survival signal. Since it is configured, it is not necessary to transmit an extra signal for notification, and the load on the LAN can be reduced.
【0225】請求項16の発明によれば、検出された故
障情報を隣接計算機に通知する故障通知ステップにおい
て、生存信号に故障情報を付加して生存信号を送信する
ことにより故障を通知するように構成したので、通知の
ために余分な信号を送信する必要がなく、LANにかか
る負荷を小さくすることができる効果がある。According to the sixteenth aspect of the present invention, in the failure notifying step of notifying the adjacent computer of the detected failure information, the failure information is added by adding the failure information to the survival signal to notify the failure. Since it is configured, it is not necessary to transmit an extra signal for notification, and the load on the LAN can be reduced.
【0226】請求項17の発明によれば、2N本のLA
Nにより接続された、複数の計算機からなる分散システ
ムにおいて、LANを2本ずつペアにし、各ペアごとに
請求項6から請求項10、請求項12、請求項14、請
求項16の故障検出方法のうちのいずれかを用いるよう
に構成したので、任意の本数のLANを持つシステム
に、上記発明を適用可能とすることができる効果があ
る。According to the invention of claim 17, 2N LAs are included.
In a distributed system consisting of a plurality of computers connected by N, two LANs are paired, and the failure detection method according to claim 6 to claim 12, claim 14, claim 14 and claim 16 for each pair. Since any one of the above is used, there is an effect that the above invention can be applied to a system having an arbitrary number of LANs.
【0227】請求項18の発明によれば、(2N+1)
本のLANにより接続された、複数の計算機からなる分
散システムにおいて、LANを2本ずつペアにし、各ペ
アごとに請求項6から請求項10、請求項12、請求項
14、請求項16の故障検出方法のうちのいずれかを用
い、余った1本については、請求項1から請求項5、請
求項11、請求項13、請求項15の故障検出方法のう
ちのいずれかを用いるように構成したので、任意の本数
のLANを持つシステムに上記発明を適用可能とするこ
とができる効果がある。According to the eighteenth invention, (2N + 1)
In a distributed system consisting of a plurality of computers connected by two LANs, two LANs are paired, and each pair has a failure according to claim 6, claim 12, claim 14, or claim 16. Any one of the detection methods is used, and the remaining one is configured to use any one of the failure detection methods of claims 1 to 5, claim 11, claim 13, and claim 15. Therefore, there is an effect that the above invention can be applied to a system having an arbitrary number of LANs.
【0228】請求項19の発明によれば、(2N+1)
本のLANにより接続された、複数の計算機からなる分
散システムにおいて、LANを2本ずつペアにし、(2
N+1)本目のLANといずれかのLANによりさらに
1つのペアを作り、各ペアごとに請求項6から請求項1
0、請求項12、請求項14、請求項16の故障検出方
法のうちのいずれかを用いるように構成したので、任意
の本数のLANを持つシステムに、上記発明を適用可能
とすることができる効果がある。According to the invention of claim 19, (2N + 1)
In a distributed system consisting of multiple computers connected by two LANs, two LANs are paired, and (2
N + 1) One LAN and one of the LANs further form one pair, and each pair forms claim 6 to claim 1.
Since any one of the 0, claim 12, claim 14, and claim 16 failure detection methods is used, the invention can be applied to a system having an arbitrary number of LANs. effective.
【0229】請求項20の発明によれば、2つのペアで
共有されているLANにおいて、それぞれのペアにおい
て送信される生存信号を1つにまとめるように構成した
ので、交換される生存信号の数を少なくすることができ
る効果がある。According to the twentieth aspect of the invention, in the LAN shared by two pairs, the survival signals transmitted in each pair are combined into one, so that the number of exchanged survival signals is increased. There is an effect that can be reduced.
【0230】請求項21の発明によれば、仮想配置ステ
ップにおいて、相互に通信する頻度の高い計算機を、仮
想的な配置において近接に配置するように構成したの
で、故障発生が本来の業務に及ぼす影響を少なくするこ
とができる効果がある。According to the twenty-first aspect of the invention, in the virtual arrangement step, the computers that frequently communicate with each other are arranged close to each other in the virtual arrangement, so that the occurrence of a failure affects the original work. There is an effect that the influence can be reduced.
【0231】請求項22の発明によれば、仮想配置ステ
ップにおいて、信頼性の高い計算機と信頼性の低い計算
機を、仮想的な配置において交互に並べるように構成し
たので、故障検出の必要性の高い計算機の故障を確実に
検出することができる効果がある。According to the twenty-second aspect of the invention, in the virtual arrangement step, the highly reliable computers and the less reliable computers are arranged alternately in the virtual arrangement. There is an effect that it is possible to reliably detect a high computer failure.
【0232】請求項23の発明によれば、仮想配置ステ
ップにおいて、信頼性の高い計算機と機能的に重要な計
算機を、仮想的な配置において交互に並べるように構成
したので、故障検出の必要性の高い計算機の故障を確実
に検出することができる効果がある。According to the twenty-third aspect of the present invention, in the virtual placement step, the highly reliable computers and the computers that are functionally important are arranged alternately in the virtual placement. There is an effect that a failure of a high-performance computer can be reliably detected.
【0233】請求項24の発明によれば、一部または全
ての生存信号について、その送信時刻または受信期限
を、各計算機が特定の生存信号を受信した時刻を基準に
して設定するように構成したので、生存信号の送信と受
信時刻の関係を、要求される故障発見の特性に合わせ
て、自由に設定することができる効果がある。According to the invention of claim 24, the transmission time or the reception deadline of some or all of the surviving signals is set on the basis of the time when each computer receives the specific surviving signal. Therefore, there is an effect that the relationship between the transmission and reception time of the survival signal can be freely set in accordance with the required characteristic of failure detection.
【図1】 この発明の一実施例による分散計算機システ
ムの物理的な構成を示したブロック図である。FIG. 1 is a block diagram showing a physical configuration of a distributed computer system according to an embodiment of the present invention.
【図2】 図1に示した分散計算機システムにおける仮
想的な仮想リング上に配置された計算機を示す図であ
る。2 is a diagram showing computers arranged on a virtual virtual ring in the distributed computer system shown in FIG.
【図3】 図1に示した分散計算機システムにおける故
障検出方法の動作を説明するためのフローチャートであ
る。FIG. 3 is a flow chart for explaining the operation of the failure detection method in the distributed computer system shown in FIG.
【図4】 図1に示した分散計算機システムにおける故
障検出方法を行うための、各計算機の生存信号の送受信
の様子を示したブロック図である。4 is a block diagram showing a state of transmission / reception of a survival signal of each computer for performing the failure detection method in the distributed computer system shown in FIG.
【図5】 図1に示した分散計算機システムにおける故
障検出方法の動作を説明するための、故障例を示した図
である。5 is a diagram showing a failure example for explaining the operation of the failure detection method in the distributed computer system shown in FIG.
【図6】 図1に示した分散計算機システムの故障検出
方法において、故障の影響を除去するために再構成を行
った後の、各計算機の生存信号の送受信の様子を示した
図である。6 is a diagram showing a state of transmission / reception of a survival signal of each computer after reconfiguration for removing the influence of the fault in the fault detecting method for the distributed computer system shown in FIG. 1;
【図7】 この発明の他の実施例による分散計算機シス
テムにおける故障検出方法の動作を説明するためのフロ
ーチャートである。FIG. 7 is a flow chart for explaining the operation of a failure detection method in a distributed computer system according to another embodiment of the present invention.
【図8】 図7に示した分散計算機システムの故障検出
方法を行うための、各計算機の生存信号の送受信の様子
を示した図である。8 is a diagram showing a state of transmission and reception of a survival signal of each computer for performing the failure detection method of the distributed computer system shown in FIG.
【図9】 図7に示した分散計算機システムの故障検出
方法の動作を説明するための、故障例を示した図であ
る。9 is a diagram showing a failure example for explaining the operation of the failure detection method of the distributed computer system shown in FIG.
【図10】 図7に示した分散計算機システムの故障検
出方法において、故障の影響を除去するために再構成を
行った後の、仮想リングを示す図である。FIG. 10 is a diagram showing a virtual ring after reconstruction is performed in order to eliminate the influence of a failure in the failure detection method for the distributed computer system shown in FIG.
【図11】 この発明の他の実施例による分散計算機シ
ステムにおける故障検出方法の動作を説明するためのフ
ローチャートである。FIG. 11 is a flow chart for explaining the operation of the failure detection method in the distributed computer system according to another embodiment of the present invention.
【図12】 図11に示した分散計算機システムの故障
検出方法を行うための、各計算機の生存信号の送受信の
様子を示した図である。FIG. 12 is a diagram showing a state of transmission / reception of a survival signal of each computer for performing the failure detection method of the distributed computer system shown in FIG. 11.
【図13】 図11に示した分散計算機システムの故障
検出方法の動作を説明するための、故障例を示した図で
ある。13 is a diagram showing a failure example for explaining the operation of the failure detection method of the distributed computer system shown in FIG.
【図14】 この発明の他の実施例による分散計算機シ
ステムの故障検出方法の動作を説明するためのフローチ
ャートである。FIG. 14 is a flow chart for explaining the operation of a failure detecting method for a distributed computer system according to another embodiment of the present invention.
【図15】 図14に示した分散計算機システムの故障
検出方法を行うために、各計算機を仮想的にツリー上に
並べた様子を示したブロック図である。15 is a block diagram showing a state in which each computer is virtually arranged on a tree in order to perform the failure detection method of the distributed computer system shown in FIG.
【図16】 図14に示した分散計算機システムの故障
検出方法を行うための、各計算機の生存信号の送受信の
様子を示した図である。16 is a diagram showing a state of transmission / reception of a survival signal of each computer for performing the failure detection method of the distributed computer system shown in FIG.
【図17】 図14に示した分散計算機システムの故障
検出方法の動作を説明するための、故障例を示した図で
ある。FIG. 17 is a diagram showing a failure example for explaining the operation of the failure detection method for the distributed computer system shown in FIG.
【図18】 図14に示した分散計算機システムの故障
検出方法において、故障の影響を除去するために再構成
を行った後の、仮想的なツリーの構成を示した図であ
る。18 is a diagram showing the configuration of a virtual tree after reconfiguration for removing the influence of a fault in the fault detection method for the distributed computer system shown in FIG.
【図19】 この発明の他の実施例による分散計算機シ
ステムの故障検出方法の動作を説明するためのフローチ
ャートである。FIG. 19 is a flow chart for explaining the operation of a failure detecting method for a distributed computer system according to another embodiment of the present invention.
【図20】 図19に示した分散計算機システムの故障
検出方法を行うために、各計算機を仮想的にチェーン上
に並べた様子を示したブロック図である。20 is a block diagram showing a state in which each computer is virtually arranged in a chain in order to perform the failure detection method of the distributed computer system shown in FIG.
【図21】 図19に示した分散計算機システムの故障
検出方法を行うための、各計算機の生存信号の送受信の
様子を示した図である。FIG. 21 is a diagram showing a state of transmission / reception of a survival signal of each computer for performing the failure detection method of the distributed computer system shown in FIG.
【図22】 図19に示した分散計算機システムの故障
検出方法の動作を説明するための、故障例を示した図で
ある。22 is a diagram showing a failure example for explaining the operation of the failure detection method for the distributed computer system shown in FIG.
【図23】 図19に示した分散計算機システムの故障
検出方法において、図22に示した故障の影響を除去す
るために再構成を行った後の仮想的なツリーの構成を示
した図である。23 is a diagram showing a configuration of a virtual tree after reconfiguration for removing the influence of the failure shown in FIG. 22 in the failure detection method for the distributed computer system shown in FIG. .
【図24】 図19に示した分散計算機システムの故障
検出方法の動作を説明するための、故障例を示した図で
ある。FIG. 24 is a diagram showing a failure example for explaining the operation of the failure detection method for the distributed computer system shown in FIG.
【図25】 図19に示した分散計算機システムの故障
検出方法において、図24に示した故障の影響を除去す
るために再構成を行った後の仮想的なツリーの構成を示
した図である。25 is a diagram showing a configuration of a virtual tree after reconfiguration in order to remove the influence of the failure shown in FIG. 24 in the failure detection method for the distributed computer system shown in FIG. .
【図26】 この発明の他の実施例による分散計算機シ
ステムの故障検出方法の動作を説明するためのフローチ
ャートである。FIG. 26 is a flow chart for explaining the operation of a failure detection method for a distributed computer system according to another embodiment of the present invention.
【図27】 図26に示した分散計算機システムの故障
検出方法が適用される分散計算機システムの物理的な構
成を示した構成図である。27 is a configuration diagram showing a physical configuration of a distributed computer system to which the failure detection method for the distributed computer system shown in FIG. 26 is applied.
【図28】 図26に示した分散計算機システムの故障
検出方法を行うための、各計算機の生存信号の送受信の
様子を示した図である。28 is a diagram showing a state of transmission / reception of a survival signal of each computer for performing the failure detection method of the distributed computer system shown in FIG. 26.
【図29】 図26に示した分散計算機システムの故障
検出方法の動作を説明するための、故障例を示したブロ
ック図である。29 is a block diagram showing a failure example for explaining the operation of the failure detection method for the distributed computer system shown in FIG.
【図30】 図26に示した分散計算機システムの故障
検出方法において、図29に示す故障の影響を除去する
ために再構成を行った後の各計算機の生存信号の送受信
の様子を示した図である。FIG. 30 is a diagram showing a state of transmission / reception of a survival signal of each computer after reconfiguration for eliminating the influence of the failure shown in FIG. 29 in the failure detection method for the distributed computer system shown in FIG. 26. Is.
【図31】 図26に示した分散計算機システムの故障
検出方法の動作を説明するための、故障例を示した図で
ある。31 is a diagram showing a failure example for explaining the operation of the failure detection method for the distributed computer system shown in FIG.
【図32】 図26に示した分散計算機システムの故障
検出方法において、図31に示す故障の影響を除去する
ために再構成を行った後の、各計算機の生存信号の送受
信の様子を示した図である。32 shows a state of transmission / reception of a survival signal of each computer after reconfiguration for eliminating the influence of the fault shown in FIG. 31 in the fault detection method for the distributed computer system shown in FIG. It is a figure.
【図33】 この発明の他の実施例による分散計算機シ
ステムの故障検出方法の動作を説明するためのフローチ
ャートである。FIG. 33 is a flow chart for explaining the operation of a failure detection method for a distributed computer system according to another embodiment of the present invention.
【図34】 図33に示した分散計算機システムの故障
検出方法を行うための、各計算機の生存信号の送受信の
様子を示した図である。FIG. 34 is a diagram showing a state of transmission / reception of a survival signal of each computer for performing the failure detection method of the distributed computer system shown in FIG. 33.
【図35】 図33に示した分散計算機システムの故障
検出方法において、ある計算機が受信した生存信号の内
容と、故障の存在し得る範囲の関係を示した表図であ
る。FIG. 35 is a table showing the relationship between the content of a live signal received by a computer and the possible range of a fault in the fault detection method for the distributed computer system shown in FIG. 33.
【図36】 図33に示した分散計算機システムの故障
検出方法において、ある計算機が、両隣の計算機から受
信した生存信号の内容と、故障の存在し得る範囲の関係
を示した表図である。FIG. 36 is a table diagram showing the relationship between the content of a live signal received by a computer from adjacent computers and the range in which a fault may exist in the fault detection method for the distributed computer system shown in FIG. 33.
【図37】 図33に示した分散計算機システムの故障
検出方法の動作を説明するための、故障例を示した図で
ある。FIG. 37 is a diagram showing a failure example for explaining the operation of the failure detection method for the distributed computer system shown in FIG. 33.
【図38】 図33に示した分散計算機システムの故障
検出方法において、図37の故障の影響を除去するため
に再構成を行った後の、各計算機の生存信号の送受信の
様子を示した図である。38 is a diagram showing a state of transmission / reception of a survival signal of each computer after reconfiguration for eliminating the influence of the fault of FIG. 37 in the fault detection method for the distributed computer system shown in FIG. 33. Is.
【図39】 この発明の他の実施例による分散計算機シ
ステムの故障検出方法の動作を説明するためのブロック
図である。FIG. 39 is a block diagram for explaining the operation of the failure detecting method for the distributed computer system according to another embodiment of the present invention.
【図40】 図39に示した分散計算機システムの故障
検出方法において、ある計算機が、隣の計算機から受信
した生存信号の内容と、故障の存在し得る範囲の関係を
示した表図である。40 is a table showing the relationship between the content of a live signal received by a computer from an adjacent computer and the range in which a fault may exist in the fault detection method for the distributed computer system shown in FIG. 39.
【図41】 図39に示した分散計算機システムの故障
検出方法の動作を説明するための、故障例を示した図で
ある。FIG. 41 is a diagram showing a failure example for explaining the operation of the failure detection method for the distributed computer system shown in FIG. 39.
【図42】 この発明の他の実施例による分散計算機シ
ステムの故障検出方法の動作を説明するためのフローチ
ャートである。FIG. 42 is a flow chart for explaining the operation of a failure detecting method for a distributed computer system according to another embodiment of the present invention.
【図43】 図42に示した分散計算機システムの故障
検出方法を行うための、各計算機の生存信号の送受信の
様子を示したブロック図である。43 is a block diagram showing a state of transmission / reception of a survival signal of each computer for performing the failure detection method of the distributed computer system shown in FIG. 42.
【図44】 図42に示した分散計算機システムの故障
検出方法の動作を説明するための、故障例を示した図で
ある。FIG. 44 is a diagram showing a failure example for explaining the operation of the failure detection method for the distributed computer system shown in FIG. 42.
【図45】 図42に示した分散計算機システムの故障
検出方法の動作を説明するための、故障例を示した図で
ある。45 is a diagram showing a failure example for explaining the operation of the failure detection method for the distributed computer system shown in FIG. 42.
【図46】 図42に示した分散計算機システムの故障
検出方法において、図44の故障の影響を除去するため
に再構成を行った後の各計算機の生存信号の送受信の様
子を示した図である。FIG. 46 is a diagram showing a state of transmission / reception of a survival signal of each computer after reconfiguration for eliminating the influence of the failure of FIG. 44 in the failure detection method of the distributed computer system shown in FIG. 42. is there.
【図47】 図42に示した分散計算機システムの故障
検出方法において、図45の故障の影響を除去するため
に再構成を行った後の各計算機の生存信号の送受信の様
子を示した図である。47 is a diagram showing a state of transmission / reception of a survival signal of each computer after reconfiguration for eliminating the influence of the failure of FIG. 45 in the failure detection method of the distributed computer system shown in FIG. 42. is there.
【図48】 この発明の他の実施例による分散計算機シ
ステムの故障検出方法の動作を説明するためのフローチ
ャートである。FIG. 48 is a flow chart for explaining the operation of a failure detecting method for a distributed computer system according to another embodiment of the present invention.
【図49】 図48に示した分散計算機システムの故障
検出方法を行うための、各計算機の生存信号の送受信の
様子を示した図である。FIG. 49 is a diagram showing a state of transmission / reception of a survival signal of each computer for performing the failure detection method of the distributed computer system shown in FIG. 48.
【図50】 図48に示した分散計算機システムの故障
検出方法において、ある計算機が、受信した生存信号の
組み合わせと、故障の存在し得る範囲の関係を示した表
図である。50 is a table showing the relationship between the combination of survival signals received by a computer and the range in which a fault may exist in the fault detection method for the distributed computer system shown in FIG. 48.
【図51】 図48に示した分散計算機システムの故障
検出方法の動作を説明するための、故障例を示した図で
ある。51 is a diagram showing a failure example for explaining the operation of the failure detection method for the distributed computer system shown in FIG. 48.
【図52】 図48に示した分散計算機システムの故障
検出方法の動作を説明するための、故障例を示した図で
ある。52 is a diagram showing a failure example for explaining the operation of the failure detection method for the distributed computer system shown in FIG. 48.
【図53】 図48に示した分散計算機システムの故障
検出方法の動作を説明するための、故障例を示した図で
ある。FIG. 53 is a diagram showing a failure example for explaining the operation of the failure detection method for the distributed computer system shown in FIG. 48.
【図54】 図48に示した分散計算機システムの故障
検出方法の動作を説明するための、故障例を示した図で
ある。FIG. 54 is a diagram showing a failure example for explaining the operation of the failure detection method for the distributed computer system shown in FIG. 48.
【図55】 図48に示した分散計算機システムの故障
検出方法において、図54の故障の影響を除去するため
に再構成を行った後の、各計算機の生存信号の送受信の
様子を示した図である。55 is a diagram showing a state of transmission / reception of a survival signal of each computer after reconfiguration for eliminating the influence of the fault of FIG. 54 in the fault detection method of the distributed computer system shown in FIG. 48. Is.
【図56】 この発明の他の実施例による分散計算機シ
ステムの故障検出方法を行うための、各計算機の生存信
号の送受信の様子を示した図である。FIG. 56 is a diagram showing a state of transmission / reception of a survival signal of each computer for performing the failure detection method of the distributed computer system according to another embodiment of the present invention.
【図57】 この発明の他の実施例による分散計算機シ
ステムの故障検出方法を行うための、各計算機の生存信
号の送受信の様子を示したブロック図である。FIG. 57 is a block diagram showing a state of transmission / reception of a survival signal of each computer for performing a failure detection method for a distributed computer system according to another embodiment of the present invention.
【図58】 この発明の他の実施例による分散計算機シ
ステムの故障検出方法を行うための、各計算機の生存信
号の送受信の様子を示したブロック図である。FIG. 58 is a block diagram showing a state of transmission / reception of a survival signal of each computer for performing a failure detection method for a distributed computer system according to another embodiment of the present invention.
【図59】 従来の分散計算機システムの故障検出方法
の概略を示すブロック図である。FIG. 59 is a block diagram showing an outline of a conventional fault detection method for a distributed computer system.
【図60】 従来の多重化LANを備えた分散計算機シ
ステムにおける、たすきがけ故障を示した図である。FIG. 60 is a diagram showing a strike failure in a conventional distributed computer system having a multiplexed LAN.
10 仮想リング、101〜104 計算機、401〜
404 LAN(ローカルエリアネットワーク)、10
01,1002 グループ。10 virtual rings, 101-104 computers, 401-
404 LAN (Local Area Network), 10
01,1002 groups.
Claims (24)
ワークを介して互いに接続された複数の計算機を含む分
散計算機システムの故障検出方法において、前記複数の
計算機を仮想的な仮想リング上に配置する仮想配置ステ
ップと、各計算機が、前記仮想リング上の特定の方向に
隣接する計算機に対して、自分自身の生存を示す生存信
号を定期的に送信する生存信号送信ステップと、各計算
機が、前記仮想リング上の隣接する計算機から送信され
た生存信号を定期的に受信したか否かを調べ、受信しな
い場合、生存信号の送信に使用される通信路に異常が発
生したと判断し、故障箇所を特定する故障検出ステップ
と、各計算機が、発見した故障に関する故障情報を、通
信し得る全ての計算機に通知する故障通知ステップとを
実行することを特徴とする分散計算機システムの故障検
出方法。1. A failure detection method for a distributed computer system including a plurality of computers connected to each other via at least one local area network, the virtual placement step of placing the plurality of computers on a virtual virtual ring. , A survival signal transmitting step of periodically transmitting a survival signal indicating the survival of itself to a computer adjacent in a specific direction on the virtual ring, and each computer on the virtual ring. Check whether the survival signal transmitted from the adjacent computer is regularly received, and if not, determine that an abnormality has occurred in the communication path used to transmit the survival signal, and identify the failure point. A detection step and a failure notification step in which each computer notifies failure information related to the found failure to all computers with which it can communicate. A method for detecting failures in distributed computer systems.
タイミング毎に前記仮想リング上で交互に切り替えて右
隣または左隣の計算機に生存信号を送信することを特徴
とする請求項1に記載の分散計算機システムの故障検出
方法。2. The survival signal transmitting step transmits the survival signal to the computer adjacent on the right side or the left side by alternately switching on the virtual ring at regular timings. Detection method for distributed computer systems in Japan.
算機が受信予定の生存信号を所定の時間内に受信したか
否かを、送信する生存信号に書き込み送信することを特
徴とする請求項1または請求項2に記載の分散計算機シ
ステムの故障検出方法。3. The survival signal transmitting step writes and transmits to a survival signal to be transmitted whether or not the computer has received the survival signal to be received within a predetermined time. Item 2. A failure detection method for a distributed computer system according to item 2.
ワークを介して互いに接続された複数の計算機を含む分
散計算機システムの故障検出方法において、各計算機を
節点とし各節点が2つ以上の子節点を有する仮想的な仮
想ツリー上に配置する仮想配置ステップと、各計算機
が、前記仮想ツリー上で親節点に位置する親計算機に対
して、生存信号を定期的に送信する生存信号送信ステッ
プと、各計算機が、前記仮想ツリー上で子節点に位置す
る子計算機からの生存信号を受信したか否かを調べ、そ
の結果を組み合わせて故障箇所を特定する故障検出ステ
ップと、各計算機が、発見した故障に関する情報を、通
信し得る全ての計算機に通知する故障通知ステップとを
実行することを特徴とする分散計算機システムの故障検
出方法。4. A failure detection method for a distributed computer system including a plurality of computers connected to each other through at least one local area network, wherein each computer has a node and each node has two or more child nodes. Virtual placement step to place on a virtual tree, each computer, to the parent computer located at the parent node on the virtual tree, a survival signal transmission step of periodically transmitting a survival signal, each computer, It is checked whether or not a survival signal from a child computer located at a child node on the virtual tree is received, and a failure detection step of identifying a failure location by combining the results, and each computer provides information on the found failure. , A failure notification step of notifying all computers with which communication is possible, a failure detection method for a distributed computer system.
ワークを介して互いに接続された複数の計算機を含む分
散計算機システムの故障検出方法において、計算機をM
個のグループに分割し、各グループごとに1台の計算機
を代表計算機とし、M個の代表計算機を、仮想的な仮想
リング上に配置する仮想配置ステップと、代表計算機以
外の計算機が、該計算機の属するグループの代表計算機
に生存信号を定期的に送信する第1の生存信号送信ステ
ップと、各代表計算機が、仮想リング上で特定の方向に
隣接する計算機に生存信号を定期的に送信する第2の生
存信号送信ステップと、各代表計算機が、該計算機に送
信される生存信号を受信したか否かを調べ、その結果を
組み合わせて故障箇所を特定する故障検出ステップと、
各代表計算機が、発見した故障に関する情報を、通信し
得る全ての計算機に通知する故障通知ステップとを実行
することを特徴とする分散計算機システムの故障検出方
法。5. A failure detection method for a distributed computer system including a plurality of computers connected to each other via at least one local area network, wherein M is a computer.
Into a group, one computer for each group is used as a representative computer, and M representative computers are arranged on a virtual virtual ring. A first survival signal transmitting step of periodically transmitting a survival signal to a representative computer of a group to which each of the groups belongs, and each representative computer periodically transmitting a survival signal to a computer adjacent in a specific direction on the virtual ring. A survival signal transmission step 2 and a failure detection step of checking whether or not each representative computer has received the survival signal transmitted to the computer and combining the results to identify a failure location;
A failure detection method for a distributed computer system, wherein each representative computer executes a failure notification step of notifying all computers with which it can communicate of information about the discovered failure.
ークを介して互いに接続された複数の計算機を含む分散
計算機システムの故障検出方法において、前記複数の計
算機を仮想的な仮想リング上に配置する仮想配置ステッ
プと、各計算機を前記仮想リング上での特定の計算機か
ら特定の方向における順番によって、偶数番目、奇数番
目に分ける際、奇数番目の計算機が、第1のローカルエ
リアネットワークを介して前記仮想リング上の隣接する
計算機に定期的に生存信号を送信し、偶数番目の計算機
が、第2のローカルエリアネットワークを介して前記仮
想リング上の隣接する計算機に定期的に生存信号を送信
する生存信号送信ステップと、各計算機が、該計算機に
送信される生存信号を受信したか否かを調べ、その結果
に基づき故障箇所を特定する故障検出ステップと、各計
算機が、発見した故障に関する情報を、通信し得る全て
の計算機に通知する故障通知ステップとを実行すること
を特徴とする分散計算機システムの故障検出方法。6. A failure detection method for a distributed computer system including a plurality of computers connected to each other via first and second local area networks, wherein the plurality of computers are arranged on a virtual virtual ring. According to the arranging step and dividing each computer into an even number and an odd number according to an order in a specific direction from a specific computer on the virtual ring, an odd number computer may be the virtual computer via the first local area network. Survival signal that periodically transmits a survival signal to an adjacent computer on the ring, and an even-numbered computer that regularly transmits the survival signal to an adjacent computer on the virtual ring via the second local area network. The transmitting step and each computer checks whether or not the survival signal transmitted to the computer has been received, and based on the result, the failure location is identified. A failure detection method for a distributed computer system, comprising: performing a failure detection step to specify; and a failure notification step in which each computer notifies all computers with which it can communicate information about a discovered failure.
ークを介して互いに接続された複数の計算機を含む分散
計算機システムの故障検出方法において、前記複数の計
算機を仮想的な仮想リング上に配置する仮想配置ステッ
プと、各計算機が、第1のローカルエリアネットワーク
を介して前記仮想リング上の特定の方向に隣接した計算
機に定期的に生存信号を送信するとともに、第2のロー
カルエリアネットワークを介して、前記仮想リング上の
前記特定の方向とは逆の方向に隣接した計算機に定期的
に生存信号を送信する生存信号送信ステップと、各計算
機が、隣接計算機から送信される生存信号を受信したか
否かを調べ、その結果を、隣接計算機に送信する生存信
号に隣接計算機から送信された生存信号への応答として
書き込む生存信号応答ステップと、各計算機が、前記仮
想リング上での両隣の計算機からの生存信号の有無と応
答の内容とを組み合わせることにより、故障箇所を特定
する故障検出ステップと、各計算機が、発見した故障に
関する情報を、通信し得る全ての計算機に通知する故障
通知ステップとを実行することを特徴とする分散計算機
システムの故障検出方法。7. A failure detection method for a distributed computer system including a plurality of computers connected to each other via first and second local area networks, wherein the plurality of computers are arranged on a virtual virtual ring. An arranging step, in which each computer periodically transmits a survival signal to a computer adjacent in a specific direction on the virtual ring via a first local area network, and via a second local area network, A survival signal transmitting step of periodically transmitting a survival signal to the adjacent computer in the opposite direction to the specific direction on the virtual ring, and whether each computer has received the survival signal transmitted from the adjacent computer. And the result is written as a response to the survival signal sent from the adjacent computer to the survival signal sent to the adjacent computer. Answer step, each computer, the failure detection step for identifying the failure point by combining the presence or absence of the survival signal from both adjacent computers on the virtual ring and the content of the response, and the failure found by each computer And a failure notification step of notifying information to all computers that can communicate with the failure detection method of the distributed computer system.
生存信号を送信する前記生存信号送信ステップにおい
て、前記隣接する計算機から送信された生存信号に対す
る応答とともに、前記隣接する計算機とは異なるもう一
方の隣接する計算機からの応答をコピーしたものも書き
込むことを特徴とする請求項7に記載の分散計算機シス
テムの故障検出方法。8. Each computer is different from the adjacent computer together with a response to the survival signal transmitted from the adjacent computer in the survival signal transmitting step of transmitting a periodic survival signal to the adjacent computer. The failure detection method for a distributed computer system according to claim 7, wherein a copy of a response from one adjacent computer is also written.
ークを介して互いに接続された複数の計算機を含む分散
計算機システムの故障検出方法において、前記複数の計
算機を仮想的な仮想リング上に配置する仮想配置ステッ
プと、各計算機を、前記仮想リング上での特定の計算機
から特定の方向における順番によって、偶数番目、奇数
番目に分ける際、奇数番目の計算機が、第1のローカル
エリアネットワークを介して前記仮想リング上の両隣の
計算機に定期的に生存信号を送信し、偶数番目の計算機
が、第2のローカルエリアネットワークを介して前記仮
想リング上の両隣の計算機に定期的に生存信号を送信す
る生存信号送信ステップと、各計算機が、第1または第
2のローカルエリアネットワークを介して、両隣から送
信される生存信号を受信したか否かを調べ、その結果を
組み合わせることにより故障箇所を特定する故障検出ス
テップと、各計算機が、発見した故障に関する情報を、
通信し得る全ての計算機に通知する故障通知ステップと
を実行することを特徴とする分散計算機システムの故障
検出方法。9. A failure detection method for a distributed computer system including a plurality of computers connected to each other via first and second local area networks, wherein the plurality of computers are arranged on a virtual virtual ring. When the arrangement step and each computer are divided into an even number and an odd number according to the order in a specific direction from the specific computer on the virtual ring, the odd number computer is the first computer via the first local area network. Survival signal is transmitted periodically to the computers on both sides of the virtual ring, and the even-numbered computer periodically transmits the survival signal to the computers on both sides of the virtual ring via the second local area network. The signal transmission step and each computer transmits the survival signal transmitted from both sides via the first or second local area network. The failure detection step of checking whether or not received, and specifying the failure location by combining the results, and the information on the failure found by each computer,
And a failure notification step of notifying all computers with which communication is possible, a failure detection method for a distributed computer system.
ワークを介して互いに接続された複数の計算機を含む分
散計算機システムの故障検出方法において、前記複数の
計算機を仮想的な仮想リング上に配置する仮想配置ステ
ップと、各計算機を、3台ずつの複数のグループに分割
し、各グループにおいて、第1の計算機が、第2の計算
機に第1のローカルエリアネットワークを介して定期的
に生存信号を送信するとともに、第3の計算機に第2の
ローカルエリアネットワークを介して定期的に生存信号
を送信する生存信号送信ステップと、各グループにおい
て、第2の計算機が、第1の計算機からの生存信号を受
信したか否かを調べ、その結果を、第3の計算機に第2
のローカルエリアネットワークを介して定期的に送信す
る生存信号に書き込む第1の生存信号応答ステップと、
第3の計算機が、第1の計算機からの生存信号を受信し
たか否かを調べ、その結果を、第2の計算機に第1のロ
ーカルエリアネットワークを介して定期的に送信する生
存信号に書き込む第2の生存信号応答ステップと、第2
の計算機が、第1及び第3の計算機から送信される生存
信号の有無と内容を調べ、それらの結果を組み合わせる
ことにより、故障箇所を特定する第1の故障検出ステッ
プと、第3の計算機が、第1及び第2の計算機から送信
される生存信号の有無と内容を調べ、それらの結果を組
み合わせることにより、故障箇所を特定する第2の故障
検出ステップと、各計算機が、発見した故障に関する情
報を、通信し得る全ての計算機に通知する故障通知ステ
ップとを実行することを特徴とする分散計算機システム
の故障検出方法。10. A failure detection method for a distributed computer system including a plurality of computers connected to each other via first and second local area networks, wherein the plurality of computers are arranged on a virtual virtual ring. Arrangement step and dividing each computer into a plurality of groups of three, and in each group, the first computer periodically transmits a survival signal to the second computer via the first local area network. In addition, the survival signal transmitting step of periodically transmitting the survival signal to the third computer via the second local area network, and in each group, the second computer transmits the survival signal from the first computer. It is checked whether or not it has been received, and the result is sent to the third computer as the second
A first liveness signal response step of writing to the liveness signal that is periodically transmitted via the local area network of
The third computer checks whether or not the surviving signal from the first computer is received, and writes the result in the surviving signal that is periodically transmitted to the second computer via the first local area network. A second survival signal response step, and a second
The first computer checks the existence and contents of the survival signal transmitted from the first and third computers, and by combining the results, the first failure detection step of identifying the failure location and the third computer , A second failure detection step of identifying the failure location by checking the existence and contents of the survival signal transmitted from the first and second computers and combining the results, and the failure found by each computer And a failure notification step of notifying information to all communicable computers, a failure detection method for a distributed computer system.
置を新たに設定し直す再配置ステップをさらに実行する
ことを特徴とする請求項1から請求項3、及び請求項5
のうちのいずれか一項に記載の分散計算機システムの故
障検出方法。11. The method according to any one of claims 1 to 3 and 5, further comprising a reallocation step for resetting a virtual layout of each computer when a failure occurs.
A failure detection method for a distributed computer system according to any one of the above.
置を新たに設定し直す再配置ステップをさらに実行する
ことを特徴とする請求項6から請求項9のうちのいずれ
か一項に記載の分散計算機システムの故障検出方法。12. The method according to claim 6, further comprising executing a rearrangement step of newly setting a virtual arrangement of each computer when a failure occurs. Detection method for distributed computer systems in Japan.
置を新たに設定し直す再配置ステップをさらに実行する
ことを特徴とする請求項4に記載の分散計算機システム
の故障検出方法。13. The method of detecting a failure in a distributed computer system according to claim 4, further comprising executing a rearrangement step of newly setting a virtual arrangement of each computer when a failure occurs.
置を新たに設定し直す再配置ステップをさらに実行する
ことを特徴とする請求項10に記載の分散計算機システ
ムの故障検出方法。14. The method of detecting a failure in a distributed computer system according to claim 10, further comprising executing a rearrangement step of newly setting a virtual arrangement of each computer when a failure occurs.
知する故障通知ステップにおいて、生存信号に故障情報
を付加して生存信号を送信することにより故障を通知す
ることを特徴とする請求項11に記載の分散計算機シス
テムの故障検出方法。15. The failure notification step of notifying the adjacent computer of the detected failure information notifies the failure by adding the failure information to the survival signal and transmitting the survival signal. A failure detection method for the distributed computer system described.
知する故障通知ステップにおいて、生存信号に故障情報
を付加して生存信号を送信することにより故障を通知す
ることを特徴とする請求項12に記載の分散計算機シス
テムの故障検出方法。16. The failure notification step of notifying the adjacent computer of the detected failure information notifies failure by adding failure information to the survival signal and transmitting the survival signal. A failure detection method for the distributed computer system described.
により接続された、複数の計算機からなる分散システム
において、ローカルエリアネットワークを2本ずつペア
にし、各ペアごとに請求項6から請求項10、請求項1
2、請求項14、及び請求項16の故障検出方法のうち
のいずれかを用いる分散計算機システムの故障検出方
法。17. A distributed system consisting of a plurality of computers connected by 2N local area networks, wherein two local area networks are paired, and each pair is paired with one of claims 6 to 10, and
A method for detecting a failure in a distributed computer system, which uses any one of the failure detecting methods according to claim 2, claim 14 and claim 16.
トワークにより接続された、複数の計算機からなる分散
システムにおいて、ローカルエリアネットワークを2本
ずつペアにし、各ペアごとに請求項6から請求項10、
請求項12、請求項14、及び請求項16の故障検出方
法のうちのいずれかを用い、余った1本については、請
求項1から請求項5、請求項11、請求項13、及び請
求項15の故障検出方法のうちのいずれかを用いる分散
計算機システムの故障検出方法。18. In a distributed system comprising a plurality of computers connected by (2N + 1) local area networks, two local area networks are paired, and each pair is defined by any one of claims 6 to 10,
Any one of the failure detection methods of claim 12, claim 14, and claim 16 is used, and the remaining one is defined as claim 1 to claim 5, claim 11, claim 13, and claim. A failure detection method for a distributed computer system using any one of the failure detection methods of 15.
トワークにより接続された、複数の計算機からなる分散
システムにおいて、ローカルエリアネットワークを2本
ずつペアにし、(2N+1)本目のローカルエリアネッ
トワークといずれかのローカルエリアネットワークによ
りさらに1つのペアを作り、各ペアごとに請求項6から
請求項10、請求項12、請求項14、及び請求項16
の故障検出方法のうちのいずれかを用いる分散計算機シ
ステムの故障検出方法。19. In a distributed system comprising a plurality of computers connected by (2N + 1) local area networks, two local area networks are paired, and a local area network of (2N + 1) th and any one of the local areas are paired. Further, one pair is formed by the area network, and each pair is defined by claims 6 to 10, claim 12, claim 14, and claim 16.
A fault detection method for a distributed computer system using any of the above fault detection methods.
エリアネットワークにおいて、それぞれのペアにおいて
送信される生存信号を1つにまとめることを特徴とする
請求項19に記載の分散計算機システムの故障検出方
法。20. A failure detecting method for a distributed computer system according to claim 19, wherein, in a local area network shared by two pairs, the survival signals transmitted in each pair are combined into one. .
に通信する頻度の高い計算機を、仮想的な配置において
近接するように配置することを特徴とする請求項1から
請求項20のうちのいずれか一項に記載の分散計算機シ
ステムの故障検出方法。21. In the virtual arranging step, computers that frequently communicate with each other are arranged so as to be close to each other in the virtual arrangement. A method for detecting a failure in a distributed computer system according to the item.
性の高い計算機と信頼性の低い計算機を、仮想的な配置
において交互に並べることを特徴とする請求項1から請
求項20のうちのいずれか一項に記載の分散計算機シス
テムの故障検出方法。22. A computer having high reliability and a computer having low reliability are alternately arranged in a virtual arrangement in the virtual arrangement step. A method for detecting a failure in a distributed computer system according to the item.
性の高い計算機と機能的に重要な計算機を、仮想的な配
置において交互に並べることを特徴とする請求項1から
請求項20のうちのいずれか一項に記載の分散計算機シ
ステムの故障検出方法。23. A computer having high reliability and a computer which are functionally important are alternately arranged in a virtual arrangement in the virtual arrangement step. A method for detecting a failure in a distributed computer system according to one item.
その送信時刻または受信期限を、各計算機が特定の生存
信号を受信した時刻を基準にして設定することを特徴と
する請求項1から請求項23のうちのいずれか一項に記
載の分散計算機システムの故障検出方法。24. For some or all of the survival signals,
The distributed computer system according to any one of claims 1 to 23, characterized in that the transmission time or the reception deadline is set based on the time when each computer receives a specific survival signal. Failure detection method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6230022A JPH0895931A (en) | 1994-09-26 | 1994-09-26 | Faust detecting method for distributed computer system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6230022A JPH0895931A (en) | 1994-09-26 | 1994-09-26 | Faust detecting method for distributed computer system |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0895931A true JPH0895931A (en) | 1996-04-12 |
Family
ID=16901349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6230022A Pending JPH0895931A (en) | 1994-09-26 | 1994-09-26 | Faust detecting method for distributed computer system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0895931A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000010949A (en) * | 1998-06-19 | 2000-01-14 | Nec Corp | Relay type decentralized health check control system and method |
US6574197B1 (en) | 1998-07-03 | 2003-06-03 | Mitsubishi Denki Kabushiki Kaisha | Network monitoring device |
JP2009199213A (en) * | 2008-02-20 | 2009-09-03 | Nec Corp | Process monitoring method, information processing apparatus and program |
JP2011245191A (en) * | 2010-05-31 | 2011-12-08 | Sophia Co Ltd | Game machine |
JP2013178850A (en) * | 2013-06-21 | 2013-09-09 | Nec System Technologies Ltd | Monitoring system, monitoring method, and program |
JP2015210550A (en) * | 2014-04-24 | 2015-11-24 | カシオ計算機株式会社 | Decentralized database, data sharing method, program, and device |
-
1994
- 1994-09-26 JP JP6230022A patent/JPH0895931A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000010949A (en) * | 1998-06-19 | 2000-01-14 | Nec Corp | Relay type decentralized health check control system and method |
US6574197B1 (en) | 1998-07-03 | 2003-06-03 | Mitsubishi Denki Kabushiki Kaisha | Network monitoring device |
JP2009199213A (en) * | 2008-02-20 | 2009-09-03 | Nec Corp | Process monitoring method, information processing apparatus and program |
JP2011245191A (en) * | 2010-05-31 | 2011-12-08 | Sophia Co Ltd | Game machine |
JP2013178850A (en) * | 2013-06-21 | 2013-09-09 | Nec System Technologies Ltd | Monitoring system, monitoring method, and program |
JP2015210550A (en) * | 2014-04-24 | 2015-11-24 | カシオ計算機株式会社 | Decentralized database, data sharing method, program, and device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6820210B1 (en) | System and method for fault recovery for a two line bi-directional ring network | |
JP2770749B2 (en) | Multi-ring type failure recovery system | |
RU2423008C2 (en) | METHOD AND SYSTEM FOR AUTOMATIC PROTECTION OF Ethernet NETWORK | |
JPH07122862B2 (en) | Computer in network and operating method thereof | |
JP2505063B2 (en) | Method and system for establishing and managing virtual chains | |
CN102164056A (en) | Stacked link aggregation fault detection method and stacked devices | |
US5598403A (en) | Path setting control system in communication network | |
US5930236A (en) | Method for preventing circular routing in a telecommunication network | |
CN100574220C (en) | Data back up method and application processing system | |
CN110677282A (en) | Hot backup method of distributed system and distributed system | |
JP3983621B2 (en) | Dual ring network system and ring selection method | |
JPH0895931A (en) | Faust detecting method for distributed computer system | |
WO2012097595A1 (en) | Method and system for implementing shared-mesh protection | |
CN1132492C (en) | Redundancy termination | |
CN105812492A (en) | Data synchronizing method and system | |
CN114598593B (en) | Message processing method, system, computing device and computer storage medium | |
JP2001244977A (en) | Device, system and method for data transfer and storage medium | |
CN113987066A (en) | Disaster recovery method and device for double available areas, electronic equipment and storage medium | |
JPH11306153A (en) | Network management system for decentralized system | |
JP3446652B2 (en) | Hierarchical network management system | |
JP2645134B2 (en) | Message transmission control method to restoration signal link | |
KR100260437B1 (en) | Dualization method of a.r.p. server | |
CN113824796A (en) | Token passing method and device | |
JP2003204341A (en) | Data communication system and method for communicating data | |
JP2000286881A (en) | Ring type network system and its transmission controller |