JP2001290670A - Cluster system - Google Patents

Cluster system

Info

Publication number
JP2001290670A
JP2001290670A JP2000108501A JP2000108501A JP2001290670A JP 2001290670 A JP2001290670 A JP 2001290670A JP 2000108501 A JP2000108501 A JP 2000108501A JP 2000108501 A JP2000108501 A JP 2000108501A JP 2001290670 A JP2001290670 A JP 2001290670A
Authority
JP
Japan
Prior art keywords
storage device
data
fault
computer system
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000108501A
Other languages
Japanese (ja)
Inventor
Ryoichi Tanabe
亮一 田辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2000108501A priority Critical patent/JP2001290670A/en
Publication of JP2001290670A publication Critical patent/JP2001290670A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To solve the problem where it is necessary to manually switch processings to a reserve computer system, each time a fault occurs in the conventional cluster system. SOLUTION: This system is provided with a fault-detecting means 101 for detecting the fault of a magnetic storage device 130 in an active computer system 100, a data-transmitting means 103 for transmitting data in the main storage device 110 in the active computer system to a reserve computer system 200 when the fault is detected and a data receiving means 201 for receiving the transmitted data and storing them in a main storage device 210 located on the side of the reserve computer system. After the data are completely transmitted/received, the active computer system is stopped, an application is started in the reserve computer system and by executing processing, while referring to the data stored in the main storage device 210, the relevant application continuously performs processing in the active computer system.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、現用計算機装置と
予備計算機装置から成るクラスタシステム、特に障害発
生時の主記憶装置のデータを予備計算機装置に引き継ぐ
場合の引き継ぎ方式に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a cluster system including an active computer and a spare computer, and more particularly to a takeover system for transferring data of a main storage device to a spare computer when a failure occurs.

【0002】[0002]

【従来の技術】従来、このようなクラスタシステムは1
台あるいは複数台の計算機装置と1台の予備計算機装置
で構成され、いずれか1つの計算機装置で障害が発生す
ると、障害の発生した計算機装置の処理を予備計算機装
置で肩代わりすることによってシステムの運用を行って
いる。
2. Description of the Related Art Conventionally, such a cluster system is one of the following.
It is composed of one or more computer devices and one spare computer device. If a failure occurs in any one of the computer devices, the spare computer device takes over the processing of the failed computer device to operate the system. It is carried out.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上記従
来のクラスタシステムでは、計算機装置に障害が発生し
た時に手動によって予備計算機装置に処理の切り換えを
行っており、主記憶装置のデータを予備計算機装置に送
信して処理の引き継ぎを自動化することは行っていなか
った。そのため、障害発生毎に手動で予備計算機装置へ
の処理の引き継ぎを行う必要があった。
However, in the above-described conventional cluster system, when a failure occurs in a computer device, the processing is manually switched to a spare computer device, and the data in the main storage device is transferred to the spare computer device. They did not send and automate the process takeover. Therefore, it is necessary to manually hand over the processing to the spare computer every time a failure occurs.

【0004】本発明は、上記従来の問題点に鑑みなされ
たもので、その目的は、障害発生時に主記憶装置のデー
タを予備計算機装置に送信し、自動的に処理の引き継ぎ
を行うことが可能なクラスタシステムを提供することに
ある。
SUMMARY OF THE INVENTION The present invention has been made in view of the above-mentioned conventional problems, and an object of the present invention is to transmit data in a main storage device to a spare computer device when a failure occurs and to automatically take over processing. It is to provide a simple cluster system.

【0005】[0005]

【課題を解決するための手段】本発明は、上記目的を達
成するため、現用計算機装置及び予備計算機装置から成
るクラスタシステムにおいて、前記現用計算機装置の補
助記憶装置の障害を検知する手段と、前記障害検知手段
により障害が検知された時に前記現用計算機装置の主記
憶装置のデータを前記予備計算機装置に送信する手段
と、送信されたデータを受信し予備計算機装置側の主記
憶装置に格納する手段とを備え、前記データの送受信終
了後に前記現用計算機装置を停止し、且つ、前記予備計
算機装置においてアプリケーションを起動し、当該アプ
リケーションは前記主記憶装置に格納されたデータを参
照して処理を実行することにより現用計算機装置の処理
を継続して行うことを特徴としている。
According to the present invention, in order to achieve the above object, in a cluster system comprising a working computer device and a spare computer device, means for detecting a failure in an auxiliary storage device of the working computer device; Means for transmitting data in the main memory of the working computer to the spare computer when a fault is detected by the fault detecting means; means for receiving the transmitted data and storing the data in the main memory of the spare computer. After the transmission and reception of the data is completed, the active computer device is stopped, and an application is started in the spare computer device, and the application executes a process with reference to the data stored in the main storage device Thus, the present invention is characterized in that the processing of the active computer device is continuously performed.

【0006】[0006]

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して詳細に説明する。図1は本発明のクラ
スタシステムの一実施形態の構成を示すブロック図であ
る。図1において、クラスタシステムは、現用計算機装
置100、予備計算機装置200から成っていて、現用
計算機装置100に障害が発生した時は予備計算機装置
200に処理が引き継がれる。なお、図1では現用計算
機装置100を1台としているが、現用計算機装置10
0を複数台としてもよい。
Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 is a block diagram showing the configuration of an embodiment of the cluster system of the present invention. In FIG. 1, the cluster system includes an active computer device 100 and a standby computer device 200. When a failure occurs in the active computer device 100, the processing is taken over by the standby computer device 200. Although the number of the active computer 100 is one in FIG.
0 may be plural.

【0007】現用計算機装置100は、補助記憶装置で
ある磁気記憶装置130、磁気記憶装置130のデータ
の入出力を制御する入出力制御部120、磁気記憶装置
130の障害を検知する障害検知手段101、障害発生
時に現用計算機装置100の緊急停止を行う緊急停止手
段102、主記憶装置110、障害発生時に主記憶装置
110上のデータを予備計算機装置200に送信するデ
ータ送信手段103を備えている。300は現用計算機
装置100上のアプリケーションプログラム(以下、ア
プリケーションと略す)である。
The active computer device 100 includes a magnetic storage device 130 serving as an auxiliary storage device, an input / output control unit 120 for controlling data input / output of the magnetic storage device 130, and a failure detecting means 101 for detecting a failure of the magnetic storage device 130. An emergency stop unit 102 for emergency stop of the active computer 100 when a failure occurs, a main storage device 110, and a data transmission unit 103 for transmitting data on the main storage device 110 to the spare computer device 200 when a failure occurs. Reference numeral 300 denotes an application program (hereinafter, abbreviated as an application) on the active computer device 100.

【0008】また、予備計算機装置200は現用計算機
装置100から送信されたデータを受信するデータ受信
手段201、主記憶装置210、アプリケーション起動
手段202、磁気記憶装置230、入出力制御部220
から構成されている。なお、400はクラスタシステム
に接続された計算機端末、500は計算機端末400上
のアプリケーションである。ここで、本実施形態では、
障害検知手段101は磁気記憶装置130の障害を検知
しており、現用計算機装置100においてアプリケーシ
ョン300の処理が継続不可能な障害として磁気記憶装
置130の障害を想定している。
[0008] The spare computer device 200 includes a data receiving means 201 for receiving data transmitted from the active computer device 100, a main storage device 210, an application starting means 202, a magnetic storage device 230, and an input / output control unit 220.
It is composed of Note that 400 is a computer terminal connected to the cluster system, and 500 is an application on the computer terminal 400. Here, in the present embodiment,
The failure detection unit 101 detects a failure in the magnetic storage device 130, and assumes a failure in the magnetic storage device 130 as a failure in which the processing of the application 300 cannot be continued in the active computer device 100.

【0009】次に、本実施形態の具体的な動作について
図2〜図6のフローチャートを参照して詳細に説明す
る。まず、図2は障害検知手段101の障害検知処理を
示すフローチャートである。図2において、障害検知手
段101はシステムの起動時に図示しない設定値ファイ
ルから対象装置(この場合は、磁気記憶装置130)、
チェックする時間間隔等の設定値を取得する(ステップ
A1)。障害検知手段101はシステムの運用時におい
て取得した設定値に基づいてテストI/Oによる障害検
知を行う。
Next, a specific operation of the present embodiment will be described in detail with reference to the flowcharts of FIGS. First, FIG. 2 is a flowchart showing the failure detection processing of the failure detection means 101. In FIG. 2, when the system is started, the failure detection unit 101 reads a target device (in this case, the magnetic storage device 130) from a setting value file (not shown),
A set value such as a time interval to be checked is acquired (step A1). The failure detection means 101 performs failure detection by test I / O based on the setting values obtained during operation of the system.

【0010】即ち、磁気記憶装置130にテストI/O
を発行し(ステップA2)、磁気記憶装置130からの
テストI/Oに対する返信情報に基づいて正常か否かの
判定を行う(ステップA3)。この時、正常であれば、
障害検知手段101は一定時間停止した後(ステップA
4)、再度、ステップA2に戻ってテストI/Oを発行
し、正常か否かの判定を行う(ステップA3)。以下、
ステップA2〜A4の処理を繰り返し行い、定期的にテ
ストI/Oを発行して磁気記憶装置130が正常か否か
を監視している。一方、システムの稼動中にステップA
3で磁気記憶装置130のディスク故障が発生し障害を
検知すると、障害検知手段101は障害の発生を緊急停
止手段102へ通知する。
That is, the test I / O is
Is issued (step A2), and it is determined whether the data is normal based on the reply information to the test I / O from the magnetic storage device 130 (step A3). At this time, if it is normal,
After the failure detection means 101 has been stopped for a certain period of time (step A
4) Return to step A2 again, issue a test I / O, and determine whether or not it is normal (step A3). Less than,
The processing of steps A2 to A4 is repeated, and a test I / O is periodically issued to monitor whether the magnetic storage device 130 is normal. On the other hand, during the operation of the system, step A
When a disk failure of the magnetic storage device 130 occurs and a failure is detected in step 3, the failure detection unit 101 notifies the emergency stop unit 102 of the failure.

【0011】図3は障害発生時の緊急停止手段102の
処理の流れを示すフローチャートである。図3におい
て、緊急停止手段102は障害発生が通知されると、ま
ず、アプリケーション300を閉塞状態にするために、
閉塞処理を行う(ステップB1)。閉塞状態とは、アプ
リケーション300に対するトランザクション要求を受
け付けない状態のことをいう。また、閉塞処理とは、閉
塞状態テーブル(図示せず)を閉塞状態に変更し、稼動
中のトランザクションの終了を待ち合わせる処理のこと
をいう。
FIG. 3 is a flow chart showing the flow of processing of the emergency stop means 102 when a failure occurs. In FIG. 3, when the emergency stop unit 102 is notified of the occurrence of a failure, first, in order to put the application 300 into a blocked state,
A closing process is performed (step B1). The closed state refers to a state in which a transaction request to the application 300 is not accepted. Further, the closing process refers to a process of changing a closed state table (not shown) to a closed state and waiting for the end of a running transaction.

【0012】ここで、計算機端末400のアプリケーシ
ョン500は、アプリケーション300に対するトラン
ザクション要求を発行する前に閉塞状態テーブルを参照
してアプリケーション300が閉塞状態か否かをチェッ
クし、新たなトランザクション要求が可能かどうかを確
認している。従って、アプリケーション500は、閉塞
処理を行った後はアプリケーション300が閉塞状態で
あると判断し、新たなトランザクション要求は行わな
い。
Here, the application 500 of the computer terminal 400 checks whether or not the application 300 is in a closed state by referring to the closed state table before issuing a transaction request to the application 300, and determines whether a new transaction request is possible. Are you sure? Therefore, the application 500 determines that the application 300 is in the blocked state after performing the blocking process, and does not issue a new transaction request.

【0013】閉塞処理を終了すると、データ送信手段1
03は主記憶装置110上のデータを予備計算機装置2
00に送信する処理を行う(ステップB2)。このデー
タ送信手段103の処理を図4のフローチャートに示
す。図4において、まず、データ送信手段103は設定
値ファイル(図示せず)からメモリ識別子や送信すべき
データの大きさ等の設定値を取得する(ステップC
1)。
When the closing process is completed, the data transmitting means 1
Reference numeral 03 denotes the data stored in the main storage device 110 and the spare computer device 2
00 is performed (step B2). FIG. 4 is a flowchart showing the processing of the data transmission means 103. In FIG. 4, first, the data transmission unit 103 acquires setting values such as a memory identifier and the size of data to be transmitted from a setting value file (not shown) (step C).
1).

【0014】次いで、得られた識別子を用いてメモリ
(主記憶装置110)のアタッチを行い(ステップC
2)、予備計算機装置200上のデータ受信手段201
とTCP/IPプロトコルを用いた通信を行うためにソ
ケットの作成やコネクションの確立を行う(ステップC
3)。また、データ送信手段103は主記憶装置110
のデータを読み込み(ステップC4)、データの送信を
行う(ステップC5)。この場合、データ送信手段10
3はアタッチにより得られたアドレスから、設定値ファ
イルで得られた大きさの分だけ主記憶装置110からデ
ータを読み出し、予備計算機装置200に送信する。
Next, the memory (main storage device 110) is attached using the obtained identifier (step C).
2), data receiving means 201 on the standby computer 200
A socket is created and a connection is established to perform communication using the TCP / IP protocol with the server (step C).
3). Further, the data transmission unit 103 is connected to the main storage device 110.
Is read (step C4), and the data is transmitted (step C5). In this case, the data transmission means 10
Numeral 3 reads data from the main storage device 110 by the size obtained in the setting value file from the address obtained by the attachment, and transmits the data to the spare computer device 200.

【0015】次に、データ受信手段201の処理を図5
のフローチャートを参照して説明する。図5において、
まず、データ受信手段201の起動は、予め予備として
起動している予備計算機装置200側で基本ソフト(O
S)の起動時に行われる。初めに、設定値ファイルから
メモリ識別子、データの大きさ等の設定値を取得し(ス
テップD1)、それに基づいてデータを格納するメモリ
を確保する。また、メモリ(主記憶装置210)のアタ
ッチを行う(ステップD2)。この時のメモリ識別子や
データの大きさは現用計算機装置100におけるデータ
送信手段103の場合の設定値と同じである。
Next, the processing of the data receiving means 201 will be described with reference to FIG.
This will be described with reference to the flowchart of FIG. In FIG.
First, activation of the data receiving means 201 is performed by the basic software (O
This is performed at the start of S). First, a set value such as a memory identifier and data size is obtained from the set value file (step D1), and a memory for storing data is secured based on the set value. Attachment of the memory (main storage device 210) is performed (step D2). At this time, the memory identifier and the size of the data are the same as the setting values in the case of the data transmission unit 103 in the active computer device 100.

【0016】続いて、データ受信手段201はTCP/
IPによる通信手順として、ソケットの作成、ポートへ
の対応付け、キューのセット及び接続要求待ちとなるよ
うに処理を行い、通信準備を行う(ステップD3)。こ
れによって、データ送信手段103から何時でもコネク
ション要求を受け付け可能な状態となる(ステップD
4)。この状態で、データ送信手段103からコネクシ
ョン要求があると、コネクションの確立を行い、データ
受信手段201からのデータの送信を待ち、データの受
信を行う(ステップD5)。受信データは主記憶装置2
10に対しアタッチで得られたアドレスに書き込まれる
(ステップD6)。
Subsequently, the data receiving means 201 transmits the TCP /
As a communication procedure by IP, processing is performed to prepare a socket, associate with a port, set a queue, and wait for a connection request, and prepare for communication (step D3). Thus, the connection request can be accepted at any time from the data transmission unit 103 (step D).
4). In this state, when there is a connection request from the data transmitting unit 103, the connection is established, the transmission of data from the data receiving unit 201 is waited, and the data is received (step D5). The received data is stored in the main storage device 2
10 is written to the address obtained by the attachment (step D6).

【0017】図3に戻る。このようにしてデータの送受
信を完了すると、緊急停止手段102は、図3のステッ
プB3においてアプリケーション300の緊急停止処理
を行う。次いで、基本ソフト(OS)の緊急停止を行い
(ステップB4)、現用計算機装置100の停止処理を
完了する。
Referring back to FIG. When data transmission / reception is completed in this way, the emergency stop unit 102 performs an emergency stop process of the application 300 in step B3 of FIG. Next, an emergency stop of the basic software (OS) is performed (step B4), and the stop processing of the active computer device 100 is completed.

【0018】一方、予備計算機装置200上ではアプリ
ケーション300が起動され、現用計算機装置100の
処理を引き続き行う。図6はこの時のアプリケーション
起動手段202の処理を示す。図6において、アプリケ
ーション起動手段202は設定値ファイルからデータ受
信手段201の設定値と同じメモリ識別子を取得し(ス
テップE1)、アプリケーション300の起動を行う
(ステップE2)。この場合、アプリケーション300
は得られたメモリ識別子を用いて主記憶装置210のデ
ータを参照して処理を行い、これによって現用計算機装
置100の切り換え以前からの処理を継続して処理する
ことが可能となる。
On the other hand, the application 300 is started on the spare computer 200, and the processing of the active computer 100 is continued. FIG. 6 shows the processing of the application starting means 202 at this time. In FIG. 6, the application starting unit 202 acquires the same memory identifier as the setting value of the data receiving unit 201 from the setting value file (step E1), and starts the application 300 (step E2). In this case, the application 300
Using the obtained memory identifier, the process is performed by referring to the data in the main storage device 210, whereby it is possible to continue the process from before the switching of the active computer device 100.

【0019】次に、本発明の他の実施形態について説明
する。本実施形態では、障害検知手段101の障害検知
方法が異なっている。その他の構成は図1の実施形態と
同様である。図7は本実施形態の障害検知手段101の
処理を示すフローチャートである。図7において、ま
ず、障害検知手段101は磁気記憶装置130に対しテ
ストI/Oを発行し(ステップF1)、テストI/Oに
よる結果が正常か否かで障害の検知を行う(ステップF
2)。正常であれば、一定時間停止した後(ステップF
3)、ステップF1に戻って、再度テストI/Oを発行
し、正常か否かの判定を行う(ステップF2)。
Next, another embodiment of the present invention will be described. In the present embodiment, the failure detection method of the failure detection unit 101 is different. Other configurations are the same as those of the embodiment of FIG. FIG. 7 is a flowchart showing the processing of the failure detection means 101 of the present embodiment. 7, first, the failure detection unit 101 issues a test I / O to the magnetic storage device 130 (step F1), and detects a failure based on whether the result of the test I / O is normal (step F).
2). If normal, after stopping for a certain time (step F
3) Return to step F1, issue a test I / O again, and determine whether or not it is normal (step F2).

【0020】このように定期的にテストI/Oを発行
し、磁気記憶装置130が正常か否かを監視している。
ここで、障害検知手段101はステップF2において異
常と判定された回数をカウントし(ステップF4)、カ
ウント値と予め設定された閾値を比較する(ステップF
5)。この場合、磁気記憶装置130のディスクの劣化
により間欠的な障害が発生すると、テストI/Oが異常
となるが、カウント値が閾値以下である時はステップF
1に戻って正常として扱い、カウント値が閾値を越える
と障害であると判定する。
As described above, the test I / O is periodically issued to monitor whether the magnetic storage device 130 is normal.
Here, the failure detection means 101 counts the number of times that it is determined to be abnormal in step F2 (step F4), and compares the count value with a preset threshold (step F4).
5). In this case, if an intermittent failure occurs due to the deterioration of the disk of the magnetic storage device 130, the test I / O becomes abnormal.
It returns to 1 and treats it as normal.

【0021】このように本実施形態では、異常と判定さ
れた回数をカウントし、カウント値が閾値を越えた時に
障害の発生を検知しているので、ディスクの劣化に伴う
間欠的な障害によって生じる不要な予備計算機装置20
0への切り換えを防ぐことができる。従って、計算機装
置の切り換えに伴う時間を削減でき、システムの処理効
率を向上することができる。また、本実施形態では、閾
値を調整することにより、積極的に計算機装置を切り換
えたり、あるいは切り換えの頻度を小さくすることが可
能である。
As described above, in the present embodiment, the number of times determined to be abnormal is counted, and the occurrence of a failure is detected when the count value exceeds the threshold value. Unnecessary spare computer device 20
Switching to zero can be prevented. Therefore, the time required for switching the computer device can be reduced, and the processing efficiency of the system can be improved. Further, in the present embodiment, by adjusting the threshold value, it is possible to actively switch the computer device or to reduce the frequency of the switching.

【0022】[0022]

【発明の効果】以上説明したように本発明は、次の効果
がある。 (1)アプリケーションの処理に必要な補助記憶装置に
障害が発生した場合、現用計算機装置の主記憶装置上の
データを予備計算機装置に送信し、主記憶装置に格納し
ているので、予備計算機装置において現用計算機装置の
処理を引き続いて行うことができる。 (2)データの送受信前にアプリケーションに対するト
ランザクション要求を受け付けない状態とする閉塞処理
を行うことにより、矛盾のないデータの引き継ぎを行う
ことができる。 (3)データの送受信は計算機装置の切り換え時に行う
ので、通常のシステムの運用時においては余分な通信を
行う必要がない。 (4)現用計算機装置が複数台になったとしても予備計
算機装置では現用計算機装置一台分のメモリ容量で済む
ため、メモリ容量が増加することはない。
As described above, the present invention has the following effects. (1) When a failure occurs in an auxiliary storage device required for processing of an application, data in the main storage device of the active computer device is transmitted to the spare computer device and stored in the main storage device. In, the processing of the active computer device can be performed subsequently. (2) Consistent data can be taken over by performing a closing process of not accepting a transaction request for an application before transmitting / receiving data. (3) Since data transmission and reception are performed when the computer device is switched, there is no need to perform extra communication during normal system operation. (4) Even if there are a plurality of active computer devices, the spare computer device needs only the memory capacity of one active computer device, so that the memory capacity does not increase.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明のクラスタシステムの一実施形態の構成
を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of an embodiment of a cluster system according to the present invention.

【図2】図1の障害検知手段の処理を示すフローチャー
トである。
FIG. 2 is a flowchart illustrating a process of a failure detection unit in FIG. 1;

【図3】図1の緊急停止手段の処理を示すフローチャー
トである。
FIG. 3 is a flowchart showing a process of an emergency stop means of FIG. 1;

【図4】図1のデータ送信手段の処理を示すフローチャ
ートである。
FIG. 4 is a flowchart showing a process of a data transmission unit of FIG. 1;

【図5】図1のデータ受信手段の処理を示すフローチャ
ートである。
FIG. 5 is a flowchart illustrating a process of a data receiving unit in FIG. 1;

【図6】図1のアプリケーション起動手段の処理を示す
フローチャートである。
FIG. 6 is a flowchart showing a process of an application starting unit in FIG. 1;

【図7】本発明の他の実施形態の障害検知手段の処理を
示すフローチャートである。
FIG. 7 is a flowchart illustrating a process of a failure detection unit according to another embodiment of the present invention.

【符号の説明】[Explanation of symbols]

100 現用計算機装置 101 障害検知手段 102 緊急停止手段 103 データ送信手段 110 主記憶装置 120 入出力制御部 130 磁気記憶装置 200 予備計算機装置 201 データ受信手段 202 アプリケーション起動手段 210 主記憶装置 220 入出力制御部 230 磁気記憶装置 300 アプリケーション 400 計算機端末 500 アプリケーション REFERENCE SIGNS LIST 100 active computer device 101 failure detection means 102 emergency stop means 103 data transmission means 110 main storage device 120 input / output control unit 130 magnetic storage device 200 spare computer device 201 data reception means 202 application activation means 210 main storage device 220 input / output control unit 230 magnetic storage device 300 application 400 computer terminal 500 application

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 現用計算機装置及び予備計算機装置から
成るクラスタシステムにおいて、前記現用計算機装置の
補助記憶装置の障害を検知する手段と、前記障害検知手
段により障害が検知された時に前記現用計算機装置の主
記憶装置のデータを前記予備計算機装置に送信する手段
と、送信されたデータを受信し予備計算機装置側の主記
憶装置に格納する手段とを備え、前記データの送受信終
了後に前記現用計算機装置を停止し、且つ、前記予備計
算機装置においてアプリケーションを起動し、当該アプ
リケーションは前記主記憶装置に格納されたデータを参
照して処理を実行することにより現用計算機装置の処理
を継続して行うことを特徴とするクラスタシステム。
In a cluster system comprising a working computer and a spare computer, means for detecting a fault in an auxiliary storage device of the working computer, and a means for detecting a fault in the working computer when the fault is detected by the fault detecting means. Means for transmitting data in the main storage device to the spare computer device, and means for receiving the transmitted data and storing it in the main storage device on the side of the spare computer device, and Stopping and starting an application in the spare computer device, the application refers to data stored in the main storage device and executes a process to continue the process of the active computer device. And the cluster system.
【請求項2】 更に、前記障害検知手段によって補助記
憶装置の障害が検知された時にアプリケーションに対す
るトランザクション要求を受け付けない状態とする閉塞
処理を行う手段を有することを特徴とする請求項1に記
載のクラスタシステム。
2. The apparatus according to claim 1, further comprising means for performing a closing process for disabling a transaction request for an application when the failure detecting means detects a failure in the auxiliary storage device. Cluster system.
【請求項3】 前記障害検知手段は、前記補助記憶装置
に定期的にテストI/Oを発行し、テストI/Oに対す
る返信結果に基づいて前記補助記憶装置の障害を検知す
ることを特徴とする請求項1に記載のクラスタシステ
ム。
3. The method according to claim 2, wherein the failure detection unit periodically issues a test I / O to the auxiliary storage device and detects a failure in the auxiliary storage device based on a reply result to the test I / O. The cluster system according to claim 1, wherein
【請求項4】 前記障害検知手段は、テストI/Oの結
果、異常である回数をカウントし、カウント値が所定値
以上となった時に前記補助記憶装置の障害を検知するこ
とを特徴とする請求項3に記載のクラスタシステム。
4. The fault detecting means counts the number of abnormalities as a result of the test I / O, and detects a fault in the auxiliary storage device when the count value exceeds a predetermined value. The cluster system according to claim 3.
JP2000108501A 2000-04-10 2000-04-10 Cluster system Pending JP2001290670A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000108501A JP2001290670A (en) 2000-04-10 2000-04-10 Cluster system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000108501A JP2001290670A (en) 2000-04-10 2000-04-10 Cluster system

Publications (1)

Publication Number Publication Date
JP2001290670A true JP2001290670A (en) 2001-10-19

Family

ID=18621329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000108501A Pending JP2001290670A (en) 2000-04-10 2000-04-10 Cluster system

Country Status (1)

Country Link
JP (1) JP2001290670A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100420266B1 (en) * 2001-10-23 2004-03-02 한국전자통신연구원 Apparatus and method for improving the availability of cluster computer systems
CN109565529A (en) * 2016-10-31 2019-04-02 华为技术有限公司 A kind of application starting method and terminal device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100420266B1 (en) * 2001-10-23 2004-03-02 한국전자통신연구원 Apparatus and method for improving the availability of cluster computer systems
CN109565529A (en) * 2016-10-31 2019-04-02 华为技术有限公司 A kind of application starting method and terminal device
US10908923B2 (en) 2016-10-31 2021-02-02 Huawei Technologies Co., Ltd. Application starting method and terminal device
CN109565529B (en) * 2016-10-31 2021-07-09 华为技术有限公司 Application starting method and terminal equipment

Similar Documents

Publication Publication Date Title
US7240234B2 (en) Storage device for monitoring the status of host devices and dynamically controlling priorities of the host devices based on the status
US8321622B2 (en) Storage system with multiple controllers and multiple processing paths
US6012150A (en) Apparatus for synchronizing operator initiated commands with a failover process in a distributed processing system
US7370147B2 (en) Disk array device and control method therefor
JP4529767B2 (en) Cluster configuration computer system and system reset method thereof
JP2006072591A (en) Virtual computer control method
US8347139B2 (en) Power supply control device, a storage system, a control method of the power supply control device, a control method of a disk array unit and a computer readable medium thereof
US8321608B2 (en) Pool I/O device operation confirmation method and computer system
JPH10207855A (en) Shared disk type multiple system
JP2010160660A (en) Network interface, computer system, operation method therefor, and program
JP5056504B2 (en) Control apparatus, information processing system, control method for information processing system, and control program for information processing system
US9558149B2 (en) Dual system
JP2001290670A (en) Cluster system
US5878278A (en) System for controlling connection requests by each IO controllers storing and managing a request queue wherein additional channel addresses can be added
CN113709068A (en) Switch system and execution processing method of switch
JP2003345638A (en) Method for controlling storage controller, the storage controller, and program
JP2000148525A (en) Method for reducing load of active system in service processor duplex system
JP2776442B2 (en) Compound computer system
JP2591334B2 (en) Mutual standby system
JP3465637B2 (en) Server and control method thereof
JP3465343B2 (en) Printer system host communication interface board
TW202143617A (en) Power switch device
JP2003044310A (en) Clustering system and method for restoring data when fault occurs in clustering system
CN111400079A (en) Isolator, software resetting method and device applicable to isolator and storage medium
CN115834446A (en) Dual control device, control method, storage medium, and electronic apparatus

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040129