JP2000293389A - Mirror disk restoration system in fault tolerant system - Google Patents

Mirror disk restoration system in fault tolerant system

Info

Publication number
JP2000293389A
JP2000293389A JP11097026A JP9702699A JP2000293389A JP 2000293389 A JP2000293389 A JP 2000293389A JP 11097026 A JP11097026 A JP 11097026A JP 9702699 A JP9702699 A JP 9702699A JP 2000293389 A JP2000293389 A JP 2000293389A
Authority
JP
Japan
Prior art keywords
data
disk
computer
address
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11097026A
Other languages
Japanese (ja)
Other versions
JP3399398B2 (en
Inventor
Kazuhiro Fuji
和浩 冨士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP09702699A priority Critical patent/JP3399398B2/en
Publication of JP2000293389A publication Critical patent/JP2000293389A/en
Application granted granted Critical
Publication of JP3399398B2 publication Critical patent/JP3399398B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

PROBLEM TO BE SOLVED: To reduce time taken by mirroring and recovery time and to improve reliability by minimizing data transfer quantity when the system is restored. SOLUTION: Computers 1 and 2 have the same hardware configuration, are connected to each other by a link cable 3 and constitute a fault tolerant system. Also, the disks 15 and 25 of the respective computers 1 and 2 perform mirroring and hold the same information mutually. Data information updated while one computer 2 stops due to some factor other than a fault of the disks 15 and 25 is stored in a special area of the computer 1, i.e., in a data access table 18. Then, the computer 2 where the fault occurs is repaired to be returned to be the system of a dual system, and when disk data is recovered, the data information of the updated disk 15, i.e., only differential information while the computer 2 stops and recovery work is performed is transferred to the disk 25 of the computer 2.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、コンピュータ二重
化システムを構築するフォールトトレラントシステムに
おける障害復旧処理方式に係り、特に二系のコンピュー
タのそれぞれがオンラインデータを相互にバックアップ
し合うオンラインデータ復旧方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a failure recovery processing method in a fault-tolerant system for constructing a redundant computer system, and more particularly to an online data recovery method in which two computers back up each other online data.

【0002】[0002]

【従来の技術】フォールトトレラントシステムにおける
ディスクミラーリングは、二系のコンピュータのハード
ディスクを相互接続し、両方に同時にデータを書き込
み、片方のコンピュータが故障してもデータの処理を継
続して行うことのできる方式として広く利用されてい
る。例えば、特開平9ー204319号公報では、対向
する2台のコンピュータが、相互に、対向システム稼働
情報を保有し、データ転送制御手段によって同一のオン
ラインデータを相互に転送してデータの二重化を図って
いる。そして、何れかのコンピュータが障害から復旧し
た場合、正常なコンピュータの全オンラインデータを自
動的に対向コンピュータに転送して、オンラインデータ
の復旧を迅速且つ容易に行っているものである。
2. Description of the Related Art Disk mirroring in a fault-tolerant system interconnects hard disks of two computers, writes data to both at the same time, and can continue to process data even if one computer fails. Widely used as a method. For example, in Japanese Patent Application Laid-Open No. 9-204319, two opposing computers mutually hold opposing system operation information, and transfer the same online data to each other by data transfer control means to achieve data duplication. ing. Then, when one of the computers recovers from the failure, all the online data of the normal computer is automatically transferred to the opposite computer, and the online data is recovered quickly and easily.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、前述の
ような従来技術においては、フォールトトレラントシス
テムにおいて、障害が発生してから復旧するまでの時間
が短ければ短いほど信頼性は向上するが、ディスクデー
タ復旧のミラーリングにかかる時間がシステム復旧時間
の大半を占めているため、システム全体の信頼性を低下
させるという問題を生じる。特に、前述の特開平9ー2
04319号公報の技術などは、復旧時に全オンライン
データを対向コンピュータに転送するため、復旧時間を
長引かせる要因となっている。
However, in the prior art as described above, in a fault-tolerant system, the shorter the time from the occurrence of a failure until recovery is improved, the more the reliability is improved, Since the time required for the recovery mirroring occupies most of the system recovery time, there is a problem that the reliability of the entire system is reduced. In particular, the aforementioned Japanese Patent Laid-Open No. 9-2
The technology disclosed in Japanese Patent No. 04319, for example, transfers all online data to an opposite computer at the time of recovery, which is a factor that prolongs the recovery time.

【0004】本発明はこのような事情に鑑みてなされた
ものであり、その目的は、システム復旧時のデータ転送
量を必要最小限に押さえることにより、ミラーリングに
かかる時間を短縮させ、もって、復旧時間の大幅な短縮
化を図り、信頼性の高いフォールトトレラントシステム
を構築することにある。
The present invention has been made in view of such circumstances, and an object of the present invention is to reduce the time required for mirroring by minimizing the amount of data transfer at the time of system recovery, thereby reducing the time required for mirroring. It is an object of the present invention to significantly reduce time and to construct a highly reliable fault-tolerant system.

【0005】[0005]

【課題を解決するための手段】本発明は、同一のハード
ウエア構成を持つコンピュータが2台あり、そのコンピ
ュータ間をケーブル接続して通信しながら2台のコンピ
ュータが同じ動作をすることにより信頼性の向上を図る
フォールトトレラントシステムであって、それぞれのコ
ンピュータに接続されているハードディスクをミラーリ
ングして同一情報を相互に保有し、ハードディスク以外
の障害発生によるコンピュータ停止後の復旧処理を行う
フォールトトレラントシステムにおけるミラーディスク
復旧方式に関するものである。
According to the present invention, there are two computers having the same hardware configuration, and the two computers perform the same operation while communicating with a cable connected between the computers. A fault tolerant system that mirrors the hard disks connected to each computer and retains the same information with each other to perform recovery processing after a computer stop due to a failure other than a hard disk This relates to a mirror disk recovery method.

【0006】そこで、上記の課題を解決するために、本
発明のフォールトトレラントシステムにおけるミラーデ
ィスク復旧方式は、ディスクの障害以外の要因で1台の
コンピュータが停止している間に更新されたディスクの
データ情報を特別の領域に保存しておく。そして、障害
を起こしたコンピュータが修復してシステムに復帰し
て、ディスクデータをリカバリするときに、更新された
ディスクのデータ情報、すなわち、1台のコンピュータ
が停止および復旧作業したときの差分情報のみを転送す
ることによって、システム本来の処理を停止させること
なく従来より早く復旧させることが出来るようにしたこ
とを特徴とする。
In order to solve the above-mentioned problem, a mirror disk recovery method in a fault-tolerant system according to the present invention employs a method of recovering a disk updated while one computer is stopped due to a factor other than a disk failure. Save the data information in a special area. When the failed computer recovers and returns to the system and recovers the disk data, only the updated disk data information, that is, the difference information when one computer was stopped and recovered. By transferring the data, the system can be restored earlier than before without stopping the original processing of the system.

【0007】すなわち、請求項1に係るフォールトトレ
ラントシステムにおけるミラーディスク復旧方式は、同
一のハードウエア構成を持つ二系の対向するコンピュー
タが、相互通信しながら同一動作を行うことにより、信
頼性の向上を図るように構成されたフォールトトレラン
トシステムであって、それぞれのコンピュータに接続さ
れているハードディスクをミラーリングして同一情報を
相互に保有し、ハードディスク以外の障害発生によるコ
ンピュータ停止後の復旧処理を行うフォールトトレラン
トシステムにおけるミラーディスク復旧方式において、
それぞれのコンピュータは、ハードディスクの障害以外
の要因で、他のコンピュータが停止及び復旧作業をして
いる間に更新された差分データ情報を保存する特別保存
領域を備え、障害を起こしたコンピュータが修復して二
系のシステムに復帰して、ディスクデータをリカバリす
るときは、正常なコンピュータは、システムに復帰した
コンピュータに対して、自己の特別保存領域に保存され
ている差分データ情報のみを転送することによって、二
系のシステムに復帰させることを特徴とする。
That is, in the mirror disk recovery method in the fault tolerant system according to the first aspect, the two opposing computers having the same hardware configuration perform the same operation while communicating with each other, thereby improving the reliability. Fault-tolerant system that is configured to mirror the hard disks connected to each computer, retain the same information mutually, and perform recovery processing after the computer stops due to a failure other than a hard disk In the mirror disk recovery method in the tolerant system,
Each computer has a special storage area to save the differential data information updated while the other computer is shutting down and recovering due to factors other than a hard disk failure, so that the failed computer can recover. When recovering the disk data after returning to the second system, the normal computer must transfer only the difference data information stored in its own special storage area to the computer that has returned to the system. In this way, the system is returned to the dual system.

【0008】また、請求項2に係るフォールトトレラン
トシステムにおけるミラーディスク復旧方式は、請求項
1のものにおいて、二系のシステムを構成するそれぞれ
のコンピュータは、主たる演算を行うCPU(中央演算
装置)と、ディスクと他のハードウエアとのインタフェ
ースを提供するディスクインターフェースと、ディスク
とのデータアクセスを直接行うディスクコントローラ
と、データを保存するために使用されるディスクと、そ
れぞれのコンピュータの相互に、データの受け渡しを実
現させるデータ通信手段と、コンピュータ全体のハード
ウエアの故障を監視し、故障を発見した場合に、そのコ
ンピュータ全体の機能を停止させる機能を有す故障検出
手段と、二系のシステムが片系運転または復旧運転時に
作成された差分データ情報を記録するための記憶媒体で
あり、ミラーコピーに必要なディスク書き込み命令発行
時の書き込み位置、及びそのときのステータスを記憶し
ておくデータアクセステーブルと、ディスクへのアクセ
ス命令がデータの読み出しか書き込みかを判別して、こ
のデータアクセステーブルに書き込むデータを作成する
データ監視手段とを備え、このデータアクセステーブル
が、特別保存領域として、他のコンピュータが停止及び
復旧作業をしている間に更新された差分データ情報を保
存することを特徴とする。
According to a second aspect of the present invention, there is provided a system for recovering a mirror disk in a fault tolerant system according to the first aspect, wherein each of the computers constituting the second system comprises a CPU (Central Processing Unit) for performing a main operation. , A disk interface that provides an interface between the disk and other hardware, a disk controller that directly accesses data to and from the disk, and a disk that is used to store data. Data communication means for realizing delivery, fault detection means for monitoring hardware failures of the entire computer and stopping the function of the entire computer when a failure is found, Difference data created during system operation or recovery operation A storage medium for recording information, a data access table that stores the write position when a disk write command required for mirror copy is issued, and the status at that time, and whether the disk access command is data read. Data monitoring means for creating data to be written to the data access table by determining whether the data is to be written, and updating the data access table as a special storage area while the other computer is stopped and restored. The stored difference data information is stored.

【0009】請求項3に係るフォールトトレラントシス
テムにおけるミラーディスク復旧方式は、請求項2のも
のにおいて、データアクセステーブルは、電源が切れて
も内容を保持できるフラッシュメモリの記憶媒体で構成
されていることを特徴とする。 また、請求項4に係る
フォールトトレラントシステムにおけるミラーディスク
復旧方式は、請求項3のものにおいて、データアクセス
テーブルは、コンピュータが備えるディスクの未使用領
域に設けられていることを特徴とする。
According to a third aspect of the present invention, there is provided a mirror disk recovery method in the fault tolerant system according to the second aspect, wherein the data access table is constituted by a storage medium of a flash memory capable of retaining contents even when the power is turned off. It is characterized by. According to a fourth aspect of the present invention, there is provided a mirror disk recovery method in the fault tolerant system according to the third aspect, wherein the data access table is provided in an unused area of a disk provided in the computer.

【0010】[0010]

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を詳細に説明する。図1は、本発明の実施の形態
におけるコンピュータシステムの構成を示すブロック図
である。同図において、コンピュータ1とコンピュータ
2は同一のハードウエア構成であり、それぞれ、主たる
演算を行うCPU11、21と、ディスクと他のハード
ウエアとのインタフェースを提供するディスクインター
フェース12、22と、ディスクへのアクセス命令がデ
ータの読み出しか書き込みかを判別してデータアクセス
テーブルに書き込むデータを作成するデータ監視手段1
3、23と、ディスクとのデータアクセスを直接行うデ
ィスクコントローラ14、24と、データを保存するた
めに使用されるディスク15、25と、コンピュータ1
及びコンピュータ2の相互にデータの受け渡しを実現す
るデータ通信手段16、26と、コンピュータ全体のハ
ードウエアの故障を監視し、故障を発見した場合はコン
ピュータ全体の機能を停止する機能を有す故障検出手段
17、27と、システムが、片系運転または復旧運転時
に作成されたデータの差分情報を記録するために必要な
記憶媒体で、ミラーコピーに必要なディスク書き込み命
令発行時の書き込み位置およびそのときのステータスを
記憶しておくデータアクセステーブル18、28とによ
って構成されている。
Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 is a block diagram illustrating a configuration of a computer system according to an embodiment of the present invention. In FIG. 1, a computer 1 and a computer 2 have the same hardware configuration, and have CPUs 11 and 21 for performing main operations, disk interfaces 12 and 22 for providing an interface between the disk and other hardware, and a Data monitoring means 1 for determining whether the access instruction of the data is read or write data and creating data to be written to the data access table
3 and 23; disk controllers 14 and 24 for directly accessing data with the disks; disks 15 and 25 used for storing data;
And data communication means 16 and 26 for realizing the exchange of data between the computer 2 and failure detection having a function of monitoring hardware failure of the entire computer and stopping the function of the entire computer when a failure is found. Means 17, 27, and a storage medium required for the system to record difference information of data created during one-system operation or recovery operation, and a write position at the time of issuing a disk write command required for mirror copy and at that time And the data access tables 18 and 28 which store the statuses of the data.

【0011】ただし、データアクセステーブル18、2
8は、電源が切れても内容を保持できるようなフラッシ
ュROMのようなデバイスまたは、それに代わるディス
ク等の記憶媒体で構成されているものとする。また、デ
ィスク15、25の未使用領域を使ってデータアクセス
テーブル18、28の機能を有することも可能である。
また、コンピュータ1とコンピュータ2は、リンクケー
ブル3によって結合されており、お互いの処理情報及び
コンピュータ間のデータ転送および状態確認に使用され
る。
However, the data access tables 18, 2
Reference numeral 8 denotes a device such as a flash ROM that can retain the contents even when the power is turned off, or a storage medium such as a disk in place of the device. Further, the functions of the data access tables 18 and 28 can be provided by using the unused areas of the disks 15 and 25.
The computer 1 and the computer 2 are connected by a link cable 3 and are used for mutual processing information, data transfer between the computers, and status confirmation.

【0012】次に、このような構成における実施の形態
の動作について説明する。2台のコンピュータ1、2に
よるフォールトトレラントシステムにおいて、ディスク
15、25以外の障害発生により1台のコンピュータが
停止してしまい、残りの1台のコンピュータ(1または
2)で動作し続けなければならなくなった場合に、1台
運転時に発生したディスク(15または25)の更新情
報を、特別に用意した記憶領域であるデータアクセステ
ーブル(18または28)に保存しておく。
Next, the operation of the embodiment in such a configuration will be described. In a fault-tolerant system using two computers 1 and 2, one computer stops due to a failure other than the disks 15 and 25 and must continue to operate on the remaining one computer (1 or 2). In the case of running out, the update information of the disk (15 or 25) generated during operation of one unit is stored in the data access table (18 or 28) which is a specially prepared storage area.

【0013】障害を取り除き、停止したコンピュータ
(1または2)が再起動したときに、停止中に記憶して
いたデータアクセステーブル(18または28)の更新
情報を使用して、停止中に更新されたディスク(15ま
たは25)の内容のみを転送することが出来るようなハ
ードウエアやソフトウエアを付加することによって、従
来よりも短時間にミラーコピーを終了させることが出来
るようにしたことを特徴とする。また、データアクセス
テーブル18、28のデータ構造を工夫することによっ
て、ミラーコピー中にもデータアクセステーブルを更新
できるので、ミラーコピーを行っている間も通常業務を
動作させることが出来るのも特徴である。
When the fault is removed and the stopped computer (1 or 2) is restarted, it is updated during the stop using the update information of the data access table (18 or 28) stored during the stop. By adding hardware or software that can transfer only the contents of the disc (15 or 25), the mirror copy can be completed in a shorter time than before. I do. Also, by devising the data structure of the data access tables 18 and 28, the data access table can be updated even during the mirror copy, so that normal operations can be performed even during the mirror copy. is there.

【0014】次に、動作の一例として、図1、図2、図
3、及び図4に示すようなシステム及びアルゴリズムを
例に用いてシステム復旧の仕方を詳細に説明する。尚、
図2は、図1におけるデータアクセステーブルが行う処
理のアルゴリズムである。また、図3は、図1における
2台のコンピュータ構成によるフォールトトレラントシ
ステムが取りうる状態遷移図である。さらに、図4は、
図1の構成において、1台のコンピュータの障害から復
旧までの処理の流れを示すフローチャートである。
Next, as an example of the operation, a method of restoring the system will be described in detail using the systems and algorithms shown in FIGS. 1, 2, 3, and 4 as examples. still,
FIG. 2 shows an algorithm of processing performed by the data access table in FIG. FIG. 3 is a state transition diagram that can be taken by a fault-tolerant system having a configuration of two computers in FIG. Further, FIG.
FIG. 2 is a flowchart showing a flow of processing from failure to recovery of one computer in the configuration of FIG. 1.

【0015】先ず、正常時の動作について説明する。C
PU11およびCPU21での演算結果のチェックサム
をデータ通信手段16、26に転送し、お互いのデータ
をリンクケーブル3を使って転送して、データの整合性
を確認する。そして、ディスクアクセス時は、データ監
視手段13、23は、読み込みおよび書き込みデータの
チェックサムを生成して読み書きを行い、読み込みおよ
び書き込みが終了したら、ディスクインタフェース1
2、22とデータ通信手段16、26を使用して、生成
したチェックサムをリンクケーブル3より相互に転送し
て、データが一致しているかどうかを確認し、一致して
いれば次の処理に移る。
First, a normal operation will be described. C
The checksums of the calculation results of the PU 11 and the CPU 21 are transferred to the data communication means 16 and 26, and the mutual data is transferred using the link cable 3 to confirm data consistency. Then, at the time of disk access, the data monitoring means 13 and 23 generate a checksum of the read and write data and perform read and write.
The generated checksums are transferred to each other from the link cable 3 using the data communication means 16 and 26 and the data communication means 16 and 26 to confirm whether or not the data match. Move on.

【0016】ここで、図2のアルゴリズムを用いてデー
タアクセステーブル18、28の動作について詳細に説
明する。データアクセステーブル18、28の一要素
は、ディスク15、25の総容量をN分割したときの領
域に対応し、当該領域のディスク更新情報を保持してお
り、そのアドレスを左上から順に0、1、2と振って行
き、右上まできたら一段下の左に移りアドレスを振り当
てて行き、Nー1番のアドレスまで振り当てられてい
る。このデータアクセステーブル18、28の一要素
は、データフォーマット1の形式からなっており、障害
が発生したときに書き込まれたデータであることを示す
障害発生情報211と、そのデータを書き込むときに計
算したチェックサム212と、次に書き込みがあったデ
ータアクセステーブル18、28のアドレスを保存して
いるネクストアドレスポインタ213とからなる。
Here, the operation of the data access tables 18 and 28 will be described in detail using the algorithm of FIG. One element of the data access tables 18 and 28 corresponds to an area when the total capacity of the disks 15 and 25 is divided into N, holds disk update information of the area, and addresses 0, 1 in order from the upper left. When it reaches the upper right, it shifts to the lower left by one step and assigns the address, and the address is assigned to the N-1st address. One element of each of the data access tables 18 and 28 has the format of the data format 1, and includes failure occurrence information 211 indicating that the data is written when a failure occurs, and calculation when writing the data. The check sum 212 includes a next checksum 212 and a next address pointer 213 storing addresses of the data access tables 18 and 28 to which data has been written next.

【0017】また、データアクセステーブル18、28
には、障害復旧に必要なアドレスを保持するデータアド
レスレジスタ2が割り当てられている。データアドレス
レジスタ2は、最後にデータ更新した領域に対応したデ
ータアクセステーブル18、28のアドレスを示すラス
トアドレス221と、その一つ前にデータ更新した領域
に対応したデータアクセステーブルのアドレスを記憶し
ているプレラストアドレス222と、障害が発生した後
に一番最初にデータ更新した領域に対応したデータアク
セステーブルのアドレスを記録している障害発生アドレ
ス223と、ライトアクセス発生時の領域に対応したデ
ータアクセステーブル18、28のアドレスを示す、カ
レントアクセスアドレス224とからなっている。
The data access tables 18, 28
Is assigned a data address register 2 which holds an address required for failure recovery. The data address register 2 stores a last address 221 indicating the address of the data access tables 18 and 28 corresponding to the area in which data was updated last, and the address of the data access table corresponding to the area in which data was updated immediately before. The pre-last address 222, the failure occurrence address 223 that records the address of the data access table corresponding to the area updated first after the failure occurs, and the data corresponding to the area at the time of the write access. A current access address 224 indicates the address of the access tables 18 and 28.

【0018】ディスク15、25への書き込みが発生し
たときに、データ監視手段13、23がディスク15、
25のどの領域にデータを書き込むかを判定し、その領
域からデータアクセステーブル18、28のアドレスに
変換して、そのアドレスをデータアドレスレジスタ2内
のカレントアクセスアドレス224に保存する。そし
て、カレントアクセスアドレス224が示すデータアク
セステーブル18、28内のチェックサム212にライ
トアクセス時に計算したチェックサムを書き込む。
When writing to the disks 15 and 25 occurs, the data monitoring means 13 and 23
It is determined in which area of data 25 the data is to be written, the area is converted into an address of the data access tables 18 and 28, and the address is stored in the current access address 224 in the data address register 2. Then, the checksum calculated at the time of the write access is written to the checksum 212 in the data access tables 18 and 28 indicated by the current access address 224.

【0019】また、現在発生したライトアクセスは、最
後にライトアクセスした次のアクセスとなるので、ラス
トアドレス221の示すデータアクセステーブル18、
28内のネクストアドレスポインタ213を現在のアク
セスアドレスに更新する。すなわち、カレントアクセス
アドレス224をネクストアドレスポインタ213に保
存する。そして、今度は現在ライトアクセスした領域の
データアクセステーブル18、28が最後にアクセスし
た領域を示すことになるので、ラストアドレス221の
内容をプレラストアドレス222へ保存し、カレントア
クセスアドレス224の内容をラストアドレス221へ
保存する。このようにして、ライトアクセスのあった領
域のデータアクセステーブル18、28をポインタ接続
することによってディスク15、25の更新履歴を保存
しておく。
Further, the currently generated write access is the next access after the last write access, so that the data access table 18 indicated by the last address 221
The next address pointer 213 in 28 is updated to the current access address. That is, the current access address 224 is stored in the next address pointer 213. Then, since the data access tables 18 and 28 of the currently accessed area indicate the last accessed area, the contents of the last address 221 are stored in the pre-last address 222, and the contents of the current access address 224 are stored. Save to the last address 221. In this way, the update history of the disks 15 and 25 is stored by connecting the data access tables 18 and 28 of the areas to which the write access has been made with the pointer.

【0020】次に、図3の状態遷移図により、2台のコ
ンピュータ1、2の構成によるフォールトトレラントシ
ステムが取りうる状態遷移について説明する。コンピュ
ータ1およびコンピュータ2が起動していて、ディスク
15、25のデータ内容に違いが無く、同一の動作をし
ている状態を正常運転311、コンピュータ(1または
2)が一方しか動作していない状態を片方運転312、
システムとして動作できない状態をシステム停止31
3、ディスク15、25の差分を転送している状態を復
旧運転314とすることによって、4つの状態で表すこ
とが出来る。
Next, with reference to the state transition diagram of FIG. 3, the state transition that can be taken by the fault-tolerant system constituted by the two computers 1 and 2 will be described. When the computer 1 and the computer 2 are running, there is no difference in the data contents of the disks 15 and 25, and the same operation is performed. The normal operation 311 and the computer (1 or 2) operates only one of them. The one-way operation 312,
Stop the system that cannot be operated as a system 31
3. By setting the state in which the difference between the disks 15 and 25 is being transferred as the recovery operation 314, the state can be represented by four states.

【0021】また、状態遷移は矢印の方向に発生し、そ
れぞれの条件は、コンピュータが異常を検出して停止す
る条件の一台停止301、一台停止している状態でさら
にもう一台停止する条件のもう一台停止302、復旧運
転中に再起動したコンピュータが停止する条件の転送先
が停止303、一台運転の状態で停止していたコンピュ
ータを再起動する条件の一台再起動304、システム停
止状態から長く動作していたコンピュータが再起動する
条件の転送元再起動305、復旧運転中に長く動作して
いるコンピュータが異常で停止してしまう条件の転送元
が停止306、ディスクの差分情報を全て転送し終わる
条件のディスクコピー終了307、の7つの条件によっ
て遷移する。
The state transition occurs in the direction of the arrow, and the respective conditions are as follows: a condition that the computer detects an abnormality and stops, one stop 301, and another stop when one is stopped. Another condition stop 302, a computer restarted during the recovery operation is stopped, a condition transfer destination is stopped 303, a condition for restarting a computer stopped in the single operation state, a condition one restart 304, Transfer source restart 305 of the condition that the computer that has been operating for a long time from the system stop state is restarted, transfer source of the condition that the computer that has been running for a long time during the recovery operation stops due to an abnormality is stopped 306, and the disk difference The transition is made according to the seven conditions of the end of disk copy 307, which is the condition of ending all information transfer.

【0022】次に、図4のフローチャートを用いて、コ
ンピュータ2が障害で停止した状態で、片方運転312
から正常運転311へ復帰するまでに行う処理の流れを
説明する。先ず、故障検出手段27がコンピュータ2の
内部の装置のハードウエアの故障を検出したらコンピュ
ータ2の動作を停止する(Step1)。これによって、コ
ンピュータ1が障害回避モードに移行する。すなわち、
コンピュータ1のデータ通信手段16がコンピュータ2
のデータ通信手段26と通信出来ないため、コンピュー
タ2の停止を検出し、その情報をディスクインタフェー
ス12に伝える。すると、ディスクインタフェース12
は、コンピュータ1のみで動作していることを認識し、
その情報をデータ監視手段13に知らせる。この情報を
受けたデータ監視手段13は、プレラストアドレス22
2を障害発生アドレス223に書き込み、プレラストア
ドレス222およびラストアドレス221に書かれてい
るアドレスの示すデータアクセステーブル18の障害発
生情報211をONにする。こうすることによって、障
害が発生していることを示す障害発生フラッグが上がり
データアクセステーブル18に情報を書き込む際に障害
発生情報211をONにしてデータを書き込むモードへ
と移行する(Step2)。
Next, referring to the flowchart of FIG. 4, in the state where the computer 2 is stopped due to a failure, the one-way operation 312 is executed.
The flow of the processing performed until the operation returns to the normal operation 311 will be described. First, when the failure detecting means 27 detects a hardware failure of a device inside the computer 2, the operation of the computer 2 is stopped (Step 1). As a result, the computer 1 shifts to the failure avoidance mode. That is,
The data communication means 16 of the computer 1 is
Since the communication with the data communication means 26 cannot be performed, the stop of the computer 2 is detected, and the information is transmitted to the disk interface 12. Then, the disk interface 12
Recognizes that it operates only on the computer 1,
The information is notified to the data monitoring means 13. Upon receiving this information, the data monitoring means 13 sends the pre-last address 22
2 is written to the fault occurrence address 223, and the fault occurrence information 211 of the data access table 18 indicated by the addresses written in the pre-last address 222 and the last address 221 is turned on. By doing so, a failure flag indicating that a failure has occurred is raised, and when writing information to the data access table 18, the failure occurrence information 211 is turned on to shift to a mode for writing data (Step 2).

【0023】次に、CPU11が要求するディスクアク
セスを制御する(Step3)。この制御方法は、別フロー
のSetp20〜Step26によって説明する。すなわち、CPU
11がディスク15へのアクセスを要求すると、ディス
クインタフェース12を経てデータ監視手段13に命令
が転送される(Step20)。次に、その命令を解析し(St
ep21)、読み込み命令なら、ディスクコントローラ14
を制御してディスク15からデータを読み出して(Step
26)、デスクへのアクセス要求を終了する(Step25)。
一方、Step21での解析結果が書き込み命令なら、ディス
クコントローラ14を制御してディスク15にデータを
書き込む(Step22)。そのとき、データ監視手段13は
チェックサムを生成する。また、書き込みアドレスに対
応するデータアクセステーブル18のアドレスを決定
し、カレントアクセスアドレス224に書き込む。
Next, the disk access requested by the CPU 11 is controlled (Step 3). This control method will be described with reference to Setp20 to Step26 of another flow. That is, CPU
When 11 requests access to the disk 15, an instruction is transferred to the data monitoring means 13 via the disk interface 12 (Step 20). Next, the instruction is analyzed (St
ep21) If the read command, disk controller 14
To read data from the disk 15 (Step
26), the access request to the desk ends (Step 25).
On the other hand, if the analysis result in Step 21 is a write command, the disk controller 14 is controlled to write data to the disk 15 (Step 22). At that time, the data monitoring means 13 generates a checksum. Further, the address of the data access table 18 corresponding to the write address is determined, and is written to the current access address 224.

【0024】次に、データアクセステーブル18の作成
を行う。すなわち、ラストアドレス221の示すアドレ
スにあるデータアクセステーブル18内のネクストアド
レスポインタ213にカレントアクセスアドレス224
の内容を書き込み、カレントアクセスアドレス224の
示すデータアクセステーブル18内の障害発生情報21
1をONに設定し、片方運転312中のライトアクセス
であることを示す。また、チェックサム212には、St
ep22で生成したチェックサムを書き込み、ネクストアド
レスポインタ213には、リストの最後であることを示
すために存在しないアドレス(N)を書き込む(Step2
3)。
Next, the data access table 18 is created. That is, the current access address 224 is stored in the next address pointer 213 in the data access table 18 at the address indicated by the last address 221.
Is written, and the failure occurrence information 21 in the data access table 18 indicated by the current access address 224 is written.
1 is set to ON to indicate that it is a write access during one-way operation 312. Also, the checksum 212 includes St
The checksum generated in ep22 is written, and an address (N) that does not exist to indicate the end of the list is written in the next address pointer 213 (Step 2).
3).

【0025】尚、Step23において、データアクセステー
ブル18を更新する際にすでに障害発生情報211がO
Nである場合は、すでに片方運転312状態中に当該領
域へのライトアクセスが発生していたことを示してお
り、この場合はチェックサム212のみを書き換えてSt
ep25に進む。すなわち、当該同アドレスに対する更新デ
ータ情報のみを書き換えて、ディスクへのアクセス要求
を終了する(Step25)。一方、Step23において、データ
アクセステーブルを更新する際に障害発生情報211が
OFFである場合は、プレラストアドレス222にラス
トアドレス221を、ラストアドレス221にカレント
アクセスアドレス224を書き込み、データアドレスレ
ジスタを更新し(Step24)、命令実行終了をディスクイ
ンタフェース12に伝え、ディスクへのアクセスを終了
する(Step25)。
In step 23, when the data access table 18 is updated, the fault occurrence information 211 is already
N indicates that write access to the area has already occurred during the one-way operation 312 state. In this case, only the checksum 212 is rewritten to
Proceed to ep25. That is, only the update data information for the same address is rewritten, and the access request to the disk is terminated (Step 25). On the other hand, in Step 23, when the failure occurrence information 211 is OFF when updating the data access table, the last address 221 is written to the pre-last address 222, the current access address 224 is written to the last address 221, and the data address register is updated. Then, the end of instruction execution is transmitted to the disk interface 12 to terminate the access to the disk (Step 25).

【0026】このようにしてディスクアクセスが終了す
ると、前述のStep3よりStep4へ進む。すなわち、データ
通信手段16が、コンピュータ2が再起動したかどうか
を確認し(Step4)、NOであるならばStep3へ戻り、前
述のStep20〜Step26を実行して、データアクセステーブ
ルの障害発生情報211をONにしながら記録を更新し
て行くことによって、片方運転312の状態時のデータ
更新履歴を保存して行く。
When the disk access is completed in this manner, the process proceeds from Step 3 described above to Step 4. That is, the data communication means 16 confirms whether the computer 2 has been restarted (Step 4), and if NO, returns to Step 3, executes the above-described Step 20 to Step 26, and executes the failure occurrence information 211 of the data access table. By updating the record while turning ON, the data update history in the state of the one-way operation 312 is stored.

【0027】一方、Step4において、データ通信手段1
6によってコンピュータ2が再起動したかどうかの確認
がYESであるならばStep5に進む。すなわち、コンピ
ュータ2が再起動した際に、ディスク25のディスクデ
ータが停止前と同じ内容であるかを確認するために、デ
ータアクセステーブル28に記録されているラストアド
レス221およびプレラストアドレス222のそれぞれ
が指すデータアクセステーブル28のチェックサム21
2を取り出し、実際に記録されているディスクデータを
読み出してチェックサムを生成し、チェックサムが停止
前と一致しているかどうかを確認する。すなわち、一致
したかどうかの情報をコンピュータ1のデータ通信手段
16が確認し、ディスクインタフェース12を経由して
データ監視手段13に知らせる(Step5)。
On the other hand, in Step 4, the data communication means 1
If the confirmation of whether or not the computer 2 has been restarted by YES is YES, the process proceeds to Step 5. That is, when the computer 2 is restarted, each of the last address 221 and the pre-last address 222 recorded in the data access table 28 is used to check whether the disk data of the disk 25 has the same contents as before the stop. Checksum 21 of data access table 28 indicated by
2 is taken out, the actually recorded disk data is read out to generate a checksum, and it is confirmed whether or not the checksum is the same as before the stop. That is, the data communication means 16 of the computer 1 confirms whether or not they match, and notifies the data monitoring means 13 via the disk interface 12 (Step 5).

【0028】また、ディスク25のデータはコンピュー
タ2が停止していた片方運転312の間、データの更新
が行われておらず、古いデータとなるため、CPU21
はディスク25のデータを使用できないので、ディスク
インタフェース22を使用せず、データ通信手段26、
リンクケーブル3およびデータ通信手段16を使用し
て、ディスクインタフェース12を使用する。
The data on the disk 25 is not updated during the one-way operation 312 in which the computer 2 is stopped, and becomes old data.
Cannot use the data on the disk 25, and therefore does not use the disk interface 22 and uses the data communication means 26,
The disk interface 12 is used by using the link cable 3 and the data communication means 16.

【0029】そして、Step6ではミラーコピーモードに
移行して図3における復旧運転314の状態となる。す
なわち、データ監視手段13に転送されてきたチェック
サムの比較結果が両方とも一致した場合は、ディスク2
5のデータがコンピュータ2が停止する前と同じである
と判断できるため、データの差分のみを転送するモード
に切り替わる。またチェックサムの比較結果が一つでも
一致しない場合は、ディスクの交換などによりディスク
25のデータがコンピュータ2が停止する前と異なって
いると判断できるため、ディスク15に書かれている全
てのデータを転送するモードに切り替える(step6)。
Then, in Step 6, the mode shifts to the mirror copy mode and the state of the recovery operation 314 in FIG. 3 is set. That is, if both of the comparison results of the checksums transferred to the data monitoring means 13 match, the disk 2
Since it can be determined that the data No. 5 is the same as before the stop of the computer 2, the mode is switched to the mode for transferring only the difference between the data. If even one comparison result of the checksums does not match, it is possible to judge that the data on the disk 25 is different from that before the computer 2 stopped due to disk exchange or the like. Is switched to the transfer mode (step 6).

【0030】ここで、Step6において、データの差分の
みを転送するモードである場合は、データアドレスレジ
スタ2に記憶されている障害発生アドレス223が示す
アドレスに対応するディスク15のデータを転送し、次
に障害発生アドレス223が示すデータアクセステーブ
ルのネクストアドレスポインタ213に書かれているア
ドレスに対応したディスクデータを順々に転送するため
に、Step7のディスクアクセスに移る。
Here, in Step 6, in the case of the mode for transferring only the data difference, the data on the disk 15 corresponding to the address indicated by the fault occurrence address 223 stored in the data address register 2 is transferred. In order to sequentially transfer the disk data corresponding to the address written in the next address pointer 213 of the data access table indicated by the failure occurrence address 223, the process proceeds to Step 7 disk access.

【0031】また、Step6において、全てのデータを転
送するモードである場合は、ディスク15のデータ全て
をディスク25に転送する必要があるので、データアク
セステーブル18にある差分情報を破棄し、全てのデー
タが転送できるように、次のような処理を行う。すなわ
ち、あるアドレス(i)の障害発生情報211をON
し、ネクストアドレスポインタ213にアドレス(i+
1)を書き込む、というような作業を、アドレス(0)
からアドレス(N−1)まで全てのデータに対して行
う。データアクセステーブル18の更新が終了したら、
ラストアドレス221に(N−1)、プレラストアドレ
ス222に(N−2)、障害発生アドレス223に
(0)を書き込み、Step7のディスクアクセスに移る。
In Step 6, if the mode is to transfer all data, all the data in the disk 15 must be transferred to the disk 25, so the difference information in the data access table 18 is discarded, and all the data is discarded. The following processing is performed so that data can be transferred. That is, the failure occurrence information 211 of a certain address (i) is turned ON.
Then, the address (i +
The work of writing 1) is performed at address (0)
To the address (N-1). When the data access table 18 has been updated,
(N-1) is written to the last address 221, (N-2) is written to the pre-last address 222, and (0) is written to the failure occurrence address 223, and the process proceeds to Step 7 disk access.

【0032】Step7では、CPU11またはCPU21
からライトアクセスを処理するステップで、Step3と全
く同じ処理を行う。つまり、ミラーコピー中もディスク
15のデータ更新を行うことが出来る。また、CPU1
1またはCPU21からのライトアクセス要求がなけれ
ば、Step7のディスクアクセスは実行されずに、Step8の
ディスクコピーの実行に進む。
In Step 7, the CPU 11 or the CPU 21
In this step, the same process as in Step 3 is performed. That is, the data of the disk 15 can be updated even during the mirror copy. CPU1
If there is no write access request from the CPU 1 or the CPU 21, the disk access in Step 7 is not performed, and the process proceeds to the disk copy in Step 8.

【0033】すなわち、Step8では、コンピュータ1が
データアクセステーブル18の障害発生アドレス223
が示すデータアクセステーブルに対応するディスク15
のデータをディスク25に転送する。コンピュータ2で
は、データ監視手段23が正常動作時と同じ処理を行う
ので、ライトアクセス時にチェックサムの生成とカレン
トアクセスアドレス224を更新して、データアクセス
テーブル28のカレントアクセスアドレス224が指す
データアクセステーブルのアドレスのチェックサム21
2と、ラストアドレス221が指すデータアクセステー
ブルのアドレスのネクストアドレスポインタ213にカ
レントアクセスアドレス224を書き込み、ラストアド
レス221の内容をプレラストアドレス222に、カレ
ントアクセスアドレス224の内容をラストアドレス2
21に転送する(Step8)。
That is, in Step 8, the computer 1 sets the fault occurrence address 223 of the data access table 18 to
Disk 15 corresponding to the data access table indicated by
Is transferred to the disk 25. In the computer 2, since the data monitoring means 23 performs the same processing as in the normal operation, the checksum generation and the current access address 224 are updated at the time of the write access, and the data access table indicated by the current access address 224 of the data access table 28 is written. Checksum 21 of the address
2, the current access address 224 is written to the next address pointer 213 of the address of the data access table indicated by the last address 221, the contents of the last address 221 are set to the pre-last address 222, and the contents of the current access address 224 are set to the last address 2
21 (Step 8).

【0034】次に、Step9において、データアドレスレ
ジスタの更新を行う。すなわち、コンピュータ2のディ
スク25でライトアクセスが正常に終了したら、データ
監視手段23が、ディスクインタフェース22、データ
通信手段26、リンクケーブル3、データ通信手段16
及びディスクインタフェース12を経由して、コンピュ
ータ1のデータ監視手段13に終了確認を知らせる。コ
ンピュータ1は、正常終了の情報が確認できたら、デー
タアクセステーブル18の障害発生アドレス223が示
すデータアクセステーブル18に書かれている障害発生
情報211をOFFにする。また、障害発生アドレス2
23が示すデータアクセステーブル18に書かれている
ネクストアドレスポインタ113を障害発生アドレス2
23に書き込む(Step9)。
Next, in Step 9, the data address register is updated. That is, when the write access is normally completed on the disk 25 of the computer 2, the data monitoring unit 23 sets the disk interface 22, the data communication unit 26, the link cable 3, and the data communication unit 16.
Then, the end confirmation is notified to the data monitoring means 13 of the computer 1 via the disk interface 12. When the information of the normal end is confirmed, the computer 1 turns off the failure occurrence information 211 written in the data access table 18 indicated by the failure occurrence address 223 of the data access table 18. In addition, failure address 2
23, the next address pointer 113 written in the data access table 18 is set to the fault occurrence address 2
23 is written (Step 9).

【0035】そして、Step10ではミラーリングが終了し
たかどうかの判定を行う。すなわち、データアクセステ
ーブル18の障害発生アドレス223がNでなければ
(すなわち、NOなら)、Step7のディスクアクセスに
戻る。また、Nならば(すなわち、YESなら)、これ
以上リストは存在しないので、二系統のコンピュータを
正常系に復帰させる(Step11)。つまり、Step7〜Step9
までの処理を、データアクセステーブル18のネクスト
アドレスポインタが終わりを示すアドレス(N)になる
まで繰り返すことによって、片方運転312の間に更新
したデータを転送することが出来る。
Then, in Step 10, it is determined whether or not mirroring has been completed. That is, if the failure occurrence address 223 of the data access table 18 is not N (that is, if NO), the process returns to Step 7 disk access. If N (that is, if YES), there are no more lists, and the two computers are returned to the normal system (Step 11). That is, Step 7 to Step 9
By repeating the above processing until the next address pointer of the data access table 18 reaches the address (N) indicating the end, the updated data can be transferred during the one-way operation 312.

【0036】Step11では、データ監視手段13を正常動
作モードに移行する。すなわち、正常モードであること
をディスクインタフェース12、データ通信手段16、
リンクケーブル3及びデータ通信手段26を経由してC
PU21に知らせる。コンピュータ2のCPU21はデ
ィスク15とディスク25との差分データの転送が完了
したことによりディスク25のデータが復旧し、ディス
クへのアクセス時にはディスクインタフェース22を使
用するようになり、正常系に復帰できる。
In Step 11, the data monitoring means 13 shifts to the normal operation mode. That is, the normal mode is indicated by the disk interface 12, the data communication unit 16,
C via the link cable 3 and the data communication means 26
Notify PU21. The CPU 21 of the computer 2 recovers the data of the disk 25 when the transfer of the differential data between the disk 15 and the disk 25 is completed, uses the disk interface 22 when accessing the disk, and can return to the normal system.

【0037】以上述べた実施の形態は本発明を説明する
ための一例であり、本発明は、上記の実施の形態に限定
されるものではなく、発明の要旨の範囲で種々の変形が
可能である。例えば、複数のコンピュータで同じファイ
ルを保存しているような、冗長系ネットワークサーバー
システムにおいても、本発明が適用できることは云うま
でもない。
The embodiment described above is an example for describing the present invention, and the present invention is not limited to the above embodiment, and various modifications are possible within the scope of the invention. is there. For example, it goes without saying that the present invention can be applied to a redundant network server system in which the same file is stored in a plurality of computers.

【0038】[0038]

【発明の効果】以上説明したように、コンピュータの二
重化によるフォールトトレラントシステムでは、ハード
ウエアの故障が発見されたらコンピュータを停止させな
いと不良部品を交換できない状況がある。特に、両系で
ハードディスクをミラーリングしている場合、片系運転
状態から安定なシステムに復旧するためには、各ハード
ディスクの情報を両系で同一にする作業が必要となる。
しかし、従来の方式は、片系のコンピュータがダウン状
態から復旧し、復旧したコンピュータのハードディスク
情報を復元する場合、継続運転していたコンピュータの
ディスク内の情報全てを復旧したコンピュータのディス
クへコピーしていたため、ディスクのミラーリングが完
了するのに相当な時間がかかり、障害復旧までの時間の
殆どをディスクデータ復旧のためのミラーコピー時間で
占めている状況であり、システムの信頼性の低下を招い
ていた。しかし、本発明を適用することにより、ディス
クデータの復旧時には必要最低限のデータを転送するだ
けでよいので、大幅に復旧時間が短縮され、従来に比べ
て一層信頼性の高いフォールトトレラントシステムを構
築することが出来る。
As described above, in a fault-tolerant system using a dual computer, if a hardware failure is found, a defective component cannot be replaced unless the computer is stopped. In particular, when the hard disks are mirrored in both systems, it is necessary to make the information of each hard disk the same in both systems in order to restore a stable system from a single operation state.
However, in the conventional method, when one computer is recovered from the down state and the hard disk information of the recovered computer is restored, all the information in the disk of the computer that has been running continuously is copied to the disk of the recovered computer. Therefore, it takes a considerable time to complete the mirroring of the disk, and most of the time until the failure recovery is occupied by the mirror copy time for the disk data recovery, resulting in a decrease in system reliability. I was However, by applying the present invention, it is only necessary to transfer the minimum necessary data when restoring disk data, so the restoration time is greatly reduced, and a more reliable fault-tolerant system is constructed compared to the past. You can do it.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の実施の形態におけるコンピュータシ
ステムの構成を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a computer system according to an embodiment of the present invention.

【図2】 図1におけるデータアクセステーブルが行う
処理のアルゴリズムである。
FIG. 2 is an algorithm of a process performed by a data access table in FIG. 1;

【図3】 図1における2台のコンピュータ構成による
フォールトトレラントシステムが取りうる状態遷移図で
ある。
FIG. 3 is a state transition diagram that can be taken by a fault-tolerant system having two computers in FIG. 1;

【図4】 図1の構成において、1台のコンピュータの
障害から復旧までの処理の流れを示すフローチャートで
ある。
FIG. 4 is a flowchart showing a flow of processing from failure to recovery of one computer in the configuration of FIG. 1;

【符号の説明】[Explanation of symbols]

1、2…コンピュータ、11、21…CPU、12、2
2…ディスクインターフェース、13、23…データ監
視手段、14、24…ディスクコントローラ、15、2
5…ディスク、16、26…データ通信手段、17、2
7…故障検出手段、18、28…データアクセステーブ
1, 2, computer, 11, 21 CPU, 12, 2
2 ... Disk interface, 13, 23 ... Data monitoring means, 14, 24 ... Disk controller, 15, 2
5 disk, 16, 26 data communication means 17, 2,
7: Failure detecting means, 18, 28: Data access table

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 同一のハードウエア構成を持つ二系の対
向するコンピュータが、相互通信しながら同一動作を行
うことにより、信頼性の向上を図るように構成されたフ
ォールトトレラントシステムであって、 それぞれの前記コンピュータに接続されているハードデ
ィスクをミラーリングして同一情報を相互に保有し、前
記ハードディスク以外の障害発生によるコンピュータ停
止後の復旧処理を行うフォールトトレラントシステムに
おけるミラーディスク復旧方式において、 それぞれの前記コンピュータは、 ハードディスクの障害以外の要因で、他のコンピュータ
が停止及び復旧作業をしている間に更新された、差分デ
ータ情報を保存する特別保存領域を備え、 障害を起こしたコンピュータが修復して二系のシステム
に復帰して、ディスクデータをリカバリするときは、 正常なコンピュータは、システムに復帰したコンピュー
タに対して、自己の特別保存領域に保存されている差分
データ情報のみを転送することによって、二系のシステ
ムに復帰させることを特徴とするフォールトトレラント
システムにおけるミラーディスク復旧方式。
1. A fault-tolerant system in which two opposite computers having the same hardware configuration perform the same operation while communicating with each other to improve reliability. A mirror disk recovery method in a fault-tolerant system that mirrors a hard disk connected to the computer to mutually retain the same information and performs recovery processing after a computer stoppage due to a failure other than the hard disk, Has a special storage area for storing differential data information that was updated while other computers were shutting down and recovering due to factors other than a hard disk failure. System and restore the disk When recovering data, a normal computer must be able to return to the secondary system by transferring only the differential data information stored in its own special storage area to the computer that has returned to the system. Mirror disk recovery method in a fault-tolerant system.
【請求項2】 二系のシステムを構成するそれぞれのコ
ンピュータは、 主たる演算を行うCPU(中央演算装置)と、 ディスクと他のハードウエアとのインタフェースを提供
するディスクインターフェースと、 前記ディスクとのデータアクセスを直接行うディスクコ
ントローラと、 データを保存するために使用されるディスクと、 それぞれの前記コンピュータの相互に、データの受け渡
しを実現させるデータ通信手段と、 前記コンピュータ全体のハードウエアの故障を監視し、
故障を発見した場合に該コンピュータ全体の機能を停止
させる機能を有す故障検出手段と、 前記二系のシステムが片系運転または復旧運転時に作成
された差分データ情報を記録するための記憶媒体であ
り、ミラーコピーに必要なディスク書き込み命令発行時
の書き込み位置、及びそのときのステータスを記憶して
おくデータアクセステーブルと、 前記ディスクへのアクセス命令がデータの読み出しか書
き込みかを判別して、 前記データアクセステーブルに書き込むデータを作成す
るデータ監視手段とを備え、 該データアクセステーブルが、前記特別保存領域とし
て、他のコンピュータが停止及び復旧作業をしている間
に更新された差分データ情報を保存することを特徴とす
る請求項1記載のフォールトトレラントシステムにおけ
るミラーディスク復旧方式。
2. Computers constituting a two-system system include: a CPU (Central Processing Unit) for performing main operations; a disk interface for providing an interface between a disk and other hardware; and data for the disk. A disk controller for performing direct access, a disk used for storing data, data communication means for realizing data exchange between the respective computers, and monitoring of hardware failure of the entire computer ,
A failure detection unit having a function of stopping the function of the entire computer when a failure is found; and a storage medium for recording difference data information created during the single system operation or the recovery operation by the second system. Yes, a data access table that stores a write position at the time of issuing a disk write instruction required for mirror copy, and a status at that time, and determines whether the access instruction to the disk is data read or write, Data monitoring means for creating data to be written to the data access table, wherein the data access table stores, as the special storage area, difference data information updated while other computers are stopped and restored. 2. The mirror device in a fault tolerant system according to claim 1, wherein Disk recovery method.
【請求項3】 前記データアクセステーブルは、電源が
切れても内容を保持できるフラッシュメモリの記憶媒体
で構成されていることを特徴とする請求項2記載のフォ
ールトトレラントシステムにおけるミラーディスク復旧
方式。
3. The mirror disk recovery method in a fault tolerant system according to claim 2, wherein said data access table is constituted by a storage medium of a flash memory capable of retaining contents even when power is turned off.
【請求項4】前記データアクセステーブルは、前記コン
ピュータが備えるディスクの未使用領域に設けられてい
ることを特徴とする請求項3記載のフォールトトレラン
トシステムにおけるミラーディスク復旧方式。
4. The mirror disk recovery method in a fault tolerant system according to claim 3, wherein said data access table is provided in an unused area of a disk provided in said computer.
JP09702699A 1999-04-02 1999-04-02 Mirror Disk Recovery Method in Fault Tolerant System Expired - Fee Related JP3399398B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09702699A JP3399398B2 (en) 1999-04-02 1999-04-02 Mirror Disk Recovery Method in Fault Tolerant System

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09702699A JP3399398B2 (en) 1999-04-02 1999-04-02 Mirror Disk Recovery Method in Fault Tolerant System

Publications (2)

Publication Number Publication Date
JP2000293389A true JP2000293389A (en) 2000-10-20
JP3399398B2 JP3399398B2 (en) 2003-04-21

Family

ID=14180931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09702699A Expired - Fee Related JP3399398B2 (en) 1999-04-02 1999-04-02 Mirror Disk Recovery Method in Fault Tolerant System

Country Status (1)

Country Link
JP (1) JP3399398B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004326244A (en) * 2003-04-22 2004-11-18 Nec System Technologies Ltd Disk array system
JP2006510994A (en) * 2002-12-17 2006-03-30 オラクル・インターナショナル・コーポレイション Delta object replication system and method for clustered systems
US7426658B2 (en) 2005-03-24 2008-09-16 Fujitsu Limited Data storage system and log data equalization control method for storage control apparatus
US7487293B2 (en) 2005-03-24 2009-02-03 Fujitsu Limited Data storage system and log data output method upon abnormality of storage control apparatus
JP2009205630A (en) * 2008-02-29 2009-09-10 Nec Corp Fault tolerant server, full backup method, and full backup program
US7664981B2 (en) * 2004-07-22 2010-02-16 Samsung Electronics Co., Ltd. Method of restoring source data of hard disk drive and method of reading system information thereof
US9419929B2 (en) 2010-12-13 2016-08-16 Denso Corporation Electronic mail data processing device and method for processing electronic mail data
CN110990124A (en) * 2019-12-10 2020-04-10 北京京东尚科信息技术有限公司 Cloud host recovery method and device

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006510994A (en) * 2002-12-17 2006-03-30 オラクル・インターナショナル・コーポレイション Delta object replication system and method for clustered systems
JP4653495B2 (en) * 2002-12-17 2011-03-16 オラクル・インターナショナル・コーポレイション Delta object replication system and method for clustered systems
JP2004326244A (en) * 2003-04-22 2004-11-18 Nec System Technologies Ltd Disk array system
JP4564721B2 (en) * 2003-04-22 2010-10-20 Necシステムテクノロジー株式会社 Disk array system
US7664981B2 (en) * 2004-07-22 2010-02-16 Samsung Electronics Co., Ltd. Method of restoring source data of hard disk drive and method of reading system information thereof
US7426658B2 (en) 2005-03-24 2008-09-16 Fujitsu Limited Data storage system and log data equalization control method for storage control apparatus
US7487293B2 (en) 2005-03-24 2009-02-03 Fujitsu Limited Data storage system and log data output method upon abnormality of storage control apparatus
JP2009205630A (en) * 2008-02-29 2009-09-10 Nec Corp Fault tolerant server, full backup method, and full backup program
US9419929B2 (en) 2010-12-13 2016-08-16 Denso Corporation Electronic mail data processing device and method for processing electronic mail data
CN110990124A (en) * 2019-12-10 2020-04-10 北京京东尚科信息技术有限公司 Cloud host recovery method and device
CN110990124B (en) * 2019-12-10 2024-04-12 北京京东尚科信息技术有限公司 Cloud host recovery method and device

Also Published As

Publication number Publication date
JP3399398B2 (en) 2003-04-21

Similar Documents

Publication Publication Date Title
JP3732869B2 (en) External storage device
JP4884885B2 (en) Storage controller and storage controller failure recovery method
JP5768587B2 (en) Storage system, storage control device, and storage control method
CN101571815B (en) Information system and i/o processing method
US8498967B1 (en) Two-node high availability cluster storage solution using an intelligent initiator to avoid split brain syndrome
JP3618529B2 (en) Disk array device
US6006342A (en) Failover and failback system for a direct access storage device
US6591335B1 (en) Fault tolerant dual cache system
WO2002003204A1 (en) Three interconnected raid disk controller data processing system architecture
WO2012075845A1 (en) Distributed file system
JPH09231016A (en) Method and device for production of data snap shot copy in raid storage subsystem
US6816981B2 (en) Disk array device including a memory with backup power supply and method thereof
JPH09146842A (en) Storage subsystem
JP2002259062A (en) Storage device system and data copying method for data for the same
WO2021088367A1 (en) Data recovery method and related device
JPH09269871A (en) Data re-redundancy making system in disk array device
JP3399398B2 (en) Mirror Disk Recovery Method in Fault Tolerant System
US7529776B2 (en) Multiple copy track stage recovery in a data storage system
US20090177916A1 (en) Storage system, controller of storage system, control method of storage system
JP6335336B2 (en) Storage system and control method thereof
JPH1195933A (en) Disk array system
JP3776438B2 (en) Storage device
JP2004213470A (en) Disk array device, and data writing method for disk array device
JP2006114064A (en) Storage subsystem
JP2006260141A (en) Control method for storage system, storage system, storage control device, control program for storage system, and information processing system

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20021015

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080221

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090221

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100221

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100221

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110221

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees