JPH10133927A - Computer system and file managing method - Google Patents

Computer system and file managing method

Info

Publication number
JPH10133927A
JPH10133927A JP9232930A JP23293097A JPH10133927A JP H10133927 A JPH10133927 A JP H10133927A JP 9232930 A JP9232930 A JP 9232930A JP 23293097 A JP23293097 A JP 23293097A JP H10133927 A JPH10133927 A JP H10133927A
Authority
JP
Japan
Prior art keywords
file
computer
update
standby
checkpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9232930A
Other languages
Japanese (ja)
Other versions
JP4095139B2 (en
Inventor
Hideaki Hirayama
秀昭 平山
Toshio Shirokibara
敏雄 白木原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP23293097A priority Critical patent/JP4095139B2/en
Publication of JPH10133927A publication Critical patent/JPH10133927A/en
Application granted granted Critical
Publication of JP4095139B2 publication Critical patent/JP4095139B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a computer system realizing rolling back at the time of generating a fault without waiting the saving of data before update at the time of updating a file. SOLUTION: When writing, etc., is requested to the file, 'file writing information' is preserved in an unidentified queue 431 to instantly update only a primary file 39. Then after a check point is picked up, 'file writing information' preserved in the queue 431 is moved to an identified queue 432 to reflect to a backup file 41. On the other hand, at the time of recovery, all the pieces of data before update corresponding to data updated after a finally picked check point are read from the file 41 based on 'file writing information' preserved in the queue 431 to recover the file 39 to the point of a check point time by using this read data before update.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、たとえばネット
ワーク接続された複数のコンピュータにより構成される
ネットワークコンピューティング環境などにおいて、高
い信頼性を必要とするグループコンピューティング処
理、データベース処理、およびトランザクション処理な
どに適用して好適なコンピュータシステムおよびファイ
ル管理方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a group computing process, a database process, a transaction process, and the like that require high reliability in a network computing environment including a plurality of computers connected to a network. The present invention relates to a computer system and a file management method suitable for application.

【0002】[0002]

【従来の技術】CPUによって実行されるプロセスのア
ドレス空間やコンテクスト、およびファイルなどの状態
を定期的に採取して(これをチェックポイントと称
す)、障害が発生したときに、最後に採取したチェック
ポイントの状態を復元し、その時点からプロセスの実行
を再開始するといった障害からの回復機能を有したシス
テムにおいては、従来より外部入出力処理に関して課題
があった。すなわち、障害が発生したときに、最後に採
取したチェックポイントからプロセスを再実行させる
際、プロセスのアドレス空間やプロセッサのコンテクス
トなどの状態は復元できるが、外部入力装置の状態の復
元は容易ではなかった。
2. Description of the Related Art The status of a process executed by a CPU, such as an address space, a context, and a file, is periodically collected (this is referred to as a checkpoint). In a system having a failure recovery function such as restoring the state of a point and restarting the execution of the process from that point, there has been a problem regarding external input / output processing. In other words, when a failure occurs, when the process is re-executed from the last collected checkpoint, the state such as the address space of the process and the context of the processor can be restored, but the state of the external input device is not easy to restore. Was.

【0003】たとえば、ファイルに対する書き込みをキ
ャンセルすることは困難であるために、ファイルに対し
て書き込みを行なうときには、データをファイルに書き
込む前に書き込み以前のデータを事前に読み込んで保存
を行ない、その後にファイルへのデータ書き込みを行な
っていた。
For example, since it is difficult to cancel writing to a file, when writing to a file, data before writing is read and saved before writing data to the file. Data was being written to the file.

【0004】図15は、ファイルに対する書き込みをキ
ャンセルすることが困難なため、ファイルに対して書き
込みを行なうときに、データをファイルに書き込む前に
書き込み以前のデータを事前に読み込んで保存を行な
い、その後にファイルへのデータ書き込みを行なう従来
のシステムの仕組みを説明する図である。
FIG. 15 shows that it is difficult to cancel writing to a file. Therefore, when writing to a file, data before writing is read and saved before writing data to the file. FIG. 1 is a diagram for explaining a mechanism of a conventional system for writing data to a file.

【0005】この例では、時刻t1のチェックポイント
を採取した時点において“ABCD”の4バイトのデー
タからなるファイルに、時刻t2において1バイト目に
“X”をwriteしている(1)。この場合、従来で
は、ファイルの1バイト目に“X”をwriteする前
に、ファイルの1バイト目のデータ“B”をreadし
ておき(これをundoログとも言う)(2)、その後
でファイルの1バイト目に“X”をwriteしている
(3)。
In this example, "X" is written to the first byte at time t2 in a file consisting of 4 bytes of data "ABCD" at the time when the checkpoint is taken at time t1 (1). In this case, conventionally, before writing "X" to the first byte of the file, data "B" of the first byte of the file is read (this is also called an undo log) (2), and thereafter, “X” is written in the first byte of the file (3).

【0006】その後、時刻t3において障害が発生した
ために、プロセスを最後に採取されたチェックポイント
の状態(t1)にロールバックする。ファイルは、チェ
ックポイントt1以降に1バイト目が“X”に更新され
ているが、更新時に採取されたundoログを用いるこ
とにより、チェックポイントt1の状態を復元してい
る。なお、このundoログは、次のチェックポイント
時に不要となり廃棄される。
After that, at time t3, the process is rolled back to the last checkpoint state (t1) because a failure has occurred. The first byte of the file is updated to “X” after the checkpoint t1, but the state of the checkpoint t1 is restored by using the undo log collected at the time of the update. This undo log becomes unnecessary at the next checkpoint and is discarded.

【0007】また、たとえば2つのコンピュータにより
構築され、その一方(プライマリコンピュータ)を運用
系、他方(バックアップコンピュータ)を待機系として
振り分けて2重化し、プライマリコンピュータに障害が
発生したときに、バックアップコンピュータが処理を引
き継くことによってシステムの可用性を高めるといった
システムも存在する。そして、このようなシステムで、
前述したようにチェックポイントを定期的に採取してい
けば、信頼性をさらに向上させることが可能となる。
Also, for example, the computer is constructed by two computers, one of which (primary computer) is distributed as an active system and the other (backup computer) is divided into a standby system and duplicated, and when a failure occurs in the primary computer, the backup computer There is also a system that increases the availability of the system by taking over the processing. And with such a system,
As described above, if checkpoints are periodically collected, the reliability can be further improved.

【0008】[0008]

【発明が解決しようとする課題】この様に、プロセスの
アドレス空間やコンテクスト、およびファイルなどの状
態、すなわち、チェックポイントを定期的に採取してい
き、障害が発生したときに、最後に採取したチェックポ
イントの状態を復元し、その時点からプロセスの実行を
再開始するといった障害からの回復機能を有したシステ
ム(2重化されているかどうかを問わない)において
は、その信頼性は向上されるが、一方で、ファイルの更
新(たとえば書き込み)を行なうときに、一旦更新前の
データをファイルから読み込んで、それからファイルへ
の更新を行なわなければならなかったために、ファイル
の更新性能を低下させるという課題があった。
As described above, the state of the address space, the context, and the file of the process, that is, the checkpoint is periodically collected, and when a failure occurs, the state is finally collected. In a system (whether or not duplexed) having a failure recovery function of restoring the checkpoint state and restarting the process execution from that point, the reliability is improved. However, on the other hand, when updating (for example, writing) a file, the data before updating has to be once read from the file, and then the file must be updated. There were challenges.

【0009】この発明は、このような実情に鑑みてなさ
れたものであり、チェックポイントを定期的に採取し
て、障害が発生したときには最後に採取したチェックポ
イントの状況を復元し、その時点からプロセスの実行を
再開始するといった障害からの回復機能を有したシステ
ムにおいて、ファイルの更新を行なうときに、更新前の
データをファイルから読み込むなどといったことを不要
とし、ファイルの更新性能を大幅に改善することを可能
とするコンピュータシステムおよびファイル管理方法を
提供することを目的とする。
The present invention has been made in view of such circumstances, and periodically collects checkpoints and restores the status of the last checkpoint collected when a failure occurs. In a system that has a recovery function from a failure such as restarting the execution of a process, when updating a file, it is not necessary to read the data before updating from the file, greatly improving the file update performance. It is an object of the present invention to provide a computer system and a file management method capable of performing such operations.

【0010】[0010]

【課題を解決するための手段】この発明のコンピュータ
システムは、運用系および待機系の2つのコンピュータ
で2重化されたコンピュータシステムであって、中断さ
れた処理を再開始するためのチェックポイントを定期的
に採取し、前記運用系および待機系双方のコンピュータ
上に保存するコンピュータシステムにおいて、前記運用
系のコンピュータ上で実行されるプロセスによって更新
されるファイルを前記運用系および待機系双方のコンピ
ュータで2重化して設けておき、前記プロセスからファ
イルの更新が指示されたときに、その更新情報を前記待
機系のコンピュータ上に保存して運用系のファイルのみ
を更新し、その更新が完了した時点でその更新の要求元
に対し更新完了を通知する手段と、前記チェックポイン
トが採取された後に、前記更新情報に示される更新内容
を前記待機系のファイルに反映させる手段とを具備して
なることを特徴とする。
A computer system according to the present invention is a computer system duplexed by two computers, an active system and a standby system, and has a checkpoint for restarting an interrupted process. In a computer system that periodically collects and saves the files on both the active and standby computers, a file updated by a process executed on the active computer is written on both the active and standby computers. When the file update is instructed by the process, the update information is stored on the standby computer, and only the active file is updated. When the update is completed, Means for notifying the update request source to the update requester, and after the checkpoint is taken , Characterized by comprising and means to reflect the update content indicated in the update information file of the standby system.

【0011】この発明のコンピュータシステムにおいて
は、プロセスがファイルの更新を要求したときに、その
更新内容を示す更新情報を取得して保存するとともに、
運用系のコンピュータに配置されたファイル(運用系フ
ァイル)のみを即座に更新して、その結果を要求元であ
るプロセスに返答する。そして、チェックポイントが採
取された後に、その保存しておいた更新情報で示される
更新内容を、待機系のコンピュータに配置されたファイ
ル(待機系ファイル)に反映させる。
In the computer system according to the present invention, when a process requests an update of a file, update information indicating the update content is obtained and stored, and
Immediately updates only the files (active files) located on the active computer, and returns the result to the requesting process. Then, after the checkpoint is collected, the update content indicated by the stored update information is reflected in a file (standby file) arranged in the standby computer.

【0012】一方、たとえばプロセスがアボートしたと
きなどには、保存しておいた更新情報に基づいて、最後
に採取したチェックポイント以降に更新されたデータに
対応する更新前のデータを待機系ファイルからすべて読
み出し、この読み出した更新前のデータを用いて運用系
ファイルをチェックポイント時点に復元する。
On the other hand, for example, when the process is aborted, the data before update corresponding to the data updated since the last collected checkpoint is stored in the standby file based on the stored update information. All are read out, and the operating system file is restored to the check point using the read out data before update.

【0013】すなわち、このコンピュータシステムにお
いては、従来のようにファイルを更新するときに、更新
前のデータを読み出して退避させておくといった処理の
完了を通常処理に待機させることなく、障害時のファイ
ルのリカバリが実現されることになり、信頼性を損なう
ことなくファイルの更新性能を飛躍的に向上させること
が可能となる。
That is, in this computer system, when a file is updated as in the prior art, the completion of processing such as reading out the data before update and saving the data is not waited for in the normal processing, and the file at the time of the failure is updated. Recovery can be realized, and the file update performance can be dramatically improved without deteriorating reliability.

【0014】また、運用系ファイルの復元に代えて、最
終のチェックポイント以前に保存された更新情報で示さ
れる更新内容すべてが反映された待機系ファイルを用い
たチェックポイントからのプロセスの再実行も有効であ
る。すなわち、運用系のコンピュータの障害などによ
り、運用系ファイルを用いての再開始が不可能な場合な
どにおける処理の継続も確保されることになり、システ
ムの可用性を向上させることになる。また、この場合に
は、第3のコンピュータに新たに待機系ファイルを確保
すれば、システムの可用性をさらに向上させることが可
能となる。
Instead of restoring the active file, re-executing the process from the checkpoint using the standby file in which all the updates indicated by the update information stored before the final checkpoint are reflected. It is valid. In other words, continuation of processing when restart using the active file is impossible due to a failure of the active computer or the like is also ensured, and the availability of the system is improved. In this case, if a new standby file is secured in the third computer, the availability of the system can be further improved.

【0015】[0015]

【発明の実施の形態】まず、図1を参照してこの発明の
基本原理を説明する。図1に示すように、この発明のコ
ンピュータシステムは、運用系システム10と待機系シ
ステム20とで多重化されたシステムを前提とする。以
下にそれぞれの動作を説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS First, the basic principle of the present invention will be described with reference to FIG. As shown in FIG. 1, the computer system of the present invention is based on a system multiplexed with an active system 10 and a standby system 20. Hereinafter, each operation will be described.

【0016】(通常処理) (1)運用系システム10でアプリケーションプログラ
ム11がWriteシステムコールを発行する。
(Normal Processing) (1) In the active system 10, the application program 11 issues a Write system call.

【0017】(2)ジャケットルーチン12がWrit
eシステムコールをフックし、運用系のオペレーティン
グシステムにWriteシステムコールを発行するとと
もに、そのWrite要求を待機系システム20に送信
する。ただし、待機系システム20に即座にWrite
要求を送信する必要はなく、次のチェックポイントまで
に送信すればよい。また、待機系システム20では、受
信したWrite要求を即座に実行するのではなく、一
旦未確定キュー211に格納する。
(2) The jacket routine 12 is Writ
The e-system call is hooked, a Write system call is issued to the active operating system, and the Write request is transmitted to the standby system 20. However, the write to the standby system 20 is immediately performed.
There is no need to send the request, just send it by the next checkpoint. In addition, the standby system 20 temporarily stores the received Write request in the undetermined queue 211 instead of immediately executing the received Write request.

【0018】(3)チェックポイント処理が指示される
と、運用系システム10は、溜っているWrite要求
をすべて待機系システム20に送信し終えなければなら
ない。
(3) When a checkpoint process is instructed, the active system 10 must finish transmitting all accumulated Write requests to the standby system 20.

【0019】(4)一方、待機系システム20では、未
確定キュー211に格納されたWrite要求を確定キ
ュー212に移動する。
(4) On the other hand, in the standby system 20, the Write request stored in the undetermined queue 211 is moved to the defined queue 212.

【0020】(5)この確定キュー212に移されたW
rite要求は、待機系システム20のオペレーティン
グシステムによって順次処理されていく。
(5) W transferred to the fixed queue 212
The write requests are sequentially processed by the operating system of the standby system 20.

【0021】すなわち、通常処理において発生するファ
イル更新においては、更新前のデータを読み出して退避
させておくといった処理の完了を待機することがない。
That is, in the file update occurring in the normal processing, there is no need to wait for the completion of the processing of reading out the data before update and saving the data.

【0022】(ロールバック処理) (3)´障害が発生したようなときに、運用系システム
10および待機系システム20の双方にロールバック処
理が指示される。
(Rollback Process) (3) ′ When a failure occurs, both the active system 10 and the standby system 20 are instructed to perform the rollback process.

【0023】(4)´このとき、運用系システム10に
残存するWrite要求を、すべて待機系システム20
に送信する。また、待機系の未確定キュー211に格納
されたWrite要求は、最後のチェックポイント以降
に発行されたものであるので、逆にこれを参照して待機
系ファイル23から更新前のデータを読み出し、この読
み出した更新前のデータを用いて運用系ファイル14を
ロールバックする。これにより、運用系ファイル14お
よび待機系ファイル23の双方のファイルが最後のチェ
ックポイント時点の状態になる。
(4) 'At this time, all Write requests remaining in the active system 10 are transmitted to the standby system 20.
Send to Since the Write request stored in the pending queue 211 of the standby system is issued after the last checkpoint, the data before the update is read out from the standby file 23 by referring to the Write request. The operating system file 14 is rolled back using the read data before update. As a result, both the active file 14 and the standby file 23 are in the state at the time of the last checkpoint.

【0024】(5)´そして、待機系システム20は、
未確定キュー211に残存するWrite要求をすべて
キャンセルする。
(5) 'And the standby system 20
All Write requests remaining in the undetermined queue 211 are canceled.

【0025】これにより、チェックポイント時点からの
再開始が可能となる。
As a result, it is possible to restart from the check point.

【0026】次に、この発明の実施の形態を説明する。Next, an embodiment of the present invention will be described.

【0027】(第1の実施形態)まず、この発明の第1
の実施形態を説明する。図2にはこの発明の第1の実施
形態に係るコンピュータシステムのシステム構成が示さ
れている。図2に示したように、本実施形態のコンピュ
ータシステムは、コンピュータがプライマリコンピュー
タ30と、バックアップコンピュータ40とで2重化さ
れており、これらはネットワーク50で接続されてい
る。このプライマリコンピュータ30とバックアップコ
ンピュータ40とは、前述した運用系システム10およ
び待機系システム20双方をそれぞれに備えており、い
ずれかで運用系システム10が動作するときに、他方で
は待機系システム20が動作する。ここでは、プライマ
リコンピュータ30側で運用系システム10、バックア
ップコンピュータ40側で待機系システム20をそれぞ
れ説明する。
(First Embodiment) First, a first embodiment of the present invention will be described.
An embodiment will be described. FIG. 2 shows a system configuration of a computer system according to the first embodiment of the present invention. As shown in FIG. 2, in the computer system of the present embodiment, the computers are duplicated by a primary computer 30 and a backup computer 40, and these are connected by a network 50. The primary computer 30 and the backup computer 40 have both the active system 10 and the standby system 20 described above. When the active system 10 operates in one of them, the standby system 20 on the other side. Operate. Here, the primary computer 30 and the backup computer 40 will be described as the active system 10 and the standby system 20, respectively.

【0028】プロセス35は、プライマリコンピュータ
30上で実行され、プライマリファイル39とバックア
ップファイル41とで2重化されたファイルを更新す
る。ここで、プライマリファイル39はプライマリコン
ピュータ30上に、バックアップファイル41はバック
アップコンピュータ40上に配置され、プライマリコン
ピュータ30上のファイルシステム36およびバックア
ップコンピュータ40上のファイルシステム48を介し
て更新される。
The process 35 is executed on the primary computer 30 and updates a file duplicated with the primary file 39 and the backup file 41. Here, the primary file 39 is located on the primary computer 30 and the backup file 41 is located on the backup computer 40, and are updated via the file system 36 on the primary computer 30 and the file system 48 on the backup computer 40.

【0029】プライマリコンピュータ30上のファイル
システム36は、プライマリファイル操作部38とプラ
イマリファイル復元部37とを含んでいる。一方、バッ
クアップコンピュータ40上のファイルシステム48
は、バックアップファイル操作部43、未確定キュー4
31、確定キュー432、バックアップファイル更新部
44およびプライマリファイル復元情報読み出し部42
を含んでいる。
The file system 36 on the primary computer 30 includes a primary file operation unit 38 and a primary file restoration unit 37. On the other hand, the file system 48 on the backup computer 40
Indicates the backup file operation unit 43 and the undetermined queue 4
31, a confirmation queue 432, a backup file updating unit 44, and a primary file restoration information reading unit 42
Contains.

【0030】プロセス35がこの2重化されたファイル
を更新する場合、プライマリファイル操作部38および
バックアップファイル操作部43を経由して行なう。プ
ロセス35がこの2重化されたファイルに対応するwr
iteを行なうと、プライマリファイル39は、そのま
ま即座に更新されるが、バックアップファイル41はそ
の時点では更新されずに、「ファイル書き込み情報」が
バックアップファイル操作部43を経由して、バックア
ップコンピュータ40上の未確定キュー431に保存さ
れる。
When the process 35 updates the duplicated file, the update is performed via the primary file operation unit 38 and the backup file operation unit 43. The process 35 determines whether the wr corresponding to the duplicated file is wr.
When the “item” is performed, the primary file 39 is immediately updated as it is, but the backup file 41 is not updated at that time, and “file write information” is transmitted to the backup computer 40 via the backup file operation unit 43. Is stored in the unconfirmed queue 431.

【0031】また、プロセス35がチェックポイントを
採取する場合には、チェックポイント制御部31が、チ
ェックポイント情報保存部32とプライマリファイル操
作部38とにその指示を出す。チェックポイント情報保
存部32は、チェックポイント採取の指示を受け取る
と、チェックポイント情報(アドレス空間とプロセッサ
コンテクスト)をプライマリコンピュータ30上および
バックアップコンピュータ40上に保存する(プライマ
リコンピュータ30上のチェックポイント情報34およ
びバックアップコンピュータ40上のチェックポイント
情報45)。
When the process 35 collects checkpoints, the checkpoint control unit 31 issues an instruction to the checkpoint information storage unit 32 and the primary file operation unit 38. Upon receiving the checkpoint collection instruction, the checkpoint information storage unit 32 stores the checkpoint information (address space and processor context) on the primary computer 30 and the backup computer 40 (checkpoint information 34 on the primary computer 30). And checkpoint information 45 on the backup computer 40).

【0032】一方、プライマリファイル操作部38は、
チェックポイント採取の指示を受け取ると、バックアッ
プファイル操作部43を経由して、未確定キュー431
に保存されていた「ファイル書き込み情報」を確定キュ
ー432に移動させる。この確定キュー432に移動さ
れた「ファイル書き込み情報」は、チェックポイント採
取後に、バックアップファイル更新部44によってバッ
クアップファイル41の更新のために使用され、バック
アップファイル41の更新後に廃棄される。これによ
り、チェックポイント以降にプライマリファイル39に
対して行なわれたものと同じwrite操作が、バック
アップファイル41に対しても行なわれることになる。
On the other hand, the primary file operation unit 38
Upon receiving the checkpoint collection instruction, the undetermined queue 431 is transmitted via the backup file operation unit 43.
Is moved to the confirmation queue 432. The “file write information” moved to the confirmation queue 432 is used for updating the backup file 41 by the backup file update unit 44 after the checkpoint is collected, and is discarded after the update of the backup file 41. Thus, the same write operation performed on the primary file 39 after the checkpoint is performed on the backup file 41.

【0033】プロセス35がアボートなどの障害を発生
させ、プロセス35をプライマリコンピュータ30上で
最後に採取したチェックポイントから再実行する場合、
アドレス空間とプロセッサコンテクストとは、プライマ
リコンピュータ30上のチェックポイント情報復元部3
7によって復元される。
When the process 35 causes a failure such as an abort and the process 35 is re-executed on the primary computer 30 from the last collected checkpoint,
The address space and the processor context are stored in the checkpoint information restoring unit 3 on the primary computer 30.
7 restored.

【0034】ファイルに関しては、バックアップファイ
ル41は、チェックポイント以降の更新は未だ未確定キ
ュー431に「ファイル書き込み情報」が保存されてい
るだけであり、実際には更新されていないので復元は不
要である。しかしながら、プライマリファイル39は、
チェックポイント以降にすでに更新が行なわれているの
で復元が必要である。したがって、未確定キュー431
に保存された「ファイル書き込み情報」に基づき、プラ
イマリファイル39の更新前データをバックアップファ
イル41からreadし、このreadした更新前デー
タをプライマリファイル39にwriteすることによ
って復元する。そして、この後、未確定キュー431に
保存された「ファイル書き込み情報」を廃棄する。な
お、確定キュー432に「ファイル書き込み情報」が保
存されている場合には、その「ファイル書き込み情報」
のバックアップファイル41への反映が完了した後に、
前述した復元処理を開始する。
Regarding the file, the backup file 41 has not been updated since the checkpoint since the “file write information” is only stored in the undetermined queue 431 and is not actually updated. is there. However, the primary file 39 is
Since the update has already been performed after the checkpoint, restoration is necessary. Therefore, the undetermined queue 431
The pre-update data of the primary file 39 is read from the backup file 41 on the basis of the “file write information” stored in the backup file 41, and the read pre-update data is written to the primary file 39 to be restored. After that, the “file writing information” stored in the undetermined queue 431 is discarded. If the “file writing information” is stored in the confirmation queue 432, the “file writing information”
After the update to the backup file 41 is completed,
The restoration processing described above is started.

【0035】一方、プライマリコンピュータ30または
プライマリコンピュータ30を制御するオペレーティン
グシステムがシステムダウンなどの障害を発生させ、プ
ロセス35をバックアップコンピュータ40上で最後に
採取したチェックポイントから再実行する場合には、ア
ドレス空間とプロセッサコンテクストとは、チェックポ
イント情報復元部46によってプロセス47に復元され
る。
On the other hand, if the primary computer 30 or the operating system that controls the primary computer 30 causes a failure such as a system failure and re-executes the process 35 from the last checkpoint collected on the backup computer 40, the The space and the processor context are restored to the process 47 by the checkpoint information restoring unit 46.

【0036】ファイルに関しては、バックアップファイ
ル41は、チェックポイント以降の更新は未だ未確定キ
ュー431に「ファイル書き込み情報」が保存されてい
るだけであり、実際には更新されていないので復元は不
要である。
Regarding the file, the backup file 41 has not been updated since the checkpoint since the “file write information” is only stored in the undetermined queue 431 and is not actually updated. is there.

【0037】なお、この「ファイル書き込み情報」のプ
ライマリコンピュータ30からバックアップコンピュー
タ40への転送については最適化が可能である。障害が
発生したときに、プライマリコンピュータ30がダウン
しなかった場合は、プライマリファイル39を復元し、
プライマリファイル39を用いてチェックポイントから
の処理を再開する。一方、障害が発生したときに、プラ
イマリコンピュータ30がダウンした場合には、バック
アップファイル41を用いてチェックポイントから処理
を再開する。
The transfer of the "file write information" from the primary computer 30 to the backup computer 40 can be optimized. If the primary computer 30 did not go down when the failure occurred, the primary file 39 is restored,
The processing from the check point is restarted using the primary file 39. On the other hand, if the primary computer 30 goes down when a failure occurs, the processing is restarted from the checkpoint using the backup file 41.

【0038】それゆえに、「ファイル書き込み情報」
は、プライマリファイル操作部38からバックアップフ
ァイル操作部43に即時に送る必要はない。すなわち、
これらの「ファイル書き込み情報」は、次のチェックポ
イントまでに送ればよいので、転送効率を考慮すると、
一旦プライマリファイル操作部38において蓄積してお
き、「一定容量蓄積された」、「一定時間経過した」お
よび「チェックポイント採取が要求された」といった事
象の発生をトリガとして、バックアップファイル操作部
43にまとめて送るということが可能である。
Therefore, "file write information"
Need not be sent from the primary file operation unit 38 to the backup file operation unit 43 immediately. That is,
Since these "file writing information" need only be sent before the next checkpoint, considering transfer efficiency,
The data is temporarily stored in the primary file operation unit 38, and triggered by the occurrence of events such as "accumulated to a certain capacity", "elapse of a certain time", and "request for checkpoint collection", the backup file operation unit 43 It is possible to send them all together.

【0039】図3には、本実施形態を適用するコンピュ
ータシステムの概略構成が示されている。コンピュータ
はプライマリコンピュータ30とバックアップコンピュ
ータ40とで2重化されており、プライマリコンピュー
タ30にはディスク装置60aが、バックアップコンピ
ュータ40にはディスク装置60bがそれぞれ接続され
ている。プロセス35はプライマリコンピュータ上で実
行され、また、このプロセス35がアクセスするファイ
ルは、プライマリファイル39とバックアップファイル
41とで2重化されており、各々ディスク装置60aと
ディスク装置60bとに配置されている。
FIG. 3 shows a schematic configuration of a computer system to which the present embodiment is applied. The computer is duplicated by a primary computer 30 and a backup computer 40, and a disk device 60a is connected to the primary computer 30, and a disk device 60b is connected to the backup computer 40, respectively. The process 35 is executed on the primary computer, and the files accessed by the process 35 are duplicated by the primary file 39 and the backup file 41, and are respectively located in the disk devices 60a and 60b. I have.

【0040】そして、チェックポイントは、チェックポ
イント情報をプライマリコンピュータ30側(プライマ
リチェックポイント情報34)と、バックアップコンピ
ュータ40側(バックアップチェックポイント情報4
5)の両方に保持する。なお、この図では、チェックポ
イントをディスク装置上に保持しているが、メモリ上に
保持しても構わない。
The checkpoint information is transmitted to the primary computer 30 (primary checkpoint information 34) and to the backup computer 40 (backup checkpoint information 4).
5) Hold both. In this figure, the check points are stored on the disk device, but may be stored on the memory.

【0041】もし、プライマリコンピュータ30または
プライマリコンピュータ30を制御するオペレーティン
グシステムにシステムダウンなどの障害が発生した場合
には、バックアップコンピュータ40側でチェックポイ
ント情報45を用いてプロセス47を再実行する。この
場合プロセス47は、バックアップファイル41を使用
することになる。
If a failure such as a system failure occurs in the primary computer 30 or the operating system that controls the primary computer 30, the backup computer 40 re-executes the process 47 using the checkpoint information 45. In this case, the process 47 uses the backup file 41.

【0042】また、プライマリファイル39またはバッ
クアップファイル41を複数個持ち、3重化以上のファ
イルシステムを作ることも可能である。この場合、たと
えば3重化ファイルシステムならば、 (1)2個のプライマリファイルと1個のバックアップ
ファイル (2)1個のプライマリファイルと2個のバックアップ
ファイル といった組み合わせが考えられる。
It is also possible to have a plurality of primary files 39 or backup files 41 to create a triple or more file system. In this case, for example, in the case of a triple file system, a combination of (1) two primary files and one backup file, and (2) one primary file and two backup files can be considered.

【0043】図4は、本実施形態においてファイルを更
新する様子を示す図である。この例では、プライマリコ
ンピュータ30上で動くプロセス35が、4バイトのデ
ータ“ABCD”を持つ2重化されたファイル(プライ
マリコンピュータ30上のプライマリファイル39と、
バックアップコンピュータ40上のバックアップファイ
ル41)に対し、時刻t1において1バイト目に“X”
をwriteしている(1)。これによってプライマリ
ファイル39は即時に更新されるが、バックアップファ
イル41は即時には更新されずに、「ファイル書き込み
情報」のみを保存している。
FIG. 4 is a diagram showing how a file is updated in this embodiment. In this example, the process 35 running on the primary computer 30 has a duplicated file (a primary file 39 on the primary computer 30,
For the backup file 41) on the backup computer 40, at the time t1, "X" is added to the first byte.
(1). As a result, the primary file 39 is updated immediately, but the backup file 41 is not updated immediately, and only the “file write information” is stored.

【0044】この後、時刻t2においてチェックポイン
トが採取されることによって、先程の「ファイル書き込
み情報」の実行が確定する(2)。そして時刻t2以降
で、確定された「ファイル書き込み情報」に基づいて、
バックアップファイル41の更新を実行している。
Thereafter, a checkpoint is taken at time t2, thereby confirming the execution of the above-mentioned "file write information" (2). Then, after time t2, based on the determined “file write information”,
The backup file 41 is being updated.

【0045】図5は、本実施形態において障害発生時に
プライマリファイルを復元する様子を示す図である。こ
の例では、プライマリコンピュータ30上で動くプロセ
ス35が、4バイトのデータ“ABCD”を持つ2重化
されたファイル(プライマリコンピュータ30上のプラ
イマリファイル39と、バックアップコンピュータ40
上のバックアップファイル41)に対し、時刻t1にお
いて1バイト目に“X”をwriteしている(1)。
これによってプライマリファイル39は即時に更新され
るが、バックアップファイル41は即時には更新されず
に、「ファイル書き込み情報」のみを保存している。
FIG. 5 is a diagram showing how a primary file is restored when a failure occurs in this embodiment. In this example, the process 35 running on the primary computer 30 has a duplicate file (a primary file 39 on the primary computer 30 and a backup computer 40) having 4 bytes of data “ABCD”.
In the above backup file 41), "X" is written in the first byte at time t1 (1).
As a result, the primary file 39 is updated immediately, but the backup file 41 is not updated immediately, and only the “file write information” is stored.

【0046】この後、時刻t2において障害が発生して
いる(2)。すなわち、時刻t1おける「ファイル書き
込み情報」でプライマリファイル39は更新されている
ため復元の必要があるが、バックアップファイル41は
未だ更新されていないため復元の必要がない。ここで時
刻t1において保存された「ファイル書き込み情報」に
よって、プライマリファイル39の更新部分がかわる。
そこで、プライマリファイル39の復元においては、未
確定の「ファイル書き込み情報」に示された位置のデー
タをバックアップファイル41からreadし、そのr
eadしたデータをプライマリファイル39にwrit
eすることによって、プライマリファイル39を復元す
る。
Thereafter, a fault has occurred at time t2 (2). That is, the primary file 39 has been updated with the “file write information” at time t1 and needs to be restored, but the backup file 41 has not yet been updated and does not need to be restored. Here, the updated part of the primary file 39 is changed according to the “file writing information” stored at the time t1.
Therefore, in the restoration of the primary file 39, the data at the position indicated by the undetermined “file write information” is read from the backup file 41, and its r
Write the read data to the primary file 39
e, the primary file 39 is restored.

【0047】そして、プライマリコンピュータ30上で
取られているチェックポイントを用いて、プライマリコ
ンピュータ30上でプロセス35を再実行している。こ
の再実行されたプロセス35は、復元されたプライマリ
ファイル39を使用する。
Then, the process 35 is re-executed on the primary computer 30 using the checkpoint taken on the primary computer 30. This re-executed process 35 uses the restored primary file 39.

【0048】図6は、ファイル操作部が「ファイル書き
込み」を指示されたときの処理の流れを示すフローチャ
ートである。この場合、まず、「ファイル書き込み情
報」を保存し、未確定キュー431にリンクする(ステ
ップA1)。次に、「ファイル書き込み情報」にしたが
って、プライマリファイル39の更新を行なう(ステッ
プA2)。この時点で、「ファイル書き込み」操作は完
了したとして、要求側に完了通知を行なう(ステップA
3)。
FIG. 6 is a flowchart showing the flow of processing when the file operation unit is instructed to "write a file". In this case, first, the “file write information” is stored and linked to the undetermined queue 431 (step A1). Next, the primary file 39 is updated according to the "file write information" (step A2). At this point, it is determined that the "file write" operation has been completed, and a notification of completion is given to the requesting side (step A).
3).

【0049】図7は、ファイル操作部が「チェックポイ
ント採取」を指示されたときの処理の流れを示すフロー
チャートである。この場合、保存されている「ファイル
書き込み情報」を未確定キュー431から確定キュー4
32に移動する(ステップB1)。
FIG. 7 is a flowchart showing the flow of processing when the file operation unit is instructed to "checkpoint collection". In this case, the stored “file write information” is transferred from the undetermined queue 431 to the determined queue 4.
32 (step B1).

【0050】図8は、バックアップファイル更新部の処
理の流れを示すフローチャートである。この場合、ま
ず、確定キュー432に「ファイル書き込み情報」がリ
ンクされているかどうかを検査する(ステップC1)。
もし、リンクされていない場合(ステップC1のN)、
バックアップファイル更新部44は、この検査を続行す
る。一方、リンクされている場合には(ステップC1の
Y)、確定キュー432にリンクされている「ファイル
書き込み情報」に基いて、バックアップファイル41を
更新する(ステップC2)。そして、実行した「ファイ
ル書き込み情報」を確定キュー432からはずす(ステ
ップC3)。
FIG. 8 is a flowchart showing the flow of the process of the backup file update unit. In this case, first, it is checked whether “file writing information” is linked to the confirmation queue 432 (step C1).
If they are not linked (N in step C1),
The backup file updating unit 44 continues this check. On the other hand, if linked (Y in step C1), the backup file 41 is updated based on the “file write information” linked to the confirmation queue 432 (step C2). Then, the executed “file writing information” is removed from the confirmation queue 432 (step C3).

【0051】図9は、プロセス35にアボートなどの障
害が発生し、プロセス35をプライマリコンピュータ3
0上で最後に採取したチェックポイントから再実行する
場合の処理の流れを示すフローチャートである。
FIG. 9 shows that a failure such as abort occurs in the process 35 and the process 35
11 is a flowchart showing the flow of processing when re-executing from a checkpoint that was last collected on 0.

【0052】プロセス35に障害が発生すると、まず、
プライマリコンピュータ30上のチェックポイント情報
復元部33に、「アドレス空間とプロセッサコンテクス
トとの復元を指示する(ステップD1)。次に、プライ
マリファイル復元部33に、「プライマリファイルの復
元」を指示する(ステップD2)。
When a failure occurs in the process 35, first,
Instruct the checkpoint information restoring unit 33 on the primary computer 30 to restore the address space and the processor context (step D1), and then instruct the primary file restoring unit 33 to restore the primary file (step D1). Step D2).

【0053】図10は、プライマリコンピュータ30上
のチェックポイント情報復元部が「アドレス空間とプロ
セッサコンテクストの復元」を指示された場合の処理の
流れを示すフローチャートである。この場合、まず、プ
ロセス35のアドレス空間を復元する(ステップE
1)。次に、プロセス35のチェックポイント採取時の
プロセッサコンテクストの状態を復元する(ステップE
2)。
FIG. 10 is a flowchart showing the flow of processing when the checkpoint information restoring unit on the primary computer 30 is instructed to "restoring address space and processor context". In this case, first, the address space of the process 35 is restored (step E).
1). Next, the processor context state at the time of checkpoint collection of the process 35 is restored (step E).
2).

【0054】図11は、プライマリファイル復元部37
が、「プライマリファイルの復元」を指示された場合の
処理の流れを示すフローチャートである。この場合、ま
ず、未確定キュー431に、「ファイル書き込み情報」
がリンクされているかどうかを検査する(ステップF
1)。「ファイル書き込み情報」がリンクされている場
合には(ステップF1のY)未確定キュー431にリン
クされている「ファイル書き込み情報」にしたがって、
プライマリファイル39の中の更新されている部分のデ
ータをバックアップファイル41からreadし、その
Readしたデータをプライマリファイル39にwri
teすることにより、プライマリファイル39のその更
新されている部分のデータを復元する(ステップF
2)。そして、復元に利用した「ファイル書き込み情
報」を、未確定キュー431からはずす(廃棄する)
(ステップF3)。この処理は、未確定キュー431に
リンクた「ファイル書き込み情報」が無くなるまで繰り
返される。
FIG. 11 shows the primary file restoring section 37.
Is a flowchart showing the flow of processing when "restore primary file" is instructed. In this case, first, the “file write information” is stored in the undetermined queue 431.
Is linked or not (step F
1). When the “file writing information” is linked (Y in step F1), according to the “file writing information” linked to the undetermined queue 431,
The updated data in the primary file 39 is read from the backup file 41, and the read data is written to the primary file 39.
to restore the updated data of the primary file 39 (step F).
2). Then, the “file write information” used for restoration is removed from the undetermined queue 431 (discarded).
(Step F3). This process is repeated until there is no more “file write information” linked to the undetermined queue 431.

【0055】プライマリコンピュータ30またはプライ
マリコンピュータ30を制御するオペレーティングシス
テムにシステムダウンなどの障害が発生した場合には、
プロセス35をバックアップコンピュータ40上で最後
に採取したチェックポイントから再実行する。この場合
は、バックアップファイル41で処理を引き継ぐ。図1
2は、障害が発生したときに、バックアップファイル4
1で処理を引き継ぐ様子を示す図である。
When a failure such as a system failure occurs in the primary computer 30 or the operating system that controls the primary computer 30,
The process 35 is re-executed on the backup computer 40 from the last collected checkpoint. In this case, the processing is taken over by the backup file 41. FIG.
2 is the backup file 4 when a failure occurs
FIG. 2 is a diagram showing a state of taking over the process in step S1.

【0056】この例では、プライマリコンピュータ30
上で動作するプロセス35が、4バイトのデータ“AB
CD”を持つ2重化されたファイル(プライマリコンピ
ュータ30上のプライマリファイル39と、バックアッ
プコンピュータ40上のバックアップファイル41)に
対し、時刻t1において1バイト目に“X”をwrit
eしている(1)。これによってプライマリファイル3
9は即時に更新されるが、バックアップファイル41は
即時には更新されずに、「ファイル書き込み情報」のみ
を保存している。
In this example, the primary computer 30
The process 35 that operates on the above-described process has four bytes of data “AB
At the time t1, "X" is written to the first byte of the duplicate file having the "CD" (the primary file 39 on the primary computer 30 and the backup file 41 on the backup computer 40).
e (1). This makes the primary file 3
9 is updated immediately, but the backup file 41 is not updated immediately, and only “file write information” is stored.

【0057】この後、時刻t2においてプライマリコン
ピュータ30に障害が発生している(2)。この場合、
バックアップコンピュータ40上に取られたチェックポ
イントを用いて、バックアップコンピュータ40上でプ
ロセス47を再実行している。このとき、プロセス47
は、バックアップファイル41を用いて処理を継続する
わけだが、時刻t1においてプライマリファイル39は
更新されているが、バックアップファイル41は未だ更
新されていないので、バックアップコンピュータ40上
でのプロセス47の再実行においては、バックアップフ
ァイル42がそのまま使用できる。
Thereafter, a failure has occurred in the primary computer 30 at time t2 (2). in this case,
The process 47 is re-executed on the backup computer 40 using the checkpoint taken on the backup computer 40. At this time, process 47
Continues the processing using the backup file 41, but at time t1, the primary file 39 has been updated, but since the backup file 41 has not been updated yet, the process 47 is re-executed on the backup computer 40. In, the backup file 42 can be used as it is.

【0058】なお、障害発生によりバックアップファイ
ルを切り離した場合には、その後に新たなバックアップ
ファイルを作成することによって、再び図1の様な初期
状態を再現することができ、再度の障害発生に対しても
回復処理が可能となる。
When the backup file is separated due to the occurrence of a failure, the initial state as shown in FIG. 1 can be reproduced again by creating a new backup file thereafter. However, the recovery process can be performed.

【0059】また、障害発生によってバックアップファ
イルで処理を引き継ぎ、チェックポイントから処理を再
実行した場合には、その後、バックアップファイルをプ
ライマリファイルとして新たなバックアップファイルを
作成することにより、再び図1の様な初期状態を再現す
ることができ、再度の障害発生に対しても回復処理が可
能となる。この再度バックアップファイルを作成する場
合には、以下の様な2つの方法がある。
When the backup file takes over the processing due to the occurrence of a failure and the processing is re-executed from the checkpoint, a new backup file is created with the backup file as a primary file, as shown in FIG. A simple initial state can be reproduced, and recovery processing can be performed even if a failure occurs again. To create the backup file again, there are the following two methods.

【0060】(1)バックアップファイル切り離し後の
プライマリファイルの更新情報とデータとを保存してお
き、バックアップファイルを再接続する場合には、バッ
クアップファイルに前記切り離し後のプライマリファイ
ルの更新情報とデータとを反映させる。
(1) The update information and data of the primary file after the separation of the backup file are stored, and when the backup file is reconnected, the update information and the data of the primary file after the separation are added to the backup file. To reflect.

【0061】(2)プライマリファイルをバックアップ
ファイルにコピーする。ただし、コピー中にもプライマ
リファイルが更新され続けている場合には、コピーを始
めると同時にファイルの更新情報とデータとをバックア
ップファイルにも反映させる。
(2) Copy the primary file to the backup file. However, if the primary file is continuously updated during the copy, the update information and data of the file are reflected in the backup file at the same time as the copy is started.

【0062】さらに、この2つの方法を組み合わせた以
下の様な方法も有効である。
Further, the following method combining these two methods is also effective.

【0063】(3)切り離されたバックアップファイル
(あるいは障害発生前のプライマリファイル)を再接続
することを前提に、一定時間が経過するまでは(1)の
方法が取れる様に、バックアップファイル切り離し後の
プライマリファイルの更新情報とデータとを保存してお
く。一定時間を経過したら、(1)の方法は締め、バッ
クアップファイル切り離し後のプライマリファイルの更
新情報とデータとの保存は止めて、(2)の方法を取る
ようにする。また、切り離されたバックアップファイル
以外のファイルで再接続する場合にも、バックアップフ
ァイル切り離し後のプライマリファイルの更新情報とデ
ータとの保存は止めて、(2)の方法を取る。
(3) Assuming that the detached backup file (or the primary file before the occurrence of the failure) is reconnected, after the backup file is detached so that the method of (1) can be performed until a certain time elapses. The update information and data of the primary file are stored. After a certain period of time, the method (1) is closed, the storage of the update information and data of the primary file after the backup file is separated is stopped, and the method (2) is adopted. Also, when reconnecting with a file other than the disconnected backup file, saving the update information and data of the primary file after the disconnection of the backup file is stopped and the method (2) is adopted.

【0064】(第2の実施形態)次に、この発明の第2
の実施形態を説明する。第1の実施形態では、2重化さ
れたコンピュータシステムを説明したが、この発明は、
2重化されていないコンピュータ上のファイルシステム
に適用しても効果がある。そこで、本実施形態では、2
重化されていないコンピュータ上のファイルシステムに
適用した場合を例に説明する。図13は、この発明を2
重化されていないコンピュータ上のファイルシステムに
適用した場合の構成図である。このシステムでは、コン
ピュータは2重化されておらず、コンピュータ30のみ
が存在する。プロセス35は、このコンピュータ30上
で実行され、プライマリファイル39とバックアップフ
ァイル41とで2重化されたファイルを更新する。すな
わち、これらブライマリファイル39およびバックアッ
プファイル41は、共にコンピュータ30上に配置さ
れ、ファイルシステム36を介して更新される。
(Second Embodiment) Next, a second embodiment of the present invention will be described.
An embodiment will be described. In the first embodiment, a duplicated computer system has been described.
It is also effective when applied to a file system on a computer that is not duplicated. Therefore, in the present embodiment, 2
An example in which the present invention is applied to a file system on an unduplicated computer will be described. FIG.
FIG. 11 is a configuration diagram when applied to a file system on a non-duplicated computer. In this system, the computers are not duplicated, and only the computer 30 exists. The process 35 is executed on the computer 30 and updates a file duplicated by the primary file 39 and the backup file 41. That is, the primary file 39 and the backup file 41 are both located on the computer 30 and are updated via the file system 36.

【0065】コンピュータ30上のファイルシステム3
6は、プライマリファイル操作部38、プライマリファ
イル復元部37、バックアップファイル操作部43、未
確定キュー431、確定キュー432、バックアップフ
ァイル更新部44およびプライマリファイル復元情報読
み出し部42を含んでいる。
File System 3 on Computer 30
Reference numeral 6 includes a primary file operation unit 38, a primary file restoration unit 37, a backup file operation unit 43, an unconfirmed queue 431, a confirmation queue 432, a backup file update unit 44, and a primary file restoration information read unit 42.

【0066】プロセス35がこの2重化されたファイル
を更新するときは、プライマリファイル操作部38およ
びバックアップファイル操作部43を経由して行なう。
プロセス35がこの2重化されたファイルに対するwr
iteを行なうと、プライマリファイル39はそのまま
更新されるが、バックアップファイル41は更新されず
に、「ファイル書き込み情報」がバックアップファイル
操作部43を経由して未確定キュー431に保存され
る。
The process 35 updates the duplicated file via the primary file operation unit 38 and the backup file operation unit 43.
Process 35 writes wr to this duplicated file.
When the “item” is performed, the primary file 39 is updated as it is, but the backup file 41 is not updated, and “file write information” is stored in the undetermined queue 431 via the backup file operation unit 43.

【0067】また、プロセス35がチェックポイントを
採取するときには、チェックポイント制御部31が、チ
ェックポイント情報保存部32とプライマリファイル操
作部43に指示を出す。チェックポイント情報保存部3
2はチェックポイント採取の指示を受けると、アドレス
空間とプロセッサコンテクストとをコンピュータ30上
に行なう(チェックポイント情報34)。
When the process 35 collects a checkpoint, the checkpoint control unit 31 issues an instruction to the checkpoint information storage unit 32 and the primary file operation unit 43. Checkpoint information storage 3
When receiving the checkpoint collection instruction, 2 performs the address space and the processor context on the computer 30 (checkpoint information 34).

【0068】一方、プライマリファイル操作部38は、
チェックポイント採取の指示を受けると、バックアップ
ファイル操作部43を経由して、未確定キュー431に
保存されていた「ファイル書き込み情報」を確定キュー
432に移動させる。確定キュー432に移動された
「ファイル書き込み情報」は、チェックポイント採取後
に、バックアップファイル更新部44によってバックア
ップファイル41の更新のために使用され、バックアッ
プファイル41の更新後に廃棄される。これにより、チ
ェックポイント以降にプライマリファイル39に対して
行なわれたのと同じように、write操作がバックア
ップファイル41に対して行なわれる。
On the other hand, the primary file operation unit 38
Upon receiving the checkpoint collection instruction, the “file writing information” stored in the undetermined queue 431 is moved to the defined queue 432 via the backup file operation unit 43. The “file write information” moved to the confirmation queue 432 is used for updating the backup file 41 by the backup file update unit 44 after the checkpoint is collected, and is discarded after the update of the backup file 41. Thus, the write operation is performed on the backup file 41 in the same manner as performed on the primary file 39 after the checkpoint.

【0069】プロセス35にアボートなどの障害が発生
し、プロセス35をコンピュータ30上で最後に採取し
たチェックポイントから再実行する場合、アドレス空間
とプロセッサコンテクストは、コンピュータ30上のチ
ェックポイント情報復元部33によって復元される。
When a failure such as an abort occurs in the process 35 and the process 35 is re-executed from the last checkpoint collected on the computer 30, the address space and the processor context are stored in the checkpoint information restoring unit 33 on the computer 30. Restored by

【0070】ファイルに関しては、バックアップファイ
ル41は、チェックポイント以降の更新が未だ未確定キ
ュー431に「ファイル書き込み情報」が保存されてい
るだけであり、実際には更新されていないので復元は不
要である。しかしながら、プライマリファイル39は、
チェックポイント以降にすでに更新が行なわれているの
で復元が必要である。したがって、未確定キュー431
に保存された「ファイル書き込み情報」に基づき、プラ
イマリファイル39の更新前データをバックアップファ
イル41からreadし、このReadした更新前デー
タをプライマリファイル39にwriteすることによ
って復元する。そして、この後、未確定キュー431に
保存された「ファイル書き込み情報」を廃棄する。な
お、確定キュー432に「ファイル書き込み情報」が保
存されている場合には、その「ファイル書き込み情報」
のバックアップファイル41への反映が完了した後に、
前述した復元処理を開始する。
Regarding the file, the backup file 41 has only the “file write information” stored in the undetermined queue 431 whose update since the checkpoint has not yet been performed. is there. However, the primary file 39 is
Since the update has already been performed after the checkpoint, restoration is necessary. Therefore, the undetermined queue 431
The pre-update data of the primary file 39 is read from the backup file 41 based on the “file write information” stored in the backup file 41, and the read pre-update data is written to the primary file 39 to restore the data. After that, the “file writing information” stored in the undetermined queue 431 is discarded. If the “file writing information” is stored in the confirmation queue 432, the “file writing information”
After the update to the backup file 41 is completed,
The restoration processing described above is started.

【0071】図14には、本実施形態を適用するコンピ
ュータシステムの概略構成が示されている。本実施形態
のシステムはコンピュータ30のみで稼働し2重化され
ていない。コンピュータ30にはディスク装置60aと
ディスク装置60bとが接続されている。プロセス35
はコンピュータ30上で実行され、また、このプロセス
35がアクセスするファイルは、プライマリファイル3
9とバックアップファイル41とで2重化されており、
各々ディスク装置60aとディスク装置60bとに配置
されている。
FIG. 14 shows a schematic configuration of a computer system to which the present embodiment is applied. The system of the present embodiment operates only by the computer 30 and is not duplicated. The disk device 60a and the disk device 60b are connected to the computer 30. Process 35
Is executed on the computer 30, and the file accessed by the process 35 is the primary file 3
9 and the backup file 41 are duplicated,
They are arranged in the disk device 60a and the disk device 60b, respectively.

【0072】このように、この発明を適用することによ
り、プロセスのアドレス空間やプロセッサのコンテクス
トなどの状態(チェックポイント情報)を定期的に保存
しながら実行を続け、障害が発生したときには最後に保
存したチェックポイントからプロセスを再実行させるこ
とによる障害時対策を施したシステムにおいて、ファイ
ルの更新を行なう際に、一旦更新前データをファイルか
ら読み込む必要がなくなるため、ファイルの更新性能が
大幅に改善される。
As described above, by applying the present invention, the execution (checkpoint information) such as the address space of the process and the context of the processor is continuously performed while being periodically saved, and the last saved when a failure occurs. In a system that takes measures against a failure by re-executing the process from the specified checkpoint, when updating the file, it is no longer necessary to read the pre-update data from the file, and the file update performance has been greatly improved. You.

【0073】なお、前述の実施形態に記載したファイル
の管理方法は、コンピュータに実行させることのできる
プログラムとしてフロッピィディスク、光ディスクおよ
び半導体メモリなどの記録媒体に格納して頒布すること
が可能である。
The file management method described in the above embodiment can be distributed by storing it in a recording medium such as a floppy disk, an optical disk, or a semiconductor memory as a computer-executable program.

【0074】[0074]

【発明の効果】以上詳述したように、この発明によれ
ば、プロセスがファイルの更新を要求したときに、その
更新内容を示す更新情報を取得して保存するとともにプ
ライマリファイルのみを即座に更新し、チェックポイン
トが採取された後に、その保存しておいた更新情報で示
される更新内容をバックアップファイルに反映させる。
そして、たとえばプロセスがアボートしたときなどに
は、保存しておいた更新情報に基づいて、最後に採取し
たチェックポイント以降に更新されたデータに対応する
更新前のデータをバックアップファイルからすべて読み
出し、この読み出した更新前のデータを用いてプライマ
リファイルをチェックポイント時点に復元し、プロセス
の再実行を開始する(バックアップファイルを用いたプ
ロセスの再実行の開始も可能)。
As described above in detail, according to the present invention, when a process requests a file update, update information indicating the update content is acquired and stored, and only the primary file is immediately updated. Then, after the checkpoint is collected, the update content indicated by the stored update information is reflected in the backup file.
Then, for example, when the process aborts, based on the stored update information, all the pre-update data corresponding to the data updated since the last collected checkpoint is read from the backup file, and The primary file is restored to the time of the checkpoint using the read data before update, and the process is started again (the process can be started again using the backup file).

【0075】すなわち、このコンピュータシステムにお
いては、従来のようにファイルを更新するときに、更新
前のデータを読み出して退避させておくといった処理の
完了を通常処理に待機させることなく、障害時のファイ
ルのリカバリが実現されることになり、信頼性を損なう
ことなくファイルの更新性能を飛躍的に向上させること
が可能となる。
That is, in this computer system, when a file is updated as in the prior art, the completion of processing such as reading out the data before update and saving the data is not waited for in the normal processing, and the file at the time of the failure is updated. Recovery can be realized, and the file update performance can be dramatically improved without deteriorating reliability.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明の基本原理を説明するための概念図。FIG. 1 is a conceptual diagram for explaining a basic principle of the present invention.

【図2】この発明の第1の実施形態に係るコンピュータ
システムのシステム構成を示す図。
FIG. 2 is an exemplary view showing a system configuration of a computer system according to the first embodiment of the present invention.

【図3】同実施形態を適用するコンピュータシステムの
概略構成を示す図。
FIG. 3 is an exemplary view showing a schematic configuration of a computer system to which the embodiment is applied.

【図4】同実施形態においてファイルを更新する様子を
示す図。
FIG. 4 is an exemplary view showing how a file is updated in the embodiment.

【図5】同実施形態において障害発生時にプライマリフ
ァイルを復元する様子を示す図。
FIG. 5 is an exemplary view showing how a primary file is restored when a failure occurs in the embodiment.

【図6】同実施形態のファイル操作部が「ファイル書き
込み」を指示されたときの処理の流れを示すフローチャ
ート。
FIG. 6 is an exemplary flowchart showing the flow of processing when the file operation unit of the embodiment is instructed to “write a file”;

【図7】同実施形態のファイル操作部が「チェックポイ
ント採取」を指示されたときの処理の流れを示すフロー
チャート。
FIG. 7 is an exemplary flowchart showing the flow of processing when the file operation unit of the embodiment is instructed to “checkpoint collection”;

【図8】同実施形態のバックアップファイル更新部の処
理の流れを示すフローチャート。
FIG. 8 is an exemplary flowchart showing the flow of the process of the backup file updating unit of the embodiment.

【図9】同実施形態のプロセスにアボートなどの障害が
発生し、プロセスをプライマリコンピュータ30上で最
後に採取したチェックポイントから再実行する場合の処
理の流れを示すフローチャート。
FIG. 9 is an exemplary flowchart showing the processing flow when a failure such as an abort occurs in the process of the embodiment and the process is re-executed from the last checkpoint collected on the primary computer 30;

【図10】同実施形態のプライマリコンピュータ上のチ
ェックポイント情報復元部が「アドレス空間とプロセッ
サコンテクストとの復元」を指示された場合の処理の流
れを示すフローチャート。
FIG. 10 is an exemplary flowchart illustrating the flow of processing when the checkpoint information restoring unit on the primary computer according to the embodiment is instructed to “restoring an address space and a processor context”;

【図11】同実施形態のプライマリファイル復元部が
「プライマリファイルの復元」を指示された場合の処理
の流れを示すフローチャート。
FIG. 11 is an exemplary flowchart showing the flow of processing when the primary file restoration unit of the embodiment is instructed to “restore a primary file”;

【図12】同実施形態の障害が発生したときにバックア
ップファイルで処理を引き継ぐ様子を示す図。
FIG. 12 is an exemplary view showing how a backup file takes over the processing when a failure occurs in the embodiment.

【図13】この発明の第2の実施形態に係るコンピュー
タシステムのシステム構成を示す図。
FIG. 13 is a diagram showing a system configuration of a computer system according to a second embodiment of the present invention.

【図14】同実施形態を適用するコンピュータシステム
の概略構成を示す図。
FIG. 14 is an exemplary view showing a schematic configuration of a computer system to which the embodiment is applied.

【図15】従前のファイルに対する書き込みをキャンセ
ルすることが困難なため、ファイルに対して書き込みを
行なうときに、データをファイルに書き込む前に書き込
み以前のデータを事前に読み込んで保存を行ない、その
後にファイルへのデータ書き込みを行なう従来のシステ
ムの仕組みを説明する図。
FIG. 15 shows that it is difficult to cancel writing to a previous file. Therefore, when writing to a file, data before writing is read and saved before writing data to the file. FIG. 2 is a view for explaining the structure of a conventional system for writing data to a file.

【符号の説明】[Explanation of symbols]

10…運用系システム、11…アプリケーションプログ
ラム、12…ジャケットルーチン、13…OSバッファ
キャッシュ、14…ディスク装置、20…待機系システ
ム、21デーモン、211…未確定キュー、212…確
定キュー、22…OSバッファキャッシュ、23…ディ
スク装置、30…プライマリコンピュータ、31…チェ
ックポイント制御部、32…チェックポイント情報保存
部、33…チェックポイント情報復元部、34…チェッ
クポイント情報、35…プロセス、36…ファイルシス
テム、37…プライマリファイル復元部、38…プライ
マリファイル操作部、39…プライマリファイル、40
…バックアップコンピュータ、41…バックアップファ
イル、42…プライマリファイル復元情報読み出し部、
43…バックアップファイル操作部、431…未確定キ
ュー、432…確定キュー、44…バックアップファイ
ル更新部、45…チェックポイント情報、46…チェッ
クポイント情報復元部、47…プロセス、50…ネット
ワーク、60a,60b…ディスク装置。
DESCRIPTION OF SYMBOLS 10 ... Operating system, 11 ... Application program, 12 ... Jacket routine, 13 ... OS buffer cache, 14 ... Disk device, 20 ... Standby system, 21 daemon, 211 ... Indeterminate queue, 212 ... Confirmed queue, 22 ... OS Buffer cache, 23 disk device, 30 primary computer, 31 checkpoint control unit, 32 checkpoint information storage unit, 33 checkpoint information restoration unit, 34 checkpoint information, 35 process, 36 file system 37, primary file restoring unit, 38, primary file operating unit, 39, primary file, 40
... backup computer, 41 ... backup file, 42 ... primary file restoration information reading unit,
43 backup file operation unit, 431 undetermined queue, 432 fixed queue, 44 backup file update unit, 45 checkpoint information, 46 checkpoint information restoration unit, 47 process, 50 network, 60a, 60b ... Disk devices.

Claims (16)

【特許請求の範囲】[Claims] 【請求項1】 運用系および待機系の2つのコンピュー
タで2重化されたコンピュータシステムであって、中断
された処理を再開始するためのチェックポイントを定期
的に採取し、前記運用系および待機系双方のコンピュー
タ上に保存するコンピュータシステムにおいて、 前記運用系のコンピュータ上で実行されるプロセスによ
って更新されるファイルを前記運用系および待機系双方
のコンピュータで2重化して設けておき、 前記プロセスからファイルの更新が指示されたときに、
その更新情報を前記待機系のコンピュータ上に保存して
運用系のファイルのみを更新し、その更新が完了した時
点でその更新の要求元に対し更新完了を通知する手段
と、 前記チェックポイントが採取された後に、前記更新情報
に示される更新内容を前記待機系のファイルに反映させ
る手段とを具備してなることを特徴とするコンピュータ
システム。
1. A computer system duplexed by two computers, an active system and a standby system, wherein a checkpoint for restarting an interrupted process is periodically collected, and In a computer system that saves data on both computers of the system, files updated by a process executed on the computer of the active system are provided in duplicate on both the computer of the active system and the computer of the standby system. When instructed to update the file,
Means for storing the update information on the standby computer and updating only the active file, and when the update is completed, notifying the update request source of the update completion; and Means for reflecting the update content indicated in the update information to the standby file after the update.
【請求項2】 前記更新情報を前記運用系のコンピュー
タ上にバッファリングしておき、前記チェックポイント
の採取時点までに前記待機系のコンピュータに一括転送
する手段をさらに具備してなることを特徴とする請求項
1記載のコンピュータシステム。
2. The system according to claim 1, further comprising means for buffering the update information on the active computer and transferring the update information to the standby computer by the time the checkpoint is collected. The computer system of claim 1, wherein
【請求項3】 前記プロセスがアボートしたときに、最
後のチェックポイント以降に実行されたファイルの更新
に対する更新前のデータを前記更新情報により前記待機
系のファイルから読み出し、前記運用系のファイルを前
記チェックポイント時点の状態に復元した後、前記プロ
セスを前記チェックポイントから再実行する手段をさら
に具備してなることを特徴とする請求項1または2記載
のコンピュータシステム。
3. When the process is aborted, data before update for a file update executed since the last checkpoint is read from the standby file using the update information, and the active file is read from the standby file. 3. The computer system according to claim 1, further comprising: means for re-executing the process from the check point after restoring the state at the time of the check point.
【請求項4】 前記プロセスがアボートしたときに、最
後のチェックポイント以降に保存された更新情報を削除
し、前記チェックポイント以前の更新情報により示され
る更新を前記待機系のファイルに反映させた後、前記プ
ロセスを前記待機系のコンピュータ上で前記チェックポ
イントから再実行する手段をさらに具備してなることを
特徴とする請求項1または2記載のコンピュータシステ
ム。
4. When the process aborts, deletes the update information stored since the last checkpoint and reflects the update indicated by the update information before the checkpoint on the file of the standby system. 3. The computer system according to claim 1, further comprising means for re-executing said process from said checkpoint on said standby computer.
【請求項5】 前記運用系のコンピュータまたはこの運
用系のコンピュータを制御するオペレーティングシステ
ムに障害が発生したときに、最後のチェックポイント以
降に保存された更新情報を削除し、前記チェックポイン
ト以前の更新情報により示される更新を前記待機系のフ
ァイルに反映させた後、前記プロセスを前記待機系のコ
ンピュータ上で前記チェックポイントから再実行する手
段をさらに具備してなることを特徴とする請求項1また
は2記載のコンピュータシステム。
5. When a failure occurs in the active computer or the operating system controlling the active computer, the update information stored after the last checkpoint is deleted, and the update before the checkpoint is performed. 2. The system according to claim 1, further comprising: a unit configured to re-execute the process from the checkpoint on the standby computer after reflecting the update indicated by the information on the standby file. 3. The computer system according to 2.
【請求項6】 前記待機系のコンピュータまたはこの待
機系のコンピュータを制御するオペレーティングシステ
ムに障害が発生したときに、前記チェックポイントおよ
び更新情報の待機系のコンピュータへの転送を停止する
手段をさらに具備してなることを特徴とする請求項1ま
たは2記載のコンピュータシステム。
6. The system further comprises means for stopping transfer of the checkpoint and update information to the standby computer when a failure occurs in the standby computer or an operating system controlling the standby computer. 3. The computer system according to claim 1, wherein:
【請求項7】 前記運用系のファイルに障害が発生した
ときに、最後のチェックポイント以降に保存された更新
情報を削除し、前記チェックポイント以前の更新情報に
より示される更新を前記待機系のファイルに反映させた
後、前記プロセスを前記待機系のコンピュータ上で前記
チェックポイントから再実行する手段をさらに具備して
なることを特徴とする請求項1または2記載のコンピュ
ータシステム。
7. When a failure occurs in the active file, the update information stored after the last checkpoint is deleted, and the update indicated by the update information before the checkpoint is transferred to the standby file. 3. The computer system according to claim 1, further comprising: means for re-executing the process from the checkpoint on the standby computer after reflecting the process on the standby computer.
【請求項8】 前記待機系のファイルに障害が発生した
ときに、前記チェックポイントおよび更新情報の待機系
のコンピュータへの転送を停止する手段をさらに具備し
てなることを特徴とする請求項1または2記載のコンピ
ュータシステム。
8. The system according to claim 1, further comprising means for stopping transfer of the checkpoint and update information to the standby computer when a failure occurs in the standby file. Or the computer system according to 2.
【請求項9】 待機系のファイルの切り離しが行なわれ
たときに、第3のコンピュータ上に新たに待機系のファ
イルを確保する手段をさらに具備してなることを特徴と
する請求項1または2記載のコンピュータシステム。
9. The system according to claim 1, further comprising means for newly securing a standby file on the third computer when a standby file is separated. Computer system as described.
【請求項10】 待機系のファイルを用いて前記プロセ
スの前記チェックポイントからの再実行が行なわれたと
きに、前記待機系のファイルを運用系に切り替えて、前
記運用系のコンピュータ上に新たに待機系のファイルを
確保する手段をさらに具備してなることを特徴とする請
求項1または2記載のコンピュータシステム。
10. When the process is re-executed from the checkpoint using a standby file, the standby file is switched to an active file, and a new file is stored on the active computer. 3. The computer system according to claim 1, further comprising means for securing a standby file.
【請求項11】 運用系および待機系の2つのコンピュ
ータで2重化され、中断された処理を再開始するための
チェックポイントを定期的に採取して前記運用系および
待機系双方のコンピュータ上に保存し、前記運用系のコ
ンピュータ上で実行されるプロセスによって更新される
ファイルを前記運用系および待機系双方のコンピュータ
上で2重化して設けたコンピュータシステムのファイル
管理方法において、 前記プロセスからファイルの更新が指示されたときに、
その更新情報を前記待機系のコンピュータ上に保存して
運用系のファイルのみを更新し、その更新が完了した時
点でその更新の要求元に対し更新完了を通知するステッ
プと、 前記チェックポイントが採取された後に、前記更新情報
に示される更新内容を前記待機系のファイルに反映させ
るステップとを具備してなることを特徴とするファイル
管理方法。
11. A computer which is duplexed by two computers, an active system and a standby system, periodically collects checkpoints for restarting the interrupted processing and stores the checkpoints on the computers of both the active system and the standby system. A file management method for a computer system wherein a file to be stored and updated by a process executed on the active computer is duplicated on both the active and standby computers. When an update is ordered,
Storing the update information on the standby computer, updating only the active file, and notifying the update request source to the update requester when the update is completed; Reflecting the update content indicated in the update information in the file of the standby system after the update.
【請求項12】 最後のチェックポイント以降に実行さ
れたファイルの更新に対する更新前のデータを前記更新
情報により前記待機系のファイルから読み出し、前記運
用系のファイルを前記チェックポイント時点の状態に復
元した後、前記プロセスを前記チェックポイントから再
実行するステップをさらに備えたことを特徴とする請求
項11記載のファイル管理方法。
12. The data before update for a file update executed since the last checkpoint is read from the file of the standby system based on the update information, and the file of the active system is restored to the state at the time of the checkpoint. The method of claim 11, further comprising the step of re-executing the process from the checkpoint afterwards.
【請求項13】 最後のチェックポイント以降に保存さ
れた更新情報を削除し、前記チェックポイント以前の更
新情報により示される更新を前記待機系のファイルに反
映させた後、前記プロセスを前記待機系のコンピュータ
上で前記チェックポイントから再実行するステップをさ
らに備えたことを特徴とする請求項11記載のファイル
管理方法。
13. The method according to claim 12, wherein the update information stored after the last checkpoint is deleted, and the update indicated by the update information before the checkpoint is reflected in the file of the standby system. The file management method according to claim 11, further comprising a step of re-executing from the check point on a computer.
【請求項14】 運用系および待機系の2つのコンピュ
ータで2重化され、中断された処理を再開始するための
チェックポイントを定期的に採取して前記運用系および
待機系双方のコンピュータ上に保存し、前記運用系のコ
ンピュータ上で実行されるプロセスによって更新される
ファイルを前記運用系および待機系双方のコンピュータ
上で多重化して設けたコンピュータシステムのファイル
を管理するためのプログラムであって、 前記プロセスからファイルの更新が指示されたときに、
その更新情報を前記待機系のコンピュータ上に保存して
運用系のファイルのみを更新し、その更新が完了した時
点でその更新の要求元に対して更新完了を通知し、 前記チェックポイントが採取された後に、前記更新情報
に示される更新内容を前記待機系のファイルに反映させ
るように前記コンピュータを動作させるためのプログラ
ムを格納したコンピュータ読取可能な記憶媒体。
14. A computer which is duplexed by two computers, an active system and a standby system, periodically collects checkpoints for restarting the interrupted processing and stores the checkpoints on the computers of both the active system and the standby system. A program for managing files of a computer system provided to store and multiplex files updated by a process executed on the active computer on both the active and standby computers, When the process instructs to update the file,
The update information is stored on the standby computer, and only the active file is updated.When the update is completed, the update request is notified to the update request source, and the checkpoint is collected. And a computer-readable storage medium storing a program for causing the computer to operate so that the update content indicated in the update information is reflected in the standby file.
【請求項15】 前記プログラムは、最後のチェックポ
イント以降に実行されたファイルの更新に対する更新前
のデータを前記更新情報により前記待機系のファイルか
ら読み出し、前記運用系のファイルを前記チェックポイ
ント時点の状態に復元した後、前記プロセスを前記チェ
ックポイントから再実行するように前記コンピュータを
さらに動作させる請求項14記載のコンピュータ読取可
能な記憶媒体。
15. The program reads data before update for a file update executed since the last checkpoint from the standby file based on the update information, and reads the active file at the time of the checkpoint. The computer-readable medium of claim 14, further comprising causing the computer to re-execute the process from the checkpoint after restoring the state.
【請求項16】 前記プログラムは、最後のチェックポ
イント以降に保存された更新情報を削除し、前記チェッ
クポイント以前の更新情報により示される更新を前記待
機系のファイルに反映させた後、前記プロセスを前記待
機系のコンピュータ上で前記チェックポイントから再実
行するように前記コンピュータをさらに動作させる請求
項14記載のコンピュータ読取可能な記憶媒体。
16. The program deletes the update information stored since the last checkpoint, reflects the update indicated by the update information before the checkpoint on the file of the standby system, and then executes the process. 15. The computer-readable storage medium according to claim 14, further causing the computer to operate again from the checkpoint on the standby computer.
JP23293097A 1996-09-03 1997-08-28 Computer system and file management method Expired - Fee Related JP4095139B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23293097A JP4095139B2 (en) 1996-09-03 1997-08-28 Computer system and file management method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP23302196 1996-09-03
JP8-233021 1996-09-03
JP23293097A JP4095139B2 (en) 1996-09-03 1997-08-28 Computer system and file management method

Publications (2)

Publication Number Publication Date
JPH10133927A true JPH10133927A (en) 1998-05-22
JP4095139B2 JP4095139B2 (en) 2008-06-04

Family

ID=26530741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23293097A Expired - Fee Related JP4095139B2 (en) 1996-09-03 1997-08-28 Computer system and file management method

Country Status (1)

Country Link
JP (1) JP4095139B2 (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000163301A (en) * 1998-11-16 2000-06-16 Lucent Technol Inc Method, device, and system for file synchronization for fault-tolerant network
JP2000163276A (en) * 1998-12-01 2000-06-16 Nippon Telegr & Teleph Corp <Ntt> Network wide spare system
JP2002278819A (en) * 2001-03-21 2002-09-27 Toshiba Corp Generation management method for snap shot image, storage medium and generation management system
JP2005242747A (en) * 2004-02-27 2005-09-08 Hitachi Computer Peripherals Co Ltd Data backup system
KR100800044B1 (en) 2006-08-04 2008-01-31 한국과학기술정보연구원 Method for automatic checkpoint file management
US7689611B2 (en) 2000-02-02 2010-03-30 Hitachi, Ltd. Method of and a system for recovering data in an information processing system
JP2012178027A (en) * 2011-02-25 2012-09-13 Internatl Business Mach Corp <Ibm> Asynchronous checkpoint acquisition in parallel computer calculation of iteration method and restoration from there
US8436735B2 (en) 2007-02-12 2013-05-07 Radio Systems Corporation System for detecting information regarding an animal and communicating the information to a remote location
JP2013257627A (en) * 2012-06-11 2013-12-26 Bank Of Tokyo-Mitsubishi Ufj Ltd Database server
JP2014170574A (en) * 2014-04-25 2014-09-18 Bank Of Tokyo-Mitsubishi Ufj Ltd Database server

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000163301A (en) * 1998-11-16 2000-06-16 Lucent Technol Inc Method, device, and system for file synchronization for fault-tolerant network
JP2000163276A (en) * 1998-12-01 2000-06-16 Nippon Telegr & Teleph Corp <Ntt> Network wide spare system
US7689611B2 (en) 2000-02-02 2010-03-30 Hitachi, Ltd. Method of and a system for recovering data in an information processing system
JP2002278819A (en) * 2001-03-21 2002-09-27 Toshiba Corp Generation management method for snap shot image, storage medium and generation management system
JP2005242747A (en) * 2004-02-27 2005-09-08 Hitachi Computer Peripherals Co Ltd Data backup system
JP4565860B2 (en) * 2004-02-27 2010-10-20 日立コンピュータ機器株式会社 Data backup system
KR100800044B1 (en) 2006-08-04 2008-01-31 한국과학기술정보연구원 Method for automatic checkpoint file management
US8436735B2 (en) 2007-02-12 2013-05-07 Radio Systems Corporation System for detecting information regarding an animal and communicating the information to a remote location
JP2012178027A (en) * 2011-02-25 2012-09-13 Internatl Business Mach Corp <Ibm> Asynchronous checkpoint acquisition in parallel computer calculation of iteration method and restoration from there
JP2013257627A (en) * 2012-06-11 2013-12-26 Bank Of Tokyo-Mitsubishi Ufj Ltd Database server
JP2014170574A (en) * 2014-04-25 2014-09-18 Bank Of Tokyo-Mitsubishi Ufj Ltd Database server

Also Published As

Publication number Publication date
JP4095139B2 (en) 2008-06-04

Similar Documents

Publication Publication Date Title
EP0827079B1 (en) Checkpoint computer system
US7197615B2 (en) Remote copy system maintaining consistency
JP4960963B2 (en) Online page restore from database mirror
JP4301849B2 (en) Information processing method and its execution system, its processing program, disaster recovery method and system, storage device for executing the processing, and its control processing method
US8560886B1 (en) Method and system for rapid failback of a computer system in a disaster recovery environment
US20050283504A1 (en) Disaster recovery system suitable for database system
US20050193248A1 (en) Computer system for recovering data based on priority of the data
US20010056438A1 (en) Database system with backup and recovery mechanisms
US20050149683A1 (en) Methods and systems for data backups
JP4095139B2 (en) Computer system and file management method
US7836215B2 (en) Method for providing high performance storage devices
US20090248760A1 (en) Backup method of computer system
EP0881569B1 (en) File system and file management method which realize distributed replication in system having shared type raid
JPH10289217A (en) Log stream management system
JPH06139087A (en) Check point restart system
JP4428887B2 (en) Database system
US20050149554A1 (en) One-way data mirror using write logging
US20050149548A1 (en) One-way data mirror using copy-on-write
US10656867B2 (en) Computer system, data management method, and data management program
KR100365891B1 (en) Backup/recovery Apparatus and method for non-log processing of real-time main memory database system
JPH1185594A (en) Information processing system for remote copy
JPH0991183A (en) Data base recovery device
WO2017023244A1 (en) Fault tolerant computing
CN114253765A (en) Data recovery method and related equipment
JP2690700B2 (en) Database file recovery method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071211

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080307

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110314

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110314

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120314

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees