JP3120039B2 - Input / output control method with check recovery function and input / output control device with check recovery function - Google Patents

Input / output control method with check recovery function and input / output control device with check recovery function

Info

Publication number
JP3120039B2
JP3120039B2 JP08250557A JP25055796A JP3120039B2 JP 3120039 B2 JP3120039 B2 JP 3120039B2 JP 08250557 A JP08250557 A JP 08250557A JP 25055796 A JP25055796 A JP 25055796A JP 3120039 B2 JP3120039 B2 JP 3120039B2
Authority
JP
Japan
Prior art keywords
data
checkpoint
parity
write
secondary storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP08250557A
Other languages
Japanese (ja)
Other versions
JPH09269904A (en
Inventor
毅 佐久間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP08250557A priority Critical patent/JP3120039B2/en
Publication of JPH09269904A publication Critical patent/JPH09269904A/en
Application granted granted Critical
Publication of JP3120039B2 publication Critical patent/JP3120039B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、チェックポイン
トリスタート機能を有してなる計算機システムに適用し
て好適な入出力制御方法に係わり、特に2次記憶装置を
多重化した場合のすべての入出力処理を次のチェックポ
イントが取得されるまで待機させることを不要とし、計
算機システムの入出力処理能力を飛躍的に向上させるチ
ェックリカバリ機能を備えた入出力制御方法、及びチェ
ックリカバリ機能を備えた入出力制御装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an input / output control method suitable for a computer system having a checkpoint restart function, and more particularly, to all input / output control methods when a secondary storage device is multiplexed. An input / output control method with a check recovery function that dramatically improves the input / output processing capacity of the computer system, eliminating the need to wait for the output process to wait until the next checkpoint is obtained, and a check recovery function It relates to an input / output control device.

【0002】[0002]

【従来の技術】近年、計算機システムの普及は目覚まし
く、より高度な信頼性が要求されてきている。そして、
この計算機システムの信頼性を向上させるものに、チェ
ックポイントリスタート機構が存在する。
2. Description of the Related Art In recent years, the spread of computer systems has been remarkable, and higher reliability has been required. And
A checkpoint restart mechanism exists to improve the reliability of the computer system.

【0003】従来、チェックポイントを定期的に取りな
がら処理を進め、システムに故障が発生した場合に、採
取したチェックポイントから実行をリスタートすること
により故障からの回復を行なうようなチェックポイント
リスタート機構を有する計算機システムにおいては、リ
カバリ後のメモリ状態やプロセスの再実行状態と、I/
O装置の状態(たとえばディスクの内容)との間の整合
性を保つため、リカバリ後でも必ず発行される確定した
I/O要求のみを実行する必要がある。そのために、通
常、I/O要求が発生しても、その実行(処理)は次の
チェックポイント処理が開始されるまで保留され、チェ
ックポイント処理が完了した後に一括して実行される。
Conventionally, a checkpoint is periodically taken to perform processing, and when a failure occurs in the system, the checkpoint is restarted from the collected checkpoint to recover from the failure. In the computer system having the mechanism, the memory state after the recovery and the re-execution state of the process and the I / O
In order to maintain consistency with the state of the O device (for example, the contents of the disk), it is necessary to execute only a determined I / O request that is always issued even after recovery. Therefore, even if an I / O request occurs, its execution (processing) is normally suspended until the next checkpoint processing is started, and is executed collectively after the checkpoint processing is completed.

【0004】[0004]

【発明が解決しようとする課題】上述したような従来の
入出力制御方法においては、I/O要求発行処理は、メ
モリ状態が復元されれば痕跡の残らない読み込み(RE
AD)はともかくとして、少なくとも書き込み(WRI
TE)は、本来の発行時点からチェックポイント採取時
点まで発行が遅らされてしまう。
In the conventional input / output control method as described above, the I / O request issuance processing is performed without any trace (RE) when the memory state is restored.
AD) aside, at least write (WRI
TE) is delayed from the original issue time to the checkpoint collection time.

【0005】一方、このようなフォルトトレラント性を
もつ計算機システムにおいては、通常、ディスクに対し
ては信頼性を向上させるために多重化がなされている。
この場合、データの信頼性を維持するために、多重化し
たディスクそれぞれに対するI/O要求発行を並行して
行なうのではなく逐次的に行なう必要がある。このとき
の動作原理を図8を参照して説明する。
On the other hand, in such a fault-tolerant computer system, multiplexing is usually performed on disks in order to improve reliability.
In this case, in order to maintain data reliability, it is necessary to issue I / O requests to each of the multiplexed disks sequentially instead of in parallel. The operation principle at this time will be described with reference to FIG.

【0006】ここでは、ファイル管理において、各ファ
イルを主系と従系とで2重化して管理するものとする。
なお、これらのファイルは、それぞれ異なるディスク上
に置かれて多重化されていてもよいし、同一ディスク上
の異なる論理パーティション上に置かれて多重化されて
いてもよい。
Here, in file management, it is assumed that each file is redundantly managed by a master system and a slave system.
These files may be placed on different disks and multiplexed, or may be placed on different logical partitions on the same disk and multiplexed.

【0007】いま、たとえばアプリケーションプログラ
ムから書き込み要求が発行されたとすると(図8の
(1))、ファイル管理システムは、この要求をまず主
系のファイルに書き込むべくデバイスドライバに指示を
発行する(図8の(2))。
For example, if a write request is issued from an application program ((1) in FIG. 8), the file management system first issues an instruction to a device driver to write the request into a main file (FIG. 8). 8 (2)).

【0008】デバイスドライバからこの書き込みの完了
が通知されると(図8の(3))、ファイル管理システ
ムは、続いて従系のファイルに書き込むべくデバイスド
ライバに指示を発行する(図8の(4))。
When the completion of the writing is notified from the device driver ((3) in FIG. 8), the file management system subsequently issues an instruction to the device driver to write to the slave file ((3) in FIG. 8). 4)).

【0009】そして、ファイル管理システムは、この従
系のファイルへの書き込みの完了が通知されたときに
(図8の(5))、アプリケーションプログラムに対し
て書き込み完了を通知する(図8の(6))。
When the completion of writing to the slave file is notified ((5) in FIG. 8), the file management system notifies the application program of the completion of writing ((5) in FIG. 8). 6)).

【0010】したがって、前述したようなチェックポイ
ント機構を適用し、かつファイルを2重化したシステム
における書き込み要求は、まずチェックポイントまで発
行が待機され、さらに、2重化の両装置への書き込みが
完了しない限り、一つの理論的なI/O要求が完了しな
いため、全体として処理時間が大きいという問題があ
る。このときの動作原理を図9を参照して説明する。
Therefore, a write request in a system in which the above-mentioned checkpoint mechanism is applied and a file is duplicated is first issued until a checkpoint is issued. Unless the processing is completed, one theoretical I / O request is not completed, so that there is a problem that the processing time is long as a whole. The operation principle at this time will be described with reference to FIG.

【0011】いま、たとえばアプリケーションプログラ
ムから書き込み要求が発行されたとすると(図9の
(1))、ファイル管理システムは、次のチェックポイ
ントが取得されるまで、この要求の発行を待機する(図
9の(2))。そして、チェックポイントが取得される
と(図9の(3))、ファイル管理システムは、この待
機させていた要求について主系のファイルに書き込むべ
デバイスドライバに指示を発行する(図9の
(4))。
For example, if a write request is issued from an application program ((1) in FIG. 9), the file management system waits for the issuance of this request until the next checkpoint is obtained (FIG. 9). (2)). When the checkpoint is acquired ((3) in FIG. 9), the file management system issues an instruction to the device driver to write the waiting request into the main file ((4) in FIG. 9). )).

【0012】以降は、図6で示した動作と同様であり、
デバイスドライバからこの書き込みの完了が通知される
た際に(図9の(5))、ファイル管理システムは、続
いて従系のファイルに書き込むべくデバイスドライバ
指示を発行し(図9の(6))、この従系のファイルへ
の書き込みの完了が通知されたときに(図9の
(7))、アプリケーションプログラムに対して書き込
み完了を通知する(図9の(8))。
The subsequent operation is the same as the operation shown in FIG.
When the completion of the writing is notified from the device driver ((5) in FIG. 9), the file management system subsequently issues an instruction to the device driver to write the slave file ((6) in FIG. 9). )), When the completion of writing to the slave file is notified ((7) in FIG. 9), the completion of writing is notified to the application program ((8) in FIG. 9).

【0013】すなわち、2次記憶装置に対する書き込み
要求については、図9の(2)で示した期間だけ余分に
処理時間が費やされることになり、システム全体の応答
時間を大きくしてしまっているといった問題があった。
That is, for a write request to the secondary storage device, an extra processing time is consumed only for the period shown in FIG. 9 (2), and the response time of the entire system is increased. There was a problem.

【0014】なお、特願平5―305077(対応U
SSN第992219号、米国出願日:1992年12
月17日、出願人:IBM)はリモートデータの2重化
のためのシステム及び方法を開示している。このシステ
ムはDSAD(直接アクセス記憶装置)の2重化システ
ムであり、2次側はリモートにあり、1次側のディスク
には入力データを直接書き込み、2次側へはシーケンス
チェックポイント毎にグループ化して書き込まれる。し
かし、このシステムに記載されているチェックポイント
は一連の情報パケットがグループにまとめられて1つの
シーケンス単位として処理されるシーケンスチェックポ
イントを意味しており、本発明に記載したシステムをリ
カバリするためのチェックポイントとは意味が異なる。
言い換えれば、IBMのシステムはデータの2重化のた
めの(非同期で送るパケットのシーケンスの整合をとる
ための)チェックポイントであるのに対し、本発明はチ
ェックポイントリカバリー方式の計算機システムにおけ
るデータの整合性をとるためのチェックポイントであ
る。IBMのシステムはチェックポイントリスタート方
式のシステムではないので、チェックポイントの時間間
隔は、本発明のそれと比べて長い。
Incidentally, Japanese Patent Application No. 5-305077 (corresponding U
SSN 992219, U.S. filing date: December 1992
On May 17, Applicant (IBM) discloses a system and method for remote data duplication. This system is a duplex system of DSAD (Direct Access Storage Device) , the secondary side is remote, the input data is directly written on the primary side disk, and the secondary side is grouped by sequence checkpoint. Written. However, the checkpoint described in this system means a sequence checkpoint in which a series of information packets are grouped and processed as one sequence unit, and is used for recovering the system described in the present invention . The meaning is different from the checkpoint.
In other words, while the IBM system is a checkpoint for data duplication (to match the sequence of packets sent asynchronously), the present invention provides a system for checking data in a checkpoint recovery type computer system. This is a checkpoint for consistency. Since the IBM system is not a checkpoint restart system, the checkpoint time interval is longer than that of the present invention .

【0015】そこで、本発明は上記事情を考慮して成さ
れたもので、上記不具合を解消し、2次記憶装置を多重
化した場合のすべての入出力処理を次のチェックポイン
トが取得されるまで待機させることを不要とし、計算機
システムの入出力処理能力を飛躍的に向上させるチェッ
クリカバリ機能を備えた入出力制御方法を提供すること
を目的とする。
Therefore, the present invention has been made in consideration of the above circumstances, and solves the above-mentioned problems, and obtains the next checkpoint for all input / output processing when a secondary storage device is multiplexed. It is an object of the present invention to provide an input / output control method having a check recovery function that makes it unnecessary to wait until the input / output processing is completed and dramatically improves the input / output processing capacity of a computer system.

【0016】[0016]

【課題を解決するための手段】本発明は、上記目的を達
成するため、故障などによって処理が中断された場合に
備え、その中断された処理を再開始するためのチェック
ポイントを定期的に取得するチェックポイント取得機能
を有してなる計算機システムであって、一つのデータを
2次記憶装置の複数の記憶箇所で多重化させて管理する
計算機システムに適用される入出力制御方法において、
前記2次記憶装置へのデータ書き込み要求を受けたとき
に、前記2次記憶装置の複数の記憶箇所のうち、第1の
記憶箇所に対して前記データ書き込み要求を次のチェッ
クポイントを待たず発行してデータの書き込み処理を実
行する第1のステップと、次のチェックポイントの取得
後に、前記2次記憶装置の複数の記憶箇所のうち、第2
の記憶箇所に対して前記データの書き込み処理を実行す
る第2のステップと、直前に取得したチェックポイント
から再開始する際に、前記第1のステップで書き込み処
理が行なわれた前記第1の記憶箇所のデータを前記第2
の記憶箇所に記憶されているデータを読み出して修復す
る第3のステップとを具備してなることを特徴とする。
According to the present invention, in order to achieve the above object, a checkpoint for restarting the interrupted process is periodically acquired in preparation for a case where the process is interrupted due to a failure or the like. An input / output control method applied to a computer system having a checkpoint acquisition function for multiplexing and managing one data in a plurality of storage locations of a secondary storage device.
When a data write request to the secondary storage device is received, the data write request is issued to a first storage location among a plurality of storage locations of the secondary storage device without waiting for the next checkpoint. A first step of performing a data write process and a second check point of the plurality of storage locations of the secondary storage device after acquiring the next checkpoint.
A second step of executing the data write processing on the storage location of the above, and a restart of the write processing in the first step when restarting from the checkpoint acquired immediately before.
The data in the first storage location where the
To read and repair the data stored in the memory location
And a third step .

【0017】そして、この発明においては、データ書き
込み要求を受け付けたときに、たとえば主系と従系とで
2重化されたファイルのうち、主系のファイルについて
は次のチェックポイントを待たずに書き込み処理を実施
する。一方、従系のファイルについては、主系のファイ
ルの書き込み処理が完了し、次のチェックポイントが取
得された後に書き込み処理を実施する。
According to the present invention, when a data write request is received, for example, of files duplicated between a master system and a slave system, the main system file does not wait for the next check point. Perform write processing. On the other hand, for the slave file, the writing process is performed after the writing process of the master file is completed and the next checkpoint is obtained.

【0018】一般に、チェックポイントの取得間隔は、
主系のファイルへの書き込み処理に要する時間と比較し
て十分に小さいため、ほとんどの場合は、主系のファイ
ルへの書き込み処理中に、次のチェックポイントが取得
される。したがって、従系のファイルへの書き込み処理
を行なう際に、待機する期間を発生させることがほとん
どなく、その処理時間は大幅に短縮する。
Generally, the checkpoint acquisition interval is
In most cases, the next checkpoint is acquired during the writing process to the main file because the time required for the writing process to the main file is sufficiently small. Therefore, there is almost no waiting period when writing to the slave file, and the processing time is greatly reduced.

【0019】ここで、故障の発生などにより直前のチェ
ックポイントから再開始する場合を考える。この場合、
この発明では、主系のファイルへ書き込まれたデータを
従系のファイルのデータで修復するため、なんら不整合
を発生させることがない。これにより、2次記憶装置を
多重化した場合のすべての入出力処理を次のチェックポ
イントが取得されるまで待機させることが回避でき、そ
の処理能力は飛躍的に向上する。
Here, it is assumed that the operation is restarted from the immediately preceding checkpoint due to a failure or the like. in this case,
In the present invention, since data written to the master file is restored with data of the slave file, no inconsistency occurs. As a result, it is possible to avoid waiting for all the input / output processing when the secondary storage device is multiplexed until the next checkpoint is obtained, and the processing capacity is dramatically improved.

【0020】また、本発明は上記目的を達成するため、
故障などによって処理が中断された場合に備え、その中
断された処理を再開始するためのチェックポイントを定
期的に取得するチェックポイント取得機能を有してなる
計算機システムであって、複数の2次記憶装置でパリテ
ィグループを構成してデータを管理する計算機システム
に適用される入出力制御方法において、前記2次記憶装
置へのデータ書き込み要求を受けたときに、その要求の
書き込みデータから更新後のパリティを算出する第1の
ステップと、前記2次記憶装置のうち第1の2次記憶装
置へのデータ書き込み要求を次のチェックポイントを待
たずに発行して前記書き込みデータの書き込み処理を実
行する第2のステップと、次のチェックポイントの取得
後に、前記第1のステップで算出したパリティの書き込
み要求を発行して第2の前記2次記憶装置に前記パリテ
ィの書き込み処理を実行する第3のステップと、直前に
取得したチェックポイントから再開始する際に、前記第
2のステップで前記第1の2次記憶装置に書き込まれた
データを、前記第1のステップで算出したパリティと前
記第2のステップの前記書き込みデータから書き込み前
のデータを算出して、この算出したデータを再書き込み
して修復する第4のステップとを具備してなることを特
徴とする。
Further, the present invention achieves the above object,
A computer system having a checkpoint acquisition function for periodically acquiring a checkpoint for restarting the interrupted processing in preparation for a case where the processing is interrupted due to a failure or the like. In an input / output control method applied to a computer system that manages data by configuring a parity group in a storage device, when a request to write data to the secondary storage device is received, the data written after the request is updated from the write data of the request A first step of calculating parity, and issuing a data write request to the first secondary storage device among the secondary storage devices without waiting for the next checkpoint, and executing the write data write process. In the second step and after the acquisition of the next checkpoint, a write request for the parity calculated in the first step is issued. A third step of executing the parity write processing on the secondary storage device of No. 2 and, when restarting from the checkpoint acquired immediately before, the second step stores the parity in the first secondary storage device. The written data is compared with the parity calculated in the first step and the previous data.
Before writing from the write data in the second step
And then rewrite the calculated data
And restoring by a fourth step .

【0021】そして、この発明においては、データ書き
込み要求を受け付けたときに、次のチェックポイントを
待たずに書き込み処理を実施するが、その結果更新すべ
きパリティは、この書き込み処理が完了し、次のチェッ
クポイントが取得された後に書き込み処理を実施する。
According to the present invention, when a data write request is accepted, the write processing is performed without waiting for the next checkpoint. As a result, the parity to be updated is updated when the write processing is completed. After the checkpoint is obtained, the writing process is performed.

【0022】この場合においても、チェックポイントの
取得間隔は、ファイルへの書き込み処理に要する時間と
比較して十分に小さいため、ほとんどの場合は、ファイ
ルへの書き込み処理中に、次のチェックポイントが取得
される。したがって、パリティの書き込み処理を行なう
際に、待機する期間を発生させることがほとんどなく、
その処理時間は大幅に短縮する。
Also in this case, the checkpoint acquisition interval is sufficiently small as compared with the time required for the writing process to the file, and in most cases, the next checkpoint is executed during the writing process to the file. Is obtained. Therefore, when performing parity write processing, there is almost no waiting period,
The processing time is greatly reduced.

【0023】ここで、故障の発生などにより直前のチェ
ックポイントから再開始する場合を考える。この場合、
この発明では、ファイルへ書き込まれたデータをパリテ
ィによって修復するため、なんら不整合を発生させるこ
とがない。これにより、入出力処理を次のチェックポイ
ントが取得されるまで待機させることが回避でき、その
処理能力は飛躍的に向上する。
Here, consider the case where the operation is restarted from the immediately preceding checkpoint due to the occurrence of a failure or the like. in this case,
According to the present invention, the data written to the file is restored by the parity, so that no inconsistency occurs. As a result, it is possible to prevent the input / output processing from waiting until the next checkpoint is obtained, and the processing capacity is dramatically improved.

【0024】さらに、本発明は上記目的を達成するた
め、故障などによって処理が中断された場合に備え、そ
の中断された処理を再開始するためのチェックポイント
を定期的に取得するチェックポイント取得機能を有して
なる計算機システムであって、複数の2次記憶装置でパ
リティグループを構成してデータを管理する計算機シス
テムに適用される入出力制御方法において、前記2次記
憶装置へのデータ書き込み要求を受けた時に、その要求
の書き込みデータから更新後のパリティを算出する第1
のステップと、この第1のステップで算出した前記パリ
ティの書き込み要求を次のチェックポイントを待たず発
行して、第2の前記2次記憶装置に前記パリティの書き
込み処理を実行する第2のステップと、次のチェックポ
イントの取得後に、前記2次記憶装置のうち第1の2次
記憶装置へのデータ書き込み要求を発行して前記書き込
みデータの書き込み処理を実行する第3のステップと、
直前に取得したチェックポイントから再開始する際に、
前記第2のステップで前記第2の2次記憶装置に書き込
まれたパリティを、前記第1のステップで算出したパリ
ティと前記第3のステップの前記書き込みデータから元
のパリティを復元して、この復元したパリティを再書き
込みして修復する第4のステップとを具備してなること
を特徴とする。
Further, in order to achieve the above object, the present invention provides a checkpoint acquisition function for periodically acquiring a checkpoint for restarting the interrupted process in case the process is interrupted due to a failure or the like. A data write request to the secondary storage device, wherein the input / output control method is applied to a computer system that manages data by configuring a parity group with a plurality of secondary storage devices. Receiving the request, calculates the updated parity from the write data of the request.
And a second step of issuing the parity write request calculated in the first step without waiting for the next checkpoint, and executing the parity write processing in the second secondary storage device. And a third step of issuing a data write request to a first secondary storage device among the secondary storage devices after the acquisition of the next checkpoint and executing a write process of the write data;
When restarting from the checkpoint obtained just before,
The parity written in the second secondary storage device in the second step is calculated using the parity calculated in the first step.
From the write data of the third step
Of parity and rewrite the restored parity
And repairing the data by a fourth step .

【0025】そして、この発明においては、データ書き
込み要求を受け付けたときに、このデータ書き込みの結
果更新すべきパリティについて、次のチェックポイント
を待たずに書き込み処理を行い、データについては、パ
リティの書き込み処理が完了し、次のチェックポイント
が取得された後に書き込み処理を実施する。
According to the present invention, when a data write request is received, a write process is performed on the parity to be updated as a result of the data write without waiting for the next checkpoint, and the parity write is performed on the data. After the processing is completed and the next checkpoint is obtained, the writing processing is performed.

【0026】この場合においても、チェックポイントの
取得間隔は、パリティの書き込み処理に要する時間と比
較して十分に小さいため、ほとんどの場合は、パリティ
の書き込み処理中に、次のチェックポイントが取得され
る。したがって、データの書き込み処理を行なう際に、
待機する期間を発生させることがほとんどなく、その処
理時間は大幅に短縮する。
In this case as well, the checkpoint acquisition interval is sufficiently small compared to the time required for the parity write processing. Therefore, in most cases, the next checkpoint is acquired during the parity write processing. You. Therefore, when performing the data writing process,
There is almost no waiting period, and the processing time is greatly reduced.

【0027】ここで、故障の発生などにより直前のチェ
ックポイントから再開始する場合を考える。この場合、
この発明では、パリティをファイルのデータによって修
復するため、なんら不整合を発生させることがない。こ
れにより、入出力処理を次のチェックポイントが取得さ
れるまで待機させることが回避でき、その処理能力は飛
躍的に向上する。
Here, consider a case where the operation is restarted from the immediately preceding check point due to a failure or the like. in this case,
According to the present invention, since the parity is restored by the data of the file, no inconsistency occurs. As a result, it is possible to prevent the input / output processing from waiting until the next checkpoint is obtained, and the processing capacity is dramatically improved.

【0028】この発明によれば、チェックポイントリス
タート機能を有し、たとえば一つのデータを複数箇所で
多重化させて管理することによりデータの信頼性を確保
する計算機システムにおいて、チェックポイントによる
I/O要求の遅延を軽減させることができ、通常稼働時
のシステム性能を飛躍的に向上させることが可能とな
る。
According to the present invention, in a computer system having a checkpoint restart function, for example, multiplexing and managing one piece of data at a plurality of locations to secure data reliability, O request delay can be reduced, and system performance during normal operation can be dramatically improved.

【0029】[0029]

【発明の実施の形態】以下、図面を参照して本発明の一
実施の形態を説明する。 (第1実施形態)図1は、この発明の第1実施形態に係
わる計算機システムの一例を示すブロック図である。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. (First Embodiment) FIG. 1 is a block diagram showing an example of a computer system according to a first embodiment of the present invention.

【0030】図1に示すように、計算機システムはCP
U31、メモリ37、ディスクドライブ43、45およ
びこれらのディスクドライブを制御するディスクコント
ローラ39、41、および上記各ユニットを接続するシ
ステムバス35とで構成される。
As shown in FIG. 1, the computer system has a CP
U31, memory 37, disk drives 43 and 45, disk controllers 39 and 41 for controlling these disk drives, and a system bus 35 for connecting each of the above units.

【0031】前記メモリ37には図3(a),図3
(b),図5(a),図5(b),図6(a),図6
(b)に示すフローチャートで示されるプログラムが格
納される。なお、図1ではCPUの数は1つであるが、
複数であってもよい。
FIG. 3A, FIG.
(B), FIG. 5 (a), FIG. 5 (b), FIG. 6 (a), FIG.
The program shown in the flowchart shown in (b) is stored. Although the number of CPUs is one in FIG. 1,
There may be more than one.

【0032】図2は、同実施形態における計算機システ
ムの概略構成を示す機能ブロック図である。本実施形態
の計算機システムは、オペレーティングシステム2によ
って全体的な制御がされており、このオペレーティング
システム2は、ディスク3a〜3bなどに保持されるフ
ァイルの管理を司るファイル管理システム21、ディス
ク3a〜3bの入出力を行なうデバイスドライバ22、
およびチェックポイントの取得管理を司るチェックポイ
ント管理システム23を具備してなる。
FIG. 2 is a functional block diagram showing a schematic configuration of the computer system in the embodiment. The computer system according to the present embodiment is entirely controlled by an operating system 2. The operating system 2 includes a file management system 21 that manages files stored in disks 3a to 3b and the like, and disks 3a to 3b. A device driver 22 for input / output of
And a checkpoint management system 23 for managing acquisition of checkpoints.

【0033】本実施形態の計算機システムでは、アプリ
ケーションプログラム1がデータの書き込み要求を発行
すると、この書き込み要求がファイル管理システム21
に引き渡される。この書き込み要求を受け取ったファイ
ル管理システム21は、このデータをどこに格納するこ
とによって多重化するかを決定し、この決定した格納位
置を対応づける。ここでは、このデータをディスク3a
(主系)とディスク3b(従系)とに格納することによ
って多重化するものとする。
In the computer system of this embodiment, when the application program 1 issues a data write request, the write request is sent to the file management system 21.
Handed over to The file management system 21 that has received the write request determines where the data is to be stored and multiplexed, and associates the determined storage location. Here, this data is stored on disk 3a.
It is assumed that the data is multiplexed by being stored in the (master system) and the disk 3b (slave system).

【0034】次に、ファイル管理システム21は、この
データの書き込み要求を主系であるディスク3aについ
てのみデバイスドライバ22に指示する。この指示を受
けたデバイスドライバ22は、この書き込み処理をディ
スク3aに対して実行する。
Next, the file management system 21 issues a data write request to the device driver 22 only for the main disk 3a. The device driver 22 receiving this instruction executes the writing process on the disk 3a.

【0035】ほとんどの場合、この実行中にチェックポ
イントが取得され、その旨がチェックポイント管理シス
テム23からファイル管理システム21に通知される。
そして、デバイスドライバ22は、ディスク3aに対す
る書き込み処理が完了すると、その旨をファイル管理シ
ステム21に通知し、すでにチェックポイント管理シス
テム23からチェックポイント取得の通知を受けている
ファイル管理システム21は、その後すぐに従系である
ディスク3bについてデータの書き込み要求をデバイス
ドライバ22に指示する。そして、ファイル管理システ
ム21は、この従系の書き込み処理が完了した時点で、
アプリケーションプログラム1に対して書き込み処理完
了を通知する。
In most cases, a checkpoint is acquired during this execution, and the checkpoint management system 23 notifies the file management system 21 of that.
When the writing process to the disk 3a is completed, the device driver 22 notifies the file management system 21 of the completion, and the file management system 21, which has already received the checkpoint acquisition notification from the checkpoint management system 23, Immediately subordinate
The device driver 22 is instructed to write data to the disk 3b . Then, when the file management system 21 completes the slave write processing,
It notifies the application program 1 of the completion of the writing process.

【0036】一方、故障の発生などにより直前のチェッ
クポイントから再開始する場合、ファイル管理システム
21は、デバイスドライバ22にディスク3bのデータ
の読み出しを指示し、この従系であるディスク3bのデ
ータによって主系のディスク3aのデータを修復する。
On the other hand, when restarting from the immediately preceding checkpoint due to the occurrence of a failure or the like, the file management system 21 instructs the device driver 22 to read data from the disk 3b. The data on the main disk 3a is restored.

【0037】次に、本実施形態の動作手順を図3(a)
および図3(b)を参照して説明する。図3(a)は、
通常時の動作手順を示すフローチャートである。
Next, the operation procedure of this embodiment is shown in FIG.
This will be described with reference to FIG. FIG. 3 (a)
It is a flowchart which shows the operation | movement procedure at the time of normal.

【0038】アプリケーションプログラム1からの書き
込み要求を受け取ったファイル管理システム21は(ス
テップA1)、このデータの書き込み要求を主系である
ディスク3aについてのみデバイスドライバ22に指示
し、この指示を受けたデバイスドライバ22は、この書
き込み処理をディスク3aに対して実行する(ステップ
A2)。
The device file management system 21 which has received the write request from the application program 1 (Step A1), instructs the device driver 22 only for disc 3a is a write request for the data in the main system, receives this instruction The driver 22 executes this writing process on the disk 3a (step A2).

【0039】ファイル管理システム21は、この書き込
み処理が完了すると(ステップA3のY)、チェックポ
イントが取得済みか否か判定し(ステップA4)、チェ
ックポイントが取得済みであれば(ステップA4の
Y)、従系であるディスク3bについてデータの書き込
み要求をデバイスドライバ22に指示する(ステップA
5)。そして、この書き込み処理が完了したら(ステッ
プA6のY)、アプリケーションプログラム1に対して
書き込み処理完了を通知する(ステップA7)。
When the writing process is completed (Y in step A3), the file management system 21 determines whether or not a checkpoint has been acquired (step A4), and if the checkpoint has been acquired (Y in step A4). ), And instructs the device driver 22 to write data to the slave disk 3b (step A).
5). When the writing process is completed (Y in step A6), the application program 1 is notified of the completion of the writing process (step A7).

【0040】図3(b)は、故障の発生などにより直前
のチェックポイントから再開始する場合動作手順を示す
フローチャートである。この場合、ファイル管理システ
ム21は、まずデバイスドライバ22にディスク3bの
データの読み出しを指示する(ステップB1)。そし
て、この従系であるディスク3bのデータ読み出し処理
が完了すると(ステップB2にY)、この読み出された
データを主系であるディスク3aに再書き込みする(ス
テップB3〜ステップB4)。これにより主系のディス
ク3aのデータが修復される。
FIG. 3B is a flowchart showing an operation procedure when restarting from the immediately preceding check point due to a failure or the like. In this case, the file management system 21 first instructs the device driver 22 to read data from the disk 3b (step B1). When the data reading process of the slave disk 3b is completed (Y in step B2), the read data is rewritten to the master disk 3a (step B3 to step B4). As a result, the data on the main disk 3a is restored.

【0041】図4には、本実施形態の動作原理が示され
ている。いま、たとえばアプリケーションプログラムか
ら書き込み要求が発行されたとすると(図4の
(1))、ファイル管理システムは、次のチェックポイ
ントの取得を待機せずに、主系のファイルに書き込むべ
デバイスドライバ22に指示を発行する(図4の
(2))。
FIG. 4 shows the operation principle of this embodiment. Now, for example, if a write request is issued from an application program ((1) in FIG. 4), the file management system does not wait for the acquisition of the next checkpoint but sends the device driver 22 to the device driver 22 to write to the primary file. An instruction is issued ((2) in FIG. 4).

【0042】チェックポイントの取得間隔は、主系のフ
ァイルへの書き込み処理に要する時間と比較して十分に
小さいため、ほとんどの場合、主系のファイルへの書き
込み処理中に、次のチェックポイントが取得される(図
4の(3))。そして、デバイスドライバから主系の
き込みの完了が通知された際に(図4の(4))、ファ
イル管理システムは、続いて従系のファイルに書き込む
べくデバイスドライバに指示を発行し(図4の
(5))、この従系のファイルへの書き込みの完了が通
知されたときに(図4の(6))、アプリケーションプ
ログラムに対して書き込み完了を通知する(図4の
(7))。
Since the checkpoint acquisition interval is sufficiently smaller than the time required for the writing process to the main file, in most cases, the next checkpoint is executed during the writing process to the main file. It is acquired ((3) in FIG. 4). Then, (in FIG. 4 (4)) when completing the device driver of the main system of writing <br/> lump can is notified, the file management system, subsequently instruct the device driver to write to the slave file ((5) in FIG. 4), and when the completion of writing to the slave file is notified ((6) in FIG. 4), the completion of writing is notified to the application program (FIG. 4). (7)).

【0043】これにより、入出力処理を次のチェックポ
イントが取得されるまで待機させることが回避でき、か
つ主系のファイルへ書き込まれたデータを従系のファイ
ルのデータで修復するため、なんら不整合を発生させる
ことがない。
As a result, it is possible to prevent the input / output processing from waiting until the next checkpoint is obtained, and to restore the data written to the master file with the data of the slave file. No alignment occurs.

【0044】(第2実施形態)次に、図5(a)および
図5(b)を参照してこの発明の第2の実施形態を説明
する。
(Second Embodiment) Next, a second embodiment of the present invention will be described with reference to FIGS. 5A and 5B.

【0045】本実施形態の構成は、第1実施形態と同様
である。しかしながら、第1実施形態では、信頼性の確
保を主系および従系を設けて多重化することによって実
現しているのに対し、本実施形態では、たとえば図7
(a)に示すようにRAID(Redundant A
rrays of Inexpensive Disk
s)のレベル3(入力データをビット単位で分割し、複
数のHDDに格納する。エラー訂正符号はパリティを使
う。)または図7(b)に示すようにレベル5(入力デ
ータをHDDのセクタ単位でインターリーブする。個々
のHDDに分散される。)のように、複数のディスク3
a〜3bでパリティグループを構成して実現する。
The configuration of this embodiment is the same as that of the first embodiment. However, in the first embodiment, the reliability is realized by providing a master system and a slave system and multiplexing them, whereas in the present embodiment, for example, FIG.
As shown in (a), RAID (Redundant A
rays of Inexpensive Disk
s) level 3 (input data is divided in bit units and stored in a plurality of HDDs. Parity is used for error correction codes) or level 5 (input data is divided into HDD sectors as shown in FIG. 7B). Interleaved in units, distributed to individual HDDs).
This is realized by configuring a parity group from a to 3b.

【0046】この構成による本実施形態の動作手順を図
5(a)を参照して説明する。図5(a)は、通常時の
動作手順を示すフローチャートである。アプリケーショ
ンプログラム1からの書き込み要求を受け取ったファイ
ル管理システム21は(ステップC1)、このデータの
書き込みの結果更新されるべきパリティを算出する(ス
テップC2)。そして、ファイル管理システム21は、
このデータの書き込みをデバイスドライバ22に指示
し、この指示を受けたデバイスドライバ22は、この書
き込み処理を実行する(ステップC3)。
The operation procedure of this embodiment according to this configuration will be described with reference to FIG. FIG. 5A is a flowchart illustrating an operation procedure in a normal state. The file management system 21 that has received the write request from the application program 1 (step C1) calculates the parity to be updated as a result of writing this data (step C2). Then, the file management system 21
The device driver 22 instructs the device driver 22 to write the data, and the device driver 22 having received the instruction executes the write process (step C3).

【0047】ファイル管理システム21は、この書き込
み処理が完了すると(ステップC4のY)、チェックポ
イントが取得済みか否か判定し(ステップC5)、チェ
ックポイントが取得済みであれば(ステップC5の
Y)、今度はパリティの書き込み要求をデバイスドライ
バ22に指示する(ステップC6)。そして、この書き
込み処理が完了したら(ステップC7のY)、アプリケ
ーションプログラム1に対して書き込み処理完了を通知
する(ステップC8)。
When the writing process is completed (Y in step C4), the file management system 21 determines whether or not a checkpoint has been acquired (step C5), and if the checkpoint has been acquired (Y in step C5). This time, a parity write request is instructed to the device driver 22 (step C6). When the writing process is completed (Y in step C7), the application program 1 is notified of the completion of the writing process (step C8).

【0048】図5(b)は、故障の発生などにより直前
のチェックポイントから再開始する場合の動作手順を示
すフローチャートである。この場合、ファイル管理シス
テム21は、まずステップC2で算出したパリティとC
3で書き込むデータとから、書き込み前のデータを算出
する(ステップD1)。そして、この算出したデータを
ステップC3で書き込んだ箇所に再書き込みすることに
より(ステップD2〜ステップD3)、データの修復を
行なう。
FIG. 5B is a flowchart showing an operation procedure when restarting from the immediately preceding check point due to a failure or the like. In this case, the file management system 21 first checks the parity calculated in step C2 and C
The data before writing is calculated from the data to be written in step 3 (step D1). And this calculated data is
The data is restored by rewriting the data written in step C3 (step D2 to step D3).

【0049】これにより、第1実施形態と同様に、入出
力処理を次のチェックポイントが取得されるまで待機さ
せることが回避でき、かつデータをパリティで修復する
ため、なんら不整合を発生させることがない。
As a result, similarly to the first embodiment, it is possible to prevent the input / output processing from waiting until the next checkpoint is obtained, and to restore the data with the parity, thereby causing no inconsistency. There is no.

【0050】なお、このデータの書き込みと、パリティ
の書き込みとを逆にして処理しても同様の効果が得られ
る。すなわち、図6(a)に示すように、パリティの書
き込み処理が完了した後に(次のチェックポイントが取
得済みであることが前提)、データの書き込み処理を行
なうといった手順を辿る場合、図6(b)に示すよう
に、直前のチェックポイントから再開始する際に、ステ
ップE2で算出したパリティと、ステップE6で書き込
むデータとから、元のパリティを復元し(ステップF
1)、ステップE4で書き込んだパリティをこの復元し
たパリティで置き換えることによって(ステップF2〜
ステップF3)、修復が可能である。
Note that the same effect can be obtained by reversing the data writing and the parity writing. That is, as shown in FIG. 6A, when a procedure of performing data write processing after completion of parity write processing (assuming that the next checkpoint has been acquired) is performed, As shown in b), when restarting from the immediately preceding checkpoint, the original parity is restored from the parity calculated in step E2 and the data to be written in step E6 (step F).
1) By replacing the parity written in step E4 with the restored parity (step F2 to
Step F3), restoration is possible.

【0051】また、前述した実施形態では、たとえば主
系および従系の書き込みタイミングや、データおよびパ
リティの書き込みタイミングをファイル管理システムで
制御していたが、これをデバイスドライバ側で制御する
ことも可能である。
In the above-described embodiment, for example, the write timing of the master and slave systems and the write timing of data and parity are controlled by the file management system. However, these can be controlled by the device driver. It is.

【0052】[0052]

【発明の効果】上記詳述したように本発明によれば、2
次記憶装置を多重化した場合のすべての入出力処理を次
のチェックポイントが取得されるまで待機させることを
不要とし、計算機システムの入出力処理能力を飛躍的に
向上させることができるという優れた効果を奏する。
As described in detail above, according to the present invention, 2
This eliminates the need to wait for the next checkpoint to be obtained for all I / O processing when the next storage device is multiplexed, and can greatly improve the I / O processing capacity of the computer system. It works.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1実施形態に係わる計算機システム
の一例を示すブロック図。
FIG. 1 is a block diagram showing an example of a computer system according to a first embodiment of the present invention.

【図2】同実施の形態に係わる計算機システムの概略構
成を示す機能ブロック図。
FIG. 2 is a functional block diagram showing a schematic configuration of a computer system according to the embodiment;

【図3】同実施の形態に係わる計算機システムの動作手
順を説明するフローチャート。
FIG. 3 is an exemplary flowchart for explaining the operation procedure of the computer system according to the embodiment;

【図4】同実施の形態に係わる計算機システムの動作原
理を説明する図。
FIG. 4 is an exemplary view for explaining the operation principle of the computer system according to the embodiment;

【図5】第2実施形態に係わる計算機システムの動作手
順を説明するフローチャート。
FIG. 5 is a flowchart illustrating an operation procedure of a computer system according to the second embodiment.

【図6】同実施の形態に係わる計算機システムの動作手
順を説明するフローチャート。
FIG. 6 is an exemplary flowchart for explaining the operation procedure of the computer system according to the embodiment;

【図7】同実施の形態に係わり、RAIDのレベル3、
レベル5を説明するための概念図。
FIG. 7 is a diagram illustrating a RAID level 3 according to the embodiment;
FIG. 9 is a conceptual diagram for explaining level 5;

【図8】従来の計算機システムにおけるI/O発行時の
動作を説明する図。
FIG. 8 is a diagram illustrating an operation at the time of I / O issuance in a conventional computer system.

【図9】従来の計算機システムにおけるI/O発行時の
動作を説明する図。
FIG. 9 is a diagram illustrating an operation at the time of I / O issuance in a conventional computer system.

【符号の説明】[Explanation of symbols]

31…CPU、35…システムバス、37…メモリ、3
9…ディスクコントローラ、41…ディスクコントロー
ラ、43…ディスクトライブ、45…ディスクトライ
ブ。
31: CPU, 35: System bus, 37: Memory, 3
9 disk controller, 41 disk controller, 43 disk drive, 45 disk drive.

Claims (6)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 故障などによって処理が中断された場合
に備え、その中断された処理を再開始するためのチェッ
クポイントを定期的に取得するチェックポイント取得機
能を有してなる計算機システムであって、 一つのデータを2次記憶装置の複数の記憶箇所で多重化
させて管理する計算機システムに適用される入出力制御
方法において、 前記2次記憶装置へのデータ書き込み要求を受けたとき
に、前記2次記憶装置の複数の記憶箇所のうち、第1の
記憶箇所に対して前記データ書き込み要求を次のチェッ
クポイントを待たず発行してデータの書き込み処理を実
行する第1のステップと、 次のチェックポイントの取得後に、前記2次記憶装置の
複数の記憶箇所のうち、第2の記憶箇所に対して前記デ
ータの書き込み処理を実行する第2のステップと、 直前に取得したチェックポイントから再開始する際に、
前記第1のステップで書き込み処理が行なわれた前記第
1の記憶箇所のデータを前記第2の記憶箇所に記憶され
ているデータを読み出して修復する第3のステップとを
具備したことを特徴とするチェックリカバリ機能を備え
た入出力制御方法。
1. A computer system having a checkpoint acquisition function for periodically acquiring a checkpoint for restarting an interrupted process in case a process is interrupted due to a failure or the like. An input / output control method applied to a computer system for multiplexing and managing one data in a plurality of storage locations of a secondary storage device, wherein when a data write request to the secondary storage device is received, A first step of issuing the data write request to the first storage location among the plurality of storage locations of the secondary storage device without waiting for the next checkpoint, and executing a data write process; After the acquisition of the checkpoint, a second step of executing the data write processing to the second storage location among the plurality of storage locations of the secondary storage device is performed. When restarting from the checkpoint obtained immediately before
The write operation performed in the first step
The data of the first storage location is stored in the second storage location.
And a third step of reading and restoring the read data, and an input / output control method having a check recovery function.
【請求項2】 故障などによって処理が中断された場合
に備え、その中断された処理を再開始するためのチェッ
クポイントを定期的に取得するチェックポイント取得機
能を有してなる計算機システムであって、 複数の2次記憶装置でパリティグループを構成してデー
タを管理する計算機システムに適用される入出力制御方
法において、 前記2次記憶装置へのデータ書き込み要求を受けたとき
に、その要求の書き込みデータから更新後のパリティを
算出する第1のステップと、 前記2次記憶装置のうち第1の2次記憶装置へのデータ
書き込み要求を次のチェックポイントを待たずに発行し
て前記書き込みデータの書き込み処理を実行する第2の
ステップと、 次のチェックポイントの取得後に、前記第1のステップ
で算出したパリティの書き込み要求を発行して第2の前
記2次記憶装置に前記パリティの書き込み処理を実行す
る第3のステップと、 直前に取得したチェックポイントから再開始する際に、
前記第2のステップで前記第1の2次記憶装置に書き込
まれたデータを、前記第1のステップで算出したパリテ
ィと前記第2のステップの前記書き込みデータから書き
込み前のデータを算出して、この算出したデータを再書
き込みして修復する第4のステップとを具備したことを
特徴とするチェックリカバリ機能を備えた入出力制御方
法。
2. A computer system having a checkpoint acquisition function for periodically acquiring a checkpoint for restarting an interrupted process in case a process is interrupted due to a failure or the like. An input / output control method applied to a computer system that manages data by configuring a parity group with a plurality of secondary storage devices, comprising: when receiving a data write request to the secondary storage device, writing the request; A first step of calculating an updated parity from data; and issuing a data write request to the first secondary storage device among the secondary storage devices without waiting for the next checkpoint, and A second step of executing a write process; and writing of the parity calculated in the first step after acquiring the next checkpoint. A third step of executing the write process of the parity to the second of the secondary storage device by issuing a request, when re-starting from the checkpoint which has been acquired immediately before,
The data written in the first secondary storage device in the second step is calculated using the parity calculated in the first step.
From the write data of the second step.
Calculate the data before embedding, and rewrite the calculated data
And a fourth step of writing and restoring . An input / output control method having a check recovery function.
【請求項3】 故障などによって処理が中断された場合
に備え、その中断された処理を再開始するためのチェッ
クポイントを定期的に取得するチェックポイント取得機
能を有してなる計算機システムであって、 複数の2次記憶装置でパリティグループを構成してデー
タを管理する計算機システムに適用される入出力制御方
法において、 前記2次記憶装置へのデータ書き込み要求を受けた時
に、その要求の書き込みデータから更新後のパリティを
算出する第1のステップと、 この第1のステップで算出した前記パリティの書き込み
要求を次のチェックポイントを待たず発行して、第2の
前記2次記憶装置に前記パリティの書き込み処理を実行
する第2のステップと、 次のチェックポイントの取得後に、前記2次記憶装置の
うち第1の2次記憶装置へのデータ書き込み要求を発行
して前記書き込みデータの書き込み処理を実行する第3
のステップと、 直前に取得したチェックポイントから再開始する際に、
前記第2のステップで前記第2の2次記憶装置に書き込
まれたパリティを、前記第1のステップで算出したパリ
ティと前記第3のステップの前記書き込みデータから元
のパリティを復元して、この復元したパリティを再書き
込みして修復する第4のステップとを具備したことを特
徴とするチェックリカバリ機能を備えた入出力制御方
法。
3. A computer system having a checkpoint acquisition function for periodically acquiring a checkpoint for restarting an interrupted process in case the process is interrupted due to a failure or the like. In an input / output control method applied to a computer system that manages data by configuring a parity group with a plurality of secondary storage devices, when a request to write data to the secondary storage device is received, write data of the request is written. A first step of calculating an updated parity from the first and a write request of the parity calculated in the first step without waiting for a next check point, and issuing the parity write request to a second secondary storage device. A second step of executing a write process of the first storage device of the secondary storage device after obtaining a next checkpoint. Third executing the writing process of the write data by issuing a data write request to location
Steps and restarting from the last checkpoint taken,
The parity written in the second secondary storage device in the second step is calculated using the parity calculated in the first step.
From the write data of the third step
Of parity and rewrite the restored parity
And an input / output control method having a check recovery function.
【請求項4】 故障などによって処理が中断された場合
に備え、その中断された処理を再開始するためのチェッ
クポイントを定期的に取得するチェックポイント取得機
能を有してなる計算機システムであって、 一つのデータを2次記憶装置の複数の記憶箇所で多重化
させて管理する計算機システムに適用される入出力制御
装置において、 前記2次記憶装置へのデータ書き込み要求を受けたとき
に、前記2次記憶装置の複数の記憶箇所のうち、第1の
記憶箇所に対して前記データ書き込み要求を次のチェッ
クポイントを待たず発行してデータの書き込み処理を実
行する第1の手段と、 次のチェックポイントの取得後に、前記2次記憶装置内
の複数の記憶箇所のうち、第2の記憶箇所に対して前記
データの書き込み処理を実行する第2の手段と、 直前に取得したチェックポイントから再開始する際に、
前記第1の手段で書き込処理が行なわれた前記第1の記
憶箇所のデータを前記第2の記憶箇所に記憶されている
データを読み出して修復する第3の手段とを具備したこ
とを特徴とするチェックリカバリ機能を備えた入出力制
御装置。
4. A computer system having a checkpoint acquisition function for periodically acquiring a checkpoint for restarting an interrupted process in case a process is interrupted due to a failure or the like. An input / output control device applied to a computer system for multiplexing and managing one data in a plurality of storage locations of a secondary storage device, wherein when a data write request to the secondary storage device is received, First means for issuing the data write request to the first storage location among the plurality of storage locations of the secondary storage device without waiting for the next checkpoint, and executing data writing processing; Second means for executing the data write processing to a second storage location of the plurality of storage locations in the secondary storage device after acquiring the checkpoint; When restarting from the checkpoint obtained just before,
The first storage device in which write processing has been performed by the first means.
Memory data is stored in the second storage location
An input / output control device having a check recovery function, comprising: third means for reading and restoring data .
【請求項5】 故障などによって処理が中断された場合
に備え、その中断された処理を再開始するためのチェッ
クポイントを定期的に取得するチェックポイント取得機
能を有してなる計算機システムであって、 複数の2次記憶装置でパリティグループを構成してデー
タを管理する計算機システムに適用される入出力制御装
置において、 前記2次記憶装置へのデータ書き込み要求を受けたとき
に、その要求の書き込みデータから更新後のパリティを
算出する第1の手段と、 第1の前記2次記憶装置へのデータ書き込み要求を次の
チェックポイントを待たずに発行して前記書き込みデー
タの書き込み処理を実行する第2の手段と、 次のチェックポイントの取得後に、前記第1の手段で算
出したパリティの書き込み要求を発行して第2の前記2
次記憶装置に前記パリティの書き込み処理を実行する第
3の手段と、 直前に取得したチェックポイントから再開始する際に、
前記第2の手段で前記第1の2次記憶装置に書き込まれ
たデータを、前記第1の手段で算出したパリティと前記
第2の手段の前記書き込みデータから書き込み前のデー
タを算出して、この算出したデータを再書き込みして修
復する第4の手段とを具備したことを特徴とするチェッ
クリカバリ機能を備えた入出力制御装置。
5. A computer system having a checkpoint acquisition function for periodically acquiring a checkpoint for restarting an interrupted process in case a process is interrupted due to a failure or the like. In an input / output control device applied to a computer system that manages data by configuring a parity group with a plurality of secondary storage devices, when a request to write data to the secondary storage device is received, the request is written. A first means for calculating an updated parity from data; and a second means for issuing a data write request to the first secondary storage device without waiting for a next checkpoint, and executing a write process of the write data. The second means, and after the acquisition of the next checkpoint, issues the parity write request calculated by the first means and issues the second
Third means for executing the parity write processing to the next storage device, and when restarting from the checkpoint acquired immediately before,
The data written to the first secondary storage device by the second means is calculated by comparing the parity calculated by the first means with the parity calculated by the first means.
The data before writing from the write data of the second means.
Data, and rewrite the calculated data to
And an input / output control device having a check recovery function.
【請求項6】 故障などによって処理が中断された場合
に備え、その中断された処理を再開始するためのチェッ
クポイントを定期的に取得するチェックポイント取得機
能を有してなる計算機システムであって、 複数の2次記憶装置でパリティグループを構成してデー
タを管理する計算機システムに適用される入出力制御装
置において、 前記2次記憶装置へのデータ書き込み要求を受けた時
に、その要求の書き込みデータから更新後のパリティを
算出する第1の手段と、 この第1の手段で算出した前記パリティの書き込み要求
を次のチェックポイントを待たず発行して、第2の前記
2次記憶装置に前記パリティの書き込み処理を実行する
第2の手段と、 次のチェックポイントの取得後に、第1の前記2次記憶
装置にデータ書き込み要求を発行して前記書き込みデー
タの書き込み処理を実行する第3の手段と、 直前に取得したチェックポイントから再開始する際に、
前記第2の手段で前記第2の2次記憶装置に書き込まれ
たパリティを、前記第1の手段で算出したパリティと前
記第3の手段の前記書き込みデータから元のパリティを
復元して、この復元したパリティを再書き込みして修復
する第4の手段とを具備したことを特徴とするチェック
リカバリ機能を備えた入出力制御装置。
6. A computer system having a checkpoint acquisition function for periodically acquiring a checkpoint for restarting an interrupted process in case a process is interrupted due to a failure or the like. An input / output control device applied to a computer system that manages data by configuring a parity group with a plurality of secondary storage devices, wherein when a data write request to the secondary storage device is received, the write data of the request is written. A first means for calculating an updated parity from the first means, and a write request for the parity calculated by the first means is issued without waiting for a next checkpoint, and the parity is written to a second secondary storage device. Issuing a data write request to the first secondary storage device after acquiring the next checkpoint Said third means for performing write processing of the write data, when re-starting from the checkpoint which has been acquired immediately before Te,
The parity written in the second secondary storage device by the second means is compared with the parity calculated by the first means.
The original parity is obtained from the write data of the third means.
Restore and rewrite and restore this restored parity
And an input / output control device having a check recovery function.
JP08250557A 1996-01-31 1996-09-20 Input / output control method with check recovery function and input / output control device with check recovery function Expired - Fee Related JP3120039B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08250557A JP3120039B2 (en) 1996-01-31 1996-09-20 Input / output control method with check recovery function and input / output control device with check recovery function

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP8-15663 1996-01-31
JP1566396 1996-01-31
JP08250557A JP3120039B2 (en) 1996-01-31 1996-09-20 Input / output control method with check recovery function and input / output control device with check recovery function

Publications (2)

Publication Number Publication Date
JPH09269904A JPH09269904A (en) 1997-10-14
JP3120039B2 true JP3120039B2 (en) 2000-12-25

Family

ID=26351852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08250557A Expired - Fee Related JP3120039B2 (en) 1996-01-31 1996-09-20 Input / output control method with check recovery function and input / output control device with check recovery function

Country Status (1)

Country Link
JP (1) JP3120039B2 (en)

Also Published As

Publication number Publication date
JPH09269904A (en) 1997-10-14

Similar Documents

Publication Publication Date Title
US6990611B2 (en) Recovering data from arrays of storage devices after certain failures
US6883112B2 (en) Storage device, backup and fault tolerant redundant method and computer program code of plurality storage devices
JP3618529B2 (en) Disk array device
US7055058B2 (en) Self-healing log-structured RAID
EP1481324B1 (en) Producing a mirrored copy using incremental-divergence
US5325519A (en) Fault tolerant computer with archival rollback capabilities
US7107486B2 (en) Restore method for backup
US20030120869A1 (en) Write-back disk cache management
JPH07239799A (en) Method for provision of remote data shadowing and remote data duplex system
KR19980024086A (en) Computer system and file management methods
GB2369206A (en) Excluding last written segments while rebuilding meta-data in a data storage system
US20020144069A1 (en) Backup processing method
JPH05210555A (en) Method and device for zero time data-backup-copy
JP3904894B2 (en) Backup management method and storage control device used in this method
WO2015104835A1 (en) Database-system control method and database system
US20090177916A1 (en) Storage system, controller of storage system, control method of storage system
KR100234634B1 (en) I/o device with test/recovery function
JPH10326220A (en) File system and file managing method
JP4248164B2 (en) Disk array error recovery method, disk array control device, and disk array device
JPH06119126A (en) Disk array device
JP3120039B2 (en) Input / output control method with check recovery function and input / output control device with check recovery function
JP3790756B2 (en) Disk array device, disk controller, and method for recovering data failure in disk array
JPH09265435A (en) Storage device system
JP2003345529A (en) Method for restoring consistency of logical disk drive having redundant data and its program, and controller for controlling logical disk drive
JPH09282105A (en) Disk storage system and recovery method for error correction data preparation processing therefor

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees