JPH06139087A - Check point restart system - Google Patents

Check point restart system

Info

Publication number
JPH06139087A
JPH06139087A JP4291523A JP29152392A JPH06139087A JP H06139087 A JPH06139087 A JP H06139087A JP 4291523 A JP4291523 A JP 4291523A JP 29152392 A JP29152392 A JP 29152392A JP H06139087 A JPH06139087 A JP H06139087A
Authority
JP
Japan
Prior art keywords
checkpoint
information
area
flag
job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4291523A
Other languages
Japanese (ja)
Other versions
JP3135714B2 (en
Inventor
Namiko Hayashi
奈美子 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP04291523A priority Critical patent/JP3135714B2/en
Publication of JPH06139087A publication Critical patent/JPH06139087A/en
Application granted granted Critical
Publication of JP3135714B2 publication Critical patent/JP3135714B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To improve the job execution performance by asynchronously executing the job execution and the writing of the execution environment in a secondary storage device. CONSTITUTION:Check point information to be acquired is written in a magnetic disk 14 through an expansion memory device 12. In this case, the expansion memory device 12 is a nonvolatile memory backed up by the power supply and even when a fault occurs in writing in the magnetic disk device 14, the check point information is held in the memory 12 as it is. At the fault generation, the presence or absence of the effectivity of the check point information of the expansion memory device 12 is judged by referring to the flag of a management information area 3A. The recovery processing using the check point information of the expansion memory 12 is performed if it is effective and the recovery process using the check point information of the magnetic disk 14 if it is invalid.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明はチェックポイントファ
イルの内容に基づいて計算機システムの実行環境を復元
するチェックポイントリスタート方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a checkpoint restart method for restoring the execution environment of a computer system based on the contents of a checkpoint file.

【0002】[0002]

【従来の技術】一般に、コンピュータシステムにおいて
は、各種の障害対策機能が設けられている。この障害対
策機能の1つとして、リスタート処理が良く使用されて
いる。このリスタート処理は、障害により実行中のジョ
ブまたはシステム全体が停止した場合に実行されるもの
である。
2. Description of the Related Art Generally, a computer system is provided with various fault countermeasure functions. Restart processing is often used as one of the failure countermeasure functions. This restart processing is executed when the job being executed or the entire system is stopped due to a failure.

【0003】リスタート処理には、特定のジョブのみを
リスタートさせる場合(ジョブリスタート)と、システ
ム全体をリスタートさせる場合(システムリスタート)
とがあり、一般には、処理の高速化の目的でジョブリス
タートが多く使用されている。
In the restart processing, only a specific job is restarted (job restart) and the entire system is restarted (system restart).
Generally, job restart is often used for the purpose of speeding up the process.

【0004】ジョブリスタートとしては、チェックポイ
ントリスタート処理方式が良く知られている。このチェ
ックポイントリスタートは、ジョブの要所要所に予めチ
ェックポイントを設定しておくものであり、ジョブ処理
がチェックポイントにくるたびにその実行環境をステー
タス情報として2次記憶装置のチェックポイントファイ
ルに記録しておき、障害によりジョブの実行が中断した
場合には、最新のチェックポイントからリスタートされ
る。
As a job restart, a checkpoint restart processing method is well known. In this checkpoint restart, checkpoints are set in advance at key points of the job, and each time the job processing reaches a checkpoint, its execution environment is recorded as status information in the checkpoint file of the secondary storage device. If the job execution is interrupted due to a failure, the job is restarted from the latest checkpoint.

【0005】このように、従来のチェックポイントリス
タートは、実行中のプログラムの実行環境を外部の2次
記憶装置にチェックポイントファイルとして保存し、障
害発生によりプログラムの実行が中断した場合に、保存
されているチェックポイントファイルの情報に基づいて
旧環境を復元し、再実行を可能とするものであり、この
リスタート方式を用いることで高速の障害復旧を行なう
ことができる。
As described above, the conventional checkpoint restart saves the execution environment of the program being executed as a checkpoint file in the external secondary storage device, and saves it when the execution of the program is interrupted due to a failure. The old environment is restored on the basis of the information of the checkpoint file that has been stored, and re-execution is possible. By using this restart method, high-speed failure recovery can be performed.

【0006】しかしながら、このような従来のチェック
ポイントリスタート方式では、ジョブの実行と、2次記
憶装置への実行環境の書き込みが同期して行なわれるの
で、CPUは、図6に示されているように、2次記憶装
置への書き込みを指示する書き込み要求を発行してから
書き込み完了を示す応答が返送されるまで、ジョブの実
行が待たされることになる。
However, in such a conventional checkpoint restart method, since the execution of the job and the writing of the execution environment into the secondary storage device are performed in synchronization, the CPU is shown in FIG. As described above, the execution of the job is delayed until the write request for instructing the write to the secondary storage device is issued and the response indicating the write completion is returned.

【0007】なぜなら、2次記憶装置への書き込み終了
を待たずに次のジョブを実行すると、主記憶上の実行環
境が変化されてしまうので、もし2次記憶装置への書き
込み途中に障害が発生した場合には元の実行環境が消失
されてしまうからである。
This is because if the next job is executed without waiting for the completion of writing to the secondary storage device, the execution environment on the main storage will change, so if a failure occurs during writing to the secondary storage device. If you do, the original execution environment will be lost.

【0008】このため、従来のチェックポイントリスタ
ート方式では、チェックポイント毎に実行環境を2次記
憶装置に書き込むための待ち時間が挿入されることにな
り、これによってジョブの実行性能が低下される欠点が
あった。
Therefore, in the conventional checkpoint restart method, a waiting time for writing the execution environment into the secondary storage device is inserted at each checkpoint, which deteriorates the job execution performance. There was a flaw.

【0009】[0009]

【発明が解決しようとする課題】従来では、ジョブの実
行と2次記憶装置への実行環境の書き込みが同期して行
なわれるので、チェックポイント毎に実行環境を2次記
憶装置に書き込むための待ち時間が挿入されることにな
り、ジョブの実行性能が低下される欠点があった。
Conventionally, since the execution of a job and the writing of the execution environment to the secondary storage device are performed in synchronization with each other, the waiting for writing the execution environment to the secondary storage device is performed at each checkpoint. Since time is inserted, there is a drawback that the job execution performance is degraded.

【0010】この発明はこのような点に鑑みてなされた
もので、ジョブの実行と2次記憶装置への実行環境の書
き込みとを非同期で実行できるようにし、ジョブ実行性
能の向上を図ることができるチェックポイントリスター
ト方式を提供することを目的とする。
The present invention has been made in view of the above circumstances, and enables execution of a job and writing of an execution environment in a secondary storage device to be executed asynchronously, thereby improving job execution performance. The purpose is to provide a possible checkpoint restart method.

【0011】[0011]

【課題を解決するための手段および作用】この発明は、
チェックポイントファイルの内容に基づいて計算機シス
テムの実行環境を復元するチェックポイントリスタート
方式において、チェックポイントファイルが記憶される
2次記憶装置と、前記チェックポイントファイルに書き
込むべきチェックポイント情報が格納されるバッファエ
リアとそのバッファエリアのチェックポイント情報の有
効性を示すフラグがセットされる管理情報エリアとを有
する不揮発性メモリと、前記不揮発性メモリから前記2
次記憶装置へのデータ転送を実行する入出力手段と、前
記計算機システム上で実行中のジョブの実行環境をチェ
ックポイント毎に採取し、その採取情報を前記バッファ
エリアに格納すると共に、前記管理情報エリアに前記フ
ラグをセットする手段と、前記不揮発性メモリのバッフ
ァエリアの内容を前記2次記憶装置のチェックポイント
ファイルに書き込む要求を、前記入出力手段に発行する
手段と、前記入出力手段からの書き込み完了通知に応答
して、前記管理情報エリアのフラグをリセットして前記
不揮発性メモリの対応するバッファエリアを解放する手
段と、障害発生時に前記不揮発性メモリの管理情報エリ
アのフラグを参照し、そのフラグのセット/リセット状
態に応じて前記不揮発性メモリのバッファエリアの内容
または前記2次記憶装置のチェックポイントファイルを
利用して計算機システムの実行環境を復元する手段とを
具備することを特徴とする。
Means and Actions for Solving the Problems
In the checkpoint restart method that restores the execution environment of the computer system based on the contents of the checkpoint file, a secondary storage device in which the checkpoint file is stored and checkpoint information to be written in the checkpoint file are stored. A nonvolatile memory having a buffer area and a management information area in which a flag indicating the validity of the checkpoint information of the buffer area is set;
Input / output means for executing data transfer to the next storage device, and an execution environment of a job being executed on the computer system is sampled for each checkpoint, and the collected information is stored in the buffer area, and the management information is also stored. Means for setting the flag in the area; means for issuing to the input / output means a request for writing the contents of the buffer area of the non-volatile memory in the checkpoint file of the secondary storage; In response to the write completion notification, referring to the means of resetting the flag of the management information area to release the corresponding buffer area of the non-volatile memory, and the flag of the management information area of the non-volatile memory when a failure occurs, Depending on the set / reset state of the flag, the contents of the buffer area of the nonvolatile memory or the secondary memory Characterized by comprising a means for restoring the execution environment of the device checkpoint file computer system using the.

【0012】このチェックポイントリスタート方式にお
いては、採取対象のチェックポイント情報は不揮発性メ
モリを介して2次記憶装置に書き込まれる。この場合、
メモリは不揮発性であるので、もし2次記憶装置への書
き込み途中に障害が発生した場合においても、そのチェ
ックポイント情報は不揮発性メモリにそのまま保持され
ている。このため、障害発生時にフラグを参照して不揮
発性メモリのチェックポイント情報の有効性の有無を判
断し、有効の場合には不揮発性メモリのチェックポイン
ト情報を利用した復元処理、無効の場合には2次記憶装
置のチェックポイント情報を利用した復元処理を行なう
ことによって、不揮発性メモリを利用したチェックポイ
ントリスタートが可能となる。したがって、ジョブの実
行を2次記憶装置への書き込みが完了するまで待つ必要
がなくなるり、ジョブの実行と2次記憶装置への実行環
境の書き込みとを非同期で実行できるようになり、ジョ
ブ実行性能の向上を図ることができる。
In the checkpoint restart method, the checkpoint information to be collected is written in the secondary storage device via the non-volatile memory. in this case,
Since the memory is non-volatile, even if a failure occurs during writing to the secondary storage device, the checkpoint information is retained in the non-volatile memory as it is. For this reason, when a failure occurs, the flag is used to determine whether the checkpoint information in the non-volatile memory is valid. If it is valid, the restoration process using the checkpoint information in the non-volatile memory is performed. By performing the restoration process using the checkpoint information of the secondary storage device, the checkpoint restart using the non-volatile memory becomes possible. Therefore, it is not necessary to wait for the execution of the job until the writing to the secondary storage device is completed, and the execution of the job and the writing of the execution environment to the secondary storage device can be executed asynchronously. Can be improved.

【0013】[0013]

【実施例】以下、図面を参照してこの発明の実施例を説
明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0014】図1にはこの発明の一実施例に係わる計算
機システムの構成が示されている。この計算機システム
は、計算機本体11、拡張メモリ装置12、電源バック
アップ装置13、および磁気ディスク装置14から構成
されている。計算機本体11は通常のコンピュータシス
テムと同様の構成を有するものであり、システムバスを
介して相互接続されたCPU111、メインメモリ11
2、I/Oチャネル113等から構成されている。
FIG. 1 shows the configuration of a computer system according to an embodiment of the present invention. This computer system comprises a computer main body 11, an extended memory device 12, a power supply backup device 13, and a magnetic disk device 14. The computer main body 11 has the same configuration as a normal computer system, and includes a CPU 111 and a main memory 11 which are interconnected via a system bus.
2, I / O channel 113 and the like.

【0015】CPU111は、計算機システム全体の制
御を司るものであり、各種ジョブを実行する。また、C
PU111は、チェックポイントリスタートを実現する
ための機能を有している。チェックポイントリスタート
は、ジョブの要所要所に予めチェックポイントを設定し
ておくものであり、ジョブ処理がチェックポイントにく
るたびにその実行環境をチェックポイント情報として磁
気ディスク装置114のチェックポイントファイルに記
録しておき、障害によりジョブの実行が中断した場合に
は、最新のチェックポイントからリスタートされる。
The CPU 111 controls the entire computer system and executes various jobs. Also, C
The PU 111 has a function for realizing checkpoint restart. In the checkpoint restart, checkpoints are set in advance at key points of the job, and the execution environment is recorded as checkpoint information in the checkpoint file of the magnetic disk device 114 each time the job processing reaches the checkpoint. If the job execution is interrupted due to a failure, the job is restarted from the latest checkpoint.

【0016】チェックポイントの採取過程においては、
CPU111は、チェックポイント情報をメインメモリ
112から拡張メモリ装置12に転送し、その後、拡張
メモリ装置12から磁気ディスク装置114にチェック
ポイント情報を書き込む要求を発行する。このようなC
PU111によるチェックポイントの採取処理は、メイ
ンメモリ112のチェックポイント管理プログラムに従
って実行される。
In the process of collecting check points,
The CPU 111 transfers the checkpoint information from the main memory 112 to the extended memory device 12, and then issues a request for writing the checkpoint information from the extended memory device 12 to the magnetic disk device 114. C like this
The checkpoint collection processing by the PU 111 is executed according to the checkpoint management program in the main memory 112.

【0017】メインメモリ112はダイナミックRAM
のような通常の揮発姓RAMから構成されおり、チェッ
クポイント管理プログラムを記憶している。また、メイ
ンメモリ112はジョブ実行のための作業領域として使
用され、メインメモリ112上にはジョブの実行環境を
示す情報が設定される。図において、2A,2B,2C
はプログラムの実行環境の一部を示すものであり、これ
らがチェックポイント情報として採取される。
The main memory 112 is a dynamic RAM
And a checkpoint management program stored therein. Further, the main memory 112 is used as a work area for job execution, and information indicating a job execution environment is set on the main memory 112. In the figure, 2A, 2B, 2C
Indicates a part of the execution environment of the program, and these are collected as checkpoint information.

【0018】I/Oチャネル113は、CPU111か
らの要求に応じて磁気ディスク装置14に対するリード
/ライトを実行する入出力装置であり、チェックポイン
トの採取過程においては、CPU111からの書き込み
要求にしたがって拡張メモリ装置12のチェックポイン
ト情報を磁気ディスク装置14のチェックポイントファ
イル141に書き込む。また、I/Oチャネル113
は、書き込みが完了すると、書き込み完了通知をCPU
111に渡す。
The I / O channel 113 is an input / output device for executing read / write with respect to the magnetic disk device 14 in response to a request from the CPU 111, and is expanded according to a write request from the CPU 111 in the checkpoint sampling process. The checkpoint information of the memory device 12 is written in the checkpoint file 141 of the magnetic disk device 14. Also, the I / O channel 113
When the writing is completed, the CPU sends a writing completion notification to the CPU.
Hand it over to 111.

【0019】拡張メモリ装置12は必要に応じて計算機
本体11に接続されるダイナミックRAMのような揮発
姓メモリであるが、ここでは、電源バックアップ装置1
3からのバックアップ電源によって不揮発姓メモリとし
て利用されるように構成されている。この拡張メモリ装
置12には、採取されたチェックポイント情報が一時的
に記憶されるバッファエリア3B1、3B2と、チェッ
クポイント情報の世代管理のための管理情報が設定され
る管理情報エリア3Aが割り当てられる。
The expansion memory device 12 is a volatile memory such as a dynamic RAM which is connected to the computer main body 11 as needed, but here, the power supply backup device 1 is used.
It is configured to be used as a non-volatile memory by a backup power source from 3. The extended memory device 12 is allocated with buffer areas 3B1 and 3B2 in which the collected checkpoint information is temporarily stored, and a management information area 3A in which management information for generation management of checkpoint information is set. .

【0020】磁気ディスク装置14は、この計算機シス
テムの2次記憶装置として利用されるものであり、ここ
には、チェックポイントリスタートに必要なチェックポ
イントファイル141が蓄積保持される。チェックポイ
ントファイル141は、管理情報エリア6A、チェック
ポイント情報エリア6B1、6B2から構成される。管
理情報エリア6Aには、チェックポイント情報の世代管
理等を行なう管理情報が設定される。ここでは、拡張メ
モリ装置12の管理情報エリア3Aの内容が随時、管理
情報エリア6Aに反映される。チェックポイント情報エ
リア6B1、6B2には、拡張メモリ装置12のバッフ
ァエリア3B1、3B2の内容が書き込まれる。次に、
図2のフローチャートを参照して、チェックポイント情
報の採取処理を説明する。
The magnetic disk device 14 is used as a secondary storage device of this computer system, and a checkpoint file 141 required for a checkpoint restart is accumulated and held therein. The checkpoint file 141 includes a management information area 6A and checkpoint information areas 6B1 and 6B2. In the management information area 6A, management information for performing generation management of checkpoint information is set. Here, the contents of the management information area 3A of the extended memory device 12 are reflected in the management information area 6A at any time. The contents of the buffer areas 3B1 and 3B2 of the extended memory device 12 are written in the checkpoint information areas 6B1 and 6B2. next,
Checkpoint information collection processing will be described with reference to the flowchart in FIG.

【0021】ここでは、拡張メモリ装置12を利用した
ロールバック処理に対応するために2つのバッファを利
用して、拡張メモリ装置12に2世代のチェックポイン
ト情報を確保する場合について説明する。
Here, a case will be described in which two buffers are used to support rollback processing using the extended memory device 12 and two-generation checkpoint information is secured in the extended memory device 12.

【0022】ユーザプログラムのチェックポイント(プ
ログラム静止点1)で、チェックポイント情報として保
存すべき情報(世代1)を2A、2B、2Cと仮定す
る。この場合、CPU111は、それら情報2A、2
B、2Cを格納するためのバッファ3B1を拡張メモリ
装置12上に確保する(ステップS11)。
It is assumed that information (generation 1) to be stored as checkpoint information at the checkpoint (program quiescent point 1) of the user program is 2A, 2B, 2C. In this case, the CPU 111 causes the information 2A, 2
A buffer 3B1 for storing B and 2C is secured in the extended memory device 12 (step S11).

【0023】次いで、CPU111は、採取すべき情報
2A、2B、2Cをバッファ3B1に転送し(ステップ
S12)、そして、この時点で、このチェックポイント
情報を確立するために、管理情報エリア3Aに情報2
A、2B、2CのID(識別子)と、拡張メモリ装置1
2上に有効な情報がセットされていることを示す有効フ
ラグとをセットする(ステップS13)。
Next, the CPU 111 transfers the information 2A, 2B, 2C to be collected to the buffer 3B1 (step S12), and at this point, the information is stored in the management information area 3A in order to establish this checkpoint information. Two
The IDs (identifiers) of A, 2B, and 2C and the extended memory device 1
2 and a valid flag indicating that valid information is set (step S13).

【0024】次いで、CPU111は、拡張メモリ装置
12上のバッファ3B1の内容を磁気ディスク装置14
のチェックポイントファイル141に書き込むための書
き込み要求(W1)をI/Oチャネル113に発行し、
ユーザプログラムの実行に戻る(ステップS14)。
Next, the CPU 111 loads the contents of the buffer 3B1 on the extended memory device 12 into the magnetic disk device 14.
Issue a write request (W1) for writing to the checkpoint file 141 of
The process returns to the execution of the user program (step S14).

【0025】そして、ジョブ実行を継続し、次のチェッ
クポイントがくると、CPU111は、その時点で採取
すべき情報(世代2)を格納するためのバッファ3B2
を拡張メモリ装置12上に確保する(ステップS1
5)。次いで、CPU111は、採取すべき情報をバッ
ファ3B2に転送し(ステップS16)、そして、この
時点で、このチェックポイント情報を確立するために、
管理情報エリア3Aにその情報のID(識別子)と、拡
張メモリ装置12上にセットされていることを示す有効
フラグをセットする(ステップS17)。
When job execution is continued and the next checkpoint arrives, the CPU 111 causes the buffer 3B2 to store the information (generation 2) to be collected at that time.
Is reserved on the extended memory device 12 (step S1).
5). Next, the CPU 111 transfers the information to be collected to the buffer 3B2 (step S16), and at this point, in order to establish this checkpoint information,
In the management information area 3A, an ID (identifier) of the information and a valid flag indicating that it is set on the extended memory device 12 are set (step S17).

【0026】次いで、CPU111は、拡張メモリ装置
12上のバッファ3B2の内容を磁気ディスク装置14
のチェックポイントファイル141に書き込むための書
き込み要求(W2)をI/Oチャネル113に発行し、
ユーザプログラムの実行に戻る(ステップS18)。
Next, the CPU 111 loads the contents of the buffer 3B2 on the expansion memory device 12 into the magnetic disk device 14.
Issue a write request (W2) for writing to the checkpoint file 141 of
The process returns to the execution of the user program (step S18).

【0027】この後、さらに次のチェックポイントがく
るとバッファ3B1が使用対象となるので、次のチェッ
クポイントが来る前に、最終的なI/O完了待ちを行な
う(ステップS19)。そして、書き込み要求W1に対
する書き込み完了通知に応答して、バッファ3B1が解
放され、次の新たなチェックポイント情報のためにその
バッファ3B1が新たに確保される(ステップS2
0)。図3には、書き込み完了時の処理が示されてい
る。図2のステップS19でI/Oチャネル113から
書き込み完了通知が発行されると、CPU111は、図
3の処理を実行する。
After that, the buffer 3B1 becomes the target for use when the next checkpoint arrives, so that a final I / O completion wait is performed before the next checkpoint arrives (step S19). Then, in response to the write completion notification for the write request W1, the buffer 3B1 is released, and the buffer 3B1 is newly secured for the next new checkpoint information (step S2).
0). FIG. 3 shows the processing when the writing is completed. When the write completion notification is issued from the I / O channel 113 in step S19 of FIG. 2, the CPU 111 executes the process of FIG.

【0028】例えば、バッファ3B1の内容をディスク
14に書き込む要求W1に対する完了通知の場合、CP
U111は、まず、管理情報エリア3Aのバッファ3B
1に対応するフラグをリセットする(ステップS2
1)。次いで、CPU111は、バッファ3B1を次の
チェックポイント情報のために解放する(ステップS2
2)。次に、図4のフローチャートを参照して、障害発
生時の復元処理を説明する。何らかの障害発生により計
算機システムがダウンした場合、計算機システムの再立
ち上げ後、CPU111によって次のリスタート処理が
実行される。
For example, in the case of the completion notification for the request W1 for writing the contents of the buffer 3B1 to the disk 14, the CP
U111 is the buffer 3B of the management information area 3A.
The flag corresponding to 1 is reset (step S2
1). Next, the CPU 111 releases the buffer 3B1 for the next checkpoint information (step S2).
2). Next, the restoration process when a failure occurs will be described with reference to the flowchart in FIG. When the computer system is down due to some failure, the CPU 111 executes the next restart process after the computer system is restarted.

【0029】すなわち、CPU111は、まず、拡張メ
モリ装置12の管理情報エリア3Aを参照し、最新のI
Dを持つチェックポイント情報に対応するフラグの状態
を調べる(ステップS31)。CPU111は、フラグ
がセットされているかリセットされているかを判断し
(ステップS32)、そのフラグのセット/リセットに
応じて復元処理に使用する情報を選択する。
That is, the CPU 111 first refers to the management information area 3A of the expansion memory device 12 to find the latest I
The state of the flag corresponding to the checkpoint information having D is checked (step S31). The CPU 111 determines whether the flag is set or reset (step S32), and selects the information used for the restoration process according to the set / reset of the flag.

【0030】フラグがセットされている場合には、拡張
メモリ12のチェックポイント情報が有効であり、その
チェックポイント情報はまだディスク14に書き込まれ
ていない。このため、フラグがセットされている場合に
は、CPU111は、拡張メモリ12のチェックポイン
ト情報(バッファ3B1または3B2)を利用した復元
処理を実行する(ステップS33)。
If the flag is set, the checkpoint information in the extended memory 12 is valid and the checkpoint information has not yet been written to the disk 14. Therefore, when the flag is set, the CPU 111 executes the restoration process using the checkpoint information (buffer 3B1 or 3B2) of the extension memory 12 (step S33).

【0031】フラグがリセットされている場合には、拡
張メモリ12のチェックポイント情報が無効であり、そ
のチェックポイント情報は既にディスク14に書き込ま
れている。このため、フラグがリセットされている場合
には、CPU111は、磁気デク装置14のチェックポ
イントファイル141のチェックポイント情報(6B1
または6B2)を利用した復元処理を実行する(ステッ
プS34)。
If the flag is reset, the checkpoint information in the extension memory 12 is invalid and the checkpoint information has already been written in the disk 14. Therefore, if the flag is reset, the CPU 111 checks the checkpoint information (6B1) of the checkpoint file 141 of the magnetic disk device 14.
Alternatively, the restoration process using 6B2) is executed (step S34).

【0032】以上のように、この実施例のチェックポイ
ントリスタート方式においては、採取対象のチェックポ
イント情報は拡張メモリ装置12を介して磁気ディスク
装置14に書き込まれる。この場合、拡張メモリ装置1
2は電源バックアップされた不揮発性メモリであるの
で、もし磁気ディスク装置14への書き込み途中に障害
が発生した場合においても、そのチェックポイント情報
は拡張メモリ装置12にそのまま保持されている。この
ため、障害発生時に管理情報エリア3Aのフラグを参照
して拡張メモリ装置12のチェックポイント情報の有効
性の有無を判断し、有効の場合には拡張メモリ装置12
のチェックポイント情報を利用した復元処理、無効の場
合には磁気ディスク装置14のチェックポイント情報を
利用した復元処理を行なうことによって、拡張メモリ装
置12を利用したチェックポイントリスタートが可能と
なる。
As described above, in the checkpoint restart method of this embodiment, the checkpoint information to be collected is written in the magnetic disk device 14 via the extended memory device 12. In this case, the extended memory device 1
Reference numeral 2 is a non-volatile memory whose power is backed up. Therefore, even if a failure occurs during writing to the magnetic disk device 14, the checkpoint information is retained in the extended memory device 12 as it is. Therefore, when a failure occurs, the flag of the management information area 3A is referred to determine whether the checkpoint information of the extended memory device 12 is valid, and if it is valid, the extended memory device 12 is checked.
By performing the restoration process using the checkpoint information of No. 1 and the restoration process using the checkpoint information of the magnetic disk device 14 when the checkpoint information is invalid, the checkpoint restart using the extended memory device 12 becomes possible.

【0033】したがって、図5に示すように、ジョブの
実行を磁気ディスク装置14への書き込みが完了するま
で待つ必要がなくなるので、ジョブの実行は磁気ディス
ク装置14への実行環境の書き込みと非同期で実行でき
るようになり、ジョブ実行性能の向上を図ることができ
る。
Therefore, as shown in FIG. 5, it is not necessary to wait for the execution of the job until the writing to the magnetic disk device 14 is completed, so the job execution is asynchronous with the writing of the execution environment to the magnetic disk device 14. The job can be executed, and the job execution performance can be improved.

【0034】尚、この実施例では、拡張メモリ装置12
を不揮発性メモリとして使用するために電源バックアッ
プ装置13を用いたが、EEPROM等の不揮発性メモ
リ素子を拡張メモリ装置12に使用することも可能であ
る。
In this embodiment, the extended memory device 12 is used.
Although the power supply backup device 13 is used to use the above as a non-volatile memory, it is also possible to use a non-volatile memory element such as an EEPROM for the extended memory device 12.

【0035】[0035]

【発明の効果】以上詳記したようにこの発明によれば、
ジョブの実行と2次記憶装置への実行環境の書き込みと
を非同期で実行できるようになり、ジョブ実行性能の向
上を図ることができる。
As described above in detail, according to the present invention,
The execution of the job and the writing of the execution environment to the secondary storage device can be executed asynchronously, and the job execution performance can be improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明の一実施例に係る計算機システムの構
成を示すブロック図。
FIG. 1 is a block diagram showing the configuration of a computer system according to an embodiment of the present invention.

【図2】同実施例におけるチェックポイント情報採取処
理動作を説明するフローチャート。
FIG. 2 is a flowchart illustrating a checkpoint information collection processing operation according to the embodiment.

【図3】同実施例におけるチェックポイント情報の書き
込み完了時の動作を説明するフローチャート。
FIG. 3 is a flowchart illustrating an operation when writing of checkpoint information is completed in the embodiment.

【図4】同実施例におけるリスタート処理動作を説明す
るフローチャート。
FIG. 4 is a flowchart illustrating a restart processing operation according to the embodiment.

【図5】同実施例におけるジョブの実行がチェックポイ
ン情報の書き込み動作と非同期に実行される様子を示す
図。
FIG. 5 is a diagram showing how execution of a job in the embodiment is executed asynchronously with a checkpoint information writing operation.

【図6】従来のチェックポイト処理方式においてジョブ
の実行がチェックポイン情報の書き込み動作と同期して
実行される様子を示す図。
FIG. 6 is a diagram showing how a job is executed in synchronization with a checkpoint information writing operation in a conventional checkpoint processing method.

【符号の説明】[Explanation of symbols]

11…計算機本体、12…拡張メモリ装置、13…電源
バックアップ装置、14…磁気ディスク装置、111…
CPU、112…メインメモリ、113…I/Oチャネ
ル、3A…管理情報エリア、3B1,3B2…バッファ
エリア、141…チェックポイントファイル。
11 ... Computer main body, 12 ... Extended memory device, 13 ... Power supply backup device, 14 ... Magnetic disk device, 111 ...
CPU, 112 ... Main memory, 113 ... I / O channel, 3A ... Management information area, 3B1, 3B2 ... Buffer area, 141 ... Checkpoint file.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 チェックポイントファイルの内容に基づ
いて計算機システムの実行環境を復元するチェックポイ
ントリスタート方式において、 チェックポイントファイルが記憶される2次記憶装置
と、 前記チェックポイントファイルに書き込むべきチェック
ポイント情報が格納されるバッファエリアとそのバッフ
ァエリアのチェックポイント情報の有効性を示すフラグ
がセットされる管理情報エリアとを有する不揮発性メモ
リと、 前記不揮発性メモリから前記2次記憶装置へのデータ転
送を実行する入出力手段と、 前記計算機システム上で実行中のジョブの実行環境をチ
ェックポイント毎に採取し、その採取情報を前記バッフ
ァエリアに格納すると共に、前記管理情報エリアに前記
フラグをセットする手段と、 前記不揮発性メモリのバッファエリアの内容を前記2次
記憶装置のチェックポイントファイルに書き込む要求
を、前記入出力手段に発行する手段と、 前記入出力手段からの書き込み完了通知に応答して、前
記管理情報エリアのフラグをリセットして前記不揮発性
メモリの対応するバッファエリアを解放する手段と、 障害発生時に前記不揮発性メモリの管理情報エリアのフ
ラグを参照し、そのフラグのセット/リセット状態に応
じて前記不揮発性メモリのバッファエリアの内容または
前記2次記憶装置のチェックポイントファイルを利用し
て計算機システムの実行環境を復元する手段とを具備す
ることを特徴とするチェックポイントリスタート方式。
1. A checkpoint restart method for restoring an execution environment of a computer system based on the contents of a checkpoint file, a secondary storage device in which the checkpoint file is stored, and a checkpoint to be written in the checkpoint file. A nonvolatile memory having a buffer area for storing information and a management information area in which a flag indicating the validity of checkpoint information in the buffer area is set, and data transfer from the nonvolatile memory to the secondary storage device. And an input / output means for executing the above, and the execution environment of the job being executed on the computer system is collected for each checkpoint, the collected information is stored in the buffer area, and the flag is set in the management information area. Means and a buffer of the non-volatile memory A means for issuing a request to write the contents of the area to the checkpoint file of the secondary storage device to the input / output means, and resetting the flag of the management information area in response to the write completion notification from the input / output means. Means for releasing the corresponding buffer area of the non-volatile memory, and referring to the flag of the management information area of the non-volatile memory when a failure occurs, the buffer of the non-volatile memory according to the set / reset state of the flag. A checkpoint restart method comprising means for restoring the execution environment of the computer system by utilizing the contents of the area or the checkpoint file of the secondary storage device.
JP04291523A 1992-10-29 1992-10-29 Checkpoint restart method Expired - Fee Related JP3135714B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04291523A JP3135714B2 (en) 1992-10-29 1992-10-29 Checkpoint restart method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04291523A JP3135714B2 (en) 1992-10-29 1992-10-29 Checkpoint restart method

Publications (2)

Publication Number Publication Date
JPH06139087A true JPH06139087A (en) 1994-05-20
JP3135714B2 JP3135714B2 (en) 2001-02-19

Family

ID=17770007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04291523A Expired - Fee Related JP3135714B2 (en) 1992-10-29 1992-10-29 Checkpoint restart method

Country Status (1)

Country Link
JP (1) JP3135714B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011122677A1 (en) * 2010-03-30 2011-10-06 株式会社エルイーテック Device and method for restoring information in a main storage device
JP2012008863A (en) * 2010-06-25 2012-01-12 Nec Corp Information processor and control method thereof
JP2013058126A (en) * 2011-09-09 2013-03-28 Mitsubishi Electric Corp Degeneracy processing device, degeneracy processing system, degeneracy processing method of degeneracy processing device, and degeneracy processing program
JP5309263B2 (en) * 2010-09-27 2013-10-09 株式会社日立製作所 Computer system and management method thereof
US8954801B2 (en) 2009-10-15 2015-02-10 L E Tech Co., Ltd. Microcomputer and method of operation thereof
CN106201811A (en) * 2016-07-06 2016-12-07 青岛海信宽带多媒体技术有限公司 The fault recovery method of application program and terminal
CN106527997A (en) * 2016-11-25 2017-03-22 西安电子科技大学 NAND flash bad block reutilization method and device based on sequence expansion
US10001921B2 (en) 2014-08-04 2018-06-19 Fujitsu Limited Data migration method and data migration device

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101822786B1 (en) * 2016-03-06 2018-01-29 김완용 A Bed having exercising function
KR102100410B1 (en) * 2017-10-17 2020-04-14 김완용 A Bed having exercising function

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8954801B2 (en) 2009-10-15 2015-02-10 L E Tech Co., Ltd. Microcomputer and method of operation thereof
WO2011122677A1 (en) * 2010-03-30 2011-10-06 株式会社エルイーテック Device and method for restoring information in a main storage device
JP2014123409A (en) * 2010-03-30 2014-07-03 Le Tech Co Ltd Device and method for restoring information in main storage device
JP5579257B2 (en) * 2010-03-30 2014-08-27 株式会社エルイーテック Apparatus and method for restoring information in main memory
JP2012008863A (en) * 2010-06-25 2012-01-12 Nec Corp Information processor and control method thereof
JP5309263B2 (en) * 2010-09-27 2013-10-09 株式会社日立製作所 Computer system and management method thereof
JP2013058126A (en) * 2011-09-09 2013-03-28 Mitsubishi Electric Corp Degeneracy processing device, degeneracy processing system, degeneracy processing method of degeneracy processing device, and degeneracy processing program
US10001921B2 (en) 2014-08-04 2018-06-19 Fujitsu Limited Data migration method and data migration device
CN106201811A (en) * 2016-07-06 2016-12-07 青岛海信宽带多媒体技术有限公司 The fault recovery method of application program and terminal
CN106527997A (en) * 2016-11-25 2017-03-22 西安电子科技大学 NAND flash bad block reutilization method and device based on sequence expansion

Also Published As

Publication number Publication date
JP3135714B2 (en) 2001-02-19

Similar Documents

Publication Publication Date Title
EP0827079B1 (en) Checkpoint computer system
JP2644188B2 (en) Fault tolerant transaction-oriented data processing system and method
JP3675802B2 (en) Method and system for reconfiguring the state of computation
US4868744A (en) Method for restarting a long-running, fault-tolerant operation in a transaction-oriented data base system without burdening the system log
EP0788052B1 (en) I/O control apparatus having check recovery function
US5802267A (en) Method for checkpointing in computer system under distributed processing environment
JP5160006B2 (en) Method and apparatus for performing atomic updates using a logical flash memory device
KR100238925B1 (en) A recoverable disk control system with a non-volatile memory
JPH0560617B2 (en)
US6944635B2 (en) Method for file deletion and recovery against system failures in database management system
JP3135714B2 (en) Checkpoint restart method
JP4095139B2 (en) Computer system and file management method
EP0881569A2 (en) File system and file management method which realize distributed replication in system having shared type raid
US6092084A (en) One system of a multisystem environment taking over log entries owned by another system
JP3463020B2 (en) Workflow execution method and apparatus, and recording medium recording workflow execution program
US6076095A (en) Method of one system of a multisystem environment taking over log entries owned by another system
JPH06149485A (en) Data completion guarantee processing method
JP3919274B2 (en) Computer system having state recording reproduction function and computer-readable recording medium recording state recording reproduction program
KR100365891B1 (en) Backup/recovery Apparatus and method for non-log processing of real-time main memory database system
KR20010055981A (en) Method for recovering main memory database system using stable memory
JP3516428B2 (en) calculator
JPH09212400A (en) File system provided with fault resistance
JPH0991183A (en) Data base recovery device
JPH04218842A (en) Reexecution method for program
KR100246540B1 (en) Method of transaction logging and fuzzy check-pointing for prevention of the dangling transactions

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees