JP2003280939A - Process pair execution control method and process pair execution control program in fault tolerant system, and fault tolerant system - Google Patents

Process pair execution control method and process pair execution control program in fault tolerant system, and fault tolerant system

Info

Publication number
JP2003280939A
JP2003280939A JP2002084321A JP2002084321A JP2003280939A JP 2003280939 A JP2003280939 A JP 2003280939A JP 2002084321 A JP2002084321 A JP 2002084321A JP 2002084321 A JP2002084321 A JP 2002084321A JP 2003280939 A JP2003280939 A JP 2003280939A
Authority
JP
Japan
Prior art keywords
backup process
state
backup
checkpoint
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002084321A
Other languages
Japanese (ja)
Other versions
JP3708891B2 (en
Inventor
Hideaki Hirayama
秀昭 平山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002084321A priority Critical patent/JP3708891B2/en
Publication of JP2003280939A publication Critical patent/JP2003280939A/en
Application granted granted Critical
Publication of JP3708891B2 publication Critical patent/JP3708891B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To utilize an open system without requiring CPU resource double. <P>SOLUTION: A checkpoint collecting part 15 conducts a reading-out D of the condition of a primary process 11 every time when a checkpoint collection time comes, and executes a copy E to a backup process 12. If this backup process 12 is in an execution state, the checkpoint obtaining part 15 stops the process 12 by an instruction F to a backup process execution state control part 17. A process-issue system call detecting part 19 restarts the process 12 from the latest obtained checkpoint, and brings it into an execution by an instruction G to the backup process execution state control part 17 if the backup process 12 is stopped when a system call is issued from the primary process 11. <P>COPYRIGHT: (C)2004,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、プロセスを実行し
ている計算機に障害が発生した場合でも、他の計算機を
利用して当該プロセスを継続して実行することを可能に
するフォールトトレラント技術に係り、特にその技術を
CADやシミュレーション等の科学技術計算プログラム
に適用する場合に好適な、フォールトトレラントシステ
ムにおけるプロセスペア実行制御方法、プロセスペア実
行制御プログラム、及びフォールトトレラントシステム
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a fault tolerant technique which enables a computer executing a process to continue to execute the process by utilizing another computer even if a failure occurs in the computer. In particular, the present invention relates to a process pair execution control method, a process pair execution control program and a fault tolerant system in a fault tolerant system, which is suitable when the technique is applied to a scientific and technological calculation program such as CAD or simulation.

【0002】[0002]

【従来の技術】プロセスを実行している計算機に障害が
発生した場合でも、他の計算機を利用して当該プロセス
を継続して実行することを可能にするフォールトトレラ
ント技術の代表的な手法としてプロセスペア方式が知ら
れている。
2. Description of the Related Art Even if a computer that is executing a process fails, a process is used as a typical fault-tolerant technique that makes it possible to continue execution of the process by using another computer. The pair method is known.

【0003】プロセスペア方式とは、プロセスをプライ
マリプロセスとバックアッププロセスの2つで構成し、
両プロセスを異なる計算機上に配置する手法である。従
来、このプロセスペア方式には以下に述べる第1及び第
2の方式が存在する。
In the process pair system, a process is composed of two processes, a primary process and a backup process,
This is a method of arranging both processes on different computers. Conventionally, there are first and second methods described below in this process pair method.

【0004】(1)第1の方式 第1の方式は、文献「”The Process Group Approach t
o Reliable Distributed Computing,” K.Birman, Tech
nical Report, Computer Science Department,Cornel U
niversity, July 1991」(以下、第1の文献と称する)
に記載されている。
(1) First method The first method is the one described in the document "" The Process Group Approach t.
o Reliable Distributed Computing, ”K. Birman, Tech
nical Report, Computer Science Department, Cornel U
niversity, July 1991 "(hereinafter referred to as the first document)
It is described in.

【0005】この第1の文献では、プロセスペアはプロ
セスグループと呼ばれ、2個以上のプロセスによる処理
の多重化を行っている。ここではプロセス数を2個に限
定したプロセスペア方式の一形態として、第1の方式と
称するものとする。
In this first document, a process pair is called a process group, and processing by two or more processes is multiplexed. Here, as a form of the process pair system in which the number of processes is limited to two, it is referred to as a first system.

【0006】図9は第1の方式を説明するための図であ
る。図9に示されるように、第1の方式では、1つのプ
ロセスはプライマリプロセスとバックアッププロセスか
らなるプロセスペア91として構成される。プロセスペ
ア91が他のプロセスペア92と通信を行う際には、プ
ロセスペア間通信93〜96等が行われる。プロセスペ
ア間通信では、送信側プライマリプロセスと送信側バッ
クアッププロセスから、受信側プライマリプロセスと受
信側バックアッププロセスに、メッセージを一貫性を保
った状態で送受信する機能を提供する。
FIG. 9 is a diagram for explaining the first method. As shown in FIG. 9, in the first method, one process is configured as a process pair 91 including a primary process and a backup process. When the process pair 91 communicates with another process pair 92, communication between process pairs 93 to 96 and the like are performed. In the process pair-to-process communication, a function is provided in which the sender primary process and the sender backup process send and receive messages to the receiver primary process and the receiver backup process in a consistent state.

【0007】なお、メッセージを一貫性を保った状態で
送受信するという意味は、プライマリプロセスとバック
アッププロセスが共に、メッセージを1つのみ送信また
は受信するということである。逆に言えば、プライマリ
プロセスのみメッセージを受信して、バックアッププロ
セスがメッセージを受信していない等の状態にならない
ことを示す。
Note that the meaning of transmitting and receiving a message in a consistent state means that both the primary process and the backup process send or receive only one message. Conversely, it means that only the primary process receives the message and the backup process does not receive the message.

【0008】第1の方式では、図9中のfault1、
或いはfault2で示される時点で、プライマリプロ
セスが実行されている計算機に障害が発生しても、他の
計算機で実行されているバックアッププロセスが処理を
継続し、プライマリプロセスの役割を代替する。これに
より、プロセスペア91としては処理を継続することが
できる。
In the first method, fault1,
Alternatively, at the time indicated by fault2, even if the computer on which the primary process is running fails, the backup process running on another computer continues processing and replaces the role of the primary process. As a result, the process pair 91 can continue processing.

【0009】図9に示した第1の方式では、全く同じ処
理を2つのプロセス(プライマリプロセス及びバックア
ッププロセス)で実行するため、CPUリソースを2倍
必要とする。
In the first method shown in FIG. 9, exactly the same processing is executed by two processes (a primary process and a backup process), so that twice the CPU resource is required.

【0010】(2)第2の方式 第2の方式は、文献「”フォールト・トレラント・シス
テム”、グレイ他著、渡辺榮一編訳、マグロウヒル出
版」(以下、第2の文献と称する)に記載されている。
この第2の文献では、プロセスペアは、そのままプロセ
スペアと呼ばれている。
(2) Second Method The second method is described in the document "Fault Tolerant System", Gray et al., Translated by Eiichi Watanabe, McGraw-Hill Publishing "(hereinafter referred to as the second document). Has been done.
In this second document, the process pair is directly called a process pair.

【0011】図10は第2の方式を説明するための図で
ある。図10に示されるように、第2の方式では、1つ
のプロセスはプライマリプロセスとバックアッププロセ
スからなるプロセスペア101として構成される。プロ
セスペア101が他のプロセスペア102と通信を行う
際には、プロセスペア間通信が行われる。
FIG. 10 is a diagram for explaining the second method. As shown in FIG. 10, in the second method, one process is configured as a process pair 101 including a primary process and a backup process. When the process pair 101 communicates with another process pair 102, communication between process pairs is performed.

【0012】プロセスペア間通信では、送信側プライマ
リプロセスと送信側バックアッププロセスから、受信側
プライマリプロセスと受信側バックアッププロセスに、
メッセージを一貫性を保った状態で送受信する機能を提
供する。
In the process pair-to-process communication, from the sender-side primary process and the sender-side backup process to the receiver-side primary process and the receiver-side backup process,
Provides a function to send and receive messages in a consistent state.

【0013】上記第1の方式では、バックアッププロセ
スも、プライマリプロセスと同じ処理を実行している。
しかし、第2の方式では、バックアッププロセスは、プ
ロセスとしては存在するが実際の処理は実行しないで、
チェックポイント採取時(ckp1,ckp2,ckp
3,ckp4)に、プライマリプロセスの状態をバック
アッププロセスにコピーする。
In the first method, the backup process also executes the same processing as the primary process.
However, in the second method, the backup process exists as a process but does not execute the actual processing,
Checkpoint collection (ckp1, ckp2, ckp
3, ckp4), copy the state of the primary process to the backup process.

【0014】第2の方式では、図10中のfault
1、或いはfault2で示される時点で、プライマリ
プロセスが実行されている計算機に障害が発生した場
合、他の計算機上のバックアッププロセスが、各々re
start1、或いはrestart2で示される最後
に採取されたチェックポイントの時点から処理を再開
し、プライマリプロセスの役割を代替する。このため、
プロセスペアとしては処理を継続することができる。
In the second method, the fault shown in FIG.
At the time indicated by 1 or fault2, if the computer on which the primary process is running fails, the backup process on the other computer is re-reset.
The process is restarted from the time point of the checkpoint taken at the end, which is indicated by start1 or restart2, and replaces the role of the primary process. For this reason,
Processing can continue as a process pair.

【0015】第2の方式では、上記第1の方式とは異な
って、全く同じ処理をプライマリプロセス及びバックア
ッププロセスの2つのプロセスで実行するわけではな
い。このため第2の方式では、CPUリソースを2倍必
要とするということはない。
Unlike the first method, the second method does not perform exactly the same processing in two processes, a primary process and a backup process. Therefore, the second method does not require twice the CPU resource.

【0016】[0016]

【発明が解決しようとする課題】上記した、プロセスペ
ア方式と呼ばれる従来のフォールトトレラント技術、例
えば第1の方式では、プライマリプロセスが実行されて
いる計算機に障害が発生しても、他の計算機で実行され
ているバックアッププロセスが処理を継続し、プライマ
リプロセスの役割を代替することで、プロセスペアとし
ては処理を継続することができる。ところが、第1の方
式では、全く同じ処理を2つのプロセス(プライマリプ
ロセス及びバックアッププロセス)で実行するため、C
PUリソースを2倍必要とするという問題がある。
In the conventional fault-tolerant technology called the process pair method described above, for example, the first method, even if the computer in which the primary process is executed fails, another computer can execute it. The backup process being executed continues processing, and by replacing the role of the primary process, processing can be continued as a process pair. However, in the first method, since exactly the same processing is executed by two processes (primary process and backup process), C
There is a problem that PU resources are required twice.

【0017】これに対し、上記第2の方式では、第1の
方式とは異なって、全く同じ処理を2つのプロセスで実
行するわけではなく、したがってCPUリソースを2倍
必要とせずに済む。ところが第2の方式には、以下に述
べる別の問題がある。
On the other hand, unlike the first method, in the second method, exactly the same processing is not executed by the two processes, and therefore the CPU resource need not be doubled. However, the second method has another problem described below.

【0018】まず、第2の方式では、実際には実行して
いないバックアッププロセス、つまりプライマリプロセ
ス側で障害が発生しない限り定常的に停止状態にあるバ
ックアッププロセスを、チェックポイント採取時から再
開するために、プライマリプロセスの状態をバックアッ
ププロセスにコピーする。アドレス空間やコンテクスト
は、これで問題ない。
First, in the second method, a backup process that is not actually executed, that is, a backup process that is in a stationary state unless a failure occurs on the primary process side, is restarted from the time of checkpoint collection. First, copy the state of the primary process to the backup process. For address space and context, this is fine.

【0019】しかしながら第2の方式は、バックアップ
プロセスが定常的に停止状態にあることから、単にプラ
イマリプロセスの状態をバックアッププロセスにコピー
するだけでは、システムコールの実行によって、OS
(オペレーティングシステム)から受けているサービス
の状態を復元できない。このOSから受けているサービ
スの状態とは、例えば、どのファイルを、どのディスク
リプタでオープンしているか、そのシークポインタ等の
状態である。そこで、第2の方式では、このようなOS
から受けているサービスの状態を、保存・復元できるよ
うな機能を持った独自のOSを採用している。
However, in the second method, since the backup process is constantly in a stopped state, the OS is executed by executing a system call by simply copying the state of the primary process to the backup process.
Unable to restore the state of the service received from (operating system). The status of the service received from the OS is, for example, which file is opened by which descriptor, its seek pointer, or the like. Therefore, in the second method, such an OS
It employs a unique OS that has the function of saving and restoring the status of services received from.

【0020】このため、第2の方式では、産業界で広く
利用されているオープンシステムを利用することができ
ず、全てのアプリケーションを独自に開発する必要があ
り、生産性が低くなるという問題がある。
Therefore, in the second method, the open system widely used in the industrial world cannot be used, and it is necessary to independently develop all the applications, which causes a problem of low productivity. is there.

【0021】本発明は上記事情を考慮してなされたもの
でその目的は、障害発生時にも処理を継続することを可
能としながら、CPUリソースを2倍必要とせずに済
み、且つオープンシステムを利用できるフォールトトレ
ラントシステムにおけるプロセスペア実行制御方法、プ
ロセスペア実行制御プログラム、及びフォールトトレラ
ントシステムを提供することにある。
The present invention has been made in consideration of the above circumstances, and an object thereof is to enable the processing to be continued even when a failure occurs, without needing to double the CPU resources, and to use an open system. It is to provide a process pair execution control method, a process pair execution control program, and a fault tolerant system in a fault-tolerant system that can be performed.

【0022】[0022]

【課題を解決するための手段】本発明の1つの観点によ
れば、障害発生時にも処理を継続することが可能な、プ
ライマリプロセスとバックアッププロセスから構成され
るプロセスペアが実行されるフォールトトレラントシス
テムにおけるプロセスペア実行制御方法が提供される。
このプロセスペア実行制御方法は、プロセスペアの起動
時にはプライマリプロセス及びバックアッププロセスを
共に実行状態にするステップと、チェックポイント採取
時期が到来する毎に、プライマリプロセスの状態をバッ
クアッププロセスにコピーするステップと、チェックポ
イント採取時にバックアッププロセスが実行状態にある
ならば、当該バックアッププロセスを停止状態にするス
テップと、プロセスペアからシステムコールが発行され
た場合に、バックアッププロセスが停止状態にあるなら
ば、当該バックアッププロセスを最も最近に採取された
チェックポイント(最後のチェックポイント)から再開
させて実行状態にするステップとから構成される。
According to one aspect of the present invention, a fault tolerant system in which a process pair composed of a primary process and a backup process is executed, which can continue processing even when a failure occurs A process pair execution control method in is provided.
This process pair execution control method includes a step of setting both the primary process and the backup process to the running state at the time of starting the process pair, and a step of copying the state of the primary process to the backup process at each checkpoint collection time, If the backup process is in the running state at the time of checkpoint collection, the step to put the backup process in the stopped state, and if the backup process is in the stopped state when a system call is issued from the process pair, the backup process is in the stopped state. Is restarted from the checkpoint (the last checkpoint) taken most recently and is put into the execution state.

【0023】本発明の第1の観点に係るプロセスペア実
行制御方法においては、プログラム(プロセスペア)の
起動直後の期間は、プライマリプロセス及びバックアッ
ププロセスが共に実行状態となって動作する。このため
両プロセスは、OSからのサービス提供を受けている状
態となる。その後は、最初のチェックポイント採取時期
の到来によりバックアッププロセスが停止状態となり、
バックアッププロセス側でのCPUリソースの消費が抑
えられる。また、バックアッププロセスが停止状態にあ
るときにシステムコールが発行されると、バックアップ
プロセスは最後のチェックポイントから処理を再開す
る。つまり、バックアッププロセスも実行状態となって
動作し、プライマリプロセス及びバックアッププロセス
は再びOSからのサービス提供を受けている状態とな
る。
In the process pair execution control method according to the first aspect of the present invention, both the primary process and the backup process operate in the running state immediately after the program (process pair) is started. Therefore, both processes are in a state of being provided with services from the OS. After that, the backup process is stopped due to the arrival of the first checkpoint collection time,
CPU resource consumption on the backup process side is suppressed. Also, if a system call is issued while the backup process is stopped, the backup process resumes processing from the last checkpoint. That is, the backup process also operates in the running state, and the primary process and the backup process are again in the state of being provided with the service from the OS.

【0024】このように、本発明の第1の観点に係るプ
ロセスペア実行制御方法において、バックアッププロセ
スは、従来の技術の欄で述べた第2の方式と異なって、
プログラムの起動直後の期間と、その後バックアッププ
ロセスが停止状態にあるときにシステムコールが発行さ
れた場合には実行状態となる。一方、プライマリプロセ
スは上記第2の方式と同様に、障害が発生しない限りは
プログラムが終了するまで実行状態にある。つまり、第
1の観点に係るプロセスペア実行制御方法では、従来の
技術の欄で述べた第1の方式と異なって、プライマリプ
ロセス及びバックアッププロセスが全く同じ処理を常に
実行するわけでもなく、また第2の方式と異なって、バ
ックアッププロセスが定常的に停止状態にあるわけでも
なく、両プロセスが共に実行状態にある期間が存在す
る。この期間中、両プロセスはOSからのサービス提供
を受けている状態となる。
As described above, in the process pair execution control method according to the first aspect of the present invention, the backup process is different from the second method described in the section of the prior art,
It will be in the running state immediately after the program is started, and if a system call is issued while the backup process is stopped after that. On the other hand, as in the case of the second method, the primary process remains in the running state until the program ends unless a failure occurs. That is, in the process pair execution control method according to the first aspect, unlike the first method described in the section of the related art, the primary process and the backup process do not always execute exactly the same processing, and Unlike the method of 2, the backup process is not constantly in the stopped state, and there is a period in which both processes are in the running state. During this period, both processes are in a state of receiving service from the OS.

【0025】このため、本発明の第1の観点に係るプロ
セスペア実行制御方法においては、上記第2の方式のよ
うに、OSから受けているサービスの状態を、保存・復
元できるような機能を持った独自のOSを採用する必要
がなく、産業界で広く利用されているオープンシステム
を利用することが可能となる。また、バックアッププロ
セスが停止状態にある期間が存在するため、CPUリソ
ースを2倍必要とせずに済む。また、本発明の第1の観
点に係るプロセスペア実行制御方法は、以下の理由によ
り、CADやシミュレーション等の科学技術計算プログ
ラムに特に適している。即ち、この種の科学技術計算プ
ログラムでは、最初にシステムコールの発行を伴う入力
データの読み出し等を行い、その後はシステムコールを
発行せずに、CPU演算を繰り返すことが多く、しかも
CPU演算が行われる期間は、システムコールの発行を
伴う期間に比べて著しく長い。このため、上記第1の観
点に係るプロセスペア実行制御方法において、プログラ
ムの起動直後と、それ以降はシステムコールの発行を伴
う期間だけプライマリプロセス及びバックアッププロセ
スを共に実行状態にし、それ以外の長時間行われるCP
U演算の期間はバックアッププロセスを停止状態にする
ことにより、CPUリソースがバックアッププロセスの
実行に用いられる時間を大幅に短縮すると共に、汎用的
なOSを使用しても当該OSから受けているサービスの
状態を保存・復元するのを可能とする。
Therefore, in the process pair execution control method according to the first aspect of the present invention, there is a function capable of saving / restoring the state of the service received from the OS, as in the second method. It is possible to use an open system widely used in the industrial world without having to adopt a proprietary OS that the company has. Further, since there is a period during which the backup process is in a stopped state, it is not necessary to double the CPU resource. Further, the process pair execution control method according to the first aspect of the present invention is particularly suitable for a science and technology calculation program such as CAD and simulation for the following reasons. That is, in this kind of scientific and technological calculation program, first, input data is read with issuance of a system call, etc., and then the CPU operation is often repeated without issuing a system call. The period to be closed is significantly longer than the period involving issuance of a system call. Therefore, in the process pair execution control method according to the first aspect, both the primary process and the backup process are put into the running state immediately after the program is started and thereafter only during the period accompanied by the issuance of the system call, and other long time CP performed
By suspending the backup process during the U operation, the time taken for the CPU resource to execute the backup process is significantly reduced, and even if a general-purpose OS is used, the service received from the OS is Allows you to save and restore state.

【0026】ここで、プライマリプロセス側での障害発
生時に、バックアッププロセスが停止状態にあるなら
ば、当該バックアッププロセスを最も最近に採取された
チェックポイントから再開させて実行状態にするステッ
プを追加するならば、たとえバックアッププロセスが停
止状態にある期間にプライマリプロセス側で障害が発生
しても、バックアッププロセスにより処理を継続するこ
とが可能となる。
If the backup process is in a stopped state when a failure occurs on the primary process side, if a step of restarting the backup process from the checkpoint taken most recently to put it in the execution state is added. For example, even if a failure occurs on the primary process side while the backup process is stopped, the backup process can continue the processing.

【0027】また、バックアッププロセスを停止状態か
ら実行状態に切り換えることが必要となる直前のタイミ
ング、例えばプライマリプロセスからシステムコールが
発行される直前のタイミングにチェックポイント採取時
期(第1のチェックポイント採取時期)を設定するステ
ップを追加するならば、その後プライマリプロセスから
実際にシステムコールが発行されてバックアッププロセ
スを再開した場合に、その再開後の処理に要する時間を
短縮できる。
The checkpoint collection timing (first checkpoint collection timing) is set at the timing immediately before the backup process needs to be switched from the stopped state to the running state, for example, immediately before the system call is issued from the primary process. ) Is set, the time required for the processing after the restart is restarted when the primary process actually issues a system call to restart the backup process.

【0028】また、バックアッププロセスを実行状態に
維持しておく必要がなくなる直後のタイミングにチェッ
クポイント採取時期(第2のチェックポイント採取時
期)を設定するステップを追加するならば、バックアッ
ププロセスが実行状態にある期間を必要最小限に抑え
て、バックアッププロセスの実行に必要なCPUリソー
スが余分に使用されるのを防ぐことができる。
If a step for setting a checkpoint collection time (second checkpoint collection time) is added immediately after it becomes unnecessary to keep the backup process in the execution state, the backup process will be in the execution state. Can be kept to a minimum to prevent excessive use of CPU resources required to perform the backup process.

【0029】また、上記第1のチェックポイント採取時
期から次の上記第2のチェックポイント採取時期のまで
の期間を除く、バックアッププロセスが停止状態にある
期間、予め定められた時間間隔でチェックポイント採取
時期(第3のチェックポイント採取時期)を設定するス
テップを追加するなら、プライマリプロセス及びバック
アッププロセスが共に実行状態にある期間にチェックポ
イント採取動作が行われて、その都度バックアッププロ
セスが停止されて、その後のプライマリプロセスでのシ
ステムコールにより当該バックアッププロセスが最後の
チェックポイントから再開されるという、処理を遅延さ
せる無駄な動作が発生するのを防止できる。これによ
り、処理効率の向上と、チェックポイントの効率的な採
取とが可能となる。
Also, checkpoints are collected at predetermined time intervals during the period during which the backup process is in a stopped state, excluding the period from the first checkpoint collection period to the next second checkpoint collection period. If a step for setting the time (third checkpoint collection time) is added, the checkpoint collection operation is performed during the period when both the primary process and the backup process are in the running state, and the backup process is stopped each time, It is possible to prevent the useless operation that delays the processing, that is, the backup process is restarted from the last checkpoint by the system call in the primary process thereafter. As a result, it is possible to improve processing efficiency and efficiently collect check points.

【0030】なお、以上のプロセスペア実行制御方法に
係る本発明は、当該方法を構成する各ステップを計算機
に実行させるためのプログラム(プロセスペア実行制御
プログラム)に係る発明としても、当該方法を実行する
フォールトトレラントシステムに係る発明としても成立
する。
The present invention relating to the process pair execution control method described above also executes the method as an invention relating to a program (process pair execution control program) for causing a computer to execute each step constituting the method. The present invention can also be realized as an invention relating to a fault tolerant system.

【0031】[0031]

【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings.

【0032】図1は本発明の一実施形態に係るフォール
トトレラントシステムの構成を示すブロック図である。
図1において、計算機1a及び1bは、ネットワーク2
により相互接続されている。計算機1a(の図示せぬ記
憶装置)上にはプライマリプロセス11が配置され、計
算機1b上(の図示せぬ記憶装置)にはバックアッププ
ロセス12が配置されている。つまり計算機1a及び1
bの組により、障害発生時にも処理を継続することが可
能な、プライマリプロセス11とバックアッププロセス
12から構成されるプロセスペア13が実現されてい
る。
FIG. 1 is a block diagram showing the configuration of a fault tolerant system according to an embodiment of the present invention.
In FIG. 1, computers 1a and 1b are network 2
Interconnected by. A primary process 11 is arranged on (the storage device (not shown) of) the computer 1a, and a backup process 12 is arranged on (storage device thereof (not shown)) of the computer 1b. That is, computers 1a and 1
The group b realizes a process pair 13 including a primary process 11 and a backup process 12 that can continue processing even when a failure occurs.

【0033】計算機1a及び1bは、いずれも、プロセ
スペア間通信部14、チェックポイント採取部15、プ
ロセスリスタート部16、バックアッププロセス実行状
態制御部17、バックアッププロセス実行状態管理部1
8、及びプロセス発行システムコール検知部19の各機
能要素を有している。これら各部14〜19は、プライ
マリプロセス11またはバックアッププロセス12から
利用される関数プログラム等を格納したライブラリ20
によって実現される。
Each of the computers 1a and 1b has an inter-process pair communication unit 14, a checkpoint collection unit 15, a process restart unit 16, a backup process execution state control unit 17, and a backup process execution state management unit 1.
8 and each functional element of the process issuing system call detection unit 19. Each of these units 14 to 19 is a library 20 that stores a function program or the like used from the primary process 11 or the backup process 12.
Is realized by

【0034】図2は、上記プライマリプロセス11及び
バックアッププロセス12から構成されるプロセスペア
13と、上記ライブラリ20により実現される上記各部
14〜19との関係を示す機能ブロック構成図である。
FIG. 2 is a functional block diagram showing the relationship between the process pair 13 including the primary process 11 and the backup process 12 and the units 14 to 19 realized by the library 20.

【0035】プロセスペア間通信部14は、計算機1a
及び1b上のプライマリプロセス11及びバックアップ
プロセス12から構成されるプロセスペア13と他のプ
ロセスペアとの間の通信を行う。プロセスペア間通信部
14は、プライマリプロセス11及びバックアッププロ
セス12が共に生存(存在)している場合、両プロセス
を調停して、1つのメッセージのみを他のプロセスペア
に送る。逆に他のプロセスペアからメッセージが送られ
てきた場合、プロセスペア間通信部14は、プライマリ
プロセス11とバックアッププロセス12が共に生存し
ている場合には、当該メッセージを両プロセスに送る。
The inter-process pair communication unit 14 is the computer 1a.
Communication between the process pair 13 composed of the primary process 11 and the backup process 12 on 1b and another process pair is performed. When both the primary process 11 and the backup process 12 are alive (existing), the inter-process pair communication unit 14 arbitrates both processes and sends only one message to another process pair. On the contrary, when a message is sent from another process pair, the inter-process pair communication unit 14 sends the message to both the primary process 11 and the backup process 12 when both are alive.

【0036】チェックポイント採取部15は、チェック
ポイント採取時期が到来すると起動される。ここでは、
チェックポイント採取部15は、プライマリプロセス1
1からのシステムコールによるチェックポイント採取の
ための指示(チェックポイント採取指示)A、またはタ
イマTMからの定期的な割り込み(チェックポイント採
取割り込み)Bにより起動される。チェックポイント採
取部15は、バックアッププロセス実行状態管理部18
によって管理されているプライマリプロセス11の状態
から、当該プライマリプロセス11が生存していること
が判別される場合に、当該プライマリプロセス11に指
示Cを出して当該プライマリプロセス11の状態の読み
出しDを行い、バックアッププロセス12へのコピーE
を実行するチェックポイント採取動作を行う機能を有す
る。なお、ここでいうプロセスの状態とは、アドレス空
間とコンテクストのことである。
The checkpoint sampling unit 15 is activated when the checkpoint sampling time comes. here,
The checkpoint collection unit 15 uses the primary process 1
It is activated by an instruction A for checkpoint collection by a system call from 1 (checkpoint collection instruction) A or a periodic interrupt (checkpoint collection interrupt) B from a timer TM. The checkpoint collection unit 15 includes a backup process execution state management unit 18
When it is determined that the primary process 11 is alive from the state of the primary process 11 managed by, the instruction C is issued to the primary process 11 and the state D of the primary process 11 is read. , Copy to Backup Process 12 E
Has a function of performing a checkpoint collection operation. The state of the process mentioned here is the address space and the context.

【0037】チェックポイント採取部15はまた、バッ
クアッププロセス実行状態管理部18を利用してバック
アッププロセス12の状態(実行状態または停止状態)
を調べ、実行状態ならば、バックアッププロセス実行状
態制御部17にバックアッププロセス12の実行を停止
させる指示Fを出す。
The checkpoint collection unit 15 also uses the backup process execution state management unit 18 to determine the state of the backup process 12 (execution state or stop state).
If it is in the execution state, an instruction F for stopping the execution of the backup process 12 is issued to the backup process execution state control unit 17.

【0038】プロセスリスタート部16は、プライマリ
プロセス11を実行している計算機の障害を検知した場
合に、バックアッププロセス実行状態管理部17を利用
してバックアッププロセス12の状態を調べ、停止状態
ならば、バックアッププロセス実行状態制御部17に対
してバックアッププロセス12の実行を開始させる指示
Hを出す。
When the process restart unit 16 detects a failure in the computer that is executing the primary process 11, the process restart unit 16 checks the state of the backup process 12 using the backup process execution state management unit 17, and if it is in the stopped state. , An instruction H for starting the execution of the backup process 12 is issued to the backup process execution state control unit 17.

【0039】バックアッププロセス実行状態制御部17
は、プライマリプロセス11及びバックアッププロセス
12から構成されるプロセスペア13の起動時(プログ
ラムの実行開始時)に、当該プライマリプロセス11及
びバックアッププロセス12を共に実行状態として、バ
ックアッププロセス実行状態管理部18に登録する機能
を有する。バックアッププロセス実行状態制御部17は
また、チェックポイント採取部15からの指示Fを受け
て、バックアッププロセス12を停止させ、その状態を
停止状態として、バックアッププロセス実行状態管理部
18に登録する機能を有する。バックアッププロセス実
行状態制御部17はまた、プロセスリスタート部16か
らの指示Hまたはプロセス発行システムコール検知部1
9からの後述する指示Gを受けて、バックアッププロセ
ス12を実行させ、その状態を実行状態として、バック
アッププロセス実行状態管理部18に登録する機能をも
有する。
Backup process execution status controller 17
When the process pair 13 including the primary process 11 and the backup process 12 is activated (when the execution of the program is started), the primary process 11 and the backup process 12 are both set to the execution state, and the backup process execution state management unit 18 Has the function to register. The backup process execution state control unit 17 also has a function of receiving the instruction F from the checkpoint collection unit 15, stopping the backup process 12, and registering the state in the backup process execution state management unit 18 as a stop state. . The backup process execution state control unit 17 also receives the instruction H from the process restart unit 16 or the process issuing system call detection unit 1
It also has a function of receiving the instruction G described later from 9 to execute the backup process 12 and registering the state in the backup process execution state management unit 18 as the execution state.

【0040】バックアッププロセス実行状態管理部18
は、バックアッププロセス12の状態を保持・管理す
る。
Backup process execution status management unit 18
Holds and manages the state of the backup process 12.

【0041】プロセス発行システムコール検知部19
は、プロセスペア13(を構成するプライマリプロセス
11またはバックアッププロセス12)がシステムコー
ルを実行(発行)したことを検知する。またプロセス発
行システムコール検知部19は、プライマリプロセス1
1がシステムコールを実行したことを検知した場合、バ
ックアッププロセス実行状態管理部18を利用してバッ
クアッププロセス12の状態を調べる。プロセス発行シ
ステムコール検知部19は、バックアッププロセス12
が停止状態ならば、バックアッププロセス実行状態制御
部17に対してバックアッププロセス12の実行を開始
させる指示Gを出す。
Process issuing system call detector 19
Detects that the process pair 13 (the primary process 11 or the backup process 12 constituting the process pair) has executed (issued) a system call. In addition, the process issuing system call detection unit 19 uses the primary process 1
When it is detected that 1 has executed the system call, the state of the backup process 12 is checked using the backup process execution state management unit 18. The process issuing system call detection unit 19 uses the backup process 12
Is stopped, an instruction G for starting the execution of the backup process 12 is issued to the backup process execution state control unit 17.

【0042】計算機1a及び計算機1b上の、それぞれ
プロセスペア間通信部14同士、チェックポイント採取
部15同士、プロセスリスタート部16同士、バックア
ッププロセス実行状態制御部17同士、バックアッププ
ロセス実行状態管理部18同士、そしてプロセス発行シ
ステムコール検知部19同士は、互いにネットワーク2
を介して通信をすことで、あたかも1つであるかのよう
に動作する。
On the computers 1a and 1b, the inter-process pair communication units 14 each other, the checkpoint collection units 15 each other, the process restart units 16 each other, the backup process execution state control units 17 each other, the backup process execution state management unit 18 respectively. And the process issuing system call detecting units 19 are connected to each other via the network 2
By communicating via, it operates as if it were one.

【0043】図3は状態遷移図であり、同図(a)はプ
ライマリプロセス11の取り得る状態を示す状態遷移
図、同図(b)はバックアッププロセス12の取り得る
状態を示す状態遷移図である。
FIG. 3 is a state transition diagram. FIG. 3A is a state transition diagram showing possible states of the primary process 11, and FIG. 3B is a state transition diagram showing possible states of the backup process 12. is there.

【0044】まずプライマリプロセス11は、図3
(a)に示すように、停止状態及び実行状態のいずれか
の状態を取る。プライマリプロセス11は、プログラム
実行開始a1と共に停止状態から実行状態に遷移する。
プライマリプロセス11は、プログラム実行終了a2と
なるまで、実行状態を保つ。
First, the primary process 11 is shown in FIG.
As shown in (a), it takes one of a stopped state and a running state. The primary process 11 transits from the stopped state to the running state when the program execution starts a1.
The primary process 11 maintains the execution state until the program execution end a2.

【0045】次にバックアッププロセス12も、図3
(b)に示すように、停止状態及び実行状態のいずれか
の状態を取る。バックアッププロセス12は、プログラ
ム実行開始b1と共に停止状態から実行状態に遷移す
る。バックアッププロセス12は、実行状態において、
チェックポイント採取b2が実行されると、停止状態に
遷移する。また、バックアッププロセス12は、停止状
態において、プライマリプロセス11でのシステムコー
ル発行b3が行われると、実行状態に遷移する。
Next, the backup process 12 is also shown in FIG.
As shown in (b), it takes one of a stopped state and an execution state. The backup process 12 transits from the stopped state to the running state when the program execution starts b1. The backup process 12 is
When the checkpoint collection b2 is executed, the state transits to the stopped state. Further, the backup process 12 transitions to the execution state when the system call issuance b3 in the primary process 11 is performed in the stopped state.

【0046】次に、本実施形態の動作を、図4乃至図8
を適宜参照して説明する。なお、図4はプロセスペア1
3を構成するプライマリプロセス11及びバックアップ
プロセス12の全体の動作を説明するためのタイミング
チャート、図5はチェックポイント採取部15の動作を
説明するためのフローチャート、図6はプロセスリスタ
ート部16の動作を説明するためのフローチャート、図
7はプロセス発行システムコール検知部19の動作を説
明するためのフローチャート、図8はプライマリプロセ
ス11及びバックアッププロセス12の状態とチェック
ポイント採取時期との関係を説明するためのタイミング
チャートである。
Next, the operation of this embodiment will be described with reference to FIGS.
Will be described as appropriate. Note that FIG. 4 shows process pair 1
3 is a timing chart for explaining the overall operation of the primary process 11 and the backup process 12, FIG. 5 is a flowchart for explaining the operation of the checkpoint sampling unit 15, and FIG. 6 is the operation of the process restart unit 16. 7 is a flow chart for explaining the operation of the process issuing system call detection unit 19, and FIG. 8 is a flow chart for explaining the relationship between the states of the primary process 11 and backup process 12 and the checkpoint collection timing. 2 is a timing chart of.

【0047】まず、プロセス開始直後、つまりプログラ
ム実行開始a1,b1直後は、計算機1a上のプライマ
リプロセス11及び計算機1b上のバックアッププロセ
ス12は、図3に示すように共に停止状態から実行状態
に遷移する。
First, immediately after the start of the process, that is, immediately after the start of program execution a1 and b1, both the primary process 11 on the computer 1a and the backup process 12 on the computer 1b transit from the stopped state to the running state as shown in FIG. To do.

【0048】今、プライマリプロセス11及びバックア
ッププロセス12が実行状態にあるときに、例えば図4
中のckp1の時点で、プライマリプロセス11からチ
ェックポイント採取部15にチェックポイント採取のシ
ステムコールAが発行されたものとする。
Now, when the primary process 11 and the backup process 12 are in the execution state, for example, as shown in FIG.
It is assumed that the primary process 11 issues a checkpoint collection system call A to the checkpoint collection unit 15 at the time of ckp1.

【0049】この場合、チェックポイント採取部15は
起動され、バックアッププロセス実行状態管理部18に
対して、当該管理部18により管理されているプライマ
リプロセス11及びバックアッププロセス12の状態を
問い合わせ、両プロセスが共に生存しているか否かを判
定する(ステップS1)。もし、プライマリプロセス1
1及びバックアッププロセス12の少なくとも一方が生
存していないならば、チェックポイント採取部15はそ
のまま動作を終了する。
In this case, the checkpoint collection unit 15 is activated, the backup process execution state management unit 18 is inquired about the states of the primary process 11 and the backup process 12 managed by the management unit 18, and both processes are executed. It is determined whether both are alive (step S1). If primary process 1
If at least one of 1 and the backup process 12 is not alive, the checkpoint collection unit 15 ends the operation as it is.

【0050】これに対し、プライマリプロセス11及び
バックアッププロセス12が共に生存しているならば、
チェックポイント採取部15はプライマリプロセス11
に指示Cを出して当該プライマリプロセス11の状態を
読み出す動作Dを実行し、読み出した状態をバックアッ
ププロセス12にコピーする動作Eを実行する(ステッ
プS2)。
On the other hand, if both the primary process 11 and the backup process 12 are alive,
The checkpoint collection unit 15 is the primary process 11
To execute the operation D for reading the state of the primary process 11 and the operation E for copying the read state to the backup process 12 (step S2).

【0051】チェックポイント採取部15は、ステップ
S2の処理(チェックポイント採取動作)を実行する
と、バックアッププロセス実行状態管理部18に対して
バックアッププロセス12の状態を問い合わせ、当該バ
ックアッププロセス12が実行状態にあるか否かを判定
する(ステップS3)。もし、バックアッププロセス1
2が停止状態にあるなら、チェックポイント採取部15
はそのまま動作を終了する。これに対し、バックアップ
プロセス12が実行状態にあるならば、チェックポイン
ト採取部15はバックアッププロセス実行状態制御部1
7に対して指示Fを出すことで、当該バックアッププロ
セス12を実行状態から停止状態に遷移させる(ステッ
プS4)。このバックアッププロセス12の新たな状態
(停止状態)は、バックアッププロセス実行状態制御部
17によりバックアッププロセス実行状態管理部18に
登録される。
When the checkpoint collecting unit 15 executes the processing of step S2 (checkpoint collecting operation), the checkpoint collecting unit 15 inquires of the backup process execution state management unit 18 about the state of the backup process 12, and the backup process 12 becomes the execution state. It is determined whether there is any (step S3). If backup process 1
If 2 is in a stopped state, the checkpoint collection unit 15
Ends the operation as it is. On the other hand, if the backup process 12 is in the execution state, the checkpoint collection unit 15 determines that the backup process execution state control unit 1
By issuing the instruction F to 7, the backup process 12 is transited from the running state to the stopped state (step S4). The new state (stop state) of the backup process 12 is registered in the backup process execution state management unit 18 by the backup process execution state control unit 17.

【0052】図4の例では、ckp1の後も、例えばタ
イマTMからの定期的な割り込みBのタイミングで決ま
るckp2,ckp3,ckp4の時点で、チェックポ
イントが採られる。このとき、バックアッププロセス1
2は、上記の説明から明らかなように停止状態のままで
ある。
In the example of FIG. 4, a checkpoint is taken even after ckp1 at ckp2, ckp3, and ckp4, which are determined by the timing of the periodic interrupt B from the timer TM, for example. At this time, backup process 1
No. 2 remains in a stopped state as is clear from the above description.

【0053】その後、例えばプライマリプロセス11で
の処理に伴う出力データの書き出し等のために、当該プ
ライマリプロセス11が図4に示す送信(send)処
理41を行うものとする。この送信(send)処理4
1はシステムコールであるものとする。この場合、プロ
セス発行システムコール検知部19は、上記システムコ
ール(送信処理)を検知する。するとプロセス発行シス
テムコール検知部19は、バックアッププロセス実行状
態管理部18に対してプライマリプロセス11及びバッ
クアッププロセス12の状態を問い合わせ、両プロセス
が共に生存しているか否かを判定する(ステップS2
1)。もし、プライマリプロセス11及びバックアップ
プロセス12の少なくとも一方が生存していないなら
ば、プロセス発行システムコール検知部19はそのまま
動作を終了する。
After that, for example, in order to write the output data accompanying the processing in the primary process 11, the primary process 11 performs the send processing 41 shown in FIG. This send processing 4
It is assumed that 1 is a system call. In this case, the process issuing system call detection unit 19 detects the system call (transmission process). Then, the process issuing system call detection unit 19 inquires of the backup process execution state management unit 18 about the states of the primary process 11 and the backup process 12, and determines whether both processes are alive (step S2).
1). If at least one of the primary process 11 and the backup process 12 is not alive, the process issuing system call detection unit 19 ends the operation as it is.

【0054】これに対し、プライマリプロセス11及び
バックアッププロセス12が共に生存しているならば、
プロセス発行システムコール検知部19はバックアップ
プロセス実行状態管理部18を用いてバックアッププロ
セス12が実行状態にあるか否かを判定する(ステップ
S22)。
On the other hand, if both the primary process 11 and the backup process 12 are alive,
The process issuing system call detection unit 19 uses the backup process execution state management unit 18 to determine whether the backup process 12 is in the execution state (step S22).

【0055】もし、バックアッププロセス12が実行状
態にないならば、つまりバックアッププロセス12が停
止状態にあるならば、プロセス発行システムコール検知
部19はバックアッププロセス実行状態制御部17に対
して指示Gを出して当該バックアッププロセス12を実
行状態に遷移させ、その時点を基準に、最後(最も最
近)に採ったチェックポイントから当該バックアッププ
ロセス12をリスタートさせる(ステップS23)。図
4の例では、送信(send)処理41のタイミングか
らみて、最後に採られたチェックポイントはckp4で
ある。この場合、バックアッププロセス12はチェック
ポイントckp4から処理を再開する。
If the backup process 12 is not in the execution state, that is, if the backup process 12 is in the stopped state, the process issuing system call detection unit 19 issues an instruction G to the backup process execution state control unit 17. Then, the backup process 12 is transited to the execution state, and the backup process 12 is restarted from the last (most recent) checkpoint based on that time point (step S23). In the example of FIG. 4, the last checkpoint taken in view of the timing of the transmission process 41 is ckp4. In this case, the backup process 12 restarts the process from the checkpoint ckp4.

【0056】プロセス発行システムコール検知部19
は、バックアッププロセス12が停止状態にある場合
(ステップS22のNO)には、上述のように当該バッ
クアッププロセス12を実行状態にしてリスタートさせ
た後(ステップS23)に、ステップS24に進む。ま
たプロセス発行システムコール検知部19は、バックア
ッププロセス12が既に実行状態にある場合には(ステ
ップS22のYES)、そのままステップS24に進
む。プロセス発行システムコール検知部19は、ステッ
プS24において、プライマリプロセス11とバックア
ッププロセス12とを同期させて動作を終了する。つま
りバックアッププロセス12は、リスタート後に送信
(send)処理41を行ったところで、プロセスペア
間通信部14によって同期させられる。
Process issuing system call detector 19
When the backup process 12 is in the stopped state (NO in step S22), after the backup process 12 is set to the running state and restarted as described above (step S23), the process proceeds to step S24. If the backup process 12 is already in the execution state (YES in step S22), the process issuing system call detection unit 19 proceeds directly to step S24. In step S24, the process issuing system call detecting unit 19 synchronizes the primary process 11 and the backup process 12 and ends the operation. That is, the backup process 12 is synchronized by the inter-process pair communication unit 14 when the send process 41 is performed after the restart.

【0057】次に、プライマリプロセス11を実行して
いる計算機1aに障害が発生し、当該プライマリプロセ
ス11が停止したものとする。また、この計算機1aの
障害が図4中のfault1の時点で発生したものとす
る。この計算機1aの障害はプロセスリスタート部16
により検出される。
Next, it is assumed that a failure has occurred in the computer 1a executing the primary process 11 and the primary process 11 has stopped. It is also assumed that the failure of the computer 1a has occurred at the time of fault1 in FIG. This computer 1a failure is caused by the process restart unit 16
Detected by.

【0058】プロセスリスタート部16は、計算機の障
害を検知した場合、その障害発生計算機がバックアップ
プロセス12側の計算機であるか否かを判定する(ステ
ップS11)。もし、バックアッププロセス12側の計
算機、つまり計算機1bでの障害発生の場合には、計算
機1a上のプライマリプロセス11は実行可能であるこ
とから、プロセスリスタート部16はそのまま動作を終
了する。
When a computer failure is detected, the process restart section 16 determines whether the failed computer is the backup process 12 side computer (step S11). If a failure occurs in the computer on the backup process 12 side, that is, in the computer 1b, the primary process 11 on the computer 1a can be executed, so the process restart unit 16 ends the operation as it is.

【0059】これに対し、プライマリプロセス11側の
計算機、つまり計算機1aでの障害発生の場合は、プロ
セスリスタート部16はバックアッププロセス実行状態
管理部18に対してバックアッププロセス12の状態を
問い合わせ、当該バックアッププロセス12が生存して
いて且つ停止状態にあるか否かを判定する(ステップS
12,S13)。もし、バックアッププロセス12が生
存していない場合、或いは生存していても実行状態にあ
る場合には、プロセスリスタート部16はそのまま動作
を終了する。
On the other hand, when a failure occurs in the computer on the primary process 11 side, that is, the computer 1a, the process restart unit 16 inquires of the backup process execution state management unit 18 about the state of the backup process 12, It is determined whether the backup process 12 is alive and in a stopped state (step S
12, S13). If the backup process 12 is not alive, or if it is alive and is still in the running state, the process restart unit 16 ends the operation as it is.

【0060】これに対し、バックアッププロセス12が
生存していて且つ停止状態にある場合には、プロセスリ
スタート部16はバックアッププロセス実行状態制御部
17に対して指示Hを出して当該バックアッププロセス
12を実行状態に遷移させ、その時点、つまりfaul
t1の時点を基準に、最後に採ったチェックポイント
(ここでは、図3から明らかなようにckp4)から当
該バックアッププロセス12をリスタートさせる(ステ
ップS14)。これによりバックアッププロセス12
は、図4の例では、restart1の時点であるチェ
ックポイントckp4から処理を再開する。
On the other hand, when the backup process 12 is alive and is in a stopped state, the process restart unit 16 issues an instruction H to the backup process execution state control unit 17 to cause the backup process 12 to be executed. Transition to the running state, at that time, that is, faul
Based on the time point of t1, the backup process 12 is restarted from the last check point (here, ckp4 as apparent from FIG. 3) (step S14). This allows the backup process 12
In the example of FIG. 4, the process restarts from the checkpoint ckp4, which is the time point of restart1.

【0061】一般にCADやシミュレーション等の科学
技術計算プログラムでは、最初にシステムコールの発行
を伴う入力データの読み出し等を行い、その後はシステ
ムコールを発行せずに、CPU演算を繰り返すことが多
い。そして長時間のCPU演算が終わった最後に、シス
テムコールの発行を伴う出力データの書き出し等が行わ
れる。このシステムコールの発行を伴う期間だけ、バッ
クアッププロセス12も実行状態とするならば、システ
ムコールを発行せずに、CPU演算を繰り返す期間、プ
ライマリプロセス11だけを実行させても、OSから受
けているサービスの状態を保存・復元するのに独自のO
Sを採用する必要がなく、産業界で広く利用されている
オープンシステムを利用することができる。
Generally, in science and technology calculation programs such as CAD and simulation, the input data accompanied by the issuance of a system call is first read, and then the CPU operation is often repeated without issuing the system call. Then, at the end of the CPU operation for a long time, output data is written with issuance of a system call. If the backup process 12 is also in the execution state only during the period in which the system call is issued, even if only the primary process 11 is executed for the period in which the CPU operation is repeated without issuing the system call, it is received from the OS. Unique O to save / restore the service state
It is not necessary to adopt S, and an open system widely used in industry can be used.

【0062】ここで、図1のフォールトトレラントシス
テムを、上述の科学技術計算プログラムの実行に適用す
るものとする。この場合、例えば図8に示すように、科
学技術計算プログラムの起動直後、つまりプライマリプ
ロセス11及びバックアッププロセス12から構成され
るプロセスペア13の起動直後、入力データ読み出し8
1等でシステムコールを発行する最初の期間は、プライ
マリプロセス11及びバックアッププロセス12は共に
動作して、OSからのサービス提供を受けている状態
(実行状態)となる。
Here, it is assumed that the fault tolerant system of FIG. 1 is applied to the execution of the scientific and technological calculation program described above. In this case, for example, as shown in FIG. 8, immediately after the start of the science and technology calculation program, that is, immediately after the start of the process pair 13 including the primary process 11 and the backup process 12, the input data read 8
During the first period in which a system call is issued with 1 or the like, both the primary process 11 and the backup process 12 operate and are in a state (execution state) in which the OS provides service.

【0063】その後の長時間のCPU演算の間は、最初
のチェックポイントckp1の時点以降、先のチェック
ポイント採取部15の動作から明らかなように、バック
アッププロセス12は停止状態となる。このため、長時
間のCPU演算の間、バックアッププロセス12側では
科学技術計算プログラムの実行のためにCPUリソース
を消費しない。そして最後に出力データの書き出し82
等でシステムコールを発行する間は、再びプライマリプ
ロセス11及びバックアッププロセス12が共に動作し
て、OSからのサービス提供を受けている状態になる。
During the subsequent CPU operation for a long time, the backup process 12 is in the stopped state after the time of the first checkpoint ckp1, as is apparent from the operation of the previous checkpoint sampling unit 15. For this reason, during the CPU operation for a long time, the backup process 12 does not consume the CPU resource for executing the scientific and technological calculation program. And finally write output data 82
While the system call is issued, etc., the primary process 11 and the backup process 12 operate together again and are in a state of receiving the service from the OS.

【0064】さて、本実施形態では、プロセス発行シス
テムコール検知部19がプライマリプロセス11でのシ
ステムコールの発行を検知して、最後に採ったチェック
ポイントから自動的にバックアッププロセス12を再開
させ、システムコールを処理させている。この場合、も
し最後にチェックポイントを採ってから長時間が経過し
ていると、再開後の処理に時間がかかる。
In the present embodiment, the process issuance system call detection unit 19 detects the issuance of the system call in the primary process 11 and automatically restarts the backup process 12 from the last checkpoint taken. You are processing a call. In this case, if a long time has passed since the last checkpoint was taken, the processing after the restart will take time.

【0065】そこで本実施形態では、プログラム中で明
示的にチェックポイント採取を指示し、最後にチェック
ポイントを採った後長時間が経過してから、システムコ
ールが実行されるのを防ぐようにしている。図8の例で
は、チェックポイントckp5及びckp10が、これ
に相当し、プライマリプロセス11からのシステムコー
ルによる指示Aにより、チェックポイント採取部15に
対して指定される。一方、図8中のチェックポイントc
kp1,ckp2,ckp3,ckp4及びckp7,
ckp8,ckp9は、バックアッププロセス12が停
止状態にある期間、タイマTMからの定期的な割り込み
Bによって指定される。
Therefore, in the present embodiment, checkpoint collection is explicitly instructed in the program to prevent the system call from being executed after a long time has elapsed since the last checkpoint was taken. There is. In the example of FIG. 8, checkpoints ckp5 and ckp10 correspond to this, and are designated to the checkpoint collection unit 15 by the instruction A by the system call from the primary process 11. On the other hand, check point c in FIG.
kp1, ckp2, ckp3, ckp4 and ckp7,
ckp8 and ckp9 are designated by the periodic interrupt B from the timer TM while the backup process 12 is in the stopped state.

【0066】ところで、既に説明したように、バックア
ッププロセス12が実行状態にある期間に、チェックポ
イントの採取時期が到来すると、当該バックアッププロ
セス12は停止状態となる。この状態でシステムコール
が実行されると、その時点を基準に最後に採ったチェッ
クポイントからバックアッププロセス12を再開させる
必要がある。このため、システムコールを繰り返す必要
のある期間に、チェックポイントの採取時期が到来する
のは処理効率の点で好ましくない。
By the way, as described above, when the checkpoint collection time comes while the backup process 12 is in the execution state, the backup process 12 is stopped. When a system call is executed in this state, it is necessary to restart the backup process 12 from the last checkpoint taken based on that point. Therefore, it is not preferable in terms of processing efficiency that the checkpoint collection time comes during a period in which the system call needs to be repeated.

【0067】そこで、チェックポイント採取部15がタ
イマTMからの定期的な割り込みBにより起動される期
間を、バックアッププロセス12が停止状態にある期間
に限定し、バックアッププロセス12が実行状態にある
期間における当該割り込みBは、チェックポイント採取
部15にて無視(無効扱い)される構成とするとよい。
また、プライマリプロセス11からのシステムコールに
よるチェックポイント採取の指示Aは、チェックポイン
ト採取部15にて常に有効として処理される構成とす
る。
Therefore, the period during which the checkpoint collection unit 15 is activated by the periodic interrupt B from the timer TM is limited to the period during which the backup process 12 is in the stopped state, and the period during which the backup process 12 is in the executed state is limited. The interrupt B may be ignored (treated as invalid) by the checkpoint collection unit 15.
In addition, the checkpoint sampling instruction A by the system call from the primary process 11 is always processed as valid by the checkpoint sampling unit 15.

【0068】更に、システムコールを繰り返す必要のあ
る期間の終了直後、つまりバックアッププロセス12を
実行状態に維持しておく必要がなくなる直後でも、プロ
グラム中で明示的にチェックポイント採取を指示すると
よい。このようにすると、システムコールを繰り返す必
要のある期間の終了直後にバックアッププロセス12は
停止状態となり、以降タイマTMからの定期的な割り込
みBによるチェックポイント採取の指示が可能となる。
この結果、効率よくチェックポイントを採るようにする
ことができる。図8の例では、ckp6が、システムコ
ールを繰り返す必要のある期間の終了直後となるよう
に、プログラム中で明示的に指示されたチェックポイン
トである。
Further, even immediately after the end of the period in which the system call needs to be repeated, that is, immediately after the backup process 12 does not need to be kept in the active state, it is preferable to explicitly instruct the program to take checkpoints. By doing so, the backup process 12 is stopped immediately after the end of the period in which the system call needs to be repeated, and thereafter, it becomes possible to instruct the checkpoint collection by the periodic interrupt B from the timer TM.
As a result, checkpoints can be taken efficiently. In the example of FIG. 8, ckp6 is a checkpoint explicitly designated in the program so as to be immediately after the end of the period in which the system call needs to be repeated.

【0069】また、同様に、バックアッププロセス12
を実行状態にすることを、プログラム中で明示すること
もできる。
Similarly, the backup process 12
It is also possible to explicitly state that is to be executed in the program.

【0070】このように本実施形態においては、障害発
生時における処理の継続を可能としながら、(1)CP
Uリソースを2倍使うことなく、(2)オープンシステ
ムに適用可能な、プロセスペア方式によるフォールトト
レラントシステムが実現できる。
As described above, according to the present embodiment, the processing can be continued when a failure occurs, while (1) CP
It is possible to realize a fault-tolerant system by the process pair method applicable to the open system (2) without using twice the U resource.

【0071】上記実施形態では、プロセスペア13を構
成するプライマリプロセス11及びバックアッププロセ
ス12を、それぞれ異なる計算機1a及び1b上で動作
させている。しかし、プログラム上の障害だけを考慮す
ればよいフォールトトレラントシステムでは、プライマ
リプロセス11及びバックアッププロセス12を同一計
算機上で動作させるようにしてもよい。但し、プライマ
リプロセス11及びバックアッププロセス12が動作す
る唯一の計算機自体の障害が発生した場合には、処理を
継続することはできない。
In the above embodiment, the primary process 11 and the backup process 12 which compose the process pair 13 are operated on different computers 1a and 1b, respectively. However, in a fault-tolerant system that only needs to consider a program failure, the primary process 11 and the backup process 12 may be operated on the same computer. However, if a failure occurs in only one computer on which the primary process 11 and the backup process 12 operate, the processing cannot be continued.

【0072】なお、本発明は、上記実施形態に限定され
るものではなく、実施段階ではその要旨を逸脱しない範
囲で種々に変形することが可能である。更に、上記実施
形態には種々の段階の発明が含まれており、開示される
複数の構成要件における適宜な組み合わせにより種々の
発明が抽出され得る。例えば、実施形態に示される全構
成要件から幾つかの構成要件が削除されても、発明が解
決しようとする課題の欄で述べた課題が解決でき、発明
の効果の欄で述べられている効果が得られる場合には、
この構成要件が削除された構成が発明として抽出され得
る。
The present invention is not limited to the above embodiment, and can be variously modified at the stage of implementation without departing from the spirit of the invention. Furthermore, the embodiments include inventions at various stages, and various inventions can be extracted by appropriately combining a plurality of disclosed constituent elements. For example, even if some constituent elements are deleted from all the constituent elements shown in the embodiment, the problem described in the section of the problem to be solved by the invention can be solved, and the effect described in the section of the effect of the invention can be solved. If you get
A configuration in which this component is deleted can be extracted as an invention.

【0073】[0073]

【発明の効果】以上詳述したように本発明によれば、バ
ックアッププロセスを、プログラムの起動直後の期間
と、その後当該バックアッププロセスが停止状態にある
ときにシステムコールが発行された場合に実行状態にす
る一方、チェックポイント採取時に当該バックアッププ
ロセスが実行状態にあるならば、当該バックアッププロ
セスを停止状態にするようにしたので、障害発生時にも
処理を継続することを可能としながら、CPUリソース
を2倍必要とせずに済み、しかも独自のOSを採用する
ことなくOSから受けているサービスの状態を保存・復
元できるため、オープンシステムを利用できる。
As described above in detail, according to the present invention, the backup process is executed when the system call is issued during the period immediately after the start of the program and after that when the backup process is stopped. On the other hand, if the backup process is in the execution state when the checkpoint is taken, the backup process is stopped, so that it is possible to continue the process even when a failure occurs, and the CPU resource is reduced. You don't need to do it twice, and you can save and restore the status of services received from the OS without using your own OS, so you can use an open system.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施形態に係るフォールトトレラン
トシステムの構成を示すブロック図。
FIG. 1 is a block diagram showing a configuration of a fault tolerant system according to an embodiment of the present invention.

【図2】図1中のプライマリプロセス11及びバックア
ッププロセス12から構成されるプロセスペア13と、
ライブラリ20により実現される各機能要素との関係を
示す機能ブロック構成図。
FIG. 2 is a process pair 13 including a primary process 11 and a backup process 12 in FIG.
The functional block block diagram which shows the relationship with each functional element implement | achieved by the library 20.

【図3】プライマリプロセス11及びバックアッププロ
セス12の取り得る状態を示す状態遷移図。
FIG. 3 is a state transition diagram showing possible states of a primary process 11 and a backup process 12.

【図4】同実施形態におけるプロセスペア13を構成す
るプライマリプロセス11及びバックアッププロセス1
2の全体の動作を説明するためのタイミングチャート。
FIG. 4 is a primary process 11 and a backup process 1 forming a process pair 13 in the same embodiment.
2 is a timing chart for explaining the overall operation of 2.

【図5】同実施形態におけるチェックポイント採取部1
5の動作を説明するためのフローチャート。
FIG. 5 is a checkpoint sampling unit 1 according to the same embodiment.
6 is a flowchart for explaining the operation of No. 5.

【図6】同実施形態におけるプロセスリスタート部16
の動作を説明するためのフローチャート。
FIG. 6 is a process restart unit 16 in the same embodiment.
6 is a flowchart for explaining the operation of FIG.

【図7】同実施形態におけるプロセス発行システムコー
ル検知部19の動作を説明するためのフローチャート。
FIG. 7 is a flowchart for explaining the operation of the process issuance system call detection unit 19 in the same embodiment.

【図8】同実施形態におけるプライマリプロセス11及
びバックアッププロセス12の状態とチェックポイント
採取時期との関係を説明するためのタイミングチャー
ト。
FIG. 8 is a timing chart for explaining the relationship between the states of the primary process 11 and the backup process 12 and the checkpoint collection timing in the same embodiment.

【図9】従来のプロセスペアの第1の方式を説明するた
めの図。
FIG. 9 is a diagram for explaining a first method of a conventional process pair.

【図10】従来のプロセスペアの第2の方式を説明する
ための図。
FIG. 10 is a diagram for explaining a second method of a conventional process pair.

【符号の説明】[Explanation of symbols]

1a,1b…計算機 2…ネットワーク 11…プライマリプロセス 12…バックアッププロセス 13…プロセスペア 14…プロセスペア間通信部 15…チェックポイント採取部 16…プロセスリスタート部 17…バックアッププロセス実行状態制御部 18…バックアッププロセス実行状態管理部 19…プロセス発行システムコール検知部 20…ライブラリ 1a, 1b ... Calculator 2 ... Network 11 ... Primary process 12 ... Backup process 13 ... Process pair 14 ... Process pair communication unit 15 ... Checkpoint collection section 16 ... Process restart section 17 ... Backup process execution status control unit 18 ... Backup process execution status management unit 19 ... Process issuing system call detector 20 ... Library

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 障害発生時にも処理を継続することが可
能な、プライマリプロセスとバックアッププロセスから
構成されるプロセスペアが実行されるフォールトトレラ
ントシステムにおけるプロセスペア実行制御方法であっ
て、 前記プロセスペアの起動時には前記プライマリプロセス
及び前記バックアッププロセスを共に実行状態にするス
テップと、 チェックポイント採取時期が到来する毎に、前記プライ
マリプロセスの状態を前記バックアッププロセスにコピ
ーするステップと、 チェックポイント採取時に前記バックアッププロセスが
実行状態にあるならば、当該バックアッププロセスを停
止状態にするステップと、 前記プロセスペアからシステムコールが発行された場合
に、前記バックアッププロセスが停止状態にあるなら
ば、当該バックアッププロセスを最も最近に採取された
チェックポイントから再開させて実行状態にするステッ
プとを具備することを特徴とするフォールトトレラント
システムにおけるプロセスペア実行制御方法。
1. A process pair execution control method in a fault tolerant system in which a process pair including a primary process and a backup process, which can continue processing even when a failure occurs, is provided. The step of putting both the primary process and the backup process into the running state at the time of start-up, the step of copying the state of the primary process to the backup process at each checkpoint collection time, and the backup process at the checkpoint collection If the backup process is in the stopped state, if the system call is issued from the process pair, and if the backup process is in the stopped state, the backup process is stopped. Process pair execution control method in a fault tolerant system, characterized by comprising the steps of: in the execution state is resumed from the most recently taken checkpoint to click up process.
【請求項2】 前記プライマリプロセス側での障害発生
時に、前記バックアッププロセスが停止状態にあるなら
ば、当該バックアッププロセスを最も最近に採取された
チェックポイントから再開させて実行状態にするステッ
プを更に具備することを特徴とする請求項1記載のフォ
ールトトレラントシステムにおけるプロセスペア実行制
御方法。
2. If the backup process is in a stopped state when a failure occurs on the primary process side, the method further comprises the step of restarting the backup process from the checkpoint taken most recently to put it in the running state. The process pair execution control method in a fault tolerant system according to claim 1, wherein
【請求項3】 前記バックアッププロセスを停止状態か
ら実行状態に切り換えることが必要となる直前のタイミ
ングにチェックポイント採取時期を設定するステップを
更に具備することを特徴とする請求項1記載のフォール
トトレラントシステムにおけるプロセスペア実行制御方
法。
3. The fault tolerant system according to claim 1, further comprising the step of setting a checkpoint sampling time immediately before the need to switch the backup process from the stopped state to the running state. Control method for process pair execution.
【請求項4】 前記バックアッププロセスを実行状態に
維持しておく必要がなくなる直後のタイミングにチェッ
クポイント採取時期を設定するステップを更に具備する
ことを特徴とする請求項3記載のフォールトトレラント
システムにおけるプロセスペア実行制御方法。
4. The process in a fault tolerant system according to claim 3, further comprising the step of setting a checkpoint collection timing immediately after the backup process does not need to be kept in an active state. Pair execution control method.
【請求項5】 前記バックアッププロセスを停止状態か
ら実行状態に切り換えることが必要となる直前のタイミ
ングに第1のチェックポイント採取時期を設定するステ
ップと、 前記バックアッププロセスを実行状態に維持しておく必
要がなくなる直後のタイミングに第2のチェックポイン
ト採取時期を設定するステップと、 前記第1のチェックポイント採取時期から次の前記第2
のチェックポイント採取時期のまでの期間を除く、前記
バックアッププロセスが停止状態にある期間、予め定め
られた時間間隔で第3のチェックポイント採取時期を設
定するステップとを更に具備することを特徴とする請求
項1記載のフォールトトレラントシステムにおけるプロ
セスペア実行制御方法。
5. A step of setting a first checkpoint collection time at a timing immediately before it is necessary to switch the backup process from a stopped state to an execution state, and the backup process must be kept in the execution state. A step of setting a second checkpoint sampling time immediately after the first checkpoint sampling time, and a step of setting the second checkpoint sampling time from the first checkpoint sampling time
Setting a third checkpoint collection time at a predetermined time interval during the period in which the backup process is in a stopped state except the period up to the checkpoint collection time. The process pair execution control method in the fault tolerant system according to claim 1.
【請求項6】 障害発生時にも処理を継続することが可
能な、プライマリプロセスとバックアッププロセスから
構成されるプロセスペアが実行されるフォールトトレラ
ントシステム向けのプロセスペア実行制御プログラムで
あって、 計算機に、 前記プロセスペアの起動時に前記プライマリプロセス及
び前記バックアッププロセスを共に実行状態にするステ
ップと、 チェックポイント採取時期が到来する毎に、前記プライ
マリプロセスの状態を前記バックアッププロセスにコピ
ーするステップと、 チェックポイント採取時に前記バックアッププロセスが
実行状態にあるならば、当該プライマリプロセスを停止
状態にするステップと、 前記プロセスペアからシステムコールが発行された場合
に、前記バックアッププロセスが停止状態にあるなら
ば、当該バックアッププロセスを最も最近に採取された
チェックポイントから再開させて実行状態にするステッ
プとを実行させるためのプロセスペア実行制御プログラ
ム。
6. A process pair execution control program for a fault tolerant system, which executes a process pair composed of a primary process and a backup process, capable of continuing processing even when a failure occurs, the computer comprising: When the process pair is started, both the primary process and the backup process are set to the running state, the state of the primary process is copied to the backup process at each checkpoint collection time, and the checkpoint collection is performed. Sometimes if the backup process is in the running state, the step of bringing the primary process into the stopped state, and if the backup process is in the stopped state when a system call is issued from the process pair. Process Pair execution control program for executing a step of the execution state by resuming the backup process from the most recently taken checkpoint.
【請求項7】 障害発生時にも処理を継続することが可
能な、プライマリプロセスとバックアッププロセスから
構成されるプロセスペアを実行するフォールトトレラン
トシステムにおいて、 前記プロセスペアと他のプロセスペアとの間の通信を行
うプロセスペア間通信手段と、 前記バックアッププロセスの実行状態を制御するバック
アッププロセス実行状態制御手段であって、前記プロセ
スペアの起動時には前記プライマリプロセス及び前記バ
ックアッププロセスを共に実行状態にするバックアップ
プロセス実行状態制御手段と、 チェックポイント採取時期が到来する毎に、前記プライ
マリプロセスの状態を前記バックアッププロセスにコピ
ーすることでチェックポイントを採取するチェックポイ
ント採取手段であって、チェックポイント採取時に前記
バックアッププロセスが実行状態にあるならば、当該バ
ックアッププロセスを前記バックアッププロセス実行状
態制御手段により停止状態にさせるチェックポイント採
取手段と、 前記プロセスペアの発行するシステムコールを検知する
プロセス発行システムコール検知手段であって、前記シ
ステムコールを検知した場合、前記バックアッププロセ
スが停止状態にあるならば、当該バックアッププロセス
を最も最近に採取されたチェックポイントから前記バッ
クアッププロセス実行状態制御手段により再開させて実
行状態にさせるプロセス発行システムコール検知手段と
を具備することを特徴とするフォールトトレラントシス
テム。
7. A fault-tolerant system that executes a process pair consisting of a primary process and a backup process, which can continue processing even when a failure occurs, in a communication between the process pair and another process pair. And a backup process execution state control unit for controlling the execution state of the backup process, which executes both the primary process and the backup process when the process pair is activated. State control means and checkpoint collection means for collecting checkpoints by copying the state of the primary process to the backup process each time the checkpoint collection time comes. If the backup process is in the execution state at the time of taking, checkpoint collection means for bringing the backup process into the stopped state by the backup process execution state control means, and a process issuing system call for detecting a system call issued by the process pair When the system call is detected, if the backup process is in a stopped state, the backup process is restarted from the checkpoint most recently taken by the backup process execution state control unit and executed. A fault tolerant system, comprising: a process issuing system call detecting means for bringing the system into a state.
【請求項8】 前記プライマリプロセス側での障害発生
時に、前記バックアッププロセスが停止状態にあるなら
ば、当該バックアッププロセスを最も最近に採取された
チェックポイントから前記バックアッププロセス実行状
態制御手段により再開させて実行状態にするプロセスリ
スタート手段を更に具備することを特徴とする請求項7
記載のフォールトトレラントシステム。
8. If the backup process is in a stopped state at the time of occurrence of a failure on the primary process side, the backup process execution state control means restarts the backup process from the checkpoint most recently taken. 8. The method according to claim 7, further comprising a process restart means for bringing the process into an execution state.
The described fault tolerant system.
【請求項9】 前記バックアッププロセスの実行状態を
管理するバックアッププロセス実行状態管理手段を更に
具備し、 前記チェックポイント採取手段、前記プロセス発行シス
テムコール検知手段及び前記プロセスリスタート手段
は、前記バックアッププロセスの状態を前記バックアッ
ププロセス実行状態管理手段に問い合わせることで判別
することを特徴とする請求項8記載のフォールトトレラ
ントシステム。
9. A backup process execution state management unit for managing the execution state of the backup process, wherein the checkpoint collection unit, the process issuing system call detection unit and the process restart unit are included in the backup process. 9. The fault tolerant system according to claim 8, wherein the state is determined by inquiring the backup process execution state management means.
JP2002084321A 2002-03-25 2002-03-25 Process pair execution control method, process pair execution control program, and fault tolerant system in fault tolerant system Expired - Fee Related JP3708891B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002084321A JP3708891B2 (en) 2002-03-25 2002-03-25 Process pair execution control method, process pair execution control program, and fault tolerant system in fault tolerant system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002084321A JP3708891B2 (en) 2002-03-25 2002-03-25 Process pair execution control method, process pair execution control program, and fault tolerant system in fault tolerant system

Publications (2)

Publication Number Publication Date
JP2003280939A true JP2003280939A (en) 2003-10-03
JP3708891B2 JP3708891B2 (en) 2005-10-19

Family

ID=29231731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002084321A Expired - Fee Related JP3708891B2 (en) 2002-03-25 2002-03-25 Process pair execution control method, process pair execution control program, and fault tolerant system in fault tolerant system

Country Status (1)

Country Link
JP (1) JP3708891B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101237746B1 (en) 2010-10-22 2013-02-28 매크로임팩트 주식회사 Data backup apparatus and method for the same
JP5516411B2 (en) * 2008-10-29 2014-06-11 日本電気株式会社 Information processing system
CN112860491A (en) * 2021-03-17 2021-05-28 深圳市腾讯信息技术有限公司 Data cold standby system and method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5516411B2 (en) * 2008-10-29 2014-06-11 日本電気株式会社 Information processing system
KR101237746B1 (en) 2010-10-22 2013-02-28 매크로임팩트 주식회사 Data backup apparatus and method for the same
CN112860491A (en) * 2021-03-17 2021-05-28 深圳市腾讯信息技术有限公司 Data cold standby system and method
CN112860491B (en) * 2021-03-17 2023-05-02 深圳市腾讯信息技术有限公司 Data cold standby system and method

Also Published As

Publication number Publication date
JP3708891B2 (en) 2005-10-19

Similar Documents

Publication Publication Date Title
Scales et al. The design of a practical system for fault-tolerant virtual machines
US8904361B2 (en) Non-intrusive method for logging of internal events within an application process, and system implementing this method
US8214686B2 (en) Distributed processing method
US9335998B2 (en) Multi-core processor system, monitoring control method, and computer product
KR101835458B1 (en) Method, system and computer-readable storage medium for restarting data processing systems
US7516361B2 (en) Method for automatic checkpoint of system and application software
US8539434B2 (en) Method for the management, logging or replay of the execution of an application process
Wang et al. Modeling coordinated checkpointing for large-scale supercomputers
JP2011060055A (en) Virtual computer system, recovery processing method and of virtual machine, and program therefor
US7568131B2 (en) Non-intrusive method for logging external events related to an application process, and a system implementing said method
JP2012221321A (en) Fault tolerant computer system, control method for fault tolerant computer system and control program for fault tolerant computer system
WO2006077247A1 (en) Predictive method for managing, logging or replaying non-deterministic operations within the execution of an application process
US7840940B2 (en) Semantic management method for logging or replaying non-deterministic operations within the execution of an application process
CN106354563B (en) Distributed computing system for 3D reconstruction and 3D reconstruction method
WO2015102875A1 (en) Checkpointing systems and methods of using data forwarding
GB2520808A (en) Process control systems and methods
EP2524302B1 (en) Persistent application activation and timer notifications
US7536587B2 (en) Method for the acceleration of the transmission of logging data in a multi-computer environment and system using this method
JP2010224847A (en) Computer system and setting management method
WO2023185802A1 (en) Data processing method and apparatus
JP4560074B2 (en) Virtual computer system and virtual computer restoration method in the same system
JP4009192B2 (en) Efficient timer management system
JP2003280939A (en) Process pair execution control method and process pair execution control program in fault tolerant system, and fault tolerant system
CN111290767A (en) Container group updating method and system with service quick recovery function
Meth et al. Parallel checkpoint/restart without message logging

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050412

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050804

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090812

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100812

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100812

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110812

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120812

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120812

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130812

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees