JP2000194624A - Computer system and communication recovery system - Google Patents

Computer system and communication recovery system

Info

Publication number
JP2000194624A
JP2000194624A JP10370288A JP37028898A JP2000194624A JP 2000194624 A JP2000194624 A JP 2000194624A JP 10370288 A JP10370288 A JP 10370288A JP 37028898 A JP37028898 A JP 37028898A JP 2000194624 A JP2000194624 A JP 2000194624A
Authority
JP
Japan
Prior art keywords
data
communication
transmission
checkpoint
recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10370288A
Other languages
Japanese (ja)
Inventor
Koji Takemura
功司 武村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP10370288A priority Critical patent/JP2000194624A/en
Publication of JP2000194624A publication Critical patent/JP2000194624A/en
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a computer system which can keep the consistency of communication data with another computer system without degrading the communication capability of a system that is kept in a normal processing state. SOLUTION: In a normal processing mode, the transmission/reception data are stored in a communication history recording area 121 via a transmission information store part 104 and a reception information store part 105. In a rollback mode, a transmission history comparison part 109 checks the occurrence state of communication based on the stored transmission/reception data and a reception information reproduction part 108 executes the transmission of data in the same procedure as that executed before occurrence of a failure while generating pseudo-reception of the data. If no change is recognized in the contents or procedure of the transmission data before and after the rollback, it is decided that the consistency of data is kept and the recovery of communication is over. Thus, the normal processing is executed. If the change is recognized in the contents or procedure of the transmission data, it is decided that the consistency of data is not kept and the recovery of communication is not over yet. Thus, a system is restarted or the communication is cut.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、チェックポイン
ト・ロールバック方式による故障回復機能を有する計算
機システムおよび同システムの通信回復方法に関する。
[0001] 1. Field of the Invention [0002] The present invention relates to a computer system having a failure recovery function based on a checkpoint rollback method and a communication recovery method of the system.

【0002】[0002]

【従来の技術】近年、計算機システムに求められる信頼
性の要求が高度化しており、故障が発生したときに、以
前に採取したチェックポイントの状態にシステムの状態
を再生した上で処理を再開することにより、システムダ
ウンにいたる頻度を低下させるチェックポイント・ロー
ルバック方式による故障回復機能を備えた計算機システ
ムが普及し始めている。このチェックポイント・ロール
バック方式による故障回復機能を備えた計算機システム
の一例を図6に示す。
2. Description of the Related Art In recent years, the demand for reliability required for a computer system has become more sophisticated. When a failure occurs, processing is resumed after reproducing the state of the system to a previously collected checkpoint state. As a result, computer systems having a failure recovery function based on a checkpoint / rollback method for reducing the frequency of system downtime have begun to spread. FIG. 6 shows an example of a computer system having a failure recovery function based on this checkpoint / rollback method.

【0003】図6に示すように、このチェックポイント
・ロールバック方式による故障回復機能を備えた計算機
システムは、CPU900、主記憶装置920、2次記
憶装置930、ネットワークカード940およびシステ
ムバス950などの計算機システムに基本的なコンポー
ネントのほか、チェックポイント時のシステムの状態を
格納する状態保存用メモリ910を具備している。ま
た、CPU900は、チェックポント時におけるシステ
ムの状態を収集して状態保存用メモリ910に格納する
チェックポイント採取部901と、故障が発生したとき
に状態保存用メモリ910からチェックポイント時のシ
ステムの状態を取り出し、それをもとにシステムを再設
定することによりロールバックを実現するロールバック
実行部902とを実行制御する。このチェックポイント
採取部901が収集するシステムの状態とは、CPU9
00のレジスタの値や、主記憶装置920上のデータお
よびI/O装置のメモリの内容などである。
As shown in FIG. 6, a computer system having a failure recovery function based on the checkpoint / rollback method includes a CPU 900, a main storage device 920, a secondary storage device 930, a network card 940, a system bus 950, and the like. The computer system is provided with a state storage memory 910 for storing the state of the system at the time of a checkpoint, in addition to the basic components. The CPU 900 collects a system state at the time of a checkpoint and stores the system state in the state storage memory 910. The CPU 900 also stores the system state at the checkpoint from the state storage memory 910 when a failure occurs. And executes a rollback execution unit 902 that implements rollback by resetting the system based on the extracted information. The state of the system collected by the checkpoint collection unit 901 indicates that the CPU 9
00, the data in the main storage device 920 and the contents of the memory of the I / O device.

【0004】[0004]

【発明が解決しようとする課題】ところで、この計算機
システムがネットワークを介して他の計算機システムと
通信している場合に、故障が発生してロールバックが行
なわれると、計算機システム上の応用プロセスは過去の
状態へ戻るため、その戻された時点から故障時点までの
通信を忘れてしまう。その後、矛盾なく通信を進めるた
めには、何らかの形で通話相手の応用プロセスとの間で
通信データの一貫性を保たなければならない。
By the way, when this computer system is communicating with another computer system via a network and a failure occurs and rollback is performed, the application process on the computer system is In order to return to the past state, the communication from the point of return to the point of failure is forgotten. Thereafter, in order to proceed with communication without contradiction, it is necessary to maintain consistency of communication data with the application process of the other party in some way.

【0005】従来より、同一計算機システム内の複数の
プロセス間の通信については、通信内容の一貫性を保ち
つつロールバックを行なう方法が種々提案されている
が、それらの方法では、通信を行なうすべてのプロセス
が、チェックポイントに戻れるということを前提として
いる。したがって、このプロセス間の通信を計算機シス
テム間の通信に置き換えた場合には、この方法を利用す
ることはできない。計算機システムがロールバックでき
たとしても、通信相手の計算機システムがロールバック
できるとは限らないからである。
Conventionally, for communication between a plurality of processes in the same computer system, various methods have been proposed for performing rollback while maintaining the consistency of the communication contents. It is assumed that the process can return to the checkpoint. Therefore, if the communication between the processes is replaced with the communication between the computer systems, this method cannot be used. This is because even if the computer system can be rolled back, the computer system of the communication partner cannot always be rolled back.

【0006】したがって、このような条件下でもロール
バック後に通信データの一貫性を保つためには、データ
の送信を次のチェックポイントが採取されるまで遅延さ
せ、チェックポイントの採取後に一括して発行すること
が好ましい。
[0006] Therefore, in order to maintain the consistency of communication data after rollback even under such conditions, data transmission is delayed until the next checkpoint is collected, and is issued collectively after the checkpoint is collected. Is preferred.

【0007】これにより、チェックポイントまでシステ
ムの状態が戻ったとき、故障発生前に行なったデータ送
信を故障後に失うことはなくなる。すなわち、通信相手
との間で通信データの一貫性が保証できることになる。
[0007] Thus, when the state of the system returns to the checkpoint, data transmission performed before the occurrence of the failure is not lost after the failure. That is, it is possible to guarantee the consistency of the communication data with the communication partner.

【0008】しかしながら、その反面、データの送信を
チェックポイントが採取されるまで遅延させることによ
り、通常処理中の計算機システムの通信能力を著しく低
下させてしまうといった問題があった。
However, on the other hand, there is a problem in that the transmission of data is delayed until a checkpoint is taken, thereby significantly reducing the communication capability of the computer system during normal processing.

【0009】この発明はこのような実情に鑑みてなされ
たものであり、通常処理中のシステムの通信能力を低下
させることなく、他の計算機システムとの間の通信デー
タの一貫性を保つことを可能とする計算機システムおよ
び通信回復方法を提供することを目的とする。
The present invention has been made in view of such circumstances, and has been made to maintain the consistency of communication data with another computer system without lowering the communication performance of a system during normal processing. It is an object of the present invention to provide a computer system and a communication recovery method that can be used.

【0010】[0010]

【課題を解決するための手段】この発明は、前述した目
的を達成するために、通常処理時、ネットワークに送信
した送信データとネットワークから受信した受信データ
とを保存しておき、ロールバックが行なわれた際、ま
ず、チェックポイントの採取を禁止して2次記憶装置へ
のデータの書き込みを抑止し、保存しておいた送受信デ
ータを用いて通信の発生状況を調べ、データ受信を疑似
的に発生させながらデータ送信を故障前と同様に進める
ことにより、通信の状態を故障時まで移行させるように
したものである。そして、故障時まで移行させることが
できた場合、すなわち、ロールバック前後で送信データ
の内容や順序に変化が無い場合に、データの一貫性が保
たれていると判断して通信回復が完了したとみなし、チ
ェックポイントの採取を許可して通常処理を再開させる
ようにしたものである。
According to the present invention, in order to achieve the above-mentioned object, during normal processing, transmission data transmitted to a network and reception data received from the network are stored, and rollback is performed. First, checkpoint collection is prohibited, data writing to the secondary storage device is suppressed, and the occurrence of communication is checked using the stored transmission / reception data, and data reception is simulated. The data transmission proceeds as before the failure while the communication is being generated, so that the communication state is shifted to the time of the failure. Then, when the data can be shifted to the time of the failure, that is, when there is no change in the content and order of the transmission data before and after the rollback, it is determined that the data consistency is maintained, and the communication recovery is completed. Thus, the collection of checkpoints is permitted and normal processing is resumed.

【0011】一方、故障時まで移行させることができな
かった場合、すなわち、ロールバック前後で送信データ
の内容や順序に変化があった場合には、データの一貫性
が保たれていないと判断して通信回復が完了しなかった
とみなし、システムの再起動または通信の切断を実行す
ることにより、一貫性を損なった状態で通信処理が進ん
でしまうことを防止するようにしたものである。
On the other hand, if the data cannot be shifted to the time of failure, that is, if the contents or order of the transmission data changes before and after the rollback, it is determined that data consistency is not maintained. In this case, it is assumed that the communication recovery is not completed, and the system is restarted or the communication is cut off to prevent the communication processing from proceeding in a state where the consistency is lost.

【0012】この発明によれば、通常処理時において、
データのネットワークへの送信を次のチェックポイント
が採取されるまで遅延させる必要がなくなるため、シス
テムの通信能力を低下させることなく、他の計算機シス
テムとの間の通信データの一貫性を保つことが可能とな
る。
According to the present invention, during normal processing,
Since the transmission of data to the network does not need to be delayed until the next checkpoint is taken, it is possible to maintain the consistency of communication data with other computer systems without reducing the communication capacity of the system. It becomes possible.

【0013】[0013]

【発明の実施の形態】以下、図面を参照してこの発明の
一実施形態を説明する。
An embodiment of the present invention will be described below with reference to the drawings.

【0014】まず、図1を参照してこの発明の通信回復
手法の原理を説明する。図1(a)は、故障発生前の応
用プロセスA〜Bの通信の様子を示す図である。
First, the principle of the communication recovery method of the present invention will be described with reference to FIG. FIG. 1A is a diagram illustrating a state of communication of the application processes A and B before a failure occurs.

【0015】ここで、応用プロセスAは、チェックポイ
ント・ロールバック方式による故障回復機能を備えた計
算機システム上に存在し、この計算機システムが、この
発明の通信回復手法を適用するものとする。一方、応用
プロセスBは、通常の計算機システム上に存在している
ものとする。
Here, the application process A exists on a computer system having a failure recovery function by a checkpoint / rollback method, and this computer system applies the communication recovery method of the present invention. On the other hand, it is assumed that the application process B exists on a normal computer system.

【0016】まず、応用プロセスAの存在する計算機シ
ステムが、チェックポイントを採取した後に、応用プロ
セスAがデータaを送信し、それを受け取った応用プロ
セスBからデータbが返送されてきたとする、そして、
このデータbを受け取った応用プロセスAは、さらにデ
ータcを送信し、その後、故障が発生したとする。
First, it is assumed that after the computer system in which the application process A exists takes a checkpoint, the application process A transmits data a, and the data b is returned from the application process B which receives the data a. ,
It is assumed that the application process A having received the data b further transmits the data c, and thereafter, a failure has occurred.

【0017】図1(b)は、この発明の通信回復手法に
おける通信回復の成功例を示す図である。
FIG. 1B shows an example of successful communication recovery in the communication recovery method of the present invention.

【0018】応用プロセスAが存在する計算機システム
がロールバックを行なった後、応用プロセスAは、故障
前と同様に、データaを送信する。次に、計算機システ
ム内部でデータbの受信を再生する(データbの受信を
疑似的に発生させる)。これにより、応用プロセスA
は、データcを送信する。応用プロセスAの状態は、ロ
ールバックにより一旦過去に戻ったが、データcを送信
する状態まで移行したので、この後、故障前と同様に応
用プロセスBとの通信が継続可能となる。この段階で、
この発明の通信回復手法では、通信の回復が成功したと
判断する。
After the computer system in which the application process A exists performs the rollback, the application process A transmits the data a in the same manner as before the failure. Next, the reception of the data b is reproduced in the computer system (the reception of the data b is generated in a pseudo manner). Thus, the application process A
Transmits data c. The state of the application process A once returned to the past due to the rollback, but has shifted to the state of transmitting the data c. Thereafter, the communication with the application process B can be continued as before the failure. At this stage,
According to the communication recovery method of the present invention, it is determined that the communication has been successfully recovered.

【0019】一方、図1(c)は、この発明の通信回復
手法における通信回復の失敗例を示す図である。
On the other hand, FIG. 1C is a diagram showing an example of a communication recovery failure in the communication recovery method of the present invention.

【0020】図1(c)では、計算機システム内部でデ
ータbの受信を再生した後、何らかの原因(多くは処理
順序やリソースの割り当て順序の違い)により応用プロ
セスAの処理が故障前と変わってしまい、データdを送
信している。この場合、この発明の通信回復手法では、
通信の回復が失敗したものとする。
In FIG. 1C, after the reception of the data b is reproduced in the computer system, the processing of the application process A is different from that before the failure due to some cause (often a difference in the processing order or the resource allocation order). That is, the data d is transmitted. In this case, in the communication recovery method of the present invention,
Assume that communication recovery has failed.

【0021】すなわち、この発明の通信回復手法は、ロ
ールバック前後で同様な通信が起こる場合が多いという
観測に基づき、同様な通信が起こった場合は通信の回復
は成功したものとし、一方、異なる通信が起こった場合
には通信の回復は失敗したものとすることにより、通常
処理時、データのネットワークへの送信を次のチェック
ポイントの採取後まで遅延させることを不要とするもの
である。ここで、例えば、ある応用プロセスが、通信相
手に対して何らかのファイルの内容を送っているときに
故障が発生した場合を考える。
In other words, the communication recovery method of the present invention is based on the observation that similar communication often occurs before and after rollback, and based on the observation that similar communication occurs, it is determined that communication recovery has succeeded. When the communication occurs, the recovery of the communication is determined to have failed, thereby making it unnecessary to delay the transmission of the data to the network during the normal processing until after the next checkpoint is collected. Here, for example, consider a case where a failure occurs while a certain application process is sending some file contents to a communication partner.

【0022】送信側の応用プロセスは、ファイルの内容
をいくつかのブロックに分割し、先頭のブロックから順
に送信データとしてネットワークへ送り、一方、受信側
の応用プロセスは、受け取ったブロックを結合してファ
イルを構成するものとする。また、この受信側の応用プ
ロセスは、ブロックを受け取るごとに応答は返送しない
ものとする。そして、送信側の応用プロセスがファイル
の内容を送信し始める前にチェックポイントが採取さ
れ、ファイルの内容を半分まで送った後に故障が起きた
ものとする。
The application process on the transmitting side divides the contents of the file into several blocks and sends the data to the network as transmission data in order from the first block, while the application process on the receiving side combines the received blocks and combines them. Make up the file. The application process on the receiving side does not return a response every time a block is received. Then, it is assumed that a checkpoint is taken before the application process on the transmission side starts transmitting the contents of the file, and a failure occurs after transmitting the contents of the file to half.

【0023】この場合、故障発生後のロールバックによ
り、送信側の応用プロセスは、ファイルの内容を送信す
る前に戻る。すると、この送信側の応用プロセスは、リ
ソース不足などの条件がなければ、ファイルの内容を故
障前と同じように最初のブロックから送り始め、続い
て、次のブロック、さらに、その次のブロックとブロッ
クを送り続ける。このような場合は、ロールバック前後
で通信の内容は変わらない。すなわち、通信回復は成功
したものとして、何ら問題なく通常処理に移行すること
ができる。
In this case, due to the rollback after the occurrence of the failure, the application process on the transmitting side returns before transmitting the contents of the file. Then, if there is no condition such as resource shortage, the sending application process starts sending the contents of the file from the first block in the same way as before the failure, then the next block, and then the next block. Keep sending blocks. In such a case, the contents of the communication do not change before and after the rollback. That is, it can be determined that the communication recovery has succeeded and the process can proceed to the normal processing without any problem.

【0024】しかしながら、通信の内容が変化する場合
もある。代表的な例は、受信側の応用プロセスが、受け
取ったデータに対する確認応答を返送する場合である。
However, the contents of the communication may change. A typical example is a case where an application process on the receiving side returns an acknowledgment for the received data.

【0025】例えば、上記の例で、送信側の応用プロセ
スAは、ブロックを送信した後、受信側の応用プロセス
Bからの確認応答を待つものとし、一方、受信側の応用
プロセスBは、ブロックを受け取った後、確認応答を返
送するものとする。
For example, in the above example, it is assumed that the application process A on the transmission side waits for an acknowledgment from the application process B on the reception side after transmitting the block, while the application process B on the reception side transmits the block. After receiving the acknowledgment, an acknowledgment is returned.

【0026】この場合、ロールバック後、送信側の応用
プロセスAは、先頭ブロックを送信した後に確認応答を
待つが、受信側の応用プロセスBは、ロールバック前に
すでにブロックを受け取って確認応答を返送しているの
で、再度の確認応答の返送は行なわない。したがって、
このままでは、送信側の応用プロセスAは、受信側の応
用プロセスからの確認応答を待ち続けてしまう。
In this case, after the rollback, the application process A on the transmission side waits for an acknowledgment after transmitting the first block, but the application process B on the reception side has already received the block before the rollback and received an acknowledgment. Since it has been returned, the acknowledgment is not returned again. Therefore,
In this state, the application process A on the transmission side continues to wait for an acknowledgment from the application process on the reception side.

【0027】そこで、この発明の通信回復手法では、記
録しておいた故障前の応答(受信データ)を再生し、あ
たかもその時点で受信したかのように応用プロセスに引
き渡すことによって対処する。
Therefore, the communication recovery method of the present invention copes with the problem by reproducing the recorded response (received data) before the failure and transferring it to the application process as if it had been received at that time.

【0028】このように、送受信パケットを監視し、故
障前の受信データを疑似的に受信させれば、応用プロセ
スに故障前の動作をさせることができ、以降のデータ送
信を実行させることが可能になる。
As described above, if the transmission / reception packet is monitored and the received data before the failure is pseudo-received, the application process can be operated before the failure and the subsequent data transmission can be executed. become.

【0029】なお、この発明の通信回復手法では、ロー
ルバック後に発生した送信データがロールバック前にも
発生していたものであれば、ネットワークへ送信する。
これは、ロールバック前に送信データを記録したが、実
際には届かなかった場合にロールバック後に届けるため
の処理である。これにより、通信相手は同じデータを2
度受け取ることになるが、ほとんどの場合、通信の信頼
性を保つため、通信相手の応用プロセスや通信プロトコ
ルが、重複したデータを破棄するようになっているので
問題はない。
According to the communication recovery method of the present invention, if the transmission data generated after the rollback has also occurred before the rollback, the data is transmitted to the network.
This is a process for recording the transmission data before the rollback, but for transmitting the transmission data after the rollback when the transmission data has not actually arrived. This allows the communication partner to send the same data to 2
In most cases, there is no problem because the application process or communication protocol of the communication partner discards duplicate data in order to maintain communication reliability.

【0030】ところで、ロールバック前後で同様な通信
が起こった場合は、通信を行なっていた応用プログラム
や通信プロトコルは故障前の動作を繰り返したと考えら
れ、その状態は、ほぼ故障発生時点まで戻っていると考
えられる。したがって、前述したように通信を継続する
ことができる。
If similar communication occurs before and after the rollback, it is considered that the application program or communication protocol that was performing the communication repeated the operation before the failure, and the state almost returned to the time of the occurrence of the failure. It is thought that there is. Therefore, communication can be continued as described above.

【0031】一方、ロールバック前後で同様な通信が起
こらなかった場合は、計算機システムの応用プログラム
や通信プロトコルの状態は、故障発生時点の状態には至
らないと考えられる。このままの状態で通信相手の応用
プログラムと通信すると、互いのデータの不一致などが
起こり、通信できないか、間違った処理を起こす。上記
の例で、例えば、ロールバック後にリソースが足りず
に、ブロックが送信できなくなった場合には、それ以後
のブロックは送信されず、故障前の通信は再現されな
い。その場合、受信側の応用プロセスはファイルの半分
から先のブロックを要求するが、送信元の応用プロセス
はファイルの半分までブロックを送っていないと認識す
るといった事態が起こってしまう。
On the other hand, when the same communication does not occur before and after the rollback, it is considered that the state of the application program and the communication protocol of the computer system does not reach the state at the time of occurrence of the failure. If communication is performed with the application program of the communication partner in this state, mutual data mismatch will occur, and communication will not be possible or wrong processing will occur. In the above example, for example, if a block cannot be transmitted due to insufficient resources after rollback, subsequent blocks are not transmitted, and communication before the failure is not reproduced. In this case, the receiving application process requests a block ahead of half of the file, but the source application process recognizes that it has not sent blocks of half the file.

【0032】このような場合には、故障が回復されて
も、通信の回復はできないので、この発明の通信回復手
法では、システムを再起動するか、または、通信を切断
するなどの処理を実行する。
In such a case, even if the failure is recovered, communication cannot be recovered. Therefore, in the communication recovery method of the present invention, processing such as restarting the system or disconnecting communication is executed. I do.

【0033】また、通信回復が完了せずに計算機システ
ムを再起動した場合、ロールバック後に行なった処理の
影響を残してはいけない。通常の計算機システムのよう
に故障した時点の状態で再起動すべきである。さもなけ
れば、再起動後に外界に送ったデータと一致しない不自
然なデータが内部に存在することになる。さらに、再起
動により、ロールバック後の処理の影響はメモリには残
らないが、2次記憶装置の内部には残る可能性がある。
そこで、この発明の通信回復手法では、ロールバック後
から通信回復が完了するまで、チェックポイントの採取
を禁止し、その間に発生する2次記憶装置への書き込み
を禁止する。
When the computer system is restarted without completing the communication recovery, the effect of the processing performed after the rollback must not be left. It should be restarted in the state at the time of failure like a normal computer system. Otherwise, unnatural data that does not match the data sent to the outside world after the restart will be present inside. Furthermore, due to the restart, the effect of the processing after the rollback does not remain in the memory, but may remain inside the secondary storage device.
Therefore, according to the communication recovery method of the present invention, the collection of checkpoints is prohibited from the rollback until the communication recovery is completed, and the writing to the secondary storage device that occurs during that time is prohibited.

【0034】図2に、この実施形態に係る計算機システ
ムの構成を示す。
FIG. 2 shows the configuration of a computer system according to this embodiment.

【0035】図2に示す計算機システム10は、チェッ
クポイント・ロールバック方式による故障回復機能を備
えた計算機システムである。
The computer system 10 shown in FIG. 2 is a computer system having a failure recovery function based on a checkpoint / rollback method.

【0036】計算機システム10には、既存の計算機シ
ステム同様、CPU100、主記憶装置140、2次記
憶装置150および通信を行なうためのハードウエアで
あるネットワークカード130,160が接続されてい
る。
As in the existing computer system, a CPU 100, a main storage device 140, a secondary storage device 150, and network cards 130 and 160 as hardware for communication are connected to the computer system 10.

【0037】ネットワークカード130は、通信媒体2
1と接続されており、一方、ネットワークカード160
は、通信媒体31と接続されている。そして、通信媒体
21には計算機システム20、通信媒体31には計算機
システム30がそれぞれ接続されている。この計算機シ
ステム20,30は、チェックポイント・ロールバック
方式による故障回復機能を備えていない。
The network card 130 is a communication medium 2
1 while the network card 160
Are connected to the communication medium 31. The computer system 20 is connected to the communication medium 21, and the computer system 30 is connected to the communication medium 31. The computer systems 20 and 30 do not have a failure recovery function based on the checkpoint rollback method.

【0038】そして、この計算機システム10には、チ
ェックポイント時のシステムの状態を保存するための状
態保存用メモリ120が接続されている。
The computer system 10 is connected to a state storage memory 120 for storing the state of the system at the time of the checkpoint.

【0039】また、この計算機システム10には、ソフ
トウェアとして、オペレーティングシステム114が格
納されている。オペレーティングシステム114は、通
信プロトコルやネットワークカード130,160を駆
動するデバイスドライバを備え、応用プロセスに対して
通信プロトコルを利用した通信手段を提供する。計算機
システム10の応用プロセスは、計算機システム20,
30の応用プロセスと通信を行なう。
The computer system 10 stores an operating system 114 as software. The operating system 114 includes a communication protocol and a device driver for driving the network cards 130 and 160, and provides a communication unit using the communication protocol to an application process. The application process of the computer system 10 is as follows.
It communicates with 30 application processes.

【0040】また、この計算機システム10には、ソフ
トウェアとして、チェックポイントごとにシステムの状
態を状態保存用メモリ120に格納するチェックポイン
ト採取部101、故障発生後に状態保存用メモリ120
からチェックポイントのシステムの状態を獲得してシス
テムに再設定するロールバック実行部102、2次記憶
装置150へのデータの書き込みをチェックポイントの
採取後まで遅延させる書き込み遅延部103が格納され
ている。チェックポイント採取部101は、外部からチ
ェックポイントの採取を禁止する要求を受けると、許可
の要求を受けるまでその実行を停止する。
The computer system 10 includes, as software, a checkpoint collection unit 101 for storing a system state in the state storage memory 120 for each checkpoint, and a state storage memory 120 after a failure occurs.
A rollback execution unit 102 that acquires the state of the system at the checkpoint and resets the system, and a write delay unit 103 that delays writing of data to the secondary storage device 150 until after the checkpoint is collected. . When receiving a request to prohibit collection of checkpoints from outside, the checkpoint collection unit 101 stops its execution until a request for permission is received.

【0041】この実施形態では、状態保存用メモリ12
0に保存するシステムの状態は1つであり、ロールバッ
ク実行部102は、1つ前のチェックポイントの状態に
システムを戻す。
In this embodiment, the state storage memory 12
The number of system states to be stored in 0 is one, and the rollback execution unit 102 returns the system to the state of the previous checkpoint.

【0042】また、この計算機システム10には、この
発明固有の送信情報保存部104、受信情報保存部10
5、通信監視開始部106、通信監視終了部107、受
信情報再生部108、送信履歴比較部109、通信回復
完了部110および再起動部111がソフトウェアとし
て格納されている。さらに、受信情報再生部108を呼
び出すためのタイマ112,113がハードウェアまた
はソフトウェアとして備えられている。このタイマは、
計算機システムにある通信媒体の数だけ設けられるもの
であり、この例では、通信媒体21,31からの受信デ
ータを再生するために、それぞれタイマ112,113
を用いる。
The computer system 10 includes a transmission information storage unit 104 and a reception information storage unit 10 unique to the present invention.
5, a communication monitoring start unit 106, a communication monitoring end unit 107, a reception information reproduction unit 108, a transmission history comparison unit 109, a communication recovery completion unit 110, and a restart unit 111 are stored as software. Further, timers 112 and 113 for calling the reception information reproducing unit 108 are provided as hardware or software. This timer is
As many as the number of communication media in the computer system are provided. In this example, timers 112 and 113 are used to reproduce data received from communication media 21 and 31, respectively.
Is used.

【0043】次に、この計算機システム10の処理の流
れについて説明する。
Next, the processing flow of the computer system 10 will be described.

【0044】計算機システム10では、通常の動作中
に、定期的にチェックポイント採取部101が、システ
ムの状態、例えばCPU100のレジスタの内容などを
集めて状態保存用メモリ120に記録する。
In the computer system 10, during normal operation, the checkpoint collection unit 101 periodically collects the state of the system, for example, the contents of the register of the CPU 100 and records it in the state storage memory 120.

【0045】通常処理中に、通信媒体21または31へ
データが送信された時には、送信情報保存部104が、
送信先の通信媒体21または31ごとに送信データに関
する情報を発生順に通信履歴格納領域121へ格納する
よう動作する。また、通信媒体21または31からデー
タが受信された時には、受信情報保存部105が、受信
元の通信媒体21または31ごとに受信データに関する
情報を発生順に通信履歴格納領域121へ格納するよう
動作する。
When data is transmitted to the communication medium 21 or 31 during the normal processing, the transmission information storage unit 104
It operates to store information on transmission data in the communication history storage area 121 in the order of occurrence for each communication medium 21 or 31 of the transmission destination. Further, when data is received from the communication medium 21 or 31, the reception information storage unit 105 operates to store the information on the reception data in the communication history storage area 121 in the order of occurrence for each of the communication media 21 or 31 of the reception source. .

【0046】通信履歴格納領域121は、ロールバック
によって変更されないメモリ領域であれば、どのような
メモリ上にあってもよい。この実施形態では、状態保存
用メモリ120の内部に置く。ロールバックは、1つ前
のチェックポイントにしか戻らないので、通信履歴格納
領域121は、チェックポイントを採取した後に、消去
してもよい。
The communication history storage area 121 may be on any memory as long as the memory area is not changed by rollback. In this embodiment, it is located inside the state storage memory 120. Since the rollback only returns to the previous checkpoint, the communication history storage area 121 may be deleted after the checkpoint is collected.

【0047】送信情報保存部104および受信情報保存
部105が保存する情報は、送受信データ本体とタグで
ある。送受信データ本体は、通信プロトコルのヘッダ部
分とデータ部分とを含む。タグは、情報が送信データで
あるか受信データであるかを示すものである。例えば、
送信データには‘S’、受信データには‘R’というタ
グをつけることにする。また、送受信データの情報のそ
れぞれには、送信履歴比較部109と受信情報再生部1
08とが送受信データを管理するために、ある印を付け
るマーク領域が付けられている。図3に、この通信履歴
記録領域121の構造を示す。
The information stored by the transmission information storage unit 104 and the reception information storage unit 105 is a transmission / reception data body and a tag. The transmission / reception data body includes a header part and a data part of the communication protocol. The tag indicates whether the information is transmission data or reception data. For example,
The tag “S” is added to the transmission data and the tag “R” is added to the reception data. In addition, the transmission history comparison unit 109 and the reception information reproduction unit 1
08 is provided with a mark area for marking a certain mark in order to manage transmission / reception data. FIG. 3 shows the structure of the communication history recording area 121.

【0048】一方、故障が発生した場合、ロールバック
実行部102が、チェックポイント時のシステムの状態
を再現する。この時、ネットワークカード130,16
0のハードウェアの状態も送受信可能な状態に移行す
る。なお、前記の故障は、通信に関連するハードウェア
およびソフトウェアを原因としない故障とする。
On the other hand, when a failure occurs, the rollback execution unit 102 reproduces the state of the system at the time of the checkpoint. At this time, the network cards 130, 16
The state of the hardware 0 also shifts to a state in which transmission and reception are possible. Note that the failure is a failure not caused by hardware and software related to communication.

【0049】以下、この発明の通信回復手法による通信
の回復を詳述する。
Hereinafter, communication recovery by the communication recovery method of the present invention will be described in detail.

【0050】まず、通信監視開始部106が、送信情報
保存部104および受信情報保存部105に保存中止の
要求と、チェックポイント採取部101に採取禁止の要
求とを出す。これにより、チェックポイントの採取は停
止され、以降、2次記憶装置150へのデータの書き込
みは行なわれない。
First, the communication monitoring start unit 106 issues a request to stop transmission to the transmission information storage unit 104 and the reception information storage unit 105 and a request to prohibit collection to the checkpoint collection unit 101. As a result, collection of the checkpoint is stopped, and no data is written to the secondary storage device 150 thereafter.

【0051】通信監視開始部106は、次に、受信情報
再生部108の起動のために、すべての通信媒体21,
31に関するタイマ112,113をセットする。タイ
マ112,113が受信情報再生部108を起動するま
での時間は、チェックポイントを採取する間隔かその数
倍の時間であることが好ましい。
Next, the communication monitoring start unit 106 activates all the communication media 21 and
The timers 112 and 113 for 31 are set. It is preferable that the time until the timers 112 and 113 activate the reception information reproducing unit 108 is a checkpoint collection interval or a time several times as long as the checkpoint collection interval.

【0052】図4および図5に、送信履歴比較部109
および受信情報再生部108が行なう動作のフローチャ
ートを示す。
FIGS. 4 and 5 show transmission history comparing section 109.
4 shows a flowchart of an operation performed by the reception information reproducing unit 108.

【0053】送信履歴比較部109は、例えば通信媒体
21へのデータ送信が発生すると、通信履歴記録領域1
21に記録された情報のうち、この通信媒体21に関す
るすべての送信データの本体と発生した送信データの本
体とを比較する(ステップA1)。通信履歴記録領域1
21に記録された送信データの本体の中に発生した送信
データの本体と同一のものがあれば(ステップA2のY
ES)、その通信媒体21にデータを送信し(ステップ
A3)、なければ通信回復が完了するまでデータの送信
を保留する(ステップA8)。そして、通信履歴記録領
域121に見つけた送信データの情報にはマークを付け
る(ステップA4)。このマークは、ロールバック後に
送信データが再現したことを示す。マークをした後、通
信回復完了部110を実行し(ステップA5)、通信回
復が完了したかどうかを調べる。完了していなければ
(ステップA6のNO)、通信回復を続けるために、受
信情報再生部108を起動するタイマのうち、データが
送信された通信媒体21に関するタイマ112を一旦キ
ャンセルし、所定時間後に起動されるべく再設定する
(ステップA7)。
For example, when data transmission to the communication medium 21 occurs, the transmission history comparison unit 109
In the information recorded in the communication medium 21, the main body of all transmission data relating to the communication medium 21 is compared with the main body of the generated transmission data (step A1). Communication history recording area 1
21 is the same as the transmission data generated in the main body of the transmission data (Y in step A2).
ES), the data is transmitted to the communication medium 21 (step A3), and if not, the transmission of the data is suspended until the communication recovery is completed (step A8). Then, the information of the transmission data found in the communication history recording area 121 is marked (step A4). This mark indicates that the transmission data has been reproduced after the rollback. After the marking, the communication recovery completion section 110 is executed (step A5) to check whether the communication recovery is completed. If not completed (NO in step A6), in order to continue the communication recovery, the timer 112 related to the communication medium 21 to which the data has been transmitted among the timers for activating the reception information reproducing unit 108 is temporarily canceled, and after a predetermined time, It is reset to be activated (step A7).

【0054】なお、送信データの本体同士の比較は、オ
クテットなどデータの構成単位で行なえば良い。また、
2つの送信データが同一であるとみなすには、送信デー
タを構成した通信プロトコルに応じて比較関数を定義し
て用いる。例えば、ある送信データの一部に時刻を埋め
込む通信プロトコルがあるとする。この通信プロトコル
が生成するデータについてみると、故障前と故障後とに
発生したデータの本体は時刻の部分が異なる。しかし、
故障前後で送信された時刻が異なることが通信相手の計
算機システムに特に変化を与えないとすると、この場
合、時刻の部分を除いて2つの送信データを比較する関
数を定義して用いれば良い。比較関数を正確に作ること
は、通信履歴記録領域121に記録された送信データの
情報の中から同じ送信データの情報をより確実に見つけ
ることを可能とし、この発明の通信回復手法による故障
回復の確率を高くする。
The transmission data bodies may be compared with each other in data units such as octets. Also,
In order to regard two transmission data as being the same, a comparison function is defined and used according to the communication protocol that constituted the transmission data. For example, assume that there is a communication protocol that embeds the time in a part of certain transmission data. Looking at the data generated by this communication protocol, the main parts of the data generated before and after the failure have different time parts. But,
If it is assumed that the difference between the transmitted times before and after the failure does not particularly change the computer system of the communication partner, in this case, a function for comparing two pieces of transmission data except for the time portion may be defined and used. Properly making the comparison function makes it possible to more reliably find the information of the same transmission data from the information of the transmission data recorded in the communication history recording area 121. Increase the probability.

【0055】受信情報再生部108は、タイマにより起
動される。タイマは、受信情報再生部108に対し、注
目すべき通信媒体を知らせる。例えば、タイマ112
は、受信情報再生部108を実行し、通信媒体21に注
目するべきであることを知らせる。受信情報再生部10
8は、まず、通信履歴記録領域121内に記録された注
目すべき通信媒体21に関する受信データの本体を発生
時間の古いもの順から順に調べ、まだマークのついてい
ないものを1つ見つける(ステップB1)。受信データ
の本体が見つかれば(ステップB2のYES)、受信デ
ータ本体から受信データを再生し(ステップB3)、あ
たかも注目している通信媒体21から受信したかのよう
に、その受信データを計算機システム10の通信プロト
コルへ渡す。そして、再生した受信データの情報にはマ
ークを付ける(ステップB4)。その後、注目している
通信媒体21に関するタイマ112を一旦キャンセルし
て再設定する(ステップB5)。
[0055] The reception information reproducing unit 108 is started by a timer. The timer notifies the received information reproducing unit 108 of the communication medium to be noted. For example, the timer 112
Executes the reception information reproducing unit 108 and informs the user that attention should be paid to the communication medium 21. Reception information reproducing unit 10
8, first, the main body of the received data relating to the communication medium 21 of interest recorded in the communication history recording area 121 is checked in order from the oldest occurrence time, and one unmarked one is found (step B1). ). If the body of the received data is found (YES in step B2), the received data is reproduced from the body of the received data (step B3), and the received data is transmitted to the computer system as if it were received from the communication medium 21 of interest. Hand over to 10 communication protocols. Then, the information of the reproduced received data is marked (step B4). Thereafter, the timer 112 relating to the communication medium 21 of interest is temporarily canceled and reset (step B5).

【0056】一方、ステップB2で受信データの本体が
見つからなければ(ステップB2のNO)、通信回復は
完了できなかったと判断し、再起動部111を実行して
システムを再起動する(ステップB6)。
On the other hand, if the main body of the received data is not found in step B2 (NO in step B2), it is determined that communication recovery could not be completed, and the restart unit 111 is executed to restart the system (step B6). .

【0057】通信回復完了部110は、送信履歴比較部
109から呼び出される。通信回復完了部110は、通
信履歴記録領域121に記録されたすべての送信データ
の本体にマークがついているかを調べる。もし、すべて
の送信データにマークがついていれば、故障前に送信さ
れた送信データがすべて故障後に再生されたことにな
り、通信回復は完了したことと判断する。
The communication recovery completion section 110 is called from the transmission history comparison section 109. The communication recovery completion unit 110 checks whether or not the body of all transmission data recorded in the communication history recording area 121 is marked. If all the transmission data are marked, it means that all the transmission data transmitted before the failure has been reproduced after the failure, and it is determined that the communication recovery has been completed.

【0058】通信回復完了部110は、通信の回復が完
了したと判断すると、通信監視終了部107を呼び出
す。通信監視終了部107は、チェックポイント採取部
101に採取の許可を通知する。これにより、2次記憶
装置150へのデータの書き込みが再開される。以降、
計算機システム10は、通常状態と同様に通信を行なえ
る状態へと移行する。
When the communication recovery completion unit 110 determines that the communication recovery has been completed, it calls the communication monitoring termination unit 107. The communication monitoring end unit 107 notifies the check point collection unit 101 of permission for collection. As a result, the writing of data to the secondary storage device 150 is restarted. Or later,
The computer system 10 shifts to a state where communication can be performed as in the normal state.

【0059】このように、この実施形態の通信回復手法
によれば、通常処理中にデータのネットワークへの送信
を次のチェックポイントが採取されるまで遅延させるこ
となく、故障回復後の通信データの一貫性を保つことが
可能となる。
As described above, according to the communication recovery method of this embodiment, the transmission of data to the network during normal processing is not delayed until the next checkpoint is taken, and the communication data after recovery from the failure is recovered. It is possible to maintain consistency.

【0060】なお、前述した実施形態では、通信媒体ご
とに送受信データの情報を管理しているが、さらに細分
化して、通信プロトコルや応用プロセスの通信ポートご
とに管理することも有効である。
In the above-described embodiment, information of transmission / reception data is managed for each communication medium. However, it is also effective to further divide the information and manage each communication protocol and each communication port of an application process.

【0061】[0061]

【発明の効果】以上詳述したように、この発明によれ
ば、例えば、ロールバックができない通信相手との通信
を行なっているチェックポイント・ロールバック方式に
よる故障回復機能を備えた計算機システムにおいて、通
常処理中に通信の出力処理をチェックポイントまで遅延
することなく、故障回復後の通信データの一貫性を保持
することが可能となる。すなわち、通常処理中において
は、データ送信の遅延実行を行なわないことにより、通
信能力の低下を防ぐことが可能となる。
As described above in detail, according to the present invention, for example, in a computer system having a failure recovery function by a checkpoint rollback method for communicating with a communication partner that cannot perform rollback, It is possible to maintain the consistency of the communication data after the failure recovery without delaying the communication output processing to the check point during the normal processing. That is, during the normal processing, by not performing the delayed execution of the data transmission, it is possible to prevent a decrease in the communication capability.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明の通信回復手法の原理を説明するため
の図。
FIG. 1 is a diagram for explaining the principle of a communication recovery method according to the present invention.

【図2】この発明の実施形態に係る計算機システムの構
成を示す図。
FIG. 2 is a diagram showing a configuration of a computer system according to the embodiment of the present invention.

【図3】同実施形態の通信履歴記録領域の構造を示す
図。
FIG. 3 is an exemplary view showing the structure of a communication history recording area according to the embodiment;

【図4】同実施形態の送信履歴比較部の動作手順を示す
フローチャート。
FIG. 4 is an exemplary flowchart illustrating an operation procedure of a transmission history comparison unit according to the embodiment.

【図5】同実施形態の受信情報再生部の動作手順を示す
フローチャート。
FIG. 5 is an exemplary flowchart illustrating the operation procedure of the reception information reproducing unit of the embodiment.

【図6】従来のチェックポイント・ロールバック方式に
よる故障回復機能を有する計算機システムの一例を示す
図。
FIG. 6 is a diagram illustrating an example of a computer system having a failure recovery function based on a conventional checkpoint / rollback method.

【符号の説明】[Explanation of symbols]

10,20,30…計算機システム 21,31…通信媒体 100…CPU 101…チェックポイント採取部 102…ロールバック実行部 103…書き込み遅延部 104…送信情報保存部 105…受信情報保存部 106…通信監視開始部 107…通信監視終了部 108…受信情報再生部 109…送信履歴比較部 110…再起動部 112,113…タイマ 114…オペレーティングシステム 120…状態保存用メモリ 121…通信履歴記録領域 130,160…ネットワークカード 140…主記憶装置 150…2次記憶装置 10, 20, 30 Computer systems 21, 31 Communication media 100 CPU 101 Checkpoint collection unit 102 Rollback execution unit 103 Write delay unit 104 Transmission information storage unit 105 Received information storage unit 106 Communication monitoring Start unit 107: Communication monitoring end unit 108: Reception information reproducing unit 109 ... Transmission history comparison unit 110: Restart unit 112, 113 ... Timer 114 ... Operating system 120 ... State storage memory 121 ... Communication history recording area 130, 160 ... Network card 140: Main storage device 150: Secondary storage device

フロントページの続き Fターム(参考) 5B042 GA12 HH26 HH30 MA08 MC09 5B089 GA01 GB01 GB06 HA06 HA08 JB16 JB17 KA12 KB11 MC03 MC13 MD08 ME13 5K030 GA12 MB01 MD01 9A001 BB02 BB03 BB04 CC02 DD10 JJ12 KZ37 KZ56 LL05 Continued on front page F-term (reference)

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 チェックポイント・ロールバック方式に
よる故障回復機能を備え、2次記憶装置へのデータの書
き込みを次のチェックポイントの採取後まで遅延させる
計算機システムにおいて、 ネットワークに送信したデータとネットワークから受信
したデータとを順次保存する通信履歴保存手段と、 故障が発生してチェックポイントまでロールバックを行
なった後に前記通信履歴保存手段へのデータ保存および
前記チェックポイントの採取を禁止する通信監視開始手
段と、 チェックポイントまでロールバックした後にネットワー
クへのデータの送信が発生した際、その送信データと前
記通信履歴保存手段に保存された送信データとを比較
し、同じデータが前記通信履歴保存手段に保存されてい
れば、そのデータのネットワークへの送信を実行する送
信履歴比較手段と、 前記通信履歴保存手段に保存された送信データに対して
ネットワークへの送信が所定の時間内に発生しなかった
ときに、前記通信履歴保存手段に保存された受信データ
を受信データとして再生する受信データ再生手段と、 ロールバック後から所定の時間内に前記通信履歴保存手
段に保存された送信データすべてがネットワークに送信
されたときに、通信回復が完了したと判断する通信回復
完了手段とを具備することを特徴とする計算機システ
ム。
1. A computer system having a failure recovery function based on a checkpoint rollback method and delaying the writing of data to a secondary storage device until after the next checkpoint is collected. Communication history storage means for sequentially storing received data; and communication monitoring start means for prohibiting data storage in the communication history storage means and collection of the checkpoint after a failure has occurred and rolled back to a checkpoint. When data transmission to the network occurs after rolling back to the checkpoint, the transmission data is compared with the transmission data stored in the communication history storage unit, and the same data is stored in the communication history storage unit. If so, send that data to the network. Transmission history comparison means to execute, and reception data stored in the communication history storage means when transmission to the network for the transmission data stored in the communication history storage means has not occurred within a predetermined time. Receiving data reproducing means for reproducing the data as received data, and when all the transmission data stored in the communication history storing means are transmitted to the network within a predetermined time after the rollback, determine that the communication recovery is completed. A computer system comprising communication recovery completion means.
【請求項2】 前記通信回復完了手段により通信回復が
完了したと判断されたときに、チェックポイントの採取
を許可し、前記通信回復完了手段により通信回復が完了
したと判断されなかったときに、システムを再起動する
通信監視終了手段を更に具備することを特徴とする請求
項1記載の計算機システム。
2. When the communication recovery completion means determines that the communication recovery is completed, checkpoint collection is permitted, and when the communication recovery completion means does not determine that the communication recovery is completed, 2. The computer system according to claim 1, further comprising a communication monitoring termination unit that restarts the system.
【請求項3】 前記送信履歴比較手段は、前記通信履歴
保存手段に同一データがなければ通信回復が完了するま
でそのデータ送信を保留することを特徴とする請求項1
記載の計算機システム。
3. The transmission history comparison means, if there is no identical data in the communication history storage means, suspends the data transmission until communication recovery is completed.
Computer system as described.
【請求項4】 前記送信履歴比較手段および受信データ
再生手段は、送信したデータおよび再生したデータに対
応する前記通信履歴保存手段に保存したデータに印を付
すことを特徴とする請求項1記載の計算機システム。
4. The transmission history comparison unit and the received data reproduction unit, according to claim 1, mark the data stored in the communication history storage unit corresponding to the transmitted data and the reproduced data. Computer system.
【請求項5】 前記通信履歴保存手段は、前記送信デー
タを応用プロセスまたは通信プロトコルが用いる通信ポ
ートごとに保存することを特徴とする請求項1記載の計
算機システム。
5. The computer system according to claim 1, wherein said communication history storage means stores said transmission data for each communication port used by an application process or a communication protocol.
【請求項6】 チェックポイント・ロールバック方式に
よる故障回復機能を備え、2次記憶装置へのデータの書
き込みを次のチェックポイントの採取後まで遅延させる
計算機システムの通信回復方法において、 通常処理時のチェックポイント採取時に、 ネットワークに送信したデータとネットワークから受信
したデータとを順次保存するステップと、 故障発生によりチェックポイントまでロールバックした
後の通信回復処理時に、 前記保存ステップおよび前記チェックポイントの採取を
禁止するステップと、 ネットワークへのデータの送信が発生した際、その送信
データと前記保存ステップで保存した送信データとを比
較し、同じデータが保存されている場合は、その送信デ
ータをネットワークへ送信し、保存されていない場合
は、そのデータのネットワークへの送信を通信回復が完
了するまで待機させるステップと、 前記保存された送信データに対してネットワークへの送
信が所定の時間内に発生しなかったときに、前記保存さ
れた受信データを受信データとして再生するステップ
と、 ロールバック後から所定の時間内に前記保存された送信
データすべてがネットワークに送信されたときに、通信
回復が完了したと判断するステップとからなることを特
徴とする通信回復方法。
6. A communication recovery method for a computer system having a failure recovery function based on a checkpoint rollback method and delaying the writing of data to a secondary storage device until after the next checkpoint is collected. The steps of sequentially storing data transmitted to the network and data received from the network at the time of checkpoint collection, and performing the storage step and collection of the checkpoint at the time of communication recovery processing after rolling back to the checkpoint due to a failure. Prohibiting, and when data is transmitted to the network, comparing the transmitted data with the transmitted data stored in the storing step, and transmitting the transmitted data to the network if the same data is stored. If it is not saved, Waiting for transmission of the data to the network until communication recovery is completed; and when the transmission to the network has not occurred within a predetermined time for the stored transmission data, the stored reception data Reproducing all of the stored transmission data within a predetermined time after the rollback, and determining that communication recovery has been completed. Communication recovery method.
【請求項7】 通信回復が完了したと判断されたとき
に、チェックポイントの採取を許可するステップと、 通信回復が完了したと判断されなかったときに、システ
ムを再起動するステップとを更に具備することを特徴と
する請求項6記載の通信回復方法。
7. The method further comprises the steps of: permitting collection of a checkpoint when it is determined that communication recovery has been completed; and restarting the system when it is not determined that communication recovery has been completed. 7. The communication recovery method according to claim 6, wherein
JP10370288A 1998-12-25 1998-12-25 Computer system and communication recovery system Pending JP2000194624A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10370288A JP2000194624A (en) 1998-12-25 1998-12-25 Computer system and communication recovery system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10370288A JP2000194624A (en) 1998-12-25 1998-12-25 Computer system and communication recovery system

Publications (1)

Publication Number Publication Date
JP2000194624A true JP2000194624A (en) 2000-07-14

Family

ID=18496528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10370288A Pending JP2000194624A (en) 1998-12-25 1998-12-25 Computer system and communication recovery system

Country Status (1)

Country Link
JP (1) JP2000194624A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080692A (en) * 2007-09-26 2009-04-16 Toshiba Corp Virtual machine system and service taking-over control method for same system
JP2009080705A (en) * 2007-09-26 2009-04-16 Toshiba Corp Virtual machine system and method for restoring virtual machine in the system
JP2009086701A (en) * 2007-09-27 2009-04-23 Toshiba Corp Virtual computer system and virtual machine restoration method in same system
CN101257499B (en) * 2008-04-16 2012-06-13 中兴通讯股份有限公司 Method for retreating medium state when medium negotiating abnormity

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080692A (en) * 2007-09-26 2009-04-16 Toshiba Corp Virtual machine system and service taking-over control method for same system
JP2009080705A (en) * 2007-09-26 2009-04-16 Toshiba Corp Virtual machine system and method for restoring virtual machine in the system
JP4560074B2 (en) * 2007-09-26 2010-10-13 株式会社東芝 Virtual computer system and virtual computer restoration method in the same system
JP2009086701A (en) * 2007-09-27 2009-04-23 Toshiba Corp Virtual computer system and virtual machine restoration method in same system
JP4510064B2 (en) * 2007-09-27 2010-07-21 株式会社東芝 Virtual computer system and virtual machine restoration method in the same system
CN101257499B (en) * 2008-04-16 2012-06-13 中兴通讯股份有限公司 Method for retreating medium state when medium negotiating abnormity

Similar Documents

Publication Publication Date Title
US6647473B1 (en) Kernel-based crash-consistency coordinator
US7562103B2 (en) Disaster recovery processing method and apparatus and storage unit for the same
US7934262B1 (en) Methods and apparatus for virus detection using journal data
US6453343B1 (en) Methods, systems and computer program products for maintaining a common checkpoint cache for multiple sessions between a single client and server
US7043504B1 (en) System and method for parallel primary and secondary backup reading in recovery of multiple shared database data sets
US8161138B2 (en) Replication system having the capability to accept commands at a standby-system site before completion of updating thereof
JP5094460B2 (en) Computer system, data matching method, and data matching processing program
US8103840B2 (en) Snapshot mechanism and method thereof
US6594676B1 (en) System and method for recovery of multiple shared database data sets using multiple change accumulation data sets as inputs
US20130103650A1 (en) Storage array snapshots for logged access replication in a continuous data protection system
US20060095478A1 (en) Consistent reintegration a failed primary instance
WO1991014230A1 (en) Message communication processing system
JPH02310665A (en) Data restoration method for distributed transaction processing system
JP2004032224A (en) Server takeover system and method thereof
US7467235B2 (en) Data transfer method and system
US7228352B1 (en) Data access management system in distributed processing system
CN110022333B (en) Communication method and device of distributed system
US6754842B2 (en) Facilitating a restart operation within a data processing system
JP2003524255A (en) Internet based remote data and file recovery system and method
US10983709B2 (en) Methods for improving journal performance in storage networks and devices thereof
US20080267176A1 (en) Selective preservation of network state during a checkpoint
EP0409604A2 (en) Processing method by which continuous operation of communication control program is obtained
US7047376B2 (en) Backup system and method and program
JP2000194624A (en) Computer system and communication recovery system
JP5509272B2 (en) Computer system, data matching method, and data matching processing program