JP2005056297A - Data recovery method and system therefor in duplex system - Google Patents

Data recovery method and system therefor in duplex system Download PDF

Info

Publication number
JP2005056297A
JP2005056297A JP2003288512A JP2003288512A JP2005056297A JP 2005056297 A JP2005056297 A JP 2005056297A JP 2003288512 A JP2003288512 A JP 2003288512A JP 2003288512 A JP2003288512 A JP 2003288512A JP 2005056297 A JP2005056297 A JP 2005056297A
Authority
JP
Japan
Prior art keywords
data
replication
management information
active
standby
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003288512A
Other languages
Japanese (ja)
Other versions
JP4352224B2 (en
Inventor
Masatsugu Kimata
正嗣 木全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2003288512A priority Critical patent/JP4352224B2/en
Publication of JP2005056297A publication Critical patent/JP2005056297A/en
Application granted granted Critical
Publication of JP4352224B2 publication Critical patent/JP4352224B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a new system for data recovery and a method therefor in a duplex system which can speed up resumption for services. <P>SOLUTION: In a data recovery method for the old operational system 100 by executing data replication from an operational system to a standby system when the system is switched, management information regarding the data yet to be replicated in the data replication is stored in a table 190. When the system is switched, the management information regarding the data yet to be replicated on the old operational system 100 is replicated in a table 200 for a new operational system 110 (S12), which enables the required data to be confirmed if it is replicated (S22) when the new operational system 110 executes the service. Thus, the new operational system (110) can recover the data by replicating the required data from the old operational system 100 (S24-S27) when the required data is not replicated (S23). <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は運用系および待機系を有する二重化システムのレプリケーション(メモリ同期)技術に係り、特に系切り替え時のデータ救済方法およびシステムに関する。   The present invention relates to a replication (memory synchronization) technique for a duplex system having an active system and a standby system, and more particularly to a data relief method and system at the time of system switching.

運用系および待機系を有する二重化システムでは、運用系に障害が発生すると、直ちに待機系に切り替えて処理を続行することができる。その際、運用系におけるデータをそのまま待機系に反映させること必要があり、従来より種々のデータ救済方式が提案されている。   In a duplex system having an active system and a standby system, if a failure occurs in the active system, it is possible to immediately switch to the standby system and continue processing. At that time, it is necessary to reflect the data in the active system as it is in the standby system, and various data relief methods have been proposed.

特公平6−83314号公報に開示された「呼情報救済方式」では、運用系からの系切替信号に基づいて、運用系の主メモリに格納されている情報を待機系に転送し、待機系は転送された情報に従って処理を続行する。しかしながら,この方式では運用系から待機系へのデータ転送が完了しない限り処理の続行が不可能となり、サービスの再開が遅れるという問題があった。   In the “call information relief method” disclosed in Japanese Patent Publication No. 6-83314, the information stored in the main memory of the active system is transferred to the standby system based on the system switching signal from the active system, and the standby system Continues processing according to the transferred information. However, this method has a problem that the processing cannot be continued unless the data transfer from the active system to the standby system is completed, and the restart of the service is delayed.

特開平6−67979号公報には、サービス再開を迅速化する方法の一例が開示されている。同公報によれば、二重化プロセッサシステムの現用系および待機系の各々にコピーバック・キャッシュを採用し、各メインメモリの内容が常に一致するように制御する。さらに、各系のメインメモリのライト内容を保存するバッファメモリを設け、系切替が発生した時に、待機系がメモリアクセス毎に現用系のバッファメモリを参照し、待機系に反映されていないデータがある場合には、現用系のバッファメモリの内容を待機系のメインメモリに書き込む。こうして、待機系のバッファメモリを用いることなくデータが救済されるために、障害時の系切り替え処理を高速化することができる。   Japanese Patent Laid-Open No. 6-67979 discloses an example of a method for speeding up service restart. According to the publication, a copy-back cache is employed for each of the active system and standby system of the duplex processor system, and control is performed so that the contents of the main memories always match. In addition, a buffer memory is provided to save the write contents of the main memory of each system. When a system switch occurs, the standby system refers to the active buffer memory for each memory access, and data that is not reflected in the standby system In some cases, the contents of the active buffer memory are written to the standby main memory. In this way, data can be relieved without using a standby buffer memory, so that the system switching process at the time of failure can be speeded up.

特公平6−83314号公報Japanese Patent Publication No. 6-83314 特開平6−67979号公報(段落0008、0025)JP-A-6-67979 (paragraphs 0008, 0025)

しかしながら、特許文献2に開示された方式では、メモリアクセス毎に現用系のバッファメモリを検索する必要があるために、現用系と待機系との間の通信量が増大する。このために、特にメモリアクセスの多いシステムの場合にデータ救済の高速化が困難となる。   However, in the method disclosed in Patent Document 2, it is necessary to search the active buffer memory for each memory access, so the amount of communication between the active system and the standby system increases. For this reason, it is difficult to increase the speed of data relief especially in a system with many memory accesses.

そこで、本発明の目的は、サービス再開を高速化できる二重化系における新たなデータ救済方法およびシステムを提供することにある。   Therefore, an object of the present invention is to provide a new data rescue method and system in a duplex system that can speed up service restart.

本発明によれば、レプリケーションが完了していないデータの管理情報を系切り替え時に新運用系にレプリケートし、これにより、新運用系がサービスを実行する際、新運用系側で必要なデータがレプリケーションされているか否かを確認することができる。したがって、系切り替えによる新運用系は、必要なデータがレプリケーションされていない場合は旧運用系から当該必要なデータをレプリケーションさせることによりデータの救済を行うことができる。すなわち、新運用系の処理で必要なデータがレプリケーションを完了していない場合であっても、新運用系の要求により当該データを救済することが可能となる。   According to the present invention, the management information of data that has not been replicated is replicated to the new operation system at the time of system switchover, so that when the new operation system executes a service, the necessary data on the new operation system side is replicated. It can be confirmed whether or not. Therefore, the new operation system by system switching can relieve data by replicating the necessary data from the old operation system when the necessary data is not replicated. That is, even if the data required for the new operation system processing has not been replicated, the data can be relieved by the request of the new operation system.

また、本発明によれば、レプリケーションが完了していないデータの管理情報を系切り替え時に新運用系にレプリケートするために、新運用系側で必要なデータがレプリケーションされているか否かを確認することができ、レプリケーションされていない場合は、そのプロセスを停止して、他のプロセスを実行させることが可能となる。   Further, according to the present invention, in order to replicate the management information of data that has not been replicated to the new active system at the time of system switchover, it is confirmed whether or not necessary data is replicated on the new active system side. If it is not replicated, the process can be stopped and another process can be executed.

本発明の第1の側面によれば、二重化系の一方を運用系、他方の待機系とし、運用系から待機系へのデータレプリケーションを実行することで、系切り替え時に旧運用系のデータを救済する方法において、運用系から待機系へのデータレプリケーションの際に、更新データのうちデータレプリケーションが完了していない残存データに関する管理情報をテーブルに保持し、運用系が切り替わると、新運用系は前記管理情報に基づいて旧運用系の残存データを必要に応じてレプリケーションする、ことを特徴とする。   According to the first aspect of the present invention, one of the duplex systems is set as the active system and the other as the standby system, and data replication from the active system to the standby system is executed, so that the data of the old operating system is relieved at the time of system switching. In this method, during data replication from the active system to the standby system, management information regarding the remaining data that has not been replicated among the update data is stored in a table, and when the active system is switched, the new active system Based on the management information, the remaining data of the old operation system is replicated as necessary.

前記新運用系は、前記旧運用系の残存データをすべてレプリケーションする前に、前記管理情報を参照しながらサービスを開始することが望ましい。その際、前記新運用系は、サービスの実行に必要なデータに関する管理情報が前記テーブルに存在するか否かを判定し、前記テーブルに当該管理情報が存在する場合には、当該データのレプリケーションを完了させるために、当該データのレプリケーションを前記旧運用系へ要求し、当該データのレプリケーションが完了すると、当該データに関する管理情報を前記テーブルから削除する、ことが望ましい。   It is desirable that the new operation system starts a service with reference to the management information before replicating all the remaining data of the old operation system. At that time, the new active system determines whether or not management information related to data necessary for execution of the service exists in the table, and if the management information exists in the table, replication of the data is performed. In order to complete, it is desirable to request replication of the data to the old operational system, and when the replication of the data is completed, delete management information regarding the data from the table.

本発明の第2の側面によれば、二重化系の一方を運用系、他方の待機系とし、運用系から待機系へのデータレプリケーションを実行することで、系切り替え時に旧運用系のデータを救済する方法において、a)運用系から待機系へのデータレプリケーションの際に、更新データのうちデータレプリケーションが完了していない残存データに関する管理情報をテーブルに保持し、b)運用系が切り替わると、新運用系は前記管理情報を参照しながら一プロセスを実行し、c)前記一プロセスで前記管理情報に対応する残存データを必要とする場合には、当該一プロセスを所定時間停止して他のプロセスを実行し、d)前記所定時間経過すると、前記ステップb)に戻る、ことを特徴とする。   According to the second aspect of the present invention, one of the redundant systems is set as the active system and the other as the standby system, and data replication from the active system to the standby system is executed, so that the data of the old operating system is relieved at the time of system switching. In this method, a) during the data replication from the active system to the standby system, management information regarding the remaining data that has not been replicated among the update data is held in a table, and b) when the active system is switched, a new The active system executes one process with reference to the management information, and c) when the remaining data corresponding to the management information is required in the one process, the one process is stopped for a predetermined time and another process is performed. And d) when the predetermined time has elapsed, the process returns to step b).

したがって、本発明によれば、系切り替え時にレプリケーションの完了を待つことなく新運用系でサービスを再開することができ、サービス再開の高速化が可能となる。すなわち、レプリケーションが完了していないデータの管理情報が新運用系側で保持されるために、新運用系がレプリケーションの完了/未完了を監視することができ、新運用系のサービス実行時に必要になれば、旧運用系からデータをレプリケーションさせることが可能となり、あるいは、当該プロセスを停止して他のプロセスを実行し、所定時間経過後に元のプロセスに戻って処理を続行することも可能となる。このために、救済されるべきデータのレプリケーションが完了していなくても、サービスを再開し続行することができる。   Therefore, according to the present invention, the service can be restarted in the new operation system without waiting for the completion of replication at the time of system switching, and the speed of service restart can be increased. In other words, since the management information of data that has not been replicated is held on the new operating side, the new operating system can monitor the completion / uncompletion of replication, which is necessary when executing the service of the new operating system. If so, it is possible to replicate data from the old operational system, or to stop the process and execute another process, and return to the original process after a predetermined time and continue processing. . For this reason, even if the replication of data to be rescued is not completed, the service can be resumed and continued.

図1は、本発明の一実施形態による二重化系データ救済システムの概略的構成を示す模式的構成図である。本実施形態は、運用(ACT)系の処理プロセッサ100と待機(SBY)系の処理プロセッサ110との二重化システム構成であり、処理プロセッサ100で生成されたレプリケーションプロセス120と処理プロセッサ110で生成されたレプリケーションプロセス130とによってレプリケーション(メモリ同期)が実行される。   FIG. 1 is a schematic configuration diagram showing a schematic configuration of a duplex data relief system according to an embodiment of the present invention. The present embodiment has a duplex system configuration of an active (ACT) processor 100 and a standby (SBY) processor 110, and is generated by the replication process 120 and processor 110 generated by the processor 100. Replication (memory synchronization) is executed by the replication process 130.

より詳しくは、運用系の処理プロセッサ100には、レプリケーションプロセス120およびプロセス140が生成され、さらに、処理に必要なデータの書き込み及び読み出しを行う共有メモリ160と、メモリ同期未完了のデータの管理情報を格納するテーブル190とが設けられている。また、処理プロセッサ100にはキュー180が設けられ、プロセス間通信や処理プロセッサ110への通信で使用される。   More specifically, the replication processor 120 and the process 140 are generated in the active processor 100, and further, the shared memory 160 that writes and reads data necessary for processing, and the management information of data that has not been synchronized with the memory Are stored in the table 190. Further, the processing processor 100 is provided with a queue 180, and is used for inter-process communication and communication to the processing processor 110.

同様に、待機系の処理プロセッサ110には、レプリケーションプロセス130およびプロセス150が生成され、さらに、処理に必要なデータの書き込み及び読み出しを行う共有メモリ170と、テーブル190に保持されたデータをレプリケーションするテーブル200とが設けられている。障害等の理由により運用系処理プロセッサ100のサービスが停止すると、系が切り替わり、待機系の処理プロセッサ110が新運用系としてサービスを開始する。   Similarly, a replication process 130 and a process 150 are generated in the standby processing processor 110, and the shared memory 170 that writes and reads data necessary for processing and the data held in the table 190 are replicated. A table 200 is provided. When the service of the active processor 100 is stopped due to a failure or the like, the system is switched, and the standby processor 110 starts the service as the new active processor.

詳しくは後述するが、処理プロセッサ110のレプリケーションプロセス120は、共有メモリ160の変更内容を待機系処理プロセッサ110に伝えると共に、共有メモリ160内の変更場所を特定できるデータ(管理情報)をテーブル190に保持する。そして、データのレプリケーションが完了すると、当該データに対応する管理情報がテーブル190から削除される。したがって、テーブル190にはレプリケーションが完了していないデータの管理情報が残存している。処理プロセッサ110のテーブル200は、系切り替え時のレプリケーションにより、処理プロセッサ100のテーブル190からデータを取得し、レプリケーションが完了していない共有メモリ160のデータの管理情報として保持する。   As will be described in detail later, the replication process 120 of the processing processor 110 informs the standby processor 110 of the change contents of the shared memory 160 and stores data (management information) that can specify the change location in the shared memory 160 in the table 190. Hold. When the data replication is completed, the management information corresponding to the data is deleted from the table 190. Therefore, the management information of data for which replication has not been completed remains in the table 190. The table 200 of the processing processor 110 acquires data from the table 190 of the processing processor 100 by replication at the time of system switching, and holds it as management information of data in the shared memory 160 that has not been replicated.

このようなレプリケーション処理を行っているときに系が切り替わると、新運用系としての処理プロセッサ110は、レプリケーションされた処理プロセッサ100のデータを用いてサービスを再開するが、この時点ですべてのデータがレプリケーションされているとは限らない。そこで、新運用系のプロセス150はテーブル200を検索することで、サービスに必要なデータがレプリケートされているか否かを判定し、レプリケートされていない場合にはレプリケーションプロセス130を通じて旧運用系から必要なデータを取得する。   If the system is switched during such a replication process, the processing processor 110 as the new active system restarts the service using the data of the replicated processing processor 100, but at this point all data is It is not necessarily replicated. Therefore, the new active process 150 searches the table 200 to determine whether or not the data necessary for the service is replicated. If the data is not replicated, the new active process 150 needs the old active system through the replication process 130. Get the data.

このように、レプリケーションが完了していなくても、新運用系は必要なデータを旧運用系からその都度取得することができ、最新のデータを用いてサービスを実行することができる。したがって、新運用系は、サービス再開を早い時点で行うことが可能となる。以下、図2〜図4を参照しながら、本実施形態の全体的動作についてさらに詳細に説明する。   As described above, even if the replication is not completed, the new operation system can acquire necessary data from the old operation system each time, and can execute the service using the latest data. Therefore, the new operational system can perform service restart at an early point. Hereinafter, the overall operation of the present embodiment will be described in more detail with reference to FIGS.

(障害発生前)
図2は、図1に示すデータ救済システムの正常運転時の動作を説明するための模式的構成図である。ここでは、処理プロセッサ100が運用系、処理プロセッサ110が待機系である。
(Before failure)
FIG. 2 is a schematic configuration diagram for explaining an operation during normal operation of the data rescue system shown in FIG. Here, the processing processor 100 is an active system, and the processing processor 110 is a standby system.

まず、運用系処理プロセッサ100のプロセス140は、必要に応じて共有メモリ160に対してデータの読み出しや書き込みを実行し(ステップS1)、同時に共有メモリ160の更新を待機系に反映させるためにレプリケーションプロセス120へレプリケーション要求を発行する(ステップS2)。   First, the process 140 of the active processor 100 executes data reading and writing to the shared memory 160 as necessary (step S1), and at the same time, replication is performed to reflect the update of the shared memory 160 to the standby system. A replication request is issued to the process 120 (step S2).

レプリケーションを要求されたレプリケーションプロセス120は、共有メモリ160若しくはプロセス140からデータの変更内容と変更個所を特定する管理情報とを取得し(ステップS3、S4)、レプリケーションを実行すると共に(ステップS5)、テーブル190に変更箇所を特定する管理情報を書き込む(ステップS6)。   The replication process 120 requested to replicate acquires the change contents of the data and the management information for identifying the change location from the shared memory 160 or the process 140 (steps S3 and S4), executes replication (step S5), and Management information for specifying the changed part is written in the table 190 (step S6).

レプリケーションにより待機系の共有メモリ170にデータ変更が反映されると(ステップS7)、レプリケーション完了が通知される(ステップS8)。レプリケーションが完了すると、レプリケーションプロセス120はテーブル190から完了したレプリケーションに対する変更箇所を特定する管理情報を消去する。従って、レプリケーションが完了していないデータに関しては、そのデータの管理情報がテーブル190に存在することになる。   When the data change is reflected in the standby shared memory 170 by replication (step S7), the replication completion is notified (step S8). When the replication is completed, the replication process 120 deletes the management information for identifying the changed part for the completed replication from the table 190. Therefore, for data for which replication has not been completed, management information for the data exists in the table 190.

(系切り替え時のレプリケーション)
図3は図1に示すデータ救済システムにおける系切り替え時のレプリケーション動作を説明するための模式的構成図であり、図4は系切り替え時のレプリケーション動作を示すフローチャートである。
(Replication during system switchover)
FIG. 3 is a schematic configuration diagram for explaining a replication operation at the time of system switching in the data rescue system shown in FIG. 1, and FIG. 4 is a flowchart showing the replication operation at the time of system switching.

図4において、運用系処理プロセッサ100に障害などが発生することで系切り替えが実行され(ステップS10)、処理プロセッサ100が旧運用系、処理プロセッサ110が新運用系となり、旧運用系処理プロセッサ100が再開されたものとする。   In FIG. 4, system switching is executed when a failure or the like occurs in the active processing processor 100 (step S <b> 10), the processing processor 100 becomes the old operating system, the processing processor 110 becomes the new operating system, and the old operating processing processor 100. Shall be resumed.

再開が完了した旧運用系処理プロセッサ100は、まず、レプリケーションプロセス120に指示してテーブル190に格納されている管理情報を新運用系の処理プロセッサ110のテーブル200へレプリケーションさせる。すなわち、レプリケーションプロセス120は、テーブル190に管理情報が残っているか否かをチェックし(ステップS11)、残存すれば(ステップS11のYES)、テーブル190内の管理情報を新運用系処理プロセッサ110のテーブル200へコピーし(ステップS12)、管理情報のレプリケーションが完了したらテーブル190の内容は全て削除する(ステップS13)。   The old active processor 100 that has completed the restart first instructs the replication process 120 to replicate the management information stored in the table 190 to the table 200 of the new active processor 110. That is, the replication process 120 checks whether or not management information remains in the table 190 (step S11). If it remains (YES in step S11), the management information in the table 190 is transferred to the new active processor 110. The contents are copied to the table 200 (step S12), and when the management information replication is completed, all the contents of the table 190 are deleted (step S13).

管理情報のレプリケーションが完了すると、レプリケーションプロセス120は、障害発生前にレプリケーションが完了していなかったデータをレプリケーションさせる。すなわち、レプリケーションプロセス120はレプリケーション未完了データがあるか否かを判定し(ステップS14)、レプリケーション未完了データが残っていれば(ステップS14のYES)、当該データを新運用系処理プロセッサ110へ転送し、レプリケーションプロセス130によって共有メモリ170に格納される(ステップS15)。こうしてレプリケーションが完了したデータに対応する管理情報は、テーブル200から削除される(ステップS16)。   When the management information replication is completed, the replication process 120 replicates data that has not been replicated before the failure occurred. That is, the replication process 120 determines whether there is replication incomplete data (step S14). If there is replication incomplete data remaining (YES in step S14), the data is transferred to the new active processor 110. Then, it is stored in the shared memory 170 by the replication process 130 (step S15). The management information corresponding to the data for which replication has been completed in this way is deleted from the table 200 (step S16).

このように、本実施形態によれば、データのレプリケーションに先立って、テーブル190内の管理情報のレプリケーションが実行される。この管理情報のレプリケーションが完了すると、次に詳述するように、新運用系処理プロセッサ110のサービス開始が可能となる。   Thus, according to the present embodiment, the management information in the table 190 is replicated prior to data replication. When the replication of the management information is completed, the service of the new active processor 110 can be started as will be described in detail below.

(新運用系によるサービス開始時)
図5は図1に示すデータ救済システムにおける新運用系のサービス再開動作を説明するための模式的構成図であり、図6は系切り替え時のレプリケーション動作および新運用系のサービス再開動作を示すシーケンス図である。
(At the time of service start by new operation system)
FIG. 5 is a schematic configuration diagram for explaining the service restart operation of the new active system in the data rescue system shown in FIG. 1, and FIG. 6 is a sequence showing the replication operation at the time of system switching and the service restart operation of the new active system. FIG.

図6において、ステップS11〜S16は、図4のステップS11〜S16に対応する系切り替え時のレプリケーション動作を示す。上述したように、管理情報のレプリケーションが実行され(ステップS12)、レプリケーションプロセス130から完了通知があると(ステップS20)、プロセス150は、データレプリケーションの完了(ステップS17)を待つことなく、サービスを開始する(ステップS21)。   In FIG. 6, steps S11 to S16 indicate a replication operation at the time of system switching corresponding to steps S11 to S16 of FIG. As described above, when the management information is replicated (step S12), and the completion notification is received from the replication process 130 (step S20), the process 150 does not wait for the completion of data replication (step S17). Start (step S21).

サービス実行において、共有メモリ170に対してデータの読み出し又は書き込みを実行する必要があると、その前にプロセス150はテーブル200を参照し当該データがレプリケーション未完了部分のデータであるか否かを判定する(ステップS22)。すなわち、当該データを示す管理情報がテーブル200に存在するか否かをサーチする。   In the service execution, when it is necessary to read or write data to the shared memory 170, before that, the process 150 refers to the table 200 and determines whether or not the data is data of an incomplete replication portion. (Step S22). That is, it is searched whether or not management information indicating the data exists in the table 200.

テーブル200に当該データを示す管理情報が存在する場合には(ステップS23)、レプリケーション未完了と判断し、プロセス150はレプリケーションプロセス130を通して旧運用系のレプリケーションプロセス120へ当該データを含む部分のレプリケーションを完了させるように要求する(ステップS24)。   If the management information indicating the data exists in the table 200 (step S23), it is determined that the replication has not been completed, and the process 150 replicates the part including the data to the old active replication process 120 through the replication process 130. A request is made to complete (step S24).

要求を受けたレプリケーションプロセス120は、キュー180を検索してレプリケーションを実行しようとしているか否かを確認する(ステップS25)。キュー180にレプリケーション実行キューが無い場合には、共有メモリ160を参照して該当するデータを取得し(ステップS26)、新運用系のレプリケーションプロセス130へ送信してレプリケーションを実行する。   The replication process 120 that has received the request searches the queue 180 to check whether or not replication is to be executed (step S25). If there is no replication execution queue in the queue 180, the corresponding data is acquired by referring to the shared memory 160 (step S26), and transmitted to the replication process 130 of the new active system to execute replication.

これによって、新運用系のレプリケーションプロセス130は、共有メモリ170にデータを反映してレプリケーションを完了させると(ステップS27)、テーブル200から該当するデータを削除し(ステップS28)、プロセス150へレプリケーションが完了したことを通知する(ステップS29)。通知を受けたプロセス150は、共有メモリ170へアクセスすることにより更新されたデータを読み出して処理を続行することができる(ステップS30)。   Thus, when the replication process 130 of the new active system reflects the data in the shared memory 170 and completes the replication (step S27), the corresponding data is deleted from the table 200 (step S28), and the replication to the process 150 is performed. The completion is notified (step S29). Receiving the notification, the process 150 can read the updated data by accessing the shared memory 170 and continue the processing (step S30).

以上の手順により、新運用系処理プロセッサ110では、サービスが開始した後でも、レプリケーション未完了のデータを救済することが可能となる。従って、救済が必要なすべてのデータレプリケーションが完了(ステップS17)するのを待つ必要が無くなるために、サービス再開を早い時点で開始することができる。   With the above procedure, the new active processor 110 can rescue data that has not been replicated even after the service is started. Accordingly, since it is not necessary to wait for completion of all data replications that require relief (step S17), service resumption can be started at an early point.

(他の実施形態)
上記実施形態では、図6におけるサービス開始(ステップS21)後、新運用系のプロセス150が共有メモリ170のデータの読み出しや書き込みを実行する時に、テーブル200を参照してレプリケーションが未完了であるか否かを確認し、未完了であれば、完了要求を発行して当該データのレプリケーションを実行させる。すなわち、レプリケーションの未完了データは、ステップS14において開始され、その後もデータレプリケーションが継続しているのだが、新運用系のプロセス150が共有メモリ170にアクセスする時点では当該データのレプリケーションは未完了であったわけである。したがって、その時点では未完了であっても、ある時間が経過すればレプリケーションが完了するはずであり、その間に他のプロセスを実行することで全体的な効率を向上させることができる。
(Other embodiments)
In the above embodiment, after the service start in FIG. 6 (step S21), whether or not replication is incomplete with reference to the table 200 when the new active process 150 reads or writes data in the shared memory 170 If it is not completed, a completion request is issued to execute replication of the data. That is, replication incomplete data is started in step S14, and data replication continues thereafter. However, when the new active process 150 accesses the shared memory 170, replication of the data is incomplete. It was there. Therefore, even if it is not completed at that time, replication should be completed after a certain time has elapsed, and the overall efficiency can be improved by executing another process during that time.

このような観点から、本発明の他の実施形態によるデータ救済方法では、テーブル200を参照してレプリケーションが未完了であれば、プロセス150以外のプロセスを先に実行させ、ある時間が経過した後で、再びプロセス150の必要とするデータに関してテーブル200を参照してレプリケーションが未完了であるか否かを判定する。言い換えれば、プロセス150が能動的にレプリケーション完了を要求するのではなく、通常のデータレプリケーション手順に従ってレプリケーションが完了するのを待ち、その間、他のプロセスを実行することで全体としてサービスの処理効率を向上させようとするものである。   From this point of view, in the data rescue method according to another embodiment of the present invention, if replication is not completed with reference to the table 200, a process other than the process 150 is executed first, and after a certain time has elapsed. Then, it is determined again whether or not the replication is incomplete by referring to the table 200 for the data required by the process 150. In other words, the process 150 does not actively request the completion of replication, but waits for the replication to complete according to the normal data replication procedure, and during that time, other processes are executed to improve the overall processing efficiency of the service. I will try to let you.

本発明の一実施形態による二重化系データ救済システムの概略的構成を示す模式的構成図である。1 is a schematic configuration diagram showing a schematic configuration of a duplex data relief system according to an embodiment of the present invention. FIG. 図1に示すデータ救済システムの正常運転時の動作を説明するための模式的構成図である。It is a typical block diagram for demonstrating the operation | movement at the time of normal driving | operation of the data relief system shown in FIG. 図1に示すデータ救済システムにおける系切り替え時のレプリケーション動作を説明するための模式的構成図である。FIG. 2 is a schematic configuration diagram for explaining a replication operation at the time of system switching in the data rescue system shown in FIG. 1. 図1に示すデータ救済システムにおける系切り替え時のレプリケーション動作を示すフローチャートである。3 is a flowchart showing a replication operation at the time of system switching in the data rescue system shown in FIG. 1. 図1に示すデータ救済システムにおける新運用系のサービス再開動作を説明するための模式的構成図である。It is a typical block diagram for demonstrating the service resumption operation | movement of the new operation type | system | group in the data relief system shown in FIG. 図1に示すデータ救済システムにおける系切り替え時のレプリケーション動作および新運用系のサービス再開動作を示すシーケンス図である。FIG. 2 is a sequence diagram showing a replication operation at the time of system switching and a service restart operation of a new operation system in the data rescue system shown in FIG. 1.

符号の説明Explanation of symbols

100 運用系処理プロセッサ
110 待機系処理プロセッサ
120 運用系レプリケーションプロセス
130 待機系レプリケーションプロセス
140 運用系プロセス
150 待機系プロセス
160 運用系共有メモリ
170 待機系共有メモリ
180 運用系キュー
190 運用系テーブル
200 待機系テーブル

DESCRIPTION OF SYMBOLS 100 Active processor 110 Standby processor 120 Active replication process 130 Standby replication process 140 Active process 150 Standby process 160 Active shared memory 170 Standby shared memory 180 Active queue 190 Active table 200 Standby system table

Claims (7)

二重化系の一方を運用系、他方の待機系とし、運用系から待機系へのデータレプリケーションを実行することで、系切り替え時に旧運用系のデータを救済する方法において、
運用系から待機系へのデータレプリケーションの際に、更新データのうちデータレプリケーションが完了していない残存データに関する管理情報をテーブルに保持し、
運用系が切り替わると、新運用系は前記管理情報に基づいて旧運用系の残存データを必要に応じてレプリケーションする、
ことを特徴とするデータ救済方法。
In the method of relieving the data of the old operation system at the time of system switchover by executing data replication from the active system to the standby system, with one of the redundant systems as the active system and the other standby system,
At the time of data replication from the active system to the standby system, the management information about the remaining data that has not been replicated among the update data is stored in the table.
When the active system is switched, the new active system replicates the remaining data of the old active system as necessary based on the management information.
A data relief method characterized by the above.
前記新運用系は、前記旧運用系の残存データをすべてレプリケーションする前に、前記管理情報を参照しながらサービスを開始する、ことを特徴とする請求項1に記載のデータ救済方法。 The data rescue method according to claim 1, wherein the new operational system starts a service while referring to the management information before replicating all the remaining data of the old operational system. 前記新運用系は、サービスの実行に必要なデータに関する管理情報が前記テーブルに存在するか否かを判定し、
前記テーブルに当該管理情報が存在する場合には、当該データのレプリケーションを完了させるために、当該データのレプリケーションを前記旧運用系へ要求し、
当該データのレプリケーションが完了すると、当該データに関する管理情報を前記テーブルから削除する、
ことを特徴とする請求項2に記載のデータ救済方法。
The new operational system determines whether or not management information related to data necessary for execution of the service exists in the table,
If the management information exists in the table, in order to complete the replication of the data, request the replication of the data to the old operational system,
When replication of the data is completed, management information related to the data is deleted from the table.
The data relief method according to claim 2, wherein:
二重化系の一方を運用系、他方の待機系とし、運用系から待機系へのデータレプリケーションを実行することで、系切り替え時に旧運用系のデータを救済する方法において、
a)運用系から待機系へのデータレプリケーションの際に、更新データのうちデータレプリケーションが完了していない残存データに関する管理情報をテーブルに保持し、
b)運用系が切り替わると、新運用系は前記管理情報を参照しながら一プロセスを実行し、
c)前記一プロセスで前記管理情報に対応する残存データを必要とする場合には、当該一プロセスを所定時間停止して他のプロセスを実行し、
d)前記所定時間経過すると、前記ステップb)に戻る、
ことを特徴とするデータ救済方法。
In the method of relieving the data of the old operation system at the time of system switchover by executing data replication from the active system to the standby system, with one of the redundant systems as the active system and the other standby system,
a) At the time of data replication from the active system to the standby system, the management information regarding the remaining data that has not been replicated among the update data is held in a table,
b) When the active system is switched, the new active system executes one process while referring to the management information,
c) When the remaining data corresponding to the management information is required in the one process, the one process is stopped for a predetermined time and another process is executed.
d) When the predetermined time has elapsed, the process returns to step b).
A data relief method characterized by the above.
第1処理系および第2処理系からなる二重化系の一方を運用系、他方の待機系とし、運用系から待機系へのデータレプリケーションを実行することで、系切り替え時に旧運用系のデータを救済するシステムにおいて、
前記第1処理系および前記第2処理系の各々は、
プロセスにより使用されるデータを読み出しおよび書き込み可能に格納するためのメモリと、
運用系から待機系へのデータレプリケーションの際に、前記メモリに格納された更新データのうちデータレプリケーションが完了していない残存データに関する管理情報を格納するためのテーブルと、
当該処理系が待機系から運用系に切り替わると、他方の処理系のテーブルから当該処理系のテーブルへ管理情報のレプリケーションを実行し、レプリケーションされた管理情報に基づいて当該処理系でサービスを実行する制御手段と、
を有することを特徴とするデータ救済システム。
One of the dual processing systems consisting of the first processing system and the second processing system is used as the active system and the other standby system, and data replication from the active system to the standby system is performed to relieve data from the old operating system when the system is switched In the system to
Each of the first processing system and the second processing system includes:
Memory for readable and writable storage of data used by the process;
A table for storing management information relating to remaining data for which data replication has not been completed among update data stored in the memory during data replication from the active system to the standby system;
When the processing system switches from the standby system to the active system, the management information is replicated from the other processing system table to the processing system table, and the service is executed in the processing system based on the replicated management information. Control means;
A data relief system comprising:
前記制御手段は、当該処理系がサービスを実行する際に当該テーブルに存在する管理情報に対応するデータを必要とする場合には、前記他方の処理系から当該データをレプリケーションするように要求する、ことを特徴とする請求項5に記載のデータ救済システム。 When the processing system needs data corresponding to the management information existing in the table when the processing system executes the service, the control unit requests the data to be replicated from the other processing system. 6. The data relief system according to claim 5, wherein 前記制御手段は、当該処理系の一プロセスがサービスを実行する際に当該テーブルに存在する管理情報に対応するデータを必要とする場合には、当該一プロセスの実行を所定時間停止して他のプロセスを実行し、前記所定時間が経過した後で前記一プロセスを再実行する、ことを特徴とする請求項5に記載のデータ救済システム。

When one process of the processing system needs data corresponding to the management information existing in the table when the process executes the service, the control means stops the execution of the one process for a predetermined time and 6. The data rescue system according to claim 5, wherein a process is executed, and the one process is re-executed after the predetermined time has elapsed.

JP2003288512A 2003-08-07 2003-08-07 Data relief method and system in duplex system Expired - Fee Related JP4352224B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003288512A JP4352224B2 (en) 2003-08-07 2003-08-07 Data relief method and system in duplex system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003288512A JP4352224B2 (en) 2003-08-07 2003-08-07 Data relief method and system in duplex system

Publications (2)

Publication Number Publication Date
JP2005056297A true JP2005056297A (en) 2005-03-03
JP4352224B2 JP4352224B2 (en) 2009-10-28

Family

ID=34367134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003288512A Expired - Fee Related JP4352224B2 (en) 2003-08-07 2003-08-07 Data relief method and system in duplex system

Country Status (1)

Country Link
JP (1) JP4352224B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007150449A (en) * 2005-11-24 2007-06-14 Ntt Docomo Inc User information management device and service provision server
JP2007286952A (en) * 2006-04-18 2007-11-01 Nec Corp Server system and server load reduction method
JP2011043888A (en) * 2009-08-19 2011-03-03 Nippon Telegr & Teleph Corp <Ntt> Information processing apparatus, method and system, and program
JP2011134327A (en) * 2009-12-23 2011-07-07 Intel Corp Controlling memory redundancy in system
JP2012226456A (en) * 2011-04-18 2012-11-15 Mitsubishi Electric Corp Database system
US9811577B2 (en) 2014-12-18 2017-11-07 International Business Machines Corporation Asynchronous data replication using an external buffer table

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007150449A (en) * 2005-11-24 2007-06-14 Ntt Docomo Inc User information management device and service provision server
JP2007286952A (en) * 2006-04-18 2007-11-01 Nec Corp Server system and server load reduction method
JP2011043888A (en) * 2009-08-19 2011-03-03 Nippon Telegr & Teleph Corp <Ntt> Information processing apparatus, method and system, and program
JP2011134327A (en) * 2009-12-23 2011-07-07 Intel Corp Controlling memory redundancy in system
JP2012226456A (en) * 2011-04-18 2012-11-15 Mitsubishi Electric Corp Database system
US9811577B2 (en) 2014-12-18 2017-11-07 International Business Machines Corporation Asynchronous data replication using an external buffer table
US9817879B2 (en) 2014-12-18 2017-11-14 International Business Machines Corporation Asynchronous data replication using an external buffer table

Also Published As

Publication number Publication date
JP4352224B2 (en) 2009-10-28

Similar Documents

Publication Publication Date Title
JP4839841B2 (en) How to restart snapshot
US7472139B2 (en) Database recovery method applying update journal and database log
JP2002049575A (en) File system
JP2005128861A (en) Storage system of remote site and/or local site, and file reference method of remote site storage system
US7197614B2 (en) Method and apparatus for mirroring data stored in a mass storage system
JP2003223287A (en) Storage device, backup method of the same, and program therefor
JP2007286860A (en) Data transfer method and information processor
JP2006011848A (en) Replication system, apparatus, method, and program
US7836215B2 (en) Method for providing high performance storage devices
JP4352224B2 (en) Data relief method and system in duplex system
US7194675B2 (en) Backup method, backup system, disk controller and backup program
JP2007293821A (en) Database system management method and database system
JP4305007B2 (en) System switching system, processing method therefor, and processing program therefor
JP2007286952A (en) Server system and server load reduction method
JP2000293391A (en) Method and device for large-scale memory system management
JP2010009195A (en) Batch processing method, batch processing program, request execution device and database system
JP2003099208A (en) Method for data transfer between disk arrays and disk array system
JPH07281933A (en) Computer system
JP2000163294A (en) Method and device for managing database and machine- readable recording medium with program recorded thereon
JP2008310517A (en) Data identification method, data identification program, and active system device
JP2008198153A (en) Continuous operation system carrying out batch processing while continuing online processing
JP2008171058A (en) System controller, processor, information processing system, and information processing program
JPH0973372A (en) Method and device for storage control
US20120233420A1 (en) Fault-tolerant system, memory control method, and computer-readable recording medium storing programs
JP2004295563A (en) Highly reliable data management method for maintaining consistency of data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080617

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090408

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090701

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090714

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120807

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees