JP2009098988A - Fault tolerant computer system - Google Patents

Fault tolerant computer system Download PDF

Info

Publication number
JP2009098988A
JP2009098988A JP2007270854A JP2007270854A JP2009098988A JP 2009098988 A JP2009098988 A JP 2009098988A JP 2007270854 A JP2007270854 A JP 2007270854A JP 2007270854 A JP2007270854 A JP 2007270854A JP 2009098988 A JP2009098988 A JP 2009098988A
Authority
JP
Japan
Prior art keywords
computer system
synchronization
memory
data
write
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007270854A
Other languages
Japanese (ja)
Inventor
Motohiro Sugimoto
基浩 杉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP2007270854A priority Critical patent/JP2009098988A/en
Publication of JP2009098988A publication Critical patent/JP2009098988A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a lock-step type fault tolerant computer system that can improve the performance and reliability of a system by suppressing the stop of the system. <P>SOLUTION: The lock-step type fault tolerant computer system in which a plurality of computer systems provided with a processor and a memory are connected, wherein each computer system performs clock synchronization to perform the same processing, is provided with a synchronization variation detecting means for detecting a variation in a synchronization process of each computer system, and a data synchronizing means for transmitting data written in a memory of a prescribed computer system to the other computers system and synchronizing each memory equipped with each computer system after detecting a synchronization variation. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、フォルトトレラントコンピュータシステムにかかり、特に、ロックステップ式のフォルトトレラントコンピュータシステムに関する。   The present invention relates to a fault tolerant computer system, and more particularly to a lockstep fault tolerant computer system.

コンピュータシステムの信頼性の向上を図るべく、システムの一部に何らかの障害が発生した場合であっても、システムを停止せずに継続処理できるようにしたフォルトトレラントコンピュータシステムが開発されている。このフォルトトレラントコンピュータシステムは、CPUやメモリといったコンピュータを構成するデバイスあるいはコンピュータシステム自体を多重化しておくことで実現可能である。   In order to improve the reliability of a computer system, a fault-tolerant computer system has been developed in which even if a failure occurs in a part of the system, continuous processing can be performed without stopping the system. This fault-tolerant computer system can be realized by multiplexing devices constituting the computer such as CPU and memory or the computer system itself.

そして、特に、特許文献1に示すように、複数のコンピュータシステムにて同じ命令列を同期して実行するロックステップ方式のフォルトトレラントコンピュータシステムが実現されている。ところが、ロックステップ方式のコンピュータシステムでは、何らかの障害によりロックステップ外れが発生する場合がある。この場合に、再同期化のための処理を実行する必要があり、再同期化機能を装備している。   In particular, as shown in Patent Document 1, a lock-step fault-tolerant computer system that executes the same instruction sequence synchronously in a plurality of computer systems is realized. However, in the lock step type computer system, the lock step may be lost due to some trouble. In this case, it is necessary to execute a process for resynchronization, and a resynchronization function is provided.

特開2004−46611号公報JP 2004-46611 A 特開2003−15901号公報JP 2003-15901 A 特開2006−268709号公報JP 2006-268709 A

しかしながら、フォルトトレラントコンピュータシステムにおけるメモリの再同期化処理においては、メモリのアクセスを制限して、つまり、システムの運用状態を停止して、メモリの再同期化を行わなければならない。また、再同期化処理においては、再同期化するメモリのデータ量に比例して、システムの停止時間が長くなる、という問題がある。   However, in the memory resynchronization processing in the fault tolerant computer system, it is necessary to restrict memory access, that is, stop the operation state of the system and perform resynchronization of the memory. Further, in the resynchronization process, there is a problem that the system stop time becomes longer in proportion to the data amount of the memory to be resynchronized.

ここで、特許文献2は、運用系と待機系とを備えた冗長化システムを開示している。この特許文献2の冗長化システムは、運用系に書き込まれた情報を共有メモリに記憶し、これを後に待機系が読み取る、という構成を採っている。また、特許文献3も運用系と待機系とを備えた冗長化システムを開示している。この特許文献3の冗長化システムは、運用系のメモリに書き込みを検出すると、その情報を待機系に送信する、という構成を採っている。   Here, Patent Document 2 discloses a redundant system including an active system and a standby system. The redundancy system disclosed in Patent Document 2 employs a configuration in which information written to the active system is stored in a shared memory, and this is read later by the standby system. Patent Document 3 also discloses a redundant system including an active system and a standby system. The redundancy system of Patent Document 3 adopts a configuration in which when writing is detected in the active memory, the information is transmitted to the standby system.

しかし、上記特許文献2,3に開示の冗長化システムは、上述したように運用系と待機系とを備えた冗長化システムであり、ロックステップ方式のフォルトトレラントコンピュータシステムではないため、待機系へのデータの同期を取る際には、システム停止の問題を考慮していない。このため、上述したロックステップ式フォルトトレラントコンピュータシステムのデータの再同期におけるシステムの停止を抑制する技術については開示されていない。さらには、同期を取るタイミングが常に運用系へのデータの書き込み時であるため、当該運用系の処理負荷が高くなる、という問題がある。   However, the redundant system disclosed in Patent Documents 2 and 3 is a redundant system including an active system and a standby system as described above, and is not a lock-step fault tolerant computer system. The system outage problem is not considered when synchronizing the data. For this reason, there is no disclosure of a technique for suppressing the system stop in the data resynchronization of the above-described lockstep fault tolerant computer system. Furthermore, there is a problem that the processing load of the operation system increases because the timing of synchronization is always when data is written to the operation system.

このため、本発明の目的は、上述した課題である、システムの停止を抑制して、システムの性能及び信頼性の向上を図ることができるロックステップ方式のフォルトトレラントコンピュータシステムを提供すること、である。   Therefore, an object of the present invention is to provide a lock-step fault tolerant computer system that can suppress the stop of the system and improve the performance and reliability of the system. is there.

そこで、本発明の一形態であるフォルトトレラントコンピュータシステムは、
プロセッサと、メモリと、を備えたコンピュータシステムを複数接続して備え、各コンピュータシステムがクロック同期して同一の処理を行うロックステップ方式のフォルトトレラントコンピュータシステムであって、
各コンピュータシステムの同期処理のずれを検出する同期ずれ検出手段と、
同期ずれが検出された後に、所定のコンピュータシステムのメモリに対して書き込まれるデータを他のコンピュータシステムのメモリに送信して、各コンピュータシステムに装備された各メモリの同期を取るデータ同期手段と、
を備えた、
という構成を採る。
Therefore, a fault tolerant computer system which is an embodiment of the present invention is:
A lock-step fault-tolerant computer system comprising a plurality of computer systems each including a processor and a memory, each computer system performing the same processing in synchronization with a clock,
Synchronization deviation detecting means for detecting a deviation in synchronization processing of each computer system;
Data synchronization means for transmitting data written to a memory of a predetermined computer system to a memory of another computer system after synchronization is detected, and synchronizing each memory provided in each computer system;
With
The structure is taken.

本発明は、以上のように構成されるため、同期ずれが生じた場合であっても、システムの停止を抑制してデータの同期を取ることができ、システムの性能及び信頼性の向上を図ることができる、という従来にない優れた効果を有する。   Since the present invention is configured as described above, even if a synchronization error occurs, data can be synchronized by suppressing the stop of the system, and the performance and reliability of the system are improved. It has an unprecedented excellent effect of being able to.

本発明の一形態であるフォルトトレラントコンピュータシステムは、
プロセッサと、メモリと、を備えたコンピュータシステムを複数接続して備え、各コンピュータシステムがクロック同期して同一の処理を行うロックステップ方式のフォルトトレラントコンピュータシステムであって、
各コンピュータシステムの同期処理のずれを検出する同期ずれ検出手段と、
同期ずれが検出された後に、所定のコンピュータシステムのメモリに対して書き込まれるデータを他のコンピュータシステムのメモリに送信して、各コンピュータシステムに装備された各メモリの同期を取るデータ同期手段と、を備えた、という構成を採る。
A fault tolerant computer system according to one aspect of the present invention is:
A lock-step fault-tolerant computer system comprising a plurality of computer systems each including a processor and a memory, each computer system performing the same processing in synchronization with a clock,
Synchronization deviation detecting means for detecting a deviation in synchronization processing of each computer system;
Data synchronization means for transmitting data written to a memory of a predetermined computer system to a memory of another computer system after synchronization is detected, and synchronizing each memory provided in each computer system; The structure that is equipped with.

そして、上記データ同期手段は、同期ずれ検出手段にて同期ずれが検出された後に所定のコンピュータシステムのメモリに対する所定のデータの書き込みを検出する書込検出手段と、この書込検出手段にて検出された書込データを他のコンピュータシステムのメモリに送信する書込データ送信手段と、
を備えた、という構成を採る。
The data synchronization means includes a write detection means for detecting writing of predetermined data to a memory of a predetermined computer system after the synchronization deviation is detected by the synchronization deviation detection means, and a detection by the write detection means. Write data transmission means for transmitting the written data to a memory of another computer system;
The structure that is equipped with.

また、上記書込検出手段は、プロセッサからメモリへの書き込みアクセスを監視して当該メモリへのデータの書き込みを検出する、という構成を採る。また、上記データ同期手段は、所定のコンピュータから他のコンピュータシステムへの接続経路が複数ある場合に、全ての接続経路から他のコンピュータシステムに対して書込データを送信する、という構成を採る。さらに、上記稼動状態であるコンピュータシステムと、スタンバイ状態であるコンピュータシステムと、がそれぞれ備えた各メモリ内のデータを同期する初期同期手段を備えた、という構成を採る。   In addition, the write detection means monitors the write access to the memory from the processor and detects the data write to the memory. Further, the data synchronization means adopts a configuration in which when there are a plurality of connection paths from a predetermined computer to another computer system, write data is transmitted from all the connection paths to the other computer system. Further, the computer system in the operating state and the computer system in the standby state are provided with initial synchronization means for synchronizing the data in the respective memories.

上記発明によると、まず、複数のコンピュータシステムは、メモリ内のデータの同期を取る。そして、同一クロックにて、同期処理を実行する。その後、何らかの要因で同期処理にずれが生じると、これを検出する。そして、同期処理にずれが生じた後は、所定のコンピュータシステム内のメモリへの書込みアクセスを監視し、書き込みが検出されると、その書込データを他のコンピュータシステムに送信する。すると、他のコンピュータシステムのメモリにも、所定のコンピュータのメモリに書き込まれたデータが書き込まれるため、メモリの同期を取ることができる。従って、プロセッサからのアクセスを停止することなく各コンピュータシステムのメモリの同期を取ることができる。その結果、同期を回復させるといった、コンピュータシステム自体をリセットするなどの最低限必要な停止時間は必要と成るが、システムの停止を抑制して、システムの性能及び信頼性の向上を図ることができる。   According to the above invention, first, the plurality of computer systems synchronize the data in the memory. Then, synchronization processing is executed with the same clock. Thereafter, when a shift occurs in the synchronization process due to some factor, this is detected. Then, after a shift occurs in the synchronization processing, the write access to the memory in the predetermined computer system is monitored, and when the write is detected, the write data is transmitted to another computer system. Then, since the data written in the memory of a predetermined computer is written in the memory of another computer system, the memories can be synchronized. Therefore, the memory of each computer system can be synchronized without stopping access from the processor. As a result, the minimum required stop time such as resetting the computer system itself, such as recovery of synchronization, is necessary, but the system stop and the system performance and reliability can be improved. .

また、本発明の他の形態であるプログラムは、
プロセッサと、メモリと、を備えたコンピュータシステムを複数接続して備え、各コンピュータシステムがクロック同期して同一の処理を行うロックステップ方式のフォルトトレラントコンピュータシステムにおける、コンピュータシステムの動作を制御する制御部に、
各コンピュータシステムの同期処理のずれを検出する同期ずれ検出手段と、
同期ずれが検出された後に、所定のコンピュータシステムのメモリに対して書き込まれるデータを他のコンピュータシステムのメモリに送信して、各コンピュータシステムに装備された各メモリの同期を取るデータ同期手段と、
を実現させる、という構成を採る。
Moreover, the program which is the other form of this invention is:
A control unit for controlling the operation of a computer system in a lock-step fault tolerant computer system in which a plurality of computer systems each including a processor and a memory are connected and each computer system performs the same processing in clock synchronization In addition,
Synchronization deviation detecting means for detecting a deviation in synchronization processing of each computer system;
Data synchronization means for transmitting data written to a memory of a predetermined computer system to a memory of another computer system after synchronization is detected, and synchronizing each memory provided in each computer system;
To achieve the above.

そして、上記データ同期手段は、同期ずれ検出手段にて同期ずれが検出された後に所定のコンピュータシステムのメモリに対する所定のデータの書き込みを検出する書込検出手段と、この書込検出手段にて検出された書込データを他のコンピュータシステムのメモリに送信する書込データ送信手段と、を備えた、という構成を採る。   The data synchronization means includes a write detection means for detecting writing of predetermined data to a memory of a predetermined computer system after the synchronization deviation is detected by the synchronization deviation detection means, and a detection by the write detection means. And a write data transmitting means for transmitting the written data to a memory of another computer system.

また、本発明の他の形態であるデータ同期方法は、
プロセッサと、メモリと、を備えたコンピュータシステムを複数接続して備え、各コンピュータシステムがクロック同期して同一の処理を行うロックステップ方式のフォルトトレラントコンピュータシステムにおけるデータ同期方法であって、
各コンピュータシステムの同期処理のずれを検出する同期ずれ検出工程と、
同期ずれが検出された後に、所定のコンピュータシステムのメモリに対して書き込まれるデータを他のコンピュータシステムのメモリに送信して、各コンピュータシステムに装備された各メモリの同期を取るデータ同期工程と、
を有する、という構成を採る。
In addition, a data synchronization method according to another aspect of the present invention includes:
A data synchronization method in a fault-step tolerant computer system of a lockstep method in which a plurality of computer systems each including a processor and a memory are connected and each computer system performs the same processing in synchronization with a clock,
A synchronization shift detection step for detecting a shift in synchronization processing of each computer system;
A data synchronization step of transmitting data written to a memory of a predetermined computer system to a memory of another computer system after synchronization loss is detected, and synchronizing each memory provided in each computer system;
It has the configuration of having.

そして、上記データ同期工程は、同期ずれ検出手段にて同期ずれが検出された後に所定のコンピュータシステムのメモリに対する所定のデータの書き込みを検出する書込検出工程と、この書込検出工程にて検出された書込データを他のコンピュータシステムのメモリに送信する書込データ送信工程と、を有する、という構成を採る。   The data synchronization step includes a write detection step for detecting writing of predetermined data to a memory of a predetermined computer system after the synchronization shift is detected by the synchronization shift detection means, and detection by this write detection step. A write data transmission step of transmitting the written data to a memory of another computer system.

上記構成のプログラム及びデータ同期方法の発明であっても、上述したフォルトトレラントシステムと同様に作用するため、上述した本発明の目的を達成することができる。以下、実施形態にて本発明の具体的な構成及び動作を説明する。   Even the invention of the program and the data synchronization method having the above-described configuration operates in the same manner as the fault-tolerant system described above, so that the object of the present invention described above can be achieved. Hereinafter, specific configurations and operations of the present invention will be described in the embodiments.

<実施形態1>
本発明の第1の実施形態を、図1乃至図3を参照して説明する。図1は、フォルトトレラントコンピュータシステムの全体構成を示すブロック図である。図2は、フォルトトレラントコンピュータシステムを構成するコンピュータシステムの構成を示すブロック図である。図3は、コンピュータシステムの動作を示すフローチャートである。
<Embodiment 1>
A first embodiment of the present invention will be described with reference to FIGS. FIG. 1 is a block diagram showing the overall configuration of a fault tolerant computer system. FIG. 2 is a block diagram showing the configuration of the computer system that constitutes the fault-tolerant computer system. FIG. 3 is a flowchart showing the operation of the computer system.

[構成]
図1に示すように、本実施形態におけるフォルトトレラントコンピュータシステムは、2つのコンピュータシステム1,2から構成されている。そして、これら2つのコンピュータシステム1,2は、相互にクロック同期して同一の処理を行うロックステップ方式のフォルトトレラントコンピュータシステムである。ここでは、符号1のコンピュータシステム1が稼動状態であるシステム(所定のコンピュータシステム)であり、符号2のコンピュータシステム2がスタンバイ状態であるコンピュータシステム(他のコンピュータシステム)である。
[Constitution]
As shown in FIG. 1, the fault-tolerant computer system in the present embodiment is composed of two computer systems 1 and 2. The two computer systems 1 and 2 are lock-step fault tolerant computer systems that perform the same processing in synchronization with each other. Here, the computer system 1 indicated by reference numeral 1 is a system (predetermined computer system) in an operating state, and the computer system 2 indicated by reference numeral 2 is a computer system (another computer system) in a standby state.

なお、本発明におけるフォルトトレラントコンピュータシステムは、2つのコンピュータシステムにて構成されていることに限定されず、さらに多くのコンピュータシステムにて構成されていてもよい。その場合には、1つのコンピュータシステムが複数の接続経路にて全ての他のコンピュータシステムに接続されている。   Note that the fault-tolerant computer system in the present invention is not limited to being configured by two computer systems, and may be configured by more computer systems. In that case, one computer system is connected to all other computer systems through a plurality of connection paths.

そして、コンピュータシステム1は、CPU11と、メインメモリ13と、IO14と、これらの動作を制御するコントローラ12と、を備えている。なお、他のコンピュータシステム2の構成も同様であるため、詳細な説明は省略する。そして、CPU11(プロセッサ)は、CPUが発行する命令をクロック毎に同期させて作動する。また、メインメモリ13(メモリ)は、CPU11が発行した命令及び処理データを格納する。   The computer system 1 includes a CPU 11, a main memory 13, an IO 14, and a controller 12 that controls these operations. Since the configuration of the other computer system 2 is the same, detailed description is omitted. The CPU 11 (processor) operates by synchronizing the instruction issued by the CPU every clock. The main memory 13 (memory) stores instructions and processing data issued by the CPU 11.

また、コントローラ12(制御部)は、所定のプログラムが組み込まれることにより、CPU11から発行されるIO命令をデコードするRouting制御機能と、CPU11から発行された命令を他系の同期制御部へ転送するデータ転送機能と、クロック毎の同期状態を監視する同期制御機能と、複数の実装されたデバイスへのアクセスを実施するIO制御機能と、を備えている。具体的に、コントローラ12は、所定のプログラムが組み込まれることにより、図2に示すように、メインメモリ13へのデータの書き込みあるいは読み出しを制御するメモリコントローラ40と、他のコンピュータシステム2とのメモリ内のデータを同期する同期化制御回路50と、ライト検出部31及びデータ転送部32から成るデータ同期回路30(データ同期手段)と、を備えている。   In addition, the controller 12 (control unit) incorporates a predetermined program so as to transfer a Routing control function for decoding an IO command issued from the CPU 11 and a command issued from the CPU 11 to another system synchronous control unit. A data transfer function, a synchronization control function for monitoring the synchronization state for each clock, and an IO control function for accessing a plurality of mounted devices are provided. Specifically, the controller 12 includes a memory controller 40 that controls writing or reading of data to the main memory 13 and a memory of another computer system 2 as shown in FIG. And a data synchronization circuit 30 (data synchronization means) including a write detection unit 31 and a data transfer unit 32.

そして、上記同期化制御回路50は、CPU11から発行され、内部のパス及び他のコンピュータシステムのデータ転送機能から送られた命令のデータの差異をチェックして、同期処理のずれを検出する機能(同期ずれ検出手段)を有する。そして、同期ずれを検出すると、ライト検出部31に通知する。   The synchronization control circuit 50 is a function for checking a difference in data of instructions issued from the CPU 11 and sent from an internal path and a data transfer function of another computer system to detect a deviation in synchronization processing ( (Synchronization detecting means). When the synchronization shift is detected, the light detection unit 31 is notified.

上記ライト検出部31(書込検出手段)は、同期ずれの検出通知を受けると、CPU1あるいはIOからのメインメモリ13に対するデータの書き込みアクセスを検出する。そして、書き込みアクセスを検出すると、書込データを取り出し、データ転送部32に渡す。   When the write detection unit 31 (write detection unit) receives the detection notification of the synchronization shift, the write detection unit 31 detects the data write access to the main memory 13 from the CPU 1 or IO. When write access is detected, write data is taken out and passed to the data transfer unit 32.

データ転送部32(書込データ送信手段)は、書込データを、同期化制御回路50を介して他のコンピュータシステム2のメインメモリ23に記憶するよう送信する。つまり、他のコンピュータシステム2のコントローラ22は、稼動状態のコンピュータシステム1から送信された書込データをメインメモリ23に記憶する機能を有する。これにより、各コンピュータシステム1,2のメインメモリ13,23内のデータの同期を取る。なお、データ転送部32は、他のコンピュータシステム2への接続経路が複数ある場合には、全ての接続経路から他のコンピュータシステムに対して書込データを送信する。   The data transfer unit 32 (write data transmission means) transmits the write data to be stored in the main memory 23 of another computer system 2 via the synchronization control circuit 50. That is, the controller 22 of the other computer system 2 has a function of storing the write data transmitted from the operating computer system 1 in the main memory 23. Thereby, the data in the main memories 13 and 23 of the computer systems 1 and 2 are synchronized. In addition, when there are a plurality of connection paths to other computer systems 2, the data transfer unit 32 transmits write data from all the connection paths to the other computer systems.

さらに、同期化制御回路50は、同期処理開始前に、稼動状態であるコンピュータシステム1と、スタンバイ状態である他のコンピュータシステム2と、がそれぞれ備えた各メモリ内のデータを同期する初期同期機能(初期同期手段)を備えている。   Further, the synchronization control circuit 50 is an initial synchronization function that synchronizes data in each memory provided in the computer system 1 in the active state and the other computer system 2 in the standby state before starting the synchronization process. (Initial synchronization means).

[動作]
次に、上記構成のフォルトトレラントコンピュータシステムの動作、特に、稼動状態となるコンピュータシステム1の動作を、図3のフローチャートを参照して説明する。
[Operation]
Next, the operation of the fault tolerant computer system configured as described above, in particular, the operation of the computer system 1 in the operating state will be described with reference to the flowchart of FIG.

同期動作させる複数のコンピュータシステム1,2間では、まず、各メインメモリ13,23の内容を全て同じ内容にする必要がある。そのため、あらかじめ稼動状態のコンピュータシステム1からスタンバイ状態となっているコンピュータシステム2にメモリデータの転送を行い、メモリの内容を完全に一致させる(ステップS1、初期同期工程)。そして、一旦リセットを行い、多重化されたフォルトトレラントコンピュータシステムの動作を同時に開始する。すると、各コンピュータシステム1,2は、クロック毎に同期して動作する(ステップS2)。   Between the computer systems 1 and 2 to be operated synchronously, first, it is necessary to make the contents of the main memories 13 and 23 all the same. Therefore, the memory data is transferred from the computer system 1 in the operating state to the computer system 2 that is in the standby state in advance to completely match the contents of the memory (step S1, initial synchronization step). Then, once reset, the operation of the multiplexed fault tolerant computer system is started simultaneously. Then, the computer systems 1 and 2 operate in synchronization with each clock (step S2).

その後、何らかの障害の発生によりロックステップ外れが発生する。すると、IO命令やメモリアクセスを監視しているコンピュータシステム1のコントローラ12が同期ずれを検出する(ステップS3でイエス、同期ずれ検出工程)。このように同期ずれを検出すると、コントローラ12は、その後に発生するメインメモリ12に対する書込みアクセスを監視する。そして、メインメモリ12への書込みアクセスの発生を検出すると(ステップS4でイエス、書込検出工程)、この書込アクセスに伴って発生したメインメモリ13に対して書き込まれる書込データを取り出して、他のコンピュータシステム2に送信する(ステップS5、書込データ送信工程)。なお、このとき、他系のコンピュータシステムとをつなぐ経路が複数ある場合のシステムでは、最新データを保障するため、すべての経路に対してデータの転送を行う。   Thereafter, the lock step is lost due to some failure. Then, the controller 12 of the computer system 1 that monitors the IO command and the memory access detects a synchronization error (Yes in step S3, a synchronization error detection step). When the synchronization shift is detected in this way, the controller 12 monitors a write access to the main memory 12 that occurs thereafter. When the occurrence of the write access to the main memory 12 is detected (Yes in step S4, the write detection step), the write data to be written to the main memory 13 generated along with this write access is taken out, It transmits to the other computer system 2 (step S5, write data transmission process). At this time, in a system in which there are a plurality of paths connecting to other computer systems, data is transferred to all paths in order to ensure the latest data.

すると、コンピュータシステム1では、書込みアクセスに応じてメインメモリ13に書込データが記憶されると共に、他のコンピュータシステム2では送信された書込データをメインメモリ23が記憶される。これによって、各コンピュータシステム1,2内のメインメモリ13,23の同期を取ることができる(データ同期工程)。その後は、リセット等を行うことで、再度、各コンピュータシステム1,2は、相互に同期処理に復帰する。   Then, in the computer system 1, write data is stored in the main memory 13 in response to the write access, and in the other computer system 2, the transmitted write data is stored in the main memory 23. Thereby, the main memories 13 and 23 in the computer systems 1 and 2 can be synchronized (data synchronization step). After that, by performing a reset or the like, the computer systems 1 and 2 again return to the synchronization processing.

ここで、仮に上記構成ではないフォルトトレラントコンピュータシステムにおけるデータ同期方法について説明する。上記ライト検出部31及びデータ転送部32を有しないコンピュータシステムでは、コントローラが同期ずれを検出すると、それ以降の差分情報を保存する。そして、コントローラは、保存された差分情報を元に、メインメモリに対してリードリクエストを発行し、読み出したデータをスタンバイ側のコンピュータシステム2に対して送信する。すると、その際に読み出すアドレスに規則性がないため、プロセッサおよびIOからのアクセスを停止する必要が生じる。従って、このアクセスを停止している間は、システムが停止した状態になり、一時的に性能劣化が発生する、という問題が生じる。特に、差分情報が多く蓄積した場合には、停止する時間も長くなる、という問題が生じうる。   Here, a data synchronization method in a fault tolerant computer system that is not configured as described above will be described. In a computer system that does not include the write detection unit 31 and the data transfer unit 32, when the controller detects a synchronization error, the subsequent difference information is stored. Then, the controller issues a read request to the main memory based on the stored difference information, and transmits the read data to the computer system 2 on the standby side. Then, since there is no regularity in the address read at that time, it becomes necessary to stop access from the processor and IO. Therefore, while this access is stopped, there is a problem that the system is stopped and the performance is temporarily deteriorated. In particular, when a large amount of difference information is accumulated, there may be a problem that the time for stopping becomes longer.

一方で、上述した発明におけるフォルトトレラントコンピュータシステムでは、同期ずれを検出後は、書き込みが生じる毎に書込データを転送して同期を取っているため、メモリのデータの同期処理時にCPUからのアクセスを停止する必要は無い。そして、再同期処理を開始する際に、リセットするなど必要最低限の停止時間は必要となるが、停止時間を最小限に短くして、システムの停止を抑制し、システムの性能及び信頼性の向上を図ることができる。   On the other hand, in the fault-tolerant computer system according to the above-described invention, after the synchronization shift is detected, the write data is transferred and synchronized every time writing occurs, so the CPU accesses during the memory data synchronization processing. There is no need to stop. When starting the resynchronization process, the minimum required stop time such as resetting is required, but the stop time is minimized and the system stop is suppressed, and the system performance and reliability are reduced. Improvements can be made.

本発明は、多重化して使用するロックステップ方式のフォルトトレラントコンピュータシステムに利用することができ、産業上の利用可能性を有する。   The present invention can be used for a lock-step fault tolerant computer system used in a multiplexed manner, and has industrial applicability.

フォルトトレラントコンピュータシステムの全体構成を示すブロック図である。It is a block diagram which shows the whole structure of a fault tolerant computer system. 図1に開示したコンピュータシステムの構成を示すブロック図である。It is a block diagram which shows the structure of the computer system disclosed in FIG. 図1に開示したコンピュータシステムの動作を示すフローチャートである。2 is a flowchart illustrating an operation of the computer system disclosed in FIG. 1.

符号の説明Explanation of symbols

1,2 コンピュータシステム
11,21 CPU
12,22 コントローラ
13,23 メインメモリ
31 ライト検出部
32 データ転送部
40 メモリコントローラ
50 同期化制御回路
1, 2 Computer system 11, 21 CPU
12, 22 Controllers 13, 23 Main memory 31 Write detection unit 32 Data transfer unit 40 Memory controller 50 Synchronization control circuit

Claims (9)

プロセッサと、メモリと、を備えたコンピュータシステムを複数接続して備え、各コンピュータシステムがクロック同期して同一の処理を行うロックステップ方式のフォルトトレラントコンピュータシステムであって、
前記各コンピュータシステムの同期処理のずれを検出する同期ずれ検出手段と、
同期ずれが検出された後に、所定の前記コンピュータシステムのメモリに対して書き込まれるデータを他の前記コンピュータシステムのメモリに送信して、前記各コンピュータシステムに装備された各メモリの同期を取るデータ同期手段と、
を備えたことを特徴とするフォルトトレラントコンピュータシステム。
A lock-step fault-tolerant computer system comprising a plurality of computer systems each including a processor and a memory, each computer system performing the same processing in synchronization with a clock,
A synchronization error detection means for detecting a synchronization error of each computer system;
Data synchronization is performed by transmitting data written to a predetermined memory of the computer system to a memory of another computer system after synchronization is detected, and synchronizing each memory provided in each computer system. Means,
A fault tolerant computer system characterized by comprising:
前記データ同期手段は、前記同期ずれ検出手段にて同期ずれが検出された後に前記所定のコンピュータシステムのメモリに対する所定のデータの書き込みを検出する書込検出手段と、この書込検出手段にて検出された書込データを前記他のコンピュータシステムのメモリに送信する書込データ送信手段と、を備えた、
ことを特徴とする請求項1記載のフォルトトレラントコンピュータシステム。
The data synchronization means includes a write detection means for detecting writing of predetermined data to the memory of the predetermined computer system after the synchronization deviation is detected by the synchronization deviation detection means, and a detection by the write detection means. Write data transmitting means for transmitting the written data to the memory of the other computer system,
The fault-tolerant computer system according to claim 1.
前記書込検出手段は、前記プロセッサから前記メモリへの書き込みアクセスを監視して当該メモリへのデータの書き込みを検出する、
ことを特徴とする請求項2記載のフォルトトレラントコンピュータシステム。
The write detection means detects write access to the memory by monitoring write access to the memory from the processor;
The fault tolerant computer system according to claim 2.
前記データ同期手段は、前記所定のコンピュータから前記他のコンピュータシステムへの接続経路が複数ある場合に、全ての接続経路から前記他のコンピュータシステムに対して前記書込データを送信する、
ことを特徴とする請求項1,2又は3記載のフォルトトレラントコンピュータシステム。
The data synchronization means transmits the write data from all connection paths to the other computer system when there are a plurality of connection paths from the predetermined computer to the other computer system.
The fault tolerant computer system according to claim 1, 2, or 3.
稼動状態である前記コンピュータシステムと、スタンバイ状態である前記コンピュータシステムと、がそれぞれ備えた前記各メモリ内のデータを同期する初期同期手段を備えた、
ことを特徴とする請求項1,2,3又は4記載のフォルトトレラントコンピュータシステム。
The computer system in an operating state and the computer system in a standby state, each comprising an initial synchronization means for synchronizing data in each of the memories provided;
5. A fault tolerant computer system according to claim 1, 2, 3 or 4.
プロセッサと、メモリと、を備えたコンピュータシステムを複数接続して備え、各コンピュータシステムがクロック同期して同一の処理を行うロックステップ方式のフォルトトレラントコンピュータシステムにおける、前記コンピュータシステムの動作を制御する制御部に、
前記各コンピュータシステムの同期処理のずれを検出する同期ずれ検出手段と、
同期ずれが検出された後に、所定の前記コンピュータシステムのメモリに対して書き込まれるデータを他の前記コンピュータシステムのメモリに送信して、前記各コンピュータシステムに装備された各メモリの同期を取るデータ同期手段と、
を実現させるためのプログラム。
Control for controlling the operation of a computer system in a lock-step type fault tolerant computer system comprising a plurality of computer systems each including a processor and a memory, and each computer system performing the same processing in synchronization with a clock. Part
A synchronization error detection means for detecting a synchronization error of each computer system;
Data synchronization is performed by transmitting data written to a predetermined memory of the computer system to a memory of another computer system after synchronization is detected, and synchronizing each memory provided in each computer system. Means,
A program to realize
前記データ同期手段は、前記同期ずれ検出手段にて同期ずれが検出された後に前記所定のコンピュータシステムのメモリに対する所定のデータの書き込みを検出する書込検出手段と、この書込検出手段にて検出された書込データを前記他のコンピュータシステムのメモリに送信する書込データ送信手段と、を備えた、
ことを特徴とする請求項6記載のプログラム。
The data synchronization means includes a write detection means for detecting writing of predetermined data to the memory of the predetermined computer system after the synchronization deviation is detected by the synchronization deviation detection means, and a detection by the write detection means. Write data transmitting means for transmitting the written data to the memory of the other computer system,
The program according to claim 6.
プロセッサと、メモリと、を備えたコンピュータシステムを複数接続して備え、各コンピュータシステムがクロック同期して同一の処理を行うロックステップ方式のフォルトトレラントコンピュータシステムにおけるデータ同期方法であって、
前記各コンピュータシステムの同期処理のずれを検出する同期ずれ検出工程と、
同期ずれが検出された後に、所定の前記コンピュータシステムのメモリに対して書き込まれるデータを他の前記コンピュータシステムのメモリに送信して、前記各コンピュータシステムに装備された各メモリの同期を取るデータ同期工程と、
を有することを特徴とするデータ同期方法。
A data synchronization method in a fault-step tolerant computer system of a lockstep method in which a plurality of computer systems each including a processor and a memory are connected and each computer system performs the same processing in synchronization with a clock,
A synchronization error detection step of detecting a synchronization error in each computer system;
Data synchronization is performed by transmitting data written to a predetermined memory of the computer system to a memory of another computer system after synchronization is detected, and synchronizing each memory provided in each computer system. Process,
A data synchronization method comprising:
前記データ同期工程は、前記同期ずれ検出手段にて同期ずれが検出された後に前記所定のコンピュータシステムのメモリに対する所定のデータの書き込みを検出する書込検出工程と、この書込検出工程にて検出された書込データを前記他のコンピュータシステムのメモリに送信する書込データ送信工程と、を有する、
ことを特徴とする請求項8記載のデータ同期方法。
The data synchronization step includes a write detection step for detecting writing of predetermined data to the memory of the predetermined computer system after the synchronization shift is detected by the synchronization shift detection means, and detection by this write detection step A write data transmission step of transmitting the written data to the memory of the other computer system,
9. The data synchronization method according to claim 8, wherein:
JP2007270854A 2007-10-18 2007-10-18 Fault tolerant computer system Pending JP2009098988A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007270854A JP2009098988A (en) 2007-10-18 2007-10-18 Fault tolerant computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007270854A JP2009098988A (en) 2007-10-18 2007-10-18 Fault tolerant computer system

Publications (1)

Publication Number Publication Date
JP2009098988A true JP2009098988A (en) 2009-05-07

Family

ID=40701920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007270854A Pending JP2009098988A (en) 2007-10-18 2007-10-18 Fault tolerant computer system

Country Status (1)

Country Link
JP (1) JP2009098988A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013149114A (en) * 2012-01-20 2013-08-01 Mitsubishi Electric Corp Input/output control system
US8635492B2 (en) 2011-02-15 2014-01-21 International Business Machines Corporation State recovery and lockstep execution restart in a system with multiprocessor pairing
US8671311B2 (en) 2011-02-15 2014-03-11 International Business Machines Corporation Multiprocessor switch with selective pairing
US8930752B2 (en) 2011-02-15 2015-01-06 International Business Machines Corporation Scheduler for multiprocessor system switch with selective pairing
JP2016031651A (en) * 2014-07-29 2016-03-07 富士通株式会社 Information processing system and method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178616A (en) * 2004-12-21 2006-07-06 Nec Corp Fault tolerant system, controller used thereform, operation method and operation program
JP2006178636A (en) * 2004-12-21 2006-07-06 Nec Corp Fault tolerant computer and its control method
JP2006268709A (en) * 2005-03-25 2006-10-05 Nec Corp Redundant system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178616A (en) * 2004-12-21 2006-07-06 Nec Corp Fault tolerant system, controller used thereform, operation method and operation program
JP2006178636A (en) * 2004-12-21 2006-07-06 Nec Corp Fault tolerant computer and its control method
JP2006268709A (en) * 2005-03-25 2006-10-05 Nec Corp Redundant system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8635492B2 (en) 2011-02-15 2014-01-21 International Business Machines Corporation State recovery and lockstep execution restart in a system with multiprocessor pairing
US8671311B2 (en) 2011-02-15 2014-03-11 International Business Machines Corporation Multiprocessor switch with selective pairing
US8930752B2 (en) 2011-02-15 2015-01-06 International Business Machines Corporation Scheduler for multiprocessor system switch with selective pairing
JP2013149114A (en) * 2012-01-20 2013-08-01 Mitsubishi Electric Corp Input/output control system
JP2016031651A (en) * 2014-07-29 2016-03-07 富士通株式会社 Information processing system and method

Similar Documents

Publication Publication Date Title
US9195553B2 (en) Redundant system control method
JP2004046611A (en) Fault tolerant computer system, its recynchronization method, and resynchronization program
JP2006178557A (en) Computer system and error handling method
JP2008046685A (en) Duplex system and system switching method
JP2006285631A (en) Duplex system
JP6029737B2 (en) Control device
JP2010092105A (en) Synchronization control apparatus, information processing apparatus, and synchronization management method
US8041995B2 (en) Method and system for resetting fault tolerant computer system
JP2009098988A (en) Fault tolerant computer system
JP2006178636A (en) Fault tolerant computer and its control method
JP5013309B2 (en) Fault tolerant computer and its transaction synchronous control method
JP4182948B2 (en) Fault tolerant computer system and interrupt control method therefor
JP5287974B2 (en) Arithmetic processing system, resynchronization method, and farm program
JP6083480B1 (en) Monitoring device, fault tolerant system and method
JP2005258946A (en) Distributed system and multiplexing control method
JP2005293315A (en) Data mirror type cluster system and synchronous control method for it
JP2008146447A (en) Fault tolerant computer
JP2006172243A (en) Fault-tolerant computer device and synchronization method for the same
JP3774826B2 (en) Information processing device
JP5556086B2 (en) Redundant system and duplexing method
JP5748214B2 (en) Redundant information processing system
JP2011028481A (en) Fault tolerant server, processor switching method, and processor switching program
JP5604799B2 (en) Fault tolerant computer
JP2014235503A (en) Information processing device, information processing system, hard disk failure detection method, service continuation method, hard disk failure detection program, and service continuation program
JP4117685B2 (en) Fault-tolerant computer and its bus selection control method

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110506

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110627

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120228