JP2008310411A - Duplex device and system switching method in failure - Google Patents
Duplex device and system switching method in failure Download PDFInfo
- Publication number
- JP2008310411A JP2008310411A JP2007155074A JP2007155074A JP2008310411A JP 2008310411 A JP2008310411 A JP 2008310411A JP 2007155074 A JP2007155074 A JP 2007155074A JP 2007155074 A JP2007155074 A JP 2007155074A JP 2008310411 A JP2008310411 A JP 2008310411A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- occurrence
- notification
- data processing
- stop
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Abstract
Description
本発明は、データ処理を二重化した二重化装置およびその障害時系切替方法に係わり、特に障害が発生したときに系の切り替えを行う二重化装置および障害時系切替方法に関する。 The present invention relates to a duplexing apparatus that duplicates data processing and a faulty system switching method, and more particularly, to a duplexing apparatus that switches systems when a fault occurs and a faulty system switching method.
各種のデータ処理装置や通信装置では、それらの処理内容の信頼性を高めるために2つの系を配置し、一方を運用系(現用系)とし他方を待機系(予備系)とした二重化されたデータ処理システムを構成することが多い。このような二重化されたデータ処理システムでは、それぞれの系の現在の状態をシステム全体で共有できるようにしている。このために、それぞれの系は自系がどのような状態にあるかを示す記憶領域を備えている。そして、他系の状態はこの記憶領域を参照して把握することが可能なようになっており、自系の状態は記憶領域の参照だけでなく、状態変化に応じてその内容を更新できるようになっている。たとえば、運用系の装置に障害が発生したとき、他系としての待機系の装置はこの障害発生を認識して自系を運用系に変更する。障害の発生した運用系の装置の方は、自系を停止系に変更してデータ処理システムから切り離す。 In various data processing devices and communication devices, in order to increase the reliability of the processing contents, two systems are arranged, one of which is an active system (active system) and the other is a standby system (standby system). Often constitutes a data processing system. In such a duplicated data processing system, the current state of each system can be shared by the entire system. For this purpose, each system is provided with a storage area indicating the state of the own system. The status of the other system can be grasped by referring to this storage area, and the contents of the own system can be updated not only by referring to the storage area but also according to the state change. It has become. For example, when a failure occurs in the active device, the standby device as the other system recognizes the occurrence of the failure and changes its own system to the active system. The active system device in which the failure has occurred changes its own system to the stopped system and disconnects it from the data processing system.
このように二重化されたデータ処理システムでは、一方の系の装置で障害が発生した場合、他方の系の装置でもこれを確実に認識し、たとえば自系の装置を待機系から運用系に切り替えるといった処理が行われることを前提としている。ところが、このような前提が成り立たない場合がある。 In such a duplexed data processing system, when a failure occurs in one system device, the other system device also reliably recognizes this, for example, switching the own system device from the standby system to the active system. It is assumed that processing will be performed. However, there are cases where such a premise does not hold.
たとえばそれぞれ個別にコンピュータを備えた二重化されたデータ処理システムで、2つの装置が割り込み線を用いて障害発生時の通知のために割り込み処理を行う場合を考えてみる。一方の系の装置の内部で障害が発生すると、割り込み線を通じてその系と他方の系の双方の装置に対して障害発生の通知のための割り込みが試みられる。ところが、可能性としては、このうちの一方の系の装置のみが割り込みに失敗する場合がある。このような場合には、障害の発生を割り込みによって検知した装置は、これに対応させて、たとえば自装置を待機系から運用系へ切り替える。これに対して、割り込みに失敗した装置(この例では運用系の装置)では、障害の発生を割り込み処理で検出できないので、相変わらず前の系の状態としての運用系を保持することになる。この結果、この例では2つの装置が共に運用系となってしまうという不具合を発生させる。 For example, consider a case in which two devices perform interrupt processing for notification when a failure occurs using an interrupt line in a duplex data processing system each having a computer. When a failure occurs in one system device, an interrupt for notifying the occurrence of the failure is attempted to both the system device and the other system device through the interrupt line. However, as a possibility, only one of these devices may fail to interrupt. In such a case, the device that has detected the occurrence of the failure by interruption switches the own device from the standby system to the active system, for example, in response to this. On the other hand, in the device that failed to interrupt (the active device in this example), since the occurrence of the failure cannot be detected by the interrupt processing, the active system is maintained as the state of the previous system as usual. As a result, in this example, there is a problem that the two devices are both active.
そこで、運用系コンピュータの監視ができなくなるような障害が発生した場合に、この障害となった運用系のコンピュータをリセットすることが提案されている(たとえば特許文献1参照)。この提案では、運用系のコンピュータのリセットが成功すると、この旨の通知を残りのコンピュータに行って、所定の優先順位に沿って他のコンピュータがリセットされたコンピュータに代わって運用系となるようにしている。
ところが、このように運用系の装置が監視できない状態になったときこれをリセットするようにすると、運用系の装置の障害が断続的に発生するよう場合、リセットした時点で障害が存在しなければこの装置が再度運用系に選択されることになる。したがって、運用系の装置のリセットが頻繁に発生するような事態が生じてシステムが安定しないという問題があった。 However, if the active device is in a state that cannot be monitored in this way, and this is reset, if a failure of the active device occurs intermittently, there must be no failure at the time of reset. This device is selected again as the active system. Therefore, there has been a problem that the system is not stable due to the occurrence of frequent resetting of the operational system.
そこで本発明の目的は、二重化されたデータ処理システムで、2つの装置のいずれかに障害が発生したときに一方の装置がこの検出を失敗してもシステムの系の変更が可能な二重化装置および障害時系切替方法を提供することにある。 SUMMARY OF THE INVENTION An object of the present invention is to provide a duplex data processing system capable of changing the system system even if one of the two devices fails when a failure occurs in one of the two devices. It is to provide a system switching method at the time of failure.
本発明では、(イ)二重化されたデータ処理システムを構成する1組の装置としての自装置と他装置のいずれの側に障害が発生してもその発生箇所から所定の伝達経路を経て障害発生の通知を伝達する障害発生伝達手段と、(ロ)この障害発生伝達手段によって自装置が障害発生の通知を受けとることに成功したとき、その通知内容から自装置と他装置のいずれの側に障害が発生したかを判別する障害発生源判別手段と、(ハ)この障害発生源判別手段により判別された障害が発生した側の装置をデータ処理システムの運用系あるいは待機系のいずれかからデータ処理システムから切り離される停止系に無条件に変更する停止系推移処理を実行する停止系推移手段とを二重化装置に具備させる。 In the present invention, (a) even if a failure occurs on either side of the own device or another device as a set of devices constituting a duplexed data processing system, a failure occurs from the occurrence location via a predetermined transmission path. (B) When the own device has successfully received a notification of the occurrence of the failure by this failure occurrence transmission means, a failure occurs on either side of the own device or another device. And (c) data processing from either the operation system or standby system of the data processing system for the device on which the failure determined by the failure source determination means has occurred. The duplexer is provided with stop system transition means for executing stop system transition processing that unconditionally changes to a stop system that is disconnected from the system.
すなわち本発明では、障害発生伝達手段から自装置が障害発生の通知を受けとることに成功した二重化装置は、障害発生源判別手段で障害が発生したと判断された側の装置を運用系あるいは待機系のいずれかから停止系に無条件に、すなわち追加的な判断を行うプロセスを経ることなく、変更する停止系推移処理を実行するようにしている。すなわち、場合によっては運用系以外の装置からでも系状態の強制的な変更処理を許すと共に、障害系をシステムから切り離すようにしている。 That is, according to the present invention, the duplexing device that has successfully received the failure notification from the failure occurrence transmitting unit is the active or standby system that is determined to have failed by the failure source determining unit. The stop system transition process to be changed is executed unconditionally from any of the above to the stop system, that is, without going through a process of making an additional determination. That is, in some cases, the system state is forcibly changed even from a device other than the active system, and the faulty system is disconnected from the system.
また、本発明では、(イ)二重化されたデータ処理システムを構成する1組の装置としての自装置と他装置のいずれの側に障害が発生してもその発生箇所から所定の伝達経路を経て障害発生の通知を伝達する障害発生伝達手段と、(ロ)この障害発生伝達手段によって自装置が障害発生の通知を受けとることに成功したとき、その通知内容から自装置と他装置のいずれの側に障害が発生したかを判別する障害発生源判別手段と、(ハ)この障害発生源判別手段により判別された障害が発生した側が自装置であるとき自装置をデータ処理システムの運用系あるいは待機系のいずれかからデータ処理システムから切り離される停止系に無条件に変更する自系状態変更処理を実行する自系状態変更手段とを二重化装置に具備させる。 In the present invention, (a) even if a failure occurs on either side of the own device or the other device as a set of devices constituting the duplexed data processing system, it passes through a predetermined transmission path from the occurrence point. (B) When the own device succeeds in receiving the notification of the occurrence of the failure by this failure occurrence transmission means, either side of the own device or the other device from the notification content (C) a failure source determination unit for determining whether a failure has occurred; and (c) when the failure occurrence side determined by the failure source determination unit is the own device, the own device can be used as an operating system of a data processing system or in a standby state. The duplexer includes a self-system state change unit that executes a self-system state change process that unconditionally changes to a stop system that is disconnected from one of the systems from the data processing system.
すなわち本発明では、障害発生伝達手段から自装置が障害発生の通知を受けとることに成功した二重化装置は、障害が発生した側が自装置であるとき、自装置をデータ処理システムの運用系あるいは待機系のいずれかから停止系に無条件に、すなわち追加的な判断を行うプロセスを経ることなく、変更する自系状態変更処理を実行するようにしている。すなわち、場合によっては運用系以外の装置からでも系状態の強制的な変更処理を許すと共に、障害系をシステムから切り離すようにしている。 That is, according to the present invention, the duplexing device that has successfully received the failure notification from the failure occurrence transmission means, when the failure occurrence side is the own device, the duplexing device is the data processing system operating system or standby system. From any of the above, the own system state changing process is executed unconditionally, that is, without going through a process of making an additional determination. That is, in some cases, the system state is forcibly changed even from a device other than the active system, and the faulty system is disconnected from the system.
更に、本発明では、(イ)二重化されたデータ処理システムを構成する1組の装置としての自装置と他装置のいずれの側に障害が発生してもその発生箇所から所定の伝達経路を経て障害発生の通知を伝達する障害発生伝達手段と、(ロ)この障害発生伝達手段によって自装置が障害発生の通知を受けとることに成功したとき、その通知内容から自装置と他装置のいずれの側に障害が発生したかを判別する障害発生源判別手段と、(ハ)この障害発生源判別手段により判別された障害が発生した側が他装置であるときこの他装置をデータ処理システムの運用系あるいは待機系のいずれかからデータ処理システムから切り離される停止系に無条件に変更する他系停止系推移処理を実行する他系停止系推移処理手段とを二重化装置に具備させる。 Further, according to the present invention, (a) even if a failure occurs on either side of the own device or the other device as a set of devices constituting the duplexed data processing system, it passes through a predetermined transmission path from the occurrence point. (B) When the own device succeeds in receiving the notification of the occurrence of the failure by this failure occurrence transmission means, either side of the own device or the other device from the notification content (C) a failure source determination unit for determining whether a failure has occurred; and (c) when the failure occurrence side determined by the failure source determination unit is another device, The duplexer is provided with other system stop system transition processing means for executing another system stop system transition processing that unconditionally changes to a stop system that is disconnected from one of the standby systems from the data processing system.
すなわち本発明では、障害発生伝達手段から自装置が障害発生の通知を受けとることに成功した二重化装置は、障害が発生した側が他装置であるときこの他装置をデータ処理システムの運用系あるいは待機系のいずれかから停止系に無条件に、すなわち追加的な判断を行うプロセスを経ることなく、変更する他系停止系推移処理を実行するようにしている。すなわち、場合によっては運用系以外の装置からでも系状態の強制的な変更処理を許すと共に、障害系をシステムから切り離すようにしている。 That is, according to the present invention, the duplexing device that has successfully received the failure notification from the failure transmission means means that when the failure side is another device, the other device is used as an operation system or standby system of the data processing system. Any other system stop system transition process to be changed is executed unconditionally from any of the above to the stop system, that is, without going through an additional determination process. That is, in some cases, the system state is forcibly changed even from a device other than the active system, and the faulty system is disconnected from the system.
更にまた、本発明では、(イ)二重化されたデータ処理システムを構成する1組の装置としての自装置と他装置のいずれの側に障害が発生してもその発生箇所から所定の伝達経路を経て障害発生の通知を伝達する障害発生伝達ステップと、(ロ)この通知受信ステップによって自装置が障害発生の通知を受けとることに成功したとき、その通知内容から自装置と他装置のいずれの側に障害が発生したかを判別する障害発生源判別ステップと、(ハ)この障害発生源判別ステップにより障害が発生した側が自装置であると判別したとき自装置をデータ処理システムの運用系あるいは待機系のいずれかからデータ処理システムから切り離される停止系に無条件に変更する自系状態変更処理を実行する自系状態変更ステップと、(ニ)障害発生源判別ステップにより障害が発生した側が他装置であると判別されたときこの他装置をデータ処理システムの運用系あるいは待機系のいずれかからデータ処理システムから切り離される停止系に無条件に変更する他系停止系推移処理を実行する他系停止系推移処理ステップとを障害時系切替方法に具備させる。 Furthermore, according to the present invention, (a) even if a failure occurs on either side of the own device or another device as a set of devices constituting the duplexed data processing system, a predetermined transmission path is established from the occurrence point. (B) When the own device succeeds in receiving the notification of the occurrence of the failure by this notification receiving step, either side of the own device or the other device from the notification content (C) a failure source determination step for determining whether or not a failure has occurred; and (c) when it is determined that the failure side is the own device by this failure source determination step, An own system state change step for executing an own system state change process that unconditionally changes to a stopped system that is disconnected from one of the systems from the data processing system; When the step determines that the failure side is another device, this other device is unconditionally changed to a stop system that is disconnected from the data processing system from either the operating system or standby system of the data processing system. A faulty system switching method is provided with another system stop system transition processing step for executing system transition processing.
すなわち本発明では、障害が発生したときにその発生箇所から所定の伝達経路を経て障害発生の通知を自装置と他装置のいずれの側にも伝達させ、障害発生の通知を受けとることに成功した側の装置(自装置)は、知内容から自装置と他装置のいずれの側に障害が発生したかを判別するようにしている。そして、障害が発生した側が自装置であると判別したとき自装置をデータ処理システムの運用系あるいは待機系のいずれかからデータ処理システムから切り離される停止系に無条件に変更する自系状態変更処理を実行し、障害が発生した側が他装置であると判別されたときこの他装置をデータ処理システムの運用系あるいは待機系のいずれかからデータ処理システムから切り離される停止系に無条件に変更する他系停止系推移処理を実行するようにしている。このように運用系以外の装置からでも系状態の強制的な変更処理を許すと共に、障害系をシステムから切り離すようにすることで、比較的安全な方の装置を運用系として残すようにしている。 In other words, in the present invention, when a failure occurs, the failure occurrence notification is transmitted from the occurrence location via the predetermined transmission path to either the own device or the other device, and the failure occurrence notification is successfully received. The device on the side (self device) determines from which side the failure has occurred on either the own device or another device. Then, when it is determined that the failure side is the own device, the own device state change process that unconditionally changes the own device to either the active system or the standby system of the data processing system and the stopped system that is disconnected from the data processing system. When the failure side is determined to be another device, the other device is unconditionally changed to a stop system that is disconnected from the data processing system from either the operating system or standby system of the data processing system. System stop system transition processing is executed. In this way, the system status can be forcibly changed even from a non-active system, and the faulty system is disconnected from the system, so that the relatively safe device remains as the active system. .
このように本発明によれば、障害の発生の通知の受信に成功した側の装置が障害が自装置と他装置のいずれの側で発生したかを判断し、発生した側の装置を停止系に推移させるので、両方の装置が共に障害の通知の受信に成功した場合に限定して所定の装置を停止系に推移させるよりも障害系をシステムから迅速かつ確実に切り離すことができる。また、比較的安全な方の装置を運用系として残すことが可能になる。 As described above, according to the present invention, the device on the side that has successfully received the notification of the occurrence of the failure determines whether the failure has occurred on either the own device or the other device, and stops the device on which the failure has occurred. Therefore, the failure system can be separated from the system more quickly and reliably than when the predetermined device is shifted to the stop system only when both devices have successfully received the failure notification. In addition, it is possible to leave a relatively safer device as an operational system.
以下実施例につき本発明を詳細に説明する。 Hereinafter, the present invention will be described in detail with reference to examples.
図1は、本発明の一実施例における二重化システムの構成を表わしたものである。この二重化システム100は、第1の装置101と第2の装置102の2つの装置を用いて通信システムを二重化したデュプレックスシステムを構成している。ここで第1の装置101は運用系となっており、通信路103または通信路104に接続された第1の切替スイッチ105および第2の切替スイッチ106が共に第1の装置101側に接続されている。第2の装置102は、待機系となっている。
FIG. 1 shows a configuration of a duplex system according to an embodiment of the present invention. The
第1の装置101は第1の切替スイッチ105側に第1の入出力部11111を配置しており、第2の切替スイッチ106側に第1の入出力部11112を配置している。第2の装置102は第1の切替スイッチ105側に第2の入出力部11121を配置しており、第2の切替スイッチ106側に第2の入出力部11122を配置している。
The
第1の装置101は、系の状態を制御する第1の系状態制御部1121を備えており、この内部にはCPU(Central Processing Unit)1131と、このCPU1131が実行する制御プログラムを格納したメモリ1141が配置されている。また、第1の装置101は、第1の系間通信対応部1161と、自系の障害監視を行う第1の障害監視部1171を備えている。
The
第2の装置102も同様の構成となっている。すなわち、第2の装置102は、系の状態を制御する第2の系状態制御部1122を備えており、この内部にはCPU1132と、このCPU1132が実行する制御プログラムが格納されたメモリ1142が配置されている。また、第2の装置102は、第2の系間通信対応部1162と、自系の障害監視を行う第2の障害監視部1172を備えている。
The
第1の系間通信対応部1161と第2の系間通信対応部1162は、系間リンク121によって接続されている。系間リンク121は、第1の系間通信対応部1161と第2の系間通信対応部1162の間で同期シーケンス用の通信を行うために使用される。また、第1の障害監視部1171と第2の障害監視部1172は、障害監視リンク122によって接続されている。障害監視リンク122は、第1の装置101と第2の装置102のいずれかに障害が発生したときこれを両系の第1の障害監視部1171と第2の障害監視部1172にハードウェア割り込みによって通知するために使用される。
The first inter-system
第1の装置101と第2の装置102は、系の切り替えに関するデータの共通した記憶領域として装置状態情報格納部123を備えている。装置状態情報格納部123は、第1の装置領域1241と第2の装置領域1242を備えている。第1の装置101は第1の装置領域1241を参照したり、第1の装置領域1241に書き込みができるが、第2の装置領域1242からはデータの参照のみが可能である。同様に、第2の装置102は第2の装置領域1242を参照したり、第2の装置領域1242に書き込みができるが、第1の装置領域1241からはデータの参照のみが可能である。装置状態情報格納部123に格納されているデータに更新があると、第1の装置領域1241と第2の装置領域1242のいずれに対しても、状態の更新の通知が行われるようになっている。装置状態情報格納部123には、たとえば第1の装置101と第2の装置102がそれぞれ現時点で運用系であるか、待機系であるか、あるいは停止系であるかといった情報が格納されるようになっている。
The
このような本実施例の二重化システム100で障害が発生して系の切り替えを行う場合を説明する。本実施例の説明を行う前に、本発明に関連する技術として一般に行われている系の切り替えのためのシーケンスを説明する。
A case will be described in which a failure occurs in the
図2は一般に行われている2つの系の切替シーケンスを表わしたものである。この図2に示したように、図1に示した第1の装置101に対応する運用系201と、第2の装置102に対応する待機系202が存在するものとする。この図2では、図の上から下方向に時間が経過しているものとする。
FIG. 2 shows a switching sequence of two systems generally performed. As shown in FIG. 2, it is assumed that there is an
ある時刻t1に運用系201に障害203が発生したものとする。すると、その後の時刻t2に、ハードウェアからの運用系障害通知の割り込みが運用系201と待機系202に対して行われる(ステップS301)。運用系201と待機系202がこの障害割り込みを正しく受信したとする。
It is assumed that a
すると、互いの状態情報を認識して、正常系としての待機系202は障害系としての運用系201に対して同期動作が可能であるかどうかの問い合わせ(チェック)を行う(ステップS302)。これに対して運用系201から同期動作がOK(肯定)であるという返答が待機系202に届いたものとする(ステップS303)。これを基にして待機系202は運用系201に対して、停止系に推移するための状態の推移を要求する(ステップS304)。この要求を運用系201が受信すると、自系の状態を変更処理して(ステップS305)、停止系201′に推移し、停止系推移完了通知を待機系202に送出することになる(ステップS306)。
Then, the mutual status information is recognized, and the
待機系202はこの停止系推移完了通知を受信すると、自系の状態を変更処理して(ステップS307)、待機系202から運用系202′に推移する。そして、運用系推移完了通知を停止系201′に送出することになる(ステップS308)。以上の処理が終了すると、停止系201′がシステムから切り離される。
When the
ところで、図2に示したこのような処理の手順が採られた場合には、ステップS301で示したようにハードウェアからの運用系障害通知の割り込みが運用系201と待機系202の双方で成功する必要がある。このような割り込みが運用系201と待機系202の双方で成功すれば、その後に、待機系202側が同期動作チェックを行うことで(ステップS302)、運用系201へ停止系201′への推移を要求することができる。
By the way, when the procedure of such processing shown in FIG. 2 is adopted, as shown in step S301, the interruption of the operation system failure notification from the hardware succeeds in both the
ところが、ハードウェアからの運用系障害通知の割り込みが運用系201と待機系202のうちの片方のみしか成功しない場合があり得る。この場合には、図2に示した状況とは異なってくる。すなわち、図2に示した本発明に関連する技術で、ある時刻t1に運用系201に障害203が発生したにもかかわらず、その後の時刻t2に、ハードウェアからの運用系障害通知の割り込み204を運用系201が正しく受信できなかったとする。この場合にはステップS304で待機系202から運用系201に対して、停止系に推移するための状態の推移の要求があったとしても、これが正しい要求であるかの判断ができない。待機系202に障害(図示せず)が発生してこのような停止系への推移の要求があったとすれば、運用系がステップS305で自系状態変更処理を行って停止系201′に変更してしまうと、運用系がどこにも存在しなくなってしまう恐れがある。
However, there may be a case where only one of the
一方、ある時刻t1に運用系201に障害203が発生したとき、その後の時刻t2に、ハードウェアからの運用系障害通知の割り込み205を待機系202が正しく受信できなかったとする。この場合、待機系202はステップS302の同期動作チェックを開始することができないので、ステップS307の自系状態変更処理を行うことができず、運用系202′に変更することができない。
On the other hand, when the
本実施例では、図2を基にして説明したこのような本発明に関連する技術に存在する問題点を解消している。すなわち、図1に示した本実施例の二重化システム100は、図2で示したステップS302〜ステップS304のプロセスを行わず、障害の通知についての割り込み204、205を受けた装置(第1の装置101あるいは第2の装置102)が自系の状態を制御するようにしている。
In the present embodiment, such a problem existing in the technology related to the present invention described with reference to FIG. 2 is solved. That is, the
図3は、本実施例で障害が発生したときの第1の装置と第2の装置のそれぞれの処理の様子を表わしたものである。このような処理は、図1に示した第1または第2の装置101、102内のCPU1131、1132が自装置のメモリ1141、メモリ1142に格納された制御プログラムをそれぞれ実行することによって実現する。図1および図2を用いて説明を行う。ただし、図2の運用系201は初期的に第1の装置101であり、待機系202は初期的に第2の装置102である。
FIG. 3 shows the state of processing of each of the first device and the second device when a failure occurs in this embodiment. In such processing, the
時刻t1に運用系の第1の装置101あるいは待機系の第2の装置102で障害が発生したものとする。第1の装置101にとりあえず着目する。図2で説明したように第1の装置101は、時刻t1の障害203の発生に基づいて、時刻t2にハードウェアからの障害通知の割り込み204の処理を受ける。第1の装置101がこの割り込み204を正しく受信できたものとする(ステップS401:Y)。すると、第1の装置101は自系に障害が検出されたかを判別する(ステップS402)。
It is assumed that a failure has occurred in the active
この結果、図2に示したように自系である運用系201に障害が検出されたものとする(ステップS402:Y)。この場合、第1の装置101は図2のステップS302〜ステップS304の処理を行うことなく、直ちに自系状態変更処理(ステップS305)を行って、運用系から停止系に推移する(ステップS403)。そして、停止系推移完了通知(ステップS306)を他系としての第2の装置102に送出する(ステップS404)。ここで停止系推移完了通知とは、たとえばハードウェアのスイッチがオン・オフの状態を現在(たとえばオン)の状態から他方の状態(この例の場合にはオフ)に切り替えるものであってもよい。この例の場合には、スイッチの状態が切り替わったことを第2の装置102が検出することで、停止系推移完了通知を受信したことになる。
As a result, it is assumed that a failure has been detected in the
図4は、運用系の障害を運用系自身が検出したこのような場合の処理を表わしている。時刻t1に運用系201である第1の装置101に障害203が発生して、時刻t2にハードウェアからの障害通知の割り込み204の処理を受ける。この結果、第1の装置101は自系状態変更処理(ステップS403)を行って、運用系201から停止系201′に推移する(ステップS403)。そして、停止系推移完了通知(ステップS306)を待機系202の第2の装置102に送出する。図4でこれ以外の部分については後に説明する。
FIG. 4 shows processing in such a case where the active system itself detects a failure in the active system. At time t 1 , a
図3に戻って、第1の装置101がハードウェアからの障害通知の割り込み204処理を受けたものの、自系の障害が検出されなかった場合の処理(ステップS402:N)について説明する。この場合には他系に障害が発生している。そこで、この他系を停止系に推移させるための他系停止系推移処理を実行する(ステップS405)。そして、第1の装置101は自系が運用系となっているかを判別する(ステップS406)。第1の装置101は運用系となっている(Y)。また、障害は待機系の方で発生している。したがって、第1の装置101は運用系の状態を保持して処理を終了する(エンド)。
Returning to FIG. 3, description will be made on the processing (step S402: N) in the case where the
図5は、待機系の障害を運用系が検出したこのような場合の処理を表わしている。時刻t1に待機系である第2の装置102に障害211が発生する。これを基にして、時刻t2にハードウェアからの障害通知の割り込み204が第1の装置101で受信される(ステップS401:Y)。第1の装置101はその後の時刻t3に第2の装置102に対して他系停止系推移処理を実行することになる(ステップS405)。図5でこれ以外の部分については後に説明する。
FIG. 5 shows processing in such a case where the active system detects a failure in the standby system. A
図3に戻って、障害が発生したことを受信したものの自系には障害が検出されず、かつ自系は運用系でなかった場合の処理(ステップS406:N)について説明する。この場合、運用系に障害が発生している。そこで、停止系推移完了通知の受信を待って(ステップS407)、受信したら(Y)、自系状態変更処理を行って自系を運用系に推移させる(ステップS408)。そして、自系が運用系になったことを運用系推移完了通知として他系に送出する(ステップS409)。このようにして、たとえば運用系であった第1の装置101に障害が発生したときには、待機系であった第2の装置102が運用系に推移することになる。
Returning to FIG. 3, description will be given of processing (step S406: N) in the case where the failure is detected in the own system but the own system is not the active system although it has been received that the failure has occurred. In this case, a failure has occurred in the active system. Therefore, after receiving the stop system transition completion notification (step S407), if received (Y), the host system is changed to the active system by performing the host system state change process (step S408). Then, the fact that the own system has become the active system is sent to the other system as an active system transition completion notification (step S409). In this way, for example, when a failure occurs in the
図6は、運用系の障害を基に、待機系が運用系に推移する上記のような場合の処理を表わしている。時刻t1に運用系201である第1の装置101に障害203が発生し、時刻t2に待機系202である第2の装置102が障害通知の割り込み205を受信し(ステップS401:Y)、自系に障害がないことを判別する(ステップS402:N)。この場合、第2の装置102は時刻t3に第1の装置101に対して他系停止系推移処理を実行する(ステップS405)。そして、第1の装置101が運用系201から停止系201′に推移して、時刻t4に停止系推移完了通知(ステップS306)を送ってくる。第2の装置102は停止系推移完了通知(ステップS306)を受信して(ステップS407:Y)、自系状態変更処理(ステップS307)を行って運用系202′に推移する(ステップS408)。そして、時刻t5に運用系推移完了通知(ステップS308)を他系としての第1の装置101に送出することになる(ステップS409)。
FIG. 6 shows processing in the above case where the standby system changes to the active system based on the failure of the active system. At time t 1 , the
以上、図3で障害通知割り込みを受けた側の装置の動作について説明した。次に、障害が発生したにも係らず、これを運用系と待機系の片方のみが受信するような場合に着目してその説明を行う。ハードウェアからの障害通知割り込みが発生したときで、運用系と待機系の一方がこの割り込みを認識し、他方が認識しないとされる場合は、次の4通りが考えられる。
(a)運用系の障害を待機系が認識できない場合(運用系の障害を運用系のみが検出)(図4)
(b)待機系の障害を運用系が認識できない場合(待機系の障害を待機系のみが検出)(図7)
(c)運用系の障害を運用系が認識できない場合(運用系の障害を待機系のみが検出)(図6)
(d)待機系の障害を待機系が認識できない場合(待機系の障害を運用系のみが検出)(図5)
The operation of the device on the side that received the failure notification interrupt has been described above with reference to FIG. Next, a description will be given focusing on the case where only one of the active system and the standby system receives a fault despite the occurrence of a failure. When a failure notification interrupt from hardware occurs, when one of the active system and the standby system recognizes this interrupt and the other does not recognize it, the following four methods are conceivable.
(A) When the standby system cannot recognize the active system failure (only the active system detects the active system failure) (Fig. 4)
(B) When the active system cannot recognize the failure of the standby system (only the standby system detects the failure of the standby system) (FIG. 7)
(C) When the active system cannot recognize the active system failure (only the standby system detects the active system failure) (FIG. 6)
(D) When the standby system cannot recognize the standby system failure (only the active system detects the standby system failure) (FIG. 5)
本実施例では、図2で説明した例と異なり、一方の系のみが障害通知の割り込みを正しく受信した場合であっても、系を適正に推移させることができる。なお、待機系の障害を運用系が認識できない場合の例としての図7は、後に説明する。 In the present embodiment, unlike the example described with reference to FIG. 2, even when only one of the systems correctly receives the failure notification interrupt, the system can be appropriately shifted. Note that FIG. 7 as an example in which the active system cannot recognize a standby system failure will be described later.
図3では、このように障害通知の割り込みを受信できなかった装置が適切な系に推移できるように、障害通知割り込みが行われなかった場合の処理についても定めている。まず第1として、図4に示したように自系(この例では待機系102)が障害通知割り込みに失敗した場合で(ステップS401:N)、時刻t4に停止系推移完了通知を他系が送ってきた場合(ステップS410:Y)を説明する。この場合、その他系がその系の障害203によって運用系から停止系に推移しているので(ステップS403、ステップS404参照)、待機系102は自系状態変更処理(ステップS307)を行って、自系を運用系202′に推移させる処理を行う。
In FIG. 3, processing when a failure notification interrupt is not performed is also defined so that a device that has not received a failure notification interrupt can transition to an appropriate system. As a first, as shown in FIG. 4 autologous in case of failed failure notification interrupt (
すなわち、図4の第2の装置102が時刻t2のハードウェアからの運用系の障害通知を受け取れなかった例では、停止系推移完了通知を第1の装置101から時刻t4に受信することで、第2の装置102は自系状態変更処理(ステップS307)を行って、運用系202′に推移することができる(ステップS408)。そして、時刻t5に、運用系推移完了通知(ステップS308)を停止系となった第1の装置101に送出して(ステップS409)、系の変更に伴う処理を終了させることになる(エンド)。
That is, in the example in which the
次に、障害通知割り込みを処理できない状態で(ステップS401:N)、他系停止推移処理の実行が求められた場合には(ステップS410:N、ステップS411:Y)、他系による停止系推移処理が実行されて自系が停止系に推移する処理(ステップS412)と、停止系推移完了通知(ステップS413)が実行される。 Next, in a state where the failure notification interrupt cannot be processed (step S401: N), when execution of other system stop transition processing is requested (step S410: N, step S411: Y), stop system transition by another system A process (step S412) in which the own system transitions to the stop system after the process is executed and a stop system transition completion notification (step S413) are executed.
これを、図5に示した例で説明する。この例では、待機系202としての第2の装置102が障害211の発生に対する時刻t2の割り込み処理に失敗する(ステップS401:N)。しかしながら、この例では運用系201としての第1の装置101が時刻t2に割り込み204を行う(ステップS401:Y)。第1の装置101は自系に障害が検出されないので(ステップS402:N)、時刻t3に第2の装置102に対して他系停止系推移処理を実行することになる(ステップS405)。
This will be described with reference to the example shown in FIG. In this example, the
したがって、第2の装置102ではこの時刻t3に他系停止推移処理が実行されることになり(ステップS411:Y)、自系の障害発生を結果的に判別することになる。そこで、第2の装置102は他系停止系推移処理によって停止系202′′に推移する(ステップS405)。そして、その後の時刻t4に停止系推移完了通知(ステップS306)を第1の装置101に送出して(ステップS413)、系の変更に伴う処理を終了させる(エンド)。
Accordingly, the
最後に、図7に示した待機系の障害を運用系が認識できない場合の動作を図3と共に説明する。この例では、時刻t1に待機系202である第2の装置102に障害211が発生して、時刻t2にハードウェアからの障害通知の割り込み205の処理を第2の装置102のみが受けとっている。
Finally, the operation when the active system cannot recognize the standby system failure shown in FIG. 7 will be described with reference to FIG. In this example, a
まず、待機系202としての第2の装置102側に着目した処理を説明する。第2の装置102は時刻t2にハードウェアからの障害通知の割り込み205の処理を受信する(ステップS401:Y)。この例で、第2の装置102は自系に障害を検出する(ステップS402:Y)。そこで、第2の装置102は図2のステップS302〜ステップS304の処理を行うことなく、直ちに自系状態変更処理を行って(ステップS403)、待機202系から停止系202′′に推移する。そして、時刻t4に停止系推移完了通知(ステップS306)を他系としての第2の装置102に送出することになる(ステップS404)。
First, processing focusing on the
次に、この図7で運用系201としての第1の装置101側に着目した処理を説明する。第1の装置101は時刻t2にハードウェアからの障害通知の割り込み処理を受信することができない(ステップS401:N)。したがって、当面の間は第2の装置102側の障害発生の事実を知らない。しかしながら、第2の装置102が自装置の処理で待機系202から停止系202′′に推移して、時刻t4に停止系推移完了通知が第1の装置101に送られてくる。したがって、この時点で運用系201としての第1の装置101は第2の装置102が停止系202′′に推移したことを知ることができる。
Next, processing focusing on the
以上説明したように本実施例によれば、障害箇所によりシーケンス同期が取れないような場合でも、正常な系を運用系としてサービスの続行ができるという効果がある。また、障害箇所により両系の認識する装置状態に不一致が発生した場合でも、正常な系を運用系としてサービスの続行ができるという効果がある。更に、障害箇所のために障害系が自身の障害を認識できない場合でも、これを危険な系として正しくシステムから切り離すことができるという効果がある。更にまた、強制的な系切替に伴う状態変更通知により、両系が正しく状態を認識できる機会が増えるという効果もある。 As described above, according to the present embodiment, there is an effect that even if sequence synchronization cannot be achieved due to a failure location, the service can be continued with the normal system as the active system. In addition, even if a mismatch occurs between the device states recognized by both systems due to the failure location, there is an effect that the service can be continued with the normal system as the active system. Furthermore, even if the faulty system cannot recognize its own fault due to the fault location, there is an effect that it can be correctly separated from the system as a dangerous system. Furthermore, there is an effect that the opportunity for both systems to correctly recognize the state is increased by the state change notification accompanying forced system switching.
なお、以上説明した実施例では、装置状態情報格納部123を第1の装置101と第2の装置102の双方に接続された装置のように示したが、第1の装置領域1241および第2の装置領域1242がそれぞれの装置101、102の運用系、待機系等の現状を反映させ、かつそれぞれの書き込みや読み出しが制限の範囲で可能であれば、どのような回路構成をとってもよいことは当然である。
In the embodiment described above, the device state
101 第1の装置
102 第2の装置
105 第1の切替スイッチ
106 第2の切替スイッチ
1121 第1の系状態制御部
1122 第2の系状態制御部
1131、1132 CPU
1171 第1の障害監視部
1172 第2の障害監視部
122 障害監視リンク
123 装置状態情報格納部
1241 第1の装置領域
1242 第2の装置領域
101
117 1 First
Claims (7)
この障害発生伝達手段によって自装置が障害発生の通知を受けとることに成功したとき、その通知内容から自装置と他装置のいずれの側に障害が発生したかを判別する障害発生源判別手段と、
この障害発生源判別手段により判別された障害が発生した側の装置を前記データ処理システムの運用系あるいは待機系のいずれかから前記データ処理システムから切り離される停止系に無条件に変更する停止系推移処理を実行する停止系推移手段
とを具備することを特徴とする二重化装置。 Occurrence of a failure that transmits a failure notification from a location where the failure occurs on either side of the device itself or another device as a set of devices constituting a duplex data processing system via a predetermined transmission path A transmission means;
When the own device succeeds in receiving the notification of the occurrence of the failure by the failure occurrence transmission means, the failure occurrence source determining means for determining which side of the own device or the other device a failure has occurred from the notification content;
Stop system transition for unconditionally changing the apparatus on the failure side determined by the failure source determination means from either the operation system or standby system of the data processing system to the stop system disconnected from the data processing system A duplexer comprising: stop system transition means for executing processing.
この障害発生伝達手段によって自装置が障害発生の通知を受けとることに成功したとき、その通知内容から自装置と他装置のいずれの側に障害が発生したかを判別する障害発生源判別手段と、
この障害発生源判別手段により判別された障害が発生した側が自装置であるとき自装置を前記データ処理システムの運用系あるいは待機系のいずれかから前記データ処理システムから切り離される停止系に無条件に変更する自系状態変更処理を実行する自系状態変更手段
とを具備することを特徴とする二重化装置。 Occurrence of a failure that transmits a failure notification from a location where the failure occurs on either side of the device itself or another device as a set of devices constituting a duplex data processing system via a predetermined transmission path A transmission means;
When the own device succeeds in receiving the notification of the occurrence of the failure by the failure occurrence transmission means, the failure occurrence source determining means for determining which side of the own device or the other device a failure has occurred from the notification content;
When the failure occurrence side determined by the failure source determination unit is the own device, the own device is unconditionally changed to a stop system that is disconnected from the operation system or standby system of the data processing system from the data processing system. A duplexer comprising: a host system state changing unit that executes a host system state changing process to be changed.
この障害発生伝達手段によって自装置が障害発生の通知を受けとることに成功したとき、その通知内容から自装置と他装置のいずれの側に障害が発生したかを判別する障害発生源判別手段と、
この障害発生源判別手段により判別された障害が発生した側が他装置であるときこの他装置を前記データ処理システムの運用系あるいは待機系のいずれかから前記データ処理システムから切り離される停止系に無条件に変更する他系停止系推移処理を実行する他系停止系推移処理手段
とを具備することを特徴とする二重化装置。 Occurrence of a failure that transmits a failure notification from a location where the failure occurs on either side of the device itself or another device as a set of devices constituting a duplex data processing system via a predetermined transmission path A transmission means;
When the own device succeeds in receiving the notification of the occurrence of the failure by the failure occurrence transmission means, the failure occurrence source determining means for determining which side of the own device or the other device a failure has occurred from the notification content;
When the failure occurrence side determined by the failure source determination unit is another device, the other device is unconditionally set to a stop system that is disconnected from the data processing system from either the operation system or the standby system of the data processing system. A duplexer comprising: another system stop system transition processing means for executing another system stop system transition process to be changed to
この通知受信ステップによって自装置が障害発生の通知を受けとることに成功したとき、その通知内容から自装置と他装置のいずれの側に障害が発生したかを判別する障害発生源判別ステップと、
この障害発生源判別ステップにより障害が発生した側が自装置であると判別したとき自装置を前記データ処理システムの運用系あるいは待機系のいずれかから前記データ処理システムから切り離される停止系に無条件に変更する自系状態変更処理を実行する自系状態変更ステップと、
前記障害発生源判別ステップにより障害が発生した側が他装置であると判別されたときこの他装置を前記データ処理システムの運用系あるいは待機系のいずれかから前記データ処理システムから切り離される停止系に無条件に変更する他系停止系推移処理を実行する他系停止系推移処理ステップ
とを具備することを特徴とする障害時系切替方法。 Occurrence of a failure that transmits a failure notification from a location where the failure occurs on either side of the device itself or another device as a set of devices constituting a duplex data processing system via a predetermined transmission path A transmission step;
A failure occurrence source determination step for determining whether a failure has occurred on either the own device or another device from the notification content when the own device has successfully received a notification of the occurrence of a failure by the notification reception step;
When it is determined by the failure source determination step that the failure side is the own device, the own device is unconditionally set to a stop system that is disconnected from the data processing system from either the operating system or the standby system of the data processing system. A host system state changing step for executing the host system state changing process to be changed;
When it is determined by the failure source determination step that the failure side is another device, the other device is not included in the stop system that is disconnected from the data processing system from either the operating system or the standby system of the data processing system. A faulty system switching method comprising: an other system stop system transition processing step for executing another system stop system transition process to be changed to a condition.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007155074A JP5061739B2 (en) | 2007-06-12 | 2007-06-12 | Data processing device, redundant device, failure time system switching method and failure time system switching program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007155074A JP5061739B2 (en) | 2007-06-12 | 2007-06-12 | Data processing device, redundant device, failure time system switching method and failure time system switching program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008310411A true JP2008310411A (en) | 2008-12-25 |
JP5061739B2 JP5061739B2 (en) | 2012-10-31 |
Family
ID=40237983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007155074A Expired - Fee Related JP5061739B2 (en) | 2007-06-12 | 2007-06-12 | Data processing device, redundant device, failure time system switching method and failure time system switching program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5061739B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013520748A (en) * | 2010-02-26 | 2013-06-06 | アリババ・グループ・ホールディング・リミテッド | Software hot deployment |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04262428A (en) * | 1991-02-15 | 1992-09-17 | Nec Corp | Hot standby system |
JPH0962303A (en) * | 1995-08-24 | 1997-03-07 | Mitsubishi Electric Corp | Duplex controller |
WO1999026138A1 (en) * | 1997-11-14 | 1999-05-27 | Hitachi, Ltd. | Method of changing over a multiplex system |
JPH11265321A (en) * | 1998-03-16 | 1999-09-28 | Oki Electric Ind Co Ltd | Fault restoring method central processing unit and central processing system |
-
2007
- 2007-06-12 JP JP2007155074A patent/JP5061739B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04262428A (en) * | 1991-02-15 | 1992-09-17 | Nec Corp | Hot standby system |
JPH0962303A (en) * | 1995-08-24 | 1997-03-07 | Mitsubishi Electric Corp | Duplex controller |
WO1999026138A1 (en) * | 1997-11-14 | 1999-05-27 | Hitachi, Ltd. | Method of changing over a multiplex system |
JPH11265321A (en) * | 1998-03-16 | 1999-09-28 | Oki Electric Ind Co Ltd | Fault restoring method central processing unit and central processing system |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013520748A (en) * | 2010-02-26 | 2013-06-06 | アリババ・グループ・ホールディング・リミテッド | Software hot deployment |
Also Published As
Publication number | Publication date |
---|---|
JP5061739B2 (en) | 2012-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11809291B2 (en) | Method and apparatus for redundancy in active-active cluster system | |
US7467322B2 (en) | Failover method in a cluster computer system | |
JP5287974B2 (en) | Arithmetic processing system, resynchronization method, and farm program | |
JP5061739B2 (en) | Data processing device, redundant device, failure time system switching method and failure time system switching program | |
US9524259B2 (en) | Method for operating an automation device to reduce dead time on account of a physical interruption in a ring or a failed unit | |
TWI434159B (en) | Dual system control device | |
JP5176914B2 (en) | Transmission device and system switching method for redundant configuration unit | |
JP2003345620A (en) | Process monitoring method for multi-node cluster system | |
JP6654662B2 (en) | Server device and server system | |
JP2000020336A (en) | Duplex communication system | |
JP2013254333A (en) | Multiple system control system and control method therefor | |
JP4507875B2 (en) | Multiplexer and legacy device multiplexing method | |
KR100303344B1 (en) | A method for managing protocol and system switching priority for system redundancy | |
JP2007172172A (en) | Fiber channel switch, and computer system using same | |
JP2012150555A (en) | Monitor system | |
JP2007026038A (en) | Path monitoring system, path monitoring method and path monitoring program | |
JP2002373084A (en) | Method for both exchanging states and detecting failure of duplex system | |
US11652683B2 (en) | Failure notification system, failure notification method, failure notification device, and failure notification program | |
JP2011028481A (en) | Fault tolerant server, processor switching method, and processor switching program | |
JPH06222944A (en) | Switching control method for duplexed electronic computer system | |
JP2007072980A (en) | Computer control system | |
JP2000222233A (en) | Duplex system, and active system and stand-by system switching method | |
US20180309663A1 (en) | Information processing apparatus, information processing system, and information processing method | |
WO2010070713A1 (en) | Information processing device and control method | |
KR100426841B1 (en) | Method of Controlling Duplexed Processors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100514 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120424 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120710 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120723 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150817 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |