JP2010282326A - Information processing system, failure countermeasure mechanism for the same, and failure countermeasure method for the same - Google Patents
Information processing system, failure countermeasure mechanism for the same, and failure countermeasure method for the same Download PDFInfo
- Publication number
- JP2010282326A JP2010282326A JP2009133837A JP2009133837A JP2010282326A JP 2010282326 A JP2010282326 A JP 2010282326A JP 2009133837 A JP2009133837 A JP 2009133837A JP 2009133837 A JP2009133837 A JP 2009133837A JP 2010282326 A JP2010282326 A JP 2010282326A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- computer device
- information processing
- processing system
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、コンピュータ装置とディスクアレイ装置とを接続して構成した情報処理システムに関し、特にコンピュータ装置の障害対応機構及び障害対応方法に関する。 The present invention relates to an information processing system configured by connecting a computer device and a disk array device, and more particularly to a failure handling mechanism and a failure handling method for a computer device.
今日、コンピュータネットワークを構成する情報処理システムは社会的な重要性が増大し、高い可用性と信頼性が要求されている。例えばサーバーシステムにおいては、サーバーに障害が発生した場合には、管理者への通知、誤動作防止のため障害発生サーバーの停止、復旧処置などの対応を迅速に行う必要がある。 Today, information processing systems constituting computer networks are becoming more socially important and require high availability and reliability. For example, in a server system, when a failure occurs in a server, it is necessary to promptly respond to the administrator, stop the failed server, and take recovery measures to prevent malfunction.
近年ではサーバーシステムの障害対策として、フェイルオーバー機能の導入が一般的になっている。フェイルオーバーとは、サーバーに障害が発生した場合に代替サーバーが処理やデータを自動的に引き継ぐ機能である。具体的には例えば、予備を含む複数のサーバーを共通のディスクアレイ装置に接続し、各サーバーはディスクアレイ装置内の論理ディスクをマウントして処理を実行できるシステム構成とする。運用中のサーバーに障害が発生した場合には、予備サーバーが当該論理ディスクをマウントして運用サーバーの処理を引き継ぐことができる。 In recent years, the introduction of a failover function has become common as a countermeasure for failure of server systems. Failover is a function in which an alternative server automatically takes over processing and data when a failure occurs in the server. Specifically, for example, a plurality of servers including spares are connected to a common disk array device, and each server has a system configuration in which a logical disk in the disk array device is mounted and processing can be executed. When a failure occurs in the operating server, the spare server can mount the logical disk and take over the processing of the operating server.
なおフェイルオーバーには、コールドスタンバイおよびホットスタンバイと呼ばれる方式がある。 Note that there are methods called failover and hot standby for failover.
コールドスタンバイは、通常稼動させる運用サーバーの他に、同等のサーバーを用意しておき、予備サーバーとして稼動させずに待機させておく。もし運用サーバーに障害が発生した場合は、予備サーバーが自動的に稼動し、運用サーバーに替わって処理を開始する。この方式はサーバーの切り替えに若干時間がかかり、切り替え中はシステムが停止することになる。特許文献1にはコールドスタンバイ方式においてフェイルオーバーを実行するまでのシステム停止時間を短縮するための技術の例が開示されている。特許文献1のコールドスタンバイ方式フェイルオーバーは、運用サーバーや予備サーバーとは別に管理用のサーバーを用意し、当該管理サーバーが系切り替えのための情報管理や制御を実施する構成となっている。
In cold standby, an equivalent server is prepared in addition to the operation server that is normally operated, and the standby server is not operated as a spare server. If a failure occurs in the operation server, the spare server automatically operates and starts processing in place of the operation server. This method takes some time to switch servers, and the system stops during switching.
一方ホットスタンバイは、コールドスタンバイとは異なり、予備サーバーは運用サーバーとともに常に稼動させておき、運用サーバーに障害が発生した場合には即座に予備サーバーを運用サーバーとして切り替える方式である。ホットスタンバイはコールドスタンバイよりコストはかかるが、より高い可用性と信頼性を得ることができる。特許文献2にはホットスタンバイ方式フェイルオーバーの例が開示されている。特許文献2が開示する技術は、運用サーバーと予備サーバーとが常に互いの動作状態を監視し、かつ処理のステータス情報を共有し、運用サーバーに障害が発生しても無停止で予備サーバーに処理を引き継ぐシステムである。 On the other hand, unlike the cold standby, the hot standby is a system in which the spare server is always operated together with the operation server, and when a failure occurs in the operation server, the spare server is immediately switched as the operation server. Hot standby costs more than cold standby, but can provide higher availability and reliability. Patent Document 2 discloses an example of hot standby type failover. The technology disclosed in Patent Document 2 is such that the operation server and the spare server always monitor each other's operating state and share processing status information, so that even if a failure occurs in the operation server, the operation is performed without interruption. It is a system that takes over.
しかしながら上述したホットスタンバイ方式フェイルオーバー技術は、障害の監視や障害発生時の系切り替え等の対応をサーバー側が主体的に行っているため、実際の運用上、障害の内容や発生状況によっては以下の問題を生じる場合があった。 However, the above-mentioned hot standby method failover technology is mainly handled by the server side, such as failure monitoring and system switchover in the event of a failure. It sometimes caused problems.
第1の問題点は、運用サーバーに障害が発生し、ディスクアレイ装置内の論理ディスクをマウントしたまま応答不能になると、予備サーバーへの系切り替えが上手く行えない場合があることである。 The first problem is that when a failure occurs in the operation server and the response becomes impossible while the logical disk in the disk array device is mounted, the system switching to the spare server may not be performed successfully.
その理由は、予備サーバーが処理の引き継ぎのために、運用サーバーがマウントしていた論理ディスクをマウントしようとすると、ディスクアレイ装置からはこれが二重マウントの要求に見え、マウントを妨げる場合があるからである。従って予備サーバーは運用サーバーの障害は検出したものの、ディスクアレイ装置内の論理ディスクをマウントできずサービス継続不能となる。 The reason is that if the spare server tries to mount the logical disk mounted by the primary server to take over the processing, this appears to the disk array device as a double mount request and may prevent the mount. It is. Therefore, although the spare server detects a failure of the operation server, the logical disk in the disk array device cannot be mounted and the service cannot be continued.
第2の問題点は、系切り替えが正常に行われても、故障として系切り替えを実施されていた当初の運用サーバーが、その後リブートなどにより突然復旧すると、論理ディスクのデータを破壊する場合があることである。 The second problem is that even if the system switchover is performed normally, if the original operation server that had been switched over as a failure suddenly recovers after a reboot, the logical disk data may be destroyed. That is.
その理由は、当初の運用サーバーは障害発生時にディスクアレイ装置内の論理ディスクをマウントした状態を解除できずに停止しており、復旧すると再びその論理ディスクに対してアクセスを開始するためである。すなわち復旧した当初の運用サーバーが、現行の運用サーバーがマウントしている論理ディスクに対して、再びアクセスすることにより二重マウントが起きる場合がありデータが破壊されうる。 The reason is that the original operation server is stopped without releasing the mounted state of the logical disk in the disk array device when a failure occurs, and starts to access the logical disk again after recovery. That is, when the restored original operational server accesses the logical disk mounted by the current operational server again, double mounting may occur, and data may be destroyed.
本発明の目的は、上記問題を解決し、多重化したコンピュータ装置により構成した情報処理システムにおいて、論理ディスクの二重マウント防止が管理されたコンピュータ装置の障害対応機構および障害対応方法を提供することである。 SUMMARY OF THE INVENTION An object of the present invention is to solve the above problems and provide a failure handling mechanism and a failure handling method for a computer device in which prevention of double mounting of logical disks is managed in an information processing system constituted by multiplexed computer devices. It is.
本発明の情報処理システムの障害対応機構は、予備のコンピュータ装置を含む、少なくとも2つのコンピュータ装置を共通の外部記憶装置に接続して構成され、前記予備のコンピュータ装置は常に、運用中のコンピュータ装置と同じ稼動状態を保ちながら待機している、多重化したコンピュータ装置を構成する情報処理システムにおける障害対応機構であって、前記コンピュータ装置の障害発生を個別に監視する監視手段と、前記監視手段が、前記コンピュータ装置のうちのいずれかに障害発生したことを検出した時に、当該障害発生の検出を受けて、当該障害発生したコンピュータ装置からの前記外部記憶装置への入出力アクセスを遮断するアクセス遮断手段と、前記監視手段が、前記コンピュータ装置のうちのいずれかに障害発生したことを検出した時に、当該障害発生の検出を受けて、前記障害発生の情報を前記コンピュータ装置のうち障害発生していないコンピュータ装置に通知する通知手段と、を有する。 The failure handling mechanism of the information processing system of the present invention is configured by connecting at least two computer devices including a spare computer device to a common external storage device, and the spare computer device is always in operation. A failure handling mechanism in an information processing system constituting a multiplexed computer device that is waiting while maintaining the same operating state as the monitoring device, wherein the monitoring unit individually monitors the occurrence of a failure in the computer device, and the monitoring unit includes: An access block that blocks the input / output access to the external storage device from the computer device in which the failure has occurred upon detecting the occurrence of a failure in any of the computer devices And the monitoring means indicate that one of the computer devices has failed. Upon detecting a, it receives the detection of the failure, having, a notification unit that notifies the computer system that is not a failure of the computing device information of the failure.
また本発明の情報処理システムの障害対応方法は、予備のコンピュータ装置を含む、少なくとも2つのコンピュータ装置を共通の外部記憶装置に接続して構成され、前記予備のコンピュータ装置は常に、運用中のコンピュータ装置と同じ稼動状態を保ちながら待機している、多重化したコンピュータ装置を構成する情報処理システムにおける障害対応方法であって、
前記コンピュータ装置の障害発生を個別に監視するステップと、
前記監視手段が、前記コンピュータ装置のうちのいずれかに障害発生したことを検出した時に、当該障害発生の検出を受けて、当該障害発生したコンピュータ装置からの前記外部記憶装置への入出力アクセスを遮断するステップと、
前記監視手段が、前記コンピュータ装置のうちのいずれかに障害発生したことを検出した時に、当該障害発生の検出を受けて、前記障害発生の情報を前記コンピュータ装置のうち障害発生していないコンピュータ装置に通知するステップと、を有する。
The failure handling method for an information processing system according to the present invention is configured by connecting at least two computer devices including a spare computer device to a common external storage device, and the spare computer device is always in operation. A failure handling method in an information processing system that constitutes a multiplexed computer device that is on standby while maintaining the same operating state as the device,
Individually monitoring the occurrence of a fault in the computer device;
When the monitoring unit detects that a failure has occurred in any of the computer devices, the monitoring unit receives the detection of the failure and performs input / output access to the external storage device from the computer device in which the failure has occurred. A blocking step;
When the monitoring means detects that a failure has occurred in any of the computer devices, the computer device that has received the detection of the failure and uses the information on the occurrence of the failure as a computer device in which no failure has occurred. And notifying to.
本発明によれば、多重化したコンピュータ装置を構成する情報処理システムにおいて、運用コンピュータ装置が論理ディスクをマウントしたまま応答不能となった場合でも、予備コンピュータ装置が論理ディスクをマウントするのを妨げられることがなくなる。また障害発生した運用コンピュータ装置が突然復旧した場合でも二重マウントによるデータの破壊を引き起こすことがなくなる。 According to the present invention, in the information processing system constituting the multiplexed computer apparatus, even if the operation computer apparatus becomes unable to respond with the logical disk mounted, the spare computer apparatus is prevented from mounting the logical disk. Nothing will happen. In addition, even if the operation computer apparatus in which the failure occurs suddenly recovers, the data is not destroyed due to the double mount.
次に、本発明の実施の形態について図面を参照して詳細に説明する。 Next, embodiments of the present invention will be described in detail with reference to the drawings.
図1A及び図1Bはそれぞれ、本発明の実施の形態の情報処理システムの障害対応機構及び障害対策方法についての、システム基本構成を示すブロック図および基本動作を示すフローチャートである。 1A and 1B are a block diagram showing a basic system configuration and a flowchart showing a basic operation of a failure handling mechanism and a failure handling method of an information processing system according to an embodiment of the present invention.
図1Aを参照すると、本システムの障害監視機構は、障害監視手段、アクセス遮断手段、障害通知手段を装備している。障害監視手段は、外部記憶装置に接続された各コンピュータ装置の障害発生を個別に監視している。アクセス遮断手段は、運用中のコンピュータ装置のいずれかに障害発生したことを障害監視手段が検出した場合、障害発生したコンピュータ装置からの外部記憶装置への入出力アクセスを遮断する。また障害通知手段も、障害発生の情報を正常に稼動している各コンピュータ装置へ通知する。 Referring to FIG. 1A, the fault monitoring mechanism of this system includes a fault monitoring unit, an access blocking unit, and a fault notification unit. The failure monitoring means individually monitors the occurrence of a failure in each computer device connected to the external storage device. The access blocking means blocks input / output access to the external storage device from the failed computer device when the failure monitoring means detects that a failure has occurred in any of the operating computer devices. The failure notification means also notifies failure information to each computer device that is operating normally.
図1Bは、運用中のコンピュータ装置と予備のコンピュータ装置を含む複数のコンピュータ装置が共通の外部記憶装置に接続され、多重化されたコンピュータ装置で構成した情報処理システムにおける基本動作を示す。運用中の各コンピュータ装置は、外部記憶装置の所定の領域をそれぞれマウントし、運用データにアクセスして処理を実行している。そして予備のコンピュータ装置は、運用中のコンピュータ装置と常に同じ稼動状態を保ちながら、運用中のコンピュータ装置の故障に備えて待機している。 FIG. 1B shows a basic operation in an information processing system constituted by a plurality of computer devices in which a plurality of computer devices including an operating computer device and a spare computer device are connected to a common external storage device. Each computer apparatus in operation mounts a predetermined area of the external storage device, accesses operation data, and executes processing. The spare computer device is on standby for failure of the operating computer device while maintaining the same operating state as the operating computer device.
障害監視手段は、外部記憶装置に接続された各コンピュータ装置の障害発生を個別に監視している。運用中のコンピュータ装置のひとつに障害が発生したのを検出した場合、アクセス遮断手段は障害発生したコンピュータ装置からの外部記憶装置への入出力アクセスを遮断する。さらに障害通知手段により、正常に稼動している各コンピュータ装置に対し、障害発生の情報を通知する。 The failure monitoring means individually monitors the occurrence of a failure in each computer device connected to the external storage device. When it is detected that a failure has occurred in one of the operating computer devices, the access blocking means blocks the input / output access to the external storage device from the failed computer device. Further, the failure notification means notifies the failure occurrence information to each normally operating computer device.
以上のステップを経ることにより、障害発生したコンピュータ装置の処理を引き継ぐべき予備のコンピュータ装置が、障害発生情報の通知を受け、系を切り替え、処理引き継ぎを行う際に、以下の効果が得られる。すなわち予備のコンピュータ装置は、処理引き継ぎのために、障害発生したコンピュータ装置が使用していた外部記憶装置の所定領域をマウントし運用データへのアクセスを行う必要がある。もし障害発生したコンピュータ装置が外部記憶装置をマウントした状態で停止していた場合でも、停止した時点で外部記憶装置は当該コンピュータ装置からの入出力アクセスを遮断されている。従って予備のコンピュータ装置が処置引き継ぎのため外部記憶装置の同じ領域のマウントを行っても二重マウントによる問題は発生しない。このため外部記憶装置は、予備のコンピュータ装置によるマウントを妨げる必要がなく、系の切り替えをスムーズに行うことができる。 Through the above steps, the following effects can be obtained when the spare computer device that should take over the processing of the computer device in which the failure has occurred receives notification of the failure occurrence information, switches the system, and takes over the processing. In other words, the spare computer device needs to mount a predetermined area of the external storage device used by the computer device in which the failure has occurred in order to take over the processing and access the operation data. Even if the computer device in which the failure has occurred is stopped with the external storage device mounted, the input / output access from the computer device is blocked when the external storage device is stopped. Therefore, even if the spare computer device mounts the same area of the external storage device for taking over the procedure, the problem due to the double mounting does not occur. For this reason, the external storage device does not need to prevent mounting by the spare computer device, and can switch the system smoothly.
また障害発生により停止していたコンピュータ装置が、予備のコンピュータ装置が処理を引き継いだ後に不意に動作を再開したとしても、既に外部記憶装置へのアクセスは遮断されているため、再度運用データを処理することができない。従ってこの場合も、二重マウントによりデータが破壊されるという問題は生じない。 Even if a computer that has been stopped due to a failure occurs unexpectedly and resumes operation after the spare computer takes over processing, access to the external storage device is already blocked, so the operation data is processed again. Can not do it. Therefore, in this case as well, there is no problem that data is destroyed by double mounting.
図2は、本発明の実施の形態の具体的なシステム構成の例として、二重化サーバーシステムについてのシステム構成を示す図である。 FIG. 2 is a diagram illustrating a system configuration of a duplex server system as an example of a specific system configuration according to the embodiment of this invention.
コンピュータ装置として運用サーバー10および予備サーバー20は共に一般的なサーバー機能を具備し、外部記憶装置として共通のディスクアレイ装置30にインターフェースを介して接続する。運用サーバー10はディスクアレイ装置の論理ディスクをマウントして処理を実行する。予備サーバー20は運用サーバーが故障したときには直ちに処理を引き継げるよう、稼動状態で待機している。なお運用サーバー10および予備サーバー20は互いの状態を監視できるインターフェースを具備し、相互にデータの同期を取っている。そして運用サーバー10、予備サーバー20およびディスクアレイ装置30は、ホットスタンバイ方式フェイルオーバー機能を備えた二重化システムを構成している。
Both the
ディスクアレイ装置30は、複数のハードディスクから構成される論理ディスク31と、各サーバーからの定期的な書き込み処理がなされる監視ディスク32を具備している。なお監視ディスク32には、運用サーバー10と予備サーバー20とで専用の対象領域を割当て、それぞれ個別に書き込みできるものとしている。各サーバーは監視ディスク装置32へ定期的にアクセスし、アクセス記録を書き込む。ディスクアレイ装置30に装備された障害対応装置40は、障害監視手段として、監視ディスク32への書き込みがあったことをチェックして各サーバーの動作状態を確認する機能を有している。また障害対応装置40は、アクセス遮断手段として、サーバーの異常を検出した際は、異常発生サーバーからの論理ディスク31へのアクセスを遮断する機能を有している。さらに障害対応装置40は、障害通知手段として、正常なサーバー及びシステム管理施設50に異常発生を通知する機能を有している。
The disk array device 30 includes a
次に図3に示したフローチャートによって、本システムを構成する運用サーバー10、予備サーバー20、論理ディスク31、監視ディスク32、障害対応装置40について、具体的な障害対応動作を説明する。
Next, with reference to the flowchart shown in FIG. 3, specific failure handling operations will be described for the
運用サーバー10および予備サーバー20はそれぞれ定期的にディスクアレイ装置30内の監視ディスク32に対してアクセスし、障害監視用データとして、例えば自己のハートビートシグナル符号を書き込む(Step1)。
Each of the
障害対応装置40は当該書き込み処理が定期的に行われていることを監視することにより、各サーバーの正常性を確認する(Step2)。 The failure handling apparatus 40 confirms the normality of each server by monitoring that the writing process is periodically performed (Step 2).
運用サーバーに障害発生し、書き込み処理が途絶すると、障害対応装置40は運用サーバーに障害が発生したと判断する(Step3)。 When a failure occurs in the operation server and the writing process is interrupted, the failure handling apparatus 40 determines that a failure has occurred in the operation server (Step 3).
障害対応装置40は、障害と判断した運用サーバー10の論理ディスク31へのアクセス権を削除することにより、運用サーバー10を切り離す(Step4)。これにより予備サーバー20は運用サーバー10の処理を引き継ぐため論理ディスク31をマウントできるようになる。また停止した運用サーバー10は、その後リブートなどにより不意に再起動することがあっても、もはや論理ディスク31にはアクセスできない。
The failure handling apparatus 40 disconnects the
障害対応装置40は、運用サーバー10の障害発生を予備サーバー20及びシステム管理施設50に対してそれぞれ通知する(Step5)。
The failure handling apparatus 40 notifies the
障害対応装置40より、運用サーバー10の障害発生を通知された予備サーバー20は、直ちに自らが運用サーバーとなるための系切り替え処理を実施する(Step6)。そして予備サーバー20は障害発生した運用サーバー10がマウントしていた論理ディスク31をマウントし、運用サーバー10の処理を引き継ぐ(Step7)。
The
なおStep4での運用サーバー10の論理ディスク31への入出力アクセスの遮断は、障害対応装置40が実施する処理であり、運用サーバー10が再起動したとしても、自動的にアクセスまで復旧することはない。Step5でシステム管理施設に障害発生が通知された後は、システム管理者は復旧のためのオペレーターを手配し、必ず保守作業者の介在のもとに復旧作業が行われる(Step8)。
Note that the block of input / output access to the
このように本実施の形態は、単にサーバー同士が互いの状態を監視することによって障害発生を検出しフェイルオーバー動作を行う場合と異なり、ディスクアレイ装置側が主体で各サーバーの障害発生を検知している。ディスクアレイ装置は障害発生を検知すると直ちに障害発生サーバーとの入出力アクセスを遮断するので二重マウントが起きる場合はなくなる。従って系切り替え時に、予備サーバーによる論理ディスクのマウントをディスクアレイ装置が妨げる動作は不要なものとして排除でき、系切り替えは常にスムーズに行われる。また障害発生した運用サーバーが突然復旧した場合でも、ディスクアレイ装置への入出力アクセスの遮断は自動では復旧しないので、データの破壊などを引き起こすこともなくなる。 As described above, in this embodiment, unlike the case where the server detects each other's state and detects the failure and performs the failover operation, the disk array device mainly detects the failure of each server. Yes. When the disk array device detects the occurrence of a failure, the I / O access to the failed server is cut off immediately, so there is no case where double mounting occurs. Therefore, when the system is switched, the operation that prevents the disk array device from mounting the logical disk by the spare server can be eliminated as unnecessary, and the system switching is always performed smoothly. Even if the operation server where the failure occurred suddenly recovers, the blockage of the input / output access to the disk array device is not automatically recovered, so that the data is not destroyed.
なお上述した本発明の実施の形態は、図3のStep1で各サーバーが監視ディスク32へ書き込む障害監視用データとして、各サーバーのハートビートシグナル符号を用いた場合について説明した。一方、本発明の他の実施の形態として、この障害監視用データとして各サーバーが管理する内部時刻情報を用いることが出来る。この実施の形態では、サーバーに障害が発生して障害監視用データとしての時刻情報の監視ディスク32への書き込みが途絶えた場合に、最後に書き込まれた時刻データから、障害が発生した時刻をある程度特定することができ、障害解析に役立てることが出来るという利点がある。
In the above-described embodiment of the present invention, the case where the heartbeat signal code of each server is used as the failure monitoring data that each server writes to the monitoring disk 32 in
以上、本発明の実施の形態として、二重化されたサーバーシステムについて説明したが、もちろん本発明は3台以上のサーバーが接続され、それらが多重化された一般的なサーバーシステムにおいても同様に使用することができる。すなわち、図3において運用サーバー10や予備サーバー20が多数存在したとしても、障害対応装置40は図1Bのフローに基づき各サーバーの障害発生に個別に対応する手順を実施すればよい。
As described above, the redundant server system has been described as an embodiment of the present invention. Of course, the present invention is similarly used in a general server system in which three or more servers are connected and multiplexed. be able to. That is, even if there are a large number of
10 運用サーバー
20 予備サーバー
30 ディスクアレイ装置
31 論理ディスク
32 監視ディスク
40 障害対応装置
50 システム管理施設
10
Claims (13)
前記コンピュータ装置の障害発生を個別に監視する監視手段と、
前記監視手段が、前記コンピュータ装置のうちのいずれかに障害発生したことを検出した時に、当該障害発生の検出を受けて、当該障害発生したコンピュータ装置からの前記外部記憶装置への入出力アクセスを遮断するアクセス遮断手段と、
前記監視手段が、前記コンピュータ装置のうちのいずれかに障害発生したことを検出した時に、当該障害発生の検出を受けて、前記障害発生の情報を前記コンピュータ装置のうち障害発生していないコンピュータ装置に通知する通知手段と、を有することを特徴とした、情報処理システムの障害対応機構。 It is configured by connecting at least two computer devices, including a spare computer device, to a common external storage device, and the spare computer device is always on standby while maintaining the same operating state as an operating computer device. A failure handling mechanism in an information processing system constituting a multiplexed computer device,
Monitoring means for individually monitoring the occurrence of failures in the computer device;
When the monitoring unit detects that a failure has occurred in any of the computer devices, the monitoring unit receives the detection of the failure and performs input / output access to the external storage device from the computer device in which the failure has occurred. Access blocking means for blocking;
When the monitoring means detects that a failure has occurred in any of the computer devices, the computer device that has received the detection of the failure and uses the information on the occurrence of the failure as a computer device in which no failure has occurred. A failure response mechanism of the information processing system.
前記コンピュータ装置の障害発生を個別に監視するステップと、
前記監視手段が、前記コンピュータ装置のうちのいずれかに障害発生したことを検出した時に、当該障害発生の検出を受けて、当該障害発生したコンピュータ装置からの前記外部記憶装置への入出力アクセスを遮断するステップと、
前記監視手段が、前記コンピュータ装置のうちのいずれかに障害発生したことを検出した時に、当該障害発生の検出を受けて、前記障害発生の情報を前記コンピュータ装置のうち障害発生していないコンピュータ装置に通知するステップと、を有することを特徴とした、情報処理システムの障害対応方法。 It is configured by connecting at least two computer devices, including a spare computer device, to a common external storage device, and the spare computer device is always on standby while maintaining the same operating state as an operating computer device. A failure handling method in an information processing system constituting a multiplexed computer device,
Individually monitoring the occurrence of a fault in the computer device;
When the monitoring unit detects that a failure has occurred in any of the computer devices, the monitoring unit receives the detection of the failure and performs input / output access to the external storage device from the computer device in which the failure has occurred. A blocking step;
When the monitoring means detects that a failure has occurred in any of the computer devices, the computer device that has received the detection of the failure and uses the information on the occurrence of the failure as a computer device in which no failure has occurred. And a step of notifying the information processing system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009133837A JP5532687B2 (en) | 2009-06-03 | 2009-06-03 | Information processing system, failure handling mechanism of information processing system, and failure handling method of information processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009133837A JP5532687B2 (en) | 2009-06-03 | 2009-06-03 | Information processing system, failure handling mechanism of information processing system, and failure handling method of information processing system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010282326A true JP2010282326A (en) | 2010-12-16 |
JP5532687B2 JP5532687B2 (en) | 2014-06-25 |
Family
ID=43539013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009133837A Expired - Fee Related JP5532687B2 (en) | 2009-06-03 | 2009-06-03 | Information processing system, failure handling mechanism of information processing system, and failure handling method of information processing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5532687B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014033847A1 (en) * | 2012-08-29 | 2014-03-06 | 富士通株式会社 | Connection device and monitoring method |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207855A (en) * | 1997-01-17 | 1998-08-07 | Hitachi Ltd | Shared disk type multiple system |
JP2004021608A (en) * | 2002-06-17 | 2004-01-22 | Nec Corp | Trouble detection system and method for duplex server |
JP2004021556A (en) * | 2002-06-14 | 2004-01-22 | Hitachi Ltd | Memory control device and control process thereof |
JP2004302632A (en) * | 2003-03-28 | 2004-10-28 | Hitachi Ltd | Computer processing method, execution system therefor and processing program therefor |
JP2007510208A (en) * | 2003-11-10 | 2007-04-19 | ノキア コーポレイション | Computer cluster, computer unit, and storage access control method between computer units |
JP2007207219A (en) * | 2006-01-06 | 2007-08-16 | Hitachi Ltd | Computer system management method, management server, computer system, and program |
JP2008242741A (en) * | 2007-03-27 | 2008-10-09 | Toshiba Corp | Cluster system and program |
-
2009
- 2009-06-03 JP JP2009133837A patent/JP5532687B2/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207855A (en) * | 1997-01-17 | 1998-08-07 | Hitachi Ltd | Shared disk type multiple system |
JP2004021556A (en) * | 2002-06-14 | 2004-01-22 | Hitachi Ltd | Memory control device and control process thereof |
JP2004021608A (en) * | 2002-06-17 | 2004-01-22 | Nec Corp | Trouble detection system and method for duplex server |
JP2004302632A (en) * | 2003-03-28 | 2004-10-28 | Hitachi Ltd | Computer processing method, execution system therefor and processing program therefor |
JP2007510208A (en) * | 2003-11-10 | 2007-04-19 | ノキア コーポレイション | Computer cluster, computer unit, and storage access control method between computer units |
JP2007207219A (en) * | 2006-01-06 | 2007-08-16 | Hitachi Ltd | Computer system management method, management server, computer system, and program |
JP2008242741A (en) * | 2007-03-27 | 2008-10-09 | Toshiba Corp | Cluster system and program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014033847A1 (en) * | 2012-08-29 | 2014-03-06 | 富士通株式会社 | Connection device and monitoring method |
JPWO2014033847A1 (en) * | 2012-08-29 | 2016-08-08 | 富士通株式会社 | Connection device and monitoring method |
Also Published As
Publication number | Publication date |
---|---|
JP5532687B2 (en) | 2014-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4415610B2 (en) | System switching method, replica creation method, and disk device | |
US20060143497A1 (en) | System, method and circuit for mirroring data | |
JP3620527B2 (en) | Failure analysis method for loop interface and system having failure analysis function | |
KR20000011834A (en) | Method and appratus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network | |
WO2017158666A1 (en) | Computer system and error processing method of computer system | |
CN102880522A (en) | Hardware fault-oriented method and device for correcting faults in key files of system | |
TW454128B (en) | Shared disk type multiple system | |
JP2006277205A (en) | Storage system and its control method and control program | |
JP2012208896A (en) | Disk array device, connection path control method, and connection path control program | |
JP4635941B2 (en) | Disk array subsystem | |
JP4592511B2 (en) | IP network server backup system | |
JP2008158768A (en) | Control method for information storage device, information storage device, program, and computer-readable information storage medium | |
US8451019B2 (en) | Method of detecting failure and monitoring apparatus | |
WO2024022469A1 (en) | Disk array redundancy method and system, computer device, and storage medium | |
JP2016212506A (en) | Information processing system, control apparatus, and control program | |
JP7503679B2 (en) | Receiver | |
JP2008171231A (en) | Array disk group maintenance management system, array disk group maintenance management device, array disk group maintenance management method, and array disk group maintenance management program | |
JP5532687B2 (en) | Information processing system, failure handling mechanism of information processing system, and failure handling method of information processing system | |
KR20140140719A (en) | Apparatus and system for synchronizing virtual machine and method for handling fault using the same | |
JP6654662B2 (en) | Server device and server system | |
JP3325785B2 (en) | Computer failure detection and recovery method | |
JP2008003646A (en) | Defective module detection method and signal processor | |
JP5096799B2 (en) | Cluster system, computer, and troubleshooting method | |
JP5951520B2 (en) | Multiple processing system | |
JP2560875B2 (en) | Information processing system failure notification method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20110706 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120518 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131015 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5532687 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140414 |
|
LAPS | Cancellation because of no payment of annual fees |