JP2012003511A - Computer system switching - Google Patents
Computer system switching Download PDFInfo
- Publication number
- JP2012003511A JP2012003511A JP2010137842A JP2010137842A JP2012003511A JP 2012003511 A JP2012003511 A JP 2012003511A JP 2010137842 A JP2010137842 A JP 2010137842A JP 2010137842 A JP2010137842 A JP 2010137842A JP 2012003511 A JP2012003511 A JP 2012003511A
- Authority
- JP
- Japan
- Prior art keywords
- computer
- dump
- standby
- active
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、冗長化されたコンピュータの系切り替え方式に関するものである。 The present invention relates to a system switching method for redundant computers.
コンピュータシステムにおいて、システム全体の可用性を向上するための手法として、ハードウェアの冗長化が広く用いられている。 In a computer system, hardware redundancy is widely used as a technique for improving the availability of the entire system.
N+1コールドスタンバイは、コンピュータシステムにおけるハードウェア冗長化手法の1つである。N+1コールドスタンバイでは、N台の現用系コンピュータと1台の待機系コンピュータでシステムを構成する。通常時の運用においては、待機系コンピュータは稼動させず、N台の現用系コンピュータのみで業務アプリケーションを実行する。現用系コンピュータのいずれか1台で障害が発生した場合、待機系コンピュータが起動し、新たな現用系コンピュータの1台として、障害が発生したコンピュータが実行していた業務アプリケーションの処理を引き継ぐ。 N + 1 cold standby is one of the hardware redundancy methods in a computer system. In N + 1 cold standby, a system is configured by N active computers and one standby computer. In normal operation, the standby computer is not operated, and the business application is executed only by the N active computers. When a failure occurs in any one of the active computers, the standby computer is activated and takes over the processing of the business application that was executed by the failed computer as one of the new active computers.
N+1コールドスタンバイの構成を組む場合、OSのシステムディスクは現用系コンピュータで稼動するN台分のみが必要であり、待機系コンピュータのためのOSを別途用意する必要はない。N台分のOSイメージは、外部のSANに接続されたディスクアレイなどに格納し、N+1台のコンピュータ全てから物理的にアクセスできるようにシステムを構成する。OSイメージを格納するシステムディスクと各コンピュータとの対応は、論理的なマッピングを切り替えることで制御する。システムの通常稼動時は、現用系コンピュータにシステムディスクがマッピングされ、待機系コンピュータにはマッピングされない。現用系コンピュータのいずれか1台で障害が発生した場合、その現用系コンピュータに対応していたシステムディスクは、待機系コンピュータにマッピングが切り替えられる。待機系コンピュータは、そのシステムディスクに格納されたOSイメージを使用してOSを起動する。 When an N + 1 cold standby configuration is configured, only the N system disks operating on the active computer are required, and there is no need to separately prepare an OS for the standby computer. N OS images are stored in a disk array or the like connected to an external SAN, and the system is configured to be physically accessible from all N + 1 computers. The correspondence between the system disk storing the OS image and each computer is controlled by switching logical mapping. During normal operation of the system, the system disk is mapped to the active computer and not mapped to the standby computer. When a failure occurs in any one of the active computers, the mapping of the system disk corresponding to the active computer is switched to the standby computer. The standby computer starts up the OS using the OS image stored in the system disk.
N+1コールドスタンバイにおける系切り替えは、次の手順で実行される。
(1) 1台の現用系コンピュータで障害が発生する。
(2) 現用系コンピュータ上のOSは、メモリ内にあるファイルシステムのキャッシュをディスクにフラッシュする。
(3) 現用系コンピュータ上のOSは、メモリイメージをシステムディスクのダンプ領域にダンプする。ダンプデータは、後で障害の原因を解析するために必要となる。
(4) ダンプ完了後、現用系コンピュータはシャットダウンされる。
(5) システムディスクのマッピングが現用系コンピュータから待機系コンピュータに切り替えられる。
(6) 待機系コンピュータがシステムディスクからOSを起動する。
(7) 待機系コンピュータ上のOSは、ダンプ領域に格納されていたダンプデータを読み込み、ファイルシステム上にファイルとしてコピーする。
(8) 待機系コンピュータで業務アプリケーションが再開される。
The system switching in the N + 1 cold standby is executed according to the following procedure.
(1) A failure occurs on one active computer.
(2) The OS on the active computer flushes the file system cache in the memory to the disk.
(3) The OS on the active computer dumps the memory image to the dump area of the system disk. The dump data is needed later to analyze the cause of the failure.
(4) After the dump is completed, the active computer is shut down.
(5) The system disk mapping is switched from the active computer to the standby computer.
(6) The standby computer starts the OS from the system disk.
(7) The OS on the standby computer reads the dump data stored in the dump area and copies it as a file on the file system.
(8) The business application is resumed on the standby computer.
このように、N+1コールドスタンバイにおける系切り替えでは、待機系コンピュータが業務アプリケーションが再開するためには、上記(1)〜(7)までの処理の完了を待つ必要があった。特に、ダンプデータを扱う(3)、(7)は、コンピュータが搭載するメモリ容量が大きくなるにつれて時間がかかる傾向にあり、業務アプリケーションを迅速に再開するための妨げとなっていた。 As described above, in the system switching in the N + 1 cold standby, it is necessary for the standby computer to wait for the completion of the processes (1) to (7) in order for the business application to resume. In particular, (3) and (7) for handling dump data tend to take time as the memory capacity of the computer increases, which has been an obstacle to quickly restarting business applications.
また、通常、ダンプデータの解析は専門のサポートエンジニアが担当するが、セキュリティの観点から、サポートエンジニアは業務アプリケーションを実行するコンピュータのOSにはアクセスできないことが多い。そのため、サポートエンジニアはダンプ解析用のコンピュータを別に用意し、ダンプ解析はこのコンピュータ上で行われる。この場合、ダンプデータは、業務アプリケーションを実行しているコンピュータからダンプ解析用コンピュータに転送する必要がある。 Further, although analysis of dump data is usually performed by a specialized support engineer, from the viewpoint of security, the support engineer often cannot access the OS of a computer that executes a business application. Therefore, the support engineer prepares a separate computer for dump analysis, and the dump analysis is performed on this computer. In this case, it is necessary to transfer the dump data from the computer executing the business application to the dump analysis computer.
コールドスタンバイ方式の系切り替えにおける課題は、切り替え中にダンプデータの処理完了を待つ必要があり、待機系コンピュータが迅速に業務アプリケーションを再開できないことである。 The problem with cold standby system switching is that it is necessary to wait for the completion of dump data processing during switching, and the standby computer cannot quickly resume the business application.
本発明では、メモリダンプをシステムディスクのダンプ領域には格納せず、サービスプロセッサを経由してダンプ解析用コンピュータに転送する。システムディスクのマッピングは、現用系コンピュータのメモリダンプ開始前に切り替えられる。待機系コンピュータは、現用系コンピュータによるメモリダンプの完了を待たずに直ちにOSを起動する。 In the present invention, the memory dump is not stored in the dump area of the system disk, but transferred to the dump analysis computer via the service processor. The system disk mapping is switched before the memory dump of the active computer is started. The standby computer immediately starts the OS without waiting for the completion of the memory dump by the active computer.
本発明では、待機系コンピュータが業務アプリケーションを再開するために、現用系コンピュータのメモリダンプ処理完了を待つ必要がなく、また、待機系コンピュータ上のOSが、システムディスクのダンプ領域からダンプデータをファイルに変換する必要もない。そのため、現用系コンピュータで障害が発生してから、待機系コンピュータで業務アプリケーションが再開されるまでの時間を短縮でき、システム全体としての可用性を向上する効果がある。 In the present invention, it is not necessary to wait for the completion of the memory dump processing of the active computer in order for the standby computer to resume the business application, and the OS on the standby computer can save the dump data from the dump area of the system disk. There is no need to convert to. Therefore, it is possible to shorten the time from when a failure occurs in the active computer to when the business application is resumed on the standby computer, thereby improving the availability of the entire system.
図1は、本発明の一実施例を示した図である。 FIG. 1 is a diagram showing an embodiment of the present invention.
現用系コンピュータ101は、システムの通常稼動時に業務アプリケーションを実行するためのコンピュータであり、CPU103、メモリ104、IOブリッジ105、HBA106、及びサービスプロセッサ107を搭載する。CPU103はメモリコントローラを内蔵し、メモリ104及びIOブリッジ105に接続される。HBA106の先には、外部ストレージデバイスとしてディスクアレイ装置201が接続される。OS及び業務アプリケーションは、ディスクアレイ装置201が搭載するディスク202からメモリ104にロードされ、CPU103上で実行される。
The
サービスプロセッサ107は、独自のCPU、メモリ、IOデバイスを備える、現用系コンピュータ101とは独立したコンピュータであり、現用系コンピュータ101のメイン電源の制御などを行う。サービスプロセッサ107は現用系コンピュータ101のスタンバイ電源を利用するため、現用系コンピュータ101のメイン電源がOffの状態でも常に稼動している。また、サービスプロセッサ107はIOブリッジ105と接続されており、CPU103のメモリコントローラを介してメモリ104にアクセスできる。
The
待機系コンピュータ102は、現用系コンピュータ101と同様のハードウェアを備えるコンピュータであり、現用系コンピュータ101で障害が発生した場合に業務アプリケーションの実行を継続する役割を担う。待機系コンピュータ102は、現用系コンピュータ101の稼働中は電源Off状態で待機する。
The
ディスクアレイ装置201には、現用系コンピュータ101と待機系コンピュータ102のHBA106が物理的に接続される。コントローラ203はホストマッピング機能を有し、接続されるHBAのIDに応じて入出力データのフローを制御できる。現用系コンピュータ101の稼働中は、現用系コンピュータ101のHBAとディスクアレイ装置201を接続するパスが有効であり、待機系コンピュータ102のHBAとディスクアレイ装置201を接続するパスは無効化されている。
The
管理サーバ301は、コールドスタンバイの系切り替えを制御するコンピュータである。管理サーバ301は、管理ネットワーク501を経由してサービスプロセッサ107及びディスクアレイ装置201と接続される。現用系コンピュータ101で障害が発生した場合、管理サーバ301は、ディスクアレイ装置201に対するI/Oパスの切り替え指示と、待機系コンピュータ102に対するメイン電源Onの指示を行う。
The
ダンプ解析用コンピュータ401は、現用系コンピュータ101のメモリダンプデータの格納・解析を行うためのコンピュータである。ダンプ解析用コンピュータ401は、ダンプ格納用ディスク402を備える。また、管理ネットワーク501を経由してサービスプロセッサ107と接続される。
The
本発明における、現用系コンピュータ101で障害が発生した場合の系切り替え処理を図2に示す。
FIG. 2 shows a system switching process when a failure occurs in the
現用系コンピュータ101で障害が発生すると、CPU103に割り込みが上がり、業務アプリケーションの全ての処理が中断されてOSに処理が移行する。
When a failure occurs in the
現用系コンピュータ101上のOSは、ステップ1001においてCPU103のコンテキスト情報をメモリ104に退避し、ステップ1002においてメモリ内のファイルシステムのキャッシュをディスク202にフラッシュした後、ステップ1003において、IOブリッジ105を経由して、障害が発生したことをサービスプロセッサ107に通知する。
The OS on the
ステップ1004において、サービスプロセッサ107は、管理サーバ301に対して、現用系コンピュータ101で障害が発生し、系切り替えする必要がある旨を通知する。管理サーバ301は、ステップ1005で直ちにディスクアレイ装置201に対してI/Oパスの切り替えを指示する。ディスクアレイ装置201はこの指示を受け、ステップ1006でディスク202に対するホストマッピングを現用系コンピュータ101から待機系コンピュータ102に切り替え、ステップ1007で、I/Oパスの切り替えが完了したことを管理サーバ301に通知する。管理サーバ301は、ステップ1008で待機系コンピュータ102のサービスプロセッサ107に対してメイン電源Onの指示を出す。待機系コンピュータ102のサービスプロセッサ107は、この指示を受け、ステップ1009で待機系コンピュータ102のメイン電源を投入する。待機系コンピュータ102のCPU103は、ステップ1010でOSを待機系コンピュータ102のメモリ104にロードし、ステップ1011で業務アプリケーションの処理を再開する。
In
一方、現用系コンピュータ101側では、ステップ1004の処理の後に、引き続きメモリダンプ処理2000を開始する。
On the other hand, on the
メモリダンプ処理では、CPU103とサービスプロセッサ107とのデータ送受信のために、メモリ104上に確保されたDMA領域が使用される。このDMA領域は、現用系コンピュータ101の起動時にCPU103によって確保される。DMA領域のフォーマットを図3に示す。データ領域901は、メモリダンプ処理において、ダンプ対象のメモリデータをバッファリングするための領域である。制御コード領域902は、メモリダンプ処理において、CPU103とサービスプロセッサ107が使用する制御コードを格納するための領域である。制御コード領域902には、データ有効コード、データ無効コード、完了コードのいずれかが格納される。現用系コンピュータ101の起動時、CPU103は制御コード領域902にデータ無効コードが格納する。
In the memory dump process, a DMA area secured on the
メモリダンプ処理は、現用系コンピュータ101のCPU103と、サービスプロセッサ107、及びダンプ解析用コンピュータ401により実行される。
The memory dump process is executed by the
CPU103によるメモリダンプ処理の手順を図4に示す。ステップ2001及びステップ2002は、データ領域901が書き込み可能となることを待つ処理である。ステップ2001において、CPU103は制御コード領域902の値を読み出す。ステップ2002において、ステップ2001で読み出した値がデータ無効コードであった場合はステップ2003に遷移し、そうでない場合はステップ2001に戻る。ステップ2003において、ダンプ対象データの内、まだ処理が完了していないデータの一部をデータ領域901にコピーする。ステップ2004において、ステップ2003で全てのダンプ対象データをデータ領域901にコピーし終えていた場合、ステップ2006に遷移し、そうでない場合はステップ2005に遷移する。ステップ2005では、制御コード領域902にデータ有効コードを書き込み、ステップ2001に戻る。一方、ステップ2006では、制御コード領域902に完了コードを書き込み、メモリダンプ処理を終了する。
The procedure of the memory dump process by the
サービスプロセッサ107によるメモリダンプ処理の手順を図5に示す。まず、ステップ3001においてダンプ解析用コンピュータ401に接続し、データ転送のためのセッションを確立する。ステップ3002及びステップ3003は、CPU103によるデータ領域901の書き込み完了を待つ処理である。ステップ3002において、制御コード領域902の値を読み出す。ステップ3003において、ステップ3002で読み出した値がデータ無効コードであった場合はステップ3002に戻り、そうでない場合はステップ3004に遷移する。ステップ3004において、データ領域902からダンプデータの一部を読み込み、読み込んだデータを管理ネットワーク501を経由してダンプ解析用コンピュータ401に転送する。ステップ3005において、制御コード領域902にデータ無効コードを書き込む。ステップ3006において、ステップ3002で読み出した制御コード領域902の値が完了コードであった場合はステップ3007に遷移し、そうでない場合はステップ3002に戻る。ステップ3007において、現用系コンピュータ101の電源を落とす。ステップ3008において、ダンプ解析用コンピュータとのセッションを閉じ、メモリダンプ処理を終了する。
The procedure of the memory dump process by the
ダンプ解析用コンピュータ401は、サービスプロセッサ107から転送されてくるダンプデータを、順次ダンプ格納用ディスク402に格納する。
The
以上のように、本発明によるコンピュータの系切り替え方式では、障害が発生した現用系コンピュータのメモリダンプをシステムディスクには格納せず、サービスプロセッサを介して外部のダンプ解析用コンピュータに格納する。そのため、現用系コンピュータは使用していたシステムディスクをメモリダンプダンプ処理開始前に解放可能であり、待機系コンピュータを即座に起動できる。これにより、業務アプリケーションの停止時間を短縮することができ、システム全体としての可用性を向上できる。 As described above, in the computer system switching method according to the present invention, the memory dump of the failed active computer is not stored in the system disk, but is stored in the external dump analysis computer via the service processor. Therefore, the active computer can release the used system disk before starting the memory dump dump process, and can immediately start the standby computer. Thereby, the stop time of a business application can be shortened and the availability of the entire system can be improved.
なお、本実施例では現用系コンピュータと待機系コンピュータが各々1台ずつ存在する場合を示したが、本発明によるコンピュータの切り替え方式は、現用系コンピュータと待機系コンピュータが複数存在する場合にも適用可能である。 In this embodiment, the case where there is one active computer and one standby computer is shown. However, the computer switching method according to the present invention is also applicable to the case where there are a plurality of active computers and standby computers. Is possible.
また、本実施例ではメモリダンプ処理をOSが担当したが、OSはファイルシステムをディスクにフラッシュしたらその時点で終了させ、メモリダンプ処理はシステムファームウェアが実施しても良い。 In this embodiment, the OS is in charge of the memory dump process. However, the OS may be terminated at that point when the OS flushes the file system to the disk, and the system firmware may execute the memory dump process.
101…現用系コンピュータ、102…待機系コンピュータ、103…CPU、104…メモリ、105…IOブリッジ、106…HBA、107…サービスプロセッサ、201…ディスクアレイ装置、202…ディスク、203…コントローラ、301…管理サーバ、401…ダンプ解析用コンピュータ、402…ダンプ格納用ディスク、501…管理ネットワーク。
DESCRIPTION OF
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010137842A JP2012003511A (en) | 2010-06-17 | 2010-06-17 | Computer system switching |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010137842A JP2012003511A (en) | 2010-06-17 | 2010-06-17 | Computer system switching |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012003511A true JP2012003511A (en) | 2012-01-05 |
Family
ID=45535415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010137842A Pending JP2012003511A (en) | 2010-06-17 | 2010-06-17 | Computer system switching |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012003511A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017187836A (en) * | 2016-04-01 | 2017-10-12 | 富士通フロンテック株式会社 | Automated teller machine, fault notification method, and fault notification program |
-
2010
- 2010-06-17 JP JP2010137842A patent/JP2012003511A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017187836A (en) * | 2016-04-01 | 2017-10-12 | 富士通フロンテック株式会社 | Automated teller machine, fault notification method, and fault notification program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8990617B2 (en) | Fault-tolerant computer system, fault-tolerant computer system control method and recording medium storing control program for fault-tolerant computer system | |
EP2380081B1 (en) | Method and system for hibernation or suspend using a non-volatile-memory device | |
JP5724477B2 (en) | Migration program, information processing apparatus, migration method, and information processing system | |
JP4839841B2 (en) | How to restart snapshot | |
US10809997B2 (en) | Information processing apparatus and program update control method | |
KR101410596B1 (en) | Information processing apparatus, computer program, and copy control method | |
JP2007219757A (en) | Program for making virtual computer system function | |
US9201601B2 (en) | Reducing required battery capacity for data backup in a storage system with multiple controllers | |
JP2006338626A (en) | Disk array device and its control method | |
US20100299558A1 (en) | Data storage device and method | |
JP2010086419A (en) | Information processing device | |
JP2011170589A (en) | Storage control device, storage device, and storage control method | |
JP2011028430A (en) | Information processing apparatus, control method for information processing apparatus, and program | |
US20140281459A1 (en) | Live initialization of a boot device | |
JP2009211517A (en) | Virtual computer redundancy system | |
JP2020035374A (en) | Availability system, method, and program | |
US20230251931A1 (en) | System and device for data recovery for ephemeral storage | |
US20120102358A1 (en) | Server having memory dump function and memory dump acquisition method | |
JP4322240B2 (en) | Reboot method, system and program | |
US7861112B2 (en) | Storage apparatus and method for controlling the same | |
US20160321175A1 (en) | Storage system and control apparatus | |
JP6599725B2 (en) | Information processing apparatus, log management method, and computer program | |
KR20080057688A (en) | Method for booting operating system using of non volatile memory | |
WO2011158367A1 (en) | Technology for updating active program | |
US10528275B2 (en) | Storage system, storage control device, and method of controlling a storage system |