JP2009211517A - Virtual computer redundancy system - Google Patents

Virtual computer redundancy system Download PDF

Info

Publication number
JP2009211517A
JP2009211517A JP2008055056A JP2008055056A JP2009211517A JP 2009211517 A JP2009211517 A JP 2009211517A JP 2008055056 A JP2008055056 A JP 2008055056A JP 2008055056 A JP2008055056 A JP 2008055056A JP 2009211517 A JP2009211517 A JP 2009211517A
Authority
JP
Japan
Prior art keywords
standby
operational
memory
physical
active
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008055056A
Other languages
Japanese (ja)
Other versions
JP5392594B2 (en
Inventor
Fumihiro Makiyama
文博 牧山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008055056A priority Critical patent/JP5392594B2/en
Publication of JP2009211517A publication Critical patent/JP2009211517A/en
Application granted granted Critical
Publication of JP5392594B2 publication Critical patent/JP5392594B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To specify the cause of a failure occurrence dependent on hardware by a dedicated hardware independently of the state of a host operation system when a hardware failure happens to an operating virtual computer system. <P>SOLUTION: The virtual computer redundancy system is provided with an operating computer system and a standby computer system for standing by as backup for the operating computer system. The operating computer system is provided with an operating host operating system and an operating guest operating system operating on a virtual computer provided by the operating host operating system. The standby computer system is provided with a standby host operating system and a standby guest operating system. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、仮想計算機冗長化システムに関し、特に運用系で複数のゲストオペレーティングシステムをホストオペレーティングシステム上で稼動させている仮想計算機システムのハードウェアで障害が発生した際に、オペレーティングシステムのメモリダンプを外部記憶に採取し、動作中のゲストオペレーティングシステムの処理を高速に待機系のゲストオペレーティングシステムへ引き継がせる機能を持った仮想計算機冗長化システムに関する。   The present invention relates to a virtual machine redundancy system, and in particular, when a failure occurs in hardware of a virtual machine system in which a plurality of guest operating systems are operated on a host operating system in an operating system, an operating system memory dump is performed. The present invention relates to a virtual machine redundancy system having a function of collecting data in an external storage and transferring a running guest operating system to a standby guest operating system at high speed.

クラスタ管理された複数台の仮想計算機を有する仮想計算機冗長化システムが知られる。この仮想計算機冗長化システムでは、それぞれのホストオペレーティングシステム上で稼動する仮想計算機制御部どうしが連携する。何れかの仮想計算機システムで障害が発生した場合には、その仮想計算機システムを管轄する仮想計算機制御部の上で稼動しているゲストオペレーティングシステムの処理を、正常稼動している仮想計算機システムへ移行させてダウンタイムを短縮する。しかし、ソフトウェアでなる仮想計算機制御部だけでは、ハードウェアに依存する障害発生原因の特定が困難であった。   A virtual machine redundancy system having a plurality of cluster-managed virtual machines is known. In this virtual machine redundancy system, virtual machine control units operating on the respective host operating systems cooperate with each other. If a failure occurs in any of the virtual machine systems, the guest operating system process running on the virtual machine controller that controls the virtual machine system is transferred to the normally running virtual machine system To reduce downtime. However, it is difficult to identify the cause of the failure depending on the hardware only by the virtual computer control unit made of software.

この種の技術としては、特開2002−32244号公報(特許文献1参照)に記載された発明がある。この発明では、仮想計算機を運用しているときに、仮想計算機制御部に何らかの不具合が発生し、仮想計算機が動作できなくなった場合に、ゲストオペレーティングシステムのメモリイメージを記憶媒体に退避させる。そのメモリイメージをダンプ型式データに変換出力させて、その不具合原因の調査解析を容易にする。   As this type of technology, there is an invention described in Japanese Patent Laid-Open No. 2002-32244 (see Patent Document 1). According to the present invention, when a virtual machine control unit has some trouble when operating a virtual machine and the virtual machine cannot operate, the memory image of the guest operating system is saved in a storage medium. The memory image is converted into dump type data and output to facilitate investigation and analysis of the cause of the failure.

この発明の第1の問題点は、次の通りである。仮想計算機システムの運用中にハードウェア障害が発生した場合に、ホストオペレーティングシステム、及び、その上で稼動している仮想計算機制御部が制御不能になる可能性がある。これらが制御不能になると、仮想計算機制御部の制御下で動作中であった各ゲストオペレーティングシステムが制御不能となるため、それぞれのゲストオペレーティングシステムが備えるダンプ採取手段が使えなくなるという問題点である。   The first problem of the present invention is as follows. If a hardware failure occurs during the operation of the virtual machine system, the host operating system and the virtual machine controller operating on the host operating system may become uncontrollable. If they become uncontrollable, each guest operating system operating under the control of the virtual machine control unit becomes uncontrollable, and the dump collecting means included in each guest operating system cannot be used.

その理由は、仮想計算機制御部は、ホストオペレーティングシステム上で稼動しているため、ハードウェア障害が発生した場合、ホストオペレーティングシステム自体が正常動作できなくなり、仮想計算機制御部も制御不能となる。よって、各ゲストオペレーティングシステムも制御不能となってしまい、ダンプ採取手段を起動することができないからである。   The reason is that since the virtual machine control unit operates on the host operating system, when a hardware failure occurs, the host operating system itself cannot operate normally and the virtual machine control unit cannot be controlled. Therefore, each guest operating system is also uncontrollable and the dump collecting means cannot be activated.

第2の問題点は、ソフトウェアである仮想計算機制御部どうしの連携で運用系から待機系へゲストオペレーティングシステムの処理を移行させる方式では、ハードウェア障害発生時には一定時間のダウンタイムが発生してしまうという問題点である。その理由は、仮想計算機制御部どうしは、ハートビートによる死活監視を行っているため、ハートビートが途切れたことを検出するまでに、ある一定のタイムアウト時間が掛かるからである。   The second problem is that in the method in which the guest operating system process is transferred from the active system to the standby system in cooperation with the virtual machine controller, which is software, a downtime of a certain time occurs when a hardware failure occurs. It is a problem. The reason is that since the virtual machine control units perform alive monitoring by heartbeats, it takes a certain time-out time to detect that the heartbeat is interrupted.

特開平7−219802号公報(特許文献2参照)には、2重化制御方式の発明が記載されている。この2重化制御方式は、主系にて処理を行っている最中に障害が検出された場合は、予備系に切り替えて処理を続行するために、両系の記憶部内容を同一に保つべく、主系の記憶部への書き込みデータを予備系の記憶部へも書き込みを行う。主系記憶部に発生した書き込み内容を、主系CPUとは独立に動作する記憶制御部によりその内部のバッファへ逐次記憶させる。主系CPUからの指示により、主系CPUの記憶部変更内容を別のバッファ領域へ記憶させ始める。並行して前バッファ領域の内容通りの変更を予備系の記憶部へ対して行う。   Japanese Patent Laid-Open No. 7-219802 (see Patent Document 2) describes an invention of a duplex control system. In this duplex control method, when a failure is detected during processing in the main system, the contents of the storage units of both systems are kept the same in order to switch to the standby system and continue the processing. Therefore, the write data to the main storage unit is also written to the standby storage unit. The write contents generated in the main storage unit are sequentially stored in the internal buffer by the storage control unit that operates independently of the main CPU. In response to an instruction from the main CPU, the storage unit change contents of the main CPU are started to be stored in another buffer area. In parallel, the change according to the contents of the previous buffer area is made to the storage unit of the standby system.

特開平8−287021号公報(特許文献3参照)には、共用メモリに結合される複数の計算機システムの発明が記載されている。これは、少なくとも1つの実計算機(以下、実クラスタと記す)と外部記憶装置である共用メモリとを結合する電子計算機システムにおける発明である。実クラスタ及び仮想計算機運用された実クラスタ内の個々のゲストクラスタを制御するためのオペレーティングシステム(以下、OSと記す)を有する実クラスタまたは、仮想計算機システムを制御するためのOSを有する少なくとも1つの仮想計算機システムが、共用メモリに接続される。   Japanese Patent Laid-Open No. 8-28702 (see Patent Document 3) describes an invention of a plurality of computer systems coupled to a shared memory. This is an invention in an electronic computer system that couples at least one real computer (hereinafter referred to as a real cluster) and a shared memory that is an external storage device. At least one having an operating system (hereinafter referred to as OS) for controlling individual guest clusters in a real cluster and a virtual cluster operated real cluster or an OS for controlling a virtual machine system A virtual machine system is connected to the shared memory.

特開平9−305424号公報(特許文献4参照)には、プロセッサの二重化システムの発明が記載されている。この発明は、主メモリバスで接続されたMPU及び主記憶装置と、相手系と共有情報を送受する送受信回路を持つ共有データ一致化装置(以下、CMEと略称)を備える。主記憶装置は、共有データを記憶する共有エリアを有する。CMEは、メモリアクセス情報取得手段、メモリアクセス手段、共有エリア設定手段、共有データ監視手段を有する。メモリアクセス情報取得手段は、MPUから主記憶装置へ書き込むアドレスとデータを含むアクセス情報を主メモリバスからスヌープする。メモリアクセス手段は、相手系からの受信情報が共有データの場合に共有エリアに書き込む。共有エリア設定手段は、共有エリアの範囲を指定する。共有データ監視手段は、アクセス情報または受信情報中のアドレスが共有エリアの範囲内にあるとき、該情報を共有データと判断する。   Japanese Patent Laying-Open No. 9-305424 (see Patent Document 4) describes an invention of a dual processor system. The present invention includes an MPU and a main storage device connected by a main memory bus, and a shared data matching device (hereinafter abbreviated as CME) having a transmission / reception circuit for transmitting / receiving shared information to / from a counterpart system. The main storage device has a shared area for storing shared data. The CME includes memory access information acquisition means, memory access means, shared area setting means, and shared data monitoring means. The memory access information acquisition means snoops access information including an address and data to be written from the MPU to the main storage device from the main memory bus. The memory access means writes in the shared area when the received information from the partner system is shared data. The shared area setting means designates the range of the shared area. The shared data monitoring unit determines that the information is shared data when the address in the access information or the received information is within the range of the shared area.

特開2002−32244号公報JP 2002-32244 A 特開平7−219802号公報Japanese Laid-Open Patent Publication No. 7-219802 特開平8−287021号公報JP-A-8-287021 特開平9−305424号公報JP-A-9-305424

本発明の課題は、運用系の仮想計算機システムでハードウェア障害が発生した場合に、ホストオペレーティングシステムの状態に依存することなく、専用ハードウェアによってハードウェアに依存する障害発生原因の特定を行うことにある。   An object of the present invention is to identify a cause of failure depending on hardware by dedicated hardware without depending on the state of a host operating system when a hardware failure occurs in an operational virtual machine system. It is in.

本発明の他の課題は、運用系でハードウェア障害が発生した場合でもダウンタイムを大幅に短縮して、運用系のゲストオペレーティングシステムの処理を待機系のゲストオペレーティングシステムの処理として、処理を引き継ぐことにある。   Another problem of the present invention is that even when a hardware failure occurs in the active system, the downtime is greatly reduced, and the processing of the active guest operating system is taken over as the processing of the standby guest operating system. There is.

本発明の一つのアスペクトによる仮想計算機冗長化システムは、運用系コンピュータシステムと、運用系コンピュータシステムのバックアップとして待機する待機系コンピュータシステムとを具備する。運用系コンピュータシステムは、運用系ホストオペレーティングシステム、及び、運用系ホストオペレーティングシステムによって提供される仮想計算機上で動作する運用系ゲストオペレーティングシステムを備える。待機系コンピュータシステムは、待機系ホストオペレーティングシステムと、待機系ゲストオペレーティングシステムとを備える。   A virtual machine redundancy system according to one aspect of the present invention includes an active computer system and a standby computer system that stands by as a backup of the active computer system. The operational computer system includes an operational host operating system and an operational guest operating system that operates on a virtual machine provided by the operational host operating system. The standby computer system includes a standby host operating system and a standby guest operating system.

本発明によれば、運用系の仮想計算機システムでハードウェア障害が発生した場合に、ホストオペレーティングシステムの状態に依存することなく、専用ハードウェアによってハードウェアに依存する障害発生原因の特定を行うことができる。   According to the present invention, when a hardware failure occurs in an active virtual machine system, the cause of failure that depends on hardware is identified by dedicated hardware without depending on the state of the host operating system. Can do.

また、運用系でハードウェア障害が発生した場合でもダウンタイムを大幅に短縮して、運用系のゲストオペレーティングシステムの処理を待機系のゲストオペレーティングシステムの処理として、処理を引き継ぐことができる。   Further, even when a hardware failure occurs in the active system, the downtime can be greatly shortened, and the process of the active guest operating system can be taken over as the process of the standby guest operating system.

本発明を実施するための最良の形態の一つについて、図面を参照して詳細に説明する。図1を参照すると、ひとつの実施の形態における仮想計算機冗長化システムは、運用系コンピュータシステムSYS1と、待機系コンピュータシステムSYS2と、共有ストレージ19とを有している。運用系コンピュータシステムSYS1、及び、待機系コンピュータシステムSYS2のそれぞれは、物理ハードウェアHW1,HW2と、基本入出力制御システム7,8とを具備している。運用系コンピュータシステムSYS1では、ホストOS OS1が動作し、このホストOS OS1の上で、ゲストOS OS1−A〜OS1−Cが動作している。また、待機系コンピュータシステムSYS2では、ホストOS OS2、並びに、ゲストOS OS2−A〜OS2−Cが、運用系のバックアップとして待機している。   One of the best modes for carrying out the present invention will be described in detail with reference to the drawings. Referring to FIG. 1, the virtual machine redundancy system in one embodiment includes an operational computer system SYS 1, a standby computer system SYS 2, and a shared storage 19. Each of the operational computer system SYS1 and the standby computer system SYS2 includes physical hardware HW1 and HW2 and basic input / output control systems 7 and 8. In the operational computer system SYS1, a host OS OS1 operates, and guest OSs OS1-A to OS1-C operate on the host OS OS1. In the standby computer system SYS2, the host OS OS2 and the guest OSs OS2-A to OS2-C are on standby as active backups.

ホストOS OS1は、仮想計算機制御部1と、障害検知部3と、ダンプ部5とを有している。仮想計算機制御部1は、ホストOS OS1の機能の一部を担い、ゲストOS OS1−A〜OS1−Cに仮想マシンリソースを提供し、メモリ管理と制御を行う。障害検知部3は、ホストOS OS1の機能の一部として、致命的ハードウェア障害発生時に起動されて、ダンプ部5の起動、システムSYS1の自動的な再起動を行う。ダンプ部5は、ホストOS OS1の機能の一部として、障害検知部3から起動され、メモリダンプ採取を行う。ホストOS OS2では、仮想計算機制御部2と、障害検知部4と、ダンプ部6とが、仮想計算機制御部1と、障害検知部3と、ダンプ部5とのバックアップとして、それぞれ待機している。   The host OS OS1 has a virtual machine control unit 1, a failure detection unit 3, and a dump unit 5. The virtual machine control unit 1 takes part of the function of the host OS OS1, provides virtual machine resources to the guest OSs OS1-A to OS1-C, and performs memory management and control. The failure detection unit 3 is started when a fatal hardware failure occurs as part of the function of the host OS OS1, and starts the dump unit 5 and automatically restarts the system SYS1. The dump unit 5 is activated by the failure detection unit 3 as part of the function of the host OS OS1 and collects a memory dump. In the host OS OS2, the virtual machine control unit 2, the failure detection unit 4, and the dump unit 6 are respectively waiting as backups for the virtual machine control unit 1, the failure detection unit 3, and the dump unit 5. .

基本入出力制御システム7,8は、それぞれ、ホストOS OS1,OS2と物理ハードウェアHW1,HW2との入出力制御のサービスをホストOS OS1,OS2に提供し、また、障害発生時の対処プログラムであるシステム管理モードを、中央演算処理装置9,10に提供するファームウェアである。   The basic input / output control systems 7 and 8 provide the host OS OS1 and OS2 with input / output control services between the host OS OS1 and OS2 and the physical hardware HW1 and HW2, respectively. This is firmware that provides a certain system management mode to the central processing units 9 and 10.

物理ハードウェアHW1,HW2は、それぞれ、中央演算処理装置9,10と、物理メモリ制御部11,12と、物理メモリと13,14と、物理ハードウェア管理部15,16、物理I/O制御部17,18とを有している。運用系の物理メモリ制御部11は、物理メモリ13への読み書きの制御を行う役割と、書込み許可された物理アドレスへの書込みの際にはメモリ内容を物理ハードウェア管理部15にも転送する。待機系の物理メモリ制御部12は、物理メモリ14への読み書きの制御を行う役割と、物理ハードウェア管理部16からの物理メモリ14への書込み要求があった際には物理メモリ14への書き込みを行う。運用系の物理ハードウェア管理部15は、物理メモリ制御部11からのメモリコピーを受け取り、待機系へ転送する。致命的ハードウェア障害を検出して中央演算処理装置9に割り込みを上げ、待機系へ制御移行通知と中央演算処理装置9のレジスタ、コンテキスト情報の送信を行う。   The physical hardware HW1 and HW2 are respectively the central processing units 9 and 10, the physical memory control units 11 and 12, the physical memory 13 and 14, the physical hardware management units 15 and 16, and the physical I / O control. Parts 17 and 18. The active physical memory control unit 11 controls reading / writing to the physical memory 13 and transfers the memory contents to the physical hardware management unit 15 when writing to a physical address that is permitted to be written. The standby physical memory control unit 12 controls reading / writing to the physical memory 14 and writes to the physical memory 14 when a request for writing to the physical memory 14 is received from the physical hardware management unit 16. I do. The active physical hardware management unit 15 receives the memory copy from the physical memory control unit 11 and transfers it to the standby system. A fatal hardware failure is detected, the central processing unit 9 is interrupted, a control transfer notification is sent to the standby system, and the central processing unit 9 registers and context information are transmitted.

待機系の物理ハードウェア管理部16は、受信したメモリコピーを物理メモリ制御部12へ渡す。制御移行通知を受信すると、中央演算処理装置10へ割り込みを上げ、運用系から受信したレジスタ、コンテキスト情報からの運用継続を引き継がせる処理を行わせる。運用系の物理I/O制御部17は、共有ストレージ19への読み書き制御及び入出力ハードウェアへの読み書き制御を行う。待機系の物理I/O制御部18は、共有ストレージ19からの読み込み制御及び入出力ハードウェアへの読み書き制御を行う。   The standby physical hardware management unit 16 passes the received memory copy to the physical memory control unit 12. When the control transfer notification is received, an interrupt is given to the central processing unit 10 to perform processing for taking over the continuation of operation from the register and context information received from the active system. The active physical I / O control unit 17 performs read / write control to the shared storage 19 and read / write control to the input / output hardware. The standby physical I / O control unit 18 performs read control from the shared storage 19 and read / write control to the input / output hardware.

共有ストレージ19は、運用系と待機系それぞれからアクセス可能であり、詳細には、運用系からは読み書き可能、待機系からは読み込みのみ可能である。共有ストレージ19は、待機系のゲストOS OS2−A〜OS2−Cが運用系に切り替わった後に、運用系のファイルシステムを参照できるように、運用系ゲストOS OS1−A〜OS1−Cの最新のファイルシステム情報を格納する。   The shared storage 19 can be accessed from each of the active system and the standby system. Specifically, the shared storage 19 can be read / written from the active system and can only be read from the standby system. The shared storage 19 is the latest version of the active guest OSes OS1-A to OS1-C so that the active file systems can be referred to after the standby guest OSes OS2-A to OS2-C are switched to the active system. Stores file system information.

1.運用系のゲストOS OS1−A〜OS1−Cと、待機系のゲストOS OS2−A〜OS2−Cのメモリ領域におけるデータ同期のプロセスについて、図1を用いて説明する。   1. A data synchronization process in the memory areas of the active guest OSes OS1-A to OS1-C and the standby guest OSes OS2-A to OS2-C will be described with reference to FIG.

[運用系、待機系]
運用系、待機系それぞれの物理メモリ制御部11,12は、アドレス管理テーブル(後述する図5参照)を持っている。仮想計算機制御部1,2は、自身がメモリ管理している物理メモリアドレス情報に変更が生じた場合、物理メモリ制御部11,12の当該アドレス管理テーブルに、物理メモリ情報のコピーを行う(図1の〔1〕)。
[Active / Standby]
The physical memory control units 11 and 12 of the active system and the standby system each have an address management table (see FIG. 5 described later). The virtual machine control units 1 and 2 copy the physical memory information to the address management tables of the physical memory control units 11 and 12 when the physical memory address information managed by the virtual machine control unit 1 or 2 changes (see FIG. 1 [1]).

[運用系]
物理メモリ制御部11は、中央演算処理装置9から書込み要求があった場合には(図1の〔2〕)、アドレス管理テーブルの物理アドレス情報と、書込み要求のあった物理アドレスとを照合する。該当する物理アドレスが存在した場合には、物理メモリ13に書き込むのと同時に(図1の〔3〕)、物理ハードウェア管理部15にも、物理アドレスと、書き込まれるメモリデータを渡す(図1の〔4〕)。物理ハードウェア管理部15は、受け取った物理アドレスとメモリデータとを、待機系の物理ハードウェア管理部16に送信する(図1の〔5〕)。
[Operational system]
When there is a write request from the central processing unit 9 ([2] in FIG. 1), the physical memory control unit 11 collates the physical address information in the address management table with the physical address for which the write request has been made. . If the corresponding physical address exists, at the same time as writing to the physical memory 13 ([3] in FIG. 1), the physical address and the memory data to be written are also passed to the physical hardware management unit 15 (FIG. 1). [4]). The physical hardware management unit 15 transmits the received physical address and memory data to the standby physical hardware management unit 16 ([5] in FIG. 1).

[待機系]
待機系の物理ハードウェア管理部16は、受け取った物理アドレスとメモリデータとに基づいて、物理メモリ14へ書き込みを行うため、物理メモリ制御部12に対して物理メモリ14への書込みを要求する(図1の〔6〕)。要求を受けた物理メモリ制御部12は、自身のアドレス管理テーブルの物理アドレス情報と、書込み要求のあった物理アドレスとを照合する。該当する物理アドレスが存在した場合のみ、中央演算処理装置10に対して物理メモリバスの開放を要求する(図1の〔7〕)。物理メモリバス開放要求を受け取った中央演算処理装置10は、物理メモリバスの開放を物理メモリ制御部12に通知する(図1の〔8〕)。物理メモリ制御部12は、指定された物理アドレスへの書込み許可を、物理ハードウェア管理部16へ通知して、データ転送の受入れの準備を完了する(図1の〔9〕)。通知を受け取った物理ハードウェア管理部16は、物理メモリ制御部12に対して、メモリデータの転送を行う(図1の〔10〕)。物理ハードウェア管理部16から転送されてきたメモリデータを受けた物理メモリ制御部12は、物理メモリ14の指定アドレスに対して書込みを行う(図1の〔11〕)。書込みを完了すると、中央演算処理装置10に対して物理メモリバスの占有使用の完了を通知する(図1の〔12〕)。
[Standby]
The standby physical hardware management unit 16 requests the physical memory control unit 12 to write to the physical memory 14 in order to write to the physical memory 14 based on the received physical address and memory data ( [6] in FIG. The physical memory control unit 12 that has received the request collates the physical address information in its own address management table with the physical address for which the write request has been made. Only when the corresponding physical address exists, the central processing unit 10 is requested to release the physical memory bus ([7] in FIG. 1). The central processing unit 10 that has received the physical memory bus release request notifies the physical memory control unit 12 of the release of the physical memory bus ([8] in FIG. 1). The physical memory control unit 12 notifies the physical hardware management unit 16 of write permission to the designated physical address, and completes preparation for accepting data transfer ([9] in FIG. 1). The physical hardware management unit 16 that has received the notification transfers memory data to the physical memory control unit 12 ([10] in FIG. 1). The physical memory control unit 12 that has received the memory data transferred from the physical hardware management unit 16 writes to the designated address of the physical memory 14 ([11] in FIG. 1). When the writing is completed, the central processing unit 10 is notified of the completion of exclusive use of the physical memory bus ([12] in FIG. 1).

2.ハードウェア障害発生時におけるゲストOS OS1−A〜OS1−Cの移行処理について、図2を用いて、説明する。   2. Migration processing of the guest OSes OS1-A to OS1-C when a hardware failure occurs will be described with reference to FIG.

[運用系]
運用系の物理ハードウェア管理部15が致命的なハードウェア障害を検出すると、中央演算処理装置9に対して割り込みを上げる(図2の〔1〕)。物理ハードウェア管理部15から割り込みを受けた中央演算処理装置9は、物理メモリ13に展開されている基本入出力制御システム7のシステム管理モードに制御を移す(図2の〔2〕)。システム管理モードへの移行によって、中央演算処理装置9の現行の状態を退避するようにとの命令が出ると(図2の〔3〕)、中央演算処理装置9から現行の状態(レジスタ情報、コンテキスト情報)が物理メモリ制御部11に渡される(図2の〔4〕)。これらは、物理メモリ13に展開された基本入出力制御システム7のシステム管理領域にあるレジスタ及びコンテキスト情報保存領域に保存され(図2の〔5〕)、同時に、物理メモリ制御部11を経由して、物理ハードウェア管理部15へも渡される(図2の〔6〕)。物理ハードウェア管理部15は、待機系の物理ハードウェア管理部16に対して、ゲストOS OS1−A〜OS1−Cの制御移行通知と、受け取った中央演算処理装置9のレジスタ、コンテキスト情報とを送信する(図2の〔7〕、〔8〕)。
[Operational system]
When the active physical hardware management unit 15 detects a fatal hardware failure, it raises an interrupt to the central processing unit 9 ([1] in FIG. 2). The central processing unit 9 that has received an interrupt from the physical hardware management unit 15 transfers control to the system management mode of the basic input / output control system 7 developed in the physical memory 13 ([2] in FIG. 2). When an instruction to save the current state of the central processing unit 9 is issued by the shift to the system management mode ([3] in FIG. 2), the current state (register information, Context information) is passed to the physical memory control unit 11 ([4] in FIG. 2). These are stored in the registers and the context information storage area in the system management area of the basic input / output control system 7 expanded in the physical memory 13 ([5] in FIG. 2), and simultaneously through the physical memory control unit 11. Then, it is also passed to the physical hardware management unit 15 ([6] in FIG. 2). The physical hardware management unit 15 notifies the standby physical hardware management unit 16 of the control transfer notification of the guest OSs OS1-A to OS1-C and the received registers and context information of the central processing unit 9. Transmit ([7], [8] in FIG. 2).

一方、システム管理モードに入っている中央演算処理装置9は、ホストOS OS1の障害検知部3を起動するための割り込みを中央演算処理装置9自身へ上げるよう、物理ハードウェア管理部15に対して命令を発行し(図2の〔9〕)、その後、リストア命令を実行してシステム管理モードから抜ける。続いて、物理ハードウェア管理部15から割り込みを受けると(図2の〔10〕)、中央演算処理装置9は、障害検知部3に制御を移す(図2の〔11〕)。障害検知部3はダンプ部5を起動し、ダンプ部5は、中央演算処理装置9と、物理メモリ制御部11と、物理I/O制御部17とを経由して、共有ストレージ19にメモリダンプを書き込む。メモリダンプが完了してダンプ部5から終了通知を受けると、障害検知部3は、運用系コンピュータシステムSYS1の再起動を自動的に行う。   On the other hand, the central processing unit 9 in the system management mode instructs the physical hardware management unit 15 to raise an interrupt for starting the failure detection unit 3 of the host OS OS1 to the central processing unit 9 itself. An instruction is issued ([9] in FIG. 2), and then a restore instruction is executed to exit the system management mode. Subsequently, when receiving an interrupt from the physical hardware management unit 15 ([10] in FIG. 2), the central processing unit 9 transfers control to the failure detection unit 3 ([11] in FIG. 2). The failure detection unit 3 activates the dump unit 5, and the dump unit 5 performs a memory dump to the shared storage 19 via the central processing unit 9, the physical memory control unit 11, and the physical I / O control unit 17. Write. When the memory dump is completed and an end notification is received from the dump unit 5, the failure detection unit 3 automatically restarts the operational computer system SYS1.

[待機系]
待機系の物理ハードウェア管理部16は、運用系の物理ハードウェア管理部15から、制御移行通知と、レジスタ及びコンテキスト情報とを受け取ると、物理ハードウェア管理部16自身の状態レジスタを運用系であることを示す値に変更し、中央演算処理装置10に対して割り込みを上げる(図2の〔12〕)。物理ハードウェア管理部16から割り込みを受けた中央演算処理装置10は、物理メモリ14に展開された基本入出力制御システム8の命令コード群における所定のエントリアドレスにジャンプし、システム管理モードで実行されるプログラムに制御を移す(図2の〔13〕)。システム管理モードへの移行によって、中央演算処理装置10の現行の状態を退避するようにとの命令が出ると(図2の〔14〕)、中央演算処理装置10から現行の状態(レジスタ情報、コンテキスト情報)が物理メモリ制御部12に渡される(図2の〔15〕)。この現行の状態は、物理メモリ14に展開された基本入出力制御システム8のシステム管理領域にあるコンテキスト情報保存領域に保存される(図2の〔16〕)。
[Standby]
When the standby physical hardware management unit 16 receives the control transfer notification and the register and context information from the active physical hardware management unit 15, the standby physical hardware management unit 16 stores the status register of the physical hardware management unit 16 itself in the active system. The value is changed to a value indicating that it is present, and an interrupt is given to the central processing unit 10 ([12] in FIG. 2). The central processing unit 10 receiving the interrupt from the physical hardware management unit 16 jumps to a predetermined entry address in the instruction code group of the basic input / output control system 8 developed in the physical memory 14 and is executed in the system management mode. Control is transferred to the program ([13] in FIG. 2). When an instruction to save the current state of the central processing unit 10 is issued by the shift to the system management mode ([14] in FIG. 2), the current state (register information, Context information) is transferred to the physical memory control unit 12 ([15] in FIG. 2). This current state is stored in the context information storage area in the system management area of the basic input / output control system 8 developed in the physical memory 14 ([16] in FIG. 2).

システム管理モードにおいては、次に、物理ハードウェア管理部16に対して、運用系から運用系ゲストOS OS1−A〜OS1−Cの制御移行通知を受け取っているかどうかの確認を行う。ここでは、物理ハードウェア管理部16の状態レジスタが運用系を示す値となっているかどうかをチェックする(図2の〔17〕)。運用系を示す値になっている場合は、物理ハードウェア管理部16が保持している運用系中央演算処理装置9のレジスタ及びコンテキスト情報を引き取って(図2の〔18〕)、物理メモリ制御部12経由で、システム管理領域の予備のコンテキスト保存領域に保存する(図2の〔19〕)。   Next, in the system management mode, it is confirmed whether or not the physical hardware management unit 16 has received control transfer notifications of the active guest OSs OS1-A to OS1-C from the active system. Here, it is checked whether or not the status register of the physical hardware management unit 16 has a value indicating the active system ([17] in FIG. 2). If the value indicates the active system, the register and the context information of the active central processing unit 9 held by the physical hardware management unit 16 are acquired ([18] in FIG. 2), and physical memory control is performed. It is stored in a spare context storage area in the system management area via the section 12 ([19] in FIG. 2).

システム管理モードにおいては、最後に、中央演算処理装置10に対してリストア命令を発行し、予備のコンテキスト保存領域に格納されているレジスタ、コンテキスト情報を中央演算処理装置10の各レジスタにリストアさせる。そして、運用系ゲストOS OS1−A〜OS1−Cが、障害直前に処理していたフェーズからシステム運用を再開する(図2の〔20〕、〔21〕)。システム運用が再開された後、障害検知部4は仮想計算機制御部2と連携し、バックアップしたゲストOS OS2−A〜OS2−Cが正常に稼動しているかどうかを診断するため、ポーリングチェックを行う。正常稼動していない場合は、ゲストOS OS2−A〜OS2−Cの再起動を行うなどする。   In the system management mode, finally, a restore command is issued to the central processing unit 10 to restore the registers and context information stored in the spare context storage area to each register of the central processing unit 10. Then, the operational guest OSes OS1-A to OS1-C resume system operation from the phase processed immediately before the failure ([20] and [21] in FIG. 2). After the system operation is resumed, the failure detection unit 4 cooperates with the virtual machine control unit 2 to perform a polling check in order to diagnose whether the backed up guest OSes OS2-A to OS2-C are operating normally. . If it is not operating normally, the guest OSes OS2-A to OS2-C are restarted.

3.物理ハードウェア管理部15の構成例について、図3を用いて説明する。図3を参照すると、物理ハードウェア管理部15は、割り込み処理部20と、ログ採取部21と、状態レジスタ22と、データ受信部23と、データ送信部24と、エラーレジスタ25と、入力バッファ35と、出力バッファ36とを有している。図3において、割り込み処理部20は、致命的ハードウェア障害を検出して、中央演算処理装置9に割り込みを発生させる。ログ採取部21は、ハードウェア障害発生時の詳細ログ情報を採取する。状態レジスタ22は、システムが運用系であるか、または待機系であるかを示す情報を保持する。データ受信部23は、メモリ情報と制御移行通知とを受信処理する。データ送信部24は、メモリ情報と制御移行通知とを送信処理する。エラーレジスタ25は、検出されたハードウェア障害が致命的なものかどうかの情報(障害レベル)を保持する。入力バッファ35は、受信処理するメモリ情報及び制御移行通知のバッファとして機能する。出力バッファ36は、送信処理するメモリ情報及び制御移行通知のバッファとして機能する。   3. A configuration example of the physical hardware management unit 15 will be described with reference to FIG. Referring to FIG. 3, the physical hardware management unit 15 includes an interrupt processing unit 20, a log collection unit 21, a status register 22, a data reception unit 23, a data transmission unit 24, an error register 25, and an input buffer. 35 and an output buffer 36. In FIG. 3, the interrupt processing unit 20 detects a fatal hardware failure and causes the central processing unit 9 to generate an interrupt. The log collection unit 21 collects detailed log information when a hardware failure occurs. The status register 22 holds information indicating whether the system is an active system or a standby system. The data receiving unit 23 receives the memory information and the control transfer notification. The data transmission unit 24 transmits the memory information and the control transfer notification. The error register 25 holds information (failure level) indicating whether the detected hardware failure is fatal. The input buffer 35 functions as a buffer for memory information to be received and a control transfer notification. The output buffer 36 functions as a buffer for memory information to be transmitted and a control transfer notification.

物理ハードウェア管理部15の動作例について説明する。物理メモリ制御部11又は物理I/O制御部17は、ハードウェア障害を検出すると、物理ハードウェア管理部15に通知を上げ、障害が致命的かどうかを示す情報をエラーレジスタ25に登録する。割り込み処理部20は、エラーレジスタ25の値をチェックし、通知されたハードウェア障害が致命的なものかどうかを判定する。致命的な場合は、中央演算処理装置9に割り込みを上げてログ採取部21で障害情報を記録する。割り込み要求に対しては、そのまま中央演算処理装置9に割り込みを上げる。   An operation example of the physical hardware management unit 15 will be described. When the physical memory control unit 11 or the physical I / O control unit 17 detects a hardware failure, the physical memory control unit 11 or the physical I / O control unit 17 notifies the physical hardware management unit 15 and registers information indicating whether the failure is fatal in the error register 25. The interrupt processing unit 20 checks the value of the error register 25 and determines whether the notified hardware failure is fatal. In the case of a fatal case, the central processing unit 9 is interrupted and the log collection unit 21 records the failure information. In response to an interrupt request, an interrupt is sent to the central processing unit 9 as it is.

物理メモリ制御部11からの物理アドレスとメモリデータの入力については、出力バッファ36に一時的に格納した後、データ送信部24から対向の物理ハードウェア管理部16へ送信を行う。データ受信部23で受信した物理アドレスとメモリデータについては、入力バッファ35に一時的に格納した後、物理メモリ制御部11へ出力する。ここで、制御移行通知を受信した場合には、状態レジスタ22の値を待機系を示す値から運用系を示す値に変更する。   The physical address and memory data input from the physical memory control unit 11 are temporarily stored in the output buffer 36 and then transmitted from the data transmission unit 24 to the opposing physical hardware management unit 16. The physical address and memory data received by the data receiving unit 23 are temporarily stored in the input buffer 35 and then output to the physical memory control unit 11. Here, when the control transfer notification is received, the value of the status register 22 is changed from the value indicating the standby system to the value indicating the active system.

4.仮想計算機制御部1の構成例について、図4を用いて説明する。図4を参照すると、仮想計算機制御部1は、仮想ハードウェア提供部26と、メモリ管理部27と、メモリ管理テーブル28とを有している。仮想ハードウェア提供部26は、ゲストOS OS1−A〜OS1−Cが使用するシステムリソース(中央演算処理装置、物理メモリ、基本入出力システム、入出力デバイス等)を仮想的に生成して提供する役割を担う。メモリ管理部27は、セグメントとページ情報を保持し、ホストOS OS1とゲストOS OS1−A〜OS1−Cのメモリ管理を行う。メモリ管理テーブル28は、システムで書込み可能な領域の論理アドレスと物理アドレスとの対応情報を格納する。メモリ管理テーブル28には、ゲストOS OS1−A〜OS1−C、ホストOS OS1自身の各プロセスのメモリ情報が全て格納されている。   4). A configuration example of the virtual machine control unit 1 will be described with reference to FIG. Referring to FIG. 4, the virtual machine control unit 1 includes a virtual hardware providing unit 26, a memory management unit 27, and a memory management table 28. The virtual hardware providing unit 26 virtually generates and provides system resources (central processing unit, physical memory, basic input / output system, input / output device, etc.) used by the guest OSes OS1-A to OS1-C. Take a role. The memory management unit 27 holds the segment and page information and performs memory management of the host OS OS1 and the guest OSs OS1-A to OS1-C. The memory management table 28 stores correspondence information between logical addresses and physical addresses of areas writable by the system. The memory management table 28 stores all the memory information of each process of the guest OS OS1-A to OS1-C and the host OS OS1 itself.

仮想計算機制御部1の動作例について説明する。仮想計算機制御部1は、書き込みが行われることによってメモリ内容に変更があった場合には、変更があったメモリの番地情報及びその内容などを保存して、メモリ管理テーブル28を更新する。また、そのメモリ情報(物理アドレス及びメモリ内容)を物理メモリ制御部11に渡す。物理メモリ制御部11は、アドレス管理テーブル(後述する図5参照)を更新し、メモリ内容に変更があったメモリ番地情報を保存する。メモリ情報は、同時に、物理メモリ制御部11から物理ハードウェア管理部15を経由して待機系の仮想計算機制御部2にも渡される。このメモリ情報により、待機系のメモリ管理テーブルの更新も行われる。   An operation example of the virtual machine control unit 1 will be described. When there is a change in the memory contents due to the writing, the virtual machine control unit 1 stores the address information of the changed memory and its contents, and updates the memory management table 28. Further, the memory information (physical address and memory contents) is passed to the physical memory control unit 11. The physical memory control unit 11 updates the address management table (see FIG. 5 described later), and stores the memory address information whose memory contents are changed. At the same time, the memory information is also transferred from the physical memory control unit 11 to the standby virtual computer control unit 2 via the physical hardware management unit 15. Based on this memory information, the standby memory management table is also updated.

5.物理メモリ制御部11の構成例について、図5を用いて説明する。図5を参照すると、物理メモリ制御部11は、物理メモリ、I/O入出力切り替え回路29と、アドレス管理テーブル30と、出力バッファ37とを有している。物理メモリ、I/O入出力切り替え回路29は、中央演算処理装置9、物理I/O制御部17等からのメモリ入出力を制御して、物理メモリ13へのアクセス制御全般を行う。アドレス管理テーブル30には、仮想計算機制御部1が管理しているメモリ管理テーブル28のアドレス情報がコピーされる。物理メモリ、I/O入出力切り替え回路29は、物理メモリ13におけるある物理アドレスに対する書込みが発生した際に、アドレス管理テーブル30を参照して、当該物理アドレスが書込み許可領域であるかどうかをチェックする。該当する物理アドレスが存在した場合には、書き込まれるメモリ内容のコピーを、物理ハードウェア管理部15に転送する。   5). A configuration example of the physical memory control unit 11 will be described with reference to FIG. Referring to FIG. 5, the physical memory control unit 11 includes a physical memory, an I / O input / output switching circuit 29, an address management table 30, and an output buffer 37. The physical memory / I / O input / output switching circuit 29 controls memory input / output from the central processing unit 9, the physical I / O control unit 17, and the like, and performs overall access control to the physical memory 13. In the address management table 30, the address information of the memory management table 28 managed by the virtual machine control unit 1 is copied. When a write to a physical address in the physical memory 13 occurs, the physical memory / I / O input / output switching circuit 29 refers to the address management table 30 and checks whether the physical address is a write-permitted area. To do. If the corresponding physical address exists, a copy of the memory content to be written is transferred to the physical hardware management unit 15.

6.共有ストレージ19について詳述する。本実施の形態においては、仮想計算機冗長化システムに、共有ストレージ19を設置している。仮に、運用系ゲストOS OS1−A〜OS1−Cが使用するファイルシステムが、運用系のローカルに存在する物理ディスクに格納されたディスクイメージであった場合を考える。この場合には、待機系が運用系に移行した後は、待機系ゲストOS OS2−A〜OS2−Cからはそのディスクイメージにアクセスすることができない。そのため、仮想計算機冗長化システムは、待機系が運用系に移行した後は、動作できなくなる。   6). The shared storage 19 will be described in detail. In the present embodiment, the shared storage 19 is installed in the virtual machine redundancy system. Assume that the file system used by the active guest OSes OS1-A to OS1-C is a disk image stored on a physical disk that exists locally in the active system. In this case, after the standby system shifts to the active system, the standby system guest OS OS2-A to OS2-C cannot access the disk image. For this reason, the virtual machine redundancy system cannot operate after the standby system has shifted to the active system.

そこで、本実施の形態においては、運用系コンピュータシステムSYS1と、待機系コンピュータシステムSYS2との両方から平等にアクセス可能な共有ストレージ19を用意している。ここに、運用系ゲストOS OS1−A〜OS1−Cから更新されるファイルシステム情報を保存しておくことにしている。   Therefore, in the present embodiment, a shared storage 19 that is equally accessible from both the active computer system SYS1 and the standby computer system SYS2 is prepared. Here, file system information updated from the active guest OSes OS1-A to OS1-C is stored.

本実施の形態による効果について説明する。第1の効果は、ホストオペレーティングシステムでは検出できないハードウェア障害の原因を特定できるという点である。その理由は、専用ハードウェアである物理ハードウェア管理部を用意して、この物理ハードウェア管理部が、物理メモリ制御部、物理I/O制御部などの各種ハードウェア制御部からの障害通知を検出し、ログ情報を保存する仕組みを提供しているからである。   The effect by this Embodiment is demonstrated. The first effect is that the cause of a hardware failure that cannot be detected by the host operating system can be identified. The reason is that a physical hardware management unit, which is dedicated hardware, is prepared, and this physical hardware management unit notifies failure notifications from various hardware control units such as a physical memory control unit and a physical I / O control unit. This is because it provides a mechanism for detecting and saving log information.

第2の効果は、ゲストオペレーティングシステムの二重化運用を、ダウンタイムを大幅に短縮して提供することができる点である。その理由は、運用系、待機系それぞれの仮想計算機システムに係る物理ハードウェア管理部が連携することで、ハードウェア障害発生時に障害を検出し、即座にゲストオペレーティングシステムの処理を移行させる仕組みを提供しているからである。   The second effect is that the redundant operation of the guest operating system can be provided with greatly reduced downtime. The reason for this is that the physical hardware management units related to the virtual machine systems of the active system and the standby system work together to detect a failure when a hardware failure occurs and provide a mechanism to immediately migrate the guest operating system processing. Because it is.

図1は、仮想計算機冗長化システムの構成、及び、通常運用時における制御の流れ及びデータの流れを示した図である。FIG. 1 is a diagram showing a configuration of a virtual machine redundancy system, and a control flow and a data flow during normal operation. 図2は、致命的なハードウェア障害が発生した時の制御及びデータの流れを示した図である。FIG. 2 is a diagram showing the flow of control and data when a fatal hardware failure occurs. 図3は、物理ハードウェア管理部の構成例を示した図である。FIG. 3 is a diagram illustrating a configuration example of the physical hardware management unit. 図4は、仮想計算機制御部の構成例を示した図である。FIG. 4 is a diagram illustrating a configuration example of the virtual machine control unit. 図5は、物理メモリ制御部の構成例を示した図である。FIG. 5 is a diagram illustrating a configuration example of the physical memory control unit.

符号の説明Explanation of symbols

1,2 仮想計算機制御部
3,4 障害検知部
5,6 ダンプ部
7,8 基本入出力制御システム
9,10 中央演算処理装置
11,12 物理メモリ制御部
13,14 物理メモリ
15,16 物理ハードウェア管理部
17,18 物理I/O制御部
19 共有ストレージ
20 割り込み処理部
21 ログ採取部
22 状態レジスタ
23 データ受信部
24 データ送信部
25 エラーレジスタ
26 仮想ハードウェア提供部
27 メモリ管理部
28 メモリ管理テーブル
29 物理メモリ、I/O入出力切り替え回路
30 アドレス管理テーブル
35 入力バッファ
36,37 出力バッファ
1, 2 Virtual computer control unit 3, 4 Fault detection unit 5, 6 Dump unit 7, 8 Basic input / output control system 9, 10 Central processing unit 11, 12 Physical memory control unit 13, 14 Physical memory 15, 16 Physical hardware Hardware management unit 17, 18 Physical I / O control unit 19 Shared storage 20 Interrupt processing unit 21 Log collection unit 22 Status register 23 Data reception unit 24 Data transmission unit 25 Error register 26 Virtual hardware provision unit 27 Memory management unit 28 Memory management Table 29 Physical memory, I / O input / output switching circuit 30 Address management table 35 Input buffer 36, 37 Output buffer

Claims (15)

運用系ホストオペレーティングシステム、及び、前記運用系ホストオペレーティングシステムによって提供される仮想計算機上で動作する運用系ゲストオペレーティングシステムを備える運用系コンピュータシステムと、
待機系ホストオペレーティングシステムと、待機系ゲストオペレーティングシステムとを備え、前記運用系コンピュータシステムのバックアップとして待機する待機系コンピュータシステムとを具備する
仮想計算機冗長化システム。
An operational host operating system, and an operational computer system comprising an operational guest operating system operating on a virtual machine provided by the operational host operating system;
A virtual machine redundancy system comprising a standby host operating system and a standby guest operating system, the standby computer system waiting as a backup of the operational computer system.
前記運用系ホストオペレーティングシステムは、
前記運用系ゲストオペレーティングシステム、及び、前記運用系ホストオペレーティングシステムのメモリ管理を行うと共に、前記運用系ゲストオペレーティングシステムに対して、仮想的なハードウェアリソースを提供する運用系仮想計算機制御手段を有し、
前記待機系ホストオペレーティングシステムは、
前記運用系仮想計算機制御手段のバックアップとして待機する待機系仮想計算機制御手段を有する
請求項1記載の仮想計算機冗長化システム。
The operational host operating system is:
In addition to performing memory management of the active guest operating system and the active host operating system, the operating guest operating system has operating virtual computer control means for providing virtual hardware resources to the active guest operating system. ,
The standby host operating system is:
The virtual machine redundancy system according to claim 1, further comprising standby virtual computer control means that stands by as a backup of the active virtual computer control means.
前記仮想的なハードウェアリソースは、
仮想演算処理装置、仮想ファイルシステム、及び、仮想メモリを含むものである
請求項2記載の仮想計算機冗長化システム。
The virtual hardware resource is:
The virtual computer redundancy system according to claim 2, comprising a virtual arithmetic processing device, a virtual file system, and a virtual memory.
前記運用系コンピュータシステムは、
前記運用系ホストオペレーティングシステム、並びに、前記運用系ゲストオペレーティングシステムによって使用される運用系物理メモリ、及び、前記運用系ゲストオペレーティングシステムが動作することにより、前記運用系物理メモリのメモリ内容に変更が発生した際に、そのメモリ情報を前記待機系コンピュータシステムへ送信するための運用系物理メモリ制御手段を有する運用系物理ハードウェアを備え、
前記待機系コンピュータシステムは、
前記待機系ホストオペレーティングシステム、並びに、前記待機系ゲストオペレーティングシステムによって使用される待機系物理メモリ、及び、前記メモリ情報を前記待機系物理メモリに書き込み、前記待機系ゲストオペレーティングシステムのメモリ領域を更新する待機系物理メモリ制御手段を有する待機系物理ハードウェアを備える
請求項3記載の仮想計算機冗長化システム。
The operational computer system is:
A change occurs in the memory contents of the operational physical memory due to the operation of the operational host operating system, the operational physical memory used by the operational guest operating system, and the operational guest operating system. The operation physical physical hardware having an operation physical memory control means for transmitting the memory information to the standby computer system,
The standby computer system includes:
The standby host operating system, the standby physical memory used by the standby guest operating system, and the memory information are written to the standby physical memory, and the memory area of the standby guest operating system is updated. The virtual machine redundancy system according to claim 3, further comprising standby physical hardware having standby physical memory control means.
前記メモリ情報は、
前記運用系物理メモリの物理アドレスと、
前記物理アドレスに記憶されたメモリ内容とを含むものである
請求項4記載の仮想計算機冗長化システム。
The memory information is
A physical address of the operational physical memory;
The virtual machine redundancy system according to claim 4, further comprising a memory content stored at the physical address.
前記運用系物理ハードウェアは、
前記物理メモリ制御手段から前記メモリ情報を受け取り、前記待機系コンピュータシステムへ前記メモリ情報を送信する運用系物理ハードウェア管理手段を更に有し、
前記待機系物理ハードウェアは、
前記運用系物理ハードウェア管理手段から前記メモリ情報を受け取り、前記メモリ情報を前記待機系物理メモリ制御手段へ渡す待機系物理ハードウェア管理手段を更に有する
請求項5記載の仮想計算機冗長化システム。
The operational physical hardware is
Further comprising operational physical hardware management means for receiving the memory information from the physical memory control means and transmitting the memory information to the standby computer system;
The standby physical hardware is:
6. The virtual machine redundancy system according to claim 5, further comprising standby physical hardware management means that receives the memory information from the active physical hardware management means and passes the memory information to the standby physical memory control means.
前記運用系物理ハードウェアは、
運用系中央演算処理装置を更に有し、
前記運用系物理ハードウェア管理手段は、
致命的なハードウェア障害を検出すると共に、前記運用系中央演算処理装置に障害検出割り込みを上げるものである
請求項6記載の仮想計算機冗長化システム。
The operational physical hardware is
It further has an operational central processing unit,
The operational physical hardware management means includes:
The virtual machine redundancy system according to claim 6, wherein a fatal hardware failure is detected and a failure detection interrupt is raised to the active central processing unit.
前記致命的なハードウェア障害は、
前記運用系物理メモリのエラー、及び、物理I/Oデバイスのエラーを含むものである
請求項7記載の仮想計算機冗長化システム。
The fatal hardware failure is
The virtual machine redundancy system according to claim 7, comprising an error in the operational physical memory and an error in a physical I / O device.
前記運用系ホストオペレーティングシステムは、
前記運用系物理ハードウェア管理手段が、致命的なハードウェア障害を検出したときに起動され、前記運用系物理メモリのメモリダンプ採取を指示する障害検知手段を更に有する
請求項8記載の仮想計算機冗長化システム。
The operational host operating system is:
9. The virtual machine redundancy according to claim 8, further comprising a failure detection unit that is activated when the operational physical hardware management unit detects a fatal hardware failure and instructs to collect a memory dump of the operational physical memory. System.
前記運用系ホストオペレーティングシステムは、
前記運用系物理メモリのメモリダンプ採取を行うダンプ手段を更に有し、
前記障害検知手段は、
前記ダンプ手段を起動することによって、前記メモリダンプ採取を指示すると共に、その後、前記運用系コンピュータシステムのシステム再起動を自動的に行う
請求項9記載の仮想計算機冗長化システム。
The operational host operating system is:
It further comprises dump means for collecting a memory dump of the operational physical memory,
The failure detection means includes
10. The virtual machine redundancy system according to claim 9, wherein the memory dump collection is instructed by activating the dump unit, and then the system restart of the operational computer system is automatically performed.
前記運用系コンピュータシステムは、
前記運用系物理ハードウェアの基本入出力制御を行うと共に、前記運用系中央演算処理装置が前記障害検出割り込みを受けた際には、システム管理モードに移行させて、障害対処を指示する基本入出力制御システムを更に備え、
前記待機系物理ハードウェアは、
待機系中央演算処理装置を更に有すると共に、
前記運用系中央演算処理装置が前記障害検出割り込みを受けるときに、前記運用系コンピュータシステムから、前記運用系コンピュータシステムをバックアップすべきことを指示する制御移行通知を受け、
前記待機系コンピュータシステムは、
前記待機系物理ハードウェアが、前記制御移行通知を受けた際に呼び出され、前記待機系中央演算処理装置に、前記運用系中央演算処理装置の処理を引き継がせる待機系基本入出力制御システムを更に備える
請求項10記載の仮想計算機冗長化システム。
The operational computer system is:
Performs basic input / output control of the operational physical hardware, and when the operational central processing unit receives the failure detection interrupt, shifts to a system management mode to instruct the failure handling basic input / output A control system,
The standby physical hardware is:
In addition to having a standby central processing unit,
When the operational central processing unit receives the failure detection interrupt, the operational computer system receives a control transfer notification instructing that the operational computer system should be backed up,
The standby computer system includes:
A standby basic input / output control system that is called when the standby physical hardware receives the control transfer notification and that causes the standby central processing unit to take over the processing of the active central processing unit; The virtual machine redundancy system according to claim 10.
前記運用系物理ハードウェア管理手段は、
致命的なハードウェア障害を検出したときに、前記待機系コンピュータシステムへ、前記制御移行通知を送信し、
前記待機系物理ハードウェア管理手段は、
前記運用系物理ハードウェア管理手段から前記制御移行通知を受信すると共に、前記待機系中央演算処理装置にバックアップ指示割り込みを上げる
請求項11記載の仮想計算機冗長化システム。
The operational physical hardware management means includes:
When a fatal hardware failure is detected, the control transfer notification is sent to the standby computer system,
The standby physical hardware management means includes
The virtual machine redundancy system according to claim 11, wherein the control transfer notification is received from the active physical hardware management means, and a backup instruction interrupt is raised to the standby central processing unit.
前記運用系物理ハードウェア管理手段は、
運用系であるか、待機系であるかを示すフラグ情報を格納する運用系物理ハードウェア管理手段状態レジスタを擁し、
致命的なハードウェア障害を検出したときには、前記運用系物理ハードウェア管理手段状態レジスタの内容を、運用系を示す値から待機系を示す値に書き換え、
前記待機系物理ハードウェア管理手段は、
運用系であるか、待機系であるかを示すフラグ情報を格納する待機系物理ハードウェア管理手段状態レジスタを擁し、
前記制御移行通知を受信したときには、前記待機系物理ハードウェア管理手段状態レジスタの内容を、待機系を示す値から運用系を示す値に書き換える
請求項12記載の仮想計算機冗長化システム。
The operational physical hardware management means includes:
It has an active physical hardware management means status register that stores flag information indicating whether it is an active or standby system,
When a fatal hardware failure is detected, the contents of the operational physical hardware management means status register are rewritten from a value indicating the active system to a value indicating the standby system,
The standby physical hardware management means is
It has a standby physical hardware management means status register that stores flag information indicating whether it is an active system or a standby system,
13. The virtual machine redundancy system according to claim 12, wherein when the control transfer notification is received, the contents of the standby physical hardware management means status register are rewritten from a value indicating the standby system to a value indicating the active system.
前記運用系仮想計算機制御手段は、
前記運用系物理メモリのメモリ領域で、前記運用系ゲストオペレーティングシステムから書き込み可能な領域を特定する情報を含むメモリ管理テーブルを擁し、
前記書き込み可能な領域に対する書き込みがあった場合には、そのメモリ情報を、前記運用系物理メモリ制御手段に送信し、
前記運用系物理メモリ制御手段は、
前記メモリ情報を前記運用系物理メモリに書き込み、前記書き込み可能な領域を更新する
請求項13記載の仮想計算機冗長化システム。
The operational virtual computer control means includes:
A memory management table including information for specifying a writable area from the active guest operating system in the memory area of the active physical memory;
If there is a write to the writable area, the memory information is sent to the operational physical memory control means,
The operational physical memory control means includes:
The virtual machine redundancy system according to claim 13, wherein the memory information is written to the active physical memory and the writable area is updated.
前記運用系ゲストオペレーティングシステムが使用する前記仮想ファイルシステムのディスクイメージを格納すると共に、前記待機系コンピュータシステムが前記運用系コンピュータシステムをバックアップし、前記待機系ゲストオペレーティングシステムが運用を開始した際に、前記待機系ゲストオペレーティングシステムが参照する仮想ファイルシステムとして、前記待機系コンピュータシステムからアクセスできる共有ストレージを更に具備する
請求項14記載の仮想計算機冗長化システム。
When storing the disk image of the virtual file system used by the active guest operating system, the standby computer system backs up the active computer system, and when the standby guest operating system starts operation, The virtual machine redundancy system according to claim 14, further comprising a shared storage accessible from the standby computer system as a virtual file system referred to by the standby guest operating system.
JP2008055056A 2008-03-05 2008-03-05 Virtual machine redundancy system, computer system, virtual machine redundancy method, and program Expired - Fee Related JP5392594B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008055056A JP5392594B2 (en) 2008-03-05 2008-03-05 Virtual machine redundancy system, computer system, virtual machine redundancy method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008055056A JP5392594B2 (en) 2008-03-05 2008-03-05 Virtual machine redundancy system, computer system, virtual machine redundancy method, and program

Publications (2)

Publication Number Publication Date
JP2009211517A true JP2009211517A (en) 2009-09-17
JP5392594B2 JP5392594B2 (en) 2014-01-22

Family

ID=41184581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008055056A Expired - Fee Related JP5392594B2 (en) 2008-03-05 2008-03-05 Virtual machine redundancy system, computer system, virtual machine redundancy method, and program

Country Status (1)

Country Link
JP (1) JP5392594B2 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011216020A (en) * 2010-04-01 2011-10-27 Mitsubishi Electric Corp Information processing apparatus and circuit reconfiguration device
JP2011253242A (en) * 2010-05-31 2011-12-15 Fujitsu Ltd Duplexing system, active device, standby device and method for updating data
JP2012014674A (en) * 2010-06-04 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> Failure recovery method, server, and program in virtual environment
WO2012063294A1 (en) * 2010-11-12 2012-05-18 株式会社日立製作所 Computer system
JP2012256240A (en) * 2011-06-09 2012-12-27 Nippon Telegr & Teleph Corp <Ntt> Duplex system and memory synchronization method
JP2013092956A (en) * 2011-10-27 2013-05-16 Hitachi Ltd Computer system and information storage method for computer system
JP2013522785A (en) * 2010-03-23 2013-06-13 コンチネンタル・テベス・アーゲー・ウント・コンパニー・オーハーゲー Computer system for control, method for controlling computer system for control, and use of computer system for control
CN103501290A (en) * 2013-09-18 2014-01-08 万达信息股份有限公司 High-reliability service system establishment method based on dynamic-backup virtual machines
WO2014129184A1 (en) * 2013-02-21 2014-08-28 日本電気株式会社 Virtualization system
JP2014170394A (en) * 2013-03-04 2014-09-18 Nec Corp Cluster system
CN117519039A (en) * 2023-11-28 2024-02-06 滨州泽郦精密金属科技有限公司 Metal part production management system

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7128419B2 (en) * 2019-02-14 2022-08-31 日本電信電話株式会社 Redundant operation system and its method

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04213736A (en) * 1990-02-08 1992-08-04 Internatl Business Mach Corp <Ibm> Check point mechanism for fault tolerant system
JPH06131208A (en) * 1992-10-20 1994-05-13 Fujitsu Ltd Switching system between in-operation device and stand-by device
JPH07219802A (en) * 1994-02-01 1995-08-18 Hitachi Ltd Duplex control system
JPH08287021A (en) * 1995-02-14 1996-11-01 Fujitsu Ltd Plural computer systems connected to shared memory and controlling method for the systems
JPH08328891A (en) * 1995-06-02 1996-12-13 Mitsubishi Electric Corp Duplex system using standby redundant configuration
JPH09305424A (en) * 1996-05-16 1997-11-28 Hitachi Ltd Dual systems
JP2002032244A (en) * 2000-07-17 2002-01-31 Nec Corp Virtual computer and its dump sampling method
JP2002215416A (en) * 2001-01-19 2002-08-02 Mitsubishi Electric Corp Fault-tolerant computer system
JP2004246621A (en) * 2003-02-13 2004-09-02 Fujitsu Ltd Information collecting program, information collecting device, and information collecting method
JP2005173751A (en) * 2003-12-09 2005-06-30 Hitachi Ltd Master system operation management method using virtual machine system
JP2006072591A (en) * 2004-09-01 2006-03-16 Hitachi Ltd Virtual computer control method

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04213736A (en) * 1990-02-08 1992-08-04 Internatl Business Mach Corp <Ibm> Check point mechanism for fault tolerant system
JPH06131208A (en) * 1992-10-20 1994-05-13 Fujitsu Ltd Switching system between in-operation device and stand-by device
JPH07219802A (en) * 1994-02-01 1995-08-18 Hitachi Ltd Duplex control system
JPH08287021A (en) * 1995-02-14 1996-11-01 Fujitsu Ltd Plural computer systems connected to shared memory and controlling method for the systems
JPH08328891A (en) * 1995-06-02 1996-12-13 Mitsubishi Electric Corp Duplex system using standby redundant configuration
JPH09305424A (en) * 1996-05-16 1997-11-28 Hitachi Ltd Dual systems
JP2002032244A (en) * 2000-07-17 2002-01-31 Nec Corp Virtual computer and its dump sampling method
JP2002215416A (en) * 2001-01-19 2002-08-02 Mitsubishi Electric Corp Fault-tolerant computer system
JP2004246621A (en) * 2003-02-13 2004-09-02 Fujitsu Ltd Information collecting program, information collecting device, and information collecting method
JP2005173751A (en) * 2003-12-09 2005-06-30 Hitachi Ltd Master system operation management method using virtual machine system
JP2006072591A (en) * 2004-09-01 2006-03-16 Hitachi Ltd Virtual computer control method

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013522785A (en) * 2010-03-23 2013-06-13 コンチネンタル・テベス・アーゲー・ウント・コンパニー・オーハーゲー Computer system for control, method for controlling computer system for control, and use of computer system for control
JP2011216020A (en) * 2010-04-01 2011-10-27 Mitsubishi Electric Corp Information processing apparatus and circuit reconfiguration device
JP2011253242A (en) * 2010-05-31 2011-12-15 Fujitsu Ltd Duplexing system, active device, standby device and method for updating data
JP2012014674A (en) * 2010-06-04 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> Failure recovery method, server, and program in virtual environment
JP5733318B2 (en) * 2010-11-12 2015-06-10 株式会社日立製作所 Computer system
WO2012063294A1 (en) * 2010-11-12 2012-05-18 株式会社日立製作所 Computer system
GB2499143B (en) * 2010-11-12 2018-12-26 Hitachi Ltd Computer system
GB2499143A (en) * 2010-11-12 2013-08-07 Hitachi Ltd Computer system
US9208029B2 (en) 2010-11-12 2015-12-08 Hitachi, Ltd. Computer system to switch logical group of virtual computers
JP2012256240A (en) * 2011-06-09 2012-12-27 Nippon Telegr & Teleph Corp <Ntt> Duplex system and memory synchronization method
JP2013092956A (en) * 2011-10-27 2013-05-16 Hitachi Ltd Computer system and information storage method for computer system
WO2014129184A1 (en) * 2013-02-21 2014-08-28 日本電気株式会社 Virtualization system
JPWO2014129184A1 (en) * 2013-02-21 2017-02-02 日本電気株式会社 Virtualization system
US9672059B2 (en) 2013-02-21 2017-06-06 Nec Corporation Virtualization system
JP2014170394A (en) * 2013-03-04 2014-09-18 Nec Corp Cluster system
CN103501290A (en) * 2013-09-18 2014-01-08 万达信息股份有限公司 High-reliability service system establishment method based on dynamic-backup virtual machines
CN117519039A (en) * 2023-11-28 2024-02-06 滨州泽郦精密金属科技有限公司 Metal part production management system
CN117519039B (en) * 2023-11-28 2024-05-24 滨州泽郦精密金属科技有限公司 Metal part production management system

Also Published As

Publication number Publication date
JP5392594B2 (en) 2014-01-22

Similar Documents

Publication Publication Date Title
JP5392594B2 (en) Virtual machine redundancy system, computer system, virtual machine redundancy method, and program
JP2728108B2 (en) Storage device controller
US8990617B2 (en) Fault-tolerant computer system, fault-tolerant computer system control method and recording medium storing control program for fault-tolerant computer system
JP4839841B2 (en) How to restart snapshot
JP3992427B2 (en) File system
US20100325471A1 (en) High availability support for virtual machines
JP2011060055A (en) Virtual computer system, recovery processing method and of virtual machine, and program therefor
JP2012190267A (en) Migration program, information processor, and migration method
JPH07117903B2 (en) Disaster recovery method
WO2006082657A1 (en) Multi cpu computer and system restart method
JP3481737B2 (en) Dump collection device and dump collection method
US11573737B2 (en) Method and apparatus for performing disk management of all flash array server
JP2006277205A (en) Storage system and its control method and control program
JP3301992B2 (en) Computer system with power failure countermeasure and method of operation
JP4322240B2 (en) Reboot method, system and program
JP5287974B2 (en) Arithmetic processing system, resynchronization method, and farm program
JP2009129101A (en) Fault recovery system for information processor
EP2145253A1 (en) Automated firmware restoration to a peer programmable hardware device
JP2006114064A (en) Storage subsystem
JP2000293391A (en) Method and device for large-scale memory system management
JP2785992B2 (en) Server program management processing method
JP4165423B2 (en) System board with core I / O card
JP4788516B2 (en) Dynamic replacement system, dynamic replacement method and program
US20120233420A1 (en) Fault-tolerant system, memory control method, and computer-readable recording medium storing programs
JP4494263B2 (en) Service system redundancy method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131003

R150 Certificate of patent or registration of utility model

Ref document number: 5392594

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees