JP5392594B2 - Virtual machine redundancy system, computer system, virtual machine redundancy method, and program - Google Patents

Virtual machine redundancy system, computer system, virtual machine redundancy method, and program Download PDF

Info

Publication number
JP5392594B2
JP5392594B2 JP2008055056A JP2008055056A JP5392594B2 JP 5392594 B2 JP5392594 B2 JP 5392594B2 JP 2008055056 A JP2008055056 A JP 2008055056A JP 2008055056 A JP2008055056 A JP 2008055056A JP 5392594 B2 JP5392594 B2 JP 5392594B2
Authority
JP
Japan
Prior art keywords
memory
physical
virtual machine
information
hardware
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008055056A
Other languages
Japanese (ja)
Other versions
JP2009211517A (en
Inventor
文博 牧山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008055056A priority Critical patent/JP5392594B2/en
Publication of JP2009211517A publication Critical patent/JP2009211517A/en
Application granted granted Critical
Publication of JP5392594B2 publication Critical patent/JP5392594B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Description

本発明は、仮想計算機冗長化システムに関し、特に運用系で複数のゲストオペレーティングシステムをホストオペレーティングシステム上で稼動させている仮想計算機システムのハードウェアで障害が発生した際に、オペレーティングシステムのメモリダンプを外部記憶に採取し、動作中のゲストオペレーティングシステムの処理を高速に待機系のゲストオペレーティングシステムへ引き継がせる機能を持った仮想計算機冗長化システムに関する。   The present invention relates to a virtual machine redundancy system, and in particular, when a failure occurs in hardware of a virtual machine system in which a plurality of guest operating systems are operated on a host operating system in an operating system, an operating system memory dump is performed. The present invention relates to a virtual machine redundancy system having a function of collecting data in an external storage and transferring a running guest operating system to a standby guest operating system at high speed.

クラスタ管理された複数台の仮想計算機を有する仮想計算機冗長化システムが知られる。この仮想計算機冗長化システムでは、それぞれのホストオペレーティングシステム上で稼動する仮想計算機制御部どうしが連携する。何れかの仮想計算機システムで障害が発生した場合には、その仮想計算機システムを管轄する仮想計算機制御部の上で稼動しているゲストオペレーティングシステムの処理を、正常稼動している仮想計算機システムへ移行させてダウンタイムを短縮する。しかし、ソフトウェアでなる仮想計算機制御部だけでは、ハードウェアに依存する障害発生原因の特定が困難であった。   A virtual machine redundancy system having a plurality of cluster-managed virtual machines is known. In this virtual machine redundancy system, virtual machine control units operating on the respective host operating systems cooperate with each other. If a failure occurs in any of the virtual machine systems, the guest operating system process running on the virtual machine controller that controls the virtual machine system is transferred to the normally running virtual machine system To reduce downtime. However, it is difficult to identify the cause of the failure depending on the hardware only by the virtual computer control unit made of software.

この種の技術としては、特開2002−32244号公報(特許文献1参照)に記載された発明がある。この発明では、仮想計算機を運用しているときに、仮想計算機制御部に何らかの不具合が発生し、仮想計算機が動作できなくなった場合に、ゲストオペレーティングシステムのメモリイメージを記憶媒体に退避させる。そのメモリイメージをダンプ型式データに変換出力させて、その不具合原因の調査解析を容易にする。   As this type of technology, there is an invention described in Japanese Patent Laid-Open No. 2002-32244 (see Patent Document 1). According to the present invention, when a virtual machine control unit has some trouble when operating a virtual machine and the virtual machine cannot operate, the memory image of the guest operating system is saved in a storage medium. The memory image is converted into dump type data and output to facilitate investigation and analysis of the cause of the failure.

この発明の第1の問題点は、次の通りである。仮想計算機システムの運用中にハードウェア障害が発生した場合に、ホストオペレーティングシステム、及び、その上で稼動している仮想計算機制御部が制御不能になる可能性がある。これらが制御不能になると、仮想計算機制御部の制御下で動作中であった各ゲストオペレーティングシステムが制御不能となるため、それぞれのゲストオペレーティングシステムが備えるダンプ採取手段が使えなくなるという問題点である。   The first problem of the present invention is as follows. If a hardware failure occurs during the operation of the virtual machine system, the host operating system and the virtual machine controller operating on the host operating system may become uncontrollable. If they become uncontrollable, each guest operating system operating under the control of the virtual machine control unit becomes uncontrollable, and the dump collecting means included in each guest operating system cannot be used.

その理由は、仮想計算機制御部は、ホストオペレーティングシステム上で稼動しているため、ハードウェア障害が発生した場合、ホストオペレーティングシステム自体が正常動作できなくなり、仮想計算機制御部も制御不能となる。よって、各ゲストオペレーティングシステムも制御不能となってしまい、ダンプ採取手段を起動することができないからである。   The reason is that since the virtual machine control unit operates on the host operating system, when a hardware failure occurs, the host operating system itself cannot operate normally and the virtual machine control unit cannot be controlled. Therefore, each guest operating system is also uncontrollable and the dump collecting means cannot be activated.

第2の問題点は、ソフトウェアである仮想計算機制御部どうしの連携で運用系から待機系へゲストオペレーティングシステムの処理を移行させる方式では、ハードウェア障害発生時には一定時間のダウンタイムが発生してしまうという問題点である。その理由は、仮想計算機制御部どうしは、ハートビートによる死活監視を行っているため、ハートビートが途切れたことを検出するまでに、ある一定のタイムアウト時間が掛かるからである。   The second problem is that in the method in which the guest operating system process is transferred from the active system to the standby system in cooperation with the virtual machine controller, which is software, a downtime of a certain time occurs when a hardware failure occurs. It is a problem. The reason is that since the virtual machine control units perform alive monitoring by heartbeats, it takes a certain time-out time to detect that the heartbeat is interrupted.

特開平7−219802号公報(特許文献2参照)には、2重化制御方式の発明が記載されている。この2重化制御方式は、主系にて処理を行っている最中に障害が検出された場合は、予備系に切り替えて処理を続行するために、両系の記憶部内容を同一に保つべく、主系の記憶部への書き込みデータを予備系の記憶部へも書き込みを行う。主系記憶部に発生した書き込み内容を、主系CPUとは独立に動作する記憶制御部によりその内部のバッファへ逐次記憶させる。主系CPUからの指示により、主系CPUの記憶部変更内容を別のバッファ領域へ記憶させ始める。並行して前バッファ領域の内容通りの変更を予備系の記憶部へ対して行う。   Japanese Patent Laid-Open No. 7-219802 (see Patent Document 2) describes an invention of a duplex control system. In this duplex control method, when a failure is detected during processing in the main system, the contents of the storage units of both systems are kept the same in order to switch to the standby system and continue the processing. Therefore, the write data to the main storage unit is also written to the standby storage unit. The write contents generated in the main storage unit are sequentially stored in the internal buffer by the storage control unit that operates independently of the main CPU. In response to an instruction from the main CPU, the storage unit change contents of the main CPU are started to be stored in another buffer area. In parallel, the change according to the contents of the previous buffer area is made to the storage unit of the standby system.

特開平8−287021号公報(特許文献3参照)には、共用メモリに結合される複数の計算機システムの発明が記載されている。これは、少なくとも1つの実計算機(以下、実クラスタと記す)と外部記憶装置である共用メモリとを結合する電子計算機システムにおける発明である。実クラスタ及び仮想計算機運用された実クラスタ内の個々のゲストクラスタを制御するためのオペレーティングシステム(以下、OSと記す)を有する実クラスタまたは、仮想計算機システムを制御するためのOSを有する少なくとも1つの仮想計算機システムが、共用メモリに接続される。   Japanese Patent Laid-Open No. 8-28702 (see Patent Document 3) describes an invention of a plurality of computer systems coupled to a shared memory. This is an invention in an electronic computer system that couples at least one real computer (hereinafter referred to as a real cluster) and a shared memory that is an external storage device. At least one having an operating system (hereinafter referred to as OS) for controlling individual guest clusters in a real cluster and a virtual cluster operated real cluster or an OS for controlling a virtual machine system A virtual machine system is connected to the shared memory.

特開平9−305424号公報(特許文献4参照)には、プロセッサの二重化システムの発明が記載されている。この発明は、主メモリバスで接続されたMPU及び主記憶装置と、相手系と共有情報を送受する送受信回路を持つ共有データ一致化装置(以下、CMEと略称)を備える。主記憶装置は、共有データを記憶する共有エリアを有する。CMEは、メモリアクセス情報取得手段、メモリアクセス手段、共有エリア設定手段、共有データ監視手段を有する。メモリアクセス情報取得手段は、MPUから主記憶装置へ書き込むアドレスとデータを含むアクセス情報を主メモリバスからスヌープする。メモリアクセス手段は、相手系からの受信情報が共有データの場合に共有エリアに書き込む。共有エリア設定手段は、共有エリアの範囲を指定する。共有データ監視手段は、アクセス情報または受信情報中のアドレスが共有エリアの範囲内にあるとき、該情報を共有データと判断する。   Japanese Patent Laying-Open No. 9-305424 (see Patent Document 4) describes an invention of a dual processor system. The present invention includes an MPU and a main storage device connected by a main memory bus, and a shared data matching device (hereinafter abbreviated as CME) having a transmission / reception circuit for transmitting / receiving shared information to / from a counterpart system. The main storage device has a shared area for storing shared data. The CME includes memory access information acquisition means, memory access means, shared area setting means, and shared data monitoring means. The memory access information acquisition means snoops access information including an address and data to be written from the MPU to the main storage device from the main memory bus. The memory access means writes in the shared area when the received information from the partner system is shared data. The shared area setting means designates the range of the shared area. The shared data monitoring unit determines that the information is shared data when the address in the access information or the received information is within the range of the shared area.

特開2002−32244号公報JP 2002-32244 A 特開平7−219802号公報Japanese Laid-Open Patent Publication No. 7-219802 特開平8−287021号公報JP-A-8-287021 特開平9−305424号公報JP-A-9-305424

本発明の課題は、運用系の仮想計算機システムでハードウェア障害が発生した場合に、ホストオペレーティングシステムの状態に依存することなく、専用ハードウェアによってハードウェアに依存する障害発生原因の特定を行うことにある。   An object of the present invention is to identify a cause of failure depending on hardware by dedicated hardware without depending on the state of a host operating system when a hardware failure occurs in an operational virtual machine system. It is in.

本発明の他の課題は、運用系でハードウェア障害が発生した場合でもダウンタイムを大幅に短縮して、運用系のゲストオペレーティングシステムの処理を待機系のゲストオペレーティングシステムの処理として、処理を引き継ぐことにある。   Another problem of the present invention is that even when a hardware failure occurs in the active system, the downtime is greatly reduced, and the processing of the active guest operating system is taken over as the processing of the standby guest operating system. There is.

本発明の一つのアスペクトによる仮想計算機冗長化システムは、運用系コンピュータシステムと、運用系コンピュータシステムのバックアップとして待機する待機系コンピュータシステムとを具備する。運用系コンピュータシステムは、運用系ホストオペレーティングシステム、及び、運用系ホストオペレーティングシステムによって提供される仮想計算機上で動作する運用系ゲストオペレーティングシステムを備える。待機系コンピュータシステムは、待機系ホストオペレーティングシステムと、待機系ゲストオペレーティングシステムとを備える。   A virtual machine redundancy system according to one aspect of the present invention includes an active computer system and a standby computer system that stands by as a backup of the active computer system. The operational computer system includes an operational host operating system and an operational guest operating system that operates on a virtual machine provided by the operational host operating system. The standby computer system includes a standby host operating system and a standby guest operating system.

本発明によれば、運用系の仮想計算機システムでハードウェア障害が発生した場合に、ホストオペレーティングシステムの状態に依存することなく、専用ハードウェアによってハードウェアに依存する障害発生原因の特定を行うことができる。   According to the present invention, when a hardware failure occurs in an active virtual machine system, the cause of failure that depends on hardware is identified by dedicated hardware without depending on the state of the host operating system. Can do.

また、運用系でハードウェア障害が発生した場合でもダウンタイムを大幅に短縮して、運用系のゲストオペレーティングシステムの処理を待機系のゲストオペレーティングシステムの処理として、処理を引き継ぐことができる。   Further, even when a hardware failure occurs in the active system, the downtime can be greatly shortened, and the process of the active guest operating system can be taken over as the process of the standby guest operating system.

本発明を実施するための最良の形態の一つについて、図面を参照して詳細に説明する。図1を参照すると、ひとつの実施の形態における仮想計算機冗長化システムは、運用系コンピュータシステムSYS1と、待機系コンピュータシステムSYS2と、共有ストレージ19とを有している。運用系コンピュータシステムSYS1、及び、待機系コンピュータシステムSYS2のそれぞれは、物理ハードウェアHW1,HW2と、基本入出力制御システム7,8とを具備している。運用系コンピュータシステムSYS1では、ホストOS OS1が動作し、このホストOS OS1の上で、ゲストOS OS1−A〜OS1−Cが動作している。また、待機系コンピュータシステムSYS2では、ホストOS OS2、並びに、ゲストOS OS2−A〜OS2−Cが、運用系のバックアップとして待機している。   One of the best modes for carrying out the present invention will be described in detail with reference to the drawings. Referring to FIG. 1, the virtual machine redundancy system in one embodiment includes an operational computer system SYS 1, a standby computer system SYS 2, and a shared storage 19. Each of the operational computer system SYS1 and the standby computer system SYS2 includes physical hardware HW1 and HW2 and basic input / output control systems 7 and 8. In the operational computer system SYS1, a host OS OS1 operates, and guest OSs OS1-A to OS1-C operate on the host OS OS1. In the standby computer system SYS2, the host OS OS2 and the guest OSs OS2-A to OS2-C are on standby as active backups.

ホストOS OS1は、仮想計算機制御部1と、障害検知部3と、ダンプ部5とを有している。仮想計算機制御部1は、ホストOS OS1の機能の一部を担い、ゲストOS OS1−A〜OS1−Cに仮想マシンリソースを提供し、メモリ管理と制御を行う。障害検知部3は、ホストOS OS1の機能の一部として、致命的ハードウェア障害発生時に起動されて、ダンプ部5の起動、システムSYS1の自動的な再起動を行う。ダンプ部5は、ホストOS OS1の機能の一部として、障害検知部3から起動され、メモリダンプ採取を行う。ホストOS OS2では、仮想計算機制御部2と、障害検知部4と、ダンプ部6とが、仮想計算機制御部1と、障害検知部3と、ダンプ部5とのバックアップとして、それぞれ待機している。   The host OS OS1 has a virtual machine control unit 1, a failure detection unit 3, and a dump unit 5. The virtual machine control unit 1 is responsible for part of the functions of the host OS OS1, provides virtual machine resources to the guest OSs OS1-A to OS1-C, and performs memory management and control. The failure detection unit 3 is started when a fatal hardware failure occurs as part of the function of the host OS OS1, and starts the dump unit 5 and automatically restarts the system SYS1. The dump unit 5 is activated by the failure detection unit 3 as part of the function of the host OS OS1 and collects a memory dump. In the host OS OS2, the virtual machine control unit 2, the failure detection unit 4, and the dump unit 6 are respectively waiting as backups for the virtual machine control unit 1, the failure detection unit 3, and the dump unit 5. .

基本入出力制御システム7,8は、それぞれ、ホストOS OS1,OS2と物理ハードウェアHW1,HW2との入出力制御のサービスをホストOS OS1,OS2に提供し、また、障害発生時の対処プログラムであるシステム管理モードを、中央演算処理装置9,10に提供するファームウェアである。   The basic input / output control systems 7 and 8 provide the host OS OS1 and OS2 with input / output control services between the host OS OS1 and OS2 and the physical hardware HW1 and HW2, respectively. This is firmware that provides a certain system management mode to the central processing units 9 and 10.

物理ハードウェアHW1,HW2は、それぞれ、中央演算処理装置9,10と、物理メモリ制御部11,12と、物理メモリと13,14と、物理ハードウェア管理部15,16、物理I/O制御部17,18とを有している。運用系の物理メモリ制御部11は、物理メモリ13への読み書きの制御を行う役割と、書込み許可された物理アドレスへの書込みの際にはメモリ内容を物理ハードウェア管理部15にも転送する。待機系の物理メモリ制御部12は、物理メモリ14への読み書きの制御を行う役割と、物理ハードウェア管理部16からの物理メモリ14への書込み要求があった際には物理メモリ14への書き込みを行う。運用系の物理ハードウェア管理部15は、物理メモリ制御部11からのメモリコピーを受け取り、待機系へ転送する。致命的ハードウェア障害を検出して中央演算処理装置9に割り込みを上げ、待機系へ制御移行通知と中央演算処理装置9のレジスタ、コンテキスト情報の送信を行う。   The physical hardware HW1 and HW2 are respectively the central processing units 9 and 10, the physical memory control units 11 and 12, the physical memory 13 and 14, the physical hardware management units 15 and 16, and the physical I / O control. Parts 17 and 18. The active physical memory control unit 11 controls reading / writing to the physical memory 13 and transfers the memory contents to the physical hardware management unit 15 when writing to a physical address that is permitted to be written. The standby physical memory control unit 12 controls reading / writing to the physical memory 14 and writes to the physical memory 14 when a request for writing to the physical memory 14 is received from the physical hardware management unit 16. I do. The active physical hardware management unit 15 receives the memory copy from the physical memory control unit 11 and transfers it to the standby system. A fatal hardware failure is detected, the central processing unit 9 is interrupted, a control transfer notification is sent to the standby system, and the central processing unit 9 registers and context information are transmitted.

待機系の物理ハードウェア管理部16は、受信したメモリコピーを物理メモリ制御部12へ渡す。制御移行通知を受信すると、中央演算処理装置10へ割り込みを上げ、運用系から受信したレジスタ、コンテキスト情報からの運用継続を引き継がせる処理を行わせる。運用系の物理I/O制御部17は、共有ストレージ19への読み書き制御及び入出力ハードウェアへの読み書き制御を行う。待機系の物理I/O制御部18は、共有ストレージ19からの読み込み制御及び入出力ハードウェアへの読み書き制御を行う。   The standby physical hardware management unit 16 passes the received memory copy to the physical memory control unit 12. When the control transfer notification is received, an interrupt is given to the central processing unit 10 to perform processing for taking over the continuation of operation from the register and context information received from the active system. The active physical I / O control unit 17 performs read / write control to the shared storage 19 and read / write control to the input / output hardware. The standby physical I / O control unit 18 performs read control from the shared storage 19 and read / write control to the input / output hardware.

共有ストレージ19は、運用系と待機系それぞれからアクセス可能であり、詳細には、運用系からは読み書き可能、待機系からは読み込みのみ可能である。共有ストレージ19は、待機系のゲストOS OS2−A〜OS2−Cが運用系に切り替わった後に、運用系のファイルシステムを参照できるように、運用系ゲストOS OS1−A〜OS1−Cの最新のファイルシステム情報を格納する。   The shared storage 19 can be accessed from each of the active system and the standby system. Specifically, the shared storage 19 can be read / written from the active system and can only be read from the standby system. The shared storage 19 is the latest version of the active guest OSes OS1-A to OS1-C so that the active file systems can be referred to after the standby guest OSes OS2-A to OS2-C are switched to the active system. Stores file system information.

1.運用系のゲストOS OS1−A〜OS1−Cと、待機系のゲストOS OS2−A〜OS2−Cのメモリ領域におけるデータ同期のプロセスについて、図1を用いて説明する。   1. A data synchronization process in the memory areas of the active guest OSes OS1-A to OS1-C and the standby guest OSes OS2-A to OS2-C will be described with reference to FIG.

[運用系、待機系]
運用系、待機系それぞれの物理メモリ制御部11,12は、アドレス管理テーブル(後述する図5参照)を持っている。仮想計算機制御部1,2は、自身がメモリ管理している物理メモリアドレス情報に変更が生じた場合、物理メモリ制御部11,12の当該アドレス管理テーブルに、物理メモリ情報のコピーを行う(図1の〔1〕)。
[Active / Standby]
The physical memory control units 11 and 12 of the active system and the standby system each have an address management table (see FIG. 5 described later). The virtual machine control units 1 and 2 copy the physical memory information to the address management tables of the physical memory control units 11 and 12 when the physical memory address information managed by the virtual machine control unit 1 or 2 changes (see FIG. 1 [1]).

[運用系]
物理メモリ制御部11は、中央演算処理装置9から書込み要求があった場合には(図1の〔2〕)、アドレス管理テーブルの物理アドレス情報と、書込み要求のあった物理アドレスとを照合する。該当する物理アドレスが存在した場合には、物理メモリ13に書き込むのと同時に(図1の〔3〕)、物理ハードウェア管理部15にも、物理アドレスと、書き込まれるメモリデータを渡す(図1の〔4〕)。物理ハードウェア管理部15は、受け取った物理アドレスとメモリデータとを、待機系の物理ハードウェア管理部16に送信する(図1の〔5〕)。
[Operational system]
When there is a write request from the central processing unit 9 ([2] in FIG. 1), the physical memory control unit 11 collates the physical address information in the address management table with the physical address for which the write request has been made. . If the corresponding physical address exists, at the same time as writing to the physical memory 13 ([3] in FIG. 1), the physical address and the memory data to be written are also passed to the physical hardware management unit 15 (FIG. 1). [4]). The physical hardware management unit 15 transmits the received physical address and memory data to the standby physical hardware management unit 16 ([5] in FIG. 1).

[待機系]
待機系の物理ハードウェア管理部16は、受け取った物理アドレスとメモリデータとに基づいて、物理メモリ14へ書き込みを行うため、物理メモリ制御部12に対して物理メモリ14への書込みを要求する(図1の〔6〕)。要求を受けた物理メモリ制御部12は、自身のアドレス管理テーブルの物理アドレス情報と、書込み要求のあった物理アドレスとを照合する。該当する物理アドレスが存在した場合のみ、中央演算処理装置10に対して物理メモリバスの開放を要求する(図1の〔7〕)。物理メモリバス開放要求を受け取った中央演算処理装置10は、物理メモリバスの開放を物理メモリ制御部12に通知する(図1の〔8〕)。物理メモリ制御部12は、指定された物理アドレスへの書込み許可を、物理ハードウェア管理部16へ通知して、データ転送の受入れの準備を完了する(図1の〔9〕)。通知を受け取った物理ハードウェア管理部16は、物理メモリ制御部12に対して、メモリデータの転送を行う(図1の〔10〕)。物理ハードウェア管理部16から転送されてきたメモリデータを受けた物理メモリ制御部12は、物理メモリ14の指定アドレスに対して書込みを行う(図1の〔11〕)。書込みを完了すると、中央演算処理装置10に対して物理メモリバスの占有使用の完了を通知する(図1の〔12〕)。
[Standby]
The standby physical hardware management unit 16 requests the physical memory control unit 12 to write to the physical memory 14 in order to write to the physical memory 14 based on the received physical address and memory data ( [6] in FIG. The physical memory control unit 12 that has received the request collates the physical address information in its own address management table with the physical address for which the write request has been made. Only when the corresponding physical address exists, the central processing unit 10 is requested to release the physical memory bus ([7] in FIG. 1). The central processing unit 10 that has received the physical memory bus release request notifies the physical memory control unit 12 of the release of the physical memory bus ([8] in FIG. 1). The physical memory control unit 12 notifies the physical hardware management unit 16 of write permission to the designated physical address, and completes preparation for accepting data transfer ([9] in FIG. 1). The physical hardware management unit 16 that has received the notification transfers memory data to the physical memory control unit 12 ([10] in FIG. 1). The physical memory control unit 12 that has received the memory data transferred from the physical hardware management unit 16 writes to the designated address of the physical memory 14 ([11] in FIG. 1). When the writing is completed, the central processing unit 10 is notified of the completion of exclusive use of the physical memory bus ([12] in FIG. 1).

2.ハードウェア障害発生時におけるゲストOS OS1−A〜OS1−Cの移行処理について、図2を用いて、説明する。   2. Migration processing of the guest OSes OS1-A to OS1-C when a hardware failure occurs will be described with reference to FIG.

[運用系]
運用系の物理ハードウェア管理部15が致命的なハードウェア障害を検出すると、中央演算処理装置9に対して割り込みを上げる(図2の〔1〕)。物理ハードウェア管理部15から割り込みを受けた中央演算処理装置9は、物理メモリ13に展開されている基本入出力制御システム7のシステム管理モードに制御を移す(図2の〔2〕)。システム管理モードへの移行によって、中央演算処理装置9の現行の状態を退避するようにとの命令が出ると(図2の〔3〕)、中央演算処理装置9から現行の状態(レジスタ情報、コンテキスト情報)が物理メモリ制御部11に渡される(図2の〔4〕)。これらは、物理メモリ13に展開された基本入出力制御システム7のシステム管理領域にあるレジスタ及びコンテキスト情報保存領域に保存され(図2の〔5〕)、同時に、物理メモリ制御部11を経由して、物理ハードウェア管理部15へも渡される(図2の〔6〕)。物理ハードウェア管理部15は、待機系の物理ハードウェア管理部16に対して、ゲストOS OS1−A〜OS1−Cの制御移行通知と、受け取った中央演算処理装置9のレジスタ、コンテキスト情報とを送信する(図2の〔7〕、〔8〕)。
[Operational system]
When the active physical hardware management unit 15 detects a fatal hardware failure, it raises an interrupt to the central processing unit 9 ([1] in FIG. 2). The central processing unit 9 that has received an interrupt from the physical hardware management unit 15 transfers control to the system management mode of the basic input / output control system 7 developed in the physical memory 13 ([2] in FIG. 2). When an instruction to save the current state of the central processing unit 9 is issued by the shift to the system management mode ([3] in FIG. 2), the current state (register information, Context information) is passed to the physical memory control unit 11 ([4] in FIG. 2). These are stored in the registers and the context information storage area in the system management area of the basic input / output control system 7 expanded in the physical memory 13 ([5] in FIG. 2), and simultaneously through the physical memory control unit 11. Then, it is also passed to the physical hardware management unit 15 ([6] in FIG. 2). The physical hardware management unit 15 notifies the standby physical hardware management unit 16 of the control transfer notification of the guest OSs OS1-A to OS1-C and the received registers and context information of the central processing unit 9. Transmit ([7], [8] in FIG. 2).

一方、システム管理モードに入っている中央演算処理装置9は、ホストOS OS1の障害検知部3を起動するための割り込みを中央演算処理装置9自身へ上げるよう、物理ハードウェア管理部15に対して命令を発行し(図2の〔9〕)、その後、リストア命令を実行してシステム管理モードから抜ける。続いて、物理ハードウェア管理部15から割り込みを受けると(図2の〔10〕)、中央演算処理装置9は、障害検知部3に制御を移す(図2の〔11〕)。障害検知部3はダンプ部5を起動し、ダンプ部5は、中央演算処理装置9と、物理メモリ制御部11と、物理I/O制御部17とを経由して、共有ストレージ19にメモリダンプを書き込む。メモリダンプが完了してダンプ部5から終了通知を受けると、障害検知部3は、運用系コンピュータシステムSYS1の再起動を自動的に行う。   On the other hand, the central processing unit 9 in the system management mode instructs the physical hardware management unit 15 to raise an interrupt for starting the failure detection unit 3 of the host OS OS1 to the central processing unit 9 itself. An instruction is issued ([9] in FIG. 2), and then a restore instruction is executed to exit the system management mode. Subsequently, when receiving an interrupt from the physical hardware management unit 15 ([10] in FIG. 2), the central processing unit 9 transfers control to the failure detection unit 3 ([11] in FIG. 2). The failure detection unit 3 activates the dump unit 5, and the dump unit 5 performs a memory dump to the shared storage 19 via the central processing unit 9, the physical memory control unit 11, and the physical I / O control unit 17. Write. When the memory dump is completed and an end notification is received from the dump unit 5, the failure detection unit 3 automatically restarts the operational computer system SYS1.

[待機系]
待機系の物理ハードウェア管理部16は、運用系の物理ハードウェア管理部15から、制御移行通知と、レジスタ及びコンテキスト情報とを受け取ると、物理ハードウェア管理部16自身の状態レジスタを運用系であることを示す値に変更し、中央演算処理装置10に対して割り込みを上げる(図2の〔12〕)。物理ハードウェア管理部16から割り込みを受けた中央演算処理装置10は、物理メモリ14に展開された基本入出力制御システム8の命令コード群における所定のエントリアドレスにジャンプし、システム管理モードで実行されるプログラムに制御を移す(図2の〔13〕)。システム管理モードへの移行によって、中央演算処理装置10の現行の状態を退避するようにとの命令が出ると(図2の〔14〕)、中央演算処理装置10から現行の状態(レジスタ情報、コンテキスト情報)が物理メモリ制御部12に渡される(図2の〔15〕)。この現行の状態は、物理メモリ14に展開された基本入出力制御システム8のシステム管理領域にあるコンテキスト情報保存領域に保存される(図2の〔16〕)。
[Standby]
When the standby physical hardware management unit 16 receives the control transfer notification and the register and context information from the active physical hardware management unit 15, the standby physical hardware management unit 16 stores the status register of the physical hardware management unit 16 itself in the active system. The value is changed to a value indicating that it is present, and an interrupt is given to the central processing unit 10 ([12] in FIG. 2). The central processing unit 10 receiving the interrupt from the physical hardware management unit 16 jumps to a predetermined entry address in the instruction code group of the basic input / output control system 8 developed in the physical memory 14 and is executed in the system management mode. Control is transferred to the program ([13] in FIG. 2). When an instruction to save the current state of the central processing unit 10 is issued by the shift to the system management mode ([14] in FIG. 2), the current state (register information, Context information) is transferred to the physical memory control unit 12 ([15] in FIG. 2). This current state is stored in the context information storage area in the system management area of the basic input / output control system 8 developed in the physical memory 14 ([16] in FIG. 2).

システム管理モードにおいては、次に、物理ハードウェア管理部16に対して、運用系から運用系ゲストOS OS1−A〜OS1−Cの制御移行通知を受け取っているかどうかの確認を行う。ここでは、物理ハードウェア管理部16の状態レジスタが運用系を示す値となっているかどうかをチェックする(図2の〔17〕)。運用系を示す値になっている場合は、物理ハードウェア管理部16が保持している運用系中央演算処理装置9のレジスタ及びコンテキスト情報を引き取って(図2の〔18〕)、物理メモリ制御部12経由で、システム管理領域の予備のコンテキスト保存領域に保存する(図2の〔19〕)。   Next, in the system management mode, it is confirmed whether or not the physical hardware management unit 16 has received control transfer notifications of the active guest OSs OS1-A to OS1-C from the active system. Here, it is checked whether or not the status register of the physical hardware management unit 16 has a value indicating the active system ([17] in FIG. 2). If the value indicates the active system, the register and the context information of the active central processing unit 9 held by the physical hardware management unit 16 are acquired ([18] in FIG. 2), and physical memory control is performed. It is stored in a spare context storage area in the system management area via the section 12 ([19] in FIG. 2).

システム管理モードにおいては、最後に、中央演算処理装置10に対してリストア命令を発行し、予備のコンテキスト保存領域に格納されているレジスタ、コンテキスト情報を中央演算処理装置10の各レジスタにリストアさせる。そして、運用系ゲストOS OS1−A〜OS1−Cが、障害直前に処理していたフェーズからシステム運用を再開する(図2の〔20〕、〔21〕)。システム運用が再開された後、障害検知部4は仮想計算機制御部2と連携し、バックアップしたゲストOS OS2−A〜OS2−Cが正常に稼動しているかどうかを診断するため、ポーリングチェックを行う。正常稼動していない場合は、ゲストOS OS2−A〜OS2−Cの再起動を行うなどする。   In the system management mode, finally, a restore command is issued to the central processing unit 10 to restore the registers and context information stored in the spare context storage area to each register of the central processing unit 10. Then, the operational guest OSes OS1-A to OS1-C resume system operation from the phase processed immediately before the failure ([20] and [21] in FIG. 2). After the system operation is resumed, the failure detection unit 4 cooperates with the virtual machine control unit 2 to perform a polling check in order to diagnose whether the backed up guest OSes OS2-A to OS2-C are operating normally. . If it is not operating normally, the guest OSes OS2-A to OS2-C are restarted.

3.物理ハードウェア管理部15の構成例について、図3を用いて説明する。図3を参照すると、物理ハードウェア管理部15は、割り込み処理部20と、ログ採取部21と、状態レジスタ22と、データ受信部23と、データ送信部24と、エラーレジスタ25と、入力バッファ35と、出力バッファ36とを有している。図3において、割り込み処理部20は、致命的ハードウェア障害を検出して、中央演算処理装置9に割り込みを発生させる。ログ採取部21は、ハードウェア障害発生時の詳細ログ情報を採取する。状態レジスタ22は、システムが運用系であるか、または待機系であるかを示す情報を保持する。データ受信部23は、メモリ情報と制御移行通知とを受信処理する。データ送信部24は、メモリ情報と制御移行通知とを送信処理する。エラーレジスタ25は、検出されたハードウェア障害が致命的なものかどうかの情報(障害レベル)を保持する。入力バッファ35は、受信処理するメモリ情報及び制御移行通知のバッファとして機能する。出力バッファ36は、送信処理するメモリ情報及び制御移行通知のバッファとして機能する。   3. A configuration example of the physical hardware management unit 15 will be described with reference to FIG. Referring to FIG. 3, the physical hardware management unit 15 includes an interrupt processing unit 20, a log collection unit 21, a status register 22, a data reception unit 23, a data transmission unit 24, an error register 25, and an input buffer. 35 and an output buffer 36. In FIG. 3, the interrupt processing unit 20 detects a fatal hardware failure and causes the central processing unit 9 to generate an interrupt. The log collection unit 21 collects detailed log information when a hardware failure occurs. The status register 22 holds information indicating whether the system is an active system or a standby system. The data receiving unit 23 receives the memory information and the control transfer notification. The data transmission unit 24 transmits the memory information and the control transfer notification. The error register 25 holds information (failure level) indicating whether the detected hardware failure is fatal. The input buffer 35 functions as a buffer for memory information to be received and a control transfer notification. The output buffer 36 functions as a buffer for memory information to be transmitted and a control transfer notification.

物理ハードウェア管理部15の動作例について説明する。物理メモリ制御部11又は物理I/O制御部17は、ハードウェア障害を検出すると、物理ハードウェア管理部15に通知を上げ、障害が致命的かどうかを示す情報をエラーレジスタ25に登録する。割り込み処理部20は、エラーレジスタ25の値をチェックし、通知されたハードウェア障害が致命的なものかどうかを判定する。致命的な場合は、中央演算処理装置9に割り込みを上げてログ採取部21で障害情報を記録する。割り込み要求に対しては、そのまま中央演算処理装置9に割り込みを上げる。   An operation example of the physical hardware management unit 15 will be described. When the physical memory control unit 11 or the physical I / O control unit 17 detects a hardware failure, the physical memory control unit 11 or the physical I / O control unit 17 notifies the physical hardware management unit 15 and registers information indicating whether the failure is fatal in the error register 25. The interrupt processing unit 20 checks the value of the error register 25 and determines whether the notified hardware failure is fatal. In the case of a fatal case, the central processing unit 9 is interrupted and the log collection unit 21 records the failure information. In response to an interrupt request, an interrupt is sent to the central processing unit 9 as it is.

物理メモリ制御部11からの物理アドレスとメモリデータの入力については、出力バッファ36に一時的に格納した後、データ送信部24から対向の物理ハードウェア管理部16へ送信を行う。データ受信部23で受信した物理アドレスとメモリデータについては、入力バッファ35に一時的に格納した後、物理メモリ制御部11へ出力する。ここで、制御移行通知を受信した場合には、状態レジスタ22の値を待機系を示す値から運用系を示す値に変更する。   The physical address and memory data input from the physical memory control unit 11 are temporarily stored in the output buffer 36 and then transmitted from the data transmission unit 24 to the opposing physical hardware management unit 16. The physical address and memory data received by the data receiving unit 23 are temporarily stored in the input buffer 35 and then output to the physical memory control unit 11. Here, when the control transfer notification is received, the value of the status register 22 is changed from the value indicating the standby system to the value indicating the active system.

4.仮想計算機制御部1の構成例について、図4を用いて説明する。図4を参照すると、仮想計算機制御部1は、仮想ハードウェア提供部26と、メモリ管理部27と、メモリ管理テーブル28とを有している。仮想ハードウェア提供部26は、ゲストOS OS1−A〜OS1−Cが使用するシステムリソース(中央演算処理装置、物理メモリ、基本入出力システム、入出力デバイス等)を仮想的に生成して提供する役割を担う。メモリ管理部27は、セグメントとページ情報を保持し、ホストOS OS1とゲストOS OS1−A〜OS1−Cのメモリ管理を行う。メモリ管理テーブル28は、システムで書込み可能な領域の論理アドレスと物理アドレスとの対応情報を格納する。メモリ管理テーブル28には、ゲストOS OS1−A〜OS1−C、ホストOS OS1自身の各プロセスのメモリ情報が全て格納されている。   4). A configuration example of the virtual machine control unit 1 will be described with reference to FIG. Referring to FIG. 4, the virtual machine control unit 1 includes a virtual hardware providing unit 26, a memory management unit 27, and a memory management table 28. The virtual hardware providing unit 26 virtually generates and provides system resources (central processing unit, physical memory, basic input / output system, input / output device, etc.) used by the guest OSes OS1-A to OS1-C. Take a role. The memory management unit 27 holds the segment and page information and performs memory management of the host OS OS1 and the guest OSs OS1-A to OS1-C. The memory management table 28 stores correspondence information between logical addresses and physical addresses of areas writable by the system. The memory management table 28 stores all the memory information of each process of the guest OS OS1-A to OS1-C and the host OS OS1 itself.

仮想計算機制御部1の動作例について説明する。仮想計算機制御部1は、書き込みが行われることによってメモリ内容に変更があった場合には、変更があったメモリの番地情報及びその内容などを保存して、メモリ管理テーブル28を更新する。また、そのメモリ情報(物理アドレス及びメモリ内容)を物理メモリ制御部11に渡す。物理メモリ制御部11は、アドレス管理テーブル(後述する図5参照)を更新し、メモリ内容に変更があったメモリ番地情報を保存する。メモリ情報は、同時に、物理メモリ制御部11から物理ハードウェア管理部15を経由して待機系の仮想計算機制御部2にも渡される。このメモリ情報により、待機系のメモリ管理テーブルの更新も行われる。   An operation example of the virtual machine control unit 1 will be described. When there is a change in the memory contents due to the writing, the virtual machine control unit 1 stores the address information of the changed memory and its contents, and updates the memory management table 28. Further, the memory information (physical address and memory contents) is passed to the physical memory control unit 11. The physical memory control unit 11 updates the address management table (see FIG. 5 described later), and stores the memory address information whose memory contents are changed. At the same time, the memory information is also transferred from the physical memory control unit 11 to the standby virtual computer control unit 2 via the physical hardware management unit 15. Based on this memory information, the standby memory management table is also updated.

5.物理メモリ制御部11の構成例について、図5を用いて説明する。図5を参照すると、物理メモリ制御部11は、物理メモリ、I/O入出力切り替え回路29と、アドレス管理テーブル30と、出力バッファ37とを有している。物理メモリ、I/O入出力切り替え回路29は、中央演算処理装置9、物理I/O制御部17等からのメモリ入出力を制御して、物理メモリ13へのアクセス制御全般を行う。アドレス管理テーブル30には、仮想計算機制御部1が管理しているメモリ管理テーブル28のアドレス情報がコピーされる。物理メモリ、I/O入出力切り替え回路29は、物理メモリ13におけるある物理アドレスに対する書込みが発生した際に、アドレス管理テーブル30を参照して、当該物理アドレスが書込み許可領域であるかどうかをチェックする。該当する物理アドレスが存在した場合には、書き込まれるメモリ内容のコピーを、物理ハードウェア管理部15に転送する。   5. A configuration example of the physical memory control unit 11 will be described with reference to FIG. Referring to FIG. 5, the physical memory control unit 11 includes a physical memory, an I / O input / output switching circuit 29, an address management table 30, and an output buffer 37. The physical memory / I / O input / output switching circuit 29 controls memory input / output from the central processing unit 9, the physical I / O control unit 17, and the like, and performs overall access control to the physical memory 13. In the address management table 30, the address information of the memory management table 28 managed by the virtual machine control unit 1 is copied. When a write to a physical address in the physical memory 13 occurs, the physical memory / I / O input / output switching circuit 29 refers to the address management table 30 and checks whether the physical address is a write-permitted area. To do. If the corresponding physical address exists, a copy of the memory content to be written is transferred to the physical hardware management unit 15.

6.共有ストレージ19について詳述する。本実施の形態においては、仮想計算機冗長化システムに、共有ストレージ19を設置している。仮に、運用系ゲストOS OS1−A〜OS1−Cが使用するファイルシステムが、運用系のローカルに存在する物理ディスクに格納されたディスクイメージであった場合を考える。この場合には、待機系が運用系に移行した後は、待機系ゲストOS OS2−A〜OS2−Cからはそのディスクイメージにアクセスすることができない。そのため、仮想計算機冗長化システムは、待機系が運用系に移行した後は、動作できなくなる。   6). The shared storage 19 will be described in detail. In the present embodiment, the shared storage 19 is installed in the virtual machine redundancy system. Assume that the file system used by the active guest OSes OS1-A to OS1-C is a disk image stored on a physical disk that exists locally in the active system. In this case, after the standby system shifts to the active system, the standby system guest OS OS2-A to OS2-C cannot access the disk image. For this reason, the virtual machine redundancy system cannot operate after the standby system has shifted to the active system.

そこで、本実施の形態においては、運用系コンピュータシステムSYS1と、待機系コンピュータシステムSYS2との両方から平等にアクセス可能な共有ストレージ19を用意している。ここに、運用系ゲストOS OS1−A〜OS1−Cから更新されるファイルシステム情報を保存しておくことにしている。   Therefore, in the present embodiment, a shared storage 19 that is equally accessible from both the active computer system SYS1 and the standby computer system SYS2 is prepared. Here, file system information updated from the active guest OSes OS1-A to OS1-C is stored.

本実施の形態による効果について説明する。第1の効果は、ホストオペレーティングシステムでは検出できないハードウェア障害の原因を特定できるという点である。その理由は、専用ハードウェアである物理ハードウェア管理部を用意して、この物理ハードウェア管理部が、物理メモリ制御部、物理I/O制御部などの各種ハードウェア制御部からの障害通知を検出し、ログ情報を保存する仕組みを提供しているからである。   The effect by this Embodiment is demonstrated. The first effect is that the cause of a hardware failure that cannot be detected by the host operating system can be identified. The reason is that a physical hardware management unit, which is dedicated hardware, is prepared, and this physical hardware management unit notifies failure notifications from various hardware control units such as a physical memory control unit and a physical I / O control unit. This is because it provides a mechanism for detecting and saving log information.

第2の効果は、ゲストオペレーティングシステムの二重化運用を、ダウンタイムを大幅に短縮して提供することができる点である。その理由は、運用系、待機系それぞれの仮想計算機システムに係る物理ハードウェア管理部が連携することで、ハードウェア障害発生時に障害を検出し、即座にゲストオペレーティングシステムの処理を移行させる仕組みを提供しているからである。   The second effect is that the redundant operation of the guest operating system can be provided with greatly reduced downtime. The reason for this is that the physical hardware management units related to the virtual machine systems of the active system and the standby system work together to detect a failure when a hardware failure occurs and provide a mechanism to immediately migrate the guest operating system processing. Because it is.

図1は、仮想計算機冗長化システムの構成、及び、通常運用時における制御の流れ及びデータの流れを示した図である。FIG. 1 is a diagram showing a configuration of a virtual machine redundancy system, and a control flow and a data flow during normal operation. 図2は、致命的なハードウェア障害が発生した時の制御及びデータの流れを示した図である。FIG. 2 is a diagram showing the flow of control and data when a fatal hardware failure occurs. 図3は、物理ハードウェア管理部の構成例を示した図である。FIG. 3 is a diagram illustrating a configuration example of the physical hardware management unit. 図4は、仮想計算機制御部の構成例を示した図である。FIG. 4 is a diagram illustrating a configuration example of the virtual machine control unit. 図5は、物理メモリ制御部の構成例を示した図である。FIG. 5 is a diagram illustrating a configuration example of the physical memory control unit.

符号の説明Explanation of symbols

1,2 仮想計算機制御部
3,4 障害検知部
5,6 ダンプ部
7,8 基本入出力制御システム
9,10 中央演算処理装置
11,12 物理メモリ制御部
13,14 物理メモリ
15,16 物理ハードウェア管理部
17,18 物理I/O制御部
19 共有ストレージ
20 割り込み処理部
21 ログ採取部
22 状態レジスタ
23 データ受信部
24 データ送信部
25 エラーレジスタ
26 仮想ハードウェア提供部
27 メモリ管理部
28 メモリ管理テーブル
29 物理メモリ、I/O入出力切り替え回路
30 アドレス管理テーブル
35 入力バッファ
36,37 出力バッファ
1, 2 Virtual computer control unit 3, 4 Fault detection unit 5, 6 Dump unit 7, 8 Basic input / output control system 9, 10 Central processing unit 11, 12 Physical memory control unit 13, 14 Physical memory 15, 16 Physical hardware Hardware management unit 17, 18 Physical I / O control unit 19 Shared storage 20 Interrupt processing unit 21 Log collection unit 22 Status register 23 Data reception unit 24 Data transmission unit 25 Error register 26 Virtual hardware provision unit 27 Memory management unit 28 Memory management Table 29 Physical memory, I / O input / output switching circuit 30 Address management table 35 Input buffer 36, 37 Output buffer

Claims (14)

冗長化された仮想計算機システムにおける運用系のコンピュータシステムと、  An operational computer system in a redundant virtual machine system;
前記冗長化された仮想計算機システムにおける待機系のコンピュータシステムと、  A standby computer system in the redundant virtual machine system;
前記運用系のコンピュータシステム及び前記待機系のコンピュータシステムのそれぞれからアクセス可能な共有ストレージと  A shared storage accessible from each of the active computer system and the standby computer system;
を含み、Including
前記運用系のコンピュータシステム及び前記待機系のコンピュータシステムの各々は、  Each of the operational computer system and the standby computer system is
中央演算処理装置及び物理メモリを備えた物理ハードウェアと、  Physical hardware with a central processing unit and physical memory;
前記物理ハードウェア上で稼動するホストオペレーティングシステムと、  A host operating system running on the physical hardware;
前記ホストオペレーティングシステム上で稼動する仮想計算機制御手段と、  Virtual machine control means running on the host operating system;
前記仮想計算機制御手段の上で稼動するゲストオペレーティングシステムと、  A guest operating system running on the virtual machine control means;
前記物理メモリへの読み書きの制御を行う物理メモリ制御手段と、  Physical memory control means for controlling reading and writing to the physical memory;
専用ハードウェアであり、運用系の場合、前記仮想計算機制御手段及び前記物理メモリ制御手段と連携して前記ゲストオペレーティングシステムのメモリ情報を取得して、待機系と前記ゲストオペレーティングシステムのメモリ情報の同期を行い、致命的ハードウェア障害を検知すると前記中央演算処理装置に割り込みを上げ、待機系へ制御移行通知と前記中央演算処理装置のレジスタ情報及びコンテキスト情報との送信を行い、待機系の場合、運用系から制御移行通知を受信すると前記中央演算処理装置へ割り込みを上げ、運用系から受信したレジスタ情報及びコンテキスト情報に基づく運用を引き継がせる物理ハードウェア管理手段と、  In the case of the operational system, which is dedicated hardware, the memory information of the guest operating system is acquired in cooperation with the virtual machine control unit and the physical memory control unit, and the standby system and the memory information of the guest operating system are synchronized. When a fatal hardware failure is detected, an interrupt is sent to the central processing unit, and a control transfer notification and register information and context information of the central processing unit are transmitted to the standby system. A physical hardware management means for raising an interrupt to the central processing unit upon receiving a control transfer notification from the active system, and taking over the operation based on the register information and context information received from the active system;
致命的ハードウェア障害が検知された場合、前記ホストオペレーティングシステム上で前記物理メモリのメモリダンプ採取を行うダンプ手段と、  When a fatal hardware failure is detected, dump means for collecting a memory dump of the physical memory on the host operating system;
前記メモリダンプを取得し、前記共有ストレージへの読み書き制御及び入出力ハードウェアへの読み書き制御を行う物理I/O制御手段と  Physical I / O control means for acquiring the memory dump and performing read / write control to the shared storage and read / write control to the input / output hardware;
を具備するWith
仮想計算機冗長化システム。  Virtual machine redundancy system.
請求項1に記載の仮想計算機冗長化システムであって、  The virtual machine redundancy system according to claim 1,
前記物理ハードウェア管理手段は、  The physical hardware management means includes
致命的ハードウェア障害を検出して、前記中央演算処理装置に割り込みを発生させる割り込み処理手段と、  Interrupt processing means for detecting a fatal hardware failure and generating an interrupt in the central processing unit;
致命的ハードウェア障害発生時の詳細ログ情報を採取するログ採取手段と、  Log collection means for collecting detailed log information when a fatal hardware failure occurs,
自系のコンピュータシステムが運用系であるか待機系であるかを示す情報を保持する状態レジスタと、  A status register holding information indicating whether the local computer system is an active system or a standby system;
メモリ情報と制御移行通知とを受信処理するデータ受信手段と、  Data receiving means for receiving and processing memory information and control transfer notification;
メモリ情報と制御移行通知とを送信処理するデータ送信手段と、  Data transmitting means for transmitting memory information and control transfer notification;
検出されたハードウェア障害が致命的なものかどうかの障害レベルに関する情報を保持するエラーレジスタと、  An error register that holds information about the failure level of whether the detected hardware failure is fatal,
受信処理するメモリ情報及び制御移行通知のバッファとして機能する入力バッファと、  An input buffer that functions as a buffer for memory information to be received and a control transfer notification;
送信処理するメモリ情報及び制御移行通知のバッファとして機能する出力バッファと  An output buffer that functions as a buffer for memory information to be transmitted and a control transfer notification;
を具備するWith
仮想計算機冗長化システム。  Virtual machine redundancy system.
請求項2に記載の仮想計算機冗長化システムであって、  The virtual machine redundancy system according to claim 2,
前記物理メモリ制御手段又は前記物理I/O制御手段は、ハードウェア障害を検出すると、前記物理ハードウェア管理手段に通知を上げ、障害が致命的かどうかを示す情報を前記エラーレジスタに登録し、  When the physical memory control unit or the physical I / O control unit detects a hardware failure, the physical memory control unit or the physical I / O control unit notifies the physical hardware management unit and registers information indicating whether the failure is fatal in the error register.
前記割り込み処理手段は、前記エラーレジスタの値をチェックし、通知されたハードウェア障害が致命的なものかどうかを判定し、致命的な場合には、前記中央演算処理装置に割り込みを上げ、  The interrupt processing means checks the value of the error register, determines whether the notified hardware failure is fatal, and if fatal, raises an interrupt to the central processing unit,
前記ログ採取手段は、致命的ハードウェア障害発生時の詳細ログ情報を採取し、  The log collecting means collects detailed log information when a fatal hardware failure occurs,
前記物理メモリ制御手段は、物理アドレスとメモリデータの入力とを前記出力バッファに一時的に格納し、  The physical memory control means temporarily stores a physical address and input of memory data in the output buffer,
前記データ送信手段は、前記出力バッファに格納された情報を他系の物理ハードウェア管理手段に送信し、  The data transmission means transmits information stored in the output buffer to another physical hardware management means,
前記データ受信手段は、他系のデータ送信手段から物理アドレスとメモリデータを受信した場合、前記入力バッファに一時的に格納した後、前記物理メモリ制御手段へ出力し、制御移行通知を受信した場合には、前記状態レジスタの値を待機系を示す値から運用系を示す値に変更する  When the data receiving means receives a physical address and memory data from another system data transmitting means, temporarily stores it in the input buffer, and then outputs it to the physical memory control means and receives a control transfer notification To change the value of the status register from the value indicating the standby system to the value indicating the active system
仮想計算機冗長化システム。  Virtual machine redundancy system.
請求項1乃至3のいずれか一項に記載の仮想計算機冗長化システムであって、  The virtual machine redundancy system according to any one of claims 1 to 3,
前記仮想計算機制御手段は、  The virtual computer control means includes
前記ゲストオペレーティングシステムが使用するシステムリソースを仮想的に生成して提供する仮想ハードウェア提供手段と、  Virtual hardware providing means for virtually generating and providing system resources used by the guest operating system;
セグメント情報及びページ情報を保持し、前記ホストオペレーティングシステム及び前記ゲストオペレーティングシステムのメモリ管理を行うメモリ管理手段と、  Memory management means for holding segment information and page information, and performing memory management of the host operating system and the guest operating system;
自系のコンピュータシステムで書込み可能な領域の論理アドレスと物理アドレスとの対応情報、及び、前記ホストオペレーティングシステム及び前記ゲストオペレーティングシステムの各プロセスのメモリ情報を格納するメモリ管理テーブルと  A memory management table for storing correspondence information between a logical address and a physical address of an area writable by a local computer system, and memory information of each process of the host operating system and the guest operating system;
を具備するWith
仮想計算機冗長化システム。  Virtual machine redundancy system.
請求項4に記載の仮想計算機冗長化システムであって、  The virtual machine redundancy system according to claim 4,
前記仮想計算機制御手段は、書き込みが行われることによってメモリ内容に変更があった場合には、変更があったメモリの物理アドレス及びメモリ内容を保存して、前記メモリ管理テーブルを更新し、前記物理アドレス及び前記メモリ内容を前記物理メモリ制御手段に渡し、  When there is a change in the memory contents due to writing, the virtual machine control means stores the physical address and memory contents of the changed memory, updates the memory management table, and Passing the address and the memory contents to the physical memory control means;
前記物理メモリ制御手段は、前記物理ハードウェア管理手段を経由して、前記物理アドレス及び前記メモリ内容を待機系の仮想計算機制御手段に渡し、待機系のメモリ管理テーブルの更新を行う  The physical memory control means passes the physical address and the memory contents to the standby virtual machine control means via the physical hardware management means, and updates the standby memory management table.
仮想計算機冗長化システム。  Virtual machine redundancy system.
請求項5に記載の仮想計算機冗長化システムであって、  The virtual machine redundancy system according to claim 5,
前記物理メモリ制御手段は、  The physical memory control means includes
前記中央演算処理装置及び前記物理I/O制御手段からのメモリ入出力を制御して、前記物理メモリへのアクセス制御全般を行う入出力切り替え回路と、  An input / output switching circuit that controls memory input / output from the central processing unit and the physical I / O control means, and performs overall access control to the physical memory;
前記仮想計算機制御手段が管理している前記メモリ管理テーブルのアドレス情報をコピーしたアドレス管理テーブルと  An address management table obtained by copying address information of the memory management table managed by the virtual machine control means;
を具備し、Comprising
前記入出力切り替え回路は、前記物理メモリにおける所定の物理アドレスに対する書込みが発生した際に、前記アドレス管理テーブルを参照して、当該物理アドレスが書込み許可領域であるかどうかをチェックし、当該物理アドレスが書込み許可領域である場合には、書き込まれるメモリ内容のコピーを、前記物理ハードウェア管理手段に転送する  The input / output switching circuit refers to the address management table when writing to a predetermined physical address in the physical memory occurs, and checks whether or not the physical address is a write-permitted area. Is a write-permitted area, a copy of the memory contents to be written is transferred to the physical hardware management means
仮想計算機冗長化システム。  Virtual machine redundancy system.
請求項1乃至6のいずれか一項に記載の仮想計算機冗長化システムで、運用系又は待機系として使用されるコンピュータシステム。  A computer system used as an active system or a standby system in the virtual machine redundancy system according to any one of claims 1 to 6. 冗長化された仮想計算機システムにおける運用系のコンピュータシステムと、前記冗長化された仮想計算機システムにおける待機系のコンピュータシステムと、の各々において、  In each of the active computer system in the redundant virtual computer system and the standby computer system in the redundant virtual computer system,
ホストオペレーティングシステムが、中央演算処理装置及び物理メモリを備えた物理ハードウェア上で稼動することと、  A host operating system running on physical hardware with a central processing unit and physical memory;
仮想計算機制御手段が、前記ホストオペレーティングシステム上で稼動することと、  Virtual computer control means running on the host operating system;
ゲストオペレーティングシステムが、前記仮想計算機制御手段の上で稼動することと、  A guest operating system runs on the virtual machine control means;
物理メモリ制御手段が、前記物理メモリへの読み書きの制御を行うことと、  The physical memory control means controls reading and writing to the physical memory;
運用系の場合、専用ハードウェアである物理ハードウェア管理手段が、前記仮想計算機制御手段及び前記物理メモリ制御手段と連携して前記ゲストオペレーティングシステムのメモリ情報を取得して、待機系と前記ゲストオペレーティングシステムのメモリ情報の同期を行い、致命的ハードウェア障害を検知すると前記中央演算処理装置に割り込みを上げ、待機系へ制御移行通知と前記中央演算処理装置のレジスタ情報及びコンテキスト情報との送信を行うことと、  In the case of the active system, physical hardware management means, which is dedicated hardware, obtains memory information of the guest operating system in cooperation with the virtual machine control means and the physical memory control means, and the standby system and the guest operating system Synchronizes the memory information of the system, raises an interrupt to the central processing unit when a fatal hardware failure is detected, and transmits a control transfer notification to the standby system and register information and context information of the central processing unit And
待機系の場合、前記物理ハードウェア管理手段が、運用系から制御移行通知を受信すると前記中央演算処理装置へ割り込みを上げ、運用系から受信したレジスタ情報及びコンテキスト情報に基づく運用を引き継がせることと、  In the case of a standby system, when the physical hardware management means receives a control transfer notification from the active system, it raises an interrupt to the central processing unit and takes over the operation based on the register information and context information received from the active system; ,
致命的ハードウェア障害が検知された場合、ダンプ手段が、前記ホストオペレーティングシステム上で前記物理メモリのメモリダンプ採取を行うことと、  If a fatal hardware failure is detected, the dump means performs a memory dump collection of the physical memory on the host operating system;
物理I/O制御手段が、前記メモリダンプを取得し、前記運用系のコンピュータシステム及び前記待機系のコンピュータシステムのそれぞれからアクセス可能な共有ストレージへの読み書き制御及び入出力ハードウェアへの読み書き制御を行うことと  The physical I / O control means acquires the memory dump, and performs read / write control to the shared storage accessible from each of the active computer system and the standby computer system and read / write control to the input / output hardware. To do and
を含むincluding
仮想計算機冗長化方法。  Virtual machine redundancy method.
請求項8に記載の仮想計算機冗長化方法であって、  The virtual machine redundancy method according to claim 8,
前記物理ハードウェア管理手段として、  As the physical hardware management means,
割り込み処理手段が、致命的ハードウェア障害を検出して、前記中央演算処理装置に割り込みを発生させることと、  An interrupt processing means detects a fatal hardware failure and generates an interrupt in the central processing unit;
ログ採取手段が、致命的ハードウェア障害発生時の詳細ログ情報を採取することと、  The log collection means collects detailed log information when a fatal hardware failure occurs,
状態レジスタが、自系のコンピュータシステムが運用系であるか待機系であるかを示す情報を保持することと、  The status register holds information indicating whether the local computer system is an active system or a standby system;
データ受信手段が、メモリ情報と制御移行通知とを受信処理することと、  The data receiving means receives the memory information and the control transfer notification;
データ送信手段が、メモリ情報と制御移行通知とを送信処理することと、  The data transmission means transmits the memory information and the control transfer notification;
エラーレジスタが、検出されたハードウェア障害が致命的なものかどうかの障害レベルに関する情報を保持することと、  An error register holds information about the failure level of whether the detected hardware failure is fatal;
入力バッファが、受信処理するメモリ情報及び制御移行通知のバッファとして機能することと、  The input buffer functions as a buffer for memory information to be received and a control transfer notification;
出力バッファが、送信処理するメモリ情報及び制御移行通知のバッファとして機能することと  The output buffer functions as a buffer for memory information to be transmitted and a control transition notification.
を更に含むFurther includes
仮想計算機冗長化方法。  Virtual machine redundancy method.
請求項9に記載の仮想計算機冗長化方法であって、  The virtual machine redundancy method according to claim 9,
前記物理メモリ制御手段又は前記物理I/O制御手段が、ハードウェア障害を検出すると、前記物理ハードウェア管理手段に通知を上げ、障害が致命的かどうかを示す情報を前記エラーレジスタに登録することと、  When the physical memory control unit or the physical I / O control unit detects a hardware failure, it notifies the physical hardware management unit and registers information indicating whether the failure is fatal in the error register. When,
前記割り込み処理手段が、前記エラーレジスタの値をチェックし、通知されたハードウェア障害が致命的なものかどうかを判定し、致命的な場合には、前記中央演算処理装置に割り込みを上げることと、  The interrupt processing means checks the value of the error register, determines whether the notified hardware failure is fatal, and if it is fatal, raises an interrupt to the central processing unit; ,
前記ログ採取手段が、致命的ハードウェア障害発生時の詳細ログ情報を採取することと、  The log collection means collects detailed log information when a fatal hardware failure occurs;
前記物理メモリ制御手段が、物理アドレスとメモリデータの入力とを前記出力バッファに一時的に格納することと、  The physical memory control means temporarily stores a physical address and input of memory data in the output buffer;
前記データ送信手段が、前記出力バッファに格納された情報を他系の物理ハードウェア管理手段に送信することと、  The data transmission means transmits the information stored in the output buffer to another physical hardware management means;
前記データ受信手段が、他系のデータ送信手段から物理アドレスとメモリデータを受信した場合、前記入力バッファに一時的に格納した後、前記物理メモリ制御手段へ出力し、制御移行通知を受信した場合には、前記状態レジスタの値を待機系を示す値から運用系を示す値に変更することと  When the data receiving means receives a physical address and memory data from another data sending means, temporarily stores it in the input buffer, and then outputs it to the physical memory control means and receives a control transfer notification The status register value is changed from a value indicating the standby system to a value indicating the active system.
を更に含むFurther includes
仮想計算機冗長化方法。  Virtual machine redundancy method.
請求項8乃至10のいずれか一項に記載の仮想計算機冗長化方法であって、  The virtual machine redundancy method according to any one of claims 8 to 10,
前記仮想計算機制御手段として、  As the virtual computer control means,
仮想ハードウェア提供手段が、前記ゲストオペレーティングシステムが使用するシステムリソースを仮想的に生成して提供することと、  Virtual hardware providing means virtually generates and provides system resources used by the guest operating system;
メモリ管理手段が、セグメント情報及びページ情報を保持し、前記ホストオペレーティングシステム及び前記ゲストオペレーティングシステムのメモリ管理を行うことと、  Memory management means holds segment information and page information, and performs memory management of the host operating system and the guest operating system;
メモリ管理テーブルが、自系のコンピュータシステムで書込み可能な領域の論理アドレスと物理アドレスとの対応情報、及び、前記ホストオペレーティングシステム及び前記ゲストオペレーティングシステムの各プロセスのメモリ情報を格納することと  A memory management table storing correspondence information between a logical address and a physical address of an area writable by a local computer system, and memory information of each process of the host operating system and the guest operating system;
を更に含むFurther includes
仮想計算機冗長化方法。  Virtual machine redundancy method.
請求項11に記載の仮想計算機冗長化方法であって、  The virtual machine redundancy method according to claim 11,
前記仮想計算機制御手段が、書き込みが行われることによってメモリ内容に変更があった場合には、変更があったメモリの物理アドレス及びメモリ内容を保存して、前記メモリ管理テーブルを更新し、前記物理アドレス及び前記メモリ内容を前記物理メモリ制御手段に渡すことと、  When the memory contents are changed by writing, the virtual machine control means saves the physical address and memory contents of the changed memory, updates the memory management table, and Passing the address and the memory contents to the physical memory control means;
前記物理メモリ制御手段が、前記物理ハードウェア管理手段を経由して、前記物理アドレス及び前記メモリ内容を待機系の仮想計算機制御手段に渡し、待機系のメモリ管理テーブルの更新を行うことと  The physical memory control means passes the physical address and the memory contents to the standby virtual machine control means via the physical hardware management means, and updates the standby memory management table;
を更に含むFurther includes
仮想計算機冗長化方法。  Virtual machine redundancy method.
請求項12に記載の仮想計算機冗長化方法であって、  The virtual machine redundancy method according to claim 12,
前記物理メモリ制御手段として、  As the physical memory control means,
入出力切り替え回路が、前記中央演算処理装置及び前記物理I/O制御手段からのメモリ入出力を制御して、前記物理メモリへのアクセス制御全般を行うことと、  An input / output switching circuit controls memory input / output from the central processing unit and the physical I / O control means to perform overall access control to the physical memory;
前記仮想計算機制御手段が管理している前記メモリ管理テーブルのアドレス情報をコピーしたアドレス管理テーブルを保持することと、  Holding an address management table obtained by copying address information of the memory management table managed by the virtual machine control means;
前記入出力切り替え回路が、前記物理メモリにおける所定の物理アドレスに対する書込みが発生した際に、前記アドレス管理テーブルを参照して、当該物理アドレスが書込み許可領域であるかどうかをチェックし、当該物理アドレスが書込み許可領域である場合には、書き込まれるメモリ内容のコピーを、前記物理ハードウェア管理手段に転送することと  When the input / output switching circuit writes to a predetermined physical address in the physical memory, the input / output switching circuit refers to the address management table to check whether the physical address is a write-permitted area. Is a write-permitted area, a copy of the memory contents to be written is transferred to the physical hardware management means;
を更に含むFurther includes
仮想計算機冗長化方法。  Virtual machine redundancy method.
請求項8乃至13のいずれか一項に記載の仮想計算機冗長化方法を、運用系又は待機系として使用されるコンピュータシステムに実行させるためのプログラム。  A program for causing a computer system used as an active system or a standby system to execute the virtual machine redundancy method according to any one of claims 8 to 13.
JP2008055056A 2008-03-05 2008-03-05 Virtual machine redundancy system, computer system, virtual machine redundancy method, and program Expired - Fee Related JP5392594B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008055056A JP5392594B2 (en) 2008-03-05 2008-03-05 Virtual machine redundancy system, computer system, virtual machine redundancy method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008055056A JP5392594B2 (en) 2008-03-05 2008-03-05 Virtual machine redundancy system, computer system, virtual machine redundancy method, and program

Publications (2)

Publication Number Publication Date
JP2009211517A JP2009211517A (en) 2009-09-17
JP5392594B2 true JP5392594B2 (en) 2014-01-22

Family

ID=41184581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008055056A Expired - Fee Related JP5392594B2 (en) 2008-03-05 2008-03-05 Virtual machine redundancy system, computer system, virtual machine redundancy method, and program

Country Status (1)

Country Link
JP (1) JP5392594B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11803452B2 (en) * 2019-02-14 2023-10-31 Nippon Telegraph And Telephone Corporation Duplexed operation system and method therefor

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011005800A1 (en) * 2010-03-23 2011-09-29 Continental Teves Ag & Co. Ohg Control computer system, method for controlling a control computer system, and use of a control computer system
JP5660798B2 (en) * 2010-04-01 2015-01-28 三菱電機株式会社 Information processing device
JP2011253242A (en) * 2010-05-31 2011-12-15 Fujitsu Ltd Duplexing system, active device, standby device and method for updating data
JP5285045B2 (en) * 2010-06-04 2013-09-11 日本電信電話株式会社 Failure recovery method, server and program in virtual environment
US9208029B2 (en) 2010-11-12 2015-12-08 Hitachi, Ltd. Computer system to switch logical group of virtual computers
JP2012256240A (en) * 2011-06-09 2012-12-27 Nippon Telegr & Teleph Corp <Ntt> Duplex system and memory synchronization method
JP5634379B2 (en) * 2011-10-27 2014-12-03 株式会社日立製作所 Computer system and computer system information storage method
US9672059B2 (en) 2013-02-21 2017-06-06 Nec Corporation Virtualization system
JP6056554B2 (en) * 2013-03-04 2017-01-11 日本電気株式会社 Cluster system
CN103501290B (en) * 2013-09-18 2017-10-24 万达信息股份有限公司 A kind of highly reliable service system construction method based on dynamic backup virtual machine

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0441087B1 (en) * 1990-02-08 1995-08-16 International Business Machines Corporation Checkpointing mechanism for fault-tolerant systems
JPH06131208A (en) * 1992-10-20 1994-05-13 Fujitsu Ltd Switching system between in-operation device and stand-by device
JPH07219802A (en) * 1994-02-01 1995-08-18 Hitachi Ltd Duplex control system
JP3657665B2 (en) * 1995-02-14 2005-06-08 富士通株式会社 Multiple computer systems coupled to shared memory and control method of multiple computer systems coupled to shared memory
JPH08328891A (en) * 1995-06-02 1996-12-13 Mitsubishi Electric Corp Duplex system using standby redundant configuration
JP3299115B2 (en) * 1996-05-16 2002-07-08 株式会社日立製作所 Redundant system
JP2002032244A (en) * 2000-07-17 2002-01-31 Nec Corp Virtual computer and its dump sampling method
JP3426216B2 (en) * 2001-01-19 2003-07-14 三菱電機株式会社 Fault-tolerant computer system
JP2004246621A (en) * 2003-02-13 2004-09-02 Fujitsu Ltd Information collecting program, information collecting device, and information collecting method
JP2005173751A (en) * 2003-12-09 2005-06-30 Hitachi Ltd Master system operation management method using virtual machine system
JP2006072591A (en) * 2004-09-01 2006-03-16 Hitachi Ltd Virtual computer control method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11803452B2 (en) * 2019-02-14 2023-10-31 Nippon Telegraph And Telephone Corporation Duplexed operation system and method therefor

Also Published As

Publication number Publication date
JP2009211517A (en) 2009-09-17

Similar Documents

Publication Publication Date Title
JP5392594B2 (en) Virtual machine redundancy system, computer system, virtual machine redundancy method, and program
US8990617B2 (en) Fault-tolerant computer system, fault-tolerant computer system control method and recording medium storing control program for fault-tolerant computer system
JP2728108B2 (en) Storage device controller
JP3992427B2 (en) File system
US8135985B2 (en) High availability support for virtual machines
JP2011060055A (en) Virtual computer system, recovery processing method and of virtual machine, and program therefor
JPH07117903B2 (en) Disaster recovery method
JP4341571B2 (en) Storage device system, control method therefor, and control program
US11573737B2 (en) Method and apparatus for performing disk management of all flash array server
JP6098778B2 (en) Redundant system, redundancy method, redundancy system availability improving method, and program
US10929234B2 (en) Application fault tolerance via battery-backed replication of volatile state
JP3481737B2 (en) Dump collection device and dump collection method
JPH09146842A (en) Storage subsystem
JPH0934809A (en) Highly reliable computer system
JP2006012004A (en) Hot standby system
JP5287974B2 (en) Arithmetic processing system, resynchronization method, and farm program
JP2000112584A (en) Computer system provided with countermeasure against power supply fault and its driving method
JP2004046455A (en) Information processor
JP2007080012A (en) Rebooting method, system and program
JP2016212506A (en) Information processing system, control apparatus, and control program
JP2006114064A (en) Storage subsystem
JP2000293391A (en) Method and device for large-scale memory system management
JP4165423B2 (en) System board with core I / O card
JP7056057B2 (en) Information processing equipment, information processing methods, information processing systems, and computer programs
JP4494263B2 (en) Service system redundancy method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131003

R150 Certificate of patent or registration of utility model

Ref document number: 5392594

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees