JP5913003B2 - Computer control apparatus, method and program - Google Patents
Computer control apparatus, method and program Download PDFInfo
- Publication number
- JP5913003B2 JP5913003B2 JP2012188148A JP2012188148A JP5913003B2 JP 5913003 B2 JP5913003 B2 JP 5913003B2 JP 2012188148 A JP2012188148 A JP 2012188148A JP 2012188148 A JP2012188148 A JP 2012188148A JP 5913003 B2 JP5913003 B2 JP 5913003B2
- Authority
- JP
- Japan
- Prior art keywords
- physical computer
- virtual environment
- environment
- failure
- active
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Description
本発明は、物理計算機上に仮想化環境を構築したシステムの物理計算機および仮想化環境を制御する技術に関する。 The present invention relates to a physical computer of a system in which a virtual environment is constructed on a physical computer and a technology for controlling the virtual environment.
鉄道運行管理、電力系統制御、プラント制御などの高信頼性が要求される用途では、稼動系計算機に障害が発生した場合に、その稼動系計算機の処理を引き継ぐ待機系計算機を備えた多重系システムが用いられている(特許文献1参照)。 In applications that require high reliability such as railway operation management, power system control, and plant control, a multi-system system equipped with a standby computer that takes over the processing of the active computer when a failure occurs in the active computer Is used (see Patent Document 1).
特許文献1の多重系システムでは、稼動系計算機に障害が発生したら、迅速かつ確実に待機系計算機への系切り替えを行うべく、障害を検出した待機系計算機から稼動系計算機へ再起動/停止要求電文を送信する方法が提案されている。 In the multiplex system of Patent Document 1, when a failure occurs in the active computer, a restart / stop request is issued from the standby computer that detected the failure to the active computer in order to quickly and surely switch the system to the standby computer. A method of transmitting a message has been proposed.
ところで、現在では、計算機を仮想化する技術を用いることで物理計算機上に仮想的な計算機(仮想化環境)を構築することが可能であり、更には、同じ物理計算機上に複数の仮想化環境を構築することも可能である。このような仮想化環境上でアプリケーションを実行することができる。 By the way, at present, it is possible to construct a virtual computer (virtual environment) on a physical computer by using a technology for virtualizing the computer, and furthermore, a plurality of virtual environments on the same physical computer. It is also possible to construct An application can be executed on such a virtual environment.
このような物理計算機上に仮想化環境を構築したシステムにおいても、高可用性を実現すべく、物理計算機および仮想化環境の障害を監視し、計算機の系切り替えを実行する手法が提案されている(特許文献2参照)。 Even in such a system in which a virtual environment is constructed on a physical computer, a method has been proposed in which failure of the physical computer and the virtual environment is monitored and system switching of the computer is executed in order to achieve high availability ( Patent Document 2).
特許文献1の多重系システムは物理計算機を前提としたものである。そのため、物理計算機上に複数の仮想化環境を構築した場合に、物理計算機上の各仮想化環境で発生した障害を契機に、稼動系計算機に存在する仮想化環境から待機系計算機に存在する仮想化環境へ系切り替えをする手段がない。また、特許文献1の多重化システムは物理計算機を前提としているため、仮想化環境に対して再起動/停止要求電文を送信することもできない。そのため、稼働系計算機に障害が発生したとき、再起動/停止要求電文によって稼働系計算機を強制的に待機系に移行させることができず、二重化の両系の計算機が自身を稼動系と判断して動作してしまう可能性がある。 The multiplex system of Patent Document 1 is based on a physical computer. Therefore, when multiple virtual environments are built on the physical computer, the virtual environment that exists in the standby computer from the virtual environment that exists in the active computer is triggered by a failure that occurs in each virtual environment on the physical computer. There is no means to switch the system to a computer environment. In addition, since the multiplexing system of Patent Document 1 is based on a physical computer, a restart / stop request message cannot be transmitted to the virtual environment. Therefore, when a failure occurs in the active computer, the active computer cannot be forcibly transferred to the standby system by the restart / stop request message, and both computers in the duplex system determine themselves as active. May work.
また、物理計算機上に複数の仮想化環境を構築した場合、障害時に送受信される電文で通信経路における通信負荷が高くなり一時的に通信ができない状態が発生する可能性がある。また、仮想化環境が存在するシステムにおいては、物理計算機だけで構成されたシステムに比べてネットワークの層が多段となる。そのため、障害時に通信経路の負荷が高くなり、それが原因で通信経路上で間欠障害が発生しやすい。 In addition, when a plurality of virtual environments are constructed on a physical computer, there is a possibility that a communication load on a communication path is increased due to a message transmitted / received at the time of failure, and a state where communication cannot be temporarily performed may occur. Further, in a system in which a virtual environment exists, the network layers are multistage as compared with a system configured by only physical computers. For this reason, the load on the communication path becomes high at the time of a failure, and this causes an intermittent failure on the communication path.
このように通信経路上に間欠障害が発生した場合、特許文献2においては、待機系計算機に存在する待機系仮想環境は、稼動系計算機に障害が発生したと判断し、系切り替えを実行してしまう。そして、その後で通信経路が正常状態になったとき、両計算機が自計算機を稼動系と判断したまま稼動してしまうことが考えられる。これは、鉄道運行管理、電力系統制御、プラント制御などの高信頼性が要求される用途においては好ましくない。 In this way, when an intermittent failure occurs on the communication path, in Patent Document 2, the standby virtual environment existing in the standby computer determines that a failure has occurred in the active computer, and performs system switching. End up. Then, when the communication path becomes normal after that, it is conceivable that both computers operate with their own computers determined to be active. This is not preferable in applications that require high reliability such as railway operation management, power system control, and plant control.
本発明の目的は、物理計算機上に仮想化環境を構築したシステムを適切に制御することを可能にする技術を提供することである。 An object of the present invention is to provide a technique that makes it possible to appropriately control a system in which a virtual environment is constructed on a physical computer.
本発明の一態様による計算機制御装置は、物理計算機上に仮想化環境を構築し、前記物理計算機と前記仮想化環境の二重化を構成するシステムの計算機制御装置であって、前記物理計算機および前記仮想化環境のそれぞれに配置され、前記物理計算機および前記仮想化環境のそれぞれの二重化において対応する両系が生存監視電文を互いに送受信する生存監視手段と、前記物理計算機および前記仮想化環境のそれぞれの二重化において対応する両系がどちらも自系が稼働系と認識する不整合が生じているか否か判定する不整合判定手段と、前記生存監視手段において、前記生存監視電文が所定のタイムアウト時間内に受信されずタイムアウトした系に対応する系の物理計算機または仮想化環境を障害と判断する障害箇所特定手段と、前記不整合判定手段において、不整合が生じていたら、稼働系として動作を開始した時刻が古い系の物理計算機または仮想化環境を障害と判断する不整合箇所特定手段と、前記障害箇所特定手段または前記不整合箇所特定手段において、障害と判断された系が稼働系であれば、所定の保護処理により、該稼働系の物理計算機または仮想化環境を稼働系として動作しない状態にすると共に、対応する待機系の物理計算機または仮想化環境を稼働系に遷移させ、障害と判断された系が待機系であれば、該待機系の物理計算機または仮想化環境を停止させる状態制御手段と、を有している。 A computer control device according to an aspect of the present invention is a computer control device for a system that constructs a virtual environment on a physical computer and configures the physical computer and the virtual environment to be duplicated, and includes the physical computer and the virtual computer. Survival monitoring means that is arranged in each of the virtualized environments and both systems corresponding to the duplexing of the physical computer and the virtualized environment send and receive a survival monitoring message to each other, and the duplexing of the physical computer and the virtualized environment In the inconsistency determining means for determining whether or not there is a mismatch in which both of the corresponding systems recognize that the own system is the active system, and in the alive monitoring means, the alive monitoring message is received within a predetermined timeout period. A fault location identifying means for judging a physical computer or a virtual environment of a system corresponding to a timed-out system as a fault, and the irregularity In the determination means, if there is a mismatch, the mismatch location specifying means for determining that the physical computer or virtual environment of the system whose operation time is old as the active system is a failure, and the failure location specifying means or the mismatch If the system identified as a failure is an active system in the location specifying means, the physical computer or virtual environment of the active system is not operated as an active system by a predetermined protection process, and the corresponding standby system And a state control unit that stops the physical computer or the virtual environment of the standby system if the physical computer or the virtual environment is transitioned to the active system and the system determined to be a failure is the standby system.
本発明によれば、物理計算機上に仮想化環境を構築したシステムを適切に制御することが可能となる。 ADVANTAGE OF THE INVENTION According to this invention, it becomes possible to control appropriately the system which built the virtual environment on the physical computer.
本発明の実施形態について図面を参照して説明する。 Embodiments of the present invention will be described with reference to the drawings.
図1は、本発明の一実施形態による計算機システムのブロック図である。図1を参照すると、本実施形態による計算機システムは、二重化された2つの物理計算機10A、10Bを有している。物理計算機10Aと物理計算機10Bは基本的に同じ構成であり、対をなし、一方が稼動系となり、他方が待機系となって二重化を構成している。二重化においては、稼働系に障害が発生した場合には、稼働系と待機系の系が切り替わり、待機系が新たな稼動系となる。
FIG. 1 is a block diagram of a computer system according to an embodiment of the present invention. Referring to FIG. 1, the computer system according to the present embodiment includes two
物理計算機10Aには2つの仮想化環境11AA、11ABが構築されている。同様に、物理計算機10Bにも2つの仮想化環境が11BA、11BBが構築されている。そして、物理計算機10Aの仮想化環境11AAと物理計算機10Bの仮想化環境11ABが二重化を構成し、物理計算機10Aの仮想化環境11BAと物理計算機10Bの仮想化環境11BBが二重化を構成している。
Two virtual environments 11AA and 11AB are constructed in the
また、物理計算機10A、10Bは、物理計算機と仮想化環境が共に二重化された計算機システムの計算機を制御するために、生存監視部12A、12AA、12AB、12B、12BA、12BB、不整合判定部13A、13B、障害箇所特定部14A、14B、不整合箇所特定部15A、15B、および状態制御部16A、16Bを有している。
In addition, the
物理計算機10Aにある生存監視部12Aと物理計算機10Bにある生存監視部12B、不整合判定部13Aと不整合判定部13B、障害箇所特定部14Aと障害箇所特定部14B、不整合箇所特定部15Aと不整合箇所特定部15B、状態制御部16Aと状態制御部16Bはそれぞれ同じものである。ここでは主に物理計算機10Aについて説明する。
The
物理計算機10A、仮想化環境11AA、11ABにはそれぞれに生存監視部12A、12AA、12ABが配置されている。同様に、物理計算機10B、仮想化環境11BA、11BBにはそれぞれに生存監視部12B、12BA、12BBが配置されている。
二重化において対応する両系である物理計算機10Aと物理計算機10Bが相互に生存していることを確認するために、生存監視部12Aと生存監視部12Bが互いに生存監視電文を送受信する。同様に、二重化において対応する両系である仮想化環境11AAと仮想化環境11BAが生存していることを相互に確認するために、生存監視部12AAと生存監視部12BAが互いに生存監視電文を送受信する。同様に、二重化において対応する両系である仮想化環境11ABと仮想化環境11BBが生存していることを相互に確認するために、生存監視部12ABと生存監視部12BBが互いに生存監視電文を送受信する。
In order to confirm that the
不整合判定部13Aは、物理計算機10Aと物理計算機10B、仮想化環境11AAと仮想化環境11BA、仮想化環境11ABと仮想化環境11BBという、それぞれの二重化において対応する両系がどちらも自系が稼働系と認識するという不整合が生じているか否か判定する。例えば、両系が相互に送受信する電文に自系が稼働系と認識していることを表わす情報を含めることにより、他系の認識を知ることができる。
The
障害箇所特定部14Aは、生存監視部12A、12AA、12ABにおいて、生存監視電文が所定のタイムアウト時間内に受信されずタイムアウトしたら、その系に対応する系の物理計算機10Bまたは仮想化環境11BA、11BBを障害と判断する。
When the survival monitoring message is not received within the predetermined timeout time in the
不整合箇所特定部15Aは、不整合判定部13Aにおいて、不整合が生じていたら、稼働系として動作を開始した時刻が古い系の物理計算機または仮想化環境を障害と判断する。例えば、両系が送受信する電文に自系が稼働系として動作を開始した時刻(稼働系開始時刻)を含めることにより、他系の稼動系開始時刻を知ることができる。
If there is a mismatch in the
状態制御部16Aは、障害箇所特定部14Aまたは不整合箇所特定部15Aにおいて障害と判断された系が稼働系であれば、所定の保護処理により、その稼働系の物理計算機または仮想化環境を稼働系として動作しない状態にすると共に、対応する待機系の物理計算機または仮想化環境を稼働系に遷移させる。また、状態制御部16Aは、障害箇所特定部14Aまたは不整合箇所特定部15Aにおいて障害と判断された系が待機系であれば、その待機系の物理計算機または仮想化環境を停止させる。物理計算機10Aの障害箇所特定部14Aまたは不整合箇所特定部15Aでは他系の物理計算機10Bあるいはその上に構築された仮想化環境11BA、11BBの障害が特定されるので、状態制御部16Aは、他系の物理計算機10Bまたは仮想化環境11BA、11Bに対して保護処理や停止させる処理を電文で指示する。
The state control unit 16A operates the physical computer or the virtual environment of the active system by a predetermined protection process if the system determined to be a failure by the fault
以上、本実施形態によれば、物理計算機上に仮想化環境を構築し、物理計算機と仮想化環境の二重化を構成する計算機システムにおいて、物理計算機あるいは仮想化環境に障害が生じたとき適切に制御を実行することができる。 As described above, according to the present embodiment, in a computer system in which a virtual environment is constructed on a physical computer and the physical computer and the virtual environment are duplicated, appropriate control is performed when a failure occurs in the physical computer or the virtual environment. Can be executed.
なお、上述の保護処理は、例えば、稼働系の仮想化環境11BA、11BBが障害となっていれば、その仮想化環境11BA、11BBの所定のメモリ領域を仮想化環境11BA、11BB外のメモリ領域に退避してから、仮想化環境11BA、11BBをリセットする処理であってもよい。これによれば、障害による系切換が発生したとき、障害要因の特定に利用可能なデータを取得することができる。 For example, if the active virtual environments 11BA and 11BB are faulty, the above-described protection processing is performed by using a predetermined memory area of the virtual environments 11BA and 11BB as a memory area outside the virtual environments 11BA and 11BB. The processing may be a process of resetting the virtualization environments 11BA and 11BB after saving the data. According to this, when system switching occurs due to a failure, it is possible to acquire data that can be used to identify the cause of the failure.
また、例えば、不整合箇所特定部15Aは、物理計算機10A、10Bおよび仮想化環境11AA、11AB、11BA、11BBのそれぞれについて稼働系として動作を開始した時刻を稼働系開始時刻として記録しておき、対応する両系に不整合が生じていたら、両系の稼動系開始時刻を参照することにより、障害とする系を決定することにしてもよい。これによれば、両系の状態が不整合となったときに、どちらの系を障害とするかを容易に判断することができる。
Further, for example, the inconsistent
また、例えば、障害箇所特定部14Aは、物理計算機10Aおよび仮想化環境11AA、11ABのそれぞれについて、タイムアウト時間を予め定めておき、生存監視電文を最後に受信した時刻である最終受信時刻を記録し、最終受信時刻から現在時刻までの時間がタイムアウト時間を超えたらタイムアウトと判断することにしてもよい。これによれば、生存監視電文のタイムアウトを容易に判断することができる。
Further, for example, the failure
なお、図1において物理計算機10A、10B内に設けられた各部は、それぞれの処理手順を規定したソフトウェアプログラムをコンピュータに実行させることにより実現することもできる。
Note that each unit provided in the
続いて上述した本実施形態をより具体化した実施例について説明する。 Next, an example that more specifically embodies the above-described embodiment will be described.
図2および3は、本実施例による計算機システムの全体構成を示すブロック図である。図2には稼働系の物理計算機100Aが示され、図3には待機系の物理計算機100Bが示されている。
2 and 3 are block diagrams showing the overall configuration of the computer system according to this embodiment. FIG. 2 shows an active
図2を参照すると、稼働系の物理計算機100Aは、メモリ200A、プロセッサ110、ディスクインタフェース120、および通信インタフェース130、131を有している。ディスクインタフェース120はディスク140に接続されている。通信インタフェース130はネットワーク150に接続され、通信インタフェース131はネットワーク160に接続されている。
Referring to FIG. 2, the active
メモリ200A上には、仮想化環境用論理区画281AA、281ABと、構成制御アプリケーション270Aと、物理計算機・仮想化環境共有用メモリ区画230Aと、物理計算機・仮想化環境再起動/停止部230Aと、物理計算機・仮想化環境障害箇所特定部240Aと、物理計算機・仮想化環境通信経路監視部250Aと、物理計算機・仮想化環境構成制御管理部220Aと、物理計算機用OS(Operating System)210Aとが存在する。
On the memory 200A, virtual environment logical partitions 281AA and 281AB, a
構成制御アプリケーション270Aと、物理計算機・仮想化環境共有用メモリ区画230Aと、物理計算機・仮想化環境再起動/停止部230Aと、物理計算機・仮想化環境障害箇所特定部240Aと、物理計算機・仮想化環境通信経路監視部250Aと、物理計算機・仮想化環境構成制御管理部220Aとは、物理計算機用OS 210A上で動作する。
仮想化環境用論理区画281AAには、構成制御アプリケーション283AAと仮想化環境用OS 284AAとを含む仮想化環境282AAが存在する。同様に、仮想化環境用論理区画281ABには、構成制御アプリケーション283ABと仮想化環境用OS 284ABとを含む仮想化環境282ABが存在する。構成制御アプリケーション283AAが仮想化環境用OS 284AA上で動作し、構成制御アプリケーション283ABが仮想化環境用OS 284AB上に動作する。 The virtual environment logical partition 281AA includes a virtual environment 282AA including a configuration control application 283AA and a virtual environment OS 284AA. Similarly, the virtual environment logical partition 281AB includes a virtual environment 282AB including a configuration control application 283AB and a virtual environment OS 284AB. The configuration control application 283AA operates on the virtual environment OS 284AA, and the configuration control application 283AB operates on the virtual environment OS 284AB.
図3に示す待機系の物理計算機100Bは、図1に示した稼働系の物理計算機100Aと同様である。ただし、こちらでは仮想化環境用論理区画281BA、BBに仮想化環境282BA、BBがそれぞれ存在している。仮想化環境282BAには構成制御アプリケーション283BAと仮想化環境用OS284BAが存在し、仮想化環境282BBには構成制御アプリケーション283BBと仮想化環境用OS284BBが存在する。
The standby
上述のような構成を有する計算機システムにおいて、稼働系の物理計算機100Aに障害が発生した場合には、稼働系の物理計算機100Aと待機系の物理計算機100Bの系が切り替わり、物理計算機100Aが待機系となり、物理計算機100Bが稼動系となる。
In the computer system having the above-described configuration, when a failure occurs in the active
各物理計算機100A、100Bに具備しているメモリ200A、200B上には、仮想化環境用論理区画281AA、281ABおよび281BA、281BBがそれぞれ存在する。仮想化環境用論理区画281AAの稼働系の仮想化環境A 282AAと、仮想化環境用論理区画281BAの待機系の仮想化環境A 282BAとにより、仮想化環境Aが二重化されている。同様に、稼働系の仮想化環境B 282ABと、待機系の仮想化環境B 282BBとによって仮想化環境Bが二重化されている。
The virtual environment logical partitions 281AA, 281AB and 281BA, 281BB exist on the memories 200A, 200B included in the
稼働系の仮想化環境A 282AAに障害が発生した場合には、稼働系の仮想化環境A 282AAと待機系の仮想化環境A 282BAの系が切り替わり、仮想化環境A 282AAが待機系となり、仮想化環境A 282BAが稼動系となる。 When a failure occurs in the active virtual environment A 282AA, the active virtual environment A 282AA and the standby virtual environment A 282BA are switched, and the virtual environment A 282AA becomes the standby system. Environment A 282BA becomes the active system.
稼働系の仮想化環境B 282ABに障害が発生した場合には、稼働系の仮想化環境B 282ABと待機系の仮想化環境B 282BBの系が切り替わり、仮想化環境B 282ABが待機系となり、仮想化環境B282BBが稼動系となる。 When a failure occurs in the active virtual environment B 282AB, the active virtual environment B 282AB and the standby virtual environment B 282BB are switched, and the virtual environment B 282AB becomes the standby system. The environment B282BB becomes the active system.
各物理計算機のディスクインタフェース120に接続されたディスク140には、システムを構築するための管理情報141と、メモリダンプで取得したデータを記録する領域としてメモリダンプ領域142とが備えられている。
The
また、各物理計算機100A、100Bが備える通信インタフェース130がネットワーク150に接続され、通信インタフェース131がネットワーク160に接続され、ネットワーク150とネットワーク160によって通信経路が二重化されている。
In addition, the
各物理計算機用OS 210A、210B上に存在する構成制御アプリケーション270A、270Bは、二重化された通信インタフェース130、131を介して、自物理計算機の状態と自物理計算機が稼動系に遷移した時刻とを含む生存監視電文を互いに送受信する。自物理計算機の状態が稼動系でない場合、生存監視電文には、自物理計算機が稼働系に遷移した時刻として0が設定される。物理計算機が稼動系に遷移した時刻として0以外の値が設定されていれば、その物理計算機が自系が稼動系であると認識していることを示し、0が設定されていれば、その物理計算機が自系が待機系であると認識していることを示す。
The
また、各仮想化環境用OS 284AA、284AB、284BA、284BB上の構成制御アプリケーション283AA、283AB、283BA、283BBは、仮想化環境毎の稼動系と待機系とで二重化されている通信インタフェース130、131を介して、自仮想化環境の状態と自仮想化環境が稼動系に遷移した時刻とを含む生存監視電文を互いに送受信する。自仮想化環境の状態が稼動系でない場合、生存監視電文には、自仮想化環境が稼働系に遷移した時刻として0が設定される。仮想化環境が稼動系に遷移した時刻として0以外の値が設定されていれば、その仮想化環境が自系が稼動系であると認識していることを示し、0が設定されていれば、その仮想化環境が自系が待機系であると認識していることを示す。
Further, the configuration control applications 283AA, 283AB, 283BA, and 283BB on the respective virtual environment OSs 284AA, 284AB, 284BA, and 284BB are
各物理計算機および仮想化環境の構成制御アプリケーションの両系間で送受信される生存監視電文は各物理計算機用OS 210A、210Bに存在する物理計算機・仮想化環境通信経路監視部250A、250Bに取得される。これを契機に、物理計算機・仮想化環境通信経路監視部250A、250Bは、送受信の時刻を元に、その電文に該当の物理計算機・仮想化環境共有用メモリ区画260A、260Bに存在する物理計算機・仮想化環境構成制御管理テーブル261A、261Bにおける、電文を送受信した時刻(最終送信時刻、最終受信時刻)を記録する領域を更新する。
Survival monitoring messages transmitted / received between both systems of the physical computer and the configuration control application of the virtual environment are acquired by the physical computer / virtual environment communication
また、生存監視電文に不整合が生じていた場合には、物理計算機・仮想化環境再起動/停止部230A、230Bに相手系の物理計算機または仮想化環境を停止させるための通知をする。生存監視電文における自系が稼働系に遷移した時刻から、二重化の両系が共に自系を稼動系であると認識していたら、生存監視電文に不整合が生じていると判断すればよい。
If there is a mismatch in the survival monitoring message, the physical computer / virtualized environment restart /
各物理計算機用OS210A、210B上の物理計算機・仮想化環境障害箇所特定部240A、240Bは、物理計算機・仮想化環境構成制御管理テーブル261A、261Bに存在するタイムアウト時間の最小値をもって周期起動される。周期起動された物理計算機・仮想化環境障害箇所特定部240A、240Bは、生存監視電文が途絶えている箇所があればその障害発生箇所を特定し、その障害発生箇所が物理計算機または仮想化環境であるか特定し、特定した情報を障害発生の通知として、物理計算機・仮想化環境再起動/停止部230A、230Bに送る。なお、ここでタイムアウト時間の最小値を用いているのは、どの物理計算機または仮想化環境でタイムアウトが発生しても、タイムアウト時間の1周期以内にタイムアウトの発生を検知することができるようにするためである。
The physical computer / virtualized environment fault
各物理計算機用OS210A、210B上の物理計算機・仮想化環境再起動/停止部230A、230Bは、物理計算機・仮想化環境構成制御管理テーブル261A、261Bから物理計算機と仮想化環境の状態を取得する。
The physical computer / virtualized environment restart /
また、物理計算機・仮想化環境再起動/停止部230A、230Bは、物理計算機・仮想化環境障害箇所特定部240A、240Bからの障害発生の通知に基づき、障害発生箇所が、物理計算機または仮想化環境のいずれかの稼動系であるか否かを判断する。
Further, the physical computer / virtualized environment restart /
障害発生箇所が物理計算機の稼働系である場合、物理計算機・仮想化環境再起動/停止部230A、230Bは、障害が発生している相手系の通信インタフェース130、131へネットワークを介して、再起動を指示する再起動電文を送信して物理計算機上のOSへNMI(マスクが不可能な割り込み)を発生させる。その後、物理計算機・仮想化環境再起動/停止部230A、230Bは、規定時間だけ待ち合わせを行い、障害が発生した物理計算機へリセットを通知し、物理計算機・仮想化環境構成制御管理部220A、220Bへ待機状態への状態変更を通知する。
When the failure location is the active system of the physical computer, the physical computer / virtualized environment restart /
また、障害発生箇所が仮想化環境である場合、物理計算機・仮想化環境再起動/停止部230A、230Bは、障害が発生している相手系の物理計算機・仮想化環境再起動/停止部230Aまたは230Bへ、通信インタフェース130、131からネットワークを介し、当該仮想化環境の再起動を指示する再起動電文を送信する。
When the failure occurrence location is a virtual environment, the physical computer / virtual environment restart /
再起動電文を受信した系の物理計算機・仮想化環境再起動/停止部230Aまたは230Bは、障害の発生している仮想化環境の仮想化環境用OS284AA、284AB、284BA、284BBへNMIを発生させる。その後、物理計算機・仮想化環境再起動/停止部230A、230Bは、規定時間だけ待ち合わせを行い、障害が発生した仮想化環境へリセット電文を通知し、物理計算機・仮想化環境構成制御管理部220A、220Bへ待機状態への状態変更を通知する。
The physical computer / virtualized environment restart /
各物理計算機用OS 210A、210B上で物理計算機・仮想化環境構成制御管理部220A、220Bが動作し、物理計算機・仮想化環境共有用メモリ区画230A、230Bに存在する物理計算機・仮想化環境構成制御管理テーブル261A、261Bの情報に基づいて、各物理計算機および仮想化環境の構成制御を管理し、状態の変更通知があった場合にはテーブルに存在する該当の状態を変更する。
The physical computer / virtualized environment configuration
図4は、本実施例における物理計算機・仮想化環境構成制御管理テーブル261A、261Bを示す図である。 FIG. 4 is a diagram showing the physical computer / virtualized environment configuration control management tables 261A and 261B in this embodiment.
図4中の上段にある物理計算機についてのテーブルには、各物理計算機100A、100Bの識別子(A、B)が登録されている。
The identifiers (A, B) of the
状態T002には、識別子T001が記載された物理計算機100A、100Bが稼動系か待機系かを示す情報が登録されている。
In the state T002, information indicating whether the
稼動系開始時刻T003には、各物理計算機100A、100Bが稼動系として動作を開始した時刻である稼動系開始時刻が記録されている。
In the active system start time T003, an active system start time, which is a time when the
最終送信時刻T004には、各物理計算機100A、100Bから生存監視電文が最後に送信された時刻が記録されている。
In the last transmission time T004, the time when the survival monitoring message was last transmitted from each of the
最終受信時刻T005には、二重化における相手の物理計算機100A、100Bから生存監視電文を最後に受信した時刻が記録されている。
In the last reception time T005, the time at which the survival monitoring message was last received from the partner
タイムアウト時間T006には、相手の物理計算機100A、100Bからの生存監視電文が途絶えた判断するためのタイムアウト時間が記録されている。
In the time-out time T006, a time-out time for determining that the survival monitoring message from the counterpart
下段にある仮想化環境についてのテーブルは、上段のテーブルの右側に連なるものである。この仮想化環境についてのテーブルには、各物理計算機100A、100Bに存在する仮想化環境282AA、282AB、282BA、282BBを示す識別子T007(A、B、A、B)が記録されている。例えば、最上段の仮想化環境は識別子Aの物理計算機に構築された識別子Aの仮想化環境であり、2段目の仮想化環境は識別子Aの物理計算機に構築された識別子Bの仮想化環境である。
The table for the virtual environment in the lower row is connected to the right side of the upper table. In the table for the virtual environment, identifiers T007 (A, B, A, B) indicating the virtual environments 282AA, 282AB, 282BA, 282BB existing in the respective
状態T008には、各仮想化環境282AA、282AB、282BA、282BBが稼動系か待機系かを示す情報が登録されている。 In the state T008, information indicating whether each of the virtualization environments 282AA, 282AB, 282BA, and 282BB is an active system or a standby system is registered.
稼動系開始時刻T009には、各仮想化環境282AA、282AB、282BA、282BBが稼動系へ遷移した時刻が記録されている。 In the active system start time T009, the time when each of the virtualization environments 282AA, 282AB, 282BA, and 282BB transitions to the active system is recorded.
相手T010には、各仮想化環境282AA、282AB、282BA、282BBが、二重化においてどの物理計算機のどの仮想化環境と対応しているかを示す識別子が記録されている。¥例えば、最上段の仮想化環境は、識別子Bの物理計算機に構築された識別子Aの仮想化環境と対応している。 In the partner T010, an identifier indicating which virtual environment of which physical computer corresponds to each virtual environment 282AA, 282AB, 282BA, 282BB in the duplex is recorded. ¥ For example, the virtual environment at the top corresponds to the virtual environment with identifier A constructed in the physical computer with identifier B.
最終送信時刻T011には、相手T010にて示されている二重化にて対応する仮想化環境に生存監視電文を最後に送信した時刻が記録されている。 The last transmission time T011 records the time when the survival monitoring message was last transmitted to the virtual environment corresponding to the duplexing indicated by the partner T010.
最終受信時刻T012には、相手T010に示されている二重化にて対応する仮想化環境から最後に生存監視電文を受信した時刻が記録されている。 In the final reception time T012, the time when the last survival monitoring message is received from the virtual environment corresponding to the duplexing shown in the partner T010 is recorded.
タイムアウト時刻T013には、各仮想化環境282AA、282AB、282BA、282BBにおける生存監視電文のタイムアウト時間が記録されている。 In the timeout time T013, the timeout time of the survival monitoring message in each of the virtualization environments 282AA, 282AB, 282BA, and 282BB is recorded.
図5は、本実施例における物理計算機および仮想化環境上の構成制御アプリケーションが生存監視電文を送信する処理フローS401を示すフローチャートである。物理計算機100A、100B上の構成制御アプリケーション270A、270Bおよび仮想化環境282AA、282AB、282BA、282BB上の構成制御アプリケーション283AA、283AB、283BA、283BBは全て同様の動作を行う。
FIG. 5 is a flowchart showing a processing flow S401 in which the physical computer and the configuration control application on the virtual environment in this embodiment transmit a survival monitoring message. The
図5を参照すると、構成制御アプリケーションは、図4に示された物理計算機・仮想化環境構成制御管理テーブル261A、261Bより、仮想化環境の二重化にて対応する通信相手の識別子T007およびT010と、物理計算機および仮想化環境の状態を示すT002およびT008の情報を取得する(ステップS402)。続いて、構成制御アプリケーションは、自身の通信相手に対して、自身が存在する環境が稼動系か待機系の情報および稼動系になった時刻を生存監視電文として送信する(ステップS403)。続いて、構成制御アプリケーションはタイムアウト時間の1/2の時間だけウェイトして(ステップS404)、ステップS402に戻る。 Referring to FIG. 5, the configuration control application uses the physical computer / virtualized environment configuration control management tables 261A and 261B shown in FIG. 4 to identify communication partner identifiers T007 and T010 corresponding to the duplication of the virtual environment, Information on T002 and T008 indicating the state of the physical computer and the virtual environment is acquired (step S402). Subsequently, the configuration control application transmits information on whether the environment in which it exists to the active system or the standby system and the time when the environment becomes the active system to the communication partner as a survival monitoring message (step S403). Subsequently, the configuration control application waits for half the timeout period (step S404), and returns to step S402.
図6は、本実施例における物理計算機および仮想化環境上の構成制御アプリケーション270A、270B、283AA、283AB、283BA、283BBが生存監視電文を受信する処理フローS501を示すフローチャートである。本実施例の構成制御アプリケーションは図1に示した上記実施形態の生存監視部12A、12AA、12AB、12BA、12BBに対応する。物理計算機100A、100B上の構成制御アプリケーション270A、270Bおよび仮想化環境282AA、282AB、282BA、282BB上の構成制御アプリケーション283AA、283AB、283BA、283BBは全て同様の動作を行う。
FIG. 6 is a flowchart showing a processing flow S501 in which the physical computer and the
図6を参照すると、構成制御アプリケーションは、図4に示された物理計算機・仮想化環境構成制御管理テーブル261A、261Bより、仮想化環境の二重化において、仮想化環境とそれに対応する通信相手の識別子T007およびT010と、物理計算機および仮想化環境の状態T002およびT008の情報を取得する(ステップS502)。なお、ここでは物理計算機の二重化にて対応する通信相手は予め分かっているものとする。続いて、構成制御プリケーションは、自身の通信相手から送信された生存監視電文を受信して(ステップS503)、ステップS501に戻る。 Referring to FIG. 6, the configuration control application uses the physical computer / virtualized environment configuration control management tables 261A and 261B shown in FIG. 4 to identify the virtual environment and the corresponding communication partner identifier in the duplication of the virtual environment. Information on T007 and T010, and states T002 and T008 of the physical computer and the virtual environment are acquired (step S502). In this case, it is assumed that a communication partner corresponding to the duplication of physical computers is known in advance. Subsequently, the configuration control application receives the survival monitoring message transmitted from its own communication partner (step S503), and returns to step S501.
図7は、本実施例における物理計算機・仮想化環境通信経路監視部250A、250Bが実行する処理フローS601を示すフローチャートである。本実施例の物理計算機・仮想化環境通信経路監視部250A、250Bは、図1に示した上記実施形態の不整合判定部13A、13Bに対応する。各物理計算機用OS 210A、210Bに存在する物理計算機・仮想化環境通信経路監視部250A、250Bは同様の動作を行う。
FIG. 7 is a flowchart showing the processing flow S601 executed by the physical computer / virtualized environment communication
図7を参照すると、物理計算機・仮想化環境通信経路監視部250A、250Bは、図4に示された物理計算機・仮想化環境構成制御管理テーブル261A、261Bより、T007に示された各仮想化環境の通信相手を示すT010の情報を取得する(ステップS602)。
Referring to FIG. 7, the physical computer / virtualized environment communication
次に、物理計算機・仮想化環境通信経路監視部250A、250Bは、ステップS602に取得した情報を基にして、物理計算機100A、100B上の構成制御アプリケーション270A、270Bおよび仮想化環境282AA、282AB、282BA、282BB上の構成制御アプリケーション283AA、283AB、283BA、283BBの生存監視電文の送受信を監視する(ステップS603)。そして、物理計算機・仮想化環境通信経路監視部250A、250Bは、図4に示した該当物理計算機・仮想化環境構成制御管理テーブル261A、261Bにおける物理計算機および各仮想化環境の最終送受信時刻T004、T005、T011、T012および稼動系開始時刻T003、T009を更新する(ステップS604)。
Next, the physical computer / virtualized environment communication
続いて、物理計算機・仮想化環境通信経路監視部250A、250Bは、送受信した生存監視電文のデータと、物理計算機・仮想化環境構成制御管理テーブル261A、261Bにて管理されているデータとを参照し、各物理計算機および仮想化環境の二重化における両系の状態が整合しているか、不整合になっているか判断する(ステップS605)。ここでは両系が稼働系として動作しているとき両系の状態が不整合と判断する。
Subsequently, the physical computer / virtualized environment communication
両系の整合がとれていない場合、物理計算機・仮想化環境通信経路監視部250A、250Bは、物理計算機・仮想化環境構成制御管理部220A、220Bに、両系の状態に不整合がある旨の通知を送信する(ステップS606)。
If the two systems are not matched, the physical computer / virtualized environment communication
図8は、本実施例における物理計算機・仮想化環境障害箇所特定部240A、240Bの処理フローS701を示すフローチャートである。本実施例の物理計算機・仮想化環境障害箇所特定部240A、240Bは、図1に示した障害箇所特定部14A、14Bに対応する。
FIG. 8 is a flowchart showing the processing flow S701 of the physical computer / virtualization environment fault
図8を参照すると、物理計算機・仮想化環境障害箇所特定部240A、240Bは、図4に示した物理計算機・仮想化環境構成制御管理テーブル261A、261Bより、識別子T007で示された各仮想化環境の通信相手を示す相手T010の情報を取得する(ステップS702)。続いて、物理計算機・仮想化環境障害箇所特定部240A、240Bは、物理計算機・仮想化環境構成制御管理テーブル261A、261Bより、物理計算機および各仮想化環境のタイムアウト時間T006およびT013の情報を取得する(ステップS703)。更に、物理計算機・仮想化環境障害箇所特定部240A、240Bは、物理計算機・仮想化環境構成制御管理テーブル261A、261Bに存在するタイムアウト時間T006、T013の最小値に相当する時間だけウェイトする(ステップS704)。
Referring to FIG. 8, the physical computer / virtualized environment fault
次に、物理計算機・仮想化環境障害箇所特定部240A、240Bは、物理計算機・仮想化環境構成制御管理テーブル261A、261Bを参照し、物理計算機および各仮想化環境について生存監視電文の送受信の最終更新時刻T004、T005、T011、T012からタイムアウト時間が経過しているか否か判断する(ステップS705)。
Next, the physical computer / virtualized environment failure
そして、物理計算機・仮想化環境障害箇所特定部240A、240Bは、タイムアウトしている物理計算機または仮想化環境が存在しなければ、何もせずにステップS702に戻る。
Then, the physical computer / virtualized environment fault
一方、タイムアウトしている物理計算機あるいは仮想化環境がある場合、物理計算機・仮想化環境障害箇所特定部240A、240Bは、その物理計算機あるいは仮想化環境に障害が発生していると判断する(ステップS706)。
On the other hand, if there is a physical computer or virtual environment that has timed out, the physical computer / virtual environment fault
ステップS706の結果より、物理計算機・仮想化環境障害箇所特定部240A、240Bは、物理計算機で障害が発生していれば、物理計算機・仮想化環境再起動/停止部230A、230Bに対して、物理計算機100Aまたは100Bにて障害が発生していることを通知する(ステップS707)。
From the result of step S706, the physical computer / virtualized environment fault
またステップS706の結果より、物理計算機・仮想化環境障害箇所特定部240A、240Bは、仮想化環境で障害が発生していれば、物理計算機・仮想化環境再起動/停止部230A、230Bに対して、仮想化環境にて障害が発生していることを通知する(ステップS708)。
From the result of step S706, the physical computer / virtualized environment fault
図9は、本実施例における物理計算機・仮想化環境再起動/停止部230A、230Bが再起動および停止を命令する処理フローS801を示すフローチャートである。本実施例の物理計算機・仮想化環境再起動/停止部230A、230Bは、図1に示した上記実施形態の状態制御部16A、16Bに対応する。
FIG. 9 is a flowchart showing a processing flow S801 in which the physical computer / virtualized environment restart /
図9を参照すると、物理計算機・仮想化環境再起動/停止部230A、230Bは、図4に示した物理計算機・仮想化環境構成制御管理テーブル261A、261Bより、物理計算機および各仮想化環境の通信相手の情報T010を取得する(ステップS802)。
Referring to FIG. 9, the physical computer / virtualized environment restart /
その後、物理計算機・仮想化環境再起動/停止部230A、230Bは、物理計算機・仮想化環境障害箇所特定部240A、240Bまたは物理計算機・仮想化環境構成制御管理部220A、220Bから、障害の発生および障害発生箇所の情報を受信すると(ステップS803)、障害発生箇所が稼動系であるか否か判断する(ステップS804)。
Thereafter, the physical computer / virtualized environment restart /
障害発生箇所が待機系であった場合、物理計算機・仮想化環境再起動/停止部230A、230Bは、その障害発生箇所である物理計算機あるいは仮想化環境が停止の状態へ遷移することを物理計算機・仮想化環境構成制御管理部220A、220Bに通知し(ステップS805)、ステップS802に戻る。
When the failure occurrence location is a standby system, the physical computer / virtualized environment restart /
一方、障害発生箇所が稼働系であった場合、物理計算機・仮想化環境再起動/停止部230A、230Bは、その障害発生箇所が物理計算機であるか否か判断する(ステップS806)。
On the other hand, if the failure location is an active system, the physical computer / virtualized environment restart /
障害発生箇所が物理計算機であれば、物理計算機・仮想化環境再起動/停止部230A、230Bは、物理計算機用OS210Aまたは210BへのNMIを指示するための再起動電文を、障害発生箇所となっている物理計算機の通信インタフェース130または131へ送信する(ステップS807)。この電文を受信した物理計算機の物理計算機用OS 210Aまたは210Bは、NMIを契機としてメモリダンプが実行され、所定のメモリ領域のデータがディスク140のメモリダンプ領域142に退避される。
If the failure location is a physical computer, the physical computer / virtualized environment restart /
続いて、物理計算機・仮想化環境再起動/停止部230A、230Bは、規定の時間だけ待ち合わせをした後、障害が発生した物理計算機100A、100Bへリセット要求の電文を送信する(ステップS808)。
Subsequently, the physical computer / virtualized environment restart /
一方、ステップS806における障害発生箇所が仮想化環境であれば、物理計算機・仮想化環境再起動/停止部230A、230Bは、通信インタフェース130または131およびネットワークを介して、障害発生箇所となっている仮想化環境のある物理計算機の物理計算機・仮想化環境再起動/停止部230A、230Bへ、障害発生箇所となっている仮想化環境の再起動を指示する再起動電文を送信する(ステップS809)。
On the other hand, if the failure occurrence location in step S806 is a virtual environment, the physical computer / virtualization environment restart /
続いて、物理計算機・仮想化環境再起動/停止部230A、230Bは、規定時間だけ待ち合わせをした後、障害発生箇所となっている仮想化環境のある物理計算機の物理計算機・仮想化環境再起動/停止部230A、230Bへ、その仮想化環境の停止を指示する停止電文を送信する(ステップS810)。
Subsequently, the physical computer / virtual environment restart /
ステップS808またはステップS810の後、物理計算機・仮想化環境再起動/停止部230A、230Bは、障害が発生した稼動系に対応する待機系の環境を稼動系へ状態遷移させる旨を物理計算機・仮想化環境構成制御管理部220A、220Bに通知する(ステップS811)。
After step S808 or step S810, the physical computer / virtualized environment restart /
図10は、本実施例における物理計算機・仮想化環境再起動/停止部230A、230Bが再起動/停止の通知を受信したときの処理フローS901を示すフローチャートである。
FIG. 10 is a flowchart showing the processing flow S901 when the physical computer / virtualized environment restart /
図10を参照すると、物理計算機・仮想化環境再起動/停止部230A、230Bは、二重化における他系の物理計算機の物理計算機・仮想化環境再起動/停止部230A、230Bから通知電文を受信すると(ステップS902)、その電文よりどの仮想化環境に障害が発生しているか判断し、その仮想化環境の仮想化環境用OSへNMIを通知してメモリダンプを開始させる(ステップS903)。次に、物理計算機・仮想化環境再起動/停止部230A、230Bは、規定の時間だけ待ち合わせをした後、障害が発生している仮想化環境へリセット通知を発行する(ステップS904)。
Referring to FIG. 10, when the physical computer / virtualized environment restart /
更に、物理計算機・仮想化環境再起動/停止部230A、230Bは、障害が発生している仮想化環境に対応する他系の環境を稼動系へ遷移させるため、物理計算機・仮想化環境構成制御管理部220A、220Bに状態変更を通知する(ステップS905)。
Further, the physical computer / virtualized environment restart /
図11は、本実施例における物理計算機・仮想化環境構成制御管理部220A、220Bが物理計算機・仮想化環境再起動/停止部230A、230Bから通知を受信したときに実行する処理フローS1001を示すフローチャートである。本実施例の物理計算機・仮想化環境構成制御管理部220A、220Bは、図1に示した上記実施形態の不整合箇所特定部15A、15Bに対応する。
FIG. 11 shows a processing flow S1001 executed when the physical computer / virtualized environment configuration
図11を参照すると、物理計算機・仮想化環境構成制御管理部220A、220Bは、物理計算機・仮想化環境再起動/停止部230A、230Bから状態変更の通知を受信すると(S1002)、図4に示した物理計算機・仮想化環境構成制御管理テーブル261A、261Bにおける状態T002またはT008を更新し、更に待機系から稼動系への状態遷移の場合には時刻T003またはT009を更新する(ステップS1003)。
Referring to FIG. 11, when the physical computer / virtualized environment configuration
図12は、本実施例における物理計算機・仮想化環境構成制御管理部220A、220Bが物理計算機・仮想化環境通信経路監視部250A、250Bから通知を受信したときに実行する処理の処理フローS1101を示すフローチャートである。
FIG. 12 illustrates a processing flow S1101 of processing executed when the physical computer / virtualized environment configuration
図12を参照すると、物理計算機・仮想化環境構成制御管理部220A、220Bは、物理計算機・仮想化環境通信経路監視部250A、250Bから、物理計算機または仮想化環境の二重化における両系の状態に不整合がある旨の通知を受信すると(ステップS1102)、他系の物理計算機または仮想化環境が稼動系へ遷移した時刻(稼働系開始時刻)の情報を取得する(ステップS1103)。
Referring to FIG. 12, the physical computer / virtualized environment configuration
続いて、物理計算機・仮想化環境構成制御管理部220A、220Bは、自計算機内の物理計算機・仮想化環境構成制御管理テーブル261A、261Bにおける自系の稼動系開始時刻と、ステップS1103にて取得した相手系の稼動系開始時刻を比較する(ステップS1104)。
Subsequently, the physical computer / virtualized environment configuration
相手系の環境の方が稼動系開始時刻が古い場合、物理計算機・仮想化環境構成制御管理部220A、220Bは、相手系の環境が障害であると判断し、その旨を物理計算機・仮想化環境再起動/停止部230A、230Bへ通知する(ステップS1105)。
If the other system environment has an earlier operating system start time, the physical computer / virtualized environment configuration
本実施例によれば、物理計算機および仮想化環境のいずれにおいて障害が発生した場合でも、障害が発生した箇所に対して再起動/停止電文を通知することが可能であり、確実かつ迅速に障害発生箇所を切り離すことができる。これにより、通信経路の間欠障害などにおいて一時的に生存監視電文が途絶え、その後で通信経路が回復したとき、両系の物理計算機または仮想化環境が稼動系として動作しようとする状態が起きても、その時点で不整合を解消することができる。また、障害発生箇所を切り離す場合に、その瞬間のメモリ状態をディスクへ保存するメモリダンプを開始し、障害発生時点のメモリ内の情報を記録することにより、障害解析性の向上も図ることが可能である。 According to this embodiment, even if a failure occurs in either the physical computer or the virtual environment, it is possible to notify the restart / stop message to the location where the failure has occurred, so that the failure can be performed reliably and quickly. The occurrence point can be separated. As a result, even if there is a situation where both the physical computers or the virtual environment try to operate as the active system when the survival monitoring message is temporarily interrupted due to an intermittent failure of the communication path, and then the communication path is restored Inconsistency can be resolved at that time. In addition, when the failure location is cut off, a memory dump that saves the memory state at that moment to the disk is started, and information in the memory at the time of the failure can be recorded to improve failure analysis. It is.
以上の本実施例を整理すると、障害発生時に適切な制御を行うための構成は以下の通りである。 To summarize this embodiment, the configuration for performing appropriate control when a failure occurs is as follows.
(1)構成制御アプリケーション(270A、270B) (1) Configuration control application (270A, 270B)
本アプリケーションは、物理計算機・仮想化環境上に配置され、稼動系と待機系の構成制御アプリケーション間において生存監視電文の送受信を実施する。 This application is placed on a physical computer / virtualized environment, and sends and receives liveness monitoring messages between active and standby configuration control applications.
(2)物理計算機・仮想化環境構成制御管理テーブル(261A、261B) (2) Physical computer / virtualized environment configuration control management table (261A, 261B)
物理計算機および仮想化環境の障害箇所情報、生存監視電文の送受信履歴、物理計算機および仮想化環境の稼動系または待機系の状態を一意に特定するための管理テーブルであり、物理計算機および仮想環境から共に参照可能である。 This is a management table for uniquely identifying the failure location information of physical computers and virtual environments, the transmission / reception history of survival monitoring messages, and the status of the active or standby system of physical computers and virtual environments, from physical computers and virtual environments. Both can be referenced.
(3)物理計算機・仮想化環境通信経路監視部(250A、250B) (3) Physical computer / virtualized environment communication path monitoring unit (250A, 250B)
物理計算機および仮想化環境の稼動系と待機系において相互に生存を確認するための生存監視電文の送受信を監視し、また稼動系と待機系の組み合わせの状態に不整合がないか判断する。 Monitors the transmission / reception of the survival monitoring message for confirming the survival of the active system and the standby system in the physical computer and the virtual environment, and determines whether there is a mismatch in the combination of the active system and the standby system.
(4)物理計算機・仮想化環境障害箇所特定部(240A、240B) (4) Physical computer / virtualized environment fault location identification unit (240A, 240B)
物理計算機および仮想化環境のどの箇所で障害が発生したかを特定する。 Identify where in the physical computer and the virtual environment the failure occurred.
(5)物理計算機・仮想化環境再起動/停止部(230A、230B) (5) Physical computer / virtualized environment restart / stop unit (230A, 230B)
障害が発生すると、物理計算機・仮想化環境障害箇所特定部240A、240Bの情報を基に、障害が発生した計算機へ再起動要求電文を送信する。
When a failure occurs, a restart request message is transmitted to the computer in which the failure has occurred, based on the information of the physical computer / virtualized environment failure
このとき物理計算機で障害が発生している場合には再起動要求を物理計算機へ送信し、物理計算機のOSに対してNMI(マスク不可能割り込み信号)を発生させる。NMIによって障害発生時点のメモリ状態をディスクへ保存するメモリダンプを開始し、障害発生時点の情報を記録することができる。 At this time, if a failure has occurred in the physical computer, a restart request is transmitted to the physical computer, and an NMI (non-maskable interrupt signal) is generated for the OS of the physical computer. The memory dump at which the memory state at the time of failure occurrence is saved to the disk by NMI can be started, and information at the time of failure occurrence can be recorded.
この際に、NMIに対してメモリダンプが実行されない場合には、再び障害系の物理計算機へ停止要求電文を送信する。停止要求電文を受け取った障害の物理計算機では、即時に計算機を停止状態とし、再び物理計算機が起動することを抑止する。メモリダンプが実行された場合、メモリダンプが終了した後にリブートあるいは停止を実行すればよい。 At this time, if a memory dump is not executed for the NMI, a stop request message is transmitted to the failed physical computer again. The faulty physical computer that has received the stop request message immediately puts the computer in a stopped state and prevents the physical computer from starting again. When a memory dump is executed, reboot or stop may be executed after the memory dump is completed.
また、障害が仮想化環境上で発生している場合には、障害の発生した物理計算機上に存在する仮想化環境再起動/停止部230A、230Bに再起動要求電文を送信する。
If a failure has occurred in the virtual environment, a restart request message is transmitted to the virtual environment restart /
障害の発生した物理計算機上に存在する物理計算機・仮想化環境再起動/停止部230A、230Bは、再起動要求電文を受信すると、物理計算機・仮想化環境障害箇所特定部240A、240Bが判断した障害発生箇所となっている仮想化環境内のOSに対してNMI(マスク不可能割り込み信号)を発生させる。仮想環境上のOSにNMIを発生させることによって障害発生時点のメモリ状態をディスクへ保存するメモリダンプを開始し、障害発生時点の情報を記録することができる。
Upon receiving the restart request message, the physical computer / virtualized environment restart /
この際に、仮想化環境内に発生させたNMIに対してメモリダンプが実行されない場合には、障害となっている仮想化環境自体へ停止要求電文を送信する。停止要求電文を受信した仮想化環境では、即時に仮想化環境を停止状態とし、現状態をフリーズする。メモリダンプが実行された場合、メモリダンプが終了した後にリブートあるいは停止を実行すればよい。 At this time, if a memory dump is not executed for the NMI generated in the virtual environment, a stop request message is transmitted to the virtual environment itself that has failed. In the virtual environment that has received the stop request message, the virtual environment is immediately stopped and the current state is frozen. When a memory dump is executed, reboot or stop may be executed after the memory dump is completed.
(6)物理計算機・仮想化環境構成制御管理部(220A、220B) (6) Physical computer / virtualized environment configuration control management unit (220A, 220B)
他系の物理計算機あるいは仮想化環境に障害が発生し、物理計算機・仮想化環境再起動/停止部230Aより障害発生箇所への再起動/停止通知が送信されると、物理計算機・仮想化環境障害箇所特定部240A、240Bによる障害発生箇所の情報を基に、物理計算機・仮想化環境構成制御管理テーブル261A、261Bを更新する。
When a failure occurs in a physical computer or virtual environment of another system, and a restart / stop notification is sent from the physical computer / virtual environment restart /
また、自系の物理計算機あるいは仮想化環境上に障害が発生し、他系の物理計算機・仮想化環境再起動/停止部230A、230Bより、障害発生箇所への再起動/停止通知を受信すると、物理計算機・仮想化環境障害箇所特定部240A、240Bからの障害発生箇所の情報を基に物理計算機・仮想化環境構成制御管理テーブル261A、261Bを更新する。
Further, when a failure occurs in the physical computer or virtual environment of the own system, and a restart / stop notification to the location of the failure is received from the restart /
また、通信経路の間欠障害などで物理計算機・仮想化環境再起動/停止部230A、230Bより障害発生箇所への再起動/停止通知が送信され、通信が回復した際には物理計算機・仮想化環境通信経路監視部250A、250Bの情報を元に物理計算機・仮想化環境構成制御管理テーブル261A、261Bを更新し、更新したテーブルの内容を基に物理計算機・仮想化環境構成制御管理部220A、220Bに相手系に対して再起動/停止命令の発行を指示する。
In addition, a restart / stop notification is sent from the physical computer / virtualized environment restart /
この条件の判定においては、通信が回復した段階において、物理計算機・仮想化環境構成制御管理テーブル261Aにおける稼動系と待機系の情報と、相手系が稼動系となった時刻とを基に、物理計算機・仮想化環境再起動/停止部230A、230Bにどの物理計算機または仮想化環境を再起動あるいは停止させるか判断する。
In the determination of this condition, when communication is recovered, the physical and standby environment information in the physical computer / virtualized environment configuration control management table 261A and the time when the partner system becomes the active system are used. The computer / virtualized environment restart /
上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。 The above-described embodiments of the present invention are examples for explaining the present invention, and are not intended to limit the scope of the present invention only to those embodiments. Those skilled in the art can implement the present invention in various other modes without departing from the spirit of the present invention.
以上、本発明の実施形態および実施例について述べてきたが、本発明は、これらの実施形態や実施例だけに限定されるものではなく、本発明の技術思想の範囲内において、これらの実施形態や実施例を組み合わせて使用したり、一部の構成を変更したりしてもよい。 The embodiments and examples of the present invention have been described above, but the present invention is not limited to these embodiments and examples, and these embodiments are within the scope of the technical idea of the present invention. The embodiments may be used in combination, or a part of the configuration may be changed.
100A、B…物理計算機、10A、B…物理計算機、110…プロセッサ、11AA、AB、BA、BB…仮想化環境、120…ディスクインタフェース、12A、AA、AB、B、BA、BB…生存監視部、130…通信インタフェース、131…通信インタフェース、13A、B…不整合判定部、140…ディスク、141…管理情報、142…メモリダンプ領域、14A、B…障害箇所特定部、150…ネットワーク、15A、B…不整合箇所特定部、160…ネットワーク、16A、B…状態制御部、200A、B…メモリ、210A、B…物理計算機用OS、220A、B…物理計算機・仮想化環境構成制御管理部、230A、B…物理計算機・仮想化環境再起動/停止部、240A、B…物理計算機・仮想化環境障害箇所特定部、250A、B…物理計算機・仮想化環境通信経路監視部、260A、B…物理計算機・仮想化環境共有用メモリ区画、261A、B…物理計算機・仮想化環境構成制御管理テーブル、270A、B…構成制御アプリケーション、281AA、AB、BA、BB…仮想化環境用論理区画、282AA、AB、BA、BB…仮想化環境、283AA、AB、BA、BB…構成制御アプリケーション、284AA、AB、BA、BB…仮想化環境用OS
100A, B ... physical computer, 10A, B ... physical computer, 110 ... processor, 11AA, AB, BA, BB ... virtual environment, 120 ... disk interface, 12A, AA, AB, B, BA, BB ... survival monitoring unit , 130: Communication interface, 131: Communication interface, 13A, B ... Inconsistency determination unit, 140 ... Disk, 141 ... Management information, 142 ... Memory dump area, 14A, B ... Fault location identification unit, 150 ... Network, 15A, B: Inconsistent location identification unit, 160 ... Network, 16A, B ... Status control unit, 200A, B ... Memory, 210A, B ... OS for physical computer, 220A, B ... Physical computer / virtualized environment configuration control management unit, 230A, B: Physical computer / virtualized environment restart / stop unit, 240A, B: Physical computer / virtualized environment fault location identification , 250A, B ... Physical computer / virtualized environment communication path monitoring unit, 260A, B ... Physical computer / virtualized environment sharing memory partition, 261A, B ... Physical computer / virtualized environment configuration control management table, 270A, B ... Configuration control application, 281AA, AB, BA, BB ... Logical partition for virtualized environment, 282AA, AB, BA, BB ... Virtualized environment, 283AA, AB, BA, BB ... Configuration control application, 284AA, AB, BA, BB ... Virtualized OS
Claims (6)
前記物理計算機および前記仮想化環境のそれぞれに配置され、前記物理計算機および前記仮想化環境のそれぞれの二重化において対応する両系が生存監視電文を互いに送受信する生存監視手段と、
前記物理計算機および前記仮想化環境のそれぞれの二重化において、稼働系が障害と判定されたときの系切り替えにおいて該稼働系が稼働系のままとなることで生じる、対応する両系がどちらも自系が稼働系と認識する不整合が生じているか否か判定する不整合判定手段と、
前記生存監視手段において、前記生存監視電文が所定のタイムアウト時間内に受信されずタイムアウトした系に対応する系の物理計算機または仮想化環境を障害と判断する障害箇所特定手段と、
前記不整合判定手段において、不整合が生じていたら、稼働系として動作を開始した時刻が古い系の物理計算機または仮想化環境を障害と判断する不整合箇所特定手段と、
前記障害箇所特定手段または前記不整合箇所特定手段において、障害と判断された系が稼働系であれば、所定の保護処理により、該稼働系の物理計算機または仮想化環境を稼働系として動作しない状態にすると共に、対応する待機系の物理計算機または仮想化環境を稼働系に遷移させ、障害と判断された系が待機系であれば、該待機系の物理計算機または仮想化環境を停止させる状態制御手段と、
を有し、
前記状態制御手段は、障害と判定された系が稼働系であり、該障害が発生している箇所が仮想化環境であれば、該仮想化環境のある物理計算機に該仮想化環境の停止を指示することにより、該仮想化環境を稼働系として動作しない状態にする、
計算機制御装置。 A computer control device of a system that constructs a virtual environment on a physical computer and configures the dual of the physical computer and the virtual environment,
Survival monitoring means that is arranged in each of the physical computer and the virtualized environment, and both systems corresponding to each duplication of the physical computer and the virtualized environment transmit and receive a liveness monitoring message to each other;
In the duplexing of the physical computer and the virtual environment, both of the corresponding systems that are generated when the active system remains the active system in the system switching when the active system is determined to be a failure are both the own system Inconsistency determining means for determining whether or not there is an inconsistency that is recognized as an active system,
In the survival monitoring means, a failure location specifying means for determining that a physical computer or a virtual environment of a system corresponding to a system that has timed out without receiving the survival monitoring message within a predetermined timeout time,
In the inconsistency determination means, if inconsistency occurs, inconsistency location specifying means for determining that the physical computer or virtual environment of the system whose operation time is old as the active system is a failure,
In the fault location specifying means or the inconsistent location specifying means, if the system determined to be a fault is an active system, the predetermined physical processing or the virtual environment of the active system is not operated by the predetermined protection processing State control for transitioning the corresponding standby physical computer or virtual environment to the active system and stopping the standby physical computer or virtual environment if the faulted system is the standby system Means,
I have a,
If the system determined to be faulty is the active system and the location where the fault has occurred is a virtualized environment, the state control means stops the virtualized environment for a physical computer with the virtualized environment. By instructing, the virtual environment is put into a state where it does not operate as an active system.
Computer control device.
前記物理計算機および前記仮想化環境のそれぞれの二重化において対応する両系が生存監視電文を互いに送受信して、前記生存監視電文が所定時間内に受信されずタイムアウトした系に対応する系の物理計算機または仮想化環境を障害と判断する第1のステップと、
前記物理計算機および前記仮想化環境のそれぞれの二重化において、稼働系が障害と判定されたときの系切り替えにおいて該稼働系が稼働系のままとなることで生じる、対応する両系がどちらも自系が稼働系と認識する不整合が生じているか否か判定し、不整合が生じていたら、稼働系として動作を開始した時刻が古い系の物理計算機または仮想化環境を障害と判断する第2のステップと、
障害と判断された系が稼働系であれば、所定の保護処理により、該稼働系の物理計算機または仮想化環境を稼働系として動作しない状態にすると共に、対応する待機系の物理計算機または仮想化環境を稼働系に遷移させる第3のステップと、
障害と判断された系が待機系であれば、該待機系の物理計算機または仮想化環境を停止させる第4のステップと、
を有し、
前記第3のステップにおいて、障害と判定された系が稼働系であり、該障害が発生している箇所が仮想化環境であれば、該仮想化環境のある物理計算機に該仮想化環境の停止を指示することにより、該仮想化環境を稼働系として動作しない状態にする、
計算機制御方法。 A computer control method for constructing a virtual environment on a physical computer and controlling a system constituting a duplex of the physical computer and the virtual environment,
Both systems corresponding in the duplexing of the physical computer and the virtualized environment send and receive the life monitoring message to each other, and the physical computer of the system corresponding to the system timed out without receiving the life monitoring message within a predetermined time or A first step of determining the virtual environment as a failure;
In the duplexing of the physical computer and the virtual environment, both of the corresponding systems that are generated when the active system remains the active system in the system switching when the active system is determined to be a failure are both the own system Whether or not there is an inconsistency that the system recognizes as the active system, and if there is a mismatch, the second is to determine the physical computer or the virtual environment of the system whose operation time is old as the active system as a failure . Steps,
If the system determined to be a failure is an active system, a predetermined protection process makes the active physical computer or virtualization environment non-operational and the corresponding standby physical computer or virtualization A third step of transitioning the environment to the active system;
If the system determined to be a failure is a standby system, a fourth step of stopping the physical computer or virtual environment of the standby system;
I have a,
If the system determined to have a failure in the third step is an active system and the location where the failure has occurred is a virtualized environment, the virtual environment is stopped on the physical computer with the virtualized environment. Instructing the virtual environment to not operate as an active system,
Computer control method.
前記物理計算機および前記仮想化環境のそれぞれの二重化において対応する両系が生存監視電文を互いに送受信して、前記生存監視電文が所定時間内に受信されずタイムアウトした系に対応する系の物理計算機または仮想化環境を障害と判断する第1の手順と、
前記物理計算機および前記仮想化環境のそれぞれの二重化において、稼働系が障害と判定されたときの系切り替えにおいて該稼働系が稼働系のままとなることで生じる、対応する両系がどちらも自系が稼働系と認識する不整合が生じているか否か判定し、不整合が生じていたら、稼働系として動作を開始した時刻が古い系の物理計算機または仮想化環境を障害と判断する第2の手順と、
障害と判断された系が稼働系であれば、所定の保護処理により、該稼働系の物理計算機または仮想化環境を稼働系として動作しない状態にすると共に、対応する待機系の物理計算機または仮想化環境を稼働系に遷移させる第3の手順と、
障害と判断された系が待機系であれば、該待機系の物理計算機または仮想化環境を停止させる第4の手順と、
を計算機に実行させるとき、
前記第3の手順において、障害と判定された系が稼働系であり、該障害が発生している箇所が仮想化環境であれば、該仮想化環境のある物理計算機に該仮想化環境の停止を指示することにより、該仮想化環境を稼働系として動作しない状態にする、
計算機制御プログラム。 A computer control program for constructing a virtual environment on a physical computer and controlling a system that constitutes a duplex of the physical computer and the virtual environment,
Both systems corresponding in the duplexing of the physical computer and the virtualized environment send and receive the life monitoring message to each other, and the physical computer of the system corresponding to the system timed out without receiving the life monitoring message within a predetermined time or A first procedure for determining a virtualized environment as a failure;
In the duplexing of the physical computer and the virtual environment, both of the corresponding systems that are generated when the active system remains the active system in the system switching when the active system is determined to be a failure are both the own system Whether or not there is an inconsistency that the system recognizes as the active system, and if there is a mismatch, the second is to determine the physical computer or the virtual environment of the system whose operation time is old as the active system as a failure . Procedure and
If the system determined to be a failure is an active system, a predetermined protection process makes the active physical computer or virtualization environment non-operational and the corresponding standby physical computer or virtualization A third procedure for transitioning the environment to the active system;
If the system determined to be a failure is a standby system, a fourth procedure for stopping the physical computer or virtual environment of the standby system;
When letting the calculator execute
In the third procedure, if the system determined to be a failure is an active system and the location where the failure has occurred is a virtual environment, the virtual environment is stopped on the physical computer with the virtual environment. Instructing the virtual environment to not operate as an active system,
Computer control program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012188148A JP5913003B2 (en) | 2012-08-29 | 2012-08-29 | Computer control apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012188148A JP5913003B2 (en) | 2012-08-29 | 2012-08-29 | Computer control apparatus, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014044690A JP2014044690A (en) | 2014-03-13 |
JP5913003B2 true JP5913003B2 (en) | 2016-04-27 |
Family
ID=50395887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012188148A Active JP5913003B2 (en) | 2012-08-29 | 2012-08-29 | Computer control apparatus, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5913003B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017045084A (en) * | 2015-08-24 | 2017-03-02 | 日本電信電話株式会社 | Failure detection apparatus and failure detection method |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3196004B2 (en) * | 1995-03-23 | 2001-08-06 | 株式会社日立製作所 | Failure recovery processing method |
JPH10242889A (en) * | 1997-02-25 | 1998-09-11 | Fujitsu Ltd | Mutual supervisory method for duplicate system |
JP2002123406A (en) * | 2000-10-17 | 2002-04-26 | Pfu Ltd | High reliability system |
JP4487260B2 (en) * | 2005-08-26 | 2010-06-23 | 株式会社日立製作所 | Multiplex system |
JP4806619B2 (en) * | 2006-10-13 | 2011-11-02 | アラクサラネットワークス株式会社 | Common bus access arbitration system |
JP4809209B2 (en) * | 2006-12-28 | 2011-11-09 | 株式会社日立製作所 | System switching method and computer system in server virtualization environment |
-
2012
- 2012-08-29 JP JP2012188148A patent/JP5913003B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014044690A (en) | 2014-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5733318B2 (en) | Computer system | |
KR100952553B1 (en) | Virtual machine system and method for controlling the same | |
US9298566B2 (en) | Automatic cluster-based failover handling | |
CN102355369B (en) | Virtual clustered system as well as processing method and processing device thereof | |
CN106330475B (en) | Method and device for managing main and standby nodes in communication system and high-availability cluster | |
US20090070761A1 (en) | System and method for data communication with data link backup | |
WO2007055014A1 (en) | Network monitor program executed in computer of cluster system, information processing method, and computer | |
JP3882783B2 (en) | Programmable controller, CPU unit, communication unit and communication unit control method | |
CN103257908A (en) | Software and hardware cooperative multi-controller disk array designing method | |
WO2013113226A1 (en) | Controller area network bus redundancy system and redundancy switching method and device | |
CN101594383A (en) | A kind of service of double controller storage system and controller state method for supervising | |
JP4487260B2 (en) | Multiplex system | |
JP5285045B2 (en) | Failure recovery method, server and program in virtual environment | |
JP5913003B2 (en) | Computer control apparatus, method and program | |
JP2014048933A (en) | Plant monitoring system, plant monitoring method, and plant monitoring program | |
CN101957786B (en) | Method and device for realizing start and fault switching control in dual-control system | |
WO1999026138A1 (en) | Method of changing over a multiplex system | |
JP2006189963A (en) | Storage access control method, cluster system, path connection switch, and storage access control program | |
JP5176914B2 (en) | Transmission device and system switching method for redundant configuration unit | |
JP4511455B2 (en) | Fiber channel switch and computer system using the same | |
JP2006268278A (en) | Remote maintenance computer maintenance system | |
JP5806987B2 (en) | Computer and its fault processing method and program | |
JP2019197352A (en) | Service continuing system and service continuing method | |
JP5782397B2 (en) | Failure notification device and notification method | |
JP2012195005A (en) | Virtual computer system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140718 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150605 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150707 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150903 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5913003 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |