JP2017045084A - Failure detection apparatus and failure detection method - Google Patents
Failure detection apparatus and failure detection method Download PDFInfo
- Publication number
- JP2017045084A JP2017045084A JP2015164432A JP2015164432A JP2017045084A JP 2017045084 A JP2017045084 A JP 2017045084A JP 2015164432 A JP2015164432 A JP 2015164432A JP 2015164432 A JP2015164432 A JP 2015164432A JP 2017045084 A JP2017045084 A JP 2017045084A
- Authority
- JP
- Japan
- Prior art keywords
- machine
- failure detection
- state
- machines
- host
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、物理マシン上で動作する仮想マシンを用いたシステムの障害制御技術に関する。 The present invention relates to a system failure control technique using a virtual machine operating on a physical machine.
キャリアグレードのサーバは、フォールトトレラント性を保つためHAクラスタを使用し、運用系サーバと予備系サーバを用意して、運用系サーバに異常が発生したときは、予備系と運用系とを切り替えることでサービス継続性を高めている(例えば特許文献1参照)。運用系サーバ上で動作するシステムは、自身が動作しているマシン等のハードウェアの状態を取得して状態判定を行うことで異常の発生を検知している。 Carrier grade servers use an HA cluster to maintain fault tolerance, prepare an active server and a standby server, and switch between the standby and active systems when an error occurs in the active server Thus, service continuity is improved (see, for example, Patent Document 1). A system operating on an active server detects the occurrence of an abnormality by acquiring the status of hardware such as a machine on which it is operating and performing status determination.
自身が動作するハードウェアの状態を取得して状態判定を行って運用系と予備系とを切り替えるシステムを、仮想マシンを用いて構築した場合、通常のシステムが保持するハードウェアの状態取得機能や状態判定機能では仮想マシンの状態を取得して判定してしまい、仮想マシンの状態を検知し続けても、ハードウェア特有の温度異常や経年劣化による故障は検知できず、仮想マシンを動作させているホストマシンの異常を検知することはできないという問題があった。 When a virtual machine is used to build a system that switches between the active system and the standby system by acquiring the status of the hardware on which it is operating and performing status determination, the hardware status acquisition function The status determination function acquires and determines the status of the virtual machine, and even if it continues to detect the status of the virtual machine, it cannot detect hardware-specific temperature abnormalities or failures due to aging, and operate the virtual machine. There was a problem that it was not possible to detect abnormalities in the host machine.
この問題について、一般的には、物理マシンの状態検知のために外部に仮想化層監視装置を配置する対応が考えられる。しかしながら、外部の監視装置では、監視対象機能以外の異常(進行性の異常等)については検知することができない。また、外部の監視装置から仮想マシン上で動作するサーバプログラムに情報を伝達できない事態になった場合は、サーバプログラムの自発的なマシン制御を実施することができない。 In general, it is conceivable to deal with this problem by arranging a virtualization layer monitoring device outside to detect the state of the physical machine. However, the external monitoring device cannot detect an abnormality (progressive abnormality or the like) other than the monitoring target function. In addition, when information cannot be transmitted from an external monitoring device to a server program operating on a virtual machine, it is not possible to perform spontaneous machine control of the server program.
本発明は、上記に鑑みてなされたものであり、仮想マシンがホストマシンのハードウェアの状態を取得し、ホストマシンの障害発生に適切に対応することを目的とする。 The present invention has been made in view of the above, and an object of the present invention is to make it possible for a virtual machine to acquire a hardware state of a host machine and appropriately cope with a failure of the host machine.
第1の本発明に係る障害検知装置は、物理マシン上で仮想マシンが動作する障害検知装置であって、前記物理マシンは、当該物理マシンの状態を取得する状態取得手段と、前記状態を前記仮想マシンへ伝達する状態伝達手段と、を有し、前記仮想マシンは、前記物理マシンから前記状態を取得し、前記仮想マシン上で動作するプログラムが当該状態を取得可能にする状態連携手段を有することを特徴とする。 A failure detection apparatus according to a first aspect of the present invention is a failure detection apparatus in which a virtual machine operates on a physical machine, wherein the physical machine acquires state of the physical machine, the state acquisition means, State communication means for transmitting to the virtual machine, the virtual machine having the state cooperation means for acquiring the state from the physical machine and enabling a program operating on the virtual machine to acquire the state. It is characterized by that.
上記障害検知装置は、現用系と予備系とを備える冗長化したシステムで用いられるものであって、前記仮想マシンは、前記物理マシンの異常を検知したときに、現用系と予備系とを切り替える障害制御手段を有することを特徴とする。 The failure detection apparatus is used in a redundant system including an active system and a standby system, and the virtual machine switches between the active system and the standby system when detecting an abnormality of the physical machine. It has a failure control means.
第2の本発明に係る障害検知方法は、物理マシン上で仮想マシンが動作する障害検知装置による障害検知方法であって、前記物理マシンによる、当該物理マシンの状態を取得するステップと、前記状態を前記仮想マシンへ伝達するステップと、を有し、前記仮想マシンによる、前記物理マシンから前記状態を取得し、前記仮想マシン上で動作するプログラムが当該状態を取得可能にするステップを有することを特徴とする。 A failure detection method according to a second aspect of the present invention is a failure detection method by a failure detection device in which a virtual machine operates on a physical machine, the step of acquiring the state of the physical machine by the physical machine, and the state Transmitting the status to the virtual machine, and acquiring the status from the physical machine by the virtual machine and enabling a program operating on the virtual machine to acquire the status. Features.
本発明によれば、仮想マシンがホストマシンのハードウェアの状態を取得し、ホストマシンの障害発生に適切に対応することができる。 According to the present invention, the virtual machine can acquire the state of the hardware of the host machine and can appropriately cope with the occurrence of a failure in the host machine.
以下、本発明の実施の形態について図面を用いて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本実施の形態における障害制御システムの構成を示す機能ブロック図である。図1に示す障害制御システムは、ホストマシン1A,1B上で動作する仮想マシン2A,2Bがプログラムを実行して所望のシステムを動作させる障害制御システムであって、一方の仮想マシン2Aで動作するシステムを運用系、他方の仮想マシン2Bで動作するシステムを予備系とし、運用系のシステムで異常を検知したときには、予備系のシステムに切り替えてサービスを継続させるシステムである。例えば、通信事業者が通信網の構築に本システムを用いる。本障害制御システムは仮想マシン2A,2B上でプログラムを動作させてサービスを提供する機能を有しているが、図1では障害制御に用いられる機能のみを図示している。
FIG. 1 is a functional block diagram showing the configuration of the fault control system in the present embodiment. The failure control system shown in FIG. 1 is a failure control system in which
図1に示すホストマシン1A,1Bは、サーバ障害検知機能11及び障害検知連携機能12を備え、ホストマシン1A,1B上で動作する仮想マシン2A,2Bは、障害検知連携機能21及びサーバ障害検知機能22を備える。
The
サーバ障害検知機能11は、ホストマシン1A,1Bが持つマシン状態を取得する機能を利用してホストマシン1A,1B自身の状態を取得する。ホストマシン1A,1Bは、物理マシンであり、ホストマシン1A,1Bが備えるハードウェア部品に異常が発生したり故障したりする。物理マシンの状態を取得する機能としては、例えば、ハードディスクに内蔵された自己診断機能であるS.M.A.R.T.やメモリチェック等がある。
The server
障害検知連携機能12は、サーバ障害検知機能11が取得したホストマシン1A,1Bのマシン状態を仮想マシン2A,2Bへ伝達し、仮想マシン2A,2B上で動作するシステムがホストマシン1A,1Bのマシン状態を取得できるようにする機能である。
The failure
マシン状態を伝達する方法としては、IPレイヤの独自機能をホストマシン1A,1Bに実装する方法がある。その他に以下の例が挙げられる。
As a method of transmitting the machine state, there is a method of mounting an IP layer unique function in the
(1)SNMPトラップを用いて、異常発生時にホストマシン1A,1BのSNMPエージェントから仮想マシン2A,2BのSNMPマネージャへ異常通知する。
(2)仮想マシン2A,2Bからホストマシン1A,1Bへheartbeatを送信し、受信を以って死活監視を実施する。heartbeatが返らない場合は異常であることを検知する。
(3)ホストマシン1A,1Bが仮想マシン2A,2Bにログインし、ホストマシン1A,1Bが異常をきたしている箇所について仮想マシン2A,2Bを破壊する。
(4)ホストマシン1A,1Bでメールサーバを起動し、仮想マシン2A,2Bでメールクライアントを起動し、ホストマシン1A,1Bが仮想マシン2A,2Bへメールで伝達する。
(5)ホストマシン1A,1Bが仮想マシン2A,2BにTelnet接続し、仮想マシン2A,2B上のファイルを編集する。
(6)ホストマシン1A,1Bが仮想マシン2A,2BにFTP接続し、仮想マシン2A,2B上にファイルを配置する。
(1) When an abnormality occurs, an SNMP trap is used to notify the SNMP manager of the
(2) The heartbeat is transmitted from the
(3) The
(4) A mail server is activated on the
(5) The
(6) The
一方、仮想マシン2A,2Bの障害検知連携機能21は、上記の方法で伝達されたホストマシン1A,1Bのマシン状態を受け取り、ホストマシン1A,1Bと仮想マシン2A,2Bのマシン状態を連携させて、仮想マシン2A,2Bのサーバ障害検知機能22がホストマシン1A,1Bのマシン状態を検知できるようにする。
On the other hand, the failure
サーバ障害検知機能22は、仮想マシン2A,2B上で動作するシステム(サーバプログラム)が備えた機能であって、仮想マシン2A,2Bの状態判定とホストマシン1A,1Bの状態判定を行い、異常を検知する。サーバ障害検知機能22は、仮想マシン2A,2Bの状態判定とホストマシン1A,1Bの状態判定を実施することになるため、それぞれの状態がわかるように別個に動作判定を実施してもよいし、仮想マシン2A,2Bの状態判定にホストマシン1A,1Bの状態判定を重畳して動作判定を実施してもよい。
The server
サーバ障害検知機能22は、異常を検知すると、予備系に切り替える障害制御動作を開始する。あるいは、異常を検知したときに保守者へアラームを出力し、保守者が保守作業を行ってもよい。
When detecting a failure, the server
次に、本実施の形態における障害制御システムの動作について説明する。 Next, the operation of the failure control system in this embodiment will be described.
図2は、本実施の形態における障害制御システムの動作を示すシーケンス図である。 FIG. 2 is a sequence diagram showing the operation of the failure control system in the present embodiment.
ホストマシン1Aのサーバ障害検知機能11がホストマシン1Aの状態を取得し、異常を検知する(ステップS11)。
The server
ホストマシン1Aの障害検知連携機能12は、ホストマシン1Aの状態を仮想マシン2Aの障害検知連携機能21に伝達する(ステップS12)。
The failure detection cooperation function 12 of the host machine 1A transmits the state of the host machine 1A to the failure
仮想マシン2Aの障害検知連携機能21は、ホストマシン1Aの状態から現用系を予備系に切り替える必要があると判定した場合は、仮想マシン2Bへ切り替えの指示を出す(ステップS13)。
If the failure detection cooperation function 21 of the
以上説明したように、本実施の形態によれば、サーバ障害検知機能11がホストマシン1A,1Bのハードウェアの状態を取得し、障害検知連携機能12がホストマシン1A,1Bのマシン状態を仮想マシン2A,2Bへ伝達し、仮想マシン2A,2Bの障害検知連携機能21がホストマシン1A,1Bのマシン状態を受け取ってホストマシン1A,1Bと仮想マシン2A,2Bのマシン状態を連携させておくことで、仮想マシン2A,2B上で動作するシステムがホストマシン1A,1Bのマシン状態を取得し、ホストマシン1A,1Bの異常を検知することが可能となる。
As described above, according to the present embodiment, the server
1A,1B…ホストマシン
11…サーバ障害検知機能
12…障害検知連携機能
2A,2B…仮想マシン
21…障害検知連携機能
22…サーバ障害検知機能
1A, 1B ...
Claims (3)
前記物理マシンは、
当該物理マシンの状態を取得する状態取得手段と、
前記状態を前記仮想マシンへ伝達する状態伝達手段と、を有し、
前記仮想マシンは、
前記物理マシンから前記状態を取得し、前記仮想マシン上で動作するプログラムが当該状態を取得可能にする状態連携手段
を有することを特徴とする障害検知装置。 A failure detection device in which a virtual machine operates on a physical machine,
The physical machine is
Status acquisition means for acquiring the status of the physical machine;
State transmitting means for transmitting the state to the virtual machine;
The virtual machine is
A failure detection apparatus comprising: a state cooperation unit that acquires the state from the physical machine and enables a program operating on the virtual machine to acquire the state.
前記仮想マシンは、
前記物理マシンの異常を検知したときに、現用系と予備系とを切り替える障害制御手段を有することを特徴とする請求項1記載の障害検知装置。 The failure detection device is used in a redundant system including an active system and a standby system,
The virtual machine is
The failure detection apparatus according to claim 1, further comprising a failure control unit that switches between an active system and a standby system when an abnormality of the physical machine is detected.
前記物理マシンによる、
当該物理マシンの状態を取得するステップと、
前記状態を前記仮想マシンへ伝達するステップと、を有し、
前記仮想マシンによる、
前記物理マシンから前記状態を取得し、前記仮想マシン上で動作するプログラムが当該状態を取得可能にするステップ
を有することを特徴とする障害検知方法。 A failure detection method by a failure detection apparatus in which a virtual machine operates on a physical machine,
By the physical machine,
Obtaining the state of the physical machine;
Communicating the state to the virtual machine,
By the virtual machine,
A failure detection method comprising: acquiring the state from the physical machine, and enabling a program operating on the virtual machine to acquire the state.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015164432A JP2017045084A (en) | 2015-08-24 | 2015-08-24 | Failure detection apparatus and failure detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015164432A JP2017045084A (en) | 2015-08-24 | 2015-08-24 | Failure detection apparatus and failure detection method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017045084A true JP2017045084A (en) | 2017-03-02 |
Family
ID=58211358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015164432A Pending JP2017045084A (en) | 2015-08-24 | 2015-08-24 | Failure detection apparatus and failure detection method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017045084A (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005115751A (en) * | 2003-10-09 | 2005-04-28 | Hitachi Ltd | Computer system and method for detecting sign of failure of computer system |
JP2009140194A (en) * | 2007-12-06 | 2009-06-25 | Hitachi Ltd | Method for setting failure recovery environment |
JP2012070102A (en) * | 2010-09-21 | 2012-04-05 | Toshiba Corp | Imaging apparatus and manufacturing method thereof |
JP2012230444A (en) * | 2011-04-25 | 2012-11-22 | Hitachi Ltd | Partial failure processing method in computer system |
JP2014044690A (en) * | 2012-08-29 | 2014-03-13 | Hitachi Ltd | Computer control apparatus, method, and program |
JP2014048933A (en) * | 2012-08-31 | 2014-03-17 | Toshiba Corp | Plant monitoring system, plant monitoring method, and plant monitoring program |
JP2015060375A (en) * | 2013-09-18 | 2015-03-30 | 日本電気株式会社 | Cluster system, cluster control method, and cluster control program |
JP2015130134A (en) * | 2014-01-09 | 2015-07-16 | 日本電気株式会社 | Information processing device, information processing system, memory replication method, and computer program |
-
2015
- 2015-08-24 JP JP2015164432A patent/JP2017045084A/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005115751A (en) * | 2003-10-09 | 2005-04-28 | Hitachi Ltd | Computer system and method for detecting sign of failure of computer system |
JP2009140194A (en) * | 2007-12-06 | 2009-06-25 | Hitachi Ltd | Method for setting failure recovery environment |
JP2012070102A (en) * | 2010-09-21 | 2012-04-05 | Toshiba Corp | Imaging apparatus and manufacturing method thereof |
JP2012230444A (en) * | 2011-04-25 | 2012-11-22 | Hitachi Ltd | Partial failure processing method in computer system |
JP2014044690A (en) * | 2012-08-29 | 2014-03-13 | Hitachi Ltd | Computer control apparatus, method, and program |
JP2014048933A (en) * | 2012-08-31 | 2014-03-17 | Toshiba Corp | Plant monitoring system, plant monitoring method, and plant monitoring program |
JP2015060375A (en) * | 2013-09-18 | 2015-03-30 | 日本電気株式会社 | Cluster system, cluster control method, and cluster control program |
JP2015130134A (en) * | 2014-01-09 | 2015-07-16 | 日本電気株式会社 | Information processing device, information processing system, memory replication method, and computer program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8661287B2 (en) | Automatically performing failover operations with a load balancer | |
EP3210367B1 (en) | System and method for disaster recovery of cloud applications | |
JP6299640B2 (en) | Communication device | |
US9043636B2 (en) | Method of fencing in a cluster system | |
EP2637102B1 (en) | Cluster system with network node failover | |
KR20150088559A (en) | Method and apparatus for restoring failure of network | |
CN103607296A (en) | Virtual machine fault processing method and equipment thereof | |
KR101763863B1 (en) | Method for duplicating of firewall and apparatus thereof | |
JP6555721B2 (en) | Disaster recovery system and method | |
KR20160028247A (en) | Method for managing of cloud server, device and system for managing of cloud server performing the same | |
JP2017045084A (en) | Failure detection apparatus and failure detection method | |
JP2014048933A (en) | Plant monitoring system, plant monitoring method, and plant monitoring program | |
JP2000324121A (en) | System changeover device in network management system and its method | |
Lee et al. | Fault localization in NFV framework | |
CN109510725B (en) | Communication equipment fault detection system and method | |
JP2016206898A (en) | Information processing device, fault detection method, and computer program | |
JP2012075009A (en) | Redundancy device and redundancy program | |
US11954509B2 (en) | Service continuation system and service continuation method between active and standby virtual servers | |
JP7220997B2 (en) | FACILITY MONITORING SYSTEM AND COMMUNICATION METHOD IN FACILITY MONITORING SYSTEM | |
US20140297724A1 (en) | Network element monitoring system and server | |
CN107547257B (en) | Server cluster implementation method and device | |
JP5172186B2 (en) | Security system | |
JP6351076B2 (en) | Maintenance device, network system and maintenance method thereof | |
US11902083B1 (en) | Techniques to provide a flexible witness in a distributed system | |
JP5459094B2 (en) | Link aggregation communication device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170823 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180710 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180831 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181002 |