JP5504950B2 - サーバシステムの障害監視装置、サーバシステム、及びサーバシステムの障害監視方法 - Google Patents

サーバシステムの障害監視装置、サーバシステム、及びサーバシステムの障害監視方法 Download PDF

Info

Publication number
JP5504950B2
JP5504950B2 JP2010031535A JP2010031535A JP5504950B2 JP 5504950 B2 JP5504950 B2 JP 5504950B2 JP 2010031535 A JP2010031535 A JP 2010031535A JP 2010031535 A JP2010031535 A JP 2010031535A JP 5504950 B2 JP5504950 B2 JP 5504950B2
Authority
JP
Japan
Prior art keywords
server
sensor
power
temperature
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010031535A
Other languages
English (en)
Other versions
JP2011170445A (ja
Inventor
安希雄 北田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010031535A priority Critical patent/JP5504950B2/ja
Publication of JP2011170445A publication Critical patent/JP2011170445A/ja
Application granted granted Critical
Publication of JP5504950B2 publication Critical patent/JP5504950B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、サーバシステムの障害監視装置、サーバシステム、及びサーバシステムの障害監視方法に関する。
特許文献1には、複数のサーバコンピュータがクラスタ構成を形成するサーバシステムにおいて、各サーバコンピュータが、ディスク障害、電源障害およびファン障害などの早期的な障害の発生を検出し、各サーバコンピュータ間において、互いの稼動状況を確認するためのハートビートを実行し合う技術が開示されている。
特開平11−175488号公報
しかしながら、特許文献1に開示されたサーバシステムにおいては、障害が発生したノード(以下、障害ノード)からハートビートが途絶えた状況では、障害ノードにおいて電源が落ちているのか、一時的なストールが発生しているのかを、正常に動作しているノード(以下、正常ノードという)側で判断することができない。
ここで、一時的なストールであったにも関わらず、正常ノード側で障害ノードが提供していたサービスを継続してしまった場合、障害ノードが一時的なストールから復旧した場合に、サービスが二重起動してしまうことになる。この二重起動の危険性を回避するため、障害ノードの電源が完全にダウンしていることが分からない限り、正常ノードに障害ノードのサービスを継続させることができない。
本発明は、このような問題点に対してなされたものであり、正常ノード側で、障害が発生したノードの電源がダウンしているのか否かを判定することができるサーバシステムの障害監視装置、サーバシステム、及びサーバシステムの障害監視方法を提供することを目的とする。
本発明に係るサーバシステムの障害監視装置は第1サーバ及び第2サーバに搭載された機器の動作音を集音するマイクを備えて、前記第1サーバ及び前記第2サーバの動作データを取得するセンサと、
前記センサによって取得された前記動作データに基づいて、前記第1サーバ及び前記第2サーバの電源がダウンしているか否かを判定する判定手段と、
前記判定手段において、前記第1サーバ及び前記第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び前記第2サーバの他方の動作を制御するサーバ制御手段に、前記第1サーバ及び前記第2サーバの一方の電源がダウンしている旨を通知する通知手段と、を備え
前記判定手段は、前記第1サーバ及び前記第2サーバのファンの音を集音する前記マイクによって集音された音量がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの一方の電源がダウンしているか否か判定する。
本発明に係るサーバシステムの障害監視装置は、第1サーバ及び第2サーバに搭載された機器の温度を測定する温度センサを備えて、前記第1サーバ及び前記第2サーバの動作データを取得するセンサと、
前記センサによって取得された前記動作データに基づいて、前記第1サーバ及び前記第2サーバの電源がダウンしているか否かを判定する判定手段と、
前記判定手段において、前記第1サーバ及び前記第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び前記第2サーバの他方の動作を制御するサーバ制御手段に、前記第1サーバ及び前記第2サーバの一方の電源がダウンしている旨を通知する通知手段と、を備え、
前記判定手段は、前記第1サーバ及び前記第2サーバのCPU(Central Processing Unit)又はHDD(Hard Disk Drive)の温度を計測する前記温度センサによって計測された温度がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの一方の電源がダウンしているか否かを判定する。
また、本発明は第1サーバ及び第2サーバに搭載された機器の動作音を集音するマイクを備えたサーバシステムの障害監視方法であって、
前記第1サーバ及び前記第2サーバのファンの音を集音する前記マイクによって集音された音量がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの一方の電源がダウンしているか否か判定し、
前記第1サーバ及び前記第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び前記第2サーバの他方を制御するサーバ制御手段に、前記第1サーバ及び前記第2サーバの一方の電源がダウンしている旨を通知する。
本発明は、第1サーバ及び第2サーバに搭載された機器の温度を測定する温度センサを備えたサーバシステムの障害監視方法であって、
前記第1サーバ及び前記第2サーバのCPU(Central Processing Unit)又はHDD(Hard Disk Drive)の温度を計測する前記温度センサによって計測された温度がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの一方の電源がダウンしているか否かを判定し、
前記第1サーバ及び前記第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び前記第2サーバの他方を制御するサーバ制御手段に、前記第1サーバ及び前記第2サーバの一方の電源がダウンしている旨を通知する。
本発明は、第1サーバ及び第2サーバに搭載された機器の動作音を集音するマイクを備えたサーバシステムの障害監視を実行させるためのプログラムであって、
前記第1サーバ及び前記第2サーバのファンの音を集音する前記マイクによって集音された音量がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの一方の電源がダウンしているか否か判定し、
前記第1サーバ及び前記第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び前記第2サーバの他方を制御するサーバ制御手段に、前記第1サーバ及び前記第2サーバの一方の電源がダウンしている旨を通知する処理を実行させる。
本発明は、第1サーバ及び第2サーバに搭載された機器の温度を測定する温度センサを備えたサーバシステムの障害監視を実行させるためのプログラムであって、
前記第1サーバ及び前記第2サーバのCPU(Central Processing Unit)又はHDD(Hard Disk Drive)の温度を計測する前記温度センサによって計測された温度がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの一方の電源がダウンしているか否かを判定し、
前記第1サーバ及び前記第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び前記第2サーバの他方を制御するサーバ制御手段に、前記第1サーバ及び前記第2サーバの一方の電源がダウンしている旨を通知する処理を実行させる。

本発明に係るサーバシステムの障害監視装置、サーバシステム、及びサーバシステムの障害監視方法は、一のサーバの電源がダウンしたことを他のサーバに通知することができる。
実施の形態1にかかるサーバシステムの障害監視装置の構成例を示す図である。 実施の形態2にかかるサーバシステムの構成例を示す図である。 実施の形態3にかかるサーバシステムの構成例を示す図である。
以下、添付した図面を参照して、本発明の最良な実施の形態について説明する。なお、以下の説明及び添付した図面において同一符号を付した構成要素については、略同一構成であるものとし、重複する説明を省略するものとする。
実施の形態1.
図1は、本発明の実施の形態1に係るサーバシステムの障害監視装置の構成例を示すブロック図である。この障害監視装置10は、互いに接続された複数のサーバにおける障害の発生を検出する装置である。なお、接続されるサーバの数は任意に設定することができるが、実施の形態1では、第1サーバ(図示せず)と第2サーバ(図示せず)が第1経路を介して接続されているものとして説明を行う。障害監視装置10は、センサ11、判定手段12及び通知手段13を有している。判定手段12及び通知手段13は、メモリ(図示せず)に格納されたプログラムをCPU(図示せず)が実行することにより実現される。
センサ11は、第1サーバ及び第2サーバの動作をモニタすることができる位置に適宜配される。センサ11は、第1経路とは異なる第2経路を介して判定手段12に接続されている。センサ11は、第1サーバ及び第2サーバの動作データを取得する。センサ11は、カメラ、マイク、及び温度センサによって構成することができる。具体的には、センサ11は、第1サーバ及び第2サーバの静止画及び/又は動画を取得するカメラによって構成することができる。また、センサ11は、第1サーバ及び第2サーバに搭載された機器の動作音を集音するマイクとして構成することができる。
また、センサ11は、第1サーバ及び第2サーバに搭載された機器の温度を測定する温度センサとして構成することもできる。また、センサ11は、以上のような異なる種類のセンサを組合せて構成してもよい。カメラ、マイク及び温度センサによって構成されたセンサ11は、このような第1サーバ及び第2サーバの静止画像、動画像、動作音、温度等のデータを、動作データとして取得する。取得された動作データは、第2経路を介して判定手段12に出力される。
判定手段12は、センサ11によって取得された第1サーバ及び第2サーバの動作データに基づいて、第1サーバ及び第2サーバの電源がダウンしているか否かを判定する。通知手段13は、判定手段12において、第1サーバ及び第2サーバのいずれか一方の電源がダウンしていると判定された場合に、他方の正常に動作しているサーバの動作を制御するサーバ制御手段に、一方のサーバの電源がダウンしている旨を通知する。
具体的には、センサ11をカメラとして構成し、カメラによってサーバのパワーランプの静止画及び/又は動画を撮像するよう構成することができる。この場合、判定手段12は、カメラによって取得された第1サーバ及び第2サーバのパワーランプの点灯状態及び/又は点灯色に基づいて、第1サーバ及び第2サーバの電源がダウンしているか否か判定するよう構成することができる。
また、センサ11をカメラとして構成し、カメラによって、第1サーバ及び第2サーバに設けられたLCD(Liquid Christal Display)等のディスプレイの静止画及び/又は動画を取得するよう構成することができる。この場合、判定手段は、カメラによって取得された第1サーバ及び第2サーバのディスプレイの明るさが、しきい値以上であるか否かを判定することで、第1サーバ及び第2サーバの電源がダウンしているか否か判定するよう構成することができる。
また、センサ11をマイクとして構成し、マイクによって、第1サーバ及び第2サーバのファンの音を集音するよう構成することができる。この場合、判定手段12は、マイクによって集音された音量がしきい値以上であるか否かを判定することにより、第1サーバ及び第2サーバの電源がダウンしているか否か判定するよう構成することができる。
また、センサ11を温度センサとして構成し、温度センサによって、第1サーバ及び第2サーバのCPU(Central Processing Unit)又はHDD(Hard Disk Drive)等の温度を計測するよう構成することができる。この場合、判定手段12は、温度センサによって計測された温度がしきい値以上であるか否かを判定することにより、第1サーバ及び第2サーバの電源がダウンしているか否かを判定するよう構成することができる。
このように、本発明の実施の形態1に係るサーバシステムは、カメラ、マイク、及び温度センサといったセンサ11によって、第1サーバ及び第2サーバの動作状況をモニタし、センサ11によって検出された動作データに基づいて、判定手段12が、サーバの電源がダウンしているか否か判定する。このように、センサ11によって直接サーバの状況を検出することができるため、障害監視装置10において、サーバの電源がダウンしているか否かを確実に判定することができる。
また、本実施の形態に係る障害監視装置10は、センサ11と判定手段12とが第1サーバ及び第2サーバが接続されている第1経路とは異なる第2経路によって接続されている。ここで、第1サーバの電源がダウンした場合には第1経路を介した通信が行うことができない。しかしながら、本実施の形態1では、第1サーバの電源がダウンした場合にあっても、第2経路を介して一のサーバの電源がダウンした情報を確実に障害監視装置10が取得することができる。
また、判定手段12によってサーバの電源がダウンしていると判定された場合には、通知手段13によって正常に動作する他方のサーバにその旨が通知される。そのため、他方のサーバにおいては、二重起動を考慮することなく、故障したサーバのサービスを引き継ぐことができる。なお、通知手段13によって、故障したサーバのサービスを引き継ぐよう、正常に動作するサーバに制御命令を送るよう構成してもよい。
実施の形態2.
図2は、本発明の実施の形態2に係るサーバシステムの構成例を示すブロック図である。このサーバシステム200は、高可用性を実現するためのクラスタサーバである。このサーバシステム200では、稼動中のサーバに障害が発生したことを検知すると、待機系サーバへ障害が発生したサーバにおいて実行されていた処理を切替える(フェールオーバさせる)機能を備えている。また、引継ぎを行なう場合には、クライアントからフェールオーバがあったかどうかを意識する必要がないよう、各サーバに割り振られた仮想IPアドレスも引き継ぐ。
サーバシステム200は、カメラ20、監視サーバ21、及び複数のサーバ(第1サーバ26、第2サーバ29、…第Nサーバ32)を備えている。カメラ20は、実施の形態1におけるセンサ11に相当する。第1サーバ26、第2サーバ29、…第Nサーバ32には、電源装置28、31、34がそれぞれ接続されている。電源装置28、31、…34は、各サーバに電力を供給する。なお、実施の形態2では、センサがカメラによって構成されているものとする。
第1サーバ26、第2サーバ29、…第Nサーバ32は、自己の動作状況を他のサーバに通知するハートビート信号を互いに送受信している。ここで、このハートビート信号が途絶えるような状況には、(1)サーバの電源がダウンしている場合や、(2)一時的にCPUが停止しているストール状態である場合がある。実施の形態2では、互いにハートビート信号を送受信する複数のサーバにおいて、一のサーバのハートビートが途絶えたときに、そのサーバにおいて、(1)電源がダウンしているか、若しくは(2)一時的なストールが発生しているかを判別することができる。
図3に示すように、カメラ20は、第1サーバ26乃至第Nサーバ32までのN個のサーバの静止画又は動画を一括して取得するよう構成されている。なお、カメラ20の配置はこれに限られず、サーバ毎に設置するよう構成してもよい。例えば、カメラ20は、各サーバ26、29…32のパワーランプやディスプレイの静止画及び動画を取得するよう構成することができる。カメラ20の動作は、監視サーバ21のカメラ制御手段24によって制御されている。取得された静止画又は動画は、監視サーバ21のカメラ制御手段24を介して、画像解析手段25に入力される。
監視サーバ21は、制御手段22を備えている。制御手段22は、更に、電源制御手段23、ハートビートモニタ手段35、カメラ制御手段24、画像解析手段25、判定手段12及び通知手段13を備えている。電源制御手段23、ハートビートモニタ手段35、カメラ制御手段24及び画像解析手段25、判定手段12及び通知手段13は、メモリに格納されたプログラムをCPUが実行することによって実現される。
電源制御手段23は、第1サーバ26、第2サーバ29、…第Nサーバ32に接続された電源装置28、31、34を制御する。ハートビートモニタ手段35は、第1サーバ26、第2サーバ29、…第Nサーバ32間で送受信されるハートビート信号をモニタする。ハートビートモニタ手段35は、いずれかのサーバから出力されるハートビート信号が途絶えたことを検出すると、その旨をカメラ制御手段24に通知する。なお、ハートビートモニタ手段35は、複数のサーバから送信されるハートビート信号を直接入力し、入力したハートビート信号をモニタするよう構成することができる。また、ハートビートモニタ手段35を、あるサーバのハートビート信号が途切れたという情報を各サーバから受け取るように構成してもよい。
ハートビートモニタ手段35において、あるサーバのハートビート信号が途切れたことが検出されると、カメラ制御手段24は、この検出結果をトリガとして、カメラ20に対し、サーバの静止画や動画を取得するよう制御命令を与える。カメラ20は、カメラ制御手段24から制御命令を受け取ると、複数のサーバ26、29、…及び32全体の画像を取得する。なお、カメラ制御手段24は、ハートビート信号が途切れたサーバのみを選択し、少なくともそのサーバを含む画像を取得するようにカメラ20に対して制御命令を送ることもできる。この場合、カメラ20は、カメラ20の向き等を調整する等して、カメラ制御手段24によって指定されたサーバを少なくとも含む画像を取得するように構成することができる。
画像解析手段25は、カメラ制御手段24を介してカメラ20より取得された画像の解析を行なう。この解析結果は、判定手段12に入力される。判定手段12は、画像解析手段25によって解析された画像データ又は動画像データに基づき、ハートビート信号が途絶えたサーバの電源がダウンしているか否か判定を行なう。
画像解析手段25は、取得された画像を解析し、解析結果を判定手段12に出力する。判定手段12は、第1サーバ26のディスプレイの明るさが、しきい値以上であるか否か、又は、第1サーバ26のパワーランプの点灯状態や色を判定することにより、ハートビート信号の途切れたサーバの電源がダウンしているか否かを、視覚情報に基づいて判定する。
この判定結果は、判定手段12から通知手段13に出力される。判定手段12において、ハートビート信号が途切れたサーバが電源がダウンしていると判定されると、通知手段13は、その結果を他の通常に動作するサーバのサーバ制御手段27、30及び33に対し通知する。なお、この通知は、上記のように正常に動作するすべての他のサーバに対して行ってもよいが、障害が発生しているサーバの変わりにサービスを継続するサーバのみに対して行なってもよい。
このように、実施の形態2に係るサーバシステム200においては、複数のサーバに対して1つ監視サーバ21が設けられている。これにより、一括して、監視サーバ21が、複数のサーバに発生する障害を検出したり、フェイルオーバの制御を実施することができる。
なお、上記の説明では、ハートビート信号が途切れたことをトリガとして、カメラ制御手段24がカメラ20に対して画像を取得するよう制御命令を出力するが、次のようにも構成することができる。すなわち、カメラ20に、定期的(継続的)にサーバの画像を撮像させ、ハートビートモニタ手段35においてハートビート信号が途切れたことが検出されたことをトリガとして、画像解析手段25による画像の解析や、判定手段12における判定を開始するよう構成してもよい。
また、実施の形態2では、ハートビートモニタ手段35を更に設けたことにより、実施の形態1のように常に複数のサーバの動作をセンサによって検出する必要がない。また、ハートビート信号が途切れた場合にカメラ20を起動することにより、ハートビート信号だけでは判別できない、(1)電源がダウンしているか、若しくは(2)一時的なストールが発生しているか、を確実に判別することができる。
実施の形態3.
次に、本発明の実施の形態3に係るサーバシステムの構成について説明する。図3は、本発明の実施の形態3に係るサーバシステム300の構成例を示すブロック図である。実施の形態2では、障害監視装置10として、複数のサーバに対して、1つの監視サーバ21が設けられていたが、実施の形態3では、障害監視装置10の判定手段12及び通知手段13が複数のサーバに分散して配置されている点に特徴がある。また、実施の形態2では、実施の形態1のセンサ11が、第1サーバ101及び第2サーバ111のそれぞれに設けられている。
また、実施の形態3は、複数のサーバの動作状況をモニタするセンサとして、実施の形態2で用いたカメラのみならず、マイクや温度センサといった複数のセンサを組合せて用いている点に特徴がある。第1サーバ101及び第2サーバ111は、他方のサーバにおいて障害が発生した場合には、障害が発生したサーバが実施していたサービスを引き継ぐフェールオーバ機能を有している。第1サーバ101及び第2サーバ111において引継ぎを行なう場合には、クライアントからフェールオーバがあったかどうかを意識する必要がないよう、各サーバに割り振られた仮想IPアドレスも引き継ぐ。
図3に示すように、このサーバシステム300は、第1サーバ101、第2サーバ111、及びセンサ109、119を備えている。なお、接続するサーバの数は、任意に設定することができるが、ここでは説明のため、2つのサーバ101、111が第1経路を介して接続されているものとする。第1サーバ101は、サーバ制御手段102、LCD106、ファン107、CPU等の熱源108を備えている。
サーバ制御手段102は、更に、共有ディスク制御手段103、ネットワーク制御手段104、ハートビートモニタ手段35、センサ制御手段105、判定手段12、及び通知手段13を備えている。ネットワーク制御手段104、ハートビートモニタ手段35、センサ制御手段105、判定手段12、及び通知手段13は、メモリ(図示せず)に格納されたプログラムがCPU(図示せず)によって実行させることにより実現される。
第1サーバ101及び第2サーバ111は、図示しない共有ディスクを備えている。第1サーバ101及び第2サーバ111の共有ディスク制御手段103は、共有ディスクに定期的にアクセスすることをもって、ハートビートを実行している。また、第1サーバ101及び第2サーバ111のネットワーク制御手段104は、定期的に相手のサーバに、通信を行うことにより、ハートビート信号を送信している。
ハートビートモニタ手段35は、このようなハートビートをモニタすることによって、相手のサーバのハートビートが途切れたことを検出する。第1サーバ101のセンサ制御手段105は、ハートビートが途切れたことをトリガとして、相手の第2サーバ111に搭載された機器(LCD106、ファン107、CPU等の熱源108)をモニタするセンサ119を起動する。センサ119は、LCD106、ファン107等の静止画及び/又は動画を取得するカメラ、ファン107の動作音を集音するマイク、及びCPUやHDDといった熱源の温度を検出する温度センサを少なくとも1つ含む。なお、センサ119は、複数の種類のセンサを組合せて構成してもよい。センサ119によって取得された動作データは、センサ制御手段105を介して判定手段12に出力される。
判定手段12は、センサ119によって取得された相手側の第2サーバ111の動作データに基づいて、第2サーバ111の電源がダウンしているか否かを判定する。判定手段12において第2サーバ111の電源がダウンしていることが検出されると、通知手段13は、共有ディスク制御手段103及びネットワーク制御手段104に、第2サーバ111の電源がダウンしている情報を通知する。共有ディスク制御手段103及びネットワーク制御手段104は、これをトリガとして障害が発生している第2サーバのサービスを引き継ぐ。
第2サーバ111は、第1サーバ101と略同一構成を有するため、同一符号を付すことによりその説明を省略する。第2サーバ111のセンサ制御手段105は、第1サーバ101に搭載された機器(LCD106、ファン107、CPU等の熱源108)をモニタするセンサ109の動作を制御する。
次に、このように構成されたサーバシステム300の動作について説明する。
[電源がダウンした場合]
第2サーバ111が何かの障害で、電源ごとダウンした状況を想定する。第1サーバ101のハートビートモニタ手段35は、第2サーバ111の共有ディスク制御手段103、ネットワーク制御手段104によるハートビート信号が途切れたことを検知する。第1サーバ101のセンサ制御手段105は、第2サーバ111のLCD106、ファン107、CPU等の熱源108をモニタするセンサ119を起動する。
第1サーバ101の判定手段12は、センサ119によって取得された第2サーバ111の動作データをセンサ制御手段105を介して取得する。判定手段12は、カメラ、マイク、又は温度センサといったセンサ119によって取得された動作データに基づいて、ハートビートが途切れている第2サーバ111の電源がダウンしているか判定する。
具体的には、電源がダウンした状態では、LCD106の画面が消える。そのため、判定手段12においては、カメラによって取得されたLCD106の明るさが一定以下であることを検出することで、第2サーバ111の電源がダウンしていること判定することができる。また、電源がダウンした状態では、ファン107の動作が停止する。そのため、判定手段12においては、マイクによって検出されたファン107の動作音量が一定以下であることを検出することで、第2サーバ111の電源がダウンしていると判定することができる。
また、電源がダウンした状態では、CPU等に電力が供給されず、CPU等の熱源108が発熱しない。そのため、判定手段12においては、温度センサによって検出されたCPU等の熱源108の温度が一定以下であることを検出することで、第2サーバ111の電源がダウンしている判定することができる。なお、判定手段12は、上述の複数の判定結果に基づいて、第2サーバ111の電源がダウンしいているか否かを判定するよう構成してもよい。
上記に具体的に挙げた判定方法により、判定手段12において、第2サーバ111の電源がダウンしていることが検出される。判定手段12は、通知手段13に対し、この判定結果を出力する。通知手段13は、共有ディスク制御手段103及びネットワーク制御手段104等に、第2サーバ111の電源がダウンしている情報を通知する。共有ディスク制御手段103及びネットワーク制御手段104は、これをトリガとして障害が発生している第2サーバのサービスを引き継ぐ。
[一時的なストールが発生した場合]
第2サーバ111に何らかの障害により、ストールが発生した状況を想定する。第1サーバ101のハートビートモニタ手段35は、第2サーバ111の共有ディスク制御手段103、ネットワーク制御手段104によるハートビートが途切れたことを検知する。第1サーバ101のセンサ制御手段105は、第2サーバ111のLCD106、ファン107、CPU等の熱源108をモニタするセンサ119を起動する。
第1サーバ101の判定手段12は、センサ119によって取得された第2サーバ111の動作データをセンサ制御手段105を介して取得する。判定手段12は、カメラ、マイク、又は温度センサといったセンサ119によって取得された動作データに基づいて、ハートビート信号が途切れている第2サーバ111の電源がダウンしているか否か判定する。
具体的には、一時的なストールが発生した状態では、LCD106が起動しており、サービス提供時と同様の画面が表示されていると想定される。そのため、判定手段12においては、カメラによって取得されたLCD106の明るさが一定以上であることを検出することで、第2サーバ111の電源がダウンしていないことを判定することができる。また、一時的なストールが発生した状態では、ファン107は通常の動作時と同様に、動作していると想定される。そのため、判定手段12においては、マイクによって検出されたファン107の動作音量が一定以上であることを検出することで、第2サーバ111の電源がダウンしていないと判定することができる。
また、一時的なストールが発生した状態では、CPU等の熱源108が発熱していると想定される。そのため、判定手段12においては、温度センサによって検出されたCPU等の熱源108の温度が一定以上であることを検出することで、第2サーバ111の電源がダウンしていないと判定することができる。
判定手段12によって、第2サーバ111に発生した障害は、ストールによるものであると判断された場合には、第1サーバ101のサーバ制御手段102は、しばらく第2サーバ111の復旧を待機する。第1サーバ101のサーバ制御手段102は、所定の時間を経過するまでに、第2サーバ111が復旧した場合は、通常の動作に戻る。一方、第1サーバ101のサーバ制御手段102は、所定の時間を経過するまでに、第2サーバ111が復旧しない場合には、第2サーバ111の電源をダウンさせてから、第2サーバ111のサービスの引継ぎを開始する。
このように、実施の形態3では、障害監視装置10が複数のサーバに分散して配置することで、実施形態2に示すような監視サーバ21を設ける必要がない。また、実施の形態3では、センサ109、119をサーバ毎に設けることにより、実施の形態2よりも容易に所望のサーバの動作データを取得することができる。また、実施の形態3では、カメラのみならず、マイクや温度センサといった複数のセンサを用いることにより、サーバの設置される状況に応じたセンサを適用することができる。また、複数種類のセンサを用いてサーバの動作を検出すれば、より正確にサーバの動作状況を判定することができる。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。なお上記の実施の形態1乃至3に記載された内容は、互いに組み合わせて適用することも勿論できる。
また、上記のサーバシステムの障害監視方法は、コンピュータに実行させるプログラムとして提供することもできる。このプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の通信媒体を介して伝送することにより提供することも可能である。また、記憶媒体には、例えば、フレキシブルディスク、ハードディスク、磁気ディスク、光磁気ディスク、CD−ROM、DVD、ROMカートリッジ、バッテリバックアップ付きRAMメモリカートリッジ、フラッシュメモリカートリッジ、不揮発性RAMカートリッジ等が含まれる。また、通信媒体には、電話回線等の有線通信媒体、マイクロ波回線等の無線通信媒体等が含まれる。
上述の実施の形態の一部又は全部は、以下の付記のようにも記載されるが、以下には限られない。
(付記1)
第1経路を介して互いに接続された第1サーバ及び第2サーバの静止画及び/又は動画を取得するカメラ、前記第1サーバ及び第2サーバに搭載された機器の動作音を集音するマイク、前記第1サーバ及び第2サーバに搭載された機器の温度を測定する温度センサのうち少なくとも1つを備え、前記第1サーバ及び第2サーバの動作データを取得するセンサと、
前記第1経路とは異なる第2経路を介して前記センサと接続され、前記センサによって取得された前記動作データに基づいて、前記第1サーバ及び第2サーバの電源がダウンしているか否かを判定する判定手段と、
前記判定手段において、前記第1サーバ及び第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び第2サーバの他方の動作を制御するサーバ制御手段に、前記第1サーバ及び第2サーバの一方の電源がダウンしている旨を通知する通知手段と、を備える、サーバシステムの障害監視装置。
(付記2)
前記センサは、前記サーバのパワーランプの静止画及び/又は動画を取得するカメラであり、
前記判定手段は、前記カメラによって取得された、前記第1サーバ及び前記第2サーバの前記パワーランプの点灯状態及び/又は点灯色に基づいて、前記第1サーバ及び前記第2サーバの電源がダウンしているか否か判定する
(付記1)に記載のサーバシステムの障害監視装置。
(付記3)
前記センサは、前記第1サーバ及び前記第2サーバのディスプレイの静止画及び/又は動画を取得するカメラであり、
前記判定手段は、前記カメラによって取得された前記第1サーバ及び前記第2サーバの前記ディスプレイの明るさがしきい値以上であるか否かを判定することで、前記第1サーバ及び前記第2サーバの電源がダウンしているか否か判定する
(付記1)又は(付記2)に記載のサーバシステムの障害監視装置。
(付記4)
前記センサは、前記第1サーバ及び前記第2サーバのファンの音を集音するマイクであり、
前記判定手段は、前記マイクによって集音された音量がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの電源がダウンしているか否か判定する
(付記1)乃至(付記3)のうちいずれか1項に記載のサーバシステムの障害監視装置。
(付記5)
前記センサは、前記第1サーバ及び前記第2サーバのCPU又はHDDの温度を計測する温度センサであり、
前記判定手段は、前記温度センサによって計測された温度がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの電源がダウンしているか否かを判定する
(付記1)乃至(付記4)のうちいずれか1項に記載のサーバシステムの障害監視装置。
(付記6)
前記判定手段は、前記第1サーバ及び前記第2サーバの外部に接続された監視装置に設けられる
(付記1)乃至(付記5)のうちいずれか1項に記載のサーバシステムの障害監視装置。
(付記7)
前記判定手段は、
前記第1サーバに設けられ、前記第2サーバの電源がダウンしているか否かを判定する第1判定手段と、
前記第2サーバに設けられ、前記第1サーバの電源がダウンしているか否かを判定する第2判定手段と、を有する
(付記1)乃至(付記5)のうちいずれか1項に記載のサーバシステムの障害監視装置。
(付記8)
前記第1サーバ及び第2サーバ間において互いに送受信される、自己の動作状況を知らせるハートビート信号をモニタするハートビートモニタ手段を更に備え、
前記ハートビートモニタ手段において、前記第1サーバ及び第2サーバの一方の前記ハートビート信号が途切れたことが検出されると、前記センサは、これをトリガとして前記第1サーバ及び第2サーバの一方の前記動作データの取得を開始する
(付記1)乃至(付記7)のうちいずれか1項に記載の障害監視装置。
(付記9)
前記第1サーバ及び第2サーバ間において互いに送受信される、自己の動作状況を知らせるハートビート信号をモニタするハートビートモニタ手段を更に備え、
前記ハートビートモニタ手段によって、前記第1サーバ及び第2サーバの一方の前記ハートビート信号が途切れたことが検出されると、前記判定手段は、これをトリガとして前記第1サーバ及び第2サーバの電源がダウンしているか否か判定を開始する
(付記1)乃至(付記8)のうちいずれか1項に記載のサーバシステムの障害監視装置。
(付記10)
前記第1サーバと第2サーバは、第1経路を介して接続され、
前記センサと前記判定手段は、前記第1経路とは異なる第2経路を介して接続される(付記1)乃至(付記9)に記載の障害監視装置。
(付記11)
互いに接続された第1サーバ及び第2サーバと、
(付記1)乃至(付記10)のうちいずれか1項に記載の障害監視装置と、を備えたサーバシステム。
(付記12)
前記第2サーバは、前記障害監視装置の前記通知システムから、前記第1サーバの電源がダウンしている旨が通知されると、前記第1サーバにおいて実行されていたサービスを引き継ぐ、(付記11)に記載のサーバシステム。
(付記13)
互いに接続された第1サーバ及び第2サーバの静止画及び/又は動画を取得するカメラ、前記第1サーバ及び第2サーバに搭載された機器の動作音を集音するマイク、前記第1サーバ及び第2サーバに搭載された機器の温度を測定する温度センサのうち少なくとも1つのセンサを備えたサーバシステムの障害監視方法であって、
前記センサによって取得された前記サーバの動作データに基づいて、前記第1サーバ及び第2サーバの電源がダウンしているか否かを判定し、
前記第1サーバ及び第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び第2サーバの他方を制御するサーバ制御手段に、前記第1サーバ及び第2サーバの一方の電源がダウンしている旨を通知する、サーバシステムの障害監視方法。
(付記14)
前記第2サーバは、前記第1サーバ及び前記第2サーバの一方の電源がダウンしている旨が通知されると、前記第1サーバ及び第2サーバの一方において実行されていたサービスを引き継ぐ、(付記13)に記載のサーバシステムの障害監視方法。
(付記15)
前記カメラによって取得された、前記第1サーバ及び前記第2サーバの前記パワーランプの点灯状態及び/又は点灯色に基づいて、前記第1サーバ及び前記第2サーバの電源がダウンしているか否か判定する
(付記13)又は(付記14)に記載のサーバシステムの障害監視方法。
(付記16)
前記カメラによって取得された前記第1サーバ及び前記第2サーバの前記LCDの明るさがしきい値以上であるか否かを判定することで、前記第1サーバ及び前記第2サーバの電源がダウンしているか否か判定する
(付記13)乃至(付記15)のうちいずれか1項に記載のサーバシステムの障害監視方法。
(付記17)
前記マイクによって集音された音量がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの電源がダウンしているか否か判定する
(付記13)乃至(付記16)のうちいずれか1項に記載のサーバシステムの障害監視方法。
(付記18)
前記温度センサによって計測された温度がしきい値以上であるか否かを判定することにより、前記第1サーバ及び第2サーバの電源がダウンしているか否かを判定する
(付記13)乃至(付記17)のうちいずれか1項に記載のサーバシステムの障害監視方法。
(付記19)
前記第1サーバ及び第2サーバは、自己の動作状況を知らせるハートビート信号を互いに送受信し、
前記ハートビート信号が途切れたことをトリガとして、前記動作データを取得する
(付記13)乃至(付記18)のうちいずれか1項に記載の障害監視方法。
(付記20)
前記第1サーバ及び第2サーバは、自己の動作状況を知らせるハートビート信号を互いに送受信し、
前記ハートビート信号が途切れたことをトリガとして、前記第1サーバ及び第2サーバの電源がダウンしているか否か判定を開始する
(付記13)乃至(付記19)のうちいずれか1項に記載のサーバシステムの障害監視方法。
(付記21)
互いに接続された第1サーバ及び第2サーバの静止画及び/又は動画を取得するカメラ、前記第1サーバ及び第2サーバに搭載された機器の動作音を集音するマイク、前記第1サーバ及び第2サーバに搭載された機器の温度を測定する温度センサのうち少なくとも1つのセンサを備えたサーバシステムの障害監視方法を実行するためのコンピュータに実行させるためのプログラムであって、
前記センサによって取得された前記サーバの動作データに基づいて、前記第1サーバ及び第2サーバの電源がダウンしているか否かを判定し、
前記第1サーバ及び第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び第2サーバの他方を制御するサーバ制御手段に、前記第1サーバ及び第2サーバの一方の電源がダウンしている旨を通知する、処理をコンピュータに実行させるためのプログラム。
10 障害監視装置
11 センサ
12 判定手段
13 通知手段
20 カメラ
21 監視サーバ
22 制御手段
23 電源制御手段
24 カメラ制御手段
25 画像解析手段
35 ハートビートモニタ手段
26、29、32、101、111 サーバ
27、30、33、102、112 サーバ制御装置
28、31、34 電源装置
103、113 共有ディスク制御装置
104、114 ネットワーク制御装置
105、115 センサ制御装置
109、119 センサ
200 サーバシステム

Claims (7)

  1. 第1サーバ及び第2サーバに搭載された機器の動作音を集音するマイクを備えて、前記第1サーバ及び前記第2サーバの動作データを取得するセンサと、
    前記センサによって取得された前記動作データに基づいて、前記第1サーバ及び前記第2サーバの電源がダウンしているか否かを判定する判定手段と、
    前記判定手段において、前記第1サーバ及び前記第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び前記第2サーバの他方の動作を制御するサーバ制御手段に、前記第1サーバ及び前記第2サーバの一方の電源がダウンしている旨を通知する通知手段と、を備え
    前記判定手段は、前記第1サーバ及び前記第2サーバのファンの音を集音する前記マイクによって集音された音量がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの一方の電源がダウンしているか否か判定する、
    サーバシステムの障害監視装置。
  2. 第1サーバ及び第2サーバに搭載された機器の温度を測定する温度センサを備えて、前記第1サーバ及び前記第2サーバの動作データを取得するセンサと、
    前記センサによって取得された前記動作データに基づいて、前記第1サーバ及び前記第2サーバの電源がダウンしているか否かを判定する判定手段と、
    前記判定手段において、前記第1サーバ及び前記第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び前記第2サーバの他方の動作を制御するサーバ制御手段に、前記第1サーバ及び前記第2サーバの一方の電源がダウンしている旨を通知する通知手段と、を備え
    前記判定手段は、前記第1サーバ及び前記第2サーバのCPU(Central Processing Unit)又はHDD(Hard Disk Drive)の温度を計測する前記温度センサによって計測された温度がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの一方の電源がダウンしているか否かを判定する、
    サーバシステムの障害監視装置。
  3. 互いに接続された第1サーバ及び第2サーバと、
    請求項1又は2に記載の障害監視装置と、を備えた、
    サーバシステム。
  4. 第1サーバ及び第2サーバに搭載された機器の動作音を集音するマイクを備えたサーバシステムの障害監視方法であって、
    前記第1サーバ及び前記第2サーバのファンの音を集音する前記マイクによって集音された音量がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの一方の電源がダウンしているか否か判定し、
    前記第1サーバ及び前記第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び前記第2サーバの他方を制御するサーバ制御手段に、前記第1サーバ及び前記第2サーバの一方の電源がダウンしている旨を通知する、
    サーバシステムの障害監視方法。
  5. 第1サーバ及び第2サーバに搭載された機器の温度を測定する温度センサを備えたサーバシステムの障害監視方法であって、
    前記第1サーバ及び前記第2サーバのCPU(Central Processing Unit)又はHDD(Hard Disk Drive)の温度を計測する前記温度センサによって計測された温度がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの一方の電源がダウンしているか否かを判定し、
    前記第1サーバ及び前記第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び前記第2サーバの他方を制御するサーバ制御手段に、前記第1サーバ及び前記第2サーバの一方の電源がダウンしている旨を通知する、
    サーバシステムの障害監視方法。
  6. 第1サーバ及び第2サーバに搭載された機器の動作音を集音するマイクを備えたサーバシステムの障害監視を実行させるためのプログラムであって、
    前記第1サーバ及び前記第2サーバのファンの音を集音する前記マイクによって集音された音量がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの一方の電源がダウンしているか否か判定し、
    前記第1サーバ及び前記第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び前記第2サーバの他方を制御するサーバ制御手段に、前記第1サーバ及び前記第2サーバの一方の電源がダウンしている旨を通知する処理を実行させる、
    プログラム。
  7. 第1サーバ及び第2サーバに搭載された機器の温度を測定する温度センサを備えたサーバシステムの障害監視を実行させるためのプログラムであって、
    前記第1サーバ及び前記第2サーバのCPU(Central Processing Unit)又はHDD(Hard Disk Drive)の温度を計測する前記温度センサによって計測された温度がしきい値以上であるか否かを判定することにより、前記第1サーバ及び前記第2サーバの一方の電源がダウンしているか否かを判定し、
    前記第1サーバ及び前記第2サーバの一方の電源がダウンしていると判定された場合に、前記第1サーバ及び前記第2サーバの他方を制御するサーバ制御手段に、前記第1サーバ及び前記第2サーバの一方の電源がダウンしている旨を通知する処理を実行させる、
    プログラム。
JP2010031535A 2010-02-16 2010-02-16 サーバシステムの障害監視装置、サーバシステム、及びサーバシステムの障害監視方法 Expired - Fee Related JP5504950B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010031535A JP5504950B2 (ja) 2010-02-16 2010-02-16 サーバシステムの障害監視装置、サーバシステム、及びサーバシステムの障害監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010031535A JP5504950B2 (ja) 2010-02-16 2010-02-16 サーバシステムの障害監視装置、サーバシステム、及びサーバシステムの障害監視方法

Publications (2)

Publication Number Publication Date
JP2011170445A JP2011170445A (ja) 2011-09-01
JP5504950B2 true JP5504950B2 (ja) 2014-05-28

Family

ID=44684538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010031535A Expired - Fee Related JP5504950B2 (ja) 2010-02-16 2010-02-16 サーバシステムの障害監視装置、サーバシステム、及びサーバシステムの障害監視方法

Country Status (1)

Country Link
JP (1) JP5504950B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013073094A1 (ja) * 2011-11-15 2013-05-23 日本電気株式会社 消費電力推定装置、消費電力推定システム、消費電力推定方法および消費電力推定プログラムを格納した非一時的なコンピュータ可読媒体

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3420919B2 (ja) * 1997-09-19 2003-06-30 株式会社日立製作所 情報処理装置
JP2001034495A (ja) * 1999-07-27 2001-02-09 Nec Corp 二重化システム
JP2002169707A (ja) * 2000-11-30 2002-06-14 Nri & Ncc Co Ltd コンピュータ運用管理システム及び運用管理方法
JP3649682B2 (ja) * 2001-08-31 2005-05-18 東京電力株式会社 電子機器携帯用着衣及び着衣装着型電子機器システム
JP2003208338A (ja) * 2002-01-10 2003-07-25 Canon Inc 統合監視システム
JP2005309939A (ja) * 2004-04-23 2005-11-04 Seiko Epson Corp 異常判定装置およびこれに用いるプログラム
JP4850819B2 (ja) * 2007-12-06 2012-01-11 富士通コンポーネント株式会社 Kvmシステム
JP2009199246A (ja) * 2008-02-20 2009-09-03 Toshiba Corp ノード稼働監視システムおよびノード稼働監視方法
JP4701297B2 (ja) * 2009-04-07 2011-06-15 キヤノン株式会社 画像処理装置、方法および記録媒体

Also Published As

Publication number Publication date
JP2011170445A (ja) 2011-09-01

Similar Documents

Publication Publication Date Title
JP2004088561A (ja) 画像バックアップシステム
JP5234115B2 (ja) 情報処理装置,処理部切換方法及び処理部切換プログラム
JP6179101B2 (ja) 管理装置、管理方法、および管理プログラム
US11307624B2 (en) System and method of remote power/power over Ethernet (POE) device controls
JPWO2015104841A1 (ja) 多重系システムおよび多重系システム管理方法
JP2010218510A (ja) 状態監視システムおよび状態監視方法
JP5504950B2 (ja) サーバシステムの障害監視装置、サーバシステム、及びサーバシステムの障害監視方法
JP2012128573A (ja) 二重化システムおよびそのシステムを用いたビル管理システム
JP2007017534A (ja) システム監視装置
KR20160020748A (ko) Cctv 관리 시스템
JP2022052504A (ja) Bmc、サーバシステム、装置安定度判定方法及びプログラム
JP2008225567A (ja) 情報処理システム
WO2015194651A1 (ja) 障害通知装置、障害通知方法及びプログラム
JP5241870B2 (ja) 画像記録装置の故障監視装置
JP2011215841A (ja) 警備システム
JP4194602B2 (ja) 無停電電源装置、コンピュータシステム、および無停電電源装置によるコンピュータの起動段階監視方法
JP2010198410A (ja) サーバ故障予測システム
JP7303083B2 (ja) 動作監視装置、動作監視方法、動作監視プログラム及び動作監視システム
JP5082901B2 (ja) 車載通信システムおよび車載通信制御方法
JP2006171995A (ja) 制御用計算機
JP2008017070A (ja) ネットワーク装置及びそれに用いる冗長切替え方法並びにそのプログラム
JP2008293441A (ja) 機器障害予測方法及び機器障害予測装置
JP2016151862A (ja) 撮像装置、監視システム、およびプログラム
JP3819354B2 (ja) 無停電電源装置、並びに、無停電電源装置を利用したコンピュータシステムおよびコンピュータの起動段階監視方法
JP5526486B2 (ja) 処理装置切替装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140303

R150 Certificate of patent or registration of utility model

Ref document number: 5504950

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees