JP2013218687A - サーバー監視システム及びその方法 - Google Patents

サーバー監視システム及びその方法 Download PDF

Info

Publication number
JP2013218687A
JP2013218687A JP2013079328A JP2013079328A JP2013218687A JP 2013218687 A JP2013218687 A JP 2013218687A JP 2013079328 A JP2013079328 A JP 2013079328A JP 2013079328 A JP2013079328 A JP 2013079328A JP 2013218687 A JP2013218687 A JP 2013218687A
Authority
JP
Japan
Prior art keywords
server
monitoring program
cluster
module
remote computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013079328A
Other languages
English (en)
Inventor
Chung-Il Yi
忠一 李
秋樺 ▲ロ▼
Chiu-Hua Lu
Jian Fa Xie
建發 葉
Tsung-Hsin Gan
宗信 顔
Kenji Hayashi
建志 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hon Hai Precision Industry Co Ltd
Original Assignee
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Precision Industry Co Ltd filed Critical Hon Hai Precision Industry Co Ltd
Publication of JP2013218687A publication Critical patent/JP2013218687A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Abstract

【課題】運用に便利であるサーバーの監視システム及びその方法を提供する。
【解決手段】サーバーの監視システムは、設定ファイルと監視プログラムを設定する設定モジュールと、DHCPサービスを介してIPアドレスをデータセンターの各サーバーに配信して、各サーバーと通信する配信モジュールと、設定されているサーバーの名称に基づいて、設定ファイル及び監視プログラムをサーバーに送信した後、監視プログラムを実行してサーバークラスタを確立する送信モジュールと、サーバーの実行パラメータを獲得する獲得モジュールと、実行パラメータに基づいて故障されたサーバーがあるかどうかを判断する判断モジュールと、故障されたサーバーで実行された仮想マシンに対応するイメージファイルを検索する検索モジュールと、を備える。送信モジュールは、検索されたイメージファイルを他のサーバーに送信して仮想マシンを再度インストールする。
【選択図】図2

Description

本発明は、仮想マシンの制御システム及びその方法に関するものであり、特にサーバー監視システム及びその方法に関するものである。
仮想マシン(Virtual Machine、VM)とは、ソフトウェアを介して、エミュレートするもので、完全なハードウェアのシステム機能を持つ。サーバーに仮想マシンを設置することにより、1つのコンピュータ上で一台又は複数台のサーバーをエミュレートする(即ち、前記仮想マシンに複数のオペレーティングシステム(Operating System)をインストールする)ことができ、同じコンピュータ上で独立して実行される。しかし、コンピュータに異常(例えば、クラッシュ)が発生すると、仮想マシンは、動作を停止するため、この場合、仮想マシンを再度インストールする必要がある。一般的には、仮想マシンを手作業によって再度インストールするため、運用が面倒であるだけでなく、効率も悪い。
以上の問題点に鑑みて、本発明は、使用に便利であるサーバー監視システム及びその方法を提供することを目的とする。
本発明に係るサーバーの監視システムは、リモートコンピュータに設定ファイルと監視プログラムを設定する設定モジュールと、前記リモートコンピュータのDHCPサービスを介して、IPアドレスをデータセンターのサーバーに配信して、各サーバーと通信する配信モジュールと、設定ファイルに設定されたサーバーの名称に基づいて、前記設定ファイル及び前記監視プログラムをサーバーに送信し、前記設定ファイル及び前記監視プログラムを受信したサーバー内で前記監視プログラムを実行することによって、サーバークラスタを確立する送信モジュールと、前記監視プログラムによって、前記サーバークラスタのサーバーの実行パラメータを獲得する獲得モジュールと、獲得されたサーバークラスタのサーバーの実行パラメータに基づいて、前記サーバークラスタの中で、故障されたサーバーがあるかどうかを判断する判断モジュールと、前記リモートコンピュータ中において、故障されたサーバーで実行された仮想マシンに対応するイメージファイルを検索する検索モジュールと、を備え、前記送信モジュールは、検索されたイメージファイルを前記サーバークラスタの他のサーバーに送信し、前記サーバークラスタの他のサーバーに仮想マシンを再度インストールする。
また、本発明に係るサーバーの監視方法は、リモートコンピュータに設定ファイルと監視プログラムを設定するステップと、前記リモートコンピュータのDHCPサービスを介して、IPアドレスをデータセンターのサーバーに配信して、各サーバーと通信するステップと、設定ファイルに設定されたサーバーの名称に基づいて、前記設定ファイル及び前記監視プログラムをサーバーに送信し、前記設定ファイル及び前記監視プログラムを受信したサーバー内で前記監視プログラムを実行することによって、サーバークラスタを確立するステップと、前記監視プログラムによって、前記サーバークラスタのサーバーの実行パラメータを獲得するステップと、獲得されたサーバークラスタのサーバーの実行パラメータに基づいて、前記サーバークラスタの中で、故障されたサーバーがあるかどうかを判断するステップと、前記リモートコンピュータ中において、故障されたサーバーで実行された仮想マシンに対応するイメージファイルを検索するステップと、検索されたイメージファイルを前記サーバークラスタの他のサーバーに送信し、前記サーバークラスタの他のサーバーに仮想マシンを再度インストールするステップと、を備える。
従来の技術に比べて、本発明のサーバーの監視システム及びその方法は、データセンターのあるサーバーが実行の故障を送信すると、当該サーバーの仮想マシンを他のサーバーにインストールするため、使用に便利であり、仮想マシンの利用率を向上させるとともに、ユーザーの待ち時間も大幅に短縮される。
本発明の実施形態に係るサーバーの監視システムの応用環境を示す図である。 本発明の実施形態に係る監視コンピュータのブロック図である。 本発明の実施形態に係るサーバーの監視方法のフローチャートである。
以下、図面を参照して、本発明の実施形態について説明する。
図1は、本発明の実施形態に係るサーバーの監視システムの応用環境を示す図である。サーバー監視システム200は、リモートコンピュータ20に応用される。リモートコンピュータ20とデータセンター50とは、インターネット40によって通信して接続される。また、インターネット40は、ネットワーク、ローカルエリアネットワーク又は通信ネットワークであることができる。
データセンター50は、複数のサーバー500(本実施形態において、四つを例とする)を備え、サーバー500はブレードサーバーである。本実施形態において、サーバー500は、ホストコンピュータである。各ホストコンピュータには、1つ又は複数の仮想マシンがインストールされる。仮想マシンを効果的に管理するために、各ホストコンピュータには、ハイパーバイザ(Hypervisor)がインストールされる。このハイパーバイザは、サーバー500とサーバー500のオペレーティングシステムとの間で実行されるソフトウェア層であり、複数のオペレーティングシステムは、サーバー500のハードウェアを共有することができる。ハイパーバイザは、サーバー500内の、例えば、CPU、磁気ディスク、内部メモリーなどの全てのハードウェアにアクセスすることができる。サーバー500を起動してハイパーバイザを実行すると、ハイパーバイザは、各仮想マシンに適量のCPU、磁気ディスク、内部メモリーなどのリソースをそれぞれ分配して、仮想マシンの実行を確保する。
リモートコンピュータ20は、データセンター50のサーバー500の実行状態を監視するために用いられる。1つのサーバー500が実行される過程において故障(例えば、電源の故障、ハードウェアの損傷)した場合、直ちに該サーバー500の1つ又は複数の仮想マシンを他のサーバー500にインストールする。これにより、サーバー500にインストールされた仮想マシンは、他のサーバー500において実行し続けることができる。具体的には、リモートコンピュータ20には、各サーバー500の仮想マシンに対応するイメージファイルが記憶されている。例えば、あるサーバーAでは、三つの仮想マシンが実行され、リモートコンピュータ20には三つのイメージファイルが記憶され、ユーザーがこの三つのイメージファイルをサーバー500に送信することによって仮想マシンをインストールすることができる。
リモートコンピュータ20には、さらに、DHCP(Dynamic Host Configuration Protocol)サービスがインストールされ、このDHCPサービスによって、ネットワーク間において互いに接続されたインターネットプロトコル(Internet Protocol,IP)アドレスを配信して、データセンター50のサーバー500に提供する。これにより、リモートコンピュータ20をデータセンター50のサーバー500と通信させることができる。リモートコンピュータ20は、パーソナルコンピュータ又は他のコンピュータであっても良い。さらに、リモートコンピュータ20は、データセンター50の内部に設置することもでき、ユーザーは、クライアント10を操作することによってサーバー500に対して監視することができる。
リモートコンピュータ20は、データベースコネクティビティによって、データベース30に接続される。該データベースコネクティビティは、オープンデータベースコネクティビティ(Open Database Connectivity,ODBC)又はJava(登録商標)データベースコネクティビティ(Java Database Connectivity,JDBC)であることができる。データベース30は、データセンター50から伝送されたデータを記憶するために用いられる。前記データは、データセンター50におけるサーバー500の実行パラメータを含む。
また、本発明において、データベース30は、リモートコンピュータ20の外部に単独で設置する或いはリモートコンピュータ20の内部に設置することができる。また、データベース30は、リモートコンピュータ20のハードディスク又はフラッシュディスクに記憶される。本実施形態において、システムの安全性を確保するために、データベース30は、リモートコンピュータ20の外部に単独で設置される。
また、クライアント10は、インタラクティブなインターフェイスを提供するため、ユーザーに対して便利な操作をもたらし、並びに、操作する過程において、各種のデータは、リモートコンピュータ20に記憶される。この時、クライアント10は、パーソナルコンピュータ、ノートブック及びその他任意のリモートコンピュータ20に接続できる設備又はシステムであることができる。
図2を参照すると、リモートコンピュータ20は、サーバー監視システム200と、ストレージシステム270と、プロセッサ280と、を備える。サーバー監視システム200は、設定モジュール210と、配信モジュール220と、送信モジュール230と、獲得モジュール240と、判断モジュール250と、検索モジュール260と、を備える。設定モジュール210から検索モジュール260までのコンピュータ化されたコードは、ストレージシステム270内に記憶される。プロセッサ280は、これらコンピュータ化されたコードを実行して、サーバーの監視システム200によって提供された機能を達成する。
設定モジュール210は、リモートコンピュータ20に設定ファイルと監視プログラムを設定する。この設定ファイルは、サーバー500の数量及び名称を含む。通常、設定ファイルにおける少なくとも2つのサーバー500の名称を設定する。本実施形態において、設定ファイル上に、四つのサーバー500の名称を設定する。前記監視プログラムは、サーバー500におけるハイパーバイザの情報を獲得して、サーバー500が故障して、停止しているかどうかを判断する。具体的には、監視プログラムは、定期的にハイパーバイザからサーバー500の電源データを獲得する。電源データがゼロである場合、サーバー500は、故障していることを意味する。
配信モジュール220は、リモートコンピュータ20の中のDHCPサービスを介して、IPアドレスをデータセンター50のサーバー500に配信して、各サーバー500と通信する。具体的には、図1を参照すると、データセンター50は、四つのサーバー500を含み、DHCPサービスによって、各サーバー500にIPアドレスをそれぞれ配信する。
送信モジュール230は、設定ファイルに設定されたサーバー500の名称に基づいて、設定ファイル及び監視プログラムをサーバー500に送信し、設定ファイル及び監視プログラムを受信したサーバー500内で監視プログラムを実行することによって、サーバークラスタを確立する。具体的には、設定ファイルには、四つのサーバー500の名称が設定されており、この四つのサーバー500に設定ファイル及び監視プログラムを送信した後、プログラムを実行して、四つのサーバー500の間を互いに通信させる。これにより、サーバークラスタを確立する。
獲得モジュール240は、前記監視プログラムによって、サーバークラスタのサーバー500の実行パラメータを獲得する。この実行パラメータは、サーバー500の電源データである。具体的には、サーバークラスタにインストールされた各サーバー500の監視プログラムは、ハイパーバイザからサーバー500の電源データを獲得し、該獲得した電源データをリモートコンピュータ20の監視プログラムに送信する。リモートコンピュータ20の演算量を軽減するために、サーバークラスタから1つのサーバー500を選択してリモートコンピュータ20と通信する。サーバークラスタ中の各サーバー500同士は、互いに通信することができるため、選択されたサーバー500は、他のサーバーの実行パラメータを獲得した後、全てのサーバー500の実行パラメータをリモートコンピュータ20に送信することができる。
判断モジュール250は、獲得されたサーバークラスタのサーバー500の実行パラメータに基づいて、サーバークラスタの中で、故障されたサーバー500があるかどうかを判断する。具体的には、電源データがゼロであるサーバー500があるかどうかを判断する。判断モジュール250が、電源データがゼロであるサーバー500があると判断した場合、該サーバー500は故障していることを意味する。
検索モジュール260は、リモートコンピュータ20中において、故障されたサーバー500で実行された仮想マシンに対応するイメージファイルを検索する。具体的には、例えば、サーバーAが故障された際、このサーバーA上では、三つの仮想マシンが実行されており、この三つの仮想マシンの番号に基づいて、リモートコンピュータ20から三つの仮想マシンに対応するイメージファイルを検索する。
送信モジュール230は、検索されたイメージファイルをサーバークラスタの他のサーバー500に送信し、サーバークラスタの他のサーバー500に仮想マシンを再度インストールする。具体的には、三つの仮想マシンに対応するイメージファイルをサーバークラスタの他のサーバー500に送信した後、この三つの仮想マシンを再度インストールする。これにより、三つの仮想マシンの実行を確保する。説明する必要があることは、他のサーバー500に仮想マシンを再度インストールする前に、他のサーバー500のリソース利用率(例えば、CPU、内部メモリー等のリソースの利用率を含む)は検出されており、リソース利用率が最低であるサーバー500においてインストールする。これにより、サーバー500のリソースが合理的に分配され、データセンター50の中のサーバー500の利用率を向上させることができる。
図3を参照すると、サーバーの監視方法は、以下のステップを含む。
ステップS10:設定モジュール210は、リモートコンピュータ20に設定ファイルと監視プログラムを設定する。この設定ファイルは、サーバー500の数量及び名称を含む。通常、設定ファイル上に、少なくとも2つのサーバー500の名称を設定する。本実施形態において、設定ファイルに四つのサーバー500の名称を設定する。前記監視プログラムは、サーバー500におけるハイパーバイザの情報を獲得して、サーバー500が故障して、停止しているかどうかを判断する。具体的には、監視プログラムは、定期的にハイパーバイザからサーバー500の電源データを獲得する。電源データがゼロである場合、サーバー500は、故障していることを意味する。
ステップS20:配信モジュール220は、リモートコンピュータ20の中のDHCPサービスを介して、IPアドレスをデータセンター50のサーバー500に配信して、各サーバー500と通信する。具体的には、図1を参照すると、データセンター50は、四つのサーバー500を含み、DHCPサービスによって、各サーバー500にIPアドレスをそれぞれ配信する。
ステップS30:送信モジュール230は、設定ファイル中に設定されたサーバー500の名称に基づいて、設定ファイル及び監視プログラムをサーバー500に送信し、設定ファイル及び監視プログラムを受信したサーバー500内で監視プログラムを実行することによって、サーバークラスタが確立される。具体的には、設定ファイルには、四つのサーバー500の名称が設定されており、この四つのサーバー500に設定ファイル及び監視プログラムを送信した後、プログラムを実行して、四つのサーバー500間を互いに通信させる。これにより、サーバークラスタを確立する。
ステップS40:獲得モジュール240は、監視プログラムによってサーバークラスタのサーバー500の実行パラメータを獲得する。この実行パラメータは、サーバー500の電源データである。具体的には、サーバークラスタにインストールされた各サーバー500の監視プログラムは、ハイパーバイザからサーバー500の電源データを獲得し、該獲得した電源データをリモートコンピュータ20の監視プログラムに送信する。リモートコンピュータ20の演算量を軽減するために、サーバークラスタから1つのサーバー500を選択してリモートコンピュータ20と通信する。サーバークラスタ中の各サーバー500同士は、互いに通信することができるため、選択されたサーバー500は、他のサーバーの実行パラメータを獲得した後、全てのサーバー500の実行パラメータをリモートコンピュータ20に送信することができる。
ステップS50:判断モジュール250は、獲得されたサーバークラスタのサーバー500の実行パラメータに基づいて、サーバークラスタの中で、故障されたサーバー500があるかどうかを判断する。
具体的には、判断モジュール250は、電源データがゼロであるサーバー500があるかどうかを判断する。判断モジュール250が、電源データがゼロであるサーバー500があると判断した場合、ステップS60を実行し、電源データがゼロであるサーバー500はないと判断した場合ステップS40に戻る。
ステップS60:検索モジュール260は、リモートコンピュータ20中において、故障されたサーバー500で実行された仮想マシンに対応するイメージファイルを検索する。具体的には、例えば、サーバーAが故障された際、このサーバーA上では、三つの仮想マシンが実行されており、この三つの仮想マシンの番号に基づいて、リモートコンピュータ20から三つの仮想マシンに対応するイメージファイルを検索する。
ステップS70:送信モジュール230は、検索されたイメージファイルをサーバークラスタの他のサーバー500に送信し、サーバークラスタ中の他のサーバー500に仮想マシンを再度インストールする。具体的には、三つの仮想マシンに対応するイメージファイルをサーバークラスタの他のサーバー500に送信した後、この他のサーバー500上で三つの仮想マシンを再度インストールする。これにより、三つの仮想マシンの実行を確保する。説明する必要があることは、他のサーバー500に前記三つの仮想マシンを再度インストールする前に、他のサーバー500のリソース利用率(例えば、CPU、内部メモリー等のリソースの利用率を含む)は検出されており、リソース利用率が最低であるサーバー500においてインストールする。これにより、サーバー500のリソースは合理的に分配され、データセンター50の中のサーバー500の利用率を向上させることができる。
以上、本発明を実施形態に基づいて具体的に説明したが、本発明は、上述の実施形態に限定されるものではなく、その要旨を逸脱しない範囲において、種々の変更が可能であることは勿論であって、本発明の保護範囲は、添付の特許請求の範囲によって決まる。
10 クライアント
20 リモートコンピュータ
30 データベース
40 インターネット
50 データセンター
200 サーバー監視システム
210 設定モジュール
220 配信モジュール
230 送信モジュール
240 獲得モジュール
250 判断モジュール
260 検索モジュール
270 ストレージシステム
280 プロセッサ
500 サーバー

Claims (6)

  1. リモートコンピュータに設定ファイルと監視プログラムを設定する設定モジュールと、
    前記リモートコンピュータのDHCPサービスを介して、IPアドレスをデータセンターの各サーバーに配信して、各サーバーと通信する配信モジュールと、
    前記設定ファイルに設定されているサーバーの名称に基づいて、前記設定ファイル及び前記監視プログラムをサーバーに送信し、前記設定ファイル及び前記監視プログラムを受信したサーバー内で前記監視プログラムを実行することによって、サーバークラスタを確立する送信モジュールと、
    前記監視プログラムによって、前記サーバークラスタのサーバーの実行パラメータを獲得する獲得モジュールと、
    獲得されたサーバークラスタのサーバーの実行パラメータに基づいて、前記サーバークラスタの中で、故障されたサーバーがあるかどうかを判断する判断モジュールと、
    前記リモートコンピュータ中において、故障されたサーバーで実行されている仮想マシンに対応するイメージファイルを検索する検索モジュールと、
    を備え、
    前記送信モジュールは、検索されたイメージファイルを前記サーバークラスタの他のサーバーに送信し、前記サーバークラスタの他のサーバーに仮想マシンを再度インストールすることを特徴とするサーバーの監視システム。
  2. 前記サーバークラスタ中の各サーバー同士は、互いに通信可能であることを特徴とする請求項1に記載のサーバーの監視システム。
  3. 前記サーバークラスタには、ハイパーバイザがインストールされることを特徴とする請求項1又は2に記載のサーバーの監視システム。
  4. 前記実行パラメータは、電源データであることを特徴とする請求項1から3のいずれか1項に記載のサーバーの監視システム。
  5. サーバーが故障するとは、サーバーの電源データがゼロであることを特徴とする請求項1から4のいずれか1項に記載のサーバーの監視システム。
  6. リモートコンピュータに設定ファイルと監視プログラムを設定するステップと、
    前記リモートコンピュータのDHCPサービスを介して、IPアドレスをデータセンターの各サーバーに配信して、各サーバーと通信するステップと、
    前記設定ファイルに設定されているサーバーの名称に基づいて、前記設定ファイル及び前記監視プログラムをサーバーに送信し、前記設定ファイル及び前記監視プログラムを受信したサーバー内で前記監視プログラムを実行することによって、サーバークラスタを確立するステップと、
    前記監視プログラムによって、前記サーバークラスタのサーバーの実行パラメータを獲得するステップと、
    獲得されたサーバークラスタのサーバーの実行パラメータに基づいて、前記サーバークラスタの中で、故障されたサーバーがあるかどうかを判断するステップと、
    前記リモートコンピュータ中において、故障されたサーバーで実行されている仮想マシンに対応するイメージファイルを検索するステップと、
    検索されたイメージファイルを前記サーバークラスタの他のサーバーに送信し、前記サーバークラスタの他のサーバーに仮想マシンを再度インストールするステップと、
    を有することを特徴とするサーバーの監視方法。
JP2013079328A 2012-04-09 2013-04-05 サーバー監視システム及びその方法 Pending JP2013218687A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210100903.8 2012-04-09
CN2012101009038A CN103368785A (zh) 2012-04-09 2012-04-09 服务器运行监测系统及方法

Publications (1)

Publication Number Publication Date
JP2013218687A true JP2013218687A (ja) 2013-10-24

Family

ID=49293278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013079328A Pending JP2013218687A (ja) 2012-04-09 2013-04-05 サーバー監視システム及びその方法

Country Status (4)

Country Link
US (1) US20130268805A1 (ja)
JP (1) JP2013218687A (ja)
CN (1) CN103368785A (ja)
TW (1) TW201342046A (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336118B2 (en) * 2013-01-28 2016-05-10 Hewlett Packard Enterprise Development Lp Allocating test capacity from cloud systems
CN103995731B (zh) * 2014-05-09 2018-01-02 华为技术有限公司 一种管理中心部署方法和虚拟装置
CN104348683A (zh) * 2014-10-28 2015-02-11 北京奇虎科技有限公司 一种信息提供方法及装置
CN104484231A (zh) * 2014-12-31 2015-04-01 武汉邮电科学研究院 虚拟机切换系统及切换方法
CN104794039B (zh) * 2015-04-23 2018-11-16 努比亚技术有限公司 服务软件的远程监测方法和装置
FR3040805B1 (fr) * 2015-09-09 2018-03-02 Rizze Procede automatique de mise en place et maintenance de services de haute disponibilite dans un systeme d'exploitation en nuage
CN108304396A (zh) * 2017-01-11 2018-07-20 北京京东尚科信息技术有限公司 数据存储方法和装置
CN108228430A (zh) * 2017-12-13 2018-06-29 山东浪潮云服务信息科技有限公司 一种服务器监控方法及装置
US11334410B1 (en) * 2019-07-22 2022-05-17 Intuit Inc. Determining aberrant members of a homogenous cluster of systems using external monitors
CN112887355B (zh) * 2019-11-29 2022-09-27 北京百度网讯科技有限公司 异常服务器的业务处理方法及装置
CN111404807B (zh) * 2020-03-25 2023-07-28 论客科技(广州)有限公司 一种邮件服务器自动切换方法、装置及存储介质
CN112306802A (zh) * 2020-10-29 2021-02-02 平安科技(深圳)有限公司 系统的数据获取方法、装置、介质和电子设备
US11966280B2 (en) 2022-03-17 2024-04-23 Walmart Apollo, Llc Methods and apparatus for datacenter monitoring
CN115766715B (zh) * 2022-10-28 2024-01-30 北京志凌海纳科技有限公司 一种超融合集群监控方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008293117A (ja) * 2007-05-22 2008-12-04 Hitachi Ltd 仮想計算機の性能監視方法及びその方法を用いた装置
WO2009098909A1 (ja) * 2008-02-04 2009-08-13 Nec Corporation 仮想アプライアンス配備システム
WO2010140183A1 (ja) * 2009-06-01 2010-12-09 富士通株式会社 サーバ管理プログラム、管理サーバ、仮想サーバ配置方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7908605B1 (en) * 2005-01-28 2011-03-15 Hewlett-Packard Development Company, L.P. Hierarchal control system for controlling the allocation of computer resources
CN101155024A (zh) * 2006-09-29 2008-04-02 湖南大学 分簇结构传感器网络的有效密钥管理方法及其运行方法
US20100228819A1 (en) * 2009-03-05 2010-09-09 Yottaa Inc System and method for performance acceleration, data protection, disaster recovery and on-demand scaling of computer applications
CN101938368A (zh) * 2009-06-30 2011-01-05 国际商业机器公司 刀片服务器系统中的虚拟机管理器和虚拟机处理方法
CN101695077A (zh) * 2009-09-30 2010-04-14 曙光信息产业(北京)有限公司 一种虚拟机的操作系统部署方法、系统及设备
CN101877043A (zh) * 2009-11-30 2010-11-03 英业达股份有限公司 虚拟机的应用程序的管理系统与其方法
CN102214117B (zh) * 2010-04-07 2014-06-18 中兴通讯股份有限公司南京分公司 虚拟机管理方法、系统及虚拟机管理服务器
US8719804B2 (en) * 2010-05-05 2014-05-06 Microsoft Corporation Managing runtime execution of applications on cloud computing systems
US8769102B1 (en) * 2010-05-21 2014-07-01 Google Inc. Virtual testing environments
US8751656B2 (en) * 2010-10-20 2014-06-10 Microsoft Corporation Machine manager for deploying and managing machines

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008293117A (ja) * 2007-05-22 2008-12-04 Hitachi Ltd 仮想計算機の性能監視方法及びその方法を用いた装置
WO2009098909A1 (ja) * 2008-02-04 2009-08-13 Nec Corporation 仮想アプライアンス配備システム
WO2010140183A1 (ja) * 2009-06-01 2010-12-09 富士通株式会社 サーバ管理プログラム、管理サーバ、仮想サーバ配置方法

Also Published As

Publication number Publication date
US20130268805A1 (en) 2013-10-10
TW201342046A (zh) 2013-10-16
CN103368785A (zh) 2013-10-23

Similar Documents

Publication Publication Date Title
JP2013218687A (ja) サーバー監視システム及びその方法
US10353728B2 (en) Method, system and device for managing virtual machine software in cloud environment
CN106789362B (zh) 一种设备管理方法及网管系统
US8769040B2 (en) Service providing system, a virtual machine server, a service providing method, and a program thereof
US7716373B2 (en) Method, apparatus, and computer product for updating software
WO2019184164A1 (zh) 自动部署Kubernetes从节点的方法、装置、终端设备及可读存储介质
US8290998B2 (en) Systems and methods for generating cloud computing landscapes
US9021005B2 (en) System and method to provide remote device management for mobile virtualized platforms
US9311163B2 (en) Configuration data management system, and configuration data management method
US11121906B2 (en) Data plane API in a distributed computing network
US20140067917A1 (en) Daas manager and daas client for daas system
US20150195128A1 (en) Apparatus and method for supporting configuration management of virtual machine, and apparatus and method for brokering cloud service using the configuration management supporting apparatus
JP2012252703A (ja) 仮想マシン監視システム及びその監視方法
JP2016103144A (ja) 仮想マシン配備方法、仮想マシン配備プログラム及び仮想マシン配備システム
CN103905232A (zh) 虚拟机管理系统及方法
CN102811141A (zh) 虚拟机运行监测系统及方法
US11349721B2 (en) Discovering switch port locations and internet protocol addresses of compute nodes
JP2015158773A (ja) 仮想装置の動作検証装置,仮想装置の動作検証システム及びプログラム
CN106209445B (zh) 一种通过网络部署的虚拟化数据中心
CN103164277A (zh) 动态资源规划分配系统及方法
JPWO2013160983A1 (ja) 情報取得方法、計算機システム及び管理計算機
CN112948008A (zh) 一种基于Ironic管理物理裸机的方法
US20160373523A1 (en) Profile management method and apparatus for running of virtual desktop in heterogeneous server
CN103064740A (zh) 客户操作系统预测迁移系统及方法
JP2017027166A (ja) 運用管理装置、運用管理プログラムおよび情報処理システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140507

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141014