JP2017084333A - 仮想マシンクラスタの監視方法及びシステム - Google Patents

仮想マシンクラスタの監視方法及びシステム Download PDF

Info

Publication number
JP2017084333A
JP2017084333A JP2016160156A JP2016160156A JP2017084333A JP 2017084333 A JP2017084333 A JP 2017084333A JP 2016160156 A JP2016160156 A JP 2016160156A JP 2016160156 A JP2016160156 A JP 2016160156A JP 2017084333 A JP2017084333 A JP 2017084333A
Authority
JP
Japan
Prior art keywords
virtual machine
failed
reset
cluster
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016160156A
Other languages
English (en)
Other versions
JP6285511B2 (ja
Inventor
フー リュウ
Hu Liu
フー リュウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2017084333A publication Critical patent/JP2017084333A/ja
Application granted granted Critical
Publication of JP6285511B2 publication Critical patent/JP6285511B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • G06F11/1662Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit the resynchronized component or unit being a persistent storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/85Active fault masking without idle spares

Abstract

【課題】仮想を監視し、仮想マシンが故障する場合に自動的に回復させ、仮想マシンクラスタの可用性を向上させると共に、サービスの中断時間を減少させる。【解決手段】第1の物理マシンが、第1の所定時間毎に仮想マシンクラスタにおける仮想マシンに状態パラメータ問い合わせコマンドを送信するステップ201と、仮想マシンが、問い合わせコマンドを受信したことに応答して第1の物理マシンに応答情報を送信するステップ202と、第1の物理マシンが、応答情報が第2の所定時間にわたって中断することに応答して仮想マシンが故障したと判断すると共に、故障した仮想マシンが予め設定されたリセット条件を満たすか否かを判断し、条件を満たす場合に、故障した仮想マシンを実行する第2の物理マシンにリセットコマンドを送信するステップ203と、第2の物理マシンが、リセットコマンドに基づいて故障した仮想マシンをリセットするステップ204と、を含む。【選択図】図2

Description

本発明はコンピュータの技術分野に関し、具体的にコンピュータネットワークの技術分野に関し、特に仮想マシンクラスタの監視方法及びシステムに関する。
現在のインターネットの急速な発展に伴って、仮想化とビッグデータ処理はますます業界に重視され、両者の組み合わせは、現在業界の研究の人気のある方向となっている。仮想化環境にビッグデータ処理対策を配置して実行することによって、システムリソースの使用率と設定の柔軟性を大幅に向上させることができる。しかしながら、物理環境に対して、仮想環境はより高い不確実性が存在し、システムの高可用性が特に重要である。
従来の技術において、仮想システムの高可用性を保持するために、通常、仮想マシンの物理ホストマシンを監視して、ホストマシンが故障するか否かを判断する。
しかし、上記した仮想マシンの物理ホストマシンを監視する方法は、ホストマシンが故障した時に維持管理スタッフが手動で物理ホストマシンにおけるすべての仮想マシンを修復する必要があり、手間がかかり、且つ長時間のサービス中断を引き起こし、ユーザーに損失をもたらす。
本発明は、仮想マシンクラスタの監視方法及びシステムを提供して、以上の背景技術に言及された技術的課題を解決することを目的とする。
第1の態様において、本発明は仮想マシンクラスタの監視方法を提供し、この方法は、第1の物理マシンが第1の所定時間毎に仮想マシンクラスタにおける仮想マシンに仮想マシン状態パラメータ問い合わせコマンドを送信するステップと、仮想マシンが問い合わせコマンドを受信したことに応答し、第1の物理マシンに応答情報を送信するステップと、第1の物理マシンが、応答情報が第2の所定時間にわたって中断することに応答して、仮想マシンが故障したと判断し、故障した仮想マシンが予め設定されたリセット条件を満たすか否かを判断し、故障した仮想マシンが予め設定されたリセット条件を満たす場合に、故障した仮想マシンを実行する第2の物理マシンに仮想マシンリセットコマンドを送信するステップと、第2の物理マシンが仮想マシンリセットコマンドに基づいて、故障した仮想マシンをリセットするステップと、を含む。
第2の態様において、本発明は仮想マシンクラスタの監視システムを提供し、このシステムは、第1の所定時間毎に仮想マシンクラスタにおける仮想マシンに仮想マシン状態パラメータ問い合わせコマンドを送信し、応答情報が第2の所定時間にわたって中断することに応答し、仮想マシンが故障したと判断し、故障した仮想マシンが予め設定されたリセット条件を満たすか否かを判断し、故障した仮想マシンが予め設定されたリセット条件を満たす場合に、故障した仮想マシンを実行する第2の物理マシンに仮想マシンリセットコマンドを送信する第1の物理マシンと、問い合わせコマンドを受信したことに応答し、第1の物理マシンに応答情報を送信する仮想マシンと、仮想マシンリセットコマンドに基づいて、故障した仮想マシンをリセットする第2の物理マシンとを備える。
本発明に係る仮想マシンクラスタの監視方法及びシステムにおいて、第1の物理マシンが第1の所定時間毎に仮想マシンクラスタにおける仮想マシンに仮想マシン状態パラメータ問い合わせコマンドを送信し、次に仮想マシンが問い合わせコマンドを受信したことに応答し、第1の物理マシンに応答情報を送信し、その後、第1の物理マシンが、応答情報が第2の所定時間にわたって中断することに応答して、仮想マシンが故障したと判断し、故障した仮想マシンが予め設定されたリセット条件を満たすか否かを判断し、故障した仮想マシンが予め設定されたリセット条件を満たす場合に、故障した仮想マシンを実行する第2の物理マシンに仮想マシンリセットコマンドを送信し、最後に第2の物理マシンが仮想マシンリセットコマンドに基づいて、故障した仮想マシンをリセットする。当該方法及びシステムは、仮想マシンに対する監視を実現でき、仮想マシンが故障する時に自動的に回復でき、仮想マシンクラスタの可用性を向上させ、サービスの中断時間を減少させる。
以下、図面を参照しながら非限定的な実施例を詳細に説明することにより、本発明の他の特徴、目的、および利点は、より明らかになる。
本願を適用できる例示的なシステムアーキテクチャ図である。 本発明の実施例に係る仮想マシンクラスタの監視方法を示す1つの模式的フローチャートである。 本発明の実施例に係る仮想マシンクラスタの監視方法を示す別の模式的フローチャートである。 本発明の実施例に係る仮想マシンクラスタの監視方法を示す第3の模式的フローチャートである。 本発明の実施例に係る仮想マシンが管理ノードであることを示す回復フローチャートである。 本発明の実施例に係る仮想マシンが計算ノードであることを示す回復フローチャートである。 本発明の実施例に係る仮想マシンクラスタの監視方法を示す第4の模式的フローチャートである。 ユーザーが本発明の実施例に係る仮想マシンクラスタの監視方法を応用してジョブを投入することを示すフローチャートである。 本発明の実施例に係る仮想マシンクラスタの監視方法を示す第5の模式的フローチャートである。 本発明の実施例に係る仮想マシンクラスタの監視システムを示す例示的なアーキテクチャ図である。 本願の実施例を実現するための端末装置又はサーバーに適用されるコンピュータシステムを示す構造模式図である。
以下、図面および実施例を参照しながら、本発明をさらに詳しく説明する。ただし、ここで説明されている具体的な実施例は、係る発明を解釈するためのものに過ぎず、本発明の範囲を制限するものでないことが理解されるべきである。なお、説明の便宜上、図面に本発明と関連する部分のみが示されている。
ただし、衝突がない限り、本願における実施例及び実施例における特徴は互いに組み合せてもよい。以下、図面を参照しながら実施例に基づいて本願を詳しく説明する。
図1は本発明の実施例に係る仮想マシンクラスタの監視方法を適用できる例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末装置101と、仮想マシンクラスタが配置されたサーバークラスタ102と、仮想マシンが配置されていないサーバー104とを備えてもよい。ネットワーク103は端末装置101、サーバークラスタ102及びサーバー104の間に通信リンクの媒体を提供することに用いられる。ネットワーク103は様々な接続タイプ、例えば有線、無線通信リンクや光ケーブルなどを含んでもよい。
ユーザー110は端末装置101を利用してネットワーク103を介してサーバー104とインタラクティブすることによりユーザージョブを投入することができ、サーバー104はネットワーク103を介してサーバークラスタ102とインタラクティブし、ユーザーにより投入されたジョブをサーバークラスタ102に実行されている仮想マシンクラスタに投入することができる。端末装置101には、様々なアクライアントプリケーション、例えば、ウェブブラウザアプリケーション、検索アプリケーション、インスタントメッセージツール、電子メールクライアント、ソーシャルプラットフォームソフトウェア、クラウドプラットフォームアプリケーションなどがインストールされてもよい。
端末装置101はヒューマンコンピュータインタラクションアセンブリを有し且つジョブ投入をサポートする各種の電子装置であってもよく、モバイルインテリジェント端末、タブレットパソコン、ラップトップポータブルコンピュータ、デスクトップコンピュータ、マルチメディアプレーヤー及び電子書籍リーダー等を含むが、それらに限定されない。
サーバークラスタ102はデータ分析処理を提供する複数のサーバーからなり、その上で大量の仮想マシンからなる仮想マシンクラスタを実行することができる。仮想マシンクラスタにおける仮想マシンは、管理ノードと計算ノードの2種類に分けられる。管理ノードはクラスタ全体の管理、リソーススケジューリング及びユーザーにより投入されるジョブの管理を担当し、計算ノードは主に具体的なサブタスクの実行を計算することを担当する。
サーバー104はデータ分析処理を提供するサーバーであってもよく、複数のサーバーからなるサーバークラスタであってもよい。例えば、端末装置101により投入されたユーザージョブに対して分析処理を行うサーバーが挙げられる。サーバー104はサーバークラスタ102に実行されている仮想マシンクラスタにより提供された実行データに対して分析処理を行って、端末装置101により投入されたユーザージョブをサーバークラスタ102に実行されている仮想マシンクラスタにおける管理ノードに割り当て、さらに管理ノードは投入されたユーザージョブを仮想マシンクラスタにおける計算ノードに割り当て、その後、管理ノードは計算ノードによる、投入されたユーザージョブに対するデータ分析処理結果を取得し、当該処理結果をサーバー104に返し、さらにサーバー104は投入されたユーザージョブのデータ分析処理結果を端末装置101に返す。
なお、本発明の実施例に係る仮想マシンクラスタの監視方法における操作ステップは、一般的にサーバークラスタ102と、サーバークラスタ102に実行されている仮想マシンクラスタと、サーバー104とにより実行され、サーバー104にユーザージョブを投入する操作ステップは、一般的に端末装置101により実行される。
図1における端末装置、ネットワーク及びサーバーの数が例示的なものであることを理解すべきである。必要に応じて、端末装置、ネットワーク及びサーバーの数が任意である。
引き続き、本発明の実施例に係る仮想マシンクラスタの監視方法を示す1つの模式的フローチャート200である図2を参照する。当該仮想マシンクラスタの監視方法200は、以下のステップを含む。
ステップ201において、第1の物理マシンは第1の所定時間毎に仮想マシンクラスタにおける仮想マシンに仮想マシン状態パラメータ問い合わせコマンドを送信する。
本実施例において、第1の物理マシンは仮想マシンが配置されていない物理マシンであり、例えば図1におけるサーバー104を指す。仮想マシンクラスタは複数の仮想マシンを集めて同一のサービスを行い、クライアントにとって1つだけの仮想マシンのようである。1つのコンピュータに1つ以上の仮想マシンを配置することができ、複数のコンピュータに配置される仮想マシンが仮想マシンクラスタを形成し、仮想マシンクラスタが同時に並列計算を行うことができ、それにより高い計算速度を取得する。
上記第1の所定時間は第1の物理マシンが仮想マシンに問い合わせコマンドを送信する間隔時間であり、物理マシンのパラメータ、ネットワークパラメータ、仮想マシンのパラメータ、仮想マシンシステムリソースの使用率及び仮想マシンシステム設定の柔軟性等を統合的に考慮して設定することができる。
上記問い合わせコマンドは、仮想マシンの健康状態をポーリングするコマンドであってもよく、例えば、仮想マシンのディスク使用率、仮想マシンネットワークI/O負荷及び仮想マシンのCPU使用率等の一項又は複数項の仮想マシンの状態パラメータ情報を問い合わせるコマンドである。
ステップ202において、仮想マシンは問い合わせコマンドを受信したことに応答し、第1の物理マシンに応答情報を送信する。
本実施例において、仮想マシンは第1の物理マシンにより送信された問い合わせコマンドを受信した後に、仮想マシンに実行されているサービスプロセスによって第1の物理マシンに応答情報を送信する。
ステップ203において、第1の物理マシンは、応答情報が第2の所定時間にわたって中断することに応答して、仮想マシンが故障したと判断し、故障した仮想マシンが予め設定されたリセット条件を満たすか否かを判断し、故障した仮想マシンが予め設定されたリセット条件を満たす場合に、故障した仮想マシンを実行する第2の物理マシンに仮想マシンリセットコマンドを送信する。
本実施例において、第1の物理マシンに第2の所定時間が予め設定されおり、第2の所定時間は正常に作動する時に許可される応答情報の応答間隔時間であり、応答情報が第2の所定時間にわたって中断する場合に、仮想マシンが故障したと判断する。
故障した仮想マシンが予め設定されたリセット条件を満たす場合に、即ち、故障した仮想マシンが仮想マシンクラスタの作動効率に影響を与えるが、修復を試みる条件を満たす場合に、故障した仮想マシンを実行する第2の物理マシンに仮想マシンリセットコマンドを送信することができる。例えば、1つの代替の実施形態において、故障した仮想マシンの割合がプリセットされた割合より小さい場合に、仮想マシンリセットコマンドを第2の物理マシンに送信することができ、別の代替の実施形態において、故障した仮想マシンの、前回の仮想マシンリセット又は仮想マシン再構築からの時間が第3の所定時間を超える場合に、仮想マシンリセットコマンドを第2の物理マシンに送信する。故障した仮想マシンの割合とは、故障した仮想マシンが仮想マシンクラスタにおけるすべての仮想マシンを占める割合を指す。
ステップ204において、第2の物理マシンは仮想マシンリセットコマンドに基づいて、故障した仮想マシンをリセットする。
第1の物理マシンが仮想マシンリセットコマンドを第2の物理マシンに送信した後に、第2の物理マシンが受信した仮想マシンリセットコマンドに基づいて、故障した仮想マシンをリセットする。
いくつかの代替の実施形態において、第2の物理マシンは故障した仮想マシンをリセットした後に、さらに当該仮想マシンのサービスプロセスをリセットすることができる。例えば、第2の物理マシンは故障した仮想マシンをリセットする時に、リセット応答信号を第1の物理マシンに送信する。第1の物理マシンはリセット応答信号を受信したことに応答し、予め記録された仮想マシンのメタ情報から故障した仮想マシンのアドレスを取得し、当該アドレスに基づいて、リセットされた仮想マシンと接続し、第1のサービスプロセスリセット信号をリセットされた仮想マシンに送信する。リセットされた仮想マシンは第1のサービスプロセスリセット信号に基づいて、リセットされた仮想マシンのサービスプロセスを起動する。第1のサービスプロセスはリセットされた仮想マシンに実行されているサービスプロセスである。
本実施例の1つの具体的な応用場面において、当該仮想マシンクラスタの監視方法は、仮想マシンクラスタの外の第1の物理マシンに監視プロセスを配置するとともに、仮想マシン内にエージェントプロセスを直接に配置するステップを含んでもよい。監視プロセスと仮想マシン内のエージェントプロセスとはハートビートメッセージを定期的に送信することによって通信する。ハートビートが中断する場合に、監視プロセスはエージェントプロセスに位置する仮想マシンが不健康な状態にあると認識する。仮想マシンが不健康な状態にある時間は指定された時間閾値を超える場合に、仮想マシンが故障したと判断する。仮想マシンが故障状態にある場合に、仮想マシンの回復規則は、まずクラスタ全体の仮想マシンの故障状態を検出し、クラスタにおける大量の仮想マシンが故障する場合に、仮想ネットワークが故障したと認識し、この時に回復すると多くの誤動作を引き起こすことである。したがって、この状態で仮想マシンを回復せず、ネットワーク故障の修復を待ってもよい。また、頻繁な回復によるシステムへの過大な圧力を防止するために、回復しようとする仮想マシンが一定の時間内に回復されたことがある場合に回復せず、それにより仮想マシンを回復するトラフィックを制御し、システム圧力を軽減させる。
本発明の上記実施例に係る仮想マシンクラスタの監視方法は、物理マシンにおける各仮想マシンを別々に監視し、仮想マシンレベルの仮クラッシュと故障を発見することができ、同時に仮想マシンクラスタの状況を判断し、ネットワーク故障による誤動作を防止し、仮想マシンの回復頻度を制御し、システムへの圧力を防止する。
さらに、本発明の実施例に係る図2の仮想マシンクラスタの監視方法に基づく模式的フローチャート300を示す図3を参照する。
当該仮想マシンクラスタの監視方法300は、図2の仮想マシンクラスタの監視方法を基とし、さらに以下のステップを含んでもよい。
ステップ301において、第1の物理マシンは、仮想マシンリセットコマンドを送信した後の所定時間内にリセット応答信号を受信していないことに応答し、故障した仮想マシンのリセットが失敗したと判断し、リセット失敗の回数がプリセットされた回数に達することに応答し、仮想マシン再構築コマンドを第3の物理マシンに送信する。
本実施例において、第3の物理マシンは仮想マシンクラスタのホスト物理マシンクラスタにおける第2の物理マシン以外の物理マシンである。
ステップ302において、第3の物理マシンは仮想マシン再構築コマンドに基づいて、故障した仮想マシンを再構築する。
図3から分かるように、図2に対応する実施例に比べて、本実施例の仮想マシンクラスタの監視方法のフロー300は、第1の物理マシンが仮想マシン再構築コマンドを送信すること及び第3の物理マシンが仮想マシン再構築コマンドに基づいて故障した仮想マシンを再構築することを強調する。それにより、本実施例に記述された解決手段は故障した仮想マシンを再構築することを導入することができ、第1の物理マシンが仮想マシンリセットコマンドを送信した後の所定時間内にリセット応答信号を受信していない場合に、仮想マシン再構築コマンドを第3の物理マシンに送信し、故障した仮想マシンを再構築することができる。
さらに本発明の実施例に係る図3の仮想マシンクラスタの監視方法に基づく模式的フローチャート400を示す図4を参照する。
当該仮想マシンクラスタの監視方法400は、図3の仮想マシンクラスタの監視方法を基とし、以下のステップを含んでもよい。
ステップ401において、第3の物理マシンは再構築応答信号を第1の物理マシンに送信する。
本実施例において、第3の物理マシンは受信した仮想マシン再構築コマンドに基づいて仮想マシンを再構築した後に、再構築応答信号を第1の物理マシンに送信して、仮想マシンの再構築動作が完了することを第1の物理マシンに通知する。
ステップ402において、第1の物理マシンは再構築応答信号を受信したことに応答し、仮想マシンのメタ情報から故障した仮想マシンのメタ情報を取得し、取得されたメタ情報に基づいて、ノード回復コマンドを再構築された仮想マシンに送信する。
本実施例において、第1の物理マシンは受信された再構築応答信号に基づいて第3の物理マシンが仮想マシンの再構築動作を完了すると判断した後に、故障した仮想マシンのアドレスに基づいて、第1の物理マシンに予め記録された仮想マシンのメタ情報から、故障した仮想マシンのメタ情報を問い合わせて、且つ故障した仮想マシンのメタ情報に指示される仮想マシンノードのタイプに基づいて、ノード回復コマンドを生成し、故障した仮想マシンのアドレスに応じて、ノード回復コマンドを再構築された仮想マシンに送信する。ここで、再構築された仮想マシンのアドレスと故障した仮想マシンのアドレスとが同じであり、ノード回復コマンドは仮想マシンノードのタイプを含み、且つノード回復コマンドが仮想マシンノードのタイプに適する。
ステップ403において、再構築された仮想マシンは、ノード回復コマンドに基づいて再構築された仮想マシンが管理ノードであると判断した場合に、ノード回復コマンドに基づいて、予めバックアップされた元の管理ノードに関連する増分データをリモートメモリからダウンロードし、増分データに基づいて、再構築された管理ノードのメタデータを回復し、仮想マシンクラスタにおける計算ノードの登録を受ける。
本実施例において、上記ノード回復コマンドにおける仮想マシンノードのタイプが管理ノードである場合に、再構築された仮想マシンは、ノード回復コマンドに基づいて、まず予めバックアップされた元の管理ノードに関連する増分データをリモートメモリからダウンロードし、次に、増分データに基づいて、再構築された管理ノードのメタデータを回復し、その後、仮想マシンクラスタにおける計算ノードの登録を受ける。
1つの代替の実施形態において、第1の物理マシンが再構築された仮想マシンを監視しやすくするために、上記仮想マシンクラスタの監視方法は、再構築された管理ノードが、所定時間内に登録した仮想マシンクラスタにおける計算ノードがプリセットされた割合以上であることに応答し、再構築が成功したと判断し、再構築が成功したことを指示する信号を第1の物理マシンに送信し、所定時間内に登録した仮想マシンクラスタにおける計算ノードがプリセットされた割合より低いことに応答し、再構築が失敗したことを指示する警告信号を第1の物理マシンに送信するステップと、第1の物理マシンが、再構築が成功したことを指示する信号に基づいて、再構築された管理ノードに受信されたユーザージョブを投入し、再構築が失敗したことを指示する警告信号に基づいて、警告報知を表示するステップと、をさらに含んでもよい。
本実施例の1つの具体的な応用場面において、本発明の実施例に係る仮想マシンが管理ノードであることを示す回復フローチャートである図5aに示すようになる。
図5aにおいて、管理ノードの回復フローは以下のステップを含む。
ステップ501において、故障した仮想マシンが管理ノードとして判断された。
ステップ502において、管理ノードは受信された仮想マシンリセットコマンドに基づいて、管理ノードに位置する仮想マシンをリセットし、リセットが成功した場合に、引き続き仮想ノードにおける業務サービスプロセスをリセットする。
ステップ503において、管理ノードのリセットが失敗した場合に、試み続け、数回試みても失敗した場合に、仮想マシンに位置するホスト物理マシンが故障すると認め、物理マシンが故障する場合に、警告して第1の物理マシンに報知し、その後、別のホストマシンは受信された第1の物理マシンの再構築コマンドに基づいて、当該ホストマシンで無効な仮想ノードの再構築を試みる。
ステップ504において、管理ノードの構成が成功した後に、リモートメモリから増分バックアップされたメタ情報を回復する。
ステップ505において、管理ノードは増分バックアップされたメタ情報によって管理ノードにおけるデータを回復する。
ステップ506において、管理ノードはサービスプロセスを起動する。
ステップ507において、管理ノードは計算ノードの登録を待つ。
ステップ508において、管理ノードは登録された計算ノードを計算クラスタにもう一度加入する。
図4に戻り、ステップ404において、再構築された仮想マシンは、ノード回復コマンドに基づいて再構築された仮想マシンが計算ノードであると判断した場合に、ノード回復コマンドに基づいて、仮想マシンクラスタにおける管理ノードに登録する。
本実施例において、上記ノード回復コマンドで回復された仮想マシンノードのタイプは計算ノードである場合に、ノード回復コマンドに基づいて、仮想マシンクラスタにおける管理ノードに登録する。
本実施例の1つの具体的な応用場面において、本発明の実施例に係る仮想マシンが計算ノードであることを示す回復フローチャートである図5bに示すようになる。
図5bにおいて、計算ノードの回復フローは以下のステップを含む。
ステップ551において、故障した仮想マシンが計算ノードとして判断された。
ステップ552において、計算ノードに位置する物理マシンは受信された仮想マシンリセットコマンドに基づいて、計算ノードに位置する仮想マシンをリセットし、成功した場合に、計算ノードサービスプロセスを回復する。
ステップ553において、計算ノードのリセットが失敗すれば、数回試みても失敗した場合に、警告して第1の物理マシンに報知し、別の物理マシンは第1の物理マシンの仮想マシン再構築コマンドを受信した後に、その上で仮想計算ノードを再構築する。
ステップ554において、計算ノードは計算ノードサービスプロセスを起動する。
ステップ555において、計算ノードクラスタにおける管理ノードに登録する。
ステップ556において、計算ノードが仮想計算クラスタにもう一度加入される。
図4に戻り、図4から分かるように、図3に対応する実施例に比べて、本実施例の仮想マシンクラスタの監視方法のフロー400は、再構築された仮想マシンがノード回復コマンドに基づいてノードを回復するステップを強調する。それにより、本実施例に記述された解決手段においては仮想マシンノードの回復を導入することができ、管理ノード及び計算ノードはノード回復コマンドに基づいてそれぞれ異なる回復ステップを用いて、管理ノード又は計算ノードを回復する。
さらに、本発明の実施例に係る図4の仮想マシンクラスタの監視方法に基づく模式的フローチャート600を示す図6を参照する。当該仮想マシンクラスタの監視方法600は、図4の仮想マシンクラスタの監視方法を基とし、以下のステップをさらに含む。
ステップ601において、仮想マシンのメタ情報に基づいて、故障した仮想マシンが管理ノードを含むか否か及び故障した計算ノードの割合が閾値を超えるか否かを判断する。
本実施例において、第1の物理マシンに予め記録された仮想マシンのメタ情報に基づいて、故障した仮想マシンノードのノードタイプが管理ノードであるか計算ノードであるかを判断することができ、故障した仮想マシンノードのノードタイプが計算ノードである場合に、故障した計算ノードの割合が閾値を超えるか否かを判断することもできる。
ステップ602において、故障した仮想マシンが管理ノードを含む又は故障した計算ノードの割合が閾値を超えると判断したことに応答し、仮想マシンクラスタが故障したと判断する。
本実施例において、ステップ601で故障した仮想マシンが管理ノードを含むと判断した場合に、管理ノードが故障すると計算ノードにおけるサービスプロセスを監視できなくなってしまうため、仮想マシンクラスタが故障したと判断することができ、又は、ステップ601で故障した計算ノードの割合が閾値を超えると判断した場合、仮想マシンクラスタに大量の仮想マシンが故障し、計算ノードのデータ処理能力に影響を与えるため、仮想マシンクラスタが故障したと判断することもできる。
ステップ603において、仮想マシンクラスタが故障したことに応答し、引き続きユーザージョブを受信し、仮想マシンクラスタにおける管理ノードへの、ユーザージョブの投入を停止する。
本実施例において、仮想マシンクラスタが故障した場合に、第1の物理マシンが仮想マシンクラスタと別に設置されるため、第1の物理マシンがユーザージョブを受信し続けるが、仮想マシンクラスタにおける管理ノードへの、ユーザージョブの投入を停止する。
ステップ604において、応答情報がリセット又は再構築された仮想マシンからのものであることに応答し、リセット又は再構築された仮想マシンが管理ノードを含むか否か及び故障した計算ノードの割合が閾値を超えるか否かを判断する。
本実施例において、応答情報がリセット又は再構築された仮想マシンからのものである場合に、リセット又は再構築された仮想マシンが管理ノードを含むか否かを判断し、且つ故障した計算ノードの割合が閾値を超えるか否かを判断する。ここで、応答情報の元は、少なくとも応答情報を送信する仮想マシンのアドレスに基づいて決定される。
ステップ605において、リセット又は再構築された仮想マシンが管理ノードを含み且つ故障した計算ノードの割合が閾値を超えていないと判断したことに応答し、仮想マシンクラスタが故障から回復したと判断する。
本実施例において、リセット又は再構築された仮想マシンが管理ノードを含み且つ故障した計算ノードの割合が閾値を超えていないと判断した場合に、仮想マシンクラスタが故障から回復した、即ち、仮想マシンクラスタがユーザージョブを受信して処理する能力を有する。
ステップ606において、仮想マシンクラスタが故障から回復したことに応答し、引き続き仮想マシンクラスタにおける管理ノードにジョブを投入し、管理ノードから問い合わせられたジョブ状態情報に基づいて、仮想マシンクラスタが故障する前に実行されたジョブが成功したか否かを判断し、成功した場合に、次のジョブを投入し、失敗した場合に、失敗したジョブを再投入する。
本実施例において、仮想マシンクラスタが故障から回復した場合に、第1の物理マシンが受信されたユーザージョブを仮想マシンクラスタにおける管理ノードに投入するとともに、管理ノードから問い合わせられた計算ノードのジョブ状態情報に基づいて、仮想マシンクラスタが故障する前に実行したジョブが成功したか否かを判断し、成功した場合に、次のジョブを投入し、失敗した場合に、失敗したジョブを再投入する。ここで、ジョブ状態情報は管理ノードが計算ノードのジョブログに基づいて取得するものである。
ステップ607において、故障した仮想マシンが管理ノードを含まず且つ故障した計算ノードの割合が閾値を超えていないと判断したことに応答し、引き続きユーザージョブを受信し、ユーザージョブを仮想マシンクラスタにおける管理ノードに投入する。
本実施例において、第1の物理マシンは故障した仮想マシンが管理ノードを含まず且つ故障した計算ノードの割合が閾値を超えていないと判断したことに応答し、仮想マシンクラスタの実行状態が正常であると判断し、引き続きユーザージョブを受信し、ユーザージョブを仮想マシンクラスタにおける管理ノードに投入する。
いくつかの代替の実施形態において、上記仮想マシンクラスタの監視方法は、仮想マシンクラスタにおける管理ノードが増分操作ログをリモートメモリに定期的にバックアップするステップと、リモートメモリがバックアップされた操作ログを定期的にマージし、マージ時点前の操作ログを削除するステップとをさらに含んでもよい。
本実施例の1つの具体的な応用場面において、ユーザーが本発明の実施例に係る仮想マシンクラスタの監視方法を応用してジョブを投入することを示すフローチャートである図7に示すようになる。
図7において、仮想マシンクラスタの外の第1の物理マシン720にジョブ管理プロセスを配置して、仮想マシンクラスタにおけるユーザージョブを管理及びスケジューリングする。ユーザー710はまずジョブを第1の物理マシン720におけるジョブ管理プロセスに投入し、ジョブ管理プロセスがさらに具体的なジョブを仮想計算クラスタにおける管理ノード730に投入する。仮想ノードが故障した場合、故障ノードが計算ノード740であり且つ故障した計算ノード740の割合が一定の閾値より低い場合に、引き続きジョブを受信して仮想計算クラスタに投入する。故障ノードが管理ノード730であり又は故障した計算ノード740の数が一定の閾値より大きい場合に、仮想計算クラスタが故障したと認識し、引き続きジョブ管理プロセスがタスクジョブを受信するが、計算クラスタへの、ジョブの投入を停止する。同時に一定の時間毎に仮想クラスタの状態を検査する。管理ノード730が正常に回復し且つ正常な計算ノード740の数が一定の閾値より大きい場合に、引き続き仮想クラスタにジョブを投入する。ジョブ管理プロセスが投入されたジョブ及び実行されているジョブを記録し、仮想クラスタが故障から回復した場合に、ジョブ管理プロセスがその前に仮想クラスタに実行されたジョブを検出する。失敗した場合に、当該ジョブ再投入する。成功した場合に、次のユーザージョブを投入する。
図6に戻り、図6から分かるように、図4に対応する実施例に比べて、本実施例の仮想マシンクラスタの監視方法のフロー600は、ジョブ管理プロセスを仮想マシンクラスタと分離させて、ユーザーにより投入されたジョブを管理するステップを強調する。それにより、本実施例に記述された解決手段はジョブ管理プロセスを導入することができ、それにより仮想マシンが故障する時にユーザージョブを受信し続けるとともに、仮想ノード又はクラスタの故障の原因で実行が失敗したジョブを再投入することができ、ユーザージョブに対する管理能力を向上させる。
さらに、本発明の実施例に係る図6の仮想マシンクラスタの監視方法に基づく模式的フローチャート800を示す図8を参照する。当該仮想マシンクラスタの監視方法800は、図6の仮想マシンクラスタの監視方法を基とし、以下のステップを含んでもよい。
ステップ801において、仮想マシンクラスタにおける計算ノードは第2の所定時間毎に仮想マシンクラスタにおける管理ノードに第1のハートビート情報を送信して計算ノードに実行されている第2のサービスプロセスの状態情報を報告する。
本実施例において、第2の所定時間は、計算ノードが管理ノードに第1のハートビート情報を送信する、予め設定された間隔時間であり、第2のサービスプロセスは計算ノードに実行されているサービスプロセスである。
ステップ802において、仮想マシンクラスタにおける管理ノードは、第2のサービスプロセスの状態情報が所定の正常なプロセス条件に合致するか否かを判断し、合致しない場合に、第2のサービスプロセスの状態情報が所定の正常なプロセス条件に合致しない回数を記録し、第2のサービスプロセスの状態情報が所定条件に合致しない回数が所定回数を超えることに応答し、第2のサービスプロセスが異常であると判断し、第2のサービスプロセスリセット信号を異常な第2のサービスプロセスに位置する計算ノードに送信する。
本実施例において、ステップ801において計算ノードが管理ノードに第1のハートビート情報を送信して計算ノードに実行されている第2のサービスプロセスの状態情報を報告した後に、管理ノードは第2のサービスプロセスの状態情報が正常であるか否かを判断し、異常である場合に、異常回数を記録し、異常回数が一定の回数に達する場合に、第2のサービスプロセスが異常であると判断し、関連する業務プロセスをリセットすることをエージェントプロセスに通知して、サービスを回復する。
ステップ803において、異常な第2のサービスプロセスに位置する計算ノードは第2のサービスプロセスリセット信号に基づいて、異常な第2のサービスプロセスをリセットする。
いくつかの代替の実施形態において、仮想マシンクラスタにおける計算ノードは仮想マシンクラスタにおける管理ノードに第2のハートビート情報を送信して仮想マシンの状態パラメータ情報を報告し、仮想マシンクラスタにおける管理ノードは、仮想マシンの状態パラメータ情報が予め設定された異常条件に合致するか否かを判断し、合致する場合に、警告報知を表示し、それにより維持管理スタッフは迅速に介入して関連する問題を解決し、計算ノードを修復することができる。
図8から分かるように、図6に示される実施例に比べて、本実施例の仮想マシンクラスタの監視方法のフロー800は、第2のサービスプロセスを監視及び管理するステップを強調する。それにより、本実施例に記述された解決手段は異常な第2のサービスプロセスのリセットを導入することができ、第2のサービスプロセスが異常である場合に、異常な第2のサービスプロセスをリセットして、仮想マシンのサービスを回復する。
さらに、上記各図に示される方法を実現する形態として、当該システム実施例は図2に示される方法実施例に対応し、本発明の実施例に係る仮想マシンクラスタの監視システムの例示的なアーキテクチャ図を提供する図9を参照する。
図9に示すように、仮想マシンクラスタの監視システム900は、第1の物理マシン910、仮想マシンクラスタ920及び仮想マシンクラスタを実行する物理マシンクラスタ(すべて図示されるわけではない)を備える。
第1の物理マシン910は、第1の所定時間毎に仮想マシンクラスタにおける仮想マシンに仮想マシン状態パラメータ問い合わせコマンドを送信し、応答情報が第2の所定時間にわたって中断することに応答し、仮想マシンが故障したと判断し、故障した仮想マシンが予め設定されたリセット条件を満たすか否かを判断し、故障した仮想マシンが予め設定されたリセット条件を満たす場合に、故障した仮想マシンを実行する第2の物理マシンに仮想マシンリセットコマンドを送信することに用いられる。
仮想マシンクラスタ920は仮想マシン921を備えて、仮想マシン921が、問い合わせコマンドを受信したことに応答し、第1の物理マシンに応答情報を送信するように配置されている。
物理マシンクラスタは、故障した仮想マシン922を実行する第2の物理マシン923を備える。第2の物理マシン923は、仮想マシンリセットコマンドに基づいて、故障した仮想マシンをリセットように配置されている。
いくつかの代替の実施形態において、第2の物理マシンはさらに、故障した仮想マシンをリセットする時に、リセット応答信号を第1の物理マシンに送信し、リセットされた仮想マシンが第1のサービスプロセスリセット信号に基づいて、リセットされた仮想マシンのサービスプロセスを起動することに用いられる。第1の物理マシンはさらに、リセット応答信号を受信したことに応答し、予め記録された仮想マシンのメタ情報から故障した仮想マシンのアドレスを取得し、当該アドレスに基づいて、リセットされた仮想マシンと接続し、第1のサービスプロセスリセット信号をリセットされた仮想マシンに送信することに用いられる。
図3に示される方法実施例に対応し、いくつかの代替の実施形態において、システムは、仮想マシン再構築コマンドに基づいて、故障した仮想マシンを再構築するための第3の物理マシンをさらに備える。第1の物理マシンはさらに、仮想マシンリセットコマンドを送信した後の所定時間内にリセット応答信号を受信していないことに応答し、故障した仮想マシンのリセットが失敗したと判断し、リセットが失敗した回数がプリセットされた回数に達することに応答し、仮想マシンクラスタのホスト物理マシンクラスタにおける第2の物理マシン以外の物理マシンである第3の物理マシンに仮想マシン再構築コマンドを送信することに用いられる。
図4に示される方法実施例に対応し、いくつかの代替の実施形態において、第3の物理マシンはさらに、再構築応答信号を第1の物理マシンに送信し、再構築された仮想マシンが、ノード回復コマンドに基づいて再構築された仮想マシンが管理ノードであると判断した場合に、ノード回復コマンドに基づいて、予めバックアップされた元の管理ノードに関連する増分データをリモートメモリからダウンロードし、増分データに基づいて、再構築された管理ノードのメタデータを回復し、仮想マシンクラスタにおける計算ノードの登録を受け、ノード回復コマンドに基づいて再構築された仮想マシンが計算ノードであると判断した場合に、ノード回復コマンドに基づいて、仮想マシンクラスタにおける管理ノードに登録することに用いられる。第1の物理マシンはさらに、再構築応答信号を受信したことに応答し、仮想マシンのメタ情報から故障した仮想マシンのメタ情報を取得し、取得したメタ情報に基づいて、ノード回復コマンドを再構築された仮想マシンに送信することに用いられる。
いくつかの代替の実施形態において、再構築された管理ノードはさらに、所定時間内に登録された仮想マシンクラスタにおける計算ノードがプリセットされた割合以上であることに応答し、再構築が成功したと判断し、再構築が成功したことを指示する信号を第1の物理マシンに送信し、所定時間内に登録された仮想マシンクラスタにおける計算ノードがプリセットされた割合より低いことに応答し、再構築が失敗したことを指示する警告信号を第1の物理マシンに送信することに用いられる。第1の物理マシンはさらに、再構築が成功したことを指示する信号に基づいて、再構築された管理ノードに受信したユーザージョブを投入し、再構築が失敗したことを指示する警告信号に基づいて、警告報知を表示することに用いられる。
図6に示される方法実施例に対応し、いくつかの代替の実施形態において、第1の物理マシンはさらに、仮想マシンのメタ情報に基づいて、故障した仮想マシンが管理ノードを含むか否か及び故障した計算ノードの割合が閾値を超えるか否かを判断することと、故障した仮想マシンが管理ノードを含む又は故障した計算ノードの割合が閾値を超えると判断したことに応答し、仮想マシンクラスタが故障したと判断することと、仮想マシンクラスタが故障したことに応答し、引き続きユーザージョブを受信し、仮想マシンクラスタにおける管理ノードへの、ユーザージョブの投入を停止することと、応答情報がリセット又は再構築された仮想マシンからのものであることに応答し、リセット又は再構築された仮想マシンが管理ノードを含むか否か及び故障した計算ノードの割合が閾値を超えるか否かを判断することと、リセット又は再構築された仮想マシンが管理ノードを含み且つ故障した計算ノードの割合が閾値を超えていないと判断したことに応答し、仮想マシンクラスタが故障から回復したと判断することと、仮想マシンクラスタが故障から回復したことに応答し、引き続き仮想マシンクラスタにおける管理ノードにジョブを投入し、及び管理ノードから問い合わせられたジョブ状態情報に基づいて、仮想マシンクラスタが故障する前に実行したジョブが成功したか否かを判断し、成功した場合に、次のジョブを投入し、失敗した場合に、失敗したジョブを再投入することと、故障した仮想マシンが管理ノードを含まず且つ故障した計算ノードの割合が閾値を超えていないと判断したことに応答し、引き続きユーザージョブを受信し、ユーザージョブを仮想マシンクラスタにおける管理ノードに投入することと、に用いられ、ここで、ジョブ状態情報が、管理ノードが計算ノードのジョブログに基づいて取得するものである。
いくつかの代替の実施形態において、システムは、バックアップされた操作ログを定期的にマージし、マージ時点前の操作ログを削除するためのリモートメモリをさらに備える。仮想マシンクラスタにおける管理ノードがさらに、増分操作ログをリモートメモリに定期的にバックアップすることに用いられる。
いくつかの代替の実施形態において、仮想マシンクラスタにおける計算ノードはさらに、第2の所定時間毎に仮想マシンクラスタにおける管理ノードに第1のハートビート情報を送信して計算ノードに実行されている第2のサービスプロセスの状態情報を報告し、及び異常な第2のサービスプロセスに位置する計算ノードが第2のサービスプロセスリセット信号に基づいて、異常な第2のサービスプロセスをリセットすることに用いられる。仮想マシンクラスタにおける管理ノードはさらに、第2のサービスプロセスの状態情報が所定の正常なプロセス条件に合致するか否かを判断し、合致しない場合に、第2のサービスプロセスの状態情報が所定の正常なプロセス条件に合致しない回数を記録し、第2のサービスプロセスの状態情報が所定条件に合致しない回数が所定回数を超えることに応答し、第2のサービスプロセスが異常であると判断し、第2のサービスプロセスリセット信号を異常な第2のサービスプロセスに位置する計算ノードに送信することに用いられる。
いくつかの代替の実施形態において、仮想マシンクラスタにおける計算ノードはさらに、仮想マシンクラスタにおける管理ノードに第2のハートビート情報を送信して仮想マシンの状態パラメータ情報を報告することに用いられる。仮想マシンクラスタにおける管理ノードはさらに、仮想マシンの状態パラメータ情報が予め設定された異常条件に合致するか否かを判断し、合致する場合に、警告報知を表示することに用いられる。
本発明の上記実施例による仮想マシンクラスタの監視システムは、仮想マシンに対する監視を実現でき、仮想マシンが故障する時に仮想マシン及び仮想マシンに実行されているサービスを自動的に回復でき、仮想マシンクラスタの可用性を向上させ、サービスの中断時間を減少させる。
上記各ノードは、例えば、プロセッサ、メモリなどのいくつかの他の公知の構造をさらに備えてもよく、本発明の実施例を曖昧にすることを回避するために、これらの公知の構造が図9に示されていないことを、当業者は理解することができる。
以下、本発明の実施例を実現するための端末装置またはサーバーに適用されるコンピュータシステム1000を示す構造模式図である図10を参照する。
図10に示すように、コンピュータシステム1000は、読み出し専用メモリ(ROM)1002に記憶されているプログラムまたは記憶部1008からランダムアクセスメモリ(RAM)1003にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置(CPU)1001を備える。RAM1003には、システム1000の操作に必要な様々なプログラムおよびデータがさらに記憶されている。CPU1001、ROM1002およびRAM1003は、バス1004を介して互いに接続されている。入力/出力(I/O)インターフェース1005もバス1004に接続されている。
キーボード、マウスなどを含む入力部1006、陰極線管(CRT)、液晶ディスプレイ(LCD)など、およびスピーカなどを含む出力部1007、ハードディスクなどを含む記憶部1008、およびLANカード、モデムなどを含むネットワークインターフェースカードの通信部1009は、I/Oインターフェース1005に接続されている。通信部1009は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ1010は、必要に応じてI/Oインターフェース1005に接続される。リムーバブルメディア1011は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ1010に取り付けられ、したがって、ドライバ1010から読み出されたコンピュータプログラムが必要に応じて記憶部1008にインストールされる。
特に、本発明の実施例によれば、上記のフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本発明の実施例は、コンピュータプログラム製品を含み、当該コンピュータプログラム製品は、機械可読媒体に有形に具現化されるコンピュータプログラムを含み、前記コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、当該コンピュータプログラムは、通信部1009を介してネットワークからダウンロードされてインストールされてもよく、および/またはリムーバブルメディア1011からインストールされてもよい。
図面におけるフローチャートおよびブロック図は、本発明の各実施例に係るシステム、方法およびコンピュータプログラム製品により実現可能なアーキテクチャ、機能および操作を示す。ここで、フローチャートまたはブロック図における各枠は、1つのモジュール、プログラムセグメント、またはコードの一部を代表してもよく、前記モジュール、プログラムセグメント、またはコードの一部は、規定された論理機能を実現するための1つ以上の実行可能な命令を含む。なお、いくつかの代替実施態様として、枠に示された機能は、図面に示された順番と異なる順番で実行されてもよい。例えば、連続して示された2つの枠は、関連する機能に応じて、実際にほぼ並行に実行されてもよく、逆の順番で実行されてもよい。なお、ブロック図および/またはフローチャートにおける各枠と、ブロック図および/またはフローチャートにおける枠の組合せは、規定された機能または操作を実行する、ハードウェアに基づく専用システムで実現されてもよく、あるいは、専用ハードウェアとコンピュータの命令との組合せで実行されてもよい。
一方、本発明は、不揮発性コンピュータ記憶媒体をさらに提供し、当該不揮発性コンピュータ記憶媒体は、上記した実施例の前記装置に含まれる不揮発性コンピュータ記憶媒体であってもよく、独立に存在して端末に組み立てられていない不揮発性コンピュータ記憶媒体であってもよい。前記不揮発性コンピュータ記憶媒体は、1つ以上のプログラムが記憶され、前記1つ以上のプログラムが1つの機器により実行された場合、上記したシステムに以下の通りにさせ、すなわち、第1の物理マシンが、第1の所定時間毎に仮想マシンクラスタにおける仮想マシンに仮想マシン状態パラメータ問い合わせコマンドを送信し、仮想マシンが、問い合わせコマンドを受信したことに応答し、第1の物理マシンに応答情報を送信し、第1の物理マシンが、応答情報が第2の所定時間にわたって中断することに応答して、仮想マシンが故障したと判断し、故障した仮想マシンが予め設定されたリセット条件を満たすか否かを判断し、故障した仮想マシンが予め設定されたリセット条件を満たす場合に、故障した仮想マシンを実行する第2の物理マシンに仮想マシンリセットコマンドを送信し、第2の物理マシンが、仮想マシンリセットコマンドに基づいて、故障した仮想マシンをリセットする。
以上の記載は、本発明の好ましい実施例、および使用された技術的原理の説明に過ぎない。本発明に係る特許請求の範囲が、上記した技術的特徴の特定な組合せからなる技術案に限定されることではなく、本発明の趣旨を逸脱しない範囲で、上記の技術的特徴または同等の特徴の任意の組合せからなる他の技術案も含むべきであることを、当業者は理解すべきである。例えば、上記の特徴と、本発明に開示された類似の機能を持っている技術的特徴(これらに限定されていない)とを互いに置き換えてなる技術案が挙げられる。

Claims (20)

  1. 第1の物理マシンが、第1の所定時間毎に仮想マシンクラスタにおける仮想マシンに仮想マシン状態パラメータ問い合わせコマンドを送信するステップと、
    前記仮想マシンが、前記問い合わせコマンドを受信したことに応答し、前記第1の物理マシンに応答情報を送信するステップと、
    前記第1の物理マシンが、前記応答情報が第2の所定時間にわたって中断することに応答して、仮想マシンが故障したと判断し、故障した仮想マシンが予め設定されたリセット条件を満たすか否かを判断し、故障した仮想マシンが予め設定されたリセット条件を満たす場合に、前記故障した仮想マシンを実行する第2の物理マシンに仮想マシンリセットコマンドを送信するステップと、
    前記第2の物理マシンが、前記仮想マシンリセットコマンドに基づいて、前記故障した仮想マシンをリセットするステップと、
    を含むことを特徴とする仮想マシンクラスタの監視方法。
  2. 前記の故障した仮想マシンが予め設定されたリセット条件を満たす場合に、前記故障した仮想マシンを実行する第2の物理マシンに仮想マシンリセットコマンドを送信するステップにおいては、
    故障した仮想マシンの割合がプリセットされた割合より小さい場合に、仮想マシンリセットコマンドを前記第2の物理マシンに送信するステップ、又は、
    故障した仮想マシンの、前回の仮想マシンリセット又は仮想マシン再構築からの時間が第3の所定時間を超える場合に、仮想マシンリセットコマンドを前記第2の物理マシンに送信するステップ
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記第2の物理マシンが、前記故障した仮想マシンをリセットする時に、リセット応答信号を前記第1の物理マシンに送信するステップと、
    前記第1の物理マシンが、前記リセット応答信号を受信したことに応答し、予め記録された仮想マシンのメタ情報から故障した仮想マシンのアドレスを取得し、前記アドレスに基づいて、前記リセットされた仮想マシンと接続し、第1のサービスプロセスリセット信号を前記リセットされた仮想マシンに送信するステップと、
    前記リセットされた仮想マシンが、前記第1のサービスプロセスリセット信号に基づいて、前記リセットされた仮想マシンのサービスプロセスを起動するステップと、
    をさらに含むことを特徴とする請求項2に記載の方法。
  4. 前記第1の物理マシンが、前記仮想マシンリセットコマンドを送信した後の所定時間内に前記リセット応答信号を受信していないことに応答し、前記故障した仮想マシンのリセットが失敗したと判断し、リセット失敗の回数がプリセットされた回数に達することに応答し、前記仮想マシンクラスタのホスト物理マシンクラスタにおける、前記第2の物理マシン以外の物理マシンである第3の物理マシンに仮想マシン再構築コマンドを送信するステップと、
    前記第3の物理マシンが、前記仮想マシン再構築コマンドに基づいて、前記故障した仮想マシンを再構築するステップと、
    をさらに含むことを特徴とする請求項3に記載の方法。
  5. 前記第3の物理マシンが、再構築応答信号を前記第1の物理マシンに送信するステップと、
    前記第1の物理マシンが、前記再構築応答信号を受信したことに応答し、前記仮想マシンのメタ情報から故障した仮想マシンのメタ情報を取得し、取得されたメタ情報に基づいて、ノード回復コマンドを前記再構築された仮想マシンに送信するステップと、
    前記再構築された仮想マシンが、前記ノード回復コマンドに基づいて前記再構築された仮想マシンが管理ノードであると判断した場合に、前記ノード回復コマンドに基づいて、予めバックアップされた元の管理ノードに関連する増分データをリモートメモリからダウンロードし、前記増分データに基づいて、前記再構築された管理ノードのメタデータを回復し、前記仮想マシンクラスタにおける計算ノードの登録を受けており、前記ノード回復コマンドに基づいて前記再構築された仮想マシンが計算ノードであると判断した場合に、前記ノード回復コマンドに基づいて、前記仮想マシンクラスタにおける管理ノードに登録するステップと、
    をさらに含むことを特徴とする請求項4に記載の方法。
  6. 前記再構築された管理ノードが、所定時間内に登録された前記仮想マシンクラスタにおける計算ノードがプリセットされた割合以上であることに応答し、再構築が成功したと判断し、再構築が成功したことを指示する信号を前記第1の物理マシンに送信しており、所定時間内に登録された前記仮想マシンクラスタにおける計算ノードがプリセットされた割合より低いことに応答し、再構築が失敗したことを指示する警告信号を前記第1の物理マシンに送信するステップと、
    前記第1の物理マシンが、前記の再構築が成功したことを指示する信号に基づいて、前記再構築された管理ノードに受信されたユーザージョブを投入しており、前記の再構築が失敗したことを指示する警告信号に基づいて、警告報知を表示するステップと、
    をさらに含むことを特徴とする請求項5に記載の方法。
  7. 前記仮想マシンのメタ情報に基づいて、前記故障した仮想マシンが管理ノードを含むか否か及び故障した計算ノードの割合が閾値を超えるか否かを判断することと、
    故障した仮想マシンが管理ノードを含む又は故障した計算ノードの割合が閾値を超えると判断したことに応答し、前記仮想マシンクラスタが故障したと判断することと、
    前記仮想マシンクラスタが故障したことに応答し、引き続きユーザージョブを受信し、ユーザージョブの前記仮想マシンクラスタにおける管理ノードへの投入を停止することと、
    前記応答情報がリセット又は再構築された仮想マシンからのものであることに応答し、前記リセット又は再構築された仮想マシンが管理ノードを含むか否か及び故障した計算ノードの割合が前記閾値を超えるか否かを判断することと、
    前記リセット又は再構築された仮想マシンが管理ノードを含み且つ故障した計算ノードの割合が前記閾値を超えていないと判断したことに応答し、前記仮想マシンクラスタが故障から回復したと判断することと、
    前記仮想マシンクラスタが故障から回復したことに応答し、引き続き前記仮想マシンクラスタにおける管理ノードにジョブを投入し、及び前記管理ノードから問い合わせられたジョブ状態情報に基づいて、前記仮想マシンクラスタが故障する前に実行したジョブが成功したか否かを判断し、成功した場合に、次のジョブを投入し、失敗した場合に、失敗したジョブを再投入することと、
    故障した仮想マシンが管理ノードを含まず且つ故障した計算ノードの割合が閾値を超えていないと判断したことに応答し、ユーザージョブを受信し続け、前記ユーザージョブを前記仮想マシンクラスタにおける管理ノードに投入することと、
    を前記第1の物理マシンによって実行するステップをさらに含んでおり、
    ここで、前記ジョブ状態情報は、前記管理ノードが前記計算ノードのジョブログに基づいて取得するものである
    ことを特徴とする請求項6に記載の方法。
  8. 前記仮想マシンクラスタにおける管理ノードが、増分操作ログをリモートメモリに定期的にバックアップするステップと、
    前記リモートメモリが、バックアップされた操作ログを定期的にマージし、マージ時点前の操作ログを削除するステップと、
    をさらに含むことを特徴とする請求項7に記載の方法。
  9. 前記仮想マシンクラスタにおける計算ノードが、第2の所定時間毎に前記仮想マシンクラスタにおける管理ノードに第1のハートビート情報を送信して計算ノードに実行されている第2のサービスプロセスの状態情報を報告するステップと、
    前記仮想マシンクラスタにおける管理ノードが、前記第2のサービスプロセスの状態情報が所定の正常なプロセス条件に合致するか否かを判断し、合致しない場合に、前記第2のサービスプロセスの状態情報が所定の正常なプロセス条件に合致しない回数を記録し、前記第2のサービスプロセスの状態情報が所定条件に合致しない回数が所定回数を超えることに応答し、前記第2のサービスプロセスが異常であると判断し、第2のサービスプロセスリセット信号を異常な第2のサービスプロセスに位置する計算ノードに送信するステップと、
    前記異常な第2のサービスプロセスに位置する計算ノードが、前記第2のサービスプロセスリセット信号に基づいて、異常な第2のサービスプロセスをリセットするステップと、
    をさらに含むことを特徴とする請求項1〜8のいずれか一項に記載の方法。
  10. 前記仮想マシンクラスタにおける計算ノードが、前記仮想マシンクラスタにおける管理ノードに第2のハートビート情報を送信して仮想マシンの状態パラメータ情報を報告するステップと、
    前記仮想マシンクラスタにおける管理ノードが、前記仮想マシンの状態パラメータ情報が予め設定された異常条件に合致するか否かを判断し、合致する場合に、警告報知を表示するステップと、
    をさらに含むことを特徴とする請求項9に記載の方法。
  11. 前記仮想マシンの状態パラメータ情報が、仮想マシンのディスク使用率、仮想マシンネットワークI/O負荷及び仮想マシンのCPU使用率の一項又は複数項を含むことを特徴とする請求項10に記載の方法。
  12. 仮想マシンクラスタの監視システムであって、第1の物理マシンと、仮想マシンと、第2の物理マシンとを備えており、
    前記第1の物理マシンは、第1の所定時間毎に仮想マシンクラスタにおける仮想マシンに仮想マシン状態パラメータ問い合わせコマンドを送信し、応答情報が第2の所定時間にわたって中断することに応答し、仮想マシンが故障したと判断し、故障した仮想マシンが予め設定されたリセット条件を満たすか否かを判断し、故障した仮想マシンが予め設定されたリセット条件を満たす場合に、前記故障した仮想マシンを実行する第2の物理マシンに仮想マシンリセットコマンドを送信することに用いられ、
    前記仮想マシンは、前記問い合わせコマンドを受信したことに応答し、前記第1の物理マシンに前記応答情報を送信することに用いられ、
    前記第2の物理マシンは、前記仮想マシンリセットコマンドに基づいて、前記故障した仮想マシンをリセットすることに用いられる、
    ことを特徴とする仮想マシンクラスタの監視システム。
  13. 前記第2の物理マシンはさらに、前記故障した仮想マシンをリセットする時に、リセット応答信号を前記第1の物理マシンに送信し、前記リセットされた仮想マシンが第1のサービスプロセスリセット信号に基づいて、前記リセットされた仮想マシンのサービスプロセスを起動することに用いられ、
    前記第1の物理マシンはさらに、前記リセット応答信号を受信したことに応答し、予め記録された仮想マシンのメタ情報から故障した仮想マシンのアドレスを取得し、前記アドレスに基づいて、前記リセットされた仮想マシンと接続し、前記第1のサービスプロセスリセット信号を前記リセットされた仮想マシンに送信することに用いられる、
    ことを特徴とする請求項12に記載のシステム。
  14. 前記システムは、
    仮想マシン再構築コマンドに基づいて、前記故障した仮想マシンを再構築するための第3の物理マシンをさらに備えており、
    前記第1の物理マシンはさらに、前記仮想マシンリセットコマンドを送信した後の所定時間内に前記リセット応答信号を受信していないことに応答し、前記故障した仮想マシンのリセットが失敗したと判断し、リセット失敗の回数がプリセットされた回数に達することに応答し、前記仮想マシンクラスタのホスト物理マシンクラスタにおける、前記第2の物理マシン以外の物理マシンである第3の物理マシンに前記仮想マシン再構築コマンドを送信することに用いられる、
    ことを特徴とする請求項13に記載のシステム。
  15. 前記第3の物理マシンはさらに、再構築応答信号を前記第1の物理マシンに送信し、前記再構築された仮想マシンが、ノード回復コマンドに基づいて前記再構築された仮想マシンが管理ノードであると判断した場合に、前記ノード回復コマンドに基づいて、予めバックアップされた元の管理ノードに関連する増分データをリモートメモリからダウンロードし、前記増分データに基づいて、前記再構築された管理ノードのメタデータを回復し、前記仮想マシンクラスタにおける計算ノードの登録を受けており、ノード回復コマンドに基づいて前記再構築された仮想マシンが計算ノードであると判断した場合に、前記ノード回復コマンドに基づいて、前記仮想マシンクラスタにおける管理ノードに登録することに用いられ、
    前記第1の物理マシンはさらに、前記再構築応答信号を受信したことに応答し、前記仮想マシンのメタ情報から故障した仮想マシンのメタ情報を取得し、取得されたメタ情報に基づいて、前記ノード回復コマンドを前記再構築された仮想マシンに送信することに用いられる、
    ことを特徴とする請求項14に記載のシステム。
  16. 前記再構築された管理ノードはさらに、所定時間内に登録された、前記仮想マシンクラスタにおける計算ノードがプリセットされた割合以上であることに応答し、再構築が成功したと判断し、再構築が成功したことを指示する信号を前記第1の物理マシンに送信し、所定時間内に登録された、前記仮想マシンクラスタにおける計算ノードがプリセットされた割合より低いことに応答し、再構築が失敗したことを指示する警告信号を前記第1の物理マシンに送信することに用いられ、
    前記第1の物理マシンはさらに、再構築が成功したことを指示する前記信号に基づいて、前記再構築された管理ノードに受信されたユーザージョブを投入しており、再構築が失敗したことを指示する前記警告信号に基づいて、警告報知を表示することに用いられる、
    ことを特徴とする請求項15に記載のシステム。
  17. 前記第1の物理マシンはさらに、
    前記仮想マシンのメタ情報に基づいて、前記故障した仮想マシンが管理ノードを含むか否か及び故障した計算ノードの割合が閾値を超えるか否かを判断することと、
    故障した仮想マシンが管理ノードを含む又は故障した計算ノードの割合が閾値を超えると判断したことに応答し、前記仮想マシンクラスタが故障したと判断することと、
    前記仮想マシンクラスタが故障したことに応答し、引き続きユーザージョブを受信し、前記仮想マシンクラスタにおける管理ノードへの、ユーザージョブの投入を停止することと、
    前記応答情報がリセット又は再構築された仮想マシンからのものであることに応答し、前記リセット又は再構築された仮想マシンが管理ノードを含むか否か及び故障した計算ノードの割合が前記閾値を超えるか否かを判断することと、
    前記リセット又は再構築された仮想マシンが管理ノードを含み且つ故障した計算ノードの割合が前記閾値を超えていないと判断したことに応答し、前記仮想マシンクラスタが故障から回復したと判断することと、
    前記仮想マシンクラスタが故障から回復したことに応答し、引き続き前記仮想マシンクラスタにおける管理ノードにジョブを投入し、及び前記管理ノードから問い合わせられたジョブ状態情報に基づいて、前記仮想マシンクラスタが故障する前に実行したジョブが成功したか否かを判断し、成功した場合に、次のジョブを投入し、失敗した場合に、失敗したジョブを再投入することと、
    故障した仮想マシンが管理ノードを含まず且つ故障した計算ノードの割合が閾値を超えていないと判断したことに応答し、引き続きユーザージョブを受信し、前記ユーザージョブを前記仮想マシンクラスタにおける管理ノードに投入することと、
    に用いられて、
    ここで、ジョブ状態情報は、前記管理ノードが前記計算ノードのジョブログに基づいて取得するものであることを特徴とする請求項16に記載のシステム。
  18. バックアップされた操作ログを定期的にマージし、マージ時点前の操作ログを削除するためのリモートメモリをさらに備えており、
    前記仮想マシンクラスタにおける管理ノードはさらに、増分操作ログを前記リモートメモリに定期的にバックアップすることに用いられる、
    ことを特徴とする請求項17に記載のシステム。
  19. 前記仮想マシンクラスタにおける計算ノードはさらに、第2の所定時間毎に前記仮想マシンクラスタにおける管理ノードに第1のハートビート情報を送信して計算ノードに実行されている第2のサービスプロセスの状態情報を報告すること、及び異常な第2のサービスプロセスに位置する計算ノードが第2のサービスプロセスリセット信号に基づいて、前記異常な第2のサービスプロセスをリセットすることに用いられ、
    前記仮想マシンクラスタにおける管理ノードはさらに、前記第2のサービスプロセスの状態情報が所定の正常なプロセス条件に合致するか否かを判断し、合致しない場合に、前記第2のサービスプロセスの状態情報が所定の正常なプロセス条件に合致しない回数を記録し、前記第2のサービスプロセスの状態情報が所定条件に合致しない回数が所定回数を超えることに応答し、前記第2のサービスプロセスが異常であると判断し、第2のサービスプロセスリセット信号を前記異常な第2のサービスプロセスに位置する計算ノードに送信することに用いられる、
    ことを特徴とする請求項12〜18のいずれか一項に記載のシステム。
  20. 前記仮想マシンクラスタにおける計算ノードはさらに、前記仮想マシンクラスタにおける管理ノードに第2のハートビート情報を送信して仮想マシンの状態パラメータ情報を報告することに用いられ、
    前記仮想マシンクラスタにおける管理ノードはさらに、前記仮想マシンの状態パラメータ情報が予め設定された異常条件に合致するか否かを判断し、合致する場合に、警告報知を表示することに用いられる、
    ことを特徴とする請求項19に記載のシステム。
JP2016160156A 2015-10-26 2016-08-17 仮想マシンクラスタの監視方法及びシステム Active JP6285511B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510703270.3A CN105357038B (zh) 2015-10-26 2015-10-26 监控虚拟机集群的方法和系统
CN201510703270.3 2015-10-26

Publications (2)

Publication Number Publication Date
JP2017084333A true JP2017084333A (ja) 2017-05-18
JP6285511B2 JP6285511B2 (ja) 2018-02-28

Family

ID=55332914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016160156A Active JP6285511B2 (ja) 2015-10-26 2016-08-17 仮想マシンクラスタの監視方法及びシステム

Country Status (4)

Country Link
US (1) US10152382B2 (ja)
JP (1) JP6285511B2 (ja)
KR (1) KR101888029B1 (ja)
CN (1) CN105357038B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112398708A (zh) * 2020-11-09 2021-02-23 上海瀚银信息技术有限公司 一种通用易接入的监控方法及系统

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105871633A (zh) * 2016-05-31 2016-08-17 中国建设银行股份有限公司 一种应用控制方法、装置和系统
CN107465453A (zh) * 2016-06-02 2017-12-12 中兴通讯股份有限公司 一种光网络终端及其工作方法、及通信系统
CN107491339A (zh) * 2016-06-13 2017-12-19 深圳市深信服电子科技有限公司 服务器虚拟化的虚拟机监控方法及装置
CN106130763A (zh) * 2016-06-24 2016-11-16 平安科技(深圳)有限公司 服务器集群及适用于该集群的数据库资源组切换控制方法
CN107769943B (zh) * 2016-08-17 2021-01-08 阿里巴巴集团控股有限公司 一种主备集群切换的方法和设备
CN107819640B (zh) 2016-09-14 2019-06-28 北京百度网讯科技有限公司 用于机器人操作系统的监控方法和装置
CN108108255A (zh) * 2016-11-25 2018-06-01 中兴通讯股份有限公司 虚拟机故障的检测和恢复方法及装置
US10379922B1 (en) * 2017-03-24 2019-08-13 Intuit Inc. Error recovery in a virtual machine-based development environment
CN107426012B (zh) * 2017-05-27 2020-06-09 深信服科技股份有限公司 一种基于超融合架构的故障恢复方法及其装置
CN107171849B (zh) * 2017-05-31 2020-03-31 郑州云海信息技术有限公司 一种虚拟机集群的故障监控方法及装置
US10554492B2 (en) * 2017-06-09 2020-02-04 Microsoft Technology Licensing, Llc Physical machine management in distributed computing systems
CN109213743B (zh) * 2017-06-30 2021-10-15 北京京东尚科信息技术有限公司 一种数据查询方法和装置
CN109558272A (zh) * 2017-09-26 2019-04-02 北京国双科技有限公司 服务器的故障恢复方法和装置
CN108023782B (zh) * 2017-12-29 2020-11-27 华东师范大学 一种基于维修记录的设备故障预警方法
EP3764226A4 (en) 2018-04-12 2021-03-10 Huawei Technologies Co., Ltd. VIRTUAL MACHINE STATUS DETECTION METHOD AND DEVICE
CN108874640B (zh) * 2018-05-07 2022-09-30 北京京东尚科信息技术有限公司 一种集群性能的评估方法和装置
CN108900324B (zh) * 2018-06-13 2021-10-15 平安科技(深圳)有限公司 校验虚拟机通信性能的方法及装置
CN110727652B (zh) * 2018-07-17 2023-06-30 阿里巴巴集团控股有限公司 一种云存储处理系统及其实现数据处理的方法
CN109495560B (zh) * 2018-11-07 2021-06-29 郑州云海信息技术有限公司 一种链路建立方法、装置、设备及存储介质
CN109542725B (zh) * 2018-11-15 2022-04-05 北京金山云网络技术有限公司 一种分布式系统的服务质量监控方法、装置及监控服务器
WO2020107198A1 (zh) * 2018-11-27 2020-06-04 刘馥祎 运算设备维护方法及装置、存储介质和程序产品
US11573973B1 (en) * 2018-12-19 2023-02-07 Vivek Vishnoi Methods and systems for the execution of analysis and/or services against multiple data sources while maintaining isolation of original data source
CN109714202B (zh) * 2018-12-21 2021-10-08 郑州云海信息技术有限公司 一种客户端离线原因判别方法和集群式安全管理系统
CN110177018A (zh) * 2019-06-04 2019-08-27 北京百度网讯科技有限公司 用于控制网络状态的方法及装置
CN110908832A (zh) * 2019-10-24 2020-03-24 烽火通信科技股份有限公司 一种云平台的虚拟机故障疏散方法、系统及计算机可读介质
CN112817686B (zh) * 2019-11-15 2023-07-25 北京百度网讯科技有限公司 检测虚拟机异常的方法、装置、设备和计算机存储介质
CN111124755B (zh) * 2019-12-06 2023-08-15 中国联合网络通信集团有限公司 集群节点的故障恢复方法、装置、电子设备及存储介质
US20210271506A1 (en) * 2020-02-28 2021-09-02 Cisco Technology, Inc. Centralized management, provisioning and monitoring of cloud infrastructure
CN111988367B (zh) * 2020-07-30 2022-05-10 苏州浪潮智能科技有限公司 一种服务器集群中单服务器的管理方法及系统
CN112148433A (zh) * 2020-10-12 2020-12-29 北京计算机技术及应用研究所 一种基于云环境下的资源运维方法、装置及存储集群
CN112231066B (zh) * 2020-10-29 2024-02-13 北京思特奇信息技术股份有限公司 一种基于jvm内存使用的优化处理方法及系统
CN112636461B (zh) * 2020-11-09 2022-08-02 国家电网有限公司 一种用于故障录波器的远程重启方法及系统
CN112506691B (zh) * 2020-12-14 2024-04-19 贵州电网有限责任公司 一种多能源系统数字孪生应用故障恢复方法及系统
CN112667999A (zh) * 2020-12-31 2021-04-16 中电长城网际安全技术研究院(北京)有限公司 虚拟机的执行时间调整方法和装置
CN113010392B (zh) * 2021-02-08 2023-06-20 建信金融科技有限责任公司 大数据平台的测试方法、装置、设备、存储介质和系统
CN112988463B (zh) * 2021-02-23 2022-08-30 新华三大数据技术有限公司 一种故障节点隔离方法及装置
CN112965791B (zh) * 2021-03-29 2022-06-07 北京三快在线科技有限公司 定时任务检测方法、装置、设备及存储介质
CN113157481A (zh) * 2021-04-28 2021-07-23 中国工商银行股份有限公司 基于集群的服务器跳时间故障处理方法、装置及系统
CN113381887B (zh) * 2021-06-08 2023-04-07 中国工商银行股份有限公司 计算节点故障处理方法及装置
CN113625946A (zh) * 2021-06-28 2021-11-09 苏州浪潮智能科技有限公司 一种实现存储集群仲裁的方法、系统及计算机设备
CN113542398B (zh) * 2021-07-13 2023-09-19 广州云从凯风科技有限公司 分布式集群系统的管控方法、装置、介质和设备
CN113608836A (zh) * 2021-08-06 2021-11-05 上海英方软件股份有限公司 一种基于集群的虚拟机高可用方法及系统
CN114205231A (zh) * 2021-12-06 2022-03-18 湖北美和易思教育科技有限公司 批量启动hadoop集群的方法、系统及可读存储介质
CN114257601B (zh) * 2021-12-16 2023-11-17 杭州谐云科技有限公司 一种云边协同的集群构建方法和系统
WO2023185355A1 (zh) * 2022-03-28 2023-10-05 同方威视技术股份有限公司 实现集群虚拟机高可用的方法和装置、设备和介质
CN115174223B (zh) * 2022-07-06 2023-03-21 北京神州慧安科技有限公司 一种工控主机安全防护方法、系统、智能终端及存储介质
CN114880080B (zh) * 2022-07-11 2022-09-20 国网信息通信产业集团有限公司 一种虚拟机高可用方法及计算集群
CN115333944B (zh) * 2022-07-20 2023-08-11 苏州浪潮智能科技有限公司 虚拟机集群ip资源配置方法、系统、设备和存储介质
WO2024034750A1 (ko) * 2022-08-09 2024-02-15 엘지전자 주식회사 신호 처리 장치, 및 이를 구비하는 차량용 증강현실 장치
CN115549751A (zh) * 2022-08-12 2022-12-30 中国科学院空天信息创新研究院 遥感卫星地面站监控系统和方法
CN115250246B (zh) * 2022-09-21 2022-12-06 之江实验室 一种监测虚拟机集群中节点状态的方法和计算机系统
CN116155691A (zh) * 2023-02-03 2023-05-23 北京达佳互联信息技术有限公司 数据处理方法及其装置
CN117032881A (zh) * 2023-07-31 2023-11-10 广东保伦电子股份有限公司 一种虚拟机异常检测和恢复的方法、装置及存储介质
CN116866154B (zh) * 2023-09-05 2023-11-28 湖北华中电力科技开发有限责任公司 一种基于虚拟机集群的配电网通讯服务智能调度管理系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082816A (ja) * 2000-09-07 2002-03-22 Hitachi Ltd 障害監視システム
JP2007199829A (ja) * 2006-01-24 2007-08-09 Hitachi Ltd 計算機制御方法、情報処理システム、運用管理装置、計算機および計算機制御プログラム
JP2007329345A (ja) * 2006-06-08 2007-12-20 Hitachi Kokusai Electric Inc 基板処理装置
JP2011186783A (ja) * 2010-03-09 2011-09-22 Fujitsu Ltd スナップショット管理方法、スナップショット管理装置、及びプログラム
JP2012208605A (ja) * 2011-03-29 2012-10-25 Hitachi Systems Ltd 仮想サーバid管理システム、統合監視システム、仮想サーバid管理プログラム、及び統合監視プログラム
JP2012243255A (ja) * 2011-05-24 2012-12-10 Intelligent Willpower Corp バーチャルマシン提供システム
JP2015148843A (ja) * 2014-02-04 2015-08-20 西日本電信電話株式会社 仮想マシン管理システム、仮想マシン管理方法、環境管理サーバ及びプログラム
JP2015158773A (ja) * 2014-02-24 2015-09-03 富士通株式会社 仮想装置の動作検証装置,仮想装置の動作検証システム及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080189700A1 (en) * 2007-02-02 2008-08-07 Vmware, Inc. Admission Control for Virtual Machine Cluster
US8424000B2 (en) * 2010-07-30 2013-04-16 Symantec Corporation Providing application high availability in highly-available virtual machine environments
US8924967B2 (en) * 2011-04-28 2014-12-30 Vmware, Inc. Maintaining high availability of a group of virtual machines using heartbeat messages
CN102355369B (zh) * 2011-09-27 2014-01-08 华为技术有限公司 虚拟化集群系统及其处理方法和设备
CN102983990A (zh) * 2012-11-07 2013-03-20 曙光云计算技术有限公司 虚拟机的管理方法和装置
CN103036975B (zh) * 2012-12-13 2016-03-09 深信服网络科技(深圳)有限公司 虚拟机控制方法及装置
CN103152419B (zh) * 2013-03-08 2016-04-20 中标软件有限公司 一种云计算平台的高可用集群管理方法
US9208015B2 (en) * 2013-06-18 2015-12-08 Vmware, Inc. Hypervisor remedial action for a virtual machine in response to an error message from the virtual machine
US9483352B2 (en) * 2013-09-27 2016-11-01 Fisher-Rosemont Systems, Inc. Process control systems and methods
CN103607296B (zh) * 2013-11-01 2017-08-22 新华三技术有限公司 一种虚拟机故障处理方法和设备
CN103559108B (zh) * 2013-11-11 2017-05-17 中国科学院信息工程研究所 一种基于虚拟化实现主备故障自动恢复的方法及系统
US9582373B2 (en) * 2014-03-31 2017-02-28 Vmware, Inc. Methods and systems to hot-swap a virtual machine

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082816A (ja) * 2000-09-07 2002-03-22 Hitachi Ltd 障害監視システム
JP2007199829A (ja) * 2006-01-24 2007-08-09 Hitachi Ltd 計算機制御方法、情報処理システム、運用管理装置、計算機および計算機制御プログラム
JP2007329345A (ja) * 2006-06-08 2007-12-20 Hitachi Kokusai Electric Inc 基板処理装置
JP2011186783A (ja) * 2010-03-09 2011-09-22 Fujitsu Ltd スナップショット管理方法、スナップショット管理装置、及びプログラム
JP2012208605A (ja) * 2011-03-29 2012-10-25 Hitachi Systems Ltd 仮想サーバid管理システム、統合監視システム、仮想サーバid管理プログラム、及び統合監視プログラム
JP2012243255A (ja) * 2011-05-24 2012-12-10 Intelligent Willpower Corp バーチャルマシン提供システム
JP2015148843A (ja) * 2014-02-04 2015-08-20 西日本電信電話株式会社 仮想マシン管理システム、仮想マシン管理方法、環境管理サーバ及びプログラム
JP2015158773A (ja) * 2014-02-24 2015-09-03 富士通株式会社 仮想装置の動作検証装置,仮想装置の動作検証システム及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112398708A (zh) * 2020-11-09 2021-02-23 上海瀚银信息技术有限公司 一种通用易接入的监控方法及系统

Also Published As

Publication number Publication date
KR101888029B1 (ko) 2018-09-11
JP6285511B2 (ja) 2018-02-28
US10152382B2 (en) 2018-12-11
CN105357038B (zh) 2019-05-07
KR20170048141A (ko) 2017-05-08
US20170116084A1 (en) 2017-04-27
CN105357038A (zh) 2016-02-24

Similar Documents

Publication Publication Date Title
JP6285511B2 (ja) 仮想マシンクラスタの監視方法及びシステム
US20210004262A1 (en) Managed orchestration of virtual machine instance migration
US10261853B1 (en) Dynamic replication error retry and recovery
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
US8615578B2 (en) Using a standby data storage system to detect the health of a cluster of data storage servers
WO2021129367A1 (zh) 一种监控分布式存储系统的方法及装置
JP5562444B2 (ja) クラスタシステムにおいてクラスタ非対応アプリケーションをフェールオーバーするためのシステムおよび方法
CA2957749C (en) Systems and methods for fault tolerant communications
US9110867B2 (en) Providing application based monitoring and recovery for a hypervisor of an HA cluster
US20170147457A1 (en) Automated stalled process detection and recovery
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
US8862927B2 (en) Systems and methods for fault recovery in multi-tier applications
US9164864B1 (en) Minimizing false negative and duplicate health monitoring alerts in a dual master shared nothing database appliance
CN106528327A (zh) 一种数据处理方法以及备份服务器
CN109558260B (zh) Kubernetes故障排除系统、方法、设备及介质
Gokhroo et al. Detecting and mitigating faults in cloud computing environment
CN110825562B (zh) 数据备份方法、装置、系统和存储介质
US10228969B1 (en) Optimistic locking in virtual machine instance migration
US9148479B1 (en) Systems and methods for efficiently determining the health of nodes within computer clusters
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
US20180107555A1 (en) Correlating operational information with an error condition in a dispersed storage network
EP4250119A1 (en) Data placement and recovery in the event of partition failures
JP6828558B2 (ja) 管理装置、管理方法及び管理プログラム
CN110543385A (zh) 一种虚拟化备份方法和虚拟化备份还原方法
US10915380B2 (en) Global coordination of in-progress operation risks for multiple distributed storage network memories

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180201

R150 Certificate of patent or registration of utility model

Ref document number: 6285511

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250