JP2014522052A - ハードウェア故障の軽減 - Google Patents

ハードウェア故障の軽減 Download PDF

Info

Publication number
JP2014522052A
JP2014522052A JP2014523933A JP2014523933A JP2014522052A JP 2014522052 A JP2014522052 A JP 2014522052A JP 2014523933 A JP2014523933 A JP 2014523933A JP 2014523933 A JP2014523933 A JP 2014523933A JP 2014522052 A JP2014522052 A JP 2014522052A
Authority
JP
Japan
Prior art keywords
agent device
agent
resource allocation
server hardware
hardware failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014523933A
Other languages
English (en)
Inventor
バウアー,エリック・ジェイ
アダムス,ランディー・エス
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2014522052A publication Critical patent/JP2014522052A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1034Reaction to server failures by a load balancer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2048Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1029Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers using data related to the state of servers by a load balancer

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

様々な例示的実施形態は、以下の1つまたは複数を含む方法および関連するネットワークノードに関する:資源割り当て装置によってサーバハードウェアの故障を検出するステップ、サーバハードウェアを利用するように構成された第1のエージェント装置を識別するステップ、およびサーバハードウェア故障に応答して第1のエージェント装置の再構成をもたらすように少なくとも1つの処置をとるステップ。様々な実施形態は追加として以下の1つまたは複数を含む:サーバハードウェアを利用するように構成された第2のエージェント装置を識別するステップ、およびサーバハードウェア故障に応答して第2のエージェント装置の再構成をもたらすように少なくとも1つの処置をとるステップ。様々な実施形態は追加として以下の1つまたは複数を含む:資源割り当て装置によって、第1のエージェント装置とは異なる第2のエージェント装置からサーバハードウェアの故障の表示を受け取るステップ。

Description

本明細書で開示される様々な例示的実施形態は、一般にシステム信頼性および可用性に関する。
仮想化およびクラウドコンピューティングなどの技術の進歩は、これまでは専用およびスタンドアロンのハードウェアに関連した様々なアプリケーションの、共有ハードウェア資源をもたらす機械への移行を促進してきている。このいわゆる「サーバコンソリデーション」は、利用可能な資源のより十分な利用、したがって使用されていない資源に関連するコストの低減を可能にする。例えばこれまで少ししか利用されていなかったサーバを撤退させることによって、エネルギー消費、床面積、および他のサーバコストを低減することができる。
しかしスタンドアロンサーバは他の利点をもたらす。例えばスタンドアロンサーバはハードウェア故障の強固な封じ込めをもたらし、アプリケーションに関連するハードウェアが故障した場合はそのアプリケーションのみに影響を及ぼし得る。しかしサーバコンソリデーションは、単一のハードウェア故障が、複数のアプリケーションに影響を及ぼし得る可能性を生ぜしめる。例えば4つのアプリケーションがCPUを共有している場合に、そのCPUがハードウェア故障を経験すると、4つすべてのアプリケーションが危険に曝され救済不能となり得る。
様々な例示的実施形態は、ハードウェア故障の影響を軽減するために、サーバ資源を割り当てる資源割り当て装置によって行われる方法に関し、方法は以下の1つまたは複数を含む:資源割り当て装置によってサーバハードウェアの故障を検出するステップ、サーバハードウェアを利用するように構成された第1のエージェント装置を識別するステップ、およびサーバハードウェア故障に応答して第1のエージェント装置の再構成をもたらすように少なくとも1つの処置をとるステップ。
様々な例示的実施形態は、以下の1つまたは複数を含む資源割り当て装置に関する:第1のエージェント装置定義を記憶するエージェント装置定義記憶装置であって、第1のエージェント装置定義が第1のエージェント装置および関連するサーバハードウェア資源を識別する、エージェント装置定義記憶装置、サーバハードウェア資源の故障を検出するように構成されたハードウェア故障検出器、およびエージェント装置定義に基づいて、サーバハードウェア資源を利用するように構成されたエージェント装置として第1のエージェント装置を識別し、サーバハードウェア故障に応答して第1のエージェント装置の再構成をもたらすように少なくとも1つの処置をとるように構成されたエージェント装置保護モジュール。
様々な例示的実施形態は、ハードウェア故障の影響を軽減するための命令で符号化された有形で非一時的な機械可読記憶媒体に関し、有形で非一時的な機械可読記憶媒体は以下の1つまたは複数を含む:資源割り当て装置によってサーバハードウェアの故障を検出するための命令、サーバハードウェアを利用するように構成された第1のエージェント装置を識別するための命令、およびサーバハードウェア故障に応答して第1のエージェント装置の再構成をもたらすように少なくとも1つの処置をとるための命令。
様々な例示的実施形態は、ハードウェア故障の影響を軽減するためのハイパーバイザによって行われる方法に関し、方法は以下の1つまたは複数を含む:ハイパーバイザによってサーバハードウェアの故障を検出するステップ、サーバハードウェアを利用するように構成された第1の仮想マシンを識別するステップ、およびサーバハードウェア故障に応答して第1のマシンの再構成をもたらすように少なくとも1つの処置をとるステップ。
様々な実施形態は追加として以下の1つまたは複数を含む:サーバハードウェアに関連する第2のエージェント装置を識別するステップ、およびサーバハードウェア故障に応答して第2のエージェント装置の再構成をもたらすように少なくとも1つの処置をとるステップ。
サーバハードウェアの故障を検出するステップが以下を含む様々な実施形態が述べられる:資源割り当て装置によって、第1のエージェント装置とは異なる第2のエージェント装置から、サーバハードウェアの故障の表示を受け取るステップ。
少なくとも1つの処置が、第1のエージェント装置のためにサーバハードウェア資源を割り当てるように第2の資源割り当て装置に指示するステップを含む様々な実施形態が述べられる。少なくとも1つの処置が、第1のエージェント装置に関連する装置イメージを第2の資源割り当て装置に送出するステップをさらに含む様々な実施形態が述べられる。第2の資源割り当て装置に指示するステップが、インターネットを通じて第2の資源割り当て装置に指示メッセージを送出するステップを含む様々な実施形態が述べられる。
少なくとも1つの処置が、第1のエージェント装置の動作を中断するステップを含む様々な実施形態が述べられる。
少なくとも1つの処置が、第1のエージェント装置に対してエラーをシミュレートするステップを含む様々な実施形態が述べられる。第1のエージェント装置に対してエラーをシミュレートするステップが、エージェント装置に関連する装置にインターネットを通じてエラーメッセージを送出するステップを含む様々な実施形態が述べられる。
様々な例示的実施形態をより良く理解するために添付の図面を参照する。
共有ハードウェア資源をもたらすための例示のシステムを示す図である。 図1aのいくつかの構成要素に対する代替の構成を示す図である。 図1aのいくつかの構成要素に対する他の代替の構成を示す図である。 ハードウェア故障からエージェント装置を保護するための例示の資源割り当て装置を示す図である。 複数のエージェント装置定義を記憶するための例示のデータ構成を示す図である。 ハードウェア故障からエージェント装置を保護する例示の方法を示す図である。
理解を容易にするために、実質的に同じまたは同様な構造体、および/または実質的に同じまたは同様な機能を有する要素を示すために、同一の参照番号が用いられている。
上記に鑑みて、このような資源の故障から、ハードウェア資源を共有するエージェント装置を保護する方法を提供することが望ましい。具体的には、故障によってエージェント装置が影響を受けることになる可能性を最小にしながら、このようなエージェント装置の継続する動作を可能にすることが望ましい。次に図面を参照して、様々な例示的実施形態の広範な態様が開示される。
図1aは、共有ハードウェア資源を実現するための例示のシステム100aを示す。例示のシステムは、複数のクライアント装置110a−c、ネットワーク120、資源割り当て装置130a−b、および複数のエージェント装置140a−dを含むことができる。資源割り当て装置130a−b、およびエージェント装置140a−dは、1つまたは複数のクラウドコンピューティングインフラストラクチャの中に存在することができる。
クライアント装置110a−cはそれぞれ、ネットワーク120などのネットワークと通信することができる任意の装置を含むことができる。ここでは3つの装置が示されるが、例示のシステム100aは、より少ないまたは多い装置を含むことができる。さらに例示のシステム100aに参加するクライアント装置の数は、動作時に変化し得る。例えばクライアント装置110aは例示のシステム100aへの参加を中止することができ、および/または他の2つのクライアント装置(図示せず)が同様な参加を開始することができる。
各クライアント装置110a−cは、パーソナルまたはラップトップコンピュータ、端末装置、サーバ、タブレット、無線電子メール装置、携帯電話、スマートフォン、テレビションセットトップボックス、またはネットワーク120を通じて他の装置と通信することができる任意の他の装置とすることができる。各クライアント装置110a−cは、種々の理由により例示のシステム100aに参加することができる。例えばクライアント装置110aはシンクライアントとすることができ、クライアント装置110aの通常の動作に関するほとんどまたはすべての処理を行うのに、例示のシステム内の他の資源に依存することができる。他の例としてクライアント装置110bは、ほとんどのタスクを独立して行うことができるパーソナルコンピュータとすることができ、例えば大きな音楽または電子ブックコレクションなどのデータを記憶し、取り出すために例示のシステム100a内の他の資源に依存することができる。他の例としてクライアント装置110cは、他の装置(図示せず)から要求を受け取り、応答するサーバとすることができる。クライアント装置110cは、クライアント装置110cが、効率、応答時間、またはサーバ負荷を計量する他の計量の何らかの基準内で処理するのに、このような要求が到来する速度が高すぎる時に、このような要求の一部分を処理するために例示のシステム100a内の他の資源に依存することができる。
ネットワーク120は、例示のシステム100a内の他の装置の間の通信をもたらすようになされた装置または一群の装置とすることができる。したがってネットワーク120は、適切な宛先にパケットを転送するための複数のルータおよび/またはスイッチを含むことができる。様々な実施形態ではネットワーク120は、1つまたは複数の2G、3G、および/または4Gシステム、および/または他の無線システムを含むことができる。さらに様々な実施形態ではネットワーク120は、インターネット、および/または1つまたは複数のローカルエリアネットワーク(LAN)などの有線ネットワークを含むことができる。
資源割り当て装置130a−bはそれぞれ、エージェント装置140a−dを管理する装置とすることができる。例えば資源割り当て装置130aはエージェント装置140a−bを管理することができ、資源割り当て装置130bはエージェント装置140c−dを管理することができる。このようなエージェント装置140a−dの管理において、資源割り当て装置130a−bは各エージェント装置140a−dに対する共有ハードウェア資源の割り振りおよび/または実施を行うことができる。例えば資源割り当て装置130aは、エージェント装置1 140aが第1のCPU上の処理時間の20%を使用でき、エージェント装置M 140bは同じCPUの処理時間の10%を使用できることを確実にすることができる。したがって様々な実施形態では資源割り当て装置130a−bは、それぞれハイパーバイザを含むことができる。資源割り当て装置130a−bは、例えば要求および応答メッセージ経路設定、資源予約、負荷バランス、使用量計量、および/または課金などの多数の追加の機能を行うことができる。例示のシステム100aは2つの資源割り当て装置130a−bを含むが、様々な実施形態はより少ないまたは多い資源割り当て装置(図示せず)を含み得ることに留意されたい。
エージェント装置140a−dはそれぞれ、1つまたは複数のクライアント装置110a−cと共に動作するように構成された装置とすることができる。各エージェント装置140a−dは、1つまたは複数のプロセッサ、メモリ、記憶装置、および/またはネットワークインターフェースなどのハードウェア資源を含むことができる。様々な実施形態ではエージェント装置140a−dは、このようなハードウェア資源を他のエージェント装置140a−d、および/または資源割り当て装置130a−bと共有することができる。例えばエージェント装置1 140aは、資源割り当て装置130aおよびエージェント装置M 140bと、CPUを共有することができる。このようなハードウェア資源は1つまたは複数の物理サーバ(図示せず)の中に配置することができる。様々な実施形態では1つまたは複数のエージェント装置140a−dは、仮想マシンを含むことができる。
いくつかの実施形態によれば資源割り当て装置130a−bは、それらが管理するエージェント装置140a−dと同じ物理サーバ上に一緒に存在することができる。例えば資源割り当て装置130aおよびエージェント装置140a−bは、単一の物理サーバ150a上に一緒に存在することができる。このような実施形態では資源割り当て装置130aはハイパーバイザを含むことができ、エージェント装置140a−bはそれぞれ仮想装置を含むことができ、それらのすべては単一の物理サーバ上で実行することができる。同様に資源割り当て装置130bおよびエージェント装置140c−dは、別の物理サーバ160a上に一緒に存在することができる。しかし本明細書で述べられる方法は、様々な代替構成に応用できることが明らかであろう。例えば図1bに示されるような代替構成100bは、資源割り当て装置130aは第1の物理サーバ150b上に存在することができ、エージェント装置140a−bはすべて第2の物理サーバ152b上に存在できることを示している。他の代替として図1cに示されるような代替構成100cは、資源割り当て装置130cおよびエージェント装置140a−bは、それぞれ独立の物理サーバ150c、152c、154c上に存在できることを示す。様々な追加の構成は、当業者には明らかであろう。
図1aに戻ると資源割り当て装置130a−bは、ハードウェア故障を検出するとすぐに、エージェント装置140a−dをプロアクティブに保護するように構成することができる。資源割り当て装置130a−bは、例えば割り込みを受け取ること、ハードウェア装置から1つまたは複数ハートビート応答信号の受け取りに失敗すること、1つまたは複数のステータスレジスタを読み出すこと、無応答のハードウェア装置を識別すること、および/またはハードウェア装置にアクセスを試みたときにエラー表示を受け取ることなどの多数の方法によって、このようなハードウェア故障を検出することができる。当業者には、ハードウェア故障検出のための多数の追加の方法が明らかになるであろう。
ハードウェア故障を検出するとすぐに資源割り当て装置130a−bは最初に、故障によって潜在的に影響を受け得るエージェント装置を識別することができる。例えば資源割り当て装置130a−bは、どのエージェント装置が現在、故障したハードウェア装置の少なくとも割り当て分を利用するように割り振られているかを判断することができる。様々な代替実施形態では、資源割り当て装置によって管理されるすべてのエージェント装置140a−dは、潜在的に影響を受けると想定することができる。それぞれの潜在的に影響を受けるエージェント装置140a−dに対して、資源割り当て装置130a−bは、例えば別の資源割り当て装置130a−bへのエージェント装置140a−dのライブマイグレーションを行うこと、エージェント装置140a−dの動作を中断すること、および/またはエージェント装置140a−dに対してハードウェアエラーをシミュレートすることなどの、エージェント装置140a−dをハードウェア故障から保護するためのステップをとることができる。
ライブマイグレーションの場合は、ハードウェア故障を検出した資源割り当て装置130a−bは、1つまたは複数エージェント装置を別の資源割り当て装置130a−bに移動するように、別の資源割り当て装置130a−bと通信することができる。例えばハードウェアエラーを検出し、それがエージェント装置1 140aに影響を与え得ると判断するとすぐに、資源割り当て装置130aはエージェント装置140aの代わりとなるための新しいエージェント装置(図示せず)をインスタンス化するように、資源割り当て装置130bに指示することができる。資源割り当て装置130aはさらに、エージェント装置1 140aが最近保持していたのと同じプロセッサ状態、メモリ内容、および/または他の状態を用いて、新しいエージェント装置を生成できるように、資源割り当て装置130bに装置イメージを送出し、それによって新しいハードウェアを利用するためのエージェント装置140aのマイグレーションの影響を最小にすることができる。
動作を中断する、またはエラーをシミュレートする場合は、資源割り当て装置130a−bは何らかの他の構成要素に、エラーからエージェント装置140a−dを分離するようにさらなる処置をとるように促すことができる。例えば資源割り当て装置130aは、ハードウェア故障を検出しそれに応答して、その旨を示すメッセージをクライアント装置110a(クライアント装置110aがエージェント装置1 140aに関連すると仮定して)に送出することにより、エージェント装置1 140aのエラーをシミュレートすることができる。その後にクライアント装置110aは、例えば要求をエージェント装置M+1 140cなどの冗長なエージェント装置に方向付けるなどの、エラーを処理するための他の技法に依存することができる。
他の例では資源割り当て装置130aは、ハードウェア故障を検出し、エージェント装置M 140bが潜在的に影響を受けると判断することができる。それに応答して資源割り当て装置130aは、エージェント装置M 140bの動作を中断することができる。その後に例えばクライアント装置110cまたはエージェント装置M+N 140dなどの別の装置は、エージェント装置M 140bとの通信を試みるが、応答を受け取れないことになり得る。その後にこの別の装置は、無応答のエージェント装置140bを処理するためのステップをとることができる。したがってこれらの方法を使用することよって資源割り当て装置130aは、エージェント装置がハードウェアエラーによって実際に影響を受ける前に、他の装置のエラー処理機能を活動化することができる。
図2は、ハードウェア故障からエージェント装置を保護するための、例示の資源割り当て装置200を示す。資源割り当て装置200は、システム100aの資源割り当て装置130a−bの一方または両方に対応することができる。資源割り当て装置200は、ネットワークインターフェース210、エージェント装置マネージャ220、エージェント装置定義記憶装置230、エージェント装置インターフェース240、ハードウェア故障検出器250、およびエージェント装置保護モジュール260を含むことができる。
ネットワークインターフェース210は、少なくとも1つの他の装置と通信するように構成された、ハードウェアおよび/または機械可読記憶媒体上に符号化された実行可能命令を含む、インターフェースとすることができる。例えばネットワークインターフェース210は、クライアント装置、エージェント装置、および/または他の資源割り当て装置と通信することができる。したがってネットワークインターフェース210は、インターネットなどのネットワークを通じて通信するための1つまたは複数のイーサネット(登録商標)インターフェースを含むことができる。さらにネットワークインターフェース210は、異なるアドレスを有する、異なるプロトコルを有する、および/または異なる物理サーバの属する多数のインターフェースを含むことができる。さらに資源割り当て装置200は、ネットワークインターフェース210またはその一部分を、例えばエージェント装置などの他の構成要素と共有することができる。
エージェント装置マネージャ220は、エージェント装置を確立し管理するように構成された、ハードウェアおよび/または機械可読記憶媒体上の実行可能命令を含むことができる。様々な実施形態ではエージェント装置マネージャ220は、様々なエージェント装置の確立を求める要求を受け取り、その後に少なくとも部分的に、エージェント装置定義を生成することによって、要求されたエージェント装置を確立することができる。その際にエージェント装置マネージャ220は、要求、クライアント装置、契約者特権、利用可能なハードウェア資源、および/または様々な他の考慮事項に基づいて、それぞれの新しいエージェント装置にハードウェア資源の割り当て分を割り当てることができる。次いでエージェント装置マネージャ220は、この定義をエージェント装置定義記憶装置230に記憶することができる。エージェント装置マネージャ220は、例えばエージェント装置と、ネットワークインターフェース210を通じてアクセス可能な他の装置との間のメッセージ経路設定、および/または割り振られたハードウェア資源の実施などの、様々な追加の機能を行うことができる。
エージェント装置定義記憶装置230は、様々なエージェント装置定義を記憶することができる任意の機械可読媒体とすることができる。したがってエージェント装置定義記憶装置230は、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリ装置、および/または同様な記憶媒体などの、機械可読記憶媒体を含むことができる。エージェント装置定義記憶装置230の内容については、以下で図3に関連してより詳しく説明する。
エージェント装置インターフェース240は、少なくとも1つのエージェント装置と通信するように構成された、ハードウェアおよび/または機械可読記憶媒体上に符号化された実行可能命令を含む、インターフェースとすることができる。様々な実施形態ではエージェント装置インターフェース240は、オペレーティングシステムまたは他の環境によってもたらされる1つまたは複数の通信の方法を含むことができる。例えばエージェント装置インターフェース240は、ソケット、パイプ、メッセージキュー、および/または共有メモリを含むことができる。代替としてまたは追加としてエージェント装置インターフェース240は、システムバス、SCSI、SATA、PATA、USB、IEEE1394などのインターフェース、および/またはイーサネットインターフェースなどのネットワークインターフェースを含むことができる。それに従って様々な実施形態ではエージェント装置インターフェース240は、ネットワークインターフェース210を含むことができる。
ハードウェア故障検出器250は、資源割り当て装置200および/または1つまたは複数エージェント装置に関連するハードウェアの故障を検出するように構成された、ハードウェアおよび/または機械可読記憶媒体上の実行可能命令を含むことができる。例えば資源割り当て装置200に関連する1つまたは複数のエージェント装置は、ハードウェアエラーに遭遇するとすぐに割り込みを送出するように構成することができる。ハードウェア故障検出器250はこのような割り込みを受け取り、その後にハードウェア故障が発生したと判断することができる。追加としてまたは代替としてハードウェア故障検出器250は定期的に、ハードウェア装置に対してポーリングする、および/またはハードウェア装置からハートビート信号を受け取ることができる。1つまたは複数のポーリング応答および/またはハートビート信号の受け取りの失敗は、ハードウェア故障が発生したことをハードウェア故障検出器250に知らせることができる。例えばハードウェアステータスレジスタを読み出すこと、無応答のハードウェアに遭遇すること、および/またはハードウェア装置へのアクセスの試みのすぐ後にエラーを受け取ることなど、ハードウェア故障を検出する多数の追加または代替の方法が当業者には明らかになるであろう。ハードウェア故障を検出するとすぐにハードウェア故障検出器250は、故障した装置をエージェント装置保護モジュール260に報告することができる。
エージェント装置保護モジュール260は、ハードウェア故障によって影響を受け得るエージェント装置を識別し、その後にそのような影響を回避するためのステップをとるように構成された、ハードウェアおよび/または機械可読記憶媒体上の実行可能命令を含むことができる。特定のハードウェア装置が故障したまたは故障しつつあるとの表示を、ハードウェア故障検出器250から受け取るとすぐに、エージェント装置保護モジュール260は、故障したハードウェア装置の割り当て分が割り当てられた、あるいは影響を受け得るエージェント装置を識別することができる。例えばエージェント装置保護モジュール260は、エージェント装置定義記憶装置を順に処理し、故障したハードウェアに関連するエージェント装置を識別することができる。代替としてエージェント装置保護モジュールは単に、資源割り当てモジュール200に関連するいずれのエージェント装置も潜在的に影響を受けると想定することができる。
潜在的に影響を受けるエージェント装置を識別した後にエージェント装置保護モジュール260は、それぞれの識別されたエージェント装置に対して何らかの保護処置をとることができる。エージェント装置保護モジュール260は、それぞれの識別された装置に対して同じ処置をとることができ、または異なるエージェント装置に対して異なる保護処置が適していると判断することができる。様々な実施形態ではエージェント装置保護モジュール260は、エージェント装置が故障したハードウェアをもはや利用しないように、エージェント装置のための資源を再割り当てすることができる。代替としてまたは追加としてエージェント装置保護モジュールは、エージェント装置の動作を中断する、および/またはエージェント装置に関するエラーをシミュレートすることができる。その際にエージェント装置保護モジュール260は、ハードウェア故障がエージェント装置に実際に影響を与える前に、他の構成要素(図示せず)に救済措置をとるように促すことができる。
他の代替または追加の保護処置としてエージェント装置保護モジュール260は、1つまたは複数エージェント装置を別の資源割り当て装置にライブマイグレーションすることができる。例えばエージェント装置保護モジュール260は、置き換えのエージェント装置のためにハードウェアが割り当てられるべきである旨の指示を別の資源割り当て装置に送出することができる。その際にエージェント装置保護モジュール260は、ハードウェア要件などのエージェント装置を定義する情報を送出することができる。エージェント装置保護モジュール260はまた、置き換えのエージェント装置にマイグレーションされるエージェント装置のコンテキストを複製するために装置イメージを送出することができる。様々な実施形態ではエージェント装置保護モジュール260は、ハードウェア故障の表示を受け取るとすぐに、またはエージェント装置の正常動作時に定期的に、このような装置イメージを生成することができる。様々な実施形態ではエージェント装置保護モジュールは、エージェント装置定義記憶装置に記憶されたエージェント装置定義またはその一部分を送出することができる。送出された情報は何でも用いて、別の資源割り当て装置(図示せず)は、エージェント装置のコピーを確立し、それによって新しいハードウェアへのエージェント装置にマイグレーションすることができる。
図3は、複数のエージェント装置定義を記憶するための例示のデータ構成300を示す。データ構成300は、エージェント装置定義記憶装置230などのデータベース内のテーブルまたはキャッシュとすることができる。代替としてデータ構成300は、一連のリンクリスト、配列、または同様なデータ構造体とすることができる。したがってデータ構成300は基礎をなすデータを抽象化したものであり、このデータの記憶に適した任意のデータ構造体を用いることができることが明らかであろう。
データ構成300は、エージェント装置を定義するための多数のフィールドを含むことができる。例えばデータ構成300は、エージェント装置IDフィールド305、プロセッサ資源フィールド310、メモリ資源フィールド315、および装置イメージフィールド320を含むことができる。データ構成300は、例えば追加の資源、関連するクライアント装置および/またはユーザ、および/または最初に要求された資源などの、追加の情報を記憶するための多数の追加のフィールドを含むことができる。エージェント装置を定義するのに有用な代替または追加のデータは、当業者には明らかになるであろう。
エージェント装置IDフィールド305は、資源割り当て装置によって管理される各エージェント装置に対する一意の識別子を記憶することができる。プロセッサ資源フィールド310は、利用可能なプロセッサのうちのどれだけの割り当て分を、エージェント装置が利用できるかの表示を記憶することができる。同様にメモリ資源フィールド315は、利用可能なメモリ装置のうちのどれだけの割り当て分を、エージェント装置が利用できるかの表示を記憶することができる。装置イメージ320は、エージェント装置に関連して生成された最近の装置イメージを規定することができる。
例として定義330は、エージェント装置0x23には、CPU1およびCPU2の両方の処理時間の10%が割り当てられることを示す。さらにエージェント装置0x23には、メモリバンク2上のメモリアドレス0xA000000−0xAFFFFFFが割り当てられることを示す。SDA1上に/var/images/035−0004において記憶されたイメージは、エージェント装置0x23の最近の装置イメージを記憶する。同様に定義340および350は、それぞれエージェント装置0xA1および0xCBに対して割り当てられた資源および装置イメージ位置を定義する。データ構成300は、多数の追加の定義360を含むことができる。
図4は、ハードウェア故障からエージェント装置を保護する例示の方法400を示す。方法400は、例えばハードウェア故障検出器250および/またはエージェント装置保護モジュール260などの資源割り当て装置200の構成要素によって行うことができる。
方法400はステップ405で開始してステップ410に進むことができ、そこで資源割り当て装置200は、上述の方法のいずれかによりハードウェア故障を検出することができる。次にステップ415で資源割り当て装置200は、分析のために第1のエージェント装置を取り出すことができる。例えば資源割り当て装置200は、エージェント装置定義を取り出すことができる。次いでステップ420で資源割り当て装置200は、取り出したエージェント装置が、故障したハードウェアに関連するかどうかを判定することができる。そうでない場合は方法400はステップ430にスキップすることができる。取り出したエージェント装置が故障したハードウェアに関連する場合は、方法400はステップ425に進むことができる。様々な代替実施形態ではステップ420はなくてもよく、ステップ415はステップ425に直接進むことができる。それに従ってこのような代替実施形態では、資源割り当て装置200はあらゆる関連するエージェント装置に対してステップ425を行うことができる。
ステップ425では資源割り当て装置200は、ハードウェア故障から現在のエージェント装置を保護するために1つまたは複数の処置を行うことができる。上述のように資源割り当て装置200は、エージェント装置に異なる資源を割り当てる、エージェント装置を中断する、エージェント装置に対してエラーをシミュレートする、またはエージェント装置を別の資源割り当て装置にマイグレーションすることができる。エージェント装置を保護する様々な代替の方法が当業者には明らかとなり得る。
ステップ430では資源割り当て装置200は、ハードウェアエラーの観点から処理されるべきエージェント装置が残っているかどうかを判定することができる。そうであれば資源割り当て装置200は次のエージェント装置を取り出すことができ、方法400は折り返してステップ420に戻ることができる。すべてのエージェント装置が処理された後に、方法400はステップ430からステップ440に進んで終了することができる。
様々な実施形態について述べたので、次にシステム100aの動作の一例について、図1−4を参照して述べる。この例のために、資源割り当て装置200は資源割り当て装置130aに対応することができ、データ構成300はエージェント装置定義記憶装置230の内容を表すことができ、方法400は資源割り当て装置200の動作を表すことができる。定義330は、クライアント装置110aに関連され得るエージェント装置1 140aに対応することができる。エージェント装置M+1 140cはまたクライアント装置に関連することができ、現在パッシブモードで動作しているエージェント装置1 140aの冗長なコピーとすることができる。
ステップ410ではハードウェア故障検出器250は、CPU2が故障したとの表示をエージェント装置0xCBから受け取ることができる。ステップ420ではエージェント装置保護モジュール260は、定義330に従ってエージェント装置0x23がCPU2に関連し、したがってハードウェア故障によって影響を受けることが見込まれると判断することができる。それに応答してエージェント装置保護モジュール260は、エージェント装置1 140a上の重大なエラーをシミュレートするようにクライアント装置110aにメッセージを送出することによって保護処置をとることができる。次いでクライアント装置110aは、冗長なエージェント装置M+1 140cをアクティブモードにし、いずれの処理要求もそのエージェント装置140cにリダイレクトすることによって応答する。
次に方法400は折り返してステップ420に戻ることができ、そこでエージェント装置保護モジュールは、定義340に従ってエージェント装置0xA1はCPU2に関連しないと判断することができる。それに従って資源割り当て装置200は、エージェント装置0xA1に対してさらなる処置をとらなくてよい。このようにして処理は、資源割り当て装置200がデータ構成300に記憶されたすべての定義を分析するまで続けることができる。
上記により様々な実施形態は、ハードウェア故障によってエージェント装置が影響を受けるのを、資源割り当て装置がプロアクティブに保護することを可能にする。具体的には、故障が報告されたハードウェアに関連するエージェント装置を識別することによって、資源割り当て装置は、ハードウェア故障が実際にエージェント装置に影響を与える前に、エージェント装置を保護するためのステップをとることができる。
上記の説明から本発明の様々な例示的実施形態は、ハードウェアおよび/またはファームウェアにおいて実施できることが明らかであろう。さらに様々な例示的実施形態は、少なくとも1つのプロセッサによって読み出され実行されて本明細書で詳しく述べられる動作を行うことができる、機械可読記憶媒体上に記憶された命令として実施することができる。機械可読記憶媒体は、パーソナルまたはラップトップコンピュータ、サーバ、または他のコンピューティングデバイスなどの機械によって読み出しが可能な形において情報を記憶するための、任意の機構を含むことができる。したがって有形で非一時的な機械可読記憶媒体は、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリ装置、および同様な記憶媒体を含むことができる。
当業者には、本明細書のいずれのブロック図も、本発明の原理を具体化する例示の回路の概念図を表すことが理解されるべきである。同様にいずれのフローチャート、フロー図、状態遷移図、擬似コードなどは、機械可読媒体内に実質的に表すことができる様々なプロセスを表し、コンピュータまたはプロセッサが明示的に示されているか否かに関わらず、コンピュータまたはプロセッサによってそのように実行されることが理解されよう。
様々な例示的実施形態について、それらのいくつかの例示の態様を具体的に参照して詳しく述べてきたが、本発明は他の実施形態も可能であり、その詳細は様々な明白な点において変更が可能であることが理解されるべきである。当業者には容易に明らかなように、本発明の趣旨および範囲内のままで、変形および変更を行うことができる。したがって上記の開示、説明、および図は説明のためのみであり、いかなる形においても特許請求の範囲によって定義される本発明を限定するものではない。

Claims (15)

  1. サーバハードウェア故障の影響を軽減するために、サーバ資源を割り当てる資源割り当て装置によって行われる方法であって、
    資源割り当て装置によってサーバハードウェアの故障を検出するステップ(410)と、
    サーバハードウェアを利用するように構成された第1のエージェント装置を識別するステップ(415、420、435)と、
    サーバハードウェア故障に応答して第1のエージェント装置の再構成をもたらすように、少なくとも1つの処置をとるステップ(425)と
    を含む、方法。
  2. サーバハードウェアを利用するように構成された第2のエージェント装置を識別するステップ(415、420、435)と、
    サーバハードウェア故障に応答して第2のエージェント装置の再構成をもたらすように、少なくとも1つの処置をとるステップ(425)と
    をさらに含む、請求項1に記載の方法。
  3. サーバハードウェアの故障を検出するステップが、
    資源割り当て装置によって、サーバハードウェアの故障の表示を第2のエージェント装置から受け取るステップであって、第2のエージェント装置は第1のエージェント装置とは異なる、受け取るステップ
    を含む、請求項1に記載の方法。
  4. 第1のエージェント装置のためにサーバハードウェア資源を割り当てるように、第2の資源割り当て装置に指示するステップを少なくとも1つの処置が含む、請求項1から3のいずれか一項に記載の方法。
  5. 第2の資源割り当て装置に指示するステップが、インターネットを通じて第2の資源割り当て装置に指示メッセージを送出するステップを含む、請求項4に記載の方法。
  6. 少なくとも1つの処置が、第1のエージェント装置の動作を中断するステップを含む、請求項1から5のいずれか一項に記載の方法。
  7. 少なくとも1つの処置が、第1のエージェント装置に対してエラーをシミュレートするステップを含む、請求項1から6のいずれか一項に記載の方法。
  8. 第1のエージェント装置に対してエラーをシミュレートするステップが、インターネットを通じて、エージェント装置に関連する装置にエラーメッセージを送出するステップを含む、請求項7に記載の方法。
  9. 第1のエージェント装置定義を記憶するエージェント装置定義記憶装置(230)であって、第1のエージェント装置定義は第1のエージェント装置および関連するサーバハードウェア資源を識別する、エージェント装置定義記憶装置と、
    サーバハードウェア資源の故障を検出するように構成されたハードウェア故障検出器(250)と、
    エージェント装置定義に基づいて、サーバハードウェア資源を利用するように構成されたエージェント装置として、第1のエージェント装置を識別し、
    サーバハードウェア故障に応答して第1のエージェント装置の再構成をもたらすように少なくとも1つの処置をとる
    ように構成されたエージェント装置保護モジュール(260)と
    を備える、資源割り当て装置(200)。
  10. エージェント装置定義記憶装置(230)が第2のエージェント装置定義を記憶し、第2のエージェント装置定義は第2のエージェント装置および関連するサーバハードウェア資源を識別し、
    エージェント装置保護モジュール(260)が、
    サーバハードウェア資源を利用するように構成されたエージェント装置として、第2のエージェント装置を識別し、
    サーバハードウェア故障に応答して第2のエージェント装置の再構成をもたらすように少なくとも1つの処置をとる
    ようにさらに構成された、請求項9に記載の資源割り当て装置(200)。
  11. 第1のエージェント装置のためにサーバハードウェア資源を割り当てるように、第2の資源割り当て装置に指示することを少なくとも1つの処置が含む、請求項9から10のいずれか一項に記載の資源割り当て装置。
  12. 第1のエージェント装置に関連する装置イメージを第2の資源割り当て装置に送出することを少なくとも1つの処置がさらに含む、請求項10に記載の資源割り当て装置。
  13. 第2の資源割り当て装置に指示することにおいて、エージェント装置保護モジュールが、インターネットを通じて第2の資源割り当て装置に指示メッセージを送出する、請求項10に記載の資源割り当て装置。
  14. 少なくとも1つの処置が、第1のエージェント装置の動作を中断することを含む、請求項9から13のいずれか一項に記載の資源割り当て装置。
  15. 少なくとも1つの処置が、第1のエージェント装置に対してエラーをシミュレートすることを含む、請求項9から14のいずれか一項に記載の資源割り当て装置。
JP2014523933A 2011-08-01 2012-06-27 ハードウェア故障の軽減 Pending JP2014522052A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/195,482 US8856585B2 (en) 2011-08-01 2011-08-01 Hardware failure mitigation
US13/195,482 2011-08-01
PCT/US2012/044283 WO2013019339A1 (en) 2011-08-01 2012-06-27 Hardware failure mitigation

Publications (1)

Publication Number Publication Date
JP2014522052A true JP2014522052A (ja) 2014-08-28

Family

ID=46548816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014523933A Pending JP2014522052A (ja) 2011-08-01 2012-06-27 ハードウェア故障の軽減

Country Status (6)

Country Link
US (1) US8856585B2 (ja)
EP (1) EP2740255A1 (ja)
JP (1) JP2014522052A (ja)
KR (1) KR101504882B1 (ja)
CN (1) CN103718535B (ja)
WO (1) WO2013019339A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130326053A1 (en) * 2012-06-04 2013-12-05 Alcatel-Lucent Usa Inc. Method And Apparatus For Single Point Of Failure Elimination For Cloud-Based Applications
US9569294B2 (en) 2013-01-30 2017-02-14 Dell Products L.P. Information handling system physical component inventory to aid operational management through near field communication device interaction
US9198060B2 (en) * 2013-01-30 2015-11-24 Dell Products L.P. Information handling system physical component maintenance through near field communication device interaction
US9208015B2 (en) * 2013-06-18 2015-12-08 Vmware, Inc. Hypervisor remedial action for a virtual machine in response to an error message from the virtual machine
US9213572B2 (en) 2013-12-02 2015-12-15 Vmware, Inc. Interdependent virtual machine management
US9489273B2 (en) * 2014-06-23 2016-11-08 Vmware, Inc. Using stretched storage to optimize disaster recovery
US9442792B2 (en) 2014-06-23 2016-09-13 Vmware, Inc. Using stretched storage to optimize disaster recovery
US9703651B2 (en) * 2015-06-15 2017-07-11 Vmware, Inc. Providing availability of an agent virtual computing instance during a storage failure
US9760427B2 (en) 2015-09-10 2017-09-12 Cisco Technology, Inc. Method and apparatus for identifying location related hardware failures
US10218387B2 (en) 2017-05-08 2019-02-26 Silicon Laboratories Inc. ECC memory controller supporting secure and non-secure regions
US10360104B2 (en) * 2017-05-08 2019-07-23 Silicon Laboratories Inc. ECC memory controller to detect dangling pointers
US10567233B2 (en) * 2017-06-07 2020-02-18 International Business Machines Corporation Shadow agent projection in multiple places to reduce agent movement over nodes in distributed agent-based simulation
US10949548B2 (en) * 2018-10-18 2021-03-16 Verizon Patent And Licensing Inc. Systems and methods for providing multi-node resiliency for blockchain peers
KR102567541B1 (ko) * 2021-10-12 2023-08-21 스트라토 주식회사 엣지 서비스 인스턴스 배포 장치 및 그 제어방법
DE112023000003T5 (de) * 2022-06-29 2024-03-07 Hewlett Packard Enterprise Development Lp Hochverfügbarkeitssysteme mit thin-provisioned-sekundärserver

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022709A (ja) * 1999-07-13 2001-01-26 Toshiba Corp クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体
WO2002001347A2 (en) * 2000-06-30 2002-01-03 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for automatic re-assignment of software components of a failed host
JP2003330740A (ja) * 2002-05-15 2003-11-21 Hitachi Ltd 多重化計算機システム、論理計算機の割当方法および論理計算機の割当プログラム
JP2007128511A (ja) * 2005-10-31 2007-05-24 Hewlett-Packard Development Co Lp セルベースシステムにおいて資源を自動的に評価し割り当てる方法および装置
JP2007323244A (ja) * 2006-05-31 2007-12-13 Nec Corp 仮想サーバ管理システムおよびその方法ならびに管理サーバ装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421787B1 (en) * 1998-05-12 2002-07-16 Sun Microsystems, Inc. Highly available cluster message passing facility
US6195760B1 (en) * 1998-07-20 2001-02-27 Lucent Technologies Inc Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
GB2379046B (en) * 2001-08-24 2003-07-30 3Com Corp Storage disk failover and replacement system
US20060271813A1 (en) * 2005-05-26 2006-11-30 David Horton Systems and methods for message handling among redunant application servers
US7434096B2 (en) * 2006-08-11 2008-10-07 Chicago Mercantile Exchange Match server for a financial exchange having fault tolerant operation
US8201016B2 (en) * 2007-06-28 2012-06-12 Alcatel Lucent Heartbeat distribution that facilitates recovery in the event of a server failure during a user dialog
CN101350952B (zh) * 2007-07-22 2012-10-03 华为技术有限公司 一种电路域核心网重用方法及通讯系统以及相关设备
US8065560B1 (en) * 2009-03-03 2011-11-22 Symantec Corporation Method and apparatus for achieving high availability for applications and optimizing power consumption within a datacenter
US9130967B2 (en) * 2010-11-17 2015-09-08 Alcatel Lucent Method and system for network element service recovery
US8707083B2 (en) * 2010-12-03 2014-04-22 Lsi Corporation Virtualized cluster communication system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022709A (ja) * 1999-07-13 2001-01-26 Toshiba Corp クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体
WO2002001347A2 (en) * 2000-06-30 2002-01-03 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for automatic re-assignment of software components of a failed host
JP2003330740A (ja) * 2002-05-15 2003-11-21 Hitachi Ltd 多重化計算機システム、論理計算機の割当方法および論理計算機の割当プログラム
JP2007128511A (ja) * 2005-10-31 2007-05-24 Hewlett-Packard Development Co Lp セルベースシステムにおいて資源を自動的に評価し割り当てる方法および装置
JP2007323244A (ja) * 2006-05-31 2007-12-13 Nec Corp 仮想サーバ管理システムおよびその方法ならびに管理サーバ装置

Also Published As

Publication number Publication date
US8856585B2 (en) 2014-10-07
KR101504882B1 (ko) 2015-03-20
US20130036322A1 (en) 2013-02-07
WO2013019339A1 (en) 2013-02-07
CN103718535A (zh) 2014-04-09
CN103718535B (zh) 2017-04-05
KR20140036010A (ko) 2014-03-24
EP2740255A1 (en) 2014-06-11

Similar Documents

Publication Publication Date Title
JP2014522052A (ja) ハードウェア故障の軽減
US11310286B2 (en) Mechanism for providing external access to a secured networked virtualization environment
Yamato et al. Fast and reliable restoration method of virtual resources on OpenStack
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
US10445197B1 (en) Detecting failover events at secondary nodes
EP2871553B1 (en) Systems and methods for protecting virtualized assets
CN102355369B (zh) 虚拟化集群系统及其处理方法和设备
US20180288152A1 (en) Storage dynamic accessibility mechanism method and apparatus
JP2015103092A (ja) 障害回復システム及び障害回復システムの構築方法
US10353786B2 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
US9218140B2 (en) System and method for selectively utilizing memory available in a redundant host in a cluster for virtual machines
WO2015058711A1 (zh) 故障快速检测方法及装置
EP2645635B1 (en) Cluster monitor, method for monitoring a cluster, and computer-readable recording medium
US10860375B1 (en) Singleton coordination in an actor-based system
JP5712714B2 (ja) クラスタシステム、仮想マシンサーバ、仮想マシンのフェイルオーバ方法、仮想マシンのフェイルオーバプログラム
JP2017027110A (ja) 情報処理装置、優先度算出プログラムおよびデータセンタシステム
US8621260B1 (en) Site-level sub-cluster dependencies
JP2016513309A (ja) 分散コンピューティングシステムのコンピューティングノードにおける障害に起因するエラー伝播の制御
CN114760192A (zh) 容器切换方法及节点设备
US10782989B2 (en) Method and device for virtual machine to access storage device in cloud computing management platform
US10367711B2 (en) Protecting virtual computing instances from network failures
JP2020038506A (ja) 情報処理システム、情報処理方法、及び、プログラム
US20220318106A1 (en) Automatic failover of a software-defined storage controller to handle input-output operations to and from an assigned namespace on a non-volatile memory device
US9348672B1 (en) Singleton coordination in an actor-based system
Stack et al. Self-healing in a decentralised cloud management system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150312

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150804

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150811

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20151106