JP6602669B2 - クラウドインフラストラクチャ内のインフラストラクチャ欠陥を自動的に検出及び解決する方法及びシステム - Google Patents

クラウドインフラストラクチャ内のインフラストラクチャ欠陥を自動的に検出及び解決する方法及びシステム Download PDF

Info

Publication number
JP6602669B2
JP6602669B2 JP2015517481A JP2015517481A JP6602669B2 JP 6602669 B2 JP6602669 B2 JP 6602669B2 JP 2015517481 A JP2015517481 A JP 2015517481A JP 2015517481 A JP2015517481 A JP 2015517481A JP 6602669 B2 JP6602669 B2 JP 6602669B2
Authority
JP
Japan
Prior art keywords
defect
infrastructure
resources
resource
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015517481A
Other languages
English (en)
Other versions
JP2015519676A (ja
JP2015519676A5 (ja
Inventor
アルダーマン,イアン
チャルファント,クリス,エム.
チェサル,イアン
クレイトン,ダグラス
ファットリック,エス.ロバート
ハリス,ダニエル
カクゾレク,アンドリュー
ストウ,ジェイソン
ジョンソン,エイドリアン
ワトラス,ベン
ワトラス,デーヴィッド
クルシュレスタ,アーキット
Original Assignee
サイクル コンピューティング,エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by サイクル コンピューティング,エルエルシー filed Critical サイクル コンピューティング,エルエルシー
Publication of JP2015519676A publication Critical patent/JP2015519676A/ja
Publication of JP2015519676A5 publication Critical patent/JP2015519676A5/ja
Application granted granted Critical
Publication of JP6602669B2 publication Critical patent/JP6602669B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3604Software analysis for verifying properties of programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/508Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement
    • H04L41/5096Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement wherein the managed service relates to distributed or central networked applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/091Measuring contribution of individual network components to actual service level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • H04L43/55Testing of service level quality, e.g. simulating service usage
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Description

関連出願の相互参照
本出願は、2012年6月15日に出願された米国特許出願番号第61/660,300号、発明の名称「Method and System for Automatically Detecting and Resolving Infrastructure Faults in Cloud Infrastructure」の優先権を主張し、この文献は引用によって本願に援用される。
技術分野
本発明は、適応型クラウドコンピューティングシステム(adaptive cloud computing system)に関し、及びクラウドインフラストラクチャ内のインフラストラクチャの欠陥を自動的に検出及び解決する方法及びシステムに関する。
クラウドコンピューティング環境(cloud computing environment)によって、インフラストラクチャ、プラットフォーム及びソフトウェアを提供することができ、これらは全て、通常、アプリケーションプログラミングインタフェース(Application Programming Interface:API)によって、ネットワークプロトコル又はウェブサービスAPIを介して、サービスとして利用可能なリソースとして一般化されている。これらのクラウドリソースを用いる場合、例えば、ユーザのアプリケーションを実行するサーバインスタンスを取得する際の欠陥率(Fault rates)は、様々である。
既存のシステムにおいて、リソースAPIとインタラクトするプロセスは、以下の処理を含む。
ユーザクライアントアプリケーションがクラウドのAPIを使用するクラウドにリソースを要求するAPI要求を生成する。
クラウドAPIをインプリメントするサーバが、クラウドにおいて使用可能なインフラストラクチャから、要求を満たすために必要なリソースの全て又は一部を割り当てる。
一旦、リソースが割り当てられると、要求が満たされる。
現在のシステムの具体例として、サーバインスタンスをインプリメントする必要があるサーバインスタンス又はサービスが要求されると、この要求が満たされ、ユーザに提供される。実際には、これらのノードの幾つかは、正常に機能しているリソースと、正常に機能していないリソースとを含み、様々な潜在的欠陥のために意図された処理を実行できないことがある。具体的には、現在のクラウド環境は、サーバインスタンスについて、0.5%〜40%の欠陥率(Fault rate)を有し、欠陥が発生すると、要求されたサービス、又はユーザがリソースを使用しているシステムが正常に機能しなくなる。この状況は、多数のリソースが要求される場合、欠陥率が小さくても、欠陥リソースの数が多くなるため、特に深刻な問題になる。
現在の適応型クラウドインフラストラクチャの技術は、一般的に、クラウド内のインフラストラクチャの正常性/実行可能性を考慮することなく、負荷(米国特許番号8,458,717号)及び障害復旧ベースのシナリオ(米国特許番号8,381,015号)を処理する。本発明は、管理ソフトウェア又はクラウドプロバイダの動作の一部として、インフラストラクチャにおいて、自動的にチェックを実行し、エラーを解決するシステム及び方法を開示することによって、この欠点を改善し、これによって、正常なインフラストラクチャリソースの効率的なルート変更(rerouting)が実現される。
本発明の一側面においては、インフラストラクチャの個々のインフラストラクチャ又はクラスタの作成を管理するソフトウェアが、更なるリソースについてのユーザ要求に応答して、クラウドプロバイダからこれらのリソースを取得し、クラウドプロバイダから提供されたリソースの欠陥をチェックし、解決策によって又は新たな/更なるインフラストラクチャを要求することによって、これらの欠陥を適切に解決する。欠陥インフラストラクチャは、新たなインフラストラクチャを要求する前にホールドされ、又はスクリプトを用いて欠陥が解決され、又は欠陥インフラストラクチャが取り除かれる。そして、クライアント要求は、完全に動作しているインフラストラクチャを受け取り、使用する。
本発明の他の側面においては、クラウドプロバイダがウェブサービス要求を受け取り、仮想マシンリソースを取得し、又は仮想マシン若しくはベアメタルリソースのクラスタによって運用されているプラットフォームを取得する。新たなインスタンスの要求を受け取った後、要求に応答するために必要なインフラストラクチャが要求時にチェック又は解決され、又は非同期的に判定された正常リソースのリストから選択される。ウェブ要求への応答又は動作中のサービスを提供するために用意されたリソースのクラスタは、様々なチェックによって検証された大部分の正常リソースを含む。
本発明は、クラウドエコシステム(cloud ecosystem)において、このようなリソースのクラウドプロバイダ、このようなリソースのための中間管理ソフトウェア及びこのようなリソースのエンドユーザを含む何らかのパーティのために、欠陥がユーザの作業に悪影響を与える前に、欠陥リソースを検出及び解決するシステム及び方法を提供する。また、本発明は、エラーがあると判定されたリソースのリスト化への影響の概略化に関する。
本発明が提供するシステムは、クラウド内のサービス又は1つ以上のリソースの集合を要求し、インフラストラクチャに対し、予め定義されたチェック及びユーザが定義したチェックを含むチェックを自動的に実行し、インフラストラクチャを不能にする欠陥を検出し、これらの欠陥を解決した後、インフラストラクチャを動作中のリソースのサービスクラスタに含ませる。更に、本発明が提供するシステムは、動作中のコンピューティング環境内の不良サーバインフラストラクチャに反応して、サービスからこれを除外する。更に、本発明は、インフラストラクチャを返す方法を提供し、この方法は、プロバイダによって課されている制約の範囲内で、使用中のインフラストラクチャを最適に維持する。本発明が提供するシステムは、欠陥状態にない、機能しているプロダクション品質リソース(production-quality resources)のみを返すAPIをユーザに提供する。また、本発明が提供するAPIは、要求の間又は先行する/後続するAPI呼出の間に不良インフラストラクチャの検査法及び解決法を登録でき、エンドユーザがユーザ定義欠陥チェックにおいてインフラストラクチャ欠陥に対処する必要性をなくすことができる。これらのシステムは、欠陥リソースを自動的に解決する革新的な新たな手法を実現し、これらのシステムは、エンドユーザクラスタ環境、クラウドプロバイダによって設定された制約、又はエンドユーザの作業負荷に影響しない。
本発明は、以下を提供する。
クラウド内のサービス又は1つ以上のリソースの集合を検証するプロセスは、インフラストラクチャに対し、予め定義されたチェック及びユーザが定義したチェックを含むチェックを自動的に実行し、インフラストラクチャを不能にする欠陥を検出するステップと、検出された欠陥を解決するステップと、インフラストラクチャを動作中のリソースのサービスクラスタに含ませるステップと、欠陥がない機能的リソースのみをユーザに提供するステップとを含む。
欠陥を解決するステップは、同期的に実行してもよい。欠陥を解決するステップは、非同期的に実行してもよい。このプロセスは、動作中のサービスから、動作中のコンピューティング環境内の欠陥があるサーバインフラストラクチャを除外するステップを更に有していてもよい。
管理ソフトウェア又はクライアントソフトウェアを使用するプロセスは、クラウドアプリケーションプログラミングインタフェースから無欠陥リソース又は欠陥リソースを受け取るステップと、リソース又はサービスに対して欠陥検査を実行して欠陥の存在を検出するステップと、検出された欠陥リソースを無欠陥にするステップと、リソースをクライアントアプリケーションに通信するステップとを有する。
欠陥リソースを無欠陥にするステップは、検出された欠陥を除去するステップを含んでいてもよい。欠陥リソースを無欠陥にするステップは、検出された欠陥を訂正するステップを含んでいてもよい。
クラウドベースのリソースを検証して、無欠陥リソースのリストを維持するプロセスは、(a)インフラストラクチャサーバにログインする能力を検査するステップと、(b)インフラストラクチャサーバ内のファイルシステムにアクセスする能力を検査するステップと、ステップ(a)及び(b)の結果をクラウド、管理ソフトウェア又はクライアントソフトウェアの少なくとも1つにおける欠陥検出及び解決ソフトウェアに通知するステップとを有し、ステップ(a)乃至(c)の何れかにおいて欠陥が検出された場合、(d)検査のためにリソースをホールドするステップ、(e)同じ欠陥リソースが再び取得されないことを確実にするステップ及び(f)リソースをシャットダウンするステップのうちの少なくとも1つを実行する。
ステップ(a)乃至(c)は、クラウドベースのリソースの外部で動作するソフトウェアによって実行してもよい。ステップ(a)乃至(f)の少なくとも1つは、同期的に実行してもよい。ステップ(a)乃至(f)の少なくとも1つは、非同期的に実行してもよい。プロセスは、ステップ(a)乃至(c)の何れにおいても欠陥が検出されなかった場合、サーバインフラストラクチャを動作中のリソースのサーバクラスタに含ませるステップを更に有していてもよい。
インフラストラクチャを返すプロセスは、プロバイダによって課された制約の範囲内で使用中のインフラストラクチャを維持する。
システムは、インフラストラクチャの欠陥を検査し、インフラストラクチャ内の欠陥を解決し、要求の間又は先行する/後続するAPI呼出の間に欠陥インフラストラクチャを登録し、エンドユーザがユーザ定義欠陥チェックにおいてインフラストラクチャ欠陥に対処する必要性をなくすアプリケーションプログラミングインタフェース(application programming interface:API)を備える。
クラウド内のサービス又は1つ以上のリソースの集合を検証するシステムは、アプリケーションプログラミングインタフェース(API)を備え、APIは、インフラストラクチャに対し、予め定義されたチェック及びユーザが定義したチェックを含むチェックを自動的に実行し、インフラストラクチャを不能にする欠陥を検出し、検出された欠陥を解決し、インフラストラクチャを動作中のリソースのサービスクラスタに含ませ、欠陥がない機能的リソースのみをユーザに提供する。
APIは、欠陥の解決を非同期的に実行してもよい。
管理ソフトウェア又はクライアントソフトウェアを使用するシステムは、アプリケーションプログラミングインタフェース(API)を備え、APIは、クラウドアプリケーションプログラミングインタフェースから無欠陥リソース又は欠陥リソースを受け取り、リソース又はサービスに対して欠陥検査を実行して欠陥の存在を検出し、検出された欠陥リソースを無欠陥にし、リソースをクライアントアプリケーションに通信する。
クラウドベースのリソースを検証して、無欠陥リソースのリストを維持するシステムは、アプリケーションプログラミングインタフェース(API)を備え、APIは、(a)インフラストラクチャサーバにログインする能力を検査し、(b)インフラストラクチャサーバ内のファイルシステムにアクセスする能力を検査し、(c)ステップ(a)及び(b)の結果をクラウドソフトウェア、管理ソフトウェア又はクライアントソフトウェアの少なくとも1つにおける欠陥検出及び解決ソフトウェアに通知し、ステップ(a)乃至(c)の何れかにおいて欠陥が検出された場合、(d)検査のためにリソースをホールドするステップ、(e)同じ欠陥リソースが再び取得されないことを確実にするステップ及び(f)リソースをシャットダウンするステップのうちの少なくとも1つを実行する。
APIは、ステップ(a)乃至(f)の少なくとも1つを同期的に実行してもよい。APIは、ステップ(a)乃至(f)の少なくとも1つを非同期的に実行してもよい。
欠陥をチェックした後のみにインフラストラクチャが返されるリソース取得プロセスを示すブロック図である。 欠陥をチェックした後のみにインフラストラクチャが返されるリソース取得プロセスを示すブロック図である。 欠陥をチェックするプロセスを示すブロック図である。 可能であれば、リソース制限を超えることなく、欠陥リソースの検査を維持するプロセスを示すブロック図である。
以下、本発明に基づくプロセス及びシステムの好ましい実施形態を説明するが、本発明は、この実施形態に制限されない。なお、本発明によって実行される欠陥チェック及び解決プロセスは、同期的に(例えば、「ジャストインタイム(just in time:JIT)」方式で)実行してもよく、非同期的に(事前に)実行してもよい。また、本明細書で使用する「インフラストラクチャ」という用語は、クラウドコンピューティング環境に接続されたサーバ及び他のノードを包含するが、これらに限定されない。
本発明について詳細に説明するが、特許請求の範囲によって定義される本発明の精神及び範囲から逸脱することなく、これらの詳細を様々な変更、置換及び修正できることは明らかである。
図1は、リソースを取得するためのシステム及びプロセスを図式的に示しており、ここでは、欠陥がチェックされたインフラストラクチャのみが返される。
このシステム内のプロセス及びコンポーネントは、以下の通りである。
クライアントプリケーション(A1)がIaaS/PaaS/SaaSクラウドAPI(A3)にサービス又はリソースの集合の要求を送信する(A2)。ここで「IaaS」は、「サービスとしてのインフラストラクチャ(Infrastructure as a Service)」を表し、「PaaS」は、「サービスとしてのプラットフォーム(Platform as a Service)」を表し、「SaaS」は、「サービスとしてのソフトウェア(Software as a Service)」を表している。
これによって、クラウド(A0)が正常リソース(A5)及び欠陥リソース(A6)を含むリソース(A4b)を割り当てる(A4a破線矢印)。
これらのリソースは、リソースに対して1つ以上のチェックの集合(A8b)を実行する欠陥検出及び訂正ソフトウェアコンポーネント(A8a)に渡され、これらのチェックの幾つかは、そのクラウド(A0)のために及びそのクライアント(A1)によって予め定義されている。
欠陥のチェック(A8b)の結果に基づいて、欠陥検出及び訂正ソフトウェアコンポーネント(A8a)は、欠陥リソースをホールド又はシャットダウンし(A9)、又は正常なインフラストラクチャをプロダクションサービス又はリソースに配置する(A10)。これらの欠陥のチェック(A8b)は、事前に、非同期的に、クラウドリソース上で実行してもよく、これによって、事前にチェックされたリソースに基づいて割当(A4a)が行われる。割当(A4a)は、破線の矢印で表している。
欠陥検出及び訂正ソフトウェアは、散発的又は周期的なチェック(A12b)によって、欠陥が予想される(going faulty)インフラストラクチャ(A12a)を通知し、これを解決する。
最終的なプロダクション又は正常なサービス又はリソースは、クラウドAPI(A3)に通信され(A13)、続いて、クライアント(A1)に通信される(A14)。
図2は、欠陥をチェックした後にインフラストラクチャを返すシステム及びリソース取得プロセスを示している。
このシステムのプロセス及びコンポーネントは、以下の通りである。
クライアントプリケーション(B1)がIaaS/PaaS/SaaSクラウドAPI(B3)にサービス又はリソースの集合の要求を送信する(B2)。
これによって、クラウド(B0)が正常リソース(B5)及び欠陥リソース(B6)を含むリソース(B4b)を割り当てる(B4a)。
これらのリソースは、クラウドAPI(B3)に返され(B7)、欠陥検出及び解決管理又はクライアントソフトウェア(B8a)によって、APIに直面するユーザに提供される。欠陥検出及び解決管理又はクライアントソフトウェア(B8a)は、リソースに対して1つ以上のチェックの集合を実行し(B8b)、これらのチェックの幾つかは、そのクラウド(B0)のために及びそのクライアント(B1)によって予め定義されている。
欠陥のチェック(B8b)の結果に基づいて、欠陥検出及び解決管理又はクライアントソフトウェア(B8a)は、欠陥リソースをホールド又はシャットダウンし(B9)、又は正常なインフラストラクチャをプロダクションサービス又はリソースに配置する(B10)。
欠陥検出及び訂正ソフトウェアは、散発的又は周期的なチェックによって、欠陥が予想されるインフラストラクチャ(B12)を通知し(B13)、これを解決する。
最終的なプロダクション又は正常なサービス又はリソース(B10)は、クライアント(B1)に返され(B14)、使用される。
図3は、欠陥をチェックするシステム及び方法を示している。
システム及び方法は、以下を含むことができる。
欠陥検出及び訂正ソフトウェアは、リソース(C3)に対して、予め定義された欠陥チェック及びユーザ定義欠陥チェック(C1)を行い、オプションの外部のリソース欠陥チェック(C2)を行い、例えば、リソースは、エラーなしでセキュアシェル(Secure Shell:SSH)で保護できるかをチェックする。
リソース(C3)内で動作するオプションの欠陥検出ソフトウェア(C4)は、予め定義されたチェック及びユーザ定義チェックを行う欠陥検出及び訂正ソフトウェア(C1)に対し、ノードが、欠陥を有するか、欠陥が予想されるか、所定の状態にあるかを通知する(C5)。予め定義されたチェック及びユーザ定義チェックを行う欠陥検出及び訂正ソフトウェア(C1)は、オプション動作を選択し、このオプション動作は、リソースシャットダウンのためのクラウドAPI(C6)をオプションとして呼び出して、プロバイダの制限の範囲内にリソースを維持すること、又は必須/オプションのシャットダウンを伴う新たなリソース要求のためのクラウドAPIを呼び出すことを含む。
図4は、可能であれば、リソース制限を超えることなく、欠陥リソースの検査を維持するプロセスを示している。
本発明は、以下を提供する。
図1に示し、先に説明したように、クラウド内のサービス又は1つ以上のリソースの集合を要求するシステムは、インフラストラクチャに対し、予め定義されたチェック及びユーザが定義したチェックを含むチェックを自動的に実行し、インフラストラクチャを不能にする欠陥を検出し、これらの欠陥を解決した後、インフラストラクチャを動作中のリソースのサービスクラスタに含ませる。このシステムのクラウドAPIは、機能しているプロダクション品質リソース(production-quality resources)のみをユーザに提供する。
更に、図1に示すように、このシステムは、動作中のコンピューティング環境内の不良サーバインフラストラクチャに反応して、サービスからこれを除外する(A12)。
図2に示すように、クラウドAPIから正常リソース及び欠陥リソースを含むリソースを受け取る管理又はクライアントソフトウェアを使用する別個のシステムは、リソース又はサービスに対して欠陥検査を実行し、これらを全て正常にした後に、クライアントアプリケーションに通信する。
図1及び図2に示すように、APIは、要求の間又は先行する/後続するAPI呼出の間に不良インフラストラクチャについて検査及び解決法を登録でき、エンドユーザがユーザ定義欠陥チェックにおいてインフラストラクチャ欠陥に対処する必要性をなくす。
更に、図3に示すように、リソースに対する検査を実行するシステムは、例えば、サーバにログインする能力を検査するリソースの外部で動作するソフトウェアと、例えば、ファイルシステムにアクセスする能力を検査するリソースの内部で動作するソフトウェアとを含み、クラウド、管理ソフトウェア又はクライアントソフトウェア内の欠陥検出及び解決ソフトウェアに状態に関する情報を返し、検査のためにリソースをホールドし、同じ欠陥リソースが再び取得されないことを確実にし、又は単にリソースをシャットダウンする。
更に、図4に示すように、インフラストラクチャを返す方法は、プロバイダによって課されている制約の範囲内で、使用中のインフラストラクチャを最適に維持する。
本発明の好ましい実施形態について説明したが、本発明は、この実施形態に制限されず、本発明の範囲から逸脱することなく、これらの実施形態を変形及び修正することができる。本発明の範囲は、特許請求の範囲によって定義される。

Claims (6)

  1. ユーザ用のクラウド内の1つ以上のリソースの集合をコンピュータが検証する方法であって、前記1つ以上のリソースの集合は、アプリケーションプログラミングインタフェース(API)呼出(call)を利用して受け取られ、該方法は、
    前記1つ以上のリソースの集合に含まれるインフラストラクチャに対し、予め定義されたチェック及びユーザが定義したチェックを含むチェックを実行し、前記インフラストラクチャを不能にする欠陥を検出するステップと、
    検出された前記欠陥を解決するステップと、
    前記欠陥が解決された前記インフラストラクチャをユーザに提供するリソースの集合であるサービスクラスタに含ませるステップと、
    前記サービスクラスタに含まれる欠陥がなく機能しているリソースのみをユーザに提供するステップと、
    を含み、
    前記コンピュータが、欠陥を有するインフラストラクチャの検出法及び解決法を、先行/後続するAPI呼出の間に登録し、それにより、エンドユーザ前記欠陥に対処する必要性をなくすことを特徴とする方法。
  2. 前記欠陥を解決するステップは、ユーザに提供するリソースから、前記欠陥が検出されたインフラストラクチャを除外することを含む請求項1記載の方法。
  3. 前記欠陥を解決するステップは、ユーザに提供するリソースから、前記欠陥が検出されたインフラストラクチャを修正することを含む請求項1記載の方法。
  4. コンピュータに請求項1〜3のいずれか1項に記載の方法を実行させるプログラム。
  5. クラウド内のリソースを検証する管理サーバが、無欠陥リソースのリストを維持するために実行する方法であって、
    (a)サーバにログインできるかを検査するステップと、
    (b)前記サーバ内のファイルシステムにアクセスできるかを検査するステップと、
    (c)前記ステップ(a)及び(b)の結果を前記管理サーバ、又は、アプリケーションプログラミングインタフェース(API)呼出(call)を利用して前記クラウドにアクセスするクライアントの少なくとも1つに通知するステップと、
    を有し、
    前記ステップ(a)乃至(c)の何れかにおいて欠陥が検出された場合、(d)検査のために前記欠陥が検出されたリソースをホールドするステップ、(e)前記欠陥が検出されたリソースが再び取得されないことを確実にするステップ及び(f)機能しているリソースのみがユーザに提供されるように、リソースをシャットダウンするステップのうちの少なくとも1つを実行し、
    前記管理サーバが、欠陥を有するインフラストラクチャの検出法及び解決法を、先行/後続するAPI呼出の間に登録し、それにより、エンドユーザが前記欠陥に対処する必要性をなくすことを特徴とする、方法。
  6. 前記ステップ(a)乃至(c)の何れにおいても欠陥が検出されなかった場合、前記サーバを、クライアントに提供するリソースの集合であるサーバクラスタに含ませるステップを更に有する請求項5記載の方法。
JP2015517481A 2012-06-15 2013-06-17 クラウドインフラストラクチャ内のインフラストラクチャ欠陥を自動的に検出及び解決する方法及びシステム Active JP6602669B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261660300P 2012-06-15 2012-06-15
US61/660,300 2012-06-15
PCT/US2013/046179 WO2013188883A2 (en) 2012-06-15 2013-06-17 Method and system for automatically detecting and resolving infrastructure faults in cloud infrastructure

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016120317A Division JP6806971B2 (ja) 2012-06-15 2016-06-17 クラウドインフラストラクチャ内のインフラストラクチャ欠陥を自動的に検出及び解決する方法及びシステム

Publications (3)

Publication Number Publication Date
JP2015519676A JP2015519676A (ja) 2015-07-09
JP2015519676A5 JP2015519676A5 (ja) 2016-08-04
JP6602669B2 true JP6602669B2 (ja) 2019-11-06

Family

ID=49758929

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015517481A Active JP6602669B2 (ja) 2012-06-15 2013-06-17 クラウドインフラストラクチャ内のインフラストラクチャ欠陥を自動的に検出及び解決する方法及びシステム
JP2016120317A Active JP6806971B2 (ja) 2012-06-15 2016-06-17 クラウドインフラストラクチャ内のインフラストラクチャ欠陥を自動的に検出及び解決する方法及びシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2016120317A Active JP6806971B2 (ja) 2012-06-15 2016-06-17 クラウドインフラストラクチャ内のインフラストラクチャ欠陥を自動的に検出及び解決する方法及びシステム

Country Status (4)

Country Link
US (2) US9146840B2 (ja)
EP (1) EP2862077A4 (ja)
JP (2) JP6602669B2 (ja)
WO (1) WO2013188883A2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10324779B1 (en) * 2013-06-21 2019-06-18 Amazon Technologies, Inc. Using unsupervised learning to monitor changes in fleet behavior
US9471474B2 (en) * 2013-08-19 2016-10-18 Microsoft Technology Licensing, Llc Cloud deployment infrastructure validation engine
CN104731664A (zh) * 2013-12-23 2015-06-24 伊姆西公司 用于故障处理的方法和装置
US9734005B2 (en) * 2014-10-31 2017-08-15 International Business Machines Corporation Log analytics for problem diagnosis
US11057264B1 (en) * 2015-01-15 2021-07-06 Veritas Technologies Llc Discovery and configuration of disaster recovery information
US10146636B1 (en) 2015-01-15 2018-12-04 Veritas Technologies Llc Disaster recovery rehearsals
US9626277B2 (en) 2015-04-01 2017-04-18 Microsoft Technology Licensing, Llc Anomaly analysis for software distribution
US10031799B1 (en) * 2015-09-28 2018-07-24 Amazon Technologies, Inc. Auditor for automated tuning of impairment remediation
US20170123873A1 (en) * 2015-10-29 2017-05-04 Saudi Arabian Oil Company Computing hardware health check
JP6801267B2 (ja) * 2016-07-04 2020-12-16 富士通株式会社 評価プログラム、評価方法、評価装置および情報処理装置
US10805414B2 (en) 2016-07-15 2020-10-13 International Business Machines Corporation Dynamic resource broker services
US10528407B2 (en) * 2017-07-20 2020-01-07 Vmware, Inc. Integrated statistical log data mining for mean time auto-resolution
US10733043B2 (en) 2018-04-11 2020-08-04 International Business Machines Corporation Automatic correcting of computing cluster execution failure
US10860368B2 (en) * 2018-09-28 2020-12-08 Juniper Networks, Inc. Migrating workloads in multicloud computing environments
FR3091769B1 (fr) * 2019-01-15 2022-03-25 Amadeus Un procédé et un système pour gérer les ressources informatiques d’une plateforme informatique en nuage
US11223681B2 (en) * 2020-04-10 2022-01-11 Netapp, Inc. Updating no sync technique for ensuring continuous storage service in event of degraded cluster state
US11687399B2 (en) 2021-07-15 2023-06-27 International Business Machines Corporation Multi-controller declarative fault management and coordination for microservices

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7941533B2 (en) * 2002-02-19 2011-05-10 Jpmorgan Chase Bank, N.A. System and method for single sign-on session management without central server
US20060153085A1 (en) * 2004-12-27 2006-07-13 Willins Bruce A Method and system for recovery from access point infrastructure link failures
US7743090B1 (en) * 2006-02-08 2010-06-22 Federal Home Loan Mortgage Corporation (Freddie Mac) Systems and methods for infrastructure validation
ES2315109B1 (es) * 2006-06-30 2010-01-12 Airbus España, S.L. Herraje con cajon de torsion, de material plastico reforzado con fibras de carbono, para acoplar un conjunto motor de accionamiento / husillo para el trimado de un estabilizador horizontal de una aeronave.
US8001429B2 (en) * 2006-09-25 2011-08-16 International Business Machines Corporation Method and system for automated handling of errors in execution of system management flows consisting of system management tasks
US8127277B2 (en) 2007-05-21 2012-02-28 International Business Machines Corporation Framework for conditionally executing code in an application using conditions in the framework and in the application
US8429467B2 (en) * 2007-10-19 2013-04-23 Oracle International Corporation User-triggered diagnostic data gathering
US9294296B2 (en) * 2007-10-31 2016-03-22 Hewlett Packard Enterprise Development Lp Automated test execution in a shared virtualized resource pool
US20090300423A1 (en) * 2008-05-28 2009-12-03 James Michael Ferris Systems and methods for software test management in cloud-based network
US9798560B1 (en) 2008-09-23 2017-10-24 Gogrid, LLC Automated system and method for extracting and adapting system configurations
US8448181B2 (en) * 2009-01-30 2013-05-21 Hewlett-Packard Development Company, L.P. Sizing an infrastructure configuration optimized for a workload mix
US8949792B2 (en) * 2009-08-18 2015-02-03 Adobe Systems Incorporated Methods and systems for data service development
US8819701B2 (en) * 2009-12-12 2014-08-26 Microsoft Corporation Cloud computing monitoring and management system
CN102667717A (zh) * 2009-12-21 2012-09-12 诺基亚公司 用于编译的方法、装置和系统
WO2011091056A1 (en) * 2010-01-19 2011-07-28 Servicemesh, Inc. System and method for a cloud computing abstraction layer
US8301746B2 (en) * 2010-01-26 2012-10-30 International Business Machines Corporation Method and system for abstracting non-functional requirements based deployment of virtual machines
US8479170B2 (en) * 2010-05-12 2013-07-02 Fujitsu Limited Generating software application user-input data through analysis of client-tier source code
JP5604989B2 (ja) * 2010-05-31 2014-10-15 富士通株式会社 探索装置、探索方法および探索プログラム
US9178766B2 (en) * 2010-06-28 2015-11-03 Amazon Technologies, Inc. Provisioning multiple network resources
US8381015B2 (en) 2010-06-30 2013-02-19 International Business Machines Corporation Fault tolerance for map/reduce computing
JP5531278B2 (ja) * 2010-07-15 2014-06-25 株式会社日立ソリューションズ サーバ構成管理システム
US8365009B2 (en) 2010-09-10 2013-01-29 Microsoft Corporation Controlled automatic healing of data-center services
JP4811830B1 (ja) 2010-10-15 2011-11-09 株式会社 イーシー・ワン コンピュータリソース制御システム
US8762317B2 (en) * 2010-11-02 2014-06-24 Microsoft Corporation Software localization analysis of multiple resources
US9208054B2 (en) * 2011-02-14 2015-12-08 Fujitsu Limited Web service for automated cross-browser compatibility checking of web applications
US8832219B2 (en) * 2011-03-01 2014-09-09 Red Hat, Inc. Generating optimized resource consumption periods for multiple users on combined basis
KR101799622B1 (ko) * 2011-06-14 2017-11-20 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 클라우드 컴퓨팅 환경을 위한 피크-성능-인식 빌링
US9595054B2 (en) * 2011-06-27 2017-03-14 Microsoft Technology Licensing, Llc Resource management for cloud computing platforms
US9450838B2 (en) * 2011-06-27 2016-09-20 Microsoft Technology Licensing, Llc Resource management for cloud computing platforms
US8612599B2 (en) * 2011-09-07 2013-12-17 Accenture Global Services Limited Cloud service monitoring system
US20130080999A1 (en) * 2011-09-26 2013-03-28 Microsoft Corporation Automated Testing for Hosted Applications on Various Computing Platforms
DE102012217202B4 (de) * 2011-10-12 2020-06-18 International Business Machines Corporation Verfahren und System zum Optimieren des Platzierens virtueller Maschinen in Cloud-Computing-Umgebungen
US20130111027A1 (en) * 2011-10-31 2013-05-02 Dejan S. Milojicic Accessing physical resources in a cloud computing environment
US8863085B1 (en) * 2012-01-31 2014-10-14 Google Inc. Monitoring web applications
US9075913B2 (en) * 2012-02-27 2015-07-07 Qualcomm Incorporated Validation of applications for graphics processing unit
US20130238668A1 (en) * 2012-03-07 2013-09-12 Kalambur Subramaniam Implementing a scalable test environment
GB2502099A (en) * 2012-05-16 2013-11-20 Ibm Performance testing of web components using symbolic identities
US8996932B2 (en) * 2013-01-09 2015-03-31 Microsoft Technology Licensing, Llc Cloud management using a component health model
US20140351796A1 (en) * 2013-05-24 2014-11-27 Microsoft Corporation Accessibility compliance testing using code injection

Also Published As

Publication number Publication date
JP6806971B2 (ja) 2021-01-06
US20150363281A1 (en) 2015-12-17
US20140006844A1 (en) 2014-01-02
JP2015519676A (ja) 2015-07-09
US9146840B2 (en) 2015-09-29
EP2862077A4 (en) 2016-03-02
US10025678B2 (en) 2018-07-17
JP2016184431A (ja) 2016-10-20
WO2013188883A2 (en) 2013-12-19
WO2013188883A3 (en) 2014-05-01
EP2862077A2 (en) 2015-04-22

Similar Documents

Publication Publication Date Title
JP6602669B2 (ja) クラウドインフラストラクチャ内のインフラストラクチャ欠陥を自動的に検出及び解決する方法及びシステム
US9514034B1 (en) Ordered test execution to enable faster feedback
US10983901B1 (en) Systems and methods for fuzz testing serverless software applications
US9015006B2 (en) Automated enablement of performance data collection
US11010273B2 (en) Software condition evaluation apparatus and methods
US9529694B2 (en) Techniques for adaptive trace logging
US8813039B2 (en) Method and system for software defect reporting
JP5965076B2 (ja) 訂正不能メモリエラー処理方法及びその可読媒体
US11182253B2 (en) Self-healing system for distributed services and applications
CN109656773B (zh) 一种基于ios系统应用异常崩溃的处理框架
US10542071B1 (en) Event driven health checks for non-HTTP applications
US11055416B2 (en) Detecting vulnerabilities in applications during execution
US20150319221A1 (en) Tracing business transactions based on application frameworks
Kinshumann et al. Debugging in the (very) large: ten years of implementation and experience
US11704229B1 (en) Auto-intrusive data pattern and test case generation for system validation
JP5712714B2 (ja) クラスタシステム、仮想マシンサーバ、仮想マシンのフェイルオーバ方法、仮想マシンのフェイルオーバプログラム
Gorbenko et al. Experimenting with exception propagation mechanisms in service-oriented architecture
WO2013104964A1 (en) Thread based dynamic data collection
US11036624B2 (en) Self healing software utilizing regression test fingerprints
US9811440B2 (en) System and method for addressing malfunctions in a software application
CN110727537A (zh) 统一处理响应报文的方法、装置、计算机设备及存储介质
US10628803B1 (en) Dial home optimizer
Fu et al. Process-oriented recovery for operations on cloud applications
US20190155675A1 (en) Method and apparatus for diagnosing a system performance problem
CN103259676A (zh) 故障诊断方法和装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20151020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20151020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160617

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160617

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160617

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161004

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170711

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20170921

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171010

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171016

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180521

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20180528

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20180803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191009

R150 Certificate of patent or registration of utility model

Ref document number: 6602669

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250