JP6072072B2 - クラウドシステム管理装置、クラウドシステム、再配置方法、及びプログラム - Google Patents

クラウドシステム管理装置、クラウドシステム、再配置方法、及びプログラム Download PDF

Info

Publication number
JP6072072B2
JP6072072B2 JP2014551787A JP2014551787A JP6072072B2 JP 6072072 B2 JP6072072 B2 JP 6072072B2 JP 2014551787 A JP2014551787 A JP 2014551787A JP 2014551787 A JP2014551787 A JP 2014551787A JP 6072072 B2 JP6072072 B2 JP 6072072B2
Authority
JP
Japan
Prior art keywords
service process
server device
cloud system
system management
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014551787A
Other languages
English (en)
Other versions
JPWO2014091580A1 (ja
Inventor
浩太郎 遠藤
浩太郎 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of JPWO2014091580A1 publication Critical patent/JPWO2014091580A1/ja
Application granted granted Critical
Publication of JP6072072B2 publication Critical patent/JP6072072B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5019Ensuring fulfilment of SLA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5019Ensuring fulfilment of SLA
    • H04L41/5025Ensuring fulfilment of SLA by proactively reacting to service quality change, e.g. by reconfiguration after service quality degradation or upgrade
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1034Reaction to server failures by a load balancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明の実施形態は、クラウドシステム管理装置、クラウドシステム、再配置方法、及びプログラムに関する。
近年、クラウドシステムにより提供されるサービス(以下「クラウドサービス」という。)を事業活動に採用する企業が増えている。クラウドサービスを利用するメリットのひとつは、システムのTCO(Total Cost of Ownership)の削減である。特に、運用管理コストが低減される点が注目される。また、システムの導入費用や更新費用等が、社内で構築するシステムに比べて大幅に削減されることも魅力のひとつである。
クラウドサービスの利用によりTCOが削減される根本的な理由のひとつとして、サーバ装置等のコンピュータ資源の有効利用が挙げられる。多数のサービスを提供しているクラウドサービスの事業者は、コンピュータ資源を効率的に各サービスに割り当てることにより、コンピュータ資源の総合的な利用率をあげることができる。
これにより、クラウドサービスの事業者は、ユーザが、個別にシステムを所有するのに比べて安価なコストでサービスを提供できる。なお、従来の典型的なシステムでは、サービス毎にコンピュータ資源を固定的に割り当てる前提でシステムが設計されているため、多数のサービスプロセスを多数のコンピュータ上へ自在に配置できるようなシステム構成ではなかった。
クラウドサービスの普及について、技術的な側面を見ると、仮想化技術の発展が大きく関与している。仮想化技術によって、物理的なコンピュータ資源を論理的な単位(仮想マシン)に分割して、サービスプロセスに割り当てることができる。これにより、コンピュータ資源のサービスへの割り当てを自在に行うことができるようになった。その結果、サービスの種類に関わらず、物理的コンピュータ資源の共有ができるようになり、最適配置の可能性が大きく広がった。
クラウドシステムは多数のコンピュータで構成されるため、コンピュータの故障を想定した対策が必須である。一般的に、コンピュータの台数が大きくなればなるほど、クラウドシステムの中での故障の発生確率は大きくなる。例えば、コンピュータ単独の可用性が99.95%だとしても、コンピュータが10000台あれば、全てのコンピュータが同時に動作する可用性は、1%に満たない。
クラウドサービスの適用範囲が広がるにつれ、いわゆる社会インフラ・サービスのような、24時間365日の安定的な運用が求められるサービスへの適用も検討されるようになってきた。一方、ビッグデータ分析のような、大量の計算資源を必要とするものの、必ずしも高信頼性や高可用性が絶対ではないクラウドサービスもある。
例えば、24時間365日の連続運転で1分以内のMTTR(Mean Time To Repair)の保証が要求される場合がある。一方、稼働率99%程度のベストエフォートの可用性で十分な場合もある。また、可用性が重視されない例として、コンピュータ資源が余っているときに、当該コンピュータ資源を低価格で利用させるようなサービスもある。
特開2005−011237号公報 特開2005−100387号公報
しかしながら、クラウドシステム内のサーバ装置が故障したとき、サービスプロセスが保証する品質に応じて、使用できるサーバ装置を、サービスプロセスに効率的に割り当てることが難しいという課題があった。
実施形態のクラウドシステム管理装置は、クラウドシステム内のサーバ装置で動作するサービスプロセスについて定められている可用性を表す品質情報と、前記サービスプロセスを停止してから開始するまでの動作不能時間の和を示す累積動作不能時間と、に基づいて、前記サービスプロセスが、前記累積動作不能時間によって前記可用性を達成できない程度を表す違約情報を見積もる見積部と、前記サーバ装置の故障を検出する検出部と、前記故障が検出された前記サーバ装置で動作する第1サービスプロセスを再配置するときに、前記第1サービスプロセスを再配置する前に再配置先のサーバ装置で動作していた第2サービスプロセスの前記違約情報の総和が小さい前記サーバ装置を優先して前記再配置先のサーバ装置に決定する決定部と、前記第1サービスプロセスを、前記再配置先のサーバ装置に移すことにより再配置する再配置部とを備える。
実施形態のクラウドシステムは、少なくとも1つのサービスプロセスが動作する複数のサーバ装置と、クラウドシステム管理装置とを備えるクラウドシステムであって、前記クラウドシステム管理装置は、クラウドシステム内のサーバ装置で動作するサービスプロセスについて定められている可用性を表す品質情報と、前記サービスプロセスを停止してから開始するまでの動作不能時間の和を示す累積動作不能時間と、に基づいて、前記サービスプロセスが、前記累積動作不能時間によって前記可用性を達成できない程度を表す違約情報を見積もる見積部と、前記サーバ装置の故障を検出する検出部と、前記故障が検出された前記サーバ装置で動作する第1サービスプロセスを再配置するときに、前記第1サービスプロセスを再配置する前に再配置先のサーバ装置で動作していた第2サービスプロセスの前記違約情報の総和が小さい前記サーバ装置を優先して前記再配置先のサーバ装置に決定する決定部と、前記第1サービスプロセスを、前記再配置先のサーバ装置に移すことにより再配置する再配置部とを備える。
実施形態の再配置方法は、見積部が、クラウドシステム内のサーバ装置で動作するサービスプロセスについて定められている可用性を表す品質情報と、前記サービスプロセスを停止してから開始するまでの動作不能時間の和を示す累積動作不能時間と、に基づいて、前記サービスプロセスが、前記累積動作不能時間によって前記可用性を達成できない程度を表す違約情報を見積もるステップと、検出部が、前記サーバ装置の故障を検出するステップと、決定部が、前記故障が検出された前記サーバ装置で動作する第1サービスプロセスを再配置するときに、前記第1サービスプロセスを再配置する前に再配置先のサーバ装置で動作していた第2サービスプロセスの前記違約情報の総和が小さい前記サーバ装置を優先して前記再配置先のサーバ装置に決定するステップと、再配置部が、前記第1サービスプロセスを、前記再配置先のサーバ装置に移すことにより再配置するステップとを含む。
実施形態のプログラムは、コンピュータを、クラウドシステム内のサーバ装置で動作するサービスプロセスについて定められている可用性を表す品質情報と、前記サービスプロセスを停止してから開始するまでの動作不能時間の和を示す累積動作不能時間と、に基づいて、前記サービスプロセスが、前記累積動作不能時間によって前記可用性を達成できない程度を表す違約情報を見積もる見積部と、前記サーバ装置の故障を検出する検出部と、前記故障が検出された前記サーバ装置で動作する第1サービスプロセスを再配置するときに、前記第1サービスプロセスを再配置する前に再配置先のサーバ装置で動作していた第2サービスプロセスの前記違約情報の総和が小さい前記サーバ装置を優先して前記再配置先のサーバ装置に決定する決定部と、前記第1サービスプロセスを、前記再配置先のサーバ装置に移すことにより再配置する再配置部として機能させる。
図1は、実施形態のクラウドシステムの構成の一例を示す図である。 図2は、実施形態のクラウドシステム管理装置の状況データの一例を示す図である。 図3は、実施形態のクラウドシステム管理装置の見積データの一例を示す図である。 図4は、実施形態のクラウドシステムの第1クラスタの一例を説明するための図である。 図5は、実施形態のクラウドシステムの第2クラスタの一例を説明するための図である。 図6は、実施形態のクラウドシステムの第2クラスタのサービスプロセスの再配置方法の一例を説明するための図である。 図7は、実施形態のクラウドシステム管理装置の第1クラスタのサービスプロセスの再配置方法の一例を説明するためのフローチャートである。 図8は、実施形態のクラウドシステムの第1クラスタのサービスプロセスの再配置方法の一例を説明するための図である。 図9は、実施形態のクラウドシステムの第1クラスタのサービスプロセスの再配置方法の一例を説明するための図である。 図10は、実施形態のクラウドシステムの第1クラスタのサービスプロセスの再配置方法の一例を説明するための図である。 図11は、実施形態のクラウドシステムの第1クラスタのサービスプロセスの再配置方法の一例を説明するための図である。 図12は、実施形態のクラウドシステム管理装置の第1クラスタのサービスプロセスを再配置先するサーバ装置を決定する方法の一例を説明するためのフローチャートである。 図13は、実施形態のクラウドシステムのクラウドシステム管理装置、及びサーバ装置のハードウェアの構成の一例を示す図である。
一般に、クラウドサービスに要求される可用性、及び性能は、SLA(Service Level Agreement)で定められている。SLAは、サービスを提供する事業者がサービスの提供品質をお客様に約束するものである。SLAにより、可用性や、平均応答時間等の性能等が保証される。なお、性能の保証についても可用性の場合と同様に、クラウドサービスの種類によって、その保証品質はさまざまである。
SLAは、その保証の程度によって二つに大別することができる。ギャランティ型とベストエフォート型である。ギャランティ型は、要求された品質を約束する。ベストエフォート型は、品質の向上に最大の努力をすることを約束する。一般に、性能にギャランティ型の保証を必要とするサービスは、可用性においてもギャランティ型の保証を必要とする場合が多いと考えられる。
ギャランティ型のサービスを提供するためは、最悪ケースを想定して余裕を持ってコンピュータ資源を割り当てておく必要があるため、コンピュータ資源の総合的な利用率が下がる傾向がある。一方、ベストエフォート型のサービスは、物理的なコンピュータ資源の総量を超えてコンピュータ資源を割り当てるオーバーコミットを行うことにより、コンピュータ資源の総合的な利用率を上げることが可能である。
以下、実施形態のクラウドシステム管理装置、クラウドシステム、及びプログラムについて説明する。図1は、実施形態のクラウドシステム100の構成の一例を示す図である。本実施形態のクラウドシステム100は、クラウドシステム管理装置10、サーバ装置31a〜31n、及びサーバ装置32a〜32nを備える。サーバ装置31a〜31nは、クラウドシステム100の運用開始時点では、第1クラスタ33に使用されているものとする。また、サーバ装置32a〜32nは、クラウドシステム100の運用開始時点では、第2クラスタ34に使用されているものとする。第1クラスタ33、及び第2クラスタ34の詳細については後述する。
なお、サーバ装置31a〜31nを区別しない場合は、サーバ装置31という。また、サーバ装置32a〜32nを区別しない場合は、サーバ装置32という。サーバ装置31、及びサーバ装置32は、任意の台数でよい。また、クラウドシステム100は、クラウドサービス事業者が営利目的でクラウドサービスを提供するものであっても、プライベートクラウドシステムでもよい。
クラウドシステム管理装置10、サーバ装置31a〜31n、及びサーバ装置32a〜32nは、LAN(Local Area Network)20を介して互いに接続されている。また、クラウドシステム管理装置10、サーバ装置31a〜31n、及びサーバ装置32a〜32nは、LAN20、及びネットワーク40を介して、クライアント装置51a〜51nに接続されている。なお、クライアント装置51a〜51nを区別しない場合は、クライアント装置51という。
クライアント装置51は、ユーザがクラウドシステム100のサービスを受けるために使用する装置である。クライアント装置51は任意の装置でよい。例えば、クライアント装置51は、PC(Personal Computer)や、携帯端末等である。
また、ネットワーク40は、例えば、インターネットである。また、クラウドシステム管理装置10、サーバ装置31a〜31n、及びサーバ装置32a〜32nの一部が、他の拠点にある等の場合は、LAN20は、インターネットやVPN(Virtual Private Network)等でもよい。
クラウドシステム管理装置10は、検出部1、記憶部2、見積部3、決定部4、及び再配置部5を備える。検出部1は、サーバ装置31a〜31n、及びサーバ装置32a〜32nの故障を検出する。
記憶部2は、状況データ6、及び見積データ7を記憶する。図2は、実施形態のクラウドシステム管理装置10の品質達成状況データの一例を示す図である。状況データ6は、サービスプロセス名、品質情報、累積動作不能時間、及び違約情報を含む。サービスプロセス名は、サーバ装置31(32)で動作するサービスプロセスの名称である。品質情報は、サービスプロセスが保証する品質である。品質情報は、例えば、SLAにより定められる。当該品質は、サービスプロセスに適用される可用性や、性能等である。当該性能は、サービスプロセスの平均応答時間等である。累積動作不能時間は、サービスプロセスが動作不能になった時間の総和である。違約情報は、品質情報が達成できない程度を表す情報である。図2の例では、違約情報は違約金である。違約金は、例えば、品質情報で許される動作不能時間を越えた時間(以下「違約時間」という。)に、時間単価を乗じた分の料金で生成する。
図2の具体例について説明する。サービスプロセスAの品質情報は、サービスプロセスAの累積動作不能時間が、1年間で52分以内であることを示す。すなわち、見積部3は、累積動作不能時間が52分を超えると違約情報を生成する。なお、サービスプロセスAの累積動作不能時間は0分である。そのため、見積部3は、まだ違約情報を生成しない。
サービスプロセスBの品質情報は、サービスプロセスBの累積動作不能時間が、1年間で30分以内であることを示す。すなわち、見積部3は、累積動作不能時間が30分を超えると違約情報を生成する。なお、サービスプロセスBの累積動作不能時間は29分である。そのため、見積部3は、まだ違約情報を生成しない。しかしながら、違約金が発生するまで、サービスプロセスBを動作不能にできる時間は、あと1分である。
サービスプロセスNの品質情報は、サービスプロセスNの累積動作不能時間が、1年間で40分以内であることを示す。すなわち、見積部3は、累積動作不能時間が40分を超えると違約情報を生成する。なお、サービスプロセスNの累積動作不能時間は42分である。そのため、見積部3は、違約時間(2分)に、違約時間の時間単価を乗じてXXX円の違約情報(違約金)を生成している。
このように、クラウドシステム管理装置10は、品質情報(例えばSLA)の達成状況を、状況データ6として定量化する。品質情報の達成状況の定量化は、サービスプロセス毎にする。サービスプロセス毎の達成状況は、サービスプロセス毎に随時、記憶部2に記録される。
なお、違約情報の生成方法は、上述の方法に限られない。また、図2の品質情報は、サービスプロセスの可用性に関して定められているが、当該品質情報は、サービスプロセスの可用性に関するものに限られない。当該品質情報は、サーバ装置のリソースを使用できる割合等に応じて算出される処理時間(平均応答時間)等のサービスプロセスの性能に関する情報であってもよい。
図3は、実施形態のクラウドシステム管理装置10の見積データ7の一例を示す図である。見積データ7は、サービスプロセス名、及び予想違約情報を含む。サービスプロセス名は、サービスプロセスの名称である。予想違約情報は、サービスプロセスの累積動作不能時間に、サービスプロセスを再配置した場合の動作不能時間を加算して見積もられている。予想違約情報は、サービスプロセスを停止させてよいか否かの1つの指標として利用することができる。なお、予想違約情報の算出方法は、サービスプロセスの品質情報にあわせて任意に定めてよい。
図1に戻り、見積部3は、サービスプロセスが保証する品質を表す品質情報に基づいて、サービスプロセスが、当該品質を達成できない程度を表す違約情報を見積もる。決定部4は、サーバ装置31の故障等の理由によりサービスプロセスの再配置が必要になった場合に、再配置先となるサーバ装置を、再配置先のサーバ装置で動作する少なくとも1つのサービスプロセスの違約情報の総和が最小になるようにして決定する。
再配置部5は、開始部8、及び停止部9を備える。再配置部5は、停止部9によりサービスプロセスを停止し、開始部8によりサービスプロセスを開始することにより、サービスプロセスを再配置する。一例として、サービスプロセスAを、サーバ装置31aからサーバ装置32aに再配置する場合について説明する。まず、停止部9は、サーバ装置31aのサービスプロセスAを停止する。次に、開始部8は、サーバ装置32aでサービスプロセスAを開始する。これにより、再配置部5は、サービスプロセスAを、サーバ装置31aからサーバ装置32aに移す(再配置する)。このとき、停止から開始までの間に経過した時間が、累積動作不能時間に加算されて記憶部2に記録される。なお、サーバ装置31aの故障に伴う再配置の場合は、停止部9はサービスプロセスAの停止を実際には行わないが、停止に要した時間のかわりに、サーバ装置31aの故障検出に要した時間(たとえば、ハートビートのタイムアウト時間)を、累積動作不能時間に加算する。
図4は、実施形態のクラウドシステム100の第1クラスタ33の一例を説明するための図である。第1クラスタ33では、性能、又は可用性等が、品質情報で保証されるサービスプロセス(以下「第1サービスプロセス」という。)が動作する。
第1クラスタ33は、クラウドシステム100を構成する複数のサーバ装置31を論理的にひとまとめにした単位である。サーバ装置31で動作する少なくとも1つのサービスプロセスは、クラウドシステム管理装置10により固定的に配置される。すなわち、サーバ装置31で動作する少なくとも1つのサービスプロセスは、所定の性能用件等の品質情報を必ず保証するようにして決定されたシステム設計に基づいたハードウェア、及びソフトウェア構成で動作する。
第1クラスタ33に含まれるサーバ装置31が故障によって停止した場合、最初にホットスワップを行う。本実施形態のホットスワップは、第2クラスタ34のサーバ装置32の資源を開放して当該サーバ装置32を未使用の状態にし、当該未使用のサーバ装置32を第1クラスタ33の故障サーバ装置31と入れ替える。
ホットスワップ対象のサーバ装置32は、決定部4により決定される。決定部4は、第2クラスタ32内でホットスワップの対象となるサーバ装置32を、以下の2つの条件を満たすようにして決定する。第1の条件は、サーバ装置32を故障したサーバ装置31と入れ替えても、十分な性能を発揮できるようなコンピュータ資源を備えていることである。第2の条件は、サーバ装置32を停止させた結果、サーバ装置32で動作していたサービスプロセスで発生する違約情報が、最も小さいことである。
このホットスワップによって、あたかも故障したサーバ装置31が復旧し、代わりに第2クラスタ34内のサーバ装置32が故障したかのようにみなすことができる。つまり、ホットスワップ後、第1クラスタ33では、元の配置と全く同じ配置でサービスプロセスが再開する。また、第2クラスタ34では、サーバ装置32が故障によって停止した場合と同様にして、サーバ装置32で動作していたサービスプロセスの再配置を行う。
図4の例では、サーバ装置31aでは、サービスプロセスA、及びサービスプロセスBが動作している。サービスプロセスA、及びサービスプロセスBを、同じホストで動作させることにより、サービスプロセスA、及びサービスプロセスBとの間の通信速度を向上させている。これにより、クラウドシステム100は、サービスプロセスA、及びサービスプロセスBの性能を保証している。また、サービスプロセスCは、サーバ装置31bで単独で動作している。そのため、サービスプロセスCは、サーバ装置31bのCPU(Central Processing Unit)、メモリ、及び通信I/F等のリソースを占有することができる。これにより、クラウドシステム100は、サービスプロセスCの性能を保証している。
図5は、実施形態のクラウドシステム100の第2クラスタ34の一例を説明するための図である。第2クラスタ34では、性能、又は可用性等が、品質情報で保証されないサービスプロセス(以下「第2サービスプロセス」という。)が動作する。第2サービスプロセスは、性能、又は可用性等が、可能な限り最大に発揮できるような環境で動作する。そのため、第2クラスタ34のサーバ装置32では、積極的にオーバーコミットを行い、コンピュータ資源の利用率を高めてもよい。すなわち、サーバ装置32では、物理リソースよりも多い論理リソースを割り当ててもよい。
第2クラスタ34は、クラウドシステム100を構成する複数のサーバ装置32を、論理的にひとまとめにした単位である。サーバ装置32で動作する少なくとも1つのサービスプロセスは、クラウドシステム管理装置10により動的に配置される。クラウドシステム管理装置10は、特定のアルゴリズムによって、動的にサービスプロセスを配置する。当該アルゴリズムは、サービスプロセスが使用するサーバ装置32のリソース、負荷、及び余剰資源、並びに、サービスプロセスの品質情報(例えばSLA)、当該サービスプロセスが提供するサービスのコスト(価格等)、サービスプロセスの配置状況等の情報に基づいて決定される。クラウドシステム管理装置10は、第2クラスタに含まれるサーバ装置32が故障した場合、そのサーバ装置32で動作していたサービスプロセスを、第2クラスタ34の他のサーバ装置32に再配置する。
例えば、サービスプロセスAが、第2サービスプロセスであるとする。そして、サービスプロセスAが動作していたサーバ装置32が故障したと仮定する。サーバ装置32aでは、サービスプロセスBが動作している。サーバ装置32bでは、サービスプロセスC、及びサービスプロセスDが動作している。サーバ装置32cでは、サービスプロセスE、及びサービスプロセスFが動作している。このとき、再配置部5は、サービスプロセスAを、その他のサービスプロセスの性能、又は可用性等への影響ができる限り少なくなるようにして再配置する。また、再配置部5は、サービスプロセスA自身の性能、又は可用性等が、可能な限り最大に発揮できるように再配置する。図5の例では、サービスプロセスAの再配置先に、サービスプロセスBのみが起動しているサーバ装置32aが選択されている。すなわち、この例の決定部4は、第2サービスプロセスが均等にサーバ装置32に配置されるように、サービスプロセスAの再配置先を決定している。なお、図5では、サービスプロセスをサービスプロセスA〜Fとして区別して説明しているが、ここでのサービスプロセスA〜Cは、図4のサービスプロセスA〜Cとは関係しない。以下、図6、及び8〜11においても同様である。
図6は、実施形態のクラウドシステム100の第2クラスタのサービスプロセスの再配置方法の一例を説明するための図である。図6の例では、サーバ装置32aでは、サービスプロセスA、及びサービスプロセスBが動作している。サーバ装置32bは、故障したことを示す。なお、サーバ装置32bでは、サービスプロセスC、及びサービスプロセスDが動作していたものとする。サーバ装置32cは、サービスプロセスE、及びサービスプロセスFが動作している。
図6の例では、再配置部5は、サーバ装置32bで動作していたサービスプロセスCを、サーバ装置32cに再配置する。また、再配置部5は、サーバ装置32bで動作していたサービスプロセスDを、サーバ装置32aに再配置する。すなわち、図6の例では、再配置部5は、サーバ装置32bで動作していたサービスプロセスを、他のサーバ装置32に均等に再配置している。これにより、第2クラスタで動作するサービスプロセスの性能、又は可用性等が、可能な限り最大に発揮できるようにしている。
次に、実施形態のクラウドシステム管理装置10の第1クラスタ33のサービスプロセスの再配置方法について説明する。図7は、実施形態のクラウドシステム管理装置10の第1クラスタ33のサービスプロセスの再配置方法の一例を説明するためのフローチャートである。また、図8〜10は、実施形態のクラウドシステム100の第1クラスタ33のサービスプロセスの再配置方法の一例を説明するための図である。
まず、検出部1が、第1クラスタ33内のサーバ装置31の故障を検出する(ステップS1)。図8の場合を例にして説明する。図8の例では、第1クラスタ33は、サーバ装置31a、及びサーバ装置31bを備える。また、第2クラスタ34は、サーバ装置32a、サーバ装置32b、及びサーバ装置32cを備える。
図8の例では、サーバ装置31aでは、サービスプロセスA、及びサービスプロセスBが動作している。サーバ装置31bは、故障したことを示す。検出部1は、サーバ装置31bの故障を検出する。なお、サーバ装置31bでは、サービスプロセスC、及びサービスプロセスDが動作していたものとする。また、サーバ装置32aでは、サービスプロセスGが動作している。サーバ装置32bでは、サービスプロセスH、及びサービスプロセスEが動作している。サーバ装置32cでは、サービスプロセスJ、及びサービスプロセスKが動作している。
図7に戻り、決定部4が、故障が検出されたサーバ装置31と、ホットスワップするサーバ装置32(再配置先のサーバ装置32)を決定する(ステップS2)。図9の場合を例にして説明する。図9の例は、決定部4が、サーバ装置31bのサービスプロセスの再配置先のサーバ装置32を、サーバ装置32bに決定した場合の例である。なお、決定部4による再配置先のサーバ装置32の決定方法(ステップS2)の詳細は後述する。
クラウドシステム100は、ホットスワップの対象となった第1クラスタ33のサーバ装置31を、ホットスワップ後、第2クラスタ34のサーバ装置32として認識する。また、クラウドシステム100は、ホットスワップの対象となった第2クラスタ34のサーバ装置32を、ホットスワップ後、第1クラスタ33のサーバ装置31として認識する。図10は、クラスタシステム100が、再配置先のサーバ装置32bを、第1クラスタとして利用することを示している。また、クラスタシステム100が、故障したサーバ装置31bを、第2クラスタとして認識することを示している。なお、故障したサーバ装置31bは、軽微な故障である等の理由で復旧可能であれば、復旧後に第2クラスタで利用される。
図7に戻り、再配置部5は、再配置先のサーバ装置32のサービスプロセス(第2サービスプロセス)を停止する(ステップS3)。再配置部5は、再配置されたサービスプロセス(第1サービスプロセス、及び第2サービスプロセス)を開始する(ステップS4)。図11の場合を例にして説明する。図11の例では、再配置部5が、再配置が必要になった第1サービスプロセス(サービスプロセスC、及びサービスプロセスD)を、決定部4により決定されたサーバ装置32bに移している。また、再配置部5が、再配置先のサーバ装置32bで動作していた第2サービスプロセス(サービスプロセスH)を、サーバ装置32aに移している。また、再配置部5が、再配置先のサーバ装置32bで動作していた第2サービスプロセス(サービスプロセスE)を、サーバ装置32cに移している。
図11の例では、再配置が必要になった第1サービスプロセス(サービスプロセスC、及びサービスプロセスD)が動作していたサーバ装置31bが、第2クラスタが使用していたサーバ装置32bにホットスワップされている。これにより、クラウドシステム管理装置10は、第1クラスタの第1サービスプロセスの品質(可用性、又は性能等)を保ちながら、第1サービスプロセスを再配置することができる。
なお、本実施形態のクラウドシステム100は、品質を必ず保証することが品質情報で定められている第1サービスプロセスが動作するサーバ装置31で構成される第1クラスタと、品質を必ず保証することが品質情報で定められていない第2サービスプロセスが動作するサーバ装置32で構成される第2クラスタを含んでいる。しかしながら、クラウドシステム100は、このような区別をせずにクラスタを1つにしてもよい。この場合は、クラウドシステム管理装置10は、各サーバ装置31(32)で動作するサービスプロセスの品質情報に応じて、クラスタの種類によらずにサーバ装置31(32)単位で個別に判定してサービスプロセスを再配置する。
また、逆に、クラスタシステム100は、より詳細にクラスタを区別してもよい。例えば、第2サービスプロセスが動作する第2クラスタ34を、サービスプロセスが保証する品質を表す品質情報に応じて、第2クラスタ34と第3クラスタに分けてもよい。すなわち、クラウドシステム管理装置10に、サービスプロセスに要求される品質を、閾値等により定量的に判定する機能を追加する。そして、クラウドシステム管理装置10は、当該閾値が所定の値以上のサービスプロセスは、第2クラスタ34のサーバ装置32に割り当てる。また、クラウドシステム管理装置10は、当該閾値が所定の値より小さいサービスプロセスは、第3クラスタのサーバ装置に割り当てる。当該機能は、例えば、見積部3に追加してもよい。また、クラウドシステム管理装置10は、第3クラスタのリソースのオーバーコミット率(割り当て済み論理リソース/物理リソース)の上限を、第2クラスタのリソースのオーバーコミット率の上限よりも大きくしてもよい。また、クラウドシステム管理装置10は、第2クラスタの利用料金を、第3クラスタの利用料金よりも高くしてもよい。決定部4が、ホットスワップの対象として、どちらのクラスタを選ぶかは、その時点でのオーバーコミット率が、オーバーコミット率の上限にどの程度到達しているかを比較することによって、決定してもよい。
また、再配置部5は、再配置先のサーバ装置31(32)で動作しているサービスプロセスを、他のサーバ装置31(32)に移さなくてもよい。このような場合としては、例えば、品質情報が、サービスプロセスの処理時間等である場合がある。違約情報は、当該処理時間に応じて決定される。再配置先のサーバ装置31(32)にリソースに余裕がある場合は、再配置先のサーバ装置31(32)に、サービスプロセスが追加されても、違約情報を生成する必要がない。このような場合は、再配置部5は、再配置先のサーバ装置31(32)で動作しているサービスプロセスを、他のサーバ装置31(32)に移さなくてもよい。
図12は、実施形態のクラウドシステム管理装置10の第1クラスタ33のサービスプロセスを再配置先するサーバ装置32を決定する方法の一例を説明するためのフローチャートである。
見積部3は、第2クラスタ34内のサーバ装置32から、サーバ装置hを1つ選択する(ステップS11)。見積部3は、サーバ装置hのサービスプロセスSを1つ選択する(ステップS12)。見積部3は、サービスプロセスSを再配置した場合の違約情報を見積もる(ステップS13)。見積部3は、サーバ装置hのサービスプロセスSを全て選択したか否かを判定する(ステップS14)。サーバ装置hのサービスプロセスSを全て選択した場合は、見積部3は、当該見積もりの合計Gを算出する(ステップS15)。サーバ装置hのサービスプロセスSを全て選択していない場合は、ステップS12に戻る。見積部3は、第2クラスタ34内のサーバ装置32を全て選択したか否かを判定する(ステップS16)。第2クラスタ34内のサーバ装置32を全て選択した場合は、決定部4は、合計Gが最小となるサーバ装置hを選択する(ステップS17)。なお、ステップS17において、決定部4は、必ずしも合計Gが最小となるサーバ装置hを選択しなくてもよい。例えば、決定部4は、他の指標も鑑みて、合計Gが小さいサーバ装置hを優先するに留めてもよい。第2クラスタ34内のサーバ装置32を全て選択していない場合は、ステップS11に戻る。
次に、違約情報の見積方法の一例について説明する。サービスプロセス毎の違約情報の見積もりは、例えば、過去1年間の動作不能時間に、再配置にかかる予想処理時間を加えた値、及び品質情報(例えば、SLA)に基づいて計算することができる。ここで、再配置にかかる予想処理時間は、過去の実績値の平均により見積もる。具体的には、再配置にかかる処理時間の過去の実績値の平均は、サービスプロセス毎に記憶部2に記録されている動作不能時間を、再配置回数で割ることによって得ることができる。なお、過去に一度も再配置が行われていない場合には、再配置の実績値は無いので、事前に評価しておいた結果等を使ってもよい。または、再配置対象のサービスプロセスと同様の他のサービスの実績値を使ってもよい。
なお、再配置後の違約情報の見積もりが最小となるサーバ装置32(ホットスワップ対象のサーバ装置32)が複数あった場合(例えば、違約情報が0で並ぶ等)は、その中から最適な対象サーバ装置32を選択するために、再配置後にサーバ装置32が更に故障した場合の違約情報の期待値も見積もる。このようにしてサーバ装置32を選べば、再配置後の違約情報が最小となるだけでなく、再配置後にサーバ装置32が、更に故障した場合が考慮された違約情報の期待値も最小となるようにして、サーバ装置32を選ぶことができる。
以下では、違約情報の見積もりが最小のサーバ装置32(再配置先のサーバ装置32の候補)が複数あった場合に、更に違約情報の期待値を見積もる方法の一例について説明する。
第2クラスタ34内のサーバ装置32の総数をNとし、各サーバ装置32には1からNの番号が振られているとする。各サーバ装置h(1≦k≦N)が、再配置先のサーバ装置32に選ばれた後、第2クラスタ34内のサーバ装置32が故障した場合の違約情報の期待値を算出する。
なお、以下の説明では、各サーバ装置h(1≦k≦N)が、故障する確率は、同一であると仮定する。また、各サーバ装置h(1≦k≦N)が故障する確率は、十分に小さいと考えることができるとして、同時に複数台のサーバ装置hが故障する場合の違約情報の期待値を0とみなす。すなわち、二点故障の確率は相当小さいので、一点故障までの違約情報の期待値が、違約情報の期待値の主要部であるとみなす。決定部4は、当該主要部が最小であるサーバ装置hを再配置先に決定する。
まず、使用する記号について説明する。sを第2クラスタ34のサーバ装置32で動作しているサービスプロセスとする。g(n,s)を、サービスプロセスsを見積もり基準時からn回再配置したときの違約情報の見積もり値とする。具体的には、例えば、過去1年間の動作不能時間に、n回分の再配置の予想処理時間を加えた値から、品質情報で約束された値(例えば52分)を引いて違約時間を見積もる。次に、この違約時間に応じた違約情報(例えば違約金)を算出し、当該違約情報をg(n,s)とする。なお、g(0,s)は、サービスプロセスsの見積もり基準時の違約情報であることを示す。
n回再配置したときの違約情報の増加分G(n,s)を、次式(1)により定義する。
Figure 0006072072
ここでは、計算を簡易的に行うため、サーバ装置hは全て同一機種であるとする。すなわち、G(n,s)は、サービスプロセスが配置されるサーバ装置hに関係なく見積もれるものとする。
サーバ装置hのサービスプロセスsを、他のサーバ装置32に移した後(1回再配置した後)の全てのサービスプロセスsの違約情報は、次式(2)で表すことができる。
Figure 0006072072
ここでHは、サーバ装置hで動いていたサービスプロセスの集合である。なお、式(2)の第1項は、サーバ装置hで動作していたサービスプロセスsの違約情報の総和を示す。また、式(2)の第2項は、サーバ装置h以外のサーバ装置32で動作しているサービスプロセスsの違約情報の総和を示す。式(2)は、以下のようにして式(3)に変形することができる。
Figure 0006072072
つまり、サーバ装置hのサービスプロセスsを、他のサーバ装置32に移した後の全てのサーバ装置32のサービスプロセスsの違約情報は、見積もり基準時の違約情報(第1項)と、サーバ装置h上のサービスプロセスsを1回再配置することによる違約情報の増加分(第2項)の和である。式(3)のkに依存する項は、第2項のみであることがわかる。
再配置後の違約情報の見積もりが最小となるサーバ装置32が複数ある場合(例えば、違約情報が0で並ぶ等)は、式(3)の第2項が最小(同一)となるサーバ装置hが複数あることを示す。したがって、更に違約情報の見積もりの期待値を算出する場合は、次式(4)が同一であると仮定してよい。
Figure 0006072072
各サーバ装置h(1≦k≦N)について、サーバ装置hが再配置先のサーバ装置32に選ばれた後、第2クラスタ34内のサーバ装置32が故障した場合の違約情報の期待値を算出する。当該違約情報の期待値は、サーバ装置h(1≦i≦N)のいずれか1台の故障により発生するサービスプロセスsの違約金の増加分の期待値を、式(1)に加算した次式(5)により算出できる。
Figure 0006072072
ここで、pはサーバ装置hの故障確率とする(サーバ装置hの故障確率を全て同一であると仮定している。)。/H(ただし、“/”は上線であることを示す。)は、再配置後(ホットスワップを一回した後)にサーバ装置hで動いていたサービスプロセスの集合である。/G(s)(ただし、“/”は上線であることを示す。)は、サービスsの違約情報の増加分である。
/G(s)は、次式(6)で表すことができる。
Figure 0006072072
式(5)は、次のようにして式(7)に変形することができる。
Figure 0006072072
式(7)の第3項(式(4))は、違約情報の期待値の評価対象となっているサーバ装置hの間で同じである。したがって、kに依存する項は、式(7)の第1項のみである。すなわち、決定部4は、次式(8)により算出された値が、最小となるサーバ装置hを決定すればよい。
Figure 0006072072
式(8)は、故障確率pや、各サービスプロセスsの再配置先のサーバ装置32に関係なく、値が確定できるため、実際に計算可能である。上記の計算を踏まえると、再配置後に2回(2台)以上サーバ装置hが故障する場合にも、次式(9)を、違約情報の期待値の見積もりの値の評価に利用できることがわかる。
Figure 0006072072
すなわち、式(8)が同一の値となる場合(例えば、0で並ぶ場合)は、式(9)でn=3として、更にもう1回、見積もり基準時のサーバ装置h(1≦k≦N)で動作していたサービスプロセスsが再配置の対象となった場合を評価する。見積部3は、このようにして、nの値を増やして式(9)を評価することにより、違約情報の期待値を見積もる。決定部4は、当該違約情報の期待値により、ホットスワップの対象となるサーバ装置hを決定する。
本実施形態のクラウドシステム管理装置10によれば、クラウドシステム100内のサーバ装置31(32)が故障したとき、見積部3、決定部4、及び再配置部5により、サービスプロセスが保証する品質に応じて、使用できるサーバ装置31(32)を、サービスプロセスに効率的に割り当てることができる。
また、本実施形態のクラウドシステム管理装置10によれば、品質の要求レベルの異なる品質情報(例えばSLA)を有するサービスプロセスを、クラウドシステム100により効率的に運用することができる。
(その他の実施形態)
その他の実施形態のクラウドシステム管理装置10、及びクラウドシステム100について説明する。上述の実施形態のクラウドシステム100は、サーバ装置31(32)は、全て使用されていた。その他の実施形態のクラウドシステム100として、余剰リソースとして予備サーバ装置がある場合について説明する。
予備サーバ装置は、第2クラスタ34のサーバ装置として利用される。ただし、予備サーバ装置で動作するサービスプロセス(以下「予備サービスプロセス」という。)が保証する品質は、第2クラスタ34のサーバ装置32よりも更に低いものとする。例えば、予備サービスプロセスは、サーバ装置31(32)で故障が発生したら、すぐに停止しても差し支えのないサービスプロセスである。したがって、決定部4が、予備サーバ装置31を、ホットスワップの対象に決定しても、予備サービスプロセスは、他のサーバ装置31(32)や、他の予備サーバ装置に移さなくてもよい。決定部4は、第1クラスタのサーバ装置31が故障した際には、まず、予備サーバ装置を、ホットスワップの対象に決定する。
本実施形態のクラウドシステム管理装置10、及びクラウドシステム100は、クラウドシステム100のリソースに余裕がある場合でも、サービスプロセスが保証する品質に応じて、クラウドシステム100のリソースを効率的に割り当てることができる。
次に、実施形態のクラウドシステム100のクラウドシステム管理装置10、及びサーバ装置31(32)のハードウェアの構成の一例について説明する。図13は、実施形態のクラウドシステムのクラウドシステム管理装置、及びサーバ装置のハードウェアの構成の一例を示す図である。以下では、クラウドシステム管理装置10の場合を例にして説明する。
本実施形態のクラウドシステム管理装置10は、制御部61、主記憶部62、補助記憶部63、表示部64、入力部65、及び通信I/F部66を備える。制御部61、主記憶部62、補助記憶部63、表示部64、入力部65、及び通信I/F部66は、バス67を介して互いに接続されている。
制御部61は、補助記憶部63から主記憶部62に読み出されたプログラムを実行する。主記憶部63は、ROM(Read Only Memory)やRAM(Random Access Memory)等のメモリである。補助記憶部63は、HDD(Hard Disk Drive)や光学ドライブ等である。表示部64は、クラウドシステム管理装置10の状態等を表示する画面である。表示部6は、例えば液晶ディスプレイである。入力部65は、クラウドシステム管理装置10を操作するためのインタフェースである。入力部65は、例えばキーボードやマウス等である。通信I/F部66は、ネットワークに接続するためのインタフェースである。
本実施形態のクラウドシステム管理装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。
また、本実施形態のクラウドシステム管理装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態のクラウドシステム管理装置10で実行されるプログラムをインターネット等のネットワーク経由で提供、又は配布するように構成してもよい。
また、本実施の形態のクラウドシステム管理装置10のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施形態のクラウドシステム管理装置10で実行されるプログラムは、上述した各機能ブロック(検出部1、見積部3、決定部4、及び再配置部5)を含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、制御部61が上記補助記憶部63等からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶部62上にロードされる。すなわち、上記各機能ブロックは、主記憶部62上に生成される。
なお、上述した各部(検出部1、見積部3、決定部4、及び再配置部5)の一部、又は全部を、ソフトウェアにより実現せずに、IC等のハードウェアにより実現してもよい。また、記憶部2は、例えば、補助記憶部63である。なお、補助記憶部63により実現する記憶部2のデータを、主記憶部62に展開してもよい。
以上説明したとおり、実施形態のクラウドシステム管理装置10によれば、クラウドシステム100内のサーバ装置31(32)が故障したとき、見積部3、決定部4、及び再配置部5により、サービスプロセスが保証する品質に応じて、使用できるサーバ装置31(32)を、サービスプロセスに効率的に割り当てることができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
1 検出部
2 記憶部
3 見積部
4 決定部
5 再配置部
6 状況データ
7 見積データ
8 開始部
9 停止部
10 クラウドシステム管理装置
20 LAN
31a〜31n,31 サーバ装置
32a〜32n,32 サーバ装置
33 第1クラスタ
34 第2クラスタ
40 ネットワーク
51a〜51n,51 クライアント装置
61 制御部
62 主記憶部
63 補助記憶部
64 表示部
65 入力部
66 通信I/F
67 バス

Claims (8)

  1. クラウドシステム内のサーバ装置で動作するサービスプロセスについて定められている可用性を表す品質情報と、前記サービスプロセスを停止してから開始するまでの動作不能時間の和を示す累積動作不能時間と、に基づいて、前記サービスプロセスが、前記累積動作不能時間によって前記可用性を達成できない程度を表す違約情報を見積もる見積部と、
    前記サーバ装置の故障を検出する検出部と、
    前記故障が検出された前記サーバ装置で動作する第1サービスプロセスを再配置するときに、前記第1サービスプロセスを再配置する前に再配置先のサーバ装置で動作していた第2サービスプロセスの前記違約情報の総和が小さい前記サーバ装置を優先して前記再配置先のサーバ装置に決定する決定部と、
    前記第1サービスプロセスを、前記再配置先のサーバ装置に移すことにより再配置する再配置部と
    を備えるクラウドシステム管理装置。
  2. 前記クラウドシステムは、
    前記可用性を必ず保証することが前記品質情報で定められている前記第1サービスプロセスが動作する第1サーバ装置で構成される第1クラスタと、
    前記可用性を必ず保証することが前記品質情報で定められていない前記第2サービスプロセスが動作する第2サーバ装置で構成される第2クラスタと、
    を含み、
    前記決定部は、前記第1サーバ装置の故障が検出された場合に、前記第2サーバ装置のうち、前記第1サービスプロセスを再配置する前に前記再配置先の前記第2サーバ装置で動作していた前記サービスプロセスの前記違約情報の総和が小さい前記第2サーバ装置を優先して、前記第1サーバ装置で動作する前記第1サービスプロセスの再配置先に決定する
    請求項1に記載のクラウドシステム管理装置。
  3. 前記再配置部は、
    更に、前記第2サービスプロセスを、他の前記第2サーバ装置に移すことにより再配置する
    請求項2に記載のクラウドシステム管理装置。
  4. 前記見積部は、
    前記違約情報を、前記第2サービスプロセスの前記累積動作不能時間に、前記第2サービスプロセスを再配置する場合に要する前記第2サービスプロセスの前記動作不能時間を加算することにより見積もる
    請求項1乃至3のいずれか1項に記載のクラウドシステム管理装置。
  5. 前記第2サービスプロセスの前記品質情報は、前記第2サービスプロセスの性能情報を更に含み、
    前記見積部は、
    前記違約情報を、前記第2サービスプロセスを前記他の第2サーバ装置に移した場合に、前記第2サービスプロセスが前記他の第2サーバ装置のリソースを使用できる割合に応じて算出される処理時間により見積もる
    請求項3に記載のクラウドシステム管理装置。
  6. 少なくとも1つのサービスプロセスが動作する複数のサーバ装置と、
    クラウドシステム管理装置と
    を備えるクラウドシステムであって、
    前記クラウドシステム管理装置は、
    クラウドシステム内のサーバ装置で動作するサービスプロセスについて定められている可用性を表す品質情報と、前記サービスプロセスを停止してから開始するまでの動作不能時間の和を示す累積動作不能時間と、に基づいて、前記サービスプロセスが、前記累積動作不能時間によって前記可用性を達成できない程度を表す違約情報を見積もる見積部と、
    前記サーバ装置の故障を検出する検出部と、
    前記故障が検出された前記サーバ装置で動作する第1サービスプロセスを再配置するときに、前記第1サービスプロセスを再配置する前に再配置先のサーバ装置で動作していた第2サービスプロセスの前記違約情報の総和が小さい前記サーバ装置を優先して前記再配置先のサーバ装置に決定する決定部と、
    前記第1サービスプロセスを、前記再配置先のサーバ装置に移すことにより再配置する再配置部と
    を備えるクラウドシステム。
  7. クラウドシステム管理装置が、クラウドシステム内のサーバ装置で動作するサービスプロセスについて定められている可用性を表す品質情報と、前記サービスプロセスを停止してから開始するまでの動作不能時間の和を示す累積動作不能時間と、に基づいて、前記サービスプロセスが、前記累積動作不能時間によって前記可用性を達成できない程度を表す違約情報を見積もるステップと、
    前記クラウドシステム管理装置が、前記サーバ装置の故障を検出するステップと、
    前記クラウドシステム管理装置が、前記故障が検出された前記サーバ装置で動作する第1サービスプロセスを再配置するときに、前記第1サービスプロセスを再配置する前に再配置先のサーバ装置で動作していた第2サービスプロセスの前記違約情報の総和が小さい前記サーバ装置を優先して前記再配置先のサーバ装置に決定するステップと、
    前記クラウドシステム管理装置が、前記第1サービスプロセスを、前記再配置先のサーバ装置に移すことにより再配置するステップと
    を含む再配置方法。
  8. コンピュータを、
    クラウドシステム内のサーバ装置で動作するサービスプロセスについて定められている可用性を表す品質情報と、前記サービスプロセスを停止してから開始するまでの動作不能時間の和を示す累積動作不能時間と、に基づいて、前記サービスプロセスが、前記累積動作不能時間によって前記可用性を達成できない程度を表す違約情報を見積もる見積部と、
    前記サーバ装置の故障を検出する検出部と、
    前記故障が検出された前記サーバ装置で動作する第1サービスプロセスを再配置するときに、前記第1サービスプロセスを再配置する前に再配置先のサーバ装置で動作していた第2サービスプロセスの前記違約情報の総和が小さい前記サーバ装置を優先して前記再配置先のサーバ装置に決定する決定部と、
    前記第1サービスプロセスを、前記再配置先のサーバ装置に移すことにより再配置する再配置部と
    して機能させるプログラム。
JP2014551787A 2012-12-12 2012-12-12 クラウドシステム管理装置、クラウドシステム、再配置方法、及びプログラム Active JP6072072B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/082215 WO2014091580A1 (ja) 2012-12-12 2012-12-12 クラウドシステム管理装置、クラウドシステム、再配置方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2014091580A1 JPWO2014091580A1 (ja) 2017-01-05
JP6072072B2 true JP6072072B2 (ja) 2017-02-01

Family

ID=50933903

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014551787A Active JP6072072B2 (ja) 2012-12-12 2012-12-12 クラウドシステム管理装置、クラウドシステム、再配置方法、及びプログラム

Country Status (4)

Country Link
US (1) US9703653B2 (ja)
JP (1) JP6072072B2 (ja)
CN (1) CN104885059B (ja)
WO (1) WO2014091580A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6319670B1 (en) 1995-05-09 2001-11-20 Meso Scale Technology Llp Methods and apparatus for improved luminescence assays using microparticles
US20150081893A1 (en) 2013-09-17 2015-03-19 Netapp. Inc. Fabric attached storage
CN105988918B (zh) 2015-02-26 2019-03-08 阿里巴巴集团控股有限公司 预测gpu故障的方法和装置
US9720763B2 (en) * 2015-03-09 2017-08-01 Seagate Technology Llc Proactive cloud orchestration
JP6589417B2 (ja) * 2015-07-03 2019-10-16 富士通株式会社 起動制御プログラム、起動制御方法及び起動制御装置
JP7065781B2 (ja) 2016-03-07 2022-05-12 エフ.ホフマン-ラ ロシュ アーゲー 抗p53抗体の検出
JP6772857B2 (ja) * 2017-01-24 2020-10-21 富士通株式会社 判定プログラム、判定方法および判定装置
JP6872117B2 (ja) * 2017-01-26 2021-05-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7068323B2 (ja) 2017-02-02 2022-05-16 エフ.ホフマン-ラ ロシュ アーゲー 少なくとも2種のペグ化された分析物特異的結合剤を使用する免疫アッセイ
CN110069338B (zh) * 2018-01-24 2024-03-19 中兴通讯股份有限公司 资源控制方法、装置及设备、计算机可读存储介质
CN111936522B (zh) 2018-04-18 2024-07-02 豪夫迈·罗氏有限公司 新型抗胸苷激酶抗体
US10733029B2 (en) * 2018-07-31 2020-08-04 Hewlett Packard Enterprise Development Lp Movement of services across clusters
CN112639475A (zh) 2018-08-31 2021-04-09 豪夫迈·罗氏有限公司 Dlbcl的预后指数中的胸苷激酶(tk-1)
CN114144676A (zh) 2019-07-22 2022-03-04 豪夫迈·罗氏有限公司 S100a6作为血液生物标志物用于子宫内膜异位症的非侵入性诊断
JP7421631B2 (ja) 2019-07-22 2024-01-24 エフ. ホフマン-ラ ロシュ アーゲー 子宮内膜症の非侵襲的診断のための血液バイオマーカーとしてのs100a8
WO2021013781A1 (en) 2019-07-22 2021-01-28 F. Hoffmann-La Roche Ag Substance p as blood biomarker for the non-invasive diagnosis of endometriosis
WO2021013783A1 (en) 2019-07-22 2021-01-28 F. Hoffmann-La Roche Ag S100a12 as blood biomarker for the non-invasive diagnosis of endometriosis
KR20220016210A (ko) 2019-07-22 2022-02-08 에프. 호프만-라 로슈 아게 자궁내막증의 비-침습적 진단용 혈액 생물표지자로써 s100a9
CN114728984A (zh) 2019-11-15 2022-07-08 豪夫迈·罗氏有限公司 用于患者样品中质谱测量的β-内酰胺类抗生素的衍生化
JP2023547505A (ja) 2020-11-02 2023-11-10 エフ. ホフマン-ラ ロシュ アーゲー SARS-CoV-2ヌクレオカプシド抗体
WO2022207628A1 (en) 2021-03-30 2022-10-06 F. Hoffmann-La Roche Ag Scf as blood biomarker for the non-invasive diagnosis of endometriosis
EP4314838A1 (en) 2021-04-01 2024-02-07 F. Hoffmann-La Roche AG Psp94 as blood biomarker for the non-invasive diagnosis of endometriosis
WO2022243210A1 (en) 2021-05-17 2022-11-24 F. Hoffmann-La Roche Ag sFRP4 AS BLOOD BIOMARKER FOR THE NON-INVASIVE DIAGNOSIS OF ADENOMYOSIS
WO2023072904A1 (en) 2021-10-26 2023-05-04 F. Hoffmann-La Roche Ag Monoclonal antibodies specific for sars-cov-2 rbd
WO2023131594A1 (en) 2022-01-05 2023-07-13 F. Hoffmann-La Roche Ag Derivatization of compounds in patient samples for therapeutic drug monitoring (tdm)
WO2023247752A1 (en) 2022-06-23 2023-12-28 F. Hoffmann-La Roche Ag Method for diagnosing endometriosis and for classifying the stage of endometriosis
WO2024017982A1 (en) 2022-07-22 2024-01-25 F. Hoffmann-La Roche Ag Leukotriene a4 hydrolase (lta4h) as (blood) biomarker for the diagnosis of polycystic ovarian syndrome
WO2024017983A1 (en) 2022-07-22 2024-01-25 F. Hoffmann-La Roche Ag Meteorin-like protein (metrnl) as (blood) biomarker for the diagnosis of polycystic ovarian syndrome
WO2024017985A1 (en) 2022-07-22 2024-01-25 F. Hoffmann-La Roche Ag Fibroblast growth factor binding protein 1 (fgfbp1) as (blood) biomarker for the diagnosis of polycystic ovarian syndrome

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325117A (ja) * 2000-05-17 2001-11-22 Nippon Signal Co Ltd:The 待機2重系情報処理装置およびその系状態確定方法
JP4292693B2 (ja) 2000-07-07 2009-07-08 株式会社日立製作所 計算機資源分割装置および資源分割方法
US7174379B2 (en) 2001-08-03 2007-02-06 International Business Machines Corporation Managing server resources for hosted applications
FR2834840B1 (fr) * 2002-01-14 2005-06-24 Sofedit Sa Determination de la cause probable d'une diminution de la qualite d'un service en fonction de l'evolution d'un ensemble de services
JP2004259092A (ja) * 2003-02-27 2004-09-16 Nec Corp 最適サービスレベル提供者選択システム、サービス仲介ノード及びプログラム
JP4363914B2 (ja) 2003-06-20 2009-11-11 株式会社東芝 クラスタシステム
JP3987517B2 (ja) 2003-09-02 2007-10-10 株式会社東芝 計算機システム及びクラスタシステム用プログラム
JP2007249470A (ja) * 2006-03-15 2007-09-27 Nec Biglobe Ltd クラスタサーバシステム、課金装置、課金方法
JP4504329B2 (ja) * 2006-03-31 2010-07-14 株式会社東芝 ストレージシステム、当該ストレージシステムに用いられるストレージ及びアクセス制御方法
CN101188509B (zh) * 2006-11-15 2011-10-05 富士通株式会社 一种为网络服务提供服务质量保证的方法、系统
US9021083B2 (en) * 2008-11-26 2015-04-28 Red Hat, Inc. Service oriented architecture with dynamic policy enforcement points
US8190744B2 (en) * 2009-05-28 2012-05-29 Palo Alto Research Center Incorporated Data center batch job quality of service control
JP5368907B2 (ja) * 2009-08-10 2013-12-18 株式会社エヌ・ティ・ティ・データ サーバ管理システム、サーバ管理方法、及びプログラム
JP2012108651A (ja) * 2010-11-16 2012-06-07 Hitachi Ltd クラスタシステム
US8898307B2 (en) * 2011-09-22 2014-11-25 Nec Laboratories America, Inc. Scheduling methods using soft and hard service level considerations
US9049135B2 (en) * 2012-10-09 2015-06-02 Ciena Corporation Network spares audit optimization and maintenance systems and methods
US9122652B2 (en) * 2012-12-17 2015-09-01 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Cascading failover of blade servers in a data center

Also Published As

Publication number Publication date
CN104885059A (zh) 2015-09-02
US9703653B2 (en) 2017-07-11
JPWO2014091580A1 (ja) 2017-01-05
CN104885059B (zh) 2017-09-08
WO2014091580A1 (ja) 2014-06-19
US20150261630A1 (en) 2015-09-17

Similar Documents

Publication Publication Date Title
JP6072072B2 (ja) クラウドシステム管理装置、クラウドシステム、再配置方法、及びプログラム
US9935865B2 (en) System and method for detecting and preventing service level agreement violation in a virtualized environment
US11050637B2 (en) Resource lifecycle optimization in disaggregated data centers
US20200097358A1 (en) Resource provisioning and replacement according to a resource failure analysis in disaggregated data centers
RU2605473C2 (ru) Автоматизированное профилирование использования ресурса
US10191771B2 (en) System and method for resource management
US11256595B2 (en) Predictive storage management system
US9081621B2 (en) Efficient input/output-aware multi-processor virtual machine scheduling
US20160119212A1 (en) Physical Resource Management
US10754720B2 (en) Health check diagnostics of resources by instantiating workloads in disaggregated data centers
US11803773B2 (en) Machine learning-based anomaly detection using time series decomposition
US10761915B2 (en) Preemptive deep diagnostics and health checking of resources in disaggregated data centers
US20200097349A1 (en) Diagnostic health checking and replacement of resources in disaggregated data centers
CN113544647A (zh) 云计算系统中使用虚拟机系列建模的容量管理
JP5998577B2 (ja) クラスタ監視装置、クラスタ監視方法、及びプログラム
US20160283926A1 (en) Dynamic workload capping
JP6520512B2 (ja) 情報処理装置、優先度算出プログラムおよびデータセンタシステム
US20150074454A1 (en) Information processing method and apparatus for migration of virtual disk
US20190173770A1 (en) Method and system for placement of virtual machines using a working set computation
Gilesh et al. Opportunistic live migration of virtual machines
US10067778B2 (en) Management system, recording medium and method for managing virtual machines
JP6451497B2 (ja) 情報処理装置、情報処理プログラム、及びデータセンタシステム
US20220253361A1 (en) Systems and methods for selecting optimal proxy devices for backup and restore operations for virtual machines
JP2010026828A (ja) 仮想計算機の制御方法
JP2022114776A (ja) サービス特定方法、及びサービス特定プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161227

R150 Certificate of patent or registration of utility model

Ref document number: 6072072

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350