JP4897710B2

JP4897710B2 - データセンタにおける複数個のサーバーを再起動するための最適の順序を決定する方法

Info

Publication number: JP4897710B2
Application number: JP2008000963A
Authority: JP
Inventors: ロンダ・エル・チャイルドレス; クリストファ・エル・モロイ; デイビッド・ブルース・クムヒャ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2007-01-11
Filing date: 2008-01-08
Publication date: 2012-03-14
Anticipated expiration: 2028-01-08
Also published as: CN101227325B; JP2008171427A; CN101227325A; US7818621B2; US20080172553A1

Description

本発明はデータセンタで複数のサーバーを再起動（リブート）するための最適の順序を決定するための方法に関する。

従来は、データセンタでの電力供給停止（停電）の後、電力の回復を管理するのに、必要とされる人的資源が高価で、システムをパワーアップするために予め決められたプランを使用することに起因する柔軟性の無い手順を含んでいた。更に、データセンタのための現存する電力対策は、データセンタのマシンの前に挿入されるパワー・ストリップすなわち電力資源を制御することを狙っている。そのようなパワー・ストリップがプログラム可能なアクセスを有する場合でさえ、それらは電源オフ状況では不作動であり、これによってデータセンタに電力を回復するためのマスタプランでもって使用するのが困難かまたは不可能である。このように従来技術における欠陥や制限の少なくとも一方を克服する必要がある。

本発明はデータセンタにおいて複数のサーバーを再起動するための適切な順序を決定するためのコンピュータで実施される方法を提供する。

本方法は、例えば（１）データセンタにおける異常なシャットダウン・イベントに続く電力の回復を自動的に検知するステップと、（２）データセンタに含まれるサーバーの再起動のための順序を、電力回復の検知に応答して、自動的にそして動的に決定するステップと、（３）ステップ（２）で決定された順序でサーバーを再起動するステップとを含む。ステップ（１）はコンピューティング・システムの電力回復管理サーバー( power restoration managementserver)によって実行される。ステップ（１）で検知された電力の回復はサーバーの再起動のために利用可能とすることができる。ステップ（２）における順序を決定することは１個もしくはそれ以上のポリシーを適用することを含む。ステップ（３）に於ける再起動はデータセンタに関連するエンティティの財政上の地位（financial position）を増進する。そのエンティティの財政上の地位の増進はエンティティの財政上の利益を増加させもしくは財政上の損失を減少させることを含む。

コンピューティング・システム、コンピュータ・プログラム製品および上記に要約した方法に対応するコンピューティング基盤（インフラ）をサポートするためのプロセスもまた記述されており、この特許請求の範囲に示す。

好適には、本発明は複数のサーバーを再起動する最適の順序を動的に決定するための技法を提供する。更にここに記述された再起動手順は、オペレーション・スタッフに対するサーバーの数の比が増すにつれ、データセンタの動作にとっては一層有利になる。更に本発明の再起動技法の利点は、遠隔地に逃避したデータセンタおよび遠隔管理されるデータセンタに拡張することができる。

本発明は電力の回復の順序およびタイミング、ならびにデータセンタなどにおける複数のサーバーの再起動を制御する電力回復管理ツールを提供する。この再起動の順序は動的にそして自動的に決定され、手動介入を必要としない。そのように動的に規定し順序づけた再起動手順を持たせると、電力およびワット数の適切なレベルを引き出すようなデータセンタの起動（ブートアップ）を提供することができる。

システムの概観
図１は、本発明の実施例に従い、ディジタル・コマンド信号を処理することのできる電力パネルを含むデータセンタにおいてサーバーを再起動するための最適の順序を決定するためのシステムのブロック図である。システム１００はデータセンタ１０２、データセンタ１０２に結合された電力パネル１０４、電力パネル１０４に結合された電力回復管理（ＰＲＭ）サーバー１０６を含む。一実施例では、ＰＲＭサーバー１０６が電力管理プログラム１０７を含む。他の実施例では、電力回復管理プログラム１０７が、ＰＲＭサーバー１０６とは別のコンピューティング・ユニット（図示せず）で実行される。ＰＲＭサーバー１０６に結合され、システム１００に含まれるのは管理制御卓１０８,データ・ストア１１０および他のデータ・ストアに含まれる１個または複数個のポリシー１１２である。データセンタ１０２は１個もしくはそれ以上のグループのサーバー（例えばブレード、ラック、メインフレームなど）を含む。電力パネル１０４はブランチ・フィード（分岐回路への信号線、branch feed）を介してデータセンタ１０２の各グループに電力を提供する。電力パネル１０４を介してデータセンタ１０２中のサーバーへ電力を配分するのを制御するために電力回復管理プログラム１０７の論理が実行させる。電力回復管理プログラム１０７による電力配分の制御はデータセンタ１０２での電力供給停止(power outage)に続いてデータセンタ１０２におけるサーバーごとの電力回復のタイミングおよび再起動の順序を含む。図１による実施例では、電力パネル１０４が電力回復管理プログラム１０７から送信されたディジタル・コマンド信号を処理する論理を含む。

管理制御卓１０８がＰＲＭサーバー１０６へのインターフェースを提供し、人間のオペレータが、遠隔でもしくはデータセンタ１０２でＰＲＭサーバー１０６の機能をモニターすることができ、そしてポリシー１１２を変えることができる。１個もしくはそれ以上のポリシー１１２（またの名を起動順序決定(boot order determination)ポリシー）は、データセンタ１０２に含まれるサーバーの優先度を特定するために電力回復管理プログラム１０７によって適用される規則（例えば、ＸＭＬフォーマットで）を含む。その１個もしくはそれ以上のポリシーは異常なシャットダウン・イベント後の電力回復によって提供される負荷もしくはデータセンタ１０２に含まれるそれらのサーバーに関連するファクタに基く。ここで使用されるように、データセンタの異常なシャットダウン・イベントは、データセンタが企図していない電力供給停止を受けているものとして定義される。特定したサーバーの優先度(specified prioritization of servers)は、データセンタ１０２での異常シャットダウン・イベントの後、データセンタ１０２に含まれるサーバーを再起動するための最適の順序を決定する。電力回復管理プログラム１０７によるポリシー１１２の適用はデータ・ストア１１０からのデータを用いることを含む。

データ・ストア（データ格納部）１１０はデータセンタ１０２の複数のサーバーのオペレーションの最後の状態を含む。但し、データセンタ１０２の一つのサーバーの最後の状態はデータセンタ１０２での異常シャットダウン・イベントが生じた時点で存在するサーバーの状態である。一例として、データ・ストア１１０はデータセンタ１０２に関連する組織的なエンティティ(organizational entity)相互間（例えば、サービスを提供する会社とそのサービスを利用する顧客との間）のサービス・レベル契約（ＳＬＡ）のＸＭＬインプリメンテーションを含む。

図２は本発明の実施例による、ディジタル・コマンド信号を処理することのできない電力パネルを含む、データセンタにおけるサーバーを再起動するための最適の順序を決定するためのシステムのブロック図である。システム１２０はシステム１００のコンポーネント（図１参照）（例えば、データセンタ１０２、電力パネル１０４、電力回復管理プログラム１０７を含むＰＲＭサーバー１０６、管理制御卓１０８、データ・ストア１１０および１個もしくはそれ以上のポリシー１１２）を含む。他の実施例では、電力回復管理プログラム１０７がＰＲＭサーバー１０６とは別のコンピューティング・ユニット（図示せず）を実行させる。システム１２０中のコンポーネントの構成および関係は、ＰＲＭサーバー１０６が電力パネル１０４に直接結合されている代わりにＰＲＭサーバー１０６が電力回復管理スイッチ１２２に結合され、そしてそのスイッチが電力パネル１０４に直接結合されている点を除けば、システム１００（１００参照）と等価である。電力回復管理スイッチ１２２はＰＲＭサーバー１０６に電力パネル１０４へのインターフェースを提供する。何故ならば図２に示す実施例では電力パネル１０４がＰＲＭサーバー１０６からのディジタル・コマンド信号を受容れる論理を欠いているからである。

再始動前のデータセンタの作動
図３は、本発明の実施例に従い、図１および図２のシステムを用いて再始動する前のデータセンタを作動するプロセスのフローチャートである。再始動前のデータセンタ１０２（図１および図２参照）を作動するプロセスはステップ２００で開始する。ステップ２０２では、データセンタ１０２（図１および図２参照）が正常に作動する。ステップ２０２は、ＰＲＭサーバー１０６（図１および図２参照）が、サーバーを再起動する順序に関連する優先度の動的なシフト（すなわち変化）を収集し、モニターし、そして捕捉し、またデータセンタ１０２（図１および図２参照）に含まれるサーバーに関係するＳＬＡ約定（コミットメント）もしくは請求書作成の機会すなわちビリングの機会（ビリングの割合）、あるいは図４に関して後述するような他のファクタを含む。例えば、管理制御卓１０８（図１参照）を用いてオペレータがＸＭＬ文書を入れる。そのＸＭＬ文書は、会社と顧客との間のＳＬＡ中で特定されたサーバー稼働時間を維持し損なうのに応答して顧客に対し会社が負わされる財政上の罰則（経済的あるいは金銭的な罰則を含む）を動的に変化させる。この例では、ＰＲＭサーバー１０６（図１参照）が財政上の罰則の変化をモニターし、捕捉する。

ステップ２０４では、ＰＲＭサーバー１０６（図１および図２参照）がステップ２０２で収集した変化をデータ・ストア１１０に書き込む。ステップ２０２に対し前述の例では、ＰＲＭサーバー１０６（図１参照）がＳＬＡにおける財政上の罰則に対する変化をデータ・ストア１１０に書き込む。ステップ２０８では、データセンタ１０２（図１および図２参照）が異常シャットダウン・イベントを受け、データセンタ１０２（図１および図２参照）に含まれるサーバーをシャットダウンする。図３のこのプロセスはステップ２１０で終了する。

データセンタの再始動
図４は、本発明の実施例に従い、図１および図２のシステムを用い、制御された再起動順序（起動順序ともいう）で以ってデータセンタを再始動するプロセスのフローチャートである。ＰＲＭサーバー１０６により制御された再起動順序で以ってデータセンタ１０２（図１および図２参照）を再始動するプロセスはステップ３００で開始するが、それは図３のステップ２０８での異常シャットダウン・イベントの後に続く。ステップ３０２の前に、電力が回復され、電力パネル１０４（図１および図２参照）に利用可能となり、ＰＲＭサーバー１０６（図１および図２参照）が電力の回復を検知し、これによってデータセンタ１０２（図１および図２参照）中に含まれるサーバーを再起動するのに利用できるようになる。ステップ３０２では、ＰＲＭサーバー１０６（図１および図２参照）がデータ・ストア１１０からデータセンタ１０２（図１および図２参照）に含まれるサーバーの最後の状態を読み出す。但し、その最後の状態は図３のステップ２０８の異常シャットダウン・イベントのときのそれらのサーバーの作動状態（即ち、異常シャットダウン・イベントの直前のサーバーの状態）である。その最後の状態は、サーバーを最適の順序で再起動するためにデータセンタ１０２（図１および図２参照）に含まれるサーバーの優先度に関係するデータ、またはデータセンタ１０２（図１および図２参照）に含まれるサーバーに関係するビリング（請求書作成発送）の機会（ビリング割合）もしくはＳＬＡ約定（コミットメント）を含む。

ステップ３０４では、電力回復管理プログラム１０７（図１および図２参照）が自動的にかつ動的に起動順序決定ポリシー１１２を適用し、データセンタ１０２（図１および図２参照）に含まれるサーバーを再起動するための順序を自動的にかつ動的に決定する。ステップ３０４で行われるポリシー１１２（図１および図２参照）の適用は、ステップ３０２で読み出されるサーバー動作の最後の状態、データセンタ１０２（図１および図２参照）に含まれるサーバーの再始動の日および時刻、データセンタ１０２（図１および図２参照）に含まれ且つビリング（請求書作成発送）の機会もしくはＳＬＡ約定（コミットメント）によって決定されるサーバーの優先度、電力の回復によって発生される筈の負荷を処理するためにデータセンタ１０２（図１および図２参照）中のサーバーに電力パネル１０４（図１および図２参照）を結合する分岐回路の能力、および以下に列挙する他のファクタなど種々の重み付けファクタに基く。

ステップ３０４で決定される再起動順序はこの順序でサーバーを再起動する最適の順序であり、データセンタに関連する組織的なエンティティ（例えば、データセンタのサーバーを管理し、そしてそのデータセンタのサーバーを利用する顧客とＳＬＡに入る会社）の財政上の地位を高める。その決定された再起動順序は、組織的なエンティティの受ける財政上の利益を増加させ、あるいは組織的なエンティティの受ける損失を減少させることによってその組織的なエンティティの財政上の地位を増進する。

負荷を処理する分岐回路の能力に対する前述のファクタは、入来する可用性（即ち、二次的な電力供給停止を引起す）を超えずに誘起され得る最大数の適切な初期の波および／もしくはそのブランチのためにブレーカーの制限を踏み外さずに再始動することができる各分岐回路上のサーバーの数を考慮に入れる。

ステップ３０４に関連して上述したように、１個もしくはそれ以上のポリシー１１２（図１および図２参照）を適用する基礎を構成する重み付けファクタは、再起動順序が異常シャットダウン・イベントのときのサーバーの動作の状態を表す変数に基いて動的に決定されるのを許容し、あるいはサーバー動作の所望の状態がサーバーを再始動するのに応答して獲得されるのを許容する。そのようなファクタの例を書きに列挙する。

１．使用時間の約定：ＳＬＡに基く第１のサーバーの使用時間の約定、計算されたＳＬＡ違反、もしくは契約の同意が、第２のサーバーの使用時間のための他の同様の約定よりも大きいならば、ステップ３０４で決定された再起動順序において第２のサーバーの再起動よりも早くに第１のサーバーの再起動を置く。

２．ビリングの機会：２個のサーバーが過度の休止時間（ダウンタイム）のために同じ財政上の罰則に関係するが、第１のサーバーを用いている第１の顧客が特定の期間で第１のサーバーを再起動させるような財政上の罰則を与え、そしてそのような金銭的インセンティブ（報奨）が第２のサーバーを再起動することと関連するならステップ３０４で決定される再起動順序は第１のサーバーの再起動を第２のサーバーの再起動よりも早くに置く。

３．ワークロード：異常シャットダウン・イベントのときの第１のサーバーのワークロードが、異常シャットダウン・イベントのときの第２のサーバーのワークロードよりも大きいならば、ステップ３０４で決定される再起動順序は第１のサーバーの再起動を第２のサーバーの再起動よりも早くに置かれる。

４．システムの必要とされる順序：或るシステムはある順序で利用可能となる必要がある。一例として、ウエッブ商用サーバーを再起動する前にウエッブ商用サーバーのデータベース・サーバーを再起動してウエッブ商用サーバーが利用できるようにする必要がある。このように、この例では、ステップ３０４の再起動順序において、データベース・サーバーの再起動がウエッブ商用サーバーの再起動より早くに置かれる。他の例では、もし複数のアプリケーション・サーバーが一つのデータベース・サーバーに依存するならば、ステップ３０４の再起動順序において、データベース・サーバーがアプリケーション・サーバーより高い優先度を与えられる。

５．発生する収益：より多くの収益を発生するシステムはステップ３０４の再起動順序において早めに置かれる。例えば、医薬品の情報サイトよりも高い収益発生する航空予約システムは両方のシステムのサービスをする単一のデータセンタ中で高めの優先度を有することになろう。

６．重要性（criticality）：もし第１のサーバーの機能が予め定義した基準に基く第２のサーバーの機能よりも重要性の高いレベルを有するなら、ステップ３０４で決定される再起動順序は第１のサーバーの再起動を、第２のサーバーの再起動よりも早くに置く。例えば、ある政府機関のサーバーおよびｅ９１１サーバーは、ステップ３０４の再起動順序においてこれらのサーバーが早くに置かれるに足りるだけの重要性を持つサービスを提供する。一実施例では、「高い評判（グッドウイル）」ファクタが上顧客のシステムに最高の重要性を割当てる。「高い評判」ファクタが適用される場合には、ステップ３０４で決定される再起動順序はその上顧客のシステムに再起動順序において最高の優先度を割当て、これによって他のファクタにより課された順序に優先する。

７．サーバー動作の状態：もし第１のサーバーが異常シャットダウン・イベントのときに動作可能でアクティブ（賦活）状態にあり、かつ第２のサーバーが異常シャットダウンのときに動作不能もしくは非アクティブ（非賦活）状態になるなら、ステップ３０４において決定される再起動順序は第１のサーバーの再起動を第２のサーバーの再起動よりも早くに置く。

一実施例では、ステップ３０４に関連する前述の種々のファクタに含まれるファクタに１対１対応の重み付けが割当てられ、その重み付けがステップ３０４においてポリシーを適用するための順序を決定する。重み付けは顧客がプログラム可能であるか、システム１００（図１参照）もしくはシステム１２０（図２参照）によって予め割当てられる。

ステップ３０６では、ＰＲＭサーバー１０６（図１および図２参照）が、ステップ３０４で決定される最適の順序に従って特定のサーバーを初期化するように始動コマンドを送る。初期化されるその特定のサーバーは図４ではシステムと呼ばれる。始動コマンドは、例えば、予起動（preboot）実行環境（ＰＸＥ）起動メッセージもしくは上級電力管理（ＡＰＭ）制御シーケンスである。ＰＸＥは利用可能なデータ・ストレージ装置もしくはインストールされたオペレーティング・システムと独立なネットワーク・インターフェース・カードを用いるブートストラップ・コンピュータ向きの環境である。ＰＸＥはカリフォルニア州サンタクララのインテル社によって提供される優先管理フレームワークの一部として導入された。ＡＰＭはワシントン州レドモンドのインテル（Ｒ）社およびマイクロソフト（Ｒ）社により開発されたＡＰＩである。これはＢＩＯＳが、電力を節約して使うために予めセットした期間の不作動後にＣＰＵ速度を下げたりハード・ディスクを遮断したり、ディスプレイへの電力を遮断するなどの電力管理を行う。

ステップ３０８では、ステップ３０６における始動コマンドを送られた特定のサーバーがその始動コマンドを受取り、始動する。ＰＲＭサーバー１０６（図１および図２参照）はデータセンタ１０２（図１および図２参照）に利用することができる電力の量をモニターし、そしてデータセンタ１０２（図１および図２参照）に含まれるもっと多くのサーバーをその利用可能な電力に基いて始動することができるかを問い合わせるステップ３１０で判定する。もしもっと多くのサーバーを始動することができるとステップ３１０で判定されるなら、図４のプロセスはステップ３０６にループで戻り、そこでＰＲＭサーバー１０６（図１および図２参照）が、データセンタ１０２（図１および図２参照）に含まれる他の特定のサーバーに始動コマンドを送る。もしステップ３１０が他のサーバーを始動することができないと判定すると、図４の始動プロセスはステップ３１２で終了する。

代替実施例では、ステップ３０４における最適の再起動順序の判定の後にデータセンタ１０２（図１および図２参照）のサーバーを最適の再起動順序に従って再起動する手動のプロセスが続く。

プロビジョニング／オーケストレーション・システムとの相互作用
一実施例では、ＰＲＭサーバー１０６（図１および図２参照）は、所定の係属中のサーバーの変更を考慮するデータセンタ１０２（図１および図２参照）のサーバーの起動順序を変更するプランを得るためにプロビジョニング（最適資源配置）システム（図示せず）および／もしくはオーケストレーション（組織化）システム（図示せず）に相談する。これらの係属中のサーバーの変更は、通常の動作を単に再始動して、それからプロビジョニングもしくはオーケストレーション・システムのプランに従う再プロビジョニングを行うのではなく、図４のプロセスの中で開始される。例えば、記念日というのはビジネスの最も活発な売り出し（セールス）日なので、そのビジネスは記念日のセールの能力のもっと多くの店内ポイントを与えるようにそれを支えるオフィス・システムを再構成する所定のプランを有する。もし電力停止がその記念日に予測されそのビジネスのサーバーについてその記念日用の再プロビジョニングおよび再始動がその記念日の直前に行われる予定なら、ＰＲＭサーバー１０６（図１参照）は、ステップ３０６、３０８、３１０におけるサーバーの再起動を行う前に、所定の記念日用再プロビジョニングを提供する、ステップ３０４の再起動順序を発生する。これは通常モードでサーバーを再始動する代わりに記念日用プランに従って再プロビジョニングする。

前述のプロビジョニングおよびオーケストレーション機能を提供する製品の例は、ニューヨーク州アーモンクのインターナショナル・ビジネス・マシーンズ・コーポレーションが提供するＩＢＭＴｉｖｏｌｉＩｎｔｅｌｌｉｇｅｎｔＯｒｃｈｅｓｔｒａｔｏｒ（ＩＴＩＯ）である。

コンピューティング・システム
図５は、図１および図２に示す電力回復管理プログラム１０７を含み、本発明に従って図３および図４のプロセスを実行する、コンピューティング・ユニットのブロック図である。一実施例では、コンピューティング・ユニット４００はＰＲＭサーバー１０６（図１および図２参照）である。他の実施例では、コンピューティング・ユニット４００はＰＲＭサーバーとは別である。コンピューティング・ユニット４００は概略、中央処理装置（ＣＰＵ）４０２、メモリ４０４、入出力（Ｉ／Ｏ）インターフェース４０６、バス４０８、Ｉ／Ｏ装置４１０およびストレージ。ユニット４１２を含む。ＣＰＵ４０２はコンピューティング・ユニット４００の計算および制御機能を行う。ＣＰＵ４０２は単一の処理装置を含むか、または１箇所またはそれ以上の箇所に存在する１個もしくはそれ以上の処理装置（例えば、クライアントおよびサーバー）に跨って分散されていてもよい。

メモリ４０４は任意の既知の型のデータ・ストレージおよび／もしくは伝送媒体を含むことができ、また大容量のストレージ、磁気媒体、光媒体、ランダム・アクセス・メモリ（ＲＡＭ）、読出し専用メモリ（ＲＯＭ）、データ・キャッシュ、データ・オブジェクトなどを含む。メモリ４０４のキャッシュ・メモリ・エレメントは少なくとも幾つかのプログラム・コード（例えば、電力回復管理プログラム１０７）の一時的なストレージを提供する。これは大容量ストレージから何回もコードを取り出さなければならないがその実行中に取り出す回数を減らすためである。更に、ＣＰＵ４０２と同様、メモリ４０４は一つの物理的な位置にあって、１個もしくはそれ以上の型データ・ストレージを含んでいてもよいし、あるいは種々の様式（例えば、ネットワーク接続ストレージ即ちＮＡＳ、ストレージ・エリア・ネットワーク即ちＳＡＮ、外部のドライブなど）の複数個の物理的なシステムに跨って分散していてもよい。更に。メモリ４０４はＬＡＮ、ＷＡＮ、もしくはＳＡＮ（図示せず）などに跨ってデータが分散されていてもよい。

Ｉ／Ｏインターフェース４０６は、外部の資源と情報を交換するための任意のシステムを含む。Ｉ／Ｏ装置４１０は、ディスプレイ・モニター、キーボード、マウス、プリンタ、スピーカー、ハンドヘルド（手持ちサイズの）装置、ファクシミリ、ネットワーク装置（例えば、ハブ、ルーター、スイッチなど）を含む、任意の型の外部装置を含んでいてもよい。バス４０８は、コンピューティング・ユニット４００中のコンポーネント相互間の通信リンクを提供するが、電子式、光学式、ワイヤレス式など任意の型の伝送リンクを含んでいてもよい。

Ｉ／Ｏインターフェース４０６はまたコンピューティング・ユニット４００が補助記憶装置すなわちストレージ・ユニット４１２に情報（例えば、プログラム命令もしくはデータ）をストアしたり取出したりするのを許容する。このストレージ・ユニットは磁気ディスク・ドライブもしくは光ディスク・ドライブ（例えば、ＣＤ−ＲＯＭディスクを受取るＣＤ−ＲＯＭドライブ）などの不揮発性のストレージ装置であってよい。コンピューティング・ユニット４００は他の補助ストレージ装置（図示せず）に情報をストアし、また取出すことができる。これは直接アクセス・ストレージ装置（ＤＡＳＤ）（例えば、ハード・ディスクもしくはフレキシブル・ディスク）、光磁気ディスク、テープ・ドライブ、またはワイヤレス通信装置を含むことができる。一実施例では、前述のストレージ・ユニットの一つはデータ・ストア１１０（図１もしくは図２参照）を含む。

メモリ４０４はデータセンタにおける複数個のサーバーを再起動するための最適の順序を決定する電力回復管理プログラム１０７を含む。電力回復管理プログラム１０７は図３および図４のプロセスの諸ステップを導入する。更に、メモリ４０４は図５に示さないが、ＣＰＵ４０２上で稼動するオペレーティング・システム（例えばＬｉｎｕｘ）など他のシステムを含んでいて、コンピューティング・ユニット４００の中、および／もしくはそれに接続された種々のコンポーネントの制御を提供してもよい。

本発明は全部がハードウエアの実施例、全部がソフトウエアの実施例、あるいはハードウエアおよびソフトウエアの両方のエレメントを含む実施例の形態を取り得る。好適な実施例では、本発明がソフトウエアで実装され、そして以下に限定するわけではないが、ファームウエア、常駐のソフトウエア、マイクロコードなどを含む。

更に本発明は、コンピューティング・システム４００によって使用されもしくはそれと接続されるデータセンタにおいて複数個のサーバーを再起動するための最適な順序を決定するデータセンタ電力回復管理プログラム１０７のプログラム・コードを提供する媒体であって、コンピュータが使用可能あるいはコンピュータが読み取り可能な媒体からアクセスすることができるコンピュータ・プログラム製品の形態をとることができる。この記述の目的から、コンピュータが使用可能な、もしくはコンピュータが読み取り可能な媒体は、命令実行システム、装置もしくはデバイスによって使用されもしくはそれと接続されるためのプログラムを含み、ストアし、通信し、伝播し、もしくは伝送することができる任意の装置であり得る。

その媒体は電子的、磁気的、光学的、電磁的、赤外線の、もしくは半導体のシステム（または装置もしくはデバイス）または伝播媒体であってよい。コンピュータ読取り可能な媒体の例は、固体メモリ、磁気テープ、取り外し可能なコンピュータ・フロッピー・ディスク、ＲＡＭ４０４、ＲＯＭ、ハード磁気ディスク、および光ディスクを含む。光ディスクの今日の例は、コンパクト・ディスクの読出し専用メモリ（ＣＤ−ＲＯＭ）、コンパクト・ディスクの読出し書き込みメモリおよびＤＶＤを含む。

本発明のコンポーネントのうちのいずれかは、データセンタにおける複数個のサーバーを再起動するための最適の順序を決定するという本発明のプロセスについてコンピューティング環境を展開しもしくは統合するサービス・プロバイダが展開、管理、サービスなどをすることができる。このように、本発明は、コンピュータ読取り可能なコードをコンピューティング・システム（例えば、コンピューティング・ユニット４００）の中に統合し、ホスティングし、維持し、展開することを含み、コンピュータ・インフラを支えるためのプロセスを開示する。そこでは、そのコードはコンピューティング・システムと組み合わさって、データセンタにおける複数個のサーバーを再起動するための最適の順序を決定する方法を行うことができるのである。

他の実施例では、本発明は、定期購読契約、広告および／もしくは料金ベースでの本発明のプロセス・ステップを実行するビジネス方法を提供する。すなわち、ソリューション・インテグレータ（Solution Integrator）などのサービス・プロバイダが、データセンタにおける複数個のサーバーを再起動するための最適の順序を決定するステップを含む本発明のプロセスを生み出し、維持し、支えるといったことを提供することができる。この場合、サービス・プロバイダは一人もしくは複数人の顧客のために本発明のプロセス・ステップを行うコンピュータ・インフラを生み出し、維持し、支えるといったことができる。その見返りに、サービス・プロバイダは定期購読契約および／もしくは料金の契約の下で顧客から支払いを受けることができ、そしてその代わりにあるいはそれに加えて、１個もしくはそれ以上の第三者に広告のコンテンツを売却することから支払いを受けることができる。

ここで開示するフローチャートは一例である。これらのフローチャートもしくはここで開示するステップ（動作）は本発明の範囲内で種々の変形があり得る。例えば、或る場合にはこれらのステップを異なる順序で行ったり、幾つかのステップを加除修正したりということができる。これらの変形は全て添付の請求項に記載されるような本発明の一部と考えられる。

本発明の実施例を本発明の説明の目的上ここで開示したが、当業者には多くの修正や変更が明らかであろう。従って、添付の特許請求の範囲の各請求項は本発明の趣旨および範囲に属するそのような全ての変形を包含することを企図している。

本発明の実施例に従い、ディジタル・コマンド信号を処理することのできる電力パネルを含むデータセンタにおけるサーバーを再起動するための最適の順序を決定するためのシステムのブロック図である。本発明の実施例に従い、ディジタル・コマンド信号を処理することのできない電力パネルを含むデータセンタにおけるサーバーを再起動するための最適の順序を決定するためのシステムのブロック図である。本発明の実施例に従い、図１および図２のシステムを用いて再始動する前にデータセンタを作動するプロセスのフローチャートである。本発明の実施例に従い、図１および図２のシステムを用いて制御された起動順序でもってデータセンタを再始動するプロセスのフローチャートである。本発明の実施例に従い、図１および図２のシステムに含まれ、図３および図４のプロセスを導入するコンピューティング・システムのブロック図である。

符号の説明

１００コンピュータ・システム
１０２データセンタ
１０４電力パネル
１０６電力回復管理（ＰＲＭ）サーバー
１０７電力回復管理プログラム
１０８管理制御卓
１１０データ・ストア
１１２ポリシー
１２０コンピュータ・システム
１２２電力回復管理スイッチ

Claims

データセンタにおける複数個のサーバーを再起動するための最適の順序を決定する方法であって、
データセンタにおける異常なシャットダウン・イベントの後、前記データセンタにおける複数個のサーバーの再起動に利用することができる電力の回復を、コンピューティング・システムのコンピューティング・ユニットによって、自動的に検知するステップと、
前記自動的に検知するステップに応答して、前記複数個のサーバーの前記再起動のための順序を、前記コンピューティング・システムにおいて実行するプログラムによって、自動的にかつ動的に決定するステップであって、前記複数個のサーバーに１対１対応で関連する複数個のサービス・レベル契約（ＳＬＡ）によって指定された複数個の約定であって、前記複数個のサーバーの複数個の使用可能時間のための前記複数個の約定相互間の比較に基くポリシーを適用するステップを含む前記順序を自動的にかつ動的に決定するステップと、
前記複数個のサーバーを前記順序で再起動するステップと
を含む、コンピュータ実行方法。
前記ポリシーを適用するステップが、前記複数個のサーバーのうちの第１のサーバーを、前記複数個のサーバーのうちの第２のサーバーに関連する他の位置よりも前記順序において早い位置に置くことを含み、前記第１のサーバーが前記複数個のサーバーの複数個の使用可能時間のうちの第１の使用可能時間に関連し、前記第２のサーバーが前記複数個の使用可能時間のうちの第２の使用可能時間に関連し、前記第１の使用可能時間が前記第２の使用可能時間よりも大きいこと、または前記第１の使用可能時間を獲得するために故障と関連する第１の財政上の罰則が、前記第２の使用可能時間を獲得するための故障に関連する第２の財政上の罰則よりも大きいことを前記比較が示す結果で前記早い位置に置く、請求項１に記載のコンピュータ実行方法。
前記順序を前記電力の回復により与えられる負荷に関連するファクタを用いて修正するステップを更に含み、前記ファクタが、
前記データセンタの二次電力停止を引き起こすことなく前記電力回復によって誘起され得る最大限耐えることのできる初期電力サージと、
前記ブランチ回路のためのブレーカー制限を踏み外すことなく、前記電力回復による電力で以って回復されえる前記データセンタのブランチ回路上のサーバーの数と
よりなるグループから選択されることを特徴とするファクタである、請求項１に記載のコンピュータ実行方法。
前記複数個の使用可能時間のための前記約定相互間の比較である第１のファクタを含む複数個のファクタに対し複数個の重み付けを１対１対応で割り当てるステップと、
前記複数個の重み付けに対し、１対１対応で関連する複数個のポリシーを、前記複数個の重み付け相互間の比較によって決定された順序で適用するステップと
を更に含む、請求項１に記載のコンピュータ実行方法。
前記複数個のサーバーが、サービスを提供するサーバーを含み、前記複数個のファクタが第２のファクタを含み、かつ前記第２のファクタが、
前記複数個のサーバーにより提供される複数個のサービスのための複数個のビリング割合であって、前記データセンタを管理する組織化されたエンティティの複数の顧客に１対１対応で関連し、関連する顧客により各ビリング割合が支払われるような複数個のビリング割合相互間の比較と、
前記複数個のサーバーの複数個のワークロード相互間の比較と、
前記複数のサーバーのうちのサーバーに１対１対応で関連する複数の重要性のレベル相互間の比較と、
前記複数個のサーバーのうちのサーバーと１対１対応で関連する動作可能性およびアクティビティの複数の状態相互間の比較と、
前記複数のサービスに含まれ、かつ前記複数個のサーバーのうちの第１のサーバーにより提供される第１のサービスについて、前記他の１個もしくはそれ以上のサーバーの再起動の前に必要となる、該第１のサービスの動作可能性状態の識別と、
前記複数個のサーバーのうちのサーバーと１対１対応で関連する複数の所望の動作状態であって、各所望の動作状態が前記複数個のサーバーのうちの関連するサーバーを再起動する時間に基づくような前記複数の所望の動作状態相互間の比較と
よりなるグループから選択されることを特徴とする、請求項４に記載のコンピュータ実行方法。
前記コンピューティング・ユニットにより、かつプロビジョニングまたはオーケストレーション・システムから、前記複数個のサーバーのうちの１個もしくはそれ以上のサーバーの所定の再プロビジョニングに関連する命令を受け取るステップと、
前記所定の再プロビジョニングを前記再起動するステップの前に行うステップと
を更に含む、請求項１に記載のコンピュータ実行方法。
前記複数個のサーバーを再起動するステップが、
前記複数個のサーバーを初期化するために、複数個の予起動実行環境（ＰＸＥ）起動メッセージもしくは複数個の上級電力管理（ＡＰＭ）制御順序を発行するステップを更に含む、請求項１に記載のコンピュータ実行方法。
データセンタにおける複数個のサーバーを再起動するための最適の順序を決定する方法であって、
組織的なエンティティにより管理されるデータセンタにおける異常なシャットダウン・イベントの後、前記データセンタにおける複数個のサーバーの再起動に利用することができる電力の回復を、コンピューティング・システムのコンピューティング・ユニットによって、自動的に検知するステップと、
前記自動的に検知するステップに応答して、前記複数個のサーバーの前記再起動のための順序を、前記コンピューティング・システムにおいて実行するプログラムによって、自動的にかつ動的に決定するステップであって、前記複数個のサーバーにより提供される複数個のサービスのための複数個のビリング割合であって、前記データセンタを管理する組織化されたエンティティの複数の顧客に１対１対応で関連し、関連する顧客により各ビリング割合が支払われるような複数個のビリング割合相互間の比較に基くポリシーを適用することを含む前記順序を自動的にかつ動的に決定するステップと、
前記複数個のサーバーを前記順序で再起動するステップと
を含む、コンピュータ実行方法。
前記ポリシーを適用するステップが、前記複数個のサーバーのうちの第１のサーバーを、前記複数個のサーバーのうちの第２のサーバーに関連する他の位置よりも前記順序において早い位置に置くことを含み、前記第１のサーバーが前記複数個のサーバーの複数個のビリング割合のうちの第１のビリング割合に関連し、前記第２のサーバーが前記複数個のビリング割合のうちの第２のビリング割合に関連し、前記第１のビリング割合が前記第２のビリング割合よりも大きいことを前記比較が示す結果で前記早い位置に置く、請求項８に記載のコンピュータ実行方法。
前記順序を前記電力の回復により与えられる負荷に関連するファクタを用いて修正するステップを更に含み、前記ファクタが、
前記データセンタの二次電力停止を引き起こすことなく前記電力回復によって誘起され得る最大限耐えることのできる初期電力サージと、
前記ブランチ回路のためのブレーカー制限を踏み外すことなく、前記電力回復による電力で以って回復されえる前記データセンタのブランチ回路上のサーバーの数と
からなるグループから選択されることを特徴とする、請求項８に記載のコンピュータ実行方法。
前記複数個のビリング割合相互間の比較である第１のファクタを含む複数個のファクタに対し複数個の重み付けを１対１対応で割り当てるステップと、
前記複数個の重み付けに対し、１対１対応で関連する複数個のポリシーを、前記複数個の重み付け相互間の比較によって決定された順序で適用するステップと
を更に含む、請求項８に記載のコンピュータ実行方法。
前記複数個のサーバーが、サービスを提供するサーバーを含み、前記複数個のファクタが第２のファクタを含み、かつ前記第２のファクタが、
前記複数個のサーバーに１対１対応で関連する複数個のサービス・レベル契約（ＳＬＡ）によって指定された複数個の約定であって、前記複数個のサーバーの複数個の使用可能時間のための前記複数個の約定相互間の比較と、
前記複数個のサーバーの複数個のワークロード相互間の比較と、
前記複数のサーバーのうちのサーバーに１対１対応で関連する複数の重要性のレベル相互間の比較と、
前記複数個のサーバーのうちのサーバーと１対１対応で関連する動作可能性およびアクティビティの複数の状態相互間の比較と、
前記複数のサービスに含まれ、かつ前記複数個のサーバーのうちの第１のサーバーにより提供される第１のサービスについて、前記他の１個もしくはそれ以上のサーバーの再起動の前に必要となる、該第１のサービスの動作可能性状態の識別と、
前記複数個のサーバーのうちのサーバーと１対１対応で関連する複数の所望の動作状態であって、各所望の動作状態が前記複数個のサーバーのうちの関連するサーバーを再起動する時間に基づくような前記複数の所望の動作状態相互間の比較と
からなるグループから選択されることを特徴とする、請求項１１に記載のコンピュータ実行方法。
データセンタにおける複数個のサーバーを再起動するための最適の順序を決定する方法であって、
組織的なエンティティにより管理されるデータセンタにおける異常なシャットダウン・イベントの後、前記データセンタにおける複数個のサーバーの再起動に利用することができる電力の回復を、コンピューティング・システムのコンピューティング・ユニットによって、自動的に検知するステップと、
前記自動的に検知するステップに応答して、前記複数個のサーバーの前記再起動のための順序を、前記コンピューティング・システムにおいて実行するプログラムによって、自動的にかつ動的に決定するステップと、
前記複数個のサーバーを前記順序で再起動するステップとを含み、
前記順序を自動的にかつ動的に決定するステップは、更に
前記複数個のサーバーの、前記異常シャットダウン・イベントのときに存在している複数の状態相互間の比較に基くポリシーを適用するステップを含み、
前記ポリシーを適用するステップは、前記複数の状態のうちの一つの状態が前記複数のサーバーのうちの、第１のサービスを提供する第１のサーバーに関連付けられ、かつ前記一つの状態が、
前記第１のサーバーのワークロード、
前記第１のサーバーにより提供される前記第１のサービスの重要性のレベル、
前記第１のサーバーの動作可能性およびアクティビティ、ならびに
前記複数個のサーバーのうち、前記第１のサービスに関連するサービス以外の他の１個もしくはそれ以上のサービスを提供する、他の１個もしくはそれ以上のサーバーの再起動の前に、前記第１のサービスを動作可能とされるようにする要求、
よりなるグループから選択されることを特徴とする、
コンピュータ実行方法。
前記特性が前記ワークロードであり、
前記ポリシーを適用するステップは、前記第１のサーバーの前記ワークロードが、前記第２のサーバーのワークロードよりも大きい結果、前記複数個のサーバーのうちの第１のサーバーを、前記複数個のサーバーのうちの第２のサーバーに関連する他の位置よりも前記順序において早い位置に置くことを含む、請求項１３に記載のコンピュータ実行方法。
前記特性が前記第１のサービスの前記重要性のレベルであり、
前記ポリシーを適用するステップは、前記第１のサービスの前記重要性のレベルが、前記第２のサーバーにより提供される第２のサービスの重要性のレベルよりも大きい結果、前記複数個のサーバーのうちの第１のサーバーを、前記複数個のサーバーのうちの第２のサーバーに関連する他の位置よりも前記順序において早い位置に置くことを含む、請求項１３に記載のコンピュータ実行方法。
前記特性が前記第１のサーバーの前記動作可能性およびアクティビティの状態であり、
前記ポリシーを適用するステップは、前記第１のサーバーの前記動作可能性およびアクティビティの状態について、前記異常シャットダウン・イベントのときの前記第１のサーバーの動作可能かつアクティブな状態であることを示すとともに、前記異常シャットダウン・イベントのときの前記第２のサーバーが動作不能もしくは非アクティブな状態を示す結果、前記複数個のサーバーのうちの第１のサーバーを、前記複数個のサーバーのうちの第２のサーバーに関連する他の位置よりも前記順序において早い位置に置くことを含む、請求項１３に記載のコンピュータ実行方法。
前記特性が、前記他の１個もしくはそれ以上のサーバーの再起動の前に前記第１のサービスが動作可能とするような要求であり、
前記ポリシーを適用するステップは、前記第１のサーバーがデータベース・サーバーであり、該データベース・サーバー上で前記他の１個もしくはそれ以上のサーバーが１個もしくはそれ以上のサービスを提供するように依存する結果、前記第１のサーバーを、前記他の１個もしくはそれ以上のサーバーに関連する他の１個もしくはそれ以上の位置よりも前記順序において早い位置に置くことを含む、請求項１３に記載のコンピュータ実行方法。
データセンタにおける複数個のサーバーを再起動するための最適の順序を決定する方法であって、
組織的なエンティティにより管理されるデータセンタにおける異常なシャットダウン・イベントの後、前記データセンタにおける複数個のサーバーの再起動に利用することができる電力の回復を、コンピューティング・システムのコンピューティング・ユニットによって、自動的に検知するステップと、
前記自動的に検知するステップに応答して、前記複数個のサーバーの前記再起動のための順序を、前記コンピューティング・システムにおいて実行するプログラムによって、自動的にかつ動的に決定するステップと、
前記複数個のサーバーを前記順序で再起動するステップとを含み、
前記順序を自動的にかつ動的に決定するステップは、更に
前記複数個のサーバーの複数個の動作の所望の状態相互間の比較に基くポリシーを適用するステップを含み、
前記所望の状態は前記複数個のサーバーに１対１対応で関連し、
前記複数個の所望の状態のうちの一つの所望の状態が、前記複数個のサーバーのうちの一つのサーバーを再起動する時間に基づき、
前記時間が前記サーバーの動作の一つの予め定義された状態に関連する予め定義された時間である、
コンピュータ実行方法。
前記順序を前記電力の回復により与えられる負荷に関連するファクタを用いて修正するステップを更に含み、前記ファクタが、
前記データセンタの二次電力停止を引き起こすことなく前記電力回復によって誘起され得る最大限耐えることのできる初期電力サージと、
前記ブランチ回路のためのブレーカー制限を踏み外すことなく、前記電力回復による電力で以って回復されえる前記データセンタのブランチ回路上のサーバーの数と
よりなるグループから選択したファクタである、請求項１８に記載のコンピュータ実行方法。
前記複数個の所望の状態相互間の比較である第１のファクタを含む複数個のファクタに対し複数個の重み付けを１対１対応で割り当てるステップと、
前記複数個の重み付けに対し、１対１対応で関連する複数個のポリシーを、前記複数個の重み付け相互間の比較によって決定された順序で適用するステップと
を更に含む、請求項１８に記載のコンピュータ実行方法。