JP2014127134A

JP2014127134A - 情報処理装置、サーバ管理方法およびサーバ管理プログラム

Info

Publication number: JP2014127134A
Application number: JP2012285314A
Authority: JP
Inventors: Yosuke Ishida; 陽介石田; Naohiro Tamura; 直広田村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2014-07-07
Anticipated expiration: 2032-12-27
Also published as: US20140189441A1; US9448904B2; JP6079226B2; EP2750039A2; EP2750039A3

Abstract

【課題】システムの可用性の向上を図る。
【解決手段】情報処理装置１は、指示手段１ａと算出手段１ｂとを備え、複数の物理サーバ５１、５２、６１、６２に、サービスの提供開始またはサービスの提供停止を指示する。算出手段１ｂは、１または複数の物理サーバが搭載され、搭載された物理サーバの動作に用いる設備を備えた複数のシャーシ５０、６０における該設備の稼働状況を監視する。そして算出手段１ｂは、シャーシ５０、６０の設備の異常により該シャーシに搭載された物理サーバがサービス提供不能となる度合いを示す設備異常度を算出する。指示手段１ａは、複数のシャーシ５０、６０それぞれの設備異常度に基づいて、物理サーバに対して、サービスの提供開始またはサービスの提供停止を指示する。
【選択図】図１

Description

本発明は、情報処理装置、サーバ管理方法およびサーバ管理プログラムに関する。

物理サーバは、ユーザに対するサービスを提供することができる。例えば物理サーバは、ネットワークを介して接続された端末装置から、ユーザの要求を受信すると、その要求に応じた処理を実行する。このようなサービスの提供は、例えば仮想マシンで実行することができる。

仮想マシン（ＶＭ：Virtual Machine）は、物理サーバのＣＰＵ（Central Processing Unit）や記憶装置などのリソースを仮想化することで実現される仮想的なコンピュータである。

コンピュータのリソースを仮想化させることで、単一の物理サーバ上で、ＯＳ（Operating System）やソフトウェアの異なる複数の仮想マシンを同時に稼働させることができるので、物理サーバの有効利用が可能となる。

また、このようなサーバシステムでは、仮想マシンが提供するサービスを停止させずに、別の物理サーバに仮想マシンを配置する技術（ライブマイグレーション：live migration）が行われている。ここで仮想マシンの配置とは、物理サーバに仮想マシンを起動させることである。仮想マシンの適切な配置を行うことにより、システムの節電や負荷分散などが可能になる。

例えば、物理サーバのＣＰＵやメモリの負荷変動に応じて、特定の物理サーバに仮想マシンを配置し、仮想マシンが配置されていない物理サーバの動作を停止させることで節電が可能になる（ＤＰＭ：Distributed Power Management）。また、負荷の高い物理サーバ上の仮想マシンを、負荷の低い物理サーバへ配置移動することで、負荷分散が可能になる（ＤＲＳ：Distributed Resource Scheduling）。

仮想マシン配置に関連する従来技術としては、仮想マシンを配置する際の制約条件を満足する最も優先順位の高い物理サーバを選択する技術が提案されている。また、仮想装置と物理装置との対応を示すシステム配置情報にもとづいて、仮想装置が物理装置に配置されたときの仮想システムの信頼性特性値を算出する技術が提案されている。

特開２０１１−１３８２２号公報特開２００８−２９３１０３号公報

物理サーバが搭載されるシャーシ（筐体）に対し、仮想マシンをどのシャーシ内の物理サーバに対して配置するかという配置先の決定において、従来では、物理サーバのＣＰＵやメモリの負荷が考慮されており、相対的に負荷の低い物理サーバに対して仮想マシンを配置するといったことが行われている。

しかし、仮想マシンの配置先となるシャーシで、電源断やサーバ通信断などの異常が生じた場合は、配置した先の仮想マシンの動作は停止してしまい、サーバシステムの停止につながって、可用性（availability：継続動作能力）が低下するという問題がある。なお、シャーシで電源断やサーバ通信断などの異常が生じた場合、仮想マシンを用いてサービスを提供する場合に限らず、そのシャーシに実装された物理サーバで提供されるサービスは停止し、可用性が低下する。

１つの側面では、本発明は、システムの可用性の向上を図った情報処理装置、サーバ管理方法およびサーバ管理プログラムを提供することを目的とする。

１つの案では、複数の物理サーバに、サービスの提供開始またはサービスの提供停止を指示する情報処理装置が提供される。情報処理装置は、１または複数の物理サーバが搭載され、搭載された物理サーバの動作に用いる設備を備えた複数のシャーシにおける該設備の稼働状況を監視し、シャーシの設備の異常により該シャーシに搭載された物理サーバがサービス提供不能となる度合いを示す設備異常度を算出する算出手段と、複数のシャーシそれぞれの設備異常度に基づいて決定した物理サーバに対して、サービスの提供開始またはサービスの提供停止を指示する指示手段と、を有する。

１態様によれば、システムの可用性の向上を図ることが可能になる。

情報処理装置の構成例を示す図である。ブレードサーバシステムの構成例を示す図である。管理ブレードと接続ブレードのそれぞれに両系異常が発生した場合を示す図である。仮想マシンを配置する際の問題点を示す図である。仮想マシンを配置する際の問題点を示す図である。仮想マシンを配置する際の問題点を示す図である。仮想マシンを配置する際の問題点を示す図である。ブレードサーバシステムの構成例を示す図である。情報保持ＤＢで保持されるテーブル例を示す図である。管理ブレード両系異常度の算出動作を示すフローチャートである。シャーシ情報テーブルの構成例を示す図である。管理ブレード情報テーブルの構成例を示す図である。接続ブレード情報テーブルの構成例を示す図である。シャーシ閾値管理テーブルの構成例を示す図である。管理ブレード閾値管理テーブルの構成例を示す図である。接続ブレード閾値管理テーブルの構成例を示す図である。両系異常度閾値管理テーブルの構成例を示す図である。物理サーバ情報管理テーブルの構成例を示す図である。ＶＭホスト情報管理テーブルの構成例を示す図である。ＶＭゲスト情報管理テーブルの構成例を示す図である。サーバ管理装置の動作を示すフローチャートである。サーバ管理装置の動作を示すフローチャートである。移動元物理サーバの決定処理の動作を示すフローチャートである。移動先物理サーバの決定処理の動作を示すフローチャートである。管理ブレードの故障検知による仮想マシンの移動を示す図である。仮想マシンの配置移動の保守者への通知を示す図である。故障した管理ブレードの交換を示す図である。仮想マシン配置による負荷分散を示す図である。本実施の形態に用いるコンピュータのハードウェアの一構成例を示す図である。

以下、本発明の実施の形態を図面を参照して説明する。
〔第１の実施の形態〕
図１は情報処理装置の構成例を示す図である。情報処理装置１は、指示手段１ａと算出手段１ｂを備えており、サービス提供機能を有する複数の物理サーバ５１、５２、６１、６２に、サービスの提供開始またはサービスの提供停止を指示する。なお図１の例では、各物理サーバ５１、５２、６１、６２は、仮想マシンを用いてサービスを提供している。

算出手段１ｂは、１または複数の物理サーバが搭載され、搭載された物理サーバの動作に用いる設備を備えた複数のシャーシ５０、６０における該設備の稼働状況を監視する。そして算出手段１ｂは、シャーシ５０、６０の設備の異常によりそのシャーシ５０、６０に搭載された物理サーバ５１、５２、６１、６２がサービス提供不能となる度合いを示す設備異常度を算出する。指示手段１ａは、複数のシャーシ５０、６０それぞれの設備異常度に基づいて決定した物理サーバに対して、サービスの提供開始またはサービスの提供停止を指示する。

ここで、シャーシ５０には物理サーバ５１、５２が搭載され、シャーシ６０には物理サーバ６１、６２が搭載されている。また、物理サーバ５１上に仮想マシンｍ１が当初配置されている。そして仮想マシンｍ１が、ユーザへのサービスを提供している。

このような状態において、算出手段１ｂは、シャーシ５０、６０の設備に関する設備異常度を算出する。このときシャーシ５０の設備異常度の方が、シャーシ６０の設備異常度よりも高かったとする。

この場合は、指示手段１ａは、シャーシ５０の物理サーバ５１に対して、サービスの提供停止を指示する。また指示手段１ａは、シャーシ６０の物理サーバ６１に対して、物理サーバ５１が提供していたサービスの提供開始を指示する。仮想マシンｍ１によってサービスを提供している場合、サービスの提供停止とサービスの提供停止の指示とは、仮想マシンｍ１の移動指示に置き換えることができる。すなわち、指示手段１ａは、シャーシ５０に配置されている仮想マシンｍ１を、シャーシ６０の物理サーバ６１へ移動して仮想マシンｍ１の配置換えを行う。なお指示手段１ａによるサービスの提供停止や提供開始の指示は、サービスを提供している物理サーバが実装されたシャーシの設備異常度が、所定の閾値を超えた場合にのみ実行するようにしてもよい。

このように、情報処理装置１では、仮想マシンの配置先であるシャーシの異常発生度にもとづき、仮想マシンの最適配置を行う。これにより、仮想マシンの配置先でのシャーシに異常が生じて、配置先の仮想マシンの動作が停止してサーバシステムが停止してしまうなどの現象の発生を抑制することができるので、システムの可用性および信頼性を向上させることが可能になる。

〔第２の実施の形態〕
次に第２の実施の形態について説明する。第２の実施の形態は、ブレードサーバシステムを用いて、仮想サーバの適切な配置をより詳細に制御を可能としたものである。

まず、本技術が解決すべき課題について詳しく説明する。なお、以降では、本技術をブレードサーバシステムに適用した場合を例に挙げて詳しく説明する。図２はブレードサーバシステムの構成例を示す図である。ブレードサーバとは、シャーシにブレードと呼ばれる物理サーバが複数搭載されたサーバである。また、所定の物理サーバには、仮想マシンが配置される。

ブレードサーバシステム５ａは、シャーシ５０、６０およびＬＡＮ（Local Area Network）７ａを備える。シャーシ５０は、物理サーバ５１、５２、管理ブレード（ＭＭＢ：Management Blade）ｍｂ１−１、ｍｂ１−２および接続ブレード（ＣＢ：Connection Blade）ｃｂ１−１、ｃｂ１−２を含む。管理ブレードｍｂ１−１、ｍｂ１−２および接続ブレードｃｂ１−１、ｃｂ１−２は、搭載された物理サーバ５１、５２の動作に用いる設備の一例である。

また、シャーシ６０は、物理サーバ６１、６２、管理ブレードｍｂ２−１、ｍｂ２−２および接続ブレードｃｂ２−１、ｃｂ２−２を含む。管理ブレードｍｂ２−１、ｍｂ２−２および接続ブレードｃｂ２−１、ｃｂ２−２は、搭載された物理サーバ６１、６２の動作に用いる設備の一例である。接続ブレードｃｂ１−１、ｃｂ１−２、ｃｂ２−１、ｃｂ２−２は、管理業務用の通信ネットワークであるＬＡＮ７ａと接続している。

なお、管理ブレードｍｂ１−１、ｍｂ１−２と、管理ブレードｍｂ２−１、ｍｂ２−２とはそれぞれ、冗長構成になっており、現用系／予備系の両系構成になっている。したがって、例えば、管理ブレードｍｂ１−１が現用系になれば、管理ブレードｍｂ１−２は予備系となり、また、管理ブレードｍｂ１−２が現用系になれば、管理ブレードｍｂ１−１は予備系となる。管理ブレードｍｂ２−１、ｍｂ２−２についても同様である。

一方、接続ブレードｃｂ１−１、ｃｂ１−２と、接続ブレードｃｂ２−１、ｃｂ２−２とはそれぞれ、冗長構成になっており、両系構成になっている。接続ブレードは、例えば現用系／予備系の区別なしに運用され、設置される接続ブレードは、すべて現用系として稼働する。ただし、ペアとなる接続ブレードの両系同士で、互いに負荷を分散しながら稼働する。なお、接続ブレードｃｂ１−１、ｃｂ１−２と、接続ブレードｃｂ２−１、ｃｂ２−２についても、ペアの一方を現用系、他方を予備系として、現用系のみを稼働させることもできる。

また、図２では、１つのシャーシ内に１ペアの接続ブレードが記載されているが、１ペアの接続ブレードは、ｎ（＝１、２、３、・・・）ペア搭載可能である（したがって、１シャーシ内の接続ブレードの台数は２ｎ台である）。

管理ブレードｍｂ１−１、ｍｂ１−２は、シャーシ５０に搭載された物理サーバ５１、５２を管理・操作する管理ユニットであり、物理サーバ５１、５２への電源供給も制御する。同様に、管理ブレードｍｂ２−１、ｍｂ２−２は、シャーシ６０に搭載された物理サーバ６１、６２を管理・操作する管理ユニットであり、物理サーバ６１、６２への電源供給も制御する。

また、接続ブレードｃｂ１−１、ｃｂ１−２は、ＬＡＮ７ａを経由して、物理サーバ５１、５２と、外部機器とを接続して内外の通信インタフェースを行う接続ユニットである。同様に、接続ブレードｃｂ２−１、ｃｂ２−２は、ＬＡＮ７ａを経由して、物理サーバ６１、６２と、外部機器とを接続して内外の通信インタフェースを行う接続ユニットである。

なお、シャーシ５０に搭載されている物理サーバ５１には、仮想マシンｍ１、ｍ２が配置して稼働し、シャーシ６０に搭載されている物理サーバ６１には、仮想マシンｍ３、ｍ４が配置して稼働しているとする。

図３は管理ブレードと接続ブレードのそれぞれに両系異常が発生した場合を示す図である。両系異常とは、ペアになっているユニットの両方に異常が発生することである。シャーシ５０の管理ブレードｍｂ１−１、ｍｂ１−２において、例えば、管理ブレードｍｂ１−１だけが故障した場合は、予備系である管理ブレードｍｂ１−２が起動するので、運用は継続される。

しかし、管理ブレードｍｂ１−１、ｍｂ１−２の両系に異常が生じると、管理ブレードｍｂ１−１、ｍｂ１−２は、電源供給機能を有しているから、シャーシ５０内の物理サーバ５１、５２の電源供給は停止してしまう。すると、物理サーバ５１上の仮想マシンｍ１、ｍ２も動作が停止してしまうことになる。

一方、シャーシ６０の接続ブレードｃｂ２−１、ｃｂ２−２の両系に異常が発生すると、接続ブレードｃｂ２−１、ｃｂ２−２は、通信インタフェース機能を有しているから、シャーシ６０内の物理サーバ６１、６２は外部との通信が断してしまう。すると、物理サーバ６１上の仮想マシンｍ３、ｍ４も外部との通信ができなくなり、仮想マシンｍ３、ｍ４は、通信不可（使用不可）となってしまう。

図４、図５は仮想マシンを配置する際の問題点を示す図である。図４において、シャーシ５０内の管理ブレードｍｂ１−１、ｍｂ１−２は、両系異常が発生しやすくなっているとする。また、シャーシ６０内の物理サーバ６１上で仮想マシンｍ３、ｍ４が稼働している状態で、物理サーバ６１のＣＰＵ負荷やメモリ負荷が高い状態が続いているとする。

このとき、従来の仮想マシン配置制御では、シャーシ５０内の物理サーバ５１の負荷が物理サーバ６１の負荷よりも低く、物理サーバ５１の方が処理能力に余裕がある場合には、仮想マシンｍ３、ｍ４を、シャーシ５０内の物理サーバ５１へ配置して負荷分散を図ろうとする。

しかし、図５に示すように、管理ブレードｍｂ１−１、ｍｂ１−２は、両系異常が発生しやすくなっているので、両系異常が実際に発生した場合には、シャーシ５０内の物理サーバ５１、５２の電源が断することになる。

すると、物理サーバ６１から物理サーバ５１へ移動された仮想マシンｍ３、ｍ４の稼働も停止してしまい、システム運用が停止して可用性さらには信頼性の低下を招くことになる。

図６、図７は仮想マシンを配置する際の問題点を示す図である。図６において、シャーシ６０内の接続ブレードｃｂ２−１、ｃｂ２−２は、両系異常が発生しやすくなっているとする。また、シャーシ５０内の物理サーバ５１上で仮想マシンｍ１、ｍ２が稼働している状態で、物理サーバ５１のＣＰＵ負荷やメモリ負荷が高い状態が続いているとする。

このとき、従来の仮想マシン配置制御では、シャーシ６０内の物理サーバ６１の負荷が物理サーバ５１の負荷よりも低く、物理サーバ６１の方が処理能力に余裕がある場合には、仮想マシンｍ１、ｍ２を、シャーシ６０内の物理サーバ６１へ配置して負荷分散を図ろうとする。

しかし、図７に示すように、接続ブレードｃｂ２−１、ｃｂ２−２は、両系異常が発生しやすくなっているので、両系異常が実際に発生した場合には、シャーシ６０内の物理サーバ６１、６２は外部との通信が断することになる。

すると、物理サーバ５１から物理サーバ６１へ移動された仮想マシンｍ１、ｍ２も外部との通信が断して使用不可となってしまい、システム運用が停止して可用性さらには信頼性の低下を招くことになる。

本技術はこのような点に鑑みてなされたものであり、仮想マシンの配置先であるシャーシの異常発生度を適切に認識して仮想マシンの最適配置を行うことにより、システムの可用性および信頼性の向上を図った情報処理装置、サーバ管理方法およびサーバ管理プログラムを提供するものである。

図８はブレードサーバシステムの構成例を示す図である。ブレードサーバシステム５は、シャーシ５０、６０、ＬＡＮ７ａ、７ｂ、サーバ管理装置（管理サーバ）１０およびクライアント端末８ａ、８ｂを備える。

ＬＡＮ７ａは、シャーシ５０内の接続ブレードｃｂ１−１、ｃｂ１−２と、シャーシ６０内の接続ブレードｃｂ２−１、ｃｂ２−２と接続する。サーバ管理装置１０は、ＬＡＮ７ａ、７ｂと接続する。

また、ＬＡＮ７ａには、クライアント端末８ａが接続し、ＬＡＮ７ｂには、クライアント端末８ｂが接続する。クライアント端末８ａは、仮想マシンで業務を行っているユーザ端末に該当し、クライアント端末８ｂは、システム管理を行う保守端末に該当する。なお、シャーシ５０、６０内の構成要素は、図２と同じなので、同一符号を付けて説明は省略する。

サーバ管理装置１０は、図１の情報処理装置１の機能を包含している。サーバ管理装置１０では、シャーシ内で冗長構成された管理ブレードと接続ブレードに対し、両系異常がどの程度発生しやすいかの両系異常度を定義しており、定期的に管理ブレードと接続ブレードから情報を収集して、両系異常度を算出する。そして、サーバ管理装置１０は、両系異常度にもとづいて、仮想マシンの最適な配置（ライブマイグレーション）を行う。

サーバ管理装置１０は、仮想マシン移動手段１１、情報収集手段１２、情報管理手段１３、情報保持ＤＢ（Data Base）１３−１、異常度算出手段１４、優先度決定手段１５、通知手段１６、移動先指標算出手段１７、フラグ設定手段１８、移動元物理サーバ決定手段１９ａおよび移動先物理サーバ決定手段１９ｂを備える。

仮想マシン移動手段１１、移動元物理サーバ決定手段１９ａ、および移動先物理サーバ決定手段１９ｂにより、図１の指示手段１ａの機能が実現される。情報収集手段１２と異常度算出手段１４とにより、図１の算出手段１ｂの機能が実現される。

なお、仮想マシン移動手段１１、情報収集手段１２、情報管理手段１３、異常度算出手段１４、優先度決定手段１５、通知手段１６、移動先指標算出手段１７、フラグ設定手段１８、移動元物理サーバ決定手段１９ａおよび移動先物理サーバ決定手段１９ｂの各機能は、例えば、サーバ管理装置１０で起動するプログラム（サーバ管理プログラム）で実現される。このサーバ管理プログラムの処理開始は、クライアント端末８ｂから指示される。

仮想マシン移動手段１１は、仮想マシンを現在配置されているシャーシ内の物理サーバから別のシャーシ内の物理サーバへ配置するための配置移動処理を行う。情報収集手段１２は、シャーシ５０、６０内の設備および物理サーバの稼働状況を監視する。例えば情報収集手段１２は、シャーシ５０、６０内の接続ブレードｃｂ１−１、ｃｂ１−２、ｃｂ２−１、ｃｂ２−２に定期的にアクセスして、稼働状況を示す所定情報を収集する。なお、情報収集する場合は、例えば、ＳＮＭＰ（Simple Network Management Protocol）などの通信プロトコルを使用して情報収集を行うことができる。

情報管理手段１３は、情報保持ＤＢ１３−１に含まれる各種テーブル情報の登録管理を行う。情報保持ＤＢ１３−１は、各種のテーブルを保持し、情報収集手段１２で収集された情報や、異常度算出手段１４で算出された値などを各テーブルに登録して保持する。

異常度算出手段１４は、収集された情報から異常度を算出する。優先度決定手段１５は、異常度にもとづいて、どのシャーシに優先して仮想マシンを移動して配置すべきかの移動先シャーシの優先度を決定する。

通知手段１６は、仮想マシンの配置移動に関連する処理結果の通知を行う。なお、通常は、仮想マシンで業務を行っているユーザ側は、仮想マシンがどの物理サーバに配置されているかの認識は不要であり、システム管理側が仮想マシンの配置場所を認識できればよい。

したがって、通知手段１６では、クライアント端末８ｂに対して処理結果を通知する。また、クライアント端末８ｂは、ＧＵＩ（Graphical User Interface）により処理結果やメッセージを表示する。

移動先指標算出手段１７は、仮想マシンの移動先となる物理サーバの移動先指標を算出する。フラグ設定手段１８は、算出された異常度に対する閾値判定を行って、閾値を超える場合にフラグを設定する。

移動元物理サーバ決定手段１９ａは、移動対象とすべき仮想マシンが配置されている物理サーバを決定する。移動先物理サーバ決定手段１９ｂは、仮想マシンの新たな配置先となる物理サーバを決定する。

図９は情報保持ＤＢで保持されるテーブル例を示す図である。情報保持ＤＢ１３−１は、シャーシ情報テーブルＴ１、管理ブレード情報テーブルＴ２、接続ブレード情報テーブルＴ３、シャーシ閾値管理テーブルＴ４、管理ブレード閾値管理テーブルＴ５を有している。

さらに、情報保持ＤＢ１３−１は、接続ブレード閾値管理テーブルＴ６、両系異常度閾値管理テーブルＴ７、物理サーバ情報管理テーブルＴ８、ＶＭホスト情報管理テーブルＴ９およびＶＭゲスト情報管理テーブルＴ１０を有している。各テーブルの具体的な構成例については図１１〜図２０で後述する。

次に異常度算出手段１４における異常度算出処理について説明する。異常度算出としては大きく、管理ブレード両系異常度の算出、接続ブレード両系異常度の算出およびシャーシ両系異常度の算出がある。なお、管理ブレードと接続ブレードの両系異常度算出はどちらも基本的に同じ算出方法なので、以下のフローでは、管理ブレード両系異常度の算出について示す。

図１０は管理ブレード両系異常度の算出動作を示すフローチャートである。
〔Ｓ１〕異常度算出手段１４は、１台の管理ブレードの動作状態を判定する。
〔Ｓ２〕異常度算出手段１４は、管理ブレードの動作状態が異常（error）の場合はステップＳ３へ行き、正常（normal）の場合はステップＳ５へ行く。

〔Ｓ３〕異常度算出手段１４は、当該管理ブレードの動作状態が異常なときの異常度である片系異常度を設定する。例えば、片系異常度を１００と設定する。
〔Ｓ４〕異常度算出手段１４は、動作判定処理が２回目か否かを判断する。１回目の場合は（１台目の管理ブレードに対する動作判定の場合は）ステップＳ１４へ行き、２回目の場合は（２台目の管理ブレードに対する動作判定の場合は）ステップＳ１５へ行く。

〔Ｓ５〕異常度算出手段１４は、管理ブレードの動作電圧に対する閾値判定を行う。
〔Ｓ６〕異常度算出手段１４は、管理ブレードの動作電圧が最小閾値未満または最大閾値を超える場合は、電圧閾値の範囲外にあるとしてステップＳ７へ行き、管理ブレードの動作電圧が最小閾値以上かつ最大閾値を超えない場合は、電圧閾値の範囲内にあるとしてステップＳ８へ行く。

〔Ｓ７〕異常度算出手段１４は、第１の異常度増加値を算出する。例えば、第１の異常度増加値を、（第１の異常度増加値）＝１００÷（対象閾値判定数）と定義して算出する。なお、対象閾値判定数とは、閾値判定の種類数のことである。この例の閾値判定では、電圧閾値判定、製造経過年数閾値判定および稼働日数閾値判定の３つの閾値判定を行うとしたので、対象閾値判定数＝３となる。

〔Ｓ８〕異常度算出手段１４は、管理ブレードの製造経過年数（製造してからの経過年数）に対する閾値判定を行う。管理ブレードの製造経過年数は、例えば、現在の日時から、管理ブレード製造時に設定された製造日時を減算することで求められる。

〔Ｓ９〕異常度算出手段１４は、管理ブレードの製造経過年数が閾値を超える場合はステップＳ１０へ行き、閾値を超えない場合はステップＳ１１へ行く。
〔Ｓ１０〕異常度算出手段１４は、第２の異常度増加値を算出する。例えば、第２の異常度増加値を第１の異常度増加値と同様に、（第２の異常度増加値）＝１００÷（対象閾値判定数）と定義して算出する（この例では対象閾値判定数は３である）。

〔Ｓ１１〕異常度算出手段１４は、管理ブレードの稼働日数に対する閾値判定を行う。
〔Ｓ１２〕異常度算出手段１４は、管理ブレードの稼働日数が閾値を超える場合はステップＳ１３へ行き、閾値を超えない場合はステップＳ１４へ行く。

〔Ｓ１３〕異常度算出手段１４は、第３の異常度増加値を算出する。例えば、第３の異常度増加値を第１の異常度増加値と同様に、（第３の異常度増加値）＝１００÷（対象閾値判定数）と定義して算出する（この例では対象閾値判定数は３である）。

〔Ｓ１４〕異常度算出手段１４は、異常度算出処理を行っていない他系の管理ブレードが存在するか否か、すなわち、異常度算出処理を行っていないペアとなるもう一方の側の管理ブレードが存在するか否かを判断する。存在する場合はステップＳ１へ戻り、存在しない場合はステップＳ１５へ行く。

〔Ｓ１５〕異常度算出手段１４は、管理ブレードの両系異常度を算出する。例えば両系異常度を、（両系異常度）＝（（片系異常度）＋（片系異常度））÷２と定義して算出する。上記のようなフローで異常度算出処理を行うことで、両系異常度を効率よく算出することができる。

ここで、片系異常度は、管理ブレードの動作状態が異常の場合は、ステップＳ３で設定された値となる。または、管理ブレードの動作状態が正常であっても、電圧閾値判定、製造経過年数閾値判定および稼働日数閾値判定のいずれかにおいて、閾値範囲内に無いと判定された場合は、第１・第２・第３の異常度増加値のうちの、算出された異常度増加値の累積値が片系異常度となる。

例えば、１つの管理ブレードの電圧閾値判定、製造経過年数閾値判定および稼働日数閾値判定のすべてにおいて、閾値範囲内に無いと判定された場合は、片系異常度は、第１〜第３の異常度増加値の３つの累積値となる。このとき、（片系異常度）＝（第１の異常度増加値）＋（第２の異常度増加値）＋（第３の異常度増加値）で算出される。

なお、管理ブレードは、１シャーシに２台ある冗長構成なので、上記のステップＳ４では、動作判定の回数を２回行っている。これに対し、接続ブレードは、１シャーシに２台のペアがｎ個、すなわち、２ｎ台ある冗長構成をとる。

したがって、図１０に示した処理を接続ブレードに対して行う場合は、ステップＳ４では、動作判定の回数を２ｎ回行うことになる。その他の異常度算出処理については、管理ブレードの場合と同じである。

次にシャーシ両系異常度の算出処理について説明する。異常度算出手段１４は、シャーシ両系異常度を、（シャーシ両系異常度）＝（（シャーシ経年異常度）＋（ユニット異常度））÷２と定義して算出する。

ここで、シャーシ経年異常度は、シャーシの製造経過年数が閾値を超える場合に設定される値とする。シャーシの製造経過年数は、例えば、現在の日時から、シャーシ製造時に設定された製造日時を減算することで求められる。例えば、シャーシの製造経過年数が閾値を超える場合は１００とし、超えない場合は０とする。

また、ユニット異常度は、管理ブレード両系異常度と接続ブレード両系異常度にもとづいて設定される値である。具体的には、１つのシャーシ内に接続ブレードのペアがｎある場合、異常度算出手段１４は、ユニット異常度を、（ユニット異常度）＝｛（管理ブレード両系異常度）＋（接続ブレード両系異常度＃１）＋（接続ブレード両系異常度＃２）＋・・・＋（接続ブレード両系異常度＃ｎ）｝÷（１＋ｎ）と定義して算出する。

次に優先度決定手段１５における優先度決定処理について説明する。優先度決定手段１５は、シャーシ両系異常度を低い方から高い方へ昇順にソートして、仮想マシンの移動先シャーシ優先度を決定する。

シャーシ両系異常度が低ければ、電源断や通信断の発生度が低く、仮想マシンの配置先として安全なシャーシといえる。したがって、シャーシ両系異常度が低いほど、移動先シャーシ優先度を高く設定することになる。なお、シャーシ両系異常度が等しいシャーシが複数存在する場合は、優先度決定手段１５は、例えば、シャーシ名に付けられている番号などにもとづいて昇順にソートする。

次に移動先指標算出手段１７における移動先指標の算出処理について説明する。移動先指標算出手段１７は、物理サーバ上に実装されているＣＰＵとメモリに対して、移動先指標を、ＣＰＵ消費量の順位とメモリ消費量の順位から算出する。

具体的には、移動先指標算出手段１７は、移動先指標を、（移動先指標）＝（ＣＰＵ消費量順位）＋（メモリ消費量順位）と定義して算出する。
なお、ＣＰＵ消費量順位の値は、ＣＰＵ消費量が多いほど小さく、ＣＰＵ消費量が少ないほど大きくなる。同様に、メモリ消費量順位の値は、メモリ消費量が多いほど小さく、メモリ消費量が少ないほど大きくなる。したがって、移動先指標は、ＣＰＵ消費量やメモリ消費量が少ないほど値は大きくなる。

次に情報保持ＤＢ１３−１で保持される各テーブルについて説明する。図１１はシャーシ情報テーブルの構成例を示す図である。シャーシ情報テーブルＴ１は、ＩＤ（Identifier）、シャーシ名、ペアＩＤ、製造経過年数（シャーシの製造経過年数）、シャーシ両系異常度、移動先シャーシ優先度の項目を有する。

シャーシ名、ペアＩＤおよび製造経過年数の各項目は、保守者がクライアント端末８ｂを通じて、シャーシ情報テーブルＴ１にあらかじめ登録しておくことになる。また、シャーシ両系異常度と移動先シャーシ優先度については、異常度算出手段１４と優先度決定手段１５で算出・決定された値が登録される。なお、このテーブルのペアＩＤとは、対になっているシャーシに付されるＩＤであり、ペアになっているシャーシには、同じＩＤが付される。

図１２は管理ブレード情報テーブルの構成例を示す図である。管理ブレード情報テーブルＴ２は、ＩＤ、シャーシＩＤ、管理ブレード名、ペアＩＤ、動作状態、電圧、製造経過年数、稼働日数および両系異常度（管理ブレード両系異常度）の項目を有する。

シャーシＩＤ、管理ブレード名、ペアＩＤ、動作状態、電圧、製造経過年数および稼働日数は、稼働している管理ブレードから情報収集手段１２が収集した情報である。両系異常度は、異常度算出手段１４で算出された値が登録される。

なお、現用系の管理ブレードは、予備系の管理ブレードの情報（動作状態、電圧、製造経過年数および稼働日数など）も認識している。したがって、情報収集手段１２は、稼働している側の現用系の管理ブレードに問い合せをすることで、両系の管理ブレードの情報を収集することができる。また、このテーブルのペアＩＤとは、対になっている管理ブレードに付されるＩＤであり、ペアになっている管理ブレードには、同じＩＤが付される。

図１３は接続ブレード情報テーブルの構成例を示す図である。接続ブレード情報テーブルＴ３は、ＩＤ、シャーシＩＤ、スロットＩＤ、接続ブレード名、ペアＩＤ、動作状態、電圧、製造経過年数、稼働日数および両系異常度（接続ブレード両系異常度）の項目を有する。

管理ブレードは、接続ブレードに関するシャーシＩＤ、スロットＩＤ、接続ブレード名およびペアＩＤも認識している。よって、これらの項目は、情報収集手段１２が管理ブレードから情報収集した際に、これら接続ブレードの情報も収集できる。

また、動作状態、電圧、製造経過年数および稼働日数は、情報収集手段１２が、接続ブレードそれぞれにアクセスして収集される情報である。両系異常度は、異常度算出手段１４で算出された値が登録される。

さらに、このテーブルのペアＩＤとは、対になっている接続ブレードに付されるＩＤであり、ペアになっている接続ブレードには、同じＩＤが付される。なお、上記の管理ブレード情報テーブルＴ２と接続ブレード情報テーブルＴ３とに登録される稼働日数は、管理ブレード、接続ブレードの各動作状態が停止したときはゼロにクリアされる。

図１４はシャーシ閾値管理テーブルの構成例を示す図である。シャーシ閾値管理テーブルＴ４は、シャーシ経年劣化に関する情報が登録され、ＩＤ、対象、最小閾値および最大閾値の項目を有する。対象とは、シャーシ閾値判定として何を閾値判定の対象としているかを示すもので、図の例では、製造経過年数をシャーシ閾値判定の対象としている。

図１５は管理ブレード閾値管理テーブルの構成例を示す図である。管理ブレード閾値管理テーブルＴ５は、ＩＤ、対象、最小閾値および最大閾値の項目を有する。対象としては、図の例では、電圧、製造経過年数および稼働日数を、管理ブレード閾値判定の対象としている。なお、管理ブレード閾値判定とは、管理ブレードに対して行われる、図１０に示したステップＳ５〜Ｓ１３の処理のことである。

図１６は接続ブレード閾値管理テーブルの構成例を示す図である。接続ブレード閾値管理テーブルＴ６は、ＩＤ、対象、最小閾値および最大閾値の項目を有する。対象としては、図の例では、電圧、製造経過年数および稼働日数を、接続ブレード閾値判定の対象としている。なお、接続ブレード閾値判定とは、接続ブレードに対して行われる、図１０に示したステップＳ５〜Ｓ１３の処理のことである。

図１７は両系異常度閾値管理テーブルの構成例を示す図である。両系異常度閾値管理テーブルＴ７は、管理ブレード両系異常度、接続ブレード両系異常度およびシャーシ両系異常度に関する閾値情報を登録しており、ＩＤ、タイプ、ペアＩＤおよび最大閾値の項目を有する。

図の場合、タイプが管理ブレードで、その最大閾値は５０となっている。これは、管理ブレード両系異常度の第１の閾値が５０ということである。また、タイプが接続ブレードで、その最大閾値は５０となっている。これは、接続ブレード両系異常度の第２の閾値が５０ということである。さらに、タイプがシャーシで、その最大閾値は５０となっている。これは、シャーシ両系異常度の第３の閾値が５０ということである。なお、第１〜第３の閾値による閾値判定については、図２２で後述する。

図１８は物理サーバ情報管理テーブルの構成例を示す図である。物理サーバ情報管理テーブルＴ８は、ＩＤ、シャーシＩＤ、ＣＰＵ（ＭＨｚ）、メモリ（ＭＢ）およびＩＰアドレスの項目を有する。ＣＰＵとメモリの項目に示される値は、搭載量を示す値である。また、ＩＰアドレスは、各シャーシのＩＰアドレスを示す。

図１９はＶＭホスト情報管理テーブルの構成例を示す図である。ＶＭホスト情報管理テーブルＴ９は、仮想マシンの移動先となる物理サーバに関する現在稼働中の情報が登録され、ＩＤ、物理サーバＩＤ、ＣＰＵ消費量（ＭＨｚ）、ＣＰＵ消費量順位、メモリ消費量（ＭＢ）、メモリ消費量順位、移動先指標およびフラグ（閾値超えフラグ）の各項目を有する。

物理サーバＩＤ、ＣＰＵ消費量（ＭＨｚ）、メモリ消費量（ＭＢ）は、情報収集手段１２がＶＭホストとなる物理サーバにアクセスして収集される情報である。また、ＣＰＵ消費量順位、メモリ消費量順位および移動先指標は、移動先指標算出手段１７で求められた値が登録され、フラグは、フラグ設定手段１８で設定された真理値が登録される。

図２０はＶＭゲスト情報管理テーブルの構成例を示す図である。ＶＭゲスト情報管理テーブルＴ１０は、移動対象の仮想マシンに関する情報が登録され、ＩＤ、ＶＭホストＩＤ、ＣＰＵ消費量（ＭＨｚ）およびメモリ消費量（ＧＢ）の各項目を有する。ＶＭホストＩＤ、ＣＰＵ消費量（ＭＨｚ）およびメモリ消費量（ＧＢ）は、情報収集手段１２が移動対象の仮想マシンが配置されていた物理サーバ（移動元ＶＭホスト）にアクセスして収集される情報である。

次にサーバ管理装置１０の動作についてフローチャートを用いて説明する。図２１、図２２はサーバ管理装置の動作を示すフローチャートである。なお、ステップＳ２１〜Ｓ３６までの処理は、サーバ管理装置１０の１つの全体動作として定期的な周期で実行される。

〔Ｓ２１〕情報収集手段１２は、管理ブレードに関する情報を収集する。情報管理手段１３は、収集情報にもとづき、管理ブレード情報テーブルＴ２の更新を行う。なお、ステップＳ２１の動作は、１台のシャーシ内にある管理ブレードの台数分行われる。

〔Ｓ２２〕異常度算出手段１４は、管理ブレード両系異常度を算出する。例えば、シャーシ５０の場合、管理ブレードｍｂ１−１、ｍｂ１−２が両方とも異常になる異常度を算出する。

〔Ｓ２３〕情報収集手段１２は、接続ブレードに関する情報を収集する。情報管理手段１３は、収集情報にもとづき、接続ブレード情報テーブルＴ３の更新を行う。なお、ステップＳ２３の動作は、１台のシャーシ内にある接続ブレードの台数分行われる。

〔Ｓ２４〕異常度算出手段１４は、接続ブレード両系異常度を算出する。例えば、シャーシ５０の場合、接続ブレードｃｂ１−１、ｃｂ１−２が両方とも異常になる異常度を算出する。

〔Ｓ２５〕情報収集手段１２は、管理ブレードが管理している物理サーバ情報を収集し、情報管理手段１３は、物理サーバ情報管理テーブルＴ８の更新を行う。なお、管理ブレードは、当該管理ブレードが含まれるシャーシに搭載される物理サーバ情報を取得して管理している。

〔Ｓ２６〕異常度算出手段１４は、シャーシ両系異常度を算出する。
〔Ｓ２７〕優先度決定手段１５は、シャーシ両系異常度順にソートを行って移動先シャーシ優先度を決定する。

〔Ｓ２８〕優先度決定手段１５は、移動先シャーシ優先度の更新を行う。
〔Ｓ２９〕フラグ設定手段１８は、管理ブレード両系異常度と第１の閾値とを比較する。

〔Ｓ３０〕フラグ設定手段１８は、管理ブレード両系異常度が第１の閾値を超えない場合はステップＳ３１へ行き、管理ブレード両系異常度が第１の閾値を超える場合はステップＳ３５へ行く。

〔Ｓ３１〕フラグ設定手段１８は、接続ブレード両系異常度と第２の閾値とを比較する。
〔Ｓ３２〕フラグ設定手段１８は、接続ブレード両系異常度が第２の閾値を超えない場合はステップＳ３３へ行き、接続ブレード両系異常度が第２の閾値を超える場合はステップＳ３５へ行く。

〔Ｓ３３〕フラグ設定手段１８は、シャーシ両系異常度と第３の閾値とを比較する。
〔Ｓ３４〕フラグ設定手段１８は、シャーシ両系異常度が第３の閾値を超えない場合はステップＳ３６へ行き、シャーシ両系異常度が第３の閾値を超える場合はステップＳ３５へ行く。

〔Ｓ３５〕フラグ設定手段３５は、第１〜第３の閾値の内、１つでも閾値を超えるものがあれば、閾値を超えるシャーシに搭載の物理サーバにフラグをセットする。なお、ステップＳ２９〜Ｓ３５の動作は、シャーシの台数分行われる。

〔Ｓ３６〕移動元物理サーバ決定手段１９ａは、仮想マシンの移動元の物理サーバである移動元物理サーバを決定する。
このように、管理ブレード両系異常度が第１の閾値を超えるという条件、接続ブレード両系異常度が第２の閾値を超えるという条件、およびシャーシ両系異常度が第３の閾値を超えるという条件が、シャーシごとに判断される。そして、いずれか１つの条件が満たされたシャーシに搭載された物理サーバにフラグがセットされる。このようなフラグ設定処理を行うことにより、両系異常度が高まっているシャーシに搭載されている物理サーバを効率よく的確に決定することができる。

次にステップＳ３６における移動元物理サーバの決定処理の動作についてフローチャートを用いて説明する。図２３は移動元物理サーバの決定処理の動作を示すフローチャートである。なお、ステップＳ４１〜Ｓ４８までの処理は、１台のシャーシに搭載されている物理サーバの台数分行われる。

〔Ｓ４１〕移動元物理サーバ決定手段１９ａは、フラグの状態を確認する。
〔Ｓ４２〕移動元物理サーバ決定手段１９ａは、ある物理サーバに対して、ステップＳ３５で上述した閾値超えを示すフラグがセットされているか否かを判断する。フラグがセットされていない場合は（フラグ真理値＝false）、ステップＳ４３へ行き、フラグがセットされている場合は（フラグ真理値＝true）、ステップＳ４７へ行く。

〔Ｓ４３〕移動元物理サーバ決定手段１９ａは、当該物理サーバのＣＰＵ消費量を確認する。
〔Ｓ４４〕移動元物理サーバ決定手段１９ａは、あらかじめ定めた期間内におけるＣＰＵ消費量が、所定値（負荷閾値）を超えないと認識した場合は、ステップＳ４５へ行く。または、移動元物理サーバ決定手段１９ａは、あらかじめ定めた期間内におけるＣＰＵ消費量が、所定値を超えると認識した場合は、ステップＳ４７へ行く。

〔Ｓ４５〕移動元物理サーバ決定手段１９ａは、当該物理サーバのメモリ消費量を確認する。
〔Ｓ４６〕移動元物理サーバ決定手段１９ａは、あらかじめ定めた期間内におけるメモリ消費量が、所定値（負荷閾値）を超えないと認識した場合は、移動元物理サーバの決定処理を終了する。または、移動元物理サーバ決定手段１９ａは、あらかじめ定めた期間内におけるメモリ消費量が、所定値を超えると認識した場合は、ステップＳ４７へ行く。

〔Ｓ４７〕移動元物理サーバ決定手段１９ａは、現在処理対象の物理サーバを移動元物理サーバと決定する。
〔Ｓ４８〕移動先物理サーバ決定手段１９ｂは、移動先物理サーバの決定処理を行う。なお、ステップＳ４８の動作は、１台の物理サーバ内にある仮想マシンの数分行われる。

〔Ｓ４９〕フラグ設定手段１８は、当該物理サーバにセットされているフラグをクリアする。このような処理を行うことで、移動対象の仮想マシンが配置されている物理サーバを効率よく選定することが可能になる。

次にステップＳ４８における移動先物理サーバの決定処理の動作についてフローチャートを用いて説明する。図２４は移動先物理サーバの決定処理の動作を示すフローチャートである。なお、ステップＳ５１〜Ｓ５８までの処理は、移動先シャーシ優先度の高い順にシャーシの台数分行われる。

〔Ｓ５１〕移動先物理サーバ決定手段１９ｂは、シャーシに搭載される物理サーバ集合を認識する。
〔Ｓ５２〕移動先物理サーバ決定手段１９ｂは、移動先物理サーバへ仮想マシンを配置した際のＣＰＵ消費量を算出する。具体的には、移動先物理サーバ決定手段１９ｂは、移動先物理サーバ（移動先ＶＭホスト）のＣＰＵ消費量と、移動対象の仮想マシン（移動対象ＶＭゲスト）のＣＰＵ消費量とを加算して算出する。

〔Ｓ５３〕移動先物理サーバ決定手段１９ｂは、ステップＳ５２で算出したＣＰＵ消費量が、所定値（負荷閾値）を超えないと認識した場合は、ステップＳ５４へ行き、所定値を超えると認識した場合は、当該物理サーバは移動先物理サーバとはなりえないとみなして処理は終了する。

〔Ｓ５４〕移動先物理サーバ決定手段１９ｂは、移動先物理サーバへ仮想マシンを配置した際のメモリ消費量を算出する。具体的には、移動先物理サーバ決定手段１９ｂは、移動先物理サーバ（移動先ＶＭホスト）のメモリ消費量と、移動対象の仮想マシン（移動対象ＶＭゲスト）のメモリ消費量とを加算して算出する。

〔Ｓ５５〕移動先物理サーバ決定手段１９ｂは、ステップＳ５４で算出したメモリ消費量が、所定値（負荷閾値）を超えないと認識した場合は、ステップＳ５６へ行き、所定値を超えると認識した場合は、当該物理サーバは移動先物理サーバとはなりえないとみなして処理は終了する。

〔Ｓ５６〕移動先物理サーバ決定手段１９ｂは、現在処理対象の物理サーバを移動先物理サーバと決定する。
〔Ｓ５７〕情報管理手段１３は、ＶＭホスト情報管理テーブルＴ９を更新する。

〔Ｓ５８〕仮想マシン移動手段１１は、移動元物理サーバ決定手段１９ａで決定された移動元物理サーバに現在配置されている仮想マシンを、移動先物理サーバ決定手段１９ｂで決定された移動先物理サーバへ移動して、仮想マシンの配置換えを行う。

なお、ステップＳ５２〜Ｓ５８の処理は、移動先指標の降順に処理が行われる。移動先指標は、指標値が大きいほど移動先物理サーバの負荷が少なく、指標値が小さいほど移動先物理サーバの負荷が大きくなる。したがって、移動先指標の降順とは、最も負荷の少ない移動先物理サーバからループ処理を行うことになる。

上記のような処理を行うことで、仮想マシンの配置先として、複数の設備異常度（管理ブレード両系異常度、接続ブレード両系異常度、シャーシ両系異常度）のいずれもが低いシャーシの中でも、負荷が最も少ない物理サーバを効率よく選定することが可能になる。

次に仮想マシン配置の運用例について説明する。図２５は管理ブレードの故障検知による仮想マシンの移動を示す図である。
ブレードサーバシステム５において、シャーシ５０内の管理ブレードｍｂ１−１、ｍｂ１−２が故障したとする。この場合は、サーバ管理装置１０は、管理ブレードｍｂ１−１、ｍｂ１−２の両系異常度の閾値超えを認識すると、仮想マシンｍ１、ｍ２をシャーシ６０へ移動する。図の場合は、シャーシ６０の物理サーバ６１に移動されている。

図２６は仮想マシン配置移動の保守者への通知を示す図である。仮想マシンｍ１、ｍ２が、シャーシ５０の物理サーバ５１からシャーシ６０の物理サーバ６１へ移動したことは、サーバ管理装置１０からクライアント端末８ｂへ通知される。

図２７は故障した管理ブレードの交換を示す図である。シャーシ５０内の両系異常が生じた管理ブレードｍｂ１−１、ｍｂ１−２は、保守者によって新規の管理ブレードに交換される。

図２８は仮想マシン配置による負荷分散を示す図である。シャーシ６０内の物理サーバ６１に仮想マシンｍ３、ｍ４が配置されている場合、物理サーバ６１の負荷は、シャーシ５０内の物理サーバ５２の負荷よりも高く、さらにシャーシ６０内の物理サーバ６２の負荷よりも高いとする。このような場合、仮想マシンｍ３は、物理サーバ５２へ移動され、仮想マシンｍ４は、物理サーバ６２へ移動されることで負荷分散が図られる。

なお、上記に示した処理機能は、コンピュータによって実現することができる。図２９は本実施の形態に用いるコンピュータのハードウェアの一構成例を示す図である。コンピュータ１００は、ＣＰＵ１０１によって装置全体が制御されている。ＣＰＵ１０１には、バス１０８を介してＲＡＭ（Random Access Memory）１０２と複数の周辺機器が接続されている。

ＲＡＭ１０２は、コンピュータ１００の主記憶装置として使用される。ＲＡＭ１０２には、ＣＰＵ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、ＣＰＵ１０１による処理に必要な各種データが格納される。

バス１０８に接続されている周辺機器としては、ＨＤＤ（Hard Disk Drive）１０３、グラフィック処理装置１０４、入力インタフェース１０５、光学ドライブ装置１０６、および通信インタフェース１０７がある。

ＨＤＤ１０３は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。ＨＤＤ１０３は、コンピュータ１００の二次記憶装置として使用される。ＨＤＤ１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、二次記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することもできる。

グラフィック処理装置１０４には、モニタ１０４ａが接続されている。グラフィック処理装置１０４は、ＣＰＵ１０１からの命令に従って、画像をモニタ１０４ａの画面に表示させる。モニタ１０４ａとしては、ＣＲＴ（Cathode Ray Tube）を用いた表示装置や液晶表示装置などがある。

入力インタフェース１０５には、キーボード１０５ａとマウス１０５ｂとが接続されている。入力インタフェース１０５は、キーボード１０５ａやマウス１０５ｂから送られてくる信号をＣＰＵ１０１に送信する。なお、マウス１０５ｂは、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク１０６ａに記録されたデータの読み取りを行う。光ディスク１０６ａは、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク１０６ａには、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（Rewritable）などがある。

通信インタフェース１０７は、ネットワーク１１０に接続されている。通信インタフェース１０７は、ネットワーク１１０を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。

以上のようなハードウェア構成によって、第１・第２の実施の形態の処理機能を実現することができる。また、コンピュータで第１・第２の実施の形態の処理機能を実現する場合、情報処理装置１またはサーバ管理装置１０が有する機能の処理内容を記述したプログラムが提供される。

そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置（ＨＤＤ）、フレキシブルディスク（ＦＤ）、磁気テープなどがある。光ディスクには、ＤＶＤ、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ／ＲＷなどがある。光磁気記録媒体には、ＭＯ（Magneto Optical disk）などがある。なおプログラムを記録する記録媒体には、一時的な伝搬信号自体は含まれない。

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。

また、上記の処理機能の少なくとも一部を、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）などの電子回路で実現することもできる。

以上説明したように、本技術では、物理サーバのＣＰＵやメモリの負荷だけで仮想マシンの配置先を決定するのではなく、仮想マシンの配置先の異常発生度を適切に認識し、異常発生度が高い配置先は回避し、異常発生度が低い配置先に対して優先的に仮想マシンを配置する。これにより、シャーシ全体が動作不可となることを防止でき、システムの可用性および信頼性の向上を図ることが可能になる。

以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。

１情報処理装置
１ａ指示手段
１ｂ算出手段
５０、６０シャーシ
５１、５２、６１、６２物理サーバ
ｍ１仮想マシン

Claims

複数の物理サーバに、サービスの提供開始またはサービスの提供停止を指示する情報処理装置において、
１または複数の物理サーバが搭載され、搭載された物理サーバの動作に用いる設備を備えた複数のシャーシにおける該設備の稼働状況を監視し、シャーシの設備の異常により該シャーシに搭載された物理サーバがサービス提供不能となる度合いを示す設備異常度を算出する算出手段と、
前記複数のシャーシそれぞれの設備異常度に基づいて、物理サーバに対して、サービスの提供開始またはサービスの提供停止を指示する指示手段と、
を有する情報処理装置。
前記算出手段は、シャーシの電源断の発生度を、設備異常度として算出することを特徴とする請求項１記載の情報処理装置。
前記複数のシャーシそれぞれには、物理サーバへの電源供給を管理する、冗長構成された複数の管理ユニットが備えられ、
前記算出手段は、シャーシ内の複数の管理ユニットのすべてで異常が発生し、該シャーシ内の物理サーバへの電源供給が途絶えることの発生度を、電源断の発生度として算出することを特徴とする請求項２記載の情報処理装置。
前記算出手段は、
前記複数の管理ユニットそれぞれの異常度である片系異常度に基づいて、電源断の発生度を求め、
前記片系異常度を算出する場合は、
管理ユニットの動作状態を異常と認識した際は、該管理ユニットの片系異常度を所定値に設定し、
該管理ユニットの動作状態を正常と認識した際は、該管理ユニットの動作電圧、製造経過年数および稼働日数の少なくとも１つを取得し、
前記動作電圧が電圧閾値の範囲外にある場合は、第１の異常度加算値を算出し、
前記製造経過年数が製造経過年数閾値の範囲外にある場合は、第２の異常度加算値を算出し、
前記稼働日数が稼働日数閾値の範囲外にある場合は、第３の異常度加算値を算出し、
前記第１〜第３の異常度加算値の累積値を、該管理ユニットの片系異常度とする、
ことを特徴とする請求項３記載の情報処理装置。
前記算出手段は、シャーシの通信断の発生度を、該シャーシの設備異常度として算出することを特徴とする請求項１乃至４のいずれかに記載の情報処理装置。
前記複数のシャーシそれぞれには、物理サーバをネットワークに接続する、冗長構成された複数の接続ユニットが備えられ、
前記算出手段は、シャーシ内の接続ユニットのすべてで異常が発生し、該シャーシ内の物理サーバの通信が途絶えることの発生度を、通信断の発生度として算出することを特徴とする請求項５記載の情報処理装置。
前記算出手段は、
前記複数の接続ユニットそれぞれの異常度である片系異常度に基づいて、接続断の発生度を求め、
前記片系異常度を算出する場合は、
接続ユニットの動作状態を異常と認識した際は、該接続ユニットの片系異常度を所定値に設定し、
該接続ユニットの動作状態を正常と認識した際は、該接続ユニットの動作電圧、製造経過年数および稼働日数の少なくとも１つを取得し、
前記動作電圧が電圧閾値の範囲外にある場合は、第１の異常度加算値を算出し、
前記製造経過年数が製造経過年数閾値の範囲外にある場合は、第２の異常度加算値を算出し、
前記稼働日数が稼働日数閾値の範囲外にある場合は、第３の異常度加算値を算出し、
前記第１〜第３の異常度加算値の累積値を、該接続ユニットの片系異常度とする、
ことを特徴とする請求項６記載の情報処理装置。
前記算出手段は、シャーシを製造してからの経過年数を用いて、該シャーシの設備異常度を算出することを特徴とする請求項１乃至７のいずれかに記載の情報処理装置。
前記指示手段は、設備異常度が所定の閾値を超えたシャーシに搭載された物理サーバに対して、該物理サーバで提供されているサービスの提供停止を指示し、設備異常度が該閾値を超えてない物理サーバに対して、該サービスの提供開始を指示することを特徴とする請求項１乃至８のいずれかに記載の情報処理装置。
前記算出手段は、シャーシの電源断の発生度を第１の設備異常度とし、シャーシの通信断の発生度を第２の設備異常度とし、シャーシを製造してからの経過年数に応じた値、前記第１の設備異常度、および前記第２の設備異常度を用いて算出した設備異常度を第３の設備異常度とし、
前記指示手段は、
前記第１の設備異常度と第１の閾値とを比較して、前記第１の設備異常度が前記第１の閾値を超えるという第１の条件、
前記第２の設備異常度と第２の閾値とを比較して、前記第２の設備異常度が前記第２の閾値を超えるという第２の条件、
前記第３の設備異常度と第３の閾値とを比較して、前記第３の設備異常度が前記第３の閾値を超えるという第３の条件、
のうちの少なくとも１つの条件が満たされたシャーシ内に搭載されている物理サーバに対して、サービスの提供停止を指示することを特徴とする請求項９記載の情報処理装置。
前記指示手段は、
設備異常度が所定の閾値を超えたシャーシに搭載された物理サーバ、または負荷閾値を超える負荷で動作している物理サーバに対して、サービスの提供停止を指示し、
設備異常度が所定の閾値を超えていないシャーシに搭載された物理サーバの中で、負荷が最も少ない物理サーバに対して、サービスの提供開始を指示する、
ことを特徴とする請求項１乃至１０のいずれかに記載の情報処理装置。
物理サーバは、仮想マシンによってサービスを提供しており、
前記指示手段は、設備異常度が所定の閾値を超えたシャーシに搭載された物理サーバから、設備異常度が所定の閾値を超えていないシャーシに搭載された物理サーバへの仮想マシンの移動を指示する、
ことを特徴とする請求項１乃至１１のいずれかに記載の情報処理装置。
複数の物理サーバに、サービスの提供開始またはサービスの提供停止を指示するサーバ管理方法において、
コンピュータが、
１または複数の物理サーバが搭載され、搭載された物理サーバの動作に用いる設備を備えた複数のシャーシにおける該設備の稼働状況を監視し、シャーシの設備の異常により該シャーシに搭載された物理サーバがサービス提供不能となる度合いを示す設備異常度を算出し、
前記複数のシャーシそれぞれの設備異常度に基づいて、物理サーバに対して、サービスの提供開始またはサービスの提供停止を指示する、
サーバ管理方法。
複数の物理サーバに、サービスの提供開始またはサービスの提供停止を指示するサーバ管理プログラムにおいて、
コンピュータに、
１または複数の物理サーバが搭載され、搭載された物理サーバの動作に用いる設備を備えた複数のシャーシにおける該設備の稼働状況を監視し、シャーシの設備の異常により該シャーシに搭載された物理サーバがサービス提供不能となる度合いを示す設備異常度を算出し、
前記複数のシャーシそれぞれの設備異常度に基づいて、物理サーバに対して、サービスの提供開始またはサービスの提供停止を指示する、
処理を実行させるサーバ管理プログラム。