JP2014127134A - 情報処理装置、サーバ管理方法およびサーバ管理プログラム - Google Patents

情報処理装置、サーバ管理方法およびサーバ管理プログラム Download PDF

Info

Publication number
JP2014127134A
JP2014127134A JP2012285314A JP2012285314A JP2014127134A JP 2014127134 A JP2014127134 A JP 2014127134A JP 2012285314 A JP2012285314 A JP 2012285314A JP 2012285314 A JP2012285314 A JP 2012285314A JP 2014127134 A JP2014127134 A JP 2014127134A
Authority
JP
Japan
Prior art keywords
chassis
degree
abnormality
physical server
abnormality degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012285314A
Other languages
English (en)
Other versions
JP6079226B2 (ja
Inventor
Yosuke Ishida
陽介 石田
Naohiro Tamura
直広 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012285314A priority Critical patent/JP6079226B2/ja
Priority to US14/049,750 priority patent/US9448904B2/en
Priority to EP13190662.0A priority patent/EP2750039A3/en
Publication of JP2014127134A publication Critical patent/JP2014127134A/ja
Application granted granted Critical
Publication of JP6079226B2 publication Critical patent/JP6079226B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/875Monitoring of systems including the internet

Abstract

【課題】システムの可用性の向上を図る。
【解決手段】情報処理装置1は、指示手段1aと算出手段1bとを備え、複数の物理サーバ51、52、61、62に、サービスの提供開始またはサービスの提供停止を指示する。算出手段1bは、1または複数の物理サーバが搭載され、搭載された物理サーバの動作に用いる設備を備えた複数のシャーシ50、60における該設備の稼働状況を監視する。そして算出手段1bは、シャーシ50、60の設備の異常により該シャーシに搭載された物理サーバがサービス提供不能となる度合いを示す設備異常度を算出する。指示手段1aは、複数のシャーシ50、60それぞれの設備異常度に基づいて、物理サーバに対して、サービスの提供開始またはサービスの提供停止を指示する。
【選択図】図1

Description

本発明は、情報処理装置、サーバ管理方法およびサーバ管理プログラムに関する。
物理サーバは、ユーザに対するサービスを提供することができる。例えば物理サーバは、ネットワークを介して接続された端末装置から、ユーザの要求を受信すると、その要求に応じた処理を実行する。このようなサービスの提供は、例えば仮想マシンで実行することができる。
仮想マシン(VM:Virtual Machine)は、物理サーバのCPU(Central Processing Unit)や記憶装置などのリソースを仮想化することで実現される仮想的なコンピュータである。
コンピュータのリソースを仮想化させることで、単一の物理サーバ上で、OS(Operating System)やソフトウェアの異なる複数の仮想マシンを同時に稼働させることができるので、物理サーバの有効利用が可能となる。
また、このようなサーバシステムでは、仮想マシンが提供するサービスを停止させずに、別の物理サーバに仮想マシンを配置する技術(ライブマイグレーション:live migration)が行われている。ここで仮想マシンの配置とは、物理サーバに仮想マシンを起動させることである。仮想マシンの適切な配置を行うことにより、システムの節電や負荷分散などが可能になる。
例えば、物理サーバのCPUやメモリの負荷変動に応じて、特定の物理サーバに仮想マシンを配置し、仮想マシンが配置されていない物理サーバの動作を停止させることで節電が可能になる(DPM:Distributed Power Management)。また、負荷の高い物理サーバ上の仮想マシンを、負荷の低い物理サーバへ配置移動することで、負荷分散が可能になる(DRS:Distributed Resource Scheduling)。
仮想マシン配置に関連する従来技術としては、仮想マシンを配置する際の制約条件を満足する最も優先順位の高い物理サーバを選択する技術が提案されている。また、仮想装置と物理装置との対応を示すシステム配置情報にもとづいて、仮想装置が物理装置に配置されたときの仮想システムの信頼性特性値を算出する技術が提案されている。
特開2011−13822号公報 特開2008−293103号公報
物理サーバが搭載されるシャーシ(筐体)に対し、仮想マシンをどのシャーシ内の物理サーバに対して配置するかという配置先の決定において、従来では、物理サーバのCPUやメモリの負荷が考慮されており、相対的に負荷の低い物理サーバに対して仮想マシンを配置するといったことが行われている。
しかし、仮想マシンの配置先となるシャーシで、電源断やサーバ通信断などの異常が生じた場合は、配置した先の仮想マシンの動作は停止してしまい、サーバシステムの停止につながって、可用性(availability:継続動作能力)が低下するという問題がある。なお、シャーシで電源断やサーバ通信断などの異常が生じた場合、仮想マシンを用いてサービスを提供する場合に限らず、そのシャーシに実装された物理サーバで提供されるサービスは停止し、可用性が低下する。
1つの側面では、本発明は、システムの可用性の向上を図った情報処理装置、サーバ管理方法およびサーバ管理プログラムを提供することを目的とする。
1つの案では、複数の物理サーバに、サービスの提供開始またはサービスの提供停止を指示する情報処理装置が提供される。情報処理装置は、1または複数の物理サーバが搭載され、搭載された物理サーバの動作に用いる設備を備えた複数のシャーシにおける該設備の稼働状況を監視し、シャーシの設備の異常により該シャーシに搭載された物理サーバがサービス提供不能となる度合いを示す設備異常度を算出する算出手段と、複数のシャーシそれぞれの設備異常度に基づいて決定した物理サーバに対して、サービスの提供開始またはサービスの提供停止を指示する指示手段と、を有する。
1態様によれば、システムの可用性の向上を図ることが可能になる。
情報処理装置の構成例を示す図である。 ブレードサーバシステムの構成例を示す図である。 管理ブレードと接続ブレードのそれぞれに両系異常が発生した場合を示す図である。 仮想マシンを配置する際の問題点を示す図である。 仮想マシンを配置する際の問題点を示す図である。 仮想マシンを配置する際の問題点を示す図である。 仮想マシンを配置する際の問題点を示す図である。 ブレードサーバシステムの構成例を示す図である。 情報保持DBで保持されるテーブル例を示す図である。 管理ブレード両系異常度の算出動作を示すフローチャートである。 シャーシ情報テーブルの構成例を示す図である。 管理ブレード情報テーブルの構成例を示す図である。 接続ブレード情報テーブルの構成例を示す図である。 シャーシ閾値管理テーブルの構成例を示す図である。 管理ブレード閾値管理テーブルの構成例を示す図である。 接続ブレード閾値管理テーブルの構成例を示す図である。 両系異常度閾値管理テーブルの構成例を示す図である。 物理サーバ情報管理テーブルの構成例を示す図である。 VMホスト情報管理テーブルの構成例を示す図である。 VMゲスト情報管理テーブルの構成例を示す図である。 サーバ管理装置の動作を示すフローチャートである。 サーバ管理装置の動作を示すフローチャートである。 移動元物理サーバの決定処理の動作を示すフローチャートである。 移動先物理サーバの決定処理の動作を示すフローチャートである。 管理ブレードの故障検知による仮想マシンの移動を示す図である。 仮想マシンの配置移動の保守者への通知を示す図である。 故障した管理ブレードの交換を示す図である。 仮想マシン配置による負荷分散を示す図である。 本実施の形態に用いるコンピュータのハードウェアの一構成例を示す図である。
以下、本発明の実施の形態を図面を参照して説明する。
〔第1の実施の形態〕
図1は情報処理装置の構成例を示す図である。情報処理装置1は、指示手段1aと算出手段1bを備えており、サービス提供機能を有する複数の物理サーバ51、52、61、62に、サービスの提供開始またはサービスの提供停止を指示する。なお図1の例では、各物理サーバ51、52、61、62は、仮想マシンを用いてサービスを提供している。
算出手段1bは、1または複数の物理サーバが搭載され、搭載された物理サーバの動作に用いる設備を備えた複数のシャーシ50、60における該設備の稼働状況を監視する。そして算出手段1bは、シャーシ50、60の設備の異常によりそのシャーシ50、60に搭載された物理サーバ51、52、61、62がサービス提供不能となる度合いを示す設備異常度を算出する。指示手段1aは、複数のシャーシ50、60それぞれの設備異常度に基づいて決定した物理サーバに対して、サービスの提供開始またはサービスの提供停止を指示する。
ここで、シャーシ50には物理サーバ51、52が搭載され、シャーシ60には物理サーバ61、62が搭載されている。また、物理サーバ51上に仮想マシンm1が当初配置されている。そして仮想マシンm1が、ユーザへのサービスを提供している。
このような状態において、算出手段1bは、シャーシ50、60の設備に関する設備異常度を算出する。このときシャーシ50の設備異常度の方が、シャーシ60の設備異常度よりも高かったとする。
この場合は、指示手段1aは、シャーシ50の物理サーバ51に対して、サービスの提供停止を指示する。また指示手段1aは、シャーシ60の物理サーバ61に対して、物理サーバ51が提供していたサービスの提供開始を指示する。仮想マシンm1によってサービスを提供している場合、サービスの提供停止とサービスの提供停止の指示とは、仮想マシンm1の移動指示に置き換えることができる。すなわち、指示手段1aは、シャーシ50に配置されている仮想マシンm1を、シャーシ60の物理サーバ61へ移動して仮想マシンm1の配置換えを行う。なお指示手段1aによるサービスの提供停止や提供開始の指示は、サービスを提供している物理サーバが実装されたシャーシの設備異常度が、所定の閾値を超えた場合にのみ実行するようにしてもよい。
このように、情報処理装置1では、仮想マシンの配置先であるシャーシの異常発生度にもとづき、仮想マシンの最適配置を行う。これにより、仮想マシンの配置先でのシャーシに異常が生じて、配置先の仮想マシンの動作が停止してサーバシステムが停止してしまうなどの現象の発生を抑制することができるので、システムの可用性および信頼性を向上させることが可能になる。
〔第2の実施の形態〕
次に第2の実施の形態について説明する。第2の実施の形態は、ブレードサーバシステムを用いて、仮想サーバの適切な配置をより詳細に制御を可能としたものである。
まず、本技術が解決すべき課題について詳しく説明する。なお、以降では、本技術をブレードサーバシステムに適用した場合を例に挙げて詳しく説明する。図2はブレードサーバシステムの構成例を示す図である。ブレードサーバとは、シャーシにブレードと呼ばれる物理サーバが複数搭載されたサーバである。また、所定の物理サーバには、仮想マシンが配置される。
ブレードサーバシステム5aは、シャーシ50、60およびLAN(Local Area Network)7aを備える。シャーシ50は、物理サーバ51、52、管理ブレード(MMB:Management Blade)mb1−1、mb1−2および接続ブレード(CB:Connection Blade)cb1−1、cb1−2を含む。管理ブレードmb1−1、mb1−2および接続ブレードcb1−1、cb1−2は、搭載された物理サーバ51、52の動作に用いる設備の一例である。
また、シャーシ60は、物理サーバ61、62、管理ブレードmb2−1、mb2−2および接続ブレードcb2−1、cb2−2を含む。管理ブレードmb2−1、mb2−2および接続ブレードcb2−1、cb2−2は、搭載された物理サーバ61、62の動作に用いる設備の一例である。接続ブレードcb1−1、cb1−2、cb2−1、cb2−2は、管理業務用の通信ネットワークであるLAN7aと接続している。
なお、管理ブレードmb1−1、mb1−2と、管理ブレードmb2−1、mb2−2とはそれぞれ、冗長構成になっており、現用系/予備系の両系構成になっている。したがって、例えば、管理ブレードmb1−1が現用系になれば、管理ブレードmb1−2は予備系となり、また、管理ブレードmb1−2が現用系になれば、管理ブレードmb1−1は予備系となる。管理ブレードmb2−1、mb2−2についても同様である。
一方、接続ブレードcb1−1、cb1−2と、接続ブレードcb2−1、cb2−2とはそれぞれ、冗長構成になっており、両系構成になっている。接続ブレードは、例えば現用系/予備系の区別なしに運用され、設置される接続ブレードは、すべて現用系として稼働する。ただし、ペアとなる接続ブレードの両系同士で、互いに負荷を分散しながら稼働する。なお、接続ブレードcb1−1、cb1−2と、接続ブレードcb2−1、cb2−2についても、ペアの一方を現用系、他方を予備系として、現用系のみを稼働させることもできる。
また、図2では、1つのシャーシ内に1ペアの接続ブレードが記載されているが、1ペアの接続ブレードは、n(=1、2、3、・・・)ペア搭載可能である(したがって、1シャーシ内の接続ブレードの台数は2n台である)。
管理ブレードmb1−1、mb1−2は、シャーシ50に搭載された物理サーバ51、52を管理・操作する管理ユニットであり、物理サーバ51、52への電源供給も制御する。同様に、管理ブレードmb2−1、mb2−2は、シャーシ60に搭載された物理サーバ61、62を管理・操作する管理ユニットであり、物理サーバ61、62への電源供給も制御する。
また、接続ブレードcb1−1、cb1−2は、LAN7aを経由して、物理サーバ51、52と、外部機器とを接続して内外の通信インタフェースを行う接続ユニットである。同様に、接続ブレードcb2−1、cb2−2は、LAN7aを経由して、物理サーバ61、62と、外部機器とを接続して内外の通信インタフェースを行う接続ユニットである。
なお、シャーシ50に搭載されている物理サーバ51には、仮想マシンm1、m2が配置して稼働し、シャーシ60に搭載されている物理サーバ61には、仮想マシンm3、m4が配置して稼働しているとする。
図3は管理ブレードと接続ブレードのそれぞれに両系異常が発生した場合を示す図である。両系異常とは、ペアになっているユニットの両方に異常が発生することである。シャーシ50の管理ブレードmb1−1、mb1−2において、例えば、管理ブレードmb1−1だけが故障した場合は、予備系である管理ブレードmb1−2が起動するので、運用は継続される。
しかし、管理ブレードmb1−1、mb1−2の両系に異常が生じると、管理ブレードmb1−1、mb1−2は、電源供給機能を有しているから、シャーシ50内の物理サーバ51、52の電源供給は停止してしまう。すると、物理サーバ51上の仮想マシンm1、m2も動作が停止してしまうことになる。
一方、シャーシ60の接続ブレードcb2−1、cb2−2の両系に異常が発生すると、接続ブレードcb2−1、cb2−2は、通信インタフェース機能を有しているから、シャーシ60内の物理サーバ61、62は外部との通信が断してしまう。すると、物理サーバ61上の仮想マシンm3、m4も外部との通信ができなくなり、仮想マシンm3、m4は、通信不可(使用不可)となってしまう。
図4、図5は仮想マシンを配置する際の問題点を示す図である。図4において、シャーシ50内の管理ブレードmb1−1、mb1−2は、両系異常が発生しやすくなっているとする。また、シャーシ60内の物理サーバ61上で仮想マシンm3、m4が稼働している状態で、物理サーバ61のCPU負荷やメモリ負荷が高い状態が続いているとする。
このとき、従来の仮想マシン配置制御では、シャーシ50内の物理サーバ51の負荷が物理サーバ61の負荷よりも低く、物理サーバ51の方が処理能力に余裕がある場合には、仮想マシンm3、m4を、シャーシ50内の物理サーバ51へ配置して負荷分散を図ろうとする。
しかし、図5に示すように、管理ブレードmb1−1、mb1−2は、両系異常が発生しやすくなっているので、両系異常が実際に発生した場合には、シャーシ50内の物理サーバ51、52の電源が断することになる。
すると、物理サーバ61から物理サーバ51へ移動された仮想マシンm3、m4の稼働も停止してしまい、システム運用が停止して可用性さらには信頼性の低下を招くことになる。
図6、図7は仮想マシンを配置する際の問題点を示す図である。図6において、シャーシ60内の接続ブレードcb2−1、cb2−2は、両系異常が発生しやすくなっているとする。また、シャーシ50内の物理サーバ51上で仮想マシンm1、m2が稼働している状態で、物理サーバ51のCPU負荷やメモリ負荷が高い状態が続いているとする。
このとき、従来の仮想マシン配置制御では、シャーシ60内の物理サーバ61の負荷が物理サーバ51の負荷よりも低く、物理サーバ61の方が処理能力に余裕がある場合には、仮想マシンm1、m2を、シャーシ60内の物理サーバ61へ配置して負荷分散を図ろうとする。
しかし、図7に示すように、接続ブレードcb2−1、cb2−2は、両系異常が発生しやすくなっているので、両系異常が実際に発生した場合には、シャーシ60内の物理サーバ61、62は外部との通信が断することになる。
すると、物理サーバ51から物理サーバ61へ移動された仮想マシンm1、m2も外部との通信が断して使用不可となってしまい、システム運用が停止して可用性さらには信頼性の低下を招くことになる。
本技術はこのような点に鑑みてなされたものであり、仮想マシンの配置先であるシャーシの異常発生度を適切に認識して仮想マシンの最適配置を行うことにより、システムの可用性および信頼性の向上を図った情報処理装置、サーバ管理方法およびサーバ管理プログラムを提供するものである。
図8はブレードサーバシステムの構成例を示す図である。ブレードサーバシステム5は、シャーシ50、60、LAN7a、7b、サーバ管理装置(管理サーバ)10およびクライアント端末8a、8bを備える。
LAN7aは、シャーシ50内の接続ブレードcb1−1、cb1−2と、シャーシ60内の接続ブレードcb2−1、cb2−2と接続する。サーバ管理装置10は、LAN7a、7bと接続する。
また、LAN7aには、クライアント端末8aが接続し、LAN7bには、クライアント端末8bが接続する。クライアント端末8aは、仮想マシンで業務を行っているユーザ端末に該当し、クライアント端末8bは、システム管理を行う保守端末に該当する。なお、シャーシ50、60内の構成要素は、図2と同じなので、同一符号を付けて説明は省略する。
サーバ管理装置10は、図1の情報処理装置1の機能を包含している。サーバ管理装置10では、シャーシ内で冗長構成された管理ブレードと接続ブレードに対し、両系異常がどの程度発生しやすいかの両系異常度を定義しており、定期的に管理ブレードと接続ブレードから情報を収集して、両系異常度を算出する。そして、サーバ管理装置10は、両系異常度にもとづいて、仮想マシンの最適な配置(ライブマイグレーション)を行う。
サーバ管理装置10は、仮想マシン移動手段11、情報収集手段12、情報管理手段13、情報保持DB(Data Base)13−1、異常度算出手段14、優先度決定手段15、通知手段16、移動先指標算出手段17、フラグ設定手段18、移動元物理サーバ決定手段19aおよび移動先物理サーバ決定手段19bを備える。
仮想マシン移動手段11、移動元物理サーバ決定手段19a、および移動先物理サーバ決定手段19bにより、図1の指示手段1aの機能が実現される。情報収集手段12と異常度算出手段14とにより、図1の算出手段1bの機能が実現される。
なお、仮想マシン移動手段11、情報収集手段12、情報管理手段13、異常度算出手段14、優先度決定手段15、通知手段16、移動先指標算出手段17、フラグ設定手段18、移動元物理サーバ決定手段19aおよび移動先物理サーバ決定手段19bの各機能は、例えば、サーバ管理装置10で起動するプログラム(サーバ管理プログラム)で実現される。このサーバ管理プログラムの処理開始は、クライアント端末8bから指示される。
仮想マシン移動手段11は、仮想マシンを現在配置されているシャーシ内の物理サーバから別のシャーシ内の物理サーバへ配置するための配置移動処理を行う。情報収集手段12は、シャーシ50、60内の設備および物理サーバの稼働状況を監視する。例えば情報収集手段12は、シャーシ50、60内の接続ブレードcb1−1、cb1−2、cb2−1、cb2−2に定期的にアクセスして、稼働状況を示す所定情報を収集する。なお、情報収集する場合は、例えば、SNMP(Simple Network Management Protocol)などの通信プロトコルを使用して情報収集を行うことができる。
情報管理手段13は、情報保持DB13−1に含まれる各種テーブル情報の登録管理を行う。情報保持DB13−1は、各種のテーブルを保持し、情報収集手段12で収集された情報や、異常度算出手段14で算出された値などを各テーブルに登録して保持する。
異常度算出手段14は、収集された情報から異常度を算出する。優先度決定手段15は、異常度にもとづいて、どのシャーシに優先して仮想マシンを移動して配置すべきかの移動先シャーシの優先度を決定する。
通知手段16は、仮想マシンの配置移動に関連する処理結果の通知を行う。なお、通常は、仮想マシンで業務を行っているユーザ側は、仮想マシンがどの物理サーバに配置されているかの認識は不要であり、システム管理側が仮想マシンの配置場所を認識できればよい。
したがって、通知手段16では、クライアント端末8bに対して処理結果を通知する。また、クライアント端末8bは、GUI(Graphical User Interface)により処理結果やメッセージを表示する。
移動先指標算出手段17は、仮想マシンの移動先となる物理サーバの移動先指標を算出する。フラグ設定手段18は、算出された異常度に対する閾値判定を行って、閾値を超える場合にフラグを設定する。
移動元物理サーバ決定手段19aは、移動対象とすべき仮想マシンが配置されている物理サーバを決定する。移動先物理サーバ決定手段19bは、仮想マシンの新たな配置先となる物理サーバを決定する。
図9は情報保持DBで保持されるテーブル例を示す図である。情報保持DB13−1は、シャーシ情報テーブルT1、管理ブレード情報テーブルT2、接続ブレード情報テーブルT3、シャーシ閾値管理テーブルT4、管理ブレード閾値管理テーブルT5を有している。
さらに、情報保持DB13−1は、接続ブレード閾値管理テーブルT6、両系異常度閾値管理テーブルT7、物理サーバ情報管理テーブルT8、VMホスト情報管理テーブルT9およびVMゲスト情報管理テーブルT10を有している。各テーブルの具体的な構成例については図11〜図20で後述する。
次に異常度算出手段14における異常度算出処理について説明する。異常度算出としては大きく、管理ブレード両系異常度の算出、接続ブレード両系異常度の算出およびシャーシ両系異常度の算出がある。なお、管理ブレードと接続ブレードの両系異常度算出はどちらも基本的に同じ算出方法なので、以下のフローでは、管理ブレード両系異常度の算出について示す。
図10は管理ブレード両系異常度の算出動作を示すフローチャートである。
〔S1〕異常度算出手段14は、1台の管理ブレードの動作状態を判定する。
〔S2〕異常度算出手段14は、管理ブレードの動作状態が異常(error)の場合はステップS3へ行き、正常(normal)の場合はステップS5へ行く。
〔S3〕異常度算出手段14は、当該管理ブレードの動作状態が異常なときの異常度である片系異常度を設定する。例えば、片系異常度を100と設定する。
〔S4〕異常度算出手段14は、動作判定処理が2回目か否かを判断する。1回目の場合は(1台目の管理ブレードに対する動作判定の場合は)ステップS14へ行き、2回目の場合は(2台目の管理ブレードに対する動作判定の場合は)ステップS15へ行く。
〔S5〕異常度算出手段14は、管理ブレードの動作電圧に対する閾値判定を行う。
〔S6〕異常度算出手段14は、管理ブレードの動作電圧が最小閾値未満または最大閾値を超える場合は、電圧閾値の範囲外にあるとしてステップS7へ行き、管理ブレードの動作電圧が最小閾値以上かつ最大閾値を超えない場合は、電圧閾値の範囲内にあるとしてステップS8へ行く。
〔S7〕異常度算出手段14は、第1の異常度増加値を算出する。例えば、第1の異常度増加値を、(第1の異常度増加値)=100÷(対象閾値判定数)と定義して算出する。なお、対象閾値判定数とは、閾値判定の種類数のことである。この例の閾値判定では、電圧閾値判定、製造経過年数閾値判定および稼働日数閾値判定の3つの閾値判定を行うとしたので、対象閾値判定数=3となる。
〔S8〕異常度算出手段14は、管理ブレードの製造経過年数(製造してからの経過年数)に対する閾値判定を行う。管理ブレードの製造経過年数は、例えば、現在の日時から、管理ブレード製造時に設定された製造日時を減算することで求められる。
〔S9〕異常度算出手段14は、管理ブレードの製造経過年数が閾値を超える場合はステップS10へ行き、閾値を超えない場合はステップS11へ行く。
〔S10〕異常度算出手段14は、第2の異常度増加値を算出する。例えば、第2の異常度増加値を第1の異常度増加値と同様に、(第2の異常度増加値)=100÷(対象閾値判定数)と定義して算出する(この例では対象閾値判定数は3である)。
〔S11〕異常度算出手段14は、管理ブレードの稼働日数に対する閾値判定を行う。
〔S12〕異常度算出手段14は、管理ブレードの稼働日数が閾値を超える場合はステップS13へ行き、閾値を超えない場合はステップS14へ行く。
〔S13〕異常度算出手段14は、第3の異常度増加値を算出する。例えば、第3の異常度増加値を第1の異常度増加値と同様に、(第3の異常度増加値)=100÷(対象閾値判定数)と定義して算出する(この例では対象閾値判定数は3である)。
〔S14〕異常度算出手段14は、異常度算出処理を行っていない他系の管理ブレードが存在するか否か、すなわち、異常度算出処理を行っていないペアとなるもう一方の側の管理ブレードが存在するか否かを判断する。存在する場合はステップS1へ戻り、存在しない場合はステップS15へ行く。
〔S15〕異常度算出手段14は、管理ブレードの両系異常度を算出する。例えば両系異常度を、(両系異常度)=((片系異常度)+(片系異常度))÷2と定義して算出する。上記のようなフローで異常度算出処理を行うことで、両系異常度を効率よく算出することができる。
ここで、片系異常度は、管理ブレードの動作状態が異常の場合は、ステップS3で設定された値となる。または、管理ブレードの動作状態が正常であっても、電圧閾値判定、製造経過年数閾値判定および稼働日数閾値判定のいずれかにおいて、閾値範囲内に無いと判定された場合は、第1・第2・第3の異常度増加値のうちの、算出された異常度増加値の累積値が片系異常度となる。
例えば、1つの管理ブレードの電圧閾値判定、製造経過年数閾値判定および稼働日数閾値判定のすべてにおいて、閾値範囲内に無いと判定された場合は、片系異常度は、第1〜第3の異常度増加値の3つの累積値となる。このとき、(片系異常度)=(第1の異常度増加値)+(第2の異常度増加値)+(第3の異常度増加値)で算出される。
なお、管理ブレードは、1シャーシに2台ある冗長構成なので、上記のステップS4では、動作判定の回数を2回行っている。これに対し、接続ブレードは、1シャーシに2台のペアがn個、すなわち、2n台ある冗長構成をとる。
したがって、図10に示した処理を接続ブレードに対して行う場合は、ステップS4では、動作判定の回数を2n回行うことになる。その他の異常度算出処理については、管理ブレードの場合と同じである。
次にシャーシ両系異常度の算出処理について説明する。異常度算出手段14は、シャーシ両系異常度を、(シャーシ両系異常度)=((シャーシ経年異常度)+(ユニット異常度))÷2と定義して算出する。
ここで、シャーシ経年異常度は、シャーシの製造経過年数が閾値を超える場合に設定される値とする。シャーシの製造経過年数は、例えば、現在の日時から、シャーシ製造時に設定された製造日時を減算することで求められる。例えば、シャーシの製造経過年数が閾値を超える場合は100とし、超えない場合は0とする。
また、ユニット異常度は、管理ブレード両系異常度と接続ブレード両系異常度にもとづいて設定される値である。具体的には、1つのシャーシ内に接続ブレードのペアがnある場合、異常度算出手段14は、ユニット異常度を、(ユニット異常度)={(管理ブレード両系異常度)+(接続ブレード両系異常度#1)+(接続ブレード両系異常度#2)+・・・+(接続ブレード両系異常度#n)}÷(1+n)と定義して算出する。
次に優先度決定手段15における優先度決定処理について説明する。優先度決定手段15は、シャーシ両系異常度を低い方から高い方へ昇順にソートして、仮想マシンの移動先シャーシ優先度を決定する。
シャーシ両系異常度が低ければ、電源断や通信断の発生度が低く、仮想マシンの配置先として安全なシャーシといえる。したがって、シャーシ両系異常度が低いほど、移動先シャーシ優先度を高く設定することになる。なお、シャーシ両系異常度が等しいシャーシが複数存在する場合は、優先度決定手段15は、例えば、シャーシ名に付けられている番号などにもとづいて昇順にソートする。
次に移動先指標算出手段17における移動先指標の算出処理について説明する。移動先指標算出手段17は、物理サーバ上に実装されているCPUとメモリに対して、移動先指標を、CPU消費量の順位とメモリ消費量の順位から算出する。
具体的には、移動先指標算出手段17は、移動先指標を、(移動先指標)=(CPU消費量順位)+(メモリ消費量順位)と定義して算出する。
なお、CPU消費量順位の値は、CPU消費量が多いほど小さく、CPU消費量が少ないほど大きくなる。同様に、メモリ消費量順位の値は、メモリ消費量が多いほど小さく、メモリ消費量が少ないほど大きくなる。したがって、移動先指標は、CPU消費量やメモリ消費量が少ないほど値は大きくなる。
次に情報保持DB13−1で保持される各テーブルについて説明する。図11はシャーシ情報テーブルの構成例を示す図である。シャーシ情報テーブルT1は、ID(Identifier)、シャーシ名、ペアID、製造経過年数(シャーシの製造経過年数)、シャーシ両系異常度、移動先シャーシ優先度の項目を有する。
シャーシ名、ペアIDおよび製造経過年数の各項目は、保守者がクライアント端末8bを通じて、シャーシ情報テーブルT1にあらかじめ登録しておくことになる。また、シャーシ両系異常度と移動先シャーシ優先度については、異常度算出手段14と優先度決定手段15で算出・決定された値が登録される。なお、このテーブルのペアIDとは、対になっているシャーシに付されるIDであり、ペアになっているシャーシには、同じIDが付される。
図12は管理ブレード情報テーブルの構成例を示す図である。管理ブレード情報テーブルT2は、ID、シャーシID、管理ブレード名、ペアID、動作状態、電圧、製造経過年数、稼働日数および両系異常度(管理ブレード両系異常度)の項目を有する。
シャーシID、管理ブレード名、ペアID、動作状態、電圧、製造経過年数および稼働日数は、稼働している管理ブレードから情報収集手段12が収集した情報である。両系異常度は、異常度算出手段14で算出された値が登録される。
なお、現用系の管理ブレードは、予備系の管理ブレードの情報(動作状態、電圧、製造経過年数および稼働日数など)も認識している。したがって、情報収集手段12は、稼働している側の現用系の管理ブレードに問い合せをすることで、両系の管理ブレードの情報を収集することができる。また、このテーブルのペアIDとは、対になっている管理ブレードに付されるIDであり、ペアになっている管理ブレードには、同じIDが付される。
図13は接続ブレード情報テーブルの構成例を示す図である。接続ブレード情報テーブルT3は、ID、シャーシID、スロットID、接続ブレード名、ペアID、動作状態、電圧、製造経過年数、稼働日数および両系異常度(接続ブレード両系異常度)の項目を有する。
管理ブレードは、接続ブレードに関するシャーシID、スロットID、接続ブレード名およびペアIDも認識している。よって、これらの項目は、情報収集手段12が管理ブレードから情報収集した際に、これら接続ブレードの情報も収集できる。
また、動作状態、電圧、製造経過年数および稼働日数は、情報収集手段12が、接続ブレードそれぞれにアクセスして収集される情報である。両系異常度は、異常度算出手段14で算出された値が登録される。
さらに、このテーブルのペアIDとは、対になっている接続ブレードに付されるIDであり、ペアになっている接続ブレードには、同じIDが付される。なお、上記の管理ブレード情報テーブルT2と接続ブレード情報テーブルT3とに登録される稼働日数は、管理ブレード、接続ブレードの各動作状態が停止したときはゼロにクリアされる。
図14はシャーシ閾値管理テーブルの構成例を示す図である。シャーシ閾値管理テーブルT4は、シャーシ経年劣化に関する情報が登録され、ID、対象、最小閾値および最大閾値の項目を有する。対象とは、シャーシ閾値判定として何を閾値判定の対象としているかを示すもので、図の例では、製造経過年数をシャーシ閾値判定の対象としている。
図15は管理ブレード閾値管理テーブルの構成例を示す図である。管理ブレード閾値管理テーブルT5は、ID、対象、最小閾値および最大閾値の項目を有する。対象としては、図の例では、電圧、製造経過年数および稼働日数を、管理ブレード閾値判定の対象としている。なお、管理ブレード閾値判定とは、管理ブレードに対して行われる、図10に示したステップS5〜S13の処理のことである。
図16は接続ブレード閾値管理テーブルの構成例を示す図である。接続ブレード閾値管理テーブルT6は、ID、対象、最小閾値および最大閾値の項目を有する。対象としては、図の例では、電圧、製造経過年数および稼働日数を、接続ブレード閾値判定の対象としている。なお、接続ブレード閾値判定とは、接続ブレードに対して行われる、図10に示したステップS5〜S13の処理のことである。
図17は両系異常度閾値管理テーブルの構成例を示す図である。両系異常度閾値管理テーブルT7は、管理ブレード両系異常度、接続ブレード両系異常度およびシャーシ両系異常度に関する閾値情報を登録しており、ID、タイプ、ペアIDおよび最大閾値の項目を有する。
図の場合、タイプが管理ブレードで、その最大閾値は50となっている。これは、管理ブレード両系異常度の第1の閾値が50ということである。また、タイプが接続ブレードで、その最大閾値は50となっている。これは、接続ブレード両系異常度の第2の閾値が50ということである。さらに、タイプがシャーシで、その最大閾値は50となっている。これは、シャーシ両系異常度の第3の閾値が50ということである。なお、第1〜第3の閾値による閾値判定については、図22で後述する。
図18は物理サーバ情報管理テーブルの構成例を示す図である。物理サーバ情報管理テーブルT8は、ID、シャーシID、CPU(MHz)、メモリ(MB)およびIPアドレスの項目を有する。CPUとメモリの項目に示される値は、搭載量を示す値である。また、IPアドレスは、各シャーシのIPアドレスを示す。
図19はVMホスト情報管理テーブルの構成例を示す図である。VMホスト情報管理テーブルT9は、仮想マシンの移動先となる物理サーバに関する現在稼働中の情報が登録され、ID、物理サーバID、CPU消費量(MHz)、CPU消費量順位、メモリ消費量(MB)、メモリ消費量順位、移動先指標およびフラグ(閾値超えフラグ)の各項目を有する。
物理サーバID、CPU消費量(MHz)、メモリ消費量(MB)は、情報収集手段12がVMホストとなる物理サーバにアクセスして収集される情報である。また、CPU消費量順位、メモリ消費量順位および移動先指標は、移動先指標算出手段17で求められた値が登録され、フラグは、フラグ設定手段18で設定された真理値が登録される。
図20はVMゲスト情報管理テーブルの構成例を示す図である。VMゲスト情報管理テーブルT10は、移動対象の仮想マシンに関する情報が登録され、ID、VMホストID、CPU消費量(MHz)およびメモリ消費量(GB)の各項目を有する。VMホストID、CPU消費量(MHz)およびメモリ消費量(GB)は、情報収集手段12が移動対象の仮想マシンが配置されていた物理サーバ(移動元VMホスト)にアクセスして収集される情報である。
次にサーバ管理装置10の動作についてフローチャートを用いて説明する。図21、図22はサーバ管理装置の動作を示すフローチャートである。なお、ステップS21〜S36までの処理は、サーバ管理装置10の1つの全体動作として定期的な周期で実行される。
〔S21〕情報収集手段12は、管理ブレードに関する情報を収集する。情報管理手段13は、収集情報にもとづき、管理ブレード情報テーブルT2の更新を行う。なお、ステップS21の動作は、1台のシャーシ内にある管理ブレードの台数分行われる。
〔S22〕異常度算出手段14は、管理ブレード両系異常度を算出する。例えば、シャーシ50の場合、管理ブレードmb1−1、mb1−2が両方とも異常になる異常度を算出する。
〔S23〕情報収集手段12は、接続ブレードに関する情報を収集する。情報管理手段13は、収集情報にもとづき、接続ブレード情報テーブルT3の更新を行う。なお、ステップS23の動作は、1台のシャーシ内にある接続ブレードの台数分行われる。
〔S24〕異常度算出手段14は、接続ブレード両系異常度を算出する。例えば、シャーシ50の場合、接続ブレードcb1−1、cb1−2が両方とも異常になる異常度を算出する。
〔S25〕情報収集手段12は、管理ブレードが管理している物理サーバ情報を収集し、情報管理手段13は、物理サーバ情報管理テーブルT8の更新を行う。なお、管理ブレードは、当該管理ブレードが含まれるシャーシに搭載される物理サーバ情報を取得して管理している。
〔S26〕異常度算出手段14は、シャーシ両系異常度を算出する。
〔S27〕優先度決定手段15は、シャーシ両系異常度順にソートを行って移動先シャーシ優先度を決定する。
〔S28〕優先度決定手段15は、移動先シャーシ優先度の更新を行う。
〔S29〕フラグ設定手段18は、管理ブレード両系異常度と第1の閾値とを比較する。
〔S30〕フラグ設定手段18は、管理ブレード両系異常度が第1の閾値を超えない場合はステップS31へ行き、管理ブレード両系異常度が第1の閾値を超える場合はステップS35へ行く。
〔S31〕フラグ設定手段18は、接続ブレード両系異常度と第2の閾値とを比較する。
〔S32〕フラグ設定手段18は、接続ブレード両系異常度が第2の閾値を超えない場合はステップS33へ行き、接続ブレード両系異常度が第2の閾値を超える場合はステップS35へ行く。
〔S33〕フラグ設定手段18は、シャーシ両系異常度と第3の閾値とを比較する。
〔S34〕フラグ設定手段18は、シャーシ両系異常度が第3の閾値を超えない場合はステップS36へ行き、シャーシ両系異常度が第3の閾値を超える場合はステップS35へ行く。
〔S35〕フラグ設定手段35は、第1〜第3の閾値の内、1つでも閾値を超えるものがあれば、閾値を超えるシャーシに搭載の物理サーバにフラグをセットする。なお、ステップS29〜S35の動作は、シャーシの台数分行われる。
〔S36〕移動元物理サーバ決定手段19aは、仮想マシンの移動元の物理サーバである移動元物理サーバを決定する。
このように、管理ブレード両系異常度が第1の閾値を超えるという条件、接続ブレード両系異常度が第2の閾値を超えるという条件、およびシャーシ両系異常度が第3の閾値を超えるという条件が、シャーシごとに判断される。そして、いずれか1つの条件が満たされたシャーシに搭載された物理サーバにフラグがセットされる。このようなフラグ設定処理を行うことにより、両系異常度が高まっているシャーシに搭載されている物理サーバを効率よく的確に決定することができる。
次にステップS36における移動元物理サーバの決定処理の動作についてフローチャートを用いて説明する。図23は移動元物理サーバの決定処理の動作を示すフローチャートである。なお、ステップS41〜S48までの処理は、1台のシャーシに搭載されている物理サーバの台数分行われる。
〔S41〕移動元物理サーバ決定手段19aは、フラグの状態を確認する。
〔S42〕移動元物理サーバ決定手段19aは、ある物理サーバに対して、ステップS35で上述した閾値超えを示すフラグがセットされているか否かを判断する。フラグがセットされていない場合は(フラグ真理値=false)、ステップS43へ行き、フラグがセットされている場合は(フラグ真理値=true)、ステップS47へ行く。
〔S43〕移動元物理サーバ決定手段19aは、当該物理サーバのCPU消費量を確認する。
〔S44〕移動元物理サーバ決定手段19aは、あらかじめ定めた期間内におけるCPU消費量が、所定値(負荷閾値)を超えないと認識した場合は、ステップS45へ行く。または、移動元物理サーバ決定手段19aは、あらかじめ定めた期間内におけるCPU消費量が、所定値を超えると認識した場合は、ステップS47へ行く。
〔S45〕移動元物理サーバ決定手段19aは、当該物理サーバのメモリ消費量を確認する。
〔S46〕移動元物理サーバ決定手段19aは、あらかじめ定めた期間内におけるメモリ消費量が、所定値(負荷閾値)を超えないと認識した場合は、移動元物理サーバの決定処理を終了する。または、移動元物理サーバ決定手段19aは、あらかじめ定めた期間内におけるメモリ消費量が、所定値を超えると認識した場合は、ステップS47へ行く。
〔S47〕移動元物理サーバ決定手段19aは、現在処理対象の物理サーバを移動元物理サーバと決定する。
〔S48〕移動先物理サーバ決定手段19bは、移動先物理サーバの決定処理を行う。なお、ステップS48の動作は、1台の物理サーバ内にある仮想マシンの数分行われる。
〔S49〕フラグ設定手段18は、当該物理サーバにセットされているフラグをクリアする。このような処理を行うことで、移動対象の仮想マシンが配置されている物理サーバを効率よく選定することが可能になる。
次にステップS48における移動先物理サーバの決定処理の動作についてフローチャートを用いて説明する。図24は移動先物理サーバの決定処理の動作を示すフローチャートである。なお、ステップS51〜S58までの処理は、移動先シャーシ優先度の高い順にシャーシの台数分行われる。
〔S51〕移動先物理サーバ決定手段19bは、シャーシに搭載される物理サーバ集合を認識する。
〔S52〕移動先物理サーバ決定手段19bは、移動先物理サーバへ仮想マシンを配置した際のCPU消費量を算出する。具体的には、移動先物理サーバ決定手段19bは、移動先物理サーバ(移動先VMホスト)のCPU消費量と、移動対象の仮想マシン(移動対象VMゲスト)のCPU消費量とを加算して算出する。
〔S53〕移動先物理サーバ決定手段19bは、ステップS52で算出したCPU消費量が、所定値(負荷閾値)を超えないと認識した場合は、ステップS54へ行き、所定値を超えると認識した場合は、当該物理サーバは移動先物理サーバとはなりえないとみなして処理は終了する。
〔S54〕移動先物理サーバ決定手段19bは、移動先物理サーバへ仮想マシンを配置した際のメモリ消費量を算出する。具体的には、移動先物理サーバ決定手段19bは、移動先物理サーバ(移動先VMホスト)のメモリ消費量と、移動対象の仮想マシン(移動対象VMゲスト)のメモリ消費量とを加算して算出する。
〔S55〕移動先物理サーバ決定手段19bは、ステップS54で算出したメモリ消費量が、所定値(負荷閾値)を超えないと認識した場合は、ステップS56へ行き、所定値を超えると認識した場合は、当該物理サーバは移動先物理サーバとはなりえないとみなして処理は終了する。
〔S56〕移動先物理サーバ決定手段19bは、現在処理対象の物理サーバを移動先物理サーバと決定する。
〔S57〕情報管理手段13は、VMホスト情報管理テーブルT9を更新する。
〔S58〕仮想マシン移動手段11は、移動元物理サーバ決定手段19aで決定された移動元物理サーバに現在配置されている仮想マシンを、移動先物理サーバ決定手段19bで決定された移動先物理サーバへ移動して、仮想マシンの配置換えを行う。
なお、ステップS52〜S58の処理は、移動先指標の降順に処理が行われる。移動先指標は、指標値が大きいほど移動先物理サーバの負荷が少なく、指標値が小さいほど移動先物理サーバの負荷が大きくなる。したがって、移動先指標の降順とは、最も負荷の少ない移動先物理サーバからループ処理を行うことになる。
上記のような処理を行うことで、仮想マシンの配置先として、複数の設備異常度(管理ブレード両系異常度、接続ブレード両系異常度、シャーシ両系異常度)のいずれもが低いシャーシの中でも、負荷が最も少ない物理サーバを効率よく選定することが可能になる。
次に仮想マシン配置の運用例について説明する。図25は管理ブレードの故障検知による仮想マシンの移動を示す図である。
ブレードサーバシステム5において、シャーシ50内の管理ブレードmb1−1、mb1−2が故障したとする。この場合は、サーバ管理装置10は、管理ブレードmb1−1、mb1−2の両系異常度の閾値超えを認識すると、仮想マシンm1、m2をシャーシ60へ移動する。図の場合は、シャーシ60の物理サーバ61に移動されている。
図26は仮想マシン配置移動の保守者への通知を示す図である。仮想マシンm1、m2が、シャーシ50の物理サーバ51からシャーシ60の物理サーバ61へ移動したことは、サーバ管理装置10からクライアント端末8bへ通知される。
図27は故障した管理ブレードの交換を示す図である。シャーシ50内の両系異常が生じた管理ブレードmb1−1、mb1−2は、保守者によって新規の管理ブレードに交換される。
図28は仮想マシン配置による負荷分散を示す図である。シャーシ60内の物理サーバ61に仮想マシンm3、m4が配置されている場合、物理サーバ61の負荷は、シャーシ50内の物理サーバ52の負荷よりも高く、さらにシャーシ60内の物理サーバ62の負荷よりも高いとする。このような場合、仮想マシンm3は、物理サーバ52へ移動され、仮想マシンm4は、物理サーバ62へ移動されることで負荷分散が図られる。
なお、上記に示した処理機能は、コンピュータによって実現することができる。図29は本実施の形態に用いるコンピュータのハードウェアの一構成例を示す図である。コンピュータ100は、CPU101によって装置全体が制御されている。CPU101には、バス108を介してRAM(Random Access Memory)102と複数の周辺機器が接続されている。
RAM102は、コンピュータ100の主記憶装置として使用される。RAM102には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。
バス108に接続されている周辺機器としては、HDD(Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、および通信インタフェース107がある。
HDD103は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103は、コンピュータ100の二次記憶装置として使用される。HDD103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、二次記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することもできる。
グラフィック処理装置104には、モニタ104aが接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ104aの画面に表示させる。モニタ104aとしては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
入力インタフェース105には、キーボード105aとマウス105bとが接続されている。入力インタフェース105は、キーボード105aやマウス105bから送られてくる信号をCPU101に送信する。なお、マウス105bは、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク106aに記録されたデータの読み取りを行う。光ディスク106aは、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク106aには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(Rewritable)などがある。
通信インタフェース107は、ネットワーク110に接続されている。通信インタフェース107は、ネットワーク110を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
以上のようなハードウェア構成によって、第1・第2の実施の形態の処理機能を実現することができる。また、コンピュータで第1・第2の実施の形態の処理機能を実現する場合、情報処理装置1またはサーバ管理装置10が有する機能の処理内容を記述したプログラムが提供される。
そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD、DVD−RAM、CD−ROM/RWなどがある。光磁気記録媒体には、MO(Magneto Optical disk)などがある。なおプログラムを記録する記録媒体には、一時的な伝搬信号自体は含まれない。
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
また、上記の処理機能の少なくとも一部を、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現することもできる。
以上説明したように、本技術では、物理サーバのCPUやメモリの負荷だけで仮想マシンの配置先を決定するのではなく、仮想マシンの配置先の異常発生度を適切に認識し、異常発生度が高い配置先は回避し、異常発生度が低い配置先に対して優先的に仮想マシンを配置する。これにより、シャーシ全体が動作不可となることを防止でき、システムの可用性および信頼性の向上を図ることが可能になる。
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。
1 情報処理装置
1a 指示手段
1b 算出手段
50、60 シャーシ
51、52、61、62 物理サーバ
m1 仮想マシン

Claims (14)

  1. 複数の物理サーバに、サービスの提供開始またはサービスの提供停止を指示する情報処理装置において、
    1または複数の物理サーバが搭載され、搭載された物理サーバの動作に用いる設備を備えた複数のシャーシにおける該設備の稼働状況を監視し、シャーシの設備の異常により該シャーシに搭載された物理サーバがサービス提供不能となる度合いを示す設備異常度を算出する算出手段と、
    前記複数のシャーシそれぞれの設備異常度に基づいて、物理サーバに対して、サービスの提供開始またはサービスの提供停止を指示する指示手段と、
    を有する情報処理装置。
  2. 前記算出手段は、シャーシの電源断の発生度を、設備異常度として算出することを特徴とする請求項1記載の情報処理装置。
  3. 前記複数のシャーシそれぞれには、物理サーバへの電源供給を管理する、冗長構成された複数の管理ユニットが備えられ、
    前記算出手段は、シャーシ内の複数の管理ユニットのすべてで異常が発生し、該シャーシ内の物理サーバへの電源供給が途絶えることの発生度を、電源断の発生度として算出することを特徴とする請求項2記載の情報処理装置。
  4. 前記算出手段は、
    前記複数の管理ユニットそれぞれの異常度である片系異常度に基づいて、電源断の発生度を求め、
    前記片系異常度を算出する場合は、
    管理ユニットの動作状態を異常と認識した際は、該管理ユニットの片系異常度を所定値に設定し、
    該管理ユニットの動作状態を正常と認識した際は、該管理ユニットの動作電圧、製造経過年数および稼働日数の少なくとも1つを取得し、
    前記動作電圧が電圧閾値の範囲外にある場合は、第1の異常度加算値を算出し、
    前記製造経過年数が製造経過年数閾値の範囲外にある場合は、第2の異常度加算値を算出し、
    前記稼働日数が稼働日数閾値の範囲外にある場合は、第3の異常度加算値を算出し、
    前記第1〜第3の異常度加算値の累積値を、該管理ユニットの片系異常度とする、
    ことを特徴とする請求項3記載の情報処理装置。
  5. 前記算出手段は、シャーシの通信断の発生度を、該シャーシの設備異常度として算出することを特徴とする請求項1乃至4のいずれかに記載の情報処理装置。
  6. 前記複数のシャーシそれぞれには、物理サーバをネットワークに接続する、冗長構成された複数の接続ユニットが備えられ、
    前記算出手段は、シャーシ内の接続ユニットのすべてで異常が発生し、該シャーシ内の物理サーバの通信が途絶えることの発生度を、通信断の発生度として算出することを特徴とする請求項5記載の情報処理装置。
  7. 前記算出手段は、
    前記複数の接続ユニットそれぞれの異常度である片系異常度に基づいて、接続断の発生度を求め、
    前記片系異常度を算出する場合は、
    接続ユニットの動作状態を異常と認識した際は、該接続ユニットの片系異常度を所定値に設定し、
    該接続ユニットの動作状態を正常と認識した際は、該接続ユニットの動作電圧、製造経過年数および稼働日数の少なくとも1つを取得し、
    前記動作電圧が電圧閾値の範囲外にある場合は、第1の異常度加算値を算出し、
    前記製造経過年数が製造経過年数閾値の範囲外にある場合は、第2の異常度加算値を算出し、
    前記稼働日数が稼働日数閾値の範囲外にある場合は、第3の異常度加算値を算出し、
    前記第1〜第3の異常度加算値の累積値を、該接続ユニットの片系異常度とする、
    ことを特徴とする請求項6記載の情報処理装置。
  8. 前記算出手段は、シャーシを製造してからの経過年数を用いて、該シャーシの設備異常度を算出することを特徴とする請求項1乃至7のいずれかに記載の情報処理装置。
  9. 前記指示手段は、設備異常度が所定の閾値を超えたシャーシに搭載された物理サーバに対して、該物理サーバで提供されているサービスの提供停止を指示し、設備異常度が該閾値を超えてない物理サーバに対して、該サービスの提供開始を指示することを特徴とする請求項1乃至8のいずれかに記載の情報処理装置。
  10. 前記算出手段は、シャーシの電源断の発生度を第1の設備異常度とし、シャーシの通信断の発生度を第2の設備異常度とし、シャーシを製造してからの経過年数に応じた値、前記第1の設備異常度、および前記第2の設備異常度を用いて算出した設備異常度を第3の設備異常度とし、
    前記指示手段は、
    前記第1の設備異常度と第1の閾値とを比較して、前記第1の設備異常度が前記第1の閾値を超えるという第1の条件、
    前記第2の設備異常度と第2の閾値とを比較して、前記第2の設備異常度が前記第2の閾値を超えるという第2の条件、
    前記第3の設備異常度と第3の閾値とを比較して、前記第3の設備異常度が前記第3の閾値を超えるという第3の条件、
    のうちの少なくとも1つの条件が満たされたシャーシ内に搭載されている物理サーバに対して、サービスの提供停止を指示することを特徴とする請求項9記載の情報処理装置。
  11. 前記指示手段は、
    設備異常度が所定の閾値を超えたシャーシに搭載された物理サーバ、または負荷閾値を超える負荷で動作している物理サーバに対して、サービスの提供停止を指示し、
    設備異常度が所定の閾値を超えていないシャーシに搭載された物理サーバの中で、負荷が最も少ない物理サーバに対して、サービスの提供開始を指示する、
    ことを特徴とする請求項1乃至10のいずれかに記載の情報処理装置。
  12. 物理サーバは、仮想マシンによってサービスを提供しており、
    前記指示手段は、設備異常度が所定の閾値を超えたシャーシに搭載された物理サーバから、設備異常度が所定の閾値を超えていないシャーシに搭載された物理サーバへの仮想マシンの移動を指示する、
    ことを特徴とする請求項1乃至11のいずれかに記載の情報処理装置。
  13. 複数の物理サーバに、サービスの提供開始またはサービスの提供停止を指示するサーバ管理方法において、
    コンピュータが、
    1または複数の物理サーバが搭載され、搭載された物理サーバの動作に用いる設備を備えた複数のシャーシにおける該設備の稼働状況を監視し、シャーシの設備の異常により該シャーシに搭載された物理サーバがサービス提供不能となる度合いを示す設備異常度を算出し、
    前記複数のシャーシそれぞれの設備異常度に基づいて、物理サーバに対して、サービスの提供開始またはサービスの提供停止を指示する、
    サーバ管理方法。
  14. 複数の物理サーバに、サービスの提供開始またはサービスの提供停止を指示するサーバ管理プログラムにおいて、
    コンピュータに、
    1または複数の物理サーバが搭載され、搭載された物理サーバの動作に用いる設備を備えた複数のシャーシにおける該設備の稼働状況を監視し、シャーシの設備の異常により該シャーシに搭載された物理サーバがサービス提供不能となる度合いを示す設備異常度を算出し、
    前記複数のシャーシそれぞれの設備異常度に基づいて、物理サーバに対して、サービスの提供開始またはサービスの提供停止を指示する、
    処理を実行させるサーバ管理プログラム。
JP2012285314A 2012-12-27 2012-12-27 情報処理装置、サーバ管理方法およびサーバ管理プログラム Expired - Fee Related JP6079226B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012285314A JP6079226B2 (ja) 2012-12-27 2012-12-27 情報処理装置、サーバ管理方法およびサーバ管理プログラム
US14/049,750 US9448904B2 (en) 2012-12-27 2013-10-09 Information processing apparatus and server management method
EP13190662.0A EP2750039A3 (en) 2012-12-27 2013-10-29 Information processing apparatus, server management method, and server management program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012285314A JP6079226B2 (ja) 2012-12-27 2012-12-27 情報処理装置、サーバ管理方法およびサーバ管理プログラム

Publications (2)

Publication Number Publication Date
JP2014127134A true JP2014127134A (ja) 2014-07-07
JP6079226B2 JP6079226B2 (ja) 2017-02-15

Family

ID=49518701

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012285314A Expired - Fee Related JP6079226B2 (ja) 2012-12-27 2012-12-27 情報処理装置、サーバ管理方法およびサーバ管理プログラム

Country Status (3)

Country Link
US (1) US9448904B2 (ja)
EP (1) EP2750039A3 (ja)
JP (1) JP6079226B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017038232A (ja) * 2015-08-10 2017-02-16 日本電信電話株式会社 ネットワーク評価システム、サービス故障率算出方法、及びプログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990397B2 (en) * 2009-07-31 2015-03-24 Ntt Docomo, Inc. Resource allocation protocol for a virtualized infrastructure with reliability guarantees
WO2014073046A1 (ja) * 2012-11-07 2014-05-15 富士通株式会社 情報処理装置、プログラムおよび仮想マシン移動方法
US9389940B2 (en) 2013-02-28 2016-07-12 Silicon Graphics International Corp. System and method for error logging
US9652298B2 (en) * 2014-01-29 2017-05-16 Vmware, Inc. Power-aware scheduling
WO2015167380A1 (en) * 2014-04-30 2015-11-05 Telefonaktiebolaget L M Ericsson (Publ) Allocation of cloud computing resources
US9817722B2 (en) * 2014-08-29 2017-11-14 Vmware, Inc. Storage policy-based automation of protection for disaster recovery
US10339110B2 (en) 2015-08-31 2019-07-02 Vmware, Inc. Policy-based selection and configuration of target site resources for data replication
US9858162B2 (en) * 2015-10-23 2018-01-02 International Business Machines Corporation Creation of a provisioning environment based on probability of events
US11212125B2 (en) * 2016-02-05 2021-12-28 International Business Machines Corporation Asset management with respect to a shared pool of configurable computing resources
JP6443372B2 (ja) * 2016-03-24 2018-12-26 トヨタ自動車株式会社 車両用ソフトウェア割当てシステム
US10237339B2 (en) * 2016-08-19 2019-03-19 Microsoft Technology Licensing, Llc Statistical resource balancing of constrained microservices in cloud PAAS environments
JP7035858B2 (ja) * 2018-07-03 2022-03-15 富士通株式会社 マイグレーション管理プログラム、マイグレーション方法およびマイグレーションシステム
US11237868B2 (en) * 2019-10-08 2022-02-01 Microsoft Technology Licensing, Llc Machine learning-based power capping and virtual machine placement in cloud platforms
US11411969B2 (en) 2019-11-25 2022-08-09 Red Hat, Inc. Live process migration in conjunction with electronic security attacks
US11354207B2 (en) * 2020-03-18 2022-06-07 Red Hat, Inc. Live process migration in response to real-time performance-based metrics

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0836502A (ja) * 1994-07-25 1996-02-06 Fujitsu Ltd 情報処理システム
JP2004030363A (ja) * 2002-06-27 2004-01-29 Hitachi Ltd 論理計算機システム、論理計算機システムの構成制御方法および論理計算機システムの構成制御プログラム
JP2008276320A (ja) * 2007-04-25 2008-11-13 Nec Corp 仮想システム制御方法およびコンピュータシステム
US7669087B1 (en) * 2006-07-31 2010-02-23 Sun Microsystems, Inc. Method and apparatus for managing workload across multiple resources
JP2012118841A (ja) * 2010-12-02 2012-06-21 Hitachi Ltd 仮想マシン管理装置、移行先決定方法および移行先決定プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1977509A (zh) 2004-06-29 2007-06-06 西门子公司 从服务器集中选择一个服务器的方法
JP2008293103A (ja) 2007-05-22 2008-12-04 Hitachi Ltd 分散配置装置及び仮想装置の配置方法
JP4843693B2 (ja) 2009-03-30 2011-12-21 株式会社東芝 記憶装置
JP5471080B2 (ja) 2009-06-30 2014-04-16 日本電気株式会社 情報システム、制御装置、そのデータ処理方法およびプログラム
JP5386745B2 (ja) * 2010-03-25 2014-01-15 株式会社日立製作所 ネットワーク監視サーバ及びネットワーク監視システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0836502A (ja) * 1994-07-25 1996-02-06 Fujitsu Ltd 情報処理システム
JP2004030363A (ja) * 2002-06-27 2004-01-29 Hitachi Ltd 論理計算機システム、論理計算機システムの構成制御方法および論理計算機システムの構成制御プログラム
US7669087B1 (en) * 2006-07-31 2010-02-23 Sun Microsystems, Inc. Method and apparatus for managing workload across multiple resources
JP2008276320A (ja) * 2007-04-25 2008-11-13 Nec Corp 仮想システム制御方法およびコンピュータシステム
JP2012118841A (ja) * 2010-12-02 2012-06-21 Hitachi Ltd 仮想マシン管理装置、移行先決定方法および移行先決定プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6016022521; 今井 秀喜 他: '「新時代を担う計装・情報化テクノロジー〜その可能性を探る DCS経年劣化診断および故障予測」' 計装 第43巻 第1号, 20000101, 37頁〜41頁, 有限会社工業技術社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017038232A (ja) * 2015-08-10 2017-02-16 日本電信電話株式会社 ネットワーク評価システム、サービス故障率算出方法、及びプログラム

Also Published As

Publication number Publication date
US20140189441A1 (en) 2014-07-03
US9448904B2 (en) 2016-09-20
JP6079226B2 (ja) 2017-02-15
EP2750039A2 (en) 2014-07-02
EP2750039A3 (en) 2015-01-14

Similar Documents

Publication Publication Date Title
JP6079226B2 (ja) 情報処理装置、サーバ管理方法およびサーバ管理プログラム
JP5831264B2 (ja) 情報処理システム、情報処理装置およびプログラム
US9348724B2 (en) Method and apparatus for maintaining a workload service level on a converged platform
US9485160B1 (en) System for optimization of input/output from a storage array
JP4462969B2 (ja) フェイルオーバクラスタシステム及びフェイルオーバ方法
US8738961B2 (en) High-availability computer cluster with failover support based on a resource map
US10810096B2 (en) Deferred server recovery in computing systems
US8107458B1 (en) Power-based networking path allocation
US9128899B1 (en) Predictive failover planning
US8098658B1 (en) Power-based networking resource allocation
JP2015103092A (ja) 障害回復システム及び障害回復システムの構築方法
JP2011128967A (ja) 仮想計算機の移動方法、仮想計算機システム及びプログラム
US20120005609A1 (en) Management system and management system control method
EP4029197B1 (en) Utilizing network analytics for service provisioning
WO2015114816A1 (ja) 管理計算機および管理プログラム
KR20150016820A (ko) 가상 노드 배치 관리 시스템 및 방법
CN107864055A (zh) 虚拟化系统的管理方法及平台
JP5632820B2 (ja) 広域分散構成変更システム
KR101596325B1 (ko) 서버/스토리지 관리 시스템
US20240039813A1 (en) Health analytics for easier health monitoring of a network
US11144341B2 (en) Management apparatus and management method
JP5483784B1 (ja) 制御装置、計算資源管理方法及び計算資源管理プログラム
US9143410B1 (en) Techniques for monitoring guest domains configured with alternate I/O domains
US11870705B1 (en) De-scheduler filtering system to minimize service disruptions within a network
US20230105676A1 (en) Effectuate state change in a hierarchy of resources in an sddc

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170102

R150 Certificate of patent or registration of utility model

Ref document number: 6079226

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees