JP4930909B2 - コンピュータ環境最適化システム、コンピュータ環境最適化方法、及びコンピュータ環境最適化プログラム - Google Patents

コンピュータ環境最適化システム、コンピュータ環境最適化方法、及びコンピュータ環境最適化プログラム Download PDF

Info

Publication number
JP4930909B2
JP4930909B2 JP2008037075A JP2008037075A JP4930909B2 JP 4930909 B2 JP4930909 B2 JP 4930909B2 JP 2008037075 A JP2008037075 A JP 2008037075A JP 2008037075 A JP2008037075 A JP 2008037075A JP 4930909 B2 JP4930909 B2 JP 4930909B2
Authority
JP
Japan
Prior art keywords
computer
server
temperature
control target
environment optimization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008037075A
Other languages
English (en)
Other versions
JP2009199122A (ja
Inventor
祐二 鎌田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008037075A priority Critical patent/JP4930909B2/ja
Publication of JP2009199122A publication Critical patent/JP2009199122A/ja
Application granted granted Critical
Publication of JP4930909B2 publication Critical patent/JP4930909B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Power Sources (AREA)

Description

本発明は、複数のコンピュータを備えるコンピュータシステムについての、コンピュータ環境最適化システム、コンピュータ環境最適化方法、及びコンピュータ環境最適化プログラムに関する。
データセンターやマシンルームには、サーバシステムとして、複数のサーバ(コンピュータ)が設置される。複数のサーバの各々が動作するとき、熱が発生する。設置されるサーバの数が増えれば、発生する熱量も増える。発熱により温度が上昇するのを防ぐため、空調装置などによる冷却が行われる。発生する熱量が増えれば、空調装置により消費される電力量も増大してしまう。空調装置により多くの電力が消費されると、各サーバに供給される電力量が不足し、各サーバがダウンしてしまうことがある。また、冷却が追いつかなければ、熱によってサーバシステムが故障してしまうことがある。従って、サーバシステムにおける発熱を管理するための技術が要求されている。
関連する技術として、特許文献1(特表2005−531047号公報)に記載されたコンピュータ・サーバのプールの電力消費を管理する方法が挙げられる。特許文献1に記載された方法は、現在の作業負荷需要を満足するのに必要なコンピュータ・サーバの数を判定することと、現在の作業負荷需要を満足するために電源をオンにされるコンピュータ・サーバの熱的に最適化される構成を判定することと、現在の作業負荷需要を満足するために、熱的に最適化される構成に基づいて、コンピュータ・サーバのプールからの少なくとも一つのコンピュータ・サーバの電源をオンまたはオフにすることとを含む。
特表2005−531047号公報
複数のサーバを備えるサーバシステムでは、複数のサーバの各々における発熱量が異なることがある。発熱量が異なっていれば、サーバシステムが設置された環境内で、温度が不均一となり、局所的に蓄熱された領域(熱だまり)が生じることがある。熱だまりによるサーバダウンを防止するため、個々のサーバの温度を測定しておき、温度が異常に上昇したサーバの電源を切断することが考えられる。しかし、近年のサーバシステムは大規模化されてきており、用いられるサーバの台数も増えてきている。大規模化されたサーバシステムでは、熱だまりの原因が単に一つのサーバにあるとは限らない。従って、単に温度が異常に上昇したサーバに対してのみ、電源をオフにするなどの処理を施したとしても、熱だまりが解消されるとは限らない。また、重要度の高い処理を行っているサーバに対しては、温度が異常に上昇しても、電源をオフにすることができない場合がある。
そこで、本発明の目的は、大規模化されたコンピュータシステムにおいても、熱だまりによる障害の発生を防止することのできる、コンピュータ環境最適化システム、コンピュータ環境最適化方法、及びコンピュータ環境最適化プログラムを提供することにある。
本発明に係るコンピュータ環境最適化システムは、複数のグループに区別される複数のコンピュータの中から、異常温度である異常コンピュータを検出する異常検出手段と、前記複数のグループと前記複数のコンピュータの各々の状態との対応関係を示す構成情報に基づいて、前記異常コンピュータと同一グループに含まれる同一グループコンピュータ群の状態を分析し、分析結果に基づいて前記同一グループコンピュータ群の中から制御対象コンピュータ群を決定するグループ分析手段と、前記制御対象コンピュータ群から選択コンピュータを選択し、前記選択コンピュータに対して温度上昇防止処理として実行する内容を決定し、決定した内容で前記温度上昇防止処理を実行するコンピュータ制御手段と、
を具備する。
本発明に係るコンピュータ環境最適化方法は、複数のグループに区別される複数のコンピュータの中から、異常温度である異常コンピュータを検出するステップと、前記複数のグループと前記複数のコンピュータの各々の状態との対応関係を示す構成情報に基づいて、前記異常コンピュータと同一グループに含まれる同一グループコンピュータ群の状態を分析し、分析結果に基づいて前記同一グループコンピュータ群の中から制御対象コンピュータ群を決定するステップと、前記制御対象コンピュータ群から選択コンピュータを選択し、前記選択コンピュータに対して温度上昇防止処理として実行する内容を決定し、決定した内容で前記温度上昇防止処理を実行するステップとを具備する。
本発明に係るコンピュータ環境最適化プログラムは、上述のコンピュータ環境最適化方法をコンピュータにより実現するためのプログラムである。
本発明によれば、大規模化されたコンピュータシステムにおいても、熱だまりによる障害の発生を防止することのできる、コンピュータ環境最適化システム、コンピュータ環境最適化方法、及びコンピュータ環境最適化プログラムが提供される。
本発明の実施形態について図面を参照して詳細に説明する。
図1は、本実施形態のサーバシステム20を示す概略ブロック図である。このサーバシステム20は、サーバ環境最適化システム30と、記憶装置5と、データセンタ10内に配置された複数のサーバ(2−1、2−2、・・・)とを備えている。複数のサーバ2は、複数のラック1に分けられて配置されている。これらは、互いにアクセス可能に接続されている。記憶装置5は、データセンタ10の外部に設置された補助記憶装置である。サーバ環境最適化システム30は、サーバ環境最適化プログラムのインストールされたコンピュータにより実現される。そのサーバ環境最適化プログラムは、そのコンピュータの主記憶装置に格納されている。サーバ環境最適化システム30は、制御部3と、インターフェース部4とを備えており、こららの間では、主記憶装置内で情報伝達が行われる。すなわち、プログラミング言語でメモリの記憶域を受け渡しすることにより、情報伝達が行われる。複数のサーバ2とサーバ環境最適化システム30とは、TCP/IP通信による情報伝達が可能であるように、接続されている。また、サーバ環境最適化システム30と記憶装置5とは、SQL言語による情報伝達が行われるように、接続されている。
概略的には、このサーバシステム20では、サーバ環境最適化システム30が複数のサーバ2の各々の温度を監視する。温度が異常であるサーバ2が存在する場合、そのサーバ2の配置されたラック1に熱だまりが発生しているものと考えられる。従って、そのラック1に搭載されたサーバ2全てについて、その状態が分析される。その分析の結果に基づいて、温度上昇を防止するための温度上昇防止処理が試みられる。温度上昇防止処理として、本実施形態では、ライブマイグレーション処理、電源の切断、及びプロビジョニング処理のいずれかが行われる。
以下に、このサーバシステム20の各部の構成について、詳細に説明する。
データセンター10内には、複数のラック(1a、1b・・・)が置かれている。なお、図1中には、ラック1aと1bのみが図示されている。既述のように、複数のサーバ2は、複数のラック1の各々に分けられて配置されている。図1に示される例では、ラック1aに、サーバ2−1、サーバ2−2、及びサーバ2−3が配置されており、ラック1bにサーバ2−4が配置されている。複数のサーバ2の各々には、吸気温度を測定するための吸気温度センサ(21−1、21−2、・・・)が設けられている。
記憶装置5は、サーバ環境最適化システム30がその機能を実現する際に必要とするデータを格納している。記憶装置5には、温度情報テーブル51と、構成情報テーブル52と、設定情報テーブル53とが格納されている。記憶装置5は補助記憶装置であり、市販のデータベースエンジンを利用することができる。
温度情報テーブル51は、各サーバ2の吸気温度を格納するテーブルである。温度情報テーブル51は、サーバ2毎に、サーバ2の吸気温度と時間との関係を格納している。各サーバ2の吸気温度センサ21による測定結果が、測定時刻と対応付けられて温度情報テーブル51に格納される。
構成情報テーブル52は、ラック1毎に、各サーバ2の状態を格納するテーブルである。構成情報テーブル52において、複数のサーバ2はラック1単位でグループ分けされている。図2は、構成情報テーブルの内容を示す概念図である。図2に示されるように、構成情報テーブル52は、各サーバ2の状態として、ラック1内におけるサーバ2の配置位置、サーバのサイズ(UNITサイズ)、サーバ環境、電源状態、及び業務重要度を格納している。
電源状態とは、電源がオンであるかオフであるかを示す情報である。
サーバ環境とは、物理サーバに直接OS(オペレーティングシステム)が搭載された状態であるのか、仮想化ソフトウェア上に仮想マシンが搭載された状態であるのかを示す情報である。
また、業務重要度とは、そのサーバで行われる処理内容がどれだけ重要であるかを示す情報である。業務重要度は、「High」、「Middle」、「Low」の3段階で設定されている。業務重要度が「High」に設定されたサーバは、重要な処理を実行しているサーバであり、温度上昇防止処理を実行することのできないサーバである。「Middle」に設定されたサーバは、電源を切断することはできないが、ライブマイグレーション又はプロビジョニング処理であれば実行できるサーバである。「Low」に設定されたサーバは、温度上昇防止処理として、電源の切断、ライブマイグレーション、及びプロビジョニング処理のいずれも実行可能であるサーバである。
サーバ2の配置位置、サーバのサイズ、及び業務重要度は、ユーザによって予め設定された情報である。
サーバ環境及び電源状態は、情報収集用のアプリケーションがインストールされたコンピュータ(図示せず)によって収集され、構成情報テーブル52に格納される。その情報収集用のアプリケーションとしては、例えば、SigmaSystemCenter(登録商標、日本電気株式会社)、ESMPRO(登録商標)などが挙げられる。情報収集用のアプリケーションは、サーバ環境最適化システム30と同じサーバ装置にインストールされていてもよい。
設定情報テーブル53は、ユーザにより設定された内容を示すテーブルである。設定情報テーブル53には、閾値情報、異常検出方法の設定などについての情報が格納されている。その閾値情報は、各サーバ2の吸気温度が異常であるか正常であるかの判断基準となる閾値を示す情報である。異常検出方法の設定は、各サーバ2が異常温度であることをどのようにして検出するかについての条件を示す情報である。本実施形態では、異常検出方法の設定として、第1の手法と第2の手法とのいずれかの手法が設定されているものとする。
続いて、サーバ環境最適化システム30について説明する。サーバ環境最適化システム30は、データセンタ10の外部に配置されている。サーバ環境最適化システム30は、制御部3と、インターフェース4とを備えている。
制御部3は、データセンタ10内で熱だまりによる障害が発生しないように、複数のサーバ2の動作を制御する機能を実現する。制御部3は、異常検出部31と、ラック分析部32と、サーバ制御部33とを備えている。
異常検出部31は、各サーバ2の吸気温度が異常であるか否かを判断するために設けられている。異常検出部31は、温度情報テーブル51より各サーバ2の吸気温度を示す情報を取得し、設定情報テーブル53に設定された閾値情報に基づいて、各サーバ2の吸気温度が正常であるか異常であるかを判断する。異常検出部31は、異常温度であると判断した場合、そのサーバ2を特定する情報(以下、異常サーバ情報)をラック分析部32に通知する。
ラック分析部32は、異常サーバを搭載したラック1の分析を行うために設けられている。既述のように、熱だまりはラック1単位で発生し易いので、異常サーバを搭載したラック1に含まれる全てのサーバ2に対して、温度上昇を防止するための処理を施すことが理想的である。しかし、業務重要度の高い処理を行っているサーバなどに対しては、温度上昇防止処理を施すことができない場合もある。そこで、ラック分析部32は、異常サーバ情報を取得すると、構成情報テーブル52を参照して、異常サーバを搭載したラック1の状態がどのようになっているかを分析する。そして、分析結果に基づいて、そのラック1の中から、温度上昇防止処理を施すことができないサーバを除外し、残ったサーバを制御対象サーバとしてリストアップする。ラック分析部32は、作成した制御対象サーバのリスト(以下、制御対象情報)をサーバ制御部33に通知する。また、制御対象サーバを見つけることが出来なかった場合には、その旨をインターフェース4に通知する。
サーバ制御部33は、制御対象サーバに対して、温度上昇防止処理として実行できる内容を決定し、決定した内容で温度上昇防止処理を実行する。具体的には、制御対象情報の制御対象サーバ中から、一つづつ選択サーバを選択する。選択された選択サーバに対し、温度上昇防止処理としてどのような処理内容が実行できるかを検討し、実行可能な処理内容で温度上昇処理を実行する。温度上昇防止処理の処理内容としては、ライブマイグレーション、電源オフ、及びプロビジョニングが挙げられる。
インターフェース4は、ユーザとのインターフェース機能を実現する。インターフェース4は、設定インターフェース41と、結果表示インターフェース42とを備えている。設定インターフェース41は、グラフィカルユーザインターフェースである。設定インターフェース41は、マウスやキーボードに例示される入力装置を備えている。設定インターフェース41は、その入力装置を介してユーザから入力された各種設定情報を、設定情報テーブル53や構成情報テーブル52に格納する。また、結果表示インターフェース42は、ラック分析部32及びサーバ制御部33から通知された各種処理結果を、ディスプレイなどの表示装置を介してユーザに通知する。
続いて、本実施形態に係るサーバ環境最適化方法について説明する。図3は、サーバ環境最適化方法を概略的に示すフローチャートである。図3に示されるように、このサーバ環境最適化方法は、異常コンピュータを検出するステップ(ステップS10)と、制御対象コンピュータを決定するステップ(ステップS20)と、温度上昇防止処理を実行するステップ(ステップS30)とを備えている。各ステップの詳細について、以下に説明する。
ステップS10;異常サーバの検出
まず、異常検出部31は、温度情報テーブル51を参照して、各サーバ2の吸気温度が異常であるか否かを判断する。ここで、異常検出部31は、設定情報テーブル53にアクセスし、ユーザにより指定された異常検出方法の設定に基づいて、異常であるか否かの判定を行う。本実施形態では、異常検出方法の設定として、閾値を超えた段階で異常と判断する方法(第1の手法)と、閾値を超えると予測された段階で異常と判断する方法(第2の手法)とのいずれかが設定されているものとする。
図4Aは、第1の手法を説明するための説明図である。図4Aは、あるサーバ2に関する測定時間と吸気温度との関係を示したグラフである。この図に示される例では、時刻t2において、吸気温度が閾値Zを超えている。異常検出部31は、吸気温度が閾値Zを超えた時刻t2の段階で、このサーバ2の吸気温度が異常であると判断する。尚、時刻t2において異常であると判断するのではなくて、閾値Zを超えた状態が一定時間続いた段階(例えば、時刻t4)で異常であると判断してもよい。
図4Bは、第2の手法を説明するための説明図である。図4Aと同様に、図4Bは、あるサーバ2に関する測定時間と吸気温度の関係を示している。図4Bに示される例では、時刻t1から時刻t5までの間に、吸気温度が一定の割合で上昇している。このような場合に、異常検出部31は、時刻t5の段階でいずれ吸気温度が閾値Zを超えると予測し、異常であると判断する。
具体的には、吸気温度センサ21が一定の時間間隔で吸気温度の測定を行っているものとすると、下記式1を満たすときに異常であると判断することができる。
(数式1);Z≦{(Y−Yn−1)/(X−Xn−1)}(Xn+1−X)+Y
尚、式1中、Xは現在の測定時刻を示し、Xn−1は前回の測定時刻を示し、Xn+1は次回の測定予定時刻を示す。また、Yは時刻Xにおける吸気温度を示し、Yn−1は時刻Xn−1における吸気温度を示す。
この数式1を満たすときには、次回の測定予定時刻Xn+1において吸気温度がZを超えると予測される。従って、時刻Xの段階で、吸気温度が異常であると判断する。
異常検出部31は、上述の手法により、各サーバ2の吸気温度が異常であるか否かを判断する。異常であるサーバ2を検出した場合には、そのサーバ2を特定する情報(搭載されるラックや配置位置などの情報)を異常サーバ情報として、ラック分析部32に通知する。
ステップS20;制御対象サーバの決定
ラック分析部32は、異常サーバ情報を取得すると、制御対象サーバのリスト(制御対象情報)を作成する。図5Aは、本ステップの動作を詳細に示すフローチャートである。
(ステップS21;ラック情報の作成)
ラック分析部32は、異常サーバ情報を受け取ると、まず、記憶装置5にアクセスして、異常サーバの搭載されたラック1に含まれるサーバについての構成情報を取得する。また、同様に、温度情報テーブル52にアクセスして、異常サーバの搭載されたラック1に含まれる各サーバの吸気温度に関する情報を取得する。そして、取得した構成情報と吸気温度に関する情報とをマージして、新たなテーブルをラック情報(図5B参照)として作成する。
(ステップS22;制御対象サーバの決定)
次に、ラック分析部32は、ラック情報を分析し、その分析結果に基づいて、温度上昇防止処理の実行を行わないサーバを除外サーバとしてリストアップする。具体的には、電源がオフであるサーバ、及び吸気温度が低いサーバ(例えば、空調温度の設定値よりも吸気温度が低いサーバ)を、温度上昇防止処理を実行する必要がないサーバであると分析し、除外サーバとしてリストアップする。また、業務重要度の高い(High)のサーバについても、温度上昇防止処理を行うことができないサーバであると分析し、除外サーバとしてリストアップする。リストアップされたサーバについての情報(除外対象情報)の例が、図5Cに示される。
ラック分析部32は、ラック情報中から、除外サーバに関する情報を削除して、制御対象情報を作成する。制御対象情報に含まれるサーバは、制御対象サーバに決定される。
(ステップS23;制御対象サーバの有無を確認)
次に、ラック分析部32は、制御対象サーバの有無を確認する。確認の結果、制御対象サーバが残っていない場合、すなわち、ラック情報中から全てのサーバが除外サーバとして除外されてしまった場合、その旨を結果表示インターフェース42を介してユーザに通知し、処理を終了する。一方、制御対象サーバが残っている場合には、次のステップS24の処理を行う。
(ステップS24;制御対象サーバのソート)
次に、ラック分析部32は、制御対象情報中に含まれる各サーバに優先順位を付し、優先順位に従って制御対象情報をソートする。ここでの優先順位は、温度上昇防止処理を試みる順番を示している。具体的には、仮想化環境で動作しているサーバに最も高い優先順位を付し、続いて、業務重要度の低い(Low)のサーバ、吸気温度が高い(予め定められた閾値よりも高い)サーバの順に優先順位を付す。図5Dには、ソートされた後の制御対象情報の例が示されている。ラック分析部32は、ソートした制御対象情報を、サーバ制御部33に通知する。
ここで、仮想化環境で動作しているサーバに高い優先順位を付す理由は、ライブマイグレーションを実行することができる可能性があるからである。ライブマイグレーションを用いれば、実行中の処理を実質的に停止することなく、制御対象サーバの負荷を軽減することができる。したがって、複数のサーバ2が実行している処理を停止させない観点から、ライブマイグレーションを実行できるのであれば、優先的にライブマイグレーションを実行すことが好ましい。
また、熱は下方よりも上方に溜まり易い。従って、優先順位を付す段階で複数のサーバの優先順位が同じになった場合には、より上方に配置されたサーバに対して、より上位の優先順位を付す。
ステップS30;温度上昇防止処理の実行
サーバ制御部33は、ソートされた制御対象情報を取得すると、制御対象情報から優先順位の高い順に選択サーバを選択する。そして、選択サーバに対して温度上昇防止処理として実行する処理内容を決定し、決定した内容で温度上昇防止処理を実行する。既述の通り、その温度上昇防止処理としては、ライブマイグレーション、電源の切断、及びプロビジョニングが挙げられる。一つの選択サーバに対する処理が終了すると、制御対象情報の中から別のサーバを選択サーバとして選び、同様の処理を繰り返す。全ての制御対象サーバについて実行可能な温度上昇防止処理が無い場合には、その旨を結果表示インターフェース42を介してユーザに通知し、処理を終了する。
図6A及び6Bは、一つの選択サーバに対する処理を示すフローチャートである。サーバ制御部33は、概略的には、一つの選択サーバに対して、ライブマイグレーションの実行を試み(ステップS31)、ライブマイグレーションが実行できない場合には電源の切断を試み(ステップS32)、電源を切断できない場合にはプロビジョニングを試みる(ステップS33)。尚、ライブマイグレーションを最初に試みる理由は、無停止で高速に処理を移動させることができて温度上昇防止処理として最も好ましいからである。全てのステップにおいて処理を実行できない場合には、次の優先順位の制御対象サーバを選択サーバとして選択し、S31〜33の処理を繰り返す。各ステップの詳細を以下に説明する。
ステップS31;ライブマイグレーション
まず、サーバ制御部33は、選択サーバに対してライブマイグレーションを試みる。ライブマイグレーションは、サーバが仮想化環境で動作している場合に、その仮想化環境を別のサーバに実質的にノンストップでコピーする技術である。ライブマイグレーションを用いれば、選択サーバで行われる処理が少なくなり、選択サーバが発生する熱量が低減する。また、選択サーバの温度が上昇することも防止される。具体的には、以下のステップS31−1〜S31−6の処理が実行される。
(ステップS31−1)
サーバ制御部33は、選択サーバが、仮想化環境で動作しているか否かを確認する。確認の結果、仮想化環境で動作する場合には、次のステップS31−2の処理を実行する。一方、仮想化環境で動作しない場合には、ステップS32の処理を実行する。
(ステップS31−2)
選択サーバが仮想化環境で動作している場合、サーバ制御部33は、ライブマイグレーションの移行先となるサーバをリストアップする。具体的には、構成情報テーブル52にアクセスして、データセンタ10内に配置された複数のサーバ2の中から仮想化環境で動作しているサーバ2の全てをリストアップする。
(ステップS31−3、31−4)
続いて、S31−2でリストアップしたサーバ2の中から一つのサーバ2を移行先候補サーバとして選択し、移行先候補サーバがライブマイグレーションを実行可能な構成であるかどうかを確認する(S31−4)。具体的には、選択サーバと移行先候補サーバとが、同じSAN(Storage Area Network)、NAS(Network Attached Storage)と接続されているか、又は同一のネットワーク環境であるか、等の条件を満たすか否かを確認する。また、選択サーバと移行先候補サーバとの双方にライブマイグレーション用のプログラム(例示;VMware社のVMotion、Citrix社のXenMotion)がインストールされているか否か等についても確認する。確認の結果、移動先候補サーバがライブマイグレーションを実行可能な構成である場合には、次のステップS31−5の処理に移る。一方、実行できない構成であった場合には、S31−2でリストアップしたサーバ2の中から別のサーバ2を移行先候補サーバに選択し、再度、ライブマイグレーションを実行可能な構成であるか否かを確認する。尚、S31−2でリストアップしたサーバ2の全てが、ライブマイグレーションを実行できない構成であった場合には、次のステップS32の処理に移る(ステップS31−3)。
(ステップS31−5)
S31−4の処理において、移行先候補サーバがライブマイグレーションを実行可能な構成であった場合には、その移行先候補サーバの吸気温度を判断する。吸気温度が十分に低い場合には、その移行先候補サーバを移行先サーバに決定し、次のステップS31−6の処理を行う。一方、吸気温度が高い場合には、S31−3の処理に戻る。尚、吸気温度が高いか低いかは、例えば、予めユーザにより設定情報テーブル53に設定された温度の閾値などに基づいて、判断される。
(ステップS31−6)
S31−5の処理で移行先サーバが決定された場合には、ライブマイグレーションにより、選択サーバの仮想化環境を、移行先サーバにノンストップで移動させる。選択サーバで実行されていた処理は、熱だまりから退避されることになる。また、選択サーバに対する処理の負担が軽減され、選択サーバによる発熱が防止される。これにより、熱だまりが解消される。また、ライブマイグレーションを用いることにより、選択サーバで行われていた処理を実質的に停止させることなく、移行先サーバに移動させることができる。
ステップS32;電源の切断
ステップS31の処理において、選択サーバが仮想化環境で動作していない場合、もしくは移行先サーバが決定できなかった場合、サーバ制御部33は、業務重要度に基づいて、選択サーバの電源をOFFにするかどうかを判定する(ステップS32−1)。具体的には、選択サーバの業務重要度が「Low」である場合に、電源をOFFにすると判定する。データセンタ10内の複数のサーバ2が、互いに並列的に接続されて負荷分散されて動作しているWebサーバである場合、1台の電源をOFFしてもサービスレベルが損なわれない場合がある。このようなサーバについては、電源をOFFにしてもかまわないので、業務重要度を「Low」に設定しておけばよい。判定の結果、可能であれば、選択サーバの電源を切断し、運用を止める(ステップS32−2)。電源の切断は、例えば、SigmaSystemCenter(登録商標、日本電気株式会社)などの電源切断用アプリケーションを備えたコンピュータにより、実行可能である。選択サーバの電源をOFFにすることができない場合には、ステップS33の処理に移る。電源をOFFにすることで、選択サーバが発熱することもなくなる。また、選択サーバの内部が高温状態となることもなく、障害が発生することもない。
ステップS33;プロビジョニング
ステップS32において、選択サーバの電源をOFFにすることができない場合、プロビジョニングを試みる。プロビジョニングとは、電源の切断されている移行先サーバに、選択サーバのオペレーティングシステム(以下、OS)を移行する技術である。具体的には、一旦、選択サーバのOSをシャットダウンして、選択サーバのバックアップを採取し、移行先サーバへリストアする。具体的には、以下のように動作して、プロビジョニングを試みる。
(ステップS33−1)
まず、サーバ制御部33は、選択サーバが、プロビジョニング可能なサーバであるか否かを確認する。
(ステップS33−2)
選択サーバがプロビジョニング可能なサーバである場合には、移行先の候補となるサーバをリストアップする。具体的には、構成情報テーブル52に基づいて、データセンタ10内に配置された複数のサーバ2の中からの電源がオフ状態であるサーバを、リストアップする。電源がオフ状態であるサーバが見つからなかった場合には、この選択サーバに対する処理を終了し、制御対象情報中から次の優先順位のサーバを選択サーバとして選び、ステップS31からの処理を繰り返す。
(ステップS33−3、S33−4)
ステップS33−2でリストアップされたサーバ群の中から一つのサーバを移行先候補サーバとして選択し、移行先候補サーバが選択サーバと同一のハードウェア構成であるか否かを判定する。同一のハードウェア構成である場合には、次のステップS33−5の処理に移る。ハードウェア構成が同一でない場合には、別のサーバを移行先候補サーバとして選び、再び同一のハードウェア構成であるか否かの判定を繰り返す。S33−2でリストアップされた全てのサーバについて、同一のハードウェア構成ではないと判定された場合には、この選択サーバに対する処理を終了し、次の優先順位のサーバを選択サーバとして選んで、ステップS31からの処理を繰り返す。
(ステップS33−5)
続いて、サーバ制御部33は、移行先候補サーバの吸気温度に基づいて、プロビジョニングを行うか否かを決定する。ここで、移行先候補サーバは電源がオフ状態であるサーバであるので、吸気温度は測定されない。そこで、サーバ制御部33は、移行先候補サーバに近接して配置された別のサーバの吸気温度に基づいて、移行先候補サーバの吸気温度を予測する。
図7は、移行先候補サーバの吸気温度を予測する方法を説明するための概念図である。図7に示されるように、ラック1の上から5段目に移行先候補サーバが配置されているものとする。また、4段目に稼動しているサーバが配置されており、6段目にも稼動しているサーバが配置されているものとする。このとき、例えば、4段目のサーバと6段目のサーバの吸気温度を線形補間することにより、5段目の移行先候補サーバの吸気温度を予測することができる。
図8A及び8Bを参照して、より具体的に移行先候補サーバの吸気温度の予測方法について説明する。サーバ制御部33は、構成情報テーブル52にアクセスして、移行先候補サーバと同一ラック内に配置されたサーバ全てについて、サーバ配置、UNITサイズ、電源状態、吸気温度、及び業務重要度を示したリスト(図8B参照)を取得する(S33−5−1)。次に、下記式2により、サーバ配置がXであるサーバの吸気温度「Y」と、サーバ配置がXであるサーバの吸気温度「X」とに基づいて、サーバ配置が「X」である移行先候補サーバの吸気温度Yを予測する(S33−5−2)。
(数式2);Y={(Y−Y)/(X−X)}・X+(X−X)/(X−X
例えば、図8Bに示されるリストにおいて、サーバ配置が「4」段目と「6」段目のサーバの吸気温度に基づいて、サーバ配置が「5」段目である移行先候補サーバの吸気温度を予測する場合、上式2において、X=5、X=4、X=6、Y=30、Y=25、がそれぞれ代入され、Y=27.5と計算が行われる。従って、移行先候補サーバの吸気温度が27.5であると予測される。
(ステップS33−6)
次に、サーバ制御部33は、予測した移行先候補サーバの吸気温度が高いか低いかを、予め設定された閾値などに基づいて判定する。予測した吸気温度が低い場合には、この移行先候補サーバを移行先サーバとして決定し、次のステップS33−7の処理を実行する。一方、予測した吸気温度が高い場合には、この選択サーバに対する処理を終了し、次の優先順位のサーバを選択サーバとして選んで、ステップS31からの処理を繰り返す。
(ステップS33−7)
S33−6において、予測した吸気温度が低い場合、サーバ制御部33は、プロビジョニングにより、選択サーバのOSを移行先サーバに移動させる。プロビジョニングは、プロビジョニング用のアプリケーション(例示;SigmaSystemCenter;日本電気株式会社の登録商標)を備えるコンピュータにより、実現される。プロビジョニングが終了すると、この選択サーバに対する処理を終了し、次の優先順位の選択サーバに対して、ステップS31からの処理を繰り返す。
このように、プロビジョニングを行うことにより、選択サーバ上で行われた処理が別のサーバ(移行先サーバ)に退避される。従って、熱だまりによって処理に障害が発生することが防止される。また、選択サーバに加わる負荷も減るので、選択サーバの発熱量が減る。その結果、選択サーバの温度上昇も防止され、熱だまりが解消されやすくなる。
以上説明した動作により、制御対象情報中に含まれるサーバに対して温度上昇防止処理が実行され、熱だまりによる障害発生が回避される。尚、上述した動作の結果により、各サーバ2の状態が変更された場合には、構成情報テーブル52がアップデートされる。
本実施形態によれば、温度上昇防止処理を実行する候補として、吸気温度に異常の認められた異常サーバだけではなく、異常サーバと同一ラックに配置された他のサーバも選ばれる。本実施形態のように、データセンタ中に複数のラックが配置されている場合、熱だまりはラック単位で発生し易い。異常サーバと同一ラック内に配置されたサーバに対して温度上昇防止処理を行うことにより、そのラック内に配置されたサーバによる発熱を抑制し、熱だまりを解消させることができる。その結果、熱だまりの付近に配置されたサーバのデバイス(CPUやディスク装置)が高温になることを防ぐことができる。
また、異常サーバに対して温度上昇防止処理を実行できない場合でも、異常サーバと同一ラック内に配置された他のサーバに対して温度上昇防止処理を実行できる可能性があり、熱だまりを抑制することができる。
また、本実施形態では、制御対象サーバの状態(吸気温度、環境情報)に基づいて、温度上昇防止処理を実行する順序に優先順位が付される。従って、温度上昇防止処理の実行対象としてふさわしいサーバから順に、温度上昇防止処理が試みられる。
また、ライブマイグレーション又はプロビジョニングを行うにあたり、移行先候補サーバの吸気温度に基づいて移行先サーバが決定される。従って、ライブマイグレーション又はプロビジョニングを行う際に、吸気温度の高いサーバが移行先サーバに決定されることがない。制御対象サーバで行われていた処理の実行場所を、確実に熱だまりの外に移動させることができる。
また、温度上昇防止処理を試みる際に、ライブマイグレーション、電源の切断、及びサーバプロビジョニングの順に処理が試みられる。ライブマイグレーションが最優先で実行されるので、制御対象サーバで行われていた処理が温度上昇防止処理により妨げられる可能性を低くすることができる。
サーバシステムの概略構成図である。 構成情報テーブルの概念図である。 コンピュータ環境最適化方法の全体の流れを概略的に示すフローチャートである。 異常サーバの検出方法を説明するための概念図である。 異常サーバの検出方法を説明するための概念図である。 制御対象情報を作成する方法を説明するためのフローチャートである。 ラック情報を示す概念図である。 除外対象情報を示す概念図である。 制御対象情報を示す概念図である。 温度上昇防止処理の流れを示すフローチャートである。 温度上昇防止処理の流れを示すフローチャートである。 移行先候補サーバの温度を予測する方法を説明するための概念図である。 移行先候補サーバの温度を予測する方法を説明するためのフローチャートである。 移行先候補サーバの温度を予測する方法を説明するための概念図である。
符号の説明
1 ラック
2 サーバ
3 制御部
4 インターフェース
5 記憶装置
6 情報収集部
10 データセンタ
20 サーバシステム
30 コンピュータ環境最適化システム
31 異常検出部
32 ラック分析部
33 サーバ制御部
41 設定インターフェース
42 結果表示インターフェース
51 温度情報テーブル
52 構成情報テーブル
53 設定情報テーブル
100 データセンタ

Claims (14)

  1. 複数のラック配置される複数のコンピュータの中から、異常温度である異常コンピュータを検出する異常検出手段と、
    前記異常コンピュータと同一のラックに配置された同一ラックコンピュータ群について、各コンピュータの状態を分析し、分析結果に基づいて前記同一ラックコンピュータ群の中から、温度上昇防止処理の実行対象となるコンピュータ群を、制御対象コンピュータ群として決定する、グループ分析手段と、
    前記制御対象コンピュータ群に含まれる各制御対象コンピュータに対して、前記温度上昇防止処理を実行するコンピュータ制御手段と、
    を具備し、
    前記コンピュータ制御手段は、前記温度上昇防止処理として、ライブマイグレーションの実行を試み、ライブマイグレーションが実行できない場合には、電源の切断を試み、電源を切断できない場合にはプロビジョニングを試みる
    コンピュータ環境最適化システム。
  2. 請求項1に記載されたコンピュータ環境最適化システムであって、
    前記グループ分析手段は、前記各コンピュータの状態として、電源のオン/オフ、前記各コンピュータがどれだけ重要な処理を行っているかを示す業務重要度、及び前記各コンピュータの温度、のうちの少なくとも一つを分析し、分析結果に基づいて前記制御対象コンピュータ群を決定する
    コンピュータ環境最適化システム。
  3. 請求項1又は2に記載されたコンピュータ環境最適化システムであって、
    前記グループ分析手段は、分析結果に基づいて、前記制御対象コンピュータ群に含まれる前記各制御対象コンピュータに優先順位を付し、
    前記コンピュータ制御手段は、前記優先順位に従う順番で、前記各制御対象コンピュータに対して、前記温度上昇防止処理を実行する
    コンピュータ環境最適化システム。
  4. 請求項3に記載されたコンピュータ環境最適化システムであって、
    前記グループ分析手段は、前記各制御対象コンピュータについて仮想化環境で動作しているか否かを示す環境情報に基づいて、前記優先順位をつける
    コンピュータ環境最適化システム。
  5. 請求項1乃至4のいずれかに記載されたコンピュータ環境最適化システムであって、
    前記各コンピュータには、吸気温度を測定する吸気温度センサが設けられており、
    前記異常検出手段は、前記吸気温度センサによる測定結果に基づいて、異常温度であるか否かを検出する
    コンピュータ環境最適化システム。
  6. 請求項1乃至5のいずれかに記載されたコンピュータ環境最適化システムであって、
    前記異常検出手段は、予め設定された温度の閾値に基づいて、異常温度であるか否かを検出する
    コンピュータ環境最適化システム。
  7. 請求項6に記載されたコンピュータ環境最適化システムであって、
    前記異常検出手段は、前記各コンピュータにおける温度と時間との関係に基づいて、前記各コンピュータの温度が前記閾値を超えるか否かを予測し、異常温度であるか否かを検出する
    コンピュータ環境最適化システム。
  8. 複数のラック配置される複数のコンピュータの中から、異常温度である異常コンピュータを検出するステップと、
    前記異常コンピュータと同一のラックに配置された同一ラックコンピュータ群について、各コンピュータの状態を分析し、分析結果に基づいて前記同一ラックコンピュータ群の中から、温度上昇防止処理を実行する対象となるコンピュータ群を、制御対象コンピュータ群として決定するステップと、
    前記制御対象コンピュータ群に含まれる各制御対象コンピュータに対して、前記温度上昇防止処理を実行するステップと、
    を具備し、
    前記温度上昇防止処理を実行するステップは、
    前記温度上昇防止処理として、ライブマイグレーションの実行を試みるステップと、
    ライブマイグレーションが実行できない場合に、電源の切断を試みるステップと、
    電源を切断できない場合に、プロビジョニングを試みるステップとを含んでいる
    コンピュータ環境最適化方法。
  9. 請求項に記載されたコンピュータ環境最適化方法であって、
    前記制御対象コンピュータ群を決定するステップは、前記各コンピュータの状態として、電源のオン/オフ、前記各コンピュータの業務重要度、及び前記各コンピュータの温度のうちの少なくとも一つを分析し、分析結果に基づいて前記制御対象コンピュータ群を決定するステップを含んでいる
    コンピュータ環境最適化方法。
  10. 請求項8又は9に記載されたコンピュータ環境最適化方法であって、
    前記制御対象コンピュータ群を決定するステップは、
    前記分析結果に基づいて、前記制御対象コンピュータ群に含まれる前記各制御対象コンピュータに優先順位をつけるステップを含み、
    前記温度上昇防止処理を実行するステップは、前記優先順位の順番で、前記制御対象コンピュータに対して、前記温度上昇防止処理を実行するステップを含んでいる
    コンピュータ環境最適化方法。
  11. 請求項10に記載されたコンピュータ環境最適化方法であって、
    前記優先順位をつけるステップは、前記各制御対象コンピュータについて、仮想化環境で動作しているか否かを示す環境情報に基づいて前記優先順位をつけるステップを含んでいる
    コンピュータ環境最適化方法。
  12. 請求項8乃至11のいずれかに記載されたコンピュータ環境最適化方法であって、
    前記異常コンピュータを検出するステップは、予め設定された温度の閾値に基づいて、異常温度であるか否かを検出するステップを含んでいる
    コンピュータ環境最適化方法。
  13. 請求項12に記載されたコンピュータ環境最適化方法であって、
    前記異常コンピュータを検出するステップは、
    前記各コンピュータにおける温度と時間との関係に基づいて、前記各コンピュータの温度が前記閾値を超えるか否かを予測するステップと、
    前記予測するステップにおける予測結果に基づいて、異常温度であるか否かを検出するステップを含んでいる
    コンピュータ環境最適化方法。
  14. 請求項8乃至13のいずれかに記載されたコンピュータ環境最適化方法をコンピュータにより実現するための、コンピュータ環境最適化プログラム。
JP2008037075A 2008-02-19 2008-02-19 コンピュータ環境最適化システム、コンピュータ環境最適化方法、及びコンピュータ環境最適化プログラム Expired - Fee Related JP4930909B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008037075A JP4930909B2 (ja) 2008-02-19 2008-02-19 コンピュータ環境最適化システム、コンピュータ環境最適化方法、及びコンピュータ環境最適化プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008037075A JP4930909B2 (ja) 2008-02-19 2008-02-19 コンピュータ環境最適化システム、コンピュータ環境最適化方法、及びコンピュータ環境最適化プログラム

Publications (2)

Publication Number Publication Date
JP2009199122A JP2009199122A (ja) 2009-09-03
JP4930909B2 true JP4930909B2 (ja) 2012-05-16

Family

ID=41142585

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008037075A Expired - Fee Related JP4930909B2 (ja) 2008-02-19 2008-02-19 コンピュータ環境最適化システム、コンピュータ環境最適化方法、及びコンピュータ環境最適化プログラム

Country Status (1)

Country Link
JP (1) JP4930909B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011059739A (ja) * 2009-09-04 2011-03-24 Fujitsu Ltd 温度予測装置、温度予測方法および温度予測プログラム
US8489745B2 (en) * 2010-02-26 2013-07-16 International Business Machines Corporation Optimizing power consumption by dynamic workload adjustment
JP5790658B2 (ja) 2010-09-09 2015-10-07 日本電気株式会社 表示処理システム、表示処理方法、およびプログラム
WO2013038585A1 (ja) * 2011-09-14 2013-03-21 日本電気株式会社 リソース最適化方法、ipネットワークシステムおよびリソース最適化プログラム
JP5855889B2 (ja) * 2011-09-30 2016-02-09 株式会社日立システムズ クラウド運用管理システム
JP5921461B2 (ja) * 2012-03-08 2016-05-24 株式会社日立製作所 外気冷却および局所冷却式情報処理システムとその負荷割当て方法
JP6650759B2 (ja) * 2016-01-05 2020-02-19 株式会社日立製作所 冷却システム、空調制御装置および空調制御方法
JP6724635B2 (ja) * 2016-07-28 2020-07-15 富士通株式会社 プログラム、管理方法、管理装置および情報処理システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62150412A (ja) * 1985-09-05 1987-07-04 Toshiba Corp 電子装置
JPH0638357A (ja) * 1992-07-09 1994-02-10 Mitsubishi Electric Corp 電源装置
JP2000187975A (ja) * 1998-12-22 2000-07-04 Nec Corp ディスクアレイ装置
JP2005301476A (ja) * 2004-04-08 2005-10-27 Hitachi Ltd 給電制御システム、及び記憶装置
JP3942617B2 (ja) * 2005-02-10 2007-07-11 株式会社日立製作所 分散処理システムの計算機資源管理方法
JP4895266B2 (ja) * 2005-12-28 2012-03-14 富士通株式会社 管理システム、管理プログラムおよび管理方法

Also Published As

Publication number Publication date
JP2009199122A (ja) 2009-09-03

Similar Documents

Publication Publication Date Title
JP4930909B2 (ja) コンピュータ環境最適化システム、コンピュータ環境最適化方法、及びコンピュータ環境最適化プログラム
Ilager et al. ETAS: Energy and thermal‐aware dynamic virtual machine consolidation in cloud data center with proactive hotspot mitigation
EP3847549B1 (en) Minimizing impact of migrating virtual services
US8589932B2 (en) Data processing workload control
Dabbagh et al. An energy-efficient VM prediction and migration framework for overcommitted clouds
Ahmad et al. A survey on virtual machine migration and server consolidation frameworks for cloud data centers
JP5427011B2 (ja) 仮想ハードディスクの管理サーバおよび管理方法、管理プログラム
US9015726B2 (en) Scheduling jobs of a multi-node computer system based on environmental impact
JP6044131B2 (ja) プログラム、管理サーバおよび仮想マシン移動制御方法
JP4895266B2 (ja) 管理システム、管理プログラムおよび管理方法
JP5412926B2 (ja) 仮想マシン管理システム,仮想マシン配置設定方法及びそのプログラム
JP5151203B2 (ja) ジョブスケジューリング装置及びジョブスケジューリング方法
US9176483B2 (en) Unified and flexible control of multiple data center cooling mechanisms
Sayadnavard et al. A reliable energy-aware approach for dynamic virtual machine consolidation in cloud data centers
US20080295095A1 (en) Method of monitoring performance of virtual computer and apparatus using the method
KR20160070636A (ko) 분산 클라우드 환경에서의 마이그레이션 제어 장치 및 이를 이용한 마이그레이션 제어 방법
WO2013077972A1 (en) Thermally driven workload scheduling in a heterogeneous multi - processor system on a chip
JP2005078507A (ja) 仮想化制御装置、アクセス経路制御方法及び計算機システム
JP2011128967A (ja) 仮想計算機の移動方法、仮想計算機システム及びプログラム
US9049101B2 (en) Cluster monitor, method for monitoring a cluster, and computer-readable recording medium
JP2008217575A (ja) ストレージ装置及びその構成最適化方法
JP2020160775A (ja) コンテナ起動ホスト選択装置、コンテナ起動ホスト選択システム、コンテナ起動ホスト選択方法及びプログラム
Pabitha et al. Proactive Fault Prediction and Tolerance in Cloud Computing
JP2010072733A (ja) サーバ管理装置,サーバ管理方法及びプログラム
JP5321195B2 (ja) 監視制御システム、監視制御方法、監視制御サーバ及び監視制御プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110330

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120123

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees