JP5422706B2

JP5422706B2 - 管理システム

Info

Publication number: JP5422706B2
Application number: JP2012152207A
Authority: JP
Inventors: ゆかり八田; 仁上野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2012-07-06
Filing date: 2012-07-06
Publication date: 2014-02-19
Anticipated expiration: 2027-05-30
Also published as: JP2012185865A

Description

本発明は、仮想計算機システムに係り、特にある物理計算機上の論理区間に障害が発生した場合に、他の物理計算機に当該論理区間の交代を生成して、当該論理区間の処理を移行する仮想計算機システム及び論理区画の移行制御方法に関する。

1台の物理計算機上に複数の論理計算機又は論理区画（以下、ＬＰＡＲ（Logical Partition）という）を構築し、各論理計算機でそれぞれＯＳ（オペレーティングシステム）を動作させ、これにより複数の論理計算機で複数の固有のＯＳを動作させることが可能な仮想計算機システムが実用化されている。また、最近では、それぞれの論理計算機に論理的なＦＣ（Fibre Channel）拡張ボード又はＦＣポートを持せた仮想計算機システムを、ＲＡＩＤ装置を含むＳＡＮ（ストレージエリアネットワーク）環境で使用する例もある。

ＳＡＮ環境でブートを実現する計算機システムにおいて、ＯＳがインストールされているＲＡＩＤ装置内のロジカルユニットのデータを保護するために、それぞれの計算機からのみアクセスを可能とするセキュリティ機能がＲＡＩＤ装置によって有効となっている。
このセキュリティ機能としては一般的に、それぞれの計算機に搭載されるＦＣポートに割り当てられた固有のＩＤ（World Wide Name）を利用し、ＯＳがインストールされたロジカルユニットと計算機が持つＦＣポートに割り当てられた固有のＩＤ（World Wide Name）を関連付け、当該ＩＤ（World Wide Name）を持つＦＣポートからのアクセスのみを許す方法が用いられている。また、ＯＳを含むソフトウェアには、装置固有のＩＤ(World Wide Name)が記録されている場合もある。

ＳＡＮからのブートを行う計算機システムの冗長化構成では、現用系計算機と待機系計算機で持つＦＣポートに割り当てられた固有のＩＤ（World Wide Name）が異なるため、現用系計算機から待機系計算機に交代する際、ＯＳを含むソフトウェアイメージをそのまま利用することができず、ＳＡＮ管理ソフトウェアや人手によるＲＡＩＤ装置側のセキュリティ機能の設定変更が必要となる。これは、現用系計算機と待機系計算機という物理計算機においてだけではなく、ＬＰＡＲ間においても同様である。

複数の物理計算機上にそれぞれＬＰＡＲを構築することができる仮想計算機システムにおいて、ある物理計算機上のＬＰＡＲから他の物理計算機へＬＰＡＲに構成情報を移動させて動作を引き継がせる技術に関しては、例えば特許文献１及び特許文献２に開示されている。

特開２００５−３２７２７９公報特開平１０−２８３２１０公報

上記特許文献１及び２には、ある物理計算機又はその上のＬＰＡＲに障害が発生した場合における、他の物理計算機又はその上に生成されるＬＰＡＲを予備機として用いるためのＰＬＡＲの移動については言及されていない。
また、ＳＡＮ環境下の仮想計算機システムにおいて、あるＬＰＡＲから他のＬＰＡＲに交代する場合にも論理ポートに割り当てられた固有のＩＤ（World Wide Name）が異なるために、セキュリティ機能の設定変更が必要となるが、上記特許文献にはその点についても言及されていない。

本発明の目的は、物理計算機又はその上のＬＰＡＲに障害が発生した場合に、他の物理計算機に交代用ＬＰＡＲを設定して、ＬＰＡＲの移行を可能とする仮想計算機システムを提供することにある。

本発明は、好ましくは、第１及び第２の物理計算機を含む複数の物理計算機と、該複数の物理計算機にネットワークを介して接続される、該物理計算機及び該論理区間を管理する管理装置とを含み、各物理計算機に論理区画を生成してＯＳを動作させることができる仮想計算機システムにおいて、
該第１の物理計算機は；該第１物理計算機又はそこに形成された第１論理区画に障害が発生したことを検出する障害検出手段と、該第１の物理計算機のバードウェア構成情報及び該第１論理区画に割り当てられた固有の構成情報を管理する第１管理手段と、を有し、
該管理装置は；該障害検出手段からの障害発生の報告を受けて、該第１管理手段から該ハードウェア情報及び該固有の構成情報を受信する手段と、交代先の第２の物理計算機を決定して、該第２の物理計算機へ該ハードウェア情報及び該固有の構成情報を送信する手段と、を有し、
該第２の物理計算機は；該管理装置から送信された該ハードウェア情報及び該固有の構成情報を受信する手段と、該ハードウェア情報及び該固有の構成情報に基づいて、該第２の物理計算機上に第２論理区画を生成することが可能かを判定する手段と、該判定手段によって該第２論理区間の生成が可能と判定された場合、該固有の構成情報に基づいて第２論理区画を生成する手段と、を有する仮想計算機システムとして構成される。

本発明によれば、物理計算機又はその上のＬＰＡＲに障害が発生した場合に、他の物理計算機に交代用ＬＰＡＲを設定して、ＬＰＡＲを移行することが可能となる。また、管理サーバの制御の下に、移行先のＬＰＡＲへ移行元ＬＰＡＲの構成情報等を移すので、移行元の物理計算機に障害が発生した場合にも、ＬＰＡＲの移行が可能である。

一実施例における計算機システムの構成を示す図、障害発生時の処理を示すフローチャート、障害発生時の処理を示すフローチャート、障害発生時の管理サーバの処理を示すフローチャート、障害発生時の管理サーバの処理を示すフローチャート、障害発生時のハイパーバイザーの処理を示すフローチャート、 Hypervisor-Agtにおけるコマンドの処理を示すフローチャート、 Hypervisor-Agtにおけるコマンドの処理を示すフローチャート、 Hypervisor-Agtの送信処理を示すフローチャート、 Hypervisor-Agtの送信処理を示すフローチャート、サーバのハードウェア構成情報１１０１の内容を示す図、ハイパーバイザー構成情報１１１１の内容を示す図、サーバの管理情報１０７の内容を示す図。

以下、本発明の実施形態について図面を参照して説明する。
図１を参照するに、本実施例による計算機システムは、1台のサーバシャーシ１０５に、複数台のサーバモジュール（以下単にサーバという）１１１、１１２を搭載することができるブレードサーバの形態をなしている。サーバシャーシ１０５には、サービスプロセッサ（ＳＶＰ）１０６が搭載される。
サーバ１１１，１１２は、ＮＩＣ（Network Interface Card）１２２を介してネットワークＳＷ（１０３）経由で管理サーバ１０１に接続され、またファイバチャネルスイッチ（ＦＣ−ＳＷ）１３５を介してストレージ装置１３７に接続される。

サーバ１１１及び１１２は、基本的に同様の構成を有し、それぞれＢＭＣ(Base Management Controller)１２０（１３０）、ＦＣ−ＨＢＡ(Fibre Channel Host Bus Adapter)１２１（１３１）、ＮＩＣ１２２（１３２）を持っている。ハイパーバイザー１１７（１２７）は物理的に1台のサーバを論理的に複数のサーバに見せる仮想化機構である。サーバ１１１では１つのハイパーバイザー１１７上にシミュレーションされた２台のＬＰＡＲ（１１３、１１４が構築され動作している。ハイパーバイザー１１７（１２７）内のHypervisor-Agt（１１９，１２９）は、ＬＰＡＲの障害を検知して管理サーバ１０１へその報告を行うためのエイジェントである。

本実施例において、サーバ１１２には、１台のＬＰＡＲ１２３が動作しているが、後にサーバ１１１のＬＰＡＲ１１４の交代ＬＰＡＲ１２４が設定される。
ＦＣ−ＨＢＡ１２１，１３１は、通信を行うためにそのＨＢＡのアドレスとしてＦＣ接続ポート1つに対して１つのＷＷＮを持つ。ＬＰＡＲ１１３及び１１４は論理的なＨＢＡを1ポート（１１５、１１６）ずつ持ち、それぞれvfcWWN1(１１５)、vfcWWN2(１１６)のような、固有のＷＷＮ(World Wide Name)が付与される。論理的なＨＢＡも物理的なＨＢＡと同様のＷＷＮを持つ。なお、サーバ１１２におけるＬＰＡＲ１２３も同様に固有のＷＷＮが付与される。

ストレージ装置１３７は、論理的に規定されたＬＵ（論理ユニット）と呼ばれる多数のDiskユニット１３８〜１４０を持っている。何れのＬＵが何れのサーバに接続されているかを表す接続情報はストレージ装置１３７内のコントローラによって管理されている。例えば、ＬＵ１０（１３８）はvfcWWN1(１１５)のＷＷＮを持つサーバ１１３に接続され、ＬＵ１１(１３９)はvfcWWN2(１１６)のＷＷＮを持つサーバ１１６に接続されている。この接続関係を設定する機能をＬＵＮセキュリティ設定機能と呼ぶ。

ＳＶＰ１０６はサーバシャーシ内の全てのサーバを管理し、またサーバの電源制御および障害処理を担う。サーバを管理するために、サーバのハードウェア構成情報１１０１（図１１参照）、及びハイパーバイザー構成情報１１１１（図１２参照）をＳＶＰ内の不揮発メモリ（図示せず）に記憶して管理する。これらの構成情報１１０１、１１１１はサーバ単位に管理され、図示の例ではサーバ１１１，１１２に対応して、２面の構成情報１０８−１，１０８−２を持つ。また、ハイパーバイザー構成情報１１１１にはサーバ１１１及び１１２のそれぞれのハイパーバイザー１１７，１２７に対応した情報が含まれる。
管理サーバ１０１は、サーバ１１１，１１２及びそれに形成されたＬＰＡＲを管理する。
そのために、サーバの管理情報１０７（図１３参照）をメモリ（図示せず）に記憶して管理する。本実施例ではまた、ＬＰＡＲの移行を管理する機能を有する。

次に、図１１〜図１３を参照して、各管理情報の内容について説明する。
図１１に示すように、サーバのハードウェア構成情報（サーバモジュール・ハードウェア構成情報ということもある）１１０１は、ブート設定情報１１０２、ＨＢＡ-ＢＩＯＳ情報１１０３、addＷＷＮ情報１１０４、物理サーバのＯＳ種類情報１１０５、Hyper Treadingの無効指定１１０６、ＳＶＰが保存するハイパーバイザーのＩＰアドレス１１０７、アーキテクチャ１１０８などの物理サーバ情報を保持する。このハードウェア構成情報１１０１はサーバモジュール（パーティション）ごとに存在する。

図１２に示すように、ハイパーバイザー構成情報１１１１は、パーティションの中のＬＰＡＲ単位で管理される情報であり、ＬＰＡＲ１１３，１１４対応に存在する（１１１１−１、１１１１−２）。各ハイパーバイザー構成情報１１１１は、vfcＷＷＮ情報（１１１２−１）、ＬＰＡＲが稼動中か否かを示すActive/NonActive（１１１３−１）、ＣＰＵの数などを含むＣＰＵ情報（１１１４−１）、メモリ容量（１１１５−１）、ＨＢＡやＮＩＣなどを含むＩ／Ｏ構成（１１１５−１）等の情報を保持する。
上記サーバのハードウェア構成情報１１０１及びハイパーバイザー構成情報１１１１は、ＳＶＰ１０６で設定されて管理されるが、これらの情報は、各サーバ上で動作しているハイパーバイザーでも保持している。

図１３に示すように、管理サーバ１０１で管理されるサーバの管理情報（サーバモジュール管理情報ということもある）１０７は、サーバモジュール番号１２０１、ハードウェアのアーキテクチャ種別１２０２、実装メモリ容量１２０３、稼動中のＬＰＡＲの合計メモリ使用量１２０４、メモリの空き容量１２０５、実装ＣＰＵ性能１２０６、割り当て済みＣＰＵ性能の合計１２０７、空きＣＰＵ性能１２０８、空きＮＩＣ数１２０９、空きＨＢＡ数１２１０、等の情報を保持する。
本実施例によれば、サーバ１１１のＬＰＡＲに障害が発生したときに、障害報告を受けつけた管理サーバ１０１は、サーバ１１２内に交代用のＬＰＡＲ１２４を設定し、そのＬＰＡＲ１２４に障害が発生したＬＰＡＲ固有の構成情報を引き継がせるための制御を行う。

以下、図２及び図３を参照して、サーバ１１１のＬＰＡＲに障害が発生した時の交代ＬＰＡＲの設定及びＬＰＡＲ固有の構成情報の引き継ぎ処理について、詳細に説明する。図示の例は、サーバ１１１のＬＰＡＲ２（１１４）に障害が発生した場合における、管理サーバ１０１、サーバ１１１のハイパーバイザー１１７、サーバモジュール１１２のハイパーバイザー１２７が行う処理動作を表す。

ＬＰＡＲ１１４に障害が発生し、サーバ１１１で動作するハイパーバイザー１１７がその障害を検出すると（Ｓ２０１）、ハイパーバイザー１１７は管理サーバ１０１へ障害通知（Hypervisor-Agtアラート）を行う（Ｓ２０２）。管理サーバ１０１は障害が発生したＬＰＡＲ２を停止するように停止コマンドを送出する（Ｓ２０３）。ハイパーバイザー１１７は、ＬＰＡＲ停止コマンドを受信した後、ＬＰＡＲ２の稼動停止（deactivate処理）を行う（Ｓ２０５）。そしてdeactivate処理が完了すると、管理サーバ１０１に対してHypervisor-Agtアラートを送出して、deactivate完了を伝える（Ｓ２０６）。

Hypervisor-Agtアラートを受けた管理サーバ１０１は、管理情報として障害が発生したＬＰＡＲの停止状態を表示器に表示し（Ｓ２０７）、ＬＰＡＲ２の構成情報読み込みコマンドを送出する（Ｓ２０８）。
そのコマンドを受信したハイパーバイザー１１７は、自ら保持している、サーバモジュール・ハードウェア構成情報及びＬＰＡＲ２のハイパーバイザー構成情報を管理サーバ１０１へ送信する（Ｓ２０９）。

管理サーバ１０１は、データの受信を完了すると、受信完了を表示する（Ｓ２１０）。
その後、交代先のサーバモジュールを決定する（Ｓ３０１）。例えば交代先のサーバモジュール１１２上でＬＰＡＲを生成しようとしているハイパーバイザー１２７に対して、障害が発生したサーバモジュール１１１のサーバモジュール・ハードウェア構成情報及びＬＰＡＲ２のハイパーバイザー構成情報を受信するよう指示する（Ｓ３０２）。

ハイパーバイザー１２７は、障害が発生したＬＰＡＲ２に関する構成情報を受信すると（Ｓ３０３）、その構成情報に基づいて、交代先でＬＰＡＲが生成可能であるか否か判定する（Ｓ３０５）。この判定については後で詳述する。判定の結果、所定の条件を満たしていれば、移行先のサーバ１１２に移行元のＬＰＡＲ２に関する構成情報を引き継いだＬＰＡＲが生成される（Ｓ３０６）。この例では、ＬＰＡＲ１２４が移行先のＬＰＡＲとなる。ＬＰＡＲ１２４の生成が完了すると、ハイパーバイザー１２７はHypervisor-Agtアラートを送出して、ＬＰＡＲの生成完了を通知する（Ｓ３０７）。

管理サーバ１０１は、Hypervisor-Agtアラートを受信すると、ハイパーバイザー１２７に生成されたＬＰＡＲを起動するように、起動コマンドを送出する（Ｓ３０８）。この起動コマンドを受信したハイパーバイザー１２７は、生成したＬＰＡＲ１２４を起動（activate）する（Ｓ３０９）。そして、Hypervisor-Agtアラートを送出して、ＬＰＡＲ１２４の起動完了を伝える（Ｓ３１０）。Hypervisor-Agtアラートを受け取った管理サーバ１０１は、ＬＰＡＲ１２４の起動状態を表示器に表示する（Ｓ３１１）。

次に図４及び図５を参照して、ＬＰＡＲ２（１１４）に障害が発生した時の管理サーバ１０１の処理について説明する。
ハイパーバイザー１１７からＬＰＡＲ２に障害が発生した旨を伝えるHypervisor-Agtアラートを受けると、管理サーバ１０１はＬＰＡＲ障害検出時の処理を始める（Ｓ４０１）。

まず、障害が発生したサーバモジュール１１１のハイパーバイザー１１７に対して、ＬＰＡＲ２の稼動を停止するための停止コマンドを送出する（Ｓ４０２）。その後、ＬＰＡＲ２の停止処理が完了するまで待ち（Ｓ４０３）、停止処理が正常に完了したら、ＬＰＡＲ２の表示テーブルを「停止状態」とする（Ｓ４０４）。一方、停止処理が正常に完了しなければ、コールドスタンバイ失敗を表示して（Ｓ４１１）、終了する（Ｓ４１２）。

ＬＰＡＲ２の表示テーブルが「停止状態」となったら（Ｓ４０４）、ＬＰＡＲ２の構成情報の読み込みコマンドを送出する（Ｓ４０５）。ＬＰＡＲ２の構成情報を受信し（Ｓ４０６）、受信が正常に終了したら（Ｓ４０７）、受信完了を表示する（Ｓ４０８）。一方、受信が正常に終了しなければコールドスタンバイ失敗を表示して（Ｓ４１３）、終了する（Ｓ４１４）。
受信が正常に終了し（Ｓ４０７）、受信完了の表示した（Ｓ４０８）後に、ＬＰＡＲ２の実効ＣＰＵ性能と、ＬＰＡＲ２を生成するサーバモジュール以外のサーバモジュールの実効ＣＰＵ性能を計算する。

ここで、ＬＰＡＲ２の実効ＣＰＵ性能は、（物理ＣＰＵの数）×（移行前のＬＰＡＲでのサービス率）、として計算する。また、ＬＰＡＲ２を生成するサーバモジュール以外のサーバモジュールの実効ＣＰＵ性能は、（物理ＣＰＵの数）×（１００％−(現在稼動している全てのＬＰＡＲのサービス率))として計算する。

次に、管理サーバ１０１のサーバモジュール管理情報１０７を用いて、ＬＰＡＲ生成のためのサーバモジュールの条件を判定する（Ｓ４１０）。この条件とは、例えば、以下（a）〜（d）の判定を含む。
（a）ＬＰＡＲ２と同じアーキテクチャのサーバモジュールがあるか。（b）ＬＰＡＲ２以上のメモリが空いているサーバモジュールがあるか。（c）ＬＰＡＲ２の実効ＣＰＵ性能以上の実効ＣＰＵ性能を持つサーバモジュールがあるか。（d）ＬＰＡＲ２が使用していた以上のＮＩＣ，ＨＢＡが空いているサーバモジュールがあるか。

これら４つの条件を全て満たしていれば、条件を満たしているサーバモジュールの中で、実効ＣＰＵ性能が最高のものを交代先のサーバモジュールとして選択する（Ｓ５０１）。４つの条件のうち１つでも満たしていなければ、コールドスタンバイ失敗を表示して（Ｓ４１５）、終了する（Ｓ４１６）。

４つの条件が満足する交代先のサーバモジュール（この例ではサーバモジュール１１２）が選択されると、交代先のサーバモジュール１１２のハイパーバイザー１２７に対して、障害が発生したＬＰＡＲ２に関する構成情報を転送して、ＬＰＡＲを生成するように指示する（Ｓ５０２）。そして、障害発生元サーバモジュール１１１のハイパーバイザー１１７から受信したデータ（障害発生ＬＰＡＲ２に関する構成情報）をハイパーバイザー１２７へ送信する（Ｓ５０３）。このデータの送信が正常に終了すると（Ｓ５０４）、送信完了を表示する（Ｓ５０５）。一方、データ送信が正常に完了しなければ（Ｓ５０４）、コールドスタンバイ失敗を表示して（Ｓ５１１）、終了する（Ｓ５１２）。

その後、交代先サーバモジュール１１２においてＬＰＡＲが生成されるのを待つ（Ｓ５０６）。生成されるＬＰＡＲは、障害が発生したＬＰＡＲ２と同様の構成を持つものである。ＬＰＡＲの生成が正常に終了すると、交代先サーバモジュール１１２の交代先ＬＰＡＲ１２４を起動するコマンドを送出する（Ｓ５０７）。一方、ＬＰＡＲ生成が正常に終了しなければ、コールドスタンバイ失敗を表示して（Ｓ５１３）、終了する（Ｓ５１４）。

交代ＬＰＡＲ１２４の生成が正常に終了し、起動コマンドを送出したら（Ｓ５０７）、交代先ＬＰＡＲ１２４の起動完了を待つ（Ｓ５０８）。そして正常に起動したら、交代先ＬＰＡＲ（１２４）の状態表示を「起動状態」として（Ｓ５０９）、終了する（Ｓ５１０）。一方、ＬＰＡＲ１２４の起動が正常に起動しない場合は、コールドスタンバイ失敗を表示して（Ｓ５１５）、終了する（Ｓ５１６）。

以上のような制御により、交代先ＬＰＡＲ１２４が障害発生ＬＰＡＲ１１４の交代機として起動可能となるのは以下の理由による。ストレージ装置へのアクセスはＷＷＮによって管理される。ＷＷＮは物理デバイスのポートごとに割り当てられるが、本実施例では、ＬＰＡＲごとに論理ＨＢＡを設け、論理HBAのポートごとにＷＷＮを割り当てている。以下この論理ＨＢＡのＷＷＮをvfcＷＷＮと呼ぶ。図1の説明で述べたように、ＬＵＮとＷＷＮの接続関係はＬＵＮセキュリティ機能により設定されている。ストレージ装置側からは、論理/物理ＷＷＮの区別はつかないので、ＬＰＡＲ単位でのＬＵへのアクセス権の管理が可能となる。（vfcＷＷＮを用いるときは、ストレージ装置から物理デバイスのＷＷＮが認識されないように設定する。）移行先のＬＰＡＲは、障害発生時のＬＰＡＲが使用していたvfcＷＷＮと同一のvfcＷＷＮを使用してブートすることにより、移行前と同一のシステムを立ち上げることができる。

次に図６を参照して、ＬＰＡＲ２に障害が発生した時のハイパーバイザーの処理について説明する。
ＬＰＡＲ２に障害が発生すると、ハイパーバイザー１１７は、ＬＰＡＲ障害検出処理を開始する（Ｓ６０１）。障害検出処理において、障害発生要因を解析して、回復可能な要因か否かを判断する（Ｓ６０２）。その判断の結果、ＬＰＡＲ障害が回復不可能な要因である場合、Hypervisor-Agt（１１８）に対してＬＰＡＲ障害を伝えるために、Hypervisor-Agtアラート送出を要求し（Ｓ６０３）、ＬＰＡＲ障害時のログ取得などの障害処理を実行して（Ｓ６０４）、処理を終了する（Ｓ６０５）。

一方、ＬＰＡＲ障害が回復可能な要因である場合、回復処理を行い（Ｓ６０６）、終了する（Ｓ６０７）。

次に図７〜図８を参照して、管理サーバ１０１からのコマンド実行要求に伴うHypervisor-Agt（１１８）におけるコマンドの処理について説明する。
管理サーバ１０１から送信されたコマンド実行要求を受けると、Hypervisor-Agt（１１８）は受信処理を行う（Ｓ７０１）。要求されるコマンドには複数の種類があるので、まずコマンドの種別を解析する（Ｓ７０２）。この例では、ＬＰＡＲの停止を行うＬＰＡＲ停止（ deactivate）コマンドと、ＬＰＡＲ構成情報読み込みコマンドと、ＬＰＡＲ構成情報書き込みコマンドと、ＬＰＡＲの起動を行うＬＰＡＲ起動（ activate）コマンドと、ＬＰＡＲ生成コマンド、の５つのコマンドの処理を行う。

ＬＰＡＲ deactivateコマンドである場合、停止対象ＬＰＡＲは妥当であるかを判定する（Ｓ７０３）。妥当でないと判断した場合にはエラー処理を行い（Ｓ７０７）、終了する（Ｓ７０８）。停止対象ＬＰＡＲ２が妥当であると判断した場合には、停止対象ＬＰＡＲ２の停止処理を行う（Ｓ７０４）。そして、停止処理が成功したか否かを判断する（Ｓ７０５）。停止処理が失敗した場合、エラー処理して（Ｓ７０７）、終了する（Ｓ７０８）。一方、停止処理が成功した場合には、ＬＰＡＲ２の停止完了を伝えるためにHypervisor-Agtアラート送信要求を行って、終了する（Ｓ７０８）。

ＬＰＡＲ構成情報読み込みコマンドである場合、対象ＬＰＡＲ２の構成情報を管理サーバ１０１に転送する。その後、データ転送が成功したか否かを判断して（Ｓ７１０）、データ転送が成功したら処理を終了する（Ｓ７１２）。一方、失敗したら、エラー処理して（Ｓ７１１）、終了する（Ｓ７１２）。
ＬＰＡＲ構成情報書き込みコマンドである場合、対象ＬＰＡＲ２の構成情報を管理サーバ１０１からハイパーバイザー１２７に転送する。その後、データ転送が成功したか否かを判断して（Ｓ７１４）、データ転送が成功したら処理を終了する（Ｓ７１６）。一方、失敗したら、エラー処理して（Ｓ７１４）、終了する（Ｓ７１６）。

次に、ＬＰＡＲ起動コマンドである場合（図８参照）、起動対象のＬＰＡＲ２は妥当であるかを判定する（Ｓ８０１）。その結果、妥当でないと判断した場合にはエラー処理を行って（Ｓ８０５）、終了する（Ｓ８０６）。一方、起動対象のＬＰＡＲ２が妥当であると判断した場合には、起動対象ＬＰＡＲ２の起動処理を行う（Ｓ８０２）。その後、起動が成功したかを判断して（Ｓ８０３）、起動に失敗した場合にはエラー処理を行って（Ｓ８０５）、終了する（Ｓ８０６）。
一方、起動に成功した場合には、ＬＰＡＲのactivate完了を伝えるためにHypervisor-Agtアラート送信要求を行い（Ｓ８０４）、終了する（Ｓ８０６）。

次に、ＬＰＡＲ生成コマンドである場合、まず移行前及び移行先の実効ＣＰＵ性能の計算を行う（Ｓ８０７）。移行前の実効ＣＰＵ性能は、（物理ＣＰＵの数）×（移行前のＬＰＡＲでのサービス率）として計算する。移行先の実効ＣＰＵ性能は、（物理ＣＰＵの数×（１００％−(現在起動している全てのＬＰＡＲのサービス率))として計算する。

その後、次の３つの条件の判定を行う（Ｓ８０８）。（１）移行前の実効性能と移行先の実効ＣＰＵ性能を比較して移行先の実効ＣＰＵ性能が移行前の実効ＣＰＵ性能以上であること。（２）移行先のメモリが空いていること。（３）移行先に移行元のＬＰＡＲが使用していた数と同数のＮＩＣ, ＨＢＡがあいていること。
上記３つの条件の１つでも満たしていなければ、ＬＰＡＲ生成は不可能とみなして、エラー処理して（Ｓ８１２）、終了する（Ｓ８１３）。

一方、３つの条件を全て満たしていれば、対象ＬＰＡＲを生成する（Ｓ８０９）。この例では、ＬＰＡＲ２の交代先としてＬＰＡＲ１２４を生成する。
その後、ＬＰＡＲの生成が成功したかを判定し（Ｓ８１０）、成功した場合、ＬＰＡＲ生成完了を伝えるためにHypervisor-Agtアラート送信要求を行って（Ｓ８１１）、終了する（Ｓ８１３）。一方。ＬＰＡＲの生成が失敗した場合には、エラー処理を行って（Ｓ８１２）、終了する（Ｓ８１３）。

次に、図９及び図１０を参照して、Hypervisor-Agtアラート送信要求があった場合のHypervisor-Agtの送信処理について説明する。
Hypervisor-Agtアラート送信要求があった場合、Hypervisor-Agt（１１８）はアラートの種別を解析する（Ｓ９０２）。
その結果、アラートの種別がＬＰＡＲ起動完了である場合には、ＬＰＡＲ起動完了アラートを送信して（Ｓ９０３）、終了する（Ｓ９０６）。
アラートの種別がＬＰＡＲ起動失敗である場合には、ＬＰＡＲ起動失敗アラートを送信して（Ｓ９０４）、終了する（Ｓ９０６）。
アラートの種別がＬＰＡＲ障害発生である場合には、ＬＰＡＲ障害発生アラートを送信して（Ｓ９０５）、終了する（Ｓ９０６）。

アラートの種別がＬＰＡＲ停止完了である場合には、ＬＰＡＲ deactivate完了アラートを送信して（Ｓ１００１）、終了する（Ｓ９０６）。
アラートの種別がＬＰＡＲ停止失敗である場合には、ＬＰＡＲ停止失敗アラートを送信して（Ｓ１００２）、終了する（Ｓ９０６）。
アラートの種別がＬＰＡＲ生成完了である場合には、ＬＰＡＲ生成完了アラートを送信して（Ｓ１００３）、終了する（Ｓ９０６）。
アラートの種別がＬＰＡＲ生成失敗である場合には、ＬＰＡＲ生成失敗アラートを送信して（Ｓ１００４）、終了する（Ｓ９０６）。

上記した例は、サーバ１１１のＬＰＡＲに障害が発生した時に、管理サーバ１０１の制御の下、移行元及び移行先のハイパーバイザー間で種々の情報をやり取りして、ＬＰＡＲの移行制御を行うものである。
また、サーバ障害時の検出はＳＶＰからも行うことができる。これによりハードウェア障害時にもその上で動作していたＬＰＡＲを別々の物理マシンに移行させることができる。

以上のように、本実施例によれば、仮想計算機システムのＬＰＡＲ障害時に、ＬＰＡＲ単位のきめ細かい交代を実現できるので、効率を要求される仮想計算機システムの利用業務に適用することができる。また、複数の物理計算機間に性能上のばらつきがある場合、特定のＬＰＡＲの物理計算機間の移動が容易に可能となる。

１０１：管理サーバ１０３：ネットワークスイッチ
１０５：サーバシャーシ１０６：サービスプロセッサ
１０７：サーバモジュール管理情報１１１、１１２：サーバ
１１３、１１４、１２３、１２４：ＬＰＡＲ
１１７、１２７：ハイパーバイザー
１１８、１２８：Hypervisor-Agt
１２０、１３０：ＢＭＣ１２１、１３１：ＦＣ−ＨＢＡ
１２２、１３２：ＮＩＣ１３５：ファイバチャネルスイッチ
１３７：ストレージ装置
１１０１：サーバモジュール・ハードウェア構成情報
１１１１：ハイパーバイザー構成情報

Claims

ネットワークを介して接続された複数の物理計算機の管理情報を管理する第１の管理手段と、
前記物理計算機上に生成された論理区画の構成情報及び前記論理区画に設けられた論理アダプタに割り当てられた識別子を管理する第２の管理手段と、
前記複数の物理計算機のうち第１の物理計算機又は前記第１の物理計算機上に生成された第１論理区画に状態変化が発生したことを検出する状態検出手段と、
前記状態検出手段による状態変化の検出により、前記管理情報を用いて、前記第１論理区画と同様の構成を有する第２論理区画を生成可能な物理計算機を判定する第一の判定を実行して前記複数の物理計算機から交代先となる第２の物理計算機を決定する決定手段と、
前記第１論理区画の構成情報及び前記第１論理区画に設けられた論理アダプタに割り当てられた識別子である仮想識別子を、前記第２の物理計算機へ送信する送信手段と、
前記第２の物理計算機に、前記送信した第１論理区画の構成情報に基づいて、前記第２の物理計算機上に前記第２論理区画を生成することが可能かを判定する第二の判定を実行させる要求と、前記第二の判定によって前記第２論理区画の生成が可能と判定された場合、前記第１論理区画の構成情報及び前記仮想識別子を引き継いで前記第２論理区画を前記第２の物理計算機上に生成させる要求とを送出する要求送出手段と
を備えることを特徴とする管理システム。
前記第１の管理手段、前記決定手段、前記送信手段及び前記要求送出手段を備える管理装置と、
前記第２の管理手段及び前記状態検出手段を備える監視装置とを備えることを特徴とする請求項１記載の管理システム。
前記物理計算機は、物理アダプタを有することを特徴とする請求項２記載の管理システム。
前記物理アダプタは、物理ＨＢＡであり、
前記仮想識別子は、vfcＷＷＮであることを特徴とする請求項３記載の管理システム。
前記構成情報は、Ｉ／Ｏ構成情報であることを特徴とする請求項２記載の管理システム。
前記監視装置は、ＳＶＰであることを特徴とする請求項２記載の管理システム。
交代先となる前記第２の物理計算機の決定では、
前記第一の判定として、
前記第１論理区画の実効ＣＰＵ性能を、物理ＣＰＵの数と前記第１論理区画のサービス率との積から計算し、
前記第１の物理計算機以外の物理計算機における実効ＣＰＵ性能を、物理ＣＰＵの数と（１００％−前記第１の物理計算機以外の物理計算機で稼動している全てのＬＰＡＲのサービス率）との積から計算し、
前記第１の物理計算機以外の物理計算機における実効ＣＰＵ性能が、前記第１論理区画の実効ＣＰＵ性能以上であることを調べ、
交代先となる前記第２の物理計算機の決定として、
前記第１の物理計算機以外の物理計算機における実効ＣＰＵ性能が最も高い物理計算機を、前記第２の物理計算機として選択する
ことを特徴とする請求項１乃至６のいずれかに記載の管理システム。
交代先となる前記第２の物理計算機の決定では、
前記第一の判定として、
前記第１の物理計算機以外の物理計算機におけるアーキテクチャを調べ、
交代先となる前記第２の物理計算機の決定として、
前記第１の物理計算機以外の物理計算機におけるアーキテクチャが、前記第１論理区画と同じアーキテクチャである物理計算機を、前記第２の物理計算機として選択する
ことを特徴とする請求項１乃至７のいずれかに記載の管理システム。
交代先となる前記第２の物理計算機の決定では、
前記第一の判定として、
前記第１の物理計算機以外の物理計算機におけるメモリの容量の空きを調べて、
交代先となる前記第２の物理計算機の決定として、
前記第１の物理計算機以外の物理計算機におけるメモリの容量の空きが、前記第１論理区画のメモリ容量以上である物理計算機を、前記第２の物理計算機として選択する
ことを特徴とする請求項１乃至８のいずれかに記載の管理システム。
交代先となる前記第２の物理計算機の決定では、
前記第一の判定として、
前記第１の物理計算機以外の物理計算機における物理アダプタの数を調べて、
交代先となる前記第２の物理計算機の決定として、
前記第１の物理計算機以外の物理計算機における物理アダプタの数が、前記第１論理区画の構成情報に含まれる第１の物理アダプタの数以上である物理計算機を、前記第２の物理計算機として選択する
ことを特徴とする請求項３乃至９のいずれかに記載の管理システム。