JP2013196484A - クラスタシステムの構成を管理する構成管理装置 - Google Patents

クラスタシステムの構成を管理する構成管理装置 Download PDF

Info

Publication number
JP2013196484A
JP2013196484A JP2012064093A JP2012064093A JP2013196484A JP 2013196484 A JP2013196484 A JP 2013196484A JP 2012064093 A JP2012064093 A JP 2012064093A JP 2012064093 A JP2012064093 A JP 2012064093A JP 2013196484 A JP2013196484 A JP 2013196484A
Authority
JP
Japan
Prior art keywords
computer
logical
resources
physical
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012064093A
Other languages
English (en)
Inventor
Kazuki Saito
和樹 才藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2012064093A priority Critical patent/JP2013196484A/ja
Publication of JP2013196484A publication Critical patent/JP2013196484A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

【課題】リソースを有効利用しながら安定したクラスタシステムを構成可能とする。
【解決手段】実施形態によれば、構成管理装置の検出手段は、複数の物理計算機でそれぞれ動作する論理計算機に割り当てられるリソースの増加を監視して、割当リソース数が増加した第1の論理計算機を検出する。第1の論理計算機が稼動系の論理計算機である場合、算出手段は、第1の論理計算機の第1の割当リソース数及び当該第1の論理計算機に対応する待機系の第2の論理計算機の第2の割当リソース数に基づき、当該第2の論理計算機のサービス引き継ぎ時の不足リソース数を算出する。移動計算機決定手段は、この不足リソース数を補うのに必要な予備リソース数を有する物理計算機を、第2の論理計算機を移動対象論理計算機とする場合の移動先物理計算機として決定する。移動手段は、移動対象論理計算機を移動先物理計算機へ移動させる。
【選択図】図1

Description

本発明の実施形態は、クラスタシステムの構成を管理する構成管理装置に関する。
従来から、ハードウェアリソースを分割し、各々を独立した1台の計算機のように利用できる仮想化技術として、論理パーティションやハイパーバイザによる仮想化が知られている。これら仮想化技術においては、ハードウェアリソースを有効に利用できるよう、計算機に割り当てられるリソースの増減といったワークロード管理の仕組みが提供されている。
特開2006−323872号公報 特開2002−041304号公報
高可用性を必要とするシステムでは、論理(仮想)計算機においても複数の計算機が相互に接続されたクラスタシステムが構成されている。クラスタシステムにおいても、ワークロード管理機能が適用されている場合、必要に応じてリソースの増減が行われる。
ところが、クラスタシステムでは、サービスを実行している稼働系計算機と待機している待機系計算機とが存在し、稼働系計算機と待機系計算機とでは負荷状況が全く異なる。このため、稼動系計算機に障害が発生した結果、当該稼動系計算機で実行されていたサービスを待機系計算機に引き継がせるフェイルオーバ時に、当該サービスの開始に必要なリソースの不足が発生するといったクラスタ環境ならではの問題が発生する可能性がある。
本発明が解決しようとする課題は、リソースを有効利用しながら安定したクラスタシステムを構成することができる構成管理装置を提供することにある。
実施形態によれば、1つ以上の論理計算機がそれぞれ動作する複数の物理計算機の構成を管理する構成管理装置は、リソース管理テーブルと、クラスタノード管理テーブルと、検出手段と、特定手段と、算出手段と、移動計算機決定手段と、移動手段とを具備する。前記リソース管理テーブルは、前記複数の物理計算機の各々について、当該物理計算機上の前記論理計算機に割り当てられているリソース数及び当該物理計算機における予備リソース数を保持する。前記クラスタノード管理テーブルは、前記複数の物理計算機でそれぞれ動作する論理計算機のうち、クラスタシステムを構成し、サービスを実行する稼動系の論理計算機の情報、及び前記クラスタシステムを構成し、前記稼動系の論理計算機の障害時に前記サービスを引き継ぐ待機系の論理計算機の情報を前記サービス毎に保持する。前記検出手段は、前記複数の物理計算機でそれぞれ動作する論理計算機に割り当てられるリソースの増加を監視して、割当リソース数が増加した第1の論理計算機を検出する。前記特定手段は、前記第1の論理計算機が稼動系の論理計算機であることが前記クラスタノードテーブルによって示されている場合、前記第1の論理計算機に対応する待機系の第2の論理計算機を前記クラスタノードテーブルに基づいて特定する。前記算出手段は、前記リソース管理テーブルから取得される前記第1の論理計算機の第1の割当リソース数及び前記第2の論理計算機の第2の割当リソース数に基づき、前記第2の論理計算機のサービス引き継ぎ時の不足リソース数を算出する。前記移動計算機決定手段は、前記不足リソース数が、前記第2の論理計算機が動作する第1の物理計算機の予備リソース数に満たない場合、当該不足リソース数を補うのに必要な予備リソース数を有する第2の物理計算機を前記リソース管理テーブルに基づいて探索し、当該探索に成功した場合、前記第2の物理計算機を、前記第2の論理計算機を移動対象論理計算機とする場合の移動先物理計算機として決定する。前記移動手段は、前記移動対象論理計算機を前記移動先物理計算機へ移動させる。
実施形態に係る計算機システムの主として機能構成を示すブロック図。 同実施形態で適用されるリソース管理テーブルのデータ構造の一例を示す図。 同実施形態で適用されるクラスタノード管理テーブルのデータ構造の一例を示す図。 同実施形態で適用されるリソース調整処理を説明するためのフローチャートの一部を示す図。 同フローチャートの残りを示す図。 同実施形態におけるリソース管理テーブルの更新例を示す図。 同実施形態におけるリソース管理テーブルの更新例を示す図。 同実施形態の変形例で適用されるリソース調整処理を説明するためのフローチャートの一部を示す図。
以下、実施の形態につき図面を参照して説明する。
図1は実施形態に係る計算機システムの主として機能構成を示すブロック図である。
図1に示す計算機システムは、複数の物理計算機、例えば3台の物理計算機PC1〜PC3と、構成管理サーバ20と、物理計算機PC1〜PC3及び構成管理サーバ20を接続するネットワーク30とから構成される。
物理計算機PC1〜PC3には、それぞれ1つ以上の論理計算機が構築される。つまり物理計算機PC1〜PC3上では、それぞれ1つ以上の論理計算機が動作する。図1の状態では、物理計算機PC1上で2つの論理計算機LC11,LC12が、物理計算機PC2上で2つの論理計算機LC21,LC22が、そして物理計算機PC3上で3つの論理計算機LC31〜LC33が、それぞれ動作する。
論理計算機LC11,LC21,LC31,LC32はクラスタシステムを構成する。本実施形態では、論理計算機LC11,LC31の一方は、稼動系論理計算機として高可用性(HA:High Availability)サービスS1を実行する。論理計算機LC21,LC32の一方は、稼動系論理計算機としてHAサービスS2を実行する。
クラスタシステムは、クラスタ管理システム10の管理の下で動作する。クラスタ管理システム10は、物理計算機PC1〜PC3にそれぞれ設けられたクラスタ管理機構CM1〜CM3が相互に通信をすることによって実現される。つまりクラスタ管理システム10は、論理的に物理計算機PC1〜PC3にまたがって存在する。クラスタ管理システム10は、クラスタシステムを構成する各論理計算機を例えばHAサービス毎に、クラスタノードとして管理する。クラスタ管理システム10はHAサービスを運用するための機能を提供する。例えば、HAサービスの状態通知、クラスタノードのサービス状態の管理、稼動系−待機系の切り替えのような機能が挙げられる。
構成管理サーバ20は、構成管理機構21、リソース管理テーブル22、クラスタノード管理テーブル23、リソース変更通知部24、リソース情報管理部25、クラスタノード探索部26及びリソース調整管理部27を備えている。
構成管理機構21は、物理計算機PC1〜PC3及び当該物理計算機PC1〜PC3上の各論理計算機を管理する。構成管理機構21はまた、物理計算機PC1〜PC3及び論理計算機を運用するための機能を提供する。例えば、物理計算機上への論理計算機の構築、CPUやメモリといったリソースの増加、リソース変更時の通知、リソースの論理計算機への割り当ての管理、論理計算機の物理計算機間の移動のような機能が挙げられる。
リソース管理テーブル22は、物理計算機毎に、当該物理計算機上の論理計算機に割り当てられているリソース数と、当該物理計算機における予備リソース数とを保持する。図2は、本実施形態で適用されるリソース管理テーブル22のデータ構造の一例を示す。リソースは、一般にCPU及びメモリである。しかし、以下の説明では簡略化のために、リソースがCPUであり、且つ全CPUが同一の性能であるものとする。この場合、リソース数NはCPU数Nに一致する。なお、全CPUが同一の性能ではない場合には、CPU性能に応じてCPU数を正規化すればよい。
クラスタノード管理テーブル23は、HAサービス毎に、当該HAサービスの実行に係わるクラスタノードの情報、つまり稼動系論理計算機及び待機系論理計算機の情報を保持する。図3は、本実施形態で適用されるクラスタノード管理テーブル23のデータ構造の一例を示す。
リソース変更通知部24は、構成管理機構21の管理による論理計算機のリソース増減を検出する。リソース変更通知部24は、リソース増減の検出に応じて、その旨をリソース情報管理部25に通知し、且つリソース増減が発生した論理計算機をリソース調整管理部27に通知する。
リソース情報管理部25は、各物理計算機のリソース情報を構成管理機構21に要求する。リソース情報管理部25は、この要求によって取得したリソース情報に基づいて、当該物理計算機の予備リソース数と当該物理計算機上の論理計算機の割当リソース数とをリソース管理テーブル22に設定する。
クラスタノード探索部26は、クラスタシステムを構成する各クラスタのクラスタノード情報をクラスタ管理システム10に要求する。クラスタノード探索部26は、この要求によってクラスタノード情報を取得することにより、当該クラスタノード情報の示す稼動系論理計算機及び待機系論理計算機をHAサービス毎に探索する。クラスタノード探索部26は、この探索結果に基づいて、HAサービス毎に、当該HAサービスに対応する各論理計算機と当該論理計算機の状態(稼動系/待機系)をクラスタノード管理テーブル23に設定する。
リソース調整管理部27は、リソース変更通知部24により通知された論理計算機(以下、該当論理計算機と称する)のリソース増減に基づき、フェイルオーバ時にリソース不足が発生する待機系論理計算機を検出する。リソース調整管理部27は、検出した待機系論理計算機のリソース不足を解消するためのリソース調整を、論理計算機の物理計算機間の移動により実現する。このリソース調整のため、リソース調整管理部27は、算出部271、移動計算機決定部272及び移動部273を備えている。
算出部271は、該当論理計算機が例えば稼動系論理計算機の場合に、リソース管理テーブル22から該当論理計算機の割当リソース数及び該当論理計算機に対応する待機系論理計算機の割当リソース数を取得する。算出部271は取得した両割当リソース数に基づき、待機系論理計算機のフェイルオーバ時の不足リソース数(=該当論理計算機の割当リソース数−待機系論理計算機の割当リソース数)を算出する。
移動計算機決定部272は、待機系論理計算機の不足リソース数と当該待機系論理計算機が動作する物理計算機の予備リソース数とが、
不足リソース数>予備リソース数
の場合、当該待機系論理計算機が動作する物理計算機では必要なリソース数を確保できないために、当該待機系論理計算機の別の物理計算機への移動が必要であると決定する。この場合、移動計算機決定部272は、上記待機系論理計算機の割当リソース数及び不足リソース数の和と、リソース管理テーブルから取得される物理計算機の予備リソース数とが、
(待機系論理計算機の割当リソース数+待機系論理計算機の不足リソース数)≦予備リソース数
となる何れかの物理計算機を、必要なリソース数を確保できる物理計算機として決定する。ここで、待機系論理計算機の割当リソース数+待機系論理計算機の不足リソース数は、該当論理計算機の割当リソース数に一致する。
移動計算機決定部272は、決定した物理計算機を、上記待機系論理計算機の移動先の物理計算機として設定する。また移動計算機決定部272は、上記待機系論理計算機を移動対象論理計算機として設定する。
移動部273は、移動計算機決定部272による設定に従い、移動対象論理計算機の移動先物理計算機への移動を構成管理機構21に要求することにより、移動対象論理計算機を移動させる。
次に、本実施形態の具体的な動作について、構成管理サーバ20によるリソース調整処理を例に、図4乃至図7を参照して説明する。図4は本実施形態で適用されるリソース調整処理を説明するためのフローチャートの一部を示し、図5は当該フローチャートの残りを示す。図6及び図7は、本実施形態におけるリソース管理テーブル22の更新例を示す。
以下の説明では、割当リソース数をNAR、予備リソース数をNPR、不足リソース数をNSRと、それぞれ表記する。また、例えば物理計算機PCi(i=1,2,3)上の論理計算機LCij(j=1,2,3)の割当リソース数をNARij、当該論理計算機LCijの不足リソース数をNSRijと表記する。また、物理計算機PCiの予備リソース数をNPRiと表記する。
まず、リソース変更通知部24は検出手段として機能して、構成管理機構21の管理による論理計算機LCij(i=1,2,3,j=1,2,3)のリソース増減を監視し(ステップ401)、リソース増減が発生したかを判定する(ステップ402)。本実施形態では、図2に示すリソース管理テーブル22及び図3に示すクラスタノード管理テーブル23の各状態で、論理計算機LC33の割当リソース数NAR33が5から9に4増加し、これにより当該論理計算機LC33が動作する物理計算機PC3の予備リソース数NPR3が5から1に4減少したものとする。
この場合、リソース変更通知部24は、リソース増減の発生を検出して(ステップ402のYes)、その旨をリソース情報管理部25に通知し、且つリソース増減が発生した論理計算機LC33(LCij=LC33)を該当論理計算機としてリソース調整管理部27に通知する(ステップ403)。
リソース情報管理部25は、リソース変更通知部24による通知に応じて、該当論理計算機LC33が動作する物理計算機PC3のリソース情報を構成管理機構21に要求する。リソース情報管理部25は、この要求によって構成管理機構21から物理計算機PC3のリソース情報を取得すると、当該リソース情報に基づき、リソース管理テーブル22内の物理計算機PC3の予備リソース数NPR3及び該当論理計算機LC33の割当リソース数NAR33を更新する。これにより、リソース管理テーブル22は、図2に示す状態から図6(a)に示す状態に更新される。
リソース調整管理部27は、該当論理計算機LC33の通知を受け取ると、該当論理計算機LC33が稼動系論理計算機であるかをクラスタノード管理テーブル23に基づいて判定する(ステップ404)。ここでは、該当論理計算機LC33(LCij=LC33)は、図3のクラスタノード管理テーブル23から明らかなように、クラスタノードでなく、したがって稼動系論理計算機でもない(ステップ404のNo)。この場合、リソース変更通知部24により論理計算機のリソース増減が再び監視される(ステップ401)。
やがて、図6(a)に示すリソース管理テーブル22及び図3に示すクラスタノード管理テーブル23の各状態で、論理計算機LC21の割当リソース数NAR21が3から4に1増加し、これにより当該論理計算機LC21が動作する物理計算機PC2の予備リソース数NPR2が5から4に1減少したものとする。この場合、論理計算機LC21の増減の発生が検出される(ステップ402のYes)。すると、論理計算機LC21(LCij=LC21)が該当論理計算機としてリソース調整管理部27に通知される(ステップ403)。また、リソース管理テーブル22が、図6(a)に示す状態から図6(b)に示す状態に更新される。
該当論理計算機LC21(LCij=LC21)は図3のクラスタノード管理テーブル23から明らかなようにクラスタノードであり、HAサービスS2を実行している稼動系論理計算機である(ステップ404のYes)。この場合、リソース調整管理部27は特定手段として機能して、クラスタノード管理テーブル23に基づき、稼動系論理計算機LC21に対応する待機系論理計算機LCrsを特定する(ステップ405)。ここでは、稼動系論理計算機LC21に対応する待機系論理計算機LCrsはLC32である。
リソース調整管理部27の算出部271は、図6(b)に示すリソース管理テーブル22から、稼動系論理計算機LC21の割当リソース数NAR21(NARij=NAR21)及び待機系論理計算機LC32の割当リソース数NAR32(NARrs=NAR32)を取得する。そして算出部271は、待機系論理計算機LC32のフェイルオーバ時の不足リソース数NSR32(NSRrs=NSR32)を
NSR32(=NSRij)=NARij−NARrs
=NAR21−NAR32
により算出する(ステップ406)。
するとリソース調整管理部27の移動計算機決定部272は、図6(b)に示すリソース管理テーブル22から、待機系論理計算機LC32が動作する物理計算機PC3(PCr=PC3)の予備リソース数NPR3(NPRr=NPR3)を取得する。そして移動計算機決定部272は、待機系論理計算機LC32(LCrs=LC32)の不足リソース数NSR32(NSRrs=NSR32)と物理計算機PC3(PCr=PC3)の予備リソース数NPR3(NPRr=NPR3)とが、
NSR32>NPR3
であるかを判定する(ステップ407)。
もし、ステップ407の判定がNoであるならば、移動計算機決定部272は、稼動系論理計算機LC21に障害が発生しても、待機系論理計算機LC32はHAサービスの開始に必要な数のリソースを確保してフェイルオーバできると判断する。この場合、待機系論理計算機LC32を別の物理計算機に移動することによるリソース調整は不要であることから、移動計算機決定部272は当該待機系論理計算機LC32の移動不要を決定する。すると、リソース変更通知部24により論理計算機のリソース増減が再び監視される(ステップ401)。
本実施形態では、図6(b)のリソース管理テーブル22から明らかなように、稼動系論理計算機LC21の割当リソース数NAR21は4、待機系論理計算機LC32の割当リソース数NAR32は2である。したがって算出部271は、待機系論理計算機LC32の不足リソース数NSR32として、NARij−NARrs=NAR21−NAR32=4−2=2を算出する(ステップ406)。この不足リソース数NSR32=2は、図6(b)のリソース管理テーブル22の示す物理計算機PC3の予備リソース数NPR3=1よりも大きい(ステップ407のYes)。つまり、不足リソース数NSR32=2を、待機系論理計算機LC32が動作する物理計算機PC3の予備リソース数NPR3=1で補うことはできない。この場合、待機系論理計算機LC32を別の物理計算機に移動することによるリソース調整が必要であることから、移動計算機決定部272は当該待機系論理計算機LC32の移動を決定する(ステップ408)。
そこで移動計算機決定部272は、まず待機系論理計算機LC32を移動対象論理計算機として設定する(ステップ501)。そして移動計算機決定部272は、以下の手順で移動対象論理計算機の移動先物理計算機を決定する。
まず移動計算機決定部272は、図6(b)に示すリソース管理テーブル22に基づいて、条件C1を満たす物理計算機PCu(u≠r)を探索する(ステップ502)。条件C1は
(NARrs+NSRrs)≦NPRu
である。
ここで、NARrsは待機系論理計算機LC32の割当リソース数NAR32=2であり、NSRrsはステップ406で算出された当該待機系論理計算機LC32の不足リソース数NSR32=2である。したがって待機系論理計算機LC32のフェイルオーバ時に必要なリソース数NARrs+NSRrs=NAR32+NSR32(=稼動系論理計算機LCij=LC21の割当リソース数NARij=NAR21)は4である。この場合、物理計算機PC1の予備リソース数NPRu(=NPR1)は5であり、物理計算機PC2の予備リソース数NPRu(=NPR2)は4であことから、いずれも条件C1を満たす。
よって移動計算機決定部272は、条件C1を満たす物理計算機PCuとして、物理計算機PC1及びPC2の2つを見つけることができる。ここで、物理計算機PC2は、図3に示すクラスタノード管理テーブル23から明らかなように、移動対象の待機系論理計算機LC32に対応する稼動系論理計算機LC21が動作している物理計算機である。このため、物理計算機PC2に待機系論理計算機LC32を移動したならば、当該物理計算機PC2に障害が発生した場合に、待機系論理計算機LC32へのフェイルオーバが困難となる。
そこで本実施形態では、物理計算機の障害発生に備え、待機系論理計算機LC32(LCrs=LC32)の移動先物理計算機PCuの候補から、上記稼動系論理計算機LC21(LCij=LC21)が動作している物理計算機PC2(PCu=PC2)は除外される。つまり移動計算機決定部272は、条件C1を満たす物理計算機PCu(u≠r,u≠i)としてPC1(PCu=PC1)を選択する。
このように条件C1を満たす物理計算機PC1(PCu=PC1)の探索に成功した場合(ステップ503のYes)、移動計算機決定部272は当該物理計算機PC1を、移動対象論理計算機の移動先物理計算機として設定する(ステップ504)。なお上記ステップ501における待機系論理計算機LC32の移動対象論理計算機としての設定は、ステップ503の判定がYesの場合に有効となる。このことは、待機系論理計算機LC32の移動対象論理計算機としての設定が、ステップ503の判定がYesの場合に実行されることと等価である。よって、この設定が、ステップ503の判定がYesの場合に実行されても構わない。
移動部273は物理計算機PC1が移動先物理計算機として設定されると(ステップ504)、この設定に応じて、移動対象論理計算機の移動先物理計算機への移動を構成管理機構21に要求することにより、待機系論理計算機LC32を物理計算機PC1へ移動させる(ステップ505)。
するとリソース情報管理部25は、リソース管理テーブル22を、図6(b)に示す状態から、図6(c)に示す状態に更新する。図6(c)において矢印60は、論理計算機LC32の物理計算機PC3から物理計算機PC1への移動を表す。
このように本実施形態によれば、稼動系論理計算機LC21の割当リソース数が増加したために当該稼動系論理計算機LC21に対応する待機系論理計算機LC32のフェイルオーバ時にリソースが不足することが予測される場合、そのリソース不足の発生を、当該待機系論理計算機LC32の物理計算機PC3から物理計算機PC1への移動により未然に防止できる。しかも、サービスを実行していない待機系論理計算機LC32の移動によるリソース調整であるため、稼動系論理計算機が実行しているサービスに影響を与えることなく、フェイルオーバ時のリソース不足を防止し、クラスタシステムを安定稼働させることができる
次に、条件C1を満たす物理計算機PCuの探索に失敗した場合について、具体例を挙げて説明する。
まず、図2に示すリソース管理テーブル22及び図3に示すクラスタノード管理テーブル23の各状態で、論理計算機LC33の割当リソース数NAR33が5から7に2増加し、これにより物理計算機PC3の予備リソース数NPR3が5から3に2減少したものとする。この場合、リソース管理テーブル22は、図2に示す状態から図7(a)に示す状態に更新される。
次に、図7(a)に示すリソース管理テーブル22及び図3に示すクラスタノード管理テーブル23の各状態で、HAサービスS1を実行している稼動系論理計算機LC11の割当リソース数NAR11が5から6に1増加し、これにより物理計算機PC1の予備リソース数NPR1が5から4に1減少したものとする。この場合、リソース管理テーブル22は、図7(a)に示す状態から図7(b)に示す状態に更新される。
この例では、該当論理計算機LCijは稼動系論理計算機LC11であり(ステップ404のYes)、稼動系論理計算機LC11に対応する待機系論理計算機LCrsはLC31である(ステップ405)。この場合、図7(b)に示すリソース管理テーブル22から明らかなように、稼動系論理計算機LC11の割当リソース数NAR11(NARij=NAR11)は6、待機系論理計算機LC31の割当リソース数NAR31(NARrs=NAR31)は2である。このため、待機系論理計算機LC31の不足リソース数NSR31(NSRrs=NSR31)は、
NSR31(=NSRrs)=NARij−NARrs
=NAR11−NSR31
=6−2
=4
となる(ステップ406)。
一方、待機系論理計算機LC31が動作する物理計算機PC3(PCr=PC3)の予備リソース数NPR3(NPRr=NPR3)は、図7(b)に示すリソース管理テーブル22から明らかなように3である。この場合、待機系論理計算機LC31の不足リソース数NSR31(=NSRrs)=4は、物理計算機PC3の予備リソース数NPR3(=NPRr)=3よりも大きい(ステップ407のYes)。そこで移動計算機決定部272は、待機系論理計算機LC31の移動を決定して(ステップ408)、当該待機系論理計算機LC31を移動対象論理計算機として設定する(ステップ501)。
次に移動計算機決定部272は、図7(b)に示すリソース管理テーブル22及び図3に示すクラスタノード管理テーブル23に基づいて、前述の条件C1を満たす物理計算機PCu(u≠3,u≠1)を探索する(ステップ502)。ところが、待機系論理計算機LC31のフェイルオーバ時に必要なリソース数NARrs+NSRrs=NAR31+NSR31(=稼動系論理計算機LCij=LC11の割当リソース数NARij=NAR11)=6以上の予備リソース数を有する物理計算機は存在しない。この場合、移動計算機決定部272は、条件C1を満たす物理計算機PCuの探索に失敗する(ステップ503のNo)。
すると移動計算機決定部272は、待機系論理計算機LC31が動作する物理計算機PC3(PCr=PC3)上の別の待機系論理計算機の移動によって当該物理計算機PC3(PCr=PC3)の予備リソース数NPR3(NPRr=NPR3)を上記不足リソース数NSR31(NSRrs=NSR31=4)以上増やすために、以下の手順を実行する。
まず移動計算機決定部272は、図7(b)に示すリソース管理テーブル22に基づいて、条件C2を満たす、物理計算機PC3上の待機系論理計算機LC31(LCrs=LC31)以外の待機系論理計算機LCrt(t≠s)を探索する(ステップ506)。条件C2は
NARrt≧(NSRrs−NPRr)
である。
ここで、NARrtは、待機系論理計算機LCrtの割当リソース数である。本実施形態では、物理計算機PC3上の待機系論理計算機LC31以外の待機系論理計算機LCrtは、図3のクラスタノード管理テーブル23から明らかなように、LC32(LCrt=LC32)であり、LC32の割当リソース数NAR32(NARrt=NAR32)は図7(b)のリソース管理テーブル22から明らかなように2である。
また、NSRrsは、ステップ406で算出された、待機系論理計算機LC31(LCrs=LC31)の不足リソース数NSR31=4であり、NPRrは物理計算機PC3の予備リソース数NPR3=3である。NSRrs−NPRr=NSR31−NPR3は、待機系論理計算機LC31のフェイルオーバ時に必要とするリソース数である。NSRrs−NPRrの演算は、算出部271によって行われる。
この場合、NARrt=NAR32=2は、NSRrs−NPRr=NSR31−NPR3=4−3=1以上であることから、条件C2を満たす。このことは、もし待機系論理計算機LC32(LCrt=LC32)を別の物理計算機に移動するならば、待機系論理計算機LC31(LCrs=LC31)のフェイルオーバ時に必要とするリソース数を確保できることを示す。
そこで移動計算機決定部272は、仮に待機系論理計算機LC32(LCrt=LC32)を移動対象論理計算機とした場合における、当該移動対象論理計算機の移動先物理計算機として、条件C3を満たす物理計算機PCu(u≠r)を探索する(ステップ507)。条件C3は
NARrt≦NPRu
である。
ここで、NARrt(=NAR32)は前述のように待機系論理計算機LC32の割当リソース数であり、2である。NPRuは待機系論理計算機LC32の移動先の候補となる物理計算機の予備リソース数であり、例えば、物理計算機PC1の予備リソース数NPRu(=NPR1)は4であり、物理計算機PC2の予備リソース数NPRu(=NPR2)は5であことから、いずれも条件C3を満たす。よって移動計算機決定部272は、条件C3を満たす物理計算機PCuとして、物理計算機PC1及びPC2の2つを見つけることができる。
さて本実施形態では、前述した場合と同様に物理計算機の障害発生に備えて、待機系論理計算機LC32の移動先物理計算機PCuの候補から、当該待機系論理計算機LC32に対応する稼動系論理計算機LC21が動作している物理計算機PC2(PCu=PC2)は除外される。つまり移動計算機決定部272は、条件C3を満たす物理計算機PCu(としてPC1(PCu=PC1)を選択する。
このように条件C3を満たす物理計算機PC1(PCu=PC1)の探索に成功した場合(ステップ508のYes)、移動計算機決定部272は移動対象論理計算機を、ステップ501で設定した待機系論理計算機LC31(LCrs=LC31)から、ステップ506で探索された待機系論理計算機LC32(LCrt=LC32)に変更する(ステップ509)。また移動計算機決定部272は、ステップ506で探索された物理計算機PC1(PCu=PC1)を、移動対象論理計算機の移動先物理計算機として設定する(ステップ504)。
移動部273はこの設定に応じて、移動対象論理計算機の移動先物理計算機への移動を構成管理機構21に要求することにより、待機系論理計算機LC32を物理計算機PC1へ移動させる(ステップ505)。
するとリソース情報管理部25は、リソース管理テーブル22を、図7(b)に示す状態から、図7(c)に示す状態に更新する。図7(c)において矢印70は、論理計算機LC32の物理計算機PC3から物理計算機PC1への移動を表す。
このように本実施形態によれば、稼動系論理計算機LC11の割当リソース数が増加したために当該稼動系論理計算機LC11に対応する待機系論理計算機LC31のフェイルオーバ時にリソースが不足することが予測されているにも係わらず、当該待機系論理計算機LC31の移動先の物理計算機が見つからない場合、移動計算機決定部272は、当該待機系論理計算機LC31が動作する物理計算機PC3上の別の待機系論理計算機LC32と、当該待機系論理計算機LC32の移動先の物理計算機PC1を見つける。この場合、移動部273が待機系論理計算機LC32を物理計算機PC1に移動させることにより、移動先が見つからなかった待機系論理計算機LC31のリソース不足の発生を、対応するHAサービスS1だけでなく他のHAサービスS2にも影響を与えることなく、未然に防止できる。
一方、条件C3を満たす物理計算機PCuの探索に失敗した場合(ステップ508のNo)、リソース調整処理はステップ508からステップ401に戻る。なお、条件C2を満たす待機系論理計算機LCrtを探索できなかった場合にも、条件C3を満たす物理計算機PCuの探索に失敗したと判定される。
上記実施形態では、説明の簡略化のために、リソースがCPUである場合を想定している。もし、リソースにメモリを含める場合には、リソース数をCPU及びメモリそれぞれについて管理し、リソース管理テーブル22もCPU及びメモリの各々について用意すればよい。また、ステップ407の判定をCPU及びメモリそれぞれについて行い、少なくとも一方の判定がYesの場合に、ステップ408以降の処理が行われる構成とすればよい。また、ステップ408以降の処理においても、不足するCPU数またはメモリ数を充足できる物理計算機を移動先物理計算機として探索すればよい。勿論、CPU及びメモリの両方が不足する場合には、不足するCPU数及びメモリ数を共に充足できる物理計算機を移動先物理計算機として探索すればよい。
また上記実施形態では、フェイルオーバ時にリソースが不足することが予測される待機系論理計算機の移動先となる物理計算機の探索に失敗し、したがって当該待機系論理計算機のフェイルオーバ時に必要となるソースを確保できない場合(ステップ508のNo)、再びステップ401から処理が行われる。しかし、ステップ508の判定がNoの場合、表示器、通信機構のような出力手段により、リソース調整管理部27がユーザに警告を通知する構成であっても構わない。
また上記実施形態では、該当論理計算機LCijのリソース数が減少した場合にも、ステップ404の判定が実行される。しかし、該当論理計算機LCijのリソース数が減少した場合には、ステップ404を実行せずに、ステップ401に戻っても構わない。
<変形例>
次に、上記実施形態の変形例について、図8を参照して説明する。図8は、本変形例で適用されるリソース調整処理を説明するためのフローチャートの一部を示す。本変形例では、上記実施形態で適用されるリソース調整処理の手順のうち、図4のフローチャート部の示す手順に代えて図8のフローチャート部の示す手順が適用される。このため、本変形例で適用されるフローチャートの残りは、図5を参照されたい。また、図8において、図4と等価なステップには同一符号を付してある。
本変形例の特徴は、該当論理計算機Lijが稼動系論理計算機でない場合にも、移動対象となり得る待機系論理計算機Lrvが探索される点にある。例えば、図6(a)のリソース管理テーブル22によって示されるように、物理計算機PC3上で動作する論理計算機LC33の割当リソース数NAR31が5から9に4増加したために、当該物理計算機PC3の予備レソース数NPR3が5から1に減少したものとする。論理計算機LC33は、図3に示すクラスタノード管理テーブル23に稼動系論理計算機として登録されていないため非稼動系論理計算機である。また論理計算機LC33は、上記クラスタノード管理テーブル23にクラスタノードとしても登録されていないため非クラスタ論理計算機でもある。
図6(a)のリソース管理テーブル22の示す状態で、例えば物理計算機PC1上で動作する稼動系論理計算機LC11の障害により当該稼動系論理計算機LC11に対応する待機系論理計算機LC32のフェイルオーバが発生したならば、必要なリソース数が不足する。前記実施形態では、このリソース数不足を解消するためのリソース調整は、稼動系論理計算機LC11のリソース数の増減が検出されるまで待たされる。これに対して本変形例では、非稼動系論理計算機の割当リソース数の増加により、フェイルオーバ時に必要なリソース数が不足する待機系論理計算機が存在する場合にも、リソース調整が行われる。
さて、上述のように、物理計算機PC3上で動作する論理計算機LC33の割当リソース数NAR31が5から9に4増加した場合、当該論理計算機LC33(LCij=LC33)が非稼動系論理計算機であることから、ステップ404の判定はNoとなる。この場合、上記実施形態と異なり、リソース調整処理はステップ404からステップ801に進む。
ここで、リソース増加が検出された非稼動系論理計算機Lijを便宜的にLCrvと表記し、当該非稼動系論理計算機LCrv(LCrv=LC33)が動作する物理計算機PCr上で動作する別の論理計算機で且つ待機系の論理計算機をLCrsと表記する。また、待機系論理計算機LCrsに対応する稼動系論理計算機をLCpqと表記する。この場合、待機系論理計算機LCrsの不足リソース数NSRrsは、稼動系論理計算機LCpqの割当リソース数NARpq−待機系論理計算機LCrsの割当リソース数NARrsとなる。この不足リソース数NSRrsは、算出部271によって算出される。
ステップ801において移動計算機決定部272は、NSRrs(=NARpq−NARrs)が、条件C4を満たす待機系論理計算機LCrsを探索する。条件C4は
NSRrs>NPRr
である。
LCrvが本変形例のようにLC33の場合、物理計算機PCr(=PC3)上で動作するLCrsの候補はLC31及びLC32である。また、LC31のNSR31は、NSRrs=NARpq−NARrs=NAR11−NAR31=5−2=3であり、LC32のNSR32は、NSRrs=NARpq−NARrs=NAR21−NAR32=3−2=1である。またNPRr=NPR3=1である。この場合、条件C4を満たす待機系論理計算機LCrsとしてLC31が探索される(ステップ801)。
このように条件C4を満たす待機系論理計算機LCrsの探索に成功した場合(ステップ802のYes)、移動計算機決定部272は上記実施形態においてステップ407の判定がYesの場合と同様にステップ408に進む。以降の処理手順は上記実施形態と同様である。必要ならば、図5を参照されたい。一方、条件C4を満たす待機系論理計算機LCrsの探索に失敗した場合(ステップ802のNo)、上記実施形態においてステップ407の判定がNoの場合と同様に、移動計算機決定部272は当該待機系論理計算機LCrsの移動不要を決定する。すると、リソース変更通知部24により論理計算機のリソース増減が再び監視される(ステップ401)。ステップ802の判定がNoの場合、ユーザに警告が通知される構成であっても構わない。
以上説明した少なくとも1つの実施形態によれば、リソースを有効利用しながら安定したクラスタシステムを構成することができる構成管理装置を提供することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…クラスタ管理システム、20…構成管理サーバ(構成管理装置)、21…構成管理機構、22…リソース管理テーブル、23…クラスタノード管理テーブル、24…リソース変更通知部(検出手段)、25…リソース情報管理部、26…クラスタノード探索部、27…リソース調整管理部(特定手段)、30…ネットワーク、271…算出部、272…移動計算機決定部、273…移動部、PC1〜PC3…物理計算機、LC11,LC12,LC21,LC22,LC31〜LC33…論理計算機、CM1〜CM3…クラスタ管理機構、S1,S2…HAサービス。

Claims (5)

  1. 1つ以上の論理計算機がそれぞれ動作する複数の物理計算機の構成を管理する構成管理装置において、
    前記複数の物理計算機の各々について、当該物理計算機上の前記論理計算機に割り当てられているリソース数及び当該物理計算機における予備リソース数を保持するリソース管理テーブルと、
    前記複数の物理計算機でそれぞれ動作する論理計算機のうち、クラスタシステムを構成し、サービスを実行する稼動系の論理計算機の情報、及び前記クラスタシステムを構成し、前記稼動系の論理計算機の障害時に前記サービスを引き継ぐ待機系の論理計算機の情報を前記サービス毎に保持するクラスタノード管理テーブルと、
    前記複数の物理計算機でそれぞれ動作する論理計算機に割り当てられるリソースの増加を監視して、割当リソース数が増加した第1の論理計算機を検出する検出手段と、
    前記第1の論理計算機が稼動系の論理計算機であることが前記クラスタノードテーブルによって示されている場合、前記第1の論理計算機に対応する待機系の第2の論理計算機を前記クラスタノードテーブルに基づいて特定する特定手段と、
    前記リソース管理テーブルから取得される前記第1の論理計算機の第1の割当リソース数及び前記第2の論理計算機の第2の割当リソース数に基づき、前記第2の論理計算機のサービス引き継ぎ時の不足リソース数を算出する算出手段と、
    前記不足リソース数が、前記第2の論理計算機が動作する第1の物理計算機の予備リソース数に満たない場合、当該不足リソース数を補うのに必要な予備リソース数を有する第2の物理計算機を前記リソース管理テーブルに基づいて探索し、当該探索に成功した場合、前記第2の物理計算機を、前記第2の論理計算機を移動対象論理計算機とする場合の移動先物理計算機として決定する移動計算機決定手段と、
    前記移動対象論理計算機を前記移動先物理計算機へ移動させる移動手段と
    を具備する構成管理装置。
  2. 前記第2の物理計算機の探索に失敗した場合、前記移動計算機決定手段は、前記第1の物理計算機上で動作する待機系の論理計算機の中から、前記不足リソース数を補うのに必要な割当リソース数を有する第3の論理計算機を前記リソース管理テーブルに基づいて探索し、且つ予備リソース数が前記第3の論理計算機の割当リソース数以上となる第3の物理計算機を前記リソース管理テーブルに基づいて探索し、前記第3の物理計算機の探索に成功した場合、前記第3の論理計算機を前記移動対象論理計算機として決定し、且つ前記第3の物理計算機を前記移動対象論理計算機の移動先物理計算機として決定する請求項1記載の構成管理装置。
  3. 前記不足リソース数を補うのに必要な割当リソース数は、前記不足リソース数と前記第2の物理計算機の予備リソース数との差分以上である請求項2記載の構成管理装置。
  4. 前記移動計算機決定手段は、前記第2の物理計算機の探索において、前記第1の論理計算機が動作する物理計算機を探索の対象から除外し、前記第3の物理計算機の探索において、前記第3の論理計算機に対応する稼動系の論理計算機が動作する物理計算機を探索の対象から除外する
    請求項2記載の構成管理装置。
  5. 前記不足リソース数は、前記第1の割当リソース数と前記第2の割当リソース数との差分であり、
    前記不足リソース数を補うのに必要な前記予備リソース数は、前記第2の物理計算機の予備リソース数と前記不足リソース数との和以上である
    請求項1記載の構成管理装置。
JP2012064093A 2012-03-21 2012-03-21 クラスタシステムの構成を管理する構成管理装置 Pending JP2013196484A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012064093A JP2013196484A (ja) 2012-03-21 2012-03-21 クラスタシステムの構成を管理する構成管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012064093A JP2013196484A (ja) 2012-03-21 2012-03-21 クラスタシステムの構成を管理する構成管理装置

Publications (1)

Publication Number Publication Date
JP2013196484A true JP2013196484A (ja) 2013-09-30

Family

ID=49395320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012064093A Pending JP2013196484A (ja) 2012-03-21 2012-03-21 クラスタシステムの構成を管理する構成管理装置

Country Status (1)

Country Link
JP (1) JP2013196484A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11338725A (ja) * 1998-05-29 1999-12-10 Nec Corp クラスタシステム、クラスタシステムにおける監視方式およびその方法
JP2005250839A (ja) * 2004-03-04 2005-09-15 Nomura Research Institute Ltd 耐障害性システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11338725A (ja) * 1998-05-29 1999-12-10 Nec Corp クラスタシステム、クラスタシステムにおける監視方式およびその方法
JP2005250839A (ja) * 2004-03-04 2005-09-15 Nomura Research Institute Ltd 耐障害性システム

Similar Documents

Publication Publication Date Title
US11399072B2 (en) System and method for intent-based service deployment
US7992032B2 (en) Cluster system and failover method for cluster system
US11392400B2 (en) Enhanced migration of clusters based on data accessibility
EP3252608B1 (en) Node system, server device, scaling control method, and program
JP4980792B2 (ja) 仮想計算機の性能監視方法及びその方法を用いた装置
US11340807B2 (en) Mounting a shared data store of a server cluster on a client cluster for use as a remote data store
US11614977B2 (en) Optimizing clustered applications in a clustered infrastructure
JP6186787B2 (ja) データ転送装置、データ転送システム、データ転送方法及びプログラム
JP2007172334A (ja) 並列型演算システムの冗長性を確保するための方法、システム、およびプログラム
JP2008293245A (ja) フェイルオーバ方法、計算機システム、管理サーバ及び予備サーバの設定方法
JP6123626B2 (ja) 処理再開方法、処理再開プログラムおよび情報処理システム
WO2019160030A1 (ja) サービス提供システム、資源割り当て方法、及び資源割り当てプログラム
US9329937B1 (en) High availability architecture
JP2016170669A (ja) 負荷分散機能配備方法、負荷分散機能配備装置および負荷分散機能配備プログラム
WO2015118679A1 (ja) 計算機、ハイパーバイザ、物理コアの割り当て方法
JP6477266B2 (ja) ダンプ管理装置、ダンプ管理プログラム及びダンプ管理方法
KR20200080458A (ko) 클라우드 멀티-클러스터 장치
JP5998577B2 (ja) クラスタ監視装置、クラスタ監視方法、及びプログラム
US20200409806A1 (en) Virtual-machine-specific failover protection
JP2005100387A (ja) 計算機システム及びクラスタシステム用プログラム
WO2013171944A1 (ja) 仮想マシン管理システム、仮想マシン管理方法およびプログラム
JP2013210833A (ja) ジョブ管理装置、ジョブ管理方法、及びプログラム
JP2013117889A (ja) 広域分散構成変更システム
US11494217B1 (en) Transparent reboot interception migration to facilitate virtualization host updates
JP2014002798A (ja) 計算機システム及びプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131205

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131212

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131219

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131226

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140701