JP6063576B2 - サーバシステム、計算機システム、サーバシステムの管理方法、及びコンピュータ読み取り可能な記憶媒体 - Google Patents

サーバシステム、計算機システム、サーバシステムの管理方法、及びコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP6063576B2
JP6063576B2 JP2015536369A JP2015536369A JP6063576B2 JP 6063576 B2 JP6063576 B2 JP 6063576B2 JP 2015536369 A JP2015536369 A JP 2015536369A JP 2015536369 A JP2015536369 A JP 2015536369A JP 6063576 B2 JP6063576 B2 JP 6063576B2
Authority
JP
Japan
Prior art keywords
server
spare
active
information
hardware configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015536369A
Other languages
English (en)
Other versions
JPWO2015037103A1 (ja
Inventor
鉄夫 河村
鉄夫 河村
俊治 梅原
俊治 梅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of JP6063576B2 publication Critical patent/JP6063576B2/ja
Publication of JPWO2015037103A1 publication Critical patent/JPWO2015037103A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2048Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time

Description

本発明は、サーバシステム、計算機システム、サーバシステムの管理方法、及びコンピュータ読み取り可能な記憶媒体に関し、例えば、計算機システムのサーバで障害が発生した際にサーバを交替し、障害からサーバを回復させるための技術に関するものである。
複数のサーバを備える計算機システムにおいては、業務が稼動中であるサーバ(現用サーバ)で障害が発生したとき、現用サーバで稼動中の業務を予備サーバへ引き継ぐことにより計算機システムの可用性を向上させる場合がある。
この引き継ぎ方法の1つとして、障害の発生した現用サーバが利用していたブートディスク(論理ユニット)を、業務の稼動していない予備サーバが起動することによって、現用サーバの業務を予備サーバへ引き継ぐ障害回復方法がある。この方法では、計算機システムに複数の現用サーバが存在する場合に、どの現用サーバで障害が発生しても障害の回復が可能であり、多数の現用サーバに対して少数の予備サーバを準備することによって、高い信頼性を得ることができる。
しかしながら、本方式は引き継ぎ時に業務を稼動するOSの設定は最小限のため、高い信頼性を得るには引き継ぎ前と引き継ぎ後のH/W(Hardware)構成の差異が最小限であることが望ましい。特に、H/W構成が大きく異なる場合、引き継ぎできない可能性がある。この引き継ぎできない可能性をなくすには、異なるH/W構成でもOSが正常に動作するように専用のシステムやOSの設計をする必要がある。
また、物理的なH/W構成に対しては多くの制約があるため、一般的に計算機の物理構成を合わせるためには、予め同一のH/W構成の計算機を用意することで対応する必要がある。このような状況に対処するため、特許文献1で示されるように、仮想計算機を構築する方法が挙げられる。仮想計算機の構成を同一にすることで物理構成が異なる場合に引き継ぎできない問題を解決する。
特開2008−293245号公報
しかしながら、特許文献1に示される方法を用いた場合、物理計算機から仮想計算機間の引き継ぎはできない。このため、現用サーバが物理計算機でシステムを稼動していた場合には特許文献1による方法を用いたとしてもサーバを引き継ぐことができない。
そこで、物理計算機からの引き継ぎにおいて、H/W構成が一致する必要のある部分に関して、ソフトウェア上で認識する物理構成を一致させることにより、異なるH/W構成を持つ物理計算機へ引き継ぐことを可能にする必要がある。
しかし、構成を一致させることのみを考慮して引き継ぐと、H/Wリソースの非効率な引き継ぎを行ってしまう可能性がある。
また、H/W構成が異なる場合にサーバの引き継ぎを行う場合には、次のような課題が生じる。つまり、まず、I/O構成が異なる場合に、引き継ぎ前と後のI/Oのブートオーダが変わることで、論理ユニットを正しく読み込むことができずOSが起動できないことである。また、OSが起動した場合においても、I/Oの数に応じてOS上でI/Oの認識作業が必要なことである。さらに、CPUコアのソケット数やコア数が増加する場合、ソフトウェアライセンスの制約を受ける可能性があることである。
そして、従来の計算機システムの構成では、隠蔽可能なH/Wの差分情報が無いことや、構成一致のための隠蔽を行う機構が無いことから、構成を一致させるためのH/W隠蔽処理を機械的に実行することができない。また、上述のように、物理構成を一致させて引き継ぐことにより単に構成を一致させて引き継ぐのみでは、H/Wリソースを最大限活用できず、非効率な引き継ぎを行ってしまう可能性もある。元々構成が一致しているサーバではなく、構成が一致していないサーバを構成一致のために隠蔽して引き継ぐと、構成が一致しているサーバに引き継ぐ場合に比べて無駄なH/Wリソースが発生する可能性がある。また、1台の予備サーバに引き継ぎ可能な現用サーバが集中している場合、構成を一致させてそのサーバに引き継ぐと、他の現用サーバが引き継ぐことができなくなるといった事態が生じる。
本発明はこのような状況に鑑みてなされたものであり、他の現用サーバの状態を加味し、H/Wリソースを効率的に利用した引き継ぎを実現するための技術を提供するものである。
上記課題を解決するために、本発明では、現用サーバ及び予備サーバ間でH/W構成が同一である必要のある部分に関して、ソフトウェア上で認識する物理構成を同一にすることで物理計算機への引き継ぎを行う。
より具体的には、本発明によるサーバシステムは、業務を処理し、稼働中の少なくとも1つの現用サーバと、現用サーバが故障した際に当該故障した現用サーバの業務を引き継がせるために用意された少なくとも1つの予備サーバと、現用サーバ及び前記予備サーバを監視し、サーバの切り替えを制御するローカル管理計算機と、を有する。このローカル管理計算機は、現用サーバの業務の引き継ぎ先である予備サーバの割り当て処理を実行するプロセッサと、サーバの引き継ぎを可能とするハードウェア構成の条件を示すハードウェア構成一致ポリシー情報を少なくとも格納するメモリと、を有している。そして、ローカル管理計算機のプロセッサは、現用サーバ及び予備サーバからそれぞれのハードウェア構成情報を取得する処理と、取得したハードウェア構成情報に基づいて、現用サーバと予備サーバの組み合せのそれぞれについてハードウェア構成を比較し、メモリから読み出したハードウェア構成一致ポリシー情報を参照して、現用サーバと予備サーバの組み合わせのそれぞれについてハードウェア構成の隠蔽の有無、及び引き継ぎの可否について決定する処理と、現用サーバと予備サーバの組み合せのそれぞれについてハードウェア構成の一致割合を示す構成一致率を算出する処理と、現用サーバと予備サーバの組み合わせのそれぞれについての、ハードウェア構成の隠蔽の有無の情報及び引き継ぎ可否の情報と、構成一致率の情報に基づいて、現用サーバの引き継ぎ先である予備サーバを割り当てる処理と、
を実行する。
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。
本発明によれば、他の現用サーバの状態を加味して、H/Wリソースを効率的に利用し、現用サーバから予備サーバへの引き継ぎを実行することができるようになる。
本発明の実施の形態の計算機システム1の全体構成例を示すブロック図である。 引き継ぎ機能有効時の引き継ぎ先サーバ決定の手順を説明するための図である。 障害発生時の現用サーバから予備サーバへの切り替えの手順を説明するための図である。 隠蔽可能なH/W情報を示すH/W構成テーブルの構成例を示す図である。 H/W構成を一致させるポリシーを示すH/W構成一致ポリシーテーブルの構成例を示す図である。 H/W構成一致処理を説明するためのフローチャートである。 H/W構成一致処理によって生成される構成一致情報テーブルの構成例を示す図である。 割り当て決定情報テーブル更新処理を説明するためのフローチャートである。 割り当て決定情報テーブル更新処理によって得られる割り当て決定情報テーブルの構成例を示す図である。 現用サーバの割り当て変更ポリシーの構成例(1)を示す図である。 現用サーバの割り当て変更ポリシーの構成例(2)を示す図である。 割り当て決定処理を説明するためのフローチャートである。 新規作成時(初期化時)の割り当てテーブルの例を示す図である。 図10の割り当て変更ポリシーを用いて割り当てを変更した際に得られる割り当てテーブルの例を示す図である。 図11の割り当て変更ポリシーを用いて割り当てを変更した際に得られる割り当てテーブルの例を示す図である。
以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。
更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。
また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。
以下で各種制御部を主語(動作主体)として本発明の実施形態における各処理について説明を行うが、各種制御部の動作はプログラムとして記述することも可能であり、このプログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行う。このため、プロセッサを主語とした説明としてもよい。また、プログラムがプロセッサと協働して実行する処理に関し、プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによってインストールされてもよい。
<計算機システムの構成>
図1は、本発明の実施形態による計算機システムの全体構成を示すブロック図である。計算機システム1は、現在サーバとして動作している現用サーバ100と、現用サーバが故障したときに当該現用サーバの動作を引き継ぐ予備サーバ101と、現用サーバ100や予備サーバ101を監視するSVP102(Service Processor:ローカル管理計算機ということもできる)と、計算機システム1における現用サーバ100、予備サーバ101、及びSVP102を監視するための管理プログラム103を有する管理計算機(グローバル管理計算機)と、を有している。現用サーバ100、予備サーバ101、及びSVP102は、例えば1つのシャーシに格納された1つのブレードサーバを構成している。管理計算機(グローバル管理計算機)の管理プログラム103は、複数のブレードサーバに亘って現用サーバ100、予備サーバ101、及びSVP102の動作を監視している。
現用サーバ100と予備サーバ101は、BMC110(Baseboard Management Controller)とCPUソケット120及び121と、CPUコア130及び131、DIMM(Dual Inline Memory Module)140と、I/Oスロット150と、を有する。そして、BMC110は、CPU隠蔽制御部111と、DIMM隠蔽制御部112と、I/O隠蔽制御部113と、を有している。なお、各制御部は、上述のように、プログラムで構成しても良い。
SVP102は、業務を引き継ぐための制御部であるN+M制御部160と、H/W構成情報を持つH/W構成テーブル165(図4参照)と、H/W(Hardware)構成を一致させる時のポリシーを定義するH/W構成一致ポリシー格納部(格納領域)166(図5参照)と、現用サーバと予備サーバの構成を一致させるための予備サーバの設定情報である構成一致情報テーブル167(図7参照)と、割り当て変更ポリシーを格納する割り当て変更ポリシー格納部(格納領域)168(図10又は11参照)と、を有している。なお、N+M制御部160のNは現用サーバの数を示し、Mは予備サーバの数を示している。単に、制御部と言い換えても良い。
N+M制御部160は、引き継ぎに必要な設定情報(各サーバのBMCの情報)を取得するConf取得制御部161と、サーバの切り替えを制御する引き継ぎ制御部162と、サーバの隠蔽可能なH/W情報を取得するH/W構成取得制御163と、現用サーバと予備サーバのH/W構成を一致させるための情報を作成しBMC110へ送信するH/W構成一致制御部164と、を有している。なお、各制御部は、上述のように、プログラムで構成しても良い。
現用サーバ100は、OSを起動して、業務が稼動しているサーバである。予備サーバ101は現用サーバの故障に対し、業務を引き継ぐための待機サーバである。予備サーバ101は現用サーバとH/W構成が異なっていても良く、必ずしも稼動している必要は無い。また、本実施例での現用サーバ及び予備サーバのモジュールはCPU120−121、DIMM140、I/Oスロット150であるが、BMC110に隠蔽制御がありモジュールを隠蔽することができれば、モジュールの種別は問わない。
SVP102のN+M制御部160のH/W構成取得制御部163は、現用サーバ100、予備サーバ101、及び管理プログラム103からH/W構成情報を取得し、H/W構成テーブル165を作成する。取得されたH/W構成情報は、H/Wの縮退(隠蔽)やPCIスロットの閉塞などを決定し実行するために必要なH/W情報である。なお、本実施形態では、現用サーバ100と予備サーバ101とSVP102が搭載されるサーバシステム(システム単位:ブレードサーバ)について説明している。ただし、管理プログラム103を通じて他のシステム単位(別シャーシのブレードサーバ)の現用サーバ100と予備サーバ101を利用した引き継ぎ処理を実行することも可能である。
H/W構成一致制御部163は、H/W構成テーブル165と、現用サーバ100及び予備サーバ101の構成一致基準を示したH/W構成一致ポリシー165を読み込む。そして、H/W構成一致制御部163は、読み込んだ情報に基づいて、現用サーバ100と予備サーバ101の構成を一致させるための設定情報である構成一致情報テーブル167を作成する。
また、H/W構成一致制御部163は、構成一致情報テーブル167における構成一致情報を予備サーバ101のBMC110へ送信する。BMC110は、受信した構成一致情報に基づいて隠蔽制御を行い、現用サーバ100と予備サーバ101のH/W構成を一致させる。そして、現用サーバ100と予備サーバ101のH/W構成が一致した状態で、業務の引き継ぎ処理が実行される。ただし、H/W構成が一致しなくても引き継ぐことができる場合がある。例えば、CPUコア数については、数が変化してもOSが対応できる。構成が一致する必要の無い部分はH/W構成一致ポリシー165で定義されている。
<処理手順>
図2は、引き継ぎ機能有効時に実行される引き継ぎ先サーバ決定処理の手順を説明するための図である。引き継ぎ先サーバ決定処理(予備サーバの割り当て処理)は、現用サーバに故障が発生する前の段階で実行される。現用サーバに故障が発生してからでは現用サーバがどのような動作をするか分からないため、予備サーバの割り当ての判断が正しく行えないからであり、故障してから割り当ててみて引き継げなかったという事態とならないようにするためである。
SVP102は、引き継ぎ機能が有効化された後、SVP102のH/W構成取得制御部を用いて、現用サーバ100と予備サーバ101のH/W情報の取得処理200を実行する。なお、ここで、現用サーバ100と予備サーバ101は必ずしも同一の筐体に格納されている必要は無く(管理主体が同じSVPでなくても良い)、管理プログラム103を通じて別の筐体の現用サーバ100と予備サーバ101のH/W情報を取得するようにしても良い。そのため、現用サーバ100か予備サーバ101のどちらかが別の筐体でも引き継ぎを実施できる。
SVP10は、取得したH/W構成情報を基に、H/W構成取得制御部を用いて、H/W構成テーブル作成処理201を実行する。
次に、SVP102は、H/W構成一致制御部164を用いて、H/W構成テーブル165とH/W構成一致ポリシー166を読み込み、現用サーバ100と予備サーバ101のH/W構成を一致させるための情報であって、予備サーバのモジュールの隠蔽処理に必要な情報(構成一致情報)を作成する(構成一致処理202:詳細については図6参照)。ここで、モジュールとは、CPU、DIMM、及びI/Oなどの計算機のH/Wの部位のことであり、CPU、DIMM、I/Oに限らないが、隠蔽が可能であることが求められる。より具体的には、H/W構成一致ポリシー166(図5)を参照し、構成が一致しなければならないH/W部位に注目し、図4の予備サーバと現用サーバの構成を比較して一致するか否か判断されることになる。
SVP102は、現用サーバ100及び予備サーバ101のサーバ状態情報と、構成一致情報167を読み込み、現用サーバ100にどの予備サーバ101を割り当てるかについての判断基準となる情報を作成する処理(割り当て決定情報テーブル更新処理203:詳細は図8)を実行する。ここで、各サーバから取得するサーバ状態情報とは、割り当てを決定するのに必要な追加情報であり、例えば、DIMMのECCエラーやCPUの稼働率などの情報である。なお、別の筐体の情報が必要な場合は管理プログラム103から情報を取得しても良い。
次に、SVP102は、割り当てテーブルの初期化処理204(図12のS1206の処理に相当)を実行する。割り当てテーブル(初期化時のテーブルについては図13参照)は、事前に現用サーバをどの予備サーバに引き継ぐのかを示す情報である。割り当て1回目である場合に、この割り当てテーブル初期化処理204が実行される。
続いて、SVP102は、割り当て決定情報テーブル(図9参照)と割り当て変更ポリシー(図10又は11参照)を読み込み、現用サーバをどの予備サーバに割り当てるのか決定する処理(割り当て決定処理205:図12のS1207の処理に相当)を実行する。当該割り当て決定処理が実行されると、SVP102は障害通知受信待機状態に入ることになる。
そして、SVP102は、随時(定期的に)、割り当て決定情報テーブル更新処理203を実施し、さらに、割当情報テーブル更新後に割り当て決定処理205を実施することにより、サーバの状況に合わせて割り当てを決定する(更新後のテーブルについては図14又は15参照)。更新の頻度は、処理の重さによるが、所定時間(例えば、1時間)に1回の割合で行われる。このように定期的に割り当て決定情報テーブルを更新するのは、ECCエラー(メモリのエラー)が増加しているサーバを優先的に予備サーバに引き継ぎさせた方が故障する危険性を効率よく回避することができるためである。つまり、計算機システム1を運用していくうちに、ECCエラー等が初期段階(割り当てテーブルの初期化処理時)に割り当てたときと比べて変化していることもあり、より現状を反映した割り当て処理を実行する必要があるからである。
<サーバ切り替え処理>
図3は、障害発生時に現用サーバから予備サーバに切り替える処理の手順を説明するための図である。
現用サーバ100にH/W障害300が発生した場合、現用サーバ100は、障害ログをSVP102に通知する。その通知を受け、SVP102は、管理プログラム103に障害通知をする。
管理プログラム103は、現用サーバ100と予備サーバ101の割り当て情報(割り当てテーブルの情報)を持っており、対象の現用サーバ100及び予備サーバ101を監視しているSVP102にサーバの切り替え要求(N+M切り替え要求)を出す。なお、割り当てテーブル(図13乃至15のいずれか)はSVP102で作成され、必要に応じて管理プログラム103が取得する。これにより、管理プログラム103が対象の現用サーバ100及び予備サーバ101を把握することが可能である。本実施形態では、SVP102が割り当てテーブルを管理しているが、割り当てテーブルの保有自体はSVP102と管理プログラム103のどちらでも良い。管理プログラム103からSVP102へ割り当ての情報を送信すれば、管理プログラム103で割り当てテーブルを管理することも可能である。
SVP102は、管理プログラム103からN+M切り替え要求を受け、割り当てテーブルを参照して、引き継ぎ先となる予備サーバのBMCへ構成一致情報を送信301する。構成一致情報はBMCの設定情報であり、特定のモジュールを隠蔽するかしないかを示している。送信される構成一致情報は、対象の現用サーバと予備サーバに関する情報のみである。例えば、障害が発生した現用サーバがサーバ3で、引き継ぎ先として割り当てられた予備サーバがサーバ1である場合、サーバ1とサーバ3の構成一致に関する情報(図7参照)のみが送信されることになる。
予備サーバ101のBMC110は、受信した構成一致情報に基づいて、H/W構成の隠蔽処理302を実行する。隠蔽処理302を実行することにより、予備サーバ101のH/W構成は予備サーバ101のH/W構成と一致もしくは引き継ぐことが可能な構成になる。
そして、予備サーバ101は、構成一致情報に基づくH/W隠蔽処理後に、隠蔽処理が終了したことをSVP102へ通知する。
一方、通知を受けたSVP102は、従来技術の切り替え処理であるN+M切り替え処理303を実行する。
なお、構成一致情報の一例として、CPUソケット、CPUコア、DIMM、I/Oスロットの隠蔽の実施をするかどうかの情報が記載されているとする。構成一致情報のCPUソケット1の項目に隠蔽する設定が記載されていた場合は、対象の予備サーバのBMCのCPU隠蔽制御部はCPUソケット1の隠蔽を実施する。
<H/W構成テーブル>
図4は、各サーバのH/W構成を示すH/W構成テーブル165の構成例を示す図である。このH/W構成テーブルを用いることにより、隠蔽可能なH/W構成情報を知ることが可能となる。
H/W構成テーブル165は、サーバ名400と、サーバの用途401と、モジュール名402と、各モジュールの搭載或いは非搭載を示す搭載情報403と、を構成項目として有している。
サーバ名400は、サーバ固有の識別子を示し、ユニークな識別子であれば何でも良い。用途401は、業務が稼動している現用サーバであるか予備サーバであるかを示している。モジュール名402は、計算機システムを構成しているH/W部位であって、隠蔽可能なものを示し、モジュールの追加情報を含んでいる。搭載情報403は、各モジュールが搭載されているか否かを示す情報である。また、構成一致の判定材料となるモジュールの追加情報を含む。例えば、CPU周波数やメモリの容量などである。
<H/W構成一致ポリシー>
図5は、H/W構成を一致させるポリシーを示すH/W構成一致ポリシーテーブル166の構成例を示す図である。
H/W構成一致ポリシーテーブル166は、現用サーバ名500と、モジュール名501と、ポリシー502と、を構成項目として有している。
現用サーバ名500は、サーバ固有の識別子であり、図4のサーバ名400と同一である。モジュール名501は、ポリシー設定対象となっているH/W部位を示す情報である。ポリシー502は、引き継ぎ時のH/W構成の合わせ方を定義する情報である。
本実施形態では、モジュールの構成一致させない場合は「隠蔽無し」とし、搭載一致させる場合は「構成一致」を指定することとする。ポリシーの定義の一例として、I/Oスロットが搭載されていないと正常に引き継ぎできない場合は「構成一致」と設定し、CPUのように業務の引き継ぎ前と後で構成が変わっても引き継ぎが正常にできる場合は「隠蔽なし」と設定する。
<H/W構成一致処理>
図6は、H/W構成を一致させるための隠蔽モジュールを決定する処理(H/W構成一致処理)を説明するためのフローチャートである。
H/W構成一致制御部(H/W構成一致制御プログラムと言い換えても良い)164は、図4のH/W構成テーブルを参照し、予備サーバからモジュールを1つ選択する(S601)。
H/W構成一致制御部164は、S601で選択されたモジュールが現用サーバに搭載されているか判定する(S602)。選択されたモジュールが搭載されている場合、処理はS605に移行し、搭載されていない場合には、処理はS603に移行する。
選択したモジュールが搭載されていない場合、H/W構成一致制御部164は、図5のH/W一致ポリシーが構成一致であるか判定する(S603)。ポリシーが「構成一致」である場合、H/W構成一致制御部164は、構成一致情報に選択したモジュールの隠蔽設定を書き込む(S604)。H/W構成一致ポリシーが構成一致でない場合、H/W構成一致制御部164は、「隠蔽なし」設定を書き込む(S605)。
一方、S602で選択されたモジュールが搭載されていると判断された場合、H/W構成一致制御部164は、構成が一致しているので「隠蔽無し」設定を書き込む(S606)。
続いて、H/W構成一致制御部164は、H/W構成テーブル165の予備サーバに別モジュールがあるか判定する(S607)。S601乃至S606の処理は、対象の予備サーバに搭載されている全てのモジュールの処理が終了するまで繰り返えされる。搭載されているモジュールの処理が終了した場合、処理はS608に移行する。
S608において、H/W構成一致制御部164は、構成一致情報テーブル167の隠蔽情報に設定が無いモジュールを選択する。つまり、「隠蔽なし」とも「隠蔽」とも設定されていないモジュールが選択される。S602乃至S607の処理は現用サーバにのみ搭載されているモジュールがある場合に実施される処理であるため、設定のないモジュールが存在する可能性が出てくるのである。
そして、H/W構成一致制御部164は、S608で選択されたモジュールのH/W構成一致ポリシー166が「隠蔽なし」であるか判定する(S609)。
「隠蔽なし」となっている場合(S609でYesの場合)には、H/W構成一致制御部164は、「隠蔽なし」を対象モジュールの隠蔽情報として書き込む(S610)。
一方、「隠蔽なし」となっていない場合、つまり「構成一致」となっている場合(S609でNoの場合)、H/W構成一致制御部164は、「引継不可」設定を隠蔽情報として書き込む(S611)。これは、予備サーバにモジュールがないため構成を一致させることができないためである。
H/W構成一致制御部164は、隠蔽情報の設定が無いモジュールについて設定が完了するまで、S608乃至612の処理を繰り返す。
<構成一致情報テーブル>
図7は、H/W構成を一致させるための隠蔽設定を示す構成一致情報テーブル167の構成例を示す図である。当該構成一致情報テーブル167は、図6に示されるH/W構成一致処理の結果作成される情報である。また、構成一致情報テーブル167は、予備サーバのBMCへ送信する情報を管理している。当該情報を受信したBMCは、隠蔽情報を基にモジュールを隠蔽する処理を実行する。
構成一致情報テーブル167は、現用/予備700と、モジュール名702と、隠蔽情報702乃至705と、を構成項目として有している。
現用/予備700は、現用サーバと予備サーバの識別子の組合せを示す情報であり、サーバ名400(図4参照)や現用サーバ500(図5参照)と同じ識別子が用いられている。隠蔽情報702乃至705は、各モジュールの設定を示す情報である。隠蔽情報における「隠蔽なし」は、予備サーバのモジュールを隠蔽しない設定を意味している。また、「隠蔽」は予備サーバのモジュールを隠蔽する設定を意味している。さらに、「引継不可」は、現用サーバと予備サーバの構成が一致しないため、引き継ぎができないことを意味している。
<割り当て決定情報テーブル更新処理>
図8は、現用サーバをどの予備サーバに割り当てるか判定するための情報を取得する処理(割り当て決定情報テーブル更新処理)を説明するためのフローチャートである。
SVP102は、まず、割り当て決定情報を取得する現用サーバと予備サーバの組合せを1つ選択し(S800)、H/W構成一致情報テーブル167(図7参照)を読み込む(S801)。なお、S800の処理とS801の処理の順番は逆であっても良い。
SVP102は、当該選択した現用サーバと予備サーバの組合せに関し、H/W構成一致情報テーブル167の隠蔽情報に「引継不可」があるか判定する(S802)。「引継不可」がない場合(S802でNoの場合)、処理はS803に移行し、「引継不可」がある場合(S802でYesの場合)、処理はS805に移行する。
S803において、SVP102は、割り当て決定情報テーブル(図9)の引き継ぎ可否901の欄に引き継ぎ「可」を書き込み(S803)、その後、隠蔽するモジュール数を合計し、その値を割り当て決定情報テーブルの隠蔽モジュール数904の欄に書き込む(S804)。ここで、本実施形態ではCPUに関しては隠蔽コア数/総コア数とするとしている。コア1個のみ隠蔽することとCPU1個全体を隠蔽することを同列に扱うのは適切ではないからである。ただし、隠蔽するモジュール数の合計方法は問わない。
一方、S805(引継不可ある場合の処理)では、SVP102は、割り当て決定テーブルの引き継ぎ可否901の欄に引き継ぎ不可を意味する「否」を書き込む(S805)。
続いて、SVP102は、現用サーバから予備サーバに引き継いだ場合の、平均CPU周波数増加率905、CPUコア数増加率906、及びメモリ容量増加率907を算出する(S806)。
また、SVP102は、当該現用サーバと予備サーバとの組み合わせにおける構成一致率を算出する(S807)。当該構成一致率を算出する際に考慮するモジュールは、CPUソケット、DIMM、及びI/Oスロットである。図4を例にすると、CPUソケット0、1、2、及び3、DIMM0及び1、I/Oスロット0、1、及び2の合計9個である。CPUコアはモジュール数には数えない。CPUソケットに含まれるものと考えるからである。また、構成一致の条件は、現用サーバと予備サーバにおいて搭載/非搭載が一致していること、周波数、容量が一致していることである。CPUソケットの構成一致については、CPUコアの構成が一致していることである(CPUコアを反映していると考えたため)。よって、図4の例では、構成一致率を算出するための計算式は、(一致するモジュール数)/(全モジュール数=9)である。
次に、SVP102は、H/W構成テーブル167に別の現用サーバと予備サーバの組み合わせがあるか判定する(S808)。現用サーバと予備サーバの組み合わせがある場合(S808でYesの場合)、組み合わせがなくなるまでS802乃至S807の処理が繰り返えされる。現用サーバと予備サーバの組み合わせがない場合(S808でNoの場合)は、処理はS809に移行する。
S809において、SVP102は、現用サーバのECCエラー数の情報を取得する(S809)。また、SVP102は、現用サーバのCPU稼働率の情報を取得する(S810)。これらの情報は、SVP102が各現用サーバに対して現在のECCエラー数及び稼働率の情報の送信を要求することにより取得される。
<割り当て決定情報テーブル>
図9は、現用サーバをどの予備サーバに割り当てるか判定するための情報を管理するための割り当て決定情報テーブルの構成例を示す図である。この割り当て決定情報テーブルと後述の割り当て変更ポリシーとを用いて現用サーバに対して引き継ぐべき予備サーバの割り当てが決定されることになる。
割り当て決定情報テーブルは、引き継ぎ可否901と、引き継ぎ「可」の合計を示す可合計902と、引き継ぎ先候補数903と、隠蔽モジュール数904と、平均CPU周波数増加率905と、CPUコア数増加率906と、メモリ容量増加率907と、H/W構成一致率908と、ECCエラー数909と、稼働率910と、を構成項目として有している。
引き継ぎ可否901は、H/W構成上引き継ぐことが可能かどうかを示す情報である。可合計902は、予備サーバを基準として、現用サーバを引き継ぐことができる数を示す情報である。引き継ぎ先候補数903は、現用サーバを基準として、引き継げる予備サーバがいくつあるのかを示す情報である。隠蔽モジュール数904は、引き継ぐ際に、隠蔽するモジュール数を示す情報である。平均CPU周波数増加率905は、引き継ぎ後にCPU周波数がどのくらい増加するかを示す情報である。CPUコア数増加率906は、引き継ぎ後にCPUコア数がどれだけ増加するのか示す情報である。メモリ容量増加率907は、引き継ぎ後にメモリの容量がどのくらい増加するのかを示す情報である。H/W構成一致率908は、隠蔽しない時の現用サーバと予備サーバの構成がどれだけ一致しているかを示す情報である。ECCエラー数909は、DIMMのECCエラーの数を示す情報であり、DIMMの障害の可能性を図る指標として用いられるものである。ECCエラー数が多い場合は、業務の引き継ぎが実施される可能性が高いことになる。CPU稼働率910は、CPUの使用率を示す情報であり、CPU使用率が高い場合はより性能の高い予備サーバへ引き継ぐ為の指標として用いられるものである。
<割り当て変更ポリシー>
図10及び図11は、現用サーバの割り当て方法のポリシーを示す割り当て変更ポリシーテーブル168の例を示す図である。図10のポリシーと図11のポリシーは別のポリシー例を示している。
割り当て変更ポリシー168は、優先度1000と、ポリシー1001と、ポリシー内容1002乃至1005、或いは1100及び1101と、を構成項目として有している。
優先度1000は、ポリシー1001の実行優先順位を示す情報である。ポリシー1001は、現用サーバと予備サーバの割り当て基準を示す情報である。ポリシー内容1002は、図10のポリシーテーブルにおける優先度1のポリシー内容を示している。ポリシー内容1003は、図10のポリシーテーブルにおける優先度2のポリシー内容を示している。ポリシー内容1004は、図10のポリシーテーブルにおける優先度3のポリシー内容を示している。ポリシー内容1005は、図10のポリシーテーブルにおける優先度4のポリシー内容を示している。ポリシー内容1100は、図11のポリシーテーブルにおける優先度1のポリシー内容を示している。ポリシー内容1101は、図11のポリシーテーブルにおける優先度2のポリシー内容を示している。
なお、割り当て変更ポリシーを設けなくても現用サーバに対する予備サーバの割り当ては可能であるが、当該変更ポリシーを設けずに適当に予備サーバを現用サーバに割り振った場合は予備サーバの割り振りに偏りが生じる可能性がある。例えば、構成が現用サーバよりも大きい予備サーバと構成が現用サーバよりも小さい予備サーバが存在する場合を考える。最初に現用サーバを大きい構成の予備サーバに割り振ったとしたら、残された現用サーバを予備サーバに割り振ることができなくなってしまう。残された割り振り先の予備サーバの構成が現用サーバよりも構成が小さいからである。従って、小さい構成の現用サーバは小さい構成の予備サーバに引き継ぎ、大きい構成の現用サーバは大きい構成の予備サーバに引き継がせる方がリソースを効率的に利用することができる。このような予備サーバの割り当ての効率化を実現するために割り当て変更ポリシーは有益である。
<割り当て決定処理>
図12は、現用サーバをどの予備サーバに割り当てるか決定する割り当て決定処理を説明するためのフローチャートである。
まず、SVP102は、割り当て決定情報テーブル(図9)を読み込み(S1201)、既に作成されている割り当てテーブル(例えば、図13乃至15)があるか判定する(S1202)。割り当てテーブルがない場合(S1202でNoの場合)、処理はS1205に移行する。割り当てテーブルがある場合(S1202でYesの場合)、処理はS1203に移行する。
S1205において、SVP102は、割り当てテーブルを作成する(割り当てテーブルの初期化処理204(図2参照)に対応)。
そして、SVP102は、現用サーバを構成一致率が最も高い予備サーバへ割り当てる(S1206)。同率の場合は予備サーバの識別子が最も小さく割り振り可能な予備サーバへ割り振ることとする。ただし、必ずしも最も小さくなくても良く、同率の場合にサーバを割り当てる基準があればよい。なお、S1206は、初回の割り当て処理のときのみ実行される処理である。
一方、S1203において、SVP102は、割り当て決定情報テーブル(図9)を参照し、候補数が「1」のサーバを引き継ぎ可否が可のサーバに割り振る(S1203)。候補数が1のサーバは引き継ぎ先が1つであるため、必然的に割り振り先が決定する。
次に、SVP102は、候補数が2のサーバの割り振りを行うために、候補数Xを2に設定する(S1204)。
そして、SVP102は、Xが予備サーバ数よりも大きいか判定する(S1207)。Xが予備サーバよりも大きい値である場合(S1207でYesの場合)、処理は終了する。一方、Xが予備サーバ数以下である場合(S1207でNoの場合)、処理はS1208に移行する。
S1208において、SVP102は、候補数Xの値を取る予備サーバがあるか判定する(S1208)。そのような予備サーバがある場合(S1208でYesの場合)、処理はS1209に移行し、そのような予備サーバない場合(S1208でNoの場合)、処理はS1215に移行する。
S1209では、SVP102は、優先度y=1に設定する(S1209)。そして、SVP102は、割り当て変更ポリシー(図10或いは11参照)を参照し、優先度y=1の割り当て変更ポリシーを読み込む(S1210)。
次に、SVP102は、割り当て変更ポリシーが読み込めたか否か判定する(S1211)。読み込めなかった場合(S1211でNo)、処理はS1215に移行する。読み込めた場合(S1211でYesの場合)、処理はS1212に移行する。優先度y=1の場合には、割り当て変更ポリシーは読み込めるので、処理はS1212に移行することになる。
割り当て変更ポリシーを読み込めない場合(S1211でNoの場合)、S1215において、SVP102は、割り当て変更ポリシーの割り当て方法に従って引き継ぐ条件を決定することができないので、識別子(予備サーバ番号(予備サーバ名))が最も小さく割り当て可能な予備サーバに割り当てる(S1214)。そして、処理はS1215に移行し、候補数Xに1を加えてS1207以降の処理が繰り返されることになる。なお、S1214の処理について、必ずしも識別子が最小である必要は無いが、現用サーバを予備サーバに必ず割り振りができる条件である必要がある。
一方、割り当て変更ポリシーが読み込めた場合(S1211でYesの場合)、S1212において、SVP102は、候補数がXを取る現用サーバの全てが予備サーバに割り振れたか(引き継ぎ可能か)判定する(S1212)。割り振れた場合(S1212でYesの場合)、処理はS1215に移行し、候補数Xに1が加えられ、S1207以降の処理が繰り返される。割り振れなかった場合(S1212でNoの場合)、処理はS213に移行する。
S1213において、SVP102は、次の優先度(前回の優先度をyとすると(y+1)の優先度)を選択する。そして、S1210以降の処理が優先度(y+1)について繰り返されることになる。このようにして、S1210乃至S1213の処理によって、優先度yが高い順に割り当て変更ポリシーを読み込んで候補数Xの現用サーバ(全ての現用サーバ)に予備サーバが割り当てられる。候補数Xが予備サーバ数よりも多くなった場合(S1207でYesの場合)、処理は終了する。
<割り当て結果>
図13乃至15は、現用サーバをどの予備サーバに割り当てるのかの情報を管理する割り当てテーブルの構成例を示す図である。割り当てテーブルの情報は、割り当てのタイミングや図9の割り当て決定情報テーブル、図10及び11の割り当て変更ポリシー168の状態によってとりうる値が変化する。
割り当てテーブルは、割り当て先の予備サーバの情報を示す割り当て1300と、現用サーバに割り当てられた予備サーバの情報と、ECCエラー合計1301と、割り当てサーバ数1302と、を構成情報として有している。ECCエラー合計1301は、予備サーバに割り当てられている現用サーバのECCエラー数の合計を示す情報である。割り当てサーバ数1302は、予備サーバに割り当てられている現用サーバの数を示す情報である。図13は、初回割り当て処理の結果(S1206の結果)を示している。図14は、図10の割り当て変更ポリシーに従って割り当て更新処理がなされた結果(S1202乃至S1215の結果)、図15は、図11の割り当て変更ポリシーに従って割り当て更新処理がなされた結果(S1202乃至S1215の結果)を示している。
(i)図13(初回割り当て処理の結果)
図13の初回割り当てでは、現用サーバは、図9の割り当て決定情報テーブルの構成一致率908が最も高いサーバに割り当てられる。現用サーバ3に関し、予備サーバ1の構成一致率は66で、予備サーバ2の構成一致率は44である。このため、現用サーバ3の引き継ぎ先は予備サーバ1となる。現用サーバ4、5、6、及び7についても同様の処理が実行されて予備サーバが割り当てられる。
(ii)図14(図10の割り当て変更ポリシーに基づく割り当て更新処理の結果)
図14は、図10の割り当て変更ポリシーを用いて割り当て処理を行った場合の結果を示している。
図10の割り当て変更処理(割り当て更新処理)では、まず、現用サーバ6は引き継ぎ先が1つしかないため予備サーバ2へ割り当てられる。その後、現用サーバ3、4、5、及び7について、図10の割り当て変更ポリシーの優先度1のポリシー1002が実行される。ECCエラー数が50を超えるサーバは、図9の割り当て決定テーブルのECCエラー数909から現用サーバ5及び7が該当する。また、現用サーバ7の方がECCエラー数の値は大きいため現用サーバ5よりも先に割り当て処理が実行される。ポリシー1002の(1)に関し、引き継ぎ元である現用サーバ7を割り当てる段階ではECCエラー数合計1301が0のため、(2)が実行される。図9の引き継ぎ先候補の「可合計」902は予備サーバ1のほうが小さいため、現用サーバ7は予備サーバ1に割り当てられる。
次に、現用サーバ5に関して(1)が実行される。既に現用サーバ7が割り当てられており、予備サーバ1のECCエラー数合計1301は80であり、予備サーバ2のECCエラー合計1301は0である。そのため、現用サーバ5はECCエラー数合計1301の小さい予備サーバ2に割り当てられる。ECCエラー数が50を超えるサーバがなくなったため、ポリシー1002に基づく割り当て処理は終了する。
次に、ポリシー1003が実行される。図9の稼働率910が90%を超えるサーバには、現用サーバ3が該当する。現用サーバ3は、CPUコア数増加率が2.0以上となる予備サーバに割り当てられる。この条件に当てはまるのは予備サーバ2に割り当てた場合であり、現用サーバ3は予備サーバ2に割り当てられることになる。
続いて、ポリシー1004が実行される。割り当て処理の対象は現用サーバ4である。現用サーバ4の図9のCPUコア数増加率906は予備サーバ1及び2において同率となっている。このため、ポリシー1004を用いても割り当てを決定できない。よって、ポリシー1004の実行は終了する。
ポリシー1005では、隠蔽モジュール数で割り当てを決定する。しかし、現用サーバ4の図9の隠蔽モジュール数は、予備サーバ1及び2において同率である。このため割り当てを決定できない。よって、ポリシー1005は終了する。
ポリシーを全て読み込み、これ以上ポリシーを読み込むことはできない。その場合は図12の1214の処理が実行され、サーバ名(予備サーバ番号)が最も小さい予備サーバに割り当てられることになる。よって、現用サーバ4は予備サーバ1へ割り当てられる。
これにより全ての現用サーバの割り当てが完了し、結果が図14となる。
(iii)図15(図11の割り当て変更ポリシーに基づく割り当て更新処理の結果)
図15は、図11の割り当て変更ポリシーを用いて割り当て処理を行った場合の結果を示している。
図11の割り当て変更処理(割り当て更新処理)では、現用サーバ6は引き継ぎ先が1つのため予備サーバ1へ割り当てられる。その後、図11の割り当て変更ポリシーの優先度1のポリシー1100が実行される。本処理は図14のケースと同じのため割愛する。
次に、ポリシー1101が実施される。処理対象は、現用サーバ3及び4であり、(1)が実行され、割り当てサーバ数1302の数が最も小さい予備サーバへ割り振る。予備サーバ1の割り当てサーバ数は1、予備サーバ2は2であるため、現用サーバ3は予備サーバ1へ割り振られる。
続いて、現用サーバ4の割り当てが実行される。しかし、現用サーバ3の割り当ての結果、割り当てサーバ数が予備サーバ1及び2において同率となるため、(2)の処理が実行されることになる。(2)ではECCエラー数合計1301が最も小さい予備サーバに割り当てられる。このため、現用サーバ4は、予備サーバ2に割り当てられる。
これにより全ての現用サーバの割り当てが完了し、結果が図15に示す通りとなる。
<まとめ>
(i)本発明の実施形態では、現用サーバと予備サーバの組み合せのそれぞれについてハードウェア構成を比較し、ハードウェア構成一致ポリシー情報を参照して、現用サーバと予備サーバの組み合わせのそれぞれについてハードウェア構成の隠蔽の有無、及び引き継ぎの可否について決定する。また、現用サーバと予備サーバの組み合せのそれぞれについてハードウェア構成の一致割合を示す構成一致率を算出する。そして、現用サーバと予備サーバの組み合わせのそれぞれについての、ハードウェア構成の隠蔽の有無の情報及び引き継ぎ可否の情報と、構成一致率の情報に基づいて、現用サーバの引き継ぎ先である予備サーバを割り当てる。このようにすることにより、現用サーバと予備サーバのH/W構成が異なる場合でも、OSに影響なく業務を引き継ぐことが可能な引き継ぎ先の予備サーバを決定することができる。また、切り替え後にOS上でI/Oの認識作業を必要とせず、CPUソケット/コアに連動するライセンスの制約を受けないという効果も期待できる。さらに、OS上で動作するプログラムがライセンスの制約を受けない。このように、H/Wリソースを効率よく利用することで、引き継ぎ可能なサーバ数を保つことで可用性を向上させることができ、故障しそうなサーバを優先してサーバの割り当てを決定することで可用性を向上させることができる。
いずれかの現用サーバに障害が発生した場合には、この現用サーバの引き継ぎ先として割り当てられた予備サーバにハードウェアの隠蔽の有無の情報が送信される。当該予備サーバは、ハードウェアの隠蔽の有無の情報に基づいてハードウェアの隠蔽処理を実行し、当該隠蔽処理の完了通知をSVP(ローカル管理計算機)に送信する。そして、SVPは、障害が発生した現用サーバを引き継ぎ先として割り当てられた予備サーバに切り替える処理を実行する。このようにすることで、現用サーバと予備サーバのH/W構成が異なる場合でも、H/Wリソースを効率よく利用しながら、障害が発生した現用サーバから予備サーバに業務を引き継ぐことができるようになる。
また、本実施形態では、一旦決定した引き継ぎ先の予備サーバの割り当てを動的に変更(更新)する。例えば、現用サーバのECCエラー数に基づいて、既に実行された予備サーバの割り当てを変更する。或いは、ECCエラー数に加えて、現用サーバのCPU稼働率の情報と、現用サーバと予備サーバの組み合わせのそれぞれにおけるCPUコア数増加率の情報と、を用いて、動的に予備サーバの割り当てを変更する。この場合、予め、割り当て変更処理のためのポリシーを規定しておくことも可能である。この変更ポリシーには、ECCエラー数に基づく予備サーバの割り当ての条件が規定されたり、或いは、ECCエラー数に基づく予備サーバの割り当ての条件、CPUの稼働率に基づく予備サーバの割り当ての条件、及びCPUコア数増加率に基づく予備サーバの割り当ての条件が規定されたりする。複数の条件がポリシーに含まれる場合には、各条件に対する検討順を示す優先度が設定されるようにしても良い。このようにすることで、単純に現用サーバと予備サーバとの構成の差異のみを考慮して引き継ぎ先を決定する場合に比べて、予備サーバの割り振り偏りが生じることを回避することができるようになる。つまり、例えば、構成が現用サーバよりも大きい予備サーバと構成が現用サーバよりも小さい予備サーバが存在する場合を考える。最初に現用サーバを大きい構成の予備サーバに割り振ったとしたら、残された現用サーバを予備サーバに割り振ることができなくなってしまう。残された割り振り先の予備サーバの構成が現用サーバよりも構成が小さいからである。従って、小さい構成の現用サーバは小さい構成の予備サーバに引き継ぎ、大きい構成の現用サーバは大きい構成の予備サーバに引き継がせる方がリソースを効率的に利用することができる。このような予備サーバの割り当ての効率化を実現するために割り当て変更ポリシーを設けることは有益である。
なお、本実施形態では、1つのシャーシに含まれるSVP、現用サーバ、及び予備サーバを1つのサーバシステム(ブレードサーバ)として捉えている。実際のシステム(計算機システム)は、このようなサーバシステムが複数個設けられて構成されている。この複数のサーバシステムを管理するために、管理プログラムを有するグローバル管理計算機が設けられている。このグローバル管理計算機は、複数のサーバシステムにおけるSVP(ローカル管理計算機)間の通信を管理する。基本的なサーバの引き継ぎ先決定処理(予備サーバの割り当て処理)は、まず同一シャーシ内の予備サーバを候補として検討するが、異なるシャーシ(サーバシステム)に格納される予備サーバを候補としてもよい。これを実現するために、グローバル管理計算機を介して、各SVPは、異なるサーバシステムに配置された現用サーバ及び予備サーバのハードウェア構成情報を取得する。そして、各SVPは、自身のサーバシステムにおける現用サーバの引き継ぎ先として、自身のサーバシステムとは異なるサーバシステムにおける予備サーバを割り当てるようにする。これにより、同一サーバシステム(シャーシ)内に引き継ぎ先として適切な予備サーバが無い場合であっても他のサーバシステムにおける予備サーバに引き継ぐことが可能となるので、より効率よくハードウェアリソースを活用することが可能となる。
(ii)本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
100・・・現用サーバ
101・・・予備サーバ
102・・・SVP(Service Processor)
103・・・管理プログラム
110・・・BMC(Baseboard Management Controller)
111・・・CPU隠蔽制御部
112・・・DIMM隠蔽制御部
113・・・I/O隠蔽制御部
120−121・・・CPUソケット
130−131・・・CPUコア
140・・・DIMM
150・・・I/Oスロット
160・・・N+M制御部
161・・・Conf取得制御部
162・・・引き継ぎ制御部
163・・・H/W構成取得制御部
164・・・H/W構成一致制御部
165・・・H/W構成テーブル
166・・・H/W構成一致ポリシー
167・・・構成一致情報テーブル
168・・・割り当て変更ポリシー

Claims (14)

  1. 業務を処理し、稼働中の少なくとも1つの現用サーバと、
    前記現用サーバが故障した際に当該故障した現用サーバの業務を引き継がせるために用意された少なくとも1つの予備サーバと、
    前記現用サーバ及び前記予備サーバを監視し、サーバの切り替えを制御するローカル管理計算機と、を有し、
    前記ローカル管理計算機は、
    前記現用サーバの業務の引き継ぎ先である予備サーバの割り当て処理を実行するプロセッサと、
    サーバの引き継ぎを可能とするハードウェア構成の条件を示すハードウェア構成一致ポリシー情報を少なくとも格納するメモリと、を有し、
    前記プロセッサは、
    前記現用サーバ及び前記予備サーバからそれぞれのハードウェア構成情報を取得する処理と、
    前記取得したハードウェア構成情報に基づいて、前記現用サーバと前記予備サーバの組み合せのそれぞれについてハードウェア構成を比較し、前記メモリから読み出した前記ハードウェア構成一致ポリシー情報を参照して、前記現用サーバと前記予備サーバの組み合わせのそれぞれについてハードウェア構成の隠蔽の有無、及び引き継ぎの可否について決定する処理と、
    前記現用サーバと前記予備サーバの組み合せのそれぞれについてハードウェア構成の一致割合を示す構成一致率を算出する処理と、
    前記現用サーバと前記予備サーバの組み合わせのそれぞれについての、前記ハードウェア構成の隠蔽の有無の情報及び前記引き継ぎ可否の情報と、前記構成一致率の情報に基づいて、前記現用サーバの引き継ぎ先である予備サーバを割り当てる処理と、を実行し、
    前記プロセッサは、前記決定する処理において、前記現用サーバ及び前記予備サーバに搭載されているハードウェア構成に対しては「隠蔽なし」とし、前記現用サーバ及び前記予備サーバの両方に搭載されていないハードウェア構成に対しては「隠蔽」とし、前記現用サーバに搭載されているハードウェア構成が前記予備サーバに搭載されていない場合には「引継不可」とすることを特徴とするサーバシステム。
  2. 請求項1において、
    前記プロセッサは、さらに、
    前記現用サーバのECCエラー数の情報を取得する処理と、
    前記取得したECCエラー数に基づいて、既に実行された予備サーバの割り当てを変更し、動的に予備サーバを現用サーバに割り当てる処理と、
    を実行することを特徴とするサーバシステム。
  3. 請求項2において、
    前記プロセッサは、さらに、
    前記現用サーバのCPU稼働率の情報と、前記現用サーバと前記予備サーバの組み合わせのそれぞれにおけるCPUコア数増加率の情報と、を取得する処理と、
    前記ECCエラー数に加えて、前記CPU稼働率及び前記CPUコア数増加率の情報を用いて、動的に予備サーバを現用サーバに割り当てる処理と、
    を実行することを特徴とするサーバシステム。
  4. 請求項2において、
    前記メモリは、さらに、少なくとも前記ECCエラー数に基づく予備サーバの割り当ての条件を規定する割り当て変更ポリシー情報を格納し、
    前記プロセッサは、前記メモリから前記割り当て変更ポリシー情報を読み出し、前記動的に予備サーバを現用サーバに割り当てる処理を実行することを特徴とするサーバシステム。
  5. 請求項3において、
    前記メモリは、さらに、前記ECCエラー数に基づく予備サーバの割り当ての条件、前記CPUの稼働率に基づく予備サーバの割り当ての条件、及び前記CPUコア数増加率に基づく予備サーバの割り当ての条件を規定する割り当て変更ポリシー情報を格納し、
    前記割り当て変更ポリシー情報における各割り当ての条件には検討の優先度が設定されており、
    前記プロセッサは、前記メモリから前記割り当て変更ポリシー情報を読み出し、前記検討の優先度に従って前記割り当て変更ポリシー情報を検討し、前記動的に予備サーバを現用サーバに割り当てる処理を実行することを特徴とするサーバシステム。
  6. 請求項1において、
    前記プロセッサは、さらに、
    前記現用サーバの何れかについての障害通知に応答して、障害が発生した前記現用サーバの引き継ぎ先として割り当てられた前記予備サーバに前記ハードウェアの隠蔽の有無の情報を送信する処理と、
    前記予備サーバから、前記ハードウェアの隠蔽の有無の情報に基づいて実行されたハードウェアの隠蔽処理の完了通知を受信する処理と、
    前記障害が発生した現用サーバを前記引き継ぎ先として割り当てられた前記予備サーバに切り替える処理と、
    を実行することを特徴とするサーバシステム。
  7. 複数の、請求項1に記載のサーバシステムと、
    前記複数のサーバシステムを管理するグローバル管理計算機と、を有する計算機システムであって
    前記グローバル管理計算機は、前記複数のサーバシステムにおける前記ローカル管理計算機間のハードウェア構成情報取得に関する通信を管理することにより、前記ローカル管理計算機が異なるサーバシステムに配置された前記現用サーバ及び前記予備サーバのハードウェア構成情報を取得することを可能にし、
    前記ローカル管理計算機は、自身のサーバシステムにおける現用サーバの引き継ぎ先として、自身のサーバシステムとは異なるサーバシステムにおける予備サーバを割り当てることを特徴とする計算機システム。
  8. 業務を処理し、稼働中の少なくとも1つの現用サーバと、前記現用サーバが故障した際に当該故障した現用サーバの業務を引き継がせるために用意された少なくとも1つの予備サーバと、前記現用サーバ及び前記予備サーバを監視し、サーバの切り替えを制御するローカル管理計算機と、を有するサーバシステムの管理方法であって、
    前記ローカル管理計算機は、前記現用サーバの業務の引き継ぎ先である予備サーバの割り当て処理を実行するプロセッサと、サーバの引き継ぎを可能とするハードウェア構成の条件を示すハードウェア構成一致ポリシー情報を少なくとも格納するメモリと、を有し、
    前記管理方法は、
    前記プロセッサが、前記現用サーバ及び前記予備サーバからそれぞれのハードウェア構成情報を取得するステップと、
    前記プロセッサが、前記取得したハードウェア構成情報に基づいて、前記現用サーバと前記予備サーバの組み合せのそれぞれについてハードウェア構成を比較し、前記メモリから読み出した前記ハードウェア構成一致ポリシー情報を参照して、前記現用サーバと前記予備サーバの組み合わせのそれぞれについてハードウェア構成の隠蔽の有無、及び引き継ぎの可否について決定するステップと、
    前記プロセッサが、前記現用サーバと前記予備サーバの組み合せのそれぞれについてハードウェア構成の一致割合を示す構成一致率を算出するステップと、
    前記プロセッサが、前記現用サーバと前記予備サーバの組み合わせのそれぞれについての、前記ハードウェア構成の隠蔽の有無の情報及び前記引き継ぎ可否の情報と、前記構成一致率の情報に基づいて、前記現用サーバの引き継ぎ先である予備サーバを割り当てるステップと、を含み、
    前記プロセッサは、前記決定するステップにおいて、前記現用サーバ及び前記予備サーバに搭載されているハードウェア構成に対しては「隠蔽なし」とし、前記現用サーバ及び前記予備サーバの両方に搭載されていないハードウェア構成に対しては「隠蔽」とし、前記現用サーバに搭載されているハードウェア構成が前記予備サーバに搭載されていない場合には「引継不可」とすることを特徴とするサーバシステムの管理方法。
  9. 請求項8において、さらに、
    前記プロセッサが、前記現用サーバのECCエラー数の情報を取得するステップと、
    前記プロセッサが、前記取得したECCエラー数に基づいて、既に実行された予備サーバの割り当てを変更し、動的に予備サーバを現用サーバに割り当てるステップと、
    を含むことを特徴とするサーバシステムの管理方法。
  10. 請求項9において、さらに、
    前記プロセッサが、前記現用サーバのCPU稼働率の情報と、前記現用サーバと前記予備サーバの組み合わせのそれぞれにおけるCPUコア数増加率の情報と、を取得するステップと、
    前記プロセッサが、前記ECCエラー数に加えて、前記CPU稼働率及び前記CPUコア数増加率の情報を用いて、動的に予備サーバを現用サーバに割り当てるステップと、を含むことを特徴とするサーバシステムの管理方法。
  11. 請求項9において、
    前記メモリは、さらに、少なくとも前記ECCエラー数に基づく予備サーバの割り当ての条件を規定する割り当て変更ポリシー情報を格納し、
    前記動的に予備サーバを現用サーバに割り当てるステップにおいて、前記プロセッサは、前記メモリから前記割り当て変更ポリシー情報を読み出し、前記動的に予備サーバを現用サーバに割り当てることを特徴とするサーバシステムの管理方法。
  12. 請求項10において、
    前記メモリは、さらに、前記ECCエラー数に基づく予備サーバの割り当ての条件、前記CPUの稼働率に基づく予備サーバの割り当ての条件、及び前記CPUコア数増加率に基づく予備サーバの割り当ての条件を規定する割り当て変更ポリシー情報を格納し、
    前記割り当て変更ポリシー情報における各割り当ての条件には検討の優先度が設定されており、
    前記動的に予備サーバを現用サーバに割り当てるステップにおいて、前記プロセッサは、前記メモリから前記割り当て変更ポリシー情報を読み出し、前記検討の優先度に従って前記割り当て変更ポリシー情報を検討し、前記動的に予備サーバを現用サーバに割り当てることを特徴とするサーバシステムの管理方法。
  13. 請求項8において、さらに、
    前記プロセッサが、前記現用サーバの何れかについての障害通知に応答して、障害が発生した前記現用サーバの引き継ぎ先として割り当てられた前記予備サーバに前記ハードウェアの隠蔽の有無の情報を送信するステップと、
    前記引き継ぎ先として割り当てられた予備サーバが、前記ハードウェアの隠蔽の有無の情報に基づいてハードウェアの隠蔽処理を実行するステップと、
    前記プロセッサが、前記予備サーバから前記隠蔽処理の完了通知を受信するステップと、
    前記プロセッサが、前記障害が発生した現用サーバを前記引き継ぎ先として割り当てられた前記予備サーバに切り替えるステップと、
    を含むことを特徴とするサーバシステムの管理方法。
  14. 業務を処理し、稼働中の少なくとも1つの現用サーバと、前記現用サーバが故障した際に当該故障した現用サーバの業務を引き継がせるために用意された少なくとも1つの予備サーバと、前記現用サーバ及び前記予備サーバを監視し、サーバの切り替えを制御するローカル管理計算機と、を有するサーバシステムにおける前記ローカル管理計算機のプロセッサに、前記現用サーバの業務の引き継ぎ先である予備サーバの割り当て処理を実行させるためのプログラムを記憶するコンピュータ読み取り可能な記憶媒体であって、
    前記プログラムは、前記プロセッサに、
    前記現用サーバ及び前記予備サーバからそれぞれのハードウェア構成情報を取得する処理と、
    前記取得したハードウェア構成情報に基づいて、前記現用サーバと前記予備サーバの組み合せのそれぞれについてハードウェア構成を比較し、サーバの引き継ぎを可能とするハードウェア構成の条件を示すハードウェア構成一致ポリシー情報を少なくとも格納するメモリから読み出した前記ハードウェア構成一致ポリシー情報を参照して、前記現用サーバと前記予備サーバの組み合わせのそれぞれについてハードウェア構成の隠蔽の有無、及び引き継ぎの可否について決定する処理と、
    前記現用サーバと前記予備サーバの組み合せのそれぞれについてハードウェア構成の一致割合を示す構成一致率を算出する処理と、
    前記現用サーバと前記予備サーバの組み合わせのそれぞれについての、前記ハードウェア構成の隠蔽の有無の情報及び前記引き継ぎ可否の情報と、前記構成一致率の情報に基づいて、前記現用サーバの引き継ぎ先である予備サーバを割り当てる処理と、を実行し、
    前記プロセッサが、前記決定する処理において、前記現用サーバ及び前記予備サーバに搭載されているハードウェア構成に対しては「隠蔽なし」とし、前記現用サーバ及び前記予備サーバの両方に搭載されていないハードウェア構成に対しては「隠蔽」とし、前記現用サーバに搭載されているハードウェア構成が前記予備サーバに搭載されていない場合には「引継不可」とするためのプログラムコードを含むことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2015536369A 2013-09-12 2013-09-12 サーバシステム、計算機システム、サーバシステムの管理方法、及びコンピュータ読み取り可能な記憶媒体 Expired - Fee Related JP6063576B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/074725 WO2015037103A1 (ja) 2013-09-12 2013-09-12 サーバシステム、計算機システム、サーバシステムの管理方法、及びコンピュータ読み取り可能な記憶媒体

Publications (2)

Publication Number Publication Date
JP6063576B2 true JP6063576B2 (ja) 2017-01-18
JPWO2015037103A1 JPWO2015037103A1 (ja) 2017-03-02

Family

ID=52665245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015536369A Expired - Fee Related JP6063576B2 (ja) 2013-09-12 2013-09-12 サーバシステム、計算機システム、サーバシステムの管理方法、及びコンピュータ読み取り可能な記憶媒体

Country Status (3)

Country Link
US (1) US9792189B2 (ja)
JP (1) JP6063576B2 (ja)
WO (1) WO2015037103A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6579995B2 (ja) * 2016-04-26 2019-09-25 三菱電機株式会社 静観候補特定装置、静観候補特定方法及び静観候補特定プログラム
CN113032229B (zh) * 2021-02-24 2022-09-20 山东英信计算机技术有限公司 一种java性能测试方法、系统及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163963A (ja) * 2004-12-09 2006-06-22 Hitachi Ltd ディスク引き継ぎによるフェイルオーバ方法
JP2008097276A (ja) * 2006-10-11 2008-04-24 Hitachi Ltd 障害回復方法、計算機システム及び管理サーバ
JP2009140194A (ja) * 2007-12-06 2009-06-25 Hitachi Ltd 障害回復環境の設定方法
JP5208324B1 (ja) * 2012-02-20 2013-06-12 三菱電機株式会社 情報システム管理装置及び情報システム管理方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4842210B2 (ja) 2007-05-24 2011-12-21 株式会社日立製作所 フェイルオーバ方法、計算機システム、管理サーバ及び予備サーバの設定方法
US8121966B2 (en) * 2008-06-05 2012-02-21 International Business Machines Corporation Method and system for automated integrated server-network-storage disaster recovery planning
JP4648447B2 (ja) * 2008-11-26 2011-03-09 株式会社日立製作所 障害復旧方法、プログラムおよび管理サーバ
JP4727714B2 (ja) * 2008-12-05 2011-07-20 株式会社日立製作所 サーバのフェイルオーバの制御方法及び装置、並びに計算機システム群
US8112657B2 (en) * 2010-06-14 2012-02-07 At&T Intellectual Property I, L.P. Method, computer, and computer program product for hardware mapping

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163963A (ja) * 2004-12-09 2006-06-22 Hitachi Ltd ディスク引き継ぎによるフェイルオーバ方法
JP2008097276A (ja) * 2006-10-11 2008-04-24 Hitachi Ltd 障害回復方法、計算機システム及び管理サーバ
JP2009140194A (ja) * 2007-12-06 2009-06-25 Hitachi Ltd 障害回復環境の設定方法
JP5208324B1 (ja) * 2012-02-20 2013-06-12 三菱電機株式会社 情報システム管理装置及び情報システム管理方法及びプログラム

Also Published As

Publication number Publication date
JPWO2015037103A1 (ja) 2017-03-02
WO2015037103A1 (ja) 2015-03-19
US9792189B2 (en) 2017-10-17
US20160266987A1 (en) 2016-09-15

Similar Documents

Publication Publication Date Title
US11438411B2 (en) Data storage system with redundant internal networks
US11237772B2 (en) Data storage system with multi-tier control plane
US11467732B2 (en) Data storage system with multiple durability levels
US10484015B2 (en) Data storage system with enforced fencing
US11936731B2 (en) Traffic priority based creation of a storage volume within a cluster of storage nodes
US8473692B2 (en) Operating system image management
US10635551B2 (en) System, and control method and program for input/output requests for storage systems
JP5069732B2 (ja) 計算機装置、計算機システム、アダプタ承継方法
CN107710160B (zh) 计算机和存储区域管理方法
JP4920248B2 (ja) サーバの障害回復方法及びデータベースシステム
US9772785B2 (en) Controlling partner partitions in a clustered storage system
US9606878B2 (en) Host swap hypervisor that provides high availability for a host of virtual machines
US9916215B2 (en) System and method for selectively utilizing memory available in a redundant host in a cluster for virtual machines
US10353786B2 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
US20140282584A1 (en) Allocating Accelerators to Threads in a High Performance Computing System
US11405455B2 (en) Elastic scaling in a storage network environment
JP6063576B2 (ja) サーバシステム、計算機システム、サーバシステムの管理方法、及びコンピュータ読み取り可能な記憶媒体
JP6674101B2 (ja) 制御装置および情報処理システム
US20220215001A1 (en) Replacing dedicated witness node in a stretched cluster with distributed management controllers
US11431552B1 (en) Zero traffic loss in VLT fabric
JP7087719B2 (ja) コンピュータシステム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161216

R151 Written notification of patent or utility model registration

Ref document number: 6063576

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees