JP2014137681A

JP2014137681A - 管理装置、管理方法、および管理プログラム

Info

Publication number: JP2014137681A
Application number: JP2013005450A
Authority: JP
Inventors: Takamasa Otake; 孝昌大竹
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-01-16
Filing date: 2013-01-16
Publication date: 2014-07-28
Anticipated expiration: 2033-01-16
Also published as: JP6179101B2; US20140201577A1; US9442784B2

Abstract

【課題】待機中に故障する演算装置があっても、処理を実行している稼働中の演算装置に故障した場合に、故障した稼働中の演算装置から待機中の演算装置に、処理を実行する演算装置を切り替える管理装置を提供する。
【解決手段】本発明の管理装置は、複数の演算装置に対して、前記演算装置が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置の識別子に対応付けて記憶するノード情報記憶手段と、前記非稼働状態である前記演算装置の各々から、故障の有無を取得する故障状態取得手段と、前記稼働状態である前記演算装置の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する指示手段とを含む。
【選択図】図１４

Description

本発明は管理装置、管理方法、および管理プログラムに関し、特に、複数の演算装置の管理装置、管理方法、および管理プログラムに関する。

複数のサーバなどの演算装置で構成される、クラウドシステムなどの情報処理システムにおいて、動作中の演算装置に故障が発生した場合に、待機中の演算装置を起動する情報処理システムの例が、特許文献１及び特許文献２に記載されている。

特許文献１に記載されている計算機システムは、業務を行う第１の計算機と、待機系の計算機と、第２の計算機と、第３の計算機を含む。第２の計算機は、第１の計算機及び待機系の計算機の管理を行う。第３の計算機は、待機系の計算機の起動及び停止の管理を行う。第１の計算機に障害が発生したとき、第２の計算機は、第１の計算機から待機系の計算機の業務を引き継がせる。第３の計算機は、発生した障害が管理部を備える第２の計算機か否かを判定する。第３の計算機は、第２の計算機に障害が発生したときに、取得した構成情報に基づき、第２の計算機から待機系の計算機に管理部を引き継がせる。

特許文献２のクラスタシステムは、３以上のノードを有する。各ノードは、アプリケーションを実行する第１のノードと、第１のノードに障害が発生したときにアプリケーションを実行する第２のードと、これら以外の第３のノードのいずれのノードであるか決定するクラスタ管理部を含む。第２のノードは、完全同期方式を用いて第１のノードとアプリケーション情報を同期させる。また、第２のノード及び第３のノードのクラスタ管理部は、それぞれ、第１のノードの障害の発生を検出する。第１のノードの障害の発生が検出された場合、第２のノードは第１のノードとして動作する。また、第１のノードの障害の発生が検出された場合、１つの第３のノードのクラスタ管理部が、第２のノードへの変更を決定する。クラスタ管理部が第２のノードへの変更を決定した第３のノードは、第２のノードとして動作する。

特開２０１０−０６７０４２号公報特開２０１２−１８５５６０号公報

特許文献１及び特許文献２の技術では、待機中の演算装置が故障した場合、処理を実行している稼働中の演算装置に故障しても、故障した稼働中の演算装置から待機中の演算装置への、処理を実行する演算装置の切り替えを正常に行うことはできない。

本発明の目的は、待機中に故障する演算装置があっても、処理を実行している稼働中の演算装置に故障した場合に、故障した稼働中の演算装置から待機中の演算装置に、処理を実行する演算装置を切り替える管理装置を提供することにある。

本発明の管理装置は、複数の演算装置に対して、前記演算装置が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置の識別子に対応付けて記憶するノード情報記憶手段と、前記非稼働状態である前記演算装置の各々から、故障の有無を取得する故障状態取得手段と、前記稼働状態である前記演算装置の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する指示手段とを含む。

本発明の管理方法は、複数の演算装置に対して、前記演算装置が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置の識別子に対応付けてノード情報記憶手段に記憶し、前記非稼働状態である前記演算装置の各々から、故障の有無を取得し、前記稼働状態である前記演算装置の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する。

本発明の管理プログラムは、コンピュータを、複数の演算装置に対して、前記演算装置が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置の識別子に対応付けて記憶するノード情報記憶手段と、前記非稼働状態である前記演算装置の各々から、故障の有無を取得する故障状態取得手段と、前記稼働状態である前記演算装置の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する指示手段として動作させる。

本発明には、待機中に故障する演算装置があっても、処理を実行している稼働中の演算装置に故障した場合に、故障した稼働中の演算装置から待機中の演算装置に、処理を実行する演算装置を切り替えることができるという効果がある。

図１は、第１の実施形態の情報処理システム１００全体の構成の例を表すブロック図である。図２は、ノード２の構成の例を表すブロック図である。図３は、第１の実施形態の第２の変形例の情報処理システム１００全体の構成の例を表すブロック図である。図４は、管理装置１と、他のノード２との関係を表す図である。図５は、第１の実施形態の管理装置１の動作の例を表すフローチャートである。図６は、ノード情報記憶部１０が記憶するノードリストの例を表す図である。図７は、ノード２の状態の送信時における稼働交代送信部２２の動作の一例を表すフローチャートである。図８は、各ノード２の状態の受信時の、稼働検出部１３の動作の一例を表すフローチャートである。図９は、故障状態取得部１１の、非稼働状態のノード２の故障の有無を受信する動作の一例を表すフローチャートである。図１０は、故障検出部２３の、故障の有無の問い合わせの受信時の動作の一例を表すフローチャートである。図１１は、非稼働状態であるノード２の、ＢＭＣ３の動作を表すフローチャートである。図１２は、第１の実施形態の変形例の情報処理システム１００の構成を表す図である。図１３は、第１の実施形態と第１の実施形態の変形例の、故障状態取得部１１による最後の状態確認から、起動部２４による主処理部４の起動までの時間を表す図である。図１４は、本実施形態の管理装置１の構成を表すブロック図である。

次に、本発明の実施の形態について、図面を参照して詳細に説明する説明する。

図１は、本発明の第１の実施形態の情報処理システム１００全体の構成の例を表すブロック図である。

図１の情報処理システム１００は、互いに通信可能な複数の、演算装置であるノード２を含む。図１の例では、情報処理システム１００は、ｋ台のノード２を含むクラスタシステムである。

図２は、ノード２の構成の例を表すブロック図である。

図２を参照すると、ノード２は、ＢＭＣ３（ＢａｓｅｂｏａｒｄＭａｎａｇｅｍｅｎｔＣｏｎｔｒｏｌｌｅｒ、ベースボード管理コントローラ）と、主処理部４を含む。主処理部４は、例えば、ノード２のプロセッサと、そのプロセッサが実行するＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やＯＳ上で動作するプログラムによって実現される。一方、ＢＭＣ３は、主処理部４とは独立に動作する、ノード２のハードウェア上に実装された処理装置である。ＢＭＣ３は、主処理部４が、例えば電源オフ状態であり、動作していなくても動作する。

ＢＭＣ３は、故障検出部２３と、起動部２４を含む。

主処理部４は、管理装置１と、処理実行部２０と、クラスタ制御部２１と、稼働状態送信部２２とを含む。

管理装置１は、ノード情報記憶部１０と、故障状態取得部１１と、指示部１２と、稼働検出部１３を含む。

各ノード２は、第１のネットワークを介して互いに通信可能である。図１の例では、第１のネットワークは、スイッチ７を含むＬＡＮ５（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）を含む。また、各ノード２のＢＭＣ３は、第２のネットワークを介して互いに通信可能である。図１の例では、第２のネットワークは、スイッチ８を含む管理用ＬＡＮ６を含む。また、第１のネットワークと第２のネットワークは、互いに接続されている。図１の例は、第１のネットワークと第２のネットワークは、スイッチ７及びスイッチ８を介して接続されている。

処理実行部２０は、サービスを提供するプログラムを実行することにより、情報処理装置１００と通信が可能な端末にサービスを提供する。端末は図示されない。

クラスタ制御部２１は、処理実行部２０に、サービスの提供の開始及び終了の指示を行う。

複数のノード２は、主処理部４の処理実行部２０でサービスを提供するためのプログラムを実行するアクティブノードと、サービスを提供するためのプログラムを実行しない待機中のノードであるスタンバイノードに分けられる。スタンバイノードは、主処理部４が稼働している稼働状態のノードであるホットスタンバイノードと、主処理部４が稼働していない非稼働状態のノードであるコールドスタンバイノードに分けられる。アクティブノードとホットスタンバイノードが、主処理部４が稼働している稼働状態のノードである。

稼働状態のノード２のクラスタ制御部２１は、自装置の障害を検出する。処理実行部２０がサービスを提供中であるノード２において自装置の障害が検出された場合、クラスタ制御部２１は、稼働状態の他のノード２を選択する。そして、クラスタ制御部２１は、処理実行部２０で提供中であったサービスの提供を、選択されたノード２に引き継がせる。クラスタ制御部２１は、各ノード２の死活監視を行って、稼働状態のノード２を特定しもよい。クラスタ制御部２１は、ノード２が管理装置１を含む場合、詳細に後述するノード情報記憶部１０が記憶するノード２のリストから、稼働状態のノード２を特定してもよい。他のノード２の選択方法は既存の任意の方法でよい。ノード２が提供していたサービスを停止し、他の稼働状態のノード２に引き継がせて再開する系切り替えの方法も、既存の任意の方法でよい。

コールドスタンバイノードの主処理部４は、例えば電源オフの状態であり、稼働していない。

図１の例では、クラスタウェア２７を含むノードは、主処理部４を、管理装置１と、クラスタ制御部２１と、稼働状態送信部２２として動作させるプログラムである、クラスタウェア２７を実行していることを表す。クラスタウェア２７を含むノードが、稼働中のノードである。サービス２８をさらに含むノードは、処理実行部２０がサービスを提供するためのプログラムを実行しているノードである。サービス２８をさらに含むノードが、アクティブノードである。クラスタウェア２７及びサービス２８を含まないノードが、コールドスタンバイノードである。

稼働状態送信部２２は、管理装置１に対して、ノード２が稼働状態であることを送信する。稼働状態送信部２２は、稼働状態の各ノード２の管理装置１に対して、ノード２が稼働状態であることを送信すればよい。また、稼働状態送信部２２は、さらに、処理実行部２０がサービスを提供しているか否かを表す信号を、管理装置１に送信してもよい。

故障検出部２３は、主処理部４が稼働中であるか否かに関わらず、ノード２の故障の有無を検出する。故障状態取得部１１は、故障検出部２３に対して、例えば所定間隔で、定期的に故障の有無の問い合わせを送信する。故障検出部２３は、故障状態取得部１１からの故障の有無の問い合わせを受信する。そして、故障検出部２３は、受信した問い合わせに対して、検出された故障の有無を、故障状態取得部１１に送信する。

起動部２４は、管理装置１の指示部１２の指示に基づき、主処理部４を起動して稼働状態に遷移させる。また、起動部２４は、ノード２が非稼働状態であり、後述の所定の時間間隔以上の所定時間、故障検出部２３が故障の有無の問い合わせを管理装置１から受信しない場合、主処理部４を起動して稼働状態に遷移させる。

稼働検出部１３は、各ノード２が稼働状態であるか否かを検出する。稼働検出部１３は、稼働状態の各ノード２の稼働状態送信部２２から、ノード２が稼働状態であることを受信すればよい。稼働検出部１３は、稼働状態であることを送信しなかったノード２は、非稼働状態であると判定すればよい。稼働検出部１３は、ノード２の識別情報と、そのノード２が稼働状態であるか非稼働状態であるかを表すデータとを対応付けて、ノード情報記憶部１０に格納すればよい。

ノード情報記憶部１０は、各ノード２に対して、ノード２の識別子と、ノード２が稼働状態であるか非稼働状態であるかを表すデータとを関連付けて記憶する。

故障状態取得部１１は、非稼働状態の各ノード２のＢＭＣ３の故障検出部２３に、故障の有無の問い合わせを送信し、故障検出部２３から、そのノード２の故障の有無を取得する。故障状態取得部１１は、例えば所定の時間間隔で、故障の有無の問い合わせを送信する。

指示部１２は、稼働状態のノード２が、所定数（図１の例ではｊ）に満たない場合、故障のない非稼働状態のノード２に対して、主処理部４を起動して稼働状態に遷移する稼働指示を送信する。指示部１２は、稼働状態のノード２が所定数になるまで、故障のない非稼働状態のノード２に対する稼働指示の送信を繰り返せばよい。

図４は、管理装置１と、他のノード２との関係を表す図である。図４のノード２は、図４の管理装置１を含むノード２と異なるノード２である。

次に、本実施形態の管理装置１の動作について、図面を参照して詳細に説明する。

図５は、本実施形態の管理装置１の動作の例を表すフローチャートである。

図５の動作の開始時において、ノード情報記憶部１０は、各ノード２識別子と、各ノード２のノードアドレスと、各ノードのＢＭＣアドレスを含むノードリストを記憶している。例えば情報処理システム１００の管理者が、初期状態のノードリストを、予めノード情報記憶部１０に格納しておけばよい。ノードアドレスは、図１のＬＡＮ６を介して通信を行う際の各ノード２のアドレスである。ＢＭＣアドレスは、図１の管理用ＬＡＮ６を介して通信を行う際の、各ノード２のＢＭＣ３のアドレスである。

図６は、ノード情報記憶部１０が記憶するノードリストの例を表す図である。

図６のノードリストは、さらに、稼働検出部１３が検出した、ノード２毎の、ノード２が稼働状態であるか非稼働状態であるかを表すノード状態を含む。図６のノードリストは、さらに、故障状態取得部１１が、非稼働状態の各ノード２のＢＭＣ３から取得する、各ノード２のＢＭＣ３を含むハードウェアの故障の有無を表すＢＭＣ状態を含む。図６の例では、ノード２が稼働状態である場合、ノード状態は稼働状態あるいは稼働中である。ノード２が非稼働状態である場合、ノード状態は非稼働状態あるいは非稼働中である。ＢＭＣ３がノード２の故障を検出した場合、ＢＭＣ状態は故障である。ＢＭＣ３がノード２の故障を検出しない場合、ＢＭＣ状態は正常である。ノード２が稼働状態である場合、ＢＭＣ状態は監視対象外である。

まず、稼働検出部１３が、各ノード２が稼働状態であるか非稼働状態であるかを検出する（ステップＳ１０１）。

稼働検出部１３は、稼働状態の各ノード２の稼働状態送信部２２から、ノード２の状態を取得することで、各ノード２が稼働状態であるか非稼働状態であるかを検出すればよい。

図７は、ノード２の状態の送信時における稼働交代送信部２２の動作の一例を表すフローチャートである。

まず、稼働状態である各ノード２の稼働状態送信部２２が、例えば自装置が含む管理装置１のノード情報記憶部１０から、稼働状態であるノード２のノードアドレスのリストを取得する（ステップＳ２０１）。稼働状態送信部２２は、クラスタ制御部２１から、稼働状態であるノード２のノードアドレスのリストを取得してもよい。この場合、クラスタ制御部２１は、各ノード２のノードアドレスを保持している。さらに、クラスタ制御部２１は、各ノード２の状態を、検出して保持している。

稼働状態送信部２２は、稼働状態である各ノード２に、自装置が稼働状態であることを表すデータを管理装置１の稼働検出部１３に送信する（ステップＳ２０２）。稼働状態送信部２２は、さらに、自装置の処理実行部２０がサービスを提供しているか否かを、管理装置１の稼働検出部１３に送信してもよい。

図８は、各ノード２の状態の受信時の、稼働検出部１３の動作の一例を表すフローチャートである。

稼働検出部１３は、稼働状態である各ノード２の稼働状態送信部２２から、ノード２が稼働状態であることを表すデータを受信する（ステップＳ２１１）。

稼働検出部１３は、ノード２が稼働状態であることを表すデータを受信すると、そのノード２が稼働状態であるように、ノード情報記憶部１０のノードリストを更新する（ステップＳ２１２）。

クラスタ制御部２１や稼働検出部１３は、例えばＬＡＮ５を介して、稼働状態のノード２からハートビート信号を受信してもよい。そして、クラスタ制御部２１や稼働検出部１３は、ハートビート信号を受信したノード２を、稼働状態のノード２がとして検出すればよい。クラスタ制御部２１や稼働検出部１３は、全てのノード２のうち、ハートビート信号を受信しないノード２を、非稼働状態であるノード２として検出すればよい。

次に、故障状態取得部１１が、非稼働状態の各ノード２の故障検出部２３に、故障の有無の問い合わせの信号を送信する（ステップＳ１０２）。

図９は、故障状態取得部１１の、非稼働状態のノード２の故障の有無を受信する動作の一例を表すフローチャートである。

故障状態取得部１１は、非稼働状態のノード２のＢＭＣアドレスを、ノード状態記憶部１０から取得する（ステップＳ２２１）。

次に、故障状態取得部１１は、非稼働状態の各ノード２のＢＭＣ３に、ノード２の故障の有無を問い合わせる信号を送信する（ステップＳ２２２）。

故障状態取得部１１は、非稼働状態の各ノード２のＢＭＣ３の故障検出部２３から、ノード２の故障の有無を表すデータを受信する。故障状態取得部１１は、非稼働状態のノード２のＢＭＣ３から、ノード２の故障の有無を表すデータを受信しなかった場合、そのノード２は故障していると判定してもよい。

故障状態取得部１１は、非稼働状態の各ノード２から受信したデータや、上述の判定の結果に基づき、ノード情報記憶部１０が記憶するノードリストのＢＭＣ状態を更新する（ステップＳ２２３）。

図１０は、故障検出部２３の、故障の有無の問い合わせの受信時の動作の一例を表すフローチャートである。

故障検出部２３は、例えば定期的に、ＢＭＣ３を含むノード２のハードウェアの故障の有無を検出する。

故障検出部２３は、故障の有無の問い合わせ（状態の送信指示）を受信していない間（ステップＳ２３１、Ｎ）、待機する。

故障検出部２３は、故障の有無の問い合わせを受信した場合（ステップＳ２３１、Ｙ）、故障の有無の問い合わせを行ったノード２（状態の送信指示の送信元のノード２）に対して、ハードウェアの故障の有無の検出結果を送信する（ステップＳ２３２）。

次に、指示部１２は、稼働状態のノード２の数を判定する。

稼働状態のノード２の数が所定数以上である場合（ステップＳ１０３、Ｎ）、指示部１２は後述のステップＳ１０５の動作を行う。本実施形態では、この所定数はｊである。

稼働状態のノード２の数が所定数より少ない場合（ステップＳ１０３、Ｙ）、指示部１２は、故障のない非稼働状態のノード２を選択する。そして、選択したノード２の起動部２４に、稼働状態にする稼働指示を送信する（ステップＳ１０４）。

稼働指示を受信した起動部２４は、主処理部４を起動する。主処理部４が動作を開始することにより、指示部１２が選択したノード２は、非稼働状態から稼働状態に遷移する。

指示部１２は、ノード情報記憶部１０が記憶するノードリストを更新し、稼働状態に遷移させたノード２のノード状態を稼働中に変更する。

指示部１２は、稼働状態のノード２の数が所定数になるまで、ステップＳ１０４の動作を繰り返す。

稼働状態のノード２の数が所定数である場合（ステップＳ１０５、Ｎ）、管理装置１は動作を終了する。

稼働状態のノード２の数が所定数より多い場合（ステップＳ１０５、Ｙ）、指示部１２は、稼働状態のノード２のうち、ホットスタンバイノードを選択する。指示部１２は、選択したホットスタンバイノードのクラスタ制御部２１に対して、非稼働状態に遷移する停止指示を送信する（ステップＳ１０６）。

停止指示を受信したホットスタンバイノードのクラスタ制御部２１は、主処理部４の処理を停止させる。このことにより、停止指示を受信したホットスタンバイノードは、稼働状態から非稼働状態に遷移する。

指示部１２は、稼働状態のノード２の数が所定数になるまで、ステップＳ１０６の動作を繰り返す。

次に、ＢＭＣ３の動作について、図面を参照して詳細に説明する。

図１１は、非稼働状態であるノード２の、ＢＭＣ３の動作を表すフローチャートである。

ＢＭＣ３の故障検出部２３は、自ノード２の故障の検出を行う（ステップＳ２５１）。

また、故障検出部２３は、例えばタイマーにより、管理装置１の故障状態取得部１１から故障の有無の問い合わせを受信してからの時間をカウントする。

故障検出部２３は、管理装置１の故障状態取得部１１から、故障の有無の問い合わせを受信した場合（ステップＳ２５２、Ｙ）、故障状態取得部１１に、故障の有無を送信する（ステップＳ２５５）。そして、故障検出部２３は、管理装置１の故障状態取得部１１から故障の有無の問い合わせを受信してからの時間をリセットして、０にする。

故障検出部２３は、管理装置１の故障状態取得部１１から、故障の有無の問い合わせを受信しない場合（ステップＳ２５２、Ｎ）、処理はステップＳ２５１に戻る。そして、故障検出部２３は、自ノードの故障の検出と、管理装置１の故障状態取得部１１から故障の有無の問い合わせを受信してから経過した時間のカウントを続ける。

故障検出部２３が管理装置１の故障状態取得部１１から故障の有無の問い合わせを最後に受信してから所定時間が経過した場合（ステップＳ２５３、Ｙ）、起動部２４は、自ノード２の主処理部４を起動する（ステップＳ２５４）。起動部２４は、例えば起動を指示する信号を主処理部４に送信することにより、主処理部４を起動する。起動された主処理部４は、起動状態に遷移する。起動された主処理部４は、管理装置１として動作することもできる。なお、ステップＳ２５３における所定時間は、故障状態取得部１１が各コールドスタンバイノードのＢＭＣ３の故障検出部２３に対して定期的に行う故障の有無の問い合わせの間隔より長い時間である。

以上で説明した本実施形態には、待機中に故障するノード２すなわち演算装置があっても、処理を実行している稼働中の演算装置に故障した場合に、故障した稼働中の演算装置から待機中の演算装置に、処理を実行する演算装置を切り替えることができるという第１の効果がある。すなわち、本実施形態には、非稼働状態で待機中のノード２の稼働状態への遷移の失敗のリスクを軽減できるという効果がある。

その理由は、稼働状態のノード２が故障した場合に、指示部１２が、故障していない非稼働状態のノード２から選択したノード２を、稼働状態に遷移させるからである。非稼働状態であるノード２のＢＭＣ３の故障検出部２３は、ノード２の故障を検出する。そして、管理装置１の故障状態取得部１１が定期的に送信する故障の有無の問い合わせに対して、故障検出部２３は、検出された故障の有無を返信する。従って、指示部１２は、故障していない非稼働状態のノード２から、稼働状態に遷移させるノード２を選択することができる。

また、本実施形態には、管理装置１とコールドスタンバイノードのＢＭＣ３の間の通信が途絶えた場合でも、稼働状態のノード２の故障によって情報処理システム１００が動作しなくなるリスクを軽減できるという第２の効果がある。

その理由は、第１の理由の効果の理由に加えて、故障検出部２３が管理装置１の故障状態取得部１１から故障の有無の問い合わせを最後に受信してから所定時間が経過した場合、起動部２４が、自ノード２の主処理部４を起動するからである。管理装置１とコールドスタンバイノードのＢＭＣ３の間のネットワークの障害等により、管理装置１がコールドスタンバイノードのＢＭＣ３と通信できない場合、稼働状態のノード２が増加する。従って、管理装置１とコールドスタンバイノードのＢＭＣ３の通信が途絶えている間に稼働中のノード２が故障した場合でも、稼働状態のノード２の数が不足することにより情報処理装置１００が動作しなくなるリスクを低減できる。

さらに、本実施形態には、動作中の管理装置１が全て故障した場合も、情報処理装置１００が動作を継続でいるという第３の効果がある。

その理由は、第２の効果の理由と同じである。稼働状態に遷移したノード２の主処理部４は、管理装置１としても動作する。

（第１の実施形態の変形例）
次に、第１の実施形態の変形例の情報処理システム１００について、図面を参照して詳細に説明する。

図１２は、本変形例の情報処理システム１００の構成を表す図である。

本実施形態のノード２には、アクティブノードとコールドスタンバイノードのみが含まれ、ホットスタンバイノードは含まれない。

本変形例の情報処理システム１００は、ホットスタンバイノードを含まないよう構成されていてもよい。そして、各ＢＭＣ３は、そのＢＭＣ３が含まれるノード２がコールドスタンバイノードである場合に、以下の要に動作するよう構成されていればよい。故障検出部２３が管理装置１の故障状態取得部１１から故障の有無の問い合わせを最後に受信してから、時間Ｔ−ＢＴが経過後に、起動部２４が主処理部４を起動する。

ただし、上述のＴは、故障検出部２３が管理装置１の故障状態取得部１１から故障の有無の問い合わせを最後に受信してから、第１の実施形態の起動部２４が主処理部４を起動するまでの時間である。また、ＢＴは、起動部２４が主処理部４を起動してから、主処理部４が動作を開始するまでの時間である。なお、本実施形態のＢＴ−Ｔは、故障状態取得部１１が各コールドスタンバイノードのＢＭＣ３の故障検出部２３に対して定期的に行う故障の有無の問い合わせの送信の間隔より長い。

あるいは、本変形例の管理装置１は、例えば、アクティブノードと、ホットスタンバイノードと、コールドスタンバイノードの数をカウントしてもよい。そして、管理装置１は、各コールドスタンバイノードのＢＭＣ３に、故障状態取得部１１から故障の有無の問い合わせを最後に受信してから、起動部２４が主処理部４を起動するまでの時間を指示してもよい。ホットスタンバイノードの数が０である場合、管理装置１が各コールドスタンバイノードのＢＭＣ３に指示する時間は、Ｔである。また、ホットスタンバイノードの数が０である場合、管理装置１が各コールドスタンバイノードのＢＭＣ３に指示する時間は、Ｔ−ＢＴである。

本実施形態の起動部２４は、故障検出部２３が管理装置１の故障状態取得部１１から故障の有無の問い合わせを最後受信してから、管理装置１に指示された時間が経過すると、主処理部４を起動する。

本変形例の管理装置１、ノード２、ＢＭＣ３、主処理部４の動作は、上述の事項を除き、同じである。

図１３は、第１の実施形態と本変形例の、故障状態取得部１１による最後の状態確認から、起動部２４による主処理部４の起動までの時間を表す図である。故障状態取得部１１から故障の有無の問い合わせが、図１３の状態確認である。図１３の最後の状態確認の時刻が、故障検出部２３が故障状態取得部１１から故障の有無の問い合わせの受信した時刻である。稼働状態への遷移の開始時刻が、起動部２４が主処理部４を起動する時刻である。第１の実施形態では、最後の状態確認の時刻から時間Ｔ＋ＴＢが経過した後に、ノード２は、非稼働状態から稼働状態に遷移する。すなわち、ノード２はコールドスタンバイノードからホットスタンバイノードに遷移する。一方、本変形例では、最後の状態確認の時刻から時間Ｔが経過した後に、ノード２は、非稼働状態から稼働状態に遷移する。すなわち、ノード２はコールドスタンバイノードからアクティブノードに遷移する。なお、ノード２は、コールドスタンバイノードからホットスタンバイノードに遷移してもよい。

以上で説明した本変形例には、第１の実施形態と同じ効果に加えて、情報処理システム１００のダウンタイムを増加させずに消費電力を削減できるという効果がある。

その理由は、情報処理システム１００がホットスタンバイノードを含まない代わりに、最後の状態確認の時刻から上述の時間Ｔ−ＴＢが経過した後に、起動部２４が主処理部４を起動するからである。

（第１の実施形態の第２の変形例）
図３は、第１の実施形態の第２の変形例の情報処理システム１００全体の構成の例を表すブロック図である。

図３の情報処理システム１００は、互いに通信可能な、複数の演算装置であるノード２と管理装置１とを含む。図３の例では、情報処理システム１００は、ｋ台のノード２を含むクラスタシステムである。図３の情報処理システム１００は１台の管理装置１を含むが、情報処理システム１００は複数の管理装置１を含んでいることが望ましい。図３の例のように、各ノード２は管理装置１を含んでいなくてもよい。

本変形例の情報処理システム１００は、主処理部４が管理装置１として動作しない点を除き、第１の実施形態の情報処理システム１００と同じである。

本変形例には、第１の実施形態の第１及び第２の効果と同じ効果がある。

その理由は、第１の実施形態の第１及び第２の効果の理由と同じである。

（第１の実施形態の構成例）
次に、第１の実施形態の構成例について、図面を参照して詳細に説明する。

図１が、本構成例の構成を表す図である。図１の情報処理システム１００が、本構成例におけるクラスタである。

クラスタはｋ台のノード２で構成される。ノード２のプロセッサは、第１の実施形態の主処理部４として動作する。すなわち、ノード２のプロセッサは、プログラムであるクラスタウェア２７を実行することにより、第１の実施形態の、管理装置１と、クラスタ制御部２１と、稼働状態送信部２２として動作する。また、ノード２のプロセッサは、後述のように、サービス２８を提供するためのプログラムを実行する。さらに、ノード２は、前述のプロセッサが電源オフの状態であっても、プロセッサとは独立に動作するベースボード管理コントローラ３（ＢＭＣ３）を含む。ＢＭＣ３が、第１の実施形態の、故障検出部２３及び起動部２４として動作する。

各ノード２はＬＡＮ５で接続されている。稼働状態であるノード２のクラスタウェア２７は、相互に通信が可能である。各ＢＭＣ３は管理ＬＡＮ６で接続されている。ＬＡＮ５上のネットワークスイッチ（スイッチ７）と、管理ＬＡＮ６上のネットワークスイッチ（スイッチ７）は、接続されている。ＬＡＮ５における接続と、管理ＬＡＮ６における接続と、スイッチ７とスイッチ８の間の接続は、有線による接続であっても、無線による接続であっても、有線と無線が混在した接続であっても構わない。ＬＡＮ５と、スイッチ７とスイッチ８の間の接続と、管理ＬＡＮ６を介して、稼働状態であるノード２のクラスタウェア２７は、非稼働状態のノード２のＢＭＣ３と通信を行う。

アクティブノードである各ノード２は、サービス２８を提供するためのプログラムをプロセッサで実行することにより、例えばＬＡＮ５に接続された端末に対して、サービス２８を提供する。クラスタウェア２７は、サービス２８の提供を、アクティブノードであるノード２からホットスタンバイノードであるノード２に引き継がせる系切り替えを行う。例えば、ホットスタンバイノードのクラスタウェア２７が、サービス２８を提供するためのプログラムを主処理部４に起動させることで、系切り替えを行う。

各クラスタウェア２７は、各コールドスタンバイノードのＢＭＣ３に、定期的に、故障の有無を問い合わせを送信することにより状態確認の通信を行う。故障の有無の問い合わせを受信したＢＭＣ３は、応答として、検出された故障の有無を返信する。また、ＢＭＣ３は、所定時間前述の状態確認の通信が無い場合、ＢＭＣ３は、ＢＭＣ３が含まれるノード２である自ノードのプロセッサの電源を投入して、ノード２の状態を稼動状態へ遷移させる。

次に、ノード２の構成について、図２を参照して詳細に説明する。

ノード２は、プロセッサとＢＭＣ３を含む。プロセッサは、サービス２８を提供するためのプログラムと、クラスタウェア２７を実行する。サービス２８を提供するためのプログラムの開始や停止は、クラスタウェア２７により制御される。ＢＭＣ３は、ノード２のハードウェア上に、プロセッサとは別に実装されている。ＢＭＣ３は、プロセッサが実行するＯＳとは独立して動作する。プロセッサが動作を停止し、ノード２が、プロセッサが停止した状態である非稼働状態になっても、ＢＭＣ３は動作を継続する。

サービス２８を提供するためのプログラムは、プロセッサを、処理実行部２０として動作させる。クラスタウェア２７は、プロセッサを、管理装置１と、クラスタ制御部２１と、稼働状態送信部２２として動作させる。管理装置１は、ノード情報記憶部１０と、故障状態取得部１１と、指示部１２と、稼働検出部１３を含む。ノード情報記憶部１０は、情報処理装置１００が含む全ノード２の、ノードアドレスと、ノード状態と、ＢＭＣアドレスと、ＢＭＣ状態を含むノードリストを記憶する。

ＢＭＣ３は、故障検出部２３と、起動部２４を含む。

各ノード２は、以下の記載のように動作する。

稼働状態のノード２では、クラスタウェア２７が動作している。クラスタ制御部２１は、サービス２８を提供するプログラムの起動や停止の制御を行う。クラスタ制御部２１は、自ノードの障害を検出する。障害が検出された場合、クラスタ制御部２１は、ノード情報記憶部１０が記憶するノードリストを読み出し、稼働中の他のノード２を選択する。ノード管理部２１は、選択されたノード２のクラスタ制御部２１に対して、系切り替えの通知を行う。

稼働状態送信部２２は、ノード情報記憶部１０が記憶するノードリストを読み出し、稼働中の各ノード２の稼働検出部１３に対して、自ノードの状態を送信する。稼働状態送信部２２は、自ノードが正常に動作していれば、自ノードの状態として、例えば、稼働状態であることを表すデータを送信すればよい。稼働状態送信部２２は、自ノードの状態に応じて、例えば、自ノードがアクティブノードとして稼働していることや自ノードがホットスタンバイノードとして稼働していることを表すデータを送信してもよい。稼働状態送信部２２は、例えばクラスタ制御部２１が自ノードの障害を検出した場合は、自ノードの状態として、例えば、故障中であることや非稼働中であることを送信すればよい。稼働状態送信部２２は、例えば所定の時間間隔で、稼働検出部１３に対して、ノード２の状態を送信する。稼働状態送信部２２は、例えば稼働検出部１３からの要求に応じて、ノード２の状態を送信してもよい。その場合、稼働検出部１３は、例えば、ＬＡＮ５を介して全てのノード２に対して、状態の送信の要求を送信する。

稼働検出部１３は、他のノード２の稼働状態送信部２２から、そのノード２の状態を受信する。稼働検出部１３は、ノード２が状態を送信しない場合、そのノード２を非稼働状態であると判定すればよい。稼働検出部１３は、受信したノード２の状態を、送信元ノードの識別子に対応付けて、ノード情報記憶部１０に格納する。

故障状態取得部１１は、ノード情報記憶部１０から、ノードリストを読み出す。故障状態取得部１１は、読み出したノードリストから選択した、非稼働状態にある各ノードのＢＭＣ３の故障検出部２３に対して、ＢＭＣ３を含むノード２のハードウェアの状態の問い合わせを送信する。ハードウェアの状態は、故障検出部２３が検出した、ノード２の故障の有無である。故障検出部２３は、故障の有無の問い合わせに対して、検出された故障の有無を送信する。故障状態取得部１１は、故障検出部２３から受信したノード２の故障の有無をＢＭＣ状態として、ノード２の識別子に対応付けて、ノード状態記憶部１０に格納する。

指示部１２は、稼働状態のノード２の数と、例えば所定台数を比較する。稼働状態のノードの数が所定台数より少ない場合、指示部１２は、非稼働状態のノード２のうち、故障が検出されていないノード２を選択する。指示部１２は、選択された非稼働状態のノード２のＢＭＣ３の起動部２４に対して、非稼働状態から稼働状態に遷移する指示を送信する。指示を受信した起動部２４は、ノード２を起動する。すなわち、起動部２４は、ノード２のプロセッサの動作を開始させる。動作を開始したプロセッサは、例えば、ＯＳを実行し、さらにクラスタウェア２７を実行する。

稼働状態のノードの数が、所定台数より多い場合、指示部１２は、稼働中のノード２から、ホットスタンバイノードを選択する。指示部１２は、選択されたホットスタンバイノードのクラスタ制御部２１に対して、コールドスタンバイノードへの遷移の指示を送信する。コールドスタンバイノードへの遷移の指示を受信したクラスタ制御部２１は、自ノードのプロセッサの動作を停止させる。具体的には、クラスタ制御部２１は、クラスタウェア２７とＯＳのシャットダウンを実行すればよい。

また、起動部２４は、ノード２が非稼働状態である場合、故障状態取得部１１からの故障の有無の問い合わせを、故障検出部２３が所定時間以上受信しない場合、ノード２を非稼働状態から稼働状態に遷移させる。すなわち、起動部２４は、プロセッサを起動させる。起動したプロセッサは、クラスタウェア２７を実行する。そして、ノード２の動作の状態は、稼働状態に遷移する。

次に、本発明の第２の実施形態について、図面を参照して詳細に説明する。

図１４は、本実施形態の管理装置１の構成を表すブロック図である。

図１４を参照すると、本実施形態の管理装置１は、複数の演算装置２に対して、前記演算装置２が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置２の識別子に対応付けて記憶するノード情報記憶部１０と、前記非稼働状態である前記演算装置２の各々から、故障の有無を取得する故障状態取得部１１と、前記稼働状態である前記演算装置２の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置２のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する指示部１２とを含む。

以上で説明した本実施形態には、第１の実施形態の第１の効果と同じがある。

その理由は、第１の実施形態の第１の効果の理由と同じである。

管理装置１と、ノード２（演算装置２）は、それぞれ、コンピュータ及びコンピュータを制御するプログラム、専用のハードウェア、又は、コンピュータ及びコンピュータを制御するプログラムと専用のハードウェアの組合せにより実現することができる。

故障状態取得部１１と、指示部１２と、稼働検出部１３と、処理実行部２０と、クラスタ制御部２１と、稼働状態送信部２２と、故障検出部２３と、起動部２４は、例えば、プログラムを記憶する記録媒体からメモリに読み込まれた、各部の機能を実現するための専用のプログラムと、そのプログラムを実行するプロセッサにより実現することができる。また、ノード情報記憶部１０は、コンピュータが含むメモリやハードディスク装置により実現することができる。あるいは、ノード情報記憶部１０、故障状態取得部１１と、指示部１２と、稼働検出部１３と、処理実行部２０と、クラスタ制御部２１と、稼働状態送信部２２と、故障検出部２３と、起動部２４の一部又は全部を、各部の機能を実現する専用の回路によって実現することもできる。

以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１管理装置
２ノード
３ＢＭＣ
４主処理部
５ＬＡＮ
６管理ＬＡＮ
７、８スイッチ
１０ノード情報記憶部
１１故障状態取得部
１２指示部
１３稼働検出部
２０処理実行部
２１クラスタ制御部
２２稼働状態送信部
２３故障検出部
２４起動部
２７クラスタウェア
２８サービス
１００情報処理システム

Claims

複数の演算装置に対して、前記演算装置が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置の識別子に対応付けて記憶するノード情報記憶手段と、
前記非稼働状態である前記演算装置の各々から、故障の有無を取得する故障状態取得手段と、
前記稼働状態である前記演算装置の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する指示手段と
を含む管理装置。
前記故障状態取得手段は、前記演算装置に故障の有無の問い合わせを所定の時間間隔で送信して、前記演算装置の故障の有無を取得し、
前記演算装置は、前記非稼働状態で前記所定の時間間隔以上の長さの所定時間、前記問い合わせを受信しない場合、前記稼働状態に遷移する
請求項１に記載の管理装置。
前記演算装置は、与えられた処理を行う主処理手段と、前記主処理手段が停止している状態である前記非稼働状態で自装置の故障の有無を検出する故障検出手段と、前記非稼働状態である場合に前記稼働指示を受信すると、前記主処理部を起動して、前記主処理手段が稼働している状態である前記稼働状態に遷移させる起動手段を含む
請求項１又は２に記載の管理装置。
前記演算装置の各々に対して、当該演算装置が、前記稼働状態であるか、前記非稼働状態であるかを検出し、前記演算装置の識別子と検出された状態を対応付けて前記ノード情報記憶部に格納する稼働検出手段
を含む請求項１乃至３のいずれかに記載の管理装置。
互いに通信可能な、複数の前記演算装置及び請求項１乃至４のいずれかに記載の管理装置を含む情報処理システム。
複数の演算装置に対して、前記演算装置が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置の識別子に対応付けてノード情報記憶手段に記憶し、
前記非稼働状態である前記演算装置の各々から、故障の有無を取得し、
前記稼働状態である前記演算装置の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する
管理方法。
コンピュータを、
複数の演算装置に対して、前記演算装置が、稼働している状態である稼働状態であるか、稼働していない状態である非稼働状態であるかを、前記演算装置の識別子に対応付けて記憶するノード情報記憶手段と、
前記非稼働状態である前記演算装置の各々から、故障の有無を取得する故障状態取得手段と、
前記稼働状態である前記演算装置の数が所定数に満たない場合、前記非稼働状態である場合に稼働指示を受信すると前記稼働状態に遷移する前記複数の演算装置のうち、前記監視において故障が無い、前記非稼働状態の前記演算装置に対して、前記稼働指示を送信する指示手段と
して動作させる管理プログラム。
コンピュータを、
前記演算装置に故障の有無の問い合わせを所定の時間間隔で送信して、前記演算装置の故障の有無を取得する前記故障状態取得手段として動作させ、
前記演算装置は、前記非稼働状態で前記所定の時間間隔以上の長さの所定時間、前記問い合わせを受信しない場合、前記稼働状態に遷移する
請求項７に記載の管理プログラム。
前記演算装置は、与えられた処理を行う主処理手段と、前記主処理手段が停止している状態である前記非稼働状態で自装置の故障の有無を検出する故障検出手段と、前記非稼働状態である場合に前記稼働指示を受信すると、前記主処理部を起動して、前記主処理手段が稼働している状態である前記稼働状態に遷移させる起動手段を含む
請求項７又は８に記載の管理プログラム。
コンピュータを、
前記演算装置の各々に対して、当該演算装置が、前記稼働状態であるか、前記非稼働状態であるかを検出し、前記演算装置の識別子と検出された状態を対応付けて前記ノード情報記憶部に格納する稼働検出手段
として動作させる請求項７乃至９のいずれかに記載の管理プログラム。