JP6007522B2

JP6007522B2 - クラスタシステム

Info

Publication number: JP6007522B2
Application number: JP2012052640A
Authority: JP
Inventors: 孝昌大竹
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-03-09
Filing date: 2012-03-09
Publication date: 2016-10-12
Anticipated expiration: 2032-03-09
Also published as: US20160036654A1; EP2637102B1; IN2013CH00960A; US20130238787A1; EP2637102A1; US9210059B2; BR102013005401A2; JP2013186781A; CN103312767A

Description

本発明は、クラスタシステムにかかり、特に、複数のノードで構成され、当該ノードの死活を管理するクラスタシステムに関する。

近年、クラウドコンピューティングの登場により、事業者がユーザに提供するサービスの品質を保障すること、つまり、ＳＬＡ（Service Level Agreement）を如何に維持するかということ、が課題となっている。このため、特許文献１に示すような複数のノードにて構成されるクラスタシステムにおいては、サービスを提供しているノードがダウン状態となった場合であっても、他のノードにサービスを引き継ぐよう冗長構成とすることで、サービスの質を保障している。一方で、このようなクラスタシステムに搭載されるクラスタウェアにおいても、さらに高いＳＬＡを実現するために、ノードの状態（稼動状態や障害発生の有無）をいかに素早く、正確に把握するか、ということが課題となっている。

ここで、クラスタシステムにおけるノードの死活監視は、例えば、ＬＡＮ（Local Area Network）、シリアルポート、共有ディスクなどノード間で情報が交換できるものを通信経路として、互いの稼働状態を確認することで行っている。そして、あるノードとの通信が一定時間以上行えない場合、当該ノードをダウン状態と判断している。

特開２００６−７９１６１号公報

しかしながら、上述した方法では、ＬＡＮ、シリアルポート、共有ディスクなどは、いずれもＯＳ（Operating System）の管理資源として制御されるため、通信経路の物理的な障害以外にも、ＯＳの稼動状態に影響を受けてしまう。例えば、ある特定のノードのＯＳが高負荷状態になり、他のノードと通信が一定時間以上行えない場合、当該ノードは実際にはダウン状態ではないが、他のノードからはダウン状態とみなされてしまう。

また、ハードウェア障害などでノードがダウンした場合、当該ノードがダウン状態と判断されるまでに一定時間以上を要するため、即座に系切り替えが実施できない。例えば、ＣＰＵ（Central Processing Unit）障害による電源断が発生し、ノードがダウン状態となったとしも、他のノードが当該ノードをダウン状態と判断するには一定時間以上かかってしまう。

以上のように、クラスタシステムにおいて、ノードの状態を正確かつ迅速に把握することができないため、ノードの切替を迅速に行うことができず、システム自体の信頼性が低下する、とい問題がある。

このため、本発明の目的は、上述した課題である、クラスタシステムにおける信頼性の低下、を解決することにある。

本発明の一形態であるクラスタシステムは、
複数のノード装置を備えたクラスタシステムであって、
前記ノード装置は、
第一ネットワーク網及び第二ネットワーク網により他のノード装置と相互に接続されており、
自装置に組み込まれたオペレーティングシステム上で作動し、前記第一ネットワーク網を介して他のノード装置の稼働状態を検出する第一ノード管理部と、
前記オペレーティングシステムに影響を受けずに作動し、前記第二ネットワーク網を介して他のノード装置の稼働状態を検出する第二ノード管理部と、
前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定するノード状態判定部と、
を備えた、
という構成をとる。

また、本発明の他の形態であるプログラムは、
複数のノード装置を備えたクラスタシステムを構成する前記ノード装置に、
自装置に組み込まれたオペレーティングシステム上で作動し、他のノード装置と接続されている第一ネットワーク網を介して他のノード装置の稼働状態を検出する第一ノード管理部と、
前記オペレーティングシステムに影響を受けずに作動し、他のノード装置と接続されている第二ネットワーク網を介して他のノード装置の稼働状態を検出する第二ノード管理部と、
前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定するノード状態判定部と、
を実現させるためのプログラムである。

また、本発明の他の形態であるノード管理方法は、
複数のノード装置を備えたクラスタシステムにて、
前記ノード装置に組み込まれたオペレーティングシステム上で作動する第一ノード管理部が、他のノード装置と接続されている第一ネットワーク網を介して他のノード装置の稼働状態を検出すると共に、
前記ノード装置に組み込まれた前記オペレーティングシステムに影響を受けずに作動する第二ノード管理部が、他のノード装置と接続されている第二ネットワーク網を介して他のノード装置の稼働状態を検出し、
前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定する、
という構成をとる。

本発明は、以上のように構成されることにより、クラスタシステムにおける信頼性の向上を図ることができる。

本発明の実施形態１におけるクラスタシステムの構成を示すブロック図である。図１に開示したクラスタシステムを構成するノードの構成を示すブロック図である。図１に開示したクラスタシステムの動作を説明する説明図である。図２に開示したノードが備えるクラスタ制御部の動作を示すフローチャートである。図２に開示したノードが備えるノード管理部の動作を示すフローチャートである。図２に開示したノードが備える稼働状態送信部の動作を示すフローチャートである。図２に開示したノードが備える稼働状態受信部の動作を示すフローチャートである。図２に開示したノードが備えるＢＭＣノード管理部の動作を示すフローチャートである。図２に開示したノードが備えるＢＭＣ稼働状態取得部の動作を示すフローチャートである。図２に開示したノードが備えるＢＭＣ制御部の動作を示すフローチャートである。図２に開示したノードが備えるハードウェア監視部の動作を示すフローチャートである。本発明の実施形態２におけるクラスタシステムの構成を示すブロック図である。図１２に開示したクラスタシステムを構成する仮想化基板の構成を示すブロック図である。本発明の付記１におけるクラスタシステムの構成を示すブロック図である。

本発明におけるクラスタシステム（以降、「クラスタ」とも呼ぶ）は、複数のノード装置（以降、「ノード」とも呼ぶ）を備えて構成されている。そして、各ノードがお互いに死活監視を実施し、あるノードがダウン状態となった場合、当該ノードで実行していたサービスを、他のノードで再開する系切り替え処理を実施する機能を有する。以下、本発明におけるクラスタシステムについて説明する。

＜実施形態１＞
本発明の第１の実施形態を、図１乃至図１１を参照して説明する。図１乃至図２は、クラスタシステムの構成を説明するための図である、図３乃至図１１は、クラスタシステムの動作を説明するための図である。

図１に示すように、本実施形態におけるクラスタシステムは、ノード（１）１０１，ノード（２）１０２，ノード（Ｎ）１０３に示すように、複数のノード装置を備えて構成されている。これらノード装置１０１等は、サーバコンピュータといった情報処理装置にて構成されている。但し、ノード装置１０１等は、後述する実施形態２で説明するように、仮想的に構築された情報処理装置にて構成されていてもよい。なお、本発明におけるクラスタシステムを構成するノード装置１０１等の数は、図１に示す数に限定されない。

上記各ノード装置１０１等には、オペレーティングシステム（以下、「ＯＳ」との呼ぶ）が組み込まれており、当該ＯＳ上で作動する機能として、ユーザに提供する所定のサービス処理を行うサービス１０６等と、クラスタシステムの動作を制御するクラスタウェア１０７等と、を備えている。当該サービス１０６等及びクラスタウェア１０７等は、ノード装置１０１等に装備された演算装置にプログラムが組み込まれることで構築されるものである。なお、以下では、ノード装置１０１等を、符号２０１にて図２にも示して説明する。

上記サービス１０６は、クラスタシステムを構成するノード装置１０１等のうち、１つの現用系であるノード装置１０１に搭載されているものが作動し、ユーザにサービス処理を提供している。一方、待機系である他のノード装置１０２，１０３に装備されたサービス１０９，１１２は、待機中となっている（図１の点線参照）。そして、サービス１０６等の開始や停止処理は、上記クラスタウェア１０７が制御する。従って、ノード装置１０１の障害などにより上記サービス１０６の継続動作が不能な場合には、上記クラスタウェア１０７によってノード装置の現用系と待機系を切り替える系切り替えが実行され、別の１つのノード装置に装備されているサービスにてサービスが再開される。

上記クラスタウェア１０７は、図２では符号２０３で示しているが、この図に示すように、クラスタ制御部２０５と、ノード管理部２０６と、稼働状態送信部２０７と、稼働状態受信部２０８と、を備えている。そして、ノード管理部２０６は、クラスタシステム配下の全ノードの「識別子」、「アドレス」、「稼働状態」を保持するためのノードリストＡ２０９を管理している。なお、上記各部２０５〜２０８やノードリストＡ２０９については、後の動作説明時に詳述する。

また、各ノード装置１０１等は、図１に示すように、有線通信あるいは無線通信によるＬＡＮ（Local Area Network）（第一ネットワーク網）に接続されている。そして、各ノード装置１０１等は、オペレーティングシステム上で作動する上記クラスタウェア１０７により、上記ＬＡＮ及びネットワークスイッチ（１）１０４を介して、相互に通信が可能である。

さらに、各ノード装置１０１等は、図１に示すように、ベースボード管理コントローラ１０８等を備えている。ベースボード管理コントローラ１０８等は、ノード装置１０１等に装備されたプロセッサなどのハードウェア上に実装されたファームウェアとして動作し、当該ノード装置１０１等に実装されている上述したＯＳとは独立して動作する。このため、ノード装置１０１等が停止状態となった場合であっても、当該ノード装置１０１等に装備されているベースボード管理コントローラ２０４は、動作し続けることが可能である。

そして、各ノード装置１０１等に装備された上記各ベースボード管理コントローラ１０８等は、有線通信または無線通信による管理ＬＡＮ（第二ネットワーク網）に接続されており、当該管理ＬＡＮ及びネットワークスイッチ（２）１０５を介して、相互に通信が可能である。なお、ネットワークスイッチ（１）１０４とネットワークスイッチ（２）１０５は、所定のネットワークでつながっているため、クラスタウェア１０７等とベースボード管理コントローラ１０８等との通信も可能である。

上記ベースボード管理コントローラ１０８等は、図２では符号２０４で示しているが、この図に示すように、ＢＭＣノード管理部２１０と、ＢＭＣ稼働状態取得部２１１と、ＢＭＣ制御部２１２と、ハードウェア監視部２１３と、を備えている。そして、ＢＭＣノード管理部２１０は、クラスタシステム配下の全ノードの「識別子」、「アドレス」を保持するためのノードリストＢ２１４を管理している。なお、上記各部２１０〜２１３やノードリストＢ２１４については、後の動作説明時に詳述する。

次に、上述した各ノード装置２０１（１０１等）の動作について、図２乃至図１１を参照して説明する。

まず、クラスタ制御部２０５は、ノード管理部２０６に対して、ノード装置の死活監視、つまり、自ノードあるいは他ノードが正常に稼働しているか、ダウンしているか（正常に稼働していない状態であるか）を表す稼働状態の検出の開始を依頼する（図４のステップＳ１）。そして、クラスタ制御部２０５は、各ノード装置からの稼働状態の通知を待つ（図４のステップＳ２）。

上記ノード管理部２０６（第一ノード管理部）は、上述したようにクラスタ制御部２０５から稼働状態の死活監視の依頼を受けると、稼動状態送信部２０７に対して、自ノードの稼働状態（稼働中）の通知を依頼する（図５のステップＳ２１）。すると、稼動状態送信部２０７は、ノード管理部２０６を介してノードリストＡ２０９から取得した全ノードのアドレスに基づいて（図６のステップＳ３１）、自ノードの稼働状態（稼働中）を全ノードに通知する（図６のステップＳ３２，Ｓ３３）。そして、上記稼働状態送信部２０７による通知は、各ノードの稼動状態受信部２０８にて受信され、当該稼動状態受信部２０８は、通知された各ノードの稼働状態を、その都度、ノード管理部２０６へ通知する（図７のステップＳ４１，Ｓ４２）。ノード管理部２０６は、上記稼動状態受信部２０８から各ノードの稼働状態を受信し（図５のステップＳ２３）、各ノードの稼働状態の検出結果として保持する。

なお、ノード管理部２０６は、稼働状態受信部２０８への通知がある一定時間以上ないノード装置は、ダウン状態であるとして、当該ノード装置の稼働状態の検出結果を保持する。例えば、上記ノード管理部２０６による全ノード装置の稼働状態の検出は、ＯＳ上で実行されるため、自ノード装置や他のノード装置のＯＳが高負荷状態である場合には、他のノードと通信が一定時間以上行えず、上述したように、ノード装置が実際にはダウン状態ではないが、ダウン状態として検出される。

また、上記ノード管理部２０６は、上述したＯＳ上で実行される全ノード装置の稼働状態の検出処理に前後して、ＢＭＣノード管理部２１０に対し、全ノードの稼動状態の取得を依頼する（図５のステップＳ２２）。すると、ＢＭＣノード管理部２１０（第二ノード管理部）は、ＢＭＣ稼働状態取得部２１１に対し、全ノードの稼動状態の取得を依頼する（図８のステップＳ５１）。

上記ＢＭＣ稼動状態取得部２１１は、ＢＭＣノード管理部２１０を介してノードリストＢ２１４から取得した全ノードのアドレスに基づいて（図９のステップＳ６１）、各ノードのＢＭＣ稼動状態取得部２１１から稼動状態を取得する（図９のステップＳ６２，Ｓ６３）。そして、取得した稼働状態の結果は、ＢＭＣノード管理部２１０へ通知され（図９のステップＳ６４、図８のステップＳ５２）、当該ＢＭＣノード管理部２１０からノード管理部２０６へ通知される（図８のステップＳ５３）。

以上のように、ノード管理部２０６は、ＢＭＣノード管理部２１０からの通知により、ベースボード管理コントローラ２０４を介して、ＯＳの影響を受けずに、全ノードの稼働状態の検出結果を受け付けて保持する（図５のステップＳ２４）。なお、ノード管理部２０６からＢＭＣノード管理部２１０に対する依頼（上記図５のステップＳ２２）は周期的に行われるが、依頼がある一定時間以上がない場合、ＢＭＣノード管理部２１０における自ノードの稼動状態はダウン状態として検出される。

続いて、ノード管理部２０６（ノード状態判定部）は、上述したように稼働状態受信部２０８から受信し、ＯＳ上で実行した全ノード装置の稼働状態の検出結果と、ＢＭＣノード管理部２１０から受信し、ＯＳの影響を受けずに実行した全ノード装置の稼働状態の検出結果と、に基づいて、ノード装置の稼働状態を判定する（図５のステップＳ２５）。具体的には、両検出結果がダウン状態とあると検出されたノード装置のみを、実際に正常に稼働していないダウン状態であると判定する。

そして、ノード管理部２０６は、ダウン状態と判定されたノード装置が存在する場合に（図５のステップＳ２６でＹｅｓ）、ノードリストＡ２０９内における該当するノードの稼働状態を更新する（図５のステップＳ２８）。そして、ノード管理部２０６は、ダウン状態と判定されたノード装置でサービス２０２が稼働していた場合には、クラスタ制御部２０５に系切り替え処理を依頼する（図５のステップＳ２９）。その後、クラスタ制御部２０５が系切り替え依頼を受けると（図４のステップＳ３）、系切り替え処理を実行し、ノード管理部２０６は一定時間待機状態となる（図５のステップＳ２７）。

次に、ベースボード管理コントローラ２０４（第二ノード管理部）によるノード装置のハードウェアの監視動作について説明する。ハードウェア監視部２１３は、自ノードのハードウェアの監視を行なっており（図１１のステップＳ９１）、障害を検知するとＢＭＣ制御部２１２へ通知を行う（図１１のステップＳ９２でＹｅｓ，ステップＳ９４、図１０のステップＳ７１）。ＢＭＣ制御部２１２は、障害の重度に応じてノードを停止させる必要があるかどうか判断し、以下の処置を行う。

（１）即時ノードを停止させる必要がある場合（図１０のステップＳ７２でＹｅｓ，ステップＳ７４でＹｅｓ）
ＢＭＣ制御部２１２は、ノードを強制的に停止させ（図１０のステップＳ８１）、ノードの停止を他のノードのクラスタ制御部２０５へ通知する（図１０のステップＳ８２、図１１のステップＳ９３）。停止させたノード２０１でサービス２０２が稼働していた場合には、通知を受け取ったノード２０１のクラスタ制御部２０５は、系切り替えを実行する。

（２）既定時間内にノードを停止させる必要がある場合（図１０のステップＳ７２でＹｅｓ，ステップＳ７４でＮｏ）
ＢＭＣ制御部２１２は、自ノード２０１のクラスタ制御部２０５へ停止予告を通知する（図１０のステップＳ７５、図３の矢印Ｙ１）。自ノードにてサービス２０２が稼働していない場合（図４のステップＳ３で「自ノードから」，ステップＳ６でＮｏ）、クラスタ制御部２０５はＢＭＣ制御部２１２へノードの停止を依頼し（図４でステップＳ１１、図１０のステップＳ７６，ステップＳ７７でＹｅｓ）、ＢＭＣ制御部２１２は当該ノード２０１を停止させる（図１０のステップＳ８１）。

また、自ノード２０１にてサービス２０２が稼動していた場合（図４のステップＳ６でＹｅｓ）、クラスタ制御部２０５はＢＭＣ制御部２１２の停止処理を抑止するため、ＢＭＣ制御部２１２へ系切り替えの完了待ちを依頼する（図１０のステップＳ７７でＮｏ，ステップＳ７８、図４のステップＳ７、図３の矢印Ｙ２）。クラスタ制御部２０５は、系切り替えを実行する（図４のステップＳ８）。例えば、図３の例では、符号１０１のノード（１）で稼働しているサービス１０６を停止し、符号１０２のノード（２）でサービス１０９を可動させるよう、系切り替えを実行する（図３の矢印Ｙ３，Ｙ４）。

系切り替え完了後、ＢＭＣ制御部２１２の停止処理の抑止を解除するため系切り替えの完了を通知する（図４のステップＳ９、図３の矢印Ｙ５）。通知を受け取ったＢＭＣ制御部２１２は、当該ノード２０１を停止させる（図１０のステップＳ７９でＮｏ，ステップＳ８０、図３の矢印Ｙ６）。ただし、系切り替えが既定時間内に完了しない場合（図１０のステップＳ７９でＹｅｓ）、ＢＭＣ制御部２１２は、当該ノード２０１を強制的に停止させ（図１０のステップＳ８１）、ノード２０１の停止を他のノード２０１のクラスタ制御部２０５へ通知する（図１０のステップＳ８２）。通知を受け取った他のノード２０１のクラスタ制御部２０５は、系切り替えを実行する（図４のステップＳ１０，ステップＳ３で「他ノードから」，ステップＳ４，ステップＳ５）。

（３）ノードを停止させる必要がない場合（図１０のステップＳ７２でＮｏ）
ＢＭＣ制御部２１２は障害が発生したハードウェアに対し、復旧の処置を施す（図１０のステップＳ７３）。

以上のように、本発明のクラスタシステムでは、ベースボード管理コントローラ１０８によるノードの死活監視は、ＯＳの稼働状況に影響を受けないため、ノードがＯＳの稼働状況により他のノードと通信が行えない状態になっても、ノードの稼働状態を正しく把握することができる。従って、ノード装置が不用意にダウン状態であると判定してしまうことを回避することができ、クラスタシステムの信頼性の向上を図ることができる。

また、本発明のクラスタシステムでは、ＯＳの稼働状況に影響を受けないベースボード管理コントローラ１０８によるハードウェア監視にてハードウェア障害を検知し、即座に全ノードに通知するため、ノードがハードウェア障害によりダウン状態に陥った場合に、即座に系切り替えが実施できる。その結果、クラスタシステムの信頼性の向上を図ることができる。

＜実施形態２＞
次に、本発明の第２の実施形態を、図１２乃至図１３を参照して説明する。図１２及び図１３に示すように、本発明のクラスタシステムを、仮想化環境においても実現することが可能である。

ここで、仮想化環境の場合、図１２に示すように、仮想化基盤（１）１１０１内で複数のノード１１０５等が動作するが、ベースボード管理コントローラ１１０８は１つ装備すればよいこととなる。図１３に示す仮想化基盤１２０１内のＫ個の各ノードは、同一のベースボード管理コントローラ１２０５を介して、ＯＳの影響を受けずに他のノードの稼働状態を取得する。

なお、ノード管理部１２０９が管理するノードリストＡ１２１２は、上述した実施形態１におけるものと構成は同じであるが、ＢＭＣノード管理部１２１３が管理するノードリストＢ１２１７は、仮想化基盤の「アドレス」と「仮想基盤内のノードの稼動状態」を保持している。これにより、１つの仮想化基盤から複数のノードの稼動状態をまとめて取得することができる。

＜付記＞
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明におけるクラスタシステム（図１４参照）、プログラム、ノード管理方法の構成の概略を説明する。但し、本発明は、以下の構成に限定されない。

（付記１）
複数のノード装置を備えたクラスタシステムであって、
前記ノード装置１は、
第一ネットワーク網５及び第二ネットワーク網６により他のノード装置と相互に接続されており、
自装置に組み込まれたオペレーティングシステム上で作動し、前記第一ネットワーク網５を介して他のノード装置の稼働状態を検出する第一ノード管理部２と、
前記オペレーティングシステムに影響を受けずに作動し、前記第二ネットワーク網６を介して他のノード装置の稼働状態を検出する第二ノード管理部３と、
前記第一ノード管理部２と前記第二ノード管理部３とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定するノード状態判定部４と、
を備えたクラスタシステム。

（付記２）
付記１に記載のクラスタシステムであって、
前記ノード状態判定部は、前記第一ノード管理部と前記第二ノード管理部とにより、ノード装置が予め設定された基準によりダウン状態であるとそれぞれ検出された場合に、当該ノード装置がダウン状態であると判定する、
クラスタシステム。

（付記３）
付記２に記載のクラスタシステムであって、
前記ノード状態判定部にてダウン状態であると判定されたノード装置が予め設定された処理を実行している場合に、当該処理を別のノード装置が実行するよう切り替えるノード切替処理を実行するクラスタ制御部を備えた、
クラスタシステム。

（付記４）
付記３に記載のクラスタシステムであって、
前記第二ノード管理部は、前記ＯＳの影響を受けずに作動して自装置に装備されたハードウェアの稼働状態を監視し、その監視結果に応じて、自装置の稼働を停止する、
クラスタシステム。

（付記５）
付記４に記載のクラスタシステムであって、
前記第二ノード管理部は、前記監視結果に応じて自装置の稼働を停止する予定である旨を前記クラスタ制御部に通知し、
前記クラスタ制御部は、前記第二ノード管理部から自装置の稼働を停止する予定である旨の通知を受け、自装置が予め設定された処理を実行している場合に、当該処理を別のノード装置が実行するよう切り替えるノード切替処理を実行し、当該ノード切替処理が完了した後にその旨を前記第二ノード管理部に通知し、
前記第二ノード管理部は、前記クラスタ制御部による前記ノード切替処理が完了した旨の通知を受けてから、自装置の稼働を停止する、
クラスタシステム。

（付記６）
複数のノード装置を備えたクラスタシステムを構成する前記ノード装置に、
自装置に組み込まれたオペレーティングシステム上で作動し、他のノード装置と接続されている第一ネットワーク網を介して他のノード装置の稼働状態を検出する第一ノード管理部と、
前記オペレーティングシステムに影響を受けずに作動し、他のノード装置と接続されている第二ネットワーク網を介して他のノード装置の稼働状態を検出する第二ノード管理部と、
前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定するノード状態判定部と、
を実現させるためのプログラム。

（付記７）
付記６に記載のプログラムであって、
前記ノード状態判定部は、前記第一ノード管理部と前記第二ノード管理部とにより、ノード装置が予め設定された基準によりダウン状態であるとそれぞれ検出された場合に、当該ノード装置がダウン状態であると判定する、
プログラム。

（付記８）
複数のノード装置を備えたクラスタシステムにて、
前記ノード装置に組み込まれたオペレーティングシステム上で作動する第一ノード管理部が、他のノード装置と接続されている第一ネットワーク網を介して他のノード装置の稼働状態を検出すると共に、
前記ノード装置に組み込まれた前記オペレーティングシステムに影響を受けずに作動する第二ノード管理部が、他のノード装置と接続されている第二ネットワーク網を介して他のノード装置の稼働状態を検出し、
前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定する、
ノード管理方法。

（付記９）
付記８に記載のノード管理方法であって、
前記第一ノード管理部と前記第二ノード管理部とにより、ノード装置が予め設定された基準によりダウン状態であるとそれぞれ検出された場合に、当該ノード装置がダウン状態であると判定する、
ノード管理方法。

なお、上述したプログラムは、記憶装置に記憶されていたり、コンピュータが読み取り可能な記録媒体に記録されている。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。

以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。

１ノード装置
２第一ノード管理部
３第二ノード管理部
４ノード状態判定部
５第一ネットワーク網
６第二ネットワーク網
１０１，１０２，１０３，２０１ノード
１０４，１０５ネットワークスイッチ
１０６，１０９，１１２，２０２サービス
１０７，１１０，１１３，２０３クラスタウェア
１０８，１１１，１１４，２０４ベースボード管理コントローラ
２０５クラスタ制御部
２０６ノード管理部
２０７稼働状態送信部
２０８稼働状態受信部
２０９ノードリストＡ
２１０ＢＭＣノード管理部
２１１ＢＭＣ稼働状態取得部
２１２ＢＭＣ制御部
２１３ハードウェア監視部
２１４ノードリストＢ
１１０１，１１０２，１２０１仮想基板
１１０５，１１０６，１１０７，１１０９，１２０２，１２０３，１２０４ノード
１１０３，１１０４ネットワークスイッチ
１１１１，１１１３，１１１５，１２０６サービス
１１１２，１１１４，１１１６，１２０７クラスタウェア
１１０８，１１１０，１２０５ベースボード管理コントローラ
１２１２ノードリストＡ
１２１７ノードリストＢ

Claims

複数のノード装置を備えたクラスタシステムであって、
前記ノード装置は、
第一ネットワーク網及び第二ネットワーク網により他のノード装置と相互に接続されており、
自装置に組み込まれたオペレーティングシステム上で作動し、前記第一ネットワーク網を介して他のノード装置の稼働状態を検出する第一ノード管理部と、
前記オペレーティングシステムに影響を受けずに作動し、前記第二ネットワーク網を介して他のノード装置の稼働状態を検出する第二ノード管理部と、
前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定するノード状態判定部と、
を備え、
前記ノード状態判定部は、前記第一ノード管理部と前記第二ノード管理部とにより、ノード装置が予め設定された基準によりダウン状態であるとそれぞれ検出された場合に、当該ノード装置がダウン状態であると判定する、
クラスタシステム。
請求項１に記載のクラスタシステムであって、
前記ノード状態判定部にてダウン状態であると判定されたノード装置が予め設定された処理を実行している場合に、当該処理を別のノード装置が実行するよう切り替えるノード切替処理を実行するクラスタ制御部を備えた、
クラスタシステム。
請求項２に記載のクラスタシステムであって、
前記第二ノード管理部は、前記ＯＳの影響を受けずに作動して自装置に装備されたハードウェアの稼働状態を監視し、その監視結果に応じて、自装置の稼働を停止する、
クラスタシステム。
請求項３に記載のクラスタシステムであって、
前記第二ノード管理部は、前記監視結果に応じて自装置の稼働を停止する予定である旨を前記クラスタ制御部に通知し、
前記クラスタ制御部は、前記第二ノード管理部から自装置の稼働を停止する予定である旨の通知を受け、自装置が予め設定された処理を実行している場合に、当該処理を別のノード装置が実行するよう切り替えるノード切替処理を実行し、当該ノード切替処理が完了した後にその旨を前記第二ノード管理部に通知し、
前記第二ノード管理部は、前記クラスタ制御部による前記ノード切替処理が完了した旨の通知を受けてから、自装置の稼働を停止する、
クラスタシステム。
複数のノード装置を備えたクラスタシステムを構成する前記ノード装置に、
自装置に組み込まれたオペレーティングシステム上で作動し、他のノード装置と接続されている第一ネットワーク網を介して他のノード装置の稼働状態を検出する第一ノード管理部と、
前記オペレーティングシステムに影響を受けずに作動し、他のノード装置と接続されている第二ネットワーク網を介して他のノード装置の稼働状態を検出する第二ノード管理部と、
前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定するノード状態判定部と、
を実現させ、
さらに、前記ノード状態判定部は、前記第一ノード管理部と前記第二ノード管理部とにより、ノード装置が予め設定された基準によりダウン状態であるとそれぞれ検出された場合に、当該ノード装置がダウン状態であると判定する、
プログラム。
複数のノード装置を備えたクラスタシステムにて、
前記ノード装置に組み込まれたオペレーティングシステム上で作動する第一ノード管理部が、他のノード装置と接続されている第一ネットワーク網を介して他のノード装置の稼働状態を検出すると共に、
前記ノード装置に組み込まれた前記オペレーティングシステムに影響を受けずに作動する第二ノード管理部が、他のノード装置と接続されている第二ネットワーク網を介して他のノード装置の稼働状態を検出し、
前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定すると共に、前記第一ノード管理部と前記第二ノード管理部とにより、ノード装置が予め設定された基準によりダウン状態であるとそれぞれ検出された場合に、当該ノード装置がダウン状態であると判定する、
ノード管理方法。