JP2022174535A - クラスタシステム、監視システム、監視方法、及びプログラム - Google Patents

クラスタシステム、監視システム、監視方法、及びプログラム Download PDF

Info

Publication number
JP2022174535A
JP2022174535A JP2021080395A JP2021080395A JP2022174535A JP 2022174535 A JP2022174535 A JP 2022174535A JP 2021080395 A JP2021080395 A JP 2021080395A JP 2021080395 A JP2021080395 A JP 2021080395A JP 2022174535 A JP2022174535 A JP 2022174535A
Authority
JP
Japan
Prior art keywords
monitoring
server device
cluster system
cluster
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021080395A
Other languages
English (en)
Inventor
大輝 木本
Daiki Kimoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2021080395A priority Critical patent/JP2022174535A/ja
Publication of JP2022174535A publication Critical patent/JP2022174535A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】複数のクラスタシステムが共有するサーバ装置に障害が発生した場合に、サーバ装置に対する適切な回復動作を実行することができるクラスタシステムを提供すること。【解決手段】本開示にかかるクラスタシステムは、サーバ装置の監視状態及びサーバ装置に対する回復動作を実行する第1のクラスタシステムを示す実行状態を管理する管理部11と、サーバ装置の監視結果を監視状態に反映するとともに、他のクラスタシステムから受信したサーバ装置の監視結果を監視状態に反映する監視部12と、少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、他のクラスタシステムと同一の前記判定基準に従ってサーバ装置に対する回復動作を実行する第1のクラスタシステムを決定し、決定結果を実行状態に反映する決定部13と、実行状態に従ってサーバ装置に対する回復動作を実行するか否かを判定する制御部14と、を備える。【選択図】図1

Description

本開示はクラスタシステム、監視システム、監視方法、及びプログラムに関する。
企業等が社内ネットワークを構築する場合に、拡張性及び可用性を確保するために、クラスタシステムを用いる場合がある。クラスタシステムは、予め定められたポリシーもしくは特定のパラメータ等を用いてクラスタシステム内のサーバ装置等の管理を行う。また、クラスタシステムにおいて可用性を確保されないサーバ装置は、クラスタシステムによる管理の対象外となり、クラスタシステムに適用されるポリシーが適用されない。このように、クラスタシステムによる管理の対象外となるサーバ装置は、クラスタシステム内のサーバ装置等に障害が発生した場合とは異なる手順によって障害時の回復動作が実行される。
特許文献1には、ネットワークを介して接続された複数の計算機が分散処理を行う構成が開示されている。特許文献1に開示されている計算機は、データの出力順序を決定する際に、半順序配信を行うことによって、一部の計算機に障害が発生した場合であっても、それぞれの計算機から出力されるデータの一貫性を確保し、処理を継続させる。
また、特許文献2には、複数の機能を分散処理している二つの計算機及び共通補助記憶装置を有するシステムの構成が開示されている。特許文献1には、一方の計算機に障害が発生した場合に、他方の計算機が、障害が発生した計算機において実行されていた機能を引き継いで運用するバックアップ運用形態が開示されている。
特開2020-187526号公報 特開平09-244910号公報
ここで、社内ネットワーク等に複数のクラスタシステムが含まれる場合、クラスタシステムによる管理の対象外となるサーバ装置を、複数のクラスタシステムが共有し、管理することがある。この場合、サーバ装置に障害が発生した場合、それぞれのクラスタシステムが、サーバ装置に対する回復動作を実行するため、回復動作が重複もしくは競合し、適切な回復動作が行われなくなるという問題がある。ここで、特許文献2に開示されている計算機は、障害が発生した場合、予め定められた手順に従って機能の引継ぎを行うため、障害が発生した計算機に対して複数の回復動作が実行されることはない。そのため、特許文献2に開示されている障害時の回復動作を実行しても、複数のクラスタシステムが共有し、さらに管理するサーバ装置に障害が発生した場合に、適切な回復動作が行われなくなるという問題を解決することができない。
本開示の目的の一つは、複数のクラスタシステムが共有するサーバ装置に障害が発生した場合に、サーバ装置に対する適切な回復動作を実行することができるクラスタシステム、監視システム、監視方法、及びプログラムを提供することにある。
本開示の第1の態様にかかるクラスタシステムは、複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第1のクラスタシステムを示す実行状態を管理する管理部と、前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映する監視部と、前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第1のクラスタシステムを決定し、決定結果を前記実行状態に反映する決定部と、管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する制御部と、を備える。
本開示の第2の態様にかかる監視システムは、複数のクラスタシステムと、前記複数のクラスタシステムによって管理されるサーバ装置と、を含む監視システムであって、それぞれの前記クラスタシステムは、前記複数のクラスタシステムにおける前記サーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第1のクラスタシステムを示す実行状態を管理し、前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第1のクラスタシステムを決定し、決定結果を前記実行状態に反映し、管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する。
本開示の第3の態様にかかる監視方法は、複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第1のクラスタシステムを示す実行状態を管理し、前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第1のクラスタシステムを決定し、決定結果を前記実行状態に反映し、管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する。
本開示の第4の態様にかかるプログラムは、複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第1のクラスタシステムを示す実行状態を管理し、前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第1のクラスタシステムを決定し、決定結果を前記実行状態に反映し、管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定することをコンピュータに実行させる。
本開示により、複数のクラスタシステムが共有するサーバ装置に障害が発生した場合に、サーバ装置に対する適切な回復動作を実行することができるクラスタシステム、監視システム、監視方法、及びプログラムを提供することができる。
実施の形態1にかかるクラスタシステムの構成図である。 実施の形態実施の形態2にかかる監視システムの構成図である。 実施の形態2にかかる監視マップを示す図である。 実施の形態2にかかる監視マップの監視状態に設定される値を説明する図である。 実施の形態2にかかる監視マップの実行状態に設定される値を説明する図である。 実施の形態2にかかる回復動作の実行処理の流れを示す図である。 実施の形態2にかかる回復動作の実行処理の流れを示す図である。 実施の形態2にかかる監視マップに設定される値の遷移を示す図である。 実施の形態2にかかる監視マップに設定される値の遷移を示す図である。 実施の形態2にかかる回復動作の実行処理の流れを示す図である。 実施の形態2にかかる回復動作の実行処理の流れを示す図である。 実施の形態2にかかる監視マップに設定される値の遷移を示す図である。 それぞれの実施の形態にかかるクラスタシステムの構成図である。
(実施の形態1)
以下、図面を参照して本開示の実施の形態について説明する。図1を用いて実施の形態1にかかるクラスタシステム10の構成例について説明する。クラスタシステム10は、1台以上のコンピュータ装置が連携して動作することによって、柔軟な拡張性もしくは高可用性を実現するシステムである。クラスタシステム10は、複数のコンピュータ装置が分散処理を行うことによって動作するシステムであってもよい。もしくは、クラスタシステム10は、アクティブ動作を行う1台のコンピュータ装置と、アクティブ動作を行っているコンピュータ装置のバックアップ用のコンピュータ装置とを有するシステムであってもよい。以下に説明されるクラスタシステム10の構成要素は、複数のコンピュータ装置において分散して実行される機能等であってもよく、アクティブ動作を行う1台のコンピュータ装置において実行される機能等であってもよい。
コンピュータ装置は、プロセッサがメモリに格納されたプログラムを実行することによって動作する装置である。コンピュータ装置は、例えば、サーバ装置であってもよい。
コンピュータ装置もしくはコンピュータ装置の集合であるクラスタシステム10は、管理部11、監視部12、決定部13、及び制御部14を有している。管理部11、監視部12、決定部13、及び制御部14等のクラスタシステム10の構成要素は、プロセッサがメモリに格納されたプログラムを実行することによって処理が実行されるソフトウェアもしくはモジュールであってもよい。または、クラスタシステム10の構成要素は、回路もしくはチップ等のハードウェアであってもよい。
管理部11は、複数のクラスタシステムにおけるサーバ装置の監視状態及びサーバ装置が異常状態である場合にサーバ装置に対する回復動作を実行する第1のクラスタシステムを示す実行状態を管理する。複数のクラスタシステムに含まれるそれぞれのクラスタシステムは、他のクラスタシステムとは異なるポリシーもしくはシステム構成等を用いて、拡張性もしくは可用性を実現してもよい。サーバ装置は、それぞれのクラスタシステムにおいて拡張性もしくは可用性を確保するために管理されるコンピュータ装置の対象外となるコンピュータ装置である。サーバ装置は、例えば、DNS(Domain Name System)サーバ装置であってもよい。サーバ装置は、それぞれのクラスタシステムによって管理される。言い換えると、サーバ装置に障害が発生した場合に、それぞれのクラスタシステムがサーバ装置の障害を検出し、さらに、それぞれのクラスタシステムによってサーバ装置の回復動作が実行される。
監視状態は、それぞれのクラスタシステムにおける監視結果を示しており、例えば、サーバ装置が正常状態か異常状態かを示す。異常状態は、例えば、サーバ装置に障害もしくは故障が発生した状態であってもよい。回復動作は、例えば、サーバ装置が有する一部の機能、サービス、もしくはアプリケーション等を再起動させることであってもよく、サーバ装置自体を再起動させることであってもよい。実行状態は、例えば、障害が発生したサーバ装置に対して、どのクラスタシステムが回復動作を実行するかを示す。
管理部11は、例えば、監視状態及び実行状態をクラスタシステム毎に管理してもよい。具体的には、管理部11は、クラスタシステムごとの監視状態及び実行状態を示すフラグ情報を、データベースを用いて管理してもよい。
監視部12は、サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を監視状態に反映するとともに、他のクラスタシステムから受信したサーバ装置の監視結果を監視状態に反映する。
監視部12は、例えば、サーバ装置に対してメッセージを送信し、応答メッセージを受信することができたか否かに応じて、サーバ装置が正常状態かもしくは異常状態かを判定してもよい。または、サーバ装置がDNSサーバ装置である場合、監視部12は、仮想ホスト名をDNSサーバ装置へ送信し、仮想ホスト名に対するアドレス情報を受信することができたか否かに応じて、サーバ装置が正常かもしくは異常状態かを判定してもよい。
監視部12は、監視結果を、管理部11において管理されているクラスタシステム10におけるサーバ装置の監視状態に反映する。さらに、監視部12は、クラスタシステム10とは異なる他のクラスタシステムからサーバ装置の監視結果を受信する。つまり、他のクラスタシステムも、監視部12と同様に、サーバ装置の監視を行っている。監視部12は、監視結果を受信すると、管理部11において管理されている他のクラスタシステムにおけるサーバ装置の監視状態に反映する。
決定部13は、複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、サーバ装置に対する回復動作を実行するクラスタシステムを決定する。決定部13は、監視状態を管理する他のクラスタシステムが使用する判定基準と同一の判定基準に従って、異常状態のサーバ装置に対する回復動作を実行するクラスタシステムを決定する。決定部13は、回復動作を実行するクラスタシステムを決定すると、決定結果を管理部11において管理されている実行状態に反映する。
それぞれのクラスタシステムは、異なる方法を用いてサーバ装置を監視してもよい。そのため、サーバ装置の異常状態を検出することができたクラスタシステムと、サーバ装置の異常状態を検出することができなかったクラスタシステムとが存在する。
判定基準は、回復動作を実行するクラスタシステムを一意に決定することができる基準である。例えば、判定基準には、それぞれのクラスタシステムの優先順位が定められており、決定部13は、優先順位の高いクラスタシステムを、回復動作を実行するクラスタシステムと定めてもよい。複数のクラスタシステムは、同一の判定基準を有している。つまり、複数のクラスタシステムは、同一の判定基準を共有している。
制御部14は、実行状態に従ってサーバ装置に対する回復動作を実行するか否かを判定する。制御部14は、実行状態においてクラスタシステム10が回復動作を実行することが示されている場合、サーバ装置に対する回復動作を実行する。また、制御部14は、実行状態において、他のクラスタシステムが回復動作を実行することが示されている場合、サーバ装置に対する回復動作を実行しない。
以上説明したように、クラスタシステム10は、クラスタシステム10を含むすべてのクラスタシステムにおけるサーバ装置の監視状態を管理する。これにより、クラスタシステム10は、クラスタシステム10においてサーバ装置の異常状態を検出することができなかった場合であっても、他のクラスタシステムにおいてサーバ装置の異常状態が検出されたことを把握することができる。
さらに、クラスタシステム10は、異常状態が検出されたサーバ装置に対する回復動作を実行するクラスタシステムを、他のクラスタシステムが有する判定基準と同一の判定基準を用いて決定する。これにより、クラスタシステム10を含む複数のクラスタシステムは、回復動作を実行するクラスタシステムを一意に決定することができる。その結果、異常状態であるサーバ装置に対する回復動作が、複数のクラスタシステムから重複して実行されることを回避することができる。つまり、それぞれのクラスタシステムは、異常状態であるサーバ装置に対する回復動作を実行するクラスタシステムを適切に決定することができる。
(実施の形態2)
続いて、図2を用いて実施の形態2にかかる監視システムの構成例について説明する。図2の監視システムは、クラスタシステム10、クラスタシステム20、クラスタシステム30、及び共有サーバ装置40を有している。クラスタシステム10、クラスタシステム20、クラスタシステム30、及び共有サーバ装置40は、例えば、一つの社内システム等に含まれていてもよい。
クラスタシステム10、クラスタシステム20、クラスタシステム30、及び共有サーバ装置40は、ネットワークを介して接続されている。ネットワークは、例えばIPネットワークであってもよい。クラスタシステム20及びクラスタシステム30は、クラスタシステム10と同じ構成を有している。共有サーバ装置40は、クラスタシステム10、クラスタシステム20、及びクラスタシステム30における拡張性もしくは可用性を確保するために管理されるコンピュータ装置の対象外となるサーバ装置である。共有サーバ装置40は、クラスタシステム10、クラスタシステム20、及びクラスタシステム30によって管理されている。共有サーバ装置40は、例えば、DNSサーバ装置であってもよい。
例えば、クラスタシステム10は、クラスタシステム20もしくは30へアクセスするために、DNSサーバ装置として動作する共有サーバ装置40から、クラスタシステム20もしくは30を識別するアドレス情報を取得してもよい。クラスタシステム20へアクセスするとは、クラスタシステム20内において管理されているいずれかのコンピュータ装置へアクセスすることであってもよい。もしくは、クラスタシステム20へアクセスするとは、クラスタシステム20において他のクラスタシステムと通信を行う機能を有するコンピュータ装置へアクセスすることであってもよい。
次に、図3を用いてクラスタシステム10、クラスタシステム20、及びクラスタシステム30が管理する監視マップについて説明する。以下においては、主にクラスタシステム10が管理する監視マップについて説明するが、クラスタシステム20及びクラスタシステム30が管理する監視マップもクラスタシステム10が管理する監視マップと同様の構成を有する。
クラスタシステム10は、管理部11において監視マップを管理する。監視マップは、それぞれのクラスタシステムと、監視状態、実行状態、及び実行順序とが関連付けられている。クラスタシステムの列に設定される数値は、クラスタシステムの識別情報を示しており、図2に示されるクラスタシステム10、クラスタシステム20、及びクラスタシステム30が監視マップにおいて管理されていることを示している。
実行順序の列に設定される数値は、回復動作を実行する順序を示している。1が設定されているクラスタシステムが最も優先的に回復動作を実行するクラスタシステムであり、3が設定されているクラスタシステムが最も優先順位が低いクラスタシステムである。
監視状態に設定される数値について図4を用いて説明する。監視状態に設定される数値は、フラグ情報と言い換えられてもよい。図4は、監視状態として、正常、一時停止、及び異常のパラメータが存在することを示している。また、図4は、監視状態として正常を示すフラグが0であり、一時停止を示すフラグが1であり、異常を示すフラグが2であることを示している。正常は、共有サーバ装置40が異常状態ではなく、つまり、共有サーバ装置40に障害もしくは故障が発生していないことを示す。一時停止は、共有サーバ装置40の監視を一時的に停止していることを示す。異常は、共有サーバ装置40が正常ではなく、つまり、共有サーバ装置40に障害もしくは故障が発生していることを示す。
続いて、実行状態に設定される数値について図5を用いて説明する。実行状態に設定される数値は、フラグ情報と言い換えられてもよい。図5は、実行状態として、未実施、実行準備、実行中、及び実行済のパラメータが存在することを示している。また、図5は、実行状態として未実施を示すフラグが0であり、実行準備を示すフラグが1であり、実行中を示すフラグが2であり、実行済を示すフラグが3であることを示している。未実施は、異常状態である共有サーバ装置40に対する回復動作を実行しないことを示す。実行準備は、異常状態である共有サーバ装置40に対する回復動作を実行するための準備中であることを示す。実行中は、異常状態である共有サーバ装置40に対する回復動作を実行中であることを示す。実行済は、異常状態である共有サーバ装置40に対する回復動作を完了したことを示す。
続いて、図6及び図7を用いて、クラスタシステム10のみが共有サーバ装置40の異常を検出した場合における回復動作の実行処理の流れについて説明する。さらに、図8を用いて、監視マップに設定される値の遷移について説明する。図8は、クラスタシステム10の実行順序が1であり、クラスタシステム20の実行順序が2であり、クラスタシステム30の実行順序が3であることを示している。さらに、図8は、図6及び図7において監視マップが更新されるステップと、監視マップのフラグ情報とを関連付けて示している。
はじめに、クラスタシステム10は、共有サーバ装置40が異常状態であることを検出する(S11)。例えば、クラスタシステム10は、共有サーバ装置40から仮想ホスト名に対応するアドレス情報を取得できない場合に、共有サーバ装置40が異常状態であると判定する。
次に、クラスタシステム10は、クラスタシステム20及びクラスタシステム30へ、共有サーバ装置40の異常状態を検出したことを示すメッセージを送信する(S12)。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、監視マップにおける監視状態を更新する(S13)。例えば、クラスタシステム10は、異常状態を検出したことを示すメッセージを送信したことを契機に監視マップを更新する。また、クラスタシステム20及びクラスタシステム30は、異常状態を検出したことを示すメッセージを受信したことを契機に監視マップを更新する。図6においては、クラスタシステム10、クラスタシステム20、及びクラスタシステム30が監視マップを更新するタイミングが同一であることを示しているが、完全に同一のタイミングに監視マップの更新が行われなくてもよい。以下の説明においても同様に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30において実行される処理のタイミングが同一であることが示されていても、完全に同一のタイミングでなくてもよい。
具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図8の監視マップのステップS12の列に示されるように、クラスタシステム10の監視状態を2に設定する。
また、図6においては、クラスタシステム10は、メッセージを送信した後に、監視マップを更新しているが、ステップS11において異常状態を検出し、ステップS12においてメッセージを送信する前に、監視マップを更新してもよい。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、共有サーバ装置40に対する監視処理を実行する(S14)。図6においては、クラスタシステム10のみが共有サーバ装置40の異常状態を検出する例について説明するため、クラスタシステム20及びクラスタシステム30は、ステップS14において異常状態を検出しなかったとする。
次に、クラスタシステム20は、クラスタシステム10及びクラスタシステム30へ監視結果を含むメッセージを送信する(S15)。さらに、クラスタシステム30は、クラスタシステム10及びクラスタシステム20へ監視結果を示すメッセージを送信する(S16)。クラスタシステム20及びクラスタシステム30は、共有サーバ装置40が正常であることを示すメッセージを送信する。また、図6は、ステップS15においてクラスタシステム20がメッセージを送信した後に、クラスタシステム30がステップS16においてメッセージを送信する例を示しているが、ステップS15及びS16の順番は逆であってもよい。もしくは、ステップS15及びS16は、実質的に同一のタイミングに実行されてもよい。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム20は、監視マップにおける監視状態を更新する(S17)。クラスタシステム10は、クラスタシステム20及びクラスタシステム30から受信した監視結果を監視マップの監視状態に反映する。クラスタシステム20は、ステップS14における監視結果及びクラスタシステム30から受信した監視結果を監視マップの監視状態に反映する。クラスタシステム30は、ステップS14における監視結果及びクラスタシステム20から受信した監視結果を監視マップの監視状態に反映する。
具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図8の監視マップのステップS17の列に示されるように、ステップS12における監視状態と同様の状態の監視マップを有する。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、回復動作を実行するクラスタシステムを決定し、監視マップの実行状態を更新する(S18)。クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、異常状態を検出したクラスタシステムの中から回復動作を実行するクラスタシステムを決定する。クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、複数のクラスタシステムが共有サーバ装置40の異常状態を検出した場合、実行順序に従って回復動作を実行するクラスタシステムを決定する。図6においては、共有サーバ装置40の異常状態を検出したのはクラスタシステム10のみである。そのため、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、回復動作を実行するクラスタシステムをクラスタシステム10として、監視マップの実行状態を更新する。
具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図8の監視マップのステップS18の列に示されるように、クラスタシステム10の実行状態を1に設定する。つまり、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、クラスタシステム10が回復動作の実行準備中であるとする。
次に、クラスタシステム20は、回復動作を実行しないため、共有サーバ装置40の監視を一時的に停止することを示すメッセージをクラスタシステム10及びクラスタシステム30へ送信する(S19)。また、クラスタシステム30も、共有サーバ装置40の監視を一時的に停止することを示すメッセージをクラスタシステム10及びクラスタシステム20へ送信する(S20)。ステップS19及びS20は、実行される順番が逆であってもよく、実質的に同一のタイミングに行われてもよい。回復動作が実行された場合、共有サーバ装置40の再起動が行われることがある。この場合、回復動作を実行しないクラスタシステムが共有サーバ装置40の監視を行っていた場合、共有サーバ装置40に異常状態が発生していると認識し、共有サーバ装置40の異常状態を検出することがある。そのため、回復動作を実行しないクラスタシステムは、監視を一時的に停止することによって、回復動作中の共有サーバ装置40に関する異常状態の検出を回避することができる。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、監視マップにおけるクラスタシステム20及びクラスタシステム30の監視状態を更新する(S21)。具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図8の監視マップのステップS21の列に示されるように、クラスタシステム20及びクラスタシステム30の監視状態を1に設定する。
次に、クラスタシステム10は、クラスタシステム20及びクラスタシステム30へ、回復動作を開始することを示すメッセージを送信する(S22)。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、監視マップにおけるクラスタシステム10の実行状態を実行中に更新する(S23)。具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図8の監視マップのステップS23の列に示されるように、クラスタシステム10の実行状態を2に設定する。また、クラスタシステム10は、ステップS22において回復動作を開始することを示すメッセージを送信する前に、クラスタシステム10の実行状態を2に設定してもよい。
次に、クラスタシステム10は、共有サーバ装置40に対する回復動作を実行する(S24)。例えば、クラスタシステム10は、共有サーバ装置40が有する一部のアプリケーションを再起動してもよく、共有サーバ装置40を再起動してもよい。次に、クラスタシステム10は、共有サーバ装置40に対する回復動作を完了する(S25)。
次に、クラスタシステム10は、共有サーバ装置40に対する回復動作が完了したことを示すメッセージを、クラスタシステム20及びクラスタシステム30へ送信する(S26)。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、監視マップにおけるクラスタシステム10の実行状態を実行済に更新する(S27)。具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図8の監視マップのステップS27の列に示されるように、クラスタシステム10の実行状態を3に設定する。また、クラスタシステム10は、ステップS27において回復動作が完了したことを示すメッセージを送信する前に、クラスタシステム10の実行状態を3に設定してもよい。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、監視マップにおけるクラスタシステム10、クラスタシステム20、及びクラスタシステム30の実行状態を実行済に更新する(S27)。具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図8の監視マップのステップS27の列に示されるように、クラスタシステム10の実行状態を3に設定する。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、共有サーバ装置40の監視を実行する(S28)。クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、共有サーバ装置40が正常に動作していると判定すると、監視マップの監視状態及び実行状態をリセットする(S29)。具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図8の監視マップのステップS29の列に示されるように、監視状態及び実行状態に0を設定する。
続いて、クラスタシステム10及びクラスタシステム20が、共有サーバ装置40の異常状態を検出した場合における回復動作の実行処理の流れについて説明する。例えば、クラスタシステム10が先に共有サーバ装置40の異常状態を検出し、その後、クラスタシステム20が共有サーバ装置40の異常状態を説明する場合について説明する。
クラスタシステム10及びクラスタシステム20が共有サーバ装置40の異常状態を検出した場合の回復動作の実行処理の流れは、図6及び図7と同様である。ここでは、クラスタシステム10及びクラスタシステム20が、共有サーバ装置40の異常状態を検出した場合における、監視マップに設定される値の遷移について、クラスタシステム10が異常状態を検出した場合との差異を説明する。
クラスタシステム10及びクラスタシステム20が、共有サーバ装置40の異常状態を検出した場合における回復動作の実行処理の流れについて、図6のステップS1からS13までは、クラスタシステム10のみが異常状態を検出した場合と同様である。
クラスタシステム20は、図6のステップS14において共有サーバ装置40の異常状態を検出する。さらに、クラスタシステム20は、ステップS15において、クラスタシステム10へ、共有サーバ装置40の異常状態を検出したことを示すメッセージをクラスタシステム10及びクラスタシステム30へ送信する。
この場合、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図9のステップS17の列に示されるように、クラスタシステム10及びクラスタシステム20の監視状態を2に設定する。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、ステップS18において、共有サーバ装置40に対する回復動作を実行するクラスタシステムを決定する。ステップS17の時点において、共有サーバ装置40の異常状態を検出したクラスタシステムは、クラスタシステム10及びクラスタシステム20である。また、クラスタシステム10は、実行順序に1が設定されているため、実行順序の優先度は、クラスタシステム20よりも高い。そのため、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、共有サーバ装置40に対する回復動作を実行するクラスタシステムとしてクラスタシステム10の監視マップの実行状態を更新する。
具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図9の監視マップのステップS18の列に示されるように、クラスタシステム10の実行状態を1に設定する。つまり、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、クラスタシステム10が回復動作の実行準備中であるとする。
ステップS19以降については、クラスタシステム10のみが異常状態を検出した場合のステップ19以降の処理と同様であるため、詳細な説明を省略する。
続いて、クラスタシステム10及びクラスタシステム20が、共有サーバ装置40の異常状態を検出し、さらに、回復動作において共有サーバ装置40が正常状態へ遷移しなかった場合における回復動作の実行処理の流れについて説明する。この場合、図6及び図7のステップS28までの処理は、クラスタシステム10及びクラスタシステム20が、共有サーバ装置40の異常状態を検出した場合の処理と同様であるため詳細な説明を省略する。以下に、図10及び図11を用いて、ステップS28以降の処理について説明する。
図10は、図7のステップS28以降の処理を示している。クラスタシステム10及びクラスタシステム20は、ステップS28において共有サーバ装置40の監視を実行すると、共有サーバ装置40の異常状態を検出する(S31)。つまり、クラスタシステム10が共有サーバ装置40に対して回復動作を実行したが、共有サーバ装置40の異常状態は回復していない。
次に、クラスタシステム10は、クラスタシステム20及びクラスタシステム30へ共有サーバ装置40が異常状態であることを検出したことを示すメッセージを送信する(S32)。さらに、クラスタシステム20も、クラスタシステム10及びクラスタシステム30へ共有サーバ装置40が異常状態であることを検出したことを示すメッセージを送信する(S33)。また、異常状態を検出していないクラスタシステム30も、異常状態を検出していないことを示す監視結果をクラスタシステム10及びクラスタシステム20へ送信してもよい。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、監視マップにおけるクラスタシステム10及びクラスタシステム20の監視状態を更新する(S34)。具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図9のステップS27の列に示されている監視マップの状態から、図12のステップS34の列に示されている監視マップの状態へ更新する。具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図12におけるクラスタシステム10及びクラスタシステム20の監視状態を2に更新する。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、回復動作を実行するクラスタシステムを決定し、監視マップの実行状態を更新する(S35)。ステップS31において、クラスタシステム10及びクラスタシステム20が、共有サーバ装置40の異常状態を検出している。また、図12のステップS34の列における実行状態には、クラスタシステム10に3が設定されており、クラスタシステム10における回復動作が実行済であることが示されている。そのため、ステップS35においては、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、実行順序が2に設定されているクラスタシステム20を、回復動作を実行するクラスタシステムとする。
具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図12のステップS35の列におけるクラスタシステム20の実行状態を1に更新する。
次に、クラスタシステム10は、回復動作を実行しないため、共有サーバ装置40の監視を一時的に停止することを示すメッセージをクラスタシステム20及びクラスタシステム30へ送信する(S36)。また、クラスタシステム30も、共有サーバ装置40の監視を一時的に停止することを示すメッセージをクラスタシステム10及びクラスタシステム20へ送信する(S37)。ステップS36及びS37は、実行される順番が逆であってもよく、実質的に同一のタイミングに行われてもよい。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、監視マップにおけるクラスタシステム10及びクラスタシステム30の監視状態を更新する(S38)。具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図12の監視マップのステップS38の列に示されるように、クラスタシステム10及びクラスタシステム30の監視状態を1に設定する。
次に、クラスタシステム20は、クラスタシステム10及びクラスタシステム30へ、回復動作を開始することを示すメッセージを送信する(S39)。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、監視マップにおけるクラスタシステム10の実行状態を実行中に更新する(S40)。具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図12の監視マップのステップS40の列に示されるように、クラスタシステム20の実行状態を2に設定する。また、クラスタシステム20は、ステップS39において回復動作を開始することを示すメッセージを送信する前に、クラスタシステム20の実行状態を2に設定してもよい。
次に、クラスタシステム20は、共有サーバ装置40に対する回復動作を実行する(S41)。次に、クラスタシステム20は、共有サーバ装置40に対する回復動作を完了する(S42)。
次に、クラスタシステム20は、共有サーバ装置40に対する回復動作が完了したことを示すメッセージを、クラスタシステム10及びクラスタシステム30へ送信する(S43)。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、監視マップにおけるクラスタシステム20の実行状態を実行済に更新する(S44)。具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図12の監視マップのステップS44の列に示されるように、クラスタシステム20の実行状態を3に設定する。また、クラスタシステム20は、ステップS43において回復動作が完了したことを示すメッセージを送信する前に、クラスタシステム20の実行状態を3に設定してもよい。
次に、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、共有サーバ装置40の監視を実行する(S45)。クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、共有サーバ装置40が正常に動作していると判定すると、監視マップの監視状態及び実行状態をリセットする(S46)。具体的には、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、図12の監視マップのステップS46の列に示されるように、監視状態及び実行状態に0を設定する。
以上説明したように、クラスタシステム10、クラスタシステム20、及びクラスタシステム30が保有する監視マップは、同一となる。また、監視マップには、回復動作を実行する順序が定められている。そのため、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、監視マップを用いることによって、回復動作を実行するクラスタシステムを一意に決定することができる。これより、クラスタシステム10、クラスタシステム20、及びクラスタシステム30は、共有サーバ装置40に対して重複した回復動作を実行することがなく、共有サーバ装置40に対して適切に回復動作を実行することができる。
さらに、回復動作を実行しないクラスタシステムは、一時的に共有サーバ装置40の監視を停止する。これにより、回復動作を実行しないクラスタシステムは、回復動作を実行中のサーバ装置を異常状態であると検出することを回避することができる。
また、実施の形態2にかかる監視システムにおいては、それぞれのクラスタシステムが監視マップを有することによって、上位サーバ装置もしくはリーダーとなるサーバ装置は不要である。これにより、一般的な分散処理において実行されるリーダーを決定するまでのシーケンス等を排除することが可能となり、上位サーバ装置等を設置するためのコストを低減することができる。
図13は、1台のコンピュータ装置として動作するクラスタシステム10の構成例を示すブロック図である。図13を参照すると、クラスタシステム10は、ネットワークインタフェース1201、プロセッサ1202、及びメモリ1203を含む。ネットワークインタフェース1201は、ネットワークノード(e.g., eNB、MME、P-GW、)と通信するために使用されてもよい。ネットワークインタフェース1201は、例えば、IEEE 802.3 seriesに準拠したネットワークインタフェースカード(NIC)を含んでもよい。ここで、eNBはevolved Node B、MMEはMobility Management Entity、P-GWはPacket Data Network Gatewayを表す。IEEEは、Institute of Electrical and Electronics Engineersを表す。
プロセッサ1202は、メモリ1203からソフトウェア(コンピュータプログラム)を読み出して実行することで、上述の実施形態においてフローチャートを用いて説明されたクラスタシステム10の処理を行う。プロセッサ1202は、例えば、マイクロプロセッサ、MPU、又はCPUであってもよい。プロセッサ1202は、複数のプロセッサを含んでもよい。
メモリ1203は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ1203は、プロセッサ1202から離れて配置されたストレージを含んでもよい。この場合、プロセッサ1202は、図示されていないI/O(Input/Output)インタフェースを介してメモリ1203にアクセスしてもよい。
図13の例では、メモリ1203は、ソフトウェアモジュール群を格納するために使用される。プロセッサ1202は、これらのソフトウェアモジュール群をメモリ1203から読み出して実行することで、上述の実施形態において説明されたクラスタシステム10の処理を行うことができる。
図13を用いて説明したように、上述の実施形態におけるクラスタシステム10が有するプロセッサの各々は、図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む1又は複数のプログラムを実行する。
上述の例において、プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第1のクラスタシステムを示す実行状態を管理する管理部と、
前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映する監視部と、
前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第1のクラスタシステムを決定し、決定結果を前記実行状態に反映する決定部と、
管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する制御部と、を備えるクラスタシステム。
(付記2)
前記監視部は、
前記他のクラスタシステムが前記サーバ装置に対する回復動作を実行することが前記実行状態に示されている場合、前記サーバ装置の監視を停止する、付記1に記載のクラスタシステム。
(付記3)
前記監視部は、
前記サーバ装置に対する回復動作を実行しない少なくとも一つの第2のクラスタシステムの監視状態を、前記サーバ装置の監視を停止している状態であることを示す情報に更新する、付記2に記載のクラスタシステム。
(付記4)
前記判定基準は、
前記回復動作を実行する前記第1のクラスタシステムの優先順位を定める、付記1乃至3のいずれか1項に記載のクラスタシステム。
(付記5)
前記決定部は、
前記複数のクラスタシステムのうち、前記サーバ装置が異常状態であることを検出した少なくとも一つの第3のクラスタシステムの中から、前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第1のクラスタシステムを決定する、付記1乃至4のいずれか1項に記載のクラスタシステム。
(付記6)
前記回復動作は、
前記サーバ装置において提供されるアプリケーションの再起動、又は前記サーバ装置の再起動である、付記1乃至5のいずれか1項に記載のクラスタシステム。
(付記7)
前記監視部は、
前記サーバ装置がDNSサーバ装置である場合に、仮想ホスト名のアドレス解決が成功したか否かに応じて前記DNSサーバ装置が正常状態かもしくは異常状態かを判定する、付記1乃至6のいずれか1項に記載のクラスタシステム。
(付記8)
複数のクラスタシステムと、
前記複数のクラスタシステムによって管理されるサーバ装置と、を含む監視システムであって、
それぞれの前記クラスタシステムは、
前記複数のクラスタシステムにおける前記サーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第1のクラスタシステムを示す実行状態を管理し、
前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、
前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第1のクラスタシステムを決定し、決定結果を前記実行状態に反映し、
管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する、監視システム。
(付記9)
それぞれの前記クラスタシステムは、
前記他のクラスタシステムが前記サーバ装置に対する回復動作を実行することが前記実行状態に示されている場合、前記サーバ装置の監視を停止する、付記8に記載の監視システム。
(付記10)
複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第1のクラスタシステムを示す実行状態を管理し、
前記サーバ装置が正常状態かもしくは異常状態かを監視し、
監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、
前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第1のクラスタシステムを決定し、
決定結果を前記実行状態に反映し、
管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する、クラスタシステムにおいて実行される監視方法。
(付記11)
複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第1のクラスタシステムを示す実行状態を管理し、
前記サーバ装置が正常状態かもしくは異常状態かを監視し、
監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、
前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第1のクラスタシステムを決定し、
決定結果を前記実行状態に反映し、
管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定することをコンピュータに実行させるプログラム。
10 クラスタシステム
11 管理部
12 監視部
13 決定部
14 制御部
20 クラスタシステム
30 クラスタシステム
40 共有サーバ装置

Claims (10)

  1. 複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第1のクラスタシステムを示す実行状態を管理する管理部と、
    前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映する監視部と、
    前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第1のクラスタシステムを決定し、決定結果を前記実行状態に反映する決定部と、
    管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する制御部と、を備えるクラスタシステム。
  2. 前記監視部は、
    前記他のクラスタシステムが前記サーバ装置に対する回復動作を実行することが前記実行状態に示されている場合、前記サーバ装置の監視を停止する、請求項1に記載のクラスタシステム。
  3. 前記監視部は、
    前記サーバ装置に対する回復動作を実行しない少なくとも一つの第2のクラスタシステムの監視状態を、前記サーバ装置の監視を停止している状態であることを示す情報に更新する、請求項2に記載のクラスタシステム。
  4. 前記判定基準は、
    前記回復動作を実行する前記第1のクラスタシステムの優先順位を定める、請求項1乃至3のいずれか1項に記載のクラスタシステム。
  5. 前記決定部は、
    前記複数のクラスタシステムのうち、前記サーバ装置が異常状態であることを検出した少なくとも一つの第3のクラスタシステムの中から、前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第1のクラスタシステムを決定する、請求項1乃至4のいずれか1項に記載のクラスタシステム。
  6. 前記回復動作は、
    前記サーバ装置において提供されるアプリケーションの再起動、又は前記サーバ装置の再起動である、請求項1乃至5のいずれか1項に記載のクラスタシステム。
  7. 前記監視部は、
    前記サーバ装置がDNSサーバ装置である場合に、仮想ホスト名のアドレス解決が成功したか否かに応じて前記DNSサーバ装置が正常状態かもしくは異常状態かを判定する、請求項1乃至6のいずれか1項に記載のクラスタシステム。
  8. 複数のクラスタシステムと、
    前記複数のクラスタシステムによって管理されるサーバ装置と、を含む監視システムであって、
    それぞれの前記クラスタシステムは、
    前記複数のクラスタシステムにおける前記サーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第1のクラスタシステムを示す実行状態を管理し、
    前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、
    前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第1のクラスタシステムを決定し、決定結果を前記実行状態に反映し、
    管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する、監視システム。
  9. 複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第1のクラスタシステムを示す実行状態を管理し、
    前記サーバ装置が正常状態かもしくは異常状態かを監視し、
    監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、
    前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第1のクラスタシステムを決定し、
    決定結果を前記実行状態に反映し、
    管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する、クラスタシステムにおいて実行される監視方法。
  10. 複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第1のクラスタシステムを示す実行状態を管理し、
    前記サーバ装置が正常状態かもしくは異常状態かを監視し、
    監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、
    前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第1のクラスタシステムを決定し、
    決定結果を前記実行状態に反映し、
    管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定することをコンピュータに実行させるプログラム。
JP2021080395A 2021-05-11 2021-05-11 クラスタシステム、監視システム、監視方法、及びプログラム Pending JP2022174535A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021080395A JP2022174535A (ja) 2021-05-11 2021-05-11 クラスタシステム、監視システム、監視方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021080395A JP2022174535A (ja) 2021-05-11 2021-05-11 クラスタシステム、監視システム、監視方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2022174535A true JP2022174535A (ja) 2022-11-24

Family

ID=84144632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021080395A Pending JP2022174535A (ja) 2021-05-11 2021-05-11 クラスタシステム、監視システム、監視方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2022174535A (ja)

Similar Documents

Publication Publication Date Title
US10915412B2 (en) System and method for live migration of a virtual machine
CN110071821B (zh) 确定事务日志的状态的方法,节点和存储介质
US8214823B2 (en) Cluster system, process for updating software, service provision node, and computer-readable medium storing service provision program
US10841270B2 (en) Methods and devices for switching a virtual internet protocol address
US7958210B2 (en) Update management method and update management unit
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
US8713352B2 (en) Method, system and program for securing redundancy in parallel computing system
US20100138687A1 (en) Recording medium storing failure isolation processing program, failure node isolation method, and storage system
CN109788068B (zh) 心跳状态信息上报方法、装置和设备及计算机存储介质
CN102394914A (zh) 集群脑裂处理方法和装置
CN107508694B (zh) 一种集群内的节点管理方法及节点设备
US8990608B1 (en) Failover of applications between isolated user space instances on a single instance of an operating system
US11397632B2 (en) Safely recovering workloads within a finite timeframe from unhealthy cluster nodes
JP5998577B2 (ja) クラスタ監視装置、クラスタ監視方法、及びプログラム
CN114138732A (zh) 一种数据处理方法及装置
CN107508700B (zh) 容灾方法、装置、设备及存储介质
US20050066017A1 (en) Deterministically electing an active node
CN111342986B (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN108509296B (zh) 一种处理设备故障的方法和系统
CN112887367B (zh) 实现分布式集群高可用的方法、系统及计算机可读介质
CN110661599B (zh) 一种主、备节点间的ha实现方法、装置及存储介质
JP2022174535A (ja) クラスタシステム、監視システム、監視方法、及びプログラム
CN116192885A (zh) 高可用集群架构人工智能实验云平台数据处理方法及系统
JP2009271858A (ja) 計算機システム及びプログラム
JP4485560B2 (ja) コンピュータ・システム及びシステム管理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240405