JP2007122330A - クラスタ障害推定システム - Google Patents

クラスタ障害推定システム Download PDF

Info

Publication number
JP2007122330A
JP2007122330A JP2005312539A JP2005312539A JP2007122330A JP 2007122330 A JP2007122330 A JP 2007122330A JP 2005312539 A JP2005312539 A JP 2005312539A JP 2005312539 A JP2005312539 A JP 2005312539A JP 2007122330 A JP2007122330 A JP 2007122330A
Authority
JP
Japan
Prior art keywords
node
cluster
nodes
detailed information
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005312539A
Other languages
English (en)
Other versions
JP4725724B2 (ja
Inventor
Riyoujin Obika
亮仁 小比賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005312539A priority Critical patent/JP4725724B2/ja
Publication of JP2007122330A publication Critical patent/JP2007122330A/ja
Application granted granted Critical
Publication of JP4725724B2 publication Critical patent/JP4725724B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】複数のノードを有するクラスタシステムにおいて、クラスタを構成する複数のノードの中から異常の発生しているノードのみを正確に検出する。
【解決手段】リクエスト停止ノード選択手段81は、クラスタを構成する複数の被障害監視ノード6のうち、リクエストの分配を停止するノードを選択する。リクエスト停止手段41は、選択されたノードへのリクエストの配信を停止する。希少ノード計算手段84は、選択されたノードの詳細情報を詳細情報格納部83より取得し、この詳細情報を用いて、複数の被障害監視ノード6の中から資源の利用状況が他の被障害監視ノード6とは異なるパターンを示すノードを算出する。クラスタ障害推定手段85は、希少ノード計算手段84によって計算された計算結果を用いて、異常状態にあるノードを検出する。
【選択図】図1

Description

本発明は、クラスタを構成する複数のノードと、ユーザ端末からのリクエストを各ノードに対して分配する負荷分散装置とから構成されるクラスタシステムにおいて、複数のノードの中から異常の発生しているノードを判定するためのクラスタ障害推定システムに関する。
近年、コンピュータシステムが様々なサービスの提供のために使用されるようになってきている。そのため、これらのコンピュータシステムの一部の装置に不具合が発生した場合でもシステムダウンすることがないことが要求される。このような要求を満たすため、クラスタ(cluster)システムが利用されている。
クラスタとは、複数の計算機をLANなどのネットワークによって結合し、一つの大規模な計算機として利用する計算機の利用形態を指す。クラスタシステムで利用される個々の計算機は、ノードと呼ばれる。クラスタシステムでは、ユーザからのリクエストを複数のノードに分散させて処理を行う。
図9に従来のクラスタシステムの構築例を示す。図9に示される従来のクラスタシステムでは、各ノード561〜56NがLAN5によって接続されることにより、クラスタが構成されている。さらに、クラスタには負荷分散装置54が接続され、負荷分散装置54は、ユーザ端末(以下、単にユーザと称する。)1からのリクエスト2を受け取り、そのリクエスト2を各ノード561〜56Nに分配する。リクエストの例としては、WEBリクエストなどがある。各ノード561〜56Nはリクエスト2の処理結果をレスポンス3として、負荷分散装置54を経由して、ユーザ1に返却する。クラスタシステムは、パーソナルコンピュータやワークステーションなど、安価な計算機を構成要素としているため、スーパーコンピュータなどの大型計算機と同じ性能を安価に実現することができる。
このようなクラスタシステムでは、複数のノードによりクラスタが構成されるが、このクラスタを構成する複数のノード中のあるノードにウィルス感染等の障害が発生した場合、他のノードへの影響を防ぐために障害が発生したノードをネットワークから切り離す等の処理が必要となる。
このような目的のため、複数のノードを有するクラスタシステムにおいて、クラスタを構成する複数のノードの中から異常の発生しているノードを判定するクラスタ障害推定システムが用いられる。
従来のクラスタ障害推定システムの一例が、特許文献1に記載されている。この特許文献1に記載された従来のクラスタ障害推定システムでは、図10に示されるように、複数のパーソナルコンピュータ76がLAN5によって接続されており、遮断部71と、ウィルス判定部72とにより障害の発生したノードの判定および遮断が行われる。
パーソナルコンピュータ76は、それぞれ、ウィルス監視部61、監視条件定義ファイル62、事前登録部63、測定データファイル64、資源65から構成されている。また、この資源65は、ネットワークリソース651、CPUリソース652、入出力リソース(I/Oリソース)653とから構成されている。
このような構成を有する従来のクラスタ障害推定システムは下記のように動作する。
すなわち、ユーザは、事前登録部63によって、監視条件定義ファイル62に監視条件を入力する。監視条件とは、「CPU使用率50%」というように、監視する資源と閾値の組を表したものである。測定データファイル64には、ネットワークリソース651、CPUリソース652、入出力リソース653など各種資源(リソース)65の使用状況が保存される。ウィルス監視部61は、測定データファイル64に格納された測定データが、監視条件定義ファイル63に登録された監視条件に抵触するかどうかを監視する。測定データが監視条件に抵触した場合、ウィルス監視部61は、ユーザに対して警告メッセージを出力したり、遮断部71に対して、当該パーソナルコンピュータ76をネットワークから切離すよう命令を出す。ウィルス判定部72は、パーソナルコンピュータ76から送られてくる定期信号を監視し、定期信号の到着状況を把握することによって、当該パーソナルコンピュータ76に障害が発生しているかどうかを監視する。
このように、図10に示した従来の障害推定システムでは、ウィルス監視部61が、資源65の使用が急激に増加して監視条件に抵触した場合にウィルスに感染したと判定し、遮断部71によりウィルスに感染したパーソナルコンピュータ76をネットワークから遮断するようにしている。
しかし、この図10に示した従来の障害推定システムでは、ウィルスに感染しているかどうかの監視条件として、使用されている資源量が閾値を超えているかという条件を用いているため、過負荷状態と障害の発生とを区別することができない。そのため、過負荷状態を障害として誤検出してしまう可能性がある。つまり、このような従来のクラスタ障害の推定システムでは、ユーザからの処理要求の増加によりノードが過負荷状態に陥った場合に、例えそのノードが正常な場合であってもウィルスに感染していると誤検出してしまう恐れがある。
さらに、この図10に示した従来の障害推定システムでは、パーソナルコンピュータ76という個々のノードが独立して障害を監視している。そのため、例えば、登録された閾値以上のリソースを利用するアプリケーションが実行されると、アプリケーションを実行したことによって、当該ノードはウィルスに感染したものとして、遮断部71によってネットワークから切離されてしまう。
つまり、何の障害が発生していない場合でも、正常な計算機の振る舞いを障害として誤検出してしまう場合がある。単体のアプリケーションに関わらず、複数のアプリケーションを組み合わせて実行することによって、閾値を超えてしまうような状況は用意に想定できる。
特開2005−25679号公報
上述した従来のクラスタ障害推定システムでは、サーバが過負荷状態になると障害が発生しているものと誤検出してしまったり、正常な計算機の振る舞いを障害として誤検出してしまうことであるという問題点を有していた。
本発明の目的は、複数のノードを有するクラスタシステムにおいて、クラスタを構成する複数のノードの中から異常の発生しているノードのみを正確に検出することができるクラスタ障害推定システムを提供することにある。
上記目的を達成するために、本発明は、クラスタを構成する複数の被障害監視ノードと、ユーザ端末からのリクエストを前記各被障害監視ノードに対して分配する負荷分散装置と、前記複数の被障害監視ノードの中から異常の発生しているノードを検出するための障害監視ノードとから構成されるクラスタ障害推定システムにおいて、
前記複数の被障害監視ノードは、それぞれ、当該被障害監視ノードの資源の利用状況を示す内部情報を詳細情報として取得する詳細情報取得手段を有し、
前記障害監視ノードは、
前記詳細情報を格納するための詳細情報格納手段と、
前記詳細情報取得手段から送られてきた詳細情報を前記詳細情報格納手段に格納する詳細情報管理手段と、
前記複数の被障害監視ノードのうち、リクエストの分配を停止する被障害監視ノードを選定するリクエスト停止ノード選択手段と、
前記リクエスト停止ノード選択手段において選定された被障害監視ノードの詳細情報を前記詳細情報格納手段から取得し、取得した該詳細情報を用いて、複数の被障害監視ノードの中から資源の利用状況が他の被障害監視ノードとは異なるパターンを示す被障害監視ノードを算出する希少ノード計算手段と、
前記希少ノード計算手段によって計算された計算結果を用いて、異常状態にある被詳細監視ノードを検出するクラスタ障害推定手段と、
前記クラスタ障害推定手段により異常が発生していると判定された被障害ノードをネットワークから切り離すノード切離し手段とを有し、
前記負荷分散装置は、
前記リクエスト停止ノード選択手段において選定された被障害監視ノードに対するリクエストの分配を停止するリクエスト停止手段を有することを特徴とする。
本発明によれば、リクエスト停止ノード選択手段により選択された被障害監視ノードへのリクエスト配信を停止して、資源の利用状況を示す詳細情報を取得するようにしているので、リクエストによる過負荷状態においても定常状態での障害判定が行われる。そのため、過負荷状態においても、異常の発生しているノードのみを抽出することができ、計算機の正常な振る舞いを障害として検出することを防ぐことができる。
また、本発明では、リクエストの配信を停止したすべての被障害監視ノードの詳細情報を用いて、他のノードとは資源利用パターンが異なる希少ノードを判定しているために、資源利用の閾値に依存せずに、一定数のノード集合から希少な資源の利用状況を示すノードを異常ノードとして検出することができる。
以上説明したように、本発明によれば、下記のような効果を得ることができる。
(1)クラスタを構成する各ノードへのリクエスト分配を一旦停止し、ノードの定常的な状態で資源の利用状況を取得するようにしているので、リクエストの急激な増加による過負荷の影響を受けずに障害を検出することができる。言い換えると、クラスタが過負荷状態に陥っている状態でも、異常の発生しているノードを発見することができる。
(2)各ノードの資源利用パターンから、希な資源利用状況のノードを障害の発生したノードと判定するようにしているので、異常の発生しているノードのみを正確に検出することができる。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
(第1の実施形態)
図1は本発明の第1の実施形態のクラスタ障害推定システムの構成を示すブロック図である。
本実施形態のクラスタ障害推定システムは、図1に示されるように、負荷分散装置4と、被障害監視ノード6と、障害監視ノード8とから構成される。ここでは、説明を簡単に説明するためにクラスタを構成する被障害監視ノード6は1つしか示していないが、実際には複数の被障害監視ノード6が存在する。
障害監視ノード8は、クラスタ内に設置された障害の監視を担当するノードであるが、ある被障害監視ノード6に含まれていても良い。また、負荷分散装置4には、リクエスト停止手段41が含まれる。さらに、被障害監視ノード6には、詳細情報取得手段66が含まれる。
そして、障害監視ノード8には、リクエスト停止ノード選択手段81と、詳細情報管理手段82と、詳細情報格納部83と、希少ノード計算手段84と、クラスタ障害推定手段85と、クラスタ状態観察手段87と、ノード切離し手段86とが含まれる。被障害監視ノード6は図9に示したクラスタシステムおけるノード561〜56Nに該当する。
負荷分散装置4は、ユーザ端末からのリクエストを、各被障害監視ノード6に対して負荷が分散されるように分配する。被障害監視ノード6は、負荷分散装置4から配信されたリクエストに対する処理を行っている。
本実施形態のクラスタ障害推定システムでは、複数の被障害監視ノード6のうちから障害発生の有無を判定する被障害監視ノード6を選定して、選定された被障害監視ノード6に対してリクエストの配信を停止してから障害検出を行う。
リクエスト停止ノード選択手段81は、クラスタを構成する複数の被障害監視ノード6のうち、リクエストの分配を停止するノード台数を決定し、台数分の被障害監視ノード6をクラスタの中から選定する。台数の決定と被障害監視ノード6の選定は、ランダムで選択したり、設定ファイルに具体的な数値などを記入しておく、もしくはそれらの組み合わせが考えられる。他には、満足すべきレスポンス時間に応じて、台数を決定する方法がある。
リクエスト停止ノード選択手段81は、リクエストの分配を停止する被障害監視ノード6を選択した後に、負荷分散装置4内のリクエスト停止手段41に対して選択した被障害監視ノード6のリストと個々の被障害監視ノード6に対するリクエストの分配停止時間を送付する。さらに、リクエスト停止ノード選択手段81は、希少ノード計算手段84に対して、リクエストの配信を停止した時刻と、再開時刻を通知する。ここでは、障害監視ノード8と負荷分散装置4は時間の同期が保たれているものとするが、仮に、時間の同期が取れていない場合は、実際に負荷分散装置4がリクエストの分配を停止した時刻を知るために、リクエスト停止手段41からリクエスト停止ノード選択手段81に対してリクエストの分配を停止した時刻を送信する。リクエストの分配を再開する時刻は、リクエストの分配を停止した時刻にリクエストの分配停止時間を加算することにより求めることができるので、リクエスト停止手段41からリクエスト停止ノード選択手段81に対してリクエストの配信を再開する時刻を送信しなくてもよい。
リクエスト停止手段41は、リクエスト停止ノード選択手段81から送られてきた被障害監視ノード6のリストとリクエスト分配停止時間を基に、リストに掲載されている被障害監視ノード6へのリクエストの分配を一定時間停止する。
詳細情報管理手段82は、被障害監視ノード6中の詳細情報取得手段66から定期的に送られてくる詳細情報を受け取って、詳細情報格納部83に格納する。詳細情報を受け取って格納するという詳細情報管理手段82の処理は、上記、リクエスト停止ノード選択手段81、リクエスト停止手段41の処理とは独立して実行される。すなわち、詳細情報管理手段82は、リクエスト停止ノード選択手段81の動作に関わらず、定期的に詳細情報取得手段66から詳細情報を受け取っている。
詳細情報取得手段66は、被障害監視ノード6の資源の利用状況を示す内部情報を、この内部情報を取得した時刻情報とともに定期的に詳細情報管理手段82に詳細情報として送信する。ここで内部情報とは、CPU使用率や、メモリ使用率、ネットワーク帯域使用量などの内部状態を表す情報である。
希少ノード計算手段は84、リクエスト停止ノード選択手段81から、リクエストの配信を停止したノード名と停止した時刻を受け取っている。希少ノード計算手段84は、この情報を用いて、詳細情報管理手段82を介して、上記情報に該当する被障害監視ノード6の詳細情報を詳細情報格納部83から取得する。そして、希少ノード計算手段84は、取得した詳細情報を用いて、複数の被障害監視ノード6の中から資源の利用状況が他の被障害監視ノード6とは異なるパターンを示す被障害監視ノード6を算出する。希少ノード計算手段84は、被障害監視ノード6の資源利用パターンに対して順位づけをできる計算手法なら、中央値や平均値、偏差値など、どのような計算を用いてもよい。
ここで、中央値を用いて、被障害監視ノード6からCPU使用率を取得したときの希少ノードの計算手法を例示する。中央値とは、N個のデータを小さいほうから並べたときに、中央にくる値のことを指す。被障害監視ノードA、B、Cが存在し、それぞれのCPU使用率が10%、20%、60%という場合は、中央値は、20%となり、そこからの偏差はそれぞれ、10%、0%、40%となる。この場合、希少ノードはCPU使用率が60%のノードCとみなすことができるが、希少ノード計算手段84は、40%の偏差を「異常なパターン」かどうか判断せず、希少パターンの判定をするための計算のみを行う。希少ノード計算手段84は、計算結果をクラスタ障害推定手段85に渡す。例における計算結果とは、中央値(20%)と、そこからの偏差(10%,0%,40%)の組である。
クラスタ障害推定手段85は、希少ノード計算手段84によって計算された計算結果を用いて、異常状態にあるノードを検出する。異常状態の判定には、推定基準表を用いる。図2に推定基準表の例を示す。推定基準表には、資源名と推定基準が記述されている。クラスタ障害推定手段85は、推定基準に該当するもの(推定基準によって真値がかえされるもの)を正常とみなし、推定基準に該当しないもの(推定基準によって偽値がかえされるもの)を異常とみなす。例では、CPU使用率の偏差の組が(10%,0%,40%)となっており、推定基準に照らし合わせると、異常ノードはノードCと断定することができる。異常がみられるノードに対しては、ノード切離し手段86を実行し、どのノードにも異常が見られない場合は、クラスタ状態観察手段87を実行する。
クラスタ状態観察手段87は、クラスタ障害推定手段85において異常の発生している被障害監視ノード6が検出されなかった場合、詳細情報管理手段82を介して詳細情報格納部83に格納されている詳細情報を取得する。そして、クラスタ状態観察手段87は、取得した詳細情報に基づいて複数の被障害監視ノード6が過負荷状態であるか否かを判定し、複数の被障害監視ノード6が過負荷状態であると判定した場合、詳細情報取得手段66に対して、詳細情報の取得を一時的に停止するように命令する。なお、詳細情報の取得を停止させる期間は任意である。
ノード切り離し手段86は、クラスタ障害推定手段85により異常状態にあると判断されたノードをネットワークから切り離す。
次に、図3のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
まず、リクエスト停止ノード選択手段81は、リクエストの分配を停止するノードを選択し(ステップ101)、リクエスト停止手段41は、選択されたノードに対するリクエストの分配を停止する(ステップ102)。次に、希少ノード計算手段84は、詳細情報格納部83から詳細情報管理手段82を経由して、リクエストの分配を停止したノードの詳細情報を取得する(ステップ103)。このとき、取得に必要な入力情報は、ノード名と時刻である。詳細情報取得手段66は、詳細情報管理手段82に対して定期的に詳細情報を送信している。詳細情報取得手段66のこの一連の処理は、図3のフローチャートとは独立した処理である。
希少ノード計算手段84は、詳細情報格納部83から詳細情報を取り出し、希少ノードを計算する(ステップ104)。クラスタ障害推定手段85は、希少ノード計算手段84の計算結果を推定基準表と比較することにより異常ノードを推定する(ステップ105)。異常ノードが発見された場合(ステップ106のYES)、ノード切離し手段86は、異常ノードをネットワークから切離して(ステップ107)処理を終了する。異常ノードが発見されなければ(ステップ108のNO)、クラスタ状態観察手段87は、クラスタ障害推定手段85を実行した時点での詳細情報を詳細情報格納部83から詳細情報管理手段82を経由して取得し(ステップ108)、クラスタが過負荷状態であれば(ステップ109のYES)、詳細情報取得手段66に対して、詳細情報の取得を一時停止するように命令する(ステップ110)。過負荷の判定で取得する詳細情報は、どの被障害監視ノード6のものを用いてもよい。なぜなら、クラスタ障害推定手段85によって、どのノードの資源利用パターンも稀なものはなく、すべてのノードの資源利用パターンが同じであるからである。
本実施形態のクラスタ障害推定システムでは、リクエスト停止ノード選択手段81により選択された被障害監視ノード6へのリクエスト配信を停止して、詳細情報を取得するようにしているので、リクエストによる過負荷状態においても定常状態での障害判定が行われる。そのため、過負荷状態においても、異常の発生しているノードのみを抽出することができ、計算機の正常な振る舞いを障害として検出することを防ぐことができる。
また、本実施形態のクラスタ障害推定システムでは、リクエストの配信を停止したすべての被障害監視ノード6の詳細情報を用いて、他のノードとは資源利用パターンが異なる希少ノードを判定しているために、資源利用の閾値に依存せずに、一定数のノード集合から希少な資源の利用状況を示すノードを異常ノードとして検出することができる。
各ノードの資源利用パターンの差異から障害が発生しているノードを検出することにより誤検出を不正で異常が発生しているノードのみを正確に検出することができる理由を以下に説明する。
クラスタは、上述したように、WEBリクエストを処理するために利用されることが多い。ウェブショッピングなど、単一のサイトに到着するWEBリクエストは、商品の表示、商品の選択、購入手続きなど、単調な処理の繰り返しであり、リクエスト毎に、リクエストの処理時間や、ユーザに対する送信情報の内容が大幅に変化することはほとんどない。さらに、クラスタは、負荷分散を効率よく行うために、均一な性能を持つノードを構成要素として使用する。
このように、均一な性能を持つノードが同一処理を繰り返す環境では、各ノードは、同じような資源の利用パターンを示す。同じ処理を行う、同じ性能を持つノードの中で、異質な資源の利用パターンを示すノードが存在するとすれば、そのノードには、何らかの異常があると言わざるを得ない。その結果、各ノードの資源利用状況を比較することによって、異常の発生しているノードのみを抽出し、計算機の正常な振る舞いを障害として誤検知してしまうことを防ぐことができる。
そして、本実施形態のクラスタ障害推定システムでは、障害が発生していると判定されたノードを、ノード切離し手段86によりネットワークから切離す。また、どのノードの資源利用パターンからも著しい違いは見つけられなかった場合は、異常ノードはなく、すべてのノードが正常に動作しているものとみなす。すべてが正常に動作している場合は、クラスタ状態観察手段87が、被障害監視ノード6からの詳細情報を再度確認し、クラスタが過負荷であるならば、クラスタの負荷を軽減させるために、詳細情報の取得を一時停止させる。
(第1の実施形態における変形例1)
リクエスト停止手段41は、負荷分散装置4に設置される他、各被障害監視ノード内に設置してもよい。そのような場合は、リクエスト停止ノード選択手段81から「リクエストの拒否命令」が各被障害監視ノード6上のリクエスト停止手段に送られてくる。被障害監視ノード6へ負荷分散装置4から送られてくるリクエストは、まずリクエスト停止手段41によって受け取られる。そして、リクエストの拒否命令をリクエスト停止手段41が受け取っている場合は、リクエストを処理せず、そのまま放棄する。こうすることによって、負荷分散装置4においてリクエストの分配を停止することと同じ効果を生む。
(第1の実施形態における変形例2)
クラスタ状態観察手段87を含まない第1の実施形態も構築可能である。このような場合、図3に示されるステップ108〜110のステップが無くなり、異常ノードが発見されなかった場合は、そのまま処理を終了する。
(第1の実施形態における変形例3)
詳細情報管理手段82、詳細情報取得手段66は、図3に示される本実施形態の動作に関連せず、定期的に詳細情報の送受信を行うが、定期的に詳細情報の送受信を行わない手法も存在する。すなわち、リクエスト停止ノード選択手段81によって、リクエストの分配を停止する被障害監視ノード6を決定した後に、それらの被障害監視ノード6の詳細情報のみを詳細情報取得手段66から取得する手法である。この方法を用いても、上記で説明した手法をもちいても、効果は変わらない。
(第2の実施形態)
次に、本発明の第2の実施形態のクラスタ障害推定システムについて図面を参照して詳細に説明する。
本発明の第2の実施形態のクラスタ障害推定システムの構成を図4に示す。図4において、図1中の構成要素と同一の構成要素には同一の符号を付し、説明を省略するものとする。
本実施形態のクラスタ障害推定システムは、図4に示されるように、図1に示した第1の実施形態のクラスタ障害推定システムの構成に対して、障害監視ノード8が障害監視ノード28に置き換えられた構成となっている。
また、本実施形態における障害監視ノード28は、図1に示した障害監視ノード8に対して、計算および計算因数表示部89、希少ノード計算手段設定部90、推定基準設定手段88が新たに設けられた構成となっている。本発明の第2の実施形態では、希少ノード計算手段84における計算手法および、クラスタ障害推定手段85における障害推定基準を動的に変えるための仕組みを提供する。
希少ノード計算手段設定部90は、希少ノード計算手段84によって使用される計算方法を変更するための機能を提供する。希少ノード計算手段設定部90には、現在利用できる計算方法の一覧が表示される。ユーザは、表示された計算方法の一覧から、利用する計算方法を選択する。
計算および計算因数表示部89は、希少ノード計算手段84によって使用された計算方法ならびに、計算途中で利用された計算因数(数値)を表示する。計算および計算因数表示部89は、希少ノード計算手段84によって利用される個々の計算方法にメタ情報を付加し、その内容を表示する。メタ情報の付加には、XML(eXtensible Markup Language)などの構造化言語を用いるとよい。また、計算および計算因数表示部89は、計算方法を表示する際に計算途中の情報が必要であれば、計算途中の結果も合わせて表示する。図5に、上記CPU使用率の例に対する計算および計算因数表示部89の表示結果を示す。まず表の最上段に方式名が表示される。次に、計算途中で使用した中央値および、最後に差分の計算方法が表示されている。
推定基準設定手段88は、クラスタ障害推定手段85で用いられる推定基準を動的に変更する機能を提供する。ユーザは、計算および計算因数表示部89によって表示された情報を基に、推定に用いる資源名および推定基準を入力する。推定基準は、希少ノード計算手段84の計算結果を入力とし、真偽値を出力する計算方法ならどのようなものでも構わない。
本実施形態のクラスタ障害推定システムにより、利用される環境によって、異常ノードを検出するための計算方法、推定基準を動的に変更することができ、異常ノードの検出精度を高めることができる。
(第3の実施形態)
次に、本発明の第3の実施形態のクラスタ障害推定システムについて図面を参照して詳細に説明する。
本発明の第3の実施形態のクラスタ障害推定システムは、障害の有無を調査する被障害監視ノードを選択する際に、実行されているアプリケーションが等しいノードを選択するための機能を付加したものである。
上記で説明した第1および第2の実施形態では、各被障害監視ノードで実行されているアプリケーションの資源の利用パターンを比較し、稀なパターンを持つノードを検出することを特徴の一つとしている。しかし、個々の被障害監視ノードで実行されているアプリケーションが異なっていると、その資源利用パターンも異なる結果を示し、異常パターンの検出が困難となる。よって、本発明の第3の実施形態では、被障害監視ノード上で実行されているアプリケーションの数、種類ともに等しいノードを選択することにより、異常パターンの検出を、第1および第2の実施形態と比較して高めることができる。
本発明の第3の実施形態のクラスタ障害推定システムの構成を図6に示す。図6において、図1中の構成要素と同一の構成要素には同一の符号を付し、説明を省略するものとする。
本実施形態のクラスタ障害推定システムは、図6に示されるように、図1に示した第1の実施形態のクラスタ障害推定システムの構成に対して、障害監視ノード8が障害監視ノード38に置き換えられ、被障害監視ノード6が被障害監視ノード36に置き換えられた構成となっている。
本実施形態における障害監視ノード38は、図1に示した第1の実施形態における障害監視ノード8に対して、アプリケーション実行状態観察手段91が新たに設けられた構成となっている。
また、本実施形態における被障害監視ノード36は、図1に示した第1の実施形態における被障害監視ノード6に対して、アプリケーション実行状態取得手段92が新たに設けられた構成となっている。
アプリケーション実行状態取得手段92は、アプリケーション実行状態観察手段91に対して、個々の被障害監視ノード36上で実行されているアプリケーションの情報を通知する。ここで、アプリケーション実行状態取得手段92は、実行されているアプリケーション名を最小の情報としてアプリケーション実行状態観察手段91に通知する。通知間隔は、任意である。アプリケーション実行状態観察手段91からの要求に応じて送信してもよい。アプリケーション名の取得には、UNIX上であればPSコマンドのように既存の手法が利用できる。
アプリケーション実行状態観察手段91は、アプリケーション実行状態取得手段92から送られてくる情報に基づいて、被障害監視ノード36上で実行されているアプリケーションの状態が同様なノード群のリストをリクエスト停止ノード選択手段91に送信する。具体的には、アプリケーション実行状態観察手段91は、アプリケーション実行状態取得手段92から送られてくる情報に基づいて、実行されているアプリケーションの種類、数ができるだけ等しいノードを抽出し、抽出したノードのリストを、リクエスト停止ノード選択手段81に通知する。アプリケーション実行状態取得手段92から送られてくる最小の情報は、当該ノード上で実行されているアプリケーション名のリストである。
リクエスト停止ノード選択手段81は、それらアプリケーション実行状態取得手段92から送られてくるアプリケーション名のリストを比較して、同種類であり、かつ同数のアプリケーションを実行しているノードを選択する。一方、同種類かつ同数のアプリケーションを実行しているノードが見つからなかった場合は、リクエスト停止ノード選択手段81は、各ノードの共通点を抽出し、共通となるアプリケーション以外にどれだけ違うアプリケーションを実行しているかをランク付けし、ランク順にノードを選択するようにしてもよい。
例として、ノードA(a,b,c,d)、ノードB(a,b,c,d)、ノードC(a,b,c,e,f)が存在した場合を考える。括弧内の英小文字はアプリケーション名である。この場合、共通アプリケーションは(a,b,c)となり、それぞれ、共通アプリケーション以外に実行しているアプリケーションの数は、ノードAが1、ノードBが1、ノードCが2となる。リクエストの配信を停止するノードを2つ選択する場合は、ノードAとノードBのリストがリクエスト停止ノード選択手段81への入力として渡される。例で示した手法にかかわらず、被障害監視ノード36上で実行されているアプリケーションの種類、数が等しいノードを抽出できる手段があれば、どのような手法を用いてもよい。
本実施形態では、図1に示した第1の実施形態のクラスタ障害推定システムに対して適用した場合を用いて説明しているが、図4に示した第2の実施形態のクラスタ障害推定システムに対しても同様に適用することができるものである。
本実施形態のクラスタ障害推定システムによれば、実行アプリケーションの違いに基づく各被障害監視ノード36における資源利用パターンの違いを抑制することができ、異常ノードの検出精度を高めることができる。
(第4の実施形態)
次に、本発明の第4の実施形態のクラスタ障害推定システムについて図面を参照して詳細に説明する。
本発明の第4の実施形態のクラスタ障害推定システムの構成を図7に示す。図7において、図1中の構成要素と同一の構成要素には同一の符号を付し、説明を省略するものとする。
本実施形態のクラスタ障害推定システムは、図7に示されるように、図1に示した第1の実施形態のクラスタ障害推定システムの構成に対して、障害監視ノード8が障害監視ノード48に置き換えられた構成となっている。
本実施形態における障害監視ノード48は、図1に示した第1の実施形態における障害監視ノード8に対して、異常ノード診断手段93、推定結果補正手段96、推定基準設定手段88、異常ノード入力手段94、補正情報格納部95が新たに設けられた構成となっている。
異常ノード診断手段93は、クラスタ障害推定手段85によって検出された異常ノードのうち、実際に障害のあったノードを分別する。被障害監視ノード6において、実際に障害があったかどうかの判断は、既存の手法を用いる。すなわち、ウィルスチェッカーなど、既存の障害診断プログラムである。異常ノード診断手段93で用いられるプログラムは、クラスタ障害推定手段85の出力である被障害監視ノード6のリストを入力とし、障害が発生している被障害監視ノード6と、発生していないノードのリストを分別して出力とするものなら、どのようなプログラムを用いてもよい。
推定結果補正手段96は、異常ノード診断手段93の出力結果を用いて、クラスタ障害推定に用いられる推定基準を自動的に変更する。異常ノード診断手段93は、障害が発生している被障害監視ノード6と、障害が発生していない被障害監視ノード6を分別してリストとして出力する。そのリストから、検出されたすべての異常ノード中の実際に障害が発生していた被障害監視ノード6の割合を算出し、その割合に従って推定基準を変更する。中央値を用いた希少ノードの計算における推定結果補正手段96の利用方法を例示する。
ここに、ノードA(10)、ノードB(10)、ノードC(10)、ノードD(20)、ノードE(40)、ノードF(50)が存在している場合を考える。括弧内の数字はCPU使用率である。まず、中央値は、CPUの利用率を昇順にソートした場合、真ん中のノードC(10)とノードD(20)の値の平均を取って15となる。次に、各ノードにおける中央値からの差は、ノードA(5)、ノードB(5)、ノードC(0)、ノードD(5)、ノードE(25)、ノードF(35)となる。カッコ内の数値が中央値からの差であり、絶対値で表している。例示におけるここまでの処理が希少ノード計算手段84による算出結果である。
次にクラスタ障害推定手段85によって、異常ノードを検出する。クラスタ障害推定手段85における推定基準として図2で示した推定基準表を利用すると、「CPU使用率を入力として利用した場合は、中央値からの差が10以下を正常」としている。先ほど計算した結果を照らし合わせると、クラスタ障害推定手段85によって検出される異常ノードは、ノードEとノードFとなる。
ここで、異常ノード診断手段93が、ノードFに本当の障害が発生していると診断した場合を考える。このような場合は、障害ノードが、ノードF、非障害ノードがノードEとなり、実際に障害の発生している割合は50%(全異常ノード2、障害ノード1)となる。このことから、全異常ノードの中央値からの差を昇順にソート(25,35)し、先頭から50%のノード中において、中央値からの最大差を持つノードはノードEとなり、その偏差は25となる。
この偏差25を、希少ノード計算手段84で計算した中央値に足して、足した値を補正値とする。この補正値を使って、希少ノード計算手段84とクラスタ障害推定手段85を実行すると、例で示した6台のノード中で、異常ノードとして検出されるのは、ノードFだけであり、異常ノードの検出精度が高められたと言える。
異常ノード入力手段94は、異常ノード診断手段93において、障害の発生している被障害監視ノード6と発生していない被障害監視ノード6が分別困難な場合に、ユーザによる入力を可能とする機能を提供する。異常ノード入力手段94は、第4の実施形態における必須機能ではない。
本発明は、各被障害監視ノード6における資源の利用パターンを比較することによって、資源の利用パターンが他のノードとは異なる「稀」なパターンを示すノードを異常ノードとみなしている。本発明で検出される異常ノードが、既知のウィルスであれば、ウィルスチェッカーなど、既存の方法で障害発生の正誤を判定することができるが、未知のウィルスなど、今までに無かった障害を異常ノードとして検出した場合には、既存のウィルスチェッカーや、その他の異常ノード診断手段93によって、障害の有無を確認することが出来ない場合がある。そのような場合には、ユーザによって異常ノードの検査を行い、異常ノード入力手段94を利用して、検査結果を入力できるようにする。
補正情報格納部95は、推定結果補正手段96によって計算された補正値を格納するために利用される。補正値格納部95は、リクエスト停止ノードと補正値を一つの組として保存する。図8に補正情報格納部95の例を示す。クラスタ障害推定手段85が、同じノードリストを使って、クラスタ障害を推定する場合は、補正情報格納部95に格納されている補正値を用いて推定する。
本実施形態のクラスタ障害推定システムは、クラスタ障害推定手段85により、異常ノードと判定されたノードの中で、実際に障害のあった被障害監視ノードと、障害はなく、誤検知であった被障害監視ノードを分別し、異常ノードの全検出結果中における誤検知の割合によって、推定基準表に含まれる推定基準を自動的に調節する機能を提供する。これによって、異常ノードの検出回数を重ねる度に、検出精度を自動的に向上させることができる。
本発明における第1の発明を実施するための最良の形態の構成を示すブロック図である。 本発明における第1の発明を実施する際に利用される推定基準表を表す図である。 本発明における第1の発明を実施するための最良の形態の動作を示す流れ図である。 第2の発明を実施するための最良の形態の構成を示すブロック図である。 第2の発明を実施する際に利用される計算および計算因数表示部89を示す図である。 第3の発明を実施するための最良の形態の構成を示すブロック図である。 第4の発明を実施するための最良の形態の構成を示すブロック図である。 第4の発明を実施する際に利用される補正情報格納部95を示す図である。 従来技術を用いて構築された、一般的なクラスタ構成図である。 本発明に関連する従来特許を説明するブロック図である。
符号の説明
1 ユーザ(端末)
2 リクエスト
3 レスポンス
4 負荷分散装置
5 LAN
6 被障害監視ノード
8 障害監視ノード
36 被障害監視ノード
38 障害監視ノード
41 リクエスト停止手段
48 障害監視ノード
54 負荷分散装置
561〜56N ノード
61 ウィルス監視部
62 監視条件定義ファイル
63 事前登録部
64 測定データファイル
65 資源
66 詳細情報取得手段
71 遮断部
72 ウィルス判定部
76 パーソナルコンピュータ
81 リクエスト停止ノード選択手段
82 詳細情報管理手段
83 詳細情報格納部
84 希少ノード計算手段
85 クラスタ障害推定手段
86 ノード切離し手段
87 クラスタ状態観察手段
88 推定基準設定手段
89 計算および計算因数表示部
90 希少ノード計算手段設定部
91 アプリケーション実行状態観察手段
92 アプリケーション実行状態取得手段
93 異常ノード診断手段
94 異常ノード入力手段
95 補正情報格納部
96 推定結果補正手段
101〜110 ステップ
651 ネットワークリソース
652 CPUリソース
653 入出力リソース
851 推定基準表

Claims (5)

  1. クラスタを構成する複数の被障害監視ノードと、ユーザ端末からのリクエストを前記各被障害監視ノードに対して分配する負荷分散装置と、前記複数の被障害監視ノードの中から異常の発生しているノードを検出するための障害監視ノードとから構成されるクラスタ障害推定システムにおいて、
    前記複数の被障害監視ノードは、それぞれ、当該被障害監視ノードの資源の利用状況を示す内部情報を詳細情報として取得する詳細情報取得手段を有し、
    前記障害監視ノードは、
    前記詳細情報を格納するための詳細情報格納手段と、
    前記詳細情報取得手段から送られてきた詳細情報を前記詳細情報格納手段に格納する詳細情報管理手段と、
    前記複数の被障害監視ノードのうち、リクエストの分配を停止する被障害監視ノードを選定するリクエスト停止ノード選択手段と、
    前記リクエスト停止ノード選択手段において選定された被障害監視ノードの詳細情報を前記詳細情報格納手段から取得し、取得した該詳細情報を用いて、複数の被障害監視ノードの中から資源の利用状況が他の被障害監視ノードとは異なるパターンを示す被障害監視ノードを算出する希少ノード計算手段と、
    前記希少ノード計算手段によって計算された計算結果を用いて、異常状態にある被詳細監視ノードを検出するクラスタ障害推定手段と、
    前記クラスタ障害推定手段により異常が発生していると判定された被障害ノードをネットワークから切り離すノード切離し手段とを有し、
    前記負荷分散装置は、
    前記リクエスト停止ノード選択手段において選定された被障害監視ノードに対するリクエストの分配を停止するリクエスト停止手段を有することを特徴とするクラスタ障害推定システム。
  2. 前記障害監視ノードは、
    前記クラスタ障害推定手段において異常の発生している被障害監視ノードが検出されなかった場合、前記詳細情報格納部に格納されている詳細情報に基づいて前記複数の被障害監視ノードが過負荷状態であるか否かを判定し、該複数の被障害監視ノードが過負荷状態であると判定した場合、前記複数の被障害監視ノードの詳細情報取得手段に対して、詳細情報の取得を一時的に停止するように命令するクラスタ状態観察手段をさらに有する請求項1記載のクラスタ障害推定システム。
  3. 前記障害監視ノードは、
    前記希少ノード計算手段によって使用される計算方法を変更するための希少ノード計算手段設定部と、
    前記希少ノード計算手段によって使用された計算方法および、計算途中で利用された計算因数を表示する計算および計算因数表示部と、
    前記クラスタ障害推定手段で用いられる推定基準を変更するための推定基準設定手段と、をさらに有する請求項1記載のクラスタ障害推定システム。
  4. 前記複数の被障害監視ノードは、それぞれ、
    当該複数の被障害監視ノードで実行されているアプリケーションの情報を取得して送信するアプリケーション実行状態取得手段をさらに有し、
    前記障害監視ノードは、
    前記アプリケーション実行状態取得手段から送られてきた情報に基づいて、実行されているアプリケーションの状態が同様なノード群のリストを前記リクエスト停止ノード選択手段に通知するアプリケーション実行状態観察手段をさらに有する請求項1から3のいずれか1項記載のクラスタ障害推定システム。
  5. 前記障害監視ノードは、
    前記クラスタ障害推定手段により異常ノードと判定されたノードの中で、実際に障害のあった被障害監視ノードと、障害はなく、誤検知であったノードを分別する異常ノード診断手段と、
    前記異常ノード診断手段の出力結果を用いて、前記クラスタ障害推定手段におけるクラスタ障害推定に用いられる推定基準を自動的に変更する推定結果補正手段と、
    前記推定結果補正手段における補正情報を格納するための補正情報格納部と、をさらに有する請求項1記載のクラスタ障害推定システム。
JP2005312539A 2005-10-27 2005-10-27 クラスタ障害推定システム Expired - Fee Related JP4725724B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005312539A JP4725724B2 (ja) 2005-10-27 2005-10-27 クラスタ障害推定システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005312539A JP4725724B2 (ja) 2005-10-27 2005-10-27 クラスタ障害推定システム

Publications (2)

Publication Number Publication Date
JP2007122330A true JP2007122330A (ja) 2007-05-17
JP4725724B2 JP4725724B2 (ja) 2011-07-13

Family

ID=38146124

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005312539A Expired - Fee Related JP4725724B2 (ja) 2005-10-27 2005-10-27 クラスタ障害推定システム

Country Status (1)

Country Link
JP (1) JP4725724B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323193A (ja) * 2006-05-30 2007-12-13 Nec Corp 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
GB2452715A (en) * 2007-09-11 2009-03-18 Loadbalancer Org Ltd Method and system for monitoring a cluster database
JP2010003121A (ja) * 2008-06-20 2010-01-07 Mitsubishi Electric Corp データ転送システム及び転送装置及び監視装置及び転送プログラム及び監視プログラム
JP2010257227A (ja) * 2009-04-24 2010-11-11 Toshiba Corp 監視装置およびサーバー
WO2011083687A1 (ja) * 2010-01-08 2011-07-14 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム記憶媒体
JP5152671B2 (ja) * 2006-03-17 2013-02-27 日本電気株式会社 端末位置特定方法、端末位置特定システム、測位サーバ及びプログラム
JP2013073419A (ja) * 2011-09-28 2013-04-22 Fujitsu Ltd 情報処理装置、プロセス監視方法、プロセス監視プログラム、記録媒体
JPWO2013035162A1 (ja) * 2011-09-06 2015-03-23 株式会社日立製作所 分散型電力系統監視制御システム及び分散型電力系統監視制御方法
US10749777B2 (en) 2017-03-31 2020-08-18 Nec Corporation Computer system, server machine, program, and failure detection method

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102093130B1 (ko) * 2018-06-11 2020-04-23 주식회사 티맥스에이앤씨 컨테이너 기반 클라우드 서버를 위한 통합관리 시스템
KR102059808B1 (ko) * 2018-06-11 2019-12-27 주식회사 티맥스오에스 컨테이너 기반 통합 관리 시스템

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198642A (ja) * 1997-01-09 1998-07-31 Fujitsu Ltd サーバ装置
JP2001075934A (ja) * 1999-09-07 2001-03-23 Nec Eng Ltd 負荷分散処理システム及び方法
JP2002342182A (ja) * 2001-05-21 2002-11-29 Hitachi Ltd ネットワークシステムにおける運用管理の支援システム
JP2003248596A (ja) * 2002-02-26 2003-09-05 Hitachi Ltd 多重計算機システムにおける処理の引継方法
JP2005004513A (ja) * 2003-06-12 2005-01-06 Mitsubishi Electric Corp 障害解析データ採取装置およびその方法
JP2005025679A (ja) * 2003-07-03 2005-01-27 Fujitsu Ltd ウィルス隔離システム
JP2005134974A (ja) * 2003-10-28 2005-05-26 Fujitsu Ltd ワーム判定プログラム、ワーム判定プログラムを記憶したコンピュータ読み取り可能な記憶媒体、ワーム判定方法およびワーム判定装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198642A (ja) * 1997-01-09 1998-07-31 Fujitsu Ltd サーバ装置
JP2001075934A (ja) * 1999-09-07 2001-03-23 Nec Eng Ltd 負荷分散処理システム及び方法
JP2002342182A (ja) * 2001-05-21 2002-11-29 Hitachi Ltd ネットワークシステムにおける運用管理の支援システム
JP2003248596A (ja) * 2002-02-26 2003-09-05 Hitachi Ltd 多重計算機システムにおける処理の引継方法
JP2005004513A (ja) * 2003-06-12 2005-01-06 Mitsubishi Electric Corp 障害解析データ採取装置およびその方法
JP2005025679A (ja) * 2003-07-03 2005-01-27 Fujitsu Ltd ウィルス隔離システム
JP2005134974A (ja) * 2003-10-28 2005-05-26 Fujitsu Ltd ワーム判定プログラム、ワーム判定プログラムを記憶したコンピュータ読み取り可能な記憶媒体、ワーム判定方法およびワーム判定装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5152671B2 (ja) * 2006-03-17 2013-02-27 日本電気株式会社 端末位置特定方法、端末位置特定システム、測位サーバ及びプログラム
JP2007323193A (ja) * 2006-05-30 2007-12-13 Nec Corp 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP4573179B2 (ja) * 2006-05-30 2010-11-04 日本電気株式会社 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
GB2452715A (en) * 2007-09-11 2009-03-18 Loadbalancer Org Ltd Method and system for monitoring a cluster database
JP2010003121A (ja) * 2008-06-20 2010-01-07 Mitsubishi Electric Corp データ転送システム及び転送装置及び監視装置及び転送プログラム及び監視プログラム
JP2010257227A (ja) * 2009-04-24 2010-11-11 Toshiba Corp 監視装置およびサーバー
WO2011083687A1 (ja) * 2010-01-08 2011-07-14 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム記憶媒体
US8645769B2 (en) 2010-01-08 2014-02-04 Nec Corporation Operation management apparatus, operation management method, and program storage medium
JPWO2013035162A1 (ja) * 2011-09-06 2015-03-23 株式会社日立製作所 分散型電力系統監視制御システム及び分散型電力系統監視制御方法
JP2013073419A (ja) * 2011-09-28 2013-04-22 Fujitsu Ltd 情報処理装置、プロセス監視方法、プロセス監視プログラム、記録媒体
US10749777B2 (en) 2017-03-31 2020-08-18 Nec Corporation Computer system, server machine, program, and failure detection method

Also Published As

Publication number Publication date
JP4725724B2 (ja) 2011-07-13

Similar Documents

Publication Publication Date Title
JP4725724B2 (ja) クラスタ障害推定システム
CN111049705B (zh) 一种监控分布式存储系统的方法及装置
US8645769B2 (en) Operation management apparatus, operation management method, and program storage medium
US7574620B2 (en) Method for operating an arrangement of a plurality of computers in the event of a computer failure
US9208029B2 (en) Computer system to switch logical group of virtual computers
CN110825544A (zh) 计算节点及其失效检测方法与云端数据处理系统
JPWO2014033894A1 (ja) サービス性能監視方法
JP2010186310A (ja) 運用管理装置および運用管理方法ならびにそのプログラム
US10020982B2 (en) Failure isolation method and management server for failure isolation
JP6595861B2 (ja) 情報処理装置、ログ取得方法およびログ取得プログラム
JP2007334716A (ja) 運用管理システム、監視装置、被監視装置、運用管理方法及びプログラム
JP2010231293A (ja) 監視装置
JP2007280155A (ja) 分散システムにおける信頼性向上方法
JP2020038506A (ja) 情報処理システム、情報処理方法、及び、プログラム
JP4968568B2 (ja) 障害監視方法、障害監視システムおよびプログラム
JP2020038525A (ja) 異常検知装置
JP2015082131A (ja) 監視システム、監視方法、監視プログラム及び監視装置
CN115378794A (zh) 一种基于快照模式的网关故障检测方法及装置
JP2008005118A (ja) ネットワーク監視システム
JP6163751B2 (ja) 判定プログラム、判定方法および判定システム
WO2018173698A1 (ja) 監視システム、コンピュータ可読記憶媒体および監視方法
JP6073211B2 (ja) サーバ監視方法およびサーバ監視システム
CN109831342A (zh) 一种基于分布式系统的故障恢复方法
CN118018388A (zh) 一种确定并处理弹性计算中异常实例的方法及装置
JPH1131136A (ja) 分散処理システムの異常監視方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080919

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110316

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110329

R150 Certificate of patent or registration of utility model

Ref document number: 4725724

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140422

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees