JP2011253231A - 分散・並列処理システムの障害監視装置と方法およびプログラム - Google Patents

分散・並列処理システムの障害監視装置と方法およびプログラム Download PDF

Info

Publication number
JP2011253231A
JP2011253231A JP2010124858A JP2010124858A JP2011253231A JP 2011253231 A JP2011253231 A JP 2011253231A JP 2010124858 A JP2010124858 A JP 2010124858A JP 2010124858 A JP2010124858 A JP 2010124858A JP 2011253231 A JP2011253231 A JP 2011253231A
Authority
JP
Japan
Prior art keywords
server
automatic scale
event
failure
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010124858A
Other languages
English (en)
Other versions
JP5467936B2 (ja
Inventor
Hiroshi Akiyama
裕志 秋山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information Systems Ltd
Original Assignee
Hitachi Information Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information Systems Ltd filed Critical Hitachi Information Systems Ltd
Priority to JP2010124858A priority Critical patent/JP5467936B2/ja
Publication of JP2011253231A publication Critical patent/JP2011253231A/ja
Application granted granted Critical
Publication of JP5467936B2 publication Critical patent/JP5467936B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】自動スケールアウトおよび自動スケールインによるスケールアウト用の待機サーバの正常動作を、障害として運用管理者に誤って通知することを防止し、障害として通知されるべき異常動作のみを障害として通知する。
【解決手段】監視対象となる各サーバ103〜105が、常時稼動するのか、あるいは、スケールアウト時のみ稼動するのかを示すサーバ用途情報と、各サーバが待機中であるか稼働中かを示す稼動状態情報を記憶して管理し(111,112)、監視システム107が検知したイベントについて、イベント発生元のサーバのサーバ用途情報と稼動状態情報を確認することにより、当該イベントが障害により発生したものなのか、自動スケールアウトおよび自動スケールインにより発生したものなのかを判定する(108,110)。
【選択図】図1

Description

本発明は、分散/並列処理システムを構成するクライアント・サーバコンピュータシステムの運用を支援する技術に係り、特に、サーバ・コンピュータ(以下、単にサーバと記載)を運用・管理するデータセンタ等の障害監視作業で、分散/並列処理システムを構成するサーバで発生したイベントから効率良く障害の検知を行うのに好適な技術に関するものである。
複数のサーバからなる分散/並列処理システムにおいて、システムを構成するサーバの台数を増やすことで、サーバ群全体のパフォーマンスを向上させることができる。以下、これを「スケールアウト」と呼ぶ。反対にサーバの台数を減らすことでシステム規模を縮小することを以下、「スケールイン」と呼ぶ。
従来、例えば、特許文献1に記載のように、サーバ群が高負荷状態になったときのみ、予め準備しておいたスケールアウト用の待機サーバを起動し、サーバ群の負荷が低くなったら待機サーバを停止することを自動的に行う技術がある。
この技術により、例えば、Webアクセス集中など一時的に高パフォーマンスが必要なときのみ待機サーバを起動することでスケールアウトでき、また、高パフォーマンスが必要無いときは待機サーバを停止することでスケールインして無駄な電力消費を抑えることができる。以下、この機能を「自動スケールアウト」、「自動スケールイン」、この機能を有するシステムを「自動スケールアウトシステム」と呼ぶ。
一方、業務処理コンピュータシステムの運用業務において、業務処理コンピュータシステムの安定稼動のためにサーバを監視する技術がある。例えば、業務処理を行っているサーバの死活監視を常時行うことで、何らかの障害により稼働中のサーバが停止した場合、これを検知し運用管理者に障害として通知することができる。通知を受けた運用管理者は、障害の原因を特定し、取り除くことで業務処理コンピュータシステムを再稼動することが可能になる。
しかし、自動スケールアウトによりスケールアウト用サーバが起動した後に、再度、自動スケールインにより停止が行われた際には、監視システムがサーバ停止を検知し、運用管理者に障害として通知してしまう。
サーバが稼働中に停止した場合は運用管理者に障害として通知する必要があるが、自動スケールインによる停止は正常な動作のため障害として通知する必要が無い。従来のサーバ監視では、障害によるサーバ停止と自動スケールインによるサーバ停止を区別して検知することができない。そのため、運用管理者は、サーバ停止の障害通知を受けた場合、停止したサーバがスケールアウト用サーバなのかどうか、自動スケールインによりサーバが停止したのかどうかを確認し、対応する必要のある障害かどうかを判断する必要がある。
特開2008−225642号公報
解決しようとする問題点は、従来の技術では、サーバ停止の障害通知を受けた運用管理者が、停止したサーバがスケールアウト用のサーバで自動スケールインにより当該サーバが停止したものであることを判断することができない点である。
本発明の目的は、これら従来技術の課題を解決し、例えば分散/並列処理システムを構成する業務処理コンピュータシステムの運用業務において、サーバを運用・管理するデータセンタ等の障害監視作業で、分散/並列処理システムを構成するサーバで発生したイベントから効率良く障害の検知を行うことを可能とすることである。
上記目的を達成するため、本発明においては、監視対象となる各サーバ(103〜105)が、常時稼動するのか、あるいは、スケールアウト時のみ稼動するのかを示すサーバ用途情報と、各サーバが待機中であるか稼働中かを示す稼動状態情報を記憶して管理し(111,112)、監視システム(107)が検知したイベントについて、イベント発生元のサーバのサーバ用途情報と稼動状態情報を確認することにより、当該イベントが障害により発生したものなのか、自動スケールアウトおよび自動スケールインにより発生したものなのかを判定する(108,110)。尚、稼動状態情報では、スケールアウト用の待機サーバが待機中であるのか、あるいは稼働中であるのかを示し、自動スケールアウトまたは自動スケールインの実行に合わせて適宜変更する(109)。
本発明によれば、自動スケールアウトおよび自動スケールインによるスケールアウト用の待機サーバの正常動作を、障害として運用管理者に誤って通知することが無くなり、障害として通知されるべき異常動作のみが障害として通知されるので、運用管理者は、従来のように、サーバの用途および稼動状態を確認して障害かどうかを判断する必要が無くなる。
本発明に係る障害監視装置を設けた分散・並列処理システムの構成例を示すブロック図である。 本発明に係る障害監視装置の構成例を示すブロック図である。 図1における構成管理データベースで記録管理されるサーバ管理テーブルの構成例を示す説明図である。 本発明に係る障害監視装置の第1の処理動作例を示すフローチャートである。 本発明に係る障害監視装置の第2の処理動作例を示すフローチャートである。 図2における障害判定部の障害判定動作例を示す説明図である。
以下、図を用いて本発明を実施するための形態例を説明する。図1において、101はクライアントマシン、102は負荷分散装置、103、104は常時稼動サーバ、105はスケールアウト用サーバ、106は自動スケールアウトシステム、107は監視システム、108は本発明の障害監視装置の主な機能を具備した自動スケールアウト対応障害判定システム、111は構成管理システム、113は運用通知システムであり、それぞれは、CPU(Central Processing Unit)や主メモリ、表示装置、入力装置、外部記憶装置等を有するコンピュータ構成からなり、光ディスク駆動装置等を介してCD−ROM等の記憶媒体に記録されたプログラムやデータを外部記憶装置内にインストールした後、この外部記憶装置から主メモリに読み込みCPUで処理することにより、各処理部を実行する。
また、自動スケールアウト対応障害判定システム108は、プログラムされたコンピュータ処理を実行する機能として、構成情報変更機能109と障害判定機能110を具備し、さらに、図2に示すように、構成情報変更機能109は、自動スケールアウト実行内容通知の受信部201と構成情報変更部202を有し、障害判定機能110は、監視イベント受信部203と構成情報取得部204、障害判定部205、障害通知部206を有している。
このような構成により、本発明に係る自動スケールアウト対応障害判定システム108は、複数のサーバコンピュータによる分散・並列処理を行うと共に、サーバコンピュータの自動スケールアウトと自動スケールインを行う分散・並列処理システムにおける障害イベントの発生を効率的に監視することができる。
すなわち、監視システム107により、常時稼動サーバ103,104やスケールアウト用サーバ105等のサーバコンピュータでのイベントの発生を検知すると、自動スケールアウト対応障害判定システム108は、監視システム107が検知したイベントを受信し、当該イベントが障害により発生したイベントであるか自動スケールアウトもしくは自動スケールインにより発生したイベントであるかを、以下のようにして判定する。
自動スケールアウト対応障害判定システム108は、本発明に係るサーバ用途情報収集手段と稼動状態情報収集手段としての構成情報変更機能109により、常時稼動サーバ103,104やスケールアウト用サーバ105等の各サーバコンピュータが自動スケールアウト用および自動スケールイン用のサーバであるか否かを示すサーバ用途情報を収集し、また、各サーバコンピュータが稼働中であるか停止中であるかを示す稼動状態情報を収集し、構成管理システム111を介して構成管理データベース112に記憶しておく。
さらに、自動スケールアウトシステム106において自動スケールアウト用および自動スケールイン用のサーバコンピュータの自動スケールアウトもしくは自動スケールインが実行されたことを、構成情報変更機能109における自動スケールアウト実行内容通知の受信部201により確認すると、構成情報変更部202により、当該サーバコンピュータに関する、構成管理データベース112に記憶された稼動状態情報を、構成管理システム111を介して変更する。
そして、監視システム107が検知したイベントについて、障害判定機能110は、監視イベント受信部203によりイベント情報を受信し、構成情報取得部204により、構成管理システム111を介して構成管理データベース112にアクセスし、イベント発生元のサーバコンピュータのサーバ用途情報と稼動状態情報を読み出し、障害判定部205により、当該情報を参照して、当該イベントが、障害により発生したものであるか、自動スケールインにより発生したものであるかを判定する。
障害判定部205において、当該イベントが障害により発生したものであると判定した場合には、障害通知部206を起動して、当該障害イベントを、運用通知システム113に通知し、当該イベントが自動スケールインにより発生したものであると判定した場合には、障害通知部206を起動しない。
以下、分散/並列処理システム構成を例として、より具体的に説明を行う。
図1においては、本発明に係るシステムを含めた業務処理コンピュータシステムの運用業務における全体構成例を示している。すなわち、常時稼動サーバ103、104、スケールアウト用サーバ105は業務処理を行うサーバ群であり、分散/並列処理システム構成をとる。
クライアントマシン101から送信されたリクエストは負荷分散装置102により各サーバ群に分散して送信される。
常時稼動サーバ103、104は常時稼動して業務処理を行うサーバであるが、スケールアウト用サーバ105は通常は停止しておき、クライアントマシン101からのリクエスト数増加などにより常時稼動サーバ103、104が高負荷状態になったときに自動スケールアウトシステム106により起動され業務処理を行う(自動スケールアウト)。
クライアントマシン101からのリクエスト数が減少し、高パフォーマンスを必要としなくなった場合、自動スケールアウトシステム106によりスケールアウト用サーバ105は停止される(自動スケールイン)。
監視システム107は常時稼動サーバ103、104およびスケールアウト用サーバ105の死活監視を行うシステムである。
尚、クライアントマシン101、負荷分散装置102、常時稼動サーバ103、104およびスケールアウト用サーバ105の数は運用形態により増減する。
自動スケールアウトシステム106は自動スケールアウトまたは自動スケールインを実行する際、自動スケールアウト対応障害判定システム108に実行内容を通知してからスケールアウト用サーバ105の起動または停止を行う。
通知する実行内容は、スケールアウトまたはスケールインによる起動または停止操作の対象となるサーバのサーバ名、および実行する操作が起動なのか停止なのかをあらわす操作内容である。
常時稼動サーバ103、104またはスケールアウト用サーバ105が起動または停止した場合、監視システム107で検知され、監視システム107から自動スケールアウト対応障害判定システム108へ監視イベントが送信される。
自動スケールアウト対応障害判定システム108では、起動または停止の原因が障害によるものなのか自動スケールアウトシステム106の自動スケールアウトまたは自動スケールインによるものなのかを判定するため、構成管理システム111が管理する構成管理データベース112から、監視イベント発生元サーバのサーバ用途および稼動状態を取得する。
サーバ用途および稼動状態から監視イベントが障害により発生したものであると判定した場合は、障害通知システム113に障害を通知する。運用通知システム113へ障害が通知されると、運用管理者114がその障害を検知し対応を行う。
次に、図2を用いて、自動スケールアウト対応障害判定システム108について詳細を説明する。
図2に示すように、自動スケールアウト対応障害判定システム108は、構成情報変更機能109と障害判定機能110の2つの機能を有し、構成情報変更機能109は、自動スケールアウト実行内容通知の受信部201と構成情報変更部202を具備し、障害判定機能110は、監視イベント受信部203と構成情報取得部204、障害判定部205、障害通知部206を具備している。
構成情報変更機能109は、自動スケールアウト実行内容通知の受信部201により、自動スケールアウトシステム106が自動スケールアウトまたは自動スケールインを実行する際に通知する実行内容を受信する。通知の内容は起動または停止操作の対象となるサーバのサーバ名および起動か停止かの操作内容である。
そして、構成情報変更部202により、自動スケールアウト実行内容通知の受信部201で受信した通知の内容に応じて、構成管理システム111を介して、構成管理データベース112における操作対象のサーバの構成情報を変更する。
尚、構成管理データベース112では、図3におけるサーバ管理テーブル301で示すように、業務処理を行う各サーバのサーバ名、サーバ用途および稼動状態を管理する。
このような構成情報変更機能109の処理動作を図4に示すフローチャートに基づき説明する。まず、自動スケールアウトシステム106からの自動スケールアウトまたは自動スケールインの実行内容の通知を受信する(ステップ401)。
次に、実行内容から操作対象サーバのサーバ名を取得し(ステップ402)、操作内容が起動なのか停止なのかを判断する(ステップ403)。
操作内容が起動の場合には(ステップ404)、構成管理データベース112上の図3におけるサーバ管理テーブル301の、操作対象サーバの稼動状態を「稼働中」に変更する(ステップ405)。
操作内容が停止の場合には(ステップ404)、サーバ管理テーブル301の該当サーバの稼動状態を「待機中」に変更する(ステップ406)。
図2における障害判定機能110は、監視システム107から送信される監視イベントを受信し、障害かどうかの判定をして運用通知システム113に通知するものであり、まず、監視イベント受信部203により、監視システム107から送信された監視イベントを受信する。尚、監視イベント内容は、起動または停止を検知したサーバ名および検知内容(起動または停止)である。
監視イベントを受信した障害判定機能110は、構成情報取得部204により、構成データベース112上の図3におけるサーバ管理テーブル301から、起動または停止を検知したサーバのサーバ用途および稼動状態を取得する。
さらに、障害判定部205により、監視イベント受信部203で受信した監視イベント内容と構成情報取得部204で取得したサーバ用途、稼動状態から、監視イベントが障害により発生したものなのか、もしくは、自動スケールアウトまたは自動スケールインにより発生したものなのかを判定する。
そして、障害通知部206により、障害判定部205において監視イベントが障害により発生したものだと判定した場合、運用通知システム113に障害を通知する。
このような障害判定機能110の処理動作を図5に示すフローチャートを用いて説明する。まず、図2における監視システム107から送信される監視イベントを受信する(ステップ501)。
次に、構成データベース112上のサーバ管理テーブル301から、監視イベントの発生元となるサーバのサーバ用途および稼動状態を取得して(ステップ502)、監視イベント内容とサーバ用途および稼動状態から、障害かどうかを判定する(ステップ503)。
このとき、監視イベント内容、サーバ用途および稼動状態から判定される判定結果を図6の障害判定表601に示す。
監視イベントを障害だと判定した場合には(ステップ504)、運用通知システムへ障害通知を行い(ステップ505)、障害で無いと判定した場合には(ステップ504)、障害通知を行わない(ステップ506)。
以上、図1〜図6を用いて説明したように、本例の分散・並列処理システムの障害監視装置では、監視対象となる各サーバが、常時稼動するのか、あるいは、スケールアウト時のみ稼動するのかを示すサーバ用途情報と、各サーバが待機中か稼働中かを示す稼動状態情報を記憶して管理し、監視システム107が検知したイベントについて、イベント発生元のサーバのサーバ用途情報と稼動状態情報を確認することにより、イベントが障害により発生したものなのか、自動スケールアウトおよび自動スケールインにより発生したものなのかを判定する。尚、稼動状態情報では、スケールアウト用の待機サーバが待機中であるのか、あるいは「稼働中」であるのかを示し、自動スケールアウトまたは自動スケールインの実行に合わせて適宜変更する。
このように、本例の分散・並列処理システムの障害監視装置および方法によれば、自動スケールアウトおよび自動スケールインによるスケールアウト用サーバの起動および停止時に発生するイベントと、業務システム稼働中に発生するイベントを区別して障害判定を行うことができ、これにより、自動スケールアウトおよび自動スケールインによるスケールアウト用の待機サーバの正常動作を障害として運用管理者に通知することが無くなり、障害として通知されるべき異常動作のみが障害として通知されるので、運用管理者は、従来のように、サーバの用途および稼動状態を確認して障害かどうかを判断する必要が無くなる。
尚、本発明は、図1〜図6を用いて説明した例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、本例では、自動スケールアウトシステム106、監視システム107、自動スケールアウト対応障害判定システム108、構成管理システム111、運用通知システム113のそれぞれを個別のコンピュータ装置とした構成としているが、各システムを任意に組み合わせて1つのコンピュータ装置上に構成することでも良い。
また、各システムのコンピュータ構成例に関しても、キーボードや光ディスクの駆動装置の無いコンピュータ構成としても良い。また、本例では、光ディスクを記録媒体として用いているが、FD(Flexible Disk)等を記録媒体として用いることでも良い。また、プログラムのインストールに関しても、通信装置を介してネットワーク経由でプログラムをダウンロードしてインストールすることでも良い。
101:クライアントマシン、102:負荷分散装置、103:常時稼動サーバ、104:常時稼動サーバ、105:スケールアウト用サーバ、106:自動スケールアウトシステム、107:監視システム、108:自動スケールアウト対応障害判定システム、109:構成情報変更機能、110:障害判定機能、111:構成管理システム、112:構成管理データベース、113:障害通知システム、114:運用管理者、201:自動スケールアウト実行内容通知の受信部、202:構成情報変更部、203:監視イベント受信部、204:構成情報取得部、205:障害判定部、206:障害通知部、301:サーバ管理テーブル、601:障害判定表。

Claims (3)

  1. 複数のサーバコンピュータによる分散・並列処理を行うと共に、サーバコンピュータの自動スケールアウトと自動スケールインを行う分散・並列処理システムにおける障害イベントの発生を監視する装置であって、
    上記サーバコンピュータでのイベントの発生を検知する監視手段と、
    該監視手段が検知したイベントを受信し、当該イベントが障害により発生したイベントであるか自動スケールアウトもしくは自動スケールインにより発生したイベントであるかを判定する判定手段と
    を有し、
    該判定手段は、
    各サーバコンピュータが上記自動スケールアウト用および上記自動スケールイン用のサーバであるか否かを示すサーバ用途情報を収集して記憶装置に記憶するサーバ用途情報収集手段と、
    各サーバコンピュータが稼働中であるか停止中であるかを示す稼動状態情報を収集して記憶装置に記憶する稼動状態情報収集手段と、
    上記自動スケールアウト用および上記自動スケールイン用のサーバコンピュータの自動スケールアウトもしくは自動スケールインが実行される際に、当該サーバコンピュータに関する上記稼動状態情報を変更する変更手段と、
    上記監視手段が検知したイベントについて、イベント発生元のサーバコンピュータの上記サーバ用途情報と上記稼動状態情報を参照して、当該イベントが、障害により発生したものであるか、自動スケールインにより発生したものであるかを判定する障害判定手段と
    を有することを特徴とする分散・並列処理システムの障害監視装置。
  2. コンピュータを、請求項1記載の分散・並列処理システムの障害監視装置における各手段として機能させるためのプログラム。
  3. 複数のサーバコンピュータによる分散・並列処理を行うと共に、サーバコンピュータの自動スケールアウトと自動スケールインを行う分散・並列処理システムにおける障害イベントの発生を、プログラムされたコンピュータ処理によって監視する装置の障害監視方法であって、
    プログラムされたコンピュータ処理を実行する手段として、監視手段と、サーバ用途情報収集手段、稼動状態情報収集手段、変更手段、障害判定手段を有し、
    上記監視手段は、サーバコンピュータでのイベントの発生を検知し、
    上記サーバ用途情報収集手段は、各サーバコンピュータが上記自動スケールアウト用および上記自動スケールイン用のサーバであるか否かを示すサーバ用途情報を収集して記憶装置に記憶し、
    上記稼動状態情報収集手段は、各サーバコンピュータが稼働中であるか停止中であるかを示す稼動状態情報を収集して記憶装置に記憶し、
    上記変更手段は、上記自動スケールアウト用および上記自動スケールイン用のサーバコンピュータの自動スケールアウトもしくは自動スケールインが実行される際に、当該サーバコンピュータに関する上記稼動状態情報を変更し、
    上記障害判定手段は、上記監視手段が検知したイベントについて、イベント発生元のサーバコンピュータの上記サーバ用途情報と上記稼動状態情報を参照して、当該イベントが、障害により発生したものであるか、自動スケールインにより発生したものであるかを判定する
    ことを特徴とする分散・並列処理システムの障害監視方法。
JP2010124858A 2010-05-31 2010-05-31 分散・並列処理システムの障害監視装置と方法およびプログラム Expired - Fee Related JP5467936B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010124858A JP5467936B2 (ja) 2010-05-31 2010-05-31 分散・並列処理システムの障害監視装置と方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010124858A JP5467936B2 (ja) 2010-05-31 2010-05-31 分散・並列処理システムの障害監視装置と方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2011253231A true JP2011253231A (ja) 2011-12-15
JP5467936B2 JP5467936B2 (ja) 2014-04-09

Family

ID=45417147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010124858A Expired - Fee Related JP5467936B2 (ja) 2010-05-31 2010-05-31 分散・並列処理システムの障害監視装置と方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5467936B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9244723B2 (en) 2013-11-13 2016-01-26 Fujitsu Limited Medium, method, and apparatus
KR102393183B1 (ko) * 2021-09-29 2022-05-02 (주)로그스택 기업 서버의 로그 데이터 관리 및 처리 방법, 장치 및 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11194961A (ja) * 1998-01-05 1999-07-21 Toshiba Corp 遠方監視制御装置および遠方監視制御システム
JP2006277278A (ja) * 2005-03-29 2006-10-12 Nec Corp 自律型コンピュータシステムおよびその自動整合方法
JP2010113495A (ja) * 2008-11-06 2010-05-20 Nomura Research Institute Ltd クラスタシステムおよびクラスタ制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11194961A (ja) * 1998-01-05 1999-07-21 Toshiba Corp 遠方監視制御装置および遠方監視制御システム
JP2006277278A (ja) * 2005-03-29 2006-10-12 Nec Corp 自律型コンピュータシステムおよびその自動整合方法
JP2010113495A (ja) * 2008-11-06 2010-05-20 Nomura Research Institute Ltd クラスタシステムおよびクラスタ制御方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9244723B2 (en) 2013-11-13 2016-01-26 Fujitsu Limited Medium, method, and apparatus
KR102393183B1 (ko) * 2021-09-29 2022-05-02 (주)로그스택 기업 서버의 로그 데이터 관리 및 처리 방법, 장치 및 시스템

Also Published As

Publication number Publication date
JP5467936B2 (ja) 2014-04-09

Similar Documents

Publication Publication Date Title
US9367379B1 (en) Automated self-healing computer system
EP2523115B1 (en) Operation management device, operation management method, and program storage medium
JP5643321B2 (ja) 仮想コンピューティング環境における障害管理のための方法、システム、およびコンピュータ・プログラム
JP5440273B2 (ja) スナップショット管理方法、スナップショット管理装置、及びプログラム
EP2972870B1 (en) Coordinating fault recovery in a distributed system
WO2009110111A1 (ja) サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
US20140019807A1 (en) Transaction server performance monitoring using component performance data
CN103607297A (zh) 一种计算机集群系统的故障处理方法
US20210133054A1 (en) Prioritized transfer of failure event log data
CN111880906A (zh) 虚拟机高可用性管理方法、系统以及存储介质
US10353786B2 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
US20160036654A1 (en) Cluster system
JP2010086364A (ja) 情報処理装置、動作状態監視装置および方法
US20170039118A1 (en) Cluster system, server device, cluster system management method, and computer-readable recording medium
JP5467936B2 (ja) 分散・並列処理システムの障害監視装置と方法およびプログラム
JPWO2013124947A1 (ja) 情報システム管理装置及び情報システム管理方法及びプログラム
JP2010231293A (ja) 監視装置
US20140164851A1 (en) Fault Processing in a System
CN112069032A (zh) 一种虚拟机的可用性检测方法、系统及相关装置
US20080216057A1 (en) Recording medium storing monitoring program, monitoring method, and monitoring system
CN116149932A (zh) 软件系统状态的检测方法、装置及电子设备
JP7044971B2 (ja) クラスタシステム、オートスケールサーバ監視装置、オートスケールサーバ監視プログラムおよびオートスケールサーバ監視方法
JP2014178832A (ja) サービス提供システム、サーバ装置、クライアント端末、障害検知方法、及びプログラム
JP6674916B2 (ja) 通信障害管理装置、及び通信システム
JP5655639B2 (ja) 監視装置、監視方法、プログラム及び監視システム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20111227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140128

R150 Certificate of patent or registration of utility model

Ref document number: 5467936

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees