JP2010073151A - クラスタシステムにおける性能低下の原因箇所の特定方法、クラスタシステム - Google Patents

クラスタシステムにおける性能低下の原因箇所の特定方法、クラスタシステム Download PDF

Info

Publication number
JP2010073151A
JP2010073151A JP2008243100A JP2008243100A JP2010073151A JP 2010073151 A JP2010073151 A JP 2010073151A JP 2008243100 A JP2008243100 A JP 2008243100A JP 2008243100 A JP2008243100 A JP 2008243100A JP 2010073151 A JP2010073151 A JP 2010073151A
Authority
JP
Japan
Prior art keywords
resource
monitoring
performance
performance degradation
cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008243100A
Other languages
English (en)
Other versions
JP4941439B2 (ja
Inventor
Hiroshi Uchikune
寛 内久根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008243100A priority Critical patent/JP4941439B2/ja
Publication of JP2010073151A publication Critical patent/JP2010073151A/ja
Application granted granted Critical
Publication of JP4941439B2 publication Critical patent/JP4941439B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】性能低下を引き起こしている原因箇所を精度良く特定すること。
【解決手段】本発明に係るクラスタシステムにおける性能低下の原因箇所の特定方法は、サービスの提供に必要な複数のリソースにより構成されるクラスタシステムにおける性能低下の原因箇所の特定方法であって、リソースの稼働状況を監視すると共に、当該リソースの性能低下を示唆する性能監視項目を監視するステップ(S101)と、当該監視結果に基づいてリソースの性能低下を判断し、リソース間の影響関係から性能低下の原因であるリソースを特定するステップ(S102)と、を有する。
【選択図】図1

Description

本発明は、クラスタシステムにおける性能低下の原因箇所の特定方法、クラスタシステムに関する。
複数のサーバで構成され、ユーザに提供するサービスの処理性能や可用性を向上させるクラスタシステムと呼ばれるソフトウェア技術が開発されている。クラスタシステムでは、サービスの提供に必要なコンピューティング・リソース(サーバ、アプリケーション、ストレージ・デバイスなど。以下、これらのコンピューティング・リソースを、単にリソースと称することもある。)の状態監視を行い、リソースの障害を感知した場合には、リソースの再起動やサーバ切り替え(フェイルオーバ)などを行うことで、サービスの可用性を向上させている。
例えば、特許文献1には、サービスの負荷状況を判断し、サービスの最適配置を行うクラスタシステムの負荷分散制御方法が開示されている。特許文献1に開示される技術では、サービスの起動又は停止に関する構成変更に際し、必要なリソース量を算定し、算定されたリソース量を必要とするサーバノードについて構成変更の処理のために不足のリソースがあるか否かを判断し、不足のリソースがある場合には不足のリソース量を確保した後に、構成変更を実行する。
また特許文献2には、応答監視モジュールと、情報蓄積モジュールと、マネージャモジュールとを有する性能向上サービス提供システムが開示されている。応答監視モジュールは、ネットワークを介し一定期間毎に一般のエンドユーザと同様の方式でユーザシステムにアクセスを行い、その応答時間の時系列データを収集ログとして格納する。情報蓄積モジュールは、ネットワークを介して一定期間毎にユーザシステムの構成要素の監視を行い、その監視結果を示すリソース情報の時系列データを収集ログとして格納する。マネージャモジュールは、上記の収集ログに基づく分析によりユーザシステムの性能劣化を検知した際に、当該分析および過去の性能向上処置の実施状況をふまえた上で適切な性能向上処置を決定して当該性能向上処置を実施し、その実施状況を示す履歴を保存する。
特開2007−249445号公報 特開2005−18103号公報
しかしながら、関連するクラスタシステムでは、リソースの状態監視は、そのリソースが障害であるか否かの白黒の判断を行うものであり、障害が発生してから他のサーバへの切り替えを行うなど、障害発生事後にクラスタ切り替えを行うものがほとんどである。
また、特許文献1記載の技術では、負荷状況に至った原因を特定する処理を行っていないため、サービスの再配置を行った後においても同様の負荷状況を発生させてしまう可能性を否定できない。
さらに、特許文献2記載の技術では、情報蓄積モジュールにより、ユーザシステムの構成要素の監視を行い、その監視結果を示すリソース情報(CPU、メモリ使用率など)を収集しているものの、サービスの提供に必要なコンピューティング・リソース(サーバ、アプリケーション、ストレージ・デバイスなど。)の性能の監視を行うものではない。このため、性能低下を引き起こしている主要因の原因箇所(リソース)を精度良く検出することができない。
従って、関連するクラスタシステムでは、リソースの稼動状況に応じたサービスの提供状況をレポートする仕組みが提供されていないため、性能低下を引き起こしている原因箇所を精度良く特定することができないという問題点がある。
本発明に係るクラスタシステムにおける性能低下の原因箇所の特定方法は、サービスの提供に必要な複数のリソースにより構成されるクラスタシステムにおける性能低下の原因箇所の特定方法であって、前記リソースの稼働状況を監視すると共に、当該リソースの性能低下を示唆する性能監視項目を監視するステップと、当該監視結果に基づいて前記リソースの性能低下を判断し、前記リソース間の影響関係から性能低下の原因であるリソースを特定するステップと、を有するものである。
これにより、リソースの稼動状況の判断に加えて、性能低下を示唆する性能監視項目を監視することで、性能低下を引き起こしている原因箇所を精度良く特定することができる。
本発明に係るクラスタシステムは、サービスの提供に必要な複数のリソースにより構成されるクラスタシステムであって、前記リソースの稼働状況を監視すると共に、当該リソースの性能低下を示唆する性能監視項目を監視して当該監視情報を性能情報データベースに格納するリソース監視手段と、前記性能情報データベースに格納した監視情報に基づいて前記リソースの性能低下を判断し、前記リソース間の影響関係を記述したサービスグループ情報テーブルを参照して、性能低下の原因であるリソースを特定する原因箇所特定手段と、を有するものである。
これにより、リソースの稼動状況の判断に加えて、性能低下を示唆する性能監視項目を監視することで、性能低下を引き起こしている原因箇所を精度良く特定することができる。
本発明にかかるクラスタシステムにおける性能低下の原因箇所の特定方法、クラスタシステムによれば、リソースの性能低下を引き起こしている原因箇所を精度良く特定することができる。
以下、本発明を実施するための最良の形態について、図面を参照しながら詳細に説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略及び簡潔化がなされている。各図面において同一の構成又は機能を有する構成要素及び相当部分には、同一の符号を付し、その説明を省略する。
まず、図1を参照して、本発明に係るクラスタシステムにおける性能低下の原因箇所の特定方法について、その概略を説明する。図1は、本発明に係る性能低下の原因箇所の特定方法を示すフローチャートである。本発明に係るクラスタシステムは、サービスの提供に必要な複数のリソースにより構成されるクラスタシステムである。そして、図1に示すように、本発明に係るクラスタシステムは、まず、ステップS101において、各リソースの稼働状況を監視すると共に、それらリソースの性能低下を示唆する性能監視項目を監視する。次いで、ステップS102において、監視結果に基づいて各リソースの性能低下を判断し、リソース間の影響関係から性能低下の原因であるリソースを特定する。
これにより、リソースの稼動状況の判断に加えて、性能低下を示唆する性能監視項目を監視することで、性能低下を引き起こしている原因箇所(リソース)を精度良く特定することができる。
実施の形態1.
以下、図2乃至9を参照して、実施の形態1に係るクラスタシステム、及び、クラスタにおける性能低下の原因箇所の特定方法について説明する。
図2は、本発明に係るクラスタシステムの全体構成を示す図である。クラスタシステム1は、サービスの提供に必要な複数のコンピューティング・リソース(サーバ、アプリケーション、ストレージ・デバイスなど。以下、これらのコンピューティング・リソースを、単にリソースと称することもある。)により構成される。図に示す例では、クラスタシステム1は、サービスを提供する複数のサーバ群70から構成される。サーバ群70はパブリックネットワーク100を介して接続されるサーバ(稼動系)20とサーバ(待機系)30から構成される。尚、図2では、サーバ群70は、2つのサーバ(稼動系)20とサーバ(待機系)30を含むものとしたが、3つ以上のサーバを含むものとしてもよい。
サーバ(稼動系)20は、クラスタソフトウェア21と、ユーザに提供する複数のサービス1,2とを実行する。サーバ(待機系)30は、サーバ(稼動系)20のリソースに障害が発生した場合に、サーバ(稼動系)20に代わってサービスを提供するサーバであり、クラスタソフトウェア31と、例えばユーザに提供するサービス2とを実行する。サーバ(稼動系)20のクラスタソフトウェア21とサーバ(待機系)30のクラスタソフトウェア31は、各リソースの稼働状況を監視すると共に、それらリソースの性能低下を示唆する性能監視項目を監視する。そして、監視結果に基づいて各リソースの性能低下を判断し、リソース間の影響関係から性能低下の原因であるリソースを特定した上で、リソースの再起動やサーバ切り替え(フェイルオーバ)などを行う。サーバ(稼動系)20のクラスタソフトウェア21とサーバ(待機系)30のクラスタソフトウェア31とは互いに通信を行い、サーバ切り替え(フェイルオーバ)を行う。
クラスタシステム1では、ユーザに提供するサービスをひとつの単位として、フェイルオーバなどを行い、サービスの処理性能や可用性を高めている。以下では、ユーザに提供するサービス単位をサービスグループと称する。サービスグループは、サービスを提供するのに必要なリソースにより構成される。
図2では、サーバ(稼動系)20が提供するサービス2のサービスグループとして、通常のデータベースサービスの一例を示している。サービスグループとしてのデータベースサービス32は、ネットワークインタフェース(Network Interface)321、IPアドレス(IP address)322、ストレージ・デバイス(Disk)323、ファイルシステム(FileSystem)324、データベースソフトウェア(Database)325、及びアプリケーション(Application:Webサーバなど)326により構成される。すなわち、データベースサービス32のサービスグループは、リソースとして、ネットワークインタフェース321、IPアドレス322、ストレージ・デバイス323、ファイルシステム324、データベースソフトウェア325、及びアプリケーション326を含む。
本実施の形態に係るクラスタシステム1は、リソースの監視に際して、監視対象装置(リソース)の稼動有無を監視するのに加えて、監視対象装置(リソース)の性能低下を示唆する監視項目(以下、これを性能監視項目と称する。)についても監視する。そして、あるリソースの性能監視項目が極端に変化し性能低下を示唆する状態となった場合には、これをトリガー(性能低下の判断)として、サービスグループを構成している全てのリソースの性能監視項目の動向を調査し、原因箇所(リソース)の絞込みを行う。ここで、リソースによっては、性能監視項目の変動が他のリソースの影響を受けることがあるため、原因箇所の絞込みを行う際には、リソース同士の影響関係を考慮して、その影響を与えているリソースまでの原因箇所の絞込みを行うことを特徴とする。さらに、原因箇所として絞り込まれたリソースについては、そのリソースのクラスタシステム1の構成上の配置を考慮し、原因排除にフェイルオーバが有効であると期待できるか否かを判断し、期待できる場合にはフェイルオーバを実施する。
例えば、リソースをネットワークインタフェースとした場合に、このネットワークインタフェースにおける入出力パケット数の増加比率(すなわち、これを性能監視項目とする。)を測定することにより、リソースのパフォーマンス低下が発生しているか否かの判断を行う。そして、入力パケットの増加数に対して出力パケットの増加数が極端に低い傾向になった場合には、サービスのレスポンスが悪くなっている可能性があるものと考えられる。従って、これをトリガーとして、サービスグループを構成している全てのリソースについてその性能監視項目の動向を調査し、パフォーマンス低下の原因箇所であるリソースの絞込みを行う。
尚、トリガーとするリソース及びトリガー条件は、指定可能とし、サービスの特性を反映できるものとする。すなわち、サービスの特性に応じて、複数のリソースのうち性能低下の判断対象とするリソースと、そのリソースの性能低下を判断するための条件とを指定することができる。
図3は、本実施の形態に係るクラスタシステムのクラスタソフトウェアが有する機能構成を示す全体図である。尚、図2に示したクラスタソフトウェア21及び31は同じ機能を有しているため、以下では、代表してクラスタソフトウェア21が有する機能として説明する。
図3に示すように、クラスタソフトウェア21は、主に、可用性確保手段11と、リソース監視手段12と、原因箇所特定手段13と、フェイルオーバ判断手段14を有している。また、上記手段に加えて、ユーザにより予め設定されたリソーストリガーテーブル15とサービスグループ情報テーブル16を有している。
可用性確保手段11は、クラスタシステム1の中心的な役割を担うものであり、リソースの監視を制御し、サービスの可用性を確保するためにリソースの再起動やサーバ切り替え(フェイルオーバ)等の動作を行う。
リソース監視手段12は、可用性確保手段11の管理の下で動作し、対象リソースの監視を行う。本実施の形態に係るクラスタシステム1では、リソースの監視に際して、監視対象リソースの稼動有無の判断(すなわち、通常の監視内容)の他に、リソースの性能低下を示唆する監視項目(すなわち、性能監視項目)を加えるものである。尚、各リソースに対応する複数のリソース監視手段12が存在するが、図3においては、リソース1を監視する監視手段12のみを代表して示している。
サービスグループ情報テーブル16は、サービスグループ毎にそのサービスグループを構成するリソースと、そのリソースの他のリソースとの影響関係を記述したサービスグループの情報テーブルである。図3に示す例では、そのリソースが被影響リソースである場合には、被影響フラグの値を1とし、影響を与えるリソースの名称を影響リソース名として示している。すなわち、図3に示すサービスグループ情報テーブル16では、例えば、リソース2は、被影響リソースであり、リソース2に影響を与えるリソースはリソース3であることを示している。
リソーストリガーテーブル15は、トリガーとするリソース及びトリガー条件を記述したテーブルである。
原因箇所特定手段13は、リソースの性能監視項目の動向が極端に変化し性能低下を示唆する状態となった場合をトリガーとして、サービスグループを構成する全てのリソースの性能監視項目の動向を調査し、原因箇所(リソース)の絞込みを行う。ここで、リソースによっては、性能監視項目の変動が他のリソースの影響を受けることがあるため、原因箇所特定手段13は、原因箇所の絞込みの際には、リソース同士の影響関係を考慮し、影響を与えているリソースまでの原因箇所の絞込みを行う。さらに、原因箇所特定手段13は、原因箇所として絞り込んだソースがリストアップされた原因箇所リスト17を作成すると共に、絞り込んだリソースの性能監視項目の動向をレポート18として表示する。
フェイルオーバ判断手段14は、原因箇所のリソースがフェイルオーバ(サーバ切り替え)により原因解消可能であるか否かを判断し、原因解消に期待がもてる場合には、可用性確保手段11に対して、フェイルオーバの実施を指示する。
図4は、本実施の形態に係るクラスタシステムの全体処理の流れを示す概念図である。まず、リソース監視手段12により、サービスグループを構成している各リソースの監視が行われる。すなわち、図4では、サービスグループ1を構成している各リソースの監視が、対応する各リソース監視手段12により行われる。尚、それぞれのリソースに対して、そのリソースをトリガーとするか否かを示すトリガーフラグと、そのトリガー条件が定義されている(これらの情報はリソーストリガーテーブル15に定義されている)。例えば、図4では、リソース1がトリガーとされ、リソース1の監視手段12にトリガー設定がされている。
ここで、あるリソース(図4に示す例では、リソース1)において、リソーストリガーテーブル15に定義されたトリガー条件が満たされた場合を想定する。すると、これをトリガーとして、原因箇所特定手段13により、原因箇所(リソース)の絞込みが行われる。
原因箇所特定手段13は、サービスグループ情報テーブル16に従い、サービスグループを構成している全てのリソース(図4に示す例では、4つのリソース)の性能監視項目の動向を調査し(図4において、リソース1(符号41)、リソース2(符号42)、・・・、の性能監視項目の動向調査処理を符号40により示す)、原因箇所(リソース)の絞込みを行う。リソースによっては、性能監視項目の動向が他のリソースの影響を受けることがあるため、原因箇所の絞込みの際には、リソース同士の影響関係を考慮して影響を与えているリソースまでの絞込みを行う。原因箇所特定手段13は、原因箇所の絞込みの結果を示す原因箇所リスト17を作成すると共に、原因箇所の絞込み結果を、トリガーとなったリソースを含め、絞り込んだリソースの性能監視項目の動向をレポート18として表示する。
フェイルオーバ判定手段14では、作成した原因箇所リスト17を参照して、原因箇所のリソースがフェイルオーバ(サーバ切り替え)により原因解消可能であるか否かの判断を行い、原因解消が期待できる場合には、可用性確保手段11に対して、フェイルオーバの実施を指示する。
次に、図5乃至9を参照して、本実施の形態に係るクラスタシステムの動作の詳細について説明する。図5は、リソース監視手段による動作処理を説明するためのフローチャート図である。図5では、各リソース監視手段が行う動作処理を示している。
図5に示すように、リソース監視手段12は、まず、監視対象リソースの稼働状況の有無を監視(ステップS201)し、さらに、リソースの性能低下を示唆する性能監視項目を監視する(ステップS202)。そして、リソース監視手段12は、性能監視項目の監視情報を性能情報データベース19に格納する(ステップS203)。リソース監視手段12は、監視しているリソースについて、リソーストリガーテーブル15のトリガーフラグを参照して、そのリソースがトリガーとして定義されているか否か(すなわち、トリガー設定されているか否か)を判断する(ステップS204)。判断の結果、そのリソースがトリガーとして定義されていない場合には、これでリソース監視の1つのサイクルを終了する。
一方で、判断の結果、そのリソースがトリガーとして定義されている場合には、リソース監視手段12は、リソーストリガーテーブル15のトリガー条件を参照して、そのリソースがトリガー条件を満たしているか否かの判断を行う(ステップS205)。
判断の結果、そのリソースがトリガー条件を満たしているものと判断した場合には(ステップS205でYes)、リソース監視手段12は、原因箇所特定手段13を呼び出し、原因箇所特定手段13による処理(ステップS206)へと進み、原因箇所の絞込みを行う。一方で、判断の結果、そのリソースがトリガー条件を満たしていないものと判断した場合には(ステップS205でNo)、リソース監視手段12は、これでリソース監視の1つのサイクルを終了する。
図6乃至8は、原因箇所特定手段による動作処理を説明するためのフローチャート図である。原因箇所特定手段13は、2つのステップにおいて原因箇所の絞込みを行う。これら2つのステップをステップ1、ステップ2と称する。さらに、原因箇所特定手段13は、ステップ3においてレポート表示処理を行う。以下、各ステップの詳細を説明する。
まず、図6を参照してステップ1について説明する。ステップ1において、原因箇所特定手段13は、リソース抽出処理及び性能監視項目動向調査処理を行い、一次原因箇所リスト171を作成する。
まず、原因箇所特定手段13は、リソース抽出処理を行う(ステップS601)。すなわち、原因箇所特定手段13は、トリガーとなったリソースの名前をもとにして、サービスグループ情報テーブル16から調査対象とすべきリソースを抽出する。すなわち、トリガーとなったリソースが属するサービスグループを特定し、特定したそのサービスグループに属するリソースから一つのリソースを抽出する。
次いで、原因箇所特定手段13は、抽出対象となる全てのリソースについて後述するステップS603での性能監視項目動向調査処理を終了したか否かの判断を行う(ステップS602)。判断の結果、終了した場合には、ステップ2へと進む。
一方で、終了していない場合には、原因箇所特定手段13は、性能監視項目動向調査処理を行う(ステップS603)。すなわち、原因箇所特定手段13は、リソース抽出処理において抽出したリソースに対して、性能情報データベース19に格納された性能監視項目の監視情報を参照することで、リソースの性能監視項目の動向が極端に変化を示していないか否かを調査する。
次いで、原因箇所特定手段13は、調査したリソースの性能監視項目の動向が極端に変化を示していないか否かを判断する(ステップS604)。判断の結果、性能監視項目の動向が極端な変化を示していないものと判断した場合には、原因箇所特定手段13は、ステップS601へと戻り、次のリソースの処理を行う。
一方で、判断の結果、性能監視項目の動向が極端な変化を示しているものと判断した場合には、原因箇所特定手段13は、そのリソースを一次原因箇所リスト171に追加する(ステップS605)。そして、原因箇所特定手段13は、ステップS601へと戻り、次のリソースの処理を行う。
次に、図7を参照してステップ2について説明する。ステップ2において、原因箇所特定手段13は、ステップ1で作成した一次原因箇所リストから、原因箇所リスト17を作成する。
まず、ステップ2では、原因箇所特定手段13は、ステップ1で作成した一次原因箇所リスト171からリソース抽出処理を行う(ステップS701)。そして、原因箇所特定手段13は、抽出したリソースが被影響リソースであるか否かを判断する(ステップS702)。判断の結果、そのリソースが被影響リソースでない場合には、原因箇所特定手段13は、そのリソースを原因箇所リスト17に追加する(ステップS704)。
一方で、そのリソースが被影響リソースである場合には、原因箇所特定手段13は、さらに、影響を与えるリソースが一次原因箇所リスト171にあるか否かを判断する(ステップS703)。判断の結果、影響を与えるリソースが一次原因箇所リスト171にない場合には、原因箇所特定手段13は、そのリソースを原因箇所リスト17に追加する(ステップS704)。
一方で、判断の結果、影響を与えるリソースが一次原因箇所リスト171にある場合には、原因箇所特定手段13は、ステップS701へと戻り、一次原因箇所リスト171の次のリソースについての処理を行う。
ステップS704においてリソースを原因箇所リストに追加した後、原因箇所特定手段13は、ステップS701での一次原因箇所リスト171の全てのリソースに対してリソース抽出処理を終了したか否かを判断する(ステップS705)。判断の結果、終了した場合にはステップ3へと進む。一方で、終了していない場合には、原因箇所特定手段13は、ステップS701へと戻り、一次原因箇所リスト171の次のリソースについての処理を行う。
例えば、上述したステップ1での処理の結果、一次原因箇所リストにはリソース2及びリソース3が追加された状況を想定する。ステップ2では、まず、原因箇所特定手段13は、ステップS701で、一次原因箇所リストからリソース2を抽出する。次いで、ステップS702で、図3で示したサービスグループ情報テーブル16を参照して、リソース2は被影響リソースであるものと判断する(すなわち、ステップS702でYes)。次いで、ステップS703で、図3で示したサービスグループ情報テーブル16を参照して、リソース2に影響を与えるリソース3が一次原因箇所リストにあると判断する(すなわち、ステップS703でYes)。次いで、ステップS701へと戻り、一次原因箇所リストからリソース3を抽出する。次いで、ステップS702で、図3で示したサービスグループ情報テーブル16を参照して、リソース2は被影響リソースでないものと判断する(すなわち、ステップS702でNo)。次いで、ステップS704で、リソース3を原因箇所リスト17に追加する。次いで、ステップS705で、全てのリソースに対してリソース抽出処理を終了したものと判断し(すなわち、ステップS705でYes)、ステップ3へと進む。
このように、原因箇所特定手段13は、一次原因箇所リスト171の中から、リソース同士の影響関係を考慮し、影響を与えているリソースまでの絞込みを行い、原因箇所リスト17を作成する。
次に、図8を参照してステップ3について説明する。ステップ3において、原因箇所特定手段13は、レポート表示処理を行う(ステップS801)。すなわち、原因箇所特定手段13は、トリガーとなったリソースを含めて、絞り込んだリソース(原因箇所リスト17にリストアップされたリソース)の性能監視項目の動向(測定情報50)をレポート18として表示する。尚、測定情報50は、リソース監視手段12により監視され、性能情報データベース19に格納された性能監視項目の監視情報を含んでいる。
図9は、フェイルオーバ判断手段による動作処理を説明するためのフローチャート図である。
まず、フェイルオーバ判断手段14は、リソース抽出処理を行う(ステップS901)。すなわち、フェイルオーバ判断手段14は、原因箇所リスト17から、フェイルオーバ有効性判断処理の対象とすべきリソースを抽出する。
次いで、フェイルオーバ判断手段14は、全てのリソースについてフェイルオーバ有効性判定処理が終了したか否かの判断を行う(ステップS902)。判断の結果、終了した場合には、フェイルオーバ判断手段14は、可用性確保手段11に対して、フェイルオーバの指示を行う(ステップS905)。すなわち、フェイルオーバ判断手段14は、原因箇所の全てのリソースにおいて、フェイルオーバが有効であると判断できた場合には、そのサービスグループのフェイルオーバを可用性確保手段11に指示する。
一方で、ステップS902における判断の結果、終了していない場合には、フェイルオーバ判断手段14は、フェイルオーバ有効性判定処理を行う(ステップS903)。すなわち、リソース抽出処理において抽出したリソースに対して、リソースのクラスタシステム1の構成上の配置を考慮し、原因箇所の排除にフェイルオーバが有効であるか否かを判断する。
次いで、フェイルオーバ判断手段14は、フェイルオーバが有効であるか否かを判断する(ステップS904)。例えば、各サーバに固有のリソースについて障害が発生した場合には、原因箇所の排除にフェイルオーバが有効であるものと判断することができる。一方で、各サーバで共有するリソース(ディスクなど)について障害が発生した場合には、フェイルオーバは有効でないものと判断することができる。
判断の結果、フェイルオーバが有効であるものと判断した場合には、フェイルオーバ判断手段14は、ステップS901へと戻り、次のリソースの処理を行う。一方で、判断の結果、フェイルオーバが有効でないものと判断した場合には、フェイルオーバ判断手段14は、処理を終了する。
実施の形態2.
本実施の形態では、実施の形態1に比べて、各サーバのCPUおよびメモリの使用率をトリガーとして指定することを可能とする。これにより、CPUおよびメモリの使用率の変動の影響が、リソースや、さらにはサービスのパフォーマンスに影響を与えているかの判断が可能となる。なお、以下に特に説明する点を除いて、他の構成、及び処理については、実施の形態1と同様であるため、説明を省略する。
以下、図10乃至13を参照して、実施の形態2に係るクラスタシステム、及び、クラスタにおける性能低下の原因箇所の特定方法について説明する。
図10は、本実施の形態に係るクラスタシステムのクラスタソフトウェアが有する機能構成を示す全体図である。尚、図3に示した実施の形態1に係るクラスタシステムと比べて、図10に示すクラスタシステムでは、更に、CPU監視手段81とメモリ監視手段82を有している。
CPU監視手段81およびメモリ監視手段82は、リソース監視手段12と同様に動作するものであり、性能監視項目として、それぞれCPU使用率、メモリ使用率の監視を行うものである。また、トリガーの設定、トリガー条件の設定も、リソース監視手段12と同様に行うことができる。
次に、図11乃至13を参照して、本実施の形態に係るクラスタシステムの動作の詳細について説明する。図11は、CPU監視手段あるいはメモリ監視手段がトリガーとなった場合の原因箇所特定手段による動作処理を説明するためのフローチャート図である。原因箇所特定手段13は、2つのステップにおいて原因箇所の絞込みを行う。これら2つのステップをステップ1、ステップ2と称する。さらに、原因箇所特定手段13は、ステップ3においてレポート表示処理を行う。以下、各ステップの詳細を説明する。
まず、図11を参照してステップ1について説明する。ステップ1において、原因箇所特定手段13は、リソース抽出処理及び性能監視項目動向調査処理を行い、一次原因箇所リスト171を作成する。
まず、原因箇所特定手段13は、CPU監視手段81あるいはメモリ監視手段82がトリガーとなった場合には、全てのサービスグループを対象として、サービスグループ情報テーブル16から調査対象とすべきリソースを抽出する(ステップS1101)。
次いで、原因箇所特定手段13は、抽出対象となる全てのリソースについて性能監視項目動向調査処理を終了したか否かの判断を行う(ステップS1102)。判断の結果、終了した場合には、ステップ2へと進む。
一方で、終了していない場合には、原因箇所特定手段13は、性能監視項目動向調査処理を行う(ステップS1103)。すなわち、原因箇所特定手段13は、リソース抽出処理において抽出したリソースに対して、性能情報データベース19に格納された性能監視項目の監視情報を参照することで、リソースの性能監視項目の動向が極端に変化を示していないか否かを調査する。
次いで、原因箇所特定手段13は、調査したリソースの性能監視項目の動向が極端に変化を示していないか否かを判断する(ステップS1104)。判断の結果、性能監視項目の動向が極端な変化を示していないものと判断した場合には、原因箇所特定手段13は、ステップS1101へと戻り、次のリソースの処理を行う。
一方で、判断の結果、性能監視項目の動向が極端な変化を示しているものと判断した場合には、原因箇所特定手段13は、そのリソースを一次原因箇所リスト171に追加する(ステップS1105)。そして、原因箇所特定手段13は、ステップS1101へと戻り、次のリソースの処理を行う。
次に、図12を参照してステップ2について説明する。ステップ2において、原因箇所特定手段13は、ステップ1で作成した一次原因箇所リストから、原因箇所リスト17を作成する。
まず、ステップ2では、原因箇所特定手段13は、ステップ1で作成した一次原因箇所リスト171からリソース抽出処理を行う(ステップS1201)。そして、原因箇所特定手段13は、抽出したリソースが被影響リソースであるか否かを判断する(ステップS1202)。判断の結果、そのリソースが被影響リソースでない場合には、原因箇所特定手段13は、そのリソースを原因箇所リスト17に追加する(ステップS1204)。
一方で、そのリソースが被影響リソースである場合には、原因箇所特定手段13は、さらに、影響を与えるリソースが一次原因箇所リスト171にあるか否かを判断する(ステップS1203)。判断の結果、影響を与えるリソースが一次原因箇所リスト171にない場合には、原因箇所特定手段13は、そのリソースを原因箇所リスト17に追加する(ステップS1204)。
一方で、判断の結果、影響を与えるリソースが一次原因箇所リスト171にある場合には、原因箇所特定手段13は、ステップS1201へと戻り、一次原因箇所リスト171の次のリソースについての処理を行う。
ステップS1204においてリソースを原因箇所リストに追加した後、原因箇所特定手段13は、ステップS701での一次原因箇所リスト171の全てのリソースに対してリソース抽出処理を終了したか否かを判断する(ステップS1205)。判断の結果、終了した場合にはステップ3へと進む。一方で、終了していない場合には、原因箇所特定手段13は、ステップS1201へと戻り、一次原因箇所リスト171の次のリソースについての処理を行う。
次に、図13を参照してステップ3について説明する。ステップ3において、原因箇所特定手段13は、レポート表示処理を行う(ステップS1301)。すなわち、原因箇所特定手段13は、トリガーとなったリソースを含めて、絞り込んだリソース(原因箇所リスト17にリストアップされたリソース)の性能監視項目の動向(測定情報50)をレポート18として表示する。原因箇所特定手段13は、全サービスグループを対象として原因箇所特定処理を実行し、複数のサービスグループのレポートを出力する。これにより、CPUおよびメモリの使用率の変動の影響がリソース、さらにはサービスのパフォーマンスに影響を与えているかの判断が可能となる。
以下、本発明による効果について説明する。まず、本発明による第1の効果としては、サービスのパフォーマンスに影響を及ぼしているコンピューティング・リソースを特定可能である点が挙げられる。その理由は、サービスのパフォーマンスに影響する性能低下を察知して、これをトリガーとして、サービスの単位でその原因箇所を特定するためである。
また、第2の効果として、サービスの特性を考慮して原因箇所特定の条件を設定可能な点が挙げられる。その理由は、サービスのパフォーマンスに影響する性能低下を察知する条件をカスタマイズできるためである。
さらに、第3の効果として、サービスの性能低下を同様の原因で起こさないように、フェイルオーバを実施可能な点が挙げられる。その理由は、特定した原因箇所において、性能低下の原因排除にフェイルオーバが有効であるか判断した上でフェイルオーバの実施を決定するためである。
尚、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
本発明に係る性能低下の原因箇所の特定方法の概略を示すフローチャートである。 本発明の実施の形態1に係るクラスタシステムの全体構成を示す図である。 本発明の実施の形態1に係るクラスタシステムのクラスタソフトウェアが有する機能構成を示す全体図である。 本発明の実施の形態1に係るクラスタシステムの全体処理の流れを示す概念図である。 本発明の実施の形態1に係るリソース監視手段による動作処理を説明するためのフローチャート図である。 本発明の実施の形態1に係る原因箇所特定手段による動作処理を説明するためのフローチャート図である。 本発明の実施の形態1に係る原因箇所特定手段による動作処理を説明するためのフローチャート図である。 本発明の実施の形態1に係る原因箇所特定手段による動作処理を説明するためのフローチャート図である。 本発明の実施の形態1に係るフェイルオーバ判断手段による動作処理を説明するためのフローチャート図である。 本発明の実施の形態2に係るクラスタシステムのクラスタソフトウェアが有する機能構成を示す全体図である。 本発明の実施の形態2に係る原因箇所特定手段による動作処理を説明するためのフローチャート図である。 本発明の実施の形態2に係る原因箇所特定手段による動作処理を説明するためのフローチャート図である。 本発明の実施の形態2に係る原因箇所特定手段による動作処理を説明するためのフローチャート図である。
符号の説明
1 クラスタシステム、
11 可用性確保手段、
12 リソース監視手段、
13 原因箇所特定手段、
14 フェイルオーバ判断手段、
15 リソーストリガーテーブル、
16 サービスグループ情報テーブル、
17 原因箇所リスト、
171 一次原因箇所リスト、
18 レポート、
19 性能情報データベース、
20 サーバ(稼動系)、
21 クラスタソフトウェア、
22 サービス1、
23 サービス2、
30 サーバ(待機系)、
31 クラスタソフトウェア、
32 サービス2(データベースサービス)、
321 ネットワークインタフェース(Network Interface)、
322 IPアドレス(IP address)、
323 ストレージ・デバイス(Disk)、
324 ファイルシステム(FileSystem)、
325 データベースソフトウェア(Database)、
326 アプリケーション(Application:Webサーバなど)、
40 性能監視項目の動向調査処理、
41、42 リソース、
50 測定情報、
70 サーバ群、
91 サービスグループ1(レポート)、
92 サービスグループ3(レポート)、
100 パブリックネットワーク、

Claims (9)

  1. サービスの提供に必要な複数のリソースにより構成されるクラスタシステムにおける性能低下の原因箇所の特定方法であって、
    前記リソースの稼働状況を監視すると共に、当該リソースの性能低下を示唆する性能監視項目を監視するステップと、
    当該監視結果に基づいて前記リソースの性能低下を判断し、前記リソース間の影響関係から性能低下の原因であるリソースを特定するステップと、
    を有するクラスタシステムにおける性能低下の原因箇所の特定方法。
  2. 前記複数のリソースのうち性能低下の判断対象とするリソースと、当該リソースの性能低下を判断するための条件とを指定可能とする
    ことを特徴とする請求項1に記載のクラスタシステムにおける性能低下の原因箇所の特定方法。
  3. 前記監視結果の変動から前記リソースの性能低下を判断し、前記複数のリソースのうち少なくとも1つの前記リソースが性能低下を示す状態となった場合には、前記複数のリソース間の影響関係から性能低下の原因であるリソースを特定する
    ことを特徴とする請求項1又は2に記載のクラスタシステムにおける性能低下の原因箇所の特定方法。
  4. 前記クラスタシステムが備えるCPU及びメモリの少なくとも一つの使用率を監視するステップを更に有し、
    当該CPU及びメモリ使用率に基づいて前記リソースの性能低下を判断し、前記リソースの監視結果と前記リソース間の影響関係から、性能低下の原因であるリソースを特定する
    ことを特徴とする請求項1乃至3いずれか1項に記載のクラスタシステムにおける性能低下の原因箇所の特定方法。
  5. サービスの提供に必要な複数のリソースにより構成されるクラスタシステムであって、
    前記リソースの稼働状況を監視すると共に、当該リソースの性能低下を示唆する性能監視項目を監視して当該監視情報を性能情報データベースに格納するリソース監視手段と、
    前記性能情報データベースに格納した監視情報に基づいて前記リソースの性能低下を判断し、前記リソース間の影響関係を記述したサービスグループ情報テーブルを参照して、性能低下の原因であるリソースを特定する原因箇所特定手段と、
    を有するクラスタシステム。
  6. 前記複数のリソースのうち性能低下の判断対象とするリソースと、当該リソースの性能低下を判断するための条件とを記述するトリガーテーブルを更に有し、
    前記原因箇所特定手段は、当該トリガーテーブルを参照して、前記性能情報データベースに格納した監視情報に基づいて前記リソースの性能低下を判断する
    ことを特徴とする請求項5に記載のクラスタシステム。
  7. 前記原因箇所特定手段は、前記性能情報データベースに格納した監視情報の変動から前記リソースの性能低下を判断し、前記複数のリソースのうち少なくとも1つの前記リソースが性能低下を示す状態となった場合には、前記サービスグループ情報テーブルを参照して、性能低下の原因であるリソースを特定する
    ことを特徴とする請求項5又は6に記載のクラスタシステム。
  8. 前記クラスタシステムが備えるCPUの使用率を監視するCPU監視手段とメモリの使用率を監視するメモリ監視手段の少なくとも一つを更に有し、
    前記原因箇所特定手段は、当該CPU監視手段及びメモリ監視手段によるCPU使用率及びメモリ使用率に基づいて前記リソースの性能低下を判断し、サービスグループ情報テーブルを参照して、前記性能情報データベースに格納した監視情報から性能低下の原因であるリソースを特定する
    ことを特徴とする請求項5乃至7いずれか1項に記載のクラスタシステム。
  9. 前記サービスの可用性を確保するための処置を行う可用性確保手段と、
    前記原因箇所特定手段により特定されたリソースがフェイルオーバにより原因解消可能であるか否かの判断を行い、原因解消が可能である場合には、前記可用性確保手段にフェイルオーバの実施を指示するフェイルオーバ判断手段と、を更に有する
    ことを特徴とする請求項5乃至7いずれか1項に記載のクラスタシステム。
JP2008243100A 2008-09-22 2008-09-22 クラスタシステムにおける性能低下の原因箇所の特定方法、クラスタシステム Expired - Fee Related JP4941439B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008243100A JP4941439B2 (ja) 2008-09-22 2008-09-22 クラスタシステムにおける性能低下の原因箇所の特定方法、クラスタシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008243100A JP4941439B2 (ja) 2008-09-22 2008-09-22 クラスタシステムにおける性能低下の原因箇所の特定方法、クラスタシステム

Publications (2)

Publication Number Publication Date
JP2010073151A true JP2010073151A (ja) 2010-04-02
JP4941439B2 JP4941439B2 (ja) 2012-05-30

Family

ID=42204828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008243100A Expired - Fee Related JP4941439B2 (ja) 2008-09-22 2008-09-22 クラスタシステムにおける性能低下の原因箇所の特定方法、クラスタシステム

Country Status (1)

Country Link
JP (1) JP4941439B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003651A (ja) * 2010-06-21 2012-01-05 Hitachi Information Systems Ltd 仮想化環境監視装置とその監視方法およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342182A (ja) * 2001-05-21 2002-11-29 Hitachi Ltd ネットワークシステムにおける運用管理の支援システム
JP2005209201A (ja) * 2004-01-23 2005-08-04 Hewlett-Packard Development Co Lp 高可用性クラスタにおけるノード管理
JP2005346204A (ja) * 2004-05-31 2005-12-15 Fujitsu Ltd 自律制御プログラム及びその記録媒体、自律制御装置並びに自律制御方法
JP2006277690A (ja) * 2005-03-30 2006-10-12 Nec Corp クラスタシステム、クラスタ切り替え方法、クラスタ切り替え制御プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342182A (ja) * 2001-05-21 2002-11-29 Hitachi Ltd ネットワークシステムにおける運用管理の支援システム
JP2005209201A (ja) * 2004-01-23 2005-08-04 Hewlett-Packard Development Co Lp 高可用性クラスタにおけるノード管理
JP2005346204A (ja) * 2004-05-31 2005-12-15 Fujitsu Ltd 自律制御プログラム及びその記録媒体、自律制御装置並びに自律制御方法
JP2006277690A (ja) * 2005-03-30 2006-10-12 Nec Corp クラスタシステム、クラスタ切り替え方法、クラスタ切り替え制御プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003651A (ja) * 2010-06-21 2012-01-05 Hitachi Information Systems Ltd 仮想化環境監視装置とその監視方法およびプログラム

Also Published As

Publication number Publication date
JP4941439B2 (ja) 2012-05-30

Similar Documents

Publication Publication Date Title
CN107925612B (zh) 网络监视系统、网络监视方法和计算机可读介质
US10462027B2 (en) Cloud network stability
JP5948257B2 (ja) 情報処理システム監視装置、監視方法、及び監視プログラム
US10360216B2 (en) Dynamic streaming of results of multi-leveled queries
US9122602B1 (en) Root cause detection service
US10452463B2 (en) Predictive analytics on database wait events
CN107924360B (zh) 计算系统中的诊断框架
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
WO2012101933A1 (ja) 運用管理装置、運用管理方法、及びプログラム
CN108633311A (zh) 一种基于调用链的并发控制的方法、装置及控制节点
JPWO2011155621A1 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
EP3449437A1 (en) Dynamic streaming of query responses
US10339131B1 (en) Fault prevention
US20140282422A1 (en) Using canary instances for software analysis
JP2007334716A (ja) 運用管理システム、監視装置、被監視装置、運用管理方法及びプログラム
KR20150118963A (ko) 큐 모니터링 및 시각화
US9021078B2 (en) Management method and management system
US10282245B1 (en) Root cause detection and monitoring for storage systems
JP5321195B2 (ja) 監視制御システム、監視制御方法、監視制御サーバ及び監視制御プログラム
US20180219752A1 (en) Graph search in structured query language style query
JP4941439B2 (ja) クラスタシステムにおける性能低下の原因箇所の特定方法、クラスタシステム
WO2015019488A1 (ja) 管理システム及びその管理システムによるイベント解析方法
US9898357B1 (en) Root cause detection and monitoring for storage systems
CN110928679B (zh) 一种资源分配方法及装置
CN106953759B (zh) 集群控制方法和集群控制设备

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120213

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees