JP2009259005A - リソース監視方法および装置 - Google Patents

リソース監視方法および装置 Download PDF

Info

Publication number
JP2009259005A
JP2009259005A JP2008107392A JP2008107392A JP2009259005A JP 2009259005 A JP2009259005 A JP 2009259005A JP 2008107392 A JP2008107392 A JP 2008107392A JP 2008107392 A JP2008107392 A JP 2008107392A JP 2009259005 A JP2009259005 A JP 2009259005A
Authority
JP
Japan
Prior art keywords
resource
event
resource usage
computer
monitoring system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008107392A
Other languages
English (en)
Inventor
Shuhei Sakai
周平 境
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008107392A priority Critical patent/JP2009259005A/ja
Publication of JP2009259005A publication Critical patent/JP2009259005A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】本発明の目的は、監視対象となる計算機上で発生する様々な要因によるリソース不足を問題が顕在化する前に検知すること、およびリソース不足が予想される場合に適切な対処を自動的に行うことにある。
【解決手段】本発明では、監視対象コンピュータ上で発生する事象をイベントとして通知する機能を持ち、受信したイベントを契機として、リソース使用情報の取得を行い、取得した情報を蓄積および解析する機能を持ち、上記解析結果から、イベント発生後のリソース使用量を予測する手段と、予測したリソース消費量が予め設定した閾値または計算機上の空きリソースを越えるようであれば、追加リソースの割り当てや別の計算機に処理を分散するなどのアクションを実行する手段を持つことを特徴とする。
【選択図】図1

Description

本発明は計算機のリソース使用量を監視する技術に関する。
システム構築時に各サービスに対するリソースの見積りを行っても、実際の運用においては、処理の集中や処理データ量などの要因により、リソース不足が発生し、サービスレベルを維持できないなどの問題が発生することがある。
そのため、近年では仮想化技術により動的にリソースを確保することで、刻々と変化する状況に対し、リソース不足の問題を解決する方法が示されている(例えば、特許文献1、特許文献2)。
特開2005−99973号公報 特開2005−128866号公報
特許文献1および特許文献2では、リソース使用量予測にユーザーリクエストの内容によりリソース使用量を予測するため、
Webシステムなど特定のシステムを監視する場合には有効であるが、集計業務やバックアップ業務といったユーザ要求を伴わない形態の業務システムを監視することができないという問題があった。
また、システム構成の変更や、実行するアプリケーションの変更が発生した場合、新たに分類テーブルを更新する作業が必要になるという問題があった。
さらには、リソース不足が発生する要因は、ユーザリクエストや業務量の変化のみではなく、ソフトウェア障害やハードウェア障害といった予測不可能な事象やこれらのリカバリー処理が原因となる場合もある。
本発明の目的は、計算機システム上で発生する様々な事象発生後のリソース使用量の変化を予測することで、リソース不足を事前に検知し、適切な対処を自動的に行うことにある。
上記目的を達成するために、本発明では、監視対象コンピュータ上で発生する事象をイベントとして通知する機能を持ち、受信したイベントを契機として、リソース使用情報の取得を行い、取得した情報を事象ごとに自動的に分類して蓄積および解析する機能を持ち、上記解析結果から、イベント発生後のリソース使用量を予測する手段と、予測したリソース消費量が予め設定した閾値または計算機上の空きリソースを越えるようであれば、追加リソースの割り当てや別の計算機に処理を分散するなどのアクションを実行する手段を持つことを特徴とする。
本発明によれば、計算機システム上で発生する様々な事象発生後のリソース使用量を予測することができ、またリソース使用量の予測にはイベントの持つ情報を利用することでより精度の高い予測をすることができ、リソース不足が予想される場合に適切なリソースを割り当てるなどの対処ができるようになる。
図1は、監視システム全体の構成を表す図である。
監視コンピュータ100と監視対象コンピュータ130がLANなどのネットワーク120を介して接続されている。
監視コンピュータ100と監視対象コンピュータ130は、一般的なコンピュータ(計算機)である。
また、監視対象コンピュータ130は複数台存在しても良い。
監視コンピュータ100は、メモリ101、ディスク制御装置106、CPU107、通信装置108を持っている。
また、ストレージなどの補助記憶装置110は、ディスク制御装置106により接続されている。
メモリ101上に、イベント受信部102、リソース使用量予測部103、稼動データ取得部104、アクション指示部105が展開されている。
また、データとして、補助記憶装置109上に、イベント分類テーブル110、リソース監視設定テーブル111、リソース管理テーブル112、アクション定義DB113をそれぞれ持つ。
これらのデータは、メモリ上に持っても良い。
監視対象コンピュータ130は、メモリ131、CPU136、通信装置137を持ち、メモリ131上に業務や各種アプリケーションのプログラム132、イベント送信部133、稼動データ収集部134、アクション実行部135が展開されている。
プログラム132は複数並列に実行することができ、プログラム132に埋め込まれたコードからイベント送信部133の機能により、監視コンピュータ100にプログラムで発生した事象や、プログラムが監視プログラムの場合は、監視対象となる機器やプログラムで発生した事象をイベントとして発行することができる。
イベントとして送信される情報の例を図2に示す。
イベントとして送信される情報には、事象が発生したコンピュータを識別するために発生コンピュータ201を持つ。また、イベントには、計算機上で発生した事象を一意に識別するための情報として、イベントID202を持つ。
その他にメッセージ203や複数の属性204を持ってもよい。
イベント受信部102の処理フローを図3に示す。
監視対象コンピュータで発生した事象は、イベント送信部133からイベントとして送信され、管理サーバ100のイベント受信部102で受信する(S101)。
受信したイベントの発生コンピュータ201およびイベントID202から、イベント分類テーブル110を検索する(S102)。
イベント分類テーブル110を図4に示す。
イベント分類テーブル110は、イベントを分類する条件として分類条件401、分類条件を一意に識別するためのIDとしてグループID402で構成されている。
分類条件401は、発生コンピュータ403、イベントID404などの複数の条件を持ってよい。また、条件として使用する項目にはメッセージや属性などを追加してもよい。
イベント分類テーブルの分類条件401を検索し、一致する分類条件のグループIDが取得できた場合(S103:Yes)は、リソース使用量予測部103を呼び出す(S104)。
一致する分類条件が無かった場合(S103:No)は、新たにグループIDを設定し、受信したイベントに含まれる情報をイベント分類テーブルに設定し(S105)、リソース使用量予測部103を呼び出す(S104)。
図5にリソース使用量予測部を示す。
リソース使用量予測部103は、リソース使用量予測処理501、リソース使用量監視処理502、リソース使用量予測値登録処理503からなる。これらの処理は、必ずしもリソース使用量予測部内にある必要は無く、それぞれ独立していてもよい。
図6にリソース使用量予測部103の処理フローを示す。
リソース使用量予測部103は、順にリソース使用量予測処理501(S201)、リソース使用量監視処理502(S202)、リソース使用量予測値登録処理503(S203)を呼び出す。
リソース使用量予測処理502(S201)の処理フローを図7に示す。
イベントの情報に含まれる発生コンピュータ202に対し、稼動データ取得部104からリソース情報収集指示を出す(S301)。
収集するリソースおよび収集間隔などの設定情報は、リソース監視設定テーブル111に予め設定しておく。
リソース監視設定テーブル111を図8に示す。
リソース監視設定テーブル111は、管理対象コンピュータ801、収集するリソース802、閾値803、収集間隔804、収集完了条件805、リソース使用量が閾値を超えたときに実行するアクションを示すアクションID806を持つ。
この例では、管理対象コンピュータごとに収集するリソースやしきい値を設定しているが、全てのコンピュータに対して同じ条件を設定してもよい。
また、しきい値は、リソースの最大値(最大量)であってもよい。
この場合、稼動データ収集部134を通じて、リソース最大値を得ることもできる。
リソース使用量予測部では、イベントを受信時に検索したイベント分類テーブル110のグループID402から、対応するグループIDのリソース使用量増分予測値をリソース管理テーブル112から取得する(S102)。
リソース管理テーブル112を図9に示す。
リソース管理テーブルは、イベント分類テーブルのグループID402と対応付けたグループID901、リソース使用量増分予測値902を持つ。リソース使用量増分予測値902には、収集するリソースを持つ。例では、CPU使用率903およびメモリ使用量904を持つ。
リソース管理テーブル112に一致するグループID901が存在しない場合は、新たにデータを追加し、処理を終了する(S303:No)。データの初期値には0を設定する。
リソース管理テーブル112からリソース使用量予測データを取得できた場合(S303:Yes)は、管理対象コンピュータの現在のリソース使用量にリソース使用量予測データの値を加算し、その結果がリソース監視設定テーブル111のしきい値803を超えていないか判断する。
しきい値を超えていない場合(S305:Yes)は、処理を終了する。
しきい値を超えた場合(S305:No)は、リソース監視設定テーブル111のアクションID806に指定されたIDを、アクション定義テーブル114のアクションIDと照合し、合致したアクションを実行し、処理を終了する。
アクション定義テーブルを図10に示す。
アクション定義テーブル113には、アクションID1001とアクションの実行コマンド1002、コマンドを実行するときに渡す実行引数1003が定義されている。
実行時に渡す引数には、変数を使用することができ、変数に不足するリソース量などを設定することで、不足分のリソースを動的に割り当てることができる。
リソース使用量監視処理503(S202)の処理フローを図11に示す。
該当するリソース監視設定テーブル111の情報を取得し、収集するリソース402と収集間隔404を基に定期的に発生コンピュータ302のリソース情報を収集する(S401)。管理対象コンピュータのリソース使用量情報は、稼動データ取得部104により稼動データ収集部134を通じて行われる。
ここで、取得したリソース使用量が予め設定した閾値803を超えていないか確認し、閾値を超えた場合(S402:No)は、アクションを実行する(S404)ように設定してもよい。閾値を超えていない場合は、S403に進む(S402:Yes)。
次の処理(S403)では収集完了条件の確認を行う。収集完了条件805を満たした場合(S403:Yes)は、取得したデータをリソース使用量履歴テーブル112に更新し(S405)、処理を終了する。
リソース使用量履歴テーブル112を図12に示す。
リソース使用量履歴テーブルは、グループIDごとに存在し、属性1202およびリソース使用量増分1203を記録する。属性が複数ある場合は、属性1(1203)、属性2(1204)のように複数定義できる。また、リソース使用量増分1203についても、収集するリソースごとにCPU使用率1205、メモリ使用量1206のように複数定義してよい。
リソース使用量予測値登録処理504(S203)の処理フローを図13に示す。
リソース使用量予測値登録処理では、リソース使用量履歴テーブル112を参照し、存在する属性値の数だけ、繰り返し処理を行う。まず初期値としてn=0を設定する(S501)。次に、nに1を加算する(S502)。
属性nが存在する場合(S503:Yes)で属性nが数値データの場合(S504)、属性nとリソース使用量の相関関係を計算するために近似式を求める(S505)。
近似式は、最小二乗法などを用いて行うことができる。
また、数値データで無い場合は、S502に進み、次の属性n+1について検証を行う。
次に、求めた近似式と実測値の誤差を計算し、誤差が予め規定した範囲内に収まっている場合は相関関係があるとし(S506:Yes)、求めた近似式をリソース管理テーブル113のリソース使用量増分予測値902に登録する。登録する式は、例えば「0.3×$属性2」($属性2は変数としての属性2を表す)のように登録する(S507)。登録した値をリソース使用量予測処理のS302で使用する場合は、属性2の値を代入することにより、リソース使用量予測値を求める。
また、相関関係がない場合はS502に進み、次の属性n+1について検証を行う。
すべての属性を検証しても相関関係がなかった場合や、属性が無い場合(S503:No)は、リソース使用量の履歴から最大値をリソース管理テーブル113のリソース使用量増分予測値902に登録する。登録する値は、最大値ではなく平均値としてもよい。
監視システム全体の構成を表す図。 イベントとして送信される情報の一例を表す図。 イベント受信部の処理フローを表す図。 イベント分類テーブルを表す図。 リソース使用量予測部の構成を表す図。 リソース使用量予測部の処理フローを表す図。 リソース使用量予測処理の処理フローを表す図。 リソース監視設定テーブルを表す図。 リソース管理テーブルを表す図。 アクション定義テーブルを表す図。 リソース使用量監視処理の処理フローを表す図。 リソース使用量履歴テーブルを表す図。 リソース使用量予測値登録処理の処理フローを表す図。
符号の説明
100…管理コンピュータ、101、131…メモリ、102…イベント受信部、103…リソース使用量予測部、104…稼動データ取得部、105…アクション指示部、106…ディスク制御装置、107、136…CPU、108…通信装置、109、137…補助記憶装置、110…イベント分類テーブル、111…リソース監視設定テーブル、112…リソース使用量履歴テーブル、113…リソース管理テーブル、114…アクション定義テーブル、120…ネットワーク、130…管理対象コンピュータ、132…プログラム、133…イベント送信部、134…稼動データ収集部、135…アクション実行部。

Claims (5)

  1. 監視対象コンピュータをイベントにより監視する監視システムにおいて、
    イベントを契機として、監視対象コンピュータのリソース使用量を測定する手段と、イベントの持つ情報によりイベントをグループ分けし、グループごとに測定したリソース使用量を蓄積する手段を持つことを特徴とするリソース監視装置。
  2. 請求項1のリソース監視システムにおいて、
    イベントを受信したときに、イベント受信後に使用するリソース量を予測する手段を持つことを特徴とするリソース監視装置。
  3. 請求項2のリソース監視システムにおいて、
    監視対象コンピュータのリソース量の最大値および現在のリソース使用状況を取得する手段と、イベントを受信したときに、イベント受信後に使用するリソース量を予測する手段を持ち、予測したリソース使用量が最大値を超えることが予測される場合に、予め定義したアクションを実行する機能を持つリソース監視装置。
  4. 請求項3のリソース監視システムにおいて、
    アクションとして、不足するリソースの割り当てを行う場合に、予測したリソース量をパラメータとして渡すことで、必要となるリソースを確保することを特徴とするリソース監視装置。
  5. 請求項2のリソース監視システムにおいて、予測の際に、イベントの持つ属性情報から、属性情報とリソース使用量の相関関係を計算し、属性情報を加味したリソース使用量予測を行うことを特徴とするリソース監視装置。
JP2008107392A 2008-04-17 2008-04-17 リソース監視方法および装置 Pending JP2009259005A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008107392A JP2009259005A (ja) 2008-04-17 2008-04-17 リソース監視方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008107392A JP2009259005A (ja) 2008-04-17 2008-04-17 リソース監視方法および装置

Publications (1)

Publication Number Publication Date
JP2009259005A true JP2009259005A (ja) 2009-11-05

Family

ID=41386340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008107392A Pending JP2009259005A (ja) 2008-04-17 2008-04-17 リソース監視方法および装置

Country Status (1)

Country Link
JP (1) JP2009259005A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198332A (ja) * 2010-03-24 2011-10-06 Fujitsu Ltd 仮想マシン管理プログラム及び仮想マシン管理装置
JP2012168816A (ja) * 2011-02-15 2012-09-06 Nec System Technologies Ltd プロセス再起動装置、プロセス再起動方法およびプロセス再起動プログラム
JP2014191378A (ja) * 2013-03-26 2014-10-06 Hitachi Systems Ltd サーバ数調整システムおよび方法ならびにプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198332A (ja) * 2010-03-24 2011-10-06 Fujitsu Ltd 仮想マシン管理プログラム及び仮想マシン管理装置
JP2012168816A (ja) * 2011-02-15 2012-09-06 Nec System Technologies Ltd プロセス再起動装置、プロセス再起動方法およびプロセス再起動プログラム
JP2014191378A (ja) * 2013-03-26 2014-10-06 Hitachi Systems Ltd サーバ数調整システムおよび方法ならびにプログラム

Similar Documents

Publication Publication Date Title
US20190238437A1 (en) Flexible and safe monitoring of computers
US10558545B2 (en) Multiple modeling paradigm for predictive analytics
US8191069B2 (en) Method of monitoring performance of virtual computer and apparatus using the method
EP2487593B1 (en) Operational surveillance device, operational surveillance method and program storage medium
US20060277295A1 (en) Monitoring system and monitoring method
US9191296B2 (en) Network event management
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
JP2005327261A (ja) 性能監視装置、性能監視方法及びプログラム
KR20120023703A (ko) 서버 관리 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체, 관리 서버, 가상 서버 배치 방법
JP6387747B2 (ja) 情報処理装置、障害回避方法およびコンピュータプログラム
WO2014013603A1 (ja) 監視システム及び監視プログラム
EP3935503B1 (en) Capacity management in a cloud computing system using virtual machine series modeling
CN108632106A (zh) 监控服务设备的系统
JP2016146020A (ja) データ分析システム及び分析方法
JP2009259005A (ja) リソース監視方法および装置
JP2015194797A (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
JP5729179B2 (ja) 振分制御装置、振分制御方法および振分制御プログラム
JP7038629B2 (ja) 機器状態監視装置及びプログラム
JP6082678B2 (ja) サーバ負荷分散方法およびプログラム
CN115480924A (zh) 作业数据的处理方法及装置、存储介质、电子设备
JP2009123238A (ja) 制御装置、計算機システム、制御装置のプロセス制御方法、計算機システムの計算機制御方法、計算機制御プログラムおよびプロセス制御プログラム
US20140165058A1 (en) System resource management method for virtual system
CN106375372B (zh) 一种大数据资源分配方法和装置
KR100547625B1 (ko) 그리드 정보서비스를 위한 지능형 모니터링 시스템 및 방법
KR101630088B1 (ko) 가상머신의 라이프사이클 모니터링 방법 및 그 장치