JP4705484B2 - Performance monitoring device, performance monitoring method and program - Google Patents

Performance monitoring device, performance monitoring method and program Download PDF

Info

Publication number
JP4705484B2
JP4705484B2 JP2006027622A JP2006027622A JP4705484B2 JP 4705484 B2 JP4705484 B2 JP 4705484B2 JP 2006027622 A JP2006027622 A JP 2006027622A JP 2006027622 A JP2006027622 A JP 2006027622A JP 4705484 B2 JP4705484 B2 JP 4705484B2
Authority
JP
Japan
Prior art keywords
countermeasure
information
external device
measure
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006027622A
Other languages
Japanese (ja)
Other versions
JP2007207117A (en
Inventor
良文 坂井
佳隆 池田
朋和 進藤
雄一 横山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NS Solutions Corp
Original Assignee
NS Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NS Solutions Corp filed Critical NS Solutions Corp
Priority to JP2006027622A priority Critical patent/JP4705484B2/en
Publication of JP2007207117A publication Critical patent/JP2007207117A/en
Application granted granted Critical
Publication of JP4705484B2 publication Critical patent/JP4705484B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Stored Programmes (AREA)

Description

本発明は、例えば、対象となる外部装置の状態をコンピュータが管理する所謂自律型コンピューティングに適用可能な性能監視装置、性能監視方法及びプログラムに関するものである。   The present invention relates to a performance monitoring apparatus, a performance monitoring method, and a program applicable to so-called autonomous computing in which a computer manages the state of a target external device, for example.

人間によるコンピュータ管理の負荷を軽減するためにコンピュータが自ら管理する仕組み、所謂自律型コンピューティングが実現しつつある。自律型コンピューティングでは、コンピュータは所定の運用指針に基づいて、自律的に自己の障害を修復する(例えば、非特許文献1参照)。この自己管理は、以下のような手順を繰り返すことで実現されている。
(1)先ず、コンピュータシステムを監視してハードウェア、ソフトウェアの挙動をログデータとして集約
(2)集約したものを分析して状況を把握
(3)目的達成のための対策を立てる
(4)計画を実行・制御する
In order to reduce the burden of computer management by humans, so-called autonomous computing is being realized. In autonomous computing, a computer autonomously repairs its own failure based on a predetermined operation guideline (see, for example, Non-Patent Document 1). This self-management is realized by repeating the following procedure.
(1) First, monitor the computer system and aggregate hardware and software behavior as log data. (2) Analyze the aggregated data to understand the situation. (3) Establish measures to achieve the objective. (4) Plan Execute and control

例えば、CPUの利用率を監視し(1)、利用率が急激に高まったときに(2)、他のリソースに負荷分散するという対策を立て(3)、実際に一部の処理を他のマシンに振り分ける(4)という処理をコンピュータが自律的に実行する。   For example, the CPU usage rate is monitored (1), and when the usage rate suddenly increases (2), measures are taken to distribute the load to other resources (3). The computer autonomously executes the process (4) of distributing to machines.

ところで、今日提案されている自律型コンピューティングの技術では上記(1)〜(4)のサイクルで運用されるが、(3)のプランニングの処理は元々人間が設定した運用指針に沿うように仕向けられている。従って、自律型コンピューティングを実装する上で設計者は予想でき得る事象について様々な運用指針を用意しておく。コンピュータは当初設定した運用指針を守って動作し続けることができるかどうかを判断して必要なアクションを起こすようになっている。また、以後本文中の前記自律型コンピューティングを、非特許文献1中のオートノミック・コンピューティング(AC)と同義として説明する。   By the way, the autonomous computing technology proposed today is operated in the above cycles (1) to (4), but the planning process (3) is intended to follow the operation guidelines originally set by humans. It has been. Therefore, when implementing autonomous computing, designers prepare various operational guidelines for events that can be predicted. The computer decides whether it can continue to operate according to the operation guidelines set at the beginning, and takes necessary actions. Hereinafter, the autonomous computing in the text will be described as synonymous with autonomic computing (AC) in Non-Patent Document 1.

「オートノミック・コンピューティングアーキテクチャに関するブループリント」、インターネット<URL:http://www-6.ibm.com/jp/autonomic/pdf/acbp2_2005-06_v7.pdf>“Blueprint on Autonomic Computing Architecture”, Internet <URL: http://www-6.ibm.com/jp/autonomic/pdf/acbp2_2005-06_v7.pdf>

しかしながら、コンピュータシステムでは日常的に発生しうる事象、例えば負荷が高まったりすることは想定しやすいが、システム構成が途中から変更されたり、人為的ミスによる障害など予想しがたい事象が発生することがある。また、現時点で問題が発生していなくとも、将来発生しうる問題の兆候が潜んでいることもある。そもそも、当初設定したポリシーが間違っているということも無いわけではない。   However, in a computer system, it is easy to assume an event that can occur on a daily basis, for example, an increase in load, but the system configuration is changed from the middle, or an unexpected event such as a failure due to human error occurs. There is. Even if no problem has occurred at this time, there may be signs of a problem that may occur in the future. In the first place, it is not without saying that the initially set policy is wrong.

このように、運用指針が適用しづらい事象が発生したり、現時点で異常が表れていないので通常の運用指針に基づいた運用が行われたり、本当は変更した方が良い運用指針が潜在したまま運用を続けると、間違えた運用指針に基づいてコンピュータが自律的制御を行ってしまうなど、オートノミック・コンピューティング本来の目的である"自律的に最適な処理を行うことで、人間が介在せずに変化に対応する"ことが達成できなくなってしまう。   In this way, an event that makes it difficult to apply the operation guideline occurs, or there is no abnormality at the moment, so operation based on the normal operation guideline is performed, or operation with a better operation guideline that is actually better changed is hidden. If you continue, the computer will perform autonomous control based on the wrong operation guidelines, such as "autonomous computing is the original purpose," autonomous optimal processing, changes without human intervention Will not be able to achieve that.

そこで、本発明の目的は、様々な形態で発生する、又は、将来発生しうる事象に対して、最も的確な対策を選択・策定することを可能とすることにある。   Therefore, an object of the present invention is to make it possible to select and formulate the most appropriate countermeasure against events that occur in various forms or may occur in the future.

本発明の性能監視装置は、少なくとも一つの外部装置と通信回線を介して接続される性能監視装置であって、前記外部装置の状態に係る状態情報を取得する取得手段と、前記取得手段により取得される前記状態情報に基づいて、前記外部装置の状態を判定する判定手段と、前記判定手段による判定結果に対応する対策リストを参照し、前記判定手段により判定された前記外部装置の状態及び前記外部装置の運用に係る指針を示すポリシー情報に基づいて、前記対策リストに含まれる少なくとも一つの対策情報夫々による前記外部装置の状態に係るシミュレーション処理を実行するか否かを決定する決定手段と、前記決定手段によりシミュレーションを実行すると決定された場合、前記各対策情報により示される対策の効果をシミュレーションにより評価するシミュレーション手段と、前記シミュレーション手段による前記各対策における効果の評価結果及び前記ポリシー情報に基づいて、前記対策リストから一つの対策情報を決定する対策決定手段とを有することを特徴とする。
本発明の性能監視方法は、少なくとも一つの外部装置と通信回線を介して接続される性能監視装置による性能監視方法であって、前記外部装置の状態に係る状態情報を取得する取得ステップと、前記取得ステップにより取得される前記状態情報に基づいて、前記外部装置の状態を判定する判定ステップと、前記判定ステップによる判定結果に対応する対策リストを参照し、前記判定ステップにより判定された前記外部装置の状態及び前記外部装置の運用に係る指針を示すポリシー情報に基づいて、前記対策リストに含まれる少なくとも一つの対策情報夫々による前記外部装置の状態に係るシミュレーション処理を実行するか否かを決定する決定ステップと、前記決定ステップによりシミュレーションを実行すると決定された場合、前記各対策情報により示される対策の効果をシミュレーションにより評価するシミュレーションステップと、前記シミュレーションステップによる前記各対策における効果の評価結果及び前記ポリシー情報に基づいて、前記対策リストから一つの対策情報を決定する対策決定ステップとを含むことを特徴とする。
本発明のプログラムは、前記性能監視方法をコンピュータに実行させることを特徴とする。
The performance monitoring device of the present invention is a performance monitoring device connected to at least one external device via a communication line, and obtains status information related to the status of the external device, and is obtained by the obtaining device based on the status information, the judging means for judging the state of the external device, the reference to the measures list corresponding to the judgment result by the judging means, the state and the of the external device determined by the determining means Determining means for determining whether or not to execute a simulation process related to the state of the external device by each of at least one countermeasure information included in the countermeasure list , based on policy information indicating a guideline related to the operation of the external apparatus ; If a determination is made to perform the simulation by said determining means, simulating the effect of measures indicated by the respective countermeasure information And simulation means for more evaluation, based on the evaluation result and the policy information of the effect in the respective measures by the simulation means, and having a countermeasure determining unit for determining one of the countermeasure information from the measure list.
The performance monitoring method of the present invention is a performance monitoring method by a performance monitoring device connected to at least one external device via a communication line, and obtains status information related to the status of the external device; and based on the status information acquired by the acquisition step, wherein the state determining step of the external device, wherein the determining step with reference to the measures list corresponding to the determination result by the determination by the determination step that said external device Whether or not to execute the simulation processing related to the state of the external device based on each of the at least one countermeasure information included in the countermeasure list , based on the policy information indicating the status of the external device and the guideline relating to the operation of the external device if the determining step, is determined to perform the simulation by said determining step, each countermeasure A simulation step of evaluating by simulation effect of the measures indicated by broadcast, based on the evaluation result and the policy information of the effect in the respective measures by the simulation step, measures determining step of determining one of the countermeasure information from the measure list It is characterized by including.
The program according to the present invention causes a computer to execute the performance monitoring method.

本発明においては、外部装置の状態情報、又は後述する状態情報により作成したモデルに基づいて、外部装置の現在・将来の状態を分析・診断(判定)し、その判定結果に対応する対策リストに含まれる各対策によるシミュレーション処理を行って、対策リストに含まれる各対策情報に示される対策の効果を評価するように構成している。即ち、本発明は、外部装置が様々な事象の状態に陥っても、その状態に対応する対策リストによるシミュレーションを行って各対策の効果を評価することができる。
従って、本発明によれば、その評価結果に基づいて、様々な形態で発生する外部装置の事象に対して、最も的確な対策を選択・策定することが可能となる。
In the present invention, the current / future status of the external device is analyzed / diagnosed (determined) based on the status information of the external device or a model created by status information described later, and the countermeasure list corresponding to the determination result is displayed. A simulation process is performed by each countermeasure included, and the effect of the countermeasure shown in each countermeasure information included in the countermeasure list is evaluated. That is, according to the present invention, even if the external device falls into various event states, the effect of each measure can be evaluated by performing a simulation using a measure list corresponding to the state.
Therefore, according to the present invention, it is possible to select and formulate the most appropriate countermeasure against the event of the external device that occurs in various forms based on the evaluation result.

先ず、本発明の実施形態について説明する前に、以下の説明で用いる文言の定義を行う。
「ポリシー」とは、後述するオートノミック・コンピューティング環境(以下AC環境とする)の運用に関する指針である。ポリシーの一例としては、「CPU使用率が0〜10%であれば余剰である、CPU使用率が11〜80%であれば正常である、CPU使用率が81%以上であれば過負荷である」、「CPU使用率が過負荷の場合は、シミュレーションを実行して最適な結果を残した対策を選択する」、「システムの応答がない場合は、即座に再起動する」等が挙げられる。
「対策リスト」とは、AC環境内の装置に生じ得る各事象に紐つけられる対策の集合であり、事象と対策とはm:nで対応付けられている。なお、m=nであってもよく、m≠nであってもよい。対策リストの一例としては、「CPU使用率が閾値を超えている」という事象に対して「対策1.CPUを1つ追加、対策2.CPUを2つ追加、対策3.サーバ追加による負荷分散」で構成された対策リスト等が挙げられる。
「モデル」とは、AC環境及び後述する非AC環境から取得する監視データに基づいて、AC環境内の各装置について特徴を抽出したものである。その一例として、AC環境内におけるAPサーバからCPU使用率を示す監視データを取得した場合には、その線形近似式を求めることによってCPU使用率の時系列変化を表す以下のモデルが抽出できる。
f(t)=at+b
f(t):CPU使用率、t:時間、a,b:実値
First, before describing embodiments of the present invention, the terms used in the following description are defined.
The “policy” is a guideline regarding the operation of an autonomic computing environment (hereinafter referred to as an AC environment) described later. As an example of the policy, “If the CPU usage rate is 0 to 10%, it is surplus, normal if the CPU usage rate is 11 to 80%, overload if the CPU usage rate is 81% or more. Yes, “If the CPU usage rate is overloaded, run a simulation to select the countermeasure that left the best results”, “If there is no system response, restart immediately”, etc. .
The “countermeasure list” is a set of countermeasures associated with each event that can occur in the devices in the AC environment, and the event and the countermeasure are associated with each other by m: n. Note that m = n or m ≠ n. An example of the countermeasure list is “Countermeasure 1. Addition of one CPU, Countermeasure 2. Addition of two CPUs, Countermeasure 3. Load distribution by adding servers” for the event “CPU usage exceeds the threshold” ”And other measures list.
The “model” is a characteristic extracted for each device in the AC environment based on monitoring data acquired from the AC environment and a non-AC environment described later. As an example, when monitoring data indicating the CPU usage rate is acquired from an AP server in the AC environment, the following model representing the time series change of the CPU usage rate can be extracted by obtaining the linear approximation formula.
f (t) = at + b
f (t): CPU usage rate, t: time, a, b: actual value

以下、本発明を適用した好適な実施形態を、添付図面を参照しながら詳細に説明する。   DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, preferred embodiments to which the invention is applied will be described in detail with reference to the accompanying drawings.

図1は、本発明の実施形態に係るAC性能監視装置100の機能的な構成を示すブロック図である。図1に示すように、本実施形態に係るAC性能監視装置100は、サーバ類1001、ストレージ類1002及びネットワーク(NW)装置類1003等から構成される情報処理システムであるAC環境、及び、非AC環境とLAN(Local Area Network)等の通信回線で接続され、この通信回線を介して各装置の状態を監視することが可能である。   FIG. 1 is a block diagram showing a functional configuration of an AC performance monitoring apparatus 100 according to an embodiment of the present invention. As shown in FIG. 1, an AC performance monitoring apparatus 100 according to this embodiment includes an AC environment that is an information processing system including servers 1001, storages 1002, network (NW) devices 1003, and the like, and non- The AC environment is connected to a communication line such as a LAN (Local Area Network), and the state of each device can be monitored via this communication line.

なお、AC環境とは、本実施形態におけるオートノミック・コンピューティングの技術を適用する環境であり、図1の例では、サーバ類1001、ストレージ類1002及びネットワーク装置類1003である。これに対し、非AC環境とは、本実施形態におけるオートノミック・コンピューティングの技術の適用外となる環境であり、この非AC環境から取得される監視データはAC環境に対するオートノミック・コンピューティングに利用することも可能である。   The AC environment is an environment to which the autonomic computing technology according to the present embodiment is applied. In the example of FIG. 1, the servers 1001, the storage devices 1002, and the network devices 1003 are used. On the other hand, the non-AC environment is an environment that is not applied to the autonomic computing technology in the present embodiment, and the monitoring data acquired from the non-AC environment is used for autonomic computing for the AC environment. It is also possible.

また、上述したサーバ類1001とは、WebサーバやAPサーバ等の各種サーバのことであり、ストレージ類1002とは、DB等の情報を記録可能な装置類である。ネットワーク装置類1003とは、サーバ類1001及びストレージ類1002の各装置間を接続するLAN等の通信ネットワークである。   The servers 1001 described above are various servers such as a Web server and an AP server, and the storages 1002 are devices capable of recording information such as a DB. The network device 1003 is a communication network such as a LAN that connects the servers 1001 and the storage devices 1002.

モニタ部101は、AC環境及び非AC環境の各装置の状態を示す以下の監視データを取得する。AC環境のWebサーバ、APサーバ及びDBサーバからは、監視データとして、メモリの使用量を示すデータ及びCPUの使用率を示すデータ等のリソース使用状況データ、AC環境の各装置の処理履歴を示すログデータ等を取得する。また、モニタ部101は、AC環境におけるWebサーバ、APサーバ及びDBサーバ間を接続する各通信回線(ネットワーク装置)からは、監視データとして、それらの通信回線で通信されるトランザクションのスループット、処理名等を示すトランザクションデータを取得する。モニタ部101は、取得した監視データを標準的なフォーマットに変換して後述するイベント情報蓄積部102に蓄積する。標準フォーマットへの変換は、必ずしも必要とはならないが、多種多様な情報を効率的に分析・診断(判定)するために行っている。以下では代表的な標準フォーマットであるCBE(Common Base Event)を用いた実施形態のみについて説明するが、処理を行う為の標準化に用いるフォーマットであればCBEに限定する必要が無い事は言うまでも無い。   The monitor unit 101 acquires the following monitoring data indicating the state of each device in the AC environment and the non-AC environment. From the Web server, AP server, and DB server in the AC environment, as the monitoring data, the resource usage status data such as the data indicating the memory usage and the data indicating the CPU usage rate, the processing history of each device in the AC environment Get log data. In addition, the monitor unit 101 receives, as monitoring data from each communication line (network device) connecting the Web server, the AP server, and the DB server in the AC environment, the throughput and processing name of transactions communicated through these communication lines. Get transaction data indicating etc. The monitor unit 101 converts the acquired monitoring data into a standard format and stores it in an event information storage unit 102 described later. The conversion to the standard format is not always necessary, but is performed in order to efficiently analyze and diagnose (determine) a wide variety of information. In the following, only an embodiment using CBE (Common Base Event), which is a typical standard format, will be described, but it is needless to say that the format is not limited to CBE as long as it is a format used for standardization for processing. No.

さらに、モニタ部101は、非AC環境からも監視データを取得する。非AC環境の装置から取得する監視データとしては、例えば、AC環境に対してアクセスを行う非AC環境の装置を監視し、AC装置の各装置に対して行われるアクセス数を監視データとして取得したり、AC環境内の温度を計測する非AC環境内の装置である温度計から温度データを監視データとして取得することが挙げられる。その他にも、AC環境内の装置に対するアクセス数が急激増加することが予測される時期情報を非AC環境内の装置から監視データとして取得することもできる。以下では、AC環境から取得する監視データのみを用いたオートノミック・コンピューティングについて説明するが、これらの非AC環境から取得できる監視データを更に加味することによってより精度の高いオートノミック・コンピューティングを実現することが可能となる。   Furthermore, the monitor unit 101 acquires monitoring data from a non-AC environment. As monitoring data acquired from a non-AC environment device, for example, a non-AC environment device that accesses the AC environment is monitored, and the number of accesses made to each device of the AC device is acquired as monitoring data. Or obtaining temperature data as monitoring data from a thermometer that is a device in a non-AC environment that measures the temperature in the AC environment. In addition, time information for which the number of accesses to devices in the AC environment is predicted to increase rapidly can be acquired as monitoring data from devices in the non-AC environment. In the following, autonomic computing using only monitoring data acquired from the AC environment will be described, but more accurate autonomic computing is realized by further adding monitoring data that can be acquired from these non-AC environments. It becomes possible.

分析部103は、モニタ部101が変換したCBEデータに問題がないかを、知識情報蓄積部104から読み込んだポリシー1041に基づいて分析する。例えば、CBEデータによって示されるCPUの使用率が80%を越えている場合、ポリシー1041に基づいて、CPU使用率が過負荷な状態であるという事象が分析される。ポリシー1041の一例を上記の説明で挙げたが、例えば上記のようにCPU使用率に関して分析する場合、分析対象となるCBEデータが示す数値に一番近いポリシー、「CPUの使用率が閾値の80%を越えたら過負荷な状態である」旨のポリシー1041が知識情報蓄積部104から読み込まれる。   The analysis unit 103 analyzes whether there is a problem in the CBE data converted by the monitor unit 101 based on the policy 1041 read from the knowledge information storage unit 104. For example, when the CPU usage rate indicated by the CBE data exceeds 80%, an event that the CPU usage rate is overloaded is analyzed based on the policy 1041. An example of the policy 1041 has been described in the above description. For example, when analyzing the CPU usage rate as described above, the policy closest to the numerical value indicated by the CBE data to be analyzed is “CPU usage rate is 80% of threshold value”. A policy 1041 is read from the knowledge information accumulating unit 104.

また例えば、分析対象となるCBEデータがメモリの使用量であり、CBEデータが90%を示す場合、この分析対象に一番近いデータに該当するポリシー「メモリに使用率が閾値の85%を越えるとメモリが過度に消費された状態にある」旨のポリシー1041が知識情報蓄積部104から読み込まれ、この場合CBEデータによって示されるメモリの使用率が85%を越えている為、メモリが過度に消費された状態であるという事象が分析される。   Further, for example, when the CBE data to be analyzed is the amount of memory used and the CBE data indicates 90%, the policy corresponding to the data closest to the analysis target “the usage rate in the memory exceeds 85% of the threshold value. "The memory is excessively consumed" is read from the knowledge information storage unit 104. In this case, the memory usage indicated by the CBE data exceeds 85%. The event of being consumed is analyzed.

また例えば、分析対象となるCBEデータがスループットを示すトランザクションデータであり、CBEデータが120トランザクション/秒を示す場合、この分析対象に一番近いデータに該当するポリシー「スループットが100トランザクション/秒未満であればサービスレベルが所定の範囲に収まる、スループットが100トランザクション/秒以上であればサービスレベルが所定の範囲内に収まらない」旨のポリシー1041が読み込まれ、この場合CBEデータによって示されるスループットが100トランザクション/秒を越えている為、システムが過負荷な状態であるという事象が分析される。   Further, for example, when the CBE data to be analyzed is transaction data indicating throughput and the CBE data indicates 120 transactions / second, the policy “throughput is less than 100 transactions / second” corresponding to the data closest to the analysis target. If there is a service level within a predetermined range, a policy 1041 that reads “the service level does not fall within the predetermined range if the throughput is 100 transactions / second or more” is read. In this case, the throughput indicated by the CBE data is 100. The event that the system is overloaded because it exceeds transactions / second is analyzed.

イベント情報蓄積部102は、モニタ部101によって変換されたCBEデータを蓄積する。また、イベント情報蓄積部102は、蓄積したCBEデータに対して定期的に統計処理を行って蓄積するCBEデータ量を削減する。統計処理の例としては、一定期間中に蓄積したCBEデータの最大/最小値を求める方法や、一定期間中に蓄積したCBEデータの平均値を求める方法等が挙げられる。   The event information storage unit 102 stores the CBE data converted by the monitor unit 101. In addition, the event information storage unit 102 periodically performs statistical processing on the stored CBE data to reduce the amount of stored CBE data. Examples of statistical processing include a method for obtaining the maximum / minimum value of CBE data accumulated during a certain period, a method for obtaining an average value of CBE data accumulated during a certain period, and the like.

イベント情報蓄積部102に蓄積される情報としては、上述したリソース使用情報データ、ログデータ及びトランザクションデータ等の他、構成情報が蓄積される。構成情報とは、監視対象としたい情報処理システムの構成を示す情報(例えば、監視対象の情報処理システムは6台のWebサーバと2台のAPサーバと1台のDBサーバから構成される等)、情報処理システムを構成する各装置間がどのように接続され、そして、各装置間を接続するためのネットワークはどれほどの転送レートを持ったものであるかを示す情報、各装置内のハードウェア及びソフトウェアのスペックを示す情報等が含まれる。各ハードウェア及びソフトウェアのスペックとしては、単に購入時のスペックだけでなく、ファームウェアやソフトウェアのバージョン等も登録しておくとよい。なお、蓄積される構成情報は例えばオペレータ等によって入力される方法のみならず、ネットワークを介してAC性能監視装置100が取得して入力するようにしてもよい。   As information stored in the event information storage unit 102, configuration information is stored in addition to the resource usage information data, log data, and transaction data described above. The configuration information is information indicating the configuration of an information processing system to be monitored (for example, the information processing system to be monitored is composed of 6 Web servers, 2 AP servers, and 1 DB server). Information indicating how each device constituting the information processing system is connected, and what transfer rate the network for connecting each device has, hardware in each device And information indicating the specifications of the software. As the specifications of each hardware and software, it is preferable to register not only the specifications at the time of purchase but also the firmware and software versions. The accumulated configuration information may be acquired and input by the AC performance monitoring apparatus 100 via a network as well as a method of being input by an operator, for example.

モデル抽出部105は、イベント情報蓄積部102に蓄積されたCBEデータに基づいて、該当するAC環境の装置のモデル1042を抽出する。例えば、モデル抽出部105はAC環境における或る装置のCPU使用率を示すCBEデータを逐次取得し、それを線形近似することによってCPU使用率の時系列変化を表すモデル1042を抽出することができる。   The model extraction unit 105 extracts a model 1042 of the corresponding AC environment device based on the CBE data stored in the event information storage unit 102. For example, the model extraction unit 105 can sequentially acquire CBE data indicating the CPU usage rate of a certain device in an AC environment, and extract a model 1042 representing a time-series change in the CPU usage rate by linearly approximating the CBE data. .

また、モデル抽出部105はAC環境における或る装置のスループットを示すCBEデータを逐次取得し、それを線形近似することによってスループットの時系列変化を表すモデル1042を抽出することができる。   Further, the model extraction unit 105 can sequentially extract CBE data indicating the throughput of a certain device in an AC environment, and extract a model 1042 representing a time-series change in throughput by linearly approximating the CBE data.

さらに、モデル抽出部105は、上記のように、CPU使用率及びスループットの時系列変化を線形近似したモデル1042を抽出した場合には、それらのモデル1042からCPU使用率とスループットとの相関関係を示すモデル1042を抽出することもできる。このようなモデル1042の抽出方法については後に詳述する。抽出した各モデル1042は、知識情報蓄積部104に蓄積する。   Further, when the model extraction unit 105 extracts the model 1042 that linearly approximates the time series change of the CPU usage rate and the throughput as described above, the model extraction unit 105 calculates the correlation between the CPU usage rate and the throughput from the model 1042. The model 1042 shown can also be extracted. A method for extracting such a model 1042 will be described in detail later. Each extracted model 1042 is stored in the knowledge information storage unit 104.

モデル診断部106は、知識情報蓄積部104に蓄積されるモデル1042と当該モデル1042に該当するポリシー1041とを参照し、ポリシー1041に基づいてモデル1042の診断を行う。   The model diagnosis unit 106 refers to the model 1042 stored in the knowledge information storage unit 104 and the policy 1041 corresponding to the model 1042, and diagnoses the model 1042 based on the policy 1041.

例えば、参照したモデル1042がCPU使用率の時系列変化を表すモデルであれば、当該モデル1042に該当するポリシー1041として、「CPU使用率が0〜10%であれば余剰である、CPU使用率が11〜80%であれば正常である、CPU使用率が81%以上であれば過負荷である」というポリシー1041が参照される。将来の或る時点における予測値が所定の閾値を越えると予測される場合には、CPU使用率に関して将来問題が生じる可能性があるという事象が診断される。   For example, if the referenced model 1042 represents a time-series change in the CPU usage rate, the policy 1041 corresponding to the model 1042 is “a CPU usage rate that is redundant if the CPU usage rate is 0 to 10%. The policy 1041 is referred to as “normal if the CPU is 11 to 80% and overloaded if the CPU usage rate is 81% or more”. If a predicted value at a future time is predicted to exceed a predetermined threshold, an event is diagnosed that a future problem with respect to CPU utilization may occur.

図6を用いて問題の事象がモデル診断部106によって診断される例を具体的に説明する。CPU使用率の時系列変化を表すモデルがfa(x)=αx+βであり、そのモデルに紐付けられるポリシーが「CPU使用率が0〜10%であれば余剰である、CPU使用率が11〜80%であれば正常である、CPU使用率が81%以上であれば過負荷である」である場合、図6に示すように、1カ月後におけるCPU使用率fa(x)の値は80%を越えている。このような場合、モデル診断部106は、1カ月後にはCPU使用率が過負荷の為、問題が生じる可能性があると診断する。 An example in which a problem event is diagnosed by the model diagnosis unit 106 will be described in detail with reference to FIG. The model representing the time-series change in the CPU usage rate is f a (x) = αx + β, and the policy associated with the model is “the CPU usage rate is 11 if the CPU usage rate is 0 to 10%. If it is ˜80%, it is normal, and if the CPU usage rate is 81% or more ”, as shown in FIG. 6, the value of the CPU usage rate f a (x) after one month Is over 80%. In such a case, the model diagnosis unit 106 diagnoses that a problem may occur because the CPU usage rate is overloaded after one month.

また、参照したモデル1042がスループットの時系列変化を表すモデルであれば、当該モデル1042に該当するポリシー1041として、「スループットが100トランザクション/秒以上であればサービスレベルが所定の範囲に収まる、スループットが100トランザクション/秒以上であればサービスレベルが所定の範囲内に収まらない」というポリシー1042が参照される。将来の或る時点における予測値が所定の閾値を越えると予測される場合には、スループットに関して将来問題が生じる可能性があるという事象が診断される。   Further, if the referenced model 1042 represents a time-series change in throughput, the policy 1041 corresponding to the model 1042 is “throughput that the service level falls within a predetermined range if the throughput is 100 transactions / second or more”. If the service level is 100 transactions / second or more, the service level does not fall within a predetermined range. If a predicted value at a future time is predicted to exceed a predetermined threshold, an event is diagnosed that a future problem may occur with respect to throughput.

図7を用いて問題の事象がモデル診断部106によって診断される他の例を具体的に説明すると、処理A及び処理Bのスループットの時系列変化を表すモデルが夫々、fA(x)=α1x+β1、fB(x)=α2x+β2であり、それらのモデルに紐付けられるポリシーが「スループットが100トランザクション/秒未満であればサービスレベルが所定の範囲に収まる、スループットが100トランザクション/秒以上であればサービスレベルが所定の範囲内に収まらない」である場合、図7に示すように、1カ月後における処理AのスループットfA(x)の値は100トランザクション/秒を越えている。このような場合、モデル診断部106は、1カ月後には処理Aのスループットに問題が生じる可能性があると診断する。一方、1カ月後までの処理BのスループットfB(x)の値は100トランザクション/秒を下回っているため、1カ月後までに処理Bのスループットに問題が生じる可能性があると診断されない。 Referring to FIG. 7, another example in which a problem event is diagnosed by the model diagnosis unit 106 will be described in detail. Models representing time-series changes in throughput of the processing A and the processing B are respectively f A (x) = α 1 x + β 1 , f B (x) = α 2 x + β 2 , and the policy associated with these models is “if the throughput is less than 100 transactions / second, the service level falls within a predetermined range, and the throughput is 100 If the service level does not fall within the predetermined range if it is greater than or equal to transactions / second ", as shown in FIG. 7, the value of throughput f A (x) of process A after one month is 100 transactions / second. It is over. In such a case, the model diagnosis unit 106 diagnoses that a problem may occur in the throughput of the process A after one month. On the other hand, since the value of the throughput f B (x) of the process B until one month later is less than 100 transactions / second, it is not diagnosed that there may be a problem in the throughput of the process B by one month later.

さらに、参照したモデル1042がCPU使用率とスループットとの相関関係を示すモデルであれば、当該モデル1042に該当するポリシー1041として、「CPU使用率とスループットとの相関関係が前後1日において誤差10%以内に収めるべきである」というポリシー1041が参照される。将来の或る時点におけるCPU使用率とスループットとの相関関係が所定の均衡を保てていないことが予測される場合には、それらの相関関係に将来問題が生じる可能性があるという事象が分析される。   Further, if the referenced model 1042 is a model indicating the correlation between the CPU usage rate and the throughput, the policy 1041 corresponding to the model 1042 is “the correlation between the CPU usage rate and the throughput has an error 10 Policy 1041 that should be within% "is referenced. If it is predicted that the correlation between CPU usage and throughput at a certain time in the future will not maintain a predetermined balance, analyze the event that these correlations may cause problems in the future Is done.

図8を用いて問題の事象がモデル診断部106によって診断される更に他の例を具体的に説明すると、処理aのCPU使用率とスループットとの相関関係を示すモデルが夫々、fTA(x)=ρ1x+θ1、fTB(x)=ρ2x+θ2であり、fTA(x)は2006/01/01のデータを、fTB(x)は2006/01/02のデータに基づいて作成したモデルである。それらのモデルに紐付けられるポリシーが「CPU使用率とスループットとの相関関係が前後1日において誤差10%以内に収めるべきである」である場合、図8に示すように、fTA(x1)とfTB(x1)の間に10%以上の誤差があれば、CPU使用率とスループットとのバランスが崩れてシステムが異常な状態にあると診断する。 A further example in which a problem event is diagnosed by the model diagnosis unit 106 will be described in detail with reference to FIG. 8. Each model indicating the correlation between the CPU usage rate and the throughput of the process a is f TA (x ) = Ρ 1 x + θ 1 , f TB (x) = ρ 2 x + θ 2 , f TA (x) is based on the data of January 1 , 2006, and f TB (x) is based on the data of 2006/01/02. This is the model created. When the policy associated with these models is “the correlation between the CPU usage rate and the throughput should be within 10% of error in the previous and next day”, as shown in FIG. 8, f TA (x 1 ) And f TB (x 1 ) have an error of 10% or more, the CPU usage rate and the throughput are out of balance, and the system is diagnosed as being in an abnormal state.

計画部107は、分析部103によるCBEデータに対する分析の結果、問題があると分析された事象、又は、モデル診断部106により将来問題が生じる可能性があると診断された事象に紐付けられた対策リスト1043を知識情報蓄積部104から選択し、その対策リスト1043に含まれる各対策によるシミュレーション処理を後述のシミュレーション部108に対して依頼する。   The planning unit 107 is associated with an event analyzed as having a problem as a result of analysis of the CBE data by the analysis unit 103 or an event diagnosed as a future problem by the model diagnosis unit 106. The countermeasure list 1043 is selected from the knowledge information storage unit 104, and a simulation process according to each countermeasure included in the countermeasure list 1043 is requested to the simulation unit 108 described later.

例えば、対象となる事象が「1カ月後におけるCPU使用率が80%を越える」ような事象の場合、その事象に紐付けられる対策リスト1043の例として以下の(1)〜(6)に示すような対策リスト1043が挙げられる。
(1)CPUを1つ追加
(2)CPUを2つ追加
(3)サーバ追加による負荷分散(処理分散パターンA)
(4)サーバ追加による負荷分散(処理分散パターンB)
(5)サーバ追加による負荷分散(処理分散パターンC)
(6)サーバ追加による負荷分散(処理分散パターンD)
For example, when the target event is an event such that “the CPU usage rate after one month exceeds 80%”, the following (1) to (6) are shown as examples of the countermeasure list 1043 linked to the event. Such a countermeasure list 1043 is exemplified.
(1) Add one CPU (2) Add two CPUs (3) Load distribution by adding servers (processing distribution pattern A)
(4) Load distribution by adding servers (processing distribution pattern B)
(5) Load distribution by adding servers (processing distribution pattern C)
(6) Load distribution by adding servers (processing distribution pattern D)

なお、図5(a)に示すように、処理分散パターンAとは、本来、2種類の処理Aと処理Bとを1つのサーバで処理していたが、そのサーバと追加したサーバとで処理Aと処理Bとを一つずつ分散させて処理させる処理分散パターンである。   As shown in FIG. 5 (a), the process distribution pattern A is originally a process in which two types of processes A and B are processed by one server, but the process is performed by the server and the added server. This is a processing distribution pattern in which A and processing B are distributed one by one.

処理分散パターンBとは、図5(b)に示すように、本来、2種類の処理Aと処理Bとを1つのサーバで処理していたが、そのサーバには同様に処理Aと処理Bとを実行させるとともに、追加サーバにも処理Aを実行させ、元々処理させていたサーバの処理Aに関する処理負担を軽減する処理分散パターンである。   As shown in FIG. 5B, the process distribution pattern B is originally a process where two types of processes A and B are processed by a single server. The processing distribution pattern reduces the processing burden on the processing A of the server that was originally processed by causing the additional server to execute processing A.

処理分散パターンCとは、図5(c)に示すように、本来、2種類の処理Aと処理Bとを1つのサーバで処理していたが、そのサーバには同様に処理Aと処理Bとを実行させるとともに、追加サーバにも処理Bを実行させ、元々処理させていたサーバの処理Bに関する処理負担を軽減する処理分散パターンである。   As shown in FIG. 5C, the process distribution pattern C originally has two types of processes A and B processed by a single server, but the servers A and B are similarly processed. And the additional server execute the process B to reduce the processing load related to the process B of the server that was originally processed.

処理分散パターンDとは、図5(d)に示すように、本来、2種類の処理Aと処理Bとを1つのサーバで処理していたが、そのサーバには同様に処理Aと処理Bとを実行させるとともに、追加サーバにも処理Aと処理Bとの両方を実行させ、元々処理させていたサーバの処理A及び処理Bに関する処理負担を軽減する処理分散パターンである。   As shown in FIG. 5 (d), the process distribution pattern D is originally a process where two types of processes A and B are processed by one server. The processing distribution pattern reduces the processing load related to processing A and processing B of the server that was originally processed by causing the additional server to execute both processing A and processing B.

シミュレーション部108は、計画部107によって選択された対策リスト1043を知識情報蓄積部104から参照し、その対策リスト1043によるシミュレーション処理を実行する。   The simulation unit 108 refers to the countermeasure list 1043 selected by the planning unit 107 from the knowledge information storage unit 104, and executes a simulation process using the countermeasure list 1043.

なお、シミュレーション部108は、装置(又は、複数の装置から成るシステム)の構成変更の効果を定量化するためのシミュレータと呼ばれるツールによって構成することができる。シミュレータは、装置(又はシステム)構成や処理の特徴が入力されることによって性能値を予測することができる。ここで、装置(又はシステム)構成として入力される情報としては、例えば、サーバ数、CPU数等が挙げられる。処理の特徴として入力される情報としては、例えば、各処理のCPUにおける処理時間、各処理の発生頻度等が挙げられる。性能値として予測される情報としては、CPU使用率、各処理に対する応答時間等が挙げられる。これらの入力データは、知識情報蓄積部104から読み出したモデルに基づいて算出して得られる情報であるため、モデルをパラメータとしてシミュレータに与えてもよい。   The simulation unit 108 can be configured by a tool called a simulator for quantifying the effect of the configuration change of a device (or a system composed of a plurality of devices). The simulator can predict the performance value by inputting the device (or system) configuration and processing characteristics. Here, examples of information input as the apparatus (or system) configuration include the number of servers, the number of CPUs, and the like. Examples of information input as a feature of the process include a processing time in the CPU of each process, an occurrence frequency of each process, and the like. Information predicted as the performance value includes a CPU usage rate, a response time for each process, and the like. Since these input data are information obtained by calculation based on the model read from the knowledge information storage unit 104, the model may be given to the simulator as a parameter.

例えば、対象となる事象が上述した「1カ月後におけるCPU使用率が80%を越える」ような事象の場合、上記の(1)〜(6)の対策を含む対策リスト1043についてシミュレーション処理が実行され、以下のように各対策を実施した際の効果が定量化される。
対策(1)の結果:CPU使用率85%
対策(2)の結果:CPU使用率なし(実現不可能な構成と判断されたため)
対策(3)の結果:CPU使用率40%
対策(4)の結果:CPU使用率55%
対策(5)の結果:CPU使用率55%
対策(6)の結果:CPU使用率65%
For example, when the target event is the above-mentioned event “the CPU usage rate after one month exceeds 80%”, the simulation process is executed for the countermeasure list 1043 including the countermeasures (1) to (6) above. The effects of implementing each measure are quantified as follows.
Result of measure (1): CPU usage rate 85%
Result of measure (2): No CPU usage rate (because it was determined that the configuration was not feasible)
Result of measure (3): CPU usage rate 40%
Result of measure (4): CPU usage rate 55%
Result of measure (5): CPU usage rate 55%
Result of measure (6): CPU usage rate 65%

また、対象となる事象が、例えば分析部103によって現在のCPU使用率が既に80%を越えていると分析されたような事象であれば、同じく、その事象に対応する対策リスト1043が参照され、シミュレーション処理によって当該対策リスト1043内の対策毎に効果が定量化されることになる。   Also, if the target event is an event that has been analyzed by the analysis unit 103, for example, that the current CPU usage rate has already exceeded 80%, the countermeasure list 1043 corresponding to the event is also referred to. The effect is quantified for each countermeasure in the countermeasure list 1043 by the simulation process.

計画部107は、当該事象に該当するポリシー1041を知識情報蓄積部104から参照し、シミュレーション部108によるシミュレーション処理の評価結果のうちポリシー1041を満たす結果を導いた対策を決定する。例えば、当該事象に該当するポリシー1041が「CPU使用率が過負荷の場合は、シミュレーションを実行して最適な結果を残した対策を選択する」というポリシー1041であれば、上記の例の場合、対策(3)が決定されることになる。計画部107は、このように対策を決定すると、例えば、対策(3)を1週間後に実行する等、対策の実行をスケジューリングする。   The planning unit 107 refers to the policy 1041 corresponding to the event from the knowledge information storage unit 104 and determines a measure that has led to a result satisfying the policy 1041 among the evaluation results of the simulation processing performed by the simulation unit 108. For example, if the policy 1041 corresponding to the event is the policy 1041 “if the CPU usage rate is overloaded, select a countermeasure that performs simulation and leaves an optimal result”. Countermeasure (3) will be determined. When the planning unit 107 determines the countermeasure in this way, for example, the planning unit 107 schedules the execution of the countermeasure, such as executing the countermeasure (3) after one week.

計画実行部109は、計画部107によって作成されたスケジュールに従って対策を実行する。   The plan execution unit 109 executes countermeasures according to the schedule created by the planning unit 107.

対策探索部110は、シミュレーション部108によるシミュレーション処理の全ての結果が、当該事象に該当するポリシー1041を満たさない場合、知識情報蓄積部104に蓄積される対策のうち当該事象に紐付けられていない対策を選択し、選択された対策によるシミュレーション処理をシミュレーション部108に対して依頼する。シミュレーション部108は、選択された対策を知識情報蓄積部104から参照し、各対策についてシミュレーション処理を実行し、各対策を実施した際の効果を定量化する。   If all the results of the simulation processing by the simulation unit 108 do not satisfy the policy 1041 corresponding to the event, the measure search unit 110 is not linked to the event among the measures stored in the knowledge information storage unit 104. A measure is selected, and a simulation process according to the selected measure is requested to the simulation unit 108. The simulation unit 108 refers to the selected countermeasure from the knowledge information storage unit 104, executes simulation processing for each countermeasure, and quantifies the effect when each countermeasure is implemented.

対策探索部110は、このように当該事象に紐付けられていない対策に対するシミュレーション処理の結果のうち、上記ポリシー1041を満たす結果を導いた対策が存在する場合、知識情報蓄積部104内においてその対策を当該事象に紐付けられた対策リスト1043に追加させるとともに、上記ポリシー1041を満たす結果に対応する対策を計画部107に渡す。   In the case where there is a countermeasure that leads to a result satisfying the policy 1041 among the results of the simulation processing for the countermeasure not associated with the event, the countermeasure search unit 110 performs the countermeasure in the knowledge information storage unit 104. Is added to the countermeasure list 1043 associated with the event, and a countermeasure corresponding to the result satisfying the policy 1041 is passed to the planning unit 107.

このように対策探索部110によってポリシーを満たす対策が発見され、対策探索部110によって当該対策が渡された場合、計画部107は、同様に当該対策の実行をスケジューリングする。   In this way, when the countermeasure search unit 110 finds a countermeasure that satisfies the policy and the countermeasure search section 110 passes the countermeasure, the planning unit 107 similarly schedules the execution of the countermeasure.

図2は、AC性能監視装置100のハードウェア構成を示すブロック図である。CPU201は、システムバスに接続される各デバイスやコントローラを統括的に制御する。ROM203又はHD207には、CPU201の制御プログラムであるBIOS(Basic Input/Output System)やオペレーティングシステムプログラムや、AC性能監視装置100が実行する例えば図3−1及び図3−2に示す処理のプログラム等が記憶されている。   FIG. 2 is a block diagram illustrating a hardware configuration of the AC performance monitoring apparatus 100. The CPU 201 comprehensively controls each device and controller connected to the system bus. The ROM 203 or the HD 207 has a BIOS (Basic Input / Output System) or an operating system program that is a control program of the CPU 201, a program for the processing shown in FIG. 3A and FIG. Is remembered.

なお、図2の例では、ハードディスク(HD)207はAC性能監視装置100の内部に配置された構成としているが、他の実施形態としてHD207に相当する構成がAC性能監視装置外部に配置された構成としてもよい。また、本実施形態に係る例えば図3−1及び図3−2に示す処理を行なうためのプログラムは、フレキシブルディスク(FD)206やCD−ROM等、コンピュータ読み取り可能な記録媒体に記録され、それらの記録媒体から供給される構成としてもよいし、インターネット等の通信媒体を介して供給される構成としてもよい。   In the example of FIG. 2, the hard disk (HD) 207 is configured to be arranged inside the AC performance monitoring apparatus 100. However, as another embodiment, a configuration corresponding to the HD 207 is arranged outside the AC performance monitoring apparatus. It is good also as a structure. Also, for example, the program for performing the processing shown in FIGS. 3A and 3B according to the present embodiment is recorded on a computer-readable recording medium such as a flexible disk (FD) 206 or a CD-ROM. The recording medium may be supplied from a recording medium, or may be supplied via a communication medium such as the Internet.

RAM202は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をRAM202にロードして、プログラムを実行することで各種動作を実現するものである。   The RAM 202 functions as a main memory, work area, and the like for the CPU 201. The CPU 201 implements various operations by loading a program necessary for execution of processing into the RAM 202 and executing the program.

ディスクコントローラ205は、HD207やFD206等の外部メモリへのアクセスを制御する。通信IFコントローラ204は、インターネットやLANと接続し、例えばTCP/IPによって外部との通信を制御するものである。   The disk controller 205 controls access to external memories such as the HD 207 and the FD 206. The communication IF controller 204 is connected to the Internet or a LAN, and controls communication with the outside by, for example, TCP / IP.

ディスプレイコントローラ208は、ディスプレイ209における画像表示を制御する。   The display controller 208 controls image display on the display 209.

KB(キーボード)コントローラ210は、キーボード(KB)211からの操作入力を受け付け、CPU201に対して送信する。なお、図示していないが、キーボード211の他に、マウス等のポインティングデバイスもユーザの操作手段として本実施形態に係るAC性能監視装置100に適用可能である。   The KB (keyboard) controller 210 receives an operation input from the keyboard (KB) 211 and transmits it to the CPU 201. Although not shown, in addition to the keyboard 211, a pointing device such as a mouse can also be applied to the AC performance monitoring apparatus 100 according to the present embodiment as a user operation means.

モニタ部101、分析部103、モデル抽出部105、モデル診断部106、計画部107、シミュレーション部108、計画実行部107及び対策探索部110は、例えばHD207内に記憶され、必要に応じてRAM202にロードされるプログラム及びそれを実行するCPU201に相当する構成である。   The monitor unit 101, the analysis unit 103, the model extraction unit 105, the model diagnosis unit 106, the planning unit 107, the simulation unit 108, the plan execution unit 107, and the countermeasure search unit 110 are stored in the HD 207, for example, and stored in the RAM 202 as necessary. The configuration corresponds to the program to be loaded and the CPU 201 that executes the program.

また、知識情報蓄積部104及びイベント情報蓄積部102は、例えばHD207又はRAM202内の一部記憶領域に相当する構成である。なお、知識情報蓄積部104及びイベント情報蓄積部102は、AC性能監視装置100内部に備える構成の他、外部に備えた構成としてもよい。   The knowledge information storage unit 104 and the event information storage unit 102 have a configuration corresponding to a partial storage area in the HD 207 or the RAM 202, for example. The knowledge information storage unit 104 and the event information storage unit 102 may be configured externally in addition to the configuration provided inside the AC performance monitoring apparatus 100.

次に、本実施形態に係るAC性能監視装置100の動作を、図3−1、図3−2、図10及び図11のフローチャートを参照しながら説明する。   Next, the operation of the AC performance monitoring apparatus 100 according to the present embodiment will be described with reference to the flowcharts of FIGS. 3-1, 3-2, 10 and 11.

先ず、図10を用いてモニタ部101による監視データの取得処理からイベント情報蓄積部102へのCBEデータの蓄積処理について説明する。図10において、モニタ部101は、AC環境及び非AC環境の各装置から監視データを取得し、取得した監視データをCBEデータに変換する(ステップS1001、S1002)。次に、モニタ部101は、当該CBEデータをイベント情報蓄積部102に蓄積させる(ステップS1003)。このようにモニタ部101は、ステップS1001〜ステップS1003の処理を繰り返し実行してCBEデータをイベント情報蓄積部102に対して蓄積していく。なお、イベント情報蓄積部102内では、例えば所定期間毎に、蓄積されるCBEデータの最大/最小値や平均値等を算出し、その値のみを保持するようにすることで蓄積するデータ量の削減が図られる。   First, a process for accumulating CBE data in the event information accumulation unit 102 from an acquisition process for monitoring data by the monitor unit 101 will be described with reference to FIG. In FIG. 10, the monitor unit 101 acquires monitoring data from each device in the AC environment and the non-AC environment, and converts the acquired monitoring data into CBE data (steps S1001 and S1002). Next, the monitor unit 101 stores the CBE data in the event information storage unit 102 (step S1003). In this way, the monitor unit 101 repeatedly executes the processing of steps S1001 to S1003 and accumulates CBE data in the event information accumulation unit 102. In the event information storage unit 102, for example, the maximum / minimum value or average value of the stored CBE data is calculated every predetermined period, and the data amount to be stored is stored by holding only that value. Reduction is planned.

次に、図3−1及び図3−2を用いて、イベント情報蓄積部102に蓄積されたCBEデータに基づくモデルによってAC環境の診断処理を行い、診断結果に問題がある場合には対策を実行するまでの処理について説明する。図3−1において、モデル抽出部105は、AC環境及び非AC環境の各装置に対応するCBEデータをイベント情報蓄積部102から取得し、モデル1042を抽出する(ステップS301、S302)。   Next, using FIG. 3A and FIG. 3B, AC environment diagnosis processing is performed using a model based on the CBE data stored in the event information storage unit 102. Processing until execution will be described. 3A, the model extraction unit 105 acquires CBE data corresponding to each device in the AC environment and the non-AC environment from the event information storage unit 102, and extracts a model 1042 (steps S301 and S302).

ここで、モデル1042の抽出方法を、図4を参照しながら具体的に説明する。
先ず、図4(a)において、前回モデル1042を抽出した時点(時間2)から所定時間が経過し、モデル抽出部105は、時間1及び時間2の監視データとともに、新たに時間3の監視データを今回取得する。ここで取得する監視データは、図4(a)に示すように、CPU使用率を示す監視データとスループットを示す監視データとであるものとする。
Here, a method of extracting the model 1042 will be specifically described with reference to FIG.
First, in FIG. 4A, a predetermined time has elapsed from the time (time 2) when the previous model 1042 was extracted, and the model extraction unit 105 newly adds monitoring data for time 3 together with monitoring data for time 1 and time 2. Get this time. As shown in FIG. 4A, the monitoring data acquired here is monitoring data indicating the CPU usage rate and monitoring data indicating the throughput.

次に、モデル抽出部105は、時間に対するCPUの使用率の関係を表す座標系において、時間1〜時間3の監視データをプロットし、プロットした各監視データの線形近似式(fa(x)=αx+β)を求めることによって、CPU使用率の時系的変化を表すモデル1042を抽出する。モデル抽出部105は、抽出したモデル1042を知識情報蓄積部104に対して蓄積する。 Next, the model extraction unit 105 plots the monitoring data from time 1 to time 3 in a coordinate system representing the relationship of the CPU usage rate with respect to time, and linear approximation formula (f a (x)) for each plotted monitoring data. = Αx + β) is extracted to extract a model 1042 representing a temporal change in the CPU usage rate. The model extraction unit 105 stores the extracted model 1042 in the knowledge information storage unit 104.

また、モデル抽出部105は、図4(b)に示すように、時間に対するスループットの関係を表す座標系において、処理A及び処理B夫々に関するスループットを示す時間1〜時間3の監視データをプロットし、処理Aと処理Bとの夫々について各監視データの線形近似式(fA(x)=α1x+β1、fB(x)=α2x+β2)を求めることによって、スループットの時系的変化を表すモデル1042を抽出する。モデル抽出部105は、抽出したモデル1042を知識情報蓄積部104に対して蓄積する。 Further, as shown in FIG. 4B, the model extraction unit 105 plots monitoring data from time 1 to time 3 indicating the throughput for each of the processing A and the processing B in the coordinate system representing the relationship of the throughput with respect to time. For each of the processing A and the processing B, a linear approximation expression (f A (x) = α 1 x + β 1 , f B (x) = α 2 x + β 2 ) of each monitoring data is obtained, so that the time series of the throughput is obtained. A model 1042 representing a change is extracted. The model extraction unit 105 stores the extracted model 1042 in the knowledge information storage unit 104.

次に、モデル抽出部105は、これらの2つのモデル1042に対して相関分析及び多変量解析を行うことで、図4(c)に示すように、処理Aと処理Bとの夫々について、CPU使用率とスループットとの相関を表す線形近似式(fTA(x)=ρ1x+θ1、fTB(x)=ρ2x+θ2)を求め、CPU使用率とスループットとの相関を示すモデル1042を抽出する(ステップS303)。モデル抽出部105は、抽出したモデル1042を知識情報蓄積部104に対して蓄積する。 Next, the model extraction unit 105 performs correlation analysis and multivariate analysis on these two models 1042, and as shown in FIG. A model 1042 that obtains a linear approximation expression (f TA (x) = ρ 1 x + θ 1 , f TB (x) = ρ 2 x + θ 2 ) representing the correlation between the usage rate and the throughput and indicates the correlation between the CPU usage rate and the throughput. Is extracted (step S303). The model extraction unit 105 stores the extracted model 1042 in the knowledge information storage unit 104.

続いて、モデル診断部106は、知識情報蓄積部104に蓄積される複数のモデル1042と各モデル1042に該当するポリシー1041を夫々参照し、各モデル1042に対して該当するポリシー1041に基づく診断を実行する(ステップS304)。例えば、CPU使用率の時系列変化を表すモデル1042に対しては、「CPU使用率が0〜10%であれば余剰である、CPU使用率が11〜80%であれば正常である、CPU使用率が81%以上であれば過負荷である」というポリシー1041が適用される。そして、今回抽出したモデル1042から将来のCPU使用率を予測することもできる。今回抽出したモデル1042の傾向でCPU使用率が増加していき、例えば1カ月後のCPU使用率が80%を越えることが予測される場合には、CPU使用率に将来(1カ月後)に問題が生じる可能性があると診断する。   Subsequently, the model diagnosis unit 106 refers to each of the plurality of models 1042 stored in the knowledge information storage unit 104 and the policy 1041 corresponding to each model 1042, and performs diagnosis based on the corresponding policy 1041 for each model 1042. Execute (Step S304). For example, for the model 1042 representing the time series change of the CPU usage rate, “CPU usage rate is 0 to 10% is surplus, and CPU usage rate is 11 to 80%, normal. A policy 1041 is applied that indicates that the usage rate is 81% or more, an overload occurs. The future CPU usage rate can be predicted from the model 1042 extracted this time. The CPU usage rate is increasing due to the trend of the model 1042 extracted this time. For example, when the CPU usage rate after one month is predicted to exceed 80%, the CPU usage rate is set to the future (after one month). Diagnose a potential problem.

また、例えば、スループットの時系列変化を表すモデル1042に対しては、「スループットが100トランザクション/秒以上であればサービスレベルが所定の範囲に収まる、スループットが100トランザクション/秒以上であればサービスレベルが所定の範囲内に収まらない」というポリシー1041が適用される。同じく今回抽出したモデル1042からスループットを予測することもできる。今回抽出したモデル1042の傾向でスループットが増加していき、例えば3週間後にスループットが100トランザクション/秒を越えることが予測される場合には、スループットに将来(3週間後)に問題が生じる可能性があると診断する。   Further, for example, for the model 1042 representing a time-series change in throughput, the service level is within a predetermined range if the throughput is 100 transactions / second or more, and the service level if the throughput is 100 transactions / second or more. Is not within the predetermined range ”policy 1041 is applied. Similarly, the throughput can be predicted from the model 1042 extracted this time. Throughput increases due to the trend of the model 1042 extracted this time. For example, if it is predicted that the throughput will exceed 100 transactions / second after 3 weeks, there is a possibility that problems will occur in the future (after 3 weeks). Diagnose that there is.

また、例えば、CPU使用率とスループットとの相関を表すモデル1042に対しては、「CPU使用率とスループットとの相関関係が前後1日において誤差10%以内に収めるべきである」というポリシー1041が適用される。このモデル1042からはCPU使用率に対するスループットの傾向を判定することができるため、例えば、上記ポリシー1401に基づきCPU使用率に対してスループットが1年前と比較して10%以上低い(又は、高い)と判定される場合には、問題があると診断される。   Further, for example, for the model 1042 representing the correlation between the CPU usage rate and the throughput, the policy 1041 that “the correlation between the CPU usage rate and the throughput should be within 10% error in the preceding and following day” is provided. Applied. Since the model 1042 can determine the tendency of the throughput with respect to the CPU usage rate, for example, based on the policy 1401, the throughput is 10% or more lower (or higher) than the previous year with respect to the CPU usage rate. ), It is diagnosed that there is a problem.

なお、ここでは、CPU使用率の時系的変化を示すモデル1042とスループットの時系的変化を示すモデル1042とを抽出した後、CPU使用率とスループットとの相関を示すモデル1042を抽出する流れのみについて説明しているが、CPU使用率の時系列変化を示すモデル1042、スループットの時系的変化を示すモデル1042、CPU使用率とスループットとの相関を示すモデル1042の抽出処理は夫々独立して行なうことができる。つまり、本実施形態におけるモデル抽出処理は、図3−1に示す流れには限られず、それぞれのモデルの抽出処理は任意のタイミングで行なわれる。また、CPU使用率の時系列変化を示すモデル1042、スループットの時系的変化を示すモデル1042及びCPU使用率とスループットとの相関を示すモデル1042の全てを抽出せずに、そのうちの一部のモデルを抽出することもできる。即ち、CPU使用率とスループットとの相関を示すモデル1042は抽出せずにCPU使用率の時系列変化を示すモデル1042及びスループットの時系的変化を示すモデル1042の2つのモデルだけを抽出することもできるし、CPU使用率の時系列変化を示すモデル1042とスループットの時系的変化を示すモデル1042との何れか一方の1つのモデルのみを抽出することもできる。   Here, after extracting the model 1042 indicating the temporal change of the CPU usage rate and the model 1042 indicating the temporal change of the throughput, the flow of extracting the model 1042 indicating the correlation between the CPU usage rate and the throughput is extracted. However, the model 1042 showing the time series change of the CPU usage rate, the model 1042 showing the time series change of the throughput, and the model 1042 showing the correlation between the CPU usage rate and the throughput are independent of each other. Can be done. That is, the model extraction process in the present embodiment is not limited to the flow shown in FIG. 3A, and each model extraction process is performed at an arbitrary timing. Further, without extracting all of the model 1042 indicating the time series change of the CPU usage rate, the model 1042 indicating the time-based change of the throughput, and the model 1042 indicating the correlation between the CPU usage rate and the throughput, a part of them is extracted. A model can also be extracted. That is, without extracting the model 1042 indicating the correlation between the CPU usage rate and the throughput, only the two models, that is, the model 1042 indicating the time series change in the CPU usage rate and the model 1042 indicating the time series change in the throughput are extracted. It is also possible to extract only one of the model 1042 indicating the time-series change in the CPU usage rate and the model 1042 indicating the time-series change in the throughput.

続いて、計画部107は、モデル診断部106によりモデル1042に問題があると診断された場合、知識情報蓄積部104においてその問題の事象に紐付けられる対策リスト1043を選択する(ステップS305/YES、S306)。例えば、対象となる事象が1カ月後におけるCPU使用率が80%を超過するという事象の場合、上述した(1)〜(6)の対策を含む対策リスト1043が選択されることになる。   Subsequently, when the model diagnosis unit 106 diagnoses that the model 1042 has a problem, the planning unit 107 selects a countermeasure list 1043 associated with the problem event in the knowledge information storage unit 104 (step S305 / YES). , S306). For example, when the target event is an event in which the CPU usage rate after one month exceeds 80%, the countermeasure list 1043 including the countermeasures (1) to (6) described above is selected.

ここで、計画部107は、当該ポリシー1041に基づいてシミュレーション部108にシミュレーション処理を依頼するか否かを判断する(ステップS307)。例えば、当該ポリシー1041が「システムの応答がない場合は、即座に再起動する」である場合には、シミュレーション部108に対してシミュレーション処理を依頼せず、即座に対策の実行をスケジューリングする(ステップS307/NO、S312)。また、対象となる事象が緊急の対処を要するものであるとして予めポリシー1041において定められている場合には、その問題がある事象の内容と当該事象に紐付けられている対策リスト1043をユーザに対して報知してもよい。これによって、ユーザは報知された対策リスト1043のうちから所望の対策を選択し、対策の実行を行うことができる。   Here, the planning unit 107 determines whether to request a simulation process from the simulation unit 108 based on the policy 1041 (step S307). For example, if the policy 1041 is “restart immediately if there is no system response”, the simulation unit 108 is not requested to perform a simulation process, and the execution of countermeasures is immediately scheduled (step S307 / NO, S312). If the target event is determined in advance in the policy 1041 as requiring an urgent action, the contents of the event having the problem and the countermeasure list 1043 associated with the event are displayed to the user. You may alert | report. As a result, the user can select a desired countermeasure from the notified countermeasure list 1043 and execute the countermeasure.

一方、例えば、当該ポリシー1041が「CPU使用率が過負荷の場合は、シミュレーションを実行して最適な結果を残した対策を選択する」である場合、計画部107は、対策リスト1043に含まれる各対策のシミュレーション処理をシミュレーション部108に対して依頼する(ステップS307/YES、S308)。シミュレーション部108は、計画部107によって選択された対策リスト1043を参照し、その対策リスト1043に含まれる各対策のシミュレーション処理を実行する(ステップS309)。   On the other hand, for example, when the policy 1041 is “if the CPU usage rate is overloaded, a simulation is executed to select a countermeasure that leaves an optimal result”, the planning unit 107 is included in the countermeasure list 1043. A simulation process for each countermeasure is requested to the simulation unit 108 (steps S307 / YES, S308). The simulation unit 108 refers to the countermeasure list 1043 selected by the planning unit 107, and executes a simulation process for each countermeasure included in the countermeasure list 1043 (step S309).

続いて、計画部107は、当該事象に該当するポリシー1041を知識情報蓄積部104から参照し、シミュレーション部108によるシミュレーション処理の結果のうち、参照したポリシー1041を満たす結果を導いた対策が存在するか否かを判定する(ステップS310)。   Subsequently, the planning unit 107 refers to the policy 1041 corresponding to the event from the knowledge information storage unit 104, and there is a countermeasure that has led to a result satisfying the referenced policy 1041 among the simulation processing results by the simulation unit 108. It is determined whether or not (step S310).

ポリシー1041を満たす結果を導いた対策が一つのみ存在する場合、計画部107は、その対策の実行を決定し、当該対策の実行をスケジューリングする(ステップS310/YES、S311、S312)。また、ポリシー1041を満たす結果を導いた対策が複数存在する場合には、計画部107は、ポリシー1041「CPU使用率が過負荷の場合は、シミュレーションを実行して最適な結果を残した対策を選択する」に基づいてその複数の対策のうち最適な結果を導いた対策の実行を決定し、当該対策の実行をスケジューリングする(ステップS310/YES、S311、S312)。   When there is only one countermeasure that has led to the result satisfying the policy 1041, the planning unit 107 determines the execution of the countermeasure and schedules the execution of the countermeasure (steps S310 / YES, S311, and S312). In addition, when there are a plurality of countermeasures that have led to a result satisfying the policy 1041, the planning unit 107 executes a policy 1041 “if the CPU usage rate is overloaded, execute a simulation and perform a countermeasure that leaves an optimal result. Based on “select”, the execution of the countermeasure that has led to the optimum result among the plurality of countermeasures is determined, and the execution of the countermeasure is scheduled (steps S310 / YES, S311, and S312).

計画実行部109は、計画部107によって作成されたスケジュールに従って対策を実行する(ステップS313)。計画部107によって例えば「1カ月後に1つCPUを追加する」という対策のスケジュールが作成された場合、計画実行部109は、計画部107によって上記計画が作成された日から1カ月後に対象となるAC環境の装置に対してCPUを1つ追加するように制御する。   The plan execution unit 109 executes countermeasures according to the schedule created by the planning unit 107 (step S313). For example, when the planning unit 107 creates a countermeasure schedule “add one CPU after one month”, the plan execution unit 109 becomes a target one month after the date when the plan is created by the planning unit 107. Control is performed so that one CPU is added to an AC environment device.

一方、シミュレーション部108によるシミュレーション処理の結果のうち、ポリシー1041を満たす結果を導いた対策が存在しないと判定された場合(当該事象に紐つけられる対策リスト1043にポリシー1041を満たす結果を導く対策が含まれない場合)、対策探索部110は、当該対策リスト1043以外の対策を知識情報蓄積部104から参照し、参照した対策に対するシミュレーション処理をシミュレーション処理部108に順次依頼する(ステップS310/NO、S314)。   On the other hand, when it is determined that there is no countermeasure that led to the result satisfying the policy 1041 among the results of the simulation processing by the simulation unit 108 (the countermeasure that leads the result satisfying the policy 1041 to the countermeasure list 1043 associated with the event). If not included, the measure search unit 110 refers to measures other than the measure list 1043 from the knowledge information storage unit 104, and sequentially requests the simulation processing unit 108 to perform simulation processing for the referenced measures (step S310 / NO, S314).

シミュレーション処理部108は、対策探索部110によって依頼された対策のシミュレーション処理を実行する(ステップS315)。   The simulation processing unit 108 executes a simulation process for the countermeasure requested by the countermeasure searching unit 110 (step S315).

続いて、対策探索部110は、当該対策リスト1043以外の対策の全てについてのシミュレーション処理を依頼すると、シミュレーション部108による各対策に対するシミュレーション処理の結果と上記ポリシー1041とを照らし合わせ、ポリシー1041を満たす結果を導いた対策が存在するか否かを判断する(ステップS316/NO、S317)。なお、本実施形態では、対策探索部110は、知識情報蓄積部104内に蓄積される上記対策リスト以外の対策全てを探索する全探索手法を用いているが、他の実施形態として、上記対策リスト以外の対策をランダムに探索するランダム探索手法や一定のポリシー(条件)を満たす対策が発見された時点で探索を止める最適化方法論等を利用することもできる。   Subsequently, when the countermeasure search unit 110 requests a simulation process for all the countermeasures other than the countermeasure list 1043, the countermeasure search unit 110 compares the result of the simulation process for each countermeasure by the simulation unit 108 with the policy 1041, and satisfies the policy 1041. It is determined whether there is a countermeasure that has led to the result (steps S316 / NO, S317). In the present embodiment, the countermeasure search unit 110 uses a full search method for searching all countermeasures other than the countermeasure list stored in the knowledge information storage unit 104. However, as another embodiment, the countermeasure search unit 110 It is also possible to use a random search method for randomly searching for measures other than the list, an optimization methodology for stopping the search when a measure satisfying a certain policy (condition) is found, or the like.

ポリシー1041を満たす結果を導いた対策が一つのみ存在する場合、対策探索部110は、その対策の実行を決定し、当該対策の実行のスケジューリングを計画部107に対して依頼する(ステップS317/YES、S318)。また、ポリシー1041を満たす結果を導いた対策が複数存在する場合、対策探索部110は、その複数の対策のうち最適な結果を導いた対策の実行を決定し、当該探索の実行のスケジューリングを計画部107に対して依頼する(ステップS317/YES、S318)。一方、ポリシー1041を満たす結果を導いた対策が存在しない場合(ステップS317/NO)、ステップS301の処理に戻る。   When there is only one countermeasure that has led to the result satisfying the policy 1041, the countermeasure searching unit 110 determines the execution of the countermeasure and requests the planning unit 107 to schedule the execution of the countermeasure (Step S317 / YES, S318). Further, when there are a plurality of countermeasures that have led to the result satisfying the policy 1041, the countermeasure searching unit 110 determines execution of the countermeasure that has led to the optimum result among the plurality of countermeasures, and schedules the execution of the search. Request is made to the unit 107 (steps S317 / YES, S318). On the other hand, if there is no countermeasure that has led to the result satisfying the policy 1041 (step S317 / NO), the process returns to step S301.

続いて、対策探索部110は、計画部107に対してスケジューリングを依頼した対策を、当該事象の対策リスト1043に追加して紐つける(ステップS319)。このように対策探索部110によって今回探索された対策が対策リスト1043に追加される。従って、次回、同じ事象が分析部103によって分析、又は、モデル診断部106によって診断された場合、ステップS314〜ステップS319を行うことなく、今回探索された対策についてのシミュレーション処理を行うことが可能となる。   Subsequently, the countermeasure searching unit 110 adds the countermeasure requested for scheduling to the planning unit 107 to the countermeasure list 1043 of the event and links the countermeasure (step S319). In this way, the countermeasure searched this time by the countermeasure searching unit 110 is added to the countermeasure list 1043. Therefore, next time, when the same event is analyzed by the analysis unit 103 or diagnosed by the model diagnosis unit 106, it is possible to perform the simulation process for the countermeasure searched this time without performing steps S314 to S319. Become.

続いて、計画部107は、対策探索部110から依頼された対策の実行をスケジューリングする(ステップS312)。   Subsequently, the planning unit 107 schedules execution of the countermeasure requested from the countermeasure searching unit 110 (step S312).

計画実行部109は、計画部107によって作成されたスケジュールに従って対策を実行する(ステップS313)。   The plan execution unit 109 executes countermeasures according to the schedule created by the planning unit 107 (step S313).

次に、図10及び図3−2を用いて、モニタ部101から直接得られるCBEデータを分析し、分析結果に問題がある場合には対策を実行するまでの処理について説明する。なお、図3−2は、上述したように、AC環境の診断処理を含む流れを説明する上でも用いている。以下に説明する分析処理を含む流れにおいても図3−2と同様の処理が行なわれるため、図3−2に該当する処理については適宜説明を省略する。   Next, with reference to FIG. 10 and FIG. 3-2, processing until CBE data obtained directly from the monitor unit 101 is analyzed and when there is a problem in the analysis result will be described. Note that FIG. 3-2 is also used to describe the flow including the diagnosis process of the AC environment as described above. In the flow including the analysis processing described below, the same processing as that in FIG. 3-2 is performed, and thus the description of the processing corresponding to FIG. 3-2 is omitted as appropriate.

図11において、分析部103は、モニタ部101からCBEデータを取得し、当該CBEデータに該当するポリシー1041を知識情報蓄積部104から参照し、参照したポリシー1041に基づいて当該CBEデータに問題がないかを分析する(ステップS1101、S1102)。上述したように、CBEデータがCPUの使用率を示すデータであって、且つ、「CPU使用率が0〜10%であれば余剰である、CPU使用率が11〜80%であれば正常である、CPU使用率が81%以上であれば過負荷である」というポリシー1041であれば、CBEデータにより示されるCPUの使用率が80%を越えていたらCBEデータに問題があると分析され、反対にCBEデータにより示されるCPUの使用率が80%未満である場合には、CBEデータには問題がないと分析される。   In FIG. 11, the analysis unit 103 acquires CBE data from the monitor unit 101, refers to the policy 1041 corresponding to the CBE data from the knowledge information storage unit 104, and has a problem with the CBE data based on the referenced policy 1041. It is analyzed whether there is any (steps S1101 and S1102). As described above, the CBE data is data indicating the usage rate of the CPU, and “if the CPU usage rate is 0 to 10%, it is redundant, and if the CPU usage rate is 11 to 80%, it is normal. If the policy 1041 is “If the CPU usage rate is 81% or more”, the policy 1041 indicates that the CPU usage rate indicated by the CBE data exceeds 80%, and that there is a problem with the CBE data. On the contrary, if the CPU usage rate indicated by the CBE data is less than 80%, it is analyzed that there is no problem in the CBE data.

続いて、計画部107は、分析部103によりCBEデータに問題があると分析された場合、知識情報蓄積部104においてその問題の事象に紐付けられる対策リスト1043を選択する(ステップS1102/YES、S1103)。   Subsequently, when the analysis unit 103 analyzes that there is a problem in the CBE data, the planning unit 107 selects a countermeasure list 1043 associated with the problem event in the knowledge information storage unit 104 (step S1102 / YES, S1103).

次に、計画部107は、当該ポリシー1041に基づいてシミュレーション部108にシミュレーション処理を依頼するか否かを判断する。例えば、当該ポリシー1041が「システムの応答がない場合は、即座に再起動する」である場合には、シミュレーション部108に対してシミュレーション処理を依頼せず、即座に対策の実行をスケジューリングする(ステップS1104/NO、S312)。また、対象となる事象が緊急の対処を要するものであるとして予めポリシー1041において定められている場合には、その問題がある事象の内容と当該事象に紐付けられている対策リスト1043をユーザに対して報知してもよい。これによって、ユーザは報知された対策リスト1043のうちから所望の対策を選択し、対策の実行を行なうことができる。なお、ステップS312以降の処理は、AC環境の診断処理を含む流れと同様であるため、説明を省略する。   Next, the planning unit 107 determines whether to request a simulation process from the simulation unit 108 based on the policy 1041. For example, if the policy 1041 is “restart immediately if there is no system response”, the simulation unit 108 is not requested to perform a simulation process, and the execution of countermeasures is immediately scheduled (step S1104 / NO, S312). If the target event is determined in advance in the policy 1041 as requiring an urgent action, the contents of the event having the problem and the countermeasure list 1043 associated with the event are displayed to the user. You may alert | report. As a result, the user can select a desired countermeasure from the notified countermeasure list 1043 and execute the countermeasure. Since the processing after step S312 is the same as the flow including the AC environment diagnosis processing, the description thereof will be omitted.

一方、例えば、当該ポリシー1041が「CPU使用率が過負荷の場合は、シミュレーションを実行して最適な結果を残した対策を選択する」である場合、計画部107は、対策リスト1043に含まれる各対策のシミュレーション処理をシミュレーション部108に対して依頼する(ステップS1104/YES、S308)。シミュレーション部108は、計画部107によって選択された対策リスト1043を参照し、その対策リスト1043に含まれる各対策のシミュレーション処理を実行する(ステップS309)。なお、ステップS310以降の処理は、AC環境の診断処理を含む流れと同様であるため、説明を省略する。   On the other hand, for example, when the policy 1041 is “if the CPU usage rate is overloaded, a simulation is executed to select a countermeasure that leaves an optimal result”, the planning unit 107 is included in the countermeasure list 1043. A simulation process for each countermeasure is requested to the simulation unit 108 (steps S1104 / YES, S308). The simulation unit 108 refers to the countermeasure list 1043 selected by the planning unit 107, and executes a simulation process for each countermeasure included in the countermeasure list 1043 (step S309). Note that the processing after step S310 is the same as the flow including the AC environment diagnosis processing, and thus the description thereof is omitted.

以上のように、本実施形態においては、監視データ(CBEデータ)に対応するポリシーから現在の問題の事象を分析(判定)し、又は、監視データ(CBEデータ)の履歴からモデルを抽出して当該モデルとそのモデルに対応するポリシーから現在・将来の問題の事象を診断(判定)し、上記判定結果に基づいてその事象に対応する対策リストによるシミュレーション処理を行って、各対策の効果を評価するようにしている。即ち、本実施形態は、AC環境内における各装置が様々な事象に陥った場合でも、その事象に対応する対策リストによるシミュレーション処理によって各対策の効果を評価することができる。   As described above, in this embodiment, the current problem event is analyzed (determined) from the policy corresponding to the monitoring data (CBE data), or the model is extracted from the history of the monitoring data (CBE data). Diagnose (determine) current and future problem events from the model and the policy corresponding to that model, and perform simulation processing using the countermeasure list corresponding to the event based on the above determination results to evaluate the effectiveness of each countermeasure Like to do. That is, according to the present embodiment, even when each device in the AC environment falls into various events, the effect of each countermeasure can be evaluated by simulation processing using a countermeasure list corresponding to the event.

従って、本実施形態によれば、各対策の効果に関する評価結果に基づいて、AC環境内における各装置の様々な事象に対して最も的確な対策を選択・策定することが可能である。   Therefore, according to the present embodiment, it is possible to select and formulate the most appropriate countermeasure for various events of each device in the AC environment based on the evaluation result regarding the effect of each countermeasure.

また、本実施形態では、計画部107が最適な効果を導いた対策の決定及び対策の実行のスケジューリングを行い、計画実行部109によってそのスケジューリングに従って対策を自動的に実行することが可能である。   Further, in the present embodiment, the planning unit 107 can determine the countermeasure that has led to the optimum effect and schedule the execution of the countermeasure, and the plan executing unit 109 can automatically execute the countermeasure according to the scheduling.

さらに、本実施形態では、仮に或る事象に対応する対策リストから最適な対策が発見できなかった場合でも、その他の対策を探索することによって、当該事象に適用する対策の幅を事前の対策リストから更に広げることが可能である。   Furthermore, in the present embodiment, even when an optimal countermeasure cannot be found from the countermeasure list corresponding to a certain event, the range of countermeasures to be applied to the event is determined in advance by searching for other countermeasures. It is possible to further expand from.

以上では、CPU使用率の時系列変化、スループットの時系列変化及びCPU使用率とスループットとの相関関係を表すモデルを抽出した場合について説明を行った。これら以外にも、例えば、図9に示すように、前後1日において処理Aのスループットと処理Bのスループットとの監視データを取得し、それらに基づいて処理Aのスループットと処理Bのスループットとの相関関係を表すモデルfTAB1(x)=ρAB1x+θAB1、fTAB2(x)=ρAB2x+θAB2を抽出して問題の事象を診断することも可能である。即ち、それらのモデルに紐付けられるポリシーが「処理Aのスループットと処理Bのスループットとの相関関係が前後1日において誤差10%以内に収めるべきである」である場合、図9に示すように、fTAB1(x1)とfTAB2(x1)の間に10%以上の誤差があれば、処理Aのスループットと処理Bのスループットとのバランスが崩れる可能性があると分析又は診断する。その後は同様に、この問題の事象に対応する対策リストによるシミュレーション処理が実行され、最適な結果を導いた対策が実行される。 In the above, the case where the model showing the time series change of the CPU usage rate, the time series change of the throughput, and the correlation between the CPU usage rate and the throughput has been described. In addition to these, for example, as shown in FIG. 9, monitoring data of the throughput of the process A and the throughput of the process B is acquired in the previous and next day, and the throughput of the process A and the throughput of the process B are obtained based on these data. It is also possible to extract a model f TAB1 (x) = ρ AB1 x + θ AB1 and f TAB2 (x) = ρ AB2 x + θ AB2 representing the correlation to diagnose a problem event. That is, when the policy associated with these models is “the correlation between the throughput of process A and the throughput of process B should be within 10% of error in the previous and next day”, as shown in FIG. , F TAB1 (x 1 ) and f TAB2 (x 1 ) are analyzed or diagnosed that there is a possibility that the balance between the throughput of process A and the throughput of process B may be lost if there is an error of 10% or more. Thereafter, similarly, a simulation process is executed using a countermeasure list corresponding to the event of this problem, and a countermeasure that has led to an optimum result is performed.

本発明は、以上に述べたモデル以外にもAC環境から取得し得る監視データに基づいて、種々のモデルを抽出できることは勿論である。また、同一の装置から得られた監視データだけでなく、異なる複数の装置から監視データを得て、装置間の監視データの相関関係を表すモデル等の抽出を行うことも可能である。   In the present invention, various models can be extracted based on monitoring data that can be acquired from the AC environment in addition to the models described above. In addition to monitoring data obtained from the same device, it is also possible to obtain monitoring data from a plurality of different devices and extract a model or the like representing the correlation of the monitoring data between the devices.

本発明の実施形態に係るAC性能監視装置の機能的な構成を示すブロック図である。It is a block diagram which shows the functional structure of the AC performance monitoring apparatus which concerns on embodiment of this invention. AC性能監視装置のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of AC performance monitoring apparatus. 本発明の実施形態に係るAC性能監視装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the AC performance monitoring apparatus which concerns on embodiment of this invention. 本発明の実施形態に係るAC性能監視装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the AC performance monitoring apparatus which concerns on embodiment of this invention. モデルの抽出方法を具体的に説明するための図である。It is a figure for demonstrating the extraction method of a model concretely. 複数の処理分散パターンを説明するための図である。It is a figure for demonstrating a some process distribution pattern. 問題の事象が分析部によって分析又はモデル診断部によって診断される例を具体的に説明するための図である。It is a figure for demonstrating concretely the example in which the phenomenon of a problem is analyzed by an analysis part, or is diagnosed by a model diagnosis part. 問題の事象が分析部によって分析又はモデル診断部によって診断される例を具体的に説明するための図である。It is a figure for demonstrating concretely the example in which the phenomenon of a problem is analyzed by an analysis part, or is diagnosed by a model diagnosis part. 問題の事象が分析部によって分析又はモデル診断部によって診断される例を具体的に説明するための図である。It is a figure for demonstrating concretely the example in which the phenomenon of a problem is analyzed by an analysis part, or is diagnosed by a model diagnosis part. 他のモデルの抽出例及びそのモデルに基づく問題の事象の分析又は診断例を説明するための図である。It is a figure for demonstrating the example of analysis or diagnosis of the problem phenomenon based on the extraction example of another model, and its model. 本発明の実施形態に係るAC性能監視装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the AC performance monitoring apparatus which concerns on embodiment of this invention. 本発明の実施形態に係るAC性能監視装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the AC performance monitoring apparatus which concerns on embodiment of this invention.

符号の説明Explanation of symbols

100:AC性能監視装置
101:モニタ部
102:イベント情報蓄積部
103:分析部
104:知識情報蓄積部
105:モデル抽出部
106:モデル診断部
107:計画部
108:シミュレーション部
109:計画実行部
110:対策探索部
1001:サーバ類
1002:ストレージ類
1003:ネットワーク装置類
1004:非AC環境
1041:ポリシー
1042:モデル
1043:対策リスト
100: AC performance monitoring device 101: Monitor unit 102: Event information storage unit 103: Analysis unit 104: Knowledge information storage unit 105: Model extraction unit 106: Model diagnosis unit 107: Planning unit 108: Simulation unit 109: Plan execution unit 110 : Countermeasure search unit 1001: Servers 1002: Storages 1003: Network devices 1004: Non-AC environment 1041: Policy 1042: Model 1043: Countermeasure list

Claims (8)

少なくとも一つの外部装置と通信回線を介して接続される性能監視装置であって、
前記外部装置の状態に係る状態情報を取得する取得手段と、
前記取得手段により取得される前記状態情報に基づいて、前記外部装置の状態を判定する判定手段と、
前記判定手段による判定結果に対応する対策リストを参照し、前記判定手段により判定された前記外部装置の状態及び前記外部装置の運用に係る指針を示すポリシー情報に基づいて、前記対策リストに含まれる少なくとも一つの対策情報夫々による前記外部装置の状態に係るシミュレーション処理を実行するか否かを決定する決定手段と、
前記決定手段によりシミュレーションを実行すると決定された場合、前記各対策情報により示される対策の効果をシミュレーションにより評価するシミュレーション手段と、
前記シミュレーション手段による前記各対策における効果の評価結果及び前記ポリシー情報に基づいて、前記対策リストから一つの対策情報を決定する対策決定手段とを有することを特徴とする性能監視装置。
A performance monitoring device connected to at least one external device via a communication line,
Obtaining means for obtaining state information relating to the state of the external device;
Determination means for determining the state of the external device based on the state information acquired by the acquisition means;
Referring to the countermeasure list corresponding to the determination result by the determination means, and included in the countermeasure list based on the policy information indicating the status of the external device determined by the determination means and the guidelines for the operation of the external device Determining means for determining whether or not to execute a simulation process related to the state of the external device according to each of at least one countermeasure information ;
If a determination is made to perform the simulation by said determining means, and simulation means for evaluating by simulation effect of the measures indicated by the respective countermeasure information,
A performance monitoring apparatus , comprising: measure determining means for determining one measure information from the measure list based on an evaluation result of the effect of each measure by the simulation means and the policy information .
前記取得手段により取得される前記状態情報を外部又は内部の記録媒体内に蓄積する蓄積手段と、
前記記録媒体内に蓄積される前記状態情報の履歴に基づいて、前記外部装置の状態を表すモデル情報を抽出するモデル抽出手段とを更に有し、
前記判定手段は、前記モデル情報に基づいて前記外部装置の状態を判定することを特徴とする請求項1に記載の性能監視装置。
Storage means for storing the status information acquired by the acquisition means in an external or internal recording medium;
Model extraction means for extracting model information representing the state of the external device based on the history of the state information stored in the recording medium;
The performance monitoring apparatus according to claim 1, wherein the determination unit determines a state of the external device based on the model information.
前記取得手段により取得される前記状態情報を外部又は内部の記録媒体内に蓄積する蓄積手段と、
前記記録媒体内に蓄積される前記状態情報の履歴に基づいて、前記外部装置の状態を表すモデル情報を抽出するモデル抽出手段とを更に有し、
前記判定手段は、前記モデル情報及び前記取得手段により取得された前記外部装置の現在の状態に係る状態情報に基づいて前記外部装置の状態を判定することを特徴とする請求項1に記載の性能監視装置。
Storage means for storing the status information acquired by the acquisition means in an external or internal recording medium;
Model extraction means for extracting model information representing the state of the external device based on the history of the state information stored in the recording medium;
The performance according to claim 1, wherein the determination unit determines the state of the external device based on the model information and state information related to a current state of the external device acquired by the acquisition unit. Monitoring device.
前記判定手段は、前記モデル情報と、更に前記状態情報の種類に応じた前記外部装置の運用に係るポリシー情報とに基づいて、前記外部装置の状態を判定することを特徴とする請求項2に記載の性能監視装置。   3. The determination unit according to claim 2, wherein the determination unit determines the state of the external device based on the model information and policy information related to operation of the external device according to the type of the state information. The performance monitoring device described. 前記対策決定手段により前記評価結果に基づいて前記対策リストから一つの対策情報を決定することができなかった場合、前記対策リストに含まれない他の対策情報を探索する探索手段を更に有し、
前記シミュレーション手段は、前記他の対策情報による前記外部装置の状態に係るシミュレーション処理を実行し、前記他の対策情報により示される対策の効果を評価することを特徴とする請求項に記載の性能監視装置。
When one measure information cannot be determined from the measure list based on the evaluation result by the measure determining unit, the measure determining unit further includes search means for searching for other measure information not included in the measure list,
Said simulation means, the performance according to claim 1, characterized in that running a simulation process according to the state of the external device according to the another countermeasure information, to evaluate the effect of measures indicated by the other countermeasure information Monitoring device.
前記探索手段は、前記対策決定手段が前記他の対策情報により示される対策の効果の評価結果に基づいて前記他の対策情報を決定した場合、前記他の対策情報を前記判定結果に対応付けることを特徴とする請求項に記載の性能監視装置。 When the measure determining means determines the other measure information based on the evaluation result of the effect of the measure indicated by the other measure information, the searching means associates the other measure information with the determination result. 5. The performance monitoring apparatus according to claim 4 , wherein 少なくとも一つの外部装置と通信回線を介して接続される性能監視装置による性能監視方法であって、
前記外部装置の状態に係る状態情報を取得する取得ステップと、
前記取得ステップにより取得される前記状態情報に基づいて、前記外部装置の状態を判定する判定ステップと、
前記判定ステップによる判定結果に対応する対策リストを参照し、前記判定ステップにより判定された前記外部装置の状態及び前記外部装置の運用に係る指針を示すポリシー情報に基づいて、前記対策リストに含まれる少なくとも一つの対策情報夫々による前記外部装置の状態に係るシミュレーション処理を実行するか否かを決定する決定ステップと、
前記決定ステップによりシミュレーションを実行すると決定された場合、前記各対策情報により示される対策の効果をシミュレーションにより評価するシミュレーションステップと、
前記シミュレーションステップによる前記各対策における効果の評価結果及び前記ポリシー情報に基づいて、前記対策リストから一つの対策情報を決定する対策決定ステップとを含むことを特徴とする性能監視方法。
A performance monitoring method by a performance monitoring device connected to at least one external device via a communication line,
An acquisition step of acquiring state information relating to the state of the external device;
A determination step of determining a state of the external device based on the state information acquired by the acquisition step;
Referring to the countermeasure list corresponding to the determination result of the determination step, and included in the countermeasure list based on the policy information indicating the state of the external device determined by the determination step and the guidelines for the operation of the external device A determination step for determining whether to execute a simulation process related to the state of the external device according to each of at least one countermeasure information ;
A simulation step of evaluating the effect of the countermeasure indicated by each countermeasure information by simulation when it is determined to execute the simulation by the determining step ;
A performance monitoring method, comprising: a measure determining step for determining one measure information from the measure list based on an evaluation result of an effect of each measure in the simulation step and the policy information .
請求項7に記載の性能監視方法をコンピュータに実行させるためのプログラム。   A program for causing a computer to execute the performance monitoring method according to claim 7.
JP2006027622A 2006-02-03 2006-02-03 Performance monitoring device, performance monitoring method and program Active JP4705484B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006027622A JP4705484B2 (en) 2006-02-03 2006-02-03 Performance monitoring device, performance monitoring method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006027622A JP4705484B2 (en) 2006-02-03 2006-02-03 Performance monitoring device, performance monitoring method and program

Publications (2)

Publication Number Publication Date
JP2007207117A JP2007207117A (en) 2007-08-16
JP4705484B2 true JP4705484B2 (en) 2011-06-22

Family

ID=38486511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006027622A Active JP4705484B2 (en) 2006-02-03 2006-02-03 Performance monitoring device, performance monitoring method and program

Country Status (1)

Country Link
JP (1) JP4705484B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11275044B2 (en) 2018-08-31 2022-03-15 Nuflare Technology, Inc. Anomaly determination method and writing apparatus

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4872945B2 (en) 2008-02-25 2012-02-08 日本電気株式会社 Operation management apparatus, operation management system, information processing method, and operation management program
JP4872944B2 (en) 2008-02-25 2012-02-08 日本電気株式会社 Operation management apparatus, operation management system, information processing method, and operation management program
CN102099795B (en) * 2008-09-18 2014-08-13 日本电气株式会社 Operation management device, operation management method, and operation management program
JP5287382B2 (en) * 2009-03-13 2013-09-11 日本電気株式会社 System performance analysis apparatus, system performance analysis method, and program
WO2011068015A1 (en) * 2009-12-02 2011-06-09 コニカミノルタホールディングス株式会社 System building support method
WO2013141018A1 (en) * 2012-03-21 2013-09-26 日本電気株式会社 Device for supporting optimal system design
JP6904075B2 (en) * 2017-06-08 2021-07-14 コニカミノルタ株式会社 State prediction device, state prediction method and state prediction program
CN114531333B (en) * 2022-01-28 2023-09-15 新华三技术有限公司 Method for managing operation and maintenance data, cloud platform and AC
CN115297035A (en) * 2022-08-04 2022-11-04 杭州杰牌传动科技有限公司 Intelligent operation and maintenance system with edge cloud cooperation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268922A (en) * 2001-03-09 2002-09-20 Ntt Data Corp Performance monitoring device of www site
JP2005099973A (en) * 2003-09-24 2005-04-14 Hitachi Ltd Operation management system
JP2005346331A (en) * 2004-06-02 2005-12-15 Nec Corp Failure recovery apparatus, method for restoring fault, manager apparatus, and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3291642B2 (en) * 1995-05-18 2002-06-10 株式会社日立製作所 Failure support method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268922A (en) * 2001-03-09 2002-09-20 Ntt Data Corp Performance monitoring device of www site
JP2005099973A (en) * 2003-09-24 2005-04-14 Hitachi Ltd Operation management system
JP2005346331A (en) * 2004-06-02 2005-12-15 Nec Corp Failure recovery apparatus, method for restoring fault, manager apparatus, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11275044B2 (en) 2018-08-31 2022-03-15 Nuflare Technology, Inc. Anomaly determination method and writing apparatus

Also Published As

Publication number Publication date
JP2007207117A (en) 2007-08-16

Similar Documents

Publication Publication Date Title
JP4705484B2 (en) Performance monitoring device, performance monitoring method and program
JP4980581B2 (en) Performance monitoring device, performance monitoring method and program
US7702485B2 (en) Method and apparatus for predicting remaining useful life for a computer system
Huang et al. Software reliability analysis and assessment using queueing models with multiple change-points
Urunuela et al. Storm a simulation tool for real-time multiprocessor scheduling evaluation
JP4756675B2 (en) System, method and program for predicting computer resource capacity
JP4859558B2 (en) Computer system control method and computer system
US20130318022A1 (en) Predictive Analytics for Information Technology Systems
Brosch et al. Parameterized reliability prediction for component-based software architectures
Soualhia et al. Predicting scheduling failures in the cloud: A case study with google clusters and hadoop on amazon EMR
Nadeem et al. Modeling and predicting execution time of scientific workflows in the grid using radial basis function neural network
Aleti et al. An efficient method for uncertainty propagation in robust software performance estimation
JP6777142B2 (en) System analyzer, system analysis method, and program
Cheng et al. Improving architecture-based self-adaptation through resource prediction
Wang et al. Robust scheduling optimization for flexible manufacturing systems with replenishment under uncertain machine failure disruptions
Lewis et al. Chaotic attractor prediction for server run-time energy consumption
JPWO2018073955A1 (en) System analysis method, system analysis apparatus, and program
GB2516357A (en) Methods and apparatus for monitoring conditions prevailing in a distributed system
JP2005099973A (en) Operation management system
JP7107991B2 (en) Operation management device and operation management method
JP7038629B2 (en) Equipment condition monitoring device and program
US20050283635A1 (en) System and method for promoting effective service to computer users
Foroni et al. Moira: A goal-oriented incremental machine learning approach to dynamic resource cost estimation in distributed stream processing systems
Sedaghatbaf et al. A method for dependability evaluation of software architectures
JP2006185055A (en) Design support system and design support program for computer system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110311

R150 Certificate of patent or registration of utility model

Ref document number: 4705484

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250