JP2008171104A - Monitoring apparatus, monitoring system, monitoring method and monitoring program for monitoring business service and system performance - Google Patents
Monitoring apparatus, monitoring system, monitoring method and monitoring program for monitoring business service and system performance Download PDFInfo
- Publication number
- JP2008171104A JP2008171104A JP2007002089A JP2007002089A JP2008171104A JP 2008171104 A JP2008171104 A JP 2008171104A JP 2007002089 A JP2007002089 A JP 2007002089A JP 2007002089 A JP2007002089 A JP 2007002089A JP 2008171104 A JP2008171104 A JP 2008171104A
- Authority
- JP
- Japan
- Prior art keywords
- system performance
- metric
- business service
- threshold value
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、情報処理装置などの監視対象装置に業務サービスとシステム性能の問題が発生しているか否かを判定する監視技術に関し、特に、業務サービスメトリックのアラート判定結果とシステム性能のアラート判定結果との異なりをなくして、アラートを適切に通知する機能を有する監視装置、監視システム、監視方法および監視プログラムに関する。 The present invention relates to a monitoring technology for determining whether or not a business service and system performance problem occurs in a monitoring target device such as an information processing device, and in particular, an alert determination result of a business service metric and an alert determination result of a system performance The present invention relates to a monitoring device, a monitoring system, a monitoring method, and a monitoring program having a function of appropriately notifying an alert and eliminating the difference.
情報処理装置などの監視対象装置に業務サービスとシステム性能の問題が発生しているか否かを判定する一般的な監視装置では、業務サービスの問題が発生しているか否か、または、システム性能の問題が発生しているか否かを判定する。 A general monitoring device that determines whether a business service and system performance problem has occurred in a monitoring target device such as an information processing device. Determine if a problem has occurred.
例えば、システム性能の問題が発生しているか否かを判定する一般的な監視装置は、あらかじめ定められている複数のシステム性能項目(CPU使用率、メモリ使用率、ネットワーク使用率、ディスク使用率、連続稼動時間、稼動プロセス数、実行プロセス数、接続ユーザ数、接続コネクション数など)のシステム性能値を監視対象装置から取得する。そして、取得した各システム性能値と、システム管理者によって設定されている各システム性能項目のしきい値とを比較することによって、システム性能上の問題が発生しているか否か判定する。 For example, a general monitoring device that determines whether or not a system performance problem has occurred has a plurality of predetermined system performance items (CPU usage rate, memory usage rate, network usage rate, disk usage rate, System performance values such as continuous operation time, number of active processes, number of execution processes, number of connected users, number of connected connections, etc.) are acquired from the monitoring target device. Then, by comparing each acquired system performance value with a threshold value of each system performance item set by the system administrator, it is determined whether or not a system performance problem has occurred.
また、業務サービスの問題が発生しているか否かを判定する一般的な監視装置も、同様に、あらかじめ定められている複数の業務サービスメトリック(利用者の端末からの応答時間、アプリケーションエラーの発生頻度、タイムアウト回数、平均復旧時間、平均故障間隔、業務サービスの稼働率、業務サービス提供期間など)の業務サービスメトリック値を監視対象装置から取得する。そして、取得した各業務サービスメトリック値と、業務責任者によって設定されている各業務サービスメトリックのしきい値とを比較することによって、業務サービス上の問題が発生しているか否か判定する。 Similarly, a general monitoring device that determines whether or not a business service problem has occurred also has a plurality of predetermined business service metrics (response time from user terminal, occurrence of application error). Business service metric values such as frequency, timeout count, average recovery time, average failure interval, business service availability, business service provision period, etc.) are acquired from the monitored device. Then, by comparing each acquired business service metric value with the threshold value of each business service metric set by the business manager, it is determined whether or not a problem in the business service has occurred.
上記の一般的な監視装置では、システム管理者と業務責任者が経験にもとづいて各しきい値を設定しなければならない。従って、システム管理者と業務責任者とに負担がかかるとともに、適切なしきい値が設定されない可能性があるという問題がある。 In the above general monitoring apparatus, each threshold value must be set based on experience by the system manager and the business manager. Therefore, there is a problem that the system administrator and the business manager are burdened and there is a possibility that an appropriate threshold value may not be set.
そのような問題点を解決するための監視装置が提案されている(例えば、特許文献1,2参照。)。
Monitoring devices for solving such problems have been proposed (see, for example,
特許文献1に記載されている従来の監視装置は、システム性能の問題が発生しているか否かを判定する監視装置であって、システム管理者によって指定されたサンプリング期間中に収集した1つのシステム性能項目の平均値および標準偏差から、システム性能項目のしきい値を算出する。例えば、CPU使用率を一定期間測定し、測定結果の平均値を算出して、平均値をCPU使用率の予想しきい値とする。また、CPU使用率の測定結果から標準偏差を算出して、標準偏差をCPU使用率の予想しきい値の誤差とする。
The conventional monitoring device described in
特許文献2に記載されている従来の監視装置は、業務サービスの問題が発生しているか否かを判定する監視装置であって、今までの1つの業務サービスの実行時間の実績値にもとづいて、業務サービスの予想実行時間をしきい値として算出する。例えば、利用者の端末からの応答時間を一定期間測定し、測定結果の平均値を算出して、平均値を利用者の端末からの応答時間のしきい値とする。
The conventional monitoring device described in
特許文献1,2に記載されている従来の監視装置、およびそれらを組合せた装置によれば、システム性能項目のしきい値と業務サービスメトリックのしきい値とを、それぞれ自動的に設定することは可能である。しかし、システム性能項目のしきい値はシステム管理者の観点から自動的に設定され、業務サービスメトリックのしきい値は業務責任者の観点から自動的に設定されるため、システム性能項目のしきい値と業務サービスメトリックのしきい値との整合をとることができない。システム管理者の観点では、対象とするシステム性能項目の測定結果のみから自動設定され、業務責任者の観点では、業務サービスメトリックの測定結果のみから自動設定されるためである。
According to the conventional monitoring device described in
なお、システム性能項目と業務サービスメトリックとの整合がとれないときには、業務サービスメトリックのアラート判定結果とシステム性能のアラート判定結果とが異なる場合が発生する。具体的には、システム性能項目でアラートが発生するが、業務サービスメトリックではアラートが発生しない場合があり、また、業務サービスメトリックでアラートが発生するが、システム性能項目ではアラートが発生しない場合がある。 Note that when the system performance item and the business service metric cannot be matched, the business service metric alert determination result may differ from the system performance alert determination result. Specifically, an alert occurs in the system performance item, but an alert may not occur in the business service metric, and an alert occurs in the business service metric, but an alert may not occur in the system performance item .
その結果、どちらのアラート判定結果が正しいかのが不明になり、アラートが適切に通知されていないことになる。アラートが適切に通知されなければ、システム管理者は、システム性能上の問題を把握できず、また、業務責任者は、業務サービス上の問題を特定することが困難となる。 As a result, it is unclear which alert determination result is correct, and the alert is not properly notified. If the alert is not properly notified, the system administrator cannot grasp the system performance problem, and the business manager is difficult to identify the business service problem.
そこで、本発明は、業務サービスメトリックからシステム性能までのメトリックを監視対象とする監視装置、監視システム、監視方法および監視プログラムにおいて、業務サービスメトリックにおけるアラート判定結果とシステム性能におけるアラート判定結果の異なりをなくして、アラートを適切に通知できるようにすることを目的とする。 Therefore, the present invention relates to a monitoring device, a monitoring system, a monitoring method, and a monitoring program that monitor business service metrics to system performance metrics. The difference between the alert determination result in the business service metric and the alert determination result in the system performance is determined. The goal is to be able to notify alerts appropriately.
本発明による監視装置は、メトリック定義情報記憶部に記憶されたメトリック定義情報に従って、監視対象装置の1以上のシステム性能値と1以上の業務サービスメトリック値を取得するメトリック値取得手段から送信されるシステム性能値または業務サービスメトリック値をメトリック値記憶部に記憶し、しきい値記憶部に記憶されている業務サービスメトリックのしきい値とシステム性能項目のしきい値に従って、監視対象装置にシステム性能および業務サービスの問題が発生しているか否かを判定するアラート判定手段を備えた監視装置であって、1つの業務サービスメトリックと1以上のシステム性能項目との関係を示すメトリックマップを記憶するメトリックマップ記憶部と、アラート判定手段によって正常と判定された業務サービスメトリックによるアラート判定結果と、メトリックマップにおいて業務サービスメトリックに対応付けられたシステム性能項目と、システム性能項目のシステム性能値とにもとづいて、業務サービスメトリックのアラート判定結果が正常なときのシステム性能値を回帰分析により算出し、算出結果をしきい値記憶部に記憶するしきい値導出手段とを備えたことを特徴とする。 The monitoring device according to the present invention is transmitted from the metric value acquisition means for acquiring one or more system performance values and one or more business service metric values of the monitoring target device according to the metric definition information stored in the metric definition information storage unit. The system performance value or business service metric value is stored in the metric value storage unit, and the system performance is monitored in the monitored device according to the business service metric threshold value and the system performance item threshold value stored in the threshold value storage unit. And a metric map that stores a metric map indicating a relationship between one business service metric and one or more system performance items. Business services that are determined to be normal by the map storage unit and the alert determination means The system performance when the alert judgment result of the business service metric is normal based on the alert judgment result by the metric, the system performance item associated with the business service metric in the metric map, and the system performance value of the system performance item Threshold value deriving means for calculating a value by regression analysis and storing the calculation result in a threshold value storage unit is provided.
監視装置は、さらに、業務サービスメトリックのアラート判定結果が正常でありシステム性能のアラート判定結果も正常である場合がどの程度の割合で発生するかを示す陽性予測割合と、業務サービスメトリックのアラート判定結果が異常でありシステム性能のアラート判定結果も異常である場合がどの程度の割合で発生するかを示す陰性予測割合を記憶する定義情報記憶部と、定義情報記憶部に記憶されている陽性予測割合と陰性予測割合に従って、しきい値記憶部に記憶されているシステム性能項目のしきい値を変更するか否かを判定するしきい値変更判定手段とを備えていてもよい。 The monitoring device further includes a positive prediction ratio indicating the rate at which the business service metric alert judgment result is normal and the system performance alert judgment result is normal, and the business service metric alert judgment. A definition information storage unit that stores a negative prediction ratio indicating how often the result is abnormal and the system performance alert determination result is also abnormal, and a positive prediction stored in the definition information storage unit You may provide the threshold value change determination means which determines whether the threshold value of the system performance item memorize | stored in the threshold value memory | storage part is changed according to a ratio and a negative prediction ratio.
監視装置は、しきい値導出手段が、算出したしきい値を管理端末の画面に表示し、画面上で新たなしきい値の設定が指示された場合に、算出したしきい値を新たなしきい値としてしきい値記憶部に記憶させるように構成されていてもよい。 In the monitoring apparatus, the threshold deriving means displays the calculated threshold on the screen of the management terminal, and when the setting of a new threshold is instructed on the screen, the calculated threshold is newly set. The threshold value storage unit may be configured to store the value as a value.
本発明による監視システムは、複数の監視対象装置と、複数の監視対象装置と通信可能に接続された監視装置と、監視装置に通信可能に接続された管理端末と、監視装置および管理端末と通信可能に接続された記憶装置とを備えた監視システムであって、記憶装置が、メトリック定義情報を記憶するメトリック定義情報記憶部と、監視対象装置の1以上のシステム性能値と1以上の業務サービスメトリック値を記憶するメトリック値記憶部と、システム性能項目のしきい値と業務サービスメトリックのしきい値を記憶するしきい値記憶部と、1つの業務サービスメトリックと1以上のシステム性能項目との関係を示すメトリックマップを記憶するメトリックマップ記憶部とを含み、監視装置が、メトリック定義情報記憶部に記憶されたメトリック定義情報に従って、監視対象装置の1以上のシステム性能値と1以上の業務サービスメトリック値を取得するメトリック値取得手段と、メトリック値取得手段から送信されるシステム性能値または業務サービスメトリック値をメトリック値記憶部に記憶し、監視対象装置にシステム性能および業務サービスの問題が発生しているか否かを判定するアラート判定手段と、業務サービスメトリックのアラート判定結果が正常でありシステム性能のアラート判定結果も正常である場合がどの程度の割合で発生するかを示す陽性予測割合と、業務サービスメトリックのアラート判定結果が異常でありシステム性能のアラート判定結果も異常である場合がどの程度の割合で発生するかを示す陰性予測割合を記憶する定義情報記憶部と、しきい値記憶部に記憶されているシステム性能項目のしきい値を変更するか否かを判定するしきい値変更判定手段と、アラート判定手段によって正常と判定された業務サービスメトリックによるアラート判定結果と、メトリックマップにおいて業務サービスメトリックに対応付けられたシステム性能項目と、システム性能項目のシステム性能値とにもとづいて、業務サービスメトリックのアラート判定結果が正常なときのシステム性能値を回帰分析により算出し、算出結果をしきい値記憶部に記憶するしきい値導出手段とを含むことを特徴とする。 A monitoring system according to the present invention includes a plurality of monitoring target devices, a monitoring device connected to be able to communicate with the plurality of monitoring target devices, a management terminal communicatively connected to the monitoring device, and a communication with the monitoring device and the management terminal. A monitoring system including a storage device connected to the metric definition information storage unit that stores metric definition information, one or more system performance values of the monitoring target device, and one or more business services A metric value storage unit for storing a metric value, a threshold storage unit for storing a threshold value of a system performance item and a threshold value of a business service metric, one business service metric, and one or more system performance items A metric map storage unit that stores a metric map indicating the relationship, and the monitoring device stores the metrics stored in the metric definition information storage unit. Metric value acquisition means for acquiring one or more system performance values and one or more business service metric values of the monitoring target device, and the system performance value or business service metric value transmitted from the metric value acquisition means according to the definition information Alert determination means that stores in the value storage unit and determines whether there is a problem with system performance and business service in the monitored device, and the alert determination result of the system service metric that the business service metric alert determination result is normal and the system performance alert determination result The percentage of positive predictions that indicate the rate of occurrence of normal service and the rate at which the alert judgment result of the business service metric is abnormal and the alert judgment result of the system performance is also abnormal Definition information storage unit that stores a negative prediction ratio indicating whether or not to perform threshold value storage Threshold change determination means for determining whether or not to change the threshold value of the system performance item stored in the message, the alert determination result by the business service metric determined to be normal by the alert determination means, and the metric map Based on the system performance item associated with the business service metric and the system performance value of the system performance item, the system performance value when the alert judgment result of the business service metric is normal is calculated by regression analysis. And a threshold value deriving unit that stores the threshold value in the threshold value storage unit.
監視システムにおいて、しきい値導出手段が、算出したしきい値を管理端末に送信して管理端末の画面に表示させ、画面上でしきい値の設定が指示された場合に、しきい値を新たなしきい値としてしきい値記憶部に記憶させるように構成されていてもよい。 In the monitoring system, the threshold deriving means transmits the calculated threshold value to the management terminal to display it on the management terminal screen, and when the threshold setting is instructed on the screen, the threshold value is calculated. You may comprise so that it may memorize | store in a threshold value memory | storage part as a new threshold value.
本発明による監視方法は、複数の監視対象装置と通信可能に接続されたコンピュータによって監視対象装置の監視を行う方法であって、コンピュータが、業務サービスメトリックのしきい値とシステム性能項目のしきい値に従って、監視対象装置にシステム性能および業務サービスの問題が発生しているか否かを判定してアラート判定結果を記憶部に記憶し、記憶部に記憶された正常と判定された業務サービスメトリックによるアラート判定結果と、業務サービスメトリックに対応付けられたシステム性能項目と、システム性能項目のシステム性能値とにもとづいて、業務サービスメトリックのアラート判定結果が正常なときのシステム性能値を回帰分析により算出して算出結果を記憶し、算出結果を管理端末に出力し、管理端末からの指示に従って、管理端末に出力された新たなしきい値を、記憶部に記憶されるシステム性能項目のしきい値として設定し、監視対象装置から送信されるシステム性能値と業務サービスメトリック値を受信して記憶することを特徴とする。 The monitoring method according to the present invention is a method of monitoring a monitoring target device by a computer that is communicably connected to a plurality of monitoring target devices, wherein the computer uses a threshold of business service metrics and a threshold of system performance items. According to the value, it is determined whether there is a problem in system performance and business service in the monitored device, the alert determination result is stored in the storage unit, and the business service metric determined as normal stored in the storage unit Based on the alert judgment result, the system performance item associated with the business service metric, and the system performance value of the system performance item, the system performance value when the business service metric alert judgment result is normal is calculated by regression analysis To store the calculation results, output the calculation results to the management terminal, and give instructions from the management terminal. Therefore, the new threshold value output to the management terminal is set as the threshold value of the system performance item stored in the storage unit, and the system performance value and business service metric value transmitted from the monitored device are received. It is memorized.
システム性能値を回帰分析により算出する際に、記憶部に記憶されている業務サービスメトリックのアラート判定結果が正常でありシステム性能のアラート判定結果も正常である場合がどの程度の割合で発生するかを示す陽性予測割合と業務サービスメトリックのアラート判定結果が異常でありシステム性能のアラート判定結果も異常である場合がどの程度の割合で発生するかを示す陰性予測割合に従って、システム性能項目のしきい値を変更するか否かを判定するように構成されていてもよい。 When calculating the system performance value by regression analysis, how often does it occur when the business service metric alert judgment result stored in the storage unit is normal and the system performance alert judgment result is also normal? Threshold of system performance items according to the negative prediction ratio indicating how often the alert prediction result of business service metrics and the alert judgment result of system performance metrics are abnormal and the alert judgment result of system performance is also abnormal It may be configured to determine whether or not to change the value.
業務サービスメトリックからシステム性能までのメトリックが監視対象である監視対象装置において、ある業務サービスメトリックとあるシステム性能項目が、物理的に同一の監視装置上の測定項目であれば、ある業務サービスメトリックとあるシステム性能項目は、同じ物理的な影響を受けていることになる。この点に着目し、本発明では、業務サービスメトリックとシステム性能項目との物理的な影響関係をメトリックマップとして設定しておき、このメトリックマップと、正常と判定された業務サービスメトリックのアラート判定結果と、メトリックマップにおいて業務サービスメトリックに対応付けられたシステム性能項目のシステム性能値にもとづいて、業務サービスメトリックのアラート判定結果が正常なときのシステム性能値を回帰分析により機械的に算出し、算出結果をしきい値記憶部に記憶する。 In a monitoring target device whose metrics from business service metrics to system performance are monitored, if a certain business service metric and a certain system performance item are measurement items on the same physical monitoring device, Some system performance items are subject to the same physical influence. Focusing on this point, in the present invention, the physical influence relationship between the business service metric and the system performance item is set as a metric map, and the alert judgment result of this metric map and the business service metric determined to be normal Based on the system performance value of the system performance item associated with the business service metric in the metric map, the system performance value when the business service metric alert judgment result is normal is mechanically calculated by regression analysis. The result is stored in the threshold storage unit.
本発明によれば、業務サービスメトリックからシステム性能までのメトリックを監視対象として監視対象装置を監視するときに、業務サービスメトリックのアラート判定結果とシステム性能のアラート判定結果の異なりをなくして、アラートを適切に通知することが可能になる。その理由は、業務サービスメトリックのアラート判定結果とシステム性能のアラート判定結果とが異なる場合に、正常と判定された業務サービスメトリックのアラート判定結果と、メトリックマップによって業務サービスメトリックに対応付けられたシステム性能項目のシステム性能値にもとづいて、業務サービスメトリックのアラート判定結果が正常なときのシステム性能値を回帰分析して算出結果をしきい値記憶部に記憶して、システム性能項目の新たなしきい値にするためである。 According to the present invention, when monitoring a monitoring target device using a metric from a business service metric to a system performance as a monitoring target, the difference between the business service metric alert judgment result and the system performance alert judgment result is eliminated, and the alert is sent. It becomes possible to notify appropriately. The reason is that when the business service metric alert judgment result and the system performance alert judgment result are different, the business service metric alert judgment result determined to be normal and the system associated with the business service metric by the metric map Based on the system performance value of the performance item, the system performance value when the alert judgment result of the business service metric is normal is subjected to regression analysis, and the calculation result is stored in the threshold value storage unit. This is to make it a value.
実施の形態1.
図1は、本発明による監視システムの第1の実施の形態(実施の形態1)の構成例を示すブロック図である。図1に示す監視システムは、業務アプリケーションが動作している監視対象装置2を監視するものであり、CPU、メモリ、ネットワーク接続機器などを有する監視装置1と、ディスク装置などの記憶装置3と、コンソール等の入力装置およびディスプレイ等の出力装置を有する管理端末4とを含む。管理端末4は、監視装置1と通信可能に接続され、記憶装置3は、監視装置1および管理端末4と通信可能に接続されている。
FIG. 1 is a block diagram showing a configuration example of a first embodiment (Embodiment 1) of a monitoring system according to the present invention. The monitoring system shown in FIG. 1 monitors a
記憶装置3は、メトリック定義情報記憶部301と、メトリック値記憶部302と、しきい値記憶部303と、メトリックマップ記憶部304とを備えている。メトリック定義情報記憶部301は、監視対象装置2からシステム性能値と業務サービスメトリック値とを収集するためのメトリック定義に関する情報を記憶する。メトリック定義情報記憶部301に記憶される個々のメトリック定義情報は、監視対象とする監視対象装置2を特定する情報と、システム性能項目および業務サービスメトリックを特定する情報とを含む。メトリック定義情報記憶部301に記憶される情報には、さらに、取得間隔を示す情報などの他の情報が含まれていてもよい。
The
図2に、メトリック定義情報記憶部301に記憶されるメトリック定義情報の例を示す。例えば、1行目のMonitor_001 を識別子とするメトリック定義情報は、Dev_001 を識別子とする監視対象装置2からCPU使用率を30秒間隔で取得することを示す。
FIG. 2 shows an example of metric definition information stored in the metric definition
メトリック値記憶部302は、監視装置1が監視対象装置2から取得したシステム性能値または業務サービスメトリック値などのメトリック値情報を記憶する。メトリック値記憶部302に記憶される個々のメトリック値情報は、監視対象とする監視対象装置2を特定する情報と、システム性能項目および業務サービスメトリックを特定する情報と、監視装置1が監視対象装置2から取得したメトリック値を示す情報と、取得時刻を示す情報とを含む。
The metric
図3に、メトリック値記憶部302に記憶されるメトリック値情報の例を示す。この例では、個々のメトリック値情報は、取得したメトリック値に、取得先の監視対象装置2の識別子、取得したメトリック項目および取得時刻が付加されて記憶されている。
FIG. 3 shows an example of metric value information stored in the metric
しきい値記憶部303は、システム性能項目のしきい値情報と業務サービスメトリックのしきい値情報とを記憶する。しきい値記憶部303に記憶される個々のしきい値情報は、メトリック定義情報記憶部301に記憶された各メトリック定義情報を特定する情報と、そのしきい値を示す情報とを含む。
The
図4に、しきい値記憶部303に記憶されるしきい値情報の例を示す。例えば、1行目のthreashold_001を識別子とするしきい値情報は、メトリック定義情報の識別子であるMonitor_001 のしきい値が70%であることを示す。メトリックマップ記憶部304は、1つの業務サービスメトリックと、1以上のシステム性能項目との関係を示すメトリックマップを記憶する。
FIG. 4 shows an example of threshold information stored in the
メトリックマップ記憶部304に記憶される各メトリックマップは、1つの業務サービスメトリックを特定する情報と、業務メトリックに関係する1以上のシステム性能項目を特定する情報とを含む。
Each metric map stored in the metric
図5に、メトリックマップ記憶部304に記憶されるメトリックマップの例を示す。例えば、1行目のMap_001 を識別子とするメトリックマップは、Monitor_002 を識別子とする業務サービスメトリックには、Monitor_001 を識別子とするシステム性能項目と、Monitor_003 を識別子とするシステム性能項目があることを示す。
FIG. 5 shows an example of a metric map stored in the metric
監視装置1は、メトリック値取得手段101と、アラート判定手段102と、定義情報記憶部103と、しきい値変更判定手段104と、しきい値導出手段105とを備えている。メトリック値取得手段101、アラート判定手段102、しきい値変更判定手段104およびしきい値導出手段105は、ハードウェア回路で実現可能であるが、それらの手段を実現するためのプログラムに従って処理を実行するCPUと周辺回路とで実現することもできる。つまり、監視装置1をコンピュータで実現可能である。
The
メトリック値取得手段101は、メトリック定義情報記憶部302に記憶された監視対象装置2のメトリック定義情報に従ってシステム性能値と業務サービスメトリック値とを取得する。また、メトリック値取得手段101は、取得したシステム性能値と業務サービスメトリック値とを、取得時刻を示す情報を付してアラート判定手段102に渡す。
The metric
アラート判定手段102は、メトリック値取得手段101が取得したシステム性能値および業務サービスメトリック値と、しきい値記憶部303に記憶されているしきい値とにもとづいて、監視対象装置2にシステム性能および業務サービスの問題が発生しているか否か判定し、そのアラート判定結果をしきい値変更判定手段104に渡す。また、アラート判定手段102は、メトリック値取得手段101が取得したシステム性能値および業務サービスメトリック値と、取得時刻を示す情報と、アラート判定結果とを、メトリック値記憶部302に記憶する。
The
定義情報記憶部103は、陽性予測割合と陰性予測割合とを記憶する。陽性予測割合は、業務サービスメトリックのアラート判定結果が正常でありシステム性能のアラート判定結果も正常である場合がどの程度の割合で発生するかを示す。陰性予測割合は、業務サービスメトリックのアラート判定結果が異常でありシステム性能のアラート判定結果も異常である場合がどの程度の割合で発生するかを示す。例えば、陽性予測割合は90%、陰性予測割合は85%と記憶する。
The definition
しきい値変更判定手段104は、メトリックマップ記憶部304に記憶されたメトリックマップを参照して、アラート判定手段102によって判定された業務サービスメトリックのアラート判定結果と、業務サービスメトリックに対応付けられたシステム性能のアラート判定結果とにもとづいて、陽性予測割合と陰性予測割合とを算出する。そして、算出した陽性予測割合と、定義情報記憶部103に記憶された陽性予測割合とを比較し、算出した陽性予測割合が定義情報記憶部103に記憶された陽性予測割合よりも小さい場合に、しきい値導出手段105を起動する。または、算出した陰性予測割合と、定義情報記憶部103に記憶された陰性予測割合とを比較し、算出した陰性予測割合が定義情報記憶部103に記憶された陰性予測割合よりも小さい場合に、しきい値導出手段105を起動する。例えば、算出した陽性予測割合が80%であり、定義情報記憶部103に記憶された陽性予測割合が90%であれば、算出した陽性予測割合が小さいので、しきい値導出手段105が起動される。
The threshold value
しきい値導出手段105は、メトリックマップ記憶部304に記憶されたメトリックマップを参照して、メトリック値記憶部302に記憶された業務サービスメトリックのアラート判定結果と、メトリック値取得手段101によって取得された業務サービスメトリックに対応付けられたシステム性能項目のシステム性能値とにもとづいて、システム性能項目の新たなしきい値を算出し、算出したしきい値をしきい値記憶部303に記憶する。
The threshold
しきい値導出手段105は、具体的には、メトリックマップ記憶部304に記憶されたメトリックマップにおける業務サービスメトリックと業務サービスメトリックに対応付けられたシステム性能項目とを参照し、業務サービスメトリックのアラート判定結果を説明変数、システム性能項目のシステム性能値を目的変数として、業務サービスメトリックのアラート判定結果が正常である場合におけるシステム性能項目のシステム性能値を算出する多変量回帰分析を行う。
Specifically, the threshold
また、しきい値導出手段105は、記憶装置3に記憶されたメトリック定義情報、メトリック値情報、しきい値情報およびメトリックマップを管理端末4に送信する。管理端末4は、しきい値導出手段105から受けたメトリック定義情報、メトリック値情報、しきい値情報およびメトリックマップを、例えば図6に示すように画面に表示する。
Further, the
この例では、領域41に、Monito_001 を識別子とするメトリック定義情報が表示され、領域42に、Monitor_001 を識別子とするメトリック定義情報の取得時刻と、そのときのメトリック値と、しきい値記憶部303に記憶されているしきい値と、しきい値導出手段105で算出したしきい値(予測しきい値)とを1組として、時系列に一覧表示されている。
In this example, metric definition information whose identifier is Monoto_001 is displayed in the
管理端末4に表示されているボタン43が押下されると、管理端末4は、その旨の情報を監視装置1に送信する。しきい値導出手段105は、その旨の情報を受けると、しきい値記憶部303に記憶されているしきい値を、しきい値導出手段105が算出したしきい値(予測しきい値)で更新する。すなわち、しきい値導出手段105は、画面上で新たなしきい値の設定が指示された場合に、算出したしきい値をしきい値記憶部303に記憶する。
When the
次に、本実施の形態の全体の動作を説明する。
システム管理者または業務責任者は、業務サービスメトリックのアラート判定結果とシステム性能のアラート判定結果との異なりをなくすために、該当するシステム性能項目に新たなしきい値を再設定する場合、または、既に設定されているシステム性能項目のしきい値を見直す場合には、監視装置1を起動する前に、管理端末4を通じて、陽性予測割合と陰性予測割合とを定義情報記憶部103に記憶させておく。
Next, the overall operation of the present embodiment will be described.
In order to eliminate the difference between the business service metric alert judgment result and the system performance alert judgment result, the system administrator or the business manager must reset a new threshold for the corresponding system performance item or When reviewing the threshold value of the set system performance item, the positive prediction ratio and the negative prediction ratio are stored in the definition
また、管理端末4を通じて、メトリック定義情報記憶部301に記憶されているメトリック定義情報、しきい値記憶部303に記憶されているしきい値情報、およびメトリックマップ記憶部304に記憶されているメトリックマップを確認し、必要に応じて、新たなメトリック定義情報、しきい値情報、およびメトリックマップを、追加、変更または削除しておく。
In addition, the metric definition information stored in the metric definition
監視装置1は、システム管理者または業務責任者によって起動されると、図7に示す処理を開始する。なお、集合A、集合B、集合C、変数S,T,U,V,X,Yの初期値はゼロであるとする。また、変数S,T,U,Vについては、システム性能項目IDごとに異なる変数S,T,U,Vを用意する。
When the
まず、監視装置1におけるメトリック値取得手段101が、監視対象装置2からシステム性能値と業務サービスメトリック値とを取得し、アラート判定手段102が、監視対象装置2のシステム性能および業務サービスに問題が発生しているか否かを判定する。なお、アラート判定手段102は、取得した値としきい値記憶部303に記憶されているしきい値とを比較して、取得した値がしきい値を越えている場合に、問題が発生しているとする(ステップS101)。
First, the metric
次に、しきい値変更判定手段104が、メトリックマップ記憶部304のメトリックマップを集合Aに格納し(ステップS102)、集合Aから1つのメトリックマップを取り出す(ステップS103)。集合Aの取り出しに成功した場合にはステップS105に進み、失敗した場合にはステップS101に戻る(ステップS104)。
Next, the threshold value
ステップS105では、しきい値変更判定手段104が、取り出した1つのメトリックマップにおける1つの業務サービスメトリックに対応付けられた複数のシステム性能項目IDを集合Bに格納する。また、システム性能項目IDごとにS,T,U,Vを1つの変数セットとし、集合Bに格納したシステム性能項目ID分の変数セットを集合Cに格納する。そして、集合Bにシステム性能項目IDがあればステップS107に進み、なければステップS103に戻る(ステップS106)。
In step S105, the threshold value
ステップS107では、しきい値変更判定手段104が、集合Bから、1つのシステム性能項目IDを取り出す。また、集合Bから取り出したシステム性能項目IDに対応するS,T,U,Vの変数セットを集合Cから取り出す。そして、ステップS107で取り出したシステム性能項目IDに対応付けられた業務サービスメトリックに問題が発生していればステップS109に進み、発生していなければステップS110に進む(ステップS108)。
In step S107, the threshold value
ステップS109では、しきい値変更判定手段104は、ステップS107で取り出したシステム性能項目IDに問題が発生していればステップS111に進み、発生していなければステップS112に進む。ステップS111では、しきい値変更判定手段104は、ステップS107で取り出した変数セットのSに1を加算し、ステップS115に進む。ステップS112では、ステップS107で取り出した変数セットのTに1を加算し、ステップS115に進む。
In step S109, the threshold value
ステップS110では、しきい値変更判定手段104は、ステップS107で取り出したシステム性能項目IDに問題が発生していればステップS113に進み、発生していなければステップS114に進む。ステップS113では、ステップS107で取り出した変数セットのUに1を加算し、ステップS115に進む。ステップS114では、ステップS107で取り出した変数セットのVに1を加算し、ステップS115に進む。 In step S110, the threshold value change determination means 104 proceeds to step S113 if a problem has occurred in the system performance item ID extracted in step S107, and proceeds to step S114 if it has not occurred. In step S113, 1 is added to U of the variable set extracted in step S107, and the process proceeds to step S115. In step S114, 1 is added to V of the variable set extracted in step S107, and the process proceeds to step S115.
ステップS115では、しきい値変更判定手段104は、ステップS107で取り出した変数セット、およびステップS111〜ステップS114の処理で加算された変数を用いて、陽性予測割合と陰性予測割合とを算出する。そして、陽性予測割合をXとし、Xには、SとUとを加算した数でSを除算した数を格納する。また、陰性予測割合をYとし、Yには、TとVとを加算した数でVを除算した数を格納する。
In step S115, the threshold value
次に、しきい値変更判定手段104は、定義情報記憶部103に記憶されている陽性予測割合をX’に格納し、定義情報記憶部103に記憶されている陰性予測割合をY’に格納する(ステップS116)。そして、XとX’とを比較し、XがX’よりも大きければステップS120に進み、小さければステップS118に進む。または、YとY’を比較し、YがY’よりも大きければステップS120に進み、小さければステップS118に進む(ステップS117)。
Next, the threshold value
ステップS118では、しきい値導出手段105が、ステップS107で取り出したシステム性能項目IDをもつしきい値を新たに算出し、算出したしきい値をしきい値記憶部303に記憶する。
In step S118, the threshold
次に、しきい値導出手段105は、算出したシステム性能項目IDに対応するS,T,U,Vの変数セットのすべてにゼロを格納し、ステップS120に進む(ステップS119)。ステップS120では、ステップS107で取り出したシステム性能項目IDに対応するS,T,U,Vの変数セットを、集合Cに格納し、ステップS106へ戻る。
Next, the threshold
本実施の形態では、業務サービスメトリックのアラート判定結果とシステム性能のアラート判定結果との異なりをなくして、アラート自体を常に適切に通知することが可能になる。その理由は、業務サービスメトリックのアラート判定結果と異なるシステム性能項目に新たなしきい値を再設定することができるためである。 In the present embodiment, it is possible to always appropriately notify the alert itself by eliminating the difference between the business service metric alert judgment result and the system performance alert judgment result. The reason is that a new threshold value can be reset to a system performance item different from the alert determination result of the business service metric.
また、本実施の形態では、新たなしきい値を再設定する場合や既に設定されているシステム性能項目のしきい値を見直す場合等に、定義情報記憶部103に記憶される陽性予測割合または陰性予測割合を非常に大きく設定することによって、ステップS117からステップS118へと強制的に処理を進めて、既に設定されているシステム性能項目のしきい値を見直すことができる。そのような処理は、新たな業務サービスメトリックやシステム性能項目を設定したときに、既に設定されているシステム性能項目を見直すことが明確な場合に有効な手段になる。
Further, in the present embodiment, when a new threshold value is reset or when a threshold value of a system performance item that has already been set is reviewed, the positive prediction ratio or negative value stored in the definition
実施の形態2.
次に、第1の実施の形態の変形例である第2の実施の形態(実施の形態2)を説明する。図8は、第2の実施の形態を利用した運用保守コンサルティングの利用形態を示す説明図である。
Next, a second embodiment (Embodiment 2), which is a modification of the first embodiment, will be described. FIG. 8 is an explanatory diagram showing a usage form of operation and maintenance consulting using the second embodiment.
図8(A)に示す形態は、顧客システム10と、運用保守システム20と、運用保守コンサルティングシステム30とで構成される。顧客システム10と運用保守システム20とは通信ネットワーク40を介して接続される。運用保守システム20と運用保守コンサルティングシステム30とは通信ネットワーク40を介して接続される。なお、各システム間で送受信されるデータは、暗号化されてもよい。
The form shown in FIG. 8A includes a
顧客200は、顧客システム10を所有する。また、運用保守サービスを提供する者(以下、運用保守サービス提供者という。)100は、運用保守システム20を所有する。また、運用保守をコンサルティングする者(以下、運用保守コンサルティング提供者という。)300は、運用保守コンサルティングシステム30を所有する。図8(B)に示すように、顧客は、運用保守システム20によって、顧客システムの運用保守サービスを受ける。運用保守サービスでは、システム性能または業務サービスの問題が発生している場合に、問題が発生していることが顧客システム10に通知される。顧客は、運用保守サービスを享受する対価を支払う。
The
図8(B)に示すように、運用保守サービス提供者は、顧客に運用保守サービスを提供する。また、運用保守サービス提供者は、運用保守コンサルティングシステム30によって、運用保守サービスを改善するための運用保守コンサルティングサービスを受ける。運用保守コンサルティングサービスでは、業務サービスメトリックのアラート判定結果と異なるシステム性能項目に対して、新たなしきい値情報が提供される。運用保守サービス提供者は、運用保守コンサルティングサービスを享受する対価を支払う。
As shown in FIG. 8B, the operation and maintenance service provider provides the operation and maintenance service to the customer. The operation and maintenance service provider receives an operation and maintenance consulting service for improving the operation and maintenance service by the operation and
運用保守コンサルティング提供者は、運用保守サービス提供者に運用保守コンサルティングサービスを提供する。 The operation and maintenance consulting provider provides the operation and maintenance consulting service to the operation and maintenance service provider.
図9は、監視システムの第2の実施の形態の構成例を示すブロック図である。第1の実施の形態と同じ構成要素については、図1における符号と同じ符号を付して、説明を省略する。 FIG. 9 is a block diagram illustrating a configuration example of the second embodiment of the monitoring system. The same constituent elements as those of the first embodiment are denoted by the same reference numerals as those in FIG.
顧客システム10は、監視対象装置2と管理端末4aとを備えている。管理端末4aは、記憶装置3aのメトリック定義情報記憶部301に記憶されたメトリック定義情報、しきい値記憶部303に記憶されたしきい値値情報、およびアラート判定手段102から送信されるアラート判定結果を画面に表示する。
The
運用保守システム20は、監視装置1aと、記憶装置3aと、管理端末4bとを備えている。監視装置1aは、メトリック値取得手段101とアラート判定手段102とを含む。アラート判定手段102は、第1の実施の形態の動作に加えて、さらに他の動作も行う。記憶装置3aは、メトリック定義情報記憶部301と、しきい値記憶部303とを含む。
The operation and
管理端末4bは、記憶装置3aのメトリック定義情報記憶部301に記憶されたメトリック定義情報、しきい値記憶部303に記憶されたしきい値情報、および記憶装置3bのメトリック値記憶部に記憶されたメトリック値情報、記憶装置3bのしきい値記憶部303に記憶されたしきい値情報、および記憶装置3bのメトリックマップ記憶部304に記憶されたメトリックマップを画面に表示する。
The management terminal 4b is stored in the metric definition information stored in the metric definition
運用保守コンサルティングシステム30は、監視装置1bと、記憶装置3bと、管理端末4cとを含む。監視装置1bは、定義情報記憶部103と、しきい値変更判定手段104と、しきい値導出手段105とを含む。記憶装置3bは、メトリック値記憶部302と、しきい値記憶部303と、メトリックマップ記憶部304とを含む。
The operation and
管理端末4cは、記憶装置3bのメトリック値記憶部302に記憶されたメトリック値情報、記憶装置3bのしきい値記憶部303に記憶されたしきい値情報、および記憶装置3bのメトリックマップ記憶部304に記憶されたメトリックマップを画面に表示する。
The management terminal 4c includes metric value information stored in the metric
メトリック値取得手段101、アラート判定手段102、定義情報記憶部103、しきい値変更判定手段104およびしきい値導出手段105のそれぞれは、第1の実施の形態における動作と同じ動作を行う。
Each of the metric
アラート判定手段102は、第1の実施の形態の場合と同様に、メトリック値取得手段101が取得したシステム性能値および業務サービスメトリック値と、記憶装置3aのしきい値記憶部303に記憶されているしきい値とにもとづいて、監視対象装置2にシステム性能および業務サービスの問題が発生しているか否かを判定する。本実施の形態では、そのアラート判定結果を、しきい値変更判定手段104に渡すとともに、さらに、顧客システム10における管理端末4aにも渡す。
As in the case of the first embodiment, the
本実施の形態では、第1の実施の形態の効果に加えて、複数の運用保守システムに対して、1つの運用保守コンサルティングシステムで運用保守コンサルティングサービスを提供することができるという効果がある。その理由は、本実施の形態では、監視システムが、運用保守サービスを提供する監視装置1aと、運用保守コンサルティングサービスを提供する監視装置1bとに分割されているためである。 In this embodiment, in addition to the effect of the first embodiment, there is an effect that an operation and maintenance consulting service can be provided to a plurality of operation and maintenance systems with one operation and maintenance consulting system. This is because, in this embodiment, the monitoring system is divided into a monitoring device 1a that provides an operation and maintenance service and a monitoring device 1b that provides an operation and maintenance consulting service.
なお、本発明は上記の各実施の形態に限定されず、その他各種の付加変更が可能である。例えば、本発明の監視対象装置2は、1台に限られず、1以上の複数台であってもよい。また、本発明の監視装置1は、監視対象装置2と物理的に別のコンピュータである必要はなく、何れかの監視対象装置2を構成するコンピュータを、監視装置1として使用することも可能である。
The present invention is not limited to the above embodiments, and various other additions and changes can be made. For example, the
また、本発明の監視装置1の機能をハードウェア的に実現することができるが、コンピュータとプログラムとで実現することもできる。プログラムは、磁気ディスクや半導体メモリなどのコンピュータ可読記憶媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することによって、そのコンピュータを上記の各実施の形態における監視装置1として機能させ、上記の処理を実行させる。
Moreover, although the function of the
本発明は、インターネットを介してデータのやり取りをしたり共有したりすることが可能な情報処理システムを監視する装置および方法として有用であり、特に、業務サービスとシステム性能が監視対象である監視対象装置を運用保守する運用保守サービスを支援する運用保守コンサルティングに好適に適用される。 INDUSTRIAL APPLICABILITY The present invention is useful as an apparatus and method for monitoring an information processing system capable of exchanging and sharing data via the Internet, and in particular, a monitoring target whose business service and system performance are monitoring targets. The present invention is suitably applied to operation and maintenance consulting that supports an operation and maintenance service for operating and maintaining an apparatus.
1、1a、1b 監視装置
101 メトリック値取得手段
102 アラート判定手段
103 定義情報記憶部
104 しきい値変更判定手段
105 しきい値導出手段
2 監視対象装置
3、3a、3b 記憶装置
301 メトリック定義情報記憶部
302 メトリック値記憶部
303 しきい値記憶部
304 メトリックマップ記憶部
4、4a、4b、4c 管理端末
10 顧客システム
20 運用保守システム
30 運用保守コンサルティングシステム
40 通信ネットワーク
DESCRIPTION OF
Claims (9)
1つの業務サービスメトリックと1以上のシステム性能項目との関係を示すメトリックマップを記憶するメトリックマップ記憶部と、
前記アラート判定手段によって正常と判定された業務サービスメトリックによるアラート判定結果と、前記メトリックマップにおいて該業務サービスメトリックに対応付けられたシステム性能項目と、該システム性能項目のシステム性能値とにもとづいて、該業務サービスメトリックのアラート判定結果が正常なときの該システム性能値を回帰分析により算出し、算出結果をしきい値記憶部に記憶するしきい値導出手段と
を備えたことを特徴とする監視装置。 A system performance value or business service metric transmitted from a metric value acquisition means for acquiring one or more system performance values and one or more business service metric values of the monitoring target device according to the metric definition information stored in the metric definition information storage unit The value is stored in the metric value storage unit, and the system performance and business service problems are detected in the monitored device according to the business service metric threshold value and the system performance item threshold value stored in the threshold value storage unit. In a monitoring device provided with alert determination means for determining whether or not it has occurred,
A metric map storage unit for storing a metric map indicating a relationship between one business service metric and one or more system performance items;
Based on the alert determination result by the business service metric determined to be normal by the alert determination means, the system performance item associated with the business service metric in the metric map, and the system performance value of the system performance item, And a threshold deriving means for calculating the system performance value when the alert judgment result of the business service metric is normal by regression analysis and storing the calculation result in a threshold storage unit. apparatus.
定義情報記憶部に記憶されている陽性予測割合と陰性予測割合に従って、しきい値記憶部に記憶されているシステム性能項目のしきい値を変更するか否かを判定するしきい値変更判定手段と
を備えた請求項1記載の監視装置。 A system with a positive predictive ratio indicating how often the alert judgment result of the business service metric is normal and the alert judgment result of the system performance is normal, and the alert judgment result of the business service metric is abnormal A definition information storage unit that stores a negative prediction ratio indicating how much the case where the performance alert determination result is also abnormal, and
Threshold value change determination means for determining whether to change the threshold value of the system performance item stored in the threshold value storage unit according to the positive prediction ratio and negative prediction ratio stored in the definition information storage unit The monitoring device according to claim 1, further comprising:
しきい値導出手段は、算出したしきい値を前記管理端末の画面に表示させ、画面上でしきい値の設定が指示された場合に、当該しきい値を新たなしきい値としてしきい値記憶部に記憶させる
請求項2記載の監視装置。 Connected to the management terminal including the display means,
The threshold value derivation means displays the calculated threshold value on the screen of the management terminal, and when the threshold value setting is instructed on the screen, the threshold value derivation unit sets the threshold value as a new threshold value. The monitoring device according to claim 2, which is stored in a storage unit.
前記記憶装置は、メトリック定義情報を記憶するメトリック定義情報記憶部と、監視対象装置の1以上のシステム性能値と1以上の業務サービスメトリック値を記憶するメトリック値記憶部と、システム性能項目のしきい値と業務サービスメトリックのしきい値を記憶するしきい値記憶部と、1つの業務サービスメトリックと1以上のシステム性能項目との関係を示すメトリックマップを記憶するメトリックマップ記憶部とを含み、
前記監視装置は、メトリック定義情報記憶部に記憶されたメトリック定義情報に従って、監視対象装置の1以上のシステム性能値と1以上の業務サービスメトリック値を取得するメトリック値取得手段と、前記メトリック値取得手段から送信されるシステム性能値または業務サービスメトリック値を前記メトリック値記憶部に記憶し、監視対象装置にシステム性能および業務サービスの問題が発生しているか否かを判定するアラート判定手段と、業務サービスメトリックのアラート判定結果が正常でありシステム性能のアラート判定結果も正常である場合がどの程度の割合で発生するかを示す陽性予測割合と、業務サービスメトリックのアラート判定結果が異常でありシステム性能のアラート判定結果も異常である場合がどの程度の割合で発生するかを示す陰性予測割合を記憶する定義情報記憶部と、前記しきい値記憶部に記憶されているシステム性能項目のしきい値を変更するか否かを判定するしきい値変更判定手段と、前記アラート判定手段によって正常と判定された業務サービスメトリックによるアラート判定結果と、前記メトリックマップにおいて該業務サービスメトリックに対応付けられたシステム性能項目と、該システム性能項目のシステム性能値とにもとづいて、該業務サービスメトリックのアラート判定結果が正常なときの該システム性能値を回帰分析により算出し、算出結果をしきい値記憶部に記憶するしきい値導出手段とを含む
ことを特徴とする監視システム。 A plurality of monitoring target devices, a monitoring device connected to be able to communicate with the plurality of monitoring target devices, a management terminal connected to be able to communicate with the monitoring device, and a connection to be able to communicate with the monitoring device and the management terminal A monitoring system comprising a storage device,
The storage device includes a metric definition information storage unit that stores metric definition information, a metric value storage unit that stores one or more system performance values and one or more business service metric values of the monitoring target device, and a system performance item. A threshold value storage unit for storing a threshold value and a threshold value for a business service metric; and a metric map storage unit for storing a metric map indicating a relationship between one business service metric and one or more system performance items;
The monitoring device includes a metric value acquisition unit that acquires one or more system performance values and one or more business service metric values of the monitoring target device according to the metric definition information stored in the metric definition information storage unit, and the metric value acquisition Alert determination means for storing a system performance value or a business service metric value transmitted from the means in the metric value storage unit, and determining whether a problem of system performance and business service has occurred in the monitored device; A positive prediction ratio indicating how often the service metric alert judgment result is normal and the system performance alert judgment result is normal, and the business service metric alert judgment result is abnormal and the system performance The percentage of cases where the alert judgment result is abnormal A definition information storage unit that stores a negative prediction ratio indicating whether to perform, a threshold value change determination unit that determines whether to change a threshold value of a system performance item stored in the threshold value storage unit, , Based on the alert determination result by the business service metric determined to be normal by the alert determination means, the system performance item associated with the business service metric in the metric map, and the system performance value of the system performance item And a threshold value deriving unit that calculates the system performance value when the alert determination result of the business service metric is normal by regression analysis and stores the calculation result in a threshold value storage unit. system.
請求項4記載の監視システム。 The threshold value derivation means transmits the calculated threshold value to the management terminal and displays it on the screen of the management terminal. When the threshold setting is instructed on the screen, the threshold value deriving means The monitoring system according to claim 4, wherein the threshold value storage unit stores the threshold value as a threshold value.
前記コンピュータが、
業務サービスメトリックのしきい値とシステム性能項目のしきい値に従って、監視対象装置にシステム性能および業務サービスの問題が発生しているか否かを判定してアラート判定結果を記憶部に記憶し、
前記記憶部に記憶された正常と判定された業務サービスメトリックによるアラート判定結果と、該業務サービスメトリックに対応付けられたシステム性能項目と、該システム性能項目のシステム性能値とにもとづいて、該業務サービスメトリックのアラート判定結果が正常なときの該システム性能値を回帰分析により算出して算出結果を記憶し、
前記算出結果を前記管理端末に出力し、
前記管理端末からの指示に従って、管理端末に出力された新たなしきい値を、記憶部に記憶されるシステム性能項目のしきい値として設定し、
監視対象装置から送信されるシステム性能値と業務サービスメトリック値を受信して記憶する
ことを特徴とする監視方法。 In a method of monitoring a monitoring target device by a computer that is communicably connected to a plurality of monitoring target devices,
The computer is
According to the threshold value of the business service metric and the threshold value of the system performance item, it is determined whether there is a problem with the system performance and the business service in the monitored device, and the alert determination result is stored in the storage unit.
Based on the alert determination result based on the business service metric determined to be normal stored in the storage unit, the system performance item associated with the business service metric, and the system performance value of the system performance item, the business The system performance value when the service metric alert judgment result is normal is calculated by regression analysis, and the calculation result is stored.
Outputting the calculation result to the management terminal;
In accordance with an instruction from the management terminal, a new threshold value output to the management terminal is set as a threshold value of the system performance item stored in the storage unit,
A monitoring method comprising receiving and storing a system performance value and a business service metric value transmitted from a monitoring target device.
記憶部に記憶されている業務サービスメトリックのアラート判定結果が正常でありシステム性能のアラート判定結果も正常である場合がどの程度の割合で発生するかを示す陽性予測割合と業務サービスメトリックのアラート判定結果が異常でありシステム性能のアラート判定結果も異常である場合がどの程度の割合で発生するかを示す陰性予測割合に従って、システム性能項目のしきい値を変更するか否かを判定する
請求項6記載の監視方法。 When calculating system performance values by regression analysis,
Business service metric alert judgment and business service metric alert judgment indicating how often the business service metric alert judgment result stored in the storage unit is normal and the system performance alert judgment result is normal A determination is made as to whether or not to change the threshold value of the system performance item according to a negative predictive ratio indicating a rate at which the result is abnormal and the system performance alert determination result is also abnormal. 6. The monitoring method according to 6.
業務サービスメトリックのしきい値とシステム性能項目のしきい値に従って、監視対象装置にシステム性能および業務サービスの問題が発生しているか否かを判定してアラート判定結果を記憶部に記憶する処理と、
記憶部に記憶された正常と判定された業務サービスメトリックによるアラート判定結果と、該業務サービスメトリックに対応付けられたシステム性能項目と、該システム性能項目のシステム性能値とにもとづいて、該業務サービスメトリックのアラート判定結果が正常なときの該システム性能値を回帰分析により算出して算出結果を記憶する処理と、
前記算出結果を管理端末に出力する処理と、
前記管理端末からの指示に従って、管理端末に出力された新たなしきい値を、記憶部に記憶されたシステム性能項目のしきい値として設定する処理と、
監視対象装置から送信されるシステム性能値と業務サービスメトリック値を受信して記憶部に記憶するの処理と
を実行させるための監視プログラム。 To a computer that is communicably connected to multiple monitored devices,
Processing for determining whether system performance and business service problems have occurred in the monitored device according to the business service metric threshold value and the system performance item threshold value, and storing the alert determination result in the storage unit; ,
Based on the alert determination result based on the business service metric determined to be normal stored in the storage unit, the system performance item associated with the business service metric, and the system performance value of the system performance item, the business service Processing for calculating the system performance value when the alert determination result of the metric is normal by regression analysis and storing the calculation result;
Processing to output the calculation result to a management terminal;
In accordance with an instruction from the management terminal, a process of setting a new threshold value output to the management terminal as a threshold value of the system performance item stored in the storage unit;
A monitoring program for executing a process of receiving a system performance value and a business service metric value transmitted from a monitoring target device and storing them in a storage unit.
記憶部に記憶させている業務サービスメトリックのアラート判定結果が正常でありシステム性能のアラート判定結果も正常である場合がどの程度の割合で発生するかを示す陽性予測割合と業務サービスメトリックのアラート判定結果が異常でありシステム性能のアラート判定結果も異常である場合がどの程度の割合で発生するかを示す陰性予測割合に従って、システム性能項目のしきい値を変更するか否かを判定させるための
請求項8記載の監視プログラム。 When calculating system performance values by regression analysis,
Business service metric alert judgment and business service metric alert judgment indicating the percentage of cases where the business service metric alert judgment result stored in the storage unit is normal and the system performance alert judgment result is also normal To determine whether or not to change the threshold value of the system performance item according to the negative prediction ratio that indicates the rate at which the result is abnormal and the system performance alert determination result is also abnormal The monitoring program according to claim 8.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007002089A JP2008171104A (en) | 2007-01-10 | 2007-01-10 | Monitoring apparatus, monitoring system, monitoring method and monitoring program for monitoring business service and system performance |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007002089A JP2008171104A (en) | 2007-01-10 | 2007-01-10 | Monitoring apparatus, monitoring system, monitoring method and monitoring program for monitoring business service and system performance |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008171104A true JP2008171104A (en) | 2008-07-24 |
Family
ID=39699151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007002089A Pending JP2008171104A (en) | 2007-01-10 | 2007-01-10 | Monitoring apparatus, monitoring system, monitoring method and monitoring program for monitoring business service and system performance |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008171104A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010152539A (en) * | 2008-12-24 | 2010-07-08 | Nec Corp | Failure detection system verification device, failure detection system verification method and failure detection system verification control program |
CN112714125A (en) * | 2020-12-29 | 2021-04-27 | 成都知道创宇信息技术有限公司 | System safety monitoring method and device, storage medium and electronic equipment |
WO2022196625A1 (en) * | 2021-03-19 | 2022-09-22 | 日本電気株式会社 | Operation management device, system, and method, and computer-readable medium |
-
2007
- 2007-01-10 JP JP2007002089A patent/JP2008171104A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010152539A (en) * | 2008-12-24 | 2010-07-08 | Nec Corp | Failure detection system verification device, failure detection system verification method and failure detection system verification control program |
CN112714125A (en) * | 2020-12-29 | 2021-04-27 | 成都知道创宇信息技术有限公司 | System safety monitoring method and device, storage medium and electronic equipment |
WO2022196625A1 (en) * | 2021-03-19 | 2022-09-22 | 日本電気株式会社 | Operation management device, system, and method, and computer-readable medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8645769B2 (en) | Operation management apparatus, operation management method, and program storage medium | |
US8930757B2 (en) | Operations management apparatus, operations management method and program | |
US9274869B2 (en) | Apparatus, method and storage medium for fault cause extraction utilizing performance values | |
US9778972B2 (en) | Operation management device, operation management method | |
JP5277667B2 (en) | Failure analysis system, failure analysis method, failure analysis server, and failure analysis program | |
EP3239840B1 (en) | Fault information provision server and fault information provision method | |
JP5659108B2 (en) | Operation monitoring device, operation monitoring program, and recording medium | |
JP2013150083A (en) | Network abnormality detection device and network abnormality detection method | |
JP2008171104A (en) | Monitoring apparatus, monitoring system, monitoring method and monitoring program for monitoring business service and system performance | |
CN112804333A (en) | Exception handling method, device and equipment for out-of-block node and storage medium | |
CN110673973B (en) | Abnormality determination method and device for application programming interface API | |
WO2017169949A1 (en) | Log analysis device, log analysis method, and recording medium for storing program | |
JP5623333B2 (en) | Monitoring server and monitoring evaluation method | |
JP2009193238A (en) | System load monitoring method | |
JP6627258B2 (en) | System model generation support device, system model generation support method, and program | |
JP4934660B2 (en) | Communication bandwidth calculation method, apparatus, and traffic management method | |
JP2007264907A (en) | Fault notification system, fault notification method, and fault notification program | |
JP2014010538A (en) | Operation management device, operation management system, and operation management method | |
JP2005141466A (en) | Computer monitoring device and message processing method for processing message about computer to be monitored | |
US9054995B2 (en) | Method of detecting measurements in service level agreement based systems | |
JP5380386B2 (en) | Device information management system and method | |
JPWO2014061529A1 (en) | Information processing apparatus, information processing method, and program | |
JP2019028573A (en) | Display control program, display control method and display control device | |
JP7303461B2 (en) | Recovery determination device, recovery determination method, and recovery determination program | |
US10296493B2 (en) | Distributed data processing system and distributed data processing method |