JP2003263342A - Monitoring device and monitoring method and program for information processor - Google Patents

Monitoring device and monitoring method and program for information processor

Info

Publication number
JP2003263342A
JP2003263342A JP2002062138A JP2002062138A JP2003263342A JP 2003263342 A JP2003263342 A JP 2003263342A JP 2002062138 A JP2002062138 A JP 2002062138A JP 2002062138 A JP2002062138 A JP 2002062138A JP 2003263342 A JP2003263342 A JP 2003263342A
Authority
JP
Japan
Prior art keywords
monitoring
item
items
load
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002062138A
Other languages
Japanese (ja)
Inventor
Hiroyoshi Ueno
広義 植野
Original Assignee
Ntt Data Corp
Telecommunication Advancement Organization Of Japan
株式会社エヌ・ティ・ティ・データ
通信・放送機構
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ntt Data Corp, Telecommunication Advancement Organization Of Japan, 株式会社エヌ・ティ・ティ・データ, 通信・放送機構 filed Critical Ntt Data Corp
Priority to JP2002062138A priority Critical patent/JP2003263342A/en
Publication of JP2003263342A publication Critical patent/JP2003263342A/en
Pending legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To provide a monitoring device and a monitoring method and program for an information processor that can set a monitored item and an upper limit and lower limit of a threshold thereof even in the absence of knowledge of system management, and select a monitored item and decide a threshold in conformance to specific conditions of each information processor such as the configuration and available service use status of the information processor, and can detect a conventionally undetected abnormal state under a situation with a low load on and no failure in the information processor. <P>SOLUTION: The monitoring device 1 statistically selects a monitored item from among resource items in an information processor 2, and statistically decides an upper limit and lower limit of a threshold allowable for the monitored item. Whether the state of the information processor 2 is normal or abnormal is determined according to whether the value of the monitored item during normal operation of the information processor 2 is in the range of the threshold. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、情報処理装置に
係り、特に、情報処理装置の監視装置および監視方法並
びにそのプログラムに関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information processing device, and more particularly to a monitoring device and a monitoring method for the information processing device and a program therefor.

【0002】[0002]

【従来の技術】従来、例えばWebサイトを開設する情
報処理装置における異常状態の検知方法では、システム
管理者が経験に基づいて監視対象となる情報処理装置の
監視項目を選択し、監視項目から得られる値に一つの閾
値を設け、その値が閾値を超えた場合にシステムが異常
であると判断する方法を用いていた。
2. Description of the Related Art Conventionally, for example, in a method of detecting an abnormal state in an information processing apparatus that opens a Web site, a system administrator selects a monitoring item of the information processing apparatus to be monitored based on experience and obtains from the monitoring items. One threshold value is set for the value that is set, and when the value exceeds the threshold value, the system is determined to be abnormal.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上述の
情報処理装置の異常状態の検知方法では、監視項目の選
定や閾値の決定に、システム管理者の豊富な経験や知識
が必要となり、また、情報処理装置の構成や稼動してい
るサービスの利用状況といった情報処理装置毎に固有の
条件に適合した監視項目の選定や、各監視項目における
値の閾値を決定することが難しかった。さらに、そこで
設けた閾値は情報処理装置における能力の限界を示すも
のであり、ハードウェア障害等の故障や高負荷状態の検
知しかできなかった。そこでこの発明は、システム管理
者の豊富な経験や知識が必要なく、また、情報処理装置
の構成や稼動しているサービスの利用状況といった情報
処理装置毎に固有の条件に適合した監視項目選定や、そ
の監視項目で得られる値に基づいた閾値の決定が可能と
なる機能を備え、さらに、従来では異常が検知出来なか
った、情報処理装置にかかる負荷が低く故障も起きてい
ないような状況下での異常状態を検知することが可能と
なる機能を備えた、情報処理装置の監視装置および監視
方法並びにそのプログラムを提供することを目的として
いる。
However, the above-described method for detecting an abnormal state of the information processing apparatus requires a wealth of experience and knowledge of the system administrator in selecting the monitoring items and determining the threshold value. It has been difficult to select monitoring items that match the unique conditions of each information processing device such as the configuration of the processing device and the usage status of the services that are operating, and to determine the threshold value for each monitoring item. Furthermore, the threshold provided there indicates the limit of the capability of the information processing apparatus, and only the failure such as hardware failure and the high load state can be detected. Therefore, the present invention does not require a wealth of experience and knowledge of a system administrator, and also enables selection of monitoring items that meet the conditions unique to each information processing device such as the configuration of the information processing device and the usage status of operating services. In addition, it has a function that enables the determination of the threshold value based on the value obtained by the monitoring item, and further, in the situation where an abnormality could not be detected in the past, the load on the information processing device is low and no failure occurs. An object of the present invention is to provide a monitoring device for an information processing device, a monitoring method, and a program thereof, which are provided with a function that makes it possible to detect an abnormal state.

【0004】[0004]

【課題を解決するための手段】上記目的を達成するため
に、本発明は、監視対象の情報処理装置とネットワーク
を介して接続された監視装置であって、前記情報処理装
置に段階的な負荷をかける実際の利用状況を想定したワ
ークロードでの負荷試験時に前記情報処理装置内におけ
る複数のリソース項目及びシステム性能を表す項目の実
測データを収集する実測データ収集手段と、前記負荷試
験における前記システム性能を表す項目と前記各リソー
ス項目との相関係数を前記実測データ収集手段で収集し
た実測データに基づいて算出し、前記システム性能を表
す項目との関連の強い複数のリソース項目を選出する相
関係数算出手段と、前記相関係数算出手段で選出した複
数のリソース項目に対して、異なる複数の分析条件毎に
クラスター分析を行って複数のグループにグループ化
し、さらに各グループ内のリソース項目から、異なる指
標毎にグループを代表するリソース項目を選出し監視項
目候補とする監視項目候補選出手段と、前記システム性
能を表す項目を目的変数、前記監視項目候補選出手段に
おいて選出された前記監視項目候補を説明変数として重
回帰分析を行い、結果として得られた複数の重回帰分析
結果のうち最も妥当な重回帰分析結果の重回帰分析で用
いられた監視項目候補を監視項目として選出する監視項
目選出手段と、前記監視項目選出手段において選出した
監視項目の前記実測データ収集手段で収集した実測デー
タに基づいて前記負荷試験における負荷度合いに応じた
前記監視項目の最大許容値及び最小許容値を閾値として
決定する閾値決定手段とを備えることを特徴とする監視
装置である。
In order to achieve the above object, the present invention is a monitoring device connected to an information processing device to be monitored via a network, wherein the information processing device has a gradual load. Actual measurement data collecting means for collecting actual measurement data of a plurality of resource items in the information processing device and items representing system performance during a load test under a workload assuming an actual usage situation, and the system in the load test. A phase for calculating a correlation coefficient between an item representing performance and each of the resource items based on the actual measurement data collected by the actual data collection means, and selecting a plurality of resource items having a strong relationship with the item representing the system performance. A cluster analysis is performed for each of a plurality of different analysis conditions for the plurality of resource items selected by the correlation number calculation means and the correlation coefficient calculation means. By grouping into a plurality of groups, further, from the resource items in each group, a resource item representative of the group for each different index is selected as a monitoring item candidate selecting means, and an item representing the system performance. Multiple regression analysis is performed using the objective variable and the monitoring item candidate selected by the monitoring item candidate selecting means as an explanatory variable, and the multiple regression analysis result is the most appropriate multiple regression analysis result. A monitoring item selecting means for selecting the monitoring item candidate used in the analysis as a monitoring item, and a load degree in the load test based on the actual measurement data collected by the actual measurement data collecting device of the monitoring item selected by the monitoring item selecting means. Threshold value determining means for determining the maximum allowable value and the minimum allowable value of the monitoring item according to A monitoring apparatus characterized.

【0005】また、請求項2に記載の発明は、請求項1
に記載の監視装置において、前記情報処理装置の通常稼
動時に前記監視項目毎のデータ値を収集する第1の手段
と、前記第1の手段において収集した前記監視項目毎の
データ値と前記負荷数の度合いに応じた前記閾値とを比
較し、前記データ値が前記閾値の範囲に収まった場合
に、その閾値に対応する前記負荷数の度合いを記憶する
第2の手段と、前記監視項目毎に前記第2の手段で記憶
した前記負荷数の度合いを比較して、前記監視項目全て
に渡って同じ前記負荷数の度合いを記憶していない場
合、前記情報処理装置は異常であると判断する第3の手
段とを備えることを特徴とする。
The invention described in claim 2 is the same as claim 1.
The monitoring device according to claim 1, wherein the first means collects data values for each monitoring item during normal operation of the information processing device, the data values for each monitoring item collected by the first means, and the number of loads. And a second means for storing the degree of the load number corresponding to the threshold when the data value falls within the threshold range, and for each of the monitoring items. Comparing the degrees of load stored by the second means, and judging that the information processing apparatus is abnormal when the same degree of load is not stored for all the monitoring items. 3 means are provided.

【0006】また、請求項3に記載の発明は、監視対象
の情報処理装置とネットワークを介して接続された監視
装置における前記情報処理装置の監視方法において、前
記情報処理装置に段階的な負荷をかける実際の利用状況
を想定したワークロードでの負荷試験時に前記情報処理
装置内における複数のリソース項目及びシステム性能を
表す項目の実測データを収集する実測データ収集過程
と、前記負荷試験における前記システム性能を表す項目
と前記各リソース項目との相関係数を前記実測データ収
集過程で収集した実測データに基づいて算出し、前記シ
ステム性能を表す項目との関連の強い複数のリソース項
目を選出する相関係数算出過程と、前記相関係数算出過
程で選出した複数のリソース項目に対して、異なる複数
の分析条件毎にクラスター分析を行って複数のグループ
にグループ化し、さらに各グループ内のリソース項目か
ら、異なる指標毎にグループを代表するリソース項目を
選出し監視項目候補とする監視項目候補選出過程と、前
記システム性能を表す項目を目的変数、前記監視項目候
補選出過程において選出された前記監視項目候補を説明
変数として重回帰分析を行い、結果として得られた複数
の重回帰分析結果のうち最も妥当な重回帰分析結果の重
回帰分析で用いられた監視項目候補を監視項目として選
出する監視項目選出過程と、前記監視項目選出過程にお
いて選出した監視項目の前記実測データ収集過程で収集
した実測データに基づいて前記負荷試験における負荷度
合いに応じた前記監視項目の最大許容値及び最小許容値
を閾値として決定する閾値決定過程とを備えることを特
徴とする監視方法である。
According to a third aspect of the present invention, in the method of monitoring the information processing device in the monitoring device connected to the information processing device to be monitored via the network, a stepwise load is applied to the information processing device. An actual data collection process of collecting actual measurement data of a plurality of resource items in the information processing device and an item representing system performance during a load test under a workload assuming the actual usage situation, and the system performance in the load test. Is calculated based on the actual measurement data collected in the actual measurement data collection process, and the correlation coefficient between the item indicating the above item and each resource item is selected, and a plurality of resource items having a strong relationship with the item indicating the system performance are selected. The number calculation process and the plurality of resource items selected in the correlation coefficient calculation process are classified according to different analysis conditions. Grouping into a plurality of groups by performing a data analysis, and further selecting a resource item representative of the group for each different index from the resource items in each group and selecting a monitoring item candidate as a monitoring item candidate, and the system performance. The item representing the objective variable, multiple regression analysis is performed with the monitoring item candidate selected in the monitoring item candidate selection process as an explanatory variable, and the most appropriate multiple regression analysis result among the multiple regression analysis results obtained. Monitoring item selection process of selecting a monitoring item candidate used in multiple regression analysis of the monitoring item, and the load test based on the actual measurement data collected in the actual measurement data collection process of the monitoring item selected in the monitoring item selection process. And a threshold value determining process of determining the maximum and minimum allowable values of the monitoring item according to the load degree in A monitoring method, characterized in that it comprises.

【0007】また、請求項4に記載の発明は、請求項3
に記載の監視方法において、前記情報処理装置の通常稼
動時に前記監視項目毎のデータ値を収集する第1の過程
と、前記第1の過程において収集した前記監視項目毎の
データ値と前記負荷数の度合いに応じた前記閾値とを比
較し、前記データ値が前記閾値の範囲に収まった場合
に、その閾値に対応する前記負荷数の度合いを記憶する
第2の過程と、前記監視項目毎に前記第2の過程で記憶
した前記負荷数の度合いを比較して、前記監視項目全て
に渡って同じ前記負荷数の度合いを記憶していない場
合、前記情報処理装置は異常であると判断する第3の過
程とを備えることを特徴とする。
The invention according to claim 4 is the same as claim 3
In the monitoring method described in [1], a first step of collecting data values for each of the monitoring items during normal operation of the information processing apparatus, data values for each of the monitoring items and the number of loads collected in the first step. A second step of storing the degree of the load number corresponding to the threshold when the data value falls within the range of the threshold by comparing the threshold value according to the degree of Comparing the degree of the load number stored in the second process, and if the same degree of the load number is not stored over all the monitoring items, it is determined that the information processing device is abnormal. And the process of 3 are provided.

【0008】また、請求項5に記載の発明は、監視対象
の情報処理装置とネットワークを介して接続された監視
装置において実行されるプログラムであって、前記監視
装置に、前記情報処理装置に段階的な負荷をかける実際
の利用状況を想定したワークロードでの負荷試験時に前
記情報処理装置内における複数のリソース項目及びシス
テム性能を表す項目の実測データを収集する実測データ
収集処理と、前記負荷試験における前記システム性能を
表す項目と前記各リソース項目との相関係数を前記実測
データ収集処理で収集した実測データに基づいて算出
し、前記システム性能を表す項目との関連の強い複数の
リソース項目を選出する相関係数算出処理と、前記相関
係数算出処理で選出した複数のリソース項目に対して、
異なる複数の分析条件毎にクラスター分析を行って複数
のグループにグループ化し、さらに各グループ内のリソ
ース項目から、異なる指標毎にグループを代表するリソ
ース項目を選出し監視項目候補とする監視項目候補選出
処理と、前記システム性能を表す項目を目的変数、前記
監視項目候補選出処理において選出された前記監視項目
候補を説明変数として重回帰分析を行い、結果として得
られた複数の重回帰分析結果のうち最も妥当な重回帰分
析結果の重回帰分析で用いられた監視項目候補を監視項
目として選出する監視項目選出処理と、前記監視項目選
出処理において選出した監視項目の前記実測データ収集
処理で収集した実測データに基づいて前記負荷試験にお
ける負荷度合いに応じた前記監視項目の最大許容値及び
最小許容値を閾値として決定する閾値決定処理とを備え
ることを特徴とする監視プログラムである。
According to a fifth aspect of the present invention, there is provided a program executed by a monitoring device connected to a monitoring target information processing device via a network, wherein the program is executed by the monitoring device and the information processing device. Measurement data collection processing for collecting actual measurement data of a plurality of resource items in the information processing device and items indicating system performance during a load test under a workload that assumes an actual usage situation, and the load test In the calculation of the correlation coefficient between the item representing the system performance and each resource item based on the actual measurement data collected in the actual measurement data collection process, a plurality of resource items having a strong relationship with the item representing the system performance are calculated. For the correlation coefficient calculation process to be selected and for the plurality of resource items selected in the correlation coefficient calculation process,
Cluster analysis is performed for each of multiple different analysis conditions to group into multiple groups, and resource items representative of the group are selected for each different index from resource items in each group, and monitoring item candidates are selected as monitoring item candidates. Process, an item representing the system performance is an objective variable, a multiple regression analysis is performed using the monitoring item candidate selected in the monitoring item candidate selection process as an explanatory variable, and among the multiple regression analysis results obtained as a result. The monitoring item selection process that selects the monitoring item candidate used in the multiple regression analysis of the most appropriate multiple regression analysis result as the monitoring item, and the actual measurement collected by the actual measurement data collection process of the monitoring item selected in the monitoring item selection process. Based on the data, the maximum and minimum allowable values of the monitoring items according to the load degree in the load test are set as threshold values. A monitoring program, characterized in that it comprises a threshold value determination processing for determining by.

【0009】また、請求項6に記載の発明は、請求項5
に記載の監視プログラムにおいて、前記情報処理装置の
通常稼動時に前記監視項目毎のデータ値を収集する第1
の過程と、前記第1の過程において収集した前記監視項
目毎のデータ値と前記負荷数の度合いに応じた前記閾値
とを比較し、前記データ値が前記閾値の範囲に収まった
場合に、その閾値に対応する前記負荷数の度合いを記憶
する第2の過程と、前記監視項目毎に前記第2の過程で
記憶した前記負荷数の度合いを比較して、前記監視項目
全てに渡って同じ前記負荷数の度合いを記憶していない
場合、前記情報処理装置は異常であると判断する第3の
過程とを備えることを特徴とする。
The invention according to claim 6 is the same as claim 5
In the monitoring program described in [1], a first data value of each monitoring item is collected during normal operation of the information processing apparatus.
And the data value for each monitoring item collected in the first process and the threshold value according to the degree of the load number, and when the data value is within the range of the threshold value, The second step of storing the degree of the load number corresponding to the threshold value is compared with the degree of the load number stored in the second step for each of the monitoring items, and the same for all the monitoring items. When the degree of the load number is not stored, the information processing apparatus includes a third step of determining that the information processing apparatus is abnormal.

【0010】[0010]

【発明の実施の形態】以下、本発明の一実施形態による
情報処理装置の異常状態の検知方法を図面を参照して説
明する。図1は、この発明の一実施形態による情報処理
装置の異常状態検知を行う監視装置とその監視対象であ
る情報処理装置の構成を示す図である。この図において
符号1は監視装置、2はWebサイトを開設する情報処
理装置である。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A method of detecting an abnormal state of an information processing apparatus according to an embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a diagram showing a configuration of a monitoring device that detects an abnormal state of an information processing device and an information processing device that is a monitoring target according to an embodiment of the present invention. In this figure, reference numeral 1 is a monitoring device, and 2 is an information processing device for opening a website.

【0011】次に、監視装置1の詳細な構成について説
明する。図2は監視装置1の構成を示すブロック図であ
る。この図において11は監視対象となる情報処理装置
2内のリソース項目のデータやシステム性能を表す項目
のデータを受取る入出力制御手段である。ここでリソー
ス項目とは図4で示すような内容からなる情報処理装置
2内における項目であり、情報処理装置内で発生する特
定の状況をデータ値で表す項目である。12は情報処理
装置2のリソース項目の実測データを収集する実測デー
タ収集手段である。13は情報処理装置2のレスポンス
タイムやスループットなどのシステム性能を表す項目と
各リソース項目の相関係数を算出する相関係数算出手段
である。ここで相関係数とは対となるデータの関係性を
評価する係数で、−1〜+1の間の数値となり、絶対値
が0.7以上であるときに対となるデータどうしが強い
相関にあるということを示している。相関係数算出手段
はまた、得られた相関係数の値から、システム性能を表
す項目と弱い相関関係にあるリソース項目を監視対象か
ら除くことを決定する。
Next, the detailed configuration of the monitoring device 1 will be described. FIG. 2 is a block diagram showing the configuration of the monitoring device 1. In this figure, 11 is an input / output control means for receiving data of resource items in the information processing device 2 to be monitored and data of items representing system performance. Here, the resource item is an item in the information processing device 2 having the content as shown in FIG. 4, and is an item representing a specific situation occurring in the information processing device by a data value. Reference numeral 12 is an actual measurement data collection means for collecting actual measurement data of resource items of the information processing device 2. Reference numeral 13 is a correlation coefficient calculation means for calculating a correlation coefficient between items representing system performance such as response time and throughput of the information processing device 2 and each resource item. Here, the correlation coefficient is a coefficient for evaluating the relationship between paired data, and is a numerical value between -1 and +1. When the absolute value is 0.7 or more, the paired data are strongly correlated. It indicates that there is. The correlation coefficient calculation means also determines from the obtained value of the correlation coefficient that the resource item having a weak correlation with the item representing the system performance is excluded from the monitoring target.

【0012】14は相関係数算出手段13において選定
した複数のリソース項目をクラスター分析という統計的
分析手法を用いて複数のグループにグループ化し、それ
ぞれのグループを代表するリソース項目をまとめて監視
項目候補として選出する監視項目候補選出手段である。
15は監視項目候補選出手段14において選出した複数
の各監視項目候補を説明変数、システム性能を表す項目
を目的変数として、統計的分析手法である重回帰分析を
実施し、この分析結果に基づいて最終的な監視項目を選
出する、監視項目選出手段である。16は監視項目選出
手段15によって選出した監視項目に基づいて得られる
実測データの最大許容値と最小許容値を算出し、算出し
た最大許容値と最小許容値を監視項目の閾値と決定する
閾値決定手段である。17は閾値決定手段16で得られ
た監視項目の閾値と、情報処理装置2の実稼動中の各監
視項目のデータとに基づいて、情報処理装置2の正常状
態もしくは異常状態を判断する異常状態検知手段(上述
の第1の手段及び第2の手段及び第3の手段)である。
18は情報処理装置2から得られるリソース項目や監視
項目のデータを記憶し、監視装置1の各手段で得られる
データを記憶する情報記憶部である。
A plurality of resource items 14 selected by the correlation coefficient calculating means 13 are grouped into a plurality of groups by using a statistical analysis method called a cluster analysis, and the resource items representing each group are collected together to be monitoring item candidates. Is a monitoring item candidate selection means.
Reference numeral 15 is a multiple regression analysis, which is a statistical analysis method, using the plurality of monitoring item candidates selected by the monitoring item candidate selecting means 14 as explanatory variables and the items representing system performance as objective variables, and based on the analysis results. It is a monitoring item selection means for selecting a final monitoring item. Reference numeral 16 is a threshold value determination for calculating the maximum allowable value and the minimum allowable value of the actual measurement data obtained based on the monitoring item selected by the monitoring item selecting means 15, and determining the calculated maximum allowable value and minimum allowable value as the threshold value of the monitoring item. It is a means. Reference numeral 17 is an abnormal state for judging a normal state or an abnormal state of the information processing device 2 based on the threshold value of the monitoring item obtained by the threshold value determining means 16 and the data of each monitoring item in actual operation of the information processing device 2. The detection means (the above-mentioned first means, second means, and third means).
Reference numeral 18 denotes an information storage unit that stores data of resource items and monitoring items obtained from the information processing device 2, and stores data obtained by each means of the monitoring device 1.

【0013】次に、上述した監視装置1の動作を図1〜
図25を参照して説明する。図3は監視装置1における
情報処理装置2の監視方法の手順を示すフローである。
図4は監視装置1が情報処理装置2内における監視対象
データとして取得するリソース項目の一覧を示す図であ
る。
Next, the operation of the above-mentioned monitoring device 1 will be described with reference to FIGS.
This will be described with reference to FIG. FIG. 3 is a flow showing a procedure of a monitoring method of the information processing device 2 in the monitoring device 1.
FIG. 4 is a diagram showing a list of resource items that the monitoring device 1 acquires as monitoring target data in the information processing device 2.

【0014】まず、情報処理装置2の異常状態検知を行
うためには、情報処理装置2の実際の稼動状況を想定し
た負荷試験を行い、異常状態の判定指標の元となる情報
処理装置2内の監視項目を選出する。図3より、負荷試
験の際に監視装置1の実測データ収集手段12が情報処
理装置2内の全リソース項目の実測データを収集し、そ
の実測データを情報記憶部18で保存する(ステップS
1)。情報処理装置2内のリソース項目は図4の一覧の
例に示すように複数存在している。この負荷試験におい
ては、情報処理装置2に対して負荷数10から150ま
で段階的に負荷を上げて試験を行う。負荷数とは、この
負荷試験においては情報処理装置2にアクセスする人数
を表しており、負荷試験により図4に示す各リソース項
目の実測データを得ることができる。図5は負荷試験に
おける各リソース項目の実測データを表示する一覧であ
る。図5の一覧で示す各リソース項目の実測データは情
報記憶部18に保存される。
First, in order to detect the abnormal state of the information processing device 2, a load test is performed assuming the actual operating condition of the information processing device 2, and the inside of the information processing device 2 which is the basis of the judgment index of the abnormal state is performed. Select the monitoring items of. From FIG. 3, the actual measurement data collection means 12 of the monitoring device 1 collects the actual measurement data of all resource items in the information processing device 2 during the load test, and stores the actual measurement data in the information storage unit 18 (step S
1). There are a plurality of resource items in the information processing device 2 as shown in the example of the list of FIG. In this load test, the load is increased stepwise from the load number of 10 to 150 with respect to the information processing device 2 to perform the test. The number of loads represents the number of people who access the information processing device 2 in this load test, and the load test can obtain the actual measurement data of each resource item shown in FIG. FIG. 5 is a list displaying the actual measurement data of each resource item in the load test. The actual measurement data of each resource item shown in the list of FIG. 5 is stored in the information storage unit 18.

【0015】次に監視装置1の相関係数算出手段13は
実測データ収集手段12で得た各リソース項目と、シス
テム性能の項目となる情報処理装置2の負荷試験におけ
るレスポンスタイムとの相関係数を算出し、絶対値の値
が低いリソース項目を、システム性能との関連が弱い項
目となるため監視対象から除く(ステップS2)。レス
ポンスタイムとは、負荷試験において仮想的なユーザー
の、情報処理装置2に対する処理要求に対するレスポン
スタイムのことである。相関係数の算出は、
Next, the correlation coefficient calculating means 13 of the monitoring device 1 correlates the resource items obtained by the measured data collecting means 12 with the response time in the load test of the information processing device 2 which is an item of system performance. Is calculated, and the resource item having a low absolute value is excluded from the monitoring targets because it has a weak relation with the system performance (step S2). The response time is a response time to a processing request to the information processing device 2 by a virtual user in the load test. The calculation of the correlation coefficient is

【数1】 の式によって求める。この式において、xはシステム性
能の項目であるレスポンスタイムを表し、yはリソース
項目を表しており、レスポンスタイムに対応した各リソ
ース項目の相関係数が相関係数算出手段13によって算
出される。図6はレスポンスタイムおよび各リソース項
目の相関係数を算出した結果を示す表である。図6にお
いて#DIV/0!という表記は、特定のリソース項目
の実測データが、負荷数が変化しても一定だったため
に、相関係数算出でエラーとなった事を示している。
[Equation 1] Calculate by the formula. In this formula, x represents a response time which is an item of system performance, y represents a resource item, and the correlation coefficient of each resource item corresponding to the response time is calculated by the correlation coefficient calculating means 13. FIG. 6 is a table showing the results of calculating the response time and the correlation coefficient of each resource item. In FIG. 6, # DIV / 0! The notation indicates that an error occurred in the calculation of the correlation coefficient because the actual measurement data of the specific resource item was constant even if the load number changed.

【0016】相関係数算出手段13によって算出した相
関係数は一般的に絶対値が0.7以下であった場合、対
象となる2つの項目の関連が弱いと判断される。よっ
て、相関係数算出手段13はここで、相関係数の絶対値
が0.7以下となったリソース項目を監視対象の候補か
ら除き、残ったリソース項目を監視対象の候補として選
出する。図7はレスポンスタイムと各リソース項目との
相関係数の算出結果を示す図である。この図において、
avm(アクティブな仮想ページ)は相関係数の絶対値
が0.7以下であるため、監視対象の候補から除外され
ることとなる。他の符号aの欄に表示するリソース項目
が監視対象の候補となる。ここで図7においては、po
(1秒あたりのページアウトされたページ数)とde
(予想される短期メモリ不足)の2つのリソース項目は
相関係数の算出時にエラーとなったため、除外されてい
る。
When the absolute value of the correlation coefficient calculated by the correlation coefficient calculating means 13 is generally 0.7 or less, it is determined that the relationship between the two target items is weak. Therefore, the correlation coefficient calculating means 13 removes the resource item whose absolute value of the correlation coefficient is 0.7 or less from the candidates for monitoring, and selects the remaining resource items as candidates for monitoring. FIG. 7 is a diagram showing the calculation result of the correlation coefficient between the response time and each resource item. In this figure,
Since the absolute value of the correlation coefficient of avm (active virtual page) is 0.7 or less, it is excluded from the candidates for monitoring. The resource item displayed in the column of other code a is a candidate for the monitoring target. Here, in FIG.
(Number of pages paged out per second) and de
The two resource items (expected short-term memory shortage) are excluded because they resulted in an error when calculating the correlation coefficient.

【0017】次に、監視装置1の監視項目候補選出手段
14はステップS2で選出した監視対象の候補となった
リソース項目に対してクラスター分析を実施し、リソー
ス項目の中で関連の強いリソース項目同士をグループ化
し、各グループの中からグループを代表するリソース項
目を監視項目候補として選出する(ステップS3)。ク
ラスター分析は以下の統計処理で実施される。 1:相関係数の算出に基づいた項目間距離を算出する 2:階層的手法による樹形図(トリー)を作成する 3:クラスター(グループ)化を行う。 4:各クラスター(グループ)における代表のリソース
項目を決定する。
Next, the monitoring item candidate selecting means 14 of the monitoring device 1 performs cluster analysis on the resource items selected as candidates for monitoring selected in step S2, and the resource items having a strong relation among the resource items. The items are grouped together and a resource item representative of the group is selected as a monitoring item candidate from each group (step S3). The cluster analysis is performed by the following statistical processing. 1: Calculate the distance between items based on the calculation of the correlation coefficient 2: Create a tree diagram (tree) by a hierarchical method 3: Perform clustering (grouping). 4: Determine a representative resource item in each cluster (group).

【0018】上述の統計処理で実施されるクラスター分
析の結果を図8及び図9に示す。図8はウォード法を用
いてクラスター数を3と設定した場合のクラスター分析
結果である。図9はウォード法を用いてクラスター数を
4と設定した場合のクラスター分析結果である。相関係
数の算出に基づいた項目間距離の算出は図8の8a及び
図9の9aに示している。そして、この項目間距離の算
出により、クラスター分析樹形図(図8の8b及び図9
の9b)を作成する。グループ間の距離計算方法はウォ
ード法によって算出する。
The results of the cluster analysis carried out by the above statistical processing are shown in FIGS. FIG. 8 shows a cluster analysis result when the number of clusters is set to 3 using the Ward method. FIG. 9 shows a cluster analysis result when the number of clusters is set to 4 using the Ward method. Calculation of the inter-item distance based on the calculation of the correlation coefficient is shown in 8a of FIG. 8 and 9a of FIG. Then, the cluster analysis tree diagram (8b in FIG. 8 and FIG.
9b) is created. The distance between groups is calculated by the Ward method.

【0019】尚、クラスター分析は分析条件として、ク
ラスター数及びグループ間の距離計算方法の2条件を設
定して実施されるが、クラスター数を3〜6までの4通
りで設定し、また、グループ間の距離計算方法はウォー
ド法、群平均法、最長距離平均法の3通りで設定してク
ラスター分析を実施する。よって、全部で12通りのク
ラスター分析結果が得られることとなる。図8及び図9
はそのうちの2例を示すものである。図8及び図9で示
す各クラスター分析結果において、8c及び9cはクラ
スター規模表であり、クラスター分析樹形図8b及び9
bより、クラスター数を3または4と設定すると、これ
により、各クラスターにおける件数とリソース項目の割
合を導き出すことができる。また、8d及び9dはクラ
スター別項目名であり、各クラスターにおけるリソース
項目の項目名を表示している。
The cluster analysis is carried out by setting two conditions of the number of clusters and a method of calculating the distance between groups as analysis conditions. The number of clusters is set in four ways from 3 to 6, and The distance calculation method is set in three ways: the Ward method, the group average method, and the longest distance average method, and the cluster analysis is performed. Therefore, a total of 12 cluster analysis results can be obtained. 8 and 9
Shows two of them. In each cluster analysis result shown in FIGS. 8 and 9, 8c and 9c are cluster scale tables, and cluster analysis tree diagrams 8b and 9 are shown.
From b, if the number of clusters is set to 3 or 4, it is possible to derive the number of cases and the ratio of resource items in each cluster. Also, 8d and 9d are item names by cluster, and the item names of resource items in each cluster are displayed.

【0020】次に、12通りのクラスター分析の各結果
より、監視項目候補選出手段14は各クラスター中の複
数のリソース項目から、クラスターを代表するリソース
項目を選出し、各クラスターの代表するリソース項目を
全てを監視項目候補とする。ここにおいて、各クラスタ
ーにおける監視項目候補の選出は手順の簡略化を図るた
めに「グループ内中央値による選択方法」と「相関係数
の絶対値による選択方法」の2通りの選択方法を用い
る。よってクラスター分析における12通りの分析結果
に基づいて、監視項目候補の選出を上述の2通りの選択
方法を用いて選出するので、合計で24通りの監視項目
候補のグループが選出されることとなる。ここで、「グ
ループ内中央値による選択方法」とは、グループ(クラ
スター)内で他項目との相関係数和が最も高いことか
ら、他項目との距離が近く、グループの中央に位置する
項目を選択する方法である。また、「相関係数の絶対値
による選択方法」とは、グループ(クラスター)内でシ
ステム性能を表す項目との関連が最も強い項目を選択す
る方法である。
Next, the monitoring item candidate selecting means 14 selects a resource item representative of a cluster from a plurality of resource items in each cluster based on the results of 12 kinds of cluster analysis, and a resource item representative of each cluster. Are all monitoring item candidates. Here, in order to select the monitoring item candidates in each cluster, two selection methods are used in order to simplify the procedure: a “selection method by median value in group” and a “selection method by absolute value of correlation coefficient”. Therefore, since the selection of the monitoring item candidates is selected based on the 12 analysis results in the cluster analysis using the above-described two selection methods, a total of 24 groups of the monitoring item candidates are selected. . Here, the “selection method based on the median within a group” means that the sum of correlation coefficients with other items in the group (cluster) is the highest, and therefore the items that are close to other items and are located in the center of the group. Is the method of selecting. The “selection method based on the absolute value of the correlation coefficient” is a method of selecting an item having the strongest association with the item representing the system performance within the group (cluster).

【0021】図10で示す、クラスター数3の場合の代
表項目10a及びクラスター数4の場合の代表項目10
bは、24通りのクラスター分析結果での代表のリソー
ス項目選出におけるうちの2つの例であり、これは、図
8及び図9で示したクラスター分析の結果から「相関係
数の絶対値による選択方法」を用いて代表のリソース項
目を選出した代表リソース項目を示している。ウォード
法を用いてクラスター数3でクラスター分析を実施した
結果に基づいた監視項目候補は図10の10aより、c
s及びInPackets及びBufferHitRa
tioの3つである。またウォード法を用いてクラスタ
ー数4でクラスター分析を実施した結果に基づいた監視
項目候補は図10の10bより、cs及びInPack
ets及びpi及びBufferHitRatioの4
つである。
Representative items 10a in the case of three clusters and representative items 10 in the case of four clusters shown in FIG.
b is two examples of selection of representative resource items from the 24 cluster analysis results. This is based on the result of the cluster analysis shown in FIGS. The representative resource item in which the representative resource item is selected by using the “method” is shown. The monitoring item candidates based on the result of performing the cluster analysis with three clusters using the Ward method are shown in FIG.
s and InPackets and BufferHitRa
It is three of tio. Further, the monitoring item candidates based on the result of performing the cluster analysis with the number of clusters of 4 using the Ward method are cs and InPack from 10b of FIG.
4 of ets and pi and BufferHitRatio
Is one.

【0022】次に、監視装置1の監視項目選出手段15
は、監視項目候補選出手段14が選出した各グループ
(クラスター)を代表するリソース項目(監視項目候
補)を説明変数、システム性能を表す項目であるレスポ
ンスタイムを目的変数として重回帰分析を実施し、この
結果より最も妥当性の高い監視項目を選出する(ステッ
プS4)。重回帰分析はステップS3において得られた
24通りの結果全てに基づいて実施されるので、重回帰
分析の結果も24通りとなり、この24通りの結果の中
から情報処理装置2の状態を監視するのに最も妥当性の
高い監視項目を選出することとなる。
Next, the monitoring item selecting means 15 of the monitoring device 1
Is a multiple regression analysis with the resource item (monitoring item candidate) representative of each group (cluster) selected by the monitoring item candidate selecting means 14 as an explanatory variable and the response time, which is an item representing system performance, as an objective variable, From this result, the most appropriate monitoring item is selected (step S4). Since the multiple regression analysis is performed based on all the 24 results obtained in step S3, there are also 24 results of the multiple regression analysis, and the state of the information processing device 2 is monitored from these 24 results. The most relevant monitoring item will be selected.

【0023】重回帰分析は、以下の統計処理により実施
を行う。 1:基本統計量の算出 2:変数相互の相関行列の算出 3:重回帰式を求める 4:分散分析表の作成 5:理論値・予測値を算出する 6:区間推定を行う 7:実績値・理論値グラフを作成する 上記の処理による重回帰分析結果のうちの2つを図11
〜図20に示す。図11〜図15はウォード法を用いて
クラスター数3でクラスター分析を実施した結果に基づ
いた重回帰分析結果(1)〜(5)である。図16〜図
20はウォード法を用いてクラスター数4でクラスター
分析を実施した結果に基づいた重回帰分析結果(1)〜
(5)である。
The multiple regression analysis is carried out by the following statistical processing. 1: Calculation of basic statistics 2: Calculation of correlation matrix between variables 3: Calculation of multiple regression equation 4: Creation of analysis of variance table 5: Calculation of theoretical value / predicted value 6: Interval estimation 7: Actual value・ Two of the results of multiple regression analysis by the above process for creating a theoretical value graph are shown in FIG.
~ Shown in FIG. 11 to 15 are multiple regression analysis results (1) to (5) based on the result of performing the cluster analysis with the number of clusters of 3 using the Ward method. 16 to 20 show the results of multiple regression analysis (1) based on the result of performing the cluster analysis with 4 clusters using the Ward method.
(5).

【0024】ステップS4において、重回帰分析の結果
から最も妥当性の高い監視項目を選出するが、これは重
回帰分析結果である重回帰式の検定結果を以下の手順の
ように比較することにより行う。 (1)説明変数同士の関連が高いために重回帰式が正確
でないことを示す多重共線性が発生しているか、してい
ないかを確認し、多重共線性が発生している場合は、該
当する説明変数のリソース項目は監視項目に適していな
いとみなす。 (2)多重共線性が発生していない重回帰式で、重回帰
式の分析制度を示す自由度修正済み決定係数の値が最も
高い重回帰式の説明変数であるリソース項目が、最もシ
ステムを監視するのに適しているとみなすが、ここで手
順を簡略する観点から、自由度修正済み決定係数の値が
0.8より小さい場合は、重回帰式の分析制度が悪いと
みなし、監視項目に適していないとみなす。
In step S4, the most valid monitoring item is selected from the results of the multiple regression analysis. This is performed by comparing the test results of the multiple regression analysis, which are the multiple regression analysis results, as in the following procedure. To do. (1) Check whether multi-collinearity, which indicates that the multiple regression equation is inaccurate due to a high relationship between explanatory variables, is present or not, and if multi-collinearity is present, then apply. Consider that the resource item of the explanatory variable is not suitable for the monitoring item. (2) In the multiple regression equation in which multicollinearity does not occur, the resource item that is the explanatory variable of the multiple regression equation with the highest value of the coefficient of determination with the corrected degree of freedom indicating the analysis system of the multiple regression equation has the highest system Although it is considered to be suitable for monitoring, from the viewpoint of simplifying the procedure here, if the value of the coefficient of determination with modified degrees of freedom is less than 0.8, the multiple regression analysis system is considered to be bad and the monitoring items Consider not suitable for.

【0025】上記の手順に従って、ステップS4におい
て、ウォード法を用いてクラスター数3でクラスター分
析を実施した結果に基づいた3つの監視項目候補が、重
回帰分析結果により、監視項目として適しているかどう
かを判断する。上記の監視項目の選出手順(1)及び
(2)を用いると、まず、図12における[重回帰式]
の「符号チェック」欄にチェック(×印)が付いていな
いため多重共線性が発生していないことが判る。このこ
とから、図10の10aで示す、ウォード法を用いてク
ラスター数3でクラスター分析を実施した結果に基づい
た3つの監視項目候補は、監視項目として適していると
判断することができる。
According to the above procedure, in step S4, whether the three monitoring item candidates based on the result of the cluster analysis with the number of clusters of 3 using the Ward method are suitable as the monitoring items according to the multiple regression analysis result. To judge. Using the above-mentioned monitoring item selection procedures (1) and (2), [multiple regression equation] in FIG.
It can be seen that multicollinearity does not occur because there is no check (x) in the "Sign check" column of. From this, it can be determined that the three monitoring item candidates shown by 10a in FIG. 10 based on the result of performing the cluster analysis with the number of clusters of 3 using the Ward method are suitable as the monitoring items.

【0026】また、ウォード法を用いてクラスター数4
でクラスター分析を実施した結果に基づいた4つの監視
項目候補が、重回帰分析結果により、監視項目として適
しているかどうかを判断する。この場合、同様に、上記
の監視項目の選出手順(1)及び(2)を用いると、図
17における[重回帰式]の「符号チェック」欄にチェ
ック(×印)が付いているため、多重共線性が発生して
いることが判るので、監視項目として適していないと判
断することができる。
The number of clusters is 4 using the Ward method.
It is determined whether the four monitoring item candidates based on the result of the cluster analysis performed in Section 4 are suitable as monitoring items based on the multiple regression analysis results. In this case, similarly, if the above-mentioned monitoring item selection procedures (1) and (2) are used, a check mark (x mark) is added to the “sign check” column of [multiple regression equation] in FIG. Since it can be seen that multicollinearity has occurred, it can be determined that it is not suitable as a monitoring item.

【0027】上述の重回帰分析結果による監視項目の選
出は、24通りのクラスター分析結果について全て行わ
れる。そして、複数の監視項目候補グループ(クラスタ
ー)が、監視項目として適していると判断された場合、
その監視項目候補のグループ(クラスター)における重
回帰分析結果の自由度修正済み決定係数の値を比較し、
値が最も高い監視項目候補のグループ(クラスター)を
監視項目として決定する。自由度修正済み決定係数は、
図13及び図18の[精度]に表示している。尚、最終
的にこの自由度修正済み決定係数の値が、0.8以下で
あった場合には精度が低いと判断し監視項目には適さな
いと判断することとなる。図10の10aで示す、ウォ
ード法を用いてクラスター数3でクラスター分析を実施
した結果に基づいた3つの監視項目候補における重回帰
式分析結果は、図11の[精度]の自由度修正済み決定
係数の値が0.8以上のため、この点においても監視項
目として適していると判断することができる。
The selection of monitoring items based on the multiple regression analysis results described above is performed for all 24 cluster analysis results. When it is determined that a plurality of monitoring item candidate groups (clusters) are suitable as monitoring items,
Comparing the values of the R-corrected coefficient of determination of the multiple regression analysis results in the group (cluster) of the monitoring item candidates,
The monitoring item candidate group (cluster) having the highest value is determined as the monitoring item. The coefficient of determination with modified degrees of freedom is
It is displayed in [Accuracy] in FIGS. 13 and 18. Finally, if the value of the coefficient of determination with the corrected degree of freedom is 0.8 or less, it is determined that the accuracy is low and it is determined that it is not suitable for the monitoring item. The multiple regression equation analysis results for the three monitoring item candidates based on the result of performing the cluster analysis with the number of clusters using the Ward method shown in 10a of FIG. Since the coefficient value is 0.8 or more, it can be determined that this point is also suitable as a monitoring item.

【0028】ここで、情報処理装置2の異常状態検知を
行うための、異常状態の判定指標の元となる情報処理装
置2内の監視項目を決定することができた。よってこの
監視項目を用いて情報処理装置2の異常状態検知を行
う。図10の10aで示す、ウォード法を用いてクラス
ター数3でクラスター分析を実施した結果に基づいた3
つのリソース項目(cs、InPackets、Buf
ferHitRatio)を監視項目とする。
Here, it is possible to determine the monitoring item in the information processing device 2 which is the basis of the determination index of the abnormal condition for detecting the abnormal condition of the information processing device 2. Therefore, the abnormal state of the information processing device 2 is detected using this monitoring item. 3 based on the result of the cluster analysis shown in 10a of FIG. 10 using the Ward method with 3 clusters.
Two resource items (cs, InPackets, Buf
(ferHitRatio) is a monitoring item.

【0029】次に、監視装置1は情報処理装置2の閾値
決定手段17において、ステップS4で選出した各監視
項目のステップS1で得られた実測データ値から、偏差
値算出の統計手法を用いて監視項目の負荷度合い毎に最
大許容値と最小許容値を算出し、算出した最大許容値及
び最小許容値を閾値として決定する。またその最大許容
値及び最小許容値を閾値として保持するテンプレートを
作成する(ステップS5)。閾値となる最大許容値及び
最小許容値の算出は以下の数式によって行われる。また
最大許容値及び最小許容値を算出する際の信頼度は95
%として計算を行う。
Next, in the threshold value determining means 17 of the information processing device 2, the monitoring device 1 uses the statistical method of calculating the deviation value from the actual measurement data value obtained in step S1 of each monitoring item selected in step S4. The maximum allowable value and the minimum allowable value are calculated for each load degree of the monitoring item, and the calculated maximum allowable value and minimum allowable value are determined as threshold values. Further, a template that holds the maximum and minimum allowable values as thresholds is created (step S5). The calculation of the maximum allowable value and the minimum allowable value which are the threshold values is performed by the following mathematical formulas. The reliability when calculating the maximum and minimum allowable values is 95.
Calculate as%.

【数2】 [Equation 2]

【数3】 [Equation 3]

【0030】図21はステップS1で得られた実測デー
タに基づくcs、InPackets及びBuffer
HitRatioの負荷数の度合い毎における最大許容
値と最小許容値の算出結果である。そして、これが最大
許容値及び最小許容値の閾値テンプレートとなり、この
テンプレートに基づいて監視装置1は各監視項目におけ
る異常状態を検知する。また、この閾値テンプレートの
情報が閾値決定手段17によって情報記憶部18に書き
込まれ保持される。ステップS5における閾値テンプレ
ートの作成により、異常状態検知装置1は情報処理装置
2の異常状態を検知可能となる。
FIG. 21 shows cs, InPackets, and Buffer based on the actual measurement data obtained in step S1.
It is a calculation result of the maximum permissible value and the minimum permissible value for each degree of the load number of HitRatio. Then, this becomes a threshold template of the maximum allowable value and the minimum allowable value, and the monitoring device 1 detects an abnormal state in each monitoring item based on this template. In addition, the information of the threshold template is written and held in the information storage unit 18 by the threshold determination unit 17. By creating the threshold template in step S5, the abnormal state detection device 1 can detect the abnormal state of the information processing device 2.

【0031】次に、監視装置1は情報処理装置2の通常
稼動時の異常状態を検知するため、入出力制御手段11
を介して情報処理装置2を監視する。ここで監視装置1
の異常状態検知手段18は、情報処理装置2の各監視項
目の実測値と、ステップS5において記憶情報部18に
保存した閾値テンプレートの情報を比較して、実測値が
最大許容値と最小許容値内に収まった場合、その最大許
容値と最小許容値に対応する負荷数を許容負荷数とす
る。そして、閾値テンプレートにおける全ての監視項目
において許容負荷数を確認し、全監視項目に渡って重複
する許容負荷数が存在する場合は、情報処理装置2は正
常であると判断し、全監視項目間に渡って重複許容負荷
数がない場合は、情報処理装置2は異常状態であると判
断する(ステップS6)。
Next, the monitoring device 1 detects the abnormal state of the information processing device 2 during normal operation.
The information processing device 2 is monitored via. Monitoring device 1
The abnormal state detection means 18 compares the actual measurement value of each monitoring item of the information processing device 2 with the information of the threshold template stored in the storage information unit 18 in step S5, and the actual measurement value is the maximum allowable value and the minimum allowable value. If it falls within the range, the number of loads corresponding to the maximum allowable value and the minimum allowable value is set as the allowable load number. Then, the allowable load numbers are checked for all the monitoring items in the threshold template, and if there are overlapping allowable load numbers over all the monitoring items, it is determined that the information processing device 2 is normal, and all the monitoring item If there is no overlapping allowable load number over the period, it is determined that the information processing device 2 is in an abnormal state (step S6).

【0032】図22はステップS6において異常状態検
知手段17が情報処理装置2の異常状態を検知する際の
処理フローである。まず、異常状態検知手段17が情報
処理装置2の監視を始め、情報処理装置2の稼動時にお
ける各監視項目の実測値を検出した後、情報記憶部18
に記憶する閾値テンプレートにおいて、各監視項目の中
で実測値と比較していない監視項目が残っているかどう
かを確認する(ステップS7)。
FIG. 22 is a processing flow when the abnormal state detecting means 17 detects an abnormal state of the information processing apparatus 2 in step S6. First, the abnormal state detection unit 17 starts monitoring the information processing apparatus 2, detects the actual measurement value of each monitoring item when the information processing apparatus 2 is operating, and then the information storage unit 18
In the threshold value template stored in step S7, it is confirmed whether or not there is a monitoring item among the monitoring items that is not compared with the actual measurement value (step S7).

【0033】ここで、異常状態検知手段17は、得られ
た実測値を閾値テンプレートと比較するのが初回なの
で、当然、全ての監視項目は実測値と比較されないで残
っていることになる。よって、異常状態検知手段17は
一つ目の監視項目のcsを閾値テンプレートから取り上
げ(ステップS8)、各負荷数に対応した閾値と実測値
とで比較してないものが残っているかどうかを確認する
(ステップS9)。ステップS7において比較していな
い監視項目が残っていない場合は、異常様態検知手段1
7は処理を終了する。また、ステップS9において一つ
の監視項目において実測値と比較する各負荷数に対応す
る閾値が残っていない場合、次の監視項目について実測
値と閾値とを比較するために、ステップS7に処理が戻
ることとなる。
Here, since the abnormal state detecting means 17 first compares the obtained actual measurement value with the threshold template, naturally all monitoring items remain without being compared with the actual measurement value. Therefore, the abnormal state detection means 17 picks up cs of the first monitoring item from the threshold value template (step S8), and confirms whether or not there is any uncompared threshold value corresponding to each load number and the actual measurement value. Yes (step S9). If there is no monitoring item that has not been compared in step S7, the abnormal condition detecting means 1
7 ends the process. If there is no threshold value corresponding to each load number to be compared with the actual measurement value in one monitoring item in step S9, the process returns to step S7 to compare the actual measurement value and the threshold value for the next monitoring item. It will be.

【0034】ステップS9においては、当然、監視項目
であるcsの実測値と各負荷数に対応する閾値とを比較
するのが初回なので、全ての負荷数における閾値と実測
値との比較結果が得られずに残っている。よって異常状
態検知手段17は、次に、負荷数10の場合の最大許容
値と最小許容値による閾値を確認し、情報処理装置2で
得られたcsの実測値がこの範囲内に含まれているかど
うかを判断する(ステップS10)。ここで、ステップ
S10においてcsの実測値が負荷数10における最大
許容値と最小許容値の範囲に含まれていない場合、ステ
ップS9の処理に戻り、次の負荷数の最大許容値と最小
許容値による閾値の範囲に実測値が含まれていないかど
うかを判断することとなる。
In step S9, the measured value of cs, which is a monitoring item, is naturally compared with the threshold value corresponding to each load number, so that the comparison result between the threshold value and the measured value for all load numbers is obtained. It is left without being cut. Therefore, the abnormal state detection means 17 next confirms the threshold values based on the maximum and minimum allowable values when the number of loads is 10, and the measured value of cs obtained by the information processing device 2 is included in this range. It is determined whether or not there is (step S10). Here, when the measured value of cs is not included in the range of the maximum allowable value and the minimum allowable value at the load number of 10 in step S10, the process returns to step S9, and the maximum allowable value and the minimum allowable value of the next load number. It is determined whether the actual measurement value is not included in the range of the threshold value.

【0035】ステップS10においてcsの実測値が最
大許容値と最小許容値による閾値の範囲に含まれていた
場合、異常状態検知手段17は閾値テンプレートの該当
する許容負荷欄をマーキングする(ステップS11)。
ここで、各監視項目の各負荷数に対応する閾値テンプレ
ート上の欄を許容負荷欄と呼ぶ。このマーキングは当
然、情報として情報記憶部18において保存される。こ
の様にステップS7からステップS11の処理を行うこ
とにより、異常状態検知手段17は、情報記憶部18で
記憶する閾値テンプレートにおいて、負荷数に対応する
閾値の範囲に、実測値として得られた各監視項目の値が
含まれているかどうかを一つずつ確認していく。
When the measured value of cs is included in the range of the threshold value by the maximum allowable value and the minimum allowable value in step S10, the abnormal state detecting means 17 marks the permissible load column of the threshold template (step S11). .
Here, a column on the threshold template corresponding to each load number of each monitoring item is called an allowable load column. This marking is naturally stored in the information storage unit 18 as information. By performing the processing from step S7 to step S11 in this way, the abnormal state detection means 17 obtains each of the actual measurement values within the threshold range corresponding to the load number in the threshold template stored in the information storage unit 18. Check whether the value of the monitoring item is included one by one.

【0036】次に、ステップS6において異常状態検知
手段17は情報記憶部18に記憶する閾値テンプレート
の情報におけるマーキングをチェックする。図23は異
常状態検知手段17による閾値テンプレートのマーキン
グチェック処理フローを示す図である。異常状態検知手
段17は、情報記憶部18に記憶する閾値テンプレート
の情報から負荷数に対応した各監視項目の閾値を取り上
げ、各監視項目の実測値が、その閾値の最大許容値と最
小許容値内に収まったことを示すマーキングが許容負荷
欄に行なわれたかどうかを判断する(ステップS1
2)。最初に負荷数10の場合の全監視項目における許
容負荷欄にマーキングがされているかどうかを確認する
(ステップS13)。ここで負荷数10に対応する許容
負荷欄にマーキングがされていないので、異常状態検知
手段17は次に、実測値と比較していない負荷数に対応
した各監視項目の閾値が残っているかどうかを判断する
(ステップS14)。
Next, in step S6, the abnormal state detecting means 17 checks the marking in the information of the threshold template stored in the information storage section 18. FIG. 23 is a flowchart showing a marking check process flow of the threshold template by the abnormal state detecting means 17. The abnormal state detection means 17 takes the threshold value of each monitoring item corresponding to the load number from the information of the threshold value template stored in the information storage unit 18, and the actual measurement value of each monitoring item is the maximum allowable value and the minimum allowable value of the threshold value. It is determined whether or not the marking indicating that the value is within the allowable load column is made (step S1).
2). First, it is confirmed whether or not the allowable load fields in all the monitoring items when the number of loads is 10 are marked (step S13). Here, since the allowable load column corresponding to the load number 10 is not marked, the abnormal state detecting means 17 next determines whether or not the threshold value of each monitoring item corresponding to the load number that is not compared with the actual measurement value remains. Is determined (step S14).

【0037】ここで、ステップS14において負荷数2
0に対応する各監視項目の閾値と、各監視項目の実測値
を比較していないで残っているので、異常状態検知手段
17は次に、負荷数20の場合の全監視項目における閾
値を取り上げて(ステップS15)、再びステップS1
3に戻って、許容負荷欄にマーキングがされているかど
うかを確認する。この様に負荷数に対応する閾値の範囲
に、実測値として得られた各監視項目の値が含まれてい
るかどうかを一つずつ確認していくが、ステップS13
において、ある負荷数に対応する全監視項目の閾値内に
全監視項目の実測値が収まり、ある負荷数に対応する全
監視項目の許容負荷欄が全てマーキングされている場
合、異常状態検知手段17はシステムが正常であると判
断する。また、ステップS13において、ある負荷数に
対応する全監視項目の閾値内に全監視項目の実測値が収
まらず、ある負荷数に対応する全監視項目の許容負荷欄
が全てマーキングされている状況がない場合、ステップ
S14において異常状態検知手段17はシステムが異常
であると判断する。
Here, in step S14, the number of loads is 2
Since the threshold value of each monitoring item corresponding to 0 and the actual measurement value of each monitoring item remain without being compared, the abnormal state detecting means 17 next takes up the threshold values of all the monitoring items when the number of loads is 20. (Step S15), step S1 again
Return to 3 and check if the allowable load column is marked. In this way, it is checked one by one whether or not the value of each monitoring item obtained as an actual measurement value is included in the range of the threshold value corresponding to the load number.
In the case where the measured values of all the monitoring items fall within the thresholds of all the monitoring items corresponding to a certain load number and all the allowable load columns of all the monitoring items corresponding to the certain load number are marked, the abnormal state detecting means 17 Determines that the system is normal. Further, in step S13, the measured values of all the monitoring items do not fall within the thresholds of all the monitoring items corresponding to a certain load number, and the allowable load columns of all the monitoring items corresponding to a certain load number are all marked. If not, the abnormal state detecting means 17 determines that the system is abnormal in step S14.

【0038】図24は情報処理装置2が正常時の閾値テ
ンプレート作成結果であるが、ここで、ステップS6に
おいて、監視装置1の異常状態検知手段17が情報処理
装置2より得た3つの監視項目の実測値を、cs=63
4、InPackets=1655.9、Buffer
Hitratio=2.6333とすると、図24の閾
値テンプレート作成結果の様に、許容負荷欄にマーキン
グがされることとなる。負荷数70に対応した全監視項
目の許容負荷欄にマーキングされていることが確認でき
るので、この時のシステムは正常であると判断すること
ができる。
FIG. 24 shows a threshold template creation result when the information processing apparatus 2 is normal. Here, in step S6, the three monitoring items obtained by the abnormal state detecting means 17 of the monitoring apparatus 1 from the information processing apparatus 2 are shown. The measured value of cs = 63
4, InPackets = 1655.9, Buffer
When it is set to Hiratio = 2.6333, the allowable load column is marked as in the threshold template creation result of FIG. Since it can be confirmed that the allowable load columns of all the monitoring items corresponding to the load number 70 are marked, it can be determined that the system at this time is normal.

【0039】また、図25は情報処理装置2が異常時の
閾値テンプレート作成結果であるが、ここで、ステップ
S6において、監視装置1の異常状態検知手段17が情
報処理装置2より得た3つの監視項目の実測値を、cs
=634、InPackets=1178、Buffe
rHitratio=2.6333とすると、図19の
閾値テンプレート作成結果のように、許容負荷欄にマー
キングがされることとなる。各負荷数に対応した全監視
項目の許容負荷欄を確認すると、ある負荷数に対応する
全監視項目で全て許容負荷欄がマーキングされている状
況がないので、この時のシステムは異常であると判断す
ることができる。
Further, FIG. 25 shows a threshold template creation result when the information processing device 2 is in an abnormal state. Here, in step S6, the three abnormal conditions detecting means 17 of the monitoring device 1 obtain from the information processing device 2. The measured value of the monitoring item is cs
= 634, InPackets = 1178, Buffer
When rHiratio = 2.6333 is set, the allowable load field is marked as in the threshold template creation result of FIG. When checking the allowable load column of all the monitoring items corresponding to each load number, there is no situation where all the allowable load columns are marked for all the monitoring items corresponding to a certain load number, so the system at this time is abnormal. You can judge.

【0040】尚、上述の監視装置1のコンピュータにお
いて実行されるプログラムは、情報処理装置によって読
み取り可能な記憶媒体に記憶して、この記憶媒体に記憶
されたプログラムを情報処理装置2に読み込ませ、実行
することにより、上述の実施形態の処理を行っても良
い。
The program executed by the computer of the above-mentioned monitoring device 1 is stored in a storage medium readable by the information processing device, and the program stored in this storage medium is read by the information processing device 2. The processing of the above-described embodiment may be performed by executing the processing.

【0041】[0041]

【発明の効果】以上説明したように、この発明によれ
ば、情報処理装置などの異常状態監視対象におけるリソ
ース項目の中から、統計手法を用いて監視項目の選出を
行い、また、その監視項目が許容する上限(最大許容
値)及び下限(最小許容値)の閾値を統計手法を用いて
決定する機能を監視装置に備えたので、システム管理者
の知識が無くとも監視項目とその閾値の上限及び下限を
設定することが可能となる。また、統計手法による監視
項目の選出や閾値の決定により、情報処理装置の構成や
稼動しているサービスの利用状況といった情報処理装置
毎に固有の条件に適合した監視項目の選出や閾値の決定
が可能となり、さらに、従来では異常が検知出来なかっ
た、情報処理装置にかかる負荷が低く故障も起きていな
いような状況下での異常状態を検知することが可能とな
る。
As described above, according to the present invention, a monitoring item is selected from a resource item in an abnormal state monitoring target such as an information processing device using a statistical method, and the monitoring item is selected. Since the monitoring device is equipped with a function to determine the upper limit (maximum allowable value) and the lower limit (minimum allowable value) thresholds allowed by the statistical method, the monitoring item and the upper limit of the threshold value can be monitored without the knowledge of the system administrator. And the lower limit can be set. In addition, by selecting monitoring items and determining thresholds using statistical methods, it is possible to select monitoring items and determine thresholds that meet specific conditions for each information processing device, such as the configuration of the information processing device and the usage status of operating services. In addition, it is possible to detect an abnormal state under a situation where the load on the information processing device is low and a failure does not occur, which could not be detected in the related art.

【図面の簡単な説明】[Brief description of drawings]

【図1】 この発明の一実施形態による情報処理装置の
異常状態検知を行う監視装置とその監視対象である情報
処理装置の構成を示す図である。
FIG. 1 is a diagram showing a configuration of a monitoring device that detects an abnormal state of an information processing device and an information processing device that is a monitoring target according to an embodiment of the present invention.

【図2】 同実施形態による監視装置1の構成を示すブ
ロック図である。
FIG. 2 is a block diagram showing a configuration of a monitoring device 1 according to the same embodiment.

【図3】 同実施形態による監視装置1における情報処
理装置2の監視方法の手順を示すフローである。
FIG. 3 is a flowchart showing a procedure of a monitoring method of the information processing device 2 in the monitoring device 1 according to the same embodiment.

【図4】 同実施形態による監視装置1が情報処理装置
2内における監視対象データとして取得するリソース項
目の一覧を示す図である。
FIG. 4 is a diagram showing a list of resource items acquired as monitoring target data in the information processing device 2 by the monitoring device 1 according to the embodiment.

【図5】 同実施形態による負荷試験における各リソー
ス項目の実測データを表示する一覧である。
FIG. 5 is a list showing actual measurement data of each resource item in the load test according to the same embodiment.

【図6】 同実施形態によるレスポンスタイムおよび各
リソース項目の相関係数を算出した結果を示す表であ
る。
FIG. 6 is a table showing a result of calculating a response time and a correlation coefficient of each resource item according to the same embodiment.

【図7】 同実施形態によるレスポンスタイムと各リソ
ース項目との相関係数の算出結果を示す図である。
FIG. 7 is a diagram showing a calculation result of a correlation coefficient between a response time and each resource item according to the same embodiment.

【図8】 同実施形態によるウォード法を用いてクラス
ター数を3と設定した場合のクラスター分析結果であ
る。
FIG. 8 is a cluster analysis result when the number of clusters is set to 3 using the Ward method according to the same embodiment.

【図9】同実施形態によるウォード法を用いてクラスタ
ー数を4と設定した場合のクラスター分析結果である。
FIG. 9 is a cluster analysis result when the number of clusters is set to 4 using the Ward method according to the same embodiment.

【図10】 同実施形態によるウォード法を用いたクラ
スター分析の結果から代表のリソース項目を選出した例
である。
FIG. 10 is an example in which a representative resource item is selected from the results of cluster analysis using the Ward method according to the same embodiment.

【図11】 同実施形態によるウォード法を用いてクラ
スター数3でクラスター分析を実施した結果に基づいた
重回帰分析結果(1)である。
FIG. 11 is a multiple regression analysis result (1) based on a result of performing cluster analysis with three clusters using the Ward method according to the same embodiment.

【図12】 同実施形態によるウォード法を用いてクラ
スター数3でクラスター分析を実施した結果に基づいた
重回帰分析結果(2)である。
FIG. 12 is a multiple regression analysis result (2) based on a result of performing cluster analysis with three clusters using the Ward method according to the same embodiment.

【図13】 同実施形態によるウォード法を用いてクラ
スター数3でクラスター分析を実施した結果に基づいた
重回帰分析結果(3)である。
FIG. 13 is a multiple regression analysis result (3) based on a result of performing cluster analysis with three clusters using the Ward method according to the same embodiment.

【図14】 同実施形態によるウォード法を用いてクラ
スター数3でクラスター分析を実施した結果に基づいた
重回帰分析結果(4)である。
FIG. 14 is a multiple regression analysis result (4) based on a result of performing cluster analysis with three clusters using the Ward method according to the same embodiment.

【図15】 同実施形態によるウォード法を用いてクラ
スター数3でクラスター分析を実施した結果に基づいた
重回帰分析結果(5)である。
FIG. 15 is a multiple regression analysis result (5) based on the result of performing cluster analysis with three clusters using the Ward method according to the same embodiment.

【図16】 同実施形態によるウォード法を用いてクラ
スター数4でクラスター分析を実施した結果に基づいた
重回帰分析結果(1)である。
FIG. 16 is a multiple regression analysis result (1) based on a result of performing cluster analysis with four clusters using the Ward method according to the same embodiment.

【図17】 同実施形態によるウォード法を用いてクラ
スター数4でクラスター分析を実施した結果に基づいた
重回帰分析結果(2)である。
FIG. 17 is a multiple regression analysis result (2) based on a result of performing cluster analysis with four clusters using the Ward method according to the same embodiment.

【図18】 同実施形態によるウォード法を用いてクラ
スター数4でクラスター分析を実施した結果に基づいた
重回帰分析結果(3)である。
FIG. 18 is a multiple regression analysis result (3) based on a result of performing cluster analysis with four clusters using the Ward method according to the same embodiment.

【図19】 同実施形態によるウォード法を用いてクラ
スター数4でクラスター分析を実施した結果に基づいた
重回帰分析結果(4)である。
FIG. 19 is a multiple regression analysis result (4) based on a result of performing cluster analysis with four clusters using the Ward method according to the same embodiment.

【図20】 同実施形態によるウォード法を用いてクラ
スター数4でクラスター分析を実施した結果に基づいた
重回帰分析結果(5)である。
FIG. 20 is a multiple regression analysis result (5) based on the result of performing the cluster analysis with four clusters using the Ward method according to the same embodiment.

【図21】 同実施形態によるステップS1で得られた
実測データに基づくcs、InPackets及びBu
fferHitRatioの負荷数の度合い毎における
最大許容値と最小許容値の算出結果である。
FIG. 21 shows cs, InPackets, and Bu based on the actual measurement data obtained in step S1 according to the same embodiment.
It is a calculation result of the maximum permissible value and the minimum permissible value for each degree of the load number of fferHitRatio.

【図22】 同実施形態によるステップS6において異
常状態検知手段17が情報処理装置2の異常状態を検知
する際の処理フローである。
FIG. 22 is a processing flow when the abnormal state detection means 17 detects an abnormal state of the information processing device 2 in step S6 according to the same embodiment.

【図23】 同実施形態による異常状態検知手段による
閾値テンプレートのマーキングチェック処理フローを示
す図である。
FIG. 23 is a view showing a marking template checking process flow of a threshold template by the abnormal state detecting means according to the same embodiment;

【図24】 同実施形態による情報処理装置2が正常時
の閾値テンプレート作成結果である。
FIG. 24 is a threshold template creation result when the information processing apparatus 2 according to the same embodiment is normal.

【図25】 同実施形態による情報処理装置2が異常時
の閾値テンプレート作成結果である。
FIG. 25 is a threshold template creation result when the information processing apparatus 2 according to the same embodiment is abnormal.

【符号の説明】[Explanation of symbols]

1 監視装置 2 情報処理装置 1 Monitoring device 2 Information processing equipment

フロントページの続き Fターム(参考) 5B042 GA10 GA12 GA18 JJ01 JJ29 JJ30 MA05 MA07 MA08 MA11 MA14 MC29 5B085 AC11 AC13 BA06 Continued front page    F-term (reference) 5B042 GA10 GA12 GA18 JJ01 JJ29                       JJ30 MA05 MA07 MA08 MA11                       MA14 MC29                 5B085 AC11 AC13 BA06

Claims (6)

    【特許請求の範囲】[Claims]
  1. 【請求項1】 監視対象の情報処理装置とネットワーク
    を介して接続された監視装置であって、 前記情報処理装置に段階的な負荷をかける実際の利用状
    況を想定したワークロードでの負荷試験時に前記情報処
    理装置内における複数のリソース項目及びシステム性能
    を表す項目の実測データを収集する実測データ収集手段
    と、 前記負荷試験における前記システム性能を表す項目と前
    記各リソース項目との相関係数を前記実測データ収集手
    段で収集した実測データに基づいて算出し、前記システ
    ム性能を表す項目との関連の強い複数のリソース項目を
    選出する相関係数算出手段と、 前記相関係数算出手段で選出した複数のリソース項目に
    対して、異なる複数の分析条件毎にクラスター分析を行
    って複数のグループにグループ化し、さらに各グループ
    内のリソース項目から、異なる指標毎にグループを代表
    するリソース項目を選出し監視項目候補とする監視項目
    候補選出手段と、 前記システム性能を表す項目を目的変数、前記監視項目
    候補選出手段において選出された前記監視項目候補を説
    明変数として重回帰分析を行い、結果として得られた複
    数の重回帰分析結果のうち最も妥当な重回帰分析結果の
    重回帰分析で用いられた監視項目候補を監視項目として
    選出する監視項目選出手段と、 前記監視項目選出手段において選出した監視項目の前記
    実測データ収集手段で収集した実測データに基づいて前
    記負荷試験における負荷度合いに応じた前記監視項目の
    最大許容値及び最小許容値を閾値として決定する閾値決
    定手段と、 を備えることを特徴とする監視装置。
    1. A monitoring device connected to a monitored information processing device via a network, wherein a load test is performed on a workload assuming an actual usage condition in which a stepwise load is applied to the information processing device. An actual measurement data collection unit that collects actual measurement data of a plurality of resource items in the information processing device and an item representing system performance, and a correlation coefficient between the item representing the system performance in the load test and each of the resource items. Correlation coefficient calculation means for selecting a plurality of resource items that are calculated based on the actual measurement data collected by the measurement data collection means and that have a strong relationship with the item representing the system performance, and a plurality of correlation coefficient calculation means selected by the correlation coefficient calculation means. For each resource item, cluster analysis is performed for each of multiple different analysis conditions and grouped into multiple groups. From the resource items in the group, a resource item representing a group for each different index is selected as a monitoring item candidate selection means, an item representing the system performance is an objective variable, and the monitoring item candidate selection means is selected. Multiple regression analysis is performed using the monitored item candidate described above as an explanatory variable, and the monitoring item candidate used in the multiple regression analysis of the most appropriate multiple regression analysis results obtained as a result is monitored items. Monitoring item selection means to select as, the maximum allowable value of the monitoring item according to the load degree in the load test based on the actual measurement data collected by the actual measurement data collection means of the monitoring items selected by the monitoring item selection means, and A monitoring device, comprising: a threshold determining unit that determines a minimum allowable value as a threshold.
  2. 【請求項2】 前記情報処理装置の通常稼動時に前記監
    視項目毎のデータ値を収集する第1の手段と、 前記第1の手段において収集した前記監視項目毎のデー
    タ値と前記負荷数の度合いに応じた前記閾値とを比較
    し、前記データ値が前記閾値の範囲に収まった場合に、
    その閾値に対応する前記負荷数の度合いを記憶する第2
    の手段と、 前記監視項目毎に前記第2の手段で記憶した前記負荷数
    の度合いを比較して、前記監視項目全てに渡って同じ前
    記負荷数の度合いを記憶していない場合、前記情報処理
    装置は異常であると判断する第3の手段と、 を備えることを特徴とする請求項1に記載の監視装置。
    2. A first means for collecting data values for each of the monitoring items during normal operation of the information processing apparatus, and a data value for each of the monitoring items and the degree of the load number collected by the first means. When the data value is within the range of the threshold value,
    A second storing the degree of the load number corresponding to the threshold
    And the degree of the load number stored by the second means for each of the monitoring items, and if the same degree of the load number is not stored for all of the monitoring items, the information processing is performed. The monitoring device according to claim 1, further comprising: third means for determining that the device is abnormal.
  3. 【請求項3】 監視対象の情報処理装置とネットワーク
    を介して接続された監視装置における前記情報処理装置
    の監視方法において、 前記情報処理装置に段階的な負荷をかける実際の利用状
    況を想定したワークロードでの負荷試験時に前記情報処
    理装置内における複数のリソース項目及びシステム性能
    を表す項目の実測データを収集する実測データ収集過程
    と、 前記負荷試験における前記システム性能を表す項目と前
    記各リソース項目との相関係数を前記実測データ収集過
    程で収集した実測データに基づいて算出し、前記システ
    ム性能を表す項目との関連の強い複数のリソース項目を
    選出する相関係数算出過程と、 前記相関係数算出過程で選出した複数のリソース項目に
    対して、異なる複数の分析条件毎にクラスター分析を行
    って複数のグループにグループ化し、さらに各グループ
    内のリソース項目から、異なる指標毎にグループを代表
    するリソース項目を選出し監視項目候補とする監視項目
    候補選出過程と、 前記システム性能を表す項目を目的変数、前記監視項目
    候補選出過程において選出された前記監視項目候補を説
    明変数として重回帰分析を行い、結果として得られた複
    数の重回帰分析結果のうち最も妥当な重回帰分析結果の
    重回帰分析で用いられた監視項目候補を監視項目として
    選出する監視項目選出過程と、 前記監視項目選出過程において選出した監視項目の前記
    実測データ収集過程で収集した実測データに基づいて前
    記負荷試験における負荷度合いに応じた前記監視項目の
    最大許容値及び最小許容値を閾値として決定する閾値決
    定過程と、 を備えることを特徴とする監視方法。
    3. A method of monitoring the information processing device in a monitoring device connected to the information processing device to be monitored via a network, the work assuming an actual usage situation in which a stepwise load is applied to the information processing device. An actual measurement data collection process of collecting actual measurement data of a plurality of resource items and system performance items in the information processing apparatus during a load test in a load, and an item representing the system performance in the load test and each resource item A correlation coefficient calculation step of selecting a plurality of resource items having a strong relationship with the item representing the system performance, the correlation coefficient being calculated based on the measurement data collected in the measurement data collection step; For multiple resource items selected in the calculation process, cluster analysis is performed for each of multiple different analysis conditions, Group, further, from the resource items in each group, a monitoring item candidate selection process of selecting a resource item representative of the group for each different index as a monitoring item candidate, and an item representing the system performance as an objective variable, Multiple regression analysis is performed using the monitoring item candidates selected in the monitoring item candidate selection process as explanatory variables, and used in multiple regression analysis of the most appropriate multiple regression analysis results obtained as a result. A monitoring item selection process of selecting the selected monitoring item candidate as a monitoring item, and a load degree in the load test according to the actual measurement data collected in the actual measurement data collection process of the monitoring items selected in the monitoring item selection process. A threshold value deciding step of deciding the maximum allowable value and the minimum allowable value of the monitoring item as threshold values, Method seen.
  4. 【請求項4】 前記情報処理装置の通常稼動時に前記監
    視項目毎のデータ値を収集する第1の過程と、 前記第1の過程において収集した前記監視項目毎のデー
    タ値と前記負荷数の度合いに応じた前記閾値とを比較
    し、前記データ値が前記閾値の範囲に収まった場合に、
    その閾値に対応する前記負荷数の度合いを記憶する第2
    の過程と、 前記監視項目毎に前記第2の過程で記憶した前記負荷数
    の度合いを比較して、前記監視項目全てに渡って同じ前
    記負荷数の度合いを記憶していない場合、前記情報処理
    装置は異常であると判断する第3の過程と、 を備えることを特徴とする請求項3に記載の監視方法。
    4. A first step of collecting data values for each monitoring item during normal operation of the information processing apparatus, and a data value for each monitoring item and a degree of the load number collected in the first step. When the data value is within the range of the threshold value,
    A second storing the degree of the load number corresponding to the threshold
    And the degree of the load number stored in the second step for each monitoring item, and if the same degree of the load number is not stored for all the monitoring items, the information processing is performed. The monitoring method according to claim 3, further comprising: a third step of determining that the device is abnormal.
  5. 【請求項5】 監視対象の情報処理装置とネットワーク
    を介して接続された監視装置において実行されるプログ
    ラムであって、 前記監視装置に、 前記情報処理装置に段階的な負荷をかける実際の利用状
    況を想定したワークロードでの負荷試験時に前記情報処
    理装置内における複数のリソース項目及びシステム性能
    を表す項目の実測データを収集する実測データ収集処理
    と、 前記負荷試験における前記システム性能を表す項目と前
    記各リソース項目との相関係数を前記実測データ収集処
    理で収集した実測データに基づいて算出し、前記システ
    ム性能を表す項目との関連の強い複数のリソース項目を
    選出する相関係数算出処理と、 前記相関係数算出処理で選出した複数のリソース項目に
    対して、異なる複数の分析条件毎にクラスター分析を行
    って複数のグループにグループ化し、さらに各グループ
    内のリソース項目から、異なる指標毎にグループを代表
    するリソース項目を選出し監視項目候補とする監視項目
    候補選出処理と、 前記システム性能を表す項目を目的変数、前記監視項目
    候補選出処理において選出された前記監視項目候補を説
    明変数として重回帰分析を行い、結果として得られた複
    数の重回帰分析結果のうち最も妥当な重回帰分析結果の
    重回帰分析で用いられた監視項目候補を監視項目として
    選出する監視項目選出処理と、 前記監視項目選出処理において選出した監視項目の前記
    実測データ収集処理で収集した実測データに基づいて前
    記負荷試験における負荷度合いに応じた前記監視項目の
    最大許容値及び最小許容値を閾値として決定する閾値決
    定処理と、 を備えることを特徴とする監視プログラム。
    5. A program executed in a monitoring device connected to a monitored information processing device via a network, wherein the monitoring device actually uses the information processing device in a stepwise manner. A measurement data collection process of collecting measurement data of a plurality of resource items and system performance items in the information processing apparatus during a load test with a workload assumed to be, and an item representing the system performance in the load test and the A correlation coefficient calculation process of calculating a correlation coefficient with each resource item based on the actual measurement data collected in the actual measurement data collection process, and selecting a plurality of resource items having a strong relationship with the item representing the system performance, Cluster analysis is performed for each of multiple different analysis conditions for the multiple resource items selected in the correlation coefficient calculation process. Grouping into a plurality of groups, further, from the resource items in each group, a resource item representative of the group for each different index is selected as a monitoring item candidate selection process, and an item representing the system performance is an objective variable , Multiple regression analysis using the monitoring item candidate selected in the monitoring item candidate selection process as an explanatory variable, and in the multiple regression analysis of the most appropriate multiple regression analysis results obtained as a result. According to the load degree in the load test based on the monitoring item selection process of selecting the used monitoring item candidate as the monitoring item and the actual measurement data collected in the actual measurement data collection process of the monitoring items selected in the monitoring item selection process. And a threshold value determining process for determining the maximum allowable value and the minimum allowable value of the monitoring item as a threshold value. Characteristic monitoring program.
  6. 【請求項6】 前記情報処理装置の通常稼動時に前記監
    視項目毎のデータ値を収集する第1の過程と、 前記第1の過程において収集した前記監視項目毎のデー
    タ値と前記負荷数の度合いに応じた前記閾値とを比較
    し、前記データ値が前記閾値の範囲に収まった場合に、
    その閾値に対応する前記負荷数の度合いを記憶する第2
    の過程と、 前記監視項目毎に前記第2の過程で記憶した前記負荷数
    の度合いを比較して、前記監視項目全てに渡って同じ前
    記負荷数の度合いを記憶していない場合、前記情報処理
    装置は異常であると判断する第3の過程と、 を備えることを特徴とする請求項5に記載の監視プログ
    ラム。
    6. A first step of collecting data values for each of the monitoring items during normal operation of the information processing apparatus, and a data value for each of the monitoring items and the degree of the load number collected in the first step. When the data value is within the range of the threshold value,
    A second storing the degree of the load number corresponding to the threshold
    And the degree of the load number stored in the second step for each monitoring item, and if the same degree of the load number is not stored for all the monitoring items, the information processing is performed. The monitoring program according to claim 5, further comprising: a third step of determining that the device is abnormal.
JP2002062138A 2002-03-07 2002-03-07 Monitoring device and monitoring method and program for information processor Pending JP2003263342A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002062138A JP2003263342A (en) 2002-03-07 2002-03-07 Monitoring device and monitoring method and program for information processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002062138A JP2003263342A (en) 2002-03-07 2002-03-07 Monitoring device and monitoring method and program for information processor

Publications (1)

Publication Number Publication Date
JP2003263342A true JP2003263342A (en) 2003-09-19

Family

ID=29196066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002062138A Pending JP2003263342A (en) 2002-03-07 2002-03-07 Monitoring device and monitoring method and program for information processor

Country Status (1)

Country Link
JP (1) JP2003263342A (en)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006046297A1 (en) * 2004-10-28 2006-05-04 Fujitsu Limited Analyzing method and device
JP2007241534A (en) * 2006-03-07 2007-09-20 Oki Electric Ind Co Ltd System performance information output device and computer program
JP2007265141A (en) * 2006-03-29 2007-10-11 Nec Corp Device, method and program for refining monitoring items
JP2007323193A (en) * 2006-05-30 2007-12-13 Nec Corp System, method and program for detecting abnormality of performance load
JP2007328396A (en) * 2006-06-06 2007-12-20 Hitachi Ltd Storage system, management device, and method
JP2008537610A (en) * 2004-12-24 2008-09-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation Method and system for monitoring transaction-based systems
JP2009205208A (en) * 2008-02-26 2009-09-10 Nec Corp Operation management device, method and program
WO2009110329A1 (en) * 2008-03-07 2009-09-11 日本電気株式会社 Failure analysis device, failure analysis method, and recording medium
WO2010133507A1 (en) * 2009-05-22 2010-11-25 International Business Machines Corporation Apparatus and method for monitoring a computer system
WO2011043447A1 (en) 2009-10-08 2011-04-14 日本電気株式会社 Operational surveillance device, operational surveillance method and program storage medium
WO2011083687A1 (en) * 2010-01-08 2011-07-14 日本電気株式会社 Operation management device, operation management method, and program storage medium
JP2011154483A (en) * 2010-01-26 2011-08-11 Fujitsu Ltd Failure detection device, program, and failure detection method
WO2012086443A1 (en) * 2010-12-24 2012-06-28 日本電気株式会社 Monitoring data analysis device, monitoring data analysis method, and monitoring data analysis program
WO2012086444A1 (en) * 2010-12-24 2012-06-28 日本電気株式会社 Monitoring data analysis device, monitoring data analysis method, and monitoring data analysis program
WO2013027562A1 (en) 2011-08-24 2013-02-28 日本電気株式会社 Operation management device, operation management method, and program
JP2013210759A (en) * 2012-03-30 2013-10-10 Mitsubishi Electric Information Systems Corp Method, program, and device for detecting specific data
JP2014238852A (en) * 2014-07-16 2014-12-18 日本電気株式会社 Operation management device, operation management system, information processing method, and operation management program
US9049079B2 (en) 2011-12-21 2015-06-02 International Business Machines Corporation Optimizing software configuration values using CMDB
WO2018135008A1 (en) * 2017-01-23 2018-07-26 株式会社日立製作所 Influence analysis system, measurement item optimization method, and measurement item optimization program

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8560667B2 (en) 2004-10-28 2013-10-15 Fujitsu Limited Analysis method and apparatus
WO2006046297A1 (en) * 2004-10-28 2006-05-04 Fujitsu Limited Analyzing method and device
JP4866861B2 (en) * 2004-12-24 2012-02-01 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation Method and system for monitoring transaction-based systems
US8856312B2 (en) 2004-12-24 2014-10-07 International Business Machines Corporation Method and system for monitoring transaction based system
JP2008537610A (en) * 2004-12-24 2008-09-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation Method and system for monitoring transaction-based systems
JP2007241534A (en) * 2006-03-07 2007-09-20 Oki Electric Ind Co Ltd System performance information output device and computer program
JP2007265141A (en) * 2006-03-29 2007-10-11 Nec Corp Device, method and program for refining monitoring items
JP4573179B2 (en) * 2006-05-30 2010-11-04 日本電気株式会社 Performance load abnormality detection system, performance load abnormality detection method, and program
JP2007323193A (en) * 2006-05-30 2007-12-13 Nec Corp System, method and program for detecting abnormality of performance load
JP2007328396A (en) * 2006-06-06 2007-12-20 Hitachi Ltd Storage system, management device, and method
JP2009205208A (en) * 2008-02-26 2009-09-10 Nec Corp Operation management device, method and program
WO2009110329A1 (en) * 2008-03-07 2009-09-11 日本電気株式会社 Failure analysis device, failure analysis method, and recording medium
US8448025B2 (en) 2008-03-07 2013-05-21 Nec Corporation Fault analysis apparatus, fault analysis method, and recording medium
US8769347B2 (en) 2009-05-22 2014-07-01 International Business Machines Corporation Apparatus and method for monitoring a computer system
WO2010133507A1 (en) * 2009-05-22 2010-11-25 International Business Machines Corporation Apparatus and method for monitoring a computer system
JP2012527674A (en) * 2009-05-22 2012-11-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation Apparatus, method, and computer program for monitoring a computer system
JP5527324B2 (en) * 2009-10-08 2014-06-18 日本電気株式会社 Operation monitoring apparatus, operation monitoring method, and program storage medium
CN102576326B (en) * 2009-10-08 2015-08-19 日本电气株式会社 Operation monitoring equipment, operation monitoring method and program recorded medium
WO2011043447A1 (en) 2009-10-08 2011-04-14 日本電気株式会社 Operational surveillance device, operational surveillance method and program storage medium
CN102576326A (en) * 2009-10-08 2012-07-11 日本电气株式会社 Operational surveillance device, operational surveillance method and program storage medium
US8645769B2 (en) 2010-01-08 2014-02-04 Nec Corporation Operation management apparatus, operation management method, and program storage medium
WO2011083687A1 (en) * 2010-01-08 2011-07-14 日本電気株式会社 Operation management device, operation management method, and program storage medium
JP2011154483A (en) * 2010-01-26 2011-08-11 Fujitsu Ltd Failure detection device, program, and failure detection method
US9465713B2 (en) 2010-12-24 2016-10-11 Nec Corporation Monitoring data analyzing apparatus, monitoring data analyzing method, and monitoring data analyzing program
WO2012086443A1 (en) * 2010-12-24 2012-06-28 日本電気株式会社 Monitoring data analysis device, monitoring data analysis method, and monitoring data analysis program
JP5871193B2 (en) * 2010-12-24 2016-03-01 日本電気株式会社 Monitoring data analysis apparatus, monitoring data analysis method, and monitoring data analysis program
US9111227B2 (en) 2010-12-24 2015-08-18 Nec Corporation Monitoring data analyzing apparatus, monitoring data analyzing method, and monitoring data analyzing program
WO2012086444A1 (en) * 2010-12-24 2012-06-28 日本電気株式会社 Monitoring data analysis device, monitoring data analysis method, and monitoring data analysis program
JP5871192B2 (en) * 2010-12-24 2016-03-01 日本電気株式会社 Monitoring data analysis apparatus, monitoring data analysis method, and monitoring data analysis program
US9778972B2 (en) 2011-08-24 2017-10-03 Nec Corporation Operation management device, operation management method
WO2013027562A1 (en) 2011-08-24 2013-02-28 日本電気株式会社 Operation management device, operation management method, and program
US9049079B2 (en) 2011-12-21 2015-06-02 International Business Machines Corporation Optimizing software configuration values using CMDB
JP2013210759A (en) * 2012-03-30 2013-10-10 Mitsubishi Electric Information Systems Corp Method, program, and device for detecting specific data
JP2014238852A (en) * 2014-07-16 2014-12-18 日本電気株式会社 Operation management device, operation management system, information processing method, and operation management program
WO2018135008A1 (en) * 2017-01-23 2018-07-26 株式会社日立製作所 Influence analysis system, measurement item optimization method, and measurement item optimization program

Similar Documents

Publication Publication Date Title
EP2490126B1 (en) System operation management device, system operation management method, and program storage medium
Ozment Improving vulnerability discovery models
CA2616455C (en) Device management method, analysis system used for the device management method, analysis data structure, and maintenance inspection support apparatus used for the device management method
US8230262B2 (en) Method and apparatus for dealing with accumulative behavior of some system observations in a time series for Bayesian inference with a static Bayesian network model
US10296408B2 (en) Operation management apparatus, operation management method, and program
US8745588B2 (en) Method for testing operation of software
US20140207951A1 (en) System and method for performing capacity planning for enterprise applications
Tueller et al. Evaluation of structural equation mixture models: Parameter estimates and correct class assignment
CN102257520B (en) The performance evaluation of application
EP1806658B1 (en) Analyzing method and device
El Emam et al. The prediction of faulty classes using object-oriented design metrics
US7472037B2 (en) System and methods for quantitatively evaluating complexity of computing system configuration
US7369967B1 (en) System and method for monitoring and modeling system performance
US8141053B2 (en) Call stack sampling using a virtual machine
US6192317B1 (en) Statistical pattern analysis methods of partial discharge measurements in high voltage insulation
US6269479B1 (en) Method and computer program product for evaluating the performance of an object-oriented application program
US7437266B2 (en) Time-series data analyzing apparatus
US8151141B1 (en) Resolution of computer operations problems using fault trend analysis
US7437281B1 (en) System and method for monitoring and modeling system performance
CA2689219C (en) Method and system for state encoding
JP5428372B2 (en) Operation management apparatus, operation management method and program thereof
US7693982B2 (en) Automated diagnosis and forecasting of service level objective states
AU2001255994B8 (en) Method of Business Analysis
Kim The relation among fit indexes, power, and sample size in structural equation modeling
MacCallum et al. Power analysis and determination of sample size for covariance structure modeling.

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040513

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040517

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20041105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050425

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050425

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080212

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080701