JP2011170518A - State monitoring device and method - Google Patents
State monitoring device and method Download PDFInfo
- Publication number
- JP2011170518A JP2011170518A JP2010032455A JP2010032455A JP2011170518A JP 2011170518 A JP2011170518 A JP 2011170518A JP 2010032455 A JP2010032455 A JP 2010032455A JP 2010032455 A JP2010032455 A JP 2010032455A JP 2011170518 A JP2011170518 A JP 2011170518A
- Authority
- JP
- Japan
- Prior art keywords
- standard deviation
- value
- threshold value
- period
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Testing And Monitoring For Control Systems (AREA)
Abstract
Description
本発明は自装置に組み込まれたデバイスの異常や故障を検出するための状態監視装置及び方法に関する。 The present invention relates to a state monitoring apparatus and method for detecting an abnormality or failure of a device incorporated in the apparatus.
コンピュータあるいはコンピュータを含むシステムの品質は、信頼性(Reliability)、可用性(Availability)、保守容易性(Serviceability)の三つの頭文字をとってRASと呼ばれる指標で表される。例えば、高信頼性が要求されるコンピュータには、自装置に組み込まれたデバイスの異常動作や故障発生の有無を監視し、異常や故障の発生を通知するためのプログラム(以下、RASプログラムと称す)を備えている。RASプログラムには、異常や故障の発生時に、データの復元や故障原因を特定するためのプログラム等も含まれる。監視対象となるデバイスとしては、例えば、CPU(Central Processing Unit)、HDD(Hard Disk Drive)、LCD(Liquid Crystal Display)、バッテリ、冷却ファン、PCI(Peripheral Component Interconnect)デバイス等がある。 The quality of a computer or a system including a computer is represented by an index called RAS, taking three acronyms of reliability, availability, and serviceability. For example, in a computer that requires high reliability, a program (hereinafter referred to as a RAS program) for monitoring the presence or absence of an abnormal operation or failure of a device incorporated in its own device is monitored. ). The RAS program includes a program for restoring data and identifying the cause of failure when an abnormality or failure occurs. Examples of devices to be monitored include a central processing unit (CPU), a hard disk drive (HDD), a liquid crystal display (LCD), a battery, a cooling fan, and a peripheral component interconnect (PCI) device.
RASプログラムを備えたコンピュータで実現される状態監視装置は、温度、電圧、電流等を測定する各種のセンサと、各デバイスに対応して予め設定されたしきい値とを備え、センサで測定した観測値(以下、状態データと称す場合もある)と、それに対応するしきい値とを用いてデバイスの異常や故障発生有無を判定する。 A state monitoring device realized by a computer equipped with a RAS program includes various sensors for measuring temperature, voltage, current, and the like, and threshold values set in advance corresponding to the respective devices. Whether or not a device abnormality or failure has occurred is determined using an observed value (hereinafter also referred to as state data) and a corresponding threshold value.
なお、コンピュータに限らず、冷凍/冷蔵庫、エアーコンディショナー、自動販売機等の各種の電子機器の異常や故障発生有無を所定のしきい値を用いて判定する技術は、例えば特許文献1に記載されている。
A technique for determining whether or not an abnormality or failure has occurred in various electronic devices such as a refrigeration / refrigerator, an air conditioner, and a vending machine using a predetermined threshold is described in
また、特許文献2には、監視対象のデバイスの定常的な状態変化を検出するために、各デバイスから取得した状態を示す状態データを適応型ラティスフィルタで処理する技術が記載されている。
また、特許文献3には、ネットワークに接続されたコンピュータ(特許文献3では「ステーション」と表記)でそれぞれRAS情報を取得し、ネットワークに接続された全てのコンピュータのRAS情報を各コンピュータで管理可能にした構成が記載されている。
In
上述したように、RASプログラムで用いるしきい値は、デバイスが異常であるか否かを判定するために重要な指標である。しかしながら、しきい値は、システム構成、処理するタスク、使用環境等によって最適値が異なるため、ユーザや保守員等により最適な値を設定するのが困難であるという問題がある。 As described above, the threshold value used in the RAS program is an important index for determining whether or not a device is abnormal. However, since the optimum threshold value varies depending on the system configuration, the task to be processed, the usage environment, etc., there is a problem that it is difficult for the user, maintenance personnel, etc. to set the optimum value.
また、背景技術の状態監視装置では、しきい値が基本的に固定値であり、ユーザや保守員等が変更しない限り変わることはない。そのため、例えば予想される変動の最大値に上限のしきい値を設定し、予想される変動の最小値に下限のしきい値を設定した場合、観測値に対するしきい値のマージンが大きくなり、異常が発生しても、該異常時の観測値がしきい値を越えていなければ、検知することができないという問題がある。 In the state monitoring apparatus of the background art, the threshold value is basically a fixed value and does not change unless changed by the user or maintenance personnel. So, for example, if you set an upper threshold for the maximum expected variation and set a lower threshold for the minimum expected variation, the threshold margin for the observed value increases, There is a problem that even if an abnormality occurs, it cannot be detected unless the observed value at the time of the abnormality exceeds a threshold value.
なお、上記特許文献1には、所定の周期毎に機器毎の状態を示す状態データ(観測値)を収集し、その正規分布曲線またはt分布曲線に基づいて故障判定に必要なしきい値を決定する手法が示されている。しかしながら、そのような方法は、しきい値を決定するのに多数の状態データが必要であり、しきい値を決定するまでに長い学習期間を要する場合がある。例えば、予め決められた曜日の時刻に定期的に観測値を収集する場合、学習を開始して1ヶ月が経過しても4〜5程度のサンプル数しか得られない。その場合、しきい値の不確かさが大きいためにより多くのサンプル数が必要であり、しきい値を決定するまでに数ヶ月も要してしまう可能性がある。したがって、サンプル数が少なくても適切なしきい値を決定できることが望ましい。
In
本発明は上述したような背景技術が有する問題点を解決するためになされたものであり、少ないサンプル数でも異常発生有無の判定に用いるしきい値を適切に決定できる状態監視装置及び方法を提供することを目的とする。 The present invention has been made to solve the above-described problems of the background art, and provides a state monitoring apparatus and method capable of appropriately determining a threshold value used for determining whether or not an abnormality has occurred even with a small number of samples. The purpose is to do.
上記目的を達成するため本発明の状態監視装置は、監視対象となるデバイスの状態を示す状態データが所定のしきい値を超えたか否かにより該デバイスの異常発生有無を判定する状態監視装置であって、
前記デバイスの状態データを予め設定された第1周期毎に収集するデータ収集手段と、
前記データ収集手段で収集された状態データのうち、前記第1周期よりも長い所定の第2周期で取得した複数の状態データを統計処理することで、前記デバイスに対応する平均値及び標準偏差を算出すると共に、該平均値及び標準偏差を前記第1周期毎に算出する統計データ算出手段と、
前記統計データ算出手段で算出された前記標準偏差の値を前記デバイスの特性に応じてフィルタ処理することで補正し、前記平均値及び該補正後の標準偏差を基に、前記デバイスに対応する前記しきい値を前記第1周期毎に算出するしきい値決定手段と、
前記しきい値決定手段で算出したしきい値を用いて、前記デバイスの異常発生有無を判定する運用監視手段と、
を有する。
In order to achieve the above object, a state monitoring apparatus of the present invention is a state monitoring apparatus that determines whether or not an abnormality has occurred in a device based on whether or not state data indicating a state of a device to be monitored exceeds a predetermined threshold value. There,
Data collecting means for collecting the state data of the device every preset first period;
Of the state data collected by the data collection means, statistical processing is performed on a plurality of state data acquired in a predetermined second period longer than the first period, thereby obtaining an average value and a standard deviation corresponding to the device. Statistical data calculating means for calculating the average value and standard deviation for each of the first periods,
The value of the standard deviation calculated by the statistical data calculation means is corrected by filtering according to the characteristics of the device, and based on the average value and the standard deviation after the correction, the device corresponding to the device Threshold value determining means for calculating a threshold value for each first period;
Using the threshold value calculated by the threshold value determining means, operation monitoring means for determining the presence or absence of abnormality of the device;
Have
一方、本発明の状態監視方法は、監視対象となるデバイスの状態を示す状態データが所定のしきい値を超えたか否かにより該デバイスの異常発生有無を判定する状態監視方法であって、
前記デバイスの状態データを予め設定された第1周期毎に収集し、
前記収集した状態データのうち、前記第1周期よりも長い所定の第2周期で取得した複数の状態データを統計処理することで、前記デバイスに対応する平均値及び標準偏差を算出すると共に、該平均値及び標準偏差を前記第1周期毎に算出し、
該算出した標準偏差の値を前記デバイスの特性に応じてフィルタ処理することで補正し、前記平均値及び該補正後の標準偏差を基に、前記デバイスに対応する前記しきい値を前記第1周期毎に算出し、
該算出したしきい値を用いて、前記デバイスの異常発生有無を判定する方法である。
On the other hand, the state monitoring method of the present invention is a state monitoring method for determining whether or not an abnormality has occurred in the device based on whether or not the state data indicating the state of the device to be monitored exceeds a predetermined threshold value,
Collecting the device status data for each preset first period,
Among the collected state data, by statistically processing a plurality of state data acquired in a predetermined second period longer than the first period, an average value and a standard deviation corresponding to the device are calculated, An average value and a standard deviation are calculated for each first period,
The calculated standard deviation value is corrected by filtering according to the characteristics of the device, and the threshold value corresponding to the device is set based on the average value and the standard deviation after the correction. Calculate every cycle,
This is a method for determining whether or not an abnormality has occurred in the device by using the calculated threshold value.
本発明によれば、少ないサンプル数でも異常発生有無の判定に用いるしきい値を適切に決定できる。 According to the present invention, it is possible to appropriately determine a threshold value used for determining whether or not an abnormality has occurred even with a small number of samples.
次に本発明について図面を用いて説明する。 Next, the present invention will be described with reference to the drawings.
本発明では、デバイス毎の状態データを予め決められた収集周期(第1周期)毎に収集し、予め決められた曜日の時刻、あるいは予め決められた日毎の時刻等、所定の統計処理周期(第2周期)毎に取得した複数の状態データを統計処理することで、所定の曜日の時刻や日毎の時刻に対応するデバイス毎のしきい値を求める。さらに、デバイス毎のしきい値を状態データの収集周期毎に求め、実運用時には、それらのしきい値を曜日や時刻に合わせて時系列に用いることで異常発生の有無を判定する。取得する状態データには、RASプログラムの監視項目である、CPU温度、システム温度、HDD温度、LCD温度、バッテリ温度、HDDSMARTエラー情報、電圧、ファン回転数、PCIパリティ、通電時間等が含まれる。また、本発明では、サンプル数が少ないことによりしきい値の不確かさが増大する問題を、統計処理で求めた標準偏差σの値に対して監視対象のデバイスの特性に応じたフィルタ処理を実施することで抑制する。
(第1の実施の形態)
図1は本発明の状態監視装置を実現するコンピュータの一構成例を示す斜視図である。
In the present invention, state data for each device is collected at a predetermined collection cycle (first cycle), and a predetermined statistical processing cycle (such as a time of a predetermined day of the week or a time of a predetermined day) is selected. By statistically processing the plurality of state data acquired every second period), a threshold value for each device corresponding to the time of a predetermined day of the week or the time of each day is obtained. Further, threshold values for each device are obtained for each status data collection period, and during actual operation, these threshold values are used in chronological order according to the day of the week and time to determine whether or not an abnormality has occurred. The status data to be acquired includes monitoring items of the RAS program, such as CPU temperature, system temperature, HDD temperature, LCD temperature, battery temperature, HDDSMART error information, voltage, fan speed, PCI parity, energization time, and the like. In addition, in the present invention, the problem that the threshold uncertainty increases due to the small number of samples is subjected to the filtering process according to the characteristics of the monitored device with respect to the standard deviation σ value obtained by the statistical process. It suppresses by doing.
(First embodiment)
FIG. 1 is a perspective view showing a configuration example of a computer that realizes the state monitoring apparatus of the present invention.
図1に示すように、コンピュータ100は、各種のプログラムにしたがって所定の処理を実行するCPUを含むマザーボード、並びにユーザによりコマンドやデータを入力するための入力装置を備えた本体部101と、操作結果や処理結果等を表示するLCD部102とを備えた、例えばラップトップ型のコンピュータである。図4に示すコンピュータ100は、周知のパーソナルコンピュータと同様に、CPU、HDD、LCD、電源装置、冷却ファン、PCIデバイス等を備えている。
As illustrated in FIG. 1, a
図2は、本発明の状態監視装置の一構成例を示すブロック図である。 FIG. 2 is a block diagram showing a configuration example of the state monitoring apparatus of the present invention.
図2に示すように、本発明の状態監視装置は、データ収集手段111、統計データ算出手段112、しきい値決定手段113、運用監視手段114、統計データ保存部200、しきい値データ保存部210及び監視ログ保存部220を備えている。
As shown in FIG. 2, the state monitoring apparatus of the present invention includes a
データ収集手段111、統計データ算出手段112、しきい値決定手段113及び運用監視手段114は、例えば図1に示したコンピュータ100が備えるCPU(不図示)が、本発明のRASプログラムにしたがって処理を実行することで実現される。統計データ保存部200、しきい値データ保存部210及び監視ログ保存部220は、例えば図1に示したコンピュータ100が備える不揮発性の記憶装置(HDD等)によって実現される。
The
データ収集手段111は、デバイスに対応した監視項目である、温度、電圧、ファン回転数、自己診断機能による検出エラー(HDD)、パリティエラー(PCIデバイス)、通電時間等の観測値(状態データ)を予め設定された収集周期毎(第1周期:例えば、1分毎)に取得する。
The
統計データ算出手段112は、データ収集手段111で収集した観測値を統計処理し、監視項目毎の平均値及び標準偏差σを算出する。平均値及び標準偏差σは、予め決められた曜日の時刻、あるいは予め決められた日毎の時刻等、
上記収集周期よりも長い所定の統計処理周期(第2周期)で取得した複数の観測値を用いて算出する。さらに、統計データ算出手段112は、上記平均値及び標準偏差σを上記収集周期毎に求め、求めた平均値及び標準偏差σを統計データ保存部200へ時系列に格納する。
The statistical
Calculation is performed using a plurality of observation values acquired at a predetermined statistical processing period (second period) longer than the collection period. Further, the statistical data calculation means 112 obtains the average value and standard deviation σ for each collection period, and stores the obtained average value and standard deviation σ in the statistical
しきい値決定手段113は、統計データ算出手段112で算出された平均値及び標準偏差σに基づき、監視項目毎のしきい値(上限値及び下限値)をそれぞれ算出する。本実施形態では、予め設定された条件を満たす観測項目の標準偏差σに対して後述するフィルタ処理を実施した後、平均値+3σを上限のしきい値に設定し、平均値−3σを下限のしきい値に設定する。しきい値決定手段113は、状態データの収集周期毎に求めたデバイス毎のしきい値を、しきい値データ保存部210へ時系列に格納する。
The threshold
運用監視手段114は、しきい値決定手段113で収集周期毎に算出されたしきい値(上限のしきい値及び下限のしきい値)を、曜日や時刻に合わせて時系列に用いることで各デバイスの状態を監視し、観測値がしきい値を超えた場合は異常と判定し、例えば異常の発生をLCD部102に表示することでユーザへ通知する。
The
統計データ保存部200は、データ収集手段111により収集された観測値(状態データ)を保存する。
The statistical
しきい値データ保存部210は、しきい値決定手段113で求めた監視項目毎のしきい値(上限値及び下限値)を保存する。
The threshold
監視ログ保存部220は、運用監視手段114で検出された異常の発生時刻、異常の内容等を保存する。
The monitoring
次に、第1の実施の形態の状態監視装置の動作について図3〜図12を用いて説明する。 Next, the operation of the state monitoring apparatus according to the first embodiment will be described with reference to FIGS.
図3は、第1の実施の形態の状態監視装置の処理の一例を示すフローチャートである。 FIG. 3 is a flowchart illustrating an example of processing of the state monitoring apparatus according to the first embodiment.
図3に示すように、状態監視装置(コンピュータ100)は、まずデータ収集手段111にてデバイス毎の状態データ(観測値)を収集する(ステップS1)。本実施形態では、ステップS1で収集した状態データに基づいて運用時のしきい値を決定するため、アプリケーションプログラム等にしたがって動作している実運用時と同様の状態にてデバイス毎の状態データを収集する。データ収集手段111により収集した状態データの一例を図4に示す。
As shown in FIG. 3, the state monitoring apparatus (computer 100) first collects state data (observed values) for each device by the data collecting unit 111 (step S1). In the present embodiment, since the threshold value during operation is determined based on the state data collected in step S1, the state data for each device is stored in the same state as during actual operation operating according to an application program or the like. collect. An example of the state data collected by the
図4に示す[TIM_RTC]は状態データの取得時刻を示し、[TMP_CPU]はCPUの温度を示し、[TMP_SYS]は本体部101の内部温度を示している。また、図4に示す[TMP_HDD]はHDDの温度を示し、[TMP_BAT]はバッテリの温度を示し、[TMP_LCD]はLCD部102の内部温度を示し、[VLT_1.8]は電源電圧(直流電圧)を示している。
[TIM_RTC] illustrated in FIG. 4 indicates the acquisition time of the state data, [TMP_CPU] indicates the temperature of the CPU, and [TMP_SYS] indicates the internal temperature of the
データ収集手段111は、例えば監視項目毎の観測値を予め決められた収集周期毎にロギングすることで状態データを収集する(図5参照)。収集した状態データは統計データ保存部200に保存する。なお、図5は、例えば11月23日及び11月24日の二日間の同じ時間帯(9:40〜10:40)において、各監視項目の観測値が変化する様子を示している。
For example, the
次に、状態監視装置は、統計データ算出手段112により、ステップS1で収集したデバイス毎の状態データをそれぞれ統計処理し、監視項目毎に平均値及び標準偏差σを算出する(ステップS2)。
Next, the state monitoring apparatus statistically processes the state data for each device collected in step S1 by the statistical
通常のビジネス用途で用いられるコンピュータ100は、予め決められた曜日の時刻(例えば、毎週金曜日(曜日)の18:00(時刻)にその週の実績を処理する)、あるいは1日のうちの予め決められた時刻(例えば一日の売り上げを18:00にバッチ処理する)等、所定の周期でコンピュータの処理量が決まる場合が多い。したがって、日毎の時間帯に依存してコンピュータの処理量(負荷量)が決まる場合は、日毎の同じ時刻に取得した複数の状態データを統計処理し、曜日及び時刻に依存してコンピュータの処理量(負荷量)が決まる場合は、同じ曜日の同じ時刻に取得した複数の状態データを統計処理すればよい。例えば、同じ曜日の同じ時刻の監視項目(CPU温度、ファン回転数等)毎の状態データを統計データ保存部200から読み出し(図6参照)、同じ曜日の同じ時刻の複数の状態データから監視項目毎に平均値及び標準偏差σを単位で算出し、さらに平均値及び標準偏差σを上記収集周期毎に算出する。本実施形態では、このような統計処理で用いる状態データの取得周期を統計処理周期(第2周期)と称す。なお、図6は、例えば11月23日(月)の9:40〜10:40において各観測値が変化する様子と、同じ曜日(毎月曜日:11月2日,9日,16日,23日,30日)の9:40〜10:40においてCPU温度が変化する様子とを示している。
The
図7は、図6に示した状態データから算出したCPU温度の平均値が変化する様子を示すグラフであり、図8は、図6に示した状態データから算出したCPU温度の平均値、標準偏差及び変化量を示すテーブルである。なお、図7及び図8に示す各変数の意味は以下のとおりである。
t1,t2,…,tn:予め設定された観測期間(例えば、毎月曜日の9:40〜10:40)における状態データの取得時刻
x1,x2,…,xn:tnで取得した状態データ(CPU温度)
FIG. 7 is a graph showing how the average CPU temperature calculated from the state data shown in FIG. 6 changes. FIG. 8 shows the average CPU temperature calculated from the state data shown in FIG. It is a table which shows a deviation and change amount. The meanings of the variables shown in FIGS. 7 and 8 are as follows.
t 1 , t 2 ,..., t n : State data acquisition times x 1 , x 2 ,..., x n : t n in a preset observation period (for example, 9:40 to 10:40 on every Monday) Status data (CPU temperature)
:tnで取得した状態データの平均値(CPU温度)
Δx1,x2,…,Δxn-1:t1〜tnにおける状態データの変化量(CPU温度)
: Average state data acquired at t n (CPU temperature)
Δx 1 , x 2 ,..., Δx n-1 : change amount of state data in t 1 to t n (CPU temperature)
Δxmax:t1〜tnにおける状態データの変化量(Δx1〜Δxn-1)の最大値
σmax:t1〜tnにおける標準偏差σの最大値
統計データ算出手段112は、図6に示した状態データに基づいてtn毎に、平均値
[Delta] x max: maximum value sigma max amount of change in state data in t 1 ~t n (Δx 1 ~Δx n-1): maximum statistical data calculating means 112 of the standard deviation sigma of t 1 ~t n is 6 Based on the state data shown in the above, the average value for every t n
、標準偏差σn及び変化量Δxを算出する。図8は、算出結果の一例を示している。このとき、各日毎の所定の時刻における状態データは、図9に示すように正規分布となる。 The standard deviation σ n and the change amount Δx are calculated. FIG. 8 shows an example of the calculation result. At this time, the state data at a predetermined time every day has a normal distribution as shown in FIG.
次に、状態監視装置は、しきい値決定手段113によりステップS2で求めた各標準偏差σの値に対してフィルタ処理を実施する(ステップS3)。本実施形態では、例えばΔxmax≧2σmaxの条件を満たすとき、予め設定された観測期間(t1〜tn)における各標準偏差σの値に対してフィルタ処理を実施する。これは、Δxmax≧2σmaxの条件を満たすようなときは、状態データが単純なばらつきの範囲内にあるのではなく、急激に増大あるいは減少していると考えられるため、標準偏差σの値を最適化(大きなマージンを持たせる)する必要があるからである。例えば、図5や図6のグラフで示したように、CPU温度は、処理を開始すると急激に上昇し、処理が終了すると急激に低下する。このような変化量Δxが大きいCPU温度等の状態データにフィルタ処理を実施することで、状態データのサンプル数が少ないことによる、平均値や標準偏差σの不確かさ、さらにこれらの値から求めるしきい値の不確かさの増大が抑制される。 Next, the state monitoring apparatus performs a filtering process on the value of each standard deviation σ obtained in step S2 by the threshold value determining means 113 (step S3). In the present embodiment, for example, when the condition of Δx max ≧ 2σ max is satisfied, the filtering process is performed on each standard deviation σ value in a preset observation period (t 1 to t n ). This is because when the condition of Δx max ≧ 2σ max is satisfied, it is considered that the state data does not fall within the range of simple variation but increases or decreases rapidly, so the value of the standard deviation σ This is because it is necessary to optimize (with a large margin). For example, as shown in the graphs of FIGS. 5 and 6, the CPU temperature rapidly increases when the process is started, and rapidly decreases when the process is completed. By performing filtering on state data such as CPU temperature where the amount of change Δx is large, the average value and the standard deviation σ due to the small number of state data samples are obtained, and these values are obtained. Increase in threshold uncertainty is suppressed.
なお、フィルタ処理の実施条件は、上記Δxmax≧2σmaxに限定されるものではなく、例えば、Δxmax≧σmax、Δxmax≧3σmax、Δxmax≧4σmax等に設定してもよい。但し、標準偏差の最大値σmaxに乗ずる値を小さくすると、状態データの変化量が少ないデバイスに対してもフィルタ処理を実施することになるため、しきい値決定手段113の処理負荷が増大する。一方、標準偏差の最大値σmaxに乗ずる値を大きくすると、しきい値決定手段113の処理負荷は低減するが、通常運用時では発生する可能性が少ない、状態データが大きく変化したときのみフィルタ処理を実施することになるため、状態データのサンプル数が少ないことによる、平均値、標準偏差σ、しきい値等の不確かさの増大を抑制できなくなる。したがって、フィルタ処理の実施条件は、上記Δxmax≧2σmax程度が好ましい。
Note that execution condition of the filtering is not limited to the above [Delta] x max ≧ 2 [sigma] max, for example, Δx max ≧ σ max, Δx max ≧ 3σ max, may be set to [Delta] x max ≧ 4 [sigma] max and the like. However, if the value multiplied by the maximum value σ max of the standard deviation is reduced, the filtering process is performed even for a device with a small amount of change in the state data, so that the processing load of the threshold
CPU温度の標準偏差σに適用するフィルタ処理の一例を図10に示す。 An example of the filter process applied to the standard deviation σ of the CPU temperature is shown in FIG.
フィルタ処理では、例えば同一の処理を繰り返し実行する同じ曜日の観測期間(例えば、月曜日の9:00〜17:00等)t1,t2,…,tnにて算出した各標準偏差σの値を昇順にソートする(図11参照)。ここで、標準偏差σの値が大きい場合は、取得した状態データのばらつきが大きいことを意味する。また、標準偏差σの値が小さい場合は、取得した状態データのばらつきが小さいことを意味し、状態データのサンプル数が少ないことによる標準偏差σの不確かさが大きいと考えられる。そこで、標準偏差σの値が大きい場合は、そのままの値を用いる。あるいは標準偏差σの値が大きい場合は、標準偏差σの値をわずかに大きな値に補正する。一方、標準偏差σの値が小さい場合は、標準偏差σの値を大きな値に補正する。すなわち、標準偏差σの値が小さくなるほど、該標準偏差σの値に乗ずる値を大きくすることで、各標準偏差σの値を補正する。このようなフィルタ処理は、デバイス特性に応じて監視項目の変化量が異なるため、監視項目毎に個別に設定する。 In the filter process, for example, the standard deviation σ calculated in the observation period t 1 , t 2 ,..., T n of the same day of the week in which the same process is repeatedly executed (for example, 9: 00 to 17:00 on Monday). The values are sorted in ascending order (see FIG. 11). Here, when the value of the standard deviation σ is large, it means that the obtained state data varies greatly. In addition, when the value of the standard deviation σ is small, it means that the variation of the acquired state data is small, and it is considered that the uncertainty of the standard deviation σ due to the small number of state data samples is large. Therefore, when the standard deviation σ is large, the value is used as it is. Alternatively, when the value of the standard deviation σ is large, the value of the standard deviation σ is corrected to a slightly large value. On the other hand, when the value of the standard deviation σ is small, the value of the standard deviation σ is corrected to a large value. That is, the value of each standard deviation σ is corrected by increasing the value multiplied by the value of the standard deviation σ as the value of the standard deviation σ decreases. Such a filtering process is set individually for each monitoring item because the amount of change of the monitoring item varies depending on the device characteristics.
例えば、CPU温度に対するフィルタ処理の場合、標準偏差σの最小値から最大値までを100%としたとき(図11参照)、図10に示すように80%以上の標準偏差σの値はそのまま用い、60%から80%の標準偏差σの値は1.1倍にし、30%〜60%の標準偏差σの値は1.25倍にし、30%以下の標準偏差σの値は1.5倍にする。 For example, in the case of the filter processing for the CPU temperature, when the minimum value to the maximum value of the standard deviation σ is 100% (see FIG. 11), the standard deviation σ value of 80% or more is used as it is as shown in FIG. The value of the standard deviation σ from 60% to 80% is 1.1 times, the value of the standard deviation σ of 30% to 60% is 1.25 times, and the value of the standard deviation σ of 30% or less is 1.5 Double.
しきい値決定手段113は、各標準偏差σに対して上記のフィルタ処理を実施した後、上記収集周期毎に、平均値+3σを上限のしきい値に設定し、平均値−3σを下限のしきい値に設定する(ステップS4)。
The threshold
平均値±3σを上限のしきい値及び下限のしきい値に設定する理由は、通常動作時であれば、状態データはこれらのしきい値の範囲内に99.74%の確率で収まるため、状態データが該しきい値を超えた場合は異常とみなすことができるからである。なお、実際には、ステップS3にて各標準偏差σをフィルタ処理しているため、状態データは、設定したしきい値の範囲内に、さらに高い確率で収まると考えられる。図12はCPU温度の観測値(実測値)と求めたしきい値とが変化する様子を示している。 The reason why the average value ± 3σ is set as the upper threshold value and the lower threshold value is that, during normal operation, the state data falls within the range of these thresholds with a probability of 99.74%. This is because when the state data exceeds the threshold value, it can be regarded as abnormal. Actually, since each standard deviation σ is filtered in step S3, it is considered that the state data falls within a set threshold range with a higher probability. FIG. 12 shows how the observed value (measured value) of the CPU temperature and the obtained threshold value change.
しきい値決定手段113は、デバイス毎のしきい値を状態データの収集周期毎に求め、それらのしきい値を曜日や時刻に合わせて時系列にしきい値データ保存部210に保存する。
The threshold
状態監視装置は、デバイス毎のしきい値を求めると、運用監視手段114により状態データが対応する上限のしきい値と下限のしきい値の範囲内に収まっているか否かを判定することで、各デバイスの異常発生有無を監視する(ステップS5)。そして、状態データが上限または下限のしきい値を超えた場合は異常と判定し、異常の発生を通知すると共に、異常が発生したデバイス名、異常の発生時刻、異常内容等を監視ログ保存部220へ保存する(ステップS6)。
When the state monitoring apparatus obtains the threshold value for each device, the
運用監視手段114によりデバイスの監視を開始すると、以降は各デバイスの運用条件等が変更されない限りデバイス毎のしきい値を更新する必要はない。しかしながら、運用開始後であっても、運用監視手段114によりデバイスの状態を監視しつつ、図3のステップS1〜S4の処理を実行してデバイス毎のしきい値を随時更新してもよい。
When device monitoring is started by the
本実施形態によれば、デバイス毎のしきい値を統計処理に基づいて算出するため、ユーザや保守員等がしきい値を設定しなくても最適なしきい値が設定される。 According to the present embodiment, since the threshold value for each device is calculated based on statistical processing, an optimum threshold value is set even if the user, maintenance personnel, or the like does not set the threshold value.
また、予め決められた曜日の時刻、あるいは予め決められた日毎の時刻等、所定の統計処理周期の単位で状態データを統計処理することで、所定の曜日の時刻や日毎の時刻に対応するデバイス毎のしきい値を求め、さらに各しきい値を状態データの収集周期毎に求めるため、しきい値は曜日や時刻に合わせて収集周期毎に時間軸に沿って変動する(図12参照)。そのため、観測値に対して無駄なマージンを持ったしきい値が設定されることがなく、しきい値が固定値である背景技術のコンピュータでは検知できなかった異常も検知できるようになる。 In addition, a device corresponding to the time of a predetermined day of the week or the time of every day by statistically processing the state data in units of a predetermined statistical processing cycle, such as a time of a predetermined day of the week or a time of a predetermined day Since each threshold value is obtained and each threshold value is obtained for each state data collection period, the threshold value varies along the time axis for each collection period in accordance with the day of the week and time (see FIG. 12). . Therefore, a threshold having a useless margin for the observed value is not set, and an abnormality that cannot be detected by a background art computer having a fixed threshold can be detected.
さらに、標準偏差σの値をフィルタ処理することで、状態データのサンプル数が少ないことによる、しきい値の不確かさの増大が抑制される。そのため、より適切なしきい値を設定できる。
(第2の実施の形態)
次に、第2の実施の形態のコンピュータについて図面を用いて説明する。
Further, by filtering the value of the standard deviation σ, an increase in threshold uncertainty due to a small number of state data samples is suppressed. Therefore, a more appropriate threshold value can be set.
(Second Embodiment)
Next, a computer according to the second embodiment will be described with reference to the drawings.
第1の実施の形態では、CPU温度の標準偏差σに対してフィルタ処理する例を示した。第2の実施の形態では、その他のデバイスにも適用できるフィルタ処理を提案する。状態監視装置の構成及びその他の処理は、第1の実施の形態と同様であるため、その説明は省略する。 In the first embodiment, an example in which the filter process is performed on the standard deviation σ of the CPU temperature has been described. In the second embodiment, filter processing that can be applied to other devices is proposed. Since the configuration of the state monitoring apparatus and other processes are the same as those in the first embodiment, description thereof is omitted.
図13は、第2の実施の形態の状態監視装置で実施するフィルタ処理の一例を示すフローチャートである。 FIG. 13 is a flowchart illustrating an example of filter processing performed by the state monitoring apparatus according to the second embodiment.
図13に示す変数a1〜an+1及びx1〜xnは、ユーザ等が予め決めた異常検知のポリシーにしたがってデバイス毎に設定する。例えば上限のしきい値と下限のしきい値の間隔を狭くしたい場合、すなわち誤検出する可能性が高くなるが、異常検知の感度を高くしたい場合は変数aの値を小さく設定する。また、上限のしきい値と下限のしきい値の間隔を広くしたい場合、すなわち異常検知の感度を低くして、誤検出の可能性を低減したい場合は変数aの値を大きく設定する。 Variables a 1 ~a n + 1 and x 1 ~x shown in FIG. 13 n is set for each device according to the policies of the abnormality detection by the user or the like has determined in advance. For example, if the interval between the upper limit threshold and the lower limit threshold is to be narrowed, that is, the possibility of erroneous detection is increased, but the sensitivity of abnormality detection is to be increased, the value of the variable a is set small. Further, when it is desired to widen the interval between the upper limit threshold value and the lower limit threshold value, that is, when it is desired to reduce the sensitivity of abnormality detection and reduce the possibility of erroneous detection, the value of the variable a is set large.
変数xの値は、ソートした標準偏差σのばらつきが大きければ設定数を多くし、標準偏差σのばらつきが小さければ設定数を少なくすればよい。例えば、標準偏差σのばらつきが大きければ、変数xを90%、80%、70%、60%、50%、40%、30%、20%、10%等に設定して標準偏差σの補正を10段階で実施し、標準偏差σのばらつきが小さければ、変数xを70%、30%等に設定して標準偏差σの補正を3段階で実施すればよい。 The value of the variable x may be increased if the variation of the sorted standard deviation σ is large, and may be decreased if the variation of the standard deviation σ is small. For example, if the variation of the standard deviation σ is large, the variable x is set to 90%, 80%, 70%, 60%, 50%, 40%, 30%, 20%, 10%, etc., and the standard deviation σ is corrected. If the variation of the standard deviation σ is small, the variable x may be set to 70%, 30%, etc., and the standard deviation σ may be corrected in three steps.
図13に示すフィルタ処理で用いる変数a1〜an+1及びx1〜xnは、ソフトウェア/ハードウェアエンジニアあるいはSE(System Engineer)等の専門家が設定してもよく、RASソフトウェアが備える機能の一部として、ユーザがGUI(Graphical User Interface)操作により設定できるようにしてもよい。 Variables a 1 ~a n + 1 and x 1 ~x n used in the filtering process shown in FIG. 13, the software / hardware engineers or SE (System Engineer) may be set experts like, provided in the RAS software As a part of the function, the user may be able to set by a GUI (Graphical User Interface) operation.
本実施形態によれば、第1の実施の形態と同様の効果が得られると共に、より多くのデバイスや観測項目にも適用できるフィルタ処理を実現できる。 According to this embodiment, the same effects as those of the first embodiment can be obtained, and filter processing that can be applied to more devices and observation items can be realized.
100 コンピュータ
101 本体部
102 LCD部
111 データ収集手段
112 統計データ算出手段
113 しきい値決定手段
114 運用監視手段
200 統計データ保存部
210 しきい値データ保存部
220 監視ログ保存部
DESCRIPTION OF
Claims (8)
前記デバイスの状態データを予め設定された第1周期毎に収集するデータ収集手段と、
前記データ収集手段で収集された状態データのうち、前記第1周期よりも長い所定の第2周期で取得した複数の状態データを統計処理することで、前記デバイスに対応する平均値及び標準偏差を算出すると共に、該平均値及び標準偏差を前記第1周期毎に算出する統計データ算出手段と、
前記統計データ算出手段で算出された前記標準偏差の値を前記デバイスの特性に応じてフィルタ処理することで補正し、前記平均値及び該補正後の標準偏差を基に、前記デバイスに対応する前記しきい値を前記第1周期毎に算出するしきい値決定手段と、
前記しきい値決定手段で算出したしきい値を用いて、前記デバイスの異常発生有無を判定する運用監視手段と、
を有する状態監視装置。 A state monitoring device that determines whether or not an abnormality has occurred in a device based on whether or not state data indicating a state of a device to be monitored exceeds a predetermined threshold value,
Data collecting means for collecting the state data of the device every preset first period;
Of the state data collected by the data collection means, statistical processing is performed on a plurality of state data acquired in a predetermined second period longer than the first period, thereby obtaining an average value and a standard deviation corresponding to the device. Statistical data calculating means for calculating the average value and standard deviation for each of the first periods,
The value of the standard deviation calculated by the statistical data calculation means is corrected by filtering according to the characteristics of the device, and based on the average value and the standard deviation after the correction, the device corresponding to the device Threshold value determining means for calculating a threshold value for each first period;
Using the threshold value calculated by the threshold value determining means, operation monitoring means for determining the presence or absence of abnormality of the device;
A state monitoring device.
前記しきい値決定手段は、
Δxmax≧2σmaxの条件を満たす場合、前記観測期間で得られる各標準偏差に前記フィルタ処理を実施する請求項1記載の状態監視装置。 When the maximum value of the change amount of the state data collected in a preset observation period is Δx max and the maximum value of the standard deviation calculated in the observation period is σ max ,
The threshold value determining means includes
The state monitoring apparatus according to claim 1, wherein when the condition of Δx max ≧ 2σ max is satisfied, the filtering process is performed on each standard deviation obtained in the observation period.
前記フィルタ処理として、前記標準偏差の値が小さくなるほど、該標準偏差の値に乗ずる値を大きくする補正を行う請求項1または2記載の状態監視装置。 The threshold value determining means includes
The state monitoring apparatus according to claim 1 or 2, wherein, as the filtering process, correction is performed to increase a value multiplied by the standard deviation value as the standard deviation value decreases.
前記標準偏差をσとしたとき、
前記平均値+3σを上限のしきい値とし、前記平均値−3σを下限のしきい値とする請求項1から3のいずれか1項記載の状態監視装置。 The threshold value determining means includes
When the standard deviation is σ,
The state monitoring apparatus according to claim 1, wherein the average value + 3σ is an upper threshold value and the average value −3σ is a lower threshold value.
前記デバイスの状態データを予め設定された第1周期毎に収集し、
前記収集した状態データのうち、前記第1周期よりも長い所定の第2周期で取得した複数の状態データを統計処理することで、前記デバイスに対応する平均値及び標準偏差を算出すると共に、該平均値及び標準偏差を前記第1周期毎に算出し、
該算出した標準偏差の値を前記デバイスの特性に応じてフィルタ処理することで補正し、前記平均値及び該補正後の標準偏差を基に、前記デバイスに対応する前記しきい値を前記第1周期毎に算出し、
該算出したしきい値を用いて、前記デバイスの異常発生有無を判定する状態監視方法。 A status monitoring method for determining whether or not an abnormality has occurred in a device based on whether or not status data indicating a status of a device to be monitored exceeds a predetermined threshold value,
Collecting the device status data for each preset first period,
Among the collected state data, by statistically processing a plurality of state data acquired in a predetermined second period longer than the first period, an average value and a standard deviation corresponding to the device are calculated, An average value and a standard deviation are calculated for each first period,
The calculated standard deviation value is corrected by filtering according to the characteristics of the device, and the threshold value corresponding to the device is set based on the average value and the standard deviation after the correction. Calculate every cycle,
A state monitoring method for determining whether or not an abnormality has occurred in the device using the calculated threshold value.
Δxmax≧2σmaxの条件を満たす場合、前記観測期間で得られる各標準偏差に前記フィルタ処理を実施する請求項5記載の状態監視方法。 When the maximum value of the change amount of the state data collected in a preset observation period is Δx max and the maximum value of the standard deviation calculated in the observation period is σ max ,
The state monitoring method according to claim 5, wherein when the condition of Δx max ≧ 2σ max is satisfied, the filtering process is performed on each standard deviation obtained in the observation period.
前記平均値+3σを上限のしきい値とし、前記平均値−3σを下限のしきい値とする請求項5から7のいずれか1項記載の状態監視方法。 When the standard deviation is σ,
The state monitoring method according to claim 5, wherein the average value + 3σ is an upper threshold value and the average value −3σ is a lower threshold value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010032455A JP2011170518A (en) | 2010-02-17 | 2010-02-17 | State monitoring device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010032455A JP2011170518A (en) | 2010-02-17 | 2010-02-17 | State monitoring device and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011170518A true JP2011170518A (en) | 2011-09-01 |
Family
ID=44684601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010032455A Pending JP2011170518A (en) | 2010-02-17 | 2010-02-17 | State monitoring device and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011170518A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5660179B1 (en) * | 2013-09-13 | 2015-01-28 | 日本電気株式会社 | Management control system, server system, management control method, and management control program |
WO2016116961A1 (en) * | 2015-01-21 | 2016-07-28 | 三菱電機株式会社 | Information processing device and information processing method |
RU2633300C1 (en) * | 2013-09-23 | 2017-10-11 | Роузмаунт Инк. | Normalized process dynamics |
JP2019074080A (en) * | 2017-10-16 | 2019-05-16 | 三菱重工業株式会社 | Wind power generator and control method of the same and control program |
JP2020119136A (en) * | 2019-01-22 | 2020-08-06 | 株式会社豊田自動織機 | Abnormality detecting system |
WO2021140942A1 (en) * | 2020-01-06 | 2021-07-15 | 三菱パワー株式会社 | Diagnosing device, diagnosing method, and program |
JP7423210B2 (en) | 2019-07-16 | 2024-01-29 | 株式会社コア | Air component monitoring system, air component monitoring method, and air component monitoring program |
-
2010
- 2010-02-17 JP JP2010032455A patent/JP2011170518A/en active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5660179B1 (en) * | 2013-09-13 | 2015-01-28 | 日本電気株式会社 | Management control system, server system, management control method, and management control program |
US9857852B2 (en) | 2013-09-13 | 2018-01-02 | Nec Corporation | Management control system, server system, management control method, and program recording medium |
RU2633300C1 (en) * | 2013-09-23 | 2017-10-11 | Роузмаунт Инк. | Normalized process dynamics |
WO2016116961A1 (en) * | 2015-01-21 | 2016-07-28 | 三菱電機株式会社 | Information processing device and information processing method |
JPWO2016116961A1 (en) * | 2015-01-21 | 2017-08-10 | 三菱電機株式会社 | Information processing apparatus and information processing method |
JP2019074080A (en) * | 2017-10-16 | 2019-05-16 | 三菱重工業株式会社 | Wind power generator and control method of the same and control program |
JP2020119136A (en) * | 2019-01-22 | 2020-08-06 | 株式会社豊田自動織機 | Abnormality detecting system |
JP7423210B2 (en) | 2019-07-16 | 2024-01-29 | 株式会社コア | Air component monitoring system, air component monitoring method, and air component monitoring program |
WO2021140942A1 (en) * | 2020-01-06 | 2021-07-15 | 三菱パワー株式会社 | Diagnosing device, diagnosing method, and program |
JP2021110977A (en) * | 2020-01-06 | 2021-08-02 | 三菱パワー株式会社 | Diagnostic device, diagnostic method and program |
US11789436B2 (en) | 2020-01-06 | 2023-10-17 | Mitsubishi Heavy Industries, Ltd. | Diagnosing device, diagnosing method, and program |
JP7437163B2 (en) | 2020-01-06 | 2024-02-22 | 三菱重工業株式会社 | Diagnostic equipment, diagnostic methods and programs |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107871190B (en) | Service index monitoring method and device | |
JP6394726B2 (en) | Operation management apparatus, operation management method, and program | |
JP2011170518A (en) | State monitoring device and method | |
US10171335B2 (en) | Analysis of site speed performance anomalies caused by server-side issues | |
US9798320B2 (en) | Method and apparatus for alarm monitoring | |
WO2016103650A1 (en) | Operation management device, operation management method, and recording medium in which operation management program is recorded | |
US20160371180A1 (en) | Free memory trending for detecting out-of-memory events in virtual machines | |
US20160378583A1 (en) | Management computer and method for evaluating performance threshold value | |
JP5768983B2 (en) | Contract violation prediction system, contract violation prediction method, and contract violation prediction program | |
US20120151276A1 (en) | Early Detection of Failing Computers | |
WO2013069138A1 (en) | Operation information prediction computer, operation information prediction method and program | |
JP5387779B2 (en) | Operation management apparatus, operation management method, and program | |
JPWO2011155621A1 (en) | Fault detection apparatus, fault detection method, and program recording medium | |
EP3869424A1 (en) | Equipment failure diagnosis support system and equipment failure diagnosis support method | |
EP2613207A2 (en) | Adaptive trend-change detection and function fitting system and method | |
JP2020068025A (en) | System and method for anomaly characterization based on joint historical and time-series analysis | |
JP2018109973A (en) | Mechanism for monitoring and alerting computer system applications | |
JP2018032206A (en) | Maintenance support device, maintenance support method, and computer program | |
JP2015185120A (en) | Information processing equipment, information processing method, and program | |
JP5918661B2 (en) | Equipment diagnostic device and setting change reminding method | |
JP5532782B2 (en) | Traceability system and manufacturing process abnormality detection method | |
CN110458713B (en) | Model monitoring method, device, computer equipment and storage medium | |
JPWO2018154845A1 (en) | Management device, management method, and program | |
US20220107858A1 (en) | Methods and systems for multi-resource outage detection for a system of networked computing devices and root cause identification | |
JP5613570B2 (en) | Batch job delay warning automatic alert system, automatic alert method, and program therefor |