JP2008140100A - Information processor, data determination method and program - Google Patents
Information processor, data determination method and program Download PDFInfo
- Publication number
- JP2008140100A JP2008140100A JP2006325201A JP2006325201A JP2008140100A JP 2008140100 A JP2008140100 A JP 2008140100A JP 2006325201 A JP2006325201 A JP 2006325201A JP 2006325201 A JP2006325201 A JP 2006325201A JP 2008140100 A JP2008140100 A JP 2008140100A
- Authority
- JP
- Japan
- Prior art keywords
- data
- abnormal
- value
- prediction
- prediction target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Complex Calculations (AREA)
Abstract
Description
本発明は、例えば、時間軸に沿って整列された時系列データに混入したノイズを除去する技術に関する。 The present invention relates to a technique for removing noise mixed in time-series data aligned along a time axis, for example.
従来、時系列データにノイズが混入した場合、特開平5−12240号公報や、特開2003−10188号公報に記載のように、ノイズを除去し、検出精度や計測制度を高めていた。
ネットワークの異常検出において、ネットワークのログを集計したアクセス数などから生成した時系列データでは、データの変化するポイントとして、ワームなどの攻撃による異常、正常状態の変化、さらに、スパイク状ノイズがある。 In time-series data generated from the number of accesses obtained by collecting network logs in network anomaly detection, there are anomalies due to attacks such as worms, changes in normal state, and spike noise as data change points.
このスパイク状ノイズは、突発的に異常値と同じ、またはそれ以上の高い値が発生し、直後に通常の値に戻る。
図2の(1)に示すように、数値が急激に上昇した場合に、この数値の急上昇がスパイク状ノイズであるのか異常であるのかはその時点では不明である。
図2の(2)に示すように、後の数値の推移から、図2の(1)の数値の急上昇は異常の端緒であったことが後に判明する場合がある。
This spike noise suddenly occurs at a value that is higher than or equal to the abnormal value, and immediately returns to a normal value.
As shown in (1) of FIG. 2, when the numerical value increases rapidly, it is unclear at that time whether the rapid increase in numerical value is spike noise or abnormal.
As shown in (2) of FIG. 2, it may be later revealed that the rapid increase in the numerical value of (1) in FIG.
一方、図2の(3)に示すように、後の数値の推移から、図2の(1)の数値の急上昇がスパイク状ノイズであった場合、このスパイク状ノイズが入ったままだと、その後の異常が正常と判定されることなどにより異常検出の精度が低下するため、スパイク状ノイズを除去する必要がある。 On the other hand, as shown in (3) of FIG. 2, if the rapid increase in the numerical value of (1) in FIG. Therefore, it is necessary to remove spike noise.
また、ネットワークでの異常検出では、できるだけ速やかに異常な状態を検出することが必要であるが、スパイク状ノイズが入ったままだと、スパイク状ノイズの値が高い数値のため、異常の端緒の検出が遅れる場合がある(図2の(3))。
例えば、ワームなどの影響により正常な状態が徐々に変化する場合は、異常な状態の端緒の検出への影響が大きいといえる。
In addition, it is necessary to detect an abnormal state as quickly as possible in network anomaly detection. However, if spike noise remains in the network, the spike noise level is high, so the detection of the beginning of the anomaly is detected. May be delayed ((3) in FIG. 2).
For example, if the normal state gradually changes due to the influence of a worm or the like, it can be said that the influence on the detection of the start of the abnormal state is great.
さらに、アクセス数が増大していき異常と判定された場合でも、結果的には正常状態の変化である場合(図2の(4))もあり、正常でないと判定されたデータを全て除去することはできない。 Furthermore, even when the number of accesses increases and it is determined that there is an abnormality, there is a case where the result is a change in the normal state ((4) in FIG. 2), and all the data determined as not normal is removed. It is not possible.
一方、従来の技術でノイズを除去する場合、データは正常か異常、もしくは正常かノイズかの区別しかなく、ネットワークのデータにある異常とスパイク状ノイズの判別ができないという課題があった。 On the other hand, when noise is removed by the conventional technique, there is only a distinction between data being normal or abnormal, or normal or noise, and there is a problem that it is impossible to distinguish between abnormalities in network data and spike noise.
この発明は、上記のような課題を解決することを主な目的とし、精度の高い異常検出を行うことを主な目的とする。 The main object of the present invention is to solve the above-described problems, and to perform highly accurate abnormality detection.
本発明に係る情報処理装置は、
時間軸に沿って整列された時系列データを監視し、時系列データにおいてデータ値が正常でない非正常データを検出する非正常データ検出部と、
時間軸において前記非正常データから一定時間内にある複数のデータをそれぞれ予測対象データとし、予測対象データごとにデータ値の予測範囲を算出し、予測対象データごとに実際のデータ値とデータ値の予測範囲とを比較し、比較結果に基づいて、前記非正常データが異常データ及びノイズのいずれであるかを判定する非正常データ判定部とを有することを特徴とする。
An information processing apparatus according to the present invention includes:
An abnormal data detector that monitors time-series data arranged along the time axis and detects abnormal data in which data values are not normal in the time-series data;
A plurality of data within a certain time period from the abnormal data on the time axis is set as the prediction target data, the prediction range of the data value is calculated for each prediction target data, and the actual data value and the data value of each prediction target data are calculated. A non-normal data determination unit that compares the prediction range and determines whether the abnormal data is abnormal data or noise based on a comparison result.
本発明によれば、非正常データを検出した場合に、検出した非正常データが、異常か突発的なノイズかの判定を行うため、精度の高い異常検出を行うことができる。 According to the present invention, when abnormal data is detected, it is determined whether the detected abnormal data is abnormal or sudden noise. Therefore, highly accurate abnormality detection can be performed.
実施の形態1.
図1は、この発明の実施の形態1に係るログ分析装置等の構成を示すブロック図である。
図1において、ログ分析装置10(情報処理装置)は、ログ収集装置20が出力するログを分析し、分析結果を通知する。
ログ収集装置20は、ネットワークを監視してログを収集して出力する。
表示装置105は、ログ分析装置10の分析結果を表示する。
FIG. 1 is a block diagram showing a configuration of a log analysis apparatus and the like according to
In FIG. 1, a log analysis device 10 (information processing device) analyzes a log output by the
The
The
ログ分析装置10において、ログ記憶部101は、ログ収集装置20から出力されたログを保存する。
時系列データ生成部102は、ログ記憶部101に蓄積されたデータを時間軸に沿って整列し、時系列データを作成する。
異常検出部103は、時間軸に沿って整列された時系列データを監視し、時系列データにおいてデータ値が正常でない非正常データを検出する。異常検出部103は、非正常データ検出部の例である。
通知部104は、非正常データの検出を通知する。
スパイク判定部106は、非正常データが検出された場合、それがスパイク状ノイズであるか異常データであるかを判定する。スパイク判定部106は、非正常データ判定部の例である。
データ変換部107は、非正常データの値の代わりとなる正常な値を算出し、ログ記憶部101のデータを置換する。データ変換部107は、データ書換え部の例である。
In the
The time series
The
The
When abnormal data is detected, the
The
スパイク判定部106は、時間軸において非正常データから一定時間内にある後続の複数のデータをそれぞれ予測対象データとし、予測対象データごとにデータ値の予測範囲を算出し、予測対象データごとに実際のデータ値とデータ値の予測範囲とを比較し、各予測対象データの実際のデータ値が予測範囲に含まれる確率を算出し、算出した確率に基づいて、非正常データが異常データ及びノイズのいずれであるかを判定する。
The
スパイク判定部106は、より具体的には、非正常データの非正常データ値を反映させて予測対象データごとにデータ値の予測範囲を算出して、各予測対象データの第一の予測範囲とし、また、非正常データの非正常データ値の代わりに正常なデータ値を反映させて予測対象データごとにデータ値の予測範囲を算出して、各予測対象データの第二の予測範囲とする。
そして、スパイク判定部106は、予測対象データごとに実際のデータ値と第一の予測範囲とを比較し、各予測対象データの実際のデータ値が第一の予測範囲に含まれる確率を第一の確率として算出し、また、予測対象データごとに実際のデータ値と第二の予測範囲とを比較し、各予測対象データの実際のデータ値が第二の予測範囲に含まれる確率を第二の確率として算出し、算出した第一の確率と第二の確率とを比較して、非正常データが異常データ及びノイズのいずれであるかを判定する。
なお、スパイク判定部106及びその他の要素の詳細な動作例は後述する。
More specifically, the
Then, the
Detailed operation examples of the
次に、本実施の形態及び以下に述べる実施の形態に示すログ分析装置10のハードウェア構成例について説明する。
図6は、本実施の形態及び以下に述べる実施の形態に示すログ分析装置10のハードウェア資源の一例を示す図である。なお、図6の構成は、あくまでもログ分析装置10のハードウェア構成の一例を示すものであり、ログ分析装置10のハードウェア構成は図6に記載の構成に限らず、他の構成であってもよい。
Next, a hardware configuration example of the
FIG. 6 is a diagram illustrating an example of hardware resources of the
図6において、ログ分析装置10は、プログラムを実行するCPU911(Central Processing Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介して、例えば、ROM(Read Only Memory)913、RAM(Random Access Memory)914、通信ボード915、表示装置901、キーボード902、マウス903、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。更に、CPU911は、FDD904(Flexible Disk Drive)、コンパクトディスク装置905(CDD)、プリンタ装置906、スキャナ装置907と接続していてもよい。また、磁気ディスク装置920の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置あるいは記憶部の一例である。
通信ボード915、キーボード902、スキャナ装置907、FDD904などは、入力部、入力装置の一例である。
また、通信ボード915、表示装置901、プリンタ装置906などは、出力部、出力装置の一例である。
6, the
The
The
Further, the
通信ボード915は、例えば、LAN(ローカルエリアネットワーク)、インターネット、WAN(ワイドエリアネットワーク)などに接続されている。
磁気ディスク装置920には、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、オペレーティングシステム921、ウィンドウシステム922により実行される。
The
The
上記プログラム群923には、本実施の形態及び以下に述べる実施の形態の説明において「〜部」、「〜手段」として説明している機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
ファイル群924には、以下に述べる説明において、「〜の判断」、「〜の計算」、「〜の比較」、「〜の生成」、「〜の置換」、「〜の検出」、「〜の設定」等として説明している処理の結果を示す情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリになどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示などのCPUの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリ等に一時的に記憶される。
また、以下で説明するフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD等の記録媒体に記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
The
In the
The arrows in the flowchart described below mainly indicate input / output of data and signals. The data and signal values are the
また、本実施の形態及び以下に述べる実施の形態の説明において「〜部」、「〜手段」として説明しているものは、「〜回路」、「〜装置」、「〜機器」、「〜手段」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」、「〜手段」として説明しているものは、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。プログラムはCPU911により読み出され、CPU911により実行される。すなわち、プログラムは、本実施の形態及び以下に述べる実施の形態の「〜部」、「〜手段」としてコンピュータを機能させるものである。あるいは、本実施の形態及び以下に述べる実施の形態の「〜部」、「〜手段」の手順や方法をコンピュータに実行させるものである。
In addition, what is described as “to part” and “to means” in the description of this embodiment and the following embodiments is “to circuit”, “to apparatus”, “to device”, and “to”. It may be “means”, and may be “˜step”, “˜procedure”, and “˜processing”. That is, what is described as “˜unit” and “˜means” may be realized by firmware stored in the
このように、本実施の形態及び以下に述べる実施の形態に示すログ分析装置10は、処理装置たるCPU、記憶装置たるメモリ、磁気ディスク等、入力装置たるキーボード、マウス、通信ボード等、出力装置たる表示装置、通信ボード等を備えるコンピュータであり、上記したように「〜部」、「〜手段」として示された機能をこれら処理装置、記憶装置、入力装置、出力装置を用いて実現するものである。
As described above, the
次に、ログ分析装置10の動作例(データ判定方法)について図3を参照して説明する。
ログ分析装置10で、時系列データ生成部102は、ログ記憶部101からデータを取り出し、取り出したデータを時間軸に沿って整列させて時系列データを生成する(ステップS1)。
異常検出部103は、時系列データを解析する(ステップS2)。
解析の結果、正常(ステップS4)か否か(ステップS5)を判定する(ステップS3)(非正常データ検出ステップ)。
この異常検知の方法には、時系列データを特異値分解し特徴量を算出し、時系列の各時点に対応する特徴量をマハラノビス距離などの指標を用いて異常の検出を行う方法や、AR(Auto Regressive)やARMA(Auto Regressive Moving Average)などの時系列モデルを使う方法などがある。
異常検出部103は、時点Nで正常でないデータを検出すると、非正常状態の検知を通知部104を介して通知し、表示装置105に表示する(ステップS6)。
さらに、スパイク判定部106に非正常状態の検知を通知する(ステップS7)。
Next, an operation example (data determination method) of the
In the
The
As a result of the analysis, it is determined whether or not it is normal (step S4) (step S5) (step S3) (unnormal data detection step).
This anomaly detection method includes a method in which time series data is subjected to singular value decomposition to calculate feature amounts, and feature amounts corresponding to each time point in the time series are detected using an index such as Mahalanobis distance, or AR There are methods using a time series model such as (Auto Regressive) and ARMA (Auto Regressive Moving Average).
When the
Further, the
次に、スパイク判定部106の動作例(非正常データ判定ステップ)について図4を参照して説明する。
スパイク判定部106は、時系列データ生成部102を介し、ログ記憶部101から時点Nの直前の期間T1の時系列データを取得する(ステップS8)。
X(i)を時点iのデータと表すと、ここで取得する時系列データはX(N−T1)、X(N−T1+1)、・・・、X(N−1)となる。
これに、X(N)を加えた、X(N−T1)、X(N−T1+1)、・・・、X(N−1)、X(N)の時系列データに対し、スパイク判定部106は、ARやARMAなどの時系列モデルを使い、時点N+1の予測値P(N+1)と、予測誤差PE(N+1)を算出する(ステップS9)。
次に、時系列データ生成部102を介し、ログ記憶部101から時点N+1の値(実測値)X(N+1)を得る(ステップS10)。
実測値X(N+1)が式(1)の条件を満たすかを見る。(ステップS11)
P(N+1)−PE(N+1)<X(N+1)<P(N+1)+PE(N+1)
Next, an operation example (non-normal data determination step) of the
The
When X (i) is expressed as data at time point i, the time-series data acquired here is X (N−T1), X (N−T1 + 1),..., X (N−1).
X (N−T1), X (N−T1 + 1),..., X (N−1), X (N) time-series data is added to this, and spike determination unit A time series model such as AR or ARMA is used to calculate a prediction value P (N + 1) and a prediction error PE (N + 1) at time N + 1 (step S9).
Next, a value (actual value) X (N + 1) at time N + 1 is obtained from the
It is checked whether the actual measurement value X (N + 1) satisfies the condition of the formula (1). (Step S11)
P (N + 1) -PE (N + 1) <X (N + 1) <P (N + 1) + PE (N + 1)
次に、X(N−T1+1)からX(N+1)のデータを使い、時点N+2の予測値P(N+2)と予測誤差PE(N+2)を算出する。次に、時系列データ生成部102を介し、ログ記憶部101から時点N+2の値(実測値)X(N+2)を得、時点N+1のときと同様に、実測値X(N+2)が予測値P(N+2)±予測誤差PE(N+2)の範囲にあるかを見る。
Next, using the data from X (N−T1 + 1) to X (N + 1), the prediction value P (N + 2) and the prediction error PE (N + 2) at time N + 2 are calculated. Next, the value (measured value) X (N + 2) of the time point N + 2 is obtained from the
なお、これらP(N+i)±PE(N+i)の範囲は、非正常データX(N)の非正常データ値(実測値)を反映させて算出したN+i時のデータの予測値の範囲であり、第一の予測範囲に相当する。 The range of these P (N + i) ± PE (N + i) is the range of the predicted value of the data at N + i calculated by reflecting the abnormal data value (actual value) of the abnormal data X (N), It corresponds to the first prediction range.
ステップS9からステップS11の動作を、ある期間T2(つまり、X(N+T2)まで)繰り返し(ステップS12、S23)、期間T2に含まれる全てのデータ(X(N+1)からX(N+T2)までの全てのデータ)について実測値が予測値±予測誤差の範囲に入る確率R1を求める(ステップS13)。 The operations from step S9 to step S11 are repeated for a certain period T2 (that is, from X (N + T2)) (steps S12 and S23), and all the data included in the period T2 (from X (N + 1) to X (N + T2)) The probability R1 of the actually measured value that falls within the range of predicted value ± prediction error is obtained (step S13).
なお、期間T2に含まれるデータ(X(N+1)・・・X(N+T2))は、予測対象データの例である。
また、確率R1は、予測対象データごとに実際のデータ値と第一の予測範囲とを比較して得られる確率であり、各予測対象データの実際のデータ値が第一の予測範囲に含まれる確率を表し、第一の確率の例である。
Note that data (X (N + 1)... X (N + T2)) included in the period T2 is an example of prediction target data.
The probability R1 is a probability obtained by comparing the actual data value and the first prediction range for each prediction target data, and the actual data value of each prediction target data is included in the first prediction range. It represents the probability and is an example of the first probability.
一方、スパイク判定部106はデータ変換部107を呼び、時点Nに対応する正常なデータX’(N)を取得し(ステップS14)、正常でないデータX(N)をX’(N)に置き換える(ステップS15)。
次に、スパイク判定部106は、X(N)をX’(N)で置換した時系列データを使い、ステップS9からS11と同様の手法にて、時点N+iの予測値および予測誤差を算出し(ステップS16)、実測値と比較し、実測値が、予測値±予測誤差の範囲にあるかを見る(ステップS17〜S18)。
On the other hand, the
Next, the
なお、ステップS16で算出される(N+i)時のデータの予測値±予測誤差の範囲は、非正常データX(N)の非正常データ値の代わりに正常なデータ値(X’(N)のデータ値)を反映させて算出したN+i時のデータの予測値の範囲であり、第二の予測範囲に相当する。 Note that the range of the predicted value ± prediction error of the data at the time of (N + i) calculated in step S16 is the normal data value (X ′ (N) instead of the abnormal data value of the abnormal data X (N). (Data value) is a range of the predicted value of the data at N + i calculated and reflects the second predicted range.
そして、スパイク判定部106は、ステップS16からステップS18の動作を、ある期間T2(つまり、X(N+T2)まで)繰り返し(ステップS19、S24)、期間T2に含まれる全てのデータ(X(N+1)からX(N+T2)までの全てのデータ)について実測値が予測値±予測誤差の範囲に入る確率R2を求める(ステップS20)。
Then, the
なお、確率R2は、予測対象データごとに実際のデータ値と第二の予測範囲とを比較して得られる確率であり、各予測対象データの実際のデータ値が第二の予測範囲に含まれる確率を表し、第二の確率の例である。 The probability R2 is a probability obtained by comparing the actual data value and the second prediction range for each prediction target data, and the actual data value of each prediction target data is included in the second prediction range. It represents the probability and is an example of the second probability.
次に、スパイク判定部106は、確率R1と確率R2とを比較する(ステップS21)。
R1<R2、つまり、予測対象データの実測値が、時点Nの値を正常なデータX’(N)に置き換えた場合の予測に近い場合、正常でない時点Nのデータは、突発的なスパイク状ノイズと判定し、スパイク判定部106はデータ変換部107に通知する。
スパイク判定部106から通知を受けたデータ変換部107は、ログ記憶部101の時点Nのデータを、時点Nに対応する正常なデータX’(N)で置き換える(ステップS22)。
Next, the
When R1 <R2, that is, when the actual measurement value of the prediction target data is close to the prediction when the value of the time point N is replaced with the normal data X ′ (N), the data at the time point N that is not normal is a sudden spike. The
Receiving the notification from the
データ変換部107で、正常でない時点NのデータX(N)に対する正常なデータX’(N)を算出するときの動作について説明する。
データ変換部107は、時系列データ生成部102を介してログ記憶部101から、時点Nの直前の期間T3の時系列データ、X(N−T3)、X(N−T3+1)、・・・、X(N−1)を取得する。
この時系列データに対し、ARやARMAなどの時系列モデルを使い、時点Nの予測値P(N)を算出し、これを時点Nに対する正常なデータとする。
そして、データ変換部107は、図4のステップS14において、正常なデータX’(N)をスパイク判定部106に通知する。
また、データ変換部107は、図4のステップS22において、ログ記憶部101のデータを正常なデータX’(N)に書き換える。
An operation when the
The
A time series model such as AR or ARMA is used for this time series data, and a predicted value P (N) at time N is calculated and used as normal data for time N.
Then, the
Further, the
以上のように、正常でないデータを検出したとき、それが異常か、突発的なスパイク状ノイズかの判定を行い、スパイク状ノイズのみを除去することにより、その後の異常検出の精度を向上させることができる。 As described above, when abnormal data is detected, it is determined whether it is abnormal or sudden spike noise, and only spike noise is removed to improve the accuracy of subsequent abnormality detection. Can do.
なお、以上の説明では、正常なデータX’(N)を反映させた予測値±予測誤差に実測値が含まれる確率R2を算出し、確率R1と確率R2とを比較することとしたが、確率R2を算出せずに、予め確率R1に対する閾値を定めておき、確率R1が閾値を超えるか否かにより、異常かスパイク状ノイズかを判定するようにしてもよい。 In the above description, the probability R2 in which the actual measurement value is included in the predicted value ± prediction error reflecting the normal data X ′ (N) is calculated, and the probability R1 and the probability R2 are compared. Instead of calculating the probability R2, a threshold value for the probability R1 may be determined in advance, and it may be determined whether the noise is abnormal or spike noise depending on whether the probability R1 exceeds the threshold value.
以上、本実施の形態では、
(a)ネットワークログのパケット数やフラグ毎のパケット数などを収集する手段、
(b)収集したログを記憶する手段、
(c)記憶手段によって保存されたログから時間軸に沿って変化する時系列データを生成する手段、
(d)時系列データを解析し、正常でないデータを検出する手段、
(e)正常でないデータを検出したことを通知する手段、
(f)検知した正常でないデータが異常かスパイク状ノイズかを判定する手段、
(g)スパイク状ノイズの値を、その前のある一定の期間の値から推測した値に変換する手段を有し、
検知した正常でないデータが異常かスパイク状ノイズかを判定する手段おいて、
(h)ARやARMAなどの時系列モデルを用い、
(i)実測値が信頼区間内に入る確率から、異常かスパイク状ノイズかを判定するログ分析装置等について説明した。
As described above, in the present embodiment,
(A) means for collecting the number of packets in the network log and the number of packets for each flag,
(B) means for storing the collected logs;
(C) means for generating time-series data changing along the time axis from the log saved by the storage means;
(D) means for analyzing time-series data and detecting abnormal data;
(E) means for notifying that abnormal data has been detected;
(F) means for determining whether the detected abnormal data is abnormal or spike noise;
(G) having means for converting the value of the spike-like noise into a value estimated from a value of a certain period before the spike noise;
In the means to determine whether the detected abnormal data is abnormal or spike noise,
(H) Using time series models such as AR and ARMA,
(I) A log analysis apparatus and the like that determines whether an actual measurement value falls within the confidence interval and determines whether it is abnormal or spike noise has been described.
また、本実施の形態では、スパイク状ノイズに代える値を推測し変換する手段で、スパイク状ノイズに代える値として、スパイク状ノイズと判定されたデータの前のデータを用いてARやARMAなどの時系列モデルを使い、スパイク状ノイズに代える値を推測し用いるログ分析装置について説明した。 Further, in the present embodiment, a means for estimating and converting a value to replace spike-like noise is used as a value to replace spike-like noise, using data before data determined to be spike-like noise, such as AR and ARMA. A log analysis apparatus that uses a time series model to estimate and use a value to replace spike noise has been described.
実施の形態2.
実施の形態1では、時点Nの実測値が、正常でないデータをそのまま使って予測したものと、正常なデータに置換して予測したもののどちらに近いかで、正常でないデータがスパイク状ノイズか否かを判定した。
本実施の形態では、スパイク判定部106は、時間軸において非正常データに後続する複数のデータを予測対象データとし、予測対象データごとにデータ値の予測範囲を算出し、予測対象データごとに実際のデータ値とデータ値の予測範囲とを比較し、予測対象データの実際のデータ値の軌跡と予測範囲の軌跡との一致状況に基づいて、非正常データが異常データ及びノイズのいずれであるかを判定する。
In the first embodiment, whether or not the abnormal data is spike noise depending on whether the actually measured value at the time N is close to the one predicted using the normal data as it is or the one predicted by replacing the normal data with the normal data. It was judged.
In the present embodiment, the
具体的には、本実施の形態では、スパイク判定部106は、時点Nの直前の期間T4のデータ(時点N―T4、N−T4+1、・・・N−1のデータ)を使って、時点N以降の期間T5について、時点N+1、N+2、・・・、N+T5の各データの予測値を算出し、時点N、N+1、N+2、・・・、N+T5の実測値が、算出した予測値に収束していくかを見る。
収束する場合、正常でないデータがスパイク状ノイズと判定する。
Specifically, in the present embodiment, the
In the case of convergence, data that is not normal is determined as spike noise.
図5は、本実施の形態に係るスパイク判定部106の判定手法を説明する図である。
図5の上段では、N+1からN+T5の範囲において、予測値(破線)と実測値(実線)の軌跡は一致傾向にあり、実測値が予測値に収束していくため、N時点のデータはスパイク状ノイズであると判定できる。
他方、図5の下段では、N+1からN+T5の範囲において、予測値(破線)と実測値(実線)の軌跡は一致傾向になく、実測値が予測値に収束していかないため、N時点のデータはスパイク状ノイズではないと判定できる。
なお、図5では、予測範囲の例として、予測誤差を考慮していない予測値を用いているが、実施の形態1と同様に、予測範囲として、予測値±予測誤差を用い、予測値±予測誤差と実測値とを比較するようにしてもよい。
FIG. 5 is a diagram illustrating a determination method of the
In the upper part of FIG. 5, in the range from N + 1 to N + T5, the locus of the predicted value (broken line) and the actually measured value (solid line) tend to coincide, and the actually measured value converges to the predicted value. It can be determined that the noise is a noise.
On the other hand, in the lower part of FIG. 5, in the range from N + 1 to N + T5, the locus of the predicted value (broken line) and the actually measured value (solid line) does not tend to match, and the actually measured value does not converge to the predicted value. Can be determined not to be spike noise.
In FIG. 5, a prediction value that does not consider the prediction error is used as an example of the prediction range. However, as in the first embodiment, the prediction value ± prediction error is used as the prediction range, and the prediction value ± The prediction error may be compared with the actual measurement value.
本実施の形態においても、スパイク判定部106がスパイク状ノイズを検出した場合には、データ変換部107がログ記憶部101のスパイク状ノイズのデータを正常なデータ値に置き換える。
なお、本実施の形態においても、ログ分析装置10等の構成は図1と同様である。
Also in the present embodiment, when the
In the present embodiment, the configuration of the
このように、本実施の形態によれば、非正常データの検出後の一定期間の実測値が予測値に収束していくか否かによりスパイク状ノイズか否かの判断を行うため、少ない計算量にてスパイク状ノイズの判定を行うことができる。 Thus, according to the present embodiment, since it is determined whether or not the spiked noise is based on whether or not the actual measurement value for a certain period after the detection of abnormal data converges to the predicted value, a small amount of calculation is required. Spike noise can be determined by the amount.
以上、本実施の形態では、ARやAMRAなどの時系列モデルを用い、実測値が推定値に収束するか否かで、検知した正常でないデータが異常かスパイク状ノイズかを判定するログ分析装置について説明した。 As described above, in this embodiment, a log analysis device that uses a time series model such as AR or AMRA and determines whether detected abnormal data is abnormal or spike noise depending on whether or not the actual measurement value converges to the estimated value. Explained.
実施の形態3.
実施の形態1では、スパイク判定部106は、時点Nの非正常データX(N)に対する正常なデータとして、ARやARMAなどの時系列モデルを用いて算出されたデータを用いて第二の予測範囲を算出した。
一方、本実施の形態では、スパイク判定部106は、時間軸において非正常データに先行する複数のデータのデータ値の平均値を非正常データ値の代わりの正常なデータ値として用いて、各予測対象データの第二の予測範囲を算出する。
In the first embodiment, the
On the other hand, in the present embodiment, the
つまり、本実施の形態では、データ変換部107は、時点Nの直前の期間T6のデータ(時点N−T6、N−T6+1、・・・N−1のデータ)の平均値を時点Nに対する正常値X’(N)として算出する。
そして、スパイク判定部106は、この正常値X’(N)を用いて、第二の予測範囲を算出し、以降は、実施の形態1に示した手順にて、時点Nのデータがスパイク状ノイズであるか否かを判定する。
また、本実施の形態においても、スパイク判定部106がスパイク状ノイズを検出した場合には、データ変換部107がログ記憶部101のスパイク状ノイズのデータを正常なデータ値に置き換える。この場合の正常なデータ値は、上記の期間T6のデータの平均値である。
なお、本実施の形態においても、ログ分析装置10等の構成は図1と同様である。
That is, in the present embodiment, the
Then, the
Also in the present embodiment, when the
In the present embodiment, the configuration of the
このように、本実施の形態によれば、時点Nの非正常データの代わりに用いる正常値を、時点Nに先行する複数のデータの平均値とするため、少ない計算量にてスパイク状ノイズの判定を行うことができる。 As described above, according to the present embodiment, the normal value used in place of the abnormal data at time N is the average value of a plurality of data preceding time N, so that spike noise is reduced with a small amount of calculation. Judgment can be made.
以上のように、本実施の形態では、スパイク状ノイズに代える値として、スパイク状ノイズと判定されたデータの前のデータの平均値を用いるログ分析装置について説明した。 As described above, in the present embodiment, the log analyzer that uses the average value of data before data determined to be spike-like noise as a value to replace spike-like noise has been described.
10 ログ分析装置、20 ログ収集装置、101 ログ記憶部、102 時系列データ生成部、103 異常検出部、104 通知部、105 表示装置、106 スパイク判定部、107 データ変換部。 10 log analysis device, 20 log collection device, 101 log storage unit, 102 time series data generation unit, 103 abnormality detection unit, 104 notification unit, 105 display device, 106 spike determination unit, 107 data conversion unit.
Claims (10)
時間軸において前記非正常データから一定時間内にある複数のデータをそれぞれ予測対象データとし、予測対象データごとにデータ値の予測範囲を算出し、予測対象データごとに実際のデータ値とデータ値の予測範囲とを比較し、比較結果に基づいて、前記非正常データが異常データ及びノイズのいずれであるかを判定する非正常データ判定部とを有することを特徴とする情報処理装置。 An abnormal data detector that monitors time-series data arranged along the time axis and detects abnormal data in which data values are not normal in the time-series data;
A plurality of data within a certain time period from the abnormal data on the time axis is set as the prediction target data, the prediction range of the data value is calculated for each prediction target data, and the actual data value and the data value of each prediction target data are calculated. An information processing apparatus comprising: an abnormal data determination unit that compares a prediction range and determines whether the abnormal data is abnormal data or noise based on a comparison result.
予測対象データごとに実際のデータ値とデータ値の予測範囲とを比較し、各予測対象データの実際のデータ値が予測範囲に含まれる確率を算出し、算出した確率に基づいて、前記非正常データが異常データ及びノイズのいずれであるかを判定することを特徴とする請求項1に記載の情報処理装置。 The abnormal data determination unit
For each prediction target data, the actual data value is compared with the prediction range of the data value, the probability that the actual data value of each prediction target data is included in the prediction range is calculated, and the abnormal state is based on the calculated probability The information processing apparatus according to claim 1, wherein it is determined whether the data is abnormal data or noise.
前記非正常データの非正常データ値を反映させて予測対象データごとにデータ値の予測範囲を算出して、各予測対象データの第一の予測範囲とし、
前記非正常データの非正常データ値の代わりに正常なデータ値を反映させて予測対象データごとにデータ値の予測範囲を算出して、各予測対象データの第二の予測範囲とし、
予測対象データごとに実際のデータ値と第一の予測範囲とを比較し、各予測対象データの実際のデータ値が第一の予測範囲に含まれる確率を第一の確率として算出し、
予測対象データごとに実際のデータ値と第二の予測範囲とを比較し、各予測対象データの実際のデータ値が第二の予測範囲に含まれる確率を第二の確率として算出し、
算出した第一の確率と第二の確率とを比較して、前記非正常データが異常データ及びノイズのいずれであるかを判定することを特徴とする請求項1に記載の情報処理装置。 The abnormal data determination unit
Reflecting the abnormal data value of the abnormal data to calculate the prediction range of the data value for each prediction target data, as the first prediction range of each prediction target data,
Reflecting the normal data value instead of the abnormal data value of the non-normal data to calculate the prediction range of the data value for each prediction target data, the second prediction range of each prediction target data,
For each prediction target data, the actual data value is compared with the first prediction range, the probability that the actual data value of each prediction target data is included in the first prediction range is calculated as the first probability,
For each prediction target data, the actual data value is compared with the second prediction range, and the probability that the actual data value of each prediction target data is included in the second prediction range is calculated as the second probability.
The information processing apparatus according to claim 1, wherein the calculated first probability and the second probability are compared to determine whether the abnormal data is abnormal data or noise.
時間軸において前記非正常データに先行する複数のデータに対して時系列モデルを用いて算出されたデータ値を前記非正常データ値の代わりの正常なデータ値として用いて、各予測対象データの第二の予測範囲を算出することを特徴とする請求項3に記載の情報処理装置。 The abnormal data determination unit
A data value calculated using a time series model for a plurality of data preceding the abnormal data on the time axis is used as a normal data value instead of the abnormal data value. The information processing apparatus according to claim 3, wherein a second prediction range is calculated.
時間軸において前記非正常データに先行する複数のデータのデータ値の平均値を前記非正常データ値の代わりの正常なデータ値として用いて、各予測対象データの第二の予測範囲を算出することを特徴とする請求項3に記載の情報処理装置。 The abnormal data determination unit
Calculating a second prediction range of each prediction target data using an average value of a plurality of data values preceding the abnormal data on the time axis as a normal data value instead of the abnormal data value The information processing apparatus according to claim 3.
時間軸において前記非正常データに後続する複数のデータを予測対象データとし、予測対象データごとにデータ値の予測範囲を算出し、予測対象データごとに実際のデータ値とデータ値の予測範囲とを比較し、予測対象データの実際のデータ値の軌跡と予測範囲の軌跡との一致状況に基づいて、前記非正常データが異常データ及びノイズのいずれであるかを判定することを特徴とする請求項1に記載の情報処理装置。 The abnormal data determination unit
A plurality of data following the abnormal data on the time axis is set as prediction target data, a prediction range of data values is calculated for each prediction target data, and an actual data value and a prediction range of data values are calculated for each prediction target data. The comparison is performed, and it is determined whether the abnormal data is abnormal data or noise based on a coincidence state between a trajectory of an actual data value of the prediction target data and a trajectory of the prediction range. The information processing apparatus according to 1.
前記時系列データの元になるログを記憶するログ記憶部と、
前記非正常データ判定部により前記非正常データがノイズであると判定された場合に、前記ログ記憶部のログを、前記非正常データの非正常データ値から正常なデータ値に書き換えるデータ書換え部を有することを特徴とする請求項1に記載の情報処理装置。 The information processing apparatus further includes:
A log storage unit for storing a log that is a source of the time-series data;
A data rewriting unit for rewriting the log in the log storage unit from an abnormal data value of the abnormal data to a normal data value when the abnormal data determination unit determines that the abnormal data is noise; The information processing apparatus according to claim 1, further comprising:
時間軸において前記非正常データに先行する複数のデータに対して時系列モデルを用いて正常なデータ値を算出し、前記ログ記憶部のログを、算出した前記正常なデータ値に書き換えることを特徴とする請求項7に記載の情報処理装置。 The data rewriting unit
A normal data value is calculated using a time series model for a plurality of data preceding the abnormal data on the time axis, and the log in the log storage unit is rewritten with the calculated normal data value. The information processing apparatus according to claim 7.
コンピュータが、時間軸において前記非正常データから一定時間内にある複数のデータをそれぞれ予測対象データとし、予測対象データごとにデータ値の予測範囲を算出し、予測対象データごとに実際のデータ値とデータ値の予測範囲とを比較し、比較結果に基づいて、前記非正常データが異常データ及びノイズのいずれであるかを判定する非正常データ判定ステップとを有することを特徴とするデータ判定方法。 A non-normal data detection step in which a computer monitors time-series data arranged along a time axis and detects abnormal data in which data values are not normal in the time-series data;
A computer sets a plurality of data within a certain time from the abnormal data on the time axis as prediction target data, calculates a prediction range of data values for each prediction target data, and sets an actual data value for each prediction target data A data determination method comprising: comparing a prediction range of data values, and determining whether the abnormal data is abnormal data or noise based on a comparison result.
時間軸において前記非正常データから一定時間内にある複数のデータをそれぞれ予測対象データとし、予測対象データごとにデータ値の予測範囲を算出し、予測対象データごとに実際のデータ値とデータ値の予測範囲とを比較し、比較結果に基づいて、前記非正常データが異常データ及びノイズのいずれであるかを判定する非正常データ判定処理とをコンピュータに実行させることを特徴とするプログラム。 An abnormal data detection process for monitoring time-series data arranged along the time axis and detecting abnormal data whose data values are not normal in the time-series data;
A plurality of data within a certain time period from the abnormal data on the time axis is set as the prediction target data, the prediction range of the data value is calculated for each prediction target data, and the actual data value and the data value of each prediction target data are calculated. A program that compares a predicted range and causes a computer to execute an abnormal data determination process that determines whether the abnormal data is abnormal data or noise based on a comparison result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006325201A JP2008140100A (en) | 2006-12-01 | 2006-12-01 | Information processor, data determination method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006325201A JP2008140100A (en) | 2006-12-01 | 2006-12-01 | Information processor, data determination method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008140100A true JP2008140100A (en) | 2008-06-19 |
Family
ID=39601493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006325201A Pending JP2008140100A (en) | 2006-12-01 | 2006-12-01 | Information processor, data determination method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008140100A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101597935B1 (en) * | 2015-03-19 | 2016-02-25 | 주식회사 퓨쳐시스템 | Method and system for detecting abnormal time-series data |
KR101841518B1 (en) * | 2016-07-27 | 2018-03-23 | 국방과학연구소 | Time series analysis method of sea clutter using outlier value detection technique |
KR20200058160A (en) * | 2018-11-19 | 2020-05-27 | 주식회사 엑셈 | Method of generating normal band for abnormal data detecting based on time series data and using multiple noise data and device implementing thereof |
KR20200058161A (en) * | 2018-11-19 | 2020-05-27 | 주식회사 엑셈 | Method of generating normal band for abnormal data detecting based on time series data and using follower boundray setting and device implementing thereof |
CN112988536A (en) * | 2021-03-09 | 2021-06-18 | 北京奇艺世纪科技有限公司 | Data anomaly detection method, device, equipment and storage medium |
CN117997627A (en) * | 2024-02-28 | 2024-05-07 | 途家网网络技术(北京)有限公司 | Network anomaly identification method and system |
-
2006
- 2006-12-01 JP JP2006325201A patent/JP2008140100A/en active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101597935B1 (en) * | 2015-03-19 | 2016-02-25 | 주식회사 퓨쳐시스템 | Method and system for detecting abnormal time-series data |
KR101841518B1 (en) * | 2016-07-27 | 2018-03-23 | 국방과학연구소 | Time series analysis method of sea clutter using outlier value detection technique |
KR20200058160A (en) * | 2018-11-19 | 2020-05-27 | 주식회사 엑셈 | Method of generating normal band for abnormal data detecting based on time series data and using multiple noise data and device implementing thereof |
KR20200058161A (en) * | 2018-11-19 | 2020-05-27 | 주식회사 엑셈 | Method of generating normal band for abnormal data detecting based on time series data and using follower boundray setting and device implementing thereof |
KR102133277B1 (en) | 2018-11-19 | 2020-07-13 | 주식회사 엑셈 | Method of generating normal band for abnormal data detecting based on time series data and using follower boundray setting and device implementing thereof |
KR102133276B1 (en) | 2018-11-19 | 2020-07-13 | 주식회사 엑셈 | Method of generating normal band for abnormal data detecting based on time series data and using multiple noise data and device implementing thereof |
CN112988536A (en) * | 2021-03-09 | 2021-06-18 | 北京奇艺世纪科技有限公司 | Data anomaly detection method, device, equipment and storage medium |
CN112988536B (en) * | 2021-03-09 | 2023-08-22 | 北京奇艺世纪科技有限公司 | Data anomaly detection method, device, equipment and storage medium |
CN117997627A (en) * | 2024-02-28 | 2024-05-07 | 途家网网络技术(北京)有限公司 | Network anomaly identification method and system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7548831B2 (en) | Apparatus and method for detecting abnormal sign | |
JP2008140100A (en) | Information processor, data determination method and program | |
US8448025B2 (en) | Fault analysis apparatus, fault analysis method, and recording medium | |
JP2011065440A (en) | Log data analysis device and log data analysis method of the same, and log data analysis program | |
CN113708986B (en) | Server monitoring apparatus, method and computer-readable storage medium | |
JP5933386B2 (en) | Data management apparatus and program | |
JP2008059102A (en) | Program for monitoring computer resource | |
CN107102929A (en) | The detection method and device of failure | |
US9552263B2 (en) | System, apparatus, and method to dynamically change system recoveries based on system load | |
JP4889618B2 (en) | Data processing apparatus, data processing method, and program | |
JP2008146157A (en) | Network abnormality decision device | |
US8904360B2 (en) | Automated identification of redundant method calls | |
CN114944957A (en) | Abnormal data detection method and device, computer equipment and storage medium | |
US20190245768A1 (en) | Monitoring a resource consumption of an application | |
JP2005182647A (en) | Abnormality detector for apparatus | |
JP4745881B2 (en) | Network status determination device, network status determination method, and network status determination program | |
CN104035866B (en) | The software action appraisal procedure and device of analysis are called based on system | |
CN111209129A (en) | Memory optimization method and device based on AMD platform | |
JP2007164346A (en) | Decision tree changing method, abnormality determination method, and program | |
US11334053B2 (en) | Failure prediction model generating apparatus and method thereof | |
AU2021269196B2 (en) | Performance event troubleshooting system | |
JP7095443B2 (en) | Anomaly detection program, anomaly detection method and anomaly detection device | |
WO2021074995A1 (en) | Threshold value acquisition device, method, and program | |
JP2010237836A (en) | Security audit period derivation device, security audit period derivation program, and recording medium | |
CN112882854A (en) | Request exception handling method and device |