JP2008154010A - Data processor, and data processing method and program - Google Patents
Data processor, and data processing method and program Download PDFInfo
- Publication number
- JP2008154010A JP2008154010A JP2006340621A JP2006340621A JP2008154010A JP 2008154010 A JP2008154010 A JP 2008154010A JP 2006340621 A JP2006340621 A JP 2006340621A JP 2006340621 A JP2006340621 A JP 2006340621A JP 2008154010 A JP2008154010 A JP 2008154010A
- Authority
- JP
- Japan
- Prior art keywords
- data
- smoothing
- unit
- value
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、時系列データの平滑化技術に関する。 The present invention relates to a technique for smoothing time-series data.
不正アクセス検出において、収集されたパケットログから生成された時系列データを解析して異常を検知する手法がある。
この手法では、時系列データと学習データとを比較する。学習データとは時系列データの変化量を測るための基準となるものである。
In unauthorized access detection, there is a method of detecting anomalies by analyzing time-series data generated from collected packet logs.
In this method, time series data and learning data are compared. Learning data is a reference for measuring the amount of change in time-series data.
図1は、例えば、非特許文献1に記載の不正アクセス分析システム100の構成例を示す。
図1に示す不正アクセス分析システム100は、例えば図2に示すように、企業等の特定の組織に属するネットワークを監視対象とする。ファイアウォール(F/W)、S−NIDS(Signature based Network IDS(Intrusion Detection System)、パケット収集装置からのパケットログ(定点観測データ)を不正アクセス分析システム100に入力し、リアルタイムに分析を行う。
FIG. 1 shows a configuration example of an unauthorized
The unauthorized
図1において、情報収集部6は、F/W、S−NIDS、パケット収集装置のパケットログを定期的に収集する。
ログ情報集計部5は、情報収集部6で集められたパケットログから不正アクセスの検知に必要なパケットの情報を集計する。例えば、単位時間当たりの送信元IPアドレス毎パケット数、送信先ポート毎パケット数、或いはパケット長等の集計を行う。
異常検知部4は、ログ情報集計部5により集計されたデータをもとに異常なネットワークトラフィックを検知し早期アラートを出力する。
不正アクセス判定部3は、異常検知部4においてトラフィックの異常状態が検知された場合、不正アクセスが原因であることを判定する機能である。ログ情報集計部5において複数の分析視点での集計を行い、各々に対する異常検知部4の検知の結果を総合的に判断し不正アクセスが原因であることを確定する。また、図示していないセキュリティ情報データベースに格納された既知の脆弱性情報も判定に利用する。例えば、異常検知部4において特定のサービス(ポート)へのパケットの分析結果で異常が検知されており、直近に同サービスの脆弱性が公開されていたのであれば、同脆弱性を悪用した不正アクセスの可能性があると判定できる。
誤検知と判定された場合は、その情報を正常状態して異常検知部4にフィードバックする。
なお、セキュリティ情報データベースとは、例えば、ソフトウェアの最新の脆弱性情報・パッチ情報を管理するデータベースである。
対策部2は、不正アクセス判定部3により不正アクセスが確定された場合、特定ポートへのアクセスの制限、パッチの適用等の指示等、対策の指針を出力する機能である。ネットワーク管理者はこの出力を参考に対策を行う。
GUI(Graphical User Interface)1は、早期アラート、不正アクセスの原因、対策情報等を表示する。
In FIG. 1, the information collection unit 6 periodically collects F / W, S-NIDS, and packet logs of the packet collection device.
The log
The
The unauthorized access determination unit 3 is a function that determines that an unauthorized access is caused when an abnormal state of traffic is detected by the
If it is determined that there is a false detection, the information is in a normal state and fed back to the
The security information database is, for example, a database that manages the latest vulnerability information / patch information of software.
The
A GUI (Graphical User Interface) 1 displays an early alert, the cause of unauthorized access, countermeasure information, and the like.
次に、時系列データの解析手法の従来技術として、主成分分析を用いた場合の異常検知部4の例を示す。
この主成分分析を用いた手法では、時系列データ中で発生した変動の判定を行う。判定手法は以下の手順に従う。
図26に、異常検知部4の詳細を示す。
データ取得部43は、時系列データ(入力データ42)の入力及び学習データ41の規定を行う。
分析部44は、時系列データの特徴量の計算を行う。
判定部45は、時系列データの異常値の判定を行う。
Next, as an example of a conventional technique for analyzing time series data, an example of the
In the method using the principal component analysis, the variation occurring in the time series data is determined. The determination method follows the following procedure.
FIG. 26 shows details of the
The
The
The
データ取得部43では、異常を測定する時系列データの入力と学習データの規定を行う。
学習データとは、前述したように、時系列データの変化量を測るための基準となるものである。これは入力する時系列データの一部分を学習データとする方法と、何らかのモデル化に基づいて作成する方法がある。
図26の例の場合、学習データを時系列データ内の連続する一定範囲の領域と規定する。
The
As described above, the learning data is a reference for measuring the amount of change in the time series data. There are a method of using a part of input time series data as learning data and a method of creating based on some modeling.
In the case of the example in FIG. 26, the learning data is defined as a continuous range of a range in the time series data.
分析部44では時系列データに対する分析を行う。
ここでは時系列データに関する特徴量を算出する。
分析手法の例としては、データ取得部43から得た時系列データを単位時間ごとに一定の大きさに分解する。
分解したデータそれぞれに対して分析を行い、少数の特徴量に変換する。
これにより一定期間に発生した多次元の時系列情報がより小さな次元の情報に圧縮される。その結果異常の分析をより高速に行うことが可能になる。
The
Here, a feature amount related to time series data is calculated.
As an example of the analysis method, the time series data obtained from the
Each decomposed data is analyzed and converted into a small number of features.
As a result, multi-dimensional time-series information generated in a certain period is compressed into smaller-dimensional information. As a result, it becomes possible to analyze the abnormality at a higher speed.
判定部45では、分析部44で得られた時系列データの特徴量と先に定義した学習データ41の比較を行う。
比較の結果、入力データ42が学習データ41と異なるものである場合、入力データ42は異常であると判定する。
比較の手法には特徴量の空間を定義し、入力データ42を分析し特徴量化したものをこの空間に配置する。その後、入力データ42の分布を調べ、分布の群から一定量乖離しているものについては異常とみなす方法がある。
The
As a result of the comparison, if the
In the comparison method, a space for feature amounts is defined, and the
上記手順は繰り返し行う。新規の時系列データを解析する際は学習データの規定も再び行う。 The above procedure is repeated. When new time series data is analyzed, the training data is also defined again.
また、平滑化処理を行って時系列データの解析を行う従来技術として、例えば、特許文献1、非特許文献2に記載の技術がある。
これらの技術は時系列データの変化点を検出する技術である。
これらの技術では、時系列データに対して移動平均処理を用いた平滑化処理を行っているが、時系列データの全ての領域に対して平滑化を行っている。
つまり、対象とする時系列データ全体に対して平滑化を行うものである。
These techniques are techniques for detecting change points in time series data.
In these techniques, smoothing processing using moving average processing is performed on time-series data, but smoothing is performed on all regions of time-series data.
That is, smoothing is performed on the entire target time-series data.
従来の時系列データの平滑化手法は、平滑化をその時系列データ全体に対して行うものであった。
そのため従来手法をネットワークの異常検知に用いた場合、本来必要な情報まで平滑化されてしまうため、検知性能が低下してしまう。
上記のような時系列データの異常検知手法の場合、学習データの規定方法によって検知性能に問題が生じる場合がある。
例として学習データにノイズが含まれている場合である。
学習データの一部に他とは傾向の異なる突出した値が含まれていた場合、異常の判定に大きな影響を与える。図26は、従来技術で学習データを用いて検知を行う場合の例を示している。
図26の例では、時系列データに大きな変動が発生しているか判定する方法として、マハラノビス汎距離の値と学習データ領域の分布を比較する方法を用いている。
従来の異常判定手法では。異常を比較する対象として学習データ(定常域データ)を用いる。
判定処理では学習データ内の情報を分析し、異常判定の閾値を決定する。この学習データ内にノイズなどの傾向が異なる情報が存在していた場合、従来の手法では異常判定の閾値はノイズを含んだものとなり異常の判定が遅れてしまう問題点があった。
The conventional method for smoothing time-series data is to perform smoothing on the entire time-series data.
For this reason, when the conventional method is used for detecting an abnormality in the network, the necessary information is smoothed, and the detection performance is deteriorated.
In the case of the time series data abnormality detection method as described above, there may be a problem in detection performance depending on the method of defining the learning data.
An example is when the learning data contains noise.
When a part of the learning data includes a prominent value having a different tendency from the others, it greatly affects the determination of abnormality. FIG. 26 shows an example in which detection is performed using learning data in the prior art.
In the example of FIG. 26, a method of comparing the Mahalanobis generalized distance value and the distribution of the learning data area is used as a method of determining whether a large variation has occurred in the time series data.
In the conventional abnormality judgment method. Learning data (stationary area data) is used as a target for comparing anomalies.
In the determination process, information in the learning data is analyzed to determine a threshold value for abnormality determination. When information having a different tendency such as noise exists in the learning data, the conventional method has a problem that the abnormality determination threshold includes noise and delays the abnormality determination.
従来は、時系列データの変動が発生したとする判定手法として、以下の閾値を用いている。
検知時のデータ値>学習データ内の最大値のa倍(aは定数)
この手法では、学習データ中に他よりも値の大きなデータが混入していた場合、その影響を強く受ける。そのため検知時のデータ値において閾値よりも小さな変動が発生した際、異常を見落とす可能性が高い。
Conventionally, the following threshold values are used as a determination method that time-series data fluctuation has occurred.
Data value at the time of detection> a times the maximum value in the learning data (a is a constant)
In this method, when learning data includes data having a value larger than that of other data, it is strongly influenced by the learning data. Therefore, when the data value at the time of detection changes smaller than the threshold value, there is a high possibility of overlooking the abnormality.
この発明は、このような問題点を解決することを主な目的の一つとしており、学習データの特徴的な箇所を優先的に平滑化し、後の異常検知処理の精度向上を行うことを主な目的とする。 The main object of the present invention is to solve such problems, and to preferentially smooth characteristic portions of the learning data and to improve the accuracy of the subsequent abnormality detection processing. With a purpose.
本発明に係るデータ処理装置は、
各々がデータ値を有する複数のデータに対する解析を行い、各データについて、各データのデータ値が他のデータのデータ値から乖離している度合いを乖離値として設定する乖離値設定部と、
前記乖離値設定部により設定された各データの乖離値を反映させて、データごとに平滑化のための平滑化係数を算出する平滑化係数算出部と、
前記平滑化係数算出部により算出された各データの平滑化係数を用いて各データの平滑化を行う平滑化部とを有することを特徴とする。
The data processing apparatus according to the present invention
A divergence value setting unit that performs analysis on a plurality of data each having a data value, and sets, for each data, the degree of deviation of the data value of each data from the data value of other data, as a divergence value;
A smoothing coefficient calculating unit that calculates a smoothing coefficient for smoothing for each data, reflecting the deviation value of each data set by the deviation value setting unit;
And a smoothing unit that performs smoothing of each data using the smoothing coefficient of each data calculated by the smoothing coefficient calculating unit.
本発明によれば、データ値が他のデータから乖離しているデータに対して平滑化の度合いを強くするため、ノイズを除去することができ、異常検知の精度を向上することができる。 According to the present invention, since the degree of smoothing is increased with respect to data whose data value is different from other data, noise can be removed and the accuracy of abnormality detection can be improved.
実施の形態1.
本実施の形態では、学習データとして用いる時系列データに対して平滑化を施し異常検知の妨げとなる情報を除去する。その際、平滑化はデータの傾向が特徴的な領域に対してより強く行う。
In this embodiment, time series data used as learning data is smoothed to remove information that hinders abnormality detection. At this time, smoothing is performed more strongly on regions where the tendency of data is characteristic.
図3は、本実施の形態に係る異常検知部4(データ処理装置)の構成例を示す。
本実施の形態に係る異常検知部4は、図1に示す不正アクセス分析システム100の一部である。不正アクセス分析システム100の他の要素の詳細は、前述した通りなので、説明は省略する。
なお、不正アクセス分析システム100は、全体として一つのコンピュータで実現されていてもよいし、不正アクセス分析システム100に含まれる各要素が異なるコンピュータで実現され、各コンピュータがネットワークで接続されて不正アクセス分析システムが実現される形態でもよい。
FIG. 3 shows a configuration example of the abnormality detection unit 4 (data processing apparatus) according to the present embodiment.
The
The unauthorized
また、本実施の形態に係る異常検知部4が含まれる不正アクセス分析システム100は、前述したように、例えば、図2に示すように、企業等の特定の組織に属するネットワークを監視対象とする。ファイアウォール(F/W)、S−NIDS、パケット収集装置からのパケットログ(定点観測データ)を不正アクセス分析システム100に入力し、リアルタイムに分析を行う。
In addition, as described above, the unauthorized
図3において、データ入力・処理部420は、時系列データである入力データ410を単位時間ごとに集計した数を記憶する。この入力データ410は、学習データとして用いる時系列データである。なお、以下、入力データ410を時系列データともいう。
特徴量分析部430は、上記データ入力・処理部420で集計された時系列データから主成分得点の計算を行い特徴領域の群に纏める。
突出点判定部440(乖離値設定部)は、上記特徴量分析部430で得られた特徴領域の群を調査し、他の領域と比較して領域のスコア化を行う。つまり、突出点判定部440は、各々がデータ値を有する複数のデータに対する解析を行い、各データについて、各データのデータ値が他のデータのデータ値から乖離している度合いを突出率(乖離値)として設定する。なお、具体的には、後述するように、突出点判定部440は、各データを所定の領域ごとにグループ化し、領域単位で乖離度合いを解析して突出率を判定する。
平滑化係数算出部450は、上記突出点判定部440での特徴領域のスコアに従い平滑化に関するパラメータを定める。つまり、平滑化係数算出部450は、突出点判定部440により判定された突出率を反映させて、データごとに平滑化のための平滑化係数を算出する。
平滑化部460は、平滑化係数算出部450でのパラメータに従い時系列データの平滑化を実施する。詳細は、後述するが、平滑化部460は、平滑化の対象となるデータに対して任意数のデータを用いた移動平均計算を行って平滑化を行う。
In FIG. 3, the data input /
The feature
The protruding point determination unit 440 (deviation value setting unit) investigates the group of feature regions obtained by the feature
The smoothing
The smoothing
ここで、図24のフローチャートを参照して、本実施の形態に係る異常検知部4(データ処理装置)の動作例(データ処理方法)を概説する。
なお、本実施の形態では、検査対象の時系列データの一部を学習データとすることとし、検査対象の時系列データが入力された際に、図24のフローチャートに示す処理が開始し、学習データの平滑化が行われる。
Here, with reference to the flowchart of FIG. 24, the operation example (data processing method) of the abnormality detection unit 4 (data processing apparatus) according to the present embodiment will be outlined.
In this embodiment, a part of the time-series data to be inspected is used as learning data, and when the time-series data to be inspected is input, the processing shown in the flowchart of FIG. Data is smoothed.
先ず、データ入力・処理部420が、平滑化の対象となる時系列データである入力データ410を入力する(S2401)。前述したように、異常検知の対象となる時系列データの一部を学習データとして用いるため、データ入力・処理部420は、異常検知の対象となる時系列データの一部を入力データ410として入力する。
そして、データ入力・処理部420は、入力データ410を所定の単位時間ごとに集計する(S2402)。
その後、データ入力・処理部420は、集計後のデータを特徴量分析部430、突出点判定部440及び平滑化係数算出部450のそれぞれに出力する。
First, the data input /
Then, the data input /
Thereafter, the data input /
次に、特徴量分析部430が、データ入力・処理部420から出力されたデータを入力するとともに、入力したデータを所定の領域に区分し、領域ごとに特徴量を算出する(S2403)。
データ入力・処理部420からのデータは、所定の順序に従って整列されており、この順序に従ってデータを複数の領域(グループ)にグループ化し、各領域に含まれるデータのデータ値の主成分分析を行って、各グループの特徴量を算出する。
そして、特徴量分析部430は、領域ごとの特徴量を示したデータを突出点判定部440に出力する。
Next, the feature
The data from the data input /
Then, the feature
突出点判定部440は、各領域の特徴量を2次元平面に配列し、特徴量の分布から突出率(乖離値)を判定する(S2404)(乖離値設定ステップ)。
つまり、突出点判定部440は、特徴量分析部430によりグループ化された各領域について、各領域の特徴量が他の領域の特徴量から乖離している度合いを突出率として設定する。なお、突出率の詳細については後述する。
その後、突出点判定部440は、各領域の突出率を示すデータを平滑化係数算出部450に出力する。
The protruding
That is, the protruding
Thereafter, the protrusion
平滑化係数算出部450は、データ入力・処理部420により単位時間ごとに集計されたデータを入力するとともに、突出点判定部440から各領域の突出率を示すデータを入力する。
そして、平滑化係数算出部450は、データ入力・処理部420からの各データに対して対応する領域の突出率を付与し、各データの領域内の相対評価値を算出し、各データの相対評価値と各データが属する領域の突出率とを反映させてデータごとの平滑化係数を算出する(S2405)(平滑化係数算出ステップ)。
ここで、相対評価値とは、あるデータの値が同じ領域に含まれている他のデータと比較してどのような位置づけになるかを示す評価値である。なお、相対評価値の詳細についても後述する。
平滑化係数算出部450は、各データの相対評価値及び各データが属する領域の突出率と、平滑化部460による平滑化の度合いとが比例関係となる平滑化係数を算出する。
具体的には、相対評価値及び突出率と、平滑化部460による移動平均計算の対象とするデータ数とが比例関係となる平滑化係数を算出する。
このように、相対評価値又は突出率が大きいデータに対しては、移動平均の対象とするデータ数を大きくすることで、平滑化の度合いを高める。
The smoothing
Then, the smoothing
Here, the relative evaluation value is an evaluation value indicating how a certain data value is compared with other data included in the same region. Details of the relative evaluation value will be described later.
The smoothing
Specifically, a smoothing coefficient is calculated in which the relative evaluation value and the protrusion ratio are proportional to the number of data to be subjected to moving average calculation by the smoothing
As described above, for data having a large relative evaluation value or protrusion ratio, the degree of smoothing is increased by increasing the number of data targeted for moving average.
最後に、平滑化部460が、データ入力・処理部420により単位時間ごとに集計されたデータを入力するとともに、平滑化係数算出部450から各データの平滑化係数を入力し、平滑化係数に従い各データを平滑化する(S2406)(平滑化ステップ)。
平滑化部460は、平滑化係数に応じて移動平均計算の対象とするデータ数を決定し、決定したデータ数のデータを用いた移動平均計算を行ってデータの平滑化を行う。
本実施の形態に示す例では、平滑化係数と同数のデータを用いて移動平均計算を行う。
Finally, the smoothing
The smoothing
In the example shown in this embodiment, moving average calculation is performed using the same number of data as the smoothing coefficients.
次に、本実施の形態に係る異常検知部4の動作を詳細に説明する。
Next, the operation of the
データ入力・処理部420は、解析を行う対象となる入力データ410を単位時間ごとに集計する。初期設定のためのパラメータは以下の通りである。
集計単位時間…観測を行う時系列データを集計する単位時間
The data input /
Aggregation unit time: Unit time for aggregation of time series data to be observed
入力データ410の形式を図4に示す。
なお、図4に示す通し番号は各データを現すもので、説明のために記載しているものであり、実際のデータには存在しない。
入力データ410は、例えば送信元IPアドレス毎のパケット数のデータであり、通常、このような入力データ410は不定期に発生するため、データ入力・処理部420では、あらかじめ指定した集計単位時間ごとにデータをまとめる。
図4では、イベント発生日時(集計前イベント発生日時)は、不規則な時間間隔になっている。
The format of the
Note that the serial numbers shown in FIG. 4 represent each data and are described for explanation, and do not exist in actual data.
The
In FIG. 4, the event occurrence date and time (pre-aggregation event occurrence date and time) are irregular time intervals.
図5は、集計後の入力データの例である。
図5では、イベント発生日時(集計後イベント発生日時)は単位時間に集計を開始した最初の時刻とする。また、イベント発生数(集計後イベント発生数)は単位時間に発生した集計前イベント発生数の総計である。
入力データの単位時間が、{T1、T2、T3}、{T4、T5}、{T6、T7}に分かれる場合、集計結果は3種類の情報になる。単位時間{T1、T2、T3}のデータを集計した結果は通し番号a1である。集計後イベント発生日時はT1、集計後イベント発生数はC1からC3を加算したものである。
なお、図4と同様に、図5の通し番号も説明のために付加したものであり、実際のデータには存在しない。
また、図5のデータは、図3に示すように、特徴量分析部430、突出点判定部440及び平滑化係数算出部450のそれぞれに出力される。
FIG. 5 is an example of input data after aggregation.
In FIG. 5, the event occurrence date / time (post-aggregation event occurrence date / time) is the first time when the aggregation is started per unit time. Further, the number of event occurrences (the number of event occurrences after aggregation) is the total number of event occurrences before aggregation that occurred per unit time.
When the unit time of the input data is divided into {T 1 , T 2 , T 3 }, {T 4 , T 5 }, {T 6 , T 7 }, the total result is three types of information. The result of totaling the data of the unit time {T 1 , T 2 , T 3 } is the serial number a 1 . The post-aggregation event occurrence date / time is T 1 , and the post-aggregation event occurrence number is the sum of C 1 to C 3 .
As in FIG. 4, the serial numbers in FIG. 5 are added for the sake of explanation and do not exist in actual data.
Further, as shown in FIG. 3, the data in FIG. 5 is output to each of the feature
図14は、入力データ410を5分間隔で集計した場合の例である。
入力データ410の先頭8つのイベントが集計されて5つのイベントとなる。
入力データのうち2006/07/01 0:00:20と2006/07/01 0:01:13、2006/07/01 0:03:04は開始5分間に発生したイベントであるためひとつのイベントとする。
その際イベント発生日時は先に現れた情報(2006/07/01 0:00:20)を使用し、イベント発生数は両者の合計数17(4+8+5)とする。
同様にイベント発生日時が2006/07/01 0:10:33と2006/07/01 0:11:30のもの、2006/07/01 0:16:22と2006/07/01 0:19:54のものはひとつにまとめる。
イベントの集計時間内に1度しか発生しない場合(2006/07/01 0:22:43)はそのまま保持し、集計時間内に1度も発生しない場合はイベント発生時間を単位時間(図14の場合2006/07/01 0:05:00)、イベント発生数を0とする。
FIG. 14 shows an example when the
The top eight events of the
Of the input data, 2006/07/01 0:00:20 and 2006/07/01 0:01:13, 2006/07/01 0:03:04 are events that occurred within the first 5 minutes, so one event And
At that time, the event occurrence date and time uses the information (2006/07/01 0:00:20) that appears earlier, and the event occurrence number is the total number 17 (4 + 8 + 5) of both.
Similarly, the event occurrence dates are 2006/07/01 0:10:33 and 2006/07/01 0:11:30, 2006/07/01 0:16:22 and 2006/07/01 0:19: 54 things are put together.
If the event occurs only once within the totaling time of the event (2006/07/01 0:22:43), the event generation time is held as it is. In the case of 2006/07/01 0:05:00), the event occurrence number is set to 0.
特徴量分析部430は、上記データ入力・処理部420で集計された時系列データから主成分得点の計算を行い、次に主成分得点の時系列へ変換する。初期設定のためのパラメータは以下の通りである。
主成分対象次元数…主成分分析を計算する次元数
The feature
Principal component target dimensions: Number of dimensions for calculating principal component analysis
主成分対象次元数は、主成分分析を計算する際の主成分対象行列の列数になる、データ入力・処理部420から受けた時系列データを解析する個数である。
特徴量分析部430は、時系列データの先頭から主成分対象次元数の個数のデータを取り出し主成分分析にかける。
特徴量分析部430の入力データの例を図6に示す。
特徴量分析部430の入力データである図6のデータと、データ入力・処理部420の出力データである図5のデータは同じである。
図5と図6では、以降の説明の便宜のため表記方法が異なっているが、図5の通し番号a1の集計後イベント発生日時T1、集計後イベント発生数C1+C2+C3が、図6の通し番号d1のイベント発生日時T1、イベント発生数C1に対応し、図5の通し番号a2の集計後イベント発生日時T4、集計後イベント発生数C4+C5が、図6の通し番号d2のイベント発生日時T2、イベント発生数C2に対応する関係である。以降の行についても同様である。
The number of principal component target dimensions is the number of time series data received from the data input /
The feature
An example of input data of the feature
The data of FIG. 6 that is input data of the feature
In FIG. 5 and FIG. 6, the notation method is different for the convenience of the following description. However, the post-aggregation event occurrence date / time T 1 of serial number a 1 and the post-aggregation event occurrence number C 1 + C 2 + C 3 Corresponding to the event occurrence date / time T 1 and the event occurrence number C 1 of the serial number d 1 in FIG. 6, the post-aggregation event occurrence date / time T 4 and the post-aggregation event occurrence number C 4 + C 5 of the serial number a 2 in FIG. event occurrence time T 2 of the serial number d 2 in a relationship corresponding to the event occurrence count C 2. The same applies to the subsequent lines.
ここで、主成分対象次元数をkとしたとき、時系列データの先頭からk個ずつまとめてグループ化し、グループごと(領域ごと)に処理を行う。図6の例の場合d1からdkまでのイベント発生数から1行k列の行列を作成し、この行列に含まれる要素を一つのグループ(領域)として主成分分析を行う。取り扱う行列は以下のようになる。
(C1、C2、...、Ck)
その後、時系列データから次のk個を取り出し同様に行列を作成して主成分分析を行う。この処理を順次繰り返す。
Here, assuming that the number of principal component target dimensions is k, k pieces are grouped together from the beginning of the time series data, and processing is performed for each group (for each region). In the case of the example in FIG. 6, a matrix of 1 row and k columns is created from the number of event occurrences from d 1 to d k , and principal component analysis is performed with elements included in this matrix as one group (region). The matrix to handle is as follows.
(C 1 , C 2 ,..., C k )
Thereafter, the next k pieces are extracted from the time-series data, a matrix is similarly created, and principal component analysis is performed. This process is repeated sequentially.
主成分分析の結果、k個の時系列データを表す主成分得点の時系列が得られる。主成分得点は第1、第2、…と複数の得点が出るが、そのうち先頭2つを以降の工程で使用する。
時系列データから作成した配列と主成分分析で得られた特徴量の関係を図7に示す。
As a result of the principal component analysis, a time series of principal component scores representing k pieces of time series data is obtained. The principal component score is a plurality of scores, such as first, second,..., And the first two are used in the subsequent steps.
FIG. 7 shows the relationship between the sequence created from the time series data and the feature quantity obtained by the principal component analysis.
図7において、PC1_1およびPC2_1は、入力の時系列データから作成した配列(C1、C2、...、Ck)をあらわす特徴量である。以下の配列についても同様である。 In FIG. 7, PC 1_1 and PC 2_1 are feature amounts representing arrays (C 1 , C 2 ,..., C k ) created from input time-series data. The same applies to the following sequences.
図15は、特徴量分析部430による上記の手順を時系列データで表した例である。
はじめに時系列データ(データ入力・処理部420による集計後の時系列データ)を先頭からk要素ずつ分割したn個の部分時系列(領域)を作成する。
次に、それぞれの部分時系列に対して主成分分析を行う。
主成分分析の概念を図16に示す。
この結果一つの部分時系列あたり2つの主成分得点が得られた。
本工程の出力として、特徴量分析部430は、イベントの発生時間と特徴量を記述した図8に示すデータを作成し、突出点判定部440に出力する。
FIG. 15 is an example in which the above-described procedure by the feature
First, n partial time series (regions) are created by dividing time series data (time series data after aggregation by the data input / processing unit 420) by k elements from the top.
Next, principal component analysis is performed on each partial time series.
The concept of principal component analysis is shown in FIG.
As a result, two principal component scores were obtained per partial time series.
As an output of this step, the feature
突出点判定部440は、図9に示すようなデータを入力し、上記特徴量分析部430で得られた特徴領域の群を調査し、他の領域と比較して領域のスコア化を行う。なお、図9では、説明の便宜のために通し番号を付与しているが、実際のデータにはなく、実際は、図8と同じ形式のデータを入力する。
突出点判定部440による特徴領域の調査は、具体的には、上記特徴量分析部430からの入力から第1特徴量と第2特徴量を取り出し、2次元平面へ配置する。配置の方法は、例えば、第1特徴量をY軸の座標に配置し、第2特徴量をX軸の座標とする。
The protruding
Specifically, the feature point survey by the protruding
図17は、特徴量分析部430からの入力データ(図9)を2次元の特徴量空間(主成分空間)へ配置した図である。
通し番号(a)から(f)までの特徴量のうち(c)の特徴量が群から乖離していることがわかる。
FIG. 17 is a diagram in which input data (FIG. 9) from the feature
It can be seen that among the feature quantities from serial numbers (a) to (f), the feature quantity of (c) deviates from the group.
次に、突出点判定部440は、特徴量空間(主成分空間)の分布をもとに群からの乖離を計算する。
ここで、群からの乖離を示す値を突出率と定義する。突出率は0から1までの数値をとり群の重心からの乖離度を示す。
群の重心を求める方法には母集団平均を求める方法がある。また群からの乖離を算出するにはマハラノビス汎距離の算出がある。
図10は、突出点判定部440の出力データである。突出点判定部440は、時系列データ中のイベント発生日時に対応する突出率Pを付加する。
Next, the protruding
Here, the value indicating the deviation from the group is defined as the protrusion rate. The protrusion ratio takes a numerical value from 0 to 1 and indicates the degree of deviation from the center of gravity of the group.
There is a method for obtaining the population average as a method for obtaining the center of gravity of the group. The Mahalanobis generalized distance can be calculated to calculate the deviation from the group.
FIG. 10 shows output data of the protruding
図18は、特徴量分析部430からの入力データから突出率を設定する際の概念を示す。
個々の部分時系列の特徴量空間分布を調査すると、(c)の特徴量が他よりも乖離していたことがわかった。そこで、突出点判定部440は、乖離の度合いの大きい(c)の領域については意図的に他よりも突出率を高く設定している。
FIG. 18 shows a concept when setting the protrusion rate from the input data from the feature
When the feature quantity spatial distribution of each partial time series was investigated, it was found that the feature quantity in (c) was more dissimilar than the others. Therefore, the protruding
なお、ここでは、各領域の乖離の度合いを示す値として、比率である突出率を用いているが、乖離の度合いを示すことができれば、比率でなくてもよい。 Here, as a value indicating the degree of divergence in each region, the ratio of protrusion is used as a ratio. However, the ratio may not be a ratio as long as the degree of divergence can be indicated.
平滑化係数算出部450は、上記突出点判定部440での特徴領域のスコアに従い時系列データの各点の情報に関して平滑化処理に使用する係数の算出を行う。初期設定のためのパラメータは以下の通りである。
集計単位時間…観測を行う時系列データを集計する単位時間
The smoothing
Aggregation unit time: Unit time for aggregation of time series data to be observed
平滑化係数算出部450が突出点判定部440から入力するデータは図11の通りである。
図11における領域の部分は、項目の位置関係を示すためのもので、実際のデータには存在しない。従って、平滑化係数算出部450が突出点判定部440から入力するデータは、実際には図8と同様である。また、図11の領域とは、図15において説明した部分時系列を示している。
Data input from the protruding
The portion of the area in FIG. 11 is for indicating the positional relationship of items, and does not exist in actual data. Therefore, the data input by the smoothing
また、平滑化係数算出部450は、図3に示すように、データ入力・処理部420から単位時間当たりの時系列データを入力する。
平滑化係数算出部450がデータ入力・処理部420から入力するデータは、図6と同様である。
平滑化係数算出部450は、図6の各々のデータに対して、図12に示すように、突出点判定部440により割り当てられた領域を設定する。
このように、平滑化係数算出部450は、図6のデータ入力・処理部420からデータに対して対応する領域を設定することにより、各データに対して対応する領域の突出率を付与する。
Further, as shown in FIG. 3, the smoothing
Data input from the data input /
The smoothing
As described above, the smoothing
特徴量分析部430による主成分対象次元数をkとしたとき、1つの領域にはk個の時系列データが含まれる。つまり、図9の例において、領域r1には、T1とC1の対からTkとCkの対までのk個のデータが含まれる。いま、データiに対する突出率をPiとした場合に、領域rj(j=1、...、m)のすべてのデータiに対して平滑化係数Mi(i=1、...、n)を計算する際のアルゴリズムは以下の通りである。
When the number of principal component target dimensions by the feature
数1において、max(rj)は、領域rjに含まれるk個のデータのうち、イベント発生数Cにおける最大値を取得する処理を示す。
また、min(rj)は、領域rjに含まれるk個のデータのうち、イベント発生数Cにおける最小値を取得する処理を示す。
右辺の第3項、すなわち、(Ci−min(rj))/((max(rj)−min(rj))は、領域rjに含まれる各々のイベント発生数Ciが当該領域rjに含まれる他のイベント発生数との比較においてどのような位置づけになるかという計算であり、各々のイベント発生数Ciの相対評価値を算出する計算である。
このように、平滑化係数Miは、各データの相対評価値及び各データが属する領域の突出率とに基づく係数であり、後述するように、相対評価値及び突出率と、平滑化部460による移動平均計算の対象とするデータ数とが比例関係となる。
平滑化係数算出部450の出力データは、図13に示す通りであり、図12のデータに対して、平滑化係数Miが追加されたものである。
In
Further, min (r j ) indicates a process for acquiring the minimum value in the event occurrence count C among the k pieces of data included in the region r j .
The third term on the right side, that is, (C i −min (r j )) / ((max (r j ) −min (r j ))) indicates that each event occurrence number C i included in the region r j This is a calculation as to how it is positioned in comparison with the number of other event occurrences included in the region r j , and is a calculation for calculating the relative evaluation value of each event occurrence number C i .
As described above, the smoothing coefficient M i is a coefficient based on the relative evaluation value of each data and the protrusion rate of the region to which each data belongs, and as will be described later, the relative evaluation value and the protrusion rate, and the smoothing
The output data of the smoothing
次に、平滑化部460は、平滑化係数をもとに時系列データの平滑化を行う。
平滑化部460は、図3に示すように、データ入力・処理部420から単位時間当たりの時系列データを入力する。
平滑化部460がデータ入力・処理部420から入力するデータは、図6と同様である。
そして、平滑化部460は、データ入力・処理部420から単位時間当たりの時系列データに対して、平滑化係数算出部450からの出力データ(図13)を用いて、平滑化を行う。
具体的な平滑化には、サンプル値を可変にした移動平均手法を用いる。
以下は、移動平均手法の定義である。いま、以下のようなxiを中心とした前後q個の時系列が存在するとする。
Next, the smoothing
As shown in FIG. 3, the smoothing
Data input from the data input /
Then, the smoothing
For specific smoothing, a moving average method with variable sample values is used.
The following is the definition of the moving average method. Now, suppose that there are q time series before and after the following x i at the center.
本実施の形態に係る平滑化部460の行う移動平均計算の式は以下の通りである。
The formula of the moving average calculation performed by the smoothing
数3において、yiは、平滑化後のイベント発生数Ciの値を示す。
数3において、xiは、イベント発生数Ciを意味する。
また、miを移動平均値と呼ぶ。移動平均値miは、平滑化部460による移動平均計算の対象とするデータ数を示す。
移動平均値miは、平滑化係数Miと同値である。
通常は移動平均値は一定(上記の数2では、q個で固定)であるが、本実施の形態では移動平均値miは、平滑化係数算出部450により算出された平滑化係数Miに連動させている。
つまり、平滑化係数Miの値により、平滑化部460による移動平均計算の対象とするデータ数が変化する。
平滑化係数Miが大きくなれば、換言すれば、各々のイベント発生数Ciの相対評価値及び各々のイベント発生数Ciの突出率Piの少なくとも一方が大きくなれば、移動平均計算の対象となるデータ数が大きくなり、この結果、多くのイベント発生数の値が反映されて平滑化の度合いが大きくなる。平滑化係数Miが大きなデータは、前後のデータ又は領域と比較して突出した傾向にあるデータであるため、平滑化の度合いを大きくして平準化する。
In Equation 3, y i indicates the value of the number of event occurrences C i after smoothing.
In Equation 3, x i means the number of event occurrences C i .
Also referred to m i and the moving average value. Moving average value m i indicates the number of data to be subjected to the moving average calculation by the smoothing
Moving average value m i is the smoothing coefficient M i and equivalence.
Normally, the moving average value is constant (in the
That is, the number of data to be subjected to the moving average calculation by the smoothing
The greater the smoothing coefficient M i, in other words, if at least one of large projecting ratio P i relative evaluation value and each of the event occurrence count C i of each of the event occurrence count C i, the moving average calculation The number of target data increases, and as a result, the value of many event occurrences is reflected and the degree of smoothing increases. Since the data having a large smoothing coefficient M i is data that tends to be prominent compared to the preceding or subsequent data or region, the data is leveled by increasing the degree of smoothing.
以上のように、本実施の形態では、定常領域の各地点の値を移動平均で求める。その際、移動平均値miの値を平滑化係数Miを元に決定する。
定常領域のある点が特徴量空間の群に含まれる領域であった場合、移動平均値miは小さいため元の情報を保持する。つまり、値は大きく変化しない。
また時系列データのある点が特徴量空間の群に含まれない領域であった場合、移動平均値miが大きくなるので、突出した情報を平滑化する。
As described above, in this embodiment, the value of each point in the steady region is obtained by a moving average. At that time, the value of the moving average value m i is determined based on the smoothing factor M i.
When a certain point in the stationary region is a region included in the group of feature amount spaces, the moving average value mi is small, so the original information is retained. That is, the value does not change greatly.
In the case that a time series data is a region not included in the group of the feature space, the moving average value m i increases, smoothes the protruding information.
図19は、時系列データの平滑化の概念を示す。
これまでの工程で、領域ごとの平滑化係数は時系列の値が大きいほど移動平均値が大きくなるよう設定されている。すなわち値の突出している箇所ほど強くノイズ除去が働くようになる。図19では(b)の領域が強く平滑化がかかることになる。
FIG. 19 shows the concept of smoothing time-series data.
In the steps so far, the smoothing coefficient for each region is set so that the moving average value increases as the time-series value increases. In other words, noise removal works more strongly in areas where the values are more prominent. In FIG. 19, the region (b) is strong and smoothed.
このようにして平滑化処理が行われた後の時系列データを学習データとし、異常検知部4は図3に図示していない手段において、この学習データを用いて異常検知を行う。
The time-series data after the smoothing process is performed as learning data, and the
このように、本実施の形態では、ノイズ情報が混入した時系列データに対して、主成分分析と部分的な移動平均処理を行うことによって、学習データを伴うネットワーク異常検知処理に効果的な時系列データの平滑化を行うことができる。 As described above, in the present embodiment, by performing principal component analysis and partial moving average processing on time series data in which noise information is mixed, it is effective for network abnormality detection processing with learning data. The series data can be smoothed.
なお、上記の説明では、特徴量分析において2種類の特徴量を用いることとしたが、2種類に限らず、1種類でもよいし、3種類以上であってもよい。
また、上記の説明では、計算の高速化のために、時系列データを領域に分け、領域ごとに特徴量を算出し、領域ごとの特徴量に基づき各領域の突出率を判定したが、領域に分けることなく個々のデータのデータ値に基づいてデータごとに突出率を判定するようにしてもよい。
In the above description, two types of feature amounts are used in the feature amount analysis. However, the number of feature amounts is not limited to two, and may be one or three or more.
In the above description, in order to speed up the calculation, the time series data is divided into regions, the feature amount is calculated for each region, and the protrusion rate of each region is determined based on the feature amount for each region. The protrusion rate may be determined for each piece of data based on the data value of each piece of data.
本実施の形態では、時系列データを単位時間ごとに集計した数を記憶するデータ入力・処理手段と、上記データ入力・処理手段で集計された時系列データから主成分得点の計算を行い主成分得点の時系列へ変換する主成分分析手段と、上記主成分分析手段で得られた主成分得点の時系列を先頭から一定数ごとに特徴領域の群に纏める領域編集処理手段と、上記領域編集処理手段で得られた特徴領域の群を調査し他の領域と比較して領域のスコア化を行う突出点判定手段と、上記突出点判定手段での特徴領域のスコアに従い平滑化に関するパラメータを定める平滑化係数判定手段と、上記平滑化係数判定手段でのパラメータに従い時系列データの平滑化を実施する平滑化手段とを有する異常検知部(データ処理装置)について説明した。 In this embodiment, the data input / processing means for storing the number of time series data aggregated per unit time, and the principal component score is calculated from the time series data aggregated by the data input / processing means. Principal component analysis means for converting the score into a time series, a region editing processing means for collecting the principal component score time series obtained by the principal component analysis means into a group of feature areas from a head in a certain number, and the area editing A group of feature areas obtained by the processing means is investigated, and a projection point determination means for scoring the area in comparison with other areas, and parameters for smoothing are determined according to the score of the feature area in the projection point determination means. An abnormality detection unit (data processing apparatus) having a smoothing coefficient determination unit and a smoothing unit that performs smoothing of time-series data in accordance with parameters in the smoothing coefficient determination unit has been described.
実施の形態2.
時系列データを平滑化する形態として、変動の大きな時系列データへの対応が考えられる。
図20の上段のように時系列データの傾向が前半と後半で変化していた場合、主成分分析の結果得られる特徴量空間(主成分空間)は、大きく2つの群に分割される。
図20の例では、領域(a)〜(c)が一つの群を形成し、領域(e)〜(f)が別の群を形成する。
このような場合、突出率を正確に判定することができず、時系列データの平滑化係数の判定が困難になる。
As a form of smoothing time-series data, it is possible to deal with time-series data with large fluctuations.
As shown in the upper part of FIG. 20, when the tendency of the time series data changes between the first half and the second half, the feature amount space (principal component space) obtained as a result of the principal component analysis is roughly divided into two groups.
In the example of FIG. 20, the regions (a) to (c) form one group, and the regions (e) to (f) form another group.
In such a case, the protrusion rate cannot be accurately determined, and it is difficult to determine the smoothing coefficient of the time series data.
本実施の形態では、これを解決するために突出点判定部440に以下のような機能を追加する。
なお、本実施の形態に係る異常検知部4の構成は図3に示したものと同様であり、各要素の処理の工程は突出点判定部440以外は実施の形態1と同じである。
In the present embodiment, the following function is added to the protruding
The configuration of the
図20の前段に示すように、実施の形態1の突出点判定部440は、時系列データの突出率を算出する際、入力されたデータ全てを対象にしていた。この結果、領域(a)〜(c)が一つの群を形成し、領域(e)〜(f)が別の群を形成する主成分空間となっていた。
本実施の形態では、突出点判定部440は、近隣の領域のみを用いて突出率の算出を行うことで時系列データの変動に対応する。
As shown in the previous stage of FIG. 20, the protruding
In the present embodiment, the protruding
図20の下段は実施の形態2に係る突出点判定部440の突出率判定手法を示す概念図である。
時系列データ(a)の領域に関する突出率を算出する際は隣り合う両側の領域(z)〜(b)を元にする。つまり、領域(z)〜(b)のそれぞれの特徴量を特徴量空間に配置し、それぞれの特徴量を比較して、突出率を判定する。
同様に、領域(b)に関する突出率の算出は領域(a)〜(c)を用いる。
The lower part of FIG. 20 is a conceptual diagram illustrating a protrusion rate determination method of the protrusion
When calculating the protrusion ratio regarding the region of the time series data (a), the regions (z) to (b) on both sides adjacent to each other are used as a basis. That is, the feature amounts of the regions (z) to (b) are arranged in the feature amount space, and the feature amounts are compared to determine the protrusion rate.
Similarly, calculation of the protrusion ratio regarding the region (b) uses the regions (a) to (c).
なお、実施の形態1による突出率判定の手法(図20の上段)と、実施の形態2による突出率判定の手法(図20の下段)の区別は、例えば、時系列データのデータ量が一定量以上であれば、実施の形態2の手法により、一定量未満の場合であれば実施の形態1の手法によるという運用が考えられる。 The distinction between the protrusion rate determination method according to the first embodiment (upper part of FIG. 20) and the protrusion rate determination method according to the second embodiment (lower part of FIG. 20) is, for example, a constant amount of time-series data. If the amount is equal to or greater than the amount, the method according to the second embodiment can be considered to be operated according to the method according to the first embodiment if the amount is less than a certain amount.
以上のように、本実施の形態では、突出点判定部440は、各領域(グループ)の特徴量と、各領域に近接する任意数の領域の特徴量との関係に基づいて、各領域の突出率(乖離値)を設定する。
なお、上記の説明では、突出率の算出を行う領域の両隣の領域のみを用いることにしているが、両隣に限らず、近接する任意数の領域を用いることができる。例えば、前後5領域ずつを用いてもよいし、先行する5つの領域のみを用いるようにしてもよい。
As described above, in the present embodiment, the protruding
In the above description, only the regions adjacent to both sides of the region where the protrusion ratio is calculated are used, but not limited to both sides, any number of adjacent regions can be used. For example, the front and rear five areas may be used, or only the preceding five areas may be used.
このように、本実施の形態によれば、平滑化を行う時系列データが変動のあるものである場合、突出率を求めるために用いる時系列領域を狭めることで、時系列データの変動による影響を小さくすることができる。これにより時系列のどの部分においても突出した箇所を検出することが可能になる。 As described above, according to the present embodiment, when the time series data to be smoothed is fluctuating, the time series area used for obtaining the protrusion ratio is narrowed, thereby affecting the influence of the fluctuation of the time series data. Can be reduced. This makes it possible to detect a protruding portion in any part of the time series.
実施の形態3.
実施の形態2に示した事例の派生として、平滑化を行う時系列データの特徴量が頻繁に分布する場合がある。この場合、特徴量の数によっては特徴量空間上の群で判断した場合、群の主従関係が逆になり突出率の判定を誤る場合がある。
Embodiment 3 FIG.
As a derivation of the example shown in the second embodiment, the feature amount of time series data to be smoothed may be frequently distributed. In this case, depending on the number of feature amounts, when a group in the feature amount space is determined, the master-slave relationship of the group may be reversed and the protrusion rate may be erroneously determined.
図21は突出率を誤って判定した例を示す。
図21では時系列データに突出している領域((a)、(c)〜(f))が多く出現している。
このデータを主成分分析し、特徴量空間に配置した場合、突出している領域の方が群としての割合が大きくなる。
群を構成している領域の大小関係から、突出率を算出すると群から乖離している領域は(b)の領域であると判断され、突出率を算出する関係が逆転してしまう。
このため、領域(b)の突出率が高く、その他の領域の突出率が低くなり、実態からかけ離れてしまう。
FIG. 21 shows an example in which the protrusion rate is erroneously determined.
In FIG. 21, many regions ((a), (c) to (f)) protruding in the time series data appear.
When this data is subjected to principal component analysis and arranged in the feature amount space, the protruding region has a larger ratio as a group.
If the protrusion ratio is calculated from the size relationship of the areas constituting the group, the area deviating from the group is determined to be the area (b), and the relationship for calculating the protrusion ratio is reversed.
For this reason, the protrusion rate of the area (b) is high, and the protrusion ratios of the other areas are low, which is far from the actual situation.
このような事態を是正するため、本実施の形態に係る突出点判定部440は、領域間の具体的な値を把握する。
特徴量空間の分布から見ると、領域(a)、(c)〜(f)が中心であると見られる。
しかし各領域の平均値を求めると、領域(b)の平均値が他よりも小さいことが分かり、この場合の特徴量空間は領域(b)からの乖離を求める必要があることがわかる。
本実施の形態に係る突出点判定部440は、このように、各領域に含まれるデータ値の平均値を求めて、より実態に則した突出率の判定を行う。
なお、本実施の形態に係る異常検知部4の構成は図3に示したものと同様であり、各要素の処理の工程は突出点判定部440以外は実施の形態1と同じである。
In order to correct such a situation, the protruding
When viewed from the distribution of the feature amount space, it can be seen that the regions (a) and (c) to (f) are the center.
However, when the average value of each region is obtained, it can be seen that the average value of the region (b) is smaller than the others, and the feature amount space in this case needs to obtain the deviation from the region (b).
As described above, the protrusion
The configuration of the
このように、本実施の形態に係る突出点判定部は、領域(グループ)ごとに領域内のデータの平均値を算出し、各領域の平均値と、各領域の特徴量と他の領域の特徴量との関係とに基づき、各領域の突出率(乖離値)を設定する。 As described above, the protruding point determination unit according to the present embodiment calculates the average value of the data in the region for each region (group), and calculates the average value of each region, the feature amount of each region, and the other region. Based on the relationship with the feature amount, the protrusion rate (deviation value) of each region is set.
以上のように、本実施の形態によれば、特徴量空間の分布からみた時系列データの突出点判定が困難な場合、個々の領域の平均値を求めることで誤った判定を防ぐことができる。 As described above, according to the present embodiment, when it is difficult to determine the protruding point of time series data viewed from the distribution of the feature amount space, it is possible to prevent erroneous determination by obtaining the average value of each region. .
実施の形態4.
本実施の形態では、異常検知システムに学習データを蓄積する例を説明する。
つまり、本実施の形態では、異常検知に先立って学習データの平滑化を行い、平滑化された後の学習データを蓄積しておき、異常検知の際に蓄積している学習データを利用する。
In the present embodiment, an example in which learning data is accumulated in the abnormality detection system will be described.
That is, in the present embodiment, learning data is smoothed prior to abnormality detection, the learning data after smoothing is accumulated, and learning data accumulated at the time of abnormality detection is used.
図22の左側は、従来の異常検知システムにおける処理の流れの概略を示す。
入力データから得られたデータは異常検知システムで解析され異常であった場合、警告を行う。
従来は、入力データが異常であるかどうかを比較するため、入力データ中から正常である領域を学習データとして用いた。この学習データは入力データが更新されるたびに新たに規定し直していたが、学習データを蓄積すると過去の実績も使用できることになり検知精度が向上すると考えられる。ただし入力データには異常な値が含まれているため、学習データを蓄積する前段階で実施の形態1に示した手順を用いて平滑化を行う。
図22の右側がその処理の流れの概略である。
The left side of FIG. 22 shows an outline of the process flow in the conventional abnormality detection system.
The data obtained from the input data is analyzed by the abnormality detection system, and a warning is given if there is an abnormality.
Conventionally, in order to compare whether or not the input data is abnormal, a normal region from the input data is used as learning data. The learning data is newly defined every time the input data is updated. However, if the learning data is accumulated, the past results can be used and the detection accuracy is considered to be improved. However, since abnormal values are included in the input data, smoothing is performed using the procedure shown in the first embodiment before the learning data is accumulated.
The right side of FIG. 22 is an outline of the processing flow.
本実施の形態では、異常検知システムの学習データの蓄積処理に用いる。
通常の平滑化と異なり特徴的な部分を優先的に平滑化するため、入力データにノイズ情報が含まれていた場合でも学習データとして活用することが可能である。
In the present embodiment, it is used for accumulation processing of learning data of the abnormality detection system.
Unlike normal smoothing, the characteristic part is preferentially smoothed, so that even when noise information is included in the input data, it can be used as learning data.
実施の形態5.
本実施の形態では、時系列情報の検索システムでの利用方法について説明する。
図23は、このような検索システムの処理の流れの概略を示す。
図23の左側に示す従来のシステムでは時系列情報を入力すると辞書データベースが辞書データを参照し類似するパターンを選定する。
しかし、時系列情報は特徴が多岐に渡るため同一の情報は検索が困難である。
関連する類似の情報を検索するためには平滑化の処理が必要であるが、単純に平滑化してしまうと入力データの情報が失われるため、検索は困難である。また入力データにノイズが混入していた場合はそのままでは検索を行うことができない。
この場合も実施の形態1に示したようなノイズ情報を優先的に平滑化する手法が有効である。
In this embodiment, a method of using the time series information search system will be described.
FIG. 23 shows an outline of the processing flow of such a search system.
In the conventional system shown on the left side of FIG. 23, when time series information is input, the dictionary database refers to the dictionary data and selects a similar pattern.
However, since time-series information has various features, it is difficult to retrieve the same information.
In order to search for related similar information, a smoothing process is necessary. However, if the information is simply smoothed, the information of the input data is lost, and the search is difficult. If noise is mixed in the input data, the search cannot be performed as it is.
In this case as well, a technique for preferentially smoothing noise information as shown in the first embodiment is effective.
図23の右側は、本実施の形態に係る方式の処理の流れの概略を示す。
入力データをそのまま検索のキーとせず、実施の形態1に示す手法により平滑化を行う。これにより検索範囲の拡大とノイズの対処が可能になる。
つまり、辞書データベースにおいて辞書データとの照合の対象になるデータ(検知パターン)に対して実施の形態1に示した平滑化部による平滑化を行い、平滑化後のデータ(検知パターン)を辞書データベースに出力する。
辞書データベースでは、平滑後のデータ(検知パターン)に合致する辞書データを検索して、検索結果を応答する。
The right side of FIG. 23 shows an outline of the processing flow of the method according to the present embodiment.
The input data is not directly used as a search key, but is smoothed by the method shown in the first embodiment. This makes it possible to expand the search range and deal with noise.
That is, the data (detection pattern) to be collated with the dictionary data in the dictionary database is smoothed by the smoothing unit shown in the first embodiment, and the smoothed data (detection pattern) is stored in the dictionary database. Output to.
In the dictionary database, dictionary data matching the smoothed data (detection pattern) is searched, and the search result is returned.
本実施の形態では、平滑化処理を時系列情報の検索システムの検索処理に用いる。
このようにすることで、ノイズ情報を取り除いてもノイズ情報以外の時系列情報は保存されるため検索精度の向上が可能になる。
In this embodiment, the smoothing process is used for the search process of the time-series information search system.
In this way, even if the noise information is removed, time series information other than the noise information is saved, so that the search accuracy can be improved.
最後に、実施の形態1〜5に示した不正アクセス分析システム100及び異常検知部4のハードウェア構成例について説明する。
Finally, a hardware configuration example of the unauthorized
図25は、本実施の形態1〜5に示す不正アクセス分析システム100及び異常検知部4のハードウェア資源の一例を示す図である。なお、図25の構成は、あくまでも不正アクセス分析システム100及び異常検知部4のハードウェア構成の一例を示すものであり、不正アクセス分析システム100及び異常検知部4のハードウェア構成は図25に記載の構成に限らず、他の構成であってもよい。
FIG. 25 is a diagram illustrating an example of hardware resources of the unauthorized
図25において、不正アクセス分析システム100及び異常検知部4は、プログラムを実行するCPU911(Central Processing Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介して、例えば、ROM(Read Only Memory)913、RAM(Random Access Memory)914、通信ボード915、表示装置901、キーボード902、マウス903、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。更に、CPU911は、FDD904(Flexible Disk Drive)、コンパクトディスク装置905(CDD)、プリンタ装置906、スキャナ装置907と接続していてもよい。また、磁気ディスク装置920の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置あるいは記憶部の一例である。
通信ボード915、キーボード902、スキャナ装置907、FDD904などは、入力部、入力装置の一例である。
また、通信ボード915、表示装置901、プリンタ装置906などは、出力部、出力装置の一例である。
In FIG. 25, the unauthorized
The
The
Further, the
通信ボード915は、例えば、LAN(ローカルエリアネットワーク)、インターネット、WAN(ワイドエリアネットワーク)などに接続されていてもよい。
磁気ディスク装置920には、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、オペレーティングシステム921、ウィンドウシステム922により実行される。
The
The
上記プログラム群923には、本実施の形態1〜5の説明において「〜部」、「〜手段」として説明している機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
ファイル群924には、実施の形態1〜5の説明において、「〜の判断」、「〜の計算」、「〜の比較」、「〜の評価」、「〜の判定」、「〜の設定」、「〜の集計」等として説明している処理の結果を示す情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリになどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示などのCPUの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリ等に一時的に記憶される。
また、実施の形態1〜5で説明するフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD等の記録媒体に記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
The
In the
The arrows in the flowcharts described in the first to fifth embodiments mainly indicate input / output of data and signals. The data and signal values are the memory of the
また、本実施の形態1〜5の説明において「〜部」、「〜手段」として説明しているものは、「〜回路」、「〜装置」、「〜機器」、であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」、「〜手段」として説明しているものは、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。プログラムはCPU911により読み出され、CPU911により実行される。すなわち、プログラムは、本実施の形態1〜5の「〜部」、「〜手段」としてコンピュータを機能させるものである。あるいは、本実施の形態1殻の「〜部」、「〜手段」の手順や方法をコンピュータに実行させるものである。
Further, in the description of the first to fifth embodiments, what is described as “to part” and “to means” may be “to circuit”, “to device”, and “to device”. Also, “˜step”, “˜procedure”, and “˜processing” may be used. That is, what is described as “˜unit” and “˜means” may be realized by firmware stored in the
このように、本実施の形態1〜5に示す不正アクセス分析システム100及び異常検知部4は、処理装置たるCPU、記憶装置たるメモリ、磁気ディスク等、入力装置たるキーボード、マウス、通信ボード等、出力装置たる表示装置、通信ボード等を備えるコンピュータであり、上記したように「〜部」、「〜手段」として示された機能をこれら処理装置、記憶装置、入力装置、出力装置を用いて実現するものである。
As described above, the unauthorized
1 GUI、2 対策部、3 不正アクセス判定部、4 異常検知部、5 ログ情報集計部、6 情報収集部、100 不正アクセス分析システム、410 入力データ、420 データ入力・処理部、430 特徴量分析部、440 突出点判定部、450 平滑化係数算出部、460 平滑化部。
DESCRIPTION OF
Claims (13)
前記乖離値設定部により設定された各データの乖離値を反映させて、データごとに平滑化のための平滑化係数を算出する平滑化係数算出部と、
前記平滑化係数算出部により算出された各データの平滑化係数を用いて各データの平滑化を行う平滑化部とを有することを特徴とするデータ処理装置。 A divergence value setting unit that performs analysis on a plurality of data each having a data value, and sets, for each data, the degree of deviation of the data value of each data from the data value of other data, as a divergence value;
A smoothing coefficient calculating unit that calculates a smoothing coefficient for smoothing for each data, reflecting the deviation value of each data set by the deviation value setting unit;
A data processing apparatus comprising: a smoothing unit that smoothes each data using the smoothing coefficient of each data calculated by the smoothing coefficient calculating unit.
前記乖離値設定部により設定された乖離値に応じて、前記平滑化部による平滑化の度合いが変化するように平滑化係数を算出することを特徴とする請求項1に記載のデータ処理装置。 The smoothing coefficient calculation unit includes:
The data processing apparatus according to claim 1, wherein a smoothing coefficient is calculated so that a degree of smoothing by the smoothing unit changes in accordance with a deviation value set by the deviation value setting unit.
所定の順序に従って整列されている複数のデータの解析を行い、
前記平滑化部は、
平滑化の対象となるデータに対して任意数のデータを用いた移動平均計算を行って平滑化を行い、
前記平滑化係数算出部は、
前記乖離値設定部により設定された乖離値と、前記平滑化部による移動平均計算の対象とするデータ数とが比例関係となる平滑化係数を算出することを特徴とする請求項1に記載のデータ処理装置。 The deviation value setting unit
Analyzing a plurality of data arranged according to a predetermined order,
The smoothing unit
Perform smoothing by performing a moving average calculation using an arbitrary number of data on the data to be smoothed,
The smoothing coefficient calculation unit includes:
The smoothing coefficient in which the divergence value set by the divergence value setting unit and the number of data targeted for moving average calculation by the smoothing unit are proportional to each other is calculated. Data processing device.
所定の順序に従って整列されている複数のデータを前記順序に従って複数のグループにグループ化し、各グループに含まれるデータのデータ値の主成分分析を行って、各グループの特徴量を算出する特徴量分析部を有し、
前記乖離値設定部は、
前記特徴量分析部によりグループ化された各グループについて、各グループの特徴量が他のグループの特徴量から乖離している度合いを乖離値として設定し、
前記平滑化係数算出部は、
各データが属するグループ内における各データのデータ値の相対評価値を算出するとともに、各データの相対評価値と各データが属するグループの乖離値とを反映させて、データごとに平滑化のための平滑化係数を算出することを特徴とする請求項1に記載のデータ処理装置。 The data processing device further includes:
Feature quantity analysis that groups a plurality of data arranged according to a predetermined order into a plurality of groups according to the order, calculates a principal quantity of data values of data included in each group, and calculates a feature quantity of each group Part
The deviation value setting unit
For each group grouped by the feature quantity analysis unit, the degree of deviation of the feature quantity of each group from the feature quantity of the other group is set as a deviation value,
The smoothing coefficient calculation unit includes:
Calculate the relative evaluation value of the data value of each data in the group to which each data belongs, and reflect the relative evaluation value of each data and the deviation value of the group to which each data belongs to smooth each data The data processing apparatus according to claim 1, wherein a smoothing coefficient is calculated.
相対評価値及び乖離値と、前記平滑化部による平滑化の度合いとが比例関係となる平滑化係数を算出することを特徴とする請求項4に記載のデータ処理装置。 The smoothing coefficient calculation unit includes:
The data processing apparatus according to claim 4, wherein a smoothing coefficient in which a relative evaluation value and a divergence value are proportional to a degree of smoothing by the smoothing unit is calculated.
平滑化の対象となるデータに対して任意数のデータを用いた移動平均計算を行って平滑化を行い、
前記平滑化係数算出部により算出された平滑化係数に応じて移動平均計算の対象とするデータ数を決定し、決定したデータ数のデータを用いた移動平均計算を行ってデータの平滑化を行うことを特徴とする請求項4に記載のデータ処理装置。 The smoothing unit
Perform smoothing by performing a moving average calculation using an arbitrary number of data on the data to be smoothed,
The number of data to be subjected to moving average calculation is determined according to the smoothing coefficient calculated by the smoothing coefficient calculation unit, and data is smoothed by performing moving average calculation using data of the determined number of data. The data processing apparatus according to claim 4, wherein:
各グループの特徴量と、各グループに近接する任意数のグループの特徴量との関係に基づいて、各グループの乖離値を設定することを特徴とする請求項4に記載のデータ処理装置。 The deviation value setting unit
5. The data processing apparatus according to claim 4, wherein a divergence value of each group is set based on a relationship between a feature amount of each group and a feature amount of an arbitrary number of groups close to each group.
グループごとにグループ内のデータの平均値を算出し、各グループの平均値と、各グループの特徴量と他のグループの特徴量との関係とに基づき、各グループの乖離値を設定することを特徴とする請求項4に記載のデータ処理装置。 The deviation value setting unit
For each group, calculate the average value of the data in the group, and set the divergence value of each group based on the average value of each group and the relationship between the feature value of each group and the feature value of other groups. 5. The data processing apparatus according to claim 4, wherein
前記平滑化部によるデータの平滑化により、所定の検査対象データの異常検知用の学習データを生成するデータ処理装置であり、
前記検査対象データが入力された際に、前記乖離値設定部による乖離値の設定を開始することを特徴とする請求項1に記載のデータ処理装置。 The data processing device includes:
A data processing device that generates learning data for detecting abnormality of predetermined inspection target data by smoothing data by the smoothing unit,
The data processing apparatus according to claim 1, wherein when the inspection target data is input, setting of a deviation value by the deviation value setting unit is started.
前記平滑化部によるデータの平滑化により、所定の検査対象データの異常検知用の学習データを生成するデータ処理装置であり、
前記検査対象データの入力前に、前記平滑化部によるデータの平滑化を完了して学習データの生成を完了していることを特徴とする請求項1に記載のデータ処理装置。 The data processing device includes:
A data processing device that generates learning data for detecting abnormality of predetermined inspection target data by smoothing data by the smoothing unit,
2. The data processing apparatus according to claim 1, wherein smoothing of data by the smoothing unit is completed and generation of learning data is completed before inputting the inspection target data.
所定の辞書データを蓄積する辞書データベースに接続されており、
前記辞書データベースにおいて辞書データとの照合の対象になるデータに対して前記平滑化部による平滑化を行い、平滑化後のデータを前記辞書データベースに出力することを特徴とする請求項1に記載のデータ処理装置。 The data processing device includes:
It is connected to a dictionary database that stores predetermined dictionary data,
2. The smoothing by the smoothing unit is performed on data to be collated with dictionary data in the dictionary database, and the smoothed data is output to the dictionary database. Data processing device.
コンピュータが、前記乖離値設定ステップにより設定された各データの乖離値を反映させて、データごとに平滑化のための平滑化係数を算出する平滑化係数算出ステップと、
コンピュータが、前記平滑化係数算出ステップにより算出された各データの平滑化係数を用いて各データの平滑化を行う平滑化ステップとを有することを特徴とするデータ処理方法。 A divergence value setting step in which a computer analyzes a plurality of data each having a data value, and sets, for each data, the degree of deviation of the data value of each data from the data value of other data as a divergence value; ,
A smoothing coefficient calculating step in which a computer reflects a deviation value of each data set in the deviation value setting step and calculates a smoothing coefficient for smoothing for each data;
A data processing method, comprising: a smoothing step in which a computer smoothes each data using the smoothing coefficient of each data calculated in the smoothing coefficient calculating step.
前記乖離値設定処理により設定された各データの乖離値を反映させて、データごとに平滑化のための平滑化係数を算出する平滑化係数算出処理と、
前記平滑化係数算出処理により算出された各データの平滑化係数を用いて各データの平滑化を行う平滑化処理とをコンピュータに実行させることを特徴とするプログラム。 Analyzing a plurality of data each having a data value, and for each data, a divergence value setting process for setting the degree of divergence of the data value of each data from the data value of other data as a divergence value;
A smoothing coefficient calculation process for calculating a smoothing coefficient for smoothing for each data, reflecting a deviation value of each data set by the deviation value setting process;
A program for causing a computer to execute a smoothing process for smoothing each data using a smoothing coefficient of each data calculated by the smoothing coefficient calculating process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006340621A JP4723466B2 (en) | 2006-12-19 | 2006-12-19 | Data processing apparatus, data processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006340621A JP4723466B2 (en) | 2006-12-19 | 2006-12-19 | Data processing apparatus, data processing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008154010A true JP2008154010A (en) | 2008-07-03 |
JP4723466B2 JP4723466B2 (en) | 2011-07-13 |
Family
ID=39655713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006340621A Expired - Fee Related JP4723466B2 (en) | 2006-12-19 | 2006-12-19 | Data processing apparatus, data processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4723466B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008167099A (en) * | 2006-12-28 | 2008-07-17 | Mitsubishi Electric Corp | Device and method for managing security, and program |
JP2010183214A (en) * | 2009-02-04 | 2010-08-19 | Nec Access Technica Ltd | Apparatus, method and program for analysis of packet |
WO2013038473A1 (en) * | 2011-09-12 | 2013-03-21 | 株式会社日立製作所 | Stream data anomaly detection method and device |
US20190243348A1 (en) * | 2018-02-08 | 2019-08-08 | SCREEN Holdings Co., Ltd. | Data processing method, data processing apparatus, data processing system, and recording medium having recorded therein data processing program |
US11271832B2 (en) | 2019-12-25 | 2022-03-08 | Hitachi, Ltd | Communication monitoring apparatus and communication monitoring method |
JP7470784B2 (en) | 2019-10-06 | 2024-04-18 | ピーディーエフ ソリューションズ,インコーポレイテッド | Anomaly device trace detection and classification |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366119B (en) | 2012-04-09 | 2016-08-03 | 腾讯科技(深圳)有限公司 | The monitoring method and device of virus trend anomaly |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004054370A (en) * | 2002-07-17 | 2004-02-19 | Nec Corp | Autoregressive model learning device for time series data and device for detecting deviated value and changing point using the same |
JP2005223847A (en) * | 2004-02-09 | 2005-08-18 | Intelligent Cosmos Research Institute | Network abnormality detecting device and method, and network abnormality detecting program |
JP2005236863A (en) * | 2004-02-23 | 2005-09-02 | Kddi Corp | Log analyzing device and program, and recording medium |
JP2005244429A (en) * | 2004-02-25 | 2005-09-08 | Intelligent Cosmos Research Institute | Feature quantity extracting method for detecting abnormality of network, program for allowing computer to execute the method, feature quantity extracting apparatus, and network abnormality detecting system |
JP2005250802A (en) * | 2004-03-03 | 2005-09-15 | Toshiba Solutions Corp | Device and program for detecting improper access |
JP2007295056A (en) * | 2006-04-21 | 2007-11-08 | Mitsubishi Electric Corp | Network-state discriminating apparatus, network-state discrimination method, and network-state discrimination program |
-
2006
- 2006-12-19 JP JP2006340621A patent/JP4723466B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004054370A (en) * | 2002-07-17 | 2004-02-19 | Nec Corp | Autoregressive model learning device for time series data and device for detecting deviated value and changing point using the same |
JP2005223847A (en) * | 2004-02-09 | 2005-08-18 | Intelligent Cosmos Research Institute | Network abnormality detecting device and method, and network abnormality detecting program |
JP2005236863A (en) * | 2004-02-23 | 2005-09-02 | Kddi Corp | Log analyzing device and program, and recording medium |
JP2005244429A (en) * | 2004-02-25 | 2005-09-08 | Intelligent Cosmos Research Institute | Feature quantity extracting method for detecting abnormality of network, program for allowing computer to execute the method, feature quantity extracting apparatus, and network abnormality detecting system |
JP2005250802A (en) * | 2004-03-03 | 2005-09-15 | Toshiba Solutions Corp | Device and program for detecting improper access |
JP2007295056A (en) * | 2006-04-21 | 2007-11-08 | Mitsubishi Electric Corp | Network-state discriminating apparatus, network-state discrimination method, and network-state discrimination program |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008167099A (en) * | 2006-12-28 | 2008-07-17 | Mitsubishi Electric Corp | Device and method for managing security, and program |
JP2010183214A (en) * | 2009-02-04 | 2010-08-19 | Nec Access Technica Ltd | Apparatus, method and program for analysis of packet |
WO2013038473A1 (en) * | 2011-09-12 | 2013-03-21 | 株式会社日立製作所 | Stream data anomaly detection method and device |
JP5674954B2 (en) * | 2011-09-12 | 2015-02-25 | 株式会社日立製作所 | Stream data abnormality detection method and apparatus |
US9305043B2 (en) | 2011-09-12 | 2016-04-05 | Hitachi, Ltd. | Stream data anomaly detection method and device |
US20190243348A1 (en) * | 2018-02-08 | 2019-08-08 | SCREEN Holdings Co., Ltd. | Data processing method, data processing apparatus, data processing system, and recording medium having recorded therein data processing program |
CN110134917A (en) * | 2018-02-08 | 2019-08-16 | 株式会社斯库林集团 | Data processing method, data processing equipment, data processing system and data processor |
JP7470784B2 (en) | 2019-10-06 | 2024-04-18 | ピーディーエフ ソリューションズ,インコーポレイテッド | Anomaly device trace detection and classification |
US11271832B2 (en) | 2019-12-25 | 2022-03-08 | Hitachi, Ltd | Communication monitoring apparatus and communication monitoring method |
Also Published As
Publication number | Publication date |
---|---|
JP4723466B2 (en) | 2011-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9298538B2 (en) | Methods and systems for abnormality analysis of streamed log data | |
JP4723466B2 (en) | Data processing apparatus, data processing method, and program | |
US9921937B2 (en) | Behavior clustering analysis and alerting system for computer applications | |
JP7101272B2 (en) | Automatic threat alert triage through data history | |
US11748227B2 (en) | Proactive information technology infrastructure management | |
US10452458B2 (en) | Computer performance prediction using search technologies | |
JP6201614B2 (en) | Log analysis apparatus, method and program | |
US20150205691A1 (en) | Event prediction using historical time series observations of a computer application | |
JP6555061B2 (en) | Clustering program, clustering method, and information processing apparatus | |
US9870294B2 (en) | Visualization of behavior clustering of computer applications | |
JP5868216B2 (en) | Clustering apparatus and clustering program | |
US9424288B2 (en) | Analyzing database cluster behavior by transforming discrete time series measurements | |
JP4889618B2 (en) | Data processing apparatus, data processing method, and program | |
CN112822206B (en) | Network cooperative attack behavior prediction method and device and electronic equipment | |
US20160255109A1 (en) | Detection method and apparatus | |
Wu et al. | Alert correlation for cyber-manufacturing intrusion detection | |
JP6777142B2 (en) | System analyzer, system analysis method, and program | |
EP3097494A1 (en) | Computer performance prediction using search technologies | |
CN110598959A (en) | Asset risk assessment method and device, electronic equipment and storage medium | |
US11665185B2 (en) | Method and apparatus to detect scripted network traffic | |
JP2009110262A (en) | Filter device, filtering method for filter device and filtering program | |
JP4745881B2 (en) | Network status determination device, network status determination method, and network status determination program | |
US11320813B2 (en) | Industrial asset temporal anomaly detection with fault variable ranking | |
CN114039837A (en) | Alarm data processing method, device, system, equipment and storage medium | |
JP2007226639A (en) | Multivariate data discrimination device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110405 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110407 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140415 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |