JP4723466B2 - データ処理装置及びデータ処理方法及びプログラム - Google Patents
データ処理装置及びデータ処理方法及びプログラム Download PDFInfo
- Publication number
- JP4723466B2 JP4723466B2 JP2006340621A JP2006340621A JP4723466B2 JP 4723466 B2 JP4723466 B2 JP 4723466B2 JP 2006340621 A JP2006340621 A JP 2006340621A JP 2006340621 A JP2006340621 A JP 2006340621A JP 4723466 B2 JP4723466 B2 JP 4723466B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- smoothing
- unit
- value
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
この手法では、時系列データと学習データとを比較する。学習データとは時系列データの変化量を測るための基準となるものである。
図1に示す不正アクセス分析システム100は、例えば図2に示すように、企業等の特定の組織に属するネットワークを監視対象とする。ファイアウォール(F/W)、S−NIDS(Signature based Network IDS(Intrusion Detection System)、パケット収集装置からのパケットログ(定点観測データ)を不正アクセス分析システム100に入力し、リアルタイムに分析を行う。
ログ情報集計部5は、情報収集部6で集められたパケットログから不正アクセスの検知に必要なパケットの情報を集計する。例えば、単位時間当たりの送信元IPアドレス毎パケット数、送信先ポート毎パケット数、或いはパケット長等の集計を行う。
異常検知部4は、ログ情報集計部5により集計されたデータをもとに異常なネットワークトラフィックを検知し早期アラートを出力する。
不正アクセス判定部3は、異常検知部4においてトラフィックの異常状態が検知された場合、不正アクセスが原因であることを判定する機能である。ログ情報集計部5において複数の分析視点での集計を行い、各々に対する異常検知部4の検知の結果を総合的に判断し不正アクセスが原因であることを確定する。また、図示していないセキュリティ情報データベースに格納された既知の脆弱性情報も判定に利用する。例えば、異常検知部4において特定のサービス(ポート)へのパケットの分析結果で異常が検知されており、直近に同サービスの脆弱性が公開されていたのであれば、同脆弱性を悪用した不正アクセスの可能性があると判定できる。
誤検知と判定された場合は、その情報を正常状態して異常検知部4にフィードバックする。
なお、セキュリティ情報データベースとは、例えば、ソフトウェアの最新の脆弱性情報・パッチ情報を管理するデータベースである。
対策部2は、不正アクセス判定部3により不正アクセスが確定された場合、特定ポートへのアクセスの制限、パッチの適用等の指示等、対策の指針を出力する機能である。ネットワーク管理者はこの出力を参考に対策を行う。
GUI(Graphical User Interface)1は、早期アラート、不正アクセスの原因、対策情報等を表示する。
この主成分分析を用いた手法では、時系列データ中で発生した変動の判定を行う。判定手法は以下の手順に従う。
図26に、異常検知部4の詳細を示す。
データ取得部43は、時系列データ(入力データ42)の入力及び学習データ41の規定を行う。
分析部44は、時系列データの特徴量の計算を行う。
判定部45は、時系列データの異常値の判定を行う。
学習データとは、前述したように、時系列データの変化量を測るための基準となるものである。これは入力する時系列データの一部分を学習データとする方法と、何らかのモデル化に基づいて作成する方法がある。
図26の例の場合、学習データを時系列データ内の連続する一定範囲の領域と規定する。
ここでは時系列データに関する特徴量を算出する。
分析手法の例としては、データ取得部43から得た時系列データを単位時間ごとに一定の大きさに分解する。
分解したデータそれぞれに対して分析を行い、少数の特徴量に変換する。
これにより一定期間に発生した多次元の時系列情報がより小さな次元の情報に圧縮される。その結果異常の分析をより高速に行うことが可能になる。
比較の結果、入力データ42が学習データ41と異なるものである場合、入力データ42は異常であると判定する。
比較の手法には特徴量の空間を定義し、入力データ42を分析し特徴量化したものをこの空間に配置する。その後、入力データ42の分布を調べ、分布の群から一定量乖離しているものについては異常とみなす方法がある。
これらの技術は時系列データの変化点を検出する技術である。
これらの技術では、時系列データに対して移動平均処理を用いた平滑化処理を行っているが、時系列データの全ての領域に対して平滑化を行っている。
つまり、対象とする時系列データ全体に対して平滑化を行うものである。
そのため従来手法をネットワークの異常検知に用いた場合、本来必要な情報まで平滑化されてしまうため、検知性能が低下してしまう。
上記のような時系列データの異常検知手法の場合、学習データの規定方法によって検知性能に問題が生じる場合がある。
例として学習データにノイズが含まれている場合である。
学習データの一部に他とは傾向の異なる突出した値が含まれていた場合、異常の判定に大きな影響を与える。図26は、従来技術で学習データを用いて検知を行う場合の例を示している。
図26の例では、時系列データに大きな変動が発生しているか判定する方法として、マハラノビス汎距離の値と学習データ領域の分布を比較する方法を用いている。
従来の異常判定手法では。異常を比較する対象として学習データ(定常域データ)を用いる。
判定処理では学習データ内の情報を分析し、異常判定の閾値を決定する。この学習データ内にノイズなどの傾向が異なる情報が存在していた場合、従来の手法では異常判定の閾値はノイズを含んだものとなり異常の判定が遅れてしまう問題点があった。
検知時のデータ値>学習データ内の最大値のa倍(aは定数)
この手法では、学習データ中に他よりも値の大きなデータが混入していた場合、その影響を強く受ける。そのため検知時のデータ値において閾値よりも小さな変動が発生した際、異常を見落とす可能性が高い。
各々がデータ値を有する複数のデータに対する解析を行い、各データについて、各データのデータ値が他のデータのデータ値から乖離している度合いを乖離値として設定する乖離値設定部と、
前記乖離値設定部により設定された各データの乖離値を反映させて、データごとに平滑化のための平滑化係数を算出する平滑化係数算出部と、
前記平滑化係数算出部により算出された各データの平滑化係数を用いて各データの平滑化を行う平滑化部とを有することを特徴とする。
本実施の形態では、学習データとして用いる時系列データに対して平滑化を施し異常検知の妨げとなる情報を除去する。その際、平滑化はデータの傾向が特徴的な領域に対してより強く行う。
本実施の形態に係る異常検知部4は、図1に示す不正アクセス分析システム100の一部である。不正アクセス分析システム100の他の要素の詳細は、前述した通りなので、説明は省略する。
なお、不正アクセス分析システム100は、全体として一つのコンピュータで実現されていてもよいし、不正アクセス分析システム100に含まれる各要素が異なるコンピュータで実現され、各コンピュータがネットワークで接続されて不正アクセス分析システムが実現される形態でもよい。
特徴量分析部430は、上記データ入力・処理部420で集計された時系列データから主成分得点の計算を行い特徴領域の群に纏める。
突出点判定部440(乖離値設定部)は、上記特徴量分析部430で得られた特徴領域の群を調査し、他の領域と比較して領域のスコア化を行う。つまり、突出点判定部440は、各々がデータ値を有する複数のデータに対する解析を行い、各データについて、各データのデータ値が他のデータのデータ値から乖離している度合いを突出率(乖離値)として設定する。なお、具体的には、後述するように、突出点判定部440は、各データを所定の領域ごとにグループ化し、領域単位で乖離度合いを解析して突出率を判定する。
平滑化係数算出部450は、上記突出点判定部440での特徴領域のスコアに従い平滑化に関するパラメータを定める。つまり、平滑化係数算出部450は、突出点判定部440により判定された突出率を反映させて、データごとに平滑化のための平滑化係数を算出する。
平滑化部460は、平滑化係数算出部450でのパラメータに従い時系列データの平滑化を実施する。詳細は、後述するが、平滑化部460は、平滑化の対象となるデータに対して任意数のデータを用いた移動平均計算を行って平滑化を行う。
なお、本実施の形態では、検査対象の時系列データの一部を学習データとすることとし、検査対象の時系列データが入力された際に、図24のフローチャートに示す処理が開始し、学習データの平滑化が行われる。
そして、データ入力・処理部420は、入力データ410を所定の単位時間ごとに集計する(S2402)。
その後、データ入力・処理部420は、集計後のデータを特徴量分析部430、突出点判定部440及び平滑化係数算出部450のそれぞれに出力する。
データ入力・処理部420からのデータは、所定の順序に従って整列されており、この順序に従ってデータを複数の領域(グループ)にグループ化し、各領域に含まれるデータのデータ値の主成分分析を行って、各グループの特徴量を算出する。
そして、特徴量分析部430は、領域ごとの特徴量を示したデータを突出点判定部440に出力する。
つまり、突出点判定部440は、特徴量分析部430によりグループ化された各領域について、各領域の特徴量が他の領域の特徴量から乖離している度合いを突出率として設定する。なお、突出率の詳細については後述する。
その後、突出点判定部440は、各領域の突出率を示すデータを平滑化係数算出部450に出力する。
そして、平滑化係数算出部450は、データ入力・処理部420からの各データに対して対応する領域の突出率を付与し、各データの領域内の相対評価値を算出し、各データの相対評価値と各データが属する領域の突出率とを反映させてデータごとの平滑化係数を算出する(S2405)(平滑化係数算出ステップ)。
ここで、相対評価値とは、あるデータの値が同じ領域に含まれている他のデータと比較してどのような位置づけになるかを示す評価値である。なお、相対評価値の詳細についても後述する。
平滑化係数算出部450は、各データの相対評価値及び各データが属する領域の突出率と、平滑化部460による平滑化の度合いとが比例関係となる平滑化係数を算出する。
具体的には、相対評価値及び突出率と、平滑化部460による移動平均計算の対象とするデータ数とが比例関係となる平滑化係数を算出する。
このように、相対評価値又は突出率が大きいデータに対しては、移動平均の対象とするデータ数を大きくすることで、平滑化の度合いを高める。
平滑化部460は、平滑化係数に応じて移動平均計算の対象とするデータ数を決定し、決定したデータ数のデータを用いた移動平均計算を行ってデータの平滑化を行う。
本実施の形態に示す例では、平滑化係数と同数のデータを用いて移動平均計算を行う。
集計単位時間…観測を行う時系列データを集計する単位時間
なお、図4に示す通し番号は各データを現すもので、説明のために記載しているものであり、実際のデータには存在しない。
入力データ410は、例えば送信元IPアドレス毎のパケット数のデータであり、通常、このような入力データ410は不定期に発生するため、データ入力・処理部420では、あらかじめ指定した集計単位時間ごとにデータをまとめる。
図4では、イベント発生日時(集計前イベント発生日時)は、不規則な時間間隔になっている。
図5では、イベント発生日時(集計後イベント発生日時)は単位時間に集計を開始した最初の時刻とする。また、イベント発生数(集計後イベント発生数)は単位時間に発生した集計前イベント発生数の総計である。
入力データの単位時間が、{T1、T2、T3}、{T4、T5}、{T6、T7}に分かれる場合、集計結果は3種類の情報になる。単位時間{T1、T2、T3}のデータを集計した結果は通し番号a1である。集計後イベント発生日時はT1、集計後イベント発生数はC1からC3を加算したものである。
なお、図4と同様に、図5の通し番号も説明のために付加したものであり、実際のデータには存在しない。
また、図5のデータは、図3に示すように、特徴量分析部430、突出点判定部440及び平滑化係数算出部450のそれぞれに出力される。
入力データ410の先頭8つのイベントが集計されて5つのイベントとなる。
入力データのうち2006/07/01 0:00:20と2006/07/01 0:01:13、2006/07/01 0:03:04は開始5分間に発生したイベントであるためひとつのイベントとする。
その際イベント発生日時は先に現れた情報(2006/07/01 0:00:20)を使用し、イベント発生数は両者の合計数17(4+8+5)とする。
同様にイベント発生日時が2006/07/01 0:10:33と2006/07/01 0:11:30のもの、2006/07/01 0:16:22と2006/07/01 0:19:54のものはひとつにまとめる。
イベントの集計時間内に1度しか発生しない場合(2006/07/01 0:22:43)はそのまま保持し、集計時間内に1度も発生しない場合はイベント発生時間を単位時間(図14の場合2006/07/01 0:05:00)、イベント発生数を0とする。
主成分対象次元数…主成分分析を計算する次元数
特徴量分析部430は、時系列データの先頭から主成分対象次元数の個数のデータを取り出し主成分分析にかける。
特徴量分析部430の入力データの例を図6に示す。
特徴量分析部430の入力データである図6のデータと、データ入力・処理部420の出力データである図5のデータは同じである。
図5と図6では、以降の説明の便宜のため表記方法が異なっているが、図5の通し番号a1の集計後イベント発生日時T1、集計後イベント発生数C1+C2+C3が、図6の通し番号d1のイベント発生日時T1、イベント発生数C1に対応し、図5の通し番号a2の集計後イベント発生日時T4、集計後イベント発生数C4+C5が、図6の通し番号d2のイベント発生日時T2、イベント発生数C2に対応する関係である。以降の行についても同様である。
(C1、C2、...、Ck)
その後、時系列データから次のk個を取り出し同様に行列を作成して主成分分析を行う。この処理を順次繰り返す。
時系列データから作成した配列と主成分分析で得られた特徴量の関係を図7に示す。
はじめに時系列データ(データ入力・処理部420による集計後の時系列データ)を先頭からk要素ずつ分割したn個の部分時系列(領域)を作成する。
次に、それぞれの部分時系列に対して主成分分析を行う。
主成分分析の概念を図16に示す。
この結果一つの部分時系列あたり2つの主成分得点が得られた。
本工程の出力として、特徴量分析部430は、イベントの発生時間と特徴量を記述した図8に示すデータを作成し、突出点判定部440に出力する。
突出点判定部440による特徴領域の調査は、具体的には、上記特徴量分析部430からの入力から第1特徴量と第2特徴量を取り出し、2次元平面へ配置する。配置の方法は、例えば、第1特徴量をY軸の座標に配置し、第2特徴量をX軸の座標とする。
通し番号(a)から(f)までの特徴量のうち(c)の特徴量が群から乖離していることがわかる。
ここで、群からの乖離を示す値を突出率と定義する。突出率は0から1までの数値をとり群の重心からの乖離度を示す。
群の重心を求める方法には母集団平均を求める方法がある。また群からの乖離を算出するにはマハラノビス汎距離の算出がある。
図10は、突出点判定部440の出力データである。突出点判定部440は、時系列データ中のイベント発生日時に対応する突出率Pを付加する。
個々の部分時系列の特徴量空間分布を調査すると、(c)の特徴量が他よりも乖離していたことがわかった。そこで、突出点判定部440は、乖離の度合いの大きい(c)の領域については意図的に他よりも突出率を高く設定している。
集計単位時間…観測を行う時系列データを集計する単位時間
図11における領域の部分は、項目の位置関係を示すためのもので、実際のデータには存在しない。従って、平滑化係数算出部450が突出点判定部440から入力するデータは、実際には図8と同様である。また、図11の領域とは、図15において説明した部分時系列を示している。
平滑化係数算出部450がデータ入力・処理部420から入力するデータは、図6と同様である。
平滑化係数算出部450は、図6の各々のデータに対して、図12に示すように、突出点判定部440により割り当てられた領域を設定する。
このように、平滑化係数算出部450は、図6のデータ入力・処理部420からデータに対して対応する領域を設定することにより、各データに対して対応する領域の突出率を付与する。
また、min(rj)は、領域rjに含まれるk個のデータのうち、イベント発生数Cにおける最小値を取得する処理を示す。
右辺の第3項、すなわち、(Ci−min(rj))/((max(rj)−min(rj))は、領域rjに含まれる各々のイベント発生数Ciが当該領域rjに含まれる他のイベント発生数との比較においてどのような位置づけになるかという計算であり、各々のイベント発生数Ciの相対評価値を算出する計算である。
このように、平滑化係数Miは、各データの相対評価値及び各データが属する領域の突出率とに基づく係数であり、後述するように、相対評価値及び突出率と、平滑化部460による移動平均計算の対象とするデータ数とが比例関係となる。
平滑化係数算出部450の出力データは、図13に示す通りであり、図12のデータに対して、平滑化係数Miが追加されたものである。
平滑化部460は、図3に示すように、データ入力・処理部420から単位時間当たりの時系列データを入力する。
平滑化部460がデータ入力・処理部420から入力するデータは、図6と同様である。
そして、平滑化部460は、データ入力・処理部420から単位時間当たりの時系列データに対して、平滑化係数算出部450からの出力データ(図13)を用いて、平滑化を行う。
具体的な平滑化には、サンプル値を可変にした移動平均手法を用いる。
以下は、移動平均手法の定義である。いま、以下のようなxiを中心とした前後q個の時系列が存在するとする。
数3において、xiは、イベント発生数Ciを意味する。
また、miを移動平均値と呼ぶ。移動平均値miは、平滑化部460による移動平均計算の対象とするデータ数を示す。
移動平均値miは、平滑化係数Miと同値である。
通常は移動平均値は一定(上記の数2では、q個で固定)であるが、本実施の形態では移動平均値miは、平滑化係数算出部450により算出された平滑化係数Miに連動させている。
つまり、平滑化係数Miの値により、平滑化部460による移動平均計算の対象とするデータ数が変化する。
平滑化係数Miが大きくなれば、換言すれば、各々のイベント発生数Ciの相対評価値及び各々のイベント発生数Ciの突出率Piの少なくとも一方が大きくなれば、移動平均計算の対象となるデータ数が大きくなり、この結果、多くのイベント発生数の値が反映されて平滑化の度合いが大きくなる。平滑化係数Miが大きなデータは、前後のデータ又は領域と比較して突出した傾向にあるデータであるため、平滑化の度合いを大きくして平準化する。
定常領域のある点が特徴量空間の群に含まれる領域であった場合、移動平均値miは小さいため元の情報を保持する。つまり、値は大きく変化しない。
また時系列データのある点が特徴量空間の群に含まれない領域であった場合、移動平均値miが大きくなるので、突出した情報を平滑化する。
これまでの工程で、領域ごとの平滑化係数は時系列の値が大きいほど移動平均値が大きくなるよう設定されている。すなわち値の突出している箇所ほど強くノイズ除去が働くようになる。図19では(b)の領域が強く平滑化がかかることになる。
また、上記の説明では、計算の高速化のために、時系列データを領域に分け、領域ごとに特徴量を算出し、領域ごとの特徴量に基づき各領域の突出率を判定したが、領域に分けることなく個々のデータのデータ値に基づいてデータごとに突出率を判定するようにしてもよい。
時系列データを平滑化する形態として、変動の大きな時系列データへの対応が考えられる。
図20の上段のように時系列データの傾向が前半と後半で変化していた場合、主成分分析の結果得られる特徴量空間(主成分空間)は、大きく2つの群に分割される。
図20の例では、領域(a)〜(c)が一つの群を形成し、領域(e)〜(f)が別の群を形成する。
このような場合、突出率を正確に判定することができず、時系列データの平滑化係数の判定が困難になる。
なお、本実施の形態に係る異常検知部4の構成は図3に示したものと同様であり、各要素の処理の工程は突出点判定部440以外は実施の形態1と同じである。
本実施の形態では、突出点判定部440は、近隣の領域のみを用いて突出率の算出を行うことで時系列データの変動に対応する。
時系列データ(a)の領域に関する突出率を算出する際は隣り合う両側の領域(z)〜(b)を元にする。つまり、領域(z)〜(b)のそれぞれの特徴量を特徴量空間に配置し、それぞれの特徴量を比較して、突出率を判定する。
同様に、領域(b)に関する突出率の算出は領域(a)〜(c)を用いる。
なお、上記の説明では、突出率の算出を行う領域の両隣の領域のみを用いることにしているが、両隣に限らず、近接する任意数の領域を用いることができる。例えば、前後5領域ずつを用いてもよいし、先行する5つの領域のみを用いるようにしてもよい。
実施の形態2に示した事例の派生として、平滑化を行う時系列データの特徴量が頻繁に分布する場合がある。この場合、特徴量の数によっては特徴量空間上の群で判断した場合、群の主従関係が逆になり突出率の判定を誤る場合がある。
図21では時系列データに突出している領域((a)、(c)〜(f))が多く出現している。
このデータを主成分分析し、特徴量空間に配置した場合、突出している領域の方が群としての割合が大きくなる。
群を構成している領域の大小関係から、突出率を算出すると群から乖離している領域は(b)の領域であると判断され、突出率を算出する関係が逆転してしまう。
このため、領域(b)の突出率が高く、その他の領域の突出率が低くなり、実態からかけ離れてしまう。
特徴量空間の分布から見ると、領域(a)、(c)〜(f)が中心であると見られる。
しかし各領域の平均値を求めると、領域(b)の平均値が他よりも小さいことが分かり、この場合の特徴量空間は領域(b)からの乖離を求める必要があることがわかる。
本実施の形態に係る突出点判定部440は、このように、各領域に含まれるデータ値の平均値を求めて、より実態に則した突出率の判定を行う。
なお、本実施の形態に係る異常検知部4の構成は図3に示したものと同様であり、各要素の処理の工程は突出点判定部440以外は実施の形態1と同じである。
本実施の形態では、異常検知システムに学習データを蓄積する例を説明する。
つまり、本実施の形態では、異常検知に先立って学習データの平滑化を行い、平滑化された後の学習データを蓄積しておき、異常検知の際に蓄積している学習データを利用する。
入力データから得られたデータは異常検知システムで解析され異常であった場合、警告を行う。
従来は、入力データが異常であるかどうかを比較するため、入力データ中から正常である領域を学習データとして用いた。この学習データは入力データが更新されるたびに新たに規定し直していたが、学習データを蓄積すると過去の実績も使用できることになり検知精度が向上すると考えられる。ただし入力データには異常な値が含まれているため、学習データを蓄積する前段階で実施の形態1に示した手順を用いて平滑化を行う。
図22の右側がその処理の流れの概略である。
通常の平滑化と異なり特徴的な部分を優先的に平滑化するため、入力データにノイズ情報が含まれていた場合でも学習データとして活用することが可能である。
本実施の形態では、時系列情報の検索システムでの利用方法について説明する。
図23は、このような検索システムの処理の流れの概略を示す。
図23の左側に示す従来のシステムでは時系列情報を入力すると辞書データベースが辞書データを参照し類似するパターンを選定する。
しかし、時系列情報は特徴が多岐に渡るため同一の情報は検索が困難である。
関連する類似の情報を検索するためには平滑化の処理が必要であるが、単純に平滑化してしまうと入力データの情報が失われるため、検索は困難である。また入力データにノイズが混入していた場合はそのままでは検索を行うことができない。
この場合も実施の形態1に示したようなノイズ情報を優先的に平滑化する手法が有効である。
入力データをそのまま検索のキーとせず、実施の形態1に示す手法により平滑化を行う。これにより検索範囲の拡大とノイズの対処が可能になる。
つまり、辞書データベースにおいて辞書データとの照合の対象になるデータ(検知パターン)に対して実施の形態1に示した平滑化部による平滑化を行い、平滑化後のデータ(検知パターン)を辞書データベースに出力する。
辞書データベースでは、平滑後のデータ(検知パターン)に合致する辞書データを検索して、検索結果を応答する。
このようにすることで、ノイズ情報を取り除いてもノイズ情報以外の時系列情報は保存されるため検索精度の向上が可能になる。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置あるいは記憶部の一例である。
通信ボード915、キーボード902、スキャナ装置907、FDD904などは、入力部、入力装置の一例である。
また、通信ボード915、表示装置901、プリンタ装置906などは、出力部、出力装置の一例である。
磁気ディスク装置920には、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、オペレーティングシステム921、ウィンドウシステム922により実行される。
ファイル群924には、実施の形態1〜5の説明において、「〜の判断」、「〜の計算」、「〜の比較」、「〜の評価」、「〜の判定」、「〜の設定」、「〜の集計」等として説明している処理の結果を示す情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリになどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示などのCPUの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリ等に一時的に記憶される。
また、実施の形態1〜5で説明するフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD等の記録媒体に記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
Claims (13)
- 各々がデータ値を有する複数のデータに対する解析を行い、各データについて、各データのデータ値が他のデータのデータ値から乖離している度合いを乖離値として設定する乖離値設定部と、
前記乖離値設定部により設定された各データの乖離値を反映させて、データごとに平滑化のための平滑化係数を算出する平滑化係数算出部と、
前記平滑化係数算出部により算出された各データの平滑化係数を用いて各データの平滑化を行う平滑化部とを有することを特徴とするデータ処理装置。 - 前記平滑化係数算出部は、
前記乖離値設定部により設定された乖離値に応じて、前記平滑化部による平滑化の度合いが変化するように平滑化係数を算出することを特徴とする請求項1に記載のデータ処理装置。 - 前記乖離値設定部は、
所定の順序に従って整列されている複数のデータの解析を行い、
前記平滑化部は、
平滑化の対象となるデータに対して任意数のデータを用いた移動平均計算を行って平滑化を行い、
前記平滑化係数算出部は、
前記乖離値設定部により設定された乖離値と、前記平滑化部による移動平均計算の対象とするデータ数とが比例関係となる平滑化係数を算出することを特徴とする請求項1に記載のデータ処理装置。 - 前記データ処理装置は、更に、
所定の順序に従って整列されている複数のデータを前記順序に従って複数のグループにグループ化し、各グループに含まれるデータのデータ値の主成分分析を行って、各グループの特徴量を算出する特徴量分析部を有し、
前記乖離値設定部は、
前記特徴量分析部によりグループ化された各グループについて、各グループの特徴量が他のグループの特徴量から乖離している度合いを乖離値として設定し、
前記平滑化係数算出部は、
各データが属するグループ内における各データのデータ値の相対評価値を算出するとともに、各データの相対評価値と各データが属するグループの乖離値とを反映させて、データごとに平滑化のための平滑化係数を算出することを特徴とする請求項1に記載のデータ処理装置。 - 前記平滑化係数算出部は、
相対評価値及び乖離値と、前記平滑化部による平滑化の度合いとが比例関係となる平滑化係数を算出することを特徴とする請求項4に記載のデータ処理装置。 - 前記平滑化部は、
平滑化の対象となるデータに対して任意数のデータを用いた移動平均計算を行って平滑化を行い、
前記平滑化係数算出部により算出された平滑化係数に応じて移動平均計算の対象とするデータ数を決定し、決定したデータ数のデータを用いた移動平均計算を行ってデータの平滑化を行うことを特徴とする請求項4に記載のデータ処理装置。 - 前記乖離値設定部は、
各グループの特徴量と、各グループに近接する任意数のグループの特徴量との関係に基づいて、各グループの乖離値を設定することを特徴とする請求項4に記載のデータ処理装置。 - 前記乖離値設定部は、
グループごとにグループ内のデータの平均値を算出し、各グループの平均値と、各グループの特徴量と他のグループの特徴量との関係とに基づき、各グループの乖離値を設定することを特徴とする請求項4に記載のデータ処理装置。 - 前記データ処理装置は、
前記平滑化部によるデータの平滑化により、所定の検査対象データの異常検知用の学習データを生成するデータ処理装置であり、
前記検査対象データが入力された際に、前記乖離値設定部による乖離値の設定を開始することを特徴とする請求項1に記載のデータ処理装置。 - 前記データ処理装置は、
前記平滑化部によるデータの平滑化により、所定の検査対象データの異常検知用の学習データを生成するデータ処理装置であり、
前記検査対象データの入力前に、前記平滑化部によるデータの平滑化を完了して学習データの生成を完了していることを特徴とする請求項1に記載のデータ処理装置。 - 前記データ処理装置は、
所定の辞書データを蓄積する辞書データベースに接続されており、
前記辞書データベースにおいて辞書データとの照合の対象になるデータに対して前記平滑化部による平滑化を行い、平滑化後のデータを前記辞書データベースに出力することを特徴とする請求項1に記載のデータ処理装置。 - コンピュータが、各々がデータ値を有する複数のデータに対する解析を行い、各データについて、各データのデータ値が他のデータのデータ値から乖離している度合いを乖離値として設定する乖離値設定ステップと、
コンピュータが、前記乖離値設定ステップにより設定された各データの乖離値を反映させて、データごとに平滑化のための平滑化係数を算出する平滑化係数算出ステップと、
コンピュータが、前記平滑化係数算出ステップにより算出された各データの平滑化係数を用いて各データの平滑化を行う平滑化ステップとを有することを特徴とするデータ処理方法。 - 各々がデータ値を有する複数のデータに対する解析を行い、各データについて、各データのデータ値が他のデータのデータ値から乖離している度合いを乖離値として設定する乖離値設定処理と、
前記乖離値設定処理により設定された各データの乖離値を反映させて、データごとに平滑化のための平滑化係数を算出する平滑化係数算出処理と、
前記平滑化係数算出処理により算出された各データの平滑化係数を用いて各データの平滑化を行う平滑化処理とをコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006340621A JP4723466B2 (ja) | 2006-12-19 | 2006-12-19 | データ処理装置及びデータ処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006340621A JP4723466B2 (ja) | 2006-12-19 | 2006-12-19 | データ処理装置及びデータ処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008154010A JP2008154010A (ja) | 2008-07-03 |
JP4723466B2 true JP4723466B2 (ja) | 2011-07-13 |
Family
ID=39655713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006340621A Expired - Fee Related JP4723466B2 (ja) | 2006-12-19 | 2006-12-19 | データ処理装置及びデータ処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4723466B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013152672A1 (zh) * | 2012-04-09 | 2013-10-17 | 腾讯科技(深圳)有限公司 | 病毒趋势异常的监控方法及装置 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4773332B2 (ja) * | 2006-12-28 | 2011-09-14 | 三菱電機株式会社 | セキュリティ管理装置及びセキュリティ管理方法及びプログラム |
JP2010183214A (ja) * | 2009-02-04 | 2010-08-19 | Nec Access Technica Ltd | パケット解析装置、パケット解析方法およびパケット解析プログラム |
US9305043B2 (en) | 2011-09-12 | 2016-04-05 | Hitachi, Ltd. | Stream data anomaly detection method and device |
JP7075771B2 (ja) * | 2018-02-08 | 2022-05-26 | 株式会社Screenホールディングス | データ処理方法、データ処理装置、データ処理システム、およびデータ処理プログラム |
KR102627062B1 (ko) | 2019-10-06 | 2024-01-18 | 피디에프 솔루션즈, 인코포레이티드 | 비정상 장비 트레이스 검출 및 분류 |
JP7409866B2 (ja) | 2019-12-25 | 2024-01-09 | 株式会社日立製作所 | 通信監視装置及び通信監視方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3821225B2 (ja) * | 2002-07-17 | 2006-09-13 | 日本電気株式会社 | 時系列データに対する自己回帰モデル学習装置並びにそれを用いた外れ値および変化点の検出装置 |
JP2005223847A (ja) * | 2004-02-09 | 2005-08-18 | Intelligent Cosmos Research Institute | ネットワーク異常検出装置、ネットワーク異常検出方法およびネットワーク異常検出プログラム |
JP4156540B2 (ja) * | 2004-02-23 | 2008-09-24 | Kddi株式会社 | ログ分析装置、ログ分析プログラムおよび記録媒体 |
JP2005244429A (ja) * | 2004-02-25 | 2005-09-08 | Intelligent Cosmos Research Institute | ネットワーク異常検出の特徴量抽出方法、その方法をコンピュータに実行させるプログラム、その特徴量抽出装置およびネットワーク異常検出システム |
JP4261389B2 (ja) * | 2004-03-03 | 2009-04-30 | 東芝ソリューション株式会社 | 不正アクセス検出装置及び不正アクセス検出プログラム |
JP4745881B2 (ja) * | 2006-04-21 | 2011-08-10 | 三菱電機株式会社 | ネットワーク状態判定装置及びネットワーク状態判定方法及びネットワーク状態判定プログラム |
-
2006
- 2006-12-19 JP JP2006340621A patent/JP4723466B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013152672A1 (zh) * | 2012-04-09 | 2013-10-17 | 腾讯科技(深圳)有限公司 | 病毒趋势异常的监控方法及装置 |
US9817973B2 (en) | 2012-04-09 | 2017-11-14 | Tencent Technology (Shenzhen) Company Limited | Method and device for monitoring virus trend abnormality |
Also Published As
Publication number | Publication date |
---|---|
JP2008154010A (ja) | 2008-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9298538B2 (en) | Methods and systems for abnormality analysis of streamed log data | |
JP4723466B2 (ja) | データ処理装置及びデータ処理方法及びプログラム | |
US9921937B2 (en) | Behavior clustering analysis and alerting system for computer applications | |
US11748227B2 (en) | Proactive information technology infrastructure management | |
JP7101272B2 (ja) | データ来歴を介した自動脅威アラートトリアージ | |
US10452458B2 (en) | Computer performance prediction using search technologies | |
US20150205691A1 (en) | Event prediction using historical time series observations of a computer application | |
JP6555061B2 (ja) | クラスタリングプログラム、クラスタリング方法、および情報処理装置 | |
KR20190135445A (ko) | 동적 특이치 바이어스 감소 시스템 및 방법 | |
US9870294B2 (en) | Visualization of behavior clustering of computer applications | |
US9424288B2 (en) | Analyzing database cluster behavior by transforming discrete time series measurements | |
JP4889618B2 (ja) | データ処理装置及びデータ処理方法及びプログラム | |
US20160255109A1 (en) | Detection method and apparatus | |
JP2013175108A (ja) | クラスタリング装置及びクラスタリングプログラム | |
JP6777142B2 (ja) | システム分析装置、システム分析方法、及び、プログラム | |
WO2015110873A1 (en) | Computer performance prediction using search technologies | |
CN110598959A (zh) | 一种资产风险评估方法、装置、电子设备及存储介质 | |
JP4745881B2 (ja) | ネットワーク状態判定装置及びネットワーク状態判定方法及びネットワーク状態判定プログラム | |
CN114674511B (zh) | 一种用于剔除时变环境因素影响的桥梁模态异常预警方法 | |
CN114039837A (zh) | 告警数据处理方法、装置、系统、设备和存储介质 | |
JP2007226639A (ja) | 多変量データ判別装置 | |
JP4653526B2 (ja) | 品質解析方法、品質解析装置、コンピュータプログラム、及びコンピュータ読み取り可能な記憶媒体 | |
JP6070688B2 (ja) | イベント相関規則検出システム、イベント相関規則検出方法およびイベント相関規則検出用プログラム | |
RU2781822C1 (ru) | Система и способ автоматической оценки качества сигнатур сетевого трафика | |
WO2022162957A1 (ja) | 情報処理装置、制御システムおよびレポート出力方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110405 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110407 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140415 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |