JP2008146157A - ネットワーク異常判定装置 - Google Patents
ネットワーク異常判定装置 Download PDFInfo
- Publication number
- JP2008146157A JP2008146157A JP2006329574A JP2006329574A JP2008146157A JP 2008146157 A JP2008146157 A JP 2008146157A JP 2006329574 A JP2006329574 A JP 2006329574A JP 2006329574 A JP2006329574 A JP 2006329574A JP 2008146157 A JP2008146157 A JP 2008146157A
- Authority
- JP
- Japan
- Prior art keywords
- data
- steady state
- time
- series data
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
【課題】不正アクセスを検知する場合に、時系列データの動向を反映した異常の検知を可能とする。
【解決手段】ネットワーク異常判定装置100は、ログを取得するデータ取得部101と、ログから時系列データを生成する集計部102と、主成分分析により、前記時系列データから定常状態特徴量を複数抽出し、かつ、定常状態特徴量が複数抽出された時系列データよりも後の時刻の新規データの新規データ特徴量を抽出する分析部103と、定常状態特徴量領域を定義する定常状態定義部107と、定常状態特徴量領域と新規データ特徴量とのマハラノビス距離が閾値を越えるかを判定する異常検知部104と、閾値を越えると判定された場合に、定常状態特徴量領域に対応する時系列データに対して新規データ特徴量に対応する新規データが上昇傾向にあるかどうかを判定して上昇傾向にある場合に異常が発生したと判定する傾向判定部105とを備えた。
【選択図】図2
【解決手段】ネットワーク異常判定装置100は、ログを取得するデータ取得部101と、ログから時系列データを生成する集計部102と、主成分分析により、前記時系列データから定常状態特徴量を複数抽出し、かつ、定常状態特徴量が複数抽出された時系列データよりも後の時刻の新規データの新規データ特徴量を抽出する分析部103と、定常状態特徴量領域を定義する定常状態定義部107と、定常状態特徴量領域と新規データ特徴量とのマハラノビス距離が閾値を越えるかを判定する異常検知部104と、閾値を越えると判定された場合に、定常状態特徴量領域に対応する時系列データに対して新規データ特徴量に対応する新規データが上昇傾向にあるかどうかを判定して上昇傾向にある場合に異常が発生したと判定する傾向判定部105とを備えた。
【選択図】図2
Description
この発明は、不正アクセスに基づくネットワークの異常を判定するネットワーク異常判定装置に関する。
従来の主成分分析による不正アクセスの時系列データ分析として、例えば、非特許文献1に記載されている、ネットワーク監視データをある一定の長さの変化を1単位時間づつシフトしながら切り出し、行列化し主成分分析を行い、特徴量を用いて異常を検知する方法がある。この方法では、主成分分析を行った結果、定常状態に該当する特徴量から乖離した特徴量をもつネットワーク監視データを異常と判断する。ここでの「定常状態」とは、不正アクセスを受けていない状態のネットワーク監視データの状態を示し、ある周期性を持ったデータ、或いは、規則性が無くともある上限、下限の大きさに収まるデータなどを意味する(以下、本明細書では、定常状態をこの意味で使用する)。この場合、例えばワームの拡散などの不正アクセスを受けた場合は、この周期性が乱れたり、上限を超えたデータが発生すると仮定している。
また、この様な分析手法においては定常状態のデータの定義がその後の異常の検知の精度を左右するが、異常検知後の収束を自動的に判断し、定常状態のデータを再定義する従来技術は見当たらない。
恐らく、従来は、定常状態のデータの値の範囲はいつも同じであるような用途が多かったためと思われる。すなわち、異常発生後は、予め設定された管理目標値に向けてデータが収束するように制御するか、或いは自然に管理目標値に戻った時点をもって収束と判断され、定常状態のデータはその管理目標値の範囲のデータが使用する、という用途が多かったからと予測される。すなわち、プラントのタンク容量などが対象であり、定常状態のデータを更新する必要性がなく、定常状態のデータは固定でよかった。
「平井他:定点観測による不正アクセス対策システムの提案〜ワーム攻撃による異常検出のためのネットワークログ分析手法〜、IPSJ68回全国大会」
「平井他:定点観測による不正アクセス対策システムの提案〜ワーム攻撃による異常検出のためのネットワークログ分析手法〜、IPSJ68回全国大会」
従来の分析技術では、異常検知後のデータの制御の目標値として、予め知られている収束目標値に収束するように制御したり、或いは自然に収束することを検知し、異常検知の監視を再開していた。
しかし、ネットワークの不正アクセスの分析に主成分分析を用いた場合、必ずしも収束目標値が予め分かっているとは限らない。例えば、単純に不正アクセスデータの動きを観測・分析するような場合で、その不正アクセスデータの動きに対して能動的に制御を行えない場合である。つまり、収束する値が予め分からない場合である。
また、収束後、分析に必要な定常状態のデータが十分蓄積されていないため、検知開始までに遅延が発生する課題があった。
しかし、ネットワークの不正アクセスの分析に主成分分析を用いた場合、必ずしも収束目標値が予め分かっているとは限らない。例えば、単純に不正アクセスデータの動きを観測・分析するような場合で、その不正アクセスデータの動きに対して能動的に制御を行えない場合である。つまり、収束する値が予め分からない場合である。
また、収束後、分析に必要な定常状態のデータが十分蓄積されていないため、検知開始までに遅延が発生する課題があった。
本発明は、不正アクセスを検知する場合に、時系列データの動向を反映した異常の検知を可能とするとともに、不正アクセス発生後の定常状態への収束を自動的に判定することを可能とする。また、収束判定後の検知の再開において、定常状態のデータを擬似的に生成し再検知の開始を早めることを目的とする。
この発明のネットワーク異常判定装置は、
ネットワークのログを取得するログ取得部と、
前記ログ取得部が取得したログから時系列データを生成する時系列データ生成部と、
特徴量を抽出する主成分分析を用いることにより、前記時系列データ生成部が生成した時系列データから所定期間の定常状態の時系列データに対応する特徴量である定常状態特徴量を複数抽出するとともに定常状態特徴量が複数抽出された所定期間の定常状態の時系列データよりも後の時刻の時系列データである新規データに対応する特徴量である新規データ特徴量を抽出する分析部と、
前記分析部が抽出した複数の定常状態特徴量に基づいて、複数の定常状態特徴量が分布する定常状態特徴量領域を定義する定常状態定義部と、
前記定常状態定義部が定義した定常状態特徴量領域と、新規データ特徴量とのマハラノビス距離が予め設定された閾値を越えるかどうかを判定する距離判定部と、
前記距離判定部が定常状態特徴量領域と新規データ特徴量とのマハラノビス距離が予め設定された閾値を越えると判定した場合に、定常状態特徴量領域に対応する所定期間の定常状態の時系列データに対して新規データ特徴量に対応する新規データが上昇傾向にあるかどうかを判定し、上昇傾向にあると判定した場合に、異常が発生したと判定する傾向判定部と
を備えたことを特徴とする。
ネットワークのログを取得するログ取得部と、
前記ログ取得部が取得したログから時系列データを生成する時系列データ生成部と、
特徴量を抽出する主成分分析を用いることにより、前記時系列データ生成部が生成した時系列データから所定期間の定常状態の時系列データに対応する特徴量である定常状態特徴量を複数抽出するとともに定常状態特徴量が複数抽出された所定期間の定常状態の時系列データよりも後の時刻の時系列データである新規データに対応する特徴量である新規データ特徴量を抽出する分析部と、
前記分析部が抽出した複数の定常状態特徴量に基づいて、複数の定常状態特徴量が分布する定常状態特徴量領域を定義する定常状態定義部と、
前記定常状態定義部が定義した定常状態特徴量領域と、新規データ特徴量とのマハラノビス距離が予め設定された閾値を越えるかどうかを判定する距離判定部と、
前記距離判定部が定常状態特徴量領域と新規データ特徴量とのマハラノビス距離が予め設定された閾値を越えると判定した場合に、定常状態特徴量領域に対応する所定期間の定常状態の時系列データに対して新規データ特徴量に対応する新規データが上昇傾向にあるかどうかを判定し、上昇傾向にあると判定した場合に、異常が発生したと判定する傾向判定部と
を備えたことを特徴とする。
本発明は、不正アクセスを検知する場合に、時系列データの動向を反映した異常の検知を行なうので、異常判定の精度を高めることができる。
実施の形態1.
図1〜図18を用いて実施の形態を説明する。まず、説明を始める前に、用語を定義する。
(1)「定常状態NW(Net Work)データ11」とは、定常状態のネットワーク監視データから集計されたデータを意味する。
(2)「定常状態NWデータ領域12」とは、定常状態NWデータの分布範囲を意味する。
(3)「定常状態特徴量21」とは、定常状態NWデータ11から算出された特徴量を意味する。
(4)「定常状態特徴量領域22」とは、定常状態特徴量21の分布範囲を意味する。
なお、これらの(1)〜(4)の用語は、図によって後述する。
(5)また、以下の実施の形態で述べる主成分分析において、「特徴量」とは、主成分得点を意味する。「PC1」とは、第1主成分を意味し、「PC2」とは、第2主成分を意味する。なお、主成分得点とは、PC1,PC2などの主成分に対して実際のデータを射影した値をいい、例えば、PC1に元のデータを射影した場合に得られる値が、そのデータのPC1上の主成分得点である。
図1〜図18を用いて実施の形態を説明する。まず、説明を始める前に、用語を定義する。
(1)「定常状態NW(Net Work)データ11」とは、定常状態のネットワーク監視データから集計されたデータを意味する。
(2)「定常状態NWデータ領域12」とは、定常状態NWデータの分布範囲を意味する。
(3)「定常状態特徴量21」とは、定常状態NWデータ11から算出された特徴量を意味する。
(4)「定常状態特徴量領域22」とは、定常状態特徴量21の分布範囲を意味する。
なお、これらの(1)〜(4)の用語は、図によって後述する。
(5)また、以下の実施の形態で述べる主成分分析において、「特徴量」とは、主成分得点を意味する。「PC1」とは、第1主成分を意味し、「PC2」とは、第2主成分を意味する。なお、主成分得点とは、PC1,PC2などの主成分に対して実際のデータを射影した値をいい、例えば、PC1に元のデータを射影した場合に得られる値が、そのデータのPC1上の主成分得点である。
図1は、実施の形態1における不正アクセス検知装置100(ネットワーク異常判定装置)のハードウェア資源の一例を示す図である。図1において、不正アクセス検知装置100は、プログラムを実行するCPU810(中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU810は、バス825を介してROM(Read Only Memory)811、RAM(Random Access Memory)812、通信ボード816、磁気ディスク装置820と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置820の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
RAM812は、揮発性メモリの一例であり、ROM811、磁気ディスク装置820等の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置あるいは記憶部、格納部の一例である。通信ボード816は、入力部、入力装置、出力部、出力装置の一例である。
磁気ディスク装置820には、OS(オペレーティングシステム)821、プログラム群823、ファイル群824が記憶されている。プログラム群823のプログラムは、OS821及びCPU810により実行される。
上記プログラム群823には、以下に述べる実施の形態の説明において「〜部」として説明する機能を実行するプログラムが記憶されている。プログラムは、CPU810により読み出され実行される。
ファイル群824には、以下に述べる実施の形態の説明において、「〜の判定結果」、「〜の算出結果」、「〜の抽出結果」、「〜の生成結果」、「〜の処理結果」として説明する情報や、後述する「集計データ151(時系列データ)」や「特徴量」、及びデータや信号値や変数値やパラメータなどが、「〜ファイル」や「〜データベース」の各項目として記憶されている。「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU810によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力などのCPUの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、以下に述べる実施の形態の説明においては、データや信号値は、RAM812のメモリ、磁気ディスク装置820の磁気ディスク、その他光ディスク、ミニディスク、DVD(Digital・Versatile・Disk)等の記録媒体に記録される。また、データや信号は、バス825や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
また、以下に述べる実施の形態の説明において「〜部」として説明するものは、「〜回路」、「〜装置」、「〜機器」、「手段」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」として説明するものは、ROM811に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。プログラムはCPU810により読み出され、CPU810により実行される。すなわち、プログラムは、以下に述べる「〜部」としてコンピュータを機能させるものである。あるいは、以下に述べる「〜部」の手順や方法をコンピュータに実行させるものである。
図2は、実施の形態1における不正アクセス検知装置100(ネットワーク異常判定装置)のブロック構成図である。
図2に示すように、不正アクセス検知装置100は、データ取得部101(ログ取得部)、集計部102(時系列データ生成部)、分析部103、異常検知部104(距離判定部)、傾向判定部105、収束判定部106、定常状態定義部107、定常状態再定義部108を備える。
図2において、
(1)データ取得部101は、ネットワーク機器のログ150を取り込む。
(2)集計部102は、ネットワーク機器のログ150から、分析視点に基づく時系列データである集計データ151を生成する。
(3)分析部103は、集計部102から集計データ151を受け取り、主成分分析(PCA:Principal Component Analysis)を行い、特徴量(主成分得点)152を算出する。
(4)異常検知部104は、分析部103の結果において、マハラノビス距離に基づき、現在の集計データの特徴量が、定常状態特徴量領域22から逸脱(異常)しているか否か(定常)を検知する。
(5)傾向判定部105は、現在の集計データが、定常状態の集計データに対して上昇傾向にあるか下降傾向にあるかを判定する。
(6)収束判定部106は、時系列データが収束したかどうかを、PCA(Principal Component Analysis:主成分分析)の結果のマハラノビス距離の収束状態から判定する。
(7)定常状態定義部107は、定常状態の集計データを入力とし、集計部102、分析部103と連携しPCAを行った結果得られる特徴量を保持するとともに、定常状態NWデータ領域12、定常状態特徴量領域22を定義する。
(8)定常状態再定義部108は、収束判定部106が、マハラノビス距離の収束を判定した後、新しい擬似的な定常状態NWデータ11を定義する。
(1)データ取得部101は、ネットワーク機器のログ150を取り込む。
(2)集計部102は、ネットワーク機器のログ150から、分析視点に基づく時系列データである集計データ151を生成する。
(3)分析部103は、集計部102から集計データ151を受け取り、主成分分析(PCA:Principal Component Analysis)を行い、特徴量(主成分得点)152を算出する。
(4)異常検知部104は、分析部103の結果において、マハラノビス距離に基づき、現在の集計データの特徴量が、定常状態特徴量領域22から逸脱(異常)しているか否か(定常)を検知する。
(5)傾向判定部105は、現在の集計データが、定常状態の集計データに対して上昇傾向にあるか下降傾向にあるかを判定する。
(6)収束判定部106は、時系列データが収束したかどうかを、PCA(Principal Component Analysis:主成分分析)の結果のマハラノビス距離の収束状態から判定する。
(7)定常状態定義部107は、定常状態の集計データを入力とし、集計部102、分析部103と連携しPCAを行った結果得られる特徴量を保持するとともに、定常状態NWデータ領域12、定常状態特徴量領域22を定義する。
(8)定常状態再定義部108は、収束判定部106が、マハラノビス距離の収束を判定した後、新しい擬似的な定常状態NWデータ11を定義する。
次に、図3を参照して、データ取得部101、集計部102、分析部103の動作を説明する。図3は、データ取得部101、集計部102、及び分析部103のシーケンス図である。なお、本実施の形態1の説明では、収束判定部106、定常状態再定義部108は、登場しない。収束判定部106は実施の形態2で説明し、定常状態再定義部108は実施の形態5、6で説明する。
(データ取得部101)
まず、データ取得部101は、ネットワーク監視データ(例えば、ネットワーク機器のログ150)を受信し、集計部102にデータを渡す(S101)。ネットワーク監視データとして例えば、後述する図5の様な、ログファイルを定期的に取り込む。
まず、データ取得部101は、ネットワーク監視データ(例えば、ネットワーク機器のログ150)を受信し、集計部102にデータを渡す(S101)。ネットワーク監視データとして例えば、後述する図5の様な、ログファイルを定期的に取り込む。
(集計部102)
次に集計部102は、データ取得部101から受け取ったネットワーク監視データから、分析視点に基づく時系列データを生成する(S102)。例えば、図4は、DstPort445番宛の5分集計のIDS(Intrusion Detection System)のAlert数の時系列データである。この様な時系列データは、ネットワークログデータから、集計時間内の該当する項目を数え上げることで得られる。例えば、図5は、IDSのAlertログの例であり、様々なAlertの発生が記録されている。DstPort445番宛のAlertを5分ごとに集計して数え上げる場合、
06/04/18:12:00:00〜06/04/18:12:04:59
までの5分間の集計は、3つ該当するログが記録されているので、「3」となる。このような数え上げを5分毎に行うことで、図4の様な時系列のグラフが得られる。
次に集計部102は、データ取得部101から受け取ったネットワーク監視データから、分析視点に基づく時系列データを生成する(S102)。例えば、図4は、DstPort445番宛の5分集計のIDS(Intrusion Detection System)のAlert数の時系列データである。この様な時系列データは、ネットワークログデータから、集計時間内の該当する項目を数え上げることで得られる。例えば、図5は、IDSのAlertログの例であり、様々なAlertの発生が記録されている。DstPort445番宛のAlertを5分ごとに集計して数え上げる場合、
06/04/18:12:00:00〜06/04/18:12:04:59
までの5分間の集計は、3つ該当するログが記録されているので、「3」となる。このような数え上げを5分毎に行うことで、図4の様な時系列のグラフが得られる。
図4は、分析に利用する時系列データのイメージを説明するものであるが、実際に集計部102が出力するのは、図6のような集計データ151である。Timeと記述されている列は、集計開始時点から集計時間が経過した時刻を示す。
例えば、
06/04/18:12:00:00
から集計を開始し、5分単位で集計を行うのであれば、
T1は、06/04/18:12:05:00、
T2は、06/04/18:12:10:00となる。
06/04/18:12:00:00
から集計を開始し、5分単位で集計を行うのであれば、
T1は、06/04/18:12:05:00、
T2は、06/04/18:12:10:00となる。
Countは、その時刻までに集計時間で数え上げた該当項目の数を示す。
06/04/18:12:00:00から06/04/18:12:04:49
までの集計結果をT1の横に記述する。図5によればこの期間であるT1は、「3」である。
同様に
06/04/18:12:05:00から06/04/18:12:09:59
までの集計結果をT2の横に記述する。以降、繰り返す。
06/04/18:12:00:00から06/04/18:12:04:49
までの集計結果をT1の横に記述する。図5によればこの期間であるT1は、「3」である。
同様に
06/04/18:12:05:00から06/04/18:12:09:59
までの集計結果をT2の横に記述する。以降、繰り返す。
集計部102は、この様に集計を行った結果である集計データ151を分析部103出力する。
データ取得部101には最新のログデータが随時取り込まれ、集計部102に渡される。集計部102では、そのログデータに対し集計時間に基づく数え上げを行い、図6の集計データ151を出力する。例えば、集計部102は、集計時間が経過する毎に最新のログデータをデータ取得部101から取り込む。その結果、例えば、図6のように、
06/04/18:12:00:00から5分経過すると「TimeT1,Count3」という集計データが得られる。さらに5分経過すると「TimeT2,Count4」という集計結果が得られる。集計部102は、これら集計データが得られる度に分析部103へ出力する。
06/04/18:12:00:00から5分経過すると「TimeT1,Count3」という集計データが得られる。さらに5分経過すると「TimeT2,Count4」という集計結果が得られる。集計部102は、これら集計データが得られる度に分析部103へ出力する。
(分析部103)
分析部103では、集計部102から得られた集計データ(時系列データ)の変化を分析する(S103)。実装例として、PCAによる特徴量の抽出を利用した方法を説明する。
分析部103では、集計部102から得られた集計データ(時系列データ)の変化を分析する(S103)。実装例として、PCAによる特徴量の抽出を利用した方法を説明する。
分析部103は、集計部102から定期的に出力される集計データ151に対してPCAを行う。図7はPCAを説明する図である。図7を参照して、PCAを説明する。PCAの実施の方法は、図7に示す様に、大きさmのウィンドウを設け、ウィンドウを「集計時間(例えば5分)×1」づつずらしながらデータを切り出し、そのデータを行として順次並べることで、行列を作成する。最新の集計データが一番下の行に含まれる行列が生成されたれた時点で、分析部103は、行列に対してPCAを実施する。その結果、各行に対する特徴量が得られる。
この方式では、ある時刻からウィンドウサイズ分遡った時系列データの波形は、行列の行で示される。各行は集計時間ごとにずらして生成されるので、この様にPCAを実施することで、
「各行=集計時間毎にウィンドウサイズ分遡った波形」の特徴量を得ることができる。このように、PCAを利用することで、ある集計時間でのデータの大きさだけでなく、それまでのデータの形も含めて時系列でどのように変化しているか捉えることができる。
「各行=集計時間毎にウィンドウサイズ分遡った波形」の特徴量を得ることができる。このように、PCAを利用することで、ある集計時間でのデータの大きさだけでなく、それまでのデータの形も含めて時系列でどのように変化しているか捉えることができる。
図7の例では、PCAは、7次元で表現される波形データを特徴量という2次元の変量に変換する。この特徴量は、PCAの第1主成分の主成分得点(PC1)、及び第2主成分の主成分得点(PC2)のことであり、2次元の座標でデータの変化を観察するために利用される。
なお、通常、PCAの結果として使用する特徴量の数は、累積寄与率が8割程度に達するものを選ぶことが多いとされる。その場合に使用する特徴量の数は2つとは限らないが、ここでは説明を簡単にするため、データの傾向を捉える上位2つのPC(Principal Component:主成分)を用いて説明する。
上記では、データ取得部101、集計部102及び分析部103の動作を説明した。以下では、データ取得部101、集計部102、分析部103の動作をもとに定常状態定義部107による定常状態NWデータ領域12、定常状態特徴量領域22の定義について説明する。
(定常状態定義部107)
図3、図8、図9等を用いて、定常状態定義部107の動作を説明する。まず、ネットワーク機器のログ150として、図8のステップS1に示すように、不正アクセスの被害を受けていない状態(定常状態)のログデータを不正アクセス検知装置100のデータ取得部101が入力する。
図3、図8、図9等を用いて、定常状態定義部107の動作を説明する。まず、ネットワーク機器のログ150として、図8のステップS1に示すように、不正アクセスの被害を受けていない状態(定常状態)のログデータを不正アクセス検知装置100のデータ取得部101が入力する。
(ステップS1:定常状態特徴量領域22の定義のためのデータ取得)
ログに記録された期間を「Ti〜Ti+n」とする。データ取得部101は、これを入力とし、集計部102へ渡す。集計部102は、「Ti〜Ti+n」のログデータに対し、集計時間ごとに分析視点に基づき図6の様な集計データ151を分析部103に出力する。定常状態のネットワーク監視データから集計されたデータは、冒頭で定義したように、定常状態NWデータ11であり、その分布範囲は定常状態NWデータ領域12である。分析部103は、集計データ151を用いて図7の様に行列を生成し、PCAを実施し、各行の特徴量を定常状態定義部107に出力する。分析部103は、これに加えて定常状態NWデータ11も定常状態定義部107に出力する。
ログに記録された期間を「Ti〜Ti+n」とする。データ取得部101は、これを入力とし、集計部102へ渡す。集計部102は、「Ti〜Ti+n」のログデータに対し、集計時間ごとに分析視点に基づき図6の様な集計データ151を分析部103に出力する。定常状態のネットワーク監視データから集計されたデータは、冒頭で定義したように、定常状態NWデータ11であり、その分布範囲は定常状態NWデータ領域12である。分析部103は、集計データ151を用いて図7の様に行列を生成し、PCAを実施し、各行の特徴量を定常状態定義部107に出力する。分析部103は、これに加えて定常状態NWデータ11も定常状態定義部107に出力する。
(ステップS2:定常状態定義部107による定常状態特徴量領域22の定義)
図8のステップS2において、定常状態定義部107は、分析部103から分析の結果得られた特徴量を受け取る。この特徴量が、冒頭で定義した定常状態特徴量21である。また、定常状態定義部107は、定常状態特徴量21の分布範囲を、冒頭で定義した定常状態特徴量領域22として定める。ここでは、特徴量として第1主成分得点(PC1)と第2主成分得点(PC2)とを扱う例を示しているので、PC1、PC2の2次元の表現になっている。また、定常状態定義部107は、受け取った定常状態NWデータ11に対して定常状態NWデータ領域12を定義する。
図8のステップS2において、定常状態定義部107は、分析部103から分析の結果得られた特徴量を受け取る。この特徴量が、冒頭で定義した定常状態特徴量21である。また、定常状態定義部107は、定常状態特徴量21の分布範囲を、冒頭で定義した定常状態特徴量領域22として定める。ここでは、特徴量として第1主成分得点(PC1)と第2主成分得点(PC2)とを扱う例を示しているので、PC1、PC2の2次元の表現になっている。また、定常状態定義部107は、受け取った定常状態NWデータ11に対して定常状態NWデータ領域12を定義する。
なお、定常状態定義部107における、情報の保持の仕方として、図6の表を拡張し、
「Time:Count:PC1:PC2」
として、その時刻の特徴量も横に並べる。
この様に、定常状態定義部107は、定常状態NWデータ領域12と定常状態特徴量領域22とを定義する。
「Time:Count:PC1:PC2」
として、その時刻の特徴量も横に並べる。
この様に、定常状態定義部107は、定常状態NWデータ領域12と定常状態特徴量領域22とを定義する。
次に、図9、図10を参照して、時系列データの変化を捉えるための動作を示す。時系列データ(ログデータ)の入力、集計、PCAによる分析は、前述したようにデータ取得部101、集計部102、分析部103が同様の方法で処理する。
(図9のステップS3、S4)
図8から5分経過した後を示す図9のステップS3において、分析部103が図8のステップS1における定常状態NWデータ11と、さらに5分後のTi+n+1の集計データを併せ、図9のステップS4のPCAを実施する。この結果、最新の5分の集計データであるTi+n+1の集計データに該当する特徴量が、定常状態NWデータ領域12に含まれる定常状態に該当する特徴量の領域(定常状態特徴量領域22)に含まれる場合は、異常検知部104は定常状態と判定する。この判定は、異常検知部104が行う。なお厳密には、“Ti+n+1の集計データ”に該当する特徴量ではなく、図7の行列において、“Ti+n+1の集計データを最後の列に含んだ行”に該当する特徴量である。この様な行は、図7の行列の作り方から、一番下の行が該当する。
図8から5分経過した後を示す図9のステップS3において、分析部103が図8のステップS1における定常状態NWデータ11と、さらに5分後のTi+n+1の集計データを併せ、図9のステップS4のPCAを実施する。この結果、最新の5分の集計データであるTi+n+1の集計データに該当する特徴量が、定常状態NWデータ領域12に含まれる定常状態に該当する特徴量の領域(定常状態特徴量領域22)に含まれる場合は、異常検知部104は定常状態と判定する。この判定は、異常検知部104が行う。なお厳密には、“Ti+n+1の集計データ”に該当する特徴量ではなく、図7の行列において、“Ti+n+1の集計データを最後の列に含んだ行”に該当する特徴量である。この様な行は、図7の行列の作り方から、一番下の行が該当する。
この様に、図4のような時系列データが定常か異常かを、特徴量に変換して判定する。
(図9のステップS5)
図9のステップS4の様に、異常検知部104により定常状態と判定された場合は、分析部103は、図9のステップS5において、定常状態定義部107における定常状態NWデータ領域12の最も古い集計データ(Tiに該当する集計データ)を1つ削除し、最も新しい集計データ(Ti+n+1に該当する集計データ)を含め、定常状態NWデータ領域12を更新する。さらに、定常状態NWデータ領域12に含まれる定常状態NWデータ11に対してPCAを再実施し、そして定常状態定義部107が定常状態特徴量領域22を更新する。このように、定常状態NWデータ領域12と定常状態特徴量領域22との更新は、定常状態定義部107が分析部103と連携して行う。図7にて説明した行列で示すのであれば、図7において、一番上の行(最も古い集計データが含まれる行)を削除した残りの行列にPCAを実施することに等しい。
図9のステップS4の様に、異常検知部104により定常状態と判定された場合は、分析部103は、図9のステップS5において、定常状態定義部107における定常状態NWデータ領域12の最も古い集計データ(Tiに該当する集計データ)を1つ削除し、最も新しい集計データ(Ti+n+1に該当する集計データ)を含め、定常状態NWデータ領域12を更新する。さらに、定常状態NWデータ領域12に含まれる定常状態NWデータ11に対してPCAを再実施し、そして定常状態定義部107が定常状態特徴量領域22を更新する。このように、定常状態NWデータ領域12と定常状態特徴量領域22との更新は、定常状態定義部107が分析部103と連携して行う。図7にて説明した行列で示すのであれば、図7において、一番上の行(最も古い集計データが含まれる行)を削除した残りの行列にPCAを実施することに等しい。
(図10のステップS6)
図10のステップS6は、図9のステップS3〜S5を繰り返す過程で、最新の特徴量が定常状態特徴量領域22から逸脱した場合を示したものである。すなわち、最新の特徴量が定常状態特徴量領域22から逸脱するまで、ステップS3〜S5が繰り返される。この時点で、定常状態から状態が何かしら変化したことを示している。定常状態特徴量領域22から逸脱した時点で、定常状態定義部107は、定常状態NWデータ領域12を現在の定常状態NWデータ領域12に固定する。
図10のステップS6は、図9のステップS3〜S5を繰り返す過程で、最新の特徴量が定常状態特徴量領域22から逸脱した場合を示したものである。すなわち、最新の特徴量が定常状態特徴量領域22から逸脱するまで、ステップS3〜S5が繰り返される。この時点で、定常状態から状態が何かしら変化したことを示している。定常状態特徴量領域22から逸脱した時点で、定常状態定義部107は、定常状態NWデータ領域12を現在の定常状態NWデータ領域12に固定する。
(図11のステップS7)
図11のステップS7以後、固定された定常状態特徴量領域22に含まれる定常状態NWデータ11に、集計時刻ごとに集計データ積み上げ、都度PCAに掛ける。ステップS5における処理との違いは、過去の定常状態NWデータ11を削除せずに含める点である。図7のように行列で示すのであれば、図7において、集計時刻ごとに、一番上の行を削除せずに、新しい集計データが一番左の列に位置する新しい行を追加し、PCAを実施することを繰り返すことに等しい。
図11のステップS7以後、固定された定常状態特徴量領域22に含まれる定常状態NWデータ11に、集計時刻ごとに集計データ積み上げ、都度PCAに掛ける。ステップS5における処理との違いは、過去の定常状態NWデータ11を削除せずに含める点である。図7のように行列で示すのであれば、図7において、集計時刻ごとに、一番上の行を削除せずに、新しい集計データが一番左の列に位置する新しい行を追加し、PCAを実施することを繰り返すことに等しい。
この方法により乖離の開始後の各集計時点での特徴量の軌跡を把握できる。不正アクセスが継続され、アクセスが増加している場合は、特徴量は定常域から乖離した状態が続く。図12は、ステップS3〜S5の繰り返えすとともに、乖離する特徴量が出現した場合を模式的に表した図である。
(図13のステップS8)
時間が進み、図13のステップS8において不正アクセスが収束した場合、特徴量は固定された定常状態NWデータ領域12に含まれる定常状態NWデータ11に該当する定常状態特徴量領域22に戻る。或いは、図14のステップS9に示す様に、固定された定常状態NWデータ領域12に含まれる定常状態NWデータ11に該当する定常状態特徴量領域22ではないが、新しい定常状態に遷移する。ここでは、分かりやすく、群を、小さな○で表現しているが、大きな楕円などである可能性もある。すなわち、特徴量は一定の範囲内に分布する。
時間が進み、図13のステップS8において不正アクセスが収束した場合、特徴量は固定された定常状態NWデータ領域12に含まれる定常状態NWデータ11に該当する定常状態特徴量領域22に戻る。或いは、図14のステップS9に示す様に、固定された定常状態NWデータ領域12に含まれる定常状態NWデータ11に該当する定常状態特徴量領域22ではないが、新しい定常状態に遷移する。ここでは、分かりやすく、群を、小さな○で表現しているが、大きな楕円などである可能性もある。すなわち、特徴量は一定の範囲内に分布する。
さて、新しい定常状態に遷移した場合に、その遷移が完了した時点を把握し、定常状態NWデータ領域12を再定義し、不正アクセスの検知を再開する必要がある。何故ならば、以前の定常状態NWデータ領域12を使用したのでは、収束した後の時系列データは、特徴量に変換して判断した場合、定常状態にも関わらず乖離と判断されてしまうからである。収束判定については実施の形態2で述べる。
以下の実施の形態では、PCAを利用した異常検知から収束判定までの動作を説明する。このうち実施の形態1では異常検知について説明し、収束判定については実施の形態2で説明する。
本実施の形態1における異常検知は、
「異常検知=マハラノビス距離による定常域からの乖離+集計データの動向を併せた判定」
により異常を検知する。すなわち、「マハラノビス距離による定常からの乖離」に加え、「集計データの動向」を加味して異常を検知することが特徴である。
本実施の形態1における異常検知は、
「異常検知=マハラノビス距離による定常域からの乖離+集計データの動向を併せた判定」
により異常を検知する。すなわち、「マハラノビス距離による定常からの乖離」に加え、「集計データの動向」を加味して異常を検知することが特徴である。
以下に、異常検知について説明する。
図8〜図11、図13では、特徴量の乖離の概念を分かりやすく説明するために、2次元グラフで特徴量の分布で示した。これは、人間が目視で乖離を確認するには適している方法である。しかし、不正アクセスの検知を自動化する場合は、目視では無い別の方法により特徴量の乖離を判定する必要がある。
異常検知部104は、定常状態特徴量領域22からの逸脱を判断する方法として、マハラノビス距離を使う。ここでの「マハラノビス距離」とは、定常状態特徴量領域22に存在する特徴量(定常状態特徴量21)の重心に対して、ある特徴量がどれくらい離れているかを、分散を考慮し計算した距離である。異常検知部104は、定常状態特徴量領域の重心に対し、この領域に含まれている定常状態特徴量のマハラノビス距離を元に決めた、マハラノビス距離の「閾値」に対して、最新の特徴量のマハラノビス距離がこの「閾値」を越えるかどうかを判定する。
なお、PCAの結果として評価に用いる主成分の数は変わることがある。上記の例では、PC1,PC2のみであるが、PC1のみであったり、PC5まで使用することもある。これは、どの主成分まで使用すれば、元のデータの何割(通常は7、8割とされる)を表す情報量を含むかという判断に依存する。また、マハラノビス距離は、使用する主成分(1つ、2つ、さらに複数)に対して計算される。すなわち、PC1のみで分析したり、PC1〜PC2で分析したり、あるいはPC1〜PCnで分析する。好適な次元で分析する。
図15(a)は、定常状態特徴量領域22の重心(×印)に対して各特徴量のマハラノビス距離を求めた場合を示し、図15(b)は、マハラノビス距離を時系列表現した図である。
ここでのマハラノビス距離とは、各特徴量の定常状態特徴量領域22の重心からの離れを示すものである。図16(a)は、時系列データが上昇する場合を示し、図16(b)は(a)に対応する特徴量の遷移を示し、図16(c)は、(a)に対応するマハラノビス距離の時系列表現を示す図である。同様に、図16(d)は、時系列データが下降する場合を示し、図16(e)は(d)に対応する特徴量の遷移を示し、図16(f)は、(d)に対応するマハラノビス距離の時系列表現を示す図である。集計データが上昇傾向(図16(a))でも下降傾向(図16(d))でも、特徴量で見たときに重心から離れていれば乖離として現われる(図16(b),(e))。これは、マハラノビス距離の時系列グラフでは、両方とも上昇傾向として見える(図16(c),(f))。
しかし、不正アクセスの“検知”においては、上昇傾向時を捉えることが必要であり、マハラノビス距離の上昇が発生した場合に、それが不正アクセス数(この場合では、集計データを意味する。)が増加傾向にあることで初めて、危険な状態であると判断する必要がある。
本実施の形態1では、集計データの上昇/下降の傾向を判断するために、異常検知部104によりマハラノビス距離の上昇が判定された時点で、傾向判定部105は、その時点に該当する集計データが、定常状態の集計データに対して、上昇傾向と下降傾向とのいずれの傾向にあるのかを判定する。すなわち、傾向判定部105は、異常検知部104が定常状態特徴量領域と新規データに対応する特徴量(新規データ特徴量)とのマハラノビス距離が予め設定された閾値を越えると判定した場合に、定常域に対応する所定期間の定常状態の時系列データに対して新規データが上昇傾向にあるかどうかを判定し、上昇傾向にあると判定した場合に、異常が発生したと判定する。例えば、閾値を、定常状態特徴量領域に含まれる各特徴量のマハラノビス距離の最大値に設定しても良い。つまり、定常状態に含まれる特徴量のうちで最も重心から離れている特徴量のマハラノビス距離を閾値とするのである。新規データが上昇傾向にあるかどうかの判定は、具体的には、傾向判定部105は、異常検知部104によりマハラノビス距離の上昇が判定された時点における集計データが定常状態の集計データと比較して大きい値を取っていることで、「集計データが増加傾向にある」、と判定する。逆に、傾向判定部105は、異常検知部104によりマハラノビス距離の上昇が判定された時点における集計データが定常状態の集計データと比較して小さい値を取っていることで、「集計データが下降傾向にある」、と判定する。
「大きい/小さい」の判断の方法として、定常状態の集計データの平均値をμ、分散をσ2とすれば、
傾向判定部105は、
「マハラノビス距離の上昇の判定時点の集計データ>μ」
であれば集計データは上昇と判定し、
「マハラノビス距離の上昇の判定時点の集計データ<μ」
であれば集計データは下降と判定する。
或いは、傾向判定部105は、
「マハラノビス距離の上昇の判定時点の集計データ>μ+2σ」
であれば集計データは上昇と判定し、
「マハラノビス距離の上昇の判定時点の集計データ<μ−2σ」
であれば集計データは下降というように、ばらつきを考慮しても良い。
傾向判定部105は、異常検知部104がマハラノビス距離の乖離を検知した場合に、集計データが上昇傾向であると判断した時点で、不正アクセスの増加を検知した、すなわち、異常と判定する。
傾向判定部105は、
「マハラノビス距離の上昇の判定時点の集計データ>μ」
であれば集計データは上昇と判定し、
「マハラノビス距離の上昇の判定時点の集計データ<μ」
であれば集計データは下降と判定する。
或いは、傾向判定部105は、
「マハラノビス距離の上昇の判定時点の集計データ>μ+2σ」
であれば集計データは上昇と判定し、
「マハラノビス距離の上昇の判定時点の集計データ<μ−2σ」
であれば集計データは下降というように、ばらつきを考慮しても良い。
傾向判定部105は、異常検知部104がマハラノビス距離の乖離を検知した場合に、集計データが上昇傾向であると判断した時点で、不正アクセスの増加を検知した、すなわち、異常と判定する。
本実施の形態1では、PCAの特徴量の乖離にマハラノビス距離を導入した際に自動判定できなかった集計データの増減傾向を、定常状態NWデータ11の平均値・分散と、乖離の判定時の集計データを比較することにより、自動判定することができる。これにより、マハラノビス距離に集計データの上昇傾向を加味して異常の判定をすることができるので、判定精度を向上することができる。
図17は、実施の形態1で説明した動作をまとめたフローチャートである。また、図18は、実施の形態1の異常検知、実施の形態2で説明する収束判定及び実施の形態5,6で説明する定常状態NWデータ領域12、定常状態特徴量領域22の再生成等の処理時点を時系列データに重ねて表した図である。
なお、上記実施の形態1における、図9のステップS4の処理で異常検知部104により定常状態と判定された場合、分析部103は、図9のステップS5において、最も古い集計データ(Tiに該当する集計データ)を削除せずに最も新しい集計データを含めPCAを再実施し、この結果を定常状態定義部107が定常状態特徴量(領域)として扱っても良い。これは昔のデータを忘れることなく定常状態NWデータ領域、定常状態特徴量領域を増やしていくことに相当する。この場合も、ステップS4の処理で異常検知部104により最新の特徴量が定常状態特徴量領域から逸脱が確認された後、定常状態定義部107が、定常状態NWデータ領域を現在の定常状態NWデータ領域に固定する処理は同じでよい。
なお、上記実施の形態1における、図9のステップS4の処理で異常検知部104により定常状態と判定された場合、分析部103は、図9のステップS5において、最も古い集計データ(Tiに該当する集計データ)を削除せずに最も新しい集計データを含めPCAを再実施し、この結果を定常状態定義部107が定常状態特徴量(領域)として扱っても良い。これは昔のデータを忘れることなく定常状態NWデータ領域、定常状態特徴量領域を増やしていくことに相当する。この場合も、ステップS4の処理で異常検知部104により最新の特徴量が定常状態特徴量領域から逸脱が確認された後、定常状態定義部107が、定常状態NWデータ領域を現在の定常状態NWデータ領域に固定する処理は同じでよい。
実施の形態2.
実施の形態2は、収束判定部106による収束判定に関する実施形態である。
実施の形態2は、収束判定部106による収束判定に関する実施形態である。
不正アクセスの増加を検知した時点で、集計データの収束に備え自動的に収束を判定できるようにするため、収束判定部106は、ARMA(Auto Regressive Moving Average)モデルによる分析をマハラノビス距離の時系列データに適用する。図19は、ARMAモデルによる分析をマハラノビス距離の時系列データに適用する場合を示している。
(1)まず、傾向判定部105は、異常検知部104(距離判定部)が定常状態特徴量領域22と新規データ特徴量とのマハラノビス距離が予め設定された閾値を越えると判定した場合に、定常状態特徴量領域202に対応する所定期間の定常状態の時系列データに対して新規データ特徴量に対応する新規データが上昇傾向と下降傾向とのいずれかの傾向にあるかどうかを判定する。
(2)次に、収束判定部106は、傾向判定部105が定常状態特徴量領域22に対応する所定期間の定常状態の時系列データに対して新規データ特徴量に対応する新規データが上昇傾向と下降傾向とのいずれかの傾向にあると判定した場合に、集計部102が生成する時系列データに対応する対応時系列データを新規データ特徴量に対応する新規データよりも後の時刻の所定期間について所定のシミュレーションモデルによって生成し、所定のシミュレーションによって生成した対応時系列データに基づいて、集計部102により生成された時系列データであって新規データ特徴量に対応する新規データよりも後の時刻の時系列データが、定常状態特徴量領域に対応する所定期間の定常状態の時系列データにおける定常状態から新たな定常状態に収束したかどうかを判定する。
(2)次に、収束判定部106は、傾向判定部105が定常状態特徴量領域22に対応する所定期間の定常状態の時系列データに対して新規データ特徴量に対応する新規データが上昇傾向と下降傾向とのいずれかの傾向にあると判定した場合に、集計部102が生成する時系列データに対応する対応時系列データを新規データ特徴量に対応する新規データよりも後の時刻の所定期間について所定のシミュレーションモデルによって生成し、所定のシミュレーションによって生成した対応時系列データに基づいて、集計部102により生成された時系列データであって新規データ特徴量に対応する新規データよりも後の時刻の時系列データが、定常状態特徴量領域に対応する所定期間の定常状態の時系列データにおける定常状態から新たな定常状態に収束したかどうかを判定する。
ARMAモデルは任意の区間での平均と分散が常に同じ様な時系列データの予測に適しているとされる。本実施の形態2では、定常状態(不正アクセスの影響を受けていない)のネットワーク監視データは、ARMAの予測に適したデータであり、不正アクセスの発生時は、これが乱れることによりARMAによる予測に向かない(つまり予測が外れやすい)ことを想定している。この想定に基づけば、特徴量が乖離傾向にある段階、すなわち非定常状態では、マハラノビス距離の時系列データはARMAによる予測値と実測値が一致しないことが多いが、収束し定常状態に近づいた場合は、予測値と実測値の一致が多くなると予想できる。このことを利用して収束を判定する。
不整合の度合いの判断として、単位期間あたり(例:1時間)の不整合の回数が規定値以内(例:2回以内)にある場合に定常状態に収束したとみなせばよい。
収束判定部106による判定方法では、収束の判定を、集計データがある値の幅に収まったことをもって判定する方法が考えられる。しかし、その値と幅を、異常の検知前の時点において設定することは難しい。例えば、プロセス制御などの設備の監視であれば、管理目標値の値と幅が最初から判明している場合もあるが、例えば、不正アクセス数の定点観測の場合は設定できない場合もある。例えば、不正アクセスの増加に対して能動的にブロックを行うことはせず、動向を見守る監視方法があるためである。不正アクセスの監視に限らず、管理目標値は最初から判明していないが収束を判定したい場合はこの方法を適用できる。
図20は、収束判定を説明するための図である。
図20において、縦軸はマハラノビス距離を示し、横軸は時間を示す。
また、「ひし形(◇)」は、元の時系列のマハラノビス距離を示す。
「四角(□)」は、ARMAによる予測値のうちの上限値を示す。
「三角(△)」は、ARMAによる予測値のうちの下限値を示す。
「ばつ(×)」は、ARMAによる予測の当たり、外れを示したものである。
「当たり」の場合を75の位置にプロットし、「外れ」である場合を「0」の位置にプロットした。
「当たり」とは、ある時刻における元の時系列のマハラノビス距離(「ひし形(◇)」)が、その時刻において「四角(□)」(予測値上限)と「三角(△)」(予測値下限)との間に存在する場合をいう。
「外れ」とは、ある時刻における元の時系列のマハラノビス距離(「ひし形(◇)」)が、その時刻において「四角(□)」と「三角(△)」との間に存在しない場合をいう。元の時系列のマハラノビス距離(「ひし形(◇)」)が収束するにつれ、「ばつ(×)」は75に位置することが多くなる。収束判定においては、収束先の値(この場合は、結果として12前後である)は、予め知ることはできない。“当たり”ばかりが多くなることにより、収束したとわかる。このように収束判定部106は、“当たり”ばかりが多くなったことを収束の判定として利用する。
図20において、縦軸はマハラノビス距離を示し、横軸は時間を示す。
また、「ひし形(◇)」は、元の時系列のマハラノビス距離を示す。
「四角(□)」は、ARMAによる予測値のうちの上限値を示す。
「三角(△)」は、ARMAによる予測値のうちの下限値を示す。
「ばつ(×)」は、ARMAによる予測の当たり、外れを示したものである。
「当たり」の場合を75の位置にプロットし、「外れ」である場合を「0」の位置にプロットした。
「当たり」とは、ある時刻における元の時系列のマハラノビス距離(「ひし形(◇)」)が、その時刻において「四角(□)」(予測値上限)と「三角(△)」(予測値下限)との間に存在する場合をいう。
「外れ」とは、ある時刻における元の時系列のマハラノビス距離(「ひし形(◇)」)が、その時刻において「四角(□)」と「三角(△)」との間に存在しない場合をいう。元の時系列のマハラノビス距離(「ひし形(◇)」)が収束するにつれ、「ばつ(×)」は75に位置することが多くなる。収束判定においては、収束先の値(この場合は、結果として12前後である)は、予め知ることはできない。“当たり”ばかりが多くなることにより、収束したとわかる。このように収束判定部106は、“当たり”ばかりが多くなったことを収束の判定として利用する。
本実施の形態2では、マハラノビス距離の収束を特徴量の分布の収束と判断する。さらに、特徴量は元の時系列データを元に計算した時系列データの特長を示す指標であるから、実データも収束したと判断することができる。
このように、ARMAモデルを用いることにより、最終的に実データの収束を自動で判断できる。
また、マハラノビス距離の収束の結果、集計データが前回の定常状態NWデータ領域12に対して高めで収束したのか、低めで収束したのか知りたい場合があるが、その場合は、傾向判定部105が実施の形態1と同じ処理を行い、収束時点の集計データの値と、前回の定常状態NWデータ11の平均値とを比較する(或いは分散も考慮)ことにより、判断することができる。
本実施の形態2では、定常的なデータの予測に適している時系列分析方法としてARMAを利用する方法を挙げたが、他の定常的なデータの予測に適した分析方法に置き換えても良い。その場合も、予測と実測の誤差の頻度を、収束の判定の基準に利用する。
また、本実施の形態2では、収束判定部106が、シミュレーションモデルによりマハラノビス距離をシミュレーションしたが、元の時系列データ自体をシミュレーションすることにより、収束を判定しても構わない。
本実施の形態2によれば、収束判定部106は、マハラノビス距離に対するARMAモデルによる時系列分析を行うことで、特徴量の収束を判定し、さらに、時系列データの収束を判定する。このように、ARMAモデルによる時系列データの分析を応用することにより、収束先の値を最初から設定しなくとも、予測と実測の当たり外れの頻度をもとに、収束を判定することができる。
実施の形態3.
実施の形態2では、特徴量の乖離について、マハラノビス距離で検知した。この場合の特徴量は、PC1とPC2という2つ以上であることを想定している。つまり、ある時点の特徴量は複数のPC(PC1〜PCn:n=1,2,3、・・・)で表されるが、複数の特徴量について、定常状態特徴量領域22の重心からの距離をマハラノビス距離として求め、検知に利用している。
実施の形態2では、特徴量の乖離について、マハラノビス距離で検知した。この場合の特徴量は、PC1とPC2という2つ以上であることを想定している。つまり、ある時点の特徴量は複数のPC(PC1〜PCn:n=1,2,3、・・・)で表されるが、複数の特徴量について、定常状態特徴量領域22の重心からの距離をマハラノビス距離として求め、検知に利用している。
そこで、乖離は“複数の主成分に対して計算されたマハラノビス距離”で検知するとともに、収束は“時系列データの動向を最も良く表すPC1のマハラノビス距離(対応時系列データの一例)、或いはPC2のマハラノビス距離(対応時系列データの一例)”の様に、低時のPC成分各々のマハラノビス距離について調べるという方法でも良い。
例えば、乖離の検知に用いるマハラノビス距離は、PC1〜PC5全体(5次元の特徴量)を用いる。これに対して、収束の検知に用いるマハラノビス距離は、PC1(一次元の特徴量)のみを用いる。元々検知を行うためのPCAの計算対象が、時系列データをウィンドウで規則的に切り取り、その切り取ったデータの形を良く表す特徴量に変換している。そして、その特徴量のPC1,PC2等の低次元のPC成分は、PCAの計算の目的から、そのデータの形の概略データといってよい。従って、低次元のPC成分のマハラノビス距離の収束をARMA等の時系列分析で把握できた場合、元の時系列データが収束している可能性が高い。本実施の形態3は、PCAの低次元のPC成分の持つ意味を収束の判定に利用したものである。
本実施の形態3によれば、検知は、より多くの主成分を使うことにより情報量をできるだけ落とさないで行うことで精度を維持し、収束は、全体の動きを代表する低次の主成分を使うことをもって、収束の判定を効率化することができる。
実施の形態4.
実施の形態3の派生として、検知は同じとし、収束判定部106による収束判定は、時系列データの動向を最も良く表すPC1、或いはPC1とPC2の様に低時のPC成分各々について調べるという方法でも良い。これは、マハラノビス距離にARMAを適用して収束を判定する実施の形態3とは異なる。すなわち、実施の形態4は、PC1等のマハラノビス距離に基づき収束を判定するのではない。つまり、PC1の時系列データそのもの(対応時系列データの一例)についてARMAによる予測を行い、予測値と実測値の一致の増加をもって、収束と判定する実施形態である。或いは、PC1、PC2の各々の時系列データについて各々ARMAによる予測を行い、両方の予測値と実測値との一致が増加をもって、収束と判定する。予測値と実測値との一致とは、実施の形態2の場合と同様である。低次元のPC成分は、PCAの計算の目的から、そのデータの形の概略データといってよい。従って、低次元のPC成分の収束をARMA等の時系列分析で把握できた場合、元の時系列データが収束している可能性が高い。本実施の形態4は、PCAの低次元のPC成分の持つ意味を利用したものである。
実施の形態3の派生として、検知は同じとし、収束判定部106による収束判定は、時系列データの動向を最も良く表すPC1、或いはPC1とPC2の様に低時のPC成分各々について調べるという方法でも良い。これは、マハラノビス距離にARMAを適用して収束を判定する実施の形態3とは異なる。すなわち、実施の形態4は、PC1等のマハラノビス距離に基づき収束を判定するのではない。つまり、PC1の時系列データそのもの(対応時系列データの一例)についてARMAによる予測を行い、予測値と実測値の一致の増加をもって、収束と判定する実施形態である。或いは、PC1、PC2の各々の時系列データについて各々ARMAによる予測を行い、両方の予測値と実測値との一致が増加をもって、収束と判定する。予測値と実測値との一致とは、実施の形態2の場合と同様である。低次元のPC成分は、PCAの計算の目的から、そのデータの形の概略データといってよい。従って、低次元のPC成分の収束をARMA等の時系列分析で把握できた場合、元の時系列データが収束している可能性が高い。本実施の形態4は、PCAの低次元のPC成分の持つ意味を利用したものである。
また、主成分得点の収束の結果、集計データが前回の定常状態NWデータ領域12に対して高めで収束したのか、低めで収束したのか知りたい場合があるが、その場合は、傾向判定部105が実施の形態1と同じ処理を行い、収束時点の集計データの値と、前回の定常状態NWデータ11の平均値とを比較する(或いは分散も考慮)ことにより、判断できる。
実施の形態5.
次に実施の形態5を説明する。実施の形態5では、収束判定部106による収束判定後の不正アクセスの検知再開において、定常状態再定義部108(擬似データ生成部の一例)が新しく定常域を定義する動作を説明する。以下に説明する、擬似的な定常状態NWデータ11の生成・再定義の動作は、定常状態再定義部108が実行する動作である。
次に実施の形態5を説明する。実施の形態5では、収束判定部106による収束判定後の不正アクセスの検知再開において、定常状態再定義部108(擬似データ生成部の一例)が新しく定常域を定義する動作を説明する。以下に説明する、擬似的な定常状態NWデータ11の生成・再定義の動作は、定常状態再定義部108が実行する動作である。
(1)定常状態再定義部108は、過去の定常状態NWデータ領域12の集計データの傾向を、収束時点付近の集計データに反映させ、新しい定常状態NWデータ領域12のデータ(擬似定常状態データ)を必要なぶん生成する点が特徴である(後述の方法(a))。
(2)また、定常状態再定義部108は、収束時点付近の集計データの傾向を把握し、新しい定常状態NWデータ領域12のデータ(擬似定常状態データ)を必要な分生成する点が特徴である(後述の方法(b))。
(2)また、定常状態再定義部108は、収束時点付近の集計データの傾向を把握し、新しい定常状態NWデータ領域12のデータ(擬似定常状態データ)を必要な分生成する点が特徴である(後述の方法(b))。
新しい定常状態NWデータ領域12の開始時点が定義された後(つまり、収束が判定された後)、次の不正アクセスの検知のために、新しい定常状態NWデータ領域12のデータ(定常状態NWデータ11)を用意する必要がある。図13のステップS8の様に、傾向判定部105による異常検知後の特徴量が元の定常状態特徴量領域22の特徴量の群(領域1)に戻った場合は、直前の定常状態NWデータ領域12
のデータ(定常状態NWデータ11)をそのまま使用する。
元の定常状態特徴量領域22の特徴量の群(領域1)に戻ったかどうかは、例えば、次のように判定する。異常検知部104(距離判定部)は、収束判定部106が定常状態特徴量領域22に対応する所定期間の定常状態の時系列データにおける定常状態から新たな定常状態に収束したと判定した場合に、収束判定部106により収束したと判定された新たな定常状態に含まれる時系列データに対応する特徴量と元の定常状態特徴量領域22とのマハラノビス距離を算出し、算出したマハラノビス距離が予め定められた所定の閾値を越えるかどうかを判定する。これにより、元の定常状態特徴量領域22の特徴量の群(領域1)に戻ったかどうかを判定する。そして、定常状態再定義部108は、異常検知部104がマハラノビス距離が予め定められた所定の閾値を越えると判定した場合に、擬似的な定常状態NWデータ11(擬似定常状態データ)を生成し、生成した擬似的な定常状態NWデータ11に対して主成分分析を用いることにより擬似的な定常状態特徴量を生成し、生成した擬似的な定常状態特徴量から擬似的な定常状態特徴量領域を生成する。そして、異常検知部104部は、定常状態再定義部108が擬似的な定常状態特徴量領域を生成した場合に、この擬似的な定常状態特徴量領域を定常状態特徴領域に代えて、処理を継続する。
のデータ(定常状態NWデータ11)をそのまま使用する。
元の定常状態特徴量領域22の特徴量の群(領域1)に戻ったかどうかは、例えば、次のように判定する。異常検知部104(距離判定部)は、収束判定部106が定常状態特徴量領域22に対応する所定期間の定常状態の時系列データにおける定常状態から新たな定常状態に収束したと判定した場合に、収束判定部106により収束したと判定された新たな定常状態に含まれる時系列データに対応する特徴量と元の定常状態特徴量領域22とのマハラノビス距離を算出し、算出したマハラノビス距離が予め定められた所定の閾値を越えるかどうかを判定する。これにより、元の定常状態特徴量領域22の特徴量の群(領域1)に戻ったかどうかを判定する。そして、定常状態再定義部108は、異常検知部104がマハラノビス距離が予め定められた所定の閾値を越えると判定した場合に、擬似的な定常状態NWデータ11(擬似定常状態データ)を生成し、生成した擬似的な定常状態NWデータ11に対して主成分分析を用いることにより擬似的な定常状態特徴量を生成し、生成した擬似的な定常状態特徴量から擬似的な定常状態特徴量領域を生成する。そして、異常検知部104部は、定常状態再定義部108が擬似的な定常状態特徴量領域を生成した場合に、この擬似的な定常状態特徴量領域を定常状態特徴領域に代えて、処理を継続する。
しかし、図14の様に特徴量が別の群(領域2)を形成した場合は元の定常域のデータはそのままでは使用できない。新しい定常状態NWデータ領域12のデータが必要である。何故ならば、元の定常状態特徴量領域22(領域1)に該当する定常状態NWデータ領域12のデータをそのまま使用して分析してしまうと、領域2の特徴量は全て領域1から乖離しているため、常にマハラノビス距離が乖離していると判定されてしまうためである。
しかし、収束が判定されてから以降、図8のステップS1で示した一定期間(n時間)のデータを定常状態NWデータ領域12のデータとして集めなおしたのでは、集めている間に新しい不正アクセスが発生しても検知できない。そこで、定常状態再定義部108が、以下の手法により擬似的な定常状態NWデータ11(擬似定常状態データ)を生成し、そして、領域2に相当する擬似的な定常状態特徴量領域22を再定義する。上記のように、定常状態NWデータ11、定常状態NWデータ領域12及び定常状態特徴量21、定常状態特徴量領域22の生成・再定義は、定常状態再定義部108が実行する。
定常状態再定義部108が再定義を行った後は、実施の形態1において説明したように、定常状態NWデータ領域12と定常状態特徴量領域22とが、定常状態定義部107により定義された後の処理に同じとなる。
(方法(a))
定常状態再定義部108は、「新しい定常状態NWデータ領域12の開始付近の集計データ」と「過去の定常状態NWデータ11の傾向」を加味し擬似的な定常状態NWデータ11をn時間(図21の定常域の期間)ぶん生成し、新しい定常状態NWデータ11として利用する。ここでの、定常状態NWデータ11とは、定常状態NWデータ領域12における“集計データ”のことである。具体的には、図21において、定常状態再定義部108は、定常状態NWデータ11の平均μと分散σ2を計算する。また、定常状態再定義部108は、収束時点からm時間遡った集計データの平均値μ’を計算する。そして、定常状態再定義部108は、平均μ’、分散σ2の正規分布データをn時間分生成する。そして、不正アクセス検知装置100は、定常状態再定義部108が生成したデータを新しい定常状態NWデータ11として検知を再開する。
但し、m<nとする。mは大きく取りすぎると収束途中の集計データも捉えてしまうため、短時間とする。この方法に基づけば、収束が判定されてから即、検知を再開可能である。
或いは、以下の方法でも良い。
定常状態再定義部108は、定常状態NWデータ11の平均μと分散σ2を計算する。そして、定常状態再定義部108は、収束時点からm時間、集計データを蓄え、平均値μ’を計算する。定常状態再定義部108は、平均μ’、分散σ2の正規分布データをn時間分生成する。そして、不正アクセス検知装置100は、定常状態再定義部108が生成したデータを新しい定常状態NWデータ11として検知を再開する。この場合は、収束判定後のデータを使用するため、収束途中の集計データを使用することは無い。但し、mを大きく取りすぎると、検知の開始が遅れるため、短時間とする。
或いは、上記2つの方法を併せ、収束時点を基点に、m’時間遡ったデータとm’時間待機し蓄えたデータの平均値を元に、分散σ2の正規分布データをn時間分生成する方法でも良い。
この場合、m’<m
であり、
例えば、m’=m/2とする。
定常状態再定義部108は、「新しい定常状態NWデータ領域12の開始付近の集計データ」と「過去の定常状態NWデータ11の傾向」を加味し擬似的な定常状態NWデータ11をn時間(図21の定常域の期間)ぶん生成し、新しい定常状態NWデータ11として利用する。ここでの、定常状態NWデータ11とは、定常状態NWデータ領域12における“集計データ”のことである。具体的には、図21において、定常状態再定義部108は、定常状態NWデータ11の平均μと分散σ2を計算する。また、定常状態再定義部108は、収束時点からm時間遡った集計データの平均値μ’を計算する。そして、定常状態再定義部108は、平均μ’、分散σ2の正規分布データをn時間分生成する。そして、不正アクセス検知装置100は、定常状態再定義部108が生成したデータを新しい定常状態NWデータ11として検知を再開する。
但し、m<nとする。mは大きく取りすぎると収束途中の集計データも捉えてしまうため、短時間とする。この方法に基づけば、収束が判定されてから即、検知を再開可能である。
或いは、以下の方法でも良い。
定常状態再定義部108は、定常状態NWデータ11の平均μと分散σ2を計算する。そして、定常状態再定義部108は、収束時点からm時間、集計データを蓄え、平均値μ’を計算する。定常状態再定義部108は、平均μ’、分散σ2の正規分布データをn時間分生成する。そして、不正アクセス検知装置100は、定常状態再定義部108が生成したデータを新しい定常状態NWデータ11として検知を再開する。この場合は、収束判定後のデータを使用するため、収束途中の集計データを使用することは無い。但し、mを大きく取りすぎると、検知の開始が遅れるため、短時間とする。
或いは、上記2つの方法を併せ、収束時点を基点に、m’時間遡ったデータとm’時間待機し蓄えたデータの平均値を元に、分散σ2の正規分布データをn時間分生成する方法でも良い。
この場合、m’<m
であり、
例えば、m’=m/2とする。
(方法(b))
「新しい定常状態NWデータ領域12の開始付近の集計データ」と同じ傾向の擬似的な定常状態NWデータ11をn時間分生成し、新しい定常状態NWデータ11として利用する。具体的には、図22において、定常状態再定義部108は、収束時点からm時間遡った集計データの平均値μ’と分散σ’2を計算し、平均μ’、分散σ’2の正規分布データをn時間分生成する。そして、不正アクセス検知装置100は、定常状態再定義部108が生成したデータを新しい定常状態NWデータ11として検知を再開する。方法(a)と同様に、収束時点からm時間のデータを蓄え、このデータと同じ平均と分散を持つn時間ぶんのデータを生成する方法でもよい。あるいは、収束時点の前後m’時間のデータを蓄え、このデータと同じ平均と分散を持つn時間ぶんのデータを生成する方法でも良い。この方法の場合、収束時点付近のデータに基づいた擬似的な定常状態NWデータ11であるため、方式(a)よりは実際のデータに近い擬似データが生成できる可能性がある。
「新しい定常状態NWデータ領域12の開始付近の集計データ」と同じ傾向の擬似的な定常状態NWデータ11をn時間分生成し、新しい定常状態NWデータ11として利用する。具体的には、図22において、定常状態再定義部108は、収束時点からm時間遡った集計データの平均値μ’と分散σ’2を計算し、平均μ’、分散σ’2の正規分布データをn時間分生成する。そして、不正アクセス検知装置100は、定常状態再定義部108が生成したデータを新しい定常状態NWデータ11として検知を再開する。方法(a)と同様に、収束時点からm時間のデータを蓄え、このデータと同じ平均と分散を持つn時間ぶんのデータを生成する方法でもよい。あるいは、収束時点の前後m’時間のデータを蓄え、このデータと同じ平均と分散を持つn時間ぶんのデータを生成する方法でも良い。この方法の場合、収束時点付近のデータに基づいた擬似的な定常状態NWデータ11であるため、方式(a)よりは実際のデータに近い擬似データが生成できる可能性がある。
なお、方式(a)、(b)共に、定常状態NWデータ11の再定義後は、図9の処理に従う。従って、集計時間がくる度に、定常状態NWデータ11は、新しい実際の集計データが取り込まれ、最古の擬似のデータは削除される。n時間の間に新しい検知が起こらなかった場合は、n時間が経過した時点で全て実際の集計データに置き換わる。
或いは、現在の観測データを、擬似的な定常状態NWデータ11のランダムな位置のものと交換し、他のランダムな位置のデータを削除する方法でも良い。
n時間が経過する前に、改めて検知が発生する場合がある。その場合の処理は、ステップS7以降、及び該当する実施の形態1の処理に従う。
つまり、収束後、定常状態NWデータ11を再定義した後の処理は、図9〜図11、図13(実施の形態1)と同じである。
上記の例では、定常状態NWデータ11を正規分布と仮定して正規分布に従うデータを生成したが、予め定常状態NWデータ11の分布が分かっている場合は、その分布に従っても良い。正確に、検知前の定常状態NWデータ11と同じ傾向を再現したいのであれば、分布モデルを推定・検定し、それに従えばよい。
本実施の形態5によれば、不正アクセスの収束の判定後、定常状態NWデータ領域12の再定義時に、過去の定常状態NWデータ領域12の集計データと収束時の集計データを併用するか、或いは収束時の集計データのみから、擬似データを定常状態NWデータ11として必要な分量生成することで、検知の再開を迅速に行うことができる。また、擬似データは集計時間毎に実集計データと置き換わるので、時間がたつに現在のデータに基づいた検知に近づく。なお、前記のように、図9のステップS5において、最も古い集計データを削除せずに最も新しい集計データを含めPCAを再実施し、この結果を定常状態定義部107が定常状態NWデータ11として扱う場合の処理は、以下の2通りであってよい。収束の判定後の処理においてのみ、上述の様に、擬似データを集計時間毎に実集計データと置き換える。全て或いは予め定めた量の擬似データが、実集計データに置き換わった時点で、最も古い集計データを削除せずに最も新しい集計データを含める処理に戻す。収束の判定後の処理においても、最も古い集計データを削除せずに最も新しい集計データを含める処理を継続する。
以上のように、元の定常状態特徴量領域22の特徴量の群(領域1)に戻ったかどうかは、異常検知部104(距離判定部)が、収束判定部106が定常状態特徴量領域22に対応する所定期間の定常状態の時系列データにおける定常状態から新たな定常状態に収束したと判定した場合に、収束判定部106により収束したと判定された新たな定常状態に含まれる時系列データに対応する特徴量と元の定常状態特徴量領域22とのマハラノビス距離を算出し、算出したマハラノビス距離が予め定められた所定の閾値を越えるかどうかを判定する。これにより、元の定常状態特徴量領域22の特徴量の群(領域1)に戻ったかどうかを判定する。そして、定常状態再定義部108は、異常検知部104がマハラノビス距離が予め定められた所定の閾値を越えると判定した場合に、擬似的な定常状態NWデータ11(擬似定常状態データ)を生成し、生成した擬似的な定常状態NWデータ11に対して主成分分析を用いることにより擬似的な定常状態特徴量を生成し、生成した擬似的な定常状態特徴量から擬似的な定常状態特徴量領域を生成する。そして、異常検知部104部は、定常状態再定義部108が擬似的な定常状態特徴量領域を生成した場合に、この擬似的な定常状態特徴量領域を定常状態特徴領域に代えて、処理を継続する。
以上のように、元の定常状態特徴量領域22の特徴量の群(領域1)に戻ったかどうかは、異常検知部104(距離判定部)が、収束判定部106が定常状態特徴量領域22に対応する所定期間の定常状態の時系列データにおける定常状態から新たな定常状態に収束したと判定した場合に、収束判定部106により収束したと判定された新たな定常状態に含まれる時系列データに対応する特徴量と元の定常状態特徴量領域22とのマハラノビス距離を算出し、算出したマハラノビス距離が予め定められた所定の閾値を越えるかどうかを判定する。これにより、元の定常状態特徴量領域22の特徴量の群(領域1)に戻ったかどうかを判定する。そして、定常状態再定義部108は、異常検知部104がマハラノビス距離が予め定められた所定の閾値を越えると判定した場合に、擬似的な定常状態NWデータ11(擬似定常状態データ)を生成し、生成した擬似的な定常状態NWデータ11に対して主成分分析を用いることにより擬似的な定常状態特徴量を生成し、生成した擬似的な定常状態特徴量から擬似的な定常状態特徴量領域を生成する。そして、異常検知部104部は、定常状態再定義部108が擬似的な定常状態特徴量領域を生成した場合に、この擬似的な定常状態特徴量領域を定常状態特徴領域に代えて、処理を継続する。
実施の形態6.
実施の形態6は、実施の形態2でのべたようにARMA等の時系列データの予測値が観測値と一致する傾向の増加を定常状態への収束と判断することに対応して、その予測方法に基づき、定常状態再定義部108が、定常状態NWデータ11の将来値も予測(計算)してしまい、擬似定常データを生成する場合を説明する。
実施の形態6は、実施の形態2でのべたようにARMA等の時系列データの予測値が観測値と一致する傾向の増加を定常状態への収束と判断することに対応して、その予測方法に基づき、定常状態再定義部108が、定常状態NWデータ11の将来値も予測(計算)してしまい、擬似定常データを生成する場合を説明する。
収束の判定にARMAを利用しているが、収束時のデータの傾向としてARMAによる予測が適合しているわけであるから、この予測を未来に渡り予め行い、擬似定常データとして利用する。
実施の形態2、3は、収束の判定に、マハラノビス距離にARMAを適用したが、この収束をもって、特徴量の収束とみなし、さらに集計データの収束とみなしている。そこで、収束時点前の集計データにARMAを適用し、n時間分の予測値を生成する。
実施の形態4では、収束の判定に主成分得点にARMAを適用した。この収束をもって、集計データの収束とみなしている。そこで、収束時点前の集計データにARMAを適用し、n時間分の予測値を生成する。
また、以下の方法でも良い。実施の形態4において、収束の判定に主成分得点にARMAを適用しているので、収束判定後も、主成分得点の予測値をさらに求め、その主成分得点の予測値からもとの集計データを合成する。これは擬似的な集計データとなる。
例えば、PC1とPC2を別々にARMAを適用し収束を判定している場合、
PC1における収束付近の予測値を用いて、n時間分の予測値を求め、
PC2における収束付近の予測値を用いて、n時間分の予測値を求める。
そして、定常状態再定義部108は、最後にPC1の予測値とPC2の予測値から、元の集計データを合成する。これは擬似的な集計データであるので、新しい定常状態NWデータ領域12の集計データとして利用する。
PC1における収束付近の予測値を用いて、n時間分の予測値を求め、
PC2における収束付近の予測値を用いて、n時間分の予測値を求める。
そして、定常状態再定義部108は、最後にPC1の予測値とPC2の予測値から、元の集計データを合成する。これは擬似的な集計データであるので、新しい定常状態NWデータ領域12の集計データとして利用する。
主成分得点から元のデータを合成する方法は、既存の技術である。例えば以下のWeb上で検索された文献(pdf)に記載されおり、主成分を求める過程で得られる計算結果を利用することで実現できる。
(Web上で検索された検索された文献)
「初心者向けテキスト 主成分分析 京都大学大学院工学研究科化学工学専攻 プロセスシステム工学研究室 加納 学、「データの再構築」の節」(http://www−pse.cheme.kyoto−u.ac.jp/〜kano/document/text−PCA.pdf:2006年10月9日検索)」
上記の実施の形態では、定常域からの特徴量の乖離をマハラノビス距離で判断する例を挙げたが、判断方式を他の適切な離れ具合を測る方式に置き換え、マハラノビス距離をその方式における離れ具合を示す数値に置き換えても良い。
(Web上で検索された検索された文献)
「初心者向けテキスト 主成分分析 京都大学大学院工学研究科化学工学専攻 プロセスシステム工学研究室 加納 学、「データの再構築」の節」(http://www−pse.cheme.kyoto−u.ac.jp/〜kano/document/text−PCA.pdf:2006年10月9日検索)」
上記の実施の形態では、定常域からの特徴量の乖離をマハラノビス距離で判断する例を挙げたが、判断方式を他の適切な離れ具合を測る方式に置き換え、マハラノビス距離をその方式における離れ具合を示す数値に置き換えても良い。
11 定常状態NWデータ、12 定常状態NWデータ領域、21 定常状態特徴量、22 定常状態特徴量領域、100 不正アクセス検知装置、101 データ取得部、102 集計部、103 分析部、104 異常検知部、105 傾向判定部、106 収束判定部、107 定常状態定義部、108 定常状態再定義部、150 ログ、151 集計データ、810 CPU、811 ROM、812 RAM、816 通信ボード、820 磁気ディスク装置、821 OS、823 プログラム群、824 ファイル群、825 バス。
Claims (6)
- ネットワークのログを取得するログ取得部と、
前記ログ取得部が取得したログから時系列データを生成する時系列データ生成部と、
特徴量を抽出する主成分分析を用いることにより、前記時系列データ生成部が生成した時系列データから所定期間の定常状態の時系列データに対応する特徴量である定常状態特徴量を複数抽出するとともに定常状態特徴量が複数抽出された所定期間の定常状態の時系列データよりも後の時刻の時系列データである新規データに対応する特徴量である新規データ特徴量を抽出する分析部と、
前記分析部が抽出した複数の定常状態特徴量に基づいて、複数の定常状態特徴量が分布する定常状態特徴量領域を定義する定常状態定義部と、
前記定常状態定義部が定義した定常状態特徴量領域と、新規データ特徴量とのマハラノビス距離が予め設定された閾値を越えるかどうかを判定する距離判定部と、
前記距離判定部が定常状態特徴量領域と新規データ特徴量とのマハラノビス距離が予め設定された閾値を越えると判定した場合に、定常状態特徴量領域に対応する所定期間の定常状態の時系列データに対して新規データ特徴量に対応する新規データが上昇傾向にあるかどうかを判定し、上昇傾向にあると判定した場合に、異常が発生したと判定する傾向判定部と
を備えたことを特徴とするネットワーク異常判定装置。 - 前記傾向判定部は、
前記距離判定部が定常状態特徴量領域と新規データ特徴量とのマハラノビス距離が予め設定された閾値を越えると判定した場合に、定常状態特徴量領域に対応する所定期間の定常状態の時系列データに対して新規データ特徴量に対応する新規データが上昇傾向と下降傾向とのいずれかの傾向にあるかどうかを判定し、
前記ネットワーク異常判定装置は、さらに、
前記傾向判定部が定常状態特徴量領域に対応する所定期間の定常状態の時系列データに対して新規データ特徴量に対応する新規データが上昇傾向と下降傾向とのいずれかの傾向にあると判定した場合に、前記時系列データ生成部が生成する時系列データに対応する対応時系列データを新規データ特徴量に対応する新規データよりも後の時刻の所定期間について所定のシミュレーションモデルによって生成し、所定のシミュレーションによって生成した対応時系列データに基づいて、前記時系列データ生成部により生成された時系列データであって新規データ特徴量に対応する新規データよりも後の時刻の時系列データが、定常状態特徴量領域に対応する所定期間の定常状態の時系列データにおける定常状態から新たな定常状態に収束したかどうかを判定する収束判定部を
備えたことを特徴とする請求項1記載のネットワーク異常判定装置。 - 前記収束判定部は、
対応時系列データとして、定常状態特徴量領域と新規データよりも後の時刻の時系列データに対応する特徴量とのマハラノビス距離を生成することを特徴とする請求項2記載のネットワーク異常判定装置。 - 前記収束判定部は、
対応時系列データとして、前記時系列データ生成部が生成する時系列データと同一の種別の時系列データであって新規データ特徴量に対応する新規データよりも後の時刻の時系列データを生成することを特徴とする請求項2記載のネットワーク異常判定装置。 - 前記収束判定部は、
所定のシミュレーションモデルとして、ARMA(Auto Regressive Moving Average)モデルを使用することを特徴とする請求項3または4のいずれかに記載のネットワーク異常判定装置。 - 前記距離判定部は、
前記収束判定部が定常状態特徴量領域に対応する所定期間の定常状態の時系列データにおける定常状態から新たな定常状態に収束したと判定した場合に、前記収束判定部により収束したと判定された新たな定常状態に含まれる時系列データに対応する特徴量と定常状態特徴量領域とのマハラノビス距離を算出し、算出したマハラノビス距離が予め定められた所定の閾値を越えるかどうかを判定し、
前記ネットワーク異常判定装置は、さらに、
前記距離判定部がマハラノビス距離が予め定められた所定の閾値を越えると判定した場合に、擬似的な定常状態の時系列データである擬似定常状態データを生成し、生成した擬似定常状態データに対して主成分分析を用いることにより擬似的な定常状態特徴量を生成し、生成した擬似的な定常状態特徴量から擬似的な定常状態特徴量領域を生成する擬似データ生成部を備え、
前記距離判定部は、
前記擬似データ生成部が擬似的な定常状態特徴量領域を生成した場合に、前記擬似データ生成部が生成した擬似的な定常状態特徴量領域を定常状態特徴領域に代えて、処理を継続することを特徴とする請求項2記載のネットワーク異常判定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006329574A JP2008146157A (ja) | 2006-12-06 | 2006-12-06 | ネットワーク異常判定装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006329574A JP2008146157A (ja) | 2006-12-06 | 2006-12-06 | ネットワーク異常判定装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008146157A true JP2008146157A (ja) | 2008-06-26 |
Family
ID=39606306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006329574A Pending JP2008146157A (ja) | 2006-12-06 | 2006-12-06 | ネットワーク異常判定装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008146157A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010152431A (ja) * | 2008-12-24 | 2010-07-08 | Mitsubishi Electric Corp | 不正アクセス検知装置及び不正アクセス検知プログラム及び記録媒体及び不正アクセス検知方法 |
JP2014232923A (ja) * | 2013-05-28 | 2014-12-11 | 日本電気株式会社 | 通信装置、サイバー攻撃検出方法、及びプログラム |
CN104731972A (zh) * | 2015-04-13 | 2015-06-24 | 苏州大学张家港工业技术研究院 | 一种时间序列分类方法和装置 |
JP2016181265A (ja) * | 2012-05-01 | 2016-10-13 | ターセーラ, インコーポレイテッド | 動的証明に基づいてモバイルセキュリティを提供するためのシステムおよび方法 |
JP2019208199A (ja) * | 2018-03-30 | 2019-12-05 | インテル・コーポレーション | コントローラエリアネットワークにおける異常検出 |
WO2020090146A1 (ja) | 2018-01-12 | 2020-05-07 | パナソニックIpマネジメント株式会社 | 車両用システム及び制御方法 |
CN111727366A (zh) * | 2017-12-19 | 2020-09-29 | 株式会社日立高新技术 | 信号处理装置和信号处理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002344447A (ja) * | 2001-05-17 | 2002-11-29 | Fujitsu Ltd | トラフィック変動要因分析装置およびトラフィック変動要因分析用プログラム |
JP2003241989A (ja) * | 2002-02-15 | 2003-08-29 | Toshiba Corp | コンピュータウイルス発生検出装置、方法、およびプログラム |
JP2004186878A (ja) * | 2002-12-02 | 2004-07-02 | Keyware Solutions Inc | 侵入検知装置及び侵入検知プログラム |
JP2004312064A (ja) * | 2003-02-21 | 2004-11-04 | Intelligent Cosmos Research Institute | ネットワーク異常検出装置、ネットワーク異常検出方法およびネットワーク異常検出プログラム |
JP2005250802A (ja) * | 2004-03-03 | 2005-09-15 | Toshiba Solutions Corp | 不正アクセス検出装置及び不正アクセス検出プログラム |
JP2007295056A (ja) * | 2006-04-21 | 2007-11-08 | Mitsubishi Electric Corp | ネットワーク状態判定装置及びネットワーク状態判定方法及びネットワーク状態判定プログラム |
-
2006
- 2006-12-06 JP JP2006329574A patent/JP2008146157A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002344447A (ja) * | 2001-05-17 | 2002-11-29 | Fujitsu Ltd | トラフィック変動要因分析装置およびトラフィック変動要因分析用プログラム |
JP2003241989A (ja) * | 2002-02-15 | 2003-08-29 | Toshiba Corp | コンピュータウイルス発生検出装置、方法、およびプログラム |
JP2004186878A (ja) * | 2002-12-02 | 2004-07-02 | Keyware Solutions Inc | 侵入検知装置及び侵入検知プログラム |
JP2004312064A (ja) * | 2003-02-21 | 2004-11-04 | Intelligent Cosmos Research Institute | ネットワーク異常検出装置、ネットワーク異常検出方法およびネットワーク異常検出プログラム |
JP2005250802A (ja) * | 2004-03-03 | 2005-09-15 | Toshiba Solutions Corp | 不正アクセス検出装置及び不正アクセス検出プログラム |
JP2007295056A (ja) * | 2006-04-21 | 2007-11-08 | Mitsubishi Electric Corp | ネットワーク状態判定装置及びネットワーク状態判定方法及びネットワーク状態判定プログラム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010152431A (ja) * | 2008-12-24 | 2010-07-08 | Mitsubishi Electric Corp | 不正アクセス検知装置及び不正アクセス検知プログラム及び記録媒体及び不正アクセス検知方法 |
JP2016181265A (ja) * | 2012-05-01 | 2016-10-13 | ターセーラ, インコーポレイテッド | 動的証明に基づいてモバイルセキュリティを提供するためのシステムおよび方法 |
JP2014232923A (ja) * | 2013-05-28 | 2014-12-11 | 日本電気株式会社 | 通信装置、サイバー攻撃検出方法、及びプログラム |
CN104731972A (zh) * | 2015-04-13 | 2015-06-24 | 苏州大学张家港工业技术研究院 | 一种时间序列分类方法和装置 |
CN111727366A (zh) * | 2017-12-19 | 2020-09-29 | 株式会社日立高新技术 | 信号处理装置和信号处理方法 |
CN111727366B (zh) * | 2017-12-19 | 2023-06-27 | 株式会社日立高新技术 | 信号处理装置和信号处理方法 |
WO2020090146A1 (ja) | 2018-01-12 | 2020-05-07 | パナソニックIpマネジメント株式会社 | 車両用システム及び制御方法 |
JP2019208199A (ja) * | 2018-03-30 | 2019-12-05 | インテル・コーポレーション | コントローラエリアネットワークにおける異常検出 |
JP7327883B2 (ja) | 2018-03-30 | 2023-08-16 | インテル・コーポレーション | コンピューティング装置、コンピュータプログラム、及び、コンピュータ可読記憶媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4756675B2 (ja) | コンピュータ資源のキャパシティを予測するためのシステム、方法およびプログラム | |
JP2008146157A (ja) | ネットワーク異常判定装置 | |
CN101470426B (zh) | 一种故障检测的方法和系统 | |
US20090216393A1 (en) | Data-driven anomaly detection to anticipate flight deck effects | |
US20160378583A1 (en) | Management computer and method for evaluating performance threshold value | |
CN110286656B (zh) | 一种错误数据容忍的虚警过滤方法和装置 | |
CN105980941A (zh) | 监视装置及监视方法 | |
JP6053487B2 (ja) | 時系列データ処理装置、時系列データ処理方法及び時系列データ処理プログラム | |
US20120296605A1 (en) | Method, computer program, and system for performing interpolation on sensor data for high system availability | |
US11657121B2 (en) | Abnormality detection device, abnormality detection method and computer readable medium | |
JP2019028565A (ja) | 故障予知方法、故障予知装置および故障予知プログラム | |
JP7127305B2 (ja) | 情報処理装置、情報処理方法、プログラム | |
JP6777142B2 (ja) | システム分析装置、システム分析方法、及び、プログラム | |
WO2017022234A1 (ja) | 製造プロセス分析装置、製造プロセス分析方法、及び、製造プロセス分析プログラムが格納された記録媒体 | |
JP5933386B2 (ja) | データ管理装置及びプログラム | |
JP2009217555A (ja) | ネットワーク異常判定装置 | |
CN112016689A (zh) | 信息处理装置、预测判别系统以及预测判别方法 | |
CN112639844B (zh) | 控制系统以及控制方法 | |
WO2008127539A1 (en) | Machine condition monitoring using discontinuity detection | |
JP6574533B2 (ja) | リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム | |
JP7368189B2 (ja) | 分析装置 | |
JP5668425B2 (ja) | 障害検知装置、情報処理方法、およびプログラム | |
WO2020044898A1 (ja) | 機器状態監視装置及びプログラム | |
JP4745881B2 (ja) | ネットワーク状態判定装置及びネットワーク状態判定方法及びネットワーク状態判定プログラム | |
EP3388911B1 (en) | Monitoring device, monitoring method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120117 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120605 |