JP2006079479A

JP2006079479A - 時系列データ判定方法

Info

Publication number: JP2006079479A
Application number: JP2004264758A
Authority: JP
Inventors: Mizuki Oka; 瑞起岡; Kazuhiko Kato; 和彦加藤
Original assignee: Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency
Priority date: 2004-09-10
Filing date: 2004-09-10
Publication date: 2006-03-23
Anticipated expiration: 2024-09-10
Also published as: US7698740B2; US20060069955A1; JP4484643B2

Abstract

【課題】従来よりも判定精度を高めることができる時系列データ判定方法を提供する。
【解決手段】学習用時系列データから作成した多層ネットワークモデルと、テスト時系列データから作成した多層ネットワークモデルとの類似度を計算して、テスト時系列データが１以上のカテゴリに属するか否かを判定する。それぞれの層における多層ネットワークモデルは、特徴ベクトルの要素とこれに対応する固有共起行列とを掛け合わせて作成する。
【選択図】図４

Description

本発明は、時系列データが所定の１以上のカテゴリに属するものであるか否かを判定する時系列データ判定方法に関するものである。

ユーザのパスワードを盗み出し、そのユーザになりすまして不正にコンピュータを使用する、いわゆる「なりすまし」を検出するためには、コンピュータに入力される時系列データに異常があるか否か（入力された時系列データが、なりすまし者によって作成された時系列データであるか否か）を異常検知システムで検知することが効果的である。公知の異常検知システムでは、最初にユーザの典型的な行動を示すプロファイル（ユーザが作成した時系列データに現れる特徴）を作成する。そしてテスト対象である入力データ（時系列データ）のプロファイルをそのユーザのプロファイルと比較することにより、正常なユーザが作成した時系列データであるか、なりすまし者が作成した異常な時系列データであるかを識別する。

典型的な検査対象となる入力データは、使用されたＵＮＩＸ（登録商標）コマンド、アクセスされたファイル等の時系列データ等である。入力された時系列データが、正常か異常かを識別する過程は２つのステップに分けられる。まず第１ステップにおいて、時系列データの特徴抽出を行う。そして第２ステップにおいて、抽出された特徴が正常か異常かを識別する。

第１のステップの特徴抽出を行う代表的な従来手法には、ヒストグラム（Histogram）とエヌグラム（N-gram）とがある。ヒストグラム（Histogram）では、時系列データに現れる項目（イベント）の出現頻度ベクトルが抽出の対象となる特徴ベクトルとなる。また、エヌグラム（N-gram）では、連続するN個の項目を１つの特徴とする［非特許文献１乃至３］。

また第２ステップの抽出された特徴を正常か異常かを識別する手法としては、これまでに様々な手法が提案されている。それらの中で代表的な手法には、ルールベース［非特許文献４］、オートマトン［非特許文献５］、ベイジアンネットワーク［非特許文献６］、Naiveベーズ［非特許文献７］、ニューラルネットワーク［非特許文献８］、マルコフモデル［非特許文献９］、隠れマルコフモデル［非特許文献１０］とがある。

これら問題に対処するために、発明者は、ユーザの挙動の動的情報をとらえて時系列データの特徴を抽出する方法［（ＥｉｇｅｎＣｏ−ｏｃｃｕｒｒｅｎｃｅＭａｔｒｉｘ（ＥＣＭ手法）］を提案している［非特許文献１１］。このＥＣＭでは、時系列情報を考慮しながら、イベント間の関連付けを行う。この関連付けは、二項間イベントに着目し全ての二項間イベントの関連性をＣｏ−ｏｃｃｕｒｒｅｎｃｅＭａｔｒｉｘ（共起行列）として表現することにより行う。共起行列は、全ての二項間の関連性の強さがその距離と出現頻度により表現されることになる。
Ｙｅ，Ｘ．Ｌｉ，Ｑ．Ｃｈｅｎ，Ｓ．Ｍ．Ｅｍｒａｎ，及びＭ．Ｘｕ著の「ＰｒｏｂａｂｌｉｓｔｉｃＴｅｃｈｎｉｑｕｅｓｆｏｒＩｎｔｒｕｓｉｏｎＤｅｔｅｃｔｉｏｎＢａｓｅｄｏｎＣｏｍｐｕｔｅｒＡｕｄｉｔＤａｔａ」ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｆＳｙｓｔｅｍｓＭａｎａｎｄＣｙｂｅｒｎｅｔｉｃｓ，Ｖｏｌ．３１，ｐｐ．２６６−２７４，２００１Ｓ．Ａ．Ｈｏｆｍｅｙｒ，Ｓ．Ｆｏｒｒｅｓｔ及びＡ．Ｓｏｍａｙａｊｉ著の「ＩｎｔｒｕｓｉｏｎＤｅｔｅｃｔｉｏｎｕｓｉｎｇＳｅｑｕｅｎｃｅｓｏｆＳｙｓｔｅｍＣａｌｌｓ」ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＳｅｃｕｒｉｔｙ，ｖｏｌ．６，ｐｐ．１５１−１８０，１９９８Ｗ．Ｌｅｅ及びＳ．Ｊ．Ｓｔｏｌｆｏ著の「Ａｆｒａｍｅｗｏｒｋｆｏｒｃｏｎｓｔｒｕｃｔｉｎｇｆｅａｔｕｒｅｓａｎｄｍｏｄｅｌｓｆｏｒｉｎｔｒｕｓｉｏｎｄｅｔｅｃｔｉｏｎｓｙｓｔｅｍｓ」，ＩｎｆｏｒｍａｔｉｏｎａｎｄＳｙｓｔｅｍＳｅｃｕｒｉｔｙ，ｖｏｌ．３，ｐｐ．２２７−２６１，２０００Ｎ．Ｈａｂｒａ，Ｂ．Ｌ．Ｃｈａｒｌｉｅｒ，Ａ．Ｍｏｕｎｊｉ及びＩ．Ｍａｔｈｉｅｕ著の「ＡＳＡＸ：ＳｏｆｔｗａｒｅＡｒｃｈｉｔｅｃｔｕｒｅａｎｄＲｕｌｅ−ＢａｓｅｄＬａｎｇｕａｇｅｆｏｒＵｎｉｖｅｒｓａｌＡｕｄｉｔＴｒａｉｌＡｎａｌｙｓｉｓ」ＩｎＰｒｏｃ．ｏｆＥｕｒｏｐｅａｎＳｙｍｐｏｓｉｕｍｏｎＲｅｓｅａｒｃｈｉｎＣｏｍｐｕｔｅｒＳｅｃｕ−ｒｉｔｙ（ＥＳＯＲＩＣＳ），ｐｐ．４３５−４５０，１９９２Ｒ．Ｓｅｋａｒ，Ｍ．Ｂｅｎｄｒｅ及びＰ．Ｂｏｌｌｉｎｅｎｉ著の「ＡＦａｓｔＡｕｔｏｍａｔｏｎＢａｓｅｄＭｅｔｈｏｄｆｏｒＤｅｔｅｃｔｉｎｇＡｎｏｍａｌｏｕｓＰｒｏｇｒａｍＢｅｈａｖｉｏｒｓ」ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００１ＩＥＥＥＳｙｍｐｏｓｉｕｍｏｎＳｅｃｕｒｉｔｙａｎｄＰｒｉｖａｃｙ，ｐｐ．１４４−１５５，Ｏａｋｌａｎｄ，Ｍａｙ２００１．Ｗ．ＤｕＭｏｕｃｈｅｌ著の「ＣｏｍｐｕｔｅｒＩｎｔｒｕｓｉｏｎＤｅｔｅｃｔｉｏｎＢａｓｅｄｏｎＢａｙｅｓＦａｃｔｏｒｓｆｏｒＣｏｍｐａｒｉｎｇＣｏｍｍａｎｄＴｒａｎｓｉｔｉｏｎＰｒｏｂａｂｉｌｉｔｉｅｓ」ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔＴＲ９１，ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｏｆＳｔａｔｉｓｔｉｃａｌＳｃｉｅｎｃｅｓ（ＮＩＳＳ），１９９９．Ｒ．Ａ．Ｍａｘｉｏｎ及びＴ．Ｎ．Ｔｏｗｎｓｅｎｄ．著の「ＭａｓｑｕｅｒａｄｅＤｅｔｅｃｔｉｏｎＵｓｉｎｇＴｒｕｎｃａｔｅｄＣｏｍｍａｎｄＬｉｎｅｓ」ＩｎＰｒｏｆ．ｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｅｐｅｎｄａｂｌｅＳｙｓｔｅｍｓａｎｄＮｅｔｗｏｒｋｓ（ＤＳＮ−０２），ｐｐ．２１９−２２８，２００２．Ａ．Ｋ．Ｇｈｏｓｈ，Ａ．Ｓｃｈｗａｒｔｚｂａｒｄ，及びＭ．Ｓｃｈａｔｚ著の「Ａｓｔｕｄｙｉｎｕｓｉｎｇｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒａｎｏｍａｌｙａｎｄｍｉｓｕｓｅｄｅｔｅｃｔｉｏｎ」ＩｎＰｒｏｃ．ｏｆＵＳＥＮＩＸＳｅｃｕｒｉｔｙＳｙｍｐｏｓｉｕｍ，ｐｐ．１４１−１５１，１９９９．Ｊ．Ｓ．Ｔａｎ，Ｋ．Ｍ．Ｃ．及びＲ．Ａ．Ｍａｘｉｏｎ．ＭａｒｋｏｖＣｈａｉｎｓ著の「ＣｌａｓｓｉｆｉｅｒｓａｎｄＩｎｔｒｕｓｉｏｎＤｅｔｅｃｔｉｏｎ．ＩｎＰｒｏｃ．ｏｆ１４ｔｈＩＥＥＥＣｏｍｐｕｔｅｒＳｅｃｕｒｉｔｙＦｏｕｎｄａｔｉｏｎｓＷｏｒｋｓｈｏｐ，ｐｐ．２０６−２１９，２００１Ｃ．Ｗａｒｒｅｎｄｅｒ，Ｓ．Ｆｏｒｒｅｓｔｏ及びＢ．Ａ．Ｐｅａｒｌｍｕｔｔｅｒ著の「ＤｅｔｅｃｔｉｎｇＩｎｔｒｕｓｉｏｎｓｕｓｉｎｇＳｙｓｔｅｍＣａｌｌｓ：ＡｌｔｅｒｎａｔｉｖｅＤａｔａＭｏｄｅｌｓ」ＩｎＩＥＥＥＳｙｍｐｏｓｉｕｍｏｎＳｅｃｕｒｉｔｙａｎｄＰｒｉｖａｃｙ，ｐｐ．１３３−１４５，１９９９．２００４年３月１日に日本ソフトウエア学会主催の「第７回プログラミング及び応用のシステムに関するワークショップ」で配布された、岡瑞起、大山恵弘及び加藤和彦著の「ＥｉｇｅｎＣｏ−ｏｃｃｕｒｒｅｎｃｅＭａｔｒｉｘＭｅｔｈｏｄｆｏｒＭａｓｑｕｅｒａｄｅＤｅｔｅｃｔｉｏｎ」の論文

しかしながらヒストグラム（Histogram）では、時系列データに現れる項目（イベント）の出現頻度ベクトルが特徴となる。また、エヌグラム（N-gram）では、連続するN個の項目を１つの特徴とする。しかしながらこれらの従来手法では、時系列データにおけるユーザの挙動の動的情報（時系列で見たユーザの挙動に関する情報即ちイベント時系列上に現れるイベントの種類とそれらの出現順で定まる各ユーザの特異的な特徴）が利用できない又は時系列データにおけるユーザの挙動の動的情報が失われるという問題や、単独もしくは隣接するイベントの特徴しか利用できない又は隣接するイベント間の特徴しか表現されないという問題がある。

また発明者等が先に提案したＥＣＭ手法を用いて正当なユーザとなりすまし者を識別するには、さらに共起行列をパターンとして扱い、統計的パターン認識手法を適用することが妥当と考えられる。最も簡単なパターン認識手法は、パターン間のマッチングに基づく手法である。しかし、共起行列そのものをパターンとして扱った場合、パターンの次元が膨大になってしまう。そのため、パターン間のマッチングでは、特徴を抽出し（情報圧縮にもなっている）、認識を行うことがより有効である。先に提案した具体的な方法では、共起行列から特徴ベクトルを求め、所定のベクトル識別関数を用いて時系列データと判定用特徴ベクトルとのユークリッド距離が閾値以内であるか否かによりその時系列データが１以上のカテゴリを含むか否か（正当なユーザが作成した時系列データであるか否か）を判定している。この先に提案した方法でも、所定の判定精度は確保することができる。しかしながら先に提案した判別方法では判定精度を高めることに限界があった。

本発明の目的は、従来よりも判定精度を高めることができる時系列データ判定方法を提供することにある。

本発明の別の目的は、時系列データに異常があるか否かを判別することができる時系列データ異常判別方法を提供することにある。

本発明は、Eigen Co-occurrence Matrix（ECM）手法を開発したことを基礎としてなされたものである。このECM手法は、まず時系列情報を考慮しながら、時系列データに含まれるイベント間の関連付けを行う。この関連付けは、二つのイベント間の関連に着目し、全ての二項間イベントの関連性をCo-occurrence Matrix(共起行列)として表現することにより行う。共起行列は時系列データに現れる項目（イベント）間全ての関係性が表現することができる。これは、ヒストグラム（Histogram）やエヌグラム（N-gram）では表現することができなかった時系列データの特徴である。具体的な発明では、共起行列に対し主成分分析を行い、直交する主成分ベクトル空間を生成する。それぞれの共起行列は、主成分ベクトル空間上のベクトルとして特徴が抽出される。特徴をベクトルとして抽出することにより、様々なベクトル識別関数を利用することも可能になる。

本発明の時系列データ判定方法は、複数種類のイベントを含んで構成される時系列データが所定の１以上のカテゴリに属するものであるか否かを特徴抽出方法と識別方法とを用いて判定する。本発明では、特に、前記特徴抽出方法として、複数の時系列入力データを複数種類のイベントに含まれる二種類のイベント間の関連性を共起行列で表した行列データに変換したものを用いる統計的特徴抽出方法を用いる。そして識別方法として統計的特徴抽出方法で抽出した特徴ベクトルを識別に利用するものを用いる。ここで複数種類のイベントとは、時系列データを構成する複数の項目を意味し、時系列データが複数のコマンドから構成されている場合には、その複数のコマンドがそれぞれイベントである。またカテゴリとは、上位概念で見れば時系列データの種別を意味する概念であって、下位の概念で見れば時系列データから得られる後述する特徴ベクトルの集合が属する種別である。例えば、ある時系列データがある正常であるか否かは、時系列データが予め定めた１以上のカテゴリに属するか否かにより判断することができる。なお特徴ベクトルとカテゴリとの関係で見れば、特徴ベクトルが存在する空間の部分領域に対応するものがカテゴリとなる。

本発明の方法で採用する共起行列は、時系列データに現れる項目（イベント）間全ての関係性を表現することができる。言い替えると、共起行列は、全ての二項間の関連性の強さをその距離と出現頻度により表現する。したがって本発明によれば、時系列データに含まれる動的情報を利用して、時系列データが所定のカテゴリに属するか否かを従来よりも高い精度で判定することができる。

複数の時系列入力データを共起行列で表した行列データに変換する際には、ウィンドウ・データ取出ステップと、スコープ・データ抽出ステップと、共起行列変換ステップとを実施する。ウィンドウ・データ取出ステップでは、時系列入力データをそれぞれ予め定めたデータ長さのウィンドウで切り出して複数のウィンドウ・データを取り出す。ウィンドウのデータ長さは、時系列データの長さに応じて定めればよい。スコープ・データ抽出ステップでは、ウィンドウ・データからウィンドウ・データのデータ長よりも短いデータ長を有する複数のスコープ・データをデータ列上において時間的なずれを持って順次抽出する。具体的なスコープ・データ抽出ステップでは、複数種類のイベントから選択した１つの種類のイベントがウィンドウ・データに含まれる位置を基準位置として１つの種類のイベントに対する１以上のスコープ・データを抽出することができる。また共起行列変換ステップでは、複数のウィンドウ・データを複数のスコープ・データに基づいてウィンドウ・データに含まれる複数種類のイベント相互間の時系列で見た関連性の強さを示す複数の共起行列に変換する。具体的な、共起行列変換ステップでは、１つの種類のイベントについての１以上のスコープ・データに含まれるその１つの種類のイベントまたは他の種類のイベントの数の合計値を、１つの種類のイベントに対する一つの種類のイベントの頻度とし、この頻度を１つの種類のイベントに対する一つの種類のイベントの関連性の強さを表示する値とする変換を行ってウィンドウ・データを共起行列に変換する。このようにして共起行列の変換を行うと、時系列で見たイベント相互間の関連性をより適格に示す共起行列を得ることができる。

正当なユーザとなりすまし者を本発明の方法を利用して識別するには、さらに共起行列をパターンとして扱い、統計的パターン認識手法（識別方法）を適用することが妥当である。最も簡単なパターン認識手法（識別方法）は、パターン間のマッチングに基づく手法である。しかし共起行列そのものをパターンとして扱った場合、パターンの次元が膨大になってしまう。そのため、パターン間のマッチングでは、特徴を抽出し（情報圧縮にもなっている）、認識を行うことがより有効である。パターンから有効な特徴抽出を行うことにより、入力パターンの変動に対して頑健な認識結果が期待できる。そこで本発明のより具体的な方法では、特徴抽出方法として、主成分分析を用いて、共起行列からの特徴ベクトルの抽出に利用する。主成分分析はベクトル形式のデータを少数の特徴（主成分）で表すことを可能とする統計的特徴抽出方法である。なお主成分分析を用いた認識の成功例として、Ｔｕｒｋ等［Ｍ．Ｔｕｒｋ，Ａ．Ｐｅｎｔｌａｎｄ，「ＥｉｇｅｎｆａｃｅｓｆｏｒＲｅｃｏｇｕｎｉｔｉｏｎ」ＪｏｕｒｎａｌｏｆＣｏｇｎｉｔｉｖｅＮｅｕｒｏｓｃｉｅｎｃｅ，ｖｏｌ３，Ｎｏ．１，１９９１］が提案したＥｉｇｅｎｆａｃｅ（固有顔）による顔画像の認識が広く知られている。本発明の具体的方法では、共起行列（Ｃｏ−ｏｃｃｕｒｒｅｎｃｅＭａｔｒｉｘ）を顔画像と見なしたところにユニークな着眼点がある。

そこで複数種類のイベントを含んで構成される時系列データが所定の１以上のカテゴリに属するものであるか否かを判定する本発明の具体的な時系列データ判定方法では、前述のウィンドウ・データ取出ステップと、前述のスコープ・データ抽出ステップと、前述の共起行列変換ステップに加えて、更に固有共起行列群決定ステップと、プロファイル用共起行列変換ステップと、判定用特徴ベクトル抽出ステップと、テスト用共起行列変換ステップと、テスト用特徴ベクトル抽出ステップと、判定用近似共起行列取得ステップと、判定用多層ネットワークモデル生成ステップと、テスト用近似共起行列取得ステップと、テスト用多層ネットワークモデル生成ステップと、判定ステップとを用いる。

固有共起行列群決定ステップでは、複数の共起行列を入力として主成分分析により特徴ベクトルを求めるための基礎となる固有共起行列群を決定する。またプロファイル用共起行列変換ステップでは、１以上のカテゴリを含む１以上のプロファイル学習用時系列データに対してウィンドウ・データ取出ステップ、スコープ・データ抽出ステップ及び共起行列変換ステップと同様のステップをそれぞれ実施して、１以上のプロファイル学習用時系列データを１以上のプロファイル用共起行列に変換する。また判定用特徴ベクトル抽出ステップでは、１以上のプロファイル用共起行列と固有共起行列群とに基づいて１以上のプロファイル学習用時系列データについての１以上の判定用特徴ベクトルを抽出する。更にテスト用共起行列変換ステップでは、テストの対象となるテスト時系列データに対してウィンドウ・データ取出ステップ、スコープ・データ抽出ステップ及び共起行列変換ステップと同様のステップを実施して、テスト時系列データをテスト用共起行列に変換する。またテスト用特徴ベクトル抽出ステップは、テスト用共起行列と固有共起行列群とに基づいてテスト用時系列データについてのテスト用特徴ベクトルを抽出する。

更に判定用近似共起行列取得ステップでは、判定用特徴ベクトルと固有共起行列群を構成する複数の固有共起行列との掛け算に基づいて、複数の固有共起行列の次元を小さくした複数の判定用近似共起行列を取得する。また判定用多層ネットワークモデル生成ステップでは、複数の判定用近似共起行列からイベント抽出を行って判定用多層ネットワークモデルを生成する。またテスト用近似共起行列取得ステップでは、テスト用特徴ベクトルと固有共起行列群を構成する複数の固有共起行列とを掛け算することにより、複数の固有共起行列の次元を小さくした複数のテスト用近似共起行列を取得する。またテスト用多層ネットワークモデル生成ステップでは、複数のテスト用近似共起行列からイベント抽出を行ってテスト用多層ネットワークモデルを生成する。

上記の各ステップを実行した後に判定ステップでは、判定用多層ネットワークモデル（多層ネットワークモデル）とテスト用多層ネットワークモデル（多層ネットワークモデル）とに基づいて、テスト時系列データが１以上のカテゴリに属するか否かを判定する。本発明の判別法を用いると、先に提案している判別法と比べて高い判定精度で判定することができる。

具体的な判定ステップでは、例えば、判定用多層ネットワークモデルとテスト用多層ネットワークモデルとの類似度に基づいてテスト時系列データが前記１以上のカテゴリに属するか否かを判定することができる。その場合、判定ステップでは、類似度が予め定めた閾値より大きいか否かにより、テスト時系列データが前記１以上のカテゴリに属するか否かを判定するのが好ましい。なお判定用多層ネットワークモデル及びテスト用多層ネットワークモデルは、それぞれ共起性が正の値から構成されるネットワークモデルと、共起性が負の値から構成されるネットワークモデルとから構成できる。この場合には、判定ステップでは、共起性が正の値から構成されるネットワークモデルと、共起性が負の値から構成されるネットワークモデルの少なくとも一方を用いて、類似度を求めればよい。なお正のネットワークは固有共起行列群を作成するのに用いた共起行列群の平均共起行列よりも強い特徴を表し、負のネットワークは、その平均共起行列よりも弱い特徴を表す。両方を用いると、平均共起行列よりも強い特徴か弱い特徴からの２つの視点から判定することができるので判定精度を更に高めることができる。

また本発明の時系列データ判定方法を用いて、コンピュータシステムに入力される時系列データの異常を判別すると、従来よりも高い精度で異常な時系列データを判別することができる。

本発明によれば、時系列データが所定のカテゴリを含むものであるか否かを従来よりも高い精度で判定することができる。

以下図面を参照して本発明の実施の形態を詳細に説明する。図１は、複数種類のイベントを含んで構成される時系列データが所定の１以上のカテゴリに属するものであるか否かを主成分分析法を用いて判定する本発明の時系列判定方法の実施の形態の一例を実施するためのプログラムにおいて、特徴ベクトルを求めるまでの構成を示す図である。なお特徴ベクトルを求めるまでの方法の基本は、既に発明者等が非特許文献１１で公表している。図１においては、特徴ベクトルを得るために用いる固有共起行列群を得るための学習用の複数の時系列データと、プロファイル学習用の時系列データ（以下プロファイル学習用時系列データと言う）と、テストの対象となるテスト時系列データ（以下テスト用時系列データと言う）を共起行列に変換する。ここで共起行列とは、時系列データを構成する複数種類のイベントに含まれる二種類のイベント間の関連性を行列データに変換したものである。

時系列データを共起行列に変換するステップについて説明する。図２は、複数の学習用時系列データ［この場合にはユーザ（コンピュータにアクセスして時系列データを送信してくる人または他のコンピュータ）１乃至ユーザ３からそれぞれ送られた３つの時系列データ］の構成の一例を示している。この例では、各ユーザからの時系列データは、２０のコマンド（イベント）によってそれぞれ構成されている。後に説明するように、この実施の形態では、２０のコマンドからなる時系列データを１０のコマンド（データ長）を有するウィンドウで区切る（ウィンドウ・データ取出ステップ）。このウィンドウ・データ取出ステップでは、各時系列入力データをそれぞれ予め定めたデータ長（１０個のコマンド分のデータ長）のウィンドウで切り出して２つのウィンドウ・データを取り出す。なおウィンドウのデータ長さは、時系列データの長さに応じて定めればよい。

次に、ある区間の時系列データに現れる２つのイベント間の因果関係を表すために共起行列に変換する。共起行列のそれぞれの要素は、２つのイベント間の因果関係の強さを表すものである。共起行列を作成するために、ウィンドウサイズｗ、スコープサイズｓ、そしてイベントセットＢ＝｛ｂ１、ｂ２、ｂ３、・・，ｂｍ｝を定義する。ここでｍは、イベント数を示す。ウィンドウサイズｗは、１つの特徴ベクトルを抽出するイベント時系列のサイズを決定し、スコープサイズｓは、２つのイベントの因果関係を考慮する間隔幅を決定する。図２に示すデータ例では、ｗを１０、ｓを６と定義した。また、Ｂは、３人全ての学習用の時系列データ（ドメインデータ）に現れるユニークな８つのコマンド（イベント）（ｍ＝８）とする。８つのコマンドは、cd, ls, less, emacs, gcc, gdb, mkdir, cpである。２つのイベント間の因果関係または関連性の強さは、イベント間の距離と、それらが現れる頻度により定義される。つまり、注目するイベントが、ウィンドウサイズ（１０）の中で、スコープサイズ（６）以内に現れる頻度を数えることにより、イベント間の因果関係の強さを定義する。図２の例では、それぞれにユーザ一人について２つの共起行列が作られることになる。図３のウィンドウ１におけるイベントcd とイベントls の要素または頻度数７は、ウィンドウサイズ（１０）で、スコープサイズ（６）以内に、lsがcdの後に７回現れたことを示している。イベントペア（cd ls）と{ls cd}が図３のウィンドウ１において最も大きな要素または頻度数を持つ。これはこの時系列において、これらのイベントは強い関係性があることを示している。共起行列は、時系列データに現れる全ての２つのイベント相互間の因果関係または関連性の強さを表現することになる。

図３について、本発明との関係で、詳しく説明する。まず各ユーザの時系列データ毎に、図３に示すように、前述のウィンドウ・データから複数のスコープ・データを抽出する（スコープ・データ抽出ステップ）。このステップでは、ウィンドウ・データからウィンドウ・データのデータ長よりも短いデータ長を有する複数のスコープ・データをデータ上における時間的なずれを持って順次抽出する。この例では、６個のコマンド分のデータ長を有するスコープ・データを順次抽出している。具体的には、ウィンドウ・データを構成する１０個のコマンドに含まれる複数種類のイベント（図３の場合には、ｃｄ，ｌｓ，ｌｅｓｓ）から選択した１つの種類のイベント（例えばｃｄ）が、ウィンドウ・データに含まれる位置を基準位置として１つの種類のイベントに対する１以上のスコープ・データを抽出する。図３の例で見れば、イベントｃｄに着目した場合、ウィンドウ１の先頭にあるイベントｃｄを含まずにこのｃｄ（基準位置）より後の６個のコマンド（イベント）を第１のスコープ・データとして抽出し、次に先頭から６番目にあるイベントｃｄを含まずにこのｃｄ（基準位置）より後の６個のコマンド（イベント）を第２のスコープ・データとして抽出する。なお図３の例のように、ウィンドウ１内に１０個しかイベントが無い場合、第２のスコープ・データでは４個のイベントを抽出する。同様に、先頭から第８番目及び第９番目のイベントｃｄを基準位置にして第３及び第４のスコープ・データを抽出する。

次に、ウィンドウ・データから抽出した複数のスコープ・データに基づいてそのウィンドウ・データに含まれる複数種類のイベント相互間の時系列で見た関連性の強さ（二つのイベントの相互間の関連強さ）を、関連性を見る二つのイベントが現れる頻度と距離として表現する。例えば、１つの種類のイベントｃｄについての１以上（図３の場合には４つ）のスコープ・データに含まれる１つの種類のイベント（図３の場合には同じ種類のｃｄ）の数の合計値を、１つの種類のイベントに対する一つの種類のイベントの頻度とする。そして、この頻度を１つの種類のイベントに対する一つの種類のイベントの関連性の強さを表示する値とする変換を行ってウィンドウ・データを共起行列に変換する。図３の例ににおいて、ウィンドウ１中のイベントｃｄとイベントｃｄとの間の関連性を頻度として見る。前述の第１のスコープ・データ中には、１つのｃｄが含まれており、第２のスコープ・データ中には２つのｃｄが含まれており、第３のスコープ・データ中には１つのｃｄが含まれており、第４のスコープ・データ中にはｃｄは含まれない。したがってイベントｃｄに対するイベントｃｄの頻度は、１＋２＋１＋０＝４と計算できる。同様にしてイベントｃｄに対するイベントｌｓの関連性ついてみれば、前述の第１のスコープ・データ中には、３つのｌｓが含まれており、第２のスコープ・データ中には２つのｌｓが含まれており、第３のスコープ・データ中には１つのｌｓが含まれており、第４のスコープ・データ中には１つのｌｓが含まれている。したがってイベントｃｄに対するイベントｌｓの頻度は、３＋２＋１＋１＝７と計算できる。これらの頻度には、スコープ・データを設定することにより、時間または距離の関係即ち時系列データに含まれる動的情報が含まれることになる。図３の右側領域には、ウィンドウ１及び２をそれぞれ共起行列に変換した行列データが示されている。このように時系列データを共起行列で表現すると、人間の流動的な行動のモデル化が可能になる。

正当なユーザとなりすまし者を本発明の方法を利用して識別するには、共起行列をパターンとして扱い、統計的特徴抽出方法として主成分分析を用いて特徴ベクトルを求め、その後特徴ベクトルを識別に利用して識別を実行する。主成分分析はベクトル形式のデータを少数の特徴（主成分）で表すことを可能とする統計的特徴抽出方法であり、主成分分析とは多変量で表されるデータの統計から、一次結合で表現される新たな変量を構成し、互いに無相関な「主成分」に要約する手法である。本実施の形態では、共起行列を先に述べたＴｕｒｋ等が提案したＥｉｇｅｎｆａｃｅ（固有顔）による顔画像と見なしている。そこで本出願においては、本発明の時系列データ判定方法をEigen Co-occurrence Matrix（ECM）手法と呼ぶ。

図１に示すように、時系列データから、固有共起行列群を作成する学習用の時系列データを選びこれをドメインデータとする。１つのウィンドウから変換した共起行列を前述のＭ．Ｔｕｒｋ等が発表したＥｉｇｅｎｆａｃｅ（固有顔）における顔画像と見なし、Ｅｉｇｅｎｆａｃｅに対応するＥｉｇｅｎＣｏ−ｏｃｃｕｒｒｅｎｃｅＭａｔｒｉｘ（固有共起行列）を作成する。主成分分析により、固有値とそれに対応する固有ベクトルが得られる。そして固有値を降順に並べ、それと対応する固有ベクトルを上からＮ個選択し、行列化し固有共起行列群とする。

共起行列からの主成分分析を用いた特徴ベクトル抽出は次に述べる手順で行う。まず学習用の時系列データから得たｐ枚の学習用の共起行列のうちｉ番目の共起行列を、各要素の値を並べたＮ次元のベクトルｘｉとして表現する。ここでｐはサンプル数であり、Ｎはイベント数の２乗である。ｐ枚の共起行列の平均ベクトルを平均共起行列として下記の式で求める。ここで平均共起行列は、イベントペア（２項間）の関係性を示す。

そして各共起行列から平均共起行列（平均ベクトル）を引いたベクトルを

で表す。この平均共起行列を引く意味は、座標軸を原点に設定するためである。そして各共起行列から平均共起行列（ｍ×ｍ行列）を引き、ベクトル化した（ｍ×ｍの行列をｍ^２次元の縦ベクトルにする）共起行列の集合を行列

で表す。この行列とその転置行列をかけた行列が図１における共分散行列(ｍ^２×ｍ^２行列)である。

次に、学習用の共起行列の集合を最適に近似する正規直交基底ａを、［数３］で表した行列Ｘの共分散行列の固有ベクトルで構成する。そのために共分散行列から固有値及び固有ベクトルを計算する（ｍ^２×ｍ^２行列の固有ベクトルを計算）する。ここで固有値は、特徴の強さを表す。また固有ベクトルは、お互いに無相関な特徴の軸を表している。このとき、ａの各固有ベクトルａｌを、固有共起行列（Ｅｉｇｅｎｃｏ−ｏｃｃｕｒｒｅｎｃｅｍａｔｒｉｘ）とし、その集合を固有共起行列群（主成分）と言う。

具体的には、固有値を降順にソートし、それらに対応する固有ベクトルを得る（ｍ^２個の固有ベクトルのうちＬ個のみ選択する。固有値によって、固有ベクトルをソートすることにより、特徴の強い軸を上から順番に取り出すことができる。Ｌ個の固有ベクトルをそれぞれ行列化し(ｍ^２次元のベクトルをｍ×ｍの行列にする)、これを固有共起行列群とする。ここである共起行列ｘに対する特徴ベクトル（Ａ）（または主成分スコアＣ）を縦ベクトル化した共起行列ｘと正規直交基底ａの内積を計算することにより求める。特徴ベクトルの各成分ｃ_１，ｃ_２，．．．，ｃ_Ｌは、共起行列ｘを表現するための各固有共起行列の貢献度を表すことになる。本実施の形態のように、特徴ベクトルを共起行列から抽出した場合、様々なベクトル空間手法を用いた特徴ベクトルの識別に使用することができる。

本発明の時系列データの判定方法と関係する部分について以下に説明する。判定方法では、前述の共起行列の変換で用いたウィンドウ・データ取出ステップと、前述のスコープ・データ抽出ステップと、前述の共起行列変換ステップに加えて、更に固有共起行列決定ステップと、プロファイル用共起行列変換ステップと、判定用特徴ベクトル抽出ステップと、テスト用共起行列変換ステップと、テスト用特徴ベクトル抽出ステップと、判定用近似共起行列取得ステップと、判定用多層ネットワークモデル生成ステップと、テスト用近似共起行列取得ステップと、テスト用多層ネットワークモデル生成ステップと、判定ステップとを用いる。

まず固有共起行列決定ステップでは、前述のようにして複数の共起行列（学習用の時系列データを共起行列に変換したもの）を入力として主成分分析により特徴ベクトルを求めるための基礎となる固有共起行列群（固有共起行列の集合即ち主成分）を決定する。

そしてプロファイル用共起行列変換ステップでは、１以上のカテゴリを含む１以上のプロファイル学習用時系列データに対して先に説明したのと同様のウィンドウ・データ取出ステップ、スコープ・データ抽出ステップ及び共起行列変換ステップと同様のステップをそれぞれ実施して、１以上のプロファイル学習用時系列データを１以上のプロファイル用共起行列に変換する。ここでプロファイル学習用時系列データとしては、正常なユーザが作成したものであることが明確に判っている時系列データを用いる。学習用の時系列データからこのプロファイル学習用時系列データを選んでもよいのは勿論である。あるコンピュータにアクセスするユーザが１００人いれば、その１００人が作成した時系列データをプロファイル学習用時系列データとしてそれぞれプロファイル用共起行列に変換する。

次に判定用特徴ベクトル抽出ステップでは、プロファイル用共起行列と固有共起行列群とに基づいて各プロファイル学習用時系列データについての判定用特徴ベクトルを抽出する。このようにして抽出した判定用特徴ベクトルは、事前にコンピュータのメモリに記憶しておく。なお図１には、特にプロファイル学習用時系列データについては記載していないが、テスト用時系列データと同じルートで共起行列に変換し、その特徴ベクトルを求める。

次に、テスト用共起行列変換ステップでは、テストの対象となるテスト時系列データに対してウィンドウ・データ取出ステップ、スコープ・データ抽出ステップ及び共起行列変換ステップと同様のステップを実施して、テスト時系列データをテスト用共起行列に変換する。また、テスト用特徴ベクトル抽出ステップは、テスト用共起行列と固有共起行列とに基づいてテスト用時系列データについてのテスト用特徴ベクトルを抽出する。なお、テスト用特徴ベクトルを抽出する際には、図１に示すようにテスト用共起行列から平均共起行列を引いたものをベクトル化したものと先に求めた固有共起行列群をベクトル化したものとの内積を求める。

図４は、本実施の形態の判定ステップを実行するために用いるプログラムの構成部分を示したブロック図である。各特徴ベクトルを算出するまでは、図１に説明した通りである。判定ステップを実行する前に、先に求めて記憶してある判定用特徴ベクトルとテスト用特徴ベクトルとに基づいて、判定用近似共起行列取得ステップと、判定用多層ネットワークモデル生成ステップと、テスト用近似共起行列取得ステップと、テスト用多層ネットワークモデル生成ステップを実行する。

判定用近似共起行列取得ステップでは、判定用特徴ベクトルと固有共起行列群を構成する複数の固有共起行列（第１〜第Ｌの固有共起行列）との掛け算に基づいて、複数の判定用近似共起行列（第１〜第Ｌの近似共起行列：但しＬは正の整数）を取得する。そして判定用多層ネットワークモデル生成ステップでは、複数の判定用近似共起行列（第１〜第Ｌの近似共起行列）からイベント抽出を行って判定用多層ネットワークモデルを生成する。ここでイベント抽出とは、閾値ｈを定め、正の値から構成するネットワークにおいては、閾値ｈよりも大きい値のみを用いてネットワークを構成すること、また負の値から構成するネットワークにおいては、閾値−ｈよりも小さい値のみを用いてネットワークを構成することである。図４において、「イベント抽出」の後に示された２つの行列が、それぞれ多層ネットワークの正の値から構成されるネットワークモデルと、負の値から構成されるネットワークモデルである。

またテスト用近似共起行列取得ステップでも、前述と同様にして、先に求めたテスト用特徴ベクトルと固有共起行列群を構成する複数の固有共起行列（第１〜第Ｌの固有共起行列）とを掛け算することにより、複数のテスト用近似共起行列を取得する。そしてテスト用多層ネットワークモデル生成ステップでは、複数のテスト用近似共起行列からイベント抽出を行ってテスト用多層ネットワークモデルを生成する。

多層ネットワークモデルを生成するまでのステップをより具体的なレベルで説明する。まず固有共起行列の次元（個数）Ｌ（Ｌ＝１，・・・，Ｎ）を小さくすることにより、固有共起行列ａと特徴ベクトルＣを用いて、もとの共起行列を下記［数４］のように低次元（少ない個数）で表現する。

また、ｉ番目の共起行列を下記［数５］を用いて生成し、第ｉ層のネットワークを抽出することにより多層ネットワーク表現が可能である。下記［数５］の行列ｚ_ｉを近似共起行列を言う。固有共起行列群をａ_１，ａ_２．．．．ａ_Ｌとし、特徴ベクトルをｃ_１，ｃ_２．．．．ｃ_Ｌとした場合、１近似ネットワークは、ｃ_１ ×ａ_１であり、２近似ネットワークはｃ_１ ×ａ_１＋ｃ_２ ×ａ_２であり、Ｌ近似ネットワークはＳｃ_ｉ×ａ_ｉとなる。また多層ネットワークのそれぞれの層のネットワークは、固有共起行列群ａ_１，ａ_２．．．．ａ_Ｌと特徴ベクトルｃ_１，ｃ_２．．．．ｃ_Ｌとした場合において、それぞれ対応する固有共起行列ａ_ｉと特徴ベクトルの要素ｃ_ｉを掛けて生成する行列ａ_ｉ×ｃ_ｉから得られるネットワークを意味する。

それぞれの層のネットワークは、もとの共起行列のサブネットワークではなく、固有共起行列から発生する全体の構造をもつネットワークである。

さらに行列ｚ_ｉを下記［数６］に示すように、正（ｘ（ｉ））と負（ｙ（ｉ））の要素に分離して、それぞれから１つ１つのネットワークを構成できる。

正の要素から成る行列（ｘ（ｉ））の作るネットワークは共起性が正の値で、（入力−平均）の行列を再構成するのに寄与する。また負の要素から成る行列（ｙ（ｉ））は同じく負の値で、再構成に寄与するという違いがある。上記の多層ネットワークモデル生成手法を判定用多層ネットワークモデル及びテスト用多層ネットワークモデルの生成の両方で実施する。共起行列を隣接行列として捉えると、共起行列からのネットワーク構造が抽出される。図５に一つの共起行列をネットワーク構造として表現した結果を示す。このようなネットワーク構造にして、後の判定ステップを実施すると検知率は向上する。

上記の各ステップを実行した後に判定ステップでは、判定用多層ネットワークモデルとテスト用多層ネットワークモデルとに基づいて、テスト時系列データが１以上のカテゴリに属するか否かを判定する。具体的な判定ステップでは、例えば、判定用多層ネットワークモデルとテスト用多層ネットワークモデルとの類似度に基づいてテスト時系列データが前記１以上のカテゴリに属するか否かを判定する。その場合、判定ステップでは、類似度が予め定めた閾値より大きいか否かにより、テスト時系列データが前記１以上のカテゴリに属するか否かを判定する。

判定用多層ネットワークモデルとテスト用多層ネットワークモデルとの間の類似度は、各層のネットワークモデルが共有するサブネットワーク数（Ｅ個のエッジから構成されるネットワークを１つのサブネットワークとする)を計算し、それらを足した数とする。

図６は、エッジが１個の場合とエッジが２個の場合のサブネットワークの例を示している。そして図７に示すように、判定用多層ネットワークモデルには、第１層から第Ｌ層までのネットワークがある。そして入力用多層ネットワークモデルにも第１層から第Ｌ層までのネットワークがある。これら各層の間でネットワーク間の類似度の計算をする。図８は、一つの層の判定用ネットワークモデルとテスト用ネットワークモデルとの間の類似度の計算例を示している。この例では、Ｅ＝１とし、２つのネットワーク間のサブネットワーク数を数えて類似度を計算する。６つのサブネットワークを共有していることから、この場合には類似度は６となる。

次に実際に上記実施の形態の方法を実行するプログラムを異常検知システムに実装し、実際のＵＮＩＸ（登録商標）コマンド時系列のログデータにおいて正常なユーザとなりすまし者を識別する実験を行った結果について説明する。実験にはＳｃｈｏｎｌａｕ等（Ｍ．Ｓｃｈｏｎｌａｕ，Ｗ．Ｄｕｍｏｎｃｈｅｌ，Ｗ．Ｈ．Ｊｕ，Ａ．Ｆ．Ｋａｒｒ，Ｍ．Ｔｈｅｕｓ，Ｙ．Ｖａｒｄｉ，Ｃｏｍｐｕｔｅｒｉｎｔｒｕｓｉｏｎ：Ｄｅｔｅｃｔｉｎｇｍａｓｑｕｅｒａｄｅｓ，ＳｔａｔｉｓｔｉｃａＳｃｉｅｎｃｅ，ｖｏｌ．１６，ｎｏ．１，ｐｐ．５８−７４，２００１．）が提供しているＵＮＩＸ（登録商標）コマンドのデータを用いた。Ｓｃｈｏｎｌａｕ等のデータには、１人のユーザにつき、１５，０００のＵＮＩＸ（登録商標）コマンドの履歴が提供されており、それが５０人分用意されている。彼らのデータには、プライバシーの理由から引数、フラグやエイリアスの情報は含まれていない。１５，０００コマンドのうち最初の５０００コマンドは、正規のユーザのコマンドで構成されており、残りの１０，０００コマンドになりすましのデータが挿入されている。最初の５０００コマンドを学習データ、残りの１０，０００コマンドをテストデータとした。

検査対象は１００コマンドずつとし、５，０００コマンドの学習データを１００コマンドごとのウィンドウに分け、それぞれから上記ＥＣＭ手法を用いて特徴抽出を行う。５０人全てのユーザの学習データを用い（５０×５０＝２５００ウィンドウ）、固有共起行列を作成した。そのうち降順に並べられた最初の５０個の固有値に対応する５０個の固有ベクトルを固有共起行列として用いた（Ｌ＝５０）。

学習データとして、各ユーザの学習データから１００コマンドを１ウィンドウの単位とし、上記実施の形態の方法を用いてネットワークモデルに変換した。

テストデータとして、各ユーザのテストデータから同様に１００コマンドを１ウィンドウ単位とし、上記実施の形態を用いてネットワークモデルに変換した。

学習データネットワークモデルセットをＳとし、それとテストデータseq_ｉのネットワークモデルの類似度を計算し、「正常」か「異常」であるかを判断する。seq_ｉの学習データとの類似度は、［数７］で表わされるように、学習データそれぞれのネットワークモデルとの類似度で１番大きい値とする。

ここで、ネットワークモデルの類似度Ｓｉｍ（seq_ｉ，seq_ｊ）は、

のように定義した。Ｔ_ｋ（ｘ）はseq_ｘがｋ層においてつくるネットワークモデルを示し、δ（Ｔ_ｋ（ｉ），Ｔ_ｋ（ｊ））は、ネットワークモデルＴ_ｋ（ｉ）とＴ_ｋ（ｊ）が同一層同士における部分ネットワークの一致数の和を示している。各層におけるネットワークは、対応する近似共起行列から値の大きい順に３０個ノードを取り出し、構成した。また、エッジが２つ繋がっているネットワークを１つのサブネットワークと捉えた。

ユーザｉごとに、テストデータseq_ｉが「正常」であるか「異常」であるか判断する類似度のしきい値εｉを設け、Ｓｉｍ（seq_ｉ，Ｓ）がしきい値εｉよりも大きければ正常、小さければ異常と判断する。しきい値εｉを変化させることにより検知率（異常な実行を異常と判断する）と誤検知率（正常な実行を異常と判断する）が変化する。

実験の評価にはＲｅｃｅｉｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃ（ＲＯＣ）カーブを用いた。ＲＯＣカーブとは、縦軸に検知率、横軸に誤検知率をとり、しきい値を変化させたときの結果をプロットしたシステムの精度を表すグラフである。プロット点が図の左上に近ければ近いほど、誤検知率が低く、検知率が高いことを示し、性能が良いことを表す。

Ｓｃｈｏｎｌａｕら（Ｍ．Ｓｃｈｏｎｌａｕ，Ｗ．Ｄｕｍｏｎｃｈｅｌ，Ｗ．Ｈ．Ｊｕ，Ａ．Ｆ．Ｋａｒｒ，Ｍ．Ｔｈｅｕｓ，Ｙ．Ｖａｒｄｉ，Ｃｏｍｐｕｔｅｒｉｎｔｒｕｓｉｏｎ：Ｄｅｔｅｃｔｉｎｇｍａｓｑｕｅｒａｄｅｓ，ＳｔａｔｉｓｔｉｃａＳｃｉｅｎｃｅ，ｖｏｌ．１６，ｎｏ．１，ｐｐ．５８−７４，２００１．）とＭａｘｉｏｎら（Ｒ．Ａ．Ｍａｘｉｏｎ，Ｔ．Ｎ．Ｔｏｗｎｓｅｎｄ，ＭａｓｑｕｅｒａｄｅＤｅｔｅｃｔｉｏｎＵｓｉｎｇＴｒｕｎｃａｔｅｄＣｏｍｍａｎｄＬｉｎｅｓ，Ｐｒｏｃ．ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｅｐｅｎｄａｂｌｅＳｙｓｔｅｍｓａｎｄＮｅｔｗｏｒｋｓ（ＤＳＮ−０２），ｐｐ．２１９−２２８，Ｗａｓｈｉｎｇｔｏｎ，２００２．）は、本実験で使用した同様のデータセットに対しＢａｙｅｓ１−ＳｔｅｐＭａｒｋｏｖ，ＨｙｂｒｉｄＭｕｌｔｉ−ＳｔｅｐＭａｒｋｏｖ，ＩＰＡＭ，Ｕｎｉｑｕｅｎｅｓｓ，Ｓｅｑｕｅｎｃｅ−Ｍａｔｃｈ，Ｃｏｍｐｒｅｓｓｉｏｎ，ａｎｄＮａiｖｅＢａｙｅｓと呼ばれる手法を適用している。本実施の形態の方法を用いてユーザｉごとに、しきい値εｉを変化させ、５０人分の結果をまとめた結果を彼らの結果とともに、図６に示す。図６の結果から分かるように、本実施の形態の方法が最も高い検知率の中で、最も低い誤検知率を示しており、本発明の有効性が確認できた。

また図７は、先に発明者等が提案した特徴ベクトルを用いた場合の検知率及び誤検知率と本実施の形態の方法を用いた場合の検知率及び誤検知率を示している。図７においてＡは、先に提案した特徴ベクトルを判定に利用した場合の検知率及び誤検知率を示しており、Ｂは多層ネットワークを用いる本実施の形態の方法を判定に利用した場合の検知率及び誤検知率を示している。図７から分かるように、本実施の形態の方法が、先に提案した方法よりも、高い検知率と低い誤検知率を示していることが分かる。

複数種類のイベントを含んで構成される時系列データが所定の１以上のカテゴリに属するものであるか否かを主成分分析法を用いて判定する本発明の時系列判定方法の実施の形態の一例を実施するためのプログラムの構成を示す図である。複数のユーザ１乃至ユーザ３からそれぞれ送られた３つの時系列データの構成の一例を示している。共起行列の変換を説明するために用いる図である。本実施の形態の判定ステップを実行するために用いるプログラムの構成部分を示したブロック図である。一つの共起行列をネットワーク構造として表現した結果を示す。エッジが１個の場合とエッジが２個の場合のサブネットワークの例を示す図である。層間で類似度の計算をすることを示す図である。一つの層の判定用ネットワークモデルとテスト用ネットワークモデルとの間の類似度の計算例を示す図である。実験における検知率と誤検知率の関係を示す図である。判定方法の相違による検知率と誤検知率の関係を示す図である。

Claims

複数種類のイベントを含んで構成される時系列データが所定の１以上のカテゴリに属するものであるか否かを判定する時系列データ判定方法であって、
予め学習用の複数の時系列データをそれぞれ予め定めたデータ長さのウィンドウで切り出して複数のウィンドウ・データを取り出すウィンドウ・データ取出ステップと、
前記ウィンドウ・データから前記データ長よりも短いデータ長を有する複数のスコープ・データを時間的なずれを持って順次抽出するスコープ・データ抽出ステップと、
前記複数のウィンドウ・データを複数の前記スコープ・データに基づいて前記ウィンドウ・データに含まれる前記複数種類のイベント相互間の時系列で見た関連性の強さを示す複数の共起行列に変換する共起行列変換ステップと、
前記複数の共起行列を入力として統計的特徴抽出方法により特徴ベクトルを求めるための基礎となる固有共起行列群を決定する固有共起行列群決定ステップと、
前記１以上のカテゴリを含む１以上のプロファイル学習用時系列データに対して前記ウィンドウ・データ取出ステップ、前記スコープ・データ抽出ステップ及び前記共起行列変換ステップと同様のステップをそれぞれ実施して、前記１以上のプロファイル学習用時系列データを１以上のプロファイル用共起行列に変換するプロファイル用共起行列変換ステップと、
前記１以上のプロファイル用共起行列と前記固有共起行列群とに基づいて前記１以上のプロファイル学習用時系列データについての１以上の判定用特徴ベクトルを抽出する判定用特徴ベクトル抽出ステップと、
テストの対象となるテスト時系列データに対して前記ウィンドウ・データ取出ステップ、前記スコープ・データ抽出ステップ及び前記共起行列変換ステップと同様のステップを実施して、前記テスト時系列データをテスト用共起行列に変換するテスト用共起行列変換ステップと、
前記テスト用共起行列と前記固有共起行列群とに基づいて前記テスト用時系列データについてのテスト用特徴ベクトルを抽出するテスト用特徴ベクトル抽出ステップと、
前記判定用特徴ベクトルと前記固有共起行列群を構成する複数の固有共起行列との掛け算に基づいて、前記複数の固有共起行列の次元を小さくした複数の判定用近似共起行列を取得する判定用近似共起行列取得ステップと、
前記複数の判定用近似共起行列からイベント抽出を行って判定用多層ネットワークモデルを生成する判定用多層ネットワークモデル生成ステップと、
前記テスト用特徴ベクトルと前記固有共起行列群を構成する複数の固有共起行列とを掛け算することにより、前記複数の固有共起行列の次元を小さくした複数のテスト用近似共起行列を取得するテスト用近似共起行列取得ステップと、
前記複数のテスト用近似共起行列からイベント抽出を行ってテスト用多層ネットワークモデルを生成するテスト用多層ネットワークモデル生成ステップと、
前記判定用多層ネットワークモデルと前記テスト用多層ネットワークモデルとに基づいて、前記テスト時系列データが前記１以上のカテゴリに属するか否かを判定する判定ステップとからなる時系列データ判定方法。
前記判定ステップでは、前記判定用多層ネットワークモデルと前記テスト用多層ネットワークモデルとの類似度に基づいて前記テスト時系列データが前記１以上のカテゴリに属するか否かを判定することを特徴とする請求項１に記載の時系列データ判定方法。
前記判定ステップでは、前記類似度が予め定めた閾値より大きいか否かにより、前記テスト時系列データが前記１以上のカテゴリに属するか否かを判定することを特徴とする請求項２に記載の時系列データ判定方法。
前記判定用多層ネットワークモデル及び前記テスト用多層ネットワークモデルは、それぞれ共起性が正の値から構成されるネットワークモデルと、共起性が負の値から構成されるネットワークモデルとからなり、
前記判定ステップでは、前記共起性が正の値から構成されるネットワークモデルと、前記共起性が負の値から構成されるネットワークモデルの少なくとも一方を用いて、前記類似度を求めることを特徴とする請求項２または３に記載の時系列データ判定方法。
請求項１乃至４のいずれか１項に記載の時系列データ判定方法を用いて、コンピュータシステムに入力される時系列データの異常を判別することを特徴とする時系列データ異常判別方法。