JP4662702B2

JP4662702B2 - 外れ値度計算装置

Info

Publication number: JP4662702B2
Application number: JP2003336648A
Authority: JP
Inventors: 健司山西; 純一竹内
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2003-09-29
Filing date: 2003-09-29
Publication date: 2011-03-30
Anticipated expiration: 2019-09-29
Also published as: JP2004078981A

Description

本発明は外れ値度計算装置に関し、特に多次元の時系列データから、これまでのデータのパターンに対して大きく外れる異常値や外れ値を検出する統計的外れ値検出、不正検出、詐欺検出技術に関するものである。

かかる外れ値度計算装置は、多次元の時系列データから、これまでのデータパターンに対して大きく外れる異常値や外れ値を発見するために使用されるものであり、例えば、携帯電話の通話記録から、いわゆるなりすまし使用（クローニング：cloning ）等の詐欺行為を発見したり、クレジッシカードの利用履歴から、異常な取引を発見したりする場合に利用される。

従来の機械学習技術を用いた不正検出の方式としては、非特許文献１及び２に開示のものが知られている。特に、統計的外れ値検出の考え方を利用したものに、非特許文献３がある。また、パラメトリックな有限混合モデルの学習アルゴリズムとしては、非特許文献４が知られている。更に、正規カーネル混合分布（同一の正規分布の有限個の混合）の学習アルゴリズムとしては、非特許文献５が知られている。

T. Fawcett, F. Provostによる"Combining data mining and machine learning for effective fraud detection" Proceedings of AI Approaches to Fraud Detection and Risk Management, pp:14-19,1997

J. Ryan, M. Lin, R. Miikkulainenによる"Intrusion detection with neural networks" Proceedings of AI Approaches to Fraud Detection and Risk Management, pp:72-77, 1997

P. BurgeとJ. Shaw-Taylorによる"Detecting cellular fraud using adaptive prototypes" in Proceedings of AI Approaches to Fraud Detection and Risk Management, pp:9-13, 1997

A. P. Dempster, N. M. Laird, D.B.RibinのEMアルゴリズムである"Maximum likelihood from incomplete data via the EM algorithm" Journal of the Royal Statistical Society, B, 39(1), pp:1-38, 1977

I. Grabec のプロトタイプ更新アルゴリズムである"Self-organization of Neurons described by the maximum-entropy principle " Biological Cybernetics, vol. 63, pp. 403-409, 1990

上述した非特許文献１による方式や、非特許文献２による方式は、不正であることが分かっているデータ（いわゆる教師付きデータ）から不正検出パターンを学習することによる不正検出の方式である。しかし、実際には不正データが十分揃えるのは難しく、よって精度良い学習が行えず、その結果として不正検出精度も低くなる。

また、非特許文献３による方式は、同様な教師無しデータからの不正検出の方式である。しかし、それらはノンパラメトリックな短期モデルと長期モデルの２つのモデルを用意して、それらの距離を外れ値の尺度として不正検出を行うものであった。よって、短期モデルと長期モデルの統計的根拠が乏しく、ゆえにそれらの距離の統計的意味が不明瞭であった。

加えて、短期と長期の２つのモデル用意するために、計算上非効率であり、かつ連続値データのみでカテゴリカルデータを扱えない、ノンパラメトリックモデルのみを扱っているので、不安定かつ非効率であるといった問題もあった。

また、統計モデルの学習アルゴリズムには、非特許文献４のＥＭアルゴリズムや非特許文献５のプロトタイプ更新アルゴリズムが知られているが、これらは過去の全てのデータを等しい重みをつけて学習しているので、パタンの変化があったときに対応できない。

本発明の目的は、不正であるか否かがわかっていないデータ（教師無しデータ）を元に自動的に不正検出を行うことが可能な外れ値度計算装置を提供することである。

本発明の他の目的は、統計的意味が明瞭な外れ値判定尺度を採用し、短期／長期を１つにまとめたモデルを用いることによって、計算の効率化を実現し、カテゴリカルデータにも対応でき、ノンパラメトリックだけではなくパラメトリックなモデルも用いて安定で効率的な外れ値検出を行うことが可能な外れ値度計算装置を提供することである。

本発明の更に他の目的は、過去のデータほど重みを減らし、忘却しながら学習するアルゴリズムを装置の中で実現することにより、パタンの変化にも柔軟に追従することが可能な外れ値度計算装置を提供することである。

複数の時点のデータからなる実数ベクトル値のデータ列を順次読み込んで、当該データの外れ値度を計算する外れ値度計算装置であって、有限個の正規分布密度の各々の平均パラメータと、分散パラメータ、および各正規分布の重みパラメータと前記データ列と同じ次元を有する正規分布の平均値ベクトルと前記データ列と同じ次元を有する正規分布の分散を表す正方行列を記憶するパラメータ記憶手段と、前記入力データ列のデータの値に対して、前記記憶手段から前記平均パラメータと前記分散パラメータおよび前記重みパラメータとを読み込んで、前記パラメータと正規分布の重ね合わせの数と忘却の早さを表わす数を用いて所定の計算処理を行い、各正規分布から該入力データが発生した確からしさを計算する確からしさ計算手段と、該確からしさ計算手段から確からしさを読み込み、前記平均値ベクトルと前記正方行列を前記パラメータ記憶手段から読み込み、前記確からしさと前記平均値ベクトルと前記正方行列を用いて、ある前記時点の前記データについて、前記忘却の早さを表わす数を用いて重みをつけた対数尤度を極大化するように、新たに前記平均パラメータと前記分散パラメータおよび前記重みパラメータを計算し、新たに入力された前記入力データに応じて過去のデータを忘却しつつ更新して該記憶手段の内容である前記平均パラメータと前記分散パラメータおよび前記重みパラメータを書き換えるパラメータ書換え手段とを有する確率密度推定装置と、前記確率密度推定装置の前記パラメータ書換え手段により更新された有限個の前記パラメータを使用して、この更新前後のパラメータおよび前記入力データから推定された確率分布に基づき前記入力データの外れ値度合いを、平方距離やHellinger 距離や対数損失を用いて、計算して出力する外れ値度計算手段と、を含むことを特徴とする外れ値度計算装置が得られる。

本発明の作用を述べる。本発明において、時系列データの一つの値をｘとすると、入力データは多次元のデータであると想定して、ｘの内容は、例えば、一つの実数、多次元の実数値ベクトル離散値の属性、それらを並べた多次元のベクトル等である。携帯電話の場合には、
ｘ＝（通話開始時刻，通話持続時間，発話地域）
が考えられるが、これは一例を示すにすぎないものである。

ｘが従う確率分布の確率密度関数はデータ発生機構（例えば、ユーザの通話パターン）の性質を表す。本発明にかかる外れ値度計算装置は、時系列にデータが与えられる毎に確率密度関数を学習するものである。かかる状況下において、「外れ値度」は基本的に次の１，２で示す二つの考え方で計算する様にしている。

１．一つの入力データの外れ値度は、学習した確率密度が、その入力データを取込むことによって、学習する前と比較してどれだけ変化したかという量によって計算される。これは、いままで、学習されてきた確率密度関数と傾向が大きく異なるデータは、外れ値度が大きいと考えられるからである。より具体的には、データが入力される前後の確率密度の間の距離関数を外れ値度として計算するのである。

２．これまでに学習で得られた確率密度関数の、入力データに対する尤度（確率密度関数の入力データに関する値）を計算する。この尤度が小さければ小さい程、外れ値度は大きいと考えられる。実際には、尤度の対数に負号を付けた値（負対数尤度）を外れ値度として出力する。

また、上記の二つの関数の組み合わせ等も使用することができる。以上の様に、本発明による装置は、確率密度関数で、データ発生機構の統計的性質を表現し（確率密度推定装置の機能）、これに基づき、入力データがいかにデータ発生機構の性質から外れているかを、「外れ値度」として計算して出力する（外れ値度計算装置の機能）ものである。

本発明によれば、不正であるか否かがわかっていないデータ（教師無しデータ）を元に自動的に不正検出を行うことが可能となり、また統計的意味が明瞭な外れ値判定尺度を採用し、短期／長期を１つにまとめたモデルを用いることによって、計算の効率化を実現し、カテゴリカルデータにも対応でき、ノンパラメトリックだけではなくパラメトリックなモデルも用いて安定で効率的な外れ値検出を行うことが可能となるという効果がある。また、本発明によれば、過去のデータほど重みを減らし、忘却しながら学習するアルゴリズムを装置の中で実現することにより、パタンの変化にも柔軟に追従することが可能となるという効果がある。

次に、本発明の実施の形態について図面を参照して詳細に説明する。先ず、正規混合分布を用いた確率密度推定装置について説明する。データｘ（ｄ次元ベクトル値）が確率分布として、

に従って発生するとする。

但し、

であるものとし、また、μi はｎ次元のベクトルであり、ｎ次元正規分布の平均値を表すパラメータであり、Σi はｎ元正方行列であり、ｎ元正規分布の分散を表すパラメータである。また、ｃi は正規分布の重みを表わすパラメータである。ここで、ｋは重ね合わせの数を表す整数であり、

が成り立つ。また、θ＝（ｃi ，μi ，Σi ，……，ｃk ，μk ，Σk ）をパラメータベクトルとする。

図１は本発明の一実施例による確率密度推定装置のブロック図である。ここでは、忘却の速さを表す定数ｒ（０≦ｒ≦１であり、ｒが小さい程、過去のデータを速く忘却する）と、正規分布の重ね合わせの数ｋとが、予め与えられているものとする。また、α（α＞０）なるパラメータも用いるが、この値も予め与えられているものとする。

図１において、パラメータ記憶装置１３は上述のパラメータθを記憶する装置であり、パラメータ書換え装置１２は、ｄ次元ベクトルμi ’及びｄ元正方行列Σi ’をも記憶することができる。尚、１０はデータ入力部を示し、１１は確からしさを計算する確からしさを計算装置であり、１４はパラメータ出力部を示している。

図２は図１のブロックの概略動作を示すフロー図であり、図１の装置は以下の様に動作する。先ず、データが読込まれる前にパラメータ記憶装置１３に格納されている各パラメータの値が初期化される（ステップＳ１０）。次に、ｔ番目のデータｘt が入力される度に、以下の様に動作する。入力ｘt が確からしさ計算装置１１およびパラメータ書換え装置１２に渡されて（ステップＳ１１）格納される。

確からしさ計算装置１１はパラメータ記憶装置１３より現在のパラメータの値θを読込み、これを用いて各正規分布がデータｘt を発生した各確からしさγi （ｉ＝１，２，……，Ｋ）を、

なる式によって計算し（ステップＳ１２）、パラメータ書換え装置１２に送り込む。パラメータ書換え装置１２はパラメータ記憶装置１３から現在のパラメータの値を読取りつつ、送り込まれた確からしさγi を用いて、パラメータの値の更新結果を、下記の式（２）〜（６）に示す様に、各ｉ＝１，２，……，ｋについて順次計算しつつパラメータ記憶装置１３に記憶されているパラメータの値を書換えて行く（ステップＳ１３）。尚、これ等式（２）〜（６）における“：＝”なる記号は右辺の項を左辺へ代入することを意味する。

そして、パラメータ記憶装置１３は書換えられたパラメータの値を出力する（ステップＳ１４）。この更新規則は（ｔ−ｌ）番目のデータについて、（１−ｒ）^lだけの重みをつけた対数尤度を極大化することに相当しており、過去のデータを次第に忘却していくような推定を実現している。従って、１／ｒ個ほど前までのデータを用いて学習していることになる（ｌは正の整数である）。

これは（１−ｒ）^l＝１／２の解が、
ｌ＝−（ｌｏｇ２）／ｌｏｇ（１−ｒ）〜（ｌｏｇ２）／ｒ
であることによる。

この様に、確率密度分布が上記の式（１）で表された関数を採用しており、この関数は有限個のパラメータで完全に指定されるものである。よって、この確率密度関数を表現するには、パラメータの値を指定すれば十分であることから、図１に示したパラメータ出力部１４により、当該確率密度関数が推定可能となる。この推定された確率密度関数を使用して、入力データの外れ値度を計算する装置について、図３にブロック図を示す。

図３は外れ値度計算装置の一実施例を示すブロック図である。本装置は、入部２０と、図１に示した確率密度推定装置２１と、入力データと確率密度推定装置２１からのパラメータとから推定された確率分布に基きデータの外れ値度、すなわちスコアを計算するスコア計算装置２２と、その結果を出力する出力部２３とからなっている。この図３に示す装置は、図４に示したフローに従い、ｔ番目のデータｘt が入力される度に、以下の順序で動作する。

入力ｘt は確率密度推定装置２１（正規混合分布）およびスコア計算装置２２に渡されて（ステップＳ２０）格納される。確率密度推定装置２１は入力されたデータに応じて格納しているパラメータの値を更新し（ステップＳ２１）、新しい値をスコア計算装置２２に入力する。スコア計算装置２２では、入力されたデータ、パラメータの値、過去に渡されたパラメータの値を用いてスコア（ステップＳ２２）を計算して出力する（ステップＳ２３）。外れ値度を示すスコアは例えば、平方距離、Hellinger 距離、更には対数損失を用いて計算される。

以下、具体的に説明する。データｘ^t＝ｘ1 ｘ2 ……ｘt によって推定されたパラメータをθ^(t)として、
ｐ^(t)（ｘ）＝ｐ（ｘ｜θ^(t)）
と表し、確率分布ｐとｑに対して、ｄs （ｐ，ｑ）で二つの分布の間の平方距離を、ｄh （ｐ，ｑ）でHellinger 距離を表すとき、スコアとして、

のいずれかを用いることができる。対数損失を用いる場合は、
−ｌｏｇｐ^{(t-1 )}（ｘt ）
で計ることができる。これらはただちに、Ｔを正の整数としてｄs （ｐ^(t)，ｐ^(t-T) ）等に一般化できる。

次に、本発明による確率密度推定装置の他の実施の形態を示す。この例では、、データ発生のモデルとして、カーネル混合分布である

を使用する。ここで、“ω（・：・）はカーネル関数とよばれるもので、正規密度関数

の形で与えられる（これを正規分布カーネルと呼ぶ）。Σは対角行列であり、
Σ＝diag（σ²，……，σ²）
である。尚、σは与えられた正数である。各ｑi はｄ次元のベクトルであり、各カーネル関数の位置を指定するパラメータである。｛ｑi ｝はプロトタイプと呼ばれる。尚、ｘm でｘのｍ番目の成分を表す。同様に、ｑimでｑi のｍ番目の成分を表す。

図５はカーネル混合分布を使用した確率密度推定装置のブロック図である。パラメータ記憶装置３２はｑ＝（ｑ1 ，ｑ2 ，……ｑk ）を記憶する機能を有する。尚、図５において、３０は入力部、３１はパラメータ書換え装置、３３は出力部である。図５に示した装置は図６のフローに従って以下の様に動作する。先ず、データが読込まれる前にパラメータ記憶装置３２に格納されているパラメータの値を初期化する（ステップＳ３０）。そして、ｔ番目のデータｘt が入力される度に、以下の順序で動作する。入力ｘt がパラメータ書換え装置３１に渡され（ステップＳ３１）て格納される。パラメータ書換え装置３１はパラメータ記憶装置３２より、現在のパラメータの値ｑを読込み、次式の連立一次方程式（ｋ＝１，２，……，Ｋ，ｌ＝１，２，……，ｄ）

（δmlはクロネッカーのデルタを表す。すなわち、ｍ＝１のときに１を、そうでないとき０に等しい）の解Δｑを求め、ｑ：＝ｑ＋Δｑとしてパラメータ記憶装置３２に格納されているパラメータの値を書換える（ステップＳ３２）。パラメータ記憶装置３２は書換えられたパラメータの値を出力する（ステップＳ３３）。

以上の更新規則において、ｒは忘却の速さを制御するパラメータとなっている。すなわち、該規則を順次適用して得られるカーネル混合分布は

なる確率密度からの平方距離を最小化する。P. Burge とJ. Shaw-Taylorが採用しているI. Grabec によるアルゴリズムは、上記においてｒの部分を定数ではなく、１／τにしたものに対応している。その場合は式（８）に対応する式は、

という単純なものになる。

この図５に示したカーネル混合分布を使用した確率密度推定装置から得られたパラメータを用いて、入力データの外れ値度を算出する外れ値度算出装置の例が図７に示されている。図７において、４０は入力部、４１は図５の確率密度推定装置、４２はスコア計算装置、４３は出力部である。

図７に示した装置はｔ番目のデータｘt が入力される度に、図８に示すフローに従い以下の順序で動作する。入力ｘt が確率密度推定装置４１（カーネル混合分布）およびスコア計算装置４２に渡されて（ステップＳ４０）格納される。確率密度推定装置４１は入力されたデータに応じて格納しているパラメータの値を更新し（ステップＳ４１）、新しい値をスコア計算装置４２に供給する。スコア計算装置４２では、入力されたデータ、パラメータの値、過去に渡されたパラメータの値を用いてスコアを計算して出力する（ステップＳ４２，Ｓ４３）。この場合に用いられるスコア関数には、図３に示した外れ値度計算装置と同様のものを用いることができる。

図９は本発明による忘却型ヒストグラム計算装置の全体構成図である。パラメータ更新装置５１に離散値データが順次入力され、パラメータ更新装置５１には、ヒストグラム記憶装置５２が接続され、ヒストグラム記憶装置５２はヒストグラムのパラメータ値を記憶し、これらを出力する。尚、５０は入力部、５３は出力部である。

図１０は図９の装置の動作を示すフローである。離散値データはｎ個の変数で指定されているとする。いま、ｎ次元のデータ空間が予めＮ個の排反なセルに分割されているとし、これらのセル上にヒストグラムが構成されるものとする。ヒストグラムは確率分布を表し、（ｐ1 ，……，ｐN ）

をパラメータとする。

ここに、ｐj はｊ番目のセルの生起確率である。Ｔ0 （ｊ）＝０（ｊ＝１，……，Ｎ），０＜ｒ＜１，β＞０は与えられた数とし、パラメータの初期を、
ｐ⁽⁰⁾（１）＝……＝ｐ⁽⁰⁾（Ｎ）＝１／Ｎ
とする（ステップＳ５０）。

パラメータ更新装置５１はｔ番目に入力されたデータに対して（ステップＳ５１）、

なる更新を行う（ステップＳ５２）。ここに、δt （ｊ）は、ｔ番目のデータがｊ番目のセルに入れば１、そうでなければ０をとる。この更新を全てのセルについて行う。

ｐ^(t)（１），……，ｐ^(t)（Ｎ）
をヒストグラムの新しいパラメータとして更新する。これらの値はヒストグラム記憶装置５２に送られる。ヒストグラム記憶装置５２は過去の幾つかのパラメータ値を記憶しており、それらの一部を出力する（ステップＳ５３）。

パラメータ更新装置５１は、各ステップでｔ時刻前のデータに、（１−ｒ）^tだけの重みを掛けて算出している。この重み付けは、過去のデータほど徐々に忘れていくことを示しており、忘却しながら学習するアルゴリズムが装置の中で実現されている。これにより、ユーザパターンの変化に柔軟に追随することが可能となる。

なお、忘却型ヒストグラムとは、カテゴリ変数上の確率分布を表し、連続変数上の確率密度関数と同様に、データの発生機構の統計的性質を表現するものである。よって、この「忘却型ヒストグラム計算装置」と「外れ値度計算装置」との関係は、上述した「確率密度推定装置」と「外れ値度計算装置」との関係と全く同一である。すなわち、「忘却型ヒストグラム計算装置」でデータの発生機構の統計的計算を表現し、これに基づいて「外れ値度計算装置」が入力データがいかにデータ発生機構の性質から外れているかを「外れ値度」として計算することになる。

そこで、図１１に図９に示した忘却型ヒストグラム計算装置を使用した外れ値度計算装置の全体構成を示しており、図１２はその動作フローである。入力部６０からの離散値データは忘却型ヒストグラム計算装置６１とスコア計算装置６２とに順次入力される（ステップＳ６１）。忘却型ヒストグラム計算装置６１には、スコア計算装置６２が接続され、忘却型ヒストグラム計算装置６１は入力データからヒストグラムのパラメータ値を出力し（ステップＳ６２）、スコア計算装置６２に送る。スコア計算装置６２は入力データと忘却型ヒストグラム計算装置６１の出力を入力として、入力データの外れ値度合のスコアを計算する（ステップＳ６３）。

この場合におけるスコアの計算法としては、連続値データの場合と同様、平方距離、Hellinger 距離、対数損失等を用いる。但し、ヒストグラムでは、ｊ番目のセルに入るデータｘについての時刻ｔにおける確率値をｐ^(t)（ｘ）＝ｐ^(t)（ｊ）／Ｌj で計算する。ここに、Ｌj はｊ番目のセルに入る点の数であり、ｐ^(t)（ｊ）は時刻ｔにおけるｊ番目のセルの確率値である。これを利用して、平方距離ｄs （ｐ^(t)，ｐ^(t-1)）と、Hellinger 距離ｄh （ｐ^(t)，ｐ^(t-1)）とは、それぞれ、

で計算する。

スコア計算装置６２がこれらを計算するには、忘却型ヒストグラム計算装置６１から、ｐ^(t)とｐ^(t-1)とのパラメータ値をもらうように設定する。また、対数損失は時刻ｔの入力データｘt に対して、
−ｌｏｇｐ^(t-1)（ｘt ）
で計算する。

以上のスコアは推定された分布の変化を統計的距離で計ったもの、あるいは入力データの推定された分布に対する対数損失という意味を有し、いずれも統計的意味が明瞭である。

図１３は図１に示した正規混合分布の確率密度推定装置と図９に示した忘却型ヒストグラム計算装置とを用いた本発明の他の外れ値度計算装置の実施例の全体構成図であり、図１４はその動作フローである。離散値変量と連続値変量の両者で記述された入力データは忘却型ヒストグラム計算装置７１とセル判別装置７３とスコア計算装置７４に順次入力される（ステップＳ７１）。セル判別装置７３にはＮ個の正規混合分布用の確率密度計算装置７２１〜７２Ｎが接続されている。ここに、Ｎは忘却型ヒストグラム計算装置７１のヒストグラムでセルの数である。全ての確率密度計算装置７２１〜７２Ｎと忘却型ヒストグラム計算装置７１にスコア計算装置７４が接続されている。

忘却型ヒストグラム計算装置７１は入力データの離散データ部分だけからヒストグラムのパラメータを計算し（ステップＳ７２）、これをスコア計算装置７４に送る。セル判別装置７３は入力データの離散データ部分がヒストグラムのどのセルに属するのかを判別して（ステップＳ７３）、対応する確率密度推定装置に連続データ部分を送り込む。

確率密度計算装置７２１〜７２Ｎは入力データが送り込まれたときにだけ、確率密度のパラメータを計算し（ステップＳ７４）、これをスコア計算装置７４に送り込む。スコア計算装置７４は入力データと忘却型ヒストグラム計算装置７１の出力と確率密度計算装置７２１〜７２Ｎのいずれかからの出力を入力として、もとの入力データのスコアを計算し（ステップＳ７５）、これを出力とする（ステップＳ７６）。

スコア計算装置７４はスコアを、例えば、確率分布の変化度合をHellinger 距離で測るか、または入力データに対する確率分布の負対数尤度（対数損失）で計算する。カテゴリカル変数をまとめたベクトルをｘ、連続値変数をまとめたベクトルをｙとする。ｘとｙの同時分布を以下のように表す。
ｐ（ｘ，ｙ）＝ｐ（ｘ）ｐ（ｙ｜ｘ）
ここに、ｐ（ｘ）はｘの確率分布を表す。これはヒストグラム密度で表される。ｐ（ｙ｜ｘ）はｘが与えられたもとでのｙの条件付き確率分布を表す。これは、分割領域のそれぞれに対して備えられる。新しい入力データＤt ＝（ｘt ，ｙt ）に対して、Hellinger 距離は以下で計算する。

これらは直ちに、Ｔを正の整数としてｐ^(t)とｐ^(t-T)の距離に一般化される。

また、対数損失は以下で計算する。

図１５は図５のカーネル混合分布による確率密度推定装置と図９に示した忘却型ヒストグラム計算装置とを使用した本発明の外れ値度計算装置の全体構成図であり、図１６はその動作フローである。離散値変量と連続値変量の両者で記述された入力データは忘却型ヒストグラム計算装置８１とセル判別装置８３とスコア計算装置８４に順次入力される（ステップＳ８１）。セル判別装置８３にはＮ個のカーネル混合分布用の確率密度計算装置８２１〜８２Ｎが接続されている。ここに、Ｎは忘却型ヒストグラム計算装置８１のヒストグラムでセルの数である。

全ての確率密度計算装置８２１〜８２Ｎと忘却型ヒストグラム計算装置８１にスコア計算装置８４が接続されている。忘却型ヒストグラム計算装置８１は入力データの離散データ部分だけからヒストグラムのパラメータを計算し（ステップＳ８２）、これをスコア計算装置８４に送る。セル判別装置８３は入力データの離散データ部分がヒストグラムのどのセルに属するのかを判別して（ステップＳ８３）、対応する確率密度推定装置に連続データ部分を送り込む。確率密度計算装置８２１〜８２Ｎは入力データが送り込まれたときにだけ、確率密度のパラメータを計算し（ステップＳ８４）、これをスコア計算装置８４に送り込む（ステップＳ８５）。

スコア計算装置８４は入力データと忘却型ヒストグラム計算装置８１の出力と確率密度計算装置８２１〜８２Ｎのいずれかからの出力を入力として、もとの入力データのスコアを計算し、これを出力とする（ステップＳ８６）。スコアの計算方法は図１３に示した外れ値度計算装置と同様である。

本発明による確率密度推定装置（正規混合分布）の一例の構成を示す図である。図１の装置の動作フロー図である。図１の装置を使用した外れ値度計算装置の例を示す構成図である。図３の装置の動作フロー図である。本発明による確率密度推定装置（混合カーネル分布）の一例の構成を示す図である。図５の装置の動作フロー図である。図６の装置を使用した外れ値度計算装置の例を示す構成図である。図７の装置の動作フロー図である。本発明による忘却型ヒストグラム計算装置の一例の構成を示す図である。図９の装置の動作フロー図である。図１０の装置を使用した外れ値度計算装置の例を示す構成図である。図１１の装置の動作フロー図である。図１および図９の装置を使用した外れ値度計算装置の例を示す構成図である。図１３の装置の動作フロー図である。図５および図９の装置を使用した外れ値度計算装置の例を示す構成図である。図１５の装置の動作フロー図である。

符号の説明

１１確からしさ計算装置
１２，３１パラメータ書換え装置
１３，３２パラメータ記憶装置
２１，７２１〜７２Ｎ確率密度推定装置（正規混合分布）
２２，４２，６２，７４，８４スコア計算装置
４１，８２１〜８２Ｎ確率密度推定装置（混合カーネル分布）
５１パラメータ更新装置
５２ヒストグラム記憶装置
６１，７１，８１忘却型ヒストグラム計算装置
７３，８３セル判別装置

Claims

複数の時点のデータからなる実数ベクトル値のデータ列を順次読み込んで、当該データの外れ値度を計算する外れ値度計算装置であって、
有限個の正規分布密度の各々の平均パラメータと、分散パラメータ、および各正規分布の重みパラメータと前記データ列と同じ次元を有する正規分布の平均値ベクトルと前記データ列と同じ次元を有する正規分布の分散を表す正方行列を記憶するパラメータ記憶手段と、前記入力データ列のデータの値に対して、前記記憶手段から前記平均パラメータと前記分散パラメータおよび前記重みパラメータとを読み込んで、前記パラメータと正規分布の重ね合わせの数と忘却の早さを表わす数を用いて所定の計算処理を行い、各正規分布から該入力データが発生した確からしさを計算する確からしさ計算手段と、
該確からしさ計算手段から確からしさを読み込み、前記平均値ベクトルと前記正方行列を前記パラメータ記憶手段から読み込み、前記確からしさと前記平均値ベクトルと前記正方行列を用いて、ある前記時点の前記データについて、前記忘却の早さを表わす数を用いて重みをつけた対数尤度を極大化するように、新たに前記平均パラメータと前記分散パラメータおよび前記重みパラメータを計算し、新たに入力された前記入力データに応じて過去のデータを忘却しつつ更新して該記憶手段の内容である前記平均パラメータと前記分散パラメータおよび前記重みパラメータを書き換えるパラメータ書換え手段とを有する確率密度推定装置と、
前記確率密度推定装置の前記パラメータ書換え手段により更新された有限個の前記パラメータを使用して、この更新前後のパラメータおよび前記入力データから推定された確率分布に基づき前記入力データの外れ値度合いを、平方距離やHellinger 距離や対数損失を用いて、計算して出力する外れ値度計算手段と、
を含むことを特徴とする外れ値度計算装置。