JP4662702B2 - 外れ値度計算装置 - Google Patents

外れ値度計算装置 Download PDF

Info

Publication number
JP4662702B2
JP4662702B2 JP2003336648A JP2003336648A JP4662702B2 JP 4662702 B2 JP4662702 B2 JP 4662702B2 JP 2003336648 A JP2003336648 A JP 2003336648A JP 2003336648 A JP2003336648 A JP 2003336648A JP 4662702 B2 JP4662702 B2 JP 4662702B2
Authority
JP
Japan
Prior art keywords
parameter
data
probability
outlier
forgetting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003336648A
Other languages
English (en)
Other versions
JP2004078981A (ja
Inventor
健司 山西
純一 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2003336648A priority Critical patent/JP4662702B2/ja
Publication of JP2004078981A publication Critical patent/JP2004078981A/ja
Application granted granted Critical
Publication of JP4662702B2 publication Critical patent/JP4662702B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)

Description

本発明は外れ値度計算装置に関し、特に多次元の時系列データから、これまでのデータのパターンに対して大きく外れる異常値や外れ値を検出する統計的外れ値検出、不正検出、詐欺検出技術に関するものである。
かかる外れ値度計算装置は、多次元の時系列データから、これまでのデータパターンに対して大きく外れる異常値や外れ値を発見するために使用されるものであり、例えば、携帯電話の通話記録から、いわゆるなりすまし使用(クローニング:cloning )等の詐欺行為を発見したり、クレジッシカードの利用履歴から、異常な取引を発見したりする場合に利用される。
従来の機械学習技術を用いた不正検出の方式としては、非特許文献1及び2に開示のものが知られている。特に、統計的外れ値検出の考え方を利用したものに、非特許文献3がある。また、パラメトリックな有限混合モデルの学習アルゴリズムとしては、非特許文献4が知られている。更に、正規カーネル混合分布(同一の正規分布の有限個の混合)の学習アルゴリズムとしては、非特許文献5が知られている。
T. Fawcett, F. Provostによる"Combining data mining and machine learning for effective fraud detection" Proceedings of AI Approaches to Fraud Detection and Risk Management, pp:14-19,1997
J. Ryan, M. Lin, R. Miikkulainenによる"Intrusion detection with neural networks" Proceedings of AI Approaches to Fraud Detection and Risk Management, pp:72-77, 1997
P. BurgeとJ. Shaw-Taylorによる"Detecting cellular fraud using adaptive prototypes" in Proceedings of AI Approaches to Fraud Detection and Risk Management, pp:9-13, 1997
A. P. Dempster, N. M. Laird, D.B.RibinのEMアルゴリズムである"Maximum likelihood from incomplete data via the EM algorithm" Journal of the Royal Statistical Society, B, 39(1), pp:1-38, 1977
I. Grabec のプロトタイプ更新アルゴリズムである"Self-organization of Neurons described by the maximum-entropy principle " Biological Cybernetics, vol. 63, pp. 403-409, 1990
上述した非特許文献1による方式や、非特許文献2による方式は、不正であることが分かっているデータ(いわゆる教師付きデータ)から不正検出パターンを学習することによる不正検出の方式である。しかし、実際には不正データが十分揃えるのは難しく、よって精度良い学習が行えず、その結果として不正検出精度も低くなる。
また、非特許文献3による方式は、同様な教師無しデータからの不正検出の方式である。しかし、それらはノンパラメトリックな短期モデルと長期モデルの2つのモデルを用意して、それらの距離を外れ値の尺度として不正検出を行うものであった。よって、短期モデルと長期モデルの統計的根拠が乏しく、ゆえにそれらの距離の統計的意味が不明瞭であった。
加えて、短期と長期の2つのモデル用意するために、計算上非効率であり、かつ連続値データのみでカテゴリカルデータを扱えない、ノンパラメトリックモデルのみを扱っているので、不安定かつ非効率であるといった問題もあった。
また、統計モデルの学習アルゴリズムには、非特許文献4のEMアルゴリズムや非特許文献5のプロトタイプ更新アルゴリズムが知られているが、これらは過去の全てのデータを等しい重みをつけて学習しているので、パタンの変化があったときに対応できない。
本発明の目的は、不正であるか否かがわかっていないデータ(教師無しデータ)を元に自動的に不正検出を行うことが可能な外れ値度計算装置を提供することである。
本発明の他の目的は、統計的意味が明瞭な外れ値判定尺度を採用し、短期/長期を1つにまとめたモデルを用いることによって、計算の効率化を実現し、カテゴリカルデータにも対応でき、ノンパラメトリックだけではなくパラメトリックなモデルも用いて安定で効率的な外れ値検出を行うことが可能な外れ値度計算装置を提供することである。
本発明の更に他の目的は、過去のデータほど重みを減らし、忘却しながら学習するアルゴリズムを装置の中で実現することにより、パタンの変化にも柔軟に追従することが可能な外れ値度計算装置を提供することである。
複数の時点のデータからなる実数ベクトル値のデータ列を順次読み込んで、当該データの外れ値度を計算する外れ値度計算装置であって、有限個の正規分布密度の各々の平均パラメータと、分散パラメータ、および各正規分布の重みパラメータと前記データ列と同じ次元を有する正規分布の平均値ベクトルと前記データ列と同じ次元を有する正規分布の分散を表す正方行列を記憶するパラメータ記憶手段と、前記入力データ列のデータの値に対して、前記記憶手段から前記平均パラメータと前記分散パラメータおよび前記重みパラメータと読み込んで、前記パラメータと正規分布の重ね合わせの数と忘却の早さを表わす数を用いて所定の計算処理を行い、各正規分布から該入力データが発生した確からしさを計算する確からしさ計算手段と、該確からしさ計算手段から確からしさを読み込み、前記平均値ベクトルと前記正方行列を前記パラメータ記憶手段から読み込み、前記確からしさと前記平均値ベクトルと前記正方行列を用いて、ある前記時点の前記データについて、前記忘却の早さを表わす数を用いて重みをつけた対数尤度を極大化するように、新たに前記平均パラメータと前記分散パラメータおよび前記重みパラメータを計算し、新たに入力された前記入力データに応じて過去のデータを忘却しつつ更新して該記憶手段の内容である前記平均パラメータと前記分散パラメータおよび前記重みパラメータを書き換えるパラメータ書換え手段とを有する確率密度推定装置と、 前記確率密度推定装置の前記パラメータ書換え手段により更新された有限個の前記パラメータを使用して、この更新前後のパラメータおよび前記入力データから推定された確率分布に基づき前記入力データの外れ値度合いを、平方距離やHellinger 距離や対数損失を用いて、計算して出力する外れ値度計算手段と、を含むことを特徴とする外れ値度計算装置が得られる。
本発明の作用を述べる。本発明において、時系列データの一つの値をxとすると、入力データは多次元のデータであると想定して、xの内容は、例えば、一つの実数、多次元の実数値ベクトル離散値の属性、それらを並べた多次元のベクトル等である。携帯電話の場合には、
x=(通話開始時刻,通話持続時間,発話地域)
が考えられるが、これは一例を示すにすぎないものである。
xが従う確率分布の確率密度関数はデータ発生機構(例えば、ユーザの通話パターン)の性質を表す。本発明にかかる外れ値度計算装置は、時系列にデータが与えられる毎に確率密度関数を学習するものである。かかる状況下において、「外れ値度」は基本的に次の1,2で示す二つの考え方で計算する様にしている。
1.一つの入力データの外れ値度は、学習した確率密度が、その入力データを取込むことによって、学習する前と比較してどれだけ変化したかという量によって計算される。これは、いままで、学習されてきた確率密度関数と傾向が大きく異なるデータは、外れ値度が大きいと考えられるからである。より具体的には、データが入力される前後の確率密度の間の距離関数を外れ値度として計算するのである。
2.これまでに学習で得られた確率密度関数の、入力データに対する尤度(確率密度関数の入力データに関する値)を計算する。この尤度が小さければ小さい程、外れ値度は大きいと考えられる。実際には、尤度の対数に負号を付けた値(負対数尤度)を外れ値度として出力する。
また、上記の二つの関数の組み合わせ等も使用することができる。以上の様に、本発明による装置は、確率密度関数で、データ発生機構の統計的性質を表現し(確率密度推定装置の機能)、これに基づき、入力データがいかにデータ発生機構の性質から外れているかを、「外れ値度」として計算して出力する(外れ値度計算装置の機能)ものである。
本発明によれば、不正であるか否かがわかっていないデータ(教師無しデータ)を元に自動的に不正検出を行うことが可能となり、また統計的意味が明瞭な外れ値判定尺度を採用し、短期/長期を1つにまとめたモデルを用いることによって、計算の効率化を実現し、カテゴリカルデータにも対応でき、ノンパラメトリックだけではなくパラメトリックなモデルも用いて安定で効率的な外れ値検出を行うことが可能となるという効果がある。また、本発明によれば、過去のデータほど重みを減らし、忘却しながら学習するアルゴリズムを装置の中で実現することにより、パタンの変化にも柔軟に追従することが可能となるという効果がある。
次に、本発明の実施の形態について図面を参照して詳細に説明する。先ず、正規混合分布を用いた確率密度推定装置について説明する。データx(d次元ベクトル値)が確率分布として、
Figure 0004662702
に従って発生するとする。
但し、
Figure 0004662702
であるものとし、また、μi はn次元のベクトルであり、n次元正規分布の平均値を表すパラメータであり、Σi はn元正方行列であり、n元正規分布の分散を表すパラメータである。また、ci は正規分布の重みを表わすパラメータである。ここで、kは重ね合わせの数を表す整数であり、
Figure 0004662702
が成り立つ。また、θ=(ci ,μi ,Σi ,……,ck ,μk ,Σk )をパラメータベクトルとする。
図1は本発明の一実施例による確率密度推定装置のブロック図である。ここでは、忘却の速さを表す定数r(0≦r≦1であり、rが小さい程、過去のデータを速く忘却する)と、正規分布の重ね合わせの数kとが、予め与えられているものとする。また、α(α>0)なるパラメータも用いるが、この値も予め与えられているものとする。
図1において、パラメータ記憶装置13は上述のパラメータθを記憶する装置であり、パラメータ書換え装置12は、d次元ベクトルμi ’及びd元正方行列Σi ’をも記憶することができる。尚、10はデータ入力部を示し、11は確からしさを計算する確からしさを計算装置であり、14はパラメータ出力部を示している。
図2は図1のブロックの概略動作を示すフロー図であり、図1の装置は以下の様に動作する。先ず、データが読込まれる前にパラメータ記憶装置13に格納されている各パラメータの値が初期化される(ステップS10)。次に、t番目のデータxt が入力される度に、以下の様に動作する。入力xt が確からしさ計算装置11およびパラメータ書換え装置12に渡されて(ステップS11)格納される。
確からしさ計算装置11はパラメータ記憶装置13より現在のパラメータの値θを読込み、これを用いて各正規分布がデータxt を発生した各確からしさγi (i=1,2,……,K)を、
Figure 0004662702
なる式によって計算し(ステップS12)、パラメータ書換え装置12に送り込む。パラメータ書換え装置12はパラメータ記憶装置13から現在のパラメータの値を読取りつつ、送り込まれた確からしさγi を用いて、パラメータの値の更新結果を、下記の式(2)〜(6)に示す様に、各i=1,2,……,kについて順次計算しつつパラメータ記憶装置13に記憶されているパラメータの値を書換えて行く(ステップS13)。尚、これ等式(2)〜(6)における“:=”なる記号は右辺の項を左辺へ代入することを意味する。
Figure 0004662702
そして、パラメータ記憶装置13は書換えられたパラメータの値を出力する(ステップS14)。この更新規則は(t−l)番目のデータについて、(1−r)l だけの重みをつけた対数尤度を極大化することに相当しており、過去のデータを次第に忘却していくような推定を実現している。従って、1/r個ほど前までのデータを用いて学習していることになる(lは正の整数である)。
これは(1−r)l =1/2の解が、
l=−(log2)/log(1−r)〜(log2)/r
であることによる。
この様に、確率密度分布が上記の式(1)で表された関数を採用しており、この関数は有限個のパラメータで完全に指定されるものである。よって、この確率密度関数を表現するには、パラメータの値を指定すれば十分であることから、図1に示したパラメータ出力部14により、当該確率密度関数が推定可能となる。この推定された確率密度関数を使用して、入力データの外れ値度を計算する装置について、図3にブロック図を示す。
図3は外れ値度計算装置の一実施例を示すブロック図である。本装置は、入部20と、図1に示した確率密度推定装置21と、入力データと確率密度推定装置21からのパラメータとから推定された確率分布に基きデータの外れ値度、すなわちスコアを計算するスコア計算装置22と、その結果を出力する出力部23とからなっている。この図3に示す装置は、図4に示したフローに従い、t番目のデータxt が入力される度に、以下の順序で動作する。
入力xt は確率密度推定装置21(正規混合分布)およびスコア計算装置22に渡されて(ステップS20)格納される。確率密度推定装置21は入力されたデータに応じて格納しているパラメータの値を更新し(ステップS21)、新しい値をスコア計算装置22に入力する。スコア計算装置22では、入力されたデータ、パラメータの値、過去に渡されたパラメータの値を用いてスコア(ステップS22)を計算して出力する(ステップS23)。外れ値度を示すスコアは例えば、平方距離、Hellinger 距離、更には対数損失を用いて計算される。
以下、具体的に説明する。データxt =x1 x2 ……xt によって推定されたパラメータをθ(t) として、
(t) (x)=p(x|θ(t)
と表し、確率分布pとqに対して、ds (p,q)で二つの分布の間の平方距離を、dh (p,q)でHellinger 距離を表すとき、スコアとして、
Figure 0004662702
のいずれかを用いることができる。対数損失を用いる場合は、
−logp(t-1 )(xt )
で計ることができる。これらはただちに、Tを正の整数としてds (p(t) ,p(t-T) )等に一般化できる。
次に、本発明による確率密度推定装置の他の実施の形態を示す。この例では、、データ発生のモデルとして、カーネル混合分布である
Figure 0004662702
を使用する。ここで、“ω(・:・)はカーネル関数とよばれるもので、正規密度関数
Figure 0004662702
の形で与えられる(これを正規分布カーネルと呼ぶ)。Σは対角行列であり、
Σ=diag(σ2 ,……,σ2
である。尚、σは与えられた正数である。各qi はd次元のベクトルであり、各カーネル関数の位置を指定するパラメータである。{qi }はプロトタイプと呼ばれる。尚、xm でxのm番目の成分を表す。同様に、qimでqi のm番目の成分を表す。
図5はカーネル混合分布を使用した確率密度推定装置のブロック図である。パラメータ記憶装置32はq=(q1 ,q2 ,……qk )を記憶する機能を有する。尚、図5において、30は入力部、31はパラメータ書換え装置、33は出力部である。図5に示した装置は図6のフローに従って以下の様に動作する。先ず、データが読込まれる前にパラメータ記憶装置32に格納されているパラメータの値を初期化する(ステップS30)。そして、t番目のデータxt が入力される度に、以下の順序で動作する。入力xt がパラメータ書換え装置31に渡され(ステップS31)て格納される。パラメータ書換え装置31はパラメータ記憶装置32より、現在のパラメータの値qを読込み、次式の連立一次方程式(k=1,2,……,K,l=1,2,……,d)
Figure 0004662702
(δmlはクロネッカーのデルタを表す。すなわち、m=1のときに1を、そうでないとき0に等しい)の解Δqを求め、q:=q+Δqとしてパラメータ記憶装置32に格納されているパラメータの値を書換える(ステップS32)。パラメータ記憶装置32は書換えられたパラメータの値を出力する(ステップS33)。
以上の更新規則において、rは忘却の速さを制御するパラメータとなっている。すなわち、該規則を順次適用して得られるカーネル混合分布は
Figure 0004662702
なる確率密度からの平方距離を最小化する。P. Burge とJ. Shaw-Taylorが採用しているI. Grabec によるアルゴリズムは、上記においてrの部分を定数ではなく、1/τにしたものに対応している。その場合は式(8)に対応する式は、
Figure 0004662702
という単純なものになる。
この図5に示したカーネル混合分布を使用した確率密度推定装置から得られたパラメータを用いて、入力データの外れ値度を算出する外れ値度算出装置の例が図7に示されている。図7において、40は入力部、41は図5の確率密度推定装置、42はスコア計算装置、43は出力部である。
図7に示した装置はt番目のデータxt が入力される度に、図8に示すフローに従い以下の順序で動作する。入力xt が確率密度推定装置41(カーネル混合分布)およびスコア計算装置42に渡されて(ステップS40)格納される。確率密度推定装置41は入力されたデータに応じて格納しているパラメータの値を更新し(ステップS41)、新しい値をスコア計算装置42に供給する。スコア計算装置42では、入力されたデータ、パラメータの値、過去に渡されたパラメータの値を用いてスコアを計算して出力する(ステップS42,S43)。この場合に用いられるスコア関数には、図3に示した外れ値度計算装置と同様のものを用いることができる。
図9は本発明による忘却型ヒストグラム計算装置の全体構成図である。パラメータ更新装置51に離散値データが順次入力され、パラメータ更新装置51には、ヒストグラム記憶装置52が接続され、ヒストグラム記憶装置52はヒストグラムのパラメータ値を記憶し、これらを出力する。尚、50は入力部、53は出力部である。
図10は図9の装置の動作を示すフローである。離散値データはn個の変数で指定されているとする。いま、n次元のデータ空間が予めN個の排反なセルに分割されているとし、これらのセル上にヒストグラムが構成されるものとする。ヒストグラムは確率分布を表し、(p1 ,……,pN )
Figure 0004662702
をパラメータとする。
ここに、pj はj番目のセルの生起確率である。T0 (j)=0(j=1,……,N),0<r<1,β>0は与えられた数とし、パラメータの初期を、
(0) (1)=……=p(0) (N)=1/N
とする(ステップS50)。
パラメータ更新装置51はt番目に入力されたデータに対して(ステップS51)、
Figure 0004662702
なる更新を行う(ステップS52)。ここに、δt (j)は、t番目のデータがj番目のセルに入れば1、そうでなければ0をとる。この更新を全てのセルについて行う。
(t) (1),……,p(t) (N)
をヒストグラムの新しいパラメータとして更新する。これらの値はヒストグラム記憶装置52に送られる。ヒストグラム記憶装置52は過去の幾つかのパラメータ値を記憶しており、それらの一部を出力する(ステップS53)。
パラメータ更新装置51は、各ステップでt時刻前のデータに、(1−r)t だけの重みを掛けて算出している。この重み付けは、過去のデータほど徐々に忘れていくことを示しており、忘却しながら学習するアルゴリズムが装置の中で実現されている。これにより、ユーザパターンの変化に柔軟に追随することが可能となる。
なお、忘却型ヒストグラムとは、カテゴリ変数上の確率分布を表し、連続変数上の確率密度関数と同様に、データの発生機構の統計的性質を表現するものである。よって、この「忘却型ヒストグラム計算装置」と「外れ値度計算装置」との関係は、上述した「確率密度推定装置」と「外れ値度計算装置」との関係と全く同一である。すなわち、「忘却型ヒストグラム計算装置」でデータの発生機構の統計的計算を表現し、これに基づいて「外れ値度計算装置」が入力データがいかにデータ発生機構の性質から外れているかを「外れ値度」として計算することになる。
そこで、図11に図9に示した忘却型ヒストグラム計算装置を使用した外れ値度計算装置の全体構成を示しており、図12はその動作フローである。入力部60からの離散値データは忘却型ヒストグラム計算装置61とスコア計算装置62とに順次入力される(ステップS61)。忘却型ヒストグラム計算装置61には、スコア計算装置62が接続され、忘却型ヒストグラム計算装置61は入力データからヒストグラムのパラメータ値を出力し(ステップS62)、スコア計算装置62に送る。スコア計算装置62は入力データと忘却型ヒストグラム計算装置61の出力を入力として、入力データの外れ値度合のスコアを計算する(ステップS63)。
この場合におけるスコアの計算法としては、連続値データの場合と同様、平方距離、Hellinger 距離、対数損失等を用いる。但し、ヒストグラムでは、j番目のセルに入るデータxについての時刻tにおける確率値をp(t) (x)=p(t) (j)/Lj で計算する。ここに、Lj はj番目のセルに入る点の数であり、p(t) (j)は時刻tにおけるj番目のセルの確率値である。これを利用して、平方距離ds (p(t) ,p(t-1) )と、Hellinger 距離dh (p(t) ,p(t-1) )とは、それぞれ、
Figure 0004662702
で計算する。
スコア計算装置62がこれらを計算するには、忘却型ヒストグラム計算装置61から、p(t) とp(t-1) とのパラメータ値をもらうように設定する。また、対数損失は時刻tの入力データxt に対して、
−logp(t-1) (xt )
で計算する。
以上のスコアは推定された分布の変化を統計的距離で計ったもの、あるいは入力データの推定された分布に対する対数損失という意味を有し、いずれも統計的意味が明瞭である。
図13は図1に示した正規混合分布の確率密度推定装置と図9に示した忘却型ヒストグラム計算装置とを用いた本発明の他の外れ値度計算装置の実施例の全体構成図であり、図14はその動作フローである。離散値変量と連続値変量の両者で記述された入力データは忘却型ヒストグラム計算装置71とセル判別装置73とスコア計算装置74に順次入力される(ステップS71)。セル判別装置73にはN個の正規混合分布用の確率密度計算装置721〜72Nが接続されている。ここに、Nは忘却型ヒストグラム計算装置71のヒストグラムでセルの数である。全ての確率密度計算装置721〜72Nと忘却型ヒストグラム計算装置71にスコア計算装置74が接続されている。
忘却型ヒストグラム計算装置71は入力データの離散データ部分だけからヒストグラムのパラメータを計算し(ステップS72)、これをスコア計算装置74に送る。セル判別装置73は入力データの離散データ部分がヒストグラムのどのセルに属するのかを判別して(ステップS73)、対応する確率密度推定装置に連続データ部分を送り込む。
確率密度計算装置721〜72Nは入力データが送り込まれたときにだけ、確率密度のパラメータを計算し(ステップS74)、これをスコア計算装置74に送り込む。スコア計算装置74は入力データと忘却型ヒストグラム計算装置71の出力と確率密度計算装置721〜72Nのいずれかからの出力を入力として、もとの入力データのスコアを計算し(ステップS75)、これを出力とする(ステップS76)。
スコア計算装置74はスコアを、例えば、確率分布の変化度合をHellinger 距離で測るか、または入力データに対する確率分布の負対数尤度(対数損失)で計算する。カテゴリカル変数をまとめたベクトルをx、連続値変数をまとめたベクトルをyとする。xとyの同時分布を以下のように表す。
p(x,y)=p(x)p(y|x)
ここに、p(x)はxの確率分布を表す。これはヒストグラム密度で表される。p(y|x)はxが与えられたもとでのyの条件付き確率分布を表す。これは、分割領域のそれぞれに対して備えられる。新しい入力データDt =(xt ,yt )に対して、Hellinger 距離は以下で計算する。
Figure 0004662702
これらは直ちに、Tを正の整数としてp(t) とp(t-T) の距離に一般化される。
また、対数損失は以下で計算する。
Figure 0004662702
図15は図5のカーネル混合分布による確率密度推定装置と図9に示した忘却型ヒストグラム計算装置とを使用した本発明の外れ値度計算装置の全体構成図であり、図16はその動作フローである。離散値変量と連続値変量の両者で記述された入力データは忘却型ヒストグラム計算装置81とセル判別装置83とスコア計算装置84に順次入力される(ステップS81)。セル判別装置83にはN個のカーネル混合分布用の確率密度計算装置821〜82Nが接続されている。ここに、Nは忘却型ヒストグラム計算装置81のヒストグラムでセルの数である。
全ての確率密度計算装置821〜82Nと忘却型ヒストグラム計算装置81にスコア計算装置84が接続されている。忘却型ヒストグラム計算装置81は入力データの離散データ部分だけからヒストグラムのパラメータを計算し(ステップS82)、これをスコア計算装置84に送る。セル判別装置83は入力データの離散データ部分がヒストグラムのどのセルに属するのかを判別して(ステップS83)、対応する確率密度推定装置に連続データ部分を送り込む。確率密度計算装置821〜82Nは入力データが送り込まれたときにだけ、確率密度のパラメータを計算し(ステップS84)、これをスコア計算装置84に送り込む(ステップS85)。
スコア計算装置84は入力データと忘却型ヒストグラム計算装置81の出力と確率密度計算装置821〜82Nのいずれかからの出力を入力として、もとの入力データのスコアを計算し、これを出力とする(ステップS86)。スコアの計算方法は図13に示した外れ値度計算装置と同様である。
本発明による確率密度推定装置(正規混合分布)の一例の構成を示す図である。 図1の装置の動作フロー図である。 図1の装置を使用した外れ値度計算装置の例を示す構成図である。 図3の装置の動作フロー図である。 本発明による確率密度推定装置(混合カーネル分布)の一例の構成を示す図である。 図5の装置の動作フロー図である。 図6の装置を使用した外れ値度計算装置の例を示す構成図である。 図7の装置の動作フロー図である。 本発明による忘却型ヒストグラム計算装置の一例の構成を示す図である。 図9の装置の動作フロー図である。 図10の装置を使用した外れ値度計算装置の例を示す構成図である。 図11の装置の動作フロー図である。 図1および図9の装置を使用した外れ値度計算装置の例を示す構成図である。 図13の装置の動作フロー図である。 図5および図9の装置を使用した外れ値度計算装置の例を示す構成図である。 図15の装置の動作フロー図である。
符号の説明
11 確からしさ計算装置
12,31 パラメータ書換え装置
13,32 パラメータ記憶装置
21,721〜72N 確率密度推定装置(正規混合分布)
22,42,62,74,84 スコア計算装置
41,821〜82N 確率密度推定装置(混合カーネル分布)
51 パラメータ更新装置
52 ヒストグラム記憶装置
61,71,81 忘却型ヒストグラム計算装置
73,83 セル判別装置

Claims (1)

  1. 複数の時点のデータからなる実数ベクトル値のデータ列を順次読み込んで、当該データの外れ値度を計算する外れ値度計算装置であって、
    有限個の正規分布密度の各々の平均パラメータと、分散パラメータ、および各正規分布の重みパラメータと前記データ列と同じ次元を有する正規分布の平均値ベクトルと前記データ列と同じ次元を有する正規分布の分散を表す正方行列を記憶するパラメータ記憶手段と、前記入力データ列のデータの値に対して、前記記憶手段から前記平均パラメータと前記分散パラメータおよび前記重みパラメータと読み込んで、前記パラメータと正規分布の重ね合わせの数と忘却の早さを表わす数を用いて所定の計算処理を行い、各正規分布から該入力データが発生した確からしさを計算する確からしさ計算手段と、
    該確からしさ計算手段から確からしさを読み込み、前記平均値ベクトルと前記正方行列を前記パラメータ記憶手段から読み込み、前記確からしさと前記平均値ベクトルと前記正方行列を用いて、ある前記時点の前記データについて、前記忘却の早さを表わす数を用いて重みをつけた対数尤度を極大化するように、新たに前記平均パラメータと前記分散パラメータおよび前記重みパラメータを計算し、新たに入力された前記入力データに応じて過去のデータを忘却しつつ更新して該記憶手段の内容である前記平均パラメータと前記分散パラメータおよび前記重みパラメータを書き換えるパラメータ書換え手段とを有する確率密度推定装置と、
    前記確率密度推定装置の前記パラメータ書換え手段により更新された有限個の前記パラメータを使用して、この更新前後のパラメータおよび前記入力データから推定された確率分布に基づき前記入力データの外れ値度合いを、平方距離やHellinger 距離や対数損失を用いて、計算して出力する外れ値度計算手段と、
    を含むことを特徴とする外れ値度計算装置。
JP2003336648A 2003-09-29 2003-09-29 外れ値度計算装置 Expired - Fee Related JP4662702B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003336648A JP4662702B2 (ja) 2003-09-29 2003-09-29 外れ値度計算装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003336648A JP4662702B2 (ja) 2003-09-29 2003-09-29 外れ値度計算装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP27543799A Division JP3506068B2 (ja) 1999-09-29 1999-09-29 外れ値度計算装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2006244928A Division JP2007018530A (ja) 2006-09-11 2006-09-11 忘却型ヒストグラム計算装置及びそれを用いた外れ値度計算装置

Publications (2)

Publication Number Publication Date
JP2004078981A JP2004078981A (ja) 2004-03-11
JP4662702B2 true JP4662702B2 (ja) 2011-03-30

Family

ID=32025842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003336648A Expired - Fee Related JP4662702B2 (ja) 2003-09-29 2003-09-29 外れ値度計算装置

Country Status (1)

Country Link
JP (1) JP4662702B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4170315B2 (ja) 2005-05-30 2008-10-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 異常判断装置、制御方法、自動車およびプログラム
EP2418513A1 (en) 2010-08-10 2012-02-15 Astrium GmbH Computing of robust and improved signal-in-space accuracy parameters in a regional or global navigation satellite system
CN112037106B (zh) * 2020-08-07 2023-12-15 汉威科技集团股份有限公司 一种基于特征互相关性和概率密度的数据异常分析方法

Also Published As

Publication number Publication date
JP2004078981A (ja) 2004-03-11

Similar Documents

Publication Publication Date Title
JP2001101154A (ja) 外れ値度計算装置及びそれに用いる確率密度推定装置並びに忘却型ヒストグラム計算装置
JP4697670B2 (ja) 識別用データ学習システム、学習装置、識別装置及び学習方法
CN110765292A (zh) 图像检索方法、训练方法及相关装置
WO2020091919A1 (en) Computer architecture for multiplier-less machine learning
CN114065653A (zh) 电力负荷预测模型的构建方法与电力负荷预测方法
Xing et al. Predicting evolving chaotic time series with fuzzy neural networks
CN113591915A (zh) 基于半监督学习和单分类支持向量机的异常流量识别方法
CN115018193A (zh) 基于lstm-ga模型的时间序列风能数据预测方法
CN114154557A (zh) 癌症组织分类方法、装置、电子设备及存储介质
CN116596095A (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
Wu et al. Ensemble model of intelligent paradigms for stock market forecasting
JP2007018530A (ja) 忘却型ヒストグラム計算装置及びそれを用いた外れ値度計算装置
CN113268929B (zh) 短期负荷区间预测方法及装置
Kaur Implementation of backpropagation algorithm: A neural net-work approach for pattern recognition
JP4662702B2 (ja) 外れ値度計算装置
Neshatian et al. Dimensionality reduction in face detection: A genetic programming approach
CN116303786B (zh) 一种基于多维数据融合算法的区块链金融大数据管理系统
CN117154256A (zh) 锂电池的电化学修复方法
Zhang et al. Generalized maximum correntropy-based echo state network for robust nonlinear system identification
CN112905166B (zh) 人工智能编程系统、计算机设备、计算机可读存储介质
Salih et al. Jaya: an evolutionary optimization technique for obtaining the optimal Dthr value of evolving clustering method (ECM)
Karunasingha et al. Evolutionary product unit based neural networks for hydrological time series analysis
CN114254738A (zh) 双层演化的动态图卷积神经网络模型构建方法及应用
US11609936B2 (en) Graph data processing method, device, and computer program product
US20240078424A1 (en) Neural network arrangement

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060718

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070522

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070717

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071120

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20071220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071220

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20080604

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100518

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110104

R150 Certificate of patent or registration of utility model

Ref document number: 4662702

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140114

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees