JP2001101154A - 外れ値度計算装置及びそれに用いる確率密度推定装置並びに忘却型ヒストグラム計算装置 - Google Patents

外れ値度計算装置及びそれに用いる確率密度推定装置並びに忘却型ヒストグラム計算装置

Info

Publication number
JP2001101154A
JP2001101154A JP27543799A JP27543799A JP2001101154A JP 2001101154 A JP2001101154 A JP 2001101154A JP 27543799 A JP27543799 A JP 27543799A JP 27543799 A JP27543799 A JP 27543799A JP 2001101154 A JP2001101154 A JP 2001101154A
Authority
JP
Japan
Prior art keywords
data
parameter
histogram
probability density
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP27543799A
Other languages
English (en)
Other versions
JP3506068B2 (ja
Inventor
Kenji Yamanishi
健司 山西
Junichi Takeuchi
純一 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP27543799A priority Critical patent/JP3506068B2/ja
Priority to AU61357/00A priority patent/AU769001B2/en
Priority to GB0023805A priority patent/GB2361336A/en
Priority to IL13874400A priority patent/IL138744A0/xx
Priority to US09/675,637 priority patent/US7333923B1/en
Publication of JP2001101154A publication Critical patent/JP2001101154A/ja
Application granted granted Critical
Publication of JP3506068B2 publication Critical patent/JP3506068B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0248Filters characterised by a particular frequency response or filtering method
    • H03H17/0261Non linear filters
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Nonlinear Science (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 大規模なデータの集合の中から、統計的外れ
値、不正なデータ、詐欺に関わるデータ等の異常なデー
タを、教師無しのデータから発見する。 【解決手段】 一つの入力データの外れ値度は、学習し
た確率密度が、その入力データを取込むことによって、
学習する前と比較してどれだけ変化したかという量によ
って計算される。これは、いままで、学習されてきた確
率密度関数と傾向が大きく異なるデータは、外れ値度が
大きいと考えられるからである。より具体的には、デー
タが入力される前後の確率密度の間の距離関数を外れ値
度として計算する。そこで、確率密度推定装置21によ
り、大量データを逐次的に読込みつつ適応的に不正デー
タの発生する確率分布を推定し、この推定確率分布に基
づき各データの外れ値度を、スコア計算装置22で計算
して出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は外れ値度計算装置及
びそれに用いる確率密度推定装置並びに忘却型ヒストグ
ラム計算装置に関し、特に多次元の時系列データから、
これまでのデータのパターンに対して大きく外れる異常
値や外れ値を検出する統計的外れ値検出、不正検出、詐
欺検出技術に関するものである。
【0002】
【従来の技術】かかる外れ値度計算装置は、多次元の時
系列データから、これまでのデータパターンに対して大
きく外れる異常値や外れ値を発見するために使用される
ものであり、例えば、携帯電話の通話記録から、いわゆ
るなりすまし使用(クローニング:cloning )等の詐欺
行為を発見したり、クレジッシカードの利用履歴から、
異常な取引を発見したりする場合に利用される。
【0003】従来の機械学習技術を用いた不正検出の方
式としては、T. Fawcett とF. Provostによる方式(Com
bining data mining and machine learning for effect
ivefraud detection, Proceedings of AI Approaches t
o Fraud Detection and Risk Management, pp:14-19,19
97) や、J. Ryan, M. Lin, R. Miikkulainenによる方
式(Intrusion detection with neural networks, Proce
edings of AI Approaches to Fraud Detection and Ris
k Management, pp:72-77, 1997) 等が知られている。
【0004】特に、統計的外れ値検出の考え方を利用し
たものに、P. BurgeとJ. Shaw-Taylorによる方式(Detec
ting cellular fraud using adaptive prototypes, in
Proceedings of AI Approaches to Fraud Detection an
d Risk Management, pp:9-13, 1997)がある。
【0005】パラメトリックな有限混合モデルの学習ア
ルゴリズムとしては、A. P. Dempster, N. M. Laird,
D.B.RibinのEMアルゴリズム(Maximum likelihood from
incomplete data via the EM algorithm, Journal of t
he Royal Statistical Society, B, 39(1), pp:1-38, 1
977)が知られている。
【0006】正規カーネル混合分布(同一の正規分布の
有限個の混合)の学習アルゴリズムとしては、I. Grabe
c のプロトタイプ更新アルゴリズム(Self-organization
ofNeurons described by the maximum-entropy princi
ple, Biological Cybernetics, vol. 63, pp. 403-409,
1990) が知られている。
【0007】
【発明が解決しようとする課題】上述したT. Fawcettと
F. Provostによる方式や、J. Ryan, M.Lin, R. Miikkul
ainen による方式は、不正であることが分かっているデ
ータ(いわゆる教師付きデータ)から不正検出パターン
を学習することによる不正検出の方式である。しかし、
実際には不正データが十分揃えるのは難しく、よって精
度良い学習が行えず、その結果として不正検出精度も低
くなる。
【0008】また、P. BurgeとJ. Shaw-Taylorによる方
式は、同様な教師無しデータからの不正検出の方式であ
る。しかし、それらはノンパラメトリックな短期モデル
と長期モデルの2つのモデルを用意して、それらの距離
を外れ値の尺度として不正検出を行うものであった。よ
って、短期モデルと長期モデルの統計的根拠が乏しく、
ゆえにそれらの距離の統計的意味が不明瞭であった。
【0009】加えて、短期と長期の2つのモデル用意す
るために、計算上非効率であり、かつ連続値データのみ
でカテゴリカルデータを扱えない、ノンパラメトリック
モデルのみを扱っているので、不安定かつ非効率である
といった問題もあった。
【0010】また、統計モデルの学習アルゴリズムに
は、A. P. Dempster, N. M. Laird, D. B. RibinのEM
アルゴリズムやI. Grabec のプロトタイプ更新アルゴリ
ズムが知られているが、これらは過去の全てのデータを
等しい重みをつけて学習しているので、パタンの変化が
あったときに対応できない。
【0011】本発明の目的は、不正であるか否かがわか
っていないデータ(教師無しデータ)を元に自動的に不
正検出を行うことが可能な外れ値度計算装置及びそれに
用いる確率密度推定装置並びに忘却型ヒストグラム計算
装置を提供することである。
【0012】本発明の他の目的は、統計的意味が明瞭な
外れ値判定尺度を採用し、短期/長期を1つにまとめた
モデルを用いることによって、計算の効率化を実現し、
カテゴリカルデータにも対応でき、ノンパラメトリック
だけではなくパラメトリックなモデルも用いて安定で効
率的な外れ値検出を行うことが可能な外れ値度計算装置
及びそれに用いる確率密度推定装置並びに忘却型ヒスト
グラム計算装置を提供することである。
【0013】本発明の更に他の目的は、過去のデータほ
ど重みを減らし、忘却しながら学習するアルゴリズムを
装置の中で実現することにより、パタンの変化にも柔軟
に追従することが可能な外れ値度計算装置及びそれに用
いる確率密度推定装置並びに忘却型ヒストグラム計算装
置を提供することである。
【0014】
【課題を解決するための手段】本発明によれば、実数ベ
クトル値のデータ列を入力として、各データの外れ値度
合いを順次検出する外れ値度計算装置に使用され、前記
データ列を順次読み込みつつ該データが発生する確率分
布を正規分布の有限混合分布を用いて推定する確率密度
推定装置であって、有限個の正規分布密度の各々の平均
パラメータと分散パラメータの値および各正規分布の重
みを記憶するパラメータ記憶手段と、入力データの値に
対して、前記記憶手段からパラメータの値を読み込ん
で、各正規分布から該入力データが発生した確からしさ
を計算する確からしさ計算手段と、該確からしさ計算手
段から確からしさを読み込み、各正規分布の平均と分散
パラメータの値および各正規分布の重みパラメータを前
記パラメータ記憶手段から読み込み、新たに読み込んだ
データに応じて過去のデータを忘却しつつ更新して該記
憶手段の内容を書き換えるパラメータ書換え手段とを含
むことを特徴とする確率密度推定装置が得られる。
【0015】また、本発明によれば、この確率密度推定
装置と、該確率密度推定装置により更新された有限混合
分布のパラメータを使用して、この更新前後のパラメー
タの値および入力データから推定された確率分布に基づ
いて前記データの外れ値度合いを計算して出力する外れ
値度計算手段とを含むことを特徴とする外れ値度計算装
置が得られる。
【0016】更に本発明によれば、実数ベクトル値のデ
ータ列を入力として、各データの外れ値度合い順次検出
する外れ値度計算装置に使用され、前記データ列を順次
読み込みつつ該データが発生する確率分布を有限個の正
規カーネル分布を用いて推定する確率密度推定装置であ
って、各カーネルの位置を表すパラメータの値を記憶す
るパラメータ記憶手段と、該記憶手段からパラメータの
値を読み込んで、新たに読み込んだデータに応じて過去
のデータを忘却しつつ更新して該パラメータ記憶手段の
内容を書き換えるパラメータ書換え手段とを含むことを
特徴とする確率密度推定装置が得られる。
【0017】更にはまた、本発明によれば、この確率密
度推定装置(カーネル混合分布)と、該確率密度推定装
置により更新された前記パラメータを使用して、更新前
後のパラメータの値および入力データから推定された確
率分布に基づいて前記データの外れ値度合いを計算して
出力する外れ値度計算手段とを含むことを特徴とする外
れ値度計算装置が得られる。
【0018】また、本発明によれば、離散値データを入
力として、各データの外れ値度合いを順次検出する外れ
値度計算装置に使用され、順次入力される前記離散値デ
ータに対してヒストグラムのパラメータを計算する忘却
型ヒストグラム計算装置であって、前記ヒストグラムの
パラメータ値を記憶する記憶手段と、該記憶手段から前
記パラメータ値を読み出して、入力データに基づいて過
去のパラメータ値を忘却しつつ更新して前記記憶手段の
値を書き換えるパラメータ更新手段とを備え、前記記憶
手段のパラメータ値の幾つかを出力するようにしたこと
を特徴とする忘却型ヒストグラム計算装置が得られる。
【0019】更に、本発明によれば、この忘却型ヒスト
グラム計算装置と、該忘却型ヒストグラム計算装置の出
力と前記入力データから前記ヒストグラムに対する該入
力データのスコアを計算するスコア計算手段とを含み、
該スコア計算手段の出力を前記入力データの外れ値度と
して出力するようにしたことを特徴とする外れ値度計算
装置が得られる。
【0020】更にはまた、本発明によれば、順次入力さ
れる離散値変量と連続値変量の両者で記述されたデータ
に対してその外れ値度を計算する外れ値度計算装置であ
って、離散値データ部分に対してヒストグラムを推定す
る上記の忘却型ヒストグラム計算装置と、前記ヒストグ
ラムのセルの数と同じ数だけそれぞれ対応して設けら
れ、連続値データ部分に対して確率密度を推定する上記
の確率密度推定装置(正規混合分布)と、前記離散値デ
ータ部分が前記ヒストグラムのどのセルに属するのかを
判別して、対応する前記確率密度推定装置に連続データ
部分を送り込むセル判別手段と、前記忘却型ヒストグラ
ム計算装置と前記確率密度推定装置との出力値と前記入
力データとから、推定された確率分布に基づいて前記入
力データのスコアを計算するスコア計算手段とを含み、
該スコア計算手段の出力を前記入力データの外れ値度と
して出力するようにしたことを特徴とする外れ値度計算
装置が得られる。
【0021】また、本発明によれば、順次入力される離
散値変量と連続値変量との両者で記述されたデータに対
して、その外れ値度を計算する外れ値度掲載装置であっ
て、前記離散値データ部分に対してヒストグラムを推定
する上記の忘却型ヒストグラム計算装置と、前記ヒスト
グラムのセルの数と同じ数だけそれぞれ対応して設けら
れ、連続値データ部分に対して確率密度を推定する上記
の確率密度推定装置(カーネル混合分布)と、前記離散
値データ部分がヒストグラムのどのセルに属するのかを
判別して、対応する前記確率密度推定装置に連続データ
部分を送り込むセル判別手段と、前記忘却型ヒストグラ
ム計算装置と前記確率密度推定装置との出力値と前記入
力データとから、推定された確率分布に基づいて前記入
力データのスコアを計算するスコア計算手段とを含み、
該スコア計算手段の出力を前記入力データの外れ値度と
して出力するようにしたことを特徴とする外れ値度計算
装置がえられる。
【0022】本発明の作用を述べる。本発明において、
時系列データの一つの値をxとすると、入力データは多
次元のデータであると想定して、xの内容は、例えば、
一つの実数、多次元の実数値ベクトル離散値の属性、そ
れらを並べた多次元のベクトル等である。携帯電話の場
合には、 x=(通話開始時刻,通話持続時間,発話地域) が考えられるが、これは一例を示すにすぎないものであ
る。
【0023】xが従う確率分布の確率密度関数はデータ
発生機構(例えば、ユーザの通話パターン)の性質を表
す。本発明にかかる外れ値度計算装置は、時系列にデー
タが与えられる毎に確率密度関数を学習するものであ
る。かかる状況下において、「外れ値度」は基本的に次
の1,2で示す二つの考え方で計算する様にしている。
【0024】1.一つの入力データの外れ値度は、学習
した確率密度が、その入力データを取込むことによっ
て、学習する前と比較してどれだけ変化したかという量
によって計算される。これは、いままで、学習されてき
た確率密度関数と傾向が大きく異なるデータは、外れ値
度が大きいと考えられるからである。より具体的には、
データが入力される前後の確率密度の間の距離関数を外
れ値度として計算するのである。
【0025】2.これまでに学習で得られた確率密度関
数の、入力データに対する尤度(確率密度関数の入力デ
ータに関する値)を計算する。この尤度が小さければ小
さい程、外れ値度は大きいと考えられる。実際には、尤
度の対数に負号を付けた値(負対数尤度)を外れ値度と
して出力する。
【0026】また、上記の二つの関数の組み合わせ等も
使用することができる。以上の様に、本発明による装置
は、確率密度関数で、データ発生機構の統計的性質を表
現し(確率密度推定装置の機能)、これに基づき、入力
データがいかにデータ発生機構の性質から外れているか
を、「外れ値度」として計算して出力する(外れ値度計
算装置の機能)ものである。
【0027】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。先ず、正規混合分布
を用いた確率密度推定装置について説明する。データx
(d次元ベクトル値)が確率分布として、
【数1】 に従って発生するとする。
【0028】但し、
【数2】 であるものとし、また、μi はn次元のベクトルであ
り、n次元正規分布の平均値を表すパラメータであり、
Σi はn元正方行列であり、n元正規分布の分散を表す
パラメータである。また、ci は正規分布の重みを表わ
すパラメータである。ここで、kは重ね合わせの数を表
す整数であり、
【数3】 が成り立つ。また、θ=(ci ,μi ,Σi ,……,c
k ,μk ,Σk )をパラメータベクトルとする。
【0029】図1は本発明の一実施例による確率密度推
定装置のブロック図である。ここでは、忘却の速さを表
す定数r(0≦r≦1であり、rが小さい程、過去のデ
ータを速く忘却する)と、正規分布の重ね合わせの数k
とが、予め与えられているものとする。また、α(α>
0)なるパラメータも用いるが、この値も予め与えられ
ているものとする。
【0030】図1において、パラメータ記憶装置13は
上述のパラメータθを記憶する装置であり、パラメータ
書換え装置12は、d次元ベクトルμi ’及びd元正方
行列Σi ’をも記憶することができる。尚、10はデー
タ入力部を示し、11は確からしさを計算する確からし
さを計算装置であり、14はパラメータ出力部を示して
いる。
【0031】図2は図1のブロックの概略動作を示すフ
ロー図であり、図1の装置は以下の様に動作する。先
ず、データが読込まれる前にパラメータ記憶装置13に
格納されている各パラメータの値が初期化される(ステ
ップS10)。次に、t番目のデータxt が入力される
度に、以下の様に動作する。入力xt が確からしさ計算
装置11およびパラメータ書換え装置12に渡されて
(ステップS11)格納される。
【0032】確からしさ計算装置11はパラメータ記憶
装置13より現在のパラメータの値θを読込み、これを
用いて各正規分布がデータxt を発生した各確からしさ
γi(i=1,2,……,K)を、
【数4】 なる式によって計算し(ステップS12)、パラメータ
書換え装置12に送り込む。パラメータ書換え装置12
はパラメータ記憶装置13から現在のパラメータの値を
読取りつつ、送り込まれた確からしさγi を用いて、パ
ラメータの値の更新結果を、下記の式(2)〜(6)に
示す様に、各i=1,2,……,kについて順次計算し
つつパラメータ記憶装置13に記憶されているパラメー
タの値を書換えて行く(ステップS13)。尚、これ等
式(2)〜(6)における“:=”なる記号は右辺の項
を左辺へ代入することを意味する。
【0033】
【数5】
【0034】そして、パラメータ記憶装置13は書換え
られたパラメータの値を出力する(ステップS14)。
この更新規則は(t−l)番目のデータについて、(1
−r)l だけの重みをつけた対数尤度を極大化するこ
とに相当しており、過去のデータを次第に忘却していく
ような推定を実現している。従って、1/r個ほど前ま
でのデータを用いて学習していることになる(lは正の
整数である)。
【0035】これは(1−r)l =1/2の解が、 l=−(log2)/log(1−r)〜(log2)
/r であることによる。
【0036】この様に、確率密度分布が上記の式(1)
で表された関数を採用しており、この関数は有限個のパ
ラメータで完全に指定されるものである。よって、この
確率密度関数を表現するには、パラメータの値を指定す
れば十分であることから、図1に示したパラメータ出力
部14により、当該確率密度関数が推定可能となる。こ
の推定された確率密度関数を使用して、入力データの外
れ値度を計算する装置について、図3にブロック図を示
す。
【0037】図3は外れ値度掲載装置の一実施例を示す
ブロック図である。本装置は、入力部20と、図1に示
した確率密度推定装置21と、入力データと確率密度推
定装置21からのパラメータとから推定された確率分布
に基きデータの外れ値度、すなわちスコアを計算するス
コア計算装置22と、その結果を出力する出力部23と
からなっている。この図3に示す装置は図4に示したフ
ローに従い、t番目のデータxt が入力される度に、以
下の順序で動作する。
【0038】入力xt は確率密度推定装置21(正規混
合分布)およびスコア計算装置22に渡されて(ステッ
プS20)格納される。確率密度推定装置21は入力さ
れたデータに応じて格納しているパラメータの値を更新
し(ステップS21)、新しい値をスコア計算装置22
に入力する。スコア計算装置22では、入力されたデー
タ、パラメータの値、過去に渡されたパラメータの値を
用いてスコア(ステップS22)を計算して出力する
(ステップS23)。外れ値度を示すスコアは例えば、
平方距離、Hellinger 距離、更には対数損失を用いて計
算される。
【0039】以下、具体的に説明する。データxt
x1 x2……xt によって推定されたパラメータをθ(t)
として、 p(t) (x)=p(x|θ(t) ) と表し、確率分布pとqに対して、ds (p,q)で二
つの分布の間の平方距離を、dh (p,q)でHellinge
r 距離を表すとき、スコアとして、
【数6】 のいずれかを用いることができる。対数損失を用いる場
合は、 −logp(t-1 )(xt ) で計ることができる。これらはただちに、Tを正の整数
としてds (p(t) ,p(t-T) )等に一般化でき
る。
【0040】次に、本発明による確率密度推定装置の他
の実施の形態を示す。この例では、、データ発生のモデ
ルとして、カーネル混合分布である
【数7】 を使用する。ここで、“ω(・:・)はカーネル関数と
よばれるもので、正規密度関数
【数8】 の形で与えられる(これを正規分布カーネルと呼ぶ)。
Σは対角行列であり、 Σ=diag(σ2 ,……,σ2 ) である。尚、σは与えられた正数である。各qi はd次
元のベクトルであり、各カーネル関数の位置を指定する
パラメータである。{qi }はプロトタイプと呼ばれ
る。尚、xm でxのm番目の成分を表す。同様に、qim
でqi のm番目の成分を表す。
【0041】図5はカーネル混合分布を使用した確率密
度推定装置のブロック図である。パラメータ記憶装置3
2はq=(q1 ,q2 ,……qk )を記憶する機能を有
する。尚、図5において、30は入力部、31はパラメ
ータ書換え装置、33は出力部である。図5に示した装
置は図6のフローに従って以下の様に動作する。先ず、
データが読込まれる前にパラメータ記憶装置32に格納
されているパラメータの値を初期化する(ステップS3
0)。そして、t番目のデータxt が入力される度に、
以下の順序で動作する。入力xt がパラメータ書換え装
置31に渡され(ステップS31)て格納される。パラ
メータ書換え装置31はパラメータ記憶装置32より、
現在のパラメータの値qを読込み、次式の連立一次方程
式(k=1,2,……,K,l=1,2,……,d)
【数9】 (δmlはクロネッカーのデルタを表す。すなわち、m=
1のときに1を、そうでないとき0に等しい)の解Δq
を求め、q:=q+Δqとしてパラメータ記憶装置32
に格納されているパラメータの値を書換える(ステップ
S32)。パラメータ記憶装置32は書換えられたパラ
メータの値を出力する(ステップS33)。
【0042】以上の更新規則において、rは忘却の速さ
を制御するパラメータとなっている。すなわち、該規則
を順次適用して得られるカーネル混合分布は
【数10】 なる確率密度からの平方距離を最小化する。P. Burge
とJ. Shaw-Taylorが採用しているI. Grabec によるアル
ゴリズムは、上記においてrの部分を定数ではなく、1
/τにしたものに対応している。その場合は式(8)に
対応する式は、
【数11】 という単純なものになる。
【0043】この図5に示したカーネル混合分布を使用
した確率密度推定装置から得られたパラメータを用い
て、入力データの外れ値度を算出する外れ値度算出装置
の例が図7に示されている。図7において、40は入力
部、41は図5の確率密度推定装置、42はスコア計算
装置、43は出力部である。
【0044】図7に示した装置はt番目のデータxt が
入力される度に、図8に示すフローに従い以下の順序で
動作する。入力xt が確率密度推定装置41(カーネル
混合分布)およびスコア計算装置42に渡されて(ステ
ップS40)格納される。確率密度推定装置41は入力
されたデータに応じて格納しているパラメータの値を更
新し(ステップS41)、新しい値をスコア計算装置4
2に供給する。スコア計算装置42では、入力されたデ
ータ、パラメータの値、過去に渡されたパラメータの値
を用いてスコアを計算して出力する(ステップS42,
S43)。この場合に用いられるスコア関数には、図3
に示した外れ値度計算装置と同様のものを用いることが
できる。
【0045】図9は本発明による忘却型ヒストグラム計
算装置の全体構成図である。パラメータ更新装置51に
離散値データが順次入力され、パラメータ更新装置51
には、ヒストグラム記憶装置52が接続され、ヒストグ
ラム記憶装置52はヒストグラムのパラメータ値を記憶
し、これらを出力する。尚、50は入力部、53は出力
部である。
【0046】図10は図9の装置の動作を示すフローで
ある。離散値データはn個の変数で指定されているとす
る。いま、n次元のデータ空間が予めN個の排反なセル
に分割されているとし、これらのセル上にヒストグラム
が構成されるものとする。ヒストグラムは確率分布を表
し、(p1 ,……,pN )
【数12】 をパラメータとする。
【0047】ここに、pj はj番目のセルの生起確率で
ある。T0 (j)=0(j=1,……,N),0<r<
1,β>0は与えられた数とし、パラメータの初期を、 p(0) (1)=……=p(0) (N)=1/N とする(ステップS50)。
【0048】パラメータ更新装置51はt番目に入力さ
れたデータに対して(ステップS51)、
【数13】 なる更新を行う(ステップS52)。ここに、δt
(j)は、t番目のデータがj番目のセルに入れば1、
そうでなければ0をとる。この更新を全てのセルについ
て行う。
【0049】p(t) (1),……,p(t) (N) をヒストグラムの新しいパラメータとして更新する。こ
れらの値はヒストグラム記憶装置52に送られる。ヒス
トグラム記憶装置52は過去の幾つかのパラメータ値を
記憶しており、それらの一部を出力する(ステップS5
3)。
【0050】パラメータ更新装置51は、各ステップで
t時刻前のデータに、(1−r)tだけの重みを掛けて
算出している。この重み付けは、過去のデータほど徐々
に忘れていくことを示しており、忘却しながら学習する
アルゴリズムが装置の中で実現されている。これによ
り、ユーザパターンの変化に柔軟に追随することが可能
となる。
【0051】なお、忘却型ヒストグラムとは、カテゴリ
変数上の確率分布を表し、連続変数上の確率密度関数と
同様に、データの発生機構の統計的性質を表現するもの
である。よって、この「忘却型ヒストグラム計算装置」
と「外れ値度計算装置」との関係は、上述した「確率密
度推定装置」と「外れ値度計算装置」との関係と全く同
一である。すなわち、「忘却型ヒストグラム計算装置」
でデータの発生機構の統計的計算を表現し、これに基づ
いて「外れ値度計算装置」が入力データがいかにデータ
発生機構の性質から外れているかを「外れ値度」として
計算することになる。
【0052】そこで、図11に図9に示した忘却型ヒス
トグラム計算装置を使用した外れ値度計算装置の全体構
成を示しており、図12はその動作フローである。入力
部60からの離散値データは忘却型ヒストグラム計算装
置61とスコア計算装置62とに順次入力される(ステ
ップS61)。忘却型ヒストグラム計算装置61には、
スコア計算装置62が接続され、忘却型ヒストグラム計
算装置61は入力データからヒストグラムのパラメータ
値を出力し(ステップS62)、スコア計算装置62に
送る。スコア計算装置62は入力データと忘却型ヒスト
グラム計算装置61の出力を入力として、入力データの
外れ値度合のスコアを計算する(ステップS63)。
【0053】この場合におけるスコアの計算法として
は、連続値データの場合と同様、平方距離、Hellinger
距離、対数損失等を用いる。但し、ヒストグラムでは、
j番目のセルに入るデータxについての時刻tにおける
確率値をp(t) (x)=p(t)(j)/Lj で計算す
る。ここに、Lj はj番目のセルに入る点の数であり、
(t) (j)は時刻tにおけるj番目のセルの確率値
である。これを利用して、平方距離ds (p(t) ,p
(t-1) )と、Hellinger 距離dh (p(t) ,p( t-1)
)とは、それぞれ、
【数14】 で計算する。
【0054】スコア計算装置62がこれらを計算するに
は、忘却型ヒストグラム計算装置61から、p(t)
(t-1) とのパラメータ値をもらうように設定する。
また、対数損失は時刻tの入力データxt に対して、 −logp(t-1) (xt ) で計算する。
【0055】以上のスコアは推定された分布の変化を統
計的距離で計ったもの、あるいは入力データの推定され
た分布に対する対数損失という意味を有し、いずれも統
計的意味が明瞭である。
【0056】図13は図1に示した正規混合分布の確率
密度推定装置と図9に示した忘却型ヒストグラム計算装
置とを用いた本発明の他の外れ値度計算装置の実施例の
全体構成図であり、図14はその動作フローである。離
散値変量と連続値変量の両者で記述された入力データは
忘却型ヒストグラム計算装置71とセル判別装置73と
スコア計算装置74に順次入力される(ステップS7
1)。セル判別装置73にはN個の正規混合分布用の確
率密度計算装置721〜72Nが接続されている。ここ
に、Nは忘却型ヒストグラム計算装置71のヒストグラ
ムでセルの数である。全ての確率密度計算装置721〜
72Nと忘却型ヒストグラム計算装置71にスコア計算
装置74が接続されている。
【0057】忘却型ヒストグラム計算装置71は入力デ
ータの離散データ部分だけからヒストグラムのパラメー
タを計算し(ステップS72)、これをスコア計算装置
74に送る。セル判別装置73は入力データの離散デー
タ部分がヒストグラムのどのセルに属するのかを判別し
て(ステップS73)、対応する確率密度推定装置に連
続データ部分を送り込む。
【0058】確率密度計算装置721〜72Nは入力デ
ータが送り込まれたときにだけ、確率密度のパラメータ
を計算し(ステップS74)、これをスコア計算装置7
4に送り込む。スコア計算装置74は入力データと忘却
型ヒストグラム計算装置71の出力と確率密度計算装置
721〜72Nのいずれかからの出力を入力として、も
との入力データのスコアを計算し(ステップS75)、
これを出力とする(ステップS76)。
【0059】スコア計算装置74はスコアを、例えば、
確率分布の変化度合をHellinger 距離で測るか、または
入力データに対する確率分布の負対数尤度(対数損失)
で計算する。カテゴリカル変数をまとめたベクトルを
x、連続値変数をまとめたベクトルをyとする。xとy
の同時分布を以下のように表す。 p(x,y)=p(x)p(y|x) ここに、p(x)はxの確率分布を表す。これはヒスト
グラム密度で表される。p(y|x)はxが与えられた
もとでのyの条件付き確率分布を表す。これは、分割領
域のそれぞれに対して備えられる。新しい入力データD
t =(xt ,yt)に対して、Hellinger 距離は以下で
計算する。
【0060】
【数15】 これらは直ちに、Tを正の整数としてp(t) とp(t-T)
の距離に一般化される。
【0061】また、対数損失は以下で計算する。
【数16】
【0062】図15は図5のカーネル混合分布による確
率密度推定装置と図9に示した忘却型ヒストグラム計算
装置とを使用した本発明の外れ値度計算装置の全体構成
図であり、図16はその動作フローである。離散値変量
と連続値変量の両者で記述された入力データは忘却型ヒ
ストグラム計算装置81とセル判別装置83とスコア計
算装置84に順次入力される(ステップS81)。セル
判別装置83にはN個のカーネル混合分布用の確率密度
計算装置821〜82Nが接続されている。ここに、N
は忘却型ヒストグラム計算装置81のヒストグラムでセ
ルの数である。
【0063】全ての確率密度計算装置821〜82Nと
忘却型ヒストグラム計算装置81にスコア計算装置84
が接続されている。忘却型ヒストグラム計算装置81は
入力データの離散データ部分だけからヒストグラムのパ
ラメータを計算し(ステップS82)、これをスコア計
算装置84に送る。セル判別装置83は入力データの離
散データ部分がヒストグラムのどのセルに属するのかを
判別して(ステップS83)、対応する確率密度推定装
置に連続データ部分を送り込む。確率密度計算装置82
1〜82Nは入力データが送り込まれたときにだけ、確
率密度のパラメータを計算し(ステップS84)、これ
をスコア計算装置84に送り込む(ステップS85)。
【0064】スコア計算装置84は入力データと忘却型
ヒストグラム計算装置81の出力と確率密度計算装置8
21〜82Nのいずれかからの出力を入力として、もと
の入力データのスコアを計算し、これを出力とする(ス
テップS86)。スコアの計算方法は図13に示した外
れ値度計算装置と同様である。
【図面の簡単な説明】
【図1】本発明による確率密度推定装置(正規混合分
布)の一例の構成を示す図である。
【図2】図1の装置の動作フロー図である。
【図3】図1の装置を使用した外れ値度計算装置の例を
示す構成図である。
【図4】図3の装置の動作フロー図である。
【図5】本発明による確率密度推定装置(混合カーネル
分布)の一例の構成を示す図である。
【図6】図5の装置の動作フロー図である。
【図7】図6の装置を使用した外れ値度計算装置の例を
示す構成図である。
【図8】図7の装置の動作フロー図である。
【図9】本発明による忘却型ヒストグラム計算装置の一
例の構成を示す図である。
【図10】図9の装置の動作フロー図である。
【図11】図10の装置を使用した外れ値度計算装置の
例を示す構成図である。
【図12】図11の装置の動作フロー図である。
【図13】図1および図9の装置を使用した外れ値度計
算装置の例を示す構成図である。
【図14】図13の装置の動作フロー図である。
【図15】図5および図9の装置を使用した外れ値度計
算装置の例を示す構成図である。
【図16】図15の装置の動作フロー図である。
【符号の説明】
11 確からしさ計算装置 12,31 パラメータ書換え装置 13,32 パラメータ記憶装置 21,721〜72N 確率密度推定装置(正規混合分
布) 22,42,62,74,84 スコア計算装置 41,821〜82N 確率密度推定装置(混合カーネ
ル分布) 51 パラメータ更新装置 52 ヒストグラム記憶装置 61,71,81 忘却型ヒストグラム計算装置 73,83 セル判別装置

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 実数ベクトル値のデータ列を入力とし
    て、各データの外れ値度合いを順次検出する外れ値度計
    算装置に使用され、前記データ列を順次読み込みつつ該
    データが発生する確率分布を正規分布の有限混合分布を
    用いて推定する確率密度推定装置であって、有限個の正
    規分布密度の各々の平均パラメータと分散パラメータの
    値および各正規分布の重みを記憶するパラメータ記憶手
    段と、入力データの値に対して、前記記憶手段からパラ
    メータの値を読み込んで、各正規分布から該入力データ
    が発生した確からしさを計算する確からしさ計算手段
    と、該確からしさ計算手段から確からしさを読み込み、
    各正規分布の平均と分散パラメータの値および各正規分
    布の重みパラメータを前記パラメータ記憶手段から読み
    込み、新たに読み込んだデータに応じて過去のデータを
    忘却しつつ更新して該記憶手段の内容を書き換えるパラ
    メータ書換え手段とを含むことを特徴とする確率密度推
    定装置。
  2. 【請求項2】 請求項1記載の確率密度推定装置と、該
    確率密度推定装置により更新された有限混合分布のパラ
    メータを使用して、この更新前後のパラメータの値およ
    び入力データから推定された確率分布に基づいて前記デ
    ータの外れ値度合いを計算して出力する外れ値度計算手
    段とを含むことを特徴とする外れ値度計算装置。
  3. 【請求項3】 実数ベクトル値のデータ列を入力とし
    て、各データの外れ値度合いを順次検出する外れ値度計
    算装置に使用され、前記データ列を順次読み込みつつ該
    データが発生する確率分布を有限個の正規カーネル分布
    を用いて推定する確率密度推定装置であって、各カーネ
    ルの位置を表すパラメータの値を記憶するパラメータ記
    憶手段と、該記憶手段からパラメータの値を読み込ん
    で、新たに読み込んだデータに応じて過去のデータを忘
    却しつつ更新して該パラメータ記憶手段の内容を書き換
    えるパラメータ書換え手段とを含むことを特徴とする確
    率密度推定装置。
  4. 【請求項4】 請求項3の確率密度推定装置と、該確率
    密度推定装置により更新された前記パラメータを使用し
    て、更新前後のパラメータの値および入力データから推
    定された確率分布に基づいて前記データの外れ値度合い
    を計算して出力する外れ値度計算手段とを含むことを特
    徴とする外れ値度計算装置。
  5. 【請求項5】 離散値データを入力として、各データの
    外れ値度合いを順次検出する外れ値度計算装置に使用さ
    れ、順次入力される前記離散値データに対してヒストグ
    ラムのパラメータを計算する忘却型ヒストグラム計算装
    置であって、前記ヒストグラムのパラメータ値を記憶す
    る記憶手段と、該記憶手段から前記パラメータ値を読み
    出して、入力データに基づいて過去のパラメータ値を忘
    却しつつ更新して前記記憶手段の値を書き換えるパラメ
    ータ更新手段とを備え、前記記憶手段のパラメータ値の
    幾つかを出力するようにしたことを特徴とする忘却型ヒ
    ストグラム計算装置。
  6. 【請求項6】 請求項5記載の忘却型ヒストグラム計算
    装置と、該忘却型ヒストグラム計算装置の出力と前記入
    力データから前記ヒストグラムに対する該入力データの
    スコアを計算するスコア計算手段とを含み、該スコア計
    算手段の出力を前記入力データの外れ値度として出力す
    るようにしたことを特徴とする外れ値度計算装置。
  7. 【請求項7】 順次入力される離散値変量と連続値変量
    の両者で記述されたデータに対してその外れ値度を計算
    する外れ値度計算装置であって、離散値データ部分に対
    してヒストグラムを推定する請求項5記載の忘却型ヒス
    トグラム計算装置と、前記ヒストグラムのセルの数と同
    じ数だけそれぞれ対応して設けられ、連続値データ部分
    に対して確率密度を推定する請求項1記載の確率密度推
    定装置と、前記離散値データ部分が前記ヒストグラムの
    どのセルに属するのかを判別して、対応する前記確率密
    度推定装置に連続データ部分を送り込むセル判別手段
    と、前記忘却型ヒストグラム計算装置と前記確率密度推
    定装置との出力値と前記入力データとから、推定された
    確率分布に基づいて前記入力データのスコアを計算する
    スコア計算手段とを含み、該スコア計算手段の出力を前
    記入力データの外れ値度として出力するようにしたこと
    を特徴とする外れ値度計算装置。
  8. 【請求項8】 順次入力される離散値変量と連続値変量
    との両者で記述されたデータに対して、その外れ値度を
    計算する外れ値度掲載装置であって、前記離散値データ
    部分に対してヒストグラムを推定する請求項5の忘却型
    ヒストグラム計算装置と、前記ヒストグラムのセルの数
    と同じ数だけそれぞれ対応して設けられ、連続値データ
    部分に対して確率密度を推定する請求項3記載の確率密
    度推定装置と、前記離散値データ部分がヒストグラムの
    どのセルに属するのかを判別して、対応する前記確率密
    度推定装置に連続データ部分を送り込むセル判別手段
    と、前記忘却型ヒストグラム計算装置と前記確率密度推
    定装置との出力値と前記入力データとから、推定された
    確率分布に基づいて前記入力データのスコアを計算する
    スコア計算手段とを含み、該スコア計算手段の出力を前
    記入力データの外れ値度として出力するようにしたこと
    を特徴とする外れ値度計算装置。
JP27543799A 1999-09-29 1999-09-29 外れ値度計算装置 Expired - Lifetime JP3506068B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP27543799A JP3506068B2 (ja) 1999-09-29 1999-09-29 外れ値度計算装置
AU61357/00A AU769001B2 (en) 1999-09-29 2000-09-28 Degree of outlier calculation device, and probability density estimation device and histogram calculation device for use therein
GB0023805A GB2361336A (en) 1999-09-29 2000-09-28 Degree of outlier calculation device, and probability density estimation device and histogram calculation device for use therein
IL13874400A IL138744A0 (en) 1999-09-29 2000-09-28 Degree of outlier calculation device and probability density estimation device and histogram calculation device for use therein
US09/675,637 US7333923B1 (en) 1999-09-29 2000-09-29 Degree of outlier calculation device, and probability density estimation device and forgetful histogram calculation device for use therein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27543799A JP3506068B2 (ja) 1999-09-29 1999-09-29 外れ値度計算装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2003336648A Division JP4662702B2 (ja) 2003-09-29 2003-09-29 外れ値度計算装置

Publications (2)

Publication Number Publication Date
JP2001101154A true JP2001101154A (ja) 2001-04-13
JP3506068B2 JP3506068B2 (ja) 2004-03-15

Family

ID=17555519

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27543799A Expired - Lifetime JP3506068B2 (ja) 1999-09-29 1999-09-29 外れ値度計算装置

Country Status (5)

Country Link
US (1) US7333923B1 (ja)
JP (1) JP3506068B2 (ja)
AU (1) AU769001B2 (ja)
GB (1) GB2361336A (ja)
IL (1) IL138744A0 (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU769001B2 (en) * 1999-09-29 2004-01-15 Nec Corporation Degree of outlier calculation device, and probability density estimation device and histogram calculation device for use therein
JP2004309998A (ja) * 2003-02-18 2004-11-04 Nec Corp 確率分布推定装置および異常行動検出装置,ならびにその確率分布推定方法および異常行動検出方法
JP2004348740A (ja) * 2003-05-22 2004-12-09 Microsoft Corp 異常検出のための自己学習方法及びシステム
WO2006129792A1 (ja) * 2005-06-02 2006-12-07 Nec Corporation 異常検出方法およびシステム、並びに、保全方法およびシステム
JP2007265141A (ja) * 2006-03-29 2007-10-11 Nec Corp 監視項目絞込み装置、監視項目絞込み方法、および、監視項目絞込みプログラム
US7346593B2 (en) 2002-07-17 2008-03-18 Nec Corporation Autoregressive model learning device for time-series data and a device to detect outlier and change point using the same
US7353214B2 (en) 2001-06-27 2008-04-01 Nec Corporation Outlier determination rule generation device and outlier detection device, and outlier determination rule generation method and outlier detection method thereof
JP2011040064A (ja) * 2003-11-12 2011-02-24 Trustees Of Columbia Univ In The City Of New York 正常データのnグラム分布を用いてペイロード異常を検出するための装置、方法、及び媒体
JP2012237719A (ja) * 2011-05-13 2012-12-06 Kddi Corp 気圧センサを用いて昇降移動状態を推定する携帯装置、プログラム及び方法
JP2016189062A (ja) * 2015-03-30 2016-11-04 有限責任監査法人トーマツ 異常検出装置、異常検出方法及びネットワーク異常検出システム
KR101753474B1 (ko) 2014-08-06 2017-07-04 아마데우스 에스.에이.에스. 예측적 사기 스크리닝
CN109900422A (zh) * 2019-01-02 2019-06-18 同济大学 一种基于图形的多泵合流流量脉动特性检测方法
JP2019101982A (ja) * 2017-12-07 2019-06-24 日本電信電話株式会社 学習装置、検知システム、学習方法及び学習プログラム
CN111602410A (zh) * 2018-02-27 2020-08-28 欧姆龙株式会社 适合性判定装置、适合性判定方法和程序
WO2022044301A1 (en) * 2020-08-28 2022-03-03 Nec Corporation Information processing apparatus, information processing method, and computer readable medium
JP7326179B2 (ja) 2020-02-06 2023-08-15 株式会社国際電気通信基礎技術研究所 通信状況推定装置、通信状況推定方法、および、プログラム

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4265296B2 (ja) * 2003-06-13 2009-05-20 日本電気株式会社 変化点検出装置,変化点検出方法および変化点検出用プログラム
US7716135B2 (en) * 2004-01-29 2010-05-11 International Business Machines Corporation Incremental compliance environment, an enterprise-wide system for detecting fraud
US20060203267A1 (en) * 2005-03-10 2006-09-14 Kabushiki Kaisha Toshiba Image forming apparatus and image forming method
US7930739B1 (en) * 2005-05-24 2011-04-19 Symantec Corporation Scaled scanning parameterization
US7512574B2 (en) * 2005-09-30 2009-03-31 International Business Machines Corporation Consistent histogram maintenance using query feedback
JP4914164B2 (ja) * 2006-10-05 2012-04-11 日立Geニュークリア・エナジー株式会社 事業情報管理システム、事業情報管理方法および事業情報管理プログラム
US8364572B2 (en) * 2006-11-16 2013-01-29 Protégé Partners, LLC Method and system for evaluating pricing of assets
US20090192784A1 (en) * 2008-01-24 2009-07-30 International Business Machines Corporation Systems and methods for analyzing electronic documents to discover noncompliance with established norms
US8090648B2 (en) * 2009-03-04 2012-01-03 Fair Isaac Corporation Fraud detection based on efficient frequent-behavior sorted lists
CN102498702A (zh) * 2009-07-20 2012-06-13 美国唯美安视国际有限公司 用于检测克隆回放装置的系统和方法
US8296205B2 (en) * 2010-01-06 2012-10-23 Fair Isaac Corporation Connecting decisions through customer transaction profiles
US9659063B2 (en) * 2010-12-17 2017-05-23 Software Ag Systems and/or methods for event stream deviation detection
CN103167202B (zh) * 2011-12-19 2014-12-24 中国移动通信集团甘肃有限公司 一种不同源话单稽核方法和装置
US9200918B2 (en) * 2012-03-09 2015-12-01 Apple Inc. Intelligent destination recommendations based on historical data
WO2013171474A2 (en) 2012-05-15 2013-11-21 University Of Lancaster Anomalous system state identification
US20140081652A1 (en) * 2012-09-14 2014-03-20 Risk Management Solutions Llc Automated Healthcare Risk Management System Utilizing Real-time Predictive Models, Risk Adjusted Provider Cost Index, Edit Analytics, Strategy Management, Managed Learning Environment, Contact Management, Forensic GUI, Case Management And Reporting System For Preventing And Detecting Healthcare Fraud, Abuse, Waste And Errors
US9544204B1 (en) * 2012-09-17 2017-01-10 Amazon Technologies, Inc. Determining the average reading speed of a user
US10531251B2 (en) 2012-10-22 2020-01-07 United States Cellular Corporation Detecting and processing anomalous parameter data points by a mobile wireless data network forecasting system
WO2015157798A1 (en) * 2014-04-15 2015-10-22 Biometix Pty Ltd Method of processing statistical data
US20150348202A1 (en) * 2014-05-29 2015-12-03 Fair Isaac Corporation Insurance Claim Outlier Detection with Kernel Density Estimation
CN105629310B (zh) * 2014-11-05 2018-07-13 中国石油天然气股份有限公司 碳酸盐岩储层的无井约束地质统计学反演的方法和装置
US20170147941A1 (en) * 2015-11-23 2017-05-25 Alexander Bauer Subspace projection of multi-dimensional unsupervised machine learning models
CN105574329A (zh) * 2015-12-11 2016-05-11 同济大学 基于周期分段函数移相叠加算法的脉动概率密度获取方法
CN105550510A (zh) * 2015-12-11 2016-05-04 同济大学 一种双泵合流流量脉动特性提取方法
US9792259B2 (en) 2015-12-17 2017-10-17 Software Ag Systems and/or methods for interactive exploration of dependencies in streaming data
US10482196B2 (en) * 2016-02-26 2019-11-19 Nvidia Corporation Modeling point cloud data using hierarchies of Gaussian mixture models
CN105933164B (zh) * 2016-06-28 2019-04-09 中国联合网络通信集团有限公司 出度计算方法及其装置、新增中继的选择方法及其系统
CN106326467B (zh) * 2016-08-31 2019-07-26 湖南德立信软件开发有限公司 基于非线性数据归档组卷的方法
US11475310B1 (en) 2016-11-29 2022-10-18 Perceive Corporation Training network to minimize worst-case error
US11537870B1 (en) * 2018-02-07 2022-12-27 Perceive Corporation Training sparse networks with discrete weight values
CA3104596A1 (en) * 2019-12-30 2021-06-30 Royal Bank Of Canada System and method for reconciliation of electronic data processes
JP7205514B2 (ja) * 2020-03-31 2023-01-17 横河電機株式会社 学習データ処理装置、学習データ処理方法、学習データ処理プログラム、及び非一時的なコンピュータ読み取り可能な媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06325009A (ja) * 1993-05-17 1994-11-25 Ricoh Co Ltd 学習機械およびそれを用いたデータ分析装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832182A (en) * 1996-04-24 1998-11-03 Wisconsin Alumni Research Foundation Method and system for data clustering for very large databases
US5813002A (en) * 1996-07-31 1998-09-22 International Business Machines Corporation Method and system for linearly detecting data deviations in a large database
US6003029A (en) * 1997-08-22 1999-12-14 International Business Machines Corporation Automatic subspace clustering of high dimensional data for data mining applications
US6055491A (en) * 1997-10-17 2000-04-25 At&T Corp. Method and apparatus for analyzing co-evolving time sequences
US6466894B2 (en) * 1998-06-18 2002-10-15 Nec Corporation Device, method, and medium for predicting a probability of an occurrence of a data
US6904409B1 (en) * 1999-06-01 2005-06-07 Lucent Technologies Inc. Method for constructing an updateable database of subject behavior patterns
JP3506068B2 (ja) * 1999-09-29 2004-03-15 日本電気株式会社 外れ値度計算装置
US6601014B1 (en) * 1999-11-30 2003-07-29 Cerebrus Solutions Ltd. Dynamic deviation
JP3832281B2 (ja) * 2001-06-27 2006-10-11 日本電気株式会社 外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラム
JP3821225B2 (ja) * 2002-07-17 2006-09-13 日本電気株式会社 時系列データに対する自己回帰モデル学習装置並びにそれを用いた外れ値および変化点の検出装置
JP2004309998A (ja) * 2003-02-18 2004-11-04 Nec Corp 確率分布推定装置および異常行動検出装置,ならびにその確率分布推定方法および異常行動検出方法
IL161217A (en) * 2004-04-01 2013-03-24 Cvidya 2010 Ltd Detection of outliers in communication networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06325009A (ja) * 1993-05-17 1994-11-25 Ricoh Co Ltd 学習機械およびそれを用いたデータ分析装置

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU769001B2 (en) * 1999-09-29 2004-01-15 Nec Corporation Degree of outlier calculation device, and probability density estimation device and histogram calculation device for use therein
US7353214B2 (en) 2001-06-27 2008-04-01 Nec Corporation Outlier determination rule generation device and outlier detection device, and outlier determination rule generation method and outlier detection method thereof
US7346593B2 (en) 2002-07-17 2008-03-18 Nec Corporation Autoregressive model learning device for time-series data and a device to detect outlier and change point using the same
JP2004309998A (ja) * 2003-02-18 2004-11-04 Nec Corp 確率分布推定装置および異常行動検出装置,ならびにその確率分布推定方法および異常行動検出方法
US7561991B2 (en) 2003-02-18 2009-07-14 Nec Corporation Detection of abnormal behavior using probabilistic distribution estimation
JP2004348740A (ja) * 2003-05-22 2004-12-09 Microsoft Corp 異常検出のための自己学習方法及びシステム
JP2011040064A (ja) * 2003-11-12 2011-02-24 Trustees Of Columbia Univ In The City Of New York 正常データのnグラム分布を用いてペイロード異常を検出するための装置、方法、及び媒体
US8611228B2 (en) 2005-06-02 2013-12-17 Nec Corporation Anomaly detection method and system and maintenance method and system
WO2006129792A1 (ja) * 2005-06-02 2006-12-07 Nec Corporation 異常検出方法およびシステム、並びに、保全方法およびシステム
CN101189895B (zh) * 2005-06-02 2012-09-26 日本电气株式会社 异常检测方法和系统以及维护方法和系统
JP2007265141A (ja) * 2006-03-29 2007-10-11 Nec Corp 監視項目絞込み装置、監視項目絞込み方法、および、監視項目絞込みプログラム
JP2012237719A (ja) * 2011-05-13 2012-12-06 Kddi Corp 気圧センサを用いて昇降移動状態を推定する携帯装置、プログラム及び方法
KR101753474B1 (ko) 2014-08-06 2017-07-04 아마데우스 에스.에이.에스. 예측적 사기 스크리닝
JP2016189062A (ja) * 2015-03-30 2016-11-04 有限責任監査法人トーマツ 異常検出装置、異常検出方法及びネットワーク異常検出システム
JP2019101982A (ja) * 2017-12-07 2019-06-24 日本電信電話株式会社 学習装置、検知システム、学習方法及び学習プログラム
CN111602410A (zh) * 2018-02-27 2020-08-28 欧姆龙株式会社 适合性判定装置、适合性判定方法和程序
CN111602410B (zh) * 2018-02-27 2022-04-19 欧姆龙株式会社 适合性判定装置、适合性判定方法和存储介质
CN109900422A (zh) * 2019-01-02 2019-06-18 同济大学 一种基于图形的多泵合流流量脉动特性检测方法
JP7326179B2 (ja) 2020-02-06 2023-08-15 株式会社国際電気通信基礎技術研究所 通信状況推定装置、通信状況推定方法、および、プログラム
WO2022044301A1 (en) * 2020-08-28 2022-03-03 Nec Corporation Information processing apparatus, information processing method, and computer readable medium

Also Published As

Publication number Publication date
US7333923B1 (en) 2008-02-19
AU6135700A (en) 2001-04-05
AU769001B2 (en) 2004-01-15
GB0023805D0 (en) 2000-11-08
JP3506068B2 (ja) 2004-03-15
GB2361336A (en) 2001-10-17
IL138744A0 (en) 2001-10-31

Similar Documents

Publication Publication Date Title
JP2001101154A (ja) 外れ値度計算装置及びそれに用いる確率密度推定装置並びに忘却型ヒストグラム計算装置
Xu et al. Adaptive ADMM with spectral penalty parameter selection
JP4697670B2 (ja) 識別用データ学習システム、学習装置、識別装置及び学習方法
CN109558951B (zh) 一种欺诈账号检测方法、装置及其存储介质
WO2020224106A1 (zh) 基于神经网络的文本分类方法、系统及计算机设备
CN116596095B (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
US7870082B2 (en) Method for machine learning using online convex optimization problem solving with minimum regret
CN113591915A (zh) 基于半监督学习和单分类支持向量机的异常流量识别方法
CN115718826A (zh) 图结构数据中的目标节点分类方法、系统、设备及介质
Pan et al. A network traffic classification method based on graph convolution and lstm
JP2007018530A (ja) 忘却型ヒストグラム計算装置及びそれを用いた外れ値度計算装置
JP4662702B2 (ja) 外れ値度計算装置
CN116303786A (zh) 一种基于多维数据融合算法的区块链金融大数据管理系统
Qu et al. A robust fuzzy time series forecasting method based on multi‐partition and outlier detection
CN112905166B (zh) 人工智能编程系统、计算机设备、计算机可读存储介质
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
CN114580534A (zh) 一种工业数据异常检测方法、装置、电子设备和存储介质
CN114254738A (zh) 双层演化的动态图卷积神经网络模型构建方法及应用
CN111275447A (zh) 基于自动化特征工程的在线网络支付欺诈检测系统
Suyal et al. An Agile Review of Machine Learning Technique
Ghari et al. Graph-aided online multi-kernel learning
US11868337B2 (en) Systems and methods for correcting label bias in data
Ye et al. Gaussian weighting reversion strategy for accurate on-line portfolio selection
CN113420561B (zh) 一种命名实体识别方法、装置、设备及存储介质
CN115564560A (zh) 风险评估方法、装置和存储介质

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20031208

R150 Certificate of patent or registration of utility model

Ref document number: 3506068

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071226

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081226

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091226

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091226

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101226

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101226

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111226

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111226

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121226

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121226

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131226

Year of fee payment: 10

EXPY Cancellation because of completion of term