JP2015026218A - 異常事例検出装置、方法、プログラム、及び記録媒体 - Google Patents

異常事例検出装置、方法、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP2015026218A
JP2015026218A JP2013154985A JP2013154985A JP2015026218A JP 2015026218 A JP2015026218 A JP 2015026218A JP 2013154985 A JP2013154985 A JP 2013154985A JP 2013154985 A JP2013154985 A JP 2013154985A JP 2015026218 A JP2015026218 A JP 2015026218A
Authority
JP
Japan
Prior art keywords
case
cases
information sources
latent
latent vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013154985A
Other languages
English (en)
Inventor
具治 岩田
Tomoharu Iwata
具治 岩田
山田 誠
Makoto Yamada
誠 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013154985A priority Critical patent/JP2015026218A/ja
Publication of JP2015026218A publication Critical patent/JP2015026218A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】複数の情報源からなるデータの異常値を検出することにより、精度よく異常事例を検出する。
【解決手段】入力部10により複数の情報源からなる事例の集合を取得し、潜在ベクトル割当部30により、事例の集合に基づいて、事例の各々について、事例に含まれる複数のデータの特徴量の組み合わせの関係性が他の事例と一貫している場合に、事例における複数の情報源に対して同一の潜在ベクトルが割り当てられ、事例に含まれる複数のデータの特徴量の組み合わせの関係性が他の事例と一貫していない場合に、事例における複数の情報源に対して異なる潜在ベクトルが割り当てられるように、事例における複数の情報源に対して潜在ベクトルを割り当て、異常スコア算出部40により、事例の各々について、事例における潜在ベクトルの種類数に基づいて、事例の異常値スコアを算出する。
【選択図】図1

Description

本発明は、異常事例検出装置、方法、プログラム、及び記録媒体に係り、特に、複数の情報源から得られる複数のデータからなる異常事例を検出する異常事例検出装置、方法、プログラム、及び記録媒体に関する。
複数の情報源からデータが得られる場合がある。例えば、画像は色、テクスチャ、局所特徴量などの異なる情報源からのデータで表現できる。また、映画はジャンル、出演者、その映画を見たいユーザの集合で表現されたり、ある百科事典の項目が異なる言語で表現されていたりする。
異なる情報源のデータが一貫していない異常値を持つ事例を検出することにより、例えば、色とテクスチャの組み合わせが特殊な画像を検出できたり、特異な映画(そのジャンルからは好まれないと思われるユーザ群に好まれる映画)を発見できたり、誤情報が掲載されている多言語百科事典の項目を検出できる。
従来、1つの情報源からなるデータのみを用いて異常値を検出している(非特許文献1)。
Tomoharu Iwata, Kazumi Saito, "Visualization of Anomalies using Mixture Models," Journal of Intelligent Manufacturing, Vol.16, 635-643, 2005
しかしながら、非特許文献1の手法においては複数の情報源からなるデータは活用できないという問題がある。
本発明では、上記問題点を解決するために成されたものであり、複数の情報源から得られる複数のデータからなる事例の集合を取得し、事例の各々について、事例に含まれる複数の情報源に対して潜在ベクトルを割り当て、事例に含まれる複数の情報源に対して割り当てられた潜在ベクトルの種類数に基づいて、事例の異常値スコアを算出することにより、複数の情報源から得られる複数のデータからなる事例の集合から、精度よく異常事例を検出することができる異常事例検出装置、方法、プログラム、及び記録媒体を提供することを目的とする。
上記目的を達成するために、第1の発明の異常事例検出装置は、複数の情報源から得られる複数のデータからなる事例の集合を取得するデータ取得手段と、前記データ取得手段によって取得された前記事例の集合に基づいて、前記事例の各々について、前記事例に含まれる前記複数のデータの特徴量の組み合わせの関係性が他の事例と一貫している場合に、前記事例における前記複数の情報源に対して同一の潜在ベクトルが割り当てられ、前記事例に含まれる前記複数のデータの特徴量の組み合わせの関係性が他の事例と一貫していない場合に、前記事例における前記複数の情報源に対して異なる潜在ベクトルが割り当てられるように、前記事例における前記複数の情報源に対して前記潜在ベクトルを割り当てる潜在ベクトル割当手段と、前記事例の各々について、前記潜在ベクトル割当手段によって前記事例における前記複数の情報源に対して前記潜在ベクトルの種類数に基づいて、前記事例の異常値スコアを算出する異常値スコア算出手段と、を含んで構成されている。
第2の発明の異常事例検出方法は、データ取得手段と、潜在ベクトル割当手段と、異常値スコア算出手段と、を含む異常事例検出装置における異常事例検出方法であって、前記データ取得手段は、複数の情報源から得られる複数のデータからなる事例の集合を取得し、前記潜在ベクトル割当手段は、前記データ取得手段によって取得された前記事例の集合に基づいて、前記事例の各々について、前記事例に含まれる前記複数のデータの特徴量の組み合わせの関係性が他の事例と一貫している場合に、前記事例における前記複数の情報源に対して同一の潜在ベクトルが割り当てられ、前記事例に含まれる前記複数のデータの特徴量の組み合わせの関係性が他の事例と一貫していない場合に、前記事例における前記複数の情報源に対して異なる潜在ベクトルが割り当てられるように、前記事例における前記複数の情報源に対して前記潜在ベクトルを割り当て、前記異常値スコア算出手段は、前記事例の各々について、前記潜在ベクトル割当手段によって前記事例における前記複数の情報源に対して前記潜在ベクトルの種類数に基づいて、前記事例の異常値スコアを算出する。
このように、第1の発明及び第2の発明によれば、複数の情報源から得られる複数のデータからなる事例の集合を取得し、事例の各々について、事例に含まれる複数の情報源に対して潜在ベクトルを割り当て、事例に含まれる複数の情報源に対して割り当てられた潜在ベクトルの種類数に基づいて、事例の異常値スコアを算出することにより、複数の情報源から得られる複数のデータからなる事例の集合から、精度よく異常事例を検出することができる。
また、第1の発明において、前記潜在ベクトル割当手段は、前記事例nの各々について、前記事例nにおける前記複数の情報源dに対して潜在ベクトルの初期値を設定すると共に、前記複数の情報源dについて、前記潜在ベクトルを前記情報源dのデータの特徴量に変換するための射影行列の初期値を設定する初期値設定手段と、前記初期値設定手段により前記事例nの各々について設定又は前回決定された前記複数の情報源dの各々に対する前記潜在ベクトルと、前記初期値設定手段により設定又は前回推定された前記複数の情報源dの各々の射影行列と、前記事例nの各々に含まれる前記複数のデータの特徴量とに基づいて、前記事例nの各々及び前記複数の情報源dの各々について、前記事例nにおいて前記情報源dに各潜在ベクトルが割り当てられる割当度、及び新規潜在ベクトルが割り当てられる割当度を算出し、前記算出した前記各潜在ベクトルの割当度及び前記新規潜在ベクトルの割当度に基づいて、各潜在ベクトル及び前記新規潜在ベクトルの中から、前記事例nにおいて前記情報源dに割り当てる潜在ベクトルを決定する割当手段と、前記割当手段により前記事例nの各々について決定した前記複数の情報源dの各々の潜在ベクトルと、前記事例nの各々に含まれる前記複数のデータの特徴量とに対して、尤もらしくなるように前記複数の情報源dの各々の射影行列を推定する射影行列推定手段と、予め定められた反復条件を満足するまで、前記割当手段による決定及び前記射影行列推定手段による推定を繰り返す反復手段と、を含み、前記異常値スコア算出手段は、前記事例nの各々について、前記割当手段により繰り返し決定された前記事例nの潜在ベクトルの種類数に基づいて、前記事例nの異常値スコアを算出することができる。
また、前記異常値スコア算出手段は、前記事例nの各々について、前記割当手段により繰り返し決定された前記事例nの潜在ベクトルのうち、所定回数以上の繰り返しで決定された前記事例nの潜在ベクトルの種類数に基づいて、前記事例nの異常値スコアを算出することができる。
また、本発明のプログラムは、コンピュータを、上記の異常事例検出装置を構成する各手段として機能させるためのプログラムである。
また、本発明の記録媒体は、コンピュータを、上記の異常事例検出装置を構成する各手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
以上説明したように、本発明の異常事例検出装置、方法、プログラム、及び記録媒体によれば、複数の情報源から得られる複数のデータからなる事例の集合を取得し、事例の各々について、事例に含まれる複数の情報源に対して潜在ベクトルを割り当て、事例に含まれる複数の情報源に対して割り当てられた潜在ベクトルの種類数に基づいて、事例の異常値スコアを算出することにより、複数の情報源から得られる複数のデータからなる事例の集合から、精度よく異常事例を検出することができる。
本発明の実施の形態に係る異常事例検出装置の機能的構成を示すブロック図である。 本発明の実施の形態において用いる表記の例を示す図である。 正常事例と異常事例の例を示す図である。 本発明の実施の形態に係る異常事例検出装置における異常事例検出処理ルーチンの内容を示すフローチャートである。 異なる異常値割合のデータセットでのAUCの平均と標準誤差の例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<異常事例検出装置の構成>
本発明の実施の形態に係る異常事例検出装置について説明する。図1に示すように、本発明の実施の形態に係る異常事例検出装置100は、CPUと、RAMと、後述する異常事例検出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この異常事例検出装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、キーボードなどの入力装置から、D個の情報源から得られるD個のデータの特徴量からなる事例をN個含む事例集合X(X={X n=1)を受け付ける。ここでX={xnd d=1は、n番目の事例に含まれるD個情報源のデータを表し、
はそのd番目の情報源から得られるデータの特徴量を表す。図2に本実施の形態で用いる表記を示す。なお、入力部10は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。
演算部20は、潜在ベクトル割当集合記憶部22、異常スコア集合記憶部24、潜在ベクトル割当部30、及び異常スコア算出部40を備えている。
潜在ベクトル割当部30は、初期化部32、割当部34、射影行列推定部36、及び反復終了条件判定部38を備えている。
潜在ベクトル割当部30は、マルコフ連鎖モンテカルロ法(MCMC:Markovchain Monte Carlo methods)に従って、潜在ベクトルの現在の割り当てがどのくらい入力データを尤もらしく説明できているかを表す下記(1)式が示す尤度が収束するまで、入力部10において受け付けたN個の事例の各々について、D個の情報源の各々に対する潜在ベクトルの割り当てを繰り返す。ここで、ある事例nの全ての情報源の特徴量の組み合わせの関係性が他の事例と一貫している場合、当該事例nの全情報源に1つの同一の潜在ベクトルが割り当てられていれば尤度は高くなり、ある事例nの全ての情報源の特徴量の組み合わせの関係性が他の事例と一貫していない場合、当該事例nの情報源の各々に異なる潜在ベクトルが割り当てられていれば、尤度は高くなる。なお、潜在ベクトルの次元は予め定められた次元数とする。また、潜在ベクトルの現在の割り当てがどのくらい入力データを尤もらしく説明できているかを表す尤度が収束するまでという条件が、予め定められた反復条件の一例である。また、下記(1)式は尤度の一例である。
図3に、全情報源の特徴量の組み合わせの関係性が他の事例と一貫している正常事例と、複数情報源の特徴量の組み合わせの関係性が他の事例と一貫していない異常事例とを示す。図3に示す例においては、6つの情報源がある。また、正常事例の場合、全ての情報源に同一の潜在ベクトルZn1が割り当てられている。一方、異常事例の場合、1、2、及び5番目の情報源に1番目の潜在ベクトルZn´1が、3番目の事例に2番目の潜在ベクトルZn´2が、4及び6番目の事例に3番目の潜在ベクトルZn´3が割り当てられている。
ここで、S={{snd d=1 n=1は潜在ベクトル割当集合、sndはn番目の事例のd番目の情報源に割り当てられた潜在ベクトルのインデックスを表し、W={W d=1は射影行列集合、a、b、r、及びγは予め定められたパラメータである。d番目の射影行列Wは、潜在ベクトルをd番目の情報源の特徴量に変換するための行列である。上記(1)式の第一項は、下記(2)式で計算できる。
ここで、Nnjは、n番目の事例においてj番目の潜在ベクトルに割り当てられた情報源の数、Jはn番目の事例で用いられたNnj>0である潜在ベクトルの数を表す。また、上記(1)式の第二項は、下記(3)式で計算できる。
初期化部32は、入力部10において受け付けたN個の事例の各々の潜在ベクトル数を1に設定する。また、各事例nの各情報源dに同一の潜在ベクトルを割り当てる(snd=1,n=1,…,N,d=1,…,D)。そして、情報源dの各々の射影行列Wからなる射影行列集合Wをランダムに初期化する。
割当部34は、入力部10において受け付けた各事例n(n=1,…,N)の各情報源d(d=1,…,D)の各々について、事例nにおける情報源dに対してどの潜在ベクトルに割り当てられるかの度合いを表す割当度を算出し、算出した割当度に基づいて、事例nにおける情報源dに対して割り当てる潜在ベクトルを決定する。
具体的には、CRP(Chinese restaurant process)に従って、事例n毎に、情報源dの各々について、予め定められた各パラメータ(a、b、r、γ)及び当該事例nに含まれるD個の情報源から得られるデータの特徴量と、当該事例nにおける当該情報源dに対する潜在ベクトルの割り当てを除いた潜在ベクトル割当集合Sと、初期化部32において初期化され又は射影行列推定部36において推定された情報源dの各々についての射影行列Wからなる射影行列集合Wとに基づいて、下記(6)式により潜在ベクトル毎の割当度を算出する。なお、下記(6)式はj番目の潜在ベクトルの割当度を算出するものとする。
ここで、L=(n,d)はn番目の事例のd番目の情報源のインデックスを表す。\Lはn番目の事例のd番目を取り除いた場合の値もしくは集合を表す。ここで、上記(6)式の第一項は下記(7)式によって計算できる。
ただし、上記(7)式はCRP(Chinese restaurant process)による情報源dの割り当てられる潜在ベクトルの決定式である。また、上記(6)式の第二項は下記(8)式によって計算できる。
なお、I(・)は指示関数、つまりAが真ならばI(A)=1そうでなければ0を表し、sL=jは、n番目の事例のd番目の情報源がj番目の潜在ベクトルに割り当てられた場合の値を表し、下記(9)式及び(10)式に示すようになる。
上記(6)式〜(8)式では、直観的には、当該事例nにおける複数のデータの特徴量の組み合わせの関係性が、他の事例と一貫しておらず、情報源が既存の潜在ベクトルでモデル化できない場合には、新規の潜在ベクトルが割り当てられるように、割当度が算出される。
割当部34は、各事例nの各情報源dについて、上記(6)式から上記(10)式に基づいて算出された潜在ベクトル毎の割当度に基づいて、当該事例nにおける当該情報源dに割り当てる潜在ベクトルを、ランダムサンプリングにより{1,…,Jn\L+1}から決定する。割当部34による潜在ベクトルの決定は、試行毎に繰り返し行われ、試行毎に、各事例nの各情報源dに割り当てる潜在ベクトルからなる潜在ベクトル割当集合Sと、潜在ベクトル割当集合Sから求まる、各事例nで使用された潜在ベクトル数Jnとを、潜在ベクトル割当集合記憶部22に記憶する。
射影行列推定部36は、割当部34において決定された各事例n及び各情報源dに対する潜在ベクトル割当に基づいて、上記(1)式の尤度が高くなるように情報源d毎の射影行列Wを推定しメモリ(図示省略)に記憶する。具体的には、準ニュートン法等の最適化手法を用いることにより、射影行列を推定する。
反復終了条件判定部38は、割当部34において各事例nの情報源dの各々について決定された潜在ベクトル割当からなる潜在ベクトル割当集合Sと、潜在ベクトル割当集合Sから求まる、各事例nで使用された潜在ベクトル数と、射影行列推定部36において推定された情報源dの各々の射影行列Wからなる射影行列集合Wと、入力部10において受け付けた各パラメータ(a,b,r,γ)と、当該事例nに含まれるD個の情報源から得られるデータの特徴量とに基づいて、上記(1)式に従って尤度を算出する。そして、前回求めた尤度と今回求めた尤度の差が予め定められた値の範囲内である場合には、反復終了条件を満たすと判定する。一方、前回求めた尤度と今回求めた尤度の差が予め定められた値の範囲でない場合には、割当部34による決定処理と射影行列推定部36による推定処理は、繰り返し反復終了条件を満足するまで、繰り返し行われる。なお、1回目の試行の場合には、繰返し終了条件は満たさないものとする。
潜在ベクトル割当集合記憶部22は、潜在ベクトル割当部30により、試行毎に決定された各事例nの情報源dの各々の潜在ベクトル割当からなる潜在ベクトル割当集合Sと、試行毎の潜在ベクトル割当集合Sから求まる試行毎の各事例nで使用された潜在ベクトル数とを記憶している。
異常スコア算出部40は、割当読込部42と、スコア算出部44とを備えている。異常スコア算出部40は、潜在ベクトル割当集合記憶部22に記憶された、試行毎の各事例nで使用された潜在ベクトル数に基づいて、事例の各々について異常スコアを算出する。
割当読込部42は、潜在ベクトル割当集合記憶部22に記憶されている、試行毎の各事例nで使用された潜在ベクトル数を読み込む。具体的には、試行h回目のn番目の事例で使われた潜在ベクトル数の集合{{J(h) h=1 n=1を読み込む。
スコア算出部44は、割当読込部42において読み込まれた試行毎の事例の各々の潜在ベクトル数に基づいて、事例の各々の異常値スコアを算出する。ここで、異常値スコアは、その事例の全情報源を表現するために1つより多くの潜在ベクトルが使われる確率であり、下記(11)式により算出する。そして、事例の各々の異常値スコアの算出結果V={v n=1を異常スコア集合記憶部24に記憶すると共に、出力部50に出力する。なお、潜在ベクトル数が潜在ベクトルの種類数の一例である。下記(11)式のHは潜在ベクトル割当部30における割当部34の決定処理の試行の回数を表す。
なお、繰り返しの初期では推定が安定していないため、所定回数未満の試行の結果を省いて、所定回数以上の試行の各々の、各事例nで使用された潜在ベクトル数を用いて、異常スコアを計算してもよい。
<異常事例検出装置の作用>
次に、本発明の実施の形態に係る異常事例検出装置100の作用について説明する。まず、入力部10によりD個の情報源から得られるD個のデータの特徴量からなる事例をN個含む事例集合X(X={X n=1)が入力される。そして、異常事例検出装置100のROMに記憶されたプログラムを、CPUが実行することにより、図4に示す異常事例検出処理ルーチンが実行される。
まず、ステップS100では、入力部10により入力された事例集合X(X={X n=1)を受け付ける。
次に、ステップS102では、ステップS100において取得したN個の事例の各々の潜在ベクトル数を1に設定する。
次に、ステップS104では、D個の情報源dの各々の射影行列Wからなる射影行列集合Wをランダムに初期化する。
次に、ステップS106では、処理対象の事例nにおける処理対象の情報源dについて、予め定められた各パラメータ(a、b、r、γ)及び当該事例nに含まれるD個の情報源から得られるデータ特徴量と、当該事例nにおける当該情報源dに対する潜在ベクトルの割り当てを除いた潜在ベクトル集合Sと、ステップS104において初期化され又は前回推定された情報源dの各々についての射影行列Wからなる射影行列集合Wとに基づいて、上記(6)式により潜在ベクトル毎の割当度を算出する。
次に、ステップS110では、処理対象の事例nにおける処理対象の情報源dについて、ステップS106において算出された潜在ベクトル毎の割当度に基づいて、処理対象の事例nにおける処理対象の情報源dに割り当てる潜在ベクトルを、ランダムサンプリングにより{1,…,Jn\L+1}から決定する。
次に、ステップS112では、処理対象となる事例nにおける全ての情報源dについてステップS106〜ステップS112までの処理を終了したか否かを判定する。処理対象となる事例nにおける全ての情報源dについて処理を終了している場合には、ステップS114へ移行し、処理対象となる事例nにおける全ての情報源dについて処理を終了していない場合には、処理対象となる情報源dを変更し、ステップS106へ移行し処理を繰り返す。
次に、ステップS114では、事例nの全てについてステップS106〜ステップS112までの処理を終了したか否かを判定する。全ての事例nについて処理を終了している場合には、ステップS116へ移行し、全ての事例nについて処理を終了していない場合には、処理対象となる事例nを変更し、ステップS106へ移行し処理を繰り返す。
次に、ステップS116では、ステップS110において決定した各事例nにおける各情報源dに割り当てた潜在ベクトルからなる潜在ベクトル割当集合Sと、潜在ベクトル割当集合Sから求まる、各事例nで使用された潜在ベクトル数Jとを、今回の試行の結果として潜在ベクトル割当集合記憶部22に記憶する。
次に、ステップS118では、ステップS116において取得した各事例n及び各情報源dに対する潜在ベクトル割当に基づいて、上記(1)式の尤度が高くなるように情報源d毎の射影行列Wを推定し、射影行列集合Wを更新する。
次に、ステップS120では、反復終了条件を満たすか否かを判定する。反復終了条件を満たす場合には、ステップS122へ移行し、反復終了条件を満たさない場合には、ステップS106へ移行し、ステップS106〜ステップS118の処理を繰り返す。
次に、ステップS122では、潜在ベクトル割当集合記憶部22に記憶されている試行毎の各事例nで使用された潜在ベクトル数Jを読み込む。
次に、ステップS124では、ステップS122において取得した試行毎の各事例nで使用された潜在ベクトル数Jに基づいて、上記(11)式に従って、各事例nについての異常値スコアを算出する。
次に、ステップS126では、ステップS124において取得した各事例nの異常値スコアを処理結果として異常スコア集合記憶部24に記憶すると共に、出力部50に出力して処理を終了する。
<異常事例検出装置の実施例>
次に、本実施の形態に係る異常事例検出装置100において11データセットを用いて実験を行った結果を示す。本実験においては、各データセットの特徴量をランダムに分割し、複数の情報源を作成した。また、ランダムに選んだ2つの事例のある情報源の特徴量を交換することにより異常値を挿入した。
比較手法としてHOAD(HOrizontal Anomaly Detection)(非特許文献2(J. Gao, W. Fan, D. Turaga, S. Parthasarathy, and J. Han. A spectral framework for detecting inconsistency across multi-source object relationships. In IEEE 11th International Conference on Data Mining (ICDM), pages 1050{1055. IEEE, 2011.)を参照)及び、Probabilistic Canonical Correlation Analysis(PCCA)(非特許文献3(F. R. Bach and M. I. Jordan. A probabilistic interpretation of canonical correlation analysis. Technical Report 688, Department of Statistics, University of California, Berkeley, 2005.)を参照)を用いた。異常値の割合を変化させたときの異常値検出精度を図5に示す。評価指標としてAUC(Area Under the ROC Curve)を用いた。高いAUCは高い検出精度を示す。多くのデータセットで本実施の形態に係る異常事例検出装置100(Proposed)が最も高い精度を達成しており、複数情報源から異常値を効果的に検出できることを示唆する。
以上、説明したように、本発明の実施の形態に係る検出装置によれば、複数の情報源から得られるデータからなる事例の異常値スコアを、各情報源に割り当てた潜在ベクトルの数に基づいて算出することにより、精度よく異常事例を検出することができる。
なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
本実施の形態においては、上記(1)式を尤度として求める場合について説明したがこの限りでない。例えば、上記(1)式の代わりに事後確率など同等の性質をもつ値を用いてもよい。
また、本実施の形態においては、マルコフ連鎖モンテカルロ法に基づいて潜在ベクトルを割り当てる場合について説明したがこの限りでない。例えば、最尤推定法や変分ベイズ法などを用いてもよい。
また、本実施の形態においては、潜在ベクトルの次元は予め定められた次元数としている場合について説明したがこの限りでない。例えば、潜在ベクトルの次元を交差検定等を用いて推定してもよい。
また、本実施の形態においては、反復終了条件として尤度の変化の大きさを用いる場合について説明したがこの限りではない。例えば、反復終了条件として予め定めた繰り返し回数、処理を繰り返したか否かを用いてもよい。
10 入力部
20 演算部
22 潜在ベクトル割当集合記憶部
24 異常スコア集合記憶部
30 潜在ベクトル割当部
32 初期化部
34 割当部
36 射影行列推定部
38 反復終了条件判定部
40 異常スコア算出部
42 割当読込部
44 スコア算出部
50 出力部
100 異常事例検出装置

Claims (6)

  1. 複数の情報源から得られる複数のデータからなる事例の集合を取得するデータ取得手段と、
    前記データ取得手段によって取得された前記事例の集合に基づいて、前記事例の各々について、前記事例に含まれる前記複数のデータの特徴量の組み合わせの関係性が他の事例と一貫している場合に、前記事例における前記複数の情報源に対して同一の潜在ベクトルが割り当てられ、前記事例に含まれる前記複数のデータの特徴量の組み合わせの関係性が他の事例と一貫していない場合に、前記事例における前記複数の情報源に対して異なる潜在ベクトルが割り当てられるように、前記事例における前記複数の情報源に対して前記潜在ベクトルを割り当てる潜在ベクトル割当手段と、
    前記事例の各々について、前記潜在ベクトル割当手段によって前記事例における前記複数の情報源に対して割り当てられた前記潜在ベクトルの種類数に基づいて、前記事例の異常値スコアを算出する異常値スコア算出手段と、
    を含む異常事例検出装置。
  2. 前記潜在ベクトル割当手段は、
    前記事例nの各々について、前記事例nにおける前記複数の情報源dに対して潜在ベクトルの初期値を設定すると共に、前記複数の情報源dの各々について、前記潜在ベクトルを前記情報源dのデータの特徴量に変換するための射影行列の初期値を設定する初期値設定手段と、
    前記初期値設定手段により前記事例nの各々について設定又は前回決定された前記複数の情報源dの各々に対する前記潜在ベクトルと、前記初期値設定手段により設定又は前回推定された前記複数の情報源dの各々の射影行列と、前記事例nの各々に含まれる前記複数のデータの特徴量とに基づいて、前記事例nの各々及び前記複数の情報源dの各々について、前記事例nにおいて前記情報源dに各潜在ベクトルが割り当てられる割当度、及び前記事例nにおいて前記情報源dに新規潜在ベクトルが割り当てられる割当度を算出し、前記算出した前記各潜在ベクトルの割当度及び前記新規潜在ベクトルの割当度に基づいて、各潜在ベクトル及び前記新規潜在ベクトルの中から、前記事例nにおいて前記情報源dに割り当てる潜在ベクトルを決定する割当手段と、
    前記割当手段により前記事例nの各々について決定した前記複数の情報源dの各々の潜在ベクトルと、前記事例nの各々に含まれる前記複数のデータの特徴量とに対して、尤もらしくなるように前記複数の情報源dの各々の射影行列を推定する射影行列推定手段と、
    予め定められた反復条件を満足するまで、前記割当手段による決定及び前記射影行列推定手段による推定を繰り返す反復手段と、を含み、
    前記異常値スコア算出手段は、前記事例nの各々について、前記割当手段により繰り返し決定された前記事例nの潜在ベクトルの種類数に基づいて、前記事例nの異常値スコアを算出する請求項1記載の異常事例検出装置。
  3. 前記異常値スコア算出手段は、前記事例nの各々について、前記割当手段により繰り返し決定された前記事例nの潜在ベクトルのうち、所定回数以上の繰り返しで決定された前記事例nの潜在ベクトルの種類数に基づいて、前記事例nの異常値スコアを算出する請求項2記載の異常事例検出装置。
  4. データ取得手段と、潜在ベクトル割当手段と、異常値スコア算出手段と、を含む異常事例検出装置における異常事例検出方法であって、
    前記データ取得手段は、複数の情報源から得られる複数のデータからなる事例の集合を取得し、
    前記潜在ベクトル割当手段は、前記データ取得手段によって取得された前記事例の集合に基づいて、前記事例の各々について、前記事例に含まれる前記複数のデータの特徴量の組み合わせの関係性が他の事例と一貫している場合に、前記事例における前記複数の情報源に対して同一の潜在ベクトルが割り当てられ、前記事例に含まれる前記複数のデータの特徴量の組み合わせの関係性が他の事例と一貫していない場合に、前記事例における前記複数の情報源に対して異なる潜在ベクトルが割り当てられるように、前記事例における前記複数の情報源に対して前記潜在ベクトルを割り当て、
    前記異常値スコア算出手段は、前記事例の各々について、前記潜在ベクトル割当手段によって前記事例における前記複数の情報源に対して前記潜在ベクトルの種類数に基づいて、前記事例の異常値スコアを算出する
    異常事例検出方法。
  5. コンピュータを、前記請求項1から請求項3の何れか1項記載の異常事例検出装置を構成する各手段として機能させるためのプログラム。
  6. コンピュータを、前記請求項1から請求項3の何れか1項記載の異常事例検出装置を構成する各手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2013154985A 2013-07-25 2013-07-25 異常事例検出装置、方法、プログラム、及び記録媒体 Pending JP2015026218A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013154985A JP2015026218A (ja) 2013-07-25 2013-07-25 異常事例検出装置、方法、プログラム、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013154985A JP2015026218A (ja) 2013-07-25 2013-07-25 異常事例検出装置、方法、プログラム、及び記録媒体

Publications (1)

Publication Number Publication Date
JP2015026218A true JP2015026218A (ja) 2015-02-05

Family

ID=52490829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013154985A Pending JP2015026218A (ja) 2013-07-25 2013-07-25 異常事例検出装置、方法、プログラム、及び記録媒体

Country Status (1)

Country Link
JP (1) JP2015026218A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110690930A (zh) * 2019-09-27 2020-01-14 清华大学 信源数量检测方法及装置
JPWO2021106202A1 (ja) * 2019-11-29 2021-06-03

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110690930A (zh) * 2019-09-27 2020-01-14 清华大学 信源数量检测方法及装置
CN110690930B (zh) * 2019-09-27 2020-12-15 清华大学 信源数量检测方法及装置
JPWO2021106202A1 (ja) * 2019-11-29 2021-06-03
JP7420148B2 (ja) 2019-11-29 2024-01-23 日本電信電話株式会社 学習装置、学習方法及びプログラム

Similar Documents

Publication Publication Date Title
Oñorbe et al. How to zoom: bias, contamination and Lagrange volumes in multimass cosmological simulations
Hwang et al. Generalized structured component analysis: A component-based approach to structural equation modeling
Viana et al. Efficient global optimization algorithm assisted by multiple surrogate techniques
Dieker et al. Exact simulation of Brown-Resnick random fields at a finite number of locations
Monteiro et al. Fitting isochrones to open cluster photometric data-A new global optimization tool
Higson et al. Sampling errors in nested sampling parameter estimation
CN107194430B (zh) 一种样本筛选方法及装置,电子设备
US20150012465A1 (en) Decision tree learning
US8954910B1 (en) Device mismatch contribution computation with nonlinear effects
Bachoc et al. Gaussian processes with multidimensional distribution inputs via optimal transport and Hilbertian embedding
Peltola et al. Hierarchical Bayesian Survival Analysis and Projective Covariate Selection in Cardiovascular Event Risk Prediction.
CN110909868A (zh) 基于图神经网络模型的节点表示方法和装置
Graversen et al. Computational aspects of DNA mixture analysis: Exact inference using auxiliary variables in a Bayesian network
US10127694B2 (en) Enhanced triplet embedding and triplet creation for high-dimensional data visualizations
Chipman et al. Bayesian analysis of ordered categorical data from industrial experiments
Schöbi et al. PC-Kriging: a new metamodelling method combining Polynomial Chaos Expansions and Kriging
Müller et al. Generalized stability approach for regularized graphical models
US20220327394A1 (en) Learning support apparatus, learning support methods, and computer-readable recording medium
Iliev et al. Nonnegative matrix factorization for identification of unknown number of sources emitting delayed signals
CN114253605A (zh) 机器学习数据处理流水线的运行时间估计
US9904961B2 (en) System and method for determining the feedback capacity of information distributed in a complex network
JP2015026218A (ja) 異常事例検出装置、方法、プログラム、及び記録媒体
Jayasinghe et al. Statistical comparisons of non-deterministic IR systems using two dimensional variance
JP5600693B2 (ja) クラスタリング装置及び方法及びプログラム
Berry et al. TiK‐means: Transformation‐infused K‐means clustering for skewed groups