JP2022061157A - 異常検知装置及び異常検知方法 - Google Patents
異常検知装置及び異常検知方法 Download PDFInfo
- Publication number
- JP2022061157A JP2022061157A JP2020168968A JP2020168968A JP2022061157A JP 2022061157 A JP2022061157 A JP 2022061157A JP 2020168968 A JP2020168968 A JP 2020168968A JP 2020168968 A JP2020168968 A JP 2020168968A JP 2022061157 A JP2022061157 A JP 2022061157A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- threshold value
- score
- abnormality detection
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Testing And Monitoring For Control Systems (AREA)
Abstract
【課題】従来構成に対し、ハイパーパラメータ及び閾値を適切に設定可能とする。
【解決手段】正常データ及び異常データを取得するデータ取得部1と、ハイパーパラメータ並びにデータ取得部1により取得された正常データ及び異常データに基づいて、異常検知モデルを学習する学習部3と、学習部3による学習後の異常検知モデルを用い、データ取得部1により取得された正常データ及び異常データのスコアを取得するスコア取得部4と、スコア取得部4により取得されたスコアから、当該スコアの母集団の確率分布を推定する分布推定部5と、異常検知モデルに対する要求性能及び分布推定部5により推定された確率分布から、スコア取得部4により取得されたスコアに対する閾値を設定する閾値設定部6と、閾値設定部6により設定された閾値を用い、異常検知モデルに対する評価指標を算出する性能評価部7とを備えた。
【選択図】図1
【解決手段】正常データ及び異常データを取得するデータ取得部1と、ハイパーパラメータ並びにデータ取得部1により取得された正常データ及び異常データに基づいて、異常検知モデルを学習する学習部3と、学習部3による学習後の異常検知モデルを用い、データ取得部1により取得された正常データ及び異常データのスコアを取得するスコア取得部4と、スコア取得部4により取得されたスコアから、当該スコアの母集団の確率分布を推定する分布推定部5と、異常検知モデルに対する要求性能及び分布推定部5により推定された確率分布から、スコア取得部4により取得されたスコアに対する閾値を設定する閾値設定部6と、閾値設定部6により設定された閾値を用い、異常検知モデルに対する評価指標を算出する性能評価部7とを備えた。
【選択図】図1
Description
この発明は、異常検知モデルで用いられるスコアに対する閾値を設定する異常検知装置及び異常検知方法に関する。
製品の検査では、人による目視検査を自動化するため、異常検知モデルによる画像検査が行われている。また、製造装置及び機器は、計測した時系列のデータから、計測対象又は機器の異常を異常検知モデルによって検知可能である。これらで利用される異常検知モデルの多くは、収集したデータから正常と異常とを識別する基準となる値(以下、スコアと呼ぶ)を算出する。そして、製造装置及び機器は、このスコアに対して閾値を設定し、それに基づいて正常と異常とを識別する。
なお、異常検知手法としては、Isolation Forest(非特許文献1参照)、Local Outlier Factor(非特許文献2参照)及びGaussian Mixture Model(非特許文献3)等の手法が挙げられる。
異常検知モデルの性能は、過検出率及び見逃し率を基に評価され、過検出率も見逃し率も抑えられる程性能がよいとされる。過検出は、正常を異常として識別することを指す。見逃しは、異常を正常として識別することを指す。しかしながら、両者は、過検出を減らそうとすると見逃しが増え、見逃しを減らそうとすると過検出が増えるというトレードオフの関係となっている。すなわち、異常検知モデルが要求性能を満たすためには、スコアに対して適切な閾値を設定する必要がある。
一方、異常検知モデルにはそれぞれ特有のハイパーパラメータが存在する。ハイパーパラメータを変えることで、異常検知モデルの規模等を変えることができる。そのため、どの異常検知手法においても、スコアの算出にはハイパーパラメータが大きく影響し、それによって正常及び異常それぞれのスコア分布の形状が決定される。なお、要求性能を満たす異常検知モデルを得るためには、スコア分布が、正常と異常とが都合よく分類される形状となることが好ましく、そうなるハイパーパラメータを探索することが必要となる。
以上より、要求性能を満たす異常検知モデルを得るためには、適切な閾値及びハイパーパラメータを定める必要がある。
Liu,Fei Tony and Ting,Kai Ming and Zhou,Zhi-Hua:Isolation forest,Data Mining,2008.ICDM‘08.Eighth IEEE International Conference on,IEEE,pp.413-422(2008)
Breunig,Markus M and Kriegel,Hans-Peter and Ng,Raymond T and Sander,Jorg:LOF:identifying density-based local outliers,ACM sigmod record,Vol.29-2,ACM,pp.93-104(2000)
Douglas A. Reynolds:Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models,IEEE,pp.72-83(1995)
スコア分布では、正常は正常で似たスコアとなり、異常は異常で似たスコアとなり、各データのスコアが多く集まっている(スコアが密な状態)。これに対し、スコア分布において、正常及び異常の境界付近は、比較的各データのスコアが集まり難く、スコアが疎らな領域と考えられる。要求性能を満たそうとして、よく分離されているものを選べば尚更である。更に、対象によっては異常データが得られ難いこともあり、サンプル数が限られていることもあり得る。閾値は、正常及び異常の境界付近に設定されるため、スコアが疎らな領域で設定される。この場合、評価指標(過検出率及び見逃し率)は、境界付近の疎らなスコア分布に大きな影響を受ける。
更に、データによっては、スコアが外れ値となるものも存在する。外れ値が評価指標の算出に用いられている場合、その評価指標は適切とは言い難い。上述したように、過検出率と見逃し率はトレードオフの関係にあるため、一方が要求性能を満たす閾値とした場合に、他方が極端に悪い値となることが往々にして起こり得る。
以上のように、異常検知モデルから得られたスコアから直接的に閾値を設定して評価指標を算出すると、スコアの疎らさ及び外れ値の影響を非常に受けやすくなる。これは、閾値を設定する上で大きな問題であり、閾値から得られる評価指標に基づいてハイパーパラメータを選定することも困難にする。よって、スコアの疎らさ及び外れ値に頑健な閾値の設定方法及び評価指標の算出方法が必要とされる。
この発明は、上記のような課題を解決するためになされたもので、従来構成に対し、ハイパーパラメータ及び閾値を適切に設定可能な異常検知装置を提供することを目的としている。
この発明に係る異常検知装置は、正常データ及び異常データを取得するデータ取得部と、ハイパーパラメータ並びにデータ取得部により取得された正常データ及び異常データに基づいて、異常検知モデルを学習する学習部と、学習部による学習後の異常検知モデルを用い、データ取得部により取得された正常データ及び異常データのスコアを取得するスコア取得部と、スコア取得部により取得されたスコアから、当該スコアの母集団の確率分布を推定する分布推定部と、異常検知モデルに対する要求性能及び分布推定部により推定された確率分布から、スコア取得部により取得されたスコアに対する閾値を設定する閾値設定部と、閾値設定部により設定された閾値を用い、異常検知モデルに対する評価指標を算出する性能評価部とを備えたことを特徴とする。
この発明によれば、上記のように構成したので、従来構成に対し、ハイパーパラメータ及び閾値を適切に設定可能となる。
以下、この発明の実施の形態について図面を参照しながら詳細に説明する。
実施の形態1.
図1は実施の形態1に係る異常検知装置の構成例を示す。
異常検知装置は、異常検知モデルで用いられるスコアに対する閾値を設定し、当該異常検知モデルに対する評価指標を算出する。この異常検知装置は、図1に示すように、データ取得部1、前処理部2、学習部3、スコア取得部4、分布推定部5、閾値設定部6及び性能評価部7を備えている。
実施の形態1.
図1は実施の形態1に係る異常検知装置の構成例を示す。
異常検知装置は、異常検知モデルで用いられるスコアに対する閾値を設定し、当該異常検知モデルに対する評価指標を算出する。この異常検知装置は、図1に示すように、データ取得部1、前処理部2、学習部3、スコア取得部4、分布推定部5、閾値設定部6及び性能評価部7を備えている。
なお、異常検知装置は、システムLSI(Large Scale Integration)等の処理回路、又はメモリ等に記憶されたプログラムを実行するCPU(Central Processing Unit)等により実現される。
データ取得部1は、正常データ及び異常データを取得する。
前処理部2は、データ取得部1により取得された正常データ及び異常データに対し、各種の前処理を行う。前処理は、従来から知られている処理を適用可能であり、その説明を省略する。なお、前処理部2は異常検知装置に必須の構成ではなく、異常検知装置に前処理部2が設けられていなくてもよい。
学習部3は、ハイパーパラメータ並びにデータ取得部1により取得された正常データ及び異常データに基づいて、異常検知モデルを学習する。なお、前処理部2により正常データ及び異常データに対して前処理が行われた場合、学習部3は、ハイパーパラメータ並びに当該前処理後の正常データ及び異常データに基づいて、異常検知モデルを学習する。学習部3による学習方法としては、正常データ及び異常データの両方を用いる方法、正常データのみを用いる方法、及び、異常データのみを用いる方法の3つの方法が挙げられる。なお、異常データのみを用いる方法については、異常データに対して正常データの数が少ない場合等に適用されることが考えられる。
スコア取得部4は、学習部3による学習後の異常検知モデルを用い、データ取得部1により取得された正常データ及び異常データのスコアを取得する。なお、前処理部2により正常データ及び異常データに対して前処理が行われた場合、スコア取得部4は、学習部3による学習後の異常検知モデルを用い、当該前処理後の正常データ及び異常データのスコアを取得する。
分布推定部5は、スコア取得部4により取得されたスコアから、当該スコアの母集団の確率分布を推定する。実施の形態1では、上記確率分布がベータ分布であると見做し、分布推定部5は、スコア取得部4により取得されたスコアから、当該スコアの母集団の確率分布として、ベータ分布を推定する。
閾値設定部6は、異常検知モデルに対する要求性能及び分布推定部5により推定された確率分布から、スコア取得部4により取得されたスコアに対する閾値を設定する。実施の形態1では、閾値設定部6は、異常検知モデルに対する要求性能及び分布推定部5により推定されたベータ分布の累積分布関数から、スコア取得部4により取得されたスコアに対する閾値を設定する。要求性能には、過検出率及び見逃し率が含まれる。
性能評価部7は、閾値設定部6により設定された閾値を用い、異常検知モデルに対する評価指標を算出する。評価指標には、過検出率及び見逃し率が含まれる。
次に、図1に示す実施の形態1に係る異常検知装置の動作例について、図2を参照しながら説明する。
ここで、実施の形態1に係る異常検知装置では、データを、正常又は異常に分類する二値分類の問題を前提として考える。以下では、正常データを基準とするが、異常データ又は両方のデータを基準とする場合も同様である。ここでは、説明を簡潔にするため、スコアが大きい程正常に分類され、スコアが小さい程異常に分類されるものとする。異常検知手法については、従来から知られている非特許文献1~3等の手法を用いるものとする。
ここで、実施の形態1に係る異常検知装置では、データを、正常又は異常に分類する二値分類の問題を前提として考える。以下では、正常データを基準とするが、異常データ又は両方のデータを基準とする場合も同様である。ここでは、説明を簡潔にするため、スコアが大きい程正常に分類され、スコアが小さい程異常に分類されるものとする。異常検知手法については、従来から知られている非特許文献1~3等の手法を用いるものとする。
実施の形態1に係る異常検知装置では、スコアの疎らさ及び外れ値に対して頑健な異常検知モデルを得るため、スコアの母集団となる確率分布の推定を考える。すなわち、異常検知装置では、異常検知モデルにより得られたサンプル毎のスコアを直接用いるのではなく、それらを何らかの確率分布からサンプリングされたものと仮定し、得られたスコアからその確率分布を推定する。確率分布の推定は、正常及び異常の境界付近以外のデータも用いるため、必然的に直接的にスコアで考えるよりもサンプル数が増える。また、異常検知装置が推定した確率分布は、スコアのような疎密が無く連続的であるため、正常及び異常の境界付近でもスコアの疎らさの影響を受けることはない。また、外れ値については、異常検知装置による確率分布の推定によってある程度吸収されるため、上述のような極端な評価指標は算出され難くなる。
このように、実施の形態1に係る異常検知装置では、スコアの母集団となる確率分布を推定することで、閾値の設定及び評価指標の算出が安定することが期待される。そして、異常検知装置では、上記のような手法により閾値を設定して評価指標を算出することで、要求性能に対してより適切なハイパーパラメータを設定可能となる。
図1に示す実施の形態1に係る異常検知装置の動作例では、図2に示すように、まず、データ取得部1は、正常データ及び異常データを取得する(ステップST201)。
次いで、前処理部2は、データ取得部1により取得された正常データ及び異常データに対して前処理を行う(ステップST202)。
次いで、学習部3は、ハイパーパラメータ並びに前処理部2による前処理後の正常データ及び異常データに基づいて、異常検知モデルを学習する(ステップST203)。
次いで、スコア取得部4は、学習部3による学習後の異常検知モデルを用い、前処理部2による前処理後の正常データ及び異常データのスコアを取得する(ステップST204)。
次いで、分布推定部5は、スコア取得部4により取得されたスコアから、当該スコアの母集団の確率分布を推定する(ステップST205)。実施の形態1では、分布推定部5は、スコア取得部4により取得されたスコアから、当該スコアの母集団の確率分布として、ベータ分布を推定する。
以下では、分布推定部5が、スコア分布をベータ分布と見做して近似する手順について説明する。スコアは、0≦x≦1を満たすように正規化されているものとする。ベータ分布は2つのパラメータで表され、その確率密度関数は様々な形状を取ることができる。上記の通り、異常検知装置による閾値設定では、正常及び異常の境界付近のスコアが疎らな領域が重要であるため、その領域に対して柔軟に合わせられる分布が求められる。よって、実施の形態1に係る異常検知装置では、様々な形状を取ることができるベータ分布を用い、スコア分布を推定する。
ベータ分布の確率密度関数は、下式(1)で定義される。式(1)において、α及びβはベータ分布における2つのパラメータを表し、f(x;α,β)はベータ分布の確率密度関数を表し、B(α,β)はベータ関数を表す。また、α>0,β>0,0≦x≦1である。
以上より、データから得られたスコア分布をベータ分布と見做せば、分布推定部5は、その期待値及び分散からベータ分布(の形状)を推定可能となる。
次いで、閾値設定部6は、異常検知モデルに対する要求性能及び分布推定部5により推定された確率分布から、スコア取得部4により取得されたスコアに対する閾値を設定する(ステップST206)。実施の形態1では、閾値設定部6は、異常検知モデルに対する要求性能及び分布推定部5により推定されたベータ分布の累積分布関数から、スコア取得部4により取得されたスコアに対する閾値を設定する。
上述の通り、実施の形態1に係る異常検知装置では、前提として、スコアが大きい程正常と分類され、スコアが小さい程異常と分類されるものとしている。そのため、過検出率及び見逃し率を下式(4),(5)のように定義するが、過検出率及び見逃し率は必ずしもこの定義に限らない。
ここで、正常データから得られたスコアを対象とし、分布推定部5が、上記手順にてスコア分布をベータ分布と見做して母集団の確率分布の推定を行ったとする。例えば、正常データにおける過検出の割合である過検出率を基準に考えた場合、閾値設定部6は、分布推定部5により推定されたベータ分布の累積分布関数が、0≦x≦θにおいて、要求される過検出率以下となるようなθを閾値として設定すればよい(図3参照)。なお、図3Aにおいて、符号301は分布推定部5により推定されたベータ分布を示し、符号302は正常データのスコアを示している。また、図3Bにおいて、符号303は上記ベータ分布の累積分布関数を示している。このとき、θは下式(6)を満たす。式(6)において、F(θ;α,β)はベータ分布の累積分布関数を表す。
なお、異常データにおける見逃しの割合である見逃し率を基準とする場合も同様に考えることができる。異常データのスコアから推定したベータ分布の累積分布関数をF(θ’;α’,β’)とすると、要求される見逃し率を満たすような閾値(θ’)は下式(7)を満たす。
なお、閾値設定部6は、θ及びθ’に基づくユーザ入力に応じて閾値を設定してもよいし、何らかの基準を設けて自動で閾値を設定してもよい。
次いで、性能評価部7は、閾値設定部6により設定された閾値を用い、異常検知モデルに対する評価指標を算出する(ステップST207)。すなわち、閾値設定部6により上記の手順で閾値が設定された後、性能評価部7は、その閾値を式(4),(5)に当てはめることで過検出率及び見逃し率を算出する。これらの値が、異常検知モデルの学習時に定めたハイパーパラメータの評価指標となる。
以上のように、この実施の形態1によれば、異常検知装置は、正常データ及び異常データを取得するデータ取得部1と、ハイパーパラメータ並びにデータ取得部1により取得された正常データ及び異常データに基づいて、異常検知モデルを学習する学習部3と、学習部3による学習後の異常検知モデルを用い、データ取得部1により取得された正常データ及び異常データのスコアを取得するスコア取得部4と、スコア取得部4により取得されたスコアから、当該スコアの母集団の確率分布を推定する分布推定部5と、異常検知モデルに対する要求性能及び分布推定部5により推定された確率分布から、スコア取得部4により取得されたスコアに対する閾値を設定する閾値設定部6と、閾値設定部6により設定された閾値を用い、異常検知モデルに対する評価指標を算出する性能評価部7とを備えた。これにより、実施の形態1に係る異常検知装置は、従来構成に対し、ハイパーパラメータ及び閾値を適切に設定可能となる。
実施の形態2.
図4は実施の形態2に係る異常検知装置の構成例を示す図である。図4に示す実施の形態2に係る異常検知装置は、図1に示す実施の形態1に係る異常検知装置に対し、ハイパーパラメータ変更部8、ハイパーパラメータ選定部9及び結果表示部10が追加されている。その他の構成は、図1に示す実施の形態1に係る異常検知装置と同様であり、同一の符号を付して異なる部分についてのみ説明を行う。
図4は実施の形態2に係る異常検知装置の構成例を示す図である。図4に示す実施の形態2に係る異常検知装置は、図1に示す実施の形態1に係る異常検知装置に対し、ハイパーパラメータ変更部8、ハイパーパラメータ選定部9及び結果表示部10が追加されている。その他の構成は、図1に示す実施の形態1に係る異常検知装置と同様であり、同一の符号を付して異なる部分についてのみ説明を行う。
ハイパーパラメータ変更部8は、性能評価部7による評価指標の算出後、学習部3で用いられるハイパーパラメータを、探索範囲に属するハイパーパラメータのうちの当該学習部3で未使用のハイパーパラメータに変更する。
なお、学習部3は、ハイパーパラメータ変更部8によりハイパーパラメータが変更される度に、当該変更後のハイパーパラメータ並びにデータ取得部1により取得された正常データ及び異常データを用い、異常検知モデルを学習する。
なお、学習部3は、ハイパーパラメータ変更部8によりハイパーパラメータが変更される度に、当該変更後のハイパーパラメータ並びにデータ取得部1により取得された正常データ及び異常データを用い、異常検知モデルを学習する。
ハイパーパラメータ選定部9は、学習部3で探索範囲に属するハイパーパラメータが全て用いられた場合、性能評価部7により算出された評価指標を用い、ハイパーパラメータを選定する。
結果表示部10は、ユーザインタフェース(以下、UIと略記)を備えている。この結果表示部10は、異常検知装置による処理結果の表示を行う。結果表示部10は、図4に示すように、一覧表示部101、操作表示部102、再評価要求受付部103、再探索要求受付部104、スコア詳細表示部105及びヒストグラム表示部106を有している。
一覧表示部101は、探索範囲に属するハイパーパラメータ、及び、性能評価部7により算出された評価指標の一覧を表示する。
操作表示部102は、一覧表示部101により表示された一覧から選択されたハイパーパラメータに関するモデル詳細を表示する。モデル詳細には、ハイパーパラメータの値、閾値設定部6により設定された閾値(閾値(推定)とも称す)、性能評価部7により算出された評価指標(評価指標(推定)とも称す)、及び要求性能が含まれる。
なお、操作表示部102は、初回では、一覧表示部101により表示された一覧から、ハイパーパラメータ選定部9により選定されたハイパーパラメータが選択され、当該ハイパーパラメータに関するモデル詳細を表示する。その後、ユーザは、一覧表示部101により表示された一覧から、上記ハイパーパラメータ以外のハイパーパラメータを選択可能である。
また、操作表示部102は、モデル詳細として、上記に加え、実際のスコアに基づく閾値(閾値(スコア)とも称す)、及び、当該閾値に基づく評価指標(評価指標(スコア)とも称す)も表示してもよい。これにより、異常検知装置は、推定した確率分布から得たものと実際のスコアから得たものとを比較可能となる。
再評価要求受付部103は、操作表示部102により表示された閾値(推定)に対し、新たな閾値による再評価要求を受付ける。
なお、再評価要求受付部103により新たな閾値による再評価要求が受付けられた場合、性能評価部7は、当該新たな閾値を用い、評価指標を再算出する。
そして、操作表示部102は、再評価要求受付部103により新たな閾値による再評価要求が受付けられた場合、表示している閾値(推定)を当該新たな閾値に変更し、表示している評価指標(推定)を性能評価部7により再算出された評価指標に変更する。
なお、再評価要求受付部103により新たな閾値による再評価要求が受付けられた場合、性能評価部7は、当該新たな閾値を用い、評価指標を再算出する。
そして、操作表示部102は、再評価要求受付部103により新たな閾値による再評価要求が受付けられた場合、表示している閾値(推定)を当該新たな閾値に変更し、表示している評価指標(推定)を性能評価部7により再算出された評価指標に変更する。
再探索要求受付部104は、操作表示部102に表示された要求性能に対し、新たな要求性能による再探索要求を受付ける。
なお、閾値設定部6は、再探索要求受付部104により新たな要求性能による再探索要求が受付けられた場合、当該新たな要求性能を用い、閾値を再設定する。
また、性能評価部7は、閾値設定部6により閾値が再設定された場合、当該再設定された閾値を用い、評価指標を再算出する。
そして、操作表示部102は、再探索要求受付部104により新たな要求性能による再探索要求が受付けられた場合、表示している要求性能を新たな要求性能に変更し、表示している閾値(推定)を閾値設定部6により再設定された閾値に変更し、表示している評価指標(推定)を性能評価部7により再算出された評価指標に変更する。
なお、閾値設定部6は、再探索要求受付部104により新たな要求性能による再探索要求が受付けられた場合、当該新たな要求性能を用い、閾値を再設定する。
また、性能評価部7は、閾値設定部6により閾値が再設定された場合、当該再設定された閾値を用い、評価指標を再算出する。
そして、操作表示部102は、再探索要求受付部104により新たな要求性能による再探索要求が受付けられた場合、表示している要求性能を新たな要求性能に変更し、表示している閾値(推定)を閾値設定部6により再設定された閾値に変更し、表示している評価指標(推定)を性能評価部7により再算出された評価指標に変更する。
なお図4では、結果表示部10に再評価要求受付部103及び再探索要求受付部104が設けられた場合を示した。しかしながら、再評価要求受付部103及び再探索要求受付部104は、結果表示部10に必須の構成ではなく、結果表示部10に設けられていなくてもよい。
スコア詳細表示部105は、一覧表示部101により表示された一覧から選択されたハイパーパラメータに関するスコア詳細を表示する。スコア詳細には、サンプル毎の、スコア取得部4により取得されたスコア、ラベル、及び、予測(予測(推定)とも称す)が含まれる。サンプルは、ナンバリングされる。ラベルは、正常か異常かを示す。予測は、閾値設定部6により設定された閾値に基づいて、正常か異常かを示す。
なお、スコア詳細表示部105は、閾値設定部6により閾値が再設定された場合には、予測として、当該閾値設定部6により再設定された閾値に基づく予測を用いる。
また、スコア詳細表示部105は、スコア詳細として、上記に加え、実際のスコアに基づく予測(予測(スコア)とも称す)も表示してもよい。これにより、異常検知装置は、推定した確率分布から得たものと実際のスコアから得たものとを比較可能となる。
ヒストグラム表示部106は、一覧表示部101により表示された一覧から選択されたハイパーパラメータに関するヒストグラムを表示する。ヒストグラムには、サンプル毎のスコア取得部4により取得されたスコア、及び、閾値設定部6により設定された閾値(閾値(推定))が含まれる。
なお、ヒストグラム表示部106は、閾値設定部6により閾値が再設定された場合には、予測として、当該閾値設定部6により再設定された閾値を用いる。
また、ヒストグラム表示部106は、ヒストグラムとして、上記に加え、実際のスコアに基づく閾値(閾値(スコア))、及び、分布推定部5により推定された確率分布の確率密度関数(分布の形状)を重ねて表示してもよい。これにより、異常検知装置は、推定した確率分布の妥当性を目視で判断可能となる。
なお図4では、異常検知装置に結果表示部10が設けられた場合を示した。しかしながら、結果表示部10は、異常検知装置に必須の構成ではなく、異常検知装置に設けられていなくてもよい。
次に、図4に示す実施の形態2に係る異常検知装置の動作例について、図5を参照しながら説明する。図5に示すフローチャートにおいて、ステップST501~507の処理は、図2に示すステップST201~207の処理と同様であるため、その説明を省略する。
ここで、ハイパーパラメータは、異常検知モデル、適用するデータ、及び、目的等により、探索すべき数及び範囲が異なる。ハイパーパラメータの組合せは、数が増える程、範囲が広がる程に膨大となり、これを人手で決定するのはほぼ不可能である。そこで、実施の形態2に係る異常検知装置では、ある程度自動でハイパーパラメータの探索を行う方法について説明する。
ここで、ハイパーパラメータは、異常検知モデル、適用するデータ、及び、目的等により、探索すべき数及び範囲が異なる。ハイパーパラメータの組合せは、数が増える程、範囲が広がる程に膨大となり、これを人手で決定するのはほぼ不可能である。そこで、実施の形態2に係る異常検知装置では、ある程度自動でハイパーパラメータの探索を行う方法について説明する。
図4に示す実施の形態2に係る異常検知装置の動作例では、図5に示すように、まず、性能評価部7による評価指標の算出後、異常検知装置は、学習部3で、探索範囲に属するハイパーパラメータが全て用いられたかを判定する(ステップST508)。すなわち、異常検知装置は、予め定めた探索範囲に属するハイパーパラメータを用いて性能評価がし終えたかを判定する。
このステップST508において、異常検知装置が学習部3で探索範囲に属するハイパーパラメータが全て用いられていないと判定した場合、ハイパーパラメータ変更部8は、学習部3で用いられるハイパーパラメータを、探索範囲に属するハイパーパラメータのうちの当該学習部3で未使用のハイパーパラメータに変更する(ステップST509)。
その後、シーケンスはステップST503に戻り、学習部3は、ハイパーパラメータ変更部8による変更後のハイパーパラメータ並びにデータ取得部1により取得された正常データ及び異常データを用い、異常検知モデルを学習する。
その後、シーケンスはステップST503に戻り、学習部3は、ハイパーパラメータ変更部8による変更後のハイパーパラメータ並びにデータ取得部1により取得された正常データ及び異常データを用い、異常検知モデルを学習する。
一方、ステップST508において、異常検知装置が学習部3で探索範囲に属するハイパーパラメータが全て用いられたと判定した場合、ハイパーパラメータ選定部9は、性能評価部7により算出された評価指標を用い、ハイパーパラメータを選定する(ステップST510)。
このように、実施の形態2に係る異常検知装置では、予め定めた探索範囲に属するハイパーパラメータの中から評価指標を求めたいハイパーパラメータを選ぶ。このハイパーパラメータには、複数のハイパーパラメータの組合せも含まれる。そして、異常検知装置は、実施の形態1と同様に、選んだハイパーパラメータを用いて異常検知モデルの学習を行い、評価指標を算出する。これにより、異常検知装置は、選んだハイパーパラメータに対する評価指標を求めることができる。その後、異常検知装置は、探索範囲に属する他のハイパーパラメータについても同様に、評価指標を求める。そして、異常検知装置は、この処理を繰返すことで、探索範囲に属する全てのハイパーパラメータに対する評価指標を得ることができる。そして、異常検知装置は、要求性能に対して優位な評価指標を示すハイパーパラメータを選定することで、適切なハイパーパラメータの設定に利用可能となる。なお、探索範囲におけるハイパーパラメータの選び出しは、グリッドサーチのように一つ一つ選びだしてもよいし、何らかの基準で恣意的に選び出してもよい。
上記のハイパーパラメータの探索において、評価指標を算出する際、実施の形態1で述べたように閾値設定部6による閾値の設定を人手で実施することも考えると、かなりの時間と労力を要する。ハイパーパラメータの選び出しがグリッドサーチのようになっているのであれば、尚更、閾値設定の自動化も考える必要がある。
そこで、実施の形態2に係る異常検知装置では、要求性能である過検出率及び見逃し率に対して優先すべき指標を選び、その優先すべき指標を満たす閾値を定め、その閾値を基に残りの指標を算出する。
そこで、実施の形態2に係る異常検知装置では、要求性能である過検出率及び見逃し率に対して優先すべき指標を選び、その優先すべき指標を満たす閾値を定め、その閾値を基に残りの指標を算出する。
例えば、見逃し率を優先することとし、要求性能が1%であるとする。この場合、異常データから推定したベータ分布の確率密度関数をf(x;α’,β’)とすると、見逃し率が1%となる閾値(θ’)は式(7)に基づいて下式(8)で求められる。
これにより、異常検知装置は、要求性能のうち、優先すべき指標から閾値を自動で算出し、残りの指標も算出できる。そして、閾値が設定された時点で優先すべき指標が満たされていることは自明であるため、ハイパーパラメータ選定部9は、残りの指標に基づいてハイパーパラメータを選定すればよい。
また、異常検知装置では、サンプルに対するスコアから確率分布の推定を行っているが、この精度は基本的にサンプル数が多い程高い。また、サンプル数が多くても、データの特性上、ベータ分布に近似できない分布形状となることもあり得る。すなわち、サンプル数及びデータによっては、推定した確率分布と実際の分布それぞれの形状が大きく異なるということが考えられる。そのような場合、ハイパーパラメータ選定部9で選定したものでも、適切なハイパーパラメータとはいえない。
そこで、実施の形態2に係る異常検知装置では、図6に示すように、結果表示部10が、異常検知装置による検知結果をUIで表示する(ステップST511)。
この際、一覧表示部101は、探索範囲に属するハイパーパラメータ、及び、性能評価部7により算出された評価指標の一覧を表示する。図6において符号601は、一覧表示部101により表示される一覧を示している。
また、操作表示部102は、一覧表示部101により表示された一覧から選択されたハイパーパラメータに関するモデル詳細を表示する。モデル詳細には、ハイパーパラメータの値、閾値設定部6により設定された閾値(閾値(推定))、性能評価部7により算出された評価指標(評価指標(推定))、及び要求性能が含まれる。図6において符号602は、操作表示部102により表示されるモデル詳細を示している。
なお、操作表示部102は、初回では、一覧表示部101により表示された一覧から、ハイパーパラメータ選定部9により選定されたハイパーパラメータが選択され、当該ハイパーパラメータに関するモデル詳細を表示する。その後、ユーザは、一覧表示部101により表示された一覧から、上記ハイパーパラメータ以外のハイパーパラメータを選択可能である。
また図6に示すように、操作表示部102は、モデル詳細として、上記に加え、実際のスコアに基づく閾値(閾値(スコア))、及び、当該閾値に基づく評価指標(評価指標(スコア))も表示してもよい。これにより、異常検知装置は、推定した確率分布から得たものと実際のスコアから得たものとを比較可能となる。
また、スコア詳細表示部105は、一覧表示部101により表示された一覧から選択されたハイパーパラメータに関するスコア詳細を表示する。スコア詳細には、サンプル毎の、スコア取得部4により取得されたスコア、ラベル、及び、予測(予測(推定))が含まれる。図6において符号603は、スコア詳細表示部105により表示されたスコア詳細を示している。
また図6に示すように、スコア詳細表示部105は、スコア詳細として、上記に加え、実際のスコアに基づく予測(予測(スコア))も表示してもよい。これにより、異常検知装置は、推定した確率分布から得たものと実際のスコアから得たものとを比較可能となる。
ヒストグラム表示部106は、一覧表示部101により表示された一覧から選択されたハイパーパラメータに関するヒストグラムを表示する。ヒストグラムには、サンプル毎のスコア取得部4により取得されたスコア、及び、閾値設定部6により設定された閾値(閾値(推定))が含まれる。図6において符号604は、ヒストグラム表示部106により表示されたヒストグラムを示している。
また、ヒストグラム表示部106は、ヒストグラムとして、上記に加え、実際のスコアに基づく閾値(閾値(スコア))、及び、分布推定部5により推定された確率分布の確率密度関数(分布の形状)を重ねて表示してもよい。これにより、異常検知装置は、推定した確率分布の妥当性を目視で判断可能となる。
次いで、再探索要求受付部104は、操作表示部102により表示された要求性能に対し、新たな要求性能による再探索要求を受付けたかを判定する(ステップST512)。すなわち、ユーザは、ヒストグラム表示部106により表示されている分布に妥当性がないと判断し、探索そのものをやり直したい場合、例えば図6において、操作表示部102により表示されたモデル詳細上の項目(符号602a参照)に新たな要求性能を入力して再探索ボタン(符号602b参照)を選択する。
このステップST512において、再探索要求受付部104は新たな要求性能による再探索要求を受付けたと判定した場合、異常検知装置は再探索を行う(ステップST513)。すなわち、閾値設定部6は、上記新たな要求性能を用い、閾値を再設定する。また、性能評価部7は、閾値設定部6により再設定された閾値を用い、評価指標を再算出する。そして、操作表示部102は、表示している要求性能を上記新たな要求性能に変更し、表示している閾値(推定)を閾値設定部6により再設定された閾値に変更し、表示している評価指標(推定)を性能評価部7により再算出された評価指標に変更する(ステップST511)。
一方、ステップST512において、再探索要求受付部104が新たな要求性能による再探索要求を受付けていないと判定した場合、再評価要求受付部103は、操作表示部102により表示された閾値(推定)に対し、新たな閾値による再評価要求を受付けたかを判定する(ステップST514)。すなわち、ユーザは、ヒストグラム表示部106により表示されている分布に妥当性がないと判断した場合、例えば図6において、操作表示部102により表示されたモデル詳細上の項目(符号602c参照)に新たな閾値を入力して再評価ボタン(符号602d参照)を選択する。
このステップST514において、再評価要求受付部103は新たな閾値による再評価要求を受付けたと判定した場合、異常検知装置は再評価を行う(ステップST515)。すなわち、性能評価部7は、上記新たな閾値を用い、評価指標を再算出する。そして、操作表示部102は、表示している閾値(推定)を上記新たな閾値に変更し、表示している評価指標(推定)を性能評価部7により再算出された評価指標に変更する(ステップST511)。
また、ユーザは、ヒストグラム表示部106により表示されている分布に妥当性がないと判断した場合、一覧表示部101により表示されている一覧から、他のハイパーパラメータを選択してもよい。
なお、ハイパーパラメータの探索範囲そのものを変更する場合は、処理全体を始めからやり直すものとする。
なお、ハイパーパラメータの探索範囲そのものを変更する場合は、処理全体を始めからやり直すものとする。
以上により、実施の形態2に係る異常検知装置では、予め定めたハイパーパラメータの探索範囲の中でそれぞれのハイパーパラメータにおける評価指標を算出し、要求性能に基づいた選定を自動化した上で、UIにて推定した分布の妥当性を目視で確認しながら条件を変更することで、実施の形態1に係る異常検知装置に対し、要求性能に合わせた異常検知モデルの獲得がより容易になる。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組合わせ、或いは各実施の形態の任意の構成要素の変形、若しくは各実施の形態において任意の構成要素の省略が可能である。
1 データ取得部
2 前処理部
3 学習部
4 スコア取得部
5 分布推定部
6 閾値設定部
7 性能評価部
8 ハイパーパラメータ変更部
9 ハイパーパラメータ選定部
10 結果表示部
101 一覧表示部
102 操作表示部
103 再評価要求受付部
104 再探索要求受付部
105 スコア詳細表示部
106 ヒストグラム表示部
2 前処理部
3 学習部
4 スコア取得部
5 分布推定部
6 閾値設定部
7 性能評価部
8 ハイパーパラメータ変更部
9 ハイパーパラメータ選定部
10 結果表示部
101 一覧表示部
102 操作表示部
103 再評価要求受付部
104 再探索要求受付部
105 スコア詳細表示部
106 ヒストグラム表示部
Claims (8)
- 正常データ及び異常データを取得するデータ取得部と、
ハイパーパラメータ並びに前記データ取得部により取得された正常データ及び異常データに基づいて、異常検知モデルを学習する学習部と、
前記学習部による学習後の異常検知モデルを用い、前記データ取得部により取得された正常データ及び異常データのスコアを取得するスコア取得部と、
前記スコア取得部により取得されたスコアから、当該スコアの母集団の確率分布を推定する分布推定部と、
異常検知モデルに対する要求性能及び前記分布推定部により推定された確率分布から、前記スコア取得部により取得されたスコアに対する閾値を設定する閾値設定部と、
前記閾値設定部により設定された閾値を用い、異常検知モデルに対する評価指標を算出する性能評価部と
を備えた異常検知装置。 - 前記分布推定部は、前記スコア取得部により取得されたスコアから、当該スコアの母集団の確率分布として、ベータ分布を推定し、
前記閾値設定部は、異常検知モデルに対する要求性能及び前記分布推定部により推定されたベータ分布の累積分布関数から、前記スコア取得部により取得されたスコアに対する閾値を設定する
ことを特徴とする請求項1記載の異常検知装置。 - 前記性能評価部による評価指標の算出後、前記学習部で用いられるハイパーパラメータを、探索範囲に属するハイパーパラメータのうちの当該学習部で未使用のハイパーパラメータに変更するハイパーパラメータ変更部と、
前記学習部で探索範囲に属するハイパーパラメータが全て用いられた場合、前記性能評価部により算出された評価指標を用い、ハイパーパラメータを選定するハイパーパラメータ選定部とを備え、
前記学習部は、前記ハイパーパラメータ変更部によりハイパーパラメータが変更される度に、当該変更後のハイパーパラメータ並びに前記データ取得部により取得された正常データ及び異常データを用い、異常検知モデルを学習する
ことを特徴とする請求項1又は請求項2記載の異常検知装置。 - 探索範囲に属するハイパーパラメータ、及び、前記性能評価部により算出された評価指標の一覧を表示する一覧表示部と、
前記一覧表示部により表示された一覧から選択されたハイパーパラメータに関し、当該ハイパーパラメータの値、前記閾値設定部により設定された閾値、前記性能評価部により算出された評価指標、及び要求性能を表示する操作表示部と、
前記一覧表示部により表示された一覧から選択されたハイパーパラメータに関し、サンプル毎に、前記スコア取得部により取得されたスコア、正常か異常かを示すラベル、及び、前記閾値設定部により設定された閾値に基づく正常か異常かを示す予測を表示するスコア詳細表示部と、
前記一覧表示部により表示された一覧から選択されたハイパーパラメータに関し、サンプル毎の前記スコア取得部により取得されたスコア、及び、前記閾値設定部により設定された閾値をヒストグラムで表示するヒストグラム表示部とを備えた
ことを特徴とする請求項3記載の異常検知装置。 - 前記操作表示部により表示された閾値に対し、新たな閾値による再評価要求を受付ける再評価要求受付部を備え、
前記再評価要求受付部により新たな閾値による再評価要求が受付けられた場合、前記性能評価部は、当該新たな閾値を用い、評価指標を再算出し、
前記操作表示部は、前記再評価要求受付部により新たな閾値による再評価要求が受付けられた場合、表示している閾値を当該新たな閾値に変更し、表示している評価指標を前記性能評価部により再算出された評価指標に変更する
ことを特徴とする請求項4記載の異常検知装置。 - 前記操作表示部により表示された要求性能に対し、新たな要求性能による再探索要求を受付ける再探索要求受付部を備え、
前記閾値設定部は、前記再探索要求受付部により新たな要求性能による再探索要求が受付けられた場合、当該新たな要求性能を用い、閾値を再設定し、
前記性能評価部は、前記閾値設定部により閾値が再設定された場合、当該再設定された閾値を用い、評価指標を再算出し、
前記操作表示部は、前記再探索要求受付部により新たな要求性能による再探索要求が受付けられた場合、表示している要求性能を新たな要求性能に変更し、表示している閾値を前記閾値設定部により再設定された閾値に変更し、表示している評価指標を前記性能評価部により再算出された評価指標に変更する
ことを特徴とする請求項4又は請求項5記載の異常検知装置。 - 前記ヒストグラム表示部は、実際のスコアに基づく閾値、及び、前記分布推定部により推定された確率分布の確率密度関数を重ねて表示する
ことを特徴とする請求項4から請求項6のうちの何れか1項記載の異常検知装置。 - データ取得部が、正常データ及び異常データを取得するステップと、
学習部が、ハイパーパラメータ並びに前記データ取得部により取得された正常データ及び異常データに基づいて、異常検知モデルを学習するステップと、
スコア取得部が、前記学習部による学習後の異常検知モデルを用い、前記データ取得部により取得された正常データ及び異常データのスコアを取得するステップと、
分布推定部が、前記スコア取得部により取得されたスコアから、当該スコアの母集団の確率分布を推定するステップと、
閾値設定部が、異常検知モデルに対する要求性能及び前記分布推定部により推定された確率分布から、前記スコア取得部により取得されたスコアに対する閾値を設定するステップと、
性能評価部が、前記閾値設定部により設定された閾値を用い、異常検知モデルに対する評価指標を算出するステップと
を有する異常検知方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020168968A JP2022061157A (ja) | 2020-10-06 | 2020-10-06 | 異常検知装置及び異常検知方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020168968A JP2022061157A (ja) | 2020-10-06 | 2020-10-06 | 異常検知装置及び異常検知方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022061157A true JP2022061157A (ja) | 2022-04-18 |
Family
ID=81206606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020168968A Pending JP2022061157A (ja) | 2020-10-06 | 2020-10-06 | 異常検知装置及び異常検知方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022061157A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116882766A (zh) * | 2023-09-07 | 2023-10-13 | 国网湖北省电力有限公司超高压公司 | 一种用电异常配变风险分析方法及系统 |
-
2020
- 2020-10-06 JP JP2020168968A patent/JP2022061157A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116882766A (zh) * | 2023-09-07 | 2023-10-13 | 国网湖北省电力有限公司超高压公司 | 一种用电异常配变风险分析方法及系统 |
CN116882766B (zh) * | 2023-09-07 | 2023-11-24 | 国网湖北省电力有限公司超高压公司 | 一种用电异常配变风险分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6905954B2 (ja) | 自動欠陥分類のための未知欠陥除去の最適化 | |
Yin et al. | Optimal linear combinations of multiple diagnostic biomarkers based on Youden index | |
Fallah Nezhad et al. | Repetitive group sampling plan based on the process capability index for the lot acceptance problem | |
US10340029B2 (en) | Systems and methods for the analysis of protein melt curve data | |
EP3591604A1 (en) | Defect rate analytics to reduce defectiveness in manufacturing | |
JP2022061157A (ja) | 異常検知装置及び異常検知方法 | |
CN105488599B (zh) | 预测文章热度的方法和装置 | |
Siegert et al. | Rank histograms of stratified Monte Carlo ensembles | |
JP5715445B2 (ja) | 品質推定装置、品質推定方法及び品質推定方法をコンピュータに実行させるためのプログラム | |
Fallah Nezhad et al. | Designing optimal double-sampling plan based on process capability index | |
WO2018001237A1 (en) | Data mining interest generator | |
JPWO2015194235A1 (ja) | 抜取データ処理装置、抜取データ処理方法及びコンピュータプログラム | |
EP3828731A1 (en) | A method and analytical engine for a semantic analysis of textual data | |
Alfaro et al. | Robust Hotelling's T2 control charts under non-normality: the case of t-Student distribution | |
EP2646811B1 (en) | Method for automatic peak finding in calorimetric data | |
CN113962216A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
US12014291B2 (en) | System and method for processing distorted or inaccurate input data obtained from an environment | |
Steland | Fusing photovoltaic data for improved confidence intervals | |
CN110781281A (zh) | 新兴主题的探测方法、装置、计算机设备及存储介质 | |
Yu et al. | Performance of the Shiryaev‐Roberts‐type scheme in comparison to the CUSUM and EWMA schemes in monitoring weibull scale parameter based on Type I censored data | |
US20120194522A1 (en) | Systems and Methods for the Analysis of Protein Melt Curve Data | |
CN116108086B (zh) | 一种时序数据的评估方法、装置、电子设备及存储介质 | |
US20240045923A1 (en) | Information processing device, information processing method, and computer program product | |
Hammond et al. | Discretization precision and assessment error | |
US11537116B2 (en) | Measurement result analysis by anomaly detection and identification of anomalous variables |