JP7287481B2 - 閾値取得装置、その方法、およびプログラム - Google Patents

閾値取得装置、その方法、およびプログラム Download PDF

Info

Publication number
JP7287481B2
JP7287481B2 JP2021552034A JP2021552034A JP7287481B2 JP 7287481 B2 JP7287481 B2 JP 7287481B2 JP 2021552034 A JP2021552034 A JP 2021552034A JP 2021552034 A JP2021552034 A JP 2021552034A JP 7287481 B2 JP7287481 B2 JP 7287481B2
Authority
JP
Japan
Prior art keywords
threshold
abnormality
candidate
allowable number
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021552034A
Other languages
English (en)
Other versions
JPWO2021074995A1 (ja
Inventor
伸 村田
悠馬 小泉
登 原田
翔一郎 齊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021074995A1 publication Critical patent/JPWO2021074995A1/ja
Application granted granted Critical
Publication of JP7287481B2 publication Critical patent/JP7287481B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/0227Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions
    • G05B23/0235Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions based on a comparison with predetermined threshold or range, e.g. "classical methods", carried out during normal operation; threshold adaptation or choice; when or how to compare with the threshold
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0221Preprocessing measurements, e.g. data collection rate adjustment; Standardization of measurements; Time series or signal analysis, e.g. frequency analysis or wavelets; Trustworthiness of measurements; Indexes therefor; Measurements using easily measured parameters to estimate parameters difficult to measure; Virtual sensor creation; De-noising; Sensor fusion; Unconventional preprocessing inherently present in specific fault detection methods like PCA-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Description

本発明は、異常検知システムにおいて用いる異常判定の閾値を取得する閾値取得装置、その方法、およびプログラムに関する。
異常検知は、データから対象の異常を判定する問題である。図1は、異常検知システムの構成例である。音声、映像、ログなどの何らかの対象データを入力とし、異常度合いを求め、閾値を用いて異常度合いから正常異常を判定し、判定結果を出力する。正常な状態において得られる対象データを正常データ、異常な状態において得られる対象データを異常データと呼ぶ。異常度合いは異常である度合いを表し、例えば、正常データからのずれの度合いである。
異常検知において、異常度合いを示す異常度とある閾値との大小関係に基づき異常判定が行われる。そのため、閾値の決定は、異常検知の精度において重要な課題である。例えば、異常度合いが大きいほど大きくなる値を異常度として用いる場合、閾値を十分に小さく設定すると、異常データを見逃すことが減るかわりに、正常データを異常データと誤判定することが増える。逆に、閾値を大きく設定すると、正常データを異常データと誤判定することが減るかわりに、異常データを見逃すことが増える。そのため、適切な大きさに閾値を設定することが必要となる。このとき、閾値は事前に設定されることが一般的である(非特許文献1参照)。
Raghavendra Chalapathy and Sanjay Chawla., "Deep Learning for Anomaly Detection: A Survey", arXiv:1901.03407 [cs, stat], January 2019. arXiv: 1901.03407.
しかしながら、適切に閾値を設定することは、異常検知システム導入時の大きなコストとなる。
本発明は、異常判定のための適切な閾値を自動的に取得することができる閾値取得装置、その方法、およびプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、閾値取得装置は、対象音から取得された異常度が正常であるか異常であるかを判定するための閾値を取得する。閾値取得装置は、異常音を含まない時系列の音響信号の一部である所定の区間長毎の異常度の集合に占める異常と判定される異常度の数が、許容回数を超えないように許容回数を設定する許容回数設定部と、許容回数をもちいて、時系列の音響信号の一部である所定の区間長毎に異常と判定される区間数が所定の基準を満たすよう閾値候補を推定する閾値推定部と、を有し、閾値候補を閾値として取得する。
上記の課題を解決するために、本発明の一態様によれば、閾値取得装置は、時系列の音響信号の一部である所定の区間長T毎の異常度の集合Yi=[yi,1,…,yi,T]から、閾値候補θ'での平均検知率λ(θ')を求めるパラメータ推定部と、平均検知率λ(θ')に基づき、所定の区間長Tにおいて異常が検知される回数kをポアソン分布でモデル化し、回数kがある許容回数kaより大きい確率p(k>ka;Tλ(θ'))を計算する累積分布計算部と、確率p(k>ka;Tλ(θ'))が所定の有意水準α以下となる最小の許容回数kaを取得する許容回数取得部と、Pを2以上の整数の何れか、p=1,…,Pとし、P個の閾値候補θp毎に所定の区間長T毎の異常度Zs=[zs,1,…,zs,T]に対して異常が検知される回数ksp)を計算する検知回数計数部と、回数ksp)が許容回数kaを超えた場合に、異常度Zs=[zs,1,…,zs,T]に対応する音響信号が異常であると判定する異常判定部と、異常判定部の判定結果asp)から性能指標FPR(θp)を計算する性能指標計算部と、P個の閾値候補θpの中から、性能指標FPR(θp)を用いて所望の性能指標qを達成するための閾値候補θpを選択し、ある閾値候補θ'とする閾値推定部とを含み、閾値候補の推定が収束するまで処理を繰り返し、収束時の閾値候補を閾値として取得する。
上記の課題を解決するために、本発明の一態様によれば、閾値取得装置は、対象データから取得された異常度が正常であるか異常であるかを判定するための閾値を取得する。閾値取得装置は、異常データを含まない時系列のデータの一部である所定の区間長毎の異常度の集合に占める異常と判定される異常度の数が、許容回数を超えないように許容回数を設定する許容回数設定部と、許容回数をもちいて、時系列のデータの一部である所定の区間長毎に異常と判定される区間数が所定の基準を満たすよう閾値候補を推定する閾値推定部と、を有し、閾値候補を閾値として取得する。
上記の課題を解決するために、本発明の一態様によれば、閾値取得装置は、時系列のデータの一部である所定の区間長T毎の異常度の集合Yi=[yi,1,…,yi,T]から、閾値候補θ'での平均検知率λ(θ')を求めるパラメータ推定部と、平均検知率λ(θ')に基づき、所定の区間長Tにおいて異常が検知される回数kをポアソン分布でモデル化し、回数kがある許容回数kaより大きい確率p(k>ka;Tλ(θ'))を計算する累積分布計算部と、確率p(k>ka;Tλ(θ'))が所定の有意水準α以下となる最小の許容回数kaを取得する許容回数取得部と、Pを2以上の整数の何れか、p=1,…,Pとし、P個の閾値候補θp毎に所定の区間長T毎の異常度Zs=[zs,1,…,zs,T]に対して異常が検知される回数ksp)を計算する検知回数計数部と、回数ksp)が許容回数kaを超えた場合に、異常度Zs=[zs,1,…,zs,T]に対応するデータが異常であると判定する異常判定部と、異常判定部の判定結果asp)から性能指標FPR(θp)を計算する性能指標計算部と、P個の閾値候補θpの中から、性能指標FPR(θp)を用いて所望の性能指標qを達成するための閾値候補θpを選択し、ある閾値候補θ'とする閾値推定部とを含み、閾値候補の推定が収束するまで処理を繰り返し、収束時の閾値候補を閾値として取得する。
本発明によれば、異常判定のための適切な閾値を自動的に取得することができるという効果を奏する。
異常検知システムの構成例を示す図。 ポアソン分布の確率密度関数を表す図。 ポアソン分布の累積分布関数の例を示す図。 異常検知システムの運用時のデータ説明するための図。 第一実施形態に係る閾値取得装置の機能ブロック図。 第一実施形態に係る閾値取得装置の処理フローの例を示す図。 異常度のヒストグラムの例を示す図。 閾値と平均検知率の関係をプロットした例を示す図。 閾値候補と偽陽性率の対応関係の例を示す図。 本手法を適用するコンピュータの構成例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
誤差なく正常/異常を判定することは現実的ではない。そこで、統計的な知見などの事前知識に基づき、まずは正常なデータのみが存在する場合において許容することができる誤差を設定し、その誤差を逸脱したか否かで正常/異常を判定することができるような閾値を得る手法を考える。さらに、システムを運用していくうちに異常データを得ることができた場合、その異常データも利用して閾値を得る手法も考える。
異常検知システムは、入力xtに対して異常度yt=f(xt)を計算し、異常度yt=f(xt)と異常判定の閾値θとの大小関係に基づき異常正常の判定を行い、判定結果(バイナリデータ)at={0,1}を出力とする。例えば、
Figure 0007287481000001
である。
本実施形態は、異常検知システムによる異常検知回数をポアソン分布や二項分布などの回数を確率変数としてとるような確率分布でモデル化し、偽陽性率などのユーザによって決定される、例えば分類問題の性能指標が、ユーザが決定する/予め設定される任意の値になるように自動で閾値を調節する。
ポアソン分布とは所定の単位時間にある事象がk回おきたことを表す確率分布であり、その確率質量関数は、
Figure 0007287481000002
と表される(図2)。なお、図2は、ポアソン分布の確率密度関数を表す。
ここで、pλ(X=k)は、所定の期間に平均してλ回事象が起こるときに、ちょうどk回事象がおきたことを表す。これを異常検知モデルに当てはめて考えると、異常検知システムは平均してλ回異常と検知することがあるとみなす。ポアソン分布の再生性から、同じ検知システムをL時間動かしたとき、その検知システムがk回異常を検知する確率は、
Figure 0007287481000003
と表される。ここで、正常時に平均してλ回検知するシステムを考えると、このシステムがL時間の間に異常を検知する回数がka回以上である確率は、
Figure 0007287481000004
と表される(図3参照)。例えば、図3の場合は、図中の破線は確率0.95を表し、異常検知回数が13回以上である確率は0.05であり、ほとんど起こり得ないことがわかる。このように、異常検知システムの検知回数をポアソン分布でモデル化することで、1度検知したら異常だというものではなく、システムが異常だと検知した回数で正常時の動作と異なるかを検定することができる。
なお、異常検知システムは、図4に示すように、運用初期は正常データだけしか持たず、実際の運用の中で異常データが集まるという特徴がある。また、長期間運用しても異常データのすべてを網羅することは困難である。
初期の異常データが収集されない期間では、上記のように偽陽性率を評価指標として閾値を自動的に取得する。
異常データが収集された後は、得られた少数の異常データと正常データとから、事前に定めた評価指標を計算し、その評価指標から閾値を自動的に取得する。異常データが一旦収集された後は、例えば、偽陽性率、再現率、適合率等を評価指標として用いることができる。
<第一実施形態>
図5は第一実施形態に係る閾値取得装置の機能ブロック図を、図6はその処理フローを示す。
閾値取得装置は、許容回数設定部110と、閾値推定部120と、終了判定部130とを含む。
異常検知システムによる異常検知の対象は、複数のデータの集合からなるバッチであり、そのバッチの集合であるデータセットとする。以下にその例として音響データセットの場合を記す。本実施形態の閾値取得装置は、音響データセットに対応する異常度のデータセットを入力とする。異常検知システムの対象データである音響データセットは複数のフレーム(時間長)からなるバッチデータの集まりであり、最終的な異常判定はフレーム単位ではなく、バッチ単位で行われるものとする。
閾値取得装置は、異常度のデータセットY=[Y1,…,YN]、Z=[Z1,…,ZS]と、所望の性能指標q、検知に対する許容度βまたは有意水準αを入力とし、所望の性能指標および許容度を満たす閾値θを取得し、出力する。
データセットYはN個のバッチ単位の異常度のデータバッチYi=[yi,1,…,yi,T]からなり、バッチ単位の異常度のデータバッチYiは所定の区間長T分の異常度のデータyi,tからなる。ここで、i=1,2,…,Nであり、t=1,2,…,Tである。同様に、データセットZはS個のバッチ単位の異常度のデータバッチZs=[zs,1,…,zs,T]からなり、バッチ単位の異常度のデータバッチZsは所定の区間長T分の異常度のデータzs,tからなる。ここで、s=1,2,…,Sである。異常度のデータyi,t,zs,tは、フレーム単位で算出される。
閾値取得装置の入力に含まれる異常度のデータセットは、異常検知システムで用いる異常度のデータセットと同じデータセットまたは同じ種類のデータセットを用いればよい。例えば、閾値の学習にはオートエンコーダを用いて、その再構成誤差を異常度とする。
また、本実施形態では、閾値取得装置の入力に含まれる性能指標としてユーザが設定する偽陽性率を用いる。所望の偽陽性率qは0<q<1であり、検知に対する許容度βは0<β<1である。偽陽性率は、正常データを異常データと誤検知した割合である。所望の偽陽性率を低く設定することで誤検知は減少し異常データの見逃しが増え、高く設定することで誤検知が増加し、異常データの見逃しが減る。また、許容度βを低く設定することでデータバッチ内での検知回数が減少し、高く設定することで検知回数が増加する。許容度βを1から引いたα=1-βは、統計検定における有意水準に対応する。そのため、許容度を得ることと有意水準を得ることとは等価と言える。
閾値取得装置は、例えば、中央演算処理装置(CPU:CentralProcessingUnit)、主記憶装置(RAM:RandomAccessMemory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。閾値取得装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。閾値取得装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。閾値取得装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。閾値取得装置が備える各記憶部は、例えば、RAM(RandomAccessMemory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも閾値取得装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(FlashMemory)のような半導体メモリ素子により構成される補助記憶装置により構成し、閾値取得装置の外部に備える構成としてもよい。
許容回数設定部110は正常時に検知システムが所定の期間内で誤検知する最大回数(許容回数)を設定する部分であり、閾値推定部120は設定した許容回数において所望の性能指標を満たす閾値を推定する部分である。
終了判定部130は、閾値の推定が収束した否かを判定し、閾値取得装置は、閾値の推定が収束するまで許容回数設定部110および閾値推定部120における処理を繰り返す。閾値取得装置の最終的な出力は異常判定のための閾値である。
以下、各部について説明する。
<許容回数設定部110>
許容回数設定部110は、N個の正常データバッチYiからなる異常度のデータセットY=[Y1,Y2,…,YN]と、閾値候補θ'と、許容度βまたは有意水準α(=1-β)と、を入力とし、異常データを含まない時系列の対象データの一部である所定の区間長毎の異常度の集合(正常データバッチであるYi毎)に占める異常と判定される異常度の数が、許容回数を超えないように許容回数kaを設定し(S110)、出力する。正常データバッチYiは、異常データを含まない時系列の対象データの一部である所定の区間長T毎の異常度の集合(Yi=[yi,1,…,yi,T])とも言える。正常データバッチとは、正常データから得られるバッチ単位の異常度のデータセットである。yi,tは、i番目のバッチのt番目のフレームの対象データに対応する異常度を示す。なお、閾値候補θ'は、後述する閾値推定部124で推定される値であり、初期値としては適当な値を与えればよい。適当な値としてはたとえば0や、正常データバッチ内での異常度の最大値、最頻値などがある。
許容回数設定部110は、パラメータ推定部111と、累積分布計算部112と、許容回数取得部113と、を含み、上述の処理S110を実現する。
<パラメータ推定部111>
パラメータ推定部111は、N個の正常データバッチYiからなる異常度のデータセットY=[Y1,Y2,…,YN]と閾値候補θ'とを入力とし、N個の正常データバッチYi=[yi,1,…,yi,T]から、ある閾値候補θ'での平均検知率λ(θ')を求め(S111)、出力する。
例えば、パラメータ推定部111は、データセットYから異常度のヒストグラムを得る(図7参照)。このとき、閾値候補θ'での平均検知率λ(θ')は
Figure 0007287481000005
で計算される。ただし、
Figure 0007287481000006
のindicator functionである。図8に閾値と平均検知率の関係をプロットしている。平均検知率λ(θ')が決まると、バッチの長さTの間に検知される回数をポアソン分布pTλ(θ')(Y=k)でモデル化できる(図2参照)。
<累積分布計算部112>
累積分布計算部112は、平均検知率λ(θ')を入力とし、平均検知率λ(θ')に基づき、所定の区間長Tにおいて異常が検知される回数kをポアソン分布でモデル化し、回数kがある許容回数kaより大きい確率p(k>ka;Tλ(θ'))を計算し(S112)、出力する。
ポアソン分布pTλ(θ')(Y=k)で検知システムの長さTの間での検知回数をモデル化すると、そのバッチの長さで異常を検知する回数kが許容回数kaより多い確率を以下のように計算できる。
Figure 0007287481000007
ここでCDF(ka;Tλ(θ'))はポアソン分布pTλ(θ')(Y=k)の累積分布関数である(図3参照)。
累積分布計算部112は、許容回数kaを適当な範囲で変化させながら複数の確率p(k>ka;Tλ(θ'))を計算する。例えば、累積分布計算部112は、予め許容度βまたは有意水準α(=1-β)を受け取っておき、許容回数ka=1から順に許容回数kaを大きくしながら、各許容回数kaにおける確率p(k>ka;Tλ(θ'))を計算し、確率p(k>ka;Tλ(θ'))が有意水準α(=1-β)以下となるまで確率p(k>ka;Tλ(θ'))を計算してもよい。この場合、有意水準α(=1-β)以下となったときの許容回数kaが後述する許容回数取得部113で取得する確率p(k>ka;Tλ(θ'))が所定の有意水準α以下となる最小の許容回数kaに相当するため、許容回数取得部113を設けなくともよい。言い換えると、この場合、累積分布計算部112は、許容回数取得部113を含む。
<許容回数取得部113>
許容回数取得部113は、許容回数の設定に先立ち、許容度βまたは有意水準α(=1-β)を受け取る。許容回数取得部113は、複数の確率p(k>ka;Tλ(θ'))を受け取り、確率p(k>ka;Tλ(θ'))が所定の有意水準α以下となる最小の許容回数kaを取得し(S113)、出力する。
確率p(k>ka;Tλ(θ'))から、許容回数kaより多く異常を検知する事象が起きる確率を議論できる。これが所定の有意水準α以下のとき、そのような事象はほとんど起こり得ないと判定する。ここから、p(k>ka)となる最小のkaを検知の許容回数と定める。
<閾値推定部120>
閾値推定部120は、異常度のデータセットZ=[Z1,…,ZS]、許容回数ka、性能指標を示す情報並びに所望の性能指標(目標値)qを入力とし、許容回数kaをもちいて、データセットZの一部である所定の区間長T毎に異常と判定される区間数が所定の基準を満たすよう閾値候補θ'を推定し(S120)、出力する。異常度のデータセットZは、時系列の対象データの一部である所定の区間長T毎の異常度の集合(データバッチZs=[zs,1,…,zs,T])とも言える。許容回数設定部110で用いるデータセットYとデータセットZとは、同じデータセット(Y=Z)を利用してもよいし、異なるデータセット(Y≠Z)を利用してもよい。ただし、データセットYは異常データを含まず、データセットZは異常データを含んでもよいし、含まなくともよい。
前述の通り、本実施形態では性能指標として偽陽性率を用いるものとし、性能指標を示す情報は、偽陽性率を示す。
閾値推定部120は、検知回数計数部121と、異常判定部122と、性能指標計算部123と、閾値推定部124と、を含み、上述の処理S120を実現する。
<検知回数計数部121>
検知回数計数部121は、異常度のデータセットZを入力とし、P個の閾値候補θpを用意し、閾値候補θp毎に所定の区間長T毎の異常度Zs=[zs,1,…,zs,T]に対して異常が検知される回数ksp)を計算し(S121)、出力する。なお、Pは2以上の整数の何れか、p=1,…,Pである。
例えば、各バッチZs毎に検知回数
Figure 0007287481000008
で計算される。ただし、
Figure 0007287481000009
である。
なお、例えば、正常データバッチで異常度の頻度分布を計算し、最小値(あるいは異常度の理論上の最小値)から最大値までの分位点をP個の閾値候補θpとして用いる。これは繰り返しの中で候補を狭めたりせずに用いる。
<異常判定部122>
異常判定部122は、P×S個の回数ksp)と許容回数kaとを入力とし、回数ksp)が許容回数kaを超えた場合に、異常度Zs=[zs,1,…,zs,T]に対応する対象データが異常であると判定し(S122)、P×S個の判定結果asp)を出力する。
つまり、許容回数kaが与えられたもとで各閾値候補θp、各バッチZsに対して異常判定を行う。検知回数が与えられた許容回数kaを越えた場合、異常と判定する。各バッチに対する判定結果asp)は
Figure 0007287481000010
と計算される。ここでasp)=1はs番目のバッチが異常と判定されたことを表す。つまり、
Figure 0007287481000011

である。
<性能指標計算部123>
性能指標計算部123は、P×S個の判定結果asp)を入力とし、各バッチsに対するP×S個の判定結果asp)からP個の性能指標FPR(θp)を計算し(S123)、出力する。
本実施形態では、性能指標として偽陽性率を用い、以下のように計算する。
Figure 0007287481000012
なお、性能指標は、異常度のデータセットZに応じて適切なものを用いればよい。データセットZに正常データのみがある状況では、正常データのみがあることを前提とした性能指標を用いればよく、例えば、偽陽性率を用いる。データセットZに正常データと異常データとを含む状況では、正常データと異常データがあることを前提とした性能指標を用いればよく、例えば、偽陽性率、適合率、再現率等を用いる。これらの指標はいずれか一つを選び、数式(8)をそれぞれの性能指標の定義と置き換える。
<閾値推定部124>
閾値推定部124は、所望の性能指標qとP個の性能指標FPR(θp)を入力とし、P個の閾値候補θpの中から、性能指標FPR(θp)を用いて所望の性能指標qを達成するための閾値候補θpを選択し、ある閾値候補θ'として推定し(S124)、出力する。例えば、所望の偽陽性率qを達成し得る閾値候補θpの中で、最も高い偽陽性率に対応する閾値候補θpを選択し、閾値候補θ'として推定する。あるいは所望の偽陽性率を達成する閾値候補のうちqを超えない最大の偽陽性率を達成する閾値とqを超える最小の偽陽性率を達成する閾値の線形補間で閾値候補θ'を推定する。例えば、図9に示すような閾値候補θpと偽陽性率の対応を得る。ここから、図中破線で示した所望の偽陽性率q(=0.1)を達成するための閾値候補θpが選択される。
<終了判定部130>
終了判定部130は、閾値候補θ'を入力とし、閾値候補の推定が収束するまで処理S120,S130を繰り返す。収束していない場合、終了判定部130は閾値候補θ'をパラメータ推定部111に出力し、収束している場合、終了判定部130は収束時の閾値候補を閾値θとして取得し(S130)、閾値取得装置の出力値として出力する。
例えば、推定した新しい閾値候補θ'と一つ前の閾値候補とを比較し、ある誤差以内であれば収束したとみなす。また、例えば、繰り返しが所定の回数に達した場合に収束したとみなす。
<効果>
以上の構成により、異常判定のための適切な閾値を自動的に取得することができる。
<変形例>
本実施形態では、対象データを音響データセットとしたが、その他の異常検知の対象となるデータセットであればどのようなデータセットを対象としてもよい。例えば、映像データセット、何らかのログからなるデータセットなどを対象データとしてもよい。
本実施形態では、再構成誤差を異常度としているが、異常度は対象データの異常度合いを示すものであれば、どのような情報であってもよい。また、本実施形態では、異常の度合いが大きいほど大きくなる値を異常度として用いるが、異常の度合いが大きいほど小さくなる値を異常度として用いてもよい。要は、閾値との大小関係に基づき、異常正常を判定することができればよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述の各種の処理は、図10に示すコンピュータの記録部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 対象音から取得された異常度が正常であるか異常であるかを判定するための閾値を取得する閾値取得装置であって、
    異常音を含まない時系列の音響信号の一部である所定の区間長毎の異常度の集合から閾値候補での平均検知率を求め、前記平均検知率に基づき、所定の区間長において異常が検知される回数を確率変数としてとるような確率分布でモデル化し、モデル化した確率分布に基づいて許容回数を設定する許容回数設定部と、
    前記許容回数をもちいて、時系列の音響信号の一部である所定の区間長毎に異常と判定される区間数が所定の基準を満たすよう閾値候補を推定する閾値推定部と、を有し、
    閾値候補に基づく許容回数の設定と閾値候補の推定とを閾値候補の推定が収束するまで繰り返し、収束時の閾値候補を前記閾値として取得する、
    閾値取得装置。
  2. 時系列の音響信号の一部である所定の区間長T毎の異常度の集合Yi=[yi,1,…,yi,T]から、閾値候補θ'での平均検知率λ(θ')を求めるパラメータ推定部と、
    前記平均検知率λ(θ')に基づき、所定の区間長Tにおいて異常が検知される回数kをポアソン分布でモデル化し、回数kがある許容回数kaより大きい確率p(k>ka;Tλ(θ'))を計算する累積分布計算部と、
    確率p(k>ka;Tλ(θ'))が所定の有意水準α以下となる最小の許容回数kaを取得する許容回数取得部と、
    Pを2以上の整数の何れか、p=1,…,Pとし、P個の閾値候補θp毎に所定の区間長T毎の異常度Zs=[zs,1,…,zs,T]に対して異常が検知される回数ksp)を計算する検知回数計数部と、
    前記回数ksp)が前記許容回数kaを超えた場合に、前記異常度Zs=[zs,1,…,zs,T]に対応する音響信号が異常であると判定する異常判定部と、
    前記異常判定部の判定結果asp)から性能指標FPR(θp)を計算する性能指標計算部と、
    P個の閾値候補θpの中から、前記性能指標FPR(θp)を用いて所望の性能指標qを達成するための閾値候補θpを選択し、前記ある閾値候補θ'とする閾値推定部とを含み、
    閾値候補の推定が収束するまで処理を繰り返し、収束時の閾値候補を閾値として取得する、
    閾値取得装置。
  3. 対象音から取得された異常度が正常であるか異常であるかを判定するための閾値を取得する閾値取得方法であって、
    異常音を含まない時系列の音響信号の一部である所定の区間長毎の異常度の集合から閾値候補での平均検知率を求め、前記平均検知率に基づき、所定の区間長において異常が検知される回数を確率変数としてとるような確率分布でモデル化し、モデル化した確率分布に基づいて許容回数を設定する許容回数設定ステップと、
    前記許容回数をもちいて、時系列の音響信号の一部である所定の区間長毎に異常と判定される区間数が所定の基準を満たすよう閾値候補を推定する閾値推定ステップと、を有し、
    閾値候補に基づく許容回数の設定と閾値候補の推定とを閾値候補の推定が収束するまで繰り返し、収束時の閾値候補を前記閾値として取得する、
    閾値取得方法。
  4. 時系列の音響信号の一部である所定の区間長T毎の異常度の集合Yi=[yi,1,…,yi,T]から、閾値候補θ'での平均検知率λ(θ')を求めるパラメータ推定ステップと、
    前記平均検知率λ(θ')に基づき、所定の区間長Tにおいて異常が検知される回数kをポアソン分布でモデル化し、回数kがある許容回数kaより大きい確率p(k>ka;Tλ(θ'))を計算する累積分布計算ステップと、
    確率p(k>ka;Tλ(θ'))が所定の有意水準α以下となる最小の許容回数kaを取得する許容回数取得ステップと、
    Pを2以上の整数の何れか、p=1,…,Pとし、P個の閾値候補θp毎に所定の区間長T毎の異常度Zs=[zs,1,…,zs,T]に対して異常が検知される回数ksp)を計算する検知回数計数ステップと、
    前記回数ksp)が前記許容回数kaを超えた場合に、前記異常度Zs=[zs,1,…,zs,T]に対応する音響信号が異常であると判定する異常判定ステップと、
    前記異常判定ステップの判定結果asp)から性能指標FPR(θp)を計算する性能指標計算ステップと、
    P個の閾値候補θpの中から、前記性能指標FPR(θp)を用いて所望の性能指標qを達成するための閾値候補θpを選択し、前記ある閾値候補θ'とする閾値推定ステップとを含み、
    閾値候補の推定が収束するまで処理を繰り返し、収束時の閾値候補を閾値として取得する、
    閾値取得方法。
  5. 対象データから取得された異常度が正常であるか異常であるかを判定するための閾値を取得する閾値取得装置であって、
    異常データを含まない時系列のデータの一部である所定の区間長毎の異常度の集合から閾値候補での平均検知率を求め、前記平均検知率に基づき、所定の区間長において異常が検知される回数を確率変数としてとるような確率分布でモデル化し、モデル化した確率分布に基づいて許容回数を設定する許容回数設定部と、
    前記許容回数をもちいて、時系列のデータの一部である所定の区間長毎に異常と判定される区間数が所定の基準を満たすよう閾値候補を推定する閾値推定部と、を有し、
    閾値候補に基づく許容回数の設定と閾値候補の推定とを閾値候補の推定が収束するまで繰り返し、収束時の閾値候補を前記閾値として取得する、
    閾値取得装置。
  6. 時系列のデータの一部である所定の区間長T毎の異常度の集合Yi=[yi,1,…,yi,T]から、閾値候補θ'での平均検知率λ(θ')を求めるパラメータ推定部と、
    前記平均検知率λ(θ')に基づき、所定の区間長Tにおいて異常が検知される回数kをポアソン分布でモデル化し、回数kがある許容回数kaより大きい確率p(k>ka;Tλ(θ'))を計算する累積分布計算部と、
    確率p(k>ka;Tλ(θ'))が所定の有意水準α以下となる最小の許容回数kaを取得する許容回数取得部と、
    Pを2以上の整数の何れか、p=1,…,Pとし、P個の閾値候補θp毎に所定の区間長T毎の異常度Zs=[zs,1,…,zs,T]に対して異常が検知される回数ksp)を計算する検知回数計数部と、
    前記回数ksp)が前記許容回数kaを超えた場合に、前記異常度Zs=[zs,1,…,zs,T]に対応するデータが異常であると判定する異常判定部と、
    前記異常判定部の判定結果asp)から性能指標FPR(θp)を計算する性能指標計算部と、
    P個の閾値候補θpの中から、前記性能指標FPR(θp)を用いて所望の性能指標qを達成するための閾値候補θpを選択し、前記ある閾値候補θ'とする閾値推定部とを含み、
    閾値候補の推定が収束するまで処理を繰り返し、収束時の閾値候補を閾値として取得する、
    閾値取得装置。
  7. 請求項1、2、5または6の閾値取得装置としてコンピュータを機能させるためのプログラム。
JP2021552034A 2019-10-16 2019-10-16 閾値取得装置、その方法、およびプログラム Active JP7287481B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/040654 WO2021074995A1 (ja) 2019-10-16 2019-10-16 閾値取得装置、その方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2021074995A1 JPWO2021074995A1 (ja) 2021-04-22
JP7287481B2 true JP7287481B2 (ja) 2023-06-06

Family

ID=75537525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021552034A Active JP7287481B2 (ja) 2019-10-16 2019-10-16 閾値取得装置、その方法、およびプログラム

Country Status (3)

Country Link
US (1) US20240152133A1 (ja)
JP (1) JP7287481B2 (ja)
WO (1) WO2021074995A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220413993A1 (en) * 2021-06-29 2022-12-29 Cox Communications, Inc. Anomaly detection of firmware revisions in a network

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2900864B2 (ja) 1995-11-24 1999-06-02 新川電機株式会社 回転機器振動監視診断システムにおける警報値及び基準値の自動設定方法
WO2013105164A1 (ja) 2012-01-13 2013-07-18 日本電気株式会社 異常信号判定装置、異常信号判定方法、および異常信号判定プログラム
CN110208019A (zh) 2019-05-14 2019-09-06 北京博华信智科技股份有限公司 一种动设备状态监测动态阈值预警方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0625709B2 (ja) * 1987-06-03 1994-04-06 川崎製鉄株式会社 軸受の異常検出方法
FR3022997B1 (fr) * 2014-06-25 2016-06-10 Snecma Procede de surveillance d'une degradation d'un dispositif embarque d'un aeronef incluant la determination d'un seuil de comptage
WO2017221965A1 (ja) * 2016-06-23 2017-12-28 日本電気株式会社 状態判定装置、状態判定方法、及びプログラムを記憶する記憶媒体
WO2018122890A1 (ja) * 2016-12-27 2018-07-05 日本電気株式会社 ログ分析方法、システムおよびプログラム
JP7304545B2 (ja) * 2018-07-06 2023-07-07 パナソニックIpマネジメント株式会社 異常予測システム及び異常予測方法
US10776196B2 (en) * 2018-08-29 2020-09-15 International Business Machines Corporation Systems and methods for anomaly detection in a distributed computing system
US11353859B2 (en) * 2019-03-19 2022-06-07 Mitsubishi Electric Research Laboratories, Inc. System and method for anomaly detection in time-varying system operations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2900864B2 (ja) 1995-11-24 1999-06-02 新川電機株式会社 回転機器振動監視診断システムにおける警報値及び基準値の自動設定方法
WO2013105164A1 (ja) 2012-01-13 2013-07-18 日本電気株式会社 異常信号判定装置、異常信号判定方法、および異常信号判定プログラム
CN110208019A (zh) 2019-05-14 2019-09-06 北京博华信智科技股份有限公司 一种动设备状态监测动态阈值预警方法

Also Published As

Publication number Publication date
US20240152133A1 (en) 2024-05-09
WO2021074995A1 (ja) 2021-04-22
JPWO2021074995A1 (ja) 2021-04-22

Similar Documents

Publication Publication Date Title
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
WO2021056724A1 (zh) 异常检测方法、装置、电子设备及存储介质
US10095774B1 (en) Cluster evaluation in unsupervised learning of continuous data
US20180082215A1 (en) Information processing apparatus and information processing method
CN110164501B (zh) 一种硬盘检测方法、装置、存储介质及设备
WO2019160003A1 (ja) モデル学習装置、モデル学習方法、プログラム
CN112596964B (zh) 磁盘故障的预测方法及装置
JP2019070965A (ja) 学習装置、学習方法、プログラム
CN111538642A (zh) 一种异常行为的检测方法、装置、电子设备及存储介质
Giurgiu et al. Additive explanations for anomalies detected from multivariate temporal data
WO2022001125A1 (zh) 一种存储系统的存储故障预测方法、系统及装置
CN112395179B (zh) 一种模型训练方法、磁盘预测方法、装置及电子设备
CN115841046B (zh) 基于维纳过程的加速退化试验数据处理方法和装置
CN113778766B (zh) 基于多维特征的硬盘故障预测模型建立方法及其应用
CN111858108A (zh) 一种硬盘故障预测方法、装置、电子设备和存储介质
CN116881737A (zh) 一种工业智慧监盘系统中的系统分析方法
CN115964211A (zh) 一种根因定位方法、装置、设备和可读介质
CN116126843A (zh) 一种数据质量评估方法、装置、电子设备和存储介质
JP7287481B2 (ja) 閾値取得装置、その方法、およびプログラム
CN117591843A (zh) 一种基于交叉验证机器学习的预测方法
CN115795928A (zh) 基于伽马过程的加速退化试验数据处理方法和装置
CN117972596B (zh) 一种基于操作日志的风险预测方法
CN110716761A (zh) 信息处理平台上软件应用的执行参数的自动和自优化确定
CN117693747A (zh) 多变量异常检测中信号跟随的被动推断
CN116661954A (zh) 虚拟机异常预测方法、装置、通信设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230508

R150 Certificate of patent or registration of utility model

Ref document number: 7287481

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150