JP7226568B2

JP7226568B2 - ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム

Info

Publication number: JP7226568B2
Application number: JP2021543623A
Authority: JP
Inventors: 悠馬小泉; 伸村田; 遼太郎佐藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2023-02-21
Anticipated expiration: 2039-09-02
Also published as: WO2021044467A1; JPWO2021044467A1; US20220327379A1

Description

本発明は、データの分布を表す確率密度関数を学習する技術に関する。

教師なし異常検知問題では、正常データだけを用いてデータの分布を表す確率密度関数（正常モデルという）を学習し、正常モデルを用いて計算される観測データの異常度が所定の閾値を超えた場合、その観測データを異常と判定する（非特許文献１参照）。このため、正常モデルを精度よく学習することが異常検知問題では求められる。

近年、深層学習を用いて正常モデルを学習する方法が数多く提案されている（非特許文献２参照）。例えば、その中で最もよく知られているものとして、自己符号化器（AE: autoencoder）を用いる方法がある。また、非特許文献３に開示されている変分AE（VAE: variational AE）を用いる方法もある。

V. Chandola, A. Banerjee, and V. Kumar, "Anomaly detection: A survey," ACM Computing Surveys, 2009. R. Chalapathy and S. Chawla, "Deep Learning for Anomaly Detection: A Survey," arXiv preprint, arXiv:1901.03407, 2019. D. P. Kingma, and M. Welling, "Auto-Encoding Variational Bayes,"in Proc. of International Conference on Learning Representations (ICLR), 2013.

しかし、自己符号化器を用いる方法や変分AEを用いる方法は、いずれも正常モデルの推定精度が高くないという問題、すなわち、データの分布を表す確率密度関数のパラメータを高精度で学習することができないという問題がある。

そこで本発明では、自己符号化器を用いてデータの分布を表す確率密度関数のパラメータを高精度で学習するニューラルネットワーク学習技術を提供することを目的とする。

本発明の一態様は、θをデータxの分布を表す確率密度関数q_θ(x)のパラメータ、M_θをパラメータθを学習する自己符号化器であるニューラルネットワークとし、n=1, …, Nに対して、パラメータθを用いて、学習データx_nから、ニューラルネットワークの出力値M_θ(x_n)を計算するニューラルネットワーク計算部と、前記学習データx_n(1≦n≦N)と前記出力値M_θ(x_n)(1≦n≦N)を用いて、コスト関数Lの評価値を計算するコスト関数計算部と、前記評価値を用いて、前記パラメータθを更新するパラメータ更新部と、を含むニューラルネットワーク学習装置であって、Z_θをデータxの再構成誤差E_θ(x)=||x-M_θ(x)||₂ ²に基づいて定義されるボルツマン分布の正規化定数とし、前記コスト関数Lは次式により定義される。

本発明によれば、自己符号化器を用いてデータの分布を表す確率密度関数のパラメータを高精度で学習することが可能となる。

ニューラルネットワーク学習装置１００の構成の一例を示すブロック図である。ニューラルネットワーク学習装置１００の動作の一例を示すフローチャートである。本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜記法＞
_（アンダースコア）は下付き添字を表す。例えば、x^y_zはy_zがxに対する上付き添字であり、x_{y_z}はy_zがxに対する下付き添字であることを表す。

また、ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。

＜技術的背景＞
《教師なし異常検知》
教師なし異常検知とは、データxの真の分布p(x)から生成されたN個の正常データ{x_n}_n=1 ^N(x_n∈R^D、Dは所定の定数)を学習データとして用いて正常モデルを学習し（この過程を学習過程という）、当該正常モデルを用いて新たに得られたサンプル（つまり、観測データ）が正常か異常かを判定する（この過程を推論過程という）技術である。ここで、扱うデータは何でもよく、例えば、音声データから抽出した特徴量でもよいし、画像やその他センサーを用いて取得されるセンサー値でもよい。

以下、教師なし異常検知について詳しく説明する。教師なし異常検知では、まず、真の分布p(x)を正常モデルとして学習する。ここで、正常モデルはデータxの分布を表す確率密度関数q_θ(x)として表され、具体的にはパラメータθを学習することになる。

そして、観測データxに対して異常度A_θ(x)を式(1)のように正常モデルを用いて負の対数尤度として定義する。

観測データxの異常度A_θ(x)が所定の閾値を超える場合、観測データxは異常であると判定し、それ以外の場合は、観測データxは正常であると判定する。

この枠組みでは、２つの分布p(x)とq_θ(x)が近くなるようにパラメータθを学習する必要がある。２つの分布p(x)とq_θ(x)の近さを測る距離尺度として、例えば、次式のカルバック・ライブラー情報量（Kullback-Leibler divergence; KLD）がある。

ここで、C=∫p(x)lnp(x)dxである。

この場合、カルバック・ライブラー情報量をコスト関数としてパラメータθを学習する、KLD最小化が行われる。ただし、Cはθに依存しない値であるため、最小化に際して省略されることが多い。

自己符号化器を正常モデルの学習に用いる場合、異常度は次式のようにデータxの再構成誤差E_θ(x)として定義される。

ここで、M_θはパラメータθを学習する自己符号化器であり、||・||₂はL₂ノルムを表す。

なお、狭義では自己符号化器は符号器と復号器とが対称なネットワークであることを意味するが、ここではその必要はない。

上記異常度の定義は、ボルツマン分布

から、正規化定数

を無視して計算した負の対数尤度と定義することと等価である（参考非特許文献１参照）。式(5)からわかるようにボルツマン分布の正規化定数Z_θはxに依存しない値となるため、推論過程において、式(3)の関数E_θ(x)を異常度として用いても問題はない。
（参考非特許文献１：S. Zhai, Y. Cheng, W. Lu, and Z. M. Zhang, “Deep Structured Energy Based Models for Anomaly Detection,”, in Proc. of International Conference on Machine Learning (ICML), 2016.）

自己符号化器を正常モデルの学習に用いる場合、パラメータθの学習に、式(2)のコスト関数L_θ ^KLの代わりに次式で定義されるコスト関数L_θ ^AEを用いる。

つまり、式(6)の平均再構成誤差を最小化するようにパラメータθを学習する。式(6)を用いて学習するのは、ボルツマン分布の正規化定数Z_θが解析的に求められないことに起因する。式(6)のコスト関数L_θ ^AEを用いた学習では、自己符号化器がどのようなデータについても再構成するように学習するため、正常データだけでなく、異常データも再構成してしまう可能性がある。つまり、コスト関数L_θ ^AEを用いた学習には、異常データの異常度が大きくならないという問題がある。

そこで、制限ボルツマンマシンを用いる学習のように、正規化定数Z_θを考慮してパラメータθを学習する手法が考えられるが、制限ボルツマンマシンを用いる学習ではサンプリングを利用するため、計算コストが増大してしまうという新たな問題が生じる。

また、変分AEを用いる方法でも、学習過程と推論過程の両方においてサンプリングが必要となるため、計算コストは依然として高いという問題が残る（参考非特許文献２参照）。
（参考非特許文献２：J. An and S. Cho, “Variational Autoencoder based Anomaly Detection using Reconstruction Probability,” Technical Report. SNU Data Mining Center, pp.1-18, 2015.）

《本願の実施形態で用いるコスト関数》
本願の実施形態では、追加のサンプリングを行うことなく、パラメータθを学習する方法を用いる。具体的には、

をコスト関数としてパラメータθを学習する。

まず、式(7)を以下のように変形する。

ここで、右辺の第一項は再構成誤差の期待値であり、関数L_θ ^AEで近似することができる。また、右辺の第二項に現れる正規化定数Z_θはxに依存しない値であるため、第二項の積分計算では定数として扱うことができ、∫p(x)dx=1であることから、第二項はlnZ_θとなることがわかる。したがって、KLD最小化のために、以下のコスト関数Lを最小化すればよい。

ここで、p(x)p(x)^-1=1を用いて、正規化定数Z_θの定義式である式(5)を以下のように変形する。

そして、∫p(x)dxを学習データの算術平均で置き換えることにより、正規化定数Z_θは以下のように近似することができる。

式(11)には真の分布p(x)の逆数が含まれているため、このままでは、正規化定数Z_θを解析的に求めることはできない。そこで、真の分布p(x)をカーネル密度推定を用いて近似することにする。

ここで、σはバンド幅パラメータであり、例えば、0.2程度に設定するとよい。

すると、式(9)、式(11)から、以下のコスト関数Lを得る。

以上まとめると、本願の実施形態は、KLDを最小化するようにパラメータθを学習する方法であり、計算の困難さの原因となっていた正規化定数Z_θに含まれる真の分布p(x)の逆数をカーネル密度推定で近似することにより得られる、式(13)をコスト関数とする確率密度関数の学習法であると言える。

《実施例》
上記コスト関数を用いたパラメータθの学習では、例えば、以下の手順を実行すればよい。
（１）正常データである学習データをN₀個(N₀は1以上の整数)予め用意する。
（２）N₀個の学習データから、例えば1000サンプルからなるミニバッチを生成する。
（３）（２）で生成したミニバッチを用いて式(13)のコスト関数Lの評価値を計算する。
（４）（３）の計算結果である評価値を用いて、パラメータθを更新する。例えば、評価値のパラメータθに関する勾配を求め、勾配法を利用して、パラメータθを更新するとよい。
（５）所定の終了条件を満たす場合、その時点のパラメータθを出力して処理を終了する一方、それ以外の場合は（２）に戻る。

なお、バンド幅パラメータσはσ=1.0程度に設定すればよい。また、終了条件には、例えば、更新処理を5000回繰り返したか否かという条件を用いることができる。

《まとめ》
（１）パラメータθの学習に際して、コスト関数として、平均再構成誤差ではなく、真の分布p(x)と経験分布q_θ(x)とのカルバック・ライブラー情報量を用いる。これにより、経験分布q_θ(x)の正規化定数Z_θがコスト関数に組み込まれ、パラメータθを高精度で学習することができるようになる。
（２）また、正規化定数Z_θを計算できるようにするため、カーネル密度推定を利用する。

＜第１実施形態＞
以下、図１～図２を参照してニューラルネットワーク学習装置１００を説明する。図１は、ニューラルネットワーク学習装置１００の構成を示すブロック図である。図２は、ニューラルネットワーク学習装置１００の動作を示すフローチャートである。図１に示すようにニューラルネットワーク学習装置１００は、ニューラルネットワーク計算部１１０と、コスト関数計算部１２０と、パラメータ更新部１３０と、終了条件判定部１４０と、記録部１９０を含む。記録部１９０は、ニューラルネットワーク学習装置１００の処理に必要な情報を適宜記録する構成部である。例えば、学習対象となるデータxの分布を表す確率密度関数q_θ(x)のパラメータθを記録する。

ニューラルネットワーク学習装置１００は、学習データ記録部９１０に接続している。学習データ記録部９１０には、事前に収集したN₀個(N₀は1以上の整数)の学習データが記録されている。ここで、学習データxはx∈R^D(ただし、Dは1以上の整数)、つまり、D次元実数ベクトルである。

ニューラルネットワーク学習装置１００の各構成部で用いる各種パラメータ（例えば、パラメータθの初期値）については、N₀個の学習データと同様、外部から入力するようにしてもよいし、事前に各構成部に設定されていてもよい。また、N₀個の学習データは、外部の学習データ記録部９１０の代わりに、記録部１９０に記録しておいてもよい。

ニューラルネットワーク学習装置１００の構成部の１つであるニューラルネットワーク計算部１１０は、パラメータθを学習する自己符号化器であるニューラルネットワークM_θを用いて構成される。

図２に従いニューラルネットワーク学習装置１００の動作について説明する。

Ｓ１１０において、ニューラルネットワーク計算部１１０は、N₀個の学習データからミニバッチ{x_n}_n=1 ^N(x_n∈R^D)を生成し、n=1, …, Nに対して、パラメータθを用いて、学習データx_nから、ニューラルネットワークの出力値M_θ(x_n)を計算する。

Ｓ１２０において、コスト関数計算部１２０は、Ｓ１１０での計算に用いた学習データx_n(1≦n≦N)とＳ１１０で計算した出力値M_θ(x_n)(1≦n≦N)を用いて、コスト関数Lの評価値を計算する。コスト関数Lとして、例えば、E_θ(x)=||x-M_θ(x)||₂ ²をデータxの再構成誤差、q_θ(x)=1/Z_θexp(-E_θ(x))をデータxの再構成誤差E_θ(x)に基づいて定義されるボルツマン分布（ただし、Z_θは正規化定数）とし、次式により定義される関数を用いることができる。

また、正規化定数Z_θとして、例えば、次式により計算されるものを用いることができる。

（ただし、ε, σ, Dは所定の定数）

Ｓ１３０において、パラメータ更新部１３０は、Ｓ１２０で計算した評価値を用いて、パラメータθを更新する。パラメータθの更新には、勾配法を用いるとよい。なお、勾配法には、確率的勾配法、誤差逆伝播法など任意のものを用いることができる。

Ｓ１４０において、終了条件判定部１４０は、パラメータ更新の終了条件として事前に設定している終了条件を判定し、終了条件が満たされた場合はＳ１３０で更新したパラメータθを出力し、終了条件が満たされない場合はＳ１１０～Ｓ１４０の処理を繰り返す。終了条件として、例えばＳ１１０～Ｓ１４０の処理の実行回数が所定の回数に達したか否かという条件を採用することができる。例えば、所定の回数を5000回などとすればよい。

本実施形態の発明によれば、自己符号化器を用いてデータの分布を表す確率密度関数のパラメータを高精度で学習することが可能となる。

＜補記＞
図３は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部２０２０に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

θをデータxの分布を表す確率密度関数q_θ(x)のパラメータ、M_θをパラメータθを学習する自己符号化器であるニューラルネットワークとし、
n=1, …, Nに対して、パラメータθを用いて、学習データx_nから、ニューラルネットワークの出力値M_θ(x_n)を計算するニューラルネットワーク計算部と、
前記学習データx_n(1≦n≦N)と前記出力値M_θ(x_n)(1≦n≦N)を用いて、コスト関数Lの評価値を計算するコスト関数計算部と、
前記評価値を用いて、前記パラメータθを更新するパラメータ更新部と、
を含むニューラルネットワーク学習装置であって、
Z_θをデータxの再構成誤差E_θ(x)=||x-M_θ(x)||₂ ²に基づいて定義されるボルツマン分布の正規化定数とし、
前記コスト関数Lは次式により定義される

ニューラルネットワーク学習装置。
請求項１に記載のニューラルネットワーク学習装置であって、
前記正規化定数Z_θは次式により計算される

（ただし、ε, σ, Dは所定の定数）
ことを特徴とするニューラルネットワーク学習装置。
θをデータxの分布を表す確率密度関数q_θ(x)のパラメータ、M_θをパラメータθを学習する自己符号化器であるニューラルネットワークとし、
ニューラルネットワーク学習装置が、n=1, …, Nに対して、パラメータθを用いて、学習データx_nから、ニューラルネットワークの出力値M_θ(x_n)を計算するニューラルネットワーク計算ステップと、
前記ニューラルネットワーク学習装置が、前記学習データx_n(1≦n≦N)と前記出力値M_θ(x_n)(1≦n≦N)を用いて、コスト関数Lの評価値を計算するコスト関数計算ステップと、
前記ニューラルネットワーク学習装置が、前記評価値を用いて、前記パラメータθを更新するパラメータ更新ステップと、
を含むニューラルネットワーク学習方法であって、
Z_θをデータxの再構成誤差E_θ(x)=||x-M_θ(x)||₂ ²に基づいて定義されるボルツマン分布の正規化定数とし、
前記コスト関数Lは次式により定義される

ニューラルネットワーク学習方法。
請求項１または２に記載のニューラルネットワーク学習装置としてコンピュータを機能させるためのプログラム。