JP7226568B2 - ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム - Google Patents
ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム Download PDFInfo
- Publication number
- JP7226568B2 JP7226568B2 JP2021543623A JP2021543623A JP7226568B2 JP 7226568 B2 JP7226568 B2 JP 7226568B2 JP 2021543623 A JP2021543623 A JP 2021543623A JP 2021543623 A JP2021543623 A JP 2021543623A JP 7226568 B2 JP7226568 B2 JP 7226568B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- parameter
- data
- learning
- network learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、データの分布を表す確率密度関数を学習する技術に関する。
教師なし異常検知問題では、正常データだけを用いてデータの分布を表す確率密度関数(正常モデルという)を学習し、正常モデルを用いて計算される観測データの異常度が所定の閾値を超えた場合、その観測データを異常と判定する(非特許文献1参照)。このため、正常モデルを精度よく学習することが異常検知問題では求められる。
近年、深層学習を用いて正常モデルを学習する方法が数多く提案されている(非特許文献2参照)。例えば、その中で最もよく知られているものとして、自己符号化器(AE: autoencoder)を用いる方法がある。また、非特許文献3に開示されている変分AE(VAE: variational AE)を用いる方法もある。
V. Chandola, A. Banerjee, and V. Kumar, "Anomaly detection: A survey," ACM Computing Surveys, 2009.
R. Chalapathy and S. Chawla, "Deep Learning for Anomaly Detection: A Survey," arXiv preprint, arXiv:1901.03407, 2019.
D. P. Kingma, and M. Welling, "Auto-Encoding Variational Bayes,"in Proc. of International Conference on Learning Representations (ICLR), 2013.
しかし、自己符号化器を用いる方法や変分AEを用いる方法は、いずれも正常モデルの推定精度が高くないという問題、すなわち、データの分布を表す確率密度関数のパラメータを高精度で学習することができないという問題がある。
そこで本発明では、自己符号化器を用いてデータの分布を表す確率密度関数のパラメータを高精度で学習するニューラルネットワーク学習技術を提供することを目的とする。
本発明の一態様は、θをデータxの分布を表す確率密度関数qθ(x)のパラメータ、Mθをパラメータθを学習する自己符号化器であるニューラルネットワークとし、n=1, …, Nに対して、パラメータθを用いて、学習データxnから、ニューラルネットワークの出力値Mθ(xn)を計算するニューラルネットワーク計算部と、前記学習データxn(1≦n≦N)と前記出力値Mθ(xn)(1≦n≦N)を用いて、コスト関数Lの評価値を計算するコスト関数計算部と、前記評価値を用いて、前記パラメータθを更新するパラメータ更新部と、を含むニューラルネットワーク学習装置であって、Zθをデータxの再構成誤差Eθ(x)=||x-Mθ(x)||2
2に基づいて定義されるボルツマン分布の正規化定数とし、前記コスト関数Lは次式により定義される。
本発明によれば、自己符号化器を用いてデータの分布を表す確率密度関数のパラメータを高精度で学習することが可能となる。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<記法>
_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。
_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。
また、ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。
<技術的背景>
《教師なし異常検知》
教師なし異常検知とは、データxの真の分布p(x)から生成されたN個の正常データ{xn}n=1 N(xn∈RD、Dは所定の定数)を学習データとして用いて正常モデルを学習し(この過程を学習過程という)、当該正常モデルを用いて新たに得られたサンプル(つまり、観測データ)が正常か異常かを判定する(この過程を推論過程という)技術である。ここで、扱うデータは何でもよく、例えば、音声データから抽出した特徴量でもよいし、画像やその他センサーを用いて取得されるセンサー値でもよい。
《教師なし異常検知》
教師なし異常検知とは、データxの真の分布p(x)から生成されたN個の正常データ{xn}n=1 N(xn∈RD、Dは所定の定数)を学習データとして用いて正常モデルを学習し(この過程を学習過程という)、当該正常モデルを用いて新たに得られたサンプル(つまり、観測データ)が正常か異常かを判定する(この過程を推論過程という)技術である。ここで、扱うデータは何でもよく、例えば、音声データから抽出した特徴量でもよいし、画像やその他センサーを用いて取得されるセンサー値でもよい。
以下、教師なし異常検知について詳しく説明する。教師なし異常検知では、まず、真の分布p(x)を正常モデルとして学習する。ここで、正常モデルはデータxの分布を表す確率密度関数qθ(x)として表され、具体的にはパラメータθを学習することになる。
そして、観測データxに対して異常度Aθ(x)を式(1)のように正常モデルを用いて負の対数尤度として定義する。
観測データxの異常度Aθ(x)が所定の閾値を超える場合、観測データxは異常であると判定し、それ以外の場合は、観測データxは正常であると判定する。
この枠組みでは、2つの分布p(x)とqθ(x)が近くなるようにパラメータθを学習する必要がある。2つの分布p(x)とqθ(x)の近さを測る距離尺度として、例えば、次式のカルバック・ライブラー情報量(Kullback-Leibler divergence; KLD)がある。
ここで、C=∫p(x)lnp(x)dxである。
この場合、カルバック・ライブラー情報量をコスト関数としてパラメータθを学習する、KLD最小化が行われる。ただし、Cはθに依存しない値であるため、最小化に際して省略されることが多い。
自己符号化器を正常モデルの学習に用いる場合、異常度は次式のようにデータxの再構成誤差Eθ(x)として定義される。
ここで、Mθはパラメータθを学習する自己符号化器であり、||・||2はL2ノルムを表す。
なお、狭義では自己符号化器は符号器と復号器とが対称なネットワークであることを意味するが、ここではその必要はない。
上記異常度の定義は、ボルツマン分布
から、正規化定数
を無視して計算した負の対数尤度と定義することと等価である(参考非特許文献1参照)。式(5)からわかるようにボルツマン分布の正規化定数Zθはxに依存しない値となるため、推論過程において、式(3)の関数Eθ(x)を異常度として用いても問題はない。
(参考非特許文献1:S. Zhai, Y. Cheng, W. Lu, and Z. M. Zhang, “Deep Structured Energy Based Models for Anomaly Detection,”, in Proc. of International Conference on Machine Learning (ICML), 2016.)
(参考非特許文献1:S. Zhai, Y. Cheng, W. Lu, and Z. M. Zhang, “Deep Structured Energy Based Models for Anomaly Detection,”, in Proc. of International Conference on Machine Learning (ICML), 2016.)
自己符号化器を正常モデルの学習に用いる場合、パラメータθの学習に、式(2)のコスト関数Lθ
KLの代わりに次式で定義されるコスト関数Lθ
AEを用いる。
つまり、式(6)の平均再構成誤差を最小化するようにパラメータθを学習する。式(6)を用いて学習するのは、ボルツマン分布の正規化定数Zθが解析的に求められないことに起因する。式(6)のコスト関数Lθ
AEを用いた学習では、自己符号化器がどのようなデータについても再構成するように学習するため、正常データだけでなく、異常データも再構成してしまう可能性がある。つまり、コスト関数Lθ
AEを用いた学習には、異常データの異常度が大きくならないという問題がある。
そこで、制限ボルツマンマシンを用いる学習のように、正規化定数Zθを考慮してパラメータθを学習する手法が考えられるが、制限ボルツマンマシンを用いる学習ではサンプリングを利用するため、計算コストが増大してしまうという新たな問題が生じる。
また、変分AEを用いる方法でも、学習過程と推論過程の両方においてサンプリングが必要となるため、計算コストは依然として高いという問題が残る(参考非特許文献2参照)。
(参考非特許文献2:J. An and S. Cho, “Variational Autoencoder based Anomaly Detection using Reconstruction Probability,” Technical Report. SNU Data Mining Center, pp.1-18, 2015.)
(参考非特許文献2:J. An and S. Cho, “Variational Autoencoder based Anomaly Detection using Reconstruction Probability,” Technical Report. SNU Data Mining Center, pp.1-18, 2015.)
《本願の実施形態で用いるコスト関数》
本願の実施形態では、追加のサンプリングを行うことなく、パラメータθを学習する方法を用いる。具体的には、
本願の実施形態では、追加のサンプリングを行うことなく、パラメータθを学習する方法を用いる。具体的には、
をコスト関数としてパラメータθを学習する。
まず、式(7)を以下のように変形する。
ここで、右辺の第一項は再構成誤差の期待値であり、関数Lθ
AEで近似することができる。また、右辺の第二項に現れる正規化定数Zθはxに依存しない値であるため、第二項の積分計算では定数として扱うことができ、∫p(x)dx=1であることから、第二項はlnZθとなることがわかる。したがって、KLD最小化のために、以下のコスト関数Lを最小化すればよい。
ここで、p(x)p(x)-1=1を用いて、正規化定数Zθの定義式である式(5)を以下のように変形する。
そして、∫p(x)dxを学習データの算術平均で置き換えることにより、正規化定数Zθは以下のように近似することができる。
式(11)には真の分布p(x)の逆数が含まれているため、このままでは、正規化定数Zθを解析的に求めることはできない。そこで、真の分布p(x)をカーネル密度推定を用いて近似することにする。
ここで、σはバンド幅パラメータであり、例えば、0.2程度に設定するとよい。
すると、式(9)、式(11)から、以下のコスト関数Lを得る。
以上まとめると、本願の実施形態は、KLDを最小化するようにパラメータθを学習する方法であり、計算の困難さの原因となっていた正規化定数Zθに含まれる真の分布p(x)の逆数をカーネル密度推定で近似することにより得られる、式(13)をコスト関数とする確率密度関数の学習法であると言える。
《実施例》
上記コスト関数を用いたパラメータθの学習では、例えば、以下の手順を実行すればよい。
(1)正常データである学習データをN0個(N0は1以上の整数)予め用意する。
(2)N0個の学習データから、例えば1000サンプルからなるミニバッチを生成する。
(3)(2)で生成したミニバッチを用いて式(13)のコスト関数Lの評価値を計算する。
(4)(3)の計算結果である評価値を用いて、パラメータθを更新する。例えば、評価値のパラメータθに関する勾配を求め、勾配法を利用して、パラメータθを更新するとよい。
(5)所定の終了条件を満たす場合、その時点のパラメータθを出力して処理を終了する一方、それ以外の場合は(2)に戻る。
上記コスト関数を用いたパラメータθの学習では、例えば、以下の手順を実行すればよい。
(1)正常データである学習データをN0個(N0は1以上の整数)予め用意する。
(2)N0個の学習データから、例えば1000サンプルからなるミニバッチを生成する。
(3)(2)で生成したミニバッチを用いて式(13)のコスト関数Lの評価値を計算する。
(4)(3)の計算結果である評価値を用いて、パラメータθを更新する。例えば、評価値のパラメータθに関する勾配を求め、勾配法を利用して、パラメータθを更新するとよい。
(5)所定の終了条件を満たす場合、その時点のパラメータθを出力して処理を終了する一方、それ以外の場合は(2)に戻る。
なお、バンド幅パラメータσはσ=1.0程度に設定すればよい。また、終了条件には、例えば、更新処理を5000回繰り返したか否かという条件を用いることができる。
《まとめ》
(1)パラメータθの学習に際して、コスト関数として、平均再構成誤差ではなく、真の分布p(x)と経験分布qθ(x)とのカルバック・ライブラー情報量を用いる。これにより、経験分布qθ(x)の正規化定数Zθがコスト関数に組み込まれ、パラメータθを高精度で学習することができるようになる。
(2)また、正規化定数Zθを計算できるようにするため、カーネル密度推定を利用する。
(1)パラメータθの学習に際して、コスト関数として、平均再構成誤差ではなく、真の分布p(x)と経験分布qθ(x)とのカルバック・ライブラー情報量を用いる。これにより、経験分布qθ(x)の正規化定数Zθがコスト関数に組み込まれ、パラメータθを高精度で学習することができるようになる。
(2)また、正規化定数Zθを計算できるようにするため、カーネル密度推定を利用する。
<第1実施形態>
以下、図1~図2を参照してニューラルネットワーク学習装置100を説明する。図1は、ニューラルネットワーク学習装置100の構成を示すブロック図である。図2は、ニューラルネットワーク学習装置100の動作を示すフローチャートである。図1に示すようにニューラルネットワーク学習装置100は、ニューラルネットワーク計算部110と、コスト関数計算部120と、パラメータ更新部130と、終了条件判定部140と、記録部190を含む。記録部190は、ニューラルネットワーク学習装置100の処理に必要な情報を適宜記録する構成部である。例えば、学習対象となるデータxの分布を表す確率密度関数qθ(x)のパラメータθを記録する。
以下、図1~図2を参照してニューラルネットワーク学習装置100を説明する。図1は、ニューラルネットワーク学習装置100の構成を示すブロック図である。図2は、ニューラルネットワーク学習装置100の動作を示すフローチャートである。図1に示すようにニューラルネットワーク学習装置100は、ニューラルネットワーク計算部110と、コスト関数計算部120と、パラメータ更新部130と、終了条件判定部140と、記録部190を含む。記録部190は、ニューラルネットワーク学習装置100の処理に必要な情報を適宜記録する構成部である。例えば、学習対象となるデータxの分布を表す確率密度関数qθ(x)のパラメータθを記録する。
ニューラルネットワーク学習装置100は、学習データ記録部910に接続している。学習データ記録部910には、事前に収集したN0個(N0は1以上の整数)の学習データが記録されている。ここで、学習データxはx∈RD(ただし、Dは1以上の整数)、つまり、D次元実数ベクトルである。
ニューラルネットワーク学習装置100の各構成部で用いる各種パラメータ(例えば、パラメータθの初期値)については、N0個の学習データと同様、外部から入力するようにしてもよいし、事前に各構成部に設定されていてもよい。また、N0個の学習データは、外部の学習データ記録部910の代わりに、記録部190に記録しておいてもよい。
ニューラルネットワーク学習装置100の構成部の1つであるニューラルネットワーク計算部110は、パラメータθを学習する自己符号化器であるニューラルネットワークMθを用いて構成される。
図2に従いニューラルネットワーク学習装置100の動作について説明する。
S110において、ニューラルネットワーク計算部110は、N0個の学習データからミニバッチ{xn}n=1
N(xn∈RD)を生成し、n=1, …, Nに対して、パラメータθを用いて、学習データxnから、ニューラルネットワークの出力値Mθ(xn)を計算する。
S120において、コスト関数計算部120は、S110での計算に用いた学習データxn(1≦n≦N)とS110で計算した出力値Mθ(xn)(1≦n≦N)を用いて、コスト関数Lの評価値を計算する。コスト関数Lとして、例えば、Eθ(x)=||x-Mθ(x)||2
2をデータxの再構成誤差、qθ(x)=1/Zθ exp(-Eθ(x))をデータxの再構成誤差Eθ(x)に基づいて定義されるボルツマン分布(ただし、Zθは正規化定数)とし、次式により定義される関数を用いることができる。
また、正規化定数Zθとして、例えば、次式により計算されるものを用いることができる。
S130において、パラメータ更新部130は、S120で計算した評価値を用いて、パラメータθを更新する。パラメータθの更新には、勾配法を用いるとよい。なお、勾配法には、確率的勾配法、誤差逆伝播法など任意のものを用いることができる。
S140において、終了条件判定部140は、パラメータ更新の終了条件として事前に設定している終了条件を判定し、終了条件が満たされた場合はS130で更新したパラメータθを出力し、終了条件が満たされない場合はS110~S140の処理を繰り返す。終了条件として、例えばS110~S140の処理の実行回数が所定の回数に達したか否かという条件を採用することができる。例えば、所定の回数を5000回などとすればよい。
本実施形態の発明によれば、自己符号化器を用いてデータの分布を表す確率密度関数のパラメータを高精度で学習することが可能となる。
<補記>
図3は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
図3は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (4)
- θをデータxの分布を表す確率密度関数qθ(x)のパラメータ、Mθをパラメータθを学習する自己符号化器であるニューラルネットワークとし、
n=1, …, Nに対して、パラメータθを用いて、学習データxnから、ニューラルネットワークの出力値Mθ(xn)を計算するニューラルネットワーク計算部と、
前記学習データxn(1≦n≦N)と前記出力値Mθ(xn)(1≦n≦N)を用いて、コスト関数Lの評価値を計算するコスト関数計算部と、
前記評価値を用いて、前記パラメータθを更新するパラメータ更新部と、
を含むニューラルネットワーク学習装置であって、
Zθをデータxの再構成誤差Eθ(x)=||x-Mθ(x)||2 2に基づいて定義されるボルツマン分布の正規化定数とし、
前記コスト関数Lは次式により定義される
ニューラルネットワーク学習装置。 - θをデータxの分布を表す確率密度関数qθ(x)のパラメータ、Mθをパラメータθを学習する自己符号化器であるニューラルネットワークとし、
ニューラルネットワーク学習装置が、n=1, …, Nに対して、パラメータθを用いて、学習データxnから、ニューラルネットワークの出力値Mθ(xn)を計算するニューラルネットワーク計算ステップと、
前記ニューラルネットワーク学習装置が、前記学習データxn(1≦n≦N)と前記出力値Mθ(xn)(1≦n≦N)を用いて、コスト関数Lの評価値を計算するコスト関数計算ステップと、
前記ニューラルネットワーク学習装置が、前記評価値を用いて、前記パラメータθを更新するパラメータ更新ステップと、
を含むニューラルネットワーク学習方法であって、
Zθをデータxの再構成誤差Eθ(x)=||x-Mθ(x)||2 2に基づいて定義されるボルツマン分布の正規化定数とし、
前記コスト関数Lは次式により定義される
ニューラルネットワーク学習方法。 - 請求項1または2に記載のニューラルネットワーク学習装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/034377 WO2021044467A1 (ja) | 2019-09-02 | 2019-09-02 | ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021044467A1 JPWO2021044467A1 (ja) | 2021-03-11 |
JP7226568B2 true JP7226568B2 (ja) | 2023-02-21 |
Family
ID=74852528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021543623A Active JP7226568B2 (ja) | 2019-09-02 | 2019-09-02 | ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220327379A1 (ja) |
JP (1) | JP7226568B2 (ja) |
WO (1) | WO2021044467A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190095798A1 (en) | 2017-09-28 | 2019-03-28 | D5Ai Llc | Stochastic categorical autoencoder network |
-
2019
- 2019-09-02 WO PCT/JP2019/034377 patent/WO2021044467A1/ja active Application Filing
- 2019-09-02 JP JP2021543623A patent/JP7226568B2/ja active Active
- 2019-09-02 US US17/639,330 patent/US20220327379A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190095798A1 (en) | 2017-09-28 | 2019-03-28 | D5Ai Llc | Stochastic categorical autoencoder network |
Non-Patent Citations (1)
Title |
---|
KOIZUMI, Yuma et al.,"BATCH UNIFORMIZATION FOR MINIMIZING MAXIMUM ANOMALY SCORE OF DNN-BASED ANOMALY DETECTION IN SOUNDS",arXiv.org [online],arXiv:1907.08338v1,Cornell University,2019年07月,[検索日 2020.01.09], インターネット: <URL: https://arxiv.org/pdf/1907.08338v1.pdf> |
Also Published As
Publication number | Publication date |
---|---|
WO2021044467A1 (ja) | 2021-03-11 |
JPWO2021044467A1 (ja) | 2021-03-11 |
US20220327379A1 (en) | 2022-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180349158A1 (en) | Bayesian optimization techniques and applications | |
US11048870B2 (en) | Domain concept discovery and clustering using word embedding in dialogue design | |
Häggström | Data‐driven confounder selection via Markov and Bayesian networks | |
US20180268285A1 (en) | Neural network cooperation | |
JP6821614B2 (ja) | モデル学習装置、モデル学習方法、プログラム | |
JP6881207B2 (ja) | 学習装置、プログラム | |
CN116560895B (zh) | 用于机械装备的故障诊断方法 | |
US11223543B1 (en) | Reconstructing time series datasets with missing values utilizing machine learning | |
Zoufal et al. | Variational quantum algorithm for unconstrained black box binary optimization: Application to feature selection | |
JP6943067B2 (ja) | 異常音検知装置、異常検知装置、プログラム | |
JP2020091791A (ja) | 推定装置、最適化装置、推定方法、最適化方法、及びプログラム | |
Hosseini Nejad Takhti et al. | Classification of marine mammals using the trained multilayer perceptron neural network with the whale algorithm developed with the fuzzy system | |
JP7226568B2 (ja) | ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム | |
JP7276482B2 (ja) | ナレッジトレース装置、方法、および、プログラム | |
JP7231027B2 (ja) | 異常度推定装置、異常度推定方法、プログラム | |
Nakano | Hybrid algorithm of ensemble transform and importance sampling for assimilation of non-Gaussian observations | |
Zhu et al. | A hybrid model for nonlinear regression with missing data using quasilinear kernel | |
KR102202823B1 (ko) | Weighted Maximum Mean Discrepancy 연산의 성질을 사용하여 양성-미분류 자료 학습 방법을 적용함으로써 이진 분류를 수행하는 방법 및 장치 | |
JP7359206B2 (ja) | 学習装置、学習方法、及びプログラム | |
Li et al. | Self-Supervised Deep Learning for Image Reconstruction: A Langevin Monte Carlo Approach | |
Wold | Parameterized quantum circuits for machine learning | |
Beckham et al. | Conservative objective models are a special kind of contrastive divergence-based energy model | |
JP7505555B2 (ja) | 学習装置、学習方法及びプログラム | |
US20220222538A1 (en) | Method and apparatus with neural network processing | |
WO2022259517A1 (ja) | モデル学習装置、モデル学習方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230123 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7226568 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |