JP7205640B2 - 学習方法、学習プログラム、および学習装置 - Google Patents

学習方法、学習プログラム、および学習装置 Download PDF

Info

Publication number
JP7205640B2
JP7205640B2 JP2021548017A JP2021548017A JP7205640B2 JP 7205640 B2 JP7205640 B2 JP 7205640B2 JP 2021548017 A JP2021548017 A JP 2021548017A JP 2021548017 A JP2021548017 A JP 2021548017A JP 7205640 B2 JP7205640 B2 JP 7205640B2
Authority
JP
Japan
Prior art keywords
data
learning
feature data
error
probability distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021548017A
Other languages
English (en)
Other versions
JPWO2021059348A1 (ja
JPWO2021059348A5 (ja
Inventor
圭造 加藤
章 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2021059348A1 publication Critical patent/JPWO2021059348A1/ja
Publication of JPWO2021059348A5 publication Critical patent/JPWO2021059348A5/ja
Application granted granted Critical
Publication of JP7205640B2 publication Critical patent/JP7205640B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)

Description

本発明は、学習方法、学習プログラム、および学習装置に関する。
従来、データ解析の分野において、次元数が比較的多い実空間における実データから、次元数が比較的少ない潜在空間における潜在変数と呼ばれる特徴データを抽出するオートエンコーダーが存在する。例えば、実データの代わりに、当該実データからオートエンコーダーにより抽出した特徴データを用いることにより、データ解析の精度向上を図ることがある。
先行技術としては、例えば、ニューラルネットワークを用いた教師なし学習により、潜在変数を学習するものがある。また、例えば、潜在変数を確率分布として学習する技術がある。また、例えば、オートエンコーダーの学習と同時に、潜在空間の確率分布を表現する混合ガウス分布を学習する技術がある。
Geoffrey E. Hinton; R. R. Salakhutdinov (2006-07-28). "Reducing the Dimensionality of Data with Neural Networks". Science 313 (5786): 504-507. Diederik P.Kingma, Max Welling, "Auto-Encoding Variational Bayes," ICLR 2014, Banff, Canada, Apr 2014. Bo Zong, Qi Song, Martin Renqiang Min, Wei Cheng, Cristian Lumezanu, Daeki Cho, and Haifeng Chen, "Deep autoencoding gaussian mixture model for unsupervised anomaly detection," In International Conference on Learning Representations, 2018.
しかしながら、従来技術では、実データの確率分布の代わりに、特徴データの確率分布を用いる場合などに、データ解析の精度向上を図ることが難しい。例えば、実データの確率分布と、特徴データの確率分布との一致度合いが小さいほど、データ解析の精度向上を図ることが難しくなる。
1つの側面では、本発明は、データ解析の精度向上を図ることを目的とする。
1つの実施態様によれば、符号化と復号化を実行するオートエンコーダーの学習にあたり、入力されたデータを符号化し、前記データを符号化して得た特徴データの確率分布を算出し、前記特徴データを復号化して第一の復号化データを生成し、前記特徴データにノイズを加算し、前記ノイズを加算した前記特徴データを復号化して第二の復号化データを生成し、生成した前記第一の復号化データと前記データとの第一の誤差と、前記第一の復号化データと生成した前記第二の復号化データとの第二の誤差と、算出した前記確率分布の情報エントロピーとを最小化するように、前記オートエンコーダーと、前記特徴データの確率分布とを学習する学習方法、学習プログラム、および学習装置が提案される。
一態様によれば、データ解析の精度向上を図ることが可能になる。
図1は、実施の形態にかかる学習方法の一実施例を示す説明図である。 図2は、データ解析システム200の一例を示す説明図である。 図3は、学習装置100のハードウェア構成例を示すブロック図である。 図4は、学習装置100の機能的構成例を示すブロック図である。 図5は、学習装置100の実施例1を示す説明図である。 図6は、学習装置100の実施例2を示す説明図である。 図7は、学習装置100により得られる効果の一例を示す説明図である。 図8は、学習処理手順の一例を示すフローチャートである。 図9は、解析処理手順の一例を示すフローチャートである。
以下に、図面を参照して、本発明にかかる学習方法、学習プログラム、および学習装置の実施の形態を詳細に説明する。
(実施の形態にかかる学習方法の一実施例)
図1は、実施の形態にかかる学習方法の一実施例を示す説明図である。図1において、学習装置100は、オートエンコーダーを学習するコンピュータである。オートエンコーダーは、次元数が比較的多い実空間における実データから、次元数が比較的少ない潜在空間における潜在変数と呼ばれる特徴データを抽出するモデルである。
オートエンコーダーは、例えば、データ解析の処理量の低減化、および、データ解析の精度の向上などの、データ解析の効率化のために用いられる。データ解析の際、次元数が比較的多い実空間における実データの代わりに、次元数が比較的少ない潜在空間における特徴データを用いることにより、データ解析の処理量の低減化、および、データ解析の精度の向上などを図ることが考えられる。
データ解析の一例は、具体的には、対象のデータが外れ値データであるか否かを判定するアノマリー検出などである。外れ値データは、統計的に現れにくく、異常値である確率が比較的高い外れ値を示すデータである。アノマリー検出の際、実空間における実データの確率分布の代わりに、潜在空間における特徴データの確率分布を用いることが考えられる。そして、対象のデータからオートエンコーダーにより抽出した特徴データが、潜在空間における外れ値データであるか否かに基づいて、対象のデータが、実空間における外れ値データであるか否かを判定することが考えられる。
しかしながら、従来技術では、実空間における実データの確率分布の代わりに、潜在空間における特徴データの確率分布を用いても、データ解析の精度向上を図ることが難しいことがある。具体的には、従来技術によるオートエンコーダーでは、実空間における実データの確率分布と、潜在空間における特徴データの確率分布とを一致させることや、実データの確率密度と、特徴データの確率密度とを比例させることが難しい。
具体的には、上記非特許文献1を参考にオートエンコーダーを学習しても、実空間における実データの確率分布と、潜在空間における特徴データの確率分布とが一致することは保証されない。また、上記非特許文献2を参考にオートエンコーダーを学習しても、各変数に対し独立な正規分布を仮定しており、実空間における実データの確率分布と、潜在空間における特徴データの確率分布とが一致することは保証されない。また、上記非特許文献3を参考にオートエンコーダーを学習しても、潜在空間における特徴データの確率分布に制約があるため、実空間における実データの確率分布と、潜在空間における特徴データの確率分布とが一致することは保証されない。
このため、対象のデータからオートエンコーダーにより抽出した特徴データが、潜在空間における外れ値データであっても、対象のデータが、実空間における外れ値データではない場合があり、アノマリー検出の精度向上を図ることができないことがある。
そこで、本実施の形態では、実空間における実データの確率分布と、潜在空間における特徴データの確率分布とを一致させやすいオートエンコーダーを学習することができ、データ解析の精度向上を図ることができる学習方法について説明する。
図1において、学習装置100は、学習対象とする更新前のオートエンコーダー110を有する。学習対象は、例えば、オートエンコーダー110の符号化のパラメータと復号化のパラメータとである。更新前とは、学習対象となる符号化のパラメータと復号化のパラメータとが更新前である状態を意味する。
(1-1)学習装置100は、オートエンコーダー110を学習するサンプルとなる、ドメインDからのデータxを符号化した特徴データzを生成する。特徴データzは、データxより次元数が少ないベクトルである。データxは、ベクトルである。学習装置100は、例えば、符号化にかかる関数fθ(・)を実現する符号化器111により、データxを代入して得られる関数値fθ(x)に対応する特徴データzを生成する。
(1-2)学習装置100は、特徴データzの確率分布Pzψ(z)を算出する。学習装置100は、例えば、確率分布を規定する、学習対象とする更新前のモデルに基づいて、特徴データzの確率分布Pzψ(z)を算出する。学習対象は、例えば、確率分布を規定するパラメータψである。更新前とは、学習対象となる確率分布を規定するパラメータψが更新前である状態を意味する。学習装置100は、具体的には、パラメータψを含む確率密度関数(PDF:Probability Density Function)により、特徴データzの確率分布Pzψ(z)を算出する。確率密度関数は、例えば、パラメトリックである。
(1-3)学習装置100は、特徴データzを復号化して第一の復号化データxを生成する。第一の復号化データxは、ベクトルである。ここで、文中のxは、図中および式中のxの上部に∧を付した記号を示す。学習装置100は、例えば、復号化にかかる関数gξ(・)を実現する復号化器112により、特徴データzを代入して得られる関数値gξ(z)に対応する第一の復号化データxを生成する。
(1-4)学習装置100は、特徴データzにノイズεを加算して加算後データz+εを生成する。学習装置100は、例えば、雑音生成器113によりノイズεを生成し、加算後データz+εを生成する。ノイズεは、特徴データzと同じ次元数であり、次元間で互いに無相関であり、かつ、平均が0である分布に基づく一様乱数である。
(1-5)学習装置100は、加算後データz+εを復号化して第二の復号化データxを生成する。第二の復号化データxは、ベクトルである。ここで、文中のxは、図中および式中のxの上部に∨を付した記号を示す。学習装置100は、例えば、復号化にかかる関数gξ(・)を実現する復号化器114により、加算後データz+εを代入して得られる関数値gξ(z+ε)に対応する第二の復号化データxを生成する。
(1-6)学習装置100は、生成した第一の復号化データxとデータxとの第一の誤差D1を算出する。学習装置100は、下記式(1)により、第一の誤差D1を算出する。F(x,x)は、下記式(2)または下記式(3)である。また、F(x,x)は、下記式(4)の条件を満たせば、下記式(2)や下記式(3)以外の式であってもよい。
Figure 0007205640000001
Figure 0007205640000002
Figure 0007205640000003
Figure 0007205640000004
(1-7)学習装置100は、第一の復号化データxと生成した第二の復号化データxとの第二の誤差D2を算出する。学習装置100は、例えば、下記式(5)により、第二の誤差D2を算出する。
Figure 0007205640000005
(1-8)学習装置100は、算出した確率分布Pzψ(z)の情報エントロピーRを算出する。情報エントロピーRは、選択情報量であり、特徴データzの発生しにくさを示す。学習装置100は、例えば、下記式(6)により、情報エントロピーRを算出する。
Figure 0007205640000006
(1-9)学習装置100は、算出した第一の誤差D1と、第二の誤差D2と、確率分布の情報エントロピーRとを最小化するように、オートエンコーダー110と、特徴データzの確率分布とを学習する。学習装置100は、例えば、下記式(7)に従って、重み付き和Eを最小化するように、オートエンコーダー110の符号化のパラメータθと、オートエンコーダー110の復号化のパラメータξと、モデルのパラメータψとを学習する。重み付き和Eは、重みλ1を付与した第一の誤差D1と、重みλ2を付与した第二の誤差D2と、確率分布の情報エントロピーRとの和である。
Figure 0007205640000007
これにより、学習装置100は、入力されるデータxの確率密度と、特徴データzの確率密度とに比例傾向が現れるように、入力されるデータxから特徴データzを抽出可能なオートエンコーダー110を学習することができる。このため、学習装置100は、学習したオートエンコーダー110により、データ解析の精度向上を図ることを可能にすることができる。
ここでは、便宜上、オートエンコーダー110を学習するサンプルとなるデータxが1つである場合に着目して説明したが、これに限らない。例えば、学習装置100が、オートエンコーダー110を学習するサンプルとなるデータxのセットに基づいて、オートエンコーダー110を学習する場合があってもよい。この場合、学習装置100は、上記式(7)において、重みλ1を付与した第一の誤差D1の平均値と、重みλ2を付与した第二の誤差D2の平均値と、確率分布の情報エントロピーRの平均値となどを用いることになる。
ここでは、学習装置100において、復号化器112と復号化器114とが、異なる部位により実現されている場合について説明したが、これに限らない。例えば、学習装置100において、復号化器112と復号化器114とが、共通の部位により実現されている場合があってもよい。
(データ解析システム200の一例)
次に、図2を用いて、図1に示した学習装置100を適用した、データ解析システム200の一例について説明する。
図2は、データ解析システム200の一例を示す説明図である。図2において、データ解析システム200は、学習装置100と、1以上の端末装置201とを含む。
データ解析システム200において、学習装置100と端末装置201は、有線または無線のネットワーク210を介して接続される。ネットワーク210は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどである。
学習装置100は、サンプルとなるデータのセットを端末装置201から受信する。学習装置100は、受信したサンプルとなるデータのセットに基づいて、オートエンコーダー110を学習する。学習装置100は、データ解析の処理対象となるデータを端末装置201から受信し、学習したオートエンコーダー110を用いて、データ解析のサービスを端末装置201に提供する。データ解析は、例えば、アノマリー検出である。
学習装置100は、例えば、アノマリー検出の処理対象となるデータを端末装置201から受信する。次に、学習装置100は、学習したオートエンコーダー110を用いて、受信した処理対象となるデータが外れ値データであるか否かを判定する。そして、学習装置100は、受信した処理対象となるデータが外れ値データであるか否かを判定した結果を端末装置201に送信する。学習装置100は、例えば、サーバやPC(Personal Computer)などである。
端末装置201は、学習装置100と通信可能なコンピュータである。端末装置201は、サンプルとなるデータを学習装置100に送信する。端末装置201は、データ解析の処理対象となるデータを学習装置100に送信し、データ解析のサービスを利用する。端末装置201は、例えば、アノマリー検出の処理対象となるデータを学習装置100に送信する。そして、端末装置201は、送信した処理対象となるデータが外れ値データであるか否かを判定した結果を学習装置100から受信する。端末装置201は、例えば、PC、タブレット端末、スマートフォン、または、ウェアラブル端末などである。
ここでは、学習装置100と端末装置201とが異なる装置である場合について説明したが、これに限らない。例えば、学習装置100が、端末装置201としても動作する場合があってもよい。この場合、データ解析システム200は、端末装置201を含まなくてもよい。
ここでは、学習装置100が、サンプルとなるデータのセットを端末装置201から受信する場合について説明したが、これに限らない。例えば、学習装置100が、ユーザの操作入力に基づいて、サンプルとなるデータのセットの入力を受け付ける場合があってもよい。また、例えば、学習装置100が、サンプルとなるデータのセットを、装着された記録媒体から読み出す場合があってもよい。
ここでは、学習装置100が、データ解析の処理対象となるデータを端末装置201から受信する場合について説明したが、これに限らない。例えば、学習装置100が、ユーザの操作入力に基づいて、データ解析の処理対象となるデータの入力を受け付ける場合があってもよい。また、例えば、学習装置100が、データ解析の処理対象となるデータを、装着された記録媒体から読み出す場合があってもよい。
(学習装置100のハードウェア構成例)
次に、図3を用いて、学習装置100のハードウェア構成例について説明する。
図3は、学習装置100のハードウェア構成例を示すブロック図である。図3において、学習装置100は、CPU(Central Processing Unit)301と、メモリ302と、ネットワークI/F(Interface)303と、記録媒体I/F304と、記録媒体305とを有する。また、各構成部は、バス300によってそれぞれ接続される。
ここで、CPU301は、学習装置100の全体の制御を司る。メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることで、コーディングされている処理をCPU301に実行させる。
ネットワークI/F303は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータに接続される。そして、ネットワークI/F303は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークI/F303は、例えば、モデムやLANアダプタなどである。
記録媒体I/F304は、CPU301の制御に従って記録媒体305に対するデータのリード/ライトを制御する。記録媒体I/F304は、例えば、ディスクドライブ、SSD(Solid State Drive)、USB(Universal Serial Bus)ポートなどである。記録媒体305は、記録媒体I/F304の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体305は、例えば、ディスク、半導体メモリ、USBメモリなどである。記録媒体305は、学習装置100から着脱可能であってもよい。
学習装置100は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、学習装置100は、記録媒体I/F304や記録媒体305を複数有していてもよい。また、学習装置100は、記録媒体I/F304や記録媒体305を有していなくてもよい。
(端末装置201のハードウェア構成例)
端末装置201のハードウェア構成例は、図3に示した学習装置100のハードウェア構成例と同様であるため、説明を省略する。
(学習装置100の機能的構成例)
次に、図4を用いて、学習装置100の機能的構成例について説明する。
図4は、学習装置100の機能的構成例を示すブロック図である。学習装置100は、記憶部400と、取得部401と、符号化部402と、生成部403と、復号化部404と、推定部405と、最適化部406と、解析部407と、出力部408とを含む。符号化部402と、復号化部404とは、オートエンコーダー110を形成する。
記憶部400は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域によって実現される。以下では、記憶部400が、学習装置100に含まれる場合について説明するが、これに限らない。例えば、記憶部400が、学習装置100とは異なる装置に含まれ、記憶部400の記憶内容が学習装置100から参照可能である場合があってもよい。
取得部401~出力部408は、制御部の一例として機能する。取得部401~出力部408は、具体的には、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶されたプログラムをCPU301に実行させることにより、または、ネットワークI/F303により、その機能を実現する。各機能部の処理結果は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶される。
記憶部400は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部400は、符号化のパラメータと復号化のパラメータとを記憶する。記憶部400は、例えば、符号化部402で用いられる、符号化にかかるニューラルネットワークを規定するパラメータθを記憶する。記憶部400は、例えば、復号化部404で用いられる、復号化にかかるニューラルネットワークを規定するパラメータξを記憶する。
記憶部400は、確率分布を規定する、学習対象とする更新前のモデルを記憶する。モデルは、例えば、確率密度関数である。モデルは、例えば、混合ガウスモデル(GMM:Gaussian Mixture Model)である。モデルが、混合ガウスモデルである具体例については、図5を用いて、実施例1に後述する。モデルは、確率分布を規定するパラメータψを有する。更新前とは、学習対象となる、モデルの確率分布を規定するパラメータψが、更新前である状態を意味する。また、記憶部400は、各機能部の処理に用いられる各種関数を記憶する。
取得部401は、各機能部の処理に用いられる各種情報を取得する。取得部401は、取得した各種情報を、記憶部400に記憶し、または、各機能部に出力する。また、取得部401は、記憶部400に記憶しておいた各種情報を、各機能部に出力してもよい。取得部401は、ユーザの操作入力に基づき、各種情報を取得してもよい。取得部401は、学習装置100とは異なる装置から、各種情報を受信してもよい。
取得部401は、例えば、各種データの入力を受け付ける。取得部401は、例えば、オートエンコーダー110を学習するサンプルとなる1以上のデータの入力を受け付ける。以下の説明では、オートエンコーダー110を学習するサンプルとなるデータを「標本データ」と表記する場合がある。取得部401は、具体的には、標本データを端末装置201から受信することにより、標本データの入力を受け付ける。取得部401は、具体的には、ユーザの操作入力に基づき、標本データの入力を受け付けてもよい。これにより、取得部401は、標本データのセットを符号化部402や最適化部406などが参照可能にし、オートエンコーダー110を学習可能にすることができる。
取得部401は、例えば、データ解析の処理対象となる1以上のデータの入力を受け付ける。以下の説明では、データ解析の処理対象となるデータを「対象データ」と表記する場合がある。取得部401は、具体的には、対象データを端末装置201から受信することにより、対象データの入力を受け付ける。取得部401は、具体的には、ユーザの操作入力に基づき、対象データの入力を受け付けてもよい。これにより、取得部401は、対象データを符号化部402などが参照可能にし、データ解析を実施可能にすることができる。
取得部401は、いずれかの機能部の処理を開始する開始トリガーを受け付けてもよい。開始トリガーは、学習装置100内で定期的に発生する信号であってもよい。開始トリガーは、例えば、ユーザによる所定の操作入力があったことであってもよい。開始トリガーは、例えば、他のコンピュータから、所定の情報を受信したことであってもよい。開始トリガーは、例えば、いずれかの機能部が所定の情報を出力したことであってもよい。
取得部401は、例えば、サンプルとなる標本データの入力を受け付けたことを、符号化部402~最適化部406の処理を開始する開始トリガーとして受け付ける。これにより、取得部401は、オートエンコーダー110を学習する処理を開始することができる。取得部401は、例えば、対象データの入力を受け付けたことを、符号化部402~解析部407の処理を開始する開始トリガーとして受け付ける。これにより、取得部401は、データ解析を実施する処理を開始することができる。
符号化部402は、各種データを符号化する。符号化部402は、例えば、標本データを符号化する。符号化部402は、具体的には、符号化にかかるニューラルネットワークにより、標本データを符号化して特徴データを生成する。符号化にかかるニューラルネットワークは、入力層のノード数より出力層のノード数が少なく、特徴データは、標本データより次元数が少なくなる。符号化にかかるニューラルネットワークは、例えば、パラメータθによって規定される。これにより、符号化部402は、標本データを符号化して得た特徴データを、推定部405や生成部403や復号化部404が参照可能にすることができる。
また、符号化部402は、例えば、対象データを符号化する。符号化部402は、具体的には、符号化にかかるニューラルネットワークにより、対象データを符号化して特徴データを生成する。これにより、符号化部402は、対象データを符号化して得た特徴データを解析部407などが参照可能にすることができる。
生成部403は、ノイズを生成し、標本データを符号化して得た特徴データにノイズを加算して加算後の特徴データを生成する。ノイズは、特徴データと同じ次元数であり、次元間で互いに無相関であり、かつ、平均が0である分布に基づく一様乱数である。これにより、生成部403は、復号化部404の処理対象とする加算後の特徴データを生成することができる。
復号化部404は、標本データを符号化して得た特徴データを復号化して第一の復号化データを生成する。復号化部404は、例えば、復号化にかかる第一のニューラルネットワークにより、標本データを符号化して得た特徴データを復号化して第一の復号化データを生成する。復号化にかかる第一のニューラルネットワークは、入力層のノード数が出力層のノード数より少なく、第一の復号化データを、標本データと同じ次元数で生成可能であることが好ましい。復号化にかかる第一のニューラルネットワークは、例えば、パラメータξによって規定される。これにより、復号化部404は、オートエンコーダー110を学習する指標となる、第一の復号化データを、最適化部406などが参照可能にすることができる。
また、復号化部404は、加算後の特徴データを復号化して第二の復号化データを生成する。復号化部404は、例えば、復号化にかかる第二のニューラルネットワークにより、加算後の特徴データを復号化して第二の復号化データを生成する。復号化にかかる第二のニューラルネットワークは、入力層のノード数が出力層のノード数より少なく、第二の復号化データを、標本データと同じ次元数で生成可能であることが好ましい。復号化にかかる第二のニューラルネットワークは、例えば、パラメータξによって規定される。第一のニューラルネットワークと、第二のニューラルネットワークとは、例えば、同一のニューラルネットワークである。これにより、復号化部404は、オートエンコーダー110を学習する指標となる、第二の復号化データを、最適化部406などが参照可能にすることができる。
推定部405は、特徴データの確率分布を算出する。推定部405は、例えば、確率分布を規定するモデルに基づいて、標本データを符号化して得た特徴データの確率分布を算出する。推定部405は、具体的には、パラメトリックに、標本データを符号化して得た特徴データの確率分布を算出する。パラメトリックに確率分布を算出する具体例については、例えば、実施例3に後述する。これにより、推定部405は、オートエンコーダー110を学習する指標となる、標本データを符号化して得た特徴データの確率分布を、最適化部406などが参照可能にすることができる。
推定部405は、例えば、第一の復号化データと標本データとの類似度に基づいて、標本データを符号化して得た特徴データの確率分布を算出してもよい。類似度は、例えば、コサイン類似度または相対ユークリッド距離などである。推定部405は、標本データを符号化して得た特徴データに、第一の復号化データと標本データとの類似度を結合してから、結合後の特徴データの確率分布を算出する。第一の復号化データと標本データとの類似度を用いる具体例については、例えば、図6を用いて、実施例2に後述する。これにより、推定部405は、オートエンコーダー110を学習する指標となる、結合後の特徴データの確率分布を、最適化部406などが参照可能にすることができる。
推定部405は、例えば、確率分布を規定するモデルに基づいて、対象データを符号化して得た特徴データの確率分布を算出する。推定部405は、具体的には、パラメトリックに、対象データを符号化して得た特徴データの確率分布を算出する。これにより、推定部405は、データ解析を実施する指標となる、対象データを符号化して得た特徴データの確率分布を、解析部407などが参照可能にすることができる。
最適化部406は、第一の復号化データと標本データとの第一の誤差と、第一の復号化データと第二の復号化データとの第二の誤差と、確率分布の情報エントロピーとを最小化するように、オートエンコーダー110と、特徴データの確率分布とを学習する。
第一の誤差は、微分した結果が所定の条件を満たすように規定された誤差関数に基づいて算出される。第一の誤差は、例えば、第一の復号化データと標本データとの二乗誤差である。第一の誤差は、例えば、第一の復号化データと標本データとの二乗誤差の対数であってもよい。第一の誤差は、例えば、δXをXの任意の微小変異、A(X)をXに依存するN×Nのエルミート行列、L(X)をA(X)のコレスキー分解行列としたとき、第一の復号化データと標本データとの誤差が下記式(8)で近似できるような誤差であってもよい。このような誤差には、例えば、二乗誤差の他に(1-SSIM)がある。また、(1-SSIM)の対数であってもよい。
Figure 0007205640000008
第二の誤差は、例えば、第一の復号化データと第二の復号化データとの二乗誤差である。第二の誤差は、δXをXの任意の微小変異、A(X)をXに依存するN×Nのエルミート行列、L(X)をA(X)のコレスキー分解行列としたとき、第一の復号化データと第二の復号化データが上記式(8)で近似できるような誤差であってもよい。このような誤差には、例えば、二乗誤差の他に(1-SSIM)がある。
最適化部406は、例えば、第一の誤差と、第二の誤差と、情報エントロピーとの重み付き和を最小化するように、オートエンコーダー110と、特徴データの確率分布とを学習する。最適化部406は、具体的には、オートエンコーダー110の符号化のパラメータおよび復号化のパラメータと、モデルのパラメータとを学習する。
符号化のパラメータは、上記符号化にかかるニューラルネットワークのパラメータθである。復号化のパラメータは、上記復号化にかかる第一のニューラルネットワークおよび第二のニューラルネットワークのパラメータξである。モデルのパラメータは、混合ガウスモデルのパラメータψである。混合ガウスモデルのパラメータψを学習する具体例については、例えば、図5を用いて、実施例1に後述する。
これにより、最適化部406は、入力されるデータの確率密度と、特徴データの確率密度とに比例傾向が現れるように、入力されるデータから特徴データを抽出可能なオートエンコーダー110を学習することができる。最適化部406は、例えば、オートエンコーダー110を形成する符号化部402と復号化部404とで用いる、パラメータθとパラメータξとを更新することにより、オートエンコーダー110を学習することができる。
解析部407は、学習したオートエンコーダー110と、学習した特徴データの確率分布とに基づいて、データ解析を実施する。解析部407は、例えば、学習したオートエンコーダー110と、学習したモデルとに基づいて、データ解析を実施する。データ解析は、例えば、アノマリー検出である。解析部407は、例えば、学習したオートエンコーダー110に対応する符号化部402および復号化部404と、学習したモデルとに基づいて、対象データについてのアノマリー検出を実施する。
解析部407は、具体的には、学習したオートエンコーダー110に対応する符号化部402が対象データを符号化して得た特徴データについて、学習したモデルに基づいて推定部405が算出した確率分布を取得する。解析部407は、取得した確率分布に基づいて、対象データについてのアノマリー検出を実施する。これにより、解析部407は、精度よくデータ解析を実施することができる。
出力部408は、いずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークI/F303による外部装置への送信、または、メモリ302や記録媒体305などの記憶領域への記憶である。これにより、出力部408は、いずれかの機能部の処理結果をユーザに通知可能にし、学習装置100の利便性の向上を図ることができる。
出力部408は、具体的には、学習したオートエンコーダー110を実現するための、符号化にかかるパラメータθと、復号化にかかるパラメータξとを出力する。これにより、出力部408は、他のコンピュータで、学習したオートエンコーダー110を利用可能にすることができる。出力部408は、例えば、アノマリー検出を実施した結果を出力する。これにより、出力部408は、他のコンピュータで、アノマリー検出を実施した結果を参照可能にすることができる。
ここでは、学習装置100が、取得部401~出力部408を有する場合について説明したが、これに限らない。例えば、学習装置100とは異なる他のコンピュータが、取得部401~出力部408のいずれかの機能部を有し、学習装置100と他のコンピュータとが協働する場合があってもよい。具体的には、学習装置100が、学習したオートエンコーダー110と学習したモデルとを、解析部407を有する他のコンピュータに送信し、他のコンピュータで、データ解析を実施可能にする場合があってもよい。
(学習装置100の実施例1)
次に、図5を用いて、学習装置100の実施例1について説明する。実施例1において、学習装置100は、潜在空間における特徴データzの確率分布Pzψ(z)を、多次元混合ガウスモデルによって算出する。多次元混合ガウスモデルについては、例えば、上記非特許文献3を参照することができる。
図5は、学習装置100の実施例1を示す説明図である。図5において、学習装置100は、ドメインDから、オートエンコーダー110を学習するサンプルとなるデータxを複数取得する。図5の例では、学習装置100は、N個のデータxのセットを取得する。
(5-1)学習装置100は、データxが取得されるごとに、符号化器501により、データxを符号化して特徴データzを生成する。符号化器501は、パラメータθによって規定されるニューラルネットワークである。
(5-2)学習装置100は、特徴データzが生成されるごとに、特徴データzに対応する、ガウス混合分布のパラメータpを算出する。パラメータpは、ベクトルである。学習装置100は、例えば、特徴データzを入力とし、パラメータψで規定され、ガウス混合分布のパラメータpを推定するEstimation Network p=MLN(z;ψ)により、特徴データzに対応するpを算出する。MLNは、多層ニューラルネットワークである。Estimation Networkについては、例えば、上記非特許文献3を参照することができる。
(5-3)学習装置100は、特徴データzが生成されるごとに、復号化器502により、特徴データzを復号化して第一の復号化データxを生成する。復号化器502は、パラメータξによって規定されるニューラルネットワークである。
(5-4)学習装置100は、特徴データzが生成されるごとに、特徴データzにノイズεを加算して加算後データz+εを生成する。ノイズεは、特徴データzと同じ次元数であり、次元間で互いに無相関であり、かつ、平均が0である分布に基づく一様乱数である。
(5-5)学習装置100は、加算後データz+εが生成されるごとに、復号化器503により、加算後データz+εを復号化して第二の復号化データxを生成する。復号化器503は、パラメータξによって規定されるニューラルネットワークである。便宜上、図中では、復号化器503は、復号化器502とは異なる部位として記載したが、同一の部位であってもよい。
(5-6)学習装置100は、上記式(1)により、第一の復号化データxとデータxとの組み合わせごとに、第一の復号化データxとデータxとの第一の誤差D1を算出する。
(5-7)学習装置100は、上記式(5)により、第一の復号化データxと第二の復号化データxとの組み合わせごとに、第一の復号化データxと第二の復号化データxとの第二の誤差D2を算出する。
(5-8)学習装置100は、N個の特徴データzから算出したN個のパラメータpに基づいて、情報エントロピーRを算出する。情報エントロピーRは、例えば、平均情報量である。学習装置100は、例えば、下記式(9)~下記式(13)により、情報エントロピーRを算出する。ここで、データxの番号iと定義する。i=1,2,・・・,Nである。多次元混合ガウスモデルのコンポーネントkと定義する。k=1,2,・・・,Kである。
学習装置100は、具体的には、下記式(9)により、サンプルの負担率γを算出する。ここで、文中のγは、図中および式中のγの上部に∧を付した記号を示す。
Figure 0007205640000009
次に、学習装置100は、下記式(10)により、ガウス混合分布の混合重みφ を算出する。ここで、文中のφ は、図中および式中のφの上部に∧を付した記号を示す。
Figure 0007205640000010
次に、学習装置100は、下記式(11)により、ガウス混合分布の平均μ を算出する。ここで、文中のμ は、図中および式中のμの上部に∧を付した記号を示す。zは、i番目のデータxを符号化したi番目の符号化データzである。
Figure 0007205640000011
次に、学習装置100は、下記式(12)により、ガウス混合分布の分散共分散行列Σ を算出する。ここで、文中のΣ は、図中および式中のΣの上部に∧を付した記号を示す。
Figure 0007205640000012
そして、学習装置100は、下記式(13)により、情報エントロピーRを算出する。
Figure 0007205640000013
(5-9)学習装置100は、上記式(7)に従って、重み付き和Eを最小化するように、符号化器501のパラメータθと、復号化器502,503のパラメータξと、ガウス混合分布のパラメータψとを学習する。重み付き和Eは、重みλ1を付与した第一の誤差D1と、重みλ2を付与した第二の誤差D2と、情報エントロピーRとの和である。式中の第一の誤差D1および第二の誤差D2には、算出した第一の誤差D1の平均値および算出した第二の誤差D2の平均値などを採用することができる。
これにより、学習装置100は、入力されるデータxの確率密度と、特徴データzの確率密度とに比例傾向が現れるように、入力されるデータxから特徴データzを抽出可能なオートエンコーダー110を学習することができる。このため、学習装置100は、学習したオートエンコーダー110により、データ解析の精度向上を図ることを可能にすることができる。学習装置100は、例えば、アノマリー検出の精度向上を図ることを可能にすることができる。
(学習装置100の実施例2)
次に、図6を用いて、学習装置100の実施例2について説明する。実施例2において、学習装置100は、潜在空間における特徴データzに対する説明変数zを用いる。
図6は、学習装置100の実施例2を示す説明図である。図6において、学習装置100は、ドメインDから、オートエンコーダー110を学習するサンプルとなるデータxを複数取得する。図6の例では、学習装置100は、N個のデータxのセットを取得する。
(6-1)学習装置100は、データxが取得されるごとに、符号化器601により、データxを符号化して特徴データzを生成する。符号化器601は、パラメータθによって規定されるニューラルネットワークである。
(6-2)学習装置100は、特徴データzが生成されるごとに、復号化器602により、特徴データzを復号化して第一の復号化データxを生成する。復号化器602は、パラメータξによって規定されるニューラルネットワークである。
(6-3)学習装置100は、特徴データzが生成されるごとに、特徴データzにノイズεを加算して加算後データz+εを生成する。ノイズεは、特徴データzと同じ次元数であり、次元間で互いに無相関であり、かつ、平均が0である分布に基づく一様乱数である。
(6-4)学習装置100は、加算後データz+εが生成されるごとに、復号化器603により、加算後データz+εを復号化して第二の復号化データxを生成する。復号化器603は、パラメータξによって規定されるニューラルネットワークである。便宜上、図中では、復号化器603は、復号化器602とは異なる部位として記載したが、同一の部位であってもよい。
(6-5)学習装置100は、上記式(1)により、第一の復号化データxとデータxとの組み合わせごとに、第一の復号化データxとデータxとの第一の誤差D1を算出する。
(6-6)学習装置100は、上記式(5)により、第一の復号化データxと第二の復号化データxとの組み合わせごとに、第一の復号化データxと第二の復号化データxとの第二の誤差D2を算出する。
(6-7)学習装置100は、特徴データzが生成されるごとに、特徴データzに説明変数zを結合して結合後データzを生成する。説明変数zは、例えば、コサイン類似度または相対ユークリッド距離などである。説明変数zは、具体的には、コサイン類似度(x・x)/(|x|・|x|)または相対ユークリッド距離(x-x)/|x|などである。
(6-8)学習装置100は、結合後データzが生成されるごとに、Estimation Network p=MLN(z;ψ)により、結合後データzに対応するpを算出する。
(6-9)学習装置100は、上記式(9)~上記式(13)により、N個の結合後データzから算出したN個のパラメータpに基づいて、情報エントロピーRを算出する。情報エントロピーRは、例えば、平均情報量である。
(6-10)学習装置100は、上記式(7)に従って、重み付き和Eを最小化するように、符号化器601のパラメータθと、復号化器602,603のパラメータξと、ガウス混合分布のパラメータψとを学習する。重み付き和Eは、重みλ1を付与した第一の誤差D1と、重みλ2を付与した第二の誤差D2と、情報エントロピーRとの和である。式中の第一の誤差D1および第二の誤差D2には、算出した第一の誤差D1の平均値および算出した第二の誤差D2の平均値などを採用することができる。
これにより、学習装置100は、入力されるデータxの確率密度と、特徴データzの確率密度とに比例傾向が現れるように、入力されるデータxから特徴データzを抽出可能なオートエンコーダー110を学習することができる。また、学習装置100は、特徴データzの次元数が比較的少なくなるように、入力されるデータxから特徴データzを抽出可能なオートエンコーダー110を学習することができる。このため、学習装置100は、学習したオートエンコーダー110により、データ解析について比較的大きな精度向上を図ることを可能にすることができる。学習装置100は、例えば、アノマリー検出について比較的大きな精度向上を図ることを可能にすることができる。
(学習装置100の実施例3)
次に、学習装置100の実施例3について説明する。実施例3において、学習装置100は、zの確率分布Pzψ(z)を独立な分布と仮定し、zの確率分布Pzψ(z)を、パラメトリックな確率密度関数として推定する。zの確率分布Pzψ(z)を、パラメトリックな確率密度関数として推定することについては、例えば、下記非特許文献4を参照することができる。
非特許文献4:Johannes Balle, David Minnen, Saurabh Singh, Sung Jin Hwang, and Nick Johnston, “Variational image compression with a scale hyperprior,” In International Conference on Learning Representations (ICLR), 2018.
これにより、学習装置100は、入力されるデータxの確率密度と、特徴データzの確率密度とに比例傾向が現れるように、入力されるデータxから特徴データzを抽出可能なオートエンコーダー110を学習することができる。このため、学習装置100は、学習したオートエンコーダー110により、データ解析の精度向上を図ることを可能にすることができる。学習装置100は、例えば、アノマリー検出の精度向上を図ることを可能にすることができる。
(学習装置100により得られる効果の一例)
次に、図7を用いて、学習装置100により得られる効果の一例について説明する。
図7は、学習装置100により得られる効果の一例を示す説明図である。図7において、入力とする人工データxを示す。具体的には、図7におけるグラフ700は、人工データxの分布を示すグラフである。
ここで、従来手法のオートエンコーダーαにより、人工データxから特徴データzを抽出した場合の、特徴データzの分布、および人工データxの確率密度p(x)と特徴データzの確率密度p(z)との関係性について示す。
具体的には、図7におけるグラフ710は、従来手法のオートエンコーダーαでの、特徴データzの分布を示すグラフである。また、図7におけるグラフ711は、従来手法のオートエンコーダーαでの、人工データxの確率密度p(x)と特徴データzの確率密度p(z)との関係性を示すグラフである。
グラフ710,711に示すように、従来手法のオートエンコーダーαでは、人工データxの確率密度p(x)と、特徴データzの確率密度p(z)とは、比例することがなく、線形関係が現れない。このため、人工データxの代わりに、従来手法のオートエンコーダーαでの特徴データzを用いても、データ解析の精度向上を図ることは難しくなる。
これに対し、学習装置100によって、上記式(1)および上記式(2)を用いて学習されたオートエンコーダー110-1により、人工データxから特徴データzを抽出した場合について示す。具体的には、この場合における、特徴データzの分布、および人工データxの確率密度p(x)と特徴データzの確率密度p(z)との関係性について示す。
具体的には、図7におけるグラフ720は、オートエンコーダー110-1での、特徴データzの分布を示すグラフである。また、図7におけるグラフ721は、オートエンコーダー110-1での、人工データxの確率密度p(x)と特徴データzの確率密度p(z)との関係性を示すグラフである。
グラフ720,721に示すように、オートエンコーダー110-1によれば、人工データxの確率密度p(x)と、特徴データzの確率密度p(z)とは、比例傾向にあり、線形関係が現れることになる。このため、学習装置100は、人工データxの代わりに、オートエンコーダー110-1での特徴データzを用いて、データ解析の精度向上を図ることを可能にすることができる。また、学習装置100は、上記式(1)および上記式(2)を用いてオートエンコーダー110-1を学習する場合、学習にかかる処理量の増加を抑制することができる。
同様に、学習装置100によって、上記式(1)および上記式(3)を用いて学習されたオートエンコーダー110-2により、人工データxから特徴データzを抽出した場合についても示す。具体的には、この場合における、特徴データzの分布、および人工データxの確率密度p(x)と特徴データzの確率密度p(z)との関係性について示す。
具体的には、図7におけるグラフ730は、オートエンコーダー110-2での、特徴データzの分布を示すグラフである。また、図7におけるグラフ731は、オートエンコーダー110-2での、人工データxの確率密度p(x)と特徴データzの確率密度p(z)との関係性を示すグラフである。
グラフ730,731に示すように、オートエンコーダー110-2によれば、人工データxの確率密度p(x)と、特徴データzの確率密度p(z)とは、比例傾向にあり、線形関係が現れることになる。また、グラフ730,731に示すように、オートエンコーダー110-2によれば、人工データxの確率密度p(x)と、特徴データzの確率密度p(z)とに、線形関係が強く現れやすくすることができる。このため、学習装置100は、人工データxの代わりに、オートエンコーダー110-2での特徴データzを用いて、データ解析の精度向上をより図りやすくすることができる。
(学習処理手順)
次に、図8を用いて、学習装置100が実行する、学習処理手順の一例について説明する。学習処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
図8は、学習処理手順の一例を示すフローチャートである。図8において、学習装置100は、符号化器により入力xを符号化し、潜在変数zを出力する(ステップS801)。次に、学習装置100は、潜在変数zの確率分布を推定する(ステップS802)。そして、学習装置100は、ノイズεを生成する(ステップS803)。
次に、学習装置100は、潜在変数zを復号化器により復号し、xを生成し、潜在変数zにノイズεを加算して得たz+εを復号化器により復号し、xを生成する(ステップS804)。そして、学習装置100は、コストを算出する(ステップS805)。コストは、上述した重み付き和Eである。
次に、学習装置100は、コストが小さくなるように、パラメータθ、ψ、ξを更新する(ステップS806)。そして、学習装置100は、学習が収束したか否かを判定する(ステップS807)。ここで、学習が収束していない場合(ステップS807:No)、学習装置100は、ステップS801の処理に戻る。
一方で、学習が収束している場合(ステップS807:Yes)、学習装置100は、学習処理を終了する。学習の収束は、例えば、更新によるパラメータθ、ψ、ξの変化量が一定以下であることである。これにより、学習装置100は、入力xの確率密度と、潜在変数zの確率密度とに比例傾向が現れるように、入力xから潜在変数zを抽出可能なオートエンコーダー110を学習することができる。
(解析処理手順)
次に、図9を用いて、学習装置100が実行する、解析処理手順の一例について説明する。解析処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
図9は、解析処理手順の一例を示すフローチャートである。図9において、学習装置100は、符号化器により入力xを符号化し、潜在変数zを生成する(ステップS901)。そして、学習装置100は、推定した潜在変数zの確率分布に基づいて、生成した潜在変数zの外れ度を算出する(ステップS902)。
次に、学習装置100は、外れ度が閾値以上であれば、アノマリーとして入力xを出力する(ステップS903)。そして、学習装置100は、解析処理を終了する。これにより、学習装置100は、精度よくアノマリー検出を実施することができる。
ここで、学習装置100は、図8の一部ステップの処理の順序を入れ替えて実行してもよい。例えば、ステップS802,S803の処理の順序は入れ替え可能である。学習装置100は、例えば、学習処理に用いるサンプルとなる入力xを複数受け付けたことに応じて、上記学習処理を実行開始する。学習装置100は、例えば、解析処理の処理対象となる入力xを受け付けたことに応じて、上記解析処理を実行開始する。
以上説明したように、学習装置100によれば、入力されたデータxを符号化することができる。学習装置100によれば、データxを符号化して得た特徴データzの確率分布を算出することができる。学習装置100によれば、特徴データzを復号化して第一の復号化データxを生成することができる。学習装置100によれば、特徴データzにノイズεを加算することができる。学習装置100によれば、ノイズεを加算した特徴データz+εを復号化して第二の復号化データxを生成することができる。学習装置100によれば、生成した第一の復号化データxとデータxとの第一の誤差と、第一の復号化データxと生成した第二の復号化データxとの第二の誤差と、算出した確率分布の情報エントロピーとを算出することができる。学習装置100によれば、第一の誤差と、第二の誤差と、確率分布の情報エントロピーとを最小化するように、オートエンコーダー110と、特徴データzの確率分布とを学習することができる。これにより、学習装置100は、データxの確率密度と、特徴データzの確率密度とに比例傾向が現れるように、データxから特徴データzを抽出可能なオートエンコーダー110を学習することができる。このため、学習装置100は、学習したオートエンコーダー110により、データ解析の精度向上を図ることを可能にすることができる。
学習装置100によれば、確率分布を規定するモデルに基づいて、特徴データzの確率分布を算出することができる。学習装置100によれば、オートエンコーダー110と確率分布を規定するモデルとを学習することができる。これにより、学習装置100は、オートエンコーダー110と確率分布を規定するモデルの最適化を図ることができる。
学習装置100によれば、モデルとして、混合ガウスモデルを採用することができる。学習装置100によれば、オートエンコーダー110の符号化のパラメータおよび復号化のパラメータと、混合ガウスモデルのパラメータとを学習することができる。これにより、学習装置100は、オートエンコーダー110の符号化のパラメータおよび復号化のパラメータと、混合ガウスモデルのパラメータとの最適化を図ることができる。
学習装置100によれば、第一の復号化データxとデータxとの類似度に基づいて、特徴データzの確率分布を算出することができる。これにより、学習装置100は、オートエンコーダー110を学習しやすくすることができる。
学習装置100によれば、パラメトリックに特徴データzの確率分布を算出することができる。これにより、学習装置100は、オートエンコーダー110を学習しやすくすることができる。
学習装置100によれば、ノイズεとして、特徴データzと同じ次元数であり、次元間で互いに無相関であり、かつ、平均が0である分布に基づく一様乱数を採用することができる。これにより、学習装置100は、データxの確率密度と、特徴データzの確率密度とに比例傾向が現れることを保証可能にすることができる。
学習装置100によれば、第一の誤差を、微分した結果が所定の条件を満たすように規定された誤差関数に基づいて算出することができる。これにより、学習装置100は、データxの確率密度と、適切に第一の誤差を算出可能にすることができる。
学習装置100によれば、第一の誤差として、第一の復号化データxとデータxとの二乗誤差を採用することができる。これにより、学習装置100は、第一の誤差を算出する際にかかる処理量の増加を抑制することができる。
学習装置100によれば、第一の誤差として、第一の復号化データxとデータxとの二乗誤差の対数を採用することができる。これにより、学習装置100は、データxの確率密度と、特徴データzの確率密度とに比例傾向が強く現れやすくすることができる。
学習装置100によれば、第二の誤差として、第一の復号化データxと第二の復号化データxとの二乗誤差を採用することができる。これにより、学習装置100は、第二の誤差を算出する際にかかる処理量の増加を抑制することができる。
学習装置100によれば、学習したオートエンコーダー110と、学習した特徴データzの確率分布とに基づいて、入力された新たなデータxについてのアノマリー検出を実施することができる。これにより、学習装置100は、アノマリー検出の精度を向上させることができる。
なお、本実施の形態で説明した学習方法は、予め用意されたプログラムをPCやワークステーションなどのコンピュータで実行することにより実現することができる。本実施の形態で説明した学習プログラムは、コンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。記録媒体は、ハードディスク、フレキシブルディスク、CD(Compact Disc)-ROM、MO、DVD(Digital Versatile Disc)などである。また、本実施の形態で説明した学習プログラムは、インターネットなどのネットワークを介して配布してもよい。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)符号化と復号化を実行するオートエンコーダーの学習方法であって、
入力されたデータを符号化し、
前記データを符号化して得た特徴データの確率分布を算出し、
前記特徴データを復号化して第一の復号化データを生成し、
前記特徴データにノイズを加算し、
前記ノイズを加算した前記特徴データを復号化して第二の復号化データを生成し、
生成した前記第一の復号化データと前記データとの第一の誤差と、前記第一の復号化データと生成した前記第二の復号化データとの第二の誤差と、算出した前記確率分布の情報エントロピーとを最小化するように、前記オートエンコーダーと、前記特徴データの確率分布とを学習する、
処理をコンピュータが実行することを特徴とする学習方法。
(付記2)前記算出する処理は、
確率分布を規定するモデルに基づいて、前記特徴データの確率分布を算出し、
前記学習する処理は、
前記オートエンコーダーと前記モデルとを学習する、ことを特徴とする付記1に記載の学習方法。
(付記3)前記モデルは、混合ガウスモデル(GMM:Gaussian Mixture Model)であり、
前記学習する処理は、
前記オートエンコーダーの符号化のパラメータおよび復号化のパラメータと、前記混合ガウスモデルのパラメータとを学習する、ことを特徴とする付記2に記載の学習方法。
(付記4)前記算出する処理は、
前記第一の復号化データと前記データとの類似度に基づいて、前記特徴データの確率分布を算出する、ことを特徴とする付記1~3のいずれか一つに記載の学習方法。
(付記5)前記算出する処理は、
パラメトリックに前記特徴データの確率分布を算出する、ことを特徴とする付記1~4のいずれか一つに記載の学習方法。
(付記6)前記ノイズは、前記特徴データと同じ次元数であり、次元間で互いに無相関であり、かつ、平均が0である分布に基づく一様乱数である、ことを特徴とする付記1~5のいずれか一つに記載の学習方法。
(付記7)前記第一の誤差は、微分した結果が所定の条件を満たすように規定された誤差関数に基づいて算出される、ことを特徴とする付記1~6のいずれか一つに記載の学習方法。
(付記8)前記第一の誤差は、前記第一の復号化データと前記データとの二乗誤差である、ことを特徴とする付記1~7のいずれか一つに記載の学習方法。
(付記9)前記第一の誤差は、前記第一の復号化データと前記データとの二乗誤差の対数である、ことを特徴とする付記1~8のいずれか一つに記載の学習方法。
(付記10)前記第二の誤差は、前記第一の復号化データと前記第二の復号化データとの二乗誤差である、ことを特徴とする付記1~9のいずれか一つに記載の学習方法。
(付記11)学習した前記オートエンコーダーと、学習した前記特徴データの確率分布とに基づいて、入力された新たなデータについてのアノマリー検出を実施する、
処理を前記コンピュータが実行することを特徴とする付記1~10のいずれか一つに記載の学習方法。
(付記12)符号化と復号化を実行するオートエンコーダーの学習プログラムであって、
入力されたデータを符号化し、
前記データを符号化して得た特徴データの確率分布を算出し、
前記特徴データを復号化して第一の復号化データを生成し、
前記特徴データにノイズを加算し、
前記ノイズを加算した前記特徴データを復号化して第二の復号化データを生成し、
生成した前記第一の復号化データと前記データとの第一の誤差と、前記第一の復号化データと生成した前記第二の復号化データとの第二の誤差と、算出した前記確率分布の情報エントロピーとを最小化するように、前記オートエンコーダーと、前記特徴データの確率分布とを学習する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
(付記13)符号化と復号化を実行するオートエンコーダーの学習装置であって、
入力されたデータを符号化し、
前記データを符号化して得た特徴データの確率分布を算出し、
前記特徴データを復号化して第一の復号化データを生成し、
前記特徴データにノイズを加算し、
前記ノイズを加算した前記特徴データを復号化して第二の復号化データを生成し、
生成した前記第一の復号化データと前記データとの第一の誤差と、前記第一の復号化データと生成した前記第二の復号化データとの第二の誤差と、算出した前記確率分布の情報エントロピーとを最小化するように、前記オートエンコーダーと、前記特徴データの確率分布とを学習する、
制御部を有することを特徴とする学習装置。
100 学習装置
110 オートエンコーダー
111,501,601 符号化器
112,114,502,503,602,603 復号化器
113 雑音生成器
200 データ解析システム
201 端末装置
210 ネットワーク
300 バス
301 CPU
302 メモリ
303 ネットワークI/F
304 記録媒体I/F
305 記録媒体
400 記憶部
401 取得部
402 符号化部
403 生成部
404 復号化部
405 推定部
406 最適化部
407 解析部
408 出力部
700,710,711,720,721,730,731 グラフ

Claims (12)

  1. 符号化と復号化を実行するオートエンコーダーの学習方法であって、
    入力されたデータを符号化し、
    前記データを符号化して得た特徴データの確率分布を算出し、
    前記特徴データを復号化して第一の復号化データを生成し、
    前記特徴データにノイズを加算し、
    前記ノイズを加算した前記特徴データを復号化して第二の復号化データを生成し、
    生成した前記第一の復号化データと前記データとの第一の誤差と、前記第一の復号化データと生成した前記第二の復号化データとの第二の誤差と、算出した前記確率分布の情報エントロピーとを最小化するように、前記オートエンコーダーと、前記特徴データの確率分布とを学習する、
    処理をコンピュータが実行することを特徴とする学習方法。
  2. 前記算出する処理は、
    確率分布を規定するモデルに基づいて、前記特徴データの確率分布を算出し、
    前記学習する処理は、
    前記オートエンコーダーと前記モデルとを学習する、ことを特徴とする請求項1に記載の学習方法。
  3. 前記モデルは、混合ガウスモデル(GMM:Gaussian Mixture Model)であり、
    前記学習する処理は、
    前記オートエンコーダーの符号化のパラメータおよび復号化のパラメータと、前記混合ガウスモデルのパラメータとを学習する、ことを特徴とする請求項2に記載の学習方法。
  4. 前記算出する処理は、
    前記第一の復号化データと前記データとの類似度に基づいて、前記特徴データの確率分布を算出する、ことを特徴とする請求項1~3のいずれか一つに記載の学習方法。
  5. 前記算出する処理は、
    パラメトリックに前記特徴データの確率分布を算出する、ことを特徴とする請求項1~4のいずれか一つに記載の学習方法。
  6. 前記ノイズは、前記特徴データと同じ次元数であり、次元間で互いに無相関であり、かつ、平均が0である分布に基づく一様乱数である、ことを特徴とする請求項1~5のいずれか一つに記載の学習方法。
  7. 前記第一の誤差は、微分した結果が所定の条件を満たすように規定された誤差関数に基づいて算出される、ことを特徴とする請求項1~6のいずれか一つに記載の学習方法。
  8. 前記第一の誤差は、前記第一の復号化データと前記データとの二乗誤差である、ことを特徴とする請求項1~7のいずれか一つに記載の学習方法。
  9. 前記第一の誤差は、前記第一の復号化データと前記データとの二乗誤差の対数である、ことを特徴とする請求項1~8のいずれか一つに記載の学習方法。
  10. 前記第二の誤差は、前記第一の復号化データと前記第二の復号化データとの二乗誤差である、ことを特徴とする請求項1~9のいずれか一つに記載の学習方法。
  11. 符号化と復号化を実行するオートエンコーダーの学習プログラムであって、
    入力されたデータを符号化し、
    前記データを符号化して得た特徴データの確率分布を算出し、
    前記特徴データを復号化して第一の復号化データを生成し、
    前記特徴データにノイズを加算し、
    前記ノイズを加算した前記特徴データを復号化して第二の復号化データを生成し、
    生成した前記第一の復号化データと前記データとの第一の誤差と、前記第一の復号化データと生成した前記第二の復号化データとの第二の誤差と、算出した前記確率分布の情報エントロピーとを最小化するように、前記オートエンコーダーと、前記特徴データの確率分布とを学習する、
    処理をコンピュータに実行させることを特徴とする学習プログラム。
  12. 符号化と復号化を実行するオートエンコーダーの学習装置であって、
    入力されたデータを符号化し、
    前記データを符号化して得た特徴データの確率分布を算出し、
    前記特徴データを復号化して第一の復号化データを生成し、
    前記特徴データにノイズを加算し、
    前記ノイズを加算した前記特徴データを復号化して第二の復号化データを生成し、
    生成した前記第一の復号化データと前記データとの第一の誤差と、前記第一の復号化データと生成した前記第二の復号化データとの第二の誤差と、算出した前記確率分布の情報エントロピーとを最小化するように、前記オートエンコーダーと、前記特徴データの確率分布とを学習する、
    制御部を有することを特徴とする学習装置。
JP2021548017A 2019-09-24 2019-09-24 学習方法、学習プログラム、および学習装置 Active JP7205640B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/037370 WO2021059348A1 (ja) 2019-09-24 2019-09-24 学習方法、学習プログラム、および学習装置

Publications (3)

Publication Number Publication Date
JPWO2021059348A1 JPWO2021059348A1 (ja) 2021-04-01
JPWO2021059348A5 JPWO2021059348A5 (ja) 2022-02-09
JP7205640B2 true JP7205640B2 (ja) 2023-01-17

Family

ID=75165170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021548017A Active JP7205640B2 (ja) 2019-09-24 2019-09-24 学習方法、学習プログラム、および学習装置

Country Status (3)

Country Link
US (1) US20220207371A1 (ja)
JP (1) JP7205640B2 (ja)
WO (1) WO2021059348A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240232624A1 (en) 2021-05-17 2024-07-11 Nippon Telegraph And Telephone Corporation Neural network learning apparatus, neural network learning method, and program
WO2023166688A1 (ja) * 2022-03-04 2023-09-07 富士通株式会社 機械学習プログラム,情報処理装置及び機械学習方法
WO2024089770A1 (ja) * 2022-10-25 2024-05-02 富士通株式会社 情報処理プログラム、装置、及び方法
CN117116350B (zh) * 2023-10-25 2024-02-27 中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心) Rna测序数据的校正方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019140680A (ja) 2018-02-09 2019-08-22 株式会社Preferred Networks オートエンコーダ装置、データ処理システム、データ処理方法及びプログラム
JP2019159823A (ja) 2018-03-13 2019-09-19 富士通株式会社 学習プログラム、学習方法および学習装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019140680A (ja) 2018-02-09 2019-08-22 株式会社Preferred Networks オートエンコーダ装置、データ処理システム、データ処理方法及びプログラム
JP2019159823A (ja) 2018-03-13 2019-09-19 富士通株式会社 学習プログラム、学習方法および学習装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
尾亦 範泰,"オートエンコーダによる低次元化と可視化",可視化情報学会誌,日本,一般社団法人可視化情報学会,2018年10月01日,第38巻第151号,pp. 9-13,第9 頁右欄第20 行目-第10 頁左欄第36 行目の"2.オートエンコーダ 概観"、第11 頁左欄第28-44 行目の"3.2 デノイジングオートエンコーダ"、 第11 頁右欄第6-25 行目の"3.4 変分オートエンコーダ"参照
野崎 俊貴,"スパース推定に基づく適応正則化オンライン学習の特徴選択問題",計算機統計学,日本,日本計算機統計学会,2017年02月11日,第29巻第2号,pp. 117-131,特に、第125頁第3-29行目参照

Also Published As

Publication number Publication date
WO2021059348A1 (ja) 2021-04-01
JPWO2021059348A1 (ja) 2021-04-01
US20220207371A1 (en) 2022-06-30

Similar Documents

Publication Publication Date Title
JP7205640B2 (ja) 学習方法、学習プログラム、および学習装置
CN108304390B (zh) 基于翻译模型的训练方法、训练装置、翻译方法及存储介质
JP6599294B2 (ja) 異常検知装置、学習装置、異常検知方法、学習方法、異常検知プログラム、および学習プログラム
JP7424078B2 (ja) 画像エンコーディング方法及び装置並びに画像デコーディング方法及び装置
Hsu et al. Unsupervised learning of disentangled and interpretable representations from sequential data
JPWO2021059348A5 (ja)
De'Ath Boosted trees for ecological modeling and prediction
Tokdar et al. Simultaneous linear quantile regression: a semiparametric Bayesian approach
CN108804526B (zh) 兴趣确定系统、兴趣确定方法及存储介质
CN111930914B (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
KR20170030923A (ko) 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
CN113961967B (zh) 基于隐私保护联合训练自然语言处理模型的方法及装置
Ntalampiras et al. Acoustic detection of unknown bird species and individuals
JP7205641B2 (ja) 学習方法、学習プログラム、および学習装置
WO2019116352A1 (en) Scalable parameter encoding of artificial neural networks obtained via an evolutionary process
Tokdar et al. Simultaneous linear quantile regression: A semiparametric bayesian approach
KR102697095B1 (ko) Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램
CN113597620A (zh) 使用神经网络的压缩感测
Kinsner Is entropy suitable to characterize data and signals for cognitive informatics?
CN115759482A (zh) 一种社交媒体内容传播预测方法和装置
JPWO2021059349A5 (ja)
JP2019079102A (ja) 学習装置、生成装置、分類装置、学習方法、学習プログラム、および動作プログラム
US11886233B2 (en) Architecture for generating QA pairs from contexts
Ahmed et al. Genetic algorithm based framework for optimized sensing matrix design in compressed sensing
Zhu et al. A hybrid model for nonlinear regression with missing data using quasilinear kernel

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221212

R150 Certificate of patent or registration of utility model

Ref document number: 7205640

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150