JP6950701B2 - モデル推定装置、モデル推定方法およびモデル推定プログラム - Google Patents

モデル推定装置、モデル推定方法およびモデル推定プログラム Download PDF

Info

Publication number
JP6950701B2
JP6950701B2 JP2018543764A JP2018543764A JP6950701B2 JP 6950701 B2 JP6950701 B2 JP 6950701B2 JP 2018543764 A JP2018543764 A JP 2018543764A JP 2018543764 A JP2018543764 A JP 2018543764A JP 6950701 B2 JP6950701 B2 JP 6950701B2
Authority
JP
Japan
Prior art keywords
node
model
parameters
neural network
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018543764A
Other languages
English (en)
Other versions
JPWO2018066237A1 (ja
Inventor
優輔 村岡
優輔 村岡
遼平 藤巻
遼平 藤巻
ジャオ ソン
ジャオ ソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2018066237A1 publication Critical patent/JPWO2018066237A1/ja
Application granted granted Critical
Publication of JP6950701B2 publication Critical patent/JP6950701B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Biophysics (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)

Description

本発明は、ニューラルネットワークのモデルを推定するモデル推定装置、モデル推定方法およびモデル推定プログラムに関する。
ニューラルネットワークのモデルは、ある出力vを表現するため、各層に存在するノードを層間でそれぞれ相互作用があるように繋げたモデルである。図5は、ニューラルネットワークのモデルを示す説明図である。
図5では、ノードzが丸で表され、横列に並んだノードの集合が各層を表わしている。また、最下層のv、・・・、vが出力(可視素子)を示し、最下層より上のl層(図5では、l=2)がJ個の素子を有する隠れ層を示している。ニューラルネットワークでは、ノードおよび層は、隠れ変数を定義するために用いられる。
非特許文献1には、ニューラルネットワークモデルを学習する方法の一例が記載されている。非特許文献1に記載された方法では、層の数およびノードの数を予め定めておき、モデルの学習を変分ベイズ推定で行うことで、モデルを表わすパラメータを適切に推定する。
なお、混合モデルを推定する方法の一例が、特許文献1に記載されている。特許文献1に記載された方法では、データの混合モデル推定のターゲットとなる確率変数に対する隠れ変数の変分確率が計算される。そして、計算された隠れ変数の変分確率を用いて、混合モデルのコンポーネントごとに分離されたモデル事後確率の下限が最大となるようにコンポーネントの種類及びそのパラメータを最適化することで、最適な混合モデルが推定される。
国際公開第2012/128207号
D. P. and Welling, M., "Auto-encoding variational Bayes", arXiv preprint arXiv:1312.6114, 2013.
ニューラルネットワークのモデルの性能は、ノードの数および層の数に依存することが知られている。非特許文献1に記載された方法でモデルを推定する場合、ノードの数および層の数を事前に決めておく必要があるため、これらの値を適切にチューニングしなければならないという問題があった。
そこで、本発明は、理論的正当性を失うことなく、層の数およびノードの数を自動で設定してニューラルネットワークのモデルを推定できるモデル推定装置、モデル推定方法およびモデル推定プログラムを提供することを目的とする。
本発明によるモデル推定装置は、ニューラルネットワークモデルを推定するモデル推定装置であって、推定されるニューラルネットワークモデルにおける観測値データおよび隠れ層のノードに関する対数周辺化尤度の下限を最大化するそのニューラルネットワークモデルのパラメータを推定するパラメータ推定部と、対数周辺化尤度の下限を最大化するノードの変分確率のパラメータを推定する変分確率推定部と、パラメータが推定された変分確率に基づいて削除対象のノードを判定し、削除対象に該当すると判定されたノードを削除するノード削除判定部と、変分確率の変化に基づいて、ニューラルネットワークモデルの収束性を判定する収束判定部とを備え、収束判定部によってニューラルネットワークモデルが収束したと判定されるまで、パラメータ推定部によるパラメータの推定、変分確率推定部による変分確率のパラメータの推定およびノード削除判定部による該当するノードの削除を繰り返すことを特徴とする。
本発明によるモデル推定方法は、ニューラルネットワークモデルを推定するモデル推定方法であって、推定されるニューラルネットワークモデルにおける観測値データおよび隠れ層のノードに関する対数周辺化尤度の下限を最大化するそのニューラルネットワークモデルのパラメータを推定し、対数周辺化尤度の下限を最大化するノードの変分確率のパラメータを推定し、パラメータが推定された変分確率に基づいて削除対象のノードを判定し、削除対象に該当すると判定されたノードを削除し、変分確率の変化に基づいて、ニューラルネットワークモデルの収束性を判定し、ニューラルネットワークモデルが収束したと判定されるまで、パラメータの推定、変分確率のパラメータの推定および該当するノードの削除を繰り返すことを特徴とする。
本発明によるモデル推定プログラムは、ニューラルネットワークモデルを推定するコンピュータに適用されるモデル推定プログラムであって、コンピュータに、推定されるニューラルネットワークモデルにおける観測値データおよび隠れ層のノードに関する対数周辺化尤度の下限を最大化するそのニューラルネットワークモデルのパラメータを推定するパラメータ推定処理、対数周辺化尤度の下限を最大化するノードの変分確率のパラメータを推定する変分確率推定処理、パラメータが推定された変分確率に基づいて削除対象のノードを判定し、削除対象に該当すると判定されたノードを削除するノード削除判定処理、および、変分確率の変化に基づいて、ニューラルネットワークモデルの収束性を判定する収束判定処理を実行させ、収束判定処理でニューラルネットワークモデルが収束したと判定されるまで、パラメータ推定処理、変分確率推定処理およびノード削除判定処理を繰り返させることを特徴とする。
本発明によれば、理論的正当性を失うことなく、層の数およびノードの数を自動で設定してニューラルネットワークのモデルを推定できる。
本発明によるモデル推定装置の一実施形態を示すブロック図である。 モデル推定装置の動作例を示すフローチャートである。 本発明によるモデル推定装置の概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。 ニューラルネットワークのモデルを示す説明図である。
以下、本発明の実施形態を図面を参照して説明する。
以下、図5に例示するニューラルネットワークを適宜参照しながら、本発明の内容を説明する。図5に例示するような、M個の可視素子およびJ個(lは、l番目の隠れ層)の素子を有するSBN(sigmoid belief network)の場合、異なる層間の確率的関係は、以下に例示する式1から式3で表すことができる。
Figure 0006950701
式1から式3において、σ(x)=1/1+exp(−x)は、シグモイド関数を表わす。また、z (l)は、l番目の隠れ層におけるi番目の2値素子を表わし、z (l)∈{0,1}である。また、vは、可視層におけるi番目の入力であり、
Figure 0006950701

である。また、W(l)は、l層とl−1層との間の重み行列を表わし、
Figure 0006950701

である。なお、以下の説明では、表記を単純にするため、M=Jで表す。また、bは、最上位層のバイアスであり、
Figure 0006950701

である。また、c(l)は、残りの層におけるバイアスに対応し、
Figure 0006950701

である。
本実施形態では、SBNにおけるモデル選択問題に、FAB(factorized Asymptotic Bayesian)推論を適用し、SBNにおける隠れ素子の数を自動的に決定する。FAB推論は、同時尤度のラプラス近似に基づいて導かれるFIC(因子化情報量基準:Factorized Information Criterion)の下限を最大化することによりモデル選択問題を解決するものである。
まず初めに、与えられたモデルMに対し、vとzの対数尤度を以下の式4で表す。なお、式4において、θ={W,b,c}と表記する。
Figure 0006950701
ここでは、説明を容易にするため、1層の隠れ層を想定しているが、多層の場合にも容易に拡張可能である。上記式4にラプラス法を適用すると、以下の式5に例示する近似式が導出される。
Figure 0006950701
式5において、Dθは、θの次元を表わし、θハット(θに上付き^)は、θの最大尤度(ML:maximum-likelihood)評価を表わす。また、Ψは、Wi・およびci・に関する対数尤度の二階微分行列を表わす。
以下の参考文献1および参考文献2によれば、上記式5において、定数項を漸近的に無視することが可能なため、logΨを以下の式6のように近似可能である。本明細書では、以下に記載する参考文献1を参照して引用する。
<参考文献1>
国際公開第2014/188659号
<参考文献2>
特表2016−520220号公報
Figure 0006950701
これらに基づき、SBNにおけるFICを、以下の式7のように定義できる。
Figure 0006950701
対数関数の凹性から、以下の式8により、式7におけるFICの下限を得ることが可能である。
Figure 0006950701
FICの導出後にモデルパラメータの推定およびモデル選択を行う方法の一つとして、平均場変分ベイズ(mean-field variational Bayesian(VB))を使用する方法が挙げられる。ただし、平均場VBは、隠れ変数間の独立を想定しているため、SBNには使用できない。そこで、VBにおいて、モンテカルロサンプルを用いて扱いにくい変分オブジェクトを近似し、ノイズのある勾配において分散を減少させる確率的最適化を利用する。
NVIL(neural variational inference and learning )アルゴリズムにより、vをzにマップする認識ネットワーク(recognition network )を用いて、変分分布の仮定のもと、上記式7の変分確率qを、以下の式9のようにモデル化できる。なお、表記を単純にするため、v=z(0)、J=Mとする。NVILアルゴリズムは、例えば、以下の参考文献3に記載されている。
<参考文献3>
Mnih, A. and Gregor, K., "Neural variational inference and learning in belief networks", ICML, JMLR: W&CP vol.32, pp.1791-1799, 2014
Figure 0006950701
式9において、φ(l)はl層における認識ネットワークの重み行列であり、以下の性質を有する。
Figure 0006950701
SBNにおいて生成されるモデルおよび認識ネットワークを学習するため、通常、確率的勾配上昇法が使用される。上記の式8および式9における認識モデルのパラメトリック方程式から、目的関数fを、以下の式10のように表すことができる。
Figure 0006950701
以上に基づいて、本発明によるモデル推定装置の処理を説明する。図1は、本発明によるモデル推定装置の一実施形態を示すブロック図である。本実施形態のモデル推定装置100は、初期値設定部10と、パラメータ推定部20と、変分確率推定部30と、ノード削除判定部40と、収束判定部50と、記憶部60を備えている。
初期値設定部10は、ニューラルネットワークのモデルを推定する際に用いる各種パラメータを初期化する。具体的には、初期値設定部10は、観測値データ、初期ノード数および初期層数を入力し、変分確率およびパラメータを出力する。初期値設定部10は、設定された変分確率およびパラメータを記憶部60に記憶する。
ここで出力されるパラメータは、ニューラルネットワークモデルで用いられるパラメータである。ニューラルネットワークモデルは、観測値vの確率がどのように決まるか表現するものであり、モデルのパラメータは、層間の相互作用や、観測値の層と隠れ変数の層との関係を表わすために使われる。
上記式1〜3が、ニューラルネットワークモデルを表わした式であり、式1〜3の場合、b(具体的には、W,c,b)がパラメータである。また、式1〜3の場合、観測値データがvに対応し、初期ノード数がJの初期値に対応し、初期層数がLに対応する。初期値設定部10は、これらの初期値に大きめの値を設定する。以降、初期ノード数および初期層数を徐々に小さくしていく処理が行われる。
また、本実施形態では、ニューラルネットワークモデルを推定する際、上記パラメータの推定と、隠れ変数ノードが1になる確率の推定とが繰り返される。変分確率は、この隠れ変数ノードが1になる確率を表わし、例えば、上記式9で表すことができる。変分確率が式9で表される場合、初期値設定部10は、qの分布のパラメータφについて初期化した結果を出力する。
パラメータ推定部20は、ニューラルネットワークモデルのパラメータを推定する。具体的には、パラメータ推定部20は、観測値データ、パラメータ、および変分確率に基づいて、対数周辺化尤度の下限を最大化するニューラルネットワークモデルのパラメータを求める。ニューラルネットワークモデルのパラメータを求めるために用いられるパラメータとは、初期値設定部10により初期化されたニューラルネットワークモデルのパラメータ、または、後述の処理で更新されたニューラルネットワークモデルのパラメータである。周辺化尤度の下限を最大化する式は、上記の例では、式8で表される。式8について、ニューラルネットワークモデルのパラメータWに関して周辺化尤度の下限を最大化する集合はいくつか存在するが、パラメータ推定部20は、例えば、勾配法を用いてパラメータを求めてもよい。
勾配法を用いる場合、パラメータ推定部20は、生成されるモデルのl番目のレベルの重み行列(すなわち、W(l))について、i番目の行の勾配を、以下の式11で算出する。
Figure 0006950701
なお、式11における期待値は評価が難しいため、パラメータ推定部20は、変分分布から生成されるサンプルを用いたモンテカルロ積分を使うことによって、期待値を近似する。
パラメータ推定部20は、求めたパラメータを用いて元のパラメータを更新する。具体的には、パラメータ推定部20は、記憶部60に記憶されたパラメータを求めたパラメータで更新する。上記例の場合、パラメータ推定部20は、勾配を算出した後、標準的な勾配上昇アルゴリズムを使用して、パラメータを更新する。パラメータ推定部20は、例えば、以下の式12に基づいてパラメータを更新する。なお、τは、生成するモデルの学習係数である。
Figure 0006950701
変分確率推定部30は、変分確率のパラメータを推定する。具体的には、変分確率推定部30は、観測値データ、パラメータ、および変分確率に基づいて、対数周辺化尤度の下限を最大化する変分確率のパラメータを推定する。変分確率のパラメータを求めるために用いられるパラメータとは、初期値設定部10により初期化された変分確率のパラメータまたは後述の処理で更新された変分確率のパラメータ、および、ニューラルネットワークモデルのパラメータである。
パラメータ推定部20で説明した内容と同様に、周辺化尤度の下限を最大化する式は、上記の例では、式8で表される。変分確率推定部30は、パラメータ推定部20と同様、変分確率のパラメータφに関して周辺化尤度の下限を最大化するように、勾配法を用いて変分確率のパラメータを推定してもよい。
勾配法を用いる場合、変分確率推定部30は、認識ネットワークのl番目のレベルの重み行列(すなわち、φi・ (l))について、i番目の行の勾配を、以下の式13で算出する。
Figure 0006950701
なお、式13における期待値は、式11における期待値と同様に評価が難しいため、変分確率推定部30は、変分分布から生成されるサンプルを用いたモンテカルロ積分を使うことによって、期待値を近似する。
変分確率推定部30は、推定した変分確率のパラメータを用いて元の変分確率のパラメータを更新する。具体的には、変分確率推定部30は、記憶部60に記憶された変分確率のパラメータを、求めた変分確率のパラメータで更新する。上記例の場合、変分確率推定部30は、勾配を算出した後、標準的な勾配上昇アルゴリズムを使用して、変分確率のパラメータを更新する。変分確率推定部30は、例えば、以下の式14に基づいてパラメータを更新する。なお、τφは、認識ネットワークの学習係数である。
Figure 0006950701
ノード削除判定部40は、変分確率推定部30によりパラメータが推定された変分確率に基づいて、ニューラルネットワークモデルのノードを削除するか否か判定する。具体的には、ノード削除判定部40は、各層のノードについて算出した変分確率の和が閾値以下の場合、削除対象のノードと判定し、そのノードを削除する。l層のk番目のノードについて削除対象のノードか否か判定する式は、例えば、以下の式15で表される。
Figure 0006950701
このように、ノード削除判定部40が推定された変分確率に基づいてノードを削除するか否か判定するため、計算負荷の小さい、コンパクトなニューラルネットワークモデルを推定することが可能になる。
収束判定部50は、変分確率の変化に基づいて、ニューラルネットワークモデルの収束性を判定する。具体的には、収束判定部50は、求めたパラメータおよび推定された変分確率が最適化基準を満たしているか判定する。
パラメータ推定部20および変分確率推定部30によって各パラメータが更新される。そこで、収束判定部50は、例えば、変分確率の更新幅が閾値より小さい場合や、対数周辺化尤度の下限の値の変化が小さい場合、モデルの推定処理が収束していると判定し、処理を終了する。一方、収束していないと判定された場合、パラメータ推定部20による処理および変分確率推定部30の処理が行われ、ノード削除判定部40までの一連の処理が繰り返される。最適化基準は、ユーザ等により予め定められ、記憶部60に記憶される。
初期値設定部10と、パラメータ推定部20と、変分確率推定部30と、ノード削除判定部40と、収束判定部50とは、プログラム(モデル推定プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、記憶部60に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、初期値設定部10、パラメータ推定部20、変分確率推定部30、ノード削除判定部40および収束判定部50として動作してもよい。
また、初期値設定部10と、パラメータ推定部20と、変分確率推定部30と、ノード削除判定部40と、収束判定部50とは、それぞれが専用のハードウェアで実現されていてもよい。また、記憶部60は、例えば、磁気ディスク等により実現される。
次に、本実施形態のモデル推定装置の動作を説明する。図2は、本実施形態のモデル推定装置の動作例を示すフローチャートである。
モデル推定装置100は、推定処理に用いるデータとして、観測値データ、初期ノード数、初期層数および最適化基準の入力を受け付ける(ステップS11)。初期値設定部10は、入力された観測値データ、初期ノード数および初期層数をもとに、変分確率およびパラメータを設定する(ステップS12)。
パラメータ推定部20は、観測値データおよび設定されたパラメータ並びに変分確率をもとに、対数周辺化尤度の下限を最大化するニューラルネットワークのパラメータを推定する(ステップS13)。また、変分確率推定部30は、観測値データおよび設定されたパラメータ並びに変分確率をもとに、対数周辺化尤度の下限を最大化するように変分確率のパラメータを推定する(ステップS14)。
ノード削除判定部40は、推定された変分確率に基づいて、各ノードをモデルから削除するか否か判定し(ステップS15)、所定の条件を満たす(該当する)ノードを削除する(ステップS16)。
収束判定部50は、求めたパラメータおよび推定した変分確率が最適化基準を満たしているか否か判定する(ステップS17)。最適化基準が満たされていると判定された場合(ステップS17におけるYes)、処理を終了する。一方、最適化基準が満たされていないと判定された場合(ステップS17におけるNo)、ステップS13から処理が繰り返される。
なお、図2では、初期値設定部10による処理の後、パラメータ推定部20による処理が行われ、その後で変分確率推定部30による処理およびノード削除判定部40による処理が行われる動作を例示した。ただし、処理の順序は、図2に例示する方法に限られない。初期値設定部10による処理の後、変分確率推定部30による処理およびノード削除判定部40による処理が行われ、その後で、パラメータ推定部20による処理が行われてもよい。すなわち、ステップS12の処理の後で、ステップS14およびステップS15の処理が行われ、その後で、ステップS12の処理が行われてもよい。そして、ステップS15の処理で最適化基準が満たされていないと判定された場合、ステップS14から処理が繰り返されてもよい。
以上のように、本実施形態では、パラメータ推定部20が、vおよびzに関する対数周辺化尤度の下限を最大化するニューラルネットワークモデルのパラメータを推定し、変分確率推定部30も、対数周辺化尤度の下限を最大化するように、ノードの変分確率のパラメータを推定する。ノード削除判定部40は、推定された変分確率に基づいて削除対象のノードを判定し、該当すると判定されたノードを削除する。収束判定部50は、変分確率の変化に基づいて、ニューラルネットワークモデルの収束性を判定する。
そして、収束判定部50によってニューラルネットワークモデルが収束したと判定されるまで、ニューラルネットワークのパラメータの推定処理、変分確率のパラメータの推定処理および該当するノードの削除処理が繰り返される。よって、理論的正当性を失うことなく、層の数およびノードの数を自動で設定してニューラルネットワークのモデルを推定できる。
なお、層の数を増やして過学習を防ぐようなモデルを作成することも一方で可能である。しかし、このようなモデルを作成する場合、計算等に時間がかかり、多くのメモリが必要になる。本実施形態では、層の数を減少させるようにモデルを推定するため、過学習を防ぎつつ、計算負荷の小さいモデルを推定できる。
次に、本発明の概要を説明する。図3は、本発明によるモデル推定装置の概要を示すブロック図である。本発明によるモデル推定装置は、ニューラルネットワークモデルを推定するモデル推定装置80(例えば、モデル推定装置100)であって、推定されるニューラルネットワークモデル(例えば、M)における観測値データ(例えば、可視素子v)および隠れ層のノード(例えば、ノードz)に関する対数周辺化尤度の下限を最大化するニューラルネットワークモデルのパラメータ(例えば、式8におけるθ)を推定するパラメータ推定部81(例えば、パラメータ推定部20)と、対数周辺化尤度の下限を最大化するノードの変分確率のパラメータ(例えば、式9におけるφ)を推定する変分確率推定部82(例えば、変分確率推定部30)と、パラメータが推定された変分確率に基づいて削除対象のノードを判定し、削除対象に該当すると判定されたノードを削除するノード削除判定部83(例えば、ノード削除判定部40)と、変分確率の変化(例えば、最適化基準)に基づいて、ニューラルネットワークモデルの収束性を判定する収束判定部84(例えば、収束判定部50)とを備えている。
そして、収束判定部84によってニューラルネットワークモデルが収束したと判定されるまで、パラメータ推定部81によるパラメータの推定、変分確率推定部82による変分確率のパラメータの推定およびノード削除判定部83による該当するノードの削除を繰り返す。
そのような構成により、理論的正当性を失うことなく、層の数およびノードの数を自動で設定してニューラルネットワークのモデルを推定できる。
また、ノード削除判定部83は、変分確率の和が予め定めた閾値以下のノードを削除対象のノードと判定してもよい。
また、パラメータ推定部81は、観測値データ、パラメータ、および変分確率に基づいて、対数周辺化尤度の下限を最大化するニューラルネットワークモデルのパラメータを推定してもよい。そして、パラメータ推定部81は、推定したパラメータを用いて元のパラメータを更新してもよい。
また、変分確率推定部82は、観測値データ、パラメータ、および変分確率に基づいて、対数周辺化尤度の下限を最大化する変分確率のパラメータを推定してもよい。そして、変分確率推定部82は、推定したパラメータを用いて元のパラメータを更新してもよい。
具体的には、パラメータ推定部81は、ラプラス法に基づいて対数周辺化尤度を近似し、近似した対数周辺化尤度の下限を最大化するパラメータを推定してもよい。そして、変分確率推定部82は、対数周辺化尤度の下限を最大化するように変分確率のパラメータを変分分布の仮定の元で推定してもよい。
図4は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、CPU1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備えている。
上述のモデル推定装置は、それぞれコンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(モデル推定プログラム)の形式で補助記憶装置1003に記憶されている。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行しても良い。
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であっても良い。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)ニューラルネットワークモデルを推定するモデル推定装置であって、推定されるニューラルネットワークモデルにおける観測値データおよび隠れ層のノードに関する対数周辺化尤度の下限を最大化する当該ニューラルネットワークモデルのパラメータを推定するパラメータ推定部と、前記対数周辺化尤度の下限を最大化する前記ノードの変分確率のパラメータを推定する変分確率推定部と、パラメータが推定された変分確率に基づいて削除対象のノードを判定し、削除対象に該当すると判定されたノードを削除するノード削除判定部と、前記変分確率の変化に基づいて、前記ニューラルネットワークモデルの収束性を判定する収束判定部とを備え、前記収束判定部によって前記ニューラルネットワークモデルが収束したと判定されるまで、前記パラメータ推定部による前記パラメータの推定、前記変分確率推定部による前記変分確率のパラメータの推定および前記ノード削除判定部による該当するノードの削除を繰り返すことを特徴とするモデル推定装置。
(付記2)ノード削除判定部は、変分確率の和が予め定めた閾値以下のノードを削除対象のノードと判定する付記1記載のモデル推定装置。
(付記3)パラメータ推定部は、観測値データ、パラメータ、および変分確率に基づいて、対数周辺化尤度の下限を最大化するニューラルネットワークモデルのパラメータを推定する付記1または付記2記載のモデル推定装置。
(付記4)パラメータ推定部は、推定したパラメータを用いて元のパラメータを更新する付記3記載のモデル推定装置。
(付記5)変分確率推定部は、観測値データ、パラメータ、および変分確率に基づいて、対数周辺化尤度の下限を最大化する変分確率のパラメータを推定する付記1から付記4のうちのいずれか1つに記載のモデル推定装置。
(付記6)変分確率推定部は、推定したパラメータを用いて元のパラメータを更新する付記5記載のモデル推定装置。
(付記7)パラメータ推定部は、ラプラス法に基づいて対数周辺化尤度を近似し、近似した対数周辺化尤度の下限を最大化するパラメータを推定し、変分確率推定部は、前記対数周辺化尤度の下限を最大化するように変分確率のパラメータを変分分布の仮定の元で推定する付記1から付記6のうちのいずれか1つに記載のモデル推定装置。
(付記8)ニューラルネットワークモデルを推定するモデル推定方法であって、推定されるニューラルネットワークモデルにおける観測値データおよび隠れ層のノードに関する対数周辺化尤度の下限を最大化する当該ニューラルネットワークモデルのパラメータを推定し、前記対数周辺化尤度の下限を最大化する前記ノードの変分確率のパラメータを推定し、パラメータが推定された変分確率に基づいて削除対象のノードを判定し、削除対象に該当すると判定されたノードを削除し、前記変分確率の変化に基づいて、前記ニューラルネットワークモデルの収束性を判定し、前記ニューラルネットワークモデルが収束したと判定されるまで、前記パラメータの推定、前記変分確率のパラメータの推定および該当するノードの削除を繰り返すことを特徴とするモデル推定方法。
(付記9)変分確率の和が予め定めた閾値以下のノードを削除対象のノードと判定する付記8記載のモデル推定方法。
(付記10)ニューラルネットワークモデルを推定するコンピュータに適用されるモデル推定プログラムであって、前記コンピュータに、推定されるニューラルネットワークモデルにおける観測値データおよび隠れ層のノードに関する対数周辺化尤度の下限を最大化する当該ニューラルネットワークモデルのパラメータを推定するパラメータ推定処理、前記対数周辺化尤度の下限を最大化する前記ノードの変分確率のパラメータを推定する変分確率推定処理、パラメータが推定された変分確率に基づいて削除対象のノードを判定し、削除対象に該当すると判定されたノードを削除するノード削除判定処理、および、前記変分確率の変化に基づいて、前記ニューラルネットワークモデルの収束性を判定する収束判定処理を実行させ、前記収束判定処理で前記ニューラルネットワークモデルが収束したと判定されるまで、前記パラメータ推定処理、前記変分確率推定処理および前記ノード削除判定処理を繰り返させるためのモデル推定プログラム。
(付記11)コンピュータに、ノード削除判定処理で、変分確率の和が予め定めた閾値以下のノードを削除対象のノードと判定させる付記10記載のモデル推定プログラム。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2016年10月7日に出願された日本特許出願2016−199103を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、ニューラルネットワークのモデルを推定するモデル推定装置に好適に適用される。例えば、本発明のモデル推定装置を用いて、画像認識やテキスト分類などを行うニューラルネットワークモデルを作成することが可能である。
10 初期値設定部
20 パラメータ推定部
30 変分確率推定部
40 ノード削除判定部
50 収束判定部
100 モデル推定装置

Claims (10)

  1. ニューラルネットワークモデルを推定するモデル推定装置であって、
    推定されるニューラルネットワークモデルにおける観測値データおよび隠れ層のノードに関する対数周辺化尤度の下限を最大化する当該ニューラルネットワークモデルのパラメータを推定するパラメータ推定部と、
    前記対数周辺化尤度の下限を最大化する前記ノードの変分確率のパラメータを推定する変分確率推定部と、
    パラメータが推定された変分確率に基づいて削除対象のノードを判定し、削除対象に該当すると判定されたノードを削除するノード削除判定部と、
    前記変分確率の変化に基づいて、前記ニューラルネットワークモデルの収束性を判定する収束判定部とを備え、
    前記収束判定部によって前記ニューラルネットワークモデルが収束したと判定されるまで、前記パラメータ推定部による前記パラメータの推定、前記変分確率推定部による前記変分確率のパラメータの推定および前記ノード削除判定部による該当するノードの削除を繰り返す
    ことを特徴とするモデル推定装置。
  2. ノード削除判定部は、変分確率の和が予め定めた閾値以下のノードを削除対象のノードと判定する
    請求項1記載のモデル推定装置。
  3. パラメータ推定部は、観測値データ、パラメータ、および変分確率に基づいて、対数周辺化尤度の下限を最大化するニューラルネットワークモデルのパラメータを推定する
    請求項1または請求項2記載のモデル推定装置。
  4. パラメータ推定部は、推定したパラメータを用いて元のパラメータを更新する
    請求項3記載のモデル推定装置。
  5. 変分確率推定部は、観測値データ、パラメータ、および変分確率に基づいて、対数周辺化尤度の下限を最大化する変分確率のパラメータを推定する
    請求項1から請求項4のうちのいずれか1項に記載のモデル推定装置。
  6. 変分確率推定部は、推定したパラメータを用いて元のパラメータを更新する
    請求項5記載のモデル推定装置。
  7. パラメータ推定部は、ラプラス法に基づいて対数周辺化尤度を近似し、近似した対数周辺化尤度の下限を最大化するパラメータを推定し、
    変分確率推定部は、前記対数周辺化尤度の下限を最大化するように変分確率のパラメータを変分分布の仮定の元で推定する
    請求項1から請求項6のうちのいずれか1項に記載のモデル推定装置。
  8. ニューラルネットワークモデルを推定するモデル推定方法であって、
    推定されるニューラルネットワークモデルにおける観測値データおよび隠れ層のノードに関する対数周辺化尤度の下限を最大化する当該ニューラルネットワークモデルのパラメータを推定し、
    前記対数周辺化尤度の下限を最大化する前記ノードの変分確率のパラメータを推定し、
    パラメータが推定された変分確率に基づいて削除対象のノードを判定し、削除対象に該当すると判定されたノードを削除し、
    前記変分確率の変化に基づいて、前記ニューラルネットワークモデルの収束性を判定し、
    前記ニューラルネットワークモデルが収束したと判定されるまで、前記パラメータの推定、前記変分確率のパラメータの推定および該当するノードの削除を繰り返す
    ことを特徴とするモデル推定方法。
  9. 変分確率の和が予め定めた閾値以下のノードを削除対象のノードと判定する
    請求項8記載のモデル推定方法。
  10. ニューラルネットワークモデルを推定するコンピュータに適用されるモデル推定プログラムであって、
    前記コンピュータに、
    推定されるニューラルネットワークモデルにおける観測値データおよび隠れ層のノードに関する対数周辺化尤度の下限を最大化する当該ニューラルネットワークモデルのパラメータを推定するパラメータ推定処理、
    前記対数周辺化尤度の下限を最大化する前記ノードの変分確率のパラメータを推定する変分確率推定処理、
    パラメータが推定された変分確率に基づいて削除対象のノードを判定し、削除対象に該当すると判定されたノードを削除するノード削除判定処理、および、
    前記変分確率の変化に基づいて、前記ニューラルネットワークモデルの収束性を判定する収束判定処理を実行させ、
    前記収束判定処理で前記ニューラルネットワークモデルが収束したと判定されるまで、前記パラメータ推定処理、前記変分確率推定処理および前記ノード削除判定処理を繰り返させる
    ためのモデル推定プログラム。
JP2018543764A 2016-10-07 2017-08-16 モデル推定装置、モデル推定方法およびモデル推定プログラム Active JP6950701B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016199103 2016-10-07
JP2016199103 2016-10-07
PCT/JP2017/029476 WO2018066237A1 (ja) 2016-10-07 2017-08-16 モデル推定装置、モデル推定方法およびモデル推定プログラム

Publications (2)

Publication Number Publication Date
JPWO2018066237A1 JPWO2018066237A1 (ja) 2019-07-18
JP6950701B2 true JP6950701B2 (ja) 2021-10-13

Family

ID=61831427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018543764A Active JP6950701B2 (ja) 2016-10-07 2017-08-16 モデル推定装置、モデル推定方法およびモデル推定プログラム

Country Status (3)

Country Link
US (1) US20200042872A1 (ja)
JP (1) JP6950701B2 (ja)
WO (1) WO2018066237A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7408325B2 (ja) * 2019-09-13 2024-01-05 キヤノン株式会社 情報処理装置、学習方法およびプログラム
JPWO2021193754A1 (ja) * 2020-03-25 2021-09-30

Also Published As

Publication number Publication date
US20200042872A1 (en) 2020-02-06
JPWO2018066237A1 (ja) 2019-07-18
WO2018066237A1 (ja) 2018-04-12

Similar Documents

Publication Publication Date Title
JP6750854B2 (ja) 情報処理装置および情報処理方法
JP6969637B2 (ja) 因果関係分析方法および電子デバイス
KR102445468B1 (ko) 부스트 풀링 뉴럴 네트워크 기반의 데이터 분류 장치 및 그 데이터 분류 장치를 위한 뉴럴 네트워크 학습 방법
WO2021007812A1 (zh) 一种深度神经网络超参数优化方法、电子设备及存储介质
JP2019525329A (ja) 複数の機械学習タスクに関する機械学習モデルのトレーニング
Pandit et al. Asymptotics of MAP inference in deep networks
JP6950701B2 (ja) モデル推定装置、モデル推定方法およびモデル推定プログラム
Wang et al. Bayesian change point analysis of linear models on graphs
US20140095616A1 (en) Method and system for sampling online social networks
Cocucci et al. Model error covariance estimation in particle and ensemble Kalman filters using an online expectation–maximization algorithm
WO2014020834A1 (ja) 単語潜在トピック推定装置および単語潜在トピック推定方法
WO2020034593A1 (zh) 人群绩效特征预测中的缺失特征处理方法及装置
CN110941793B (zh) 一种网络流量数据填充方法、装置、设备及存储介质
Malek et al. Imputation of time series data via Kohonen self organizing maps in the presence of missing data
CN115796289A (zh) 一种用于联邦贝叶斯学习的客户端选择方法及系统
Shi et al. Bayesian variable selection via particle stochastic search
CN115913995A (zh) 一种基于卡尔曼滤波修正的云服务动态QoS预测方法
JP2016520220A (ja) 隠れ属性モデル推定装置、方法およびプログラム
JP7135824B2 (ja) 学習装置、推定装置、学習方法、推定方法、及びプログラム
JP7477859B2 (ja) 計算機、計算方法及びプログラム
CN111612101B (zh) 非参数Waston混合模型的基因表达数据聚类方法、装置及设备
JP7047665B2 (ja) 学習装置、学習方法及び学習プログラム
JPWO2018066442A1 (ja) モデル学習システム、モデル学習方法およびモデル学習プログラム
WO2023073814A1 (ja) データ解析装置、方法およびプログラム
JP2019061623A (ja) パラメータ推定装置、方法、及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190312

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200702

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210824

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210906

R150 Certificate of patent or registration of utility model

Ref document number: 6950701

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150