JP2019139482A - Information estimation device and information estimation method - Google Patents

Information estimation device and information estimation method Download PDF

Info

Publication number
JP2019139482A
JP2019139482A JP2018021943A JP2018021943A JP2019139482A JP 2019139482 A JP2019139482 A JP 2019139482A JP 2018021943 A JP2018021943 A JP 2018021943A JP 2018021943 A JP2018021943 A JP 2018021943A JP 2019139482 A JP2019139482 A JP 2019139482A
Authority
JP
Japan
Prior art keywords
value
encoder
layer
output
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018021943A
Other languages
Japanese (ja)
Other versions
JP6893483B2 (en
Inventor
仁吾 安達
Jingo Adachi
仁吾 安達
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2018021943A priority Critical patent/JP6893483B2/en
Publication of JP2019139482A publication Critical patent/JP2019139482A/en
Application granted granted Critical
Publication of JP6893483B2 publication Critical patent/JP6893483B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

To embody a new auto-encoder equipped with probabilistic elements in an estimation technology using a neural network.SOLUTION: In an information estimation device comprising an auto-encoder configured by an encoder and a decoder utilizing a neural network, at least one integration layer composed of a combination of a dropout layer for dropping out a part of input data out and a full coupling layer (FC layer) for calculating weight is provided as a final layer of the encoder. Accordingly, output values (latent variables) in a latent space which are output values from the encoder become multi-dimensional probability variable vectors, allowing calculating parameters relating to probability distribution in the latent space while preventing the number of dimensions (the number of neurons) in the latent space from growing, and moreover allowing performing estimation by analytically calculating shapes of the probability distribution in the latent space.SELECTED DRAWING: Figure 2

Description

本発明は、ニューラルネットワークを用いた推定処理を行う情報推定装置及び情報推定方法に関する。本発明は、特に、オートエンコーダの一種であるバリエーショナルオートエンコーダ(Variational AutoEncoder)を改良した情報推定装置及び情報推定方法に関する。   The present invention relates to an information estimation apparatus and an information estimation method that perform an estimation process using a neural network. In particular, the present invention relates to an information estimation apparatus and an information estimation method obtained by improving a variational auto encoder that is a kind of auto encoder.

ニューラルネットワーク(NN: Neural Network)を用いた推定器は、他の推定器と比べ、画像やセンサー信号データなど、大量の情報を入力データとして処理し、推定を行うことができることから様々な分野への応用に期待されている。   Estimators using neural networks (NNs) can process and estimate a large amount of information such as images and sensor signal data as input data compared to other estimators. It is expected to be applied.

ニューラルネットワークには、オートエンコーダ(Auto-encoder)と呼ばれるものが存在する。オートエンコーダはニューラルネットワークによる教師無し学習器であり、典型的には、オートエンコーダのニューラルネットワーク構造において、入力層で次元数を意味するニューロン数が多く、徐々に後続の層のニューロンの数が減っていき、中心部分の潜在空間を表す層で最も次元数が圧縮されてニューロンの数が少なくなる。一方、中心部分の潜在空間を表す層以降では、逆にニューロンの数が増えていき、最後の出力層ではニューロンの数が入力層と同じになる構造を有している。すなわち、入力層の次元数と出力層の次元数は同一であり、中心部分の潜在空間を表す層の次元数は、入力層及び出力層の次元数よりも少なく設定される。なお、入力層から潜在空間を表す層までの前半部分はエンコーダと呼ばれ、潜在空間を表す層から出力層までの後半部分はデコーダと呼ばれる。   Neural networks include what is called an auto-encoder. Auto-encoders are unsupervised learners based on neural networks.Typically, in the neural network structure of auto-encoders, the number of neurons in the input layer means the number of dimensions, and the number of neurons in the subsequent layers gradually decreases. In the layer that represents the latent space in the central part, the number of dimensions is compressed the most and the number of neurons is reduced. On the other hand, after the layer representing the latent space in the central portion, the number of neurons increases conversely, and the last output layer has a structure in which the number of neurons is the same as that of the input layer. That is, the number of dimensions of the input layer and the number of dimensions of the output layer are the same, and the number of dimensions of the layer representing the latent space in the central portion is set to be smaller than the number of dimensions of the input layer and the output layer. The first half from the input layer to the layer representing the latent space is called an encoder, and the second half from the layer representing the latent space to the output layer is called a decoder.

ラベルのない学習データ(nXin次元のベクトルx)を入力すると、まずエンコーダで、次元数を減らした潜在空間のデータ(nz次元のベクトルz:潜在変数とも呼ばれる)に圧縮される。潜在空間の中では元データの類似度に応じて複数の塊に集まって存在する。さらに、その圧縮された空間のデータzがデコーダを通り、入力xを復元(Reconstruction)することができる。これが古典的なオートエンコーダであり、固定値である入力xに基づいてオートエンコーダから出力される値は、入力xと同様にある固定値に一意的に決まり、決定論的(Deterministic)である。 When unlabeled learning data (n Xin- dimensional vector x) is input, first, the encoder compresses the data into latent space with a reduced number of dimensions ( nz z- dimensional vector z: also called a latent variable). In the latent space, they exist in a plurality of chunks according to the similarity of the original data. Furthermore, the compressed space data z can pass through the decoder to reconstruct the input x. This is a classic auto encoder, and the value output from the auto encoder based on the input x that is a fixed value is uniquely determined to be a fixed value as in the case of the input x, and is deterministic.

それに対し、確率的要素を含んだもの、すなわち、ある固定された入力xに対して毎回計算ごとに出力値が変わる確率的な(Stochastic)オートエンコーダとして、非特許文献1には、バリエーショナルオートエンコーダ(Variational AutoEncoder、以降、VAEと略す)が提案されている。   On the other hand, as a stochastic auto encoder that includes a stochastic element, that is, the output value changes every calculation for a certain fixed input x, Non-Patent Document 1 discloses a variational auto An encoder (Variational AutoEncoder, hereinafter abbreviated as VAE) has been proposed.

上述した古典的なオートエンコーダでは、入力されたベクトルデータxに対し、圧縮されたnz次元の潜在空間でのベクトルデータzが一意的に決まるよう構成されているが、一方、VAEでは、入力されたベクトルデータxに対し、圧縮されたnz次元の潜在空間でのベクトルzが一意的に決まるのではなく、ある事後確率分布p(z|x)をとる確率変数のベクトルとして求められる。その事後確率分布p(z|x)は、例えば、nz次元の多変量ガウス分布によって表される。以下、非特許文献1において提案されている理論について説明する。 In the classic auto encoder described above, the vector data z in the compressed nz- dimensional latent space is uniquely determined for the input vector data x. On the other hand, in the VAE, The compressed vector data x is not uniquely determined in the compressed nz- dimensional latent space, but is determined as a vector of random variables having a certain posterior probability distribution p (z | x). The posterior probability distribution p (z | x) is represented by, for example, an nz- dimensional multivariate Gaussian distribution. Hereinafter, the theory proposed in Non-Patent Document 1 will be described.

VAEでは、与えられたデータxは、それを生じさせる元となった潜在的要因の全てのzの値を積分することで説明される。それは数式的に以下のように記述される。   In VAE, a given data x is described by integrating all z values of the potential factors that caused it. It is described mathematically as follows:

ここで、pθとは、あるパラメータθでその分布形状が決定される確率を意味する。右辺の全てのzを積分することで説明されたデータxの確率が大きいほど、データxが説明されていることを意味する。 Here, p θ means the probability that the distribution shape is determined by a certain parameter θ. The larger the probability of the data x explained by integrating all zs on the right side, the more data x is explained.

データxが与えられたとき、その要因となった潜在的確率変数zはどのような分布をとるのかを表す事後確率分布p(z|x)を求めたい。しかし、この事後確率分布p(z|x)は解析的には計算不可能であるため、例えば変分法が用いられる。すなわち、p(z|x)に近いとされたある提案関数qφ(あるパラメータφでその分布形状が決定される確率分布)があると仮定すると、以下の関係式が成り立ち、この関係式から提案関数qφを求め、それをp(z|x)の近似解とすることができる。 When data x is given, we want to find a posterior probability distribution p (z | x) that represents what kind of distribution the latent random variable z that caused the data x takes. However, since this posterior probability distribution p (z | x) cannot be calculated analytically, for example, a variational method is used. That is, assuming that there is a certain proposed function q φ (probability distribution whose distribution shape is determined by a certain parameter φ) that is assumed to be close to p (z | x), the following relational expression is established. The proposed function q φ can be obtained and used as an approximate solution of p (z | x).

ここで、上式(1)の左辺は、前述の与えられたデータxの説明がどれだけできるか、もっともらしさを表す対数尤度である。   Here, the left side of the above equation (1) is a log likelihood representing the likelihood of how much the above-described given data x can be explained.

上式(1)の右辺第1項のDKLは、KLダイバージェンス(KL Divergence)を意味し、2つの関数がどれだけ近いか、距離を表すゼロ以上の値を返す関数である。事後確率分布p(z|x)を近似させた提案関数qφを求めるためには、その分布がどういう関数で表されるのかを決め、その関数のパラメータθ、φを決定する。大量にあるデータxに対して、前述の式がより最適な状態でパラメータθ、φで成り立っているとすると、左辺の尤度のlogpθ(x)が説明できているので高いはずであり、提案関数qφが、知ることができない事後確率分布p(z|x)に近づいているので右辺第1項のDKLはゼロに近づくとみなせる。 D KL in the first term on the right-hand side of the above equation (1) means KL divergence, and is a function that returns a value of zero or more indicating a distance as to how close two functions are. In order to obtain the proposed function q φ that approximates the posterior probability distribution p (z | x), it is determined what function the distribution is represented by, and parameters θ and φ of the function are determined. For a large amount of data x, if the above equation is made up of parameters θ and φ in a more optimal state, the logp θ (x) of the left-side likelihood can be explained, so it should be high, Since the proposed function q φ approaches the posterior probability distribution p (z | x) that cannot be known, it can be considered that D KL of the first term on the right side approaches zero.

一方、右辺第2項をL(θ,φ;x)と書くと、右辺第2項は、以下のように2つの項で表される。   On the other hand, when the second term on the right side is written as L (θ, φ; x), the second term on the right side is represented by two terms as follows.

上式(2)の第1項は、正則化(Regularization)を意味する項であり、上式(2)の第2項は、入力されたデータを出力において復元(Reconstruction)できるかを意味する項である。尤度を表すlogpθ(x)を高くするためには、L(θ,φ;x)を最大化する必要があり、上式(2)の第1項及び第2項を最大化させる必要がある。学習における最適化とは、大量の学習データxに対して目的関数L(θ,φ;x)を最大にするパラメータθ、φを求めることである。そのためには、大量のデータ処理能力のあるニューラルネットワークを用いることが最適であり、パラメータ最適化計算ツールとして使用する。 The first term in the above equation (2) is a term that means regularization, and the second term in the above equation (2) means whether the input data can be reconstructed in the output. Term. In order to increase logp θ (x) representing the likelihood, it is necessary to maximize L (θ, φ; x), and it is necessary to maximize the first and second terms of the above equation (2). There is. The optimization in learning is to obtain parameters θ and φ that maximize the objective function L (θ, φ; x) for a large amount of learning data x. For that purpose, it is optimal to use a neural network having a large amount of data processing capability, and it is used as a parameter optimization calculation tool.

非特許文献1で提案されているVAEでは、qφ(z|x)を、nz次元多変量ガウス分布と考えて、その形状を決定するパラメータφを、ガウス分布の平均μzと分散共分散行列Σzの分散diag(Σz)の2つであるとして計算している。なお、diagは行列の対角項を意味している。また、残りの非対角部分offdiag(Σz)に関しては、非特許文献1ではゼロとしており、したがって、共分散値offdiag(Σz)に関しては、非特許文献1で提案されているVAEでは計算されず、指定されていない。すなわち、非特許文献1で提案されているVAEでは、以下の式のような条件が設定されている。 In the VAE proposed in Non-Patent Document 1, q φ (z | x) is considered as an nz- dimensional multivariate Gaussian distribution, and the parameter φ that determines its shape is set to be equal to the mean μ z of the Gaussian distribution and the variance. The calculation is performed assuming that there are two variance diags (Σ z ) of the variance matrix Σ z . Note that diag means a diagonal term of the matrix. Further, the remaining non-diagonal portion offdiag (Σ z ) is set to zero in Non-Patent Document 1, and therefore the covariance value offdiag (Σ z ) is calculated in the VAE proposed in Non-Patent Document 1. Not specified. That is, in the VAE proposed in Non-Patent Document 1, conditions such as the following formula are set.

パラメータφはエンコーダの出力値として計算され、潜在空間の層のニューロン数は、nz次元×2となる。つまり、以下のnz次元×2個のパラメータの値が順番にエンコーダから出力される。 The parameter φ is calculated as an output value of the encoder, and the number of neurons in the latent space layer is nz dimension × 2. That is, the following nz dimensions × 2 parameter values are output in order from the encoder.

前述のように、最適化計算では、目的関数L(θ,φ;x)を最大化する必要があり、そのためには、正則化を意味する上式(2)の第1項   As described above, in the optimization calculation, the objective function L (θ, φ; x) needs to be maximized. For this purpose, the first term of the above equation (2) that means regularization is used.

を最大にする必要がある。この項を最大にするということは、   Need to be maximized. Maximizing this term means that

を最小化するということであり、求めようとする分布qφ(z|x)が分布pθ(z)にできるだけ近い形状でなければならないということである。pθ(z)はzの事前分布pθ(z)を意味し、非特許文献1によれば、平均μ0はゼロの値のベクトル、分散値Σ0は単位ベクトルとなる、以下の式のような標準ガウス分布として計算する。 The distribution q φ (z | x) to be obtained must have a shape as close as possible to the distribution p θ (z). p θ (z) means the prior distribution p θ (z) of z. According to Non-Patent Document 1, the average μ 0 is a vector of zero values, and the variance value Σ 0 is a unit vector. Calculate as a standard Gaussian distribution.

上記の式より、正則化を意味する上式(2)の第1項は、以下の式のように表される。   From the above formula, the first term of the above formula (2), which means regularization, is expressed as the following formula.

もう1つのパラメータθは、非特許文献1によると、デコーダの出力値を意味することになる。デコーダでは、ある具体的なzの値をサンプリングし、前述のように得られた確率分布qφ(z|x)、すなわち、知り得ない事後確率p(z|x)に限りなく近づけた確率分布qφ(z|x)から復元させる。前述の復元に関する上式(2)の第2項は、復元されたxが、入力されたデータxに対応して同じ値となるかを表す対数尤度を意味する。 According to Non-Patent Document 1, another parameter θ means the output value of the decoder. In the decoder, a specific value of z is sampled, and the probability distribution q φ (z | x) obtained as described above, that is, the probability of approaching the posterior probability p (z | x) that cannot be known as much as possible. Restore from the distribution q φ (z | x). The second term of the above formula (2) relating to the above-described restoration means log likelihood indicating whether the restored x has the same value corresponding to the input data x.

つまり、前述のようにデコーダの最終層から出力される値はxそのものではなく、そのxがとる確率分布pθ(x|z)の形状を決定するパラメータθとする。仮に、データxが白黒の画像である場合、その確率分布をベルヌーイ分布と置き、ベルヌーイ分布を決定するパラメータθを使って、入力xと同じである確率pθ(x|z)を計算し、さらにそのlogをとることでlog[pθ(z|x)]を計算する。前述の復元に関する上式(2)の第2項の期待値の部分 That is, as described above, the value output from the final layer of the decoder is not x itself, but is a parameter θ that determines the shape of the probability distribution p θ (x | z) taken by x. If the data x is a black and white image, the probability distribution is set as the Bernoulli distribution, and the probability p θ (x | z) that is the same as the input x is calculated using the parameter θ that determines the Bernoulli distribution. Further, log [p θ (z | x)] is calculated by taking the log. The expected value part of the second term of the above formula (2) related to the above restoration

は、バッチの複数のサンプルで処理することで、同等の期待値計算をしているものとみなされる。   Is considered to have an equivalent expected value calculation by processing with multiple samples of the batch.

図1は、従来技術におけるVAEの一例を模式的に示す図である。図1に示すように、入力X(nXin次元のベクトル)は、ニューラルネットワークで構成されたエンコーダを通り、エンコーダから、ガウス分布の平均(nz次元)と分散値(nz次元)とが出力される。また、エンコーダの出力結果に基づいてある具体的なzの値がサンプリングされて、ニューラルネットワークで構成されたデコーダに入力され、デコーダからnXout次元のベクトルが出力される。なお、デコーダからの出力は、入力Xと同じとなるよう最適化され、入力と出力の次元数は同じ(nXin=nXout)である。 FIG. 1 is a diagram schematically illustrating an example of a VAE in the prior art. As shown in FIG. 1, an input X (an n Xin- dimensional vector) passes through an encoder constituted by a neural network, and an average (N z dimension) of a Gaussian distribution and a variance value (n z dimension) are output from the encoder. Is output. Further, a specific value of z is sampled based on the output result of the encoder and input to a decoder configured by a neural network, and an n Xout- dimensional vector is output from the decoder. Note that the output from the decoder is optimized to be the same as the input X, and the number of dimensions of the input and the output is the same (n Xin = n Xout ).

国際公開公報WO2014105866A1International Publication No. WO2014155866A1

“Auto-Encoding Variational Bayes”, Diederik P. Kingma, Max Welling:2013年12月20日(https://arxiv.org/abs/1312.6114から取得可能)“Auto-Encoding Variational Bayes”, Diederik P. Kingma, Max Welling: December 20, 2013 (available from https://arxiv.org/abs/1312.6114) “APPROXIMATING THE KULLBACK LEIBLER DIVERGENCE BETWEEN GAUSSIAN MIXTURE MODELS”, John R. Hershey and Peder A. Olsen:2007年4月15−20日({ HYPERLINK "http://ieeexplore.ieee.org/document/4218101/" ,http://ieeexplore.ieee.org/document/4218101/} から取得可能)“APPROXIMATING THE KULLBACK LEIBLER DIVERGENCE BETWEEN GAUSSIAN MIXTURE MODELS”, John R. Hershey and Peder A. Olsen: April 15-20, 2007 ({HYPERLINK "http://ieeexplore.ieee.org/document/4218101/", available from http://ieeexplore.ieee.org/document/4218101/})

非特許文献1で提案されているVAEは確率的要素を備えているが、ニューラルネットワークの潜在空間での出力は、zの値そのものではなく、zがとり得る値の確率分布の形状を決定づけるパラメータである。上述のように、非特許文献1で提案されているVAEでは、qφ(z|x)をnz次元多変量ガウス分布と考え、VAEの潜在空間の層におけるパラメータφはnz個の平均とnz個の分散値であり、また、共分散値はすべてゼロとして単純化している。 Although the VAE proposed in Non-Patent Document 1 has a stochastic element, the output in the latent space of the neural network is not a value of z itself, but a parameter that determines the shape of the probability distribution of values that z can take. It is. As described above, in the VAE proposed in Non-Patent Document 1, q φ (z | x) is considered as an nz- dimensional multivariate Gaussian distribution, and the parameter φ in the latent space layer of the VAE is an nz average. And n z variance values, and the covariance values are all simplified to zero.

しかしながら、より複雑な分布をとらせようと設計者がデザインする場合には、その分布形状を決定づけるパラメータがより多く必要となる。例えば、潜在空間の分布を10次元多変量ガウス分布にした場合、その形状を決定づけるパラメータの数は、10個の平均値、10個の分散値に加えて、(10×10−10)/2=45個の共分散値が必要となる。また、潜在空間の分布を混合ガウス分布などにする場合には、さらに複雑となる。   However, when a designer designs to make a more complicated distribution, more parameters are required to determine the distribution shape. For example, when the distribution of the latent space is a 10-dimensional multivariate Gaussian distribution, the number of parameters determining the shape is (10 × 10 −10) / 2 in addition to 10 average values and 10 variance values. = 45 covariance values are required. Further, when the latent space distribution is changed to a mixed Gaussian distribution or the like, it becomes more complicated.

上記の課題を解決するため、本発明は、確率的要素を備えた新たなオートエンコーダを実現する情報推定装置及び情報推定方法を提供することを目的とする。   In order to solve the above-described problems, an object of the present invention is to provide an information estimation apparatus and an information estimation method that realize a new auto encoder having a stochastic element.

上記目的を達成するため、本発明によれば、従来技術におけるVAEのエンコーダの潜在空間での出力zを、出力zの分布を決定づけるパラメータとするのではなく、前述の古典的なオートエンコーダと同様に出力zの値そのものであるようにし、かつ、出力zの値は、古典的なオートエンコーダのような決定論的なある値ではなく、ある確率分布からサンプリングされた確率変数であるようにした情報推定装置及び情報推定方法が提供される。   In order to achieve the above object, according to the present invention, the output z in the latent space of the VAE encoder in the prior art is not a parameter that determines the distribution of the output z, but is similar to the classic auto encoder described above. The output z value itself, and the output z value is not a deterministic value like a classic auto-encoder, but a random variable sampled from a probability distribution. An information estimation apparatus and an information estimation method are provided.

上記目的を達成するため、例えば、本発明に係る情報推定装置は、ニューラルネットワークを使用して推定処理を行う情報推定装置であって、
エンコーダ及びデコーダにより構成されたオートエンコーダを備え、前記オートエンコーダに入力された入力データに基づいて前記エンコーダ及び前記デコーダで順次計算処理を行い、前記推定処理の結果として前記オートエンコーダから出力データを出力するよう構成されているオートエンコーダ計算部を有し、
データの一部をドロップアウトさせるドロップアウト層と、前記ドロップアウト層から出力されたデータに対して重みの計算を行う全結合層との組み合わせからなる少なくとも1つの一体化層を、前記エンコーダの最終層として設けることで、前記エンコーダからの出力値である潜在空間での出力値が多次元確率変数ベクトルとなるように構成されている。
In order to achieve the above object, for example, an information estimation apparatus according to the present invention is an information estimation apparatus that performs an estimation process using a neural network,
An auto encoder composed of an encoder and a decoder is provided, and the encoder and the decoder sequentially perform calculation processing based on input data input to the auto encoder, and output data from the auto encoder as a result of the estimation processing An auto-encoder calculator configured to
At least one integrated layer composed of a combination of a dropout layer that drops out a part of data and a fully connected layer that performs weight calculation on the data output from the dropout layer, By providing as a layer, the output value in the latent space, which is the output value from the encoder, is configured to be a multidimensional random variable vector.

また、上記目的を達成するため、例えば、本発明に係る情報推定方法は、ニューラルネットワークを使用して推定処理を行う情報推定装置で行われる情報推定方法であって、
エンコーダ及びデコーダにより構成されたオートエンコーダを用いて、前記オートエンコーダに入力された入力データに基づいて前記エンコーダ及び前記デコーダで順次計算処理を行い、前記推定処理の結果として前記オートエンコーダから出力データを出力するオートエンコーダ計算ステップを有し、
データの一部をドロップアウトさせるドロップアウト層と、前記ドロップアウト層から出力されたデータに対して重みの計算を行う全結合層との組み合わせからなる少なくとも1つの一体化層を、前記エンコーダの最終層として設けることで、前記エンコーダからの出力値である潜在空間での出力値を多次元確率変数ベクトルとする。
In order to achieve the above object, for example, an information estimation method according to the present invention is an information estimation method performed by an information estimation apparatus that performs an estimation process using a neural network,
Using an auto encoder configured by an encoder and a decoder, the encoder and the decoder sequentially perform calculation processing based on input data input to the auto encoder, and output data from the auto encoder is obtained as a result of the estimation processing. An auto encoder calculation step to output,
At least one integrated layer composed of a combination of a dropout layer that drops out a part of data and a fully connected layer that performs weight calculation on the data output from the dropout layer, By providing as a layer, the output value in the latent space, which is the output value from the encoder, is set as a multidimensional random variable vector.

本発明は、確率的要素を備えた新たなオートエンコーダを実現し、潜在空間における次元数(ニューロンの数)の増加を抑えながら、潜在空間における確率分布についてに任意の確率分布の形状に対応できるという効果を有する。また、本発明は、潜在空間における確率分布の形状を解析的な計算によって推測できるため、潜在空間における入力データの分離の様子をより正確に評価することができるという効果を有する。   The present invention realizes a new auto-encoder equipped with a stochastic element and can cope with an arbitrary probability distribution shape in the latent space while suppressing an increase in the number of dimensions (number of neurons) in the latent space. It has the effect. Further, the present invention can estimate the shape of the probability distribution in the latent space by analytical calculation, and thus has an effect that the state of separation of input data in the latent space can be more accurately evaluated.

従来技術におけるVAEの一例を模式的に示す図である。It is a figure which shows typically an example of VAE in a prior art. 本発明の第1の実施の形態におけるオートエンコーダの第1の例を模式的に示す図である。It is a figure which shows typically the 1st example of the auto encoder in the 1st Embodiment of this invention. 本発明の第1の実施の形態におけるオートエンコーダの第1の例に関して、DF層の詳細を示す図である。It is a figure which shows the detail of DF layer regarding the 1st example of the auto encoder in the 1st Embodiment of this invention. 本発明の第1の実施の形態におけるオートエンコーダの第2の例を示す図である。It is a figure which shows the 2nd example of the auto encoder in the 1st Embodiment of this invention. 本発明の第1の実施の形態におけるオートエンコーダの第2の例に関して、DF層の詳細を示す図である。It is a figure which shows the detail of DF layer regarding the 2nd example of the auto encoder in the 1st Embodiment of this invention. 本発明の第1の実施の形態におけるオートエンコーダの計算処理機能を含む情報推定装置の構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of the information estimation apparatus containing the calculation processing function of the auto encoder in the 1st Embodiment of this invention. 本発明の第1の実施の形態における計算処理の一例を示すフローチャートである。It is a flowchart which shows an example of the calculation process in the 1st Embodiment of this invention. (a)は、ガウス分布の幅を表すσの等高線の楕円と、さらにその分布に従って点在するモンテカルロ的にサンプリングした点の散布図とを示す表示方法を説明するための図であり、(b)は、ガウス分布の幅を表すσの等高線の楕円と、さらに、そのガウス楕円の中心値、つまり平均値の点とを示す表示方法を説明するための図である。(A) is a figure for demonstrating the display method which shows the ellipse of the contour line of (sigma) showing the width | variety of a Gaussian distribution, and also the scatter diagram of the Monte Carlo sample sampled according to the distribution, (b) ) Is a diagram for explaining a display method that shows an ellipse of a contour line of σ representing the width of the Gaussian distribution, and further, a center value of the Gaussian ellipse, that is, a point of an average value. 本発明の第1の実施の形態における情報推定装置を用いた実験によって得られた、潜在空間の次元数nzがnz=2の場合の潜在空間におけるzの値の分布を示す図であり、図8(a)の表示方法で描かれた図である。It is a figure which shows distribution of the value of z in the latent space when the dimension number nz of the latent space is obtained by experiment using the information estimation apparatus in the 1st Embodiment of this invention, and nz = 2. FIG. 9 is a diagram drawn by the display method of FIG. 本発明の第1の実施の形態における情報推定装置を用いた実験によって得られた、潜在空間の次元数nzがnz=2の場合の潜在空間におけるzの値の分布を示す図であり、図8(b)の表示方法で描かれた図である。It is a figure which shows distribution of the value of z in the latent space when the dimension number nz of the latent space is obtained by experiment using the information estimation apparatus in the 1st Embodiment of this invention, and nz = 2. FIG. 9 is a diagram drawn by the display method of FIG. (a)は、本発明の第1の実施の形態における情報推定装置を用いた実験結果を評価するために作成された図であって、学習前の状態のオートエンコーダが入力画像を復元した状態を示す図であり、(b)は、本発明の第1の実施の形態における情報推定装置を用いた実験結果を評価するために作成された図であり、学習後の状態のオートエンコーダが入力画像を復元した状態を示す図である。(A) is the figure produced in order to evaluate the experimental result using the information estimation apparatus in the 1st Embodiment of this invention, Comprising: The state which the auto encoder of the state before learning decompress | restored the input image (B) is a diagram created to evaluate the experimental results using the information estimation apparatus according to the first embodiment of the present invention, and is input by the auto encoder in a state after learning It is a figure which shows the state which decompress | restored the image. 図9の事後確率分布(ガウス分布)を、本発明の第2の実施の形態により混合ガウス分布の場合に拡張した、入力画像が右上の文字「H」の画像の場合の実験結果を示す図であり、解析的に計算した混合ガウス分布は等高線で示され、モンテカルロ的に散布図で分布を表したものを重ねて表示させたものである。FIG. 9 is a diagram showing experimental results when the input image is an image with the letter “H” in the upper right, in which the posterior probability distribution (Gaussian distribution) of FIG. The analytically calculated mixed Gaussian distribution is indicated by contour lines, and is displayed by superimposing Monte Carlo distributions represented by a scatter diagram. 図9の事後確率分布(ガウス分布)を、本発明の第2の実施の形態により混合ガウス分布の場合に拡張した、入力画像が右上の文字「H」の画像の場合の実験結果を示す別の図であり、解析的に計算した混合ガウス分布は等高線で示され、モンテカルロ的に散布図で分布を表したものを重ねて表示させたものである。The posterior probability distribution (Gaussian distribution) shown in FIG. 9 is expanded to the case of the mixed Gaussian distribution according to the second embodiment of the present invention. The mixed Gaussian distribution calculated analytically is indicated by contour lines, and is displayed by superimposing the distributions represented by the scatter chart in a Monte Carlo manner.

以下、図面を参照しながら、本発明の第1及び第2の実施の形態について説明する。   Hereinafter, first and second embodiments of the present invention will be described with reference to the drawings.

<第1の実施の形態>
本発明の第1の実施の形態では、オートエンコーダの潜在空間での出力zを、出力zの分布を決定づけるパラメータとするのではなく、前述の古典的なオートエンコーダと同様に出力zの値そのものであるようにし、かつ、出力zの値を、古典的なオートエンコーダの場合のような決定論的なある値とするのではなく、ある確率分布からサンプリングされた確率変数とする。
<First Embodiment>
In the first embodiment of the present invention, the output z in the latent space of the auto encoder is not used as a parameter that determines the distribution of the output z, but the value of the output z itself is the same as the classic auto encoder described above. And let the value of the output z be a random variable sampled from a probability distribution, rather than a deterministic value as in a classic auto-encoder.

具体的には、本発明の第1の実施の形態では、エンコーダを構成するニューラルネットワーク内にドロップアウト層を追加することで、固定値である入力データに対して、エンコーダから出力される値を確率変数に変換する。さらに、ドロップアウトによるベルヌーイ分布がニューラルネットワーク上でどのような形状で伝搬するかを解析的に計算することで、その確率変数の分布形状を計算しておき、従来技術におけるVAEと同様、正則化計算に使用する。   Specifically, in the first embodiment of the present invention, by adding a dropout layer in the neural network that constitutes the encoder, a value output from the encoder is obtained for input data that is a fixed value. Convert to random variable. Furthermore, the distribution shape of the random variable is calculated by analytically calculating in what form the Bernoulli distribution due to dropout propagates on the neural network, and regularized as in the case of VAE in the prior art. Used for calculation.

以下、図2〜図5を参照しながら、本発明の実施の形態におけるオートエンコーダの構造について説明する。図2は、本発明の第1の実施の形態におけるオートエンコーダの第1の例を模式的に示す図であり、図3は、本発明の第1の実施の形態におけるオートエンコーダの第1の例に関して、DF層の詳細を示す図である。また、図4は、本発明の第1の実施の形態におけるオートエンコーダの第2の例を示す図であり、図5は、本発明の第1の実施の形態におけるオートエンコーダの第2の例に関して、DF層の詳細を示す図である。なお、図2及び図3に示す例では、エンコーダにドロップアウト層が1つ設けられており、図4及び図5に示す例では、エンコーダにドロップアウト層が2つ設けられている。   The structure of the auto encoder according to the embodiment of the present invention will be described below with reference to FIGS. FIG. 2 is a diagram schematically illustrating a first example of the auto encoder according to the first embodiment of the present invention, and FIG. 3 illustrates a first example of the auto encoder according to the first embodiment of the present invention. FIG. 4 shows details of the DF layer for an example. FIG. 4 is a diagram showing a second example of the auto encoder according to the first embodiment of the present invention, and FIG. 5 is a second example of the auto encoder according to the first embodiment of the present invention. Is a diagram showing details of the DF layer. 2 and 3, the encoder is provided with one dropout layer, and in the examples shown in FIGS. 4 and 5, the encoder is provided with two dropout layers.

本発明の第1の実施の形態におけるオートエンコーダでは、古典的なオートエンコーダのエンコーダに、入力データの一部を欠損させてランダム性を生むドロップアウト層と、ドロップアウト層と、重みの計算を行う全結合(Fully Connected:FC)層を設ける。さらに、そのドロップアウト層とFC層から、出力される値の分布を解析的に計算し、それを正則化の条件に使用する。なお、本明細書では簡易表現のため、ドロップアウト層及びFC層を組み合わせた一体化層をDF層と呼び、ドロップアウト層における計算処理とFC層における計算処理が一緒に行われるものとして説明する。   In the auto encoder according to the first embodiment of the present invention, the encoder of the classic auto encoder performs calculation of a dropout layer, a dropout layer, and a weight that cause randomness by missing a part of input data. A fully connected (FC) layer is provided. Furthermore, the distribution of output values is analytically calculated from the dropout layer and the FC layer, and used as a regularization condition. In this specification, for the sake of simplicity, an integrated layer combining a dropout layer and an FC layer is called a DF layer, and the calculation process in the dropout layer and the calculation process in the FC layer are described as being performed together. .

まず、エンコーダにドロップアウト層が1つ設けられた場合について説明する。図2には、エンコーダにドロップアウト層が1つ設けられた場合が図示されている。図1に示す従来のVAEでは、潜在空間での値の次元数はzの確率分布のパラメータの数であったのに対し、図2に示すオートエンコーダでは、本発明の第1の実施の形態では、潜在空間での値の次元数はzの次元数nzそのものとなる。 First, the case where one dropout layer is provided in the encoder will be described. FIG. 2 shows the case where one dropout layer is provided in the encoder. In the conventional VAE shown in FIG. 1, the number of dimensions of the value in the latent space is the number of parameters of the probability distribution of z, whereas in the auto encoder shown in FIG. 2, the first embodiment of the present invention is used. Then, the dimension number of the value in the latent space is the z dimension number n z itself.

また、図3には、エンコーダにドロップアウト層が1つ設けられた場合におけるエンコーダのDF1層が図示されている。なお、図3は、図2のエンコーダに含まれるドロップアウト層及びFC層の部分を抜き出して図示したものである。図3のDF1層への入力値XinDF1は固定値であり、その出力XoutDF1はドロップアウト層によって変換された確率変数である。出力XoutDF1の確率分布は、例えば特許文献1で提案された計算方法を用いて計算することができる。以下に、その計算方法について説明する。 FIG. 3 shows the DF1 layer of the encoder when one dropout layer is provided in the encoder. FIG. 3 shows the dropout layer and FC layer included in the encoder of FIG. The input value Xin DF1 to the DF1 layer in FIG. 3 is a fixed value, and its output Xout DF1 is a random variable converted by the dropout layer. The probability distribution of the output Xout DF1 can be calculated using, for example, the calculation method proposed in Patent Document 1. The calculation method will be described below.

DF1層への入力をXinDF1、出力をXoutDF1とし、DF1層のドロップアウト層にあらかじめ設定されたドロップアウト率(データをランダムに欠損させる確率)をpDrop DF1とする。また、DF1層のFC層にあらかじめ設定された重みをWi,j DF1とし、バイアスをbi DF1とする。ただし、添え字i及びjは、1≦i≦nXout DF1、1≦j≦nXin DF1を満たす整数である。なお、明細書中の表記nXin DF1は、nの下付き添字がXinDF1であることを表し、明細書中の表記nXout DF1は、nの下付き添字がXoutDF1であることを表す。 Assume that the input to the DF1 layer is Xin DF1 , the output is Xout DF1, and the dropout rate (probability of missing data randomly) set in the dropout layer of the DF1 layer is p Drop DF1 . Further, the weight set in advance for the FC layer of the DF1 layer is W i, j DF1 , and the bias is b i DF1 . The subscripts i and j are integers satisfying 1 ≦ i ≦ n Xout DF1 and 1 ≦ j ≦ n Xin DF1 . The notation n Xin DF1 in the specification indicates that the subscript of n is Xin DF1 , and the notation n Xout DF1 in the specification indicates that the subscript of n is Xout DF1 .

DF1層への入力XinDF1は固定値であり、定数からなるnXin DF1次元のベクトルであって、以下のように表される。 The input Xin DF1 to the DF1 layer is a fixed value and is an n Xin DF1 dimensional vector composed of constants, and is expressed as follows.

一方、DF1層からの出力XoutDF1は、以下のように表される。 On the other hand, the output Xout DF1 from the DF1 layer is expressed as follows.

DF1層からの出力XoutDF1は、nXout DF1次元のベクトルであり、このベクトルXoutDF1のi番目の要素は以下のとおりである。 The output Xout DF1 from the DF1 layer is an n Xout DF1- dimensional vector, and the i-th element of this vector Xout DF1 is as follows.

ここで、ドロップアウト層におけるドロップアウトにより、右辺のWi,j DF1XinDF1 j項(1≦j≦nXin DF1)が、確率pdrop DF1でランダムに消える(ゼロとなる)。したがって、各項の和である左辺のXoutDF1 iは“サンプリング和”としてとらえて計算することができる。このことから、出力XoutDF1は確率変数であり、例えば、以下のようなnXout DF1次元の多変量ガウス分布に従う確率変数であるとする。 Here, due to the dropout in the dropout layer, the W i, j DF1 Xin DF1 j term (1 ≦ j ≦ n Xin DF1 ) on the right side disappears at random with the probability p drop DF1 (becomes zero). Accordingly, the Xout DF1 i on the left side, which is the sum of the terms, can be calculated as a “sampling sum”. From this, it is assumed that the output Xout DF1 is a random variable, for example, a random variable that follows an n Xout DF1- dimensional multivariate Gaussian distribution as follows.

ただし、μout DF1は、平均値を示すnXout DF1次元のベクトル、Σout DF1は、nXout DF1×nXout DF1の分散共分散行列である。平均値μout DF1及び分散共分散行列Σout DF1は、以下の式から得られる。 However, μ out DF1 is an n Xout DF1 dimensional vector indicating an average value, and Σ out DF1 is an n Xout DF1 × n Xout DF1 variance-covariance matrix. The average value μ out DF1 and the variance covariance matrix Σ out DF1 are obtained from the following equations.

図3のDF1層からの出力は、図2のオートエンコーダのエンコーダからの出力であり、エンコーダから出力される潜在空間における値zの確率分布qφ(z|x)に対応している。これより表記について、XoutDF1をzに、μout DF1をμzに、Σout DF1をΣzに、nXin DF1をnhに、nXout DF1をnzにそれぞれ置き換えることができ、エンコーダから出力される潜在空間における値zは、以下の多変量ガウス分布として表される。 The output from the DF1 layer in FIG. 3 is the output from the encoder of the auto encoder in FIG. 2, and corresponds to the probability distribution q φ (z | x) of the value z in the latent space output from the encoder. From this, Xout DF1 can be replaced with z, μ out DF1 with μ z , Σ out DF1 with Σ z , n Xin DF1 with n h , and n Xout DF1 with n z. The value z in the output latent space is represented as the following multivariate Gaussian distribution.

ただし、μzはnz次元のベクトル、Σzはnz×nzの分散共分散行列である。 Here, μ z is an nz- dimensional vector, and Σ z is an nz × nz variance-covariance matrix.

次に、エンコーダにドロップアウト層が2つ設けられた場合について説明する。図4には、より複雑な場合として、エンコーダにドロップアウト層が2つ設けられた場合が図示されている。また、図5には、エンコーダにドロップアウト層が2つ設けられた場合におけるエンコーダのDF1層、ReLu(Rectified Linear Unit)層、DF2層が図示されている。なお、図5は、図4のエンコーダに含まれる2つのドロップアウト層及びFC層と、これらの間に挟まれたReLu層の部分を抜き出して図示したものである。以下、DF層が2つ存在する場合の計算方法について説明する。   Next, a case where two dropout layers are provided in the encoder will be described. FIG. 4 shows the case where two dropout layers are provided in the encoder as a more complicated case. FIG. 5 shows the DF1 layer, ReLu (Rectified Linear Unit) layer, and DF2 layer of the encoder when two dropout layers are provided in the encoder. FIG. 5 shows two dropout layers and an FC layer included in the encoder of FIG. 4 and a part of the ReLu layer sandwiched between them. Hereinafter, a calculation method when there are two DF layers will be described.

図5の場合、ReLu層を挟んで、2つのDF層、すなわちDF1層及びDF2層が設けられている。1つ目のDF1層への入力、出力は上述のとおりである。また、DF1層とDF2層の間にあるReLu層などの非線形関数の計算方法としては、例えば、特許文献1に挙げたような多変量ガウス近似として計算する方法や、単純に、ガウス関数が負の領域にあるか正の領域にあるかの判断で近似して計算する方法(本願出願時には非公開であるが、本発明者を発明者とする特許出願(特願2017−196740)に係る明細書及び図面に記載された計算方法)など使用可能であるが、本発明はこれらの計算方法に限定されるものではない。   In the case of FIG. 5, two DF layers, that is, a DF1 layer and a DF2 layer are provided with a ReLu layer interposed therebetween. Inputs and outputs to the first DF1 layer are as described above. In addition, as a method of calculating a nonlinear function such as a ReLu layer between the DF1 layer and the DF2 layer, for example, a method of calculating as a multivariate Gaussian approximation as described in Patent Document 1, or a simple Gaussian function is negative. Method of Approximating and Calculating by Judgment of Being in Region or Positive Region (Details Related to Patent Application (Japanese Patent Application No. 2017-196740) Inventor as Inventor Although Not Published at the Time of Application) The calculation method described in the document and drawings) can be used, but the present invention is not limited to these calculation methods.

以下、2つ目のDF2層への入力、出力について説明する。DF2層への入力をXinDF2、出力をXoutDF2とし、DF2層のドロップアウト率をpDrop DF2とする。また、DF2層のFC層の重みをWi,j DF2とし、バイアスをbi DF2とする。ただし、添え字i及びjは、1≦i≦nXout DF2、1≦j≦nXin DF2を満たす整数である。なお、明細書中の表記nXin DF2は、nの下付き添字がXinDF2であることを表し、明細書中の表記nXout DF2は、nの下付き添字がXoutDF2であることを表す。 Hereinafter, input and output to the second DF2 layer will be described. The input to the DF2 layer is Xin DF2 , the output is Xout DF2, and the dropout rate of the DF2 layer is p Drop DF2 . The weight of the FC layer of the DF2 layer is W i, j DF2 , and the bias is b i DF2 . The subscripts i and j are integers satisfying 1 ≦ i ≦ n Xout DF2 and 1 ≦ j ≦ n Xin DF2 . The notation n Xin DF2 in the specification indicates that the subscript of n is Xin DF2 , and the notation n Xout DF2 in the specification indicates that the subscript of n is Xout DF2 .

DF2層への入力XinDF2、出力XoutDF2は両方とも、多変量ガウス分布に従う確率変数となり、以下のように表される。 Both the input Xin DF2 and the output Xout DF2 to the DF2 layer are random variables according to a multivariate Gaussian distribution, and are expressed as follows.

ただし、μin DF2はnXin DF2次元のベクトル、Σin DF2はnXin DF2×nXin DF2の分散共分散行列であり、μout DF2はnXout DF2次元のベクトル、Σout DF2はnXout DF2×nXout DF2の分散共分散行列である。 However, μ in DF2 is an n Xin DF2 dimensional vector, Σ in DF2 is an n Xin DF2 × n Xin DF2 covariance matrix, μ out DF2 is an n Xout DF2 dimensional vector, and Σ out DF2 is n Xout DF2 Xn Xout DF2 variance-covariance matrix.

平均値に関しては、以下のように計算できる。   The average value can be calculated as follows.

また、分散共分散行列に関しては、以下のように計算できる。   The variance-covariance matrix can be calculated as follows.

上記の右辺の第1項に関しては、以下のように計算できる。   The first term on the right side can be calculated as follows.

図5のDF2層からの出力は、図4のオートエンコーダのエンコーダからの出力であり、エンコーダから出力される潜在空間における値zの確率分布qφ(z|x)に対応している。したがって、ドロップアウト層が1つ存在する場合と同様に、表記について、XoutDF2をzに、μout DF2をμzに、Σout DF2をΣzに、nXin DF2をnhに、nXout DF2をnzにそれぞれ置き換えることができ、エンコーダから出力される潜在空間における値zは、以下の多変量ガウス分布として表される。 The output from the DF2 layer in FIG. 5 is the output from the encoder of the auto encoder in FIG. 4, and corresponds to the probability distribution q φ (z | x) of the value z in the latent space output from the encoder. Thus, as with the drop-out layer is present one, the title, the Xout DF2 to z, the mu out DF2 in mu z, the sigma out DF2 to sigma z, the n Xin DF2 to n h, n Xout Each of DF2 can be replaced with nz, and the value z in the latent space output from the encoder is expressed as the following multivariate Gaussian distribution.

なお、ここでは、ドロップアウト層が2つ存在する場合について説明しているが、ドロップアウト層が3つ以上存在していてもよい。例えば、DF2層からの出力値が更なるドロップアウト層(3つ目のドロップアウト層)に入力されてもよく、この場合も、上述したDF2層における計算方法と同様の計算方法によって、更なるドロップアウト層からの出力値を求めることができる。   In addition, although the case where two dropout layers exist is described here, three or more dropout layers may exist. For example, an output value from the DF2 layer may be input to a further dropout layer (third dropout layer), and in this case, the calculation method similar to the calculation method in the DF2 layer described above may be used. The output value from the dropout layer can be obtained.

以上のように、本発明の第1の実施の形態では、固定値である入力データをドロップアウトによって確率変数に変換して確率分布を生じさせ、解析計算方法により、その確率分布を計算する。また、この計算結果を、従来技術におけるVAEと同様に、正則化の条件に使用する。すなわち、下記の式で表される確率分布qφ(z|x)が、下記の式で表される事前分布pθ(z)とあまりに異ならないよう、同じ形状に留めるための条件を課す。 As described above, in the first embodiment of the present invention, input data that is a fixed value is converted into a random variable by dropout to generate a probability distribution, and the probability distribution is calculated by an analytical calculation method. Also, this calculation result is used as a regularization condition as in the case of VAE in the prior art. In other words, a condition for keeping the same shape is imposed so that the probability distribution q φ (z | x) expressed by the following expression is not so different from the prior distribution p θ (z) expressed by the following expression.

例えば、上記の確率分布qφ(z|x)と事前分布pθ(z)とが同じ形状に留まっているかを判定するため、前述のように多変量ガウス分布のKLダイバージェンスを使い、2つの多変量ガウス分布の距離を最小にするようなコスト関数を設定する。その式を以下に示す。 For example, in order to determine whether the probability distribution q φ (z | x) and the prior distribution p θ (z) remain in the same shape, as described above, the KL divergence of the multivariate Gaussian distribution is used, Set a cost function that minimizes the distance of the multivariate Gaussian distribution. The formula is shown below.

本発明の第1の実施の形態における計算方法は、非特許文献1に開示されている従来技術の計算方法と比較すると、共分散の値を計算している点で大きく異なっている。すなわち、非特許文献1では共分散の値を求めておらず、共分散の値をゼロの値としており、あるいは、共分散の値を求めるためにはさらにニューロンの数を増やす必要があったのに対し、本発明の第1の実施の形態では、エンコーダのより少ないニューロンの数でありながら、上述した解析計算によって共分散の値の計算も行っている。   The calculation method according to the first embodiment of the present invention is greatly different from the calculation method according to the prior art disclosed in Non-Patent Document 1 in that a covariance value is calculated. That is, in Non-Patent Document 1, the covariance value is not obtained, and the covariance value is set to zero, or in order to obtain the covariance value, it is necessary to further increase the number of neurons. On the other hand, in the first embodiment of the present invention, the covariance value is also calculated by the analysis calculation described above, although the number of neurons of the encoder is smaller.

また、本発明の第1の実施の形態における計算方法によれば、オートエンコーダの出力が入力データを再現できるかという条件の判定について、従来技術に係るVAEの判定より簡単に行うことができる。従来技術によれば、エンコーダの出力値はzの確率分布のパラメータであるため、例えばデコーダに入力するための値を得るためには、さらにその確率分布を作って、zの値をサンプリングしなければならない。一方、本発明の第1の実施の形態では、エンコーダの出力そのものが、zの値であり、すなわち、エンコーダの出力値をそのままデコーダの入力値として使用することができる。zの値を得た後のデコーダにおける処理は、本発明の第1の実施の形態も従来技術も同じである。   Further, according to the calculation method in the first embodiment of the present invention, it is possible to more easily determine the condition of whether the output of the auto encoder can reproduce the input data than the determination of the VAE according to the related art. According to the prior art, since the output value of the encoder is a parameter of the probability distribution of z, for example, in order to obtain a value to be input to the decoder, the probability distribution must be further generated and the value of z must be sampled. I must. On the other hand, in the first embodiment of the present invention, the output of the encoder itself is the value of z, that is, the output value of the encoder can be used as it is as the input value of the decoder. The processing in the decoder after obtaining the value of z is the same in both the first embodiment of the present invention and the prior art.

また、本発明の第1の実施の形態では、ドロップアウト率は、エンコーダで生成するzの確率分布を表現するために使用されることから、例えばドロップアウト層が1つの場合は、ドロップアウト率は相対的に大きい値(例えば、0.7以上の値)とすることが望ましい。   In the first embodiment of the present invention, the dropout rate is used to express the probability distribution of z generated by the encoder. For example, when there is one dropout layer, the dropout rate is Is preferably a relatively large value (for example, a value of 0.7 or more).

次に、本発明の第1の実施の形態における処理を実行することが可能な情報推定装置について説明する。図6は、本発明の第1の実施の形態における情報推定装置の構成の一例を示すブロック図である。図6の情報推定装置10は、ニューラルネットワークを用いて推定処理を行う推定器であり、オートエンコーダ計算部20、エンコーダ出力分布形状計算部30、コスト関数計算部40、パラメータ最適化計算部50を有する。   Next, an information estimation apparatus capable of executing the process according to the first embodiment of the present invention will be described. FIG. 6 is a block diagram showing an example of the configuration of the information estimation apparatus according to the first embodiment of the present invention. The information estimation apparatus 10 in FIG. 6 is an estimator that performs an estimation process using a neural network, and includes an auto encoder calculation unit 20, an encoder output distribution shape calculation unit 30, a cost function calculation unit 40, and a parameter optimization calculation unit 50. Have.

図6に示すブロック図は、本発明に関連した機能を表しているにすぎず、実際の実装では、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組み合わせによって実現されてもよい。ソフトウェアで実装される機能は、1つ又は複数の命令若しくはコードとして任意のコンピュータ可読媒体に記憶され、これらの命令又はコードは、CPU(Central Processing Unit:中央処理ユニット)やGPU(Graphics Processing Unit:グラフィックスプロセッシングユニット)などのハードウェアベースの処理ユニットによって実行可能である。また、本発明に関連した機能は、IC(Integrated Circuit:集積回路)やICチップセットなどを含む様々なデバイスによって実現されてもよい。   The block diagram shown in FIG. 6 only represents the functions related to the present invention, and in actual implementation, may be realized by hardware, software, firmware, or any combination thereof. Functions implemented by software are stored as one or a plurality of instructions or codes in an arbitrary computer-readable medium, and these instructions or codes are stored in a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit: GPU). It can be executed by a hardware-based processing unit such as a graphics processing unit. The functions related to the present invention may be realized by various devices including an IC (Integrated Circuit) and an IC chip set.

オートエンコーダ計算部20は、ニューラルネットワークにより構成されたエンコーダ及びデコーダを含むオートエンコーダを有し、入力データXについてエンコーダ及びデコーダで計算処理を行って、出力データXを出力する機能を有する。オートエンコーダ計算部20における計算に用いられるオートエンコーダは、図2〜図5を参照しながら説明したように、1つ又は2つ以上のドロップアウト層がエンコーダ内に設けられており、ドロップアウト層においてデータの一部がランダムに欠損される。これにより、オートエンコーダのエンコーダからの出力(潜在空間における出力)の値zを確率変数とすることができる。   The auto encoder calculation unit 20 includes an auto encoder including an encoder and a decoder configured by a neural network, and has a function of performing calculation processing on the input data X by the encoder and decoder and outputting the output data X. As described with reference to FIGS. 2 to 5, the auto encoder used for the calculation in the auto encoder calculation unit 20 is provided with one or more dropout layers in the encoder. A part of the data is lost at random. Thereby, the value z of the output from the encoder of the auto encoder (output in the latent space) can be used as a random variable.

エンコーダ出力分布形状計算部30は、入力のデータxがエンコーダでドロップアウトによってどのような確率分布の形状になったかを解析的に計算する機能を有する。エンコーダ出力分布形状計算部30は、例えば、入力データx、ドロップアウト層におけるドロップアウト率、パラメータ(例えば、FC層における重み及びバイアス)から、潜在空間における出力zの分布形状を計算することができる。   The encoder output distribution shape calculation unit 30 has a function of analytically calculating what kind of probability distribution shape the input data x has become due to dropout at the encoder. The encoder output distribution shape calculation unit 30 can calculate the distribution shape of the output z in the latent space from, for example, the input data x, the dropout rate in the dropout layer, and parameters (eg, weight and bias in the FC layer). .

コスト関数計算部40は、ドロップアウトによるエンコーダ出力分布形状計算部30で計算された分布形状(潜在空間における出力zの分布形状)から正則化の条件を満たすか計算し、さらに、オートエンコーダ計算部20から算出される出力xが入力xとどれだけ似ているかを計算することで、これら2つの計算結果を合わせた全体のコスト関数の値を計算する機能を有する。   The cost function calculation unit 40 calculates whether the regularization condition is satisfied from the distribution shape (distribution shape of the output z in the latent space) calculated by the encoder output distribution shape calculation unit 30 by dropout, and further, the auto encoder calculation unit By calculating how much the output x calculated from 20 is similar to the input x, it has a function of calculating the value of the total cost function combining these two calculation results.

パラメータ最適化計算部50は、コスト関数計算部40で計算されたコスト関数の値が最適化されるように、オートエンコーダ計算部20で参照した重み及びバイアスをどの値に最適化するのかを計算する機能を有する。パラメータ最適化計算部50は、コスト関数の値が最小になるようパラメータ(重み及びバイアス)を計算し、この計算の結果得られたパラメータはオートエンコーダ計算部20に供給されて、オートエンコーダのパラメータが更新される。   The parameter optimization calculation unit 50 calculates to which value the weight and bias referred to by the auto encoder calculation unit 20 are optimized so that the value of the cost function calculated by the cost function calculation unit 40 is optimized. It has the function to do. The parameter optimization calculation unit 50 calculates parameters (weights and biases) so that the value of the cost function is minimized, and the parameters obtained as a result of this calculation are supplied to the auto encoder calculation unit 20 and parameters of the auto encoder are calculated. Is updated.

以上のように構成された情報推定装置10において、大量の入力データXに対して繰返し最適化が行われることで、オートエンコーダから最適解が得られるように最適化が行われる。   In the information estimation apparatus 10 configured as described above, optimization is performed so that an optimal solution can be obtained from the auto encoder by repeatedly performing optimization on a large amount of input data X.

次に、図7を参照しながら、図6に図示されている情報推定装置10における処理の一例について説明する。図7は、本発明の第1の実施の形態における情報推定装置の処理の一例を示すフローチャートである。   Next, an example of processing in the information estimation apparatus 10 illustrated in FIG. 6 will be described with reference to FIG. FIG. 7 is a flowchart showing an example of processing of the information estimation apparatus according to the first embodiment of the present invention.

図7に示すフローチャートにおいて、最初に、オートエンコーダ計算部20は、オートエンコーダのパラメータ(重み、バイアス)を初期化する(ステップS101)。そして、学習データXがオートエンコーダの入力Xとして入力されると(ステップS102)、オートエンコーダ計算部20は、オートエンコーダのエンコーダにおいて潜在空間での値zを計算する(ステップS103)。   In the flowchart shown in FIG. 7, first, the auto encoder calculation unit 20 initializes parameters (weights and biases) of the auto encoder (step S101). When the learning data X is input as the input X of the auto encoder (step S102), the auto encoder calculation unit 20 calculates the value z in the latent space in the encoder of the auto encoder (step S103).

また、エンコーダ出力分布形状計算部30は、ドロップアウト率、入力データX、パラメータ(重み、バイアス)から、潜在空間での値zの分布形状を計算する(ステップS104)。エンコーダ出力分布形状計算部30で計算された潜在空間での値zの分布形状に係る情報は、コスト関数計算部40に供給される。   Also, the encoder output distribution shape calculation unit 30 calculates the distribution shape of the value z in the latent space from the dropout rate, the input data X, and the parameters (weights, bias) (step S104). Information related to the distribution shape of the value z in the latent space calculated by the encoder output distribution shape calculation unit 30 is supplied to the cost function calculation unit 40.

オートエンコーダ計算部20は、さらに、潜在空間での値zを用いて、オートエンコーダのデコーダの出力Xを計算する(ステップS105)。オートエンコーダ計算部20で計算されたオートエンコーダのデコーダの出力Xは、コスト関数計算部40に供給される。   The auto encoder calculation unit 20 further calculates the output X of the decoder of the auto encoder using the value z in the latent space (step S105). The output X of the decoder of the auto encoder calculated by the auto encoder calculation unit 20 is supplied to the cost function calculation unit 40.

コスト関数計算部40は、潜在空間での値zの分布形状に係る情報に基づいて正則化の条件を満たすかを計算し、さらに、出力Xが入力Xとどれだけ似ているかを計算して、これらの2つの計算結果を合わせた全体のコスト関数の値を計算する(ステップS106)。   The cost function calculation unit 40 calculates whether the regularization condition is satisfied based on the information related to the distribution shape of the value z in the latent space, and further calculates how much the output X is similar to the input X Then, the total cost function value obtained by combining these two calculation results is calculated (step S106).

パラメータ最適化計算部50は、コスト関数計算部40で計算されたコスト関数の値が最小になるようパラメータ(重み及びバイアス)を計算し、この計算結果に基づいて、オートエンコーダ計算部20におけるオートエンコーダのパラメータが更新される(ステップS107)。   The parameter optimization calculation unit 50 calculates parameters (weights and biases) so that the value of the cost function calculated by the cost function calculation unit 40 is minimized, and based on the calculation results, the auto encoder calculation unit 20 The encoder parameters are updated (step S107).

未処理の新しい学習データXが存在する場合(ステップS108で「はい」)にはステップS102に戻り、新しい学習データXについて同様の処理(ステップS103〜S107の処理)が実行される。すなわち、大量の学習データXについて、ステップS103〜S107の処理が繰り返し実行される。一方、すべての学習データXについて処理が実行され、未処理の新しい学習データXが存在しない場合(ステップS108で「いいえ」)には、処理は終了となる。   If unprocessed new learning data X exists (“Yes” in step S108), the process returns to step S102, and the same processing (processing in steps S103 to S107) is executed for the new learning data X. That is, the processing of steps S103 to S107 is repeatedly executed for a large amount of learning data X. On the other hand, when all the learning data X is processed and there is no unprocessed new learning data X (“No” in step S108), the processing ends.

次に、本発明の第1の実施の形態における情報推定装置を用いて実際に学習最適化計算を行った場合の実験結果について示す。なお、以下に記載する実験においては、図2及び図3に示されているオートエンコーダを採用し、エンコーダにドロップアウト層を1つ設けている。また、潜在空間での値zの次元数nzをnz=2としている。さらに、本発明に係る技術分野で利用されているMNISTデータ(0〜9の手書き数字の画像セット)を使用して学習を行うことで、入力されたMNISTデータを出力において復元するオートエンコーダを構築している。 Next, an experimental result when learning optimization calculation is actually performed using the information estimation apparatus according to the first embodiment of the present invention will be described. In the experiment described below, the auto encoder shown in FIGS. 2 and 3 is adopted, and one dropout layer is provided in the encoder. Also, the number of dimensions n z value z in latent space to a n z = 2. Furthermore, an auto encoder is constructed that restores the input MNIST data at the output by performing learning using the MNIST data (image set of handwritten numerals from 0 to 9) used in the technical field according to the present invention. doing.

最適化のためのアルゴリズムには、二乗平均平方根(RMS:root mean square)方式を使い、学習率0.001でオートエンコーダの重みとバイアスを計算している。また、上述の事前分布は、以下のようにして計算している。   The algorithm for optimization uses a root mean square (RMS) method, and calculates the weight and bias of the auto encoder at a learning rate of 0.001. Further, the above prior distribution is calculated as follows.

なお、もちろん、分散共分散行列の非対角項の部分、すなわち、共分散値を0以外の値にして、正の相関や負の相関を持たせることもできる。   Of course, the part of the non-diagonal term of the variance-covariance matrix, that is, the covariance value can be set to a value other than 0 to have a positive correlation or a negative correlation.

図9及び図10に、本発明の第1の実施の形態における情報推定装置を用いた実験によって得られた、潜在空間の次元数nzがnz=2の場合の潜在空間におけるzの値の分布を示す。なお、2次元のガウス分布を視覚化表示する方法としては、例えば、図8(a)に示すように、ガウス分布の幅を表すσの等高線の楕円と、さらにその分布に従って点在するモンテカルロ的(何度も試行を繰り返すこと)にサンプリングした点の散布図とを示す表示方法と、図8(b)に示すように、ガウス分布の幅を表すσの等高線の楕円と、さらに、そのガウス楕円の中心値、つまり平均値の点とを示す表示方法がある。図9は、実験結果を図8(a)の表示方法で表した図であり、図10は、実験結果を図8(b)の表示方法で表した図である。 FIG. 9 and FIG. 10 show the value of z in the latent space when the dimension number n z of the latent space is n z = 2 obtained by the experiment using the information estimation apparatus in the first embodiment of the present invention. The distribution of. As a method for visualizing and displaying a two-dimensional Gaussian distribution, for example, as shown in FIG. 8 (a), a σ contour ellipse representing the width of the Gaussian distribution, and a Monte Carlo-like dot scattered according to the distribution. A display method showing a scatter diagram of sampled points (repeating trials many times), an ellipse of a contour line of σ representing the width of a Gaussian distribution, and the Gaussian as shown in FIG. There is a display method that shows the center value of the ellipse, that is, the average value point. FIG. 9 is a diagram showing the experimental results by the display method of FIG. 8A, and FIG. 10 is a diagram showing the experimental results by the display method of FIG. 8B.

図9及び図10に図示されている実験結果は、MNISTデータを用いて5000回の最適化学習を行った状態で、モンテカルロ的に400個サンプリングした場合の潜在空間におけるzの値の分布を示している。MNISTデータの手書き数字0〜9いずれかのある1つの画像入力データに対し、1つのzの値の分布(楕円)が潜在空間に存在する。図9及び図10では、MNISTデータの画像の異なる手書き数字0〜9のそれぞれに対応する潜在空間でのzの値が異なる色によって表されている。   The experimental results shown in FIG. 9 and FIG. 10 show the distribution of the value of z in the latent space when the Monte Carlo sampling is performed 400 times with 5000 optimization learning using the MNIST data. ing. A distribution (ellipse) of one z value exists in the latent space for one piece of image input data that is one of the handwritten numerals 0 to 9 of the MNIST data. 9 and 10, z values in the latent space corresponding to the different handwritten numerals 0 to 9 of the MNIST data image are represented by different colors.

なお、本発明に係る技術分野では、通常、MNISTデータの手書き数字0〜9に対応して、例えばVAEにおける潜在空間での値zを色分け表示することが行われている。図9及び図10も、当業者が容易に理解できるようにこうした慣例にならって作成されたものであって本来はカラー図面であるが、モノクロ図面では色を表現することが困難である。図9及び図10に関して、手書き数字0〜9及び各数字に対応づけられた色について概略的に説明すると、潜在空間での値zは、手書き数字が0の場合は赤、1の場合は緑、2の場合は青、3の場合は黄色、4の場合は水色、5の場合は紫、6の場合はオレンジ、7の場合はピンク、8の場合は灰色、9の場合は黒にそれぞれ対応している。また、必ずしも正確な表現ではないが、図9及び図10の中心に対して、赤の点は1時の方向、緑の点は9時の方向、青の点は12時の方向、黄色の点は5時の方向、水色の点は5時の方向、紫の点は6時の方向、オレンジの点は5時の方向、ピンクの点は6時の方向、灰色の点は11時の方向、黒の点は4時の方向に塊を形成して広がりを有している。このように、図9及び図10では、2次元の潜在空間内で、同じ色同士、つまり同じ手書き数字同士が塊を形成して広がっている。したがって、入力されたMNISTデータに対して、手書き数字0〜9のいずれの画像であったのかを、正解ラベル無しの教師無し学習で、自動的に分類ができていることがわかる。   Note that, in the technical field according to the present invention, for example, the value z in the latent space in the VAE is displayed in different colors, for example, corresponding to the handwritten numerals 0 to 9 of the MNIST data. FIG. 9 and FIG. 10 are also made in accordance with such a convention so that those skilled in the art can easily understand, and are originally color drawings, but it is difficult to express colors in monochrome drawings. Referring to FIGS. 9 and 10, the handwritten numerals 0 to 9 and the colors associated with the numerals are schematically described. The value z in the latent space is red when the handwritten numeral is 0, and green when the handwritten numeral is 1. 2 for blue, 3 for yellow, 4 for light blue, 5 for purple, 6 for orange, 7 for pink, 8 for gray, 9 for black It corresponds. Also, although not necessarily an accurate representation, the red point is the direction of 1 o'clock, the green point is the direction of 9 o'clock, the blue point is the direction of 12 o'clock, and the center of FIGS. 9 and 10 is yellow. Point is 5 o'clock, light blue is 5 o'clock, purple is 6 o'clock, orange is 5 o'clock, pink is 6 o'clock, gray is 11 o'clock The direction and the black dot form a lump in the 4 o'clock direction and have a spread. As described above, in FIGS. 9 and 10, the same colors, that is, the same handwritten numerals spread in a two-dimensional latent space, forming a lump. Therefore, it can be seen that the input MNIST data can be automatically classified by the unsupervised learning without the correct answer label as to which of the handwritten numerals 0-9.

なお、例えば図9では、本発明の第1の実施の形態における解析的な計算によって得られた、潜在空間でのzの値のガウス分布のパラメータ(平均値、分散共分散値)に基づいて、各手書き数字の入力に対応する事後確率分布をqφ(z|x)が楕円で表されている。さらに、解析的な計算によって得られた事後確率分布(楕円)が正しいかどうかを視覚的に検証すべく、それぞれの楕円に対してモンテカルロ的にドロップアウトにより確率的に400個分散させた点を散布図としてプロットしている。これは、確かに解析的な計算によって得られた楕円が、ドロップアウトにより生じた確率分布をとらえていると評価するために行ったものであるが、実際に実施する場合には、このような細かい点を描画するための標本計算は不要である。 For example, in FIG. 9, based on the Gaussian distribution parameters (mean value, variance covariance value) of the z value in the latent space, obtained by the analytical calculation in the first embodiment of the present invention. The posterior probability distribution corresponding to the input of each handwritten digit is represented by an ellipse q φ (z | x). Furthermore, in order to visually verify whether the posterior probability distribution (ellipse) obtained by analytical calculation is correct or not, 400 points are distributed in a stochastic manner by dropout in a Monte Carlo manner for each ellipse. Plotted as a scatter plot. This was done in order to evaluate that the ellipse obtained by the analytical calculation certainly captured the probability distribution caused by the dropout. No sample calculation is required to draw fine points.

一方、非特許文献1に開示されている従来技術に係るVAEでは、図1を参照して説明したように、オートエンコーダの中心の潜在空間に関して計算できるのは、zの値そのものではなく、zがとる分布のパラメータである。したがって、従来技術に係るVAEでは、図9及び図10に示すようなzの値の散布図を直接描画することができない。このように、従来技術に係るVAEでは共分散値の計算は行われないことから、平均、分散、共分散の全てを使って初めて分かる確率分布の形状、すなわち、図9及び図10に示されている楕円形状を描くことができない。したがって、従来技術に係るVAEでは、実際の個々のzの値が潜在空間内で、異なる入力の手書き数字画像ごとに重なっているのか、あるいはきちんと分離できているのかを見ることもできない。   On the other hand, in the VAE according to the prior art disclosed in Non-Patent Document 1, as described with reference to FIG. 1, what can be calculated regarding the latent space at the center of the auto encoder is not the value of z itself but z Is a distribution parameter. Therefore, in the VAE according to the prior art, a scatter diagram of z values as shown in FIGS. 9 and 10 cannot be directly drawn. Thus, since the VAE according to the prior art does not calculate the covariance value, the shape of the probability distribution that can be understood only by using all of the mean, variance, and covariance, that is, shown in FIG. 9 and FIG. I can't draw an elliptical shape. Therefore, in the VAE according to the related art, it is impossible to see whether the actual individual z values overlap each other in different input handwritten numeral images or can be separated properly in the latent space.

また、もし、従来のVAEで得られる結果を用いて図9及び図10に示すような分布を表示しようとする場合には、zがとる分布のパラメータとして平均値μzと分散値diag(Σz)だけではなく、潜在空間における共分散値offdiag(Σz)の出力も用意して重みを学習させ、学習後の完成した分布からサンプリングを行ったうえで散布図として表示する必要がある。すなわち、従来のVAEで共分散値を計算しようとした場合には、分布形状を決定づけるパラメータがより多く必要となり、より複雑な構造を設計する必要がある。 Further, if it is intended to display the distribution as shown in FIGS. 9 and 10 using the result obtained by the conventional VAE, the average value μ z and the variance value diag (Σ It is necessary to prepare not only z ) but also the output of the covariance value offdiag (Σ z ) in the latent space to learn the weights, perform sampling from the completed distribution after learning, and display it as a scatter diagram. That is, when trying to calculate the covariance value by the conventional VAE, more parameters for determining the distribution shape are required, and it is necessary to design a more complicated structure.

また、図11(a)及び(b)は、本発明の第1の実施の形態における情報推定装置を用いた実験結果を評価するために作成された図である。図11(a)及び(b)は、2次元の潜在空間における20×20の各グリッドでサンプリングを行って、各グリッドの値をデコーダで手書き数字の画像に復元した結果を、そのグリッドの位置を反映させたまま並べてプロットした図である。なお、図11(a)には、オートエンコーダの最適化学習の回数がゼロ(学習回数=0、すなわち学習前)のときに得られた出力が図示されており、図11(b)には、オートエンコーダの最適化学習の回数が5000回目(学習回数=5000、すなわち学習後)のときに得られた出力が図示されている。   FIGS. 11A and 11B are diagrams created in order to evaluate the experimental results using the information estimation apparatus according to the first embodiment of the present invention. 11 (a) and 11 (b) show the results of sampling each 20 × 20 grid in a two-dimensional latent space and restoring the values of each grid into an image of a handwritten numeral by the decoder. It is the figure plotted side by side reflecting FIG. 11A shows an output obtained when the number of optimization learnings of the auto encoder is zero (learning number = 0, that is, before learning), and FIG. 11B shows the output. The output obtained when the number of optimization learnings of the auto encoder is 5000th (learning number = 5000, that is, after learning) is shown.

最適化学習の回数がゼロのときには、オートエンコーダからの出力は、入力された手書き数字画像を復元できておらず、図11(a)に示すようにただのランダムなノイズである。一方、最適化学習の回数が5000回目では、オートエンコーダからの出力は、図11(a)に示すように入力された手書き数字画像を復元できていることがわかる。また、形状が似たような数字は、潜在空間内で似たような箇所に存在しており、従来技術に係るVAEと同じような結果が得られている。   When the number of times of optimization learning is zero, the output from the auto encoder cannot be restored from the input handwritten numeral image, and is merely random noise as shown in FIG. On the other hand, when the number of optimization learnings is 5000, it can be seen that the output from the auto encoder can restore the input handwritten numeral image as shown in FIG. In addition, numbers having similar shapes are present in similar places in the latent space, and the same results as the VAE according to the prior art are obtained.

<第2の実施の形態>
次に、本発明の第2の実施の形態について説明する。上述した第1の実施の形態では、潜在空間でのzの値の確率分布qφ(z|x)は多変量ガウス分布であるとして計算を行っている。しかしながら、DF層からの出力XoutDFを計算するためのxinDF ji,j DF項の中に、他の項に比べて逸脱して大きい値を持つ項が存在する場合には、上述した第1の実施の形態のようなDF層からの出力XoutDFを多変量ガウス分布とする近似が成り立たない。その場合は、特許文献1に記述されるように、ピーク項と呼ばれる逸脱したxinDF ji,j DF項に対しては、ピーク項がドロップアウトされた場合及びドロップアウトされなかった場合を個別に考えることで、確率変数ではなく、条件確率下での定数ととらえ、それぞれの場合の下で、上述した第1の実施の形態のような多変量ガウス分布として計算することができる。そして、その場合は、複数の場合ごとの条件確率下での多変量ガウス分布となるため、DF層からの出力XoutDFは多変量“混合”ガウス分布となる。
<Second Embodiment>
Next, a second embodiment of the present invention will be described. In the first embodiment described above, the calculation is performed assuming that the probability distribution q φ (z | x) of the value of z in the latent space is a multivariate Gaussian distribution. However, if there is a term in the xin DF j Wi , j DF term for calculating the output Xout DF from the DF layer that deviates from other terms and has a large value, the above-mentioned An approximation in which the output Xout DF from the DF layer is a multivariate Gaussian distribution as in the first embodiment does not hold. In that case, as described in Patent Document 1, for a deviated xin DF j Wi , j DF term called a peak term, a case where the peak term is dropped out and a case where it is not dropped out are shown. By considering them individually, they are not random variables but are regarded as constants under conditional probabilities, and can be calculated as multivariate Gaussian distributions as in the first embodiment described above under each case. In that case, since the multivariate Gaussian distribution is obtained under the condition probabilities for each of a plurality of cases, the output Xout DF from the DF layer is a multivariate “mixed” Gaussian distribution.

なお、上述の第1の実施の形態では、DF層からの出力XoutDFの重みの計算に相当する項をWi,j DFXinDF jと記載していたが、第2の実施の形態では、xinDF ji,j DFと記載する。両者は表記が異なっているもの、同一の項を表している。 In the first embodiment described above, the term corresponding to the calculation of the weight of the output Xout DF from the DF layer is described as W i, j DF Xin DF j , but in the second embodiment, , Xin DF j Wi , j DF . Both represent different terms and the same term.

ドロップアウト層と全結合層からなるDF層に関して、その出力ベクトルのi番目の要素XoutDF iは、重みWと入力XinDFとの積の和に、バイアス項bi DFを加えたものであり、以下の式のように表される。 For the DF layer consisting of a dropout layer and a fully coupled layer, the i-th element Xout DF i of the output vector is the sum of the product of the weight W and the input Xin DF plus the bias term b i DF . Is expressed as the following equation.

その中のある1つの項が、他の項より逸脱してその絶対値が大きいピーク項(j=peak)である場合、つまり以下の式が成り立つ場合には、2つのガウス分布が混合した混合ガウス分布となる。   When one of the terms is a peak term (j = peak) that deviates from the other terms and has a large absolute value, that is, when the following formula is satisfied, a mixture in which two Gaussian distributions are mixed: Gaussian distribution.

なお、上記の式の不等号「≫」は、左辺の値が右辺の値より逸脱して大きいことを意味する。   The inequality sign “>>” in the above expression means that the value on the left side is larger than the value on the right side.

以下、より一般的な場合として、DF層(例えば、図3のDF1層)からの出力ベクトルXoutDFの確率分布について、どのように多変量混合ガウス分布として計算されるのかについて説明する。 Hereinafter, as a more general case, how the probability distribution of the output vector Xout DF from the DF layer (for example, the DF1 layer in FIG. 3) is calculated as a multivariate mixed Gaussian distribution will be described.

第1の実施の形態と全く同様に、nXout DF次元の出力ベクトルXoutDFは、nXout DF個の要素を持つ確率変数ベクトルであり、i番目の要素(1≦i≦nXout DF)を、XoutDF iと表す。それぞれの要素XoutDF iは、以下の式のように、インデックスj(1≦j≦nXin DF)で表されるnXin DF個のxW項を持った式となる。 Just as in the first embodiment, the n Xout DF- dimensional output vector Xout DF is a random variable vector having n Xout DF elements, and the i-th element (1 ≦ i ≦ n Xout DF ) And Xout DF i . Each element Xout DF i is an expression having n Xin DF xW terms represented by an index j (1 ≦ j ≦ n Xin DF ) as in the following expression.

ここで、前述のピーク項(j=peak)とは、ある1つのインデックスi番目の行(XoutDF i)の中で逸脱して大きい値を持つxW項ではなく、1≦i≦nXout DFの範囲のすべての行の中において、共通のインデックスjを持つ最も逸脱したxW項の値であり、j番目の列(“カラム”)のことである。そのため、あるインデックスiで特定される1つの行だけからピーク項を決定することはできず、例えば以下のような手順で、すべての行のインデックスiを見ながら、ピーク項(j=peak)のカラムを見つけ出す必要がある。 Here, the aforementioned peak term (j = peak) is not an xW term that deviates and has a large value in one index i-th row (Xout DF i ), but 1 ≦ i ≦ n Xout DF Is the value of the most deviating xW term with a common index j in all rows in the range, and is the j th column (“column”). Therefore, the peak term cannot be determined only from one row specified by a certain index i. For example, the peak term (j = peak) You need to find the column.

まず、すべてのnXin DF個のカラムに対して、逸脱度を示すカラムの箱PeakScorej(1≦j≦nXin DF)を用意し、以下のように初期値をゼロとする。 First, for every n Xin DF columns, a box PeakScore j (1 ≦ j ≦ n Xin DF ) indicating a deviation degree is prepared, and the initial value is set to zero as follows.

次に、あるi番目の行におけるピーク項を探す。すなわち、i番目の行のすべてのxWj項(1≦j≦nXin DF)の平均値xWMeaniを計算する。 Next, the peak term in a certain i-th row is searched. That is, the average value xWMean i of all xW j terms (1 ≦ j ≦ n Xin DF ) in the i-th row is calculated.

なお、右辺は、あるi番目の行において、すべてのインデックスjのxWj項の平均値を計算することを意味する。さらに、そのあるi番目の行における、それぞれのxWj項(1≦j≦nXin DF)について、平均値からどれだけ逸脱しているかを示す値xWDeviationi,jを計算する。この値は、例えば以下の式のように、平均値との差分の絶対値として計算される。 The right side means that the average value of the xW j terms of all indexes j is calculated in a certain i-th row. Further, for each xW j term (1 ≦ j ≦ n Xin DF ) in a certain i-th row, a value xWDevision i, j indicating how far from the average value is calculated. This value is calculated as an absolute value of a difference from the average value, for example, as in the following equation.

これにより、あるi番目の行におけるj番目のxWj項が平均値からどれだけ逸脱しているかを示すスコア(逸脱度)を計算することができる。すべての行(すべてのインデックスi)について上記の計算を行い、累積的に各インデックスjに対するスコアを蓄積していく。例えば以下のように、xWDeviationi,jの値を前述したカラムの箱PeakScorejに足し合わせる。 As a result, a score (deviation) indicating how much the j-th xW j term in an i-th row deviates from the average value can be calculated. The above calculation is performed for all rows (all indexes i), and the score for each index j is accumulated cumulatively. For example , the value of xWDDev i, j is added to the above-described column box PeakScore j as follows.

以上の計算をすべての行(すべてのインデックスi:1≦i≦nXout DF)について繰り返し、PeakScorejを更新していくことで、最終的に、各カラム(各インデックスj)の逸脱度を得ることができる。そして、最終的に得られたPeakScorej(1≦j≦nXin DF)を値が大きいものから順に並べて、PeakScorejが大きい値から順番に所定の個数(例えば、K個)のインデックスjを記録する。これにより、K個のインデックスj(jk=1,jk=2,…,jk=K)が、コラムとしてのピーク項xWjの候補として特定される。 The above calculation is repeated for all rows (all indexes i: 1 ≦ i ≦ n Xout DF ), and PeakScore j is updated to finally obtain the deviation degree of each column (each index j). be able to. Then, finally obtained PeakScore j (1 ≦ j ≦ n Xin DF ) is arranged in descending order, and a predetermined number (for example, K) of indexes j are recorded in order from the largest PeakScore j. To do. Thus, K indexes j (j k = 1 , j k = 2 ,..., J k = K ) are specified as candidates for the peak term xW j as a column.

次に、それぞれのピーク項xWjに対して、ドロップアウトされた場合/ドロップアウトされなかった場合の組み合わせを考え、混合ガウス分布を作成する。K個のピーク項を考慮した場合には、混合ガウス分布の混合数は2K個となる。 Next, for each peak term xW j , a combination of cases where it is dropped out / not dropped out is considered, and a mixed Gaussian distribution is created. When K peak terms are considered, the number of mixtures in the mixed Gaussian distribution is 2 K.

なお、ピーク項として記録する個数(K個)が大きいほど、正確に真の確率分布を計算することができるが、一方、Kの値を大きくすれば計算負荷が大きくなってしまう。したがって、Kの値は、計算負荷とのトレードオフにより、計算処理できる範囲でユーザが事前に指定してもよい。ピーク項の個数(Kの値)は1又は2以上の整数とすることが可能であり、また、ピーク項の個数(Kの値)をゼロとした場合は、上述した本発明の第1の実施の形態と同様の計算となる。   Note that the true probability distribution can be calculated more accurately as the number (K) recorded as peak terms is larger. On the other hand, increasing the value of K increases the calculation load. Therefore, the value of K may be specified in advance by the user within a range that can be calculated by a trade-off with the calculation load. The number of peak terms (K value) can be 1 or an integer greater than or equal to 2, and when the number of peak terms (K value) is zero, the first aspect of the present invention described above can be used. The calculation is the same as in the embodiment.

以下、第1の実施の形態に係る計算において、K個のすべてのピーク項xWj(j=jK=1,jK=2,…,jk=K)についてドロップアウトされた場合/ドロップアウトされなかった場合を考慮し、それぞれの場合における条件確率の下でガウス分布として近似した出力XoutDFの確率分布を計算する計算方法について、具体的な例を用いて説明する。 Hereinafter, in the calculation according to the first embodiment, when all K peak terms xW j (j = j K = 1 , j K = 2 ,..., J k = K ) are dropped out / dropped A calculation method for calculating the probability distribution of the output Xout DF approximated as a Gaussian distribution under the conditional probabilities in each case will be described using a specific example.

ここでは、具体例としてピーク項の個数を2個(K=2)とし、前述のPeakScorejから計算された2つのピーク項xWjのインデックスj(j=jK=1,jK=2)が、jK=1=3、jK=2=5であった場合を考える。すなわち、ピーク項はxWj=3とxWj=5である。 Here, as a specific example, the number of peak terms is two (K = 2), and the indexes j (j = j K = 1 , j K = 2 ) of the two peak terms xW j calculated from the aforementioned PeakScore j. Suppose that j K = 1 = 3 and j K = 2 = 5. That is, the peak terms are xW j = 3 and xW j = 5 .

2つのピーク項xWj=3、xWj=5がドロップアウトされた場合/ドロップアウトされなかった場合の組み合わせは、下記のケース(1)〜(4)の2K=2=4通り存在する。 There are 2 K = 2 = 4 combinations in the following cases (1) to (4) when the two peak terms xW j = 3 and xW j = 5 are dropped out / not dropped out. .

(1)xWj=3がドロップアウトされた、xWj=5がドロップアウトされた
(2)xWj=3がドロップアウトされた、xWj=5がドロップアウトされなかった
(3)xWj=3がドロップアウトされなかった、xWj=5がドロップアウトされた
(4)xWj=3がドロップアウトされなかった、xWj=5がドロップアウトされなかった
(1) xW j = 3 was dropped out, xW j = 5 was dropped out (2) xW j = 3 was dropped out, xW j = 5 was not dropped out (3) xW j = 3 was not dropped out, xW j = 5 was dropped out (4) xW j = 3 was not dropped out, xW j = 5 was not dropped out

上記4つのケース(1)〜(4)を考慮すると、出力XoutDFの確率分布は4つの多変量混合ガウス分布となる。ケース(1)〜(4)のそれぞれのケースが起こり得る確率は、DF層におけるドロップアウト率をpDrop DFとすると、以下のようになる。 Considering the above four cases (1) to (4), the probability distribution of the output Xout DF becomes four multivariate mixed Gaussian distributions. The probability that each of cases (1) to (4) may occur is as follows when the dropout rate in the DF layer is p Drop DF .

ピーク項に対応するインデックスjK=1=3、jK=2=5以外のすべてのインデックスjにおけるxinDF ji,j DF項(1≦j、j≠3,j≠5≦nXin DF)は、ドロップアウトにより消えたり残ったりとゆらゆら変化する確率変数である。一方、ピーク項xinDF j=3i,j=3 DFとxinDF j=5i,j=5 DFは、それぞれの項がドロップアウトされた場合/ドロップアウトされなかった場合を考えるので、それぞれの条件下での固定値として取り扱うことができる。このことから、第2の実施の形態では、第1の実施の形態に係る計算において、あるi番目の行における確率変数として考えるxinDF ji,j DF項群のうち、ピーク項xinDF j=3i,j=3 DFとピーク項xinDF j=5i,j=5 DFは取り除いて、以下のように計算する。 Xin DF j Wi , j DF term (1 ≦ j, j ≠ 3, j ≠ 5 ≦ n Xin ) in all indexes j other than the index j K = 1 = 3 and j K = 2 = 5 corresponding to the peak term DF ) is a random variable that fluctuates and disappears due to dropout. On the other hand, since the peak terms xin DF j = 3 Wi , j = 3 DF and xin DF j = 5 Wi , j = 5 DF are considered when each term is dropped out / not dropped out. , And can be treated as a fixed value under each condition. Therefore, in the second embodiment, in the calculation according to the first embodiment, among the xin DF j Wi , j DF term groups considered as random variables in a certain i-th row, the peak term xin DF j = 3 W i, j = 3 DF and peak term xin DF j = 5 W i, j = 5 DF are removed and calculation is performed as follows.

したがって、ケース(1)〜(4)のそれぞれの場合において、平均値は以下のようになる。   Therefore, in each case (1) to (4), the average value is as follows.

また、分散値は、以下のように、第1の実施の形態と同様の式で計算できる。   In addition, the variance value can be calculated by the same formula as in the first embodiment as follows.

ただし、ListWDFDF iに関して、2つのピーク項を確率変数でなく定数として取り扱うため、バイアス項と同様にピーク項xinDF j=3i,j=3 DFとピーク項xinDF j=5i,j=5 DFを無視することができる。したがって、以下の式のように、ピーク項に対応するインデックスjK=1=3、jK=2=5を除くxinDF ji,j DF項のリストListWDFDF j≠3,j≠5,iを計算に使用する。 However, with respect to ListW DF x DF i , since the two peak terms are treated as constants instead of random variables, the peak term xin DF j = 3 W i, j = 3 DF and the peak term xin DF j = 5 as well as the bias term. Wi, j = 5 DF can be ignored. Accordingly, as shown in the following expression, the index j K = 1 = 3, j K = xin DF j W i except 2 = 5, j list of DF claim ListW DF x DF j ≠ 3 corresponding to the peak section, j ≠ 5, i is used for the calculation.

このようにピーク項を除いたListWDFDF iを使用して、前述した式から分散値Var(XoutDF i)を求める。分散値Var(XoutDF i)は、ケース(1)〜(4)において、すべて同じ値となる。 In this way, using ListW DF x DF i excluding the peak term, the variance value Var (Xout DF i ) is obtained from the above-described equation. The variance value Var (Xout DF i ) is the same in all cases (1) to (4).

また、共分散値も第1の実施の形態と同様に求められる。   Also, the covariance value is obtained in the same manner as in the first embodiment.

共分散値は、ケース(1)〜(4)において、すべて同じ値となる。   The covariance values are all the same in cases (1) to (4).

最終的に、分散共分散行列は、すべてのケース(1)〜(4)において同じ値となる。   Finally, the variance-covariance matrix has the same value in all cases (1) to (4).

以上、4つのケース(1)〜(4)について、各ケースが起こり得る確率値と、各ケースにおける平均値、分散値、共分散値が計算できる。これらを単純に確率値を重みとして足し合わせることで、以下の式のように、4つのガウス分布を混合させた多変量混合ガウス分布として、出力値の確率分布を計算することができる。   As described above, for the four cases (1) to (4), the probability value in which each case can occur and the average value, variance value, and covariance value in each case can be calculated. By simply adding the probability values as weights, the probability distribution of the output values can be calculated as a multivariate mixed Gaussian distribution in which four Gaussian distributions are mixed as in the following equation.

また、第1の実施の形態では、出力値の確率分布qφ(z|x)が正則化の条件を満たすかを判定するために、多変量ガウス分布である確率分布qφ(z|x)と事前分布pθ(z)とのKLダイバージェンスを計算している。一方、第2の実施の形態では、出力値の確率分布qφ(z|x)が混合ガウス分布である。混合ガウスのKLダイバージェンスの計算には、解析的解は存在しないが、非特許文献2に挙げられるような、変分近似(Variational Approximation)法など、様々な近似計算法で計算することができる。 In the first embodiment, the probability of the output value distribution q phi | to (z x) to determine whether the condition is satisfied regularization probability multivariate Gaussian distribution q φ (z | x ) And the prior distribution p θ (z). On the other hand, in the second embodiment, the output value probability distribution q φ (z | x) is a mixed Gaussian distribution. There is no analytical solution for the calculation of the mixed Gaussian KL divergence, but it can be calculated by various approximation calculation methods such as the variational approximation method described in Non-Patent Document 2.

以上の第2の実施の形態に係る計算方法により、第1の実施の形態の拡張として、潜在空間でのzの値の確率分布qφ(z|x)を多変量混合ガウス分布として計算することができる。その計算結果として、図12及び図13に、それぞれ、ピーク項の個数を4個(K=4)として、2K=4=16個のガウス分布からなる混合ガウス分布で、潜在変数の潜在空間でのzの値の確率分布qφ(z|x)を2次元でプロットさせたものを示す。この場合、入力画像としては、図の右上に小さく示される文字「H」の画像を入れた。図9に示すガウス分布のときと同様に、モンテカルロの分布(散布図や1次元のヒストグラム)と解析的分布(2次元の等高線、1次元の関数の形状)が一致し、解析的に分布を混合ガウスとして計算できていることがわかる。 With the calculation method according to the second embodiment described above, as an extension of the first embodiment, the probability distribution q φ (z | x) of the value of z in the latent space is calculated as a multivariate mixed Gaussian distribution. be able to. As a result of the calculation, FIGS. 12 and 13 each show a mixed Gaussian distribution composed of 2 K = 4 = 16 Gaussian distributions with 4 peak terms (K = 4), and the latent space of the latent variable. 2 shows a two-dimensional plot of the probability distribution q φ (z | x) of the value of z. In this case, as the input image, an image of the letter “H” shown small in the upper right of the figure is put. As in the case of the Gaussian distribution shown in FIG. 9, the Monte Carlo distribution (scatter chart or one-dimensional histogram) and the analytical distribution (two-dimensional contour lines, one-dimensional function shape) coincide, and the distribution is analytically determined. It can be seen that it can be calculated as a mixed Gaussian.

また、図5に図示されているように複数のドロップアウト層を設けた場合においても、混合ガウス分布の条件確率下でのそれぞれのガウス分布について個別に第1の実施の形態と同様の計算を行うことで、出力値qφ(z|x)の確率分布を計算することができる。ただし、エンコーダに設けられたDF層で計算が行われるとガウス分布がさらに複数の混合ガウス分布に分かれるため、複数の各DF層を伝搬するごとに、混合数がどんどん増えていく。そのため、例えば既存の技術を利用して、似ている混合ガウス分布同士を融合させるなどの処理を行うことで、ガウス分布の混合数を低減させながら計算を行ってもよい。 Further, even when a plurality of dropout layers are provided as shown in FIG. 5, the same calculation as that of the first embodiment is performed individually for each Gaussian distribution under the condition probability of the mixed Gaussian distribution. By doing so, the probability distribution of the output value q φ (z | x) can be calculated. However, when the calculation is performed in the DF layer provided in the encoder, the Gaussian distribution is further divided into a plurality of mixed Gaussian distributions, so that the number of mixtures increases every time a plurality of DF layers are propagated. Therefore, for example, calculation may be performed while reducing the number of Gaussian distributions by performing a process such as merging similar Gaussian distributions using existing technology.

また、本発明の第2の実施の形態に係る情報推定装置は、本発明の第1の実施の形態に係る情報推定装置の構成(図6に図示されている構成)を拡張することによって実現可能である。例えば、オートエンコーダ計算部20に、DF層の出力値XoutDF iを計算する際に現れる重みWと入力XinDFとの積であるxW項のピーク項を決定する機能を有するデータ解析部を設ければよい。そして、オートエンコーダ計算部20が、データ解析部で特定されたK個のピーク項について上述した計算を実行するよう拡張されることで、潜在空間において、多変量混合ガウス分布に従ったzの値を出力することが可能となる。また、正則化の条件に係る計算についても、オートエンコーダ計算部20が上述した計算を実行するよう拡張されればよい。 Moreover, the information estimation apparatus according to the second embodiment of the present invention is realized by extending the configuration of the information estimation apparatus according to the first embodiment of the present invention (configuration illustrated in FIG. 6). Is possible. For example, the auto encoder calculation unit 20 is provided with a data analysis unit having a function of determining the peak term of the xW term that is the product of the weight W that appears when calculating the output value Xout DF i of the DF layer and the input Xin DF Just do it. Then, the auto encoder calculation unit 20 is expanded to perform the above-described calculation for the K peak terms specified by the data analysis unit, so that the value of z according to the multivariate mixed Gaussian distribution in the latent space. Can be output. Further, the calculation related to the regularization condition may be extended so that the auto encoder calculation unit 20 executes the above-described calculation.

本発明は、ニューラルネットワークを使用した推定技術に適用可能であり、確率的要素を備えた新たなオートエンコーダを実現することが可能である。   The present invention is applicable to an estimation technique using a neural network, and can realize a new auto encoder having a stochastic element.

10 情報推定装置
20 オートエンコーダ計算部
30 エンコーダ出力分布形状計算部
40 コスト関数計算部
50 パラメータ最適化計算部
DESCRIPTION OF SYMBOLS 10 Information estimation apparatus 20 Auto encoder calculation part 30 Encoder output distribution shape calculation part 40 Cost function calculation part 50 Parameter optimization calculation part

Claims (12)

ニューラルネットワークを使用して推定処理を行う情報推定装置であって、
エンコーダ及びデコーダにより構成されたオートエンコーダを備え、前記オートエンコーダに入力された入力データに基づいて前記エンコーダ及び前記デコーダで順次計算処理を行い、前記推定処理の結果として前記オートエンコーダから出力データを出力するよう構成されているオートエンコーダ計算部を有し、
データの一部をドロップアウトさせるドロップアウト層と、前記ドロップアウト層から出力されたデータに対して重みの計算を行う全結合層との組み合わせからなる少なくとも1つの一体化層を、前記エンコーダの最終層として設けることで、前記エンコーダからの出力値である潜在空間での出力値が多次元確率変数ベクトルとなるように構成されている情報推定装置。
An information estimation device that performs an estimation process using a neural network,
An auto encoder composed of an encoder and a decoder is provided, and the encoder and the decoder sequentially perform calculation processing based on input data input to the auto encoder, and output data from the auto encoder as a result of the estimation processing An auto-encoder calculator configured to
At least one integrated layer composed of a combination of a dropout layer that drops out a part of data and a fully connected layer that performs weight calculation on the data output from the dropout layer, An information estimation apparatus configured so that an output value in a latent space which is an output value from the encoder becomes a multidimensional random variable vector by being provided as a layer.
前記オートエンコーダ計算部は、前記ドロップアウト層において、あらかじめ定められたドロップアウト率に従って前記一体化層に入力されるデータの一部をドロップアウトさせるとともに、前記全結合層において、前記ドロップアウト層から出力されたデータのベクトルの値に重みの行列を掛けた項のリストの和にバイアスを加えた値を計算するよう構成されており、
前記リストに含まれる各項のうちの一部が、前記ドロップアウト率に従ってゼロとなる請求項1に記載の情報推定装置。
The auto encoder calculation unit causes the dropout layer to drop out a part of data input to the integrated layer according to a predetermined dropout rate, and from the dropout layer to the total coupling layer. It is configured to calculate a biased sum of a list of terms obtained by multiplying the value of the vector of output data by a matrix of weights,
The information estimation apparatus according to claim 1, wherein a part of each item included in the list becomes zero according to the dropout rate.
前記一体化層に入力される前記データ、前記ドロップアウト率、前記重み、前記バイアスに基づいて、前記潜在空間での出力値である多次元確率変数ベクトルが従う確率分布の平均値、分散値、共分散値を計算するエンコーダ出力分布形状計算部を有する請求項2に記載の情報推定装置。   Based on the data input to the integration layer, the dropout rate, the weight, and the bias, an average value of a probability distribution followed by a multidimensional random variable vector that is an output value in the latent space, a variance value, The information estimation apparatus according to claim 2, further comprising an encoder output distribution shape calculation unit that calculates a covariance value. エンコーダ出力分布形状計算部は、
前記リストに含まれる各項の和にドロップアウトされずに残る比率を掛けて、さらにバイアスを加えることで、前記リストの和が従う分布の平均値を計算し、
前記リストの分散値を計算して標本平均の分散値計算を行うことで、前記リストの和が従う分布の分散値を計算し、
前記リストの和が従う分布の前記分散値から、前記リストの和のある2つの要素の相関を示す共分散値を計算し、
前記平均値、前記分散値、前記共分散値から、前記潜在空間での出力値である多次元確率変数ベクトルが従う確率分布の形状を解析的に計算するよう構成されている請求項3に記載の情報推定装置。
The encoder output distribution shape calculator
Multiply the sum of each term in the list by the ratio that remains without being dropped out, and add a bias to calculate the average value of the distribution that the list sum follows,
By calculating the variance value of the list and calculating the variance value of the sample mean, the variance value of the distribution followed by the sum of the list is calculated,
Calculating from the variance values of the distribution followed by the sum of the list a covariance value indicating the correlation of two elements with the sum of the list;
4. The shape of a probability distribution followed by a multidimensional random variable vector that is an output value in the latent space is analytically calculated from the average value, the variance value, and the covariance value. Information estimation device.
前記潜在空間での出力値である多次元確率変数ベクトルが従う確率分布が事前分布と同じ形状に留まるよう正則化させる正則化処理と、前記オートエンコーダから出力される前記出力データが前記オートエンコーダに入力される前記入力データを復元する復元処理とを評価するコスト関数を計算するコスト関数計算部と、
前記コスト関数に基づいて、前記正則化処理及び前記復元処理を最適化するパラメータを計算し、前記オートエンコーダの計算で用いられるパラメータを前記最適化パラメータで更新するパラメータ最適化計算部とを、
有する請求項1から4のいずれか1つに記載の情報推定装置。
Regularization processing for regularizing the probability distribution followed by the multidimensional random variable vector, which is an output value in the latent space, to remain in the same shape as the prior distribution, and the output data output from the auto encoder to the auto encoder A cost function calculation unit that calculates a cost function for evaluating a restoration process for restoring the input data that is input;
Based on the cost function, calculate a parameter for optimizing the regularization process and the restoration process, and update a parameter used in the calculation of the auto encoder with the optimization parameter;
The information estimation device according to any one of claims 1 to 4.
前記一体化層から出力されるデータである多次元確率変数ベクトルデータの各要素を計算する際に使用される、前記ドロップアウト層から出力されたデータのベクトルの値に重みの行列を掛けた項のリストにおいて、前記多次元確率変数ベクトルの各要素に含まれる共通のインデックスで特定される項を参照し、他のインデックスで特定される項よりも大きい値を持つ項のインデックスを所定の個数だけ抽出して、他の項よりも大きい値を持つピーク項として特定するデータ解析部を有し、
前記オートエンコーダ計算部は、前記ピーク項が前記ドロップアウト層においてドロップアウトされる場合と、前記ピーク項が前記ドロップアウト層においてドロップアウトされない場合とに分けて、それぞれの場合のガウス分布の平均値、分散値、共分散値を計算し、さらに、それぞれの場合が起こる確率値を用いて、それぞれの場合のガウス分布の混合和を計算することで、多変量混合ガウス分布を算出するよう構成されている請求項2に記載の情報推定装置。
A term obtained by multiplying the value of a vector of data output from the dropout layer by a matrix of weights used in calculating each element of multidimensional random variable vector data that is data output from the integration layer In the list of, a term specified by a common index included in each element of the multi-dimensional random variable vector is referred to, and a predetermined number of indexes of terms having terms larger than terms specified by other indexes are used. A data analysis unit that extracts and identifies as a peak term with a value greater than other terms;
The auto encoder calculation unit is divided into a case where the peak term is dropped out in the dropout layer and a case where the peak term is not dropped out in the dropout layer, and an average value of the Gaussian distribution in each case. The multivariate mixed Gaussian distribution is calculated by calculating the variance value and the covariance value, and further calculating the mixture sum of the Gaussian distribution in each case using the probability value in which each case occurs. The information estimation apparatus according to claim 2.
ニューラルネットワークを使用して推定処理を行う情報推定装置で行われる情報推定方法であって、
エンコーダ及びデコーダにより構成されたオートエンコーダを用いて、前記オートエンコーダに入力された入力データに基づいて前記エンコーダ及び前記デコーダで順次計算処理を行い、前記推定処理の結果として前記オートエンコーダから出力データを出力するオートエンコーダ計算ステップを有し、
データの一部をドロップアウトさせるドロップアウト層と、前記ドロップアウト層から出力されたデータに対して重みの計算を行う全結合層との組み合わせからなる少なくとも1つの一体化層を、前記エンコーダの最終層として設けることで、前記エンコーダからの出力値である潜在空間での出力値を多次元確率変数ベクトルとする情報推定方法。
An information estimation method performed by an information estimation apparatus that performs an estimation process using a neural network,
Using an auto encoder configured by an encoder and a decoder, the encoder and the decoder sequentially perform calculation processing based on input data input to the auto encoder, and output data from the auto encoder is obtained as a result of the estimation processing. An auto encoder calculation step to output,
At least one integrated layer composed of a combination of a dropout layer that drops out a part of data and a fully connected layer that performs weight calculation on the data output from the dropout layer, An information estimation method in which an output value in a latent space, which is an output value from the encoder, is provided as a layer and a multidimensional random variable vector is used.
前記オートエンコーダ計算ステップは、前記ドロップアウト層において、あらかじめ定められたドロップアウト率に従って前記一体化層に入力されるデータの一部をドロップアウトさせるとともに、前記全結合層において、前記ドロップアウト層から出力されたデータのベクトルの値に重みの行列を掛けた項のリストの和にバイアスを加えた値を計算し、
前記リストに含まれる各項のうちの一部が、前記ドロップアウト率に従ってゼロとなる請求項7に記載の情報推定方法。
The auto encoder calculation step causes the dropout layer to drop out a part of the data input to the integrated layer according to a predetermined dropout rate, and from the dropout layer to the total coupling layer. Calculate the biased value of the sum of the list of terms multiplied by a weight matrix multiplied by the vector value of the output data,
The information estimation method according to claim 7, wherein a part of each item included in the list becomes zero according to the dropout rate.
前記一体化層に入力される前記データ、前記ドロップアウト率、前記重み、前記バイアスに基づいて、前記潜在空間での出力値である多次元確率変数ベクトルが従う確率分布の平均値、分散値、共分散値を計算するエンコーダ出力分布形状計算ステップを有する請求項8に記載の情報推定方法。   Based on the data input to the integration layer, the dropout rate, the weight, and the bias, an average value of a probability distribution followed by a multidimensional random variable vector that is an output value in the latent space, a variance value, The information estimation method according to claim 8, further comprising an encoder output distribution shape calculation step for calculating a covariance value. エンコーダ出力分布形状計算ステップは、
前記リストに含まれる各項の和にドロップアウトされずに残る比率を掛けて、さらにバイアスを加えることで、前記リストの和が従う分布の平均値を計算するステップと、
前記リストの分散値を計算して標本平均の分散値計算を行うことで、前記リストの和が従う分布の分散値を計算するステップと、
前記リストの和が従う分布の前記分散値から、前記リストの和のある2つの要素の相関を示す共分散値を計算するステップと、
前記平均値、前記分散値、前記共分散値から、前記潜在空間での出力値である多次元確率変数ベクトルが従う確率分布の形状を解析的に計算するステップとを、
有する請求項9に記載の情報推定方法。
The encoder output distribution shape calculation step
Multiplying the sum of each term contained in the list by the ratio that remains without being dropped out, and adding a bias to calculate an average value of the distribution followed by the sum of the list;
Calculating a variance value of the list by calculating a variance value of the list by calculating a variance value of the sample average; and
Calculating a covariance value indicating the correlation between two elements of the list sum from the variance value of the distribution followed by the list sum;
Analytically calculating the shape of a probability distribution followed by a multidimensional random variable vector that is an output value in the latent space from the mean value, the variance value, and the covariance value;
The information estimation method according to claim 9.
前記潜在空間での出力値である多次元確率変数ベクトルが従う確率分布が事前分布と同じ形状に留まるよう正則化させる正則化処理と、前記オートエンコーダから出力される前記出力データが前記オートエンコーダに入力される前記入力データを復元する復元処理とを評価するコスト関数を計算するコスト関数計算ステップと、
前記コスト関数に基づいて、前記正則化処理及び前記復元処理を最適化するパラメータを計算し、前記オートエンコーダの計算で用いられるパラメータを前記最適化パラメータで更新するパラメータ最適化計算ステップとを、
有する請求項7から10のいずれか1つに記載の情報推定方法。
Regularization processing for regularizing the probability distribution followed by the multidimensional random variable vector, which is an output value in the latent space, to remain in the same shape as the prior distribution, and the output data output from the auto encoder to the auto encoder A cost function calculating step for calculating a cost function for evaluating a restoration process for restoring the input data inputted;
A parameter optimization calculation step of calculating a parameter for optimizing the regularization process and the restoration process based on the cost function, and updating a parameter used in the calculation of the auto encoder with the optimization parameter;
The information estimation method according to any one of claims 7 to 10.
前記一体化層から出力されるデータである多次元確率変数ベクトルデータの各要素を計算する際に使用される、前記ドロップアウト層から出力されたデータのベクトルの値に重みの行列を掛けた項のリストにおいて、前記多次元確率変数ベクトルの各要素に含まれる共通のインデックスで特定される項を参照し、他のインデックスで特定される項よりも大きい値を持つ項のインデックスを所定の個数だけ抽出して、他の項よりも大きい値を持つピーク項として特定するデータ解析ステップを有し、
前記オートエンコーダ計算ステップは、前記ピーク項が前記ドロップアウト層においてドロップアウトされる場合と、前記ピーク項が前記ドロップアウト層においてドロップアウトされない場合とに分けて、それぞれの場合のガウス分布の平均値、分散値、共分散値を計算し、さらに、それぞれの場合が起こる確率値を用いて、それぞれの場合のガウス分布の混合和を計算することで、多変量混合ガウス分布を算出する請求項8に記載の情報推定方法。
A term obtained by multiplying the value of a vector of data output from the dropout layer by a matrix of weights used in calculating each element of multidimensional random variable vector data that is data output from the integration layer In the list of, a term specified by a common index included in each element of the multi-dimensional random variable vector is referred to, and a predetermined number of indexes of terms having terms larger than terms specified by other indexes are used. Having a data analysis step to extract and identify as a peak term with a value greater than the other terms;
The auto encoder calculation step is divided into a case where the peak term is dropped out in the dropout layer and a case where the peak term is not dropped out in the dropout layer, and an average value of the Gaussian distribution in each case. The multivariate mixed Gaussian distribution is calculated by calculating a variance value and a covariance value, and further calculating a mixture sum of the Gaussian distributions in each case using a probability value in which each case occurs. Information estimation method described in 1.
JP2018021943A 2018-02-09 2018-02-09 Information estimation device and information estimation method Active JP6893483B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018021943A JP6893483B2 (en) 2018-02-09 2018-02-09 Information estimation device and information estimation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018021943A JP6893483B2 (en) 2018-02-09 2018-02-09 Information estimation device and information estimation method

Publications (2)

Publication Number Publication Date
JP2019139482A true JP2019139482A (en) 2019-08-22
JP6893483B2 JP6893483B2 (en) 2021-06-23

Family

ID=67694065

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018021943A Active JP6893483B2 (en) 2018-02-09 2018-02-09 Information estimation device and information estimation method

Country Status (1)

Country Link
JP (1) JP6893483B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020047010A (en) * 2018-09-20 2020-03-26 株式会社デンソーアイティーラボラトリ Information estimation device and information estimation method
CN111161249A (en) * 2019-12-31 2020-05-15 复旦大学 Unsupervised medical image segmentation method based on domain adaptation
WO2021161823A1 (en) * 2020-02-14 2021-08-19 住友電気工業株式会社 Determination device, restoration model generation method, and computer program
JP2021163039A (en) * 2020-03-31 2021-10-11 東芝情報システム株式会社 Plane data processing device, plane data processing method and plane data processing program
JP2022179359A (en) * 2021-05-20 2022-12-02 アクタピオ,インコーポレイテッド Information processing method, information processor, and information processing program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161635A1 (en) * 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design
WO2017094267A1 (en) * 2015-12-01 2017-06-08 株式会社Preferred Networks Abnormality detection system, abnormality detection method, abnormality detection program, and method for generating learned model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017094267A1 (en) * 2015-12-01 2017-06-08 株式会社Preferred Networks Abnormality detection system, abnormality detection method, abnormality detection program, and method for generating learned model
US20180365089A1 (en) * 2015-12-01 2018-12-20 Preferred Networks, Inc. Abnormality detection system, abnormality detection method, abnormality detection program, and method for generating learned model
US20170161635A1 (en) * 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design
JP2019502988A (en) * 2015-12-02 2019-01-31 株式会社Preferred Networks Generative machine learning system for drug design

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020047010A (en) * 2018-09-20 2020-03-26 株式会社デンソーアイティーラボラトリ Information estimation device and information estimation method
JP7046768B2 (en) 2018-09-20 2022-04-04 株式会社デンソーアイティーラボラトリ Information estimation device and information estimation method
CN111161249A (en) * 2019-12-31 2020-05-15 复旦大学 Unsupervised medical image segmentation method based on domain adaptation
CN111161249B (en) * 2019-12-31 2023-06-02 复旦大学 Unsupervised medical image segmentation method based on domain adaptation
WO2021161823A1 (en) * 2020-02-14 2021-08-19 住友電気工業株式会社 Determination device, restoration model generation method, and computer program
JP2021163039A (en) * 2020-03-31 2021-10-11 東芝情報システム株式会社 Plane data processing device, plane data processing method and plane data processing program
JP7092312B2 (en) 2020-03-31 2022-06-28 東芝情報システム株式会社 Plane data processing device, plane data processing method and plane data processing program
JP2022179359A (en) * 2021-05-20 2022-12-02 アクタピオ,インコーポレイテッド Information processing method, information processor, and information processing program
JP7275350B2 (en) 2021-05-20 2023-05-17 アクタピオ,インコーポレイテッド Information processing method, information processing device, and information processing program

Also Published As

Publication number Publication date
JP6893483B2 (en) 2021-06-23

Similar Documents

Publication Publication Date Title
JP6893483B2 (en) Information estimation device and information estimation method
Montavon et al. Wasserstein training of restricted Boltzmann machines
EP2973241B1 (en) Signal processing systems
Charles et al. Learning sparse codes for hyperspectral imagery
CN108241888A (en) Information estimation device and information estimating method
US11954115B2 (en) Methods and systems for wavelet based representation
Leroux et al. Training binary neural networks with knowledge transfer
Bethge et al. Near-maximum entropy models for binary neural representations of natural images
JP7046768B2 (en) Information estimation device and information estimation method
Laparra et al. Information theory measures via multidimensional gaussianization
Tang et al. Attribute fusion in a latent process model for time series of graphs
CN112949658A (en) Deep learning method with stable performance
Sondak et al. Learning a reduced basis of dynamical systems using an autoencoder
Shen et al. Efficient hyperspectral sparse regression unmixing with multilayers
Ortelli et al. Faster estimation of discrete choice models via dataset reduction
Bartan et al. Neural Fisher discriminant analysis: Optimal neural network embeddings in polynomial time
Xu et al. Sliced inverse regression with adaptive spectral sparsity for dimension reduction
Zhang et al. Wasserstein generative recurrent adversarial networks for image generating
WO2020040007A1 (en) Learning device, learning method, and learning program
Taylor et al. DM-pruning CADJ graphs for SOM clustering
Wang et al. Stochastic Markov $ k $-Tree Network Sparsification Learning for Image Classification
US20230267661A1 (en) Systems and methods for generating a single-index model tree
Baena et al. Inferring Graph Signal Translations as Invariant Transformations for Classification Tasks
Daube et al. Deep neural network explains human visual categorisation using similar functional features
Caruso et al. Markov-chain approach to the distribution of ancestors in species of biparental reproduction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210601

R150 Certificate of patent or registration of utility model

Ref document number: 6893483

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150