JP7178323B2 - LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM - Google Patents

LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM Download PDF

Info

Publication number
JP7178323B2
JP7178323B2 JP2019096975A JP2019096975A JP7178323B2 JP 7178323 B2 JP7178323 B2 JP 7178323B2 JP 2019096975 A JP2019096975 A JP 2019096975A JP 2019096975 A JP2019096975 A JP 2019096975A JP 7178323 B2 JP7178323 B2 JP 7178323B2
Authority
JP
Japan
Prior art keywords
input value
neural network
deep neural
learning
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019096975A
Other languages
Japanese (ja)
Other versions
JP2020191006A (en
Inventor
優 大屋
哲志 八木
慎 河野
仁 中澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Keio University
Original Assignee
Nippon Telegraph and Telephone Corp
Keio University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Keio University filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019096975A priority Critical patent/JP7178323B2/en
Publication of JP2020191006A publication Critical patent/JP2020191006A/en
Application granted granted Critical
Publication of JP7178323B2 publication Critical patent/JP7178323B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、学習装置、学習方法、および、学習プログラムに関する。 The present invention relates to a learning device, a learning method, and a learning program.

ディープニューラルネットワークは、画像や音声認識をはじめ、様々な分野で用いられるモデルである。このモデルは、多層のニューラルネットワークで構成され、ニューラルネットワークは、複数のパーセプトロンで構成される。 Deep neural networks are models used in various fields, including image and speech recognition. This model is composed of a multi-layered neural network, and the neural network is composed of multiple perceptrons.

このパーセプトロンは、複数の入力信号に対し、それぞれ重みと呼ばれるパラメータと積和することで1つの値を得る。また、パーセプトロンは、次の層の入力信号を与えるために、活性化関数と呼ばれる非線形な関数で得られた値を射影し、その信号値を出力する。ディープニューラルネットワークは、上記のような計算を入力層から出力層に向けて順に行い、各層に信号を伝えることで、入力信号に対する予測値を得ることができる。 This perceptron obtains one value by summing products with parameters called weights for a plurality of input signals. Also, the perceptron projects a value obtained by a nonlinear function called an activation function to give an input signal for the next layer, and outputs the signal value. A deep neural network can obtain a predicted value for an input signal by sequentially performing the above-described calculations from the input layer to the output layer and transmitting signals to each layer.

ここで、ディープニューラルネットワークのパラメータおよび信号の値を二値化し、計算時におけるメモリ消費量を低減する手法が知られている(例えば、非特許文献1を参照)。このように、パラメータおよび信号の値を二値化して計算を行うディープニューラルネットワークをバイナリネットワークと呼ぶ。 Here, there is known a method of binarizing the values of parameters and signals of a deep neural network to reduce memory consumption during calculation (see, for example, Non-Patent Document 1). A deep neural network that performs calculations by binarizing the values of parameters and signals in this way is called a binary network.

I. Hubara, M. Courbariaux, D. Soudry, R. El-Yaniv, and Y. Bengio, Binarized Neural Networks: Training Neural Networks with Weights and Activations Constrained to +1 or -1, pp.4107-4115, 2016.I. Hubara, M. Courbariaaux, D. Soudry, R. El-Yaniv, and Y. Bengio, Binarized Neural Networks: Training Neural Networks with Weights and Activations Constrained to +1 or -1, pp.4107-4115, 2016. J. Xu, P. Wang, H. Yang, A. M. Lopez, Training a Binary Weight Object Detector by Knowledge Transfer for Autonomous Driving, arXiv preprint arXiv:1804.06332, 2018.J. Xu, P. Wang, H. Yang, A. M. Lopez, Training a Binary Weight Object Detector by Knowledge Transfer for Autonomous Driving, arXiv preprint arXiv:1804.06332, 2018.

しかし、バイナリネットワークは、パラメータおよび信号が二値に限定されるため、入力層にノイズが入ると出力層から得られる予測値が大きく変わってしまうおそれがある。つまり、バイナリネットワークはロバスト性が低いという問題がある。そこで、本発明は、前記した問題を解決し、ロバスト性の高いバイナリネットワークを提供することを課題とする。 However, since the binary network is limited to binary parameters and signals, if noise enters the input layer, the predicted value obtained from the output layer may change significantly. In other words, binary networks have the problem of low robustness. Accordingly, an object of the present invention is to solve the above-described problems and to provide a highly robust binary network.

前記した課題を解決するため、本発明は、ディープニューラルネットワークの各層で用いる重みの値を二値化する変換部と、前記重みの値が二値化されたディープニューラルネットワークへの入力値と当該入力値の関連情報とを用いて、情報ボトルネック法により、前記入力値を確率変数としたときの確率的写像を、前記ディープニューラルネットワークおいて、入力値から前記入力値の関連情報を予測する際に用いる潜在変数として出力する計算部とを備えることを特徴とする。 In order to solve the above-described problems, the present invention provides a conversion unit that binarizes weight values used in each layer of a deep neural network, an input value to the deep neural network in which the weight values are binarized, and the relevant Predicting the relevant information of the input value from the input value in the deep neural network by using the information bottleneck method using the relevant information of the input value and the probabilistic mapping when the input value is a random variable. and a calculation unit that outputs as a latent variable that is used in the process.

本発明によれば、ロバスト性の高いバイナリネットワークを提供することができる。 According to the present invention, it is possible to provide a highly robust binary network.

図1は、学習装置によるバイナリネットワークの学習の概要を説明する図である。FIG. 1 is a diagram explaining an outline of learning of a binary network by a learning device. 図2は、学習装置の構成例を示す図である。FIG. 2 is a diagram showing a configuration example of a learning device. 図3は、学習装置の処理手順の例を示すフローチャートである。FIG. 3 is a flow chart showing an example of a processing procedure of the learning device. 図4は、学習プログラムを実行するコンピュータの例を示す図である。FIG. 4 is a diagram showing an example of a computer that executes a learning program.

以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。まず、本実施形態の学習装置による学習対象となるバイナリネットワークについて説明する。 EMBODIMENT OF THE INVENTION Hereinafter, the form (embodiment) for implementing this invention is demonstrated, referring drawings. First, a binary network to be learned by the learning device of this embodiment will be described.

バイナリネットワークは、順伝搬において、(l-1)層から入力された各信号x(l-1)をパラメータwと積和する。そして、バイナリネットワークは、この積和の結果を符号関数signにより活性化させた信号x(l)を得ると、この信号x(l)を次の層に出力する。なお、バイナリネットワークは、上記の積和の際、パラメータwを符号関数signにより二値化させる(式(1)参照)。 In forward propagation, the binary network multiplies each signal x (l-1 ) input from the (l-1 ) layer with the parameter w. Then, when the binary network obtains the signal x (l) obtained by activating the product-sum result with the sign function sign, it outputs this signal x (l) to the next layer. In addition, the binary network binarizes the parameter w using the sign function sign (see equation (1)) in the sum of products described above.

Figure 0007178323000001
Figure 0007178323000001

[概要]
次に、学習装置によるバイナリネットワークの学習の概要を、図1を用いて説明する。なお、図1に示すバイナリネットワークA,Bは、学習対象のバイナリネットワークに含まれるサブネットワークであるものとする。このうちバイナリネットワークAは、パラメータθを用いて、入力データxの写像としてzを計算し、バイナリネットワークBは、パラメータφを用いて、入力データzの写像として予測ラベルyを計算するものとする。ここでバイナリネットワークAの確率分布はpθ(z|x)であり、バイナリネットワークBの確率分布はqφ(y|z)であるものとする。
[Overview]
Next, an outline of learning of a binary network by a learning device will be described with reference to FIG. Binary networks A and B shown in FIG. 1 are assumed to be sub-networks included in the binary network to be learned. Of these, the binary network A uses the parameter θ to calculate z as a map of the input data x, and the binary network B uses the parameter φ to calculate the predicted label y as a map of the input data z. . Here, the probability distribution of binary network A is p θ (z|x), and the probability distribution of binary network B is q φ (y|z).

このような場合、学習装置は、まず、上記のパラータθ,φを二値化する。その後、学習装置は、情報ボトルネック(information bottleneck)法を用いて、バイナリネットワークへの入力データxの確率的写像zを求める。ここで求めた写像zの確率分布rθ(z)は、バイナリネットワークへの入力データxにノイズが含まれていたとしても、当該入力データの正解ラベルごとに共通のものとなる。換言すると、入力データxが異なっていても、当該入力データの正解ラベルごとに共通の確率分布rθ(z)が現れる。よって、学習装置10は、ロバスト性の高いバイナリネットワークを得ることができる。 In such a case, the learning device first binarizes the parameters θ and φ. The learning device then uses the information bottleneck method to find a probabilistic mapping z of the input data x to the binary network. The probability distribution r θ (z) of the mapping z obtained here is common for each correct label of the input data even if the input data x to the binary network contains noise. In other words, even if the input data x is different, a common probability distribution r θ (z) appears for each correct label of the input data. Therefore, the learning device 10 can obtain a highly robust binary network.

[構成]
次に、図2を用いて学習装置の構成を説明する。学習装置10は、入出力部11と、制御部12と、記憶部13とを備える。入出力部11は、各種情報の入出力を司る。例えば、入出力部11は、制御部12による学習対象のバイナリネットワークで用いるパラメータwの初期値等、学習に用いる各種データの入力を受け付ける。
[Constitution]
Next, the configuration of the learning device will be described with reference to FIG. The learning device 10 includes an input/output unit 11 , a control unit 12 and a storage unit 13 . The input/output unit 11 controls input/output of various information. For example, the input/output unit 11 receives input of various data used for learning, such as the initial value of the parameter w used in the binary network to be learned by the control unit 12 .

制御部12は、学習装置10全体の制御を司る。この制御部12は、変換部121と、計算部122とを備える。変換部121は、ディープニューラルネットワーク(バイナリネットワーク)の各層で用いる重みの値を二値化する、例えば、変換部121は、符号関数signを用いて、ディープニューラルネットワーク(バイナリネットワーク)の各層で用いる重みの値を+1および-1のいずれかに二値化する。 The control unit 12 controls the learning device 10 as a whole. This control unit 12 includes a conversion unit 121 and a calculation unit 122 . The conversion unit 121 binarizes the weight values used in each layer of the deep neural network (binary network). For example, the conversion unit 121 uses the sign function sign to be used in each layer of the deep neural network (binary network). The weight value is binarized to either +1 or -1.

計算部122は、変換部121により重みの値が二値化されたバイナリネットワークについて情報ボトルネック法を用いた学習を行う。計算部122は、重みの値が二値化されたディープニューラルネットワークへの入力値と当該入力値の関連情報とを用いて、情報ボトルネック法により、1以上の入力値を、当該入力値の関連情報が類似するようクラスタリングする。そして、計算部122は、上記のクラスタリングにおける入力値を確率変数としたときの確率的写像を、上記のディープニューラルネットワークおいて、入力値から当該入力値の関連情報を予測する際に用いる潜在変数として出力する。この計算部122の詳細は後記する。 The calculation unit 122 performs learning using the information bottleneck method on the binary network in which the weight values are binarized by the conversion unit 121 . Calculation unit 122 calculates one or more input values by the information bottleneck method using input values to the deep neural network with binarized weight values and related information of the input values. Cluster related information so that they are similar. Then, the calculation unit 122 converts the probabilistic mapping when the input values in the clustering are random variables into the latent variables used when predicting related information of the input values from the input values in the deep neural network. output as Details of the calculation unit 122 will be described later.

記憶部13は、制御部12による学習により得られたバイナリネットワークのモデルを記憶する。モデルは、例えば、上記のバイナリネットワークの各層で用いられる重み(パラメータw)の値や、潜在変数(z)、活性化関数等の情報を含む。 The storage unit 13 stores a binary network model obtained by learning by the control unit 12 . The model includes information such as the value of the weight (parameter w) used in each layer of the above binary network, the latent variable (z), activation function, and the like.

[処理手順]
学習装置10の処理手順を、図3を用いて説明する。例えば、学習装置10の変換部121は、ディープニューラルネットワーク(バイナリネットワーク)の各層で用いる重みの値を二値化する(S1)。その後、計算部122は、S1で重みの値が二値化されたバイナリネットワークについて情報ボトルネック法を用いた潜在変数の算出を行う(S2)。
[Processing procedure]
A processing procedure of the learning device 10 will be described with reference to FIG. For example, the conversion unit 121 of the learning device 10 binarizes weight values used in each layer of a deep neural network (binary network) (S1). After that, the calculation unit 122 calculates latent variables using the information bottleneck method for the binary network in which the weight values are binarized in S1 (S2).

[計算部の詳細]
上記の計算部122を詳細に説明する。計算部122は、重みの値が二値化されたバイナリネットワークについて、当該バイナリネットワークへの入力値と当該入力値の関連情報とを用いて、情報ボトルネックにより、入力値の関連情報が類似するようクラスタリングする。この関連情報は、入力値に関連する情報であり、例えば、入力値が単語である場合、当該入力値の関連情報は、当該単語を含む文書のトピック等である。
[Details of calculation part]
The above calculation unit 122 will be described in detail. The calculation unit 122 uses the input value to the binary network and the related information of the input value for the binary network in which the weight values are binarized, and the related information of the input value is similar due to the information bottleneck. Cluster like this. This related information is information related to the input value. For example, when the input value is a word, the related information of the input value is the topic of the document including the word.

ここで、計算部122は、上記のクラスタリングにおいて、入力値を離散確率変数としたときのクラスタ変数への確率的写像を、上記のバイナリネットワークおいて、入力値から当該入力値の関連情報を予測する際に用いる潜在変数として出力する。 Here, in the above clustering, the calculation unit 122 predicts the probabilistic mapping to the cluster variable when the input value is a discrete random variable, and predicts the relevant information of the input value from the input value in the above binary network. Output as a latent variable used when

一般に情報ボトルネックを用いたクラスタリングは、クラスタリングの対象である変数X、変数Xのクラスタ変数(変数Xの確率的写像)Z、変数Xの関連情報Yを用いて、式(2)の値を最小化することにより行われる。なお、式(2)におけるIは相互情報量である。つまり、XとZとの相互情報量I(X;Z)をできるだけ小さくし、ZとYとの相互情報量I(Z;Y)をできるだけ大きくするようなZを求めることにより行われる。 In general, clustering using an information bottleneck uses the variable X to be clustered, the cluster variable (probabilistic mapping of the variable X) Z of the variable X, and the related information Y of the variable X to obtain the value of formula (2) This is done by minimizing Note that I in Equation (2) is the amount of mutual information. That is, it is performed by obtaining Z such that the mutual information I(X; Z) between X and Z is minimized and the mutual information I(Z; Y) between Z and Y is maximized.

Figure 0007178323000002
Figure 0007178323000002

ここで、学習装置10による学習対象のバイナリネットワークが入力データxからその入力データxのラベル値yを予測するものである場合、計算部122は、上記の入力データxを離散確率変数とし、ラベル値yを入力データxの関連情報とし、以下の式(3)を最小化する、入力データxの確率的写像z(潜在変数z)を求める。 Here, when the binary network to be learned by the learning device 10 predicts the label value y of the input data x from the input data x, the calculation unit 122 treats the input data x as a discrete random variable, labels Letting the value y be related information of the input data x, find a probabilistic mapping z (latent variable z) of the input data x that minimizes the following equation (3).

Figure 0007178323000003
Figure 0007178323000003

ここでr(z)を、周辺分布p(z)の変分近似としたとき、上記の式(3)を最小化することは、以下の式(4)を最小化するのと同義である。 Here, when r(z) is a variational approximation of the marginal distribution p(z), minimizing the above equation (3) is synonymous with minimizing the following equation (4). .

Figure 0007178323000004
Figure 0007178323000004

ここで、pθ(z|x)は、パラメータθを持つバイナリネットワークにxを与えたときのzの確率分布であり、qφ(y|z)は、パラメータφを持つバイナリネットワークにzを与えたときのyの確率分布である。なお、このpθ(z|x)は、パラメータθを持つバイナリネットワークの出力値から得られ、qφ(y|z)は、パラメータφを持つバイナリネットワークの出力値から得られるものとする。また、rθ(z)は、z(潜在変数z)の事前分布であり、平均μ、分散σのガウス分布(N(μ,σ))に従うものとする。 where p θ (z|x) is the probability distribution of z given x in a binary network with parameter θ, and q φ (y|z) is the probability distribution of z in a binary network with parameter φ. is the probability distribution of y given Note that this p θ (z|x) is obtained from the output values of a binary network with parameter θ, and q φ (y|z) is obtained from the output values of a binary network with parameter φ. Also, r θ (z) is a prior distribution of z (latent variable z), and is assumed to follow a Gaussian distribution (N(μ, σ)) with mean μ and variance σ.

計算部122は、式(4)に示すようにKLダイバージェンスの項で正則化しながら、バイナリネットワークの学習を行う。これにより、当該バイナリネットワークのモデルは、入力データxから特徴zの得られるモデルとなるため、入力データxにノイズが入っていたとしても共通の特徴zが得られやすくなる。その結果、例えば、当該バイナリネットワークが入力データxから当該入力データxの予測ラベルyを出力する場合に、ロバスト性の高い予測ラベルyの出力を実現することができる。 The calculation unit 122 learns the binary network while performing regularization with the KL divergence term as shown in Equation (4). As a result, the binary network model becomes a model that can obtain the feature z from the input data x, so that the common feature z can be easily obtained even if the input data x contains noise. As a result, for example, when the binary network outputs the predicted label y of the input data x from the input data x, output of the predicted label y with high robustness can be achieved.

[プログラム]
また、上記の実施形態で述べた学習装置10の機能を実現するプログラムを所望の情報処理装置(コンピュータ)にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistants)等がその範疇に含まれる。また、学習装置10を、クラウドサーバに実装してもよい。
[program]
Moreover, it can be implemented by installing a program that implements the functions of the learning device 10 described in the above embodiment into a desired information processing device (computer). For example, the information processing device can function as the learning device 10 by causing the information processing device to execute the above program provided as package software or online software. The information processing apparatus referred to here includes desktop or notebook personal computers, rack-mounted server computers, and the like. In addition, information processing devices include smart phones, mobile communication terminals such as mobile phones and PHSs (Personal Handyphone Systems), and PDAs (Personal Digital Assistants). Also, the learning device 10 may be implemented in a cloud server.

図4を用いて、上記のプログラム(学習プログラム)を実行するコンピュータの一例を説明する。図4に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。 An example of a computer that executes the above program (study program) will be described with reference to FIG. As shown in FIG. 4, computer 1000 includes memory 1010, CPU 1020, hard disk drive interface 1030, disk drive interface 1040, serial port interface 1050, video adapter 1060, and network interface 1070, for example. These units are connected by a bus 1080 .

メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。 The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 . The ROM 1011 stores a boot program such as BIOS (Basic Input Output System). Hard disk drive interface 1030 is connected to hard disk drive 1090 . A disk drive interface 1040 is connected to the disk drive 1100 . A removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100, for example. A mouse 1110 and a keyboard 1120 are connected to the serial port interface 1050, for example. For example, a display 1130 is connected to the video adapter 1060 .

ここで、図4に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。前記した実施形態で説明した各種データや情報は、例えばハードディスクドライブ1090やメモリ1010に記憶される。 Here, as shown in FIG. 4, the hard disk drive 1090 stores an OS 1091, application programs 1092, program modules 1093 and program data 1094, for example. Various data and information described in the above embodiments are stored in the hard disk drive 1090 and the memory 1010, for example.

そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。 Then, CPU 1020 reads out program module 1093 and program data 1094 stored in hard disk drive 1090 to RAM 1012 as necessary, and executes each procedure described above.

なお、上記の学習プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。 Note that the program module 1093 and program data 1094 related to the learning program described above are not limited to being stored in the hard disk drive 1090. For example, they may be stored in a removable storage medium and processed by the CPU 1020 via the disk drive 1100 or the like. may be read out. Alternatively, the program module 1093 and program data 1094 related to the above program are stored in another computer connected via a network such as LAN or WAN (Wide Area Network), and are read by CPU 1020 via network interface 1070. may be

10 学習装置
11 入出力部
12 制御部
13 記憶部
121 変換部
122 計算部
10 learning device 11 input/output unit 12 control unit 13 storage unit 121 conversion unit 122 calculation unit

Claims (4)

ディープニューラルネットワークの各層で用いる重みの値を二値化する変換部と、
前記重みの値が二値化されたディープニューラルネットワークへの入力値と当該入力値の関連情報とを用いて、情報ボトルネック法により、前記入力値を確率変数としたときの確率的写像を、前記ディープニューラルネットワークおいて、入力値から前記入力値の関連情報を予測する際に用いる潜在変数として出力する計算部と、
を備えることを特徴とする学習装置。
a conversion unit that binarizes the weight values used in each layer of the deep neural network;
Using the input value to the deep neural network in which the weight value is binarized and related information of the input value, the information bottleneck method is used to generate a probabilistic mapping when the input value is a random variable, In the deep neural network, a calculation unit that outputs as a latent variable used when predicting related information of the input value from the input value;
A learning device comprising:
前記変換部は、
前記ディープニューラルネットワークの各層で用いる重みの値を、符号関数を用いて+1および-1のいずれかの値に変換する
ことを特徴とする請求項1に記載の学習装置。
The conversion unit
2. The learning device according to claim 1, wherein a weight value used in each layer of said deep neural network is converted to either +1 or -1 using a sign function.
ディープニューラルネットワークの学習装置により実行される学習方法であって、
前記ディープニューラルネットワークの各層で用いる重みの値を二値化するステップと、
前記重みの値が二値化されたディープニューラルネットワークへの入力値と当該入力値の関連情報とを用いて、情報ボトルネック法により、前記入力値を確率変数としたときの確率的写像を、前記ディープニューラルネットワークおいて、入力値から前記入力値の関連情報を予測する際に用いる潜在変数として出力するステップと、
を含むことを特徴とする学習方法。
A learning method performed by a deep neural network learning device, comprising:
a step of binarizing weight values used in each layer of the deep neural network;
Using the input value to the deep neural network in which the weight value is binarized and related information of the input value, the information bottleneck method is used to generate a probabilistic mapping when the input value is a random variable, In the deep neural network, outputting as a latent variable used when predicting related information of the input value from the input value;
A learning method comprising:
ディープニューラルネットワークの各層で用いる重みの値を二値化するステップと、
前記重みの値が二値化されたディープニューラルネットワークへの入力値と当該入力値の関連情報とを用いて、情報ボトルネック法により、前記入力値を確率変数としたときの確率的写像を、前記ディープニューラルネットワークおいて、入力値から前記入力値の関連情報を予測する際に用いる潜在変数として出力するステップと、
をコンピュータに実行させることを特徴とする学習プログラム。
a step of binarizing the weight values used in each layer of the deep neural network;
Using the input value to the deep neural network in which the weight value is binarized and related information of the input value, the information bottleneck method is used to generate a probabilistic mapping when the input value is a random variable, In the deep neural network, outputting as a latent variable used when predicting related information of the input value from the input value;
A learning program characterized by causing a computer to execute
JP2019096975A 2019-05-23 2019-05-23 LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM Active JP7178323B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019096975A JP7178323B2 (en) 2019-05-23 2019-05-23 LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019096975A JP7178323B2 (en) 2019-05-23 2019-05-23 LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM

Publications (2)

Publication Number Publication Date
JP2020191006A JP2020191006A (en) 2020-11-26
JP7178323B2 true JP7178323B2 (en) 2022-11-25

Family

ID=73454029

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019096975A Active JP7178323B2 (en) 2019-05-23 2019-05-23 LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM

Country Status (1)

Country Link
JP (1) JP7178323B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018092377A (en) 2016-12-02 2018-06-14 国立大学法人東京工業大学 Neural network circuit device, neural network, neural network processing method and neural network executing program
JP2019061496A (en) 2017-09-26 2019-04-18 株式会社エクォス・リサーチ Information processing apparatus
WO2019097014A1 (en) 2017-11-16 2019-05-23 Institut Pasteur Method, device, and computer program for generating protein sequences with autoregressive neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018092377A (en) 2016-12-02 2018-06-14 国立大学法人東京工業大学 Neural network circuit device, neural network, neural network processing method and neural network executing program
JP2019061496A (en) 2017-09-26 2019-04-18 株式会社エクォス・リサーチ Information processing apparatus
WO2019097014A1 (en) 2017-11-16 2019-05-23 Institut Pasteur Method, device, and computer program for generating protein sequences with autoregressive neural networks

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Shin Ando, et al.,Unsupervised Cross-Domain Learning by Interaction Information Co-clustering,2008 Eighth IEEE International Conference on Data Mining,IEEE,2008年12月15日,pp. 13-22,<DOI: 10.1109/ICDM.2008.92>
吉田 哲也,情報論的クラスタリングに対する局所性保存グラフモデル,情報処理学会研究報告 数理モデル化と問題解決(MPS)[online],情報処理学会,2016年12月05日,Vol. 2016-MPS-111, No, 11

Also Published As

Publication number Publication date
JP2020191006A (en) 2020-11-26

Similar Documents

Publication Publication Date Title
JP7470476B2 (en) Integration of models with different target classes using distillation
CN111797893B (en) Neural network training method, image classification system and related equipment
US11816790B2 (en) Unsupervised learning of scene structure for synthetic data generation
CN109800732B (en) Method and device for generating cartoon head portrait generation model
US11651214B2 (en) Multimodal data learning method and device
EP3853764A1 (en) Training neural networks for vehicle re-identification
EP3924893A1 (en) Incremental training of machine learning tools
KR20190018276A (en) Method and apparatus for training model and for recognizing bawed on the model
CN113159283B (en) Model training method based on federal transfer learning and computing node
CN112002309A (en) Model training method and apparatus
CN111435461B (en) Antagonistic input recognition using reduced accuracy deep neural networks
US11514692B2 (en) Method and apparatus for building image model
CN111523640A (en) Training method and device of neural network model
WO2023231954A1 (en) Data denoising method and related device
CN112446888A (en) Processing method and processing device for image segmentation model
CN111738403A (en) Neural network optimization method and related equipment
EP3855388A1 (en) Image processing device and operation method thereof
CN114817612A (en) Method and related device for calculating multi-modal data matching degree and training calculation model
US11562235B2 (en) Activation function computation for neural networks
JP7178323B2 (en) LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM
CN111652320A (en) Sample classification method and device, electronic equipment and storage medium
US20220383073A1 (en) Domain adaptation using domain-adversarial learning in synthetic data systems and applications
CN110689117A (en) Information processing method and device based on neural network
KR102334666B1 (en) A method for creating a face image
US20220004904A1 (en) Deepfake detection models utilizing subject-specific libraries

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190524

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221114

R150 Certificate of patent or registration of utility model

Ref document number: 7178323

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150