JP7178323B2 - LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM - Google Patents
LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM Download PDFInfo
- Publication number
- JP7178323B2 JP7178323B2 JP2019096975A JP2019096975A JP7178323B2 JP 7178323 B2 JP7178323 B2 JP 7178323B2 JP 2019096975 A JP2019096975 A JP 2019096975A JP 2019096975 A JP2019096975 A JP 2019096975A JP 7178323 B2 JP7178323 B2 JP 7178323B2
- Authority
- JP
- Japan
- Prior art keywords
- input value
- neural network
- deep neural
- learning
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、学習装置、学習方法、および、学習プログラムに関する。 The present invention relates to a learning device, a learning method, and a learning program.
ディープニューラルネットワークは、画像や音声認識をはじめ、様々な分野で用いられるモデルである。このモデルは、多層のニューラルネットワークで構成され、ニューラルネットワークは、複数のパーセプトロンで構成される。 Deep neural networks are models used in various fields, including image and speech recognition. This model is composed of a multi-layered neural network, and the neural network is composed of multiple perceptrons.
このパーセプトロンは、複数の入力信号に対し、それぞれ重みと呼ばれるパラメータと積和することで1つの値を得る。また、パーセプトロンは、次の層の入力信号を与えるために、活性化関数と呼ばれる非線形な関数で得られた値を射影し、その信号値を出力する。ディープニューラルネットワークは、上記のような計算を入力層から出力層に向けて順に行い、各層に信号を伝えることで、入力信号に対する予測値を得ることができる。 This perceptron obtains one value by summing products with parameters called weights for a plurality of input signals. Also, the perceptron projects a value obtained by a nonlinear function called an activation function to give an input signal for the next layer, and outputs the signal value. A deep neural network can obtain a predicted value for an input signal by sequentially performing the above-described calculations from the input layer to the output layer and transmitting signals to each layer.
ここで、ディープニューラルネットワークのパラメータおよび信号の値を二値化し、計算時におけるメモリ消費量を低減する手法が知られている(例えば、非特許文献1を参照)。このように、パラメータおよび信号の値を二値化して計算を行うディープニューラルネットワークをバイナリネットワークと呼ぶ。 Here, there is known a method of binarizing the values of parameters and signals of a deep neural network to reduce memory consumption during calculation (see, for example, Non-Patent Document 1). A deep neural network that performs calculations by binarizing the values of parameters and signals in this way is called a binary network.
しかし、バイナリネットワークは、パラメータおよび信号が二値に限定されるため、入力層にノイズが入ると出力層から得られる予測値が大きく変わってしまうおそれがある。つまり、バイナリネットワークはロバスト性が低いという問題がある。そこで、本発明は、前記した問題を解決し、ロバスト性の高いバイナリネットワークを提供することを課題とする。 However, since the binary network is limited to binary parameters and signals, if noise enters the input layer, the predicted value obtained from the output layer may change significantly. In other words, binary networks have the problem of low robustness. Accordingly, an object of the present invention is to solve the above-described problems and to provide a highly robust binary network.
前記した課題を解決するため、本発明は、ディープニューラルネットワークの各層で用いる重みの値を二値化する変換部と、前記重みの値が二値化されたディープニューラルネットワークへの入力値と当該入力値の関連情報とを用いて、情報ボトルネック法により、前記入力値を確率変数としたときの確率的写像を、前記ディープニューラルネットワークおいて、入力値から前記入力値の関連情報を予測する際に用いる潜在変数として出力する計算部とを備えることを特徴とする。 In order to solve the above-described problems, the present invention provides a conversion unit that binarizes weight values used in each layer of a deep neural network, an input value to the deep neural network in which the weight values are binarized, and the relevant Predicting the relevant information of the input value from the input value in the deep neural network by using the information bottleneck method using the relevant information of the input value and the probabilistic mapping when the input value is a random variable. and a calculation unit that outputs as a latent variable that is used in the process.
本発明によれば、ロバスト性の高いバイナリネットワークを提供することができる。 According to the present invention, it is possible to provide a highly robust binary network.
以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。まず、本実施形態の学習装置による学習対象となるバイナリネットワークについて説明する。 EMBODIMENT OF THE INVENTION Hereinafter, the form (embodiment) for implementing this invention is demonstrated, referring drawings. First, a binary network to be learned by the learning device of this embodiment will be described.
バイナリネットワークは、順伝搬において、(l-1)層から入力された各信号x(l-1)をパラメータwと積和する。そして、バイナリネットワークは、この積和の結果を符号関数signにより活性化させた信号x(l)を得ると、この信号x(l)を次の層に出力する。なお、バイナリネットワークは、上記の積和の際、パラメータwを符号関数signにより二値化させる(式(1)参照)。 In forward propagation, the binary network multiplies each signal x (l-1 ) input from the (l-1 ) layer with the parameter w. Then, when the binary network obtains the signal x (l) obtained by activating the product-sum result with the sign function sign, it outputs this signal x (l) to the next layer. In addition, the binary network binarizes the parameter w using the sign function sign (see equation (1)) in the sum of products described above.
[概要]
次に、学習装置によるバイナリネットワークの学習の概要を、図1を用いて説明する。なお、図1に示すバイナリネットワークA,Bは、学習対象のバイナリネットワークに含まれるサブネットワークであるものとする。このうちバイナリネットワークAは、パラメータθを用いて、入力データxの写像としてzを計算し、バイナリネットワークBは、パラメータφを用いて、入力データzの写像として予測ラベルyを計算するものとする。ここでバイナリネットワークAの確率分布はpθ(z|x)であり、バイナリネットワークBの確率分布はqφ(y|z)であるものとする。
[Overview]
Next, an outline of learning of a binary network by a learning device will be described with reference to FIG. Binary networks A and B shown in FIG. 1 are assumed to be sub-networks included in the binary network to be learned. Of these, the binary network A uses the parameter θ to calculate z as a map of the input data x, and the binary network B uses the parameter φ to calculate the predicted label y as a map of the input data z. . Here, the probability distribution of binary network A is p θ (z|x), and the probability distribution of binary network B is q φ (y|z).
このような場合、学習装置は、まず、上記のパラータθ,φを二値化する。その後、学習装置は、情報ボトルネック(information bottleneck)法を用いて、バイナリネットワークへの入力データxの確率的写像zを求める。ここで求めた写像zの確率分布rθ(z)は、バイナリネットワークへの入力データxにノイズが含まれていたとしても、当該入力データの正解ラベルごとに共通のものとなる。換言すると、入力データxが異なっていても、当該入力データの正解ラベルごとに共通の確率分布rθ(z)が現れる。よって、学習装置10は、ロバスト性の高いバイナリネットワークを得ることができる。
In such a case, the learning device first binarizes the parameters θ and φ. The learning device then uses the information bottleneck method to find a probabilistic mapping z of the input data x to the binary network. The probability distribution r θ (z) of the mapping z obtained here is common for each correct label of the input data even if the input data x to the binary network contains noise. In other words, even if the input data x is different, a common probability distribution r θ (z) appears for each correct label of the input data. Therefore, the
[構成]
次に、図2を用いて学習装置の構成を説明する。学習装置10は、入出力部11と、制御部12と、記憶部13とを備える。入出力部11は、各種情報の入出力を司る。例えば、入出力部11は、制御部12による学習対象のバイナリネットワークで用いるパラメータwの初期値等、学習に用いる各種データの入力を受け付ける。
[Constitution]
Next, the configuration of the learning device will be described with reference to FIG. The
制御部12は、学習装置10全体の制御を司る。この制御部12は、変換部121と、計算部122とを備える。変換部121は、ディープニューラルネットワーク(バイナリネットワーク)の各層で用いる重みの値を二値化する、例えば、変換部121は、符号関数signを用いて、ディープニューラルネットワーク(バイナリネットワーク)の各層で用いる重みの値を+1および-1のいずれかに二値化する。
The
計算部122は、変換部121により重みの値が二値化されたバイナリネットワークについて情報ボトルネック法を用いた学習を行う。計算部122は、重みの値が二値化されたディープニューラルネットワークへの入力値と当該入力値の関連情報とを用いて、情報ボトルネック法により、1以上の入力値を、当該入力値の関連情報が類似するようクラスタリングする。そして、計算部122は、上記のクラスタリングにおける入力値を確率変数としたときの確率的写像を、上記のディープニューラルネットワークおいて、入力値から当該入力値の関連情報を予測する際に用いる潜在変数として出力する。この計算部122の詳細は後記する。
The
記憶部13は、制御部12による学習により得られたバイナリネットワークのモデルを記憶する。モデルは、例えば、上記のバイナリネットワークの各層で用いられる重み(パラメータw)の値や、潜在変数(z)、活性化関数等の情報を含む。
The
[処理手順]
学習装置10の処理手順を、図3を用いて説明する。例えば、学習装置10の変換部121は、ディープニューラルネットワーク(バイナリネットワーク)の各層で用いる重みの値を二値化する(S1)。その後、計算部122は、S1で重みの値が二値化されたバイナリネットワークについて情報ボトルネック法を用いた潜在変数の算出を行う(S2)。
[Processing procedure]
A processing procedure of the
[計算部の詳細]
上記の計算部122を詳細に説明する。計算部122は、重みの値が二値化されたバイナリネットワークについて、当該バイナリネットワークへの入力値と当該入力値の関連情報とを用いて、情報ボトルネックにより、入力値の関連情報が類似するようクラスタリングする。この関連情報は、入力値に関連する情報であり、例えば、入力値が単語である場合、当該入力値の関連情報は、当該単語を含む文書のトピック等である。
[Details of calculation part]
The
ここで、計算部122は、上記のクラスタリングにおいて、入力値を離散確率変数としたときのクラスタ変数への確率的写像を、上記のバイナリネットワークおいて、入力値から当該入力値の関連情報を予測する際に用いる潜在変数として出力する。
Here, in the above clustering, the
一般に情報ボトルネックを用いたクラスタリングは、クラスタリングの対象である変数X、変数Xのクラスタ変数(変数Xの確率的写像)Z、変数Xの関連情報Yを用いて、式(2)の値を最小化することにより行われる。なお、式(2)におけるIは相互情報量である。つまり、XとZとの相互情報量I(X;Z)をできるだけ小さくし、ZとYとの相互情報量I(Z;Y)をできるだけ大きくするようなZを求めることにより行われる。 In general, clustering using an information bottleneck uses the variable X to be clustered, the cluster variable (probabilistic mapping of the variable X) Z of the variable X, and the related information Y of the variable X to obtain the value of formula (2) This is done by minimizing Note that I in Equation (2) is the amount of mutual information. That is, it is performed by obtaining Z such that the mutual information I(X; Z) between X and Z is minimized and the mutual information I(Z; Y) between Z and Y is maximized.
ここで、学習装置10による学習対象のバイナリネットワークが入力データxからその入力データxのラベル値yを予測するものである場合、計算部122は、上記の入力データxを離散確率変数とし、ラベル値yを入力データxの関連情報とし、以下の式(3)を最小化する、入力データxの確率的写像z(潜在変数z)を求める。
Here, when the binary network to be learned by the
ここでr(z)を、周辺分布p(z)の変分近似としたとき、上記の式(3)を最小化することは、以下の式(4)を最小化するのと同義である。 Here, when r(z) is a variational approximation of the marginal distribution p(z), minimizing the above equation (3) is synonymous with minimizing the following equation (4). .
ここで、pθ(z|x)は、パラメータθを持つバイナリネットワークにxを与えたときのzの確率分布であり、qφ(y|z)は、パラメータφを持つバイナリネットワークにzを与えたときのyの確率分布である。なお、このpθ(z|x)は、パラメータθを持つバイナリネットワークの出力値から得られ、qφ(y|z)は、パラメータφを持つバイナリネットワークの出力値から得られるものとする。また、rθ(z)は、z(潜在変数z)の事前分布であり、平均μ、分散σのガウス分布(N(μ,σ))に従うものとする。 where p θ (z|x) is the probability distribution of z given x in a binary network with parameter θ, and q φ (y|z) is the probability distribution of z in a binary network with parameter φ. is the probability distribution of y given Note that this p θ (z|x) is obtained from the output values of a binary network with parameter θ, and q φ (y|z) is obtained from the output values of a binary network with parameter φ. Also, r θ (z) is a prior distribution of z (latent variable z), and is assumed to follow a Gaussian distribution (N(μ, σ)) with mean μ and variance σ.
計算部122は、式(4)に示すようにKLダイバージェンスの項で正則化しながら、バイナリネットワークの学習を行う。これにより、当該バイナリネットワークのモデルは、入力データxから特徴zの得られるモデルとなるため、入力データxにノイズが入っていたとしても共通の特徴zが得られやすくなる。その結果、例えば、当該バイナリネットワークが入力データxから当該入力データxの予測ラベルyを出力する場合に、ロバスト性の高い予測ラベルyの出力を実現することができる。
The
[プログラム]
また、上記の実施形態で述べた学習装置10の機能を実現するプログラムを所望の情報処理装置(コンピュータ)にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistants)等がその範疇に含まれる。また、学習装置10を、クラウドサーバに実装してもよい。
[program]
Moreover, it can be implemented by installing a program that implements the functions of the
図4を用いて、上記のプログラム(学習プログラム)を実行するコンピュータの一例を説明する。図4に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
An example of a computer that executes the above program (study program) will be described with reference to FIG. As shown in FIG. 4,
メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
The
ここで、図4に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。前記した実施形態で説明した各種データや情報は、例えばハードディスクドライブ1090やメモリ1010に記憶される。
Here, as shown in FIG. 4, the
そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
Then,
なお、上記の学習プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
Note that the
10 学習装置
11 入出力部
12 制御部
13 記憶部
121 変換部
122 計算部
10 learning device 11 input/
Claims (4)
前記重みの値が二値化されたディープニューラルネットワークへの入力値と当該入力値の関連情報とを用いて、情報ボトルネック法により、前記入力値を確率変数としたときの確率的写像を、前記ディープニューラルネットワークおいて、入力値から前記入力値の関連情報を予測する際に用いる潜在変数として出力する計算部と、
を備えることを特徴とする学習装置。 a conversion unit that binarizes the weight values used in each layer of the deep neural network;
Using the input value to the deep neural network in which the weight value is binarized and related information of the input value, the information bottleneck method is used to generate a probabilistic mapping when the input value is a random variable, In the deep neural network, a calculation unit that outputs as a latent variable used when predicting related information of the input value from the input value;
A learning device comprising:
前記ディープニューラルネットワークの各層で用いる重みの値を、符号関数を用いて+1および-1のいずれかの値に変換する
ことを特徴とする請求項1に記載の学習装置。 The conversion unit
2. The learning device according to claim 1, wherein a weight value used in each layer of said deep neural network is converted to either +1 or -1 using a sign function.
前記ディープニューラルネットワークの各層で用いる重みの値を二値化するステップと、
前記重みの値が二値化されたディープニューラルネットワークへの入力値と当該入力値の関連情報とを用いて、情報ボトルネック法により、前記入力値を確率変数としたときの確率的写像を、前記ディープニューラルネットワークおいて、入力値から前記入力値の関連情報を予測する際に用いる潜在変数として出力するステップと、
を含むことを特徴とする学習方法。 A learning method performed by a deep neural network learning device, comprising:
a step of binarizing weight values used in each layer of the deep neural network;
Using the input value to the deep neural network in which the weight value is binarized and related information of the input value, the information bottleneck method is used to generate a probabilistic mapping when the input value is a random variable, In the deep neural network, outputting as a latent variable used when predicting related information of the input value from the input value;
A learning method comprising:
前記重みの値が二値化されたディープニューラルネットワークへの入力値と当該入力値の関連情報とを用いて、情報ボトルネック法により、前記入力値を確率変数としたときの確率的写像を、前記ディープニューラルネットワークおいて、入力値から前記入力値の関連情報を予測する際に用いる潜在変数として出力するステップと、
をコンピュータに実行させることを特徴とする学習プログラム。 a step of binarizing the weight values used in each layer of the deep neural network;
Using the input value to the deep neural network in which the weight value is binarized and related information of the input value, the information bottleneck method is used to generate a probabilistic mapping when the input value is a random variable, In the deep neural network, outputting as a latent variable used when predicting related information of the input value from the input value;
A learning program characterized by causing a computer to execute
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019096975A JP7178323B2 (en) | 2019-05-23 | 2019-05-23 | LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019096975A JP7178323B2 (en) | 2019-05-23 | 2019-05-23 | LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020191006A JP2020191006A (en) | 2020-11-26 |
JP7178323B2 true JP7178323B2 (en) | 2022-11-25 |
Family
ID=73454029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019096975A Active JP7178323B2 (en) | 2019-05-23 | 2019-05-23 | LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7178323B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018092377A (en) | 2016-12-02 | 2018-06-14 | 国立大学法人東京工業大学 | Neural network circuit device, neural network, neural network processing method and neural network executing program |
JP2019061496A (en) | 2017-09-26 | 2019-04-18 | 株式会社エクォス・リサーチ | Information processing apparatus |
WO2019097014A1 (en) | 2017-11-16 | 2019-05-23 | Institut Pasteur | Method, device, and computer program for generating protein sequences with autoregressive neural networks |
-
2019
- 2019-05-23 JP JP2019096975A patent/JP7178323B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018092377A (en) | 2016-12-02 | 2018-06-14 | 国立大学法人東京工業大学 | Neural network circuit device, neural network, neural network processing method and neural network executing program |
JP2019061496A (en) | 2017-09-26 | 2019-04-18 | 株式会社エクォス・リサーチ | Information processing apparatus |
WO2019097014A1 (en) | 2017-11-16 | 2019-05-23 | Institut Pasteur | Method, device, and computer program for generating protein sequences with autoregressive neural networks |
Non-Patent Citations (2)
Title |
---|
Shin Ando, et al.,Unsupervised Cross-Domain Learning by Interaction Information Co-clustering,2008 Eighth IEEE International Conference on Data Mining,IEEE,2008年12月15日,pp. 13-22,<DOI: 10.1109/ICDM.2008.92> |
吉田 哲也,情報論的クラスタリングに対する局所性保存グラフモデル,情報処理学会研究報告 数理モデル化と問題解決(MPS)[online],情報処理学会,2016年12月05日,Vol. 2016-MPS-111, No, 11 |
Also Published As
Publication number | Publication date |
---|---|
JP2020191006A (en) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7470476B2 (en) | Integration of models with different target classes using distillation | |
CN111797893B (en) | Neural network training method, image classification system and related equipment | |
US11816790B2 (en) | Unsupervised learning of scene structure for synthetic data generation | |
CN109800732B (en) | Method and device for generating cartoon head portrait generation model | |
US11651214B2 (en) | Multimodal data learning method and device | |
EP3853764A1 (en) | Training neural networks for vehicle re-identification | |
EP3924893A1 (en) | Incremental training of machine learning tools | |
KR20190018276A (en) | Method and apparatus for training model and for recognizing bawed on the model | |
CN113159283B (en) | Model training method based on federal transfer learning and computing node | |
CN112002309A (en) | Model training method and apparatus | |
CN111435461B (en) | Antagonistic input recognition using reduced accuracy deep neural networks | |
US11514692B2 (en) | Method and apparatus for building image model | |
CN111523640A (en) | Training method and device of neural network model | |
WO2023231954A1 (en) | Data denoising method and related device | |
CN112446888A (en) | Processing method and processing device for image segmentation model | |
CN111738403A (en) | Neural network optimization method and related equipment | |
EP3855388A1 (en) | Image processing device and operation method thereof | |
CN114817612A (en) | Method and related device for calculating multi-modal data matching degree and training calculation model | |
US11562235B2 (en) | Activation function computation for neural networks | |
JP7178323B2 (en) | LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM | |
CN111652320A (en) | Sample classification method and device, electronic equipment and storage medium | |
US20220383073A1 (en) | Domain adaptation using domain-adversarial learning in synthetic data systems and applications | |
CN110689117A (en) | Information processing method and device based on neural network | |
KR102334666B1 (en) | A method for creating a face image | |
US20220004904A1 (en) | Deepfake detection models utilizing subject-specific libraries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190524 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221012 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7178323 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |