JP7322622B2

JP7322622B2 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7322622B2
Application number: JP2019168078A
Authority: JP
Inventors: 靖文坂井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2023-08-08
Anticipated expiration: 2039-09-17
Also published as: JP2021047481A; US20210081801A1; CN112598108A; EP3796232A1

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

従来より、ニューラルネットワーク（ＮＮ：Neural Network）の実行時間を短縮する手法として、ＮＮに使用される各種変数（重みパラメータ、勾配情報、差分値等）を固定小数点に量子化する手法が知られている。

特開２０１８－１２０４４１号公報

しかしながら、各種変数を量子化してＮＮを実行した場合、各種変数を量子化しないで実行した場合と比較して、正解率（accuracy）が劣化するという問題がある。

一つの側面では、ニューラルネットワークに使用される変数を量子化して実行した場合の正解率の劣化を抑えることを目的としている。

一態様によれば、ニューラルネットワークを実行するプロセッサを有する情報処理装置であって、
前記プロセッサは、
前記ニューラルネットワークにおいて使用される勾配情報を量子化し、
量子化後の勾配情報に、所定のノイズを付加し、
前記所定のノイズが付加された前記勾配情報を使用して、前記ニューラルネットワークを実行し、
前記ノイズを付加する処理は、量子化後の前記勾配情報に、各値の出現頻度を表すヒストグラムが、前記勾配情報を量子化した際の最小値以上の出現頻度がゼロである正規分布となるノイズを付加する処理である。

ニューラルネットワークに使用される変数を量子化して実行した場合の正解率の劣化を抑えることができる。

情報処理装置のハードウェア構成の一例を示す図である。情報処理装置の機能構成の一例を示す図である。情報処理装置の学習部の機能構成の一例を示す図である。量子化部の処理の具体例を示す図である。ノイズ付加部により付加されるノイズの特性を示す図である。ノイズ付加部の処理の具体例を示す図である。更新部の処理の具体例を示す図である。設定処理及び学習処理の流れを示すフローチャートである。量子化後の勾配情報に、ノイズを付加した場合の効果を示す図である。学習処理の流れを示すフローチャートである。

以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。

［第１の実施形態］
＜情報処理装置のハードウェア構成＞
はじめに、深層学習用のフレームワークにより、ニューラルネットワーク（ＮＮ：Neural Network）を実行するプロセッサを有する情報処理装置１００のハードウェア構成について説明する。図１は、情報処理装置のハードウェア構成の一例を示す図である。図１に示すように、情報処理装置１００は、汎用プロセッサ１０１、メモリ１０２、特定用途プロセッサ１０３を有する。なお、汎用プロセッサ１０１、メモリ１０２、特定用途プロセッサ１０３は、いわゆるコンピュータを形成する。

また、情報処理装置１００は、補助記憶装置１０４、表示装置１０５、操作装置１０６、ドライブ装置１０７を有する。なお、情報処理装置１００の各ハードウェアは、バス１０８を介して相互に接続されている。

汎用プロセッサ１０１は、ＣＰＵ（Central Processing Unit）等の演算デバイスであり、補助記憶装置１０４にインストールされている各種プログラム（例えば、深層学習用のフレームワークを実現する情報処理プログラム等）を実行する。

メモリ１０２は、ＲＯＭ（Read Only Memory）等の不揮発性メモリやＲＡＭ（Random Access Memory）等の揮発性メモリを含む、主記憶デバイスである。メモリ１０２は、補助記憶装置１０４にインストールされている各種プログラムを汎用プロセッサ１０１が実行するために必要な各種プログラムを格納したり、汎用プロセッサ１０１が実行する際に展開される作業領域を提供する。

特定用途プロセッサ１０３は、深層学習向けのプロセッサであり、例えば、ＧＰＵ（Graphics Processing Unit）等が含まれる。特定用途プロセッサ１０３は、汎用プロセッサ１０１によって各種プログラムが実行される際、例えば、画像データについて、並列処理による高速演算を実行する。

補助記憶装置１０４は、各種プログラムや、各種プログラムが実行される際に用いられるデータを格納する補助記憶デバイスである。例えば、後述する学習用データ格納部は、補助記憶装置１０４において実現される。

表示装置１０５は、情報処理装置１００の内部状態等を表示する表示デバイスである。操作装置１０６は、情報処理装置１００のユーザが情報処理装置１００に対して各種指示を入力するための入力デバイスである。

ドライブ装置１０７は記録媒体１１０をセットするためのデバイスである。ここでいう記録媒体１１０には、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体１１０には、ＲＯＭ、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。

なお、補助記憶装置１０４にインストールされる各種プログラムは、例えば、配布された記録媒体１１０がドライブ装置１０７にセットされ、該記録媒体１１０に記録された各種プログラムがドライブ装置１０７により読み出されることでインストールされる。あるいは、補助記憶装置１０４にインストールされる各種プログラムは、不図示のネットワークよりダウンロードされることでインストールされてもよい。

＜情報処理装置の機能構成＞
次に、情報処理装置１００の機能構成について説明する。図２は、情報処理装置の機能構成の一例を示す図である。上述したように、情報処理装置１００には、情報処理プログラムがインストールされており、情報処理装置１００のプロセッサは、当該プログラムを実行することで、深層学習用のフレームワーク２００を実現する。図２に示すように、第１の実施形態において、深層学習用のフレームワーク２００には、付加ノイズ受付部２１０と、付加ノイズ設定部２２０と、学習部２３０とが含まれる。

付加ノイズ受付部２１０は、学習部２３０のＮＮに使用される各種変数のうち、量子化後の変数に付加するノイズの入力を受け付ける。なお、第１の実施形態では、ＮＮに使用される各種変数のうち、学習時に差分値を逆伝播することで算出される勾配情報が量子化されるものとする。つまり、第１の実施形態において、付加ノイズ受付部２１０は、量子化後の勾配情報に付加するノイズの入力を受け付ける。

付加ノイズ設定部２２０は、付加ノイズ受付部２１０が受け付けたノイズを、学習部２３０のＮＮに設定する。

学習部２３０は、学習用データ（入力データ、正解データ）を用いてＮＮを実行することで学習処理を行う。具体的には、学習部２３０は、学習用データ格納部２４０より入力データを読み出し、読み出した入力データをＮＮに入力することで、入力データを演算する順伝播処理を行う。

また、学習部２３０は、学習用データ格納部２４０より正解データを読み出し、順伝播処理により得た演算結果と、読み出した正解データとの差分値を算出する。また、学習部２３０は、算出した差分値を逆伝播しながら勾配情報を算出する逆伝播処理を行う。

また、学習部２３０は、算出した勾配情報を量子化し、量子化後の勾配情報に、付加ノイズ設定部２２０が設定したノイズを付加する。更に、学習部２３０は、ノイズ付加後の勾配情報に、学習率をかけ合わせ、前回学習時の重みパラメータから減算することで、前回学習時の重みパラメータを更新する更新処理を行う。これにより、次の順伝播処理では、更新した重みパラメータを用いて、入力データを演算することができる。

＜学習部の機能構成＞
次に、学習部２３０の機能構成について説明する。図３は、情報処理装置の学習部の機能構成の一例を示す図である。図３に示すように、学習部２３０は、入力層３１１と、第１のニューロン層３１２、第２のニューロン層３１３、第３のニューロン層３１４と、差分器３１５とを有する。なお、図３の例では、ニューロン層の数を３つとしているが、学習部２３０が有するニューロン層の数は、３つに限定されない。

入力層３１１は、学習用データ格納部２４０より、ミニバッチ単位で入力データと正解データとの組を読み出し、入力データを第１のニューロン層３１２に入力する。また、入力層３１１は、正解データを差分器３１５に入力する。

第１のニューロン層３１２は、勾配情報算出部３２１＿１と、量子化部３２２＿１と、ノイズ付加部３２３＿１と、更新部３２４＿１とを有する。

勾配情報算出部３２１＿１は、学習時に差分器３１５にて算出された差分値から勾配情報（▽ｗ_１）を算出する。量子化部３２２＿１は、算出された勾配情報（▽ｗ_１）を量子化する。ノイズ付加部３２３＿１は、量子化後の勾配情報（▽ｗ_１）にノイズ（Ｎ_１）を付加する。なお、ノイズ付加部３２３＿１によって付加されるノイズ（Ｎ_１）は、付加ノイズ受付部２１０が受け付け、付加ノイズ設定部２２０によって設定されたノイズである。

更新部３２４＿１は、ノイズ（Ｎ_１）付加後の勾配情報に学習率（η_１）をかけ合わせることで、前回の学習時に更新部３２４＿１にて算出された重みパラメータ（Ｗ_１（ｔ））を更新する。第１のニューロン層３１２では、更新された重みパラメータ（Ｗ_{１（ｔ＋１）}）を用いて、入力データを演算する。また、第１のニューロン層３１２は、演算した入力データを、第２のニューロン層３１３に入力する。

同様に、第２のニューロン層３１３は、勾配情報算出部３２１＿２と、量子化部３２２＿２と、ノイズ付加部３２３＿２と、更新部３２４＿２とを有する。

勾配情報算出部３２１＿２は、学習時に差分器３１５にて算出された差分値から勾配情報（▽ｗ_２）を算出する。量子化部３２２＿２は、算出された勾配情報（▽ｗ_２）を量子化する。ノイズ付加部３２３＿２は、量子化後の勾配情報（▽ｗ_２）にノイズ（Ｎ_２）を付加する。なお、ノイズ付加部３２３＿２によって付加されるノイズ（Ｎ_２）は、付加ノイズ受付部２１０が受け付け、付加ノイズ設定部２２０によって設定されたノイズである。

更新部３２４＿２は、ノイズ（Ｎ_２）付加後の勾配情報に学習率（η_２）をかけ合わせることで、前回の学習時に更新部３２４＿２にて算出された重みパラメータ（Ｗ_２（ｔ））を更新する。第２のニューロン層３１３では、更新された重みパラメータ（Ｗ_{２（ｔ＋１）}）を用いて、入力データを演算する。また、第２のニューロン層３１３は、演算した入力データを、第３のニューロン層３１４に入力する。

同様に、第３のニューロン層３１４は、勾配情報算出部３２１＿３と、量子化部３２２＿３と、ノイズ付加部３２３＿３と、更新部３２４＿３とを有する。

勾配情報算出部３２１＿３は、学習時に差分器３１５にて算出された差分値から勾配情報（▽ｗ_３）を算出する。量子化部３２２＿３は、算出された勾配情報（▽ｗ_３）を量子化する。ノイズ付加部３２３＿３は、量子化後の勾配情報（▽ｗ_３）にノイズ（Ｎ_３）を付加する。なお、ノイズ付加部３２３＿３によって付加されるノイズ（Ｎ_３）は、付加ノイズ受付部２１０が受け付け、付加ノイズ設定部２２０によって設定されたノイズである。

更新部３２４＿２は、ノイズ（Ｎ_３）付加後の勾配情報に学習率（η_３）をかけ合わせることで、前回の学習時に更新部３２４＿３にて算出された重みパラメータ（Ｗ_３（ｔ））を更新する。第３のニューロン層３１４では、更新された重みパラメータ（Ｗ_{３（ｔ＋１）}）を用いて、入力データを演算する。また、第３のニューロン層３１４は、入力データを演算することで得られる演算結果を、差分器３１５に入力する。

差分器３１５は、入力層３１１より入力された正解データと、第３のニューロン層３１４より入力された演算結果との差分値を算出し、算出した差分値を逆伝播する。これにより、第１のニューロン層３１２から第３のニューロン層３１４では、次回の学習において用いる勾配情報を算出する。

＜学習部の各部の処理の具体例＞
次に、学習部２３０の各ニューロン層に含まれる各部（ここでは、量子化部３２２＿１～３２２＿３、ノイズ付加部３２３＿１～３２３＿３、更新部３２４＿１～３２４＿３）の処理の具体例について説明する。

（１）量子化部の処理の具体例
はじめに、量子化部３２２＿１～３２２＿３の処理の具体例について説明する。図４は、量子化部の処理の具体例を示す図である。上述したように、量子化部３２２＿１～３２２＿３は、学習時に差分値が逆伝播されるごとに、勾配情報算出部３２１＿１～３２１＿３より勾配情報を受け取る。

ここで、量子化部３２２＿１～３２２＿３が受け取る勾配情報▽ｗ（▽ｗ_１～▽ｗ_３）の各値は、例えば、（０、１．１、－０．８、０．５、－５．２、・・・）等である。図４に示すように、勾配情報▽ｗの各値の出現頻度を表すヒストグラムは、正規分布となる（符号４１０参照）。

なお、符号４１０に示すヒストグラムにおいて、横軸は、量子化部３２２＿１～３２２＿３が受け取る勾配情報▽ｗの各値を表しており、縦軸は各値の出現頻度を表している。

具体的には、符号４１０に示すヒストグラムは、平均値がゼロであり、分散値が、勾配情報▽ｗがとりうる最大値の１／３倍となる、正規分布のヒストグラムである。

ここで、量子化部３２２＿１～３２２＿３が勾配情報▽ｗを量子化すると、量子化後の勾配情報▽ｗの各値の出現頻度を表すヒストグラムは、符号４２０に示すような分布となる。つまり、量子化することで、量子化後の負の最小値から量子化後の正の最小値までの間の値（つまり、ゼロ近辺の値）の出現頻度がゼロとなり、量子化後の正の最小値を超える値、または、量子化後の負の最小値未満の値のみが、出現することになる。

（２）ノイズ付加部の処理の具体例
次に、ノイズ付加部３２３＿１～３２３＿３の処理の具体例について説明する。図５は、ノイズ付加部により付加されるノイズの特性を示す図である。ノイズ付加部３２３＿１～３２３＿３が付加するノイズＮ（Ｎ_１～Ｎ_３）は、付加ノイズ受付部２１０が受け付け、付加ノイズ設定部２２０により設定されたノイズであり、例えば、（０、０．５、－０．８、１．１、・・・）等である。

図５の符号５００は、ノイズＮ（Ｎ_１～Ｎ_３）の各値の出現頻度をヒストグラムで表したものである。つまり、付加ノイズ受付部２１０は、各値の出現頻度が符号５００に表すヒストグラムとなるようなノイズＮ（Ｎ_１～Ｎ_３）を受け付け、付加ノイズ設定部２２０は、当該ノイズＮ（Ｎ_１～Ｎ_３）をノイズ付加部３２３＿１～３２３＿３に設定する。

図５に示すように、ノイズＮは、量子化部３２２＿１～３２２＿３が勾配情報▽ｗを量子化した際の、量子化後の負の最小値から量子化後の正の最小値までの間の値のみを含む。換言すると、ノイズＮは、量子化部３２２＿１～３２２＿３が勾配情報▽ｗを量子化した際の、量子化後の負の最小値未満の値を含まない。また、ノイズＮは、量子化部３２２＿１～３２２＿３が勾配情報▽ｗを量子化した際の、量子化後の正の最小値を超える値を含まない。

符号５００に示すヒストグラムは、平均値がゼロであり、分散値が、勾配情報▽ｗがとりうる最大値の１／３倍となる、正規分布のヒストグラムの一部である。このように、ノイズＮ（Ｎ_１～Ｎ_３）の各値の出現頻度は、勾配情報▽ｗ（▽ｗ_１～▽ｗ_３）の量子化前の各値の出現頻度によって決まる。

図６は、ノイズ付加部の処理の具体例を示す図である。上述したように、ノイズ付加部３２３＿１～３２３＿３では、量子化後の勾配情報▽ｗに、ノイズＮを付加する。図６は、
・量子化後の勾配情報▽ｗの各値の出現頻度を表すヒストグラム（符号４２０）と、
・ノイズＮの各値の出現頻度を表すヒストグラム（符号５００）と、
・量子化後の勾配情報▽ｗにノイズＮを付加した、ノイズ付加後の勾配情報の各値の出現頻度を表すヒストグラム（符号６００）と、
の関係を示している。

図６に示すように、符号６００のヒストグラムは、平均値がゼロであり、分散値が、勾配情報▽ｗがとりうる最大値の１／３倍となる、正規分布のヒストグラムである。

このように、ノイズ付加部３２３＿１～３２３＿３によれば、ノイズＮ（Ｎ_１～Ｎ_３）を付加することで、量子化部３２２＿１～３２２＿３による量子化によって出現頻度がゼロとなった値を補完する。これにより、量子化前の勾配情報▽ｗの各値の出現頻度と同様の出現頻度が再現されることとなる。この結果、量子化部３２２＿１～３２２＿３による量子化の影響が抑えられることとなり、勾配情報▽ｗを量子化して学習処理を行った場合の正解率の劣化を抑えることができる。

（３）更新部の処理の具体例
次に、更新部３２４＿１～３２４＿３による処理の具体例について説明する。図７は、更新部の処理の具体例を示す図である。図７に示すように、更新部３２４＿１～３２４＿３は、ノイズＮ（Ｎ_１～Ｎ_３）が付加された、量子化後の勾配情報▽ｗ（▽ｗ_１～▽ｗ_３）に、学習率η（η_１～η_３）をかけ合わせ、前回の重みパラメータＷ_ｔ（Ｗ_１（ｔ）～Ｗ_３（ｔ））から減算する。これにより、更新部３２４＿１～３２４＿３では、前回の重みパラメータＷ_ｔ（Ｗ_１（ｔ）～Ｗ_３（ｔ））を更新し、更新後の重みパラメータＷ_ｔ＋１（Ｗ_{１（ｔ＋１）}～Ｗ_{３（ｔ＋１）}）を算出する。

＜設定処理及び学習処理の流れ＞
次に、情報処理装置１００による設定処理及び学習処理の流れについて説明する。図８は、設定処理及び学習処理の流れを示すフローチャートである。

このうち、図８（ａ）は、情報処理装置１００による設定処理の流れを示すフローチャートである。ステップＳ８０１において、付加ノイズ受付部２１０は、学習部２３０のＮＮに使用される各種変数のうち、量子化後の変数（第１の実施形態では、勾配情報▽ｗ（▽ｗ_１～▽ｗ_３））に付加するノイズＮ（Ｎ_１～Ｎ_３）の入力を受け付ける。

ステップＳ８０２において、付加ノイズ設定部２２０は、付加ノイズ受付部２１０が受け付けたノイズＮ（Ｎ_１～Ｎ_３）を、ノイズ付加部３２３＿１～３２３＿３に設定する。

また、図８（ｂ）は、情報処理装置１００による学習処理の流れを示すフローチャートである。図８（ｂ）に示すように、ステップＳ８１１において、学習部２３０は、学習用データ格納部２４０より学習用データを、ミニバッチ単位で読み出す。

ステップＳ８１２において、学習部２３０は、ミニバッチ単位で読み出した学習用データに含まれる入力データについて順伝播処理を行う。

ステップＳ８１３において、学習部２３０は、ミニバッチ単位で読み出した学習用データに含まれる正解データと、順伝播処理により得られた演算結果との差分値を算出し、算出した差分値を逆伝播する逆伝播処理を行う。

ステップＳ８１４において、学習部２３０は、差分値に基づいて勾配情報▽ｗ（▽ｗ_１～▽ｗ_３）を算出する。ステップＳ８１５において、学習部２３０は、算出した勾配情報▽ｗ（▽ｗ_１～▽ｗ_３）を量子化する。ステップＳ８１６において、学習部２３０は、量子化後の勾配情報に、ノイズＮ（Ｎ_１～Ｎ_３）を付加する。ステップＳ８１７において、学習部２３０は、ノイズＮ（Ｎ_１～Ｎ_３）付加後の勾配情報▽ｗ（▽ｗ_１～▽ｗ_３）に、学習率η（η_１～η_３）をかけ合わせ、前回の学習時に算出された重みパラメータＷ_ｔ（Ｗ_１（ｔ）～Ｗ_３（ｔ））から減算する。これにより、学習部２３０は、前回の学習時に算出された重みパラメータＷ_ｔ（Ｗ_１（ｔ）～Ｗ_３（ｔ））を更新する。

ステップＳ８１８において、学習部２３０は、学習処理を終了するか否かを判定する。学習処理を継続すると判定した場合には（ステップＳ８１８においてＮＯの場合には）、ステップＳ８１１に戻る。一方、ステップＳ８１８において、学習処理を終了すると判定した場合には（ステップＳ８１８においてＹＥＳの場合には）、学習処理を終了する。

＜ノイズを付加した場合の効果＞
次に、量子化後の勾配情報に、ノイズを付加した場合の効果について説明する。図９は、量子化後の勾配情報に、ノイズを付加した場合の効果を示す図である。図９において、横軸は、学習部２３０による学習回数を示しており、縦軸は、正解率を示している。図９において、グラフ９００は、勾配情報を量子化しないで学習処理を行った場合の正解率の変遷を表している。

一方、グラフ９１０、９２０は、勾配情報を量子化して学習処理を行った場合の正解率の変遷を表している。このうち、グラフ９１０は、量子化後の勾配情報にノイズを付加した場合を、グラフ９２０は、量子化後の勾配情報にノイズを付加しない場合を、それぞれ表している。

グラフ９１０とグラフ９２０との対比から明らかなように、量子化後の勾配情報にノイズを付加した場合、量子化後の勾配情報にノイズを付加しない場合と比較して、正解率の劣化を抑えることが可能となる。

以上の説明から明らかなように、第１の実施形態に係る情報処理装置１００が有するプロセッサは、深層学習用のフレームワークによりＮＮを実行し、学習処理を行う。また、第１の実施形態に係る情報処理装置１００が有するプロセッサは、学習処理の際、ＮＮに使用される勾配情報を量子化し、量子化後の勾配情報に所定のノイズを付加する。更に、第１の実施形態に係る情報処理装置１００が有するプロセッサは、学習処理の際、所定のノイズが付加された、量子化後の勾配情報を使用して、ＮＮを実行する。

このように、第１の実施形態に係る情報処理装置１００では、学習処理の際、量子化によって出現頻度がゼロとなった値を、所定のノイズによって補完する。これにより、第１の実施形態に係る情報処理装置１００によれば、量子化前の勾配情報の各値の出現頻度と同様の出現頻度を再現することができる。この結果、勾配情報を量子化したことによる影響を抑えることが可能となり、勾配情報を量子化して学習処理を行った場合の正解率の劣化を抑えることができる。

［第２の実施形態］
上記第１の実施形態では、学習部のＮＮに使用される各種変数のうち、勾配情報のみが量子化される場合について説明した。しかしながら、学習部のＮＮに使用される各種変数のうち、量子化される変数は勾配情報に限定されず、他の変数（重みパラメータ、差分値等）が量子化されてもよい。

第２の実施形態では、勾配情報に加えて、重みパラメータ、差分値が量子化される場合において、上記第１の実施形態同様、量子化後の変数それぞれにノイズを付加するケースについて説明する。以下、第２の実施形態について、上記第１の実施形態との相違点を中心に説明する。

＜学習処理の流れ＞
図１０は、学習処理の流れを示すフローチャートである。図８（ｂ）の学習処理との相違点は、ステップＳ１００１～Ｓ１００４である。なお、図１０の学習処理を開始するにあたり、量子化後の勾配情報に付加するノイズ、量子化後の重みパラメータに付加するノイズ、量子化後の差分値に付加するノイズは、予め設定されているものとする。

ステップＳ１００１において、学習部２３０は、順伝播処理の際、入力データの演算に用いる重みパラメータを量子化する。

ステップＳ１００２において、学習部２３０は、量子化後の重みパラメータにノイズを付加する。そして、学習部２３０は、ミニバッチ単位で読み出した学習用データに含まれる入力データを、ノイズを付加した重みパラメータを用いて演算する。

ステップＳ１００３において、学習部２３０は、逆伝播処理の際、ミニバッチ単位で読み出した学習用データに含まれる正解データと、順伝播処理により得られた演算結果との差分値を算出し、算出した差分値を量子化する。

ステップＳ１００４において、学習部２３０は、量子化後の差分値にノイズを付加し、ノイズ付加後の差分値を逆伝播する。

以上の説明から明らかなように、第２の実施形態に係る情報処理装置１００が有するプロセッサは、学習処理の際、ＮＮに使用される各種変数（重みパラメータ、差分値、勾配情報）を量子化し、量子化後の変数それぞれに所定のノイズを付加する。更に、第２の実施形態に係る情報処理装置１００が有するプロセッサは、学習処理の際、所定のノイズが付加された、量子化後の重みパラメータ、差分値、勾配情報を使用して、ＮＮを実行する。

このように、第２の実施形態に係る情報処理装置１００では、学習処理の際、量子化によって出現頻度がゼロとなった値を、所定のノイズによって補完する。これにより、第２の実施形態に係る情報処理装置１００によれば、量子化前の各種変数の各値の出現頻度と同様の出現頻度を再現することができる。この結果、各種変数を量子化したことによる影響を抑えることが可能となり、各種変数を量子化して学習処理を行った場合の正解率の劣化を抑えることができる。

［その他の実施形態］
上記各実施形態では、学習部のＮＮに使用される各種変数にノイズを付加する場合について説明した。しかしながら、ノイズを付加する各種変数は学習部のＮＮに使用される各種変数に限定されず、学習部により学習処理が行われた学習済みのＮＮを推論部として使用する際の各種変数（具体的には、重みパラメータ）に付加してもよい。これにより、各種変数を量子化して推論処理を行った場合の正解率の劣化を抑えることができる。

また、上記各実施形態では、出現頻度が、正規分布（平均値がゼロであり、分散値が、量子化前の値がとりうる最大値の１／３倍の正規分布）のヒストグラムとなるように、ノイズの各値を設定するものとして説明した。しかしながら、設定するノイズは、各値の出現頻度がこのような正規分布のヒストグラムとなるものに限定されない。

例えば、出現頻度が、正規分布（平均値がゼロであり、分散値が量子化前の値がとりうる最大値の１／Ｍ倍（Ｍは整数。例えば、５、７）の正規分布）のヒストグラムとなるように、ノイズの各値を設定してもよい。あるいは、出現頻度が、正規分布以外の確率分布（例えば、一様分布、ラプラス分布、ガンマ分布）のヒストグラムとなるように、ノイズの各値を設定してもよい。

あるいは、変数の統計情報に基づいて、確率分布モデルをフィッティングし、出現頻度が、フィッティングした確率分布モデルのヒストグラムとなるように、ノイズの各値を設定してもよい。

また、上記各実施形態では、付加ノイズ受付部２１０、付加ノイズ設定部２２０、学習部２３０（及び推論部）が、１台の情報処理装置１００において実現されるものとして説明したが、これらの各部は、複数台の情報処理装置において実現されてもよい。

なお、開示の技術では、以下に記載する付記のような形態が考えられる。
（付記１）
ニューラルネットワークを実行するプロセッサを有する情報処理装置であって、
前記プロセッサは、
前記ニューラルネットワークにおいて使用される変数の少なくともいずれかを量子化し、
量子化後の変数に所定のノイズを付加し、
前記所定のノイズが付加された、前記量子化後の変数を使用して、前記ニューラルネットワークを実行する、情報処理装置。
（付記２）
前記量子化する処理における量子化する変数には、
学習時に逆伝播する差分値、
学習時に差分値を逆伝播することで算出される勾配情報、
学習時または推論時に入力データの演算に用いられる重みパラメータ、
のいずれかが含まれる、付記１に記載の情報処理装置。
（付記３）
前記付加する処理は、前記量子化後の変数に、各値の出現頻度を表すヒストグラムが所定の確率分布となるノイズを付加する、付記２に記載の情報処理装置。
（付記４）
前記プロセッサは、
前記量子化する処理において学習時に差分値を逆伝播することで算出される勾配情報が量子化され、前記付加する処理において量子化後の勾配情報にノイズが付加された場合に、該ノイズが付加された前記量子化後の勾配情報に学習率をかけ合わせ、前回学習時の重みパラメータから減算することで、前回学習時の重みパラメータを更新する、付記３に記載の情報処理装置。
（付記５）
前記確率分布には、一様分布、正規分布、ラプラス分布、ガンマ分布のいずれかが含まれる、付記４に記載の情報処理装置。
（付記６）
前記確率分布は、平均値がゼロで、分散値が勾配情報の最大値の１／Ｍ倍（Ｍは整数）の正規分布であって、前記勾配情報を量子化した際の最小値以上の出現頻度がゼロである正規分布である、付記５に記載の情報処理装置。
（付記７）
ニューラルネットワークを実行するプロセッサが、
前記ニューラルネットワークにおいて使用される変数の少なくともいずれかを量子化し、
量子化後の変数に所定のノイズを付加する、処理を実行する情報処理方法であって、
前記所定のノイズが付加された、前記量子化後の変数を使用して、前記ニューラルネットワークを実行する、情報処理方法。
（付記８）
ニューラルネットワークを実行するプロセッサに、
前記ニューラルネットワークにおいて使用される変数の少なくともいずれかを量子化し、
量子化後の変数に所定のノイズを付加する、処理を実行させる情報処理プログラムであって、
前記所定のノイズが付加された、前記量子化後の変数を使用して、前記ニューラルネットワークを実行させる、情報処理プログラム。

なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。

１００：情報処理装置
１０１：汎用プロセッサ
１０３：特定用途プロセッサ
２１０：付加ノイズ受付部
２２０：付加ノイズ設定部
２３０：学習部
３１１：入力層
３１２～３１４：第１～第３のニューロン層
３１５：差分器
３２１＿１～３２１＿３：勾配情報算出部
３２２＿１～３２２＿３：量子化部
３２３＿３～３２３＿３：ノイズ付加部
３２４＿１～３２４＿３：更新部

Claims

ニューラルネットワークを実行するプロセッサを有する情報処理装置であって、
前記プロセッサは、
前記ニューラルネットワークにおいて使用される勾配情報を量子化し、
量子化後の勾配情報に、所定のノイズを付加し、
前記所定のノイズが付加された前記勾配情報を使用して、前記ニューラルネットワークを実行し、
前記ノイズを付加する処理は、量子化後の前記勾配情報に、各値の出現頻度を表すヒストグラムが、前記勾配情報を量子化した際の最小値以上の出現頻度がゼロである正規分布となるノイズを付加する処理である、情報処理装置。
前記ニューラルネットワークにおいて使用される変数には、
学習時に逆伝播する差分値、
学習時に差分値を逆伝播することで算出される勾配情報、
学習時または推論時に入力データの演算に用いられる重みパラメータ、
のいずれかが含まれる、請求項１に記載の情報処理装置。
前記プロセッサは、
前記量子化する処理において学習時に差分値を逆伝播することで算出される勾配情報が量子化され、前記付加する処理において量子化後の勾配情報にノイズが付加された場合に、該ノイズが付加された前記量子化後の勾配情報に学習率をかけ合わせ、前回学習時の重みパラメータから減算することで、前回学習時の重みパラメータを更新する、請求項２に記載の情報処理装置。
ニューラルネットワークを実行するプロセッサが、
前記ニューラルネットワークにおいて使用される勾配情報を量子化し、
量子化後の勾配情報に、所定のノイズを付加し、
前記所定のノイズが付加された前記勾配情報を使用して、前記ニューラルネットワークを実行する、情報処理方法であって、
前記ノイズを付加する処理は、量子化後の前記勾配情報に、各値の出現頻度を表すヒストグラムが、前記勾配情報を量子化した際の最小値以上の出現頻度がゼロである正規分布となるノイズを付加する処理である、情報処理方法。
ニューラルネットワークを実行するプロセッサに、
前記ニューラルネットワークにおいて使用される勾配情報を量子化し、
量子化後の勾配情報に、所定のノイズを付加する、
処理を実行させ、
前記所定のノイズが付加された前記勾配情報を使用して、前記ニューラルネットワークを実行させる情報処理プログラムであって、
前記ノイズを付加する処理は、量子化後の前記勾配情報に、各値の出現頻度を表すヒストグラムが、前記勾配情報を量子化した際の最小値以上の出現頻度がゼロである正規分布となるノイズを付加する処理である、情報処理プログラム。