JP7120288B2

JP7120288B2 - ニューラルネットワーク軽量化装置、ニューラルネットワーク軽量化方法およびプログラム

Info

Publication number: JP7120288B2
Application number: JP2020187816A
Authority: JP
Inventors: 康平山本
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2022-08-17
Anticipated expiration: 2040-11-11
Also published as: JP2022077134A

Description

本発明は、ニューラルネットワーク軽量化装置、ニューラルネットワーク軽量化方法およびプログラムに関する。

近年、各種の分野においてニューラルネットワークが用いられている。例えば、物体の認識または物体の位置検出などを目的とした一般的なニューラルネットワークのモデルが知られている。かかる一般的なニューラルネットワークのモデルでは、処理層（例えば、畳み込み層または全結合層など）における演算に、１６～３２ビットの浮動小数点によってそれぞれ表現される入力特徴量および重みパラメータ（以下、単に「重み」とも言う。）が使用される。

一方、例えば、量子化と呼称されるニューラルネットワークの軽量化技術を用いれば、入力特徴量および重みそれぞれを１～８ビットの整数に変換することができ、浮動小数点による演算を整数による演算に変換することによって、演算による消費電力の低減および演算の高速化が達成されることが知られている（例えば、特許文献１および非特許文献１～３参照）。しかしながら、演算に使用されるビット数の低下によって量子化誤差が発生し、整数による演算に使用されるビット数が小さくなるほど、浮動小数点による演算が行われる場合と同水準の精度（例えば、物体認識精度または物体検出精度など）を維持するのが困難であるのが一般的である。

特開２０２０－９０４８号公報

Benoit Jacob、他７名、"Quantization and Training of Neural Networksfor Efficient Integer-Arithmetic-Only Inference"、[online]、2017年、［令和2年10月27日検索］、インターネット＜https://arxiv.org/abs/1712.05877＞ Daisuke Miyashita、他２名、"ConvolutionalNeural Networks using Logarithmic Data Representation"、[online]、2016年、［令和2年10月27日検索］、インターネット＜https://arxiv.org/abs/1603.01025＞ Sangil Jung、他７名、"Learning to Quantize Deep Networks byOptimizing Quantization Intervals with Task Loss"、[online]、2017年、［令和2年10月27日検索］、インターネット＜https://arxiv.org/abs/1808.05779＞

そこで、精度劣化を抑制した量子化ニューラルネットワークを構築することを可能とする技術が提供されることが望まれる。

上記問題を解決するために、本発明のある観点によれば、第１のニューラルネットワークを取得する入力部と、前記第１のニューラルネットワークに含まれる少なくとも一つの乗算処理を特定し、前記乗算処理への入力に対してパラメータを含んだ量子化関数を導入して第２のニューラルネットワークを生成する修正部と、前記第２のニューラルネットワークの学習によって、前記第２のニューラルネットワークの重みパラメータと前記量子化関数に含まれるパラメータとを訓練する学習部と、学習後の第２のニューラルネットワークを出力する出力部と、を備える、ニューラルネットワーク軽量化装置が提供される。

前記量子化関数は、第１の非線形関数と、第１の一様量子化関数と、第２の非線形関数との合成関数を含んでもよい。

前記第２の非線形関数は、前記第１の非線形関数の逆関数であってもよい。

前記量子化関数は、前記合成関数の後に、前記第１の一様量子化関数の量子化ビット数よりも量子化ビット数が大きい第２の一様量子化関数を含んでもよい。

前記第１の非線形関数は、区分線形関数であってもよい。

前記学習部は、前記第２のニューラルネットワークの重みパラメータと前記量子化関数に含まれるパラメータとを同時に訓練してもよい。

前記ニューラルネットワーク軽量化装置は、学習後の第２のニューラルネットワークに基づいて、前記量子化関数をインデックス化処理に変換するとともに、前記乗算処理をメモリ参照処理に変換して第３のニューラルネットワークを生成する演算変換部を備え、前記出力部は、前記第３のニューラルネットワークを出力してもよい。

前記メモリ参照処理は、あらかじめ計算されてメモリに記録された、前記量子化関数の出力に基づく乗算処理の結果を得る処理を含んでもよい。

前記インデックス化処理は、前記量子化関数への入力を前記量子化関数の出力に基づく乗算処理の結果が記録されたメモリ領域に対応するインデックス値に変換する処理を含んでもよい。

また、本発明の別の観点によれば、第１のニューラルネットワークを取得することと、前記第１のニューラルネットワークに含まれる少なくとも一つの乗算処理を特定し、前記乗算処理への入力に対してパラメータを含んだ量子化関数を導入して第２のニューラルネットワークを生成することと、前記第２のニューラルネットワークの学習によって、前記第２のニューラルネットワークの重みパラメータと前記量子化関数に含まれるパラメータとを訓練することと、学習後の第２のニューラルネットワークを出力することと、を含む、ニューラルネットワーク軽量化方法が提供される。

また、本発明の別の観点によれば、コンピュータを、第１のニューラルネットワークを取得する入力部と、前記第１のニューラルネットワークに含まれる少なくとも一つの乗算処理を特定し、前記乗算処理への入力に対してパラメータを含んだ量子化関数を導入して第２のニューラルネットワークを生成する修正部と、前記第２のニューラルネットワークの学習によって、前記第２のニューラルネットワークの重みパラメータと前記量子化関数に含まれるパラメータとを訓練する学習部と、学習後の第２のニューラルネットワークを出力する出力部と、を備えるニューラルネットワーク軽量化装置として機能させるプログラムが提供される。

以上説明したように本発明によれば、精度劣化を抑制した量子化ニューラルネットワークを構築することを可能とする技術が提供される。

本発明の実施形態の背景について説明するための図である。本発明の第１の実施形態に係るニューラルネットワーク軽量化装置の機能構成例を示す図である。軽量化対象のニューラルネットワークの一例を示す図である。モデル修正部の動作例を示すフローチャートである。量子化関数が導入される前の乗算処理の演算構成の例を示す図である。量子化関数が導入された後の乗算処理の演算構成の例を示す図である。圧縮関数、一様量子化関数、伸長関数および合成関数それぞれの例を示す図である。変換後の演算構成の例を示す図である。ルックアップテーブルの例を示す図である。本発明の第２の実施形態において、量子化関数が導入された後の乗算処理の演算構成の例を示す図である。本発明の実施形態に係るニューラルネットワーク軽量化装置の例としての情報処理装置のハードウェア構成を示す図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。

（０．背景）
まず、本発明の実施形態の背景について説明する。

図１は、本発明の実施形態の背景について説明するための図である。なお、本発明の実施形態では、ニューラルネットワークの処理層に対して直前の活性化関数から入力されるデータ（入力特徴量）を「活性」とも言う。図１を参照すると、活性および重みの分布の例として、分布Ｇ０～Ｇ３が示されている。分布Ｇ０において、横軸は活性および重みの値であり、縦軸は活性および重みの値に対応する度数である。分布Ｇ０は、量子化前の分布である。一方、分布Ｇ１～Ｇ３は、量子化後の分布である。

上記した特許文献１および非特許文献１には、活性および重みそれぞれの値に対して等間隔な量子化（一様量子化）を適用してモデルの学習を行う技術が開示されている（分布Ｇ１）。一様量子化が適用されてモデルの学習が行われる場合には、主要な演算が整数によって実施されるため、演算の高速化および演算によって使用されるメモリ量の低減が達成され得る。

しかし、特許文献１および非特許文献１に記載のような、一様量子化を適用する技術は、活性および重みの分布形状を考慮しない。したがって、一様量子化を適用する技術では、特に活性および重みの値の小さいレンジにおいて量子化誤差が大きくなってしまい、その結果として大きな精度劣化が生じてしまうという問題点がある。活性および重みの分布は、一般的には分布Ｇ０のように零を中心としたガウス分布に近い形状を有するにも関わらず、一様量子化を適用する技術は、密度の高い零近傍に対する量子化値の割り当ての間隔を、密度の低い裾側に対する量子化値の割り当ての間隔と同じにしてしまうからである。

また、非特許文献２には、一様量子化の部分に対して２を底とした対数を適用してモデルの学習を行う技術が開示されている（分布Ｇ２）。一様量子化の部分に対する対数の適用によって非等間隔な量子化（非一様量子化）が実現される。かかる対数の適用によって、活性および重みそれぞれの値が２の冪乗の値に変換されるため、活性と重みとの乗算がより高速なシフト演算に変換され得る。

しかし、非特許文献２に記載のような、活性および重みそれぞれの値を２の冪乗の値に変換する技術では、零近傍に多くの量子化値を割り当てることができる反面、分布の裾側に対する量子化値の割り当てが少なくなりすぎてしまう（分布の裾側の疎性が高くなりすぎてしまう）。したがって、活性および重みそれぞれの値を２の冪乗の値に変換する技術では、裾側の値が精度によく貢献している場合には精度劣化が生じてしまうという問題点がある。

さらに、非特許文献３には、一様量子化を適用する直前に学習可能なパラメータを含む非線形関数を適用する技術が開示されている（分布Ｇ３）。これによって、当該分布において非線形関数の学習に基づいて決定される値域に対して多くの量子化値の割り当てが可能となるため、認識精度（例えば、画像認識タスクによる認識精度など）を高めることが可能な非一様量子化が実現され得る。

しかし、非特許文献３に記載の技術は、非線形関数の直後に、等間隔な量子化を実行する構成を有するのみである。したがって、非特許文献３に記載の技術では、入出力間の乖離（量子化誤差）が大きくなってしまい、学習によって最終的に得られるモデルの性能が低下してしまうという問題点がある。

以上の問題点を整理すると、活性および重みの分布に応じて量子化値を柔軟に割り当てることが可能であり、かつ量子化誤差を低減することが可能な技術の提供が望まれることが把握され得る。本発明の実施形態では、活性および重みの分布に応じて量子化値を柔軟に割り当てることが可能であり、かつ量子化誤差を低減することが可能な技術について主に提案する。さらに、本発明の実施形態では、高速な推論を可能とする技術についても提案する。

以上、本発明の実施形態の背景について説明した。

（１．第１の実施形態）
続いて、本発明の第１の実施形態について説明する。

（１－１．構成の説明）
まず、本発明の第１の実施形態に係るニューラルネットワーク軽量化装置の構成例について説明する。図２は、本発明の第１の実施形態に係るニューラルネットワーク軽量化装置の機能構成例を示す図である。図２に示されるように、本発明の第１の実施形態に係るニューラルネットワーク軽量化装置１０は、入力部１００、モデル修正部１０１、学習部１０２、演算変換部１０３および出力部１０４を備える。なお、後にも説明するように、ニューラルネットワーク軽量化装置１０は、演算変換部１０３を備えていなくてもよい。

ニューラルネットワーク軽量化装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置を含み、図示しないメモリにより記憶されているプログラムがＣＰＵによりＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）に展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、ニューラルネットワーク軽量化装置１０は、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。

（入力部１００）
入力部１００は、軽量化対象のニューラルネットワーク（第１のニューラルネットワーク）および軽量化対象のニューラルネットワークの学習に使用されるデータ（学習用データセット）を取得する。例えば、入力部１００は、軽量化対象のニューラルネットワークおよび学習用データセットを、図示しないメモリから読み出すことによって取得してもよい。例えば、軽量化対象のニューラルネットワークは、学習前のニューラルネットワークの構造（モデル構造）であってよい。

図３は、軽量化対象のニューラルネットワークの一例を示す図である。図３に示されるように、軽量化対象のニューラルネットワークは、第１層から第Ｎ層（Ｎは２以上の整数）までの複数の層によって構成される。第１層には、入力データが入力され、第Ｎ層からは、出力データが出力される。第１層から第Ｎ層までの各層には、処理層が含まれており、第１層から第Ｎ層までの各層の次層には、活性化関数が挿入されている。第１層から第Ｎ層までの各層に含まれる処理層は、次層に含まれる活性化関数に対して出力を行う。

図３に示された例では、第１層から第（Ｎ－１）層までの各層に含まれる処理層は、畳み込み層であり、第Ｎ層に含まれる処理層は、全結合層である。しかし、第１層から第Ｎ層までの各層に含まれる処理層の種類は、図３に示された例に限定されない。例えば、軽量化対象のニューラルネットワークは、処理層として畳み込み層および全結合層の一方を、１または複数含んでもよいし、処理層として畳み込み層および全結合層のそれぞれを、１または複数含んでもよい。また、軽量化対象のニューラルネットワークは、畳み込み層以外かつ全結合層以外の処理層を含んでもよい。

また、図３には、軽量化対象のニューラルネットワークの第１層から第Ｎ層までの処理層によって使用される重みとして、重みｗ^１～ｗ^Ｎが示されている。本発明の第１の実施形態では、軽量化対象のニューラルネットワークの各処理層による演算に、１６～３２ビットの浮動小数点によってそれぞれ表現される活性（入力特徴量）および重みが使用される場合を想定する。しかし、軽量化対象のニューラルネットワークの各処理層によって使用される活性および重みそれぞれの形式は、かかる例に限定されない。

図２に戻って説明を続ける。入力部１００によって取得された軽量化対象のニューラルネットワークおよび学習用データセットは、モデル修正部１０１に出力される。

（モデル修正部１０１）
モデル修正部１０１は、入力部１００から入力された軽量化対象のニューラルネットワークに基づいて、軽量化対象のニューラルネットワークに含まれる少なくとも一つの乗算処理を修正対象の乗算処理として特定する。ここでは、第１層から第（Ｎ－１）層に含まれる畳み込み層、および、第Ｎ層に含まれる全結合層に含まれる全部の乗算処理を、修正対象の乗算処理として特定する場合を想定する。しかし、修正対象の乗算処理は、かかる例に限定されない。例えば、軽量化対象のニューラルネットワークに含まれる一部の乗算処理（例えば、要素同士の乗算処理など）のみを修正対象の乗算処理として特定してもよい。

例えば、モデル修正部１０１は、軽量化対象のニューラルネットワークに含まれる畳み込み層および全結合層に含まれる乗算処理のうち、あらかじめ定められた一部の乗算処理のみを修正対象の乗算処理として特定してもよい。一例として、最初の畳み込み層（すなわち、第１層に含まれる畳み込み層）、および、最後の畳み込み層（すなわち、第（Ｎ－１）層に含まれる畳み込み層）に含まれる乗算処理は、他の層の畳み込み層に含まれる乗算処理よりもニューラルネットワークの精度に与える影響が大きい可能性があるため、修正対象の乗算処理として特定されなくてもよい。あるいは、規模が大きい（演算負荷が高い）畳み込み層および全結合層に含まれる乗算処理のみが修正対象の乗算処理として特定されてもよい。

モデル修正部１０１は、修正対象の乗算処理への入力に対して（複数の乗算処理が特定された場合には、複数の乗算処理それぞれに対して）、パラメータを含んだ量子化関数を導入する。例えば、量子化関数は、連続的な値を離散的な値に変換する関数を意味し得る。これによって、モデル修正部１０１は、訓練対象のニューラルネットワーク（第２のニューラルネットワーク）を生成する。量子化関数に含まれるパラメータは、訓練可能なパラメータである。以下では、量子化関数に含まれるパラメータを、「制御パラメータ」とも言う。モデル修正部１０１によって生成された訓練対象のニューラルネットワークおよび学習用データセットは、学習部１０２に出力される。

（学習部１０２）
学習部１０２は、モデル修正部１０１から入力された学習用データセットに基づいて、モデル修正部１０１から入力された訓練対象のニューラルネットワークの学習を行う。例えば、学習部１０２は、誤差逆伝播法（バックプロパゲーション）などを用いて、訓練対象のニューラルネットワークの学習を行う。これによって、重みと制御パラメータとが訓練される。なお、本明細書では、学習用データセットに適応するようにパラメータを調整することを「パラメータを訓練する」とも言い、「ニューラルネットワークの学習を行う」とも言う。

後にも説明するように、学習部１０２は、重みと制御パラメータとを同時に訓練するのが望ましい。また、重みの初期値には、乱数が使用されてよいが、軽量化対象のニューラルネットワークの訓練済みの重みがあれば、訓練済みの重みが初期値として利用されてもよい。学習部１０２による学習後のニューラルネットワークは、演算変換部１０３に出力される。ニューラルネットワーク軽量化装置１０が演算変換部１０３を備えていない場合には、学習部１０２による学習後のニューラルネットワークは、出力部１０４に出力される。

（演算変換部１０３）
演算変換部１０３は、学習部１０２から入力された学習後のニューラルネットワークに基づいて、量子化関数をインデックス化処理に変換するとともに、修正対象の乗算処理をメモリ参照処理に変換する。これによって、演算変換部１０３は、変換後のニューラルネットワーク（第３のニューラルネットワーク）を生成する。インデックス化処理およびメモリ参照処理についての詳細は後に説明する。演算変換部１０３による変換後のニューラルネットワークは、出力部１０４に出力される。

（出力部１０４）
出力部１０４は、演算変換部１０３から入力された変換後のニューラルネットワークを出力する。なお、ニューラルネットワーク軽量化装置１０が演算変換部１０３を備えていない場合には、学習部１０２から入力された学習後のニューラルネットワークを出力する。ニューラルネットワークは、どのように出力されてもよい。例えば、出力部１０４は、ニューラルネットワークを記録媒体に出力することによって、記録媒体にニューラルネットワークを記録してもよい。あるいは、出力部１０４は、ニューラルネットワークを通信装置に出力することによって、通信装置を介してニューラルネットワークを他の装置に送信してもよい。

（１－２．動作の説明）
続いて、本発明の第１の実施形態に係るニューラルネットワーク軽量化装置１０の動作例について説明する。上記したように、入力部１００によって、軽量化対象のニューラルネットワーク（図３）および学習用データセットが取得される。ここでは一例として、学習用データとして２次元画像が使用される場合を想定する。このとき、軽量化対象のニューラルネットワークに含まれる第ｌ（エル）層の畳み込み層によって行われる演算は、下記の数式（１）のように示される。

ここで、ｘ^ｌは、第ｌ（エル）層の畳み込み層への活性（入力特徴量）を示し、ｗ^ｌは、第ｌ層の畳み込み層によって使用される重みを示し、添え字ｉ、ｊ、ｎ、ｍは、それぞれ出力チャネル、入力チャネル、画像の幅、画像の高さを示し、ｆ_ａｃｔ（）は、活性化関数を示している。ただし、数式（１）において第（ｌ＋１）層への活性ｘ_ｉ ^ｌ＋１に対応する画像の幅と画像の高さを示す添え字は省略されている。数式（１）に示されるように、重みと活性との内積が計算された後に、活性化関数が適用される。例えば、活性化関数にはランプ関数などが利用されてよい。また、活性化関数の適用前にバッチ正規化が適用されてもよい。

入力部１００は、軽量化対象のニューラルネットワークおよび学習用データセットをモデル修正部１０１に出力する。

図４は、モデル修正部１０１の動作例を示すフローチャートである。図４に示された例では、第１層から第（Ｎ－１）層に含まれる畳み込み層、および、第Ｎ層に含まれる全結合層に含まれる乗算処理の全部が修正対象の乗算処理として特定される場合を想定する。しかし、上記したように、修正対象の乗算処理は、かかる例に限定されない。

まず、モデル修正部１０１は、入力部１００から入力された軽量化対象のニューラルネットワークに基づいて、修正対象の乗算処理を特定する（Ｓ１１０）。モデル修正部１０１は、修正対象の乗算処理への入力に対して、制御パラメータを含んだ量子化関数を導入する（Ｓ１１１）。以下では、一例として畳み込み層に含まれる乗算処理への入力に対する量子化関数の導入例について主に説明する。しかし、他の処理層（例えば、全結合層など）に含まれる乗算処理への入力に対する量子化関数の導入も、畳み込み層に含まれる乗算処理への入力に対する量子化関数の導入と同様に行われてよい。

図５は、量子化関数が導入される前の乗算処理の演算構成の例を示す図である。図５を参照すると、乗算処理２０２が示されており、乗算処理２０２への入力の例として、第１の入力２００および第２の入力２０１が示されている。また、乗算処理２０２の出力の例として、出力２０３が示されている。すなわち、第１の入力２００と第２の入力２０１との乗算処理２０２が行われ、乗算処理２０２の結果として出力２０３が得られる。

畳み込み層は、数式（１）に表現されるように重みと活性との乗算処理を含む。したがって、第１の入力２００は、一例として重みに該当し、第２の入力２０１は、一例として活性に該当し、乗算処理２０２は、一例として重みと活性との乗算処理に該当し、出力２０３は、一例として重みと活性との乗算処理の結果に該当する。実際に畳み込み層においては、その出力２０３に対して、チャネル、フィルタの幅およびフィルタの高さに応じた加算が行われる。以下では、説明を簡便にするため、かかる加算についての詳細な説明は省略し、乗算処理の詳細について説明する。

図６は、量子化関数が導入された後の乗算処理の演算構成の例を示す図である。図６を参照すると、乗算処理２０２が示されており、乗算処理２０２への入力の例として、第１の入力２００および第２の入力２０１が示されている。また、乗算処理２０２の出力の例として、出力２０３が示されている。また、量子化関数が導入された後においては、第１の入力２００に対して第１の量子化関数３０４が導入され、第２の入力２０１に対して第２の量子化関数３０５が導入されている。

なお、以下では、第１の入力２００および第２の入力２０１の双方に量子化関数が導入される場合を主に想定する。しかし、必ずしも第１の入力２００および第２の入力２０１の双方に量子化関数が導入されなくてもよい。例えば、第１の入力２００および第２の入力２０１の一方のみに量子化関数が導入されてもよい。

図６に示されるように、第１の入力２００に対して導入される第１の量子化関数３０４は、第１の制御パラメータ３００および第１の圧縮伸長処理３０１を含む。また、第２の入力２０１に対して導入される第２の量子化関数３０５は、第２の制御パラメータ３０３および第２の圧縮伸長処理３０２を含む。

第１の制御パラメータ３００は、訓練可能なパラメータである。第２の制御パラメータ３０３は、訓練可能なパラメータである。さらに、第１の制御パラメータ３００と第２の制御パラメータ３０３とは、互いに独立したパラメータである。

第１の圧縮伸長処理３０１は、第１の制御パラメータ３００に基づいて第１の入力２００に対して圧縮伸長処理を行い、圧縮伸長処理の結果を乗算処理２０２に出力する。第２の圧縮伸長処理３０２は、第２の制御パラメータ３０３に基づいて第２の入力２０１に対して圧縮伸長処理を行い、圧縮伸長処理の結果を乗算処理２０２に出力する。

第１の圧縮伸長処理３０１は、圧縮関数と一様量子化関数（第１の一様量子化関数）と伸長関数との合成関数を含む。これらの関数それぞれについての詳細は、後に説明する。同様に、第２の圧縮伸長処理３０２も、圧縮関数と一様量子化関数と伸長関数との合成関数を含む。ただし、第１の圧縮伸長処理３０１と第２の圧縮伸長処理３０２とは、全く同じ関数によって表現されなくてもよい。

一例として、第１の圧縮伸長処理３０１に含まれる圧縮関数と第２の圧縮伸長処理３０２に含まれる圧縮関数とは、異なっていてもよいし、第１の圧縮伸長処理３０１に含まれる一様量子化関数と第２の圧縮伸長処理３０２に含まれる一様量子化関数とは、異なっていてもよい。以下では、第１の圧縮伸長処理３０１および第２の圧縮伸長処理３０２を代表して、第１の圧縮伸長処理３０１および第１の圧縮伸長処理３０１に含まれるこれらの関数について主に説明する。

図７は、圧縮関数、一様量子化関数、伸長関数および合成関数それぞれの例を示す図である。図７を参照すると、圧縮関数Ｇ１１、一様量子化関数Ｇ１２、伸長関数Ｇ１３および合成関数Ｇ１４それぞれの例が示されている。

圧縮関数Ｇ１１は、非線形関数（第１の非線形関数）の一例である。一様量子化関数Ｇ１２は、入力値のレンジに対して等間隔な量子化を行う関数である。伸長関数Ｇ１３は、非線形関数（第２の非線形関数）の一例である。伸長関数Ｇ１３は、圧縮関数Ｇ１１の逆関数であってよい。合成関数Ｇ１４は、第１の入力２００に対して、圧縮関数Ｇ１１、一様量子化関数Ｇ１２および伸長関数Ｇ１３を順に適用する関数である。

合成関数Ｇ１４を参照すると、合成関数Ｇ１４によって入力値のレンジに対して非等間隔な量子化（非一様量子化）が行われることが把握される。このような量子化は、電気通信分野または信号処理分野において一般にコンパンディングと呼ばれる符号化技術によるものである。しかし、本発明の実施形態においては、ニューラルネットワークの量子化を目的として、圧縮関数および伸長関数に訓練可能な制御パラメータを導入している点が新しい。

例えば、量子化前の重み（すなわち、第１の入力２００）をｗとし、量子化後の重み（すなわち、第１の圧縮伸長処理３０１から乗算処理２０２への出力）をｗ’とし、圧縮関数をｆ_θとし、一様量子化関数をｑとし、伸長関数をｆ_θ ^－１とすると、第１の圧縮伸長処理３０１に含まれる合成関数と、量子化前の重みｗと、量子化後の重みｗ’との関係は、下記の数式（２）のように表現され得る。

圧縮関数ｆ_θは、制御パラメータ集合θ（第１の制御パラメータ３００）を有する単調増加かつ微分可能な任意の非線形関数であってよい。圧縮関数ｆ_θの具体的な例としては、Ｋ個の制御パラメータθ_ｋ∈θを有する区分線形関数が採用され得る。かかる区分線形関数は、下記の数式（３）のように表現され得る。

さらに、区分線形関数への入力となる重みｗは、｜ｗ｜∈［０，１］となるようにあらかじめ正規化されているものとする。ここで、正規化の手法は限定されない。例えば、正規化は、最大値による除算によって行われてもよいし、上限値によるクリッピングにより行われてもよい。数式（３）のように表現される区分線形関数は、ほとんど至るところで微分可能であり、その逆関数ｆ_θ ^－１も定義され得る。

一様量子化関数ｑは、非特許文献１に記載の一様量子化関数と同様の関数である。例えば、一様量子化関数ｑは、その入力をｘとすると、下記の数式（４）のように表現され得る。

ただし、ｄは任意の定数である。例えば、一様量子化関数ｑによって符号付き整数への量子化が行われる場合には、ｄ＝２^Ｂ-１－１（Ｂは所与の量子化ビット数）と表現され得る。あるいは、一様量子化関数ｑによって符号なし整数への量子化が行われる場合には、ｄ＝２^Ｂ－１（Ｂは所与の量子化ビット数）と表現され得る。

ここで、一様量子化関数ｑは、数式（４）に示したように、小数点以下を切り捨てる床関数を含むため、微分不可能である。しかし、非特許文献１に記載のように、∂ｑ／∂ｘ＝１としてよい（すなわち、∂ｑ／∂ｆ_θ＝１としてよい）。以上から、量子化関数（第１の量子化関数３０４および第２の量子化関数３０５）それぞれに含まれる合成関数は、微分による勾配計算が可能であることから、誤差逆伝播法に基づく学習が可能である。

例えば、損失関数をＬとすると、下記の数式（５）のように表現される誤差勾配（∂Ｌ／∂θ_ｋ）に基づいて、制御パラメータθ_ｋを更新することができる。

図４に戻って説明を続ける。モデル修正部１０１は、第１の量子化関数３０４および第２の量子化関数３０５を導入していない修正対象の乗算処理が存在する場合には（Ｓ１１２において「ＮＯ」）、Ｓ１１０に動作を移行させる。一方、モデル修正部１０１は、修正対象の乗算処理の全部に対して、第１の量子化関数３０４および第２の量子化関数３０５を導入し終わった場合には（Ｓ１１２において「ＹＥＳ」）、修正を終了する。

図２に戻って説明を続ける。モデル修正部１０１は、第１の量子化関数３０４および第２の量子化関数３０５の導入によって生成した訓練対象のニューラルネットワークおよび学習用データセットを、学習部１０２に出力する。

学習部１０２は、モデル修正部１０１から入力された訓練対象のニューラルネットワークの重みを初期化し、モデル修正部１０１から入力された学習用データセットに基づいて、訓練対象のニューラルネットワークの学習を行う。これによって、訓練対象のニューラルネットワークの重みと制御パラメータ（図６に示された例では、第１の制御パラメータ３００および第２の制御パラメータ３０３）とが訓練される。

より詳細に、学習部１０２は、訓練対象のニューラルネットワークと学習用データセットとを用いて、損失関数に基づく誤差逆伝播法（例えば、誤差逆伝播法に基づく確率的勾配降下法）によって、重みと制御パラメータとを更新する。

学習部１０２は、重みと制御パラメータとを同時に訓練するのが望ましい。なお、「重みと制御パラメータとを同時に訓練する」とは、重みおよび制御パラメータの更新のタイミングが同じであることを必ずしも意味せず、ニューラルネットワークからの同一の出力に基づいて、重みと制御パラメータとを共に更新することを意味し得る。

重みと制御パラメータとが同時に訓練されることによって、認識精度（例えば、画像認識タスクによる認識精度など）がより高くなるように圧縮関数および伸長関数が変化し得る。このように変化した圧縮関数および伸長関数を含んだ非一様量子化関数が適用されることによって、一様量子化関数が適用される場合とは異なり、認識精度に寄与するような量子化値の割り当てが行われるようになる。

学習部１０２は、損失関数が収束したと判定した場合には、訓練対象のニューラルネットワークの学習を終了する。例えば、損失関数またはその変化が閾値よりも小さくなった場合に、損失関数が収束したと判定されてもよい。学習後のニューラルネットワークは、演算変換部１０３に出力される。

演算変換部１０３は、学習部１０２から入力された学習後のニューラルネットワークを推論用途に向けた効率的なニューラルネットワークに変換する。これによって、変換後のニューラルネットワークが生成される。より詳細に、演算変換部１０３は、学習後のニューラルネットワークに基づいて、量子化関数（第１の量子化関数３０４および第２の量子化関数３０５）をインデックス化処理に変換するとともに、乗算処理２０２をメモリ参照処理に変換する。

ここでは、学習後のニューラルネットワークに含まれる量子化関数の全部をインデックス化処理に変換し、学習後のニューラルネットワークに含まれる乗算処理の全部をメモリ参照処理に変換する場合を想定する。しかし、学習後のニューラルネットワークに含まれる量子化関数の一部のみがインデックス化処理に変換されてもよい。さらに、学習後のニューラルネットワークに含まれる乗算処理の一部のみがメモリ参照処理に変換されてもよい。

図８は、変換後の演算構成の例を示す図である。図８を参照すると、変換前の演算構成（図６）と比較して、第１の量子化関数３０４が第１のインデックス化処理４０１に変換されており、第２の量子化関数３０５が第２のインデックス化処理４０２に変換されている。さらに、乗算処理２０２がメモリ参照処理４０５に変換されている。

ここで、第１の量子化関数３０４および第２の量子化関数３０５それぞれは、所与の量子化ビット数に応じた数の量子化値を出力する。そこで、演算変換部１０３は、推論に先立って、第１の量子化関数３０４の出力と第２の量子化関数３０５の出力とに基づく乗算処理２０２の結果をあらかじめ計算し、計算した乗算処理２０２の結果をメモリに記録しておく。そして、演算変換部１０３は、乗算処理２０２を、あらかじめメモリに記録した乗算処理の結果を得る処理（メモリ参照処理４０５）に変換する。

これによって、推論段階において、乗算処理２０２の代わりにメモリ参照処理４０５が行われる。メモリ参照処理４０５に要する時間は、乗算処理２０２に要する時間と比較して短くて済むため、メモリ参照処理４０５によって、乗算処理２０２の出力２０３と同様の出力を高速に得ることが可能になる。

第１のインデックス化処理４０１は、第１の量子化関数３０４への入力（第１の入力２００）を、第１の量子化関数３０４の（当該入力に対応する）出力に基づく乗算処理２０２の結果が記録されたメモリ領域に対応するインデックス値（第１の入力２００に対応するインデックス値）に変換する処理を含み得る。そして、演算変換部１０３は、第１の量子化関数３０４を第１のインデックス化処理４０１に変換し得る。これによって、乗算処理の結果をより高速に得ることが可能になる。

第１の量子化関数３０４への入力（第１の入力２００）を第１の入力２００に対応するインデックス値に変換する手法は限定されない。例えば、第１の量子化関数３０４に含まれる学習済みの合成関数Ｇ１４（図７）において、出力が変化する入力の値（境界値）が存在する。したがって、演算変換部１０３は、第１の量子化関数３０４に含まれる学習済みの合成関数Ｇ１４に基づいて、境界値を第１の境界値４００として得る。学習済みの合成関数Ｇ１４は、単調増加の性質を有するため、一例として、演算変換部１０３は、第１の境界値４００によって仕切られる第１の入力２００の区間のうち、最も小さい区間に対応するインデックス値を「０」とし、区間が上がるに伴ってインデックス値を「１」ずつ増加させればよい。

なお、上記したように、第１の入力２００は、一例として重みに該当し得る。重みは、推論段階において使用されるデータに依存しない。そこで、演算変換部１０３は、第１の入力２００が重みに該当する場合には、訓練済みの重みに対応するインデックス値をあらかじめ得ておき、そのインデックス値に対応するメモリ領域のみに乗算処理の結果を記録しておけばよい。そして、演算変換部１０３は、推論段階においては、第１のインデックス化処理４０１による処理を省略し、あらかじめ得ておいた訓練済みの重みに対応するインデックス値を使用して、乗算処理の結果をメモリ領域から取得してもよい。

同様に、第２のインデックス化処理４０２は、第２の量子化関数３０５への入力（第２の入力２０１）を、第２の量子化関数３０５の（当該入力に対応する）出力に基づく乗算処理２０２の結果が記録されたメモリ領域に対応するインデックス値（第２の入力２０１に対応するインデックス値）に変換する処理を含み得る。そして、演算変換部１０３は、第２の量子化関数３０５を第２のインデックス化処理４０２に変換し得る。これによって、乗算処理の結果をより高速に得ることが可能になる。

第２の量子化関数３０５への入力（第２の入力２０１）を第２の入力２０１に対応するインデックス値に変換する手法も限定されない。例えば、演算変換部１０３は、第２の量子化関数３０５に含まれる学習済みの合成関数に基づいて、境界値を第２の境界値４０３として得る。学習済みの合成関数は、単調増加の性質を有するため、一例として、演算変換部１０３は、第２の境界値４０３によって仕切られる第２の入力２０１の区間のうち、最も小さい区間に対応するインデックス値を「０」とし、区間が上がるに伴ってインデックス値を「１」ずつ増加させればよい。

このように、乗算処理の結果は、第１の入力２００に対応するインデックス値、および、第２の入力２０１に対応するインデックス値それぞれに対応付けられてなるテーブル（ルックアップテーブル４０４）の形式によってメモリ領域に記録される。

図９は、ルックアップテーブル４０４の例を示す図である。図９を参照すると、第１の入力２００に対応するインデックス値、および、第２の入力２０１に対応するインデックス値それぞれに対応付けられたメモリ領域に、乗算処理の結果が記録されている。一例として、第１の入力２００に対応するインデックス値「０」、および、第２の入力２０１に対応するインデックス値「０」それぞれに対応付けられたメモリ領域に、乗算処理の結果「１６」が記録されている。

第１の入力２００に対応するインデックス値が少ないほど（すなわち、第１の量子化関数３０４による量子化ビット数が小さいほど）、ルックアップテーブル４０４のサイズは小さくなり、使用メモリ量の低減が図られる。同様に、第２の入力２０１に対応するインデックス値が少ないほど（すなわち、第２の量子化関数３０５による量子化ビット数が小さいほど）、ルックアップテーブル４０４のサイズは小さくなり、使用メモリ量の低減が図られる。

演算変換部１０３による変換後のニューラルネットワークは、出力部１０４に出力される。

出力部１０４は、演算変換部１０３から入力された変換後のニューラルネットワークを出力する。なお、上記したように、ニューラルネットワーク軽量化装置１０が演算変換部１０３を備えていない場合には、学習部１０２から入力された学習後のニューラルネットワークを出力する。

（１－３．効果の説明）
本発明の第１の実施形態によれば、入力部１００と、モデル修正部１０１と、学習部１０２と、出力部１０４とを備える、ニューラルネットワーク軽量化装置１０が提供される。入力部１００は、軽量化対象のニューラルネットワークを取得する。そして、モデル修正部１０１は、軽量化対象のニューラルネットワークに含まれる少なくとも一つの乗算処理を特定し、特定した乗算処理への入力に対して制御パラメータを含んだ量子化関数を導入して訓練対象のニューラルネットワークを生成する。

学習部１０２は、訓練対象のニューラルネットワークの学習によって、訓練対象のニューラルネットワークの重みと量子化関数に含まれる制御パラメータとを訓練する。そして、出力部１０４は、学習後のニューラルネットワークを出力する。かかる構成によれば、精度劣化を抑制した量子化ニューラルネットワークを構築することが可能となる。

量子化関数は、第１の非線形関数（圧縮関数）と、第１の一様量子化関数と、第２の非線形関数（伸長関数）との合成関数を含み得る。すなわち、第１の非線形関数の直後に、第１の一様量子化関数が実行されるだけではなく、第２の非線形関数が実行され得る。かかる構成によれば、非特許文献３に記載の技術と異なり、入出力間の乖離（量子化誤差）を小さくすることが可能となるため、学習によって最終的に得られるモデルの性能の低下を抑制することが可能となる。

第１の非線形関数（圧縮関数）は、区分線形関数であり得る。かかる構成によれば、区分線形関数によって量子化値の割り当てが学習に基づいて柔軟に決定され得るため、量子化による性能劣化を抑制可能であるという効果が享受される。

より詳細には、区分線形関数のある区間における入力に対する出力の変化（傾き）が増加すると、区分線形関数の後に適用される一様量子化関数において当該区間に対する量子化値の割り当て数が増加する。非特許文献２および非特許文献３に記載の技術は、単一の区間に対してのみ量子化値の割り当て数を増加させる。一方、第１の非線形関数として区分線形関数が適用される場合には、複数の区間において独立に量子化数の割り当て数を増加させることが許容されるため、量子化値が柔軟に割り当てられ得る。

学習部１０２は、訓練対象のニューラルネットワークの重みと量子化関数に含まれる制御パラメータとを同時に訓練し得る。かかる構成によれば、重みと制御パラメータとが互いに依存関係を持ちながら最適化されるため、ニューラルネットワークの性能（認識精度など）の向上が期待される。

ニューラルネットワーク軽量化装置１０は、演算変換部１０３を備え得る。演算変換部１０３は、学習後のニューラルネットワークに基づいて、量子化関数をインデックス化処理に変換するとともに、乗算処理をメモリ参照処理に変換し得る。かかる構成によれば、推論の高速化が図られるだけでなく、消費電力が低減されることが期待される。

以上、本発明の第１の実施形態について説明した。

（２．第２の実施形態）
続いて、本発明の第２の実施形態について説明する。

（２－１．構成の説明）
本発明の第２の実施形態に係るニューラルネットワーク軽量化装置１０の構成は、本発明の第２の実施形態に係るニューラルネットワーク軽量化装置１０の構成と同様である。したがって、以下では、図２に示したニューラルネットワーク軽量化装置１０の機能構成例を用いて、本発明の第２の実施形態について詳細に説明する。具体的には、本発明の第２の実施形態は、本発明の第１の実施形態と比較して、モデル修正部１０１の機能が異なる。以下では、モデル修正部１０１の機能について主に説明し、その他の機能についての詳細な説明は省略する。

（２－２．動作の説明）
続いて、本発明の第２の実施形態に係るニューラルネットワーク軽量化装置１０の動作例について説明する。本発明の第１の実施形態と同様に、本発明の第２の実施形態において、モデル修正部１０１は、入力部１００から入力された軽量化対象のニューラルネットワークに基づいて、修正対象の乗算処理を特定し、修正対象の乗算処理への入力に対して、制御パラメータを含んだ量子化関数を導入する。

図１０は、本発明の第２の実施形態において、量子化関数が導入された後の乗算処理の演算構成の例を示す図である。図１０を参照すると、乗算処理５０６が示されており、乗算処理５０６への入力の例として、第１の入力５００および第２の入力５０１が示されている。また、乗算処理５０６の出力の例として、出力５０７が示されている。また、量子化関数が導入された後においては、第１の入力５００に対して第１の量子化関数５０８が導入され、第２の入力５０１に対して第２の量子化関数５０９が導入されている。

図１０に示されるように、本発明の第２の実施形態においても、本発明の第１の実施形態と同様に、第１の量子化関数５０８は、第１の制御パラメータ５０２および第１の圧縮伸長処理５０３を含む。同様に、第２の量子化関数５０９は、第２の制御パラメータ５０５および第２の圧縮伸長処理５０４を含む。その他、本発明の第２の実施形態において、第１の量子化関数５０８は、第１の圧縮伸長処理５０３の後に、第１の高ビット量子化処理５１０を含む。同様に、第２の量子化関数５０９は、第２の圧縮伸長処理５０４の後に、第２の高ビット量子化処理５１１を含む。

第１の高ビット量子化処理５１０は、第１の圧縮伸長処理５０３の出力に対して、一様量子化関数（第２の一様量子化関数）を適用する。一様量子化関数は、上記の数式（４）のように表現され得る。ただし、第１の高ビット量子化処理５１０における一様量子化関数の量子化ビット数としては、第１の圧縮伸長処理５０３に含まれる一様量子化関数の量子化ビット数よりも大きい数を採用する。

一例として、第１の圧縮伸長処理５０３に含まれる一様量子化関数の量子化ビット数として、「３」を採用し、第１の高ビット量子化処理５１０における一様量子化関数の量子化ビット数として「８」を採用してもよい。

同様に、第２の高ビット量子化処理５１１は、第２の圧縮伸長処理５０４の出力に対して、一様量子化関数（第２の一様量子化関数）を適用する。一様量子化関数は、上記の数式（４）のように表現され得る。ただし、第２の高ビット量子化処理５１１における一様量子化関数の量子化ビット数としては、第２の圧縮伸長処理５０４に含まれる一様量子化関数の量子化ビット数よりも大きい数を採用する。

（２－３．効果の説明）
本発明の第２の実施形態によれば、量子化関数は、圧縮伸長処理（合成関数）の後に、高ビット量子化処理（第２の一様量子化関数）を含む。高ビット量子化処理の量子化ビット数は、圧縮伸長処理に含まれる一様量子化関数（第１の一様量子化関数）の量子化ビット数よりも大きい。かかる構成によれば、ルックアップテーブル４０４の要素値の数を、高ビット量子化処理（第１の高ビット量子化処理５１０および第２の高ビット量子化処理５１１）の量子化ビット数に合わせることができるため、メモリ消費量を低減することが可能となる。

一方、伸長関数Ｇ１３（図７）が非線形関数であるため、本発明の第１の実施形態において、圧縮伸長処理（第１の圧縮伸長処理３０１および第２の圧縮伸長処理３０２）の出力が実数として得られるため、ルックアップテーブル４０４の要素値を１６～３２ビットの浮動小数点などによって表現する必要があった。

また、畳み込み層および全結合層などといった処理層における演算においては、乗算処理の後に加算処理などといった他の演算も必要となる。このような場合においても、高ビット量子化処理（第１の高ビット量子化処理５１０および第２の高ビット量子化処理５１１）によって、整数化された値が乗算処理に出力されるようにすれば、整数による演算が可能になることから、浮動小数点による演算が行われる場合と比較して、消費電力の低減と演算の高速化が期待される。

（３．各種の変形例）
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

上記した例では、ニューラルネットワーク軽量化装置１０が、演算変換部１０３を備える場合について主に説明した。しかし、既に述べたように、ニューラルネットワーク軽量化装置１０は、演算変換部１０３を備えていなくてもよい。かかる場合には、学習部１０２による学習後のニューラルネットワークは、出力部１０４に出力されてよく、出力部１０４によって、学習後のニューラルネットワークが出力されてよい。

また、上記した例では、圧縮伸長処理（第１の実施形態に係る第１の圧縮伸長処理３０１および第２の圧縮伸長処理３０２、第２の実施形態に係る第１の圧縮伸長処理５０３および第２の圧縮伸長処理５０４）に含まれる圧縮関数Ｇ１１（図７）として、区分線形関数が用いられる場合について主に説明した。しかし、圧縮伸長処理に含まれる圧縮関数としては、音声符号化において一般的に用いられるμ‐Ｌａｗ関数を用いることも可能である。

（４．ハードウェア構成例）
続いて、本発明の実施形態に係るニューラルネットワーク軽量化装置１０のハードウェア構成例について説明する。以下では、本発明の実施形態に係るニューラルネットワーク軽量化装置１０のハードウェア構成例として、情報処理装置９００のハードウェア構成例について説明する。なお、以下に説明する情報処理装置９００のハードウェア構成例は、ニューラルネットワーク軽量化装置１０のハードウェア構成の一例に過ぎない。したがって、ニューラルネットワーク軽量化装置１０のハードウェア構成は、以下に説明する情報処理装置９００のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。

図１１は、本発明の実施形態に係るニューラルネットワーク軽量化装置１０の例としての情報処理装置９００のハードウェア構成を示す図である。情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３と、ホストバス９０４と、ブリッジ９０５と、外部バス９０６と、インタフェース９０７と、入力装置９０８と、出力装置９０９と、ストレージ装置９１０と、通信装置９１１と、を備える。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバス等から構成されるホストバス９０４により相互に接続されている。

ホストバス９０４は、ブリッジ９０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バス等の外部バス９０６に接続されている。なお、必ずしもホストバス９０４、ブリッジ９０５および外部バス９０６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路等から構成されている。情報処理装置９００を操作するユーザは、この入力装置９０８を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９０９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。

ストレージ装置９１０は、データ格納用の装置である。ストレージ装置９１０は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置９１０は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）で構成される。このストレージ装置９１０は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。

通信装置９１１は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置９１１は、無線通信または有線通信のどちらに対応してもよい。

以上、本発明の実施形態に係るニューラルネットワーク軽量化装置１０のハードウェア構成例について説明した。

１０ニューラルネットワーク軽量化装置
１００入力部
１０１修正部
１０２学習部
１０３演算変換部
１０４出力部

Claims

第１のニューラルネットワークを取得する入力部と、
前記第１のニューラルネットワークに含まれる少なくとも一つの乗算処理を特定し、前記乗算処理への入力に対してパラメータを含んだ、第１の非線形関数と、第１の一様量子化関数と、第２の非線形関数との合成関数を含む量子化関数を導入して第２のニューラルネットワークを生成する修正部と、
前記第２のニューラルネットワークの学習によって、前記第２のニューラルネットワークの重みパラメータと前記量子化関数に含まれるパラメータとを訓練する学習部と、
学習後の第２のニューラルネットワークを出力する出力部と、
を備える、ニューラルネットワーク軽量化装置。
前記第２の非線形関数は、前記第１の非線形関数の逆関数である、
請求項１に記載のニューラルネットワーク軽量化装置。
前記量子化関数は、前記合成関数の後に、前記第１の一様量子化関数の量子化ビット数よりも量子化ビット数が大きい第２の一様量子化関数を含む、
請求項１または２に記載のニューラルネットワーク軽量化装置。
前記第１の非線形関数は、区分線形関数である、
請求項１～３のいずれか一項に記載のニューラルネットワーク軽量化装置。
前記学習部は、前記第２のニューラルネットワークの重みパラメータと前記量子化関数に含まれるパラメータとを同時に訓練する、
請求項１～４のいずれか一項に記載のニューラルネットワーク軽量化装置。
前記ニューラルネットワーク軽量化装置は、
学習後の第２のニューラルネットワークに基づいて、前記量子化関数をインデックス化処理に変換するとともに、前記乗算処理をメモリ参照処理に変換して第３のニューラルネットワークを生成する演算変換部を備え、
前記出力部は、前記第３のニューラルネットワークを出力する、
請求項１～５のいずれか一項に記載のニューラルネットワーク軽量化装置。
前記メモリ参照処理は、あらかじめ計算されてメモリに記録された、前記量子化関数の出力に基づく乗算処理の結果を得る処理を含む、
請求項６に記載のニューラルネットワーク軽量化装置。
前記インデックス化処理は、前記量子化関数への入力を前記量子化関数の出力に基づく乗算処理の結果が記録されたメモリ領域に対応するインデックス値に変換する処理を含む、
請求項７に記載のニューラルネットワーク軽量化装置。
第１のニューラルネットワークを取得することと、
前記第１のニューラルネットワークに含まれる少なくとも一つの乗算処理を特定し、前記乗算処理への入力に対してパラメータを含んだ、第１の非線形関数と、第１の一様量子化関数と、第２の非線形関数との合成関数を含む量子化関数を導入して第２のニューラルネットワークを生成することと、
前記第２のニューラルネットワークの学習によって、前記第２のニューラルネットワークの重みパラメータと前記量子化関数に含まれるパラメータとを訓練することと、
学習後の第２のニューラルネットワークを出力することと、
を含む、ニューラルネットワーク軽量化方法。
コンピュータを、
第１のニューラルネットワークを取得する入力部と、
前記第１のニューラルネットワークに含まれる少なくとも一つの乗算処理を特定し、前記乗算処理への入力に対してパラメータを含んだ、第１の非線形関数と、第１の一様量子化関数と、第２の非線形関数との合成関数を含む量子化関数を導入して第２のニューラルネットワークを生成する修正部と、
前記第２のニューラルネットワークの学習によって、前記第２のニューラルネットワークの重みパラメータと前記量子化関数に含まれるパラメータとを訓練する学習部と、
学習後の第２のニューラルネットワークを出力する出力部と、
を備えるニューラルネットワーク軽量化装置として機能させるプログラム。