JP6992864B1

JP6992864B1 - ニューラルネットワーク軽量化装置、ニューラルネットワーク軽量化方法およびプログラム

Info

Publication number: JP6992864B1
Application number: JP2020161812A
Authority: JP
Inventors: 康平山本; 素子加賀谷
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2022-01-13
Anticipated expiration: 2040-09-28
Also published as: JP2022054660A

Abstract

【課題】ニューラルネットワークの処理効率の低下を抑制しつつ精度を向上させる。【解決手段】第１のニューラルネットワークの修正対象層に対して、訓練可能な第１の係数を含んだ第１の量子化関数と、訓練可能な第２の係数を含んだ第２の量子化関数と、チャネル単位の訓練可能な第３の係数を含んだチャネル減衰関数とを導入して第２のニューラルネットワークを生成し、第２のニューラルネットワークに基づく学習により、第１のニューラルネットワークの重みパラメータと第１の係数と第２の係数と第３の係数とを訓練し、学習後の第２のニューラルネットワークに基づく再学習により、重みパラメータを再訓練し、再学習後の第２のニューラルネットワークからチャネル減衰関数と修正対象層における訓練後の第３の係数に応じた冗長チャネルの重みパラメータとが削除された第３のニューラルネットワークを出力するニューラルネットワーク軽量化装置が提供される。【選択図】図１

Description

本発明は、ニューラルネットワーク軽量化装置、ニューラルネットワーク軽量化方法およびプログラムに関する。

近年、各種の分野においてニューラルネットワークが用いられている。例えば、物体の認識または物体の位置検出などを目的とした一般的なニューラルネットワークのモデルが知られている。かかる一般的なニューラルネットワークのモデルでは、畳み込み層または全結合層における演算に、１６～３２ビットの浮動小数点によってそれぞれ表現される特徴量および重みパラメータが使用される。

一方、例えば、量子化ニューラルネットワークの形態の一つである２値化ニューラルネットワークでは、畳み込み層または全結合層における演算に使用される特徴量および重みパラメータは、それぞれ（－１と１で表現される）１ビット（すなわち２値）で表現され得る。これによって、畳み込み層または全結合層での浮動小数点演算がビット演算に置き換えられ得る。ビット演算が使用される場合には、浮動小数点演算が使用される場合よりも、低消費電力かつ高速な演算処理が実行され得るとともに、メモリ使用量も低減され得るため、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）またはモバイル端末などといった、演算リソースの限られたデバイス上でもディープラーニングモデルの効率的な処理が可能となることが知られている。

例えば、２値化ニューラルネットワークの構築方法が開示されている（例えば、非特許文献１参照）。より詳細に、かかる非特許文献１には、全ての畳み込み層または全結合層において、浮動小数点で表現される重みパラメータを符号関数により－１または１で表現される２値に変換するとともに、入力される特徴量も符号関数により－１または１で表現される２値に変換する方法が開示されている。

また、量子化ニューラルネットワークの構築方法が開示されている（例えば、非特許文献２参照）。より詳細に、かかる非特許文献２には、あらかじめ層ごとに、異なる量子化ビット数（ビット精度）を持つ重みパラメータと入力特徴量との組み合わせが複数定義されており、畳み込みニューラルネットワークは、各層において複数の組み合わせの中から最適な組み合わせを一つ選択するように学習される方法が開示されている。

特開２０１９－２１２２０６号公報

Itay Hubara、他４名、"Binarized Neural Networks"、[online]、Neural Information ProcessingSystems (2016)、［令和2年9月16日検索］、インターネット＜http://papers.nips.cc/paper/6573-binarized-neural-networks＞ Bichen Wu、他５名、"MixedPrecision Quantization of ConvNets via Differentiable Neural ArchitectureSearch"、[online]、2018年、［令和2年9月16日検索］、インターネット＜https://arxiv.org/abs/1812.00090＞ Benoit Jacob、他７名、"Quantization and Training of Neural Networksfor Efficient Integer-Arithmetic-Only Inference"、[online]、2017年、［令和2年9月16日検索］、インターネット＜https://arxiv.org/abs/1712.05877＞

しかしながら、非特許文献１に開示されている方法によれば、畳み込み層または全結合層に入力されるデータ（例えば、特徴量および重みパラメータなど）の２値化に伴って生じる誤差（量子化誤差）が大きく量子化ニューラルネットワークモデルの精度が大きく劣化してしまう可能性がある。また、非特許文献１に開示されている方法によれば、チャネル数が固定であるため、量子化ニューラルネットワークが冗長なチャネルを含んでしまう可能性がある。

また、非特許文献２に開示されている方法によれば、量子化ビット数を層ごとに推定することが可能である一方、学習の過程において、重みパラメータと入力特徴量との複数の組み合わせそれぞれに対応する畳み込み層をメモリ上にロードし、その全ての畳み込み層に対する順伝播および逆伝播を何度も繰り返す必要がある。そのため、非特許文献２に開示されている方法によれば、収束までに多くの時間を要する上に、全部の組み合わせをあらかじめ定義するのは困難であり得る。

そこで、あらかじめ用意すべきデータ（例えば、非特許文献２に開示されている複数の組み合わせそれぞれに対応する畳み込み層）の量を低減しつつ、処理効率の向上と精度劣化の抑制とが可能なニューラルネットワークを構築することを可能とする技術が提供されることが望まれる。

上記問題を解決するために、本発明のある観点によれば、複数の処理層を含んだ第１のニューラルネットワークを取得する入力部と、前記複数の処理層の少なくとも一つの処理層を修正対象層として特定し、前記修正対象層に対して、訓練可能な第１の係数を含んだ第１の量子化関数と、訓練可能な第２の係数を含んだ第２の量子化関数と、チャネル単位の訓練可能な第３の係数を含んだチャネル減衰関数とを導入して第２のニューラルネットワークを生成する修正部と、前記第２のニューラルネットワークに基づく学習により、前記第１のニューラルネットワークの重みパラメータと前記第１の係数と前記第２の係数と前記第３の係数とを訓練する学習部と、学習後の第２のニューラルネットワークに基づく再学習により、前記重みパラメータを再訓練する再学習部と、再学習後の第２のニューラルネットワークから前記チャネル減衰関数と前記修正対象層における訓練後の第３の係数に応じた冗長チャネルの重みパラメータとが削除された第３のニューラルネットワークを出力する出力部と、を備える、ニューラルネットワーク軽量化装置が提供される。

前記学習部は、前記重みパラメータを訓練する第１の学習と、前記第１の係数、前記第２の係数および前記第３の係数を訓練する第２の学習とを、片方ずつ行ってもよい。

前記チャネル減衰関数は、前記第２の学習に際して、前記修正対象層への入力に対して前記第３の係数に応じた値の乗算をチャネル単位に実行する処理を含んでもよい。

前記チャネル減衰関数は、前記第１の学習に際して、前記修正対象層への入力のうち、前記第３の係数に応じた値が所定の閾値を下回るチャネルに対応する入力を零にする処理を含んでもよい。

前記冗長チャネルは、訓練後の前記第３の係数に応じた値が前記所定の閾値を下回るチャネルであってもよい。

前記チャネル減衰関数は、前記第２の学習に際して、前記修正対象層への入力に対して、前記第３の係数に応じた値の乗算とともに、段階的に値が小さくなる調整パラメータの乗算を実行する処理を含んでもよい。

前記学習部は、前記第２の学習に際して、前記調整パラメータが組み込まれた損失関数に基づいて学習を行うことにより前記調整パラメータを段階的に小さくしてもよい。

前記学習部は、前記第２の学習に際して、あらかじめ定められたスケジュールに従って、前記調整パラメータを段階的に小さくしてもよい。

前記修正部は、前記修正対象層への入力に対して前記チャネル減衰関数および前記第１の量子化関数が適用されるように、前記チャネル減衰関数および前記第１の量子化関数を導入してもよい。

前記第１の量子化関数は、前記チャネル減衰関数からの出力に対して第１の正規化を行った後に前記第１の係数を乗算する処理を含んでもよい。

前記第１の正規化は、前記チャネル減衰関数からの出力を第１の値域に収める変換を含んでもよい。

前記修正部は、前記修正対象層の重みパラメータに対して前記第２の量子化関数が適用されるように、前記第２の量子化関数を導入してもよい。

前記第２の量子化関数は、前記修正対象層の重みパラメータに対して第２の正規化を行った後に前記第２の係数を乗算する処理を含んでもよい。

前記第２の正規化は、前記修正対象層の重みパラメータを第２の値域に収める変換を含んでもよい。

前記修正対象層は、畳み込み層および全結合層の少なくともいずれか一つを含んでもよい。

前記再学習部は、前記第１の係数を訓練後の第１の係数に固定し、前記第２の係数を訓練後の第２の係数に固定し、前記第３の係数を訓練後の第３の係数に固定した状態において、前記重みパラメータを再訓練してもよい。

また、本発明の別の観点によれば、複数の処理層を含んだ第１のニューラルネットワークを取得することと、前記複数の処理層の少なくとも一つの処理層を修正対象層として特定し、前記修正対象層に対して、訓練可能な第１の係数を含んだ第１の量子化関数と、訓練可能な第２の係数を含んだ第２の量子化関数と、チャネル単位の訓練可能な第３の係数を含んだチャネル減衰関数とを導入して第２のニューラルネットワークを生成することと、前記第２のニューラルネットワークに基づく学習により、前記第１のニューラルネットワークの重みパラメータと前記第１の係数と前記第２の係数と前記第３の係数とを訓練することと、学習後の第２のニューラルネットワークに基づく再学習により、前記重みパラメータを再訓練することと、再学習後の第２のニューラルネットワークから前記チャネル減衰関数と前記修正対象層における訓練後の第３の係数に応じた冗長チャネルの重みパラメータとが削除された第３のニューラルネットワークを出力することと、を含む、ニューラルネットワーク軽量化方法が提供される。

また、本発明の別の観点によれば、コンピュータを、複数の処理層を含んだ第１のニューラルネットワークを取得する入力部と、前記複数の処理層の少なくとも一つの処理層を修正対象層として特定し、前記修正対象層に対して、訓練可能な第１の係数を含んだ第１の量子化関数と、訓練可能な第２の係数を含んだ第２の量子化関数と、チャネル単位の訓練可能な第３の係数を含んだチャネル減衰関数とを導入して第２のニューラルネットワークを生成する修正部と、前記第２のニューラルネットワークに基づく学習により、前記第１のニューラルネットワークの重みパラメータと前記第１の係数と前記第２の係数と前記第３の係数とを訓練する学習部と、学習後の第２のニューラルネットワークに基づく再学習により、前記重みパラメータを再訓練する再学習部と、再学習後の第２のニューラルネットワークから前記チャネル減衰関数と前記修正対象層における訓練後の第３の係数に応じた冗長チャネルの重みパラメータとが削除された第３のニューラルネットワークを出力する出力部と、を備えるニューラルネットワーク軽量化装置として機能させるプログラムが提供される。

以上説明したように本発明によれば、あらかじめ用意すべきデータ量を低減しつつ、処理効率の向上と精度劣化の抑制とが可能なニューラルネットワークを構築することを可能とする技術が提供される。

本発明の実施形態に係るニューラルネットワーク軽量化装置の機能構成例を示す図である。軽量化対象のニューラルネットワークの一例を示す図である。第ｌ層の畳み込み層の一般的な構成例を示す図である。修正部の動作例を示すフローチャートである。第ｌ層の畳み込み層へのチャネル減衰関数および量子化関数の導入例を説明するための図である。学習部の動作例を示すフローチャートである。係数更新の変形例について説明するための図である。本発明の実施形態に係るニューラルネットワーク軽量化装置の例としての情報処理装置のハードウェア構成を示す図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。

（１．実施形態の詳細）
続いて、本発明の実施形態の詳細について説明する。

（１－１．構成の説明）
まず、本発明の実施形態に係るニューラルネットワーク軽量化装置の構成例について説明する。図１は、本発明の実施形態に係るニューラルネットワーク軽量化装置の機能構成例を示す図である。図１に示されるように、本発明の実施形態に係るニューラルネットワーク軽量化装置１０は、入力部１００、修正部１０１、学習部１０２、再学習部１０３および出力部１０４を備える。

ニューラルネットワーク軽量化装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置を含み、図示しないメモリにより記憶されているプログラムがＣＰＵによりＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）に展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、ニューラルネットワーク軽量化装置１０は、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。

（入力部１００）
入力部１００は、軽量化対象のニューラルネットワーク（第１のニューラルネットワーク）および軽量化対象のニューラルネットワークの学習に使用されるデータ（学習用データセット）を取得する。例えば、入力部１００は、軽量化対象のニューラルネットワークおよび学習用データセットを、図示しないメモリから読み出すことによって取得してもよい。例えば、軽量化対象のニューラルネットワークは、学習前のニューラルネットワークの構造（モデル構造）であってよい。

図２は、軽量化対象のニューラルネットワークの一例を示す図である。図２に示されるように、軽量化対象のニューラルネットワークは、第１層から第Ｎ層（Ｎは２以上の整数）までの複数の層によって構成される。第１層には、入力データが入力され、第Ｎ層からは、出力データが出力される。第１層から第Ｎ層までの各層には、処理層が含まれており、第１層から第Ｎ層までの各層の次層には、活性化関数が挿入されている。第１層から第Ｎ層までの各層に含まれる処理層は、次層に含まれる活性化関数に対して出力を行う。

図２に示された例では、第１層から第（Ｎ－１）層までの各層に含まれる処理層は、畳み込み層であり、第Ｎ層に含まれる処理層は、全結合層である。しかし、第１層から第Ｎ層までの各層に含まれる処理層の種類は、図２に示された例に限定されない。例えば、軽量化対象のニューラルネットワークは、処理層として畳み込み層および全結合層の一方を、１または複数含んでもよいし、処理層として畳み込み層および全結合層のそれぞれを、１または複数含んでもよい。また、軽量化対象のニューラルネットワークは、畳み込み層以外かつ全結合層以外の処理層を含んでもよい。

また、図２には、軽量化対象のニューラルネットワークの第１層から第Ｎ層までの処理層によって使用される重みパラメータとして、重みパラメータｗ^１～ｗ^Ｎが示されている。本発明の実施形態では、軽量化対象のニューラルネットワークの各処理層による演算に、１６～３２ビットの浮動小数点によってそれぞれ表現される特徴量および重みパラメータが使用される場合を想定する。しかし、軽量化対象のニューラルネットワークの各処理層によって使用される特徴量および重みパラメータそれぞれの形式は、かかる例に限定されない。

図１に戻って説明を続ける。入力部１００によって取得された軽量化対象のニューラルネットワークおよび学習用データセットは、修正部１０１に出力される。

（修正部１０１）
修正部１０１は、入力部１００から入力された軽量化対象のニューラルネットワークに基づいて、軽量化対象のニューラルネットワークに含まれる少なくとも一つの処理層を修正対象層として特定する。ここでは、第１層から第（Ｎ－１）層に含まれる畳み込み層、および、第Ｎ層に含まれる全結合層の全部を、修正対象層として特定する場合を想定する。しかし、修正部１０１は、軽量化対象のニューラルネットワークに含まれる畳み込み層および全結合層の一部のみを修正対象層として特定してもよい（すなわち、修正対象層は、畳み込み層および全結合層の少なくともいずれか一つを含んでもよい）。

例えば、修正部１０１は、軽量化対象のニューラルネットワークに含まれる畳み込み層および全結合層のうち、あらかじめ定められた一部のみを修正対象層として特定してもよい。一例として、最初の畳み込み層（すなわち、第１層に含まれる畳み込み層）、および、最後の畳み込み層（すなわち、第（Ｎ－１）層に含まれる畳み込み層）は、他の層の畳み込み層よりもニューラルネットワークの精度に与える影響が大きい可能性があるため、修正対象層として特定されなくてもよい。

修正部１０１は、修正対象層に対して（複数の修正対象層が特定された場合には、複数の修正対象層それぞれに対して）、訓練可能な係数γ１（第１の係数）を含んだ第１の量子化関数と、訓練可能な係数γ２（第２の係数）を含んだ第２の量子化関数と、チャネル単位の訓練可能な係数α（第３の係数）を含んだチャネル減衰関数とを導入する。例えば、量子化関数は、連続的な値を離散的な値に変換する関数を意味し得る。これによって、修正部１０１は、訓練対象のニューラルネットワーク（第２のニューラルネットワーク）を生成する。修正部１０１によって生成された訓練対象のニューラルネットワークおよび学習用データセットは、学習部１０２に出力される。

（学習部１０２）
学習部１０２は、修正部１０１から入力された学習用データセットに基づいて、修正部１０１から入力された訓練対象のニューラルネットワークに基づく学習を行う。例えば、学習部１０２は、誤差逆伝播法（バックプロパゲーション）などを用いて、訓練対象のニューラルネットワークに基づく学習を行う。これによって、重みパラメータと、第１の量子化関数に含まれる係数γ１と、第２の量子化関数に含まれる係数γ２と、チャネル減衰関数に含まれる係数αとが訓練される。

なお、後に詳細に説明するように、学習部１０２は、重みパラメータを訓練する第１の学習と、係数γ１、係数γ２および係数αを訓練する第２の学習とを、片方ずつ行うのが望ましい。また、重みパラメータの初期値には、乱数が使用されてよいが、軽量化対象のニューラルネットワークの訓練済みの重みパラメータがあれば、訓練済みの重みパラメータが初期値として利用されてもよい。学習部１０２による学習後の訓練対象のニューラルネットワークおよび学習用データセットは、再学習部１０３に出力される。

（再学習部１０３）
再学習部１０３は、学習部１０２から入力された学習用データセットに基づいて、学習部１０２から入力された学習後の訓練対象のニューラルネットワークに基づく再学習を行う。例えば、再学習部１０３は、重みパラメータを初期化し、誤差逆伝播法などを用いて、学習後の訓練対象のニューラルネットワークに基づく再学習を行う。これによって、重みパラメータが再訓練される。再学習部１０３による再学習後の訓練対象のニューラルネットワークは、出力部１０４に出力される。

（出力部１０４）
出力部１０４は、再学習部１０３から入力された再学習後の訓練対象のニューラルネットワークから、チャネル減衰関数を削除するとともに、修正対象層における訓練後の係数αに応じた冗長チャネルの重みパラメータを削除して、出力対象のニューラルネットワーク（第３のニューラルネットワーク）を生成する。そして、出力部１０４は、出力対象のニューラルネットワークを出力する。なお、出力対象のニューラルネットワークは、どのように出力されてもよい。例えば、出力部１０４は、出力対象のニューラルネットワークを記録媒体に出力することによって、記録媒体に出力対象のニューラルネットワークを記録してもよい。あるいは、出力部１０４は、出力対象のニューラルネットワークを通信装置に出力することによって、通信装置を介して出力対象のニューラルネットワークを他の装置に送信してもよい。

（１－２．動作の説明）
続いて、本発明の実施形態に係るニューラルネットワーク軽量化装置１０の動作例について説明する。上記したように、入力部１００によって、軽量化対象のニューラルネットワーク（図２）および学習用データセットが取得される。ここでは一例として、学習用データとして２次元画像が使用される場合を想定する。このとき、軽量化対象のニューラルネットワークに含まれる第ｌ（エル）層の畳み込み層によって行われる演算は、下記の数式（１）のように示される。

ここで、ｘ^ｌは、第ｌ（エル）層の畳み込み層への入力特徴量を示し、ｗ^ｌは、第ｌ層の畳み込み層によって使用される重みパラメータを示し、添え字ｉ、ｊ、ｎ、ｍは、それぞれ出力チャネル、入力チャネル、画像の幅、画像の高さを示し、ｆ（）は、活性化関数を示している。ただし、数式（１）において第（ｌ＋１）層への入力特徴量ｘ_ｉ ^ｌ＋１に対応する画像の幅と画像の高さを示す添え字は省略されている。数式（１）に示されるように、重みパラメータと入力特徴量との内積が計算された後に、活性化関数が適用される。例えば、活性化関数にはランプ関数などが利用されてよい。また、活性化関数の適用前にバッチ正規化が適用されてもよい。

図３は、第ｌ層の畳み込み層の一般的な構成例を示す図である。図３を参照すると、第ｌ層の畳み込み層２０２が示されている。第ｌ層の畳み込み層２０２には、前層からの出力に対して活性化関数が適用されたデータが入力特徴量ｘ^ｌとして入力される。また、第ｌ層の畳み込み層２０２は、重みパラメータｗ^ｌを有している。第ｌ層の畳み込み層２０２は、入力特徴量ｘ^ｌと重みパラメータｗ^ｌとの内積を計算する。かかる計算結果は、次層に出力される。入力部１００は、軽量化対象のニューラルネットワークおよび学習用データセットを修正部１０１に出力する。

図４は、修正部１０１の動作例を示すフローチャートである。修正部１０１は、入力部１００から入力された軽量化対象のニューラルネットワークに基づいて、修正対象層を特定する（Ｓ１００）。ここでは、第１層から第（Ｎ－１）層に含まれる畳み込み層、および、第Ｎ層に含まれる全結合層の全部を、修正対象層として特定する場合を想定する。修正部１０１は、修正対象層に対して、訓練可能な係数γ１を含んだ第１の量子化関数と、訓練可能な係数γ２を含んだ第２の量子化関数と、チャネル単位の訓練可能な係数αを含んだチャネル減衰関数とを導入する（Ｓ１０１）。一例として、第ｌ層の畳み込み層へのチャネル減衰関数および量子化関数の導入例について説明する。

図５は、第ｌ層の畳み込み層へのチャネル減衰関数および量子化関数の導入例を説明するための図である。図５を参照すると、第ｌ層の畳み込み層２０２が示されている。また、図５を参照すると、第ｌ層の畳み込み層２０２への入力として、入力特徴量ｘ^ｌが示され、第ｌ層の畳み込み層２０２が有する重みパラメータｗ^ｌが示されている。

図５に示されるように、修正部１０１は、第ｌ層の畳み込み層２０２への入力（入力特徴量ｘ^ｌ）に対して、チャネル減衰関数２０４および量子化関数２０５（第１の量子化関数）が適用されるように、チャネル減衰関数２０４および量子化関数２０５を導入する。チャネル減衰関数２０４は、チャネル単位の訓練可能な係数α^ｌを含んでいる。量子化関数２０５は、訓練可能な係数γ１^ｌを含んでいる。

一方、修正部１０１は、第ｌ層の畳み込み層２０２の重みパラメータｗ^ｌに対して、量子化関数２０６（第２の量子化関数）が適用されるように、量子化関数２０６を導入する。量子化関数２０６は、訓練可能な係数γ２^ｌを含んでいる。

チャネル減衰関数２０４は、第ｌ層の畳み込み層２０２への入力（入力特徴量ｘ^ｌ）の各チャネルに対応する値を減衰させる関数である。後にも説明するように、重みパラメータｗ^ｌを訓練する第１の学習（以下、単に「重みパラメータ訓練」とも言う）と、係数α^ｌと係数γ１^ｌと係数γ２^ｌとを訓練する第２の学習（以下、単に「係数訓練」とも言う）とが、片方ずつ行われる。チャネル減衰関数２０４は、重みパラメータ訓練時に適用される処理と、係数訓練時に適用される処理とを含んでいる。

より詳細に、チャネル減衰関数２０４は、係数訓練に際して、第ｌ層の畳み込み層２０２への入力（入力特徴量ｘ^ｌ）に対して、係数α^ｌに応じた値の乗算をチャネル単位に実行する処理を含む。さらに、チャネル減衰関数２０４は、係数訓練に際して、第ｌ層の畳み込み層２０２への入力（入力特徴量ｘ^ｌ）に対して、段階的に値が小さくなる調整パラメータη^ｌの乗算を実行する処理を含む。

例えば、入力特徴量ｘ^ｌのチャネル数がＣであるとすると、ｘ^ｌは、ｘ_ｉ ^ｌ（ｉ＝１，２，．．．，Ｃ）と表現され、係数α^ｌは、入力特徴量ｘ^ｌのチャネル数Ｃと同数の要素を持つベクトルα_ｉ ^ｌ（ｉ＝１，２，．．．，Ｃ）として表現され得る。係数α^ｌに応じた値の例としては、係数α^ｌにsoftmax関数を適用して得られる値が用いられ得る。このとき、チャネルｉに対応する係数α_ｉ ^ｌに応じた値は、softmax_ｉ（α^ｌ）と表現され得る。一例として、チャネル減衰関数２０４は、係数訓練時の処理として、下記の数式（２）のように表現される処理を含む。

後にも説明するように、α^ｌが訓練されていくと、α^ｌの値はチャネル間において差が生じるようになる。より詳細には、α^ｌの値が０に近いチャネルほど、ニューラルネットワークの精度への寄与が小さいチャネルである（冗長チャネルである可能性が高い）とみなされ得る。また、後にも説明するように、調整パラメータη^ｌは、係数訓練時に、０以上の範囲内において段階的に値が小さくなる。調整パラメータη^ｌが小さくなるほど、チャネル間に生じるα^ｌの値の差が大きくなると考えられるため、冗長チャネルの特定が容易になることが期待される。

一方、チャネル減衰関数２０４は、重みパラメータ訓練に際して、第ｌ層の畳み込み層２０２への入力（入力特徴量ｘ^ｌ）のうち、係数α^ｌに応じた値が所定の閾値δを下回るチャネルに対応する入力（入力特徴量ｘ^ｌ）を零にする処理を含む。閾値δは、所与の非負値であってよい。一例として、チャネル減衰関数２０４は、重みパラメータ訓練時の処理として、下記の数式（３）のように表現される処理を含む。

すなわち、softmax_ｉ（α^ｌ）が閾値δを下回った場合、チャネルｉは冗長チャネルであるとみなされ、チャネルｉに対応する入力特徴量ｘ_ｉ ^ｌは、零にされる。

量子化関数２０５は、チャネル減衰関数２０４からの出力Ｘ^ｌに対して正規化（第１の正規化）を行った後に係数γ１^ｌを乗算する処理を含む。チャネル減衰関数２０４からの出力Ｘ^ｌに対する正規化は、チャネル減衰関数２０４からの出力Ｘ^ｌを所定の値域（第１の値域）に収める変換を含んでよい。ここでは、所定の値域に収める変換として、チャネル減衰関数２０４からの出力Ｘ^ｌを、出力Ｘ^ｌの絶対値の第ｌ層における全チャネルにおける最大値であるｍａｘ｜Ｘ^ｌ｜で割る演算を用いる場合を想定する。

一例として、チャネル減衰関数２０４からの出力Ｘ^ｌを量子化関数２０５によってｋビットの符号付き整数に量子化する場合には、量子化関数２０５は、下記の数式（４）のように表現される処理を含む。

数式（４）において、Round関数は、値を（例えば、四捨五入によって）整数に丸める関数である。β１は、２^ｋ-１／ｍａｘ（｜Ｘ^ｌ｜）の逆数（すなわち、ｍａｘ（｜Ｘ^ｌ｜／２^ｋ-１）である。つまり、数式（４）に示されるquantize関数は、値を整数に丸めた後に浮動小数点で表現されるβ１を乗じて浮動小数点に戻す形態をしている。例えば、量子化関数２０５は、学習段階においては、かかる形態を有していてよい。しかし、β１の乗算は、畳み込み層２０２による演算の後に適用されても次層への出力は変わらない。したがって、推論段階においては、β１は畳み込み層２０２の後段に移動されてもよい。これによって、畳み込み層２０２にはRound関数によって値が丸められた後の整数が入力され、畳み込み演算による負荷が軽減され得る。

上記した非特許文献３にも量子化についての記載があるが、このように既に開示されている量子化においては、γ１＝１（固定値）である。一方、数式（４）に示された量子化は、このように既に開示されている量子化とは異なり、quantize関数の中に訓練可能なγ１が含まれている。γ１の訓練によって最適な量子化ビット数が推定され得る。一例として、γ１＝１かつｋ＝８ビットである場合には、Round関数が適用された後の最大値は、２^７－１となる。一方、γ１＝２^－４かつｋ＝８ビットである場合には、Round関数が適用された後の最大値は、２^３となり、Round関数が適用された後の値は、４ビットで表現可能となる。

なお、上記では、量子化関数２０５によってｋビットの符号付き整数への量子化が行われる場合を想定した。しかし、量子化関数２０５は、ｋビットの符号なし整数への量子化を行ってもよい。かかる場合には、数式（４）における２^ｋ-１は、２^ｋに置き換えられればよい。

量子化関数２０６は、重みパラメータｗ^ｌに対して正規化（第２の正規化）を行った後に係数γ２^ｌを乗算する処理を含む。重みパラメータｗ^ｌに対する正規化は、重みパラメータｗ^ｌを所定の値域（第２の値域）に収める変換を含んでよい。ここでは、所定の値域に収める変換として、重みパラメータｗ^ｌを、ｗ^ｌの絶対値の第ｌ層における全チャネルにおける最大値であるｍａｘ｜ｗ^ｌ｜で割る演算を用いる場合を想定する。

一例として、重みパラメータｗ^ｌを量子化関数２０６によってｋビットの符号付き整数に量子化する場合には、量子化関数２０６は、下記の数式（５）のように表現される処理を含む。

数式（５）において、Round関数は、数式（４）に示されたRound関数と同様の特徴を有する。β２は、２^ｋ-１／ｍａｘ（｜ｗ^ｌ｜）の逆数（すなわち、ｍａｘ（｜ｗ^ｌ｜／２^ｋ-１）である。数式（５）に示されるquantize関数も、数式（４）に示されたquantize関数と同様に、値を整数に丸めた後に浮動小数点で表現されるβ２を乗じて浮動小数点に戻す形態をしている。例えば、量子化関数２０６は、学習段階においては、かかる形態を有していてよい。また、推論段階においては、β２は畳み込み層２０２の後段に移動されてもよい。

なお、量子化関数２０６は、量子化関数２０５と同様に、ｋビットの符号なし整数への量子化を行ってもよい。かかる場合には、数式（５）における２^ｋ-１は、２^ｋに置き換えられればよい。

図４に戻って説明を続ける。修正部１０１は、チャネル減衰関数２０４と量子化関数２０５と量子化関数２０６とを導入していない修正対象層が存在する場合には（Ｓ１０２において「ＮＯ」）、まだチャネル減衰関数２０４と量子化関数２０５と量子化関数２０６とを導入していない修正対象層に対してＳ１０１を実行する。一方、修正部１０１は、全部の修正対象層に対して、チャネル減衰関数２０４と量子化関数２０５と量子化関数２０６とを導入し終わった場合には（Ｓ１０２において「ＹＥＳ」）、修正を終了する。

図１に戻って説明を続ける。修正部１０１は、チャネル減衰関数２０４と量子化関数２０５と量子化関数２０６との導入によって生成した訓練対象のニューラルネットワークおよび学習用データセットを、学習部１０２に出力する。学習部１０２は、上記したように、修正部１０１から入力された学習用データセットに基づいて、修正部１０１から入力された訓練対象のニューラルネットワークに基づく学習を行う。これによって、重みパラメータｗと係数αと係数γ１と係数γ２とが訓練される。

図６は、学習部１０２の動作例を示すフローチャートである。上記したように、学習部１０２は、重みパラメータ訓練と係数訓練とを、片方ずつ行う。まず、学習部１０２は、訓練対象のニューラルネットワークの重みパラメータｗを初期化し（Ｓ１１０）、重みパラメータ訓練を行う。より詳細に、学習部１０２は、係数αと係数γ１と係数γ２とを固定した状態において、損失関数に基づく誤差逆伝播法（例えば、誤差逆伝播法に基づく確率的勾配降下法）によって、重みパラメータｗを更新する（Ｓ１１１）。重みパラメータ訓練においては、冗長チャネルに対応する入力特徴量が零にされる（数式（３））。

なお、本発明の実施形態において用いられる損失関数は特定の関数に限定されず、一般的なニューラルネットワークにおいて用いられる損失関数と同様の損失関数が用いられてよい。例えば、学習部１０２は、学習用データセットに基づいて、訓練対象のニューラルネットワークからの出力値と正解値との差分を算出し、当該差分に基づく平均二乗誤差を損失関数として算出してもよい。

続いて、学習部１０２は、重みパラメータｗの更新回数が所定の回数に達したか否かを判定する（Ｓ１１２）。例えば、重みパラメータｗの更新回数は、イテレーション数であってもよく、所定の回数は、イテレーション数の閾値（例えば、５回など）であってもよい。学習部１０２は、重みパラメータｗの更新回数が所定の回数に達していないと判定した場合には（Ｓ１１２において「ＮＯ」）、Ｓ１１１に戻る。

一方、学習部１０２は、重みパラメータｗの更新回数が所定の回数に達したと判定した場合には（Ｓ１１２において「ＹＥＳ」）、係数訓練を行う。より詳細に、学習部１０２は、重みパラメータｗを固定した状態において、正則化項が付与された損失関数に基づく誤差逆伝播法（例えば、誤差逆伝播法に基づく確率的勾配降下法）によって、係数αと係数γ１と係数γ２とを更新する（Ｓ１１３）。例えば、正則化項が付与された損失関数は、以下の数式（６）のように表現され得る。

数式（６）において、第１項である損失関数Ｌは、重みパラメータ訓練の損失関数と同様に限定されない。第２項、第３項および第４項それぞれは、正則化項である。λ_１、λ_２およびλ_３は、正則化の強度を決める係数であり、所与の非負値であってよい。第２項には、調整パラメータη^ｌのＬ１ノルムの修正対象層全体における総和が含まれている。学習部１０２は、このように調整パラメータηが付与された損失関数に基づいて学習を行うことにより調整パラメータηを段階的に小さくすることが可能である。

しかしながら、調整パラメータηを段階的に小さくする手法は、かかる例に限定されない。例えば、学習部１０２は、係数訓練に際して、あらかじめ定められたスケジュールに従って、調整パラメータηを段階的に小さくしてもよい。一例として、学習部１０２は、所定の回数のイテレーションごとに所定の幅だけ調整パラメータηを小さくしてもよい（例えば、１イテレーションごとに０．００１だけ調整パラメータηを小さくしてもよい）。なお、上記したように、調整パラメータηを段階的に小さくすることは、冗長チャネルの特定に役立つことが期待される。

第３項には、量子化関数２０５に含まれる係数γ１^ｌのＬ１ノルムの修正対象層全体における総和が含まれている。すなわち、第３項は、量子化関数２０５に含まれる係数γ１に関する制約項である。同様に、第４項には、量子化関数２０６に含まれる係数γ２^ｌのＬ１ノルムの修正対象層全体における総和が含まれている。すなわち、第４項は、量子化関数２０６に含まれる係数γ２に関する制約項である。

損失関数Ｌは、量子化ビット数が多いほど小さくなると考えられる。したがって、単純に損失関数Ｌに基づいて、係数γ１と係数γ２とを更新すると、係数γ１と係数γ２とが大きくなってしまい、量子化ビット数が抑えられなくなってしまうと考えられる。しかし、このような制約項が損失関数Ｌに付与されることによって、ニューラルネットワークの精度劣化を抑制するだけではなく、必要な程度に抑制された量子化ビット数を推定することが可能となる。

このように、学習部１０２による係数訓練では、チャネル数（すなわち、冗長チャネル以外のチャネル数）と量子化ビット数とが同時に推定され得る。したがって、チャネル数と量子化ビット数との間に存在するトレードオフ関係を考慮しながら、チャネル数および量子化ビット数の最適解が求められ得る。これによって、チャネル数および量子化ビット数それぞれが独立に推定される場合（例えば、チャネル削減後のモデルに対して量子化が行われる場合、または、量子化済みのモデルに対してチャネル削減が行われる場合など）よりも、精度劣化を抑制しつつ、処理効率の低下も抑制したニューラルネットワークを構築することが期待され得る。

続いて、学習部１０２は、係数γ１、係数γ２および係数αの更新回数が所定の回数に達したか否かを判定する（Ｓ１１４）。例えば、係数γ１、係数γ２および係数αの更新回数は、イテレーション数であってもよく、所定の回数は、イテレーション数の閾値（例えば、３回など）であってもよい。学習部１０２は、係数γ１、係数γ２および係数αの更新回数が所定の回数に達していないと判定した場合には（Ｓ１１４において「ＮＯ」）、Ｓ１１３に戻る。

一方、学習部１０２は、重みパラメータｗの更新回数が所定の回数に達したと判定した場合には（Ｓ１１４において「ＹＥＳ」）、正則化項が付与された損失関数が収束したか否かを判定する（Ｓ１１５）。学習部１０２は、正則化項が付与された損失関数が収束していないと判定した場合には（Ｓ１１５において「ＮＯ」）、Ｓ１１１に戻る。一方、学習部１０２は、正則化項が付与された損失関数が収束したと判定した場合には（Ｓ１１５において「ＹＥＳ」）、訓練対象のニューラルネットワークの訓練を終了する。例えば、正則化項が付与された損失関数またはその変化が閾値よりも小さくなった場合に、正則化項が付与された損失関数が収束したと判定されてもよい。

学習後の訓練対象のニューラルネットワークおよび学習用データセットは、再学習部１０３に出力される。

再学習部１０３は、学習部１０２から入力された学習用データセットに基づいて、学習部１０２から入力された学習後の訓練対象のニューラルネットワークに基づく再学習を行う。より詳細に、再学習部１０３は、重みパラメータｗを初期化し、係数γ１を学習部１０２による訓練後の係数γ１に固定し、係数γ２を学習部１０２による訓練後の係数γ２に固定し、係数αを学習部１０２による訓練後の係数αに固定した状態において、損失関数に基づく誤差逆伝播法（例えば、誤差逆伝播法に基づく確率的勾配降下法）によって、重みパラメータｗを更新する。これによって、チャネル数および量子化ビット数が特定された状態における最適な重みパラメータｗが獲得され、ニューラルネットワークの精度の更なる向上が期待され得る。

再学習部１０３による再学習後の訓練対象のニューラルネットワークは、出力部１０４に出力される。

出力部１０４は、再学習部１０３から入力された再学習後の訓練対象のニューラルネットワークから、修正対象層に対して導入されたチャネル減衰関数２０４を削除するとともに、修正対象層における訓練後の係数αに応じた冗長チャネルの重みパラメータを削除する。これによって、出力対象のニューラルネットワークが生成される。冗長チャネルは、訓練後の係数αに応じた値が閾値δを下回るチャネルであってよい。例えば、訓練後のsoftmax_ｉ（α^ｌ）が閾値δを下回る場合には、第ｌ層においてチャネルｉが冗長チャネルであるとみなされ、第ｌ層からチャネルｉの重みパラメータｗ_ｉ ^ｌが削除される。

なお、出力対象のニューラルネットワークは、かかる例に限定されず、各種の変形が施されてもよい。例えば、出力部１０４は、訓練後の係数γ１^ｌと初期値として設定された量子化ビット数ｋとを統合してもよい（例えば、数式（４）においてγ１^ｌ＝２^－４かつｋ＝８である場合、（２^－４）ｘ（２^８－１）－１は、２^３に統合されてもよい）。同様に、出力部１０４は、訓練後の係数γ２^ｌとｋとを統合してもよい。

さらに、上記したように、出力部１０４は、学習段階において量子化関数２０５に含まれていたβ１を畳み込み層２０２の後段に移動させてもよい。これによって、推論段階においては畳み込み層２０２に浮動小数点で表現されるβ１が含まれなくなるため、畳み込み層２０２による畳み込み演算の負荷が軽減され得る。同様に、出力部１０４は、学習段階において量子化関数２０６に含まれていたβ２を畳み込み層２０２の後段に移動させてもよい。出力部１０４は、このようにして生成した出力対象のニューラルネットワークを出力する。

（１－３．効果の説明）
本発明の実施形態によれば、入力部１００と、修正部１０１と、学習部１０２と、再学習部１０３と、出力部１０４とを備える、ニューラルネットワーク軽量化装置１０が提供される。入力部１００は、複数の処理層を含んだ軽量化対象のニューラルネットワークを取得する。そして、修正部１０１は、複数の処理層の少なくとも一つの処理層を修正対象層として特定し、修正対象層に対して、訓練可能な係数γ１を含んだ量子化関数２０５と、訓練可能な係数γ２を含んだ量子化関数２０６と、チャネル単位の訓練可能な係数αを含んだチャネル減衰関数２０４とを導入して訓練対象のニューラルネットワークを生成する。

学習部１０２は、訓練対象のニューラルネットワークに基づく学習により、軽量化対象のニューラルネットワークの重みパラメータｗと係数γ１と係数γ２と係数αとを訓練する。再学習部１０３は、学習後の訓練対象のニューラルネットワークに基づく再学習により、重みパラメータｗを再訓練する。出力部１０４は、再学習後の訓練対象のニューラルネットワークからチャネル減衰関数２０４と修正対象層における訓練後の係数αに応じた冗長チャネルの重みパラメータｗとが削除された出力対象のニューラルネットワークを出力する。

かかる構成によれば、チャネル数（すなわち、冗長チャネル以外のチャネル数）と量子化ビット数とが同時に推定され得る。したがって、チャネル数と量子化ビット数との間に存在するトレードオフ関係を考慮しながら、チャネル数および量子化ビット数の最適解が求められ得る。これによって、チャネル数および量子化ビット数それぞれが独立に推定される場合よりも、精度劣化を抑制しつつ、処理効率の低下も抑制したニューラルネットワークを構築することが可能となる。

以上、本発明の実施形態の詳細について説明した。

（２．各種の変形例）
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、上記では、学習部１０２が、係数αと係数γ１と係数γ２とを独立的に更新する例を主に説明した。しかし、学習部１０２は、訓練対象のニューラルネットワークとは別のニューラルネットワーク（第４のニューラルネットワーク）に基づいて、係数αと係数γ１と係数γ２とを生成してもよい。かかる係数更新の変形例について、図７を参照しながら説明する。

図７は、係数更新の変形例について説明するための図である。図７を参照すると、訓練対象のニューラルネットワークとは別にニューラルネットワーク２０９（第４のニューラルネットワーク）が設けられている。ニューラルネットワーク２０９の構成は特に限定されない。例えば、ニューラルネットワーク２０９は、畳み込み層および全結合層の少なくともいずれか一つを含んでもよい。学習部１０２は、係数訓練において正則化項が付与された損失関数に基づく誤差逆伝播法によって、ニューラルネットワーク２０９の重みパラメータを更新する。

学習部１０２は、修正対象層への入力（入力特徴量ｘ^ｌ）に基づくデータをニューラルネットワーク２０９にも入力させ、かかるデータに応じたニューラルネットワーク２０９からの出力に基づいて、係数αと係数γ１と係数γ２とを生成してもよい。かかる場合には、係数αと係数γ１と係数γ２が、修正対象層への入力に対して依存する。このとき、修正対象層への入力と同じデータがニューラルネットワーク２０９に入力されてもよいし、修正対象層への入力の平均値などといった一意に定まる統計量が代表値としてニューラルネットワーク２０９に入力されてもよい。

（３．ハードウェア構成例）
続いて、本発明の実施形態に係るニューラルネットワーク軽量化装置１０のハードウェア構成例について説明する。以下では、本発明の実施形態に係るニューラルネットワーク軽量化装置１０のハードウェア構成例として、情報処理装置９００のハードウェア構成例について説明する。なお、以下に説明する情報処理装置９００のハードウェア構成例は、ニューラルネットワーク軽量化装置１０のハードウェア構成の一例に過ぎない。したがって、ニューラルネットワーク軽量化装置１０のハードウェア構成は、以下に説明する情報処理装置９００のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。

図８は、本発明の実施形態に係るニューラルネットワーク軽量化装置１０の例としての情報処理装置９００のハードウェア構成を示す図である。情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３と、ホストバス９０４と、ブリッジ９０５と、外部バス９０６と、インタフェース９０７と、入力装置９０８と、出力装置９０９と、ストレージ装置９１０と、通信装置９１１と、を備える。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバス等から構成されるホストバス９０４により相互に接続されている。

ホストバス９０４は、ブリッジ９０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バス等の外部バス９０６に接続されている。なお、必ずしもホストバス９０４、ブリッジ９０５および外部バス９０６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路等から構成されている。情報処理装置９００を操作するユーザは、この入力装置９０８を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９０９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。

ストレージ装置９１０は、データ格納用の装置である。ストレージ装置９１０は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置９１０は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）で構成される。このストレージ装置９１０は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。

通信装置９１１は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置９１１は、無線通信または有線通信のどちらに対応してもよい。

以上、本発明の実施形態に係るニューラルネットワーク軽量化装置１０のハードウェア構成例について説明した。

１０ニューラルネットワーク軽量化装置
１００入力部
１０１修正部
１０２学習部
１０３再学習部
１０４出力部

Claims

複数の処理層を含んだ第１のニューラルネットワークを取得する入力部と、
前記複数の処理層の少なくとも一つの処理層を修正対象層として特定し、前記修正対象層に対して、訓練可能な第１の係数を含んだ第１の量子化関数と、訓練可能な第２の係数を含んだ第２の量子化関数と、チャネル単位の訓練可能な第３の係数を含んだチャネル減衰関数とを導入して第２のニューラルネットワークを生成する修正部と、
前記第２のニューラルネットワークに基づく学習により、前記第１のニューラルネットワークの重みパラメータと前記第１の係数と前記第２の係数と前記第３の係数とを訓練する学習部と、
学習後の第２のニューラルネットワークに基づく再学習により、前記重みパラメータを再訓練する再学習部と、
再学習後の第２のニューラルネットワークから前記チャネル減衰関数と前記修正対象層における訓練後の第３の係数に応じた冗長チャネルの重みパラメータとが削除された第３のニューラルネットワークを出力する出力部と、
を備える、ニューラルネットワーク軽量化装置。
前記学習部は、前記重みパラメータを訓練する第１の学習と、前記第１の係数、前記第２の係数および前記第３の係数を訓練する第２の学習とを、片方ずつ行う、
請求項１に記載のニューラルネットワーク軽量化装置。
前記チャネル減衰関数は、前記第２の学習に際して、前記修正対象層への入力に対して前記第３の係数に応じた値の乗算をチャネル単位に実行する処理を含む、
請求項２に記載のニューラルネットワーク軽量化装置。
前記チャネル減衰関数は、前記第１の学習に際して、前記修正対象層への入力のうち、前記第３の係数に応じた値が所定の閾値を下回るチャネルに対応する入力を零にする処理を含む、
請求項３に記載のニューラルネットワーク軽量化装置。
前記冗長チャネルは、訓練後の前記第３の係数に応じた値が前記所定の閾値を下回るチャネルである、
請求項４に記載のニューラルネットワーク軽量化装置。
前記チャネル減衰関数は、前記第２の学習に際して、前記修正対象層への入力に対して、前記第３の係数に応じた値の乗算とともに、段階的に値が小さくなる調整パラメータの乗算を実行する処理を含む、
請求項３～５のいずれか一項に記載のニューラルネットワーク軽量化装置。
前記学習部は、前記第２の学習に際して、前記調整パラメータが組み込まれた損失関数に基づいて学習を行うことにより前記調整パラメータを段階的に小さくする、
請求項６に記載のニューラルネットワーク軽量化装置。
前記学習部は、前記第２の学習に際して、あらかじめ定められたスケジュールに従って、前記調整パラメータを段階的に小さくする、
請求項６に記載のニューラルネットワーク軽量化装置。
前記修正部は、前記修正対象層への入力に対して前記チャネル減衰関数および前記第１の量子化関数が適用されるように、前記チャネル減衰関数および前記第１の量子化関数を導入する、
請求項１～８のいずれか一項に記載のニューラルネットワーク軽量化装置。
前記第１の量子化関数は、前記チャネル減衰関数からの出力に対して第１の正規化を行った後に前記第１の係数を乗算する処理を含む、
請求項９に記載のニューラルネットワーク軽量化装置。
前記第１の正規化は、前記チャネル減衰関数からの出力を第１の値域に収める変換を含む、
請求項１０に記載のニューラルネットワーク軽量化装置。
前記修正部は、前記修正対象層の重みパラメータに対して前記第２の量子化関数が適用されるように、前記第２の量子化関数を導入する、
請求項１～１１のいずれか一項に記載のニューラルネットワーク軽量化装置。
前記第２の量子化関数は、前記修正対象層の重みパラメータに対して第２の正規化を行った後に前記第２の係数を乗算する処理を含む、
請求項１２に記載のニューラルネットワーク軽量化装置。
前記第２の正規化は、前記修正対象層の重みパラメータを第２の値域に収める変換を含む、
請求項１３に記載のニューラルネットワーク軽量化装置。
前記修正対象層は、畳み込み層および全結合層の少なくともいずれか一つを含む、
請求項１～１４のいずれか一項に記載のニューラルネットワーク軽量化装置。
前記再学習部は、前記第１の係数を訓練後の第１の係数に固定し、前記第２の係数を訓練後の第２の係数に固定し、前記第３の係数を訓練後の第３の係数に固定した状態において、前記重みパラメータを再訓練する、
請求項１～１５のいずれか一項に記載のニューラルネットワーク軽量化装置。
複数の処理層を含んだ第１のニューラルネットワークを取得することと、
前記複数の処理層の少なくとも一つの処理層を修正対象層として特定し、前記修正対象層に対して、訓練可能な第１の係数を含んだ第１の量子化関数と、訓練可能な第２の係数を含んだ第２の量子化関数と、チャネル単位の訓練可能な第３の係数を含んだチャネル減衰関数とを導入して第２のニューラルネットワークを生成することと、
前記第２のニューラルネットワークに基づく学習により、前記第１のニューラルネットワークの重みパラメータと前記第１の係数と前記第２の係数と前記第３の係数とを訓練することと、
学習後の第２のニューラルネットワークに基づく再学習により、前記重みパラメータを再訓練することと、
再学習後の第２のニューラルネットワークから前記チャネル減衰関数と前記修正対象層における訓練後の第３の係数に応じた冗長チャネルの重みパラメータとが削除された第３のニューラルネットワークを出力することと、
を含む、ニューラルネットワーク軽量化方法。
コンピュータを、
複数の処理層を含んだ第１のニューラルネットワークを取得する入力部と、
前記複数の処理層の少なくとも一つの処理層を修正対象層として特定し、前記修正対象層に対して、訓練可能な第１の係数を含んだ第１の量子化関数と、訓練可能な第２の係数を含んだ第２の量子化関数と、チャネル単位の訓練可能な第３の係数を含んだチャネル減衰関数とを導入して第２のニューラルネットワークを生成する修正部と、
前記第２のニューラルネットワークに基づく学習により、前記第１のニューラルネットワークの重みパラメータと前記第１の係数と前記第２の係数と前記第３の係数とを訓練する学習部と、
学習後の第２のニューラルネットワークに基づく再学習により、前記重みパラメータを再訓練する再学習部と、
再学習後の第２のニューラルネットワークから前記チャネル減衰関数と前記修正対象層における訓練後の第３の係数に応じた冗長チャネルの重みパラメータとが削除された第３のニューラルネットワークを出力する出力部と、
を備えるニューラルネットワーク軽量化装置として機能させるプログラム。