JP2021005211A

JP2021005211A - 情報処理方法及び情報処理装置

Info

Publication number: JP2021005211A
Application number: JP2019118451A
Authority: JP
Inventors: 文彦橘; Fumihiko Tachibana; 大輔宮下; Daisuke Miyashita
Original assignee: Kioxia Corp
Current assignee: Kioxia Corp
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2021-01-14
Also published as: US20200410360A1; US11494659B2

Abstract

【課題】ＣＮＮにおいて、入力値（アクティベーション）の最適なビット数削減（量子化）を実現できる情報処理方法を提供する。【解決手段】畳み込み層を含む深層ニューラルネットワークを用いた順伝搬処理及び誤差逆伝播処理を含む学習処理に適用する情報処理方法であって、第１の処理は、中間層において、第１ビット数で表現される第１の入力値に基づいて第１のパラメータを用いて順伝搬処理を実行する。第２の処理は、第１ビット数より少ない第２ビット数で表現される第２の入力値を生成する量子化処理を実行し、第２の入力値をメモリに保存する。第３の処理は、メモリに保存した第２の入力値及び順伝搬処理により得られた値を使用して演算した結果に基づいて、第１のパラメータを更新した第２のパラメータを算出する。第４の処理は、第２のパラメータを算出する際の勾配の差分に基づいて、量子化処理の量子化条件を決定する。【選択図】図７

Description

本発明の実施形態は、畳み込みニューラルネットワークの学習処理に適用する情報処理方法及び情報処理装置に関する。

畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）は、例えば、画像認識処理に有効であり、学習処理において誤差逆伝播（back propagation：バックプロパゲーション）を適用するディープニューラルネットワーク（Deep Neural Network：ＤＮＮ）である。

ＣＮＮは入力層、中間層、出力層を含み、中間層において入力値とパラメータ（重み）を使用する一連の処理により、出力層において出力値を算出する。中間層では、畳み込み層を含む複数の層における入力値（前段層の出力値に相当）は、アクティベーション（Activation）と呼ばれている。

ＣＮＮの学習処理におけるバックプロパゲーションの間、アクティベーションはメモリに保存される。メモリ容量を節約するために、アクティベーションのビット数を削減する量子化が行われることがある。量子化とは、いわゆるアナログ値をデジタル値に変換する処理ではなく、アクティベーションを表す元の値のビット数を削減する処理を意味する。

アクティベーションの量子化によりメモリの容量を節約できるが、単にアクティベーションのビット数を削減する量子化では、ＣＮＮの学習処理の精度が低下することがある。従って、学習処理の精度を確保するためには、アクティベーションの最適な量子化を実現することが望ましい。

特開２０１７−５９０７１号公報特開２０１７−４９６８４号公報特開２０１８−１５６４５１号公報特再ＷＯ２０１７−１６８８６５号公報特開２０１８−５５２５９号公報特開２０１７−１５８１８３号公報

Eunhyeok Park, Sungjoo Yoo, and Peter Vajda, "Value-aware Quantization for Training and Inference of Neural Networks", ECCV 2018 paper, ［２０１９年５月８日検索］インターネット＜URL: https://arxiv.org/abs/1804.07802> Ayan Chakrabarti, and Benjamin Moseley, "Backprop with Approximate Activations for Memory-efficient Network Training", ［２０１９年５月８日検索］インターネット＜URL: https://arxiv.org/abs/1901.07988> Ron Banner, Yury Nahshan, Elad Hoffer, and Daniel Soudry, "Post training 4-bit quantization of convolution networks for rapid-deployment", ［２０１９年５月８日検索］インターネット＜URL: https://arxiv.org/abs/1810.05723>

本実施形態は、ＣＮＮにおいて、アクティベーションの最適な量子化を実現できる情報処理方法及び情報処理装置を提供することにある。

本実施形態の情報処理方法は、プロセッサ及び当該プロセッサの演算に用いられるメモリを使用し、畳み込み層を含む深層ニューラルネットワークを用いた順伝搬処理及び誤差逆伝播処理を含む学習処理に適用する情報処理方法であって、第１の処理、第２の処理、第３の処理、及び第４の処理を含む。前記第１の処理は、前記深層ニューラルネットワークの中間層において、第１ビット数で表現される第１の入力値に基づいて第１のパラメータを用いて前記順伝搬処理を実行する。前記第２の処理は、前記第１ビット数より少ない第２ビット数で表現される第２の入力値を生成する量子化処理を実行し、当該第２の入力値を前記メモリに保存する。前記第３の処理は、前記メモリに保存した前記第２の入力値及び前記順伝搬処理により得られた値を使用して演算した結果に基づいて、前記学習処理で用いられ前記第１のパラメータを更新した第２のパラメータを算出する。前記第４の処理は、前記第２のパラメータを算出する際の勾配の差分に基づいて、前記量子化処理の量子化条件を決定する。

第１の実施形態に関する情報処理装置の構成を示すブロック図。第１の実施形態におけるＣＮＮの一例を示す図。第１の実施形態における学習処理及び量子化の概略を説明するための図。第１の実施形態における量子化条件を説明するための図。量子化条件の決定処理の一例を説明するための図。量子化条件の決定処理の一例による効果を説明するための図。第１の実施形態における学習処理の手順を説明するためのフローチャート。第１の実施形態における量子化条件の決定処理を説明するための図。第１の実施形態の変形例に関する量子化条件の決定処理を説明するための図。第１の実施形態による効果の一例を説明するための図。第２の実施形態における量子化及び符号化の概略を説明するための図。第２の実施形態における量子化及び符号化の一例を説明するための図。

以下図面を参照して、実施形態を説明する。
［第１の実施形態］
図１は、本第１の実施形態にかかる情報処理装置の構成を示すブロック図である。図１に示すように、本第１の実施形態の情報処理装置は、プロセッサ１０、メモリ１１、及びアプリケーション（ＡＰ）システム１４を有する。

本第１の実施形態では、プロセッサ１０は、例えばＧＰＵ（Graphic Processing Unit）やＣＰＵ（Central Processing Unit）であり、ハードウェア及びソフトウェアにより構成されている。プロセッサ１０は、学習処理部１２により、ディープニューラルネットワーク（ＤＮＮ又は単にニューラルネットワークと表記する）１３に対して、メモリ１１を使用して学習処理を実行する。本第１の実施形態の学習処理部１２は、後述する量子化を実行する。

本第１の実施形態は、ＤＮＮ１３として、例えば画像認識処理に有効な畳み込みニューラルネットワーク（ＣＮＮ）２０を適用する。即ち、プロセッサ１０は、学習用データとして、例えば６万枚の画像データセットを含む入力データ１００を使用して、画像認識に関するＣＮＮ２０のパラメータの学習処理を実行する。なお、入力データ１００には、ＣＮＮ２０の出力と比較するための正解ラベル（教師データ）も含まれる。

ＡＰシステム１４は、プロセッサ１０により最適化されたＣＮＮ２０を利用し、例えば、未知の入力画像を認識する画像認識システムである。画像認識システムは、ハードウェア及びソフトウェアから構成されるコンピュータ、サーバシステム、又はＷｅｂサービスを実行するクラウドシステムを含む。

図２は、本第１の実施形態のＣＮＮ２０の一例を示すブロック図である。図２に示すように、ＣＮＮ２０は、図示しない入力層（input layer）と出力層（output layer）との間に中間層（internal layer）を含む。中間層は、隠れ層（hidden layer）とも呼ばれる。

中間層は、畳み込み層(convolution layer、以下ＣＶ層)２１-1、バッチ正規化層（Batch-Normalization layer：ＢＮ層）２２-1、活性化層（activation layer）２３-1を含む１段階層、及びＣＶ層２１-2、ＢＮ層２２-2、活性化層２３-2を含む２段階層のように、多段階層の構成である。

本第１の実施形態では、ＣＮＮ２０は、学習処理部１２により、入力データ１００を分割したミニバッチサイズの入力データ（入力Ｘ）に対する学習処理（ミニバッチ学習処理）を実行する。

ＣＮＮ２０においては、ＣＶ層２１-1（２１-2）は、入力Ｘに対する畳み込み処理を実行する。ＢＮ層２２-1（２２-2）は、正規化処理及びアフィン変換（affine transformation）を実行する。即ち、ＢＮ層２２-1（２２-2）は、ＣＶ層２１-1（２１-2）により算出される特徴の分布を調整して、当該分布の偏りを無くすように正規化処理を実行し、アフィン変換によりスケール及びシフト処理を行う。活性化層２３-1（２３-2）は、例えば活性化関数ＲｅＬＵ(Rectified linear Unit)を使用する活性化処理（数値の変換処理）を実行する。
［第１の実施形態の動作］
以下、図３を参照して、本第１の実施形態の動作を説明する。図３は、本第１の実施形態のＣＮＮ２０の学習処理に含まれる畳み込み処理及び量子化の概略を説明するための図である。なお、学習処理は学習処理部１２により実行されるが、ＣＮＮ２０の動作として説明する。

図３に示すように、ＣＮＮ２０では、ＣＶ層２１-1は、入力Ｘに対して、複数種類の重みフィルタ３２-1〜３２-3を用いた畳み込み処理（３１）を実行する。ここで、入力Ｘが例えばカラー画像のように、３つのチャネルＣＨ-1〜ＣＨ-3のアクティベーション３０-1〜３０-3を含む場合に、重みフィルタ３２-1（３２-2,３２-3）のチャネル数も３つとなる。具体的には、チャネルＣＨ-1〜ＣＨ-3は、例えばカラー画像の赤色画像、緑色画像、青色画像に対応する。

即ち、ＣＮＮ２０は、重みフィルタ３２（３２-1〜３２-3を代表して）によるパラメータ（重みＷ）を使用した畳み込み処理（３１）を実行する。ＣＮＮ２０は、畳み込み処理結果を、ＢＮ層２２-1や活性化層２３-1を含む各層を経由して、図示しない出力層まで伝播する（順伝搬：Forward）。出力層は、畳み込み処理（３１）により抽出された特徴量３３-1〜３３-3を含む出力Ｙと正解ラベルとの誤差（ｄＹ）を算出する。

出力Ｙと正解ラベルとの誤差（ｄＹ）がある場合には、ＣＮＮ２０は、パラメータ（Ｗ）の更新量に相当する勾配（gradient,ｄＷと表記する）を用いて、バックプロパゲーション（誤差逆伝播）により、パラメータ（Ｗ）の更新処理を実行する。具体的には、ＣＮＮ２０は、後述するように、勾配（ｄＷ）の計算に適した畳み込み演算（３６）により、勾配（ｄＷ）を算出し、この勾配（ｄＷ）に基づいてパラメータ（Ｗ）を更新する。例えば、更新後のパラメータを「Ｗnew」とし、更新前のパラメータを「Ｗold」とした場合に、更新後のパラメータ「Ｗnew」は、数式「Ｗnew=Ｗold-(Lr*ｄＷ)、ここでLrは学習係数（learning rate）」により算出できる。

ここで、前述したように、ＣＮＮ２０において、中間層でのＣＶ層２１-1を含む各層に対する入力値（入力Ｘ）は、アクティベーション（Activation）と呼ばれている。図３に示すように、本第１の実施形態では、アクティベーションは、チャネルＣＨ（ＣＨ-1〜ＣＨ-3を代表して）毎に量子化（３４）される。

具体的には、学習処理部１２は、ＣＮＮ２０でのバックプロパゲーション（ＢＰ処理）で用いるために、チャネルＣＨ毎に、例えば３２ビットで表現されているアクティベーションを、例えば３ビットに量子化（３４）したアクティベーションをメモリ１１に保存する。これ以降の説明では、量子化（３４）したアクティベーションを量子化アクティベーションと称することもある。なお、本第１の実施形態では、量子化アクティベーションは、３ビット以外にも、例えば２ビット、４ビット、５ビットで表現されるように量子化（３４）される場合もある。

ここで、本第１の実施形態は、アクティベーションの量子化（３４）の条件として、量子化幅及び量子化範囲の最適値を決定することで、適切な学習精度（accuracy）を確保できる。図４に示すように、例えば３２ビットで表現されているアクティベーションは、正規分布（normal distribution）又はガウス分布（Gaussian distribution）を示すものとする。量子化幅Δは、隣接する量子化値間の量子化段階（quantization step）に相当し、「２α／２^Ｍ（Ｍは量子化ビット数に対応する値であり、２以上の整数である）」により定義される。量子化範囲［-α、+α］において-α、+αはそれぞれ、２^Ｍに区画される量子化領域（quantization regions）の下限値と上限値を示す。また、下限値と上限値の絶対値を、クリッピング値（clipping value）αとして表現することがある。

図５は、当該量子化条件の決定処理の一例を説明するための図である。図５は、量子化範囲に関するクリッピング値αの関数として、各量子化ビット数Ｍの値に対する２乗平均誤差（mean square error）関数５０〜５３を示す。ここでは、当該２乗平均誤差は、量子化していない、即ち、量子化前の入力（Ｘ）と、量子化後の入力（図示していないＱ(X)とする）との２乗平均誤差を意味する。関数５０〜５３はそれぞれ、例えば、量子化ビット数Ｍの値が２、３、４、５の値に対する２乗平均誤差を示す。

ここで、量子化ビット数Ｍを固定した場合、量子化条件として、量子化範囲［-α、α］を大きくすると、量子化幅Δが大きくなる関係となる。そこで、２乗平均誤差が最小になる点を選択すれば、最適な学習精度を確保できる量子化ビット数Ｍ及びクリッピング値αを設定できることが予想される。これにより、量子化範囲及び量子化幅の最適値を特定できることになる。しかしながら、図６に示すように、実際の学習処理では、同じ２乗平均誤差を示す量子化ビット数Ｍの関数５０〜５３間において、学習精度には相関傾向が見られず、ばらつきがあることが確認されている。この学習処理では、例えば、CIFAR10（学習用サンプルとして共用に用意された画像データセット）が使用されている。

そこで、本第１の実施形態は、アクティベーションの量子化（３４）の条件として、学習精度との相関傾向があり、結果として適切な学習精度を確保できる量子化幅及び量子化範囲の最適値を決定する方法及び装置を説明する。

図７は、本第１の実施形態の量子化幅及び量子化範囲の最適値を決定する処理の手順を説明するフローチャートである。なお、当該処理の手順を、図７と共に図３を参照して説明する。

図７に示すように、ＣＮＮ２０は、入力Ｘとして、チャネルＣＨ単位のアクティベーション３０（３０-1〜３０-3の代表として）を取得（入力）すると（Ｓ１）、前述のForward（順伝搬）処理及びＢＰ処理（バックプロパゲーション、誤差逆伝播処理、又はBackward処理）を実行する。即ち、Forward処理では、図３に示すように、ＣＶ層２１は、フィルタ３２（３２-1〜３２-3の代表として）のパラメータ（Ｗ）を使用して、アクティベーション３０の畳み込み処理を実行する（Ｓ４）。

ここで、本第１の実施形態では、Forward処理と並行して、学習処理部１２は、ＣＮＮ２０でのＢＰ処理で使用するために、例えば３２ビットで表現されているアクティベーション３０を量子化する（Ｓ２）。学習処理部１２は、量子化した量子化アクティベーションをメモリ１１に保存する（Ｓ３）。例えば３２ビットで表現されているアクティベーション３０は、量子化されてメモリ１１に保存される。通常では、アクティベーション３０は、チャネルＣＨ毎に異なるビット数の精度で表現されるように量子化される。図３に示すように、アクティベーション３０は、例えば３ビットで表現される量子化アクティベーション３５（３５-1〜３５-3の代表）として量子化（３４）される。

図７に戻って、ＣＮＮ２０は、Forward処理として、畳み込み処理（Ｓ４）の結果を、ＢＮ層２２や活性化層２３を含む各層を経由して出力層まで伝播する。出力層は、畳み込み処理により抽出された特徴量を含む出力Ｙと正解ラベルとの誤差（ｄＹ）を算出する出力処理を実行する（Ｓ５）。ＣＮＮ２０は、出力Ｙと正解ラベルとの誤差がある場合には（Ｓ６のＹＥＳ）、当該誤差（ｄＹ）を中間層に逆伝搬（Backward）して、パラメータ（Ｗ）の更新処理を実行するためのＢＰ処理を実行する（Ｓ７）。本第１の実施形態では、学習処理部１２は、メモリ１１に保存した量子化アクティベーション３５を使用して、ＢＰ処理を実行する。

図３に戻って、ＣＮＮ２０は、ＢＰ処理時に、パラメータ（Ｗ）を更新するために使用される勾配（ｄＷ）を算出する。具体的には、ＣＮＮ２０は、例えば３ビットで量子化された量子化アクティベーション３５-1と、誤差（ｄＹ）３７-1とを使用して、畳み込み処理（３６）を実行することで勾配（ｄＷ）３８-1-1を算出する。なお、誤差（ｄＹ）３７-1〜３７-3は、例えば３２ビットで表現されたアクティベーション３０に基づいて算出されている。さらに、ＣＮＮ２０は、当該量子化アクティベーション３５-1と誤差（ｄＹ）３７-2とを使用して勾配（ｄＷ）３８-2-1を算出し、当該量子化アクティベーション３５-1と誤差（ｄＹ）３７-3とを使用して勾配（ｄＷ）３８-3-1を算出する。同様にして、量子化アクティベーション３５-2と、誤差（ｄＹ）３７-{1〜3}のそれぞれとを使用して勾配（ｄＷ）３８-{1〜3}-2を算出する。また、同様にして、量子化アクティベーション３５-3と、誤差（ｄＹ）３７-{1〜3}のそれぞれとを使用して勾配（ｄＷ）３８-{1〜3}-3を算出する。

図７に戻って、本第１の実施形態の学習処理部１２は、量子化前の入力（Ｘ）を使用して算出した勾配（ｄＷ）と、量子化後の入力（Ｑ(X)）を使用して算出した勾配（ｄＷＱとする）との差分として、２乗平均誤差を算出する（Ｓ８）。学習処理部１２は、算出した当該２乗平均誤差を、量子化範囲に関するクリッピング値αの関数として出力する（Ｓ９）。学習処理部１２は、当該勾配の差分である２乗平均誤差に基づいて、最適な量子化条件として、量子化幅及び量子化範囲の最適値を決定する（Ｓ１０）。

ここで、前述したように、図５は、量子化範囲に関するクリッピング値αの関数として、量子化前の入力（Ｘ）と、量子化後の入力（Ｑ(X)）との差分を意味する２乗平均誤差を示す。図８は、量子化範囲であるクリッピング値αの関数として、量子化ビット数Ｍを３ビットに設定した場合に、前記の勾配の差分として２乗平均誤差をプロット（plot）した出力結果８０を示す。学習処理部１２は、ＢＰ処理時に、逆伝播された誤差（ｄＹ）を使用して、勾配（ｄＷ）を算出し、量子化後の入力（Ｑ(X)）とｄＹを使用して、量子化後の勾配（ｄＷＱ）を算出する。図８は、当該勾配（ｄＷ）と、勾配（ｄＷＱ）との間では差分が出ることを示す。学習処理部１２は、当該出力結果８０に基づいて、２乗平均誤差の最小点９０を最適なクリッピング値αとして決定する。即ち、学習処理部１２は、最適な量子化条件として、量子化幅Δ及び量子化範囲（即ち、-α及びα）の最適値を決定できる。なお、学習処理部１２は、決定した量子化条件を維持した状態で学習処理を続行する。

なお、ＣＮＮ２０は、勾配（ｄＷ）を使用して更新した更新パラメータ（前述のＷnew）を使用して畳み込み処理を繰り返すことで、当該誤差（ｄＹ）が所定の値を下回るまで、又は学習処理の既定回数分（所定のエポック数）だけ学習処理を繰り返し実行する。本第１の実施形態の学習処理部１２は、例えば指定のエポック数だけ学習処理を繰り返すスケジュールにおいて、所定のタイミングで前記の２乗平均誤差のプロットを再出力することで、最適なクリッピング値αの設定を更新してもよい。

［変形例］
図９は、本第１の実施形態の変形例を説明するための図である。図９に示すように、本変形例は、量子化ビット数Ｍを、例えば２ビット、３ビット、４ビット、５ビットに段階的に設定して、前述の方法により、量子化幅Δ及び量子化範囲の最適値を決定する。

具体的には、先ず、量子化ビット数Ｍを例えば２ビットに設定して、勾配の差分として２乗平均誤差をプロットする（出力結果８１）。学習処理部１２は、当該出力結果８１に基づいて、２乗平均誤差の最小点９１を最適なクリッピング値αとして決定し、最適な量子化条件とする。ここで、学習処理部１２は、当該量子化条件に基づいて、学習処理を繰り返すことで、学習精度を求めて、目標精度を確保できているかを判定する。

学習処理部１２は、目標精度を確保できていないと判定した場合には、量子化ビット数Ｍを例えば３ビットに設定して、勾配の差分として２乗平均誤差をプロットする（出力結果８０）。学習処理部１２は、当該出力結果８０に基づいて、２乗平均誤差の最小点９０を最適なクリッピング値αとして決定し、最適な量子化条件とする。

同様にして、学習処理部１２は、当該量子化条件に基づいて、学習処理を繰り返すことで、目標精度を確保できているかを判定する。学習処理部１２は、目標精度を確保できていないと判定した場合には、量子化ビット数Ｍを例えば４ビットに設定して、勾配の差分として２乗平均誤差をプロットする（出力結果８２）。学習処理部１２は、当該出力結果８２に基づいて、２乗平均誤差の最小点９２を最適なクリッピング値αとして決定し、最適な量子化条件とする。その後、更に、量子化ビット数Ｍを５ビットに設定して、出力結果８３を得てもよい。以上のようにして、本変形例によれば、目標精度を確保できた時点で、学習処理部１２は、最適な量子化条件として、量子化幅Δ及び量子化範囲の最適値を決定する処理を終了する。

以上のようにして本第１の実施形態及びその変形例によれば、量子化前後のアクティベーションを使用して計算した勾配の差分としての２乗平均誤差に基づいて、最適な量子化条件として量子化幅及び量子化範囲の最適値を決定できる。従って、量子化によりメモリ容量の削減を図ることができると共に、学習処理における十分な学習精度を確保できる。図１０は、本第１の実施形態又はその変形例を用いた実際の学習処理の効果を示す図である。本第１の実施形態又はその変形例によれば、例えばCIFAR10を使用した実際の学習処理において、量子化ビット数Ｍの関数８０〜８３それぞれの２乗平均誤差と、学習精度との間で相関傾向が確認できる。ここで、前述したように、勾配（ｄＷ）は、パラメータ（Ｗ）の更新に直接的に関係する量子化アクティベーションに基づいて算出される。このため、勾配（ｄＷ）の差分（２乗平均誤差）は、学習精度との間で相関傾向があると推測できる。

［第２の実施形態］
図１１は、第２の実施形態に関して、ＣＮＮ２０の学習処理に含まれる畳み込み処理及び量子化の概略を説明するための図である。なお、本第２の実施形態の情報処理装置の構成は、前述した第１の実施形態の情報処理装置（図１及び図２を参照）と同様である。

本第２の実施形態においても、第１の実施形態と同様に、ＣＮＮ２０は、重みフィルタ３２によるパラメータ（重みＷ）を使用した畳み込み処理（３１）を実行し、畳み込み処理結果を図示しない出力層まで伝播する（順伝搬：Forward）。出力層は、出力Ｙと正解ラベルとの誤差（ｄＹ）を算出する。また、出力Ｙと正解ラベルとの誤差（ｄＹ）がある場合には、ＣＮＮ２０は、バックプロパゲーション（誤差逆伝播）により、パラメータ（Ｗ）を更新するための勾配（ｄＷ）を算出する。

本第２の実施形態では、学習処理部１２は、ＣＮＮ２０でのＢＰ処理で使用するために、例えば３２ビットで表現されているアクティベーション３０を量子化（３４）すると共に、符号化（圧縮化）（４０）する。学習処理部１２は、量子化及び符号化した量子化アクティベーション４１（４１-1〜４１-3の代表）をメモリ１１に保存する。

即ち、学習処理部１２は、符号化前に、例えば３２ビットで表現されているアクティベーション３０を、例えば４ビットで表現される量子化アクティベーション３５に量子化（３４）する。さらに、学習処理部１２は、量子化後（３４）の量子化アクティベーション３５を、例えばハフマン符号化（Huffman coding）により符号化し（４０）、量子化アクティベーション４１としてメモリ１１に保存する。

さらに、本第２の実施形態では、学習処理部１２は、ＢＰ処理時に、メモリ１１から量子化アクティベーション４１を取り出して、例えば４ビットで表現される量子化アクティベーション３５に復号化する（４２）。学習処理部１２は、復号化された量子化アクティベーション３５と、逆伝播された誤差（ｄＹ）とを使用して畳み込み処理（３６）を実行し、パラメータ（Ｗ）を更新するための勾配（ｄＷ）を算出する。なお、これ以降の処理については、前述の第１の実施形態と同様であるため（図７のＳ９、Ｓ１０を参照）、説明を省略する。

本第２の実施形態によれば、量子化前のアクティベーション３０のビット数を削減して、メモリ１１に保存する際に、単に量子化する場合と比較して、量子化及び符号化（圧縮化）することにより、さらに平均ビット数を削減できる。一般的に、量子化前のアクティベーション３０の分布は正規分布であり、中央のビット頻度が大きくなる傾向がある。このため、単に量子化する場合に、量子化アクティベーション３５を正規分布に割り当てるときのビット効率が悪く、必ずしも効果的に平均ビット数を削減できない可能性がある。

図１２は、アクティベーション３０の正規分布に対して、量子化範囲をαでクリップ（制限）し、量子化及び符号化後に、例えばハフマン符号を正規分布に割り当てた時のコードの一例を示す。本第２の実施形態では、学習処理部１２は、例えばルックアップテーブル（lookup table）を使用することで、符号化／復号化の処理時に、正規分布に割り当てた時のコードを参照できる。従って、本第２の実施形態によれば、量子化及び符号化（圧縮化）により、正規分布に割り当てるビット効率を改善して、結果的に平均ビット数を効果的に削減できる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０…プロセッサ、１１…メモリ、１２…学習処理部、
１３…深層ニューラルネットワーク（ＤＮＮ）、１４…ＡＰシステム、
２０…畳み込みニューラルネットワーク（ＣＮＮ）、
２１-1,２１-2…畳み込み層（ＣＶ層）、
２２-1，２２-2…バッチ正規化層（ＢＮ層）、２３-1，２３-2…活性化層。

Claims

プロセッサ及び当該プロセッサの演算に用いられるメモリを使用し、畳み込み層を含む深層ニューラルネットワークを用いた順伝搬処理及び誤差逆伝播処理を含む学習処理に適用する情報処理方法であって、
前記深層ニューラルネットワークの中間層において、第１ビット数で表現される第１の入力値に基づいて第１のパラメータを用いて前記順伝搬処理を実行する第１の処理と、
前記第１ビット数より少ない第２ビット数で表現される第２の入力値を生成する量子化処理を実行し、当該第２の入力値を前記メモリに保存する第２の処理と、
前記メモリに保存した前記第２の入力値及び前記順伝搬処理により得られた値を使用して演算した結果に基づいて、前記学習処理で用いられ前記第１のパラメータを更新した第２のパラメータを算出する第３の処理と、
前記第２のパラメータを算出する際の勾配の差分に基づいて、前記量子化処理の量子化条件を決定する第４の処理と、
を含む、情報処理方法。
前記第３の処理は、
前記第２の入力値と、前記第１の処理による前記学習処理の出力誤差とを使用して前記勾配を算出し、当該勾配に基づいて前記第２のパラメータを算出する、請求項１に記載の情報処理方法。
前記量子化条件は、量子化範囲及び量子化幅を含み、
前記量子化範囲は、前記量子化処理の対象の下限値と上限値とを含み、
前記量子化幅は、前記量子化範囲において前記第２ビット数に基づいた量子化段階に相当する、請求項１に記載の情報処理方法。
前記第４の処理は、
前記第２ビット数に基づいた前記差分を前記量子化範囲の関数として出力し、
前記関数の最小点に基づいて前記量子化範囲の最適値を決定する、請求項３に記載の情報処理方法。
前記差分は、前記第２のパラメータを算出する際の更新量に相当する勾配の２乗平均誤差であり、
前記第４の処理は、
前記第２ビット数を所定の値に設定して、前記２乗平均誤差を前記量子化範囲の関数として出力し、
前記２乗平均誤差の最小点に基づいて前記量子化範囲の最適値を決定する、請求項４に記載の情報処理方法。
前記第４の処理は、
前記第２のパラメータを使用して学習処理を繰り返し実行した後に、所定のタイミングで前記の２乗平均誤差を前記量子化範囲の関数として再出力し、
前記２乗平均誤差の最小点に基づいて前記量子化範囲の最適値を再決定する、請求項５に記載の情報処理方法。
前記第４の処理は、
前記第２ビット数を異なる値に段階的に設定して、各第２ビット数に基づいて２乗平均誤差を前記量子化範囲の関数として出力し、
各関数の最小点及び所定の学習精度に基づいて前記量子化範囲の最適値を決定する、請求項４に記載の情報処理方法。
前記第２の処理は、
前記第２の入力値を生成する量子化処理及び前記第２の入力値を符号化する符号化処理を実行して得られる第３の入力値を前記第２の入力値として前記メモリに保存し、
前記第３の処理は、
前記メモリに保存した前記第３の入力値を使用して演算し、当該演算の結果に基づいて前記学習処理で用いられ前記第１のパラメータを更新した第３のパラメータを前記第２のパラメータとして算出する、請求項１に記載の情報処理方法。
畳み込み層を含む深層ニューラルネットワークを用いた順伝搬処理及び誤差逆伝播処理を含む学習処理を実行するプロセッサと、
当該プロセッサの演算に用いられるメモリと、
を備える情報処理装置であって、
前記プロセッサは、
前記深層ニューラルネットワークの中間層において、第１ビット数で表現される第１の入力値に基づいて第１のパラメータを用いて前記順伝搬処理を実行する第１の処理と、
前記第１ビット数より少ない第２ビット数で表現される第２の入力値を生成する量子化処理を実行し、当該第２の入力値を前記メモリに保存する第２の処理と、
前記メモリに保存した前記第２の入力値及び前記順伝搬処理により得られた値を使用して演算した結果に基づいて、前記学習処理で用いられ前記第１のパラメータを更新した第２のパラメータを算出する第３の処理と、
前記第２のパラメータを算出する際の勾配の差分に基づいて、前記量子化処理の量子化条件を決定する第４の処理と、
を実行する情報処理装置。
前記プロセッサは、
前記第３の処理として、
前記第２の入力値と、前記第１の処理による前記学習処理の出力誤差とを使用して前記勾配を算出し、当該勾配に基づいて前記第２のパラメータを算出する、請求項９に記載の情報処理装置。
前記量子化条件は、量子化範囲及び量子化幅を含み、
前記量子化範囲は、前記量子化処理の対象の下限値と上限値とを含み、
前記量子化幅は、前記量子化範囲において前記第２ビット数に基づいた量子化段階に相当する、請求項９に記載の情報処理装置。
前記プロセッサは、
前記第４の処理として、
前記第２ビット数に基づいた前記差分を前記量子化範囲の関数として出力し、
前記関数の最小点に基づいて前記量子化範囲の最適値を決定する、請求項１１に記載の情報処理装置。
前記差分は、前記第２のパラメータを算出する際の更新量に相当する勾配の２乗平均誤差であり、
前記プロセッサは、
前記第４の処理として、
前記第２ビット数を所定の値に設定して、前記２乗平均誤差を前記量子化範囲の関数として出力し、
前記２乗平均誤差の最小点に基づいて前記量子化範囲の最適値を決定する、請求項１２に記載の情報処理装置。
前記プロセッサは、
前記第４の処理として、
前記第２のパラメータを使用して学習処理を繰り返し実行した後に、所定のタイミングで前記の２乗平均誤差を前記量子化範囲の関数として再出力し、
前記２乗平均誤差の最小点に基づいて前記量子化範囲の最適値を再決定する、請求項１３に記載の情報処理装置。
前記プロセッサは、
前記第４の処理として、
前記第２ビット数を異なる値に段階的に設定して、各第２ビット数に基づいて２乗平均誤差を前記量子化範囲の関数として出力し、
各関数の最小点及び所定の学習精度に基づいて前記量子化範囲の最適値を決定する、請求項１２に記載の情報処理装置。
前記プロセッサは、
前記第２の処理として、
前記第２の入力値を生成する量子化処理及び前記第２の入力値を符号化する符号化処理を実行して得られる第３の入力値を前記第２の入力値として前記メモリに保存し、
前記第３の処理として、
前記メモリに保存した前記第３の入力値を使用して演算し、当該演算の結果に基づいて前記学習処理で用いられ前記第１のパラメータを更新した第３のパラメータを前記第２のパラメータとして算出する、請求項９に記載の情報処理装置。