JP2022088096A

JP2022088096A - 量子化プログラム，量子化方法および量子化装置

Info

Publication number: JP2022088096A
Application number: JP2020200353A
Authority: JP
Inventors: 靖文坂井; Yasubumi Sakai
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2022-06-14
Also published as: CN114580608A; US20220172022A1; EP4009244A1

Abstract

【課題】短時間で全レイヤを最適化する量子化プログラム，量子化方法および量子化装置を提供する。【解決手段】量子化対象データの量子化を行なう情報処理装置において、プロセッサは、ニューラルネットワークを構成する全てのレイヤに対して、仮算出されたビット幅より１段階狭いビット幅の量子化誤差と信頼半径閾値との差分を算出し、差分に基づき、全てのレイヤのスケーリング係数を計算し、全てのスケーリング係数のうち最も小さな値を用いて、信頼半径を更新する処理を実行させる。【選択図】図１０

Description

本発明は、量子化プログラム，量子化方法および量子化装置に関する。

複雑化の傾向にあるニューラルネットワーク（Neural Network：ＮＮ）の実行時間を短縮する手法として量子化が知られている。

量子化においては、ニューラルネットワークに使用される重みのデータ型（例えばFP32）をよりデータ容量の小さなデータ型（INT8）に変換することで、計算時間や通信時間を削減する。
また、従来の量子化手法として、レイヤ毎に、認識率が劣化しないデータ型を自動的に設定する最適化アルゴリズムが知られている。

このような従来の最適化アルゴリズムにおいては、量子化対象ベクトルの量子化誤差と、信頼領域法によるアルゴリズムが決める閾値とを比較し、この比較結果に応じてビット幅を仮算出する。なお、信頼領域法においては、近似誤差によるビット幅判定の間違いを防ぐために、閾値は信頼半径以下となるようにスケールされる。
そして、仮算出されたビット幅の設定で、複数イテレーションの訓練を実行したのちに、評価関数を計算する。

さらに、仮算出されたビット幅を用いて算出された損失関数が理想条件で算出された損失関数（理想損失関数）以下となるかという制約条件を満たすか否かに応じて、ビット幅と信頼半径とを更新する。

すなわち、算出された損失関数が理想損失関数以下の場合には、ビット幅を仮算出したビット幅の値を用いて更新するとともに、現在の信頼半径に定数aを乗算することで信頼半径を増加させる。なお、ここでの定数aは１よりも大きい値（a ＞ 1）である。一方、算出された損失関数が理想損失関数よりも大きい場合には、ビット幅の値を維持して、仮算出したビット幅の値を破棄するとともに、現在の信頼半径に定数aを乗算することで信頼半径を減少させる。なお、ここでの定数aは１未満の値（a ＜ 1）である。
量子化アルゴリズムにおいては、これらの処理を、全て量子化対象のレイヤに対して、予め規定された反復回数だけ繰り返し実行する。

国際公開第２０２０／０４９６８１号特開２０２０－９０４８号公報

このような従来の量子化手法においては、反復回数を多くすることでビット幅を確実に収束させることができる。しかしながら、反復回数を多くすることで実行時間が増大する。一方で、最適化にかけられる期間が制限される場合には、その期間内でビット幅が十分に量子化されない場合がある。量子化が十分になされない結果として、ニューラルネットワークの訓練時間も増大する。
１つの側面では、本発明は、短時間で全レイヤを最適化できるようにすることを目的とする。

このため、この量子化プログラムは、量子化対象データの量子化を行なう情報処理装置のプロセッサに、ニューラルネットワークを構成する全てのレイヤに対して、仮算出されたビット幅より１段階狭いビット幅の量子化誤差と信頼半径閾値との差分を算出し、前記差分に基づき、前記全てのレイヤのスケーリング係数を計算し、全ての前記スケーリング係数のうち最も小さな値を用いて、信頼半径を更新する処理を実行させる。

一実施形態によれば、短時間で全レイヤを最適化できる。

実施形態の一例としての情報処理装置のハードウェア構成を例示する図である。実施形態の一例としての計算機システムの機能構成を例示する図である。ニューラルネットワークの概要を示す図である。実施形態の一例としての情報処理装置における量子化対象のベクトルを例示する図である。実施形態の一例としての情報処理装置の差分算出部が算出する差分を説明するための図である。実施形態の一例としての情報処理装置の差分算出部が算出する差分を説明するための図である。実施形態の一例としての情報処理装置における量子化誤差と閾値との関係を示す図である。実施形態の一例としての情報処理装置における量子化誤差と閾値との関係を示す図である。実施形態の一例としての情報処理装置における量子化処理を説明するためのフローチャートである。実施形態の一例としての情報処理装置における量子化処理を説明するためのフローチャートである。実施形態の一例としての情報処理装置により量子化を行なった結果を例示する図である。実施形態の一例としての情報処理装置により量子化を行なった結果を例示する図である。

以下、図面を参照して本量子化プログラム，量子化方法および量子化装置にかかる実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

（Ａ）構成
図１は実施形態の一例としての情報処理装置１のハードウェア構成を例示する図である。

情報処理装置１は、量子化されたニューラルネットワークを実現するコンピュータである。情報処理装置１は、図１に示すように、ＣＰＵ（Central Processing Unit）１０，メモリ１１およびアクセラレータ１２を備える。これらのＣＰＵ１０，メモリ１１およびアクセラレータ１２は、通信バス１３を介して相互に通信可能に接続されている。通信バス１３は、本情報処理装置１内のデータ通信を行なう。

メモリ１１は、ＲＯＭ（Read Only Memory）およびＲＡＭ（Random Access Memory）を含む記憶メモリである。メモリ１１のＲＯＭには、量子化処理に係るソフトウェアプログラムやこのプログラム用のデータ類が書き込まれている。メモリ１１上のソフトウェアプログラムは、ＣＰＵ１０に適宜読み込まれて実行される。また、メモリ１１のＲＡＭは、一次記憶メモリあるいはワーキングメモリとして利用される。メモリ１１のＲＡＭには、重み等の量子化に用いられるパラメータや各種閾値等も格納される。
アクセラレータ１２は、行列演算などのニューラルネットワークの計算に必要な演算処理を実行する。

ＣＰＵ１０は、種々の制御や演算を行なう処理装置（プロセッサ）であり、実装されたプログラムに基づき、情報処理装置１全体を制御する。そして、このＣＰＵ１０がメモリ１１等に格納された深層学習処理プログラム（図示省略）を実行することで、後述する深層学習処理部１００（図２）としての機能を実現する。

また、深層学習処理プログラムは量子化プログラムを含んで構成されてもよい。ＣＰＵ１０がメモリ１１等に格納された量子化プログラム（図示省略）を実行することで、後述する量子化処理部１０１（図２）としての機能を実現する。

そして、情報処理装置１のＣＰＵ１０が、深層学習処理プログラム（量子化プログラム）を実行することにより、深層学習処理部１００（量子化処理部１０１）として機能する。

なお、深層学習処理部１００（量子化処理部１０１）としての機能を実現するためのプログラム（量子化プログラム）は、例えばフレキシブルディスク，ＣＤ（ＣＤ－ＲＯＭ，ＣＤ－Ｒ，ＣＤ－ＲＷ等），ＤＶＤ（ＤＶＤ－ＲＯＭ，ＤＶＤ－ＲＡＭ，ＤＶＤ－Ｒ，ＤＶＤ＋Ｒ，ＤＶＤ－ＲＷ，ＤＶＤ＋ＲＷ，ＨＤＤＶＤ等），ブルーレイディスク，磁気ディスク，光ディスク，光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータ（情報処理装置１）はその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。また、そのプログラムを、例えば磁気ディスク，光ディスク，光磁気ディスク等の記憶装置（記録媒体）に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。

深層学習処理部１００（量子化処理部１０１）としての機能を実現する際には、内部記憶装置（本実施形態ではメモリ１１のＲＡＭやＲＯＭ）に格納されたプログラムがコンピュータのマイクロプロセッサ（本実施形態ではＣＰＵ１０）によって実行される。このとき、記録媒体に記録されたプログラムをコンピュータが読み取って実行するようにしてもよい。

図２は実施形態の一例としての情報処理装置１の機能構成を例示する図である。

情報処理装置１は、図２に示すように、深層学習処理部１００としての機能を備える。深層学習処理部１００は、ニューラルネットワークにおける深層学習を実施する。

ニューラルネットワークは、ハードウェア回路であってもよいし、ＣＰＵ１０等によりコンピュータプログラム上で仮想的に構築される階層間を接続するソフトウェアによる仮想的なネットワークであってもよい。

図３にニューラルネットワークの概要を示す。図３に示すニューラルネットワークは、入力層と出力層との間に複数の隠れ層を含むディープニューラルネットワークである。例えば、隠れ層は、畳み込み層、プーリング層または全結合層等である。各層に示す丸印は、所定の計算をそれぞれ実行するノードを示す。

ニューラルネットワークは、例えば、画像や音声などの入力データを入力層に入力し、畳み込み層やプーリング層などで構成される隠れ層にて所定の計算を順次実行することで、演算により得られる情報を入力側から出力側に順次伝えるフォーワッド方向の処理（順伝播処理）を実行する。フォーワッド方向の処理の実行後、出力層から出力される出力データと正解データとから得られる誤差関数の値を小さくするために、フォーワッド方向の処理で使用するパラメータを決定するバックワード方向の処理（逆伝播処理）を実行する。そして、逆伝播処理の結果に基づいて重み等の変数を更新する更新処理が実行される。例えば、逆伝播処理の計算に使用される重みの更新幅を決定するアルゴリズムとして、勾配降下法が使用される。

深層学習処理部１００は、量子化処理部１０１を備える。
量子化処理部１０１は、ニューラルネットワークに使用される変数を量子化する。本情報処理装置１においては、量子化処理部１０１は、各レイヤにおける重みベクトルのビット幅を狭めることで量子化を実現する。また、本情報処理装置１においては、信頼領域法が用いられる。

量子化処理部１０１は、図２に示すように、量子化誤差算出部１０６，閾値生成部１０７，ビット幅設定部１０２，差分算出部１０３，スケーリング係数算出部１０４および信頼半径更新部１０５としての機能を備える。

量子化誤差算出部１０６は、ニューラルネットワークの計算に用いられるベクトルの量子化誤差を算出する。なお、量子化誤差の算出は既知の種々の手法で実現することができ、その説明は省略する。
図４は実施形態の一例としての情報処理装置１における量子化対象のベクトルを例示する図である。
本情報処理装置１においては、この図４に例示するレイヤ１の重みベクトルW₁とレイヤ２の重みベクトルW₂とを量子化対象とする例について示す。

閾値生成部１０７は、設定された信頼半径およびビット幅に基づいて信頼半径閾値を生成する。以下、信頼半径閾値を単に閾値という場合がある。閾値生成部１０７は、例えば、設定されたビット幅でlossおよび勾配を計算し、以下の導出式（１）に基づいて信頼半径閾値を算出する。

上記の式（１）において、Δwは量子化誤差である。L(w+Δw)は、ベースを量子化したモデル（例えば、INT16）の損失関数である。L(w)は、ベースモデル（例えば、INT32）の損失関数である。L_idealは、例えば、FP32で算出した量子化しない場合の損失関数（理想損失関数）である。L_marginは、設計者が設定する、量子化されたモデルの損失関数L(w+Δw)の、理想損失関数L_ideal からの、損失関数のマージン量である。

量子化した時の損失関数L(w+Δw)をテイラー展開している。また、量子化しても損失関数は理想値L_ideal（FP32の損失関数）にマージンL_marginを加えた量よりも小さくなるという制約が設定されている。
上記式（１）を量子化誤差について整理することで、制約条件を満たす量子化誤差の上限＝閾値が導出される。

閾値生成部１０７は、当該閾値のＬ２ノルム（|| Q_th||2）が信頼半径以下となるように閾値を設定（スケール）する。以下、閾値を符号Q_thで表す場合がある。
ビット幅設定部１０２は、各レイヤにおける重みベクトルのビット幅を設定する。
ビット幅設定部１０２は、理想条件で算出された損失関数（理想損失関数）L_idealを算出する。

ビット幅設定部１０２は、ビット幅の仮算出を行なう。ビット幅設定部１０２は、複数のビット幅の候補のうち、量子化誤差が算出された閾値以下となる最小のビット幅を仮算出する。本情報処理装置１においては、ビット幅の候補として、［8, 16, 32］の３種類（３段階）のビット幅を用いるものとする。

そして、ビット幅設定部１０２は、仮算出したビット幅が制約条件を満たすか確認する。ビット幅設定部１０２は、制約条件として、仮算出したビット幅による損失関数（L_tmp）が理想損失関数（L_ideal）以下であるか否かを判定する。

損失関数（L_tmp）が理想損失関数（L_ideal）以下である場合、すなわち、制約条件が満たされている場合には、仮算出したビット幅をビット幅として設定する。また、ビット幅設定部１０２は、制約条件が満たされている場合には、現在の信頼半径に定数（１よりも大きい値）を乗算することで信頼半径を増加させる。

一方、損失関数（L_tmp）が理想損失関数（L_ideal）よりも大きい場合、すなわち、制約条件が満たされていない場合には、ビット幅の値を維持して、仮算出したビット幅の値を破棄するとともに、現在の信頼半径に定数（１よりも小さい値）を乗算することで信頼半径を減少させる。

差分算出部１０３は、全ての量子化対象のベクトル（全レイヤ）について、ビット幅設定部１０２により仮算出されたビット幅よりも一段階狭いビット幅の量子化誤差と信頼半径閾値（Q_th）との差分（Q_diff）を測定する。

図５および図６は、それぞれ実施形態の一例としての情報処理装置１の差分算出部１０３が算出する差分（Q_diff）を説明するための図であり、図５はレイヤ１の重みベクトルW₁の量子化誤差を示す図、図６はレイヤ２の重みベクトルW₂の量子化誤差を示す図である。

図５に示す例においては、仮算出したビット幅が16ビットであるものとする。また、レイヤ１の閾値を符号Q_th,1で表し、レイヤ１の差分を符号Q_diff,1で表す。なお、各レイヤにおける閾値や差分を一般化し、レイヤkの閾値を符号Q_th,kで表し、レイヤkの差分を符号Q_diff,kで表してもよい。

差分算出部１０３は、仮算出したビット幅16（16ビット）よりも１段階狭いビット幅8（8ビット）の量子化誤差（符号Ｐ１参照）と、閾値１（Q_th,1）との差分Q_diff,1（符号Ｐ２参照）を測定（算出）する。

図６に示す例においては、仮算出したビット幅が32ビットであるものとする。また、レイヤ２の閾値を符号Q_th,2で表し、レイヤ２の差分を符号Q_diff,2で表す。

差分算出部１０３は、仮算出したビット幅32（32ビット）よりも１段階狭いビット幅16（16ビット）の量子化誤差（符号Ｐ３参照）と、閾値２（Q_th,2）との差分Q_diff,2を（符号Ｐ４参照）測定（算出）する。

スケーリング係数算出部１０４は、全ての量子化対象のベクトル（全レイヤ）について、スケーリング係数（Q_scale）を算出する。
スケーリング係数（Q_scale）は、差分算出部１０３が算出した差分（Q_diff）を、後述する信頼半径更新部１０５が乗算に用いるために係数化した値である。

スケーリング係数算出部１０４は、全ての量子化対象のベクトルについて、仮算出されたビット幅よりも一つ狭いビット幅の量子化誤差と閾値との差分（Q_diff）、および閾値（Q_th）を用いて、スケーリング係数Q_scaleを計算する
スケーリング係数算出部１０４は、以下の式（２）を用いてスケーリング係数（Q_scale）を算出する。
Q_{scale, k}= 1 + Q_diff,k / Q_th,k ・・・（２）

上記式（２）においては、スケーリング係数を一般化して表しており、kはレイヤ番号を表す。式（２）は、次回の信頼半径、すなわち、閾値の上限が、今回仮算出されたビット幅よりも一段階狭いビット幅の量子化誤差と一致するスケーリング係数を示す。
上記式（２）より、レイヤ１のスケーリング係数は以下の式（３）で表される。

Q_scale,1= 1 + Q_diff,1 / Q_th,1 ・・・（３）

また、上記式（２）より、レイヤ２のスケーリング係数は以下の式（４）で表される。

Q_scale,2= 1 + Q_diff,2 / Q_th,2 ・・・（４）

なお、仮算出されたビット幅よりも一つ狭いビット幅の量子化誤差と閾値との差分（Q_diff）が無いケースについては、スケーリング係数なしとする

また、スケーリング係数算出部１０４は、各レイヤについて求めた全てのスケーリング係数のうち最も小さな値を、最小スケーリング係数（Q_scale,min）として選択する。

スケーリング係数により次回の閾値が大きくなりすぎると、“全レイヤにおいてビット幅= 8ビット”のように制約条件の成立が難しくなるビット幅の組合せが算出される可能性がある。そこで、本情報処理装置１においては、徐々にビット幅を変更するために、最も小さなスケーリング係数を選択する。
最小スケーリング係数（Q_scale,min）は以下の式（５）で表される。

Q_scale,min= min（Q_scale,1，Q_scale,2）・・・（５）

信頼半径更新部１０５は、信頼半径を更新する。
信頼半径更新部１０５は、以下の式（６）を用いて信頼半径を更新する。

次回の信頼半径 = 今回の信頼半径 × max（定数a, Q_scale,min）・・・（６）

ここで、定数aは従来手法において信頼半径の増減に用いていた所定の定数（信頼半径更新用定数）である。信頼半径更新部１０５は、信頼半径更新用定数a（以下、単に定数aという場合がある）と、スケーリング係数（Q_scale,min）との大きい方の値を用いて、信頼半径を更新する。

Q_scale,minには上述した差分（Q_diff）が含まれることとなり、Q_scale,min を選べば、次回は異なるビット幅が算出される。そのため、“定数a > Q_scale,min”である場合には、定数aを選んでも次回は異なるビット幅が算出される。

図７および図８は、それぞれ実施形態の一例としての情報処理装置１における量子化誤差と閾値との関係を示す図である。図７はレイヤ１の重みベクトルW₁の量子化誤差を示す図、図８はレイヤ２の重みベクトルW₂の量子化誤差を示す図である。

また、図７および図８のそれぞれにおいて、上側が信頼半径の更新前の状態を示し、下側が信頼半径の更新後の状態を示す。これらの図７および図８に示す例においては、Q_scale,min にQ_scale,2が選ばれた場合を示す。すなわち、信頼半径がQ_scale,2を用いて更新された例を示す。

図７に示すレイヤ１においては、仮算出したビット幅が16ビットであったが、信頼半径がQ_scale,2を用いて更新された後においても、次回に選択されるビット幅は16ビットで変化がない例を示す。このように、一段階下のビット幅の量子化誤差が閾値Q_th,ｋよりも多きい場合には、ビット幅の更新は行なわれない。

一方、図８に示すレイヤ２においては、仮算出したビット幅が32ビットであったが、信頼半径がQ_scale,2を用いて更新された後においては、次回の信頼半径＝閾値の上限は、ベクトルによる量子化誤差と一致する。これにより、次回に選択されるビット幅は16ビットとなり、前回と違うビット幅が選択されたことを示す。

（Ｂ）動作
上述の如く構成された実施形態の一例としての情報処理装置１における量子化処理を、図９および図１０に示すフローチャート（ステップＳ１～Ｓ１７）に従って説明する。図９はステップＳ１～Ｓ６を示し、図１０はステップＳ７～Ｓ１７を示す。

図９のステップＳ１において、量子化処理部１０１が初期化処理を実行する。例えば、量子化処理部１０１は、ビット幅の初期値の設定や、理想損失関数（目標値）の計算を行なう。

図９のステップＳ２において、閾値生成部１０７が閾値Q_thを算出する。閾値生成部１０７は、設定されたビット幅で閾値を算出する。この際、閾値生成部１０７は、閾値Q_thのL2ノルムが信頼半径以下となるように閾値を設定する。

図９のステップＳ３において、閾値生成部１０７は、閾値Q_thのL2ノルムが信頼半径以下であるかを確認し、閾値Q_thのL2ノルムが信頼半径以下の場合には（ステップＳ３のＹＥＳルート参照）、図９のステップＳ５に移行する。
一方、閾値Q_thのL2ノルムが信頼半径よりも大きい場合には（ステップＳ３のＮＯルート参照）、ステップＳ４に移行する。図９のステップＳ４において、閾値生成部１０７は、閾値Q_thのL2ノルムが信頼半径となるように閾値をスケールする。その後、処理はステップＳ５に移行する。

ステップＳ５において、ビット幅設定部１０２がビット幅の仮算出を行なう。ビット幅設定部１０２は、複数のビット幅の候補のうち、量子化誤差が算出された閾値以下となる最小のビット幅を仮算出する。

図９のステップＳ６において、ビット幅設定部１０２は、仮算出したビット幅が制約条件を満たすかを確認する。ビット幅設定部１０２は、制約条件として、仮算出したビット幅による損失関数（L_tmp）が理想損失関数（L_ideal）以下であるか否かを判定する（図１０のステップＳ７）。

損失関数（L_tmp）が理想損失関数（L_ideal）以下である場合、すなわち、制約条件が満たされている場合には（ステップＳ７のＹＥＳルート参照）、ビット幅設定部１０２は、仮算出したビット幅をビット幅として設定する（図１０のステップＳ８）。ビット幅を設定することをビット幅を判定するといってもよい。

図１０のステップＳ９において、差分算出部１０３が、全ての量子化対象のベクトル（全レイヤ）について、ビット幅設定部１０２により仮算出されたビット幅よりも一段階狭いビット幅の量子化誤差と閾値（Q_th）との差分（Q_diff）を測定する。

図１０のステップＳ１０において、スケーリング係数算出部１０４が、全ての量子化対象のベクトル（全レイヤ）について、上述した式（２）を用いてスケーリング係数（Q_scale）を算出する。

図１０のステップＳ１１において、スケーリング係数算出部１０４は、計算された全てのスケーリング係数のうち、最小のスケーリング係数（Q_scale,min）を選択し、出力する。

図１０のステップＳ１２において、信頼半径更新部１０５が、最小スケーリング係数は信頼半径更新部１０５は、上述した式（５）を用いて信頼半径を更新する（増加させる）。その後、ステップＳ１５に移行する。

一方、ステップＳ７における確認の結果、損失関数（L_tmp）が理想損失関数（L_ideal）よりも大きい場合、すなわち、制約条件が満たされていない場合には（ステップＳ７のＮＯルート参照）、図１０のステップＳ１３に移行する。
ステップＳ１３において、ビット幅設定部１０２は、ビット幅の値を維持し、仮算出したビット幅の値を破棄する。
図１０のステップＳ１４において、ビット幅設定部１０２は、現在の信頼半径に定数a（a は1未満の値）を乗算することで信頼半径を減少させる。

量子化処理部１０１は、ステップＳ２～Ｓ１４の処理（ビット幅判定処理）を、収束条件を満たすまで繰り返し行なう（図１０のステップＳ１５）。すなわち、量子化処理部１０１は、量子化処理部１０１は、ステップＳ２～Ｓ１４の処理の実行回数（判定回数）をカウントし、判定回数が予め規定された規定回数に達したかを確認する（図１０のステップＳ１６）。

確認の結果、判定回数が規定回数に達していない場合には（ステップＳ１６のＮＯルート参照）、図９のステップＳ２に戻る。一方、判定回数が規定回数に達した場合には（ステップＳ１６のＹＥＳルート参照）、図１０のステップＳ１７において、量子化処理部１０１は、判定されたビット幅を出力する。量子化処理部１０１は、メモリ１２や図示しない記憶装置等の所定の記憶領域に、判定したビット幅をレイヤ毎に記憶させてもよい。量子化処理部１０１は、レイヤ毎に決定されたビット幅でそれぞれ量子化を行なう。その後、処理を終了する。

（Ｃ）効果
このように、実施形態の一例としての情報処理装置１によれば、差分算出部１０３は、全ての量子化対象のベクトル（全レイヤ）について、ビット幅設定部１０２により仮算出されたビット幅よりも一段階狭いビット幅の量子化誤差と閾値（Q_th）との差分（Q_diff）を測定する。

また、スケーリング係数算出部１０４が、全ての量子化対象のベクトル（全レイヤ）について、スケーリング係数（Q_scale）を算出し、各レイヤについて求めた全てのスケーリング係数のうち最も小さな値を、最小スケーリング係数（Q_scale,min）として選択する。

そして、信頼半径更新部１０５が、定数aと、スケーリング係数（Q_scale,min）との大きい方の値を用いて、信頼半径を更新する。これにより、ビット幅判定処理において、信頼半径の更新後の各レイヤのビット幅の組み合わせには、更新後の信頼半径（＝閾値）の上限が、ベクトルによる量子化誤差算と一致し、前回と異なるビット幅が選択されることとなる。

これにより、仮算出したビット幅が制約条件を満たすかの判定が、毎回必ず異なるビット幅の組み合わせで行なわれる。すなわち、制約条件が成り立つかの判定が、同じビット幅の組み合わせで重複して行なわれることがない。

従って、重複するビット幅の組み合わせに対する判定が行なわれることがなく、効率的にビット幅判定を行なうことができる。すなわち、短期間で全レイヤを最適化することができる。

限られた最適化の期間内で、ビット幅を十分に量子化することができる。また、ビット幅が最適化されるまでのアルゴリズム適用回数が短縮され、計算時間および計算コストを削減することができる。また、従来手法に比べて量子化度合いが増え、その結果、ニューラルネットワークの訓練時間を短縮することができる。

従来の量子化手法において、ビット幅の収束に多くの反復回数が必要である理由は、一度判定が行なわれたビット幅の組み合わせでの再び制約条件成立の判定が行なわれる場合があるからである。一度判定されたビット幅の組み合わせでの再び制約条件の判定が行なわれることで、重複した作業が行なわれ、これにより量子化処理にかかる時間が増大する。

これに対して、本情報処理装置１においては、重複するビット幅の組み合わせに対する判定が行なわれることがなく、効率的にビット幅判定を行なうことができる。
図１１および図１２は、それぞれ実施形態の一例としての情報処理装置１により量子化を行なった結果を例示する図である。

図１１においては、横軸にepochを示し、縦軸にValidation accuracyを示す。この図１１に示すように、本情報処理装置１による量子化により、全レイヤのビット幅をそれぞれ8ビットにしても（全てQINT8で訓練した場合）、認識率（Validation accuracy）の劣化がなく訓練ができるビット幅調整（量子化）が行なわれたことがわかる。

図１２においては、横軸に判定回数を示し、縦軸に判定されたビット幅を示す。この図１２に示すように、本情報処理装置１による量子化により、最適化の期間内（適用回数=10回）に、全てのレイヤのビット幅を8ビットに設定（判定）された。

（Ｄ）その他
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。

例えば、上述した実施形態においては、各レイヤにおける重みベクトルのビット幅を狭めることで量子化を実現する例を示したが、これに限定されるものではない。例えば、活性，重み勾配，活性勾配等の量子化に適用してもよく、種々変更して実施することができる。
また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。

（Ｅ）付記
以上の実施形態に関し、さらに以下の付記を開示する。
（付記１）
量子化対象データの量子化を行なう情報処理装置のプロセッサに、
ニューラルネットワークを構成する全てのレイヤに対して、
仮算出されたビット幅より１段階狭いビット幅の量子化誤差と信頼半径閾値との差分を算出し、
前記差分に基づき、前記全てのレイヤのスケーリング係数を計算し、
全ての前記スケーリング係数のうち最も小さな値を用いて、信頼半径を更新する
処理を実行させることを特徴とする、量子化プログラム。

（付記２）
前記信頼半径の更新を、前記信頼半径に前記スケーリング係数のうち最も小さな値を乗算することで行なう
処理を、前記プロセッサに実行させることを特徴とする、付記１記載の量子化プログラム。

（付記３）
前記信頼半径の更新を、前記信頼半径に前記スケーリング係数のうち最も小さな値と、信頼半径更新用定数との大きい方の値を乗算することで行なう
処理を、前記プロセッサに実行させることを特徴とする、付記２記載の量子化プログラム。

（付記４）
情報処理装置が量子化対象データの量子化を行なうに際して、
ニューラルネットワークを構成する全てのレイヤに対して、
仮算出されたビット幅より１段階狭いビット幅の量子化誤差と信頼半径閾値との差分を算出する処理と、
前記差分に基づき、前記全てのレイヤのスケーリング係数を計算し、
全ての前記スケーリング係数のうち最も小さな値を用いて、信頼半径を更新する処理と
を備えることを特徴とする、量子化方法。

（付記５）
前記信頼半径を更新する処理を、前記信頼半径に前記スケーリング係数のうち最も小さな値を乗算することで行なう
ことを特徴とする、付記４記載の量子化方法。

（付記６）
前記信頼半径を更新する処理を、前記信頼半径に前記スケーリング係数のうち最も小さな値と、信頼半径更新用定数との大きい方の値を乗算することで行なう
ことを特徴とする、付記５記載の量子化方法。

（付記７）
量子化対象データの量子化を行なう処理を実行するプロセッサを有する情報処理装置であって、
前記プロセッサは、
ニューラルネットワークを構成する全てのレイヤに対して、
仮算出されたビット幅より１段階狭いビット幅の量子化誤差と信頼半径閾値との差分を算出し、
前記差分に基づき、前記全てのレイヤのスケーリング係数を計算し、
全ての前記スケーリング係数のうち最も小さな値を用いて、信頼半径を更新する
処理を行なうことを特徴とする、量子化装置。

（付記８）
前記信頼半径の更新を、前記信頼半径に前記スケーリング係数のうち最も小さな値を乗算することで行なう
ことを特徴とする、付記７記載の量子化装置。

（付記９）
前記信頼半径の更新を、前記信頼半径に前記スケーリング係数のうち最も小さな値と、信頼半径更新用定数との大きい方の値を乗算することで行なう
ことを特徴とする、付記８記載の量子化装置。

１情報処理装置
１０ＣＰＵ
１１メモリ
１２アクセラレータ
１３通信バス
１００深層学習処理部
１０１量子化処理部
１０２ビット幅設定部
１０３差分算出部
１０４スケーリング係数算出部
１０５信頼半径更新部
１０６量子化誤差算出部
１０７閾値生成部

Claims

量子化対象データの量子化を行なう情報処理装置のプロセッサに、
ニューラルネットワークを構成する全てのレイヤに対して、
仮算出されたビット幅より１段階狭いビット幅の量子化誤差と信頼半径閾値との差分を算出し、
前記差分に基づき、前記全てのレイヤのスケーリング係数を計算し、
全ての前記スケーリング係数のうち最も小さな値を用いて、信頼半径を更新する
処理を実行させることを特徴とする、量子化プログラム。
前記信頼半径の更新を、前記信頼半径に前記スケーリング係数のうち最も小さな値を乗算することで行なう
処理を、前記プロセッサに実行させることを特徴とする、請求項１記載の量子化プログラム。
前記信頼半径の更新を、前記信頼半径に前記スケーリング係数のうち最も小さな値と、信頼半径更新用定数との大きい方の値を乗算することで行なう
処理を、前記プロセッサに実行させることを特徴とする、請求項２記載の量子化プログラム。
情報処理装置が量子化対象データの量子化を行なうに際して、
ニューラルネットワークを構成する全てのレイヤに対して、
仮算出されたビット幅より１段階狭いビット幅の量子化誤差と信頼半径閾値との差分を算出する処理と、
前記差分に基づき、前記全てのレイヤのスケーリング係数を計算し、
全ての前記スケーリング係数のうち最も小さな値を用いて、信頼半径を更新する処理と
を備えることを特徴とする、量子化方法。
量子化対象データの量子化を行なう処理を実行するプロセッサを有する情報処理装置であって、
前記プロセッサは、
ニューラルネットワークを構成する全てのレイヤに対して、
仮算出されたビット幅より１段階狭いビット幅の量子化誤差と信頼半径閾値との差分を算出し、
前記差分に基づき、前記全てのレイヤのスケーリング係数を計算し、
全ての前記スケーリング係数のうち最も小さな値を用いて、信頼半径を更新する
処理を行なうことを特徴とする、量子化装置。