JP2023174473A

JP2023174473A - 深層学習ネットワーク用の最適化方法及びコンピュータ装置、及びコンピュータ可読記憶媒体

Info

Publication number: JP2023174473A
Application number: JP2022199034A
Authority: JP
Inventors: 峻因郭; Jiun-In Guo; 柏源陳; Bo-Yuan Chen
Original assignee: Wistron Corp
Current assignee: Wistron Corp
Priority date: 2022-05-26
Filing date: 2022-12-14
Publication date: 2023-12-07
Also published as: TWI819627B; TW202347183A; CN117217263A; US20230385600A1; EP4283525A1

Abstract

【課題】マルチスケールの動的な量子化を用いて予測精度及び圧縮率を保証する深層学習ネットワーク用の最適化方法及びコンピュータ装置及び記憶媒体を提供する。
【解決手段】方法は、事前学習済みモデルから値分布を得るステップＳ２１０と、値分布の範囲内に少なくとも１つの区切り点を決定するステップＳ２２０と、複数のセクションのうちの第１セクション内の、パラメータタイプの値の一部分に対する量子化を、第１量子化パラメータを用いて実行し、複数のセクションのうちの第２セクション内の、パラメータタイプの値の他の部分に対する量子化を、第１量子化パラメータとは異なる第２量子化パラメータを用いて実行するステップＳ２３０と、を含む。
【選択図】図２

Description

本発明は機械学習（マシンラーニング）技術に関するものであり、特に深層学習ネットワーク用の最適化方法及びコンピュータ装置、及びコンピュータ可読記憶媒体に関するものである。

近年、人工知能（ＡＩ：artificial intelligence）技術の更新が増加するに伴い、ニューラルネットワーク（神経回路網）モデルのパラメータ数及びコンピュータ計算の複雑性も増加している。その結果、深層学習ネットワーク用の圧縮技術も盛んになりつつある。量子化がモデルを圧縮するための重要な技術であることは、注目に値する。しかし、従来の量子化モデルの予測精度及び圧縮率は、さらに改善される必要がある。

技術課題
本発明は、深層学習ネットワーク用の最適化方法及びコンピュータ装置、及びコンピュータ可読記憶媒体を提供し、これらはマルチスケールの動的な量子化を用いて予測精度及び圧縮率を保証することができる。

課題の解決策
本発明の好適例による深層学習ネットワーク用の最適化方法は、次のステップを含む（但し、これらのステップに限定されない）。事前学習済みモデルから値分布を得るステップ。この値分布の範囲内に１つ以上の区切り点（ブレークポイント）を決定するステップ。複数のセクションのうちの第１セクション内の、あるパラメータタイプ（パラメータの型）の値の一部分に対する量子化を、第１量子化パラメータを用いて実行し、これらのセクションのうちの第２セクション内の、このパラメータタイプの値の他の部分に対する量子化を、第２量子化パラメータを用いて実行するステップ。この値分布は、上記深層学習ネットワークにおけるこのパラメータタイプの値の統計的分布である。上記範囲を１つ以上の区切り点によって上記セクションに分割するステップ。第１量子化パラメータは第２量子化パラメータと異なる。

本発明の好適例による深層学習ネットワーク用のコンピュータ装置は、メモリ及びプロセッサを含む（但し、これらに限定されない）。メモリはコードを記憶する。プロセッサはメモリに結合されている。プロセッサは、コードをロードし実行して、学習済みモデルから値分布を得て、この値分布の範囲内に１つ以上の区切り点を決定し、複数のセクションのうちの第１セクション内の、あるパラメータタイプの値の一部分に対する量子化を、第１量子化パラメータを用いて実行し、これらのセクションのうちの第２セクション内の、このパラメータタイプの値の他の部分に対する量子化を、第２量子化パラメータを用いて実行する。この値分布は、上記深層学習ネットワークにおけるこのパラメータタイプの値の統計的分布である。上記範囲は１つ以上の区切り点によって上記セクションに分割される。第１量子化パラメータは第２量子化パラメータと異なる。

本発明の好適例の非一時的コンピュータ可読記憶媒体を用いて、コードを記憶する。プロセッサは、このコードを用いて次のステップを実行する。事前学習済みモデルから値分布を得るステップ。この値分布の範囲内に１つ以上の区切り点を決定するステップ。複数のセクションのうちの第１セクション内の、あるパラメータタイプの値の一部分に対する量子化を、第１量子化パラメータを用いて実行し、これらのセクションのうちの第２セクション内の、このパラメータタイプの値の他の部分に対する量子化を、第２量子化パラメータを用いて実行するステップ。この値分布は、上記深層学習ネットワークにおけるこのパラメータタイプの値の統計的分布である。上記範囲は１つ以上の区切り点によって上記セクションに分割される。第１量子化パラメータは第２量子化パラメータと異なる。

以上に基づいて、上記の深層学習ネットワーク用の最適化方法及びコンピュータ装置、及びコンピュータ可読記憶媒体によれば、値分布を区切り点により複数のセクションに分割し、それぞれのセクションの値に対して、異なる量子化パラメータを用いる。このようにして、量子化された分布は、元の値分布をより近く近似することができ、これによりモデルの予測精度を改善することができる。

本発明の特徴及び利点をより理解し易くするために、以下の具体的実施形態を、図面を併用して詳細に説明する。

本発明の一実施形態によるコンピュータ装置の要素のブロック図である。本発明の一実施形態による、深層学習ネットワーク用の最適化方法のフローチャートである。本発明の一実施形態による値分布の概略図である。本発明の一実施形態による区切り点探索のフローチャートである。本発明の一実施形態による区切り点探索のフローチャートである。本発明の一実施形態による第１段階探索の概略図である。本発明の一実施形態による第２段階探索の概略図である。本発明の一実施形態によるマルチスケールの動的な固定小数点量子化の概略図である。本発明の一実施形態による量子化パラメータの概略図である。本発明の一実施形態による段階的量子化の概略図である。本発明の一実施形態による、境界制約付きストレートスルー推定器（ＳＴＥ）の概略図である。本発明の一実施形態によるモデル補正のフローチャートである。本発明の一実施形態による層毎のレベルの量子化層のフローチャートである。本発明の一実施形態による層毎の事後学習量子化のフローチャートである。本発明の一実施形態によるモデル微調整のフローチャートである。

開示する実施形態の詳細な説明
図１は、本発明の一実施形態によるコンピュータ装置１００の要素のブロック図である。図１を参照されたい。コンピュータ装置１００は、メモリ１１０及びプロセッサ１５０を含む（但し、これらに限定されない）。コンピュータ装置１００は、デスクトップ・コンピュータ、ノート型コンピュータ、スマートホン、タブレット・コンピュータ、サーバー、または他の電子機器である。

メモリ１００は、あらゆる種類の固定または着脱式ランダムアクセスメモリ（ＲＡＭ：random access memory）、読出し専用メモリ（ＲＯＭ：read only memory）、フラッシュメモリ、従来型のハードディスクドライブ（ＨＤＤ：hard disc drive）、半導体ドライブ（ＳＳＤ：solid state drive）、または同様な素子とすることができる。一実施形態では、メモリ１１０を用いて、コード、ソフトウェア・モジュール、設定データ、またはファイル（例えば、サンプル、モデル・パラメータ、値分布、または区切り点）を記憶する。

プロセッサ１５０はメモリ１１０に結合されている。プロセッサ１５０は、中央処理装置（ＣＰＵ：central processing unit）、グラフィックス・プロセッシング・ユニット（ＧＰＵ：graphics processing unit）、他のプログラマブルな汎用または専用マイクロプロセッサ、デジタル・シグナル・プロセッサ（ＤＳＰ：digital signal processor）、プログラマブル・コントローラ、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ：field programmable gate array）、特定用途向け集積回路（ＡＳＩＣ：application specific integrated circuit）、ニューラルネットワーク・アクセレレータ、他の同様な素子、または上記の素子の組合せとすることができる。一実施形態では、プロセッサ１５０を用いて、コンピュータ装置１００の動作の全部または一部を実行し、プロセッサ１５０は、各コード、ソフトウェア・モジュール、ファイル、及びメモリ１１０に記憶されているデータをロードして実行することができる。

以下、本発明の一実施形態による方法を、コンピュータ装置１００内の種々のデバイス、素子、及びモジュールに関連して説明する。この方法の各プロセスは、実現状況に応じて調整することができ、これらのプロセスに限定されない。

図２は、本発明の一実施形態による深層学習ネットワーク用の最適化方法のフローチャートである。図２を参照されたい。プロセッサ１５０は、１つ以上の値分布を事前学習済みモデルから得る（ステップＳ２１０）。具体的には、事前学習済みモデルは、深層学習ネットワーク（例えば、ユー・オンリー・ルック・ワンス（ＹＯＲＯ：you only look once）、ＡｌｅｘＮｅｔ（アレックスネット）、ＲｅｓＮｅｔ（レスネット）、領域ベースの畳み込みニューラルネットワーク（Ｒ－ＣＮＮ：region based convolutional neural network）、または高速Ｒ－ＣＮＮ）に基づく。換言すれば、事前学習済みモデルは、学習サンプルを深層学習ネットワークに入力することによって学習させたモデルである。なお、事前学習済みモデルは、画像分類、物体検出、または他の推測用に用いることができ、本発明の実施形態は事前学習済みモデルの用法を限定しない。学習済みである事前学習済みモデルは、事前設定された精度基準を満足する。

事前学習済みモデルが、対応するパラメータ（例えば、重み、入力活性化値/特徴値／出力活性化値/特徴値）を各層に有することは、注目に値する。パラメータが多過ぎるほど、より高度な計算及び記憶の必要条件が要求され、パラメータの複雑性が高いほど、計算の量が増加することが考えられる。量子化は、ニューラルネットワークの複雑性を低減するための１つの技法である。量子化は、活性化値／特徴値または重みを表すためのビット数を低減することができる。対称量子化、非対称量子化、及びクリッピング法のような多数の種類の量子化モデルが存在する。

一方、値分布は、深層学習ネットワークにおける１つ以上のパラメータタイプの複数の値の統計的分布である。パラメータタイプは、重み、入力活性化値／特徴値、及び／または出力活性化値／特徴値とすることができる。統計的分布は、各値の統計量（例えば、合計個数）の分布を表す。例えば、図３は、本発明の一実施形態による値分布の概略図である。図３を参照されたい。事前学習済みモデル内の重みまたは入力活性化値/特徴値／出力活性化値/特徴値の値分布は、ガウス（正規）分布、ラプラス分布、またはベル（釣り鐘）型分布である。図３に示すように、値の大部分は値分布の中央セクション内に位置することは注目に値する。これらの値に対して一様量子化を用いる場合、中央セクション内の値はすべて０に量子化されることがあり、モデル予測の精度が低下し得る。従って、深層学習ネットワーク用のパラメータタイプの値については、量子化を改善する必要がある。

一実施形態では、プロセッサ１５０が検証データを用いて値を生成することができる。例えば、プロセッサ１５０は、事前学習済みの浮動小数点モデル（即ち、事前学習済みモデル）により検証データに対する推論を実行し、各層のパラメータ（例えば、重み、入力活性化値／特徴値、または出力活性化値／特徴値）を収集し、当該パラメータタイプの値をカウントして当該パラメータタイプの値分布を生成することができる。

図２を参照されたい。プロセッサ１５０は、１つ以上の区切り点を値分布の範囲内に決定する（ステップＳ２２０）。具体的には、図３に示すように、異なるセクション内の値の合計個数は大幅に変化し得る。例えば、中央セクションの値の合計個数は、２つの終端／末端セクションの値の合計個数よりも大幅に大きい。その代わりに、区切り点を用いて上記範囲を複数のセクションに分割する。即ち、上記範囲を１つ以上の区切り点によって複数のセクションに分割する。例えば、図３中の値領域内の区切り点ｐ（実数）は、範囲[－ｍ, ｍ]内の値分布を２つの対称なセクションに分割し、ここにｍ（実数）は値分布内の最大絶対値を表す。これら２つの対称なセクションは、中央セクション及び末端セクションを含む。中央セクションは範囲[－ｐ, ｐ]内にあり、末端セクションは範囲[－ｍ, ｍ]内の他のセクションである。

図３を例として挙げ、値が浮動小数点であるものと仮定すれば、上記範囲を中央セクション及び末端セクションに分割する場合、中央セクションの値は、過度に多数の値が０に量子化されることを防止するように小数部分を表現するために、より大きなビット幅を必要とし得る。また、末端セクションについては、より大きな値を量子化するのに十分な能力を提供するように整数部分を表現するために、より大きなビット幅を必要とし得る。このことより、区切り点は、値を異なる量子化条件に分類するための基になることがわかる。また、値分布に適した区切り点を見出すことが量子化に役立つ。

図４は、本発明の一実施形態による区切り点探索のフローチャートである。図４を参照されたい。第１探索点を用いて、区切り点が存在するか否かを評価する（ステップＳ４１０）。第１探索点は上記範囲内に位置する。一実施形態では、任意の隣接する２つの第１探索点間の距離が、他の隣接する２つの第１探索点間の距離と同一である。他の実施形態では、隣接する第１探索点間の距離が異なってもよい。

プロセッサ１５０は、上記範囲をそれぞれの第１探索点により分割して複数の評価セクションを形成することができ（ステップＳ４２０）、各評価セクションは各第１探索点に対応する。換言すれば、あらゆる探索点が上記範囲を評価セクションに分割し、あるいはあらゆる評価セクションが隣接する２つの探索点間に位置する。一実施形態では、プロセッサ１５０が第１探索空間を値分布の範囲内に決定することができる。第１探索点は第１探索空間を評価セクションに分割することができる。プロセッサ１５０は、区切り点比率を用いて第１探索空間及び第１探索点を規定することができる。複数の区切り点比率のそれぞれは、値分布内の最大絶対値に対する第１探索点の比率であり、数式表現(1)は次の通りである：
breakpoint ratio＝break point／abs max...(1)
ここに、breakpoint ratioは区切り点比率であり、break pointは任意の第１探索点または他の探索点であり、abs maxは値分布内の最大絶対値である。例えば、第１探索空間は[０．１, ０．９]であり、上記距離は０．１である。換言すれば、第１探索点の区切り点比率は、０．９までのそれぞれ０．１、０．２、０．３、等であり、第１探索点は数式表現に従ってバックトラックすることができる。

プロセッサ１５０は、各第１探索点に対応する評価セクションに対する量子化を、それぞれ異なる量子化パラメータにより実行して、各第１探索点に対応する量子化値を得る（ステップＳ４３０）。換言すれば、いずれの探索点の異なる評価セクションに対しても異なる量子化パラメータを用いる。動的な固定小数点量子化を例として挙げれば、量子化パラメータは、ビット幅（ＢＷ：bit width）、整数部分の長さ（ＩＬ：integer length）、及び小数部分の長さ（ＦＬ：fraction length）を含む。これらの異なる量子化パラメータは、例えば、異なる整数部分の長さ及び／または異なる小数部分の長さである。なお、異なる量子化法が用いる量子化パラメータは異なり得る。一実施形態では、同じビット幅の下で、０に近い値を有するセクションが用いる小数部分の長さはより長く、より大きい値を有するセクションが用いる整数部分長はより長い。

プロセッサ１５０は、第１探索点の複数の差異量どうしを比較して、１つ以上の区切り点を得る（ステップＳ４４０）。第１探索点に対応する各差異量は、量子化値とそれに対応する非量子化値（即ち、量子化の前の値）との差異から成る。例えば、差異量は、平均二乗誤差（ＭＳＥ：mean squared error）、二乗平均平方根誤差（ＲＭＳＥ：root mean squared error）、または平均絶対誤差である。ＭＳＥを例として挙げれば、数式表現２は次の通りである：
ここに、ＭＳＥはＭＳＥによって計算した差異量であり、ｘ_iは（非量子化）値（例えば、重み、または入力活性化値/特徴値／出力活性化値/特徴値）、Ｑ(ｘ_i)は量子化値であり、ｈ( )は定数であり、ｎは値の合計個数である。上記量子化値について対称量子化を例として挙げれば、式(3)及び(4)は次の通りである：
ここに、ｘ_quantizedは量子化値であり、ｘ_floatは浮動小数点の値（即ち、非量子化値）であり、ｘ_scaleは量子化レベルのスケールであり、
（外１）
は値分布内の最大値であり、
（外２）
は値分布内の最小値であり、
（外３）
は量子化値のうちの最大値であり、
（外４）
は量子化値のうちの最小値である。

一実施形態では、プロセッサ１５０が、第１探索点のうちより小さい差異量を有する１つ以上を、１つ以上の区切り点として用いることができる。より小さい差異量とは、その差異量が他のものより小さいことを意味する。１つの区切り点を例として挙げれば、プロセッサ１５０は、第１探索点のうち小さい差異量を有する１つを区切り点として選択することができる。２つの区切り点を例として挙げれば、プロセッサ１５０は、第１探索点のうち小さい差異量及び第２の小さい差異量を有する２つを区切り点として選択する。

小さい差異量を選択することを例として挙げれば、図５は、本発明の一実施形態による区切り点探索のフローチャートである。図５を参照されたい。プロセッサ１５０は、探索空間を決定して、現在の第１探索点の量子化値を得ることができる（ステップＳ５１０）。例えば、値分布内の最大値及び最小値を、探索空間の上限及び下限として用いる。それに加えて、第１探索点によって分割された２つのセクションに対して、異なる量子化パラメータを用いて量子化を実行する。プロセッサ１５０は、現在の第１探索点の量子化値と非量子化値との差異量、例えば平均二乗誤差を決定する（ステップＳ５２０）。プロセッサ１５０は、現在の第１探索点の差異量が前回の差異量よりも小さいか否かを判定する（ステップＳ５３０）。前回の差異量は、前回計算した他の第１探索点の差異量である。現在の差異量が前回の差異量よりも小さい場合、プロセッサ１５０は、現在の第１探索点を用いて区切り点比率を更新することができる（ステップＳ５４０）。例えば、区切り点比率は、第１探索点を数式表現(1)に代入することによって得ることができる。現在の差異量が前回の差異量よりも小さくない場合、プロセッサ１５０は区切り点を無効にする／無視する／更新しないことができる。次に、プロセッサ１５０は、現在の第１探索点が探索空間内の最後の探索点であるか否かを判定することができ（ステップＳ５５０）、即ち、全部の第１探索点の差異量を比較したことを保証する。第１探索点の差異量の中に、比較していない他の差異量が存在する場合、プロセッサ１５０は次の第１探索点の量子化値を決定することができる（ステップＳ５１０）。第１探索点を全部比較している場合、プロセッサ１５０は最終の区切り点比率を出力し、この区切り点比率により区切り点を決定することができる（ステップＳ５６０）。

図６は、本発明の一実施形態による第１段階探索の概略図である。図６を参照されたい。複数の第１探索点ＦＳＰのうちの隣接する２つの間に距離ＥＳが存在する。一実施形態では、第１段階探索を大まかな探索として用いることができ、探索の第２段階を追加的に設けることができる。例えば、第２段階は第２探索点を規定し、隣接する２つの第２探索点間の距離は、隣接する２つの第１探索点間の距離よりも小さい。第２探索点も用いて区切り点が存在するか否かを評価し、第２探索点は値分布の範囲内に位置する。

一実施形態では、プロセッサ１５０が、第１探索点のうちより小さい差異量を有する１つ以上により、第２探索空間を決定することができる。第２探索空間は第１探索空間よりも小さい。区切り点比率によって定義されるように、一実施形態では、プロセッサ１５０が、第１探索点のうち小さい差異量を有する１つにより区切り点比率を決定することができる。区切り点比率は、値分布内の最大絶対値に対する、上記小さい差異量を有する第１探索点の比率であり、数式表現(1)に関連する説明を参照することができ、ここではその説明を繰り返さない。プロセッサ１５０は、区切り点比率に応じて第２探索空間を決定することができる。小さい差異量は、第２探索空間の中央に位置し得る。例えば、区切り点比率が０．５である場合、第２探索空間の範囲は[０．４, ０．６]とすることができ、隣接する２つの第２探索点間の距離は０．０１とすることができる（第１探索点間の距離が０．１であるものと仮定する）。なお、第１段階において小さい差異量を有する区切り点比率は、第２探索空間の中央に位置するとは限らない。

図７は、本発明の一実施形態による第２段階探索の概略図である。値分布の部分拡大図である図７を参照されたい。図６に比べると、図７中の隣接する２つの第２探索点ＳＳＰ間の距離は、図６中の距離ＥＳよりも大幅に小さい。それに加えて、第２探索空間は、第２探索点ＳＳＰによって均等に分割され、対応する複数の評価セクションを相応に分割する。

同様に、第２段階については、プロセッサ１５０は、各第２探索点によって分割された評価セクションの値に対して、異なる量子化パラメータを用いて量子化を実行して、各第２探索点に対応する量子化値を得ることができる。次に、プロセッサ１５０は、第２探索点の複数の差異量どうしを比較して、１つ以上の区切り点を得ることができる。第２探索点に対応する各差異量は、量子化値とそれに対応する非量子化値との差異を含む。例えば、差異量はＭＳＥ、ＲＭＳＥ、またはＭＡＥである。それに加えて、プロセッサ１５０は、第２探索点のうちより小さい差異量を有する１つ以上を、１つ以上の区切り点として用いることができる。１つの区切り点を例として挙げれば、プロセッサ１５０は、第２探索点のうち小さい差異量を有する１つを区切り点として選択することができる。

図２を参照されたい。プロセッサ１５０は、上記セクションのうちの第１セクション内の、上記パラメータタイプの値の一部分に対する量子化を、第１量子化パラメータを用いて実行し、これらのセクションのうちの第２セクション内の、このパラメータタイプの値の他の部分に対する量子化を、第２量子化パラメータを用いて実行する（ステップＳ２３０）。具体的には、ステップＳ２２０において説明したように、区切り点を用いて、値分布内を、異なる量子化条件を有するセクションに分割する。従って、本発明の実施形態は、異なる量子化パラメータを異なるセクション用に提供する。例えば、図８は、マルチスケールの動的な固定小数点量子化の概略図である。図８を参照されたい。一対の区切り点ＢＰが値分布を中央セクション及び末端セクションに分割する。点線は、ある量子化パラメータを量子化するための概略線であり、中央セクション内の値はより高密度であり、末端セクション内の値はより散在し、量子化は２つのセクションに対して異なる量子化パラメータを用いて実行する。

値分布がより高密度である中央セクションについては、プロセッサ１５０は、より大きなビット幅を小数部分の長さ（ＦＬ）に割り当てることができ；値分布がより散在している末端セクションについては、プロセッサ１５０は、より大きなビット幅を整数部分の長さ（ＩＬ）に割り当てることができる。図９は、本発明の一実施形態による量子化パラメータの概略図である。図９を参照されたい。動的な固定小数点量子化を例として挙げれば、追加ビット９０１、符号ビット９０２に加えて、ある値を表す１２ビットのうち、仮数９０３は整数部分９０４及び小数部分９０５を含む。小数部分の長さが３（即ち、ｆｌ＝３）であれば、小数部分９０５は図中に示すように３ビットを占める。一部の応用シナリオでは、動的な固定小数点量子化が、対称量子化よりもハードウェア実現に適している。例えば、加算器及び乗算器に加えて、ニューラルネットワーク・アクセレレータは変換計算のための追加的サポートしか必要としない。しかし、他の実施形態では、非対称量子化または他の量子化方法も採用することができる。

また、３つ以上の区切り点が得られる場合、２つの量子化パラメータを異なるセクションに適用することに限定されない。

一実施形態では、プロセッサ１５０が動的な固定小数点量子化をクリッピング法と組み合わせて実行することができる。プロセッサ１５０は、第１量子化パラメータ、第２量子化パラメータ、または他の量子化パラメータの整数部分の長さを、値分布内の最大絶対値及び最小絶対値に応じて決定することができる。クリッピング法はパーセンタイル（百分位数、百分位値）クリッピングを例として挙げる。図３中に示すベル型分布内の中央から遠くには少数の値しか存在せず、パーセンタイル・クリッピングは、これらのオフピーク値の影響を軽減することができる。プロセッサ１５０は、値分布内の９９．９９パーセンタイルに位置する値を最大値Ｗ_maxとして用いることができ、値分布内の０．０１パーセンタイルに位置する値を最小値Ｗ_minとして用いることができる。プロセッサ１５０は、例えば、重みの整数値ＩＬ_Wを式(5)により決定することができる：
ＩＬ_W＝log₂(max(|Ｗ_max|, |Ｗ_min|))＋１...(5)
ここに、maxは()内の値の最大値を表す。

なお、最大値及び最小値は９９．９９％及び０．０１％に限定されず、量子化はパーセンタイル・クリッピングと組み合わせることに限定されず、量子化方法は動的な固定小数点量子化に限定されない。それに加えて、入力活性化値／特徴値、出力活性化値／特徴値、または他のパラメータタイプも適用可能である。最大絶対値を例として挙げれば、プロセッサ１５０は、学習サンプルの一部を較正サンプルとして用いることができ、これらの較正サンプルを推測して、活性化値／特徴値の値分布を得ることができる。値分布内の最大値を、クリッピング法用の最大値として用いることができる。また、式(5)は、例えば、入力活性化値/特徴値／出力活性化値/特徴値の整数部分の長さを次式のように決定することができる：
ＩＬ_I＝log₂(max(|Ｉ_max|, |Ｉ_min|))＋１...(6)
ＩＬ_O＝log₂(max(|Ｏ_max|, |Ｏ_min|))＋１...(7)
ここに、ＩＬ_Iは入力活性化値／特徴値の整数部分の長さであり、ＩＬ_Oは出力活性化値／特徴値の整数部分の長さであり、Ｉ_maxは入力活性化値／特徴値の値分布内の最大値であり、Ｏ_maxは出力活性化値／特徴値の値分布内の最大値であり、Ｉ_minは入力活性化値／特徴値の値分布内の最小値であり、Ｏ_minは出力活性化値／特徴値の値分布内の最小値である。

一方、図１０は、本発明の一実施形態による段階的（ステップ）量子化の概略図である。図１０を参照されたい。量子化の式は通常は段階的である。最大値ｘ＿ｍａｘと最小値ｘ＿ｍｉｎとの間で同じレベルの値は同じ値に量子化される。しかし、段階的量子化のニューラルネットワーク学習では、学習することを困難にするゼロ勾配に起因して、パラメータを更新することができないことがある。従って、量子化の式の勾配を改善する必要性が存在する。

ストレートスルー推定器（ＳＴＥ：straight through estimator）を用いて、量子化の式の勾配を近似することができる。一実施形態では、プロセッサ１５０が境界制約付きストレートスルー推定器（ＳＴＥ）を用いて、勾配ノイズをさらに軽減することができる。図１１は、本発明の一実施形態による、境界制約付きストレートスルー推定器（ＳＴＥＢＣ：STE with boundary constraint）の概略図である。図１１を参照されたい。このＳＴＥＢＣは、量子化の式における微分法を防止して、入力勾配が出力勾配に等しい量子化の式を定めることができる。式(8)はＳＴＥＢＣを次のように表現することができる：
ここに、ｌｂは下限であり、ｕｂは上限であり、ｆｌは小数部分の長さであり、Ｒは実数であり、Ｑは量子化した数であり、
（外５）
は実数の値（即ち、非量子化値）であり、
（外６）
は量子化値であり、ｙは出力活性化値／特徴値であり、Ｂはビット幅である。
（外７）
が上限と下限との間の制限範囲[ｌｂ, ｕｂ]内にある場合、プロセッサ１５０は、その実勾配
（外８）
を量子化勾配
（外９）
に等しくすることができる。しかし、値
（外１０）
が制限範囲[ｌｂ, ｕｂ]外にある場合、プロセッサ１５０は、その勾配を無視して、量子化勾配を直接０に設定することができる。

図１２は、本発明の一実施形態によるモデル補正のフローチャートである。図１２を参照されたい。量子化モデルは、事前学習済みモデル内のパラメータを量子化した後に得ることができる。例えば、深層学習ネットワーク内の各層の重み、入力活性化値／特徴値、及び／または出力活性化値／特徴値を量子化する。一実施形態では、同じパラメータタイプの異なるセクション用に異なる量子化パラメータを用いることに加えて、プロセッサ１５０は、異なる量子化パラメータを異なるパラメータタイプ用に用いることができる。ＡｌｅｘＮｅｔを例として挙げれば、上記パラメータタイプの重みの範囲が[２^-11, ２^-3]であり、上記パラメータタイプの活性化値／特徴値の範囲が[２^-2, ２⁸]である。単一の量子化パラメータを用いてこれら２つの範囲をカバーする場合、これらの値を表すために、より大きなビット幅を必要とし得る。従って、異なる量子化パラメータを、異なるパラメータタイプの範囲に割り当てることができる。

一実施形態では、複数の量子化層を深層学習ネットワークに追加する。これらの量子化層を、重み用、入力活性化値／特徴値用、及び出力活性化値／特徴値用の３つの部分に分割することができる。それに加えて、異なるビット幅及び／または小数部分の長さ、あるいは同一のビット幅及び／または小数部分の長さのそれぞれを用意して、これらの量子化層の上記３つの部分を表すことができる。これにより、層毎のレベルの量子化層を実現することができる。

図１３は、本発明の一実施形態による層毎のレベルの量子化層のフローチャートである。図１３を参照されたい。プロセッサ１５０は、あるパラメータタイプの入力活性化値／特徴値及び重み（浮動小数点を例として挙げる）を取得して（ステップＳ１０１及びＳ１０２）、重みまたは入力活性化値／特徴値のそれぞれを量子化（例えば、動的な固定小数点量子化、対称量子化、または他の量子化）して（ステップＳ１０３及びＳ１０４）、量子化した入力活性化値／特徴値及び量子化した重みを得ることができる（ステップＳ１０５及びＳ１０６）。プロセッサ１５０は、これらの量子化値を計算層に入力することができる（ステップＳ１０７）。計算層は、例えば、畳み込み計算、全結合計算、または他の計算を実行する。次に、プロセッサ１５０は、計算層が出力する上記パラメータタイプの出力活性化値／特徴値を得て（ステップＳ１０８）、出力活性化値／特徴値を量子化して（ステップＳ１０９）、量子化した出力活性化値／特徴値を得ることができる（ステップＳ１１０）。量子化ステップＳ１０３、Ｓ１０４、及びＳ１０９は１つの量子化層におけるものと考えることができる。このメカニズムは、この量子化層を１つの一般的な浮動小数点層またはカスタマイズされた層に結び付けることができる。それに加えて、一部の実施形態では、プロセッサ１５０が、浮動小数点の汎用行列乗算（ＧＥＭＭ：general matrix multiplication）ライブラリ（例えば、コンピュート・ユニファイド・デバイス・アーキテクチャ（ＧＵＤＡ（登録商標）：compute unified device architecture：ＮＶＩＤＩＡ社によるＧＰＵ向け汎用並列コンピューティング・プラットフォーム））を用いて、学習及び推測処理を加速することができる。

プロセッサ１５０は、量子化モデルを事後学習させることができる（ステップＳ１２１）。例えば、ラベル付けした結果を有する学習サンプルを用いて量子化モデルを学習させる。図１４は、本発明の一実施形態による層毎の事後学習量子化のフローチャートである。図１４を参照されたい。プロセッサ１５０は、例えば、学習させた重みに対するパーセンタイル・クリッピングまたはマルチスケール量子化法を用いて、量子化モデル内の各量子化層の重みの整数部分の長さを決定することができる（ステップＳ１４１～Ｓ１４３）。パーセンタイル・クリッピングの例については、式(5)に関連する説明を参照することができ、ここではその説明を繰り返さない。次に、プロセッサ１５０は、量子化モデルによる複数の較正サンプルを推測し、量子化モデル内の各量子化層内の入力活性化値/特徴値／出力活性化値/特徴値の値分布を決定し、それに応じてクリッピング法用の最大値を選択することができる。プロセッサ１５０は、量子化モデル内の各量子化層内の活性化値／特徴値の整数部分の長さを、例えば、上記最大絶対値、または学習させた入力活性化値/特徴値／出力活性化値/特徴値に対するマルチスケール量子化法を用いて決定することができる（ステップＳ１４２及びＳ１４３）。上記最大絶対値の例については、式(6)及び(7)に関連する説明を参照することができ、ここではその説明を繰り返さない。

次に、プロセッサ１５０は、各量子化層の重み／活性化値/特徴値の小数部分の長さを、各量子化層のビット幅限界に応じて決定することができる（ステップＳ１４４）。式(11)を用いて、小数部分の長さを次のように決定する：
ＦＬ＝ＢＷ－ＩＬ...(11)
ここに、ＦＬは小数部分の長さであり、ＢＷは所定のビット幅限界であり、ＩＬは整数部分の長さである。一部の応用シナリオの下では、式(11)から得られた整数部分の長さを、式(5)～(7)から得られた整数部分の長さよりも、例えば１ビットだけ小さくすることができる。整数部分の長さを（微）調整することは、モデルの予測精度を改善することに役立つ。最後に、プロセッサ１５０は、事後学習済み量子化モデルを得ることができる（ステップＳ１４５）。

図１２を参照されたい。プロセッサ１５０は、学習済み量子化モデルを再学習させること／（微）調整することができる（ステップＳ１２２）。一部の応用シナリオの下では、学習済みモデルを事後学習させることが予測精度を低下させ得る。従って、（微）調整により精度を改善することができる。一実施形態では、プロセッサ１５０が、境界制約付きストレートスルー推定器（ＳＴＥＢＣ）を用いることによって、重みの量子化の勾配を決定することができる。このストレートスルー推定器は、上記上限と上記下限との間の入力勾配が出力勾配に等しくなるように構成されている。前に説明したように、境界制約付きストレートスルー推定器は勾配近似を改善することができる。本発明の上記実施形態は、境界制約付きストレートスルー推定器を深層学習ネットワーク内の単一層用に導入して、層毎のレベルの（微）調整を提供する。換言すれば、層毎の量子化を順伝搬（フォワード・プロパゲーション）用に提供することに加えて、層毎の（微）調整を逆伝搬（バックワード・プロパゲーション）において提供することもできる。順伝搬の層毎の量子化については、図１３に関連する説明を参照することができ、ここではその説明を繰り返さない。

図１５は、本発明の一実施形態によるモデル微調整のフローチャートである。図１５を参照されたい。学習済み量子化モデルについては、逆伝搬では、プロセッサ１５０が次の層から勾配を取得し（ステップＳ１５１）、境界制約付きストレートスルー推定器を用いて出力活性化値／特徴値の勾配を（微）調整して（ステップＳ１５２）、量子化層の出力の勾配を得ることができる（ステップＳ１５３）。なお、ニューラルネットワーク推論を例として挙げれば、順伝搬はニューラルネットワークの入力層から始まり、その出力層へ順に向かう。隣接する層に関しては、１つの層の前後に、入力層に近い方の層が前の層であり、出力層に近い方の層が次の層である。それに加えて、プロセッサ１５０は、対応する勾配を、学習済み量子化モデルの重み及び入力活性化値／特徴値から、浮動小数点計算を用いて決定し（ステップＳ１５４）、重み及び入力活性化値／特徴値のそれぞれを、境界制約付きストレートスルー推定器を用いて（微）調整し（ステップＳ１５５及びＳ１５６）、それに応じて重みの勾配及び前の層についての勾配を決定する（ステップＳ１５７及びＳ１５８）ことができる。次に、プロセッサ１５０は、勾配降下法を用いて重みを更新することができる（ステップＳ１５９）。図１３のステップＳ１０２では、この重みを用いることができる。更新した勾配は浮動小数点量子化にさらに適用することができることは注目に値する。最後に、プロセッサ１５０は（微）調整した量子化モデルを得ることができる（ステップＳ１２３）。これにより、予測精度をさらに改善することができる。

本発明の一実施形態は、非一時的コンピュータ可読記憶媒体（例えば、ハードディスクドライブ、光ディスク、フラッシュメモリ、半導体ドライブ（ＳＳＤ）、及び他の記憶媒体）を提供し、コードを記憶するために用いられる。コンピュータ装置１００のプロセッサ１５０または他のプロセッサは、このコードをロードして、本発明の実施形態による１つ以上の最適化方法の対応するプロセスを実行することができる。これらのプロセスについては、上記の説明を参照することができ、ここではその説明を繰り返さない。

要約すれば、本発明の実施形態による深層学習ネットワーク用の最適化方法及びコンピュータ装置、及びコンピュータ可読記憶媒体では、事前学習済みモデルのパラメータの値分布を分析し、異なる量子化条件を有する区切り点に分割すべき範囲を決定する。区切り点は、異なるパラメータタイプの値分布を複数のセクションに分割すること、及び／または単一のパラメータタイプの値分布を複数のセクションに分割することができる。異なる量子化パラメータのそれぞれを異なるセクション用に用いることができる。パーセンタイル・クリッピング法を用いて、重みの整数部分の長さを決定し、最大絶対値法を用いて、入力特徴値/活性化値／出力特徴値/活性化値の整数部分の長さを決定する。それに加えて、境界制約付きストレートスルー推定器を導入して、勾配近似を改善する。このようにして、精度低下を低減することができ、許容可能な圧縮を実現することができる。

以上の実施形態において本発明を開示してきたが、これらの実施形態は本発明を限定することを意図していない。当業者は、本発明の精神及び範囲から逸脱することなしに、ある程度の変更及び修正を加えることができる。従って、本発明の保護範囲は添付した特許請求の範囲によって規定される。

本発明の深層学習ネットワーク用の最適化方法及びコンピュータ装置、及びコンピュータ可読記憶媒体は、コンピュータ装置及びその計算方法に適用することができる。

１００：コンピュータ装置
１１０：メモリ
１５０：プロセッサ
Ｓ２１０～Ｓ１３０、Ｓ４１０～Ｓ４４０、Ｓ５１０～Ｓ５６０、Ｓ１２１～Ｓ１２３、Ｓ１０１～Ｓ１１０、Ｓ１４１～Ｓ１４５、Ｓ１５１～Ｓ１５９：ステップ
ｍ、－ｍ：最大絶対値
ＥＳ：距離
ＦＳＰ：第１探索点
ＳＳＰ：第２探索点
ｐ、ＢＰ：区切り点
９０１：追加ビット
９０２：符号ビット
９０３：仮数
９０４：整数部分
９０５：小数部分
ｆｌ：小数部の長さ
ｘ＿ｍａｘ：最大値
ｘ＿ｍｉｎ：最小値

Claims

深層学習ネットワーク用の最適化方法であって、
事前学習済みモデルから値分布を得るステップであって、該値分布は、前記深層学習ネットワークにおける１つのパラメータタイプの複数の値の統計的分布であるステップと、
前記値分布の範囲内に少なくとも１つの区切り点を決定するステップであって、前記範囲は前記少なくとも１つの区切り点によって複数のセクションに分割されるステップと、
前記複数のセクションのうちの第１セクション内の、前記パラメータタイプの前記値の一部分に対する量子化を、第１量子化パラメータを用いて実行し、前記複数のセクションのうちの第２セクション内の、前記パラメータタイプの前記値の他の部分に対する量子化を、第２量子化パラメータを用いて実行するステップであって、前記第１量子化パラメータが前記第２量子化パラメータと異なるステップと
を含む、深層学習ネットワーク用最適化方法。
前記値分布の範囲内に少なくとも１つの区切り点を決定するステップが、
複数の第１探索点を前記範囲内に決定するステップと、
前記範囲を前記第１探索点のそれぞれにより分割して、複数の評価セクションを形成するステップであって、該評価セクションの各々が前記第１探索点の各々に対応するステップと、
前記第１探索点の各々に対応する前記評価セクションに対する量子化を、それぞれ異なる量子化パラメータにより実行して、前記第１探索点の各々に対応する量子化値を得るステップと、
前記第１探索点の複数の差異量どうしを比較して、前記少なくとも１つの区切り点を得るステップであって、前記差異量の各々が、前記第１探索点のうちの１つに対応し、量子化値と当該量子化値に対応する非量子化値との差異から成るステップと
を含み、
前記複数の第１探索点を決定するステップが、
前記範囲内に第１探索空間を決定するステップであって、該第１探索空間は前記第１探索点によって均等に前記評価セクションに分割されるステップを含み、
前記第１探索点の複数の差異量どうしを比較して、前記少なくとも１つの区切り点を得るステップが、
前記第１探索点のうち小さい前記差異量を有する１つの前記第１探索点を、前記少なくとも１つの区切り点として用いるステップと、
前記第１探索点のうち小さい前記差異量を有する１つの前記第１探索点により、第２探索空間を決定するステップであって、前記第２探索空間は前記第１探索空間よりも小さいステップと、
前記第２探索空間内に複数の第２探索点を決定するステップであって、隣接する２つの前記第２探索点間の距離が、隣接する２つの前記第１探索点間の距離よりも小さいステップと、
前記第２探索点の差異量どうしを比較して、前記少なくとも１つの区切り点を得るステップであって、前記差異量の各々が、前記第２探索点のうちの１つに対応し、量子化値と当該量子化値に対応する非量子化値との差異から成るステップとを含み、
前記第１探索点のうち前記小さい差異量を有する前記１つの第１探索点により、前記第２探索空間を決定するステップが、
前記第１探索点のうち前記小さい差異量を有する前記１つの前記第１探索点により区切り点比率を決定するステップであって、該区切り点比率は、前記値分布内の最大絶対値に対する、前記小さい差異量を有する前記１つの第１探索点の比率であるステップと、
前記区切り点比率により前記第２探索空間を決定するステップであって、前記小さい差異量が前記第２探索空間内に位置するステップとを含む、請求項１に記載の深層学習ネットワーク用最適化方法。
前記量子化を実行するステップが、
動的な固定小数点量子化をクリッピング法と組み合わせて実行するステップであって、前記第１量子化パラメータの整数部分の長さを、前記値分布内の最大絶対値及び最小絶対値に応じて決定するステップを含み、あるいは、
前記深層学習ネットワーク用最適化方法が、
量子化モデルを事後学習させて、学習済み量子化モデルを得るステップと、
前記学習済み量子化モデルを調整するステップとをさらに含み、
前記量子化モデルを事後学習させるステップが、
前記量子化モデル内の複数の量子化層の各々の重みの整数部分の長さを決定するステップと、
前記量子化モデルにより、複数の較正サンプルを推測して、前記量子化モデル内の前記量子化層の各々の活性化値／特徴値の整数部分の長さを決定するステップと、
前記量子化層の各々の小数部分の長さを、前記量子化層の各々のビット幅限界に応じて決定するステップとを含み、あるいは、
前記深層学習ネットワーク用最適化方法が、
前記パラメータタイプの重みの値または入力活性化値を量子化するステップと、
前記量子化による量子化値を、前記量子化モデル内の計算層に入力するステップと、
前記計算層から出力される、前記パラメータタイプの出力活性化値を量子化するステップと
をさらに含む、請求項１または２に記載の深層学習ネットワーク用最適化方法。
コードを記憶するメモリと、
前記メモリに結合されたプロセッサとを具えた、深層学習ネットワーク用のコンピュータ装置であって、前記プロセッサは、前記コードをロードし実行して、
事前学習済みモデルから値分布を得て、該値分布は、前記深層学習ネットワークにおける１つのパラメータタイプの複数の値の統計的分布であり、
前記値分布の範囲内に少なくとも１つの区切り点を決定し、前記範囲は前記少なくとも１つの区切り点によって複数のセクションに分割され、
前記複数のセクションのうちの第１セクション内の、前記パラメータタイプの前記値の一部分に対する量子化を、第１量子化パラメータを用いて実行し、前記複数のセクションのうちの第２セクション内の、前記パラメータタイプの前記値の他の部分に対する量子化を、第２量子化パラメータを用いて実行し、前記第１量子化パラメータが前記第２量子化パラメータと異なる、コンピュータ装置。
コードを記憶する非一時的コンピュータ可読記憶媒体であって、
プロセッサが前記コードをロードし実行して、
事前学習済みモデルから値分布を得て、該値分布は、前記深層学習ネットワークにおける１つのパラメータタイプの複数の値の統計的分布であり、
前記値分布の範囲内に少なくとも１つの区切り点を決定し、前記範囲は前記少なくとも１つの区切り点によって複数のセクションに分割され、
前記複数のセクションのうちの第１セクション内の、前記パラメータタイプの前記値の一部分に対する量子化を、第１量子化パラメータを用いて実行し、前記複数のセクションのうちの第２セクション内の、前記パラメータタイプの前記値の他の部分に対する量子化を、第２量子化パラメータを用いて実行し、前記第１量子化パラメータが前記第２量子化パラメータと異なる、非一時的コンピュータ可読記憶媒体。