JP7322620B2

JP7322620B2 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: JP7322620B2
Application number: JP2019167657A
Authority: JP
Inventors: 靖文坂井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-09-13
Filing date: 2019-09-13
Publication date: 2023-08-08
Anticipated expiration: 2039-09-13
Also published as: US20210081785A1; JP2021043906A; CN112508166A; EP3796233A1

Description

本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。

ニューラルネットワークで使用する変数を量子化して演算することで、浮動小数点数を使用して演算する場合に比べて演算量が削減され、メモリの使用量が削減される。例えば、事前学習により生成された浮動小数点の変数のチャネル別の統計部分に基づいて、変数の固定小数点表現をチャネル別に決定する手法が提案されている（例えば、特許文献１参照）。また、ニューラルネットワークの演算に使用する固定小数点の重みのアップデート値を累積し、累積値が臨界値以上の場合、累積アップデート値を使用して重みをアップデートする手法が提案されている（例えば、特許文献２参照）。

ニューラルネットワークの畳み込み演算後のプーリング処理による処理結果を積算して平均値と標準偏差とを算出し、算出した平均値と標準偏差とを用いて次の層の演算で、プーリング処理の結果を正規化処理する手法が提案されている（例えば、特許文献３参照）。

特開２０１９－３２８３３号公報特開２０１９－７９５３５号公報特開２０１７－１５６９４１号公報

ニューラルネットワークで使用する変数を量子化する場合、演算量およびメモリの使用量が削減され、計算時間が短縮されるが、ニューラルネットワークの計算の精度が低下する。計算の精度が低下した場合、ニューラルネットワークの学習の精度は低下し、例えば、学習後のニューラルネットワークを用いた推論処理において認識率が劣化するおそれがある。

１つの側面では、本発明は、量子化した変数を使用してニューラルネットワークの計算を実行する場合に、認識率の劣化を低減することを目的とする。

一つの観点によれば、情報処理装置は、プロセッサを有する情報処理装置であって、前記プロセッサは、ニューラルネットワークで使用する複数種の変数の少なくともいずれかの変数を固定小数点数で表した場合の最上位ビットの分布に基づいて、前記分布の最上位ビット側から量子化後の複数のビット範囲を決定し、前記複数種の変数を含み、前記複数種の変数の少なくともいずれかのビット範囲が異なる複数の変数グループの各々を使用して前記ニューラルネットワークの認識率を算出し、算出された複数の前記認識率のうち最大の認識率の前記変数グループを前記ニューラルネットワークの計算に使用することを決定する。

１つの側面では、本発明は、量子化した変数を使用してニューラルネットワークの計算を実行する場合に、認識率の劣化を低減することができる。

一実施形態における情報処理装置の一例を示すブロック図である。ニューラルネットワークの概要を示す説明図である。固定小数点による数値表現の一例を示す説明図である。図１のビット範囲決定部の動作の一例を示す説明図である。図１の情報処理装置によるニューラルネットワークの学習の概要を示す説明図である。図１の情報処理装置によるニューラルネットワークの学習の一例を示すフロー図である。ニューラルネットワークの学習を実行した場合の認識率の推移の一例を示す説明図である。別の実施形態における情報処理装置の一例を示すブロック図である。図８の統計情報取得部とビット範囲決定部との動作の一例を示す説明図である。図８の情報処理装置によるニューラルネットワークの学習の概要を示す説明図である。図８の情報処理装置によるニューラルネットワークの学習の一例を示すフロー図である。別の実施形態における情報処理装置の一例を示すブロック図である。図１２の量子化誤差算出部により量子化誤差を算出する一例を示す説明図である。

以下、図面を用いて実施形態を説明する。

図１は、一実施形態における情報処理装置の一例を示す。図１に示す情報処理装置１００は、例えば、ニューラルネットワークを用いた画像処理等の学習または推論に使用される。

情報処理装置１００は、通信バス４０で相互に接続されたＣＰＵ（Central Processing Unit）１０、メモリ２０およびアクセラレータ３０を有する。なお、情報処理装置１００は、ＣＰＵ１０の代わりに他のプロセッサを有してもよい。また、情報処理装置１００は、図示した以外の要素を含んでもよく、さらに、情報処理装置１００は、アクセラレータ３０を持たずに、アクセラレータ３０による計算処理をＣＰＵ１０により実行してもよい。

ＣＰＵ１０は、ビット範囲決定部１２、認識率算出部１４および変数決定部１６を有する。また、ＣＰＵ１０は、図示しない演算器を有する。図１では、ビット範囲決定部１２、認識率算出部１４および変数決定部１６は、ＣＰＵ１０がメモリ２０に保持された情報処理プログラムを実行することで実現される。

ビット範囲決定部１２、認識率算出部１４および変数決定部１６の少なくともいずれかは、ハードウェアにより実現されてもよい。この場合、ビット範囲決定部１２、認識率算出部１４および変数決定部１６は、ＣＰＵ１０内ではなく、図示しないＦＰＧＡ（Field-Programmable Gate Array）またはＡＳＩＣ（Application Specific Integrated Circuit）等に含まれてもよい。

ビット範囲決定部１２は、ニューラルネットワークで使用する複数種の変数の少なくともいずれかについて、量子化した場合の複数のビット範囲を決定する。例えば、複数種の変数は、重み、活性および勾配を含む。

認識率算出部１４は、上記複数種の変数を含み、変数のビット範囲が異なる複数の変数グループの各々を使用して、アクセラレータ３０にニューラルネットワークの学習を実行させ、ニューラルネットワークの認識率をそれぞれ算出する。ここで、複数の変数グループは、複数のビット範囲が決定された決定対象の変数について、複数のビット範囲のいずれかをそれぞれ含む。すなわち、複数の変数グループにそれぞれ含まれる決定対象の変数の少なくともいずれかは、ビット範囲が互いに異なる。

変数決定部１６は、認識率算出部１４が算出した複数の認識率のうち最大の認識率の変数グループをその後のニューラルネットワークの学習に使用することを決定する。ビット範囲決定部１２、認識率算出部１４および変数決定部１６の動作の例は、後述する。

メモリ２０は、ＯＳ（Operating System）、アプリケーションプログラムおよび情報処理プログラム等の各種プログラムと、ニューラルネットワークの処理で使用するデータおよび変数等とを記憶する。また、ビット範囲決定部１２、認識率算出部１４および変数決定部１６が、ＣＰＵ１０により実行される情報処理プログラムにより実現される場合、メモリ２０は、情報処理プログラムを記憶する。

アクセラレータ３０は、例えば、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）またはディープラーニング用の専用のプロセッサ等であり、ニューラルネットワークの計算を実行可能である。例えば、アクセラレータ３０は、図示しない多数の固定小数点演算器を有し、浮動小数点演算器を持たなくてもよい。なお、アクセラレータ３０は、図示しない多数の固定小数点演算器と多数の浮動小数点演算器とを有してもよい。

図２は、ニューラルネットワークの概要を示す。図２に示すニューラルネットワークは、入力層と出力層との間に複数の隠れ層を含むディープニューラルネットワークである。例えば、隠れ層は、畳み込み層、プーリング層または全結合層等である。各層に示す丸印は、所定の計算をそれぞれ実行するノードを示す。

情報処理装置１００は、例えば、ミニバッチに含まれる複数の学習データ（入力データ）の各々を入力層に入力し、畳み込み層、プーリング層等の計算を順次実行することで、演算により得られる情報を入力側から出力側に順次伝える順伝播処理を実行する。ここで、ミニバッチは、学習に使用するデータセット（バッチ）を複数に分割したものであり、所定数の入力データ（画像データ等）を含む。例えば、畳み込み層では、前の層からの出力データ（中間データ）である活性と、学習データとして予め準備された重みとが畳み込み演算され、演算により得られた出力データである活性が次の層の入力データとして出力される。

ミニバッチによる順伝播処理の実行後、出力層から出力される出力データと正解データとの差分（例えば、誤差の二乗和）を小さくするために勾配を算出する逆伝播処理が実行される。そして、逆伝播処理の実行に基づいて重み等の変数を更新する更新処理が実行される。例えば、逆伝播処理の計算に使用される重みの更新幅を決定するアルゴリズムとして、勾配降下法（gradient descent）が使用される。例えば、変数が更新された後、判定用のデータを使用してニューラルネットワークを動作させることで、認識率（正解率）が算出される。

以下では、ニューラルネットワークの計算に使用される重み、活性および勾配を、変数とも称する。複数のミニバッチの各々において、順伝播処理、逆伝播処理および変数の更新処理を実行することで、認識率が徐々に上がっていき、ディープニューラルネットワークが最適化される。

図３は、固定小数点による数値表現の一例を示す。図３において、符号Ｓは符号ビットを示し、黒丸は小数点位置を示す。図３の左欄に示した＜ａ，ｂ＞は、ａが固定小数点数のビット数を示し、ｂが小数部のビット数（すなわち、小数点位置）を示す。

＜８，３＞は、固定小数点数が８ビットであり、小数部が下位の３ビットであり、整数部が符号ビットＳを除く上位の４ビットであることを示す。＜８，４＞は、固定小数点数が８ビットであり、小数部が下位の４ビットであり、整数部が符号ビットＳを除く上位の３ビットであることを示す。

＜１６，１０＞は、固定小数点数が１６ビットであり、小数部が下位の１０ビットであり、整数部が符号ビットＳを除く上位の５ビットであることを示す。＜１６，１２＞は、固定小数点数が１６ビットであり、小数部が下位の１２ビットであり、整数部が符号ビットＳを除く上位の３ビットであることを示す。

図４は、図１のビット範囲決定部１２の動作の一例を示す。図４（ａ）は、図２に示したニューラルネットワークの複数のノードに入出力される変数（重み、活性または勾配）のいずれかのビット位置（有効なビットの範囲）を示す。図４（ａ）では、変数は正値であり、符号ビットを除いて示される。固定小数点数データ（正値）において、最上位ビットは、符号ビットＳ（図３）側に最初に"１"が現れるビットである。

なお、図４（ａ）は、図２に丸印で示した複数のノードが入出力する変数（重み、活性または勾配）のいずれかでもよく、ノードの１つが入出力する変数（重み、活性または勾配）のいずれかでもよい。図４の左側は上位ビット側を示し、図４の右側は下位ビット側を示す。このため、最上位ビットが左側にある変数ほど値が大きい。

あるノードから出力される中間データ（活性、勾配、または学習により最適化された重み）は、例えば、固定小数点演算器による演算結果であり、ノードによる演算の実行毎に固定小数点演算器のアキュムレータ（例えば、４０ビット）に格納される。なお、初期の重みは、所定のビット数（８ビットまたは１６ビット等）を有するとする。

初期の重みまたは中間データが浮動小数点数データである場合、浮動小数点数データは、４０ビット以下の固定小数点数データに変換され、図４（ａ）に示す状態になる。固定小数点数データへの変換は、ＣＰＵ１０により実行されてもよく、アクセラレータ３０により実行されてもよい。

図４（ｂ）は、ビット範囲決定部１２により決定されたビット範囲の例を示す。例えば、ビット範囲決定部１２は、値が大きい変数の最上位ビット側から複数のビット範囲（ビット範囲１、ビット範囲２、ビット範囲３）を決定する。例えば、各ビット範囲は８ビットであるが、６ビット、７ビットまたは１０ビット等、他のビット数でもよい。

さらに、ビット範囲決定部１２は、変数の最上位ビットの分布に基づいて、分布の最上位ビット側からビット範囲１－ビット範囲３を決定してもよい。この際、ビット範囲決定部１２は、変数の最上位ビットの分布に基づいて、分布の有効範囲内に含まれる最上位ビット側からビット範囲１－ビット範囲３を決定してもよい。

なお、図４（ｂ）では、ビット範囲決定部１２は、３つのビット範囲１－ビット範囲３を決定するが、決定するビット範囲の数は、２以上であればよい。また、ビット範囲１－ビット範囲３は、１ビットずつずらされているが、ビット範囲のずらし量は、１ビットに限定されない。

例えば、分布の有効範囲は、変数の総数に対する所定の比率の変数を、値が大きい順に分布から除外することで設定される。変数の最上位ビットの分布に基づいて、複数のビット範囲を決定することで、最上位ビットの分布を使用しない場合に比べて、量子化前の元の変数（例えば、浮動小数点型）との量子化誤差を小さくすることができる。これにより、ニューラルネットワークの学習により得られる認識率の劣化を低減することができる。

最上位ビットの分布の有効範囲内において、分布の最上位ビット側から複数のビット範囲を決定することで、分布において変数の出現頻度の高い領域を使用して複数のビット範囲を決定することが可能になる。これにより、ニューラルネットワークの計算において、量子化した変数を使用する場合と、量子化前の元の変数を使用する場合との誤差を小さくすることができ、精度の低下を抑えて学習を実行することができる。この結果、認識率の劣化を低減することができる。

なお、情報処理装置１００は、変数をビット範囲に量子化する場合、ビット範囲の最上位ビットより上位側のビットをビット範囲に取り込む飽和処理と、ビット範囲の最下位ビットより下位側のビットをビット範囲に取り込む丸め処理とを実行する。

ビット範囲決定部１２が、変数の最上位ビットの分布に基づいてビット範囲を決定する場合、情報処理装置１００は、変数の最上位ビットの分布を取得する統計情報取得部を有してもよい。この場合、統計情報取得部は、複数のビット範囲の決定対象の変数のみの最上位ビットの分布を取得してもよい。

また、ビット範囲決定部１２は、変数を複数のビット範囲に量子化する場合の量子化誤差が小さい順に複数のビット範囲を決定してもよい。この場合、情報処理装置１００は、変数を複数のビット範囲に量子化する場合の量子化誤差を算出する量子化誤差算出部を有してもよい。量子化誤差算出部は、複数のビット範囲の決定対象の変数についてのみ、量子化誤差を算出してもよい。

図５は、図１の情報処理装置１００によるニューラルネットワークの学習の概要を示す。図５では、ビット範囲決定部１２は、ニューラルネットワークで使用する重み、活性および勾配のそれぞれについて、予め取得された固定小数点数型の変数の最上位ビットの分布に基づいて、複数のビット範囲を決定する。

図５に示す例では、重みはビット範囲１とビット範囲２とに決定され、活性はビット範囲１とビット範囲２とに決定され、勾配はビット範囲１とビット範囲２とビット範囲３とに決定される。なお、ビット範囲１は、重み、活性および勾配で互いに同じでもよく、相違してもよい。同様に、ビット範囲２は、重み、活性および勾配で互いに同じでもよく、相違してもよい。

認識率算出部１４は、ビット範囲決定部１２が決定した変数毎のビット範囲を組み合せて複数の変数グループを生成する。図５に示す変数グループの重み、活性、勾配の数字は、ビット範囲を示すビット範囲番号である。なお、変数グループの生成は、ＣＰＵ１０の他の機能部により実行されてもよい。そして、認識率算出部１４は、ＣＰＵ１０による制御に基づいてアクセラレータ３０が複数の変数グループ毎に、変数グループで選択されるビット範囲の変数を使用して実行する学習に基づいて認識率を算出する。なお、認識率の算出は、評価用のデータを使用して算出されてもよい。変数決定部１６は、認識率算出部１４が算出した複数の認識率のうち最大の認識率の変数グループをその後の学習に使用する変数グループに決定する。

なお、図５は、ビット範囲決定部１２が、ニューラルネットワークに含まれる複数の層でそれぞれ使用する複数の重み（または活性、勾配）の全体の分布に基づいてビット範囲を決定する例を示す。しかしながら、ビット範囲決定部１２は、所定数の層で使用する複数の重み（または活性、勾配）の分布に基づいてビット範囲を決定してもよい。例えば、重みの分布が２つある場合、２つの分布毎に複数のビット範囲が決定される。この場合、変数グループの数は、図５の２倍の２４個になる。変数グループの数は、分布の数が増える毎に増加する。

図６は、図１の情報処理装置１００によるニューラルネットワークの学習の一例を示す。図６に示す処理は、ＣＰＵ１０が情報処理プログラムを実行することで実現される。すなわち、図６は、情報処理装置１００の制御方法および情報処理装置１００の制御プログラムの一例を示す。図６では、グループ決定期間の動作（ステップＳ１２－Ｓ１８）と、学習実行期間の動作（ステップＳ２０、Ｓ２２）とを含む学習サイクルが、所定のデータセットの学習が終了するまで（所定の認識率が得られるまで）繰り返し実行される。

学習実行期間は、グループ決定期間に決定した変数グループを使用してニューラルネットワークの計算を実行する計算実行期間の一例である。グループ決定期間の動作と学習実行期間の動作とを実行する学習サイクルは、計算サイクルの一例であり、例えば、所定のエポック数に対応する。ここで、１エポックは、ユーザにより入力されるデータセット分に対応する１回の学習を示す。

まず、ステップＳ１０において、情報処理装置１００は、変数毎に複数のビット範囲を決定する。ステップＳ１０の処理は、ビット範囲決定部１２により実行される。次に、ステップＳ１２において、情報処理装置１００は、変数毎に複数のビット範囲のいずれかを含む１つの変数グループを選択する。ステップＳ１２の処理は、認識率算出部１４またはＣＰＵ１０の他の機能部により実行される。

次に、ステップＳ１４において、情報処理装置１００は、選択した変数グループに対応するビット範囲に合わせて量子化された各変数を使用してニューラルネットワークの学習を実行し、認識率を算出する。ステップＳ１２の処理は、認識率算出部１４により実行される。

次に、ステップＳ１６において、情報処理装置１００は、全ての変数グループの変数を使用してニューラルネットワークの学習が終了したか否かを判定する。全ての変数グループの変数を使用した学習が終了した場合、処理はステップＳ１８に移行される。学習に使用していない変数グループがある場合、学習に使用していない変数グループの変数を使用した学習を実行するために、処理はステップＳ１２に戻される。

なお、情報処理装置１００は、複数の変数グループの中で、認識率が同程度のいくつかの変数グループがあることを予め認識している場合、認識率が同程度の変数グループのいずれかを代表として使用して学習を実行してもよい。この場合、学習の回数を削減することができ、学習時間を削減することができる。

また、図５で説明したように、所定数の層で使用する複数の重み（または活性、勾配）の分布に基づいてビット範囲が決定される場合、変数グループの数は、分布の数が増えるほど増加する。したがって、分布の数が増えるほど、複数の変数グループの学習に掛かる学習時間が増加する。このため、分布の数が予め設定された数より多くなる場合、情報処理装置１００は、学習に使用する変数グループの数を制限してもよい。変数グループの数の制限は、分布をランダムに選択することで行われてもよく、過去の学習により得られた認識率に基づいて、認識率が他より低くなると予想される変数グループを学習から除くことで行われてもよい。

次に、ステップＳ１８において、情報処理装置１００は、ステップＳ１４で算出された複数の認識率のうち、認識率が最大の変数グループをその後の学習に使用することを決定する。ステップＳ１８の処理は、変数決定部１６により実行される。次に、ステップＳ２０において、情報処理装置１００は、ステップＳ１８で決定した変数グループの変数を使用して、学習実行期間での学習を実行する。

次に、ステップＳ２２において、情報処理装置１００は、例えば、ユーザにより入力されたデータセットに対応する学習（１エポック）を所定の回数実行した場合、図６に示す処理を終了する。情報処理装置１００は、学習を所定の回数実行していない場合、処理をステップＳ１２に戻し、次の学習サイクル（グループ決定期間＋学習実行期間）の動作を実行する。

この実施形態では、学習サイクルの前半に設定されるグループ決定期間において、複数の変数グループのうち最大の認識率が得られる変数グループの使用を決定し、決定した変数グループを学習サイクルの後半に設定される学習実行期間での学習に使用する。これにより、１つの変数グループに固定して学習サイクルを繰り返し実行する場合に比べて、認識率を向上する可能性を高くすることができる。また、複数の学習サイクルの各々において、学習実行期間の前に認識率が最大の変数グループを決定することで、各学習実行期間において、最大でない認識率の変数グループを使用する場合に比べて、認識率を向上する可能性を高くすることができる。

図７は、ニューラルネットワークの学習を実行した場合の認識率の推移の一例を示す。例えば、図７は、データセットの一種であるＩｍａｇｅＮｅｔを使用して、学習済みのネットワークの一種であるｒｅｓｎｅｔ－５０の学習を実行する場合の例を示し、横軸は学習回数を示し、縦軸は認識率を示す。

図５で説明したように、情報処理装置１００は、各学習サイクルのグループ決定期間に、複数種の変数のビット範囲の組み合せが異なる複数の変数グループを使用して学習を実行し、最大の認識率の変数グループを使用して、学習実行期間での学習を実行する。これにより、変数に浮動小数点型を使用してニューラルネットワークの学習を実行する場合の認識率の推移（実線）に近い認識率の推移（太い実線）を得ることができ、認識率が劣化する可能性を低減することができる。さらに、変数に固定小数点型を使用する場合にも、学習を続けることで、認識率を徐々に向上することができる。

また、浮動小数点型のデータを量子化により固定小数点型に変換して学習を実行することで、計算時間が短縮され、メモリの使用量が削減される。このため、複数種の変数のビット範囲の組み合せが異なる複数の変数グループ（固定小数点型）を使用して学習を実行することで、認識率の劣化を低減しつつ計算時間を短縮することができる。

これに対して、比較例（破線）に示すように、固定小数点型の変数毎に１つのビット範囲を使用してニューラルネットワークの学習を実行する場合（すなわち、１つの変数グループを使用）、学習を繰り返しても、認識率が向上しない場合がある。なお、１つの変数グループを使用してニューラルネットワークの学習を実行する場合、学習サイクル（例えば、所定のエポック数の学習）は存在するが、グループ決定期間および学習実行期間は存在しない。

以上、この実施形態では、情報処理装置１００は、ニューラルネットワークの学習に使用する変数毎に、複数のビット範囲を決定し、変数毎に複数のビット範囲のいずれかを含む複数の変数グループを使用して、ニューラルネットワークの学習を実行する。そして、情報処理装置１００は、複数の変数グループをそれぞれ使用して実行したニューラルネットワークの学習により得られた複数の認識率のうち、最大の認識率の変数グループを使用して後続の学習を実行する。認識率が他より高い変数グループを使用してニューラルネットワークの学習を実行することで、固定小数点型の変数毎に１つのビット範囲を使用して学習を実行する場合に比べて、認識率の劣化を低減することができる。また、変数に固定小数点型を使用する場合にも、学習を続けることで、認識率を徐々に向上することができる。

情報処理装置１００は、学習サイクルの前半に設定されるグループ決定期間の学習において、複数の変数グループのうち最大の認識率が得られる変数グループの使用を決定する。そして、情報処理装置１００は、決定した変数グループを学習サイクルの後半に設定される学習実行期間での学習に使用する。これにより、１つの変数グループに固定して学習サイクルでの学習を実行する場合に比べて、認識率を向上する可能性を高くすることができる。

また、複数の学習サイクルの各々において、学習実行期間の前に認識率が最大の変数グループを決定することで、各学習実行期間において、最大でない認識率の変数グループを使用する場合に比べて、認識率を向上する可能性を高くすることができる。このように、、固定小数点型の変数を含む複数の変数グループを使用して学習を実行することで、認識率の劣化を低減しつつ計算時間を短縮することができる。

固定小数点数型の変数の最上位ビットの分布に基づいて、分布の最上位ビット側から複数のビット範囲（量子化位置）を決定することで、最上位ビットの分布を使用しない場合に比べて、量子化前の元の変数との量子化誤差を小さくすることができる。これにより、ニューラルネットワークの学習により得られる認識率の劣化を低減することができる。

最上位ビットの分布の有効範囲内において、分布の最上位ビット側から複数のビット範囲を決定することで、分布において変数の出現頻度の高い領域を使用して複数のビット範囲を決定することが可能になる。これにより、ニューラルネットワークの計算において、量子化した変数を使用した場合と、量子化前の元の変数を使用した場合との誤差を小さくすることができ、精度の低下を抑えて学習を実行することができる。この結果、認識率の劣化を低減することができる。

図８は、別の実施形態における情報処理装置の一例を示す。図１と同様の要素については同じ符号を付し、詳細な説明は省略する。また、図２から図７と同様の内容については、詳細な説明は省略する。図８に示す情報処理装置１００Ａは、例えば、ニューラルネットワークを用いた画像処理等の学習または推論に使用され、あるいは、学習および推論の両方に使用される。

例えば、情報処理装置１００Ａは、サーバであり、通信バス４０で相互に接続されたＣＰＵ１０Ａ、メモリ２０、アクセラレータ３０、補助記憶装置５０、通信インタフェース６０および入出力インタフェース７０を有する。なお、情報処理装置１００Ａは、図示した以外の要素を含んでもよい。

ＣＰＵ１０Ａは、図１に示すＣＰＵ１０の構成に加えて、統計情報取得部１１を有する。統計情報取得部１１は、図２に示したニューラルネットワークの計算に使用する変数（重み、活性、勾配）毎に統計情報を取得する。ビット範囲決定部１２は、統計情報取得部１１が取得した統計情報に基づいて、変数毎に複数のビット範囲を決定する。

統計情報取得部１１、ビット範囲決定部１２、認識率算出部１４および変数決定部１６は、ＣＰＵ１０Ａがメモリ２０に保持された情報処理プログラムを実行することで実現される。なお、統計情報取得部１１、ビット範囲決定部１２、認識率算出部１４および変数決定部１６の少なくともいずれかは、ハードウェアにより実現されてもよい。

補助記憶装置５０は、ＣＰＵ１０Ａが実行するＯＳ（Operating System）および情報処理プログラム等の各種プログラムと、ニューラルネットワークの計算で使用するデータ、重み等の各種変数等とを記憶する。例えば、補助記憶装置５０が記憶するプログラムは、メモリ２０に転送され、ＣＰＵ１０Ａにより実行される。また、補助記憶装置５０が記憶するニューラルネットワークの計算で使用するデータおよび各種変数は、ニューラルネットワークの学習時に補助記憶装置５０からメモリ２０に転送される。

通信インタフェース６０は、例えば、ネットワークを介して他の情報処理装置等と通信する機能を有する。これにより、ニューラルネットワークの計算を複数の情報処理装置を使用して並列に実行することが可能になる。入出力インタフェース７０は、情報処理装置１００Ａに接続される記録媒体８０に対してデータを入出力する機能を有する。

例えば、記録媒体８０は、ＣＤ（Compact Disc：登録商標）、ＤＶＤ（Digital Versatile Disc：登録商標）またはＵＳＢ（Universal Serial Bus）メモリ等であり、情報処理プログラムが記録されてもよい。記録媒体８０に記録された情報処理プログラムは、入出力インタフェース７０を介して補助記憶装置５０に転送された後、メモリ２０上に展開され、ＣＰＵ１０Ａにより実行される。

図９は、図８の統計情報取得部１１とビット範囲決定部１２との動作の一例を示す。図９の左側は上位ビット側を示し、図９の右側は下位ビット側を示す。図９の左右両側の破線は、固定小数点演算器による演算結果が格納されるアキュムレータ（例えば、４０ビット）のビット範囲を示す。図９（ａ）は、図４（ａ）と同様に、ニューラルネットワークの複数のノードに入出力される変数（重み、活性または勾配）のいずれかを示す。

図９（ｂ）は、統計情報取得部１１により取得される統計情報の一例として、変数の最上位ビットの分布を示す。例えば、変数の分布は、ニューラルネットワークで使用する変数（重み、活性または勾配）毎に取得される。図９において、符号ａ（ａ１－ａ１１）は、ビット位置（例えば、変数の最上位ビットの位置）を示す。符号ｂ（ｂ１－ｂ１１）は、各ビット位置における変数の最上位ビットのビン数を示す。

ビット範囲決定部１２は、変数の最上位ビットの分布に基づいて、量子化範囲である複数のビット範囲を決定する（図９（ｃ））。ビット範囲決定部１２は、統計情報取得部１１により取得した変数毎の最大値の分布を使用することで、分布の最上位ビット側から複数のビット範囲（量子化位置）を容易に決定することができる。

この例では、小数点は、符号ａ６で示すビット位置と符号ａ７で示すビット位置との間に設定される。ビット範囲１の量子化範囲は＜７，１＞に設定され、ビット範囲２の量子化範囲は＜７，２＞に設定され、ビット範囲３の量子化範囲は＜７，３＞に設定される。なお、ビット範囲決定部１２は、変数の総数に対する所定の比率の変数を、値が大きい順に分布から除外することで設定された有効範囲内に含まれる最上位ビット側からビット範囲を決定してもよい。

例えば、分布内の最上位ビットがビット範囲の最上位ビットと一致するビット範囲１では、ＣＰＵ１０Ａは、ビット範囲１の最下位ビットより下位側のビットの丸め処理を実行し、変数を量子化する。一方、ビット範囲が分布の内側に含まれるビット範囲２およびビット範囲３では、ＣＰＵ１０Ａは、ビット範囲の最上位ビットより上位側のビットの飽和処理と、ビット範囲の最下位ビットより下位側のビットの丸め処理を実行し、変数を量子化する。

図１０は、図８の情報処理装置１００Ａによるニューラルネットワークの学習の概要を示す。図５と同様の内容については、詳細な説明は省略する。図１０では、説明を分かりやすくするため、ニューラルネットワークが２つの変数１、変数２（固定小数点数データ）を使用して学習を実行し、変数１、変数２毎に２つのビット範囲１、ビット範囲２が決定されるとする。

まず、図１０（ａ）において、統計情報取得部１１は、変数１、変数２のそれぞれの最上位ビットの分布を取得する。次に、図１０（ｂ）において、ビット範囲決定部１２は、変数１、変数２毎に、分布の最上位ビット側からビット範囲１、ビット範囲２を決定する。例えば、ビット範囲決定部１２は、変数２については、予め設定された分布の有効範囲内において、分布の最上位ビット側からビット範囲１、ビット範囲２を決定する。

次に、図１０（ｃ）において、認識率算出部１４は、ビット範囲決定部１２が決定した変数１、変数２毎のビット範囲１、ビット範囲２を組み合せて複数の変数グループＧｒ（Ｇｒ１－Ｇｒ４）を生成する。そして、認識率算出部１４は、変数グループＧｒ毎に、変数グループＧｒの変数を使用して実行された学習に基づいて認識率を算出する。図５と同様に、認識率は数値が小さいほど高い。

次に、図１０（ｄ）において、変数決定部１６は、認識率算出部１４が算出した複数の認識率のうち最大の認識率（認識率１）の変数グループＧｒ３をその後の学習に使用する変数グループに決定する。

図１１は、図８の情報処理装置１００Ａによるニューラルネットワークの学習の一例を示す。図６と同様の処理については、詳細な説明は省略する。図１１は、図６のステップＳ１０の前にステップＳ８が追加されることを除き、図６と同様である。

ステップＳ８において、情報処理装置１００Ａは、ニューラルネットワークで使用する変数の種類（例えば、重み、活性および勾配）毎に、最上位ビットの分布を取得する。ステップＳ８の処理は、統計情報取得部１１により実行される。そして、ステップＳ１０において、情報処理装置１００は、ステップＳ８で取得された変数の種類毎の最上位ビットの分布に基づいて、変数毎に複数のビット範囲を決定する。

なお、ニューラルネットワークの学習を実行した場合の認識率の推移の例は、図７と同様であり、本実施形態においても、変数に浮動小数点型を使用してニューラルネットワークの学習を実行する場合の認識率の推移に近い認識率の推移を得ることができる。そして、変数に固定小数点型を使用する場合にも、学習を続けることで、認識率を徐々に向上することができる。

以上、図８から図１１に示す実施形態においても、図１から図７に示す実施形態と同様の効果を得ることができる。例えば、認識率が他より高い変数グループを使用して学習を実行することで、量子化した変数を使用してニューラルネットワークの学習を実行する場合に、認識率の劣化を低減することができる。

さらに、図８から図１１に示す実施形態では、ビット範囲決定部１２は、統計情報取得部１１により取得した変数毎の最大値の分布を使用することで、分布の最上位ビット側から複数のビット範囲（量子化位置）を容易に決定することができる。

図１２は、別の実施形態における情報処理装置の一例を示す。図１および図８と同様の要素については同じ符号を付し、詳細な説明は省略する。また、図２から図７および図９から図１１と同様の内容については、詳細な説明は省略する。図１２に示す情報処理装置１００Ｂは、例えば、ニューラルネットワークを用いた画像処理等の学習または推論に使用され、あるいは、学習および推論の両方に使用される。

情報処理装置１００Ｂは、図８のＣＰＵ１０Ａの代わりにＣＰＵ１０Ｂを有する。ＣＰＵ１０Ｂは、ＣＰＵ１０Ａに量子化誤差算出部１３が追加されていることを除き、図８の情報処理装置１００Ａと同様である。すなわち、ＣＰＵ１０Ｂは、統計情報取得部１１、ビット範囲決定部１２、認識率算出部１４、変数決定部１６および量子化誤差算出部１３を有する。統計情報取得部１１、ビット範囲決定部１２、認識率算出部１４、変数決定部１６および量子化誤差算出部１３は、ＣＰＵ１０Ｂがメモリ２０に保持された情報処理プログラムを実行することで実現される。なお、統計情報取得部１１、ビット範囲決定部１２、認識率算出部１４、変数決定部１６および量子化誤差算出部１３の少なくともいずれかは、ハードウェアにより実現されてもよい。

量子化誤差算出部１３は、統計情報取得部１１が取得した変数毎の最上位ビットの分布に基づいて、ニューラルネットワークの学習で使用する変数毎に、複数通りのビット範囲で量子化する場合の量子化誤差をそれぞれ算出する。例えば、複数通りのビット範囲の数は、ビット範囲決定部１２が決定する複数のビット範囲の数より多いことが好ましい。

ビット範囲決定部１２は、ニューラルネットワークの学習で使用する変数毎に、量子化誤差算出部１３が算出した量子化誤差が小さい順に、統計情報取得部１１が取得した最上位ビットの分布の最上位ビット側から複数のビット範囲を決定する。このため、ビット範囲決定部１２は、複数のビット範囲を、分布の最上位ビット側から順に決定するとは限らない。

図１３は、図１２の量子化誤差算出部１３により量子化誤差を算出する一例を示す。図１３の左側は上位ビット側を示し、図１３の右側は下位ビット側を示す。図４および図９と同様の内容については、詳細な説明は省略する。

図１３（ａ）は、図４（ａ）および図９（ａ）と同様に、ニューラルネットワークの複数のノードに入出力される変数（重み、活性または勾配）のいずれかを示す。図１３（ｂ）は、図９（ｂ）と同様に、統計情報取得部１１により取得される変数のいずれかの最上位ビットの分布を示す。

量子化誤差算出部１３は、変数の最上位ビットの分布に基づいて、変数のビット範囲を所定の量子化範囲にする場合の量子化誤差を算出する（図１３（ｃ））。この例では、量子化範囲が＜７，３＞に設定される例を示すが、量子化誤差算出部１３は、少なくとも図９に示す複数の量子化範囲のそれぞれについて、量子化誤差を算出する。

例えば、量子化誤差は、量子化範囲の最上位ビットを超えるビットを飽和処理し、量子化範囲の最下位ビットより下のビットを丸め処理することで算出される。図１３（ｃ）に示す例では、量子化誤差は式（１）により算出される。
量子化誤差＝（ａ１・ｂ１＋ａ２・ｂ２）－（ａ３・ｂ１＋ａ３・ｂ２）＋（ａ１０・ｂ１０＋ａ１１・ｂ１１）－（ａ９・ｂ１０＋ａ９・ｂ１１） ‥（１）
式（１）において、"・"は、積を示し、第１項および第２項は、飽和誤差を示し、第３項および第４項は丸め誤差を示す。そして、例えば、算出された変数毎の量子化誤差の平均値が算出され、閾値と比較する量子化誤差に決定される。

なお、図１３（ｃ）では、量子化誤差の算出方法を分かりやすくするために、図１３（ｂ）の分布の絵を利用しているが、実際には、図１３（ａ）の各変数において、量子化範囲から外れるビットが飽和処理され、丸め処理される。また、図１３では、量子化誤差算出部１３は、飽和処理と丸め処理とを両方実行して量子化誤差を算出するが、飽和処理または丸め処理のいずれかを実行して量子化誤差を算出してもよい。

以上、この実施形態においても、上述した実施形態と同様に、認識率が他より高い変数グループを使用して学習を実行することで、量子化した変数を使用してニューラルネットワークの学習を実行する場合に、認識率の劣化を低減することができる。さらに、この実施形態では、量子化誤差算出部１３により量子化誤差を算出することで、ビット範囲決定部１２は、量子化誤差が小さい順に複数のビット範囲を決定することができる。したがって、ニューラルネットワークの計算において、量子化した変数（固定小数点型）を使用した場合と、量子化前の元の変数（浮動小数点型）を使用した場合との誤差を小さくすることができ、精度の低下を抑えて学習を実行することができる。この結果、ニューラルネットワークの学習による認識率の劣化をさらに低減することができる。

なお、上述した実施形態では、複数の変数グループを使用してグループ決定期間での学習を実行し、学習により得られた最大の認識率の変数グループを使用して学習実行期間での学習を実行する例を示した。しかしながら、グループ学習期間において、複数の変数グループを使用した学習時の損失関数（Train LossまたはTest Loss）に基づいて、学習実行期間での学習に使用する複数の変数グループを決定してもよい。

また、上述した実施形態では、変数毎に複数のビット範囲のいずれかを含む複数の変数グループを使用してグループ決定期間での学習を実行し、学習により得られた最大の認識率の変数グループを使用して学習実行期間での学習を実行する例を示した。しかしながら、変数毎に複数のビット範囲のいずれかを含む複数の変数グループを使用してニューラルネットワークの推論を実行し、推論により得られた最大の認識率の変数グループを使用して後続の推論を実行してもよい。

この場合、例えば、図６、図７および図１１の学習サイクルは推論サイクルに変更され、図６、図７および図１１の学習実行期間は推論実行期間に変更される。推論サイクルの長さは、推論システムが実行する推論の対象物に応じて任意の長さに設定される。また、図１、図５、図６、図７、図１０および図１１の"学習"は、"推論"に変更される。

これにより、ニューラルネットワークを用いた推論においても、複数の変数グループを使用したグループ決定期間での学習の実行により得られた最大の認識率の変数グループを使用して学習実行期間での学習を実行する場合と同様の効果を得ることができる。例えば、認識率が他より高い変数グループを使用して推論を実行することで、量子化した変数を使用してニューラルネットワークの推論を実行する場合に、浮動小数点型の変数を使用して推論を実行する場合に比べて、認識率の劣化を低減することができる。また、変数に固定小数点型を使用する場合にも、推論を続けることで、認識率を徐々に向上することができる。

なお、上述した実施形態では、ニューラルネットワークで使用する変数の種類毎に、複数のビット範囲を決定する例を示した。すなわち、例えば、ニューラルネットワークで使用する全ての重み（または活性または勾配）に共通の複数のビット範囲を決定する例を示した。しかしながら、例えば、ニューラルネットワークの所定数の層単位で、変数の種類毎に、複数のビット範囲を決定してもよい。すなわち、ある層で使用される重み（または活性または勾配）と、別の層で使用される重み（または活性または勾配）とのそれぞれについて、複数のビット範囲が決定されてもよい。

さらに、ある層で使用される重み（または活性または勾配）について、複数のビット範囲が決定され、別の層で使用される重み（または活性または勾配）について、１つのビット範囲が決定されてもよい。また、例えば、ニューラルネットワークで使用する重みと活性について、複数のビット範囲が決定され、ニューラルネットワークで使用する勾配について、１つのビット範囲が決定されてもよい。どの変数について複数のビット範囲を決定するかは、計算負荷と、過去の学習による認識率の向上効果とを考慮して決められる。

以上の図１から図１３に示す実施形態に関し、さらに以下の付記を開示する。
（付記１）
プロセッサを有する情報処理装置であって、
前記プロセッサは、
ニューラルネットワークで使用する複数種の変数の少なくともいずれかについて、量子化後の複数のビット範囲を決定し、
前記複数種の変数を含み、前記複数種の変数の少なくともいずれかのビット範囲が異なる複数の変数グループの各々を使用して前記ニューラルネットワークの認識率を算出し、
算出された複数の前記認識率のうち最大の認識率の前記変数グループを前記ニューラルネットワークの計算に使用することを決定する、情報処理装置。
（付記２）
前記プロセッサは、グループ決定期間と計算実行期間とを含む複数の計算サイクルに分けて、前記ニューラルネットワークの計算を実行し、
前記認識率を算出するステップおよび前記最大の認識率の前記変数グループを決定するステップは、前記グループ決定期間に動作し、
前記複数の計算サイクルの各々において、前記グループ決定期間に決定した前記変数グループを使用して前記計算実行期間の計算を実行する、付記１に記載の情報処理装置。
（付記３）
前記ビット範囲を決定するステップは、前記複数のビット範囲の決定対象の変数を固定小数点数で表した場合の最上位ビットの分布に基づいて、前記分布の最上位ビット側から前記複数のビット範囲を決定する、付記１または付記２に記載の情報処理装置。
（付記４）
前記ビット範囲を決定するステップは、前記最上位ビットの分布の有効範囲内において、前記分布の最上位ビット側から前記複数のビット範囲を決定する、付記３に記載の情報処理装置。
（付記５）
前記プロセッサは、前記複数のビット範囲の決定対象の前記変数について、複数通りのビット範囲で量子化する場合の量子化誤差をそれぞれ算出し、
前記ビット範囲を決定するステップは、算出された前記量子化誤差が小さい順に、前記分布の最上位ビット側から前記複数のビット範囲を決定する、付記３または付記４に記載の情報処理装置。
（付記６）
前記プロセッサは、前記ニューラルネットワークの計算により算出された前記複数種の変数のうち、前記複数のビット範囲の決定対象の前記変数の前記最上位ビットの分布を取得する、付記３ないし付記５のいずれか１項に記載の情報処理装置。
（付記７）
前記プロセッサは、決定された前記最大の認識率の前記変数グループを使用して、前記ニューラルネットワークの学習を実行する、付記１ないし付記６のいずれか１項に記載の情報処理装置。
（付記８）
前記複数種の変数は、重み、活性および勾配を含む、付記７に記載の情報処理装置。
（付記９）
前記プロセッサは、決定された前記最大の認識率の前記変数グループを使用して、前記ニューラルネットワークの推論を実行する、付記１ないし付記６のいずれか１項に記載の情報処理装置。
（付記１０）
ニューラルネットワークで使用する複数種の変数の少なくともいずれかについて、量子化後の複数のビット範囲を決定し、
前記複数種の変数を含み、前記複数種の変数の少なくともいずれかのビット範囲が異なる複数の変数グループの各々を使用して前記ニューラルネットワークの認識率を算出し、
算出された複数の前記認識率のうち最大の認識率の前記変数グループを前記ニューラルネットワークの計算に使用することを決定する、処理を情報処理装置が有するプロセッサに実行させる情報処理方法。
（付記１１）
ニューラルネットワークで使用する複数種の変数の少なくともいずれかについて、量子化後の複数のビット範囲を決定し、
前記複数種の変数を含み、前記複数種の変数の少なくともいずれかのビット範囲が異なる複数の変数グループの各々を使用して前記ニューラルネットワークの認識率を算出し、
算出した複数の前記認識率のうち最大の認識率の前記変数グループを前記ニューラルネットワークの計算に使用することを決定する、処理を情報処理装置が有するプロセッサに実行させる情報処理プログラム。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

１０、１０Ａ、１０ＢＣＰＵ
１１統計情報取得部
１２ビット範囲決定部
１３量子化誤差算出部
１４認識率算出部
１６変数決定部
２０メモリ
３０アクセラレータ
４０通信バス
５０補助記憶装置
６０通信インタフェース
７０入出力インタフェース
８０記録媒体
１００、１００Ａ情報処理装置

Claims

プロセッサを有する情報処理装置であって、
前記プロセッサは、
ニューラルネットワークで使用する複数種の変数の少なくともいずれかの変数を固定小数点数で表した場合の最上位ビットの分布に基づいて、前記分布の最上位ビット側から量子化後の複数のビット範囲を決定し、
前記複数種の変数を含み、前記複数種の変数の少なくともいずれかのビット範囲が異なる複数の変数グループの各々を使用して前記ニューラルネットワークの認識率を算出し、
算出された複数の前記認識率のうち最大の認識率の前記変数グループを前記ニューラルネットワークの計算に使用することを決定する、情報処理装置。
前記プロセッサは、グループ決定期間と計算実行期間とを含む複数の計算サイクルに分けて、前記ニューラルネットワークの計算を実行し、
前記認識率を算出するステップおよび前記最大の認識率の前記変数グループを決定するステップは、前記グループ決定期間に動作し、
前記複数の計算サイクルの各々において、前記グループ決定期間に決定した前記変数グループを使用して前記計算実行期間の計算を実行する、請求項１に記載の情報処理装置。
前記プロセッサは、前記複数のビット範囲の決定対象の前記変数について、複数通りのビット範囲で量子化する場合の量子化誤差をそれぞれ算出し、
前記ビット範囲を決定するステップは、算出された前記量子化誤差が小さい順に、前記分布の最上位ビット側から前記複数のビット範囲を決定する、請求項１または請求項２に記載の情報処理装置。
前記プロセッサは、決定された前記最大の認識率の前記変数グループを使用して、前記ニューラルネットワークの学習を実行する、請求項１ないし請求項３のいずれか１項に記載の情報処理装置。
前記プロセッサは、決定された前記最大の認識率の前記変数グループを使用して、前記ニューラルネットワークの推論を実行する、請求項１ないし請求項３のいずれか１項に記載の情報処理装置。
ニューラルネットワークで使用する複数種の変数の少なくともいずれかの変数を固定小数点数で表した場合の最上位ビットの分布に基づいて、前記分布の最上位ビット側から量子化後の複数のビット範囲を決定し、
前記複数種の変数を含み、前記複数種の変数の少なくともいずれかのビット範囲が異なる複数の変数グループの各々を使用して前記ニューラルネットワークの認識率を算出し、
算出した複数の前記認識率のうち最大の認識率の前記変数グループを前記ニューラルネットワークの計算に使用することを決定する、処理を情報処理装置が有するプロセッサに実行させる情報処理方法。
ニューラルネットワークで使用する複数種の変数の少なくともいずれかの変数を固定小数点数で表した場合の最上位ビットの分布に基づいて、前記分布の最上位ビット側から量量子化後の複数のビット範囲を決定し、
前記複数種の変数を含み、前記複数種の変数の少なくともいずれかのビット範囲が異なる複数の変数グループの各々を使用して前記ニューラルネットワークの認識率を算出し、
算出した複数の前記認識率のうち最大の認識率の前記変数グループを前記ニューラルネットワークの計算に使用することを決定する、処理を情報処理装置が有するプロセッサに実行させる情報処理プログラム。