JP7294017B2

JP7294017B2 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: JP7294017B2
Application number: JP2019167656A
Authority: JP
Inventors: 靖文坂井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-09-13
Filing date: 2019-09-13
Publication date: 2023-06-20
Anticipated expiration: 2039-09-13
Also published as: US20210081802A1; CN112508167A; JP2021043905A; EP3792748A1; US11809995B2

Description

本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。

画像等のパターン認識装置において、入力パターンの特徴を抽出した特徴ベクトルを量子化誤差が小さくなるように量子化し、量子化した特徴ベクトルを用いてパターンを認識することで、メモリ量を削減する手法が提案されている（例えば、特許文献１参照）。

学習型認識判断装置において、量子化範囲の個数が所定数になるまで量子化範囲を分割し、ネットワーク構造を入力データ分布に適合したものに変更して学習を実行することで、認識性能を向上する手法が提案されている（例えば、特許文献２参照）。

特開２００９－２１７５８３号公報特開２００１－１４２８６７号公報

ニューラルネットワークの計算を、浮動小数点数データを使用して実行する場合、固定小数点数データを使用する場合に比べて、メモリ量が増加し、計算時間が長くなるが、計算の精度は向上する。一方、ニューラルネットワークの計算を、固定小数点数データを使用して実行する場合、浮動小数点数データを使用する場合に比べて、メモリ量が削減され、計算時間が短くなるが、計算の精度は低下する。

これにより、例えば、ニューラルネットワークによる画像認識等において固定小数点数データを使用する場合、浮動小数点数データを使用する場合に比べて認識率が低下するおそれがある。このように、ニューラルネットワークの計算時間と認識率とは相反する関係にある。

１つの側面では、本発明は、ニューラルネットワークにおいて、認識率の低下を抑止しつつ計算時間を短縮することを目的とする。

一つの観点によれば、情報処理装置は、プロセッサを有する情報処理装置であって、前記プロセッサが、ニューラルネットワークで使用する変数を量子化する場合の量子化誤差を算出し、前記ニューラルネットワークの過去の学習により得られた第１の認識率に関する参照情報と、前記ニューラルネットワークの計算により得られる第２の認識率とに基づいて、閾値を生成し、算出された前記量子化誤差と、生成された前記閾値とに基づいて、前記ニューラルネットワークの計算に使用する変数のうちの量子化する第１の変数と、データ型とを決定し、前記第１の変数を前記データ型で示した第２の変数を使用して、前記ニューラルネットワークの計算を実行する。

１つの側面では、本発明は、ニューラルネットワークにおいて、認識率の低下を抑止しつつ計算時間を短縮することができる。

一実施形態における情報処理装置の一例を示すブロック図である。ニューラルネットワークの概要を示す説明図である。固定小数点による数値表現の一例を示す説明図である。図１の情報処理装置によるニューラルネットワークの学習の一例を示す説明図である。統計情報の取得方法と、量子化範囲の決定方法と、量子化誤差の算出方法との一例を示す説明図である。図１の情報処理装置によるニューラルネットワークの学習の一例を示すフロー図である。図１の情報処理装置によるニューラルネットワークの学習の概要を示す説明図である。ニューラルネットワークの学習を実行した場合の認識率の推移の一例を示す説明図である。別の実施形態における情報処理装置の一例を示すブロック図である。図９の情報処理装置が実行する処理の一例を示す機能ブロック図である。図９の情報処理装置によるニューラルネットワークの学習の一例を示すフロー図である。別の実施形態における情報処理装置によるニューラルネットワークの学習の一例を示す説明図である。

以下、図面を用いて実施形態を説明する。

図１は、一実施形態における情報処理装置の一例を示す。図１に示す情報処理装置１００は、例えば、ニューラルネットワークを用いた画像処理等の学習または推論に使用され、あるいは、学習および推論の両方に使用される。

情報処理装置１００は、通信バス４０で相互に接続されたＣＰＵ（Central Processing Unit）１０、メモリ２０およびアクセラレータ３０を有する。なお、情報処理装置１００は、ＣＰＵ１０の代わりに他のプロセッサを有してもよい。また、情報処理装置１００は、図示した以外の要素を含んでもよく、さらに、情報処理装置１００は、アクセラレータ３０を持たずに、アクセラレータ３０による計算処理をＣＰＵ１０により実行してもよい。

ＣＰＵ１０は、量子化誤差算出部１２、閾値生成部１４およびデータ型決定部１６を有する。また、ＣＰＵ１０は、図示しない演算器を有する。図１では、量子化誤差算出部１２、閾値生成部１４およびデータ型決定部１６は、ＣＰＵ１０がメモリ２０に保持された情報処理プログラムを実行することで実現される。

量子化誤差算出部１２、閾値生成部１４およびデータ型決定部１６の少なくともいずれかは、ハードウェアにより実現されてもよい。この場合、量子化誤差算出部１２、閾値生成部１４およびデータ型決定部１６は、ＣＰＵ１０内ではなく、図示しないＦＰＧＡ（Field-Programmable Gate Array）またはＡＳＩＣ（Application Specific Integrated Circuit）等に含まれてもよい。量子化誤差算出部１２、閾値生成部１４およびデータ型決定部１６の機能は、後述する。

メモリ２０は、ＯＳ（Operating System）、アプリケーションプログラムおよび情報処理プログラム等の各種プログラムと、ニューラルネットワークの処理で使用するデータおよび変数等とを記憶する。メモリ２０は、ニューラルネットワークの計算の途中で生成される中間データ等を記憶してもよい。また、量子化誤差算出部１２、閾値生成部１４およびデータ型決定部１６が、ＣＰＵ１０により実行される情報処理プログラムにより実現される場合、メモリ２０は、情報処理プログラムを記憶する。

アクセラレータ３０は、例えば、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）またはディープラーニング用の専用のプロセッサ等であり、ニューラルネットワークの計算を実行可能である。アクセラレータ３０は、図示しない多数の固定小数点演算器および多数の浮動小数点演算器を有する。

図２は、ニューラルネットワークの概要を示す。図２に示すニューラルネットワークは、入力層と出力層との間に複数の隠れ層を含むディープニューラルネットワークである。例えば、隠れ層は、畳み込み層、プーリング層または全結合層等である。各層に示す丸印は、所定の計算をそれぞれ実行するノードを示す。

情報処理装置１００は、例えば、ミニバッチに含まれる複数の学習データ（入力データ）の各々を入力層に入力し、畳み込み層、プーリング層等の計算を順次実行することで、演算により得られる情報を入力側から出力側に順次伝える順伝播処理を実行する。ここで、ミニバッチは、学習に使用するデータセット（バッチ）を複数に分割したものであり、所定数の入力データ（画像データ等）を含む。例えば、畳み込み層では、前の層からの出力データ（中間データ）である活性と、学習データとして予め準備された重みとが畳み込み演算され、演算により得られた出力データである活性が次の層の入力データとして出力される。

ミニバッチによる順伝播処理の実行後、出力層から出力される出力データと正解データとの差分（例えば、誤差の二乗和）を小さくするために勾配を算出する逆伝播処理が実行される。そして、逆伝播処理の結果に基づいて重み等の変数を更新する更新処理が実行される。例えば、逆伝播処理の計算に使用される重みの更新幅を決定するアルゴリズムとして、勾配降下法（gradient descent）が使用される。例えば、変数が更新された後、判定用のデータを使用してニューラルネットワークを動作させることで、認識率（正解率）が算出される。

以下では、ニューラルネットワークの計算に使用される重み、活性および勾配を、変数とも称する。複数のミニバッチの各々において、順伝播処理、逆伝播処理および変数の更新処理を実行することで、認識率が徐々に上がっていき、ディープニューラルネットワークが最適化される。

図３は、固定小数点による数値表現の一例を示す。図３において、符号Ｓは符号ビットを示し、黒丸は小数点位置を示す。図３の左欄に示した＜ａ，ｂ＞は、ａが固定小数点数のビット数を示し、ｂが小数部のビット数（すなわち、小数点位置）を示す。

＜８，３＞は、固定小数点数が８ビットであり、小数部が下位の３ビットであり、整数部が符号ビットＳを除く上位の４ビットであることを示す。＜８，４＞は、固定小数点数が８ビットであり、小数部が下位の４ビットであり、整数部が符号ビットＳを除く上位の３ビットであることを示す。

＜１６，１０＞は、固定小数点数が１６ビットであり、小数部が下位の１０ビットであり、整数部が符号ビットＳを除く上位の５ビットであることを示す。＜１６，１２＞は、固定小数点数が１６ビットであり、小数部が下位の１２ビットであり、整数部が符号ビットＳを除く上位の３ビットであることを示す。

図４は、図１の情報処理装置１００によるニューラルネットワークの学習の一例を示す。図４に示す学習では、ニューラルネットワークの計算に使用する変数のデータ型を決定するための学習期間である型決定期間と、型決定期間に決定したデータ型を使用して学習を実行する学習実行期間とを含む学習サイクルが複数回繰り返される。ここで、データ型は、浮動小数点数または固定小数点数のいずれかである。学習サイクルは、ニューラルネットワークの計算を実行する計算サイクルの一例であり、学習実行期間は、型決定期間後に、データ型決定部１６が決定したデータ型の変数を使用して、ニューラルネットワークの計算を実行する計算実行期間の一例である。

まず、最初の学習サイクルが開始される前に、ニューラルネットワークの学習を情報処理装置１００に実行させるユーザ等の操作により、ニューラルネットワークのモデルが情報処理装置１００に入力される（図４（ａ））。

また、ユーザ等の操作により、後述する閾値を生成するための基準となる参照情報が、情報処理装置１００に入力される（図４（ｂ））。例えば、参照情報は、学習サイクルが開始される前（過去）において、浮動小数点数の変数を使用してニューラルネットワークの学習を実行したときの認識率の推移を示す情報を含む。あるいは、参照情報は、学習サイクルが開始される前（過去）においてニューラルネットワークの学習を実行したときに得られる最大の認識率を示す情報を含む。すなわち、参照情報は、ニューラルネットワークの過去の学習により得られた認識率に関する情報である。なお、参照情報は、図４で学習するニューラルネットワークと類似するニューラルネットワークにおいて過去に実行した学習での認識率の推移を示す情報または最大の認識率を示す情報でもよい。

例えば、最初の学習サイクルの型決定期間は、予め設定されたビット数（ビット幅）の固定小数点数の入力データと重み等の変数とを用いて、ニューラルネットワークの各層で計算が実行される。そして、順伝播処理の演算により固定小数点数の活性が生成され、逆伝播処理の演算により固定小数点数の勾配が層毎に生成され、重みが更新される。例えば、各層での計算は、図１のＣＰＵ１０がアクセラレータ３０に指示することより、アクセラレータ３０により実行される。

図１の量子化誤差算出部１２は、型決定期間でのニューラルネットワークの計算に使用する変数毎（すなわち、各層の変数毎）に固定小数点数データの統計情報を取得し、量子化範囲（ビット数とビット位置）を決定する（図４（ｃ））。なお、ビット数が予め決まっている場合、量子化誤差算出部１２は、ビット位置（図３に示した小数点位置）のみを決定する。

例えば、量子化誤差算出部１２は、変数毎に最上位ビットの分布を統計情報として取得する。そして、量子化誤差算出部１２は、取得した統計情報を利用して、変数毎に固定小数点数データの量子化範囲を決定する。なお、各変数の統計情報は、ＣＰＵ１０の指示に基づいて、アクセラレータ３０が演算を実行することで取得されてもよい。

次に、量子化誤差算出部１２は、決定した量子化範囲に含まれるように変換した固定小数点数データの、量子化する前の元の固定小数点数データに対する量子化誤差を、層毎に算出する（図４（ｄ））。例えば、量子化誤差算出部１２は、各層の変数毎に、個々の固定小数点数データの量子化誤差を積算し、積算した量子化誤差の平均値を算出することで、層毎の量子化誤差を得る。

例えば、固定小数点積和演算器を使用して畳み込み演算を実行する場合、入力オペランドと出力オペランドのビット範囲およびビット位置（すなわち、量子化範囲）は、互いに同じである。このため、層毎に、共通の量子化範囲を用いて量子化誤差を算出することができ、量子化誤差算出部１２の処理量を削減することができる。統計情報の取得方法と、量子化範囲の決定方法と、量子化誤差の算出方法については、図５で説明する。

図１の閾値生成部１４は、型決定期間での学習により得られた認識率と、参照情報として示される認識率とを比較し、比較結果に応じて閾値を生成する（図４（ｅ））。後述するように、閾値は、量子化誤差算出部１２が算出した量子化誤差に基づいて、各変数のデータ型を浮動小数点型とするか固定小数点型とするかを決定するために使用される。

例えば、この実施形態では、閾値生成部１４は、１つの閾値を全ての変数に共通に生成する。閾値は、ニューラルネットワークの全体での学習結果である認識率に基づいて生成されるため、閾値生成部１４は、学習で得た認識率と過去の認識率とを比較することで、１つの閾値を簡易に生成することができる。

なお、量子化誤差の分布が所定量以上乖離した変数がある場合、量子化誤差のそれぞれの分布に合わせて複数の閾値が生成されてもよい。例えば、量子化誤差の分布が変数の種類毎に異なる場合、閾値生成部１４は、変数の種類毎に閾値を生成してもよい。この場合、量子化誤差の分布の乖離の程度に合わせて、量子化誤差に合わせて変数の種類毎に最適な閾値を生成することができる。この結果、その後の学習での認識率を、浮動小数点数データを使用した過去の学習での認識率に近づきやすくすることができる。

図１のデータ型決定部１６は、層毎に、量子化誤差算出部１２が算出した各層の変数の量子化誤差と、閾値生成部１４が生成した閾値との大小関係を比較し、学習で使用するデータ型を層毎に決定する（図４（ｆ）、（ｇ））。各層に入出力されるデータのビット範囲およびビット位置は互いに同じであるため、層毎に算出された量子化誤差を使用して、層毎に変数を量子化するかしないかを決定することで、データ型決定部１６の処理量を削減することができる。

例えば、量子化誤差が閾値より高い場合、認識率を上げるために浮動小数点型に決定され、量子化誤差が閾値以下の場合、認識率が浮動小数点型と同等であるため、固定小数点型に決定される。そして、決定した層毎のデータ型を使用して、型決定期間に続く学習実行期間での学習が実行される（図４（ｈ））。

学習実行期間の終了後、次の学習サイクルが実行される（図４（ｉ））。そして、上述と同様に、量子化誤差算出部１２により量子化誤差が算出され、閾値生成部１４により閾値が生成され、データ型決定部１６によりデータ型が決定される。図４に示す学習サイクルは、ユーザにより入力されたデータセットに対応するデータ量（１エポック）の学習を所定の回数（エポック数）実行するまで繰り返し実行される。

なお、型決定期間の学習は、様々な処理が含まれるため、学習するデータ量が同じ場合、型決定期間の学習時間は、学習実行期間の学習時間よりも長くなる。さらに、浮動小数点数データのみを使用した同じデータ量の学習の学習時間よりも長くなるおそれがある。このため、例えば、型決定期間で学習するデータは、学習サイクルで学習するデータの１０％程度以下にすることが好ましい。例えば、学習サイクルが１０エポックの場合、型決定期間は１エポック程度に設定される。しかしながら、学習サイクル中に占める型決定期間の比率は、上記に限定されるものではない。

変数に使用するデータ型を型決定期間での学習に基づいて決定することで、変数に使用するデータ型を学習実行期間での学習を含めて決定する場合に比べて、学習サイクルの学習時間が長くなることを抑止することができる。すなわち、量子化誤差算出部１２、閾値生成部１４およびデータ型決定部１６を型決定期間のみ動作させ、学習実行期間での動作を停止することで、学習サイクルの学習時間が長くなることを抑止することができる。

図５は、統計情報の取得方法と、量子化範囲の決定方法と、量子化誤差の算出方法との一例を示す。図５（ａ）は、図２に丸印で示したノードの１つが入出力する変数（重み、活性または勾配）のいずれかを示す。例えば、初期の重みは、図５に示す量子化範囲より広い所定のビット数（８ビットまたは１６ビット等）を有するとする。中間データ（活性、勾配および学習により最適化された重み）は、例えば、固定小数点演算器による演算結果であり、ノードによる演算の実行毎にアキュムレータ（例えば、４０ビット）に格納される。図５の左右両側の破線は４０ビットの範囲を示す。

なお、初期の重みまたは中間データが浮動小数点数データである場合、浮動小数点数データは、４０ビット以下の固定小数点数データに変換され、図５（ａ）に示す状態になる。固定小数点数データへの変換は、ＣＰＵ１０により実行されてもよく、アクセラレータ３０により実行されてもよい。

図５（ｂ）は、量子化誤差算出部１２により取得される統計情報の一例として、変数の最上位ビットの分布を示す。例えば、変数の分布は、型決定期間で使用する各層の変数毎に取得される。固定小数点数データ（正値）において、最上位ビットは、符号ビットＳ（図３）側に最初に"１"が現れるビットである。図５において、符号ａ（ａ１－ａ１１）は、各中間データの最上位ビットの位置を示す。符号ｂ（ｂ１－ｂ１１）は、各ビット位置でのビン数を示す。なお、図５（ｂ）において、左側は上位ビット側を示し、右側は下位ビット側を示す。

量子化誤差算出部１２は、変数の最上位ビットの分布に基づいて、量子化範囲を決定する（図５（ｃ））。この例では、量子化範囲は＜７，３＞に設定され、黒丸で示す小数点位置になる。例えば、量子化範囲は、ニューラルネットワークの層毎に決定される。

次に、量子化誤差算出部１２は、固定小数点数の変数（重み、活性、勾配）を、決定した量子化範囲に収まるように変換した場合の量子化誤差を、変数毎に算出する（図５（ｄ））。例えば、量子化誤差は、量子化範囲の最上位ビットを超えるビットを飽和処理し、量子化範囲の最下位ビットより下のビットを丸め処理することで算出される。図５（ｄ）に示す例では、量子化誤差は式（１）により算出される。
量子化誤差＝｜（ａ１・ｂ１＋ａ２・ｂ２）－（ａ３・ｂ１＋ａ３・ｂ２）｜＋｜（ａ１０・ｂ１０＋ａ１１・ｂ１１）－（ａ９・ｂ１０＋ａ９・ｂ１１）｜ ‥（１）
式（１）において、"｜"は絶対値を示し、"・"は、積を示す。第１項および第２項の差分の絶対値は、飽和誤差を示し、第３項および第４項の差分の絶対値は、丸め誤差を示す。そして、例えば、算出された量子化誤差の層毎の平均値が算出され、量子化誤差の平均値が、閾値と比較する量子化誤差に決定される。なお、例えば、算出された量子化誤差の層毎の最大値または分散が算出され、算出された最大値または分散が、閾値と比較する量子化誤差に決定されてもよい。

なお、図５（ｄ）では、量子化誤差の算出方法を分かりやすくするために、図５（ｂ）の分布の絵を利用しているが、実際には、図５（ａ）の各中間データにおいて、量子化範囲から外れるビットが飽和処理され、丸め処理される。また、図５では、量子化誤差算出部１２は、飽和処理と丸め処理とを両方実行して量子化誤差を算出するが、飽和処理または丸め処理のいずれかを実行して量子化誤差を算出してもよい。

図６は、図１の情報処理装置１００によるニューラルネットワークの学習の一例を示す。図６に示す処理は、ＣＰＵ１０が情報処理プログラムを実行することで実現される。すなわち、図６は、情報処理装置１００の制御方法および情報処理装置１００の制御プログラムの一例を示す。

まず、ステップＳ１０において、情報処理装置１００は、外部から入力されるニューラルネットワークのモデルをメモリ２０等に格納する。なお、ステップＳ１０において、学習に使用するデータセット（重みデータを含む）が、ニューラルネットワークのモデルとともに情報処理装置１００に入力されてもよい。

次に、ステップＳ１２において、情報処理装置１００は、外部から入力される参照情報（認識率）をメモリ２０等に格納する。なお、ステップＳ１０、Ｓ１２の一方または両方は、図６に示す処理とは別に、予め実行されてもよい。

次に、ステップＳ１４において、情報処理装置１００は、アクセラレータ３０を使用して、型決定期間でのニューラルネットワークの学習を実行する。次に、ステップＳ１６において、量子化誤差算出部１２は、図５で説明したように、各層の変数（重み、活性および勾配）毎に、統計情報を取得し、量子化範囲（ビット数とビット位置）を決定し、層毎に量子化誤差を算出する。次に、ステップＳ１８において、閾値生成部１４は、学習により得られた認識率と、参照情報である認識率とを比較し、比較結果に応じて閾値を生成する。なお、ステップＳ１６、Ｓ１８は、逆の順で実行されてもよく、並列に実行されてもよい。

次に、ステップＳ２０において、データ型決定部１６は、例えば、層毎に、量子化誤差算出部１２が算出した量子化誤差と、閾値生成部１４が生成した閾値との大小関係を比較し、学習で使用するデータ型を決定する。例えば、量子化誤差が閾値より高い場合、認識率を上げるために浮動小数点型に決定され、量子化誤差が閾値以下の場合、認識率が浮動小数点型と同等以上であるため、固定小数点型に決定される。ステップＳ１４からステップＳ２０までの処理は、図４に示した型決定期間に実行される。

次に、ステップＳ２２において、情報処理装置１００は、ステップＳ２０で決定したデータ型の変数を使用して学習実行期間でのニューラルネットワークの学習を実行する。ニューラルネットワークの学習実行期間での学習は、アクセラレータ３０を使用して実行される。次に、ステップＳ２４において、情報処理装置１００は、ユーザにより入力されたデータセットに対応するデータ量（１エポック）の学習を所定の回数（エポック数）実行した場合、図６に示す処理を終了する。情報処理装置１００は、学習を所定のエポック数実行していない場合、処理をステップＳ１４に戻し、次の学習サイクルの型決定期間の学習が実行される。

図７は、図１の情報処理装置１００によるニューラルネットワークの学習の概要を示す。図７（ａ）は、学習の推移を示す。図７（ａ）の右側は、認識率の推移を示し、横軸がイテレーション数を示し、縦軸が認識率を示す。上述したように、ニューラルネットワークのモデルと参照情報とが入力された後、型決定期間と学習実行期間とを含む学習サイクルが繰り返し実行される。参照情報は、例えば、ニューラルネットワークの過去の浮動小数点数データによる学習での認識率を示す。

図７（ｂ）は、順伝播処理と逆伝播処理を実行する毎に算出される変数（活性、勾配または重み）の１つの量子化誤差の変化を示す。図７（ａ）の右側は、横軸がイテレーション数を示し、縦軸が量子化誤差を示す。図７（ｂ）に示すように、型決定期間では、まず、各層の変数毎に量子化誤差が算出される。量子化誤差算出部１２は、型決定期間での学習を終了した場合、例えば、層毎に、図７（ｂ）に示す量子化誤差の平均値を算出する。層毎の量子化誤差の平均値は、図７（ｃ）に黒丸または白丸で示される。図７（ｃ）の右側は、横軸がイテレーション数を示し、縦軸が量子化誤差を示す。

閾値生成部１４は、図７（ａ）の右側に示すように、型決定期間での学習により得られる認識率と参照情報で示される認識率との比較に基づいて、閾値を生成（更新）する。閾値生成部１４は、２回目以降の型決定期間において、学習により得られる認識率が参照情報で示される認識率より低い場合、閾値を下げ、学習により得られる認識率が参照情報で示される認識率より高い場合、閾値を上げる。なお、閾値生成部１４は、学習により得られる認識率が参照情報で示される認識率と同じ場合、閾値を更新しない。

データ型決定部１６は、図７（ｃ）の右側に示すように、量子化誤差の平均値が閾値より高い層（黒丸）の学習実行期間での学習を浮動小数点型により実行することを決定する。また、データ型決定部１６は、量子化誤差の平均値が閾値以下の層（白丸）の学習実行期間での学習を固定小数点型により実行することを決定する。図７（ｃ）の黒丸と白丸の数の差で分かるように、認識率と相関がある閾値が低いほど学習に使用される浮動小数点数データの変数の数が増加し、学習に使用される固定小数点数データの変数の数が減少する。また、閾値が高いほど、学習に使用される浮動小数点数データの変数の数が減少し、学習に使用される固定小数点数データの変数の数が増加する。

浮動小数点演算器による浮動小数点数データの演算に掛かる時間は、固定小数点演算器による固定小数点数データの演算に掛かる時間より長い。このため、型決定期間で得られた認識率が参照情報よる認識率より低く、閾値が低くなるほど、その後の学習実行期間において、計算時間は増加するものの、認識率を参照情報による認識率に近づけることができる。

一方、認識率が参照情報による認識率より高く、閾値が高くなるほど、その後の学習実行期間において、認識率を参照情報による認識率と同等にして、計算時間を短縮することができる。したがって、学習による認識率に応じて、ニューラルネットワークの計算に使用する浮動小数点数データと固定小数点数データとの比率を変えることで、認識率の低下を抑止しつつ計算時間を短縮することができる。

図８は、ニューラルネットワークの学習を実行した場合の認識率の推移の一例を示す。例えば、図８は、データセットの一種であるＩｍａｇｅＮｅｔを使用して、学習済みのネットワークの一種であるｒｅｓｎｅｔ－５０の学習を実行する場合の例を示し、横軸はイテレーション数を示し、縦軸は認識率を示す。

図４および図６等で説明したように、認識率により変化させた閾値に応じてニューラルネットワークの各層の計算に使用するデータ型を決める本実施形態では、全てのデータ型を浮動小数点型に固定する場合と同様の認識率の推移にすることができる。

上述したように、固定小数点型データを使用した学習に掛かる時間は、浮動小数点型データを使用した学習に掛かる時間よりも短い。したがって、複数の層の少なくともいずれかにおいて閾値に応じてデータ型を浮動小数点型から固定小数点型に変更する場合、認識率の低下を抑止しつつ計算時間を短縮することができる。

これに対して、比較例として示すように、図８に示すデータセットとニューラルネットワークとの条件で、全てのデータ型を固定小数点型に固定する場合、学習を繰り返しても認識率は向上しない場合がある。

以上、この実施形態では、情報処理装置１００は、今回の学習と過去の学習とでそれぞれ得られた認識率に基づいて、量子化誤差の閾値を生成し、学習により得られた変数を量子化した場合の量子化誤差を算出する。そして、情報処理装置１００は、算出した量子化誤差が閾値より大きいか小さいかにより、後続の学習で使用する変数のうち、固定小数点数データに量子化する変数を決定する。

これにより、認識率が過去の認識率に比べて高い場合に、固定小数点数データの変数の割合を相対的に増やすことができ、認識率が過去の認識率に比べて低い場合に、固定小数点数データの変数の割合を相対的に減らすことができる。閾値に応じて固定小数点数データの変数の割合を変えながらニューラルネットワークの学習を実行することで、固定小数点数データの変数のみで学習を実行する場合に比べて、認識率を向上することができる。また、浮動小数点数データの変数のみでニューラルネットワークの学習を実行する場合に比べて、計算時間を短縮することができる。この結果、ニューラルネットワークの学習において、認識率の低下を抑止しつつ計算時間を短縮することができる。

閾値は、ニューラルネットワーク全体での学習結果である認識率に基づいて生成されるため、閾値生成部１４は、学習で得た認識率と過去の認識率とを比較することで、１つの閾値を簡易に生成することができる。また、例えば、量子化誤差の分布が変数の種類毎に異なる場合、量子化誤差のそれぞれの分布に合わせて複数の閾値を生成することで、その後の学習での認識率を、浮動小数点数データを使用した過去の学習での認識率に近づきやすくすることができる。

各層に入出力されるデータのビット範囲およびビット位置は互いに同じであるため、層毎に、共通の量子化範囲を用いて量子化誤差を算出することで、量子化誤差算出部１２の処理量を削減することができる。同様に、層毎に算出された量子化誤差を使用して、各層で量子化する変数を決定することで、データ型決定部１６の処理量を削減することができる。

図９は、別の実施形態における情報処理装置の一例を示す。図１と同様の要素については同じ符号を付し、詳細な説明は省略する。また、図２から図８と同様の内容については、詳細な説明は省略する。図９に示す情報処理装置１００Ａは、例えば、ニューラルネットワークを用いた画像処理等の学習または推論に使用され、あるいは、学習および推論の両方に使用される。

例えば、情報処理装置１００Ａは、サーバであり、通信バス４０で相互に接続されたＣＰＵ１０Ａ、メモリ２０、アクセラレータ３０、補助記憶装置５０、通信インタフェース６０および入出力インタフェース７０を有する。なお、情報処理装置１００Ａは、図示した以外の要素を含んでもよい。

ＣＰＵ１０Ａは、図１に示す閾値生成部１４の代わりに閾値生成部１４Ａを有し、図１に示すＣＰＵ１０に統計情報取得部１１が追加される。閾値生成部１４Ａについては、図１０で説明する。統計情報取得部１１は、図２に示したニューラルネットワークの計算に使用する各層の変数（重み、活性、勾配）毎に統計情報を取得する。このため、量子化誤差算出部１２は、統計情報の取得機能を持たない。量子化誤差算出部１２は、統計情報取得部１１が取得した統計情報に基づいて、層毎に量子化誤差を算出する。

統計情報取得部１１、量子化誤差算出部１２、閾値生成部１４Ａおよびデータ型決定部１６は、ＣＰＵ１０がメモリ２０に保持された情報処理プログラムを実行することで実現される。なお、統計情報取得部１１、量子化誤差算出部１２、閾値生成部１４Ａおよびデータ型決定部１６の少なくともいずれかは、ハードウェアにより実現されてもよい。

補助記憶装置５０は、ＣＰＵ１０Ａが実行するＯＳ（Operating System）および情報処理プログラム等の各種プログラムと、ニューラルネットワークの計算で使用するデータ、重み等の各種変数等とを記憶する。例えば、補助記憶装置５０が記憶するプログラムは、メモリ２０に転送され、ＣＰＵ１０Ａにより実行される。また、補助記憶装置５０が記憶するニューラルネットワークの計算で使用するデータおよび各種変数は、ニューラルネットワークの学習時に補助記憶装置５０からメモリ２０に転送される。

通信インタフェース６０は、例えば、ネットワークを介して他の情報処理装置等と通信する機能を有する。これにより、ニューラルネットワークの計算を複数の情報処理装置を使用して並列に実行することが可能になる。入出力インタフェース７０は、情報処理装置１００Ａに接続される記録媒体８０に対してデータを入出力する機能を有する。

例えば、記録媒体８０は、ＣＤ（Compact Disc：登録商標）、ＤＶＤ（Digital Versatile Disc：登録商標）またはＵＳＢ（Universal Serial Bus）メモリ等であり、情報処理プログラムが記録されてもよい。記録媒体８０に記録された情報処理プログラムは、入出力インタフェース７０を介して補助記憶装置５０に転送された後、メモリ２０上に展開され、ＣＰＵ１０Ａにより実行される。

図１０は、図９の情報処理装置１００Ａが実行する処理の一例を示す。閾値生成部１４Ａは、差分算出部１４ａ、更新量生成部１４ｂ、差分算出部１４ｃおよび閾値保持部１４ｄを有する。閾値生成部１４Ａは、図４に示した型決定期間の学習が終了する毎に、当該学習サイクルの学習実行期間に使用する変数のデータ型を決めるための閾値Ｑｔｈ（ｔ）を生成（更新）する。

例えば、閾値Ｑｔｈ（ｔ）は、全ての層および全ての変数に共通に使用される。このため、情報処理装置１００Ａは、閾値生成部１４Ａを１つ持てばよく、閾値生成部１４Ａを複数持つ場合に比べて情報処理プログラムの規模またはハードウェアの規模を削減することができる。

差分算出部１４ａは、ユーザ等の操作により、情報処理装置１００Ａに入力される認識率Ａｒｅｆ（参照情報）と、ニューラルネットワークの学習により得られた認識率Ａｏとの差を算出し、算出した差を更新量生成部１４ｂに出力する。例えば、認識率Ａｏは、型決定期間に複数回実行されるミニバッチ毎に得られる認識率の平均値である。なお、認識率Ａｏは、ミニバッチ毎に得られる認識率の最大値であってもよく、最小値であってもよい。認識率Ａｒｅｆは、浮動小数点数データを使用したニューラルネットワークの過去の学習により予め得られている。

更新量生成部１４ｂは、図１０中の式（１）に示すように、認識率Ａｒｅｆと認識率Ａｏとの差に応じて関数ｆ（Ａｒｅｆ－Ａｏ）の値を算出し、算出した値を差分算出部１４ｃに出力する。関数ｆ（Ａｒｅｆ－Ａｏ）の値は、認識率Ａｒｅｆが認識率Ａｏより大きい場合、当該学習サイクルの学習実行期間での浮動小数点数データの使用率を上げて、認識率Ａｏを上げるために、＋Ｇａｉｎになる。また、関数ｆ（Ａｒｅｆ－Ａｏ）の値は、認識率Ａｒｅｆが認識率Ａｏより小さい場合、当該学習サイクルの学習実行期間での固定小数点数データの使用率を上げて、計算時間を短縮するために、－Ｇａｉｎになる。例えば、Ｇａｉｎは、所定の正値である。関数ｆ（Ａｒｅｆ－Ａｏ）の値は、認識率Ａｒｅｆが認識率Ａｏと等しい場合、０になる。

差分算出部１４ｃは、図１０中の式（２）に示すように、閾値保持部１４ｄが保持する１つ前の学習サイクルの型決定期間で算出した閾値Ｑｔｈ（ｔ－１）から関数ｆ（Ａｒｅｆ－Ａｏ）の値を引き、当該学習サイクルで使用する閾値Ｑｔｈ（ｔ）を算出する。関数ｆ（Ａｒｅｆ－Ａｏ）の値は、"＋Ｇａｉｎ"、"－Ｇａｉｎ"または"０"である。差分算出部１４ｃは、算出した閾値Ｑｔｈ（ｔ）をデータ型決定部１６および閾値保持部１４ｄに出力する。差分算出部１４ｃは、更新後の閾値Ｑｔｈ（ｔ）を算出する閾値算出部の一例である。

例えば、認識率Ａｒｅｆが認識率Ａｏより大きい場合、閾値Ｑｔｈ（ｔ）は、閾値Ｑｔｈ（ｔ－１）より小さくなる。認識率Ａｒｅｆが認識率Ａｏより小さい場合、閾値Ｑｔｈ（ｔ）は、閾値Ｑｔｈ（ｔ－１）より大きくなる。認識率Ａｒｅｆが認識率Ａｏと等しい場合、閾値Ｑｔｈ（ｔ）は、閾値Ｑｔｈ（ｔ－１）と同じ値になる。閾値保持部１４ｄは、閾値Ｑｔｈ（ｔ）を保持し、保持した閾値Ｑｔｈ（ｔ）を次の学習サイクルの型決定期間において差分算出部１４ｃに出力する。

このように、認識率Ａｒｅｆと認識率Ａｏとの差に基づいて、閾値Ｑｔｈ（ｔ）を更新するための増減量を示す関数ｆ（Ａｒｅｆ－Ａｏ）の値を生成することで、前回の閾値Ｑｔｈ（ｔ－１）を使用して閾値Ｑｔｈ（ｔ）を生成することができる。これにより、閾値Ｑｔｈ（ｔ）が前回の閾値Ｑｔｈ（ｔ－１）に対して急激に変化することを抑止することができ、認識率が急激に変化することを抑止することができる。

なお、閾値保持部１４ｄは、初期状態において標準の閾値を保持している。これにより、閾値生成部１４Ａは、閾値を一度も更新していない初回の学習サイクルの型決定期間において、閾値Ｑｔｈ（ｔ）を生成することができる。

データ型決定部１６は、図４（ｆ）、（ｇ）および図７（ｃ）での説明と同様に、各層の変数毎に、量子化誤差算出部１２が算出した各層の変数の量子化誤差Ｑｅｒｒと、閾値生成部１４Ａが更新した閾値Ｑｔｈ（ｔ）との大小関係を比較する。そして、データ型決定部１６は、比較結果に基づいて、学習で使用するデータ型を層毎に決定する。情報処理装置１００Ａは、決定したデータ型を使用して図４の学習実行期間での学習を、アクセラレータ３０を使用して実行する。なお、認識率Ａｏは、各学習サイクルにおいて、型決定期間および学習実行期間の学習のミニバッチ毎の認識率の平均値等である。また、認識率Ａｏの閾値生成部１４Ａへのフィードバックは、型決定期間のみ行われ、学習実行期間では行われない。

型決定期間でのニューラルネットワークの学習により算出された各層の活性、勾配および重みは、統計情報取得部１１に出力される。例えば、統計情報取得部１１は、層毎の活性、勾配および重みのそれぞれの統計情報を取得し、取得した統計情報を量子化誤差算出部１２に出力する。例えば、統計情報は、図５で説明したように、固定小数点数データで表される変数（重み、勾配および活性）の各々の最上位ビットの分布である。なお、ニューラルネットワークで使用した変数が浮動小数点数データの場合、固定小数点数データとして統計情報が取得される。浮動小数点数データから固定小数点数データに変換する場合、変換処理は、統計情報取得部１１が実行してもよく、ＣＰＵ１０Ａが実行してもよく、アクセラレータ３０が実行してもよい。

量子化誤差算出部１２は、図５で説明したように、統計情報に基づいて、固定小数点数データの量子化範囲を決定する。また、量子化誤差算出部１２は、固定小数点数の変数（重み、活性、勾配）を、決定した量子化範囲に収まるように変換した場合の量子化誤差を、変数毎に算出する。そして、量子化誤差算出部１２は、変数毎に算出した量子化誤差に基づいて、例えば、層毎の量子化誤差Ｑｅｒｒを算出し、算出した量子化誤差Ｑｅｒｒをデータ型決定部１６に出力する。

図１１は、図９の情報処理装置１００Ａによるニューラルネットワークの学習の一例を示す。図１１に示す処理は、ＣＰＵ１０Ａが情報処理プログラムを実行することで実現される。すなわち、図１１は、情報処理装置１００Ａの制御方法および情報処理装置１００Ａの制御プログラムの一例を示す。図６と同様の処理については、詳細な説明は省略する。図１１の処理が開始される前、図６のステップＳ１０、Ｓ１２によるニューラルネットワークのモデルと参照情報の情報処理装置１００Ａへの入力が完了している。

まず、ステップＳ３０において、情報処理装置１００Ａは、アクセラレータ３０を使用して、型決定期間でのニューラルネットワークの学習（ミニバッチ）を実行する。次に、ステップＳ３２において、情報処理装置１００Ａは、ミニバッチの学習での認識率を算出する。また、情報処理装置１００Ａは、ミニバッチの学習で算出された変数（活性、勾配および重み）をメモリ２０等に記憶させる。

次に、ステップＳ３４において、情報処理装置１００Ａは、型決定期間に対応する所定数のミニバッチを実行した場合、処理をステップＳ３６に移行し、型決定期間に対応する所定数のミニバッチを実行していない場合、処理をステップＳ３０に戻す。

型決定期間の全てのミニバッチ（学習）が終了した場合、ステップＳ３６において、情報処理装置１００Ａは、図６のステップＳ１６と同様に、各層の変数（重み、活性および勾配）毎に、統計情報を取得する。そして、情報処理装置１００Ａは、量子化範囲（ビット数とビット位置）を決定し、層毎に量子化誤差を算出する。例えば、ステップＳ３６の処理は、量子化誤差算出部１２により実行される。

次に、ステップＳ３８において、情報処理装置１００Ａは、例えば、ステップ３２で得られたミニバッチ毎の認識率の平均値が、参照情報の認識率より低いか否かを判定する。認識率の平均値が、参照情報の認識率より低い場合、処理はステップＳ４０に移行され、認識率の平均値が、参照情報の認識率以上の場合、処理はステップＳ４２に移行される。

ステップＳ４０において、情報処理装置１００Ａは、前回の学習サイクルの型決定期間に生成した閾値を下げることで、今回の学習サイクルの学習実行期間で使用するデータ型を決定するための閾値を更新し、処理をステップＳ４４に移行する。ステップＳ４２において、情報処理装置１００Ａは、前回の学習サイクルの型決定期間に生成した閾値を上げることで、今回の学習サイクルの学習実行期間で使用するデータ型を決定するための閾値を生成し、処理をステップＳ４４に移行する。ステップＳ４０、Ｓ４２の処理は、閾値生成部１４Ａにより実行される。

ステップＳ４４において、情報処理装置１００Ａは、図６のステップＳ２０と同様に、層毎に量子化誤差の平均値が閾値より大きいか否かを判定する。量子化誤差が閾値より大きい場合、処理はステップＳ４６に移行され、量子化誤差が閾値以下の場合、処理はステップＳ４８に移行される。なお、ステップＳ４４、Ｓ４６、Ｓ４８の処理は、層毎に実行される。

ステップＳ４６において、情報処理装置１００Ａは、対象の層の計算に浮動小数点数データを使用することを決定し、処理をステップＳ５０に移行する。ステップＳ４８において、情報処理装置１００Ａは、対象の層の計算に固定小数点数データを使用することを決定し、処理をステップＳ５０に移行する。

ステップＳ５０において、情報処理装置１００Ａは、図６のステップＳ２２と同様に、ステップＳ４６またはステップＳ４８で決定した層毎のデータ型を使用して学習実行期間でのニューラルネットワークの学習を実行する。次に、ステップＳ５２において、情報処理装置１００Ａは、全ての学習サイクルの学習が終了した場合、図１１に示す処理を終了する。情報処理装置１００Ａは、実行していない学習サイクルがある場合、処理をステップＳ３０に戻し、次の学習サイクルを実行する。

なお、図９から図１１に示す実施形態での認識率の推移は、図８における閾値に応じて浮動小数点型と固定小数点型とを切り替える場合の認識率の推移と同様であり、全てのデータ型を浮動小数点型に固定する場合の認識率の推移と同様である。

以上、図９から図１１に示す実施形態においても、図１から図８に示す実施形態と同様の効果を得ることができる。例えば、認識率が過去の認識率に比べて高い場合に、固定小数点数データの変数の割合を相対的に増やすことができ、認識率が過去の認識率に比べて低い場合に、固定小数点数データの変数の割合を相対的に減らすことができる。閾値に応じて固定小数点数データの変数の割合を変えながらニューラルネットワークの学習を実行することで、固定小数点数データの変数のみで学習を実行する場合に比べて、認識率を向上することができる。また、浮動小数点数データの変数のみでニューラルネットワークの学習を実行する場合に比べて、計算時間を短縮することができる。この結果、ニューラルネットワークの計算において、認識率の低下を抑止しつつ計算時間を短縮することができる。例えば、ニューラルネットワークの学習において、認識率の低下を抑止しつつ計算時間を短縮することができる。

さらに、図９から図１１に示す実施形態では、閾値生成部１４Ａは、認識率Ａｒｅｆと認識率Ａｏとの差に基づいて、閾値Ｑｔｈ（ｔ）を更新するための増減量を示す関数ｆ（Ａｒｅｆ－Ａｏ）の値を生成する。ことで、前回の閾値Ｑｔｈ（ｔ－１）を使用して閾値Ｑｔｈ（ｔ）を生成することができる。これにより、閾値Ｑｔｈ（ｔ）が前回の閾値Ｑｔｈ（ｔ－１）に対して急激に変化することを抑止することができ、認識率が急激に変化することを抑止することができる。

図１２は、別の実施形態における情報処理装置によるニューラルネットワークの学習の一例を示す。上述した実施形態と同じ要素については、詳細な説明は省略する、図１２に示すニューラルネットワークの学習を実行する情報処理装置は、図１に示す情報処理装置１００の構成と同様である。

この実施形態は、学習実行期間の開始点が型決定期間の開始点と一致することを除き、図７（ａ）の右側に示した学習の推移と同様である。すなわち、情報処理装置は、各学習サイクルにおいて、型決定期間にニューラルネットワークの計算に使用する変数のデータ型を決定する。そして、型決定期間で決定した変数のデータ型を使用して、型決定期間で使用した学習データを含めて、学習実行期間での学習を実行する。

例えば、型決定期間では、ニューラルネットワークの計算に使用する全て変数が量子化されるため、認識率が低下する傾向にある。そこで、学習実行期間の開始点を型決定期間の開始点と同じにすることで、図７（ａ）の右側に示した学習の推移に比べて、ニューラルネットワークの学習時に変数が量子化されている期間を減らすことができる。この結果、学習されるニューラルネットワークの認識率を向上することができる。

以上、この実施形態においても、図１から図１１に示す実施形態と同様の効果を得ることができる。例えば、認識率が過去の認識率に比べて高い場合に、固定小数点数データの変数の割合を相対的に増やすことができ、認識率が過去の認識率に比べて低い場合に、固定小数点数データの変数の割合を相対的に減らすことができる。

さらに、図１２に示す実施形態では、各学習サイクルにおいて、学習実行期間の開始点を型決定期間の開始点と一致させることで、学習されるニューラルネットワークの認識率を向上することができる。

なお、上述した実施形態では、浮動小数点数データを使用して学習を実行した場合の認識率を示す参照情報と、型決定期間の学習で得られる認識率とを比較することで、閾値を生成（更新）する例を示した。しかしながら、参照情報は、浮動小数点数データを使用した学習時の損失関数（Train Loss）または学習後の評価での浮動小数点数データを使用したテスト時の損失関数（Test Loss）でもよい。この場合、閾値生成部１４は、浮動小数点数データでの損失関数と、型決定期間の学習で得られる損失関数とを比較することで閾値を生成（更新）する。

また、上述した実施形態では、ニューラルネットワークの学習時に、認識率に応じて閾値を生成し、閾値と量子化誤差との大小関係に応じて学習に使用するデータ型を決定する例を示した。しかしながら、ニューラルネットワークの推論時に、認識率に応じて閾値を生成し、閾値と量子化誤差との大小関係に応じて推論に使用するデータ型を決定してもよい。

この場合、例えば、図４の学習サイクルは推論サイクルに変更され、図４の学習実行期間は推論実行期間に変更される。推論サイクルの長さは、推論システムが実行する推論の対象物に応じて任意の長さに設定される。また、図６のステップＳ１４の"型判定期間の学習を実行"は、"型判定期間の推論を実行"に変更される。図６のステップＳ１８の"学習により得られた認識率"は、"推論により得られた認識率"に変更される。図６のステップＳ２０の"学習で使用するデータ型を決定"は、"推論で使用するデータ型に決定"に変更される。図６のステップＳ２２の"学習実行期間の学習を実行"は、"推論実行期間の推論を実行"に変更される。図７においても、"学習"は、"推論"に変更される。

これにより、ニューラルネットワークの学習時に、認識率に応じて閾値を生成し、閾値と量子化誤差との大小関係に応じて学習に使用するデータ型を決定する場合と同様の効果を得ることができる。例えば、閾値に応じて固定小数点数データの変数の割合を変えながらニューラルネットワークの推論を実行することで、固定小数点数データの変数のみで推論を実行する場合に比べて、認識率を向上することができる。また、浮動小数点数データの変数のみでニューラルネットワークの推論を実行する場合に比べて、計算時間を短縮することができる。この結果、ニューラルネットワークの推論において、認識率の低下を抑止しつつ計算時間を短縮することができる。

上述した実施形態では、量子化誤差算出部１２が、層毎に量子化誤差の平均値を算出し、学習実行期間に使用するデータ型の決定に使用する例を示した。しかしながら、量子化誤差算出部１２は、層毎に量子化誤差の最大値を算出し、学習実行期間に使用するデータ型の決定に使用してもよい。量子化誤差の最大値を算出する場合、閾値生成部１４は、学習により得られる認識率と参照情報で示される認識率との比較に基づいて、最大値に対応する閾値を生成（更新）する。

あるいは、量子化誤差算出部１２は、層毎に量子化誤差の分散を算出し、学習実行期間に使用するデータ型の決定に使用してもよい。量子化誤差の分散を算出する場合、閾値生成部１４は、学習により得られる認識率と参照情報で示される認識率との比較に基づいて、分散で示される閾値を生成（更新）する。そして、データ型決定部１６は、量子化誤差の分散が閾値で示される分散より広い場合、学習実行期間の学習を浮動小数点型により実行することを決定する。また、データ型決定部１６は、量子化誤差の分散が閾値で示される分散より狭い場合、学習実行期間の学習を固定小数点型により実行することを決定する。

さらに、上述した実施形態では、ニューラルネットワークの計算に使用する全ての変数（重み、活性、勾配）のデータ型を切り替える例を示した。しかしながら、所定の変数のみ（例えば、重みと活性、あるいは、勾配のみ）のデータ型を切り替え、他の変数は、データ型を固定してもよい。例えば、ニューラルネットワークの設計者（ユーザ等）が指定する変数のみ、データ型を切り替え、他の変数は、データ型を固定してもよい。これにより、データ型決定部１６の処理量を削減することができる。また、データ型の決定に使用する量子化誤差の算出数を少なくできるため、量子化誤差算出部１２の処理量を削減することができる。

また、データ型を固定小数点型に切り替えることで、認識率の低下を抑止して計算時間を短縮する効果の高い層が予め分かっている場合、その層で使用する変数のデータ型を固定小数点型に固定してもよい。あるいは、固定小数点数データのみを使用する場合と、データ型を切り替える場合とで、認識率に影響を与えない層が予め分かっている場合、その層で使用する変数のデータ型を固定小数点型に固定してもよい。これにより、上述と同様に、量子化誤差算出部１２の処理量とデータ型決定部１６の処理量を削減することができる。

なお、上述した実施形態では、全ての層と全ての変数に共通の閾値を生成する例を示した。しかしながら、所定の変数毎に閾値をそれぞれ生成してもよい。例えば、重みと活性と勾配のそれぞれに対応して３つの閾値を生成してもよい。

以上の図１から図１１に示す実施形態に関し、さらに以下の付記を開示する。
（付記１）
プロセッサを有する情報処理装置であって、
前記プロセッサが、
ニューラルネットワークで使用する変数を量子化する場合の量子化誤差を算出し、
前記ニューラルネットワークの過去の学習により得られた第１の認識率に関する参照情報と、前記ニューラルネットワークの計算により得られる第２の認識率とに基づいて、閾値を生成し、
算出された前記量子化誤差と、生成された前記閾値とに基づいて、前記ニューラルネットワークの計算に使用する変数のうち、量子化する変数を決定し、
決定されたデータ型の変数を使用して、前記ニューラルネットワークの計算を実行する、情報処理装置。
（付記２）
前記プロセッサは、複数の計算サイクルに分けて、前記ニューラルネットワークの計算を実行し、
前記ニューラルネットワークの計算を実行するステップは、前記複数の計算サイクルの各々において、
量子化する変数を決定する型決定期間に、１つ前の前記計算サイクルで決定したデータ型の変数を使用して前記ニューラルネットワークの計算を実行し、
前記型決定期間後の計算実行期間に、前記決定されたデータ型の変数を使用して、前記ニューラルネットワークの計算を実行する、付記１に記載の情報処理装置。
（付記３）
前記量子化誤差を算出するステップ、前記閾値を生成するステップおよび前記量子化する変数を決定するステップは、前記型決定期間に実行され、前記計算実行期間には実行されない、付記２に記載の情報処理装置。
（付記４）
前記閾値を生成するステップは、
前記参照情報で示される前記第１の認識率と前記第２の認識率との第１の差分を算出し、
算出された前記第１の差分に基づいて前記閾値の更新量を生成し、
生成された前記更新量と現在の前記閾値とに基づいて、更新後の閾値を算出する、付記１ないし付記３のいずれか１項に記載の情報処理装置。
（付記５）
前記閾値を生成するステップは、１つの前記閾値を生成し、
前記量子化する変数を決定するステップは、生成された共通の前記閾値に基づいて、全ての変数のうち、量子化する変数を決定する、付記１ないし付記４のいずれか１項に記載の情報処理装置。
（付記６）
前記閾値を生成するステップは、変数の種類毎に前記閾値を生成し、
前記量子化する変数を決定するステップは、生成された種類別の前記閾値に基づいて、変数の種類毎に量子化する変数を決定する、付記１ないし付記４のいずれか１項に記載の情報処理装置。
（付記７）
前記量子化する変数を決定するステップは、前記ニューラルネットワークで使用する複数の変数のうち、第１の変数のデータ型を前記量子化誤差と前記閾値とに基づいて決定し、前記第１の変数を除く第２の変数のデータ型を固定小数点型に固定する、付記１ないし付記６のいずれか１項に記載の情報処理装置。
（付記８）
前記量子化誤差を算出するステップは、前記ニューラルネットワークに含まれる複数の層毎に、各層で使用される変数の前記量子化誤差を算出する、付記１ないし付記７のいずれか１項に記載の情報処理装置。
（付記９）
前記量子化する変数を決定するステップは、前記算出された前記量子化誤差と前記生成された前記閾値とに基づいて、各層で使用される変数単位で量子化する変数を決定する、付記８に記載の情報処理装置。
（付記１０）
前記ニューラルネットワークの計算を実行するステップは、前記決定されたデータ型の変数を使用して、前記ニューラルネットワークの学習を実行する、付記１ないし付記９のいずれか１項に記載の情報処理装置。
（付記１１）
前記変数は、重み、活性および勾配を含む、付記１０に記載の情報処理装置。
（付記１２）
前記ニューラルネットワークの計算を実行するステップは、前記決定されたデータ型の変数を使用して、前記ニューラルネットワークによる推論を実行する、付記１ないし付記９のいずれか１項に記載の情報処理装置。
（付記１３）
前記ニューラルネットワークの計算により算出された変数の統計情報を取得し、
前記量子化誤差を算出するステップは、取得された前記統計情報に基づいて、変数の量子化後のビット範囲を決定し、決定した前記ビット範囲にしたがって前記量子化誤差を算出する、付記１ないし付記１２のいずれか１項に記載の情報処理装置。
（付記１４）
前記変数の前記統計情報を取得するステップは、前記ニューラルネットワークの計算により算出された変数の最上位ビットの分布を前記統計情報として取得し、
前記量子化誤差を算出するステップは、前記取得された前記統計情報の分布に基づいて、前記ビット範囲を決定する、付記１３に記載の情報処理装置。
（付記１５）
ニューラルネットワークで使用する変数を量子化する場合の量子化誤差を算出し、
前記ニューラルネットワークの過去の学習により得られた第１の認識率に関する参照情報と、前記ニューラルネットワークの計算により得られる第２の認識率とに基づいて、閾値を生成し、
算出された前記量子化誤差と、生成された前記閾値とに基づいて、前記ニューラルネットワークの計算に使用する変数のうち、量子化する変数を決定し、
決定されたデータ型の変数を使用して、前記ニューラルネットワークの計算を実行する、処理を情報処理装置が有するプロセッサに実行させる情報処理方法。
（付記１６）
ニューラルネットワークで使用する変数を量子化する場合の量子化誤差を算出し、
前記ニューラルネットワークの過去の学習により得られた第１の認識率に関する参照情報と、前記ニューラルネットワークの計算により得られる第２の認識率とに基づいて、閾値を生成し、
算出された前記量子化誤差と、生成した前記閾値とに基づいて、前記ニューラルネットワークの計算に使用する変数のうち、量子化する変数を決定し、
決定されたデータ型の変数を使用して、前記ニューラルネットワークの計算を実行する、処理を情報処理装置が有するプロセッサに実行させる情報処理プログラム。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

１０、１０ＡＣＰＵ
１１統計情報取得部
１２量子化誤差算出部
１４、１４Ａ閾値決定部
１６データ型決定部
２０メモリ
３０アクセラレータ
４０通信バス
５０補助記憶装置
６０通信インタフェース
７０入出力インタフェース
８０記録媒体
１００、１００Ａ情報処理装置

Claims

プロセッサを有する情報処理装置であって、
前記プロセッサが、
ニューラルネットワークで使用する変数を量子化する場合の量子化誤差を算出し、
前記ニューラルネットワークの過去の学習により得られた第１の認識率に関する参照情報と、前記ニューラルネットワークの計算により得られる第２の認識率とに基づいて、閾値を生成し、
算出された前記量子化誤差と、生成された前記閾値とに基づいて、前記ニューラルネットワークの計算に使用する変数のうちの量子化する第１の変数と、データ型とを決定し、
前記第１の変数を前記データ型で示した第２の変数を使用して、前記ニューラルネットワークの計算を実行する、情報処理装置。
前記プロセッサは、複数の計算サイクルに分けて、前記ニューラルネットワークの計算を実行し、
前記ニューラルネットワークの計算を実行するステップは、前記複数の計算サイクルの各々において、
量子化する前記第１の変数を決定する型決定期間に、１つ前の前記計算サイクルで決定したデータ型で示された前記第２の変数を使用して前記ニューラルネットワークの計算を実行し、
前記型決定期間後の計算実行期間に、前記第１の変数を前記決定されたデータ型で示した前記第２の変数を使用して、前記ニューラルネットワークの計算を実行する、請求項１に記載の情報処理装置。
前記量子化誤差を算出するステップ、前記閾値を生成するステップおよび前記量子化する前記第１の変数を決定するステップは、前記型決定期間に実行され、前記計算実行期間には実行されない、請求項２に記載の情報処理装置。
前記閾値を生成するステップは、
前記参照情報で示される前記第１の認識率と前記第２の認識率との第１の差分を算出し、
算出された前記第１の差分に基づいて前記閾値の更新量を生成し、
生成された前記更新量と現在の前記閾値とに基づいて、更新後の閾値を算出する、請求項１ないし請求項３のいずれか１項に記載の情報処理装置。
前記閾値を生成するステップは、１つの前記閾値を前記計算に使用する変数に共通に生成し、
前記量子化する変数を決定するステップは、生成された共通の前記閾値に基づいて、前記計算に使用する変数のうちの量子化する前記第１の変数を決定する、請求項１ないし請求項４のいずれか１項に記載の情報処理装置。
前記閾値を生成するステップは、変数の種類毎に前記閾値を生成し、
前記量子化する変数を決定するステップは、生成された種類別の前記閾値に基づいて、変数の種類毎に量子化する変数を決定する、請求項１ないし請求項４のいずれか１項に記載の情報処理装置。
前記量子化する前記第１の変数を決定するステップは、前記ニューラルネットワークで使用する複数の変数のうち、前記第１の変数を量子化するデータ型を前記量子化誤差と前記閾値とに基づいて決定し、前記第１の変数を除く変数のデータ型を固定小数点型に固定する、請求項１ないし請求項６のいずれか１項に記載の情報処理装置。
前記量子化誤差を算出するステップは、前記ニューラルネットワークに含まれる複数の層毎に、各層で使用される変数の前記量子化誤差を算出する、請求項１ないし請求項７のいずれか１項に記載の情報処理装置。
前記量子化する変数を決定するステップは、前記算出された前記量子化誤差と前記生成された前記閾値とに基づいて、各層で使用される変数単位で量子化する変数を決定する、請求項８に記載の情報処理装置。
前記ニューラルネットワークの計算を実行するステップは、前記決定されたデータ型で示した前記第２の変数を使用して、前記ニューラルネットワークの学習を実行する、請求項１ないし請求項９のいずれか１項に記載の情報処理装置。
前記ニューラルネットワークの計算を実行するステップは、前記決定されたデータ型で示した前記第２の変数を使用して、前記ニューラルネットワークによる推論を実行する、請求項１ないし請求項９のいずれか１項に記載の情報処理装置。
ニューラルネットワークで使用する変数を量子化する場合の量子化誤差を算出し、
前記ニューラルネットワークの過去の学習により得られた第１の認識率に関する参照情報と、前記ニューラルネットワークの計算により得られる第２の認識率とに基づいて、閾値を生成し、
算出された前記量子化誤差と、生成された前記閾値とに基づいて、前記ニューラルネットワークの計算に使用する変数のうちの量子化する第１の変数と、データ型とを決定し、
前記第１の変数を前記データ型で示した第２の変数を使用して、前記ニューラルネットワークの計算を実行する、処理を情報処理装置が有するプロセッサに実行させる情報処理方法。
ニューラルネットワークで使用する変数を量子化する場合の量子化誤差を算出し、
前記ニューラルネットワークの過去の学習により得られた第１の認識率に関する参照情報と、前記ニューラルネットワークの計算により得られる第２の認識率とに基づいて、閾値を生成し、
算出された前記量子化誤差と、生成した前記閾値とに基づいて、前記ニューラルネットワークの計算に使用する変数のうちの量子化する第１の変数と、データ型とを決定し、
前記第１の変数を前記データ型で示した第２の変数を使用して、前記ニューラルネットワークの計算を実行する、処理を情報処理装置が有するプロセッサに実行させる情報処理プログラム。