JP7243498B2

JP7243498B2 - 演算処理装置、制御プログラム、及び制御方法

Info

Publication number: JP7243498B2
Application number: JP2019129368A
Authority: JP
Inventors: 真紀子伊藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2023-03-22
Anticipated expiration: 2039-07-11
Also published as: US20210012192A1; EP3764217A1; CN112215340A; US11410036B2; JP2021015420A

Description

本発明は、演算処理装置、制御プログラム、及び制御方法に関する。

演算処理装置において、固定小数点数データに対する命令実行後の当該データ中のビット分布についての統計情報に基づき、当該データの小数点位置をシフトさせる手法が知られている。この手法により、例えば、深層学習に係る演算処理を固定小数点数で精度よく実行することができ、回路規模と消費電力とを削減することができる。

特開平７－８４９７５号公報特開平７－１３４６００号公報特開２０１８－１２４６８１号公報

演算処理装置に対して、ニューラルネットワーク等の学習モデルのパラメータを学習させる場合、学習の統計情報に基づき推定される小数点位置と、実際のパラメータや出力データの分布との間にズレが発生する場合がある。

当該ズレが発生する場合、統計情報に基づく小数点位置の更新によって、ズレが小さい場合と比較して固定小数点の飽和又は丸めによる量子化誤差が増大し、学習が不安定になる、換言すれば、学習結果の精度が低下することがある。

一つの側面では、本発明は、学習モデルの学習結果の精度低下を抑制することを目的の１つとする。

１つの側面では、演算処理装置は、記憶部と、決定部と、を備えてよい。前記記憶部は、所定の学習モデルを繰り返し学習させる際に、前記繰り返しごとに取得される複数の固定小数点数データの各々についての、最上位ビットの位置又は最下位ビットの位置の分布に関する統計情報、に基づき得られる、固定小数点数データの小数点位置の誤差を記憶してよい。前記決定部は、前記繰り返しごとの誤差の傾向に基づき、前記学習に利用する固定小数点数データの小数点位置を補正するためのオフセット量を決定してよい。

１つの側面では、学習モデルの学習結果の精度低下を抑制することができる。

第１実施形態に係る学習装置の機能構成例を示すブロック図である。データ記憶部が記憶する情報の一例を示す図である。 Convolutional Neural Network（ＣＮＮ）に対する深層学習の一例を説明するための図である。ＣＮＮの各層における学習計算の一例を示す図である。パラメータ記憶部が記憶する情報が更新される様子の一例を示す図である。ＣＮＮの各層における変数のデータ表現例を示す図である。比較例に係る学習装置による処理を示す図である。非符号となる最上位ビットの分布を表すヒストグラムの一例を示す図である。小数点位置の更新処理の一例を示す図である。小数点位置の更新処理の一例を示す図である。ｔ～ｔ＋２番目のミニバッチのCount Leading Sign（ＣＬＳ）の分布情報Ｓ（ｔ）～Ｓ（ｔ＋２）の一例を示す図である。順伝播における小数点位置の補正処理の一例において利用される統計情報を示す図である。逆伝播における小数点位置の補正処理の一例において利用される統計情報を示す図である。学習の進みと小数点位置の決定処理との一例を説明するための図である。情報記憶部が記憶する情報の一例を示す図である。飽和桁数を説明するための図である。ヒストグラムの重心の算出例を説明するための図である。小数点位置の補正処理の一例を説明する図である。決定部が、ブロックの最初のレイヤの履歴を利用する場合を例示する図である。順伝播における補正値（予測値）と実際の差分値との関係のシミュレーション結果の一例を示す図である。逆伝播における補正値（予測値）と実際の差分値との関係のシミュレーション結果の一例を示す図である。第１実施形態に係る学習装置の動作例を説明するフローチャートである。図２２に示すバッチの学習処理の動作例を説明するフローチャートである。第２実施形態に係る学習装置の機能構成例を示すブロック図である。情報記憶部が記憶する情報の一例を示す図である。小数点位置の補正処理の一例を説明する図である。第３実施形態に係る学習装置の機能構成例を示すブロック図である。予測器のネットワーク構成の一例を示す図である。予測器の学習データの一例を説明する図である。第３実施形態に係る学習装置の動作例を説明するフローチャートである。図３０に示すバッチの学習処理の動作例を説明するフローチャートである。第１～第３実施形態に係るコンピュータのハードウェア構成例を示すブロック図である。

以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の説明で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

〔１〕第１実施形態
〔１－１〕機能構成例
図１は、第１実施形態の一例としての学習装置１の機能構成例を示すブロック図である。学習装置１は、深層学習に係る演算処理等の種々の演算処理を行なう演算処理装置（図示省略）、を備える情報処理装置の一例である。学習装置１は、例えば、ニューラルネットワーク等の学習モデルのパラメータを学習してよい。

図１に示すように、学習装置１は、例示的に、データ記憶部１１、学習部１２、パラメータ記憶部１３、決定部１４、及び情報記憶部１５を備えてよい。

データ記憶部１１は、所定の学習モデルを学習させるための学習用データを格納する。学習用データは、図２に例示するように、テーブルの形式で格納されてもよいし、ＤＢ（Database）や配列等の種々の形式で格納されてもよい。

学習用データは、入力データとその入力データに対応する正解データとの組み合わせであってよい。各データは、識別情報を示すデータＩＤにより識別可能である。一例として、データ記憶部１１は、データＩＤ「00001」と、入力データ「Ａ１」と正解データ「Ｂ１」とが対応付けられたエントリを格納してよい。入力データの非限定的な一例としては、ＲＧＢの要素を含む画像データが挙げられる。

学習装置１は、データ記憶部１１に格納された学習用データを用いて、学習モデルの一例であるDeep Neural Network（ＤＮＮ）、例えばConvolutional Neural Network（ＣＮＮ）２０を学習させる。図３は、ＣＮＮ２０に対する深層学習の一例を説明するための図である。

図３に例示するＣＮＮ２０は、Ｃｏｎｖ＿１，Ｐｏｏｌ＿１，Ｃｏｎｖ＿２，Ｐｏｏｌ＿２，ｆｃ１，ｆｃ２，及びｓｍの層（レイヤ）２１を含んでよい。図３に示すように、ＣＮＮ２０に対する深層学習処理では、入力データに対応する正解データがＣＮＮ２０に与えられる。学習装置１は、ＣＮＮ２０に対し入力データを図３の紙面左方向から入力し、各層２１の処理結果を紙面右方向へ伝播させる（順伝播）。そして、学習装置１は、入力データに対する出力データと正解データとを比較し、結果の差分を紙面左方向へ伝播させる（逆伝播）。

例えば、入力データに対して、Ｃｏｎｖ＿１のパラメータの積和演算を実行することで、Ｃｏｎｖ＿１層の畳み込み演算が実行される。Ｃｏｎｖ＿１，Ｃｏｎｖ＿２，ｆｃ１，及びｆｃ２の各層２１はパラメータを保持している。ＣＮＮ２０の最上位の層２１（図３に示すｓｍ）で演算結果が正解データと比較され、比較結果を基に各層２１のパラメータが更新される。

ＣＮＮ２０の各層２１では、図４に例示する計算が行なわれる。図４に示すように、学習計算が行なわれる際、入力データ又は前層２１からの出力データである「ｂｏｔｔｏｍ」と、パラメータである「Ｗｅｉｇｈｔ」との積和演算が実行される。そして、積和演算結果と「Ｂｉａｓ」との和に応じて、出力データ「ｔｏｐ」が出力される。

なお、ＣＮＮ２０の学習及び推論等の処理は、例えば、動的固定小数点プロセッサを備えるLarge Scale Integration（ＬＳＩ）により実行されてよい。

ここで、学習装置１は、固定小数点数データを用いてＣＮＮ２０を繰り返し学習させる。固定小数点数は、小数点位置（桁）を固定して表された数値を意味し、固定小数点数データは、例えば、ＣＮＮ２０の学習において各層２１で扱われる変数や、各層２１の演算結果等を意味してよい。なお、固定小数点数の初期位置（初期小数点位置）は、例えば、浮動小数点数である数値を用いてＣＮＮ２０を１回又は複数回学習させた学習結果（試行結果）に基づき学習装置１が決定してもよいし、ユーザにより指定されてもよい。

なお、例示的に、学習処理のミニバッチ１回を１回の繰り返しとする。ミニバッチとは、画像データを複数同時に学習処理にかけることをいう。例えば、ミニバッチが「１６」とは、１６枚の画像データを同時に学習処理にかけることを意味する。このため、例えば、６５５３６枚の画像データがある場合には、４０９６イタレーションで全画像データを入力したことになる。

学習部１２は、データ記憶部１１に格納された学習用データを固定小数点数によって表現し、固定小数点数である数値を用いてＣＮＮ２０を学習させ、学習結果としてのＣＮＮ２０の各層２１のパラメータＷ_Ｌを得る。なお、ＬはＣＮＮ２０の各層２１を識別するためのインデックスである。パラメータＷ_Ｌは、以下の式（１）に例示されるパラメータベクトルである。なお、添え字「Ｗｎ」は、パラメータＷ_Ｌのベクトル内の要素数を表す。

Ｗ_Ｌ＝｛Ｗ_０，Ｌ，Ｗ_１，Ｌ，・・・，Ｗ_Ｗｎ，Ｌ｝（１）

図５に例示するように、パラメータ記憶部１３のパラメータベクトルは、学習の繰り返しごとに更新後、上書きされる。例えば、繰り返しごとにメモリ上のデータが上書きされ、全学習が終わったときに、重みデータがファイルに書き出されてよい。

決定部１４は、ＣＮＮ２０の学習処理により得られる統計情報に基づき、固定小数点数の小数点位置を決定する。決定部１４が決定した小数点位置は、学習部１２によるＣＮＮ２０の学習に用いられる。

情報記憶部１５は、記憶部の一例であり、決定部１４による小数点位置の決定に利用される、統計情報に基づき得られる情報を記憶する。決定部１４及び情報記憶部１５の詳細は後述する。

〔１－２〕固定小数点数の小数点位置について
図６は、ＣＮＮ２０の各層２１における変数（パラメータ）のデータ表現例を示す図である。深層学習においてパラメータを学習させる際には、膨大な計算量により計算負荷及びメモリ負荷等の負荷がかかり、パラメータの学習時間が長くなる。

ここで、第１実施形態においては、パラメータの学習時間を短縮させるために、上述のように、学習の際に用いる数値を、浮動小数点数（例えば３２ビット浮動小数点数）ではなく固定小数点数（例えば１６ビット又は８ビット固定小数点数等）によって表現する。

学習の際に用いる数値を固定小数点数によって表現することで、図６に示すように、データ量を削減でき、計算負荷及びメモリ負荷等の負荷を低減できるため、パラメータの学習時間を短縮できる。

しかし、固定小数点数は、浮動小数点数に比べ表現可能な数値範囲が狭い。このため、固定小数点数によって表現された数値による学習処理では、学習結果の精度が低くなることがある。

そこで、深層学習の学習中に統計情報を取得して、学習に用いる変数の小数点位置を調整することが考えられる。図７は、比較例に係る学習装置１００による処理を示す図である。学習装置１００は、図７に例示するように、以下の（Ａ）～（Ｃ）の処理を学習終了まで実行する。

（Ａ）学習装置１００は、所定回数（例えばＫ回）のミニバッチを学習中に、各レイヤ２１０の各変数の統計情報を保存する（図７の符号Ａ参照）。

ここで、統計情報は、例えば、以下のいずれか、又は、これらの組み合わせを含んでよい。学習装置１００が実行するアプリケーションプログラムは、プロセッサから統計情報を取得することで、小数点位置を最適化する。アプリケーションプログラムの処理に従ってプロセッサは、Dynamic Fixed Point（動的固定小数点数）演算のための命令を実行する。

・非符号となる最上位ビット位置の分布
・非ゼロとなる最下位ビット位置の分布
・非符号となる最上位ビット位置の最大値
・非ゼロとなる最下位ビット位置の最小値

このように、統計情報は、ミニバッチの学習の繰り返しごとに取得される複数の固定小数点数データの各々についての、最上位ビットの位置又は最下位ビットの位置の分布に関する情報であるといえる。

図８は、非符号となる最上位ビットの分布を表すヒストグラムの一例を示す図である。図８において、縦軸は非符号となる最上位ビット位置の出現個数を示し、横軸は最上位ビット位置を示す。図８の例では、ビット０の紙面右側に小数点があると仮定する。最上位ビット位置の一例としては、Count Leading Sign（ＣＬＳ）の値が挙げられる。ＣＬＳは、正数最上位のビット１の位置（負数で最上位のビット０の位置）を示してよい。

「表現可能な領域」は、１６ビット固定小数点数の数値範囲に含まれる、非符号となる最上位ビットが分布する数値の領域を示す。「飽和される領域」は、上記数値範囲を超え、飽和処理が実行される最上位ビットが分布する数値の領域を示す。飽和処理は、例えば、正の数がオーバーフローした際には正の最大値に、負の数がアンダーフローした際は負の最小値にクリップする処理である。表現可能な領域では表現できない微小な分解能を表すビットが出てきた場合、丸め処理が行なわれる。なお、丸め処理は、アンダーフローが発生した場合に限らず、飽和以外のケースで行なわれてもよい。例えば、アンダーフローが発生した場合は、正の場合は確率的に０又は正の最小値に、負の場合は確率的に０又は負の最大値に丸められてよい。その他のケースにおいても小数点以下が丸められてもよい。

（Ｂ）ミニバッチを学習中にオーバーフローが発生した場合、学習装置１００は、飽和処理を行ない、学習を続行する（図７の符号Ｂ参照）。

（Ｃ）学習装置１００は、Ｋ回のミニバッチ終了後、各レイヤ２１０の各変数について、統計情報に基づき、固定小数点数の小数点位置を調整する。

例えば、学習装置１００は、或るレイヤ２１０の変数について、同一レイヤ２１０の統計情報に基づき小数点位置を調整する。学習装置１００は、このような調整を、レイヤ２１０ごと及び変数ごとに実行する。

図９及び図１０は、小数点位置の更新処理の一例を示す図であり、図９は統計情報に出現する最上位ビットの分布が、学習装置１００の表現可能な領域に収まらない場合を示し、図１０は統計情報に出現する最上位ビットの分布が、表現可能な領域内の場合を示す。

図９に示すように、現在のビット精度が（Ｑ５．１０）である場合、学習装置１００は、次のビット精度として、全体のデータ数に対する或る「数値範囲」のデータ数の割合がオーバーフロー率ｒｍａｘ未満となる、最大の「数値範囲」を決定する。図９の例では、学習装置１００は、次のビット精度を（Ｑ３．１２）に決定する。なお、オーバーフロー率ｒｍａｘは、例えばユーザにより指定されてよい。ビット精度は、ビットデータを定義するＱフォーマットであってよく、例えば（Ｑ５．１０）は、符号ビット１桁、整数部５桁、小数点以下１０桁の１６ビットデータを定義する。

図１０に示すように、現在のビット精度が（Ｑ３．１２）である場合、学習装置１００は、例えば、ヒストグラムのピークが次のビット精度の中央に位置するように調整する。図１０の例では、学習装置１００は、次のビット精度を（Ｑ１．１４）に調整する。なお、学習装置１００は、ヒストグラムの出現個数の平均に合わせるように、ビット精度を調整してもよい。

ここで、ＣＮＮ２００を含むＤＮＮでは、学習の進捗に応じて各レイヤ２１０のパラメータや演算結果出力の分布が変化する。上述した比較例に係る学習装置１００は、動的固定小数点を用いた学習において、Ｋ回のミニバッチ処理で取得した統計情報から、次のＫ回のミニバッチ処理で使用する小数点位置を決定する。

しかし、各ミニバッチのデータ（１回分の学習用データ）は一様ではなく、ミニバッチの入力データや、逆伝播によりフィードバックする誤差の値の分布が変動するため、中間の値の分布が変動する。分布の変動が大きいと、小数点位置と実際のパラメータや出力の分布との間で誤差が生じ、固定小数点の飽和処理や丸め処理による量子化誤差が大きくなるため、学習が不安定になる、換言すれば、認識精度の低下が生じることがある。

図１１は、ｔ～ｔ＋２番目のミニバッチのＣＬＳの分布情報Ｓ（ｔ）～Ｓ（ｔ＋２）の一例を示す図であり、Ｋ＝１を想定している。各バッチのデータは一様ではないため、入力データ及び正解データの変動により、図１１に示すように、値の分布が変動する。図１１の例では、斜線で示す領域が飽和領域、薄い網掛けで示す領域が丸め領域、濃い網掛けで示す領域が表現可能領域である。

図１１に例示するように、ＣＬＳの分布の変動が大きい場合、Ｓ（ｔ＋１）に基づき小数点位置を決定すると、Ｓ（ｔ＋２）において、飽和領域に含まれる出現個数が増加する。このように、１イタレーション（１ｉｔｅｒ）前の分布に基づき小数点位置を決定すると、分布の変動により量子化誤差が大きくなることがある。

そこで、第１実施形態に係る学習装置１は、Ｋ回の統計情報によって決定される小数点位置に対して、前のレイヤの統計情報を使って小数点位置を調整、例えば補正することで、学習モデルの学習結果の精度低下を抑制する。

図１２及び図１３は、小数点位置の補正処理の一例において利用される統計情報２２を示す図である。

図１２及び図１３に例示するように、前のレイヤ２１とは、データの伝播方向に対して、小数点位置の補正対象のレイヤ２１よりも前方の１以上のレイヤ２１、換言すれば、補正対象のレイヤ２１に対するデータの入力側の１以上のレイヤ２１を意味してよい。

例えば、図１２に示すフォワード（順伝播）の場合、小数点位置の補正対象のレイヤ２１ｅよりも前のレイヤ２１は、レイヤ２１ｅの前方のレイヤ２１ａ～２１ｄのうちの少なくとも１つのレイヤ２１となる。図１２の例では、学習装置１は、レイヤ２１ａ～２１ｄのそれぞれの統計情報２２ａ～２２ｄを利用して、レイヤ２１ｅの小数点位置を補正してよい。

一方、例えば、図１３に示すバックワード（逆伝播）の場合、小数点位置の補正対象のレイヤ２１ｅよりも前のレイヤ２１は、レイヤ２１ｅの後方のレイヤ２１ｆ～２１ｐのうちの少なくとも１つのレイヤ２１となる。図１３の例では、学習装置１は、レイヤ２１ｆ～２１ｐのそれぞれの統計情報２２ｆ～２２ｐを利用して、レイヤ２１ｅの小数点位置を補正してよい。

図１４は、学習の進みと小数点位置の決定処理との一例を説明するための図である。学習装置１は、比較例と同様の手法によって、ＣＮＮ２０を、所定回数、例えばＫ回のミニバッチにより学習させる。

学習装置１は、ＣＮＮ２０の学習中に、各イタレーションにおいて、レイヤ２１ａ～２１ｐの学習で得られる統計情報２２ａ～２２ｐを順次取得し、集積する。これらの統計情報２２は、例えば、ＣＮＮ２０の学習及び推論を実行するＬＳＩ等のハードウェアに設けられる又は接続される、レジスタ又はメモリ等に格納されてよい。

学習装置１は、ミニバッチのＫ回分の学習（イタレーションｔ－Ｋ～ｔ－１）の統計情報２２に基づき、各レイヤ２１の小数点位置を更新する。例えば、学習装置１は、統計情報２２ａ～２２ｇに基づき、イタレーションｔのレイヤ２１ａ～２１ｇの基準となる固定小数点数をそれぞれ決定する。決定された固定小数点数は、イタレーションｔを含む次のＫ回（イタレーションｔ～ｔ＋Ｋ－１）のミニバッチの学習の基準として用いられてよい。

また、学習装置１は、イタレーションｔにおける各レイヤ２１の学習において、現レイヤ２１の前のレイヤ２１の統計情報を利用して、小数点位置を順次補正する。

例えば、学習装置１は、レイヤ２１ｂの順伝播演算と、統計情報２２ｂの保存とを実行する前に、イタレーションｔにおけるレイヤ２１ａの統計情報２２ａ（２２Ａ）に基づいて、レイヤ２１ｂの小数点位置を補正する。同様に、学習装置１は、レイヤ２１ａ及び２１ｂの統計情報２２ａ及び２２ｂ（統計情報２２Ｂ）に基づきレイヤ２２ｃの小数点位置を補正し、レイヤ２１ａ～２１ｃの統計情報２２ａ～２２ｃ（統計情報２２Ｃ）に基づきレイヤ２２ｄの小数点位置を補正する。レイヤ２２ｅ以降も同様である。なお、学習装置１は、逆伝播演算の場合は、逆方向、すなわち、レイヤ２１ｐからレイヤ２１ｂの統計情報に基づいて、レイヤ２１の小数点位置を補正してよい。

〔１－３〕小数点位置の補正処理の一例
ＣＮＮ２０における各レイヤ２１の出力の分布は、ミニバッチの画像の組み合わせに影響を受ける。また、各レイヤ２１における重みのパラメータは、勾配法等により少しずつ変化していく。そこで、第１実施形態では、以下に例示する手法により、ミニバッチの特徴から、バッチごとの分布のブレを予測し、小数点位置を補正する補正処理を行なう。

例えば、決定部１４は、学習部１２によるミニバッチの学習中に、ＣＮＮ２０の各層２１の各変数に関する統計情報２２を取得し、取得した統計情報２２から得られる情報を情報記憶部１５に保存する。

情報記憶部１５には、図１５に例示するように、学習処理の繰り返し回数（換言すればイタレーション）を表す繰り返し回数ｉと、ＣＮＮ２０のレイヤ２１ごとの統計情報２２から得られる「特徴値」及び「差分値」とが対応付けられて格納される。

「差分値」は、統計情報２２に基づき得られる、固定小数点数データの小数点位置の誤差の一例であり、例えば、現小数点位置と理想の小数点位置との差分（例えば、整数部のビット数の差分）の値である。現小数点位置は、前イタレーションにおける同一レイヤ２１の統計情報２２から決定される小数点位置である。理想の小数点位置は、現イタレーションにおける統計情報２２から求められる小数点位置である。

例えば、決定部１４は、イタレーションｔのレイヤ１の「差分値」として、図１５に示すように、前イタレーションｔ－１の統計情報２２から決定した現小数点位置と、現イタレーションｔの統計情報２２から求められる理想の小数点位置との差分である「０」を算出する。

「特徴値」は、統計情報２２から得られる小数点位置の特徴に関する情報であり、飽和桁数、ヒストグラムの重心、及び、ヒストグラムそのもの、等のうちの少なくとも１種以上の要素を含んでよい。

「飽和桁数」は、図１６に例示するように、統計情報２２が「０」よりも大きくなる最上位桁と固定小数点数である数値の有効範囲との差分である。図１５には、特徴値として、飽和桁数を例示している。

「ヒストグラムの重心」は、図１７に例示するように、統計情報２２により表現されるヒストグラムに基づき、以下の式（２）により算出されてよい。

「ヒストグラム」は、統計情報２２そのものであってもよいし、統計情報２２の一部、又は、統計情報２２を加工して得られる情報であってもよい。

決定部１４は、学習中に、レイヤ２１ごとに、差分値及び特徴値を取得（算出）し、数得した情報を保存情報として情報記憶部１５に保存してよい。

また、決定部１４は、或るレイヤ２１の学習を開始する前に、情報記憶部１５に設定された、当該或るレイヤ２１よりも前のレイヤ２１に関する保存情報に基づき、当該或るレイヤ２１の学習で用いる変数の小数点位置を補正する。

図１８は、小数点位置の補正処理の一例を説明する図である。決定部１４は、例えば、学習を開始するレイヤ（自レイヤ）２１よりも前のレイヤ２１に関する過去Ｔ（Ｔは１以上の整数）回分の保存情報から、今回のイタレーションと類似するエントリを検索する。

例えば、決定部１４が、レイヤＬ（第１の層）についての小数点位置を補正するための補正値を決定する場合を説明する。決定部１４は、レイヤＬよりも前のレイヤ１～Ｌ－１（第２の層）についての学習のｔ（ｔは２以上の整数）回目の繰り返しにおける誤差の傾向と類似する、ｔ回目よりも前であるｘ（ｘはｔ未満の整数）回目の繰り返しを特定する。なお、第１の層（例えばレイヤＬ）に対する第２の層とは、例えば、ニューラルネットワークにおける先頭のレイヤ２１から、第１の層の１つ前のレイヤ２１までのレイヤ２１のうちの、いずれか１つ以上のレイヤ２１又は２以上の組み合わせのレイヤ２１であると捉えられてよい。以下の説明では、第２の層として、レイヤ１～Ｌ－１を用いるものとする。

図１８の例では、決定部１４は、イタレーションｔにおいて、レイヤＬの学習を開始する際に、イタレーションｔのレイヤ１～Ｌ－１の保存情報と類似するエントリを、イタレーションｔ－Ｔ～ｔ－１のレイヤ１～Ｌ－１の保存情報から検索する。例えば、決定部１４は、情報記憶部１５から、現イタレーションｔのエントリ（符号Ａ参照）と最も類似するイタレーションのエントリ（符号Ｂ参照）を検出する。

類似の判定において、決定部１４は、例えば、差分値どうしの差異及び特徴値どうしの差異の少なくとも一方を、レイヤ１～Ｌ－１の全てのレイヤ２１について合計又は平均等の演算を行なった結果が小さいほど、エントリ間（イタレーション間）の類似度が高いと判定してよい。類似の判定は、上述した手法に限定されず、種々の手法が用いられてよい。

そして、決定部１４は、特定したｘ回目の繰り返しにおけるレイヤＬの誤差に基づき、ｔ回目の繰り返しにおけるレイヤＬについての補正値を決定する。

例えば、決定部１４は、類似すると判定した（検出した）イタレーションにおいてレイヤＬに設定されている「差分値」を、イタレーションｔのレイヤＬに設定する補正値（予測値）として利用する。

補正値は、小数点位置を補正するための「オフセット量」、例えばオフセット値の一例である。換言すれば、決定部１４は、繰り返しごとの誤差の傾向に基づき、学習に利用する固定小数点数データの小数点位置を補正するためのオフセット量を決定する。

図１８の例では、決定部１４は、符号Ｂで示すエントリにおけるレイヤＬの差分値である「１」を、符号Ａで示す現イタレーションｔにおけるレイヤＬの補正値として利用する。例えば、決定部１４は、イタレーションｔ－Ｋ～ｔ－１の統計情報２２に基づき更新されたレイヤＬの固定小数点数（図１４参照）を、イタレーションｔのレイヤＬにおいて、「差分値」に従い、整数ビットに「１」桁追加させてよい。

なお、図１８に示す例では、決定部１４は、情報記憶部１５に保存された保存情報のうち、「差分値」及び「特徴値」の双方に基づいて、エントリ間の類似の判断を行なう場合を示すが、これに限定されるものではない。例えば、決定部１４は、「差分値」及び「特徴値」の一方に基づいて、エントリ間の類似の判断を行なう。

また、図１８に示す例では、決定部１４は、補正対象のレイヤ２１よりも前の全てのレイヤ２１の履歴（統計）に基づいて、補正対象のレイヤ２１の補正値を求める場合を示すが、これに限定されるものではない。

決定部１４は、例えば、補正対象のレイヤ２１（換言すれば第１の層）よりも前の、一部のレイヤ２１（換言すれば第２の層）の履歴に基づいて、補正対象のレイヤ２１の補正値を求めてもよい。一例として、決定部１４は、補正対象のレイヤ２１よりも前のレイヤ２１のうち、レイヤ１のみ、補正対象のレイヤ２１が属するブロックの先頭のレイヤ２１のみ、或いは、これらのレイヤ２１の組み合わせ、等の履歴を利用してもよい。

図１９は、決定部１４が、ブロックの最初のレイヤ２１の履歴を利用する場合を例示する図である。図１９に例示するように、ＣＮＮ２０のレイヤ２１は、入力データに対する処理工程等に応じて、連続した２以上のレイヤ２１単位のブロック２３（図１９の例ではブロック２３ａ～２３ｆ）にグループ化（分類）されることがある。同一ブロック２３内のレイヤ２１どうしは、異なるブロック２３間のレイヤ２１どうしよりも、パラメータの固定小数点位置の変動傾向の相関が強い場合がある。

そこで、決定部１４は、例えば、イタレーションｔにおいてレイヤ２１ｇの補正値を求める場合、レイヤ２１ｇが属するブロック２３ｃの先頭レイヤ２１ｅを、類似の判定対象に決定してよい。この場合、決定部１４は、イタレーションｔにおけるレイヤ２１ｅの保存情報と類似するエントリを、レイヤ２１ｅのイタレーションｔ－Ｔ～ｔ－１から検索し、最も類似するエントリにおけるレイヤ２１ｇの「差分値」を、レイヤ２１ｇの補正値に決定してよい。なお、決定部１４は、例えば、イタレーションｔにおいてレイヤ２１ｇの補正値を求める場合、レイヤ２１ｇが属するブロック２３ｃの、レイヤ２１ｇよりも前の複数のレイヤ２１（例えば、先頭レイヤ２１ｅ及びレイヤ２１ｆ）を、類似の判定対象に決定してもよい。換言すれば、第１の層（例えばレイヤ２１ｇ）に対する第２の層は、例えば、レイヤ２１ｇが属するブロック２３ｃ内における、先頭のレイヤ２１ｅから、レイヤ２１ｇの１つ前のレイヤ２１ｆまでのレイヤ２１のうちのいずれか１つ以上のレイヤ２１又は２以上の組み合わせのレイヤ２１であってよい。

或いは、決定部１４は、レイヤ２１ｇが属するブロック２３ｃの先頭レイヤ２１ｅに加えて、レイヤ２１ｇよりも前のブロック２３ａ及び２３ｂのそれぞれの先頭レイヤ２１ａ及び２１ｃのうちの少なくとも１つを、類似の判定対象に決定してもよい。

このように、類似の判定対象とするレイヤ２１を制限する（絞り込む）ことで、類似の判定の処理負荷を低減させることができ、処理時間を短縮（高速化）できる。

なお、ここまで、順伝播の場合について説明したが、逆伝播の場合は、後方側（図１３の例ではレイヤ２１ｐ）から前方側（図１３の例ではレイヤ２１ａ）に向かって、小数点位置の補正値が求められてよい。このとき、後方側のレイヤ２１の特徴量を利用して、前方側のレイヤ２１の小数点位置が補正されてよい。このように、逆伝播の場合、順伝播の場合と比較して、後方のレイヤ２１から前方のレイヤ２１に向かう順序で小数点位置の補正値が求められる点、並びに、前方のレイヤ２１の統計情報２２ではなく後方のレイヤ２１の統計情報２２を利用する点が異なるが、その他の処理については順伝播の場合と同様であってよい。一例として、逆伝播の場合において、補正対象のレイヤ２１がレイヤ２１ｅである場合、レイヤ２１ｅの後方のレイヤ２１ｆ～２１ｐの統計情報２２ｆ～２２ｐ等のうちの少なくとも１つを利用して、レイヤ２１ｅの小数点位置が補正されてよい。

図２０及び図２１は、それぞれ、順伝播及び逆伝播における、上述した手法により決定された補正値（予測値）と実際の差分値との関係のシミュレーション結果の一例を示す図である。

第１実施形態に係る手法によれば、フォワードの場合におけるｃｏｎｖ５＿４（図２０参照）、及び、バックワードの場合におけるｃｏｎｖ２＿２（図２１参照）のいずれにおいても、小数点位置を適切に補正できたケースが多いことがわかる。

以上のように、第１実施形態に係る学習装置１によれば、情報記憶部１５が、統計情報２２に基づき得られる、固定小数点数データの小数点位置の誤差を記憶する。そして、決定部１４が、繰り返しごとの誤差の傾向に基づき、学習に利用する固定小数点数データの小数点位置を補正するためのオフセット量を決定する。

これにより、例えば、ミニバッチの入力データや、フィードバックする誤差の値の分布が変動する場合であっても、適切な小数点位置に補正することができるため、学習モデルの学習結果の精度低下を抑制することができる。

従って、動的固定小数点数を適用できるニューラルネットワークを増加させることができる。

また、深層学習を固定小数点数により精度良く実行できるため、データ転送量や演算器の回路規模を削減でき、消費電力を削減できる。例えば、３２ビット浮動小数点数を１６ビット固定小数点数に削減する場合、メモリ使用量及びデータ転送量を半減させることができる。また、ＬＳＩにおける積和演算の回路規模を、約半分とすることができる。

〔１－４〕動作例
次に、図２２及び図２３を参照して、第１実施形態に係る学習装置１の動作例を説明する。図２２は、第１実施形態に係る学習装置１の動作例を説明するフローチャートであり、図２３は、図２２に示すバッチの学習処理の動作例を説明するフローチャートである。

図２２に例示するように、学習装置１は、初期小数点位置の決定（ステップＳ１）、回数ｋ＝０の設定（ステップＳ２）、及び、統計情報２２の初期化（ステップＳ３）を行なう。

学習装置１の学習部１２は、ＣＮＮ２０の学習終了か否かを判定する（ステップＳ４）。学習終了と判定した場合（ステップＳ４でＹｅｓ）、処理が終了する。一方、学習終了ではないと判定した場合（ステップＳ４でＮｏ）、処理がステップＳ５に移行する。なお、学習終了の判定基準としては、例えば、学習結果のエラーが閾値を下回ったこと、学習結果の精度が閾値を超えたこと、学習回数が閾値を超えたこと、等の種々の基準のうちのいずれか１つ、又は、２つ以上の組み合わせが用いられてよい。

ステップＳ５において、学習部１２は、ＣＮＮ２０に対するバッチの学習を行ない、各レイヤ２１の統計情報２２を累積する。

また、学習部１２は、ｋに１を加算し（ステップＳ６）、ｋが更新間隔Ｋに達したか否かを判定する（ステップＳ７）。ｋが更新間隔Ｋに達していないと判定した場合（ステップＳ７でＮｏ）、処理がステップＳ４に移行する。一方、ｋが更新間隔Ｋに達したと判定した場合（ステップＳ７でＹｅｓ）、処理がステップＳ８に移行する。

ステップＳ８において、決定部１４は、各種の統計情報２２に基づき、各レイヤ２１の各変数の小数点位置を更新する。ここで更新される小数点位置は、次の更新間隔において各変数の表現に利用される。

また、決定部１４は、ｋ＝０に設定（初期化）し（ステップＳ９）、統計情報２２をリセットし（ステップＳ１０）、処理がステップＳ４に移行する。

なお、ステップＳ１～Ｓ３の処理順序は、図２２の例に限定されず、いずれの処理が先に行なわれてもよく、或いは、これらの処理が並行して行なわれてもよい。また、ステップＳ９及びＳ１０の処理順序は、図２２の例に限定されず、いずれの処理が先に行なわれてもよく、或いは、これらの処理が並行して行なわれてもよい。

次に、図２２のステップＳ５の処理の動作例を説明する。図２３に例示するように、学習部１２は、バッチの学習において、順伝播の最初のレイヤ２１を選択する（ステップＳ１１）。

決定部１４は、情報記憶部１５に格納された保存情報に基づき、小数点位置の補正処理を行なう（ステップＳ１２）。なお、補正処理は、ＣＮＮ２０のフォワード順の最初のレイヤ２１、例えば、図１２のフォワードの例における先頭レイヤ２１ａ（ＣＮＮ２０構造における最初のレイヤ２１ａ）に対しては省略されてよい。

学習部１２は、決定部１４が補正した小数点位置を適用して、当該レイヤ２１の順伝播演算及び統計情報２２の取得を行なう（ステップＳ１３）。

決定部１４は、当該レイヤ２１について、特徴値及び差分値を算出して、保存情報として情報記憶部１５に保存する（ステップＳ１４）。

学習部１２は、選択中のレイヤ２１が順伝播の最後のレイヤ２１（図１２の例ではレイヤ２１ｐ）か否かを判定する（ステップＳ１５）。順伝播の最後のレイヤ２１ではないと判定した場合（ステップＳ１５でＮｏ）、学習部１２は、順伝播方向の次のレイヤ２１を選択し、処理がステップＳ１２に移行する。一方、順伝播の最後のレイヤ２１であると判定した場合（ステップＳ１５でＹｅｓ）、学習部１２は、逆伝播の最初のレイヤ２１を選択する（ステップＳ１６）。

決定部１４は、情報記憶部１５に格納された保存情報に基づき、小数点位置の補正処理を行なう（ステップＳ１７）。なお、補正処理は、ＣＮＮ２０のバックワード順の最初のレイヤ２１、例えば、図１３のバックワードの例における先頭レイヤ２１ｐ（ＣＮＮ２０構造における最後のレイヤ２１ｐ）に対しては省略されてよい。

学習部１２は、決定部１４が補正した小数点位置を適用して、当該レイヤ２１の逆伝播演算及び統計情報２２の取得を行なう（ステップＳ１８）。

決定部１４は、当該レイヤ２１について、特徴値及び差分値を算出して、保存情報として情報記憶部１５に保存する（ステップＳ１９）。

学習部１２は、選択中のレイヤ２１が逆伝播の最後のレイヤ２１（図１３の例ではレイヤ２１ａ）か否かを判定する（ステップＳ２０）。逆伝播の最後のレイヤ２１ではないと判定した場合（ステップＳ２０でＮｏ）、学習部１２は、逆伝播方向の次のレイヤ２１を選択し、処理がステップＳ１７に移行する。一方、逆伝播の最後のレイヤ２１であると判定した場合（ステップＳ２０でＹｅｓ）、学習部１２は、順伝播の最初のレイヤ２１を選択する（ステップＳ２１）。

学習部１２は、選択したレイヤ２１に対して、重み及びバイアス更新、並びに、統計情報２２の取得を行ない（ステップＳ２２）、選択中のレイヤ２１が順伝播の最後のレイヤ２１（図１２の例ではレイヤ２１ｐ）か否かを判定する（ステップＳ２３）。順伝播の最後のレイヤ２１ではないと判定した場合（ステップＳ２３でＮｏ）、学習部１２は、順伝播方向の次のレイヤ２１を選択し、処理がステップＳ２２に移行する。一方、順伝播の最後のレイヤ２１であると判定した場合（ステップＳ２３でＹｅｓ）、処理が終了する。

〔２〕第２実施形態
次に、第２実施形態について説明する。第２実施形態は、第１実施形態に係る決定部１４の処理を簡略化した実施形態と位置付けることができる。

図２４は、第２実施形態に係る学習装置１Ａの機能構成例を示すブロック図である。図２４に例示するように、学習装置１Ａは、第１実施形態に係る学習装置１が備える決定部１４及び情報記憶部１５に代えて、決定部１４Ａ及び情報記憶部１５Ａを備える。なお、以下で言及しない説明については、第１実施形態と同様である。

決定部１４Ａは、決定部１４とは異なり、図２５に例示するように、情報記憶部１５Ａに対して、現イタレーション分（１イタレーション分）の特徴値及び差分値を保存する。

例えば、決定部１４Ａは、図２６に示すように、学習を開始するレイヤ（自レイヤ）２１よりも前のレイヤ２１の現イタレーションｔの保存情報に基づき、レイヤＬの補正値を決定する。

一例として、決定部１４Ａは、レイヤＬの補正値として、最初のレイヤ２１（図１２の例ではレイヤ２１ａ）の差分値を利用してもよいし、図１９に例示するように、レイヤＬの属するブロック２３における先頭のレイヤ２１の差分値を利用してもよい。或いは、決定部１４Ａは、先頭のブロックレイヤ１～レイヤＬ－１の差分値の平均又は加重平均等の演算結果を利用してもよい。

なお、決定部１４Ａは、フォワード順又はバックワード順の最初のレイヤ２１については、第１実施形態と同様に、補正値の算出を省略し、Ｋ回（更新間隔）単位で算出される小数点位置の更新結果を利用してよい。

以上のように、第２実施形態に係る学習装置１Ａによっても、第１実施形態と同様の効果を奏することができる。また、情報記憶部１５Ａ内の現イタレーションｔの差分値が、レイヤＬの小数点位置の補正値として利用されるため、類似の判定処理を省略でき、処理負荷の低減を図ることができるため、処理時間の短縮（高速化）を図ることができる。

〔３〕第３実施形態
次に、第３実施形態について説明する。第３実施形態は、レイヤ２１ごとの補正値を、深層学習により予測する実施形態と位置付けることができる。

図２７は、第３実施形態に係る学習装置１Ｂの機能構成例を示すブロック図である。図２７に例示するように、学習装置１Ｂは、第１実施形態に係る学習装置１が備える決定部１４に代えて、決定部１４Ｂを備える。なお、以下で言及しない説明については、第１実施形態と同様である。

決定部１４Ｂは、レイヤＬの補正値を、深層学習により、学習部１２によるＣＮＮ２０の学習と同時に学習し、推論することにより求める。

決定部１４Ｂは、第１実施形態と同様に、Ｔ回分のミニバッチの統計情報２２を含む特徴値と、補正値、換言すれば現小数点位置と理想値との差分値と、を含む保存情報を、情報記憶部１５Ｂに保存してよい。

例えば、決定部１４Ｂは、図２８に示すように、補正値（オフセット量）決定用の学習モデルの一例である予測器３０を学習させてよい。図２８は、予測器３０のネットワーク構成の一例を示す図である。予測器３０は、一例として、層（レイヤ）３１ａ～３１ｃを備える３層程度のネットワーク構成であってよい。なお、これらのレイヤ３１は、いずれも、全結合層（ｆｃ）であってよい。

決定部１４Ｂは、Ｔ回のミニバッチごとに、予測器３０を学習し、予測器３０を用いて補正値を予測してよい。なお、予測器３０の学習間隔Ｔと、ＣＮＮ２０における小数点位置の更新間隔Ｋとは、例えば、Ｔ＝Ｋ×Ｎ（Ｎは１以上の整数）の関係を有してよい。換言すれば、Ｔ＝Ｋに限定されない。

このように、決定部１４Ｂは、学習間隔Ｔにおいて情報記憶部１５Ｂに保存したデータを用いて、予測器３０を学習させる。

図２９は、予測器３０の学習データの一例を説明する図である。図２９に例示するように、予測器３０の学習においては、レイヤＬの場合、学習データとして、ＣＮＮ２０の各レイヤ２１（レイヤ１～Ｌ－１）の統計情報２２が用いられてよい。また、決定部１４Ｂは、正解ラベルとして、レイヤＬの差分値を利用してよい。

例えば、決定部１４Ｂは、「（Ｌ－１）×ｗ」個の統計情報２２を学習データとして利用し、これらの学習データの正解データとして、情報記憶部１５Ｂに保存した差分値を利用して、図２８に例示する予測器３０を学習させてよい。なお、（Ｌ－１）は、自レイヤＬよりも前のレイヤ数を示し、ｗは、統計情報２２のビット幅を示す。決定部１４Ｂは、統計情報２２として、情報記憶部１５Ｂに保存された特徴値を利用してもよいし、ＣＮＮ２０を実現するアクセラレータにおいて保存される統計情報２２を参照し利用してもよい。

そして、決定部１４Ｂは、学習した予測器３０を用いて、レイヤＬの補正値を予測する。例えば、決定部１４Ｂは、予測器３０に対して、各レイヤ２１（レイヤ１～Ｌ－１）の統計情報２２を入力とし、補正値（例えば実数）を出力として、レイヤＬの小数点位置の補正値を予測（決定）する。なお、決定部１４Ｂは、予測器３０から出力される実数の補正値に対して、整数への丸め処理を行なってよい。

次に、図３０及び図３１を参照して、第３実施形態に係る学習装置１Ｂの動作例を説明する。図３０は、第３実施形態に係る学習装置１Ｂの動作例を説明するフローチャートであり、図３１は、図３０に示すバッチの学習処理の動作例を説明するフローチャートである。なお、図３０において、図２２と同一の符号が付された処理は、図２２に示す処理と同様である。また、図３１において、図２３と同一の符号が付された処理は、図２３に示す処理と同様である。

図３０に示すように、ステップＳ２の後、ステップＳ３１において、学習装置１Ｂは、ｔ＝０に設定（初期化）し、処理がステップＳ３に移行する。

ステップＳ４でＮｏの場合、ステップＳ３２において、学習部１２は、バッチの学習及びレイヤ２１の各変数の統計情報２２の累積を行なう。このとき、決定部１４Ｂは、後述するステップＳ３７で学習が行なわれた予測器３０に基づき、レイヤ２１の小数点位置を補正する。

ステップＳ６の後、ステップＳ３３において、決定部１４Ｂは、ｔに１を加算し、処理がステップＳ３４に移行する。

ステップＳ３４において、学習部１２は、ｋが更新間隔Ｋに達したか否かを判定する。ｋが更新間隔Ｋに達していないと判定した場合（ステップＳ３４でＮｏ）、処理がステップＳ３６に移行する。一方、ｋが更新間隔Ｋに達したと判定した場合（ステップＳ３４でＹｅｓ）、処理がステップＳ８に移行する。

ステップＳ９の後、ステップＳ３５において、決定部１４Ｂは、統計情報２２をリセットし、処理がステップＳ３６に移行する。

ステップＳ３５の後、又は、ステップＳ３４でＮｏの場合、ステップＳ３６において、決定部１４Ｂは、ｔが学習間隔Ｔに達したか否かを判定する。ｔが学習間隔Ｔに達していないと判定した場合（ステップＳ３６でＮｏ）、処理がステップＳ４に移行する。一方、ｔが学習間隔Ｔに達したと判定した場合（ステップＳ３６でＹｅｓ）、処理がステップＳ３７に移行する。

ステップＳ３７において、決定部１４Ｂは、予測器３０を利用して、各レイヤ２１の補正値の学習を実行し、処理がステップＳ３８に移行する。

ステップＳ３８において、決定部１４Ｂは、ｔ＝０に設定（初期化）し、処理がステップＳ４に移行する。

なお、ステップＳ１～Ｓ３及びＳ３１の処理順序は、図３０に示す例に限定されず、いずれの処理が先に行なわれてもよく、或いは、これらの処理が並行して行なわれてもよい。また、ステップＳ６及びＳ４４の処理順序は、図３０に示す例に限定されず、いずれの処理が先に行なわれてもよく、或いは、これらの処理が並行して行なわれてもよい。さらに、ステップＳ９及びＳ３５の処理順序は、図３０に示す例に限定されず、いずれの処理が先に行なわれてもよく、或いは、これらの処理が並行して行なわれてもよい。

次に、図３０のステップＳ３２の処理の動作例を説明する。図３１に例示するように、決定部１４Ｂは、ステップＳ１１の後、又は、ステップＳ１５でＮｏの場合、ステップＳ４１において、予測器３０に基づきレイヤ２１の補正値を予測し、予測した補正値を用いて小数点位置を補正して、処理がステップＳ１３に移行する。

ステップＳ１３の後、ステップＳ４２において、決定部１４Ｂは、統計情報２２及び差分値を保存情報として情報記憶部１５Ｂに保存し、処理がステップＳ１５に移行する。

ステップＳ１６の後、又は、ステップＳ２０でＮｏの場合、ステップＳ４３において、決定部１４Ｂは、予測器３０に基づきレイヤ２１の補正値を予測し、予測した補正値を用いて小数点位置を補正して、処理がステップＳ１８に移行する。

ステップＳ１８の後、ステップＳ４４において、決定部１４Ｂは、統計情報２２及び差分値を保存情報として情報記憶部１５Ｂに保存し、処理がステップＳ２０に移行する。

以上のように、第３実施形態に係る学習装置１Ｂによっても、第１及び第２実施形態と同様の効果を奏することができる。また、統計情報２２に基づき、予測器３０を利用して、レイヤＬの小数点位置の補正値が予測されるため、予測器３０の学習が進むにつれて、より高精度に補正値を決定することができる。

なお、第３実施形態において、予測器３０への入力データとするレイヤ２１の統計情報２２を、先頭のレイヤ２１やブロック２３の先頭のレイヤ２１等の統計情報２２に制限してもよい。これにより、第１及び第２実施形態と同様に、処理負荷の低減を図ることができ、処理時間を短縮（高速化）できる。

〔４〕ハードウェア構成例
図３２は、コンピュータ１０のハードウェア（Hardware；ＨＷ）構成例を示すブロック図である。第１、第２及び第３実施形態に係る学習装置１、１Ａ及び１Ｂの機能は、例えば、図３２に示すコンピュータ１０のＨＷ（ＨＷリソース）により実現されてよい。なお、学習装置１、１Ａ及び１Ｂの機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合、各コンピュータが図３２に例示するＨＷ構成を備えてよい。

図３２に示すように、コンピュータ１０は、例示的に、プロセッサ１０ａ、メモリ１０ｂ、ＬＳＩ１０ｃ、ＬＳＩ用メモリ１０ｄ、記憶部１０ｅ、Interface（ＩＦ）部１０ｆ、Input / Output（Ｉ／Ｏ）部１０ｇ、及び読取部１０ｈを備えてよい。

プロセッサ１０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ１０ａは、コンピュータ１０内の各ブロックとバス１０ｋにより相互に通信可能に接続されてよい。なお、プロセッサ１０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

プロセッサ１０ａとしては、例えば、ＣＰＵ、ＭＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ等の種々の集積回路（Integrated Circuit；ＩＣ）が挙げられる。なお、プロセッサ１０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。

メモリ１０ｂは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ１０ｂとしては、例えばDynamic Random Access Memory（ＤＲＡＭ）等の揮発性メモリが挙げられる。

ＬＳＩ１０ｃは、固定小数点数の小数点位置を動的に変更するためのプロセッサを備え、プロセッサ１０ａと協働して、所定の処理を実行するＨＷである。ＬＳＩ１０ｃは、バス１０ｋ経由でプロセッサ１０ａから動作を制御されてよい。例えば、ＬＳＩ１０ｃは、複数（例えば比較的多数）の積和演算器と、複数（例えば比較的少数）の特殊演算器とを備えてよい。

一例として、第１～第３実施形態に係るＬＳＩ１０ｃは、学習部１２として動作するプロセッサ１０ａからの指示（制御）に応じて、ＣＮＮ２０の学習及び推論等の処理を実行してよい。また、第３実施形態に係るＬＳＩ１０ｃは、決定部１４Ｂとして動作するプロセッサ１０ａからの指示（制御）に応じて、予測器３０の学習及び推論等の処理を実行してよい。

なお、ＬＳＩ１０ｃには制御コア（図示省略）が含まれてもよい。この場合、例えば、バス１０ｋ経由でプロセッサ１０ａと制御コアとが通信処理を行ない、プロセッサ１０ａから出力された制御情報を得た制御コアがＬＳＩ１０ｃ全体を制御してよい。

ＬＳＩ１０ｃとしては、例えば、１以上のGraphics Processing Unit（ＧＰＵ）、１以上のＦＰＧＡ、及び、１以上のＡＳＩＣ、のうちのいずれか、又は、これらの２以上の組み合わせが挙げられる。なお、上述した演算処理装置は、プロセッサ１０ａに加えて、ＬＳＩ１０ｃを含むものとして捉えてもよい。すなわち、プロセッサ１０ａ及びＬＳＩ１０ｃは、学習装置１、１Ａ又は１Ｂとして、ＣＮＮ２０に対する学習及び推論等の演算を行なう演算処理装置の一例であるといえる。

ＬＳＩ用メモリ１０ｄは、ＬＳＩ１０ｃに対する制御データ（制御情報）や、ＬＳＩ１０ｃの演算における入出力データ等を記憶してよく、例えば、ＤＲＡＭ等のメモリや、レジスタ等を含んでよい。第１～第３実施形態に係る統計情報２２は、ＬＳＩ用メモリ１０ｄに格納されてもよい。或いは、統計情報２２は、ＬＳＩ１０ｃ内部のレジスタ等に格納されてもよい。なお、ＬＳＩ用メモリ１０ｄは、符号１０ｍで示すバス（通信線）によりＬＳＩ１０ｃと直接的に接続されてもよく、この場合、バス１０ｋには接続されなくてもよい。

記憶部１０ｅは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部１０ｅとしては、Hard Disk Drive（ＨＤＤ）等の磁気ディスク装置、Solid State Drive（ＳＳＤ）等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、Storage Class Memory（ＳＣＭ）、Read Only Memory（ＲＯＭ）等が挙げられる。

また、記憶部１０ｅは、コンピュータ１０の各種機能の全部若しくは一部を実現するプログラム１０ｉ（制御プログラム）を格納してよい。プログラム１０ｉは、例えば、学習部１２、並びに、決定部１４、１４Ａ又は１４Ｂを実現するプロセスを含んでよい。学習装置１、１Ａ又は１Ｂのプロセッサ１０ａは、記憶部１０ｅに格納されたプログラム１０ｉをメモリ１０ｂ又はＬＳＩ用メモリ１０ｄに展開して、プログラム１０ｉが有する各プロセスを実行することにより、学習装置１、１Ａ又は１Ｂとして動作する。

なお、学習装置１、１Ａ及び１Ｂが備える、データ記憶部１１、パラメータ記憶部１３、並びに、情報記憶部１５又は１５Ａは、例えば、メモリ１０ｂ、ＬＳＩ用メモリ１０ｄ、及び、記憶部１０ｅが有する記憶領域の少なくとも一部により、実現されてよい。

ＩＦ部１０ｆは、インターネット等の図示しないネットワークとの間の接続及び通信の制御等を行なう通信ＩＦの一例である。例えば、ＩＦ部１０ｆは、Local Area Network（ＬＡＮ）、或いは、光通信（例えばFibre Channel（ＦＣ））等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。例えば、プログラム１０ｉは、当該通信ＩＦを介して、図示しないネットワークからコンピュータ１０にダウンロードされ、記憶部１０ｅに格納されてもよい。

Ｉ／Ｏ部１０ｇは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。

読取部１０ｈは、記録媒体１０ｊに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部１０ｈは、記録媒体１０ｊを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部１０ｈとしては、例えば、Universal Serial Bus（ＵＳＢ）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体１０ｊにはプログラム１０ｉが格納されてもよく、読取部１０ｈが記録媒体１０ｊからプログラム１０ｉを読み出して記憶部１０ｅに格納してもよい。

記録媒体１０ｊとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、Compact Disc（ＣＤ）、Digital Versatile Disc（ＤＶＤ）、ブルーレイディスク、Holographic Versatile Disc（ＨＶＤ）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

上述したコンピュータ１０のＨＷ構成は例示である。従って、コンピュータ１０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。例えば、学習装置１、１Ａ又は１Ｂにおいて、Ｉ／Ｏ部１０ｇ及び読取部１０ｈの少なくとも一方は、省略されてもよい。

〔５〕その他
上述した第１～第３実施形態に係る技術は、以下のように変形、変更して実施することができる。

例えば、図１、図２４、又は図２７に示す、学習装置１、１Ａ又は１Ｂが有するブロックは、任意の組み合わせで併合してもよく、それぞれ分割してもよい。

〔６〕付記
以上の第１～第３実施形態に関し、更に以下の付記を開示する。

（付記１）
所定の学習モデルを繰り返し学習させる際に、前記繰り返しごとに取得される複数の固定小数点数データの各々についての、最上位ビットの位置又は最下位ビットの位置の分布に関する統計情報、に基づき得られる、固定小数点数データの小数点位置の誤差を記憶する記憶部と、
前記繰り返しごとの誤差の傾向に基づき、前記学習に利用する固定小数点数データの小数点位置を補正するためのオフセット量を決定する決定部と、を備える、
演算処理装置。

（付記２）
前記学習モデルは、ニューラルネットワークであり、
前記記憶部は、前記誤差を、前記ニューラルネットワークに含まれる複数の層の各々について記憶し、
前記決定部は、前記オフセット量を、前記複数の層の各々について決定する、
付記１に記載の演算処理装置。

（付記３）
前記決定部は、第１の層よりも前の第２の層について前記記憶部が記憶する誤差に基づき、前記第１の層についてのオフセット量を決定する、
付記２に記載の演算処理装置。

（付記４）
前記決定部は、前記第２の層についての前記学習のｔ（ｔは２以上の整数）回目の繰り返しにおける誤差の傾向と類似する、前記ｔ回目よりも前であるｘ（ｘはｔ未満の整数）回目の繰り返しを特定し、特定した前記ｘ回目の繰り返しにおける前記第１の層の誤差に基づき、前記ｔ回目の繰り返しにおける前記第１の層についてのオフセット量を決定する、
付記３に記載の演算処理装置。

（付記５）
前記決定部は、前記第２の層についての前記統計情報と、前記第１の層についての誤差と、を用いてオフセット量決定用の学習モデルを学習させ、前記オフセット量決定用の学習モデルの学習結果に基づいて、前記第１の層についてのオフセット量を決定する、
付記３又は付記４に記載の演算処理装置。

（付記６）
前記記憶部は、前記統計情報に基づき前記繰り返しごとに得られる特徴値を前記誤差と対応付けて記憶し、
前記決定部は、前記記憶部が記憶する前記第２の層についての誤差と特徴値との組み合わせに基づき、前記第１の層についてのオフセット量を決定する、
付記３又は付記４に記載の演算処理装置。

（付記７）
前記第２の層は、前記ニューラルネットワークにおける先頭の層から、前記第１の層の１つ前の層までの層のうちの、いずれか１つの層又は２以上の組み合わせの層である、
付記３～６のいずれか１項に記載の演算処理装置。

（付記８）
前記第２の層は、前記ニューラルネットワークにおける先頭の層である、
付記３～６のいずれか１項に記載の演算処理装置。

（付記９）
前記第２の層は、前記複数の層を連続した２以上の層単位で分類したブロックのうちの、前記第１の層が属するブロック内の先頭の層である、
付記３～６のいずれか１項に記載の演算処理装置。

（付記１０）
前記第２の層は、前記複数の層を連続した２以上の層単位で分類したブロックのうちの、前記第１の層が属するブロック内における、先頭の層から前記第１の層の１つ前の層までの層のうちのいずれか１つの層又は２以上の組み合わせの層である、
付記３～６のいずれか１項に記載の演算処理装置。

（付記１１）
所定の学習モデルを繰り返し学習させる際に、前記繰り返しごとに取得される複数の固定小数点数データの各々についての、最上位ビットの位置又は最下位ビットの位置の分布に関する統計情報、に基づき得られる、固定小数点数データの小数点位置の誤差を記憶部に記憶し、
前記繰り返しごとの誤差の傾向に基づき、前記学習に利用する固定小数点数データの小数点位置を補正するためのオフセット量を決定する、
処理をコンピュータに実行させる、制御プログラム。

（付記１２）
前記学習モデルは、ニューラルネットワークであり、
前記コンピュータに、
前記誤差を、前記ニューラルネットワークに含まれる複数の層の各々について前記記憶部に記憶し、
前記オフセット量を、前記複数の層の各々について決定する、
処理を実行させる、付記１１に記載の制御プログラム。

（付記１３）
前記コンピュータに、
第１の層よりも前の第２の層について前記記憶部が記憶する誤差に基づき、前記第１の層についてのオフセット量を決定する、
処理を実行させる、付記１２に記載の制御プログラム。

（付記１４）
前記コンピュータに、
前記第２の層についての前記学習のｔ（ｔは２以上の整数）回目の繰り返しにおける誤差の傾向と類似する、前記ｔ回目よりも前であるｘ（ｘはｔ未満の整数）回目の繰り返しを特定し、
特定した前記ｘ回目の繰り返しにおける前記第１の層の誤差に基づき、前記ｔ回目の繰り返しにおける前記第１の層についてのオフセット量を決定する、
処理を実行させる、付記１３に記載の制御プログラム。

（付記１５）
前記コンピュータに、
前記第２の層についての前記統計情報と、前記第１の層についての誤差と、を用いてオフセット量決定用の学習モデルを学習させ、
前記オフセット量決定用の学習モデルの学習結果に基づいて、前記第１の層についてのオフセット量を決定する、
処理を実行させる、付記１３又は付記１４に記載の制御プログラム。

（付記１６）
前記コンピュータに、
前記統計情報に基づき前記繰り返しごとに得られる特徴値を前記誤差と対応付けて前記記憶部に記憶し、
前記記憶部が記憶する前記第２の層についての誤差と特徴値との組み合わせに基づき、前記第１の層についてのオフセット量を決定する、
処理を実行させる、付記１３又は付記１４に記載の制御プログラム。

（付記１７）
所定の学習モデルを繰り返し学習させる際に、前記繰り返しごとに取得される複数の固定小数点数データの各々についての、最上位ビットの位置又は最下位ビットの位置の分布に関する統計情報、に基づき得られる、固定小数点数データの小数点位置の誤差を記憶部に記憶し、
前記繰り返しごとの誤差の傾向に基づき、前記学習に利用する固定小数点数データの小数点位置を補正するためのオフセット量を決定する、
処理をコンピュータに実行させる、制御方法。

（付記１８）
前記学習モデルは、ニューラルネットワークであり、
前記コンピュータに、
前記誤差を、前記ニューラルネットワークに含まれる複数の層の各々について前記記憶部に記憶し、
前記オフセット量を、前記複数の層の各々について決定する、
処理を実行させる、付記１７に記載の制御方法。

（付記１９）
前記コンピュータに、
第１の層よりも前の第２の層について前記記憶部が記憶する誤差に基づき、前記第１の層についてのオフセット量を決定する、
処理を実行させる、付記１８に記載の制御方法。

（付記２０）
前記コンピュータに、
前記第２の層についての前記学習のｔ（ｔは２以上の整数）回目の繰り返しにおける誤差の傾向と類似する、前記ｔ回目よりも前であるｘ（ｘはｔ未満の整数）回目の繰り返しを特定し、
特定した前記ｘ回目の繰り返しにおける前記第１の層の誤差に基づき、前記ｔ回目の繰り返しにおける前記第１の層についてのオフセット量を決定する、
処理を実行させる、付記１９に記載の制御方法。

（付記２１）
前記コンピュータに、
前記第２の層についての前記統計情報と、前記第１の層についての誤差と、を用いてオフセット量決定用の学習モデルを学習させ、
前記オフセット量決定用の学習モデルの学習結果に基づいて、前記第１の層についてのオフセット量を決定する、
処理を実行させる、付記１９又は付記２０に記載の制御方法。

１、１Ａ、１Ｂ学習装置
１０コンピュータ
１０ａプロセッサ
１０ｂメモリ
１０ｃＬＳＩ
１０ｄＬＳＩ用メモリ
１０ｅ記憶部
１０ｆＩＦ部
１０ｇＩ／Ｏ部
１０ｈ読取部
１０ｉプログラム
１０ｊ記録媒体
１０ｋバス
１１データ記憶部
１２学習部
１３パラメータ記憶部
１４、１４Ａ、１４Ｂ決定部
１５、１５Ａ情報記憶部
２０ＣＮＮ
２１、２１ａ～２１ｐ層（レイヤ）
２２、２２ａ～２２ｐ統計情報
２３、２３ａ～２３ｆブロック

Claims

所定の学習モデルを繰り返し学習させる際に、前記繰り返しごとに取得される複数の固定小数点数データの各々についての、最上位ビットの位置又は最下位ビットの位置の分布に関する統計情報、に基づき得られる、固定小数点数データの小数点位置の誤差を記憶する記憶部と、
前記繰り返しごとの誤差の傾向に基づき、前記学習に利用する固定小数点数データの小数点位置を補正するためのオフセット量を決定する決定部と、を備える、
演算処理装置。
前記学習モデルは、ニューラルネットワークであり、
前記記憶部は、前記誤差を、前記ニューラルネットワークに含まれる複数の層の各々について記憶し、
前記決定部は、前記オフセット量を、前記複数の層の各々について決定する、
請求項１に記載の演算処理装置。
前記決定部は、第１の層よりも前の第２の層について前記記憶部が記憶する誤差に基づき、前記第１の層についてのオフセット量を決定する、
請求項２に記載の演算処理装置。
前記決定部は、前記第２の層についての前記学習のｔ（ｔは２以上の整数）回目の繰り返しにおける誤差の傾向と類似する、前記ｔ回目よりも前であるｘ（ｘはｔ未満の整数）回目の繰り返しを特定し、特定した前記ｘ回目の繰り返しにおける前記第１の層の誤差に基づき、前記ｔ回目の繰り返しにおける前記第１の層についてのオフセット量を決定する、
請求項３に記載の演算処理装置。
前記決定部は、前記第２の層についての前記統計情報と、前記第１の層についての誤差と、を用いてオフセット量決定用の学習モデルを学習させ、前記オフセット量決定用の学習モデルの学習結果に基づいて、前記第１の層についてのオフセット量を決定する、
請求項３又は請求項４に記載の演算処理装置。
前記記憶部は、前記統計情報に基づき前記繰り返しごとに得られる特徴値を前記誤差と対応付けて記憶し、
前記決定部は、前記記憶部が記憶する前記第２の層についての誤差と特徴値との組み合わせに基づき、前記第１の層についてのオフセット量を決定する、
請求項３又は請求項４に記載の演算処理装置。
前記第２の層は、前記ニューラルネットワークにおける先頭の層から、前記第１の層の１つ前の層までの層のうちの、いずれか１つの層又は２以上の組み合わせの層である、
請求項３～６のいずれか１項に記載の演算処理装置。
前記第２の層は、前記ニューラルネットワークにおける先頭の層である、
請求項３～６のいずれか１項に記載の演算処理装置。
前記第２の層は、前記複数の層を連続した２以上の層単位で分類したブロックのうちの、前記第１の層が属するブロック内の先頭の層である、
請求項３～６のいずれか１項に記載の演算処理装置。
前記第２の層は、前記複数の層を連続した２以上の層単位で分類したブロックのうちの、前記第１の層が属するブロック内における、先頭の層から前記第１の層の１つ前の層までの層のうちのいずれか１つの層又は２以上の組み合わせの層である、
請求項３～６のいずれか１項に記載の演算処理装置。
所定の学習モデルを繰り返し学習させる際に、前記繰り返しごとに取得される複数の固定小数点数データの各々についての、最上位ビットの位置又は最下位ビットの位置の分布に関する統計情報、に基づき得られる、固定小数点数データの小数点位置の誤差を記憶部に記憶し、
前記繰り返しごとの誤差の傾向に基づき、前記学習に利用する固定小数点数データの小数点位置を補正するためのオフセット量を決定する、
処理をコンピュータに実行させる、制御プログラム。
所定の学習モデルを繰り返し学習させる際に、前記繰り返しごとに取得される複数の固定小数点数データの各々についての、最上位ビットの位置又は最下位ビットの位置の分布に関する統計情報、に基づき得られる、固定小数点数データの小数点位置の誤差を記憶部に記憶し、
前記繰り返しごとの誤差の傾向に基づき、前記学習に利用する固定小数点数データの小数点位置を補正するためのオフセット量を決定する、
処理をコンピュータに実行させる、制御方法。