JP2023069780A

JP2023069780A - 演算プログラム、演算方法及び計算機

Info

Publication number: JP2023069780A
Application number: JP2021181901A
Authority: JP
Inventors: 鉄太郎橋本; Tetsutaro Hashimoto
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2023-05-18
Also published as: EP4177794A1; US20230144390A1; CN116108915A

Abstract

【課題】学習モデルの学習時間を短縮させつつ認識率を向上させる演算プログラム、演算方法及び計算機を提供する。【解決手段】演算プログラムは、以下の処理をコンピュータに実行させる。１つは、学習モデルに含まれる各レイヤーで高精度のデータ型で第１学習を行う処理である。１つは、第１学習で量子化を行った場合の第１量子化誤差及び量子化誤差の累積による減衰の程度に応じた閾値を基に各レイヤーにおける量子化で用いるビット数を算出する処理である。１つは、算出したレイヤー毎のビット数に基づくデータ型での量子化を含む第２学習を行い、収束するまで前記第２学習を繰り返す処理である。【選択図】図１３

Description

本発明は、演算プログラム、演算方法及び計算機に関する。

ディープニューラルネットワーク（Deep Neural Network：ＤＮＮ）は、ＤＮＮの大規模化と深層化とによって認識率を向上させてきた。しかし、大規模化と深層化はＤＮＮでの演算量を増大させ、演算量の増大に比例してＤＮＮの学習時間も増大している。

ＤＮＮの学習時間を短縮するために、ＤＮＮの学習に浮動小数点８ビット（ＦＰ８）または浮動小数点１６ビット（ＦＰ１６）の低精度演算（Low Precision Operation：ＬＰＯ）が用いられることがある。例えば、ＦＰ８の演算を用いれば、浮動小数点３２ビット（ＦＰ３２）の演算に比べて、ＳＩＭＤ（Single Instruction Multiple Data）演算の並列度を４倍にできるため、演算時間を４分の１に短縮できる。なお、ＦＰ８やＦＰ１６のＬＰＯに対し、ＦＰ３２の演算は、Full Precision Operation（ＦＰＯ）と呼ばれることがある。また、例えばＦＰ３２をＦＰ８に変化させるように、データのビット数を減少させることによりＤＮＮの演算をＦＰＯからＬＰＯに変化させることを量子化（Quantization）と呼ぶことがある。さらに、ＦＰＯとＬＰＯとが混合したＤＮＮの演算を混合精度演算（Mixed Precision Operation：ＭＰＯ）と呼ぶことがある。ＭＰＯを用いたＤＮＮの学習（Mixed Precision Training：ＭＰＴ）では、量子化により認識率が低下するレイヤーについてはＦＰＯが行われるため、ＬＰＯが行われるレイヤーとＦＰＯが行われるレイヤーとが混在することになる。

量子化による認識率低下を防ぐ方法として、データを量子化しＳＩＭＤ演算の並列度を上昇させつつ、AccumulationはＦＰＯにより実行し、出力時に量子化を行う技術がある。他にも、重み係数は高精度の情報で表現し、演算時に量子化する技術がある。さらに、重み係数の更新をＦＰＯにより実行する技術がある。

特開２０２０－１１３２７３号公報米国特許出願公開第２０２０／０１４３２８２号明細書

ＭＰＴにより学習を行う場合、ＦＰＯにより演算が実行されるレイヤーを決定する基準を設定することが望ましい。しかしながら、学習のフェーズによって、ＦＰＯを用いるレイヤーが変化するため、事前にＦＰＯを用いるレイヤーを決定することは困難である。

例えば、AccumulationをＦＰＯで行う技術や、重み係数を用いた演算時に量子化を行う技術や、重み係数の更新をＦＰＯで行う技術では、いずれも量子化を行うレイヤーが事前に決定されており、学習フェーズに応じたＦＰＯを実行するレイヤーの決定は困難である。

そこで、本開示では、上記に鑑みてなされたものであって、学習モデルの学習時間を短縮させつつ認識率を向上させる演算プログラム、演算方法及び計算機を提供することを目的とする。

本願の開示する演算プログラム、演算方法及び計算機の一つの態様において、学習モデルに含まれる各レイヤーで高精度のデータ型で第１学習を行い、前記第１学習で量子化を行った場合の第１量子化誤差及び量子化誤差の累積による減衰の程度に応じた閾値を基に各前記レイヤーにおける量子化で用いるビット数を算出し、算出した前記レイヤー毎のビット数に基づくデータ型での量子化を含む第２学習を行い、収束するまで前記第２学習を繰り返す。

本開示によれば、ＤＮＮの学習時間を短縮させつつ認識率を向上させることができる。

図１は、ＤＮＮの構成の一例を示す図である。図２は、ダイナミックレンジ起因の量子化誤差を説明するための図である。図３は、ＤＮＮ学習装置のブロック図である。図４は、ＲｅｓＮｅｔ－５０の場合の誤差の大きさに応じた減衰を示す図である。図５は、減衰の閾値に応じた誤差を示す図である。図６は、logitsの計算における内積を表す図である。図７は、フォワードプロパゲーションにおける浮動小数点数を用いた量子化でのビット数の算出処理のシンタックスの一例を示す図である。図８は、バックワードプロパゲーションにおける浮動小数点数を用いた量子化でのビット数の算出処理のシンタックスの一例を示す図である。図９は、フォワードプロパゲーションにおける整数表現を用いた量子化でのビット数の算出処理のシンタックスの一例を示す図である。図１０は、バックワードプロパゲーションにおける整数表現を用いた量子化でのビット数の算出処理のシンタックスの一例を示す図である。図１１は、学習部の詳細を表すブロック図である。図１２は、学習部におけるデータフローの一例を示す図である。図１３は、ＤＮＮ学習装置による学習処理のフローチャートである。図１４は、コンピュータのハードウェア構成図である。

以下に、本願の開示する演算プログラム、演算方法及び計算機の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する演算プログラム、演算方法及び計算機が限定されるものではない。

［実施形態］
浮動小数点演算の値ｖａｌｕｅは式（１）により与えられる。式（１）において、ｓは１ビット固定のサインビットであり、Ｎ_ｅｂｉｔは指数部ｅのビット数であり、Ｎ_ｍｂｉｔは仮数部ｍのビット数である。例えば、ＦＰ３２では、Ｎ_ｅｂｉｔ＝８、Ｎ_ｍｂｉｔ＝２３である。

入力データに非正規化データが存在しない場合、式（１）に共有指数バイアス値ｂを適用したときのＦＦＰＯの値ｖａｌｕｅは式（２）及び（３）により与えられる。つまり、式（２）は値ｖａｌｕｅが正規化数である場合の式である。また、共有指数バイアス値ｂは、量子化の単位で共通の単一値である。

共有指数バイアス値ｂは次の式（４）によって与えられ、式（１）に示す浮動小数点演算のダイナミックレンジをシフトさせる。式（４）におけるｅ_ｍａｘは、式（５）におけるｆ_ｍａｘの指数項であり、式（５）におけるｆは、量子化対象の全要素である。

＜量子化誤差の影響＞
図１は、ＤＮＮの構成の一例を示す図である。ここで、ＤＮＮによる計算プロセスを考えた場合、量子化誤差の影響を受けるのは以下の箇所である。

フォワードプロパゲーションの場合、最終的には推定値の算出において量子化誤差の影響が発生する。すなわち、最終結果として得られるに認識率の低下や損失の上昇の発生が考えられる。また、バックワードプロパゲーションの場合、最終的には重み係数の更新において量子化誤差の影響が発生する。すなわち、最終結果として得られる重み係数が不適切な値となるおそれがある。そのため、量子化誤差を評価するポイントは、図１におけるフォワードプロパゲーションの場合にはSoftmax活性化関数に通す前のニューラルネットワークの出力１０１であるlogitsの量子化誤差であり、バックワードプロパゲーションの場合にはweight gradients１０２の量子化誤差である。

量子化誤差が発生する要因としていくつかの要因が考えられる。１つは、ダイナミックレンジに起因する量子化誤差である。量子化を行った場合にはダイナミックレンジが狭くなる。そのため、表現されなくなる領域が発生することで誤差が発生する。

図２は、ダイナミックレンジ起因の量子化誤差を説明するための図である。図２の横軸はビット数を表し、縦軸はビット数毎のerror gradientに対する確率密度関数（ＰＤＦ）で得られる値である。すなわち、図２に示したグラフは、あるレイヤーへ入力される量子化前のテンソルに含まれる各要素を表すのに用いられるビット毎の確率分布を表す。図２における範囲１０３が量子化後のダイナミックレンジを表す。すなわち、量子化後に、領域１０４に含まれる要素は０になり、領域１０５に含まれる要素は飽和する。また、点１０６は、量子化後の最大値の表す。

そして、ダイナミックレンジに起因する量子化誤差は、次の式（６）で表される。ここで、Ｄ_i ^satは、飽和される領域の要素であり、Ｄ_i ^zeroは、０になる領域の要素であり、Ｎ_satは、飽和される要素数であり、Ｎ_zeroは、０になる要素数であり、Ｎ_allは、全要素数である。また、Ｄ_absmaxは、量子化後の最大値を表す。

また、他の要因としては、仮数部の丸めに起因する量子化誤差がある。例えば、ＦＰ３２をＦＰ８に変換する場合、切り捨て時の絶対誤差は次の式（７）で表される。ここで、Ｎ_ｍｂｉｔは仮数部ｍのビット数である。これは切り上げ時も同様に表される。

そして、絶対誤差の最大値は、次の式（８）で表される。

以上の要因で発生する量子化誤差の認識率への影響について説明する。分類問題（Classification）のＤＮＮの場合、ネットワークの出力値であるLogitsを次の式（９）で表されるSoftmax関数に入力した場合の出力結果が、推定確率とされる。

量子化によってlogitsに誤差が生じると、推定確率にも誤差が生じ、認識率の低下につながる。例えば、同一バッチ内でのlogitsの最大値がｘ１であり２番目に大きい値がｘ２であり、量子化によりｘ１とｘ２とに誤差が生じた場合について説明する。その場合、次の式（１０）で表されるように量子化誤差が生じるケースが、最も誤差が大きくなるケースである。

この際に、量子化誤差によりｘ１とｘ２との大小関係が逆転した場合に認識率が低下する。そうだとすると、次の式（１１）を満たせば認識率が低下しないと考えられる。

また、誤差逆伝番によりＤＮＮのtopからbottomへ伝搬するactivation gradientsからWeight gradientが計算される。ダイナミックレンジに起因する量子化誤差により、activation gradientsがbottom側へ伝搬して減衰すると、bottom側のweight gradientsの絶対値も減衰し、重み係数が更新される絶対値が減少する。つまり、学習結果が重み係数に反映される量が減るため、同じ学習結果を得るための学習量が増加してしまう。

＜ＤＮＮ学習装置の構成＞
図３は、実施形態に係るＤＮＮ学習装置のブロック図である。以上のような量子化誤差の発生を抑え、認識率を向上させるために、本実施例に係るＤＮＮ学習装置１０は、各レイヤーの量子化に用いるビット数を求めて学習を行う。例えば、ＤＮＮ学習装置１０として、各種のコンピュータ等の情報処理装置を採用することができる。

ＤＮＮ学習装置１０は、ＤＮＮの学習処理及び学習済みのＤＮＮを用いた推論処理を実行する。ＤＮＮ学習装置１０は、複数のイテレーションを含むエポックという単位で学習を繰り返すことでＤＮＮの学習を実行する。ＤＮＮ学習装置１０は、図３に示すように、学習処理管理部１１、ビット数算出部１２及び学習部１３を備える。

学習処理管理部１１は、学習処理を統括管理する。学習処理管理部１１は、量子化を見直すタイミングのエポック番号を予め有する。以下では、量子化を見直すタイミングのエポックを、「見直しエポック」と呼ぶ。また、学習処理管理部１１は、１つのエポックに含まれるイテレーションの回数を予め有する。

学習処理管理部１１は、学習開始の指示を受けると、学習部１３にＤＮＮの学習を開始させる。そして、学習処理管理部１１は、１番目のエポックにおけるイテレーションの回数をカウントする。その後、１番目のエポックにおける最終イテレーションが実行されるときに、学習処理管理部１１は、量子化に用いるビット数の算出をビット数算出部１２に指示する。

次に、学習処理管理部１１は、学習部１３により実行されたエポックをカウントし、次に実行するエポックのエポック番号を求める。学習処理管理部１１は、学習部１３が２番目のエポックを実行する場合、１番目のエポックの最終イテレーションで決定された量子化に用いるビット数の反映を学習部１３に指示する。

その後、学習処理管理部１１は、学習部１３が次に実行するエポック番号が見直しエポックのエポック番号か否かを判定する。学習部１３が次に実行するエポック番号が見直しエポックのエポック番号でない場合、学習処理管理部１１は、各レイヤーにおいてその時点で使用中のデータ型での量子化を用いた学習を学習部１３に継続させる。

これに対して、学習部１３が実行するエポック番号が見直しエポックのエポック番号となった場合、学習処理管理部１１は、量子化の見直しを学習部１３に通知する。さらに、学習処理管理部１１は、その見直しエポックにおけるイテレーションの回数をカウントしイテレーション番号を取得する。その後、その見直しエポックにおける最後のイテレーションに到達した場合、学習処理管理部１１は、量子化に用いるビット数の算出をビット数算出部１２に指示する。

さらに、学習処理管理部１１は、見直しエポックの次のエポックが実行される場合、見直しエポックの最終イテレーションで決定された量子化に用いるビット数の反映を学習部１３に指示する。

より、適切な量子化を行うために、見直しエポックは複数のタイミングで設けられることが好まし。複数の見直しエポックが設けられる場合、学習処理管理部１１は、量子化を見直すタイミングのエポック毎に、量子化の見直しを学習部１３に通知し、且つ、量子化に用いるビット数の算出をビット数算出部１２に行わせてビット数の見直しを繰り返させる。

ビット数算出部１２は、量子化に用いるビット数の算出の指示を学習処理管理部１１から受ける。そして、ビット数算出部１２は、量子化に用いる指数部のビット数及び仮数部のビット数を算出する。以下では、指数部のビット数を「指数ビット数」と呼び、仮数部のビット数を「仮数ビット数」と呼ぶ。そして、ビット数算出部１２は、算出した指数ビット数及び仮数ビット数を学習部１３に通知する。

以下にビット数算出部１２による量子化に用いる指数ビット数及び仮数ビット数の算出の詳細について説明する。ビット数算出部１２は、図３に示すように、指数ビット数算出部１２１及び仮数ビット数算出部１２２を有する。

指数ビット数算出部１２１は、量子化誤差に閾値を設けてレイヤー毎に指数ビット数を求める。ここで、量子化を繰り返すと量子化誤差が蓄積する。そして、量子化により絶対値が大きい値が飽和し且つ小さい値が０になるため、テンソルの全要素の絶対値の総和は量子化誤差分減衰する。

ここで、量子化１回あたりの量子化誤差をＥ_Ｑ ^ｅとする。このとき、Ｎ_Ｑ回の量子化を行った場合の減衰後の値が、相対値でＴ以上となるようにするために、量子化誤差は以下の式（１２）を満たすことが求められる。この場合、Ｔが減衰の閾値であり、量子化１回値の量子化誤差の上限を規定する値である。

すなわち、量子化１回あたりの量子化誤差は相対値で次の式（１３）と表される。

例えば、ＲｅｓＮｅｔ－５０の場合、Ｎ_Ｑ＝１１２であるので、Ｔ＝０．９であれば、Ｅ_Ｑ ^ｅ＝０．０００８３５８５である。

ここで求めた式（１３）で示される量子化誤差の条件を満たす指数部のビット数の算出について説明する。指数ビット数算出部１２１は、フォワードプロパゲーションの場合にはtopのactivationを分析対象のテンソルとし、バックワードプロパゲーションの場合にはbottom＿diffのgradientを分析対象のテンソルとする。

そして、指数ビット数算出部１２１は、テンソルの全要素の絶対値の総和を算出する。ここでは、テンソルの全要素の絶対値の総和をΣ｜Ｄ［ｉ］｜と表す。

次に、指数ビット数算出部１２１は、テンソルの要素を絶対値で小さい順にソートする。ここでは、ソートした配列をＤ_ａｂｓ［１：Ｎ_ａｌｌ］と表す。

次に、指数ビット数算出部１２１は、量子化で飽和される要素を０個とする。すなわち、指数ビット数算出部１２１は、量子化後の最大値がテンソルの要素の最大値に一致するように量子化の範囲を設定する。例えば、図２におけるグラフの最大値に量子化後のダイナミックレンジの最大値を合わせる。この場合、式（６）において量子化で飽和される要素が無いため、量子化１回あたりの量子化誤差であるＥ_Ｑ ^ｅは、次の式（１４）で表される。

そして、指数ビット数算出部１２１は、ソートした配列を１から順に式（１３）から求まる次の数式（１５）を満たす上限まで加算する。

この場合の最後に加算された要素であるＤ_ａｂｓ［Ｎ_ｚｅｒｏ］が、量子化誤差を規定する式（１３）をみたす最大値となる。

次に、指数ビット数算出部１２１は、次の式（１６）を用いてテンソルのダイナミックレンジＲ_ｄｙｎを算出する。

この式（１６）で表されるダイナミックレンジを用いて、指数ビット数算出部１２１は、次の式（１７）を用いて指数部のビット数を算出する。

ここで、減衰の閾値であるＴの値の範囲について説明する。図４は、ＲｅｓＮｅｔ－５０の場合の誤差の大きさに応じた減衰を示す図である。ＲｅｓＮｅｔ－５０では、量子化が１１２回繰り返される。量子化の内訳は、Convolutionで４８回、BatchNormで４８回、eltwiseで１６回である。そこで、ＲｅｓＮｅｔ－５０の場合に、誤差が蓄積すると、Ｅ_Ｑ ^ｅに応じて図４に示すように減衰する。例えば、量子化１回あたりの量子化誤差であるＥ_Ｑ ^ｅが０．０１の場合、元の数値を１とすると０．９９を１１２乗した値である０．２９１９が減衰後の値となる。

図５は、閾値に応じた誤差を示す図である。例えば、減衰の閾値Ｔを０．９０、０．９５、０．９８及び０．９９の各値に設定した場合、誤差であるＥ_Ｑ ^ｅはそれぞれ図５のように求まる。ここで、同じ認識精度を得るためには減衰に応じて学習量が増えるため、学習量があまり増えないように減衰の閾値の下限を決定することが好ましい。また、減衰の閾値を高くすると量子化による誤差を認める範囲が狭くなり量子化が行われなくなるため、量子化の誤差をある程度認める減衰の閾値の上限を決定することが好ましい。そこで、図５を基に、減衰の閾値であるＴは、例えば、０．９０～０．９５などと設定される。

図３に戻って説明を続ける。仮数ビット数算出部１２２は、レイヤー毎に仮数ビット数を求める。上述したように、仮数部の丸めの誤差は、式（８）で表される。ＭＰＴでは、Softmax関数の入力値であるlogitsはＦＰ３２のデータ型の値をとる。したがって、logitsの計算もＦＰＯで行われることを前提に考えることができる。その場合、logitsの計算を行う際に用いる内積へ入力されるテンソルの量子化誤差がlogitsにどの程度蓄積したかを式にすることで、仮数ビット数を求めることが可能となる。

ここで、内積は次の式（１８）で示される。また、図６は、logitsの計算における内積を表す図である。図６は、誤差が発生しない場合の内積の演算を表す。図６におけるＸがlogitsの計算の入力値であり、Ｗが重み係数である。そして、式（１８）による計算結果にあたる図５におけるＹがlogitsを表す。

そして、Ｘに一律に量子化誤差ε_Ｑ ^ｍが与えられると、Ｙの１要素の内積数はＣｉなので、誤差を含んだ場合のlogitsの計算の入力値は次の式（１９）で表され、logitsは次の式（２０）で表される。ここで、Ｅ_Ｑ ^ｍは、量子化誤差ε_Ｑ ^ｍの場合の相対誤差である。

ここで、量子化誤差は、ランダム性を有し且つ正負も存在する一様分布である。一様分布は再生性を有さないためその線型和は一様分布でなくなり、量子化誤差は、線型和を繰り返すことで分布の形が正規分布のような凸型の分布関数となる。したがって、量子化誤差の確率分布は、正規分布で近似できる。

正規分布は再現性を有するため、式（２１）に示される正規分布にしたがう確率変数Ｘｉの線形結合は式（２２）に示される正規分布にしたがう。ここで、α＝１、μ_ｉ＝μ、σ_ｉ＝σであれば、Ｎ（ｎμ、ｎσ^２）となる。

量子化誤差は、上述したように正規分布に近似できるため、正規分布にしたがうとして扱うことができ、量子化誤差を持つ値をＮａｄｄ回加算するとして、誤差が最も大きくなる場合の合計値は、次の数式（２３）で表される。このことから、誤差による変動量は加算回数の平方根で緩和可能である。そこで、上述した式（１５）における量子化誤差は、Ｃｉ回の加算数で平準化されるため、誤差はＣｉの平方根で緩和可能である。

また、重み係数であるＷを［－１，１］の正規分布とすると、正の側では、値の累積は０．４に漸近する。ここで、標準偏差をσで表して４σで１とした場合、値の累積は０．１となる。また、負の側は同様に－０．４に漸近するため、重み係数Ｗ全体では総和が０になるが、量子化誤差εＱｍの項を残すため、負の側の影響を半分に減らす。これにより、重み係数Ｗの総和は、０．４／４／２＝０．０５と緩和することができる。

以上のことから、式（２０）で表されるlogitsは、緩和されて次の式（２４）で表される。

この場合、式（１１）で示される認識率が低下しない条件は、次の式（２５）となり、最終的に量子化誤差は次の式（２６）を満たすことが好ましい。

ここで、仮数部の丸め処理の量子化誤差の最大値は式（８）であることから、次の式（２７）と表すことができる。

この式（２７）を変形することで、仮数部のビット数を求める次の式（２８）が得られる。

そこで、仮数ビット数算出部１２２は、レイヤー毎に、式（２８）を用いて仮数ビット数を算出する。

ここで、指数ビット数算出部１２１及び仮数ビット数算出部１２２で実行される処理を表すシンタックスの一例を説明する。図７は、フォワードプロパゲーションにおける浮動小数点数を用いた量子化でのビット数の算出処理のシンタックスの一例を示す図である。図７の４行目におけるＦｎは、出力テンソルｎの全要素を表す。また、ｘは、次段のSoftmax関数のlogitsを表す。また、図７の６行目のｘ１はSoftmax関数の入力値であるlogitsの最大値を表し、ｘ２はＸ１の次に大きい値をそれぞれ表す。また、Ｃｉは、Softmax関数の前段のレイヤーの内積数である。さらに、Dabs[1:Nall]は、テンソルを絶対値で小さい順にソートした配列である。また、Dabs[Nall]はテンソルの絶対値最大の値である。また、Nzeroは、量子化された時、ゼロになる要素数である。また、Dabs[Nzero]は、ソートした配列を１から順に数式（１０）を満たさなくなるまで加算して求めることができる。図７の最終行は、ビット数が８の倍数であることを前提とする。図７の最終行は、Ｃ言語の式で記載すると、次の数式（２９）で表すことができる。例えば、指数ビット数算出部１２１及び仮数ビット数算出部１２２は、図６に示されるシンタックスで表される処理を実行することで、出力テンソルｎのビット数（１，Ｎ_ｅｂｉｔ，Ｎ_ｍｂｉｔ）を算出することができる。このビット数が、レイヤーｎ＋１のビット数である。

次に、図８は、バックワードプロパゲーションにおける浮動小数点数を用いた量子化でのビット数の算出処理のシンタックスの一例を示す図である。図７の最終行は、Ｃ言語の式で記載すると、次の数式（３０）で表すことができる。例えば、指数ビット数算出部１２１及び仮数ビット数算出部１２２は、図８に示されるシンタックスで表される処理を実行することで、error gradient nのビット数（１，Ｎ_ｅｂｉｔ，Ｎ_ｍｂｉｔ）を算出することができる。このビット数が、レイヤーｎ－１のビット数である。

図９は、フォワードプロパゲーションにおける整数表現を用いた量子化でのビット数の算出処理のシンタックスの一例を示す図である。整数表現を用いた量子化の場合、指数部が存在しないため、指数ビットが不要となる。図９の最終行は、Ｃ言語の式で記載すると、次の数式（３１）で表すことができる。例えば、指数ビット数算出部１２１及び仮数ビット数算出部１２２は、図９に示されるシンタックスで表される処理を実行することで、出力テンソルｎのビット数（１，Ｎ_ｍｂｉｔ）を算出することができる。このビット数が、レイヤーｎ＋１のビット数である。

次に、図１０は、バックワードプロパゲーションにおける整数表現を用いた量子化でのビット数の算出処理のシンタックスの一例を示す図である。図１０の最終行は、Ｃ言語の式で記載すると、次の数式（３２）で表すことができる。例えば、指数ビット数算出部１２１及び仮数ビット数算出部１２２は、図１０に示されるシンタックスで表される処理を実行することで、error gradient nのビット数（１，Ｎ_ｍｂｉｔ）を算出することができる。このビット数が、レイヤーｎ－１のビット数である。

図３に戻って説明を続ける。学習部１３は、学習の開始の指示を学習処理管理部１１から受ける。そして、学習部１３は、ＤＮＮの全てのレイヤーのデータ型をＦＰ３２に設定する。その後、学習部１３は、訓練データを取得してＤＮＮの学習を開始する。

その後、学習部１３は、１番目のエポックの最後のイテレーションが終了すると、ＤＮＮの各レイヤーで用いる指数ビット数及び仮数ビット数の入力をビット数算出部１２から受ける。次に、学習部１３は、指定された指数ビット数及び仮数ビット数を各レイヤーに反映する。すなわち、学習部１３は、指定された指数ビット数及び仮数ビット数に基づくデータ型を各レイヤーに設定する。そして、学習部１３は、各レイヤーに設定したデータ型を用いて２番目以降のエポックの学習を行う。

その後、学習部１３は、学習が収束してターゲットに達したか否かを判定する。学習結果がターゲットに達した場合は、学習部１３は学習を終了する。

一方、学習結果がターゲットに達していない場合、学習部１３は、学習処理管理部１１から量子化の見直しの通知を受けるまでレイヤー毎の量子化に用いるデータ型を維持しつつ学習を繰り返す。量子化の見直しの通知を受けた場合、学習部１３は、ＤＮＮの全てのレイヤーのデータ型をＦＰ３２に設定する。そして、学習部１３は、ＤＮＮの全てのレイヤーのデータ型をＦＰ３２とした状態で学習を実行する。その後、学習部１３は、量子化を見直すタイミングのエポックにおける最後のイテレーションが終了すると、ＤＮＮの各レイヤーで用いる指数ビット数及び仮数ビット数の入力をビット数算出部１２から受けて各レイヤーに反映する。学習部１３は、学習が収束してターゲットに達するまで、以上の処理を繰り返す。

学習部１３による学習処理を簡単に説明する。図１１は、学習部の詳細を表すブロック図である。学習部１３は、バイアス演算器１３１、ＳＩＭＤ演算器１３２及び量子化器１３３を有する。

バイアス演算器１３１は、式（４）及び（５）に基づいて、指定されたビット数に対応する共有指数バイアス値ｂを算出する。ＳＩＭＤ演算器１３２は、式（２）及び（３）に基づいてＳＩＭＤ演算を行うことにより、積和演算結果であるＦＰ３２のテンソルｄｓｔを算出する。量子化器１３３は、ＦＰ３２のテンソルｄｓｔを指定されたビット数のテンソルに量子化することにより、最終結果のテンソルを算出する。量子化器１３３での量子化は、例えば、テンソルの全要素の指数部と仮数部を計算し、仮数部の計算において確率的丸め処理を行う等の周知の技術を用いて行うことができる。

＜学習部におけるデータフロー＞
図１２は、学習部におけるデータフローの一例を示す図である。

図１２において、ステップＳ１００，Ｓ１０５では、指定されたビット数のアクティベーション値（Ｌ）及び共有指数バイアス値（Ｌ）のデータセットと、指定されたビット数のウェイト（Ｌ）及び共有指数バイアス値（Ｌ）のデータセットとが積和演算される。また、共有指数バイアス値（Ｌ）は上記の共有指数バイアス値ｂに相当し、バイアス演算器１３１によって算出される。また、ステップＳ１００，Ｓ１０５での積和演算はＳＩＭＤ演算器１３２によって行われる。

ステップＳ１１０では、ステップＳ１００，Ｓ１０５でのＦＰ３２の積和演算結果を指定されたビット数にする量子化が行われ、ステップＳ１１０での量子化によって、アクティベーション値（Ｌ）がアクティベーション値（Ｌ＋１）に更新され、共有指数バイアス値（Ｌ）が共有指数バイアス値（Ｌ＋１）に更新される。ステップＳ１１０での量子化は、量子化器１３３によって行われる。ただし、指定されたビット数がＦＰ３２の場合、実際には量子化は行われない。

ステップＳ１１５では、ＦＰ３２のマスターウェイト（Ｌ）が指定されたビット数に量子化されることにより指定されたビット数のウェイト（Ｌ）が得られる。ステップＳ１１５での量子化は、量子化器１３３によって行われる。

ステップＳ１２０，Ｓ１２５では、指定されたビット数のアクティベーション値（Ｌ）及び共有指数バイアス値（Ｌ）のデータセットと、指定されたビット数のエラー勾配（Ｌ＋１）及び共有指数バイアス値（Ｌ＋１）のデータセットとが積和演算される。共有指数バイアス値（Ｌ）及び（Ｌ＋１）は上記の共有指数バイアス値ｂに相当し、バイアス演算器１３１によって算出される。また、Ｓ１２０，Ｓ１２５での積和演算はＳＩＭＤ演算器１３２によって行われる。

ステップＳ１３０では、ステップＳ１２０，Ｓ１２５でのＦＰ３２の積和演算結果を指定されたビット数にする量子化が行われ、ステップＳ１３０での量子化によって、指定されたビット数のウェイト勾配（Ｌ）及び共有指数バイアス値（Ｌ）が得られる。ステップＳ１３０での量子化は、量子化器１３３によって行われる。ただし、指定されたビット数がＦＰ３２の場合、実際には量子化は行われない。

ステップＳ１３５，Ｓ１４０では、指定されたビット数のウェイト（Ｌ）及び共有指数バイアス値（Ｌ）のデータセットと、指定されたビット数のエラー勾配（Ｌ＋１）及び共有指数バイアス値（Ｌ＋１）のデータセットとが積和演算される。共有指数バイアス値（Ｌ）及び（Ｌ＋１）は上記の共有指数バイアス値ｂに相当し、バイアス演算器１３１によって算出される。また、ステップＳ１３５，Ｓ１４０での積和演算はＳＩＭＤ演算器１３２によって行われる。

ステップＳ１４５では、ステップＳ１３５，Ｓ１４０でのＦＰ３２の積和演算結果を指定されたビット数にする量子化が行われ、ステップＳ１４５での量子化によって、エラー勾配（Ｌ＋１）がエラー勾配（Ｌ）に更新され、共有指数バイアス値（Ｌ＋１）が共有指数バイアス値（Ｌ）に更新される。ステップＳ１４５での量子化は、量子化器１３３によって行われる。ただし、指定されたビット数がＦＰ３２の場合、実際には量子化は行われない。

図１３は、実施形態に係るＤＮＮ学習装置による学習処理のフローチャートである。次に、図１３を参照して、実施例に係るＤＮＮ学習装置１０による学習処理の流れを説明する。

学習処理管理部１１は、学習処理の開始を学習部１３に通知する。また、学習処理管理部１１は、エポック番号を１に設定する（ステップＳ１）。

次に、学習処理管理部１１は、エポック番号を用いて今回のエポックが１番目又は量子化を見直すタイミングのエポックかを判定する（ステップＳ２）。

今回のエポックが１番目又は量子化を見直すタイミングのエポックのいずれかの場合（ステップＳ２：肯定）、学習処理管理部１１は、量子化の見直しを学習部１３に通知する。学習部１３は、全てのレイヤーにおけるデータ型をＦＰ３２に設定する（ステップＳ３）。

次に、学習処理管理部１１は、イテレーション番号を１に設定する（ステップＳ４）。

次に、学習部１３は、全てのレイヤーにおけるデータ型をＦＰ３２としてフォワードプロパゲーションを実行する（ステップＳ５）。

次に、学習部１３は、全てのレイヤーにおけるデータ型をＦＰ３２としてバックワードプロパゲーションを実行する（ステップＳ６）。

次に、学習部１３は、ＤＮＮのパラメータを更新する（ステップＳ７）。

学習処理管理部１１は、イテレーション番号を１つインクリメントする（ステップＳ８）。

次に、学習処理管理部１１は、イテレーション番号を用いて次のイテレーションが最終イテレーションか否かを判定する（ステップＳ９）。次のイテレーションが最終イテレテーションでない場合（ステップＳ９：否定）、学習処理は、ステップＳ５へ戻る。

これ対して、次のイテレーションが最終イテレテーションの場合（ステップＳ９：肯定）、学習処理管理部１１は、レイヤー毎のビット数の算出をビット数算出部１２に指示する。学習部１３は、フォワードプロパゲーションを実行する。ビット数算出部１２は、レイヤー毎の出力テンソルを取得して、それぞれのレイヤーにおける量子化に用いるビット数を算出する（ステップＳ１０）。

次に、学習部１３は、バックワードプロパゲーションを実行する。ビット数算出部１２は、レイヤー毎のerror gradientを取得して、それぞれのレイヤーにおける量子化に用いるビット数を算出する（ステップＳ１１）。

そして、学習部１３は、ＤＮＮのパラメータを更新する（ステップＳ１２）。その後、学習処理は、ステップＳ２１へ進む。

一方、今回のエポックが１番目又は量子化を見直すタイミングのエポックのいずれでもない場合（ステップＳ２：否定）、学習処理管理部１１は、今回のエポックが２番目又は量子化を見直すタイミングの次のエポックか否かを判定する（ステップＳ１３）。今回のエポックが２番目又は量子化を見直すタイミングの次のエポックのいずれでもない場合（ステップＳ１３：否定）、学習処理は、ステップＳ１５へ進む。

これに対して、今回のエポックが２番目又は量子化を見直すタイミングの次のエポックの場合（ステップＳ１３：肯定）、学習処理管理部１１は、ビット数の再設定を学習部１３に指示する。学習部１３は、ビット数算出部１２により算出されたレイヤー毎のビット数を基に、各レイヤーのデータ型を設定する（ステップＳ１４）。

次に、学習処理管理部１１は、イテレーション番号を１に設定する（ステップＳ１５）。

次に、学習部１３は、ビット数算出部１２により算出されたレイヤー毎のビット数を基に設定した各レイヤーのデータ型を用いてフォワードプロパゲーションを実行する（ステップＳ１６）。

次に、学習部１３は、ビット数算出部１２により算出されたレイヤー毎のビット数を基に設定した各レイヤーのデータ型を用いてバックワードプロパゲーションを実行する（ステップＳ１７）。

次に、学習部１３は、ＤＮＮのパラメータを更新する（ステップＳ１８）。

学習処理管理部１１は、イテレーション番号を１つインクリメントする（ステップＳ１９）。

次に、学習処理管理部１１は、イテレーション番号を用いて今回のエポックの全てのイテレーションが終了したか否かを判定する（ステップＳ２０）。実行するイテレーションが残っている場合（ステップＳ２０：否定）、学習処理は、ステップＳ１６へ戻る。

これ対して、今回のエポックの全てのイテレーションが終了した場合（ステップＳ２０：肯定）、学習処理はステップＳ２１へ進む。

学習部１３は、学習が収束しターゲットに達したか否かを判定する（ステップＳ２１）。学習が収束していない場合（ステップＳ２１：否定）、学習処理管理部１１は、エポック番号を１つインクリメントする（ステップＳ２２）。その後、学習処理は、ステップＳ２へ戻る。これに対して、学習が収束した場合（ステップＳ２１：肯定）、学習部１３は、学習処理を終了する。

以上に説明したように、本実施例に係るＤＮＮ学習装置は、ＤＮＮに含まれるレイヤー毎に、量子化誤差に閾値を設けて指数ビット数を算出し、且つ、認識率が低下しない条件を用いて仮数ビット数を算出する。そして、ＤＮＮ学習装置は、算出した指数ビット数及び仮数ビット数に応じて各レイヤーで用いるデータ型を設定して学習を行う。これにより、ＤＮＮの各レイヤーで適切なデータ型を用いることで認識率の低下を抑制して、ＤＮＮの学習時間を短縮させつつ認識率を向上させることができる。

例えば、ＲｅｓＮｅｔ－５０を用いて、本実施例に係るＤＮＮ学習装置１による学習を行った場合について説明する。ここでは、ＲｅｓＮｅｔ－５０における最後のレイヤーをｆｃ１０００とし、その前段のレイヤーをｐｏｏｌ５とする。そして、フォワードプロパゲーションにおけるｆｃ１０００の演算結果をｆｃ１０００．Ｙとし、ｐｏｏｌ５の演算結果をｐｏｏｌ５．Ｙとする。すなわち、ｐｏｏｌ５．Ｙは、フォワードプロパゲーションにおけるｆｃ１０００への入力である。また、バックワードプロパゲーションにおけるｆｃ１０００の入力をｆｃ１０００．ｄＹとし、ｐｏｏｌ５の入力をｐｏｏｌ５．ｄＹとする。すなわち、ｐｏｏｌ５．ｄＹは、バックワードプロパゲーションにおけるｆｃ１０００の演算結果である。

この場合、フォワードプロパゲーションでは、ＤＮＮ学習装置１のビット数算出部１２は、ｆｃ１０００．Ｙを用いて、ｆｃ１０００において量子化に用いるビット数をＮ_ｍｂｉｔ＝１２及びＮ_ｅｂｉｔ＝０からＮ_ｍｂｉｔ＝２３及びＮ_ｅｂｉｔ＝８に変更する。また、他のレイヤーについては、ＤＮＮ学習装置１は、量子化に用いるビット数をＮ_ｍｂｉｔ＝３及びＮ_ｅｂｉｔ＝４と設定する。いずれも１ビットの符号ビットと合わせて、８、１６又は３２ビットとなるようにビット数が設定される。

また、バックワードプロパゲーションでは、ＤＮＮ学習装置１は、ｆｃ１０００．ｄＹを用いて、ｆｃ１０００において量子化に用いるビット数をＮ_ｍｂｉｔ＝３及びＮ_ｅｂｉｔ＝５からＮ_ｍｂｉｔ＝２３及びＮ_ｅｂｉｔ＝８に変更する。また、ＤＮＮ学習装置１は、ｃｏｎｖ１．ｄＹを用いて、ｃｏｎｖ１において量子化に用いるビット数をＮ_ｍｂｉｔ＝３及びＮ_ｅｂｉｔ＝５からＮ_ｍｂｉｔ＝２３及びＮ_ｅｂｉｔ＝８に変更する。また、ＤＮＮ学習装置１は、ｒｅｓ￥ｄ￥ｗ＿ｂｒａｎｃｈ２ｂ．ｄＹを用いて、ｒｅｓ￥ｄ￥ｗ＿ｂｒａｎｃｈ２ｂにおいて量子化に用いるビット数をＮ_ｍｂｉｔ＝３及びＮ_ｅｂｉｔ＝５からＮ_ｍｂｉｔ＝１０及びＮ_ｅｂｉｔ＝５に変更する。ここで、「￥ｄ」は数字1文字を表し、「￥ｗ」はアルファベット1文字を表す。他のレイヤーについては、ＤＮＮ学習装置１は、量子化に用いるビット数をＮ_ｍｂｉｔ＝３及びＮ_ｅｂｉｔ＝４と設定する。

ただし、logitsを計算するレイヤーはＦＰ３２とするため、ｆｃ１０００．Ｙ及びｆｃ１０００．ｄＹは、ＦＰ３２とした。

ここで、全レイヤーのデータ型をＦＰ３２（Ｎ_ｍｂｉｔ＝２３、Ｎ_ｅｂｉｔ＝８）とした場合、学習の到達制度は７５．９２％であった。また、全レイヤーのデータ型をＦＰ８（Ｎ_ｍｂｉｔ＝３、Ｎ_ｅｂｉｔ＝４）として共有指数バイアスを用いた場合、学習の到達制度は７５．２６％であり、対ＦＰ３２比で０．８７％の精度低下となった。これに対して、本実施例に係るＤＮＮ学習装置１を用いて上述したビット数且つ共有指数バイアスを用いた場合、学習の到達制度は７５．７１％であり、対ＦＰ３２比で０．２８％の精度低下にとどまった。すなわち、全レイヤーのデータ型をＦＰ３２とした場合に比べて学習時間を短縮させつつ、全レイヤーのデータ型をＦＰ８とした場合に比べて精度が向上した。

（ハードウェア構成）
図１４は、コンピュータのハードウェア構成図である。ＤＮＮ学習装置１は、例えば、図１４に示すコンピュータ９０により実現される。コンピュータ９０は、図１４に示すように、プロセッサ９１、メモリ９２、ハードディスク９３及びネットワークインタフェース９４を有する。プロセッサ９１は、バスを介してメモリ９２、ハードディスク９３及びネットワークインタフェース９４と接続される。

ネットワークインタフェース９４は、コンピュータ９０と外部装置との通信を中継するインタフェースである。

ハードディスク９３は、補助記憶装置である。ハードディスク９３は、図１に例示した、学習処理管理部１１、ビット数算出部１２及び学習部１３の機能を実現するためのプログラムを含む各種プログラムを格納する。

プロセッサ９１は、ハードディスク９３から各種プログラムを読み出してメモリ９２に展開して実行する。これにより、プロセッサ９１は、図１に例示した、学習処理管理部１１、ビット数算出部１２及び学習部１３の機能を実現する。

１０ＤＮＮ学習装置
１１学習処理管理部
１２ビット数算出部
１３学習部
１２１指数ビット数算出部
１２２仮数ビット数算出部
１３１バイアス演算器
１３２ＳＩＭＤ演算器
１３３量子化器

Claims

学習モデルに含まれる各レイヤーで高精度のデータ型で第１学習を行い、
前記第１学習で量子化を行った場合の第１量子化誤差及び量子化誤差の累積による減衰の程度に応じた閾値を基に各前記レイヤーにおける量子化で用いるビット数を算出し、
算出した前記レイヤー毎のビット数に基づくデータ型での量子化を含む第２学習を行い、収束するまで前記第２学習を繰り返す
処理をコンピュータに実行させることを特徴とする演算プログラム。
前記ビット数の算出は、指数部のビット数の算出及び仮数部のビット数の算出を含むことを特徴とする請求項１に記載の演算プログラム。
前記閾値以下の減衰量となる前記第１量子化誤差の上限を求め、前記第１量子化誤差の上限を基に前記指数部のビット数を算出することを特徴とする請求項２に記載の演算プログラム。
前記学習モデルの出力値を基に認識率が低下しない条件を生成し、前記認識率が低下しない条件を満たす第１量子化誤差の上限を求め、前記第１量子化誤差の上限を基に前記仮数部のビット数を算出することを特徴とする請求項２又は３に記載の演算プログラム。
前記第１学習及び前記第２学習を含む前記学習モデルの学習は複数のイテレーションを含むエポックを繰り返すことで実行され、
複数の所定エポックにおいて前記第１学習を実行し、
前記所定エポックにおける前記第１学習の最後のイテレーションにおいて各前記レイヤーにおける量子化で用いるビット数を算出し、
次の前記所定エポックに達する又は前記学習が収束するまで、各前記レイヤーにおける量子化の前記データ型を維持して前記第２学習を実行する
ことを特徴とする請求項１に記載の演算プログラム。
学習モデルに含まれる各レイヤーで高精度のデータ型で第１学習を行い、
前記第１学習で量子化を行った場合の第１量子化誤差及び量子化誤差の累積による減衰の程度に応じた閾値を基に各前記レイヤーにおける量子化で用いるビット数を算出し、
算出した前記レイヤー毎のビット数に基づくデータ型での量子化を含む第２学習を行い、収束するまで前記第２学習を繰り返す
処理をコンピュータに実行させることを特徴とする演算方法。
学習モデルに含まれる各レイヤーで高精度のデータ型で第１学習を行い、前記第１学習を基に算出された前記レイヤー毎のビット数に基づくデータ型での量子化を含む第２学習を収束するまで繰り返す学習部と、
前記第１学習で量子化を行った場合の第１量子化誤差及び量子化誤差の累積による減衰の程度に応じた閾値を基に各前記レイヤーにおける量子化で用いる前記ビット数を算出するビット数算出部と
を備えたことを特徴とする計算機。