JP2021124849A

JP2021124849A - 演算処理装置、演算処理装置の制御方法及び演算処理プログラム

Info

Publication number: JP2021124849A
Application number: JP2020016735A
Authority: JP
Inventors: 毅葛; Ge Yi; 勝洋依田; Katsuhiro Yoda; 真紀子伊藤; Makiko Ito
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-02-04
Filing date: 2020-02-04
Publication date: 2021-08-30
Also published as: CN113220344A; EP3862932A1; US20210240439A1

Abstract

【課題】ＤｅｆｉｎｅｂｙＲｕｎにより深層学習を行う際の固定小数点を用いた学習における学習精度を向上させる演算処理装置、演算処理装置の制御方法及び演算処理プログラムを提供する。【解決手段】演算部１２は、所定演算を行う。統括管理部１００は、第１小数点位置の固定小数点として入力データを用いた前記所定演算を前記演算部１２に実行させ第１演算結果の統計情報を求める。小数点位置決定部１０１は、前記統計情報を用いて第２小数点位置を決定する。指数値変換制御部１０２は、前記小数点位置決定部１０１により決定された第２小数点位置の固定小数点として前記入力データを用いた前記所定演算を行った場合の第２演算結果を前記演算部１２に算出させる。【選択図】図４

Description

本発明は、演算処理装置、演算処理装置の制御方法及び演算処理プログラムに関する。

今日、深層学習（ディープラーニング）へのニーズが高まっている。深層学習においては、乗算、積和演算、ベクトル乗算を含む様々な演算が実行される。ところで、深層学習では、個々の演算精度への要求は、他のコンピュータ処理ほど厳密ではない。例えば、従来の信号処理等では、プログラマは極力桁あふれを発生させないようにコンピュータプログラムを開発する。一方、深層学習では、大きな値がある程度飽和することは許容される。これは、深層学習では、複数の入力データを畳み込み演算するときの係数（重み）の調整が主な処理となり、入力データのうち極端なデータは重視されないことが多いためである。また、大量のデータを繰り返し用いて係数を調整するため、一度飽和された値も、学習の進行に合わせて桁調整を行なうことで、飽和されずに係数調整に反映できるようになるためである。

そこで、このような深層学習の特性を考慮し、深層学習用の演算処理装置のチップ面積の削減及び電力性能の向上等を図るため、浮動小数点数を用いずに固定小数点数による演算を用いることが考えられる。これは、浮動小数点数演算よりも固定小数点数を用いた演算の方が回路構成を簡素にできるためである。

また、近年、ディープラーニング用の専用アクセラレータの開発が盛んになっている。そこで、専用アクセラレータにおける演算の面積効率を上げるためにも、固定小数点数による演算を用いることが好ましい。例えば、演算ビット数を例えば３２ビットの浮動小数点数を８ビットの固定小数点数に減らして面積あたりの演算性能を向上させたハードウェアが開発されている。３２ビットの浮動小数点数を８ビットの固定小数点数に減らすことで、単純に面積当たり４倍の性能が得られる。このように、十分な精度を有する実数を少ないビット数で表現する処理は量子化と呼ばれる。

ただし、固定小数点数は、ダイナミックレンジが狭いため浮動小数点数より演算精度が劣化する場合がある。そのため、深層学習においても、小さな値を表現する精度、すなわち有効桁数について配慮が求められる。そこで、演算結果のビット位置の統計情報を用いて固定小数点の有効桁数を決定し小数点位置を最適化する従来技術が存在する。

従来技術では、前のイテレーション（iteration）の統計情報を用いて次のイテレーションの小数点位置が決定され、決定された小数点位置を用いて次のイテレーションの演算が実行される。イテレーションは、ミニバッチとも呼ばれる。

また、統計情報を用いて固定小数点における小数点位置を決定する技術として、最下位ビット位置から最上位ビット位置までの範囲を示す情報及び符号ビット位置から最下位ビットのビット位置まで範囲を示す情報を用いて小数点位置を決定する従来技術がある。また、固定小数点演算を行う技術として、指定された小数点位置を表すデータに基づいて出力された演算結果に対して丸め処理及び飽和処理を実行しつつ固定小数点演算を行う従来技術がある。

特開２０１８−１２４６８１号公報特開２０１９−７４９５１号公報特開２００９−２７１５９８号公報

しかしながら、最近の深層学習のフレームワーク、特にｐｙＴｏｒｃｈやｃｈａｉｎｅｒで、ＤｅｆｉｎｅｂｙＲｕｎと呼ばれる処理方式が導入される機会が増加した。以下では、ＤｅｆｉｎｅｂｙＲｕｎをＤｂＲと省略して表記する。ＤｂＲでは、ニューラルネットの構造となる計算グラフの構築が、深層学習の処理を実行しながら行われる。そして、ＤｂＲでは、最短で学習のイテレーション毎に計算グラフが変わる。そのため、過去に推定した小数点位置を記憶することが困難である。また、計算グラフが変わるということは、ある層を通過する際の計算グラフが複数あり、特定のイテレーションにおいて、その層でどちらの計算グラフが用いられるか特定困難ということである。なお、ＤｂＲではない従来型の深層学習における演算処理はＤｅｆｉｎｅａｎｄＲｕｎと呼ばれ、学習開始時に計算グラフが確定する。

ＤｂＲにより深層学習を行う場合、仮に前回のイテレーションにおける統計情報を用いるとしても、前回自体が存在しないあるいは前回の統計情報が実際にはいくつものイテレーションも前の情報となる場合がある。このため、ＤｂＲにより深層学習を行う場合、過去の統計情報を用いると学習が破たんするおそれがあり、過去の統計情報を用いて小数点位置を決定することは困難である。

また、最下位ビット位置から最上位ビット位置までの範囲を示す情報及び符号ビット位置から最下位ビットのビット位置まで範囲を示す情報を用いて小数点位置を決定する技術でも、過去の統計情報を用いることからＤｂＲを用いた深層学習への適用は困難である。また、指定された小数点位置を表すデータに基づいて出力された演算結果に対して丸め処理及び飽和処理を行う従来技術では、小数点位置の決め方が考慮されておらず、ＤｂＲにより深層学習を行うことは困難である。

開示の技術は、上記に鑑みてなされたものであって、ＤｅｆｉｎｅｂｙＲｕｎにより深層学習を行う際の固定小数点を用いた学習における学習精度を向上させる演算処理装置、演算処理装置の制御方法及び演算処理プログラムを提供することを目的とする。

本願の開示する演算処理装置、演算処理装置の制御方法及び演算処理プログラムの一つの態様において、演算部は、所定演算を行う。管理部は、第１小数点位置の固定小数点として入力データを用いた前記所定演算を前記演算部に実行させ第１演算結果の統計情報を求める。小数点位置決定部は、前記統計情報を用いて第２小数点位置を決定する。指数値変換制御部は、前記小数点位置決定部により決定された第２小数点位置の固定小数点として前記入力データを用いた前記所定演算を行った場合の第２演算結果を前記演算部に算出させる。

１つの側面では、本発明は、ＤｅｆｉｎｅｂｙＲｕｎにより深層学習を行う際の固定小数点を用いた学習における学習精度を向上させることができる。

図１は、サーバの概略を表す構成図である。図２は、ニューラルネットワークにおける深層学習の一例の図である。図３は、演算用回路のブロック図である。図４は、制御部の詳細を表すブロック図である。図５は、実施例１に係る小数点位置更新処理の全体を説明するための図である。図６は、実施例１に係る演算用回路による小数点位置の更新を含んだ演算処理の概要を表す図である。図７は、実施例１に係る演算回路による深層学習の処理のフローチャートである。図８は、実施例２に係る小数点位置更新処理の全体を説明するための図である。図９は、Ｎ％の演算データの選択を説明するための図である。図１０は、選択する認識率に応じた選択する演算データの割合を表す図である。図１１は、実施例３に係る小数点位置更新処理の全体を説明するための図である。図１２は、実施例３に係る演算回路による深層学習の処理のフローチャートである。図１３は、実施例４に係る小数点位置更新処理の全体を説明するための図である。図１４は、実施例４に係る演算用回路による小数点位置の更新を含んだ演算処理の概要を表す図である。図１５は、実施例１〜４の演算処理の処理時間を表す図である。図１６は、深層学習におけるレイヤの一例を示す図である。図１７は、小数点位置の更新方法の選択結果を表す図である。図１８は、実施例５に係る小数点位置の更新処理の選択のフローチャートである。図１９は、小数点位置の更新方法の選択タイミングを表す図である。図２０は、計算用回路が搭載されたサーバの構成の一例を表す図である。図２１は、実施例６における演算手順を説明するための図である。図２２は、実施例６に係るサーバによる深層学習における演算処理のフローチャートである。図２３は、実施例７における演算手順を説明するための図である。図２４は、実施例８における演算手順を説明するための図である。図２５は、実施例８に係るサーバによる深層学習における演算処理のフローチャートである。図２６は、実施例９における演算手順を説明するための図である。

以下に、本願の開示する演算処理装置、演算処理装置の制御方法及び演算処理プログラムの実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する演算処理装置、演算処理装置の制御方法及び演算処理プログラムが限定されるものではない。

図１は、サーバの概略を表す構成図である。サーバ１は、深層学習を実行する。サーバ１は、ＣＰＵ（Central Processing Unit）２、メモリ３、及び演算用回路４を有する。ＣＰＵ２、メモリ３及び演算回路４は、相互にＰＣＩｅ（Peripheral Component Interconnect Express）バス５で接続される。

ＣＰＵ２は、メモリ３に格納されたプログラムを実行しサーバ１としての各種機能を実現する。例えば、ＣＰＵ２は、ＰＣＩｅバス５経由で制御信号を送信して、演算用回路４が有する制御コアを起動する。また、ＣＰＵ２は、演算で用いるデータ及び実行する演算命令を演算用回路４へ出力して、演算用回路４に演算を行わせる。

演算用回路４は、深層学習におけるレイヤ毎の演算を実行する回路である。ここで、図２を参照して、ニューラルネットワークにおける深層学習の一例について説明する。図２は、ニューラルネットワークにおける深層学習の一例の図である。ニューラルネットワークは、例えば、画像を認識して識別するためのフォワード方向の処理と、フォワード方向の処理で使用するパラメータを決定するバックワード方向の処理を実行する。図２における上部の矢印の紙面に向かって右に進む方向がフォワード方向であり、紙面に向かって左に進む方向がバックワード方向である。

図２のニューラルネットワークは、入力画像に対して、畳み込み層（Convolution Layer）の処理及びプーリング層（Pooling Layer）の処理を実行し、画像の特徴を抽出して画像を識別する。図２の紙面中央に記載した処理はフォワード方向の処理を表す。

図２では、フォワード方向の処理における特徴抽出部において、入力画像に対して畳み込み層の処理及びプーリング層の処理が実行され特徴マップが生成される。その後、識別部において、特徴マップに対して全結合が行われ最終層から識別結果が出力される。畳み込み層の処理は、畳み込み演算とも呼ばれる。また、プーリング層の処理は、プーリング演算とも呼ばれる。その後、識別結果は、正解データと比較され、比較結果である差分値が得られる。次に、バックワード方向の処理として、差分値からフォワード方向の畳み込み層及び全結合層における各層でのエラー及び各層での次の重みを計算する学習処理が行われる。

深層学習は、ミニバッチと呼ばれる処理の単位に区切られて実行される。ミニバッチとは、学習の対象となる入力データの集合を所定個の組に分割した複数個のデータの組み合わせである。図２では、Ｎ個の画像で１つのミニバッチである。そして、ミニバッチ毎のフォワード方向の処理及びバックワード方向の処理の一連の処理をまとめた単位を１イテレーションという。

演算用回路４は、深層学習中の所定数のミニバッチ毎に、各層の演算を行うとともに各層の各変数の統計情報を取得して蓄積し、深層学習に用いる変数の固定小数点位置を自動調整する。次に、演算用回路４の詳細について説明する。

図３は、演算用回路のブロック図である。図３に示すように、演算用回路４は、プロセッサ４０及び命令ＲＡＭ（Random Access Memory）４１及びデータＲＡＭ４２を有する。

プロセッサ４０は、制御部１０、レジスタファイル１１、演算部１２、統計情報集約部１３、メモリインタフェース１４及びメモリインタフェース１５を有する。メモリインタフェース１４は、プロセッサ４０における命令ＲＡＭ４１に接続するインタフェースである。また、メモリインタフェース１５は、プロセッサ４０におけるデータＲＡＭ４２に接続するインタフェースである。以下の説明では、プロセッサ４０の各部が命令ＲＡＭ４１又はデータＲＡＭ４２にアクセスする場合、メモリインタフェース１４及び１５の仲介を省略して説明する。

命令ＲＡＭ４１は、ＣＰＵ２から送信された命令を格納する記憶装置である。命令ＲＡＭ４１に格納された命令は、制御部１０によりフェッチされて実行される。データＲＡＭ４２は、命令で指定された演算を実行する際に使用するデータを格納する記憶装置である。データＲＡＭ４２に格納されたデータは、演算部１２で実行される演算に使用される。

レジスタファイル１１は、スカラレジスタファイル１１１、ベクタレジスタファイル１１２、アキュムレータレジスタ１１３、ベクタアキュムレータレジスタ１１４及び統計情報格納部１１５を有する。

スカラレジスタファイル１１１及びベクタレジスタファイル１１２は、入力されたデータや学習処理の実行途中のデータなど演算に用いるデータを格納する。アキュムレータレジスタ１１３及びベクタアキュムレータレジスタ１１４は、演算部１２が演算を実行する際に、累積などの演算を行う場合にデータを一時的に格納する。

統計情報格納部１１５は、統計情報集約部１３が集約した統計情報を取得して格納する。統計情報は、演算結果の小数点位置に関する情報である。統計情報は、例えば、非符号となる最上位ビット位置の分布、非ゼロの最下位ビット位置の分布、非符号となる最上位ビット位置の最大値又は非ゼロの最下位ビット位置の最小値などを含む複数の情報のうちのいずれか又はその組み合わせである。

次に、演算部１２について説明する。演算部１２は、スカラユニット１２１及びベクタユニット１２２を有する。

スカラユニット１２１は、制御部１０、レジスタファイル１１及びメモリインタフェース１５に接続される。スカラユニット１２１は、演算器２１１、統計情報取得部２１２及びデータ変換部２１３を有する。本実施例では、スカラユニット１２１は、統計情報を取得するための先行演算と、先行演算の統計情報から決定された小数点位置で演算を実行して演算結果を取得する本演算という２つの演算を実行する。

演算器２１１は、データＲＡＭ４２、スカラレジスタファイル１１１及びアキュムレータレジスタ１１３が保持するデータのうちの１つもしくはいくつかを用いて積和演算などの演算を実行する。この演算器２１１が演算に用いるデータが、「入力データ」の一例にあたる。演算器２１１は、先行演算及び本演算のいずれの演算でも同様の演算を実行する。演算器２１１は、演算結果を表すのに十分なビット幅を用いて演算を実行する。演算器２１１は、データＲＡＭ４２、統計情報取得部２１２及びデータ変換部２１３に演算結果を出力する。

統計情報取得部２１２は、演算結果のデータの入力を演算器２１１から受ける。そして、統計情報取得部２１２は、演算結果のデータから統計情報を取得する。その後、統計情報取得部２１２は、取得した統計情報を統計情報集約部１３へ出力する。ただし、統計情報取得部２１２は、本演算の場合統計情報の取得及び取得した統計情報の出力を行わなくてもよい。

データ変換部２１３は、演算器２１１による演算結果を取得する。次に、データ変換部２１３は、本演算の場合、先行演算により取得された統計情報から決定された小数点位置の入力を制御部１０から受ける。そして、データ変換部２１３は、固定小数点数データを取得した少数点位置で指定されたシフト量だけシフトさせる。また、データ変換部２１３は、シフトとともに、上位ビットの飽和処理および下位ビットの丸めを実行する。これにより、データ変換部２１３は、固定小数点数のデータの小数点位置を更新する。データ変換部２１３は、先行演算の場合、小数点位置の更新を行わなくてもよい。データ変換部２１３は、小数点位置を更新した演算結果をスカラレジスタファイル１１１及びデータＲＡＭ４２に格納する。この入力データに対して演算器２１１及びデータ変換部２１３により行われる処理が、「所定演算」の一例にあたる。

ベクタユニット１２２は、制御部１０、レジスタファイル１１及びメモリインタフェース１５に接続される。ベクタユニット１２２は、演算器２２１、統計情報取得部２２２及びデータ変換部２２３の組を複数有する。本実施例では、ベクタユニット１２２も、先行演算と本演算という２つの演算を実行する。

演算器２２１は、データＲＡＭ４２、ベクタレジスタファイル１１２又はベクタアキュムレータレジスタ１１４のうちの１つもしくはいくつかが保持するデータを用いて積和演算などの演算を実行する。演算器２２１は、演算結果を表すのに十分なビット幅を用いて演算を実行する。演算器２２１は、先行演算及び本演算のいずれの演算でも同様の演算を実行する。演算器２１１は、データＲＡＭ４２、統計情報取得部２２２及びデータ変換部２２３に演算結果を出力する。

統計情報取得部２２２は、演算結果のデータの入力を演算器２２１から受ける。この時、統計情報取得部２２２は、精度を維持できる十分なビット幅で表された演算結果のデータを取得する。

そして、統計情報取得部２２２は、演算結果のデータから統計情報を取得する。例えば、非符号となる最上位ビット位置を取得する場合、統計情報取得部２２２は、非符号最上位ビット検出器を用いて、非符号となる最上位ビット位置の値を１とし、他のビット位置の値を０とする出力データを生成する。その後、統計情報取得部２２２は、取得した統計情報を統計情報集約部１３へ出力する。ただし、統計情報取得部２２２は、本演算の場合統計情報の取得及び取得した統計情報の出力を行わなくてもよい。

データ変換部２２３は、演算器２２１による演算結果を取得する。次に、データ変換部２２３は、本演算の場合、先行演算により取得された統計情報から決定された小数点位置の入力を制御部１０から受ける。そして、データ変換部２２３は、固定小数点数のデータを取得した少数点位置で指定されたシフト量だけシフトさせる。また、データ変換部２２３は、シフトとともに、上位ビットの飽和処理および下位ビットの丸めを実行する。これにより、データ変換部２２３は、固定小数点数のデータの小数点位置を更新する。データ変換部２２３は、先行演算の場合、小数点位置の更新を行わなくてもよい。データ変換部２２３は、小数点位置を更新した演算結果をベクタレジスタファイル１１２及びデータＲＡＭ４２に格納する。

統計情報集約部１３は、演算器２２１による演算結果のデータから取得された統計情報の入力を統計情報取得部２１２から受ける。また、統計情報集約部１３は、各演算器２２１による演算結果のデータから取得されたそれぞれの統計情報の入力を各統計情報取得部２２２から受ける。統計情報集約部１３は、統計情報取得部２１２から取得した統計情報及び各統計情報取得部２２２から取得した各統計情報を集約して統計情報格納部１１５へ出力する。

次に、制御部１０について説明する。図４は、制御部の詳細を表すブロック図である。制御部１０は、図４に示すように、統括管理部１００、小数点位置決定部１０１及び指数値変換制御部１０２を有する。

統括管理部１００は、演算部１２による先行演算及び本演算の実行を管理する。統括管理部１００は、深層学習において演算部１２に演算を実行させるレイヤの情報を保持する。統括管理部１００は、演算部１２に演算を実行させるレイヤが次のレイヤに移ると、先行演算の実行を決定する。そして、統括管理部１００は、前段のレイヤで用いた小数点位置の出力を指数値変換制御部１０２に指示し、演算部１２に先行演算の実行を指示する。ここで、本実施例では、前段のレイヤで用いた小数点位置を先行演算に使用したが、実行する先行演算における適切な小数点位置に近い値であれば他の値を使用してもよい。この前段のレイヤで用いた小数点位置が、「第１小数点位置」の一例にあたる。

その後、統括管理部１００は、演算部１２による先行演算の実行が完了すると、本演算の実行を決定する。そして、統括管理部１００は、新たに決定された小数点位置の出力を指数値変換制御部１０２に指示し、演算部１２に本演算の実行を指示する。統括管理部１００は、以上のような先行演算及び本演算を演算部１２に実行させる制御をレイヤ毎に繰り返す。

また、統括管理部１００は、深層学習におけるイテレーションの管理も行う。例えば、所定回数のイテレーションの実行が指示された場合、統括管理部１００は、実行されたイテレーションの回数をカウントし所定回数に達すると学習の終了を決定する。その後、統括管理部１００は、例えば、ＣＰＵ２に学習終了を通知して学習を終了する。この統括管理部１００が、「管理部」の一例にあたる。

小数点位置決定部１０１は、レイヤ毎に演算部１２による先行演算が終了すると、統計情報を統計情報格納部１１５から取得する。そして、小数点位置決定部１０１は、取得した統計情報を用いて最適な小数点位置を決定する。その後、小数点位置決定部１０１は、決定した小数点位置を指数値変換制御部１０２へ出力する。小数点位置決定部１０１は、以上先行計算後の小数点位置の決定処理をレイヤ毎に繰り返す。この小数点位置決定部１１０１により決定された小数点位置が、「第２小数点位置」の一例にあたる。

指数値変換制御部１０２は、前段のレイヤで用いた小数点位置の出力の指示を統括管理部１００から受ける。そして、指数値変換制御部１０２は、前段のレイヤで用いた小数点位置を演算部１２に出力する。ただし、深層学習における最初のレイヤの場合、指数値変換制御部１０２は、最初の小数点位置である初期小数点位置を予め決められた小数点位置とする。

その後、演算部１２による先行演算が完了すると、指数値変換制御部１０２は、新たに決定された小数点位置の出力の指示の入力を統括管理部１００から受ける。次に、指数値変換制御部１０２は、先行演算の演算結果を用いて新たに決定された小数点位置の入力を小数点位置決定部１０１から受ける。その後、指数値変換制御部１０２は、新たに決定された小数点位置の情報を演算部１２に出力する。

図５は、実施例１に係る小数点位置更新処理の全体を説明するための図である。ここで、図５を参照して、本実施例に係る演算用回路４による各レイヤにおける固定小数点位置更新処理について説明する。図５において紙面に向かって破線よりも上の領域はプロセッサ４０が実行する処理を表す。また、図５において紙面に向かって破線よりも下の領域は統計情報格納部１１５に格納される情報を表す。

プロセッサ４０の演算器２１１及び２２１は、入力データ３１を取得する。入力データ３１には、複数の演算データが含まれる。演算器２１１及び２２１は、入力データ３１を用いて先行演算を実行し演算結果を取得する。その後、プロセッサ４０の各統計情報取得部２１２及び２２２は、演算器２１１及び２２１が算出した演算結果から統計情報を求める（ステップＳ１０１）。プロセッサ４０の統計情報集約部１３は、各統計情報取得部２１２及び２２２から統計情報を取得して、統計情報格納部１１５へ格納する（ステップＳ１０２）。

その後、プロセッサ４０の制御部１０における小数点位置決定部１０１は、統計情報格納部１１５に格納された統計情報を用いて小数点位置を決定する（ステップＳ１０３）。

プロセッサ４０の演算器２１１及び２２１は、入力データ３１を用いて演算を再度実行する。この場合、演算器２１１及び２２１は、入力データ３１を用いて同じ計算を２回繰り返す。プロセッサ４０のデータ変換部２１３及び２２３は、新たに決定された小数点位置の情報を小数点位置決定部１０１から取得する。そして、データ変換部２１３及び２２３は、新たに決定された小数点位置を用いて演算結果の小数点位置をシフトさせ、上位ビットの飽和処理および下位ビットの丸めを実行して、固定小数点数のデータである演算結果の小数点位置を更新する。その後、データ変換部２１３及び２２３は、小数点位置を更新した演算結果を出力する（ステップＳ１０４）。

プロセッサ４０は、各レイヤについてステップＳ１０１〜Ｓ１０４の処理を繰り替えして深層学習を行う。

図６は、実施例１に係る演算用回路による小数点位置の更新を含んだ演算処理の概要を表す図である。次に、図６を参照して、本実施例に係る演算用回路４による小数点位置の更新を含んだ演算処理の概要を説明する。

演算部１２は、入力データ３０１を用いて１回目の演算である先行演算を実行する（ステップＳ１１１）。これにより、演算結果３０２が得られる。

そして、制御部１０の小数点位置決定部１０１は、先行演算の演算結果３０２の統計情報を用いて新たな小数点位置３０３を決定する。その後、演算部１２は、入力データ３０１を用いて２回目の演算である本演算を行い、演算結果３０４を取得する（ステップＳ１１２）。

さらに、演算部１２は、２回目の演算の演算結果３０４に対して、新たな小数点位置３０３を用いて小数点位置の更新を行い、新たな小数点位置で表された固定小数点である演算結果３０５を求める。

次に、図７を参照して、本実施例に係る演算用回路４による深層学習の処理の流れを説明する。図７は、実施例１に係る演算用回路による深層学習の処理のフローチャートである。

制御部１０の指数値変換制御部１０２は、予め決められた小数点位置を初期小数点位置として決定する（ステップＳ１２１）。

次に、小数点位置決定部１０１は、統計情報格納部１１５に格納された統計情報を初期化する（ステップＳ１２２）。

次に、各演算器２１１及び２２１は、入力データを用いて先行演算を実行する（ステップＳ１２３）。

そして、各統計情報取得部２１２及び２２２は、対応する各演算器２１１及び２２１による演算結果から統計情報を求める（ステップＳ１２４）。統計情報集約部１３は、各統計情報取得部２１２及び２２２から統計情報を集約して統計情報格納部１１５に格納する。

制御部１０の小数点位置決定部１０１は、先行演算の演算結果３０２の統計情報を用いて新たな小数点位置を決定する（ステップＳ１２５）。

制御部１０の指数値変換制御部１０２は、小数点位置決定部１０１から通知された小数点位置を演算部１２の各データ変換部２１３及び２２３へ出力する。演算部１２の演算器２１１及び２２１は、それぞれ入力データを用いて演算を実行する。データ変換部２１３及び２２３は、指数値変換制御部１０２から入力された小数点位置で、演算器２１１及び２２１による演算結果の小数点位置を更新する。このように、演算部１２は、本演算を実行する（ステップＳ１２６）。

その後、制御部１０の統括管理部１００は、実行中の全てのレイヤが終了したか否かを判定する（ステップＳ１２７）。終了していないレイヤが残っている場合（ステップＳ１２７：否定）、統括管理部１００は、次のレイヤの演算を開始させる（ステップＳ１２８）。その後、深層学習の処理は１２２へ戻る。

これに対して、全てのレイヤが終了した場合（ステップＳ１２７：肯定）、制御部１０の統括管理部１００は、学習が終了したか否かを判定する（ステップＳ１２９）。

学習が終了していない場合（ステップＳ１２９：否定）、統括管理部１００は、次の全てのレイヤを開始する（ステップＳ１３０）。その後、深層学習の処理はステップＳ１２２へ戻る。

これに対して、学習が終了した場合（ステップＳ１２９：肯定）、統括管理部１００は、学習完了をＣＰＵ２に通知して学習を終了する。

以上に説明したように、本実施例に係る演算用回路は、入力データを用いて先行演算を行い、その先行演算の結果から得た統計情報を用いて、その入力データを用いた演算に対する適切な小数点位置を決定する。そして、演算用回路は、入力データを用いて本演算を行い決定した小数点位置を有する固定小数点で表される演算結果を取得する。

これにより、ニューラルネットの構造となる計算グラフの構築が、深層学習の処理を実行しながら行われるＤｅｆｉｎｅｂｙＲｕｎにより深層学習を行う際に、適切な固定小数点位置を決定でき、固定小数点を用いた学習における学習精度を向上させることが可能となる。

次に、実施例２について説明する。本実施例に係る演算用回路４は、入力データに含まれる複数の演算データの一部を用いて演算を行い、その演算結果の統計情報から小数点位置を決定することが実施例１と異なる。本実施例に係る演算用回路４も図３及び４のブロック図で表される。以下の説明では、実施例１と同様の各部の機能については説明を省略する。

統括管理部１００は、入力データに含まれる演算データのうち予め決められた割合の演算データを選択する。以下では、予め決められた割合をＮ％と呼び、選択された演算データをＮ％の演算データと呼ぶ。Ｎ％の演算データを用いた先行演算の実行を演算部１２に指示する。

Ｎ％の演算データを用いた先行演算の完了後、統括管理部１００は、指数値変換制御部１０２に対して先行演算結果から算出された新たな指数値の出力を指示するとともに、入力データに含まれる全ての演算データを用いた本演算の実行を演算部１２に指示する。

小数点位置決定部１０１は、Ｎ％の演算データを用いた演算結果から求められた統計情報を統計情報格納部１１５から取得する。そして、小数点位置決定部１０１は、Ｎ％の演算データを用いた演算結果から求められた統計情報を用いて入力データの演算結果を固定小数点数で表す場合の適切な小数点位置を決定する。その後、小数点位置決定部１０１は、決定した小数点位置の情報を指数値変換制御部１０２へ出力する。

演算部１２は、Ｎ％の演算データを用いた先行演算の実行の指示を統括管理部１００から受ける。そして、演算部１２は、Ｎ％の演算データに対応する数の演算器２１１及び２２１を選択する。

選択された演算器２１１及び２２１は、Ｎ％の演算データを用いた先行演算を実行する。その後、選択された演算器２１１及び２２１は、先行演算の演算結果を各統計情報取得部２１２及び２２２へ出力する。

その後、演算部１２が入力データに含まれる全ての演算データを用いた本演算の実行の指示を受けると、演算器２１１及び２２１は、入力データに含まれる全ての演算データを用いた本演算を実行する。そして、演算器２１１及び２２１は、入力データに含まれる全ての演算データを用いた本演算の演算結果を各データ変換部２１３及び２２３へ出力する。

Ｎ％の演算データを用いた先行演算を実行した演算器２１１及び２２１に対応する統計情報取得部２１２及び２２２は、演算結果を取得する。そして、各統計情報取得部２１２及び２２２は、演算結果の統計情報を取得して統計情報集約部１３へ出力する。

統計情報集約部１３は、Ｎ％の演算データを用いた先行演算を実行した演算器２１１及び２２１に対応する統計情報取得部２１２及び２２２から統計情報の入力を受ける。そして、統計情報集約部１３は、Ｎ％の演算データを用いた先行演算の演算結果の統計情報を集約して統計情報格納部１１５に格納させる。

図８は、実施例２に係る小数点位置更新処理の全体を説明するための図である。ここで、図８を参照して、本実施例に係る演算用回路による各レイヤにおける固定小数点位置更新処理について説明する。

演算部１２で選択された演算器２１１及び２２１は、入力データのうちのＮ％の演算データ３３を取得する。そして、選択された演算器２１１及び２２１は、Ｎ％の演算データ３３を用いて先行演算を実行し演算結果を取得する。その後、Ｎ％の演算データ３３を用いた先行演算を実行した演算器２１１及び２２１に対応する各統計情報取得部２１２及び２２２は、Ｎ％の演算データ３３を用いた先行演算の演算結果から統計情報を求める（ステップＳ１３１）。

プロセッサ４０の統計情報集約部１３は、Ｎ％の演算データ３３を用いた先行演算の演算結果の統計情報を各統計情報取得部２１２及び２２２から取得して、統計情報格納部１１５へ格納する（ステップＳ１３２）。

その後、プロセッサ４０の制御部１０における小数点位置決定部１０１は、統計情報格納部１１５に格納されたＮ％の演算データ３３を用いた先行演算の演算結果の統計情報を用いて小数点位置を決定する（ステップＳ１３３）。

プロセッサ４０の演算器２１１及び２２１は、入力データの全ての演算データ３４を用いて本演算を実行する。プロセッサ４０のデータ変換部２１３及び２２３は、新たに決定された小数点位置の情報を小数点位置決定部１０１から取得する。そして、データ変換部２１３及び２２３は、本演算の結果を指定された少数点位置でシフトさせ、上位ビットの飽和処理および下位ビットの丸めを実行して、固定小数点数のデータの小数点位置を更新する。その後、演算部２１は、小数点位置を更新した固定小数点数のデータを出力する（ステップＳ１３４）。

ここで、Ｎ％の演算データの選択方法を説明する。図９は、Ｎ％の演算データの選択を説明するための図である。データ５００は、多次元配列の１つのデータを表す。Ｂはミニバッチを表す。そして、入力データ５０１は、チャネルＣ（Channel）、幅Ｗ（Width）及び高さＨ（Height）という３つのテンソルの軸が延びる次元方向に並ぶ演算データが含まれる。入力データ５０１から、演算データを選択する場合、偏りなく選択することが好ましい。

そこで、例えば、テンソルの軸に向かって等間隔で演算データを選択することで、偏りを軽減することができる。例えば、チャネルＣ方向に一定間隔で演算データが選択され、さらに、高さＨ方向に一定間隔で演算データが選択される。例えば、図９では、演算データは、高さＨ方向にａの距離の演算データがｂ間隔ごとに選択される。

以上に説明したように、本実施例に係る演算用回路は、入力データのうちのＮ％の演算データを用いて先行演算を行い、その先行演算の結果から得た統計情報を用いて、その入力データを用いた演算に対する適切な小数点位置を決定する。そして、演算用回路は、入力データに含まれる全ての演算データを用いて本演算を行い決定した小数点位置を有する固定小数点で表される演算結果を取得する。

これにより、ＤｅｆｉｎｅｂｙＲｕｎにより深層学習を行う際に、固定小数点を用いた学習における学習精度を向上させることが可能となるとともに、１回目の演算数を実施例１よりも少なくすることで演算のオーバヘッドを軽減し、学習時間を短縮することができる。

（変形例）
多くの演算データを用いた方がその時点での演算結果に応じた統計情報を取得することができ、適切な小数点位置を求めることができる。ただし、学習を繰り返していき認識率が高まると演算結果の差が小さくなるため、少ない演算データでも適切な小数点位置を求めることができる。そこで、実施例２では予め決められた割合の演算データを選択して演算を行ったが、認識率に合わせて選択する演算データの割合を変化させてもよい。

図１０は、選択する認識率に応じた選択する演算データの割合を表す図である。図１０は、縦軸で認識率を表し、横軸でイテレーションを表す。図１０に示すように、深層学習は、実行したイテレーションの数が増えて学習が進むにつれて認識率が向上する。そこで、実行したイテレーションの回数に応じて選択する演算データの割合を変化させることで、認識率に合わせて選択する演算データの割合を変化させることができる。

例えば、制御部１０の統括管理部１００は、図１０に示すように深層学習で実行されるイテレーションの回数をいくつか区分に分けた場合のその区分の境界となるイテレーションの実行された回数を保持する。統括管理部１００は、イテレーションの実行回数を記憶し、実行回数に合わせて、図１０の紙面に向かって上部に記載したＮ％を選択する演算データの割合とする。例えば、統括管理部１００は、学習開始時は選択する演算データの割合を１００％とする。その後、統括管理部１００は、実行したイテレーションの数が区分の境界となるイテレーションの実行された回数に達する毎に、選択する演算データの割合を変更して演算部１２に通知し、統計情報を取得する演算データの割合を順次変更する。

以上に説明したように、本変形例に係る演算用回路は、統計情報を取得するために演算に用いる演算データの割合を深層学習の途中に認識率に応じて選択する演算データの割合を変化させる。これにより、学習全体での演算データを用いた演算の回数を低減させることができ、処理負荷を軽減することができる。

次に、実施例３について説明する。本実施例に係る演算用回路４は、先行演算の演算結果を保持し、統計情報から求めた小数点位置を用いて保持する演算結果の小数点位置を更新して、適切な小数点位置を有する固定小数点数を取得することが実施例１と異なる。本実施例に係る演算用回路４も図３及び４で表される。以下の説明では、実施例１と同様の各部の機能については説明を省略する。

統括管理部１００からの指示を受けて、演算部１２の演算器２１１及び２２１は、入力データを用いて先行演算を実行する。そして、演算部１２の演算器２１１及び２２１は、は、先行演算の演算結果をデータＲＡＭ４２に格納する。この際、演算器２１１及び２２１は、演算結果の精度が落ちないフルビットでデータＲＡＭ４２に演算結果を格納させる。精度の落ちないフルビットとは、例えば、浮動小数点や固定小数点で表現するビット幅に藏ばて広いビット幅を有する符号付整数などである。演算部１２の統計情報取得部２１２及び２２２は、先行演算の演算結果から統計情報を求めて、統計情報集約部１３へ出力する。

その後、演算部１２のデータ変換部２１３及び２２３は、指数値変換制御部１０２から小数点位置の入力を受ける。さらに、データ変換部２１３及び２２３は、統括管理部１０から先行演算の演算結果の小数点位置の更新指示を受ける。そして、データ変換部２１３及び２２３は、データＲＡＭ４２から先行演算の演算結果を取得し、指定された小数点位置に演算結果の小数点位置を更新する。すなわち、データ変換部２１３及び２２３は、先行演算の演算結果を量子化する。その後、データ変換部２１３は、小数点位置を更新した演算結果を出力する。

統括管理部１００は、先行計算の実行を演算部１２に指示する。その後、先行計算が終了すると、統括管理部１００は、先行演算の演算結果の小数点位置の更新指示を指数値変換制御部１０２に指示する。

指数値変換制御部１０２は、小数点位置決定部１０１から取得した小数点位置の情報を演算部１２のデータ変換部２１３及び２２３に出力する。そして、指数値変換制御部１０２は、データＲＡＭ４２から先行演算の演算結果を用いた小数点位置の更新を演算部１２に指示する。

図１１は、実施例３に係る小数点位置更新処理の全体を説明するための図である。ここで、図１１を参照して、本実施例に係る演算用回路４による各レイヤにおける固定小数点位置更新処理について説明する。図１１において紙面に向かって破線よりも上の領域はプロセッサ４０が実行する処理を表す。また、図１１において紙面に向かって破線よりも下の領域は統計情報格納部１１５及びデータＲＡＭ４２に格納される情報を表す。

プロセッサ４０の演算器２１１及び２２１は、入力データ３５を取得する。演算器２１１及び２２１は、入力データ３５を用いて先行演算を実行し演算結果を取得する。その後、プロセッサ４０の各統計情報取得部２１２及び２２２は、演算器２１１及び２２１が算出した演算結果から統計情報を求める（ステップＳ２０１）。

プロセッサ４０の統計情報集約部１３は、各統計情報取得部２１２及び２２２から統計情報を取得して、統計情報格納部１１５へ格納する（ステップＳ２０２）。また、演算器２１１及び２２１は、演算結果の精度が落ちないフルビットでデータＲＡＭ４２に演算結果を格納させるに格納する（ステップＳ２０３）。

その後、プロセッサ４０の制御部１０における小数点位置決定部１０１は、統計情報格納部１１５に格納された統計情報を用いて小数点位置を決定する（ステップＳ２０４）。

プロセッサ４０のデータ変換部２３１及び２３２は、データＲＡＭ４２に格納された先行演算の演算結果を取得する。さらに、データ変換部２１３及び２２３は、新たに決定された小数点位置の情報を小数点位置決定部１０１から取得する。そして、データ変換部２１３及び２２３は、新たに決定された小数点位置を用いて、取得した演算結果の小数点位置をシフトさせ、上位ビットの飽和処理および下位ビットの丸めを実行して、固定小数点数のデータである演算結果の小数点位置を更新する。その後、データ変換部２１３及び２２３は、小数点位置を更新した演算結果を出力する（ステップＳ２０５）。

次に、図１２を参照して、本実施例に係る演算用回路４による深層学習の処理の流れを説明する。図１２は、実施例３に係る演算用回路による深層学習の処理のフローチャートである。

制御部１０の指数値変換制御部１０２は、予め決められた小数点位置を初期小数点位置として決定する（ステップＳ２１１）。

次に、小数点位置決定部１０１は、統計情報格納部１１５に格納された統計情報を初期化する（ステップＳ２１２）。

次に、各演算器２１１及び２２１は、入力データを用いて先行演算を実行する（ステップＳ２１３）。

各演算器２１１及び２２１は、先行演算の演算結果を演算結果の精度が落ちないフルビットでデータＲＡＭ４２に格納する（ステップＳ２１４）。

そして、各統計情報取得部２１２及び２２２は、対応する各演算器２１１及び２２１による演算結果から統計情報を求める（ステップＳ２１５）。統計情報集約部１３は、各統計情報取得部２１２及び２２２から統計情報を集約して統計情報格納部１１５に格納する。

制御部１０の小数点位置決定部１０１は、先行演算の演算結果３０２の統計情報を用いて新たな小数点位置を決定する（ステップＳ２１６）。

制御部１０の指数値変換制御部１０２は、小数点位置決定部１０１から通知された小数点位置を演算部１２の各データ変換部２１３及び２２３へ出力する。演算部１２のデータ変換部２１３及び２２３は、データＲＡＭ４２から先行演算の演算結果を取得する。次に、データ変換部２１３及び２２３は、指数値変換制御部１０２から入力された小数点位置で、先行演算の演算結果を量子化する（ステップＳ２１７）。

その後、制御部１０の統括管理部１００は、実行中の全てのレイヤが終了したか否かを判定する（ステップＳ２１８）。終了していないレイヤが残っている場合（ステップＳ２１８：否定）、統括管理部１００は、次のレイヤの演算を開始させる（ステップＳ２１９）。その後、深層学習の処理はステップＳ２１２へ戻る。

これに対して、全てのレイヤが終了した場合（ステップＳ２１８：肯定）、制御部１０の統括管理部１００は、学習が終了したか否かを判定する（ステップＳ２２０）。

学習が終了していない場合（ステップＳ２２０：否定）、統括管理部１００は、次の全てのレイヤを開始する（ステップＳ２２１）。その後、深層学習の処理はステップＳ２１２へ戻る。

これに対して、学習が終了した場合（ステップＳ２２０：肯定）、統括管理部１００は、学習完了をＣＰＵ２に通知して学習を終了する。

以上に説明したように、本実施例に係る演算用回路は、入力データを用いて先行演算を行い、演算結果を記憶するとともに、その先行演算の結果から得た統計情報を用いて、その入力データを用いた演算に対する適切な小数点位置を決定する。そして、演算用回路は、決定した小数点位置で先行演算の演算結果を量子化して、指定された小数点位置の固定小数点で表される演算結果を取得する。

このように、本実施例に係る演算用回路は、演算結果の量子化において入力データを用いた演算を１回行う。これにより、ＤｅｆｉｎｅｂｙＲｕｎにより深層学習を行う際に、固定小数点を用いた学習における学習精度を向上させつつ、演算のオーバヘッドを軽減でき、学習時間を短縮することが可能となる。

次に、実施例４について説明する。実施例３では、今回の演算結果の統計情報を使用して適切な小数点位置を決定し、その決定した有効桁数を用いて今回の演算を再度実行する。これは、同じ計算を２度行うこととなり演算のオーバヘッドが大きくなる。ＤｂＲにより深層学習を行う場合、今回の演算結果の統計情報から小数点位置を決定することが好ましいが、上述したようにオーバヘッドが大きくなり、演算時間が増加するおそれがある。

そこで、演算のオーバヘッドの増加を軽減するため、本実施例に係る演算用回路４は、入力データに含まれる複数の演算データの一部を用いて先行演算を行い、その演算結果の統計情報から小数点位置を決定することが実施例３と異なる。本実施例に係る演算用回路４も図３及び４のブロック図で表される。以下の説明では、実施例３と同様の各部の機能については説明を省略する。

統括管理部１００は、入力データに含まれる演算データのうち予め決められた割合の演算データを選択する。以下では、予め決められた割合をＮ％と呼び、選択された演算データをＮ％の演算データと呼ぶ。統括管理部１００は、Ｎ％の演算データを用いた先行演算の実行を演算部１２に指示する。

その後、統括管理部１００は、指数値変換制御部１０２に対して新たな指数値の出力を指示するとともに、入力データに含まれる全ての演算データを用いた本演算の実行を演算部１２に指示する。

選択された演算器２１１及び２２１は、Ｎ％の演算データを用いた先行演算を実行する。その後、選択された演算器２１１及び２２１は、先行演算の演算結果を各統計情報取得部２１２及び２２２へ出力する。また、選択された演算器２１１及び２２１は、先行演算の演算結果を演算結果の精度が落ちないフルビットでデータＲＡＭ４２に格納する。

その後、演算部１２が入力データに含まれる全ての演算データの量子化の実行の指示を受けると、演算器２１１及び２２１は、入力データのうちＮ％の演算データ以外の残りの演算データを用いた本演算を実行する。そして、演算器２１１及び２２１は、残りの演算データを用いた本演算の演算結果を各データ変換部２１３及び２２３へ出力する。

各データ変換部２１３及び２２３は、新しい小数点位置の情報の入力を指数値変換制御部１０２から受ける。そして、各データ変換部２１３及び２２３は、データＲＡＭ４２からＮ％の演算データを用いた先行演算の演算結果を取得する。また、各データ変換部２１３及び２２３は、残りの演算データを用いた演算結果の入力を演算器２１１及び２２１から受ける。そして、各データ変換部２１３及び２２３は、Ｎ％の演算データを用いた先行演算の演算結果及び残りの演算データを用いた演算結果を合わせた全ての演算結果に対して、指定された小数点位置で量子化を実行し、指定された小数点位置の固定小数点数として表される演算結果を算出する。

図１３は、実施例４に係る小数点位置更新処理の全体を説明するための図である。ここで、図１３を参照して、本実施例に係る演算用回路４による各レイヤにおける固定小数点位置更新処理について説明する。

演算部１２で選択された演算器２１１及び２２１は、入力データのうちのＮ％の演算データ３３を取得する。そして、選択された演算器２１１及び２２１は、Ｎ％の演算データ３３を用いて先行演算を実行し演算結果を取得する。その後、Ｎ％の演算データ３３を用いた先行演算を実行した演算器２１１及び２２１に対応する各統計情報取得部２１２及び２２２は、Ｎ％の演算データ３３を用いた先行演算の演算結果から統計情報を求める（ステップＳ２２１）。

プロセッサ４０の統計情報集約部１３は、Ｎ％の演算データ３３を用いた先行演算の演算結果の統計情報を各統計情報取得部２１２及び２２２から取得して、統計情報格納部１１５へ格納する（ステップＳ２２２）。

また、演算器２１１及び２２１は、Ｎ％の演算データ３３を用いた先行演算の演算結果をデータＲＡＭ４２に格納する（ステップＳ２２３）。

その後、プロセッサ４０の制御部１０における小数点位置決定部１０１は、統計情報格納部１１５に格納されたＮ％の演算データ３３を用いた先行演算の演算結果の統計情報を用いて小数点位置を決定する（ステップＳ２２４）。

プロセッサ４０の演算器２１１及び２２１は、入力データのうちのＮ％の演算データ以外の残りの演算データ３９を用いて演算を実行する。データ変換部２３１及び２３２は、残りの演算データ３９の演算結果を演算器２１１及び２２１から取得する。また、データ変換部２３１及び２３２は、Ｎ％の演算データを用いた先行演算の演算結果をデータＲＡＭ４２から取得する。さらに、データ変換部２１３及び２２３は、新たに決定された小数点位置の情報を小数点位置決定部１０１から取得する。そして、データ変換部２１３及び２２３は、演算データ３８及び３９の演算結果を合わせたデータ結果を指定された少数点位置でシフトさせ、上位ビットの飽和処理および下位ビットの丸めを実行して、固定小数点数のデータの小数点位置を更新する。その後、演算部２１は、小数点位置を更新した固定小数点数のデータを出力する（ステップＳ２２５）。

図１４は、実施例４に係る演算用回路による小数点位置の更新を含んだ演算処理の概要を表す図である。次に、図１４を参照して、本実施例に係る演算用回路４による小数点位置の更新を含んだ演算処理の概要を説明する。

演算部１２は、入力データ４０１を用いて１回目の演算である先行演算を実行する（ステップＳ２３１）。これにより、演算部１２が、演算結果４０２を得る。

そして、制御部１０の小数点位置決定部１０１は、先行演算の演算結果４０２の統計情報を用いて新たな小数点位置４０３を決定する。その後、演算部１２は、Ｎ％の演算データを用いた先行演算の演算結果を量子化して（ステップＳ２３２）、Ｎ％の演算結果４０４を取得する。

また、演算部１２は、入力データ４０１のうちの残りの１００−Ｎ％の演算データを用いて２回目の演算を行い、演算結果４０５を取得する（ステップＳ２３３）。

さらに、演算部１２は、演算結果４０５に対して、新たな小数点位置３０３を用いて量子化を行い、新たな小数点位置で表された固定小数点である演算結果４０６を求める。

以上に説明したように、本実施例に係る演算用回路は、入力データのうちのＮ％の演算データを用いて先行演算を行い、その先行演算の結果から得た統計情報を用いて、その入力データを用いた演算に対する適切な小数点位置を決定する。そして、演算用回路は、入力データに含まれるＮ％の演算データ以外の残りの演算データを用いて演算を行い、先行演算で得られたＮ％の演算データの演算結果と合わせて、決定した小数点位置を有する固定小数点で表される演算結果を取得する。

これにより、ＤｅｆｉｎｅｂｙＲｕｎにより深層学習を行う際に、固定小数点を用いた学習における学習精度を向上させることが可能となるとともに、１回目の演算数を実施例３よりも少なくすることで演算のオーバヘッドを軽減し、学習時間を短縮することができる。

図１５は、実施例１〜４の演算処理の処理時間を表す図である。図１５を参照して、各実施例の演算処理の処理時間について説明する。図１５における処理Ｐ０は、前回のイテレーションの統計情報を用いて小数点位置を更新する演算処理を表す。処理Ｐ１は、実施例１で説明した方法で小数点位置を更新する演算処理を表す。処理Ｐ２は、実施例２で説明した方法で小数点位置を更新する演算処理を表す。処理Ｐ３は、実施例３で説明した方法で小数点位置を更新する演算処理を表す。処理Ｐ４は、実施例４で説明した方法で小数点位置を更新する演算処理を表す。ここで、前提条件として、リード時間とライト時間とを加算したデータ転送時間と演算時間とはどちらか長い方に律速される場合で説明する。

処理Ｐ０の処理時間は、リード時間とライト時間とを合計した時間と演算時間との長い方となる。この場合は、リード時間とライト時間との合計した時間が長く、処理Ｐ０の処理時間は２．１ｍｓとなる。

処理Ｐ１の処理時間は、先行計算と、小数点位置算出時間と、本計算時間との合計時間である。この場合の小数点位置算出時間は、リード時間と演算時間との長い方である。ただし、小数点位置算出時間は相対的に無視できる時間である。また、本計算時間は、処理Ｐ０の時間と同様の時間がかかる。この場合の処理Ｐ１の処理時間は４．１ｍｓとなる。

処理Ｐ２の処理において、選択する演算データの割合であるＮ％を１２．５％とする。処理Ｐ２の処理時間は、先行演算時間と、小数点位置算出時間と、本演算時間との合計時間である。先行演算時間は、処理Ｐ１の先行演算時間の１２．５％である。また、小数点位置算出時間は、相対的に無視できる時間である。さらに、本演算時間は、処理Ｐ０の時間と同様の時間がかかる。この場合の処理Ｐ１の処理時間は２．３５ｍｓとなる。

処理Ｐ３において、量子化ビット数は非量子化ビット数の４分の１である場合で説明する。例えば、量子化表現は８ビット整数であり、非量子化表現は３２ビット浮動小数点である。この場合、非量子化ビット数のリード時間とライト時間は量子化ビット数の４倍になる。そこで、処理Ｐ３の処理時間は、量子化ビット数のライト時間の４倍と量子化ビット数のリード時間との合計と、演算時間との長い方と、量子化ビット数のリード時間の４倍と、量子化ビット数のライト時間との合計時間である。この場合の処理Ｐ１の処理時間は１５，７ｍｓとなる。

処理Ｐ４の処理において、選択する演算データの割合であるＮ％を１２．５％とする。処理Ｐ４の処理時間は、処理Ｐ３の処理時間のＮ％と、処理Ｐ０の１００−Ｎ％との合計である。この場合の処理Ｐ４の処理時間は３．８ｍｓとなる。ここでは、データ転送の時間が演算処理にかかる時間よりも長い場合を例に説明したが、逆の場合には、処理Ｐ３及びＰ４の方が、処理Ｐ１及びＰ２よりも短くなる場合もある。

次に、実施例５について説明する。本実施例に係る演算用回路４は、深層学習のレイヤ毎に、実施例２の小数点位置の更新方法と実施例４の小数点位置の更新方法のうちいずれかを選択して実行する。ここで、実施例２の小数点位置の更新方法が、「第１処理」の一例にあたり、実施例４の小数点位置の更新方法が「第２処理」の一例にあたる。本実施例に係る演算用回路４も図３及び４で表される。以下の説明では、実施例１又は２と同様の各部の機能については説明を省略する。以下の説明では、実施例２の小数点位置の更新方法を「２回演算による小数点位置の更新」と呼び、実施例４の小数点位置の更新方法を「演算結果保持による小数点位置の更新」と呼ぶ。ここででは、各小数点位置の更新において選択する演算データの割合を２０％とした。

図１６は、深層学習におけるレイヤの一例を示す図である。ここでは、深層学習が図１５におけるレイヤ５１０を有する場合で説明する。図１６における四角の枠で囲われたそれぞれが１つのレイヤ５１０である。本実施例では、ＤｅｆｉｎｅｂｙＲｕｎで深層学習が実行されるため、経路が途中で分岐する。

制御部１０の統括管理部１００は、予め決められた回数のイテレーションまで、各レイヤにおいて２回演算による小数点位置の更新の処理と演算結果保持による小数点位置の更新の処理との双方を実行する。そして、統括管理部１００は、各レイヤにおける回演算による小数点位置の更新の処理にかかった時間及び演算結果保持による小数点位置の更新の処理にかかった時間を保持する。

その後、予め決められた回数のイテレーションに達すると、統括管理部１００は、２回演算による小数点位置の更新の処理にかかった時間の平均値及び演算結果保持による小数点位置の更新の処理にかかった時間の平均値をレイヤ毎に算出する。そして、統括管理部１００は、算出した平均値をそれぞれの処理時間とする。そして、統括管理部１００は、２回演算による小数点位置の更新の処理又は演算結果保持による小数点位置の更新の処理のうち処理時間が短い方を、各レイヤでの小数点位置の更新方式として選択する。その後、統括管理部１００は、各レイヤで選択した小数点位置の更新方式で小数点位置の更新が行われるように演算部１２を制御する。

図１７は、小数点位置の更新方法の選択結果を表す図である。図１７の各行は、図１６の各レイヤ５１０に対応する。そして、太枠で囲われた列が、小数点位置の更新の処理が実行されるレイヤである。列５１１が、２回演算による小数点位置の更新の処理の処理時間を表す。列５１２が、演算結果保持による小数点位置の更新の処理の処理時間を表す。列５１３が、レイヤ毎の小数点位置の更新処理の選択結果を表す。選択結果は、パターンが一致する側が選択された小数点位置の更新方法である。

本実施例に係る深層学習では、図１６に示したいずれのレイヤにおいても、２回演算による小数点位置の更新の処理の処理時間が演算結果保持による小数点位置の更新の処理の処理時間よりも短い。そこで、統括管理部１００は、列５１３に示すように、いずれのレイヤにおいても２回演算による小数点位置の更新の処理を選択する。

ここで、図１８を参照して、実施例５に係る小数点位置の更新処理の選択の流れについて説明する。図１８は、実施例５に係る小数点位置の更新処理の選択のフローチャートである。

統括管理部１００は、指定されたイテレーションまで、各レイヤにおいて２回演算による小数点位置の更新の処理と演算結果保持による小数点位置の更新の処理との双方を実行する（ステップＳ３０１）。統括管理部１００は、双方の経過時間を保持する。

指定されたイテレーションに到達すると、統括管理部１００は、保持する経過時間の平均値をレイヤ毎に求めて、各レイヤにおける２回演算による小数点位置の更新の処理の処理時間及び演算結果保持による小数点位置の更新の処理の処理時間を算出する。そして、統括管理部１００は、処理時間が短い方を各レイヤの小数点位置の更新方法として選択する（ステップＳ３０２）。

その後、統括管理部１００は、指定されたイテレーションの次のイテレーションから選択した小数点位置の更新方法を用いて演算を実行する（ステップＳ３０３）。

図１９は、小数点位置の更新方法の選択タイミングを表す図である。例えば、予め決められた回数のイテレーションを、Ａ回目のイテレーションとする。その場合、統括管理部１００は、Ａ回目のイテレーションまで、２つの小数点位置の更新方法の双方を実行する。すなわち、期間Ｔの間は、各レイヤにおいて２つの小数点位置の更新方法の双方で演算が実行される。その後、統括管理部１００は、各レイヤについて小数点位置の更新方法の選択を行い、Ａ＋１回目のイテレーション以降は選択された小数点位置の更新方法で演算が実行される。

（変形例）
実施例５では、レイヤ毎に小数点位置の更新方法を選択したが、選択方法はこれに限らない。例えば、レイヤで行われる演算の種類に応じて小数点位置の更新方法を選択してもよい。

その場合、統括管理部１００は、各レイヤにおける各小数点位置の更新方法の処理時間を算出した後、演算種類毎にレイヤを分けてその処理時間の平均を算出して演算種類毎の処理時間とする。例えば、図１６のレイヤであれば、演算種類には、Ｃｏｎｖｏｌｕｔｉｏｎ、ＢａｔｃｈＮｏｒｍの２種類がある。そこで、統括管理部１００は、Ｃｏｎｖｏｌｕｔｉｏｎを行うレイヤの処理時間及びＢａｔｃｈＮｏｒｍを行うレイヤの処理時間を求める。そして、統括管理部１００は、実行する演算種類毎に処理時間の短い方を各レイヤにおける小数点位置の更新方法として選択する。

図１７における列５１４が、演算種類に応じた小数点位置の更新方法の選択結果である。この場合、Ｃｏｎｖｏｌｕｔｉｏｎを実行するレイヤでは、演算結果保持による小数点位置の更新の処理の処理時間が２回演算による小数点位置の更新の処理の処理時間よりも短い。また、ＢａｔｃｈＮｏｒｍを実行するレイヤでは、２回演算による小数点位置の更新の処理の処理時間が演算結果保持による小数点位置の更新の処理の処理時間よりも短い。そこで、統括管理部１００は、Ｃｏｎｖｏｌｕｔｉｏｎを実行するレイヤでは演算結果保持による小数点位置の更新の処理を選択し、ＢａｔｃｈＮｏｒｍを実行するレイヤでは２回演算による小数点位置の更新の処理を選択する。

この場合の小数点位置の更新処理の選択の流れは、図１８のステップＳ３０２において、統括管理部１００が、演算種類毎に処理時間を算出して演算種類毎に処理時間が短い方を各レイヤの小数点位置の更新方法として選択する。

以上に説明したように、本実施例及び変形例に係る演算用回路は、特定のレイヤにおいて２回演算による小数点位置の更新の処理及び演算結果保持による小数点位置の更新の処理のうち処理時間が短い方を選択して学習処理を実行させる。これにより、学習処理時間を短縮することができる。

以上の各実施例では、小数点位置の算出及び演算を行うリソースについて触れていないが、実際にはかく処理に対してどのリソースを割り当てるかも重要である。そこで、以下の実施例では、リソースの割り当て例に関して説明する。

実施例６について説明する。図２０は、計算用回路が搭載されたサーバの構成の一例を表す図である。本実施例では、サーバ１は、アクセラレータ５１〜５６を有する。さらに、サーバ１は、ＣＰＵ２同士が有線ＬＡＮ（Local Area Network）で相互に接続される。ＣＰＵ２は、アクセラレータ５１〜５６とＰＣＩｅバスにより接続される。

アクセラレータ５１は、演算用回路４Ａ〜４Ｄといった４つの演算用回路４を有するＬＳＩである。アクセラレータ５２〜５４も同様に４つの演算用回路４を有する。また、アクセラレータ５５及び５６は、演算用回路４を１つずつ有する縮小版ＬＩＳである。

図２１は、実施例６における演算手順を説明するための図である。本実施例では、アクセラレータ５１〜５４のいずれも同様の動作を行うので、以下では、アクセラレータ５１を例に説明する。

図２１の上段はレイヤ＃１〜＃Ｎのそれぞれで行われる実施例２で説明した先行演算処理を表し、下段はレイヤ＃１〜＃Ｎのそれぞれで行われる実施例２で説明した本演算処理を表す。そして、図２１の上段及び下段のそれぞれに対応するアクセラレータ５１が有する演算用回路４Ａ〜４Ｄのうち斜線パターンを付したものが演算を実行する。

演算用回路４Ａにおける制御部１０の統括管理部１００は、レイヤ＃１〜＃Ｎのそれぞれにおいて、Ｎ％の演算データを用いた先行演算の実行を演算用回路４Ａの演算部１２に対して指示する。

演算用回路４Ａにおける制御部１０の小数点位置決定部１０１は、演算部１２により算出されたＮ％の演算データを用いた先行演算の演算結果の統計情報を演算用回路４Ａの統計情報格納部１１５から取得する。そして、小数点位置決定部１０１は、取得した統計情報を用いて最適な小数点位置を決定する。その後、小数点位置決定部１０１は、決定した小数点位置を演算用回路４Ａにおける制御部１０の指数値変換制御部１０２へ出力する。演算用回路４Ａにおける制御部１０の小数点位置決定部１０１は、レイヤ＃１〜＃Ｎのそれぞれにおいて小数点位置の決定及び決定した小数点位置の出力を実行する。

演算用回路４Ａにおける制御部１０の指数値変換制御部１０２は、演算用回路４Ａにおける制御部１０の小数点位置決定部１０１により決定された小数点位置を演算用回路４Ｂ〜４Ｄの制御部１０に通知する。

演算用回路４Ａの演算部１２は、Ｎ％の演算データを用いた先行演算を実行する。演算用回路４Ａの演算部１２は、レイヤ＃１〜＃Ｎのそれぞれにおいて先行演算を実行する。これにより、演算用回路４Ａの演算部１２は、レイヤ＃１〜＃Ｎのレイヤ単位で先行演算をパイプライン化できる。この演算用回路４Ａの演算部１２が、「第１演算部」の一例にあたる。

演算用回路４Ｂ〜４Ｄの制御部１０は、レイヤ＃１〜＃Ｎのそれぞれで、小数点位置の通知を、演算用回路４Ａにおける制御部１０の指数値変換制御部１０２から受ける。演算用回路４Ｂ〜４Ｄの制御部１０の統括管理部１００は、取得した小数点位置の出力を指数値変換制御部１０２に指示する。また、演算用回路４Ｂ〜４Ｄの統括管理部１００は、指数値変換制御部１０２から出力される小数点位置を用いた本演算の実行を演算部１２に指示する。

演算用回路４Ｂ〜４Ｄの制御部１０の指数値変換制御部１０２は、取得した小数点位置を演算部１２へ出力する。

演算用回路４Ｂ〜４Ｄの演算部１２は、指数値変換制御部１０２から入力された小数点位置を用いて、レイヤ＃１〜＃Ｎのそれぞれにおいて本演算を実行する。これにより、演算用回路４Ｂ〜４Ｄの各演算部１２は、レイヤ＃１〜＃Ｎのレイヤ単位で本演算をパイプライン化できる。この演算用回路４Ｂ〜４Ｄの演算部１２が、「第２演算部」の一例にあたる。

この場合、図２１に示すように、演算用回路４Ｂ〜４Ｄの各演算部１２は、演算用回路４Ａの演算部１２が実行する先行演算のパイプライン処理６０１に並行して、本演算のパイプライン処理６０２を実行することができる。これにより、深層学習における演算処理のオーバヘッドとなる時間Ｔ１は、最も処理時間の長いレイヤ１個分相当となる。

図２２は、本実施例に係るサーバ１による深層学習における演算処理の流れを説明する。図２２は、実施例６に係るサーバによる深層学習における演算処理のフローチャートである。

演算用回路４Ａの統括管理部１００は、先行演算を実行中のレイヤの番号を表すｉを１に設定する（ステップＳ４０１）。

そして、演算用回路４Ａの統括管理部１００は、ｉ番目のレイヤのＮ％の演算データを用いた先行演算を演算用回路４Ａの演算部１２に指示する。演算用回路４Ａの演算部１２は、ｉ番目のレイヤのＮ％の演算データを用いた先行演算を実行する（ステップＳ４０２）。

演算用回路４Ａの統括管理部１００は、ｉ番目のレイヤの先行演算が完了したか否かを判定する（ステップＳ４０３）。先行演算が完了していない場合（ステップＳ４０３：否定）、先行演算処理は、ステップＳ４０２に戻る。

これに対して、先行演算が完了した場合（ステップＳ４０３：肯定）、演算用回路４Ａの小数点位置決定部１０１は、先行演算の演算結果から取得された統計情報を用いて適切な小数点位置を決定する（ステップＳ４０４）。

演算用回路４Ａの指数値変換制御部１０２は、小数点位置決定部１０１により決定された小数点位置を演算用回路４Ｂ〜４Ｄの制御部１０に通知する（ステップＳ４０５）。

その後、演算用回路４Ａの統括管理部１００は、現在実行中のイテレーションである現イテレーションの全てのレイヤの先行演算が完了したか否かを判定する（ステップＳ４０６）。現イテレーションで先行演算が完了していないレイヤが残っている場合（ステップＳ４０６：否定）、演算用回路４Ａの統括管理部１００は、ｉを１つインクリメントする（ステップＳ４０７）。その後、先行演算処理は、ステップＳ４０２へ戻る。

これに対して、現イテレーションの全てのレイヤの先行演算が完了した場合（ステップＳ４０６：肯定）、演算用回路４Ａの統括管理部１００は、全イテレーションの先行演算が終了したか否かを判定する（ステップＳ４０８）。全イテレーションの先行演算が終了していない場合（ステップＳ４０８：否定）、演算用回路４Ａの統括管理部１００は、次のイテレーションを開始し（ステップＳ４０９）、先行演算処理はステップＳ４０２へ戻る。

これに対して、全イテレーションの先行演算が終了した場合（ステップＳ４０８：肯定）、演算用回路４Ａの統括管理部１００は、深層学習における先行演算処理を終了する。

一方、演算用回路４Ｂ〜４Ｄの統括管理部１００は、本演算を実行中のレイヤの番号を表すｊを１に設定する（ステップＳ４１０）。

演算用回路４Ｂ〜４Ｄの指数値変換制御部１０２は、演算用回路４Ａの指数値変換制御部１０２から送信されたレイヤ毎の小数点位置を取得し保持する（ステップＳ４１１）。そして、演算用回路４Ｂ〜４Ｄの指数値変換制御部１０２は、レイヤ毎に統括管理部１００から小数点位置の出力の指示を受けて、そのレイヤで用いる小数点位置を演算部１２へ出力する。

演算用回路４Ｂ〜４Ｄの演算部１２は、レイヤ毎に指数値変換制御部１０２から入力された小数点位置を用いて本演算を実行する（ステップＳ４１２）。

演算用回路４Ｂ〜４Ｄの統括管理部１００は、現イテレーションの全てのレイヤの先行演算が完了したか否かを判定する（ステップＳ４１３）。現イテレーションで先行演算が完了していないレイヤが残っている場合（ステップＳ４１３：否定）、演算用回路４Ｂ〜４Ｄの統括管理部１００は、ｊを１つインクリメントする（ステップＳ４１４）。その後、本演算処理は、ステップＳ４１１へ戻る。

これに対して、現イテレーションの全てのレイヤの先行演算が完了した場合（ステップＳ４１３：肯定）、演算用回路４Ｂ〜４Ｄの統括管理部１００は、学習が終了したか否かを判定する（ステップＳ４１５）。学習が終了していない場合（ステップＳ４１５：否定）、演算用回路４Ｂ〜４Ｄの統括管理部１００は、次のイテレーションを開始し（ステップＳ４１５）、先行演算処理はステップＳ４１０へ戻る。

これに対して、学習が終了した場合（ステップＳ４１５：肯定）、演算用回路４Ｂ〜４Ｄの統括管理部１００は、深層学習における本演算処理を終了する。

以上に説明したように、本実施例に係るサーバは、複数の演算用回路を備えたアクセラレータを有し、アクセラレータは、１つの演算用回路で先行演算を行い、その演算結果から決定された小数点位置を用いて自己が有する他の演算用回路で本演算を行う。これにより、先行演算及び本演算がパイプライン化され、並列に処理することが可能となるためオーバヘッドを削減でき、処理時間を短くすることが可能となる。

実施例７について説明する。本実施例に係るサーバ１も図２０で示される構成を有する。本実施例に係るサーバ１は、縮小ＬＳＩであるアクセラレータ５６を用いて先行演算を行い、アクセラレータ５１及び５２を用いて本演算を行うことが実施例６と異なる。図２３は、実施例７における演算手順を説明するための図である。

アクセラレータ５５及び５６は、演算用回路４の数がアクセラレータ５１〜５４と比べて少ない。アクセラレータ５１〜５４は学習を行うために十分な性能を備えるが、アクセラレータ５５及び５６はアクセラレータ５１〜５４と同様の機能を備えるが、制御を主に実行するためのものであり演算能力は低い。例えば、アクセラレータ５５及び５６の演算能力は、アクセラレータ５１〜５４の演算能力の４分の１程度である。この点、先行演算は、入力データに含まれる演算データのうちの一部を対象とした演算であり、本演算よりも処理負荷が低い。このため、アクセラレータ５５又は５６であっても、先行演算であれば処理時間が長くならない。

そこで、アクセラレータ５６は、実施例６における演算用回路４Ａと同様の役割を実行する。すなわち、アクセラレータ５６は、レイヤ＃１〜＃Ｎの各レイヤの先行演算を実行し、演算結果から得られる統計情報を用いて適切な小数点位置を決定する。そして、アクセラレータ５６は、決定した小数点位置をアクセラレータ５１及び５２へ出力する。これにより、アクセラレータ５６が実行する先行演算をパイプライン化できる。

アクセラレータ５１及び５２は、実施例６における演算用回路４Ｂ〜４Ｄと同様の役割を実行する。すなわち、アクセラレータ５１及び５２は、アクセラレータ５６により決定された小数点位置を取得して、その小数点位置を用いてレイヤ＃１〜＃Ｎの各レイヤの本演算を実行する。これにより、アクセラレータ５１及び５２が実行する先行演算をパイプライン化できる。

この場合、アクセラレータ５１及び５２は、アクセラレータ５６が実行するパイプライン化された先行演算に並行して、パイプライン化された本演算を実行することができる。これにより、深層学習における演算処理のオーバヘッドとなる時間Ｔ２は、最も処理時間の長いレイヤ１個分相当となる。

以上に説明したように、本実施例に係るサーバは、処理能力の低いアクセラレータを用いて先行演算を行い、その演算結果から決定された小数点位置を用いて十分な処理能力を有するアクセラレータで本演算を行う。これにより、先行演算及び本演算がパイプライン化され、並列に処理することが可能となるためオーバヘッドを削減でき、処理時間を短くすることが可能となる。

実施例８について説明する。本実施例に係るサーバ１も図２０で示される構成を有する。ここで、図２４は、実施例８における演算手順を説明するための図である。本実施例では、アクセラレータ５１〜５４のいずれも同様の動作を行うので、以下では、アクセラレータ５１を例に説明する。

図２４の上段はレイヤ＃１〜＃Ｎのそれぞれで行われる実施例４で説明した先行演算処理を表し、下段はレイヤ＃１〜＃Ｎのそれぞれで行われる実施例４で説明した本演算処理を表す。そして、図２１の上段及び下段のそれぞれに対応するアクセラレータ５１が有する演算用回路４Ａ〜４Ｄのうち斜線パターンを付したものが演算を実行する。

また、図２４におけるデータＲＡＭ４２Ａ〜４２Ｄは、それぞれ演算用回路４Ａ〜４Ｄが有するメモリであるが、図２４では分かり易いように演算用回路４Ａ〜４Ｄとは別に記載した。データＲＡＭ４２Ａ〜４２Ｄは、いずれも演算用回路４Ａ〜４Ｄのいずれからもデータの読み出し及び書き込みが可能である。

演算用回路４Ｂ〜４Ｄにおける制御部１０の統括管理部１００は、レイヤ＃１〜＃Ｎのそれぞれにおいて、Ｎ％の演算データを用いた先行演算の実行を演算用回路４Ｂ〜４Ｄの演算部１２に対して指示する。その後、演算用回路４Ｂ〜４Ｄにおける制御部１０の統括管理部１００は、演算部１２により算出されたＮ％の演算データを用いた先行演算の演算結果をそれぞれが属する演算用回路４Ｂ〜４Ｄが有するデータＲＡＭ４２Ｂ〜４２Ｄから取得する。そして、演算用回路４Ｂ〜４Ｄにおける制御部１０の統括管理部１００は、演算用回路４Ｂ〜４Ｄのそれぞれの演算部１２により算出されたＮ％の演算データを用いた先行演算の演算結果を演算用回路４Ａが有するデータＲＡＭ４２Ａに格納する。

演算用回路４Ｂ〜４Ｄにおける制御部１０の小数点位置決定部１０１は、演算部１２により算出されたＮ％の演算データを用いた先行演算の演算結果の統計情報を演算用回路４Ａの統計情報格納部１１５から取得する。そして、小数点位置決定部１０１は、取得した統計情報を用いて最適な小数点位置を決定する。その後、小数点位置決定部１０１は、決定した小数点位置をそれぞれが属する演算用回路４Ｂ〜４Ｄにおける制御部１０の指数値変換制御部１０２へ出力する。演算用回路４Ｂ〜４Ｄにおける制御部１０の小数点位置決定部１０１は、レイヤ＃１〜＃Ｎのそれぞれにおいて小数点位置の決定及び決定した小数点位置の出力を実行する。

演算用回路４Ｂ〜４Ｄにおける制御部１０の指数値変換制御部１０２は、演算用回路４Ａにおける制御部１０の小数点位置決定部１０１により決定された小数点位置を演算用回路４Ａの制御部１０に通知する。

演算用回路４４Ｂ〜４Ｄの演算部１２は、レイヤ＃１〜＃Ｎのそれぞれにおいて、Ｎ％の演算データを用いた先行演算を実行する。そして、演算用回路４Ｂ〜４Ｄの演算部１２は、演算結果をそれぞれが属する演算用回路４４Ｂ〜４Ｄが有するデータＲＡＭ４２Ａ〜４２Ｄへ格納する。これにより、演算用回路４４Ｂ〜４Ｄの演算部１２は、レイヤ＃１〜＃Ｎのレイヤ単位で先行演算をパイプライン化できる。

演算用回路４Ａの制御部１０は、レイヤ＃１〜＃Ｎのそれぞれで、小数点位置の通知を、演算用回路４Ｄ〜４Ｃにおける制御部１０の指数値変換制御部１０２から受ける。演算用回路４Ａの制御部１０の統括管理部１００は、取得した小数点位置の出力を指数値変換制御部１０２に指示する。また、演算用回路４Ａの統括管理部１００は、指数値変換制御部１０２から出力される小数点位置を用いた先行演算の演算結果の小数点位置の更新を演算用回路４Ａの演算部１２に指示する。さらに、演算用回路４Ａの統括管理部１００は、同じ小数点位置を用いて、先行演算で使用した演算データ以外の１００−Ｎ％の演算データの本演算の実行を演算用回路４Ａの演算部１２に指示する。

演算用回路４Ａの制御部１０の指数値変換制御部１０２は、取得した小数点位置を演算部１２へ出力する。

演算用回路４Ａの演算部１２は、演算用回路Ａが有するデータＲＡＭ４２Ａから先行演算結果を取得する。そして、演算用回路４Ａの演算部１２は、指数値変換制御部１０２から入力された小数点位置を用いて、レイヤ＃１〜＃Ｎのそれぞれにおいて取得した先行演算結果の小数点位置を指定された小数点位置に更新する。すなわち、演算用回路４Ａの演算部１２は、先行演算結果を量子化する。さらに、演算用回路Ａの演算部１２は、指数値変換制御部１０２から入力された小数点位置を用いて、１００−Ｎ％の演算データの本演算を実行する。これにより、演算用回路４Ａの演算部１２は、レイヤ＃１〜＃Ｎのレイヤ単位で、Ｎ％の演算データの量子化及び１００−Ｎ％の演算データの演算を含む先行演算から得られた統計情報から決定された小数点位置を用いた演算をパイプライン化できる。

この場合、演算用回路４Ａの演算部１２は、演算用回路４Ａの演算部１２が実行する先行演算のパイプライン処理６０３に並行して、先行演算から得られた統計情報から決定された小数点位置を用いた演算のパイプライン処理６０４を実行することができる。これにより、深層学習における演算処理のオーバヘッドとなる時間Ｔ３は、最も処理時間の長いレイヤ１個分相当となる。

ここで、先行演算を行う演算用回路４の数が先行演算結果の量子化及び残りの演算データの演算を行う演算用回路４の数よりもおおい。そのため、先行演算に用いる演算データの割合は、残りの演算データの割合よりも大きいことが好ましい。

図２５は、本実施例に係るサーバ１による深層学習における演算処理の流れを説明する。図２５は、実施例８に係るサーバによる深層学習における演算処理のフローチャートである。

演算用回路４Ｂ〜４Ｄの統括管理部１００は、先行演算を実行中のレイヤの番号を表すｉを１に設定する（ステップＳ５０１）。

そして、演算用回路４Ｂ〜４Ｄの統括管理部１００は、ｉ番目のレイヤのＮ％の演算データを用いた先行演算を演算用回路４Ａの演算部１２に指示する。演算用回路４Ｂ〜４Ｄの演算部１２は、ｉ番目のレイヤのＮ％の演算データを用いた先行演算を実行する（ステップＳ５０２）。

演算用回路４Ｂ〜４Ｄの統括管理部１００は、ｉ番目のレイヤの先行演算が完了したか否かを判定する（ステップＳ５０３）。先行演算が完了していない場合（ステップＳ５０３：否定）、先行演算処理は、ステップＳ５０２に戻る。

これに対して、先行演算が完了した場合（ステップＳ５０３：肯定）、演算用回路４Ｂ〜４Ｄの統括管理部１００は、先行演算結果を演算用回路４Ａが有するデータＲＡＭ４２Ａに送信する（ステップＳ５０４）。

また、演算用回路４Ｂ〜４Ｄの小数点位置決定部１０１は、先行演算の演算結果から取得された統計情報を用いて適切な小数点位置を決定する（ステップＳ５０５）。

演算用回路４Ｂ〜４Ｄの指数値変換制御部１０２は、小数点位置決定部１０１により決定された小数点位置を演算用回路４Ａの制御部１０に通知する（ステップＳ５０６）。

その後、演算用回路４Ｂ〜４Ｄの統括管理部１００は、現在実行中のイテレーションである現イテレーションの全てのレイヤの先行演算が完了したか否かを判定する（ステップＳ５０７）。現イテレーションで先行演算が完了していないレイヤが残っている場合（ステップＳ５０７：否定）、演算用回路４Ｂ〜４Ｄの統括管理部１００は、ｉを１つインクリメントする（ステップＳ５０８）。その後、先行演算処理は、ステップＳ５０２へ戻る。

これに対して、現イテレーションの全てのレイヤの先行演算が完了した場合（ステップＳ５０７：肯定）、演算用回路４Ｂ〜４Ｄの統括管理部１００は、全イテレーションの先行演算が終了したか否かを判定する（ステップＳ５０９）。全イテレーションの先行演算が終了していない場合（ステップＳ５０９：否定）、演算用回路４Ｂ〜４Ｄの統括管理部１００は、次のイテレーションを開始し（ステップＳ５１０）、先行演算処理はステップＳ５０１へ戻る。

これに対して、全イテレーションの先行演算が終了した場合（ステップＳ５０９：肯定）、演算用回路４Ｂ〜４Ｄの統括管理部１００は、深層学習における先行演算処理を終了する。

一方、演算用回路４Ａの統括管理部１００は、本演算を実行中のレイヤの番号を表すｊを１に設定する（ステップＳ５１０）。

演算用回路４ＡのデータＲＡＭ４２は、演算用回路４Ｂ〜４Ｄの統括管理部１００から送信されたレイヤ毎の先行演算結果を格納する（ステップＳ５１１）。

また、演算用回路４Ａの指数値変換制御部１０２は、演算用回路４Ｂ〜４Ｄの指数値変換制御部１０２から送信されたレイヤ毎の小数点位置を取得し保持する（ステップＳ５１２）。そして、演算用回路４Ａの指数値変換制御部１０２は、レイヤ毎に統括管理部１００から小数点位置の出力の指示を受けて、そのレイヤで用いる小数点位置を演算部１２へ出力する。

演算用回路４Ａの演算部１２は、レイヤ毎に小数点位置の入力を指数値変換制御部１０２から受ける。さらに、演算用回路４Ａの演算部１２は、先行演算結果をデータＲＡＭ４２から取得する。そして、演算用回路４Ａの演算部１２は、取得した小数点位置を用いて先行演算の量子化を実行する（ステップＳ５１３）。

また、演算用回路４Ａの演算部１２は、取得した小数点位置を用いて１００−Ｎ％の演算データの本演算を実行する（ステップＳ５１４）。

演算用回路４Ａの統括管理部１００は、現イテレーションの全てのレイヤの先行演算が完了したか否かを判定する（ステップＳ５１５）。現イテレーションで先行演算が完了していないレイヤが残っている場合（ステップＳ５１５：否定）、演算用回路４Ｂ〜４Ｄの統括管理部１００は、ｊを１つインクリメントする（ステップＳ５１６）。その後、本演算処理は、ステップＳ５１１へ戻る。

これに対して、現イテレーションの全てのレイヤの先行演算が完了した場合（ステップＳ５１５：肯定）、演算用回路４Ａの統括管理部１００は、学習が終了したか否かを判定する（ステップＳ５１７）。学習が終了していない場合（ステップＳ５１７：否定）、演算用回路４Ａの統括管理部１００は、次のイテレーションを開始し（ステップＳ５１８）、先行演算処理はステップＳ５１１へ戻る。

これに対して、学習が終了した場合（ステップＳ５１７：肯定）、演算用回路４Ａの統括管理部１００は、深層学習における本演算処理を終了する。

ここで、本実施例では、演算用回路４Ｂ〜４Ｄが入力データの一部を用いて先行演算を実行する場合で説明したが、演算用回路４Ｂ〜４Ｄは、入力データの全部で先行演算を事項してもよい。その場合、演算用回路４Ａは、先行演算の演算結果を量子化することで演算が終了する。

以上に説明したように、本実施例に係るサーバは、複数の演算用回路を備えたアクセラレータを有する。アクセラレータは、１つの演算用回路で先行演算を行い、その統計情報から適切な小数点位置を決定するとともに、その演算結果をメモリに格納する。そして、残りアクセラレータは、決定された小数点位置を用いて先行演算結果の量子化及び先行演算から得られた統計情報から決定された小数点位置を用いた演算を行う。これにより、先行演算及び先行演算から得られた統計情報から決定された小数点位置を用いた演算がパイプライン化され、並列に処理することが可能となるためオーバヘッドを削減でき、処理時間を短くすることが可能となる。

実施例９について説明する。本実施例に係るサーバ１も図２０で示される構成を有する。本実施例に係るサーバ１は、アクセラレータ５１及び５２を用いて先行演算を行い、縮小ＬＳＩであるアクセラレータ５６を用いて本演算を行うことが実施例８と異なる。図２６は、実施例９における演算手順を説明するための図である。

本実施例に係る先行演算を用いた量子化は処理負荷が低い。また、先行演算に用いる演算データの割合を大きくすることで、残りの演算データの演算も処理負荷を低く抑えることが可能である。このため、アクセラレータ５５又は５６であっても、先行演算を用いた量子化及び残りの演算データの演算の実行であれば処理時間が長くならない。

そこで、アクセラレータ５１及び５２は、実施例８における演算用回路４Ｂ〜４Ｄと同様の役割を実行する。すなわち、アクセラレータ５１及び５２は、レイヤ＃１〜＃Ｎの各レイヤの先行演算を実行し、演算結果を格納するとともに演算結果から得られる統計情報を用いて適切な小数点位置を決定する。そして、アクセラレータ５１及び５２は、決定した小数点位置をアクセラレータ５１及び５２へ出力する。これにより、アクセラレータ５１及び５２が実行する先行演算をパイプライン化できる。

アクセラレータ５６は、実施例８における演算用回路４Ａと同様の役割を実行する。すなわち、アクセラレータ５６は、アクセラレータ５１及び５２により決定された小数点位置を取得して、その小数点位置を用いてレイヤ＃１〜＃Ｎの各レイヤでの先行演算結果の量子化、及び、残りの演算データの本演算を実行する。これにより、アクセラレータ５６が実行するアクセラレータ５１及び５２により決められた小数点位置を用いた量子化及び本演算をパイプライン化できる。

この場合、アクセラレータ５６は、アクセラレータ５１及び５２が実行するパイプライン化された先行演算に並行して、決められた小数点位置を用いたパイプライン化された演算を実行することができる。これにより、深層学習における演算処理のオーバヘッドとなる時間Ｔ４は、最も処理時間の長いレイヤ１個分相当となる。

ここで、本実施例では、アクセラレータ５１及び５２が入力データの一部を用いて先行演算を実行する場合で説明したが、アクセラレータ５１及び５２は、入力データの全部で先行演算を事項してもよい。その場合、アクセラレータ５６は、先行演算の演算結果を量子化することで演算が終了する。

以上に説明したように、本実施例に係るサーバは、十分な処理能力を有するアクセラレータを用いて先行演算結果の算出及び適切な小数点位置の決定を行う。そして、その演算結果から決定された小数点位置を用いて処理能力が低いアクセラレータで先行演算結果の量子か及び残りの演算データを用いた演算を行う。これにより、先行演算及び本演算がパイプライン化され、並列に処理することが可能となるためオーバヘッドを削減でき、処理時間を短くすることが可能となる。

１サーバ
２ＣＰＵ
３メモリ
４演算用回路
５ＰＣＩｅバス
１０制御部
１１レジスタファイル
１２演算部
１３統計情報集約部
１４メモリインタフェース
１５メモリインタフェース
４０プロセッサ
４１命令ＲＡＭ
４２データＲＡＭ
１００統括管理部
１０１小数点位置決定部
１０２指数値変換制御部
１１１スカラレジスタファイル
１１２ベクタレジスタファイル
１１３アキュムレータレジスタ
１１４ベクタアキュムレータレジスタ
１１５統計情報格納部
１２１スカラユニット
１２２ベクタユニット
２１１，２２１演算器
２１２，２２２統計情報取得部
２１３，２２３データ変換部

Claims

所定演算を行う演算部と、
第１小数点位置の固定小数点として入力データを用いた前記所定演算を前記演算部に実行させ第１演算結果の統計情報を求める管理部と、
前記統計情報を用いて第２小数点位置を決定する小数点位置決定部と、
前記小数点位置決定部により決定された第２小数点位置の固定小数点として前記入力データを用いた前記所定演算を行った場合の第２演算結果を前記演算部に算出させる指数値変換制御部と
を備えたことを特徴とする演算処理装置。
前記指数値変換制御部は、前記第２小数点位置の固定小数点数として前記演算部に前記入力データを用いた前記所定演算を実行させ前記第２演算結果を取得する第１処理を実行することを特徴とする請求項１に記載の演算処理装置。
前記演算部は、第１演算部及び第２演算部を有し、
前記管理部は、第１小数点位置の固定小数点として入力データを用いた前記所定演算を前記第１演算部に実行させ、
前記指数値変換制御部は、前記第２小数点位置の固定小数点として前記入力データを用いた前記所定演算を前記第２演算部に実行させる
ことを特徴とする請求項２に記載の演算処理装置。
前記第１演算結果を記憶する記憶部をさらに備え、
前記指数値変換制御部は、前記記憶部に記憶された前記第１演算結果の前記第２小数点位置の固定小数点数への変換を前記演算部に実行させることで前記第２演算結果を取得する第２処理を実行する
ことを特徴とする請求項１に記載の演算処理装置。
前記演算部は、第１演算部及び第２演算部を有し、
前記管理部は、第１小数点位置の固定小数点として入力データを用いた前記所定演算を前記第２演算部に実行させ、
前記指数値変換制御部は、前記記憶部に記憶された前記第１演算結果を前記第２小数点位置の固定小数点に変換する処理を前記第１演算部に実行させる
ことを特徴とする請求項４に記載の演算処理装置。
前記第１演算結果を記憶する記憶部をさらに備え、
前記指数値変換制御部は、前記第２小数点位置の固定小数点数として前記演算部に前記入力データを用いた前記所定演算を実行させ前記第２演算結果を取得する第１処理、又は、前記記憶部に記憶された前記第１演算結果の前記第２小数点位置の固定小数点数への変換を前記演算部に実行させることで前記第２演算結果を取得する第２処理のうち、処理時間が短い方を選択して実行することを特徴とする請求項１に記載の演算処理装置。
前記第１演算結果を記憶する記憶部をさらに備え、
前記指数値変換制御部は、前記第２小数点位置の固定小数点数として前記演算部に前記入力データを用いた前記所定演算を前記演算部に実行させ前記第２演算結果を取得する第１処理、又は、前記記憶部に記憶された前記第１演算結果の前記第２小数点位置の固定小数点数への変換を前記演算部に実行させて前記第２演算結果を取得する第２処理のうち、前記所定演算の種類に応じて処理時間が短い方を選択して実行することを特徴とする請求項１に記載の演算処理装置。
前記指数値変換制御部は、前記入力データに含まれる複数の演算データのうちの一部である第１演算データを前記演算部に入力して前記第１小数点位置の固定小数点とする前記所定演算を実行させ前記統計情報を取得することを特徴とする請求項２、３又は６に記載の演算処理装置。
前記管理部は、前記入力データに含まれる複数の演算データのうちの一部である第１演算データを前記演算部に入力して前記第１小数点位置の固定小数点とする前記所定演算を実行させ前記第１演算結果を算出させ、且つ、前記統計情報を取得し、
前記指数値変換制御部は、前記第２処理を実行する場合、前記第１演算結果を前記第２小数点位置の固定小数点に変換し、且つ、前記入力データに含まれる前記第１演算データ以外の第２演算データを前記演算部に入力して前記第２小数点位置の固定小数点数とする前記所定演算を実行させて前記第２演算結果を取得する
ことを特徴とする請求項４，５又は７に記載の演算処理装置。
前記管理部は、前記入力データにおける前記第１演算データの割合を変化させることを特徴とする請求項８又は９に記載の演算処理装置。
演算回路を有する演算処理装置の制御方法であって
第１小数点位置の固定小数点として入力データを用いた所定演算を演算回路に実行させ第１演算結果の統計情報を取得し、
取得した統計情報を用いて第２小数点位置を決定し、
決定した第２小数点位置の固定小数点として前記入力データを用いた前記所定演算を行った場合の第２演算結果を前記演算回路に算出させる
ことを特徴とする演算処理装置の制御方法。
第１小数点位置の固定小数点として入力データを用いた所定演算を演算回路に実行させ第１演算結果の統計情報を取得し、
取得した統計情報を用いて第２小数点位置を決定し、
決定した第２小数点位置の固定小数点として前記入力データを用いた前記所定演算を行った場合の第２演算結果を前記演算回路に算出させる
処理をコンピュータに実行させることを特徴とする演算処理プログラム。