JP7367595B2

JP7367595B2 - 情報処理装置及び情報処理方法

Info

Publication number: JP7367595B2
Application number: JP2020069144A
Authority: JP
Inventors: 真紀子伊藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2023-10-24
Anticipated expiration: 2040-04-07
Also published as: CN113496276A; JP2021165942A; EP3893165A1; US20210312279A1

Description

本発明は、情報処理装置及び情報処理方法に関する。

近年、ＤＮＮ（Deep Neural Network）の認識性能を向上するために、深層学習（Deep Learning）に利用されるパラメータの数、学習データの数が増加している。ここで、パラメータには、ノード間の重み、ノードが保持するデータ、フィルタの要素などがある。このため、深層学習の高速化のために用いられる並列計算機の計算負荷、メモリ負荷が増大し、学習時間が増加している。ＤＮＮの運用時の再学習においては、学習時間の増加は大きな負担となる。

そこで、ＤＮＮの軽量化のために、パラメータのデータ表現に用いるビット数を縮小することが行われる。例えば、３２ビットの浮動小数点数を用いる代わりに８ビットの固定小数点数を用いることで、データ量を削減することができ、処理量を削減することができる。

ただし、８ビットの固定小数点数を用いることで、演算の精度が低下する。そこで、学習に用いる変数の固定小数点位置を動的に変えることができる動的固定小数点数が用いられる。動的固定小数点数を用いる場合、並列計算機は、学習中に変数の統計情報を取得して変数の固定小数点位置を自動調整する。また、並列計算機は、並列に演算を行う各処理装置に統計情報取得回路を設けることで、統計情報の取得に要するオーバーヘッドを減らすことができる。

特開２０１８－１２４６８１号公報

並列計算機の全ての処理装置に統計情報取得回路を設けると、並列計算機の回路面積が大きくなる。そこで、回路面積を削減するために、統計情報取得回路を一部の処理装置のみに設けることが考えられる。しかしながら、統計情報を一部の処理装置だけで取得して間引くと、全ての処理装置から統計情報を取得する場合と比較して誤差が発生し、適切な小数点位置の設定ができない。このため、学習中に変数の値の飽和及び丸めが増加し、学習精度が低下するという問題がある。

本発明は、１つの側面では、統計情報取得回路を一部の処理装置に設ける場合の学習精度低下を抑制することを目的とする。

１つの態様では、情報処理装置は、並列に処理を行う第１の数の処理装置を用いて動的固定小数点数による深層学習を行う。前記第１の数の処理装置のうち前記第１の数より少ない第２の数の処理装置は、前記動的固定小数点数の小数点位置の調整に用いる統計情報を取得する取得処理装置をそれぞれ有する。また、前記情報処理装置は、割り付け部を有する。前記割り付け部は、前記深層学習の層における伝播演算を前記第１の数の処理装置に割り付ける際に、前記第１の数より少ない第３の数の入力データ毎に前記第２の数の処理装置を均等に割り付け、前記第３の数の入力データ毎に出力チャネルを第４の数ずらしながら割り付ける。

１つの側面では、本発明は、統計情報取得回路を一部の処理装置に設ける場合の学習精度低下を抑制することができる。

図１は、実施例に係る情報処理装置の構成を示す図である。図２は、実施例に係る深層学習を説明するための図である。図３は、統計情報の例を示す図である。図４は、画像及び出力チャネルを機械的にＰＥに割り付ける例を示す図である。図５Ａは、間引きの統計情報への影響の例を示す第１の図である。図５Ｂは、間引きの統計情報への影響の例を示す第２の図である。図６Ａは、出力チャネルを機械的にＰＥに割り付けたときに統計情報が間引きなしの場合と比べて異なる理由を説明するための図である。図６Ｂは、画像を機械的にＰＥに割り付けたときに統計情報が間引きなしの場合と比べて異なる理由を説明するための図である。図７は、割り付け部による割り付け例を示す図である。図８は、割り付け部による他の割り付け例を示す図である。図９は、情報処理装置による学習処理のフローを示すシーケンス図である。図１０は、伝播演算の呼び出しを説明するための図である。図１１は、画像及び出力チャネルを機械的にＰＥに割り付ける場合の割り付け処理のフローを示すフローチャートである。図１２は、図１１に示す変数を説明するための図である。図１３は、割り付け部による割り付け処理のフローを示すフローチャートである。図１４は、図１３に示す変数を説明するための図である。図１５は、割り付け部による図８に示した他の割り付けの処理のフローを示すフローチャートである。図１６は、図１５に示す変数を説明するための図である。図１７Ａは、割り付け部による割り付けの効果を説明するための第１の図である。図１７Ｂは、割り付け部による割り付けの効果を説明するための第２の図である。

以下に、本願の開示する情報処理装置及び情報処理方法の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。

まず、実施例に係る情報処理装置について説明する。図１は、実施例に係る情報処理装置の構成を示す図である。図１に示すように、実施例に係る情報処理装置１は、アクセラレータボード１０と、ホスト２０と、ＨＤＤ（Hard Disk Drive）３０とを有する。

アクセラレータボード１０は、深層学習を高速に行う並列計算機を搭載したボードである。アクセラレータボード１０は、コントローラ１１と、複数のＰＥ（Processing Element）１２と、ＤＲＡＭ（Dynamic Random Access Memory）１３と、ＰＣＩｅ（Peripheral Component Interconnect express）ハードウェア１４とを有する。ＰＥ１２の数は、例えば、２，０４８である。

コントローラ１１は、アクセラレータボード１０を制御する制御装置である。例えば、コントローラ１１は、ホスト２０からの指示に基づいて、各ＰＥ１２に演算の実行を指示する。各ＰＥ１２が入力するデータ及び出力するデータの格納場所は、ホスト２０により指定される。なお、図１では省略されているが、コントローラ１１は、各ＰＥ１２と接続される。

ＰＥ１２は、コントローラ１１の指示に基づいて演算を実行する。ＰＥ１２は、ＤＲＡＭ１３に記憶されたプログラムを読み出して実行する。一部のＰＥ１２ａは、統計情報取得回路と統計情報格納回路とを有する。ＰＥ１２の全数に対する一部のＰＥ１２ａの割合は、例えば、１／１６である。一部のＰＥ１２ａの数は、例えば、ＰＥ１２の全数の約数である。なお、以下では、一部のＰＥ１２ａを情報取得ＰＥ１２ａと呼ぶ。

統計情報取得回路は、統計情報を取得する。なお、統計情報については後述する。統計情報格納回路は、統計情報取得回路により取得された統計情報を記憶する。統計情報格納回路が記憶する統計情報は、コントローラ１１により読み出されて、ホスト２０に送られる。なお、統計情報は、ＤＲＡＭ１３に格納され、ＤＲＡＭ１３から読み出されてホスト２０に送られてもよい。

また、情報取得ＰＥ１２ａは、統計情報を取得してホスト２０に送ることができれば、専用の統計情報取得回路と統計情報格納回路とを有する構成に限られない。例えば、後述するＰＥ１２により実行されるプログラムが統計情報を取得するための命令列を含んでいてもよい。統計情報取得のための命令列は、例えば、積和演算の結果を３２ビット整数でレジスタ＃１に格納し、レジスタ＃１に格納した結果の最上位桁位置の情報をレジスタ＃２に格納して、レジスタ＃２の値をインデックスとするテーブルの値に１を加える。

ＤＲＡＭ１３は、ＰＥ１２により実行されるプログラム、各ＰＥ１２が入力するデータ、各ＰＥ１２が出力するデータを記憶する揮発性記憶装置である。各ＰＥ１２がデータの入力及び出力に用いるアドレスは、ホスト２０により指定される。ＰＣＩｅハードウェア１４は、ＰＣＩエクスプレス（ＰＣＩｅ）によりホスト２０と通信を行うハードウェアである。

ホスト２０は、情報処理装置１を制御する装置である。ホスト２０は、ＣＰＵ２１と、ＤＲＡＭ２２と、ＰＣＩｅハードウェア２３とを有する。

ＣＰＵ２１は、ＤＲＡＭ２２からプログラムを読み出して実行する中央処理装置である。ＣＰＵ２１は、深層学習プログラムを実行することによりアクセラレータボード１０に並列演算の実行を指示して深層学習を行う。深層学習プログラムは、深層学習における演算を各ＰＥ１２に割り付ける割り付けプログラムを含む。ＣＰＵ２１は、割り付けプログラムを実行することにより割り付け部４０を実現する。なお、割り付け部４０の詳細については後述する。

ＤＲＡＭ２２は、ＨＤＤ３０に記憶されたプログラム及びデータ、ＣＰＵ２１によるプログラム実行の途中結果などを記憶する揮発性記憶装置である。深層学習プログラムは、ＨＤＤ３０からＤＲＡＭ２２に呼び出され、ＣＰＵ２１により実行される。

ＰＣＩｅハードウェア２３は、ＰＣＩエクスプレスによりアクセラレータボード１０と通信を行うハードウェアである。

ＨＤＤ３０は、深層学習プログラム、深層学習に用いられる入力データ、深層学習により生成されたモデルなどを記憶する。情報処理装置１は、ＨＤＤ３０の代わりにＳＳＤ（Solid State Drive）を有してもよい。

次に、実施例に係る深層学習について説明する。図２は、実施例に係る深層学習を説明するための図である。図２に示すように、実施例に係る深層学習は、畳み込み層＃１（Ｃｏｎｖ＿１）、プーリング層＃１（Ｐｏｏｌ＿１）、畳み込み層＃２（Ｃｏｎｖ＿２）、プーリング層＃２（Ｐｏｏｌ＿２）、全結合層＃１（ｆｃ１）、及び全結合層＃２（ｆｃ２）の処理により実行される。実施例に係る深層学習では、入力データに対して、畳み込み層＃１、プーリング層＃１、畳み込み層＃２、プーリング層＃２、全結合層＃１、全結合層＃２の順に順伝播処理が行われる。そして、全結合層＃２の出力と正解データに基づいて誤差が計算され、誤差に基づいて全結合層＃２、全結合層＃１、プーリング層＃２、畳み込み層＃２、プーリング層＃１、畳み込み層＃１の順に逆伝播処理が行われる。

実施例に係る深層学習は、ミニバッチと呼ばれる処理の単位に区切られて実行される。ここで、ミニバッチとは、学習の対象となる入力データの集合｛（Ｉｎｉ，Ｔｉ），ｉ＝１～Ｎ｝を複数組（例えば、ｋ個のデータのＭ組、Ｎ＝ｋ＊Ｍ）に分割したｋ個のデータの組み合わせをいう。また、ミニバッチは、このような個々の入力データの組（ｋ個のデータ）で実行される学習の処理単位のことをいう。ここで、Ｉｎｉは、入力データ（ベクトル）、Ｔｉは正解データ（ベクトル）である。情報処理装置１は、以下のように、深層学習中のミニバッチごとに、各層の変数の一部について統計情報を取得し、各層の各変数の小数点位置を更新する。ここで、小数点位置ｅは、パラメータＸの全要素共通の指数部に相当する。パラメータＸの要素をｘとし、整数表現をｎとすると、ｘ＝ｎ×２^ｅと表現できる。なお、情報処理装置１は、ミニバッチの学習を所定の回数終了するごとに小数点位置を更新してもよい。

情報処理装置１は、例えば、浮動小数点数による試行（ミニバッチ１回など）や、ユーザ指定により各変数の初期小数点位置を決定し、学習を開始する。そして、情報処理装置１は、１つのミニバッチ（ｋ個のデータ）の学習中に、各層の一部の変数について統計情報を保存する（ｔ１）。情報処理装置１は、ミニバッチを学習中にオーバーフローが発生した場合は、飽和処理を行い、学習を続行する。そして、情報処理装置１は、１回のミニバッチの学習の終了後に、統計情報から固定小数点数の小数点位置を更新する（ｔ２）。そして、情報処理装置１は、所定の学習終了条件が満たされるまで、ｔ１とｔ２を繰り返す。

図３は、統計情報の例を示す図である。図３は、統計情報の例として、非符号となる最上位ビット位置の分布を示す。ここで、非符号となる最上位ビット位置とは、正数に対しては、ビットが１となっている最上位のビット位置をいう。また、負数に対しては、ビット０となっている最上位のビット位置をいう。非符号となる最上位ビット位置は、例えば、ビットの並びを最上位ビットであるｂｉｔ[３９]から最下位ビットであるｂｉｔ[０]としたとき、符号ビットｂｉｔ[３９]と異なるｂｉｔ[ｋ]のうち、インデックスｋが最大のものをいう。非符号となる最上位ビット位置の分布が得られると、絶対値としての値の分布範囲が把握可能となる。

図３において、縦軸は、非符号となる最上位ビット位置の出現個数であり、横軸は非符号となる最上位のビット位置ＣＬＳ（Count Leading Sign）に小数点位置ｅを加算した値である。情報処理装置１のＰＥ１２の演算回路及び演算回路内のレジスタは、命令のオペランドで指定されるレジスタのビット数（例えば、１６ビット）以上のビット幅（例えば、４０ビット）を有する。ただし、ＰＥ１２の演算回路及び演算回路内のレジスタのビット幅が４０ビットに限定される訳ではない。ここで、小数点位置ｅは、演算の入力の小数点位置によって決定され、例えば乗算の場合、２つの入力ベクトルの小数点位置をｅ１およびｅ２とすると、それらを加算した用ｅ１＋ｅ２となる。また、演算結果は、例えば、１６ビットのレジスタ等、演算回路よりも少ないビット幅のレジスタ（命令のオペランドで指定されるレジスタ）に格納される。その結果、演算結果は（例えば、４０ビット）、オペランドで指定されるシフト量でシフトされ、ビット０未満に該当するビットは所定の丸め処理がなされ、オペランドで指定されるレジスタのビット幅を越えるデータは、飽和処理される。シフト量は、小数点位置ｅと出力の小数点位置ｅｏの差分（ｅｏ－ｅ）となる。図３は、シフト量が１５ビットと仮定し、１６ビットの固定小数点で表現可能な領域と、飽和される領域とアンダーフローが発生する領域を示す。

また、図３の横軸に付与された数値は、固定小数点で表現可能な数値を示す。例えば、情報処理装置１が小数点位置ｅｏを－２すると、飽和される領域が２ビット拡張され、アンダーフローが発生する領域が２ビット減少する。また、例えば、情報処理装置１が小数点位置ｅｏを＋２すると、飽和される領域が２ビット減少し、アンダーフローが発生する領域が２ビット拡張される。

情報処理装置１は、学習実行中に、非符号となる最上位のビット位置の分布を得ることで、適切な固定小数点位置を決定できる。例えば、情報処理装置１は、飽和されるデータが指定の割合以下になるように固定小数点位置を決定すればよい。すなわち、一例としては、情報処理装置１は、データのアンダーフローが所定の程度となることよりもデータの飽和が所定の程度となること優先して、固定小数点位置を決定できる。

なお、情報処理装置１は、統計情報として、非符号となる最上位ビット位置の分布の代わりに、非符号となる最下位ビット位置の分布、非符号となる最上位ビット位置の最大値、非符号となる最下位ビット位置の最小値を用いてもよい。

ここで、非符号となる最下位ビット位置の分布とは、ビットが符号と異なる値となる最下位のビット位置をいう。例えば、ビットの並びを最上位ビットであるｂｉｔ[３９]から最下位ビットであるｂｉｔ[０]までの並びとしたとき、符号ビットｂｉｔ[３９]と異なるｂｉｔ[ｋ]のうち、インデックスｋが最小のものをいう。非符号となる最下位ビット位置の分布では、有効なデータが含まれる最下位ビットが把握される。

また、非符号となる最上位ビット位置の最大値は、統計情報格納回路がクリア命令によりクリアされたときから現在に至るまでに、命令実行の対象となった１以上の固定小数点数について符号ビットの値と異なる値となる最上位のビット位置のうちの最大値である。情報処理装置１は、非符号となる最上位のビット位置の最大値を動的固定小数点数の適切な小数点位置の決定に利用できる。

非符号となる最下位ビット位置の最小値は、統計情報格納回路がクリア命令によりクリアされたときから現在に至るまでの１以上の固定小数点数について符号と異なる値となる最下位のビット位置のうちの最小値である。情報処理装置１は、非符号となる最下位ビット位置の最小値を動的固定小数点数の適切な小数点位置の決定に利用できる。

次に、割り付け部４０について説明する。情報処理装置１は、ＰＥ１２を有効活用するために、深層学習において行われる全演算をできるだけ並列に実行する。ここでは、情報処理装置１は、ミニバッチをまとめて演算して学習を進める。

畳み込み層の演算を例とし、フィルタサイズを３×３、ミニバッチの画像数をＮ、入力チャネル数をＣｉｎ、出力チャネル数をＣｏｕｔ、画像の高さをＨ、画像の幅をＷとする。入力するデータの画素数は、Ｎ＊Ｃｉｎ＊（Ｈ＋２）＊（Ｗ＋２）である。ここで、「＊」は乗算を示す。また、「２」は、画像の高さ方向又は幅方向の両端のパディングの数を示す。入力するフィルタの画素数は、Ｃｉｎ＊Ｃｏｕｔ＊３＊３である。出力する結果の数は、Ｎ＊Ｃｏｕｔ＊Ｈ＊Ｗである。演算内容を、以下の式（１）に示す。

式（１）において、ｎ＝０、１、・・・、Ｎ－１であり、ｃ_o＝０、１、・・・、Ｃｏｕｔ－１であり、ｈ＝０、１、・・・、Ｈであり、ｗ＝０、１、・・・、Ｗ－１であり、ｃ_i＝０、１、・・・、Ｃｉｎ－１であり、ｐ＝０、１、２であり、ｑ＝０、１、２である。また、出力[ｎ][ｃ_o][ｈ][ｗ]は、ｎ番目の画像のｃ_o番目の出力チャネルの高さ方向がｈ番目で幅方向がｗ番目の画素値を示し、入力[ｎ][ｃ_i][ｈ＋ｐ][ｗ＋ｑ]はｎ番目の画像のｃ_i番目の入力チャネルの高さ方向がｈ番目で幅方向がｗ番目の画素値を示す。フィルタ[ｃ_i][ｃ_o][ｐ][ｑ]は、ｃ_i番目の入力チャネルのｃ_o番目の出力チャネルのフィルタの高さ方向がｐ番目で幅方向がｑ番目の画素値を示す。

式（１）に示すように、畳み込み層の演算は、画像（ｎ）、出力チャネル（ｃ_o）、画素（ｈ，ｗ）ごとに独立して計算可能である。また、入力画素のデータとフィルタのデータは何度も利用されるので、ＤＲＡＭ１３とＰＥ１２の間のデータ転送の効率をよくするために、画像方向、出力チャネル方向の順に並列化をすることが効率的である。

そこで、図４に示すように、画像及び出力チャネルを機械的にＰＥ１２に割り付けることが考えられる。図４では、ＰＥ１２の総数は、Ｎ＊Ｃｏｕｔである。また、横に並べられているＰＥ１２の数をＸとすると、間引き率は１／Ｘであり、情報取得ＰＥ１２ａの数は、Ｎ＊Ｃｏｕｔ／Ｘである。

この割り付けでは、画像＃０などの特定の画像、出力チャネル＃０などの特定の出力チャネルの統計情報しか取得されない。画像＃１、画像＃（Ｎ－１）など、出力チャネル＃１、出力チャネル＃（Ｃｏｕｔ－１）などの出力チャネルの統計情報は取得されない。このため、間引きなしの場合と比べると、統計情報が異なってしまう。

図５Ａ及び図５Ｂは、間引きの統計情報への影響の例を示す図である。縦軸は、データの個数を示す。データの個数は、全体数に対する百分率で表される。横軸の負の整数の系列は、データを２進数で表したときの指数部分の値である。図５Ａ（ａ）及び図５Ｂ（ａ）は、間引きなしのケース、画像間引きのケース、出力チャネル間引きのケース、画像×出力チャネル間引きのケースの４つのケースについての統計情報を示す。画像間引き率及び出力チャネル間引き率はそれぞれ１／４である。

また、図５Ａ（ｂ）及び図５Ｂ（ｂ）は、各系列の－１４～－１９の範囲を個別に拡大した図である。図５Ａ（ｂ）及び図５Ｂ（ｂ）において、横線は、小数点位置を決定するしきい値であるｒｍａｘを示す。ここでは、ｒｍａｘ＝０．００２％である。縦線は、ｒｍａｘを超えない表現可能範囲の上限を示す。

図５Ａ（ａ）及び図５Ｂ（ａ）に示すように、間引きした場合の分布は、間引きしない場合の分布と異なる。また、図５Ａ（ｂ）に示すように、間引かない場合は表現可能範囲の最上位ビットは「－１８」であるが、間引きを行うと表現可能範囲の最上位ビットは「－１５」又は「－１６」である。また、図５Ｂ（ｂ）に示すように、間引かない場合は表現可能範囲の最上位ビットは「－１７」であるが、間引きを行うと表現可能範囲の最上位ビットは「－１６」又は「－１８」である。

このように、画像及び出力チャネルを機械的にＰＥ１２に割り付けると、統計情報が間引きなしの場合と異なってしまう。

図６Ａは、出力チャネルを機械的にＰＥ１２に割り付けたときに統計情報が間引きなしの場合と比べて異なる理由を説明するための図である。また、図６Ｂは、画像を機械的にＰＥ１２に割り付けたときに統計情報が間引きなしの場合と比べて異なる理由を説明するための図である。

図６Ａは、出力チャネル＃０、＃４、＃８、・・・について統計情報を取得する場合を示す。図６Ａに示すように、深層学習では、入力画像に対して様々なフィルタがかけられる。フィルタのパターンは、学習によって変化するが、類似したパターンのフィルタ（出力チャネル）が統計情報所得の対象となると、情報が偏る。フィルタのパターンは学習が進むにつれて変化するため、パターンの類似性を制御することは難しい。

図６Ｂでは、出力チャネル及び画像の間引き率は１／４である。図６Ｂに示すように、４つに１つの画像についてだけ統計情報の取得が行われると、３／４の画像は小数点位置決定に関係しない。したがって、１ミニバッチの画像のうち、実線枠の画像が統計情報の取得対象の場合、特徴（四足動物）が似た画像になっているため、データが偏り、統計情報が偏る。

そこで、割り付け部４０は、全画像、全出力チャネルが統計情報の取得対象となるように、ＰＥ１２を割り付ける。図７は、割り付け部４０による割り付け例を示す図である。図７では、画像についての間引きはない。また、出力チャネルの間引き率は１／１６であり、Ｎは１６の倍数である。

図７に示すように、割り付け部４０は、１画像ごとに出力チャネルをローテーションしてＰＥ１２に割り付ける。例えば、画像番号を１６で割った余りが０の場合には、割り付け部４０は、出力チャネル＃０、＃１６、＃３２、・・・を情報取得ＰＥ１２ａに割り付ける。また、画像番号を１６で割った余りが１の場合には、割り付け部４０は、出力チャネル＃１、＃１７、＃３３、・・・を情報取得ＰＥ１２ａに割り付ける。同様に、画像＃（Ｎ－１）では、割り付け部４０は、出力チャネル＃１５、＃３１、・・・、＃（Ｃｏｕｔ－１）を情報取得ＰＥ１２ａに割り付ける。

このように、割り付け部４０は、１画像ごとに出力チャネルをローテーションしてＰＥ１２に割り付けるので、情報取得ＰＥ１２ａを全体のＰＥ１２の中の一部に間引いた場合にも、統計情報の偏りを防ぐことができる。

図８は、割り付け部４０による他の割り付け例を示す図である。図８では、画像及び出力チャネルの間引き率は１／４である。図８に示すように、割り付け部４０は、情報取得ＰＥ１２ａを１／４の画像に割り付け、情報取得ＰＥ１２ａを割り付ける画像について、１画像ごとに出力チャネルをローテーションしてＰＥ１２に割り付ける。

例えば、割り付け部４０は、画像＃０、＃４、＃８、・・・には情報取得ＰＥ１２ａを割り付けるが、画像＃１、＃２、＃３、＃５、＃６、＃７、・・・には、情報取得ＰＥ１２ａを割り付けない。そして、画像番号を１６で割った余りが０の場合には、割り付け部４０は、出力チャネル＃０、＃４、＃８、・・・を情報取得ＰＥ１２ａに割り付ける。また、画像番号を１６で割った余りが４の場合には、割り付け部４０は、出力チャネル＃１、＃５、＃９、・・・を情報取得ＰＥ１２ａに割り付ける。同様に、画像番号を１６で割った余りが１２の場合には、割り付け部４０は、出力チャネル＃３、＃７、＃１１、・・・を情報取得ＰＥ１２ａに割り付ける。

このように、割り付け部４０は、情報取得ＰＥ１２ａを割り付ける画像について、１画像ごとに出力チャネルをローテーションしてＰＥ１２に割り付けるので、情報取得ＰＥ１２ａを全体のＰＥ１２の中の一部に間引いた場合にも、統計情報の偏りを防ぐことができる。

次に、情報処理装置１による学習処理のフローについて説明する。図９は、情報処理装置１による学習処理のフローを示すシーケンス図である。図９に示すように、ホスト２０は、ニューラルネットワークを表すグラフを作成し、領域を確保する（ステップＳ１）。ここで、ニューラルネットワークを表すグラフとは、例えば、図２に示した畳み込み層＃１、プーリング層＃１、畳み込み層＃２、プーリング層＃２、全結合層＃１、及び全結合層＃２から構成されるグラフである。また、領域はパラメータを記憶する場所である。そして、ホスト２０は、パラメータの初期値を生成する（ステップＳ２）。なお、ホスト２０は、生成する代わりに初期値をファイルから読み込んでもよい。

そして、ホスト２０は、学習の終了条件が満たされるまで、ステップＳ３～ステップＳ１１の処理を繰り返す。学習の終了条件は、例えば、学習回数、目標値の達成がある。繰り返し処理として、ホスト２０は、学習データをロードし（ステップＳ３）、レイヤ（層）の順伝播演算の呼び出し（ステップＳ４）を、レイヤの順方向にアクセラレータボード１０に対して行う。伝播演算は、畳み込み層では畳み込み演算であり、プーリング層ではプーリング演算であり、全結合層では全結合演算である。

アクセラレータボード１０は、ホスト２０から呼び出されると、順伝播演算を実行する（ステップＳ５）。そして、ホスト２０は、レイヤの逆伝播演算の呼び出し（ステップＳ６）を、レイヤの逆方向にアクセラレータボード１０に対して行う。アクセラレータボード１０は、ホスト２０から呼び出されると、逆伝播演算を実行する（ステップＳ７）。

そして、ホスト２０は、パラメータの更新をアクセラレータボード１０に指示する（ステップＳ８）。アクセラレータボード１０は、ホスト２０から指示されると、パラメータの更新を実行する（ステップＳ９）。そして、ホスト２０は、統計情報に基づいて動的固定小数点数の小数点位置を決定し、小数点位置の更新をアクセラレータボード１０に指示する（ステップＳ１０）。アクセラレータボード１０は、ホスト２０から指示されると、小数点位置の更新を実行する（ステップＳ１１）。

図１０は、伝播演算の呼び出しを説明するための図である。図１０（ａ）は基本形を示し、図１０（ｂ）は派生形を示す。図１０（ａ）に示すように、基本形では、ホスト２０は、ＰＥ割り付けを行い（ステップＳ２１）、ＰＥ割り付け情報、入力データアドレス、出力データアドレスとともに、伝播演算の呼び出しをアクセラレータボード１０に対して行う（ステップＳ２２）。そして、アクセラレータボード１０は、伝播演算を実行し（ステップＳ２３）、終了通知をホスト２０へ送信する。

このように、基本形では、ホスト２０は、ＰＥ割り付けを行うので、ＰＥ割り付け情報とともに伝播演算の実行をアクセラレータボード１０に指示する。

一方、派生形では、図１０（ｂ）に示すように、ホスト２０は、入力データアドレス、出力データアドレスとともに、伝播演算の呼び出しをアクセラレータボード１０に対して行う（ステップＳ２６）。そして、アクセラレータボード１０のコントローラ１１は、ＰＥ割り付けを行い（ステップＳ２７）、各ＰＥ１２に対してＰＥ演算の呼び出しを実行する（ステップＳ２８）。そして、各ＰＥ１２は、演算を実行する（ステップＳ２９）。そして、コントローラ１１は、終了の待ち合わせを行い（ステップＳ３０）、待ち合わせが完了すると、終了通知をホスト２０へ送信する。

このように、派生形では、コントローラ１１がＰＥ割り付けを行うので、ホスト２０は、ＰＥ割り付け情報なしで伝播演算の実行をアクセラレータボード１０に指示する。

次に、割り付け処理のフローについて図１１～図１６を用いて説明する。図１１は、画像及び出力チャネルを機械的にＰＥ１２に割り付ける場合の割り付け処理のフローを示すフローチャートであり、図１２は、図１１に示す変数を説明するための図である。

図１１～図１６において、Ｎは画像の数、Ｃｏｕｔは出力チャネル数である。画像＃式は識別番号が式の値の画像であり、出力チャネル＃式は識別番号が式の値の出力チャネルであり、ＰＥ＃ｐは識別番号がｐのＰＥ１２である。図１１、図１２、図１５、図１６では、画像方向の間引き率は１／Ｘであり、出力チャネル方向の間引き率は１／Ｙである。図１３、図１４では、出力チャネル方向の間引き率は、１／Ｘである。

なお、Ｎ_LはＸの倍数であり、ＣｏｕｔはＹの倍数であるとする。Ｎ_Lは、１回に割り付けられる画像の数である。例えば、ＮをＮ_Lの倍数とし、ＰＥ１２の数をＮ_Pとすると、割り付け総数＝Ｎ_Pと全ＰＥ１２への割り付けの回数との積＝Ｎ_P＊（Ｎ／Ｎ_L）である。一方、割り付け総数＝Ｎ＊Ｃｏｕｔであるので、Ｎ_P＊（Ｎ／Ｎ_L）＝Ｎ＊Ｃｏｕｔである。したがって、Ｎ_P／Ｎ_L＝Ｃｏｕｔであり、Ｎ_P／Ｃｏｕｔ＝Ｎ_Lである。ＣＥＩＬ（ｘ）は、ｘを整数に切り上げる関数である。

また、図１１、図１２において、ｉは、全ＰＥ１２への割り付けの回数を数えるための変数であり、０からＮ_LずつＮ－１を超えない範囲で増加される。ｐはＰＥ１２を識別する番号である。ｎは画像の割り付け回数を数えるための変数であり、０からＮ_L－１まで1ずつ増加される。ｃは、Ｃｏｕｔ個の出力チャネルの割り付けの回数を数えるための変数であり、０からＣｏｕｔ－１まで１ずつ増加される。ｊは、Ｘ個の画像の割り付けの回数を数えるための変数であり、ｎをＸで除算した商となる。ｋは、Ｘ個の画像の割り付けの中で、画像の割り付けの個数を数えるための変数であり、ｎをＸで除算した剰余となる。ｌは、１つの画像への割り付けの中で、Ｙ個の出力チャネルの割り付けの回数を数えるための変数であり、ｃをＹで除算した商となる。ｍは、Ｙ個の出力チャネルの割り付けの中で、出力チャネルの割り付けの個数を数えるための変数であり、ｃをＹで除算した剰余となる。

図１１に示すように、割り付け部４０は、ＣＥＩＬ（Ｎ_P／Ｃｏｕｔ）を計算し、Ｎ_Lに設定する（ステップＳ３１）。ここで、割り付け部４０は、画像及び出力チャネルを機械的にＰＥ１２に割り付ける。そして、割り付け部４０は、全ＰＥ１２のそれぞれに画像と出力チャネルの１つの組合せを割り付ける処理をＮ／Ｎ_L回繰り返す。

割り付け部４０は、ｎを０からＮ_L－１まで１ずつ増加させ、画像＃ｎの出力チャネルをＰＥ１２に割り付ける。割り付け部４０は、変数ｊ及び変数ｋを計算し、画像＃ｎを割り付ける先頭ＰＥ番号を表す変数ｐ０にｋ＊Ｙ＋ｊ＊Ｃｏｕｔを設定する（ステップＳ３２）。割り付け部４０は、ｃを０からＣｏｕｔ－１まで１ずつ増加させ、画像＃ｎの出力チャネル＃ｃをＰＥ１２に割り付ける処理をＣｏｕｔ回繰り返す。

全ＰＥ１２のそれぞれに画像と出力チャネルの１つの組合せを割り付ける１回の処理では、割り付け部４０は、変数ｌ及び変数ｍを計算し、チャネル＃ｃを割り付けるＰＥ番号の相対値を表す変数ｐ１にｍ＋ｌ＊Ｘ＊Ｙを設定し（ステップＳ３３）、画像＃（ｎ＋ｉ＊Ｎ_L）、出力チャネル＃ｃをＰＥ＃（ｐ０＋ｐ１）に割り付ける（ステップＳ３４）。割り付け部４０は、ｃを０からＣｏｕｔ－１まで１ずつ増加させ、ステップＳ３３、Ｓ３４を繰り返す。

図１３は、割り付け部４０による割り付け処理のフローを示すフローチャートであり、図１４は、図１３に示す変数を説明するための図である。

また、図１３、図１４において、ｉは、全ＰＥ１２への割り付けの回数を数えるための変数であり、０からＮ_LずつＮ－１を超えない範囲で増加される。ｎは、全ＰＥ１２への割り付けの中で画像の割り付けの個数を数えるための変数であり、０からＮ_L－１まで１ずつ増加される。ｃは、Ｃｏｕｔ個の出力チャネルの割り付けの回数を数えるための変数であり、０からＣｏｕｔ－１まで１ずつ増加される。ｋは、１つの画像の割り付け、すなわち、Ｃｏｕｔ個の出力チャネルの割り付けの中でＸ個の出力チャネルの割り付けの回数を数えるための変数であり、ｃをＸで除算した商となる。ｌは、Ｘ個の出力チャネルの割り付けの中で出力チャネルの割り付けの個数を数えるための変数であり、ｃをＸで除算した剰余となる。

図１３に示すように、割り付け部４０は、ＣＥＩＬ（Ｎ_P／Ｃｏｕｔ）を計算し、Ｎ_Lに設定する（ステップＳ４１）。全ＰＥ１２のそれぞれに画像と出力チャネルの１つの組合せを割り付ける処理をＮ／Ｎ_L回繰り返す。そして、割り付け部４０は、ｎを０からＮ_L－１まで１ずつ増加させ、画像＃ｎの出力チャネルをＰＥ１２に割り付ける。

割り付け部４０は、画像＃ｎを割り付ける先頭ＰＥ番号を表す変数ｐ０にｎ＊Ｃｏｕｔを設定する（ステップＳ４２）。割り付け部４０は、ｃを０からＣｏｕｔ－１まで１ずつ増加させ、画像＃ｎの出力チャネル＃ｃをＰＥ１２に割り付ける処理をＣｏｕｔ回繰り返す。

全ＰＥ１２のそれぞれに画像と出力チャネルの１つの組合せを割り付ける１回の処理では、割り付け部４０は、チャネル＃ｃに対して、変数ｃ’に(ｃ－ｎ＋Ｃｏｕｔ)％Ｃｏｕｔを設定し、チャネル＃ｎを割り付けるＰＥ番号の相対値を表す変数ｐ１にｃ’を設定し（ステップＳ４３）、画像＃（ｎ＋ｉ＊Ｎ_L）、出力チャネル＃ｃをＰＥ＃（ｐ０＋ｐ１）に割り付ける（ステップＳ４４）。すなわち、割り付け部４０は、ステップＳ４３において、ｎを用いて出力チャネルをずらす。割り付け部４０は、ｃを０からＣｏｕｔまで１ずつ増加させ、ステップＳ４３、Ｓ４４を繰り返す。

このように、割り付け部４０は、画像と出力チャネルの組合せをＰＥ１２に割り付けるときに、ｎを用いて出力チャネルをずらす、すなわち画像ごとに出力チャネルをローテーションするので、統計情報の偏りを防ぐことができる。

図１５は、割り付け部４０による図８に示した他の割り付けの処理のフローを示すフローチャートであり、図１６は、図１５に示す変数を説明するための図である。図１１と図１５、図１２と図１６を比較すると、図１５において、ステップＳ５３の処理がステップＳ３３の処理と異なる。具体的には、変数ｃ’に(ｃ－ｊ＋Ｃｏｕｔ)％Ｃｏｕｔを設定し、変数ｃの代わりに変数ｃ’を使って変数ｌ及びｍを設定する。ｎ＋ｉ＊Ｎ_L、すなわち、割り付け部４０は、ｊを用いて出力チャネルをずらす。

このように、割り付け部４０は、画像と出力チャネルの組合せをＰＥ１２に割り付けるときに、ｊを用いて出力チャネルをずらす、すなわちＸ個の画像の割り付けごとに出力チャネルをローテーションするので、統計情報の偏りを防ぐことができる。

次に、割り付け部４０による割り付けの効果について説明する。図１７Ａ及び図１７Ｂは、割り付け部４０による割り付けの効果を説明するための図である。図１７Ａ（ａ）及び図１７Ｂ（ａ）に示すように、実施例に係る割り付けを行った場合の分布は、他の間引きを行った場合と比べて、間引きしない場合の分布と類似する。また、図１７Ａ（ｂ）に示すように、間引きを行っても表現可能範囲の最上位ビットは間引きを行わない場合と同じ「－１８」である。また、図１７Ｂ（ｂ）に示すように、間引きを行っても表現可能範囲の最上位ビットは間引きを行わない場合と同じ「－１７」である。

上述してきたように、実施例では、アクセラレータボード１０は、全体のＰＥ１２のうち一部に情報取得ＰＥ１２ａを有する。また、ホスト２０の割り付け部４０は、深層学習の層の伝播演算をＰＥ１２に割り付ける際に、一定数の画像ごとに均等に情報取得ＰＥ１２ａを割り付け、該一定数の画像ごとに出力チャネルをローテーションしてＰＥ１２に割り付ける。したがって、情報処理装置１は、統計情報の偏りを抑えることができ、学習精度の低下を抑えることができる。

また、実施例では、割り付け部４０は、１画像ごとに均等に情報取得ＰＥ１２ａを割り付け、１画像ごとに出力チャネルをローテーションしてＰＥ１２に割り付けるので、統計情報の偏りを抑えることができる。

また、実施例では、割り付け部４０は、深層学習の畳込み層における伝播演算をＰＥ１２に割り付ける際に、一定数の画像ごとに均等に情報取得ＰＥ１２ａを割り付け、該一定数の画像ごとに出力チャネルをローテーションしてＰＥ１２に割り付ける。したがって、情報処理装置１は、畳込み層における伝播演算において取得される統計情報の偏りを抑えることができる。

また、実施例では、割り付け部４０の代わりにアクセラレータボード１０のコントローラ１１が割り付け処理を行ってもよいので、ホスト２０の負荷を低減することができる。

また、実施例では、画像を学習する場合について説明したが、情報処理装置１は、他のデータを学習してもよい。

１情報処理装置
１０アクセラレータボード
１１コントローラ
１２ＰＥ
１２ａ情報取得ＰＥ
１３ＤＲＡＭ
１４ＰＣＩｅハードウェア
２０ホスト
２１ＣＰＵ
２２ＤＲＡＭ
２３ＰＣＩｅハードウェア
３０ＨＤＤ
４０割り付け部

Claims

並列に処理を行う第１の数の処理装置を用いて動的固定小数点数による深層学習を行う情報処理装置において、
前記第１の数の処理装置のうち前記第１の数より少ない第２の数の処理装置は、前記動的固定小数点数の小数点位置の調整に用いる統計情報を取得する取得処理装置をそれぞれ有し、
前記深層学習の層における伝播演算を前記第１の数の処理装置に割り付ける際に、前記第１の数より少ない第３の数の入力データ毎に前記第２の数の処理装置を均等に割り付け、前記第３の数の入力データ毎に出力チャネルを第４の数ずらしながら割り付ける割り付け部
を有することを特徴とする情報処理装置。
前記割り付け部は、入力データごとに前記取得処理装置を均等に割り付け、入力データごとに出力チャネルを前記第４の数ずらしながら割り付けることを特徴とする請求項１に記載の情報処理装置。
前記割り付け部は、前記深層学習の畳込み層における伝播演算を前記第１の数の処理装置に割り付けることを特徴とする請求項１又は２に記載の情報処理装置。
前記伝播演算に用いるデータを指定して前記第１の数の処理装置に前記伝播演算の実行を指示する制御部を有し、
前記制御部が前記割り付け部を有することを特徴とする請求項１、２又は３に記載の情報処理装置。
各処理装置に演算の実行を指示する第１の制御部と、
前記第１の制御部に前記伝播演算に用いるデータを指定して前記伝播演算の実行を指示する第２の制御部を有し、
前記第１の制御部が前記割り付け部を有することを特徴とする請求項１、２又は３に記載の情報処理装置。
並列に処理を行う第１の数の処理装置を用いて動的固定小数点数による深層学習を行う情報処理装置による情報処理方法において、
前記情報処理装置は、前記第１の数の処理装置のうち前記第１の数より少ない第２の数の処理装置に前記動的固定小数点数の小数点位置の調整に用いる統計情報をそれぞれ取得させ、
前記深層学習の層における伝播演算を前記第１の数の処理装置に割り付ける際に、前記第１の数より少ない第３の数の入力データごとに前記第２の数の処理装置を均等に割り付け、前記第３の数の入力データ毎に出力チャネルを第４の数ずらしながら割り付ける
処理を行うことを特徴とする情報処理方法。