JP2022094508A

JP2022094508A - 演算処理装置、演算処理方法および演算処理プログラム

Info

Publication number: JP2022094508A
Application number: JP2020207436A
Authority: JP
Inventors: 真紀子伊藤; Makiko Ito
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2022-06-27
Also published as: US20220188077A1; EP4016281A1; CN114637489A

Abstract

【課題】メモリに転送するディープニューラルネットワークの学習に使用するデータの圧縮効率を向上することで、学習時間を短縮する。【解決手段】演算処理装置は、ディープニューラルネットワークの学習を実行可能な演算処理装置であって、固定小数点数データの演算を実行する演算部と、演算部が実行する演算により得られる演算結果データの最上位ビットの分布を示す統計情報を取得する統計取得部と、統計取得部が取得した統計情報に基づいて、演算に使用する固定小数点数データのビット範囲を更新する更新部と、統計取得部が取得した統計情報に基づいて、複数の圧縮方式による演算結果データの圧縮後のデータ量を推定し、データ量が最小となる圧縮方式を決定する圧縮方式決定部と、圧縮方式決定部が決定した圧縮方式を使用して圧縮された演算結果データをメモリに転送するメモリインタフェースと、を有する。【選択図】図１

Description

本発明は、演算処理装置、演算処理方法および演算処理プログラムに関する。

ディープニューラルネットワーク（以下、ＤＮＮとも称する）の認識性能を高めるために、ＤＮＮの学習で使用する学習データが増加する傾向にある。これに伴い、学習を実行する計算機と、学習で使用するデータを保持するメモリとを接続するメモリバスの帯域幅が増加する傾向にある。そこで、学習に使用するデータを圧縮することで、メモリバスの帯域幅を削減する手法が提案されている（例えば、特許文献１参照）。データの圧縮は、圧縮前のデータのバイト毎に"０"または"非０"を示すフラグを設け、"非０"データが圧縮後のデータサイズに収まるように"非０"データの所定のビットを切り捨てることで実施される。

また、ＤＮＮの学習等に固定小数点数データを使用し、演算により得られる固定小数点数データのビット位置の分布に基づいて小数点位置を更新することで、データ量を削減しつつ学習の精度を向上する手法が提案されている（例えば、特許文献２参照）。さらに、固定小数点数データのビット位置の分布を算出する場合、演算器の組から演算結果を順番に取得することで、取得部の数と信号配線の数とを少なくして回路規模を削減する手法が提案されている（例えば、特許文献３参照）。

特表２０２０－５１７０１４号公報特開２０１８－１２４６８１号公報国際公開第２０２０／０８４７２３号

ＤＮＮの学習では、大量のデータの演算が実行され、演算により得られるデータなどの学習に使用するデータの特性（分布、値など）はその都度変化する。演算により得られる固定小数点数データのビット位置の分布に基づいて小数点位置を更新する場合も、学習に使用するデータの特性はその都度変化する。このため、学習に使用するデータを特定の圧縮方式で圧縮する場合、データの特性に応じて圧縮効率が変動するおそれがある。圧縮効率が低下する場合、メモリに対するデータ転送時間が増加し、学習時間が増加する。

１つの側面では、本発明は、メモリに転送するディープニューラルネットワークの学習に使用するデータの圧縮効率を向上することで、学習時間を短縮することを目的とする。

一つの観点によれば、演算処理装置は、ディープニューラルネットワークの学習を実行可能な演算処理装置であって、固定小数点数データの演算を実行する演算部と、前記演算部が実行する演算により得られる演算結果データの最上位ビットの分布を示す統計情報を取得する統計取得部と、前記統計取得部が取得した統計情報に基づいて、演算に使用する固定小数点数データのビット範囲を更新する更新部と、前記統計取得部が取得した統計情報に基づいて、複数の圧縮方式による前記演算結果データの圧縮後のデータ量を推定し、前記データ量が最小となる圧縮方式を決定する圧縮方式決定部と、前記圧縮方式決定部が決定した圧縮方式を使用して圧縮された前記演算結果データをメモリに転送するメモリインタフェースと、を有する。

メモリに転送するディープニューラルネットワークの学習に使用するデータの圧縮効率を向上することで、学習時間を短縮することができる。

一実施形態における演算処理装置の一例を示すブロック図である。図１の演算処理装置が搭載されるサーバの一例を示すブロック図である。図２のサーバによるＤＮＮの学習の概要を示す説明図である。図２のサーバによる学習中に固定小数点数データの小数点位置を更新する一例を示す説明図である。図１の演算処理装置によるＤＮＮの学習において、演算結果の多くが"０"になるレイヤでのデータの分布の一例を示す説明図である。図１の圧縮伸長部で圧縮するデータの圧縮方式の一例を示す説明図である。図１の圧縮伸長部で圧縮するデータの圧縮方式の別の例を示す説明図である。図１の圧縮伸長部で圧縮するデータの圧縮方式のさらなる別の例を示す説明図である。図２のサーバによるＤＮＮの学習の一例を示すフロー図である。図９のステップＳ４００で実行されるミニバッチの学習の一例を示すフロー図である。図９のステップＳ６００で実行される圧縮方式の決定方法の一例を示すフロー図である。図１１のステップＳ６２０で実行される圧縮データ量の予測方法の一例を示すフロー図である。図１２の各領域の圧縮データ量を予測する場合の桁毎に算出される圧縮データ量の一例を示す説明図である。別の実施形態における演算処理装置の一例を示すブロック図である。

以下、図面を参照して、実施形態について説明する。以下では、信号等の情報が伝達される信号線には、信号名と同じ符号を使用する。また、図中に単線で示す信号線が、複数ビットの場合もある。

図１は、一実施形態における演算処理装置の一例を示す。図１に示す演算処理装置１００は、命令制御部１０、レジスタ部２０、ベクトルユニット３０、スカラユニット４０、統計情報集約部５０およびメモリインタフェース６０、７０を有する。演算処理装置１００は、ＣＰＵ（Central Processing Unit）等のプロセッサである。命令制御部１０は、メモリインタフェース６０を介して命令メモリ２１６に接続される。ベクトルユニット３０およびスカラユニット４０は、メモリインタフェース７０を介してデータメモリ２１８に接続される。例えば、メモリインタフェース６０、７０は、メモリアクセスコントローラである。なお、メモリインタフェース７０は、圧縮伸長部７２を有する。

命令制御部１０は、プログラムカウンタＰＣおよび命令デコーダＤＥＣ等を有する。命令制御部１０は、プログラムカウンタＰＣが示すアドレスに基づいて命令メモリ２１６から命令をフェッチし、フェッチした命令を命令デコーダＤＥＣに供給する。命令デコーダＤＥＣは、フェッチされた命令をデコードし、デコード結果をレジスタ部２０、ベクトルユニット３０およびスカラユニット４０に発行する。レジスタ部２０、ベクトルユニット３０およびスカラユニット４０は、命令デコーダＤＥＣがデコードした命令を実行する演算ユニットとして機能する。なお、命令制御部１０は、命令をプリフェッチしておく命令バッファや命令キャッシュを有してもよい。

レジスタ部２０は、ベクトルユニット３０が使用する複数のベクトルレジスタを含むベクトルレジスタファイルＶＲＦと、所定数のベクトルレジスタに対応する複数のベクトルアキュムレータＶＡＣＣとを有する。また、レジスタ部２０は、スカラユニット４０が使用する複数のスカラレジスタを含むスカラレジスタファイルＳＲＦと、スカラアキュムレータＡＣＣとを有する。以下では、レジスタ部２０内の各種レジスタは、単にレジスタとも称される。

さらに、レジスタ部２０は、統計情報格納部２２を有する。統計情報格納部２２は、統計情報集約部５０によって取得された統計情報が格納される。例えば、統計情報は、ベクトルユニット３０またはスカラユニット４０での演算結果データ（固定小数点数データ）の各々の最上位ビットの位置の分布を示す度数分布データ、および、度数分布データを得るための最上位ビットの位置を示す情報である。

ベクトルユニット３０は、例えば、８要素の演算ユニットを有する。ベクトルユニット３０は、整数演算と、ベクトルアキュムレートレジスタを用いた積和演算などを実行する機能を有する。また、ベクトルユニット３０は、ベクトルアキュムレートレジスタのクリア、積和演算（ＭＡＣ：Multiply and Accumulate）、累積加算、およびベクトルレジスタへのデータの転送などを実行する。さらに、ベクトルユニット３０は、データメモリ２１８からのデータのロードと、データメモリ２１８へのデータのストアを実行する。

ベクトルユニット３０の各演算ユニットは、整数演算器（ＯＰ）３２、データ変換部３４および統計取得部３６を有する。データ変換部３４および統計取得部３６は、整数演算器３２毎に設けられる。整数演算器３２は演算部の一例であり、データ変換部３４は更新部の一例である。なお、データ変換部３４の機能は、整数演算器３２に含まれてもよい。

例えば、ベクトルユニット３０は、ベクトルレジスタに保持されるデータを入力し、８要素の演算ユニットの整数演算器３２で演算を並列に実行する。そして、ベクトルユニット３０は、演算結果である出力データをベクトルレジスタに格納する。また、ベクトルユニット３０は、８要素の整数演算器３２でそれぞれ積和演算を実行し、積和演算結果の累積加算値をベクトルアキュムレータＶＡＣＣにそれぞれ格納する。

例えば、整数演算器３２は、８ビットの演算器である。整数演算器３２は、８ビットデータの演算だけでなく、２つの４ビットデータの並列演算、４つの２ビットデータの並列演算を実行可能である。各データは、符号ビットを含むため、演算に使用されるデータ値を表すビット数は、データのビット数より１ビット少ない。なお、整数演算器３２は、１６ビットの演算器でもよく、この場合、整数演算器３２は、１６ビットの演算器を、２つの８ビットの演算器として機能させてよい。

スカラユニット４０は、整数演算器（ＯＰ）４２、データ変換部４４および統計取得部４６を有する。整数演算器４２は演算部の一例であり、データ変換部４４は更新部の一例である。なお、データ変換部４４の機能は、整数演算器４２に含まれてもよい。スカラユニット４０は、四則演算、シフト演算、分岐命令、ロード命令およびストア命令などを実行する機能を有する。スカラユニット４０は、スカラレジスタとスカラアキュムレータＡＣＣとを使用して演算を実行する。

例えば、整数演算器４２は、スカラレジスタのいずれかに格納されている入力データを演算し、演算結果である出力データをスカラレジスタに格納する。整数演算器４２は、積和演算を実行する場合、積和演算の結果をスカラアキュムレータＡＣＣに格納する。スカラユニット４０による演算結果は、スカラレジスタ、スカラアキュムレータＡＣＣまたはデータメモリ２１８のいずれかに格納される。例えば、整数演算器４２は、整数演算器３２と同様に、８ビットの演算器でもよく、１６ビットの演算器でもよい。なお、整数演算器３２、４２のビット数は、８ビットまたは１６ビットに限定されない。

各データ変換部３４は、演算命令に基づいて整数演算器３２から出力される固定小数点数データ（演算結果データ）を受信する。各データ変換部３４は、ビット幅情報に基づいて、受信した固定小数点数データのうちの所定のビット数（ビット幅）のデータを選択することで、ビット位置（ビット範囲）を変更する。この際、各データ変換部３４は、オーバーフローする上位側のビットに対する飽和処理と、アンダーフローする下位側のビットに対する丸め処理を実行する。

例えば、各データ変換部３４は、整数演算器３２の出力データのビット幅である２４ビットの固定小数点数データを、整数演算器３２の入力データのビット幅である８ビットの固定小数点数データに変換する。そして、各データ変換部３４は、ビット位置を変更した固定小数点数データをレジスタ部２０に格納する。

データ変換部４４の機能は、データ変換部３４の機能と同様である。すなわち、データ変換部４４は、演算命令に基づいて整数演算器４２から出力される固定小数点数データ（演算結果データ）のうちの所定のビット数（ビット幅）のデータを、ビット幅情報に基づいて選択することで、ビット位置（ビット範囲）を変更する。この際、データ変換部４４は、飽和処理および丸め処理を実行する。

例えば、データ変換部４４は、整数演算器４２の出力データのビット幅である２４ビットの固定小数点数データを、整数演算器４２の入力データのビット幅である８ビットの固定小数点数データに変換する。そして、データ変換部４４は、ビット位置を変更した固定小数点数データをレジスタ部２０に格納する。

各統計取得部３６は、演算命令に基づいて整数演算器３２から出力される固定小数点数データ（演算結果データ）を受信する。各統計取得部３６は、例えば、受信した固定小数点数データの最上位ビットの位置を取得し、取得した最上位ビットの位置を示す位置情報を統計情報集約部５０に出力する。

統計取得部４６は、演算命令に基づいて整数演算器４２から出力される固定小数点数データ（演算結果データ）を受信する。統計取得部４６は、受信した固定小数点数データの最上位ビットの位置を取得し、取得した最上位ビットの位置を示す位置情報を統計情報集約部５０に出力する。

なお、各統計取得部３６、４６は、命令デコーダＤＥＣによる命令のデコード結果が統計情報の取得の指示を含む場合のみ、演算結果データの最上位ビットの位置を示す位置情報を取得し、取得した位置情報を統計情報集約部５０に出力してもよい。また、１つのデータ変換部３４および１つの統計取得部３６が、複数の整数演算器３２に共通に設けられてもよい。この場合、統計取得部３６は、複数の各整数演算器３２から出力される固定小数点数データの最上位ビットの位置を取得する。

ここで、各統計取得部３６、４６が取得する最上位ビットの位置は、符号ビットが"０"（データが正値）の場合、"１"が最初に現れる上位側のビット位置である。また、符号ビットが"１"（データが負値）の場合、"０"が最初に現れる上位側のビット位置である。

統計情報集約部５０は、統計取得部３６、４６から受信する最上位ビットの位置を示す位置情報を集約して統計情報を生成し、生成した統計情報を統計情報格納部２２に格納する。そして、統計情報格納部２２には、上述したように、演算結果データ（固定小数点数データ）の各々の最上位ビットの位置の分布を示す度数分布データが保持される。統計情報集約部５０により集約され、統計情報格納部２２に格納された統計情報の例は、図４および図５で説明される。

この実施形態では、メモリインタフェース７０の圧縮伸長部７２は、例えば、演算処理装置１００を制御する上位のコンピュータ等から通知された圧縮方式に基づいて、レジスタ部２０から出力される固定小数点数データを圧縮する。そして、圧縮伸長部７２は、圧縮した固定小数点数データをデータメモリ２１８（外部メモリ）に格納する。ここで、レジスタ部２０から出力される固定小数点数データは、データ変換部３４、４４から出力され、レジスタ部２０に格納された、ビット位置が変更された固定小数点数データであり、例えば、ディープニューラルネットワークの学習の途中データである。

また、圧縮伸長部７２は、データメモリ２１８から読み出される圧縮された固定小数点数データを伸長し、伸長した固定小数点数データをＤＮＮの学習に使用するためにレジスタ部２０等に格納する。ＤＮＮの学習の途中データを圧縮してデータメモリ２１８に格納し、データメモリ２１８から読み出されるデータを伸長して元のデータに戻すことで、データメモリ２１８に対するデータ転送量を圧縮しない場合に比べて削減することができる。

これにより、レジスタ部２０とデータメモリ２１８間でのデータ転送に掛かる時間を短縮することができる。したがって、ＤＮＮの学習において、メモリアクセス速度が演算速度に比べて低く、演算器に待ち時間が発生する場合にも、待ち時間を少なくすることができ、演算効率を向上して、学習時間を短縮することができる。例えば、ＤＮＮの学習においてメモリアクセス速度が演算速度に比べて著しく低い例として、データ配列の要素毎に演算を実行するレイヤ等がある。

さらに、圧縮伸長部７２をデータメモリ２１８の近くに位置するメモリインタフェース７０に設けることで、ベクトルユニット３０から出力される演算結果データおよびスカラユニット４０から出力される演算結果データの両方を圧縮することができる。また、圧縮部と伸長部とに分けることなく、圧縮伸長部７２を演算処理装置１００内に搭載することができる。この結果、データの圧縮および伸長に関係するデータ線等の配線領域を最小限にすることができ、演算処理装置１００の回路規模を最小限にすることができる。

上位のコンピュータ（計算機）等または演算処理装置１００は、統計情報格納部２２に格納された統計情報に基づいて、複数の圧縮方式による演算結果データの圧縮後のデータ量を推定し、データ量が最小となる圧縮方式を決定する圧縮方式決定部を有してもよい。この場合、圧縮伸長部７２は、圧縮方式決定部から指示される圧縮方式により、演算結果データを圧縮し、圧縮された演算結果データを伸長する。

図２は、図１の演算処理装置１００が搭載されるサーバ２００の一例を示す。演算処理装置１００が搭載されるサーバ２００は、ＤＮＮの学習を実行する情報処理装置または演算処理装置として機能する計算機である。

サーバ２００は、演算処理装置１００およびメインメモリ２１４が搭載されるアクセラレータボード２１０と、ホスト２２０と、ストレージ２３０とを有する。演算処理装置１００とホスト２２０とは、ＰＣＩｅ（Peripheral Component Interconnect express）バス等の通信バスで相互に接続される。このため、演算処理装置１００は、ＰＣＩｅインタフェース（Ｉ／Ｆ）回路２１２を有し、ホスト２２０は、ＰＣＩｅインタフェース（Ｉ／Ｆ）回路２２２を有する。

演算処理装置１００は、マトリックス状に配置された複数の処理部ＰＥ（Processing Element）を有する。例えば、各処理部ＰＥは、図１の整数演算器３２、データ変換部３４および統計取得部３６と、各種レジスタとを有する演算ユニットである。または、図１の整数演算器４２、データ変換部４４および統計取得部４６と、各種レジスタとを有する演算ユニットである。なお、処理部ＰＥに搭載される回路要素は、上記に限定されない。

また、図示を省略するが、図２に示す演算処理装置１００は、図１の命令制御部１０、レジスタ部２０、統計情報集約部５０およびメモリインタフェース６０、７０を有する。メインメモリ２１４は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）を含み、図１の命令メモリ２１６およびデータメモリ２１８に対応する。

ホスト２２０は、ホストＣＰＵ２２４とＤＲＡＭ等のメモリ２２６とを有する。ホストＣＰＵ２２４は、ＰＣＩｅインタフェース回路２２２を介して演算処理装置１００に接続され、演算処理装置１００を制御して演算処理装置１００にＤＮＮの学習を実行させる。

例えば、ホストＣＰＵ２２４は、メモリ２２６に展開された演算処理プログラムを実行することで、演算処理装置１００にＤＮＮの学習を実行させる。また、ホストＣＰＵ２２４は、演算処理プログラムを実行することで、演算結果データのデータ量を最小にする圧縮方式を推定する。

ホストＣＰＵ２２４は、階層的に設けられたメモリ２２６とストレージ２３０とに接続される。例えば、ストレージ２３０は、ＨＤＤ（Hard Disk Drive）またはＳＳＤ（Solid State Drive）の少なくともいずれかを含む。そして、ホストＣＰＵ２２４は、ＤＮＮの学習において、ストレージ２３０に格納された学習データ２３２を使用して学習を実行する。

図３は、図２のサーバ２００によるＤＮＮの学習の概要を示す説明図である。図３に例示するＤＮＮは、１層目の畳み込み層（Ｃｏｎｖ＿１）およびプーリング層（Ｐｏｏｌ＿１）と、２層目の畳み込み層（Ｃｏｎｖ＿２）およびプーリング層（Ｐｏｏｌ＿２）と、全結合層１（ｆｃ１）と、全結合層２（ｆｃ２）とを有する。

例えば、ＤＮＮの深層学習は、処理の単位であるミニバッチ毎に実行される。ミニバッチはバッチの一例である。図３では、ミニバッチは、学習対象の入力データの集合をｋ個に分割した分割データを各々使用して実行される。

まず、図２のホストＣＰＵ２２４は、ミニバッチを実行する前に、浮動小数点数データによる学習を試行し（例えば、ミニバッチ１回など）、学習に使用する重み等の各変数の初期の小数点位置を決定する。初期の小数点位置は、ユーザにより指定されてもよい。ホストＣＰＵ２２４は、初期の小数点位置をデータ変換部３４、４４に通知する。

そして、ホストＣＰＵ２２４は、各ミニバッチおいて、分割された入力データを使用してＣｏｎｖ＿１層からｆｃ２層に向けてフォワード処理を実行する。また、ホストＣＰＵ２２４は、各ミニバッチにおいて、フォワード処理の結果と正解データとを使用してｆｃ２層からＣｏｎｖ＿１層に向けてバックワード処理を実行する。そして、ホストＣＰＵ２２４は、例えば、勾配降下法を使用して重み等の変数を更新する。

図１の統計情報集約部５０は、各ミニバッチにおいて、統計取得部３６が取得した各層で使用する変数毎の最上位ビットの位置情報を集約し、統計情報格納部２２に格納する。各層で使用するデータ（変数を含む）は、図１のデータメモリ２１８から読み出され、各層の計算で得られたデータは、データメモリ２１８に格納される。ミニバッチの学習中にデータのオーバーフローが発生した場合は、飽和処理が行われ、学習が続行される。

なお、最初のｋ回のミニバッチでは、図１の圧縮伸長部７２は、データを圧縮することなくデータメモリ２１８に格納する。２巡目以降のｋ回のミニバッチでは、圧縮伸長部７２は、ホストＣＰＵ２２４から指定された圧縮方式でデータを圧縮した後、データメモリ２１８に格納し、データメモリ２１８から読み出したデータを伸長する。

ホストＣＰＵ２２４は、ｋ回のミニバッチの終了後、統計情報格納部２２に格納された統計情報（最上位ビットの位置の分布を示す度数分布データ）を使用して、次のｋ回のミニバッチで使用する固定小数点数データの小数点位置を決定する。また、ホストＣＰＵ２２４は、ｋ回のミニバッチの終了後、統計情報格納部２２に格納された統計情報を使用して、次のｋ回のミニバッチで使用する圧縮方式を決定する。ホストＣＰＵ２２４は、決定した小数点位置をデータ変換部３４、４４に通知し、決定した圧縮方式を圧縮伸長部７２に通知する。データ変換部３４、４４は、小数点位置を通知された小数点位置に更新する。圧縮伸長部７２は、圧縮方式を通知された圧縮方式に更新する。

そして、３巡目以降、１つ前のｋ回のミニバッチで更新された小数点位置と更新された圧縮方式とを使用して、次のｋ回のミニバッチによる学習処理が繰り返し実行される。学習処理は、正解データとの差が予め設定された値以下になるまで繰り返される。

ｋ回のミニバッチ毎に、統計情報格納部２２に格納された統計情報を使用してデータメモリ２１８に格納するデータの圧縮方式を決定することで、ＤＮＮの学習時のデータメモリ２１８に対して読み書きされるデータの転送時間を削減することができる。換言すれば、統計情報格納部２２に格納された統計情報を使用して、次のｋ回のミニバッチにおいてデータメモリ２１８に対して読み書きするデータの転送時間を最小にする圧縮方式を予測することができる。

図４は、図２のサーバ２００による学習中に固定小数点数データの小数点位置を更新する一例を示す。すなわち、この実施形態では、動的固定小数点数データを使用して、ＤＮＮの学習が実行される。図４は、統計情報集約部５０により集約され、統計情報格納部２２に格納された統計情報により示されるデータの最上位ビットの分布の例を示している。

図４の左側は、分布が表現可能な領域に収まらない場合を示し、右側は、分布が表現可能な領域に収まる場合を示す。分布の横軸の数値は、最上位ビットのビット位置（２進数の桁位置）を示す。"１５"は"２^１５"を示し、"－３"は"２^－３"を示す。なお、図４では、表現可能な領域が１６ビットで示されるが、表現可能な領域は、８ビットでもよい。表現可能な領域は、整数演算器３２、４２の演算に使用する固定小数点数データのビット範囲の一例である。以下では、表現可能な領域は、ビット範囲とも称される。

図４の左側において、表現可能な領域の上限より上位側にビット値の最上位ビットがある固定小数点数データは、飽和処理が実行される（オーバーフロー）。一方、表現可能な領域の下限より下位側にビット値の最上位ビットがある固定小数点数データは、丸め処理が実行される（アンダーフロー）。ホストＣＰＵ２２４は、統計情報集約部５０により取得された分布に基づいて、現在のビット精度（Ｑ５．１０）で表現される固定小数点数データの分布が上位側に偏っていると判定し、次の学習処理でのビット精度を（Ｑ３．１２）に決定する。

そして、ホストＣＰＵ２２４は、ビット精度（Ｑ３．１２）をデータ変換部３４、４４に通知する。例えば、ホストＣＰＵ２２４は、ビット精度により示される１６ビットが分布の中心になるように、固定小数点数データの小数点位置を決定する。ここで、ビット精度（Ｑ５．１０）、（Ｑ３．１２）は、Ｑフォーマットでの固定小数点数データの表記を示している。

なお、ホストＣＰＵ２２４は、（オーバーフローしたデータ数）／（全体のデータ数）が所定の既定値より小さくなるように、小数点位置を更新してもよい。あるいは、ホストＣＰＵ２２４は、（アンダーフローしたデータ数）／（全体のデータ数）に応じて小数点位置を更新してもよく、オーバーフローしたデータ数とアンダーフローしたデータ数、またはそれらの比率に基づいて、小数点位置を更新してもよい。

一方、図４の右側において、分布が表現可能な領域に収まる場合、ホストＣＰＵ２２４は、例えば、分布の中心がビット精度により示される１６ビットの中央になるように、小数点位置を決定する。図４に示す例では、ホストＣＰＵ２２４は、統計情報集約部５０により取得された分布に基づいて、現在のビット精度（Ｑ３．１２）で表現される固定小数点数データの分布が上位側に偏っていると判定し、次の学習処理でのビット精度を（Ｑ１．１４）に決定する。

図５は、図１の演算処理装置１００によるＤＮＮの学習において、演算結果の多くが"０"になるレイヤでのデータの分布の一例を示す。図５に示す例は、全結合層において、積和演算により得られた複数の２４ビットのデータａｃｃｉを、８ビット固定小数点に変換する例が示される。８ビット固定小数点への変換は、図１のデータ変換部３４（またはデータ変換部４４）で実行される。

例えば、データ変換部３４は、８ビット固定小数点のビット位置（Ｑ－２．９）をホストＣＰＵ２２４から予め通知される。図５の左下は、統計情報集約部５０により集計された積和演算結果の最上位ビットの分布の例が示される。表現可能な領域（Ｑ－２．９）より下位のビットは、アンダーフロービットであり、データ変換部３４により丸め処理される。

なお、図５の度数分布は、データａｃｃｉの絶対値の分布を示している。このため、例えば、ビット位置の"－９"の度数は、２^－８≦ａｃｃ_ｉ＜２^－７のデータ数と、－２^－７≦ａｃｃ_ｉ＜－２^－８のデータ数の合計を示す。図６以降に示す度数分布についても、絶対値の分布である。

図５の右側は、各積和演算結果データのアンダーフロービットがデータ変換部３４により丸め処理され、８ビット固定小数点に変換された後の最上位ビットの分布の例が示される。アンダーフローデータは確率的な丸め処理により多くは、切り下げにより"０"になり、一部は、切り上げにより"２^－９"になる。このため、図５の右側の枠内の上側に示すように、変換後の（Ｑ－２．９）でのデータ値（８ビットの値）の多くは"０"になり、"１"および"－１"も散在する。

図６は、図１の圧縮伸長部７２で圧縮するデータの圧縮方式の一例を示す。図６に示す圧縮方式による圧縮後のデータは、フラグ列とデータ列とを含む。フラグ列は、各データ（８ビット）が"０"または"非０"のいずれであるかを示すフラグを含む。フラグの数は、圧縮前の元のデータ列のデータ数と同じである。各フラグは、１ビットであり、対応するデータが"非０"のとき"１"に設定され、対応するデータが"０"のとき"０"に設定される。

データ列は、符号ビット付きの８ビットの"非０"の演算結果データのみを含む。以下では、図６に示す圧縮方式は０スキップ圧縮方式と称される。０スキップ圧縮方式は、第１圧縮方式の一例である。なお、元のデータ列のサイズは、８ビットとデータ数の積である。図において、符号"＊"は乗算を示す。

図１のホストＣＰＵ２２４は、統計情報集約部５０により集約された統計情報（図６に度数分布で示される情報）に基づいて、０スキップ圧縮方式での圧縮データのデータ量を推定する。すなわち、ホストＣＰＵ２２４は、演算結果データの最上位ビットの位置の分布に基づいて、圧縮データのデータ量を推定することができる。

ホストＣＰＵ２２４は、ビット範囲（表現可能な領域）より上位ビット側の上位側範囲と、ビット範囲と、ビット範囲より下位ビット側の下位側範囲とのそれぞれについて、圧縮後のデータ量であるサブ圧縮データ量を推定する。そして、ホストＣＰＵ２２４は、３つのサブ圧縮データ量の総和を圧縮データ量とする。

ホストＣＰＵ２２４は、上位側範囲におけるサブ圧縮データ量を、上位側範囲の各ビット位置での度数とデータサイズ（８ビット）との積を足し込むことにより算出する。同様に、ホストＣＰＵ２２４は、ビット範囲におけるサブ圧縮データ量を、各ビット位置の度数の総和とデータサイズ（８ビット）との積を足し込むことにより算出する。

ホストＣＰＵ２２４は、下位側範囲におけるサブ圧縮データ量を、丸め処理により"１"または"－１"になるビット位置（桁位置）毎の確率と、各ビット位置の度数との積の総和により算出する。ここで、丸め処理により"１"または"－１"になるとは、ビット範囲へ丸め処理される切り上げを示す。

例えば、ホストＣＰＵ２２４は、２^－１０のビット位置では、５０％以上１００％未満の確率で"１"または"－１"になるため、１００％の確率で"１"または"－１"になると推定する。１００％の確率で切り上げられるため、ホストＣＰＵ２２４は、２^－１０のビット位置での圧縮データ量を、度数とデータサイズ（８ビット）との積により算出する。

ホストＣＰＵ２２４は、２^－１１のビット位置では、２５％以上５０％未満の確率で"１"または"－１"になるため、５０％の確率で"１"または"－１"になると推定する。このため、ホストＣＰＵ２２４は、２^－１１のビット位置での圧縮データ量を、度数とデータサイズ（８ビット）と"０．５"との積により算出する。

ホストＣＰＵ２２４は、２^－１２のビット位置では、１２．５％以上２５％未満の確率で"１"または"－１"になるため、２５％の確率で"１"または"－１"になると推定する。このため、ホストＣＰＵ２２４は、２^－１１のビット位置での圧縮データ量を、度数とデータサイズ（８ビット）と"０．２５"との積により算出される。

ホストＣＰＵ２２４は、２^－１３以下のビット位置のデータ量も上記と同様に算出し、下位側範囲の演算結果データの全てのビット位置でのデータ量の総和を下位側範囲におけるサブ圧縮データ量とする。そして、ホストＣＰＵ２２４は、上位側範囲、ビット範囲および下位側範囲におけるサブ圧縮データ量の総和にフラグ列のサイズ（総データ数と１ビットとの積）を加えることで、０スキップ圧縮方式での圧縮データ量を算出する。０スキップ圧縮方式は、演算結果データにおける"０"の比率が高いほど、圧縮効率を高くすることができる。

図７は、図１の圧縮伸長部７２で圧縮するデータの圧縮方式の別の例を示す説明図である。図６と同様の要素については、詳細な説明は省略する。図７に示す圧縮方式による圧縮後のデータは、フラグ列とデータ列とを含む。フラグ列は、各データ（８ビット）が"０"、"１"、"－１"のいずれであるか、"０"、"１"、"－１"のいずれでもないかを示すフラグを含む。フラグの数は、圧縮前の元のデータ列のデータ数と同じである。各フラグは、２ビットであり、対応するデータが"０"のとき"００"に設定され、対応するデータが"１"のとき"０１"に設定される。また、各フラグは、対応するデータが"－１"のとき"１０"に設定され、対応するデータが"０"、"１"、"－１"のいずれでもないとき"１１"に設定される。

データ列は、"０"、"１"、"－１"のいずれでもない符号ビット付きの８ビットの演算結果データを含む。以下では、図７に示す圧縮方式は、０１圧縮方式と称される。０１圧縮方式は、第２圧縮方式の一例である。

ホストＣＰＵ２２４は、統計情報集約部５０により集約された統計情報（図７に度数分布で示される情報）に基づいて、０１圧縮方式での圧縮データのデータ量を推定する。すなわち、ホストＣＰＵ２２４は、演算結果データの最上位ビットの位置の分布に基づいて、圧縮データのデータ量を推定することができる。

ホストＣＰＵ２２４は、上位側範囲と、ビット範囲と、下位側範囲とのそれぞれについて、圧縮後のデータ量であるサブ圧縮データ量を推定する。そして、ホストＣＰＵ２２４は、３つのサブ圧縮データ量の総和を圧縮データ量とする。

ホストＣＰＵ２２４は、図６と同様に、上位側範囲におけるサブ圧縮データ量を、各ビット位置での度数とデータサイズ（８ビット）との積を足し込むことにより算出する。同様に、ホストＣＰＵ２２４は、ビット範囲におけるサブ圧縮データ量を、各ビット位置での度数とデータサイズ（８ビット）との積を足し込むことにより算出する。

図７では、"０"、"１"、"－１"のいずれかに丸められる下位側範囲のデータは、フラグ列のフラグにより表現される。このため、ホストＣＰＵ２２４は、下位側範囲におけるサブ圧縮データ量を"０"とする。そして、ホストＣＰＵ２２４は、上位側範囲およびビット範囲におけるサブ圧縮データ量の総和にフラグ列のサイズ（総データ数と２ビットとの積）を加えることで、０１圧縮方式での圧縮データ量を算出する。０１圧縮方式は、演算結果データにおける"０"、"１"、"－１"の比率が高いほど、圧縮効率を高くすることができる。

図８は、図１の圧縮伸長部７２で圧縮するデータの圧縮方式のさらなる別の例を示す説明図である。図６と同様の要素については、詳細な説明は省略する。図８に示す圧縮方式による圧縮後のデータは、フラグ列とデータ列とを含む。フラグ列は、各演算結果データ（符号ビットを除くビット範囲内の７ビット）を表現するビット数が設定されるフラグを含む。換言すれば、各フラグは、各演算結果データのビット範囲内での最上位ビットまでのビット数を示す。

フラグの数は、圧縮前の元のデータ列のデータ数と同じである。ビット範囲（７ビット）で表現可能な"０"から"１２７（絶対値）"までデータのビット数が、各フラグにより示されるため、各フラグは、３ビットである。

データ列は、フラグで示されるビット数のデータと各データの符号ビットとのペアを含む。例えば、データ"９３"は、"０"の符号ビットＳと７ビットの"９３"とで表される。データ"０"は、"０"の符号ビットＳのみで表される。データ"－１"は、"１"の符号ビットＳと１ビットの"１"とで表される。データ"１"は、"０"の符号ビットＳと１ビットの"１"とで表される。データ"４２"は、"０"の符号ビットＳと６ビットの"４２"とで表される。以下では、図８に示す圧縮方式は、可変長圧縮方式と称される。可変長圧縮方式は、第３圧縮方式の一例である。

ホストＣＰＵ２２４は、統計情報集約部５０により集約された統計情報（図８に度数分布で示される情報）に基づいて、可変長圧縮方式での圧縮データのデータ量を推定する。すなわち、ホストＣＰＵ２２４は、演算結果データの最上位ビットの位置の分布に基づいて、圧縮データのデータ量を推定することができる。

ホストＣＰＵ２２４は、上位側範囲と、ビット範囲と、下位側範囲とのそれぞれについて、圧縮後のデータ量を推定する。そして、ホストＣＰＵ２２４は、３つのサブ圧縮データ量の総和を圧縮データ量とする。

ホストＣＰＵ２２４は、図６と同様に、上位側範囲におけるサブ圧縮データ量を、各ビット位置での度数とデータサイズ（８ビット）との積を足し込むことにより算出する。また、ホストＣＰＵ２２４は、ビット範囲におけるサブ圧縮データ量を、各ビット位置での度数と、データの桁数および符号ビットのビット数である符号ビット数（＝"１"）の和との積を足し込むことにより算出する。

図８に示す度数分布において、データの桁数は、２^－３のビット位置では、"７"になり、２^－５のビット位置では、"５"になり、２^－７のビット位置では、"３"になり、２^－９のビット位置では、"１"になる。

ホストＣＰＵ２２４は、下位側範囲におけるサブ圧縮データ量を、各ビット位置において、丸め処理（切り上げ）により"１"または"－１"になる確率と、丸め処理（切り下げ）により"０"になる確率とに基づいて算出する。例えば、ホストＣＰＵ２２４は、"１"または"－１"になる確率の２倍と、"０"になる確率の１倍との和を、ビット位置毎に算出する。そして、ホストＣＰＵ２２４は、算出したビット位置毎の和と、各ビット位置での度数との積を足し込むことにより、下位側範囲におけるサブ圧縮データ量を算出する。

ここで、圧縮後のデータ列において、"１"または"－１"は符号ビットＳを含めて２ビットで表現されるため、"１"または"－１"になる確率は２倍される。圧縮後のデータ列において、"０"は符号ビットＳのみの１ビットで表現されるため、"０"になる確率は１倍される。可変長圧縮方式は、演算結果データにおける"０"、"１"、"－１"のいずれでもない値の比率が高いほど、圧縮効率を高くすることができる。

なお、図６から図９に示される圧縮方式は一例である。本実施形態で使用される圧縮方式は、上述した３つに限定されない。また、圧縮方式の種類は、２以上であればよい。

図９は、図２のサーバ２００によるＤＮＮの学習の一例を示す。例えば、図９に示す処理フローは、サーバ２００のホストＣＰＵ２２４が演算処理プログラムを実行することで、実現される。すなわち、図９は、サーバ２００が実行する演算処理方法の一例および演算処理プログラムの一例を示す。

なお、図９に示す処理フローは、ＦＰＧＡ（Field-Programmable Gate Array）等のハードウェアにより実現されてもよく、ハードウェアとソフトウェアを協働させることより実現されてもよい。

まず、ステップＳ１００において、ホストＣＰＵ２２４は、小数点位置の初期値である初期小数点位置を決定する。ホストＣＰＵ２２４は、過去の実験値、実績値、あるいは、ユーザ指定により各変数の初期小数点位置を決定すればよい。

次に、ステップＳ２００において、ホストＣＰＵ２２４は、ミニバッチの繰返し回数ｋを"０"に初期化する。また、ホストＣＰＵ２２４は、演算処理プログラム内で統計情報を格納する変数を初期化する。

次に、ステップＳ３００において、ホストＣＰＵ２２４は、学習終了の条件を充足するか否かを判定する。ホストＣＰＵ２２４は、例えば、図３に示した全結合層（ｆｃ２）でのエラーが予め設定した基準値以下になった場合、または、学習回数が規定の回数に到達した場合、学習を終了する。学習終了の条件が充足されない場合、ホストＣＰＵ２２４は、次のミニバッチを実行するために、ステップＳ４００を実行する。

ステップＳ４００において、ホストＣＰＵ２２４は、演算処理装置１００にミニバッチの学習を実行させ、各レイヤの各変数の統計情報を統計情報格納部２２に累積させる。そして、ホストＣＰＵ２２４は、ミニバッチの学習の完了に基づいて繰り返し回数ｋを"１"増加し、ステップＳ５００を実行する。

ステップＳ５００において、ホストＣＰＵ２２４は、繰り返し回数ｋが固定小数点数データの小数点位置と圧縮方式との更新間隔に達したか否かを判定する。繰り返し回数ｋが更新間隔に達していない場合、ホストＣＰＵ２２４は、ステップＳ３００の処理に戻り、回数ｋが更新間隔に達した場合、ステップＳ６００を実行する。

ステップＳ６００において、ホストＣＰＵ２２４は、ミニバッチの実行により統計情報格納部２２に蓄積された統計情報を読み出す。そして、ホストＣＰＵ２２４は、読み出した統計情報に基づいて、図４で説明したように、各レイヤの各変数の小数点位置を更新する。また、ホストＣＰＵ２２４は、ｋ回のミニバッチの実行毎に、次のｋ回のミニバッチで採用する圧縮方式（図６から図８で説明した圧縮方式のいずれか、または、無圧縮）を決定する。ホストＣＰＵ２２４は、繰り返し回数ｋを"０"に初期化し、統計情報を格納する統計情報格納部２２等の記憶領域をリセットする。そして、ホストＣＰＵ２２４は、ステップＳ３００の処理に戻る。

図１０は、図９のステップＳ４００で実行されるミニバッチの学習の一例を示す。図１０に示す処理は、ホストＣＰＵ２２４による制御に基づいて、演算処理装置１００により実行される。演算処理装置１００は、ホストＣＰＵ２２４からの指示に基づいて、ＤＮＮの全て入力チャネルと全ての出力チャネルとの組み合わせにおいて、ステップＳ４１０、Ｓ４２０の処理を実行する。

ステップＳ４１０では、メモリインタフェース７０は、データメモリ２１８からデータ（圧縮された演算結果データ）を読み出す。圧縮伸長部７２は、データメモリ２１８から読み出されたデータを伸長し、レジスタ部２０に転送する。例えば、メモリインタフェース７０は、圧縮されたデータとともに、圧縮方式を示す方式情報をデータメモリ２１８から読み出す。そして、圧縮伸長部７２は、データメモリ２１８から読み出された方式情報により示される圧縮方式に対応して、データを伸長する。次に、ステップＳ４２０では、整数演算器３２（または４２）は、レジスタ部２０に格納されたデータを使用して積和演算を実行する。

次に、ステップＳ４３０において、データ変換部３４（または４４）は、積和演算により得られたデータの有効なビット範囲であるビット精度を変更し、表現可能な有効領域から外れるビット値の飽和処理と丸め処理とを実行する。例えば、データ変換部３４（または４４）は、レジスタ等に格納された演算結果データを使用して、ビット精度を変更する。

また、統計情報集約部５０は、積和演算により得られ、統計取得部３６（または４６）で取得されたデータの統計情報（最上位ビットの位置を示す位置情報）を取得する。データ変換部３４（または４４）および統計取得部３６（または４６）による処理対象のデータは、全ての入力チャネルに対する出力チャネル毎の積和演算の結果データである。

次に、ステップＳ４４０において、メモリインタフェース７０は、データ変換部３４（または４４）により有効なビット範囲が変更されたデータを、圧縮伸長部７２を使用して圧縮する。例えば、圧縮伸長部７２は、ホストＣＰＵ２２４から指示される圧縮方式を使用してデータを圧縮する。ホストＣＰＵ２２４は、前回のｋ回のミニバッチにより決定した圧縮方式を圧縮伸長部７２に予め通知する。例えば、メモリインタフェース７０は、圧縮されたデータを、圧縮方式を示す方式情報とともにデータメモリ２１８に書き込む。そして、ステップＳ４１０、Ｓ４２０による入力チャネル毎の積和演算処理と、ステップＳ４３０、Ｓ４４０による出力チャネル毎のデータ変換処理、統計情報取得処理およびデータ圧縮処理が、繰り返し実行される。

図１１は、図９のステップＳ６００で実行される圧縮方式の決定方法の一例を示す。図１１に示す処理を実行するホストＣＰＵ２２４は、圧縮方式決定部の一例である。

まず、ステップＳ６１０において、ホストＣＰＵ２２４は、ｋ回のミニバッチの学習での演算結果データ（無圧縮）のデータ量を初期のデータ量に設定し、初期の圧縮方式の候補として無圧縮を選択する。そして、ホストＣＰＵ２２４は、ステップＳ６２０、Ｓ６３０、Ｓ６４０の処理を実行することで、全ての圧縮方式による圧縮データ量を順次予測し、圧縮データ量が最も少ない圧縮方式を次のｋ回のミニバッチの学習で使用する圧縮方式に決定する。例えば、圧縮方式ａは、図６から図８に示した０スキップ圧縮方式、０１圧縮方式または可変長圧縮方式のいずれかである。

ステップＳ６２０において、ホストＣＰＵ２２４は、圧縮方式のいずれかを使用する場合の圧縮データ量を予測する。次に、ステップＳ６３０において、ホストＣＰＵ２２４は、ステップＳ６２０で予測した圧縮データ量がデータ量より小さいか否かを判定する。ここで、比較対象のデータ量は、初回の処理ループでは、ステップＳ６１０で設定された無圧縮時のデータ量であり、２巡目以降の処理ループでは、ステップＳ６４０で決定したデータ量である。ホストＣＰＵ２２４は、圧縮データ量がデータ量より小さい場合、ステップＳ６４０の処理を実行し、圧縮データ量がデータ量以上の場合、ステップＳ６２０に戻って、次の圧縮方式での圧縮データ量を予測する。

ステップＳ６４０において、ホストＣＰＵ２２４は、ステップＳ６２０で予測した圧縮データ量を、この後の処理ループでの比較対象のデータ量に設定する。また、ホストＣＰＵ２２４は、ステップＳ６２０で予測し圧縮方式ａを圧縮方式の候補に設定する。そして、ホストＣＰＵ２２４は、全ての圧縮方式による圧縮データ量の予測を完了したのち、圧縮方式の候補として残っている圧縮方式を、次のｋ回のミニバッチで使用することを決定し、図１１に示す処理を終了する。

ステップＳ６２０からステップＳ６４０を圧縮方式毎に繰り返し実行することで、全ての圧縮方式のうち、圧縮データ量が最小になる圧縮方式が選択される。なお、各圧縮方式での圧縮データ量が無圧縮時のデータ量以上の場合、ステップＳ６４０は一度も実行されず、圧縮方式の候補として無圧縮が選択される。固定の圧縮方式で演算結果データを圧縮する場合、圧縮効率の高低にかかわらず、演算結果データは常に圧縮される。この実施形態では、複数の圧縮方式と無圧縮とのいずれかを圧縮データ量に応じて選択できるため、無圧縮を含めて、データ量の少ない方式を選択することができる。すなわち、無圧縮より圧縮効率の低い圧縮方式が選択されることを抑止することができる。

図１２は、図１１のステップＳ６２０で実行される圧縮データ量の予測方法の一例を示す。図１３は、図１２の各領域の圧縮データ量を予測する場合の桁毎に算出される圧縮データ量の一例を示す。図１２に示す処理は、ホストＣＰＵ２２４により圧縮方式毎に実行される。図１２および図１３において、桁ｄは、"－９"（２^－９）、"－１１"（２^－１１）等の最上位ビットのビット位置を示し、"ｘ"は、"－９"（ビット範囲の最下位ビットの位置）を示す。

まず、ステップＳ６２２において、ホストＣＰＵ２２４は、ｋ回のミニバッチの学習での演算結果データのデータ数とフラグのビット数との積を算出し、以降のデータ量を足し込む初期データ量として設定する。フラグのビット数は、図６の０スキップ圧縮方式では１ビットであり、図７の０１圧縮方式では２ビットであり、図８の可変長圧縮方式では３ビットである。

ステップＳ６２４において、ホストＣＰＵ２２４は、最上位桁からｘ＋７桁（＝－２）までの各桁についてデータ量を算出して累計することで、上位側範囲のサブ圧縮データ量を推定する。ステップＳ６２４の処理は、０スキップ圧縮方式、０１圧縮方式および可変長圧縮方式において共通である。ホストＣＰＵ２２４は、桁ｄでの度数（データ数）である統計情報（ｄ）と８ビットとの積を、データ量として桁ｄを更新しながら順次足し込んでいく。

ステップＳ６２６において、ホストＣＰＵ２２４は、ｘ＋６桁（＝－３）からｘ桁（＝－９）までの各桁についてデータ量を算出し、ステップＳ６２４で累計したデータ量に足し込んでいく。ステップＳ６２６により、上位側範囲のサブ圧縮データ量とビット範囲のサブ圧縮データ量との和が推定される。

ホストＣＰＵ２２４は、０スキップ圧縮方式、０１圧縮方式および可変長圧縮方式の各々において、桁ｄの度数である統計情報（ｄ）とｆ（ｄ，ｘ）との積を、桁ｄを更新しながら順次足し込んでいく。ｆ（ｄ，ｘ）は、０スキップ圧縮方式および０１圧縮方式において共通であり、可変長圧縮方式では、０スキップ圧縮方式および０１圧縮方式と異なる。

０スキップ圧縮方式および０１圧縮方式では、ｆ（ｄ，ｘ）は"８"に設定される。可変長圧縮方式では、ｆ（ｄ，ｘ）は、"ｄ－ｘ＋１＋１"に設定される。"ｄ－ｘ＋１＋１"において、"ｄ－ｘ＋１"は、データの桁数を示し、最後の"１"は、符号ビットを示す。このため、可変長圧縮方式では、例えば、ｆ（ｄ，ｘ）は、桁ｄ＝－３では"８"に設定され、桁ｄ＝－５では"６"に設定され、桁ｄ＝－９では"２"に設定される。

ステップＳ６２８において、ホストＣＰＵ２２４は、ｘ－１桁（＝－１０）から最下位桁までの各桁についてデータ量を算出し、ステップＳ６２６で累計したデータ量に足し込んでいく。ステップＳ６２８では、ホストＣＰＵ２２４は、０スキップ圧縮方式、０１圧縮方式および可変長圧縮方式の各々において、桁ｄの度数である統計情報（ｄ）とｇ（ｄ，ｘ）との積を、桁ｄを更新しながら順次足し込んでいく。但し、ｇ（ｄ，ｘ）は、０スキップ圧縮方式、０１圧縮方式および可変長圧縮方式においてそれぞれ異なる。

０スキップ圧縮方式では、ｇ（ｄ，ｘ）は、"８＊２＾（ｄ－ｘ＋１）"に設定される。符号"＾"は、べき乗を示す。ｇ（ｄ，ｘ）の"８"は、各データが８ビットであることを示し、"２＾（ｄ－ｘ＋１）"は、"１"または"－１"となるデータの確率を示す。確率は、図６に示したように、桁ｄ＝－１０では"２＾０＝１（＝１００％）"に設定され、桁ｄ＝－１１では"２＾－１＝０．５（＝５０％）"に設定され、桁ｄ＝－１２では"２＾－２＝０．２５（＝２５％）"に設定される。

０１圧縮方式では、図７に示したように、下位側範囲のデータは、圧縮後のデータ列として存在しないため、ｇ（ｄ，ｘ）は"０"に設定される。

可変長圧縮方式では、ｇ（ｄ，ｘ）は、"２＊２＾（ｄ－ｘ＋１）＋１＊（１－２＾（ｄ－ｘ＋１）"に設定される。先頭の"２"は、２ビットを示し、"２＾（ｄ－ｘ＋１）"は、"１"または"－１"となるデータの確率を示す。"１＊（１－２＾（ｄ－ｘ＋１）"の先頭の"１"は、１ビットを示し、"（１－２＾（ｄ－ｘ＋１）"は、"０"となる確率を示す。

なお、ステップＳ６２４、Ｓ６２６、Ｓ６２８を処理する順序は任意である。また、ステップＳ６２４において上位側範囲のサブ圧縮データ量のみが累計され、ステップＳ６２６においてビット範囲のサブ圧縮データ量のみが累計され、ステップＳ６２８において下位側範囲のサブ圧縮データ量のみが累計されてもよい。そして、ステップＳ６２８の後、ステップＳ６２２で算出されたフラグ列のデータ量と、ステップＳ６２４、Ｓ６２６、Ｓ６２８のそれぞれで累計されたサブ圧縮データ量とが相互に加算されてもよい。

以上、この実施形態では、ＤＮＮの学習の途中データを圧縮してデータメモリ２１８に格納し、データメモリ２１８から読み出されるデータを伸長して元のデータに戻すことで、データメモリ２１８に対するデータ転送量を削減することができる。これにより、ＤＮＮの学習において、演算器に待ち時間を少なくすることができ、演算効率を向上して、学習時間を短縮することができる。すなわち、メモリに転送するディープニューラルネットワークの学習に使用するデータの圧縮効率を向上することで、学習時間を短縮することができる。

圧縮伸長部７２をデータメモリ２１８の近くに位置するメモリインタフェース７０に設けることで、ベクトルユニット３０から出力される演算結果データおよびスカラユニット４０から出力される演算結果データの両方を圧縮することができる。また、圧縮部と伸長部とに分けることなく、圧縮伸長部７２を演算処理装置１００内に搭載することができる。この結果、データの圧縮および伸長に関係するデータ線等の配線領域を最小限にすることができ、演算処理装置１００の回路規模を最小限にすることができる。

所定量の学習毎に、統計情報格納部２２に格納された統計情報を使用してデータメモリ２１８に格納するデータの圧縮方式を決定することで、次の所定量の学習でのデータメモリ２１８に対するデータの転送時間を最小にする圧縮方式を予測することができる。複数の圧縮方式と無圧縮とのいずれかを圧縮データ量に応じて選択できるため、無圧縮を含めて、データ量の少ない方式を選択することができる。すなわち、無圧縮より圧縮効率の低い圧縮方式が選択されることを抑止することができる。

複数の圧縮方式から圧縮データ量が最小になると予測される圧縮方式を選択できるため、ｋ回のミニバッチ毎に変わる圧縮データの特性に合わせて、圧縮データ量が最小になると推定される最適な圧縮方式を次のｋ回のミニバッチで採用することができる。

例えば、０スキップ圧縮方式は、演算結果データにおける"０"の比率が高いほど、圧縮効率を高くすることができる。０１圧縮方式は、演算結果データにおける"０"、"１"、"－１"の比率が高いほど、圧縮効率を高くすることができる。可変長圧縮方式は、演算結果データにおける"０"、"１"、"－１"のいずれでもない値の比率が高いほど、圧縮効率を高くすることができる。

圧縮伸長部７２をメモリインタフェース７０に搭載することで、複数の整数演算器３２、４２が設けられる場合にも、共通の圧縮伸長部７２により、演算結果データの圧縮と伸長とを効率よく実行することができる。

図１４は、別の実施形態における演算処理装置の一例を示す。図１と同様の要素は、同じ符号を付し、詳細な説明は省略する。図１４に示す演算処理装置１００Ａは、図１に示す命令制御部１０、ベクトルユニット３０、スカラユニット４０、メモリインタフェース７０の代わりに、命令制御部１０Ａ、ベクトルユニット３０Ａ、スカラユニット４０Ａ、メモリインタフェース７０Ａを有する。

命令制御部１０Ａは、圧縮方式決定部１２Ａを有することを除き、図１の命令制御部１０と同様の構成および機能を有する。ベクトルユニット３０Ａは、図１のデータ変換部３４の代わりにデータ変換圧縮部３４Ａを有し、さらに、新たに伸長部３８Ａを有することを除き、図１のベクトルユニット３０と同様の構成および機能を有する。

スカラユニット４０Ａは、図１のデータ変換部４４の代わりにデータ変換圧縮部４４Ａを有し、新たに伸長部４８Ａを有することを除き、図１のスカラユニット４０Ａと同様の構成および機能を有する。メモリインタフェース７０Ａは、圧縮伸長部７２を持たないことを除き、図１のメモリインタフェース７０と同様の構成および機能を有する。

圧縮方式決定部１２Ａは、図１１から図１３に示した圧縮方式を決定する処理を、図２に示したサーバ２００の代わりに実行する。このため、図９に示したホストＣＰＵ２２４が実行する処理のうち、ステップＳ６００の圧縮方式を決定する処理は、圧縮方式決定部１２Ａにより実行される。

演算処理装置１００Ａが搭載されるサーバは、圧縮方式を決定する処理を実行しないことを除き、図２に示したサーバ２００と同様の構成および機能を有する。すなわち、図２に示したサーバ２００は、この実施形態では、演算処理装置１００の代わりに演算処理装置１００Ａを有する。演算処理装置１００Ａは、図２と同様に、マトリックス状に配置された複数の処理部ＰＥを有し、メインメモリ２１４に接続される。

なお、圧縮方式決定部１２Ａは、統計情報格納部２２に格納された統計情報を参照可能であれば、演算処理装置１００Ａ内の他の場所に設けられてもよい。また、図１４において、メモリインタフェース７０Ａの代わりに図１に示したメモリインタフェース７０が設けられてもよい。この場合、伸長部３８Ａ、４８Ａは削除され、データ変換圧縮部３４Ａ、４４Ａの代わりに、図１に示したデータ変換部３４、４４が設けられる。さらに、図１２４において、圧縮方式決定部１２Ａが削除され、圧縮方式を決定する処理が、図２のサーバ２００のホストＣＰＵ２２４により実行されてもよい。

以上、この実施形態においても、上述した実施形態と同様の効果を得ることができる。例えば、ＤＮＮの学習の途中データを圧縮してデータメモリ２１８に対して読み書きすることで、データメモリ２１８に対するデータ転送量を削減することができ、ＤＮＮの学習時間を短縮することができる。すなわち、メモリに転送するディープニューラルネットワークの学習に使用するデータの圧縮効率を向上することで、学習時間を短縮することができる。

さらに、この実施形態では、演算処理装置１００Ａ内に圧縮方式決定部１２Ａを設けることで、演算処理装置１００Ａ内で圧縮方式を決定することができる。これにより、圧縮方式を決定するための演算処理装置１００Ａとホスト２２０（図２）との間での通信量および通信時間を、上述した実施形態に比べて削減することができ、ＤＮＮの学習時間をさらに短縮することができる。

１０、１０Ａ命令制御部
１２Ａ圧縮方式決定部
２０レジスタ部
２２統計情報格納部
３０、３０Ａベクトルユニット
３２整数演算器
３４データ変換部
３４Ａデータ変換圧縮部
３６統計取得部
３８Ａ伸長部
４０、４０Ａスカラユニット
４２整数演算器
４４データ変換部
４４Ａデータ変換圧縮部
４６統計取得部
４８Ａ伸長部
５０統計情報集約部
６０、７０、７０Ａメモリインタフェース
７２圧縮伸長部
１００、１００Ａ演算処理装置
２１４メインメモリ
２００サーバ
２１６命令メモリ
２１０アクセラレータボード
２１２ＰＣＩｅインタフェース回路
２１８データメモリ
２２０ホスト
２２２ＰＣＩｅインタフェース回路
２２４ホストＣＰＵ
２２６メモリ
２３０ストレージ
２３２学習データ
ＡＣＣスカラアキュムレータ
ＤＥＣ命令デコーダ
ＰＣプログラムカウンタ
ＰＥ処理部
ＳＲＦスカラレジスタファイル
ＶＡＣＣベクトルアキュムレータ
ＶＲＦベクトルレジスタファイル

Claims

ディープニューラルネットワークの学習を実行可能な演算処理装置であって、
固定小数点数データの演算を実行する演算部と、
前記演算部が実行する演算により得られる演算結果データの最上位ビットの分布を示す統計情報を取得する統計取得部と、
前記統計取得部が取得した統計情報に基づいて、演算に使用する固定小数点数データのビット範囲を更新する更新部と、
前記統計取得部が取得した統計情報に基づいて、複数の圧縮方式による前記演算結果データの圧縮後のデータ量を推定し、前記データ量が最小となる圧縮方式を決定する圧縮方式決定部と、
前記圧縮方式決定部が決定した圧縮方式を使用して圧縮された前記演算結果データをメモリに転送するメモリインタフェースと、
を有する演算処理装置。
前記統計取得部は、前記ディープニューラルネットワークの学習において、所定数のバッチの実行毎に前記統計情報を取得し、
前記統計情報に基づいて前記圧縮方式決定部が決定した圧縮方式は、前記統計情報が前記所定数のバッチの次の所定数のバッチの固定小数点数データの演算結果データの圧縮に使用される
請求項１に記載の演算処理装置。
前記メモリインタフェースは、前記演算結果データの圧縮に使用した圧縮方式を示す情報を前記圧縮された演算結果データとともに、前記メモリに転送する
請求項１または請求項２に記載の演算処理装置。
前記圧縮方式決定部は、前記複数の圧縮方式により推定した前記演算結果データの圧縮後のデータ量が、圧縮前の前記演算結果データのデータ量以上の場合、無圧縮を圧縮方式として決定する
請求項１ないし請求項３のいずれか１項に記載の演算処理装置。
前記圧縮方式決定部が決定した圧縮方式を使用して前記演算結果データを圧縮し、前記メモリから転送される圧縮された演算結果データを伸長する圧縮伸長部を有する
請求項１ないし請求項４のいずれか１項に記載の演算処理装置。
前記圧縮伸長部は、前記メモリインタフェースに搭載される
請求項５のいずれか１項に記載の演算処理装置。
前記複数の圧縮方式は、前記演算結果データの各々が前記ビット範囲において"０"または"非０"のいずれであるかを示すフラグを含むフラグ列と、"非０"の前記演算結果データのみを含むデータ列とを生成する第１圧縮方式を含み、
前記圧縮方式決定部は、前記第１圧縮方式を使用して前記演算結果データの圧縮後のデータ量を推定する場合、
前記ビット範囲と、前記ビット範囲の上位ビット側に外れる上位側範囲と、前記ビット範囲の下位ビット側に外れる下位側範囲とのそれぞれについて、前記演算結果データの圧縮後のサブ圧縮データ量を推定し、前記サブ圧縮データ量の総和を前記演算結果データの圧縮後のデータ量とし、
前記下位側範囲におけるサブ圧縮データ量を、前記下位側範囲の各ビット位置での度数と丸め処理により切り上げられる確率との積に基づいて推定する
請求項１ないし請求項６のいずれか１項に記載の演算処理装置。
前記複数の圧縮方式は、前記演算結果データの各々が前記ビット範囲において"０"、"１"、"－１"のいずれであるか、"０"、"１"、"－１"のいずれでもないかを示すフラグを含むフラグ列と、"０"、"１"、"－１"のいずれでもない前記演算結果データのみを含むデータ列とを生成する第２圧縮方式を含み、
前記圧縮方式決定部は、前記第２圧縮方式を使用して前記演算結果データの圧縮後のデータ量を推定する場合、
前記ビット範囲と、前記ビット範囲の上位ビット側に外れる上位側範囲と、前記ビット範囲の下位ビット側に外れる下位側範囲とのそれぞれについて、前記演算結果データの圧縮後のサブ圧縮データ量を推定し、前記サブ圧縮データ量の総和を前記演算結果データの圧縮後のデータ量とし、
前記下位側範囲におけるサブ圧縮データ量を"０"と推定する
請求項１ないし請求項６のいずれか１項に記載の演算処理装置。
前記複数の圧縮方式は、前記演算結果データの各々において前記ビット範囲での最上位ビットまでのビット数を示すフラグを含むフラグ列と、前記フラグで示される前記ビット数の前記演算結果データと符号ビットとを含むデータ列とを生成する第３圧縮方式を含み、
前記圧縮方式決定部は、前記第３圧縮方式を使用して前記演算結果データの圧縮後のデータ量を推定する場合、
前記ビット範囲と、前記ビット範囲の上位ビット側に外れる上位側範囲と、前記ビット範囲の下位ビット側に外れる下位側範囲とのそれぞれについて、前記演算結果データの圧縮後のサブ圧縮データ量を推定し、前記サブ圧縮データ量の総和を前記演算結果データの圧縮後のデータ量とし、
前記ビット範囲におけるサブ圧縮データ量を、前記ビット範囲の各ビット位置での度数と、前記ビット数および符号ビット数の和との積に基づいて推定し、
前記下位側範囲におけるサブ圧縮データ量を、前記下位側範囲の各ビット位置での度数と、丸め処理により切り上げられる確率の２倍および丸め処理により切り下げられる確率の和との積に基づいて推定する
請求項１ないし請求項６のいずれか１項に記載の演算処理装置。
ディープニューラルネットワークの学習を実行可能な演算処理装置による演算処理方法であって、
固定小数点数データの演算を実行し、
演算により得られる演算結果データの最上位ビットの分布の統計情報を取得し、
取得した統計情報に基づいて、演算に使用する固定小数点数データのビット範囲を更新し、
取得した統計情報に基づいて、複数の圧縮方式による前記演算結果データの圧縮後のデータ量を推定し、前記データ量が最小となる圧縮方式を決定し、
決定した圧縮方式を使用して圧縮された前記演算結果データをメモリに転送する
演算処理方法。
ディープニューラルネットワークの学習を実行可能な演算処理装置が実行する演算処理プログラムであって、
固定小数点数データの演算を実行し、
演算により得られる演算結果データの最上位ビットの分布の統計情報を取得し、
取得した統計情報に基づいて、演算に使用する固定小数点数データのビット範囲を更新し、
取得した統計情報に基づいて、複数の圧縮方式による前記演算結果データの圧縮後のデータ量を推定し、前記データ量が最小となる圧縮方式を決定し、
決定した圧縮方式を使用して圧縮された前記演算結果データをメモリに転送する
処理を前記演算処理装置に実行させる演算処理プログラム。