JP2023000142A

JP2023000142A - 演算装置

Info

Publication number: JP2023000142A
Application number: JP2021100783A
Authority: JP
Inventors: 鉄太郎橋本; Tetsutaro Hashimoto
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2023-01-04
Also published as: US20220405055A1; CN115496176A

Abstract

【課題】ＤＮＮの学習の高速化を図ること。【解決手段】ＤＮＮ学習装置１０が有する演算装置１１において、バイアス演算器１１ａは、浮動小数点演算のダイナミックレンジをシフトさせる共有指数バイアス値を算出し、ＳＩＭＤ演算器１１ｂは、共有指数バイアス値及び第一ビット数の浮動小数点のアクティベーション値から形成される第一データセットと、共有指数バイアス値及び第一ビット数の浮動小数点のウェイトから形成される第二データセットとの多数要素分の積和演算を行うことにより、第一ビット数より多い第二ビット数の積和演算結果を算出し、量子化器１１ｃは、積和演算結果のビット数を第二ビット数から第一ビット数へ量子化することによりアクティベーション値を更新する。【選択図】図６

Description

本開示は、演算装置に関する。

ディープニューラルネットワーク（Deep Neural Network：ＤＮＮ）は、ＤＮＮの大規模化と深層化とによって認識率を向上させてきた。しかし、大規模化と深層化はＤＮＮでの演算量を増大させ、演算量の増大に比例してＤＮＮの学習時間も増大している。

ＤＮＮの学習時間を短縮するために、ＤＮＮの学習に浮動小数点８ビット（ＦＰ８）または浮動小数点１６ビット（ＦＰ１６）の低精度演算（Low Precision Operation：ＬＰＯ）が用いられることがある。例えば、ＦＰ８の演算を用いれば、浮動小数点３２ビット（ＦＰ３２）の演算に比べて、ＳＩＭＤ（Single Instruction Multiple Data）演算の並列度を４倍にできるため、演算時間を４分の１に短縮できる。なお、ＦＰ８やＦＰ１６のＬＰＯに対し、ＦＰ３２の演算は、Full Precision Operation（ＦＰＯ）と呼ばれることがある。また、例えばＦＰ３２をＦＰ８に変化させるように、データのビット数を減少させることによりＤＮＮの演算をＦＰＯからＬＰＯに変化させることを量子化（Quantization）と呼ぶことがある。さらに、ＦＰＯとＬＰＯとが混合したＤＮＮの演算を混合精度演算（Mixed Precision Operation：ＭＰＯ）と呼ぶことがある。ＭＰＯを用いたＤＮＮの学習（Mixed Precision Training：ＭＰＴ）では、量子化により認識率が低下するレイヤーについてはＦＰＯが行われるため、ＬＰＯが行われるレイヤーとＦＰＯが行われるレイヤーとが混在することになる。

米国特許出願公開第２０２０／０２３４１１２号明細書米国特許出願公開第２０１９／００４２９４４号明細書米国特許出願公開第２０２０／００４２２８７号明細書米国特許出願公開第２０２０／０１３４４７５号明細書米国特許出願公開第２０２０／０２４２４７４号明細書米国特許出願公開第２０１８／０３２２６０７号明細書

ここで、浮動小数点演算（Floating-point Operation）のダイナミックレンジは０が中心であるのに対し、ＤＮＮの値はダイナミックレンジがカバーする範囲から外れているため、ＤＮＮの学習に浮動小数点演算を用いるとＤＮＮの認識率が低下する。そこで、ＤＮＮの認識率の低下を防止するために、ＤＮＮの値の分布における最大値が浮動小数点演算のダイナミックレンジ内に入る範囲で、浮動小数点演算のダイナミックレンジを共有指数バイアス値によってシフトさせる演算（以下では「可変浮動小数点演算（Flexible Floating-point Operation：ＦＦＰＯ）」と呼ぶことがある）を行うことが考えられる。

しかし、ＭＰＯを行う際にＦＦＰＯを行うことが可能な演算装置は存在しないため、ＤＮＮの学習の高速化を図ることが困難であった。

そこで、本開示では、ＤＮＮの学習の高速化を図ることができる技術を提案する。

本開示の演算装置は、第一演算器と、第二演算器と、量子化器とを有する。前記第一演算器は、浮動小数点演算のダイナミックレンジをシフトさせる共有指数バイアス値を算出する。前記第二演算器は、共有指数バイアス値及び第一ビット数の浮動小数点のアクティベーション値から形成される第一データセットと、共有指数バイアス値及び前記第一ビット数の浮動小数点のウェイトから形成される第二データセットとの多数要素分の積和演算を行うことにより、前記第一ビット数より多い第二ビット数の積和演算結果を算出する。前記量子化器は、前記積和演算結果のビット数を前記第二ビット数から前記第一ビット数へ量子化することにより前記アクティベーション値を更新する。

本開示によれば、ＤＮＮの学習の高速化を図ることができる。

図１は、実施形態１のＤＮＮ学習装置の構成例を示すブロック図である。図２は、実施形態１のＳＩＭＤ演算器の構成例を示す図である。図３Ａは、実施形態１のＤＯＴ４命令の擬似コードの一例を示す図である。図３Ｂは、実施形態１のＤＯＴ４命令の擬似コードの一例を示す図である。図４は、実施形態１のＤＯＴ４演算器の内部ダイヤグラムの一例を示す図である。図５は、実施形態１の演算装置における処理手順の一例を示すフローチャートである。図６は、実施形態１のＤＮＮ学習装置におけるデータフローの一例を示す図である。図７は、実施形態１のＳＩＭＤ演算器のハードウェア構成の一例を示す図である。図８は、実施形態２のＤＯＴ４演算器の内部ダイヤグラムの一例を示す図である。

以下、添付図面を参照して本開示の実施形態について説明する。以下では、同一の構成には同一の符号を付し、重複する同一の構成または処理についての説明を省略する。また、以下の実施形態は開示の技術を限定するものではない。

［実施形態１］
＜ＤＮＮ学習装置の構成＞
図１は、実施形態１のＤＮＮ学習装置の構成例を示すブロック図である。例えば、ＤＮＮ学習装置１０として、各種のコンピュータ等の情報処理装置を採用することができる。

図１において、ＤＮＮ学習装置１０は、ＤＮＮの学習時の演算処理を行う。ＤＮＮ学習装置１０は、演算装置１１と、メモリ１２とを有する。演算装置１１は、バイアス演算器１１ａと、ＳＩＭＤ演算器１１ｂと、量子化器１１ｃとを有する。

ここで、浮動小数点演算の値ｖａｌｕｅは式（１）により与えられる。式（１）において、ｓは１ビット固定のサインビットであり、Ｎ_ｅｂｉｔは指数部ｅのビット数であり、Ｎ_ｍｂｉｔは仮数部ｍのビット数である。例えば、ＦＰ３２では、Ｎ_ｅｂｉｔ＝８、Ｎ_ｍｂｉｔ＝２３である。

入力データに非正規化データが存在しない場合、式（１）に共有指数バイアス値ｂを適用したときのＦＦＰＯの値ｖａｌｕｅは式（２），（３）により与えられる。つまり、式（２）は値ｖａｌｕｅが正規化数である場合の式である。また、共有指数バイアス値ｂは、量子化の単位で共通の単一値である。

また、共有指数バイアス値ｂは式（４）によって与えられ、式（１）に示す浮動小数点演算のダイナミックレンジをシフトさせる。式（４）におけるｅ_ｍａｘは、式（５）におけるｆ_ｍａｘの指数項であり、式（５）におけるｆは、量子化対象の全要素である。

バイアス演算器１１ａは、式（４），（５）に基づいて、固定小数点８ビット（ＩＮＴ８）の共有指数バイアス値ｂを算出する。ＳＩＭＤ演算器１１ｂは、式（２），（３）に基づいてＳＩＭＤ演算を行うことにより、積和演算結果であるＦＰ３２のテンソルｄｓｔを算出する。量子化器１１ｃは、ＦＰ３２のテンソルｄｓｔをＦＰ８のテンソルに量子化することにより、最終結果のテンソルを算出する。量子化器１１ｃでの量子化は、例えば、テンソルの全要素の指数部と仮数部を計算し、仮数部の計算において確率的丸め処理を行う等の周知の技術を用いて行うことができる。

＜ＳＩＭＤ演算器＞
図２は、実施形態１のＳＩＭＤ演算器の構成例を示す図である。図２において、ＳＩＭＤ演算器１１ｂは、ＤＯＴ４演算器２０，３０，４０，５０を有する。ＤＯＴ４演算器２０は、乗算器２１，２２，２３，２４と、加算器２５，２６とを有する。ＤＯＴ４演算器３０は、乗算器３１，３２，３３，３４と、加算器３５，３６とを有する。ＤＯＴ４演算器４０は、乗算器４１，４２，４３，４４と、加算器４５，４６とを有する。ＤＯＴ４演算器５０は、乗算器５１，５２，５３，５４と、加算器５５，５６とを有する。図２には、１２８ビットの２つのレジスタの各々に、１２８ビットの入力データｓｒｃ１と、１２８ビットの入力データｓｒｃ２の２つのデータが格納されている場合を一例として示す。入力データｓｒｃ１は、各々がＦＰ８の１６個の要素ｓｒｃ１［０］～［１５］で形成され、入力データｓｒｃ２は、各々がＦＰ８の１６個の要素ｓｒｃ２［０］～［１５］で形成される。

ＤＯＴ４演算器２０において、乗算器２１は要素ｓｒｃ１［０］と要素ｓｒｃ２［０］とを乗算し、乗算器２２は要素ｓｒｃ１［１］と要素ｓｒｃ２［１］とを乗算し、乗算器２３は要素ｓｒｃ１［２］と要素ｓｒｃ２［２］とを乗算し、乗算器２４は要素ｓｒｃ１［３］と要素ｓｒｃ２［３］とを乗算する。加算器２５は、乗算器２１での乗算結果と、乗算器２２での乗算結果と、乗算器２３での乗算結果と、乗算器２４での乗算結果とを加算する。加算器２６は、加算器２５での加算結果と加算器２６での前回の加算結果とを加算することにより今回の加算結果を得る。加算器２６での今回の加算結果が、ＤＯＴ４演算器２０での要素ｓｒｃ１［０］～［３］と要素ｓｒｃ２［０］～［３］との積和演算結果であるＦＰ３２の演算結果ｄｓｔ［０－３］となる。

また、ＤＯＴ４演算器３０において、乗算器３１は要素ｓｒｃ１［４］と要素ｓｒｃ２［４］とを乗算し、乗算器３２は要素ｓｒｃ１［５］と要素ｓｒｃ２［５］とを乗算し、乗算器３３は要素ｓｒｃ１［６］と要素ｓｒｃ２［６］とを乗算し、乗算器３４は要素ｓｒｃ１［７］と要素ｓｒｃ２［７］とを乗算する。加算器３５は、乗算器３１での乗算結果と、乗算器３２での乗算結果と、乗算器３３での乗算結果と、乗算器３４での乗算結果とを加算する。加算器３６は、加算器３５での加算結果と加算器３６での前回の加算結果とを加算することにより今回の加算結果を得る。加算器３６での今回の加算結果が、ＤＯＴ４演算器３０での要素ｓｒｃ１［４］～［７］と要素ｓｒｃ２［４］～［７］との積和演算結果であるＦＰ３２の演算結果ｄｓｔ［４－７］となる。

また、ＤＯＴ４演算器４０において、乗算器４１は要素ｓｒｃ１［８］と要素ｓｒｃ２［８］とを乗算し、乗算器４２は要素ｓｒｃ１［９］と要素ｓｒｃ２［９］とを乗算し、乗算器４３は要素ｓｒｃ１［１０］と要素ｓｒｃ２［１０］とを乗算し、乗算器４４は要素ｓｒｃ１［１１］と要素ｓｒｃ２［１１］とを乗算する。加算器４５は、乗算器４１での乗算結果と、乗算器４２での乗算結果と、乗算器４３での乗算結果と、乗算器４４での乗算結果とを加算する。加算器４６は、加算器４５での加算結果と加算器４６での前回の加算結果とを加算することにより今回の加算結果を得る。加算器４６での今回の加算結果が、ＤＯＴ４演算器４０での要素ｓｒｃ１［８］～［１１］と要素ｓｒｃ２［８］～［１１］との積和演算結果であるＦＰ３２の演算結果ｄｓｔ［８－１１］となる。

また、ＤＯＴ４演算器５０において、乗算器５１は要素ｓｒｃ１［１２］と要素ｓｒｃ２［１２］とを乗算し、乗算器５２は要素ｓｒｃ１［１３］と要素ｓｒｃ２［１３］とを乗算し、乗算器５３は要素ｓｒｃ１［１４］と要素ｓｒｃ２［１４］とを乗算し、乗算器５４は要素ｓｒｃ１［１５］と要素ｓｒｃ２［１５］とを乗算する。加算器５５は、乗算器５１での乗算結果と、乗算器５２での乗算結果と、乗算器５３での乗算結果と、乗算器５４での乗算結果とを加算する。加算器５６は、加算器５５での加算結果と加算器５６での前回の加算結果とを加算することにより今回の加算結果を得る。加算器５６での今回の加算結果が、ＤＯＴ４演算器５０での要素ｓｒｃ１［１２］～［１５］と要素ｓｒｃ２［１２］～［１５］との積和演算結果であるＦＰ３２の演算結果ｄｓｔ［１２－１５］となる。

このように、ＳＩＭＤ演算器１１ｂでは、ＤＯＴ４演算器２０が要素ｓｒｃ１［０］～［３］及び要素ｓｒｃ２［０］～［３］に対して積和演算を行い、ＤＯＴ４演算器３０が要素ｓｒｃ１［４］～［７］及び要素ｓｒｃ２［４］～［７］に対して積和演算を行い、ＤＯＴ４演算器４０が要素ｓｒｃ１［８］～［１１］及び要素ｓｒｃ２［８］～［１１］に対して積和演算を行い、ＤＯＴ４演算器５０が要素ｓｒｃ１［１２］～［１５］及び要素ｓｒｃ２［１２］～［１５］に対して積和演算を行う。つまり、ＤＯＴ４演算器２０，３０，４０，５０の各々において４要素分のドット積命令に相当するＤＯＴ４の積和演算が行われることにより、ＳＩＭＤ演算器１１ｂでは１６要素分の積和演算が同時に並列して行われる。

そして、各々がＦＰ３２である演算結果ｄｓｔ［０－３］と、演算結果ｄｓｔ［４－７］と、演算結果ｄｓｔ［８－１１］と、演算結果ｄｓｔ［１２－１５］とが結合されることにより、ＳＩＭＤ演算器１１ｂでの演算結果ｄｓｔが得られる。

図２に示す例では、入力データｓｒｃ１，ｓｒｃ２の各要素はＦＰ８であるのに対し、ＤＯＴ４演算器２０，３０，４０，５０の各々での演算結果はそれぞれＦＰ３２となる。よって、ＳＩＭＤ演算器１１ｂでのＳＩＭＤ積和演算の同時実行数は１６となり、この１６の同時実行数は、入力データがＦＰ３２の４個の要素で形成される場合の積和演算の同時実行数に比べ４倍になる。つまり、各要素がＦＰ８である１２８ビット（８ビット×１６＝１２８）の入力データに対してＳＩＭＤ演算器１１ｂを用いて積和演算を行うことにより、各要素がＦＰ３２である１２８ビット（３２ビット×４＝１２８）の入力データに対して積和演算を行う場合に比べ、積和演算の速度を４倍に高速化できる。

＜ＤＯＴ４演算＞
式（６）で表されるベクトルＡと、式（７）で表されるベクトルＢの二つのベクトルがあった場合、ベクトルＡとベクトルＢとのドット積（dot product）Ａ・Ｂは式（８）によって与えられる。

また、ＤＯＴ４命令は、ｎ＝４のドット積であり、式（９）によって与えられる。

以下、ＦＰ８のＤＯＴ４命令のハーモニックの一例について説明する。以下の説明において、Ｖ_ｄｓｔは１要素当たり３２ビットのベクトルレジスタを示し、Ｖ_ｄｓｔにはドット積の結果が格納される。Ｖ_{ｓｒｃ１,２}は１要素当たり８ビットのベクトルレジスタを示し、Ｖ_{ｓｒｃ１,２}には入力データｓｒｃ１，ｓｒｃ２が格納される。Ｘ_ｃｆｇは６４ビットの汎用レジスタを示し、Ｘ_ｃｆｇには入力データｓｒｃ１，ｓｒｃ２の共有指数バイアス値ｂが格納される。

そして、ＤＯＴ４命令の擬似コードは、Ｖ_ｄｓｔ、Ｖ_{ｓｒｃ１,２}及びＸ_ｃｆｇを用いて、図３Ａ及び図３Ｂのように表される。図３Ａ及び図３Ｂは、実施形態１のＤＯＴ４命令の擬似コードの一例を示す図である。図３Ｂは図３Ａの続きの擬似コードである。図３Ａ及び図３Ｂでは、一例として、ベクトルレジスタのベクトル長が５１２ビットである場合を考えるため、３２ビットのデータは１６要素、８ビットのデータは６４要素となる。また、図３Ｂにおけるleading_zeroは最上位ビットから０が続いた回数を返すコードであり、例えばleading_zero＝００１００の場合は２が返される。

図４は、実施形態１のＤＯＴ４演算器の内部ダイヤグラムの一例を示す図である。図４には、一例として、ＤＯＴ４演算器２０における内部ダイヤグラムを示す。また、図４には、入力データに非正規化データが存在しない場合（ｅ_８＞０の場合）の内部ダイヤグラムを示す。

図４において、ＤＯＴ４演算器２０には、入力データｓｒｃ１の各要素ｓｒｃ１［０］～［３］と、ｓｒｃ１［０］～［３］の各要素に対応するＩＮＴ８の共有指数バイアス値ｂとがセットで入力される。また同時に、ＤＯＴ４演算器２０には、入力データｓｒｃ２の各要素ｓｒｃ２［０］～［３］と、ｓｒｃ２［０］～［３］の各要素に対応するＩＮＴ８の共有指数バイアス値ｂとがセットで入力される。なお、要素ｓｒｃ１［０］～［３］及び要素ｓｒｃ２［０］～［３］の各々は、サインビットＳと、ｅ_８のＮ_ｅｂｉｔと、ｍ_８のＮ_ｍｂｉｔとによって形成される。

実施形態１のＤＯＴ４演算器２０では、図３Ａ及び図３Ｂに示す擬似コードに基づいた積和演算が以下のようにして行われることにより、ＦＰ３２の演算結果ｄｓｔ［０－３］が算出される。

すなわち、乗算器２１では、要素ｓｒｃ１［０］のｅ_８及びｍ_８と共有指数バイアス値ｂとに対し式（２）を適用して得られる８ビットのｅ_１４及び５ビットのｍ_１４の先頭にサインビットＳが付加されたデータと、要素ｓｒｃ２［０］のｅ_８及びｍ_８と共有指数バイアス値ｂとに対し式（２）を適用して得られる８ビットのｅ_１４及び５ビットのｍ_１４の先頭にサインビットＳが付加されたデータとが乗算される。

乗算器２２では、要素ｓｒｃ１［１］のｅ_８及びｍ_８と共有指数バイアス値ｂとに対し式（２）を適用して得られる８ビットのｅ_１４及び５ビットのｍ_１４の先頭にサインビットＳが付加されたデータと、要素ｓｒｃ２［１］のｅ_８及びｍ_８と共有指数バイアス値ｂとに対し式（２）を適用して得られる８ビットのｅ_１４及び５ビットのｍ_１４の先頭にサインビットＳが付加されたデータとが乗算される。

乗算器２３では、要素ｓｒｃ１［２］のｅ_８及びｍ_８と共有指数バイアス値ｂとに対し式（２）を適用して得られる８ビットのｅ_１４及び５ビットのｍ_１４の先頭にサインビットＳが付加されたデータと、要素ｓｒｃ２［２］のｅ_８及びｍ_８と共有指数バイアス値ｂとに対し式（２）を適用して得られる８ビットのｅ_１４及び５ビットのｍ_１４の先頭にサインビットＳが付加されたデータとが乗算される。

乗算器２４では、要素ｓｒｃ１［３］のｅ_８及びｍ_８と共有指数バイアス値ｂとに対し式（２）を適用して得られる８ビットのｅ_１４及び５ビットのｍ_１４の先頭にサインビットＳが付加されたデータと、要素ｓｒｃ２［３］のｅ_８及びｍ_８と共有指数バイアス値ｂとに対し式（２）を適用して得られる８ビットのｅ_１４及び５ビットのｍ_１４の先頭にサインビットＳが付加されたデータとが乗算される。

加算器２５では、乗算器２１での乗算結果と、乗算器２２での乗算結果と、乗算器２３での乗算結果と、乗算器２４での乗算結果とが加算され、８ビットのｅ_２５及び１６ビットのｍ_２５の先頭にサインビットＳが付加されたデータが加算結果として得られる。

加算器２６では、加算器２５での加算結果と加算器２６での前回の加算結果とが加算されることにより、８ビットのｅ_３２及び２３ビットのｍ_３２の先頭にサインビットＳが付加されたＦＰ３２のデータが今回の加算結果として得られる。加算器２６での今回の加算結果が、ＤＯＴ４演算器２０でのＦＰ３２の演算結果ｄｓｔ［０－３］となる。

ＤＯＴ４演算器３０でも、ＤＯＴ４演算器２０と同様に、図３Ａ及び図３Ｂに示す擬似コードに基づいて、要素ｓｒｃ１［４］～［７］と共有指数バイアス値ｂとのデータセット、及び、要素ｓｒｃ２［４］～［７］と共有指数バイアス値ｂとのデータセットに対して積和演算が行われることにより、ＦＰ３２の演算結果ｄｓｔ［４－７］が得られる。

また、ＤＯＴ４演算器４０でも、ＤＯＴ４演算器２０と同様に、図３Ａ及び図３Ｂに示す擬似コードに基づいて、要素ｓｒｃ１［８］～［１１］と共有指数バイアス値ｂとのデータセット、及び、要素ｓｒｃ２［８］～［１１］と共有指数バイアス値ｂとのデータセットに対して積和演算が行われることにより、ＦＰ３２の演算結果ｄｓｔ［８－１１］が得られる。

また、ＤＯＴ４演算器４０でも、ＤＯＴ４演算器２０と同様に、図３Ａ及び図３Ｂに示す擬似コードに基づいて、要素ｓｒｃ１［１２］～［１５］と共有指数バイアス値ｂとのデータセット、及び、要素ｓｒｃ２［１２］～［１５］と共有指数バイアス値ｂとのデータセットに対して積和演算が行われることにより、ＦＰ３２の演算結果ｄｓｔ［１２－１５］が得られる。

つまり、ＳＩＭＤ演算器１１ｂでは、要素ｓｒｃ１［０］～［１５］と共有指数バイアス値ｂとのデータセット、及び、要素ｓｒｃ２［０］～［１５］と共有指数バイアス値ｂとのデータセットに対してＤＯＴ４の積和演算が同時に並列して行われることにより、演算結果ｄｓｔ［０－３］，［４－７］，［８－１１］，［１２－１５］が結合された演算結果ｄｓｔが得られる。

＜演算装置における処理手順＞
図５は、実施形態１の演算装置における処理手順の一例を示すフローチャートである。図５において、ステップＳ１０では、バイアス演算器１１ａが共有指数バイアス値ｂを算出する。次いで、ステップＳ１５では、ＳＩＭＤ演算器１１ｂがＤＯＴ４の積和演算を用いたＳＩＭＤ演算を行う。そして、ステップＳ２０では、量子化器１１ｃがＳＩＭＤ演算の演算結果を量子化する。

＜ＤＮＮ学習装置におけるデータフロー＞
図６は、実施形態１のＤＮＮ学習装置におけるデータフローの一例を示す図である。

図６において、ステップＳ１００，Ｓ１０５では、ＦＰ８のアクティベーション値（Ｌ）及びＩＮＴ８の共有指数バイアス値（Ｌ）のデータセットと、ＦＰ８のウェイト（Ｌ）及びＩＮＴ８の共有指数バイアス値（Ｌ）のデータセットとが積和演算される。ステップＳ１００，Ｓ１０５で行われる積和演算では、アクティベーション値（Ｌ）は上記の入力データｓｒｃ１のＦＰ８の各要素ｓｒｃ１［０］～［１５］に相当し、ウェイト（Ｌ）は上記の入力データｓｒｃ２のＦＰ８の各要素ｓｒｃ２［０］～［１５］に相当する。また、共有指数バイアス値（Ｌ）は上記の共有指数バイアス値ｂに相当し、バイアス演算器１１ａによって算出される。また、ステップＳ１００，Ｓ１０５での積和演算には上記のようなＤＯＴ４の積和演算が用いられ、ステップＳ１００，Ｓ１０５での積和演算によって４要素分の積和演算結果であるＦＰ３２の積和演算結果が得られる。また、ステップＳ１００，Ｓ１０５での積和演算はＳＩＭＤ演算器１１ｂによって行われ、ステップＳ１００，Ｓ１０５での積和演算では、１６要素分（４要素分×４）の積和演算が同時に並列して行われる。

ステップＳ１１０では、ステップＳ１００，Ｓ１０５でのＦＰ３２の積和演算結果をＦＰ８にする量子化が行われ、ステップＳ１１０での量子化によって、アクティベーション値（Ｌ）がアクティベーション値（Ｌ＋１）に更新され、共有指数バイアス値（Ｌ）が共有指数バイアス値（Ｌ＋１）に更新される。ステップＳ１１０での量子化は、量子化器１１ｃによって行われる。

ステップＳ１１５では、ＦＰ３２のマスターウェイト（Ｌ）がＦＰ８に量子化されることによりＦＰ８のウェイト（Ｌ）が得られる。ステップＳ１１５での量子化は、量子化器１１ｃによって行われる。

ステップＳ１２０，Ｓ１２５では、ＦＰ８のアクティベーション値（Ｌ）及びＩＮＴ８の共有指数バイアス値（Ｌ）のデータセットと、ＦＰ８のエラー勾配（Ｌ＋１）及びＩＮＴ８の共有指数バイアス値（Ｌ＋１）のデータセットとが積和演算される。ステップＳ１２０，Ｓ１２５で行われる積和演算では、アクティベーション値（Ｌ）は上記の入力データｓｒｃ１のＦＰ８の各要素ｓｒｃ１［０］～［１５］に相当し、エラー勾配（Ｌ＋１）は上記の入力データｓｒｃ２のＦＰ８の各要素ｓｒｃ２［０］～［１５］に相当する。また、共有指数バイアス値（Ｌ），（Ｌ＋１）は上記の共有指数バイアス値ｂに相当し、バイアス演算器１１ａによって算出される。また、ステップＳ１２０，Ｓ１２５での積和演算には上記のようなＤＯＴ４の積和演算が用いられ、ステップＳ１２０，Ｓ１２５での積和演算によって４要素分の積和演算結果であるＦＰ３２の積和演算結果が得られる。また、Ｓ１２０，Ｓ１２５での積和演算はＳＩＭＤ演算器１１ｂによって行われ、ステップＳ１２０，Ｓ１２５での積和演算では、１６要素分（４要素分×４）の積和演算が同時に並列して行われる。

ステップＳ１３０では、ステップＳ１２０，Ｓ１２５でのＦＰ３２の積和演算結果をＦＰ８にする量子化が行われ、ステップＳ１３０での量子化によって、ＦＰ８のウェイト勾配（Ｌ）及びＩＮＴ８の共有指数バイアス値（Ｌ）が得られる。ステップＳ１３０での量子化は、量子化器１１ｃによって行われる。

ステップＳ１３５，Ｓ１４０では、ＦＰ８のウェイト（Ｌ）及びＩＮＴ８の共有指数バイアス値（Ｌ）のデータセットと、ＦＰ８のエラー勾配（Ｌ＋１）及びＩＮＴ８の共有指数バイアス値（Ｌ＋１）のデータセットとが積和演算される。ステップＳ１３５，Ｓ１４０で行われる積和演算では、ウェイト（Ｌ）は上記の入力データｓｒｃ１のＦＰ８の各要素ｓｒｃ１［０］～［１５］に相当し、エラー勾配（Ｌ＋１）は上記の入力データｓｒｃ２のＦＰ８の各要素ｓｒｃ２［０］～［１５］に相当する。また、共有指数バイアス値（Ｌ），（Ｌ＋１）は上記の共有指数バイアス値ｂに相当し、バイアス演算器１１ａによって算出される。また、ステップＳ１３５，Ｓ１４０での積和演算には上記のようなＤＯＴ４の積和演算が用いられ、ステップＳ１３５，Ｓ１４０での積和演算によって４要素分の積和演算結果であるＦＰ３２の積和演算結果が得られる。また、ステップＳ１３５，Ｓ１４０での積和演算はＳＩＭＤ演算器１１ｂによって行われ、ステップＳ１３５，Ｓ１４０での積和演算では、１６要素分（４要素分×４）の積和演算が同時に並列して行われる。

ステップＳ１４５では、ステップＳ１３５，Ｓ１４０でのＦＰ３２の積和演算結果をＦＰ８にする量子化が行われ、ステップＳ１４５での量子化によって、エラー勾配（Ｌ＋１）がエラー勾配（Ｌ）に更新され、共有指数バイアス値（Ｌ＋１）が共有指数バイアス値（Ｌ）に更新される。ステップＳ１４５での量子化は、量子化器１１ｃによって行われる。

＜ＳＩＭＤ演算器のハードウェア構成＞
図７は、実施形態１のＳＩＭＤ演算器のハードウェア構成の一例を示す図である。図７において、ＳＩＭＤ演算器１１ｂは、第一演算器１１ｂ－１と、第二演算器１１ｂ－２と、レジスタ１１ｂ－３とを有する。

レジスタ１１ｂ－３は１２８ビット×５のレジスタである。レジスタ１１ｂ－３には、各々がＦＰ８の１６個の要素ｓｒｃ１［０］～［１５］と、要素ｓｒｃ１［０］～［１５］の各々に対応するＩＮＴ８の１６個の共有指数バイアス値ｂと、各々がＦＰ８の１６個の要素ｓｒｃ２［０］～［１５］と、要素ｓｒｃ２［０］～［１５］の各々に対応するＩＮＴ８の１６個の共有指数バイアス値ｂと、各々がＦＰ３２の４個の前回の積和演算結果ｄｓｔ［０－３］，［４－７］，［８－１１］，［１２－１５］とが格納される。

要素ｓｒｃ１［０］～［１５］、要素ｓｒｃ１［０］～［１５］の各々に対応する共有指数バイアス値ｂ、要素ｓｒｃ２［０］～［１５］、及び、要素ｓｒｃ２［０］～［１５］の各々に対応する共有指数バイアス値ｂは、予めメモリ１２に記憶されており、メモリ１２からレジスタ１１ｂ－３に読み出される。

第一演算器１１ｂ－１は、図２に示す乗算器２１～２４、加算器２５、乗算器３１～３４、加算器３５、乗算器４１～４４、加算器４５、乗算器５１～５４、加算器５５で行われる加算及び乗算を行う。第二演算器１１ｂ－２は、図２に示す加算器２６，３６，４６，５６で行われる加算を行う。第二演算器１１ｂ－２での今回の加算結果、つまり、各々がＦＰ３２の４個の今回の積和演算結果ｄｓｔ［０－３］，［４－７］，［８－１１］，［１２－１５］はメモリ１２に記憶される。

以上、実施形態１について説明した。

［実施形態２］
実施形態１では入力データに非正規化データが存在しない場合について説明した。これに対し、実施形態２では、入力データに非正規化データが存在する点が実施形態１と異なる。

入力データに非正規化データが存在する場合、共有指数バイアス値ｂを適用したＦＦＰＯの値ｖａｌｕｅは式（１０）により与えられる。つまり、式（１０）は値ｖａｌｕｅが非正規化数である場合の式である。

図８は、実施形態２のＤＯＴ４演算器の内部ダイヤグラムの一例を示す図である。図８には、一例として、ＤＯＴ４演算器２０における内部ダイヤグラムを示す。また、図８には、入力データに非正規化データが含まれる場合（入力データにｅ_８＝０となる要素が存在する場合）の内部ダイヤグラムを示す。図８では、一例として、要素ｓｒｃ［３］のみｅ_８＝０とした。なお、図８において、乗算器２４で行われる処理以外の処理については、実施形態１と同一であるため、説明を省略する。

乗算器２４では、要素ｓｒｃ１［３］のｅ_８及びｍ_８と共有指数バイアス値ｂとに対し式（２）を適用して得られる８ビットのｅ_１４及び５ビットのｍ_１４の先頭にサインビットＳが付加されたデータと、要素ｓｒｃ２［３］のｅ_８及びｍ_８と共有指数バイアス値ｂとに対し式（１０）を適用して得られる８ビットのｅ_１４及び５ビットのｍ_１４の先頭にサインビットＳが付加されたデータとが乗算される。

以上、実施形態２について説明した。

１０ＤＮＮ学習装置
１１演算装置
１１ａバイアス演算器
１１ｂＳＩＭＤ演算器
１１ｃ量子化器
１２メモリ

Claims

浮動小数点演算のダイナミックレンジをシフトさせる共有指数バイアス値を算出する第一演算器と、
共有指数バイアス値及び第一ビット数の浮動小数点のアクティベーション値から形成される第一データセットと、共有指数バイアス値及び前記第一ビット数の浮動小数点のウェイトから形成される第二データセットとの多数要素分の積和演算を行うことにより、前記第一ビット数より多い第二ビット数の積和演算結果を算出する第二演算器と、
前記積和演算結果のビット数を前記第二ビット数から前記第一ビット数へ量子化することにより前記アクティベーション値を更新する量子化器と、
を具備する演算装置。
前記アクティベーション値に非正規化データが含まれる、
請求項１に記載の演算装置。
前記多数要素分の積和演算は、４要素分のドット積演算である、
請求項１または２に記載の演算装置。