JP2023534314A

JP2023534314A - 深層学習ネットワークのトレーニングを加速させるためのシステム及び方法

Info

Publication number: JP2023534314A
Application number: JP2023504147A
Authority: JP
Inventors: アワド，オマルモハメド; マームード，モスタファ; モショヴォス，アンドレアス
Original assignee: University of Toronto
Current assignee: University of Toronto
Priority date: 2020-07-21
Filing date: 2021-07-19
Publication date: 2023-08-08
Also published as: CA3186227A1; CN115885249A; EP4168943A1; US20230297337A1; KR20230042052A; WO2022016261A1

Abstract

深層学習ネットワークのトレーニング中に、積和（ＭＡＣ）浮動小数点ユニットを加速させるシステム及び方法が開示される。方法は、第１の入力データストリームＡ及び第２の入力データストリームＢを受信することと、第１のデータストリームＡ及び第２のデータストリームＢの指数のペアを加算して、積指数を生成することと、比較器を使用して最大指数を特定することと、累積の前に、第２のデータストリームの各仮数のシフトするべきビット数を、第１のデータストリームの対応項に積指数デルタを加算することにより特定し、加算器ツリーを使用して第２のデータストリームのオペランドを単一の部分和に削減することと、最大指数を使用して対応する桁揃え値に部分和を加算し、累積値を特定することと、累積値を出力することと、を含む。【選択図】図３

Description

下記は、概して深層学習ネットワークに関し、より具体的には深層学習ネットワークのトレーニングを加速させるためのシステム及び方法に関する。

深層学習の適用の普及及びデナードスケーリング則の終焉により、深層学習の推論及びトレーニングを加速させるための取り組みが推進されている。これらの取り組みは、アルゴリズムからミドルウェアアーキテクチャ及びハードウェアアーキテクチャまで、全システムスタックに及ぶ。トレーニングは、サブタスクとして推論を含むタスクである。トレーニングは、計算負荷及びメモリ負荷の高いタスクであり、多くの場合、数週間の計算時間を要する。

一態様では、深層学習ネットワークのトレーニング中または推論中に積和（ＭＡＣ）浮動小数点ユニットを加速させる方法が提供され、方法は、第１の入力データストリームＡ及び第２の入力データストリームＢを受信することと、第１のデータストリームＡ及び第２のデータストリームＢの指数のペアを加算して、積指数を生成することと、比較器を使用して最大指数を特定することと、累積の前に、第２のデータストリームの各仮数のシフトするべきビット数を、第１のデータストリームの対応項に積指数デルタを加算することにより特定し、加算器ツリーを使用して第２のデータストリームのオペランドを単一の部分和に削減することと、最大指数を使用して対応する桁揃え値（ａｌｉｇｎｅｄｖａｌｕｅ）に部分和を加算し、累積値を特定することと、累積値を出力することと、を含む。

方法の具体的な事例では、累積の前に、第２のデータストリームの各仮数のシフトするべきビット数を特定することは、定義されたアキュムレータ幅の外側にマッピングされた効果のない項をスキップすることを含む。

方法の別の事例では、各仮数は、符号付きの２の累乗を含む。

方法のさらに別の事例では、指数を加算して最大指数を特定することは、複数のＭＡＣ浮動小数点ユニットの間で共有される。

方法のさらに別の事例では、指数は、固定値に設定される。

方法のさらに別の事例では、方法はさらに、浮動小数点値をグループで格納することを含み、指数デルタは、ベース指数との差としてエンコードされる。

方法のさらに別の事例では、ベース指数は、グループ内の第１の指数である。

方法のさらに別の事例では、比較器を使用することは、最大指数をアキュムレータビット幅の閾値と比較することを含む。

方法のさらに別の事例では、閾値は、確実にモデルが収束するように設定される。

方法のさらに別の事例では、閾値は、トレーニング精度の０．５％以内に設定される。

別の態様では、深層学習ネットワークのトレーニング中または推論中に積和（ＭＡＣ）浮動小数点ユニットを加速させるシステムが提供され、システムは、データメモリと通信する１つ以上のプロセッサを備え、プロセッサは、入力モジュールにより、第１の入力データストリームＡ及び第２の入力データストリームＢを受信することと、指数モジュールにより、第１のデータストリームＡ及び第２のデータストリームＢの指数のペアを加算して積指数を生成し、比較器を使用して最大指数を特定することと、削減モジュールにより、累積の前に、第２のデータストリームの各仮数のシフトするべきビット数を、第１のデータストリームの対応項に積指数デルタを加算することにより特定し、加算器ツリーを使用して第２のデータストリームのオペランドを単一の部分和に削減することと、累積モジュールにより、最大指数を使用して対応する桁揃え値に部分和を加算して累積値を特定し、累積値を出力することと、を実行する。

システムの具体的な事例では、累積の前に、第２のデータストリームの各仮数のシフトするべきビット数を特定することは、定義されたアキュムレータ幅の外側にマッピングされた効果のない項をスキップすることを含む。

システムの別の事例では、各仮数は、符号付きの２の累乗を含む。

システムのさらに別の事例では、指数モジュール、削減モジュール、及び累積モジュールは、処理ユニットに配置され、指数を加算すること及び最大指数を特定することは、複数の処理ユニット間で共有される。

システムのさらに別の事例では、複数の処理ユニットは、タイル配置で構成される。

システムのさらに別の事例では、同じ列の処理ユニットは、指数モジュールからの同じ出力を共有し、同じ行の処理ユニットは、入力モジュールからの同じ出力を共有する。

システムのさらに別の事例では、指数は、固定値に設定される。

システムのさらに別の事例では、システムはさらに、浮動小数点値をグループで格納することを含み、指数デルタは、ベース指数との差としてエンコードされ、ベース指数は、グループ内の第１の指数である。

システムのさらに別の事例では、比較器を使用することは、最大指数をアキュムレータビット幅の閾値と比較することを含み、閾値は、確実にモデルが収束するように設定される。

システムのさらに別の事例では、閾値は、トレーニング精度の０．５％以内に設定される。

これらの態様及び他の態様が企図され、本明細書に記載される。当業者が下記の発明を実施するための形態を理解することを支援するために、前述の発明の概要は、実施形態の代表的な態様を提示していることが理解されよう。

図面を参照することにより、実施形態のより深い理解がもたらされるであろう。

実施形態による、深層学習ネットワークのトレーニングを加速させるためのシステムの概略図である。図１のシステム及び例示的な動作環境を示す概略図である。実施形態による、深層学習ネットワークのトレーニングを加速させるための方法のフローチャートである。ゼロ項及び及び範囲外項の例示的な実施例を示す。図１のシステムによる、指数モジュール、削減モジュール、及び累積モジュールを含む処理要素の実施例を示す。ＩｍａｇｅＮｅｔでのトレーニングＲｅｓＮｅｔ３４のエポック０及び８９における層Ｃｏｎｖ２ｄ＿８の指数分布の実施例を示す。図１のシステムによる、処理要素の別の実施形態を示す。図１のシステムによる、処理要素の２×２タイルの実施例を示す。チャネルごとにブロック化される値の実施例を示す。ベースラインに対する図１のシステムによるパフォーマンス向上を示す。モデルごとにベースラインアーキテクチャに対する図１のシステムの総エネルギー効率を示す。ベースラインに正規化された図１のシステムの消費エネルギーを、計算ロジック、オフチップデータ転送、及びオンチップデータ転送の３つの主要構成要素にわたる内訳で示す。図１のシステムがスキップできる項の内訳を示す。トレーニングの３つのフェーズのそれぞれの加速化を示す。ベースラインに対する図１のシステムの加速化を、経時的かつトレーニングプロセス全体を通して示す。タイルあたりの行数を変化させた場合のベースラインに対する図１のシステムの加速化を示す。サイクルごとに行数を変化させた場合の効果を示す。ＰｌａｉｄＭＬで図１のシステムをエミュレートすることによるトレーニングＲｅｓＮｅｔ１８の精度を示す。層ごとにプロファイルされたアキュムレータ幅と固定されたアキュムレータ幅による、図１のシステムのパフォーマンスを示す。

ここで、図面を参照して実施形態が説明される。説明を簡潔かつ明瞭にするために、適切と考えられる場合、図面間で参照番号を繰り返し使用して、対応する要素または類似の要素が示され得る。さらに、本明細書で説明される実施形態の完全な理解をもたらすために、多数の具体的な詳細が明記される。しかしながら、本明細書で説明される実施形態はこれらの具体的な詳細がなくとも実践できることが、当業者には理解されよう。他の例では、本明細書で説明される実施形態を不明瞭にしないために、周知の方法、手順、及び構成要素は、詳細に説明されていない。また、本説明は、本明細書で説明される実施形態の範囲を限定するものと見なされるべきではない。

本明細書に例示される、命令を実行するモジュール、ユニット、コンポーネント、サーバ、コンピュータ、端末、またはデバイスはいずれも、記憶媒体、コンピュータ記憶媒体、またはデータ記憶デバイス（リムーバブル及び／または非リムーバブル）、例えば磁気ディスク、光ディスク、またはテープなどのコンピュータ可読媒体を含み得る、あるいはコンピュータ可読媒体にアクセスし得る。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術で実施される揮発性及び不揮発性のリムーバブル媒体及び非リムーバブル媒体が含まれ得る。コンピュータ記憶媒体の例として、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、もしくは他のメモリ技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）、もしくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、もしくは他の磁気記憶デバイス、または所望の情報を記憶するために使用可能であり、アプリケーション、モジュール、もしくはその両方によりアクセス可能である任意の他の媒体が挙げられる。このようなコンピュータ記憶媒体はいずれも、デバイスの一部であってもよく、またはデバイスにアクセス可能もしくは接続可能であってもよい。本明細書で説明されるアプリケーションまたはモジュールはいずれも、このようなコンピュータ可読媒体により格納あるいは保持され得るコンピュータ可読／実行可能命令を使用して、実施され得る。

いくつかの深層学習ネットワークのトレーニング中に、望ましい出力が分かっている注釈付き入力のセットが、フォワードパス及びバックワードパスを繰り返し実行することにより、処理される。フォワードパスは、出力が最初は不正確である推論を実行する。しかし、望ましい出力がわかっているならば、トレーニングでは、出力が望ましい出力からどれだけ離れているかを示すメトリックである損失を、計算することができる。バックワードパス中に、この損失を使用して、ネットワークのパラメータが調整され、ネットワークのパラメータは最良の精度にゆっくりと収束される。

トレーニングを加速させるために数多くのアプローチが開発されており、幸いにも多くの場合、これらのアプローチを組わせて使用することができる。分散トレーニングでは、データ、モデル、またはパイプラインの並列処理を利用して、トレーニングのワークロードは、複数のコンピューティングノードに分割される。タイミング通信及び計算により、トレーニング時間はさらに短縮され得る。データブロック化を促進し、データの再利用を最大化するためのデータフロー最適化により、ノード内のオンチップアクセス及びオフチップアクセスのコストが削減され、メモリ階層の低コストコンポーネントからの再利用が最大化される。別の方法群により、トレーニング中に必要な中間データのフットプリントが削減される。例えば、トレーニングの最も単純な形態において、フォワードパス中に生成されたすべてのニューロン値は、バックプロパゲーション中に使用されるように保持される。代わりに、１つまたは少数のサンプルのみをバッチ処理して保持することにより、このコストは削減される。可逆圧縮法及び非可逆圧縮法により、このようなデータのフットプリントはさらに削減される。最後に、選択的バックプロパゲーション法では、バックワードパスは、ニューロンの一部にのみ損失をプロパゲーションするように変更され、よって作業が削減される。

一方、推論中のエネルギー効率を高める必要性から、トレーニング中の計算及びメモリの必要性が高い技法が生まれた。これには、トレーニング中にネットワークのプルーニング及び量子化を実行する作業が含まれる。プルーニングは、重みをゼロにするので、推論中の作業及びモデルサイズを削減する機会を生み出す。量子化は、１６ｂ、８ｂ、または４ｂの固定小数点値などのデータ型で計算する、より短くよりエネルギー効率の高いモデルを生み出す。パラメータ効率トレーニング（ＰａｒａｍｅｔｅｒＥｆｆｉｃｉｅｎｔＴｒａｉｎｉｎｇ）及び記憶されたスパースバックプロパゲーション（ＭｅｍｏｒｉｚｅｄＳｐａｒｓｅＢａｃｋｐｒｏｐａｇａｔｉｏｎ）は、プルーニング方法の実施例である。ＰＡＣＴ及び異常値認識量子化は、トレーニング時間量子化方法である。ネットワークアーキテクチャ検索技法も、モデルのアーキテクチャを調整するため、トレーニング時間が増える。

上記にもかかわらず、データセンタ及びエッジの両方でトレーニングをさらに加速させる必要性は、弱まることなく存続している。運用コスト、メンテナンスコスト、レイテンシ、スループット、及びノード数は、データセンタの主要な考慮事項である。既にトレーニング済みのモデルを改良または強化するためにトレーニングが主に使用され得るエッジでは、エネルギー及びレイテンシが主要な考慮事項である。ターゲットのアプリケーションに関係なく、ノードのパフォーマンスを向上させることは、非常に有利である。したがって、本実施形態は、既存のトレーニング加速方法を補足することができる。一般に、トレーニング中の計算及びデータ転送の大部分は、フォワードパス中及びバックワードパス中の積和演算（ＭＡＣ）を実行するためのものである。上記のように、圧縮法を使用すると、データ転送のコストを大幅に削減することができる。本開示の実施形態は、これらの演算のための処理要素をターゲットとし、トレーニング中に自然に発生する効果のない作業を利用し、その頻度は、量子化、プルーニング、及び選択的バックプロパゲーションにより拡大される。

いくつかのアクセラレータは、多くのモデルの活性化において、特にＲｅＬＵを使用する場合、自然にゼロが発生することに依存する。プルーニングされたモデルをターゲットとするアクセラレータがいくつか存在する。別のクラスの設計は、値の範囲の縮小が自然発生であるか、量子化の結果であるかにかかわらず、値の範囲が縮小されることにより恩恵を受ける。これには、ビットシリアル設計、及びＢｉｔＦｕｓｉｏｎなどの数多くの異なるデータ型に対応する設計が含まれる。最後に、別のクラスの設計は、ビットスパース性をターゲットとし、乗算をシフト加算演算の級数に分解することにより、ビットレベルで効果のない作業を明らかにする。

上記は、推論では加速するが、トレーニングでは、実質的に様々な課題が提示される。１つ目は、データ型である。推論中のモデルは、比較的限定された範囲の固定小数点値で作業するが、トレーニングが作動する値は、広範囲にわたって分布する傾向がある。したがって、トレーニングの実施態様では、浮動小数点演算が使用され、実質的にすべてのモデルには単精度ＩＥＥＥ浮動小数点演算（ＦＰ３２）で十分である。数多くのモデルのトレーニングでは、ＦＰ３２と比べてエネルギー効率及び面積効率のより高い積和ユニットの使用を促進する他のデータ型が、使用され成功している。これらには、ｂｆｌｏａｔ１６、及び８ｂ以下の浮動小数点フォーマットが含まれる。さらに、浮動小数点演算は、整数演算よりもはるかにコストがかかるため、混合データ型のトレーニング法では、浮動小数点演算は控えめにしか使用されない。これらの提案にもかかわらず、ＦＰ３２は、特に大規模で困難なデータセットのトレーニングでは、標準のフォールバックフォーマットのままである。推論中に使用される固定小数点表現は、その限定された範囲及び指数の欠如の結果、ゼロ値（表現するには小さすぎる値）、ゼロビットプレフィックス（表現できる小さな値）、及び前述の推論アクセラレータが依存するビットスパース性（ほとんどの値は小さい傾向があり、大きい値はわずかである）を生じる。ＦＰ３２は、はるかに小さい値を表すことができ、その仮数部は正規化され、ビットスパース性が存在するか否かは一般的に実証されていない。

さらに、課題として、計算構造がある。推論は、重み及び活性化の２つのテンソルで作動し、層ごとに行列／行列もしくは行列／ベクトルの乗算、またはペアワイズベクトル演算を実行して、フィードフォワード方式で次の層の活性化を生じる。トレーニングには、この計算がフォワードパスとして含まれ、その後に、第３のテンソルである勾配を含むバックワードパスが続く。最も重要なことは、バックワードパスは、活性化テンソル及び重みテンソルをフォワードパスとは異なる方法で使用するため、これらをメモリに効率的にパックすることが難しくなり、スパース性をターゲットとする推論アクセラレータにより行われるゼロ削除はさらに難しくなることである。さらに、計算構造に関連するのは、値の可変性及び値の内容である。推論では重みは静的であるが、トレーニング中はそうではない。さらに、トレーニングは、ネットワークをランダムな値で初期化し、その後ゆっくりと調整する。したがって、トレーニング中に処理された値がスパース性やビットスパース性などの同様のビヘイビアを示すとは、必ずしも見込むことはできない。推論中に全く現れない値である勾配に関しては、さらにそのようなことを見込むことはできない。

本発明者らは、トレーニング中に実行される作業の大部分は効果がないと見なされ得ることを実証した。この効果のない作業を明らかにするために、各乗算は、単一ビット積和演算の級数に分解された。これにより、効果のない作業の２つの原因が明らかとなった。第１に、入力のうちの１つがゼロであることにより、計算のうち６０％を超える計算は、効果がなくなる。第２に、拡張精度を使用している（例えば２^－６４を２^６４に累積するように試みる）場合でも、高ダイナミックレンジ（指数部）及び限定された精度（仮数部）の組み合わせは、非ゼロであるが累積結果に影響するには小さすぎる値を生じる場合が多い。

上記の観察により、本発明者らは、これらの２つのビヘイビアを利用するために、ビットスキップ（ゼロビットがスキップされるビットシリアル）処理が使用可能か否かを検討するようになった。推論では、Ｂｉｔ－Ｐｒａｇｍａｔｉｃは、片側のオペランドにこのようなビットスキップを実行するデータパラレル処理要素であり、一方で、Ｌａｃｏｎｉｃは、両側に対してこのようなビットスキップを実行する。これらの方法は、推論のみをターゲットとしているため、固定小数点値で作動する。トレーニング中の重みにはビットスパース性がほとんどないため、固定小数点設計を浮動小数点に変換することは、簡単なタスクではない。Ｂｉｔ－Ｐｒａｇｍａｔｉｃを浮動小数点に単純に変換すると、ＩＳＯ計算面積制約下でパフォーマンスが低下した、面積コストの高いユニットとなった。具体的には、８つのＭＡＣ演算を実行する最適化されたＢｆｌｏａｔ１６処理要素と比較して、ＩＳＯ計算制約下では、Ｂｆｌｏａｔ１６Ｂｉｔ－ＰｒａｇｍａｔｉｃＰＥを使用する最適化されたアクセラレータ構成は、平均で１．７２倍遅く、エネルギー効率が１．９６倍低い。最悪の事例では、Ｂｆｌｏａｔ１６Ｂｉｔ－ＰｒａｇｍａｔｉｃＰＥは、２．８６倍遅く、エネルギー効率が３．２倍低くなった。Ｂｆｌｏａｔ１６ＢｉｔＰｒａｇｍａｔｉｃＰＥは、ビットパラレルＰＥよりも２．５倍小さく、同じ面積でより多くのＢｆｌｏａｔ１６ＢｉｔＰｒａｇｍａｔｉｃＰＥを使用することができるが、すべてのビットシリアル設計及びビットスキップ設計で必要とされる並列処理によりパフォーマンスを向上させるのに十分な数のＢｆｌｏａｔ１６ＢｉｔＰｒａｇｍａｔｉｃＰＥを収めることはできない。

本実施形態（略式でＦＰＲａｋｅｒと称される）は、ビットスパース性計算及び範囲外計算の両方を活用するトレーニングアクセラレータのために、処理タイルを提供する。ＦＰＲａｋｅｒは、いくつかの事例では、空間及び時間の両方においてデータの再利用を活用できるように、グリッドに編成されたいくつかの加算器ツリーベースの処理要素を備える。処理要素は、複数の値のペアを同時に乗算し、これらの積を出力アキュムレータに累積する。処理要素は、乗算ごとの入力オペランドのうちの１つを、符号付き２の累乗の級数として処理し、これはこれまで項と称された。このオペランドの２の累乗への変換は、オンザフライで実行され得、すべてのオペランドは、メモリに浮動小数点フォーマットで格納される。処理要素は、ゼロである仮数部ビットに起因する、または現在のアキュムレータ値を考慮すると範囲外である乗算に起因する、効果のない作業を利用する。タイルは、面積効率を考慮して設計される。タイルのいくつかの事例では、処理要素は、同時に処理できる２の累乗の範囲を限定し、これにより、そのシフト加算コンポーネントのコストは、大幅に削減される。さらに、タイルのいくつかの事例では、複数の処理要素間で時間多重化される共通指数処理ユニットが使用される。さらに、タイルのいくつかの事例では、行に沿って２の累乗のエンコーダが共有される。さらに、タイルのいくつかの事例では、処理要素ごとに、バッファにより、処理要素間の作業不均衡の影響が軽減される。さらに、タイルのいくつかの事例では、ＰＥは、範囲外の中間値を排除する低コスト機構を実装する。

さらに、いくつかの事例では、本実施形態は、以下の特徴のうちの少なくともいくつかを有利に提供することができる。
・生成される数値精度の結果に影響を与えず、トレーニング中に使用される浮動小数点演算を順守する。
・ゼロの仮数部ビットに起因する効果のない演算、及び範囲外の中間値に起因する効果のない演算をスキップする。
・面積ごとの処理要素がはるかに小さいことを考慮すると、複数のサイクルの個々のＭＡＣ演算にもかかわらず、他の浮動小数点ユニットと比較して、計算スループットが高い。
・通常、トレーニングはすべてのモデルに普遍的に適用可能である必要はなく、より短い仮数部の長さに対応し、よって混合または短いデータ型を使用することで、トレーニングの利点が向上する。
・層ごとにシリアル方式で処理するためにテンソル入力を選択することが可能となり、層及びパス（フォワードまたはバックワード）に応じて、よりスパース性の高いテンソルをターゲットにすることが可能となる。

本実施形態はまた、浮動小数点値の低オーバーヘッドメモリエンコーディングを有利に提供し、これは、深層学習トレーニングに典型的である値分布に依存する。本発明者らは、チャネルにわたる連続値が、同様の値、よって指数を有することを観察した。したがって、このような値のグループのデルタとして、指数がエンコードされ得る。これらのエンコーディングは、チップの値を保存及び読み取る時に使用できるため、メモリ転送のコストをさらに削減する。

例示的な実験を通じて、本発明者らは、以下の実験観察を特定した。
・いくつかのニューラルネットワークは、トレーニング中に自然にゼロ値（スパース性）を示すが、プルーニングが使用されない限り、これは通常、活性化及び勾配に限定される。
・項スパース性は、重みを含むすべてのテンソルに通常存在し、スパース性よりもはるかに高い。
・最適化されたビットパラレルＦＰ３２処理要素を使用し、サイクルごとに４Ｋｂｆｌｏａｔ１６ＭＡＣを実行できるアクセラレータと比較すると、同じ計算面積を使用して本実施形態のＰＥを配備した構成は、１．５倍速く、エネルギー効率が１．４倍高い。
・本実施形態によるパフォーマンスの利点として、３つの主要な演算すべてのトレーニングプロセスを通して、概して安定していることが挙げられる。
・層ごとに異なる使用アキュムレータ精度を指定するトレーニング方法と併せて、本実施形態を使用することができる。ＲｅｓＮｅｔ１８では、仮数が固定幅のアキュムレータを使用する場合と比較して、パフォーマンスが３８％向上し得る。

本発明者らは、以下の２つの関連アプローチにより理論的に可能であった作業削減を測定した。
１）オペランドの少なくとも１つがゼロであるすべてのＭＡＣを削除するアプローチ（値スパース性、または単にスパース性）。
２）オペランドのうちの１つのオペランドに関して、仮数部の非ゼロビットのみを処理するアプローチ（ビットスパース性）。

異なるアプリケーションでの本実施形態のパフォーマンスを調べるために、例示的な実験が行われた。表１では、例示的な実験で研究されたモデルがリスト表示される。ＲｅｓＮｅｔ１８－Ｑは、ＰＡＣＴを使用してトレーニングされたＲｅｓＮｅｔ１８のバリアントであり、トレーニング中に、活性化及び重みの両方を４ビット（４ｂ）に小さく量子化する。ＲｅｓＮｅｔ５０－Ｓ２は、動的スパース再パラメータ化を使用してトレーニングされたＲｅｓＮｅｔ５０のバリアントであり、ベースライントレーニングに匹敵する精度レベルを達成しながら、トレーニングプロセスを通して高い重みスパース性を維持するスパース学習をターゲットとする。ＳＮＬＩは、自然言語推論を実行し、全結合層、ＬＳＴＭエンコーダ層、ＲｅＬＵ層、及びドロップアウト層で構成される。Ｉｍａｇｅ２Ｔｅｘｔは、画像からマークアップを生成するためのエンコーダ‐デコーダモデルである。ＭＬＰｅｒｆトレーニングベンチマークから、異なるタスクの３つのモデル、１）Ｄｅｔｅｃｔｒｏｎ２：ＭａｓｋＲ－ＣＮＮに基づいたオブジェクト検出モデル、２）ＮＣＦ：協調フィルタリングのモデル、及び３）Ｂｅｒｔ：Ａｔｔｅｎｔｉｏｎを使用したＴｒａｎｓｆｏｒｍｅｒベースのモデル、以上が実験された。測定では、ネットワークの本来報告されている精度までネットワークをトレーニングするのに必要な数のエポックに関して（すべてのネットワークで最大９０エポックで十分であった）、エポックごとにランダムに選択された１つのバッチがサンプリングされた。

概して、トレーニング中の計算作業の大部分は、層ごとの主要な３つの演算に起因する。

畳み込み層の場合、上記の式（１）は、活性化（Ｉ）及び重み（Ｗ）の畳み込みを表し、これは、フォワードプロパゲーション中の出力活性化（Ｚ）を生成する。出力Ｚは、次の層への入力として使用される前に、活性化関数を通過する。上記の式（１）及び式（３）は、バックワードプロパゲーションにおける活性化（∂Ｅ／∂Ｉ）勾配及び重み（∂Ｅ／∂Ｗ）勾配の計算をそれぞれ表す。活性化勾配のみが、層間でバックプロパゲーションされる。重み勾配は、バッチごとに層の重みを１回更新する。全結合層の場合、式は、いくつかの行列ベクトル演算を表す。他の演算では、式は、ベクトル演算または行列ベクトル演算を表す。明確にするために、本開示では、勾配をＧと称する。これらの測定では、ブースエンコーディングの変形である正準エンコーディングを使用して、仮数部が最初に符号付きの２の累乗にエンコードされることを表すために、本明細書では項スパース性という用語が使用される。これは、仮数部に対してビットスキップ処理が行われるからである。

実施例では、画像分類ネットワークの活性化により、すべての事例で３５％を超えるスパース性が示される。これらのネットワークは通常、負の値をゼロにクリップするＲｅＬＵ活性化関数を使用するため、このような結果は予期されることである。しかし、重みスパース性は通常低く、分類モデルのうちのいくつかのみが、それらの勾配でスパース性を示す。しかし、自然言語処理のモデルなどの残りのモデルでは、３つのテンソルすべてで値スパース性が非常に低くあり得る。それにもかかわらず、モデルは通常いくらかのスパース性を示すことから、本発明者らは、そのようなスパース性をトレーニング中に利用できるか否かを調査した。トレーニングは、推論とは異なり、すべてのテンソルで動的スパースパターンを示し、バックワードパス中に異なる計算構造を示すため、これは簡単なタスクではない。通常、３つのテンソルすべてが、ターゲットアプリケーションに関係なく、すべてのモデルで高い項スパース性を示すことがわかった。項スパース性は値スパース性よりも一般的であり、すべてのモデルに存在することを考慮すると、本実施形態は、トレーニング中にこのようなスパース性を利用して、モデルのトレーニング効率を高める。

シリアル入力のゼロ項をスキップすることにより、乗算作業の削減に起因した理想的な潜在的加速化が実現され得る。ベースラインを超える潜在的加速化は、次のように特定され得る。

本実施形態は、トレーニング中に実行される３つの演算（上記の式（１）～（３））で使用されるオペランドのうちの１つのオペランドのビットスパース性を利用し、３つの演算のすべては、数多くのＭＡＣ演算で構成される。ＭＡＣ演算をシフト加算演算の級数に分解することにより、効果のない作業が明らかとなり、エネルギー及び時間を節約する機会を得ることができる。

ＭＡＣ演算中の効果のない作業を明らかにするために、演算は、「シフト加算」演算の級数に分解され得る。乗算の場合、Ａ＝２^Ａｅ×Ａ_ｍ及びＢ＝２^Ｂｅ×Ｂ_ｍは、浮動小数点の２つの値であり、両方とも指数（Ａ_ｅ及びＢ_ｅ）及び仮数（Ａ_ｍ及びＢ_ｍ）で表され、仮数は正規化され、暗黙の「１」を含む。従来の浮動小数点ユニットは、この乗算を単一ステップで実行する（符号ビットはＸＯＲ演算される）。

Ａ_ｍを符号付き２の累乗Ａ_ｍ ^ｐの級数ｐに分解することにより、Ａ＝Σ_ｐＡ_ｍ ^ｐ及びＡ_ｍ ^ｐ＝±２^ｉである場合、乗算は次のように実行され得る。

例えば、Ａ_ｍ＝１．００００００１ｂ、Ａ_ｅ＝１０ｂ、Ｂ_ｍ＝１．１０１００１１ｂ、及びＢ_ｅ＝１１ｂである場合、Ａ×Ｂは、Ｂ_ｍ≪（１０ｂ＋１１ｂ－０）及びＢ_ｍ≪（１０ｂ＋１１ｂ－１１１ｂ）の２つのシフト加算演算として実行され得る。従来の乗算器は、ゼロである６ビットの効果のない作業を実行するにもかかわらず、Ａ_ｍのすべてのビットを処理する。

しかし、浮動小数点が高ダイナミックレンジの値を表現しようとする結果、従来のユニットはさらなる効果のない作業を実行することが、上記の分解により明らかになる。略式に言えば、乗算中に行われる作業の一部は、アキュムレータ値を考慮すると範囲外の値になる。このようになる理由を理解するには、乗算だけでなく累積も考慮する必要がある。積Ａ×Ｂが現行の和Ｓに累積され、Ｓ_ｅは、Ａ_ｅ＋Ｂ_ｅよりはるかに大きいと仮定する。仮数部の限定された精度を考慮すると、Ｓ＋Ａ×Ｂの和を表すことは不可能である。他の事例では、丸め、すなわち部分的スワンピングを実行するために使用される増加された仮数部の長さを考慮しても、「シフト及び加算」演算のうちのいくつかは、仮数部外に含まれることが保証される。図４は、ゼロ項及び及び範囲外項の例示的な実施例を示す。従来のパイプライン化されたＭＡＣユニットは、最善でも、指数を比較した後で乗算結果全体が範囲外になった場合にのみ、乗算器及びアキュムレータをパワーゲーティングすることができる。しかし、この機会を利用してサイクル数を減らすことはできない。乗算をいくつかのより単純な演算に分解することにより、本実施形態は、ビットが最上位から最下位へと処理されるならば、単一サイクルで演算を終了し、よって、別のＭＡＣをより早く開始することでパフォーマンスを高めることができる。加算器ツリー処理要素で複数のＡ×Ｂ積を並列に処理する場合も、同じことが当てはまる。従来の加算器ツリーベースのＭＡＣユニットは、範囲外になる積に対応する乗算器及び加算器ツリーブランチを、潜在的にパワーゲーティングすることができる。サイクルはまだ消費され得る。有利なことに、本実施形態では、シフト加算ベースのアプローチにより、このような積を単一サイクルで終了させ、代わりに他の積を進めることができる。

ここで図１及び図２を参照すると、一実施形態による、深層学習ネットワークのトレーニングを加速させるためのシステム１００（略式でＦＰＲａｋｅｒと称される）が示される。この実施形態では、システム１００は、コンピューティングデバイス２６上で実行され、インターネットなどのネットワーク２４を介してサーバ３２上にあるコンテンツにアクセスする。さらなる実施形態では、システム１００は、デバイス２６上でのみ、またはサーバ３２上でのみ、実行され得、あるいは任意の他のコンピューティングデバイス上、例えばデスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、サーバ、スマートウォッチ、または分散コンピューティングデバイス（複数可）もしくはクラウドコンピューティングデバイス（複数可）などで、実行及び／または分散され得る。いくつかの実施形態では、システム１００のコンポーネントは、単一のコンピュータシステムにより格納され、単一のコンピュータシステム上で実行される。他の実施形態では、システム１００のコンポーネントは、ローカルまたはリモートに分散され得る２つ以上のコンピュータシステム間に分散される。

図１は、システム１００の実施形態の様々な物理コンポーネント及び論理コンポーネントを示す。図示されるように、システム１００は、複数の物理コンポーネント及び論理コンポーネントを有し、これには、処理ユニット１０２（１つ以上のプロセッサを備える）、ランダムアクセスメモリ（「ＲＡＭ」）１０４、入力インターフェース１０６、出力インターフェース１０８、ネットワークインターフェース１１０、不揮発性ストレージ１１２、及び処理ユニット１０２が他のコンポーネントと通信することを可能にするローカルバス１１４が含まれる。処理ユニット１０２は、下記でより詳細に説明されるように、様々なモジュールを実行する、または実行を指示することができる。ＲＡＭ１０４は、比較的応答性の高い揮発性ストレージを、処理ユニット１０２に提供する。入力インターフェース１０６により、管理者またはユーザは、例えばキーボード及びマウスなどの入力デバイスを介して、入力を提供することが可能となる。出力インターフェース１０８は、例えばディスプレイ及び／またはスピーカなどの出力デバイスに、情報を出力する。ネットワークインターフェース１１０は、典型的なクラウドベースアクセスモデルの場合など、システム１００から遠隔に配置された他のコンピューティングデバイス及びサーバといった他のシステムと通信することを可能にする。不揮発性ストレージ１１２は、オペレーティングシステム及びモジュールを実施するためのコンピュータ実行可能命令を含むオペレーティングシステム及びプログラム、ならびにこれらのサービスが使用する任意のデータを、格納する。下記に説明されるように、さらなる格納データが、データベース１１６に格納され得る。システム１００の動作中、実行を容易にするために、オペレーティングシステム、モジュール、及び関連データは、不揮発性ストレージ１１２から取得され、ＲＡＭ１０４に配置され得る。

実施形態では、システム１００は、１つ以上のモジュール及び１つ以上の処理要素（ＰＥ）１２２を含む。いくつかの事例では、ＰＥを組み合わせてタイルにすることができる。実施形態では、システム１００は、入力モジュール１２０、圧縮モジュール１３０、及びトランスポーザモジュール１３２を含む。各処理要素１２２は、複数のモジュールを含み、これには、指数モジュール１２４、削減モジュール１２６、及び累積モジュール１２８が含まれる。いくつかの事例では、上記のモジュールのうちのいくつかは、専用ハードウェアまたは別個のハードウェアで少なくとも部分的に実行され得、一方、他の事例では、モジュールのうちのいくつかにおける機能のうちの少なくともいくつかは、処理ユニット１０２で実行される。

入力モジュール１２０は、ＭＡＣ演算を行うＡデータ及びＢデータの２つの入力データストリームをそれぞれ受信する。

ＰＥ１２２は、８つのＢｆｌｏａｔ１６（Ａ、Ｂ）値ペアの乗算を実行し、同時に結果を累積モジュール１２８に累積する。Ｂｆｌｏａｔ１６フォーマットは、符号ビット、続いてバイアスされた８ｂ指数、及び正規化された７ｂ仮数（仮数部）で構成される。図５は、指数モジュール１２４、削減モジュール１２６、及び累積モジュール１２８の３つのブロックで計算を行うＰＥ１２２設計のベースラインを示す。いくつかの事例では、１回のサイクルで３つのブロックが実行され得る。ＰＥ１２２を組み合わせて、いくつかのＰＥ１２２を含むより面積効率の高いタイルを構築することができる。Ａのオペランドのそれぞれにおける仮数は、正準エンコーディングを使用して項（符号付き２の累乗）の級数にオンザフライで変換され、例えば、Ａ＝（１．１１１００００）は、（＋２^＋１、－２^－４）にエンコードされる。このエンコーディングは、ＰＥ１２２への入力の直前に行われる。すべての値は、メモリ内に存在する間は、ｂｆｌｏａｔ１６フォーマットで維持される。ＰＥ１２２は、Ａの値を、項シリアル方式で処理する。累積モジュール１２８は、拡張された１３ｂ（１３ビット）の仮数部を有し、これには、先頭の１（隠しビット）に１ｂ、チャンクサイズが６４のチャンクベース累積スキームに従った拡張精度に９ｂ、さらに、最も近い偶数への丸めに３ｂが含まれる。累積モジュール１２８は、隠しビットの後にさらなる整数部を３ビット有するため、８つの積を累積することから起こる最悪の事例にも適合できる。全体として、累積モジュール１２８は、１６ｂ、４ビットの整数部、及び１２ビットの小数部を有する。

ＰＥ１２２は、図６に示されるように、８つの８ビットＡ指数Ａ_ｅ０、・・・、Ａ_ｅ７、これらの対応する８つの３ビット仮数項ｔ_０、・・・、ｔ_７（正準エンコーディング後）、及び符号ビットＡ_ｓ０、・・・、Ａ_ｓ７、これら共に、８つの８ビットＢ指数Ｂ_ｅ０、・・・、Ｂ_ｅ７、これらの仮数Ｂ_ｍ０、・・・、Ｂ_ｍ７（現状）、及びこれらの符号ビットＢ_ｓ０、・・・、Ｂ_ｓ７を受け入れる。図６は、ＩｍａｇｅＮｅｔでのトレーニングＲｅｓＮｅｔ３４のエポック０及び８９における層Ｃｏｎｖ２ｄ＿８の指数分布の実施例を示す。図６は、８ｂ指数の全範囲［－１２７：１２８］のうちの使用部分のみを示す。

指数モジュール１２４は、Ａの指数及びＢの指数のペアを加算して、対応する積の指数ＡＢｅ_ｉを生成する。比較器ツリーは、これらの積指数とアキュムレータの指数を用いて、最大指数ｅ_ｍａｘを計算する。すべての積が正しく合計され得るように、最大指数を使用してすべての積の桁が揃えられる。積ごとの適切な桁揃えを決定するために、指数モジュール１２４は、すべての積指数をｅ_ｍａｘから減算して、桁揃えオフセットδｅ_ｉを計算する。累積すると範囲外になる項を破棄するためにも、最大指数は使用される。ＰＥ１２２は、ｅ_ｍａｘ－１２の範囲外になるすべての項をスキップする。いずれにせよ、８つのＭＡＣを処理するための最小サイクル数は、値に関係なく１サイクルになる。結果の積のうちの１つが現在のアキュムレータ指数よりも大きい指数を有する場合、累積モジュール１２８は、累積の前に適宜シフトされる（ａｃｃｓｈｉｆｔ信号）。指数モジュール１２４の実施例は、図５の第１のブロックに示される。

項による乗算はシフトすることになるため、削減モジュール１２６は、累積の前に、各Ｂ仮数のシフトするべきビット数を特定する。これらは、４ビットの項Ｋ_０、・・・、Ｋ_７である。Ｋ_ｉを計算するために、削減モジュール１２６は、積指数デルタ（δｅ_ｉ）を、対応するＡの項ｔ_ｉに加算する。範囲外項をスキップするために、削減モジュール１２６は、各Ｋ項の前に比較器を配置し、比較器は、各Ｋ項を、利用可能なアキュムレータビット幅の閾値と比較する。モデルがＩｍａｇｅＮｅｔデータセットでＦＰ３２トレーニング精度の０．５％以内に確実に収束するように、閾値は設定され得る。また一方、閾値は、動的ビット幅アキュムレータを実施して効果的に制御することができ、動的ビット幅アキュムレータは、スキップする「範囲外」ビットの数を増やすことで、パフォーマンスを向上させることができる。Ａの符号ビットは、これらの対応するＢの符号ビットとＸＯＲ演算され、積Ｐ_ｓ０、・・・、Ｐ_ｓ７の符号が特定される。Ｂの仮数は、これらの対応する積符号に従って補足され、次いでオフセットＫ_０、・・・、Ｋ_７を使用してシフトされる。削減モジュール１２６は、Ｂの仮数ごとにシフタを使用して、乗算を実施する。対照的に、従来の浮動小数点ユニットは、乗算器の出力にシフタを要する。よって、削減モジュール１２６は、乗算器のコストを効果的に削減する。いくつかの事例では、各Ｂオペランドから、アキュムレータの範囲外にシフトされるビットは、最近接偶数への丸め（ｒｏｕｎｄ－ｔｏ－ｎｅａｒｅｓｔ－ｅｖｅｎ、ＲＮＥ）アプローチを使用して丸められ得る。加算器ツリーは、８つのＢオペランドを、１つの部分和に削減する。削減モジュール１２６の実施例は、図５の第２のブロックに示される。

累積モジュール１２８では、削減モジュール１２６から得られた部分和が、累積レジスタの正しく桁が揃えられた値に追加される。各累積ステップで、アキュムレータレジスタは、正規化され、最近接偶数への丸め（ＲＮＥ）スキームを使用して丸められる。正規化ブロックにより、アキュムレータの指数が更新される。アキュムレータの値が読み出されると、仮数の７ｂのみが抽出され、ｂｆｌｏａｔ１６に変換される。累積モジュール１２８の実施例は、図５の第３のブロックに示される。

最悪の場合、図５の実施例の累積モジュール１２８は、１２ビットの小数部を有することから、２つのＫ_ｉオフセットは、最大で１２異なり得る。これは、ベースラインＰＥ１２２が比較的大きなシフタと、幅広い入力を受け入れるアキュムレータツリーを要することを意味する。具体的には、ＰＥ１２２には、８ｂ（７ｂの仮数＋隠しビット）の値を最大１２ポジションまでシフトできるシフタが必要である。これが整数演算であった場合、１２＋８＝２０ｂ幅を累積する必要がある。しかし、これは浮動小数点ユニットであるため、最上位１４ビット（１ｂの隠しビット、１２ｂの小数部ビット、及び符号ビット）のみが累積される。この範囲を下回るビットはいずれも、各入力オペランドの最下位ビットであるスティッキービットに含まれる。予期される指数分布を利用することにより、このコストを大幅に削減することが可能である。ＲｅｓＮｅｔ３４の層の指数分布では、入力の指数、重み、及び出力勾配の大部分が、狭い範囲内に存在する。これは、一般的な事例では、指数デルタが比較的小さいことを示唆している。さらに、活性化のＭＳＢは、１であることが保証されている（非正規数に対応していないことを所与として）。これは、Ｋ_０、・・・、Ｋ_７オフセットが狭い範囲内に存在することが非常に多いことを示す。システム１００は、このビヘイビアを利用して、ＰＥ１２２面積を縮小する。例示的な構成では、単一サイクルで処理できるＫ_ｉオフセット間の最大差は、最大３に制限されている。その結果、シフタは、最大３ｂのシフトに対応する必要があり、そこで加算器は、１２ｂ入力（１ｂの隠しビット、７ｂ＋３ｂの仮数部ビット、及び符号ビット）を処理する必要がある。この事例では、項エンコーダユニットは、最大差が３であるＡの項のグループを送信するように変更される。

いくつかの事例では、Ａの値のグループを処理することは、これらのうちのいくつかは複数の項に変換されるため、複数のサイクルが必要になる。この間、指数モジュール１２４への入力は変化しない。さらに面積を削減するために、システム１００は、この予期されるビヘイビアを利用して、複数のＰＥ１２２にわたり指数ブロックを共有することができる。指数モジュール１２４を共有するＰＥ１２２の数は、予期されるビットスパース性に基づいて決定され得る。ビットスパース性が低いほど、ＰＥ１２２あたりの処理時間が長くなり、指数の新たなセットが必要になる頻度は少なくなる。ゆえに、指数モジュール１２４を共有できるＰＥ１２２が多くなる。いくつかのモデルはスパース性が高いため、このような状況では、２つのＰＥ１２２ごとに１つの指数モジュール１２４を共有することが最適であり得る。図７は、ＰＥ１２２の別の実施形態を示す。ＰＥ１２２は全体で、８つのＡの入力の１セットと、Ｂの入力の２セット、Ｂ及びＢ’を入力として受け入れる。指数モジュール１２４は、一度に（Ａ、Ｂ）または（Ａ、Ｂ’）のうちの１つを処理することができる。指数モジュール１２４が（Ａ、Ｂ）を処理するサイクル中、ＰＥ＃１用のマルチプレクサは、ｅ_ｍａｘ及び指数デルタを、直接ＰＥ１２２に渡す。同時に、これらの値は、ＰＥ１２２が入力Ａのすべての項を処理している間、これら値が一定に保たれるように、ＰＥ１２２の前のレジスタにラッチされる。指数ブロックが（Ａ、Ｂ’）を処理する時、前述のプロセスは、ＰＥ＃２に進む。この構成では、両方のＰＥ１２２は、すべてのＡの項の処理を終了しなければ、Ａの値の別のセットの処理に進むことはできない。指数モジュール１２４は共有されるので、８つのＡの値の各セットは、処理するのに少なくとも２サイクルかかる（セットがゼロ項を含んでいても）。

ＰＥ１２２ごとにバッファを利用することで、データの再利用を時間的に活用することができる。データの再利用を空間的に活用するために、システム１００は、いくつかのＰＥ１２２をタイルに配置し得る。図８は、ＰＥ１２２の２×２タイルの実施例を示し、各ＰＥ１２２は、８つのＭＡＣ演算を並列に実行する。列ごとのＰＥ１２２の各ペアは、上述のように指数モジュール１２４を共有する。Ｂ及びＢ’の入力は、同じ行のＰＥ１２２にわたり共有される。例えば、フォワードパス中に、各行で処理される異なるフィルタと、列にわたり処理される異なるウィンドウとが存在し得る。Ｂ及びＢ’の入力は共有されるため、すべての列は、Ｂ及びＢ’の入力の次のセットに進む前に、Ａｉの項が最も多い列が終了するのを待機する必要がある。これらのストールを減らすために、タイルは、Ｂ及びＢ’ごとにバッファを含み得る。ＰＥ１２２ごとにこのようなバッファをＮ個有することにより、列は最大で値のＮセット分、先に進めることが可能になる。

本発明者らは、トレーニング中に値の空間相関を研究し、チャネルにわたり連続する値が同様の値を有することを発見した。これは、活性化、重み、及び出力勾配に当てはまる。浮動小数点の同様の値は、同様の指数を有し、システム１００は、ベースデルタ圧縮スキームを介して、この特性を活用することができる。図９の実施例に示されるように、いくつかの事例では、値は、チャネルごとにそれぞれ３２個の値のグループにブロック化され得、グループ内の第１の値の指数がベースとなり、グループ内の残りの値のデルタ指数がベースに対して計算される。デルタ指数のビット幅（δ）は、グループごとに動的に特定され、グループごとの結果のデルタ指数の最大精度に設定される。デルタ指数のビット幅（３ｂ）は、メタデータとして各グループのヘッダーに付加される。

図１０は、ベースデルタ圧縮後の正規化された指数フットプリントの合計メモリ節約を示す。圧縮モジュール１３０は、この圧縮スキームを使用して、オフチップメモリ帯域幅を削減する。値は、各層の出力で、オフチップに書き込む前に圧縮され、オンチップで読み戻される時に復元される。

本発明者らは、範囲外項をスキップすることは低コストになり得ると判断した。処理要素１２２は、レーンごとに比較器を使用して、レーンの現在のＫ項がアキュムレータ精度値の閾値内にあるかをチェックし得る。比較器は、定数と比較するための合成ツールにより最適化され得る。処理要素１２２は、現在のｅ＿ａｃｃ値を考慮すると、同じ入力ペアに由来する後続の項はいずれも効果のない（範囲外である）ことが保証されることを示す信号を、対応する項エンコーダにフィードバックし得る。よって、システム１００は、後続の範囲外項の処理をスキップすることにより、そのパフォーマンス及びエネルギー効率を向上させることができる。同じタイル列のＰＥにわたる特定レーンの範囲外項を示すフィードバック信号は、一緒に同期化され得る。

通常、深層学習では、データ転送がかなりの部分を占め、多くの場合、エネルギー消費の大半を占める。したがって、実行ユニットをビジー状態に保つためにメモリ階層は何をする必要があるかを検討することが有用である。トレーニングの課題は、３つの配列Ｉ、Ｗ、及びＧを処理する間、要素がグループ化される順序が３つの主要な計算（上記の式１～３）で異なることである。しかし、配列がオフチップから読み出される時に配列を再配置することは可能である。この目的のために、システム１００は、３２×３２のｂｆｌｏａｔ１６値の「正方形」のコンテナを使用して、配列をメモリに格納し得る。これは、ＤＤＲ４メモリの典型的な行サイズに通常合うサイズであり、このサイズにより、システム１００は、オフチップから値を読み出す時に高帯域幅を達成することが可能となる。コンテナには、座標（ｃ、ｒ、ｋ）（チャネル、行、列）～（ｃ＋３１、ｒ、ｋ＋３１）の値が含まれ、ｃ及びｋは３２で割り切れる（必要に応じてパディングを使用する）。コンテナは、チャネル、列、行の順に格納される。オフチップメモリから読み出される時、コンテナの値は、まったく同じ順序でマルチバンクのオンチップバッファに格納され得る。その後、タイルは、直接データにアクセスして、アクセスごとに８つのｂｆｌｏａｔ１６値を読み出すことができる。重み及び活性化勾配は、実行される演算に応じて異なる順序で処理される必要があり得る。通常、それぞれの配列は、演算のうちの１つの演算中に、必ず転置順序でアクセスされる。このために、システム１００は、トランスポーザモジュール１３２をオンチップで含み得る。例では、トランスポーザモジュール１３２は、オンチップメモリから８つのｂｆｌｏａｔ１６値の８つのブロックを読み込む。これらの８つの読み取りのそれぞれは、８つの値の幅の読み取りを使用し、ブロックは、トランスポーザバッファの内部に行として書き込まれる。これらのブロックは集合的に、値の８×８ブロックを形成する。トランスポーザモジュール１３２は、それぞれ８つの値の８つのブロックを読み出し、これらをＰＥ１２２に送信し得る。これらのブロックのそれぞれは、その内部バッファから列として読み出され得る。このようにして、８×８値グループは、効果的に転置される。

本発明者らは、従来の浮動小数点ユニットを使用する同等のベースラインアーキテクチャと比較して、システム１００の利点を評価するために例示的な実験を実施した。

システム１００（略式でＦＰＲａｋｅｒと称される）及びベースラインアーキテクチャの実行時間をモデル化するために、カスタムサイクルアキュレートシミュレータが開発された。シミュレータは、タイミングビヘイビアのモデル化に加えて、時間内の値の転送及び計算を忠実にモデル化し、生成された値が黄金値に対して正確であることを確認した。シミュレータは、マイクロベンチマークにより検証された。面積及び消費電力の分析には、システム１００設計及びベースライン設計の両方がＶｅｒｉｌｏｇで実装され、Ｓｙｎｏｐｓｙｓ社のＤｅｓｉｇｎＣｏｍｐｉｌｅｒを使用してＴＳＭＣ社の６５ｎｍ技術と、所与の技術の商用ライブラリと合成された。レイアウト生成には、Ｃａｄｅｎｃｅ社のＩｎｎｏｖｕｓが使用された。Ｉｎｔｅｌ社のＰＳＧＭｏｄｅｌＳｉｍを使用してデータ駆動型のアクティビティ係数が形成され、これはＩｎｎｏｖｕｓに供給され、電力が推定された。ベースラインＭＡＣユニットは、面積、エネルギー、及びレイテンシに関して最適化された。通常、３つすべてを最適化することは不可能であるが、しかしＭＡＣユニットの場合は可能である。効率的なビットパラレル融合ＭＡＣユニットが、ベースラインＰＥとして使用された。構成要素である乗算器は、面積及びレイテンシの両方で効率的であり、Ｓｙｎｏｐｓｙｓ社が開発したＤｅｓｉｇｎＷａｒｅＩＰライブラリから取得される。さらに、ベースラインユニットは、そのＩ／Ｏオペランドの精度をｂｆｌｏａｔ１６に低減し、低減した精度でチャンクベース累積により累積を行うことにより、深層学習トレーニングのために最適化された。オンチップＳＲＡＭグローバルバッファ（ＧＢ）の面積及びエネルギー消費は、ＣＡＣＴＩを使用してモデル化された活性化メモリ、重みメモリ、及び勾配メモリに分割される。グローバルバッファは奇数のバンクを有し、ストライドが１より大きい層のバンク競合を減らす。システム１００（ＦＰＲａｋｅｒ）及びベースラインの両方の構成が、表２に示される。

システム１００を評価するために、トレーニングの各エポックにおけるフォワードパス中及びバックワードパス中に、１つのランダムミニバッチのトレースが収集された。すべてのモデルは、報告されている最大トップ１精度を達成するのに十分な時間、トレーニングされた。トレースを収集するために、各モデルは、ＮＶＩＤＩＡ社のＲＴＸ２０８０ＴｉＧＰＵでトレーニングされ、Ｐｙｔｏｒｃｈのフォワードフック及びバックワードフックを使用して、各層の入力及び出力のすべてが保存された。ＢＥＲＴの場合、ＧＬＵＥタスクに関するＢＥＲＴベーストレーニング及び微調整トレーニングが追跡された。シミュレータはトレースを使用して実行時間をモデル化し、エネルギーをモデル化できるようにアクティビティ統計を収集した。

システム１００の実施形態は、入力のうちの１つを項シリアル方式で処理するので、システム１００は、並列処理を使用して、より多くのパフォーマンスを抽出する。１つのアプローチでは、ＩＳＯ計算面積制約（ｉｓｏ－ｃｏｍｐｕｔｅａｒｅａｃｏｎｓｔｒａｉｎｔ）を使用して、ベースラインタイルと同一面積に適合できるＰＥ１２２タイル数が特定され得る。

比較された従来のＰＥは、８ペアのｂｆｌｏａｔ１６値を同時に処理し、これらの合計を累積した。入力（Ａ及びＢ）と出力のためにバッファを含めることができるため、データの再利用を時間的に活用することができる。データの再利用を空間的に活用するためにも、複数のＰＥ１２２は、グリッド状に配置され、行及び列にわたりバッファ及び入力が共有され得る。システム１００及びベースラインの両方は、８×８ベクトル行列乗算を実行する拡張されたＧＰＵＴｅｎｓｏｒ－Ｃｏｒｅ的タイルを有するように構成され、６４個のＰＥ１２２が８×８のグリッド状に編成され、各ＰＥが８つのＭＡＣ演算を並列に実行する。

レイアウト後、計算面積のみを考慮すると、システム１００の実施形態のタイルは、ベースラインタイルに対して、０．２２％の面積を占める。表３は、タイルごとの対応する面積及び電力を報告する。したがって、ＩＳＯ計算面積比較を実行するには、ベースラインアクセラレータは８タイルで構成される必要があり、システム１００は３６タイルで構成される必要がある。オンチップＳＲＡＭグローバルバッファの面積は、活性化、重み、及び勾配に関してそれぞれ、３４４ｍｍ^２、９３．６ｍｍ^２、及び３３４ｍｍ^２である。

図１０は、ベースラインに対するシステム１００によるパフォーマンス向上を示す。平均して、システム１００は、ベースラインの１．５倍のパフォーマンスを示す。研究された畳み込みベースのモデルでは、ＲｅｓＮｅｔ１８－Ｑがシステム１００から最も恩恵を受けており、ベースラインの２．０４倍、パフォーマンスが向上している。このネットワークのトレーニングには、ＰＡＣＴ量子化が組み込まれており、その結果、トレーニングプロセスを通した活性化及び重みのほとんどが、４ｂ以下に収まり得る。これにより、項スパース性が高くなり、システム１００により利用される。この結果は、システム１００が特殊な量子化方法で利益をもたらすことができ、この目的のためにハードウェアも特殊化される必要はないことを示す。

ＳＮＬＩ、ＮＣＦ、及びＢｅｒｔは、全結合層で大半が占められる。全結合層では、異なる出力活性化間での重みの再利用はないが、トレーニングは、バッチ処理を利用して、同じ入力文の複数の入力（例えば単語）にわたる重みの再利用を最大化することができ、これにより、タイルＰＥの使用率が高まる。ビットスパース性の結果、加速化が生じる。例えば、ＳＮＬＩの場合、そのビットスパース性が高いため、システム１００は、ベースラインの１．８倍の加速化を達成する。

図１１は、研究されたモデルのそれぞれに関して、ベースラインアーキテクチャに対するシステム１００の総エネルギー効率を示す。平均してシステム１００は、計算ロジックのみを考慮すると、ベースラインと比べて１．４倍エネルギー効率が高く、すべてを考慮すると、１．３６倍エネルギー効率が高い。エネルギー効率の改善は、パフォーマンス利益に密接に追随する。例えば、利益は、ＳＮＬＩ及びＤｅｔｅｃｔｒｏｎ２では、約１．７倍高くなる。ＲｅｓＮｅｔ１８－Ｑの量子化により、計算ロジックのエネルギー効率は、１．９７倍高くなる。図１２は、ベースラインに正規化されたシステム１００の消費エネルギーを、計算ロジック、オフチップデータ転送、及びオンチップデータ転送の３つの主要構成要素にわたる内訳で示す。システム１００は、指数ベースデルタ圧縮に伴い、計算ロジック及びオフチップメモリのエネルギー消費が大幅に削減される。

図１３は、システム１００がスキップする項の内訳を示す。これには、１）ゼロ項をスキップする場合と、２）浮動小数点表現の精度が限定されているため、範囲外となった非ゼロ項をスキップする場合と、の２つの場合がある。範囲外項をスキップすることにより、ＲｅｓＮｅｔ５０－Ｓ２及びＤｅｔｅｃｔｒｏｎ２の項スパース性が、それぞれ約１０％及び約５．１％増加する。ＶＧＧ１６及びＳＮＬＩなどのスパース性の高い（ゼロ値を有する）ネットワークは、項スパース性の大部分がゼロ項に由来することから、範囲外項をスキップすることによる利益が最も少ない。これは、開始する項が少ないためである。ＲｅｓＮｅｔ１８－Ｑでは、活性化及び重みが４ｂの値に効果的に量子化されるため、ほとんどの利益が、ゼロ項をスキップすることに由来する。

図１４は、トレーニングの３つのフェーズのそれぞれの加速化を示し、Ａ×Ｗは、フォワードプロパゲーションであり、Ａ×Ｇ及びＧ×Ｗは、バックプロパゲーションの重み勾配及び入力勾配をそれぞれ計算する。システム１００は、３つのフェーズすべてに関して一貫してベースラインをパフォーマンスで上回っている。加速化は、項スパース性の量と、モデル、層、及びトレーニングフェーズにわたるＡ、Ｗ、及びＧの値分布とに依存する。値が有する項が少ないほど、システム１００がパフォーマンスを向上させる可能性は高くなる。しかし、ＰＥ１２２がサイクルごとに実行できるシフトは制限されているため（最大３ポジション）、値の内で項がどのように分散されるかが、値の処理に必要なサイクル数に影響する。このビヘイビアは、レーンにわたり同じＰＥ１２２に、及び同じタイル内のＰＥ１２２にわたり、当てはまる。通常、同時に処理される値のセットは、特定の項スパースパターンに変換される。いくつかの事例では、システム１００は、項が互いに数値的に近いパターンを好み得る。

図１５は、研究されたすべてのネットワークに関して、ベースラインに対するシステム１００の加速化を、経時的かつトレーニングプロセス全体を通して示す。測定は、３つの異なる傾向を示す。ＶＧＧ１６の場合、加速化は、最初の３０エポックでより高く、その後は約１５％低下して横ばいになる。ＲｅｓＮｅｔ１８－Ｑの場合、加速化は、エポック３０後に約１２．５％増加し、安定する。これは、活性化及び重みを４ビット以下に量子化するようにＰＡＣＴクリッピングハイパーパラメータが最適化されていることに起因し得る。残りのネットワークの場合、加速化は、トレーニングプロセス全体を通して安定した状態が維持される。概して、システム１００のパフォーマンスは堅固であり、これによりすべてのトレーニングエポックにわたりパフォーマンス向上がもたらされることが、測定により示される。タイル編成の効果では、図１６に示されるように、タイルごとの行数を増やすと、平均６％パフォーマンスが低下する。このパフォーマンスの低下は、列あたりの多数のＰＥ１２２間の同期が原因である。行数が増えると、より多くのＰＥ１２２が、Ａの値の同じセットを共有する。他よりも多くの項を有するＡの値は、多数のＰＥ１２２に影響を与えることとなり、処理が完了するまで待機する必要がある。各ＰＥ１２２は異なる組み合わせの入力ベクトルを処理するため、各ＰＥ１２２は、「項なし」ストールまたは「制限されたシフト」ストールなどのＰＥ１２２内ストールにより、異なる影響を受け得る。図１７は、各構成における時間経過の内訳を示す。ＰＥ１２２間同期のストールが増加することにより、他のレーンのストール（「項なし」）も増加することがわかる。

図３は、実施形態による、深層学習ネットワークのトレーニング中に積和ユニット（ＭＡＣ）を加速するための方法３００のフローチャートを示す。

ブロック３０２にて、入力モジュール１２０は、ＭＡＣ演算を行うＡデータ及びＢデータの２つの入力データストリームをそれぞれ受信する。

ブロック３０４にて、指数モジュール１２４は、Ａデータ及びＢデータの指数のペアを加算して積指数を生成し、比較器を使用して最大指数を決定する。

ブロック３０６にて、削減モジュール１２６は、累積の前に、Ｂの各仮数のシフトするべきビット数を、Ａデータの対応項に積指数デルタを加算することにより特定し、加算器ツリーを使用してＢのオペランドを単一の部分和に削減する。

ブロック３０８にて、累積モジュール１２８は、最大指数を使用して対応する桁揃え値に部分和を加算し、累積値を特定する。

ブロック３１０にて、累積モジュール１２８は、累積値を出力する。

ＦＰＲａｋｅｒによるトレーニングが精度に及ぼす効果を研究するために、例示的な実験では、バックエンドのＯｐｅｎＣＬコンパイラに基づく機械学習フレームワークであるＰｌａｉｄＭＬでのエンドツーエンドトレーニングの間、ＰＥ１２２のビットシリアル処理がエミュレートされた。ＰｌａｉｄＭＬは、トレーニング中、乗加算ごとに、強制的にｍａｄ（）関数を使用させられた。ＰＥの処理をエミュレートするために、ｍａｄ（）関数は、本開示の実施態様でオーバーライドされた。ＲｅｓＮｅｔ１８は、ＣＩＦＡＲ－１０及びＣＩＦＡＲ－１００のデータセットでトレーニングされた。第１の線は、ＰｌａｉｄＭＬにおいてＦＰ３２精度でネイティブにトレーニングした場合のトップ１検証精度を示す。ベースラインは、ビットパラレルＭＡＣをｂｆｌｏａｔ１６のＩ／Ｏオペランド精度で実行し、これは、収束することが知られており、当技術分野で対応されている。図１８は、エミュレートされた両バージョンが、両データセットに関して、エポック６０で、ネイティブトレーニングバージョンに対して０．１％以内の精度差で、収束することを示す。システム１００は効果のない作業、すなわちベースラインＭＡＣ処理の最終結果に影響を与えない作業をスキップするため、このような結果は予期されることである。

従来、トレーニングではすべての計算にｂｆｌｏａｔ１６が使用される。いくつかの事例では、混合データ型１２２演算が使用され得、計算のうちのいくつかでは、固定小数点が代わりに使用される。その他の事例では、浮動小数点が使用され得、仮数部で使用されるビット数が、演算ごと及び層ごとで異なる。いくつかの事例では、ＩｍａｇｅｎｅｔでＡｌｅｘＮｅｔ及びＲｅｓＮｅｔ１８をトレーニングする際は、推奨される仮数部精度が使用され得る。図１９は、このアプローチに従うシステム１００のパフォーマンスを示す。システム１００は、層ごとに可変アキュムレータ幅を動的に利用して、アキュムレータ外にマッピングされた効果のない項をスキップして、全体のパフォーマンスを向上させ得る。層ごとにプロファイルされたアキュムレータ幅を使用してＩｍａｇｅＮｅｔでＲｅｓＮｅｔ１８をトレーニングすると、システム１００の加速化は、Ａ×Ｗ、Ｇ×Ｗ、Ａ×Ｇに関して、それぞれ１．５１倍、１．４５倍、及び１．２２倍向上する。固定アキュムレータ幅を使用したトレーニングで可能な１．１３倍と比較して、これは、ベースラインに対し１．５６倍の全体的な加速化を達成する。ｂｆｌｏａｔ１６コンテナの使用中に仮数部の長さを調整すると、仮数部にゼロビットのサフィックスが表示される。

有利なことに、システム１００は、複数の積和浮動小数点演算を実行することができ、これらすべては、単一の最終値に寄与する。処理要素１２２は、ニューラルネットワークをトレーニングするためのアクセラレータの構築ブロックとして使用され得る。システム１００は、トレーニング中にすべての値が示す比較的高い項レベルスパース性を利用する。本実施形態は、システム１００をトレーニングに使用することを説明したが、推論にも使用できることを理解されたい。システム１００は、浮動小数点を使用するモデル、例えば言語システムまたは推奨システムを処理するモデルに、特に有利であり得る。

有利なことに、システム１００により、効率的な精密トレーニングが可能となる。量子化に対する層の感度に応じて、トレーニング中、各層に異なる精度が割り当てられ得る。さらに、トレーニングでは、低い精度から開始し、変換（ｃｏｎｖｅｒｓｉｏｎ）付近のエポックごとの精度は高くすることができる。システム１００により、異なる精度に対する動的適応が可能となり得、パフォーマンス及びエネルギー効率が向上し得る。

システム１００を使用して、固定小数点演算を実行することもできる。よって、浮動小数点を使用して演算のうちのいくつかが実行され、固定小数点を使用して演算のうちのいくつかが実行されるトレーニングを、システム１００を使用して実施することができる。固定小数点演算を実行するために、（１）指数は、既知の固定値、通常はゼロに相当する値に設定され、（２）外部上書き信号は、１である暗黙の先頭ビットを仮数が含まないことを示す。さらに、トレーニング中に実行される演算は、推論中に実行される演算のスーパーセットであり得るため、システム１００は、推論に使用することができる。

本発明は、特定の具体的な実施形態を参照して説明されたが、これらの様々な変更は、本明細書に添付の特許請求の範囲に概説される本発明の趣旨及び範囲から逸脱することなく、当業者には明白であろう。

Claims

深層学習ネットワークのトレーニング中または推論中に積和（ＭＡＣ）浮動小数点ユニットを加速させる方法であって、
第１の入力データストリームＡ及び第２の入力データストリームＢを受信することと、
前記第１のデータストリームＡ及び前記第２のデータストリームＢの指数のペアを加算して、積指数を生成することと、
比較器を使用して最大指数を特定することと、
累積の前に、前記第２のデータストリームの各仮数のシフトするべきビット数を、前記第１のデータストリームの対応項に積指数デルタを加算することにより特定し、加算器ツリーを使用して前記第２のデータストリームのオペランドを単一の部分和に削減することと、
前記最大指数を使用して対応する桁揃え値に前記部分和を加算し、累積値を特定することと、
前記累積値を出力することと、
を含む、前記方法。
累積の前に、前記第２のデータストリームの各仮数のシフトするべき前記ビット数を特定することは、定義されたアキュムレータ幅の外側にマッピングされた効果のない項をスキップすることを含む、請求項１に記載の方法。
各仮数は、符号付きの２の累乗を含む、請求項１に記載の方法。
前記指数を加算して前記最大指数を特定することは、複数のＭＡＣ浮動小数点ユニットの間で共有される、請求項１に記載の方法。
前記指数は、固定値に設定される、請求項１に記載の方法。
浮動小数点値をグループで格納することをさらに含み、
前記指数デルタは、ベース指数との差としてエンコードされる、請求項１に記載の方法。
前記ベース指数は、前記グループ内の第１の指数である、請求項６に記載の方法。
前記比較器を使用することは、前記最大指数をアキュムレータビット幅の閾値と比較することを含む、請求項１に記載の方法。
前記閾値は、確実にモデルが収束するように設定される、請求項８に記載の方法。
前記閾値は、トレーニング精度の０．５％以内に設定される、請求項９に記載の方法。
深層学習ネットワークのトレーニング中または推論中に積和（ＭＡＣ）浮動小数点ユニットを加速させるシステムであって、前記システムは、データメモリと通信する１つ以上のプロセッサを備え、前記プロセッサは、
入力モジュールにより、第１の入力データストリームＡ及び第２の入力データストリームＢを受信することと、
指数モジュールにより、前記第１のデータストリームＡ及び前記第２のデータストリームＢの指数のペアを加算して積指数を生成し、比較器を使用して最大指数を特定することと、
削減モジュールにより、累積の前に、前記第２のデータストリームの各仮数のシフトするべきビット数を、前記第１のデータストリームの対応項に積指数デルタを加算することにより特定し、加算器ツリーを使用して前記第２のデータストリームのオペランドを単一の部分和に削減することと、
累積モジュールにより、前記最大指数を使用して対応する桁揃え値に前記部分和を加算して累積値を特定し、前記累積値を出力することと、
を実行する、前記システム。
累積の前に、前記第２のデータストリームの各仮数のシフトするべき前記ビット数を特定することは、定義されたアキュムレータ幅の外側にマッピングされた効果のない項をスキップすることを含む、請求項１１に記載のシステム。
各仮数は、符号付きの２の累乗を含む、請求項１１に記載のシステム。
前記指数モジュール、前記削減モジュール、及び前記累積モジュールは、処理ユニットに配置され、
前記指数を加算すること及び前記最大指数を特定することは、複数の処理ユニット間で共有される、請求項１１に記載のシステム。
前記複数の処理ユニットは、タイル配置で構成される、請求項１４に記載のシステム。
同じ列の処理ユニットは、前記指数モジュールからの同じ出力を共有し、同じ行の処理ユニットは、前記入力モジュールからの同じ出力を共有する、請求項１５に記載のシステム。
前記指数は、固定値に設定される、請求項１１に記載のシステム。
浮動小数点値をグループで格納することをさらに含み、
前記指数デルタは、ベース指数との差としてエンコードされ、
前記ベース指数は、前記グループ内の第１の指数である、請求項１１に記載のシステム。
前記比較器を使用することは、前記最大指数をアキュムレータビット幅の閾値と比較することを含み、
前記閾値は、確実にモデルが収束するように設定される、請求項１１に記載のシステム。
前記閾値は、トレーニング精度の０．５％以内に設定される、請求項１９に記載のシステム。